寫在前面
主動學習(Active learning)旨在通過只在數(shù)據(jù)集上選擇信息最豐富的樣本來降低標記成本?,F(xiàn)有的工作很少涉及到目標檢測的主動學習。目前僅有的一些目標檢測主動學習方法大多基于多個模型或是分類方法的直接擴展,因此只使用分類頭來估計圖像的信息量。
本文提出了一種新的目標檢測的深度主動學習方法,依賴于混合密度網(wǎng)絡,估計每個定位頭和分類頭輸出的概率分布。作者明確地估計了單個模型的單一正向傳遞中的偶然(aleatoric)不確定性 和認知(epistemic)不確定性 。
本文的方法使用一個評分函數(shù),聚合兩個head的這兩種類型的不確定性,以獲得每個圖像的信息性得分。作者在PSCAL VOC和MSCOCO數(shù)據(jù)集上證明了本文方法的有效性。
論文和代碼地址
Active Learning for Deep Object Detection via Probabilistic Modeling
論文地址:https://arxiv.org/abs/2103.16130
代碼地址:未開源
Motivation
深度檢測網(wǎng)絡的性能取決于標記數(shù)據(jù)的大小。在此基礎上,研究人員探索策略,選擇數(shù)據(jù)集中信息最豐富的樣本進行標記,稱為主動學習。通常,這是通過設計一個計算網(wǎng)絡不確定性的評分函數(shù)來實現(xiàn)的。
一般來說,預測不確定性被分解為偶然和認知不確定性。前者是指數(shù)據(jù)中固有的噪聲(如傳感器噪聲),或者遮擋、缺乏視覺特征造成的信息缺失 (也就是數(shù)據(jù)本身的不確定性)。后者是指由于缺乏模型知識而引起的不確定性 (也就是由于模型沒有學好產(chǎn)生的不確定性),與訓練數(shù)據(jù)的密度成反比。
建模和區(qū)分這兩種類型的不確定性在主動學習中非常重要,因為它允許深度學習模型了解它們的局限性,即識別樣本中的可疑預測(偶然不確定性),并識別不類似于訓練集的樣本(認知不確定性)。目前僅有的一些目標檢測主動學習方法大多基于多個模型或是分類方法的直接擴展,因此只使用分類頭來估計圖像的信息量。
本文提出了一種新的用于目標檢測的主動學習方法。作者的方法使用單個模型和單次正向傳遞,與基于多個模型的方法相比,顯著降低了計算成本。盡管如此,作者的方法還是達到了很高的精度。為了做到這一點,作者充分利用了定位和分類的偶然和認知不確定性。
如上圖所示,本文的方法是一個混合密度網(wǎng)絡,該網(wǎng)絡學習每個head輸出的高斯混合模型(GMM)來計算偶然和認知不確定性。為了有效地訓練網(wǎng)絡,作者提出了一個損失函數(shù),作為不一致數(shù)據(jù)的正則化器,從而生成更魯棒的模型。
本文的方法通過聚合圖像中包含的每個對象的所有定位和分類的不確定性來估計每個圖像的信息量得分。作者通過實驗表明,利用來自分類和定位中的兩種不確定性是提高準確性的關鍵因素。
本文的方法優(yōu)于基于單模型的方法,并且與使用多模型的方法相比,本文的方法依舊產(chǎn)生了相似的精度,同時顯著降低了計算成本。方法
如上圖所示,本文的方法的關鍵新穎之處在于設計神經(jīng)網(wǎng)絡的輸出層來預測概率分布,而不是預測網(wǎng)絡的每個輸出的單個值。為此,作者提出使用一個混合密度網(wǎng)絡,其中網(wǎng)絡的輸出由一組GMM的參數(shù)組成:平均的μ、方差和GMM的第k個分量的混合權重π。給定這些參數(shù),就可以估計最終的偶然和認知不確定性:
3.1. Object detection with mixture modeling
Localization
在目標檢測中,邊界框b由其中心(x和y)的坐標、其寬度(w)和高度(h)來定義。在本文中,作者的混合模型不是預測一個確定性值,而是預測了每個邊界框的3組參數(shù):均值,方差,混合權重,如下所示:
邊界框中每個坐標的帶有K個模型的GMM的參數(shù)如下:
其中,π是每個組件的混合權重,μ是邊界框的每個輸出的預測值,Σ是每個坐標的方差,表示其偶然不確定性。作者使用softmax函數(shù)將π保持在概率空間中,并使用Sigmoid函數(shù)來滿足方差的正性約束。
Localization loss
傳統(tǒng)的邊界框回歸損失,即smooth L1損失,只考慮了預測的邊界框和GT的坐標。因此,它不能考慮邊界框的模糊性(偶然不確定性)。為了訓練混合密度網(wǎng)絡的定位,作者提出了一種基于負對數(shù)似然損失的定位損失。
本文的損失使GMM的參數(shù)回歸到anchor box的中心(x、y)、寬度(w)和高度(h)的偏移量:
其中l(wèi)為預測邊界框,N為正匹配數(shù),為第j個GT box,λ為第i個anchor與第j個GT box是否匹配的指示函數(shù),在實驗中,ε=e?9。
Classification
對于目標檢測的分類頭,本文的方法估計了每個類的均值μ和方差,以及GMM的每個混合權重π。首先跟上一節(jié)一樣,先對網(wǎng)絡輸出的值進行預處理,然后利用高斯噪聲和方差對μ,得到第i個bounding box的類概率分布:
Classification loss
為了訓練混合密度網(wǎng)絡進行分類,作者提出了一個考慮Anchor Box與GT Box的損失函數(shù),并考慮了 hard negative mining。更準確地說,作者將分類損失表示為和,分別代表代表正樣本和負樣本的貢獻:
其中C為類數(shù),0表示背景類,N為正匹配數(shù),M為難負例挖掘比例。作者沒有使用所有的負匹配,而是混合分類損失對它們進行分類,并選擇前M×N個作為最終的負匹配進行訓練。
Final loss
作者將使用混合密度網(wǎng)絡訓練目標檢測器的總體損失函數(shù)定義為:
在推理時,可以通過將混合模型的K個分量相加,計算每個類的置信分數(shù)和邊界框的坐標如下:3.2. Improving parameter efficiency
為了預測輸出值的概率分布,本文的方法涉及到修改網(wǎng)絡的最后一層,從而導致參數(shù)數(shù)量的增加,特別是在分類頭。
更準確地說,對于大小為F×F的輸出特征圖,使用C類、D個anchor和每個邊界框使用4個坐標定義,新層中估計K個具有3個參數(shù)的組件的GMM的參數(shù)量為:定位:,分類:??梢钥吹椒诸愵^中的參數(shù)數(shù)量與類的數(shù)量成正比。因此,作者希望通過減少分類頭中參數(shù)的數(shù)量來提高算法的效率。如上圖所示,作者放寬了估計方差的問題,每個類的概率直接通過下面的公式得到:
最后,對提高參數(shù)效率的模型訓練分類損失進行修改如下:3.3. Scoring function
主動學習中的評分函數(shù)為每張圖像提供一個值,表示其信息量。本文的評分函數(shù)通過聚合圖像中每個邊界框的每個參數(shù)的所有偶然和認知不確定性值來估計圖像的信息量。
具體來說,設是一組圖像的不確定性值集合(偶然不確定性或認知不確定性),其中是第i幅圖像中第j個對象的不確定性。對于定位任務,是4個邊界框輸出上的最大值。我們首先使用z-score歸一化μσ對這些值進行歸一化,以避免邊界框坐標的值是無界的以及圖像的每個不確定性可能有不同的值域范圍等問題。然后,圖像中每個檢測目標的最大不確定性為整張圖片的不確定性。利用上述算法,我們就獲得了每個圖像的四種不同的歸一化不確定性值:分類和定位的認知不確定性和偶然不確定性。剩下的部分是把這些分數(shù)匯總成一個分數(shù)。作者發(fā)現(xiàn),采用最大值的方式來聚合這些值效果最好。實驗
4.1. Object detection with mixture modeling
上表分別總結了本文對VOC07和MS-COCO進行的實驗結果。所有包含概率建模的網(wǎng)絡在兩個數(shù)據(jù)集上都優(yōu)于SSD。
上圖展示了一些對于不準確檢測的偶然不確定性和認知不確定性的例子。在這些例子中,即使預測是錯誤的,不確定性值似乎也不相關,這表明每個不確定性都可以獨立預測不準確的結果。
從這些結果中,作者得出了一個結論:本文的方法不僅計算了單個模型的單次正向傳遞的不確定性,而且提高了檢測網(wǎng)絡的性能。
4.2. Active learning evaluation
Scoring aggregation function
上表比較了平均函數(shù)的不同聚合方式,可以看出,求最大值的方式是最好的。
Comparison to SOTA on VOC07
上表總結了本文的主動學習方法的結果和計算成本。這些結果表明,盡管有較低的計算成本,本文提出的方法與以前的工作相比提高了主動學習采樣性能。
Comparison to SOTA on VOC07+12
從(a)中可以看出,本文的方法優(yōu)于所有其他基于單模型的方法。從(b)中可以看出,在準確性而言,本文的方法的性能與集成相當。
Comparison to SOTA on MS-COCO
在COCO數(shù)據(jù)集上 ,上表總結了本文的方法與主動學習方法相比的主動學習性能和計算成本。
4.3. Scalability and dataset transferability
上表展示了本文的評分函數(shù)和混合密度模型創(chuàng)建在不同數(shù)據(jù)集和檢測器上的可遷移性。總結
在本文中,作者提出了一種新的目標檢測的深度主動學習方法。在單個模型的一次正向傳遞中,依賴于混合密度網(wǎng)絡來估計定位和分類任務的兩種不確定性,并在評分函數(shù)中對信息量進行評分。
本文的混合建模和評分函數(shù)在精度和計算成本方面取得了顯著的改進。此外,作者還在不同數(shù)據(jù)集和不同網(wǎng)絡架構上,證明了本文方法的可遷移性。