下面要介紹的論文發(fā)于2019年12月,題為「ROIMIX: PROPOSAL-FUSION AMONG MULTIPLE IMAGESFOR UNDERWATER OBJECT DETECTION」。
axriv地址為:https://arxiv.org/abs/1911.03029
近年來,通用的目標(biāo)檢測(cè)算法已經(jīng)證明了其卓越的性能。然而,關(guān)于水下目標(biāo)檢測(cè)的話題卻很少被研究。和一般的數(shù)據(jù)集相比,水下圖像通常具有色偏和低對(duì)比度的特點(diǎn),并且沉淀物也會(huì)導(dǎo)致水下圖像模糊。另外,由于水下動(dòng)物的生活習(xí)性,它們通常在圖像上挨得很近。為了解決這些問題,本論文的工作是研究增強(qiáng)策略以模擬重疊,遮擋和模糊的目標(biāo),并構(gòu)建一個(gè)可以有更好的泛化能力的模型。論文提出了一種稱為ROIMIX的增強(qiáng)方法,該方法可以表征圖像之間的相互作用。之前的圖像增強(qiáng)方法都是在單張圖像上運(yùn)行,而ROIMIX是應(yīng)用于多個(gè)圖像以創(chuàng)建增強(qiáng)后的訓(xùn)練樣本數(shù)據(jù)。實(shí)驗(yàn)結(jié)果表明,此方法在PASCAL VOC數(shù)據(jù)集和URPC數(shù)據(jù)集上均提高了雙階段目標(biāo)檢測(cè)器的性能。
研究背景
很多目標(biāo)檢測(cè)器在通用數(shù)據(jù)集如PACCAL VOC,MSCOCO上實(shí)現(xiàn)了比較好的性能。然而,水下環(huán)境更加復(fù)雜并且由于光照影響導(dǎo)致水下圖像往往存在對(duì)比度低,紋理失真和光照不均勻的特點(diǎn),這導(dǎo)致檢測(cè)更加困難。
Figure1(a)展示了密集分布的生物,它們彼此覆蓋,并且因?yàn)橐恍┏恋砦镒兊媚:?。水下機(jī)器人檢測(cè)比賽(URPC)提供了有挑戰(zhàn)性的水下目標(biāo)檢測(cè)數(shù)據(jù)集,該數(shù)據(jù)集包含大量重疊,遮擋和模糊的水下生物。現(xiàn)有的數(shù)據(jù)增強(qiáng)方法對(duì)重疊,遮擋和模糊目標(biāo)還沒有進(jìn)行很好的研究。如果檢測(cè)模型僅僅適應(yīng)訓(xùn)練數(shù)據(jù),它將缺乏泛化能力,無法應(yīng)對(duì)復(fù)雜的水下環(huán)境。
因此,論文提出通過在多個(gè)圖像之間混合候選區(qū)域來模擬目標(biāo)的重疊,遮擋和模糊。從理論上分析,遵循經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化原則(ERM),深度模型致力于最小化訓(xùn)練數(shù)據(jù)上的平均誤差,但是它們有過擬合的風(fēng)險(xiǎn)。具體來說,ERM指導(dǎo)深層模型記憶訓(xùn)練數(shù)據(jù),而不是從中概況。同時(shí),這些模型容易受到對(duì)抗樣本的攻擊。數(shù)據(jù)增強(qiáng)被用來緩解過擬合問題,根據(jù)最小風(fēng)險(xiǎn)(VRM)原則,通過增強(qiáng)策略在類似于訓(xùn)練數(shù)據(jù)的樣本上對(duì)模型進(jìn)行了優(yōu)化。在圖像分類領(lǐng)域,平移和翻轉(zhuǎn)是增強(qiáng)訓(xùn)練數(shù)據(jù)量的常用策略。
諸如Mixup,CutMix之類的方法致力于創(chuàng)造更好的訓(xùn)練數(shù)據(jù)。本文提出了一種稱為RoIMix的數(shù)據(jù)增強(qiáng)算法,可以提高模型對(duì)重疊,遮擋和模糊目標(biāo)的檢測(cè)能力。這個(gè)方法被用于雙階段檢測(cè)器如Faster-RCNN上,和之前在單個(gè)物體上進(jìn)行數(shù)據(jù)增強(qiáng)的方法相比,ROIMIX更注重圖像之間的交互。直接在目標(biāo)檢測(cè)中應(yīng)用像Mixup這樣的圖像級(jí)融合會(huì)導(dǎo)致來自不同圖像的區(qū)域建議框未對(duì)齊,如Figure1(b)所示。
為了準(zhǔn)確模擬重疊,遮擋和模糊的情況,論文執(zhí)行了候選框級(jí)別融合。用這種方式,此方法在Pascal VOC和URPC上取得了出色的目標(biāo)檢測(cè)性能,并在URPC 2019水下目標(biāo)檢測(cè)競(jìng)賽上奪冠。
相關(guān)工作
數(shù)據(jù)增強(qiáng)
除此之外,基于CutMix的預(yù)訓(xùn)練模型可以在Pascal VOC上實(shí)現(xiàn)性能提升,但它并不是專門為目標(biāo)檢測(cè)器設(shè)計(jì)的。本文充分考慮了基于區(qū)域定位的目標(biāo)檢測(cè)器的特性,并提出了一種新的數(shù)據(jù)增強(qiáng)方法。
Faster-RCNN及其變體
Faster-RCNN是雙階段目標(biāo)檢測(cè)器發(fā)展史上的里程碑。它由三個(gè)模塊組成:一個(gè)負(fù)責(zé)提取特征的骨干網(wǎng)絡(luò)如AlexNet,VGG,ResNet和RPN等,一個(gè)在特征圖上生成候選框集合的全卷積網(wǎng)絡(luò),一個(gè)對(duì)候選框區(qū)域進(jìn)行分類回歸的網(wǎng)絡(luò)。
注意,在區(qū)域分類和位置回歸步驟中是沒有共享計(jì)算的。而R-FCN提取了空間感知的區(qū)域特征,并在分類回歸階段移除了全連接層來共享計(jì)算而不會(huì)降低性能。Faster-RCNN的另外一個(gè)問題是它使用最后一層特征圖進(jìn)行檢測(cè),對(duì)小目標(biāo)的檢測(cè)能力比較差。
因此Lin等提出了特征金字塔網(wǎng)絡(luò)FPN,它結(jié)合了低層特征可以更好的最小目標(biāo)做預(yù)測(cè)。本文的方法具有通用性,可以應(yīng)用于各種雙階段目標(biāo)檢測(cè)器。
方法
如Figure2所示,本文提出的方法在RPN和ROI分類器之間應(yīng)用。使用RPN產(chǎn)生ROI,并以隨機(jī)的比例混合它們。該比例是根據(jù)Beta分布產(chǎn)生的,然后,使用混合樣本來訓(xùn)練模型。下面開始詳細(xì)的描述ROIMIX算法并討論其背后的原理。
算法
讓
x\in R^{H\times W \times C} 和 y 代表一個(gè)候選框和它的標(biāo)簽。ROIMIX旨在混合兩個(gè)從多個(gè)圖像中產(chǎn)生的隨機(jī) RIO(x_i,y_i) 和 (x_i,y_i) 來產(chǎn)生新的候選框 (\tilde{x}, \tilde{y}) ,ROIs的大小通常不同,所以我們需要將 x_j 縮放到和 x_{i \cdot} 大小完全一致。產(chǎn)生的訓(xùn)練數(shù)據(jù)(\tilde{x}, \tilde{y})被用來直接訓(xùn)練檢測(cè)模型。混合操作的公式定義如下:\tilde{x} = \lambda' x_i + (1 - \lambda ') x_i, ~~~~\tilde{y} =y_i其中
\lambda' 是兩個(gè)候選框的混合系數(shù)。不像Mixup算法那樣直接從一個(gè)參數(shù)為 \alpha 的Beta分布 B中直接采樣
\lambda ,\lambda = B(a,a)這里給第一個(gè)ROI區(qū)域
x_i 選擇較大系數(shù),即:\lambda' = \max{(\lambda, 1- \lambda)}其中,max代表返回兩個(gè)參數(shù)中的較大者。原因是我們要使用
y_i 當(dāng)作混合ROI的標(biāo)簽。本方法混合了沒有沒有標(biāo)簽的ROIs,這類似于傳統(tǒng)的數(shù)據(jù)增強(qiáng)方法。它僅僅影響訓(xùn)練,并在測(cè)試過程中保持模型不變。使用這種方法,就可以獲得模擬重疊的,遮擋的和模糊的目標(biāo)的新ROIs。Figure3可視化出了這個(gè)方法的過程。最終,使用此方法得到的新ROIs代替了原始的區(qū)域建議框。最終通過最小化這些生成樣本的原始損失函數(shù)來進(jìn)行訓(xùn)練。代碼級(jí)別的信息在Algorithm1中展示。
Figure3中x1,x2表示了兩個(gè)分別包含扇貝和海膽的ROI,而
x_3 表示從訓(xùn)練數(shù)據(jù)集中截出的有遮擋的樣本(海膽位于扇貝上),通過ROIMIX,x1和x2被混合為和 x_3 類似的 \tilde{x} ,用于模擬遮擋和模糊的情況。討論
論文通過ROIMIX來模擬目標(biāo)的重疊,遮擋,以幫助模型隱式的學(xué)習(xí)更好的密集目標(biāo)檢測(cè)能力。從統(tǒng)計(jì)學(xué)習(xí)理論的角度來看,ROIMIX是兩個(gè)候選框之間的一個(gè)線性插值結(jié)果,決策邊界可能會(huì)變得更平滑而不會(huì)急劇過度。具體來說,ROIMIX遵循VRM原理而不是ERM原理,從而使得深度學(xué)習(xí)模型泛化能力更強(qiáng)。遵循ERM原理訓(xùn)練得模型可以最大程度的減少經(jīng)驗(yàn)風(fēng)險(xiǎn),以幫助模型更好的擬合訓(xùn)練數(shù)據(jù)。定義經(jīng)驗(yàn)風(fēng)險(xiǎn)
R_{\delta} 為:R_{\delta}(f) = \frac{1}{n} \sum_{i=1}^{n} l(f(x_i), y_i)其中
f 代表將 x 映射到 y 的非線性函數(shù), n 代表樣本數(shù), l 代表?yè)p失函數(shù)用來衡量 x_i 和 y_i的距離。ROIMIX遵循VRM規(guī)則,并生成訓(xùn)練數(shù)據(jù)的鄰近分布。然后就可以用生成的數(shù)據(jù)
(\tilde{x},\tilde{y}) 來代替原始的訓(xùn)練數(shù)據(jù) (x_i,y_i) ,并將期望風(fēng)險(xiǎn) R_v 近似為:R_v(f) = \frac{1}{n} \sum_{i=1}^{n} l(f(\tilde{x}),\tilde{y})因此訓(xùn)練過程已經(jīng)變成最大幅度的減少期望風(fēng)險(xiǎn)
R_v 。在每一個(gè)輪次中,ROIMIX都會(huì)生成不同的鄰近訓(xùn)練數(shù)據(jù)。以這種方式,模型的魯棒性變得更高。實(shí)驗(yàn)
在URPC 2018上的實(shí)驗(yàn)結(jié)果
論文在URPC 2018上對(duì)這個(gè)方法進(jìn)行了全面的評(píng)估。該數(shù)據(jù)集包含2901張訓(xùn)練圖像和800張測(cè)試圖像,涵蓋4個(gè)目標(biāo)類別,包括海參,海膽,扇貝和海星。
論文選擇在ImageNet上預(yù)訓(xùn)練的ResNet-101作為骨干網(wǎng)絡(luò),并從每張圖像中提取128個(gè)ROI特征。并對(duì)Faster-RCNN使用默認(rèn)的超參數(shù),評(píng)估方法使用平均精度(mAP)。在URPC 2018的實(shí)驗(yàn)中,將Beta分布的超參數(shù)a設(shè)置為0.1。
實(shí)驗(yàn)結(jié)果如Table1所示,從表中可以看到Max操作分別帶來了2.06%和1.8%的Map值提升,這說明了等式(3)的重要性。其次,在比較GT框和ROIs混合的效果時(shí)發(fā)現(xiàn),混合ROIs比混合GT對(duì)性能的改善貢獻(xiàn)更大。此外,論文還評(píng)估了圖像之間進(jìn)行交互的重要性?!癝ingleRoIMix”指的是在單個(gè)圖像上選擇和混合ROIs,而論文提出的方法是混合一個(gè)批次中多張圖像的ROIs。Table1中的第2行和第5行顯示,和單個(gè)圖像混合相比,在多個(gè)圖像之間混合ROIs可以提升0.41%Map值。Figure4可視化了Baseline(Faster-RCNN)和本論文提出的方法的檢測(cè)結(jié)果。在Figure4(b)中標(biāo)記了3個(gè)紅色框,其中兩個(gè)是模糊和重疊的海參,另一個(gè)是不完整的扇貝。BaseLine模型無法檢測(cè)到三個(gè)紅色框中的目標(biāo),而論文中的方法可以成功檢測(cè)。這說明此方法對(duì)模糊,重疊的目標(biāo)有更好的檢測(cè)能力。
在PASCAL VOC上的實(shí)驗(yàn)
論文還在PASCAL VOC數(shù)據(jù)集(07+12)上評(píng)估了此方法的表現(xiàn)。該模型在VOC 2007 Trainval和VOC 2012 Trainval的聯(lián)合訓(xùn)練集上進(jìn)行了訓(xùn)練,并在VOC 2007的測(cè)試集上進(jìn)行測(cè)試。這個(gè)實(shí)驗(yàn)使用和4.1節(jié)完全一樣的設(shè)置,并根據(jù)經(jīng)驗(yàn)將Beta分布的超參數(shù)a設(shè)為0.01。
論文指出,這應(yīng)該是第一份有關(guān)混合樣本數(shù)據(jù)增強(qiáng)目標(biāo)檢測(cè)的報(bào)告。并將此方法的實(shí)驗(yàn)結(jié)果和Faster-RCNN作比較來評(píng)估ROIMIX的性能。結(jié)果如Table2所示。
可以看到,這種方法比BaseLine提高了0.8%個(gè)Map值,同時(shí)也可以看到ROIMIX在VOC上的提升比URPC上的提升少。一個(gè)可能的原因是URPC中存在更多重疊,被遮擋和模糊的對(duì)象,這可以通過本文提出的方法解決,因此提升更大。穩(wěn)定性和魯棒性
論文分析了ROIMIX對(duì)訓(xùn)練穩(wěn)定的目標(biāo)檢測(cè)器的影響。并將ROIMIX訓(xùn)期間的平均精度(mAP)和BaseLine進(jìn)行了比較,論文在Figure5中可視化了Pascal VOC數(shù)據(jù)集和URPC數(shù)據(jù)集的結(jié)果。
首先,論文觀察到在兩個(gè)訓(xùn)練集中訓(xùn)練結(jié)束時(shí),ROIMIX的mAP值均比基準(zhǔn)線高得多,在mAP達(dá)到最高點(diǎn)之后,隨著訓(xùn)練輪次的增加,BaseLine開始面臨過擬合。另一方面,ROIMIX方法在Pascal VOC中平穩(wěn)下降,并且在較大幅度上保持其Map曲線優(yōu)于BaseLine。在URPC數(shù)據(jù)集中,ROIMIX在達(dá)到mAP的最高點(diǎn)后隨著時(shí)間的增加趨于穩(wěn)定。此外ROIMIX和BaseLine方法在訓(xùn)練期間最大的mAP差別達(dá)到2.04%。結(jié)果表明ROIMIX生成的各種鄰近訓(xùn)練數(shù)據(jù)可以減小過擬合的風(fēng)險(xiǎn),提高訓(xùn)練過程的穩(wěn)定性。
此外,論文通過應(yīng)用5種類型的人工噪聲樣本(高斯噪聲,泊松噪聲,鹽噪聲,胡椒噪聲和椒鹽噪聲)來評(píng)估模型的魯棒性。
Figure6(a)可視化了帶有胡椒噪聲的樣本。論文使用在ImageNet預(yù)訓(xùn)練的ResNet-101做骨干網(wǎng)絡(luò),其設(shè)置與4.1節(jié)中的設(shè)置相同。然后評(píng)估每種類型噪聲樣本使用BaseLine,GTMix和RoIMix得到的結(jié)果,并在Figure6(b)中可視化。在這5種類型的噪聲中,ROIMIX和BaseLine之間的最大性能差異為9.05%個(gè)mAP值。直方圖表示這種方法對(duì)噪聲的魯棒能力更強(qiáng)。除了人工噪聲,論文還探索了對(duì)測(cè)試圖像應(yīng)用高斯模糊后來對(duì)模糊目標(biāo)進(jìn)行檢測(cè)的情況。結(jié)果如Table3所示,可以看到使用ROIMIX后性能提高了0.7%個(gè)mAP。這些實(shí)驗(yàn)進(jìn)一步說明,ROIMIX具有更好的魯棒性。結(jié)論
這篇論文提出了ROIMIX用于水下目標(biāo)檢測(cè)的方法。這應(yīng)該是在多幅圖像之間進(jìn)行ROIs融合以生成不同訓(xùn)練樣本的第一項(xiàng)工作。ROIMIX旨在模擬重疊,遮擋,和模糊的目標(biāo),從而幫助模型隱式地學(xué)習(xí)檢測(cè)水下目標(biāo)的能力。實(shí)驗(yàn)表明,本文提出的方法可以將URPC的性能提高1.18%mAP,將Pascal VOC的性能提高0.8%mAP。此外,ROIMIX具有更高的穩(wěn)定性和魯棒性。ROIMIX被作者應(yīng)用在URPC 2019目標(biāo)檢測(cè)大賽中并獲得冠軍。
聯(lián)系客服