中文字幕理论片,69视频免费在线观看,亚洲成人app,国产1级毛片,刘涛最大尺度戏视频,欧美亚洲美女视频,2021韩国美女仙女屋vip视频

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
URPC 2019 水下目標(biāo)檢測(cè)競(jìng)賽冠軍方案:多圖像融合增強(qiáng)

下面要介紹的論文發(fā)于2019年12月,題為「ROIMIX: PROPOSAL-FUSION AMONG MULTIPLE IMAGESFOR UNDERWATER OBJECT DETECTION」。

  • axriv地址為:https://arxiv.org/abs/1911.03029

近年來,通用的目標(biāo)檢測(cè)算法已經(jīng)證明了其卓越的性能。然而,關(guān)于水下目標(biāo)檢測(cè)的話題卻很少被研究。和一般的數(shù)據(jù)集相比,水下圖像通常具有色偏和低對(duì)比度的特點(diǎn),并且沉淀物也會(huì)導(dǎo)致水下圖像模糊。另外,由于水下動(dòng)物的生活習(xí)性,它們通常在圖像上挨得很近。為了解決這些問題,本論文的工作是研究增強(qiáng)策略以模擬重疊,遮擋和模糊的目標(biāo),并構(gòu)建一個(gè)可以有更好的泛化能力的模型。論文提出了一種稱為ROIMIX的增強(qiáng)方法,該方法可以表征圖像之間的相互作用。之前的圖像增強(qiáng)方法都是在單張圖像上運(yùn)行,而ROIMIX是應(yīng)用于多個(gè)圖像以創(chuàng)建增強(qiáng)后的訓(xùn)練樣本數(shù)據(jù)。實(shí)驗(yàn)結(jié)果表明,此方法在PASCAL VOC數(shù)據(jù)集和URPC數(shù)據(jù)集上均提高了雙階段目標(biāo)檢測(cè)器的性能。

研究背景

很多目標(biāo)檢測(cè)器在通用數(shù)據(jù)集如PACCAL VOC,MSCOCO上實(shí)現(xiàn)了比較好的性能。然而,水下環(huán)境更加復(fù)雜并且由于光照影響導(dǎo)致水下圖像往往存在對(duì)比度低,紋理失真和光照不均勻的特點(diǎn),這導(dǎo)致檢測(cè)更加困難。

Figure1(a)展示了密集分布的生物,它們彼此覆蓋,并且因?yàn)橐恍┏恋砦镒兊媚:?。水下機(jī)器人檢測(cè)比賽(URPC)提供了有挑戰(zhàn)性的水下目標(biāo)檢測(cè)數(shù)據(jù)集,該數(shù)據(jù)集包含大量重疊,遮擋和模糊的水下生物。現(xiàn)有的數(shù)據(jù)增強(qiáng)方法對(duì)重疊,遮擋和模糊目標(biāo)還沒有進(jìn)行很好的研究。如果檢測(cè)模型僅僅適應(yīng)訓(xùn)練數(shù)據(jù),它將缺乏泛化能力,無法應(yīng)對(duì)復(fù)雜的水下環(huán)境。

因此,論文提出通過在多個(gè)圖像之間混合候選區(qū)域來模擬目標(biāo)的重疊,遮擋和模糊。從理論上分析,遵循經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化原則(ERM),深度模型致力于最小化訓(xùn)練數(shù)據(jù)上的平均誤差,但是它們有過擬合的風(fēng)險(xiǎn)。具體來說,ERM指導(dǎo)深層模型記憶訓(xùn)練數(shù)據(jù),而不是從中概況。同時(shí),這些模型容易受到對(duì)抗樣本的攻擊。數(shù)據(jù)增強(qiáng)被用來緩解過擬合問題,根據(jù)最小風(fēng)險(xiǎn)(VRM)原則,通過增強(qiáng)策略在類似于訓(xùn)練數(shù)據(jù)的樣本上對(duì)模型進(jìn)行了優(yōu)化。在圖像分類領(lǐng)域,平移和翻轉(zhuǎn)是增強(qiáng)訓(xùn)練數(shù)據(jù)量的常用策略。

諸如Mixup,CutMix之類的方法致力于創(chuàng)造更好的訓(xùn)練數(shù)據(jù)。本文提出了一種稱為RoIMix的數(shù)據(jù)增強(qiáng)算法,可以提高模型對(duì)重疊,遮擋和模糊目標(biāo)的檢測(cè)能力。這個(gè)方法被用于雙階段檢測(cè)器如Faster-RCNN上,和之前在單個(gè)物體上進(jìn)行數(shù)據(jù)增強(qiáng)的方法相比,ROIMIX更注重圖像之間的交互。直接在目標(biāo)檢測(cè)中應(yīng)用像Mixup這樣的圖像級(jí)融合會(huì)導(dǎo)致來自不同圖像的區(qū)域建議框未對(duì)齊,如Figure1(b)所示。

為了準(zhǔn)確模擬重疊,遮擋和模糊的情況,論文執(zhí)行了候選框級(jí)別融合。用這種方式,此方法在Pascal VOC和URPC上取得了出色的目標(biāo)檢測(cè)性能,并在URPC 2019水下目標(biāo)檢測(cè)競(jìng)賽上奪冠。

相關(guān)工作

數(shù)據(jù)增強(qiáng)

數(shù)據(jù)增強(qiáng)是訓(xùn)練深度學(xué)習(xí)模型的關(guān)鍵策略。在圖像分類領(lǐng)域,常用的數(shù)據(jù)增強(qiáng)策略包括旋轉(zhuǎn),平移或翻轉(zhuǎn)。Zhang等提出將兩個(gè)隨機(jī)訓(xùn)練圖像混合以產(chǎn)生鄰近訓(xùn)練數(shù)據(jù),作為一種正則化方法。區(qū)域刪除方法如Cutout會(huì)從輸入中隨機(jī)刪除一個(gè)區(qū)域,這有助于模型關(guān)注目標(biāo)最有區(qū)別的部分,但是這也可能會(huì)導(dǎo)致信息丟失。
此外,更加先進(jìn)的CutMix在訓(xùn)練數(shù)據(jù)集之間剪切和粘貼圖片區(qū)域,從而極大的提高了模型對(duì)抗輸入破壞的魯棒性。對(duì)于目標(biāo)檢測(cè),通常使用多種增強(qiáng)策略如光照擾動(dòng),圖像鏡像和多尺度訓(xùn)練。

除此之外,基于CutMix的預(yù)訓(xùn)練模型可以在Pascal VOC上實(shí)現(xiàn)性能提升,但它并不是專門為目標(biāo)檢測(cè)器設(shè)計(jì)的。本文充分考慮了基于區(qū)域定位的目標(biāo)檢測(cè)器的特性,并提出了一種新的數(shù)據(jù)增強(qiáng)方法。

Faster-RCNN及其變體

Faster-RCNN是雙階段目標(biāo)檢測(cè)器發(fā)展史上的里程碑。它由三個(gè)模塊組成:一個(gè)負(fù)責(zé)提取特征的骨干網(wǎng)絡(luò)如AlexNet,VGG,ResNet和RPN等,一個(gè)在特征圖上生成候選框集合的全卷積網(wǎng)絡(luò),一個(gè)對(duì)候選框區(qū)域進(jìn)行分類回歸的網(wǎng)絡(luò)。

注意,在區(qū)域分類和位置回歸步驟中是沒有共享計(jì)算的。而R-FCN提取了空間感知的區(qū)域特征,并在分類回歸階段移除了全連接層來共享計(jì)算而不會(huì)降低性能。Faster-RCNN的另外一個(gè)問題是它使用最后一層特征圖進(jìn)行檢測(cè),對(duì)小目標(biāo)的檢測(cè)能力比較差。

因此Lin等提出了特征金字塔網(wǎng)絡(luò)FPN,它結(jié)合了低層特征可以更好的最小目標(biāo)做預(yù)測(cè)。本文的方法具有通用性,可以應(yīng)用于各種雙階段目標(biāo)檢測(cè)器。

方法

如Figure2所示,本文提出的方法在RPN和ROI分類器之間應(yīng)用。使用RPN產(chǎn)生ROI,并以隨機(jī)的比例混合它們。該比例是根據(jù)Beta分布產(chǎn)生的,然后,使用混合樣本來訓(xùn)練模型。下面開始詳細(xì)的描述ROIMIX算法并討論其背后的原理。

算法

x\in R^{H\times W \times C} 和
y 代表一個(gè)候選框和它的標(biāo)簽。ROIMIX旨在混合兩個(gè)從多個(gè)圖像中產(chǎn)生的隨機(jī)
RIO(x_i,y_i) 和
(x_i,y_i) 來產(chǎn)生新的候選框
(\tilde{x}, \tilde{y}) ,ROIs的大小通常不同,所以我們需要將
x_j 縮放到和
x_{i \cdot} 大小完全一致。產(chǎn)生的訓(xùn)練數(shù)據(jù)
(\tilde{x}, \tilde{y})被用來直接訓(xùn)練檢測(cè)模型。混合操作的公式定義如下:

\tilde{x} = \lambda' x_i + (1 - \lambda ') x_i, ~~~~\tilde{y} =y_i

其中

\lambda' 是兩個(gè)候選框的混合系數(shù)。不像Mixup算法那樣直接從一個(gè)參數(shù)為
\alpha 的Beta分布
B

中直接采樣

\lambda ,

\lambda = B(a,a)

這里給第一個(gè)ROI區(qū)域

x_i 選擇較大系數(shù),即:

\lambda' = \max{(\lambda, 1- \lambda)}

其中,max代表返回兩個(gè)參數(shù)中的較大者。原因是我們要使用

y_i 當(dāng)作混合ROI的標(biāo)簽。本方法混合了沒有沒有標(biāo)簽的ROIs,這類似于傳統(tǒng)的數(shù)據(jù)增強(qiáng)方法。它僅僅影響訓(xùn)練,并在測(cè)試過程中保持模型不變。使用這種方法,就可以獲得模擬重疊的,遮擋的和模糊的目標(biāo)的新ROIs。Figure3可視化出了這個(gè)方法的過程。

最終,使用此方法得到的新ROIs代替了原始的區(qū)域建議框。最終通過最小化這些生成樣本的原始損失函數(shù)來進(jìn)行訓(xùn)練。代碼級(jí)別的信息在Algorithm1中展示。

Figure3中x1,x2表示了兩個(gè)分別包含扇貝和海膽的ROI,而

x_3 表示從訓(xùn)練數(shù)據(jù)集中截出的有遮擋的樣本(海膽位于扇貝上),通過ROIMIX,x1和x2被混合為和
x_3 類似的
\tilde{x} ,用于模擬遮擋和模糊的情況。

討論

論文通過ROIMIX來模擬目標(biāo)的重疊,遮擋,以幫助模型隱式的學(xué)習(xí)更好的密集目標(biāo)檢測(cè)能力。從統(tǒng)計(jì)學(xué)習(xí)理論的角度來看,ROIMIX是兩個(gè)候選框之間的一個(gè)線性插值結(jié)果,決策邊界可能會(huì)變得更平滑而不會(huì)急劇過度。具體來說,ROIMIX遵循VRM原理而不是ERM原理,從而使得深度學(xué)習(xí)模型泛化能力更強(qiáng)。遵循ERM原理訓(xùn)練得模型可以最大程度的減少經(jīng)驗(yàn)風(fēng)險(xiǎn),以幫助模型更好的擬合訓(xùn)練數(shù)據(jù)。定義經(jīng)驗(yàn)風(fēng)險(xiǎn)

R_{\delta} 為:

R_{\delta}(f) = \frac{1}{n} \sum_{i=1}^{n} l(f(x_i), y_i)

其中

f 代表將
x 映射到
y 的非線性函數(shù),
n 代表樣本數(shù),
l 代表?yè)p失函數(shù)用來衡量
x_i 和
y_i

的距離。ROIMIX遵循VRM規(guī)則,并生成訓(xùn)練數(shù)據(jù)的鄰近分布。然后就可以用生成的數(shù)據(jù)

(\tilde{x},\tilde{y}) 來代替原始的訓(xùn)練數(shù)據(jù)
(x_i,y_i) ,并將期望風(fēng)險(xiǎn)
R_v 近似為:

R_v(f) = \frac{1}{n} \sum_{i=1}^{n} l(f(\tilde{x}),\tilde{y})

因此訓(xùn)練過程已經(jīng)變成最大幅度的減少期望風(fēng)險(xiǎn)

R_v 。在每一個(gè)輪次中,ROIMIX都會(huì)生成不同的鄰近訓(xùn)練數(shù)據(jù)。以這種方式,模型的魯棒性變得更高。

實(shí)驗(yàn)

在URPC 2018上的實(shí)驗(yàn)結(jié)果

論文在URPC 2018上對(duì)這個(gè)方法進(jìn)行了全面的評(píng)估。該數(shù)據(jù)集包含2901張訓(xùn)練圖像和800張測(cè)試圖像,涵蓋4個(gè)目標(biāo)類別,包括海參,海膽,扇貝和海星。

論文選擇在ImageNet上預(yù)訓(xùn)練的ResNet-101作為骨干網(wǎng)絡(luò),并從每張圖像中提取128個(gè)ROI特征。并對(duì)Faster-RCNN使用默認(rèn)的超參數(shù),評(píng)估方法使用平均精度(mAP)。在URPC 2018的實(shí)驗(yàn)中,將Beta分布的超參數(shù)a設(shè)置為0.1。

實(shí)驗(yàn)結(jié)果如Table1所示,從表中可以看到Max操作分別帶來了2.06%和1.8%的Map值提升,這說明了等式(3)的重要性。其次,在比較GT框和ROIs混合的效果時(shí)發(fā)現(xiàn),混合ROIs比混合GT對(duì)性能的改善貢獻(xiàn)更大。此外,論文還評(píng)估了圖像之間進(jìn)行交互的重要性?!癝ingleRoIMix”指的是在單個(gè)圖像上選擇和混合ROIs,而論文提出的方法是混合一個(gè)批次中多張圖像的ROIs。Table1中的第2行和第5行顯示,和單個(gè)圖像混合相比,在多個(gè)圖像之間混合ROIs可以提升0.41%Map值。

Figure4可視化了Baseline(Faster-RCNN)和本論文提出的方法的檢測(cè)結(jié)果。在Figure4(b)中標(biāo)記了3個(gè)紅色框,其中兩個(gè)是模糊和重疊的海參,另一個(gè)是不完整的扇貝。BaseLine模型無法檢測(cè)到三個(gè)紅色框中的目標(biāo),而論文中的方法可以成功檢測(cè)。這說明此方法對(duì)模糊,重疊的目標(biāo)有更好的檢測(cè)能力。

在PASCAL VOC上的實(shí)驗(yàn)

論文還在PASCAL VOC數(shù)據(jù)集(07+12)上評(píng)估了此方法的表現(xiàn)。該模型在VOC 2007 Trainval和VOC 2012 Trainval的聯(lián)合訓(xùn)練集上進(jìn)行了訓(xùn)練,并在VOC 2007的測(cè)試集上進(jìn)行測(cè)試。這個(gè)實(shí)驗(yàn)使用和4.1節(jié)完全一樣的設(shè)置,并根據(jù)經(jīng)驗(yàn)將Beta分布的超參數(shù)a設(shè)為0.01。

論文指出,這應(yīng)該是第一份有關(guān)混合樣本數(shù)據(jù)增強(qiáng)目標(biāo)檢測(cè)的報(bào)告。并將此方法的實(shí)驗(yàn)結(jié)果和Faster-RCNN作比較來評(píng)估ROIMIX的性能。結(jié)果如Table2所示。

可以看到,這種方法比BaseLine提高了0.8%個(gè)Map值,同時(shí)也可以看到ROIMIX在VOC上的提升比URPC上的提升少。一個(gè)可能的原因是URPC中存在更多重疊,被遮擋和模糊的對(duì)象,這可以通過本文提出的方法解決,因此提升更大。

穩(wěn)定性和魯棒性

論文分析了ROIMIX對(duì)訓(xùn)練穩(wěn)定的目標(biāo)檢測(cè)器的影響。并將ROIMIX訓(xùn)期間的平均精度(mAP)和BaseLine進(jìn)行了比較,論文在Figure5中可視化了Pascal VOC數(shù)據(jù)集和URPC數(shù)據(jù)集的結(jié)果。

首先,論文觀察到在兩個(gè)訓(xùn)練集中訓(xùn)練結(jié)束時(shí),ROIMIX的mAP值均比基準(zhǔn)線高得多,在mAP達(dá)到最高點(diǎn)之后,隨著訓(xùn)練輪次的增加,BaseLine開始面臨過擬合。

另一方面,ROIMIX方法在Pascal VOC中平穩(wěn)下降,并且在較大幅度上保持其Map曲線優(yōu)于BaseLine。在URPC數(shù)據(jù)集中,ROIMIX在達(dá)到mAP的最高點(diǎn)后隨著時(shí)間的增加趨于穩(wěn)定。此外ROIMIX和BaseLine方法在訓(xùn)練期間最大的mAP差別達(dá)到2.04%。結(jié)果表明ROIMIX生成的各種鄰近訓(xùn)練數(shù)據(jù)可以減小過擬合的風(fēng)險(xiǎn),提高訓(xùn)練過程的穩(wěn)定性。

此外,論文通過應(yīng)用5種類型的人工噪聲樣本(高斯噪聲,泊松噪聲,鹽噪聲,胡椒噪聲和椒鹽噪聲)來評(píng)估模型的魯棒性。

Figure6(a)可視化了帶有胡椒噪聲的樣本。論文使用在ImageNet預(yù)訓(xùn)練的ResNet-101做骨干網(wǎng)絡(luò),其設(shè)置與4.1節(jié)中的設(shè)置相同。然后評(píng)估每種類型噪聲樣本使用BaseLine,GTMix和RoIMix得到的結(jié)果,并在Figure6(b)中可視化。在這5種類型的噪聲中,ROIMIX和BaseLine之間的最大性能差異為9.05%個(gè)mAP值。直方圖表示這種方法對(duì)噪聲的魯棒能力更強(qiáng)。

除了人工噪聲,論文還探索了對(duì)測(cè)試圖像應(yīng)用高斯模糊后來對(duì)模糊目標(biāo)進(jìn)行檢測(cè)的情況。結(jié)果如Table3所示,可以看到使用ROIMIX后性能提高了0.7%個(gè)mAP。這些實(shí)驗(yàn)進(jìn)一步說明,ROIMIX具有更好的魯棒性。

結(jié)論

這篇論文提出了ROIMIX用于水下目標(biāo)檢測(cè)的方法。這應(yīng)該是在多幅圖像之間進(jìn)行ROIs融合以生成不同訓(xùn)練樣本的第一項(xiàng)工作。ROIMIX旨在模擬重疊,遮擋,和模糊的目標(biāo),從而幫助模型隱式地學(xué)習(xí)檢測(cè)水下目標(biāo)的能力。實(shí)驗(yàn)表明,本文提出的方法可以將URPC的性能提高1.18%mAP,將Pascal VOC的性能提高0.8%mAP。此外,ROIMIX具有更高的穩(wěn)定性和魯棒性。ROIMIX被作者應(yīng)用在URPC 2019目標(biāo)檢測(cè)大賽中并獲得冠軍。

本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
AI 應(yīng)用實(shí)例匯總
厲害|YOLO比R-CNN快1000倍,比Fast R-CNN快100倍的實(shí)時(shí)對(duì)象檢測(cè)!
ICCV2021 還在用大量數(shù)據(jù)暴力train模型?主動(dòng)學(xué)習(xí),教你選出數(shù)據(jù)集中最有價(jià)值的樣本
Yolov2全文翻譯
Pascal VOC Challenge
論文提要“You Only Look Once: Unified, Real
更多類似文章 >>
生活服務(wù)
熱點(diǎn)新聞
分享 收藏 導(dǎo)長(zhǎng)圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服