針對(duì)目前武器裝備在檢測(cè)空中遠(yuǎn)距離弱小目標(biāo)、假目標(biāo)、遮擋等情況中智能化程度不高問(wèn)題,分析了卷積神經(jīng)網(wǎng)絡(luò)的工作方式以及其應(yīng)用在目標(biāo)檢測(cè)中的優(yōu)勢(shì),討論了基于卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測(cè)算法在其它圖像檢測(cè)領(lǐng)域的應(yīng)用情況及取得的最新成果,通過(guò)研究發(fā)現(xiàn)卷積神經(jīng)網(wǎng)絡(luò)利用其強(qiáng)大的特征學(xué)習(xí)能力使得檢測(cè)過(guò)程更為高效化、智能化,將其應(yīng)用到導(dǎo)彈武器系統(tǒng)中是未來(lái)提升防空作戰(zhàn)效能的必然手段。
卷積神經(jīng)網(wǎng)絡(luò); 檢測(cè)算法; 武器系統(tǒng); 目標(biāo)檢測(cè)
傳統(tǒng)的目標(biāo)檢測(cè)算法大多根據(jù)特定背景特定問(wèn)題,利用先驗(yàn)知識(shí)采取人工設(shè)計(jì)單種或多種特征的方法來(lái)實(shí)現(xiàn)對(duì)圖像中目標(biāo)的檢測(cè),這些方法不僅執(zhí)行速度低、計(jì)算量大,而且可移植性較差,對(duì)于復(fù)雜背景下的多種類、多姿態(tài)目標(biāo)有著較差的適用性和魯棒性。卷積神經(jīng)網(wǎng)絡(luò)源起于Hubel等人在60年代對(duì)貓的大腦視覺(jué)皮層和視覺(jué)系統(tǒng)的研究,該研究提出了生物感受野(Receptive Field)這一觀點(diǎn),研究人員設(shè)想將生物感受野的能力賦予計(jì)算機(jī),讓計(jì)算機(jī)也能擁有類似于生物的視覺(jué)能力,可以對(duì)圖像中的多類目標(biāo)進(jìn)行自動(dòng)搜索識(shí)別、定位和分類。基于這一設(shè)想,F(xiàn)ukushima于80年代、Lecun于90年代分別提出了Neocognitron和LeNet-5神經(jīng)網(wǎng)絡(luò)模型,其中前者可以認(rèn)為是卷積神經(jīng)網(wǎng)絡(luò)的首次實(shí)現(xiàn),而后者成功地將梯度反向傳播算法應(yīng)用在模型的訓(xùn)練過(guò)程中,成為當(dāng)前卷積神經(jīng)網(wǎng)絡(luò)模型的奠基之作。
然而LeNet-5網(wǎng)絡(luò)模型主要是針對(duì)解決手寫數(shù)字識(shí)別問(wèn)題提出來(lái)的,并且由于當(dāng)時(shí)計(jì)算機(jī)技術(shù)的限制和卷積神經(jīng)網(wǎng)絡(luò)理論基礎(chǔ)不夠完善,LeNet-5模型總體來(lái)說(shuō)泛化能力較弱,并不能很好地解決復(fù)雜圖像的識(shí)別與分類問(wèn)題。直到2006年,多倫多大學(xué)教授Hinton及其學(xué)生在《Science》期刊上創(chuàng)造性地提出深度學(xué)習(xí)的思想,該思想主要闡釋了兩個(gè)重要觀點(diǎn):1)含有多個(gè)隱層的神經(jīng)網(wǎng)絡(luò)在特征學(xué)習(xí)方面有著杰出的優(yōu)勢(shì),能夠更抽象、更本質(zhì)地表達(dá)出原始輸入數(shù)據(jù),可有效解決識(shí)別或分類問(wèn)題;2)通過(guò)實(shí)現(xiàn)“逐層初始化”方法,分級(jí)表達(dá)、解釋、和處理輸入的數(shù)據(jù)信息,可有效降低神經(jīng)網(wǎng)絡(luò)在訓(xùn)練上的復(fù)雜度。同時(shí)隨著計(jì)算機(jī)技術(shù)和硬件設(shè)備的飛速發(fā)展,研究人員取代CPU在運(yùn)算性能更佳的GPU上實(shí)現(xiàn)了卷積運(yùn)算,使得網(wǎng)絡(luò)的計(jì)算能力得到極大的提高。自此,國(guó)內(nèi)外科研界和工業(yè)界掀起了對(duì)基于卷積神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)算法的研究熱潮。
在當(dāng)今的大數(shù)據(jù)時(shí)代,卷積神經(jīng)網(wǎng)絡(luò)在圖像處理領(lǐng)域,如圖像識(shí)別、圖像分割、目標(biāo)檢測(cè)與跟蹤等方面取得了許多突破性進(jìn)展并發(fā)揮著不可替代的作用。就軍事領(lǐng)域而言,導(dǎo)彈武器系統(tǒng)面臨著日趨復(fù)雜的戰(zhàn)場(chǎng)環(huán)境和不斷升級(jí)的作戰(zhàn)方式,為達(dá)到作戰(zhàn)效果,導(dǎo)彈武器系統(tǒng)必須對(duì)目標(biāo)實(shí)施快速搜索與識(shí)別,精確智能的探測(cè)與跟蹤,為后續(xù)的火力打擊提供重要支撐。近幾年來(lái)涌現(xiàn)的以檢測(cè)精度為代表的Faster R-CNN、R-FCN等算法,和以檢測(cè)速度為代表的SSD、YOLO等算法,這些基于深度學(xué)習(xí)的算法相比于傳統(tǒng)的檢測(cè)算法,不僅避免了對(duì)手工設(shè)計(jì)特征的依賴,而且使得檢測(cè)過(guò)程更為高效化和智能化。鄭昌艷等針對(duì)導(dǎo)彈武器系統(tǒng)攔截蛇形機(jī)動(dòng)目標(biāo)問(wèn)題,提出了基于卷積神經(jīng)網(wǎng)絡(luò)的航跡模式識(shí)別方法,能夠?qū)Σ煌愋秃桔E圖像保持較高的識(shí)別率,提高系統(tǒng)魯棒性;馮小雨等在防空背景下針對(duì)特定任務(wù),利用改進(jìn)的Faster R-CNN算法對(duì)空中目標(biāo)實(shí)現(xiàn)了遠(yuǎn)超于傳統(tǒng)算法的檢測(cè)效果。因此將基于深度學(xué)習(xí)的目標(biāo)識(shí)別、檢測(cè)技術(shù)應(yīng)用到導(dǎo)彈武器系統(tǒng)中,是提升作戰(zhàn)效能的必要手段和技術(shù)發(fā)展的必然趨勢(shì)。
典型的卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)通常由卷積層、池化層以及全連接層組成,圖1為一個(gè)簡(jiǎn)化的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖。其中C1、C2 表示的是卷積層,S1、S2表示的是子采樣層。
圖1 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
卷積層即為特征提取層,其核心為若干個(gè)可以訓(xùn)練學(xué)習(xí)的卷積核,首先原始輸入圖像與C1層的卷積核Wl(圖1所示為3個(gè),l表示第l層)以及一個(gè)可加偏置bl進(jìn)行卷積運(yùn)算,由此得到特征映射圖,對(duì)特征映射圖上相鄰區(qū)域nxn個(gè)像素進(jìn)行池化操作,常見的有最大池化和平均池化,該操作通過(guò)對(duì)特征圖降維,減少數(shù)據(jù)量從而節(jié)約訓(xùn)練分類器時(shí)的計(jì)算資源,其次池化后的輸出具有平移不變性的特性,增強(qiáng)了網(wǎng)絡(luò)的魯棒性;池化后的特征圖經(jīng)過(guò)激活函數(shù)后在S1層獲得新的特征映射圖,常見的激活函數(shù)表達(dá)式及函數(shù)曲線圖如表1所示。新的特征映射圖再通過(guò)相同原理的C2層與S2層,最終的特征圖的像素值分別被柵格化,之后輸入到傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)中訓(xùn)練的為特征向量連接成的一維向量。
表1 常見的激活函數(shù)及其曲線圖
卷積神經(jīng)網(wǎng)絡(luò)的成功實(shí)現(xiàn)還得益于梯度反向傳播算法的提出和發(fā)展。輸入到神經(jīng)網(wǎng)絡(luò)中的圖像數(shù)據(jù)樣本x經(jīng)過(guò)訓(xùn)練后得到的網(wǎng)絡(luò)輸出,記為yW,b(x),與樣本的實(shí)際真值之間會(huì)存在誤差,誤差在算法中逐層傳播,卷積神經(jīng)網(wǎng)絡(luò)的卷積核等參數(shù)通過(guò)有監(jiān)督的學(xué)習(xí)訓(xùn)練,進(jìn)行逐層更新。在網(wǎng)絡(luò)訓(xùn)練中以代價(jià)函數(shù)P的大小來(lái)評(píng)判網(wǎng)絡(luò)訓(xùn)練模型的優(yōu)劣程度,實(shí)際中為了防止過(guò)擬合現(xiàn)象,代價(jià)函數(shù)通常被定義為公式(1)。任意l層的卷積核Wl和偏置項(xiàng)bl都按照公式(2)的方法來(lái)進(jìn)行更新。
LeNet-5網(wǎng)絡(luò)模型適用于識(shí)別手寫數(shù)字,但在解決復(fù)雜圖像的識(shí)別分類問(wèn)題上存在明顯不足。在ILSVRC2012競(jìng)賽中,Alex Krizhevsky等人提出了基于卷積神經(jīng)網(wǎng)絡(luò)的AlexNet深度學(xué)習(xí)模型,該模型最終的網(wǎng)絡(luò)結(jié)構(gòu)共包含8層(5層卷積層和3層全連接層),最后的分類層采用的是softmax函數(shù),同時(shí)采用新的非線性激活函數(shù)ReLU來(lái)抑制大的輸入導(dǎo)致的梯度消失問(wèn)題并提高訓(xùn)練速度,以及設(shè)計(jì)局部響應(yīng)歸一化層、數(shù)據(jù)增強(qiáng)和采用dropout方法等手段提高網(wǎng)絡(luò)的泛化性能,抑制過(guò)擬合現(xiàn)象。AlexNet模型是深度學(xué)習(xí)在大規(guī)模圖像分類領(lǐng)域的首次應(yīng)用,并在競(jìng)賽中以顯著優(yōu)勢(shì)超過(guò)了第二名傳統(tǒng)分類算法的結(jié)果。但是AlexNet模型的卷積層為了在原始圖像上快速獲得特征映射圖,設(shè)計(jì)了大尺寸的卷積核(11x11),導(dǎo)致網(wǎng)絡(luò)訓(xùn)練過(guò)程中丟失了很多細(xì)節(jié)特征,影響網(wǎng)絡(luò)的最終分類結(jié)果。
針對(duì)解決AlexNet模型的弊端,牛津大學(xué)的視覺(jué)幾何組在ILSVRC2014競(jìng)賽中提出了VGGNet模型,該模型的最終版本有VGG16和VGG19兩種,圖2所示的為VGG16模型的網(wǎng)絡(luò)結(jié)構(gòu),由圖可以看出VGG16模型仿照AlexNet模型的5層卷積層將13層卷積層分為了五組,另外也包含3層全連接層,VGG19模型在后三組分別比VGG16模型多了一層卷積層。該模型相比于AlexNet主要有兩點(diǎn)改進(jìn):1)證明了使用多個(gè)小尺寸的卷積核(VGGNet模型中均采用3x3的卷積核)可以代替大尺寸的卷積核,而通過(guò)利用小尺寸卷積核適當(dāng)增加網(wǎng)絡(luò)的深度可以取得更優(yōu)的分類結(jié)果;2)采用了多尺度訓(xùn)練方法,增強(qiáng)了網(wǎng)絡(luò)對(duì)圖像縮放的不變性能力。
圖2 VGG16網(wǎng)絡(luò)結(jié)構(gòu)
VGGNet模型證明了隨著網(wǎng)絡(luò)深度的增加,網(wǎng)絡(luò)的學(xué)習(xí)能力也會(huì)得到相應(yīng)提升,但是實(shí)驗(yàn)證明僅通過(guò)對(duì)網(wǎng)絡(luò)簡(jiǎn)單的堆疊來(lái)加深網(wǎng)絡(luò)會(huì)導(dǎo)致深層次網(wǎng)絡(luò)出現(xiàn)梯度消失現(xiàn)象,不能獲得理想的識(shí)別分類效果。在ILSVRC2015競(jìng)賽中,冠軍由何凱明團(tuán)隊(duì)首次提出的網(wǎng)絡(luò)層數(shù)超過(guò)一百層(實(shí)際為152層,目前已可達(dá)到1000層)的深度殘差網(wǎng)絡(luò)模型ResNet獲得,該模型設(shè)計(jì)的的核心結(jié)構(gòu)(圖3所示)通過(guò)恒等快捷連接方式很好的解決了梯度消失問(wèn)題,從而保證了深層網(wǎng)絡(luò)良好的識(shí)別分類效果。
圖3 殘差網(wǎng)絡(luò)結(jié)構(gòu)
其它的典型的卷積神經(jīng)網(wǎng)絡(luò)模型還包括谷歌團(tuán)隊(duì)設(shè)計(jì)的GoogLeNet模型、與密歇根大學(xué)聯(lián)合提出的TALNet模型,以及微軟亞洲研究院先后提出的SPPNet模型和PReLUNet模型。值得一提的是,在ILSVRC 競(jìng)賽數(shù)據(jù)集的識(shí)別分類上,PReLUNet是第一個(gè)實(shí)現(xiàn)超越人眼識(shí)別率的網(wǎng)絡(luò)模型。目前研究人員也設(shè)計(jì)了一些專門應(yīng)用在移動(dòng)設(shè)備上的神經(jīng)網(wǎng)絡(luò)模型,例如MobileNet、ShuffleNet、PeleeNET等模型。
基于卷積神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)模型在圖像識(shí)別分類領(lǐng)域得到了成功應(yīng)用并取得了令人矚目的成就,其在學(xué)習(xí)特征方面表現(xiàn)的優(yōu)異性能也吸引了目標(biāo)檢測(cè)領(lǐng)域眾多研究人員的關(guān)注。第一個(gè)將卷積神經(jīng)網(wǎng)絡(luò)較好地應(yīng)用在目標(biāo)檢測(cè)領(lǐng)域的模型是Girshick等人于2014年提出的R-CNN模型,以平均準(zhǔn)確率均值mAP為評(píng)估準(zhǔn)則,該模型遠(yuǎn)遠(yuǎn)超過(guò)了以往的傳統(tǒng)檢測(cè)算法在標(biāo)準(zhǔn)PASCAL VOC數(shù)據(jù)集測(cè)試集上的檢測(cè)準(zhǔn)確率,提高了將近20%。此后在R-CNN模型的基礎(chǔ)上,一系列優(yōu)秀的目標(biāo)檢測(cè)模型相繼被提出,這些檢測(cè)模型大致可以分為基于候選區(qū)域網(wǎng)絡(luò)方法和基于回歸方法兩大類。
Faster R-CNN算法模型的提出依次經(jīng)歷了R-CNN、Fast R-CNN等多個(gè)算法模型的改進(jìn)。R-CNN檢測(cè)算法模型與傳統(tǒng)檢測(cè)算法在進(jìn)行圖像目標(biāo)檢測(cè)時(shí)步驟相類似,主要分為三個(gè)階段,即首先在輸入樣本圖像上找尋可能存在目標(biāo)的位置,稱為候選區(qū)域,這一階段常用的方法有selective search或edgebox方法;其次分別提取待分類候選區(qū)域的特征,這一階段完全利用卷積神經(jīng)網(wǎng)絡(luò)方法來(lái)實(shí)現(xiàn),是R-CNN檢測(cè)算法模型區(qū)別于傳統(tǒng)檢測(cè)算法的核心階段;最后一個(gè)階段是訓(xùn)練SVM分類器對(duì)第二階段提取到的特征進(jìn)行分類,以及利用邊框回歸算法修正坐標(biāo),保證目標(biāo)的定位。由三個(gè)階段可以看出,R-CNN模型在實(shí)現(xiàn)圖像目標(biāo)檢測(cè)過(guò)程中每個(gè)階段都使用了不同的方法,此外在第二階段中需要對(duì)每張樣本圖像中的所有候選區(qū)域都進(jìn)行卷積操作提取特征,并且存儲(chǔ)特征供第三階段的SVM使用,帶來(lái)了訓(xùn)練步驟復(fù)雜、占用空間內(nèi)存大等弊端,極大地限制了檢測(cè)模型的實(shí)時(shí)性需求。
2015年Girshick將R-CNN模型與何凱明等人提出的SPPNet思想相結(jié)合,提出了新的檢測(cè)模型Fast R-CNN,其網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。由圖4可知Fast R-CNN模型相比于R-CNN模型其核心過(guò)程在于感興趣區(qū)域(RoIs)思想以及softmax分類層、邊框回歸層的提出,而且整個(gè)過(guò)程只對(duì)每幅樣本圖像進(jìn)行了一次卷積操作。每幅樣本圖像的感興趣區(qū)域由圖像的標(biāo)注真值框和候選區(qū)域之間的IoU計(jì)算篩選得到,感興趣區(qū)域池化層借鑒SPPNet的空間金字塔池化層思想,不再嚴(yán)格規(guī)定輸入樣本圖像的尺寸規(guī)格,通過(guò)該池化層后任意尺寸的特征圖都被統(tǒng)一到相同的維數(shù)。Fast R-CNN模型的輸出結(jié)果由完全代替SVM的softmax分類層和邊框回歸層得到,這兩個(gè)全連接層分別計(jì)算的是目標(biāo)所屬類別的概率值(包括前景概率值、背景概率值)和定位目標(biāo)框的坐標(biāo)值,同時(shí)還利用了一種融合分類任務(wù)損失和回歸任務(wù)損失的多任務(wù)損失函數(shù)方法對(duì)這兩個(gè)全連接層進(jìn)行訓(xùn)練,提高模型分類精度和修正目標(biāo)框坐標(biāo)值。Fast R-CNN模型將圖像的特征提取和定位檢測(cè)都直接通過(guò)卷積神經(jīng)網(wǎng)絡(luò)來(lái)實(shí)現(xiàn),使得模型的訓(xùn)練和測(cè)試速度得到了顯著提升。
圖4 Fast R-CNN模型結(jié)構(gòu)
Fast R-CNN模型將R-CNN模型進(jìn)行目標(biāo)檢測(cè)過(guò)程的后兩個(gè)階段利用卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)了統(tǒng)一,但是在第一階段候選區(qū)域的選取上沒(méi)有給出更好的方法。因此2015年任少卿等人針對(duì)候選區(qū)域選取問(wèn)題提出了RPN,即候選區(qū)域網(wǎng)路,也利用卷積神經(jīng)網(wǎng)絡(luò)的方法來(lái)生成候選區(qū)域,其結(jié)構(gòu)示意圖如圖5所示。其原理是在網(wǎng)絡(luò)模型最后的特征映射圖上添加一個(gè)尺寸為3x3的滑動(dòng)窗,滑動(dòng)窗的中心就是K個(gè)錨點(diǎn)框的中心,錨點(diǎn)框的尺度和長(zhǎng)寬比不一,在特征映射圖上確定中心坐標(biāo)、尺度和長(zhǎng)寬比的錨點(diǎn)框,再映射回原始樣本圖像即可獲得候選區(qū)域。可以視為RPN和Fast R-CNN模型相結(jié)合而成的Faster R-CNN模型在訓(xùn)練過(guò)程中采用了一種多階段交替訓(xùn)練的方法,從而實(shí)現(xiàn)了RPN和Fast R-CNN模型部分卷積層的權(quán)值參數(shù)共享。至此Faster R-CNN模型利用卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)了將目標(biāo)檢測(cè)過(guò)程三個(gè)階段一體化的任務(wù),在數(shù)據(jù)集上的測(cè)試結(jié)果表明Faster R-CNN模型在保證mAP得到提升的同時(shí)也基本滿足了目標(biāo)實(shí)時(shí)性檢測(cè)的要求。
圖5 候選區(qū)域網(wǎng)絡(luò)結(jié)構(gòu)
諸如Faster R-CNN模型、解決目標(biāo)遮擋問(wèn)題的ION模型、實(shí)現(xiàn)多個(gè)卷積層特征圖融合的Hypernet模型等眾多目標(biāo)檢測(cè)架構(gòu),其中應(yīng)用的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)主要來(lái)自于對(duì)分類網(wǎng)絡(luò)模型AlexNet或VGGNet等的借鑒,均采用在最后卷積層池化層的末端添加若干層全連接層的方式。R-FCN模型則根據(jù)目標(biāo)檢測(cè)需要定位目標(biāo)位置的特點(diǎn)將ResNet改造成了一種全卷積網(wǎng)絡(luò),即使用一層位置敏感卷積層來(lái)替換掉全連接層,繼而相應(yīng)提出了位置敏感得分這一概念,旨在解決目標(biāo)檢測(cè)過(guò)程中全連接層丟失目標(biāo)精確位置信息的問(wèn)題。
圖6 位置敏感池化
圖6給出的是R-FCN模型設(shè)計(jì)的位置敏感池化方式圖,該模型關(guān)鍵步驟是將經(jīng)RPN網(wǎng)絡(luò)選取的C+1類待檢測(cè)物體的每個(gè)感興趣區(qū)域劃分成kxk(文中k=3)塊小區(qū)域,每塊小區(qū)域?qū)?yīng)目標(biāo)的不同位置,并計(jì)算不同位置可能屬于目標(biāo)的相應(yīng)分值,再通過(guò)一個(gè)類似于投票的過(guò)程,根據(jù)分?jǐn)?shù)值高低來(lái)判斷目標(biāo)所屬類別。由圖可以看出,R-FCN模型在實(shí)現(xiàn)分類的同時(shí)目標(biāo)的位置信息也得到了很好的保留,有利于目標(biāo)的檢測(cè)定位。
由谷歌團(tuán)隊(duì)構(gòu)造的SSD檢測(cè)模型與上述幾種檢測(cè)模型的工作方式明顯不同,其模型架構(gòu)相比于VGG16基礎(chǔ)網(wǎng)絡(luò)是在最后一層卷積層的末端多添加了若干層不同尺度的特征層。
SSD模型完成檢測(cè)過(guò)程只需要樣本圖像和標(biāo)注真值標(biāo)簽這兩個(gè)部分的輸入,之后通過(guò)3x3卷積核的滑動(dòng)在每層卷積層產(chǎn)生的特征圖的每個(gè)位置上畫默認(rèn)邊界框,再對(duì)邊界框進(jìn)行預(yù)測(cè),其性質(zhì)與候選區(qū)域網(wǎng)絡(luò)的錨點(diǎn)框相一致。通過(guò)這樣的工作方式SSD模型產(chǎn)生了大量的負(fù)樣本邊界框,針對(duì)這一問(wèn)題,SSD模型也采用了非極大值抑制方法以及難分樣本挖掘 (hard negative mining) 技術(shù)進(jìn)行處理。從檢測(cè)流程總體來(lái)看,SSD模型使用了一種可稱為單神經(jīng)網(wǎng)絡(luò)多邊界框檢測(cè)(Single Shot MultiBox Detector)的方式直接完成候選區(qū)域選取和區(qū)域分類這兩個(gè)步驟的工作,因此大大縮短了檢測(cè)時(shí)間,該檢測(cè)模型完全能夠達(dá)到實(shí)時(shí)檢測(cè)的要求。目前SSD算法已經(jīng)被研究人員成功移植到iOS系統(tǒng)上并能流暢地運(yùn)行,其在手機(jī)上的運(yùn)行速度已經(jīng)超越了在一般計(jì)算機(jī)CPU上的運(yùn)行速度。
YOLO模型全稱為You Only Look Once,意為只用看一眼物體即可將其識(shí)別出來(lái),代表了極高的檢測(cè)速度。目前研究人員在YOLO模型基礎(chǔ)上主要設(shè)計(jì)出了三種改進(jìn)版本,分別為YOLOv2模型、YOLO9000模型和YOLOv3模型,逐漸使目標(biāo)檢測(cè)模型朝著更好更快更強(qiáng)的方向發(fā)展。
1)YOLO模型從一開始就是針對(duì)解決基于候選區(qū)域網(wǎng)絡(luò)模型的檢測(cè)速度欠缺問(wèn)題而提出來(lái)的,該模型的網(wǎng)絡(luò)結(jié)構(gòu)是一個(gè)單純的卷積神經(jīng)網(wǎng)絡(luò),在輸出層回歸邊界框位置及其所屬類別,參考的是GoogLeNet并進(jìn)行了改造。模型關(guān)鍵思路是首先將輸入樣本圖像分割成7x7大小的子網(wǎng)格,待檢測(cè)物體由包含其中心點(diǎn)的子網(wǎng)格來(lái)進(jìn)行預(yù)測(cè),每個(gè)子網(wǎng)格負(fù)責(zé)輸出2個(gè)邊界框的中心點(diǎn)坐標(biāo)(xcenter,ycenter)、寬、高以及置信度值,其中在訓(xùn)練過(guò)程中中心點(diǎn)坐標(biāo)需要相對(duì)于所屬子網(wǎng)格進(jìn)行歸一化處理,寬、高需要相對(duì)于樣本圖像進(jìn)行歸一化處理,置信度值則由(3)式計(jì)算得到,若有人工標(biāo)注的真值框中心點(diǎn)落在該子網(wǎng)格中則Pr(object)為1,否則為0。此外每個(gè)子網(wǎng)格還需要對(duì)其分別所屬C類物體的概率值進(jìn)行預(yù)測(cè)。
雖然YOLO模型的檢測(cè)速度遠(yuǎn)遠(yuǎn)高于基于候選區(qū)域網(wǎng)絡(luò)的檢測(cè)模型,但是其也存在定位誤差大和對(duì)密而小目標(biāo)適用性較差的缺陷。
2)YOLOv2模型設(shè)計(jì)的基礎(chǔ)分類網(wǎng)絡(luò)是只包含卷積層和池化層的Darknet-19,該模型對(duì)YOLO的改進(jìn)體現(xiàn)在以下幾個(gè)方面:①引入Batch Normalization方法,即在網(wǎng)絡(luò)當(dāng)前層訓(xùn)練前歸一化處理輸入到該層的數(shù)據(jù),加快模型收斂速度;②使用高分辨率輸入微調(diào)模型的分類網(wǎng)絡(luò),在進(jìn)行檢測(cè)任務(wù)時(shí)提高網(wǎng)絡(luò)對(duì)高分辨率輸入的適用性;③借鑒候選區(qū)域網(wǎng)絡(luò)錨點(diǎn)框思路來(lái)預(yù)測(cè)邊界框,提高模型召回率;④采用K-means聚類方法尋求更優(yōu)的初始化邊界框;⑤通過(guò)在網(wǎng)絡(luò)中添加passthrough層來(lái)結(jié)合不同分辨率的特征以獲得更加精細(xì)的特征信息;⑥多尺度訓(xùn)練網(wǎng)絡(luò),提高網(wǎng)絡(luò)對(duì)不同分辨率輸入的檢測(cè)魯棒性。
3) YOLO9000模型是與YOLOv2模型一同被提出來(lái)的,YOLO9000模型參考WordNet提出了 WordTree這一機(jī)制,將ImageNet數(shù)據(jù)集前9000個(gè)類別、COCO檢測(cè)數(shù)據(jù)集類別以及其它一些類別整合成了一個(gè)包括9418個(gè)類別的聯(lián)合數(shù)據(jù)集,之后用聯(lián)合數(shù)據(jù)集對(duì)模型進(jìn)行訓(xùn)練,整個(gè)過(guò)程也可以被稱為聯(lián)合訓(xùn)練過(guò)程,YOLO9000模型可以看成是YOLOv2模型與聯(lián)合訓(xùn)練方式的結(jié)合,其最突出的特點(diǎn)和優(yōu)勢(shì)是能夠?qū)Τ^(guò)9000類物體的數(shù)據(jù)集樣本圖像進(jìn)行實(shí)時(shí)檢測(cè)。
4)YOLOv3模型的特征提取網(wǎng)絡(luò)結(jié)構(gòu)不僅綜合了YOLOv2和ResNet的特點(diǎn),并且為了實(shí)現(xiàn)多尺度的預(yù)測(cè)而參考了特征金字塔網(wǎng)絡(luò)FPN的設(shè)計(jì),由此構(gòu)造出一個(gè)包含53層卷積層的深層網(wǎng)絡(luò)結(jié)構(gòu)Darknet-53,此外YOLOv3模型還利用多個(gè)邏輯分類器來(lái)代替softmax進(jìn)行分類以適用于復(fù)雜目標(biāo)類別或多標(biāo)簽分類。
基于深度學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)模型在圖像分類領(lǐng)域取得的突出成就也促進(jìn)了其在更具挑戰(zhàn)性的圖像檢測(cè)領(lǐng)域的迅猛發(fā)展和不斷進(jìn)步,海量的數(shù)據(jù)和強(qiáng)大硬件設(shè)備的支撐是卷積神經(jīng)網(wǎng)絡(luò)能夠在圖像處理領(lǐng)域取得空前成功的重要基礎(chǔ)。就本文的介紹來(lái)看,基于深度學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)模型沒(méi)有最好只有更好,因此其在某些方面仍然需要進(jìn)行持續(xù)完善和改進(jìn):
(1)完備卷積神經(jīng)網(wǎng)絡(luò)的理論基礎(chǔ),對(duì)網(wǎng)絡(luò)表達(dá)的特征進(jìn)一步解釋和優(yōu)化,提高檢測(cè)準(zhǔn)確率;
(2)在保證準(zhǔn)確率的前提下設(shè)計(jì)更優(yōu)更輕型的網(wǎng)絡(luò)模型,減少對(duì)強(qiáng)大硬件設(shè)備依賴的同時(shí)實(shí)現(xiàn)實(shí)時(shí)檢測(cè),更好地應(yīng)用于嵌入式設(shè)備中;
(3)使用巧妙的設(shè)計(jì)來(lái)減少模型運(yùn)算的吞吐量,取得檢測(cè)準(zhǔn)確率、速度以及內(nèi)存消耗之間的均衡。
除此之外提高模型的可編程性、能效和學(xué)習(xí)率等性能也是需要面臨的挑戰(zhàn),亟待解決。盡管如此,卷積神經(jīng)網(wǎng)絡(luò)依靠其巨大的潛力優(yōu)勢(shì)吸引著越來(lái)越多的學(xué)者對(duì)其進(jìn)行探索和不斷拓展,可以預(yù)見的是卷積神經(jīng)網(wǎng)絡(luò)在未來(lái)的應(yīng)用領(lǐng)域和發(fā)展前景必將更加廣闊。
引用格式: 姜曉偉,王春平,付強(qiáng). 卷積神經(jīng)網(wǎng)絡(luò)及其在目標(biāo)檢測(cè)中的應(yīng)用[J]. 戰(zhàn)術(shù)導(dǎo)彈技術(shù), 2019, (1): 108-114+123.
本文選自《戰(zhàn)術(shù)導(dǎo)彈技術(shù)》2019年第1期
作者:姜曉偉,王春平,付強(qiáng)
聯(lián)系客服