中文字幕理论片,69视频免费在线观看,亚洲成人app,国产1级毛片,刘涛最大尺度戏视频,欧美亚洲美女视频,2021韩国美女仙女屋vip视频

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
目標(biāo)檢測(cè)篇 - YOLO V1論文筆記(Anchor-free)

YOLO

直接進(jìn)入正文:

摘要:

我們提出了YOLO,一種新的物體檢測(cè)方法,之前的目標(biāo)檢測(cè)是通過(guò)重新使用分類器來(lái)完成檢測(cè)。相反,我們將目標(biāo)檢測(cè)抽象為一個(gè)回歸問(wèn)題,描述為以空間分隔的邊界框和相關(guān)的類別概率。一個(gè)簡(jiǎn)單的神經(jīng)網(wǎng)絡(luò)通過(guò)對(duì)完整圖片的進(jìn)行檢測(cè),直接預(yù)測(cè)邊界框和分類類別。因?yàn)檎麄€(gè)檢測(cè)基于是單一網(wǎng)絡(luò),所以可以實(shí)現(xiàn)端到端優(yōu)化。

我們整體的框架運(yùn)行速度非???。我們的基礎(chǔ)模型YOLO實(shí)時(shí)處理圖片速度達(dá)到45幀/秒。另一個(gè)小規(guī)模版本--Fast YOLO,達(dá)到了驚人的處理155幀/秒的圖片速率,并且仍然實(shí)現(xiàn)了2倍于其他實(shí)時(shí)檢測(cè)器的mAP。與當(dāng)前最先進(jìn)的檢測(cè)系統(tǒng)相比,YOLO有較高的定位錯(cuò)誤,但是對(duì)于沒(méi)有物體區(qū)域的檢測(cè)錯(cuò)誤,YOLO優(yōu)于其他系統(tǒng)。最后,YOLO學(xué)習(xí)了對(duì)象的通用表示,從自然圖像到畢加索和PeopleArt數(shù)據(jù)集,它的性能遠(yuǎn)遠(yuǎn)超過(guò)其他檢測(cè)方法,包括DPM和RCNN。

1.介紹

人們瞥一眼圖像,就能立即知道圖像中的物體是什么,它們?cè)谀睦?,以及他們之間的相互關(guān)系。人類的視覺系統(tǒng)快而準(zhǔn)確,以至于可以允許我們完成像駕駛汽車之類的復(fù)雜任務(wù),而不用很多的意識(shí)想法參與。快速、準(zhǔn)確的目標(biāo)檢測(cè)算法將允許計(jì)算機(jī)在任何天氣下駕駛汽車而不需要特定傳感器,輔助設(shè)備可以將實(shí)時(shí)的場(chǎng)景信息傳遞給人類用戶,并且釋放通用的、反應(yīng)靈敏的機(jī)器人系統(tǒng)能力。

現(xiàn)在的檢測(cè)系統(tǒng)重新使用分類器來(lái)進(jìn)行檢測(cè)。為了檢測(cè)物體,這些系統(tǒng)使用一個(gè)對(duì)應(yīng)類別的分類器,并且將其應(yīng)用到測(cè)試圖片中的不同區(qū)域和規(guī)模。例如deformable parts models(DPM)使用滑動(dòng)窗口,以使得分類器作用于整張圖片上的每一個(gè)區(qū)域。

最近的一些方法,像R-CNN,使用建議區(qū)域方法(region proposal method),先在圖片中定位邊界框,然后再通過(guò)分類器來(lái)對(duì)邊界框進(jìn)行分類(是典型的two-staged的方法)。分類之后,使用后處理對(duì)邊框進(jìn)行校正,消除重復(fù)邊界框(如NMS),并且根據(jù)場(chǎng)景中的其他物體,對(duì)邊界框重新打分。該方法很難去優(yōu)化,因?yàn)槊恳粋€(gè)獨(dú)立的部分都需要分開訓(xùn)練。

我們重新抽象目標(biāo)檢測(cè)為一個(gè)簡(jiǎn)單的回歸問(wèn)題,直接從圖像像素輸入到輸出邊界框坐標(biāo)和類別概率。使用我們的系統(tǒng),你只需要看一遍('you only look once', YOLO)圖片就能預(yù)測(cè)出物體的類別和位置。

圖1:YOLO V1系統(tǒng)

圖1:YOLO目標(biāo)檢測(cè)系統(tǒng)。使用YOLO處理圖像非常簡(jiǎn)單和直接。我們的系統(tǒng)(1)吊針輸入圖像的大小為448×448,(2)將圖像輸入到一個(gè)簡(jiǎn)單的卷積神經(jīng)網(wǎng)絡(luò),并且(3)通過(guò)閾值篩選出檢測(cè)結(jié)果。

YOLO非常簡(jiǎn)單:見圖1。一個(gè)簡(jiǎn)單的卷積網(wǎng)絡(luò)同時(shí)預(yù)測(cè)多個(gè)邊界框以及其每一個(gè)對(duì)應(yīng)的:類別概率。YOLO是對(duì)完整圖像進(jìn)行訓(xùn)練并且直接優(yōu)化檢測(cè)效果。這種統(tǒng)一的模型相比傳統(tǒng)的目標(biāo)檢測(cè)模型有幾個(gè)優(yōu)點(diǎn)。

優(yōu)點(diǎn)1:YOLO很快。因?yàn)槲覀兂橄笪锲窓z測(cè)為回歸問(wèn)題,不需要復(fù)雜的規(guī)則。在測(cè)試時(shí),我們將新圖片喂給神經(jīng)網(wǎng)絡(luò),基礎(chǔ)網(wǎng)絡(luò)運(yùn)行速率為45幀/秒(在泰坦X GPU上沒(méi)有批量處理),快速版本運(yùn)行速率超過(guò)150幀/秒。這意味著我們能夠以小于25ms的延遲實(shí)時(shí)處理視頻。而且,YOLO的平均精度是其他實(shí)時(shí)系統(tǒng)平均精度的兩倍以上。有關(guān)我們系統(tǒng)的Demo可以實(shí)時(shí)在網(wǎng)站上運(yùn)行演示,請(qǐng)看我們的YouTube頻道:https://goo.gl/bEs6Cj。

優(yōu)點(diǎn)2:YOLO在預(yù)測(cè)時(shí)利用了圖像的全局信息。不像基于滑動(dòng)窗口和基于建議區(qū)域(region proposal)的技術(shù),YOLO在訓(xùn)練和測(cè)試的時(shí)都是看到整個(gè)圖像的,所以它對(duì)類別的上下文信息以及它們的外觀進(jìn)行編碼。Fast R-CNN由于無(wú)法看到更多的上下文信息,所以會(huì)在圖像中錯(cuò)誤地顯示背景塊(將背景塊錯(cuò)誤識(shí)別)。YOLO產(chǎn)生的背景錯(cuò)誤不到R-CNN的一半。

優(yōu)點(diǎn)3:YOLO學(xué)習(xí)的是對(duì)象的通用表示。在自然圖像進(jìn)行訓(xùn)練并且在藝術(shù)品上進(jìn)行測(cè)試時(shí),YOLO的表現(xiàn)遠(yuǎn)遠(yuǎn)超過(guò)DPM和R-CNN等檢測(cè)方法。由于YOLO是高度一般化的,所以當(dāng)其應(yīng)用到新的領(lǐng)域或者意外的輸入時(shí),它不太可能出現(xiàn)崩潰(效果很差)。代碼已開源。

2.統(tǒng)一識(shí)別(Unified Detection)

我們將物體檢測(cè)的幾個(gè)部分統(tǒng)一成一個(gè)簡(jiǎn)單的神經(jīng)網(wǎng)絡(luò)。我們的網(wǎng)絡(luò)使用整張圖片的特征去預(yù)測(cè)每一個(gè)邊界框,它也支持對(duì)一張圖片同時(shí)預(yù)測(cè)全部邊界框。這意味著網(wǎng)絡(luò)關(guān)注整張圖片以及在這張圖片中的所有物體的信息。這個(gè)設(shè)計(jì)允許端到端的訓(xùn)練,以及在保證高準(zhǔn)確率的同時(shí)保證實(shí)時(shí)速度。

我們的系統(tǒng)將輸入圖像分成S×S(7x7)的網(wǎng)格。如果物品的中點(diǎn)落在某一個(gè)網(wǎng)格單元,這個(gè)網(wǎng)格單元將負(fù)責(zé)識(shí)別出這個(gè)物體。

每一個(gè)網(wǎng)格單元預(yù)測(cè)B(B=2)個(gè)邊界框以及對(duì)應(yīng)于每一個(gè)邊界框的置信分?jǐn)?shù)。這些置信分?jǐn)?shù)反映了這個(gè)模型預(yù)測(cè)該邊界框包含某一物體的可能性以及模型認(rèn)為對(duì)于這個(gè)邊界框的預(yù)測(cè)有多高的準(zhǔn)確率。我們將置信度用公式定義為Pr(Object)?IOUtruthpred。如果在網(wǎng)格單元中沒(méi)有物品,置信分?jǐn)?shù)將為0。否則,我們定義置信分?jǐn)?shù)為預(yù)測(cè)邊界框和真實(shí)邊界框的IOU(intersection over union)。

每一個(gè)邊界框包含5個(gè)預(yù)測(cè)值:x,y,w,h以及置信分?jǐn)?shù)confidence。(x,y)表示了邊界框相對(duì)于當(dāng)前網(wǎng)格單元的位置。width和height是根據(jù)整張圖片的比例預(yù)測(cè)的。最后,置信分?jǐn)?shù)表示預(yù)測(cè)邊界框和真實(shí)邊界框的IOU。每一個(gè)網(wǎng)格單元同時(shí)也預(yù)測(cè)屬于C類別的條件概率,Pr(Classi|Object)。這個(gè)概率表示了這個(gè)網(wǎng)格單元包含某一個(gè)物體的置信度。我們也預(yù)測(cè)每個(gè)網(wǎng)格的一組類別的概率,而不考慮邊界框的數(shù)量B。

在測(cè)試的時(shí)候我們將類別概率和獨(dú)立的邊界框預(yù)測(cè)置信分?jǐn)?shù)相乘,公式如下:

這個(gè)給了我們對(duì)于每一個(gè)邊界框?qū)儆谀骋粋€(gè)特定類別的置信分?jǐn)?shù)。這些分?jǐn)?shù)編碼了這個(gè)類出現(xiàn)在框中的概率以及預(yù)測(cè)框和對(duì)象的匹配程度。在PADCAL VOC上評(píng)估YOLO,我們使用了S=7,B=2。PASCAL VOC有20個(gè)標(biāo)簽類別,所以C=20。我們最后的預(yù)測(cè)是一個(gè)7×7×30的張量。

圖2:模型

我們的系統(tǒng)模型抽象為一個(gè)回歸問(wèn)題。它將圖片分為一個(gè)一個(gè)的網(wǎng)格并且同時(shí)地預(yù)測(cè)邊界框、置信分?jǐn)?shù)以及類別概率。這些預(yù)測(cè)將被編碼為S×S×(B*5+C)的張量。

2.1網(wǎng)絡(luò)設(shè)計(jì)

我們通過(guò)卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)這個(gè)模型,在PASCAL VOC檢測(cè)數(shù)據(jù)集上進(jìn)行評(píng)估。網(wǎng)絡(luò)中初始的卷積層從圖像中提取特征,而全連接層用來(lái)預(yù)測(cè)輸出概率和坐標(biāo)。

我們的網(wǎng)絡(luò)架構(gòu)受GoogLeNet啟發(fā),網(wǎng)絡(luò)有24個(gè)卷積層,后面接2個(gè)全連接層。然而,不同于GoogLeNet中使用的inception modules簡(jiǎn)單地在1×1卷積層后面接上3×3卷積層。我們的整個(gè)網(wǎng)絡(luò)如圖3所示。

圖3:網(wǎng)絡(luò)結(jié)構(gòu)

圖3:架構(gòu)。我們的檢測(cè)網(wǎng)絡(luò)擁有24個(gè)卷積層后接2個(gè)全連接層。交替使用1×1卷積層從前面網(wǎng)絡(luò)層中減小了特征空間。我們?cè)贗mageNet分類任務(wù)上使用一辦分辨率(224×224的輸入圖像)預(yù)訓(xùn)練了卷積層,然后使用一倍分辨率用來(lái)訓(xùn)練檢測(cè)。

預(yù)測(cè)張量分析

我們也訓(xùn)練了一個(gè)YOLO的快速版本,其用于快速進(jìn)行目標(biāo)檢測(cè)并且給出邊界框。fast YOLO使用更少卷積層的神經(jīng)網(wǎng)絡(luò)(9個(gè)而不是24個(gè))以及卷積層中有更少的卷積核(過(guò)濾器)。除了網(wǎng)絡(luò)的規(guī)模,其他的訓(xùn)練和測(cè)試的參數(shù)YOLO和fast YOLO是一樣的。網(wǎng)絡(luò)的預(yù)測(cè)輸出是一個(gè)7×7×30的張量。

2.2 訓(xùn)練

我們?cè)贗mageNet 1000-class挑戰(zhàn)賽數(shù)據(jù)集上預(yù)訓(xùn)練卷積層。為了預(yù)訓(xùn)練,我們使用了圖3中的前面20個(gè)卷積層,接上一個(gè)平均池化層和一個(gè)全連接層。訓(xùn)練網(wǎng)絡(luò)時(shí)間大約為一周,達(dá)到了在ImageNet 2012驗(yàn)證數(shù)據(jù)集上top-5 88%的準(zhǔn)確率,可以與Caffe's的模型庫(kù)中的GoogLeNet相比。

然后我們模型應(yīng)用到檢測(cè)任務(wù)。Ren等人提出加入卷積層和連接層可以提高預(yù)訓(xùn)練網(wǎng)絡(luò)的性能。根據(jù)他們的樣例,我們?cè)谖覀兊念A(yù)訓(xùn)練網(wǎng)絡(luò)上加入了四個(gè)卷積層和兩個(gè)全連接層,它們都用隨機(jī)權(quán)重初始化。檢測(cè)任務(wù)通常需要細(xì)粒度的視覺信息,因此我們將網(wǎng)絡(luò)的輸入像素從224×224增加到448×448。

我們最后一層同時(shí)預(yù)測(cè)了類別概率以及邊界框位置。我們利用原圖像的寬和高歸一化邊界框的寬和高,從而使得邊界框的寬和高表示數(shù)值落在0和1之間。我們將邊界框的坐標(biāo)x和y參數(shù)化,使得其成為特定網(wǎng)絡(luò)單元格位置的偏移量,因此他們的數(shù)值也在0和1之間。最后一層使用線性激活函數(shù),而其他所有層使用下述的leaky rectified線性激活函數(shù)。

我們優(yōu)化模型輸出的平方誤差和。使用平方誤差和是因?yàn)橐子趦?yōu)化,雖然它并不符合我們最大化平均精度的目標(biāo)。它將定位誤差和分類誤差同等加權(quán),這可能不是理想的。同時(shí),在每一張圖片中,一些網(wǎng)格單元并不包含物體。這使得這些單元的置信分?jǐn)?shù)為0,通常會(huì)超過(guò)包含對(duì)象的單元格梯度,這可能導(dǎo)致模型的不穩(wěn)定。

為了補(bǔ)救這個(gè)問(wèn)題,我們?cè)黾舆吔缈蛭恢妙A(yù)測(cè)的損失,減少不包含物體的邊界框置信預(yù)測(cè)的損失。我們使用兩個(gè)參數(shù)λcoord和λnoobj來(lái)實(shí)現(xiàn),設(shè)置λcoord=5和λnoobj=0.5。

平方誤差和對(duì)于大回歸框和小回歸框有著同等權(quán)重。我們的錯(cuò)誤度量應(yīng)該反映出小邊界框的小偏差比大邊界框的小偏差更重要(小的偏差一點(diǎn),結(jié)果就會(huì)偏差很多,而大的偏差一點(diǎn),并不會(huì)很影響結(jié)果)。為了部分解決這個(gè)問(wèn)題,我們預(yù)測(cè)邊界框的寬和高的平方根而不是直接預(yù)測(cè)寬和高。

YOLO對(duì)于每一個(gè)網(wǎng)格單元預(yù)測(cè)多個(gè)邊界框。在訓(xùn)練時(shí)候,我們只希望每一個(gè)對(duì)象只用一個(gè)邊界框預(yù)測(cè)器來(lái)負(fù)責(zé)表示。我們根據(jù)哪一個(gè)邊界框跟真實(shí)邊界框有最高的IOU來(lái)決定分配其作為負(fù)責(zé)預(yù)測(cè)一個(gè)對(duì)象的預(yù)測(cè)器。這將使得邊界看預(yù)測(cè)器越來(lái)越“專業(yè)”。每一個(gè)預(yù)測(cè)器對(duì)于特定的尺寸、長(zhǎng)寬比例、或者對(duì)象類別的預(yù)測(cè)會(huì)越來(lái)越好。

在訓(xùn)練的時(shí)候,我們優(yōu)化下面這個(gè)多部分損失函數(shù):

損失函數(shù)

注意:損失函數(shù)只有當(dāng)有一個(gè)對(duì)象在網(wǎng)格單元中,才會(huì)對(duì)分類錯(cuò)誤進(jìn)行懲罰(因此前面討論了條件類別概率)。這也只有當(dāng)一個(gè)預(yù)測(cè)器負(fù)責(zé)真實(shí)邊界框時(shí)才會(huì)對(duì)邊界框坐標(biāo)定位誤差進(jìn)行懲罰(也就是在該網(wǎng)格單元中有最高的IOU預(yù)測(cè)器)。

我們?cè)赑ASCAL VOC 2007和2012數(shù)據(jù)集上訓(xùn)練大約135個(gè)迭代。測(cè)試時(shí)候我們也在2012和2007測(cè)試數(shù)據(jù)集上進(jìn)行。訓(xùn)練過(guò)程中我們使用的batch size為64,momentum為0.9以及0.0005的decay。

學(xué)習(xí)率策略如下:對(duì)于第一個(gè)迭代,我們緩慢地將學(xué)習(xí)率從10?3提高到10?2。如果我們從較高的學(xué)習(xí)率開始我們的模型通常會(huì)因?yàn)椴环€(wěn)定而發(fā)散。我們接下來(lái)以10?2的學(xué)習(xí)率訓(xùn)練75個(gè)迭代,然后減少到10?3再繼續(xù)訓(xùn)練30個(gè)迭代,最后減少到10?4再訓(xùn)練30個(gè)迭代。

為了避免過(guò)擬合,我們使用了dropout和擴(kuò)展增強(qiáng)數(shù)據(jù)集。第一個(gè)連接層之后的dropout層的rate為0.5,以防止層之間的相互適應(yīng)。對(duì)于數(shù)據(jù)增強(qiáng),我們引入了高達(dá)20%的原始圖像進(jìn)行隨機(jī)放縮和平移。我們同時(shí)也在HSV顏色空間中隨機(jī)調(diào)整圖像的曝光和飽和度,其調(diào)整幅度高達(dá)1.5。

2.3 Inference(推斷)

類似于訓(xùn)練,對(duì)一張測(cè)試圖片進(jìn)行預(yù)測(cè)檢測(cè)只需要一次網(wǎng)絡(luò)評(píng)估。在PASCAL VOC,這個(gè)網(wǎng)絡(luò)對(duì)于每一張圖片預(yù)測(cè)98個(gè)邊界框以及對(duì)于每一個(gè)邊界框預(yù)測(cè)類別概率。YOLO在測(cè)試時(shí)候特別快因?yàn)樗恍枰淮魏?jiǎn)單的網(wǎng)絡(luò)評(píng)估,而不像給予分類器的方法(需要多步處理,或者需要對(duì)圖片進(jìn)行復(fù)雜的預(yù)處理)。

網(wǎng)格的設(shè)計(jì)在邊界框預(yù)測(cè)中強(qiáng)調(diào)了空間的多樣性。通常來(lái)說(shuō),一個(gè)對(duì)象只落在一個(gè)網(wǎng)格單元里面,因此網(wǎng)絡(luò)只需要對(duì)于每一個(gè)對(duì)象預(yù)測(cè)一個(gè)邊界框即可。然而,一些大的對(duì)象或者對(duì)象剛好在多個(gè)網(wǎng)格單元的邊緣可能會(huì)被歸屬有多個(gè)網(wǎng)格單元。非極大值抑制(NMS)能夠用來(lái)綜合這些重疊的檢測(cè)。雖然不像R-CNN或者DPM那樣對(duì)性能至關(guān)重要,但非極大值抑制使得mAP中增加了23%。

推斷

2.4 YOLO的局限性

YOLO對(duì)邊界框預(yù)測(cè)施加了嚴(yán)格的空間約束,因?yàn)槊總€(gè)網(wǎng)格單元只能預(yù)測(cè)兩個(gè)邊界框,并且只能有一個(gè)類。這個(gè)空間約束限制了我們模型能夠預(yù)測(cè)的臨近對(duì)象的數(shù)量。我們的模型在處理以群體形式出現(xiàn)的小對(duì)象時(shí)會(huì)有困難,比如成群的鳥。

由于模型是通過(guò)數(shù)據(jù)集來(lái)學(xué)習(xí)預(yù)測(cè)邊界框的,所以它很難推廣到新的或不常見的寬高比例或不同屬性的對(duì)象。由于我們的架構(gòu)有多個(gè)從輸入圖像的下采樣層,我們的模型還使用了相對(duì)粗糙的特征來(lái)預(yù)測(cè)邊界框。

最后,當(dāng)我們訓(xùn)練一個(gè)大約有檢測(cè)功能的損失函數(shù)時(shí),我們的損失函數(shù)對(duì)于小邊界框和大邊界框中的錯(cuò)誤做了同等的對(duì)待。大邊界框的小錯(cuò)誤可能沒(méi)什么影響,但當(dāng)小邊界框有稍微的錯(cuò)誤偏差將極大地影響到IOU。YOLO中的誤差主要還是定位的誤差。

3 與其他檢測(cè)系統(tǒng)進(jìn)行比較

目標(biāo)檢測(cè)是計(jì)算機(jī)視覺中的一個(gè)核心問(wèn)題。檢測(cè)過(guò)程通常是從輸入圖像提取一組魯棒特征開始。然后,使用分類器或者定位器來(lái)從特征空間中識(shí)別出對(duì)象。這些分類器或者定位器既可以以滑動(dòng)窗口的方式在整個(gè)圖像上運(yùn)行,也可以在圖像中的某些子區(qū)域進(jìn)行運(yùn)行。我們著重將YOLO檢測(cè)系統(tǒng)和幾個(gè)頂尖的識(shí)別框架的關(guān)鍵的相似點(diǎn)和不同點(diǎn)進(jìn)行比較。

Deformable parts models(DPM):DPM使用滑動(dòng)窗口方法來(lái)進(jìn)行目標(biāo)檢測(cè)。DPM使用不相交的通道(disjoint pipeline,分離模塊?)來(lái)提取靜態(tài)特征,區(qū)域分類,對(duì)高分區(qū)域預(yù)測(cè)邊界框等等。我們的系統(tǒng)將這些分離的部分都替換成一個(gè)簡(jiǎn)單的卷積神經(jīng)網(wǎng)絡(luò)。這個(gè)網(wǎng)絡(luò)提供了特征提取,邊界框預(yù)測(cè),非極大值抑制以及上下文并發(fā)推理(contextual reasoning all concurrently)等功能。相比DPM,我們的網(wǎng)絡(luò)不是提取靜態(tài)特征,而是在線訓(xùn)練特征,并且根據(jù)檢測(cè)任務(wù)優(yōu)化它們。我們的統(tǒng)一模型相比DPM有著更快的速度以及更高的準(zhǔn)確率。

R-CNN:R-CNN以及它的一些變種使用建議區(qū)域(region proposals)而不是滑動(dòng)窗口去找到圖片中的目標(biāo)。選擇性搜索生成潛在可能的邊界框,一個(gè)卷積網(wǎng)絡(luò)用來(lái)提取特征,一個(gè)SVM(支持向量機(jī))來(lái)對(duì)邊界框進(jìn)行平衡,一個(gè)線性模型來(lái)調(diào)整邊界框,以及非極大值抑制來(lái)消除重復(fù)的檢測(cè)。這個(gè)復(fù)雜的方法要求每個(gè)階段都必須獨(dú)立地進(jìn)行精確的調(diào)優(yōu),這導(dǎo)致系統(tǒng)非常慢,在測(cè)試時(shí)候預(yù)測(cè)一張圖片需要40秒以上。

YOLO和R-CNN有一些相似之處。每一個(gè)網(wǎng)格單元通過(guò)卷積特征提出一個(gè)潛在的邊界框和對(duì)應(yīng)的分?jǐn)?shù)。然而,我們的系統(tǒng)在網(wǎng)格單元上設(shè)置了空間約束,這有助于減少同一個(gè)對(duì)象被多次檢測(cè)。我們的系統(tǒng)也給出了更少的回歸框,對(duì)于每張圖片之給出了98個(gè),而選擇性搜索大約有2000個(gè)。最后,我們的系統(tǒng)綜合了這些分離的部分為一個(gè)簡(jiǎn)單的、聯(lián)合優(yōu)化(jointly optimized)的模型。

其他快速分類器:快速的和更快的R-CNN是通過(guò)共享計(jì)算以及使用神經(jīng)網(wǎng)絡(luò)去提供預(yù)測(cè)區(qū)域而不是選擇性搜索來(lái)加速R-CNN框架的速度。當(dāng)它們實(shí)現(xiàn)了在R-CNN的基礎(chǔ)上的速度和準(zhǔn)確率的提升的同時(shí),還是仍然不能達(dá)到實(shí)時(shí)性能。

一些研究工作致力于加速DPM。它們加速了HOG計(jì)算,使用級(jí)聯(lián),并將計(jì)算放入GPU中。但是,DPM實(shí)際上實(shí)時(shí)速度只有30Hz。相比分開的去優(yōu)化一個(gè)大的檢測(cè)系統(tǒng)中的某一些獨(dú)立的部分,YOLO提出了一個(gè)統(tǒng)一的模型設(shè)計(jì)并且它很快。像人臉或者人這樣的單一檢測(cè)器能夠被高度的優(yōu)化,因?yàn)樗鼈兲幚砗苌俚淖兓?。YOLO是一種通用的目標(biāo)檢測(cè)器,它可以學(xué)習(xí)同時(shí)檢測(cè)多種目標(biāo)。

Deep MultiBox:不像R-CNN,Szegedy等人訓(xùn)練一個(gè)卷積神經(jīng)網(wǎng)絡(luò)來(lái)預(yù)測(cè)感興趣的區(qū)域而不是通過(guò)選擇性搜索。MultiBox能夠在單一目標(biāo)檢測(cè)中把置信分?jǐn)?shù)預(yù)測(cè)替換成單一類別預(yù)測(cè)。然而,MultiBox不能夠?qū)崿F(xiàn)通用的目標(biāo)檢測(cè),并且它只是一個(gè)大的檢測(cè)系統(tǒng)中的一個(gè)部分,需要更進(jìn)一步的圖片小塊分類。YOLO和MultiBox都使用了卷積網(wǎng)絡(luò)去預(yù)測(cè)一張圖片中的邊界框,但是YOLO是一個(gè)完整的檢測(cè)系統(tǒng)。

OverFeat:Sermanet等人訓(xùn)練一個(gè)卷積神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)定位并且調(diào)整定位器去做檢測(cè)。OverFeat有效地使用了滑動(dòng)窗口檢測(cè),當(dāng)它仍然是一個(gè)分離系統(tǒng)。OverFeat優(yōu)化對(duì)象是定位信息,而不是檢測(cè)性能。類似DPM,定位器在做預(yù)測(cè)的時(shí)候只看到了定位信息。OverFeat不能關(guān)注到全局的上下文信息,因此需要有效的后續(xù)處理來(lái)提供目標(biāo)間具有相關(guān)性的檢測(cè)效果。

MultiGrasp:我們的工作跟Redmon等人提出的grasp detection設(shè)計(jì)相似。我們的網(wǎng)格邊界框預(yù)測(cè)方法是基于回歸抓取的MultiGrasp系統(tǒng)(the MultiGrasp system for regression to grasps)。然而,grasp detection是一種比目標(biāo)檢測(cè)更加簡(jiǎn)單的任務(wù)。MultiGrasp只需要去預(yù)測(cè)一張只包含一個(gè)對(duì)象的圖片中的一個(gè)單一區(qū)域。它不需要去評(píng)估尺寸、位置以及邊界,也不需要預(yù)測(cè)它所屬的類別,而只需要找到一個(gè)適合抓取的區(qū)域。而YOLO需要對(duì)一張圖片中有多個(gè)對(duì)象以及多種物體來(lái)預(yù)測(cè)邊界框以及類別概率。

4.實(shí)驗(yàn)

表1

表1:在PASCAL VOC 2007上的實(shí)時(shí)系統(tǒng)。比較快速檢測(cè)器的性能和速度。Fast YOLO是PASCAL VOC檢測(cè)中歷史上最快的檢測(cè)器,而且它還有其他檢測(cè)器兩倍的準(zhǔn)確率。YOLO相比Fast YOLO多了10 mAP的準(zhǔn)確度而且還保持著實(shí)時(shí)性。

圖4:錯(cuò)誤分析

圖4:錯(cuò)誤分析:Fast R-CNN vs. YOLO:這些圖顯示了對(duì)于不同類別的top N檢測(cè)的定位和背景錯(cuò)誤的百分比(N=#個(gè)在該類別的對(duì)象)。

表2:對(duì)比f(wàn)ast R-CNN

表2:在VOC 2007上的模型綜合實(shí)驗(yàn)。我們驗(yàn)證了將最好版本的Fast R-CNN綜合不同模型的效果。綜合YOLO提升了不錯(cuò)的性能,而綜合其他版本的Fast R-CNN相比沒(méi)有提高很多效果。

5 結(jié)論

我們介紹了YOLO,這是一個(gè)統(tǒng)一模型來(lái)做目標(biāo)檢測(cè)。我們的模型結(jié)構(gòu)簡(jiǎn)單,可以在完整圖片上直接進(jìn)行訓(xùn)練。不像基于分類器的方法,YOLO直接訓(xùn)練與檢測(cè)性能相關(guān)的損失函數(shù),并且整個(gè)模型是一起訓(xùn)練的。

Fast YOLO是文獻(xiàn)中最快的通用目標(biāo)檢測(cè)方法,而YOLO則是代表實(shí)時(shí)目標(biāo)檢測(cè)的最前沿。YOLO同時(shí)也能夠很好的推廣到新領(lǐng)域,這使得它成為依賴于快速、健壯的目標(biāo)識(shí)別領(lǐng)域的理想選擇。

論文鏈接:https://arxiv.org/pdf/1506.02640.pdf

代碼鏈接:http://pjreddie.com/yolo/

完結(jié)撒花!

本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
R-CNN,SPP-NET, Fast-R-CNN,Faster-R-CNN, YOLO, SSD系列深度學(xué)習(xí)檢測(cè)方法梳理
YOLOv1論文理解
深入理解one-stage目標(biāo)檢測(cè)算法(上篇)
刷臉支付、AI修圖靠的是什么?本文幫你解答
目標(biāo)檢測(cè)YOLO系列算法的進(jìn)化史
使用 YOLO 進(jìn)行目標(biāo)檢測(cè)
更多類似文章 >>
生活服務(wù)
熱點(diǎn)新聞
分享 收藏 導(dǎo)長(zhǎng)圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服