在這個六一兒童節(jié),我們將為大家介紹一位這樣的計算機(jī)視覺大牛:留著大胡子卻懷揣著少女心,技術(shù)超神卻依然童心未泯——他就是YOLO之父,一位或許現(xiàn)在正在過著兒童節(jié)的計算機(jī)視覺開發(fā)者。
一年了,大家還記得那位退隱CV江湖的YOLO之父“小馬哥”嗎?
可能搞目標(biāo)檢測的,或者說搞計算機(jī)視覺的,都知道一個叫YOLO的系列工作。YOLO是You Only Look Once的縮寫,即“你只需要看一次”。
YOLO可以說是計算機(jī)視覺領(lǐng)域最知名的目標(biāo)檢測算法之一,它是用來找出圖像中人們感興趣的目標(biāo),并確定其大小、位置和類別,很多日常生活中的常見任務(wù)都離不開這種算法。
作為開創(chuàng)one-stage檢測的先河,縱然YOLO算法在學(xué)術(shù)界可能不如RCNN等系列算法那樣引人注目,但是在工業(yè)界,YOLO的名頭可是響當(dāng)當(dāng)?shù)?。畢竟?/span>每次YOLO更新,都會迎來一大波公司更新自家算法的熱潮。
在這個六一兒童節(jié),我們將帶領(lǐng)大家走進(jìn)YOLO的作者:Joseph Redmon,一位經(jīng)常讓自己家的狗和自己一起出鏡,可能你去美國滑雪的話還能偶遇的“看不出是大神的大神”。人是真的低調(diào),但技術(shù)也是真的硬核。
關(guān)于Joseph Redmon成為大神之前的那些事兒,我們可以從他精心設(shè)計的小馬簡歷重窺見一二:圖注: “鬼馬精靈”Joseph Redmon的簡歷
Joseph Redmon在簡歷中稱呼自己為“小馬”。小馬哥畢業(yè)于一所美國非常著名的文理學(xué)院——明德學(xué)院(Middlebury College),文理學(xué)院是指奉行博雅教育、以本科教育為主、規(guī)模小而精的大學(xué),而明德學(xué)院在全美排名第五,是一所在本科教育上絲毫不遜色于常青藤聯(lián)盟的高等學(xué)府。小馬哥在明德學(xué)院主修計算機(jī)科學(xué),并輔修數(shù)學(xué)。也是在明德學(xué)院求學(xué)期間,他對計算機(jī)科學(xué)和數(shù)學(xué)產(chǎn)生了強(qiáng)烈的好奇與持續(xù)的熱愛。他以最優(yōu)異的成績畢業(yè),還獲得了系里的優(yōu)秀學(xué)術(shù)獎。同時,小馬哥也十分喜歡傳授知識,因此,他在明德學(xué)院擔(dān)任了兩年助教。期間,小馬哥先是前往美國國家標(biāo)準(zhǔn)與技術(shù)研究院,他在那兒開發(fā)了一個分析熱中子三軸光譜數(shù)據(jù)的在線工具,甚至還有自己的核反應(yīng)堆。隨后他前往IBM實習(xí),與當(dāng)時IBM的阿爾瑪?shù)茄芯恐行?Almaden Research Center)合作,開發(fā)與網(wǎng)上購物相關(guān)的技術(shù)。小馬哥還在當(dāng)時的一家初創(chuàng)公司ZeroCater工作過,他在那兒負(fù)責(zé)了一些比較重要的項目。但也是在ZeroCater,這匹小馬明白每日“耕作”并不適合他。于是他迅速的甩掉鉆頭和韁繩,飛奔回了阿拉斯加。畢業(yè)后,不走尋常路的小馬哥在阿拉斯加州的Unalaska擔(dān)任了一名電臺DJ,但不忘老本行,小馬哥作為自由網(wǎng)絡(luò)開發(fā)者,以及資深愛馬人士,他還給阿拉斯加灌木叢里所有漂亮的小馬制作了一個高質(zhì)量網(wǎng)站。圖注: Joseph Redmon的小馬
結(jié)束這些工作之后,小馬哥前往華盛頓大學(xué)攻讀博士學(xué)位,他的大神之路,也就正式開始了。
2013年開啟華盛頓大學(xué)求學(xué)生涯,Joseph Redmon 跟隨 Allen School 教授 Ali Farhadi 從事計算機(jī)視覺研究。
在2016年,他提出了他至今以來最有名的個人項目:《You Only Look Once: Unified, Real-Time Object Detection》。這篇論文也發(fā)表在CVPR2016上,并獲得了 CVPR 2016的“OpenCV People's Choice Award”獎項——也就CVPR最佳人氣獎,由此可見大家對于YOLO這一算法的追捧與喜愛。
小馬哥也就是從這里開始,如脫韁的野馬,一發(fā)不可收拾。每年推出一個YOLO新版本,一代比一代強(qiáng)。
在當(dāng)時,主流的目標(biāo)檢測算法是基于Region Proposal的R-CNN系算法,這類算法在包含實例分割、目標(biāo)檢測等多個計算機(jī)視覺任務(wù)上都表現(xiàn)優(yōu)異。但它們通常存在一個問題,就是速度較慢。對比之下,YOLO讓當(dāng)時的技術(shù)實現(xiàn)了一個十分重要的突破:one-stage,即“你只需要瀏覽一次(You Only Look Once)”,就能一步到位地完成目標(biāo)定位和目標(biāo)識別。
R-CNN系算法是two-stage的,因而需要將目標(biāo)檢測分解為兩個問題,即分類和回歸分別求解,而YOLO則將目標(biāo)檢測作為一個回歸問題進(jìn)行求解。由于 YOLO 只使用單個網(wǎng)絡(luò),因此可以在檢測性能上直接對其進(jìn)行端到端的優(yōu)化,這使得基礎(chǔ)的YOLO模型實時處理圖像的速度能達(dá)到每秒45幀。
2017年,Joseph Redmon與導(dǎo)師合著,發(fā)表了論文《YOLO9000: Better, Faster, Stronger》,也就是YOLOv2。這篇論文獲得了CVPR 2017 最佳論文榮譽(yù)提名獎(Best Paper Honorable Mention),與最佳論文僅一步之遙。
要知道,CVPR是計算機(jī)視覺領(lǐng)域最受關(guān)注的頂會之一。出道僅4年,小馬哥的工作就被提名了最佳論文,這就相當(dāng)于一位初出茅廬的青年導(dǎo)演被提名奧斯卡的最佳影片一樣啊。
相對于第一個版本,YOLOv2在繼續(xù)保持處理速度的基礎(chǔ)上,實現(xiàn)了更準(zhǔn)確的預(yù)測、更快的速度以及更多的識別對象這三大改進(jìn),YOLOv2能夠檢測9000種不同對象,因此也將其稱之為YOLO9000。
如果說前兩篇還只是正常發(fā)揮,那么在2018年提出的YOLOv3,絕對能算的上是驚艷之作。這篇論文,從改進(jìn)思路到行文風(fēng)格,一看就知道它是出自Joseph Redmon之筆。
雖然Joseph Redmon在論文開篇說:“有時,你一整年都在敷衍了事卻不自知。比如今年我就沒做什么研究,而是在推特上揮霍光陰,置 GANs 于不顧。但憑著上年余留的一點動力,我對 YOLO 做了一些成功的升級。實話說,沒什么特別有趣的東西,只不過是些小修小補(bǔ)。同時我對其他人的研究也做出了少許貢獻(xiàn)。”
大家看了是不是想說:既然沒做啥,你說這么多干嘛?如果這樣想,你就too young too naive啦,大神只是謙虛一下而已。這次YOLOv3的提出,解決了一個非常重要的問題——針對YOLO在小目標(biāo)檢測上的性能不夠強(qiáng)大做出了改進(jìn)。此外,這一新版本不僅保持了 YOLO 的一貫的速度優(yōu)勢,同時提升了模型精度,針對小目標(biāo)檢測以及重疊遮擋目標(biāo)的識別短板進(jìn)行了補(bǔ)齊,一躍成為了當(dāng)時速度和精度均衡性能最強(qiáng)的目標(biāo)檢測網(wǎng)絡(luò)。
圖示:充滿了“Joseph Redmon”風(fēng)格的性能圖示。坐標(biāo)軸內(nèi)的曲線圖出現(xiàn)于2017年的《Focal Loss for Dense Object Detection》這篇論文,F(xiàn)ocal Loss的原圖中雖然性能表格中包含了YOLO,但并未繪制其所在位置。于是小馬哥就直接將這張圖用在了他YOLOv3的論文中,還把YOLO畫在了第二象限。2018年,憑借在“創(chuàng)造更快、更好、更有用的計算機(jī)視覺應(yīng)用工具”方面的貢獻(xiàn),Joseph Redmon還獲得了2018年度谷歌博士獎學(xué)金,當(dāng)年全球僅有的39名獲獎?wù)摺?/strong>小馬哥的技術(shù),又一次得到了學(xué)界的認(rèn)可。
插曲:此前,小馬哥曾在艾倫人工智能研究所實習(xí),這家研究所孵化出了初創(chuàng)公司 XNOR.ai,創(chuàng)建者之一是他的導(dǎo)師Ali Farhadi,也是YOLO的合著者。小馬哥參與了XNOR-Net 的開發(fā)工作。Xnor.ai作為為數(shù)不多的專注于在邊緣提供AI功能的創(chuàng)業(yè)公司,2019年被評選為美國50家最有前途的人工智能公司之一。2020年1月,XNOR.ai被蘋果收購,交易金額或高達(dá) 2 億美元。因此,小馬哥已經(jīng)成功地實現(xiàn)從技術(shù)YOLO(you only look once)到人生YOLO(you only live once)的轉(zhuǎn)變。
2017年,Joseph Redmon在TED進(jìn)行了演講,分享了自己在計算機(jī)視覺和目標(biāo)檢測領(lǐng)域的最新技術(shù)。在演講結(jié)束時,他說:“我真的非常激動,因為我們在底層計算機(jī)視覺問題上提出了一個強(qiáng)大的解決方案,而任何人都可以使用它來做些什么。剩余的部分就要看在座的各位,以及世界上所有能夠使用這個它的人。而我也已經(jīng)迫不及待地想要看到大家究竟會用這一技術(shù),進(jìn)行什么樣的創(chuàng)造了?!?/span>視頻:Joseph Redmon的TED演講
在YOLOv3的論文末尾,他又再一次強(qiáng)調(diào)了他對自己的技術(shù)在未來的應(yīng)用愿景:“也許更值得思考的問題是:'當(dāng)我們有了檢測器,我們將拿它們來做什么?’這項技術(shù)已經(jīng)被很好的掌握,但它真正但用途不應(yīng)該是用來收集大家的個人信息并將其出售等等。大多數(shù)研究計算機(jī)視覺的人都只是做點令人愉快的、好的事情,比如計算國家公園里斑馬的數(shù)量,或者追蹤溜進(jìn)他們院子時的貓。但是計算機(jī)視覺已經(jīng)被用于令人質(zhì)疑的領(lǐng)域,因此,作為研究人員,我們有責(zé)任思考我們的工作對這個世界可能造成的危害,并思考如何減輕這種危害,因為我們非常珍惜這個世界。而就在大家都翹首以盼YOLOv4的時候,Joseph Redmon卻在2020年2月突然在推特上發(fā)布聲明——他說,出于道德上的考慮,他決定停止一切有關(guān)計算機(jī)視覺的研究。這一消息在計算機(jī)視覺學(xué)術(shù)界和工業(yè)界都引起了軒然大波,它的背景牽涉到另一件人工智能領(lǐng)域的重要事件:就在Joseph Redmon發(fā)布聲明的前幾天,人工智能頂會 NeurIPS 2020 的發(fā)布了全新的論文接收標(biāo)準(zhǔn)。這一標(biāo)準(zhǔn)包括一個重要的改動:考慮到避免 AI 研究被濫用,或者因失敗帶來嚴(yán)重后果,NeurIPS 要求研究者在投稿時對自己論文的長遠(yuǎn)影響進(jìn)行介紹。NeurIPS的新標(biāo)準(zhǔn)和Joseph Redmon的退出引發(fā)了學(xué)術(shù)界激烈的討論。人們開始思考“研究工作對社會有潛在的負(fù)面影響,是否應(yīng)該停止研究?”。一些學(xué)者認(rèn)為,我們并不需要考慮新研究對社會的影響。雖然在學(xué)習(xí)階段,科學(xué)研究是中立的是一種普適性觀點,但如果真的認(rèn)真考慮其廣泛影響,那如人臉識別這類的技術(shù)工作都不應(yīng)該被發(fā)表。新技術(shù)的提出即是一種社會價值的創(chuàng)造,而如何防范它被應(yīng)用于不正當(dāng)之處是技術(shù)提出后需要考慮的,況且,如果要真正完全地考慮新技術(shù)的未來影響,即使我們想,可能我們也并不能考慮充分。而以Joseph Redmon為代表的另一方學(xué)者則認(rèn)為,他提到:“我已經(jīng)停止了計算機(jī)視覺研究,因為我看到了自己工作造成的影響。我熱愛自己的作品,但我無法忽視它在軍事領(lǐng)域的應(yīng)用以及給個人隱私帶來的風(fēng)險?!?/span>他的考慮不無道理??v然考慮一項新研究對于社會的全部影響是十分困難甚至不切實際,但在當(dāng)下鼓勵開源的技術(shù)圈,拿到作者的源碼,然后私自將其用于其他不當(dāng)用途的情況的確也不在少數(shù)。本是抱著推動技術(shù)發(fā)展和人類進(jìn)步的源碼作者看到自己的工作成果被濫用并導(dǎo)致不良影響的情況,無疑是十分痛心的。部分學(xué)者停止技術(shù)研究,并不能從根本上解決技術(shù)濫用的問題。歷史也不會因為一個人的停留而停止發(fā)展。在Joseph Redmon退出CV學(xué)術(shù)界后,他的技術(shù)卻并未止步。2個月后,便有人接過了他的大旗。2020年4月,另一位曾經(jīng)參與YOLO項目維護(hù)的大神Alexey Bochkovskiy,在arXiv上提交了YOLO v4,而且這篇論文也得到了Joseph Redmon的肯定——他將其拉入了他建立的YOLO項目主線。緊接著6月,YOLOv5也發(fā)布了,它的模型與比 YOLOv4 相比小近 90%,而在準(zhǔn)確度指標(biāo)上與 YOLOv4 相當(dāng)。由此可見,雖然Joseph Redmon的退出是學(xué)術(shù)界的一大憾事,但YOLO這個強(qiáng)大的目標(biāo)檢測算法研究并未因此偃旗息鼓,它依然在多個領(lǐng)域發(fā)揮這其強(qiáng)大的技術(shù)創(chuàng)造力。最后,Joseph Redmon曾在YOLOv3文中提到,自己終于戒掉推特了。但是就目前他的推特賬號的更新頻率來看,似乎并沒有成功,而且他的動態(tài)還是一直圍繞著計算機(jī)視覺領(lǐng)域。這不禁讓人浮想聯(lián)翩,不知道這位不按常理出牌的大神,會不會又回歸CV江湖,祭出大招呢?