機器之心原創(chuàng)
機器之心編輯部
本周五《最強大腦》最后一場人機大戰(zhàn)——視頻捕捉影像的人臉識別完美謝幕。最后一場比賽中,小度戰(zhàn)平人類頂級微觀辨識高手王昱珩。至此小度以兩勝一平的好成績進入年后的腦王大戰(zhàn)。我們專訪了百度深度學(xué)習(xí)研究院院長林元慶,請其解讀視頻識別的關(guān)鍵技術(shù)點及整個小度團隊的幕后工作。
作為機器之心新欄目 AI Talk 的一部分,我們對這次視頻專訪的內(nèi)容進行了剪輯,完整采訪可見下面文字整理版本。
機器之心:這次視頻識別主要使用了哪些技術(shù)方法?識別過程的實現(xiàn)路徑是怎樣的?
林元慶:我們的系統(tǒng)首先對視頻里出現(xiàn)的人臉進行檢測和跟蹤。直觀的來講檢測和跟蹤,就是系統(tǒng)去看視頻里有幾個人的人臉各自在哪里,是怎么移動的。系統(tǒng)在這個檢測跟蹤過程完成之后,在每個人的人臉圖片里挑選幾張質(zhì)量比較好的去做下一步的人臉識別。通過隨后的識別過程識別出這些照片中的人具體都是誰。
機器之心:對視頻內(nèi)容進行結(jié)構(gòu)化分析時,如何用有效的特征對內(nèi)容進行表達?
林元慶:其實我們這個系統(tǒng)主要由兩部分組成,一部分是實現(xiàn)檢測和跟蹤,另外一部分就是人臉識別識別。我們都是通過深度學(xué)習(xí)的方法學(xué)習(xí)出有用的特征。目前在特征提取上,我們很少運用人為設(shè)計的特征去對內(nèi)容進行表達,大部分的特征都是運用深度學(xué)習(xí),從海量數(shù)據(jù)里,通過機器學(xué)習(xí)去學(xué)到這些有效的特征。
機器之心:與靜態(tài)識別相比,動態(tài)人臉識別有哪些區(qū)別?主要挑戰(zhàn)是什么?
林元慶:動態(tài)人臉識別比靜態(tài)更為困難,動態(tài)的人臉識別里需要能檢測出不同角度的人臉,而且動態(tài)的人臉整體質(zhì)量偏低,有些幀的圖片甚至?xí)悄:?,因為動態(tài)的情況下人是有移動的。那么在這些挑戰(zhàn)下,我們需要有比較好的檢測算法,在很多單幀的靜態(tài)圖片里檢測出人臉圖片質(zhì)量比較好的圖片,然后用這些質(zhì)量比較好的圖片去做下一步的人臉識別。主要的挑戰(zhàn)也在這里,怎么更好的檢測出人臉以及怎么判斷出質(zhì)量比較好的可以用于識別的人臉圖片。另外,動態(tài)識別的視頻每一秒有 30 幀,這里的又一個挑戰(zhàn)是如何做到人臉實時檢測。在靜態(tài)人臉識別里,你需要做的只是處理一張圖片;而動態(tài)的情況下你有很多圖片,那么怎么快速計算,怎么選擇出質(zhì)量最好的圖片甚至多幀的學(xué)習(xí)融合都是需要仔細考慮的。
機器之心:這一技術(shù)訓(xùn)練時對硬件、數(shù)據(jù)要求高嗎?所使用的樣本量規(guī)模和訓(xùn)練時間的情況是怎樣的?
林元慶:我們現(xiàn)在開發(fā)出的這套人臉識別系統(tǒng),在設(shè)計時特別考慮弱光條件下和有遮擋條件下人臉識別的實現(xiàn)。這次比賽里所用的人臉識別系統(tǒng),是通過兩個步驟來實現(xiàn)的。第一步是通用人臉識別模型的訓(xùn)練,我們花了很大力氣來做。比賽系統(tǒng)里的模型,我們是用大概 200 萬個人,總共 2 億張的照片來訓(xùn)練的。2 億張照片本身是一個非常大的數(shù)據(jù),需要非常大的計算量和非常好的算法,能做到這一點借助了百度的 PaddlePaddle 平臺,通過 PaddlePaddle,我們可以在多臺機器上實現(xiàn)高效的并行計算。在這一步我們得到一個人臉識別基礎(chǔ)能力非常好的通用模型。有了通用模型,下一步就是實現(xiàn)在不同的場景下的人臉識別。第一期的人機大戰(zhàn),比的是跨年齡的人臉識別,這一期比的場景是有暗光和遮擋的場景。我們在通用模型之上會特別去準備一些跟這個環(huán)境相近的數(shù)據(jù)集來進一步訓(xùn)練通用模型,最后得到弱光和遮擋環(huán)境下較好的人臉識別系統(tǒng)。后面的這個數(shù)據(jù)集相比之前的通用模型的數(shù)據(jù)集就小很多了,這樣的數(shù)據(jù)本身也比較難收集,我們最后的數(shù)據(jù)集大概是 1 萬人的量級。
機器之心:王昱珩在答題過程中其實改過答案但最終改錯了,機器會出現(xiàn)類似的問題嗎?
林元慶:機器可能不太會出現(xiàn)(這種情況),因為唯一輸入給機器的就是圖像或視頻信息,機器通過算法將要考慮到的因素已經(jīng)都考慮了,最后是得到一個置信度也就是 Confidence Score,分數(shù)比較高的會被機器認為就是正確答案。雖然分數(shù)也是綜合了非常多因素,但機器沒辦法再回去想出另外一個分數(shù)來。就像我們第一期里雙胞胎的情況,機器最后決定什么分數(shù)就是什么分數(shù),沒辦法再改。人不一樣,除了看圖像還會聯(lián)想到一些信息,最終進行綜合考量,但這會帶來好結(jié)果也會有不好的結(jié)果。
機器之心:聽說因為和王昱珩比賽而加班加點升級了算法,具體是做了哪些升級呢?
林元慶:我們做系統(tǒng)升級不是因為要和王昱珩比賽,是我們原本就計劃要做。所做的升級其實是針對這次比賽的內(nèi)容—有遮擋的人臉識別。在這次比賽中,要識別的人臉可能戴口罩、戴墨鏡甚至戴帽子,如何處理這些有遮擋的人臉圖片,在人臉識別領(lǐng)域里還是懸而未決的問題。針對遮擋情況,我們也特地設(shè)計了一些比較新的算法。比如我們將人臉分為 7 個部分,每個部分的遮擋情況都是根據(jù)那個部位在深度學(xué)習(xí)的輸出特征來描述這個部位被遮擋的程度,根據(jù)不同部位遮擋程度的不同決策出哪些部位是可以有效提供人臉信息的,進而可以用于人臉識別。簡單來講,就是讓模型了解不同部位被遮擋的情況,然后根據(jù)情況來使用這個部位的信息。我們訓(xùn)練的是一個端到端的模型,輸入照片后系統(tǒng)自動得到不同部位的遮擋信息,最后做綜合決策。
機器之心:在這一過程中,小度如何用到推理能力?目前具備的推理能力水平如何?
林元慶:小度在別的方面可能會用到更多的推理能力,比如說自動駕駛。但在人臉識別方面,它的推理能力還是比較初級,比如我們會去分析哪一些部位可能被遮擋,這些部位需要怎樣根據(jù)這些信息作出最后的判斷。從不同方面得到的信息進行相互作用也是需要通過數(shù)據(jù)和模型去學(xué)習(xí)出來,因此,在模型設(shè)計時就會涉及一些比較基本的推理能力,讓小度通過數(shù)據(jù)去學(xué)習(xí)。
機器之心:要獲得理想的識別結(jié)果,對人臉角度和像素分辨率都有什么樣的要求?
林元慶:其實我們在左右轉(zhuǎn)向 45 度之內(nèi)都能做到非常高精度的識別,但如果角度太大,比如說半臉就會很難了,精度會下降。從上往下看或從下往上看,也屬于比較難的,上下 15 度左右還比較好處理,但如果角度太大,難度就會比較大。當然,我們也有計劃再擴展算法。相比像素分辨率,其實更重要的是圖片質(zhì)量,如果圖形都糊了,人都很難分辨出五官,(對機器來說)就更難了。但只要有足夠的分辨率,放大之后你還能看到五官,比如說眼睛能看到瞳孔,基本上還是能夠識別的比較好,質(zhì)量越高肯定識別越好。當我們做系統(tǒng)(整體設(shè)計)的時候,其實可以想辦法提高畫面捕捉的水平,比如攝像頭可以裝得低一些,從一體化的角度來考慮怎么才能取得比較高的分辨率。比如說在一些機場,為了能在人路過時捕捉人臉進行識別,他們把攝像頭放在一個大屏幕上,人走過的時候常常會看一下屏幕,這樣就有可能捕捉到一個人臉稍正的畫面。
機器之心:節(jié)目中第一題和第三題,小度都答對了,但第二題被形容錯得很離譜,是什么原因造成的?
林元慶:錯的很離譜可能指的是,正確答案是一個相對比較胖一點的人,但是小度給的答案是一個胖瘦正常的。這是因為小度可能看的不單單是臉型,看到更多是比如鼻子的形狀、嘴角的形狀,對小度來說,它根本沒有信息來判斷人的臉型是不會變的,舉個例子來講,像我們在第一期跨年齡識別里看到,人的臉型完全是會變化的,小度無法得知它看到的這個照片跟庫里的照片相比,只是幾天或幾個禮拜、幾個月之前拍攝到的,它只能從原來學(xué)習(xí)出來的信息里進行判斷。其實我們 IDL 工程師們后來仔細去看了結(jié)果,除了臉型(胖瘦)因素之外,其實也挺難確定那個人是不是就是最后的人,通過電視仔細看照片也很不容易,反倒是小度的答案的嘴型更接近真實答案。
機器之心:在百度,這項技術(shù)目前仍然停留在技術(shù)研究階段還是即將成為一個產(chǎn)品化的系統(tǒng)?
林元慶:之前,人臉識別主要還是用在百度已有產(chǎn)品覆蓋到的場景里,包括全網(wǎng)的人臉搜索、圖片的人臉搜索,在百度之外做的非常少。但是從 2017 年開始,我們有計劃要把百度人臉識別系統(tǒng)在公司之外用起來,包括我們現(xiàn)在跟景區(qū)在做的人臉閘機系統(tǒng),游客進景區(qū)以后就可以刷臉進出,這在烏鎮(zhèn)已經(jīng)落地。在安防領(lǐng)域,水哥曾幫山東省公安廳從監(jiān)控的視頻里找到罪犯,但水哥只有一個,而這個系統(tǒng)其實已經(jīng)可以做到非常好的識別精度,我們也希望它能夠在更多的安防領(lǐng)域用起來。我們希望技術(shù)能得到廣泛的應(yīng)用,這也是我們今年需要努力的重要方向,爭取把我們的技術(shù)落地到更多的實際生活中。
機器之心:能否回顧一下這次小度人機大戰(zhàn)的準備過程?比如團隊籌備了多長時間?涉及到哪幾個部門的配合?中間遇到過什么狀況,如何解決的?
林元慶:8 月底,節(jié)目組到百度來邀請我們參加,當時他們說希望做跨年齡的人臉識別和聲音的識別,還帶了一些測試數(shù)據(jù),我們在一個會議室里面現(xiàn)場做了識別精度的測試。(當時)在跨年齡人臉識別方面做了 8 組測試,結(jié)果是對了 7 組,是節(jié)目組當時很震驚,覺得百度的人臉識別技術(shù)確實做得很好。事實上,當時我們還沒有針對這個產(chǎn)品場景做過優(yōu)化。這次提前測試之后,節(jié)目組在同時接觸的國內(nèi)幾家人工智能領(lǐng)域的公司中選擇了我們。
關(guān)于到底要不要參加,我們考慮了一兩個星期,對我們整個團隊來說,參加還是有一定風(fēng)險。一方面,我們對自己的技術(shù)很有信心,也想看看百度經(jīng)過這幾年人工智能的積累,跟人類頂級選手比水平如何,即便輸?shù)魧夹g(shù)的人來說也沒什么,因為我們做實驗也有失敗的時候;但另一方面,這些選手很強,現(xiàn)場比拼確實沒有十全的把握,我們還是會有壓力。
決定參加之后,我們成立了一個二十幾個人的課題組。其實這個項目非常復(fù)雜,不單單是算法,還包括人臉識別、聲音的識別,我們?yōu)榱斯?jié)目的趣味性還做了一些技術(shù)的展示,比如與主持人、嘉賓的互動,其中用到的是個性化語音合成等等。大家都在一個會議室里面做封閉開發(fā),除了技術(shù)開發(fā)我們還要跟節(jié)目組協(xié)調(diào)。為了讓觀眾更容易理解,要做很多工作,公司內(nèi)部涉及到很多跨部門協(xié)作,IDL、AI 平臺部、語音技術(shù)部、系統(tǒng)部、品牌部、眾測等。需要百度眾測幫我們收集很多數(shù)據(jù),需要海量的計算需要 GPU 的調(diào)配,包括配合節(jié)目播出做的 H5 頁面讓大家來親自體驗技術(shù)...... 總之,一個比分背后有非常多準備工作。
機器之心:在整個三期節(jié)目錄制過程中,團隊的狀態(tài)是怎樣的?接下來對小度的表現(xiàn)有什么預(yù)期?
林元慶:重中之重的是算法,也就是系統(tǒng)的精度,我們核心成員一直在加班,經(jīng)常忙到 3、4 點才回家,有時早上 7、8 點,回去睡一覺就回來再繼續(xù)。因為最后非常非常緊張,大家承受的壓力很大,我們第一期在最強大腦節(jié)目錄制現(xiàn)場,我站在后臺,節(jié)目組的人開玩笑說,元慶看著你好緊張,我說是很緊張。小度對錯一道題,對于科學(xué)家來說跟平常的實驗一樣,我們做科學(xué)研究經(jīng)常也會給人家做 Demo,一般是面對幾十人到幾百人做 Demo,壓力也會蠻大的,但這次要做的 Demo 是展示我們的技術(shù),面對是幾千萬上億人,這個壓力可想而知。
我們現(xiàn)在贏了兩局平了一局,根據(jù)節(jié)目規(guī)則,我們會進入腦王決戰(zhàn),我們收到的通知是腦王決戰(zhàn)會在 3、4 月份舉行。我們會再重新開始備戰(zhàn),但具體是什么節(jié)目內(nèi)容,我們現(xiàn)在還不知道,唯一知道的是最后一期可能全部是人機大戰(zhàn),并且可能會安排 3 個選手跟小度 PK,這又給我們帶來非常大的壓力。節(jié)目給出的極端場景,比如跨年齡識別,我們之前其實沒有做過,我們對人臉識別理解很深、技術(shù)也做的很好,但能在多大程度上把這些基礎(chǔ)能力用在極端情況中,我們都是沒有十全把握的。不過,相比(幾個月之前)接下這個項目的時候,通過兩個月準備,我們現(xiàn)在再去測這套人臉識別系統(tǒng),比如給 10 個測試例子,小度已經(jīng)做到完全比我們要好很多的程度。因此我們對腦王決賽充滿信心,也非常期待。
「AI Talk」 是機器之心最新出品的視頻訪談欄目,旨在邀請國內(nèi)外人工智能頂級專家分享對技術(shù)和行業(yè)的觀點,為大家呈現(xiàn)更為直觀、豐富的內(nèi)容。
聯(lián)系客服