谷歌DeepMind AI再次完爆人類(lèi) 讀唇語(yǔ)正確率勝專(zhuān)家（附論文下載）

2016.11.23

大數(shù)據(jù)文摘作品轉(zhuǎn)載具體要求見(jiàn)文末

作者| Hal Hodson 策劃 | Aileen 魏子敏

編譯 | 姜范波 Molly

【導(dǎo)語(yǔ)】人工智能正在進(jìn)軍唇語(yǔ)解讀陣地。谷歌DeepMind和牛津大學(xué)應(yīng)用深度學(xué)習(xí)實(shí)驗(yàn)室的一個(gè)項(xiàng)目正利用BBC的大量節(jié)目數(shù)據(jù)，創(chuàng)造唇語(yǔ)解讀系統(tǒng)，把人類(lèi)專(zhuān)家遠(yuǎn)遠(yuǎn)地甩在身后。

大數(shù)據(jù)文摘后臺(tái)回復(fù)“唇語(yǔ)”獲得相關(guān)研究發(fā)布論文Lip Reading Sentences in the Wild全文

◆ ◆ ◆

這套系統(tǒng)的訓(xùn)練材料包括約5000小時(shí)、6個(gè)不同的電視節(jié)目，如Newslight，BBC Breakfast 和Question Time?？傮w而言，視頻包含了118,000個(gè)句子。

牛津大學(xué)和DeepMind的研究人員用2010年1月至2015年12月播出的節(jié)目訓(xùn)練了這套系統(tǒng)，并用2016年3月至9月的節(jié)目來(lái)做測(cè)試。

這里是一段沒(méi)有字幕的剪輯↓↓

同樣一段剪輯，但是人工智能系統(tǒng)已經(jīng)給出了字幕↓↓

◆ ◆ ◆

人工智能制勝之道

對(duì)數(shù)據(jù)集中隨機(jī)選擇的200個(gè)片段，在唇語(yǔ)解讀這件事上，人工智能完勝人類(lèi)專(zhuān)家。

在測(cè)試數(shù)據(jù)集上，人類(lèi)專(zhuān)家無(wú)錯(cuò)誤注釋的字?jǐn)?shù)僅有12.4%，而人工智能達(dá)到46.8%。同時(shí)，它犯的許多錯(cuò)誤是很小的缺省，如少了一個(gè)詞尾的“s”。這樣的成績(jī)，也完勝其它的自動(dòng)唇語(yǔ)解讀系統(tǒng)。

“這是邁向全自動(dòng)唇語(yǔ)解讀系統(tǒng)的一大步?！狈姨m奧盧大學(xué)的周子恒（音譯）說(shuō)：“沒(méi)有那個(gè)巨大的數(shù)據(jù)集，我們無(wú)法檢驗(yàn)像深度學(xué)習(xí)這樣的新技術(shù)?！?/span>

兩個(gè)星期前，一個(gè)名為L(zhǎng)ipNet的類(lèi)似深度學(xué)習(xí)系統(tǒng)——同樣是牛津大學(xué)開(kāi)發(fā)的——在一個(gè)名為GRID的數(shù)據(jù)集上勝過(guò)了人類(lèi)。但是GRID只包含了由51個(gè)獨(dú)立單詞組成的詞表，而B(niǎo)BC數(shù)據(jù)集包含了近17，500個(gè)獨(dú)立單詞，挑戰(zhàn)要大得多。

另外，BBC數(shù)據(jù)集的語(yǔ)法來(lái)自廣泛的真實(shí)人類(lèi)語(yǔ)言，而GRID的33，000個(gè)句子語(yǔ)法單一，都是同樣的模式，預(yù)測(cè)起來(lái)要簡(jiǎn)單得多。

DeepMind向牛津大學(xué)的這個(gè)小組表示，他們將開(kāi)放BBC數(shù)據(jù)集以供訓(xùn)練用。來(lái)自L(fǎng)ipNet的Yannis Assael說(shuō)，他非?？释苁褂眠@個(gè)數(shù)據(jù)集。

◆ ◆ ◆

唇語(yǔ)解讀之路

為了讓BBC數(shù)據(jù)集可供自動(dòng)唇語(yǔ)解讀所用，視頻片段需先用機(jī)器學(xué)習(xí)進(jìn)行處理。問(wèn)題在于，音頻流和視頻流經(jīng)常有1秒左右的延遲，這使得人工智能幾乎無(wú)法在所說(shuō)的單詞和相應(yīng)的口型之間建立聯(lián)系。

但是，假設(shè)大多數(shù)的視頻和音頻對(duì)應(yīng)完好，一個(gè)計(jì)算機(jī)系統(tǒng)可以學(xué)會(huì)將聲音和口型正確地對(duì)應(yīng)起來(lái)?；谶@個(gè)信息，系統(tǒng)找出那些不匹配的的，將它們重新匹配。這樣自動(dòng)處理了所有的5000小時(shí)的視頻和音頻資料后，唇語(yǔ)解讀的挑戰(zhàn)就可以開(kāi)始了——這個(gè)挑戰(zhàn)對(duì)人工而言，是艱巨的。

在此之前，大家已經(jīng)進(jìn)行了許多相關(guān)的嘗試。他們使用卷積神經(jīng)網(wǎng)絡(luò)（CNNs）來(lái)從靜止的圖像中預(yù)測(cè)音位（phoneme）和視位（viseme）。這兩個(gè)概念分別是聲音和圖像中可以辨認(rèn)出來(lái)的語(yǔ)言的最小單位。然后人們接著嘗試去識(shí)別詞匯及詞組。

大神們使用離散余弦變換（DCT），深度瓶頸特征（DBF）等等手段來(lái)進(jìn)行詞匯及詞組的預(yù)測(cè)?？偟膩?lái)講，此前的研究有兩個(gè)方面，其一是使用CTC（Connectionist Temporal Classification），這中方法首先在幀的層次上給出預(yù)測(cè)，然后把輸出的字符流按照合適的方式組合起來(lái)。這種方法的缺陷是詞匯與詞匯之間是獨(dú)立的。另一個(gè)方向是訓(xùn)練序列-序列模型。這種方式是讀取整個(gè)輸入序列，然后再進(jìn)行預(yù)測(cè)。對(duì)這個(gè)系統(tǒng)幫助最大的就是Chan等人的論文《Vinyals. Listen, attend and spell》。論文中提出了一種很精致的聲音到文字的序列-序列方法。

這套唇語(yǔ)識(shí)別系統(tǒng)由一套“看-聽(tīng)-同步-寫(xiě)”網(wǎng)絡(luò)組成。它可以在有聲音或沒(méi)有聲音的情況下，通過(guò)識(shí)別講話(huà)人的面部，輸出視頻里面講的句子。在輸出向量Y=(y1,y2,...,yl)中，定義每一個(gè)輸出字符yi都是前面左右字符y<i的條件分布。輸出圖像序列

來(lái)進(jìn)行唇語(yǔ)識(shí)別，輸入音頻序列

進(jìn)行輔助。這樣，模型的輸出的概率分布為

系統(tǒng)由三個(gè)主要部分組成：圖像編碼、音頻編碼和文字解碼。

下圖是系統(tǒng)的示意圖↓↓

其中，s 為狀態(tài)向量，o為編碼器的輸出。最后會(huì)輸出字符序列的概率分布。

這套系統(tǒng)可以應(yīng)用在許多方面，當(dāng)然不包括唇語(yǔ)竊聽(tīng):) 。它可以在嘈雜的環(huán)境中，向手機(jī)發(fā)送文字信息，這樣你的siri就可以不必聽(tīng)你講清楚了。也可以為檔案中無(wú)聲的電影進(jìn)行配音。還可以處理同時(shí)有好多人說(shuō)話(huà)的情況。當(dāng)然，它還有很多可以改進(jìn)的空間，比如它的輸入是一個(gè)視頻的完整的唇語(yǔ)動(dòng)作。但是在實(shí)時(shí)的視頻處理中，它只能獲得當(dāng)前所有的唇語(yǔ)動(dòng)作，未來(lái)的唇語(yǔ)動(dòng)作顯然是無(wú)法獲得的。

接下來(lái)的問(wèn)題是如何應(yīng)用人工智能的唇語(yǔ)解讀新能力。我們不必?fù)?dān)心計(jì)算機(jī)通過(guò)解讀唇語(yǔ)來(lái)偷聽(tīng)我們的談話(huà)，因?yàn)殚L(zhǎng)距離麥克風(fēng)的偷聽(tīng)能力在多數(shù)情況下要好得多。

周子恒認(rèn)為，唇語(yǔ)解讀最有可能用在用戶(hù)設(shè)備上，幫助它們理解人類(lèi)想要說(shuō)的。

Assael 說(shuō)：“我們相信，機(jī)器唇語(yǔ)解讀器有非常大的應(yīng)用前景，比如改進(jìn)助聽(tīng)器，公共場(chǎng)所的無(wú)聲指令（Siri再也不必聽(tīng)到你的聲音了），嘈雜環(huán)境下的語(yǔ)音識(shí)別等?！?/span>

大數(shù)據(jù)文摘后臺(tái)回復(fù)“唇語(yǔ)”獲得相關(guān)研究發(fā)布論文Lip Reading Sentences in the Wild全文

參考素材：

https://www.newscientist.com/article/2113299-googles-deepmind-ai-can-lip-read-tv-shows-better-than-a-pro/

關(guān)于轉(zhuǎn)載

本站僅提供存儲(chǔ)服務(wù)，所有內(nèi)容均由用戶(hù)發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊舉報(bào)。

打開(kāi)APP，閱讀全文并永久保存查看更多類(lèi)似文章

牛津大學(xué)聯(lián)合 DeepMind 發(fā)布 LipNet ：用深度學(xué)習(xí)讀懂你的唇語(yǔ)

全球兩大人工智能團(tuán)隊(duì)聯(lián)合發(fā)布論文，共同應(yīng)對(duì)人工智能對(duì)于未來(lái)的威脅

【重磅】AI 自動(dòng)研發(fā)機(jī)器學(xué)習(xí)系統(tǒng)，DeepMind 讓算法學(xué)習(xí)強(qiáng)化學(xué)習(xí)（附論文）

ICLR

AlphaFold證明人工智能可以解決基本的科學(xué)問(wèn)題

深度 | DeepMind官方年度總結(jié)：除了AlphaGo，我們還應(yīng)該關(guān)注什么？

更多類(lèi)似文章 >>

中文字幕理论片,69视频免费在线观看,亚洲成人app,国产1级毛片,刘涛最大尺度戏视频,欧美亚洲美女视频,2021韩国美女仙女屋vip视频

◆ ◆ ◆

◆ ◆ ◆

◆ ◆ ◆