機(jī)器不只會(huì)下圍棋識(shí)人臉,還會(huì)讀唇術(shù)?
在各行業(yè)大數(shù)據(jù)井噴的今天,有大量的視頻等非結(jié)構(gòu)化數(shù)據(jù)只保存了圖像,但并沒有錄入聲音。然而,其中有許多聲音信息其實(shí)是非常關(guān)鍵的,特別是在公共安全領(lǐng)域的關(guān)鍵節(jié)點(diǎn)。遇到這種情況,我們就要依靠讀取唇語來進(jìn)行識(shí)別了。
以往唇語識(shí)別這事兒只能依靠人工,也就是唇語識(shí)別專家。然而隨著AI人工智能技術(shù)的發(fā)展,如今機(jī)器也學(xué)會(huì)了讀唇術(shù),而且做得比人類還好。
3月29日,在重慶舉辦的亞洲大數(shù)據(jù)可視分析峰會(huì)上,海云數(shù)據(jù)發(fā)布了與重慶市公安科研所共同研發(fā)的唇語識(shí)別技術(shù)成果。據(jù)透露,目前海云數(shù)據(jù)的中文唇語識(shí)別技術(shù)準(zhǔn)確率已達(dá)到70%,處于國內(nèi)中文唇語識(shí)別的領(lǐng)先水平。
唇語識(shí)別,AI完勝人類
關(guān)于人工智能能否替代人類的爭(zhēng)論,可以說一直持續(xù)不休。目前人工智能在圖像識(shí)別、語音識(shí)別、生物識(shí)別、深度學(xué)習(xí)、自然語言理解等許多領(lǐng)域的應(yīng)用,已經(jīng)做得比人工更加出色。不過人類的感知、學(xué)習(xí)、理解、認(rèn)知等綜合能力,依然是當(dāng)前的機(jī)器人無法超越的。
唇語識(shí)別指的是只靠觀看說話者說話時(shí)的嘴唇動(dòng)作,破譯解讀出說話者所說的內(nèi)容。具體到讀唇術(shù)這個(gè)領(lǐng)域的話,AI人工智能幾乎完勝人類號(hào)幾條街。
2016年,谷歌的人工智能公司DeepMind與牛津大學(xué)合作,研發(fā)了一個(gè)具有讀唇語功能的人工智能系統(tǒng)。在讓AI系統(tǒng)學(xué)習(xí)了5000個(gè)小時(shí)的BBC新聞節(jié)目后,AI系統(tǒng)秒殺了唇讀專家。唇讀專家的準(zhǔn)確率只有12.4%,然而AI系統(tǒng)的準(zhǔn)確率卻高達(dá)46.8%。
國內(nèi)領(lǐng)先的中文讀唇技術(shù)什么樣?
與語音識(shí)別依靠聲音和自然語言識(shí)別不同,唇語識(shí)別是一項(xiàng)集機(jī)器視覺與自然語言處理于一體的技術(shù)。
通過機(jī)器視覺技術(shù),唇語識(shí)別系統(tǒng)從圖像中連續(xù)識(shí)別出被分析對(duì)象連續(xù)的口型變化特征,通過分析其嘴唇上眾多識(shí)別位點(diǎn)的運(yùn)動(dòng)變化,隨即將這些特征輸入到唇語識(shí)別模型中,識(shí)別出講話人口型對(duì)應(yīng)的發(fā)音,從而計(jì)算出可能性最大的表達(dá)語句。因而對(duì)于越學(xué)越聰明的AI來說,學(xué)習(xí)庫數(shù)據(jù)量越大,數(shù)據(jù)質(zhì)量越高,訓(xùn)練的準(zhǔn)確度越高,判斷就越準(zhǔn)確。
為了不斷提升識(shí)別的準(zhǔn)確率,海云數(shù)據(jù)的唇語識(shí)別系統(tǒng)經(jīng)歷了1萬小時(shí)的新聞?lì)惞?jié)目訓(xùn)練,最終形成了國內(nèi)領(lǐng)先的中文唇語識(shí)別模型。
借助唇語識(shí)別技術(shù),公安人員可以通過鎖定視頻中犯罪嫌疑人的語言記錄,獲得偵破案件的關(guān)鍵信息。不僅如此,未來在日常生活、社會(huì)公益、體育賽事裁定等各個(gè)領(lǐng)域,唇語識(shí)別都有著極為廣闊的應(yīng)用空間。譬如,未來聾啞人也許可以通過唇語識(shí)別設(shè)備,來“看懂”別人說話的內(nèi)容。
如何搭好AI這趟車?找準(zhǔn)切入點(diǎn)很關(guān)鍵
未來5-10年,人工智能將改變互聯(lián)網(wǎng)和世界的面貌,已經(jīng)成為業(yè)界的共識(shí)。根據(jù)全球知名研究機(jī)構(gòu)Gartner的一項(xiàng)調(diào)研,參與調(diào)研的國內(nèi)外企業(yè)中,70%的企業(yè)在近12個(gè)月之內(nèi)有要實(shí)施人工智能的計(jì)劃。
在人工智能一片火熱的同時(shí),國內(nèi)企業(yè)介入人工智能的領(lǐng)域也比較扎堆,人臉識(shí)別、語音識(shí)別、無人駕駛是幾個(gè)大熱的方向。相對(duì)而言,唇語識(shí)別屬于相對(duì)比較冷門的領(lǐng)域。
對(duì)此,海云數(shù)據(jù)創(chuàng)始人兼CEO馮一村認(rèn)為,AI要解決行業(yè)具體應(yīng)用和具體需求,而海云數(shù)據(jù)的核心競(jìng)爭(zhēng)力在于可視分析領(lǐng)域??梢暦治鍪且环N全新的數(shù)據(jù)分析方式和數(shù)據(jù)分析的思維能力,其底層技術(shù)正是計(jì)算機(jī)視覺技術(shù)。海云數(shù)據(jù)希望用人工智能將大數(shù)據(jù)重新賦能,唇語識(shí)別則是最好的切入點(diǎn)。
目前,海云科技已在北京、重慶、硅谷、上海建立了自己的基地,其中重慶作為公司總部,在重慶成為國家大數(shù)據(jù)綜合試驗(yàn)區(qū)的政策背景下,海云數(shù)據(jù)將從國家到地區(qū)政策層面獲得充足的發(fā)展支撐。
據(jù)悉,海云數(shù)據(jù)此前已經(jīng)在公共安全、交通、軍工、智慧城市等行業(yè)和領(lǐng)域都已經(jīng)有著豐厚的積累。相信隨著唇語識(shí)別系統(tǒng)的應(yīng)用,海云數(shù)據(jù)也將為這些行業(yè)帶來更多定制化的解決方案。
AI人工智能技術(shù)的發(fā)展,正在讓機(jī)器變得越來越聰明??梢灶A(yù)見的是,同人臉識(shí)別、語音交互一樣,唇語識(shí)別這項(xiàng)AI黑科技,將來也會(huì)給我們的工作和生活帶來更多妙不可言的新體驗(yàn)。
聯(lián)系客服