中文字幕理论片,69视频免费在线观看,亚洲成人app,国产1级毛片,刘涛最大尺度戏视频,欧美亚洲美女视频,2021韩国美女仙女屋vip视频

打開(kāi)APP
userphoto
未登錄

開(kāi)通VIP,暢享免費(fèi)電子書(shū)等14項(xiàng)超值服

開(kāi)通VIP
當(dāng)AI也精通了「讀唇術(shù)」:戴上口罩或許是我最后的倔強(qiáng)
機(jī)器之心報(bào)道

參與:蛋醬、小舟

要想不被別人猜到自己在嘀咕什么,只能永遠(yuǎn)戴著口罩了。

有一個(gè)人類(lèi)的本能行為,或許我們很難察覺(jué):當(dāng)因?yàn)楦舻锰h(yuǎn)或者環(huán)境噪音太大而聽(tīng)不清對(duì)方說(shuō)話(huà)的時(shí)候,你會(huì)下意識(shí)地觀察對(duì)方的唇部動(dòng)作,來(lái)判斷這個(gè)人到底在講什么。

實(shí)際上,對(duì)于失聰或者聽(tīng)力較弱的人來(lái)說(shuō),唇讀也是一項(xiàng)必須掌握的技能。

既然人類(lèi)可以從唇部動(dòng)作中讀取講話(huà)的內(nèi)容,反過(guò)來(lái)說(shuō),我們是否能夠教會(huì) AI 去學(xué)習(xí)這套方法,并且再進(jìn)一步輸出語(yǔ)音呢?答案是肯定的,并且這門(mén)技術(shù)已經(jīng)在公共安全等領(lǐng)域有著相當(dāng)廣泛的應(yīng)用。

近日,來(lái)自印度海得拉巴國(guó)際信息技術(shù)研究所(IIIT, Hyderabad)的團(tuán)隊(duì)發(fā)布了他們?cè)谶@一領(lǐng)域的最新成果。目前,該研究的代碼、數(shù)據(jù)、模型均已公布。

  • 論文鏈接:https://arxiv.org/abs/2005.08209

  • 項(xiàng)目地址:https://github.com/Rudrabha/Lip2Wav


要想由唇部動(dòng)作生成語(yǔ)音,必須一些無(wú)法忽視的阻礙,比如很多聽(tīng)覺(jué)上完全不同的聲音,在唇部動(dòng)作上是十分相似甚至完全一樣的。

對(duì)于專(zhuān)業(yè)的唇讀者來(lái)說(shuō),他們會(huì)借助其他方式來(lái)增加還原唇語(yǔ)的準(zhǔn)確性,比如根據(jù)所談?wù)撛?huà)題去聯(lián)想、根據(jù)面部表情和手勢(shì)等因素去推測(cè)。還有一點(diǎn)就是,對(duì)于聾啞人和專(zhuān)業(yè)的唇讀者來(lái)說(shuō),讀取那些經(jīng)常互動(dòng)的人的唇語(yǔ)會(huì)更容易。

在這項(xiàng)研究中,研究者從一個(gè)新的層面去探討了唇語(yǔ)合成的問(wèn)題:沒(méi)有隨機(jī)挑選很多個(gè)人進(jìn)行唇讀,而是專(zhuān)注于長(zhǎng)時(shí)間觀察某一個(gè)人的講述內(nèi)容,來(lái)學(xué)習(xí) ta 的特定講話(huà)模式。研究者從數(shù)據(jù)驅(qū)動(dòng)學(xué)習(xí)的維度去探討一個(gè)問(wèn)題:「如何從一個(gè)人的唇部動(dòng)作來(lái)準(zhǔn)確地推斷 ta 的個(gè)人語(yǔ)言風(fēng)格和內(nèi)容?」

最終,研究者收集了一個(gè) 120 小時(shí)的視頻數(shù)據(jù)集,其中 5 位講話(huà)者在不受約束的環(huán)境中進(jìn)行自然陳述。與現(xiàn)有的多講話(huà)者數(shù)據(jù)集相比,為了搭建特定講話(huà)者的視聽(tīng)線(xiàn)索的準(zhǔn)確模型,每個(gè)人被收集的語(yǔ)音數(shù)據(jù)多了 80 倍不止。這也是當(dāng)前在不受約束的環(huán)境中評(píng)估單人唇語(yǔ)語(yǔ)音生成方面,僅有的已公開(kāi)的大規(guī)?;鶞?zhǔn)測(cè)試。

在此基礎(chǔ)上,研究者提出了「Lip2Wav」,一種基于唇部動(dòng)作生成語(yǔ)音的序列 - 序列模型。研究者通過(guò)定量分析、定性分析以及消融研究等多種方式詳細(xì)介紹了這一模型。與之前的同類(lèi)模型相比,Lip2Wav 在不受約束環(huán)境中生成語(yǔ)音的清晰度提高了接近 4 倍,在人工評(píng)估方面也顯示,該模型生成語(yǔ)音的韻律更加豐富自然。


數(shù)據(jù)集

研究者提出了一個(gè)新的基準(zhǔn)數(shù)據(jù)集,用于無(wú)約束唇語(yǔ)合成,以探索如何準(zhǔn)確地從一個(gè)人的唇部動(dòng)作推斷出 ta 講話(huà)的方式和內(nèi)容。為了構(gòu)建 Lip2Wav 數(shù)據(jù)集,研究者收集了一共 5 個(gè)講話(huà)者的 120 小時(shí)的講話(huà)視頻。

Lip2Wav 數(shù)據(jù)集和其他用于視頻語(yǔ)音生成的數(shù)據(jù)集各項(xiàng)對(duì)比。

數(shù)據(jù)集包含演講和國(guó)際象棋解說(shuō)兩種類(lèi)型。

架構(gòu)解析

Lip2Wav 的網(wǎng)絡(luò)包括一個(gè)時(shí)空編碼器和一個(gè)基于注意力的解碼器。時(shí)空編碼器將多個(gè) T 幀作為輸入,然后通過(guò)一個(gè)基于 3D 卷積神經(jīng)網(wǎng)絡(luò)的編碼器進(jìn)行輸出。研究者將基于 3D 卷積神經(jīng)網(wǎng)絡(luò)的編碼器的輸出饋送到基于注意力的語(yǔ)音解碼器,遵循 seq-to-seq 范例生成譜圖。

圖 3:用于唇語(yǔ)合成的 Lip2Wav 模型。時(shí)空編碼器是一個(gè)用來(lái)提取嘴唇動(dòng)作序列的 3D 卷積棧。接下來(lái)是用于高質(zhì)量語(yǔ)音生成的解碼器。這個(gè)解碼器根據(jù)來(lái)自編碼器的面部圖像特征進(jìn)行調(diào)整,并且以自動(dòng)回歸的方式生成頻譜圖。

實(shí)驗(yàn)

研究者首先將他們的方法和之前的唇語(yǔ)生成研究在有約束數(shù)據(jù)集(GRID corpus 和 TCD-TIMIT 唇語(yǔ)語(yǔ)料庫(kù))上作了比較并加以評(píng)估。在 GRID 數(shù)據(jù)集上,研究者給出了 4 位講話(huà)者的平均測(cè)試分?jǐn)?shù),表 2 和表 3 分別展示了在 GRID 和 TIMIT 數(shù)據(jù)集上的結(jié)果。


如上表所示,在所有客觀指標(biāo)上,本文研究方法的效果評(píng)估結(jié)果要比同類(lèi)方法好得多,在 TIMIT 數(shù)據(jù)集上的差距尤其明顯。TIMIT 數(shù)據(jù)集中的測(cè)試集包含了很多訓(xùn)練期間沒(méi)有見(jiàn)過(guò)的新詞。這表明該研究的模型學(xué)會(huì)了捕獲短音素序列之間的相關(guān)性,并且在新單詞上有更好的發(fā)音生成效果。

在無(wú)約束條件下的唇語(yǔ)合成

研究者進(jìn)一步在包含大量頭部動(dòng)作和更多詞匯的無(wú)約束數(shù)據(jù)集上評(píng)估了該研究方法,其中包含大量單詞和句子之間的沉默或停頓,實(shí)驗(yàn)結(jié)果依然顯現(xiàn)出明顯的差距。

為了與之前的研究方法對(duì)比,研究者基于 STOI 分值選擇了在 TIMIT 數(shù)據(jù)集上性能最佳的模型,并展示了模型經(jīng)過(guò) Lip2Wav 數(shù)據(jù)集訓(xùn)練之后的性能。研究者計(jì)算了和表 3 相同的語(yǔ)音清晰度和質(zhì)量指標(biāo)。

最終得到的 5 位講話(huà)者的分值以及另外兩種方法的 3 項(xiàng)指標(biāo)結(jié)果如表 4 所示。

在不同的講話(huà)者和詞匯規(guī)模條件下,本文提出的方法能夠生成更加智能和自然的語(yǔ)音。注意,和之前的研究相比,該方法的 STOI 和 ESTOI 分值越高,意味著模型生成的發(fā)音越準(zhǔn)確。

人工評(píng)估 

除了語(yǔ)音質(zhì)量和清晰度之外,研究者也設(shè)置了人工評(píng)估環(huán)節(jié),客觀指標(biāo)包括誤讀、跳詞、同音異義詞等,主觀指標(biāo)包括可理解性和自然程度等。

表 5: 客觀指標(biāo)。

表 6: 主觀指標(biāo)。

在論文的最后一部分,研究者也展示了 Lip2Wav 的幾項(xiàng)消融實(shí)驗(yàn)結(jié)果。此外,該研究的 demo 視頻也已經(jīng)公布:


但有人質(zhì)疑,由 5 位講話(huà)者數(shù)據(jù)訓(xùn)練的模型功能實(shí)在有限。

研究者也承認(rèn)了這一點(diǎn),盡管有了良好實(shí)驗(yàn)結(jié)果的支持,這一模型在隨機(jī)人物的唇語(yǔ)生成方面仍然「不算準(zhǔn)確」,此類(lèi)任務(wù)目前只能說(shuō)是「任重而道遠(yuǎn)」吧。


參考鏈接:https://www.reddit.com/r/MachineLearning/comments/gt6rrp/research_lip2wav_synthesize_speech_only_from_the/

首屆「馬欄山」杯國(guó)際音視頻算法大賽正在火熱進(jìn)行中。大賽聚焦圖像和推薦、畫(huà)質(zhì)優(yōu)化三大領(lǐng)域,設(shè)置包括視頻特定點(diǎn)位追蹤、視頻推薦、畫(huà)質(zhì)損傷修復(fù)三大賽題。優(yōu)秀參賽者不僅可獲得獎(jiǎng)金,獲獎(jiǎng)解決方案還有機(jī)會(huì)被應(yīng)用于芒果 TV 核心領(lǐng)域,在校學(xué)生還將可能加入芒果 TV「青芒計(jì)劃」,發(fā)放「special offer」。
本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶(hù)發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)
打開(kāi)APP,閱讀全文并永久保存 查看更多類(lèi)似文章
猜你喜歡
類(lèi)似文章
只用嘴唇動(dòng)一動(dòng),AI就能合成語(yǔ)音,效果自然流暢看不出破綻
可組合擴(kuò)散模型主打Any-to-Any生成:文本、圖像、視頻、音頻全都行
GAN用于無(wú)監(jiān)督表征學(xué)習(xí),效果依然驚人……
什么是人工智能領(lǐng)域的 Generative AI?
百度新論文帶來(lái)「聲音克隆」,一個(gè)半小時(shí)的訓(xùn)練數(shù)據(jù)就可以復(fù)制你的聲音
這個(gè)預(yù)訓(xùn)練不簡(jiǎn)單!BLIP:統(tǒng)一視覺(jué)-語(yǔ)言理解和生成任務(wù)
更多類(lèi)似文章 >>
生活服務(wù)
熱點(diǎn)新聞
分享 收藏 導(dǎo)長(zhǎng)圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服