有句老話叫做“眼見為實(shí)”,然而AI技術(shù)的迅猛發(fā)展正在改變這一切,大量“深度偽造”的視頻和音頻流入日常生活中,我們可能很快就不再知道如何判斷什么是真的,什么是假的。
最近“換頭”軟件ZAO火了,眾多用戶將各種影視劇中的明星臉替換成自己的頭像,一時(shí)朋友圈被各路“山寨明星”占領(lǐng)。
其實(shí),Zao所使用的AI換頭技術(shù)并不鮮見。今年年初,一位B站博主肖先生動(dòng)用Deepfakes技術(shù),將94版《射雕》中的黃蓉由演員朱茵換成了楊冪,合成結(jié)果十分逼真,毫無違和感。
在全球范圍內(nèi),被換臉的不僅有娛樂圈明星,還有硅谷的互聯(lián)網(wǎng)大佬,和政壇的權(quán)勢(shì)人物。
視頻中的南希言辭混亂,顛三倒四,宛如深度醉酒。最后,美國(guó)國(guó)會(huì)召開了有史以來第一場(chǎng)有關(guān)Deepfakes技術(shù)的聽證會(huì),探討AI換臉的正當(dāng)性。
Deepfakes到底可以做到多逼真呢?華盛頓大學(xué)研究所曾利用Deepfakes技術(shù),成功換臉美國(guó)總統(tǒng)奧巴馬。視頻中的人,無論從相貌聲音,還是穿著打扮,都跟真的奧巴馬幾乎一致,可以輕易蒙蔽肉眼。
你能看出下面兩個(gè)視頻,哪個(gè)是真的,哪個(gè)是AI深度偽造的嗎?(答案見底部留言區(qū))
視頻A
視頻B
什么是Deepfakes?
Deepfakes 背后的技術(shù)并非高深難懂,它來自“深度學(xué)習(xí)”和“假貨”這兩個(gè)詞的組合。簡(jiǎn)單來說,它是一個(gè)通過機(jī)器學(xué)習(xí)技術(shù)搭建的系統(tǒng):讓機(jī)器學(xué)習(xí)人的面部特征,然后合成到影片中的面部。
Deepfakes搭建的系統(tǒng)可以通過谷歌圖片搜索、網(wǎng)絡(luò)圖庫、Youtube視頻等途徑獲取的素材,利用這些素材通過TensorFlow等多個(gè)開源庫,訓(xùn)練深度學(xué)習(xí)網(wǎng)絡(luò),經(jīng)過反復(fù)訓(xùn)練后,系統(tǒng)就會(huì)自動(dòng)替換臉部信息。
學(xué)習(xí)樣本越多,生成臉譜圖的還原度就會(huì)越高。這也是為什么政治家和名人往往會(huì)成為被冒充的目標(biāo),因?yàn)樵诰€可用的視覺數(shù)據(jù)非常多。
由于Deepfakes軟件可以在開源平臺(tái)上使用,因此互聯(lián)網(wǎng)上的開發(fā)者們不斷完善,并在其他人的工作基礎(chǔ)上進(jìn)行改進(jìn),機(jī)器進(jìn)步的速度就越快,偽造的程度就越高。
Deepfakes的后果
Deepfakes的“面部交換技術(shù)”,最初主要用于電影業(yè)。但是在之前的幾十年里,要想改變視頻素材,都需要時(shí)間、技術(shù)高超的藝術(shù)家和大量資金。
其中一個(gè)最著名的例子是2016年的電影“星球大戰(zhàn)外傳:俠盜一號(hào)”。
在電影中,電影制作人使用面部交換和視頻合成技術(shù),來重現(xiàn)角色Grand Moff Tarkin。電影中還創(chuàng)作了一部年輕版的萊婭公主。在這兩種情況下,原始演員面部的模型都疊加在替身演員身上。
在另外一個(gè)例子中,出于公眾教育目的,項(xiàng)目組專門開發(fā)了視頻和面部合成軟件,用來展現(xiàn)大屠殺幸存者的證詞,在博物館中以互動(dòng)全息圖的方式呈現(xiàn)。
然而,Deepfakes技術(shù)的出現(xiàn)改變了這場(chǎng)游戲。隨著Deepfakes的發(fā)展和擴(kuò)散,任何人都有能力制作一個(gè)令人信服的假視頻,包括一些可能為了政治或其他惡意目的而“武器化”它的人。
就像Photoshop一樣,盡管創(chuàng)作者在創(chuàng)建Deepfakes軟件時(shí)沒有惡意,但這并沒有阻止人們將其用于惡意目的。
在國(guó)內(nèi),借由AI換臉的黑科技,已經(jīng)形成了一條完整的色情產(chǎn)業(yè)鏈。
100元打包200部換臉情色片,囊括國(guó)內(nèi)一二線女明星,5張照片就可以幫你定制換臉視頻,400元就可以購買換臉軟件及教程并包教包會(huì),成品情色視頻價(jià)格從2元1部到30元46部、100元150部和100元200部不等,一般都是打包售賣……
Deepfakes還可以成為傳播錯(cuò)誤信息的有力工具。如今還沒有人因?yàn)樯疃葌卧煲曨l,被誣陷犯罪,或被偽造死亡,但是當(dāng)很難分辨出哪些視頻真實(shí)存在時(shí),會(huì)發(fā)生什么?
還有正在困擾互聯(lián)網(wǎng)的假新聞,視頻比文字或圖像更有可能讓人們相信虛構(gòu)的事實(shí)發(fā)生了,最糟糕的是大多數(shù)人在看到它時(shí)都無法識(shí)別它。
比如,用于政治目的的深度偽造視頻,會(huì)讓假的故事看起來充滿“證據(jù)”,顯示某些政治家承認(rèn)犯錯(cuò)或做出無恥的陳述,一旦這種假新聞傳播起來,后果難以想象。
事實(shí)上,人工智能聲音合成也在快速的發(fā)展,AI不僅可以生成虛假視頻,還可以為人們生成語音模型。
這意味著你不需要一個(gè)人去模仿政治家,而是可以通過訓(xùn)練AI來模仿某位政治家的聲音,仿佛他們正在發(fā)表一個(gè)令人發(fā)指的聲明。
正是因?yàn)镈eepfakes被人惡意使用,這項(xiàng)技術(shù)讓很多人感到前所未有的恐慌,甚至有人質(zhì)疑這種技術(shù)根本就不應(yīng)該開發(fā)出來給大眾使用。但技術(shù)無罪,對(duì)于這些造假的換臉視頻到底如何處理?
目前在大多數(shù)國(guó)家,沒有任何法律處理此類內(nèi)容,使其難以控制。而Facebook、Twitter、Instagram的做法是不會(huì)刪除視頻,但會(huì)告訴用戶,這些視頻不是真的;承諾不作惡的谷歌更為保守,其旗下Youtebe則徹底刪除了這些視頻。
如何對(duì)抗惡意的Deepfakes?
PS摧毀大眾對(duì)圖片的信任后,Deepfakes也在摧毀大眾對(duì)視頻的信任。沒有人想在網(wǎng)絡(luò)看到自己的面孔說出沒說過的話,許多針對(duì)個(gè)人的傷害,也因?yàn)橛绊懖粔虼蠖对V無門。
美國(guó)正在形成一支Deepfakes糾察隊(duì),不僅是學(xué)校實(shí)驗(yàn)室、研究中心在找尋Deepfakes的破綻,創(chuàng)業(yè)潮流也在興起。
但這是一場(chǎng)造假AI與辨別 AI的競(jìng)賽。每篇討論Deepfakes的論文,仿佛也在同時(shí)幫助造假技術(shù)修補(bǔ)漏洞,進(jìn)而更上一層樓。
關(guān)上Deepfakes的潘多拉盒子,他們能做到嗎?
位于硅谷的SRI International AI中心希望“以毒攻毒”,用假影片訓(xùn)練算法,讓算法辨識(shí)虛擬痕跡。在人們上傳視頻到社交網(wǎng)站時(shí),平臺(tái)需要重新編碼影片。這是個(gè)偵測(cè)假視頻的好時(shí)機(jī)。
但隨著Deepfakes漏洞日漸優(yōu)化,用算法打算法的難度也日益增加。辨別AI原本就是訓(xùn)練造假AI的一部分,兩者剛好在生成對(duì)抗性網(wǎng)絡(luò)的兩端。一個(gè)是建構(gòu)程序,一個(gè)是認(rèn)證程序,道高一尺,魔高一丈。
由于Deepfakes的技術(shù)在于篡改資料,認(rèn)證方則搜尋一切篡改資料的痕跡。一種方法是基于像素的視頻偵測(cè),視頻其實(shí)是成千上萬幀圖片連放,細(xì)致到偵測(cè)每個(gè)像素的改變痕跡,是頗浩大的工程。
此外,假的臉部表情仍有缺陷。假臉部表情往往與其他部分不一致,計(jì)算機(jī)算法可偵測(cè)圖片或影片的不一致。
舉例來說,初代Deepfakes視頻的人物,眨眼方式都有點(diǎn)奇怪。
紐約州立大學(xué)奧爾巴尼分校計(jì)算機(jī)科學(xué)副教授Siwei Lyu曾撰文表示,成年人眨眼間隔為2-10秒,一次眨眼需要十分之一到十分之四秒。這是正常影片人物應(yīng)有的眨眼頻率,但很多Deepfakes視頻的人做不到。
由于缺乏閉眼影像資料,算法的訓(xùn)練并不完美,視頻人物面孔總有一種“哪里不對(duì)”的不和諧感。
然而,透過閉眼的臉部影像、或使用視頻串列訓(xùn)練,可改善眨眼間隔。假視頻的質(zhì)量總會(huì)提高,而研究人員需要繼續(xù)找尋檢測(cè)漏洞的方法。
南加大研究者Wael Abd-Almageed表示,社群網(wǎng)絡(luò)可使用算法大規(guī)模辨識(shí)Deepfakes。
為了做到自動(dòng)化,研究人員首先建立一個(gè)神經(jīng)網(wǎng)絡(luò),“學(xué)習(xí)”人類說話時(shí)如何行動(dòng)的重要特征。然后,研究人員使用這些參數(shù)將假視頻的堆棧幀輸入AI模型,偵測(cè)隨時(shí)間的不一致性。
普渡大學(xué)研究人員也采用類似方法,他們認(rèn)為,隨著訓(xùn)練模型的Deepfakes資料量越來越大,模型也會(huì)更精確,更容易找出假影片。
如何阻止Deepfakes從低俗娛樂發(fā)展到操縱民意,是研究者最迫切的動(dòng)力之一。但愿一鍵辨假的速度,能追上一鍵換臉的速度。
Deepfakes如同普羅米修斯的火種撒向大地,帶來的究竟是溫暖還是毀滅,無人知曉。