上回說到,奧巴馬deepfake懟川普,斯嘉麗怒斥網(wǎng)友假視頻。
deepfake,視頻造假神器,把一個人的臉龐,轉(zhuǎn)移到另一個的身上,讓假新聞輕松傳播到全網(wǎng)。
這下,不管是政要還是明星,都被“有視頻有真相”的緋聞纏身,跳進(jìn)密西西比河洗不清了。
即使是普通人,萬一哪天被人構(gòu)陷,做了小視頻發(fā)到女朋友那里,恐怕是膝蓋跪鍵盤,有嘴說不清。
因?yàn)槟憧矗@些視頻你能辨認(rèn)出真假?
這張動圖來自一段電視新聞男主播說話的視頻,它是真的嗎?
換這位女主播,她口播的這段視頻是真的嗎?
這位呢?
看起來毫無違和感,實(shí)際上,沒有一個是真的。
視頻(動圖)上的這些人,從來都沒有做出過這些口型和表情。
而且,這樣的假視頻,最近市面上出現(xiàn)了一大堆,來自一個德國意大利跨國團(tuán)伙。
這一批視頻里,包含沒處理過的真實(shí)視頻和處理過的假視頻。真實(shí)視頻都來自YouTube;而假視頻則是他們用三種方法造假生成的。
這批視頻數(shù)量也很驚人,總量多達(dá)1000段,總共超過150萬幀,原始視頻超過1.5 TB,其中視頻質(zhì)量最差的也有480p,甚至還有達(dá)到1080p的高清視頻。
嗯,沒錯,這個團(tuán)伙是一群高校里的AI研究者,而這些假視頻,是一個數(shù)據(jù)集,名叫FaceForensics++。
有了這個數(shù)據(jù)集,就可以訓(xùn)練神經(jīng)網(wǎng)絡(luò),鑒定出那些被AI換了臉的假視頻,證明你的清白,拯救你的膝蓋、鍵盤和女友。
這些假視頻不僅出自不同的造假方法,質(zhì)量也分三個等級。有原始的輸出視頻RAW、高質(zhì)量視頻HQ(使用h.264,參數(shù)為23進(jìn)行壓縮)和低質(zhì)量視頻LQ(參數(shù)為40)。
效果怎么樣呢?肉眼很難分辨。
研究團(tuán)隊(duì)先找100多名學(xué)生測試了一下,讓他們從兩個視頻中選出哪個是真哪個是假。
在最厲害的造假方法面前,人類學(xué)生們的準(zhǔn)確率只有40%左右,還不如隨便瞎蒙,可謂是假的比真的還像真的了。
就算是不那么精致的假視頻,人類判斷原始視頻的平均準(zhǔn)確率也只有72%,高質(zhì)量視頻71%,低質(zhì)量視頻因?yàn)橄鄬δ:y以辨認(rèn),準(zhǔn)確率只有61%。
有了足夠多的數(shù)據(jù),這個研究團(tuán)隊(duì),就開始“以AI攻AI”,訓(xùn)練神經(jīng)網(wǎng)絡(luò),鑒別那些被換臉AI處理過的假視頻。
他們挑選了6個模型,用這些數(shù)據(jù)訓(xùn)練一遍之后,識別造假視頻的準(zhǔn)確率都比人類的肉眼高得多。
其中最好的模型,準(zhǔn)確率達(dá)到了99.08%!不過這是在原始的輸出視頻上,在高質(zhì)量視頻略微降低到97.33%,就算是視頻質(zhì)量低,準(zhǔn)確率還能到86.69%。
與人類的識別能力相比,高了20多個百分點(diǎn)。
這個模型是XceptionNet,出自Keras之父Francois Chollet之手,它是一個傳統(tǒng)的CNN網(wǎng)絡(luò),是在具有殘差連接的可分離卷積在ImageNet上訓(xùn)練出來的。
其他的模型雖然沒有它優(yōu)秀,但也有了很顯著的提升。
在原始視頻上的識別準(zhǔn)確率,都能達(dá)到95%以上,經(jīng)過壓縮的高質(zhì)量視頻上,是被準(zhǔn)確率開始有差別,但XceptionNet依舊強(qiáng)勁。
質(zhì)量較差的視頻上,識別準(zhǔn)確率基本上都大幅下降,最低的平均不到60%。但最高的XceptionNet還是能保持在86.69%。
那么,這個“神奇”的數(shù)據(jù)集是從哪來的呢?
我們前邊也提到過,原本都是YouTube上普普通通的視頻,經(jīng)過三種常用造假手段的改造,就成了這個數(shù)據(jù)集。
為了讓這些假視頻顯得更加逼真,研究團(tuán)隊(duì)想了不少辦法。
他們找的視頻,里邊當(dāng)然都有人臉。這些原視頻一部分來自谷歌YouTube-8M數(shù)據(jù)集,另一部分則是直接從YouTube網(wǎng)站上扒下來的。
視頻收集好之后,還要用人臉檢測器處理一遍,確保其中人物面部沒被遮擋,再去掉漸變、疊加等過渡效果。最后,再人工篩選,確保視頻質(zhì)量夠高,以保證后續(xù)造假的效果。
造假操作一共分為兩類:
一是轉(zhuǎn)移面部表情和動作的面部重演( facial reenactment),需要保留目標(biāo)人的身份,像給視頻里的奧巴馬“施法”一樣,讓他做出一些新的表情。
一是面部交換(face swapping),用原始視頻中人的面部替換目標(biāo)視頻中人的面部,比如把蓋爾加朵的照片貼到愛情動作片女主角的臉上。
正式上手造假時,研究團(tuán)隊(duì)主要選擇了三種方法。分別是用來換臉的FaceSwap、deepfake,和用來換表情的Face2Face。
Face2Face和FaceSwap都是通過重建面部的3D模型,并在3D模型中進(jìn)行相應(yīng)的編輯來完成造假。
其中FaceSwap是一個輕量級的編輯工具,使用比較稀疏的面部標(biāo)記位置,將一個視頻中的臉復(fù)制到另一個視頻中的臉上。
相比之下,F(xiàn)ace2Face的技術(shù)更加復(fù)雜,能夠進(jìn)行面部跟蹤和建模,從而來換表情。
deepfake主要用來執(zhí)行面部交換的操作,使用自動編碼器用原始視頻中的面部替換目標(biāo)視頻中的面部。
用這三種方法處理出來的數(shù)據(jù)集,被分成了訓(xùn)練、驗(yàn)證和測試數(shù)據(jù)集。
其中原始視頻、Face2Face、deepfake的訓(xùn)練數(shù)據(jù)集都有36.7萬幀圖像,F(xiàn)aceSwap的較少,只有29.2萬幀。訓(xùn)練數(shù)據(jù)集和驗(yàn)證數(shù)據(jù)集的規(guī)模,都在7萬左右。
用這三種方法處理視頻,都需要將原始視頻和目標(biāo)視頻作為輸入,最終輸出逼真的假視頻。
在deepfake面世以前,視頻換臉技術(shù)存在于電影拍攝中,需要相對較高的技術(shù)和資金投入。
而現(xiàn)在,deepfake等技術(shù)的出現(xiàn)大大降低了換臉門檻,人們不僅用它來制造政要們的假新聞,還用它來制造女明星的色情片。
寡姐斯嘉麗也是因此才公開表示,她對網(wǎng)絡(luò)上出現(xiàn)的那些貼了她的臉的deepfake視頻非常憤怒,但卻無可奈何,無法阻止這些視頻四處流傳。
這下,對許多人來說,哪怕是再注意隱私,也無法阻止艷照門流傳了。
去年5月,deepfake已經(jīng)引起了五角大樓的注意,他們通過美國國防部高級研究計(jì)劃局(DARPA)委托全美各地的專家,想方設(shè)法檢測各類視頻的真實(shí)性。
不久后,DARPA就研發(fā)了一款A(yù)I工具,能夠自動監(jiān)測處被換了臉的假視頻,根據(jù)假視頻一般不會表現(xiàn)出眨眼、呼吸和眼球運(yùn)動這些特征,能夠以99%的準(zhǔn)確率識別出假視頻。
不過現(xiàn)在,用不著請美國國防部出山了,只要有了這個FaceForensics++數(shù)據(jù)集,你也可以DIY訓(xùn)練AI來甄別假視頻了。
論文:
FaceForensics++: Learning to Detect Manipulated Facial Images
論文:
FaceForensics++: Learning to Detect Manipulated Facial Images
作者:Andreas Rossler, Davide Cozzolino, Luisa Verdoliva, Christian Riess, Justus Thies, Matthias Nie?ner
https://arxiv.org/abs/1901.08971
聯(lián)系客服