編輯:張佳
昨天晚上,閨蜜發(fā)來(lái)一個(gè)視頻把我嚇了一跳。視頻中,偶像小羅伯特·唐尼竟然發(fā)福了!
這怎么可能!后來(lái)我才知道,這是人家Deepfake的一個(gè)視頻,把視頻中人物的臉和聲音替換了。
除了小羅伯特·唐尼,湯姆·克魯斯、喬治·盧卡斯、伊萬(wàn)·麥格雷戈、杰夫·戈德布魯姆這些好萊塢明星都被Deepfake了,還組了個(gè)圓桌會(huì)議:(整個(gè)視頻只有主持人是本人)
視頻中,大家比較熟悉的“鋼鐵俠”小羅伯特·唐尼明顯發(fā)福,雙下巴都出來(lái)了;“返老還童”的湯姆·克魯斯太瘦弱,這哪里是碟中諜里那個(gè)玩命的阿湯哥?而且,他們的聲音聽(tīng)著也很奇怪:
這個(gè)視頻引發(fā)了網(wǎng)友熱議,很多人被這個(gè)以假亂真的視頻驚到了,搞不清到底誰(shuí)是真的、誰(shuí)是Deepfake。
自從拯救宇宙以來(lái),Stark似乎吃了太多的芝士漢堡。
整個(gè)過(guò)程中我都像湯姆·克魯斯一樣大笑。
無(wú)論是誰(shuí)在扮演杰夫·戈德布魯姆和湯姆·克魯斯,太贊了!
想象一下20年前、甚至10年前把這個(gè)給別人看,他們會(huì)很困惑的。
技術(shù)出神入化,Deepfake前后對(duì)比
這個(gè)Deepfake視頻由一個(gè)名叫Collider的電影網(wǎng)站制作,他們使用名人模仿者提供名人的基本舉止表現(xiàn)和聲音,然后通過(guò)Deepfake覆蓋臉部,這樣偽造的視頻乍一看很讓人信服。來(lái)見(jiàn)識(shí)一下偽造前后對(duì)比:
現(xiàn)在Deepfake就能做到這樣的水平了,再過(guò)兩年會(huì)不會(huì)肉眼根本無(wú)法分辨?
“出道”3年火遍全球,Deepfake被玩壞了
其實(shí),Deepfake并不是非常新鮮的技術(shù)了,它已經(jīng)存在了將近三年,并且變得越來(lái)越容易。此前便有朱茵變楊冪,海王變徐錦江的相關(guān)報(bào)道。
《射雕英雄傳》中,朱茵變楊冪
海王變徐錦江
Deepfake真正走進(jìn)大眾視野是在2017年年底。當(dāng)時(shí)Reddit用戶(hù)將《神奇女俠》的女主角蓋爾·加朵、以及艾瑪沃森、斯嘉麗等眾多女明星的臉跟AV女優(yōu)進(jìn)行了交換,制作出足以以假亂真的愛(ài)情動(dòng)作片。
國(guó)內(nèi)也有過(guò)銀幕上的換臉。在2017年科幻喜劇《不可思異》中,當(dāng)時(shí)由于演員的原因,片方不得不臨時(shí)換角,由大鵬代替杜汶澤所有戲份,進(jìn)行了一次“特效換臉”手術(shù)。
但這次換臉,是用通過(guò)純手工的方式一幀幀地修改畫(huà)面,耗時(shí)將近6個(gè)月,才將影片中所有的鏡頭都換完。在價(jià)格上,可以說(shuō)是“一秒千金”。
而AI換臉和后期換臉有著根本區(qū)別。后者還需要各種建模,以及一楨一楨的修改,前者在操作上只需要提供足夠多的素材讓機(jī)器學(xué)習(xí)。
另外,目前以fakeApp為代表的應(yīng)用存在分辨率低、效果不穩(wěn)定、渲染時(shí)間長(zhǎng)的問(wèn)題。QuantumLiu介紹,用AI和特效技術(shù)解決連續(xù)針斷點(diǎn)再融入難題,one shot面部自適應(yīng),機(jī)器自主學(xué)習(xí)光感和畫(huà)面匹配度,每一次的訓(xùn)練都會(huì)自動(dòng)疊帶,成功率,效果和渲染速度大幅提高,動(dòng)態(tài)視頻的切換更加完美的匹配。目前已經(jīng)取得了高分辨率光感匹配的突破和疊加式渲染的突破。已經(jīng)可以在幾個(gè)小時(shí)內(nèi)完成一整部片的替換,而且計(jì)算機(jī)學(xué)習(xí)的速度越來(lái)越快,時(shí)間周期還在不斷的縮短,品質(zhì)不斷提高。
如何做到的?Deepfake技術(shù)詳解
Deepfake 使用生成對(duì)抗網(wǎng)絡(luò)(GAN),其中兩個(gè)機(jī)器學(xué)習(xí)模型進(jìn)行了較量。一個(gè)ML模型在數(shù)據(jù)集上進(jìn)行訓(xùn)練,然后創(chuàng)建偽造的視頻,而另一個(gè)模型嘗試檢測(cè)偽造。偽造者創(chuàng)建假視頻,直到另一個(gè)ML模型無(wú)法檢測(cè)到偽造。訓(xùn)練數(shù)據(jù)集越大,偽造者越容易創(chuàng)建可信的deepfake視頻。
上圖顯示了一個(gè)圖像(在本例中是一張臉)被輸入到編碼器(encoder)中。其結(jié)果是同一張臉的低維表示,有時(shí)被稱(chēng)為latent face。根據(jù)網(wǎng)絡(luò)架構(gòu)的不同,latent face可能根本不像人臉。當(dāng)通過(guò)解碼器(decoder)時(shí),latent face被重建。自動(dòng)編碼器是有損的,因此重建的臉不太可能有原來(lái)的細(xì)節(jié)水平。
程序員可以完全控制網(wǎng)絡(luò)的形狀:有多少層,每層有多少節(jié)點(diǎn),以及它們?nèi)绾芜B接。網(wǎng)絡(luò)的真實(shí)知識(shí)存儲(chǔ)在連接節(jié)點(diǎn)的邊緣。每條邊都有一個(gè)權(quán)重,找到使自動(dòng)編碼器能夠像描述的那樣工作的正確權(quán)重集是一個(gè)耗時(shí)的過(guò)程。
訓(xùn)練神經(jīng)網(wǎng)絡(luò)意味著優(yōu)化其權(quán)重以達(dá)到特定的目標(biāo)。在傳統(tǒng)的自動(dòng)編碼器的情況下,網(wǎng)絡(luò)的性能取決于它如何根據(jù)其潛在空間的表示重建原始圖像。
訓(xùn)練Deepfake
需要注意的是,如果我們單獨(dú)訓(xùn)練兩個(gè)自動(dòng)編碼器,它們將互不兼容。latent faces基于每個(gè)網(wǎng)絡(luò)在其訓(xùn)練過(guò)程中認(rèn)為有意義的特定特征。但是如果將兩個(gè)自動(dòng)編碼器分別在不同的人臉上訓(xùn)練,它們的潛在空間將代表不同的特征。
使人臉交換技術(shù)成為可能的是找到一種方法來(lái)強(qiáng)制將兩個(gè)潛在的人臉在相同的特征上編碼。Deepfake通過(guò)讓兩個(gè)網(wǎng)絡(luò)共享相同的編碼器,然后使用兩個(gè)不同的解碼器來(lái)解決這個(gè)問(wèn)題。
在訓(xùn)練階段,這兩個(gè)網(wǎng)絡(luò)需要分開(kāi)處理。解碼器A僅用A的人臉來(lái)訓(xùn)練;解碼器B只用B的人臉來(lái)訓(xùn)練,但是所有的latent face都是由同一個(gè)編碼器產(chǎn)生的。這意味著編碼器本身必須識(shí)別兩個(gè)人臉中的共同特征。因?yàn)樗械娜四樁季哂邢嗨频慕Y(jié)構(gòu),所以編碼器學(xué)習(xí)“人臉”本身的概念是合理的。
生成Deepfake
當(dāng)訓(xùn)練過(guò)程完成后,我們可以將A生成的一個(gè)latent face傳遞給解碼器B。如下圖所示,解碼器B將嘗試從與A相關(guān)的信息中重構(gòu)B。
如果網(wǎng)絡(luò)已經(jīng)很好地概括了人臉的構(gòu)成,那么潛在空間將表示面部表情和方向。這意味著可以為B生成與A的表情和方向相同的人臉。
請(qǐng)看下面的動(dòng)圖。左邊,UI藝術(shù)家Anisa Sanusi的臉被從一個(gè)視頻中提取并對(duì)齊。右邊,一個(gè)訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)正在重建游戲設(shè)計(jì)師Henry Hoffman的臉,以匹配Anisa的表情。
顯然,Deepfake背后的技術(shù)并不受人臉的限制。例如,它可以用來(lái)把蘋(píng)果變成獼猴桃。
重要的是,訓(xùn)練中使用的兩個(gè)主體要有盡可能多的相似之處。這是為了確保共享編碼器能夠泛化易于傳輸?shù)挠幸饬x的特性。雖然這項(xiàng)技術(shù)對(duì)人臉和水果都有效,但不太可能將人臉變成水果。
參考鏈接:
https://www.theverge.com/tldr/2019/11/18/20970280/deepfake-roundtable-impersonation-collider-tom-cruise-jeff-goldblum-robert-downey-jr
聯(lián)系客服