大數(shù)據(jù)文摘出品
作者:牛婉楊
不知道大家有沒有印象,小時候很多書籍封面或者小卡片都是用“光柵立體卡”做的,以光學(xué)的原理把不同的圖案印刷在特殊材料上,從不同的角度可以看到不同的畫面,將平面轉(zhuǎn)換成了3D效果。
現(xiàn)在這種光柵立體卡仿佛很少見了,但人們對于將平面立體化的研究卻從未停止,例如從1922年世界上第一部3D電影《愛情的力量》誕生開始,3D電影創(chuàng)造了一個又一個票房奇跡,3D技術(shù)也一直在進(jìn)化迭代。
隨著5G時代到來,VR也迎來了應(yīng)用端的新紀(jì)元,而3D內(nèi)容成為了構(gòu)建VR生態(tài)的“主力軍”。從光柵立體卡這種實體卡片,到3D電影,再到現(xiàn)在火熱的VR應(yīng)用,3D技術(shù)還能給我們帶來哪些驚喜?
上周五,愛奇藝技術(shù)產(chǎn)品團(tuán)隊發(fā)布了一篇文章,文章顯示AI通過深度學(xué)習(xí)可以實現(xiàn)2D到3D的轉(zhuǎn)換了!這一技術(shù)可以延伸到3D海報的制作。
該團(tuán)隊表示,3D海報是一張2D圖片加上其深度關(guān)系圖,通過一系列的新視點渲染,得到一組動態(tài)的,人能感知的立體影像。
為什么會想到把海報做成3D的呢?
因為相對于2D內(nèi)容,優(yōu)質(zhì)的3D內(nèi)容有輸出符合真實景深關(guān)系的能力,用戶在觀看時具有更好的沉浸感。
那除了海報,3D轉(zhuǎn)換技術(shù)還可以用在哪里呢?
大數(shù)據(jù)文摘聯(lián)系到了愛奇藝技術(shù)產(chǎn)品團(tuán)隊,他們表示在3D海報視差圖精修部分所涉及到的人像摳圖、人臉重建等技術(shù)還有非常多的應(yīng)用前景。
在2D轉(zhuǎn)3D技術(shù)研發(fā)的初期,他們的目的是做電影的自動2D-To-3D轉(zhuǎn)制,擴(kuò)充3D內(nèi)容的資源數(shù)量。3D海報其實算是研發(fā)過程中的一個“副產(chǎn)品”,最近他們也在計劃一些新的應(yīng)用方向,如3D直播等。
而2D-To-3D作為一系列技術(shù)的組合,不光能進(jìn)行景深預(yù)測、修圖,作為一項基礎(chǔ)的技術(shù)積累未來也可能應(yīng)用到更多方向,例如:景深預(yù)測可以在視頻廣告軟植入中根據(jù)物體的景深進(jìn)入無縫的貼圖,什么意思呢?
讓我們想象一下:廣告中一個人從電視機(jī)前走過,那么這個電視機(jī)里能不能也通過系列技術(shù)讓它很自然的播放我們想要的廣告呢?在觀眾看來,或許很難區(qū)分這是后期處理,但卻可以讓植入廣告變得更加的自然、炫酷。
另外,愛奇藝技術(shù)產(chǎn)品團(tuán)隊還表示會在包括內(nèi)容、VR硬件平臺生態(tài)、人體重建、人機(jī)交互等方向上繼續(xù)探索,帶來更多新奇的體驗。
我們可以大膽展望下行業(yè)以后的發(fā)展:3D制作的低成本化及自動化會促進(jìn)硬件側(cè)如裸眼3D外設(shè)設(shè)備、3D電視等硬件的發(fā)展,用戶側(cè)如VR,AR等非影院的觀影體驗行業(yè)的發(fā)展,或成為一些低成本電影或者無3D版本電影重新發(fā)行3D版本的一種選擇。
說了這么多,那么技術(shù)上究竟是如何實現(xiàn)的呢?接下來就和文摘菌一起看看是如何用AI從2D轉(zhuǎn)換成3D內(nèi)容的吧~
要想研究3D,就必須了解人眼的成像特點。為什么我們看到的世界是立體的?因為人的左眼和右眼看到的像是有差別的,也就是所謂的視差。然而“腦子是個好東西”,這兩個角度的成像經(jīng)過大腦處理之后便產(chǎn)生了深度。
那一只眼睛也是可以看出立體感的啊,沒錯,因為我們在看東西時不是像照相機(jī)一樣拍下物體的瞬間,而是可以看到一個連續(xù)的畫面,所以即使一只眼睛也可以看出遠(yuǎn)近的距離感,只不過兩只眼睛看到的更加立體。
所以,要想模仿人眼所看到的立體感,就要用到一個工具——雙目相機(jī)。沒錯,它可以模仿人雙眼的深度成像,依靠拍攝的兩張圖片(彩色RGB或者灰度圖)就可以計算深度。
圖1 雙目相機(jī)成像與視差原理
如圖1左所示,兩個相機(jī)拍攝同一場景生成的圖像會存在差異,這種差異叫視差,其產(chǎn)于與真實的三維空間。視差不能通過平移消除,同時離相機(jī)近的物體視差偏移較大,反之越小。
人的左右眼就如同圖中的左右相機(jī)一樣,分別獲取對應(yīng)圖像后,通過大腦合成處理這種差異,從而獲取真實世界的 3D 感知,通過圖 1 右可得出視差與相機(jī)焦距和軸間距間的關(guān)系:
公式(1)
其中z為物體距離相機(jī)的深度,x為三維映射到二維的圖像平面,f為相機(jī)焦距,b為兩個相機(jī)間的距離軸間距,
和分別為物體在左右不同相機(jī)中成像的坐標(biāo),因此可知左右圖對應(yīng)像素和的視差。同時,考慮到轉(zhuǎn)制的對象為2D介質(zhì),因此,通過單目深度估計合成新視點的算法原型誕生:通過公式(1)可知,假設(shè)有一個函數(shù)
那么就有:
公式(2)
通過公式(2)可知,只需要將 圖1左 作為訓(xùn)練輸入,圖1右 作為參考,即可建立深度學(xué)習(xí)模型,通過大量雙目圖片對訓(xùn)練估計出函數(shù)??。這樣就可在已知相機(jī)參數(shù)(??,??)的前提下獲取對應(yīng)的深度值??,完成單目深度估計的任務(wù)。
通過公式(1)與公式(2)可以發(fā)現(xiàn),深度與視差成反比,因此深度估計和視差估計的方法可以互用。Deep3D[1]雖然通過視差概率估計實現(xiàn)2D到3D介質(zhì)的轉(zhuǎn)換,但固定視差的設(shè)定,難以適應(yīng)不同分辨率2D介質(zhì)輸入;
方法[2]沒有充分利用雙目信息作指導(dǎo),景深不夠細(xì);monodepth[3]在方法[2]的基礎(chǔ)上,充分利用了雙目信息進(jìn)行對抗指導(dǎo),學(xué)習(xí)到更多深度細(xì)節(jié);
SfmLearner[4]這類方法引入幀間時序信息,結(jié)構(gòu)較復(fù)雜,運(yùn)行速度慢。因此通過實現(xiàn)及適用性考慮最終我們選擇以monodepth為baseline,其框架結(jié)構(gòu)如圖2所示:
monodepth框架圖
通過以上方法對大量3D電影真實視差的學(xué)習(xí)與建模,完成從單目視圖到雙目視圖的轉(zhuǎn)換。這樣做的好處,一是節(jié)約了技術(shù)成本,二是適用多種場景的真實3D視差關(guān)系,用戶基本不會感到不適。
畢竟每一部3D電影的后期制作,動輒幾千萬的資金成本,需要上百人的團(tuán)隊長達(dá)幾個月時間才能完成。而利用AI模型,能夠快速、批量、全自動的把2D轉(zhuǎn)制成3D內(nèi)容,能極大的減少3D內(nèi)容制作成本,同時以很快的速度豐富3D內(nèi)容生態(tài)。
既省錢,又不暈,可以說是非常有前景的一套方案了。
類似的技術(shù)在國際上也有,前陣子Meng-Li Shih團(tuán)隊在CVPR2020上發(fā)表了一篇論文,通過上下文感知三維圖像分層深度修復(fù)技術(shù),可以把2D照片變?yōu)?D。
該團(tuán)隊稱,他們提出了一種方法,將單個RGB-D輸入圖像轉(zhuǎn)換為3D照片,即這是一種新穎視圖合成的多層表示,包含了原始視圖中被遮擋區(qū)域的幻覺顏色和深度結(jié)構(gòu)。他們使用具有顯式像素連接的分層深度圖像作為底層表示,并提出了一個基于學(xué)習(xí)的inpainting模型,該模型以空間上下文感知的方式迭代地將新的局部顏色和深度內(nèi)容合成到閉塞區(qū)域。生成的3D照片可以有效地使用標(biāo)準(zhǔn)圖形引擎的運(yùn)動視差進(jìn)行呈現(xiàn)。
Meng-Li Shih團(tuán)隊的3D轉(zhuǎn)換成果
相關(guān)鏈接:
https://shihmengli.github.io/3D-Photo-Inpainting/
那愛奇藝的這次3D變換在技術(shù)上與CVPR2020這篇論文中提到的技術(shù)有什么區(qū)別嗎?
愛奇藝團(tuán)隊稱,他們對這篇文章也有所關(guān)注,其本質(zhì)是基于已知深度的圖像修復(fù),其作用與他們后處理中引入的Gated-conv結(jié)構(gòu)類似,實際測試發(fā)現(xiàn),前者在單幀的情況下某些場景空洞修補(bǔ)的效果較好,但是連續(xù)幀測試會出現(xiàn)修補(bǔ)部分幀間不連續(xù)問題,體現(xiàn)為視頻抖動。
愛奇藝團(tuán)隊認(rèn)為Gated-conv結(jié)構(gòu)較為輕量,可實現(xiàn)連續(xù)幀的end-to-end訓(xùn)練,幀間連續(xù)修補(bǔ)效果好一些。
不知道大家是否像文摘菌一樣好奇,他們是怎么想到這個idea的呢?
愛奇藝稱,他們團(tuán)隊主要的研究方向是計算機(jī)視覺,而且團(tuán)隊里有資深的算法成員具備豐富的3D視覺經(jīng)驗,同時結(jié)合愛奇藝自身的業(yè)務(wù),他們便開始了2D轉(zhuǎn)3D這一創(chuàng)新研究。
盡管項目初期非常艱難,視頻內(nèi)容的2D轉(zhuǎn)3D少有研究可以借鑒,他們嘗試了非常多的方案都很不理想。好不容易可以在技術(shù)上實現(xiàn)2D轉(zhuǎn)3D,又發(fā)現(xiàn)還有幀間抖動、物體空洞、物體邊緣和背景存在模糊流動區(qū)域等非常影響觀眾體驗的問題。
為了解決以上問題,他們采用BicycleGAN的“雙輪訓(xùn)練”結(jié)構(gòu)來解決不同數(shù)據(jù)集相機(jī)參數(shù)不同帶來的問題,video2video的結(jié)構(gòu)來解決幀間預(yù)測不連續(xù)的問題,用圖像修復(fù)中的Gated-conv結(jié)構(gòu)作為后處理網(wǎng)絡(luò)以解決插值空洞的問題。
AI模型生成的3D紅藍(lán)視差圖(3D紅藍(lán)視差圖是能夠表現(xiàn)出靜態(tài)視差的圖,帶上常見的紅藍(lán)眼鏡即可看到有3D效果的畫面)
現(xiàn)在看來,能有如此效果已經(jīng)非常棒了。愛奇藝團(tuán)隊也表示,這項技術(shù)目前已經(jīng)申請了一些專利,更多專利申請在進(jìn)行中。
未來,一方面他們還會繼續(xù)繼續(xù)優(yōu)化模型,將模型應(yīng)用拓展到更多的應(yīng)用方向;另一方面,還會繼續(xù)結(jié)合目標(biāo)檢測、摳圖、圖像修補(bǔ)等技術(shù)來完成對特定場景下的景深修正,來更逼真的還原那些特效場景。
在這漫長的研發(fā)過程中,他們也會遇到挫折,甚至陷入了瓶頸期。
團(tuán)隊中多是剛畢業(yè)沒多久的的年輕人,很多人第一次接觸3D視覺這個方向,在初期有一大段時間陷入研發(fā)瓶頸期,大家的情緒上都難免有所懈怠氣餒。
怎么解決?
在他們眼中,沒什么是一頓火鍋解決不了的!如果不行,那就兩頓!
在過去3D技術(shù)應(yīng)用創(chuàng)造商業(yè)價值,受制于兩個方面:在硬件層面,拿前兩年火熱的3D電視舉例,限制3D技術(shù)應(yīng)用發(fā)展的其實是內(nèi)容。一部昂貴的3D電視,結(jié)果花不了多少時間就把所有能看的3D內(nèi)容全看完了,之后就淪為一臺普通的電視。
而VR設(shè)備除了3D內(nèi)容的缺乏因素,還有笨重、眩暈、清晰度等硬件技術(shù)上的問題,不過近兩年VR設(shè)備都在快速進(jìn)行產(chǎn)品迭代優(yōu)化,相信未來幾年VR設(shè)備能夠更輕更強(qiáng)大,帶給用戶更好的體驗。甚至是類似Google Glass之類的輕量級VR眼鏡也不是沒有可能出現(xiàn)。
軟件和技術(shù)層面,2D轉(zhuǎn)3D技術(shù)其實近年來也不乏有相關(guān)研究,但是更多的是在2D圖片轉(zhuǎn)成有3D立體感的圖片(類似3D海報應(yīng)用)上,而能夠?qū)⒂捌D(zhuǎn)制成3D并且保留良好觀影體驗,甚至從效果上很難區(qū)分是原生3D還是AI模型轉(zhuǎn)制的3D,這個是比較難做到的,愛奇藝在這個領(lǐng)域的研究具備一些優(yōu)勢。
但有挑戰(zhàn)也就充滿機(jī)遇:
在影視行業(yè)每一部3D電影的后期制作,動輒幾千萬起步的資金成本,上百人團(tuán)隊長達(dá)幾個月時間和人力成本,都是阻礙3D內(nèi)容豐富發(fā)展的痛點。但成熟的AI模型也許能夠快速、批量、全自動的把2D轉(zhuǎn)制成3D內(nèi)容,能極大的減少電影公司的制作成本,同時以很快的速度豐富公司的3D內(nèi)容生態(tài),同時研發(fā)過程中積累的技術(shù)和內(nèi)容,能夠為之后幾年的5G、VR、AR的發(fā)展提供一些積累。
隨著5G技術(shù)的應(yīng)用,更快的網(wǎng)絡(luò)傳輸能夠承載更多的信息,大型的實時場景如春晚、體育賽事的直播等內(nèi)容,可能在很短時間內(nèi)就能在VR端得到普及。以往VR場景里3D內(nèi)容的缺乏是行業(yè)內(nèi)的一個痛點,但是如果AI能夠快速、批量、全自動制作3D內(nèi)容,也許能更加繁榮VR行業(yè)。
此外,隨著三維傳感器的快速發(fā)展,還有智能移動機(jī)器人、無人駕駛、AR等三維應(yīng)用場景快速發(fā)展衍生的強(qiáng)烈需求。近幾年三維視覺技術(shù)開始從實驗室走向?qū)こ0傩占?,服?wù)于人們的生活和娛樂,如掃地機(jī)器人移動中的避障、復(fù)原文化古跡的三維結(jié)構(gòu)等,也創(chuàng)造了更多的3D技術(shù)應(yīng)用場景。
聯(lián)系客服