智東西(公眾號:zhidxcom)
文 | 韋世瑋
導語:一場來自人工智能領域、機器人和自動駕駛汽車等領域大牛的年度研討盛會,為大家揭開眾多創(chuàng)新研究成果的神秘面紗!
智東西8月5日消息。美國當?shù)貢r間8月1日,國際計算機圖形和交互技術(shù)會議SIGGRAPH 2019在美國洛杉磯落幕,為期三天的會議聚集了來自世界各地的研究人員、科學家和商業(yè)人士等專家,他們就機器人、自動駕駛汽車、圖形圖像技術(shù)以及制造等領域進行了深入的研討。
SIGGRAPH(Special Interest Group for Computer GRAPHICS,計算機圖形和交互技術(shù)特別興趣小組)成立于1967年,由布朗大學(Brown University)教授Andries van Dam和IBM的Sam Masta共同發(fā)起,主要推廣和發(fā)展計算機繪圖和動畫制作的軟硬件技術(shù)。
自1974年起,美國計算機協(xié)會計算機圖形專業(yè)組(ACM SIGGRAPH)每年都會組織一次SIGGRAPH會議,并逐漸發(fā)展為圖形學界最具權(quán)威和影響力的國際會議。
同時,各領域研究人員們也將會在SIGGRAPH會議上為大家展示豐富的研究成果,并發(fā)表大量學術(shù)研究報告,不斷給藝術(shù)、科學和自適應技術(shù)等領域帶來新的研究方向和發(fā)展驅(qū)動力。
為此,智東西特別為大家梳理了SIGGRAPH 2019上已公開的學術(shù)研究報告。
今年,SIGGRAPH共收錄了143篇學術(shù)論文,涉及圖像科學(Photo Science)、VR和AR(VR and AR)、神經(jīng)渲染(Neural Rendering)和設計和布局(Design and Layout)等32個研究領域。
針對這些領域,智東西精選出了5項涵蓋圖像科學(Photo Science)、視頻(Video)和設計與布局(Design and Layout)3大領域的創(chuàng)新性研究,并為大家一一解讀。
近年來,針對圖像識別和處理的研究一直是AI研究人員們在利用人工智能算法處理圖像方面的一大熱點。
AI識別對抗性圖像、AI學習創(chuàng)作達芬奇等藝術(shù)風格畫作、AI識別換臉以及前段時間大火的“變老”AI神器FaceAPP等技術(shù)和應用,都是研究人員們長期以來在該領域的研發(fā)成果。
從SIGGRAPH收錄的學術(shù)論文中不難發(fā)現(xiàn),今年研究人員們在圖像科學領域可謂是卯足了勁開發(fā)新花樣。
其中,一篇名為《基于生成圖像優(yōu)先級的語義圖像處理(Semantic Photo Manipulation with a Generative Image Prior)》的研究論文中,描繪了一個叫GANPaint Studio的黑科技,賺足了人們的眼球。
GANPaint Studio是一個由MIT CSAIL、IBM Research、MIT-IBM沃森AI實驗室和香港中文大學的研究人員們共同研發(fā)的后期圖像處理工具,人們能通過它隨心所欲地上傳圖片并進行修改和編輯。
例如為建筑更換屋頂?shù)脑O計、給房間設計一個新的窗戶、讓植被變換更換不同季節(jié)的顏色……這些編輯過程不僅具有選擇性,而且編輯過后的圖像也顯得十分逼真。
當用戶在GANBrush用戶界面上傳圖像后,可以從左側(cè)的工具欄中選擇想要的操作模式,主要為繪制和擦除。
接下來,用戶需選擇相應的語義特征,例如“椅子”、“樹木”、“天空”、“桌子”。有意思的是,這些語義特征會因上傳圖像的不同而變化。
同時,繪制和擦除的畫筆大小和特征強度(低、中、高)也是可以選擇的。
此外,在用戶界面的右側(cè)有一個歷史面板,該面板會按時間順序顯示用戶的修改歷史和范圍。當用戶將鼠標懸停在以前的編輯上時,相應的編輯痕跡也會在圖像中突出顯示。當然,編輯過的內(nèi)容也可以從列表中進行刪除。
那么它具體是如何做到的?
從技術(shù)上來說,GANPaint Studio的核心是一個名叫GAN的神經(jīng)網(wǎng)絡,GAN由一個生成樣本的生成器、一個試圖區(qū)分生成樣本與現(xiàn)實世界樣本的鑒別器兩部分組成。
研究人員在開發(fā)模型時,需要識別GAN內(nèi)部和特定對象類型(如門口)相關(guān)的單元。然后再分別對這些單元進行測試,看消除它們后是否會導致照片中的某些物體消失或出現(xiàn)。
同時,他們還需要移除造成圖片顯像錯誤的單元,以提高照片的整體質(zhì)量。
當系統(tǒng)學習了一些關(guān)于對象之間關(guān)系的基本規(guī)則后,就不會把物體放在不符合邏輯的地方,例如在天空中生成一扇窗戶,而是根據(jù)上下文創(chuàng)建不同的視覺效果。
自然圖像中的面部地標檢測(Facial Landmark detection)是一個十分活躍的研究領域。
這些年來,隨著基于神經(jīng)網(wǎng)絡技術(shù)和大規(guī)模數(shù)據(jù)集的興起,計算機在自然圖像領域的研究取得了一定的進展。
然而,計算機在藝術(shù)肖像領域仍是一個具有挑戰(zhàn)性的研究,也是一個尚未探索的問題。
與自然面部圖像相比,藝術(shù)肖像在幾何和紋理方面都更加多樣化,分析起來也更復雜。
今年SIGGRAPH收錄的學術(shù)論文中,有一篇名為《藝術(shù)之臉:肖像中的標記檢測和幾何風格(The Face of Art: Landmark Detection and Geometric Style in Portraits – Supplemental material )》的論文。
該研究論文顯示,以色列的特拉維夫大學,以及以色列赫茲利亞跨學科研究中心(The Interdisciplinary Center Herzliya)的研究人員們共同開發(fā)了一種用于自然面部圖像的藝術(shù)增強方法,該方法能夠訓練深度神經(jīng)網(wǎng)絡,以用于藝術(shù)肖像中的面部地標檢測。
具體來說,研究人員們通過利用傳統(tǒng)的面部地標數(shù)據(jù)集,研究人員將這些數(shù)據(jù)從自然圖像轉(zhuǎn)換成與藝術(shù)肖像類似的圖像。
由于各類藝術(shù)肖像中面部地標的位置和形狀不同,因此他們使用基于面部特征(眼角或嘴角等)的地標矯正步驟,以減少不同面部特征之間的依賴性。
為了評估這個面部地標檢測框架,研究人員還創(chuàng)建了一個藝術(shù)肖像數(shù)據(jù)集,其中包含160件不同藝術(shù)流派、藝術(shù)家和風格的藝術(shù)作品,其作品的幾何形狀和紋理都有很大差異。
測試表明,研究人員通過該算法可以檢測藝術(shù)肖像中的面部特征,并分析它們的幾何風格。
這一成果表明,研究人員們不僅能對藝術(shù)風格作品的幾何與紋理樣式進行編碼,還為肖像提供了幾何感知的風格轉(zhuǎn)移方法。
目前在智能手機市場中,許多手機都擁有廣角相機功能,不僅給照片帶來了更開闊的視野,也能讓用戶在拍集體照的場合時無需擔心畫面容納不下所有人。
但隨之而來的問題是,廣角鏡頭更寬的視野(FOV)往往也會產(chǎn)生畸變,特別是在畫面邊緣的人臉、身體和背景等都被拉長、壓扁和扭曲,這也給許多用戶帶來了不少的困擾。
因此,谷歌的研究人員們研發(fā)出了一種新的人臉識別算法,能夠矯正因為廣角拍攝而畸變失真的照片。
該研究成果被收錄在SIGGRAPH 2019的學術(shù)論文中,名為《手機中的無變形廣角肖像(Distortion-Free Wide-Angle Portraits on Camera Phones)》。
谷歌研究人員在論文中表示,在一張輸入的肖像中,該技術(shù)利用人物分割算法和人臉檢測器,將照片中的人物部分和背景部分進行標記和區(qū)分,并創(chuàng)建一個內(nèi)容感知的變形網(wǎng)格。
值得注意的是,該網(wǎng)格能與面部區(qū)域的立體投影相匹配,并無縫地轉(zhuǎn)換為照片背景的透視投影。
最后,利用該變形的網(wǎng)格對輸入的照片進行修正,照片中的人臉和背景都能相應地得到校正。
目前,該算法主要針對70°至120°的廣角范圍,并且它是全自動的,校正速度也很快。
但是在現(xiàn)階段,該算法在修正人體時主要修正臉部,因此有時候因廣角畸變而扭曲的身體部分暫時無法很好地修復。
針對這一問題,研究人員也表示,將在未來開發(fā)更多新的修正算法,能更全方位地修正因廣角拍攝而畸變的照片。
除了在圖像科學領域,今年的SIGGRAPH在視頻技術(shù)領域也為大家展示了不錯的成果。
一篇名為《通過范例對視頻進行風格化(Stylizing Video by Example)》的論文表明,捷克布拉格技術(shù)大學電氣工程系、Adobe研究所的研究人員們共同開發(fā)了一種新的視頻風格化方法。
這一方法的重點是,它對視頻進行風格化的同時,保持風格的視覺質(zhì)量、用戶可控性和對任意視頻的適用性。
研究人員們表示,在過去的幾十年中,計算機圖形學的進步引發(fā)了一場動畫藝術(shù)的革命,產(chǎn)生了一個全新的3D動畫分支,包括逼真的光照效果和物理精確的模擬。
此外,與照明、材質(zhì)和性能捕捉相比,動畫視頻的制作管道比傳統(tǒng)動畫更像是真人制作。
但這其中有一個問題,由于動畫制作者出于生產(chǎn)和技術(shù)方面的考慮,導致傳統(tǒng)動畫和3D動畫之間存在著巨大的風格差距。
其中3D動畫制作的風格有著獨特的外觀,但遺憾的是,目前通過利用3D動畫還無法全面地再現(xiàn)傳統(tǒng)動畫的風格外觀,也沒有自動化的方法可以使用實時性能捕捉來生成傳統(tǒng)動畫外觀。
因此,研究人員們開發(fā)了一種時間連貫的視頻藝術(shù)風格化新方法。
該方法基于一種叫圖像類比框架(image analogies framework)的技術(shù),它能夠未視頻處理提供精確的控制,以及處理視頻任意風格的能力。
在研發(fā)過程中,研究人員們主要考慮兩點設計需求。
一方面,允許算法在任何期望的傳統(tǒng)媒體中,以關(guān)鍵幀的形式直接自由地進行藝術(shù)控制;另一方面,能夠?qū)⑷我廨斎胂到y(tǒng)的視頻進行風格化。
隨后,研究人員通過該方法制作了一個實用流水線,能從系統(tǒng)捕捉的實景表演中創(chuàng)建傳統(tǒng)風格的動畫。
它還提供了一個更簡單的藝術(shù)視頻創(chuàng)作的流程,讓以往單調(diào)乏味的逐幀繪畫過程變得更簡單有趣,同時也保留了傳統(tǒng)藝術(shù)視頻獨特而豐富的視覺品質(zhì)。
研究人員表示,他們希望通過這個時間連貫的視頻藝術(shù)風格化新方法,能有助于彌合視頻的實時動作、3D動畫和傳統(tǒng)手繪動畫之間的差距。
除了圖像和視頻方面,今年的SIGGRAPH在設計和布局領域也錄入了一項有意思的研究。
它是一個叫做EasyFont的學習系統(tǒng),簡單來說,它能夠通過學習某個人的字跡,然后將字體庫中的所有字體都生成一模一樣的字跡。
該研究論文名為《EasyFont:基于樣式學習的系統(tǒng),可輕松構(gòu)建大型手寫字體(EasyFont: A Style Learning-Based System to Easily Build Your Large-Scale Handwriting Fonts)》,研究團隊為北京大學計算機科學與技術(shù)學院。
在過去的二十年中,字體產(chǎn)品的數(shù)量迅速增加,但也有越來越多的人希望能使用獨特且個性化的手寫風格來呈現(xiàn)文本。
然而,建立一個包含大量不同字符的手寫字體庫并不是件容易的事。
就拿目前業(yè)界領先的中國字體制作公司FounderType來說,一個由三到五名經(jīng)驗豐富的字體設計師組成的團隊,需要花超過12個月的時間才能生成一個GB18030-2000的中文字庫。
專業(yè)設計師都需耗費如此多的時間和精力,更別說普通人了。
為了解決這個問題,北京大學的研究人員們設計了一個十分方便的系統(tǒng),能夠從普通人編寫的少量(少至1%)的樣本中學習手寫風格,并生成一個具有大量字符(例如中文)的個人手寫字體庫。
首先,研究人員設計了一種有效的筆畫提取算法,該算法能從訓練好的字體骨架流形(font skeleton manifold)中,來構(gòu)搜集和構(gòu)建最適合的參考數(shù)據(jù),然后通過非剛性點陣配準算法(Non-rigid point set registration method),建立目標字符和參考字符之間的對應關(guān)系。
其次,他們開發(fā)了一套新穎的系統(tǒng),用于學習和恢復用戶的整體手寫風格,以及詳細的手寫行為。
具體操作上,用戶輸入一張帶有書寫字跡的紙張照片,系統(tǒng)通過分割校正后的文本圖片,獲取單個字符圖像。
接下來,系統(tǒng)會為每個字符圖像提取每個筆畫的書寫軌跡,并選擇正確的提取結(jié)果,然后采用人工神經(jīng)網(wǎng)絡來學習用戶的整體手寫風格。
系統(tǒng)在分析和描述所有連續(xù)筆畫的連通性,以及每種筆畫輪廓的細節(jié)后,會將學習到的樣式添加到參考數(shù)據(jù)上,為每個字符創(chuàng)建軌跡并恢復手寫細節(jié)。
最后,系統(tǒng)將手寫樣本的圖像和其他字符的合成結(jié)果矢量化,以生成TrueType字體庫,并輸出成用戶的個人手寫字體庫。
值得一提的是,研究人員們讓包括圖靈測試在內(nèi)的97名志愿者,區(qū)分系統(tǒng)的生成字體和真人手寫字體。測試結(jié)果表明,志愿者無法區(qū)分哪些是系統(tǒng)生成的字跡,哪些是人寫的原始筆跡。
一年一度的SIGGRAPH大會不僅是圖形學界最具權(quán)威和影響力的國際會議,同時它收錄涉及人工智能、機器學習、圖像視頻等各個領域的研究成果,也為學術(shù)界和業(yè)界各領域的研究人員們帶來新的研究方向和創(chuàng)新啟發(fā)。
通過簡單幾筆就能生成逼真照片的GANPaint Studio、、能拯救因廣角鏡頭而導致畫面畸變的算法、能學習人類字跡后生成個性化字體庫的EasyFont……這些技術(shù)雖然看起來離人們的生活還很遠,但是其中的一些成果已經(jīng)實現(xiàn)了商業(yè)化落地,并逐漸給人們的生活帶來改變。
在未來,又會有哪些突破性的技術(shù)為學界和業(yè)界帶來新的方向和突破口?哪些技術(shù)又將會以何種方式更深刻地影響人們的生活?這都是值得我們所期待的。
論文鏈接:
1、http://ganpaint.io/Bau_et_al_Semantic_Photo_Manipulation_preprint.pdf
2、http://www.faculty.idc.ac.il/arik/site/foa/The_Face_of_Art_supplemental.pdf
3、http://people.csail.mit.edu/yichangshih/wide_angle_portrait/shih_sig19.pdf
4、https://dcgi.fel.cvut.cz/home/sykorad/Jamriska19-SIG.pdf
5、http://www.icst.pku.edu.cn/zlian/docs/TOG18-Lian.pdf
聯(lián)系客服