中文字幕理论片,69视频免费在线观看,亚洲成人app,国产1级毛片,刘涛最大尺度戏视频,欧美亚洲美女视频,2021韩国美女仙女屋vip视频

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
火爆的老照片動起來、唱歌,微視把AI視頻特效打包「一鍵」實現(xiàn)了
機器之心原創(chuàng)

作者:張倩

從論文到手機,這個團隊正在「一鍵實現(xiàn)」越來越多的好玩特效。


這幾年,AI 模型在特效方向的技能似乎已被拉滿。因此,我們在有生之年見到了會說話的蒙娜麗莎、cos 油畫的周杰倫以及可以讓人一秒變禿的「東升發(fā)型生成器」。但是,這些技術(shù)似乎在使用層面都不太「接地氣」,很少有人將其做成「一鍵生成」類應(yīng)用放到手機上,實時類應(yīng)用就更少了。

到了 2021 年,這種局面正在發(fā)生變化。

在一款短視頻應(yīng)用上,我們驚喜地看到,最近火遍全網(wǎng)的「深度懷舊」、「照片唱歌」都已經(jīng)可以一鍵生成了:


這些特效都來自騰訊微視,用戶只需要下載微視 APP,上傳一張照片就可以得到想要的特效效果。其中,「會動的老照片」可以完成老照片上色、超分辨率、讓照片中的人物動起來等效果;而「讓照片唱首歌」可以讓任意照片中的人演唱一首曲目,還搭配豐富的面部表情。

不過,這還只是微視實現(xiàn)的眾多特效之一,還有更多特效可以在微視 APP 實時體驗,如變明星、變歐美、變娃娃等。




此外,你還可以通過手機實時控制生成圖像的面部動作,實現(xiàn)人臉動作遷移:


這些實時特效就像一面又一面的「魔鏡」,可以實現(xiàn)各種奇妙的人臉魔法特效。而且玩法非常簡單,只需要在 APP 中找到相應(yīng)模板,然后打開攝像頭拍攝即可。

也許有人會問:論文都出來那么久了,怎么現(xiàn)在才在手機上看到這些效果?這就不得不提把 AI 模型從論文搬上手機的那些難處了。

把特效搬上手機難在哪兒?

我們知道,近年來興起的很多 AI 特效都是基于 GAN(生成對抗網(wǎng)絡(luò))的,上文中的大部分特效也不例外。但是,傳統(tǒng)的 GAN 往往存在以下問題:

1. 需要大量的訓(xùn)練數(shù)據(jù)。數(shù)據(jù)對 AI 模型的重要性不言而喻,但對于一些基于 GAN 的人臉特效來說,模型不光需要數(shù)據(jù),還需要大量的成對數(shù)據(jù),這給數(shù)據(jù)采集工作帶來了新的挑戰(zhàn)。比如,在變換人種的特效中,我們不可能同時擁有一個人作為不同人種的圖片。

2. 可控性差。我們在應(yīng)用 GAN 生成人臉的時候可能會希望單獨調(diào)整某個屬性,其他屬性保持不變,如只把眼睛放大。但麻煩的是,圖像的信息被壓縮在一個維度很小的隱向量空間中,各個屬性耦合十分緊密。因此,如何實現(xiàn)這些屬性的解耦、提高人臉屬性的可控性就成了一個難題。

3. 生成質(zhì)量不穩(wěn)定。由于輸入數(shù)據(jù)的質(zhì)量和生成模型本身的不穩(wěn)定性,GAN 模型生成的圖像畫質(zhì)可能較低,因此我們還需要采取其他措施來提高生成圖像的質(zhì)量。

4. 計算量大,難以部署在移動端。一個擁有強大生成能力的 GAN 可能計算量要達(dá)到上百 G,不適合在移動端部署。因此,如何在不明顯損失視覺效果的前提下實現(xiàn)模型的高效壓縮成了一個亟待解決的問題。

這些挑戰(zhàn)如何克服?

針對上述挑戰(zhàn),騰訊微視的技術(shù)團隊研發(fā)出了一套支持移動端實時特效的 GAN 模型訓(xùn)練和部署框架,整體流程可以概括為以下幾個步驟:

  1. 按需求采集非成對數(shù)據(jù),并訓(xùn)練高參數(shù)量的模型生成成對數(shù)據(jù);

  2. 對成對數(shù)據(jù)進(jìn)行畫質(zhì)增強;

  3. 利用成對數(shù)據(jù)訓(xùn)練移動端輕量化模型。


借助這些步驟,模型不需要真實的成對數(shù)據(jù)也能達(dá)到預(yù)期的效果,可控性、生成圖像的質(zhì)量都得到了顯著提升,還適配各種機型,讓更多人用上了簡單、高質(zhì)量的人臉魔法特效。

利用高參數(shù)量模型生成成對數(shù)據(jù)

當(dāng)成對的數(shù)據(jù)難以獲得,利用高參數(shù)量的大模型生成成對數(shù)據(jù)就成了一個必然選擇。生成效果如下圖:


為了完成這項任務(wù),微視的技術(shù)團隊研發(fā)了三種不同的大模型

第一種是融合了 CycleGAN 和 StyleGAN 的 Cycle-StyleGAN。StyleGAN 擁有強大的高清人臉生成能力,但它是非條件生成模型,只能通過隨機向量生成隨機人臉。因此,研究人員引入了 CycleGAN 的思想,使模型具備 image-to-image 的條件生成能力。


Cycle-StyleGAN 的基本結(jié)構(gòu)。

借助這一模型設(shè)計,微視研發(fā)并上線了變年輕的效果:


但這一模型也有缺點:需要的數(shù)據(jù)量太大,而且穩(wěn)定性、可控性都不強。因此,微視又研發(fā)了第二種大模型:基于隱向量的屬性編輯模型。

首先,他們利用亞洲人臉數(shù)據(jù)集訓(xùn)練了一個高質(zhì)量的生成模型。該模型通過 AdaIN 模塊來提取隱向量的信息,然后利用 Decoder 網(wǎng)絡(luò)來生成數(shù)據(jù)。為了解決數(shù)據(jù)解耦問題,實現(xiàn)單屬性可控(如只調(diào)節(jié)眼睛大?。?,團隊做出了以下優(yōu)化:

  • 對方向向量進(jìn)行解耦,摸索出了一套有效的屬性解耦方法;

  • 在訓(xùn)練的過程中,通過監(jiān)督信息控制隱向量的具體意義,比如限定某些維度控制鼻型,某些維度控制臉型。


通過以上操作,團隊實現(xiàn)了對大部分屬性的單獨控制,但眼袋、魚尾紋等過于細(xì)致的屬性依舊無法做到干凈的解耦。為此,團隊開發(fā)出了一套基于風(fēng)格空間的屬性編輯方法。此外,團隊還針對真實數(shù)據(jù)與訓(xùn)練數(shù)據(jù)之間的差異所導(dǎo)致的模糊、噪聲等問題進(jìn)行了優(yōu)化。

整體來看,第二代大模型不僅提高了模型可控性,還大大減少了數(shù)據(jù)需求量,可以在只能收集到少量非成對數(shù)據(jù)的真實人臉生成場景中使用?;谶@套方案,微視研發(fā)并上線了變明星和變假笑等效果。


然而,現(xiàn)實中的人臉特效需求并不局限于真實人臉,還有一些風(fēng)格化的需求需要滿足,如 CG 人臉生成。這類任務(wù)的數(shù)據(jù)匱乏程度更為嚴(yán)重,因此需要一種數(shù)據(jù)量需求更小的模型。為此,微視的團隊設(shè)計了第三種大模型——基于小樣本的模型融合模型。這種模型的主要思想是:在收集的少量數(shù)據(jù)上對預(yù)訓(xùn)練的真實人臉模型進(jìn)行調(diào)優(yōu)訓(xùn)練,使預(yù)訓(xùn)練模型能夠較好地生成目標(biāo)風(fēng)格的圖片(如 CG 風(fēng)格圖)。然后,將調(diào)優(yōu)訓(xùn)練后的模型與原始模型進(jìn)行融合得到一個混合模型,該模型既能生成目標(biāo)風(fēng)格的圖片,又兼具原始預(yù)訓(xùn)練模型強大多樣的生成能力。

CG 效果圖。

為了增加數(shù)據(jù)的多樣性,研發(fā)人員還給該模型加了一個數(shù)據(jù)增強模塊,借助 3D 人臉等技術(shù)生成更加多樣的數(shù)據(jù)。借助這一模型,只需要幾十張數(shù)據(jù)就能生成符合要求的人臉。

成對數(shù)據(jù)畫質(zhì)增強

在迭代了三種大模型之后,小模型訓(xùn)練所需的成對數(shù)據(jù)已經(jīng)基本就緒,但還需要在美觀程度、穩(wěn)定性和清晰度等方面進(jìn)行優(yōu)化。在美觀程度方面,微視利用圖像處理技術(shù)和屬性編輯方案對大模型生成的圖片進(jìn)行美化,如利用去皺紋模型去除眼袋和淚溝。在穩(wěn)定性和清晰度方面,微視參考圖像修復(fù)和超分辨率的相關(guān)方法單獨訓(xùn)練了一個既能提升清晰度又能消除人臉瑕疵的 GAN 模型。隨機調(diào)研的結(jié)果顯示,用戶對美化后的圖片的喜愛程度明顯提高。

去眼袋和淚溝效果示意圖。

移動端小模型訓(xùn)練

在手機上部署的特效對算法的實時性、穩(wěn)定性要求都很高,因此微視的團隊設(shè)計了能在移動端流暢運行的小模型結(jié)構(gòu),把大模型生成的成對數(shù)據(jù)作為小模型訓(xùn)練的監(jiān)督信息進(jìn)行訓(xùn)練和蒸餾。

輕量級的小模型整體骨干基于 Unet 結(jié)構(gòu),參考了 MobileNet 深度可分離卷積和 ShuffleNet 的特征重利用等優(yōu)點。為了提高生成圖像的清晰度和整體質(zhì)量,研究團隊不僅將整張圖放進(jìn)判別器進(jìn)行訓(xùn)練,還根據(jù)人臉點位裁剪出眼、眉、鼻、嘴,并將其分別輸入到判別器進(jìn)行訓(xùn)練。


為了適配不同機型,團隊設(shè)計了多種計算量的模型。而且,考慮到低端機部署的模型參數(shù)量較少,他們還用到了知識蒸餾的方法讓 student 小模型學(xué)習(xí)到更多的信息。

以上三大步驟幫助微視實現(xiàn)了 image-to-image 的實時特效生成效果,但團隊并沒有止步于此,他們還實現(xiàn)了實時的輕量化人臉動作遷移。

實時人臉動作遷移

在人臉動作遷移方向,有一部分工作的思路是:首先估計從目標(biāo)圖片到源圖片的反向光流,基于光流對源圖片的特征表示進(jìn)行扭曲(warping)操作,然后再恢復(fù)出重建結(jié)果,例如 Monkey-Net、FOMM 等。微視的實時人臉動作遷移大模型就借鑒了此類方法。

為了實現(xiàn)手機端實時推斷,他們在模型大小和計算量兩個方面對大模型進(jìn)行了優(yōu)化,借鑒 GhostNet 分別設(shè)計了相應(yīng)的小模型結(jié)構(gòu),從而將模型大小縮減了 99.2%,GFLOPs 降低了 97.7%。為了讓小模型成功學(xué)到大模型的能力,他們還采用了分階段蒸餾訓(xùn)練的策略。

訓(xùn)練完小模型之后,團隊借助騰訊自己研發(fā)的移動端深度學(xué)習(xí)推理框架 TNN實現(xiàn)了手機端的部署和實時推理,從而使得用戶通過攝像頭驅(qū)動任意人臉圖片的玩法變?yōu)榭赡堋?/span>


做特效,騰訊微視優(yōu)勢在哪兒

逼真的效果、高效的模型離不開堅實的技術(shù)支撐。這些項目的核心技術(shù)由騰訊微視拍攝算法團隊與騰訊平臺與內(nèi)容事業(yè)群(PCG)應(yīng)用研究中心(Applied Research Center,ARC)共同研發(fā)。騰訊微視拍攝算法團隊致力于圖像 / 視頻方向的技術(shù)探索,匯聚了一批行業(yè)內(nèi)頂尖的算法專家和產(chǎn)品經(jīng)驗豐富的研究員和工程師,擁有豐富的業(yè)務(wù)場景,持續(xù)探索前沿 AI 和 CV 算法在內(nèi)容生產(chǎn)和消費領(lǐng)域的應(yīng)用和落地。ARC 則是 PCG 的偵察兵和特種兵,主要任務(wù)是探索和挑戰(zhàn)智能媒體相關(guān)的前沿技術(shù),聚焦于音視頻內(nèi)容的生成、增強、檢索和理解等方向。

在 AI 特效落地方面,團隊建立了以下優(yōu)勢:

  1. 已經(jīng)搭建了從算法研發(fā)、模型迭代到線上部署的一整套流程化框架,可以實現(xiàn)各項技術(shù)的快速落地,為探索更多特效提供了效率保證;

  2. 算法經(jīng)過了多次迭代,數(shù)據(jù)需求量已經(jīng)降至很低的水平,幾十張圖像就能實現(xiàn)不錯的效果,使得更多特效的實現(xiàn)成為可能;

  3. 在圖像質(zhì)量提升、模型壓縮等方面積累了一些自己的技術(shù),可以保障 AI 模型在各種移動端平臺上成功部署。


除了上面討論的 GAN 之外,研發(fā)團隊在增強現(xiàn)實、3D 空間理解等方面也做了一些探索,并在微視 APP 上上線了一批特效,這也是當(dāng)前整個社區(qū)比較熱門的研究方向。

隨著技術(shù)的不斷迭代,未來,我們還將在微視上看到更多原本只能在論文中看到的驚艷效果。

如果你也想?yún)⑴c這些有趣的項目,可以按照以下方式聯(lián)系騰訊微視的技術(shù)團隊,具體方向包括但不限于 GAN 生成、2D/3D 人體 / 人臉、SLAM/3D 視覺 / AR、AutoML、移動端推理引擎、特效工程、渲染引擎、算法工程等。

聯(lián)系方式:quenslincai@tencent.com、jonytang@tencent.com

本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊舉報。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
你好,這是微視AI還原的李煥英
未來十年,AI迎來“小數(shù)據(jù)”時代?
專業(yè)大模型,而不是“通用”人工智能
BAI資本:萬字干貨帶你入門“具身智能”|BAI觀點
騰訊與北大光華打造的這門課,幫企業(yè)家讀懂AI、用好AI
王慧文豪擲3.4億,眾人都想復(fù)制ChatGPT|貳月大變局
更多類似文章 >>
生活服務(wù)
熱點新聞
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點擊這里聯(lián)系客服!

聯(lián)系客服