中文字幕理论片,69视频免费在线观看,亚洲成人app,国产1级毛片,刘涛最大尺度戏视频,欧美亚洲美女视频,2021韩国美女仙女屋vip视频

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
AIGC下一站:期待、警惕充斥著AI剪輯師的世界


  新智元報(bào)道  

來源:學(xué)術(shù)頭條
【新智元導(dǎo)讀】文生視頻,「踩」在文生圖的肩膀上。

上月底,名為「chaindrop」的 Reddit 用戶,在 r/StableDiffusion subreddit 上分享了一個(gè)由人工智能生成的視頻,在業(yè)內(nèi)引起了不小的爭議。

視頻中,一個(gè)由 AI 生成的丑陋畸形的「威爾·史密斯」,以一種可怕的熱情將一把意大利面條鏟進(jìn)嘴里。

這一 「地獄般」的視頻迅速傳播到其他形式的社交媒體,數(shù)字媒體和廣播公司 Vice 表示該視頻將「伴隨你的余生」,美國娛樂網(wǎng)刊 The A.V. Club 稱其為「AI 開發(fā)的自然終點(diǎn)」。僅在 Twitter 上,這一視頻的觀看次數(shù)就超過了 800 萬。

下面這段動(dòng)圖是其中的部分內(nèi)容。每一幀都以不同的角度展示了模擬的威爾·史密斯狼吞虎咽地吃著意大利面的場景。

自從威爾·史密斯吃意大利面的視頻瘋狂傳播后,互聯(lián)網(wǎng)上就出現(xiàn)了斯嘉麗·約翰遜和喬·拜登吃意大利面等后續(xù)報(bào)道,甚至還有史密斯吃肉丸子的視頻。

盡管這些可怕的視頻正在成為互聯(lián)網(wǎng)中完美且「恐懼」模因素材,但就像之前的文生圖以及每一種 AI 生成的內(nèi)容一樣,文生視頻(Text2Video)正加速走進(jìn)我們的生活。

文生視頻:你寫腳本,我做視頻

「威爾·史密斯吃意大利面」的視頻出自開源 AI 工具 Text To Video Synthesis 模型,創(chuàng)建這一視頻的工作流程相當(dāng)簡單:僅需給出「Will Smith eating spaghetti」的提示,并以每秒 24 幀(FPS)的速度生成。

據(jù)了解,Text To Video Synthesis 是一種「文生視頻」擴(kuò)散模型,經(jīng)過訓(xùn)練可以通過分析收集到 LAION5B、ImageNet 和 Webvid 數(shù)據(jù)集中的數(shù)百萬張圖像和數(shù)千個(gè)視頻,根據(jù)用戶的提示來創(chuàng)建新視頻。這包括來自 Shutterstock 的視頻,因此在其輸出上有幽靈般的「Shutterstock」水印,就像視頻中所展示的那樣。

目前,在文生視頻這一賽道,國內(nèi)外大廠和研究機(jī)構(gòu)也在悄然競爭。早在去年 9 月 29 日,Meta 就發(fā)布了 Make-A-Video,在最初的公告頁面上,Meta 展示了基于文本生成的示例視頻,包括「一對年輕夫婦在大雨中行走」和「一只正在畫肖像的泰迪熊」。

同時(shí),Make-A-Video 具備拍攝靜態(tài)源圖像并將其動(dòng)畫化的能力。例如,一張海龜?shù)撵o止照片,一旦通過 AI 模型處理,就可以看起來像是在游泳。

僅僅在 Meta 推出 Make-A-Video 不到一周后,Google 便發(fā)布了 Imagen Video,它能夠根據(jù)書面提示以每秒 24 幀的速度生成 1280×768 的高清晰視頻。Imagen Video 包括幾個(gè)顯著的風(fēng)格能力,例如根據(jù)著名畫家的作品(如梵高的畫作)生成視頻,生成 3D 旋轉(zhuǎn)對象同時(shí)保留對象結(jié)構(gòu),以及渲染文本多種動(dòng)畫風(fēng)格。Google 希望,這一視頻合成模型能夠「顯著降低高質(zhì)量內(nèi)容生成的難度」。

隨后,Google 推出了另一個(gè)文生視頻模型 Phenaki。區(qū)別于 Imagen Video 主打視頻品質(zhì),Phenaki 主要挑戰(zhàn)視頻長度。它可以根據(jù)詳細(xì)提示創(chuàng)建更長的視頻,實(shí)現(xiàn)「有故事、有長度」。它生成任意時(shí)間長度的視頻能力來源于其新編解碼器 CViVIT——該模型建立在 Google 早期文生圖系統(tǒng) Imagen 中磨練的技術(shù)之上,但在其中加入了一堆新組件,從而可以將靜態(tài)幀轉(zhuǎn)換為流暢的運(yùn)動(dòng)。

今年 2 月 6 日,Stable Diffusion 背后的原始創(chuàng)業(yè)公司 Runway 推出了視頻生成 AI——Gen-1 模型,可以通過使用文本提示或者參考圖像所指定的任意風(fēng)格,將現(xiàn)有視頻轉(zhuǎn)換為新視頻,改變其視覺風(fēng)格。3 月 21 日,Runway 發(fā)布 Gen-2 模型,專注于從零開始生成視頻,通過將圖像或文本提示的構(gòu)圖和樣式應(yīng)用于源視頻的結(jié)構(gòu)(視頻到視頻),或者,只使用文字(文生視頻)。

踩在「文生圖」的肩膀上

Make-A-Video 等文生視頻模型背后的關(guān)鍵技術(shù)——以及為什么它比一些專家預(yù)期得更早到來——是因?yàn)樗仍诹恕肝纳鷪D」技術(shù)巨人的肩膀上。

據(jù) Meta 介紹,他們不是在標(biāo)記的視頻數(shù)據(jù)(例如,描述的動(dòng)作的字幕描述)上訓(xùn)練 Make-A-Video 模型,而是采用圖像合成數(shù)據(jù)(用字幕訓(xùn)練的靜止圖像)并應(yīng)用未標(biāo)記的視頻訓(xùn)練數(shù)據(jù),以便模型學(xué)習(xí)文本或圖像提示在時(shí)間和空間中可能存在的位置的感覺。然后,它可以預(yù)測圖像之后會(huì)發(fā)生什么,并在短時(shí)間內(nèi)顯示動(dòng)態(tài)場景。

從 Stable Diffusion 到 Midjourney,再到 DALL·E-2,文生圖模型已經(jīng)變得非常流行,并被更廣泛的受眾使用。隨著對多模態(tài)模型的不斷拓展以及生成式 AI 的研究,業(yè)內(nèi)近期的工作試圖通過在視頻領(lǐng)域重用文本到圖像的擴(kuò)散模型,將其成功擴(kuò)展到文本到視頻的生成和編輯任務(wù)中,使得用戶能夠僅僅給出提示便能得到想要的完整視頻。

早期的文生圖方法依賴于基于模板的生成和特征匹配等方法。然而,這些方法生成逼真和多樣化圖像的能力有限。在 GAN 獲得成功之后,還提出了其他幾種基于深度學(xué)習(xí)的文生圖方法。其中包括 StackGAN、AttnGAN 和 MirrorGAN,它們通過引入新的架構(gòu)和增強(qiáng)機(jī)制進(jìn)一步提高了圖像質(zhì)量和多樣性。

后來,隨著 Transformer 的進(jìn)步,出現(xiàn)了新的文生圖方法。例如,DALL·E-2 是一個(gè) 120 億參數(shù)的變換器模型:首先,它生成圖像令牌,然后將其與文本令牌組合,用于自回歸模型的聯(lián)合訓(xùn)練。之后,Parti 提出了一種生成具有多個(gè)對象的內(nèi)容豐富的圖像的方法。Make-a-Scene 則通過文生圖生成的分割掩碼實(shí)現(xiàn)控制機(jī)制。現(xiàn)在的方法建立在擴(kuò)散模型的基礎(chǔ)上,從而將文生圖的合成質(zhì)量提升到一個(gè)新的水平。GLIDE 通過添加無分類器引導(dǎo)改進(jìn)了 DALL·E。后來,DALL·E-2 利用了對比模型 CLIP:通過擴(kuò)散過程,從 CLIP 文本編碼到圖像編碼的映射,以及獲得 CLIP 解碼器……

這些模型能夠生成具有高質(zhì)量的圖像,因此研究者將目光對準(zhǔn)了開發(fā)能夠生成視頻的文生圖模型。然而,文生視頻現(xiàn)在還是一個(gè)相對較新的研究方向?,F(xiàn)有方法嘗試?yán)米曰貧w變換器和擴(kuò)散過程進(jìn)行生成

例如,NUWA 引入了一個(gè) 3D 變換器編碼器-解碼器框架,支持文本到圖像和文本到視頻的生成。Phenaki 引入了一個(gè)雙向掩蔽變換器和因果關(guān)注機(jī)制,允許從文本提示序列生成任意長度的視頻;CogVideo 則通過使用多幀速率分層訓(xùn)練策略來調(diào)整 CogView 2 文生圖模型,以更好地對齊文本和視頻剪輯;VDM 則聯(lián)合訓(xùn)練圖像和視頻數(shù)據(jù)自然地?cái)U(kuò)展了文生圖擴(kuò)散模型。

前面展示的 Imagen Video 構(gòu)建了一系列視頻擴(kuò)散模型,并利用空間和時(shí)間超分辨率模型生成高分辨率時(shí)間一致性視頻。Make-A-Video 在文本到圖像合成模型的基礎(chǔ)上,以無監(jiān)督的方式利用了視頻數(shù)據(jù)。Gen-1 則是擴(kuò)展了 Stable Diffusion 并提出了一種基于所需輸出的視覺或文本描述的結(jié)構(gòu)和內(nèi)容引導(dǎo)的視頻編輯方法。

如今,越來越多的文生視頻模型不斷迭代,我們可以看到,2023 年似乎將要成為「文生視頻」的一年。

生成式AI下一站:需要改進(jìn),需要警惕

盡管復(fù)用了文生圖的技術(shù)與訓(xùn)練集,但在視頻領(lǐng)域應(yīng)用擴(kuò)散模型并不簡單,尤其是由于它們的概率生成過程,很難確保時(shí)間一致性。即主要主體往往在幀與幀之間看起來略有不同,背景也不一致,這使得完成的視頻看起來一切都在不斷運(yùn)動(dòng),缺乏真實(shí)感。同時(shí),大多數(shù)方法都需要大量的標(biāo)記數(shù)據(jù)并進(jìn)行大量的訓(xùn)練,這是極其昂貴并難以負(fù)擔(dān)的。

近日,由 Picsart AI Resarch(PAIR)團(tuán)隊(duì)介紹的一種新穎的零樣本的文本到視頻生成任務(wù),提出了一種低成本的方法,通過利用現(xiàn)有的文本到圖像合成方法(如 Stable Diffusion),將其應(yīng)用于視頻領(lǐng)域。該研究主要進(jìn)行了兩個(gè)關(guān)鍵修改:一是為生成幀的潛在代碼添加動(dòng)態(tài)運(yùn)動(dòng)信息,以保持全局場景和背景時(shí)間的一致性;二是使用新的跨幀注意力機(jī)制,對每個(gè)幀在第一幀的關(guān)注,重新編程幀級自注意力,以保持前景對象的上下文、外觀和身份。

圖|Text2Video-Zero使用(i)文本提示(見第1、2行)、(ii)結(jié)合姿勢或邊緣指導(dǎo)的提示(見右下角)和(iii)視頻指令-Pix2Pix,即指令引導(dǎo)視頻編輯(見左下角),實(shí)現(xiàn)零樣本視頻生成。結(jié)果在時(shí)間上是一致的,并嚴(yán)格遵循指導(dǎo)和文本提示。

這個(gè)方法的意義在于它具有低開銷,同時(shí)能生成高質(zhì)量且相當(dāng)一致的視頻。此外,這種方法不僅適用于文本到視頻合成,還適用于其他任務(wù),如條件和內(nèi)容專用視頻生成,以及視頻指導(dǎo)下的圖像到圖像翻譯。

實(shí)驗(yàn)證明,這種方法在性能上可與最近的方法相媲美,甚至在某些情況下優(yōu)于它們,盡管它沒有在額外的視頻數(shù)據(jù)上進(jìn)行訓(xùn)練。這項(xiàng)技術(shù)可以用于創(chuàng)作動(dòng)畫、廣告和短片,節(jié)省成本和時(shí)間。此外,它還可以在教育領(lǐng)域提供可視化材料,使學(xué)習(xí)變得更加生動(dòng)有趣。

然而,隨著不斷的技術(shù)迭代,這些文生視頻 AI 模型將變得更加精確、逼真和可控。就像是恐怖的「史密斯吃意大利面」視頻一樣,這些工具很可能被用來生成虛假、仇恨、露骨或有害的內(nèi)容,信任與安全等問題也逐漸涌現(xiàn)

谷歌稱,Google Imagen Video 的訓(xùn)練數(shù)據(jù)來自公開可用的 LAION-400M 圖像文本數(shù)據(jù)集和「1400 萬個(gè)視頻文本對和 6000 萬個(gè)圖像文本對」。盡管它已經(jīng)接受了谷歌過濾的「有問題的數(shù)據(jù)」的訓(xùn)練,但仍然可能包含色情和暴力內(nèi)容——以及社會(huì)刻板印象和文化偏見。

Meta 也承認(rèn),按需制作逼真的視頻會(huì)帶來一定的社會(huì)危害。在公告頁面的底部,Meta 表示,所有來自 Make-A-Video 的人工智能生成的視頻內(nèi)容都包含一個(gè)水印,以「幫助確保觀眾知道視頻是用人工智能生成的,而不是捕獲的視頻」。但是,競爭性的開源文生視頻模型可能會(huì)隨之而來,這可能會(huì)使 Meta 的水印保護(hù)變得無關(guān)緊要。

美國麻省理工學(xué)院人工智能教授菲利普·伊索拉就表示,如果看到高分辨率的視頻,人們很可能會(huì)相信它。也有專家指出,隨著人工智能語音匹配的出現(xiàn),以及逐漸擁有改變和創(chuàng)建幾乎觸手可及的逼真視頻的能力,偽造公眾人物和社會(huì)大眾的言行可能會(huì)造成不可估量的傷害。但是,「潘多拉的魔盒已經(jīng)打開」,作為生成式 AI 的下一站,文生視頻的技術(shù)需要不斷改進(jìn),與此同時(shí),依然需要警惕安全與倫理風(fēng)險(xiǎn)。

參考文獻(xiàn):

https://arxiv.org/abs/2303.13439

https://arxiv.org/abs/2205.15868

https://www.theverge.com/2022/10/6/23390607/ai-text-to-video-google-imagen-phenaki-new-research

https://arstechnica.com/information-technology/2023/03/yes-virginia-there-is-ai-joy-in-seeing-fake-will-smith-ravenously-eat-spaghetti/

https://www.forbes.com/sites/forbesdigitalcovers/2018/07/30/the-backsies-billionaire-texan-builds-second-fortune-from-wreckage-of-real-estate-empire-hed-sold/?

https://arstechnica.com/information-technology/2022/09/write-text-get-video-meta-announces-ai-video-generator/

https://arstechnica.com/information-technology/2022/10/googles-newest-ai-generator-creates-hd-video-from-text-prompts/

https://github.com/THUDM/CogVideo

https://huggingface.co/spaces/THUDM/CogVideo

https://research.runwayml.com/gen2

http://stdaily.com/index/kejixinwen/202304/20c55d431a9d464db0ac7707b8ee8a34.shtml



本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊舉報(bào)。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
AI作畫爆火,捧出多個(gè)新晉獨(dú)角獸|文生|ai|算法|草圖
人工智能快速出圖!盤點(diǎn) 4 款大廠出品的 AI 繪畫神器
逼真度超越「AI設(shè)計(jì)師」DALL·E 2!谷歌大腦推出新的文本生成圖像模型——Imagen
谷歌新AI火了!世界最長單詞都能畫:Pneumonoultramicroscopicsilicovo...
超詳超硬Jeff Dean萬字總結(jié)火熱出爐!圖解谷歌2022年AIGC、LLM、CV三大領(lǐng)域成就
AI寫小說、繪畫、剪視頻,生成式AI更火了!
更多類似文章 >>
生活服務(wù)
熱點(diǎn)新聞
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服