視頻大模型激戰(zhàn)180天:Sora“高冷隱身”,國(guó)產(chǎn)巨頭狂卷落地
2024年上半年,AI視頻生成領(lǐng)域迎來(lái)了一系列令人矚目的突破。今年2月OpenAI發(fā)布了全新的文生視頻模型Sora,率先開啟了AI視頻生成的ChatGPT時(shí)刻;3月26日,字節(jié)跳動(dòng)旗下剪映Dreamina開放內(nèi)測(cè);4月27日,AI企業(yè)生數(shù)科技發(fā)布了號(hào)稱國(guó)內(nèi)首個(gè)自研視頻大模型的Vidu;6月6日,快手可靈AI正式開放內(nèi)測(cè)......AI視頻生成賽道在全球的高度關(guān)注下催生出一個(gè)又一個(gè)新技術(shù)成果,與此同時(shí),國(guó)內(nèi)外類Sora創(chuàng)企們也開始活躍起來(lái)。僅僅在今年上半年,愛詩(shī)科技、生數(shù)科技、Pika等AI企業(yè)就完成了多輪億元級(jí)別的融資,成立于2018年的老牌AI視頻生成企業(yè)Runway也傳出新一輪的融資計(jì)劃。海量資金加持下的AI視頻生成賽道必定會(huì)給我們帶來(lái)更多驚喜,不過(guò)在此之前,借著這個(gè)年中時(shí)刻,小雷帶大家來(lái)一起回顧下今年上半年的AI視頻大模型產(chǎn)品,看看各家大模型發(fā)布了哪些新產(chǎn)品,它們?cè)诋a(chǎn)品方向又有了什么新變化。Sora持續(xù)隱身,
快手可靈AI火爆全網(wǎng)
1、Sora:引領(lǐng)視頻生成技術(shù)路線創(chuàng)新說(shuō)實(shí)話,說(shuō)實(shí)話,將Sora置于產(chǎn)品隊(duì)列中討論并不合適,因?yàn)镾ora至今也沒有對(duì)公眾開放,只有業(yè)界和設(shè)計(jì)界的極少數(shù)人受邀使用。但考慮到Sora的出現(xiàn)推動(dòng)了AI視頻生成技術(shù)在全球范圍內(nèi)的邁進(jìn),為了方便大家理解,小雷認(rèn)為還是有必要對(duì)其進(jìn)行回顧。在OpenAI發(fā)布Sora模型之前,代表著行業(yè)領(lǐng)先水平的是Runway、Pika Labs,以及谷歌VideoPoet這一批老牌AI視頻生成玩家。它們沒有引起全球關(guān)注的最大原因是生成視頻的技術(shù)難度非常高。制作視頻不僅需要依賴于先進(jìn)的算法和強(qiáng)大的計(jì)算能力,還必須解決包括一致性、連貫性、物理合理性以及邏輯合理性在內(nèi)的多種復(fù)雜問(wèn)題。這些因素共同確保了視頻內(nèi)容的流暢性、真實(shí)性和可信度。Runway們?cè)缙谥饕蕾囉贕AN(生成式對(duì)抗網(wǎng)絡(luò))和VAE(變分自編碼器)兩種模型進(jìn)行視頻生成,之后演變出兩種技術(shù)路線,分別是擴(kuò)散模型和Transformer模型,兩者各具優(yōu)劣,可以說(shuō)是各有千秋。而根據(jù)OpenAI在發(fā)布Sora當(dāng)天給出的技術(shù)解釋,Sora正是擴(kuò)散模型和Transformer模型的結(jié)合。雖然在Sora發(fā)布之前,結(jié)合方案已成為業(yè)內(nèi)普遍嘗試的方向,但OpenAI作為首個(gè)發(fā)布Demo的企業(yè),已經(jīng)在AI視頻生成領(lǐng)域確立了行業(yè)地位。按照目前情況來(lái)看,OpenAI絲毫沒有公開Sora的意思。在競(jìng)爭(zhēng)日益加劇的AI視頻生成領(lǐng)域,Sora的持續(xù)隱身會(huì)給其他競(jìng)爭(zhēng)對(duì)手帶來(lái)追趕甚至超越的機(jī)會(huì)。2、快手可靈AI:國(guó)產(chǎn)AI國(guó)外爆火,高頻更新值得期待在2024年世界人工智能大會(huì)(WAIC)上,快手高級(jí)副總裁于越介紹了可靈AI的部分產(chǎn)品更新以及最新數(shù)據(jù)。作為一款剛剛發(fā)布一個(gè)月的產(chǎn)品,可靈AI的更新可謂是相當(dāng)頻繁。產(chǎn)品從內(nèi)測(cè)時(shí)的App端,擴(kuò)展到了Web端;功能也從文生視頻,陸續(xù)更新了圖生視頻、視頻續(xù)寫、多尺寸選擇、高畫質(zhì)版、首尾幀控制、鏡頭控制等新功能。據(jù)快手披露的數(shù)據(jù)顯示,可靈大模型上線一個(gè)月以來(lái),累計(jì)申請(qǐng)用戶數(shù)50萬(wàn)+,開通用戶數(shù)30萬(wàn)+,生成視頻數(shù)700萬(wàn)。同時(shí),可靈AI憑借大幅度運(yùn)動(dòng)的合理性和物理世界特性的高度模擬能力在國(guó)內(nèi)外社交媒體和技術(shù)社區(qū)受到廣泛討論。不少海外科技愛好者、專業(yè)從業(yè)者體驗(yàn)后紛紛表達(dá)了對(duì)中國(guó)AI的看好。美國(guó)著名創(chuàng)業(yè)投資公司Y Combinator CEO在海外社交媒體平臺(tái)轉(zhuǎn)發(fā)并稱贊了可靈生成的Demo;英國(guó)開源人工智能公司Stability AI前CEO Emad Mostaque則表示:“中國(guó)的AI技術(shù)有自己的優(yōu)勢(shì)?!?/span>自從OpenAI發(fā)布ChatGPT開始,大眾普遍認(rèn)為OpenAI代表著AIGC領(lǐng)域的領(lǐng)先水平。哪怕Sora遲遲未上線,類似的觀點(diǎn)也沒有太大改變。但作為內(nèi)測(cè)體驗(yàn)過(guò)可靈AI的親歷者,小雷可以明確表示可靈AI無(wú)論是生成時(shí)長(zhǎng)、效率,還是視頻質(zhì)量,都是目前AI視頻生成產(chǎn)品的第一梯隊(duì),尤其是真實(shí)風(fēng)格場(chǎng)景上的表現(xiàn)令人印象深刻,許多AIGC視頻如果不細(xì)看,甚至無(wú)法發(fā)現(xiàn)是AI生成。在Sora未正式發(fā)布前,外界很難判斷孰優(yōu)孰劣,但快手可靈AI的出現(xiàn)讓我們看到了在AI視頻生成領(lǐng)域超越的可能。此外,快手方面還宣布其首部AIGC短劇《山?!穼⒃诒驹律嫌?,期待可靈AI給我們帶來(lái)新的驚喜。3、字節(jié)即夢(mèng)AI:進(jìn)步明顯,AIGC短劇帶來(lái)行業(yè)新機(jī)遇同樣試水AIGC短劇的還有即夢(mèng)AI。在今年的上海國(guó)際電影節(jié)上,抖音聯(lián)合博納影業(yè)出品制作的AIGC科幻短劇集《三星堆:未來(lái)啟示錄》正式亮相。純AI制作是該劇的最大亮點(diǎn),借助包括AIGC劇本創(chuàng)作、概念及分鏡設(shè)計(jì)、圖像到視頻轉(zhuǎn)換、視頻編輯和媒體內(nèi)容增強(qiáng)等十種AIGC技術(shù),或?qū)⒔怄i傳統(tǒng)影視公司與AIGC技術(shù)產(chǎn)品合作、發(fā)展的新路徑。即夢(mèng)AI是字節(jié)旗下的一站式AIGC內(nèi)容專業(yè)創(chuàng)作平臺(tái),支持文生視頻和圖生視頻,提供智能畫布、故事創(chuàng)作模式、以及首尾幀、對(duì)口型、運(yùn)鏡控制、速度控制等AI編輯功能。今年5月,剪映Dreamina正式更名為即夢(mèng)AI,小雷也在第一時(shí)間進(jìn)行了體驗(yàn)。相比于成熟的AI作圖,即夢(mèng)AI當(dāng)時(shí)的AI視頻水平是有些讓人失望的,文生視頻的自然語(yǔ)言理解能力沒有問(wèn)題,但視頻質(zhì)量確實(shí)有待提高,特別是真實(shí)物理特性方面,即夢(mèng)還需要繼續(xù)努力。而圖生視頻由于給AI框定了方向,省去了想象組合步驟,視頻質(zhì)量要比文生視頻好得多,但視頻主體大幅運(yùn)動(dòng)的情況下,還是會(huì)出現(xiàn)閃現(xiàn)、扭曲的問(wèn)題。當(dāng)然小雷體驗(yàn)的只不過(guò)是即夢(mèng)AI的最初版本,經(jīng)過(guò)一段時(shí)間的發(fā)展,即夢(mèng)AI已經(jīng)達(dá)到能生成AIGC短劇的水平,進(jìn)步之大讓人驚喜。小雷期待已久的故事創(chuàng)作模式相信不久就會(huì)正式對(duì)外開放,屆時(shí)或許普通用戶也能創(chuàng)作自己的AIGC連續(xù)劇。4、Runway:Gen-3重磅更新,演示效果不輸Sora作為老牌AI視頻生成廠商,Runway的視頻生成模型Gen-1和Gen-2在初期收獲了不少好評(píng),隨著競(jìng)爭(zhēng)對(duì)手陸續(xù)推出搭載最新視頻生成模型產(chǎn)品,Runway因?yàn)槟P吐浜?,在很長(zhǎng)一段時(shí)間內(nèi)飽受爭(zhēng)議。今年6月,Runway連夜發(fā)布了基于最新視頻生成模型Gen-3生成的各種演示視頻,電影級(jí)的畫面細(xì)節(jié)直接震驚了全體網(wǎng)友。7月2日,Runway宣布Gen-3向所有用戶開放使用,小雷原本也想嘗試一番,但每月12美元的會(huì)員費(fèi)把我勸退了,因此我也只能從演示視頻畫面來(lái)分析一二。官方展示視頻時(shí)長(zhǎng)為10秒,人物生成中的人物面部細(xì)節(jié)和情感營(yíng)造方面比較細(xì)膩,場(chǎng)景、風(fēng)景生成中的元素、光影沒有太大的違和感。比如這個(gè)視頻,女子乘坐車輛穿過(guò)明暗交替的街道,外部光源照射在面部的變化十分自然,車外穿梭的車輛也沒有出現(xiàn)斷層等違和場(chǎng)景。官方公布視頻的效果稱得上是驚艷。雖然不知道正式使用的效果如何,但就目前來(lái)說(shuō),個(gè)人認(rèn)為不輸Sora。5、Dream Machine:視頻質(zhì)量波動(dòng)大,使用成本高6 月 12 日,初創(chuàng)公司 Luma AI 發(fā)布了新的 AI 視頻生成模型 Dream Machine(造夢(mèng)機(jī)器),并且面向公眾開放測(cè)試。很快,不僅官方放出的一系列樣片,社交網(wǎng)絡(luò)上還出現(xiàn)了一大堆由網(wǎng)友通過(guò)“造夢(mèng)機(jī)器”生成的視頻。坦率地講,“造夢(mèng)機(jī)器”官方視頻給小雷的第一印象還是挺驚艷的,除了人物主體和背景的一致性,最讓人驚訝的可能是光照的變化,包括亮度的變化也符合基本的物理規(guī)律。但在實(shí)際網(wǎng)友創(chuàng)作和分享的內(nèi)容中,即便是在那些相當(dāng)驚艷的少數(shù)作品中,你也能看到或多或少的錯(cuò)誤。小雷也試著用“造夢(mèng)機(jī)器”創(chuàng)作了一段視頻,實(shí)際效果還是比較糟糕的:人物詭異的倒退,在背后拿著傘的怪異舉動(dòng),還有飛起來(lái)的雨傘。“造夢(mèng)機(jī)器”每月為普通用戶提供30次免費(fèi)生成機(jī)會(huì),除了免費(fèi)用戶,“造夢(mèng)機(jī)器”還提供三檔付費(fèi)選項(xiàng),包括29.99美元的標(biāo)準(zhǔn)檔、99.99美元的專業(yè)檔以及499.99美元的高級(jí)檔,區(qū)別是每個(gè)月可以生成視頻的次數(shù)。對(duì)于普通用戶來(lái)說(shuō),這些定價(jià)比Runway的12美元還離譜,或許官方目標(biāo)群體是那些通過(guò)“造夢(mèng)機(jī)器”創(chuàng)作視頻在TikTok上賺錢的創(chuàng)作者吧。更長(zhǎng)、更真實(shí)、更多元,
AI視頻不斷進(jìn)化
首先,今年AI視頻最大的突破之一,就是生成視頻長(zhǎng)度的延長(zhǎng)。要注意的是,小雷指的是模型極限區(qū)域的時(shí)長(zhǎng),而不是消費(fèi)端時(shí)長(zhǎng)。之前Runway和Pika都只能生成出3-4秒的視頻,對(duì)于行業(yè)和用戶來(lái)說(shuō),實(shí)在是太短了,根本無(wú)法滿足長(zhǎng)素材的需求。小雷梳理了已對(duì)外公布的大模型視頻生成時(shí)長(zhǎng),其中Sora為60秒,Vidu為32秒。快手就厲害了,它提供的視頻續(xù)寫功能支持連續(xù)多次續(xù)寫視頻內(nèi)容,在保證視頻一致性的前提下,最長(zhǎng)生成3分鐘視頻,在視頻時(shí)長(zhǎng)這塊,快手可以說(shuō)是遙遙領(lǐng)先。其次,是視頻大模型產(chǎn)品輸入方式的多元化。用戶不再局限于文字輸入,而是可以選擇圖像、視頻作為輸入,模型會(huì)根據(jù)用戶的輸入來(lái)生成視頻。比如,用戶可以上傳一張靜態(tài)圖,而視頻大模型則會(huì)根據(jù)圖片制作視頻。最后,是人們對(duì)AI視頻最大的期待:足夠真實(shí)。上文有提到,生成視頻的技術(shù)難度遠(yuǎn)比生成圖片高。此前,AI生成視頻有兩個(gè)硬傷。一是如何讓生成視頻符合物理規(guī)律,通常出現(xiàn)在人與人、或者人與物體之間進(jìn)行復(fù)雜交互時(shí);二是時(shí)間的連貫性,也就是讓AI記住視頻中的人和物體,即使被暫時(shí)擋住或移出畫面,之后再出現(xiàn)的時(shí)候也能按照物理邏輯地讓視頻保持連貫性。這兩點(diǎn)在今年得到了很好的改善,比如這個(gè)快手可靈AI生成的視頻,當(dāng)餃子進(jìn)入小孩嘴里,部分餃子被完全遮擋,當(dāng)再出現(xiàn)餃子時(shí),吃餃子留下的咬痕和被咬后的餃子形態(tài)也能保持自然地繼續(xù)運(yùn)動(dòng),保持了時(shí)間和物體的連貫性。
這意味著視頻生成模型已經(jīng)初步具備了“理解”世界的能力,理解物體運(yùn)動(dòng)過(guò)程中的物理世界,也能預(yù)測(cè)視頻下一步可能發(fā)生什么。下半年,
AI視頻生成領(lǐng)域會(huì)有什么新驚喜?
以目前的發(fā)展趨勢(shì)來(lái)看,今年下半年,還會(huì)有更多企業(yè)加入到AI視頻生成的技術(shù)競(jìng)賽中。畢竟,過(guò)去的半年里,有不少資本熱錢涌進(jìn)了行業(yè),新老玩家們都忙著猛推產(chǎn)品落地。
在2024世界人工智能大會(huì)(WAIC)上,新壹科技展示基于了新壹視頻大模型的系列產(chǎn)品及應(yīng)用場(chǎng)景解決方案,并正式發(fā)布了新壹視頻大模型2.0版本。目前,新壹科技已在文旅、金融保險(xiǎn)、媒體、營(yíng)銷、出版、政務(wù)、教育、汽車、醫(yī)療等眾多場(chǎng)景打造了落地方案,大幅提高了各垂直領(lǐng)域的創(chuàng)造力和生產(chǎn)力。這其實(shí)也是下半年的一大趨勢(shì),AI視頻生成賽道也將從卷模型,升級(jí)為卷落地。下半年,我們有望看到更多基于視頻生成大模型的AIGC落地應(yīng)用,這也就意味著我們會(huì)在更多場(chǎng)景看到AIGC內(nèi)容。正如前面所說(shuō)的,AI視頻的使用場(chǎng)景如今在不斷被拓展,在AIGC短劇之外增加了大量新場(chǎng)景。而隨著無(wú)線網(wǎng)絡(luò)、AI大模型等技術(shù)的不斷發(fā)展,AI視頻運(yùn)用的場(chǎng)景和功能也會(huì)逐漸變化。很可能,未來(lái)我們看到的廣告、短視頻、影視等內(nèi)容都將由AIGC生成,需要用到真人拍攝的機(jī)會(huì)將越來(lái)越少。
本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)
點(diǎn)擊舉報(bào)。