2024年上半年，AI視頻生成領(lǐng)域迎來(lái)了一系列令人矚目的突破。

今年2月OpenAI發(fā)布了全新的文生視頻模型Sora，率先開啟了AI視頻生成的ChatGPT時(shí)刻；3月26日，字節(jié)跳動(dòng)旗下剪映Dreamina開放內(nèi)測(cè)；4月27日，AI企業(yè)生數(shù)科技發(fā)布了號(hào)稱國(guó)內(nèi)首個(gè)自研視頻大模型的Vidu；6月6日，快手可靈AI正式開放內(nèi)測(cè)......

AI視頻生成賽道在全球的高度關(guān)注下催生出一個(gè)又一個(gè)新技術(shù)成果，與此同時(shí)，國(guó)內(nèi)外類Sora創(chuàng)企們也開始活躍起來(lái)。僅僅在今年上半年，愛詩(shī)科技、生數(shù)科技、Pika等AI企業(yè)就完成了多輪億元級(jí)別的融資，成立于2018年的老牌AI視頻生成企業(yè)Runway也傳出新一輪的融資計(jì)劃。

海量資金加持下的AI視頻生成賽道必定會(huì)給我們帶來(lái)更多驚喜，不過(guò)在此之前，借著這個(gè)年中時(shí)刻，小雷帶大家來(lái)一起回顧下今年上半年的AI視頻大模型產(chǎn)品，看看各家大模型發(fā)布了哪些新產(chǎn)品，它們?cè)诋a(chǎn)品方向又有了什么新變化。

Sora持續(xù)隱身，

快手可靈AI火爆全網(wǎng)

1、Sora：引領(lǐng)視頻生成技術(shù)路線創(chuàng)新

說(shuō)實(shí)話，說(shuō)實(shí)話，將Sora置于產(chǎn)品隊(duì)列中討論并不合適，因?yàn)镾ora至今也沒有對(duì)公眾開放，只有業(yè)界和設(shè)計(jì)界的極少數(shù)人受邀使用。但考慮到Sora的出現(xiàn)推動(dòng)了AI視頻生成技術(shù)在全球范圍內(nèi)的邁進(jìn)，為了方便大家理解，小雷認(rèn)為還是有必要對(duì)其進(jìn)行回顧。

在OpenAI發(fā)布Sora模型之前，代表著行業(yè)領(lǐng)先水平的是Runway、Pika Labs，以及谷歌VideoPoet這一批老牌AI視頻生成玩家。它們沒有引起全球關(guān)注的最大原因是生成視頻的技術(shù)難度非常高。

圖源：Sora

制作視頻不僅需要依賴于先進(jìn)的算法和強(qiáng)大的計(jì)算能力，還必須解決包括一致性、連貫性、物理合理性以及邏輯合理性在內(nèi)的多種復(fù)雜問(wèn)題。這些因素共同確保了視頻內(nèi)容的流暢性、真實(shí)性和可信度。

Runway們?cè)缙谥饕蕾囉贕AN（生成式對(duì)抗網(wǎng)絡(luò)）和VAE（變分自編碼器）兩種模型進(jìn)行視頻生成，之后演變出兩種技術(shù)路線，分別是擴(kuò)散模型和Transformer模型，兩者各具優(yōu)劣，可以說(shuō)是各有千秋。

而根據(jù)OpenAI在發(fā)布Sora當(dāng)天給出的技術(shù)解釋，Sora正是擴(kuò)散模型和Transformer模型的結(jié)合。雖然在Sora發(fā)布之前，結(jié)合方案已成為業(yè)內(nèi)普遍嘗試的方向，但OpenAI作為首個(gè)發(fā)布Demo的企業(yè)，已經(jīng)在AI視頻生成領(lǐng)域確立了行業(yè)地位。

按照目前情況來(lái)看，OpenAI絲毫沒有公開Sora的意思。在競(jìng)爭(zhēng)日益加劇的AI視頻生成領(lǐng)域，Sora的持續(xù)隱身會(huì)給其他競(jìng)爭(zhēng)對(duì)手帶來(lái)追趕甚至超越的機(jī)會(huì)。

2、快手可靈AI：國(guó)產(chǎn)AI國(guó)外爆火，高頻更新值得期待

在2024年世界人工智能大會(huì)（WAIC）上，快手高級(jí)副總裁于越介紹了可靈AI的部分產(chǎn)品更新以及最新數(shù)據(jù)。作為一款剛剛發(fā)布一個(gè)月的產(chǎn)品，可靈AI的更新可謂是相當(dāng)頻繁。產(chǎn)品從內(nèi)測(cè)時(shí)的App端，擴(kuò)展到了Web端；功能也從文生視頻，陸續(xù)更新了圖生視頻、視頻續(xù)寫、多尺寸選擇、高畫質(zhì)版、首尾幀控制、鏡頭控制等新功能。

據(jù)快手披露的數(shù)據(jù)顯示，可靈大模型上線一個(gè)月以來(lái)，累計(jì)申請(qǐng)用戶數(shù)50萬(wàn)+，開通用戶數(shù)30萬(wàn)+，生成視頻數(shù)700萬(wàn)。同時(shí)，可靈AI憑借大幅度運(yùn)動(dòng)的合理性和物理世界特性的高度模擬能力在國(guó)內(nèi)外社交媒體和技術(shù)社區(qū)受到廣泛討論。

圖源：可靈AI生成

不少海外科技愛好者、專業(yè)從業(yè)者體驗(yàn)后紛紛表達(dá)了對(duì)中國(guó)AI的看好。美國(guó)著名創(chuàng)業(yè)投資公司Y Combinator CEO在海外社交媒體平臺(tái)轉(zhuǎn)發(fā)并稱贊了可靈生成的Demo；英國(guó)開源人工智能公司Stability AI前CEO Emad Mostaque則表示：“中國(guó)的AI技術(shù)有自己的優(yōu)勢(shì)?！?/span>

自從OpenAI發(fā)布ChatGPT開始，大眾普遍認(rèn)為OpenAI代表著AIGC領(lǐng)域的領(lǐng)先水平。哪怕Sora遲遲未上線，類似的觀點(diǎn)也沒有太大改變。但作為內(nèi)測(cè)體驗(yàn)過(guò)可靈AI的親歷者，小雷可以明確表示可靈AI無(wú)論是生成時(shí)長(zhǎng)、效率，還是視頻質(zhì)量，都是目前AI視頻生成產(chǎn)品的第一梯隊(duì)，尤其是真實(shí)風(fēng)格場(chǎng)景上的表現(xiàn)令人印象深刻，許多AIGC視頻如果不細(xì)看，甚至無(wú)法發(fā)現(xiàn)是AI生成。

在Sora未正式發(fā)布前，外界很難判斷孰優(yōu)孰劣，但快手可靈AI的出現(xiàn)讓我們看到了在AI視頻生成領(lǐng)域超越的可能。此外，快手方面還宣布其首部AIGC短劇《山?！穼⒃诒驹律嫌?，期待可靈AI給我們帶來(lái)新的驚喜。

3、字節(jié)即夢(mèng)AI：進(jìn)步明顯，AIGC短劇帶來(lái)行業(yè)新機(jī)遇

同樣試水AIGC短劇的還有即夢(mèng)AI。在今年的上海國(guó)際電影節(jié)上，抖音聯(lián)合博納影業(yè)出品制作的AIGC科幻短劇集《三星堆：未來(lái)啟示錄》正式亮相。

純AI制作是該劇的最大亮點(diǎn)，借助包括AIGC劇本創(chuàng)作、概念及分鏡設(shè)計(jì)、圖像到視頻轉(zhuǎn)換、視頻編輯和媒體內(nèi)容增強(qiáng)等十種AIGC技術(shù)，或?qū)⒔怄i傳統(tǒng)影視公司與AIGC技術(shù)產(chǎn)品合作、發(fā)展的新路徑。

圖源：即夢(mèng)AI生成

即夢(mèng)AI是字節(jié)旗下的一站式AIGC內(nèi)容專業(yè)創(chuàng)作平臺(tái)，支持文生視頻和圖生視頻，提供智能畫布、故事創(chuàng)作模式、以及首尾幀、對(duì)口型、運(yùn)鏡控制、速度控制等AI編輯功能。

今年5月，剪映Dreamina正式更名為即夢(mèng)AI，小雷也在第一時(shí)間進(jìn)行了體驗(yàn)。相比于成熟的AI作圖，即夢(mèng)AI當(dāng)時(shí)的AI視頻水平是有些讓人失望的，文生視頻的自然語(yǔ)言理解能力沒有問(wèn)題，但視頻質(zhì)量確實(shí)有待提高，特別是真實(shí)物理特性方面，即夢(mèng)還需要繼續(xù)努力。

而圖生視頻由于給AI框定了方向，省去了想象組合步驟，視頻質(zhì)量要比文生視頻好得多，但視頻主體大幅運(yùn)動(dòng)的情況下，還是會(huì)出現(xiàn)閃現(xiàn)、扭曲的問(wèn)題。

當(dāng)然小雷體驗(yàn)的只不過(guò)是即夢(mèng)AI的最初版本，經(jīng)過(guò)一段時(shí)間的發(fā)展，即夢(mèng)AI已經(jīng)達(dá)到能生成AIGC短劇的水平，進(jìn)步之大讓人驚喜。小雷期待已久的故事創(chuàng)作模式相信不久就會(huì)正式對(duì)外開放，屆時(shí)或許普通用戶也能創(chuàng)作自己的AIGC連續(xù)劇。

4、Runway：Gen-3重磅更新，演示效果不輸Sora

作為老牌AI視頻生成廠商，Runway的視頻生成模型Gen-1和Gen-2在初期收獲了不少好評(píng)，隨著競(jìng)爭(zhēng)對(duì)手陸續(xù)推出搭載最新視頻生成模型產(chǎn)品，Runway因?yàn)槟Ｐ吐浜?，在很長(zhǎng)一段時(shí)間內(nèi)飽受爭(zhēng)議。

今年6月，Runway連夜發(fā)布了基于最新視頻生成模型Gen-3生成的各種演示視頻，電影級(jí)的畫面細(xì)節(jié)直接震驚了全體網(wǎng)友。7月2日，Runway宣布Gen-3向所有用戶開放使用，小雷原本也想嘗試一番，但每月12美元的會(huì)員費(fèi)把我勸退了，因此我也只能從演示視頻畫面來(lái)分析一二。

官方展示視頻時(shí)長(zhǎng)為10秒，人物生成中的人物面部細(xì)節(jié)和情感營(yíng)造方面比較細(xì)膩，場(chǎng)景、風(fēng)景生成中的元素、光影沒有太大的違和感。比如這個(gè)視頻，女子乘坐車輛穿過(guò)明暗交替的街道，外部光源照射在面部的變化十分自然，車外穿梭的車輛也沒有出現(xiàn)斷層等違和場(chǎng)景。

圖源：Runway生成

官方公布視頻的效果稱得上是驚艷。雖然不知道正式使用的效果如何，但就目前來(lái)說(shuō)，個(gè)人認(rèn)為不輸Sora。

5、Dream Machine：視頻質(zhì)量波動(dòng)大，使用成本高

6 月 12 日，初創(chuàng)公司 Luma AI 發(fā)布了新的 AI 視頻生成模型 Dream Machine（造夢(mèng)機(jī)器），并且面向公眾開放測(cè)試。很快，不僅官方放出的一系列樣片，社交網(wǎng)絡(luò)上還出現(xiàn)了一大堆由網(wǎng)友通過(guò)“造夢(mèng)機(jī)器”生成的視頻。

坦率地講，“造夢(mèng)機(jī)器”官方視頻給小雷的第一印象還是挺驚艷的，除了人物主體和背景的一致性，最讓人驚訝的可能是光照的變化，包括亮度的變化也符合基本的物理規(guī)律。

但在實(shí)際網(wǎng)友創(chuàng)作和分享的內(nèi)容中，即便是在那些相當(dāng)驚艷的少數(shù)作品中，你也能看到或多或少的錯(cuò)誤。小雷也試著用“造夢(mèng)機(jī)器”創(chuàng)作了一段視頻，實(shí)際效果還是比較糟糕的：人物詭異的倒退，在背后拿著傘的怪異舉動(dòng)，還有飛起來(lái)的雨傘。

圖源：Luma AI生成

“造夢(mèng)機(jī)器”每月為普通用戶提供30次免費(fèi)生成機(jī)會(huì)，除了免費(fèi)用戶，“造夢(mèng)機(jī)器”還提供三檔付費(fèi)選項(xiàng)，包括29.99美元的標(biāo)準(zhǔn)檔、99.99美元的專業(yè)檔以及499.99美元的高級(jí)檔，區(qū)別是每個(gè)月可以生成視頻的次數(shù)。

對(duì)于普通用戶來(lái)說(shuō)，這些定價(jià)比Runway的12美元還離譜，或許官方目標(biāo)群體是那些通過(guò)“造夢(mèng)機(jī)器”創(chuàng)作視頻在TikTok上賺錢的創(chuàng)作者吧。

更長(zhǎng)、更真實(shí)、更多元，

AI視頻不斷進(jìn)化

首先，今年AI視頻最大的突破之一，就是生成視頻長(zhǎng)度的延長(zhǎng)。要注意的是，小雷指的是模型極限區(qū)域的時(shí)長(zhǎng)，而不是消費(fèi)端時(shí)長(zhǎng)。之前Runway和Pika都只能生成出3-4秒的視頻，對(duì)于行業(yè)和用戶來(lái)說(shuō)，實(shí)在是太短了，根本無(wú)法滿足長(zhǎng)素材的需求。

小雷梳理了已對(duì)外公布的大模型視頻生成時(shí)長(zhǎng)，其中Sora為60秒，Vidu為32秒。快手就厲害了，它提供的視頻續(xù)寫功能支持連續(xù)多次續(xù)寫視頻內(nèi)容，在保證視頻一致性的前提下，最長(zhǎng)生成3分鐘視頻，在視頻時(shí)長(zhǎng)這塊，快手可以說(shuō)是遙遙領(lǐng)先。

其次，是視頻大模型產(chǎn)品輸入方式的多元化。用戶不再局限于文字輸入，而是可以選擇圖像、視頻作為輸入，模型會(huì)根據(jù)用戶的輸入來(lái)生成視頻。比如，用戶可以上傳一張靜態(tài)圖，而視頻大模型則會(huì)根據(jù)圖片制作視頻。

最后，是人們對(duì)AI視頻最大的期待：足夠真實(shí)。上文有提到，生成視頻的技術(shù)難度遠(yuǎn)比生成圖片高。此前，AI生成視頻有兩個(gè)硬傷。一是如何讓生成視頻符合物理規(guī)律，通常出現(xiàn)在人與人、或者人與物體之間進(jìn)行復(fù)雜交互時(shí)；二是時(shí)間的連貫性，也就是讓AI記住視頻中的人和物體，即使被暫時(shí)擋住或移出畫面，之后再出現(xiàn)的時(shí)候也能按照物理邏輯地讓視頻保持連貫性。

這兩點(diǎn)在今年得到了很好的改善，比如這個(gè)快手可靈AI生成的視頻，當(dāng)餃子進(jìn)入小孩嘴里，部分餃子被完全遮擋，當(dāng)再出現(xiàn)餃子時(shí)，吃餃子留下的咬痕和被咬后的餃子形態(tài)也能保持自然地繼續(xù)運(yùn)動(dòng)，保持了時(shí)間和物體的連貫性。

圖源：可靈AI生成

這意味著視頻生成模型已經(jīng)初步具備了“理解”世界的能力，理解物體運(yùn)動(dòng)過(guò)程中的物理世界，也能預(yù)測(cè)視頻下一步可能發(fā)生什么。

下半年，

AI視頻生成領(lǐng)域會(huì)有什么新驚喜？

以目前的發(fā)展趨勢(shì)來(lái)看，今年下半年，還會(huì)有更多企業(yè)加入到AI視頻生成的技術(shù)競(jìng)賽中。畢竟，過(guò)去的半年里，有不少資本熱錢涌進(jìn)了行業(yè)，新老玩家們都忙著猛推產(chǎn)品落地。

在2024世界人工智能大會(huì)（WAIC）上，新壹科技展示基于了新壹視頻大模型的系列產(chǎn)品及應(yīng)用場(chǎng)景解決方案，并正式發(fā)布了新壹視頻大模型2.0版本。目前，新壹科技已在文旅、金融保險(xiǎn)、媒體、營(yíng)銷、出版、政務(wù)、教育、汽車、醫(yī)療等眾多場(chǎng)景打造了落地方案，大幅提高了各垂直領(lǐng)域的創(chuàng)造力和生產(chǎn)力。

圖源：新壹科技

這其實(shí)也是下半年的一大趨勢(shì)，AI視頻生成賽道也將從卷模型，升級(jí)為卷落地。下半年，我們有望看到更多基于視頻生成大模型的AIGC落地應(yīng)用，這也就意味著我們會(huì)在更多場(chǎng)景看到AIGC內(nèi)容。

正如前面所說(shuō)的，AI視頻的使用場(chǎng)景如今在不斷被拓展，在AIGC短劇之外增加了大量新場(chǎng)景。而隨著無(wú)線網(wǎng)絡(luò)、AI大模型等技術(shù)的不斷發(fā)展，AI視頻運(yùn)用的場(chǎng)景和功能也會(huì)逐漸變化。很可能，未來(lái)我們看到的廣告、短視頻、影視等內(nèi)容都將由AIGC生成，需要用到真人拍攝的機(jī)會(huì)將越來(lái)越少。

AI視頻還有更大的潛力，等待被挖掘。

End

本站僅提供存儲(chǔ)服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊舉報(bào)。

中文字幕理论片,69视频免费在线观看,亚洲成人app,国产1级毛片,刘涛最大尺度戏视频,欧美亚洲美女视频,2021韩国美女仙女屋vip视频