文|智能Pro
科技圈當(dāng)下最火話題,非Sora莫屬。Sora的影響力也早已沖出硅谷、輻射全球,在大洋彼岸的中國掀起滔天巨浪。
在二級(jí)市場,Sora概念股連日走高,勢頭比起當(dāng)初的ChatGPT概念股有過之而無不及,比如2月20日,A股、港股Sora概念股板塊就有超過60只個(gè)股飄紅,其中5家企業(yè)股價(jià)暴漲40%以上。
在科技互聯(lián)網(wǎng)圈,爭奪中文版Sora首發(fā)權(quán),成為巨頭的新目標(biāo)。不過和當(dāng)初的中文版ChatGPT首發(fā)爭奪戰(zhàn)相比,中文版Sora的研發(fā)難度也更大,大廠們大多面露難色。此前被盛傳將推出首個(gè)中文版Sora的字節(jié)跳動(dòng),就在20日辟謠,稱相關(guān)產(chǎn)品的效果距離Sora還有很大差距。
在Sora橫空出世前,國內(nèi)“千模大戰(zhàn)”早已陷入膠著狀態(tài),未曾想,風(fēng)口突變,從圖文生成轉(zhuǎn)向視頻生成,“千模大戰(zhàn)”也將進(jìn)入全新階段。
在上一階段稍稍落后的字節(jié)跳動(dòng)在視頻業(yè)務(wù)上有先天優(yōu)勢,自然不會(huì)錯(cuò)過這個(gè)彎道超車的機(jī)會(huì),這不僅事關(guān)大廠的面子,更是為了捍衛(wèi)其核心業(yè)務(wù)——抖音CEO張楠突然辭職專攻剪映,也被視作是字節(jié)重視AIGC的動(dòng)作。
雖然沒有中文版Sora,但字節(jié)一直在死磕AI
在文本生成式大模型領(lǐng)域,字節(jié)的起步時(shí)間無疑是比百度、阿里巴巴等大廠要晚,這也讓字節(jié)的高層十分懊惱。CEO梁汝波就在內(nèi)部講話中直言,很難相信技術(shù)團(tuán)隊(duì)直到2023年才討論GPT,要知道業(yè)內(nèi)做得比較好的大模型企業(yè)都是在2018-2021年起步的。
好在,知恥而后勇,還有亡羊補(bǔ)牢的機(jī)會(huì)。
一開始,字節(jié)希望以量取勝,在去年下半年扎堆上線了十多款A(yù)I產(chǎn)品。
這當(dāng)中,既有大廠標(biāo)配的基礎(chǔ)大模型“云雀”,也有在C端最流行的AI對(duì)話類應(yīng)用,如“豆包”、“話爐”和“抖音小晴”,還有輔助創(chuàng)作的AI工具,如劇情創(chuàng)作平臺(tái)“BagelBell”、電商內(nèi)容創(chuàng)作應(yīng)用“即創(chuàng)”等。由字節(jié)技術(shù)副總裁洪定坤率領(lǐng)的新部門Flow,則在背后為這一系列AI產(chǎn)品保駕護(hù)航。
(圖片來自豆包官網(wǎng))
據(jù)悉,字節(jié)還在內(nèi)部開放了大量活水崗位,希望調(diào)集全公司最優(yōu)秀的技術(shù)、產(chǎn)品人才集中精力搞AI。除了前面提到的洪定坤外,原飛書產(chǎn)品副總裁齊俊元、抖音社交負(fù)責(zé)人陸游、字節(jié)跳動(dòng)產(chǎn)品與戰(zhàn)略副總裁朱駿等高管也先后馳援。甚至在國外,字節(jié)跳動(dòng)也組織了50多人的研發(fā)團(tuán)隊(duì),負(fù)責(zé)推進(jìn)“Cici”項(xiàng)目。
然而,字節(jié)在文本生成大模型這條賽道確實(shí)是落后了,即便后期不斷加大投入,恐怕也很難抹平差距。明白這個(gè)道理后,再結(jié)合自身的業(yè)務(wù)狀況,字節(jié)開始發(fā)力圖像、視頻生成領(lǐng)域,試圖確立差異化優(yōu)勢。而在春節(jié)前后,內(nèi)部的一系列人事變動(dòng)、團(tuán)隊(duì)重組,則是其為視頻生成大模型奮力一搏的最佳證明。
2月9日,張楠宣布辭去抖音集團(tuán)CEO一職,原因是要把精力集中到剪映的發(fā)展上。眾所周知,張楠是字節(jié)內(nèi)部最有權(quán)勢的高管之一,很多人將其視為僅次于集團(tuán)CEO梁汝波的二把手。其掌管的抖音集團(tuán),則是字節(jié)最重要的業(yè)務(wù),此次自降身份掌管剪映,在內(nèi)部、外界都引發(fā)了不少爭議。
如今再看,作為一款視頻剪輯及輔助創(chuàng)作工具,剪映是字節(jié)業(yè)務(wù)版圖里和視頻生成大模型契合度最高的一環(huán),是承載AI視頻創(chuàng)作業(yè)務(wù)的最佳抓手。像張楠這種級(jí)別的核心高管主動(dòng)接管剪映,恰好說明字節(jié)對(duì)該項(xiàng)目的重視。
有消息指出,張楠去年已經(jīng)把大部分精力花在剪映身上,抖音的各項(xiàng)業(yè)務(wù)分別交給韓尚佑(抖音集團(tuán)新任CEO)、魏雯雯(抖音電商總裁)、蒲燕子(抖音本地生活負(fù)責(zé)人)等高管接手。
去年11月,剪映就悄悄內(nèi)測了一項(xiàng)名為“Dreamina”的AI輔助工具,用戶只需要輸入文字,即可生成創(chuàng)意圖像。算上研發(fā)周期,該項(xiàng)目的立項(xiàng)至少在去年二季度前。如果上述消息屬實(shí),張楠帶領(lǐng)的團(tuán)隊(duì)?wèi)?yīng)該在更早的時(shí)候就接手了字節(jié)的AI產(chǎn)品研發(fā)工作。
張楠正式官宣辭任集團(tuán)CEO之后,也有消息稱其帶領(lǐng)的團(tuán)隊(duì)將推出一個(gè)全新的AI視頻生成軟件。如今,這款備受期待的產(chǎn)品——“Boximator”,終于浮出水面,這也是字節(jié)沖擊中文版Sora的王牌。
Sora攪動(dòng)一池春水,大模型改造短視頻行業(yè)
據(jù)悉,字節(jié)內(nèi)部對(duì)“Boximator”的定位為創(chuàng)新性視頻生成大模型,將通過控制對(duì)象運(yùn)動(dòng)的方式,精確控制視頻人物、物體的運(yùn)動(dòng)。該模型采集的訓(xùn)練數(shù)據(jù)來自webVid-10M數(shù)據(jù)集,并在PixelDance和ModelScope兩個(gè)視頻生成模型中進(jìn)行訓(xùn)練。
然而,正如字節(jié)日前的回應(yīng)那般,視頻生成大模型的研發(fā)難度比想象中更大。根據(jù)字節(jié)方面的說法,“Boximator” 保真率、畫面質(zhì)量、視頻時(shí)長等方面距離Sora還有很大差距,暫時(shí)不具備落地的條件,預(yù)計(jì)還要2-3個(gè)月才能開放測試。
但2-3個(gè)月,可以發(fā)生很多事情——Sora可能已經(jīng)迭代到更先進(jìn)的版本,和尚未落地的競品拉開更大差距;其他競爭對(duì)手也可能迎頭趕上,搶在字節(jié)之前推出同類產(chǎn)品。
對(duì)于這些可能性,字節(jié)跳動(dòng)心里肯定有數(shù),而且比誰都著急。原因很簡單:比起文本生成大模型,視頻生成大模型和字節(jié)跳動(dòng)的短視頻、直播等核心業(yè)務(wù)關(guān)聯(lián)更緊密,影響也更大。
如果說搜索是第一個(gè)被ChatGPT顛覆的行業(yè),那么長/短視頻肯定是最有可能被Sora顛覆的行業(yè)。正如當(dāng)初谷歌、百度、360等巨頭傾力投入文本生成大模型研發(fā)那樣,字節(jié)在視頻生成大模型這一戰(zhàn)中也不容有失。因?yàn)殡S著視頻生成大模型在日后逐漸普及,短視頻內(nèi)容生產(chǎn)、營銷、變現(xiàn)等一系列邏輯都可能發(fā)生變化。
以內(nèi)容生產(chǎn)為例,制作方對(duì)真人演員、編劇、剪輯人員的需求很有可能會(huì)減少,傳統(tǒng)的制作流程也會(huì)被大幅簡化、制作時(shí)長將被壓縮。這帶來的直接后果,不止是生產(chǎn)內(nèi)容數(shù)量呈幾何級(jí)增長、成本明顯減少,也必將導(dǎo)致更殘酷的競爭,加速優(yōu)勝劣汰。
在Sora走紅之后,有關(guān)剪映會(huì)不會(huì)被取代的問題已經(jīng)迅速成為焦點(diǎn)話題。留給剪映的路只要一條,那就是主動(dòng)擁抱AI,向Sora看齊。要是能成功抱上AI這條大腿,剪映的用戶體量可以再上一個(gè)臺(tái)階,商業(yè)化潛力也將大大提升。
舉個(gè)最簡單的例子,現(xiàn)在的剪映只提供基礎(chǔ)服務(wù),收費(fèi)模式很難推廣。但如果能像Sora那樣,提高內(nèi)容創(chuàng)作者的效率、降低成本,收費(fèi)也就更有底氣。Stability AI、Runway等獨(dú)角獸的估值大幅飆升,就證明了這條路線的可行性。
當(dāng)然,因Sora而焦慮的大廠絕不止字節(jié)跳動(dòng)一家。短視頻行業(yè)的另一個(gè)巨頭快手,還有愛奇藝、騰訊視頻、優(yōu)酷、嗶哩嗶哩為首的流媒體平臺(tái),也必須啃下視頻生成大模型這塊硬骨頭。
可能是Sora的沖擊太大,還需要時(shí)間消化,也可能是吸取之前的教訓(xùn),先埋頭干實(shí)事不著急到臺(tái)前造勢,上述大廠大多尚未表態(tài)是否及何時(shí)推出類Sora應(yīng)用。截止發(fā)稿時(shí),只有芒果超媒表態(tài)將探索文生視頻等AI技術(shù)在傳媒領(lǐng)域的落地。但明眼人都看得出,這些大廠沒有一個(gè)會(huì)缺席這場全新的“千模大戰(zhàn)”。
有危機(jī)感,就會(huì)有動(dòng)力。大廠們集體沖刺,到底誰能率先撞線?
沖刺中文版Sora,哪家中國大廠先撞線?
要猜測誰能率先研發(fā)出中文版Sora,或者說類Sora視頻生成大模型,得先看一下這類產(chǎn)品的研發(fā)難點(diǎn)。
從openAI公布的報(bào)告來看,Sora并沒有應(yīng)用什么全新研發(fā)成果,核心技術(shù)都是早已公開的。這當(dāng)中,視頻壓縮網(wǎng)絡(luò)、擴(kuò)散模型、視覺補(bǔ)?。愃朴诒疚纳纱竽P偷奈谋緲?biāo)記)、圖像及視頻編輯是最關(guān)鍵的幾個(gè)環(huán)節(jié)。本質(zhì)上講,Sora仍是一個(gè)基于Transformer架構(gòu)的擴(kuò)散模型,和ChatGPT有很多相似之處。
當(dāng)中的技術(shù)原理和繁瑣的訓(xùn)練流程,這里不再一一展開。可以確定的是,大廠們都具備開發(fā)中文版Sora的基礎(chǔ),起跑線不會(huì)有太大差距。除了考驗(yàn)財(cái)力之外,和之前的中文版ChatGPT之爭一樣,數(shù)據(jù)樣本、算力、測試條件,將很大程度上左右最終賽果。
這當(dāng)中,數(shù)據(jù)樣本關(guān)系著大模型的效果,訓(xùn)練數(shù)據(jù)越豐富、越完整,視頻大模型就能越接近物理世界的真實(shí)情況。算力則是訓(xùn)練效率的決定性因素,是跑贏競爭對(duì)手的關(guān)鍵。測試環(huán)節(jié)更多是決定了產(chǎn)品落地效果,以及穩(wěn)定性。
硅谷巨頭的選擇出奇一致,都在拼算力。openAI CEO阿爾特曼表示,計(jì)劃籌集8萬億美元投資AI芯片,徹底解決AI大模型訓(xùn)練的算力問題。微軟、Meta、谷歌等大廠在瘋狂囤積英偉達(dá)H100的同時(shí),還在抓緊時(shí)間自研芯片。這些原本為文本生成大模型準(zhǔn)備的殺招,現(xiàn)在能完美應(yīng)用到視頻大模型身上。
國信證券在最新一份研報(bào)中指出,相較于ChatGPT等文本生成類大模型,Sora訓(xùn)練數(shù)據(jù)量明顯高出一個(gè)級(jí)別,對(duì)算力的要求自然也更苛刻了。根據(jù)該研報(bào)援引的數(shù)據(jù),以全球最大視頻分享網(wǎng)站YouTube為數(shù)據(jù)源,一年的增量視頻大約為157.68億秒,即便是采用英偉達(dá)最先進(jìn)的H100,單次訓(xùn)練也需要一個(gè)月,GPU消耗量為156.98萬張。
眾所周知,H100長期處于供不應(yīng)求狀態(tài)。加上不可抗力影響,國內(nèi)的大廠們?cè)谒懔@一塊大概率會(huì)落后于硅谷巨頭,唯有在其他環(huán)節(jié)努力縮短差距。相較之下,字節(jié)在訓(xùn)練數(shù)據(jù)源這一塊就比其他大廠更有優(yōu)勢。
要知道,Sora對(duì)比其早前的PixelDance、Stable Video Diffusion等未成形視頻大模型有顯著提升,數(shù)據(jù)量是很關(guān)鍵的一點(diǎn)。抖音和TikTok是國內(nèi)和海外市場用戶、創(chuàng)作者規(guī)模最大的短視頻應(yīng)用,擁有最多的短視頻內(nèi)容,可用于訓(xùn)練大模型。更不用說,字節(jié)旗下還有今日頭條、西瓜視頻等內(nèi)容庫,完全不愁數(shù)據(jù)源。不過其他大廠也不會(huì)落后太多,而且肯定會(huì)想方設(shè)法抹平差距。
這幾天的觀察下來,和當(dāng)初同樣出道即紅遍全球的ChatGPT不同,業(yè)界人士對(duì)Sora的態(tài)度除了贊嘆、敬佩,還帶著更深的恐懼。這不僅是因?yàn)镾ora的視覺沖擊力比ChatGPT更強(qiáng),還因?yàn)榍罢邔?duì)相應(yīng)產(chǎn)業(yè)的改變路徑是相當(dāng)清晰的——這也決定了大廠會(huì)傾注更多的資源,務(wù)求盡快打贏這場硬仗。
總而言之,“千模大戰(zhàn)”已經(jīng)進(jìn)入新的階段。假以時(shí)日,我們肯定能看到很多中文版Sora。只不過對(duì)大廠來說,既然不可能成為“唯一”,就只有爭下“第一”才有意義。
聯(lián)系客服