本文來自微信公眾號:投中網(wǎng) (ID:China-Venture),作者:劉燕秋、蒲凡
仿佛夢回2023。去年年初,ChatGPT引發(fā)了普通人澎湃的討論熱情,此后海內(nèi)外在AI大模型投資上展開了軍備競賽。
龍年剛一開年,OpenAI又打開了新局面。這次火的是文生視頻。2月16日凌晨,OpenAI發(fā)布了文生視頻大模型Sora。Sora能夠根據(jù)文本提示創(chuàng)建詳細的視頻、擴展現(xiàn)有視頻中的敘述以及從靜態(tài)圖像生成場景。
這類應(yīng)用早就有了,但Sora的呈現(xiàn)仍然驚艷,視頻中的主體穩(wěn)定可控,可實現(xiàn)多角度切換,時長方面也有突破,最長能生成60秒視頻。
不愧是OpenAI。盡管Sora仍處于開發(fā)早期階段,但它的推出已經(jīng)標(biāo)志著生成式AI迎來一個里程碑。
資本端同時傳來新消息。在完成最新交易后,OpenAI的估值已飆升至800億美元以上。這筆交易來自于Thrive Capital精心策劃的要約收購。
盡管OpenAI和Thrive Capital對此皆不予置評,但小紅書博主“Shannon”昨天發(fā)的帖子很有情緒的代表性,“明天所有fund開會的議題都有OpenAI的Sora”。
只不過,和去年相比,投資人的心態(tài)變了。不是人人都有機會投中OpenAI,但OpenAI的能力邊界卻實實在在影響著一批創(chuàng)業(yè)公司和背后的投資人。
一、“水到渠成”和“令人發(fā)指”
首先需要明確,“文生視頻大模型”并不是一條全新的賽道。在OpenAI登場之前,頭部大模型研發(fā)商幾乎都擁有自己的文生視頻大模型,例如Google的Lumiere以及Stability AI的SVD(Stable Video Diffusion),甚至已經(jīng)誕生了垂直于多媒體內(nèi)容創(chuàng)作大模型的獨角獸,例如視頻生成大模型Gen-2的開發(fā)商Runway,在2023年6月底完成由Google、Nvidia、Salesforce參與的C輪融資后,估值超過15億美元。
更重要的是,上述已有的“視頻大模型”,隱隱有了生產(chǎn)力工具的影子。
以Runway為例,與許多“拿著錘子找釘子”式的“技術(shù)驅(qū)動型”大模型創(chuàng)業(yè)團隊不同,Runway的三名創(chuàng)始人Valenzuela、Alejandro Matamala和Anastasis Germanidis來自于紐約大學(xué)藝術(shù)學(xué)院,他們共同看到了“人工智能在創(chuàng)造性方面的潛力”,于是決定共商大計,開發(fā)一套服務(wù)于電影制作人、攝影師的工具。
這層基因打底,相比科技公司的“車庫文化”,Runway的發(fā)展軌跡更像“橫店影視城奮斗史”:先開發(fā)了一系列細分到不能再細分的專業(yè)創(chuàng)作者輔助工具,針對性地滿足視頻幀插值、背景去除、模糊效果、運動追蹤、音頻整理等需求;隨后參與到圖像生成大模型Stable Diffusion的開發(fā)過程中,積累AIGC在靜態(tài)圖像生成方面的技能點,并獲得了參與《瞬息全宇宙》等大片制作的機會——這些影片在宣發(fā)中曾經(jīng)有過詳細描述,出品人們感嘆他們的加入讓后期團隊“保持了一個超乎常規(guī)的小規(guī)?!睜顟B(tài),影視同行們驚嘆許多復(fù)雜的特效制作(比如《瞬息全宇宙》里那兩塊對話的石頭),工期已經(jīng)從“好幾天”縮短到了“幾分鐘”。
等到2023年2月,Runway發(fā)布第一代產(chǎn)品Gen-1,普通用戶已經(jīng)能通過iOS設(shè)備進行免費體驗,范圍除了“真實圖像轉(zhuǎn)黏土”“真實圖像轉(zhuǎn)素描”這些濾鏡式的功能,還包含了“文本轉(zhuǎn)視頻”,從而使得Gen-1成為了首批投入商用的文生視頻大模型;2023年6月,他們發(fā)布了第二代產(chǎn)品Gen-2,訓(xùn)練量上升到了2.4億張圖像和640萬段視頻剪輯。
2023年8月,爆火B(yǎng)站、全網(wǎng)播放量超過千萬、獲得郭帆點贊的AIGC作品《流浪地球3預(yù)告片》正是基于Gen-2制作。根據(jù)作者@數(shù)字生命卡茲克 在個人社媒上的分享,整段視頻的制作大體分為兩部分——由MidJourney生成分鏡圖,由Gen-2擴散為4秒的視頻片段——最終獲得素材圖693張、備用剪輯片段185條,耗時5天。
半年之后,@數(shù)字生命卡茲克 再次通過“MJ V6畫分鏡-Runway跑視頻”制作了一段3分鐘的故事短片《The Last Goodbye》,投稿參賽Runway Studios(Runway專門為企業(yè)級客戶提供定制化服務(wù)的部門)所組織的第二屆AI電影節(jié)Gen48。
換句話說,實際上至少在一年以前,“文生視頻大模型”就已經(jīng)擁有足夠的關(guān)注度,其目前用戶規(guī)模也被遠遠低估。
Runway的聯(lián)合創(chuàng)始人Valenzuela在C輪融資后透露,除了像New Balance這樣的世界500強客戶,他們還擁有“數(shù)百萬個人創(chuàng)作者”。
除此而外,Sora所展現(xiàn)出來的“精準(zhǔn)的物理世界還原能力”,也并不是OpenAI獨自探索的AI領(lǐng)域。馬斯克就在Sora發(fā)布的兩天半后,也就是2月18日,在科技播客欄目“DrKnowItAll”里留言,“這種精準(zhǔn)還原現(xiàn)實世界物理規(guī)律的虛擬世界生成能力,特斯拉已經(jīng)差不多快掌握一年了……只不過因為素材來自車載攝像頭,所以視頻看上去沒那么有趣”。
OpenAI在同期發(fā)布的技術(shù)論文《Video generation models as world simulators》也明確Sora更像是“數(shù)據(jù)驅(qū)動的物理引擎”,通過大模型的持續(xù)擴散來“高性能地模擬物理世界或者數(shù)字世界中的人、動物、其他物體”,因此仍然擁有“同行們都會面臨”的局限性,例如“很難準(zhǔn)確模擬復(fù)雜場景的物理原理,并且無法理解因果關(guān)系,比如Sora生產(chǎn)一段人咬餅干的片段,餅干可能不會出現(xiàn)咬痕”。
真正帶來壓迫感的,或許是Sora不可思議的進化速度。
從技術(shù)層面看,無論是“擁有精準(zhǔn)物理規(guī)則的真實世界”“支持60秒視頻生成”還是“單視頻多機位”都可以被形容為水到渠成,然而正如上面所提到的——如今看起來傻傻的、只支持生成“4秒視頻生成”并且“掉幀明顯到像幻燈片”的Gen-2其實是2023年6月發(fā)布的產(chǎn)品,距離Sora的發(fā)布日不過8個月。
2023年11月,Meta發(fā)布的視頻生成大模型Emu Video看起來在Gen-2上更進一步,能夠支持512×512、每秒16幀的“精細化創(chuàng)作”,但3個月之后的Sora已經(jīng)能夠做到生成任意分辨率和長寬比的視頻,并且根據(jù)上面提到的開發(fā)者技術(shù)論文,Sora還能夠執(zhí)行一系列圖像和視頻編輯任務(wù),從創(chuàng)建循環(huán)視頻到即時向前或向后延伸視頻,再到更改現(xiàn)有視頻背景等。
而如果要死磕這種不可思議的進化速度,除了“神秘的外星文明”,最現(xiàn)實的解釋恐怕只有“海量燒錢”。
作為Runway半個領(lǐng)路人的Stability AI近兩年周期性地遭遇“現(xiàn)金流壓力”,一會兒傳聞高層正在積極探索出售公司,一會兒又流傳著早期投資者Coatue Management的內(nèi)部信,直指“Stability AI的財務(wù)狀況令人擔(dān)憂”,建議CEO Emad Mostaque原地辭職。最揪心的傳聞是,為了讓亞馬遜相信自己不會拖欠高達7500萬的云服務(wù)費用,身為前對沖基金經(jīng)理的Emad Mostaque選擇以個人財產(chǎn)作為擔(dān)保。
然而從融資的角度看,Stability AI做到了賽道的天花板,其在2022年10月完成超過1億美元的融資后,估值早早來到了獨角獸級別。Emad Mostaque在去年7月的一次采訪中忍不住直發(fā)狂暴言論,他說:“Bard AI只是因為在宣傳片中提供了不準(zhǔn)確的信息,就造成了每天超過1000億美元的損失……人工智能作為基礎(chǔ)設(shè)施所需的投資總額可能為1萬億美元,這會是人類有史以來最大的泡沫”。
知乎上,一位叫做“像素?zé)捊饚煛钡膭?chuàng)業(yè)者坦承了他在目睹Sora發(fā)布后的心路歷程:“我有些害怕科技巨頭的產(chǎn)品像隆隆火車一樣駛過,而我做的東西如同路邊的野草一樣,在這個技術(shù)進步就像跑馬燈一樣的時代里,留不下一絲痕跡?!?/p>
二、估值800億和領(lǐng)頭羊的邊界
無論怎樣,OpenAI再次印證了AI“巨無霸”的地位??此茻o遠弗屆的能力,支撐其估值在不到10個月的時間里增長了兩倍。CB Insights的數(shù)據(jù)顯示,OpenAI目前是世界上最有價值的科技初創(chuàng)企業(yè)之一,僅次于字節(jié)跳動和SpaceX。
拓展模型能力的同時,OpenAI還在推進多元化的戰(zhàn)略。尤其是在半導(dǎo)體領(lǐng)域,奧特曼正與潛在投資者、半導(dǎo)體制造商和能源供應(yīng)商等各種利益相關(guān)者接觸。他甚至在考慮成立一家獨立于OpenAI的新公司,進入AI芯片行業(yè)。
這筆交易也揭示了,奧特曼之于OpenAI,仍然是不可或缺的角色。原本在去年11月,OpenAI便將敲定最新的融資交易,但當(dāng)時奧特曼遭遇了解雇風(fēng)波。交易有沒有受到影響不知道,總之結(jié)果是,770名員工中的700多人最終簽署了請愿書,要求他復(fù)職。
細看這輪融資,不是發(fā)行新股,而是準(zhǔn)許OpenAI員工對外出售所持股份。這對于OpenAI來說并不新鮮。2023年,Thrive Capital、紅杉資本、Andreessen Horowitz和K2 Global等風(fēng)險投資巨頭也采取了類似的做法,參與OpenAI的要約收購,當(dāng)時該公司的估值已經(jīng)達到290億美元。
那么,OpenAI的邊界在哪里?
這個問題不僅事關(guān)OpenAI的估值,也關(guān)乎大大小小生成式AI創(chuàng)業(yè)公司的前景。
原本在視頻生成這個賽道上,海外已經(jīng)有幾家創(chuàng)業(yè)公司卡位。最知名的莫過于前文所述的Runway。另一個領(lǐng)頭羊是Pika,創(chuàng)立于去年4月,11月宣布完成了總計5500萬美金的A輪及天使輪融資,估值達2.5億美元。Pika由郭文景和孟晨琳共同創(chuàng)立,兩人都曾是斯坦福大學(xué)人工智能實驗室的博士生,履歷亮眼。郭文景還被譽為“華裔天才少女”。
OpenAI會沖擊這些公司嗎?別急,Sora 公開后,有海外博主已經(jīng)對幾家公司的產(chǎn)品做了對比。他給Sora、Pika、Runway和Stable Video四個模型輸入了相同的prompt。結(jié)論是,Sora在生成時長、連貫性等方面都有顯著的優(yōu)勢。
必須要說,這幾家做文生視頻的公司都開發(fā)了自己的大模型,而非純粹地基于別人的大模型來開發(fā)應(yīng)用場景的那類公司。但即使有技術(shù)護城河,要抵擋OpenAI的沖擊也沒那么容易。
當(dāng)然,這并不是說,純做應(yīng)用的公司完全沒有前途了,背后也許涉及到一個發(fā)展階段的問題。
去年,紅杉資本的兩位合伙人再次發(fā)表文章,復(fù)盤一年前自己對市場的看法。他們指出,其中一個預(yù)測錯誤是,垂直分離尚未發(fā)生。“我們?nèi)匀幌嘈艖?yīng)用層公司和基礎(chǔ)模型提供商之間會有分離,模型公司專注于規(guī)模和研究,應(yīng)用層公司專注于產(chǎn)品和UI。但在實際上,這種分離還沒有干凈利落地發(fā)生。最初面向用戶的應(yīng)用中,最成功的那些都是垂直整合的公司?!?/p>
三、國內(nèi)也是類似的局面
有投資人告訴我,他們關(guān)注的一家AIGC公司也在開發(fā)基于特定產(chǎn)業(yè)數(shù)據(jù)的獨有的模型,而不是僅僅調(diào)用別人的API?!安蝗缓茈y指望他們在應(yīng)用層面做出真正差異化的東西。”
回頭看,過去一年,OpenAI的每一次技術(shù)突破,都會拓展資本對它的想象空間,但同時也堵上一部分創(chuàng)業(yè)公司的前進之路。
“AGI去年已經(jīng)把軟件行業(yè)毒死了?,F(xiàn)在公眾只是在目睹毒發(fā)的過程?!?/strong>有創(chuàng)業(yè)者在轉(zhuǎn)發(fā)一則Sora的消息時,在朋友圈評論道。
所以,AI投資難,尤其是應(yīng)用層。“重點還是界定清楚,什么東西能在大模型的演進過程中受益,什么東西又在大模型演進過程中被瓦解?!币晃籄I投資人曾模糊地告訴我。但OpenAI的超能力使得這個關(guān)鍵問題沒那么容易預(yù)判。
再看大模型。《北京最火獨角獸翻6倍了》一文寫過,智譜AI去年一年的估值已經(jīng)翻了6倍多,已經(jīng)有投資人給出200億估值。我最近也聽說,百川智能和MiniMAX,最近都傳出新一輪融資已到位的消息。OpenAI出新招,這些公司不可能不焦慮。好在彈藥尚且充足。Sora的誕生,無疑又將引發(fā)新一輪追趕。
借著Sora火熱,AI的相關(guān)概念必將再炒一波,尤其是英偉達這類充當(dāng)賣水人,又可以大賺一筆了。但對于一級市場的創(chuàng)業(yè)者和投資人而言,我只能說,暫時,繼續(xù)卷罷。
本文來自微信公眾號:投中網(wǎng) (ID:China-Venture),作者:劉燕秋、蒲凡
聯(lián)系客服