OpenAI Sora文生視頻(圖像看作單幀視頻)一放出就炸翻整個(gè)AI 圈,也是ChatGPT掀起GenAI熱潮時(shí)隔一年后,OpenAI再次史詩(shī)級(jí)的更新。OpenAI 隨后公布的技術(shù)綜述[文獻(xiàn)1],難掩其勃勃雄心:視頻生成模型作為世界模擬器。
筆者春節(jié)前原計(jì)劃整理一下對(duì)Google Lumiere 文生視頻的認(rèn)知,多個(gè)因素遺憾推遲。對(duì)比看兩者大的技術(shù)方向均選擇了擴(kuò)散模型,卻也有許多關(guān)鍵細(xì)節(jié)不同。恰好可以借著 OpenAI 技術(shù)綜述來(lái)提綱挈領(lǐng),一起梳理一下,為什么筆者覺(jué)得這是又一史詩(shī)級(jí)的更新。
一、Spacetime Latent Patches 潛變量時(shí)空碎片, 建構(gòu)視覺(jué)語(yǔ)言系統(tǒng)
在“ChatGPT是第一個(gè)真正意義的人工通用智能”中,筆者總結(jié)過(guò)大語(yǔ)言模型借助Embedding將人類的語(yǔ)言 “編碼”成自己的語(yǔ)言,然后通過(guò)注意力Attention從中提取各種豐富的知識(shí)和結(jié)構(gòu),加權(quán)積累與關(guān)聯(lián)生成自己的語(yǔ)言,然后“編碼”回人類的語(yǔ)言。
與ChatGPT首先引入Token Embedding 思路一致,針對(duì)視覺(jué)數(shù)據(jù)的建模方法則作為構(gòu)建Sora最重要的第一步。碎片Patch已經(jīng)被證明是一個(gè)有效的視覺(jué)數(shù)據(jù)表征模型,且高度可擴(kuò)展表征不同類型的視頻和圖像。將視頻壓縮到一個(gè)低維的潛變量空間,然后將其拆解為時(shí)空碎片Spacetime Latent Patches。筆者覺(jué)得時(shí)空碎片是時(shí)空建模的關(guān)鍵,統(tǒng)一了時(shí)空分割的'語(yǔ)言'。
有了時(shí)空碎片這一統(tǒng)一的語(yǔ)言,Sora 自然解鎖了多種技能:1. 自然語(yǔ)言理解,采用DALLE3 生成視頻文本描述,用GPT豐富文本prompts ,作為合成數(shù)據(jù)訓(xùn)練Sora, 架起了GPT 與 Sora語(yǔ)言空間的更精確關(guān)聯(lián),等于在Token與Patch 之間統(tǒng)一了“文字”;2. 圖像視頻作為prompts,用戶提供的圖像或視頻可以自然的編碼為時(shí)空碎片Patch,用于各種圖像和視頻編輯任務(wù) -- 靜態(tài)圖動(dòng)畫、擴(kuò)展生成視頻、視頻連接或編輯等。
二、擴(kuò)散模型與Diffusion Transformer,組合成強(qiáng)大的信息提取器
OpenAI 講Sora 是一個(gè)Diffusion Transformer,這來(lái)自伯克利學(xué)者的工作Diffusion Transformer (DiT):'采用Transformer的可擴(kuò)展擴(kuò)散模型 Scalable diffusion models with transformers'[文獻(xiàn)2],整體架構(gòu)如下:
Diffusion Transformer (DiT)架構(gòu)。左:我們訓(xùn)練調(diào)節(jié)的潛DiT模型。輸入潛變量被分解成幾個(gè)patch并由幾個(gè)DiT塊處理。右:DiT塊的細(xì)節(jié)。我們對(duì)標(biāo)準(zhǔn)Transformer的變體進(jìn)行了實(shí)驗(yàn),這些變體通過(guò)自適應(yīng)層歸一化、交叉注意力和額外的輸入token做調(diào)節(jié)。自適應(yīng)層歸一化效果最好。
擴(kuò)散模型的工作原理是通過(guò)連續(xù)添加高斯噪聲來(lái)破壞訓(xùn)練數(shù)據(jù),然后通過(guò)逆轉(zhuǎn)這個(gè)加噪過(guò)程來(lái)學(xué)習(xí)恢復(fù)數(shù)據(jù)。訓(xùn)練后可以使用擴(kuò)散模型來(lái)生成數(shù)據(jù),只需通過(guò)學(xué)習(xí)到的去噪過(guò)程來(lái)傳遞隨機(jī)采樣的噪聲。擴(kuò)散模型是一種潛變量模型,逐漸向數(shù)據(jù)添加噪聲,以獲得近似的后驗(yàn)q(x1:T|x0),其中x1,...,xT是與x0具有相同維度的潛變量。
從信息熵的角度可以這樣理解:結(jié)構(gòu)化信息信息熵低,多輪加高斯噪音,提高其信息熵,逐步掩蓋原來(lái)的結(jié)構(gòu)信息。本就無(wú)序的非結(jié)構(gòu)化部分,信息熵很高,添加少量高斯噪音,甚至不用添加高斯噪音,已然很無(wú)序。
在此視角下,學(xué)習(xí)到的內(nèi)容其實(shí)是原來(lái)結(jié)構(gòu)化信息(如圖像)的“底片”。類似化學(xué)上的酸堿中和,本來(lái)很酸的地方,得放更多的堿,現(xiàn)在我們學(xué)到了放堿的分布和節(jié)奏,反過(guò)來(lái),剔除堿的分布,酸的分布就被還原了。
基礎(chǔ)的擴(kuò)散模型,過(guò)程中不降維、無(wú)壓縮,還原度比較高。學(xué)習(xí)過(guò)程中的概率分布作為潛變量參數(shù)化,訓(xùn)練獲取其近似分布,用KL散度計(jì)算概率分布之間的距離[文獻(xiàn)3]。Diffusion Transformer (DiT) 因?yàn)橐隩ransformer 做多層多頭注意力和歸一化,因而引入了降維和壓縮,diffusion方式下的底片信息提取過(guò)程,原理與LLM的重整化無(wú)異。
三、DiT應(yīng)用于潛變量時(shí)空碎片,學(xué)習(xí)獲得海量視頻中時(shí)空碎片的動(dòng)態(tài)關(guān)聯(lián)
與“LLM在其高維語(yǔ)言空間中通過(guò)Transformer提取人類語(yǔ)言中無(wú)數(shù)的結(jié)構(gòu)與關(guān)聯(lián)信息”類似,Sora是個(gè)基于擴(kuò)散模型的Transformer,被用于從高維的時(shí)空碎片張成的空間中,觀察并提取豐富的時(shí)空碎片之間的關(guān)聯(lián)與演化的動(dòng)態(tài)過(guò)程。如果把前者對(duì)應(yīng)人類讀書,后者就是人類的視覺(jué)觀察。
遺憾的是OpenAI的技術(shù)綜述沒(méi)有提供技術(shù)細(xì)節(jié),不過(guò)筆者覺(jué)得大家可以參照Google Lumiere的技術(shù)原理來(lái)大膽推演一下。視頻其實(shí)是記錄了時(shí)空信息的載體: 時(shí)空碎片patch可以看作是三維空間的點(diǎn)集(x,y,z)的運(yùn)動(dòng)(t)或者說(shuō)其實(shí)是個(gè)四維時(shí)空模型(x,y,z,t)。Sora和Lumiere之類的生成模型的第一步都是如何從中提取出相應(yīng)的關(guān)鍵信息。
Lumiere STUNet架構(gòu)。將預(yù)訓(xùn)練的T2I U-Net架構(gòu)(Ho et al., 2022a)“膨脹”到一個(gè)時(shí)空UNet(STUNet),在空間和時(shí)間上對(duì)視頻進(jìn)行上下采樣。(a)STUNet激活圖的示例;顏色表示不同時(shí)序模塊產(chǎn)生的特征:(b)基于卷積的塊,由預(yù)訓(xùn)練的T2I層和因子化時(shí)空卷積組成,以及(c)在最粗的U-Net級(jí)別上基于注意力的塊,其中預(yù)訓(xùn)練的T2I層和時(shí)間注意力。由于視頻表征在最粗的級(jí)別上被壓縮,我們使用有限的計(jì)算開(kāi)銷堆疊幾個(gè)時(shí)間注意力層。
谷歌Lumiere: A Space-Time Diffusion Model for Video Generation [文獻(xiàn)4]也選擇了擴(kuò)散模型,堆疊了歸一化與注意力層,類似Sora的DiT,但細(xì)節(jié)如時(shí)長(zhǎng)、分辨率、長(zhǎng)寬比等的處理方式不同。細(xì)節(jié)決定成敗,OpenAI 稱Sora摒棄了“其他文生視頻調(diào)整視頻大小、裁剪或修剪到標(biāo)準(zhǔn)大小的通常做法”,以可變時(shí)長(zhǎng)、原始分辨率與長(zhǎng)寬比訓(xùn)練視頻生成獲得重要優(yōu)勢(shì),如采樣靈活性,改進(jìn)的創(chuàng)作與成幀。
四、Sora 或Lumiere 視頻學(xué)習(xí)與生成的技術(shù)背后蘊(yùn)含的原理分析
讀完Sora的技術(shù)綜述, 筆者第一感覺(jué) Sora其實(shí)是在時(shí)空潛變量碎片上學(xué)習(xí)到了可視層面或者表面意義上的SSM(State Space Model), 從而在視頻生成上展現(xiàn)出強(qiáng)大的涌現(xiàn)能力:人和景物在三維空間移動(dòng)一致性;長(zhǎng)程時(shí)間相關(guān)性與對(duì)象持久性,如事物被遮擋后重現(xiàn);事物與周邊世界的互動(dòng)性;仿真數(shù)字世界等等。OpenAI認(rèn)為持續(xù)擴(kuò)大視頻模型的規(guī)模,將可以用來(lái)模擬整個(gè)物理和數(shù)字世界,畢竟它們純粹是尺度的現(xiàn)象(they are purely phenomena of scale)。
讓我們回顧一下“Transformer 的后浪來(lái)了”中筆者總結(jié)過(guò)的SSM整體思維模型:
1.狀態(tài)空間對(duì)事物的表征和刻畫:狀態(tài)空間的高維度,某時(shí)刻的信息,即某時(shí)刻的事物的能量的概率分布,是眾多維度的聯(lián)合概率分布,各維度都可能具有連續(xù)性和非線性,如何用線性系統(tǒng)近似,并最大努力消除非線性的影響非常關(guān)鍵;不同層次的潛變量空間,對(duì)信息的提取,和粗顆粒度逐層抽象,都需要類似重整化群 RG中的反復(fù)歸一化,以消除“近似非線性處理”對(duì)整體概率為 1 的偏離。
關(guān)于重整化群信息提取的原理,請(qǐng)參考筆者梳理的“大模型認(rèn)知框架”,此處不再贅述。這里Sora采用的 Diffusion Transformer (DiT)架構(gòu)與谷歌Lumiere 采用的Space-Time UNet (STUNet) 都具備注意力與歸一化,神經(jīng)網(wǎng)路架構(gòu)差異看起來(lái)主要來(lái)自是否采用“調(diào)整視頻大小、裁剪或修剪到標(biāo)準(zhǔn)大小的通常做法”。
2.狀態(tài)空間的動(dòng)態(tài)性:即從時(shí)間的維度,研究整個(gè)狀態(tài)空間的變遷。這個(gè)變遷是狀態(tài)空間的大量非時(shí)間維度的信息逐層提取,疊加時(shí)間這一特殊維度的(狀態(tài)-時(shí)間)序列sequence。不管是高維度低層次的細(xì)顆粒度的概率分布的時(shí)間變化,還是低維度高層次的粗顆粒度概率分布的時(shí)間變化,都是非線性時(shí)變系統(tǒng),用線性時(shí)不變(LTI)的模型都是無(wú)法很好刻畫的。
Sora的具體做法技術(shù)綜述中沒(méi)有透露。Lumiere 的處理中可以窺見(jiàn)端倪。這里可以有多種建模的方式,最自然的方式就是 ((x,y,z), t )的方式,將事物整體的演化看成時(shí)間序列,但此種方式往往存在數(shù)字視頻采樣頻率不足導(dǎo)致的運(yùn)動(dòng)模糊與運(yùn)動(dòng)混淆問(wèn)題。比如高速運(yùn)轉(zhuǎn)的輪子有時(shí)候看起來(lái)像在倒轉(zhuǎn)。
Nyquist-Shannon采樣定理告訴我們,對(duì)于模擬信號(hào) ,如果希望同時(shí)看到信號(hào)的各種特性,采樣頻率應(yīng)該大于原始模擬信號(hào)的最大頻率的兩倍,否則將發(fā)生混疊即相位或頻率模糊。因而Lumiere采用了自監(jiān)督時(shí)間超分辨率(TSR)與空間超分辨率(SSR)技術(shù)[文獻(xiàn)5],將事物的運(yùn)動(dòng)建模成多維度兩兩組合的模型:(x,y), …,(x,t),(y,t),(z,t)。
小的時(shí)空碎片會(huì)在視頻序列的各個(gè)維度上重復(fù)出現(xiàn),特別是空間和時(shí)間維度之間進(jìn)行交換時(shí),因而可以對(duì)其在時(shí)間域與空間域的表征做關(guān)聯(lián)分析,慢逆時(shí)針有可能是快順時(shí)針的假象,也可能就是慢逆時(shí)針。即使時(shí)域無(wú)法分辨,空域可以調(diào)整頻率,看到更模糊或者沒(méi)有特別變化的表征。
當(dāng)物體快速移動(dòng)時(shí),x-t和y-t切片中的Patch看起來(lái)是高分辨率x-y切片(傳統(tǒng)幀)的低分辨率版本。在t方向上增加這些x-t和y-t切片的分辨率與增加視頻的時(shí)間分辨率是一樣的。因此,空間x-y視頻幀提供了如何在同一視頻中增加x-t和y-t切片的時(shí)間分辨率的示例。
即將t看成第四維度,可以用x-y高分辨率訓(xùn)練修正x-t, y-t。同理,當(dāng)物體移動(dòng)非常緩慢時(shí),x-t和y-t切片中的Patch呈現(xiàn)為x-y幀中Patch的拉伸版本,表明這些時(shí)間切片可以為如何提高視頻幀的空間分辨率提供示例。即時(shí)間切片,反過(guò)來(lái)提升空間分辨率。如果SSM 學(xué)到了物理規(guī)律(如運(yùn)動(dòng)方程),直接輸出高頻幀理論上也應(yīng)當(dāng)可行。
“跨維”遞歸的一維圖示。1D對(duì)象向右移動(dòng)。當(dāng)適當(dāng)?shù)牟蓸訒r(shí)間(T=1),時(shí)間切片類似于空間切片(1D“幀”)。然而,當(dāng)時(shí)間采樣率過(guò)低(T=2)時(shí),時(shí)間切片是空間切片的欠采樣(混疊 aliasing)版本。因此,空間幀提供了消除時(shí)間混疊的示例。
3.狀態(tài)空間時(shí)間序列的非馬爾可夫性:思考attention 的價(jià)值,時(shí)序數(shù)據(jù)上的 attention 注意到了什么?諸如趨勢(shì), 周期性, 一次性事件等。非時(shí)間維度子空間內(nèi)的 attention,注意到的是范疇內(nèi)與范疇間的關(guān)系, 即某個(gè)時(shí)刻的狀態(tài)空間。狀態(tài)空間的時(shí)序,研究的是狀態(tài)空間的動(dòng)力學(xué),外在驅(qū)動(dòng)“力”或因素導(dǎo)致的狀態(tài)的“流動(dòng)”,即狀態(tài)空間t時(shí)刻與 t-n時(shí)刻之間的關(guān)系,注意到的是其時(shí)間依賴規(guī)律,往往不具備馬爾可夫性。
對(duì)此“Transformer 的后浪來(lái)了”以及筆者早前的“薛定諤的小板凳與深度學(xué)習(xí)的后浪”中都做了相應(yīng)的闡釋。非馬爾可夫性其實(shí)是世界的常態(tài),事實(shí)上時(shí)延系統(tǒng)基本都是非馬爾可夫的。時(shí)間維度的注意力與狀態(tài)空間選擇性非常關(guān)鍵。
OpenAI 對(duì)Sora 視頻生成模型的技術(shù)綜述文章取了“視頻生成模型作為世界模擬器video generation models as world simulators”的題目,可見(jiàn)其宏大的愿景。既然模擬世界,就繞不開(kāi)萬(wàn)事萬(wàn)物的長(zhǎng)程時(shí)間關(guān)聯(lián)或者因果關(guān)系,非馬爾可夫性不可避免會(huì)制造棘手的麻煩。
五、Sora的前景與未來(lái)
Sora 和 Lumiere 等文生視頻模型其實(shí)就是大模型從側(cè)重空間關(guān)聯(lián)轉(zhuǎn)向了加強(qiáng)時(shí)間關(guān)聯(lián)。也就是從筆者上圖中“非時(shí)間維度子空間”的信息提取,轉(zhuǎn)向側(cè)重學(xué)習(xí)和表征“狀態(tài)空間的動(dòng)態(tài)性”及處理“非馬爾可夫性”。通過(guò)海量視頻中對(duì)時(shí)空碎片的動(dòng)態(tài)關(guān)聯(lián)的學(xué)習(xí),目前看文生視頻大模型可以學(xué)到可視層面或者表面意義上的SSM,此種意義上,SAMBA之類的SSM模型應(yīng)該可以殊途同歸。
然而僅僅從時(shí)空碎片的表象上是獲取不到足夠捕獲其內(nèi)在規(guī)律的信息的,未來(lái)人類科學(xué)家們可以將他們長(zhǎng)期殫精竭慮探索的領(lǐng)域,包括但不局限于物理化學(xué)生物等等學(xué)科的范疇,可視化為圖像或視頻,交給視頻生成大模型去學(xué)習(xí),輔助發(fā)現(xiàn)其中蘊(yùn)含的潛在規(guī)律。
Sora 開(kāi)了一個(gè)好頭,或者說(shuō)史詩(shī)級(jí)的把視頻生成模型泛化成了物理引擎。把LLM GPT加視頻生成模型Sora推到實(shí)時(shí),就接近或達(dá)到人類的感知水平了。今后重要任務(wù)是處理好感知到概念體系的認(rèn)知跨越,也就是處理好生成過(guò)程采樣和變分推斷的合理性。
普林斯頓和DeepMind 科學(xué)家已經(jīng)開(kāi)始用隨機(jī)圖來(lái)解釋大模型涌現(xiàn)出來(lái)的的新能力,與筆者去年9月整理過(guò)的:“范疇的相變與知識(shí)的形成”不謀而合。處理好大模型感知到認(rèn)知的跨越,不僅僅使得AI4Science領(lǐng)域迎來(lái)重大突破,Artificial Super Intelligence人工超級(jí)智能也將指日可待。
[文獻(xiàn)1]https://openai.com/research/video-generation-models-as-world-simulators
[文獻(xiàn)2]Scalable diffusion models with transformers, https://arxiv.org/abs/2212.09748
[文獻(xiàn)3]https://ml.cs.tsinghua.edu.cn/~fanbao/Application-DPM.pdf
[文獻(xiàn)4]Lumiere: A Space-Time Diffusion Model for Video Generation https://arxiv.org/pdf/2401.12945.pdf
[文獻(xiàn)5]Across Scales & Across Dimensions: Temporal Super-Resolution using Deep Internal Learning https://arxiv.org/abs/2003.08872
聯(lián)系客服