新智元報道

編輯：LRS

【新智元導(dǎo)讀】一次學完所有生成式模型！

過去的兩年時間里，AI界的大型生成模型發(fā)布呈井噴之勢，尤其是Stable Diffusion開源和ChatGPT開放接口后，更加激發(fā)了業(yè)界對生成式模型的熱情。

但生成式模型種類繁多，發(fā)布速度也非?？?，稍不留神就有可能錯過了sota

最近，來自西班牙科米利亞斯主教大學的研究人員全面回顧了各個領(lǐng)域內(nèi)AI的最新進展，將生成式模型按照任務(wù)模態(tài)、領(lǐng)域分為了九大類，并總結(jié)了2022年發(fā)布的21個生成式模型，一次看明白生成式模型的發(fā)展脈絡(luò)！

論文鏈接：https://arxiv.org/abs/2301.04655

生成式AI分類

模型可以按照輸入和輸出的數(shù)據(jù)類型進行分類，目前主要包括9類。

有趣的是，在這些已發(fā)布大模型的背后，只有六個組織（OpenAI, Google, DeepMind, Meta, runway, Nvidia）參與部署了這些最先進的模型。

其主要原因是，為了能夠估計這些模型的參數(shù)，必須擁有極其龐大的計算能力，以及在數(shù)據(jù)科學和數(shù)據(jù)工程方面高度熟練且經(jīng)驗豐富的團隊。

因此，也只有這些公司，在收購的初創(chuàng)公司和與學術(shù)界合作的幫助下，能夠成功部署生成式人工智能模型。

在大公司參與初創(chuàng)企業(yè)方面，可以看到微軟向OpenAI投資了10億美元，并幫助他們開發(fā)模型；同樣，谷歌在2014年收購了Deepmind。

在大學方面，VisualGPT是由阿卜杜拉國王科技大學（KAUST）、卡內(nèi)基梅隆大學和南洋理工大學開發(fā)的，Human Motion Diffusion模型是由以色列特拉維夫大學開發(fā)的。

同樣，其他項目也是由一家公司與一所大學合作開發(fā)的，比如Stable Diffusion由Runway、Stability AI和慕尼黑大學合作開發(fā)；Soundify由Runway和卡內(nèi)基梅隆大學合作開發(fā)；DreamFusion由谷歌和加州大學伯克利分校合作。

Text-to-image模型

DALL-E 2

由OpenAI開發(fā)的DALL-E 2能夠從由文本描述組成的提示中生成原始、真實、逼真的圖像和藝術(shù)，而且OpenAI已經(jīng)對外提供了API來訪問該模型。

DALL-E 2特別之處在于它能夠?qū)⒏拍睢傩院筒煌L格結(jié)合起來，其能力源于語言-圖像預(yù)訓(xùn)練模型CLIP神經(jīng)網(wǎng)絡(luò)，從而可以用自然語言來指示最相關(guān)的文本片段。

具體來說，CLIP embedding有幾個理想的屬性：能夠?qū)D像分布進行穩(wěn)定的轉(zhuǎn)換；具有強大的zero-shot能力；并且在微調(diào)后實現(xiàn)了最先進的結(jié)果。

為了獲得一個完整的圖像生成模型，CLIP圖像embedding解碼器模塊與一個先驗?zāi)Ｐ拖嘟Y(jié)合，從一個給定的文本標題中生成相關(guān)CLIP圖像embedding

其他的模型還包括Imagen，Stable Diffusion，Muse

Text-to-3D模型

對于某些行業(yè)，僅能生成2D圖像還無法完成自動化，比如游戲領(lǐng)域就需要生成3D模型。

Dreamfusion

DreamFusion由Google Research開發(fā)，使用預(yù)先訓(xùn)練好的2D文本到圖像的擴散模型來進行文本到3D的合成。

Dreamfusion使用一個從二維擴散模型的蒸餾中得到的損失取代了CLIP技術(shù)，即擴散模型可以作為一個通用的連續(xù)優(yōu)化問題中的損失來生成樣本。

相比其他方法主要是對像素進行采樣，在參數(shù)空間的采樣比在像素空間的采樣要難得多，DreamFusion使用了一個可微的生成器，專注于創(chuàng)建從隨機角度渲染圖像的三維模型。

其他模型如Magic3D由英偉達公司開發(fā)。

Image-to-Text模型

獲得一個描述圖像的文本也是很有用的，相當于圖像生成的逆版本。

Flamingo

該模型由Deepmind開發(fā)，在開放式的視覺語言任務(wù)上，只需通過一些輸入/輸出例子的提示，即可進行few-shot學習。

具體來說，F(xiàn)lamingo的輸入包含視覺條件下的自回歸文本生成模型，能夠接收與圖像或視頻交錯的文本token序列，并生成文本作為輸出。

用戶可以向模型輸入query，并附上一張照片或一段視頻，模型就會用文本答案來回答。

Flamingo模型利用了兩個互補的模型：一個是分析視覺場景的視覺模型，一個是執(zhí)行基本推理形式的大型語言模型。

VisualGPT

VisualGPT是一個由OpenAI開發(fā)的圖像描述模型，能夠利用預(yù)訓(xùn)練語言模型GPT-2中的知識。

為了彌合不同模態(tài)之間的語義差距，研究人員設(shè)計了一個全新的編碼器-解碼器注意力機制，具有整流門控功能。

VisualGPT最大的優(yōu)點是它不需要像其他圖像到文本模型那樣多的數(shù)據(jù)，能夠提高圖像描述模型的數(shù)據(jù)效率，能夠在小眾領(lǐng)域得到應(yīng)用或?qū)ι僖姷奈矬w的進行描述。

Text-to-Video模型

Phenaki

該模型由Google Research開發(fā)制作，可以在給定一連串文字提示的情況下，進行真實的視頻合成。

Phenaki是第一個能夠從開放域時間變量提示中生成視頻的模型。

為了解決數(shù)據(jù)問題，研究人員在一個大型的圖像-文本對數(shù)據(jù)集以及數(shù)量較少的視頻-文本例子上進行聯(lián)合訓(xùn)練，最終獲得了超越視頻數(shù)據(jù)集中的泛化能力。

主要是圖像-文本數(shù)據(jù)集往往有數(shù)十億的輸入數(shù)據(jù)，而文本-視頻數(shù)據(jù)集則小得多，并且對不同長度的視頻進行計算也是一個難題。

Phenaki模型包含三個部分：C-ViViT編碼器、訓(xùn)練Transformer和視頻生成器。

將輸入token轉(zhuǎn)換為embedding后，接著經(jīng)過時序Transformer和空間Transformer，再使用一個沒有激活的單一線性投影，將token映射回像素空間。

最終模型可以生成以開放域提示為條件的時間連貫性和多樣性的視頻，甚至能夠處理一些數(shù)據(jù)集中不存在的新概念。

相關(guān)模型包括Soundify.

Text-to-Audio模型

對于視頻生成來說，聲音也是必不可缺的部分。

AudioLM

該模型是由谷歌開發(fā)，可用于生成高質(zhì)量的音頻，并具有長距離一致性。

AudioLM的特別之處在于將輸入的音頻映射成一個離散的token序列，并將音頻生成作為該表示空間的語言建模任務(wù)。

通過對原始音頻波形的大型語料庫進行訓(xùn)練，AudioLM成功學會了在簡短的提示下生成自然和連貫的連續(xù)的語音。這種方法甚至可以擴展到人聲之外的語音，比如連續(xù)的鋼琴音樂等等，而不需要在訓(xùn)練時添加符號表示。

由于音頻信號涉及多個尺度（scale）的抽象，所以音頻合成時使得多尺度在顯示一致性的同時實現(xiàn)高音頻質(zhì)量非常具有挑戰(zhàn)性。AudioLM模型通過結(jié)合神經(jīng)音頻壓縮、自監(jiān)督表示學習和語言建模方面的最新進展來實現(xiàn)。

在主觀評價方面，評分者被要求聽一個10秒的樣本，并決定它是人類講話還是合成的語音?；谑占降?000個評分，比率為51.2%，與隨機分配標簽沒有統(tǒng)計學差異，即人類無法區(qū)分合成和真實的樣本。

其他相關(guān)模型包括Jukebox和Whisper

Text-to-Text模型

問答任務(wù)常用。

ChatGPT

廣受歡迎的ChatGPT由OpenAI開發(fā)，以對話的方式與用戶進行互動。

用戶提出一個問題，或是提示文本的前半部分，模型會補全后續(xù)部分，并且能夠識別出不正確的輸入前提并拒絕不恰當?shù)恼埱蟆?/span>

具體來說，ChatGPT背后的算法是Transformer，訓(xùn)練過程主要是人類反饋的強化學習。

最初的模型是使用監(jiān)督學習下的微調(diào)來訓(xùn)練的，然后由人類來提供對話，在對話中他們互相扮演用戶和人工智能助理，然后由人修正模型返回的回復(fù)，并用正確的答案幫助模型改進。

將制作的數(shù)據(jù)集與InstructGPT的數(shù)據(jù)集混合在一起，轉(zhuǎn)換為對話格式。

其他相關(guān)模型包括LaMDA和PEER

Text-to-Code模型

和text-to-text類似，只不過生成的是特殊類型的文本，即代碼。

Codex

該模型由OpenAI開發(fā)，可以將文本翻譯成代碼。

Codex是一種通用的編程模型，基本上可以應(yīng)用于任何編程任務(wù)。

人類在編程時的活動可以分為兩部分：1）將一個問題分解成更簡單的問題；2）將這些問題映射到已經(jīng)存在的現(xiàn)有代碼（庫、API或函數(shù)）中。

其中第二部分是對程序員來說最浪費時間的部分，也是Codex最擅長的地方。

訓(xùn)練數(shù)據(jù)于2020年5月從GitHub上托管的公共軟件庫中進行收集，包含179GB的Python文件，并在GPT-3的基礎(chǔ)上進行微調(diào)，其中已經(jīng)包含了強大的自然語言表征。

相關(guān)模型還包括Alphacode

Text-to-Science模型

科研文字也是AI文本生成的目標之一，但要取得成果仍然有很長的路要走。

Galactica

該模型是由Meta AI和Papers with Code聯(lián)合開發(fā)的，可用于自動組織科學文本的大型模型。

Galactica的主要優(yōu)勢在于即便進行多個episode的訓(xùn)練后，模型仍然不會過擬合，并且上游和下游的性能會隨著token的重復(fù)使用而提高。

并且數(shù)據(jù)集的設(shè)計對該方法至關(guān)重要，因為所有的數(shù)據(jù)都是以通用的markdown格式處理的，從而能夠混合不同來源的知識。

引文（citations）通過一個特定的token來處理，使得研究人員可以在任何輸入上下文中預(yù)測一個引文。Galactica模型預(yù)測引文的能力會隨著規(guī)模的提升而提高。

此外，該模型在僅有解碼器的設(shè)置中使用了一個Transformer架構(gòu)，對所有尺寸的模型進行了GeLU激活，從而可以執(zhí)行涉及SMILES化學公式和蛋白質(zhì)序列的多模態(tài)任務(wù)，

Minerva

Minerva的主要目的就是解決決數(shù)學和科學問題，為此收集了大量的訓(xùn)練數(shù)據(jù)，并解決了定量推理問題，大規(guī)模模型開發(fā)問題，還采用了一流的推理技術(shù)。

Minerva采樣語言模型架構(gòu)通過使用step-by-step推理來解決輸入的問題，即輸入是需要包含計算和符號操作，而不用引入外部工具。

其他模型

還有一些模型不屬于前面提到的類別。

AlphaTensor

由Deepmind公司開發(fā)，因其發(fā)現(xiàn)新算法的能力，在業(yè)界是一個完全革命性的模型。

在已公布的例子中，AlphaTensor創(chuàng)造了一種更有效的矩陣乘法算法。這種算法非常重要，從神經(jīng)網(wǎng)絡(luò)到科學計算程序都可以從這種高效率的乘法計算中受益。

該方法基于深度強化學習方法，其中智能體AlphaTensor的訓(xùn)練過程就是玩一個單人游戲，目標是在有限的因子空間內(nèi)尋找張量分解。

在TensorGame的每一步，玩家需要選擇如何結(jié)合矩陣的不同entries來進行乘法，并根據(jù)達到正確的乘法結(jié)果所需的操作數(shù)量來獲得獎勵分數(shù)。AlphaTensor使用一種特殊的神經(jīng)網(wǎng)絡(luò)架構(gòu)來利用合成訓(xùn)練游戲（synthetic training game）的對稱性。

GATO

該模型是由Deepmind開發(fā)的通用智能體，它可以作為一個多模態(tài)、多任務(wù)或多embodiment泛化策略來使用。

具有相同權(quán)重的同一個網(wǎng)絡(luò)可以承載非常不同的能力，從玩雅達利游戲、描述圖片、聊天、堆積木等等。

在所有任務(wù)中使用單一的神經(jīng)序列模型有很多好處，減少了手工制作具有自身歸納偏見策略模型的需要，并增加了訓(xùn)練數(shù)據(jù)的數(shù)量和多樣性。

這種通用智能體在大量任務(wù)中都取得了成功，并且可以用很少的額外數(shù)據(jù)進行調(diào)整，以便在更多的任務(wù)中取得成功。

目前GATO大約有1.2B個參數(shù)，可以實時控制現(xiàn)實世界機器人的模型規(guī)模。

其他已發(fā)表的生成性人工智能模型包括生成human motion等。

參考資料：

https://arxiv.org/abs/2301.04655

本站僅提供存儲服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點擊舉報。

中文字幕理论片,69视频免费在线观看,亚洲成人app,国产1级毛片,刘涛最大尺度戏视频,欧美亚洲美女视频,2021韩国美女仙女屋vip视频