中文字幕理论片,69视频免费在线观看,亚洲成人app,国产1级毛片,刘涛最大尺度戏视频,欧美亚洲美女视频,2021韩国美女仙女屋vip视频

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
ChatGPT之后,下一代大型語言模型在哪里?


轉(zhuǎn)自:圖靈人工智能
來源:學(xué)術(shù)頭條

導(dǎo)讀:ChatGPT的爆火,讓大語言模型受到了人們的關(guān)注,然而這些來自不同公司的大語言模型,像OpenAI的GPT-3、Google的PaLM或LaMDA、Meta的Galactica或OPT等,都是在相同的基本方式上構(gòu)建的,都是基于Transformer構(gòu)建的自回歸、自我監(jiān)督、預(yù)訓(xùn)練、密集激活模型。雖然各種大模型表現(xiàn)類似驚人的能力,但目前的人工智能遠(yuǎn)遠(yuǎn)沒有到達(dá)其能力的終點(diǎn)。

那么未來大語言模型的出路在哪里?The Next Generation Of Large Language Models(下一代大語言模型)根據(jù)一些最新的研究結(jié)果提出了一些猜想。比如大模型可以產(chǎn)生訓(xùn)練數(shù)據(jù)來用于改善自己;大模型可以核查確認(rèn)事實(shí);海量稀疏專家模型等。該文由Radical Ventures的合伙人,同樣也是You.com的投資者Rob Toews撰寫,并發(fā)表在最近一期的福布斯雜志。

也許您還沒有聽說過,人工智能是最熱門的新事物。

如今,從硅谷到達(dá)沃斯,每一位風(fēng)險(xiǎn)投資家、企業(yè)家、財(cái)富 《500》 強(qiáng)首席執(zhí)行官和記者都在談?wù)撋扇斯ぶ悄堋?/p>

對于那些在 2022 年開始真正關(guān)注 AI 的人來說,他們認(rèn)為像ChatGPT 和 Stable Diffusion 這樣的技術(shù)似乎是憑空冒出來,席卷了全球。

早在 2020 年,我們就在本專欄寫過一篇文章,預(yù)測生成式 AI 將成為下一代人工智能的支柱之一。

至少自2019 年GPT-2 發(fā)布以來,該領(lǐng)域的工作人員已經(jīng)清楚,生成語言模型有望引發(fā)巨大的經(jīng)濟(jì)和社會變革。同樣,雖然文本到圖像模型去年夏天才引起公眾的注意,但自 OpenAI 于 2021年1 月發(fā)布最初的DALL-E以來,該技術(shù)的優(yōu)勢似乎已經(jīng)不可避免地。

出于同樣的原因,重要的是要記住,人工智能的當(dāng)前技術(shù)水平遠(yuǎn)未達(dá)到人工智能能力的最終狀態(tài)。相反,人工智能領(lǐng)域的發(fā)展從未像現(xiàn)在這樣快速。盡管 ChatGPT 目前在我們看來令人驚嘆,但它只是下一步的墊腳石。

下一代大型語言模型 (LLMs) 會是什么樣子?這個(gè)問題的答案已經(jīng)存在,目前正在人工智能初創(chuàng)公司和研究小組的開發(fā)中。

本文重點(diǎn)介紹了三個(gè)新興領(lǐng)域,它們將有助于定義生成式 AI 和 LLM 的下一波創(chuàng)新浪潮。對于那些希望在這個(gè)瞬息萬變的世界中保持領(lǐng)先地位的人來說,請繼續(xù)閱讀:

01、可以自己生成訓(xùn)練數(shù)據(jù)以提高自己的模型


     


想想人類是如何思考和學(xué)習(xí)的。我們從外部信息來源收集知識和觀點(diǎn)——比如,通過閱讀一本書。但我們也會通過思考一個(gè)話題或思考一個(gè)問題,自己產(chǎn)生新穎的想法和見解。我們能夠通過內(nèi)部反思和分析來加深對世界的理解,而不直接依賴于任何新的外部輸入。

人工智能研究的一條新途徑旨在使大型語言模型能夠做類似的事情,有效地引導(dǎo)它們自己的智能。

作為他們培訓(xùn)的一部分,今天的 LLMs 吸收了世界上積累的大部分書面信息(例如,維基百科、書籍、新聞文章)。如果這些模型一旦經(jīng)過訓(xùn)練,就可以使用它們從這些來源吸收的所有知識來生成新的書面內(nèi)容,然后將這些內(nèi)容用作額外的訓(xùn)練數(shù)據(jù)來改進(jìn)自己,那會怎樣?初步研究表明,這種方法可能可行且功能強(qiáng)大。

在最近的一項(xiàng)名為“大型語言模型可以自我改進(jìn)”的研究工作中, Google 的一組研究人員構(gòu)建了一個(gè) LLM,它可以提出一組問題,為這些問題生成詳細(xì)的答案,并過濾自己的答案以獲取最高質(zhì)量的輸出,然后根據(jù)精選的答案進(jìn)行自我微調(diào)。值得注意的是,這導(dǎo)致了各種語言任務(wù)最新的最先進(jìn)的性能。例如,該模型在 GSM8K 上的性能從 74.2% 提高到 82.1%,在 DROP 上從78.2% 提高到 83.0%,這兩個(gè)流行的標(biāo)準(zhǔn)用于評估LLM 性能。

最近的另一項(xiàng)工作建立在稱為“指令微調(diào)”的重要 LLM 方法的基礎(chǔ)上,它是ChatGPT 等產(chǎn)品的核心。ChatGPT 和其他指令微調(diào)模型依賴于人工編寫的指令,而該研究小組構(gòu)建了一個(gè)模型,可以生成自己的自然語言指令,然后根據(jù)這些指令進(jìn)行自我微調(diào)。性能提升非常顯著:這種方法將基礎(chǔ) GPT-3 模型的性能提高了 33%,幾乎與 OpenAI 自己的指令調(diào)優(yōu)模型的性能相當(dāng)。

在一項(xiàng)與主題相關(guān)的工作中,來自谷歌和卡內(nèi)基梅隆大學(xué)的研究人員表明,如果一個(gè)大型語言模型在遇到問題時(shí),在回答之前先背誦它對該主題的了解,,它會提供更準(zhǔn)確和復(fù)雜的回答。這可以粗略地類比為一個(gè)人在談話中,他不會不是脫口而出關(guān)于某個(gè)話題的第一個(gè)想法,而是在分享觀點(diǎn)之前搜索她的記憶并反思她的信念。

當(dāng)人們第一次聽說這方面的研究時(shí),往往會產(chǎn)生一個(gè)概念上的異議——這難道不是循環(huán)的嗎?模型如何生成數(shù)據(jù),然后使用這些數(shù)據(jù)來改進(jìn)自身?如果新數(shù)據(jù)首先來自模型,那么它包含的“知識”或“信號”不應(yīng)該已經(jīng)包含在模型中了嗎?

如果我們將大型語言模型設(shè)想為數(shù)據(jù)庫,存儲訓(xùn)練數(shù)據(jù)中的信息,并在出現(xiàn)提示時(shí)以不同的組合再現(xiàn)這些信息,那么這種反對意見是有道理的。但是——盡管聽起來讓人不舒服,甚至令人毛骨悚然——我們最好還是按照人腦的思路來構(gòu)想大型語言模型(不,這個(gè)類比當(dāng)然不完美!)。

我們?nèi)祟悘氖澜缟衔樟舜罅繑?shù)據(jù),這些數(shù)據(jù)以不可估量、無數(shù)的方式改變了我們大腦中的神經(jīng)連接。通過反省、寫作、交談——有時(shí)只是睡個(gè)好覺——我們的大腦就能產(chǎn)生新的見解,這是我們以前從未有過的,也沒有出現(xiàn)在世界上任何信息源中。如果我們將這些新的見解內(nèi)化,它們可以讓我們變得更聰明。

鑒于世界可能很快就會用完文本訓(xùn)練數(shù)據(jù),LLM 可以生成自己的訓(xùn)練數(shù)據(jù)的想法尤為重要。這還不是一個(gè)廣為人知的問題,但卻是許多人工智能研究人員擔(dān)心的問題。

據(jù)估計(jì),全球可用文本數(shù)據(jù)的總存量在 4.6 萬億到 17.2 萬億個(gè)Token之間。這包括世界上所有的書籍、所有的科學(xué)論文、所有的新聞文章、所有的維基百科、所有公開可用的代碼,以及互聯(lián)網(wǎng)的大部分經(jīng)過了質(zhì)量過濾的內(nèi)容(例如,網(wǎng)頁、博客、社交媒體)。最近的另一項(xiàng)估計(jì)將總數(shù)定為 3.2 萬億Token。

DeepMind 的 Chinchilla 是當(dāng)今領(lǐng)先的 LLMs之一,接受了 1.4 萬億個(gè)Token的訓(xùn)練。

換句話說,我們可能在一個(gè)數(shù)量級內(nèi),耗盡世界上所有有用的語言訓(xùn)練數(shù)據(jù)供應(yīng)。

如果大型語言模型能夠生成自己的訓(xùn)練數(shù)據(jù),并使用它來繼續(xù)自我改進(jìn),這可能會使迫在眉睫的數(shù)據(jù)短缺變得無關(guān)緊要。對于LLMs來說,這將代表一個(gè)令人費(fèi)解的飛躍。

02、能夠?qū)ψ约哼M(jìn)行核查的模型


     


最近流行的說法是,ChatGPT 和類似的對話式 LLMs 即將取代 Google 搜索,成為世界上最重要的信息來源,顛覆曾經(jīng)強(qiáng)大的科技巨頭,如 Blockbuster 或 Kodak。

這種敘述嚴(yán)重地將事情簡單化了。今天存在的 LLM 永遠(yuǎn)不會取代 Google 搜索。為什么不?簡而言之,就是因?yàn)榻裉斓腖Lms在編造東西。

盡管它們很強(qiáng)大,但大型語言模型經(jīng)常會產(chǎn)生不準(zhǔn)確、誤導(dǎo)或錯(cuò)誤的信息(并自信且令人信服地呈現(xiàn))。

ChatGPT 的“幻覺”(這些錯(cuò)誤陳述被稱為幻覺)的例子比比皆是。這并不是要針對 ChatGPT;目前存在的每一個(gè)生成語言模型都以類似的方式產(chǎn)生幻覺。

舉幾個(gè)例子:它推薦不存在的書;它堅(jiān)持認(rèn)為220 這個(gè)數(shù)字小于 200;不確定刺殺Abraham Lincoln’s的兇手在遇刺時(shí)是否與林肯在同一個(gè)大陸;它對 provides等概念提供了看似合理但不正確的解釋。

大多數(shù)用戶不會接受搜索引擎有時(shí)會把這些基本事實(shí)搞錯(cuò);即使是 99% 的準(zhǔn)確率也不足以讓市場廣泛采用。OpenAI 首席執(zhí)行官 Sam Altman 本人也承認(rèn)這一點(diǎn),他最近警告說:“ChatGPT 非常有限,但在某些方面已經(jīng)足夠出色,足以給人一種偉大的誤導(dǎo)性印象?,F(xiàn)在依賴它來做任何重要的事情都是錯(cuò)誤的。”

LLMs 的幻覺問題是否可以通過對現(xiàn)有架構(gòu)的漸進(jìn)式改進(jìn)來解決,或者是否有必要對 AI 方法論進(jìn)行更基本的范式轉(zhuǎn)變以賦予 AI 常識和真正的理解,這是一個(gè)懸而未決的問題。深度學(xué)習(xí)先驅(qū) Yann LeCun認(rèn)為是后者。LeCun 的逆向觀點(diǎn)可能被證明是正確的;時(shí)間會證明一切。

不過,在近期內(nèi),一組有前途的創(chuàng)新至少可以減輕 LLM 在事實(shí)上的不可靠性。這些新方法將為LLM在現(xiàn)實(shí)世界中部署準(zhǔn)備方面發(fā)揮重要作用。

當(dāng)前使語言模型更準(zhǔn)確的工作的核心是兩個(gè)相關(guān)的功能:(1) LLM 從外部來源檢索信息的能力,以及 (2) LLM 為他們提供的信息提供參考和引用的能力。

ChatGPT 僅限于已經(jīng)存儲在其中的信息,在其靜態(tài)權(quán)重中捕獲。(這就是為什么它無法討論 2021 年之后發(fā)生的事件,那時(shí)模型被訓(xùn)練。)能夠從外部來源獲取信息將使 LLM 能夠訪問最準(zhǔn)確和最新的可用信息,即使當(dāng)該信息經(jīng)常變化時(shí)(例如,公司的股票價(jià)格)。

當(dāng)然,能夠訪問外部信息源本身并不能保證 LLM 將檢索到最準(zhǔn)確和相關(guān)的信息。LLM 提高了人類用戶的透明度和信任的一種重要方法是包括對他們從中檢索信息的來源的引用。此類引用允許人類用戶根據(jù)需要審核信息源,以便自己決定其可靠性。

該領(lǐng)域的重要早期工作包括REALM(來自 Google)和RAG(來自 Facebook)等模型,它們均于 2020 年發(fā)布。隨著近幾個(gè)月對話式 LLM 的興起,該領(lǐng)域的研究正在迅速加速。

去年,OpenAI發(fā)布了一個(gè)名為 WebGPT的 GPT 模型的微調(diào)版本,可以使用 Microsoft Bing 瀏覽互聯(lián)網(wǎng),以便對提示提供更準(zhǔn)確和深入的響應(yīng)。WebGPT像人類一樣瀏覽互聯(lián)網(wǎng):它可以向 Bing 提交搜索查詢、跟蹤鏈接、在網(wǎng)頁上上下滾動(dòng),并使用 Ctrl+F 等功能查找術(shù)語。當(dāng)模型在互聯(lián)網(wǎng)上找到相關(guān)信息并將其合并到輸出中時(shí),它會提供引用,以便人類用戶可以看到信息的來源。

結(jié)果是令人鼓舞的:對于相同的查詢,WebGPT 的響應(yīng)在 56% 的情況下優(yōu)于人類受試者編寫的響應(yīng),在 69% 的情況下優(yōu)于 Reddit 上評分最高的響應(yīng)。

DeepMind 也在沿著這些方向進(jìn)行研究。幾個(gè)月前,DeepMind 發(fā)布了一個(gè)名為Sparrow的新模型。與 ChatGPT 一樣,Sparrow 也是基于對話的;與 WebGPT 一樣,它可以在互聯(lián)網(wǎng)上搜索信息并為其斷言提供引用。Sparrow 建立在 DeepMind 早期的重要工作之上,包括SpaLM、RETRO和GopherCite。

DeepMind的 Sparrow 模型正在運(yùn)行。如此處所示,Sparrow 提供報(bào)價(jià)和鏈接以支持...

DeepMind 的研究人員發(fā)現(xiàn),Sparrow的引用在 78% 的情況下是有用且準(zhǔn)確的——這表明這種研究方法很有前途,而 LLM 不準(zhǔn)確的問題遠(yuǎn)未解決。

包括 You.com 和 Perplexity在內(nèi)的年輕的初創(chuàng)公司最近也推出了 LLM 支持的對話搜索界面,能夠從外部來源檢索信息并引用參考文獻(xiàn)。這些產(chǎn)品今天可供公眾使用。

LLM最大的缺點(diǎn)是他們不可靠,他們固執(zhí)地傾向于自信地提供不準(zhǔn)確的信息。語言模型有望重塑我們經(jīng)濟(jì)的每個(gè)部門,但在這個(gè)問題得到解決之前,它們永遠(yuǎn)無法發(fā)揮其全部潛力。預(yù)計(jì)在未來幾個(gè)月內(nèi),我們將會在該領(lǐng)域看到大量活動(dòng)和創(chuàng)新。

03、 海量稀疏專家模型


     


當(dāng)今最著名的大型語言模型實(shí)際上都具有相同的架構(gòu)。

Meta AI 負(fù)責(zé)人 Yann LeCun近日表示:“就底層技術(shù)而言,ChatGPT 并沒有特別的創(chuàng)新。這不是革命性的,盡管這是公眾對它的看法。只是,你知道,它被很好地組合在了一起,做得很好。”

LeCun 的聲明在Twitter上引發(fā)了大量爭議和辯論。但一個(gè)簡單的事實(shí)是,他是正確的,任何嚴(yán)肅的人工智能研究人員都不會對此提出異議。

當(dāng)今所有著名的語言模型——例如,來自O(shè)penAI的GPT-3、來自Google的PaLM或LaMDA 、來自 Meta 的Galactica或OPT 、來自Nvidia/Microsoft 的Megatron-Turing、來自 AI21 Labs 的Jurassic-1——都是在相同的基本方式上構(gòu)建的。它們是自回歸、自我監(jiān)督、預(yù)訓(xùn)練、密集激活的基于Transformer的模型。

可以肯定的是,這些模型之間存在差異:它們的大?。▍?shù)計(jì)數(shù))、它們訓(xùn)練的數(shù)據(jù)、使用的優(yōu)化算法、批量大小、隱藏層的數(shù)量、它們是否經(jīng)過指令微調(diào)等等.這些變化可以轉(zhuǎn)化為有意義的性能差異。不過,核心架構(gòu)變化不大。

然而,一種有趣的不同的語言模型架構(gòu)方法(稱為稀疏專家模型)正在形成勢頭。雖然這個(gè)想法已經(jīng)存在了幾十年,但直到最近才重新出現(xiàn),并開始流行起來。

上面提到的所有模型都是密集的。這意味著每次模型運(yùn)行時(shí),都會使用它的每一個(gè)參數(shù)。例如,每次您向 GPT-3 提交提示時(shí),模型的所有 1750 億個(gè)參數(shù)都會被激活以產(chǎn)生響應(yīng)。

但是,如果一個(gè)模型能夠僅調(diào)用其參數(shù)中最相關(guān)的子集來響應(yīng)給定的查詢呢?這是稀疏專家模型背后的基本概念。

稀疏模型的定義特征是,它們不會為給定輸入激活所有參數(shù),而是只激活那些有助于處理輸入的參數(shù)。因此,模型稀疏性將模型的總參數(shù)計(jì)數(shù)與其計(jì)算要求分離開來。這導(dǎo)致了稀疏專家模型的關(guān)鍵優(yōu)勢:與密集模型相比,它們可以更大且計(jì)算要求更低。

為什么它們被稱為稀疏專家模型?因?yàn)橄∈枘P涂梢员徽J(rèn)為是由充當(dāng)不同主題專家的“子模型”的集合組成的。根據(jù)提供給模型的提示,模型中最相關(guān)的專家被激活,而其他專家保持不活動(dòng)狀態(tài)。例如,用俄語提出的提示只會激活模型中可以用俄語理解和回應(yīng)的“專家”,從而有效地繞過模型的其余部分。

當(dāng)今所有最大的 LLM 都是稀疏的。如果你遇到一個(gè)參數(shù)超過 1 萬億的 LLM,你可以放心地假設(shè)它是稀疏的。這包括谷歌的Switch Transformer(1.6萬億參數(shù))、谷歌的GLaM(1.2 萬億參數(shù))和 Meta 的mix of Experts模型(1.1 萬億參數(shù))。

“AI 最近的大部分進(jìn)展都來自于訓(xùn)練越來越大的模型,”Mikel Artetxe 說,他曾領(lǐng)導(dǎo) Meta 對稀疏模型的研究,然后辭職與他人共同創(chuàng)立了一家秘密的 LLM 初創(chuàng)公司。“例如,GPT-3 比 GPT-2 大 100 倍以上。但是,當(dāng)我們將密集模型的大小擴(kuò)大一倍時(shí),我們也會使其速度加倍。稀疏模型使我們能夠在不增加運(yùn)行時(shí)間的情況下訓(xùn)練更大的模型?!?/p>

最近對稀疏專家模型的研究表明,這種架構(gòu)具有巨大的潛力。

谷歌去年開發(fā)的稀疏專家模型GLaM 比GPT-3 大 7 倍,訓(xùn)練所需能量減少三分之二,推理所需計(jì)算量減少一半,并且在廣泛的自然語言方面優(yōu)于 GPT-3?;?Meta 的稀疏模型上進(jìn)行的類似工作也產(chǎn)生了類似的有希望的結(jié)果。

正如 Meta 研究人員總結(jié)的那樣:“我們發(fā)現(xiàn)稀疏模型可以在一小部分計(jì)算量上實(shí)現(xiàn)與密集模型相似的下游任務(wù)性能。對于計(jì)算預(yù)算相對適中的模型,稀疏模型的性能可與需要幾乎四倍計(jì)算量的密集模型相提并論?!?/p>

值得一提的是,稀疏專家模型的另一個(gè)好處是:它們比密集模型更具可解釋性。

可解釋性——人類理解模型為什么采取它所做的行動(dòng)的能力——是當(dāng)今人工智能最大的弱點(diǎn)之一??偟膩碚f,今天的神經(jīng)網(wǎng)絡(luò)是無法解釋的“黑匣子”。這可能會限制它們在現(xiàn)實(shí)世界中的實(shí)用性,特別是在醫(yī)療保健等高風(fēng)險(xiǎn)環(huán)境中,人工審查很重要。

稀疏專家模型比傳統(tǒng)模型更自然地具有可解釋性,因?yàn)橄∈枘P偷妮敵鍪悄P椭锌勺R別的、離散的參數(shù)子集的結(jié)果——即被激活的“專家”。事實(shí)上,人類可以更好地從稀疏模型中提取有關(guān)其行為的可理解的解釋,這可能被證明是這些模型在實(shí)際應(yīng)用中的決定性優(yōu)勢。

稀疏專家模型如今并未得到廣泛使用。與密集模型相比,它們不太容易被理解,而且在技術(shù)上更復(fù)雜。然而,考慮到它們的潛在優(yōu)勢,尤其是它們的計(jì)算效率,看到稀疏專家體系架構(gòu)在未來的 LLM 世界中變得更加普遍就不足為奇了。

用Graphcore 首席技術(shù)官 Simon Knowles 的話來說:“如果 AI 可以做很多事情,它就不需要訪問所有知識來做一件事。這是顯而易見的。這就是你的大腦的工作方式,也是人工智能應(yīng)該的工作方式。如果到明年有人開始構(gòu)建密集的語言模型,我會感到驚訝?!?/p>

本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊舉報(bào)
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
人工智能和ChatGPT深度學(xué)習(xí)資源列表
ChatGPT會不會產(chǎn)生自我意識?
一份來自Huggingface的大模型進(jìn)化指南:沒有必要完全復(fù)現(xiàn)GPT-4
ChatGPT掀起技術(shù)狂潮:頂流之下,看人工智能喜與憂
從零開始了解AI大模型-概念篇:一文帶你走進(jìn)大模型世界
危機(jī)還是轉(zhuǎn)機(jī)?ChatGPT將大幅降低教育成本
更多類似文章 >>
生活服務(wù)
熱點(diǎn)新聞
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服