中文字幕理论片,69视频免费在线观看,亚洲成人app,国产1级毛片,刘涛最大尺度戏视频,欧美亚洲美女视频,2021韩国美女仙女屋vip视频

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
給表情包都能猜電影,ChatGPT的「涌現」能力是哪兒來的?
選自量子雜志

機器之心編譯

編輯:王楷

現在,諸如 ChatGPT 這樣的大型語言模型已經足夠強大,它們已經開始表現出驚人的、讓人難以預測的行為。

在正式介紹這篇文章之前,我們先提個問題:下圖的表情符號描述的是什么電影呢?


可能連你都猜不出來,這四個符號代表的電影是「海底總動員」,這一提示任務是去年評測大型語言模型(LLM)204 個任務中的其中一個任務。對于最簡單的 LLM 模型,給出的回答多少有點胡編亂造,它認為這部電影講述的是一個男人的故事;相對復雜一點的中型模型,給出的回答是「The Emoji Movie」,這時答案已經很接近了。不過最復雜的模型猜中了,給出「海底總動員」這一答案。

谷歌計算機科學家 Ethan Dyer 表示:「模型的這一行為令人感到驚訝。更令人驚訝的是,這些模型只使用指令:即接受一串文本作為輸入,而后預測接下來會發(fā)生什么,并完全基于統(tǒng)計數據來不斷重復這個過程?!挂恍W者開始預計,擴大模型規(guī)模會提高解決已知任務的性能,但他們未預料到這些模型能突然處理這么多新的、不可預測的任務。

Ethan Dyer 近期所做的一項調查表明,LLM 可以創(chuàng)造出數百種「涌現(emergent)」能力,即大型模型可以完成而小型模型無法完成某些任務的能力。顯然,隨著模型的擴展能力提升了,從簡單的乘法到生成可執(zhí)行的計算機代碼,直到基于表情符號解碼電影。新的分析表明,對于某些任務和某些模型,存在一個復雜性閾值,一旦超過該閾值,模型的功能就會如火箭騰空般急速提升。不過研究者還指出模型擴展帶來的負面影響,即隨著復雜性的增加,一些模型在他們的響應 (response) 中表現出了新的偏見和不準確性。

斯坦福大學計算機科學家 Rishi Bommasani 表示:「在我所知道的所有文獻中,從未有討論過語言模型可以做這些事情?!谷ツ辏麕椭幹屏艘环莅瑪凳N模型涌現行為的清單,其中包括 Ethan Dyer 項目中確定的幾種行為。如今,該清單仍然在繼續(xù)變長。

如今,研究人員不僅競相確定大模型涌現能力,而且還想弄清楚它們發(fā)生的原因和方式 —— 本質上是試圖預測不可預測性。理解其涌現性可以揭示與人工智能和機器學習有關的深層問題的答案,比如復雜模型是否真的在做一些新的事情,或者只是變得非常擅長統(tǒng)計。此外,它還可以幫助研究人員利用潛在的好處并減少涌現的風險。

突然的涌現

生物學家、物理學家、生態(tài)學家和其他科學家使用涌現這一術語來描述當一大批事物作為一個整體行動時出現的自組織集體性行為。無生命原子的組合產生了活細胞;水分子創(chuàng)造了波浪;椋鳥群以不斷變化但可識別的隊形掠過天空的壯觀自然景象;細胞使肌肉運動和心臟跳動。至關重要的是,涌現能力出現在涉及許多獨立部分的系統(tǒng)中。但研究人員直到最近才能夠在 LLM 中記錄這種涌現能力,因為這些模型剛剛才發(fā)展到足夠巨大的規(guī)模。

語言模型已經存在了幾十年。直到大約五年前,最強大的模型還是基于循環(huán)神經網絡。這些模型本質上取用一串文本并預測下一個單詞是什么。使模型循環(huán)的原因在于它從自己的輸出中學習:它的預測會反饋到網絡中以提高未來的性能。

2017 年,谷歌大腦(Google Brain)的研究人員推出了一種被稱為 Transformer 的新型架構。當循環(huán)網絡逐字分析句子時,Transformer 會同時處理所有單詞。這意味著 Transformer 可以并行處理大量文本。

「很可能是該模型從根本上學到了一些新的和不同的東西,而這些東西在較小規(guī)模的模型上是沒有的?!共祭蚀髮W的 Ellie Pavlick 表示。

通過增加模型中的參數數量以及其他因素,Transformers 能夠快速擴大語言模型的復雜性。這些參數可以被認為是單詞之間的連接,通過在訓練期間打亂文本,transformers 可以調整這些連接從而改進模型。模型中的參數越多,它就越能準確地建立連接,越接近于模仿人類語言。正如預期的那樣,OpenAI 研究人員在 2020 年進行的一項分析發(fā)現,模型隨著規(guī)模的擴大而提高了準確性和能力。

但大型語言模型的問世也帶來了很多真正意想不到的東西。隨著具有 1750 億個參數的 GPT-3 或可擴展到 5400 億個參數的谷歌 PaLM 等模型的出現,用戶開始描述越來越多的涌現行為。一位 DeepMind 工程師甚至報告說能夠說服 ChatGPT 承認它是一個 Linux 終端,并讓它運行一些簡單的數學代碼來計算前 10 個素數。值得注意的是,比起在真正的 Linux 設備上運行相同的代碼,它可以更快地完成任務。

與通過表情符號描述電影的任務一樣,研究人員沒有理由認為為預測文本而構建的語言模型會被說服用于模仿計算機終端。這些涌現行為中的許多都證明了零樣本或小樣本學習,它們描述了 LLM 擁有解決以前從未(或很少)遇到的問題的能力。Ganguli 說,這一直是人工智能研究的長期目標。這也表明 GPT-3 可以在零樣本設定中無需任何明確訓練數據的情況下解決問題,Ganguli 表示,「這讓我放棄了我正在做的事情,更多地參與到這項研究中。」

在這個研究領域里,他并不孤單。大量研究人員已經發(fā)現了 LLM 可以超越其訓練數據限制的第一個線索,他們正在努力更好地理解涌現是什么樣子的以及它是如何發(fā)生的。而要做的第一步就是徹底全面地記錄它。

Ethan Dyer 幫助探索了大型語言模型具有什么樣意想不到的能力,以及它們會帶來什么。-Gabrielle Lurie

超越模仿

2020 年,Dyer 和谷歌研究院的其他研究人員預測大型語言模型將產生變革性影響 —— 但這些影響是什么仍然是一個懸而未決的問題。因此,他們要求研究界提供有關困難且多樣化任務的例子,以記錄追蹤 LLM 可以做什么的外部極限。這項工作被稱為 BIG-bench(Beyond the Imitation Game Benchmark) 項目,借用了艾倫?圖靈 (Alan Turing) 模仿游戲的名稱,目的是測試計算機是否能夠以讓人信服的人類方式回答問題。(這后來被稱為圖靈測試。)該研究組對 LLM 突然獲得前所未有新能力的例子特別感興趣。

正如人們所預料的那樣,在某些任務中,隨著復雜性的增加,模型的性能會得到更為穩(wěn)定且可預測性的提升。而在其他任務上,擴大參數數量并沒有對模型性能產生任何改善。而對于大約 5% 的任務,研究人員發(fā)現了他們所謂的突破 —— 在某個閾值范圍內,性能出現了快速、戲劇性的躍升。不過該閾值會因任務和模型而異。

例如,參數相對較少(僅有幾百萬)的模型可能無法成功完成三位數的加法或兩位數的乘法問題,但若擁有數百億參數,某些模型的運算準確性會飆升。類似的性能躍升也出現在其他的一些任務中,包括解碼國際音標、解讀單詞的字母、識別印度英語(印地語和英語的組合)段落中的冒犯性內容,以及生成與斯瓦希里語諺語類似的英語對應語。

但是,研究人員很快就意識到,模型的復雜性并不是其性能涌現的唯一驅動因素。如果數據質量足夠高,一些意想不到的能力可以從參數較少或是在較小數據集上訓練的較小模型中誘導而出。此外,查詢的措辭方式也會影響模型響應的準確性。例如,當 Dyer 和他的同事使用多項選擇格式(multiple-choice format)來安排電影表情符號任務時,準確性并不是突然的跳躍式提高,而是隨著模型復雜性的增加而逐漸提高。去年,在該領域的頂級學術會議 NeurIPS 上發(fā)表的一篇論文中,谷歌大腦(Google Brain)的研究人員展示了一個具備 prompt 的模型可以自我解釋(一種被稱為思維鏈推理的能力)如何正確解答數學應用題,而沒有該 prompt 的同一模型卻不能解答該應用題。

在研究清楚模型規(guī)模的影響之前,你不會知道它可能會出現什么能力以及它的缺陷是什么。

谷歌大腦系統(tǒng)性研究科學家 Yi Tay 指出,最近的研究表明思維鏈 prompt 改變了擴展曲線,從而改變了模型涌現出現的節(jié)點。谷歌研究人員在他們的 NeurIPS 論文中表明,使用思維鏈 prompts 可以引發(fā) BIG-bench 研究中未識別到的涌現行為。此類要求模型解釋其推理的 prompt 可能有助于研究人員開始調研涌現發(fā)生的原因。

布朗大學研究語言計算模型的計算機科學家 Ellie Pavlick 說,最近的這些發(fā)現至少表明了涌現出現原因的兩種可能性。第一個可能性是,正如與生物系統(tǒng)的比較所表明的那樣,更大的模型確實會自發(fā)地獲得新的能力。很可能是該模型學到了一些全新的和不同的東西,而這些東西在較小規(guī)模的模型上是沒有的,這就是我們都希望的情況,即當模型按比例放大時會發(fā)生一些根本性的變化。

Ellie Pavlick 還指出,另一種相對正常客觀的可能性是,看似涌現的事情可能反而是通過思維鏈式推理起作用的內部統(tǒng)計驅動過程的頂點。大型 LLM 可能只是在學習啟發(fā)式方法,而這些啟發(fā)式方法對于那些參數較少或數據質量較低的小模型來說卻是難以理解的。

不過 Pavlick 認為,由于我們不知道模型底層的工作機制是怎樣的,所以我們無法說出發(fā)生了哪些事情。

不可預測的能力和缺陷

但是大模型也存在缺陷,比如谷歌前段時間推出的人工智能聊天機器人 Bard,在回答與詹姆斯?韋布空間望遠鏡有關的問題時犯下事實性錯誤。

涌現導致了不可預測性,而不可預測性 —— 似乎隨著模型的規(guī)模擴大而增加,研究人員難以掌控。

「我們很難提前知道這些模型將如何被使用或部署,」Ganguli 說?!敢芯坑楷F現象,你必須考慮一個情況,在研究清楚模型規(guī)模的影響之前,你不會知道它可能會出現什么能力以及它的缺陷是什么?!?/span>


在去年 6 月發(fā)布的一篇 LLM 分析報告中,Anthropic 的研究人員研究了這些模型是否會表現出某些類型的種族或社會偏見,這與之前不是基于 LLM 的算法(用于預測哪些前罪犯可能會再次犯罪)所報告的那些不同。該研究的靈感來自一個與涌現直接相關的明顯悖論:隨著模型在擴大規(guī)模時性能提升,它們也可能增加不可預測現象的可能性,包括那些可能導致偏見或帶來害處的現象。

「某些有害行為會在某些模型中突然出現,」Ganguli 說。他指出最近一個對 LLM 的分析 —— 也被稱為 BBQ 基準 —— 表明社會偏見隨著大量參數的出現而出現?!?更大的模型突然變得更有偏見,」 他說,如果不能解決這一風險,可能會危及這些模型的使用。

但他還提出了一個相反的觀點:當研究人員簡單地告訴模型不要依賴刻板印象或社會偏見時 —— 字面上來說,就是通過輸入這些指令時,模型在其預測和響應時的偏見較小。這表明一些涌現的特性也可用于減少偏見。在 2 月份發(fā)布的一篇論文中,Anthropic 團隊報告了一種新的道德自我修正模式,在這種模式下,用戶提示程序是有幫助的、誠實的和無害的。

Ganguli 說,涌現既揭示了大型語言模型驚人的潛力,也揭示了其不可預測的風險。這些 LLM 的應用已經激增,因而更好理解這種雙面性將有助于利用語言模型能力的多樣性。

Ganguli 說:「我們正在研究用戶實際上是如何使用這些系統(tǒng)的,不過他們也在不斷地修補改進這些系統(tǒng)。我們花了很多的時間,只是為了與我們的模型聊天,使其功能更好。而實際上也就是從那時起,我們開始信任這些模型?!?/span>

原文鏈接:https://www.quantamagazine.org/the-unpredictable-abilities-emerging-from-large-ai-models-20230316/

探尋隱私計算最新行業(yè)技術,「首屆隱語開源社區(qū)開放日」報名啟程

春暖花開之際,誠邀廣大技術開發(fā)者&產業(yè)用戶相聚活動現場,體驗數智時代的隱私計算生態(tài)建設之旅,一站構建隱私計算產業(yè)體系知識:

  • 隱私計算領域焦點之性

  • 分布式計算系統(tǒng)的短板與升級策略

  • 隱私計算跨平臺互聯互通

  • 隱語開源框架金融行業(yè)實戰(zhàn)經驗

3月29日,北京·798機遇空間,隱語開源社區(qū)開放日,期待線下面基。
本站僅提供存儲服務,所有內容均由用戶發(fā)布,如發(fā)現有害或侵權內容,請點擊舉報。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
tokens危機到來怎么辦?新國立最新研究:為什么當前的大語言模型的訓練都是1次epoch?多epochs是否會降低大模型性能?
5620億參數,最大多模態(tài)模型控制機器人,谷歌把具身智能玩出新高度
面向數據安全共享的聯邦學習研究綜述
GPT-4背后的開發(fā)者:七大團隊,三十余位華人
AI大模型出現了人們不可預測的能力
碾壓LLaMA,“獵鷹”徹底開源!400億參數,萬億token訓練
更多類似文章 >>
生活服務
熱點新聞
分享 收藏 導長圖 關注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權!
如果VIP功能使用有故障,
可點擊這里聯系客服!

聯系客服