新智元報(bào)道
語(yǔ)言如何影響思維?人類(lèi)如何從語(yǔ)言中獲取意義?
這兩個(gè)基本問(wèn)題是我們構(gòu)建類(lèi)人智能的關(guān)鍵。
長(zhǎng)久以來(lái),理想中的AI,一直是通往人類(lèi)水平的AI,為此業(yè)界大牛Yann LeCun還曾提出了「世界模型」的構(gòu)想。
他的愿景是,創(chuàng)造出一個(gè)機(jī)器,讓它能夠?qū)W習(xí)世界如何運(yùn)作的內(nèi)部模型,這樣它就可以更快速地學(xué)習(xí),為完成復(fù)雜任務(wù)做出計(jì)劃,并且隨時(shí)應(yīng)對(duì)不熟悉的新情況。
而最近麻省理工大學(xué)和斯坦福的學(xué)者提出了一個(gè)理性意義構(gòu)建模型( Rational Meaning Construction),這是一種用于語(yǔ)言信息思維的計(jì)算框架,可將自然語(yǔ)言的神經(jīng)模型與概率模型相結(jié)合。
論文第一作者是來(lái)自麻省理工大學(xué)大腦與認(rèn)知科學(xué)學(xué)院的一名五年級(jí)博士生。
他們將語(yǔ)言意義定義為從自然語(yǔ)言到概率思維語(yǔ)言(PLoT)的上下文相關(guān)映射——概率、生成世界建模的通用符號(hào)基礎(chǔ)。
這種架構(gòu)集成了兩種以前從未結(jié)合在一起的強(qiáng)大計(jì)算工具:他們用概率程序?qū)λ季S進(jìn)行建模,并通過(guò)大型語(yǔ)言模型(LLM)對(duì)意義構(gòu)建進(jìn)行建模。
論文鏈接:https://arxiv.org/abs//2306.12672
Github鏈接:https://github.com/gabegrand/world-models
現(xiàn)在以ChatGPT為代表的大語(yǔ)言模型大熱,一會(huì)兒語(yǔ)言模型一會(huì)兒自然語(yǔ)言處理的一下容易搞不清楚,這里的「語(yǔ)言」又和語(yǔ)言學(xué)有什么關(guān)系?
首先從學(xué)科劃分來(lái)說(shuō),語(yǔ)言學(xué)是語(yǔ)言學(xué),大語(yǔ)言模型和自然語(yǔ)言處理則屬于人工智能學(xué),第一個(gè)概念是一個(gè)學(xué)科,第二、三個(gè)概念屬于另一個(gè)學(xué)科。
大語(yǔ)言模型和自然語(yǔ)言處理不是「與」的關(guān)系,也即不是并列關(guān)系。自然語(yǔ)言處理是研究如何用人工智能的方式來(lái)處理文本內(nèi)容,方式有很多,其中有一種叫「語(yǔ)言模型」的方式。
從人工智能的角度來(lái)看,語(yǔ)言模型與其說(shuō)是一種模型,不如說(shuō)是一種用于訓(xùn)練模型的預(yù)測(cè)任務(wù)。
通俗來(lái)講,是根據(jù)給定一串文本要求模型預(yù)測(cè)下一個(gè)詞,或者在一串文本中間挖走一個(gè)詞要求模型做完形填空。模型通過(guò)不斷迭代提升預(yù)測(cè)性能。
有網(wǎng)友還貼心的歸納了世界模型的迭代規(guī)律。
說(shuō)了那么多,下面來(lái)看看這次提出的模型架構(gòu)。
模型架構(gòu)
語(yǔ)言信息思維的計(jì)算方法依賴(lài)于神經(jīng)符號(hào)連續(xù)體:一方面,經(jīng)典符號(hào)模型(Classical symbol models)(右上)產(chǎn)生系統(tǒng)的、結(jié)構(gòu)化的推論,但通常僅限于狹窄的語(yǔ)言領(lǐng)域,并且通常需要手工設(shè)計(jì)。
另一方面,大型語(yǔ)言模型(左上)在開(kāi)放域自然語(yǔ)言方面取得了非凡的能力,但難以在支持連貫的推論、預(yù)測(cè)和計(jì)劃的一致的世界狀態(tài)中進(jìn)行推理。
而我們的理性意義構(gòu)建框架將語(yǔ)言信息思維分解為兩個(gè)模塊:
意義函數(shù)將自然語(yǔ)言轉(zhuǎn)換為概率編程語(yǔ)言(PPL)語(yǔ)句,這些語(yǔ)句代表符號(hào)世界模型的語(yǔ)言意義。
推理函數(shù)計(jì)算可能世界空間上與語(yǔ)言信息一致并以語(yǔ)言信息為條件的概率。
與傳統(tǒng)的認(rèn)知觀(guān)點(diǎn)一樣,思維的核心是構(gòu)建通用表示,用于對(duì)世界上的實(shí)體和事件進(jìn)行建模,足以支持不確定性下的理性、連貫的推論,并規(guī)劃實(shí)現(xiàn)我們目標(biāo)的行動(dòng)。
然后,我們考慮語(yǔ)言如何與該架構(gòu)相關(guān)聯(lián),以支持基于語(yǔ)言的思維——語(yǔ)言如何建立世界建模和推理,以指導(dǎo)、約束和驅(qū)動(dòng)我們的下游思維,并培養(yǎng)新的思維能力。
接下來(lái)是構(gòu)成本文推理核心的四個(gè)領(lǐng)域:
概率推理(Probabilistic reasoning)需要整合稀疏的證據(jù)來(lái)預(yù)測(cè)不確定事件的結(jié)果,例如拔河比賽的獲勝者
關(guān)系推理(Relational reasoning)涉及基于關(guān)系信息維護(hù)和更新有關(guān)結(jié)構(gòu)化領(lǐng)域(例如家譜)的連貫信念
感知和物理推理(Perceptual and physical reasoning)將語(yǔ)言與我們對(duì)外部世界物體的感覺(jué)和直觀(guān)物理知識(shí)聯(lián)系起來(lái),例如桌面上的廚房用品。
社會(huì)推理(Social reasoning)涉及對(duì)其他智能主體的思想進(jìn)行推理,例如他們的目標(biāo)、偏好和環(huán)境如何影響他們?cè)谑澜缰泻叫袝r(shí)的行為
在所有領(lǐng)域,我們提出了一個(gè)統(tǒng)一的框架,將語(yǔ)言轉(zhuǎn)換為概率編程語(yǔ)言的代碼,以促進(jìn)類(lèi)人推理。
他們從理性、概率的角度對(duì)生物智能和人類(lèi)語(yǔ)言進(jìn)行了三項(xiàng)觀(guān)察:
對(duì)智能思維的理性視角
生物智能包含許多計(jì)算能力。我們?cè)谶@里關(guān)注的基本思想概念集中在理性推理和決策上為自己的目標(biāo)服務(wù),從這個(gè)角度來(lái)看,思想包含了對(duì)世界進(jìn)行建模的系統(tǒng)。
對(duì)語(yǔ)言的理性看法
與思想一樣,語(yǔ)言也包含許多系統(tǒng)和能力,我們對(duì)語(yǔ)言采取廣泛的理性視角——我們認(rèn)為語(yǔ)言是一種以目標(biāo)為導(dǎo)向的行動(dòng)系統(tǒng),用于將思想外化并與其他智能生物進(jìn)行交流。
對(duì)語(yǔ)言和思想的資源理性視角
最后,我們對(duì)語(yǔ)言和思維的綜合計(jì)算方法建立在人類(lèi)是資源理性思考者的廣泛證據(jù)之上,在時(shí)間和內(nèi)存有限的約束下,我們合理分配計(jì)算資源,以便做出有用的推論。
為了說(shuō)明我們的框架,讓我們考慮一個(gè)具體場(chǎng)景,重點(diǎn)關(guān)注在給定預(yù)先指定的世界模型的情況下根據(jù)語(yǔ)言進(jìn)行推理。
假設(shè)一位朋友正在向您講述之前發(fā)生的一場(chǎng)拔河比賽:
(A) 生成模型定義了兩個(gè)潛在特征,即「力量和懶惰」,并指定了它們?nèi)绾蜗嗷プ饔靡源_定團(tuán)隊(duì)強(qiáng)度。通過(guò)結(jié)合 (A) 和 (B),我們可以少量提示LLM進(jìn)行翻譯,將開(kāi)放式自然語(yǔ)言 (C) 轉(zhuǎn)化為 Church 語(yǔ)句 (D),捕獲該領(lǐng)域的語(yǔ)言意義。
由此產(chǎn)生的概率推論透明地代表了模型的信念,并且自然地捕捉關(guān)于玩家潛在特征的類(lèi)似人類(lèi)的直覺(jué)。
面對(duì)世界模型的不確定性,我們輸入問(wèn)題如,「如果他們?cè)俅伪荣?,喬什?huì)擊敗加布嗎?」
在我們的框架中,我們將問(wèn)題轉(zhuǎn)化為Church中的查詢(xún)語(yǔ)句,以評(píng)估興趣的數(shù)量。
調(diào)用查詢(xún)會(huì)觸發(fā)概率計(jì)算,模擬模型下可能的世界,并受到迄今為止任何觀(guān)察的約束。
查詢(xún)表達(dá)式在每個(gè)模擬世界中進(jìn)行評(píng)估,產(chǎn)生多個(gè)樣本,這些樣本形成感興趣值的后驗(yàn)分布。
在本工作的整個(gè)示例中,我們自由地交織查詢(xún)和條件語(yǔ)句,就像自然對(duì)話(huà)中的事實(shí)陳述之間偶爾會(huì)出現(xiàn)問(wèn)題一樣。
此行為是通過(guò)讀取-評(píng)估-打印循環(huán) (REPL) 實(shí)現(xiàn)的,該循環(huán)根據(jù)出現(xiàn)的所有條件語(yǔ)句評(píng)估查詢(xún)對(duì)話(huà)歷史中的那一點(diǎn)。
在我們的模型中,我們假設(shè)用戶(hù)指定每個(gè)話(huà)語(yǔ)是否是條件或查詢(xún),但大語(yǔ)言模型可能可以準(zhǔn)確地對(duì)未注釋的話(huà)語(yǔ)進(jìn)行分類(lèi)。
結(jié)論
人類(lèi)語(yǔ)言的意義理論應(yīng)該解釋語(yǔ)言如何與我們的思想相關(guān),這一愿景是人類(lèi)語(yǔ)言和意義理論的核心,但人工智能最廣泛的愿景長(zhǎng)期以來(lái)也是計(jì)算機(jī)共享我們的語(yǔ)言,能夠像我們期望被其他人理解的那樣有意義地理解我們。
當(dāng)今的大型語(yǔ)言模型在許多重要方面都在構(gòu)建這一現(xiàn)實(shí)方面取得了驚人的進(jìn)步,我們第一次構(gòu)建了能夠流利地與我們對(duì)話(huà)的計(jì)算機(jī)系統(tǒng)。
不過(guò),我們還需要做更多的工作來(lái)捕捉我們自己與語(yǔ)言的關(guān)系。我們不像大型語(yǔ)言模型那樣學(xué)習(xí)語(yǔ)言。我們首先思考,然后從少得多的輸入中學(xué)習(xí)語(yǔ)言如何映射到我們的思想中。
我們自己的世界模式和信仰并不是我們從語(yǔ)言中收集到的脆弱的副產(chǎn)品——它們是我們認(rèn)知的基礎(chǔ)和核心,是為了我們的意圖和愿望而有目的地構(gòu)建和維護(hù)的。
通過(guò)使用神經(jīng)模型將句子翻譯成概率程序,我們解決了世界模型如何從描述不確定情況、關(guān)系結(jié)構(gòu)、具體情況和目標(biāo)導(dǎo)向推理的語(yǔ)言中提取含義并推理引擎如何推理。
同時(shí)也留下了許多懸而未決的問(wèn)題,例如如何將該框架擴(kuò)展到更復(fù)雜的語(yǔ)言,以及如何自動(dòng)化為新領(lǐng)域構(gòu)建意義表示的過(guò)程。
這些問(wèn)題共同為解決跨越人工智能和認(rèn)知科學(xué)的許多子領(lǐng)域建模語(yǔ)言、推理及其交互方面的核心挑戰(zhàn)提供了路線(xiàn)圖。
聯(lián)系客服