大語言模型(LLMs)的因果推理能力一直是一個爭議性的問題,要在醫(yī)學(xué)、科學(xué)、法律和政策等對社會產(chǎn)生重大影響的領(lǐng)域使用大語言模型,研究其因果推理能力具有重要意義。近日發(fā)表于 arXiv 的最新論文“因果推理與大型語言模型:開辟因果關(guān)系的新前沿”,深入探討大語言模型及其因果推理能力。
在這項研究中,基于大語言模型的方法在因果發(fā)現(xiàn)、反事實推理和實際因果關(guān)系等多個基準(zhǔn)測試任務(wù)中表現(xiàn)出最高的準(zhǔn)確性。通過捕捉關(guān)于因果機(jī)制的常識和領(lǐng)域知識,并支持自然語言與形式方法之間的轉(zhuǎn)換,大語言模型為推進(jìn)因果推理開辟了新前沿。
論文題目:Causal Reasoning and Large Language Models: Opening a New Frontier for Causality論文鏈接:https://arxiv.org/abs/2305.00050作者:E K?c?man, R Ness, A Sharma, C Tan [Microsoft Research & University of Chicago]
諾貝爾物理學(xué)獎得主尤金·維格納在1960年曾撰文“數(shù)學(xué)在自然科學(xué)中不合理的有效性”(The Unreasonable Effectiveness of Mathematics in the Natural Sciences),表達(dá)他驚奇于數(shù)學(xué)對物理世界的深刻描述能力,數(shù)學(xué)常常指引物理理論的發(fā)展,甚至指引實驗預(yù)測。這項新研究的論文作者之一 Amit Sharma 則發(fā)表博客文章“大語言模型對于因果推理不合理的有效性”,探討大語言模型進(jìn)行因果推理的驚人準(zhǔn)確性。文章題目:On the unreasonable effectiveness of LLMs for causal inference文章鏈接:https://threadreaderapp.com/thread/1653457971844874240.html
在這項研究中,基于大語言模型的方法在多個因果基準(zhǔn)測試任務(wù)上表現(xiàn)出最高的準(zhǔn)確性?;贕PT-3.5/4的算法在多項因果推理任務(wù)中勝過現(xiàn)有算法,包括成對因果發(fā)現(xiàn)任務(wù)(97%,提高13個百分點),反事實推理任務(wù)(92%,提高20個百分點),和實際因果關(guān)系(在確定事件的必要和充分原因方面具有86%的準(zhǔn)確性)。圖靈獎得主、計算機(jī)科學(xué)家 Judea Pearl 在推特轉(zhuǎn)發(fā)論文并評論道,大語言模型應(yīng)用于因果推理任務(wù)具有巨大的潛力,可能為“因果之梯”添加新的層級。圖1. Judea Pearl 的因果之梯包括三個層級:關(guān)聯(lián)(association)、干預(yù)(intervention)和反事實(counterfactual),分別對應(yīng)逐級復(fù)雜的因果問題。
這到底是如何實現(xiàn)的呢?關(guān)鍵之處在于,大語言模型引入一種基于文本和元數(shù)據(jù)的新推理方式來實現(xiàn)這一目標(biāo),稱之為基于知識的因果推理(knowledge-based causal reasoning),這與現(xiàn)有的基于數(shù)據(jù)的方法有所不同。具體而言,大語言模型擁有迄今為止被認(rèn)為只有人類才具有的能力,如使用知識生成因果圖,或從自然語言中識別背景因果關(guān)系。大語言模型可以作為人類領(lǐng)域知識的代理,這對通常依賴于人類輸入的因果任務(wù)來說是一個巨大的勝利。通過捕捉關(guān)于因果機(jī)制的常識和領(lǐng)域知識,并支持自然語言與形式方法之間的轉(zhuǎn)換,大語言模型為推進(jìn)因果關(guān)系的研究、實踐和采用開辟了新前沿。在成對因果發(fā)現(xiàn)任務(wù)中,GPT3.5/4 之類的大語言模型在涵蓋物理學(xué)、工程學(xué)、醫(yī)學(xué)和土壤科學(xué)的圖賓根基準(zhǔn)測試中,以超過 90% 的的準(zhǔn)確率正確預(yù)測成對變量的因果方向(A是否導(dǎo)致B?),此前最高的準(zhǔn)確率是83%。提示語使用變量名,并詢問更可能的因果方向。圖2. 成對因果關(guān)系測試任務(wù)試圖確定,變量A是否導(dǎo)致變量B,或者反之。在關(guān)于神經(jīng)性疼痛的專門醫(yī)學(xué)數(shù)據(jù)集上,大語言模型也獲得了類似的高準(zhǔn)確率。在這種情況下,因果關(guān)系并不明顯,然而 GPT-4 以96%的準(zhǔn)確率檢測到正確的因果方向。提示語的選擇對結(jié)果有很大影響。圖3. 神經(jīng)性疼痛診斷基準(zhǔn)中的成對因果關(guān)系。對于更困難的任務(wù),發(fā)現(xiàn)完整的因果圖,此前在醫(yī)學(xué)數(shù)據(jù)集上的工作預(yù)測大語言模型無效,然而事實并非如此。通過簡單的提示調(diào)整,測試分?jǐn)?shù)迅速從0.1上升至0.7。在一個北極科學(xué)數(shù)據(jù)集上,GPT-4 超越了最近的深度學(xué)習(xí)方法。當(dāng)然,大語言模型也會犯一些愚蠢的錯誤(例如回答鮑魚的長度決定了其年齡),所以在關(guān)鍵應(yīng)用上仍然難以信任。但結(jié)果令人驚訝的地方在于,在涵蓋廣泛人類知識的數(shù)據(jù)集上,這類錯誤是如此之少。這對因果推理具有重要意義。構(gòu)建因果圖可能是因果分析中最具挑戰(zhàn)性的部分。這些結(jié)果表明,我們可以不再依賴人類提供完整的因果圖,而可以使用大語言模型來生成候選因果圖或幫助評估。圖4. 大語言模型檢測因果方向的推理過程。左側(cè)的因果推理過程給出了正確答案:鮑魚的年齡導(dǎo)致了其長度;右側(cè)的例子需要同樣的因果知識,但大語言模型的論證不連貫,給出了錯誤答案。
論文的第二部分關(guān)注反事實推理。大語言模型能否從自然語言中推斷因果關(guān)系?
例如:一個女人看到了火。如果女人觸摸了火,會發(fā)生什么?
對于實際因果關(guān)系,由于人類需要判斷相關(guān)變量及其因果貢獻(xiàn),這是一個非常具有挑戰(zhàn)性的任務(wù)。GPT3.5/4 在這方面優(yōu)于現(xiàn)有算法。在預(yù)測日常反事實情況結(jié)果的 CRASS 基準(zhǔn)測試中,GPT-4 獲得 92% 的準(zhǔn)確率,比之前的最好結(jié)果高出 20%。
接下來,大語言模型能否推斷必要和充分原因?研究中考慮了15個具有挑戰(zhàn)性的實際因果事件。GPT3.5 在這種情況下失效了,但 GPT4 仍然達(dá)到了86%的準(zhǔn)確率。
這些發(fā)現(xiàn)意味著大語言模型可以作為工具,直接從混亂的人類文本中進(jìn)行因果歸因。雖然大語言模型可以從文本中推斷相關(guān)變量,但評估人類因素(例如,一個行動是否被認(rèn)為合乎社會規(guī)范的?)對大語言模型來說仍然是艱難的任務(wù)。在需要算法匹配人類直覺的 Big Bench 因果判斷任務(wù)上,GPT-3.5/4獲得了較低的準(zhǔn)確率。總體而言,大語言模型為因果推理帶來了新的能力,與現(xiàn)有方法相輔相成。我們看到了因果推理充滿前景的未來,大語言模型可以協(xié)助和自動化因果推理的各個步驟,在基于知識的因果推理和基于數(shù)據(jù)的因果推理之間無縫轉(zhuǎn)變。圖5. 在處理現(xiàn)實世界因果任務(wù)時,人類會在基于邏輯的因果推理和基于協(xié)變的因果推理之間轉(zhuǎn)換。現(xiàn)在,大語言模型能夠協(xié)助和自動化因果推理的每一個步驟,幫助實現(xiàn)協(xié)變與邏輯因果推理的統(tǒng)一。
大語言模型并不完美,具有不可預(yù)測的失效模式。魯棒性檢測表明存在記憶的因果關(guān)系,這部分解釋了大語言模型的表現(xiàn)。因此,我們?nèi)匀恍枰硇缘囊蚬惴ǎ贿^大語言模型可以用來擴(kuò)展其范圍和能力。展望未來,這項工作提出了更多問題而非給出答案。大語言模型如何幫助重新發(fā)明或增強(qiáng)現(xiàn)有的因果任務(wù),如何讓大語言模型的推理更加魯棒,是許多研究關(guān)注的問題。AI+Science 是近年興起的將人工智能和科學(xué)相結(jié)合的一種趨勢。一方面是 AI for Science,機(jī)器學(xué)習(xí)和其他 AI 技術(shù)可以用來解決科學(xué)研究中的問題,從預(yù)測天氣和蛋白質(zhì)結(jié)構(gòu),到模擬星系碰撞、設(shè)計優(yōu)化核聚變反應(yīng)堆,甚至像科學(xué)家一樣進(jìn)行科學(xué)發(fā)現(xiàn),被稱為科學(xué)發(fā)現(xiàn)的“第五范式”。另一方面是 Science for AI,科學(xué)尤其是物理學(xué)中的規(guī)律和思想啟發(fā)機(jī)器學(xué)習(xí)理論,為人工智能的發(fā)展提供全新的視角和方法。
本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請
點擊舉報。