杨幂醉酒视频下载,青青美女视频

導(dǎo)語

大語言模型（LLMs）的因果推理能力一直是一個爭議性的問題，要在醫(yī)學(xué)、科學(xué)、法律和政策等對社會產(chǎn)生重大影響的領(lǐng)域使用大語言模型，研究其因果推理能力具有重要意義。近日發(fā)表于 arXiv 的最新論文“因果推理與大型語言模型：開辟因果關(guān)系的新前沿”，深入探討大語言模型及其因果推理能力。

在這項研究中，基于大語言模型的方法在因果發(fā)現(xiàn)、反事實推理和實際因果關(guān)系等多個基準(zhǔn)測試任務(wù)中表現(xiàn)出最高的準(zhǔn)確性。通過捕捉關(guān)于因果機(jī)制的常識和領(lǐng)域知識，并支持自然語言與形式方法之間的轉(zhuǎn)換，大語言模型為推進(jìn)因果推理開辟了新前沿。

關(guān)鍵詞：大語言模型，因果推理

梁金 | 編譯

論文題目：Causal Reasoning and Large Language Models: Opening a New Frontier for Causality
論文鏈接：https://arxiv.org/abs/2305.00050
作者：E K?c?man, R Ness, A Sharma, C Tan [Microsoft Research & University of Chicago]

諾貝爾物理學(xué)獎得主尤金·維格納在1960年曾撰文“數(shù)學(xué)在自然科學(xué)中不合理的有效性”（The Unreasonable Effectiveness of Mathematics in the Natural Sciences），表達(dá)他驚奇于數(shù)學(xué)對物理世界的深刻描述能力，數(shù)學(xué)常常指引物理理論的發(fā)展，甚至指引實驗預(yù)測。這項新研究的論文作者之一 Amit Sharma 則發(fā)表博客文章“大語言模型對于因果推理不合理的有效性”，探討大語言模型進(jìn)行因果推理的驚人準(zhǔn)確性。

文章題目：On the unreasonable effectiveness of LLMs for causal inference
文章鏈接：https://threadreaderapp.com/thread/1653457971844874240.html

在這項研究中，基于大語言模型的方法在多個因果基準(zhǔn)測試任務(wù)上表現(xiàn)出最高的準(zhǔn)確性?；贕PT-3.5/4的算法在多項因果推理任務(wù)中勝過現(xiàn)有算法，包括成對因果發(fā)現(xiàn)任務(wù)（97%，提高13個百分點），反事實推理任務(wù)（92%，提高20個百分點），和實際因果關(guān)系（在確定事件的必要和充分原因方面具有86%的準(zhǔn)確性）。

圖靈獎得主、計算機(jī)科學(xué)家 Judea Pearl 在推特轉(zhuǎn)發(fā)論文并評論道，大語言模型應(yīng)用于因果推理任務(wù)具有巨大的潛力，可能為“因果之梯”添加新的層級。

圖1. Judea Pearl 的因果之梯包括三個層級：關(guān)聯(lián)（association）、干預(yù)（intervention）和反事實（counterfactual），分別對應(yīng)逐級復(fù)雜的因果問題。

這到底是如何實現(xiàn)的呢？關(guān)鍵之處在于，大語言模型引入一種基于文本和元數(shù)據(jù)的新推理方式來實現(xiàn)這一目標(biāo)，稱之為基于知識的因果推理（knowledge-based causal reasoning），這與現(xiàn)有的基于數(shù)據(jù)的方法有所不同。具體而言，大語言模型擁有迄今為止被認(rèn)為只有人類才具有的能力，如使用知識生成因果圖，或從自然語言中識別背景因果關(guān)系。

大語言模型可以作為人類領(lǐng)域知識的代理，這對通常依賴于人類輸入的因果任務(wù)來說是一個巨大的勝利。通過捕捉關(guān)于因果機(jī)制的常識和領(lǐng)域知識，并支持自然語言與形式方法之間的轉(zhuǎn)換，大語言模型為推進(jìn)因果關(guān)系的研究、實踐和采用開辟了新前沿。

1. 大語言模型與因果發(fā)現(xiàn)

成對因果發(fā)現(xiàn)

在成對因果發(fā)現(xiàn)任務(wù)中，GPT3.5/4 之類的大語言模型在涵蓋物理學(xué)、工程學(xué)、醫(yī)學(xué)和土壤科學(xué)的圖賓根基準(zhǔn)測試中，以超過 90% 的的準(zhǔn)確率正確預(yù)測成對變量的因果方向（A是否導(dǎo)致B？），此前最高的準(zhǔn)確率是83%。提示語使用變量名，并詢問更可能的因果方向。

圖2. 成對因果關(guān)系測試任務(wù)試圖確定，變量A是否導(dǎo)致變量B，或者反之。

在關(guān)于神經(jīng)性疼痛的專門醫(yī)學(xué)數(shù)據(jù)集上，大語言模型也獲得了類似的高準(zhǔn)確率。在這種情況下，因果關(guān)系并不明顯，然而 GPT-4 以96%的準(zhǔn)確率檢測到正確的因果方向。提示語的選擇對結(jié)果有很大影響。

圖3. 神經(jīng)性疼痛診斷基準(zhǔn)中的成對因果關(guān)系。

發(fā)現(xiàn)完整因果圖

對于更困難的任務(wù)，發(fā)現(xiàn)完整的因果圖，此前在醫(yī)學(xué)數(shù)據(jù)集上的工作預(yù)測大語言模型無效，然而事實并非如此。通過簡單的提示調(diào)整，測試分?jǐn)?shù)迅速從0.1上升至0.7。在一個北極科學(xué)數(shù)據(jù)集上，GPT-4 超越了最近的深度學(xué)習(xí)方法。當(dāng)然，大語言模型也會犯一些愚蠢的錯誤（例如回答鮑魚的長度決定了其年齡），所以在關(guān)鍵應(yīng)用上仍然難以信任。但結(jié)果令人驚訝的地方在于，在涵蓋廣泛人類知識的數(shù)據(jù)集上，這類錯誤是如此之少。

這對因果推理具有重要意義。構(gòu)建因果圖可能是因果分析中最具挑戰(zhàn)性的部分。這些結(jié)果表明，我們可以不再依賴人類提供完整的因果圖，而可以使用大語言模型來生成候選因果圖或幫助評估。

圖4. 大語言模型檢測因果方向的推理過程。左側(cè)的因果推理過程給出了正確答案：鮑魚的年齡導(dǎo)致了其長度；右側(cè)的例子需要同樣的因果知識，但大語言模型的論證不連貫，給出了錯誤答案。

2. 大語言模型用于現(xiàn)實因果推理

反事實推理

論文的第二部分關(guān)注反事實推理。大語言模型能否從自然語言中推斷因果關(guān)系？

例如：一個女人看到了火。如果女人觸摸了火，會發(fā)生什么？

對于實際因果關(guān)系，由于人類需要判斷相關(guān)變量及其因果貢獻(xiàn)，這是一個非常具有挑戰(zhàn)性的任務(wù)。GPT3.5/4 在這方面優(yōu)于現(xiàn)有算法。在預(yù)測日常反事實情況結(jié)果的 CRASS 基準(zhǔn)測試中，GPT-4 獲得 92% 的準(zhǔn)確率，比之前的最好結(jié)果高出 20%。

推斷必要和充分原因

接下來，大語言模型能否推斷必要和充分原因？研究中考慮了15個具有挑戰(zhàn)性的實際因果事件。GPT3.5 在這種情況下失效了，但 GPT4 仍然達(dá)到了86%的準(zhǔn)確率。

推斷是否符合社會規(guī)范

這些發(fā)現(xiàn)意味著大語言模型可以作為工具，直接從混亂的人類文本中進(jìn)行因果歸因。雖然大語言模型可以從文本中推斷相關(guān)變量，但評估人類因素（例如，一個行動是否被認(rèn)為合乎社會規(guī)范的？）對大語言模型來說仍然是艱難的任務(wù)。在需要算法匹配人類直覺的 Big Bench 因果判斷任務(wù)上，GPT-3.5/4獲得了較低的準(zhǔn)確率。

3. 大語言模型推動因果推理的新前沿

總體而言，大語言模型為因果推理帶來了新的能力，與現(xiàn)有方法相輔相成。我們看到了因果推理充滿前景的未來，大語言模型可以協(xié)助和自動化因果推理的各個步驟，在基于知識的因果推理和基于數(shù)據(jù)的因果推理之間無縫轉(zhuǎn)變。

圖5. 在處理現(xiàn)實世界因果任務(wù)時，人類會在基于邏輯的因果推理和基于協(xié)變的因果推理之間轉(zhuǎn)換。現(xiàn)在，大語言模型能夠協(xié)助和自動化因果推理的每一個步驟，幫助實現(xiàn)協(xié)變與邏輯因果推理的統(tǒng)一。

大語言模型并不完美，具有不可預(yù)測的失效模式。魯棒性檢測表明存在記憶的因果關(guān)系，這部分解釋了大語言模型的表現(xiàn)。因此，我們?nèi)匀恍枰硇缘囊蚬惴ǎ贿^大語言模型可以用來擴(kuò)展其范圍和能力。

展望未來，這項工作提出了更多問題而非給出答案。大語言模型如何幫助重新發(fā)明或增強(qiáng)現(xiàn)有的因果任務(wù)，如何讓大語言模型的推理更加魯棒，是許多研究關(guān)注的問題。

AI+Science 讀書會

AI+Science 是近年興起的將人工智能和科學(xué)相結(jié)合的一種趨勢。一方面是 AI for Science，機(jī)器學(xué)習(xí)和其他 AI 技術(shù)可以用來解決科學(xué)研究中的問題，從預(yù)測天氣和蛋白質(zhì)結(jié)構(gòu)，到模擬星系碰撞、設(shè)計優(yōu)化核聚變反應(yīng)堆，甚至像科學(xué)家一樣進(jìn)行科學(xué)發(fā)現(xiàn)，被稱為科學(xué)發(fā)現(xiàn)的“第五范式”。另一方面是 Science for AI，科學(xué)尤其是物理學(xué)中的規(guī)律和思想啟發(fā)機(jī)器學(xué)習(xí)理論，為人工智能的發(fā)展提供全新的視角和方法。

本站僅提供存儲服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點擊舉報。

中文字幕理论片,69视频免费在线观看,亚洲成人app,国产1级毛片,刘涛最大尺度戏视频,欧美亚洲美女视频,2021韩国美女仙女屋vip视频

1. 大語言模型與因果發(fā)現(xiàn)

2. 大語言模型用于現(xiàn)實因果推理

3. 大語言模型推動因果推理的新前沿