章子怡亲吻视频,美女视频yy

人工智能已經(jīng)可以解決復(fù)雜的數(shù)學(xué)問題了，還有哪些工作是無法被取代的？

2023.02.20 江蘇

大型語言模型（LLMs）是指采用機(jī)器學(xué)習(xí)技術(shù)，利用大量文本數(shù)據(jù)進(jìn)行訓(xùn)練，以能夠自然地理解和生成自然語言文本的人工智能模型。這些模型可以用于自然語言處理任務(wù)，如文本分類、文本生成、語言翻譯、問題回答和摘要生成等。最近幾年，由于深度學(xué)習(xí)技術(shù)的進(jìn)步，大型語言模型已經(jīng)取得了令人矚目的成就，例如 OpenAI 的 GPT 系列模型和 Google 的 BERT 模型等。這些模型似乎具有人類的智力和創(chuàng)造力。他們對書面問題提供詳細(xì)而清晰的回答。

幾十年來，數(shù)學(xué)家一直試圖將證明轉(zhuǎn)化為計(jì)算機(jī)代碼，這一過程被稱為形式化。如果你把證明寫成代碼，計(jì)算機(jī)運(yùn)行代碼時(shí)沒有錯(cuò)誤，你就知道證明是正確的。但證明一個(gè)命題可能需要數(shù)百或數(shù)千個(gè)小時(shí)。

在過去的五年里，人工智能研究人員已經(jīng)開始教LLMs自動(dòng)將數(shù)學(xué)語句形式化。LLMs已經(jīng)可以將一種自然語言翻譯成另一種自然語言。但從數(shù)學(xué)到代碼的轉(zhuǎn)換是一個(gè)艱巨的挑戰(zhàn)。

盡管LLMs在自然語言處理等領(lǐng)域取得了很大的成功，但是它們也存在一些問題：

數(shù)據(jù)偏差：LLMs 的性能取決于其訓(xùn)練數(shù)據(jù)。如果訓(xùn)練數(shù)據(jù)存在偏差，模型就會學(xué)到這些偏差，從而影響其性能。
偏見：LLMs 可能會從其訓(xùn)練數(shù)據(jù)中學(xué)習(xí)到偏見，并將這些偏見反映在其生成的文本中。這可能導(dǎo)致出現(xiàn)歧視性語言或錯(cuò)誤的陳述。
知識表示：LLMs 沒有真正的理解語言或世界的知識，它們只是學(xué)習(xí)出現(xiàn)在數(shù)據(jù)中的模式。這意味著它們可能會在處理新的情況時(shí)出現(xiàn)問題。
模型大?。篖LMs 需要大量的計(jì)算資源和存儲空間，以及大量的訓(xùn)練數(shù)據(jù)。這使得訓(xùn)練和部署成本非常高。
環(huán)境依賴性：LLMs 的性能取決于輸入的上下文和環(huán)境。如果輸入的數(shù)據(jù)與訓(xùn)練數(shù)據(jù)不同，它們可能會產(chǎn)生錯(cuò)誤的輸出。

基于上述問題，這些模型有時(shí)會做出不合邏輯的陳述，或者自信地把謊言說成事實(shí)。谷歌AI的吳宇懷表示：“我們不想創(chuàng)建一個(gè)像人類一樣說話的語言模型，我們想讓它明白自己在說什么?！?/span>

吳是最近兩篇論文的合著者，這兩篇論文提出了一種實(shí)現(xiàn)這一目標(biāo)的方法。它們是關(guān)于一個(gè)非常具體的應(yīng)用的：訓(xùn)練人工智能系統(tǒng)做數(shù)學(xué)。

第一篇論文描述了如何教LLM將普通的數(shù)學(xué)語句轉(zhuǎn)換為計(jì)算機(jī)可以運(yùn)行和檢查的正式代碼。第二篇訓(xùn)練LLM不僅要理解自然語言數(shù)學(xué)問題，而且要使用一個(gè)名為Minerva的系統(tǒng)實(shí)際解決這些問題。

Minerva指的是一個(gè)用于解決數(shù)學(xué)問題的系統(tǒng)，它是一個(gè)組合了自然語言處理和數(shù)學(xué)推理的系統(tǒng)。這個(gè)系統(tǒng)的作用是幫助計(jì)算機(jī)理解自然語言中的數(shù)學(xué)問題，從而能夠通過推理和計(jì)算得出問題的答案。具體來說，這個(gè)系統(tǒng)包括多個(gè)子系統(tǒng)，包括自然語言處理、問題建模、數(shù)學(xué)知識庫和推理引擎等。通過這些子系統(tǒng)的協(xié)作，Minerva能夠有效地解決自然語言數(shù)學(xué)問題。

總之，這些論文提出了未來人工智能設(shè)計(jì)的藍(lán)圖，LLM可以通過數(shù)學(xué)思維學(xué)習(xí)推理。

研究人員主要使用名為Codex的LLM（基于GPT-3）。為了讓Codex能夠很好地理解數(shù)學(xué)，從而實(shí)現(xiàn)自動(dòng)形式化，他們只提供了兩個(gè)自然語言數(shù)學(xué)問題示例及其正式代碼翻譯。在簡短的訓(xùn)練之后，Codex給出了來自高中比賽的近4000道數(shù)學(xué)題目的自然語言陳述。起初，Codex準(zhǔn)確率略低于30%。當(dāng)它失敗時(shí)，它創(chuàng)造了一些術(shù)語來填補(bǔ)翻譯詞典的空白。

在此研究之前，Codex從未嘗試在自然語言和形式數(shù)學(xué)代碼之間進(jìn)行翻譯。但Codex通過在GitHub上的培訓(xùn)熟悉代碼，也熟悉互聯(lián)網(wǎng)上的自然語言數(shù)學(xué)。在此基礎(chǔ)上，研究人員只需向它展示幾個(gè)他們想要的例子，Codex就可以開始連接這些點(diǎn)了。

研究人員不僅試圖教LLMs如何翻譯數(shù)學(xué)問題，而且還試圖教他們?nèi)绾谓鉀Q問題。

Minerva數(shù)學(xué)

第二篇論文雖然獨(dú)立于早期的自動(dòng)形式化工作，但也有類似的風(fēng)格。谷歌的研究團(tuán)隊(duì)訓(xùn)練了一種LLM來詳細(xì)回答高中競賽級別的數(shù)學(xué)問題，例如“平行于y = 4x + 6的直線經(jīng)過(5,10)，這條直線與y軸交點(diǎn)的y坐標(biāo)是多少?”

作者從一個(gè)名為PaLM的LLM開始，它已經(jīng)接受了一般自然語言內(nèi)容的訓(xùn)練，類似于GPT-3。他們將這個(gè)增強(qiáng)模型命名為Minerva。

研究人員向Minerva展示了他們想要的四個(gè)例子。然后他們在一系列定量推理問題上測試了這個(gè)模型。Minerva的表現(xiàn)因科目而異：在某些科目如代數(shù)上，它的正確率略高于一半，而在其他科目如幾何上則略低于一半。

作者們擔(dān)心的一個(gè)問題是Minerva正確回答問題只是因?yàn)樗呀?jīng)在訓(xùn)練數(shù)據(jù)中看到了這些問題或類似的問題。這個(gè)問題被稱為“污染（pollution）”，它使得人們很難知道一個(gè)模型是真正在解決問題，還是只是在復(fù)制別人的工作。

為了防止這種可能性，研究人員讓Minerva參加了波蘭的2022年國家數(shù)學(xué)考試，它答對了65%的問題。這表明訓(xùn)練有素的模型具有解決數(shù)學(xué)問題的能力。

橋

盡管Minerva的工作令人印象深刻，但它帶有一個(gè)嚴(yán)重的問題，作者也指出了這一點(diǎn)：Minerva沒有辦法自動(dòng)驗(yàn)證它是否正確地回答了問題。即使它確實(shí)正確地回答了一個(gè)問題，它也不能檢查它所采取的步驟是否有效。

換句話說，Minerva它不能檢查它的工作，這意味著它需要依靠人類的反饋來變得更好。因此，研究人員懷疑這種方法能否擴(kuò)大到復(fù)雜問題上。

吳指出，一方面，如果你研究自然語言或Minerva類型的推理，有很多數(shù)據(jù)可以利用——整個(gè)數(shù)學(xué)互聯(lián)網(wǎng)，但本質(zhì)上你不能用它進(jìn)行強(qiáng)化學(xué)習(xí)。另一方面，像Isabelle/HOL這樣的證明助手提供了一個(gè)基礎(chǔ)的環(huán)境，但幾乎沒有數(shù)據(jù)可供訓(xùn)練。我們需要某種橋梁把它們連接起來。

自動(dòng)形式化就是那個(gè)橋。自動(dòng)形式化的改進(jìn)可以幫助數(shù)學(xué)家在編寫證明和驗(yàn)證工作正確性方面實(shí)現(xiàn)自動(dòng)化。

通過結(jié)合這兩篇論文的進(jìn)步，像Minerva這樣的系統(tǒng)可以首先自動(dòng)形式化自然語言數(shù)學(xué)問題，然后解決它們，并使用證明助手檢查它們的工作。這種即時(shí)檢查將為強(qiáng)化學(xué)習(xí)提供必要的反饋，使這些程序能夠從錯(cuò)誤中學(xué)習(xí)。最后，他們會得到一個(gè)可證明的正確答案，并附帶一系列邏輯步驟——有效地結(jié)合了LLM和強(qiáng)化學(xué)習(xí)的力量。

人工智能研究人員還有更廣泛的目標(biāo)。他們認(rèn)為數(shù)學(xué)是開發(fā)人工智能推理技能的完美證明，因?yàn)樗梢哉f是所有推理任務(wù)中最難的。按照這種想法，如果一臺機(jī)器能夠有效地進(jìn)行數(shù)學(xué)推理，那么它自然應(yīng)該獲得其他技能，比如編寫計(jì)算機(jī)代碼或提供醫(yī)療診斷的能力。

但是仍然有一些工作是目前的人工智能所無法替代的的，例如：

藝術(shù)創(chuàng)作：創(chuàng)造真正的、有創(chuàng)意的藝術(shù)作品需要人類的創(chuàng)造力和情感體驗(yàn)的。

心理治療：面對嚴(yán)重的心理問題，人類專業(yè)心理醫(yī)生提供的治療和支持無法被取代。
體力勞動(dòng)：雖然有機(jī)器人可以執(zhí)行一些體力勞動(dòng)工作，但是執(zhí)行某些復(fù)雜的任務(wù)仍然需要人類的技能。
社交關(guān)系：建立和維護(hù)人際關(guān)系需要人類的情感和社交技能。

總之，在許多領(lǐng)域中，人類的情感、判斷和創(chuàng)造力是無法被替代的。

本站僅提供存儲服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點(diǎn)擊舉報(bào)。

打開APP，閱讀全文并永久保存查看更多類似文章

【GPT4】微軟 GPT-4 測試報(bào)告（1）總體介紹_youcans

解決通用LLM「偏科」問題，數(shù)學(xué)大模型MathGPT要來了！

谷歌、OpenAI學(xué)者談AI：語言模型正在努力「攻克」數(shù)學(xué)

高數(shù)有多難？AI 卷到數(shù)學(xué)圈，高數(shù)考試正確率 81%

GPT-3解數(shù)學(xué)題準(zhǔn)確率升至92.5%！微軟提出MathPrompter，無需微調(diào)即可打造「理科」語言模型

大模型“涌現(xiàn)”的思維鏈，究竟是一種什么能力？

更多類似文章 >>

中文字幕理论片,69视频免费在线观看,亚洲成人app,国产1级毛片,刘涛最大尺度戏视频,欧美亚洲美女视频,2021韩国美女仙女屋vip视频