OpenAI的Codex已經(jīng)在MIT的7門高數(shù)課程題目中正確率達到81.1%,妥妥的MIT本科生水平。課程范圍從初級微積分到微分方程、概率論、線性代數(shù)都有,題目形式除了計算、甚至還有畫圖。
高數(shù)是多少理科生的噩夢?小編當時就是一個高數(shù)很差的人
那讓 AI 做一道數(shù)學題有多難呢?又何況是高數(shù)呢?
昨天,看到一則這樣的熱搜:
是不是更難以接受了??。?!
多年來,科學家一直嘗試讓 AI 機器人挑戰(zhàn)數(shù)學考試,但連年不及格,甚至低到20多分。因此,科學家們普遍認為人工智能無法挑戰(zhàn)高數(shù)。然而近日,麻省理工的科學家基于 OpenAI Codex 預訓練模型在高數(shù)上通過 few-shot learning 的正確率達到了81%!相關(guān)研究已經(jīng)被 ArXiv 收錄。課程范圍從初級微積分到微分方程、概率論、線性代數(shù)都有,題目形式除了計算、甚至還有畫圖。
研究者發(fā)現(xiàn),讓 AI 解決數(shù)學問題存在多種方案。
首先,利用最新的 GPT-3 語言模型通過文本預訓練使用小樣本學習僅能達到 18.8% 的正確率;其次研究者嘗試使用小樣本學習和最新的思維鏈提示,正確率上升到了 30.8%;最后,研究者對代碼進行微調(diào),使用 Codex 進行少量學習的方式,讓 AI 挑戰(zhàn)麻省理工大學學院六門數(shù)學課程中的 210 道問題,正確率提升到了 81.1% 。
研究團隊的解決思路是先在文本上做預訓練,再用代碼進行微調(diào),把數(shù)學問題轉(zhuǎn)換成等價的變成問題,通過讓 AI 自動生成補充題干的上下文,將題目自動生成適合模型運行的文本后,再生成對應(yīng)的代碼并運行,最終解決數(shù)學問題。研究團隊下一步打算把這項技術(shù)擴展到更多課程,并考慮實際應(yīng)用到教學中。
在提交的這篇論文中,我們了解到他們推出了語言模型 Minerva,該模型能夠解決數(shù)學和科學問題,讓模型一步一步來。通過收集與定量推理問題相關(guān)的訓練數(shù)據(jù)、大規(guī)模訓練模型,以及使用先進的推理技術(shù),該研究在各種較難的定量推理任務(wù)上取得了顯著的性能提升。
Minerva 通過生成解決方案來解決問題,包括數(shù)值計算、符號操作,而不需要依賴計算器等外部工具。Minerva 可以將自然語言和數(shù)學符號進行結(jié)合來解析和回答數(shù)學問題。
此外,Minerva 還結(jié)合了多種技術(shù),包括小樣本提示、思維鏈、暫存器提示以及多數(shù)投票原則,從而在 STEM 推理任務(wù)上實現(xiàn) SOTA 性能。
Minerva 不僅可以解決代數(shù)問題,還能解決物理、數(shù)論、幾何、生物、化學、天文學等眾多問題。
下面是 Minerva 解決幾何問題:
應(yīng)用題上,可以列出方程式:
甚至還可以推導證明。
為了測試 Minerva 的定量推理能力,研究者們在不同的 STEM 基準上進行了評估,覆蓋從小學水平的問題到研究生水平的課程。研究者們還在 OCWCourses 上評估了 Minerva,涵蓋了從 MIT OpenCourseWare 中收集的固態(tài)化學、天文學、微分方程和狹義相對論等各種 STEM 主題。
結(jié)果表明,在所有數(shù)據(jù)集的評估后,5400億參數(shù)的 Minerva 在各種測試集中達到 SOTA,有時甚至是大幅提升。
不過,Minerva 也犯了很多錯誤。
為了更好地確認模型可以改進的領(lǐng)域,研究者們分析了模型出錯的問題樣本,發(fā)現(xiàn)大多數(shù)錯誤很容易解釋。結(jié)果表明,大約一半是計算錯誤,另一半是推理誤差,原因是解決步驟沒有遵循邏輯思考鏈。
同時,Minerva 也有可能得出正確的最終答案,但推理依然錯誤。分析結(jié)果顯示,這種概率相對較低,Minerva 62B 在 MATH 數(shù)據(jù)集上的平均低于 8%。
AI 不僅在技術(shù)圈有著不錯的發(fā)展,在不同的領(lǐng)域也大展拳腳,前有讓 AI 寫高考作文,用 AI 修復解放軍進駐香港的珍貴畫面。
不僅有學生們盼著有一天能用 AI 做作業(yè),還有老師們也期望用 AI 出卷子。
也有網(wǎng)友表示,想要挑戰(zhàn)他。
你怎么看呢?
參考鏈接:
https://s.weibo.com/weibo/%2523AI%25E8%2580%2583%25E9%25AB%2598%25E6%2595%25B0%25E4%25BB%2585%25E5%25BE%259781%25E5%2588%2586%2523?topnav=1&wvr=6&Refer=top_hot&sudaref=weibo.com
https://ai.googleblog.com/2022/06/minerva-solving-quantitative-reasoning.html
聯(lián)系客服