高數(shù)有多難？AI 卷到數(shù)學圈，高數(shù)考試正確率 81%

2022.07.08 江西

關(guān)注

OpenAI的Codex已經(jīng)在MIT的7門高數(shù)課程題目中正確率達到81.1%，妥妥的MIT本科生水平。課程范圍從初級微積分到微分方程、概率論、線性代數(shù)都有，題目形式除了計算、甚至還有畫圖。

高數(shù)是多少理科生的噩夢？小編當時就是一個高數(shù)很差的人

那讓 AI 做一道數(shù)學題有多難呢？又何況是高數(shù)呢？

昨天，看到一則這樣的熱搜：

是不是更難以接受了？?。?！

多年來，科學家一直嘗試讓 AI 機器人挑戰(zhàn)數(shù)學考試，但連年不及格，甚至低到20多分。因此，科學家們普遍認為人工智能無法挑戰(zhàn)高數(shù)。然而近日，麻省理工的科學家基于 OpenAI Codex 預訓練模型在高數(shù)上通過 few-shot learning 的正確率達到了81%！相關(guān)研究已經(jīng)被 ArXiv 收錄。課程范圍從初級微積分到微分方程、概率論、線性代數(shù)都有，題目形式除了計算、甚至還有畫圖。

語言模型 Minerva

研究者發(fā)現(xiàn)，讓 AI 解決數(shù)學問題存在多種方案。

首先，利用最新的 GPT-3 語言模型通過文本預訓練使用小樣本學習僅能達到 18.8% 的正確率；其次研究者嘗試使用小樣本學習和最新的思維鏈提示，正確率上升到了 30.8%；最后，研究者對代碼進行微調(diào)，使用 Codex 進行少量學習的方式，讓 AI 挑戰(zhàn)麻省理工大學學院六門數(shù)學課程中的 210 道問題，正確率提升到了 81.1% 。

研究團隊的解決思路是先在文本上做預訓練，再用代碼進行微調(diào)，把數(shù)學問題轉(zhuǎn)換成等價的變成問題，通過讓 AI 自動生成補充題干的上下文，將題目自動生成適合模型運行的文本后，再生成對應(yīng)的代碼并運行，最終解決數(shù)學問題。研究團隊下一步打算把這項技術(shù)擴展到更多課程，并考慮實際應(yīng)用到教學中。

在提交的這篇論文中，我們了解到他們推出了語言模型 Minerva，該模型能夠解決數(shù)學和科學問題，讓模型一步一步來。通過收集與定量推理問題相關(guān)的訓練數(shù)據(jù)、大規(guī)模訓練模型，以及使用先進的推理技術(shù)，該研究在各種較難的定量推理任務(wù)上取得了顯著的性能提升。

Minerva 通過生成解決方案來解決問題，包括數(shù)值計算、符號操作，而不需要依賴計算器等外部工具。Minerva 可以將自然語言和數(shù)學符號進行結(jié)合來解析和回答數(shù)學問題。

此外，Minerva 還結(jié)合了多種技術(shù)，包括小樣本提示、思維鏈、暫存器提示以及多數(shù)投票原則，從而在 STEM 推理任務(wù)上實現(xiàn) SOTA 性能。

Minerva 不僅可以解決代數(shù)問題，還能解決物理、數(shù)論、幾何、生物、化學、天文學等眾多問題。

下面是 Minerva 解決幾何問題：

應(yīng)用題上，可以列出方程式：

甚至還可以推導證明。

為了測試 Minerva 的定量推理能力，研究者們在不同的 STEM 基準上進行了評估，覆蓋從小學水平的問題到研究生水平的課程。研究者們還在 OCWCourses 上評估了 Minerva，涵蓋了從 MIT OpenCourseWare 中收集的固態(tài)化學、天文學、微分方程和狹義相對論等各種 STEM 主題。

結(jié)果表明，在所有數(shù)據(jù)集的評估后，5400億參數(shù)的 Minerva 在各種測試集中達到 SOTA，有時甚至是大幅提升。

不過，Minerva 也犯了很多錯誤。

為了更好地確認模型可以改進的領(lǐng)域，研究者們分析了模型出錯的問題樣本，發(fā)現(xiàn)大多數(shù)錯誤很容易解釋。結(jié)果表明，大約一半是計算錯誤，另一半是推理誤差，原因是解決步驟沒有遵循邏輯思考鏈。

同時，Minerva 也有可能得出正確的最終答案，但推理依然錯誤。分析結(jié)果顯示，這種概率相對較低，Minerva 62B 在 MATH 數(shù)據(jù)集上的平均低于 8%。

結(jié)語

AI 不僅在技術(shù)圈有著不錯的發(fā)展，在不同的領(lǐng)域也大展拳腳，前有讓 AI 寫高考作文，用 AI 修復解放軍進駐香港的珍貴畫面。

不僅有學生們盼著有一天能用 AI 做作業(yè)，還有老師們也期望用 AI 出卷子。

也有網(wǎng)友表示，想要挑戰(zhàn)他。

你怎么看呢？

參考鏈接：

https://s.weibo.com/weibo/%2523AI%25E8%2580%2583%25E9%25AB%2598%25E6%2595%25B0%25E4%25BB%2585%25E5%25BE%259781%25E5%2588%2586%2523?topnav=1&wvr=6&Refer=top_hot&sudaref=weibo.com

https://ai.googleblog.com/2022/06/minerva-solving-quantitative-reasoning.html

本站僅提供存儲服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點擊舉報。

打開APP，閱讀全文并永久保存查看更多類似文章

谷歌、OpenAI學者談AI：語言模型正在努力「攻克」數(shù)學

Nature：AI模型越大越好嗎?

卷起來了！DeepMind發(fā)布媲美普通程序員的AlphaCode，同日OpenAI神經(jīng)數(shù)學證明器拿下...

將數(shù)學題轉(zhuǎn)化成代碼，谷歌這項研究讓機器證明的正確率大幅提高

人工智能已經(jīng)可以解決復雜的數(shù)學問題了，還有哪些工作是無法被取代的？

?參數(shù)少近一半，性能逼近谷歌Minerva，又一個數(shù)學大模型開源了

更多類似文章 >>

中文字幕理论片,69视频免费在线观看,亚洲成人app,国产1级毛片,刘涛最大尺度戏视频,欧美亚洲美女视频,2021韩国美女仙女屋vip视频

語言模型 Minerva

結(jié)語