作者:蛋醬
數(shù)學(xué)大模型 MathGPT,專治大語(yǔ)言模型的「偏科」問(wèn)題。
不做通用 LLM,不基于現(xiàn)有 LLM 做微調(diào)和接口調(diào)用,學(xué)而思自研的數(shù)學(xué)大模型 MathGPT 要來(lái)了。
這對(duì)于全世界的數(shù)學(xué)愛(ài)好者來(lái)說(shuō),都是個(gè)值得關(guān)注的好消息。
MathGPT 是面向全球數(shù)學(xué)愛(ài)好者和科研機(jī)構(gòu),以數(shù)學(xué)領(lǐng)域的解題和講題算法為核心的大模型。據(jù)了解,學(xué)而思已將 MathGPT 定位為公司核心項(xiàng)目,由 CTO 田密負(fù)責(zé),今年春節(jié)前,研發(fā)正在進(jìn)行中,該項(xiàng)目已經(jīng)啟動(dòng)相應(yīng)的團(tuán)隊(duì)建設(shè)、數(shù)據(jù)、算力準(zhǔn)備和技術(shù)研發(fā)。
進(jìn)度方面,團(tuán)隊(duì)目前已經(jīng)取得階段性成果,今年內(nèi)將推出基于該自研大模型的產(chǎn)品級(jí)應(yīng)用。
此外,學(xué)而思已經(jīng)啟動(dòng)在美國(guó)硅谷的團(tuán)隊(duì)建設(shè),將成立一支海外算法和工程團(tuán)隊(duì),在全球范圍內(nèi)招募優(yōu)秀的人工智能專家加入。
大語(yǔ)言模型「偏科」,怎么解?
打造 MathGPT,可以比作「一項(xiàng)繞開(kāi)大語(yǔ)言模型(LLM)能力短板的工程」。
OpenAI 在今年三月份發(fā)布了大語(yǔ)言模型 GPT-4,國(guó)內(nèi)百度、阿里也發(fā)布了各自的大模型產(chǎn)品,這些大語(yǔ)言模型在語(yǔ)言翻譯、摘要、理解和生成等任務(wù)上有出色表現(xiàn)。
但通用語(yǔ)言模型看上去更像一個(gè)「文科生」,目前已有的產(chǎn)品在數(shù)學(xué)問(wèn)題的解決、講解、問(wèn)答和推薦方面還存在明顯不足,即使是最先進(jìn)的大語(yǔ)言模型也難以正確地回答大量數(shù)學(xué)問(wèn)題。
一個(gè)非常生動(dòng)的例子是,在 ChatGPT 剛發(fā)布之后的測(cè)試中,它被問(wèn)到一個(gè)經(jīng)典「雞兔同籠」問(wèn)題(如下圖)。ChatGPT 寫(xiě)出的解題過(guò)程看上去非常有條理,但仔細(xì)一看 —— 答案卻是錯(cuò)的?
有點(diǎn)「一本正經(jīng)胡說(shuō)八道」的意思。
計(jì)算機(jī)顯然比人類更擅長(zhǎng)具體的數(shù)學(xué)計(jì)算,但遠(yuǎn)沒(méi)有透徹掌握「推理」這件事。在 AI 語(yǔ)言模型的「腦回路」中,復(fù)雜的數(shù)學(xué)方程式可能被視為了一種語(yǔ)言,而解決方案更像是「翻譯問(wèn)題」。
但「推理問(wèn)題」恰恰需要許多其他類型問(wèn)題不涉及的魯棒性和嚴(yán)謹(jǐn)性。即使過(guò)程中的某一步出了一點(diǎn)差錯(cuò),最終整個(gè)答案都將是錯(cuò)誤的。盡管模型在更大的數(shù)據(jù)樣本上訓(xùn)練之后往往會(huì)變得更加魯棒并減少錯(cuò)誤,但在推理這件事上,模型規(guī)模的擴(kuò)展似乎不那么奏效。
而且,對(duì)于有些數(shù)學(xué)問(wèn)題,雖然模型能夠解決,但方法更偏成年人,無(wú)法針對(duì)適齡孩子的知識(shí)結(jié)構(gòu)和認(rèn)知水平做適配。
這讓研究人員們意識(shí)到,訓(xùn)練語(yǔ)言模型解決數(shù)學(xué)問(wèn)題和闡述思路似乎需要更有針對(duì)性的「定向訓(xùn)練」方法。
「這種不足是由 LLM 模型的自身特點(diǎn)決定的。」學(xué)而思 AI 團(tuán)隊(duì)負(fù)責(zé)人介紹,LLM 大模型來(lái)自對(duì)海量語(yǔ)言文本的訓(xùn)練,因此最擅長(zhǎng)語(yǔ)言處理。行業(yè)內(nèi)偏向基于 LLM 大模型做閱讀、寫(xiě)作類應(yīng)用,但如果想要在數(shù)學(xué)能力上有突破,就需要研發(fā)新的大模型。
正因此,學(xué)而思決心組建團(tuán)隊(duì)專研 MathGPT—— 數(shù)學(xué)領(lǐng)域大模型,用自己在數(shù)學(xué)和 AI 上的多年積累,面向全球范圍內(nèi)的數(shù)學(xué)愛(ài)好者和科研機(jī)構(gòu),做好 AI 大模型時(shí)代的數(shù)學(xué)基礎(chǔ)工作。
總體來(lái)說(shuō),學(xué)而思希望通過(guò) MathGPT 彌補(bǔ)和攻克大語(yǔ)言模型的三個(gè)問(wèn)題:
第一,題目要解對(duì),現(xiàn)在 GPT 結(jié)果經(jīng)常出現(xiàn)錯(cuò)誤;
第二,解題步驟要穩(wěn)定、清晰,現(xiàn)在 GPT 的解題步驟每次都不一樣,而且生成內(nèi)容經(jīng)常很冗余;
第三,解題要講的有趣、個(gè)性化,現(xiàn)在 GPT 的解釋過(guò)于「學(xué)術(shù)」和機(jī)械,對(duì)孩子的學(xué)習(xí)體驗(yàn)很不友好。
學(xué)而思 AI 團(tuán)隊(duì)表示,由于大語(yǔ)言模型的推理與計(jì)算能力有限,因此 MathGPT 需要結(jié)合大語(yǔ)言模型和計(jì)算引擎兩者的能力,大語(yǔ)言模型需要理解題目、分步解析,并在合適的步驟自行調(diào)用計(jì)算引擎。
做 MathGPT,學(xué)而思有哪些技術(shù)儲(chǔ)備?
當(dāng)然,自研數(shù)學(xué)大模型不能只是一句口號(hào),算法、算力、數(shù)據(jù)的技術(shù)儲(chǔ)備缺一不可。對(duì)此,學(xué)而思也有自身的底氣。
「以數(shù)學(xué)起家」,學(xué)而思至今已有 20 年的數(shù)學(xué)教學(xué)經(jīng)驗(yàn),積累了龐大的數(shù)學(xué)相關(guān)數(shù)據(jù),這些數(shù)據(jù)為訓(xùn)練 MathGPT 提供了豐富的物料。另外,學(xué)而思的海外業(yè)務(wù) Think Academy 在全球若干國(guó)家和地區(qū)深受數(shù)學(xué)愛(ài)好者喜歡,學(xué)而思的學(xué)生在每年的 IMO 和 AMC 等國(guó)際數(shù)學(xué)競(jìng)賽中表現(xiàn)優(yōu)異,每年都有多位學(xué)生在國(guó)際奧林匹克數(shù)學(xué)競(jìng)賽中拿到金牌。
作為獲國(guó)家科技部批準(zhǔn)的「智慧教育國(guó)家新一代人工智能開(kāi)放創(chuàng)新平臺(tái)」建設(shè)單位,也是教育行業(yè)首批唯一一家人工智能「國(guó)家隊(duì)」成員,學(xué)而思在人工智能領(lǐng)域有著多年的深入研究。早在 2017 年,學(xué)而思便成立了 AI lab 人工智能實(shí)驗(yàn)室。
這些年,在海內(nèi)外的多個(gè)頂級(jí)學(xué)術(shù)會(huì)議賽事中,人們都能看到學(xué)而思 AI lab 的活躍身影?;谥腔劢逃斯ぶ悄荛_(kāi)放創(chuàng)新平臺(tái)助力,學(xué)而思 AI lab 目前已獲得各類頂級(jí)學(xué)術(shù)會(huì)議比賽冠軍 16 項(xiàng),亞軍 6 項(xiàng)。
學(xué)而思 AI lab 在各類頂級(jí)學(xué)術(shù)會(huì)議比賽獲獎(jiǎng)情況。
在研究成果上,學(xué)而思 AI lab 在計(jì)算機(jī)視覺(jué)頂會(huì)以及自然語(yǔ)言頂會(huì)中均有多篇論文發(fā)表,共有國(guó)際期刊和會(huì)議高水平學(xué)術(shù)論文 31 篇,包含光學(xué)字符識(shí)別、圖像、自然語(yǔ)言處理、語(yǔ)音以及多模態(tài)等多領(lǐng)域的學(xué)術(shù)研究。此外已申請(qǐng)專利 220 余項(xiàng),授權(quán)專利 150 余項(xiàng),軟件著作權(quán) 60 余項(xiàng)。
「在 ChatGPT 出來(lái)之前,我們一直有團(tuán)隊(duì)在做自動(dòng)解題這件事,幾年下來(lái)已有一些積累,例如已經(jīng)可以解大多數(shù)的計(jì)算題和部分應(yīng)用題了?!乖诖笳Z(yǔ)言模型火熱以后,學(xué)而思 AI 團(tuán)隊(duì)發(fā)現(xiàn),可以利用大模型提升對(duì)常識(shí)和題目文本的泛化理解能力。大模型的思維鏈可以增強(qiáng)對(duì)題目的分步推導(dǎo)和互動(dòng)解答能力,再加上大模型和計(jì)算引擎的結(jié)合,解題的準(zhǔn)確率和召回率可能會(huì)有較大提升。
這些技術(shù)成果的沉淀,我們也能在學(xué)而思已有的落地產(chǎn)品中窺見(jiàn)一二。
今年 2 月,「學(xué)而思學(xué)習(xí)機(jī)」上線了基于好未來(lái)自研 AI 技術(shù)的 AI 講題機(jī)器人「小 π」。小 π 相關(guān)技術(shù)在 2020 年啟動(dòng)研發(fā),以學(xué)而思超 3 億的專業(yè)題庫(kù)數(shù)據(jù)作為基礎(chǔ),主打數(shù)學(xué)等領(lǐng)域的 AI 智能講題能力,核心優(yōu)勢(shì)在于數(shù)理邏輯和運(yùn)算。
面對(duì)一道手寫(xiě)或者印刷的數(shù)學(xué)計(jì)算題時(shí),小 π 不僅會(huì)對(duì)題目進(jìn)行智能 AI 拆解分析,還能生成邏輯流暢、表達(dá)清晰的語(yǔ)言,將題目的解題方法講解出來(lái)。有時(shí),小 π 還會(huì)傳授一些分?jǐn)?shù)、小數(shù)等復(fù)雜計(jì)算甚至「湊數(shù)、組合」的巧妙算法。
在 ChatGPT 相關(guān)技術(shù)的啟發(fā)下,學(xué)而思希望進(jìn)一步實(shí)現(xiàn)學(xué)習(xí)機(jī)等產(chǎn)品的升級(jí)迭代,預(yù)期將在題目覆蓋率、人機(jī)互動(dòng)性、題目講解生動(dòng)性等方面實(shí)現(xiàn)大幅提升。比如,學(xué)而思學(xué)習(xí)機(jī)還將在不久后上線「AI 助手」?!窤I 助手」涵蓋作文助手、口語(yǔ)助手、閱讀助手、數(shù)學(xué)助手等相關(guān)功能,計(jì)劃于 5 月 11 日開(kāi)啟內(nèi)測(cè)。
不止于「解題」的探索之路
如何利用大語(yǔ)言模型服務(wù)各行各業(yè)是當(dāng)下社會(huì)的焦點(diǎn)問(wèn)題。很多行業(yè)都可以直接與 OpenAI 合作,在 GPT 大模型上做微調(diào)和接口調(diào)用,增強(qiáng)原有的產(chǎn)品體驗(yàn)。
但像數(shù)學(xué)、醫(yī)學(xué)等領(lǐng)域,對(duì) AI 的需求是準(zhǔn)確、清晰、具備強(qiáng)大的邏輯推理能力,且容錯(cuò)率低,通用 LLM 目前的性能表現(xiàn)還無(wú)法在上述領(lǐng)域取得突破。
具體到數(shù)學(xué)領(lǐng)域,目前市場(chǎng)上存在幾個(gè)主要流派:
一種是利用非 LLM 的傳統(tǒng) AI 技術(shù)加上數(shù)據(jù)庫(kù)的方式解決數(shù)學(xué)問(wèn)題,比如 Google 收購(gòu)的 Photomath、微軟數(shù)學(xué)、Mathway、專注數(shù)學(xué)計(jì)算的 WolframAlpha 等產(chǎn)品。
還有一種是 AGI 路線,即嘗試讓通用 LLM「更懂?dāng)?shù)學(xué)」,比如谷歌旗下的 Minerva 模型專門(mén)針對(duì)數(shù)學(xué)問(wèn)題進(jìn)行調(diào)優(yōu)。此前,用戶測(cè)試發(fā)現(xiàn) GPT-4 在數(shù)學(xué)任務(wù)上相比其 3.5 版本有了明顯的性能提升。盡管這種變化讓人一度雀躍,但本質(zhì)上只是模型接受了更多數(shù)據(jù)的訓(xùn)練 ——GPT-4 仍然不能保證計(jì)算結(jié)果的準(zhǔn)確或給出清晰易懂的推理過(guò)程。
值得注意的是,學(xué)而思選擇了另一條少有人走的路:不基于現(xiàn)有 LLM 做微調(diào)和接口調(diào)用、不做通用 LLM,而是自研基于專業(yè)領(lǐng)域的「數(shù)學(xué)大模型」MathGPT,致力于打造自主、穩(wěn)定、可持續(xù)、高質(zhì)量的學(xué)習(xí)解決方案。
在大語(yǔ)言模型不斷進(jìn)化的浪潮下,不同流派的技術(shù)路線選擇孰優(yōu)孰劣,仍有待討論和驗(yàn)證。MathGPT 的表現(xiàn)如何,也將成為今年內(nèi)人們非常關(guān)注的大事件之一。
至于未來(lái)應(yīng)用,不難想象,MathGPT 最直接的落地方式之一就是成為 24 小時(shí)在線的「AI 教師」。學(xué)而思表示,初代版本的 MathGPT 將可以在教研助手、個(gè)性化學(xué)情分析、課后答疑、組卷助手等幾個(gè)方面,輔助人類教師工作。從技術(shù)和產(chǎn)品的設(shè)計(jì)上,MathGPT 也會(huì)考慮到用戶使用場(chǎng)景,通過(guò)有監(jiān)督微調(diào)和強(qiáng)化學(xué)習(xí)的方式,不斷改進(jìn)性能,迭代版本。
再看長(zhǎng)遠(yuǎn)一點(diǎn),數(shù)學(xué)是很多應(yīng)用問(wèn)題的基礎(chǔ),也是眾多科學(xué)問(wèn)題的基礎(chǔ)。如果一個(gè)大模型擅長(zhǎng)于解決數(shù)學(xué)問(wèn)題,那么它就有潛力去解決許多其他有用的問(wèn)題,比如模擬行星軌道、原子運(yùn)動(dòng)、信號(hào)頻率、蛋白質(zhì)折疊等。
這些未來(lái)的探索,既取決于即將到來(lái)的 MathGPT,也和一方應(yīng)用的進(jìn)化、成熟度相關(guān),更取決于各行各業(yè)的開(kāi)發(fā)者如何運(yùn)用好 MathGPT。
聯(lián)系客服