12個國產(chǎn)大模型大戰(zhàn)高考數(shù)學(xué)，意外炸出個大bug

123xyz123 >《其他》

2024.06.08 湖南

關(guān)注

金磊發(fā)自凹非寺

繼國產(chǎn)大模型挑戰(zhàn)高考作文之后，是時候再戰(zhàn)一下高考數(shù)學(xué)了。

數(shù)學(xué)高考Ⅰ卷的題目，目前已經(jīng)陸陸續(xù)續(xù)在網(wǎng)上有所公布（圖片格式）。

那么現(xiàn)在，是時候考驗(yàn)國產(chǎn)大模型們的數(shù)學(xué)能力了。

有請“選手們”登場——

Kimi、通義千問、文心一言、豆包、智譜清言、百小應(yīng)、訊飛星火、商量、騰訊元寶、天工、海螺AI、萬知。

國產(chǎn)大模型 vs 高考數(shù)學(xué)選擇題

根據(jù)數(shù)學(xué)題目類型的不同，我們先來小試牛刀一下選擇題。

測評的方式是將題目（圖片格式）“喂”給國產(chǎn)大模型們，要求它們給出相應(yīng)題目的答案：

查看題目，給出第1題到第8題的答案。

接下來，我們就來一同看下國產(chǎn)大模型們的表現(xiàn)。

Kimi

通義千問

豆包

智譜清言

百小應(yīng)

訊飛星火

商量

騰訊元寶

海螺AI

萬知

不難看出，很多國產(chǎn)大模型還未做數(shù)學(xué)題，先敗在了AI識圖這個步驟，無法生成答案。

（PS：有幾位選手測試時因?yàn)闊o法識別，未能完成答題，因此沒有放出結(jié)果。）

那么我們最后來看下“踢館選手”——GPT-4o。

國產(chǎn)大模型 vs 數(shù)學(xué)大題

鑒于一些國產(chǎn)大模型AI識圖有點(diǎn)困難，我們這次直接先把這次高考的大題題目文字給copy出來，再讓它們作答：

設(shè)n為正整數(shù)，數(shù)列 ( a1, a_2, \cdots, a{4m+2} ) 是公差不為0的等差數(shù)列。若從中抽去項(xiàng) ( ai ) 和 ( a_j ) (i < j) 后剩余的 ( 4m ) 項(xiàng)可被平均分為 m 組，且每組的 4 個數(shù)都能構(gòu)成等差數(shù)列，則稱數(shù)列 ( a_1, a_2, \cdots, a{4m+2} ) 是 (i, j) - 可分?jǐn)?shù)列。
(1) 寫出所有的 (i, j) (1 ≤ i < j ≤ 6)，使得數(shù)列 ( a_1, a_2, a_3, a_4, a_5, a_6 ) 是 (i, j) - 可分?jǐn)?shù)列；
(2) 當(dāng) ( m = 3 ) 時，證明：數(shù)列 ( a1, a_2, \cdots, a{13} ) 是 (2, 13) - 可分?jǐn)?shù)列；
(3) 設(shè) ( a1, a_2, \cdots, a{4m+2} ) 是 (i, j) - 可分?jǐn)?shù)列。記數(shù)列 ( a1, a_2, \cdots, a{4m+2} ) 中任取兩個數(shù)和 i (i < j)，則數(shù)列是 (i, j) - 可分?jǐn)?shù)列的概率為 ( p_n )，證明：( p_n \geq \frac{1}{8} )。

接下來，我們再來看下國產(chǎn)大模型們的表現(xiàn)。