聯(lián)手谷歌，學(xué)而思發(fā)起全球大模型數(shù)學(xué)解題競(jìng)賽，探索人工智能數(shù)學(xué)推理“無人區(qū)”

2023-10-11 13:02:59發(fā)布來源：多知網(wǎng) 作者：Agnes

　　來源|多知網(wǎng)

　　作者|Penny

　　圖片來源|Pexels

　　日前，由學(xué)而思牽頭，聯(lián)合谷歌、暨南大學(xué)等多家科技企業(yè)及高校的專家學(xué)者，依托智慧教育國(guó)家新一代人工智能開放創(chuàng)新平臺(tái)，共同舉辦AAAI2024 全球大模型數(shù)學(xué)推理競(jìng)賽。該比賽邀請(qǐng)全球人工智能專家、開發(fā)者以及愛好者，一起用大模型自動(dòng)解答中小學(xué)數(shù)學(xué)難題，探索和解決人工智能在數(shù)學(xué)領(lǐng)域的挑戰(zhàn)。

　　此次比賽分為中文數(shù)學(xué)解題和英文數(shù)學(xué)解題兩個(gè)方向。由學(xué)而思提供比賽所用的中英文數(shù)據(jù)集——TAL-SAQ7K-CN、TAL-SAQ6K-EN。該數(shù)據(jù)集囊括了國(guó)內(nèi)外多個(gè)中小學(xué)數(shù)學(xué)競(jìng)賽真題。

　　比賽期間，參賽者需使用大模型對(duì)給定的數(shù)學(xué)題目，生成推理步驟與答案。主辦方將通過對(duì)比參賽者的模型輸出答案與正確答案之間的準(zhǔn)確率，來為參賽者進(jìn)行排名。準(zhǔn)確率最高的參賽者將會(huì)贏得此次比賽。

　　這是全球首次數(shù)學(xué)大模型解題競(jìng)賽，主辦方還為此次比賽提供了3個(gè)測(cè)評(píng)基準(zhǔn)作為參考，即GPT-3.5，GPT-4以及好未來自研的數(shù)學(xué)大模型MathGPT在公榜上的表現(xiàn)。

　　好未來對(duì)MathGPT投入巨大，這次解題競(jìng)賽也是學(xué)而思試圖解決“大模型不擅長(zhǎng)理科方面的推理和計(jì)算”這一不足所做出的努力之一。

　　探索人工智能數(shù)學(xué)推理無人區(qū)

　　眾所周知，大語言模型具備“先天性的缺陷”(如缺乏復(fù)雜推理能力、數(shù)值計(jì)算不夠準(zhǔn)確等)，如何提升大語言模型數(shù)學(xué)推理能力，突破語言模型的先天不足，成為當(dāng)下全球人工智能領(lǐng)域關(guān)注的重點(diǎn)。這是此次學(xué)而思牽頭，聯(lián)合谷歌、暨南大學(xué)等共同舉辦的 AAAI2024 全球大模型數(shù)學(xué)推理競(jìng)賽的重要原因。

　　AAAI2024全球大模型數(shù)學(xué)推理競(jìng)賽比賽官網(wǎng)已經(jīng)公布：https://ai4ed.cc/competitions/aaai2024competition

　　AAAI(Association for the Advancement of Artificial Intelligence)由計(jì)算機(jī)科學(xué)和人工智能科學(xué)家Allen Newell、 Marvin Minsky 和John McCarthy等創(chuàng)辦，是國(guó)際人工智能領(lǐng)域最為權(quán)威與重要的協(xié)會(huì)之一，AAAI會(huì)議被中國(guó)計(jì)算機(jī)學(xué)會(huì)(CCF)推薦為A類會(huì)議。

　　為了更充分地探究各類大模型的數(shù)學(xué)推理能力，此次比賽分為中文數(shù)學(xué)解題和英文數(shù)學(xué)解題兩個(gè)方向。由學(xué)而思提供比賽所用的中英文數(shù)據(jù)集——TAL-SAQ7K-CN、TAL-SAQ6K-EN。該數(shù)據(jù)集囊括了國(guó)內(nèi)外多個(gè)中小學(xué)數(shù)學(xué)競(jìng)賽真題，題目格式均經(jīng)過精心處理，每道題目都包含題目?jī)?nèi)容，題目難度等級(jí)和題目涉及到的從粗粒度到細(xì)粒度的知識(shí)點(diǎn)鏈條等字段。與之同時(shí)，TAL-SAQ7K-CN、TAL-SAQ6K-EN數(shù)據(jù)集中涉及到數(shù)學(xué)表達(dá)式已經(jīng)處理成統(tǒng)一的文本模式Latex。

　　比賽分為兩個(gè)階段，第一階段即日起截止到12月31日，為公榜階段。主辦方事先隨機(jī)在TAL-SAQ7K-CN和TAL-SAQ6K-EN中選出30%的數(shù)據(jù)，供參賽者進(jìn)行大模型調(diào)試。第二階段則從2024年1月1日到1月10日，為私榜階段。期間，參賽者使用第一階段調(diào)優(yōu)過的大模型來解答數(shù)據(jù)集中剩余的70%題目。這一階段的成績(jī)將會(huì)作為比賽的最終成績(jī)。

　　此外，主辦方還為此次比賽提供了3個(gè)測(cè)評(píng)基準(zhǔn)作為參考，即GPT-3.5，GPT-4以及好未來自研的數(shù)學(xué)大模型MathGPT在公榜上的表現(xiàn)，具體結(jié)果如下：

　　Track1:

　　Track2:

　　做好AI大模型時(shí)代的數(shù)學(xué)基礎(chǔ)工作

　　大模型一直是近來年人工智能發(fā)展最熱門的領(lǐng)域之一，ChatGPT的橫空出世則讓更多人看到了人工智能未來的方向。然而，現(xiàn)有的大語言模型在數(shù)學(xué)問題的解決、講解、問答和推薦方面則存在明顯不足，如解答數(shù)學(xué)問題經(jīng)常出錯(cuò)，難以進(jìn)行復(fù)雜運(yùn)算。

　　作為本次全球大模型數(shù)學(xué)競(jìng)賽的發(fā)起者，學(xué)而思方面表示，希望能夠通過這次大模型數(shù)學(xué)比賽，探索、解決現(xiàn)有的模型擅長(zhǎng)文科而不擅長(zhǎng)理科方面的推理和計(jì)算這一不足。學(xué)而思也在積極探索解決，如學(xué)而思MathGPT(官網(wǎng)：https://www.mathgpt.com/)結(jié)合大模型和計(jì)算引擎兩者能力解決大模型在數(shù)學(xué)領(lǐng)域的三大挑戰(zhàn)——解對(duì)題、講清步驟、內(nèi)容有趣生動(dòng)。前者負(fù)責(zé)理解題目、分步解析，并在合適的步驟自行調(diào)用計(jì)算引擎，以此來提高正確率?；诤Ａ棵麕熃忸}過程的數(shù)據(jù)進(jìn)行模型訓(xùn)練，模型的解題步驟可以更加清晰。再引入優(yōu)秀老師的教學(xué)理念和方法，模型在解題趣味性上也能進(jìn)一步提高。

　　以一道數(shù)列題為例，MathGPT給出的答案包含“分析”、“詳解”、“點(diǎn)睛”三個(gè)部分，比通用大模型的粗略講解方式更為細(xì)致，“分析”提供了題目的解題思路、思考方式，幫助用戶更好地理解題目，“詳解”則給出具體的計(jì)算方式和答案，最后“點(diǎn)睛”的環(huán)節(jié)，對(duì)題目的考點(diǎn)、難點(diǎn)、關(guān)鍵點(diǎn)進(jìn)行提示，幫助用戶回顧反思出題意圖、舉一反三。

　　作為國(guó)內(nèi)首個(gè)數(shù)學(xué)領(lǐng)域千億級(jí)大模型，MathGPT數(shù)學(xué)計(jì)算能力已覆蓋小學(xué)、初中、高中階段，題目類型涵蓋計(jì)算題、應(yīng)用題、代數(shù)題等多個(gè)類型，還可以針對(duì)題目進(jìn)行追問。相關(guān)技術(shù)報(bào)告顯示，在CEval-Math、AGIEval-Math、APE5K、CMMLU-Math、高考數(shù)學(xué)和Math401等6個(gè)公開數(shù)學(xué)評(píng)測(cè)集合的測(cè)試結(jié)果中，學(xué)而思MathGPT取得了多項(xiàng)測(cè)試的最高分?jǐn)?shù);在C-Eval的初高中的全科測(cè)試集合上，MathGPT也均有不錯(cuò)的表現(xiàn)。

　　此外，學(xué)而思也在GitHub、Hugging Face等技術(shù)社區(qū)開源了MathGPT的模型訓(xùn)練測(cè)試數(shù)據(jù)集——TAL-SCQ5K-EN/CN(各3K訓(xùn)練集和2K測(cè)試集)，題目為單選形式，涉及小初高階段數(shù)學(xué)內(nèi)容，帶有詳細(xì)的解析步驟便于進(jìn)行COT的訓(xùn)練。(GitHub開源地址：https://github.com/math-eval/TAL-SCQ5K;Hugging Face開源地址：https://huggingface.co/datasets/math-eval/TAL-SCQ5K)

　　作為智慧教育國(guó)家新一代人工智能開放創(chuàng)新平臺(tái)承建單位，學(xué)而思一直積極參與推動(dòng)我國(guó)人工智能技術(shù)發(fā)展與進(jìn)步。隨著大模型時(shí)代的到來，學(xué)而思希望用自身在數(shù)學(xué)和AI上的多年積累，面向全球范圍內(nèi)的數(shù)學(xué)愛好者和科研機(jī)構(gòu)，做好AI大模型時(shí)代的數(shù)學(xué)基礎(chǔ)工作。

商學(xué)院

Open Talk

聯(lián)手谷歌，學(xué)而思發(fā)起全球大模型數(shù)學(xué)解題競(jìng)賽，探索人工智能數(shù)學(xué)推理“無人區(qū)”

相關(guān)閱讀

商學(xué)院

Open Talk

聯(lián)手谷歌，學(xué)而思發(fā)起全球大模型數(shù)學(xué)解題競(jìng)賽，探索人工智能數(shù)學(xué)推理“無人區(qū)”

相關(guān)閱讀

聯(lián)手谷歌，學(xué)而思發(fā)起全球大模型數(shù)學(xué)解題競(jìng)賽，探索人工智能數(shù)學(xué)推理“無人區(qū)”