給大模型考“五三”？清華和曲一線的大模型測(cè)評(píng)集來了

2024-03-08 15:44:18發(fā)布來源：多知網(wǎng) 作者：王上

　　來源|多知網(wǎng)

　　作者|王上

　　針對(duì)大模型的考試越來越豐富了!

　　近日，清華?學(xué)THUNLP實(shí)驗(yàn)室和北航、曲?線智能出版中?聯(lián)合發(fā)布了OlympiadBench，這是?個(gè)Olympiad-level的雙語、多模態(tài)的科學(xué)評(píng)測(cè)集，主要評(píng)測(cè)大模型在數(shù)學(xué)和物理方面的推理能力。

　　根據(jù)OlympiadBench研究團(tuán)隊(duì)的論文顯示，這套評(píng)測(cè)集包含了8952條數(shù)學(xué)和物理問題，這些都來?于國際奧賽、中國奧賽、中國?考模擬題。

　　這套評(píng)測(cè)集的特點(diǎn)是：達(dá)到奧林匹克競(jìng)賽難度，多模態(tài)，主要評(píng)估?模型在數(shù)學(xué)、物理上的推理能?;且是雙語的。這是第一個(gè)提供雙語、多模態(tài)的科學(xué)基準(zhǔn)。

　　曲一線是中國教輔頭部企業(yè)，旗下“五三”教輔聞名全國。OlympiadBench評(píng)測(cè)集的推出意味著可以給大模型考“五三”了。

　　各大模型的成績(jī)?nèi)绾?

　　根據(jù)OlympiadBench研究團(tuán)隊(duì)的研究結(jié)果顯示，OpenAI旗下的大模型GPT-4V在OlympiadBench上的平均得分為17.23%，僅在物理學(xué)方面得分為11.28%。

　　OlympiadBench出爐：給大模型考試加大難度

　　每一個(gè)大模型發(fā)布之前，都會(huì)公布一些評(píng)測(cè)數(shù)據(jù)。這是怎么得出來的?背后就是基準(zhǔn)(Benchmarks)評(píng)測(cè)數(shù)據(jù)集(簡(jiǎn)稱“評(píng)測(cè)集”)。

　　為了評(píng)估模型的性能，需要使用評(píng)測(cè)集來測(cè)試模型對(duì)未見過的數(shù)據(jù)的預(yù)測(cè)能力。因此，評(píng)測(cè)集不同于訓(xùn)練集，兩者是獨(dú)立的。

　　當(dāng)前，有很多專門人員或者機(jī)構(gòu)來構(gòu)建測(cè)試數(shù)據(jù)集，可以說他們是針對(duì)大模型的“考試題”。

　　比較常用評(píng)測(cè)集有：

　　GSM8K，一個(gè)由8.5K高質(zhì)量的語言多樣化的小學(xué)數(shù)學(xué)問題組成的評(píng)測(cè)集，采用英文格式。

　　MMLU，該測(cè)評(píng)數(shù)據(jù)集為英文格式，涵蓋 STEM、人文學(xué)科、社會(huì)科學(xué)等領(lǐng)域的 57 個(gè)學(xué)科。難度從初級(jí)到專業(yè)高級(jí)，既考驗(yàn)世界知識(shí)，又考驗(yàn)解決問題的能力。

　　C-Eval，是首個(gè)評(píng)估中文基礎(chǔ)模型高級(jí)知識(shí)和推理能力的廣泛基準(zhǔn)，由清華大學(xué)THUNLP實(shí)驗(yàn)室聯(lián)合上海交通大學(xué)推出，該評(píng)測(cè)集包括四個(gè)難度級(jí)別的多項(xiàng)選擇題：初中、高中、大學(xué)和專業(yè)。

　　MMCU，這是甲骨易AI研究院推出的中文評(píng)測(cè)數(shù)據(jù)集，為中文格式，涵蓋醫(yī)學(xué)、法律、心理學(xué)和教育四大領(lǐng)域，主要是選擇題，題目的數(shù)量達(dá)到1萬+，主要評(píng)測(cè)理解能力。

　　隨著大模型的發(fā)展，傳統(tǒng)的數(shù)學(xué)、物理基準(zhǔn)已經(jīng)難以滿足大模型的快速發(fā)展，需要更具難度的評(píng)測(cè)集來評(píng)估。

　　數(shù)學(xué)、物理難度的最高標(biāo)準(zhǔn)是什么?非奧林匹克競(jìng)賽莫屬。因此，這個(gè)數(shù)據(jù)集命名為OlympiadBench。這是由清華?學(xué)和北航、曲?線智能出版中?聯(lián)合發(fā)布的?個(gè)Olympiad-level的雙語、多模態(tài)的科學(xué)評(píng)測(cè)集，來向?模型發(fā)起挑戰(zhàn)。

　　OlympiadBench挑選了國內(nèi)外奧林匹克競(jìng)賽和國內(nèi)?考的的開放性回答題?。?論是難度還是題?形式，均和以往的基準(zhǔn)不同，都對(duì)模型進(jìn)??階推理提出更大的挑戰(zhàn)性。

　　在學(xué)科方面，OlympiadBench選擇了數(shù)學(xué)、物理。數(shù)學(xué)、物理這兩個(gè)對(duì)?類科學(xué)極其重要的學(xué)科，其中物理的難度不亞于數(shù)學(xué)，卻經(jīng)常被忽略。

　　在形態(tài)上，OlympiadBench是多模態(tài)的。隨著大模型的快速發(fā)展，傳統(tǒng)的基準(zhǔn)評(píng)測(cè)集?般是只有文本，不滿?研究需求。尤其是物理和數(shù)學(xué)經(jīng)常是很多圖形、表格的題目，需要圖片上傳，OlympiadBench則正好包含了多模態(tài)信息。

　　在語言方面，是雙語的。?前?較多的基準(zhǔn)評(píng)測(cè)集?都是英?的格式，?中?環(huán)境下也缺少有難度的問題。所以O(shè)lympiadBench收集了中?環(huán)境下有難度的問題，為中??模型、中?的研究提供資源。

　　且每條數(shù)據(jù)都包含了專家級(jí)別標(biāo)注的解答過程、細(xì)分領(lǐng)域、題型等等，以及豐富的數(shù)據(jù)量。

　　OlympiadBench可以說為推理研究提供了一個(gè)資源庫。

　　OlympiadBench的評(píng)測(cè)集是怎樣構(gòu)建的?

　　對(duì)于大模型研究來說，數(shù)據(jù)集的作用非常大。不過，構(gòu)建測(cè)試數(shù)據(jù)集這件事本身難度很大，比如要構(gòu)建哪些能力?測(cè)評(píng)哪些方面?

　　其中，推理能力是重要的評(píng)測(cè)標(biāo)準(zhǔn)。

　　OlympiadBench團(tuán)隊(duì)的出發(fā)點(diǎn)是，通過OlympiadBench建??個(gè)代表?類智?成就頂峰的基準(zhǔn)，從??勵(lì)研究?員推動(dòng)?模型的數(shù)學(xué)和物理推理能?的邊界。

　　為了實(shí)現(xiàn)這?愿景，OlympiadBench團(tuán)隊(duì)收集了國內(nèi)外奧林匹克競(jìng)賽題?以及國內(nèi)的?考題?：

　　對(duì)于奧林匹克競(jìng)賽題目，OlympiadBench研究團(tuán)隊(duì)從官?下載PDF，并使?Mathpix轉(zhuǎn)化為markdown。

　　研究團(tuán)隊(duì)對(duì)處理的結(jié)果進(jìn)?細(xì)致的校對(duì)、修復(fù)。然后進(jìn)?統(tǒng)?去重。

　　最后，按照細(xì)分領(lǐng)域、題型、答案格式和子字段等關(guān)鍵信息進(jìn)?屬性標(biāo)注，從?獲得?個(gè)含有多種詳細(xì)分類且?凈、準(zhǔn)確和詳細(xì)的數(shù)據(jù)集。

　　(OlympiadBench評(píng)測(cè)集構(gòu)建流程)

　　對(duì)于國內(nèi)高考題目，OlympiadBench研究團(tuán)隊(duì)選擇曲一線的“五三”教輔，這集合了從2005年到現(xiàn)在歷年的高考模擬題和真題。

　　(詳細(xì)的數(shù)據(jù)集)

　　實(shí)際上，曲一線很早就開始了數(shù)字化，曲?線智能出版中?就是專門做數(shù)字化內(nèi)容的部門。此前，“五三”此前也進(jìn)入了小猿智能本、有道等智能硬件。

　　可以說，“五三”教輔是一個(gè)現(xiàn)成的中文高考評(píng)測(cè)集，有詳細(xì)的題目和解題過程，且均是標(biāo)注好的。

　　曲一線團(tuán)隊(duì)告訴多知網(wǎng)：“‘五三’題庫非常精準(zhǔn)，題目和答案都經(jīng)歷了三審三校的過程，差錯(cuò)率遠(yuǎn)低于國內(nèi)對(duì)出版要求的萬分之一。”

　　OlympiadBench采用“五三”教輔，對(duì)于曲一線而言，一方面象征著其數(shù)字化內(nèi)容得到了更為深入的應(yīng)用，另一方面也強(qiáng)化了其品牌勢(shì)能。

　　結(jié)果來了：GPT-4V平均準(zhǔn)確率為17.23%

　　大模型在OlympiadBench評(píng)測(cè)集的表現(xiàn)如何?

　　在研究上，為了更準(zhǔn)確全?的評(píng)估，OlympiadBench研究團(tuán)隊(duì)舉例針對(duì)以上五種答案題型的題?，構(gòu)建了?個(gè)?動(dòng)評(píng)分的路徑。

　　OlympiadBench測(cè)試了5家大模型(當(dāng)時(shí)Anthropic推出Claude 3大模型還未面市，因此不在其中)，包括微軟、零一萬物、谷歌、通義千問和OpenAI旗下的大模型。

　　從測(cè)試結(jié)果可以看到，OlympiadBench?現(xiàn)在基準(zhǔn)評(píng)測(cè)集更具有挑戰(zhàn)性，OpenAI旗下GPT-4V的平均準(zhǔn)確率僅為17.23%，通義千問旗下Qwen-VL-Max平均準(zhǔn)確率為10.31%，谷歌旗下Gemini-Pro-Vision平均準(zhǔn)確率為4.38%。

　　(實(shí)驗(yàn)結(jié)果)

　　從理論上來看，大模型通過各項(xiàng)基準(zhǔn)測(cè)試的數(shù)據(jù)越高，在一定程度上意味著越接近AGI，即能達(dá)到人類水平。從OlympiadBench測(cè)試結(jié)果來看，各家大模型離AGI還有一定的差距。

　　OlympiadBench研究團(tuán)隊(duì)還對(duì)大模型測(cè)試結(jié)果分析了錯(cuò)誤的原因。

　　(錯(cuò)誤類型)

　　論文提到，對(duì)于證明題的分析，GPT-4V在Math-Zh_COMP的81道題中只答對(duì)了6道，都是相對(duì)簡(jiǎn)單經(jīng)典的結(jié)論或者只涉及簡(jiǎn)單的計(jì)算推導(dǎo)，在Math-En_COMP中基本?法在標(biāo)記限制內(nèi)完成證明，表明現(xiàn)有模型仍?法有效解決冗?的推理和證明。

　　同時(shí)GPT-4V暴露了?個(gè)問題，包括：?法充分利?圖像信息；傾向于在簡(jiǎn)化和轉(zhuǎn)換代數(shù)表達(dá)式時(shí)犯錯(cuò)誤；提出簡(jiǎn)單、基本的不正確結(jié)論等。

　　目前，OlympiadBench已經(jīng)全部公開，相信不久的將來，會(huì)有更多大模型用OlympiadBench評(píng)測(cè)集進(jìn)行測(cè)試。

　　研究團(tuán)隊(duì)表示，希望OlympiadBench可以為推動(dòng)AGI的發(fā)展提供幫助，另外科學(xué)的評(píng)測(cè)集也不僅限于數(shù)學(xué)、物理，未來也將繼續(xù)擴(kuò)展基準(zhǔn)，來提供更全?的評(píng)估。

　　END

　　本文作者：王上

商學(xué)院

Open Talk

給大模型考“五三”？清華和曲一線的大模型測(cè)評(píng)集來了

相關(guān)閱讀

商學(xué)院

Open Talk

給大模型考“五三”？清華和曲一線的大模型測(cè)評(píng)集來了

相關(guān)閱讀

給大模型考“五三”？清華和曲一線的大模型測(cè)評(píng)集來了