GPT-4V平均得分為17.23%。

給大模型考“五三”?清華和曲一線的大模型測(cè)評(píng)集來了

2024-03-08 15:44:18發(fā)布     來源:多知網(wǎng)    作者:王上  

  來源|多知網(wǎng)

  作者|王上

  針對(duì)大模型的考試越來越豐富了!

  近日,清華?學(xué)THUNLP實(shí)驗(yàn)室和北航、曲?線智能出版中?聯(lián)合發(fā)布了OlympiadBench,這是?個(gè)Olympiad-level的雙語、多模態(tài)的科學(xué)評(píng)測(cè)集,主要評(píng)測(cè)大模型在數(shù)學(xué)和物理方面的推理能力。

  根據(jù)OlympiadBench研究團(tuán)隊(duì)的論文顯示,這套評(píng)測(cè)集包含了8952條數(shù)學(xué)和物理問題,這些都來?于國際奧賽、中國奧賽、中國?考模擬題。

  這套評(píng)測(cè)集的特點(diǎn)是:達(dá)到奧林匹克競(jìng)賽難度,多模態(tài),主要評(píng)估?模型在數(shù)學(xué)、物理上的推理能?;且是雙語的。這是第一個(gè)提供雙語、多模態(tài)的科學(xué)基準(zhǔn)。

  曲一線是中國教輔頭部企業(yè),旗下“五三”教輔聞名全國。OlympiadBench評(píng)測(cè)集的推出意味著可以給大模型考“五三”了。

  各大模型的成績(jī)?nèi)绾?

  根據(jù)OlympiadBench研究團(tuán)隊(duì)的研究結(jié)果顯示,OpenAI旗下的大模型GPT-4V在OlympiadBench上的平均得分為17.23%,僅在物理學(xué)方面得分為11.28%。

  01

  OlympiadBench出爐:給大模型考試加大難度

  每一個(gè)大模型發(fā)布之前,都會(huì)公布一些評(píng)測(cè)數(shù)據(jù)。這是怎么得出來的?背后就是基準(zhǔn)(Benchmarks)評(píng)測(cè)數(shù)據(jù)集(簡(jiǎn)稱“評(píng)測(cè)集”)。

  為了評(píng)估模型的性能,需要使用評(píng)測(cè)集來測(cè)試模型對(duì)未見過的數(shù)據(jù)的預(yù)測(cè)能力。因此,評(píng)測(cè)集不同于訓(xùn)練集,兩者是獨(dú)立的。

  當(dāng)前,有很多專門人員或者機(jī)構(gòu)來構(gòu)建測(cè)試數(shù)據(jù)集,可以說他們是針對(duì)大模型的“考試題”。

  比較常用評(píng)測(cè)集有:

  GSM8K,一個(gè)由8.5K高質(zhì)量的語言多樣化的小學(xué)數(shù)學(xué)問題組成的評(píng)測(cè)集,采用英文格式。

  MMLU,該測(cè)評(píng)數(shù)據(jù)集為英文格式,涵蓋 STEM、人文學(xué)科、社會(huì)科學(xué)等領(lǐng)域的 57 個(gè)學(xué)科。難度從初級(jí)到專業(yè)高級(jí),既考驗(yàn)世界知識(shí),又考驗(yàn)解決問題的能力。

  C-Eval,是首個(gè)評(píng)估中文基礎(chǔ)模型高級(jí)知識(shí)和推理能力的廣泛基準(zhǔn),由清華大學(xué)THUNLP實(shí)驗(yàn)室聯(lián)合上海交通大學(xué)推出,該評(píng)測(cè)集包括四個(gè)難度級(jí)別的多項(xiàng)選擇題:初中、高中、大學(xué)和專業(yè)。

  MMCU,這是甲骨易AI研究院推出的中文評(píng)測(cè)數(shù)據(jù)集,為中文格式,涵蓋醫(yī)學(xué)、法律、心理學(xué)和教育四大領(lǐng)域,主要是選擇題,題目的數(shù)量達(dá)到1萬+,主要評(píng)測(cè)理解能力。

  隨著大模型的發(fā)展,傳統(tǒng)的數(shù)學(xué)、物理基準(zhǔn)已經(jīng)難以滿足大模型的快速發(fā)展,需要更具難度的評(píng)測(cè)集來評(píng)估。

  數(shù)學(xué)、物理難度的最高標(biāo)準(zhǔn)是什么?非奧林匹克競(jìng)賽莫屬。因此,這個(gè)數(shù)據(jù)集命名為OlympiadBench。這是由清華?學(xué)和北航、曲?線智能出版中?聯(lián)合發(fā)布的?個(gè)Olympiad-level的雙語、多模態(tài)的科學(xué)評(píng)測(cè)集,來向?模型發(fā)起挑戰(zhàn)。

  OlympiadBench挑選了國內(nèi)外奧林匹克競(jìng)賽和國內(nèi)?考的的開放性回答題?。?論是難度還是題?形式,均和以往的基準(zhǔn)不同,都對(duì)模型進(jìn)??階推理提出更大的挑戰(zhàn)性。

  在學(xué)科方面,OlympiadBench選擇了數(shù)學(xué)、物理。數(shù)學(xué)、物理這兩個(gè)對(duì)?類科學(xué)極其重要的學(xué)科,其中物理的難度不亞于數(shù)學(xué),卻經(jīng)常被忽略。

  在形態(tài)上,OlympiadBench是多模態(tài)的。隨著大模型的快速發(fā)展,傳統(tǒng)的基準(zhǔn)評(píng)測(cè)集?般是只有文本,不滿?研究需求。尤其是物理和數(shù)學(xué)經(jīng)常是很多圖形、表格的題目,需要圖片上傳,OlympiadBench則正好包含了多模態(tài)信息。

  在語言方面,是雙語的。?前?較多的基準(zhǔn)評(píng)測(cè)集?都是英?的格式,?中?環(huán)境下也缺少有難度的問題。所以O(shè)lympiadBench收集了中?環(huán)境下有難度的問題,為中??模型、中?的研究提供資源。

  且每條數(shù)據(jù)都包含了專家級(jí)別標(biāo)注的解答過程、細(xì)分領(lǐng)域、題型等等,以及豐富的數(shù)據(jù)量。

  OlympiadBench可以說為推理研究提供了一個(gè)資源庫。

  02

  OlympiadBench的評(píng)測(cè)集是怎樣構(gòu)建的?

  對(duì)于大模型研究來說,數(shù)據(jù)集的作用非常大。不過,構(gòu)建測(cè)試數(shù)據(jù)集這件事本身難度很大,比如要構(gòu)建哪些能力?測(cè)評(píng)哪些方面?

  其中,推理能力是重要的評(píng)測(cè)標(biāo)準(zhǔn)。

  OlympiadBench團(tuán)隊(duì)的出發(fā)點(diǎn)是,通過OlympiadBench建??個(gè)代表?類智?成就頂峰的基準(zhǔn),從??勵(lì)研究?員推動(dòng)?模型的數(shù)學(xué)和物理推理能?的邊界。

  為了實(shí)現(xiàn)這?愿景,OlympiadBench團(tuán)隊(duì)收集了國內(nèi)外奧林匹克競(jìng)賽題?以及國內(nèi)的?考題?:

  對(duì)于奧林匹克競(jìng)賽題目,OlympiadBench研究團(tuán)隊(duì)從官?下載PDF,并使?Mathpix轉(zhuǎn)化為markdown。

  研究團(tuán)隊(duì)對(duì)處理的結(jié)果進(jìn)?細(xì)致的校對(duì)、修復(fù)。然后進(jìn)?統(tǒng)?去重。

  最后,按照細(xì)分領(lǐng)域、題型、答案格式和子字段等關(guān)鍵信息進(jìn)?屬性標(biāo)注,從?獲得?個(gè)含有多種詳細(xì)分類且?凈、準(zhǔn)確和詳細(xì)的數(shù)據(jù)集。

  

  (OlympiadBench評(píng)測(cè)集構(gòu)建流程)

  對(duì)于國內(nèi)高考題目,OlympiadBench研究團(tuán)隊(duì)選擇曲一線的“五三”教輔,這集合了從2005年到現(xiàn)在歷年的高考模擬題和真題。

  

  (詳細(xì)的數(shù)據(jù)集)

  實(shí)際上,曲一線很早就開始了數(shù)字化,曲?線智能出版中?就是專門做數(shù)字化內(nèi)容的部門。此前,“五三”此前也進(jìn)入了小猿智能本、有道等智能硬件。

  可以說,“五三”教輔是一個(gè)現(xiàn)成的中文高考評(píng)測(cè)集,有詳細(xì)的題目和解題過程,且均是標(biāo)注好的。

  曲一線團(tuán)隊(duì)告訴多知網(wǎng):“‘五三’題庫非常精準(zhǔn),題目和答案都經(jīng)歷了三審三校的過程,差錯(cuò)率遠(yuǎn)低于國內(nèi)對(duì)出版要求的萬分之一。”

  OlympiadBench采用“五三”教輔,對(duì)于曲一線而言,一方面象征著其數(shù)字化內(nèi)容得到了更為深入的應(yīng)用,另一方面也強(qiáng)化了其品牌勢(shì)能。

  03

  結(jié)果來了:GPT-4V平均準(zhǔn)確率為17.23%

  大模型在OlympiadBench評(píng)測(cè)集的表現(xiàn)如何?

  在研究上,為了更準(zhǔn)確全?的評(píng)估,OlympiadBench研究團(tuán)隊(duì)舉例針對(duì)以上五種答案題型的題?,構(gòu)建了?個(gè)?動(dòng)評(píng)分的路徑。

  OlympiadBench測(cè)試了5家大模型(當(dāng)時(shí)Anthropic推出Claude 3大模型還未面市,因此不在其中),包括微軟、零一萬物、谷歌、通義千問和OpenAI旗下的大模型。

  從測(cè)試結(jié)果可以看到,OlympiadBench?現(xiàn)在基準(zhǔn)評(píng)測(cè)集更具有挑戰(zhàn)性,OpenAI旗下GPT-4V的平均準(zhǔn)確率僅為17.23%,通義千問旗下Qwen-VL-Max平均準(zhǔn)確率為10.31%,谷歌旗下Gemini-Pro-Vision平均準(zhǔn)確率為4.38%。

  

  (實(shí)驗(yàn)結(jié)果)

  從理論上來看,大模型通過各項(xiàng)基準(zhǔn)測(cè)試的數(shù)據(jù)越高,在一定程度上意味著越接近AGI,即能達(dá)到人類水平。從OlympiadBench測(cè)試結(jié)果來看,各家大模型離AGI還有一定的差距。

  OlympiadBench研究團(tuán)隊(duì)還對(duì)大模型測(cè)試結(jié)果分析了錯(cuò)誤的原因。

  

  (錯(cuò)誤類型)

  論文提到,對(duì)于證明題的分析,GPT-4V在Math-Zh_COMP的81道題中只答對(duì)了6道,都是相對(duì)簡(jiǎn)單經(jīng)典的結(jié)論或者只涉及簡(jiǎn)單的計(jì)算推導(dǎo),在Math-En_COMP中基本?法在標(biāo)記限制內(nèi)完成證明, 表明現(xiàn)有模型仍?法有效解決冗?的推理和證明。

  同時(shí)GPT-4V暴露了?個(gè)問題,包括:?法充分利?圖像信息;傾向于在簡(jiǎn)化和轉(zhuǎn)換代數(shù)表達(dá)式時(shí)犯錯(cuò)誤;提出簡(jiǎn)單、基本的不正確結(jié)論等。

  目前,OlympiadBench已經(jīng)全部公開,相信不久的將來,會(huì)有更多大模型用OlympiadBench評(píng)測(cè)集進(jìn)行測(cè)試。

  研究團(tuán)隊(duì)表示,希望OlympiadBench可以為推動(dòng)AGI的發(fā)展提供幫助,另外科學(xué)的評(píng)測(cè)集也不僅限于數(shù)學(xué)、物理,未來也將繼續(xù)擴(kuò)展基準(zhǔn),來提供更全?的評(píng)估。

  END

  本文作者:王上