推理能力提升帶來范式變化。

推理大模型來了,OpenAI o1解答物理、生物和化學(xué)問題水平超越人類博士

2024-09-13 23:50:41發(fā)布     來源:多知    作者:Penny  

  來源|多知

  作者|Penny

  9月12日晚,OpenAI開發(fā)了一系列新的人工智能模型,旨在讓大模型花更多時(shí)間思考后再做出反應(yīng)。它們可以推理復(fù)雜的任務(wù),解決比以前的科學(xué)、編碼和數(shù)學(xué)模型更難的問題。

  根據(jù)OpenAI的官方博客顯示,OpenAI o1 在競爭性編程問題(Codeforces)中排名第 89 位,在美國數(shù)學(xué)奧林匹克 (AIME) 預(yù)選賽中躋身美國前 500 名學(xué)生之列,并在物理、生物和化學(xué)問題 (GPQA) 基準(zhǔn)測(cè)試中超越人類博士級(jí)準(zhǔn)確度。

  OpenAI o1 就是此前被傳的內(nèi)部代號(hào)為“草莓”的項(xiàng)目,這是一個(gè)不同于大語言模型的新模型,更像一個(gè)推理模型。

  除了官方博客,OpenAI還發(fā)布了o1的多個(gè)視頻,包括解數(shù)學(xué)題、做貪吃蛇游戲、破譯韓文、破解邏輯謎題、解答量子物理等。可以看到,o1的推理能力得到極大提升,帶來范式的變化。

  根據(jù)OpenAI研究團(tuán)隊(duì)的采訪顯示,o1被定義為"推理模型”,這些系列的新特點(diǎn):

  1)注重思考過程:“推理模型”會(huì)在回答問題之前進(jìn)行更多思考,采取了用思考時(shí)間來給出更優(yōu)的結(jié)果,這與語言大模型一步到位給出答案不同;

  2)自生成思維鏈:團(tuán)隊(duì)使用強(qiáng)化學(xué)習(xí)(RL)訓(xùn)練模型生成和完善自己的思維鏈,而不僅僅依賴人類編寫的思路鏈;

  3)可以自我反思:o1能夠質(zhì)疑自己、反思錯(cuò)誤,展現(xiàn)出更復(fù)雜的推理過程,尤其是在數(shù)學(xué)能力上。

  OpenAI稱:“我們大規(guī)模強(qiáng)化學(xué)習(xí)算法教會(huì)模型如何在高度數(shù)據(jù)高效的訓(xùn)練過程中利用其思路進(jìn)行有效思考。我們發(fā)現(xiàn),隨著強(qiáng)化學(xué)習(xí)的增加(訓(xùn)練時(shí)間計(jì)算)和思考時(shí)間的增加(測(cè)試時(shí)間計(jì)算),o1 的性能會(huì)持續(xù)提高。擴(kuò)展此方法的限制與 LLM 預(yù)訓(xùn)練的限制大不相同,我們將繼續(xù)研究這些限制。”

  OpenAI稱,在競爭性編程平臺(tái) Codeforces 的測(cè)試中,OpenAI o1 取得排名前 89% ,位于頂級(jí)選手行列。而在美國數(shù)學(xué)奧林匹克預(yù)選賽(AIME)中,o1解答正確率為 83% ,而GPT-4o 僅能解答對(duì) 13%。此外,o1在物理、生物和化學(xué)等領(lǐng)域的基準(zhǔn)測(cè)試(GPQA)中,表現(xiàn)甚至超過了一些博士級(jí)別的準(zhǔn)確度。

  OpenAI還對(duì)o1在GPQA鉆石版上進(jìn)行了評(píng)估,這是一個(gè)測(cè)試化學(xué)、物理和生物學(xué)專業(yè)知識(shí)的困難智能基準(zhǔn)。

  為了將模型與人類進(jìn)行比較,OpenAI還招募了擁有博士學(xué)位的專家來回答GPQA鉆石版的問題。結(jié)果是o1超越了這些人類專家的表現(xiàn),成為第一個(gè)在這一基準(zhǔn)上做到這一點(diǎn)的模型。

  OpenAI坦言,這些結(jié)果并不意味著o1在所有方面都比擁有博士學(xué)位的人更有能力——只是表明該模型在解決博士學(xué)位預(yù)期解決的一些問題上更為熟練。

  在其他幾個(gè)機(jī)器學(xué)習(xí)基準(zhǔn)上,o1也超越了最先進(jìn)的水平。

  在啟用了視覺感知能力后,o1在MMMU(多模態(tài)大規(guī)模在多學(xué)科任務(wù)上的表現(xiàn)基準(zhǔn))評(píng)測(cè)集上得分為78.2%,使其成為第一個(gè)與人類專家競爭的模型。它還在57個(gè)MMLU子類別中的54個(gè)上超越了GPT-4o。

  OpenAI首席執(zhí)行官山姆·奧特曼在其個(gè)人社交平臺(tái)表示,“o1是迄今為止我們最強(qiáng)大的模型,雖然它的表現(xiàn)仍然存在缺陷,不過在你第一次使用它的時(shí)候仍然會(huì)感到震撼。”

  o1此次發(fā)布的有兩個(gè)版本:標(biāo)準(zhǔn)版 o1-preview 和簡化版 o1-mini。雖然 o1-preview 在處理復(fù)雜問題時(shí)表現(xiàn)更加精準(zhǔn),但它的成本也相對(duì)更高。而 o1-mini 則是一款更輕便、經(jīng)濟(jì)的模型,價(jià)格比 o1-preview 便宜 80%,主要面向?qū)ν评硇阅芤筝^低的用戶。

  OpenAI o1 的發(fā)布標(biāo)志著開發(fā)具有復(fù)雜推理能力的人工智能邁出了重要一步。它在專門任務(wù)中超越人類的能力,加上其強(qiáng)化學(xué)習(xí)框架,使其適合于科學(xué)、工程和其他需要批判性思維的領(lǐng)域的應(yīng)用。

  可以說,o1在推理能力上的提升將進(jìn)一步改變教育領(lǐng)域,雖然仍有不足之初,但教育領(lǐng)域又多了一個(gè)參考工具。

  END

  作者:Penny