推理大模型來了，OpenAI o1解答物理、生物和化學(xué)問題水平超越人類博士

2024-09-13 23:50:41發(fā)布來源：多知作者：Penny

　　來源|多知

　　作者|Penny

　　9月12日晚，OpenAI開發(fā)了一系列新的人工智能模型，旨在讓大模型花更多時(shí)間思考后再做出反應(yīng)。它們可以推理復(fù)雜的任務(wù)，解決比以前的科學(xué)、編碼和數(shù)學(xué)模型更難的問題。

　　根據(jù)OpenAI的官方博客顯示，OpenAI o1 在競爭性編程問題(Codeforces)中排名第 89 位，在美國數(shù)學(xué)奧林匹克 (AIME) 預(yù)選賽中躋身美國前 500 名學(xué)生之列，并在物理、生物和化學(xué)問題 (GPQA) 基準(zhǔn)測(cè)試中超越人類博士級(jí)準(zhǔn)確度。

　　OpenAI o1 就是此前被傳的內(nèi)部代號(hào)為“草莓”的項(xiàng)目，這是一個(gè)不同于大語言模型的新模型，更像一個(gè)推理模型。

　　除了官方博客，OpenAI還發(fā)布了o1的多個(gè)視頻，包括解數(shù)學(xué)題、做貪吃蛇游戲、破譯韓文、破解邏輯謎題、解答量子物理等。可以看到，o1的推理能力得到極大提升，帶來范式的變化。

　　根據(jù)OpenAI研究團(tuán)隊(duì)的采訪顯示，o1被定義為"推理模型”，這些系列的新特點(diǎn)：

　　1）注重思考過程：“推理模型”會(huì)在回答問題之前進(jìn)行更多思考，采取了用思考時(shí)間來給出更優(yōu)的結(jié)果，這與語言大模型一步到位給出答案不同;

　　2）自生成思維鏈：團(tuán)隊(duì)使用強(qiáng)化學(xué)習(xí)(RL)訓(xùn)練模型生成和完善自己的思維鏈，而不僅僅依賴人類編寫的思路鏈;

　　3）可以自我反思：o1能夠質(zhì)疑自己、反思錯(cuò)誤，展現(xiàn)出更復(fù)雜的推理過程，尤其是在數(shù)學(xué)能力上。

　　OpenAI稱：“我們大規(guī)模強(qiáng)化學(xué)習(xí)算法教會(huì)模型如何在高度數(shù)據(jù)高效的訓(xùn)練過程中利用其思路進(jìn)行有效思考。我們發(fā)現(xiàn)，隨著強(qiáng)化學(xué)習(xí)的增加（訓(xùn)練時(shí)間計(jì)算）和思考時(shí)間的增加（測(cè)試時(shí)間計(jì)算），o1 的性能會(huì)持續(xù)提高。擴(kuò)展此方法的限制與 LLM 預(yù)訓(xùn)練的限制大不相同，我們將繼續(xù)研究這些限制。”

　　OpenAI稱，在競爭性編程平臺(tái) Codeforces 的測(cè)試中，OpenAI o1 取得排名前 89% ，位于頂級(jí)選手行列。而在美國數(shù)學(xué)奧林匹克預(yù)選賽（AIME）中，o1解答正確率為 83% ，而GPT-4o 僅能解答對(duì) 13%。此外，o1在物理、生物和化學(xué)等領(lǐng)域的基準(zhǔn)測(cè)試（GPQA）中，表現(xiàn)甚至超過了一些博士級(jí)別的準(zhǔn)確度。

　　OpenAI還對(duì)o1在GPQA鉆石版上進(jìn)行了評(píng)估，這是一個(gè)測(cè)試化學(xué)、物理和生物學(xué)專業(yè)知識(shí)的困難智能基準(zhǔn)。

　　為了將模型與人類進(jìn)行比較，OpenAI還招募了擁有博士學(xué)位的專家來回答GPQA鉆石版的問題。結(jié)果是o1超越了這些人類專家的表現(xiàn)，成為第一個(gè)在這一基準(zhǔn)上做到這一點(diǎn)的模型。

　　OpenAI坦言，這些結(jié)果并不意味著o1在所有方面都比擁有博士學(xué)位的人更有能力——只是表明該模型在解決博士學(xué)位預(yù)期解決的一些問題上更為熟練。

　　在其他幾個(gè)機(jī)器學(xué)習(xí)基準(zhǔn)上，o1也超越了最先進(jìn)的水平。

　　在啟用了視覺感知能力后，o1在MMMU(多模態(tài)大規(guī)模在多學(xué)科任務(wù)上的表現(xiàn)基準(zhǔn))評(píng)測(cè)集上得分為78.2%，使其成為第一個(gè)與人類專家競爭的模型。它還在57個(gè)MMLU子類別中的54個(gè)上超越了GPT-4o。

　　OpenAI首席執(zhí)行官山姆·奧特曼在其個(gè)人社交平臺(tái)表示，“o1是迄今為止我們最強(qiáng)大的模型，雖然它的表現(xiàn)仍然存在缺陷，不過在你第一次使用它的時(shí)候仍然會(huì)感到震撼。”

　　o1此次發(fā)布的有兩個(gè)版本：標(biāo)準(zhǔn)版 o1-preview 和簡化版 o1-mini。雖然 o1-preview 在處理復(fù)雜問題時(shí)表現(xiàn)更加精準(zhǔn)，但它的成本也相對(duì)更高。而 o1-mini 則是一款更輕便、經(jīng)濟(jì)的模型，價(jià)格比 o1-preview 便宜 80%，主要面向?qū)ν评硇阅芤筝^低的用戶。

　　OpenAI o1 的發(fā)布標(biāo)志著開發(fā)具有復(fù)雜推理能力的人工智能邁出了重要一步。它在專門任務(wù)中超越人類的能力，加上其強(qiáng)化學(xué)習(xí)框架，使其適合于科學(xué)、工程和其他需要批判性思維的領(lǐng)域的應(yīng)用。

　　可以說，o1在推理能力上的提升將進(jìn)一步改變教育領(lǐng)域，雖然仍有不足之初，但教育領(lǐng)域又多了一個(gè)參考工具。

　　END

　　作者：Penny

商學(xué)院

Open Talk

推理大模型來了，OpenAI o1解答物理、生物和化學(xué)問題水平超越人類博士

相關(guān)閱讀

商學(xué)院

Open Talk

推理大模型來了，OpenAI o1解答物理、生物和化學(xué)問題水平超越人類博士

相關(guān)閱讀

推理大模型來了，OpenAI o1解答物理、生物和化學(xué)問題水平超越人類博士