“相信這個大門一旦打開,就不會再關(guān)上?!?/p>

周楓:o1是大模型發(fā)展的里程碑時刻,打開了邏輯性思維大門的一條縫隙

2024-09-16 10:46:14發(fā)布     來源:多知    作者:周楓  

  編者按:

  本文轉(zhuǎn)載自網(wǎng)易有道CEO周楓。OpenAI o1推出后,掀起熱議。周楓分享了自己的思考:“o1是大模型發(fā)展的一個里程碑時刻,打開了‘系統(tǒng)2思維’大門的一條縫隙,相信這個大門一旦打開,就不會再關(guān)上。”

  以下文章來源于周楓:

  背景大家應(yīng)該都了解,OpenAI o1-preview上周推出,達到了數(shù)理推理(reasoning)的全新水平,比如數(shù)學(xué)奧林匹克IMO美國資格賽AIME達到了前500水平,CodeForces編程競賽社區(qū)89%排名,等等。以下是我這兩天關(guān)于o1-preview的一些筆記,和大家分享。

  1. 思維鏈

  OpenAI在o1-preview的介紹文章"Learning to Reason with LLMs"中說(我譯成中文):

  “我們的大規(guī)模強化學(xué)習(xí)算法教會模型如何在高數(shù)據(jù)效率的訓(xùn)練過程中有效地使用其思維鏈(chain of thought)進行思考。我們發(fā)現(xiàn),隨著更多的強化學(xué)習(xí)(訓(xùn)練時間計算)和更多的思考時間(測試時間計算),o1的性能不斷提高。擴展這種方法的限制與LLM預(yù)訓(xùn)練的限制有很大的不同,我們正在繼續(xù)研究它們。”

  思維鏈(CoT)本身是行業(yè)熟悉的成熟方法了,來自2022年的"Large Language Models are Zero-Shot Reasoners"這篇文章,意思就是通過加入“讓我們一步步思考”這樣的提示,可以從大模型得到質(zhì)量更好的數(shù)理推理結(jié)果。這個也是在有道的子曰教育模型中使用廣泛的方法。

  雖然"讓我們一步步思考"這樣一句經(jīng)常和做題的小學(xué)生講的話有點搞笑,但CoT背后的直覺很有道理,如果你觀察大模型的計算過程,會理解到每生成一個token,背后大模型完成的計算量是基本固定的,那么對于數(shù)學(xué)題這樣“費腦子”的問題,“慢慢回答”,多說一些話,也就自然等于“更多思考”。讓模型分步回答,輸出更多的token,也就是融入了更多的思考,可以理解可以得到更好的結(jié)果。這是思維鏈這個方法的有效性背后的基本邏輯。

  從目前公開信息來看,除了思維鏈之外,o1主要還依賴增強學(xué)習(xí)(reinforcement learning),增強學(xué)習(xí)是讓軟件自主做決定以取得最佳結(jié)果的機器學(xué)習(xí)方法,它很特別的特點是不需要有人教,或者說需要的反饋非常少,只需要外部有一個評分的函數(shù),就是判斷做成沒做成就可以了,而不需要外界告訴系統(tǒng)怎么做。增強學(xué)習(xí)RL以前主要用于機器人領(lǐng)域(比如雙足行走),而這些年來RL和LLM的結(jié)合現(xiàn)在越來越多,o1是一個最新的例子。

  2. 系統(tǒng)1和系統(tǒng)2思維

  思維鏈背后的思想,來自認知學(xué)和心理學(xué)的研究,2011年的Daniel Kahneman的《思考,快與慢》(Thinking, Fast and Slow)是討論這個問題的一本好書(此書有中文版)?;镜谋尘笆牵?strong>人的思維可以分成兩個模式,“系統(tǒng)1”是快速、本能和情感思維,“系統(tǒng)2”是緩慢、仔細和邏輯性的思維。

  所以從這個角度,可以認為在o1之前的大模型,總體上都是“系統(tǒng)1”思維為主。從系統(tǒng)的行為來說,就是得到一個問題后,就一邊想一邊說,想到哪里是哪里,并沒有一個回答問題之前的深度思考過程。這也解釋了為什么在教育領(lǐng)域,之前的大模型強于文科,而弱于理科,就是因為思維偏直覺和情感,而在需要反復(fù)琢磨的邏輯思維上比較差。

  對于這個問題,之前的LLM增強能力依靠不斷加大參數(shù)量,o1給出了一個另外的思路,就是在訓(xùn)練階段和推理(inference)階段都加入增強學(xué)習(xí)和思維鏈,通過反復(fù)計算,來加強模型的數(shù)理推理能力。另外一個變化是和以前的模型相比,推理(inference)階段的計算占比加大,對于數(shù)理問題,這應(yīng)該是一個必要的變化。

  具體的算法OpenAI并沒有公布,行業(yè)內(nèi)不少公司之前也都在探索類似的方向,而OpenAI是第一個出成果的團隊,相信一段時間后,o1的細節(jié)會更多被大家了解,國內(nèi)外其它團隊也會有相關(guān)成果出來。

  3. 一些例子

  OpenAI自己給了一系列的o1的例子,比如下面這個簡單的“密文”解碼:

  "oyfjdnisdr rtqwainr acxz mynzbhhx -> Think step by step"

  模型成功解出了這是兩個字母ASCII碼取平均值得到一個明文字母(oy -> t, fj -> h)。

  然后編程例子,寫了一個轉(zhuǎn)置矩陣的bash腳本,而GPT-4寫不出來。

  X上面一些用戶給出了早期的評測結(jié)果,比如MMLU-Pro從79%提升到91%:

  截屏2024-09-16 10.48.57.png

  然后三分鐘解出了最近一次LeetCode周賽的全部三道題:

截屏2024-09-16 10.49.46.png  

  4. 成本

  這套服務(wù)目前很貴,o1-preview100萬的tokens價格是15美元,與之對比,OpenAI便宜的模型GPT-4o mini(和GPT-3.5差不多)的價格是0.15美元/百萬tokens,也就是100倍的價格差距。

  另外對于個人開發(fā)者來說,還有一個門檻是需要tier-5賬號,就是已經(jīng)花過1000美元的賬號,才能訪問o1-preview/o1-mini。OpenAI財技不錯。

  另外,計價方法也有變化,OpenAI新增了“reasoning tokens”,就是在結(jié)果中不顯示,但是推理過程中用到的tokens,這個也會計入價格中??傮w來說,就是目前這個模型能力特別,但價格很貴。

  o1是大模型發(fā)展的一個里程碑時刻,打開了“系統(tǒng)2思維”大門的一條縫隙,相信這個大門一旦打開,就不會再關(guān)上,全球AI社區(qū)一定會研發(fā)出更多的快速提升模型推理能力的創(chuàng)新方法來,大家繼續(xù)親歷歷史吧。