周楓：o1是大模型發(fā)展的里程碑時刻，打開了邏輯性思維大門的一條縫隙

2024-09-16 10:46:14發(fā)布來源：多知作者：周楓

　　編者按：

　　本文轉(zhuǎn)載自網(wǎng)易有道CEO周楓。OpenAI o1推出后，掀起熱議。周楓分享了自己的思考：“o1是大模型發(fā)展的一個里程碑時刻，打開了‘系統(tǒng)2思維’大門的一條縫隙，相信這個大門一旦打開，就不會再關(guān)上。”

　　以下文章來源于周楓：

　　背景大家應(yīng)該都了解，OpenAI o1-preview上周推出，達到了數(shù)理推理(reasoning)的全新水平，比如數(shù)學(xué)奧林匹克IMO美國資格賽AIME達到了前500水平，CodeForces編程競賽社區(qū)89%排名，等等。以下是我這兩天關(guān)于o1-preview的一些筆記，和大家分享。

　　1. 思維鏈

　　OpenAI在o1-preview的介紹文章"Learning to Reason with LLMs"中說(我譯成中文)：

　　“我們的大規(guī)模強化學(xué)習(xí)算法教會模型如何在高數(shù)據(jù)效率的訓(xùn)練過程中有效地使用其思維鏈(chain of thought)進行思考。我們發(fā)現(xiàn)，隨著更多的強化學(xué)習(xí)(訓(xùn)練時間計算)和更多的思考時間(測試時間計算)，o1的性能不斷提高。擴展這種方法的限制與LLM預(yù)訓(xùn)練的限制有很大的不同，我們正在繼續(xù)研究它們。”

　　思維鏈(CoT)本身是行業(yè)熟悉的成熟方法了，來自2022年的"Large Language Models are Zero-Shot Reasoners"這篇文章，意思就是通過加入“讓我們一步步思考”這樣的提示，可以從大模型得到質(zhì)量更好的數(shù)理推理結(jié)果。這個也是在有道的子曰教育模型中使用廣泛的方法。

　　雖然"讓我們一步步思考"這樣一句經(jīng)常和做題的小學(xué)生講的話有點搞笑，但CoT背后的直覺很有道理，如果你觀察大模型的計算過程，會理解到每生成一個token，背后大模型完成的計算量是基本固定的，那么對于數(shù)學(xué)題這樣“費腦子”的問題，“慢慢回答”，多說一些話，也就自然等于“更多思考”。讓模型分步回答，輸出更多的token，也就是融入了更多的思考，可以理解可以得到更好的結(jié)果。這是思維鏈這個方法的有效性背后的基本邏輯。

　　從目前公開信息來看，除了思維鏈之外，o1主要還依賴增強學(xué)習(xí)(reinforcement learning)，增強學(xué)習(xí)是讓軟件自主做決定以取得最佳結(jié)果的機器學(xué)習(xí)方法，它很特別的特點是不需要有人教，或者說需要的反饋非常少，只需要外部有一個評分的函數(shù)，就是判斷做成沒做成就可以了，而不需要外界告訴系統(tǒng)怎么做。增強學(xué)習(xí)RL以前主要用于機器人領(lǐng)域(比如雙足行走)，而這些年來RL和LLM的結(jié)合現(xiàn)在越來越多，o1是一個最新的例子。

　　2. 系統(tǒng)1和系統(tǒng)2思維

　　思維鏈背后的思想，來自認知學(xué)和心理學(xué)的研究，2011年的Daniel Kahneman的《思考，快與慢》(Thinking, Fast and Slow)是討論這個問題的一本好書(此書有中文版)?；镜谋尘笆牵?strong>人的思維可以分成兩個模式，“系統(tǒng)1”是快速、本能和情感思維，“系統(tǒng)2”是緩慢、仔細和邏輯性的思維。

　　所以從這個角度，可以認為在o1之前的大模型，總體上都是“系統(tǒng)1”思維為主。從系統(tǒng)的行為來說，就是得到一個問題后，就一邊想一邊說，想到哪里是哪里，并沒有一個回答問題之前的深度思考過程。這也解釋了為什么在教育領(lǐng)域，之前的大模型強于文科，而弱于理科，就是因為思維偏直覺和情感，而在需要反復(fù)琢磨的邏輯思維上比較差。

　　對于這個問題，之前的LLM增強能力依靠不斷加大參數(shù)量，o1給出了一個另外的思路，就是在訓(xùn)練階段和推理（inference）階段都加入增強學(xué)習(xí)和思維鏈，通過反復(fù)計算，來加強模型的數(shù)理推理能力。另外一個變化是和以前的模型相比，推理（inference）階段的計算占比加大，對于數(shù)理問題，這應(yīng)該是一個必要的變化。

　　具體的算法OpenAI并沒有公布，行業(yè)內(nèi)不少公司之前也都在探索類似的方向，而OpenAI是第一個出成果的團隊，相信一段時間后，o1的細節(jié)會更多被大家了解，國內(nèi)外其它團隊也會有相關(guān)成果出來。

　　3. 一些例子

　　OpenAI自己給了一系列的o1的例子，比如下面這個簡單的“密文”解碼：

　　"oyfjdnisdr rtqwainr acxz mynzbhhx -> Think step by step"

　　模型成功解出了這是兩個字母ASCII碼取平均值得到一個明文字母(oy -> t, fj -> h)。

　　然后編程例子，寫了一個轉(zhuǎn)置矩陣的bash腳本，而GPT-4寫不出來。

　　X上面一些用戶給出了早期的評測結(jié)果，比如MMLU-Pro從79%提升到91%:

　　截屏2024-09-16 10.48.57.png

　　然后三分鐘解出了最近一次LeetCode周賽的全部三道題：

截屏2024-09-16 10.49.46.png 　　

　　4. 成本

　　這套服務(wù)目前很貴，o1-preview100萬的tokens價格是15美元，與之對比，OpenAI便宜的模型GPT-4o mini(和GPT-3.5差不多)的價格是0.15美元/百萬tokens，也就是100倍的價格差距。

　　另外對于個人開發(fā)者來說，還有一個門檻是需要tier-5賬號，就是已經(jīng)花過1000美元的賬號，才能訪問o1-preview/o1-mini。OpenAI財技不錯。

　　另外，計價方法也有變化，OpenAI新增了“reasoning tokens”，就是在結(jié)果中不顯示，但是推理過程中用到的tokens，這個也會計入價格中?？傮w來說，就是目前這個模型能力特別，但價格很貴。

　　o1是大模型發(fā)展的一個里程碑時刻，打開了“系統(tǒng)2思維”大門的一條縫隙，相信這個大門一旦打開，就不會再關(guān)上，全球AI社區(qū)一定會研發(fā)出更多的快速提升模型推理能力的創(chuàng)新方法來，大家繼續(xù)親歷歷史吧。

商學(xué)院

Open Talk

周楓：o1是大模型發(fā)展的里程碑時刻，打開了邏輯性思維大門的一條縫隙

相關(guān)閱讀

商學(xué)院

Open Talk

周楓：o1是大模型發(fā)展的里程碑時刻，打開了邏輯性思維大門的一條縫隙

相關(guān)閱讀

周楓：o1是大模型發(fā)展的里程碑時刻，打開了邏輯性思維大門的一條縫隙