rStar-Math展示了小型模型的潛力。

微軟聯(lián)合清北推出rStar-Math技術(shù),數(shù)學(xué)推理能力趕超OpenAI o1

2025-01-10 13:49:55發(fā)布     來(lái)源:多知    作者:Doris  

  微軟近日宣布了其新的 rStar-Math 技術(shù),這一創(chuàng)新的推理方法可以應(yīng)用于小型語(yǔ)言模型(SLMs),該技術(shù)目前仍處于研究階段,相關(guān)研究論文已發(fā)布在 arXiv.org 上,由微軟、北京大學(xué)和清華大學(xué)的八位作者共同完成。

  rStar-Math核心在于,讓小模型具備深度思考的能力,利用蒙特卡羅樹搜索,這種方法模擬人類的 “深度思考”,通過(guò)逐步細(xì)化數(shù)學(xué)問(wèn)題的解決方案來(lái)幫助小型模型自我演進(jìn)。

  在測(cè)試中,rStar-Math 技術(shù)被應(yīng)用于多個(gè)小型開(kāi)源模型,包括微軟的 Phi-3迷你模型、阿里巴巴的 Qwen-1.5B(15億參數(shù)模型)和 Qwen-7B(70億參數(shù)模型)。測(cè)試結(jié)果顯示,所有參與的模型性能都有所提升,其中在 MATH 基準(zhǔn)測(cè)試中,rStar-Math 甚至超越了 OpenAI OpenAI o1-preview。

  rStar-Math除了基準(zhǔn)測(cè)試成績(jī)亮眼,對(duì)比優(yōu)勢(shì)也十分明顯。它能顯著提升小型語(yǔ)言模型的推理能力,在模型規(guī)模遠(yuǎn)小于競(jìng)爭(zhēng)對(duì)手的情況下,超越了許多現(xiàn)有的 System 2 基線方法。它在不同類型的數(shù)學(xué)基準(zhǔn)測(cè)試中都具有很強(qiáng)的泛化能力,在 Olympiad Bench、College Math 和高考數(shù)學(xué)等測(cè)試中均取得了新的領(lǐng)先成績(jī)。

  微軟通過(guò) rStar-Math 展示了小型模型的潛力,強(qiáng)調(diào)了高效能的方向。

  論文地址:https://arxiv.org/pdf/2501.04519