微軟聯(lián)合清北推出rStar-Math技術(shù)，數(shù)學(xué)推理能力趕超OpenAI o1

2025-01-10 13:49:55發(fā)布來(lái)源：多知作者：Doris

　　微軟近日宣布了其新的 rStar-Math 技術(shù)，這一創(chuàng)新的推理方法可以應(yīng)用于小型語(yǔ)言模型(SLMs)，該技術(shù)目前仍處于研究階段，相關(guān)研究論文已發(fā)布在 arXiv.org 上，由微軟、北京大學(xué)和清華大學(xué)的八位作者共同完成。

　　rStar-Math核心在于，讓小模型具備深度思考的能力，利用蒙特卡羅樹搜索，這種方法模擬人類的 “深度思考”，通過(guò)逐步細(xì)化數(shù)學(xué)問(wèn)題的解決方案來(lái)幫助小型模型自我演進(jìn)。

　　在測(cè)試中，rStar-Math 技術(shù)被應(yīng)用于多個(gè)小型開(kāi)源模型，包括微軟的 Phi-3迷你模型、阿里巴巴的 Qwen-1.5B(15億參數(shù)模型)和 Qwen-7B(70億參數(shù)模型)。測(cè)試結(jié)果顯示，所有參與的模型性能都有所提升，其中在 MATH 基準(zhǔn)測(cè)試中，rStar-Math 甚至超越了 OpenAI OpenAI o1-preview。

　　rStar-Math除了基準(zhǔn)測(cè)試成績(jī)亮眼，對(duì)比優(yōu)勢(shì)也十分明顯。它能顯著提升小型語(yǔ)言模型的推理能力，在模型規(guī)模遠(yuǎn)小于競(jìng)爭(zhēng)對(duì)手的情況下，超越了許多現(xiàn)有的 System 2 基線方法。它在不同類型的數(shù)學(xué)基準(zhǔn)測(cè)試中都具有很強(qiáng)的泛化能力，在 Olympiad Bench、College Math 和高考數(shù)學(xué)等測(cè)試中均取得了新的領(lǐng)先成績(jī)。

　　微軟通過(guò) rStar-Math 展示了小型模型的潛力，強(qiáng)調(diào)了高效能的方向。

　　論文地址：https://arxiv.org/pdf/2501.04519

商學(xué)院

Open Talk

微軟聯(lián)合清北推出rStar-Math技術(shù)，數(shù)學(xué)推理能力趕超OpenAI o1

相關(guān)閱讀

商學(xué)院

Open Talk

微軟聯(lián)合清北推出rStar-Math技術(shù)，數(shù)學(xué)推理能力趕超OpenAI o1

相關(guān)閱讀

微軟聯(lián)合清北推出rStar-Math技術(shù)，數(shù)學(xué)推理能力趕超OpenAI o1