網(wǎng)易有道首席科學(xué)家：為什么教育大模型能判斷9.11和9.9誰大？

2024-07-19 11:02:59發(fā)布來源：多知作者：Penny

　　多知7月19日消息，近日，多知曾報(bào)道了【9.11和9.9哪個更大】測試了多個大模型，其中一些通用大模型都答錯了，錯法各有不同，而教育垂類大模型都答對了，包括學(xué)而思旗下九章大模型旗下的九章隨時(shí)問，猿力科技看云大模型旗下的海豚AI學(xué)以及基于子曰教育大模型研發(fā)的APP——有道小P。

　　對此，網(wǎng)易有道首席科學(xué)家段亦濤向多知解釋：“類似9.11和9.9哪個大，以及算數(shù)運(yùn)算，奇偶校驗(yàn)，字符串復(fù)制等其他的任務(wù)，都屬于inductive inference(歸納推理)的任務(wù)。這類問題不是邏輯推理能力的問題。他們的特點(diǎn)是用一段代碼，或者一個特定的電路就可以做到完美。

　　從機(jī)器學(xué)習(xí)的角度來看，如果希望模型獲得這樣的能力，是一個inductive learning(歸納學(xué)習(xí))的過程。就是說從有限的數(shù)據(jù)樣例中總結(jié)出一個通用的規(guī)則。inductive learning是一個非常重要的學(xué)習(xí)方式，人類所有的對世界規(guī)律的認(rèn)知，比如萬有引力，都是通過inductive learning來獲取的。眾所周知，inductive learning(歸納學(xué)習(xí))需要inductive bias(歸納偏置)，即獨(dú)立于數(shù)據(jù)的額外假設(shè)。這是因?yàn)槿魏斡邢迶?shù)量的訓(xùn)練樣本都對應(yīng)著無限多種可能的后續(xù)情況，對應(yīng)于不同的規(guī)則。大衛(wèi)·休謨(David Hume)在他的《人類理解研究》(An Enquiry Concerning Human Understanding)一書中對歸納問題的研究中指出，我們對世界的所有觀察都只是一系列“恒常共現(xiàn)”的現(xiàn)象，而因果關(guān)系等規(guī)則則是由人類大腦賦予的。這就是人類學(xué)習(xí)中的inductive bias。

　　不幸的是，目前大模型不具有使用靈活的inductive bias的機(jī)制。它本質(zhì)上還是一個語言模型，它從語言數(shù)據(jù)中學(xué)習(xí)的是統(tǒng)計(jì)相關(guān)性，而這使它不擅長做規(guī)則學(xué)習(xí)，從而不擅長歸納推理。比如它可能在語料中看到版本號、日期、書的章節(jié)等樣例。而在這種場景下，9.11的確是比9.9大。所以它可能給出錯誤的答案。”

　　那么怎么才能解決這個問題?

　　段亦濤說：“有道做大模型應(yīng)用的思路是應(yīng)用驅(qū)動，揚(yáng)長避短。我們聚焦教育場景，利用我們多年積累的業(yè)務(wù)數(shù)據(jù)和AI技術(shù)，來克服大模型的這類問題。首先多年來我們的教學(xué)業(yè)務(wù)積累了大量的數(shù)據(jù)，包括題目、知識點(diǎn)、教案、講解等等。這些數(shù)據(jù)蘊(yùn)含了有道的名師對教學(xué)內(nèi)容的深刻理解和剖析。我們利用這些數(shù)據(jù)，采用了一系列技術(shù)，包括預(yù)訓(xùn)練，SFT，RLHF等，加強(qiáng)了模型的領(lǐng)域能力。同時(shí)，我們也用RAG的方式，將龐大的教學(xué)資料作為外部知識庫形式提供給LLM，進(jìn)一步強(qiáng)化它的結(jié)果的準(zhǔn)確性。

　　另外特別重要的一點(diǎn)是，我們開發(fā)出了有效的強(qiáng)化模型指令遵循能力的技術(shù)。這使得模型能夠很好地理解和利用我們的業(yè)務(wù)數(shù)據(jù)中對概念和解題思路的講解。比如我們的教輔數(shù)據(jù)里包含如何比較兩個小數(shù)的大小的思路，模型遵循這些思路，就能做對。從某種意義上講，我們找到了辦法，將inductive inference(歸納推理)轉(zhuǎn)變?yōu)閐eductive inference(演繹推理)，從而避免了大模型學(xué)習(xí)規(guī)則的短板。也就是說，我們找到了有效的教學(xué)方法，教會了模型這些任務(wù)，而不是完全依賴它自己去學(xué)到。

　　這個方式并不簡單，它依賴模型具有很強(qiáng)的指令遵循能力。我們也是通過深入的思考和大量的嘗試才做到。”

　　相關(guān)閱讀：

　　9.11和9.9誰大?教育大模型高光時(shí)刻，通用大模型翻車

商學(xué)院

Open Talk

網(wǎng)易有道首席科學(xué)家：為什么教育大模型能判斷9.11和9.9誰大？

相關(guān)閱讀

商學(xué)院

Open Talk

網(wǎng)易有道首席科學(xué)家：為什么教育大模型能判斷9.11和9.9誰大？

相關(guān)閱讀

網(wǎng)易有道首席科學(xué)家：為什么教育大模型能判斷9.11和9.9誰大？