先找到大模型落地場景,再去針對性解決。

對話|有道硬件業(yè)務(wù)負(fù)責(zé)人吳迎暉:將推硬件新品,大模型“千人千面”依賴于場景

2023-09-07 14:32:18發(fā)布     來源:多知網(wǎng)    作者:馮瑋  

  來源|多知網(wǎng)

  作者|馮瑋

  圖片來源|網(wǎng)易有道

  一整個夏天,有道不斷地釋出屬于自己的“好消息”。

  子曰開始成型,大模型落地到六個場景,虛擬人口語教練、詞典筆與聽力寶新品面市,Q2營收12億元同比增長26.2%……

  網(wǎng)易有道CEO周楓曾在8月初發(fā)布會現(xiàn)場強(qiáng)調(diào),此前發(fā)布的六個應(yīng)用(LLM翻譯、虛擬人口語教練、AI作文指導(dǎo)、語法精講、AIBox以及文檔問答)在智能硬件上的落地將在今年的8-9月全部準(zhǔn)備完成。

  至此有道正進(jìn)入第二個階段——增加更多手段去滿足用戶需求,相關(guān)業(yè)務(wù)全面加速。

  大模型、AIGC等技術(shù)的發(fā)展,為有道的“全面加速”勾勒出想象空間,智能硬件身處其中,在技術(shù)落地的過程中一馬當(dāng)先,成為絕對的試驗田。

  但即便不同于在線營銷服務(wù)業(yè)務(wù)、學(xué)習(xí)服務(wù)業(yè)務(wù)的增長,二季度智能硬件收入為2.2億元,上年同期為2.4億元。有道依舊堅信憑借AI技術(shù)的落地,將為硬件業(yè)務(wù)帶來新的可能。

  怎么做?

  多知獨(dú)家對話網(wǎng)易有道高級副總裁、智能硬件業(yè)務(wù)負(fù)責(zé)人吳迎暉,在他看來:

  區(qū)別于市面上的熏聽產(chǎn)品,“有道在聽力寶上想提供的價值是讓用戶學(xué)會自己想學(xué)的東西,但熏聽還是更泛一些;第二,熏聽更強(qiáng)調(diào)低幼內(nèi)容本身,這個長期也不見得一定是我們的優(yōu)勢,不成為劣勢就好。”

  對于聽力寶的下個階段,有道想要實現(xiàn)的是“不管給什么材料,或者家長從哪里找到的聽力材料放到聽力寶里面,聽力寶都會分析并給出材料難度水平。”

  詞典筆新品的驚喜是“新的芯片從開始立項時候的目標(biāo)是把Transformer模型直接運(yùn)用在上面,這個目標(biāo)應(yīng)該說基本達(dá)成。我們做的過程中認(rèn)為功耗也很重要,把這件事情也放進(jìn)去做了,確實也做成了。”

  數(shù)學(xué)的陷阱,大模型有時并不能很快搞懂;后者落地到英語場景也并不意味著順風(fēng)順?biāo)?/p>

  一個具體功能在不同人手上會有不同的結(jié)果,“千人千面”將更容易在場景上實現(xiàn)……

  以下為部分對話內(nèi)容,多知編輯整理。

  01

  堆疊內(nèi)容的學(xué)習(xí)機(jī),并不能解決學(xué)習(xí)問題

  多知:大模型落地學(xué)習(xí)機(jī)這件事您怎么看?

  吳迎暉:我覺得是難的,大模型可以改作文、練口語了,但是事實上大家對于學(xué)習(xí)機(jī)的期望是掌握知識,這個過程中大模型的作用能夠有多少還很難講。

  在現(xiàn)階段來說,大模型很容易被當(dāng)成之前的AI一樣成為還不錯的賣點(diǎn),但做學(xué)習(xí)產(chǎn)品最后還是離不開教研、內(nèi)容的。

  

  多知:當(dāng)下的學(xué)習(xí)機(jī)市場有哪些特點(diǎn)?

  吳迎暉:看不太懂。

  學(xué)習(xí)機(jī)市場肯定是進(jìn)化到了新的狀態(tài),區(qū)別于前兩年,今年大家明顯開始競爭內(nèi)容和課程,我們很難確定這個競爭最終終點(diǎn)會在哪里。

  這個競爭對長期的結(jié)果會是什么,我們也沒有想好。

  多知:有道的學(xué)習(xí)機(jī)會朝著什么方向努力?

  吳迎暉:我們也會想這件事情,有道做這件事情的一個普遍方向是希望找到某個領(lǐng)域的獨(dú)特創(chuàng)新切入點(diǎn),以及找到硬件、AI、內(nèi)容結(jié)合起來做場景的機(jī)會。

  這對于我們來說是更舒服的。

  我們今年也會有新產(chǎn)品出來。

  有道有自己的在線內(nèi)容作為積累,希望能在學(xué)習(xí)機(jī)上找到自己的優(yōu)勢,就像在詞典筆、聽力寶上的發(fā)力是利用英語優(yōu)勢一樣的邏輯。

  多知:如果用戶對于學(xué)習(xí)機(jī)的期待是提分的話,內(nèi)容變多肯定是不能完全起到作用把?

  吳迎暉:對,答案目前是否定的。

  其實當(dāng)大家拼命往里面裝越來越多內(nèi)容的時候,背后的邏輯是這些內(nèi)容變得越來越不值錢,或者說塞進(jìn)去的東西,也沒有認(rèn)真去編排它的體系,也沒有認(rèn)真考慮它的學(xué)習(xí)路徑和方法是什么。

  學(xué)習(xí)不是內(nèi)容越多越好,學(xué)習(xí)是最適合我的內(nèi)容是最好的內(nèi)容,只是裝內(nèi)容不能解決學(xué)習(xí)的問題,這也是我認(rèn)為當(dāng)前這個狀態(tài)不是特別好的一個原因。

  好像想往里面裝內(nèi)容,內(nèi)容越來越多,沒有觸及到問題本質(zhì)。

  02

  先找到大模型落地場景,再去針對性解決

  多知:大模型落地到教育場景的時候, 面對語數(shù)英等不同學(xué)科,會有各自的水土不服,有道怎么看這個狀態(tài)?

  吳迎暉:以前大家比較樂觀,覺得大模型能力很強(qiáng),適應(yīng)性很強(qiáng)。

  大家樂觀的時候覺得數(shù)學(xué)都可以得到解決,我們也去看了數(shù)學(xué)問題,會發(fā)現(xiàn)數(shù)學(xué)問題在里面有些特別具體的問題是比較難解決的。

  可能80%的題目可以解決,但會有一些題目類型對大模型特別難,我們自己內(nèi)部稱為“陷阱”,是數(shù)學(xué)給大模型設(shè)下的陷阱。

  之前有一個例子,說小明有10支鉛筆,小紅有5支鉛筆,小明給了小紅3支鉛筆,問他們一共有多少支,其實他給了他3支鉛筆這件事情沒有任何意義,但是這個部分給大模型設(shè)置了陷阱。

  大模型會在交換事情上折騰半天,這就是典型的水土不服,遇到這個問題之后它就很麻煩。

  

  多知:英語和大模型的融合會更容易吧?

  吳迎暉:當(dāng)教育公司真正去做大模型落地教育的時候,不同學(xué)科會遇到很多很多類似的問題,有道做英語語法這件事情的時候,相對來說算是大模型匹配度較高的了,因為語法這件事情它的種類數(shù)目沒有那么多,是可數(shù)的,看起來可行性很高,但實際做的時候也有不少問題。

  你得設(shè)計比較多的知識點(diǎn)讓學(xué)生真正地學(xué)會,看起來大模型是可以講語法知識點(diǎn),但一落地就發(fā)現(xiàn)很多語法知識點(diǎn)實際在中文和英文里面不見得一定匹配。

  過程中會有特別多的具體問題,導(dǎo)致它落地英語學(xué)科時與期待的依舊有很大鴻溝。

  再比如工具這個屬性,學(xué)習(xí)本身有很大的時間是花在重復(fù)上,重復(fù)去學(xué),重復(fù)理解,重復(fù)練習(xí),這個過程本身和工具關(guān)系不大、和內(nèi)容有關(guān)。

  所以考慮教育這件事情時需要去仔細(xì)尋找這里面落地場景是哪幾個,有針對性地去解決問題,別奢求大模型能解決一切。

  多知:大模型暫時不能解決一切問題,又如何實現(xiàn)千人千面?

  吳迎暉:千人千面看你怎么理解了,當(dāng)一個產(chǎn)品本身能夠覆蓋的場景化足夠多的時候,每一個人遇到的場景不一樣,都能夠解決的話就可以。

  像語法精講功能,如果是簡單老師給你講解,他能夠覆蓋的場景是非常有限的,但是如果是一個具體功能,在不同人手上就有不同結(jié)果出來,你可能是中學(xué)生、高中生,句子難度不一樣,結(jié)果就不一樣,我們認(rèn)為千人千面更多是場景上面。

  03

  語音AI團(tuán)隊的嘗試,都將落地于聽力寶

  多知:聽力寶目前的用戶群在哪個階段?

  吳迎暉:主要在小學(xué)到初中。

  聽力機(jī)類的產(chǎn)品在這兩年開始熱鬧起來,其中大部分主要面向低幼,以熏聽類的需求為主。

  有道恰恰相反,我們選擇的是面向偏大一點(diǎn)的孩子,產(chǎn)品設(shè)計本身也更專業(yè)化和工具化,很多用戶對有道的認(rèn)知就是這個方向,我們自己的定位也是如此,還是服務(wù)于學(xué)習(xí)這件事本身。

  多知:考慮熏聽這個方向么?

  吳迎暉:目前不考慮,我們會在硬件上提供熏聽的能力,這件事情100塊錢的聽力機(jī)就能搞定,但是我們現(xiàn)在賣1000塊錢,這就沒法弄了,想賣1000塊錢得有1000塊錢的道理。

  核心在于提供的價值在哪兒,有道在聽力寶上想提供的價值是讓用戶學(xué)會自己想學(xué)的東西,但熏聽還是更泛一些;第二,熏聽更強(qiáng)調(diào)低幼內(nèi)容本身,這個長期也不見得一定是我們的優(yōu)勢,不成為劣勢就好。

  多知:面向小學(xué)高年級或是初中學(xué)生,社交似乎很重要?有道在去年的聽力寶升級中也加入了學(xué)習(xí)小組這個功能。

  吳迎暉:對我們確實感受到在硬件產(chǎn)品中讓小朋友能感受到伙伴這件事很有意思,也是我們在這次的新品中保留下的一個功能。

  現(xiàn)在最受學(xué)生歡迎的是PK比拼、挑戰(zhàn)升級等等,這個方向包含了群體性社交性的特質(zhì),大家一起學(xué)是一個不錯的嘗試。

  但整體我們不會做得很著急或者很重,過程要慢慢沉淀,一方面是沉淀用戶,另一方面是做學(xué)習(xí)營本身就比較難,核心在于內(nèi)容,我們這次上線了一個KET相關(guān)內(nèi)容,之后也會做更多,K2也會很快上線,像托福這樣的內(nèi)容也會慢慢融入。

  多知:這次有什么新增功能是聚焦于小初學(xué)生特點(diǎn)的么?

  吳迎暉:這次新增還是比較多的,比較大的變化是把OS整個做到了聽力寶上,應(yīng)用也已經(jīng)做到了互通,包括喜馬拉雅、網(wǎng)易云音樂都上去了。

  OS本身也在持續(xù)的進(jìn)化,且這些變化是在不斷發(fā)生的,可能兩個月前我們還不能在OS上面輸入中文,現(xiàn)在已經(jīng)有中文輸入法了,

  另外一個變化在于大模型帶來的自然表達(dá)的能力,我們把口語做了比較大的增強(qiáng),聽和說都是在這些基礎(chǔ)能力支配下有了升級,聽里面也有說,有句子去跟讀、糾音這些。

  比如,我們?nèi)粘B牭降哪切┞犃Y源和真實的日常生活交流狀態(tài)是有非常大的參差和鴻溝,鴻溝表現(xiàn)在哪里?我和AI團(tuán)隊聊過,核心就是韻律、詞的連讀,句子連讀,節(jié)奏等等。

  聽力寶升級后,我們教小孩子發(fā)音過程中就把連讀做進(jìn)去,詞匯和詞匯之間的連讀什么地方會標(biāo)注出來,這樣可以發(fā)音更準(zhǔn)確。

  多知:有沒有一些功能是本來想做但暫時放棄或即將實現(xiàn)的?

  吳迎暉:我們最初設(shè)計一代產(chǎn)品的時候有比較多的想法,當(dāng)時是希望把整個訓(xùn)練過程做完整,比如當(dāng)時我們希望AI團(tuán)隊能夠滿足不論給什么英語材料,聽力寶都可以告訴用戶它的分級是多少。

  確實最后發(fā)現(xiàn)這件事情挺難的,所以這個功能沒上,但是這個功能未來一定會有——不管給什么材料,或者家長從哪里找到的聽力材料放到聽力寶里面,聽力寶都會分析并給出材料難度水平。

  這個行業(yè)有很多難度分級,我們也有自己的分級體系,我們會把實際分級能力做出來,它會分析聽力材料語言復(fù)雜度、聽力本身對話的復(fù)雜度、語音本身口音等等都會放在一塊。

  我們希望做成從內(nèi)容的獲取到最終完成練習(xí)這件事情,都能變得暢通無阻。

  我們常常看到家長在給孩子做聽力的過程中常常是連最基礎(chǔ)最簡單的第一步都難以解決——應(yīng)該聽什么?

  當(dāng)家長不知道該聽什么、怎么聽的時候就會聽別人的,別人說聽新概念就聽新概念,但新概念真的適合自己的孩子么?我們希望聽力寶這樣的產(chǎn)品去解決這些問題,雖然這次還沒來得及搞定,但很快就能了。

  我們自己語音AI團(tuán)隊最近一年時間還是做了很多事情的,所有這些事情最后都會反映在聽力寶上面。

  04

  “詞典筆自身的門檻已經(jīng)很高”

  多知:詞典筆有沒有一開始想做的功能但暫時沒上線的?

  吳迎暉:詞典筆和聽力寶這兩個產(chǎn)品還是有區(qū)分的,當(dāng)然詞典筆也有很多想加進(jìn)去的,不過暫時不能透露,會有的。

  多知:詞典筆這個品類似乎已經(jīng)很久沒有令人興奮的功能或者新的形態(tài)。

  吳迎暉:詞典筆從出來那一刻開始,自身門檻就已經(jīng)很高了,這也導(dǎo)致它確實難住了很多參與者——比較大的問題在于其核心的翻譯場景,想做到好用這件事并不容易。

  這些年有很多參與者以各種各樣的辦法去嘗試了,但創(chuàng)新卻很難:因為想在核心場景之外去做創(chuàng)新這件事情是極難的,所以當(dāng)這個產(chǎn)品本身沒有新的能力去拓展它的場景的時候,大家可能會看到的是沒有那么快。

  對于我們來說,我們在這件事情上會關(guān)注核心場景的創(chuàng)新機(jī)會在哪里?

  像這次我們用了新的芯片,芯片在待機(jī)功耗方面做得非常好,不用關(guān)機(jī)了,這是很大的變化;之前都是要關(guān)機(jī)的,因為即使處于待機(jī)狀態(tài)下電流還是比較大。

  但是其實有一個我們沒有和大家說的,新的芯片從開始立項時候的目標(biāo)是把Transformer模型直接運(yùn)用在上面,這個目標(biāo)應(yīng)該說基本達(dá)成。

  這個意思是什么,現(xiàn)在像語音識別、TTS以及翻譯都已經(jīng)出現(xiàn)模型了,這些引擎都可以直接運(yùn)用到NPO上,帶來的好處是性能肯定會好,有了更高的性能就會有更大的模型做更好的東西,這是我們做芯片的初衷,這個功耗是意外之喜。

  我們做的過程中認(rèn)為功耗也很重要,把這件事情也放進(jìn)去做了,確實也做成了。所以我們依舊會覺得說,當(dāng)你從這個方面來考慮創(chuàng)新的話,還是有一些東西是可以做的。

  這次詞典筆在翻譯能力的準(zhǔn)確性上能夠持續(xù)有提升,也得益于這個變化。

  多知:大模型落地會給詞典筆市場帶來新的階段競爭么?

  吳迎暉:一定程度上我覺得大模型會帶來很多能力上的變化,比如我們的口語教練就是實實在在的變化,這和以前是不一樣的。

  另外一個角度,大模型從基礎(chǔ)基座大模型到真正產(chǎn)品落地的困難依舊是比較高的,不是有了大模型就立即可以解決所有問題。具體產(chǎn)品落地有很多工作要做,我們實際做了像語法類似這樣的口語之后就覺得還是挺好的。

  我個人傾向于大模型確實會給詞典筆學(xué)習(xí)工具帶來比較大的變化。詞典筆的升級中,有些事情看起來沒有那么大,但是解決起來很難,如果運(yùn)氣特別好把這個問題搞定,對用戶就是有用的。

  像口語這樣的東西這次解決了就很驚艷,但是后面還有很長的路要走,有一些東西沒有解決,比如動力在哪里?

  學(xué)習(xí)是一個反復(fù)練習(xí)的過程,如果你沒有辦法做到讓用戶能夠持續(xù)練習(xí)的話,這件事情就還沒有完。

  多知:說到學(xué)習(xí)動力,還有什么途徑可以解決它么?

  吳迎暉:我覺得和家長一起可能是解決這個問題的方法,能夠有針對性地做好規(guī)劃,能夠最終和家長一起實施,可能是解決方案的一部分。

  也有一些產(chǎn)品會提到游戲化的設(shè)計去推動,其實這只是學(xué)習(xí)過程中挺小的部分,游戲化也是偽命題,它有游戲好玩嗎?沒有。

  讓學(xué)習(xí)變得更好玩是好的事情,但是并沒有根本性解決這個問題。

  多知:帶動家長也并不容易吧?

  吳迎暉:對這個問題很難,但是如果你真的考慮學(xué)習(xí)這件事情,應(yīng)該朝這些方向去想。工具是解決問題的,但想讓學(xué)生真的學(xué)會一件事情,整個事情的難度在變得越來越大,是值得考慮的事情。

  多知:詞典筆、聽力寶、單詞卡、學(xué)習(xí)機(jī)等等,不同產(chǎn)品之間的功能有一些是趨同的,產(chǎn)品與產(chǎn)品之間的邊界在哪兒?

  吳迎暉:這個問題我們仔細(xì)想過,詞典筆目前給它的定義更多是解決問題的工具,像我們做語法精講,試圖解決的是學(xué)生遇到的語法、長難句這樣的問題。

  用什么工具解決這些問題,以及在問題解決后,再向前一步去做實際具體題目的推薦解析、舉一反三這樣的。

  聽力寶和詞典筆的邊界就是你會不會去實際做練習(xí),比如非常深入地花半個小時在上面做練習(xí)題,這件事情我們詞典筆屏幕還是有比較大的限制。

  聽力寶這樣的屏幕上面可以做一些輕度練習(xí),所以聽力寶上面做了學(xué)習(xí)營這個設(shè)計,輕度是什么樣的程度,比如10道題PK,這是寓教于樂的感受,時間也不會太長,這是很適合的。

  再重度的,類似于接近平板邊界的深度學(xué)習(xí),和詞典筆差的就會比較遠(yuǎn),但是在解決問題那一刻還是比較好的。

  多知:有道也做了自己的單詞卡片機(jī),在看輕型產(chǎn)品的機(jī)會么?

  吳迎暉:單詞卡片機(jī)還好,我覺得它是能做好的,背單詞這件事情是有它道理的,有背詞法,有提供什么樣的內(nèi)容,每個部分你要真的深入去做的話還是挺難的。

  我們也做背單詞做了好多年,我們沒有覺得把這個事情做得非常透非常深入的,這件事情很難。另外角度來說,背單詞價值部分沒有想象的那么大。

  多知:這個市場接下來是什么樣的走勢?

  吳迎暉:我有時候會覺得,當(dāng)用戶對一件事情非常認(rèn)真,特別想強(qiáng)調(diào)它效果的時候,他會對手上的設(shè)備非常認(rèn)真,他會對它要求很高,這點(diǎn)來說卡片機(jī)滿足的不是完整的背單詞,他滿足的是碎片時間學(xué)點(diǎn)單詞的需求,還有另外一個需求,就是備考。

  如果想?yún)^(qū)分它的話,這兩類需求都在,看你要去滿足什么,比如托??荚嚤硢卧~肯定會用這個,因為我每次坐下來要背半個小時,這個時候我對于面前這個設(shè)備希望比較認(rèn)真的記錄下來我的過程和需求。

  END

  本文作者:馮瑋