口語陪練是大模型時代各家試水的重要場景之一。

基于大模型,谷歌搜索上線口語陪練功能

2023-10-27 19:44:10發(fā)布     來源:多知網(wǎng)    作者:徐晶晶  

  來源|多知網(wǎng)

  作者|徐晶晶

  圖片來源|Pexels

  近日,Google Research(谷歌研究院)研究總監(jiān)Christian Plagemann和產(chǎn)品經(jīng)理Katya Cox宣布,Google Search(谷歌搜索)上線了一項新功能,幫助人們練習(xí)口語。

  據(jù)介紹,該功能將率先覆蓋阿根廷、哥倫比亞、印度(印地語)、印度尼西亞、墨西哥和委內(nèi)瑞拉的安卓用戶。未來將陸續(xù)擴展到其它國家和語言。

  以往,谷歌搜索是通過提供翻譯、下定義等功能來幫助人們提升詞匯量。如今,用戶可以利用谷歌搜索的英語口語陪練功能,將看到現(xiàn)實生活中的提示,使用提供的詞匯形成自己的口語答案。在進行3-5分鐘的口語練習(xí)后,會獲得個性化的反饋,還可以勾選“每日提醒”來持續(xù)練習(xí)。該功能的另一種解鎖方式是,與其他學(xué)習(xí)服務(wù)和資源(如個人輔導(dǎo)、App和課程)一起使用。

  據(jù)介紹,谷歌搜索的口語陪練功能是谷歌團隊與語言學(xué)家、教師和ESL/EFL教學(xué)專家共同合作完成的。用戶在真實的語境中練習(xí)詞匯,詞匯語料還會在記憶周期內(nèi)不斷重復(fù)以加強記憶。

  在個性化實時反饋方面,該功能可以對用戶的回復(fù)進行分析,提供建議/糾錯。還可以提供語法反饋改進建議,并提供了一組不同難度的示例答案。

  

  在口語對練的過程中,谷歌還提供了語境翻譯功能,用戶可以點擊任何不認(rèn)識的單詞,根據(jù)上下文查看該單詞的翻譯。“這是一項復(fù)雜的技術(shù)難題。因為孤立的單個單詞通常有多個含義,并且多個單詞可以形成需要統(tǒng)一翻譯的意義簇。我們的新方法翻譯整個句子,估計原文和譯文中的單詞如何相互關(guān)聯(lián)。這通常被稱為單詞對齊問題。”

  

  實現(xiàn)這一功能的關(guān)鍵技術(shù)是與Google Translate團隊合作開發(fā)的一種名為Deep Aligner的新型深度學(xué)習(xí)模型。其基本思想是采用在數(shù)百種語言上訓(xùn)練的多語言語言模型,在人類專家提供的一組單詞對齊示例上對新的對齊模型進行微調(diào),用于幾種語言對。由此,單個模型可以準(zhǔn)確地對齊任何語言對,達到先進的對齊錯誤率(AER,衡量單詞對齊質(zhì)量的度量,越低越好)。與基于隱馬爾可夫模型(HMMs)的對齊方法相比,這個單一的新模型顯著提高了所有測試語言對的對齊質(zhì)量,將平均AER從25%降低到5%。這個模型也被納入谷歌的翻譯API,例如,在Chrome中翻譯pdf和網(wǎng)站的格式,YouTube字幕的翻譯,并增強谷歌云的翻譯API。

  為了能夠?qū)τ锌谝舻目谡Z進行語法反饋,谷歌研究團隊調(diào)整了書面文本的語法糾正模型,以用于自動語音識別(ASR)轉(zhuǎn)錄,特別是針對有口音的語音。關(guān)鍵的一步是在專家提供的語法更正下,在人類和語音識別系統(tǒng)的語音文本語料庫上對書面文本模型進行微調(diào)。此外,受先前工作的啟發(fā),團隊開發(fā)了一種新穎的基于編輯的輸出表示,它利用了輸入和輸出之間的高度重疊,適合語言學(xué)習(xí)環(huán)境中常見的短輸入句子的情況。

  對話的主要目的是清楚地傳達對方的意圖。因此,谷歌設(shè)計了一個功能,可以直觀地向?qū)W習(xí)者傳達他們的反應(yīng)是否與上下文相關(guān),是否會被同伴理解。這是一個復(fù)雜的技術(shù)問題,因為早期語言學(xué)習(xí)者的口語反應(yīng)在句法上可能是非常規(guī)的。谷歌必須仔細地平衡這種技術(shù),把重點放在意圖的清晰度上,而不是語法的正確性上。因此,其結(jié)合了如下兩種方法:

  

  由于學(xué)習(xí)者的能力水平不同,內(nèi)容的語言復(fù)雜性需要適當(dāng)調(diào)整。先前關(guān)于語言復(fù)雜性估計的工作主要集中在段落長度或更長時間的文本上,這與谷歌的系統(tǒng)處理的響應(yīng)類型有很大不同。因此,谷歌開發(fā)了新的模型,可以估計單個句子、短語甚至單個單詞的復(fù)雜性。使用這個模型,其可以根據(jù)學(xué)習(xí)者的能力水平適當(dāng)?shù)剡m應(yīng)他們的學(xué)習(xí)進度。例如,使用其模型來標(biāo)記示例,其可以微調(diào)系統(tǒng),以生成不同語言復(fù)雜程度的口語提示。

  國內(nèi)外已經(jīng)有諸多公司切入口語陪練場景:今年3月,多鄰國Duolingo接入GPT-4推出了新功能,提供了沉浸式對話場景和智能糾錯功能;同樣在3月,OpenAI投資的Speak宣布使用了GPT-4來支持其AI導(dǎo)師的部分功能,包括允許用戶進行開放式對話,并提供語音、語法、詞匯等方面的實時反饋;6月9日,科大訊飛發(fā)布針對廣大英語學(xué)習(xí)愛好者的“AI口語陪練老師”訊飛語伴App;10月中旬,網(wǎng)易有道宣布推出搭載有道“子曰”教育大模型的虛擬人口語私教Hi Echo……

  谷歌切入口語陪練有其自身的優(yōu)勢——作為流量入口的搜索引擎,谷歌在全球搜索市場份額占據(jù)絕對領(lǐng)先市場地位,根據(jù)美國數(shù)據(jù)研究機構(gòu)StatCounter的數(shù)據(jù),2023年8月,谷歌搜索份額占據(jù)約92%的市場份額。

  

  (2023年8月各大搜索引擎在全球的市場份額,數(shù)據(jù)源自StatCounter)

  口語陪練是大模型時代各家試水的重要場景之一。