學(xué)習(xí)場(chǎng)景由此成為通義聽悟的核心場(chǎng)景之一。

疾馳的通義聽悟:9個(gè)月獲200余萬學(xué)生青睞,“音視頻被輕松閱讀、整理和分享”

2024-03-20 10:24:40發(fā)布     來源:多知網(wǎng)    作者:徐晶晶  

  來源|多知

  作者|徐晶晶

  “自去年6月發(fā)布以來,通義聽悟在各平臺(tái)已有超過500萬用戶,活躍用戶日均轉(zhuǎn)寫音視頻3次以上,后臺(tái)日均處理音視頻20萬次、音視頻時(shí)長(zhǎng)12萬小時(shí)、字符數(shù)約20億字。”

  在3月19日舉行的發(fā)布會(huì)上,阿里大模型產(chǎn)品、辦公學(xué)習(xí)AI助手“通義聽悟”的產(chǎn)品負(fù)責(zé)人楊帆披露了產(chǎn)品上線9個(gè)月的成績(jī)單。

  

  在這500多萬用戶中,主要是學(xué)生、老師、白領(lǐng)、記者、律師、金融分析師等群體。值得注意的是,楊帆在調(diào)研中發(fā)現(xiàn),學(xué)生群體占比約一半,且他們的活躍度相當(dāng)高。

  

  學(xué)習(xí)場(chǎng)景由此成為通義聽悟的核心場(chǎng)景之一。

  楊帆透露,通義聽悟后臺(tái)每天收到很多私信“求(增加音視頻轉(zhuǎn)寫)時(shí)長(zhǎng)”。不少同學(xué)用通義聽悟兩倍速上網(wǎng)課備考。其中一個(gè)博士生甚至利用通義聽悟分析網(wǎng)絡(luò)視頻進(jìn)行學(xué)術(shù)研究。通義聽悟上線9個(gè)月來,該同學(xué)的使用時(shí)長(zhǎng)已近7000小時(shí),平均每天轉(zhuǎn)寫20小時(shí)以上。

  此次發(fā)布的幾大新功能,重點(diǎn)依然圍繞辦公、學(xué)習(xí)場(chǎng)景展開:上線音視頻問答助手“小悟”;自動(dòng)識(shí)別語(yǔ)言;學(xué)習(xí)內(nèi)容高效整理;AI改寫;思維導(dǎo)圖。

  此外,針對(duì)學(xué)習(xí)科研場(chǎng)景對(duì)AI工具的強(qiáng)烈需求,通義聽悟推出“高校公益計(jì)劃”,向中國(guó)大陸高校師生(須通過后綴edu.cn的教育郵箱進(jìn)行認(rèn)證)贈(zèng)送500小時(shí)音視頻轉(zhuǎn)寫時(shí)長(zhǎng),存儲(chǔ)空間從20G拓展至200G。

  01

  聚焦音視頻場(chǎng)景,做音視頻的AI化

  發(fā)布會(huì)上,楊帆介紹了通義聽悟的發(fā)展歷程。

  通義聽悟最早誕生于2021年1月,那時(shí)它還只是一款企業(yè)內(nèi)部提效工具,用于阿里巴巴內(nèi)部會(huì)議提效。而它背后的研發(fā)團(tuán)隊(duì)此前一直做的是人機(jī)交互。從人機(jī)交互切換到人人交流,楊帆說,“我們做的是人人交流的內(nèi)容信息的AI化。”

  他介紹了通義聽悟的核心應(yīng)用場(chǎng)景的拓展邏輯:“在阿里巴巴集團(tuán)內(nèi)部,員工分工不同。人人交流的第一個(gè)典型場(chǎng)景就是會(huì)議場(chǎng)景。我們發(fā)現(xiàn)的第二個(gè)場(chǎng)景是訪談,起因是阿里巴巴有很多用戶訪談人員和商家訪談人員,他們經(jīng)常拿著錄音筆訪談?dòng)脩艉蜕碳?,甚至一天訪談幾十個(gè)人。他們最需要的就是整理錄音問答。隨后我們挖掘的場(chǎng)景是員工培訓(xùn),也有很多員工自學(xué)內(nèi)部視頻課。學(xué)習(xí)的場(chǎng)景就出現(xiàn)了。”

  此后,通義聽悟不斷迭代:聽悟API被包括釘釘在內(nèi)的阿里巴巴集團(tuán)內(nèi)部眾多應(yīng)用集成;2022年,聽悟支持中英文自由說,實(shí)時(shí)中英互譯、標(biāo)題段落、自動(dòng)糾錯(cuò)、待辦事項(xiàng)等功能。

  直到2023年6月,通義聽悟V1.0全網(wǎng)發(fā)布。這既是通義家族第一個(gè)面向大眾消費(fèi)者端的應(yīng)用產(chǎn)品,也是中國(guó)市場(chǎng)首個(gè)大模型全量用戶應(yīng)用。通義聽悟接入通義千問大模型,融合了十多項(xiàng)AI功能,包括轉(zhuǎn)寫、翻譯、角色分離、全文摘要、章節(jié)速覽、發(fā)言總結(jié)、PPT提取等,并支持標(biāo)重點(diǎn)、記筆記。

  隨后通義聽悟不斷升級(jí):2023年8月,通義聽悟發(fā)布多端產(chǎn)品形態(tài),瀏覽器插件、小程序、支持阿里云盤文件導(dǎo)入與轉(zhuǎn)寫;2023年11月,通義聽悟V2.0版本發(fā)布,全部升級(jí)大模型相關(guān)能力,且拓展B端客戶,已服務(wù)于上百家企業(yè)客戶。

  雖然功能在不斷迭代拓寬,但通義聽悟的核心是圍繞著人人交流拓展功能,并未離開主線。“人人交流發(fā)生在訪談、會(huì)議、授課等場(chǎng)景。人人交流的信息越來越多,這些音視頻內(nèi)容如何借助AI被用戶更快理解,是我們當(dāng)時(shí)的技術(shù)初心。”音視頻承載了密集的信息內(nèi)容,但因涉及多模態(tài)理解、自然語(yǔ)言處理、搜索等多項(xiàng)復(fù)雜技術(shù),長(zhǎng)期以來存在內(nèi)容查找難、回顧難、提煉難的痛點(diǎn)。楊帆介紹,通義聽悟?yàn)檫@一需求而生。

  楊帆說:“作為一款工作學(xué)習(xí)AI助手,通義聽悟希望讓高知識(shí)附加值的音視頻被輕松閱讀、整理和分享。”

  由此也可以理解,盡管學(xué)生用戶占半,但在通義聽悟的學(xué)習(xí)場(chǎng)景里,并非要提供整個(gè)泛教育的解決方案,而是只聚焦學(xué)習(xí)場(chǎng)景音視頻的AI化。“通義聽悟的產(chǎn)品使命就是圍繞音視頻發(fā)生的場(chǎng)景做音視頻的AI化,我們永遠(yuǎn)不離開這條主線。”

  02

  “小悟”上線,音視頻內(nèi)容直接“問”

  來看看通義聽悟這次發(fā)布的幾個(gè)新功能。

  最重磅的是音視頻問答助手“小悟”,“能夠讓用戶更快地把關(guān)鍵信息問出來,更好地改善了交互的方式”。

  據(jù)介紹,小悟通過多語(yǔ)言Query處理、長(zhǎng)篇章文本理解、指令演化框架優(yōu)化及檢索增強(qiáng)生成算法,在業(yè)內(nèi)首次實(shí)現(xiàn)對(duì)超長(zhǎng)音視頻的單記錄、跨記錄、多語(yǔ)言自由問答,支持內(nèi)容問答的音視頻時(shí)長(zhǎng)和文件數(shù)均突破業(yè)界上限。

  用戶不僅可在單一記錄頁(yè)呼喚小悟,對(duì)最高6小時(shí)、6G大小的音視頻提問任何相關(guān)話題,或直接小悟要求整理金句、梳理結(jié)論、寫會(huì)議紀(jì)要;更可在首頁(yè)針對(duì)用戶所有記錄提問,支持一次性掃描理解上百條音視頻內(nèi)容;也可花式對(duì)英文視頻用中文提問,小悟?qū)⒅苯咏o出中文回答,省去翻譯。小悟還會(huì)智能推薦問題。

  

  筆者以2023云棲大會(huì)上阿里云創(chuàng)始人王堅(jiān)的演講視頻為例,上傳該視頻后,可以生成章節(jié)速覽、發(fā)言總結(jié)、要點(diǎn)回顧等。播放課程視頻,轉(zhuǎn)寫的文字與視頻進(jìn)度會(huì)一一對(duì)應(yīng),可以點(diǎn)擊文字跳轉(zhuǎn)進(jìn)度。點(diǎn)擊“字幕”功能,則可為視頻生成相應(yīng)字幕。一鍵“截圖并插入筆記”后,想保存的截圖便出現(xiàn)在右側(cè)的筆記區(qū)。

  

  針對(duì)上述視頻內(nèi)容,筆者喚醒小悟,讓小悟整理王堅(jiān)的演講金句時(shí),小悟也給出了相應(yīng)答案,倘若不滿意這個(gè)答案還可以進(jìn)行刷新重答。

  針對(duì)用戶需求,通義聽悟還上線了一鍵AI改寫、思維導(dǎo)圖生成等新能力。例如,一鍵AI改寫,將口語(yǔ)轉(zhuǎn)為書面表達(dá),尤其適合整理采訪;思維導(dǎo)圖自動(dòng)生成,最多支持五級(jí)腦圖,適合播客摘要。

  

  (通義聽悟思維導(dǎo)圖示例)

  產(chǎn)品細(xì)節(jié)體驗(yàn)也進(jìn)一步升級(jí),包括筆記支持一鍵插入視頻時(shí)間戳及截圖(學(xué)習(xí)內(nèi)容高效整理)、音視頻文件語(yǔ)種自動(dòng)識(shí)別等。

  03

  “技術(shù)拉高了天花板,未來取決于誰(shuí)跑得更快更好”

  在發(fā)布會(huì)的群訪環(huán)節(jié),楊帆透露了通義聽悟的商業(yè)化路徑:目前沒有任何面向C端收費(fèi)的計(jì)劃,而是面向B端客戶收費(fèi)。“通義聽悟面向C端開展業(yè)務(wù)的使命是為了向客戶展現(xiàn)阿里巴巴技術(shù)研究的方向以及通義大模型的進(jìn)化。也希望能夠通過這樣的產(chǎn)品,用戶用得滿意。”

  通義聽悟是否會(huì)進(jìn)行多模態(tài)能力的拓展?團(tuán)隊(duì)表示,目前的產(chǎn)品已經(jīng)涉及多模態(tài)能力。比如,音視頻的抽取,已經(jīng)運(yùn)用了很多多模態(tài)技術(shù)。其中的章節(jié)速覽功能要想實(shí)現(xiàn),首先便要對(duì)視頻做切割,這其中也用了多模態(tài)的處理技術(shù)來做切割。今年,通義聽悟還將在多模態(tài)方面有新的探索。

  未來是否會(huì)布局硬件產(chǎn)品,楊帆還透露,其團(tuán)隊(duì)希望集中精力做好AI方向,其目前所有的產(chǎn)品優(yōu)化都是圍繞著AI段進(jìn)行。倘若將來布局硬件方面,也會(huì)選擇和合作伙伴合作研發(fā)。

  市面上的AI助手很多,功能也多有相似之處。談及如何跳出同質(zhì)化競(jìng)爭(zhēng),楊帆表示,技術(shù)的相似性,是大家從業(yè)生涯里始終都要面對(duì)的一個(gè)問題。其團(tuán)隊(duì)一直是在競(jìng)爭(zhēng)環(huán)境下成長(zhǎng)的團(tuán)隊(duì),無懼競(jìng)爭(zhēng)。

  “AI的每一波浪潮都是隨著技術(shù)在某一個(gè)階段的進(jìn)步而產(chǎn)生。在某個(gè)階段進(jìn)步后,技術(shù)的天花板被拉高,自然會(huì)出現(xiàn)各個(gè)選手都沿著技術(shù)進(jìn)展來創(chuàng)新產(chǎn)品模式和商業(yè)模式。在這種情況下,賽道開放給大家,無非是看誰(shuí)跑得更快更好。

  

  要想脫穎而出,首先,誰(shuí)先投入到某些領(lǐng)域先找到一個(gè)好的技術(shù)切入點(diǎn)和需求切入點(diǎn)做研發(fā),誰(shuí)就會(huì)產(chǎn)生優(yōu)勢(shì);其次,誰(shuí)做得更精細(xì),做得更好,誰(shuí)就更有優(yōu)勢(shì)。”

  END

  本文作者:徐晶晶