搜索增強(qiáng)是大模型走向?qū)嵱玫牡谝徊剑踔潦亲铌P(guān)鍵的一步。

百川智能CEO王小川:搜索增強(qiáng)是大模型走向?qū)嵱玫牡谝徊?/h1>
2023-12-23 09:26:05發(fā)布     來源:光錐智能    作者:郝鑫  

  來源|光錐智能

  文|郝    鑫

  編|劉雨琦

  

  “99%的行業(yè)大模型都可能被替代”,百川智能聯(lián)合創(chuàng)始人、聯(lián)席總裁洪濤一語落地,震驚四座。

  百模大戰(zhàn)中,行業(yè)大模型一直都是焦點(diǎn)所在,原因歸結(jié)起來有兩點(diǎn),一是和研發(fā)廠商的技術(shù)、業(yè)務(wù)結(jié)合快,二是需求明確,實(shí)際落地速度與商業(yè)化遠(yuǎn)超于通用大模型。

  但這樣的行業(yè)大模型通常得靠微調(diào)、精調(diào)的方式來完成,弊端也十分顯而易見,訓(xùn)練時間長、部署成本高,還涉及企業(yè)數(shù)據(jù)隱私問題。

  基于此,國內(nèi)外都在找尋最優(yōu)解,并形成了兩種探索路徑:

  一種以Pinecone、Zilliz為代表的數(shù)據(jù)庫公司,帶火的向量數(shù)據(jù)庫路線;一種是OpenAI引領(lǐng)起的RAG(檢索增強(qiáng)生成)路線,同一方向兩個分支。

  若以形象的比喻來解釋,精調(diào)、向量數(shù)據(jù)庫和RAG三者的區(qū)別,大模型微調(diào)好比供一個孩子從小學(xué)念到大學(xué)甚至研究生;向量數(shù)據(jù)庫是RAG的技術(shù)環(huán)節(jié),更像開卷考試,不需要都記住就能給出答案。

  簡而言之,向量數(shù)據(jù)庫和RAG都是在不更改模型的基礎(chǔ)上,通過一些“外掛”的手段來提升大模型應(yīng)用的準(zhǔn)確性,以此來彌補(bǔ)大模型自身存在的幻覺、時效性差、缺乏專業(yè)領(lǐng)域知識等缺陷。

  盡管是兩條路徑選擇,但向量數(shù)據(jù)庫和RAG也不是完全對立,向量數(shù)據(jù)庫中需要檢索,RAG過程中也存在向量化階段,只不過側(cè)重點(diǎn)有所不同。

  在國內(nèi),騰訊更加側(cè)重向量數(shù)據(jù)庫方向,并將其升至戰(zhàn)略地位,做出了“大模型是計(jì)算引擎,改變的是計(jì)算方式,存儲需要向量數(shù)據(jù)庫”的判斷。

  12月,百川智能開放基于搜索增強(qiáng)的Baichuan2-Turbo系列API,結(jié)合RAG和向量數(shù)據(jù)庫兩條路線,打出了一套“大模型+超長上下文窗口+搜索增強(qiáng)知識庫”的組合拳。

  百川智能創(chuàng)始人、CEO王小川也給出了自己的論斷:“大模型+搜索增強(qiáng)是大模型時代的新計(jì)算機(jī),大模型類似于計(jì)算機(jī)的CPU,互聯(lián)網(wǎng)實(shí)時信息與企業(yè)完整知識庫共同構(gòu)成了大模型時代的硬盤”。

  “從方方面面來看,搜索增強(qiáng)要比精調(diào)行業(yè)大模型更具性價比”,王小川道。

  光錐智能在溝通會現(xiàn)場對話王小川,深入了解,作為較早選擇RAG和向量數(shù)據(jù)庫路線的企業(yè),如何在技術(shù)上進(jìn)行思考和突破?又如何在行業(yè)應(yīng)用中落地?

  核心觀點(diǎn)如下:

  1、搜索增強(qiáng)是大模型走向?qū)嵱玫牡谝徊?,甚至是最關(guān)鍵的一步。

  2、大模型+搜索構(gòu)成完整技術(shù)棧,實(shí)現(xiàn)了大模型和領(lǐng)域知識、全網(wǎng)知識的全新鏈接。

  3、大模型+搜索增強(qiáng)是大模型時代的新計(jì)算機(jī),大模型類似于CPU,互聯(lián)網(wǎng)實(shí)時信息與企業(yè)完整知識庫是硬盤。

  4、避免項(xiàng)目化,用產(chǎn)品化取代項(xiàng)目化,用定制化的能力,實(shí)現(xiàn)企業(yè)的低成本定制。

  5、中國大模型技術(shù)進(jìn)化比想象中要快得多,追趕方向主要集中在文本領(lǐng)域。

  以下為對話實(shí)錄: 

  Q:在RAG提出之前,行業(yè)有哪些解決大模型缺陷的手段?

  王小川:業(yè)界探索了多種解決方案,包括擴(kuò)大參數(shù)規(guī)模、擴(kuò)展上下文窗口長度、為大模型接入外部數(shù)據(jù)庫,使用特定數(shù)據(jù)訓(xùn)練或微調(diào)垂直行業(yè)大模型等。這些路線各有優(yōu)勢,但也都存在自身的局限。

  例如,持續(xù)擴(kuò)大模型參數(shù)雖然能夠不斷提升模型智能,但是需要海量數(shù)據(jù)和算力的支撐,巨額的成本對中小企業(yè)非常不友好,而且完全依靠預(yù)訓(xùn)練也很難解決模型的幻覺、時效性等問題。所以,業(yè)界亟需找到一條集諸多優(yōu)勢于一體的路徑,將大模型的智能切實(shí)轉(zhuǎn)化為產(chǎn)業(yè)價值。

  Q:百川智能提出的“搜索增強(qiáng)”概念與大火的RAG技術(shù)思路十分契合,如何理解“大模型+搜索”?

  王小川:大模型+搜索增強(qiáng)是大模型時代的新計(jì)算機(jī),大模型類似于計(jì)算機(jī)的CPU,通過預(yù)訓(xùn)練將知識內(nèi)化在模型內(nèi)部,然后根據(jù)用戶的Prompt生成結(jié)果;上下文窗口可以看做計(jì)算機(jī)的內(nèi)存,存儲了當(dāng)下正在處理的文本;互聯(lián)網(wǎng)實(shí)時信息與企業(yè)完整知識庫共同構(gòu)成了大模型時代的硬盤。

  基于這一技術(shù)理念,百川智能以Baichuan2大模型為核心,將搜索增強(qiáng)技術(shù)與大模型深度融合,結(jié)合此前推出的超長上下文窗口,構(gòu)建了一套大模型+搜索增強(qiáng)的完整技術(shù)棧,實(shí)現(xiàn)了大模型和領(lǐng)域知識、全網(wǎng)知識的全新鏈接。

  Q:通過搜索增強(qiáng)如何來解決大模型現(xiàn)在存在的問題?

  王小川:搜索增強(qiáng)能夠有效解決幻覺、時效性差、專業(yè)領(lǐng)域知識不足等阻礙大模型應(yīng)用的核心問題。一方面,搜索增強(qiáng)技術(shù)能有效提升模型性能,并且使大模型能“外掛硬盤”,實(shí)現(xiàn)互聯(lián)網(wǎng)實(shí)時信息+企業(yè)完整知識庫的“全知”。

  另一方面,搜索增強(qiáng)技術(shù)還能讓大模型精準(zhǔn)理解用戶意圖,在互聯(lián)網(wǎng)和專業(yè)/企業(yè)知識庫海量的文檔中找到與用戶意圖最相關(guān)的知識,然后將足夠多的知識加載到上下文窗口,借助長窗口模型對搜索結(jié)果做進(jìn)一步的總結(jié)和提煉,更充分地發(fā)揮上下文窗口能力,幫助模型生成最優(yōu)結(jié)果,從而實(shí)現(xiàn)各技術(shù)模塊之間的聯(lián)動,形成一個閉環(huán)的強(qiáng)大能力網(wǎng)絡(luò)。

  Q:在技術(shù)路徑上,“大模型+搜索”是怎樣實(shí)現(xiàn)的?

  王小川:在長上下文窗口和向量數(shù)據(jù)庫的基礎(chǔ)上,將向量數(shù)據(jù)庫升級為搜索增強(qiáng)知識庫,極大提升了大模型獲取外部知識的能力,并且把搜索增強(qiáng)知識庫和超長上下文窗口結(jié)合,讓模型可以連接全部企業(yè)知識庫以及全網(wǎng)信息,能夠替代絕大部分的企業(yè)個性化微調(diào),以此來解決99%企業(yè)知識庫的定制化需求。

  但在實(shí)現(xiàn)過程中,存在著諸多技術(shù)難題。搜索增強(qiáng)方面,用戶的需求表達(dá)不僅口語化、多元化,并且還與上下文強(qiáng)相關(guān),因此用戶需求(Prompt)與搜索的對齊成為了大模型獲取外部知識過程中最為核心的問題。為了更精準(zhǔn)地理解用戶意圖,百川智能使用自研大語言模型對用戶意圖理解進(jìn)行微調(diào),能夠?qū)⒂脩暨B續(xù)多輪、口語化的Prompt信息轉(zhuǎn)換為更符合傳統(tǒng)搜索引擎理解的關(guān)鍵詞或語義結(jié)構(gòu)。

  百川智能還參考Meta的CoVe(Chain-of-Verification Reduces Hallucination in Large Language Models)技術(shù),將真實(shí)場景的用戶復(fù)雜問題拆分成多個獨(dú)立可并行檢索的子結(jié)構(gòu)問題,從而讓大模型可以針對每個子問題進(jìn)行定向的知識庫搜索,提供更加準(zhǔn)確和詳盡的答案。同時通過自研的TSF(Think  Step-Further)技術(shù),百川智能的知識庫可以推斷出用戶輸入背后深層的問題,更精準(zhǔn)的理解用戶的意圖,進(jìn)而引導(dǎo)模型回答出更有價值的答案,為用戶提供全面和滿意的輸出結(jié)果。

  Q:大模型+搜索的測試和運(yùn)行效果達(dá)到了什么樣的水平?

  王小川:百川智能通過長窗口+搜索增強(qiáng)的方式,在192K長上下文窗口的基礎(chǔ)上,將大模型能夠獲取的原本文本規(guī)模提升了兩個數(shù)量級,達(dá)到5000萬tokens。并且通過了業(yè)內(nèi)公認(rèn)最權(quán)威的大模型長文本準(zhǔn)確度測試——“大海撈針”測試,對于192k token以內(nèi)的請求,可以實(shí)現(xiàn)100%回答精度。

  對于192k token以上的文檔數(shù)據(jù),百川智能結(jié)合搜索系統(tǒng),將測試集上下文長度擴(kuò)展到 5000w tokens。分別評測了純向量檢索和稀疏檢索+向量檢索的檢索效果,測試結(jié)果顯示,稀疏檢索+向量檢索的方式可以實(shí)現(xiàn)95%的回答精度,即使在5000萬tokens的數(shù)據(jù)集中也可以做到接近全域滿分,而單純的向量檢索只能實(shí)現(xiàn) 80%的回答精度。

  Q:百川智能在推動2B落地過程中,發(fā)現(xiàn)了行業(yè)大模型的哪些問題?行業(yè)大模型為什么推進(jìn)不下去?

  王小川:行業(yè)大模型雖然是針對行業(yè)中需求而誕生的,但是現(xiàn)狀是概念炒得很熱,卻沒有良好的實(shí)踐,面臨重重困難。

  行業(yè)內(nèi)提出了L0、L1的概念,L0是標(biāo)準(zhǔn)模型,L1是指在上面經(jīng)過垂直的領(lǐng)域數(shù)據(jù)進(jìn)行改造。普通的改造有兩個做法,一個是SFT(注:監(jiān)督微調(diào),通常在預(yù)訓(xùn)練的大語言模型上使用)一個是Post-train(注:模型訓(xùn)練后的調(diào)參、壓縮、部署階段。)行業(yè)大模型的改造跟訓(xùn)練模型是一個事情,雖然SFT下降了1—2個數(shù)量級的難度,技術(shù)實(shí)現(xiàn)上依然很難,還需要模型公司的人才介入。對企業(yè)來說,這是一個巨大的挑戰(zhàn)和資源消耗,而一旦開始就需要GPU算力的支撐,做訓(xùn)練而不是推理,成本非常高。盡管投入大,但訓(xùn)練模型就跟“煉丹”一樣,不能保證效果,還有可能會下降。再有,一旦數(shù)據(jù)或者算法更新了,企業(yè)就得再重訓(xùn)一次。當(dāng)數(shù)據(jù)發(fā)生變化,需要引進(jìn)實(shí)時數(shù)據(jù),模型基座需要升級時,之前的訓(xùn)練又會徹底歸零,還得重來一次。

  我們不完全否定做行業(yè)大模型這件事,但是依然覺得在大部分場景下,搜索增強(qiáng)是可以替代行業(yè)大模型。

  Q:為什么說搜索增強(qiáng)可以替代行業(yè)大模型?搜索增強(qiáng)才是走向應(yīng)用的關(guān)鍵?

  王小川:大家都在呼吁大模型要走向?qū)嵱煤吐涞?,但在今天,尤其從國?nèi)來看,搜索增強(qiáng)才是大模型走向?qū)嵱玫牡谝徊?,甚至是最關(guān)鍵的一步,沒有搜索增強(qiáng)的大模型在企業(yè)里沒法落地。

  用知識庫加上搜索增強(qiáng)之后,直接把系統(tǒng)掛上去,即插即用,把“硬盤”掛上去就可以用了,并且搜索的穩(wěn)定性也會好很多,避免原有做Post-train或SFT的時候可靠性、穩(wěn)定性都不夠,現(xiàn)在不管用向量檢索,還是用稀疏檢索都能很大程度提升。畢竟剛才提到原來知識庫拖進(jìn)去,訓(xùn)練完了,只要發(fā)現(xiàn)數(shù)據(jù)更新就得重新訓(xùn)。現(xiàn)在用“硬盤”掛接方式即插即用,避免了原來模型升級的時候,模型跟你的體制是分離的,模型升級模型的,硬盤升級硬盤的。比現(xiàn)有訓(xùn)練行業(yè)模型,用搜索增強(qiáng)+大模型的方式會帶來很大優(yōu)勢。

  Q:搜索增強(qiáng)能撬動哪些行業(yè)?將帶來哪些新的改變?

  王小川:大模型+搜索增強(qiáng)解決方案解決掉幻覺和時效性問題后,有效提升了大模型的可用性,拓展了大模型能夠覆蓋的領(lǐng)域,例如金融、政務(wù)、司法、教育等行業(yè)的智能客服、知識問答、合規(guī)風(fēng)控、營銷顧問等場景。

  一個是大量文本數(shù)據(jù)的,有文本數(shù)據(jù)的,需要把文字的know how去做處理的,第二個是跟客戶打交道的,他需要跟客戶溝通,比如客服的場景,或者回答客戶問題的,這兩個場景比較集中,發(fā)揮大模型的兩個優(yōu)勢,有無限供給的能力。

  Q:百川智能商業(yè)化進(jìn)展到了什么階段?如何思考定制化和產(chǎn)品化的關(guān)系?

  王小川:在商業(yè)化線索溝通中,百川智能發(fā)現(xiàn),前期很多客戶想了解大模型,很多人來問大模型到底是什么,能干什么。而最近兩個月,客戶的問題越來越具體,已經(jīng)有一些場景感受到能用大模型了。但是解決的時候比較痛苦,最基礎(chǔ)的是微調(diào),狠一點(diǎn)的 SFT、Post-Training 都會提,但這些其實(shí)都很重。我們現(xiàn)在做這件事的目的就是告訴客戶,我能快速地落地到你的實(shí)際應(yīng)用去,所以現(xiàn)在無論是私有化場景的,還是API場景的,很多客戶都在溝通,我們這次發(fā)布的產(chǎn)品就是解決他們這個問題。

  所謂定制化,customize,更準(zhǔn)確地說是個性化,客戶天生有個性化的需求。百川希望避免的,是項(xiàng)目化,用產(chǎn)品化取代項(xiàng)目化,是指產(chǎn)品具有定制化的能力,能夠?qū)崿F(xiàn)企業(yè)的低成本定制。

  核心還是成本,客戶成本高,項(xiàng)目利潤低。相對能盈利的2B公司,賣的大多是產(chǎn)品,而大多數(shù)定制化是項(xiàng)目。搜索增強(qiáng)的完整技術(shù)棧,目的就是讓API外掛企業(yè)知識庫實(shí)現(xiàn)定制化,是一款產(chǎn)品,可配置、可調(diào)整。我們也希望在為私有化客戶做定制化的時候,用產(chǎn)品組合的方式來做,而不是用全都重新開發(fā)一遍的方式做。

  Q:百川智能作為大模型浪潮的親歷者,回顧這一年,經(jīng)歷了哪些階段?

  王小川:中國現(xiàn)在來講總的分成三個階段。

  第一個階段是恐慌期,OpenAI發(fā)布了ChatGPT后,中國公司還沒有,數(shù)據(jù)飛輪美國先跑起來,那時大家都在討論是不是AGI要來了;

  第二個階段是投入期,比如我開始做百川智能,大家都開始動起來了,不斷地有人加入進(jìn)來,所有的關(guān)注點(diǎn)都在大模型上;

  第三個階段是高速迭代期,無論是資本、學(xué)術(shù)還是業(yè)界,每天都能看到新的進(jìn)展,我們的技術(shù)人員每天都在跟進(jìn)最新的東西,讓自己不斷迭代和改進(jìn),行業(yè)中的發(fā)展速度其實(shí)超出外界媒體和資本圈的看法,目前還是在快速迭代。

  Q:如果從技術(shù)視角看,中國的大模型更新迭代有哪些特點(diǎn)?

  王小川:首先,中國大模型技術(shù)進(jìn)化比想象中要快得多。剛開始大家都覺得美國的優(yōu)勢特別明顯,我們追不上。但后來包括百川智能在內(nèi)的各家大模型出來以后,才發(fā)現(xiàn)在有些場景中比GPT-3.5甚至4還要好一些,這是已經(jīng)發(fā)生的事實(shí)。比如百川智能,6月份發(fā)第一款模型,7月份發(fā)第二款,8月份發(fā)500億參數(shù),一直在往前進(jìn)行中,在開源領(lǐng)域還是美國的替代產(chǎn)品。

  第二個特點(diǎn)是,國內(nèi)追趕的方向還是集中在文本領(lǐng)域。文本代表著智力化水平,我們認(rèn)為在追趕智力水平上,把文本放在第一位的公司,是在朝著長遠(yuǎn)方向走。GPT到GPT-4也才開始有了GPT-4V多模態(tài),所以那些考慮音頻、圖像、視頻的公司,這個時候反而不是在一個方向競爭。

  我估計(jì)中國公司未來有彎道超車的機(jī)會,因?yàn)槲艺J(rèn)為對于文本方向的追趕、大模型智力的提升是行業(yè)最應(yīng)該關(guān)注的事情,包括長窗口、參數(shù)量大的多模態(tài)(今天所說的群體智能)都是在朝著這個方向努力。雖然不只有多模態(tài)一條路,但多模態(tài)是離應(yīng)用最近的一件事,當(dāng)中國一頭扎進(jìn)應(yīng)用方向的時候,可以用更小的多模態(tài)模型推動落地。