百度節(jié)前低調(diào)上線針對教育培訓(xùn)領(lǐng)域的新產(chǎn)品,輸入關(guān)鍵詞,百度提供課程結(jié)果,用戶可以根據(jù)時間、地點、課程類型等進行選擇。這一新品引起了業(yè)內(nèi)熱議,有觀點認(rèn)為百度很難克服課程數(shù)據(jù)這一關(guān)。

百度教育新品 先過課程數(shù)據(jù)關(guān)?

2014-05-04 17:16:58發(fā)布     來源:新浪科技    作者:張迪歐  

      百度節(jié)前低調(diào)上線針對教育培訓(xùn)領(lǐng)域的新產(chǎn)品,輸入關(guān)鍵詞,百度提供課程結(jié)果,用戶可以根據(jù)時間、地點、課程類型等進行選擇。這一新品引起了業(yè)內(nèi)熱議,有觀點認(rèn)為百度很難克服課程數(shù)據(jù)這一關(guān)。以下內(nèi)容節(jié)選自新浪科技《創(chuàng)事紀(jì)》,作者張迪歐,有刪節(jié)。

  據(jù)報道,搜索引擎巨頭百度開始涉足教育培訓(xùn)領(lǐng)域,低調(diào)測試一款新品。當(dāng)用戶在搜索欄中輸入“雅思培訓(xùn)”時,搜索結(jié)果直接顯示教學(xué)機構(gòu)名稱,其搜索深度已經(jīng)接近課程級。這在教育培訓(xùn)行業(yè)是個爆炸性新聞值得分析關(guān)注,因為此舉有可能改變教育行業(yè)的推廣格局,但仍有一些難題搞不定,比如課程數(shù)據(jù)。

  如果百度此舉是為了提升搜索體驗,那必定要采取搜索引擎爬蟲的方式向全行業(yè)抓取數(shù)據(jù)。否則如果百度的不抓取數(shù)據(jù)而是要求教育機構(gòu)自行提交數(shù)據(jù)的話,此舉將只是鳳巢推廣系統(tǒng)的一部分;這一點咱們暫且不表,留在下文言說。

  先談?wù)勊阉饕媾廊〉膯栴}??梢哉f,所有的行業(yè)里,教育培訓(xùn)領(lǐng)域的課程數(shù)據(jù)整合是最難的,甚至難到了在邏輯上都不能驗證通順的程度。我之前參與過一個教育類垂直搜索引擎的項目,那一段時間最大的噩夢就是數(shù)據(jù)問題。之所以最終選擇了網(wǎng)絡(luò)教育,就是因為網(wǎng)絡(luò)教育的課程數(shù)據(jù)具有一定程度的可實施性。而百度這么大的動作不可能只滿足于網(wǎng)絡(luò)教育,他們的指向應(yīng)該是全行業(yè)的線下教育搜索,于是,問題馬上就要來了。

  首先是數(shù)據(jù)的規(guī)范性極低,無法統(tǒng)一展示。教育行業(yè)的本質(zhì)是服務(wù),依從不同的學(xué)科擁有不同的服務(wù)特征,不同的機構(gòu)則有不同的課表標(biāo)準(zhǔn)。就拿課時來說,A機構(gòu)說的是課時,B機構(gòu)談的是學(xué)時,C機構(gòu)干脆就按小時計費,D機構(gòu)說一個月是個培訓(xùn)期,E機構(gòu)也談?wù)n時,但他們的一課時是30分鐘……再說班型的概念,不同機構(gòu)的班型定義不一樣,班型本身千變?nèi)f化,而且還有同樣概念不同名稱的班型。僅網(wǎng)絡(luò)教育的現(xiàn)有機構(gòu),網(wǎng)校網(wǎng)抓取的班型就將近300種,更何況線下教育的龐大集群。再從教育機構(gòu)來看,有的機構(gòu)以教師引領(lǐng),有的機構(gòu)以教學(xué)的組織引領(lǐng),有的是一對一教學(xué),不同的學(xué)校理念不同,課程設(shè)置不同,促銷方法不同,甚至基本的名詞定義都不同。這個不像實物商品,實物商品屬性是基本規(guī)范的;也不像飯館,飯館是以“店”為單位去組織的。教育搜索引擎如果想做到真正的服務(wù)深度,那么必須以“課”為基本單元(百度目前就是這么做的),這就相當(dāng)于搜索到飯館里“菜品”的級別了。在這種極不規(guī)范的市場下,根本無法實現(xiàn)這種級別的抓取。如果百度提出自己的標(biāo)準(zhǔn),教育機構(gòu)能否按照百度的指揮棒去執(zhí)行?如果百度把這些屬性強行整合,那么又如何為用戶提供準(zhǔn)確服務(wù)呢?

  第二,課程數(shù)據(jù)難以抓取和更新。假定課程已經(jīng)規(guī)范,但教育領(lǐng)域的網(wǎng)站之千姿百態(tài)是大家所公認(rèn)。即便一家網(wǎng)站,不同學(xué)科的頁面html規(guī)范都不同,更有甚者,教育機構(gòu)的課程介紹基本以課表形式展示,這需要人類的智能去讀懂。百度爬蟲如何能把這么多種不同的HTML,把這么多不同邏輯的表格都爬取拆解整理入庫呢?這是人工智能領(lǐng)域的一大難題,恐怕百度難以解決。即便真的做到了,那么教育機構(gòu)的課表變化,搜索爬蟲的更新頻率能跟得上么?當(dāng)然,百度可以讓教育機構(gòu)主動提交信息,這個在后文將進行探討。

  第三,數(shù)據(jù)量之大難以想象,而教育培訓(xùn)是線下服務(wù),對于用戶必須就近選取。那么全國有30多個省份,N多城市,地區(qū)可以算作一個維度;教育培訓(xùn)的學(xué)科非常多,線下教育學(xué)科上千不止,這又是個維度。這兩個維度就能衍生數(shù)萬個區(qū)劃,每個區(qū)劃里有N多機構(gòu),再加上班型、上課時間等維度,再加上日常更新維護,這個數(shù)據(jù)量對百度而言也許不算什么,但數(shù)據(jù)精準(zhǔn)程度就不好說了。

  所以如果百度以搜索引擎的方式解決教育領(lǐng)域精準(zhǔn)搜索的問題,只能犧牲量而求質(zhì),求質(zhì)就得推廣少數(shù)機構(gòu),推廣少數(shù)機構(gòu)就變成了付費推廣,成了鳳巢系統(tǒng)的一部分,就成了廣告行為。反過來,如果求量而犧牲質(zhì),那么這種數(shù)據(jù)黑洞解決不了,質(zhì)量不高,百度費力不討好。