近日百度首席科學家吳恩達發(fā)表題為《深度學習與人工智能》的主題演講,在演講中,他表示,在深度學習發(fā)展的過程中,圖像、語音、行為三個領域正在發(fā)生重大的創(chuàng)新。
多知網(wǎng)3月24日消息,近日百度首席科學家吳恩達發(fā)表題為《深度學習與人工智能》的主題演講,在演講中,他表示,在深度學習發(fā)展的過程中,圖像、語音、行為三個領域正在發(fā)生重大的創(chuàng)新。
其中,在圖像識別和語音識別方面,教育領域已經(jīng)有了廣泛的應用,從層出不窮的搜題軟件,到語音評測以及識別在考試等評測場景下的使用?,F(xiàn)在,也有公司在探索人的行為,期望從學生的行為中,總結出某些共性的東西加以利用。
以下為吳恩達演講摘要:
圖像識別將開啟無限可能
百度才在人臉識 別領域和其他領域比其他國際上領先的大公司要做得好。我們在人臉識別只有0.3幾的錯誤率。
計算機系統(tǒng)對人臉的識別,比如針對安全的目的,還有保安的目的,這些在未來會越來越多的應用。
現(xiàn)在的圖片識別技術已經(jīng)可以很好的實現(xiàn)讓計算機對一幅圖片進行文字場景描述了?,F(xiàn)在很多計算機的讀圖能力已經(jīng)超過了人眼所見的信息,這些技術給我們開啟了無限的可能。比如對服飾的識別和搜索、對老年人的看護等等,可能都是未來的空間。
在過去幾年,具體來說大概三年的時間內,計算機圖像的技術發(fā)展非常迅速,現(xiàn)在計算機在圖像識別上,比更多年以前要做得好得多?,F(xiàn)在很多計算機公司甚至比很多人腦眼睛一眼看上去了解的信息還多。
我們有一些想法、有一些產品,也有一些技術,我想說的是這些技術給我們開啟了無限的可能,可以使我們來了解一下哪些產品領域是大有可為的。我們可以在圖上了解一些相關的領域,比如百度還有其他的搜索引擎正在做的事情。我不知道一個非常清晰的路線圖是怎樣的,或者哪個領域會發(fā)展得更加迅速。
語音識別技術將更多地運用在人機交互中
在移動互聯(lián)網(wǎng)方面,大家對互聯(lián)網(wǎng)和手機的使用越來越多的結合起來。我們過去是用手機鍵盤來敲字,比較浪費時間,大家現(xiàn)在用話音來進行溝通,所以語音識別是一個非常重要的發(fā)展方向。
而大家現(xiàn)在普遍反應在手機上進行語音通信的時候,如果手機離得比較遠的話效果不是很好,要比較近的時候語音識別才做得比較好。
我們在相關的IT技術方面也做一些探索,從傳統(tǒng)領域來看,這是語音識別所做的事情,基本上所有做語音識別的公司都是使用非常復雜的管道。我們來改善它的話音系統(tǒng),突出聲音特征,有一些不同的模塊,不的的模塊組合起來識別這個人到底講了什么。
在手機之外,我覺得我們的話音識別還會推動物聯(lián)網(wǎng)的革命,從汽車界面到家用設備到可穿戴設備將會發(fā)生很多的改變。我在家里有5個遙控可以控制的東西,我想再過幾年再回過頭來看,我們會覺得這5個遙控太少了,比如你只是遙控電視,只是遙控空調,簡直不夠了,看來都是小兒科的東西。在幾年的時間內,或者在未來幾年,我們將能夠和電視通話,和更多的家電通話,這將是未來面臨的發(fā)展,我們將有很多的路由器內置到這些機器當中。
行為+大數(shù)據(jù)更好地促使機器運作
很多技術公司現(xiàn)在都能夠獲取到一些大數(shù)據(jù)來了解人們在互聯(lián)網(wǎng)的環(huán)境當中究竟是什么樣的行為,這是技術的發(fā)展。我們可以從這些數(shù)據(jù)當中挖掘更多的價值。正如很多人都知道的,我們百度的廣告也是在人工智能方面下了很大的工夫,我們有很多數(shù)據(jù)搜集過來是關于人的行為的,而這些深度學習可以使我們了解人們的行為是什么樣的,他們傾向于做什么事情,他們喜歡做什么事情。
因為我們的數(shù)據(jù)中心還有很多數(shù)據(jù)搜集起來,使我們了解不僅僅是人的行為,還有機器人行為。今天的深度學習確實是一個非常強大的工具,使我們可以了解機器在做什么,來更好地管理數(shù)據(jù)中心。比如我們可以使用這方面我們了解的信息來更好地使機器運作。我們也可以更好地了解計算機是如何工作的,我們還可以使用深度學習來提高計算機的安全性。
這是我們百度正在做的事情,我們覺得很多行為數(shù)據(jù)給我們帶來的機會,包括人的行為,包括機器的行為。
在15年前,我們有這張圖,我們有這個想法,這就是AI人工智能的良性循環(huán)。那時候我們如果 能夠構造優(yōu)秀的產品可以吸引更多的用戶,有了更多的用戶就可以獲得更加大量的數(shù)據(jù)。