長遠(yuǎn)來看,機(jī)器人一定會(huì)走進(jìn)千家萬戶。

騰訊首席科學(xué)家張正友:僅把大模型塞進(jìn)機(jī)器人,產(chǎn)生不了真正的具身智能

2024-07-21 11:09:21發(fā)布     來源:多知    作者:騰訊研究院  

    編者按:

  本文轉(zhuǎn)載自“騰訊研究院”,多知經(jīng)授權(quán)發(fā)布。騰訊首席科學(xué)家、騰訊Robotics X實(shí)驗(yàn)室主任張正友在“具身智能的一些挑戰(zhàn)和進(jìn)展”主題演講中介紹了機(jī)器人的發(fā)展史及具身智能的挑戰(zhàn),還介紹了Robotics X實(shí)驗(yàn)室基于“層次化”控制來研發(fā)智能機(jī)器人的進(jìn)展。張正友提到,和ChatGPT不同,具身智能是通過類人的感知方式(視覺、聽覺、語言、觸覺)來獲取知識(shí),并抽象成為一種表達(dá)語義來理解世界并作出行動(dòng),與世界交互。因此,大模型放到機(jī)器人上并不能馬上能實(shí)現(xiàn)具身智能。

  為深入探討AI時(shí)代的人機(jī)關(guān)系,引領(lǐng)社會(huì)共同思考人機(jī)共生時(shí)代的經(jīng)濟(jì)發(fā)展機(jī)遇與社會(huì)應(yīng)對策略,騰訊研究院聯(lián)合前海國際事務(wù)研究院、青騰、香港科技園公司等機(jī)構(gòu)舉辦 “AI時(shí)代的人機(jī)關(guān)系展望”論壇,這也是“人工智能+社會(huì)發(fā)展系列高端研討會(huì)”的第二期。

  論壇上,騰訊首席科學(xué)家、騰訊Robotics X實(shí)驗(yàn)室主任張正友在“具身智能的一些挑戰(zhàn)和進(jìn)展”主題演講中,介紹了Robotics X實(shí)驗(yàn)室基于“層次化”控制來研發(fā)智能機(jī)器人的進(jìn)展。“層次化”包括對本體、環(huán)境和任務(wù)共三層控制,層次化的具身智能的優(yōu)勢在于每個(gè)層次的知識(shí)都可以持續(xù)地更新和積累,而且層次之間能力可以解耦。騰訊Robotics X 實(shí)驗(yàn)室今年研發(fā)了自研的五指靈巧手和機(jī)械臂,移動(dòng)底盤也首次融入到機(jī)器人身上,再加上感知大模型和規(guī)劃大模型,能夠讓操作機(jī)器人實(shí)現(xiàn)自由對話和完成任務(wù)。

  對于智能機(jī)器人將如何走進(jìn)人們的生活,張正友說:“長遠(yuǎn)來看,機(jī)器人一定會(huì)走進(jìn)千家萬戶,而在當(dāng)下,機(jī)器人可能會(huì)在康復(fù)養(yǎng)老、個(gè)性化教育等領(lǐng)域首先帶來巨大變化。”

  以下為張正友的分享全文:

  各位領(lǐng)導(dǎo)、各位嘉賓、各位老師、各位同學(xué):大家下午好。我今天要跟大家分享關(guān)于具身智能的一些挑戰(zhàn)和進(jìn)展。

  至于什么是具身智能,這個(gè)詞去年突然火起來了,大家感覺很酷。其實(shí),具身智能是相對于非具身智能而言的,像ChatGPT擁有的是沒有身體的智能。對我來講,具身智能體就是一個(gè)智能的機(jī)器人。至于這個(gè)智能是應(yīng)該有身體還是沒有身體的,對我們做機(jī)器人的來講肯定是希望有身體,擁有身體才能把智能發(fā)育得更好。

WechatIMG3.jpg

  2018年年初,騰訊董事會(huì)主席兼首席執(zhí)行官馬化騰決定成立騰訊Robotics X,當(dāng)時(shí)我還在朋友圈發(fā)了這樣一段話(2018年4月6日朋友圈的內(nèi)容):“沒有靈魂的軀體是一具行尸走肉,沒有軀體的靈魂是一縷虛無幽靈,我們不做行尸走肉,我們不要幽靈飄忽,我們創(chuàng)造與人和諧互助的機(jī)器人!”也就是我們要?jiǎng)?chuàng)建智能機(jī)器人來增強(qiáng)人的智力、發(fā)揮人類體能潛力、關(guān)懷人的情感、促進(jìn)人和機(jī)器人的交互,迎接人和機(jī)器人共存、共創(chuàng)和共贏的時(shí)代,這是我們成立騰訊Robotics X的初衷。

  其實(shí),智能是否需要具身是有爭議的,這個(gè)爭議主要圍繞認(rèn)知科學(xué)展開。該領(lǐng)域內(nèi),大家認(rèn)為許多認(rèn)知特性是需要生物體的整體特性來塑造生物體的智能,但也有一部分人認(rèn)為智能是不需要身體的,因?yàn)槲覀冎饕媾R的是信息處理、問題解決和決策治理等任務(wù),這些都可以通過軟件和算法實(shí)現(xiàn)。具身智能這個(gè)詞和概念很早就存在了,對很多人來講,身體對于智能來說是至關(guān)重要的,因?yàn)橹悄茉从谏矬w與其環(huán)境之間的交互,兩者之間的互動(dòng)有利于智能的發(fā)育和發(fā)展。

WechatIMG4.jpg

  回過頭看,圖靈在1950年寫的探討如何實(shí)現(xiàn)機(jī)器智能的文章??梢钥吹?,有一部分人認(rèn)為可以用一些非常抽象的Activity,比方說下棋來實(shí)現(xiàn)(智能),還有一部分人認(rèn)為,機(jī)器最好要有一些Organ(器官),比如speaker(話筒)來幫助我們更快的實(shí)現(xiàn)機(jī)器智能。不過,圖靈自己也說不知道哪一類最好。Open  AI最早的時(shí)候也買了上百臺(tái)的機(jī)械臂,直接希望用機(jī)器人來實(shí)現(xiàn)AGI,經(jīng)過一年多的努力發(fā)現(xiàn)這條道路暫時(shí)走不通,所以他們就放棄了,把精力聚焦在基于文本的大模型,最后成功開發(fā)出了ChatGPT。  

WechatIMG5.jpg

  機(jī)器人有很悠久的歷史,最初是生產(chǎn)線上機(jī)械臂的自動(dòng)化,也就是在已知環(huán)境中完成一系列的動(dòng)作,需要精確控制,我把它叫做零智能,是因?yàn)檫@個(gè)過程是不需要任何智能的。這一類的機(jī)器人雖然操作能力非常強(qiáng),但是這些操作能力是為了一個(gè)固定環(huán)境預(yù)編程好的,是零智能。

  進(jìn)入大模型時(shí)代,也有人認(rèn)為,大模型很厲害,放到機(jī)器人上馬上就能夠?qū)崿F(xiàn),實(shí)際上不是的。現(xiàn)在處于什么情況呢?打個(gè)比喻,就是相當(dāng)于20歲大腦放在3歲的身體上,機(jī)器人雖然擁有一定的移動(dòng)能力,但是操作能力非常弱。真正的具身智能要能夠自主學(xué)習(xí)和處理問題,對環(huán)境變化和不確定的時(shí)候能夠自動(dòng)調(diào)整和規(guī)劃,這是我們認(rèn)為具身智能能夠通往AGI或者是打造通用智能機(jī)器人非常重要的過程。

  具體看來,具身智能是有物理載體的智能體(智能機(jī)器人)在一系列的交互中,通過感知、控制和自主學(xué)習(xí)來積累知識(shí)和技能,形成智能并影響物理世界的能力。這和ChatGPT是不太一樣的,具身智能是通過類人的感知方式(視覺、聽覺、語言、觸覺)來獲取知識(shí),并抽象成為一種表達(dá)語義來理解世界并作出行動(dòng),與世界交互。這里面涉及到多個(gè)學(xué)科的融合,包括機(jī)械工程自動(dòng)化、嵌入系統(tǒng)控制優(yōu)化、認(rèn)知科學(xué)、神經(jīng)科學(xué)之類的,它是所有領(lǐng)域發(fā)展到一定程度以后能夠涌現(xiàn)出來的一種能力。

  具身智能面臨著非常多的挑戰(zhàn):

  首先是復(fù)雜的感知能力,包括視覺、聽覺,現(xiàn)在大模型里包括GPT-4o也只是包括了視覺和聽覺,還沒有觸覺。對具身智能來講,觸覺非常重要。機(jī)器人需要有復(fù)雜的感知能力,才能感知和理解周圍不可預(yù)測的非結(jié)構(gòu)化的環(huán)境和物體。

  第二是強(qiáng)大的執(zhí)行能力,包括移動(dòng)、抓取、操縱以便能夠與環(huán)境和物體進(jìn)行交互。

  第三是學(xué)習(xí)能力,能夠從經(jīng)驗(yàn)和數(shù)據(jù)中學(xué)習(xí)和適應(yīng),以便更好理解和應(yīng)對環(huán)境的變化。

  第四是自適應(yīng)能力,能夠自主調(diào)整自己的行為和策略,以便更好地應(yīng)對不同的環(huán)境和任務(wù)。

  第五是非常重要的,并不是把這些能力疊加就已經(jīng)達(dá)到具身智能,而是要把這些能力有機(jī)、高效地協(xié)作融合才能真正地達(dá)到我們講的希望的具身智能。

  第六,在這個(gè)過程中,我們需要的數(shù)據(jù)是非常稀缺的,OpenAI最初是希望直接通過機(jī)器人達(dá)到AGI,由于數(shù)據(jù)的缺乏后面放棄了,但是數(shù)據(jù)還是需要解決的,數(shù)據(jù)的稀缺性是很大的挑戰(zhàn)。在實(shí)際場景中收集數(shù)據(jù)時(shí)還需要保護(hù)用戶的隱私安全。

  第七因?yàn)榫呱碇悄苁且钤谌祟惖娜司迎h(huán)境,要保證自身和周圍的安全。

  第八是社會(huì)倫理的問題,機(jī)器人和人交互時(shí)要遵循道德和法律的規(guī)范,保護(hù)人類的利益和尊嚴(yán)。

WechatIMG6.jpg

  要達(dá)到具身智能是需要很多工作要做的,目前大家認(rèn)為大模型可以解決智能機(jī)器人的問題,我這里畫了一個(gè)圖,相當(dāng)于我們要把大模型塞到機(jī)器人的頭里好像就解決了,但是這只是達(dá)到部分的智能。我們期待智能和本體要有機(jī)融合,這樣機(jī)器人和環(huán)境交互中才能涌現(xiàn)出真正的智能。

WechatIMG7.jpg

  為了達(dá)到這樣的愿景,我認(rèn)為需要改變控制范式。假如你們從機(jī)器人的教科書來看,傳統(tǒng)的控制范式先是感知,感知之后是計(jì)劃,計(jì)劃之后是行動(dòng),行動(dòng)之后再來感知這樣的閉環(huán)過程,這個(gè)控制范式是不可能達(dá)到智能的。2018年我就提出了一個(gè)“SLAP范式”,S是感知,L是學(xué)習(xí),A是行動(dòng),P是計(jì)劃。感知和行動(dòng)需要緊密相連,才能實(shí)時(shí)應(yīng)對不斷變化的環(huán)境。它們上面是規(guī)劃,去解決復(fù)雜一點(diǎn)的任務(wù)。學(xué)習(xí)是滲透到各個(gè)模塊,能夠從經(jīng)驗(yàn)和數(shù)據(jù)中學(xué)習(xí),并能夠自主調(diào)整自己的行為和策略。這個(gè)SLAP范式和人類的智能是有很相似的地方?! ?/p>

G8.jpg

 

  諾貝爾獎(jiǎng)獲得者Daniel Kahneman有一本書叫《Thinking,F(xiàn)ast and slow》,認(rèn)為人腦是有兩個(gè)系統(tǒng)的,第一個(gè)系統(tǒng)System 1是更多偏向于直覺,快速地解決問題。第二個(gè)系統(tǒng)是一種比較深度的思考,理性的思考,叫System 2。事實(shí)上,人95%的時(shí)間都在System 1,只有很少和復(fù)雜任務(wù)時(shí)才需要調(diào)度System 2,所以為什么人腦能夠這么高效,只要幾十瓦就能解決思考的問題,連一個(gè)GPU消耗的能量都不需要,這就是因?yàn)槿祟惸軌蛟?5%的問題在System 1解決了,很難的任務(wù)才會(huì)到System 2。

  我提出來的SLAP的范式,在底層,感知和行動(dòng)之間緊密相連才能夠解決反應(yīng)式的自主,這就對應(yīng)了System 1。有意識(shí)的自主是要達(dá)到System 2理性的思維和思考、

WechatIMG9.jpg

  根據(jù)SLAP范式,結(jié)合人的大腦、以及小腦如何控制肢體的知識(shí),我們研發(fā)了一個(gè)層次化的具身智能系統(tǒng),分成了三層:最下面一層是Proprioception,就是機(jī)器人對自身的感知狀況,這個(gè)地方對應(yīng)到控制電機(jī)運(yùn)動(dòng)的電機(jī)信號。

  第二層是Exteroception,也就是對環(huán)境的感知,通過環(huán)境的感知智能知道需要調(diào)用哪些能力完成這個(gè)任務(wù)。

  最上面一層是和任務(wù)相關(guān)的叫做Strategic  Level  planner,針對特定任務(wù),環(huán)境和機(jī)器人本體的能力做好規(guī)劃才能把任務(wù)很好地解決。

  下面就具體給大家做一些演示,最底層(Proprioception Level)的運(yùn)動(dòng)的控制也是從數(shù)據(jù)中進(jìn)行學(xué)習(xí)的。這里讓一個(gè)真狗在跑步機(jī)上不斷地跑,同步做數(shù)據(jù)采集。通過模仿學(xué)習(xí)和強(qiáng)化學(xué)習(xí),讓機(jī)器人學(xué)會(huì)和真狗類似的運(yùn)動(dòng)。我們用了一個(gè)虛實(shí)集成世界,數(shù)字孿生、虛實(shí)統(tǒng)一。這里看到的只是狗的外表的運(yùn)動(dòng)方式,但到底機(jī)器人怎么動(dòng),需要多少力量,要發(fā)送的關(guān)節(jié)和電機(jī)的信號強(qiáng)度都是需要通過強(qiáng)化學(xué)習(xí)得到的。

圖片

  另一段視頻,在這里沒有專門的人類控制,就是讓機(jī)器狗學(xué)會(huì)了真狗的運(yùn)動(dòng)方式,它學(xué)會(huì)了之后就自己跑,有點(diǎn)活靈活現(xiàn)的感覺。

  這是最基本的能力(運(yùn)動(dòng)能力),下一步是要對環(huán)境感知在環(huán)境里完成這些任務(wù),剛才講了在平地上動(dòng),第二步要把環(huán)境信息加進(jìn)去,我們讓它學(xué)會(huì)匍匐前進(jìn),怎樣自然上臺(tái)階,怎么跨欄和怎么飛躍障礙物組合。  

圖片

  這時(shí)機(jī)器狗在仿真世界中已經(jīng)學(xué)會(huì)了怎么跳躍、跨越障礙物。這只狗是我們自研的,叫Max,和一般的狗不太一樣的地方是在膝蓋上加了輪子,在平地上用輪子走得更快,不平的地方可以用四足,所以說是不同的模態(tài)組合。

  當(dāng)我們有了對環(huán)境適應(yīng)能力之后就可以讓它做各種不同的事情,比如我們要求其中一只狗追上另外一只狗,追上之后就贏了。為了增加復(fù)雜性,假如一個(gè)旗出現(xiàn),原本逃的那只狗碰到這個(gè)旗之后就可以變成追了。大家可以看一下,這也是通過強(qiáng)化學(xué)習(xí)自動(dòng)學(xué)會(huì)的。一只狗在追另外一只狗,當(dāng)然我們把速度限制住了讓狗跑得比較慢一點(diǎn)?,F(xiàn)在變成了逃的那只狗去追,那只追的狗變了之后就轉(zhuǎn)了一個(gè)彎騙了另一只狗一下。

圖片

  這樣一個(gè)層次化的具身智能的好處是每個(gè)層次的知識(shí)都可以持續(xù)地更新和積累,而且層次之間能力是可以解耦了,更新其他層級不會(huì)影響其他已有層級的知識(shí)。

  比如說剛才從一只狗追另一只狗的時(shí)候,在強(qiáng)化學(xué)習(xí)時(shí)只學(xué)會(huì)了在平地上訓(xùn)練,根本沒有加上障礙物,現(xiàn)在加了障礙物之后不需要重新學(xué)習(xí),它自動(dòng)學(xué)會(huì)了,因?yàn)樵诘讓拥臅r(shí)候知道怎么處理障礙物。大家可以看一下視頻,這是我們根本沒有重新訓(xùn)練的,上面加了障礙物,碰到一根棍子,他就鉆過去,碰到障礙物就跳過去,這是自動(dòng)(學(xué)習(xí))的。

  這些工作是去年年初就完成了,近期也會(huì)在國際頂級的學(xué)術(shù)期刊Nature Machine  Intelligence上發(fā)表,并且作為封面故事,說明大家認(rèn)為這樣一個(gè)工作現(xiàn)在還是領(lǐng)先的。

  下面講一下我們過去一年在大模型融合方面進(jìn)展,也就是將語言大模型以及多模態(tài)的感知大模型融合進(jìn)我們的層次化具身智能系統(tǒng)。比如人給機(jī)器人派了一個(gè)煎蛋任務(wù),基于LLM的規(guī)劃大模型將煎蛋這個(gè)任務(wù)分解一下,就是要先把蛋從冰箱里拿出來,把蛋打在鍋里面,然后要煎蛋。從多模態(tài)感知中,首先要知道這個(gè)蛋是放在冰箱里,需要調(diào)用下面的中層技能,機(jī)器人要先去冰箱把蛋拿出來,把冰箱門打開,抓握雞蛋回到灶臺(tái)。最下面就是底層控制的,控制機(jī)器人怎么到冰箱哪里,怎么打開冰箱門,等等,一旦學(xué)會(huì)都是自動(dòng)完成的。最后是回到最頂層的Strategic  Level  Planner。注意在這個(gè)閉環(huán)里,機(jī)器人的行動(dòng)作用于一個(gè)數(shù)字世界和物理世界緊密結(jié)合的虛實(shí)集成世界,在數(shù)字仿真空間里有機(jī)器人、也有看起來非常真實(shí)的場景,這樣機(jī)器人的技能在虛擬空間學(xué)會(huì)之后可以直接應(yīng)用到真實(shí)的空間里。

  這里看一個(gè)視頻。我們把一個(gè)智能機(jī)器人放在一個(gè)從來沒見過的環(huán)境里面,第一步機(jī)器人要轉(zhuǎn)一圈探索這個(gè)世界。比如視頻里,機(jī)器人的任務(wù)是要把垃圾送到垃圾桶里,那么它首先要找到垃圾桶,找到垃圾桶之后就放過去了。同樣把垃圾桶換一個(gè)地方,假設(shè)他不知道這個(gè)環(huán)境,通過探索發(fā)現(xiàn)了垃圾桶之后就把垃圾送過去了。

  下面這個(gè)場景是要把鼠標(biāo)送給藍(lán)衣服和牛仔褲的人,這里面有很多其他人,他一定要找到穿藍(lán)色衣服和牛仔褲的,他就自動(dòng)去探索和找。這中間碰到的很多人不是藍(lán)衣服不是牛仔褲,一直到機(jī)器人看到藍(lán)衣服和牛仔褲,就把鼠標(biāo)送到了。

  在探索過程中,機(jī)器人能把周圍的環(huán)境情況都記住了,不需要每次都重新探索。下面這個(gè)場景先是把藥送給一個(gè)同事,這個(gè)感冒藥的袋子再讓機(jī)器人扔掉,它在探索建模時(shí)已經(jīng)知道垃圾桶在什么地方,就直接去垃圾桶那邊了。還可以利用空間的關(guān)系,比如說凳子在哪里、白板在哪里,要把一個(gè)東西送到白板和高凳子之間的一個(gè)人那里,中間有障礙物能夠自動(dòng)避開。

  去年我們還做了一個(gè)調(diào)酒的機(jī)器人,那時(shí)候是用了一個(gè)自研的三指手,底盤是固定的,大家可以看一下。

圖片

  這個(gè)花式調(diào)酒也是先采集了一個(gè)真人做調(diào)酒,把他的軌跡學(xué)會(huì)了,再到機(jī)器人身上實(shí)現(xiàn)。手指上也有觸覺傳感器,現(xiàn)在要把棍子插到孔里面,光靠視覺的能力是不夠的,精度不夠,所以它要靠觸覺的感知到底有沒有插進(jìn)去,如果沒有插進(jìn)去的話要往邊上移一下,最后實(shí)現(xiàn)把棍子插進(jìn)去。

  這是去年的工作,今年的工作有自研的五指手,機(jī)械臂也是我們自研的,去年沒有自研的機(jī)械臂,現(xiàn)在也有移動(dòng)底盤,加上感知大模型和規(guī)劃大模型,能夠?qū)崿F(xiàn)操作機(jī)器人能夠自由對話和完成任務(wù)。

  右下角是從移動(dòng)智能機(jī)器人看到的東西,在桌子上發(fā)現(xiàn)有一瓶whisky的酒,讓它倒一杯whisky的酒,這是從機(jī)器人的視野里看到的,而且能夠?qū)崟r(shí)識(shí)別到各種各樣的東西。

  現(xiàn)在就分享到這里。謝謝大家。