騰訊首席科學家張正友：僅把大模型塞進機器人，產(chǎn)生不了真正的具身智能

2024-07-21 11:09:21發(fā)布來源：多知作者：騰訊研究院

　 編者按：

　　本文轉載自“騰訊研究院”，多知經(jīng)授權發(fā)布。騰訊首席科學家、騰訊Robotics X實驗室主任張正友在“具身智能的一些挑戰(zhàn)和進展”主題演講中介紹了機器人的發(fā)展史及具身智能的挑戰(zhàn)，還介紹了Robotics X實驗室基于“層次化”控制來研發(fā)智能機器人的進展。張正友提到，和ChatGPT不同，具身智能是通過類人的感知方式(視覺、聽覺、語言、觸覺)來獲取知識，并抽象成為一種表達語義來理解世界并作出行動，與世界交互。因此，大模型放到機器人上并不能馬上能實現(xiàn)具身智能。

　　為深入探討AI時代的人機關系，引領社會共同思考人機共生時代的經(jīng)濟發(fā)展機遇與社會應對策略，騰訊研究院聯(lián)合前海國際事務研究院、青騰、香港科技園公司等機構舉辦 “AI時代的人機關系展望”論壇，這也是“人工智能+社會發(fā)展系列高端研討會”的第二期。

　　論壇上，騰訊首席科學家、騰訊Robotics X實驗室主任張正友在“具身智能的一些挑戰(zhàn)和進展”主題演講中，介紹了Robotics X實驗室基于“層次化”控制來研發(fā)智能機器人的進展。“層次化”包括對本體、環(huán)境和任務共三層控制，層次化的具身智能的優(yōu)勢在于每個層次的知識都可以持續(xù)地更新和積累，而且層次之間能力可以解耦。騰訊Robotics X 實驗室今年研發(fā)了自研的五指靈巧手和機械臂，移動底盤也首次融入到機器人身上，再加上感知大模型和規(guī)劃大模型，能夠讓操作機器人實現(xiàn)自由對話和完成任務。

　　對于智能機器人將如何走進人們的生活，張正友說：“長遠來看，機器人一定會走進千家萬戶，而在當下，機器人可能會在康復養(yǎng)老、個性化教育等領域首先帶來巨大變化。”

　　以下為張正友的分享全文：

　　各位領導、各位嘉賓、各位老師、各位同學：大家下午好。我今天要跟大家分享關于具身智能的一些挑戰(zhàn)和進展。

　　至于什么是具身智能，這個詞去年突然火起來了，大家感覺很酷。其實，具身智能是相對于非具身智能而言的，像ChatGPT擁有的是沒有身體的智能。對我來講，具身智能體就是一個智能的機器人。至于這個智能是應該有身體還是沒有身體的，對我們做機器人的來講肯定是希望有身體，擁有身體才能把智能發(fā)育得更好。

　　2018年年初，騰訊董事會主席兼首席執(zhí)行官馬化騰決定成立騰訊Robotics X，當時我還在朋友圈發(fā)了這樣一段話(2018年4月6日朋友圈的內(nèi)容)：“沒有靈魂的軀體是一具行尸走肉，沒有軀體的靈魂是一縷虛無幽靈，我們不做行尸走肉，我們不要幽靈飄忽，我們創(chuàng)造與人和諧互助的機器人!”也就是我們要創(chuàng)建智能機器人來增強人的智力、發(fā)揮人類體能潛力、關懷人的情感、促進人和機器人的交互，迎接人和機器人共存、共創(chuàng)和共贏的時代，這是我們成立騰訊Robotics X的初衷。

　　其實，智能是否需要具身是有爭議的，這個爭議主要圍繞認知科學展開。該領域內(nèi)，大家認為許多認知特性是需要生物體的整體特性來塑造生物體的智能，但也有一部分人認為智能是不需要身體的，因為我們主要面臨的是信息處理、問題解決和決策治理等任務，這些都可以通過軟件和算法實現(xiàn)。具身智能這個詞和概念很早就存在了，對很多人來講，身體對于智能來說是至關重要的，因為智能源于生物體與其環(huán)境之間的交互，兩者之間的互動有利于智能的發(fā)育和發(fā)展。

　　回過頭看，圖靈在1950年寫的探討如何實現(xiàn)機器智能的文章?？梢钥吹?，有一部分人認為可以用一些非常抽象的Activity，比方說下棋來實現(xiàn)(智能)，還有一部分人認為，機器最好要有一些Organ(器官)，比如speaker(話筒)來幫助我們更快的實現(xiàn)機器智能。不過，圖靈自己也說不知道哪一類最好。Open AI最早的時候也買了上百臺的機械臂，直接希望用機器人來實現(xiàn)AGI，經(jīng)過一年多的努力發(fā)現(xiàn)這條道路暫時走不通，所以他們就放棄了，把精力聚焦在基于文本的大模型，最后成功開發(fā)出了ChatGPT?！　?/p>

　　機器人有很悠久的歷史，最初是生產(chǎn)線上機械臂的自動化，也就是在已知環(huán)境中完成一系列的動作，需要精確控制，我把它叫做零智能，是因為這個過程是不需要任何智能的。這一類的機器人雖然操作能力非常強，但是這些操作能力是為了一個固定環(huán)境預編程好的，是零智能。

　　進入大模型時代，也有人認為，大模型很厲害，放到機器人上馬上就能夠實現(xiàn)，實際上不是的。現(xiàn)在處于什么情況呢？打個比喻，就是相當于20歲大腦放在3歲的身體上，機器人雖然擁有一定的移動能力，但是操作能力非常弱。真正的具身智能要能夠自主學習和處理問題，對環(huán)境變化和不確定的時候能夠自動調(diào)整和規(guī)劃，這是我們認為具身智能能夠通往AGI或者是打造通用智能機器人非常重要的過程。

　　具體看來，具身智能是有物理載體的智能體(智能機器人)在一系列的交互中，通過感知、控制和自主學習來積累知識和技能，形成智能并影響物理世界的能力。這和ChatGPT是不太一樣的，具身智能是通過類人的感知方式（視覺、聽覺、語言、觸覺）來獲取知識，并抽象成為一種表達語義來理解世界并作出行動，與世界交互。這里面涉及到多個學科的融合，包括機械工程自動化、嵌入系統(tǒng)控制優(yōu)化、認知科學、神經(jīng)科學之類的，它是所有領域發(fā)展到一定程度以后能夠涌現(xiàn)出來的一種能力。

　　具身智能面臨著非常多的挑戰(zhàn)：

　　首先是復雜的感知能力，包括視覺、聽覺，現(xiàn)在大模型里包括GPT-4o也只是包括了視覺和聽覺，還沒有觸覺。對具身智能來講，觸覺非常重要。機器人需要有復雜的感知能力，才能感知和理解周圍不可預測的非結構化的環(huán)境和物體。

　　第二是強大的執(zhí)行能力，包括移動、抓取、操縱以便能夠與環(huán)境和物體進行交互。

　　第三是學習能力，能夠從經(jīng)驗和數(shù)據(jù)中學習和適應，以便更好理解和應對環(huán)境的變化。

　　第四是自適應能力，能夠自主調(diào)整自己的行為和策略，以便更好地應對不同的環(huán)境和任務。

　　第五是非常重要的，并不是把這些能力疊加就已經(jīng)達到具身智能，而是要把這些能力有機、高效地協(xié)作融合才能真正地達到我們講的希望的具身智能。

　　第六，在這個過程中，我們需要的數(shù)據(jù)是非常稀缺的，OpenAI最初是希望直接通過機器人達到AGI，由于數(shù)據(jù)的缺乏后面放棄了，但是數(shù)據(jù)還是需要解決的，數(shù)據(jù)的稀缺性是很大的挑戰(zhàn)。在實際場景中收集數(shù)據(jù)時還需要保護用戶的隱私安全。

　　第七因為具身智能是要生活在人類的人居環(huán)境，要保證自身和周圍的安全。

　　第八是社會倫理的問題，機器人和人交互時要遵循道德和法律的規(guī)范，保護人類的利益和尊嚴。

　　要達到具身智能是需要很多工作要做的，目前大家認為大模型可以解決智能機器人的問題，我這里畫了一個圖，相當于我們要把大模型塞到機器人的頭里好像就解決了，但是這只是達到部分的智能。我們期待智能和本體要有機融合，這樣機器人和環(huán)境交互中才能涌現(xiàn)出真正的智能。

　　為了達到這樣的愿景，我認為需要改變控制范式。假如你們從機器人的教科書來看，傳統(tǒng)的控制范式先是感知，感知之后是計劃，計劃之后是行動，行動之后再來感知這樣的閉環(huán)過程，這個控制范式是不可能達到智能的。2018年我就提出了一個“SLAP范式”，S是感知，L是學習，A是行動，P是計劃。感知和行動需要緊密相連，才能實時應對不斷變化的環(huán)境。它們上面是規(guī)劃，去解決復雜一點的任務。學習是滲透到各個模塊，能夠從經(jīng)驗和數(shù)據(jù)中學習，并能夠自主調(diào)整自己的行為和策略。這個SLAP范式和人類的智能是有很相似的地方。　　

　　諾貝爾獎獲得者Daniel Kahneman有一本書叫《Thinking，F(xiàn)ast and slow》，認為人腦是有兩個系統(tǒng)的，第一個系統(tǒng)System 1是更多偏向于直覺，快速地解決問題。第二個系統(tǒng)是一種比較深度的思考，理性的思考，叫System 2。事實上，人95%的時間都在System 1，只有很少和復雜任務時才需要調(diào)度System 2，所以為什么人腦能夠這么高效，只要幾十瓦就能解決思考的問題，連一個GPU消耗的能量都不需要，這就是因為人類能夠在95%的問題在System 1解決了，很難的任務才會到System 2。

　　我提出來的SLAP的范式，在底層，感知和行動之間緊密相連才能夠解決反應式的自主，這就對應了System 1。有意識的自主是要達到System 2理性的思維和思考、

　　根據(jù)SLAP范式，結合人的大腦、以及小腦如何控制肢體的知識，我們研發(fā)了一個層次化的具身智能系統(tǒng)，分成了三層：最下面一層是Proprioception，就是機器人對自身的感知狀況，這個地方對應到控制電機運動的電機信號。

　　第二層是Exteroception，也就是對環(huán)境的感知，通過環(huán)境的感知智能知道需要調(diào)用哪些能力完成這個任務。

　　最上面一層是和任務相關的叫做Strategic Level planner，針對特定任務，環(huán)境和機器人本體的能力做好規(guī)劃才能把任務很好地解決。

　　下面就具體給大家做一些演示，最底層(Proprioception Level)的運動的控制也是從數(shù)據(jù)中進行學習的。這里讓一個真狗在跑步機上不斷地跑，同步做數(shù)據(jù)采集。通過模仿學習和強化學習，讓機器人學會和真狗類似的運動。我們用了一個虛實集成世界，數(shù)字孿生、虛實統(tǒng)一。這里看到的只是狗的外表的運動方式，但到底機器人怎么動，需要多少力量，要發(fā)送的關節(jié)和電機的信號強度都是需要通過強化學習得到的。

　　另一段視頻，在這里沒有專門的人類控制，就是讓機器狗學會了真狗的運動方式，它學會了之后就自己跑，有點活靈活現(xiàn)的感覺。

　　這是最基本的能力(運動能力)，下一步是要對環(huán)境感知在環(huán)境里完成這些任務，剛才講了在平地上動，第二步要把環(huán)境信息加進去，我們讓它學會匍匐前進，怎樣自然上臺階，怎么跨欄和怎么飛躍障礙物組合。　　

　　這時機器狗在仿真世界中已經(jīng)學會了怎么跳躍、跨越障礙物。這只狗是我們自研的，叫Max，和一般的狗不太一樣的地方是在膝蓋上加了輪子，在平地上用輪子走得更快，不平的地方可以用四足，所以說是不同的模態(tài)組合。

　　當我們有了對環(huán)境適應能力之后就可以讓它做各種不同的事情，比如我們要求其中一只狗追上另外一只狗，追上之后就贏了。為了增加復雜性，假如一個旗出現(xiàn)，原本逃的那只狗碰到這個旗之后就可以變成追了。大家可以看一下，這也是通過強化學習自動學會的。一只狗在追另外一只狗，當然我們把速度限制住了讓狗跑得比較慢一點?，F(xiàn)在變成了逃的那只狗去追，那只追的狗變了之后就轉了一個彎騙了另一只狗一下。

　　這樣一個層次化的具身智能的好處是每個層次的知識都可以持續(xù)地更新和積累，而且層次之間能力是可以解耦了，更新其他層級不會影響其他已有層級的知識。

　　比如說剛才從一只狗追另一只狗的時候，在強化學習時只學會了在平地上訓練，根本沒有加上障礙物，現(xiàn)在加了障礙物之后不需要重新學習，它自動學會了，因為在底層的時候知道怎么處理障礙物。大家可以看一下視頻，這是我們根本沒有重新訓練的，上面加了障礙物，碰到一根棍子，他就鉆過去，碰到障礙物就跳過去，這是自動(學習)的。

　　這些工作是去年年初就完成了，近期也會在國際頂級的學術期刊Nature Machine Intelligence上發(fā)表，并且作為封面故事，說明大家認為這樣一個工作現(xiàn)在還是領先的。

　　下面講一下我們過去一年在大模型融合方面進展，也就是將語言大模型以及多模態(tài)的感知大模型融合進我們的層次化具身智能系統(tǒng)。比如人給機器人派了一個煎蛋任務，基于LLM的規(guī)劃大模型將煎蛋這個任務分解一下，就是要先把蛋從冰箱里拿出來，把蛋打在鍋里面，然后要煎蛋。從多模態(tài)感知中，首先要知道這個蛋是放在冰箱里，需要調(diào)用下面的中層技能，機器人要先去冰箱把蛋拿出來，把冰箱門打開，抓握雞蛋回到灶臺。最下面就是底層控制的，控制機器人怎么到冰箱哪里，怎么打開冰箱門，等等，一旦學會都是自動完成的。最后是回到最頂層的Strategic Level Planner。注意在這個閉環(huán)里，機器人的行動作用于一個數(shù)字世界和物理世界緊密結合的虛實集成世界，在數(shù)字仿真空間里有機器人、也有看起來非常真實的場景，這樣機器人的技能在虛擬空間學會之后可以直接應用到真實的空間里。

　　這里看一個視頻。我們把一個智能機器人放在一個從來沒見過的環(huán)境里面，第一步機器人要轉一圈探索這個世界。比如視頻里，機器人的任務是要把垃圾送到垃圾桶里，那么它首先要找到垃圾桶，找到垃圾桶之后就放過去了。同樣把垃圾桶換一個地方，假設他不知道這個環(huán)境，通過探索發(fā)現(xiàn)了垃圾桶之后就把垃圾送過去了。

　　下面這個場景是要把鼠標送給藍衣服和牛仔褲的人，這里面有很多其他人，他一定要找到穿藍色衣服和牛仔褲的，他就自動去探索和找。這中間碰到的很多人不是藍衣服不是牛仔褲，一直到機器人看到藍衣服和牛仔褲，就把鼠標送到了。

　　在探索過程中，機器人能把周圍的環(huán)境情況都記住了，不需要每次都重新探索。下面這個場景先是把藥送給一個同事，這個感冒藥的袋子再讓機器人扔掉，它在探索建模時已經(jīng)知道垃圾桶在什么地方，就直接去垃圾桶那邊了。還可以利用空間的關系，比如說凳子在哪里、白板在哪里，要把一個東西送到白板和高凳子之間的一個人那里，中間有障礙物能夠自動避開。

　　去年我們還做了一個調(diào)酒的機器人，那時候是用了一個自研的三指手，底盤是固定的，大家可以看一下。

　　這個花式調(diào)酒也是先采集了一個真人做調(diào)酒，把他的軌跡學會了，再到機器人身上實現(xiàn)。手指上也有觸覺傳感器，現(xiàn)在要把棍子插到孔里面，光靠視覺的能力是不夠的，精度不夠，所以它要靠觸覺的感知到底有沒有插進去，如果沒有插進去的話要往邊上移一下，最后實現(xiàn)把棍子插進去。

　　這是去年的工作，今年的工作有自研的五指手，機械臂也是我們自研的，去年沒有自研的機械臂，現(xiàn)在也有移動底盤，加上感知大模型和規(guī)劃大模型，能夠實現(xiàn)操作機器人能夠自由對話和完成任務。

　　右下角是從移動智能機器人看到的東西，在桌子上發(fā)現(xiàn)有一瓶whisky的酒，讓它倒一杯whisky的酒，這是從機器人的視野里看到的，而且能夠實時識別到各種各樣的東西。

　　現(xiàn)在就分享到這里。謝謝大家。

商學院

Open Talk

騰訊首席科學家張正友：僅把大模型塞進機器人，產(chǎn)生不了真正的具身智能

相關閱讀

商學院

Open Talk

騰訊首席科學家張正友：僅把大模型塞進機器人，產(chǎn)生不了真正的具身智能

相關閱讀

騰訊首席科學家張正友：僅把大模型塞進機器人，產(chǎn)生不了真正的具身智能