讓具身智能走出神話

2025-08-21 00:00:00張燕冬

財(cái)經(jīng) 2025年17期

張正友，堪稱世界級(jí)科學(xué)家。無(wú)論是世界上第一個(gè)用立體視覺(jué)做導(dǎo)航的機(jī)器人，還是世界上第一個(gè)基于神經(jīng)網(wǎng)絡(luò)的人臉表情識(shí)別系統(tǒng)，或被國(guó)際上認(rèn)為是一個(gè)革命性發(fā)明——在全球范圍采用的“張氏標(biāo)定法”，作為全球著名的計(jì)算機(jī)視覺(jué)、多媒體和機(jī)器人技術(shù)專家，張正友在立體視覺(jué)、三維重建、運(yùn)動(dòng)分析、圖像配準(zhǔn)、攝像機(jī)自標(biāo)定、人臉表情識(shí)別、機(jī)器人導(dǎo)航等方面都有開(kāi)創(chuàng)性的貢獻(xiàn)，在無(wú)止境的科學(xué)前沿尋求突破是他始終的追求。

如何科學(xué)看待具身智能？語(yǔ)言大模型的優(yōu)勢(shì)和弱勢(shì)是什么？人形機(jī)器人是具身智能發(fā)展的方向嗎？具身智能面臨怎樣的挑戰(zhàn)？如何構(gòu)建具身智能的基礎(chǔ)設(shè)施和更優(yōu)生態(tài)？帶著諸多問(wèn)題，《財(cái)經(jīng)智庫(kù)》走訪了騰訊首席科學(xué)家張正友。

張正友認(rèn)為，具身智能與人形機(jī)器人不是同一概念，中國(guó)的具身智能生態(tài)還處于初級(jí)階段；而立足場(chǎng)景驅(qū)動(dòng)科技進(jìn)步并影響社會(huì)、解決其現(xiàn)實(shí)問(wèn)題才是有效路徑；促進(jìn)“身”“智”在動(dòng)態(tài)的環(huán)境中協(xié)同進(jìn)化、落地，創(chuàng)造人機(jī)互動(dòng)的更優(yōu)形態(tài)是目標(biāo)。

多模態(tài)知識(shí)結(jié)構(gòu)的積累

《財(cái)經(jīng)智庫(kù)》：1985年你浙大畢業(yè)后去法國(guó)留學(xué)，于1990年獲計(jì)算機(jī)科學(xué)博士學(xué)位，后又分別在法國(guó)國(guó)家信息與自動(dòng)化研究所（INRIA）和日本先進(jìn)通信研究院（ATR）工作，1998年起任職于微軟研究院20年，2018年回國(guó)任騰訊首席科學(xué)家。33年的海外經(jīng)歷，哪些關(guān)節(jié)點(diǎn)對(duì)你較為重要？

張正友：我的人生軌跡很簡(jiǎn)單。本科在浙大，第一次接觸計(jì)算機(jī)，那時(shí)用的還是穿孔卡機(jī)與計(jì)算機(jī)交互，計(jì)算資源缺乏，PDP-10、PDP-11都從國(guó)外進(jìn)口，一臺(tái)計(jì)算機(jī)很大，占房間的大部分空間。今天已從大型計(jì)算機(jī)到PC普及，到互聯(lián)網(wǎng)興起和智能手機(jī)時(shí)代，再到現(xiàn)在穿戴式或陪伴設(shè)備的涌現(xiàn)，都說(shuō)明計(jì)算能力從最初固定的時(shí)間、程序和地點(diǎn)慢慢變得移動(dòng)化，隨時(shí)隨地都能獲取想要的信息。

我一開(kāi)始學(xué)的就是人工智能，早期機(jī)器人跟AI是同一領(lǐng)域，機(jī)器人、計(jì)算機(jī)視覺(jué)以及語(yǔ)音識(shí)別不區(qū)分。那時(shí)大家覺(jué)得AI可以很快實(shí)現(xiàn)，但隨著時(shí)間的推移發(fā)現(xiàn)太難了，就把機(jī)器人、計(jì)算機(jī)視覺(jué)、語(yǔ)音識(shí)別和自然語(yǔ)言處理從人工智能里獨(dú)立出來(lái)，而人工智能則聚焦于規(guī)則或案例的推理和決策，希望各個(gè)擊破。分久必合，經(jīng)過(guò)40多年，各個(gè)領(lǐng)域都有巨大進(jìn)展，人工智能和機(jī)器人開(kāi)始融合了。我讀碩士時(shí)做語(yǔ)音識(shí)別，先將語(yǔ)音信號(hào)轉(zhuǎn)換成頻譜圖，搞清每個(gè)音素在頻譜里的特征及變化，然后用基于規(guī)則的人工智能系統(tǒng)來(lái)識(shí)別音素，形成單詞句子。語(yǔ)音太簡(jiǎn)單了，是一維信號(hào)，加上頻譜以后變成二維，我便開(kāi)始做三維計(jì)算機(jī)視覺(jué)，直接用于機(jī)器人。

《財(cái)經(jīng)智庫(kù)》：那時(shí)就為機(jī)器人導(dǎo)航？

張正友：對(duì)。那時(shí)的機(jī)器人是輪式的，上面裝三個(gè)攝像頭，是世界上第一個(gè)用立體視覺(jué)做導(dǎo)航的機(jī)器人。我參與了歐洲共同體項(xiàng)目以及火星機(jī)器人的研發(fā)，發(fā)明了ICP算法（迭代最近點(diǎn)算法，一種點(diǎn)云或曲面對(duì)準(zhǔn)方法）。這是一種基礎(chǔ)算法，以3D建模為火星機(jī)器人做導(dǎo)航，這套算法至今還在自動(dòng)駕駛和場(chǎng)景重建等領(lǐng)域使用。

后來(lái)我轉(zhuǎn)向純粹的3D視覺(jué)、攝像機(jī)標(biāo)定研究。當(dāng)時(shí)利用學(xué)術(shù)休假去日本，研發(fā)了世界上第一個(gè)基于神經(jīng)網(wǎng)絡(luò)的人臉表情識(shí)別系統(tǒng)。1998年到微軟研究院，繼續(xù)做人臉表情識(shí)別，用了更多數(shù)據(jù)和深度神經(jīng)網(wǎng)絡(luò)，做成云服務(wù)。在微軟，研發(fā)了很多東西，包括現(xiàn)在全世界都在使用的“張氏標(biāo)定法”，這是計(jì)算機(jī)3D視覺(jué)領(lǐng)域中一種經(jīng)典相機(jī)標(biāo)定方法。

嘗試新方法成為我持續(xù)的動(dòng)力。在法國(guó)做攝像機(jī)標(biāo)定的方法比較復(fù)雜，到了微軟后我就想開(kāi)啟3D視覺(jué)新研究，“張氏標(biāo)定法”便出現(xiàn)了，其好處在于簡(jiǎn)易，只要打印一個(gè)2D棋盤格就能得到攝像機(jī)參數(shù)。這在國(guó)際上被認(rèn)為是一個(gè)革命性的發(fā)明，很快在全球范圍采用。

《財(cái)經(jīng)智庫(kù)》：這種方法好像也廣泛應(yīng)用于機(jī)器人視覺(jué)、三維重建、SLAM等領(lǐng)域，將三維視覺(jué)與人臉建模和數(shù)字人結(jié)合？

張正友：確實(shí)，數(shù)字人研究起始于微軟。那時(shí)電腦還沒(méi)有攝像頭，USB攝像頭剛出來(lái)，分辨率很低，花了幾年時(shí)間研發(fā)，將數(shù)字人技術(shù)用于微軟的Xbox。發(fā)布時(shí)，比爾·蓋茨用我的小樣做了演講，宣布微軟進(jìn)入Xbox時(shí)代。

《財(cái)經(jīng)智庫(kù)》：這些技術(shù)在學(xué)科上如何劃分？

張正友：介于視覺(jué)和圖形學(xué)。我們?cè)谑澜缟献顧?quán)威的刊物和會(huì)議上發(fā)表文章，例如CVPR（計(jì)算機(jī)視覺(jué)、模式識(shí)別領(lǐng)域規(guī)模最大、投稿量最多的頂級(jí)會(huì)議之一）、ICCV（視覺(jué)領(lǐng)域的旗艦會(huì)議，側(cè)重基礎(chǔ)理論與跨學(xué)科應(yīng)用）、SIGGRAPH（計(jì)算機(jī)圖形與交互技術(shù)領(lǐng)域的頂會(huì)）。我是一個(gè)不滿足現(xiàn)狀的人，先做計(jì)算機(jī)視覺(jué)，后做神經(jīng)網(wǎng)絡(luò)，然后到美國(guó)從計(jì)算機(jī)視覺(jué)轉(zhuǎn)到語(yǔ)音識(shí)別再到多模態(tài)技術(shù)等。在語(yǔ)言識(shí)別領(lǐng)域還發(fā)明了“骨導(dǎo)麥克風(fēng)”，即通過(guò)骨傳導(dǎo)麥克風(fēng)，即使在很嘈雜的地方也可以將自己講話的聲音準(zhǔn)確識(shí)別出來(lái)。

《財(cái)經(jīng)智庫(kù)》：你認(rèn)為僅了解計(jì)算機(jī)視覺(jué)還不夠？

張正友：對(duì)我來(lái)講，最終目標(biāo)是人和機(jī)器人的交互，視覺(jué)只是一個(gè)模態(tài)，顯然是不夠的，那就必須拓展自己，所以轉(zhuǎn)向語(yǔ)音識(shí)別。但一般人不會(huì)從一個(gè)領(lǐng)域突然消失，脫離多年積累進(jìn)入新領(lǐng)域，或者說(shuō)，丟下已經(jīng)功成名就的領(lǐng)域，開(kāi)始一個(gè)陌生領(lǐng)域的開(kāi)拓。好在微軟研究院氛圍寬松，領(lǐng)導(dǎo)支持我轉(zhuǎn)型。我花了七年時(shí)間做語(yǔ)音處理和語(yǔ)音識(shí)別。

從計(jì)算機(jī)視覺(jué)，到語(yǔ)音處理和語(yǔ)音識(shí)別，再結(jié)合所有，就是現(xiàn)在多模態(tài)的意思，其中一個(gè)應(yīng)用就是視頻會(huì)議。

《財(cái)經(jīng)智庫(kù)》：視頻會(huì)議最早從微軟出來(lái)？

張正友：視頻會(huì)議微軟做得很早。像Skype，以前叫Office Communicator，現(xiàn)在叫Teams。我做的視頻會(huì)議設(shè)備叫Roundtable，360度視頻加麥克風(fēng)陣列。一個(gè)會(huì)議室只有語(yǔ)音不行，因?yàn)椴恢l(shuí)在講話；結(jié)合Roundtable設(shè)備后，就可看到講話人以及清晰的語(yǔ)音。語(yǔ)音和視頻結(jié)合是多模態(tài)的起始，很重要，后來(lái)成為了產(chǎn)品。在微軟，我基本每年向蓋茨匯報(bào)兩至三次，記得最后一次向蓋茨匯報(bào)時(shí)，他跳起來(lái)說(shuō)，“這就是我想要的東西?！?/p>

《財(cái)經(jīng)智庫(kù)》：剛才你提到微軟也重視“Paper”？

張正友：蓋茨是少有的真正具有胸懷的人。微軟研究院成立于1991年，那時(shí)人工智能雖有概念，但并未發(fā)展和應(yīng)用，研究院關(guān)注的就是人工智能系統(tǒng)研究，從某種程度上說(shuō)，蓋茨預(yù)見(jiàn)到了計(jì)算的未來(lái)，他強(qiáng)調(diào)研究技術(shù)，讓計(jì)算機(jī)能看、能說(shuō)、能聽(tīng)、能思考。

微軟研究院不以商業(yè)為目的，旨在提升整個(gè)社會(huì)人工智能的能力，并推進(jìn)技術(shù)的進(jìn)步。但研發(fā)做得如何，需要權(quán)威同行認(rèn)可，否則得不到驗(yàn)證和衡量。這是微軟鼓勵(lì)發(fā)表文章的原因。我加入微軟時(shí)，計(jì)算機(jī)視覺(jué)并未在微軟的產(chǎn)品里運(yùn)用，后來(lái)才出現(xiàn)了產(chǎn)品化的視頻會(huì)議和Xbox。

《財(cái)經(jīng)智庫(kù)》：也就是說(shuō)，盡管沒(méi)有盈利和產(chǎn)品要求，但隨著研發(fā)的深入，自然而然出現(xiàn)了產(chǎn)品。

張正友：對(duì)。從商業(yè)角度，養(yǎng)一批研發(fā)人員，不一定馬上有結(jié)果，離產(chǎn)品很遠(yuǎn)；直接購(gòu)買外面的技術(shù)成本可能更低。兩種路線由首席執(zhí)行官或創(chuàng)始人定奪，而對(duì)蓋茨來(lái)說(shuō)，雖然從商業(yè)角度不值得，但推動(dòng)整個(gè)社會(huì)的發(fā)展同樣重要。

從一個(gè)領(lǐng)域跨入另一領(lǐng)域，雖屬同一AI大領(lǐng)域，但里面細(xì)分領(lǐng)域很多，需要不同領(lǐng)域的知識(shí)。之所以能夠跨界，是因?yàn)槲④浹芯吭簩捤傻沫h(huán)境和充足的經(jīng)費(fèi)。只要你有激情，就讓你嘗試。這是微軟鼓勵(lì)創(chuàng)新的優(yōu)勢(shì)。

《財(cái)經(jīng)智庫(kù)》：在AI領(lǐng)域，視覺(jué)和語(yǔ)音結(jié)合，處于大領(lǐng)域的什么位置？

張正友：現(xiàn)在的大模型，已從語(yǔ)言模型到多模態(tài)了，即把語(yǔ)音、視覺(jué)、文本結(jié)合。人機(jī)交互本質(zhì)上就是多模態(tài)。前面說(shuō)過(guò)，最初機(jī)器人和視覺(jué)、語(yǔ)音在人工智能領(lǐng)域合為一體，即語(yǔ)言、眼睛、耳朵、聲音、動(dòng)作為一體；后來(lái)發(fā)現(xiàn)每個(gè)細(xì)分領(lǐng)域都很復(fù)雜，漸漸地計(jì)算機(jī)視覺(jué)、語(yǔ)音、自然語(yǔ)言處理等都成為獨(dú)立的研究領(lǐng)域。現(xiàn)在各領(lǐng)域開(kāi)始融合，像NeurIPS（一個(gè)跨學(xué)科的神經(jīng)信息處理系統(tǒng)會(huì)議）包括視覺(jué)、語(yǔ)音、文本，機(jī)器人也慢慢進(jìn)入了。本質(zhì)還是多模態(tài)情境。

《財(cái)經(jīng)智庫(kù)》：你如何評(píng)估自己國(guó)外30多年，在技術(shù)、學(xué)術(shù)上所奠定的基礎(chǔ)，以及一些認(rèn)知方法論？

張正友：我對(duì)人機(jī)交互始終有興趣，很早就開(kāi)始關(guān)注了。從計(jì)算機(jī)視覺(jué)到人臉識(shí)別、語(yǔ)音，再到視覺(jué)和語(yǔ)音融合，再到機(jī)器人，有些研究屬認(rèn)知科學(xué)和神經(jīng)科學(xué)。在此過(guò)程中不斷開(kāi)拓，而AI機(jī)器人是我一以貫之的傾注，其本質(zhì)是交叉科學(xué)，如計(jì)算機(jī)視覺(jué)已與許多領(lǐng)域產(chǎn)生交叉，為理解圖像需要結(jié)合語(yǔ)言進(jìn)行處理；深度學(xué)習(xí)也不僅是大數(shù)據(jù)游戲，而是如何將其與幾何概念和物理信息結(jié)合。未來(lái)，各學(xué)科會(huì)以更加多樣化的形式融合。

《財(cái)經(jīng)智庫(kù)》：能否這樣理解，你作為全球著名的計(jì)算機(jī)視覺(jué)、多模態(tài)和機(jī)器人技術(shù)專家，在AI方面，尤其在立體視覺(jué)、三維重建、運(yùn)動(dòng)分析、圖像配套、攝像機(jī)自標(biāo)定、人臉識(shí)別、語(yǔ)音處理和機(jī)器人導(dǎo)航等方面都有開(kāi)創(chuàng)性的貢獻(xiàn)。你曾經(jīng)提出過(guò)一個(gè)“釘子理論”，在如今邊界模糊的創(chuàng)新過(guò)程中，如何更好理解該理論？

張正友：融合就更需要“釘子理論”，即便你的思考再宏大，也必須在某個(gè)領(lǐng)域鉆研下去，然后再融合。橫表示知識(shí)的寬度，豎是技術(shù)的深度。假如只有寬度，只知皮毛，那么這顆釘子打在墻上很容易就會(huì)被拔下或替代。以我個(gè)人的經(jīng)歷，要成為一顆扎得牢的“釘子”，先要往深里鉆，到一定程度再擴(kuò)展自己的“廣度”。如果對(duì)某個(gè)領(lǐng)域理解不夠深，很難找到與另一個(gè)領(lǐng)域的結(jié)合點(diǎn)。

《財(cái)經(jīng)智庫(kù)》：在系統(tǒng)性思維的框架下理解“釘子理論”，專注“點(diǎn)”，但不失于“系統(tǒng)”，也就是中國(guó)哲學(xué)中的Paradox。

張正友：點(diǎn)面之間的關(guān)系至關(guān)重要，我會(huì)考慮如何將系統(tǒng)性思維與場(chǎng)景驅(qū)動(dòng)相結(jié)合，即在某一場(chǎng)景下去思考哪些問(wèn)題需要解決，關(guān)鍵技術(shù)究竟是什么，如何突破？如此可以帶動(dòng)一批應(yīng)用，像“張氏標(biāo)定法”和火星機(jī)器人定位技術(shù)等，都是在如此思維中產(chǎn)生的。但之后又需要用抽象的思維描述技術(shù)，在場(chǎng)景中概括出理論，并使之適用于其他領(lǐng)域。在場(chǎng)景中找技術(shù)突破口非常重要，這也是我現(xiàn)在用“養(yǎng)老”場(chǎng)景去牽引機(jī)器人發(fā)展的思路。

語(yǔ)言大模型的優(yōu)勢(shì)與弱勢(shì)

《財(cái)經(jīng)智庫(kù)》：你想用場(chǎng)景驅(qū)動(dòng)技術(shù)并推動(dòng)社會(huì)變化，里面蘊(yùn)含著對(duì)科學(xué)和技術(shù)的認(rèn)知與追求，以及長(zhǎng)期在國(guó)外形成的思維方式和方法論。33年時(shí)間可謂長(zhǎng)矣！回國(guó)后，無(wú)論是你提出的虛實(shí)集成世界，還是ABCDEFG，包括層次化的控制研發(fā)智能機(jī)器人，或SLAP范式……其邏輯關(guān)聯(lián)是什么？

張正友：于我而言，技術(shù)是第一位的。我要全身心投入做基礎(chǔ)研究，研判技術(shù)發(fā)展方向，做出突破性技術(shù)，持續(xù)保持在世界前沿。國(guó)內(nèi)也講重視基礎(chǔ)研究，但往往更多是應(yīng)用基礎(chǔ)研究，有太強(qiáng)的目的導(dǎo)向?，F(xiàn)在講“卡脖子”，其實(shí)“卡脖子”技術(shù)不是基礎(chǔ)研究。

《財(cái)經(jīng)智庫(kù)》：“卡脖子”不屬于基礎(chǔ)研究范疇，是產(chǎn)品。

張正友：即使這個(gè)“卡脖子”解了，新的“卡脖子”又來(lái)了，因?yàn)闆](méi)有從源頭去思考如何解決這些問(wèn)題。中國(guó)改革開(kāi)放40多年發(fā)展很快，追趕也快，有很多創(chuàng)新技術(shù)，但不少原創(chuàng)性核心技術(shù)還是被國(guó)外掌握。

為什么選擇了騰訊？馬化騰2017年決定要做機(jī)器人實(shí)驗(yàn)室，我2018年3月回來(lái)。馬化騰有預(yù)見(jiàn)，覺(jué)得機(jī)器人是一個(gè)發(fā)展方向。從技術(shù)領(lǐng)域來(lái)講，我覺(jué)得自己很合適，我對(duì)機(jī)器人情有獨(dú)鐘，正好是個(gè)機(jī)會(huì)；同時(shí)，騰訊企業(yè)文化跟我個(gè)人做事風(fēng)格比較匹配。更為重要的是，中國(guó)社會(huì)老齡化問(wèn)題嚴(yán)重，而機(jī)器人最有可能突破的場(chǎng)景就是養(yǎng)老領(lǐng)域。

《財(cái)經(jīng)智庫(kù)》：在真實(shí)世界里，很難看到一個(gè)真正意義上的人機(jī)交互的機(jī)器人，大語(yǔ)言模型的爆發(fā)能讓人類所期待的機(jī)器人很快成為現(xiàn)實(shí)？

張正友：機(jī)器人從自動(dòng)化進(jìn)階到智能化，需要實(shí)現(xiàn)反應(yīng)式自主和有意識(shí)自主去應(yīng)對(duì)變化的環(huán)境，需要一種新的控制范式，類似于人類的認(rèn)知模式。人的思考可分為兩個(gè)系統(tǒng)，一是自動(dòng)的、快速的、直覺(jué)的系統(tǒng)；二是需要推理、復(fù)雜計(jì)算等費(fèi)腦力的系統(tǒng)。完善的機(jī)器人系統(tǒng)也需要不同層級(jí)來(lái)處理不同級(jí)別的決策，或理解不同層級(jí)的感知信息。我相信，AI和人的未來(lái)將會(huì)是多模態(tài)的交互方式，而且AI要能主動(dòng)地感知周圍的環(huán)境。目前大模型還不能稱之為完整的世界模型，多模態(tài)大模型肯定是通往AGI的必經(jīng)之路，但還有很多工作要做，而且很可能不是現(xiàn)在的多模態(tài)大模型這樣的架構(gòu)。

《財(cái)經(jīng)智庫(kù)》：你剛才闡述的兩種系統(tǒng)思維，是基于諾獎(jiǎng)得主Daniel Kahneman的一本書《Thinking， Fast and Slow》？

張正友：是的，事實(shí)上，人腦有95%的時(shí)間都在系統(tǒng)1，只有很少和復(fù)雜的任務(wù)時(shí)才需要調(diào)度系統(tǒng)2，這是人腦能夠如此高效解決問(wèn)題的原因，連一個(gè)GPU消耗的能量都不需要。

《財(cái)經(jīng)智庫(kù)》：基于此，你提出了ABCDEFG的目標(biāo)方向？

張正友：智能機(jī)器人的ABCDEFG分別對(duì)應(yīng)的是，A是AI，機(jī)器人必須能看、能說(shuō)、能聽(tīng)、能思考；B是機(jī)器人本體，要探索怎樣的本體最適合人的環(huán)境，最簡(jiǎn)單的想法就是人形機(jī)器人，但我認(rèn)為還可能有更好的形態(tài)；C是精準(zhǔn)控制；D是發(fā)育學(xué)習(xí)，因?yàn)闄C(jī)器人要在跟人和環(huán)境的交互中不斷演進(jìn)，要在失敗中學(xué)習(xí)提升自己的能力，就像一個(gè)小孩的發(fā)育成長(zhǎng)；E就是EQ，機(jī)器人在交互中必須要理解人的情感，同時(shí)要把自己理解的東西呈現(xiàn)給人，這是雙向情感理解，擬人化；F是靈巧操控，要掌握包括使用工具，替人類完成物理任務(wù)，否則機(jī)器人只是聊天工具；G是守護(hù)天使，機(jī)器人不僅僅是單獨(dú)的本體，還需要和部署在環(huán)境里的智能傳感器和其他機(jī)器人合作，通過(guò)云跟世界互聯(lián)，使得機(jī)器人成為人類的保護(hù)天使。

《財(cái)經(jīng)智庫(kù)》：這個(gè)目標(biāo)與方向是否太理想化？使機(jī)器人像人，能最終落地嗎？

張正友：完善的機(jī)器人系統(tǒng)需要借鑒人類的思維方式。講到自主，有兩類：一是反應(yīng)式自主，比如走路時(shí)絆了一跤，可以很快恢復(fù)平衡，或是抓的杯子打滑了要捏緊一點(diǎn)；二是有自主意識(shí)，例如規(guī)劃如何開(kāi)門或下樓。為實(shí)現(xiàn)這個(gè)自主，傳統(tǒng)方式通過(guò)感知，感知環(huán)境后做一個(gè)規(guī)劃，規(guī)劃后再行動(dòng)，行動(dòng)后再感知，其致命問(wèn)題就是它不可能解決反應(yīng)式自主，因?yàn)椴豢赡苣敲纯?，所以我提出了一個(gè)“SLAP”范式。

S是感知，L是學(xué)習(xí)，A是行動(dòng)，P是計(jì)劃。其中，學(xué)習(xí)很重要，學(xué)習(xí)可以滲透到感知、行動(dòng)和計(jì)劃；還有就是感知和行動(dòng)要緊密連接。只有這樣，才能感知到突發(fā)事件，如摔一跤可馬上恢復(fù)平衡，同時(shí)對(duì)常規(guī)行動(dòng)不需要進(jìn)入上一層計(jì)劃。與人的認(rèn)知相比較，就是剛才所說(shuō)的系統(tǒng)1和系統(tǒng)2，反應(yīng)式自主對(duì)應(yīng)了系統(tǒng)1；而計(jì)劃邏輯思維，也就是有意識(shí)的自主就對(duì)應(yīng)了系統(tǒng)2。

《財(cái)經(jīng)智庫(kù)》：明白了，你是希望通過(guò)機(jī)器的訓(xùn)練和交互，將較慢的思維，即需要花費(fèi)精力的系統(tǒng)2也像靈活、快捷的系統(tǒng)1一樣，做出快速反應(yīng)。

張正友：目前還很難做到。雖然還沒(méi)有一個(gè)明確的研究路徑，但大家都投入到大語(yǔ)言模型，因?yàn)檫@條路看起來(lái)走得通，而且有效果，把所有人類的數(shù)據(jù)整合到一個(gè)大模型里，能夠產(chǎn)生出一定的“智能”。兩年前我說(shuō)大語(yǔ)言模型還不夠，只是系統(tǒng)1，需要考慮更上一層的系統(tǒng)2。那時(shí)，無(wú)論是ChatGPT或其他大語(yǔ)言模型，只要給它一堆數(shù)據(jù)，馬上可以預(yù)測(cè)，不論問(wèn)題難易幾乎需要同樣的時(shí)間回答，但實(shí)際問(wèn)題的解決不是這樣的。容易的很快可解決，復(fù)雜問(wèn)題則要上升到一定高度，大家都在思考采用何種新的研究方式。

《財(cái)經(jīng)智庫(kù)》：OpenAI大模型ChatGPT-o1出來(lái)之后，是否有希望走通這條路？

張正友：OpenAI在2024年9月推出ChatGPT-o1，有推理了，但它未公布具體怎么做。梁文鋒的DeepSeek今年1月也做出來(lái)了，可以看出大家開(kāi)始往系統(tǒng)2發(fā)力了。

這是革命性的變化，能理解人類了，這是我對(duì)DeepSeek的看法。盡管OpenAI先起步，但DeepSeek把深度思考復(fù)制出來(lái)了，并且開(kāi)源，同時(shí)計(jì)算成本大大降低，讓一般人用得起，這是非常重要的創(chuàng)新。美國(guó)也開(kāi)始講，OpenAI需要開(kāi)源一些東西，最近也有一些開(kāi)源模型推出。

開(kāi)源和閉源是共生的，就像智能手機(jī)，既有安卓也有蘋果；大語(yǔ)言模型閉源開(kāi)源都存在，閉源可能做的更極致一點(diǎn)，也可以借鑒一些開(kāi)源的東西；而開(kāi)源讓對(duì)技術(shù)有追求的人不斷創(chuàng)新，成本低，迭代更快。

到了這個(gè)層次就需要看一些認(rèn)知科學(xué)的內(nèi)容。例如一個(gè)需要思考多次才能產(chǎn)生的結(jié)果，思考多了就可視為直覺(jué)，相當(dāng)于從系統(tǒng)2變成系統(tǒng)1了。這就像人類的跳水，最初需要去思考去鍛煉，將水花壓小，是系統(tǒng)2，前面跳幾次效果不佳，慢慢越來(lái)越好，成為肌肉記憶，邏輯思維變成直覺(jué)，就變成系統(tǒng)1。機(jī)器人也應(yīng)該如此。

“我們的目標(biāo)就是人和機(jī)器人共生、共存、共贏，具身智能絕不意味著替代人類，而是為人類服務(wù)。”

具身智能一定是人形嗎？

《財(cái)經(jīng)智庫(kù)》：具身智能越來(lái)越成為人們的關(guān)注。我們?nèi)ミ^(guò)杭州的宇樹科技、云深處等企業(yè)，這次《財(cái)經(jīng)智庫(kù)》深圳調(diào)研又去了優(yōu)必選、眾擎、越疆等。具身智能一定要人形嗎？

張正友：具身智能與人形機(jī)器人是兩個(gè)不同的概念。機(jī)器人Robot，其含義是一個(gè)強(qiáng)制的勞動(dòng)力，即苦力。IEEE定義Robot就是能感知的自主機(jī)器，從來(lái)沒(méi)說(shuō)過(guò)要像人形，人形在英語(yǔ)里叫Humanoid。但當(dāng)中文把Robot翻譯成“機(jī)器人”后，馬上就帶著一層含義了，如果翻譯成自主機(jī)器就不會(huì)如此。但這一翻譯已經(jīng)注入了人們對(duì)機(jī)器人的情感，好像機(jī)器人不像人就不是機(jī)器人。

《財(cái)經(jīng)智庫(kù)》：1950年，圖靈在《計(jì)算機(jī)器與智能》中提出“機(jī)器能否思考”的哲學(xué)命題，預(yù)示了智能體通過(guò)物理交互實(shí)現(xiàn)認(rèn)知的可能性，但受限于當(dāng)時(shí)的技術(shù)，未能取得突破；后來(lái)布魯克斯提出“包容式架構(gòu)”，主張智能應(yīng)由身體與環(huán)境的實(shí)時(shí)交互自然涌現(xiàn)，成為具身智能的奠基性理念。

張正友：具身智能相對(duì)非具身而言，像ChatGPT是沒(méi)有身體的智能。于我而言，具身智能體就是一個(gè)智能的機(jī)器人，或者一個(gè)智能的數(shù)字人。但智能是否需要具身是有爭(zhēng)議的，這個(gè)爭(zhēng)議主要圍繞認(rèn)知科學(xué)展開(kāi)。一部分人認(rèn)為許多認(rèn)知特性是需要生物體的整體特性來(lái)塑造生物體的智能；也有一部分人認(rèn)為智能不需要身體，因?yàn)橹饕媾R的是信息處理、問(wèn)題解決和決策治理等任務(wù)，這些都可以通過(guò)軟件和算法實(shí)現(xiàn)。具身智能認(rèn)為“身”和“智”要圓融統(tǒng)一，與環(huán)境的交互中涌現(xiàn)出智能。

剛才提到圖靈1950年的文章，即探索如何實(shí)現(xiàn)機(jī)器智能，可以看到，有一部分人認(rèn)為可以用一些非常抽象的行為，比如說(shuō)下棋來(lái)實(shí)現(xiàn)智能；還有一部分人認(rèn)為，機(jī)器最好要有一些器官，比如麥克風(fēng)和話筒來(lái)幫助我們更好地實(shí)現(xiàn)機(jī)器智能。但圖靈自己也說(shuō)不清楚哪一類更好。OpenAI最早也是買了上百臺(tái)機(jī)械臂，希望直接用機(jī)器人來(lái)實(shí)現(xiàn)AGI，經(jīng)過(guò)一年多的努力發(fā)現(xiàn)這條路走不通，主要是機(jī)器人操作的數(shù)據(jù)不夠多，所以放棄了，把精力集中在基于文本的大模型，最后成功開(kāi)發(fā)了ChatGPT。

《財(cái)經(jīng)智庫(kù)》：近幾年我們調(diào)研了一些機(jī)器人企業(yè)，像物流行業(yè)，自動(dòng)化就行，卻偏偏用人形機(jī)器人，其實(shí)，機(jī)械臂的功能足矣，沒(méi)必要像人吧？

張正友：我平時(shí)很少講這一觀點(diǎn)。人形不是最終目標(biāo)。從某種角度講，人形是以人作為參考，相對(duì)容易。但如何控制如此復(fù)雜的系統(tǒng)，才是難點(diǎn)。從技術(shù)的發(fā)展來(lái)講，人形不一定是最佳的。以汽車為例，交通工具的進(jìn)化如果僅從仿生角度來(lái)做，仿生出一個(gè)馬車來(lái)，效率遠(yuǎn)遠(yuǎn)比不上一輛汽車。同樣，從現(xiàn)在角度看，人形機(jī)器人對(duì)整個(gè)社會(huì)的發(fā)展不一定是最佳形式，因?yàn)楝F(xiàn)在人居環(huán)境大部分是平地，足式在復(fù)雜地面比較有用。我們實(shí)驗(yàn)室設(shè)計(jì)的“Max狗”和“小五”，都是復(fù)合的，在高低不平的路面上可以用足式，比如上樓梯，但到平地后切換成輪式的。這只是一個(gè)例子，也是我們?yōu)槭裁床蛔鋈诵螜C(jī)器人的一些原因。

《財(cái)經(jīng)智庫(kù)》：宇樹的人形機(jī)器人表現(xiàn)力強(qiáng)，優(yōu)必選也是這樣，但它真要像人一樣感知，或許還有很長(zhǎng)的路要走。你理想的機(jī)器人是什么樣的？

張正友：理想狀態(tài)的AI機(jī)器人，還沒(méi)想好，正在探索。比如輪足，是要根據(jù)不同的場(chǎng)景需求而設(shè)定的。從技術(shù)發(fā)展曲線來(lái)看，相對(duì)人類的進(jìn)化速度，技術(shù)是呈指數(shù)級(jí)上升的。人類的雙足是在幾百萬(wàn)年間讓人類能夠在復(fù)雜環(huán)境中生存下來(lái)而進(jìn)化形成的形態(tài)，但今天的人居環(huán)境基本都是平地，沒(méi)有必要使用操作效率低下的雙足。為什么我們實(shí)驗(yàn)室去做Max？這個(gè)機(jī)器狗是既有輪子又有腿，不是為仿生，而是去探索有沒(méi)有更好的形態(tài)能夠高效地在人居環(huán)境中行動(dòng)，更好地為人類服務(wù)。

再例如，人類是不可能進(jìn)化出屏幕的，但機(jī)器人配備了屏幕，就可以讓其與人的交互效率提升3倍。為什么不把現(xiàn)在的技術(shù)用到機(jī)器人上面？過(guò)早將終極形態(tài)鎖定在“人形”上，可能會(huì)限制行業(yè)的想象力。

《財(cái)經(jīng)智庫(kù)》：在國(guó)內(nèi)，人們總把具身智能與人形機(jī)器人等同起來(lái)。近幾年，國(guó)際上如特斯拉發(fā)布擎天柱，機(jī)器人的發(fā)展轉(zhuǎn)向人形機(jī)器人與通用機(jī)器人；2023年谷歌發(fā)布RT-1，具身智能浪潮撲來(lái)；再加上年初杭州“六小龍”出現(xiàn)，人形機(jī)器人堪似方向。

張正友：中國(guó)為什么這么多人做人形機(jī)器人，都是被馬斯克誤導(dǎo)了。馬斯克確實(shí)要做人形機(jī)器人，大家跟隨他，卻沒(méi)有認(rèn)真思考人形機(jī)器人用來(lái)做什么？我的猜測(cè)，馬斯克做人形機(jī)器人的目的不是為了地球，而是為了他的火星計(jì)劃，人形機(jī)器人更適合火星復(fù)雜的地面情況。就如其火箭計(jì)劃，短期內(nèi)難以直接去火星，那么就先通過(guò)一些發(fā)射衛(wèi)星產(chǎn)生經(jīng)濟(jì)價(jià)值，在此過(guò)程中不斷提升火箭技術(shù)。馬斯克的人形機(jī)器人亦如此，通過(guò)車間作業(yè)不斷提升人形機(jī)器人的能力。如果僅僅為了工廠所用，就不需要做人形。

而我們要從本質(zhì)上去思考，到底機(jī)器人在人居環(huán)境里是什么樣子。

《財(cái)經(jīng)智庫(kù)》：七年來(lái)你們一直在對(duì)機(jī)器人的前沿進(jìn)行探索。從2018年平衡自行車的動(dòng)態(tài)控制，到2021年Max實(shí)現(xiàn)腿輪一體化的四足機(jī)器狗，以及2023年靈巧手操作和栩栩如生的運(yùn)動(dòng)步態(tài)，再到去年下半年的養(yǎng)老機(jī)器人原型“小五”……從未提過(guò)以商業(yè)化為目的。

張正友：“小五”機(jī)器人是騰訊實(shí)驗(yàn)室第五代完全自研的機(jī)器人，這也是其名字由來(lái)。這個(gè)機(jī)器人前面安裝腳掌，走樓梯時(shí)變成足式，到平地時(shí)切換成輪子。這樣設(shè)計(jì)的考慮是為了穩(wěn)定，這是在養(yǎng)老環(huán)境里的關(guān)鍵。

我們?cè)?jīng)考慮過(guò)輪椅跟機(jī)器人結(jié)合，可以變形能折疊，或者智能輪椅加上一些感知，可自動(dòng)避障和行走，但輪椅的功能非常專業(yè)且屬醫(yī)療器械，需要批準(zhǔn)。因此我們還是希望做通用的智能機(jī)器人完成多樣任務(wù)，機(jī)器人可抱老人，推老人到某些地方；可以送藥、按摩、對(duì)話；假如能力強(qiáng)，還可以幫人打針等。當(dāng)然，我們實(shí)驗(yàn)室的戰(zhàn)略方向始終是具身智能機(jī)器人前沿技術(shù)探索，盡可能做到實(shí)用，并讓技術(shù)快速迭代，商業(yè)化需要不同的技能。

具身智能面臨的挑戰(zhàn)

《財(cái)經(jīng)智庫(kù)》：鑒于人形機(jī)器人的表演，在老百姓眼里，似乎人形機(jī)器人很快就會(huì)進(jìn)入家庭，替代人了。

張正友：有人認(rèn)為，大模型已經(jīng)出現(xiàn)了突破，放到機(jī)器人上馬上就能夠?qū)崿F(xiàn)自主，實(shí)際上不那么簡(jiǎn)單。打個(gè)比喻，相當(dāng)于20歲大腦放在3歲孩子身上，機(jī)器人雖然擁有一定的行動(dòng)或移動(dòng)能力，但操作能力較弱，感知也難以進(jìn)化。真正的具身智能要能自主學(xué)習(xí)和處理問(wèn)題，對(duì)環(huán)境變化和不確定性能夠自動(dòng)調(diào)整和規(guī)劃，這是我們認(rèn)為具身智能能夠通往AGI或者打造通用智能機(jī)器人非常重要的環(huán)節(jié)。

只有將具身智能講清楚，才能搞清楚我們處于怎樣的階段，面臨怎樣的挑戰(zhàn)。具體來(lái)說(shuō)，具身智能是由物理載體的智能體（智能機(jī)器人）在一系列交互中，通過(guò)感知、控制和自主學(xué)習(xí)來(lái)積累知識(shí)和技能，形成智能體影響物理世界的能力。這和ChatGPT不同，具身智能通過(guò)類人的感知方式（視覺(jué)、聽(tīng)覺(jué)、語(yǔ)言、觸覺(jué)）來(lái)獲取知識(shí)，并抽象成為一種表達(dá)語(yǔ)義來(lái)理解世界并做出行動(dòng)，與外界交互。這里涉及到多個(gè)學(xué)科的融合，包括機(jī)械工程自動(dòng)化、系統(tǒng)控制優(yōu)化、認(rèn)知科學(xué)、神經(jīng)科學(xué)之類的，它是所有領(lǐng)域發(fā)展到一定程度后能夠涌現(xiàn)出來(lái)的一種能力。

《財(cái)經(jīng)智庫(kù)》：這也是人機(jī)互動(dòng)的核心吧。我曾經(jīng)請(qǐng)教過(guò)“云深處”創(chuàng)始人、浙大教授朱秋國(guó)如何看待波士頓動(dòng)力。他說(shuō)，波士頓動(dòng)力的優(yōu)勢(shì)還在于Action，而不是感知。

張正友：是的，具身智能面臨諸多挑戰(zhàn)。首先，復(fù)雜的感知能力，包括視覺(jué)、聽(tīng)覺(jué)與觸覺(jué)，現(xiàn)在大模型里只包括了視覺(jué)、聽(tīng)覺(jué)，還沒(méi)有觸覺(jué)。觸覺(jué)非常重要，是機(jī)器人復(fù)雜感知能力的一部分，具備觸覺(jué)才能感知和理解周圍不可預(yù)測(cè)的非結(jié)構(gòu)化的環(huán)境和物體；其次，強(qiáng)大的執(zhí)行能力，包括移動(dòng)、抓取、操作，以便能夠與環(huán)境和物體進(jìn)行交互；其三，學(xué)習(xí)能力，能夠從經(jīng)驗(yàn)和數(shù)據(jù)中學(xué)習(xí)與適應(yīng)，以更好地理解和應(yīng)對(duì)環(huán)境的變化；其四，自適應(yīng)能力，能自主調(diào)整自己的行動(dòng)和策略，以便應(yīng)對(duì)不同的環(huán)境和任務(wù)。當(dāng)然，并不是說(shuō)這些能力疊加起來(lái)就能達(dá)到具身智能，這些能力還需要有機(jī)、高效地協(xié)作融合，才能真正達(dá)到人類所希望的具身智能。還有，具身智能所需要的數(shù)據(jù)非常稀缺，OpenAI直接通過(guò)機(jī)器人達(dá)到AGI的想法就是因?yàn)閿?shù)據(jù)缺乏而折戟，數(shù)據(jù)的稀缺性仍是很大挑戰(zhàn)，在實(shí)際場(chǎng)景中收集數(shù)據(jù)還需要保護(hù)用戶的隱私安全。

《財(cái)經(jīng)智庫(kù)》：你說(shuō)過(guò)大語(yǔ)言模型，把世界上所有不同文化的人類文明全部放在了一起，涉及很多能力，但機(jī)器人數(shù)據(jù)很少，人們不可能像大語(yǔ)言模型一樣有這么多數(shù)據(jù)驅(qū)動(dòng)機(jī)器人。是否機(jī)器人要通過(guò)跟環(huán)境交互來(lái)演化？

張正友：這種演化，如前所述SLAP，我們將此分為四部分，先是行動(dòng)包括運(yùn)動(dòng)能力和操作能力；然后是感知，感知和行動(dòng)連在一起，為系統(tǒng)1。規(guī)劃是系統(tǒng)2。學(xué)習(xí)較為特殊，它貫穿每個(gè)模塊，即通過(guò)跟環(huán)境交互不斷地提升其能力，機(jī)器人也如此。

另外，看一下人和人溝通的場(chǎng)景，溝通模型是加州大學(xué)心理學(xué)教授Mehrabian在1971年寫的一本書《Silent Message》里提出來(lái)的，任何人之間的交互，靠文字或文本傳遞信息只占7%，其他部分，聲音占38%，人的肢體語(yǔ)言、表情、視線占55%，所以完全靠文本，想要實(shí)現(xiàn)AGI根本不夠。所以我還是認(rèn)定原生的多模態(tài)大模型是通往AGI的必經(jīng)之路，現(xiàn)在人們將其他模態(tài)和文本模型對(duì)齊，肯定會(huì)丟失信息。

《財(cái)經(jīng)智庫(kù)》：從技術(shù)層面，就拿你們實(shí)驗(yàn)室的研發(fā)來(lái)說(shuō)，缺乏的是什么？面臨的問(wèn)題是什么？

張正友：從實(shí)踐角度，是觸覺(jué)和靈巧手。剛才講到多模態(tài)大語(yǔ)言模型，文本是標(biāo)準(zhǔn)的，攝像頭和麥克風(fēng)經(jīng)過(guò)40年發(fā)展，也是標(biāo)準(zhǔn)的，但迄今還沒(méi)有一個(gè)標(biāo)準(zhǔn)的觸覺(jué)傳感器。觸覺(jué)跟手結(jié)合很關(guān)鍵，如果沒(méi)有觸覺(jué)，不可能安全攙扶老人。只有機(jī)械臂和機(jī)械手上都有觸覺(jué)傳感器，才能知道合適的力度。

靈巧手是否也要像五指手呢？不一定要仿人，但到底怎樣優(yōu)化機(jī)械手，也是很復(fù)雜很關(guān)鍵的。相信鑒于多模態(tài)大模型的基礎(chǔ)，加上攝像頭、麥克風(fēng)、有觸覺(jué)的靈巧手，慢慢就可以跟環(huán)境交互。機(jī)器人跟智能結(jié)合就可以產(chǎn)生更多東西。

《財(cái)經(jīng)智庫(kù)》：能否這么理解，ChatGPT，把人類的知識(shí)強(qiáng)迫放進(jìn)去了，但還沒(méi)有能力隨著環(huán)境交互而不斷演化，但機(jī)器人肯定是要演化的，社會(huì)上“機(jī)器人馬上就要代替人”是一種誤解。

張正友：代替人什么？這是一個(gè)基本問(wèn)題。早期我們覺(jué)得機(jī)器人很快會(huì)代替人的體力勞動(dòng)，但后來(lái)發(fā)現(xiàn)很難，還需時(shí)日。從資本角度來(lái)講，更多的應(yīng)用場(chǎng)景是工業(yè)，工業(yè)場(chǎng)景明顯是可以較快完成對(duì)人的替代，但工廠里80%-90%工作自動(dòng)化了，人怎么辦？剩下的是柔性操作和質(zhì)量檢測(cè)，用現(xiàn)在的智能機(jī)器人代替或許可以。機(jī)器人的定位應(yīng)該是做一些人做不了的事情，比如在養(yǎng)老領(lǐng)域的護(hù)工短缺嚴(yán)重問(wèn)題，當(dāng)人們不愿意做這類工作，機(jī)器人能否替代人。

《財(cái)經(jīng)智庫(kù)》：機(jī)器人不是去替代人，而是去做人不愿做或不能做的事情。

張正友：有些人是希望替代人，但我希望機(jī)器人去做人不能做或不愿意做的事，或者能力不夠的地方。智力部分確實(shí)能夠被AI替代掉，但在意識(shí)及情感方面，機(jī)器人或AI能夠模仿部分，細(xì)微之處仍然難以企及，它畢竟不像人那樣會(huì)產(chǎn)生共情，機(jī)器從外面加裝一些知識(shí)，不是自然發(fā)育而來(lái)，如人類那樣進(jìn)化的過(guò)程。所以人和人之間的情感與理解部分，不會(huì)被機(jī)器人所替代。

構(gòu)建具身智能基礎(chǔ)設(shè)施

《財(cái)經(jīng)智庫(kù)》：近日，你在世界人工智能大會(huì)上發(fā)布了三個(gè)具身模型：多模態(tài)感知模型、規(guī)劃模型和感知行動(dòng)聯(lián)合大模型，以及一個(gè)囊括這三個(gè)具身模型和云計(jì)算能力的Tairos開(kāi)放平臺(tái)，該平臺(tái)可否稱之為“具身智能”的基礎(chǔ)設(shè)施？

張正友：這是騰訊首次基于機(jī)器人實(shí)驗(yàn)室七年以來(lái)的探索和認(rèn)知向社會(huì)和企業(yè)開(kāi)放。從2018年起，騰訊機(jī)器人實(shí)驗(yàn)室的研發(fā)已涵蓋了操作、運(yùn)動(dòng)、感知、智能、硬件設(shè)計(jì)等機(jī)器人核心技術(shù)棧，通過(guò)這一系列探索，已成為國(guó)內(nèi)少有的具備全棧式機(jī)器人技術(shù)能力的團(tuán)隊(duì)。我們深刻理解機(jī)器人硬件與具身智能的共生關(guān)系，軟硬件不是簡(jiǎn)單拼裝，而是從傳感器到大小腦再到執(zhí)行器的系統(tǒng)性融合創(chuàng)新。

如前所述，機(jī)器人時(shí)代需要具身智能的基礎(chǔ)設(shè)施和構(gòu)建其生態(tài)體系，騰訊想扮演這樣的角色。就目前階段而言，無(wú)論機(jī)器人的具身模型還是硬件形態(tài)，都還處于探索階段。

手機(jī)系統(tǒng)主要有安卓和IOS，IOS是蘋果的封閉系統(tǒng)，安卓則是開(kāi)放系統(tǒng)，上面有一批應(yīng)用開(kāi)發(fā)者，各種各樣的APP在安卓和IOS上開(kāi)發(fā)。目前智能機(jī)器人生態(tài)構(gòu)建還有很多不確定性，但我認(rèn)為會(huì)朝著類似于智能手機(jī)的生態(tài)發(fā)展，有一兩家閉源平臺(tái)系統(tǒng)，特斯拉走的路類似于iPhone，本體、智能、開(kāi)發(fā)應(yīng)用都是自己完成；騰訊則希望是開(kāi)放平臺(tái)一部分。

現(xiàn)如今機(jī)器人生態(tài)屬于起步階段，機(jī)器人的硬件廠家、平臺(tái)廠家，以及應(yīng)用的開(kāi)發(fā)商還沒(méi)有形成明顯的分工層次。無(wú)論是優(yōu)必選、宇樹科技、云深處，基本上都要自己去開(kāi)發(fā)上面的應(yīng)用，因?yàn)椴婚_(kāi)發(fā)應(yīng)用就沒(méi)有價(jià)值，換言之，只有找到應(yīng)用場(chǎng)景，與其結(jié)合，才能創(chuàng)造價(jià)值。企業(yè)要活下來(lái)，仍需很多科研機(jī)構(gòu)，或者專業(yè)性平臺(tái)繼續(xù)做具身智能研究。

《財(cái)經(jīng)智庫(kù)》：“具身智能”這個(gè)概念早已有之，但被大眾熟悉還是近兩三年的事，國(guó)內(nèi)很多創(chuàng)業(yè)公司涌現(xiàn)出來(lái)了，也挖了你們很多人，你們是否認(rèn)為目前構(gòu)建生態(tài)的條件已經(jīng)具備？

張正友：我們實(shí)驗(yàn)室有一些人，想去創(chuàng)業(yè)，或者被人挖走，很難避免。他們即使出去也是推動(dòng)行業(yè)的發(fā)展，會(huì)成為機(jī)器人生態(tài)的一部分。當(dāng)然還有更多同學(xué)認(rèn)可研發(fā)具身智能開(kāi)放平臺(tái)的戰(zhàn)略，選擇留下來(lái)和實(shí)驗(yàn)室一起共同成長(zhǎng)。實(shí)驗(yàn)室從零開(kāi)始，我們不斷補(bǔ)充新鮮血液，沉淀并積累技術(shù)，無(wú)論是硬件還是軟件，開(kāi)放性平臺(tái)的條件已經(jīng)具備，同時(shí)具身智能的整個(gè)生態(tài)發(fā)展也需要這樣的平臺(tái)。

《財(cái)經(jīng)智庫(kù)》：這個(gè)平臺(tái)是基于你前面強(qiáng)調(diào)的SLAP體系，將其模塊化？

張正友：確實(shí)，這個(gè)開(kāi)放平臺(tái)里有感知模塊、規(guī)劃模塊、感知行動(dòng)模塊，沉淀下來(lái)就提供給外部企業(yè)。有些企業(yè)可能缺乏感知，可以采用我們感知模塊；有些企業(yè)可能感知做得不錯(cuò)，但行動(dòng)部分不行，可以用我們感知行動(dòng)模塊，如眾擎，行動(dòng)不錯(cuò)，但規(guī)劃部分還缺乏，那就用我們的規(guī)劃模塊。將其模塊化，互相之間有聯(lián)系，大家都可以用；同時(shí)跟我們合作的企業(yè)，一起打磨模塊，構(gòu)建健康的具身智能生態(tài)環(huán)境。

目前已經(jīng)進(jìn)化形成了一個(gè)更為完整、強(qiáng)大的核心技術(shù)體系。首先是規(guī)劃大模型，相當(dāng)于人的左腦。讓機(jī)器能理解復(fù)雜目標(biāo)是什么，然后拆成一個(gè)個(gè)可執(zhí)行的策略步驟，比如陪行動(dòng)不便的老人散步，需要先去拿輪椅，把老人抱到輪椅上，然后推輪椅。其次是感知的模型，相當(dāng)于人的右腦，其作用是讓機(jī)器人真正了解自己所處的環(huán)境，如輪椅在什么地方等。其三是感知行動(dòng)聯(lián)合大模型，相當(dāng)于人的小腦。這個(gè)模型打通了從“看見(jiàn)”到“做到”過(guò)程的關(guān)鍵環(huán)節(jié)，比如在一個(gè)狹窄的過(guò)道里，推輪椅要安全避開(kāi)其他行人和障礙物。

《財(cái)經(jīng)智庫(kù)》：平臺(tái)這種層次化與模塊化的架構(gòu)，同時(shí)還可以聯(lián)合優(yōu)化，期待看到你們的平臺(tái)不同功能的大模型能夠相對(duì)獨(dú)立地發(fā)展和更新，做到高效協(xié)同。目前國(guó)際上，你覺(jué)得具身智能的發(fā)展趨勢(shì)怎樣？

張正友：這是逐步將具身智能推向現(xiàn)實(shí)世界通用應(yīng)用的關(guān)鍵路徑——因?yàn)檎嬲闹悄軝C(jī)器人，不僅要理解人類的世界，還要在這個(gè)世界里安全、穩(wěn)定且高效地完成任務(wù)。

談到國(guó)際，現(xiàn)在已有很多變化，比如波士頓動(dòng)力，主要關(guān)注運(yùn)動(dòng)能力，但它的方法比較傳統(tǒng)，處于轉(zhuǎn)型期?，F(xiàn)在有一家創(chuàng)業(yè)公司，叫Physical Intelligence，希望做一個(gè)類似于機(jī)器人的小腦，即感知行動(dòng)部分，偏軟件，自己采數(shù)據(jù)，也從不同廠家采購(gòu)一些數(shù)據(jù)。還有一家Figure，幾乎都是圍繞著感知行動(dòng)，閉源的。Physical Intelligence模型是開(kāi)源的，已經(jīng)發(fā)布了π0，公布了π0.5，目前還沒(méi)有開(kāi)源。

《財(cái)經(jīng)智庫(kù)》：阿里走出很多創(chuàng)業(yè)公司，對(duì)杭州生態(tài)發(fā)展產(chǎn)生了很大影響。期待你們能夠超越“人形熱”，構(gòu)建人機(jī)共生的更優(yōu)形態(tài)。

張正友：現(xiàn)在有些機(jī)器人公司宣稱有全棧式服務(wù)能力，我認(rèn)為是不太可能的，因?yàn)檫@需要大量的資金、人才和技術(shù)。在整個(gè)生態(tài)還沒(méi)建起來(lái)的環(huán)境下，創(chuàng)業(yè)公司又不可能像特斯拉這樣有雄厚的實(shí)力形成一個(gè)閉源系統(tǒng)，非常困難。如同眾多大模型創(chuàng)業(yè)公司，機(jī)器人企業(yè)也會(huì)經(jīng)歷Gartner曲線過(guò)程，一開(kāi)始覺(jué)得有希望，到后面會(huì)冷卻下來(lái)，經(jīng)過(guò)低谷后，才能穩(wěn)定發(fā)展。

我認(rèn)為還是應(yīng)該靠場(chǎng)景驅(qū)動(dòng)科技發(fā)展和社會(huì)進(jìn)步。中國(guó)養(yǎng)老場(chǎng)景足夠大，一片藍(lán)海，具身智能在養(yǎng)老環(huán)境里可能會(huì)最早突破。養(yǎng)老場(chǎng)景，不是說(shuō)直接進(jìn)入家庭，有可能先在養(yǎng)老院里實(shí)現(xiàn)，環(huán)境比較可控。我還是希望機(jī)器人生態(tài)能夠起來(lái)，去解決真正對(duì)社會(huì)有影響的問(wèn)題，養(yǎng)老問(wèn)題是中國(guó)社會(huì)最為嚴(yán)峻的問(wèn)題之一。

《財(cái)經(jīng)智庫(kù)》：你抓住了本質(zhì)和內(nèi)涵。

張正友：有點(diǎn)理想主義。我們的目標(biāo)就是人和機(jī)器人共生、共存、共贏，具身智能絕不意味著替代人類，而是為人類服務(wù)。機(jī)器人到最后就像一個(gè)新物種，像我們的寵物，跟人和平共處，為人服務(wù)。

《財(cái)經(jīng)智庫(kù)》：發(fā)現(xiàn)你經(jīng)?？匆恍┥窠?jīng)學(xué)、人類學(xué)、心理學(xué)的書，自己還翻譯《道德經(jīng)》，這也是更多了解人類發(fā)展，包括人的心理和感知的重要部分吧。智能機(jī)器人再往下發(fā)展，就要更多吸取人的感知和反應(yīng)，才能完成人機(jī)交互的過(guò)程？

張正友：對(duì)人的了解是基礎(chǔ)。在數(shù)據(jù)感知下，找到突破口和新范式。新范式應(yīng)該優(yōu)于大語(yǔ)言模型，大語(yǔ)言模型是直接注入數(shù)據(jù)，但人跟機(jī)器的交互，像情感的理解、意識(shí)之類的，不應(yīng)該依靠文本表達(dá)，而是在人和機(jī)器人交互過(guò)程中不斷提升能力。如犯?jìng)€(gè)錯(cuò)誤，它能夠從思辨中學(xué)習(xí)，所以ABCDEFG里，其中D就是借鑒人的認(rèn)知科學(xué)，人是從嬰兒一步一步發(fā)育起來(lái)的，機(jī)器人要提升其操作能力、體力和智力，提升其交互能力，也需要不斷發(fā)育，當(dāng)然目前還沒(méi)找到好方法，這是一個(gè)長(zhǎng)期的過(guò)程。

從另一角度看，還是有希望的。人的認(rèn)知和知識(shí)無(wú)法通過(guò)代際直接復(fù)制，只能從頭發(fā)育，但機(jī)器人所學(xué)的東西可通過(guò)數(shù)字形式直接復(fù)制到另一個(gè)機(jī)器人上，機(jī)器人之間通過(guò)信號(hào)傳遞和交互，共同發(fā)育就會(huì)非?？?。

人類再過(guò)幾百年、幾千年，變化不應(yīng)太大，壽命可能會(huì)越來(lái)越長(zhǎng)。而機(jī)器人要在人類需要的時(shí)候，為人類服務(wù)。在我的有生之年，絕對(duì)有信心，年輕人更應(yīng)有信心。