亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        讓具身智能走出神話

        2025-08-21 00:00:00張燕冬
        財(cái)經(jīng) 2025年17期
        關(guān)鍵詞:人形財(cái)經(jīng)智庫(kù)

        圖/視覺(jué)中國(guó)

        張正友,堪稱世界級(jí)科學(xué)家。無(wú)論是世界上第一個(gè)用立體視覺(jué)做導(dǎo)航的機(jī)器人,還是世界上第一個(gè)基于神經(jīng)網(wǎng)絡(luò)的人臉表情識(shí)別系統(tǒng),或被國(guó)際上認(rèn)為是一個(gè)革命性發(fā)明——在全球范圍采用的“張氏標(biāo)定法”,作為全球著名的計(jì)算機(jī)視覺(jué)、多媒體和機(jī)器人技術(shù)專家,張正友在立體視覺(jué)、三維重建、運(yùn)動(dòng)分析、圖像配準(zhǔn)、攝像機(jī)自標(biāo)定、人臉表情識(shí)別、機(jī)器人導(dǎo)航等方面都有開(kāi)創(chuàng)性的貢獻(xiàn),在無(wú)止境的科學(xué)前沿尋求突破是他始終的追求。

        如何科學(xué)看待具身智能?語(yǔ)言大模型的優(yōu)勢(shì)和弱勢(shì)是什么?人形機(jī)器人是具身智能發(fā)展的方向嗎?具身智能面臨怎樣的挑戰(zhàn)?如何構(gòu)建具身智能的基礎(chǔ)設(shè)施和更優(yōu)生態(tài)?帶著諸多問(wèn)題,《財(cái)經(jīng)智庫(kù)》走訪了騰訊首席科學(xué)家張正友。

        張正友認(rèn)為,具身智能與人形機(jī)器人不是同一概念,中國(guó)的具身智能生態(tài)還處于初級(jí)階段;而立足場(chǎng)景驅(qū)動(dòng)科技進(jìn)步并影響社會(huì)、解決其現(xiàn)實(shí)問(wèn)題才是有效路徑;促進(jìn)“身”“智”在動(dòng)態(tài)的環(huán)境中協(xié)同進(jìn)化、落地,創(chuàng)造人機(jī)互動(dòng)的更優(yōu)形態(tài)是目標(biāo)。

        多模態(tài)知識(shí)結(jié)構(gòu)的積累

        《財(cái)經(jīng)智庫(kù)》:1985年你浙大畢業(yè)后去法國(guó)留學(xué),于1990年獲計(jì)算機(jī)科學(xué)博士學(xué)位,后又分別在法國(guó)國(guó)家信息與自動(dòng)化研究所(INRIA)和日本先進(jìn)通信研究院(ATR)工作,1998年起任職于微軟研究院20年,2018年回國(guó)任騰訊首席科學(xué)家。33年的海外經(jīng)歷,哪些關(guān)節(jié)點(diǎn)對(duì)你較為重要?

        張正友:我的人生軌跡很簡(jiǎn)單。本科在浙大,第一次接觸計(jì)算機(jī),那時(shí)用的還是穿孔卡機(jī)與計(jì)算機(jī)交互,計(jì)算資源缺乏,PDP-10、PDP-11都從國(guó)外進(jìn)口,一臺(tái)計(jì)算機(jī)很大,占房間的大部分空間。今天已從大型計(jì)算機(jī)到PC普及,到互聯(lián)網(wǎng)興起和智能手機(jī)時(shí)代,再到現(xiàn)在穿戴式或陪伴設(shè)備的涌現(xiàn),都說(shuō)明計(jì)算能力從最初固定的時(shí)間、程序和地點(diǎn)慢慢變得移動(dòng)化,隨時(shí)隨地都能獲取想要的信息。

        我一開(kāi)始學(xué)的就是人工智能,早期機(jī)器人跟AI是同一領(lǐng)域,機(jī)器人、計(jì)算機(jī)視覺(jué)以及語(yǔ)音識(shí)別不區(qū)分。那時(shí)大家覺(jué)得AI可以很快實(shí)現(xiàn),但隨著時(shí)間的推移發(fā)現(xiàn)太難了,就把機(jī)器人、計(jì)算機(jī)視覺(jué)、語(yǔ)音識(shí)別和自然語(yǔ)言處理從人工智能里獨(dú)立出來(lái),而人工智能則聚焦于規(guī)則或案例的推理和決策,希望各個(gè)擊破。分久必合,經(jīng)過(guò)40多年,各個(gè)領(lǐng)域都有巨大進(jìn)展,人工智能和機(jī)器人開(kāi)始融合了。我讀碩士時(shí)做語(yǔ)音識(shí)別,先將語(yǔ)音信號(hào)轉(zhuǎn)換成頻譜圖,搞清每個(gè)音素在頻譜里的特征及變化,然后用基于規(guī)則的人工智能系統(tǒng)來(lái)識(shí)別音素,形成單詞句子。語(yǔ)音太簡(jiǎn)單了,是一維信號(hào),加上頻譜以后變成二維,我便開(kāi)始做三維計(jì)算機(jī)視覺(jué),直接用于機(jī)器人。

        《財(cái)經(jīng)智庫(kù)》:那時(shí)就為機(jī)器人導(dǎo)航?

        張正友:對(duì)。那時(shí)的機(jī)器人是輪式的,上面裝三個(gè)攝像頭,是世界上第一個(gè)用立體視覺(jué)做導(dǎo)航的機(jī)器人。我參與了歐洲共同體項(xiàng)目以及火星機(jī)器人的研發(fā),發(fā)明了ICP算法(迭代最近點(diǎn)算法,一種點(diǎn)云或曲面對(duì)準(zhǔn)方法)。這是一種基礎(chǔ)算法,以3D建模為火星機(jī)器人做導(dǎo)航,這套算法至今還在自動(dòng)駕駛和場(chǎng)景重建等領(lǐng)域使用。

        后來(lái)我轉(zhuǎn)向純粹的3D視覺(jué)、攝像機(jī)標(biāo)定研究。當(dāng)時(shí)利用學(xué)術(shù)休假去日本,研發(fā)了世界上第一個(gè)基于神經(jīng)網(wǎng)絡(luò)的人臉表情識(shí)別系統(tǒng)。1998年到微軟研究院,繼續(xù)做人臉表情識(shí)別,用了更多數(shù)據(jù)和深度神經(jīng)網(wǎng)絡(luò),做成云服務(wù)。在微軟,研發(fā)了很多東西,包括現(xiàn)在全世界都在使用的“張氏標(biāo)定法”,這是計(jì)算機(jī)3D視覺(jué)領(lǐng)域中一種經(jīng)典相機(jī)標(biāo)定方法。

        嘗試新方法成為我持續(xù)的動(dòng)力。在法國(guó)做攝像機(jī)標(biāo)定的方法比較復(fù)雜,到了微軟后我就想開(kāi)啟3D視覺(jué)新研究,“張氏標(biāo)定法”便出現(xiàn)了,其好處在于簡(jiǎn)易,只要打印一個(gè)2D棋盤格就能得到攝像機(jī)參數(shù)。這在國(guó)際上被認(rèn)為是一個(gè)革命性的發(fā)明,很快在全球范圍采用。

        《財(cái)經(jīng)智庫(kù)》:這種方法好像也廣泛應(yīng)用于機(jī)器人視覺(jué)、三維重建、SLAM等領(lǐng)域,將三維視覺(jué)與人臉建模和數(shù)字人結(jié)合?

        張正友:確實(shí),數(shù)字人研究起始于微軟。那時(shí)電腦還沒(méi)有攝像頭,USB攝像頭剛出來(lái),分辨率很低,花了幾年時(shí)間研發(fā),將數(shù)字人技術(shù)用于微軟的Xbox。發(fā)布時(shí),比爾·蓋茨用我的小樣做了演講,宣布微軟進(jìn)入Xbox時(shí)代。

        《財(cái)經(jīng)智庫(kù)》:這些技術(shù)在學(xué)科上如何劃分?

        張正友:介于視覺(jué)和圖形學(xué)。我們?cè)谑澜缟献顧?quán)威的刊物和會(huì)議上發(fā)表文章,例如CVPR(計(jì)算機(jī)視覺(jué)、模式識(shí)別領(lǐng)域規(guī)模最大、投稿量最多的頂級(jí)會(huì)議之一)、ICCV(視覺(jué)領(lǐng)域的旗艦會(huì)議,側(cè)重基礎(chǔ)理論與跨學(xué)科應(yīng)用)、SIGGRAPH(計(jì)算機(jī)圖形與交互技術(shù)領(lǐng)域的頂會(huì))。我是一個(gè)不滿足現(xiàn)狀的人,先做計(jì)算機(jī)視覺(jué),后做神經(jīng)網(wǎng)絡(luò),然后到美國(guó)從計(jì)算機(jī)視覺(jué)轉(zhuǎn)到語(yǔ)音識(shí)別再到多模態(tài)技術(shù)等。在語(yǔ)言識(shí)別領(lǐng)域還發(fā)明了“骨導(dǎo)麥克風(fēng)”,即通過(guò)骨傳導(dǎo)麥克風(fēng),即使在很嘈雜的地方也可以將自己講話的聲音準(zhǔn)確識(shí)別出來(lái)。

        《財(cái)經(jīng)智庫(kù)》:你認(rèn)為僅了解計(jì)算機(jī)視覺(jué)還不夠?

        張正友:對(duì)我來(lái)講,最終目標(biāo)是人和機(jī)器人的交互,視覺(jué)只是一個(gè)模態(tài),顯然是不夠的,那就必須拓展自己,所以轉(zhuǎn)向語(yǔ)音識(shí)別。但一般人不會(huì)從一個(gè)領(lǐng)域突然消失,脫離多年積累進(jìn)入新領(lǐng)域,或者說(shuō),丟下已經(jīng)功成名就的領(lǐng)域,開(kāi)始一個(gè)陌生領(lǐng)域的開(kāi)拓。好在微軟研究院氛圍寬松,領(lǐng)導(dǎo)支持我轉(zhuǎn)型。我花了七年時(shí)間做語(yǔ)音處理和語(yǔ)音識(shí)別。

        從計(jì)算機(jī)視覺(jué),到語(yǔ)音處理和語(yǔ)音識(shí)別,再結(jié)合所有,就是現(xiàn)在多模態(tài)的意思,其中一個(gè)應(yīng)用就是視頻會(huì)議。

        《財(cái)經(jīng)智庫(kù)》:視頻會(huì)議最早從微軟出來(lái)?

        張正友:視頻會(huì)議微軟做得很早。像Skype,以前叫Office Communicator,現(xiàn)在叫Teams。我做的視頻會(huì)議設(shè)備叫Roundtable,360度視頻加麥克風(fēng)陣列。一個(gè)會(huì)議室只有語(yǔ)音不行,因?yàn)椴恢l(shuí)在講話;結(jié)合Roundtable設(shè)備后,就可看到講話人以及清晰的語(yǔ)音。語(yǔ)音和視頻結(jié)合是多模態(tài)的起始,很重要,后來(lái)成為了產(chǎn)品。在微軟,我基本每年向蓋茨匯報(bào)兩至三次,記得最后一次向蓋茨匯報(bào)時(shí),他跳起來(lái)說(shuō),“這就是我想要的東西?!?/p>

        《財(cái)經(jīng)智庫(kù)》:剛才你提到微軟也重視“Paper”?

        張正友:蓋茨是少有的真正具有胸懷的人。微軟研究院成立于1991年,那時(shí)人工智能雖有概念,但并未發(fā)展和應(yīng)用,研究院關(guān)注的就是人工智能系統(tǒng)研究,從某種程度上說(shuō),蓋茨預(yù)見(jiàn)到了計(jì)算的未來(lái),他強(qiáng)調(diào)研究技術(shù),讓計(jì)算機(jī)能看、能說(shuō)、能聽(tīng)、能思考。

        微軟研究院不以商業(yè)為目的,旨在提升整個(gè)社會(huì)人工智能的能力,并推進(jìn)技術(shù)的進(jìn)步。但研發(fā)做得如何,需要權(quán)威同行認(rèn)可,否則得不到驗(yàn)證和衡量。這是微軟鼓勵(lì)發(fā)表文章的原因。我加入微軟時(shí),計(jì)算機(jī)視覺(jué)并未在微軟的產(chǎn)品里運(yùn)用,后來(lái)才出現(xiàn)了產(chǎn)品化的視頻會(huì)議和Xbox。

        《財(cái)經(jīng)智庫(kù)》:也就是說(shuō),盡管沒(méi)有盈利和產(chǎn)品要求,但隨著研發(fā)的深入,自然而然出現(xiàn)了產(chǎn)品。

        張正友:對(duì)。從商業(yè)角度,養(yǎng)一批研發(fā)人員,不一定馬上有結(jié)果,離產(chǎn)品很遠(yuǎn);直接購(gòu)買外面的技術(shù)成本可能更低。兩種路線由首席執(zhí)行官或創(chuàng)始人定奪,而對(duì)蓋茨來(lái)說(shuō),雖然從商業(yè)角度不值得,但推動(dòng)整個(gè)社會(huì)的發(fā)展同樣重要。

        從一個(gè)領(lǐng)域跨入另一領(lǐng)域,雖屬同一AI大領(lǐng)域,但里面細(xì)分領(lǐng)域很多,需要不同領(lǐng)域的知識(shí)。之所以能夠跨界,是因?yàn)槲④浹芯吭簩捤傻沫h(huán)境和充足的經(jīng)費(fèi)。只要你有激情,就讓你嘗試。這是微軟鼓勵(lì)創(chuàng)新的優(yōu)勢(shì)。

        《財(cái)經(jīng)智庫(kù)》:在AI領(lǐng)域,視覺(jué)和語(yǔ)音結(jié)合,處于大領(lǐng)域的什么位置?

        張正友:現(xiàn)在的大模型,已從語(yǔ)言模型到多模態(tài)了,即把語(yǔ)音、視覺(jué)、文本結(jié)合。人機(jī)交互本質(zhì)上就是多模態(tài)。前面說(shuō)過(guò),最初機(jī)器人和視覺(jué)、語(yǔ)音在人工智能領(lǐng)域合為一體,即語(yǔ)言、眼睛、耳朵、聲音、動(dòng)作為一體;后來(lái)發(fā)現(xiàn)每個(gè)細(xì)分領(lǐng)域都很復(fù)雜,漸漸地計(jì)算機(jī)視覺(jué)、語(yǔ)音、自然語(yǔ)言處理等都成為獨(dú)立的研究領(lǐng)域。現(xiàn)在各領(lǐng)域開(kāi)始融合,像NeurIPS(一個(gè)跨學(xué)科的神經(jīng)信息處理系統(tǒng)會(huì)議)包括視覺(jué)、語(yǔ)音、文本,機(jī)器人也慢慢進(jìn)入了。本質(zhì)還是多模態(tài)情境。

        《財(cái)經(jīng)智庫(kù)》:你如何評(píng)估自己國(guó)外30多年,在技術(shù)、學(xué)術(shù)上所奠定的基礎(chǔ),以及一些認(rèn)知方法論?

        張正友:我對(duì)人機(jī)交互始終有興趣,很早就開(kāi)始關(guān)注了。從計(jì)算機(jī)視覺(jué)到人臉識(shí)別、語(yǔ)音,再到視覺(jué)和語(yǔ)音融合,再到機(jī)器人,有些研究屬認(rèn)知科學(xué)和神經(jīng)科學(xué)。在此過(guò)程中不斷開(kāi)拓,而AI機(jī)器人是我一以貫之的傾注,其本質(zhì)是交叉科學(xué),如計(jì)算機(jī)視覺(jué)已與許多領(lǐng)域產(chǎn)生交叉,為理解圖像需要結(jié)合語(yǔ)言進(jìn)行處理;深度學(xué)習(xí)也不僅是大數(shù)據(jù)游戲,而是如何將其與幾何概念和物理信息結(jié)合。未來(lái),各學(xué)科會(huì)以更加多樣化的形式融合。

        《財(cái)經(jīng)智庫(kù)》:能否這樣理解,你作為全球著名的計(jì)算機(jī)視覺(jué)、多模態(tài)和機(jī)器人技術(shù)專家,在AI方面,尤其在立體視覺(jué)、三維重建、運(yùn)動(dòng)分析、圖像配套、攝像機(jī)自標(biāo)定、人臉識(shí)別、語(yǔ)音處理和機(jī)器人導(dǎo)航等方面都有開(kāi)創(chuàng)性的貢獻(xiàn)。你曾經(jīng)提出過(guò)一個(gè)“釘子理論”,在如今邊界模糊的創(chuàng)新過(guò)程中,如何更好理解該理論?

        張正友:融合就更需要“釘子理論”,即便你的思考再宏大,也必須在某個(gè)領(lǐng)域鉆研下去,然后再融合。橫表示知識(shí)的寬度,豎是技術(shù)的深度。假如只有寬度,只知皮毛,那么這顆釘子打在墻上很容易就會(huì)被拔下或替代。以我個(gè)人的經(jīng)歷,要成為一顆扎得牢的“釘子”,先要往深里鉆,到一定程度再擴(kuò)展自己的“廣度”。如果對(duì)某個(gè)領(lǐng)域理解不夠深,很難找到與另一個(gè)領(lǐng)域的結(jié)合點(diǎn)。

        《財(cái)經(jīng)智庫(kù)》:在系統(tǒng)性思維的框架下理解“釘子理論”,專注“點(diǎn)”,但不失于“系統(tǒng)”,也就是中國(guó)哲學(xué)中的Paradox。

        張正友:點(diǎn)面之間的關(guān)系至關(guān)重要,我會(huì)考慮如何將系統(tǒng)性思維與場(chǎng)景驅(qū)動(dòng)相結(jié)合,即在某一場(chǎng)景下去思考哪些問(wèn)題需要解決,關(guān)鍵技術(shù)究竟是什么,如何突破?如此可以帶動(dòng)一批應(yīng)用,像“張氏標(biāo)定法”和火星機(jī)器人定位技術(shù)等,都是在如此思維中產(chǎn)生的。但之后又需要用抽象的思維描述技術(shù),在場(chǎng)景中概括出理論,并使之適用于其他領(lǐng)域。在場(chǎng)景中找技術(shù)突破口非常重要,這也是我現(xiàn)在用“養(yǎng)老”場(chǎng)景去牽引機(jī)器人發(fā)展的思路。

        張正友。

        語(yǔ)言大模型的優(yōu)勢(shì)與弱勢(shì)

        《財(cái)經(jīng)智庫(kù)》:你想用場(chǎng)景驅(qū)動(dòng)技術(shù)并推動(dòng)社會(huì)變化,里面蘊(yùn)含著對(duì)科學(xué)和技術(shù)的認(rèn)知與追求,以及長(zhǎng)期在國(guó)外形成的思維方式和方法論。33年時(shí)間可謂長(zhǎng)矣!回國(guó)后,無(wú)論是你提出的虛實(shí)集成世界,還是ABCDEFG,包括層次化的控制研發(fā)智能機(jī)器人,或SLAP范式……其邏輯關(guān)聯(lián)是什么?

        張正友:于我而言,技術(shù)是第一位的。我要全身心投入做基礎(chǔ)研究,研判技術(shù)發(fā)展方向,做出突破性技術(shù),持續(xù)保持在世界前沿。國(guó)內(nèi)也講重視基礎(chǔ)研究,但往往更多是應(yīng)用基礎(chǔ)研究,有太強(qiáng)的目的導(dǎo)向?,F(xiàn)在講“卡脖子”,其實(shí)“卡脖子”技術(shù)不是基礎(chǔ)研究。

        《財(cái)經(jīng)智庫(kù)》:“卡脖子”不屬于基礎(chǔ)研究范疇,是產(chǎn)品。

        張正友:即使這個(gè)“卡脖子”解了,新的“卡脖子”又來(lái)了,因?yàn)闆](méi)有從源頭去思考如何解決這些問(wèn)題。中國(guó)改革開(kāi)放40多年發(fā)展很快,追趕也快,有很多創(chuàng)新技術(shù),但不少原創(chuàng)性核心技術(shù)還是被國(guó)外掌握。

        為什么選擇了騰訊?馬化騰2017年決定要做機(jī)器人實(shí)驗(yàn)室,我2018年3月回來(lái)。馬化騰有預(yù)見(jiàn),覺(jué)得機(jī)器人是一個(gè)發(fā)展方向。從技術(shù)領(lǐng)域來(lái)講,我覺(jué)得自己很合適,我對(duì)機(jī)器人情有獨(dú)鐘,正好是個(gè)機(jī)會(huì);同時(shí),騰訊企業(yè)文化跟我個(gè)人做事風(fēng)格比較匹配。更為重要的是,中國(guó)社會(huì)老齡化問(wèn)題嚴(yán)重,而機(jī)器人最有可能突破的場(chǎng)景就是養(yǎng)老領(lǐng)域。

        《財(cái)經(jīng)智庫(kù)》:在真實(shí)世界里,很難看到一個(gè)真正意義上的人機(jī)交互的機(jī)器人,大語(yǔ)言模型的爆發(fā)能讓人類所期待的機(jī)器人很快成為現(xiàn)實(shí)?

        張正友:機(jī)器人從自動(dòng)化進(jìn)階到智能化,需要實(shí)現(xiàn)反應(yīng)式自主和有意識(shí)自主去應(yīng)對(duì)變化的環(huán)境,需要一種新的控制范式,類似于人類的認(rèn)知模式。人的思考可分為兩個(gè)系統(tǒng),一是自動(dòng)的、快速的、直覺(jué)的系統(tǒng);二是需要推理、復(fù)雜計(jì)算等費(fèi)腦力的系統(tǒng)。完善的機(jī)器人系統(tǒng)也需要不同層級(jí)來(lái)處理不同級(jí)別的決策,或理解不同層級(jí)的感知信息。我相信,AI和人的未來(lái)將會(huì)是多模態(tài)的交互方式,而且AI要能主動(dòng)地感知周圍的環(huán)境。目前大模型還不能稱之為完整的世界模型,多模態(tài)大模型肯定是通往AGI的必經(jīng)之路,但還有很多工作要做,而且很可能不是現(xiàn)在的多模態(tài)大模型這樣的架構(gòu)。

        《財(cái)經(jīng)智庫(kù)》:你剛才闡述的兩種系統(tǒng)思維,是基于諾獎(jiǎng)得主Daniel Kahneman的一本書《Thinking, Fast and Slow》?

        張正友:是的,事實(shí)上,人腦有95%的時(shí)間都在系統(tǒng)1,只有很少和復(fù)雜的任務(wù)時(shí)才需要調(diào)度系統(tǒng)2,這是人腦能夠如此高效解決問(wèn)題的原因,連一個(gè)GPU消耗的能量都不需要。

        《財(cái)經(jīng)智庫(kù)》:基于此,你提出了ABCDEFG的目標(biāo)方向?

        張正友:智能機(jī)器人的ABCDEFG分別對(duì)應(yīng)的是,A是AI,機(jī)器人必須能看、能說(shuō)、能聽(tīng)、能思考;B是機(jī)器人本體,要探索怎樣的本體最適合人的環(huán)境,最簡(jiǎn)單的想法就是人形機(jī)器人,但我認(rèn)為還可能有更好的形態(tài);C是精準(zhǔn)控制;D是發(fā)育學(xué)習(xí),因?yàn)闄C(jī)器人要在跟人和環(huán)境的交互中不斷演進(jìn),要在失敗中學(xué)習(xí)提升自己的能力,就像一個(gè)小孩的發(fā)育成長(zhǎng);E就是EQ,機(jī)器人在交互中必須要理解人的情感,同時(shí)要把自己理解的東西呈現(xiàn)給人,這是雙向情感理解,擬人化;F是靈巧操控,要掌握包括使用工具,替人類完成物理任務(wù),否則機(jī)器人只是聊天工具;G是守護(hù)天使,機(jī)器人不僅僅是單獨(dú)的本體,還需要和部署在環(huán)境里的智能傳感器和其他機(jī)器人合作,通過(guò)云跟世界互聯(lián),使得機(jī)器人成為人類的保護(hù)天使。

        《財(cái)經(jīng)智庫(kù)》:這個(gè)目標(biāo)與方向是否太理想化?使機(jī)器人像人,能最終落地嗎?

        張正友:完善的機(jī)器人系統(tǒng)需要借鑒人類的思維方式。講到自主,有兩類:一是反應(yīng)式自主,比如走路時(shí)絆了一跤,可以很快恢復(fù)平衡,或是抓的杯子打滑了要捏緊一點(diǎn);二是有自主意識(shí),例如規(guī)劃如何開(kāi)門或下樓。為實(shí)現(xiàn)這個(gè)自主,傳統(tǒng)方式通過(guò)感知,感知環(huán)境后做一個(gè)規(guī)劃,規(guī)劃后再行動(dòng),行動(dòng)后再感知,其致命問(wèn)題就是它不可能解決反應(yīng)式自主,因?yàn)椴豢赡苣敲纯?,所以我提出了一個(gè)“SLAP”范式。

        S是感知,L是學(xué)習(xí),A是行動(dòng),P是計(jì)劃。其中,學(xué)習(xí)很重要,學(xué)習(xí)可以滲透到感知、行動(dòng)和計(jì)劃;還有就是感知和行動(dòng)要緊密連接。只有這樣,才能感知到突發(fā)事件,如摔一跤可馬上恢復(fù)平衡,同時(shí)對(duì)常規(guī)行動(dòng)不需要進(jìn)入上一層計(jì)劃。與人的認(rèn)知相比較,就是剛才所說(shuō)的系統(tǒng)1和系統(tǒng)2,反應(yīng)式自主對(duì)應(yīng)了系統(tǒng)1;而計(jì)劃邏輯思維,也就是有意識(shí)的自主就對(duì)應(yīng)了系統(tǒng)2。

        《財(cái)經(jīng)智庫(kù)》:明白了,你是希望通過(guò)機(jī)器的訓(xùn)練和交互,將較慢的思維,即需要花費(fèi)精力的系統(tǒng)2也像靈活、快捷的系統(tǒng)1一樣,做出快速反應(yīng)。

        張正友:目前還很難做到。雖然還沒(méi)有一個(gè)明確的研究路徑,但大家都投入到大語(yǔ)言模型,因?yàn)檫@條路看起來(lái)走得通,而且有效果,把所有人類的數(shù)據(jù)整合到一個(gè)大模型里,能夠產(chǎn)生出一定的“智能”。兩年前我說(shuō)大語(yǔ)言模型還不夠,只是系統(tǒng)1,需要考慮更上一層的系統(tǒng)2。那時(shí),無(wú)論是ChatGPT或其他大語(yǔ)言模型,只要給它一堆數(shù)據(jù),馬上可以預(yù)測(cè),不論問(wèn)題難易幾乎需要同樣的時(shí)間回答,但實(shí)際問(wèn)題的解決不是這樣的。容易的很快可解決,復(fù)雜問(wèn)題則要上升到一定高度,大家都在思考采用何種新的研究方式。

        《財(cái)經(jīng)智庫(kù)》:OpenAI大模型ChatGPT-o1出來(lái)之后,是否有希望走通這條路?

        張正友:OpenAI在2024年9月推出ChatGPT-o1,有推理了,但它未公布具體怎么做。梁文鋒的DeepSeek今年1月也做出來(lái)了,可以看出大家開(kāi)始往系統(tǒng)2發(fā)力了。

        這是革命性的變化,能理解人類了,這是我對(duì)DeepSeek的看法。盡管OpenAI先起步,但DeepSeek把深度思考復(fù)制出來(lái)了,并且開(kāi)源,同時(shí)計(jì)算成本大大降低,讓一般人用得起,這是非常重要的創(chuàng)新。美國(guó)也開(kāi)始講,OpenAI需要開(kāi)源一些東西,最近也有一些開(kāi)源模型推出。

        開(kāi)源和閉源是共生的,就像智能手機(jī),既有安卓也有蘋果;大語(yǔ)言模型閉源開(kāi)源都存在,閉源可能做的更極致一點(diǎn),也可以借鑒一些開(kāi)源的東西;而開(kāi)源讓對(duì)技術(shù)有追求的人不斷創(chuàng)新,成本低,迭代更快。

        到了這個(gè)層次就需要看一些認(rèn)知科學(xué)的內(nèi)容。例如一個(gè)需要思考多次才能產(chǎn)生的結(jié)果,思考多了就可視為直覺(jué),相當(dāng)于從系統(tǒng)2變成系統(tǒng)1了。這就像人類的跳水,最初需要去思考去鍛煉,將水花壓小,是系統(tǒng)2,前面跳幾次效果不佳,慢慢越來(lái)越好,成為肌肉記憶,邏輯思維變成直覺(jué),就變成系統(tǒng)1。機(jī)器人也應(yīng)該如此。

        “我們的目標(biāo)就是人和機(jī)器人共生、共存、共贏,具身智能絕不意味著替代人類,而是為人類服務(wù)。”

        具身智能一定是人形嗎?

        《財(cái)經(jīng)智庫(kù)》:具身智能越來(lái)越成為人們的關(guān)注。我們?nèi)ミ^(guò)杭州的宇樹科技、云深處等企業(yè),這次《財(cái)經(jīng)智庫(kù)》深圳調(diào)研又去了優(yōu)必選、眾擎、越疆等。具身智能一定要人形嗎?

        張正友:具身智能與人形機(jī)器人是兩個(gè)不同的概念。機(jī)器人Robot,其含義是一個(gè)強(qiáng)制的勞動(dòng)力,即苦力。IEEE定義Robot就是能感知的自主機(jī)器,從來(lái)沒(méi)說(shuō)過(guò)要像人形,人形在英語(yǔ)里叫Humanoid。但當(dāng)中文把Robot翻譯成“機(jī)器人”后,馬上就帶著一層含義了,如果翻譯成自主機(jī)器就不會(huì)如此。但這一翻譯已經(jīng)注入了人們對(duì)機(jī)器人的情感,好像機(jī)器人不像人就不是機(jī)器人。

        《財(cái)經(jīng)智庫(kù)》:1950年,圖靈在《計(jì)算機(jī)器與智能》中提出“機(jī)器能否思考”的哲學(xué)命題,預(yù)示了智能體通過(guò)物理交互實(shí)現(xiàn)認(rèn)知的可能性,但受限于當(dāng)時(shí)的技術(shù),未能取得突破;后來(lái)布魯克斯提出“包容式架構(gòu)”,主張智能應(yīng)由身體與環(huán)境的實(shí)時(shí)交互自然涌現(xiàn),成為具身智能的奠基性理念。

        張正友:具身智能相對(duì)非具身而言,像ChatGPT是沒(méi)有身體的智能。于我而言,具身智能體就是一個(gè)智能的機(jī)器人,或者一個(gè)智能的數(shù)字人。但智能是否需要具身是有爭(zhēng)議的,這個(gè)爭(zhēng)議主要圍繞認(rèn)知科學(xué)展開(kāi)。一部分人認(rèn)為許多認(rèn)知特性是需要生物體的整體特性來(lái)塑造生物體的智能;也有一部分人認(rèn)為智能不需要身體,因?yàn)橹饕媾R的是信息處理、問(wèn)題解決和決策治理等任務(wù),這些都可以通過(guò)軟件和算法實(shí)現(xiàn)。具身智能認(rèn)為“身”和“智”要圓融統(tǒng)一,與環(huán)境的交互中涌現(xiàn)出智能。

        剛才提到圖靈1950年的文章,即探索如何實(shí)現(xiàn)機(jī)器智能,可以看到,有一部分人認(rèn)為可以用一些非常抽象的行為,比如說(shuō)下棋來(lái)實(shí)現(xiàn)智能;還有一部分人認(rèn)為,機(jī)器最好要有一些器官,比如麥克風(fēng)和話筒來(lái)幫助我們更好地實(shí)現(xiàn)機(jī)器智能。但圖靈自己也說(shuō)不清楚哪一類更好。OpenAI最早也是買了上百臺(tái)機(jī)械臂,希望直接用機(jī)器人來(lái)實(shí)現(xiàn)AGI,經(jīng)過(guò)一年多的努力發(fā)現(xiàn)這條路走不通,主要是機(jī)器人操作的數(shù)據(jù)不夠多,所以放棄了,把精力集中在基于文本的大模型,最后成功開(kāi)發(fā)了ChatGPT。

        《財(cái)經(jīng)智庫(kù)》:近幾年我們調(diào)研了一些機(jī)器人企業(yè),像物流行業(yè),自動(dòng)化就行,卻偏偏用人形機(jī)器人,其實(shí),機(jī)械臂的功能足矣,沒(méi)必要像人吧?

        張正友:我平時(shí)很少講這一觀點(diǎn)。人形不是最終目標(biāo)。從某種角度講,人形是以人作為參考,相對(duì)容易。但如何控制如此復(fù)雜的系統(tǒng),才是難點(diǎn)。從技術(shù)的發(fā)展來(lái)講,人形不一定是最佳的。以汽車為例,交通工具的進(jìn)化如果僅從仿生角度來(lái)做,仿生出一個(gè)馬車來(lái),效率遠(yuǎn)遠(yuǎn)比不上一輛汽車。同樣,從現(xiàn)在角度看,人形機(jī)器人對(duì)整個(gè)社會(huì)的發(fā)展不一定是最佳形式,因?yàn)楝F(xiàn)在人居環(huán)境大部分是平地,足式在復(fù)雜地面比較有用。我們實(shí)驗(yàn)室設(shè)計(jì)的“Max狗”和“小五”,都是復(fù)合的,在高低不平的路面上可以用足式,比如上樓梯,但到平地后切換成輪式的。這只是一個(gè)例子,也是我們?yōu)槭裁床蛔鋈诵螜C(jī)器人的一些原因。

        《財(cái)經(jīng)智庫(kù)》:宇樹的人形機(jī)器人表現(xiàn)力強(qiáng),優(yōu)必選也是這樣,但它真要像人一樣感知,或許還有很長(zhǎng)的路要走。你理想的機(jī)器人是什么樣的?

        張正友:理想狀態(tài)的AI機(jī)器人,還沒(méi)想好,正在探索。比如輪足,是要根據(jù)不同的場(chǎng)景需求而設(shè)定的。從技術(shù)發(fā)展曲線來(lái)看,相對(duì)人類的進(jìn)化速度,技術(shù)是呈指數(shù)級(jí)上升的。人類的雙足是在幾百萬(wàn)年間讓人類能夠在復(fù)雜環(huán)境中生存下來(lái)而進(jìn)化形成的形態(tài),但今天的人居環(huán)境基本都是平地,沒(méi)有必要使用操作效率低下的雙足。為什么我們實(shí)驗(yàn)室去做Max?這個(gè)機(jī)器狗是既有輪子又有腿,不是為仿生,而是去探索有沒(méi)有更好的形態(tài)能夠高效地在人居環(huán)境中行動(dòng),更好地為人類服務(wù)。

        再例如,人類是不可能進(jìn)化出屏幕的,但機(jī)器人配備了屏幕,就可以讓其與人的交互效率提升3倍。為什么不把現(xiàn)在的技術(shù)用到機(jī)器人上面?過(guò)早將終極形態(tài)鎖定在“人形”上,可能會(huì)限制行業(yè)的想象力。

        《財(cái)經(jīng)智庫(kù)》:在國(guó)內(nèi),人們總把具身智能與人形機(jī)器人等同起來(lái)。近幾年,國(guó)際上如特斯拉發(fā)布擎天柱,機(jī)器人的發(fā)展轉(zhuǎn)向人形機(jī)器人與通用機(jī)器人;2023年谷歌發(fā)布RT-1,具身智能浪潮撲來(lái);再加上年初杭州“六小龍”出現(xiàn),人形機(jī)器人堪似方向。

        張正友:中國(guó)為什么這么多人做人形機(jī)器人,都是被馬斯克誤導(dǎo)了。馬斯克確實(shí)要做人形機(jī)器人,大家跟隨他,卻沒(méi)有認(rèn)真思考人形機(jī)器人用來(lái)做什么?我的猜測(cè),馬斯克做人形機(jī)器人的目的不是為了地球,而是為了他的火星計(jì)劃,人形機(jī)器人更適合火星復(fù)雜的地面情況。就如其火箭計(jì)劃,短期內(nèi)難以直接去火星,那么就先通過(guò)一些發(fā)射衛(wèi)星產(chǎn)生經(jīng)濟(jì)價(jià)值,在此過(guò)程中不斷提升火箭技術(shù)。馬斯克的人形機(jī)器人亦如此,通過(guò)車間作業(yè)不斷提升人形機(jī)器人的能力。如果僅僅為了工廠所用,就不需要做人形。

        而我們要從本質(zhì)上去思考,到底機(jī)器人在人居環(huán)境里是什么樣子。

        《財(cái)經(jīng)智庫(kù)》:七年來(lái)你們一直在對(duì)機(jī)器人的前沿進(jìn)行探索。從2018年平衡自行車的動(dòng)態(tài)控制,到2021年Max實(shí)現(xiàn)腿輪一體化的四足機(jī)器狗,以及2023年靈巧手操作和栩栩如生的運(yùn)動(dòng)步態(tài),再到去年下半年的養(yǎng)老機(jī)器人原型“小五”……從未提過(guò)以商業(yè)化為目的。

        張正友:“小五”機(jī)器人是騰訊實(shí)驗(yàn)室第五代完全自研的機(jī)器人,這也是其名字由來(lái)。這個(gè)機(jī)器人前面安裝腳掌,走樓梯時(shí)變成足式,到平地時(shí)切換成輪子。這樣設(shè)計(jì)的考慮是為了穩(wěn)定,這是在養(yǎng)老環(huán)境里的關(guān)鍵。

        我們?cè)?jīng)考慮過(guò)輪椅跟機(jī)器人結(jié)合,可以變形能折疊,或者智能輪椅加上一些感知,可自動(dòng)避障和行走,但輪椅的功能非常專業(yè)且屬醫(yī)療器械,需要批準(zhǔn)。因此我們還是希望做通用的智能機(jī)器人完成多樣任務(wù),機(jī)器人可抱老人,推老人到某些地方;可以送藥、按摩、對(duì)話;假如能力強(qiáng),還可以幫人打針等。當(dāng)然,我們實(shí)驗(yàn)室的戰(zhàn)略方向始終是具身智能機(jī)器人前沿技術(shù)探索,盡可能做到實(shí)用,并讓技術(shù)快速迭代,商業(yè)化需要不同的技能。

        具身智能面臨的挑戰(zhàn)

        《財(cái)經(jīng)智庫(kù)》:鑒于人形機(jī)器人的表演,在老百姓眼里,似乎人形機(jī)器人很快就會(huì)進(jìn)入家庭,替代人了。

        張正友:有人認(rèn)為,大模型已經(jīng)出現(xiàn)了突破,放到機(jī)器人上馬上就能夠?qū)崿F(xiàn)自主,實(shí)際上不那么簡(jiǎn)單。打個(gè)比喻,相當(dāng)于20歲大腦放在3歲孩子身上,機(jī)器人雖然擁有一定的行動(dòng)或移動(dòng)能力,但操作能力較弱,感知也難以進(jìn)化。真正的具身智能要能自主學(xué)習(xí)和處理問(wèn)題,對(duì)環(huán)境變化和不確定性能夠自動(dòng)調(diào)整和規(guī)劃,這是我們認(rèn)為具身智能能夠通往AGI或者打造通用智能機(jī)器人非常重要的環(huán)節(jié)。

        只有將具身智能講清楚,才能搞清楚我們處于怎樣的階段,面臨怎樣的挑戰(zhàn)。具體來(lái)說(shuō),具身智能是由物理載體的智能體(智能機(jī)器人)在一系列交互中,通過(guò)感知、控制和自主學(xué)習(xí)來(lái)積累知識(shí)和技能,形成智能體影響物理世界的能力。這和ChatGPT不同,具身智能通過(guò)類人的感知方式(視覺(jué)、聽(tīng)覺(jué)、語(yǔ)言、觸覺(jué))來(lái)獲取知識(shí),并抽象成為一種表達(dá)語(yǔ)義來(lái)理解世界并做出行動(dòng),與外界交互。這里涉及到多個(gè)學(xué)科的融合,包括機(jī)械工程自動(dòng)化、系統(tǒng)控制優(yōu)化、認(rèn)知科學(xué)、神經(jīng)科學(xué)之類的,它是所有領(lǐng)域發(fā)展到一定程度后能夠涌現(xiàn)出來(lái)的一種能力。

        《財(cái)經(jīng)智庫(kù)》:這也是人機(jī)互動(dòng)的核心吧。我曾經(jīng)請(qǐng)教過(guò)“云深處”創(chuàng)始人、浙大教授朱秋國(guó)如何看待波士頓動(dòng)力。他說(shuō),波士頓動(dòng)力的優(yōu)勢(shì)還在于Action,而不是感知。

        張正友:是的,具身智能面臨諸多挑戰(zhàn)。首先,復(fù)雜的感知能力,包括視覺(jué)、聽(tīng)覺(jué)與觸覺(jué),現(xiàn)在大模型里只包括了視覺(jué)、聽(tīng)覺(jué),還沒(méi)有觸覺(jué)。觸覺(jué)非常重要,是機(jī)器人復(fù)雜感知能力的一部分,具備觸覺(jué)才能感知和理解周圍不可預(yù)測(cè)的非結(jié)構(gòu)化的環(huán)境和物體;其次,強(qiáng)大的執(zhí)行能力,包括移動(dòng)、抓取、操作,以便能夠與環(huán)境和物體進(jìn)行交互;其三,學(xué)習(xí)能力,能夠從經(jīng)驗(yàn)和數(shù)據(jù)中學(xué)習(xí)與適應(yīng),以更好地理解和應(yīng)對(duì)環(huán)境的變化;其四,自適應(yīng)能力,能自主調(diào)整自己的行動(dòng)和策略,以便應(yīng)對(duì)不同的環(huán)境和任務(wù)。當(dāng)然,并不是說(shuō)這些能力疊加起來(lái)就能達(dá)到具身智能,這些能力還需要有機(jī)、高效地協(xié)作融合,才能真正達(dá)到人類所希望的具身智能。還有,具身智能所需要的數(shù)據(jù)非常稀缺,OpenAI直接通過(guò)機(jī)器人達(dá)到AGI的想法就是因?yàn)閿?shù)據(jù)缺乏而折戟,數(shù)據(jù)的稀缺性仍是很大挑戰(zhàn),在實(shí)際場(chǎng)景中收集數(shù)據(jù)還需要保護(hù)用戶的隱私安全。

        《財(cái)經(jīng)智庫(kù)》:你說(shuō)過(guò)大語(yǔ)言模型,把世界上所有不同文化的人類文明全部放在了一起,涉及很多能力,但機(jī)器人數(shù)據(jù)很少,人們不可能像大語(yǔ)言模型一樣有這么多數(shù)據(jù)驅(qū)動(dòng)機(jī)器人。是否機(jī)器人要通過(guò)跟環(huán)境交互來(lái)演化?

        張正友:這種演化,如前所述SLAP,我們將此分為四部分,先是行動(dòng)包括運(yùn)動(dòng)能力和操作能力;然后是感知,感知和行動(dòng)連在一起,為系統(tǒng)1。規(guī)劃是系統(tǒng)2。學(xué)習(xí)較為特殊,它貫穿每個(gè)模塊,即通過(guò)跟環(huán)境交互不斷地提升其能力,機(jī)器人也如此。

        另外,看一下人和人溝通的場(chǎng)景,溝通模型是加州大學(xué)心理學(xué)教授Mehrabian在1971年寫的一本書《Silent Message》里提出來(lái)的,任何人之間的交互,靠文字或文本傳遞信息只占7%,其他部分,聲音占38%,人的肢體語(yǔ)言、表情、視線占55%,所以完全靠文本,想要實(shí)現(xiàn)AGI根本不夠。所以我還是認(rèn)定原生的多模態(tài)大模型是通往AGI的必經(jīng)之路,現(xiàn)在人們將其他模態(tài)和文本模型對(duì)齊,肯定會(huì)丟失信息。

        《財(cái)經(jīng)智庫(kù)》:從技術(shù)層面,就拿你們實(shí)驗(yàn)室的研發(fā)來(lái)說(shuō),缺乏的是什么?面臨的問(wèn)題是什么?

        張正友:從實(shí)踐角度,是觸覺(jué)和靈巧手。剛才講到多模態(tài)大語(yǔ)言模型,文本是標(biāo)準(zhǔn)的,攝像頭和麥克風(fēng)經(jīng)過(guò)40年發(fā)展,也是標(biāo)準(zhǔn)的,但迄今還沒(méi)有一個(gè)標(biāo)準(zhǔn)的觸覺(jué)傳感器。觸覺(jué)跟手結(jié)合很關(guān)鍵,如果沒(méi)有觸覺(jué),不可能安全攙扶老人。只有機(jī)械臂和機(jī)械手上都有觸覺(jué)傳感器,才能知道合適的力度。

        靈巧手是否也要像五指手呢?不一定要仿人,但到底怎樣優(yōu)化機(jī)械手,也是很復(fù)雜很關(guān)鍵的。相信鑒于多模態(tài)大模型的基礎(chǔ),加上攝像頭、麥克風(fēng)、有觸覺(jué)的靈巧手,慢慢就可以跟環(huán)境交互。機(jī)器人跟智能結(jié)合就可以產(chǎn)生更多東西。

        《財(cái)經(jīng)智庫(kù)》:能否這么理解,ChatGPT,把人類的知識(shí)強(qiáng)迫放進(jìn)去了,但還沒(méi)有能力隨著環(huán)境交互而不斷演化,但機(jī)器人肯定是要演化的,社會(huì)上“機(jī)器人馬上就要代替人”是一種誤解。

        張正友:代替人什么?這是一個(gè)基本問(wèn)題。早期我們覺(jué)得機(jī)器人很快會(huì)代替人的體力勞動(dòng),但后來(lái)發(fā)現(xiàn)很難,還需時(shí)日。從資本角度來(lái)講,更多的應(yīng)用場(chǎng)景是工業(yè),工業(yè)場(chǎng)景明顯是可以較快完成對(duì)人的替代,但工廠里80%-90%工作自動(dòng)化了,人怎么辦?剩下的是柔性操作和質(zhì)量檢測(cè),用現(xiàn)在的智能機(jī)器人代替或許可以。機(jī)器人的定位應(yīng)該是做一些人做不了的事情,比如在養(yǎng)老領(lǐng)域的護(hù)工短缺嚴(yán)重問(wèn)題,當(dāng)人們不愿意做這類工作,機(jī)器人能否替代人。

        《財(cái)經(jīng)智庫(kù)》:機(jī)器人不是去替代人,而是去做人不愿做或不能做的事情。

        張正友:有些人是希望替代人,但我希望機(jī)器人去做人不能做或不愿意做的事,或者能力不夠的地方。智力部分確實(shí)能夠被AI替代掉,但在意識(shí)及情感方面,機(jī)器人或AI能夠模仿部分,細(xì)微之處仍然難以企及,它畢竟不像人那樣會(huì)產(chǎn)生共情,機(jī)器從外面加裝一些知識(shí),不是自然發(fā)育而來(lái),如人類那樣進(jìn)化的過(guò)程。所以人和人之間的情感與理解部分,不會(huì)被機(jī)器人所替代。

        構(gòu)建具身智能基礎(chǔ)設(shè)施

        《財(cái)經(jīng)智庫(kù)》:近日,你在世界人工智能大會(huì)上發(fā)布了三個(gè)具身模型:多模態(tài)感知模型、規(guī)劃模型和感知行動(dòng)聯(lián)合大模型,以及一個(gè)囊括這三個(gè)具身模型和云計(jì)算能力的Tairos開(kāi)放平臺(tái),該平臺(tái)可否稱之為“具身智能”的基礎(chǔ)設(shè)施?

        張正友:這是騰訊首次基于機(jī)器人實(shí)驗(yàn)室七年以來(lái)的探索和認(rèn)知向社會(huì)和企業(yè)開(kāi)放。從2018年起,騰訊機(jī)器人實(shí)驗(yàn)室的研發(fā)已涵蓋了操作、運(yùn)動(dòng)、感知、智能、硬件設(shè)計(jì)等機(jī)器人核心技術(shù)棧,通過(guò)這一系列探索,已成為國(guó)內(nèi)少有的具備全棧式機(jī)器人技術(shù)能力的團(tuán)隊(duì)。我們深刻理解機(jī)器人硬件與具身智能的共生關(guān)系,軟硬件不是簡(jiǎn)單拼裝,而是從傳感器到大小腦再到執(zhí)行器的系統(tǒng)性融合創(chuàng)新。

        如前所述,機(jī)器人時(shí)代需要具身智能的基礎(chǔ)設(shè)施和構(gòu)建其生態(tài)體系,騰訊想扮演這樣的角色。就目前階段而言,無(wú)論機(jī)器人的具身模型還是硬件形態(tài),都還處于探索階段。

        手機(jī)系統(tǒng)主要有安卓和IOS,IOS是蘋果的封閉系統(tǒng),安卓則是開(kāi)放系統(tǒng),上面有一批應(yīng)用開(kāi)發(fā)者,各種各樣的APP在安卓和IOS上開(kāi)發(fā)。目前智能機(jī)器人生態(tài)構(gòu)建還有很多不確定性,但我認(rèn)為會(huì)朝著類似于智能手機(jī)的生態(tài)發(fā)展,有一兩家閉源平臺(tái)系統(tǒng),特斯拉走的路類似于iPhone,本體、智能、開(kāi)發(fā)應(yīng)用都是自己完成;騰訊則希望是開(kāi)放平臺(tái)一部分。

        現(xiàn)如今機(jī)器人生態(tài)屬于起步階段,機(jī)器人的硬件廠家、平臺(tái)廠家,以及應(yīng)用的開(kāi)發(fā)商還沒(méi)有形成明顯的分工層次。無(wú)論是優(yōu)必選、宇樹科技、云深處,基本上都要自己去開(kāi)發(fā)上面的應(yīng)用,因?yàn)椴婚_(kāi)發(fā)應(yīng)用就沒(méi)有價(jià)值,換言之,只有找到應(yīng)用場(chǎng)景,與其結(jié)合,才能創(chuàng)造價(jià)值。企業(yè)要活下來(lái),仍需很多科研機(jī)構(gòu),或者專業(yè)性平臺(tái)繼續(xù)做具身智能研究。

        《財(cái)經(jīng)智庫(kù)》:“具身智能”這個(gè)概念早已有之,但被大眾熟悉還是近兩三年的事,國(guó)內(nèi)很多創(chuàng)業(yè)公司涌現(xiàn)出來(lái)了,也挖了你們很多人,你們是否認(rèn)為目前構(gòu)建生態(tài)的條件已經(jīng)具備?

        張正友:我們實(shí)驗(yàn)室有一些人,想去創(chuàng)業(yè),或者被人挖走,很難避免。他們即使出去也是推動(dòng)行業(yè)的發(fā)展,會(huì)成為機(jī)器人生態(tài)的一部分。當(dāng)然還有更多同學(xué)認(rèn)可研發(fā)具身智能開(kāi)放平臺(tái)的戰(zhàn)略,選擇留下來(lái)和實(shí)驗(yàn)室一起共同成長(zhǎng)。實(shí)驗(yàn)室從零開(kāi)始,我們不斷補(bǔ)充新鮮血液,沉淀并積累技術(shù),無(wú)論是硬件還是軟件,開(kāi)放性平臺(tái)的條件已經(jīng)具備,同時(shí)具身智能的整個(gè)生態(tài)發(fā)展也需要這樣的平臺(tái)。

        《財(cái)經(jīng)智庫(kù)》:這個(gè)平臺(tái)是基于你前面強(qiáng)調(diào)的SLAP體系,將其模塊化?

        張正友:確實(shí),這個(gè)開(kāi)放平臺(tái)里有感知模塊、規(guī)劃模塊、感知行動(dòng)模塊,沉淀下來(lái)就提供給外部企業(yè)。有些企業(yè)可能缺乏感知,可以采用我們感知模塊;有些企業(yè)可能感知做得不錯(cuò),但行動(dòng)部分不行,可以用我們感知行動(dòng)模塊,如眾擎,行動(dòng)不錯(cuò),但規(guī)劃部分還缺乏,那就用我們的規(guī)劃模塊。將其模塊化,互相之間有聯(lián)系,大家都可以用;同時(shí)跟我們合作的企業(yè),一起打磨模塊,構(gòu)建健康的具身智能生態(tài)環(huán)境。

        目前已經(jīng)進(jìn)化形成了一個(gè)更為完整、強(qiáng)大的核心技術(shù)體系。首先是規(guī)劃大模型,相當(dāng)于人的左腦。讓機(jī)器能理解復(fù)雜目標(biāo)是什么,然后拆成一個(gè)個(gè)可執(zhí)行的策略步驟,比如陪行動(dòng)不便的老人散步,需要先去拿輪椅,把老人抱到輪椅上,然后推輪椅。其次是感知的模型,相當(dāng)于人的右腦,其作用是讓機(jī)器人真正了解自己所處的環(huán)境,如輪椅在什么地方等。其三是感知行動(dòng)聯(lián)合大模型,相當(dāng)于人的小腦。這個(gè)模型打通了從“看見(jiàn)”到“做到”過(guò)程的關(guān)鍵環(huán)節(jié),比如在一個(gè)狹窄的過(guò)道里,推輪椅要安全避開(kāi)其他行人和障礙物。

        《財(cái)經(jīng)智庫(kù)》:平臺(tái)這種層次化與模塊化的架構(gòu),同時(shí)還可以聯(lián)合優(yōu)化,期待看到你們的平臺(tái)不同功能的大模型能夠相對(duì)獨(dú)立地發(fā)展和更新,做到高效協(xié)同。目前國(guó)際上,你覺(jué)得具身智能的發(fā)展趨勢(shì)怎樣?

        張正友:這是逐步將具身智能推向現(xiàn)實(shí)世界通用應(yīng)用的關(guān)鍵路徑——因?yàn)檎嬲闹悄軝C(jī)器人,不僅要理解人類的世界,還要在這個(gè)世界里安全、穩(wěn)定且高效地完成任務(wù)。

        談到國(guó)際,現(xiàn)在已有很多變化,比如波士頓動(dòng)力,主要關(guān)注運(yùn)動(dòng)能力,但它的方法比較傳統(tǒng),處于轉(zhuǎn)型期?,F(xiàn)在有一家創(chuàng)業(yè)公司,叫Physical Intelligence,希望做一個(gè)類似于機(jī)器人的小腦,即感知行動(dòng)部分,偏軟件,自己采數(shù)據(jù),也從不同廠家采購(gòu)一些數(shù)據(jù)。還有一家Figure,幾乎都是圍繞著感知行動(dòng),閉源的。Physical Intelligence模型是開(kāi)源的,已經(jīng)發(fā)布了π0,公布了π0.5,目前還沒(méi)有開(kāi)源。

        《財(cái)經(jīng)智庫(kù)》:阿里走出很多創(chuàng)業(yè)公司,對(duì)杭州生態(tài)發(fā)展產(chǎn)生了很大影響。期待你們能夠超越“人形熱”,構(gòu)建人機(jī)共生的更優(yōu)形態(tài)。

        張正友:現(xiàn)在有些機(jī)器人公司宣稱有全棧式服務(wù)能力,我認(rèn)為是不太可能的,因?yàn)檫@需要大量的資金、人才和技術(shù)。在整個(gè)生態(tài)還沒(méi)建起來(lái)的環(huán)境下,創(chuàng)業(yè)公司又不可能像特斯拉這樣有雄厚的實(shí)力形成一個(gè)閉源系統(tǒng),非常困難。如同眾多大模型創(chuàng)業(yè)公司,機(jī)器人企業(yè)也會(huì)經(jīng)歷Gartner曲線過(guò)程,一開(kāi)始覺(jué)得有希望,到后面會(huì)冷卻下來(lái),經(jīng)過(guò)低谷后,才能穩(wěn)定發(fā)展。

        我認(rèn)為還是應(yīng)該靠場(chǎng)景驅(qū)動(dòng)科技發(fā)展和社會(huì)進(jìn)步。中國(guó)養(yǎng)老場(chǎng)景足夠大,一片藍(lán)海,具身智能在養(yǎng)老環(huán)境里可能會(huì)最早突破。養(yǎng)老場(chǎng)景,不是說(shuō)直接進(jìn)入家庭,有可能先在養(yǎng)老院里實(shí)現(xiàn),環(huán)境比較可控。我還是希望機(jī)器人生態(tài)能夠起來(lái),去解決真正對(duì)社會(huì)有影響的問(wèn)題,養(yǎng)老問(wèn)題是中國(guó)社會(huì)最為嚴(yán)峻的問(wèn)題之一。

        《財(cái)經(jīng)智庫(kù)》:你抓住了本質(zhì)和內(nèi)涵。

        張正友:有點(diǎn)理想主義。我們的目標(biāo)就是人和機(jī)器人共生、共存、共贏,具身智能絕不意味著替代人類,而是為人類服務(wù)。機(jī)器人到最后就像一個(gè)新物種,像我們的寵物,跟人和平共處,為人服務(wù)。

        《財(cái)經(jīng)智庫(kù)》:發(fā)現(xiàn)你經(jīng)??匆恍┥窠?jīng)學(xué)、人類學(xué)、心理學(xué)的書,自己還翻譯《道德經(jīng)》,這也是更多了解人類發(fā)展,包括人的心理和感知的重要部分吧。智能機(jī)器人再往下發(fā)展,就要更多吸取人的感知和反應(yīng),才能完成人機(jī)交互的過(guò)程?

        張正友:對(duì)人的了解是基礎(chǔ)。在數(shù)據(jù)感知下,找到突破口和新范式。新范式應(yīng)該優(yōu)于大語(yǔ)言模型,大語(yǔ)言模型是直接注入數(shù)據(jù),但人跟機(jī)器的交互,像情感的理解、意識(shí)之類的,不應(yīng)該依靠文本表達(dá),而是在人和機(jī)器人交互過(guò)程中不斷提升能力。如犯?jìng)€(gè)錯(cuò)誤,它能夠從思辨中學(xué)習(xí),所以ABCDEFG里,其中D就是借鑒人的認(rèn)知科學(xué),人是從嬰兒一步一步發(fā)育起來(lái)的,機(jī)器人要提升其操作能力、體力和智力,提升其交互能力,也需要不斷發(fā)育,當(dāng)然目前還沒(méi)找到好方法,這是一個(gè)長(zhǎng)期的過(guò)程。

        從另一角度看,還是有希望的。人的認(rèn)知和知識(shí)無(wú)法通過(guò)代際直接復(fù)制,只能從頭發(fā)育,但機(jī)器人所學(xué)的東西可通過(guò)數(shù)字形式直接復(fù)制到另一個(gè)機(jī)器人上,機(jī)器人之間通過(guò)信號(hào)傳遞和交互,共同發(fā)育就會(huì)非???。

        人類再過(guò)幾百年、幾千年,變化不應(yīng)太大,壽命可能會(huì)越來(lái)越長(zhǎng)。而機(jī)器人要在人類需要的時(shí)候,為人類服務(wù)。在我的有生之年,絕對(duì)有信心,年輕人更應(yīng)有信心。

        猜你喜歡
        人形財(cái)經(jīng)智庫(kù)
        整治“反內(nèi)卷”需多管齊下
        數(shù)字經(jīng)濟(jì)背景下新農(nóng)人財(cái)經(jīng)素養(yǎng)教育策略探析
        跑好“人機(jī)共跑”的馬拉松
        中國(guó)農(nóng)村財(cái)經(jīng)研究會(huì)六屆七次常務(wù)理事會(huì)會(huì)議召開(kāi)
        跑好“人機(jī)共跑”的馬拉松
        基于項(xiàng)目活動(dòng)的中學(xué)生財(cái)經(jīng)素養(yǎng)教育實(shí)踐與思考
        發(fā)揮高校平臺(tái)優(yōu)勢(shì) 打造黨內(nèi)法規(guī)特色智庫(kù)
        美國(guó)國(guó)會(huì)文件及智庫(kù)報(bào)告的科學(xué)引用差異分析(下)
        人形機(jī)器人
        具身智能浪潮下《人形機(jī)器人分類分級(jí)》標(biāo)準(zhǔn)的深度剖析與領(lǐng)航路徑
        国产三级三级精品久久| 第一次处破女18分钟高清| 人妻精品久久久久中文字幕69| 水蜜桃亚洲一二三四在线| 日韩一区二区超清视频| 久久蜜桃一区二区三区| 成人性生交大片免费入口| 亚洲七久久之综合七久久| 亚洲丁香婷婷综合久久小说 | 热热久久超碰精品中文字幕| 国产精品午夜福利亚洲综合网| 久久久极品少妇刺激呻吟网站| 人人摸人人操| 亚洲国产高清在线观看视频| 无码AV无码免费一区二区 | 精品高朝久久久久9999| 国产一区二区精品久久| 一区二区精品| 亚洲五月天中文字幕第一页| 欧美颜射内射中出口爆在线| 999国内精品永久免费视频| 美日韩毛片| 午夜日本理论片最新片| 久久午夜av一区二区三区| 一本色道久久99一综合| 亚洲AV成人无码久久精品在 | 日韩亚洲精品国产第二页| 亚洲免费网站观看视频| 国产精品18久久久久网站 | 色佬精品免费在线视频| 毛多水多www偷窥小便| 欧美xxxx新一区二区三区| 精品视频手机在线免费观看| 无遮挡很爽很污很黄的女同| 狠狠色噜噜狠狠狠狠米奇777| 亚洲午夜无码AV不卡| 亚洲av毛片在线播放| 婷婷综合另类小说色区| 在线播放国产一区二区三区| 国产不卡一区在线视频| 人妻少妇精品中文字幕专区|