文 / 本刊記者 馬琨
在有限的硬件條件下,軟件及算法方面的優(yōu)化是否存在上限?在今年的AI DAY上,特斯拉給競(jìng)爭(zhēng)對(duì)手們好好上了一課。
趕在9月的最后一天,特斯拉AI DAY總算是“如期”召開,之前就有人猜測(cè)特斯拉會(huì)有很多新動(dòng)作,而事實(shí)也的確沒令人失望。尤其是開場(chǎng)的Optimus機(jī)器人驚艷亮相,更是激發(fā)了人們對(duì)于未來機(jī)器人的無限遐思。
不過,我們都很清楚,這臺(tái)與《變形金剛》里擎天柱撞名的Optimus機(jī)器人只是一道墊胃的前菜。相比之下,特斯拉在自動(dòng)駕駛技術(shù)方面的細(xì)節(jié)公布似乎更能滿足所有人胃口。那么,此次AI DAY特斯拉帶來的技術(shù)究竟能否讓極客和科技大牛們飽腹呢?
實(shí)際上,早先就有消息透露,Optimus機(jī)器人采用了與汽車相同的自動(dòng)駕駛計(jì)算機(jī)(以下簡(jiǎn)稱FSD),這并非什么不可公開的秘密,但厲害之處就在于,它的行走、動(dòng)作以及指令的執(zhí)行均可通過AI模型來學(xué)習(xí)。
這是什么意思呢?其實(shí)很好理解,特斯拉的工程師們?cè)缭谝婚_始就把Optimus看作是一個(gè)人來訓(xùn)練,它可以像人類一樣通過頭部的攝像頭來感知周圍環(huán)境,并通過FSD視覺識(shí)別算法對(duì)周圍環(huán)境進(jìn)行分析,進(jìn)而執(zhí)行對(duì)應(yīng)的動(dòng)作。
為了適應(yīng)人類生活場(chǎng)景并實(shí)現(xiàn)和人類一樣的動(dòng)作,Optimus也和人類一樣擁有各種關(guān)節(jié),盡管在舞臺(tái)展示時(shí)它行走的樣子有些步履蹣跚,但在學(xué)術(shù)界,這絕對(duì)是一個(gè)重大突破。
而經(jīng)過了訓(xùn)練,Optimus也就擁有了多種“技能”,比如澆花、搬運(yùn)箱子等等。但是,想要讓機(jī)器人擁有和人類一樣的行動(dòng)能力,那必然需要龐大的數(shù)據(jù)作為支撐,這也是馬斯克預(yù)測(cè)Optimus需要至少3-5年才能量產(chǎn)上市的原因之一。
不 過,相 比 于Optimus機(jī)器人,特斯拉在自動(dòng)駕駛領(lǐng)域的經(jīng)驗(yàn)就豐富多了。公開數(shù)據(jù)顯示,截至目前,全球參與FSD Beta版本測(cè)試的用戶已從最開始的2000人發(fā)展為16萬人,累計(jì)行駛里程也突破了4000萬英里。而根據(jù)馬斯克的表述,今年年底,F(xiàn)SD Beta測(cè)試的用戶還將拓展至100萬人,進(jìn)而向1億英里的累計(jì)行駛里程目標(biāo)沖擊。據(jù)馬斯克透露,如果地方監(jiān)管政策允許,今年FSD Beta版本即可在全球上線。
龐大的真實(shí)測(cè)試數(shù)據(jù)為Autopolit自動(dòng)駕駛技術(shù)提供了強(qiáng)有力的數(shù)據(jù)支撐,而FSD完全自動(dòng)駕駛神經(jīng)網(wǎng)絡(luò)上的進(jìn)步則是此次特斯拉投下地又一枚重磅炸彈。
與主流的融合方案(攝像頭+雷達(dá))不同,此次特斯拉選擇在純視覺方案上更進(jìn)一步,根據(jù)特斯拉方面的消息,2022年10月起,北美、歐洲、中東地區(qū)交付的Model 3與Model Y都將不再配備超聲波雷達(dá)。2023年,Model S和Model X也將不再配備超聲波雷達(dá)。
此前,特斯拉已移除了自家車輛上的毫米波雷達(dá),而此次的決策也意味著特斯拉未來車型的自動(dòng)駕駛功能將僅依靠攝像頭實(shí)現(xiàn)。盡管外界許多人看來這是特斯拉為節(jié)約成本而做的犧牲,但實(shí)際上這是特斯拉對(duì)于自家視覺算法的高度自信。
在AI DAY上,特斯拉再次提到了Occupancy netwrok(柵格網(wǎng)絡(luò))模型的應(yīng)用和改進(jìn)。你可以將其理解為一套基于BEV感知算法而建立的物體檢測(cè)方案。因?yàn)樵谌诤戏桨钢杏卸鄠鞲衅髯鳛榛A(chǔ),所以計(jì)算機(jī)對(duì)于物體的判斷會(huì)比純視覺方案更簡(jiǎn)單。不過融合方案的缺點(diǎn)也很明顯,那就是需要將來自多傳感器的時(shí)間進(jìn)行同步(外參對(duì)齊),并且還存在著大量背景的儲(chǔ)存冗余,繼而會(huì)浪費(fèi)掉許多算力,這也是為什么國(guó)內(nèi)許多車企都在追求高算力芯片的原因之一。
而特斯拉基于Occupancy network改進(jìn)的純視覺方案則無需上述那些多余步驟,通過算法的優(yōu)化,車輛可以在不具體識(shí)別障礙物是什么的情況下就做出避讓,因此,純視覺方案對(duì)算力的消耗更低,語義感知能力更強(qiáng)。更簡(jiǎn)單的理解就是,同等算力下在面對(duì)復(fù)雜數(shù)據(jù)處理(高速環(huán)境或快速移動(dòng)物體感知)時(shí),純視覺的Occupancy network甚至能夠做到比激光雷達(dá)融合方案更出色。
從2019年Autonomous Day公 布FSD芯 片 開 始,自動(dòng)駕駛行業(yè)就進(jìn)入了算力內(nèi)卷的時(shí)代,國(guó)內(nèi)車企紛紛配備NVIDIA、地平線等芯片公司最新研發(fā)的自動(dòng)駕駛芯片,畢竟對(duì)于普通消費(fèi)者來說,TOPS代表的數(shù)值對(duì)比起來更直觀。但需要注意的是,此時(shí)特斯拉就有了去掉雷達(dá),走向純視覺的想法,于是算法上的優(yōu)化成為了這幾年來特斯拉內(nèi)部的主要攻堅(jiān)。
在AI DAY上,特斯拉帶給國(guó)內(nèi)企業(yè)最大的啟示就在于,原來在有限硬件條件下,軟件以及算法上的優(yōu)化竟有著如此大的作用,而對(duì)于國(guó)內(nèi)企業(yè)來說,是不是也該將這個(gè)問題帶入后續(xù)研發(fā)當(dāng)中?或許在未來面臨美方對(duì)于高端芯片的出口限制時(shí),軟件和算法將成為國(guó)內(nèi)企業(yè)突破技術(shù)封鎖的一大契機(jī)。
視覺圖像的仿真模擬是近年來計(jì)算機(jī)視覺方面的熱門方向。在去年的AI DAY上,特斯拉就公布了一些關(guān)于視覺仿真在自動(dòng)駕駛領(lǐng)域的應(yīng)用案例,但是當(dāng)時(shí)有許多人對(duì)這項(xiàng)技術(shù)提出了質(zhì)疑,因?yàn)樵谌藗兛磥?,無論虛擬場(chǎng)景構(gòu)建得有多真實(shí)都無法替代現(xiàn)實(shí)場(chǎng)景。
然而實(shí)際情況卻是,雖然仿真無法保證做到對(duì)真實(shí)世界的100%模擬,但足以騙過AI。在一些實(shí)際有危險(xiǎn)或極少發(fā)生的場(chǎng)景有獨(dú)特優(yōu)勢(shì),特斯拉可利用該方案來針對(duì)這些少見場(chǎng)景進(jìn)行大量模擬,從而提高自動(dòng)駕駛系統(tǒng)的通用性和穩(wěn)定性。
不過,仿真的實(shí)現(xiàn)對(duì)硬件的帶寬要求極高,也正是如此,截至目前,國(guó)內(nèi)還沒有一家企業(yè)真正將仿真模擬落地應(yīng)用,這也再度體現(xiàn)了特斯拉在技術(shù)方面的先發(fā)優(yōu)勢(shì)。而AI DAY上提到的Dojo就是專門用來模型訓(xùn)練的超級(jí)計(jì)算機(jī),其存在的目的就是為了幫助特斯拉快速且高效地制造大量仿真模型。
可以說,Dojo在設(shè)計(jì)之初就充分考慮到了上層算法軟件的選型,首先,它沒有一味的追求高算力,而是設(shè)計(jì)了大面積的片上靜態(tài)隨機(jī)儲(chǔ)存單元(SRAM),盡管在容量上不及傳統(tǒng)使用的動(dòng)態(tài)隨機(jī)存儲(chǔ)單元(DRAM)高,但勝在帶寬極高。同時(shí),特斯拉還優(yōu)化了FSD芯片的整體數(shù)據(jù)流鏈路,進(jìn)一步減少了電信號(hào)在芯片中的移動(dòng)距離,讓信號(hào)能夠以非常低的延遲將模型參數(shù)和待運(yùn)算的數(shù)據(jù)送入運(yùn)算單元。此外,為了進(jìn)行大規(guī)模分布式訓(xùn)練,特斯拉還用了自研的Tesla Transport Protocol來保證數(shù)據(jù)傳輸?shù)母咝А?/p>
為了證明這一點(diǎn),特斯拉舉了一個(gè)例子來說明Dojo的優(yōu)化帶來的收益,即使用24個(gè)GPU集群的服務(wù)器在計(jì)算一個(gè)BN(Batch_normalization)時(shí) 的 延 遲 是150μs,而25個(gè)D1芯片組成的Dojo訓(xùn)練服務(wù)器上,同樣的BN僅需5μs,效率提升了整30倍。
而在物理結(jié)構(gòu)方面,特斯拉將多個(gè)運(yùn)算單元和接口處理器組成了一個(gè)托盤(Tray),而Dojo的每個(gè)機(jī)柜都至少由兩個(gè)托盤構(gòu)成,這樣算來,每個(gè)機(jī)柜都包含4248個(gè)核心,而由十臺(tái)機(jī)柜組成的計(jì)算集群(ExaPod)就擁有42480個(gè)核心,所以在同等數(shù)據(jù)中心空間內(nèi),它比傳統(tǒng)的CPU或GPU超級(jí)計(jì)算機(jī)都要快上幾個(gè)數(shù)量級(jí)。
另外,目前基于Dojo的訓(xùn)練服務(wù)器也取得了不錯(cuò)的進(jìn)展。據(jù)特斯拉Autopilot研發(fā)總監(jiān)Ashok介紹,在過去的一年里,特斯拉總計(jì)訓(xùn)練了75,000個(gè)神經(jīng)網(wǎng)絡(luò),這意味著每8分鐘就要構(gòu)建一個(gè)新的模型。在此次AI DAY上,馬斯克還對(duì)外透露,預(yù)計(jì)在明年第一季度就可以對(duì)外交付以用于AutoLabeler訓(xùn)練的Dojo服務(wù)器,而屆時(shí),特斯拉的AI訓(xùn)練能力還將進(jìn)一步得到提升。
在 去 年 的AI DAY上,特斯拉就針對(duì)自動(dòng)標(biāo)注這項(xiàng)技術(shù)進(jìn)行了詳細(xì)介紹,而今年,特斯拉則著重分享了車道網(wǎng)絡(luò)(LanesNetwork)的自動(dòng)標(biāo)注。
所謂自動(dòng)標(biāo)注實(shí)際上是在計(jì)算機(jī)制圖技術(shù)發(fā)展基礎(chǔ)上形成的一門技術(shù)。其主要內(nèi)容就是對(duì)地圖信息進(jìn)行標(biāo)注,利用好這些駕駛數(shù)據(jù)更好地幫助自動(dòng)駕駛系統(tǒng)對(duì)車道進(jìn)行識(shí)別。
每天,特斯拉的測(cè)試車輛能產(chǎn)生500,000條真實(shí)的駕駛旅程數(shù)據(jù),隨后交予AI分析訓(xùn)練,強(qiáng)化車道感知的能力,日積月累下來,特斯拉在車道感知方面的成就早已領(lǐng)先競(jìng)爭(zhēng)對(duì)手幾個(gè)代際。
從AI DAY上的分享不難看出,特斯拉FSD的車道識(shí)別已是基于3D Occupancy的感知,而不僅僅是基于2D的BEV,這也賦予了車輛識(shí)別車道高低起伏變化的能力。
多車多旅途地圖重建策略是該方案中的關(guān)鍵步驟,其基本邏輯是,不同的車輛對(duì)同一個(gè)地點(diǎn)可能有不同空間角度和時(shí)間的觀測(cè),因此將這些信息整合起來能夠更好地對(duì)地圖進(jìn)行重建和標(biāo)注,進(jìn)而減少對(duì)高精地圖的依賴?;蛟S純文字的表述會(huì)讓人有些難以理解,但實(shí)際的效果卻是,當(dāng)有新旅程啟動(dòng)時(shí),這種通過自動(dòng)標(biāo)注的效果能夠更好地適應(yīng)低可見度(陰天、雨天、夜晚等路況)、遮擋等條件的能力,有時(shí)標(biāo)注的準(zhǔn)確性甚至?xí)?yōu)于人工標(biāo)注。
至于路徑規(guī)劃則是自動(dòng)駕駛中另一個(gè)比較重要的模塊,因此今年的AI DAY上特斯拉也進(jìn)行了著重介紹,它們把采用的規(guī)劃模型稱為Interaction Srarch,即交互搜索。
它主要由三個(gè)主要步驟實(shí)現(xiàn):樹搜索、神經(jīng)網(wǎng)絡(luò)規(guī)劃和軌跡打分。其中樹搜索是自動(dòng)駕駛軌跡規(guī)劃中經(jīng)常用到的算法,可以有效地發(fā)現(xiàn)各種交互情形并找到最優(yōu)解。不過,用搜索的方法來解決軌跡規(guī)劃問題遇到最大的困難就是搜索空間過大,例如在一個(gè)復(fù)雜路口可能有數(shù)十輛車,可以組合成超過百種交互方式,同時(shí)每種方式又可能有幾十種時(shí)空軌跡作為候選,這會(huì)讓風(fēng)險(xiǎn)評(píng)估和解優(yōu)化花費(fèi)更長(zhǎng)的時(shí)間。而在今年的AI DAY上,特斯拉則是為復(fù)雜路口的情況分析提供了新思路。
這個(gè)思路很清晰。首先,特斯拉并沒有采用軌跡搜索的方式,而是用神經(jīng)網(wǎng)絡(luò)來給一段時(shí)間后可能到達(dá)的目標(biāo)位置經(jīng)行打分,隨后排除掉不切實(shí)際的候選路徑,這樣就會(huì)得到少量的較優(yōu)目標(biāo)。
與此同時(shí),另一個(gè)神經(jīng)網(wǎng)絡(luò)會(huì)對(duì)行車軌跡進(jìn)行規(guī)劃,實(shí)現(xiàn)同時(shí)對(duì)多個(gè)候選目標(biāo)的高度規(guī)劃。隨后再通過以上三個(gè)步驟的解耦,特斯拉便實(shí)現(xiàn)了一個(gè)高效且考慮了交互軌跡的軌跡規(guī)劃模塊。
盡管在學(xué)術(shù)界看來,多傳感器融合方案優(yōu)于特斯拉的純視覺方案,但是以目前的技術(shù)水平來看,純視覺的FSD無論是在通用性還是實(shí)用性方面都已然來到了行業(yè)最前端。
通過此次AI DAY,特斯拉把自動(dòng)駕駛話題的熱度推向了一個(gè)新高度,并且就信息量而言,其技術(shù)覆蓋面之廣,即便是在自動(dòng)駕駛領(lǐng)域從業(yè)多年的專家、學(xué)者也很難快速消化。因此,稱特斯拉的AI DAY為自動(dòng)駕駛?cè)Φ摹按和怼币膊粸檫^。