李實(shí)
特斯拉是一家特立獨(dú)行的企業(yè),不到20年時(shí)間,它從大眾眼中的新能源車企,變成了一家高科技企業(yè)。2019年特斯拉自動(dòng)駕駛?cè)?,展示它在自?dòng)駕駛方面的研究。2020年特斯拉電池日,它帶來了大量電池技術(shù)方面的創(chuàng)新,并將電動(dòng)車的續(xù)航里程持續(xù)推高。2021年8月,特斯拉全新的Al DAY(人工智能日)粉墨登場(chǎng)。這—次,特斯拉又帶來了哪些新的技術(shù)和產(chǎn)品呢?
特斯拉在電動(dòng)汽車上的努力有目共睹,如果仔細(xì)剖析電動(dòng)汽車的話,可以發(fā)現(xiàn)它的架構(gòu)分為車身和操控、驅(qū)動(dòng)部分、電池部分以及電氣系統(tǒng)部分。其中,車身和操控部分相對(duì)傳統(tǒng)汽車而言變化不算特別大,且這部分材料和設(shè)計(jì)都已經(jīng)到達(dá)了目前材料和物理規(guī)律的極限,進(jìn)步空間有限。驅(qū)動(dòng)部分主要是電機(jī)和相關(guān)電路,這部分設(shè)備的進(jìn)步空間也基本上很小了?,F(xiàn)在,電池部分和電氣系統(tǒng)部分被認(rèn)為是電動(dòng)車上進(jìn)步最大、最容易超越傳統(tǒng)燃油車的地方。其中電池部分的進(jìn)步對(duì)應(yīng)著更長(zhǎng)的續(xù)航,能夠徹底解決電動(dòng)車最核心的
“里程焦慮”問題。電氣系統(tǒng)部分較為復(fù)雜,目前最重要的發(fā)展方向是智能化、數(shù)字化的座艙體驗(yàn)和自動(dòng)駕駛系統(tǒng)。特斯拉在之前的自動(dòng)駕駛?cè)?、電池日上已?jīng)展示了一部分自己在自動(dòng)駕駛和增強(qiáng)電動(dòng)汽車?yán)m(xù)航方面的研究和展望,但最終自動(dòng)駕駛技術(shù)的發(fā)展依靠的還是強(qiáng)大的算力和全新的技術(shù),尤其是AI技術(shù)的發(fā)展,這也是2021年特斯拉召開AI DAY這場(chǎng)大會(huì)的最大目的。
在AI DAY上,特斯拉帶來了自己利用人工智能技術(shù)的發(fā)展,在自動(dòng)駕駛方面的進(jìn)展,包括在自動(dòng)駕駛的視覺、數(shù)據(jù)標(biāo)注和模擬、規(guī)劃和控制以及硬件方面的創(chuàng)新。整個(gè)發(fā)布會(huì)長(zhǎng)達(dá)3個(gè)小時(shí),不過前面的等待和后期的問答占據(jù)了一部分時(shí)間,真正的持續(xù)時(shí)間大約為一個(gè)半小時(shí),馬斯克和特斯拉的工程師包括Andrej、Ashok、Ganesh等都親臨現(xiàn)場(chǎng)進(jìn)行了講解。從講解內(nèi)容來看還是比較艱澀難懂的,尤其是涉及一些計(jì)算模型和應(yīng)用方面的處理。本文將盡量簡(jiǎn)單明了地解釋這些內(nèi)容。
感知道路信息:從圖像空間轉(zhuǎn)為矢量空間
在自動(dòng)駕駛的視覺方面,特斯拉和現(xiàn)在業(yè)界呼聲比較高的激光雷達(dá)方案存在很大差異。根本原因并不是某些設(shè)備或者采用攝像頭與否的問題,而是形成立體視覺空間的問題。眾所周知,攝像頭在采集信息時(shí)會(huì)丟失幾乎所有空間信息,最終計(jì)算機(jī)識(shí)別的信息中并不包含距離內(nèi)容。相比之下,激光雷達(dá)在一定程度上可以解決這個(gè)問題,能夠識(shí)別部分物體和車輛之間的距離。
特斯拉一開始就鮮明地提出,他們計(jì)劃模擬大腦的工作方式,只通過攝像頭完成對(duì)事物本身以及空間信息的識(shí)別,也就是從圖像空間轉(zhuǎn)變?yōu)槭噶靠臻g。
為了達(dá)到這個(gè)目的,特斯拉使用了一個(gè)名為transformer的計(jì)算模塊,這個(gè)模塊采用注意力機(jī)制,可以在多個(gè)攝像頭拍攝的畫面之間建立聯(lián)系,并且形成相對(duì)固定的空間關(guān)系,此外還包括攝像頭矯正等。所謂注意力機(jī)制,實(shí)際上也是源自人腦和人眼的一種工作機(jī)制。簡(jiǎn)單來說,注意力機(jī)制就是人類的視覺系統(tǒng)傾向于在觀察中關(guān)注圖像里輔助判斷的信息,而對(duì)那些不是特別相關(guān)的信息選擇性忽略。這樣一來,畫面中有關(guān)判斷、決策的內(nèi)容或者關(guān)鍵的一些結(jié)合點(diǎn)就會(huì)被篩選出來。比如在道路畫面中,有關(guān)地面的信息會(huì)被忽略,道路邊緣的路肩、警示信息以及道路上的一些物體會(huì)被認(rèn)為是關(guān)鍵信息。通過這樣的機(jī)制,transformer模塊能夠?qū)z像頭給出的圖像信息進(jìn)行篩選比對(duì),進(jìn)一步處理后就能將平面的圖像空間轉(zhuǎn)換為立體的矢量空間。
特斯拉也展示了攝像頭在自家汽車上應(yīng)用發(fā)展的歷程,比如早期采用的是單攝像頭單幀模型。隨后由于單個(gè)攝像頭范圍比較窄,后期使用了多攝像頭單幀模型予以改善。但是多攝像頭單幀模型主要是畫面未能很好地融合拼接,因此依舊采用的是孤立圖像來判斷,效果不好?,F(xiàn)在加入了transformer模塊后,特斯拉終于可以將所有的畫面進(jìn)行統(tǒng)一處理并矢量化了,進(jìn)入了多攝像頭多幀模型的新階段。在這個(gè)階段中,特斯拉可以保持連續(xù)多幀信息融合,實(shí)現(xiàn)對(duì)道路連續(xù)、不間斷地監(jiān)控。
在實(shí)現(xiàn)了多幀信息融合后,特斯拉選擇了Spatial RNN對(duì)視頻進(jìn)行處理。經(jīng)過Spatial RNN的處理,特斯拉的汽車可以持續(xù)更新攝像頭可見范圍內(nèi)的各種信息,并且還可以對(duì)物體的速度和距離進(jìn)行估計(jì)。特斯拉的數(shù)據(jù)顯示,他們的模型和方案相比毫米波雷達(dá),效果基本相同。
識(shí)別道路狀況:4D標(biāo)注關(guān)鍵信息
當(dāng)汽車通過攝像頭完成了對(duì)空間結(jié)構(gòu)的重現(xiàn)后,接下來一個(gè)重要的工作就是數(shù)據(jù)標(biāo)注了。所謂數(shù)據(jù)標(biāo)注,就是采用人工智能手段,將畫面中那些需要特別重視的部分以不同的形式或者等級(jí)凸顯出來。比如攝像頭拍攝到了過馬路的人、前方的汽車、道路邊沿、固定障礙物以及道路標(biāo)識(shí)和警示信息等,都需要及時(shí)識(shí)別并處理。
特斯拉將自己的數(shù)據(jù)標(biāo)注功能稱為4D。相比傳統(tǒng)2D圖像化標(biāo)注,特斯拉已經(jīng)將整個(gè)視覺信息轉(zhuǎn)化為矢量空間,加入了距離信息,因此單幀2D畫面也成了3D場(chǎng)景。但是特斯拉并非僅僅依靠3D場(chǎng)景進(jìn)行標(biāo)注,而是加入了時(shí)序信息,增加了時(shí)間維度(D),將其轉(zhuǎn)化為4D場(chǎng)景進(jìn)行標(biāo)注。簡(jiǎn)單來說,之前的數(shù)據(jù)標(biāo)注是利用一張張圖片或者僅僅是一個(gè)靜態(tài)的3D場(chǎng)景進(jìn)行標(biāo)注?,F(xiàn)在特斯拉是在一個(gè)重建后的視頻中進(jìn)行標(biāo)注,并且能夠?qū)?biāo)注后的信息反饋回?cái)z像頭,并進(jìn)行跟蹤,后續(xù)就不用重復(fù)標(biāo)注了,這在很大程度上節(jié)約了計(jì)算資源。
不過,雖然4D標(biāo)注在功能實(shí)現(xiàn)和最終結(jié)果上表現(xiàn)優(yōu)秀,但是也非常耗費(fèi)計(jì)算資源,依靠傳統(tǒng)的標(biāo)注方法是難以處理的。為此,特斯拉專門開發(fā)了特別的4D自動(dòng)標(biāo)注工具,這個(gè)工具在展示中顯示出了非常不錯(cuò)的效率,不但能夠標(biāo)注場(chǎng)景內(nèi)的關(guān)鍵個(gè)體,還包括這些個(gè)體的運(yùn)動(dòng)速度、距離等內(nèi)容,甚至可以預(yù)測(cè)它們未來的運(yùn)動(dòng)軌跡。特斯拉宣稱新的4D標(biāo)注功能相比傳統(tǒng)的2D圖像化標(biāo)注效率提升了100倍。發(fā)布會(huì)上,特斯拉展示了通過在道路上行駛的大約100萬輛特斯拉車輛,收集的250萬個(gè)長(zhǎng)度1分鐘的片段,這相當(dāng)于單個(gè)汽車駕駛1500年的時(shí)間,然后特斯拉使用上千個(gè)GPU和2萬個(gè)CPU在—周內(nèi)處理完了這些標(biāo)注并且生成了模型。相比我們印象中單車或者數(shù)十車輛上路收集數(shù)據(jù)而言,特斯拉展示出的成長(zhǎng)能力是相當(dāng)驚人的。