自動駕駛公司W(wǎng)aabi日前宣布,它正在使用一種生成式人工智能模型來幫助預(yù)測車輛的運動軌跡。
這項名為Copilot4D的新系統(tǒng)使用激光雷達傳感器的大量數(shù)據(jù)進行訓(xùn)練,這種傳感器利用光來感知與物體之間的距離。
如果你(以提示的方式)向模型輸入一種情況, 比如一個司機魯莽地駛?cè)敫咚伲鼤A(yù)測周圍的車輛將如何運動,然后生成未來5~10秒的激光雷達示意圖,以及展示潛在的追尾事故。
目前公布的是Copilot4D的初始版本,但Waabi的首席執(zhí)行官拉奎爾·烏爾塔孫表示,該公司在美國得克薩斯州的自動駕駛卡車測試車隊中部署了一個更先進、更可解釋的版本,幫助駕駛軟件做出決策。
雖然自動駕駛長期以來一直依賴機器學(xué)習(xí)來規(guī)劃路線和檢測物體,但一些公司和研究人員現(xiàn)在十分看好生成式人工智能,這種模型可以接收周圍環(huán)境數(shù)據(jù)并生成預(yù)測,或?qū)⒂兄趯⒆詣玉{駛帶到下一階段。
Waabi的競爭對手Wayve在2023年發(fā)布了一款類似的模型,該模型是根據(jù)其車輛收集的視頻進行訓(xùn)練的。
Waabi的模型與DALL-E和Sora等圖像或視頻生成器的工作方式相似。它獲取激光雷達數(shù)據(jù)的點云,將汽車周圍環(huán)境的3D地圖可視化,并將其分解為塊,類似于圖像生成器將照片分解為像素的方式。
根據(jù)其訓(xùn)練數(shù)據(jù),Copilot4D會預(yù)測激光雷達的數(shù)據(jù)點將如何移動。不斷連續(xù)地這樣做,就可以讓它生成未來5~10秒的預(yù)測。
少數(shù)幾家自動駕駛公司將其策略描述為“人工智能優(yōu)先”。對烏爾塔孫來說,這意味著設(shè)計一個從數(shù)據(jù)中學(xué)習(xí)的系統(tǒng),而不是一個學(xué)習(xí)在特定情況下如何做出反應(yīng)的系統(tǒng)。
這些公司相信,它們的方法可能需要更少的路測時間。2023年10月,在美國舊金山一輛巡航中的無人駕駛汽車發(fā)生拖拽行人的事故后,道路測試成為了一個熱門話題。
Waabi不同于其競爭對手,它為激光雷達而不是相機構(gòu)建了一個生成式模型。
烏爾塔孫說:“如果你想實現(xiàn)4級自動駕駛,激光雷達是必須的?!彼f的4級自動駕駛是,汽車幾乎不需要人類介入就能安全行駛。
她說攝像頭能很好地顯示汽車所看到的東西,但它們不太擅長測量距離或了解汽車周圍的幾何(狀況)。
盡管Waabi的模型可以生成視頻,顯示汽車通過激光雷達傳感器看到的情況,但這些視頻不會在該公司用于構(gòu)建和測試駕駛模型的駕駛模擬器中作為訓(xùn)練數(shù)據(jù)。這是為了確保Copilot4D產(chǎn)生的任何幻覺不會被模擬器吸收并傳授。
美國斯坦福大學(xué)的博士生伯納德· 亞當(dāng)· 蘭格建立并研究了類似的模型。他指出,底層技術(shù)并不新鮮,但這是他第一次看到生成式激光雷達模型脫離了實驗室的限制, 并擴大規(guī)模用于商業(yè)用途。
他說, 像這樣的模型通常有助于使任何自動駕駛汽車的“ 大腦” 能夠更快、更準確地推理。
他說:“規(guī)?;攀钦嬲哂凶兏镄缘臇|西,希望這些模型可以用于下游任務(wù)?!崩?,檢測物體和預(yù)測人或物下一步可能移動的位置。
Copilot4D只能預(yù)測短期的變化,而運動預(yù)測模型的性能會隨著預(yù)測時長的增加而變?nèi)酢T撃P椭恍枰胂?到10秒會發(fā)生什么,同時Waabi的基準測試是基于3秒的預(yù)測。
美國斯坦福大學(xué)汽車研究中心聯(lián)合主任克里斯·戈德斯表示,這一指標將是決定該模型在決策中有多大用途的關(guān)鍵。
他說: “ 如果5秒的預(yù)測是可靠的, 但10秒的預(yù)測幾乎不可用,那么它在許多真實路況下是不夠用的。”
新模型呼應(yīng)了一個生成式人工智能世界熱議的問題: 是否將模型開源。開源Copilot4D將使難以訪問大型數(shù)據(jù)集的學(xué)術(shù)研究人員能夠深入地了解其制作過程,獨立評估其安全性,并有可能推動該領(lǐng)域的發(fā)展。
但Waabi的競爭對手也將因此獲益。目前,該公司已經(jīng)發(fā)表了一篇論文,詳細介紹了模型的創(chuàng)建過程,但尚未發(fā)布代碼。烏爾塔孫也不確定他們是否會發(fā)布。
“我們希望學(xué)術(shù)界對自動駕駛的未來也有發(fā)言權(quán)?!彼f,開源模型更值得信任?!暗覀冊陂_發(fā)技術(shù)時也需要小心一點,以免向競爭對手透露一切。” (綜合整理報道)(策劃/小文)