劉衛(wèi)國,項志宇,劉 銳,李國棟,王子旭
(1.浙江大學(xué)信息與電子工程學(xué)院,杭州 310058;2.國家智能網(wǎng)聯(lián)汽車創(chuàng)新中心,北京 100160;3.重慶理工大學(xué)車輛工程學(xué)院,重慶 400054)
自動駕駛技術(shù)是近年來的研究熱點,能夠有效地提高行駛安全性、緩解交通擁堵、降低能耗。目前最常用的方法是將自動駕駛問題劃分為傳感器感知融合、車道檢測、路徑規(guī)劃和控制執(zhí)行等不同的子模塊,這種模塊化的方法雖然可以使車輛實現(xiàn)簡單的自動駕駛,但可能導(dǎo)致整個系統(tǒng)的復(fù)雜性增加。另一種方法是基于深度神經(jīng)網(wǎng)絡(luò)的端到端自動駕駛框架,這種方法將所有傳感器原始數(shù)據(jù)作為輸入,網(wǎng)絡(luò)模型直接為車輛生成最終控制指令。該方法在降低復(fù)雜性的同時減少了不同領(lǐng)域所需的知識門檻。
近年來,深度學(xué)習(xí)已被廣泛應(yīng)用于自動駕駛領(lǐng)域。Pomerleau 提出了Alvinn[1],其在車道跟隨方面已得出不錯的實驗結(jié)果,可以僅使用單幀圖像作為輸入來預(yù)測轉(zhuǎn)向角度。相比于車道跟隨,城市駕駛?cè)蝿?wù)引入了很多新問題,城市道路上的交通環(huán)境復(fù)雜,需要考慮自車與目標(biāo)車、行人的交互,而單幀圖像無法為模型提供足夠的信息來預(yù)測下一步?jīng)Q策,從而產(chǎn)生了對時間信息的需求。此外,單幀圖像信息也無法充分表征復(fù)雜的交通流信息以及歷史連續(xù)駕駛行為對當(dāng)前時刻的影響。
為了解決城市駕駛?cè)蝿?wù)中交通環(huán)境復(fù)雜的問題,Codevilla 等[2]提出了條件模仿學(xué)習(xí),該方法通過專家意圖來指導(dǎo)模型的學(xué)習(xí),但該算法只能處理極少部分城市工況。同時,每個網(wǎng)絡(luò)分支僅根據(jù)專家意圖在城市駕駛場景的一個子集上進行訓(xùn)練,難以覆蓋所有城市道路工況。首先,由于決策動作在后續(xù)視頻幀中并不連續(xù)[3],這使得車輛在行駛過程中出現(xiàn)小幅振蕩;其次,該方法需要大量的訓(xùn)練數(shù)據(jù),且整個訓(xùn)練時間過長。
為了改善上述問題,本文提出了一種替代架構(gòu)。該架構(gòu)首先從安裝在自車前部的攝像頭獲取原始RGB 圖像序列,并進行數(shù)據(jù)預(yù)處理工作以增加數(shù)據(jù)的多樣性。然后將預(yù)處理后的數(shù)據(jù)輸入預(yù)訓(xùn)練網(wǎng)絡(luò)進行訓(xùn)練,使用卷積模塊提取必要的特征以學(xué)習(xí)適當(dāng)?shù)目刂茀?shù)。在卷積層之后,使用LSTM 網(wǎng)絡(luò)整合系統(tǒng)的時空上下文信息,LSTM 網(wǎng)絡(luò)旨在記住自車、交通參與者和道路的歷史狀態(tài)。最后,時空注意力模塊可以通過在LSTM 網(wǎng)絡(luò)層引入注意力機制來實現(xiàn),根據(jù)當(dāng)前輸入的圖像和歷史狀態(tài),計算出一個權(quán)重向量,該向量可以被用于對歷史狀態(tài)進行加權(quán)求和,從而得到一個更加關(guān)注重要歷史狀態(tài)的表示。而后,將學(xué)習(xí)到的特征與必要的車輛狀態(tài)信息聯(lián)接起來,將聯(lián)接后的向量輸入全連接層,最終學(xué)習(xí)并預(yù)測連續(xù)的轉(zhuǎn)向角、制動和油門。
本文提出了一種基于深度學(xué)習(xí)端到端的車輛運動規(guī)劃仿真方法,該方法遵循端到端的框架,直接從原始圖像序列中學(xué)習(xí)車輛控制策略。具體貢獻如下:
(1)提出了一種基于端到端規(guī)控框架的多級時空注意力長短期記憶網(wǎng)絡(luò),該網(wǎng)絡(luò)通過注意力機制整合歷史時序中幀間的時空關(guān)聯(lián)信息,從而實現(xiàn)車輛運動規(guī)劃的端到端學(xué)習(xí)。
(2)提出了一種基于過濾和擴充的數(shù)據(jù)平衡方法,在有效增加了有限數(shù)據(jù)集的多樣性的同時,平衡了不同場景的數(shù)據(jù)分布。
為探索不同架構(gòu)的性能以及架構(gòu)在不同組件下的表現(xiàn),從而研究端到端模型的自動駕駛能力,本節(jié)提出了一種基于深度神經(jīng)網(wǎng)絡(luò)的端到端模型,通過訓(xùn)練此模型以模仿專家駕駛行為。
本文構(gòu)建了模仿學(xué)習(xí)機制,其中模型將前向視景Oi、用戶意圖hi和外部狀態(tài)信息為模型輸入。其中,用戶導(dǎo)航意圖hi的one-hot 編碼向量,稱為導(dǎo)航輸入;外部環(huán)境的附加狀態(tài)信息,例如當(dāng)前車輛限速、車速和當(dāng)前的紅綠燈狀態(tài),由外部狀態(tài)信息si引入。改進后的模仿學(xué)習(xí)技術(shù)如式(1)所示,其中模型F通過擬合可學(xué)習(xí)參數(shù)θ來學(xué)習(xí)輸入(即oi、hi、si)和執(zhí)行動作ai之間的映射,以使損失L最小化。
圖1 展示了訓(xùn)練階段的流程框架。下部黑色虛線框代表不同歷史時刻的前視攝像頭輸入序列所構(gòu)成的滑動窗,中部為網(wǎng)絡(luò)模型示意圖和網(wǎng)絡(luò)訓(xùn)練模式流程圖,包括油門制動預(yù)測和轉(zhuǎn)向預(yù)測,上部紅色虛線框為與訓(xùn)練時間同步的真值序列主要包括轉(zhuǎn)向角、制動、油門。
圖1 訓(xùn)練階段的系統(tǒng)框架
在轉(zhuǎn)向預(yù)測模塊中,網(wǎng)絡(luò)輸出通過分類層,產(chǎn)生正弦轉(zhuǎn)向預(yù)測。在訓(xùn)練階段,分類層的輸出與正弦編碼的地面實況轉(zhuǎn)向角之間的損失使用RMSE 損失函數(shù)計算,如式(2)所示,其中,yi表示預(yù)測值表示真實值。訓(xùn)練后,當(dāng)系統(tǒng)處于測試部署階段時,轉(zhuǎn)向預(yù)測通過解碼器生成轉(zhuǎn)向角。
在油門制動預(yù)測中,網(wǎng)絡(luò)輸出通過全連接層來預(yù)測油門和制動值。在訓(xùn)練期間,使用MSE 均方誤差損失函數(shù)計算預(yù)測值和真值之間的損失,如式(3)所示。在部署測試階段,預(yù)測模塊的輸出會產(chǎn)生最終的油門和制動預(yù)測。
針對圖1中的網(wǎng)絡(luò)模型部分,本文設(shè)計了4種不同架構(gòu),分別是:單一時空卷積網(wǎng)絡(luò)(single CNN,SiNN)、融合時空卷積網(wǎng)絡(luò)(fusion CNN,F(xiàn)uNN)、長短期記憶卷積網(wǎng)絡(luò)(LSTM CNN,LsNN)以及多級時空注意力卷積網(wǎng)絡(luò)(attention LSTM CNN,AtLN),以對比論證自車與環(huán)境、交通參與者的歷史交互過程對當(dāng)前時刻決策的影響。
1.3.1 單一時空卷積網(wǎng)絡(luò)
單一時空卷積網(wǎng)絡(luò)模型,僅根據(jù)當(dāng)前時刻的自車與環(huán)境的交互信息進行決策規(guī)劃,即僅將當(dāng)前時刻的單幀圖像作為輸入,并通過CNN 進行前饋,網(wǎng)絡(luò)模型的完整體系結(jié)構(gòu)如圖2所示。
圖2 單一時空卷積網(wǎng)絡(luò)模型
1.3.2 融合時空卷積網(wǎng)絡(luò)
融合時空卷積網(wǎng)絡(luò)根據(jù)自車與環(huán)境、交通參與者的歷史交互過程對當(dāng)前過程進行決策輸出,以等權(quán)重融合多個時間步長的信息。如圖3 所示,該網(wǎng)絡(luò)在多個平行的CNN 級別中應(yīng)用不同的時空輸入信息,以有效提取每個時刻空間下不同外部狀態(tài)的不同特征。其中包含n個級別的CNN,n的大小與滑動窗體內(nèi)的序列長度一致,每個CNN 具有相同的結(jié)構(gòu)和不同時刻的輸入。此處使用concatente 進行特征融合,但是也表現(xiàn)出訓(xùn)練收斂速度慢且參數(shù)量較大的缺點。
圖3 融合時空卷積網(wǎng)絡(luò)模型
1.3.3 長短期記憶卷積網(wǎng)絡(luò)
長短期記憶卷積網(wǎng)絡(luò)模型如圖4 所示,根據(jù)自車與環(huán)境、交通參與者的歷史交互過程對當(dāng)前過程進行決策輸出,采用直接遞歸混合預(yù)測輸出。該網(wǎng)絡(luò)使用與FuNN 相同的特征提取結(jié)構(gòu),但其特征是按時間分布的,本模型與FuNN 的不同之處在于卷積層和分類器之間添加了一個具有10 個隱藏狀態(tài)的LSTM 模塊。卷積層的一系列輸出被送入LSTM模塊,每個時間步長產(chǎn)生的隱藏狀態(tài)被連接到序列的下一個輸入。在時間步t,輸出被引導(dǎo)到分類器中輸出轉(zhuǎn)向、油門和制動。
圖4 長短期記憶卷積網(wǎng)絡(luò)模型
1.3.4 多級時空注意力長短期記憶網(wǎng)絡(luò)
多級時空注意力長短期記憶網(wǎng)絡(luò),根據(jù)自車與環(huán)境、交通參與者的歷史交互過程對當(dāng)前過程進行決策輸出,為不同歷史時刻的輸入空間特征賦予不同的重要性并按照時間序分布,即使用注意力機制學(xué)習(xí)歷史序列中不同時空的權(quán)重,在本文中,使用“軟”注意力[4]的建模方式。如圖5 所示,AtLN 包括CNN、LSTM和空間注意力模塊。
圖5 多級時空注意力長短期記憶網(wǎng)絡(luò)模型
在時間步t,假設(shè)CNN層產(chǎn)生一組d個大小為n×m的特征圖,L=m×n,每個區(qū)域向量對應(yīng)于CNN 在不同圖像區(qū)域提取的特征。在軟注意力機制中,假設(shè)上下文向量zt由所有區(qū)域向量的加權(quán)和表示:
權(quán)重是根據(jù)區(qū)域向量的重要性來選擇的,它是由注意力網(wǎng)絡(luò)g學(xué)習(xí)得到的。注意力網(wǎng)絡(luò)g將LSTM 層產(chǎn)生的區(qū)域向量和隱藏狀態(tài)h(t-1)作為輸入,并輸出區(qū)域向量的對應(yīng)權(quán)重。該注意力網(wǎng)絡(luò)g是一個全連接層,其后跟著一個softmax函數(shù):
式中上下文向量zt輸入到LSTM 層。LSTM 層的輸出與全連接層相連,用于生成最終油門、轉(zhuǎn)向盤轉(zhuǎn)角和制動踏板值。
注意力網(wǎng)絡(luò)可以解釋為CNN 特征圖上的掩碼,它重新加權(quán)區(qū)域特征以獲得最有用的特征。因此,多級時空注意力長短期記憶模型在做出駕駛決策時獲得了選擇和關(guān)注重要區(qū)域的能力。此外,也有助于減少網(wǎng)絡(luò)中的參數(shù)量,以實現(xiàn)更快的模型訓(xùn)練和收斂。
轉(zhuǎn)向角預(yù)測通常根據(jù)傳感器輸入來預(yù)測連續(xù)的轉(zhuǎn)向角度;另一種方法則是將問題定義為分類任務(wù),通過網(wǎng)絡(luò)預(yù)測屬于每個轉(zhuǎn)向角區(qū)間的概率。
本文按照與Eraqi等[5]相同的設(shè)置,將包含10個神經(jīng)元的分類層引入轉(zhuǎn)向預(yù)測模塊的末端。此外,將tanh激活應(yīng)用于分類層,允許神經(jīng)元形成振幅為1 的正弦波。原始轉(zhuǎn)向角?對應(yīng)于正弦波的相移。在訓(xùn)練過程中,真值轉(zhuǎn)向角使用式(6)編碼為正弦值。Yi是輸出神經(jīng)元i的編碼目標(biāo)值,?是原始轉(zhuǎn)向角,?max是最大可能的原始轉(zhuǎn)向角。預(yù)測損失為預(yù)測波形和編碼的真值波形之間的RMSE值。在部署期間,分類層的輸出被解碼回轉(zhuǎn)向角。解碼通過將分類層的輸出擬合為正弦函數(shù)并返回其相移來完成:
本研究使用的三階段實驗流程如圖6所示。
圖6 本研究的三階段實驗流程
實驗軟硬件相關(guān)配置參數(shù)如表1所示。
表1 實驗設(shè)置
僅在理想環(huán)境中使用專家數(shù)據(jù)訓(xùn)練的模型可能無法學(xué)習(xí)如何從干擾中恢復(fù),為解決這個問題,本文采用了多種類型的駕駛行為數(shù)據(jù),使用Carla 的Autopilot[6]控制模式獲取專家駕駛行為數(shù)據(jù),從而在正確保持速度限制的同時實現(xiàn)車道中心駕駛。為獲取更多不穩(wěn)定的數(shù)據(jù),在Autopilot 的輸出控制信號中添加了一個隨機生成的噪聲值。這有可能導(dǎo)致車輛軌跡和速度的突然變化,并由Autopilot進行糾正。為消除訓(xùn)練集中誤操作行為的影響,只收集了Autopilot 對噪聲的響應(yīng)。最后,手動將車輛置于危險位置(例如駛向?qū)ο蜍嚨溃﹣慝@得從偶發(fā)事故狀態(tài)中糾偏的數(shù)據(jù)。
如圖7 所示,本文基于Carla 中仿真地圖Town01和 Town07 的多條驗證路徑完成訓(xùn)練數(shù)據(jù)采集。一部分訓(xùn)練數(shù)據(jù)是在沒有任何其他車輛的情況下獲取的,另一部分數(shù)據(jù)則是通過隨機生成一定數(shù)量(100~200)的其他車輛來獲取的。
圖7 Carla中仿真地圖Town01、Town07及其驗證路徑
本研究在中午和傍晚分別針對7 種不同的天氣條件進行了數(shù)據(jù)收集,包括晴天、陰天、小雨、中雨、大雨、雨后晴天以及多云潮濕,共計14 種不同的天氣/時間組合。圖8展示了在中午和傍晚時不同天氣條件下的部分示例。
圖8 不同天氣光照模擬結(jié)果
表2 中列出并描述了從Carla 中獲取的不同類型的數(shù)據(jù)。每個傳感器模型由仿真中單個渲染幀的數(shù)據(jù)組成,并以10 Hz的頻率抓取數(shù)據(jù)。本研究共收集了3.4 h的訓(xùn)練數(shù)據(jù),其中Town 01占2.4 h,Town 07占1.0 h。
表2 從Carla獲取的不同類型數(shù)據(jù)
在數(shù)據(jù)預(yù)處理階段,首先將采集的圖像需要下采樣到180×300 像素。其次,對于可分類的數(shù)據(jù),如行駛方向和速度限制及交通燈狀態(tài),使用one-hot編碼進行預(yù)處理。為了避免模型只學(xué)習(xí)方向和轉(zhuǎn)向之間的關(guān)系,對于交叉路口的方向命令,最多添加30 個時間步。此外,為了獲取更多樣本,將噪聲注入數(shù)據(jù)中以讓車輛自行糾偏。此外,還強制車輛在短時間內(nèi)向右或向左行駛,然后由Autopilot 進行糾偏。
在端到端學(xué)習(xí)框架中,數(shù)據(jù)集中目標(biāo)值分布的均衡性是一個非常重要的影響因素。如果在不平衡的數(shù)據(jù)集上訓(xùn)練模型,可能會因錯誤的引導(dǎo)而偏好某些決策。為了解決這個問題,通常通過過濾或擴充數(shù)據(jù)樣本以平衡數(shù)據(jù)集。然而,在遞歸網(wǎng)絡(luò)中,保持數(shù)據(jù)集的時間信息非常重要。因此,本研究使用并對比了兩種數(shù)據(jù)增強方法。
第一種數(shù)據(jù)擴充平衡方法通過復(fù)制和重組數(shù)據(jù)來保留盡可能多的時間信息。本研究將數(shù)據(jù)集中的每一輪分割成5 個片段池:直道、左轉(zhuǎn)、右轉(zhuǎn)、直線車道跟隨和車道跟隨彎道。然后,通過從其中一個片段池中隨機選擇一個片段來構(gòu)建平衡數(shù)據(jù)集。這些選擇是基于加權(quán)選擇和數(shù)據(jù)重組完成的[7],并根據(jù)每個池的平均段長度與最高平均段長度的比較確定權(quán)重,從而更多地擴充具有較少信息的場景類型。規(guī)定轉(zhuǎn)向歸一化變量介于-1和1之間,轉(zhuǎn)向閾值高于0.5 的樣本進行5 倍上采樣,閾值0.1-0.5 的樣本進行2 倍上采樣;紅綠燈制動樣本3 倍上采樣,限速60 km/h 的樣本3倍上采樣,限速90 km/h 的樣本2倍上采樣。使用池中的所有場景片段后,該類型的選擇將重新開始。該方法可以保留時間信息,但需要進行數(shù)據(jù)重復(fù)。
第二種數(shù)據(jù)平衡方法則沒有數(shù)據(jù)重復(fù)。將數(shù)據(jù)集分成用于訓(xùn)練的正確序列長度的片段,這些片段由其最主要的導(dǎo)航命令表示。然后,在定序器中過濾丟棄并重組來實現(xiàn)數(shù)據(jù)集的平衡[3],對于車輛靜止或轉(zhuǎn)向角為0的數(shù)據(jù),采用0.7-0.9的閾值過濾去除此類數(shù)據(jù)。該方法不會干擾時間信息,但可能會在定序器中引入某些偏差。兩種平衡方法的結(jié)果如圖9所示。
如圖10(a)所示,可以發(fā)現(xiàn)平衡前的轉(zhuǎn)向角數(shù)據(jù)呈現(xiàn)出極不平衡的分布,而經(jīng)過了上述的過濾和擴充操作后,最終產(chǎn)生了如圖10(b)所示的分布情況。
此外,本文還對圖像樣本進行了包括亮度變化、高斯噪聲、高斯模糊、灰度變化、對比度增強等模擬[8],如圖11 所示。為了確保每次提取圖像時都以不同的方式增強圖像,本文會設(shè)置每次增強的概率和程度。從弱到強的增強形式為:軟、中軟、中、中硬、硬和超硬。
圖11 圖像增強效果
3.1.1 實驗設(shè)置
第一個實驗旨在從2.3 節(jié)描述的兩種方法中找出最佳的數(shù)據(jù)平衡策略。在同一數(shù)據(jù)集上訓(xùn)練了3 個模型,分別采用了不同的數(shù)據(jù)平衡策略:不使用數(shù)據(jù)平衡技術(shù)、使用過濾方法和使用擴充方法。在時間分布型網(wǎng)絡(luò)LsNN 和AtLN 中,綜合考慮模型訓(xùn)練效率和收斂速度,本實驗采用第1.3.3 節(jié)中描述的LsNN模型進行驗證,并通過模型單次實時測試運行的性能來衡量。
3.1.2 實驗結(jié)果
表3 的結(jié)果表明,在平衡后數(shù)據(jù)集上訓(xùn)練的模型比平衡前的表現(xiàn)要好得多。使用擴充平衡的訓(xùn)練模型在12k 步后達到了37.19%的平均性能,而使用過濾平衡的模型僅完成了20.89%。擴充平衡模型在達到24k 訓(xùn)練步數(shù)之后,其測試結(jié)果在傍晚光照條件下表現(xiàn)更好,但在中午光照條件下表現(xiàn)更差。
表3 使用不同平衡方法的路線平均完成情況
表4 的實驗結(jié)果表明:未經(jīng)平衡訓(xùn)練的模型往往會忽略導(dǎo)航命令;使用過濾平衡方法的模型則主要是因為駛?cè)雽ο蜍嚨蓝?。此外,還有發(fā)生物體碰撞的可能,雖然沒有直接導(dǎo)致測試失敗,但可能會導(dǎo)致車輛被卡住,從而結(jié)束本回合測試。另外,在采用過濾平衡的數(shù)據(jù)集上訓(xùn)練的模型表現(xiàn)較差,這可能與數(shù)據(jù)集規(guī)模過小有關(guān)。
3.2.1 實驗設(shè)置
本實驗旨在比較直接回歸和正弦編碼分類的相關(guān)特性,訓(xùn)練了兩個模型:LsNN 和LsNN+sine。兩個模型都使用了長度為10 的序列,并進行了23k 步的訓(xùn)練。
3.2.2 實驗結(jié)果
表5 中的實驗結(jié)果表明,正弦編碼架構(gòu)的性能優(yōu)于直接回歸,平均完成了70.21%的路線,而直接回歸只完成了41.88%。值得注意的是,正弦編碼模型在不同天氣條件下的表現(xiàn)更加一致。表6 展示了每個模型在測試中發(fā)生的失敗類型和對應(yīng)次數(shù)。正弦編碼模型的大多數(shù)失敗是由于它忽略了給定的導(dǎo)航命令,而整體錯誤數(shù)比直接回歸少。
表5 使用和不使用正弦編碼的路線平均完成情況
表6 使用和不使用正弦編碼的總失敗次數(shù)
綜上所述,正弦編碼模型的表現(xiàn)明顯比回歸模型更穩(wěn)定。
3.3.1 實驗設(shè)置
本實驗旨在通過消融實驗來確定自車與環(huán)境、交通參與者的歷史交互過程對當(dāng)前時刻決策的影響,以及時間和空間信息對模型的影響,并探究使用時空注意力機制是否對任務(wù)產(chǎn)生正向影響。為達到消融實驗?zāi)康模緦嶒灨鶕?jù)1.3節(jié)訓(xùn)練了4個不同的模型。
3.3.2 實驗結(jié)果
根據(jù)表7 的實驗結(jié)果,SiNN 模型的性能表現(xiàn)最差,平均只完成了17.39%的路線。實際上,在幾乎所有天氣條件下的表現(xiàn)都只有15.79%,除了在“大雨&中午”的情況下達到了30.47%。FuNN 模型表現(xiàn)倒數(shù)第二,平均完成率為38.01%。而LsNN 和AtLN 模型表現(xiàn)出對時間維度信息的依賴,其平均完成率分別為70.21%和72.35%。從表8 中可以看出,SiNN 和FuNN 模型的失敗大多是由于忽略導(dǎo)航命令導(dǎo)致的,其駕駛表現(xiàn)非常不穩(wěn)定,在轉(zhuǎn)彎處轉(zhuǎn)彎半徑過大導(dǎo)致駛?cè)雽γ孳嚨罒o法恢復(fù)。由于缺少時間維度信息,且復(fù)雜度較低,SiNN 和FuNN 無法學(xué)習(xí)比車道跟隨更復(fù)雜的導(dǎo)航場景。
表7 不同架構(gòu)的道路平均完成率
表8 使用不同架構(gòu)的總失敗次數(shù)
如圖12 所示,AtLN 模型在約25 個訓(xùn)練周期后實現(xiàn)了0.1 的損失。在驗證損失方面,其最佳結(jié)果出現(xiàn)在30 個訓(xùn)練周期之后,驗證損失為0.083 2。通過實驗對比數(shù)據(jù),證明了時間維度信息和注意力機制對于車輛運動控制任務(wù)產(chǎn)生了正向影響。如圖13 和圖14 所示,對于連續(xù)變道和車道保持工況,因為車輛不能瞬間改變轉(zhuǎn)向角度,所以車輛實際轉(zhuǎn)向并沒有神經(jīng)網(wǎng)絡(luò)直接輸出那么劇烈。與此相反,智能體可以比較準(zhǔn)確地模仿人類駕駛行為。智能體需要具備一定的實時交互能力,以便在路況變化時及時做出反應(yīng),更好地適應(yīng)城市交通環(huán)境,并提高行駛的舒適度和安全性。
圖12 時空上模型的訓(xùn)練損失和驗證損失
圖13 車輛在連續(xù)變道中的速度與轉(zhuǎn)向角變化曲線
圖14 車輛在車道保持中的速度與轉(zhuǎn)向角變化曲線
本文提出了一種用于自動駕駛端到端仿真的多級時空注意力長短期記憶網(wǎng)絡(luò),旨在解決現(xiàn)有端到端的深度學(xué)習(xí)自動駕駛框架中預(yù)測精度低的問題,以便更好地體現(xiàn)虛擬仿真測試中自車與環(huán)境、交通參與者的歷史交互過程對當(dāng)前時刻決策的影響。該算法通過提取和表征自動駕駛環(huán)境的深層抽象信息,在仿真平臺中實現(xiàn)端到端車輛的運動控制。實驗結(jié)果表明,本文所提出的方法相比典型算法更能夠精確地模仿人類駕駛決策行為。因此,該算法具有較高的理論研究價值,可以用于自動駕駛端到端車輛運動規(guī)劃方法研究。未來,本研究將進一步優(yōu)化端到端算法實際落地應(yīng)用場景,以更好地推動自動駕駛技術(shù)的發(fā)展和應(yīng)用。