摘要:針對自動駕駛汽車車載嵌入式計算平臺存儲和計算資源有限、車輛未來軌跡具有不確定性、周圍環(huán)境信息復雜多變的問題,提出了一種基于MobileNeXt搭建的輕量級多模態(tài)車輛軌跡預測算法(CAM-MobileNeXt)。首先,利用MobileNeXt輕量級框架,構建了參數量和計算量均較少的車輛軌跡預測模型;其次,通過將單模態(tài)軌跡預測調整為多模態(tài)軌跡預測,以預測目標車輛可能存在的多條未來軌跡;最后,引入注意力機制,使其具備從眾多輸入信息中篩選出重要信息的能力,從而高效分配有限的存儲和計算資源。在L5級別自動駕駛車輛軌跡數據集Lyft上開展軌跡預測實驗,結果表明:所提算法具備較低的參數量和計算量,預測性能優(yōu)于Lyft基線方法ResNet50;與MobileNeXt相比,所提算法在Lyft數據集上的損失值降低了11.9%,最終位移誤差降低了7.4%,平均位移誤差降低了11.4%。所提算法適合部署在自動駕駛汽車的車載嵌入式計算平臺上,在對自動駕駛汽車的周圍車輛進行準確多模態(tài)軌跡預測,以保證自動駕駛汽車安全行駛方面具有良好的應用前景。
關鍵詞:車輛軌跡預測;輕量級網絡;多模態(tài);注意力機制
中圖分類號:TP391.4 文獻標志碼:A
DOI:10.7652/xjtuxb202406002 文章編號:0253-987X(2024)06-0014-10
A Lightweight Multi-Modal Vehicle Trajectory Prediction Algorithm
LI Zhenni, SUN Hui, HAO Zitong, XIAO Dong
(School of Information Science and Engineering, Northeastern University, Shenyang 110819, China)
Abstract:Aiming at the limited storage and computing resources of the embedded computing platform of self-driving vehicles, the uncertainty of future trajectory of the vehicle, and the complex and changeable surrounding environment information, a lightweight multimodal vehicle trajectory prediction algorithm (CAM-MobileNeXt) based on MobileNeXt is proposed. Firstly, a vehicle trajectory prediction model with fewer parameters and computations is constructed based on the MobileNeXt lightweight framework. Secondly, the trajectory prediction is adjusted from unimodal to multimodal to predict multiple potential future trajectories that may exist for the target vehicle. Finally, attention mechanism is introduced to enable the system to screen out important information and efficiently allocate limited storage and computing resources. In experiments conducted on the Lyft dataset for Level 5 autonomous vehicle trajectories, the results show that the proposed algorithm exhibits lower parameter and computational requirements, while outperforming the Lyft baseline method, ResNet50, in predictive performance. Compared with MobileNeXt, the proposed algorithm has an 11.9% reduction in loss values on the Lyft dataset. It also exhibits a decrease of 7.4% in final displacement error and an 11.4% reduction in average displacement error. The proposed algorithm is suitable to be deployed on the embedded computing platform of self-driving vehicles, and performs accurate multi-modal trajectory prediction for the surrounding vehicles to ensure the safe driving of self-driving vehicles, indicating good application prospects.
Keywords:vehicle trajectory prediction; lightweight network; multi-modal; attention mechanism
自動駕駛系統(tǒng)由感知、決策、控制等多個模塊組成[1]。感知模塊負責處理車載傳感器采集的環(huán)境信息,并對車輛自身進行定位;決策模塊負責規(guī)劃車輛行駛路徑,并對車輛行為進行實時決策;控制模塊接收決策模塊傳來的控制指令,根據控制算法與執(zhí)行機構的狀態(tài)對車輛運動進行控制。
軌跡預測模塊在自動駕駛系統(tǒng)中扮演著關鍵的角色,作為感知模塊與決策模塊之間的橋梁承擔著重要任務。一旦感知模塊獲取并傳遞環(huán)境信息后,預測模塊需要根據提供的環(huán)境信息對周圍車輛的未來軌跡進行預測,決策模塊再根據預測結果進行安全可行的路徑規(guī)劃和行為決策,提前規(guī)避潛在的碰撞或危險情況。正確的軌跡預測意味著感知模塊檢測到的環(huán)境信息能夠對后續(xù)的決策模塊和控制模塊產生積極的影響,從而提前規(guī)避風險,降低事故發(fā)生的可能性,為人類帶來更安全、更舒適的駕駛體驗。
目前,車輛軌跡預測算法大體可分為3類,分別為基于波形處理的車輛軌跡預測算法[2-3]、基于機器學習的車輛軌跡預測算法[4]和基于深度學習的車輛軌跡預測算法[5]。使用卡爾曼濾波算法的前提是系統(tǒng)狀態(tài)模型已知,但由于目前還未能針對車輛行駛的軌跡信息建立出較好的數學模型,故卡爾曼濾波算法在車輛軌跡預測中往往不具有很好的效果?;跈C器學習的車輛軌跡預測算法在車輛行駛軌跡數據已知的情況下能夠具有較好的效果,但此類算法往往只能使用短期內的車輛歷史軌跡,對具有長期依賴關系的軌跡難以做到精確建模,且處理非結構化數據時對模型的依賴性較大,在實際應用中可能會受到數據的限制。
深度學習近年來發(fā)展迅速,卷積神經網絡(convolutional neural network, CNN)的廣泛研究與應用使得人們可以提取大規(guī)模圖像數據的特征,循環(huán)神經網絡(recurrent neural network, RNN)的提出使得人們可以處理大規(guī)模的具有長期依賴關系的序列數據。趙健等[6]提出了一種結合意圖預測的RNN模型,通過分析序列數據來預測車輛軌跡。Kawasaki等[7]將卡爾曼濾波與長短時記憶網絡(long short-term memory, LSTM)相結合,用于車輛的軌跡預測。此外,還有學者使用生成式對抗網絡(generative adversarial network,GAN)[8]學習歷史數據的分布以生成多樣化的軌跡,但其訓練困難,很容易導致模式崩潰??紤]到實時系統(tǒng)限制的問題,并為了捕獲空間的相關性,包括道路和交互等因素,研究人員引入包含豐富語義信息的高精地圖,使用CNN模型進行軌跡預測[9]。Nikhil等[10]認為CNN模型在軌跡預測建模方面優(yōu)于RNN模型,因為軌跡本質上是連續(xù)的,沒有復雜的狀態(tài),而深層CNN模型作為一個高魯棒性、高靈活性且高容量的函數逼近器,能夠很好地模擬預測任務中輸入與輸出之間的復雜關系。此外,CNN模型還可以通過高效的卷積運算捕獲數據中的空間和時間相關性。有研究者的實驗結果表明:實時軌跡預測中,CNN模型能夠比RNN模型具有更好的表現,這是由于該類方法考慮了交通參與者和環(huán)境之間的相關性,將歷史的感知信息處理成光柵化鳥瞰圖(bird’s-eye-view, BEV)圖像訓練CNN模型,使其可以從圖像中提取場景上下文信息,捕捉不同交通場景中的模式和依賴關系,從而使預測軌跡更逼近真實軌跡[11]。Gilles等[12]也使用了類似的方法,將每個交通參與者的周圍環(huán)境編碼成柵格化圖像作為CNN模型的輸入,并輸出熱力圖表示車輛的未來運動。Ye等[13]將點云學習的方法引入軌跡預測以捕獲時間和空間的相關性,用于預測未來時間步的車輛軌跡,但該類方法在對動態(tài)交通場景的長期依賴建模和復雜特征表達方面仍存在一定不足。為此,研究人員將深度學習中的注意力機制(attention mechanism,AM)應用于軌跡預測,從大量信息中快速過濾出有價值的信息以緩解這一問題。Lin等[14]提出了一種結合注意力的RNN模型,將其應用于預測車輛在高速公路上的運動軌跡。Cai等[15]提出了環(huán)境注意力網絡(environment-attention network, EA-Net),用于捕獲車輛與駕駛環(huán)境間的交互信息。然而,上述算法由于體積較大,因而導致推理效率不高。顯然,想要在自動駕駛汽車中實現軌跡預測模塊,仍存在一些實際的限制問題[16]:①自動駕駛汽車車載嵌入式計算平臺的存儲和計算資源有限;②由于車輛的軌跡具有不確定性,自動駕駛汽車在行駛過程中需要預測其周圍車輛不只一種可能的未來行駛軌跡,以保證車輛安全行駛;③由于相機運動、光照變化、物體遮擋等因素的影響,自動駕駛汽車的車載傳感器采集到的周圍環(huán)境信息復雜多變。
針對以上問題,本文提出了一種基于深度學習MobileNeXt算法的輕量級多模態(tài)車輛軌跡預測算法(CAM-MobileNeXt)。該算法的網絡參數量和計算量較少,適合部署在存儲和計算資源有限的自動駕駛汽車上,能對自動駕駛汽車周圍車輛多種可能的未來軌跡進行預測。算法融合了坐標注意力(coordinate attention,CA)機制,具備從眾多的輸入信息中篩選出重要信息的能力,從而能夠高效分配有限的計算資源。實驗結果表明:提出的輕量級算法適合部署在存儲和計算資源有限的自動駕駛汽車上,能以較高的準確度完成多模態(tài)軌跡預測,從而保證自動駕駛汽車的安全行駛。
1 CAM-MobileNeXt算法描述
1.1 CAM-MobileNeXt算法設計
基于MobileNeXt基礎模型,本文提出了CAM-MobileNeXt軌跡預測算法融合CA注意力機制,對自動駕駛汽車周圍車輛多種可能的未來軌跡進行預測。
CAM-MobileNeXt網絡的整體結構如圖1所示,其中青綠色軌跡點為預測坐標軌跡點。車輛軌跡預測模型的第一層為尺寸為3×3的卷積層,用于接收包含目標車輛歷史軌跡信息與周圍環(huán)境信息的輸入圖像數據,其圖像大小為224×224 像素,通道維度則由模型選取的歷史軌跡的幀數決定。該尺寸為3×3卷積層的卷積步長為2,卷積核個數為32。
在第一層卷積層之后,堆疊19個融合CA注意力的沙漏模塊。在堆疊的沙漏模塊之后,設置了一個全局平均池化層,用于將二維特征壓縮為一維特征。車輛軌跡預測模型的最后一層是一個尺寸為1×1的卷積層,用于輸出目標車輛未來一段時間的二維預測軌跡坐標點以及每條預測軌跡的概率。
1.2 沙漏模塊設計
從AlexNet[17]到VGGNet[18]、GoogLeNet[19],卷積神經網絡的發(fā)展日趨成熟。隨著網絡性能的提高,網絡的參數量和計算量也隨之增加,很難部署和運行在存儲空間和處理器性能有限的移動設備上。為解決該問題,輕量級神經網絡應運而生。MobileNet[20]系列網絡是專門為移動設備而設計的輕量級網絡,旨在提高深度網絡在有限硬件條件下的實時性能。MobileNetV1使用深度可分離卷積替代標準卷積。MobileNetV2繼承了MobileNetV1的深度可分離卷積,同時借鑒了ResNet[21]中的殘差模塊,提出引入跳躍連接的逆殘差模塊,如圖2(a)所示。MobileNetV3在MobileNetV2的基礎上改進了激活函數,使用了h-swish激活函數,還引入了壓縮激勵(squeeze and excitation,SE)模塊,令網絡通過學習自動獲取到每個特征通道的重要性權重,并利用這些權重對特征進行加權處理,使網絡能夠更有效地利用特征信息,性能得到了提高[22]。
本文提出的基于MobileNeXt的車輛軌跡預測算法的沙漏模塊結構與逆殘差模塊不同,如圖2(b)所示,其使用卷積核大小為3×3的深度卷積和卷積核大小為1×1的逐點卷積。在逆殘差模塊,先升維,再卷積,后降維;在沙漏模塊中為了將快捷連接構建在高維特征空間,反轉兩個逐點卷積的順序先降維,后升維,在沙漏模塊中間形成瓶頸,并在第一個深度卷積和用于升維的逐點卷積后添加ReLU6激活函數。沙漏模塊將快捷連接構建在了高維特征空間,有效地緩解了信息丟失和梯度消失問題。在反向傳播過程中,高維特征空間構建的快捷連接能夠傳播更多的梯度,緩解了梯度消失問題。
此外,沙漏模塊將深度卷積應用在高維特征空間而不是中間的低維瓶頸中,用于學習到更多空間特征,從而提高模型的性能。已有的經驗表明:在最后一次卷積運算后添加激活函數會對模型的性能產生負面影響[23],因此在沙漏模塊最后的深度卷積后也不添加非線性激活函數。此外,在每一次深度卷積與逐點卷積后,都進行一次批標準化操作。在一系列沙漏模塊中,只有該系列第一個沙漏模塊的卷積步長設置為2,其他沙漏模塊的卷積步長都設置為1。當輸入特征與輸出特征的通道數不同時,沙漏模塊內部不使用快捷連接。
注意力機制的核心思想是從眾多輸入信息中篩選出對當前任務目標更重要的信息,以提高信息處理的效率與準確性[24]。引入輕量級注意力機制,應重點關注對當前任務更重要的信息,忽略其他非重要的信息,從而高效分配有限的計算資源,且在略微增加存儲和計算成本的情況下顯著提升車輛軌跡預測算法的性能。為了驗證本文提出的CAM-MobileNeXt軌跡預測算法性能,基于SE、卷積注意力模塊(convolutional block attention module,CBAM)以及CA 注意力機制設計了3種融合注意力機制的沙漏模塊,分別命名為SE-Sandglass模塊、CBAM-Sandglass模塊和CA-Sandglass模塊。其中,用于本文提出的CAM-MobileNeXt軌跡預測算法的CA-Sandglass模塊設計如圖3所示,H、W、C、r分別表示圖像的通道數、高、寬和通道降維率。
SE注意力機制使用二維全局池化將全局空間信息壓縮到通道描述符中[25]以生成通道注意力,使網絡通過學習得到特征圖中不同通道特征的重要性權重。同時,為了減少模型的參數量,使用1×1卷積層替代全連接層,但其只考慮通道信息而忽略了空間位置信息。CBAM注意力機制融合了通道注意力與空間注意力,輸入特征首先經過通道注意力模塊獲取通道注意力,再經過空間注意力模塊獲取空間注意力,依次捕獲各個特征在通道和空間上的相關性[26]。然而,CBAM注意力機制通過卷積提取空間位置注意力信息,卷積只能捕獲局部關系,無法建立長程依賴關系。
CA注意力機制不僅捕獲通道注意力信息,還捕獲方向感知和位置敏感的空間注意力信息[27]。在CA模塊中,為了減輕由二維全局池化引起的位置信息丟失,坐標注意力先將通道注意力的二維全局池化分解為兩個一維池化,分別沿兩個空間方向聚合特征,生成一對具有全局感受野且保留了精確位置信息的坐標描述矩陣;再將兩個坐標描述矩陣分別編碼,采用Sigmoid激活函數生成一對方向感知和位置敏感的坐標注意力特征,沿著一個空間方向捕獲長程依賴關系,并沿著另一個空間方向保留精確的位置信息;最后將兩個坐標注意力特征互補地作用于輸入特征,以增強對關注對象的表示。輸入模型的圖像數據經過多個堆疊的融合CA注意力的沙漏模塊,利用有限的計算資源自動學習圖像特征的重要程度并關注重要特征,能夠顯著提升網絡的特征表達能力,提高了網絡性能。因此,相較于SE注意力機制和CBAM注意力機制,CA注意力機制可以使網絡獲得更好的性能。
1.3 多模態(tài)損失函數設計
為了評估與優(yōu)化多模態(tài)車輛軌跡預測模型的性能,本文設計了一種基于負對數似然(negative log-likelihood, NLL)的多模態(tài)損失函數。假設真實軌跡點s=(x,y),其中x為真實軌跡橫坐標,y為真實軌跡縱坐標;預測軌跡點=(,),其中為預測軌跡橫坐標,為預測軌跡縱坐標。
2 實驗與分析
2.1 數據集及評估指標
本文選用Lyft數據集驗證車輛軌跡預測算法的性能。該數據集是迄今全球最大的L5級別自動駕駛車輛軌跡數據集,包含超過1 000 h、26 000 km的數據[28]。該數據集由17萬個場景組成,每個場景約25s,包含了自動駕駛車輛遇到的汽車、自行車、行人等交通參與者的軌跡信息,還包含了帶有15 242個標記元素的高清語義鳥瞰圖與衛(wèi)星地圖,如圖4所示。圖4(a)為光柵化后的語義地圖,可選擇不同的圖塊和線條用以標記道路結構和交通參與者。圖4(b)為衛(wèi)星的航拍地圖,并標記了交通參與者。該數據集支持多種方式對原始數據進行有效采樣,以實現對交通場景的精確建模。因此,本文選用該數據集驗證車輛軌跡預測算法的性能。
在Lyft數據集中,原始數據可用圖像形式表示。該圖像是由多種傳感器(激光雷達、GPS、慣性傳感器等)采集的原始數據進行處理得到,其將環(huán)境信息光柵化為像素,以0.5 m的圖像分辨率呈現,大小為224×224像素。語義鳥瞰圖圖像數據的可視化結果如圖5所示,單幀的數據包含了3種圖像,分別為單通道的目標車輛語義鳥瞰圖、單通道的周圍障礙物語義鳥瞰圖和3通道 RGB格式的道路語義鳥瞰圖。圖5(a)和5(b)以黑色矩形框繪制車輛、行人等交通代理,顯示其長、寬、位置及航向角等信息(通過平移和旋轉整個場景以使目標車輛位于圖像中央且與X軸對齊)。為了保持一致,所有代理的坐標都采用相同的局部坐標系。圖5(c)顯示了道路結構、車道線、交通信號等環(huán)境信息,其中黑色區(qū)域表示道路,彩色車道邊界表示紅綠燈狀態(tài),如綠色車道表示綠燈亮起。歷史多幀的多通道語義鳥瞰圖包含目標車輛及周圍代理歷史狀態(tài)等動態(tài)信息和道路結構等靜態(tài)信息,其可視化結果如圖5(d)所示,其中綠色矩形為目標車輛,藍色矩形為其他交通參與者。
本文將圖5所示圖像作為車輛軌跡預測模型的輸入,通過計算,輸出目標車輛未來一段時間的多模態(tài)軌跡。輸入圖像數據通道維度由模型選取的車輛歷史軌跡的幀數決定,計算公式為
nchannelsin=2nframeshistory+3(7)
式中:nchannelsin為輸入圖像數據通道數;nframeshistory為歷史軌跡幀數。
車輛軌跡預測模型的輸出數據為目標車輛可能存在的多條預測未來軌跡的二維坐標點以及每條軌跡的概率,其特征維度的計算公式為
nframesout=2mnframesfuture+m(8)
式中:nframesout為多模態(tài)輸出軌跡數據特征數;2mnframesfuture為未來軌跡的幀數。
為了評價車輛預測算法的性能,本文選用3種車輛軌跡預測算法評價指標,分別為時間位移誤差、平均位移誤差和最終位置誤差。時間位移誤差(time displacement error, TDE)定義為預測時間范圍內某一時間步的預測位置與真實位置之間的距離。平均位移誤差(average displacement error, ADE)定義為預測時間范圍內所有時間步的預測位置與真實位置之間距離的平均值。最終位移誤差(final displacement error, FDE)定義為預測最終位置與真實最終位置之間的距離。不考慮預測時間范圍內其他時間步長產生的誤差,所定義的3種誤差指標越小,算法的預測精度越高。3種誤差的計算公式分別為
EiTDE=‖yipred-yitarget‖2(9)
EADE=∑ti=1‖yipred-yitarget‖2t(10)
EFDE=‖yfinalpred-yfinaltarget‖2(11)
式中:EiTED為i時刻的時間位移誤差;EADE為平均位移誤差;EFDE為最終位移誤差;yipred為i時刻的預測位置;yitarget為i時刻的真實位置;yfinalpred為預測最終位置;yfinaltarget為真實最終位置。
在輕量化模型評估中,除了預測精度外,參數量和計算量同樣至關重要。參數量是指模型的可學習參數數量,其數量的減少有助于節(jié)省存儲空間和內存,提升模型加載速度。計算量則代表模型所需的計算資源,低計算量意味著對資源的需求減少,可更快實現推理任務,滿足實時性需求。
綜上,一個合格的輕量級軌跡預測模型需要在模型的參數量、計算量和準確度之間實現平衡,在設備的存儲空間和處理器性能有限的前提下達到滿足任務需求的準確性。
2.2 實驗設置
本文算法基于Pytorch1.7深度學習框架進行開發(fā),在NVIDIA 2080Ti GPU進行深度學習模型的訓練。為了驗證本文提出的輕量級多模態(tài)車輛軌跡預測算法各模塊的有效性,在Lyft數據集上實驗了多種不同的車輛軌跡預測算法,分別比較了ResNet50、MobileNetV2、MobileNetV3、MobileNeXt、SE-MobileNeXt、CBAM-MobileNeXt和CAM-MobileNeXt模型的性能。其中,ResNet50模型為Lyft數據集官方提供的基準模型。
在數據參數方面,將歷史軌跡幀數設置為 10,模型的輸入為目標車輛1.0s (10 幀)的歷史軌跡;將預測軌跡幀數設置為50,模型的輸出為目標車輛5.0s (50幀)的預測軌跡;將預測軌跡的模態(tài)數設置為3,模型輸出目標車輛未來可能行駛的3條預測軌跡。由于Lyft數據集數據量巨大,為了減少訓練時間和硬件消耗,僅使用數據集中10%的數據訓練車輛軌跡預測模型。將訓練樣本數量設置為23355429,批樣本數量設置為128,模型在訓練數據上累計迭代約18萬次。
在模型參數方面,為了使各輕量級模型的參數量和計算量大致相同,將MobileNetV2模型的寬度超參數設置為1.0,MobileNetV3模型的寬度超參數設置為0.75,MobileNeXt、SE-MobileNeXt、CBAM-MobileNeXt和CA-MobileNeXt模型的通道超參數均設置為1.0,SE-MobileNeXt、CBAM-MobileNeXt和CA-MobileNeXt模型的通道降維率均設置為16。
在訓練參數方面,將優(yōu)化器設置為隨機梯度下降(stochastic gradient descent,SGD)優(yōu)化器,其動量設置為0.9,權重衰減設置為4×10-5;將學習率設置為指數衰減學習率,其初始學習率設置為0.1,衰減率設置為0.95。
2.3 實驗結果與分析
不同多模態(tài)車輛軌跡預測算法在Lyft數據集上的實驗結果如表1所示,各模型的性能及模型參數量與計算量的對比結果如圖6所示。
由圖6可見,MobileNeXt模型的性能全面優(yōu)于基準模型,前者的時間位移誤差和參數量顯著降低,計算量也下降了19.8%。此外,經過計算可知,在參數量和計算量大致相同的情況下,MobileNeXt模型在各項數據指標中均優(yōu)于輕量級網絡MobileNetV2和MobileNetV3模型,其損失值為21.64,最終位移誤差為0.81m,平均位移誤差為0.44m。
在MobileNeXt的基礎上分別融合SE、CBAM、CA 3種注意力機制,雖然會導致模型的參數量和計算量略大于原模型,但模型的預測精度均有一定提高。經過計算發(fā)現,本文設計的融合CA注意力的CAM-MobileNeXt模型預測準確度最高,其損失值為19.06,平均位移誤差為0.39m,最終位移誤差為0.75m。雖然該模型的參數量相較于輕量網絡MobileNetV2、MobileNetV3、MobileNeXt分別增長了33.6%、12.7%、32.2%,但平均位移誤差分別下降了20.4%、17%、11.4%。
此外,在參數量和計算量相似的情況下,CAM-MobileNeXt模型在預測性能上優(yōu)于SE-MobileNeXt和CBAM-MobileNeXt模型,表現為各個時刻的時間位移誤差均低于SE-MobileNeXt和CBAM-MobileNeXt模型,且預測時間越長降低得越明顯,4s時的時間位移誤差分別下降了6.5%、4.9%,5s時的時間位移誤差分別下降了6.3%、5.1%。
綜上,相較于MobileNeXt等參數量和計算量均較小的輕量級系列模型,CAM-MobileNeXt在只稍微增加存儲和計算成本的情況下,實現了更高的預測精度。相較于其他模型,CAM-MobileNeXt的性能最優(yōu),在預測精度、參數量和計算量之間取得了良好平衡,能滿足輕量級網絡的要求。
選取多種場景下模型輸出的多模態(tài)軌跡中置信度最高即概率最大的預測結果作為展示,CAM-MobileNeXt輕量級多模態(tài)車輛軌跡預測算法的預測軌跡可視化結果如圖7所示。圖片以鳥瞰圖的形式,從自動駕駛車輛(self-driving vehicle, SDV)的視角展示了多種交通場景下周圍車輛的未來軌跡預測結果。場景中,使用矩形表示車輛,線條表示軌跡,彩色車道表示交通信號燈,并標注了自動駕駛車輛的運動軌跡。
圖7(a)為最常見的直行場景,此時SDV處于直行狀態(tài),預測同向車道的前后車輛以及鄰近對向車道車輛將會直行。
圖7(b)為路口紅燈場景,紅色車道表示當前SDV行駛方向的交通信號為紅燈,自動駕駛車輛處于等待狀態(tài),預測路口兩側車輛將直行通過路口,而SDV(紅色矩形)后方的車輛將會減速剎車,停在SDV后方與其一起等待交通信號燈變化。
圖7(c)為路口綠燈場景,綠色車道表示當前SDV行駛方向的交通信號為綠燈,自動駕駛車輛將直行通過路口,預測其同向車道的周圍車輛將會直行或向左轉彎進入另外車道,該路口兩側部分車輛的預測結果為保持停車趨勢,等待其他車輛通過路口。
以上可視化結果表明,本文設計的CAM-MobileNeXt算法對于待預測的目標車輛在轉彎、直行、停車、制動等常見的行駛場景,均能夠以較高的準確度完成多模態(tài)軌跡預測。
3 結論與展望
本文針對自動駕駛中車輛軌跡預測提出了一種CAM-MobileNeXt輕量級多模態(tài)車輛軌跡預測算法,其網絡的參數量和計算量較少,適合于部署和運行在移動和嵌入式設備;通過將單模態(tài)軌跡預測算法改進為多模態(tài)軌跡預測算法,對自動駕駛汽車周圍車輛多種可能的未來軌跡進行預測;融合CA注意力機制高效分配有限的計算資源,提高了模型的特征表達能力。仿真結果表明:本文設計的CAM-MobileNeXt輕量級多模態(tài)車輛軌跡預測算法在參數和計算成本較低的情況下,對于常見的交通場景能夠以較高的準確度完成多模態(tài)軌跡預測。
該算法適合部署在存儲和計算資源有限的自動駕駛汽車上,能夠輔助車輛安全行駛,但仍存在一定的不足和局限。由于算法尚未經過實際場景的部署和驗證,因此車輛感知系統(tǒng)獲取的數據可能會帶有噪聲,從而影響模型預測的準確性。在未來的工作中,可以探索預測算法與感知系統(tǒng)的整合與不確定性估計,提高算法的魯棒性。此外,也可在部署過程中結合使用網絡剪枝、量化和知識蒸餾等模型壓縮方法,以期構建出更加高效的輕量網絡應用于自動駕駛車輛。
參考文獻:
[1]段續(xù)庭, 周宇康, 田大新, 等. 深度學習在自動駕駛領域應用綜述 [J]. 無人系統(tǒng)技術, 2021, 4(6): 1-27.
DUAN Xuting, ZHOU Yukang, TIAN Daxin, et al. A review of deep learning applications for autonomous driving [J]. Unmanned Systems Technology, 2021, 4(6): 1-27.
[2]張亮修, 張鐵柱, 吳光強. 考慮誤差校正的智能車輛路徑跟蹤魯棒預測控制 [J]. 西安交通大學學報, 2020, 54(3): 20-27.
ZHANG Liangxiu, ZHANG Tiezhu, WU Guangqiang. Robust predictive control for intelligent vehicle path tracking considering error feedback correction [J]. Journal of Xi’an Jiaotong University, 2020, 54(3): 20-27.
[3]喬少杰, 韓楠, 朱新文, 等. 基于卡爾曼濾波的動態(tài)軌跡預測算法 [J]. 電子學報, 2018, 46(2): 418-423.
QIAO Shaojie, HAN Nan, ZHU Xinwen, et al. A dynamic trajectory prediction algorithm based on Kalman filter [J]. Acta Electronica Sinica, 2018, 46(2): 418-423.
[4]陳雪梅, 李夢溪, 王子嘉, 等. 無人駕駛車輛城市交叉口周邊車輛軌跡預測 [J]. 汽車工程學報, 2021, 11(4): 235-242.
CHEN Xuemei, LI Mengxi, WANG Zijia, et al. Trajectory prediction of surrounding vehicles for unmanned vehicle at urban intersections [J]. Chinese Journal of Automotive Engineering, 2021, 11(4): 235-242.
[5]李雪松, 張鍥石, 宋呈群, 等. 自動駕駛場景下的軌跡預測技術綜述 [J]. 計算機工程, 2023, 49(5): 1-11.
LI Xuesong, ZHANG Qieshi, SONG Chengqun, et al. Review of trajectory prediction technology in autonomous driving scenes [J]. Computer Engineering, 2023, 49(5): 1-11.
[6]趙健, 宋東鑒, 朱冰, 等. 數據機理混合驅動的交通車意圖識別方法 [J]. 汽車工程, 2022, 44(7): 997-1008.
ZHAO Jian, SONG Dongjian, ZHU Bing, et al. Traffic vehicles intention recognition method driven by data and mechanism hybrid [J]. Automotive Engineering, 2022, 44(7): 997-1008.
[7]KAWASAKI A, SEKI A. Multimodal trajectory predictions for urban environments using geometric relationships between a vehicle and lanes [C]//2020 IEEE International Conference on Robotics and Automation (ICRA). Piscataway, NJ, USA: IEEE, 2020: 9203-9209.
[8]GUO Hongyan, MENG Qingyu, ZHAO Xiaoming, et al. Map-enhanced generative adversarial trajectory prediction method for automated vehicles [J]. Information Sciences, 2023, 622: 1033-1049.
[9]CHOU F C, LIN T H, CUI Henggang, et al. Predicting motion of vulnerable road users using high-definition maps and efficient ConvNets [C]//2020 IEEE Intelligent Vehicles Symposium (IV). Piscataway, NJ, USA: IEEE, 2020: 1655-1662.
[10]Nikhil N, MORRIS B T. Convolutional neural network for trajectory prediction [C]//Computer Vision-ECCV 2018 Workshops. Cham, Germany: Springer International Publishing, 2019: 186-196.
[11]CASAS S, GULINO C, SUO S, et al. The importance of prior knowledge in precise multimodal prediction [C]//2020 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). Piscataway, NJ, USA: IEEE, 2020: 2295-2302.
[12]GILLES T, SABATINI S, TSISHKOU D, et al. HOME: heatmap output for future motion estimation [C]//2021 IEEE International Intelligent Transportation Systems Conference (ITSC). Piscataway, NJ, USA: IEEE, 2021: 500-507.
[13]YE Maosheng, CAO Tongyi, CHEN Qifeng.TPCN: temporal point cloud networks for motion forecasting [C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway, NJ, USA: IEEE, 2021: 11313-11322.
[14]LIN Lei, LI Weizi, BI Huikun, et al. Vehicle trajectory prediction using LSTMs with spatial-temporal attention mechanisms [J]. IEEE Intelligent Transportation Systems Magazine, 2022, 14(2): 197-208.
[15]CAI Yingfeng, WANG Zihao, WANG Hai, et al. Environment-attention network for vehicle trajectory prediction [J]. IEEE Transactions on Vehicular Technology, 2021, 70(11): 11216-11227.
[16]MOZAFFARI S, AL-JARRAH O Y, DIANATI M, et al. Deep learning-based vehicle behavior prediction for autonomous driving applications: a review [J]. IEEE Transactions on Intelligent Transportation Systems, 2022, 23(1): 33-47.
[17]KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks [J]. Communications of the ACM, 2017, 60(6): 84-90.
[18]SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition [EB/OL]. (2015-04-10)[2023-05-26]. https://arxiv.org/abs/1409.1556.
[19]SZEGEDY C, LIU Wei, JIA Yangqing, et al. Going deeper with convolutions [C]//2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway, NJ, USA: IEEE, 2015: 1-9.
[20]HOWARD A G, ZHU Menglong, CHEN Bo, et al. MobileNets: efficient convolutional neural networks for mobile vision applications [EB/OL]. (2017-04-17)[2023-06-10]. https://arxiv.org/abs/1704.04861.
[21]HE Kaiming, ZHANG Xiangyu, REN Shaoqing, et al. Deep residual learning for image recognition [C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway, NJ, USA: IEEE, 2016: 770-778.
[22]HOWARD A, SANDLER M, CHEN Bo, et al. Searching for MobileNetV3 [C]//2019 IEEE/CVF International Conference on Computer Vision (ICCV). Piscataway, NJ, USA: IEEE, 2019: 1314-1324.
[23]SANDLER M, HOWARD A, ZHU Menglong, et al. MobileNetV2: inverted residuals and linear bottlenecks [C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ, USA: IEEE, 2018: 4510-4520.
[24]張宸嘉, 朱磊, 俞璐. 卷積神經網絡中的注意力機制綜述 [J]. 計算機工程與應用, 2021, 57(20): 64-72.
ZHANG Chenjia, ZHU Lei, YU Lu. Review of attention mechanism in convolutional neural networks [J]. Computer Engineering and Applications, 2021, 57(20): 64-72.
[25]HU Jie, SHEN Li, SUN Gang. Squeeze-and-excitation networks [C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ, USA: IEEE, 2018: 7132-7141.
[26]WOO S, PARK J, LEE J Y, et al. CBAM: convolutional block attention module [C]//Computer Vision-ECCV 2018. Cham: Springer International Publishing, 2018: 3-19.
[27]HOU Qibin, ZHOU Daquan, FENG Jiashi. Coordinate attention for efficient mobile network design [C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway, NJ, USA: IEEE, 2021: 13708-13717.
[28]HOUSTON J, ZUIDHOF G, BERGAMINI L, et al. One thousand and one hours: self-driving motion prediction dataset [C]//Proceedings of the 2020 Conference on Robot Learning. Chia Laguna Resort, Sardinia, Italy: PMLR, 2021: 409-418.
(編輯 李慧敏 劉楊)