摘 要:針對(duì)因?yàn)楹雎攒囕v運(yùn)動(dòng)狀態(tài)而導(dǎo)致的車輛預(yù)測(cè)軌跡不準(zhǔn)確的問(wèn)題,提出了一種基于運(yùn)動(dòng)狀態(tài)的軌跡預(yù)測(cè)模型Movement-DenseTNT。首先,對(duì)交通參與者的軌跡信息和地圖信息以圖神經(jīng)網(wǎng)絡(luò)的方法進(jìn)行編碼;其次,使用LSTM提取車輛的運(yùn)動(dòng)狀態(tài)信息;然后,將場(chǎng)景編碼信息與在可行駛區(qū)域內(nèi)采樣得到的候選軌跡終點(diǎn)集合通過(guò)注意力機(jī)制的方式進(jìn)行信息融合,從而得到每個(gè)候選軌跡終點(diǎn)的概率值;最后,通過(guò)篩選得到最終的軌跡終點(diǎn)并進(jìn)行軌跡補(bǔ)全,以此得到準(zhǔn)確的軌跡預(yù)測(cè)結(jié)果。該模型在兩個(gè)基準(zhǔn)數(shù)據(jù)集上與九個(gè)基線模型進(jìn)行了比較,實(shí)驗(yàn)結(jié)果顯示,Movement-DenseTNT模型在四個(gè)常用評(píng)估指標(biāo)上優(yōu)于基線模型,驗(yàn)證了加入車輛運(yùn)動(dòng)信息可以有效提升車輛軌跡預(yù)測(cè)的精度。
關(guān)鍵詞:軌跡預(yù)測(cè);運(yùn)動(dòng)狀態(tài);注意力機(jī)制;圖神經(jīng)網(wǎng)絡(luò)
中圖分類號(hào):TP273"" 文獻(xiàn)標(biāo)志碼:A""" 文章編號(hào):1001-3695(2025)04-015-1080-05
doi: 10.19734/j.issn.1001-3695.2024.09.0295
Trajectory prediction method based on motion state
Gu Yifan, Mo Lei
(School of Automation, Southeast University, Nanjing 210096, China)
Abstract:Aiming at the problem of inaccurate vehicle prediction trajectory caused by ignoring the vehicle motion state, this paper proposed a trajectory prediction model based on the motion state named Movement-DenseTNT. Firstly, the trajectory information and map information of traffic participants were encoded using the graph neural network method. Secondly, it used LSTM to extract the motion state information of the vehicle. Then, it fused the scene coding information with the set of candidate trajectory endpoints sampled in the drivable area through the attention mechanism, so as to obtain the probability value of each candidate trajectory endpoint. Finally, by filtering out the final trajectory endpoint and completing the trajectory, it obtained an accurate trajectory. The model was compared with nine baseline models on two benchmark datasets. The experimental results show that the Movement-DenseTNT model is superior to the baseline model in four commonly used metrics. It verifies that adding vehicle motion states can effectively improve the accuracy of vehicle trajectory prediction.
Key words:trajectory prediction; motion state; attention mechanism; graph neural network(GNN)
0 引言
近年來(lái),自動(dòng)駕駛技術(shù)在工業(yè)界和學(xué)術(shù)界引起了廣泛關(guān)注和研發(fā)熱潮[1]。自動(dòng)駕駛系統(tǒng)利用車載傳感器感知道路環(huán)境,融合多種傳感器的信息[2],并根據(jù)融合得到的信息規(guī)劃車輛路徑,控制車輛的轉(zhuǎn)向和速度,確保車輛能夠安全地到達(dá)目的地[3]。軌跡預(yù)測(cè)作為自動(dòng)駕駛算法的一個(gè)重要組成部分,利用感知到的信息來(lái)預(yù)測(cè)周圍環(huán)境的演變,預(yù)測(cè)其他交通參與者在未來(lái)一段時(shí)間內(nèi)的軌跡和行駛意圖[4],從而使自動(dòng)駕駛車輛能夠更舒適、更安全地行駛[5]。
傳統(tǒng)的軌跡預(yù)測(cè)方法主要通過(guò)建模車輛的運(yùn)動(dòng)狀態(tài)來(lái)獲取車輛的狀態(tài)信息,常用的模型包括高斯混合模型和卡爾曼濾波。高斯混合模型通過(guò)將多個(gè)不同參數(shù)的高斯概率密度函數(shù)進(jìn)行線性組合,可以準(zhǔn)確地量化數(shù)據(jù)[6]。卡爾曼濾波則通過(guò)狀態(tài)反饋對(duì)無(wú)法直接觀測(cè)的變量進(jìn)行估計(jì),以實(shí)現(xiàn)最優(yōu)估計(jì)過(guò)程,同時(shí)也可以將其看作是濾波的過(guò)程[7]。然而,傳統(tǒng)的軌跡預(yù)測(cè)方法存在一些局限性。首先,這些方法只能捕捉簡(jiǎn)單的交互特征和交通參與者自身的狀態(tài),難以完全學(xué)習(xí)復(fù)雜軌跡的結(jié)構(gòu)特征和運(yùn)動(dòng)目標(biāo)之間的交互特征。其次,傳統(tǒng)方法只關(guān)注距離較近的目標(biāo)之間的建模,很難考慮到較遠(yuǎn)距離目標(biāo)之間的交互行為[8]。近年來(lái),深度學(xué)習(xí)在軌跡預(yù)測(cè)領(lǐng)域發(fā)展迅猛,并且基于數(shù)據(jù)驅(qū)動(dòng)的深度學(xué)習(xí)方法越來(lái)越受到關(guān)注。循環(huán)神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)、注意力機(jī)制、圖神經(jīng)網(wǎng)絡(luò)和生成對(duì)抗網(wǎng)絡(luò)等在軌跡預(yù)測(cè)中得到廣泛應(yīng)用[9],有效地解決了傳統(tǒng)方法無(wú)法建模復(fù)雜場(chǎng)景和融合交通參與者互動(dòng)信息的問(wèn)題[10]。例如,Ye等人[11]提出了一種圖自注意力網(wǎng)絡(luò),可以快速測(cè)量車輛干預(yù)的影響。該網(wǎng)絡(luò)每次構(gòu)建一個(gè)加權(quán)圖,并將其反饋到空間自注意力模塊中,從而嵌入自車與鄰近車輛的交互信息。HiVT方法[12]只編碼待預(yù)測(cè)車輛周圍一小塊區(qū)域的場(chǎng)景信息,并將不同待預(yù)測(cè)車輛周圍編碼的場(chǎng)景信息進(jìn)行交互,從而使得場(chǎng)景編碼具有平移不變性。QCNet方法[13]將軌跡預(yù)測(cè)任務(wù)作為流式任務(wù)來(lái)處理,使得每次只對(duì)當(dāng)前時(shí)刻的場(chǎng)景進(jìn)行編碼,并復(fù)用之前時(shí)刻的編碼信息,多車場(chǎng)景編碼時(shí),可以降低場(chǎng)景編碼的計(jì)算量。ADAPT方法[14]提出一種通過(guò)動(dòng)態(tài)權(quán)重學(xué)習(xí)來(lái)適應(yīng)每輛待預(yù)測(cè)車輛的方案,通過(guò)模型來(lái)學(xué)習(xí)一個(gè)變換到每一輛待預(yù)測(cè)車輛坐標(biāo)系下的變換矩陣。BiFF方法[15]提出了通過(guò)兩級(jí)融合機(jī)制來(lái)獲取待預(yù)測(cè)車輛未來(lái)軌跡的交互,融合高級(jí)未來(lái)意圖和低級(jí)未來(lái)行為,并且設(shè)計(jì)了基于折線的坐標(biāo)系來(lái)表達(dá)軌跡。MTR++方法[16]提出一個(gè)對(duì)稱的場(chǎng)景上下文建模模塊,采用共享的上下文編碼器對(duì)所有待預(yù)測(cè)車輛進(jìn)行場(chǎng)景編碼,同時(shí)提出了一個(gè)相互引導(dǎo)的意圖查詢模塊,用于對(duì)多輛待預(yù)測(cè)車輛未來(lái)意圖實(shí)現(xiàn)交互。GameFormer方法[17]通過(guò)層次博弈論來(lái)表述交互預(yù)測(cè)問(wèn)題,并應(yīng)用基于Transformer的編碼器和解碼器來(lái)有效模擬場(chǎng)景元素及迭代地完善交互過(guò)程。HPNet方法[18]提出了一種動(dòng)態(tài)軌跡預(yù)測(cè)的方法,通過(guò)結(jié)合歷史幀和歷史預(yù)測(cè)結(jié)果來(lái)提高預(yù)測(cè)的穩(wěn)定性和準(zhǔn)確性,并引入歷史預(yù)測(cè)注意力模塊,以編碼連續(xù)預(yù)測(cè)之間的動(dòng)態(tài)關(guān)系。上述這些方法,很好地將深度學(xué)習(xí)中的相關(guān)技術(shù),如圖神經(jīng)網(wǎng)絡(luò)、注意力機(jī)制、Transformer等應(yīng)用在了軌跡預(yù)測(cè)的場(chǎng)景編碼、信息融合、預(yù)測(cè)軌跡生成等具體任務(wù)中,有效解決了傳統(tǒng)方法無(wú)法對(duì)復(fù)雜場(chǎng)景進(jìn)行建模和對(duì)多個(gè)交通參與者進(jìn)行信息融合的問(wèn)題。整體而言,上述方法在編碼部分,仍較少考慮到對(duì)車輛運(yùn)動(dòng)狀態(tài)信息的提取,使得部分對(duì)于軌跡預(yù)測(cè)的信息有所缺失。
由于人類行為固有的隨機(jī)性,車輛未來(lái)的軌跡通常包含多種模式,例如在路口場(chǎng)景中,車輛直行、轉(zhuǎn)彎或變道的概率各不相同。為了解決軌跡預(yù)測(cè)中的不確定性,基于目標(biāo)點(diǎn)的深度學(xué)習(xí)方法取得了良好效果?;谀繕?biāo)點(diǎn)的軌跡預(yù)測(cè)方法首先對(duì)道路和交通參與者進(jìn)行編碼,然后在地圖上預(yù)測(cè)多個(gè)未來(lái)軌跡終點(diǎn),以表示未來(lái)軌跡的多種可能性,最后通過(guò)預(yù)測(cè)的終點(diǎn)來(lái)補(bǔ)全軌跡。這種方法不僅提高了軌跡預(yù)測(cè)的可解釋性,還增加了預(yù)測(cè)的準(zhǔn)確率。例如,HOME方法[19]利用卷積神經(jīng)網(wǎng)絡(luò)和注意力機(jī)制對(duì)地圖和車輛進(jìn)行編碼,并生成包含軌跡終點(diǎn)概率的熱力圖。通過(guò)對(duì)熱力圖進(jìn)行采樣,可以找到未來(lái)的軌跡終點(diǎn)并將軌跡補(bǔ)充完整。MultiPath方法[20]從輸入整幀的大圖中提取特征,之后針對(duì)每一個(gè)待預(yù)測(cè)的車輛,剪切下來(lái)一個(gè)特征小圖,然后基于該特征小圖的特征,預(yù)測(cè)每個(gè)錨軌跡的概率和預(yù)測(cè)點(diǎn)的高斯分布。TNT方法[21]通過(guò)基于場(chǎng)景采樣候選點(diǎn),并給予偏置,給出一組可能的目標(biāo)點(diǎn)。然后選擇其中的一部分目標(biāo)點(diǎn),預(yù)測(cè)一段軌跡,再對(duì)軌跡進(jìn)行評(píng)分和篩選。DenseTNT方法[22]將軌跡和道路向量化,并使用圖神經(jīng)網(wǎng)絡(luò)對(duì)其進(jìn)行編碼。通過(guò)注意力機(jī)制將場(chǎng)景的編碼信息融入至地圖上密集采樣的候選點(diǎn)中,以獲取候選軌跡終點(diǎn)的概率。然后從中篩選出較高概率的軌跡終點(diǎn),補(bǔ)充完整軌跡。然而,上述基于目標(biāo)點(diǎn)的軌跡預(yù)測(cè)方法在編碼階段都忽略了車輛運(yùn)動(dòng)狀態(tài)的信息,而忽略這些信息將導(dǎo)致預(yù)測(cè)的軌跡不準(zhǔn)確。例如,一輛高速行駛的車輛所需的轉(zhuǎn)彎半徑將大于一輛低速行駛車輛所需的轉(zhuǎn)彎半徑,因?yàn)檐囕v的運(yùn)動(dòng)狀態(tài)會(huì)對(duì)未來(lái)軌跡產(chǎn)生影響。
Ghoul等人[23]試圖將車輛運(yùn)動(dòng)狀態(tài)考慮到軌跡預(yù)測(cè)中,他們通過(guò)基于運(yùn)動(dòng)狀態(tài)的徑向網(wǎng)格和運(yùn)動(dòng)學(xué)方程對(duì)未來(lái)的軌跡點(diǎn)進(jìn)行采樣,然后將采樣點(diǎn)與車輛歷史軌跡編碼后的信息使用多頭注意力機(jī)制進(jìn)行融合,以完成預(yù)測(cè)。然而,在編碼階段,他們沒(méi)有考慮地圖信息,這導(dǎo)致了道路信息的丟失,從而影響了未來(lái)軌跡預(yù)測(cè)的準(zhǔn)確性。LaneRCNN方法[24]試圖通過(guò)構(gòu)建LaneRol算子來(lái)編碼交通參與者的軌跡和周圍地圖的信息,并最終形成一個(gè)全局圖來(lái)聚合不同交通參與者之間的信息。但是通過(guò)LaneRol算子來(lái)處理軌跡信息仍舊無(wú)法有效提取待預(yù)測(cè)車輛歷史軌跡中的時(shí)序信息。
為了解決編碼階段因?yàn)楹雎攒囕v運(yùn)動(dòng)狀態(tài)信息、無(wú)法有效提取歷史軌跡中的時(shí)序信息而帶來(lái)的預(yù)測(cè)軌跡不準(zhǔn)確的問(wèn)題,本文提出了一種融合車輛運(yùn)動(dòng)狀態(tài)的軌跡預(yù)測(cè)模型Movement-DenseTNT。該模型首先對(duì)交通參與者的歷史軌跡和道路信息進(jìn)行編碼,并根據(jù)車輛的歷史軌跡編碼車輛的運(yùn)動(dòng)狀態(tài)。然后,通過(guò)疊加的方式將車輛的運(yùn)動(dòng)狀態(tài)編碼融入交通參與者的歷史軌跡編碼中。接下來(lái),利用注意力機(jī)制生成表示未來(lái)軌跡終點(diǎn)概率的熱力圖。最后,通過(guò)選擇概率較高的候選點(diǎn)集來(lái)完善軌跡,完成預(yù)測(cè)。
1 Movement-DenseTNT
Movement-DenseTNT的整體結(jié)構(gòu)如圖1所示:對(duì)場(chǎng)景中的交通參與者和道路進(jìn)行編碼,獲取場(chǎng)景信息。使用LSTM對(duì)車輛的運(yùn)動(dòng)信息進(jìn)行編碼,并將編碼得到的信息融入采樣得到的候選軌跡終點(diǎn)當(dāng)中,獲得候選軌跡終點(diǎn)的概率值。依據(jù)軌跡終點(diǎn)的概率值篩選軌跡終點(diǎn),并將軌跡補(bǔ)充完整。
1.1 道路信息及交通參與者軌跡信息編碼
對(duì)場(chǎng)景中交通參與者及道路信息進(jìn)行編碼是軌跡預(yù)測(cè)的第一步,以獲取交通參與者的軌跡信息和道路特征。本文使用基于層次圖神經(jīng)網(wǎng)絡(luò)的編碼器VectorNet[25]來(lái)完成場(chǎng)景編碼。具體來(lái)說(shuō),將場(chǎng)景中的道路和相關(guān)交通參與者的軌跡進(jìn)行向量化,通過(guò)首尾相連的向量Vi進(jìn)行表示。然后應(yīng)用圖神經(jīng)網(wǎng)絡(luò),使得向量之間的信息可以相互傳遞,如式(1)所示。
V(l+1)i=φrel(Vli,φagg(Vlj))
(1)
其中:Vli表示當(dāng)前節(jié)點(diǎn);Vlj表示相鄰節(jié)點(diǎn);函數(shù)φagg(·)匯聚相鄰節(jié)點(diǎn)的信息;函數(shù)φrel(·)整合當(dāng)前節(jié)點(diǎn)與相鄰節(jié)點(diǎn)的信息。經(jīng)過(guò)l次迭代,可以得到表示單個(gè)交通參與者軌跡的局部圖和表示單條道路的局部圖。再經(jīng)過(guò)一次最大池化,可以完整提取局部圖的信息。將道路和交通參與者各自編碼之后得到的局部圖信息,再應(yīng)用一次圖神經(jīng)網(wǎng)絡(luò),組成全局圖,完成一個(gè)場(chǎng)景的編碼。最終得到一個(gè)場(chǎng)景編碼的二維特征矩陣Fw,其中特征矩陣Fw的每一行是對(duì)于交通參與者軌跡信息及道路信息的編碼向量。
1.2 車輛運(yùn)動(dòng)狀態(tài)信息編碼
車輛運(yùn)動(dòng)狀態(tài)可以看作是一組歷史運(yùn)動(dòng)狀態(tài)的集合,建模為時(shí)間序列問(wèn)題。循環(huán)神經(jīng)網(wǎng)絡(luò)是解決時(shí)間序列問(wèn)題的重要方法,而長(zhǎng)短期記憶網(wǎng)絡(luò)(long short term memory,LSTM)則是循環(huán)神經(jīng)網(wǎng)絡(luò)的一種特殊實(shí)現(xiàn)。LSTM的特點(diǎn)是可以提取特征之間的長(zhǎng)期關(guān)系,考慮序列信息并對(duì)輸入的依賴性進(jìn)行建模。它們對(duì)每個(gè)輸入執(zhí)行相同的操作,同時(shí)考慮之前的輸入對(duì)于當(dāng)前狀態(tài)的影響。所以本文使用LSTM編碼器來(lái)對(duì)車輛的運(yùn)動(dòng)狀態(tài)進(jìn)行編碼。車輛運(yùn)動(dòng)狀態(tài)信息編碼的整體結(jié)構(gòu)如圖2所示,下面將會(huì)對(duì)每個(gè)部分進(jìn)行詳細(xì)闡述。
在對(duì)運(yùn)動(dòng)狀態(tài)編碼之前,先對(duì)軌跡坐標(biāo)進(jìn)行映射,如式(2)所示。將待預(yù)測(cè)車輛過(guò)去不同時(shí)刻的原始坐標(biāo)xt進(jìn)行嵌入操作,得到嵌入向量et,表示不同時(shí)刻的坐標(biāo)編碼信息:
et=φembed(xt;Wemb)
(2)
其中:φembed(·)代表嵌入坐標(biāo)時(shí)的全連接層;Wemb代表這一嵌入過(guò)程的全連接層需要訓(xùn)練的參數(shù)。接著將嵌入向量et按照各個(gè)時(shí)刻依次輸入LSTM編碼器進(jìn)行編碼,如式(3)所示。
hti=LSTM(ht-1i,eti,Wencoder)
(3)
其中:hti代表第t個(gè)時(shí)刻LSTM編碼器的隱變量向量。不同場(chǎng)景中,LSTM編碼器共享同一個(gè)模型參數(shù)Wencoder。LSTM編碼器的隱藏層狀態(tài)的維度設(shè)置為30,堆疊層數(shù)設(shè)置為2。把歷史軌跡各個(gè)時(shí)刻的向量et輸入完畢之后,可以得到由歷史運(yùn)動(dòng)狀態(tài)堆疊而成的表示車輛當(dāng)前狀態(tài)的編碼向量hcurrent 。之后,將向量hcurrent 經(jīng)過(guò)帶有LeakyReLU的全連接層,最終得到待預(yù)測(cè)車輛運(yùn)動(dòng)狀態(tài)信息的編碼向量Fa,如式(4)所示。
Fa=φoutput(hcurrent ;Wout)
(4)
其中:φoutput (·)為輸出編碼向量時(shí)的全連接層;Wout為輸出過(guò)程中全連接層需要訓(xùn)練的參數(shù)。
1.3 編碼信息融合
考慮到待預(yù)測(cè)車輛的運(yùn)動(dòng)狀態(tài)不僅對(duì)待預(yù)測(cè)車輛自身會(huì)產(chǎn)生影響,還會(huì)對(duì)同一場(chǎng)景下其他交通參與者產(chǎn)生影響。比如當(dāng)自車高速行駛時(shí),旁邊車道的車輛不會(huì)輕易變道,以免發(fā)生碰撞。當(dāng)自車減速經(jīng)過(guò)路口時(shí),橫跨路口的行人看到車輛減速,才會(huì)加速通過(guò)。所以本文把待預(yù)測(cè)車輛的運(yùn)動(dòng)狀態(tài)信息同時(shí)融入到待預(yù)測(cè)車輛自身和相關(guān)交通參與者的編碼當(dāng)中去。編碼信息融合的流程如圖3所示。
首先,將場(chǎng)景編碼矩陣Fw和待預(yù)測(cè)車輛運(yùn)動(dòng)狀態(tài)向量Fa進(jìn)行融合,得到包含場(chǎng)景信息和待預(yù)測(cè)車輛運(yùn)動(dòng)狀態(tài)信息的編碼矩陣Fc。其次,將編碼矩陣Fc和在可行駛區(qū)域上采樣得到的候選軌跡終點(diǎn)集G進(jìn)行融合。最終,得到包含未來(lái)軌跡終點(diǎn)概率的熱力圖。接下來(lái)對(duì)各個(gè)過(guò)程進(jìn)行描述。為了融合編碼信息,本文首先將待預(yù)測(cè)車輛運(yùn)動(dòng)信息編碼Fa按照式(5)進(jìn)行堆疊。道路信息對(duì)應(yīng)的行用零向量進(jìn)行填充,得到矩陣H:
H=FaFa[0,…,0][0,…,0]
(5)
接下來(lái)把矩陣H和場(chǎng)景編碼矩陣Fw進(jìn)行相加,如式(6)所示。
FC=Add(Fw,H)
(6)
由此可得到包含車輛狀態(tài)信息和場(chǎng)景信息的編碼矩陣Fc。接下來(lái)在車輛未來(lái)可行使區(qū)域內(nèi)進(jìn)行候選軌跡終點(diǎn)采樣,得到候選軌跡終點(diǎn)集合G。然后將場(chǎng)景編碼信息通過(guò)注意力機(jī)制融入進(jìn)候選軌跡終點(diǎn)當(dāng)中。首先將信息編碼矩陣Fc和候選軌跡終點(diǎn)集合G進(jìn)行投影,如式(7)所示。
Q=GωQ,K=FCωK,V=FCωV
(7)
其中:ωQ、ωK、ωV是投影矩陣;Q、K、V分別對(duì)應(yīng)查詢矩陣、鍵矩陣和值矩陣;Fc是場(chǎng)景的編碼矩陣;G是候選軌跡終點(diǎn)的集合。接著計(jì)算注意力分布,并進(jìn)行加權(quán)求和,如式(8)所示。
A=softmaxQKTdV
(8)
其中:d是矩陣ωQ、ωK、ωV的列數(shù)。A表示注意力分布與值矩陣加權(quán)融合的結(jié)果。接著通過(guò)融入場(chǎng)景信息的候選軌跡終點(diǎn)的集合,求出每個(gè)候選軌跡終點(diǎn)的概率,得到包含候選軌跡終點(diǎn)的概率熱力圖,如式(9)所示。
τi=exp(φ(Gi))∑Nn=1exp(φ(Gn))
(9)
其中:τi是最后得到的每個(gè)軌跡終點(diǎn)候選點(diǎn)的概率值;φ(·)是一個(gè)兩層的全連接層。
1.4 軌跡終點(diǎn)篩選及軌跡補(bǔ)全
得到軌跡終點(diǎn)概率熱力圖之后,需要從中篩選出K個(gè)最有可能的軌跡終點(diǎn),并根據(jù)車輛歷史軌跡信息來(lái)補(bǔ)全軌跡。首先,需要從熱力圖上選取可能的終點(diǎn),本模型采用Dense-TNT[22]中對(duì)于候選點(diǎn)的篩選方式。具體來(lái)說(shuō),需要訓(xùn)練一個(gè)目標(biāo)點(diǎn)預(yù)測(cè)器,并設(shè)計(jì)一個(gè)離線模型來(lái)為目標(biāo)點(diǎn)預(yù)測(cè)器提供偽標(biāo)簽。在離線模型中,通過(guò)優(yōu)化算法如爬山算法,計(jì)算期望誤差,來(lái)為每個(gè)候選軌跡終點(diǎn)打上標(biāo)簽。通過(guò)離線算法得到偽標(biāo)簽,可以讓在線模型擁有更快的推理速度。在目標(biāo)點(diǎn)預(yù)測(cè)器的訓(xùn)練中,通過(guò)離線算法提供的偽標(biāo)簽來(lái)進(jìn)行訓(xùn)練,最終得到K個(gè)最有可能的軌跡終點(diǎn)。然后,將得到的軌跡終點(diǎn)和車輛歷史軌跡一起通過(guò)一個(gè)兩層的全連接層,并輸出完整的軌跡。
2 實(shí)驗(yàn)驗(yàn)證
為了驗(yàn)證Movement-DenseTNT的有效性,本實(shí)驗(yàn)將使用兩個(gè)基準(zhǔn)數(shù)據(jù)集,并與九個(gè)基線模型進(jìn)行比較。為了評(píng)估模型的有效性,將使用四個(gè)常用的指標(biāo)進(jìn)行評(píng)估。本文模型的實(shí)現(xiàn)方法如下:開(kāi)發(fā)環(huán)境使用Ubuntu 22.04系統(tǒng),開(kāi)發(fā)語(yǔ)言使用Python 3.7.16,開(kāi)發(fā)框架使用PyTorch 1.13.1,CPU為Intel i5-13400F,GPU為GeForce RTX 3060(12 GB),RAM為48 GB。
2.1 數(shù)據(jù)集
對(duì)比實(shí)驗(yàn)將使用兩個(gè)基準(zhǔn)數(shù)據(jù)集,即Argoverse1預(yù)測(cè)數(shù)據(jù)集[26]和Argoverse2預(yù)測(cè)數(shù)據(jù)集[27]。Argoverse1發(fā)布于2019年,包含了交通參與者的軌跡和對(duì)應(yīng)的高精度地圖。該數(shù)據(jù)集共涵蓋了320 h的數(shù)據(jù),被劃分成了323 557個(gè)5 s的場(chǎng)景,根據(jù)過(guò)去2 s的軌跡來(lái)預(yù)測(cè)未來(lái)3 s的軌跡,采樣頻率為10 Hz。Argoverse2發(fā)布于2021年,同樣包含了交通參與者的軌跡和高精度地圖。該數(shù)據(jù)集共涵蓋了763 h的數(shù)據(jù),被劃分成了250 000個(gè)11 s的場(chǎng)景,根據(jù)過(guò)去5 s的軌跡來(lái)預(yù)測(cè)未來(lái)6 s的軌跡,采樣頻率為10 Hz。
2.2 評(píng)價(jià)指標(biāo)
根據(jù)Argoverse1和Argoverse2中的實(shí)驗(yàn)設(shè)置,本文采用了最小平均位移誤差(minADE)、最小最終位移誤差(minFDE)、錯(cuò)誤率(miss rate)和帶有懲罰項(xiàng)的最小最終位移誤差(brier_minFDE)四個(gè)指標(biāo),用于對(duì)比實(shí)驗(yàn)。其中第四個(gè)指標(biāo)是Argoverse2預(yù)測(cè)數(shù)據(jù)集上新引入的[12]。最小平均位移誤差(min-ADE)反映了真實(shí)軌跡和預(yù)測(cè)軌跡之間的平均歐幾里德距離。計(jì)算過(guò)程是通過(guò)比較模型生成的K條軌跡和真實(shí)軌跡的每個(gè)時(shí)間步的位置差值,然后取平均值,最后找到這K個(gè)平均值中的最小值來(lái)作為最終的minADE結(jié)果。最小最終位移誤差(minFDE)反映了真實(shí)軌跡終點(diǎn)與預(yù)測(cè)軌跡終點(diǎn)之間的歐幾里德距離。通過(guò)計(jì)算模型生成的K條軌跡終點(diǎn)與真實(shí)軌跡終點(diǎn)位置之間的差值,找到K個(gè)差值中的最小值來(lái)作為minFDE的結(jié)果。錯(cuò)誤率(miss rate)反映了模型生成的K條軌跡中,嚴(yán)重偏離真實(shí)軌跡的數(shù)量占全部生成軌跡數(shù)量的比例。具體來(lái)說(shuō),計(jì)算生成的K條軌跡中軌跡終點(diǎn)偏離真實(shí)軌跡終點(diǎn)2 m之外的軌跡數(shù)量,再除以K作為最終的miss rate結(jié)果。帶有懲罰項(xiàng)的最小最終位移誤差(brier_minFDE)是在minFDE指標(biāo)的基礎(chǔ)上,為端點(diǎn)的L2距離誤差添加一個(gè)概率相關(guān)的懲罰項(xiàng),懲罰項(xiàng)是基于預(yù)測(cè)器最佳猜測(cè)輸出的概率。上述四個(gè)評(píng)價(jià)指標(biāo),都是數(shù)值越小,代表預(yù)測(cè)軌跡質(zhì)量越高。
2.3 模型訓(xùn)練及超參數(shù)設(shè)置
與DenseTNT相似,Movement-DenseTNT也可分為兩階段進(jìn)行模型訓(xùn)練:a)模型訓(xùn)練目標(biāo)點(diǎn)預(yù)測(cè)器之外部分,該部分包括對(duì)道路、交通參與者和車輛運(yùn)動(dòng)狀態(tài)的編碼及信息融合;b)模型主要針對(duì)目標(biāo)點(diǎn)預(yù)測(cè)器進(jìn)行訓(xùn)練,通過(guò)離線算法提供的偽標(biāo)簽來(lái)訓(xùn)練在線算法。模型訓(xùn)練的批大?。╞atch size)設(shè)置為64,模型隱藏層的維度設(shè)置為128。K值(即最優(yōu)軌跡數(shù)量)設(shè)置為6。使用Adam優(yōu)化器來(lái)訓(xùn)練模型。在第一階段的訓(xùn)練中,訓(xùn)練輪數(shù)設(shè)置為16輪,學(xué)習(xí)率的初始值為0.001,并且每5輪會(huì)衰減至30%。在第二階段的訓(xùn)練中,訓(xùn)練輪數(shù)設(shè)置為6輪,學(xué)習(xí)率的初始值為0.001,并且每一輪都會(huì)衰減至30%。
2.4 實(shí)驗(yàn)結(jié)果分析
本文在Argoverse1預(yù)測(cè)數(shù)據(jù)集的驗(yàn)證集和Argoverse2預(yù)測(cè)數(shù)據(jù)集的驗(yàn)證集上進(jìn)行了對(duì)比實(shí)驗(yàn),表1展示了Argoverse1預(yù)測(cè)數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果,表2展示了Argoverse2預(yù)測(cè)數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果。
在Argoverse1預(yù)測(cè)數(shù)據(jù)集中,Movement-DenseTNT在兩個(gè)階段中都能取得比DenseTNT更好的效果。在minADE和minFDE兩個(gè)指標(biāo)上,Movement-DenseTNT在對(duì)應(yīng)階段相較于DenseTNT,都有顯著下降。由于DenseTNT自身結(jié)構(gòu)所限,以及經(jīng)過(guò)第二階段訓(xùn)練之后,會(huì)產(chǎn)生過(guò)擬合的現(xiàn)象,所以Dense TNT和Movement-DenseTNT第二階段的minADE和minFDE的指標(biāo)相較于第一階段有所上升,miss rate指標(biāo)會(huì)顯著下降。對(duì)比其他方法,Movement-DenseTNT在minADE指標(biāo)上略高于TNT和QCNet,但在minFDE和miss rate指標(biāo)上,Movement-DenseTNT優(yōu)于TNT和OCNet。相較于MultiPath、LaneRCNN和SceneTransformer,由于Movement-DenseTNT模型考慮了車輛運(yùn)動(dòng)狀態(tài)信息,所以在minADE和minFDE指標(biāo)上都能取得良好效果。在miss rate指標(biāo)上,Movement-DenseTNT的第二階段也顯著優(yōu)于其他方法。與HiVT、Wayformer和ProphNet比較,Movement-DenseTNT模型在minADE指標(biāo)上較為接近,但在minFDE和miss rate指標(biāo)上,能顯著優(yōu)于其余模型。
為了進(jìn)一步驗(yàn)證Movement-DenseTNT模型的有效性,本文在Argoverse2預(yù)測(cè)數(shù)據(jù)集的驗(yàn)證集上進(jìn)行實(shí)驗(yàn)。將Movement-DenseTNT和DenseTNT、HiVT、MultiPath進(jìn)行比較。Movement-DenseTNT通過(guò)將車輛運(yùn)動(dòng)信息融入至編碼過(guò)程中,在對(duì)應(yīng)兩個(gè)階段中都能取得優(yōu)于DenseTNT與HiVT模型的實(shí)驗(yàn)結(jié)果。在與MultiPath的比較中,除了在minADE指標(biāo)上略高于MultiPath,其余三個(gè)指標(biāo)都遠(yuǎn)優(yōu)于MultiPath,驗(yàn)證了Movement-DenseTNT模型的優(yōu)越性。
2.5 典型場(chǎng)景分析
通過(guò)搜集車輛實(shí)際行駛中的數(shù)據(jù),挑選車輛遇到的典型場(chǎng)景,如直行、換道、匝道、十字路口等進(jìn)行可視化,展示Movement-DenseTNT模型在真實(shí)道路場(chǎng)景下的實(shí)際軌跡預(yù)測(cè)效果,可視化結(jié)果如圖4所示。
圖中車輛實(shí)際行駛的軌跡用綠色線條表示,融合運(yùn)動(dòng)狀態(tài)及道路信息的熱力圖通過(guò)紅色點(diǎn)狀圖表示,車輛預(yù)測(cè)到的軌跡用橘色線條表示(參見(jiàn)電子版)。從圖中可以看出,在多模式的路口及匝道場(chǎng)景下,模型可以預(yù)測(cè)到車輛直行及轉(zhuǎn)彎的軌跡,符合真實(shí)駕駛情況。在直行時(shí),模型可以預(yù)測(cè)車輛直行及換道的軌跡。同時(shí),在預(yù)測(cè)軌跡中,模型還能融合車輛運(yùn)動(dòng)狀態(tài)的信息,轉(zhuǎn)彎時(shí)會(huì)預(yù)測(cè)車輛減速,直行且車道無(wú)其他障礙物時(shí),會(huì)預(yù)測(cè)車輛加速。
3 結(jié)束語(yǔ)
本文針對(duì)目前主流的基于目標(biāo)點(diǎn)的軌跡預(yù)測(cè)方法忽略待預(yù)測(cè)車輛運(yùn)動(dòng)狀態(tài)的問(wèn)題,提出了考慮運(yùn)動(dòng)狀態(tài)的Movement-DenseTNT軌跡預(yù)測(cè)模型。分別將車輛運(yùn)動(dòng)狀態(tài)、地圖信息和交通參與者的軌跡信息進(jìn)行編碼,并將編碼得到的信息進(jìn)行融合,融入在可行使區(qū)域內(nèi)采樣得到的候選軌跡終點(diǎn)集合中,得到各個(gè)軌跡終點(diǎn)的概率,從而篩選出最后的軌跡終點(diǎn)并將軌跡進(jìn)行補(bǔ)全。Movement-DenseTNT模型在Argoverse1和Argoverse2預(yù)測(cè)數(shù)據(jù)集上與九個(gè)基線模型進(jìn)行了比較,取得了良好的實(shí)驗(yàn)效果,驗(yàn)證了本文方法的有效性。本文模型更多聚焦在單車軌跡的預(yù)測(cè)上,并未考慮多車軌跡預(yù)測(cè)及其帶來(lái)的軌跡交互的問(wèn)題。同時(shí)本文模型只考慮自車的運(yùn)動(dòng)狀態(tài),并未涉及周圍其他車輛及行人的運(yùn)動(dòng)狀態(tài)對(duì)軌跡預(yù)測(cè)的影響,這些不足將在后續(xù)的工作中進(jìn)行深入研究。
參考文獻(xiàn):
[1]Ying Liufu, Jin Long, Shang Mingsheng, et al. ACP-incorporated perturbation-resistant neural dynamics controller for autonomous vehicles [J]. IEEE Trans on Intelligent Vehicles, 2024, 9(4): 4675-4686.
[2]Liu Dexiang, Hua Guodong, Mo Lei. Painted PIXOR:a real-time multi-sensor fusion object detection pipeline for autonomous vehicles[C]//Proc of the 37th Youth Academic Annual Conference of Chinese Association of Automation. Piscataway,NJ: IEEE Press, 2022: 1357-1362.
[3]Ying Liufu, Jin Long, Wang Feiyue. Neural-dynamics-based active stee-ring control for autonomous vehicles with noises[C]//Proc of IEEE Intelligent Vehicles Symposium. Piscataway,NJ: IEEE Press, 2024: 436-441.
[4]王紅霞, 聶振凱, 鐘強(qiáng). 融合距離閾值和雙向TCN的時(shí)空注意力行人軌跡預(yù)測(cè)模型 [J]. 計(jì)算機(jī)應(yīng)用研究,2024,41(11):3303-3310. (Wang Hongxia, Nie Zhenkai, Zhong Qiang. Fusion of distance threshold and Bi-TCN for spatio-temporal attention pedestrian trajectory prediction model [J]. Application Research of Compu-ters, 2024,41(11):3303-3310.)
[5]趙懂宇, 王志建, 宋程龍. 基于Informer算法的網(wǎng)聯(lián)車輛運(yùn)動(dòng)軌跡預(yù)測(cè)模型 [J]. 計(jì)算機(jī)應(yīng)用研究, 2024, 41(4): 1029-1033. (Zhao Dongyu, Wang Zhijian, Song Chenglong. Model of predicting motion trajectory of connected vehicles based on Informer algorithm [J]. Application Research of Computers, 2024, 41(4): 1029-1033.)
[6]喬少杰, 金琨, 韓楠, 等. 一種基于高斯混合模型的軌跡預(yù)測(cè)算法 [J]. 軟件學(xué)報(bào), 2015, 26(5): 1048-1063. (Qiao Shaojie, Jin Kun, Han Nan, et al. Trajectory prediction algorithm based on Gaussian mixture model [J]. Journal of Software, 2015, 26(5): 1048-1063.)
[7]Xu Wenda, Pan Jia, Wei Junqing,et al. Motion planning under uncertainty for on-road autonomous driving[C]// Proc of IEEE International Conference on Robotics and Automation. Piscataway,NJ: IEEE Press, 2014: 2507-2512.
[8]Huang Yanjun, Du Jiatong, Yang Ziru,et al. A survey on trajectory-prediction methods for autonomous driving [J]. IEEE Trans on Intelligent Vehicles, 2022, 7(3): 652-674.
[9]Yin Huilin, Wen Yurong, Li Jiaxiang. A survey of vehicle trajectory prediction based on deep-learning[C]// Proc of the 3rd International Conference on Neural Networks, Information and Communication Engineering. Piscataway,NJ: IEEE Press, 2023: 140-144.
[10]Xing Haolin, Liu Wei, Ning Zuotao,et al. Deep learning based tra-jectory prediction in autonomous driving tasks: a survey[C]// Proc of the 16th International Conference on Computer and Automation Engineering. Piscataway,NJ: IEEE Press, 2024: 556-561.
[11]Ye Luyao, Wang Zezhong, Chen Xinhong,et al. GSAN: graph self-attention network for interaction measurement in autonomous driving[C]// Proc of the 17th IEEE International Conference on Mobile Ad Hoc and Sensor Systems. Piscataway,NJ: IEEE Press, 2020: 274-282.
[12]Zhou Zikang, Ye Luyao, Wang Jianping,et al. HiVT: hierarchical vector transformer for multi-agent motion prediction[C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press, 2022: 8813-8823.
[13]Zhou Zikang, Wang Jianping, Li Yunghui, et al. Query-centric trajectory prediction[C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press, 2023: 17863-17873.
[14]Aydemir G, Akan A K, Güney F. ADAPT: efficient multi-agent traje-ctory prediction with adaptation[C]// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway,NJ: IEEE Press, 2023: 8261-8271.
[15]Zhu Yiyao, Luan Di, Shen Shaojie. BiFF:bi-level future fusion with polyline-based coordinate for interactive trajectory prediction[C]// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway,NJ: IEEE Press, 2023: 8226-8237.
[16]Shi Shaoshuai, Jiang Li, Dai Dengxin,et al. MTR++: multi-agent motion prediction with symmetric scene modeling and guided intention querying [J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2024, 46(5): 3955-3971.
[17]Huang Zhiyu, Liu Haochen, Lyu Chen. GameFormer:game-theoretic modeling and learning of Transformer-based interactive prediction and planning for autonomous driving[C]// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway,NJ: IEEE Press, 2023: 3880-3890.
[18]Tang Xiaolong, Kan Meina, Shan Shiguang,et al. HPNet: dynamic trajectory forecasting with historical prediction attention[C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press, 2024: 15261-15270.
[19]Gilles T, Sabatini S, Tsishkou D,et al. HOME: heatmap output for future motion estimation[C]// Proc of IEEE International Intelligent Transportation Systems Conference. Piscataway,NJ: IEEE Press, 2021: 500-507.
[20]Chai Yuning, Sapp B, Bansal M, et al. MultiPath: multiple probabilistic anchor trajectory hypotheses for behavior prediction[C]// Proc of Conference on Robot Learning.2019.
[21]Zhao Hang, Gao Jiyang, Lan Tian,et al. TNT: target-driveN trajectory prediction [EB/OL]. (2020-08-19). https://arxiv.org/abs/2008.08294.
[22]Gu Junru, Sun Chen, Zhao Hang. DenseTNT:end-to-end trajectory prediction from dense goal sets[C]// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway,NJ: IEEE Press, 2021: 15283-15292.
[23]Ghoul A, Messaoud K, Yahiaoui I,et al. A lightweight goal-based model for trajectory prediction[C]// Proc of the 25th IEEE Interna-tional Conference on Intelligent Transportation Systems. Piscataway,NJ: IEEE Press, 2022: 4209-4214.
[24]Zeng Wenyuan, Liang Ming, Liao Renjie,et al. LaneRCNN: distri-buted representations for graph-centric motion forecasting[C]// Proc of IEEE/RSJ International Conference on Intelligent Robots and Systems. Piscataway,NJ: IEEE Press, 2021: 532-539.
[25]Gao Jiyang, Sun Chen, Zhao Hang,et al. VectorNet: encoding HD maps and agent dynamics from vectorized representation[C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press, 2020: 11522-11530.
[26]Chang Mingfang, Lambert J, Sangkloy P, et al. Argoverse: 3D trac-king and forecasting with rich maps[C]// Proc of IEEE/CVF Confe-rence on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press, 2019: 8740-8749.
[27]Wilson B, Qi W, Agarwal T, et al. Argoverse 2: next generation datasets for self-driving perception and forecasting[C]// Proc of Conference on Neural Information Processing Systems. 2021.
[28]Ngiam J,Vasudevan V, Caine B, et al. Scene Transformer: a unified architecture for predicting future trajectories of multiple agents[C]// Proc of International Conference on Learning Representations. 2021.
[29]Nayakanti N, Al-Rfou R, Zhou A,et al. Wayformer: motion forecasting via simple amp; efficient attention networks[C]// Proc of IEEE International Conference on Robotics and Automation. Piscataway,NJ: IEEE Press, 2023: 2980-2987.
[30]Wang Xishun, Su Tong, Da Fang,et al. ProphNet: efficient agent-centric motion forecasting with anchor-informed proposals[C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press, 2023: 21995-22003.