曹興文,鄭宏偉,劉 英,吳孟泉,王靈玥,包安明,陳 曦
1. 中國科學(xué)院新疆生態(tài)與地理研究所荒漠與綠洲生態(tài)國家重點(diǎn)實(shí)驗(yàn)室,新疆 烏魯木齊 830011; 2. 中國科學(xué)院大學(xué)資源與環(huán)境學(xué)院,北京 100049; 3. 魯東大學(xué)資源與環(huán)境工程學(xué)院,山東 煙臺 264025
近年來,伴隨智慧城市中智能交通系統(tǒng)(intelligent transportation system,ITS)的快速發(fā)展,領(lǐng)域?qū)W者對城市地理信息系統(tǒng)(urban geographic information system,UGIS)與智能視頻系統(tǒng)(intelligent video system,IVS)融合研究不斷深入[1-2]。智能視頻系統(tǒng)中的多行人軌跡預(yù)測技術(shù)被廣泛應(yīng)用于自動(dòng)駕駛、機(jī)器人導(dǎo)航、城市安全和視頻監(jiān)控等領(lǐng)域[3-7]。多行人軌跡預(yù)測作為一項(xiàng)極具挑戰(zhàn)性的任務(wù),難點(diǎn)之一在于如何有效對行人間的交互關(guān)系進(jìn)行建模,這些關(guān)系將導(dǎo)致行人未來一系列運(yùn)動(dòng)行為,如為避免碰撞而加速、減速或轉(zhuǎn)向,受他人阻擋而被迫跟隨行走,以及其他復(fù)雜微妙的運(yùn)動(dòng)行為,而行進(jìn)時(shí)人們會(huì)遵循一定社會(huì)準(zhǔn)則來調(diào)整行進(jìn)路線,這使得預(yù)測行人軌跡愈發(fā)困難。
早期研究側(cè)重于手工設(shè)計(jì)特征來構(gòu)建動(dòng)力學(xué)或社會(huì)驅(qū)動(dòng)模型表示行人行進(jìn)過程中相互吸引和排斥情況[8-9],但手工設(shè)計(jì)特征的方法大多為均速線性預(yù)測器,只適用于勻速直線運(yùn)動(dòng),未涉及預(yù)測非線性場景下行人軌跡和在復(fù)雜場景下表示隱含的人群交互行為。近年來基于循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)的數(shù)據(jù)驅(qū)動(dòng)和圖神經(jīng)網(wǎng)絡(luò)(graph convolutional network,GCN)的特征信息融合方法廣泛應(yīng)用于行人軌跡預(yù)測任務(wù)。目前,基于RNN數(shù)據(jù)驅(qū)動(dòng)代表方法有社會(huì)長短時(shí)記憶模型(social long short-term memory,S-LSTM)[10]、基于社會(huì)生成對抗網(wǎng)絡(luò)(social generative adversarial networks,S-GAN)[11]和基于社會(huì)規(guī)則和物理約束的生成對抗網(wǎng)絡(luò)[12]。雖然基于RNN數(shù)據(jù)驅(qū)動(dòng)方法較早期社會(huì)驅(qū)動(dòng)模型在預(yù)測精度和交互建模上取得一定進(jìn)步,但由于行人軌跡具有多模態(tài)性,即同一起點(diǎn)同一終點(diǎn)相同障礙,行人會(huì)有不同行動(dòng)方式,而RNN類方法傾向于預(yù)測行人未來所有軌跡的平均值[13],這不符合軌跡預(yù)測多模態(tài)性的特點(diǎn)?;贕CN特征信息融合代表工作有社交注意力模型(social attention network,S-Atten)[14]、圖注意力網(wǎng)絡(luò)(graph attention network,GAT)[15]和時(shí)空圖變換網(wǎng)絡(luò)(spatio-temporal graph transformer network,STAR)[16]。上述GCN特征信息融合方法網(wǎng)絡(luò)大多存在冗余度大,可解釋降低問題,對行人交互建模時(shí)僅考慮兩兩交互,多人交互只是將信息簡單融合,忽略行人群體之間的內(nèi)在聯(lián)系。
事實(shí)上,一個(gè)泛化效果強(qiáng)的行人軌跡預(yù)測模型,不僅能準(zhǔn)確預(yù)測行人未來軌跡,還能應(yīng)對不同視角變化,高效建模行人間的交互關(guān)系?,F(xiàn)有基于RNN數(shù)據(jù)驅(qū)動(dòng)和GCN特征信息融合的研究工作大多在單個(gè)或兩個(gè)數(shù)據(jù)集內(nèi)進(jìn)行訓(xùn)練和測試,且對行人軌跡預(yù)測大多在固定視角攝像機(jī)[17]下進(jìn)行,沒有推廣至多視角攝像機(jī)[18-19],不能自動(dòng)適應(yīng)新的視頻場景,需要不斷注釋新數(shù)據(jù)來調(diào)整模型。目前,真實(shí)場景數(shù)據(jù)集還存在數(shù)據(jù)量不足、視角變化小和標(biāo)注難等局限,而仿真數(shù)據(jù)作為物理世界信息的集成,能從虛擬場景中產(chǎn)生任意量具有完善數(shù)據(jù)分布和低成本定制化的標(biāo)注數(shù)據(jù)。眾多研究工作開始將仿真數(shù)據(jù)應(yīng)用于視頻檢測、視頻跟蹤、動(dòng)作識別和軌跡預(yù)測等任務(wù)[20-22],如文獻(xiàn)[23]提出將CARLA仿真模擬器用于自動(dòng)駕駛,文獻(xiàn)[24]利用仿真模擬數(shù)據(jù)進(jìn)行人類動(dòng)作識別,文獻(xiàn)[25]基于時(shí)空圖變換預(yù)測虛擬場景中行人多未來軌跡,文獻(xiàn)[26]利用仿真場景視頻和場景語義分割特征相結(jié)合進(jìn)行單目標(biāo)行人軌跡預(yù)測。此外,領(lǐng)域內(nèi)其他學(xué)者還通過深度神經(jīng)網(wǎng)絡(luò)(deep neural network,DNN)、Faster R-CNN、YOLOv4等目標(biāo)檢測方法對視頻中運(yùn)動(dòng)目標(biāo)進(jìn)行檢測追蹤,而后使用預(yù)測算法進(jìn)行軌跡預(yù)測[27-29]。
考慮到仿真數(shù)據(jù)在擴(kuò)充現(xiàn)有真實(shí)數(shù)據(jù)集、模擬新視角的優(yōu)勢,本文提出一種多行人軌跡多視角三維仿真視頻學(xué)習(xí)預(yù)測方法(multiple trajectory prediction-simulation 3D,MTP-Sim3D),用于構(gòu)建行人間的交互模式并進(jìn)行軌跡預(yù)測。該模型:①基于CARLA仿真模擬器[23]生成所需多視角軌跡標(biāo)注數(shù)據(jù),生成的多視角仿真視頻序列無論行人外貌和運(yùn)動(dòng)軌跡都接近于真實(shí)視頻序列,有效擴(kuò)大行人軌跡預(yù)測數(shù)據(jù)集的數(shù)據(jù)量,MTP-Sim3D在仿真數(shù)據(jù)上進(jìn)行訓(xùn)練,能應(yīng)用于多視角場景行人軌跡預(yù)測;②基于圖注意力循環(huán)神經(jīng)網(wǎng)絡(luò)(graph attention recurrent neural network,GATRNN),提出兩階段編碼-解碼網(wǎng)絡(luò),序列編碼器通過檢測跟蹤算法獲取行人觀測序列,并對行人運(yùn)動(dòng)特征和交互信息進(jìn)行編碼,計(jì)算行人在場景中的時(shí)空狀態(tài),作為解碼器的即時(shí)輸入,粗位置解碼器輸出行人軌跡熱圖,細(xì)位置解碼器生成符合規(guī)則的未來軌跡。在公開數(shù)據(jù)集試驗(yàn)結(jié)果表明,本文在多視角行人軌跡預(yù)測精度上得到很好提升,并能應(yīng)用于攝像機(jī)拍攝未知視頻序列,有較強(qiáng)泛化效果及可解釋性。
多行人軌跡多視角三維仿真視頻學(xué)習(xí)預(yù)測方法(MTP-Sim3D)框架如圖1所示,由4個(gè)模塊構(gòu)成。①三維仿真數(shù)據(jù)生成模塊:CARLA仿真模擬器[23]生成不同視角的訓(xùn)練軌跡,通過多視角語義分割特征圖進(jìn)行表示;② 數(shù)據(jù)增強(qiáng)模塊:從給定一組多視角軌跡K中選擇最難學(xué)習(xí)軌跡和從原始視角中生成的對抗軌跡通過Mixup凸函數(shù)[30]進(jìn)行組合,生成增強(qiáng)軌跡;③目標(biāo)檢測跟蹤模塊:使用對象關(guān)系檢測器[31]和DeepSort[32]追蹤算法對行人外觀信息進(jìn)行編碼和跟蹤;④軌跡預(yù)測網(wǎng)絡(luò)模塊:采用GATRNN作為基礎(chǔ)網(wǎng)絡(luò),將增強(qiáng)軌跡和編碼信息作為網(wǎng)絡(luò)輸入,實(shí)現(xiàn)多行人軌跡預(yù)測。
圖1 多視角三維仿真視頻學(xué)習(xí)的多行人軌跡預(yù)測模型Fig.1 Multi-pedestrian trajectory prediction model of multi-view 3D simulation video learning
Ln+1:T={pn+1(xn+1,yn+1),pn+2(xn+2,yn+2),…,pT(xT,yT)}
(1)
(2)
圖2 多視角三維仿真數(shù)據(jù)可視化Fig.2 Visualization of multi-view 3D simulation data
根據(jù)訓(xùn)練集中多視角軌跡集合K,每次給定一個(gè)多視角軌跡,將其作為錨點(diǎn)來搜索與模型所學(xué)內(nèi)容最不一致視角,本文稱為最難學(xué)習(xí)視角軌跡,受文獻(xiàn)[36]提出的分類損失函數(shù)啟發(fā),將其作為給定視角軌跡與最難學(xué)習(xí)視角軌跡損失的計(jì)算標(biāo)準(zhǔn)
(3)
(4)
(5)
(6)
(7)
式中,λ由超參數(shù)α所控制的beta(α,α)分布求出;pt為式(2)中表示原始視角下的真實(shí)軌跡坐標(biāo);one-hot(·)函數(shù)將x-y二維坐標(biāo)位置投影映射至軌跡預(yù)測網(wǎng)絡(luò)模塊中預(yù)定義網(wǎng)格上。
圖3 多行人檢測跟蹤Fig.3 Multi-pedestrian detection and tracking
(8)
這種對數(shù)函數(shù)編碼方式以幾何距離和分?jǐn)?shù)框的大小來計(jì)算幾何關(guān)系,表示行人間未來軌跡更容易受到同伴或近距離物體影響。在行人追蹤時(shí),本文使用DeepSort和卡爾曼預(yù)測算法相結(jié)合框架[32]進(jìn)行跨幀匹配,追蹤過程中每個(gè)行人的狀態(tài)被建模為8維狀態(tài)空間
x=[u,v,γ,h,u′,v′,γ′,h′]
(9)
式中,(u,v)為目標(biāo)邊界框的質(zhì)心;γ為邊界框縱橫比;h為高度;(u′,v′,γ′,h′)表示為圖像坐標(biāo)系下前一個(gè)狀態(tài)變化速率。將(u,v,γ,h)和它們在圖像坐標(biāo)下各自速度作為卡爾曼算法初始狀態(tài),計(jì)算預(yù)測的卡爾曼狀態(tài)和新到達(dá)的測量值之間的馬氏距離,并通過式(10)來合并運(yùn)動(dòng)信息
(10)
式中,dj表示第j個(gè)檢測框的位置;yi表示第i個(gè)追蹤器對目標(biāo)行人的預(yù)測位置;Ai表示檢測位置與平均追蹤位置的協(xié)方差矩陣。
(11)
ci,j=μd(1)(i,j)+(1-μ)d(2)(i,j)
(12)
式中,ci,j表示第i個(gè)跟蹤目標(biāo)和第j個(gè)檢測目標(biāo)之間的關(guān)聯(lián)代價(jià);μ表示超參數(shù)。檢測跟蹤過程結(jié)束后,對于t時(shí)刻的每個(gè)輸入幀fH×W,通過式(13)定義一個(gè)矩陣Dt,其中包含了n個(gè)被檢測行人在序列幀網(wǎng)格RH×W中的位置
(13)
圖4 軌跡預(yù)測網(wǎng)絡(luò)Fig.4 Designed network module for trajectory prediction
1.6.1 序列編碼器
(14)
1.6.2 位置解碼器
獲取行人時(shí)空狀態(tài)特征上下文向量H后,通過粗位置解碼器預(yù)測行人在未來t時(shí)刻單位格網(wǎng)的置信狀態(tài)Ct(i),即
Ct(i)=p(Yt=i|Yn:t-1,H),?i∈G,t∈[n+1,T]
(15)
(16)
(17)
(18)
(19)
(20)
(21)
結(jié)合式(20)—式(21),使用式(22)表示行人在地理場景最終預(yù)測位置
(22)
1.6.3MTP-Sim3D模型訓(xùn)練
(23)
對于精細(xì)位置解碼器,使用真實(shí)軌跡Ln+1:T={pn+1,pn+2,…,pT}作為訓(xùn)練標(biāo)簽,使用目標(biāo)檢測中smoothL1作為損失函數(shù),即
(24)
(25)
試驗(yàn)基于Tensorflow1.15建立網(wǎng)絡(luò)模型,Python版本為3.6,Cuda版本為11.0。試驗(yàn)的訓(xùn)練和測試工作在Ubuntu 18.04服務(wù)器上進(jìn)行,處理器為Intel(R) Core(TM) i9-10900K CPU @ 3.70 GHz、內(nèi)存為128 GB、顯卡為Nvidia RTX 3090 GPU。為驗(yàn)證MTP-Sim3D模型軌跡預(yù)測性能,選用不同攝像機(jī)視角和場景拍攝的真實(shí)視頻數(shù)據(jù)集進(jìn)行測試,包括ActEV/VIRAT[17,33]、ETH/UCY[39-40]、Argoverse[19]數(shù)據(jù)集和LDU數(shù)據(jù)集。ActEV/VIRAT數(shù)據(jù)集是NIST于2018年發(fā)布用于視頻活動(dòng)檢測研究的公共數(shù)據(jù)集,包括不同視角下來自12個(gè)不同場景的455個(gè)每秒30幀分辨率為1080 P的視頻;ETH/UCY包含ETH、HOTEL、ZARA1、ZARA2、UNIV 5個(gè)不同場景中1536位行人運(yùn)動(dòng)軌跡,軌跡數(shù)據(jù)均被轉(zhuǎn)換為世界坐標(biāo)系的坐標(biāo)點(diǎn),獲取時(shí)間間隔為0.4 s坐標(biāo)序列,所有場景均采用固定俯拍視角;Argoverse數(shù)據(jù)集是用于支持自動(dòng)駕駛中3D跟蹤與運(yùn)動(dòng)預(yù)測任務(wù),包括3D tracking與Motion Forecasting兩個(gè)子數(shù)據(jù)集。本文使用3D tracking數(shù)據(jù)集中的車載前置中心攝像機(jī)視角拍攝驗(yàn)證集視頻;LDU場景為本文在校園拍攝的視頻序列,用于測試所提出模型泛化能力,包括不同攝像機(jī)視角下60個(gè)每秒30幀分辨率為1080 P的多行人步態(tài)視頻。與之前采用的留一法[10]不同,本文只在仿真三維數(shù)據(jù)上進(jìn)行訓(xùn)練和驗(yàn)證,在ETH/UCY、ActEV/VIRAT、Argoverse、LDU等多視角或新場景數(shù)據(jù)集上評估模型泛化能力。
MTP-Sim3D模型建立在圖注意力循環(huán)神經(jīng)網(wǎng)絡(luò)上,通過標(biāo)準(zhǔn)數(shù)據(jù)增強(qiáng)方法(水平翻轉(zhuǎn)和隨機(jī)輸入抖動(dòng)等)對訓(xùn)練集進(jìn)行擴(kuò)充。數(shù)據(jù)增強(qiáng)中原始視角采用Targeted-FGSM對抗攻擊學(xué)習(xí)方法生成對抗軌跡,迭代次數(shù)設(shè)置為10。式(4)—式(6)中參數(shù)ε=δ=0.1,α=0.2,式(25)中λ1=0.5。軌跡預(yù)測網(wǎng)絡(luò)模塊中編碼器和解碼器使用ConvLSTM網(wǎng)絡(luò)結(jié)構(gòu),嵌入尺寸設(shè)置為32,編碼器和解碼器隱藏層尺寸均為256。對于視頻行人檢測和場景語義特征提取,本文利用預(yù)訓(xùn)練的目標(biāo)檢測模型提取行人包圍框和外觀特征,并進(jìn)行編碼;在ADE20k數(shù)據(jù)集上預(yù)訓(xùn)練deeplab模型中提取場景語義特征。模型采用Adam優(yōu)化算法更新模型參數(shù),初始學(xué)習(xí)率設(shè)置為0.3,權(quán)重衰減為0.001。
為了判斷模型性能優(yōu)劣,將模型與現(xiàn)有方法進(jìn)行比較,根據(jù)文獻(xiàn)[10]關(guān)于行人軌跡預(yù)測任務(wù)定義,MTP-Sim3D模型在測試時(shí)先觀察每個(gè)行人3.2 s(8幀),并預(yù)測未來4.8 s(12幀)行人的軌跡,并使用兩個(gè)指標(biāo)來評價(jià)預(yù)測軌跡準(zhǔn)確性。
(1) 平均偏移誤差(average displacement error,ADE):預(yù)測軌跡每一時(shí)刻t下真實(shí)坐標(biāo)序列和預(yù)測坐標(biāo)序列間的平均歐氏距離,計(jì)算公式為
(26)
(2) 最終偏移誤差(final displacement error,FDE):預(yù)測最終結(jié)束時(shí)刻的預(yù)測坐標(biāo)序列與真實(shí)坐標(biāo)序列間的誤差,計(jì)算公式為
(27)
2.3.1 MTP-Sim3D模型消融試驗(yàn)
表1 本文算法MTP-Sim3D在調(diào)整指定模塊下的ADE/FDE比較結(jié)果
2.3.2 ActEV/VIRAT和Argoverse多視角數(shù)據(jù)集精度評價(jià)
本文將MTP-Sim3D模型在ActEV/VIRAT和Argoverse多視角數(shù)據(jù)集上進(jìn)行試驗(yàn),與S-LSTM[10]、S-GAN[11]、Next[5]、Multiverse[22]、SimAug[26]等基線模型進(jìn)行對比,在ActEV/VIRAT和Argoverse數(shù)據(jù)集精度評價(jià)是以像素為單位,試驗(yàn)結(jié)果如表2所示,前5行模型在ActEV/VIRAT真實(shí)場景數(shù)據(jù)集進(jìn)行訓(xùn)練。由表2可知,本文方法在多視角公共數(shù)據(jù)集上的評估指標(biāo)上都優(yōu)于其他基線方法,MTP-Sim3D在ActEV/VIRAT數(shù)據(jù)集上ADE和FDE較Multiverse分別提升4.2%和2.5%,在Argoverse數(shù)據(jù)集上ADE和FDE較SimAug方法分別提升3.7%和1.6%,因?yàn)镸TP-Sim3D通過多視角仿真數(shù)據(jù)提升模型的整體,所有的仿真數(shù)據(jù)均可以通過CARLA仿真模擬器[23]生成,無須對真實(shí)軌跡進(jìn)行額外注釋,解決真實(shí)訓(xùn)練數(shù)據(jù)量不足,標(biāo)注難問題。模型在ActEV/VIRAT真實(shí)場景數(shù)據(jù)集上進(jìn)一步微調(diào),與基線模型相比,在ADE和FDE預(yù)測精度均取得最優(yōu)。
表2 不同方法在多視角數(shù)據(jù)集的ADE/FDE對比
2.3.3 ETH/UCY固定視角數(shù)據(jù)集精度評價(jià)
在ETH和UCY固定視角數(shù)據(jù)集上進(jìn)行試驗(yàn),同時(shí)選取當(dāng)前主流的行人軌跡預(yù)測算法進(jìn)行對比,如S-LSTM[10]、SoPhie[12]、S-GAN[11]、Next[5]、S-Atten[14]、STGAT[15]和STAR[16],試驗(yàn)的ADE和FDE見表3,表中黑體為表現(xiàn)最好的預(yù)測結(jié)果。由表3可知,MTP-Sim3D模型在ADE和FDE的平均值上優(yōu)于S-LSTM、SoPhie、S-GAN、Next、S-Atten、STGAT、STAR,取得了最佳性能。MTP-Sim3D在UNIV數(shù)據(jù)集上ADE和FDE均優(yōu)于其他對比算法,是由于UNIV場景為大學(xué)校園路口,行人密度大,且長時(shí)間停留在攝像機(jī)視野中,行人前進(jìn)目標(biāo)明確,而本文模型基于圖注意力和生成對抗網(wǎng)絡(luò)訓(xùn)練,對于長時(shí)間固定視角下的多行人軌跡預(yù)測表現(xiàn)突出。S-Atten和S-LSTM模型在UNIV和ZARA2場景下,ADE和FDE與MTP-Sim3D模型相差較大,原因是它們只捕獲個(gè)體的運(yùn)動(dòng)信息,沒有獲取行人之間的交互信息。在這兩個(gè)交互行為豐富的場景數(shù)據(jù)集中,交互信息缺失將導(dǎo)致預(yù)測結(jié)果與真實(shí)結(jié)果偏離較大。相較于SoPhie、Next和S-GAN算法分別使用場景信息、行人姿態(tài)信息和生成對抗網(wǎng)絡(luò)預(yù)測行人軌跡,而MTP-Sim3D融合多視角增強(qiáng)軌跡和行人外觀信息, 更有利于在各種場景中泛化。由于ETH數(shù)據(jù)集較小,MTP-Sim3D與其余對比算法在ETH表現(xiàn)都一般,但在FDE上取得最佳預(yù)測精度。與使用圖注意力神經(jīng)網(wǎng)絡(luò)的STGAT和STAR相比,MTP-Sim3D通過三維仿真學(xué)習(xí)和圖注意力循環(huán)神經(jīng)網(wǎng)絡(luò)(GATRNN)建立行人與場景交互模式,加強(qiáng)了對行人自身運(yùn)動(dòng)特性的挖掘,使算法具有較強(qiáng)語義解釋性,在5個(gè)數(shù)據(jù)集上平均ADE上與STAR持平,比STGAT高4.7%,平均FDE上比STAR提升5.7%,較STGAT高1.2%,試驗(yàn)結(jié)果證明MTP-Sim3D在預(yù)測多視角行人未來軌跡具有穩(wěn)健性。
表3 不同方法在各數(shù)據(jù)集的ADE和FDE
2.4.1 行人檢測跟蹤可視化
本文在測試場景下對行人軌跡進(jìn)行可視化,圖5為MTP-Sim3D模型在各數(shù)據(jù)集上觀測3.2 s內(nèi)的行人檢測跟蹤可視化效果,其中每個(gè)數(shù)據(jù)集可視化結(jié)果的第1列都表示觀測開始時(shí)對象關(guān)系檢測器檢測各場景中行人,第2列中藍(lán)色軌跡表示經(jīng)過觀測時(shí)間(3.2 s)內(nèi)行人行走路徑,第3列表示結(jié)束時(shí)刻行人最終位置。由圖5可以看出,基于對象關(guān)系的監(jiān)測器能有效對場景中行人外觀特征進(jìn)行編碼,進(jìn)行多行人檢測,在行人密度大且長時(shí)間停留的場景中依然保持高準(zhǔn)確率和實(shí)時(shí)性。
圖5 行人檢測追蹤可視化Fig.5 Pedestrian detection and tracking visualization
2.4.2 行人軌跡預(yù)測熱圖可視化
本文同時(shí)在各數(shù)據(jù)集進(jìn)行行人軌跡預(yù)測熱圖可視化,進(jìn)一步分析本文算法的語義可解釋性,圖6為粗位置解碼器在大小為RH×W×1的2D格網(wǎng)上輸出各測試數(shù)據(jù)集3個(gè)場景的行人軌跡預(yù)測熱圖,由圖6可以觀察到MTP-Sim3D模型能較為精確預(yù)測行人未來軌跡強(qiáng)度,原因在于本文在訓(xùn)練時(shí)采用GATRNN,能有效獲取周圍場景環(huán)境信息和對周圍行人分配注意力權(quán)重。MTP-Sim3D模型在ETH/UCY數(shù)據(jù)集上的第3個(gè)場景軌跡熱力圖輸出不佳,預(yù)測方向與行人行走真實(shí)方向偏差較大,原因在于上述場景均采用移動(dòng)攝像機(jī)進(jìn)行拍攝,相機(jī)視角轉(zhuǎn)換較快,模型獲取環(huán)境信息較少,仍需在精細(xì)位置解碼器中進(jìn)一步優(yōu)化。
圖6 MTP-Sim3D在各數(shù)據(jù)集上的行人軌跡預(yù)測熱力圖可視化Fig.6 Heatmap visualization of pedestrian trajectory prediction by MTP-Sim3D on various datasets
2.4.3 行人軌跡預(yù)測可視化
圖7為不同場景下多行人軌跡預(yù)測追蹤效果,藍(lán)色表示觀測時(shí)間3.2 s行人行走的路徑,紅色表示細(xì)位置解碼器輸出精細(xì)化行人預(yù)測位置,橙色為粗位置解碼器輸出的軌跡預(yù)測熱圖,綠色為檢測器標(biāo)定的檢測框。在圖7中,LDU數(shù)據(jù)集第1和第2個(gè)場景、 VIRAT/ActEV數(shù)據(jù)集第1個(gè)場景、ETH/UCY數(shù)據(jù)集第2個(gè)場景、Seg_videos數(shù)據(jù)集第2和第3個(gè)場景中的同向而行或并行的人群受到周圍不經(jīng)過自身路線的行人影響較少(即原本近似直線行走的行人),模型根據(jù)圖注意力分配情況能夠覺察附近的行人不阻礙自身運(yùn)動(dòng),預(yù)測行人保持原有路線運(yùn)動(dòng)。在VIRAT/ActEV數(shù)據(jù)集第2個(gè)和第3個(gè)場景、LDU數(shù)據(jù)集第3個(gè)場景、Seg_videos數(shù)據(jù)集第1個(gè)場景、RGB_Videos數(shù)據(jù)集全部場景中,模型利用語義場景和行人外觀信息成功預(yù)測處于相向行走的行人在相遇時(shí)因避免相撞軌跡方向發(fā)生輕微偏移;在ETH/UCY數(shù)據(jù)集第1和第3個(gè)場景中行人密度較大且空間擁擠情況嚴(yán)重,行人間有很強(qiáng)的相互影響,模型通過生成增強(qiáng)軌跡和圖注意力分配可以有效預(yù)測行人在各場景中最終位置。在Argoverse數(shù)據(jù)集選取3個(gè)不同街道的場景,由于車載攝像機(jī)和行人目標(biāo)的表觀特征和運(yùn)動(dòng)速度不同,MTP-Sim3D算法將行人外觀特征和行人目標(biāo)交疊率作為跟蹤匹配的權(quán)重,增強(qiáng)了目標(biāo)跨幀匹配的準(zhǔn)確性,細(xì)位置解碼器則輸出優(yōu)化后預(yù)測軌跡,提高模型對快速視角變化下軌跡追蹤預(yù)測。
圖7 多行人軌跡追蹤預(yù)測Fig.7 Multi-pedestrian trajectory tracking prediction
多行人軌跡預(yù)測作為智能交通系統(tǒng)與城市地理信息系統(tǒng)融合關(guān)鍵任務(wù)之一,廣泛應(yīng)用于自動(dòng)駕駛、機(jī)器人導(dǎo)航、城市安全等領(lǐng)域。現(xiàn)有方法由于數(shù)據(jù)集不足、標(biāo)注難,沒有充足監(jiān)督樣本進(jìn)行網(wǎng)絡(luò)訓(xùn)練和優(yōu)化,存在過擬合和泛化性不高問題,對此本文提出多行人軌跡多視角三維仿真視頻學(xué)習(xí)預(yù)測方法。該方法首先通過CARLA仿真模擬器生成訓(xùn)練所需多視角仿真軌跡標(biāo)注數(shù)據(jù),生成的仿真視頻序列無論行人外貌和運(yùn)動(dòng)軌跡都接近于真實(shí)視頻序列,有效擴(kuò)大了行人軌跡預(yù)測數(shù)據(jù)集的數(shù)據(jù)量;然后加入了視頻行人幾何編碼信息,增加了行人的姿態(tài)特征;最后利用GATRNN對增強(qiáng)對抗軌跡和行人編碼信息進(jìn)行訓(xùn)練,并通過位置解碼器輸出預(yù)測行人軌跡。在公共數(shù)據(jù)集上的試驗(yàn)相較其他改進(jìn)算法在性能上得到很好提升,能應(yīng)用于攝像機(jī)拍攝未知視頻序列,具有較強(qiáng)泛化效果及可解釋性。由于CARLA仿真模擬器難以對所有的真實(shí)數(shù)據(jù)進(jìn)行重建,合成的仿真軌跡數(shù)據(jù)僅包含真實(shí)軌跡數(shù)據(jù)的65%左右,此外在處理多視角下仿真軌跡相關(guān)性的單應(yīng)矩陣仍需要大量手動(dòng)操作,未來在此基礎(chǔ)上引入多源空間場景信息并采用更先進(jìn)檢測追蹤算法,以進(jìn)一步提升整體預(yù)測精度和追蹤實(shí)時(shí)性。