王天保,劉 昱,郭繼昌,晉瑋佩
(1.天津大學(xué) 微電子學(xué)院,天津 300072;2.天津大學(xué) 電氣自動(dòng)化與信息工程學(xué)院,天津 300072)
在城市街道等密集行人場(chǎng)景中,自動(dòng)駕駛車(chē)輛、機(jī)器人等運(yùn)動(dòng)主體需要根據(jù)其他行人的位置規(guī)劃自身路徑,通過(guò)對(duì)目標(biāo)的位置預(yù)測(cè)得以保持安全距離并排除風(fēng)險(xiǎn)因素,行人未來(lái)位置預(yù)測(cè)的準(zhǔn)確性對(duì)于運(yùn)動(dòng)主體的決策系統(tǒng)至關(guān)重要[1].行人軌跡預(yù)測(cè)是一項(xiàng)復(fù)雜任務(wù),由于每個(gè)行人自身的運(yùn)動(dòng)習(xí)慣有著天然差異,并且群體環(huán)境中存在人與人的交互,個(gè)人的運(yùn)動(dòng)模式會(huì)受到周?chē)腥穗[含的影響,人們會(huì)遵循社會(huì)規(guī)則方面的常識(shí)來(lái)調(diào)整自己的路線,運(yùn)動(dòng)主體需要預(yù)測(cè)他人的動(dòng)作和社會(huì)行為[2].構(gòu)建具有較高可解釋性和泛化能力的行人交互模式是軌跡預(yù)測(cè)問(wèn)題的重點(diǎn).
早期的行人軌跡預(yù)測(cè)使用手工設(shè)計(jì)特征的方法構(gòu)建社會(huì)力量(social force, SF)[3-4]模型,由此表示行人在運(yùn)動(dòng)過(guò)程中相互吸引和排斥的情況,然而完全依靠手工設(shè)計(jì)特征難以表示復(fù)雜場(chǎng)景中隱含的交互行為.近年來(lái)以數(shù)據(jù)驅(qū)動(dòng)為主導(dǎo)的循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network, RNN)編解碼結(jié)構(gòu)廣泛應(yīng)用于軌跡預(yù)測(cè)任務(wù),具有代表性的是Alahi等[5]使用長(zhǎng)短期記憶網(wǎng)絡(luò)(long short-term memory, LSTM)[6]編碼器-解碼器結(jié)構(gòu),通過(guò)社交池化(social-pooling)獲取不同距離行人間的依賴(lài)關(guān)系,從而表現(xiàn)個(gè)體間隱含的交互信息;Gupta等[7]將軌跡預(yù)測(cè)看作序列生成問(wèn)題,使用生成對(duì)抗網(wǎng)絡(luò)(generative adversarial networks, GAN)體現(xiàn)軌跡的多模態(tài)性質(zhì),并且對(duì)歷史軌跡編碼進(jìn)行最大池化(max-pooling),生成社交可接受的軌跡;在考慮多種物理特征的方面,Hasan等[8]將獲取的行人頭部朝向特征納入編碼過(guò)程,其結(jié)果證實(shí)對(duì)周?chē)腥说年P(guān)注程度與自身視線方向具有高度相關(guān)性;張志遠(yuǎn)等[9]使用行人間的距離及方向信息構(gòu)建注意力模型,并使用生成對(duì)抗方法訓(xùn)練軌跡生成;Amirian等[10]使用infoGAN結(jié)構(gòu),通過(guò)優(yōu)化輸入隱含變量與輸出軌跡分布的互信息來(lái)提升軌跡生成效果,并根據(jù)行人間的位置、方向、可接近的最小距離等物理特征進(jìn)行注意力池化.
圖神經(jīng)網(wǎng)絡(luò)(graph neural network, GNN)將深度學(xué)習(xí)應(yīng)用在非歐幾里得結(jié)構(gòu)上,構(gòu)建頂點(diǎn)和邊表示對(duì)象間的關(guān)系,展現(xiàn)出良好的魯棒性和可解釋性,因此通過(guò)圖拓?fù)浣Y(jié)構(gòu)建模行人之間的交互模式是一種有效的方式.Vemula等[11]在軌跡預(yù)測(cè)問(wèn)題上使用時(shí)空?qǐng)D網(wǎng)絡(luò)構(gòu)建交互模型,使預(yù)測(cè)目標(biāo)對(duì)周?chē)腥朔峙洳煌涀⒁饬?quán)重,獲取時(shí)間和空間上的軌跡交互信息;由于行人運(yùn)動(dòng)具有時(shí)間連續(xù)性,空間上的行人交互模式不僅與當(dāng)前位置有關(guān),還應(yīng)考慮歷史影響,Huang等[12]基于圖注意力網(wǎng)絡(luò)(graph attention network, GAT)[13]對(duì)周?chē)腥朔峙渥⒁饬σ赃M(jìn)行運(yùn)動(dòng)LSTM編碼;Kosaraju等[14]使用圖注意力網(wǎng)絡(luò)表示空間交互關(guān)系,通過(guò)Bicycle-GAN生成多模態(tài)預(yù)測(cè);Mohamed等[15]根據(jù)行人位置構(gòu)建鄰接矩陣,通過(guò)圖卷積神經(jīng)網(wǎng)絡(luò)(graph convolutional network, GCN)[16]構(gòu)建交互模式,并使用時(shí)間外推卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行軌跡預(yù)測(cè).然而,使用圖注意力網(wǎng)絡(luò)進(jìn)行注意力分配由于依賴(lài)于高維特征間的相關(guān)性,其過(guò)程并不直觀,且沒(méi)有考慮圖的結(jié)構(gòu)關(guān)系;另一方面,由于正常人眼關(guān)注度高的區(qū)域主要分布在視野中部,并且雙眼水平視場(chǎng)角約為188°,在行走狀態(tài)下人眼存在較大盲區(qū),現(xiàn)有圖網(wǎng)絡(luò)所分配得到的交互注意力往往會(huì)錯(cuò)誤地將盲區(qū)中的行人納入其中.
考慮到圖網(wǎng)絡(luò)在建立交互模型中所具有的優(yōu)勢(shì)及存在的問(wèn)題,本文提出一種新的基于圖卷積神經(jīng)網(wǎng)絡(luò)的軌跡預(yù)測(cè)模型(trajectory prediction graph convolutional network, TP-GCN)用于構(gòu)建行人間的交互模式并進(jìn)行軌跡預(yù)測(cè).算法使用圖卷積神經(jīng)網(wǎng)絡(luò)處理編碼過(guò)的高維行人軌跡特征,從而構(gòu)建行人間的交互模式,根據(jù)盲區(qū)信息優(yōu)化圖卷積神經(jīng)網(wǎng)絡(luò)的鄰接矩陣,并加強(qiáng)了對(duì)自身隱含交互模式的獲取,同時(shí)使用深度圖信息最大化方法將圖結(jié)構(gòu)的局部特征和整體特征間的互信息最大化,優(yōu)化圖網(wǎng)絡(luò)的特征提取效果.在公開(kāi)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),結(jié)果表明本文算法可以取得較精確的預(yù)測(cè)效果,同時(shí)具有較強(qiáng)泛化效果及可解釋性.
卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)利用固定尺寸的卷積核在圖像上進(jìn)行卷積操作并平移,從而提取圖像中的所需特征.圖卷積神經(jīng)網(wǎng)絡(luò)的原理與CNN類(lèi)似,并將歐氏空間的卷積操作推廣到非歐空間,對(duì)圖結(jié)構(gòu)中頂點(diǎn)的特征進(jìn)行提取,以完成后續(xù)的頂點(diǎn)分類(lèi)等任務(wù).具體地,若無(wú)向圖G=(V,E)中有n個(gè)頂點(diǎn),頂點(diǎn)為V={Vi|?i∈{1,2,…,n}},連接頂點(diǎn)的邊為E={eij|?i,j∈{1,2,…,n}},每個(gè)頂點(diǎn)包含d維特征,則根據(jù)各頂點(diǎn)V之間的邊E構(gòu)成的n×n維的鄰接矩陣A,通過(guò)訓(xùn)練卷積核系數(shù),計(jì)算中心頂點(diǎn)的鄰接頂點(diǎn)與卷積核的卷積結(jié)果,從而實(shí)現(xiàn)特征提取.單層GCN結(jié)構(gòu)如式(1)所示
(1)
(2)
式中f為兩層GCN的特征傳播公式.
圖1 兩層圖卷積網(wǎng)絡(luò)示意
軌跡預(yù)測(cè)任務(wù)中任意時(shí)刻的每個(gè)行人i都與不同數(shù)量和運(yùn)動(dòng)狀態(tài)的其他行人存在交互關(guān)系,行人間內(nèi)在的影響方式復(fù)雜且隨時(shí)間而變化,若以向量表示每個(gè)行人的運(yùn)動(dòng)狀態(tài),那么同一時(shí)刻相關(guān)聯(lián)的所有行人構(gòu)成了一組典型的圖結(jié)構(gòu)數(shù)據(jù).
本文提出的軌跡預(yù)測(cè)模型TP-GCN中,將行人作為圖結(jié)構(gòu)中的頂點(diǎn),利用GCN在圖結(jié)構(gòu)中良好的特征提取能力來(lái)獲取行人間的交互關(guān)系,并通過(guò)最大互信息優(yōu)化方法進(jìn)一步提升GCN的運(yùn)算效果,從而完成軌跡預(yù)測(cè).算法框圖見(jiàn)圖2.
圖2 圖卷積神經(jīng)網(wǎng)絡(luò)軌跡預(yù)測(cè)模型(TP-GCN)
如圖2所示,TP-GCN由4個(gè)模塊構(gòu)成,分別為:1)軌跡編碼模塊:將原始軌跡使用LSTM編碼得到軌跡運(yùn)動(dòng)特征;2)圖卷積神經(jīng)網(wǎng)絡(luò)交互模塊:通過(guò)原始軌跡計(jì)算改進(jìn)的鄰接矩陣,將軌跡運(yùn)動(dòng)特征輸入GCN計(jì)算軌跡交互特征;3)互信息最大化圖網(wǎng)絡(luò)模塊:最大化GCN輸出中局部特征與全局特征間的互信息,從而優(yōu)化GCN的特征提取效果;4)軌跡預(yù)測(cè)模塊:將提取的軌跡運(yùn)動(dòng)特征與軌跡交互特征進(jìn)行LSTM解碼,得到軌跡預(yù)測(cè)結(jié)果.
(3)
(4)
由于行人的軌跡受到周?chē)腥诉\(yùn)動(dòng)模式隱含的影響,僅對(duì)每個(gè)軌跡分別進(jìn)行編碼難以完整表達(dá)場(chǎng)景內(nèi)多個(gè)軌跡的復(fù)雜運(yùn)動(dòng)模式,需要構(gòu)建合理的模型表達(dá)行人間交互模式.使用圖結(jié)構(gòu)Gt=(Vt,Et)建立t時(shí)刻行人間的交互模型,將行人作為圖結(jié)構(gòu)中頂點(diǎn)的集合Vt,行人間的交互關(guān)系為邊的集合Et,其表達(dá)式為
(5)
(6)
(7)
圖3 盲區(qū)中行人示意
此時(shí)兩個(gè)行人的速度向量與相對(duì)位置向量滿(mǎn)足式(8)
[ΔX1(X1-X2)][ΔX2(X1-X2)]<0.
(8)
(9)
(10)
式中,k為中心頂點(diǎn)額外權(quán)重系數(shù),本文使用k=2;I為單位矩陣.
本文將兩層圖卷積網(wǎng)絡(luò)相疊加,通過(guò)兩層GCN結(jié)構(gòu)得到第i條軌跡的輸出特征
(11)
(12)
(13)
由于受到周?chē)腥撕蜐撛谏缃灰?guī)則的影響,群體中個(gè)體的運(yùn)動(dòng)模式傾向于場(chǎng)景內(nèi)所有個(gè)體的平均運(yùn)動(dòng)模式.本文使用深度圖信息最大化方法[17]最大化GCN輸出局部特征與全局特征間的互信息,使得局部特征可以獲得接近全局特征的向量表示,也就意味著在行人間的交互模型中,每個(gè)個(gè)體行人學(xué)習(xí)到了場(chǎng)景內(nèi)全體行人所共有的運(yùn)動(dòng)模式.
(14)
式中R為讀取函數(shù).
(15)
(16)
(17)
式中δ為線性層.因?yàn)槲磥?lái)軌跡存在多種合理分布,本文使用多樣損失函數(shù)[7,12]生成多個(gè)軌跡樣本,進(jìn)而選取軌跡樣本中與真實(shí)軌跡間L2距離最小的預(yù)測(cè)軌跡,多樣損失函數(shù)Lvariety如式(18)所示
(18)
Ltotal=Lvariety+Linf.
(19)
實(shí)驗(yàn)基于PyTorch 1.1建立網(wǎng)絡(luò)模型,使用Adam優(yōu)化器進(jìn)行參數(shù)優(yōu)化,LSTM學(xué)習(xí)率為0.01,GCN學(xué)習(xí)率為0.03,判別器D學(xué)習(xí)率為0.001,批處理大小為64,訓(xùn)練數(shù)據(jù)集訓(xùn)練輪數(shù)為500,單個(gè)RTX 2 080 Ti GPU進(jìn)行訓(xùn)練,生成測(cè)試樣本數(shù)N=20.
本文在公開(kāi)軌跡預(yù)測(cè)數(shù)據(jù)集ETH[18]和UCY[19]上進(jìn)行實(shí)驗(yàn),ETH包含ETH和HOTEL 2個(gè)子數(shù)據(jù)集,UCY包含UNIV、ZARA1和ZARA2 3個(gè)子數(shù)據(jù)集,所有數(shù)據(jù)集均使用俯拍視角,包含了不同場(chǎng)景中1 500多名行人的運(yùn)動(dòng)軌跡.使用世界坐標(biāo)系,將行人表示為坐標(biāo)點(diǎn),獲取時(shí)間間隔為0.4 s的坐標(biāo)序列.保留同時(shí)存在n個(gè)目標(biāo)的序列,即每段序列中行人的數(shù)量保持不變.采用留一法[5],即在4個(gè)數(shù)據(jù)集上進(jìn)行訓(xùn)練和驗(yàn)證,在剩下的一個(gè)數(shù)據(jù)集上進(jìn)行測(cè)試.
本文使用兩種基本評(píng)價(jià)指標(biāo):
1)平均偏移誤差(ADE):全部時(shí)間點(diǎn)的預(yù)測(cè)序列與真實(shí)序列間的均方誤差,單位為m.
2)最終偏移誤差(FDE):預(yù)測(cè)結(jié)束時(shí)刻的預(yù)測(cè)序列與真實(shí)序列間的誤差,單位為m.
定量分析使用不同算法在相同數(shù)據(jù)集上進(jìn)行對(duì)比實(shí)驗(yàn),并使用除去了部分模塊的本文算法進(jìn)行消融實(shí)驗(yàn),具體分析如下.
3.1.1 算法對(duì)比
為評(píng)估TP-GCN的準(zhǔn)確性,選取了多種對(duì)比算法,分別是S-LSTM[5]、S-Atten[11]、S-GAN[7]、SoPhie[2]、Next[20]、S-ways[10]、Social-BiGAT[14]、STGAT[12],觀測(cè)時(shí)長(zhǎng)Tobs=8(3.2 s),預(yù)測(cè)時(shí)長(zhǎng)Tpred=12(4.8 s),使用ADE和FDE進(jìn)行評(píng)價(jià),所有生成多樣本軌跡的算法均產(chǎn)生20個(gè)預(yù)測(cè)樣本,本文算法與其他對(duì)比算法在5個(gè)數(shù)據(jù)集上的預(yù)測(cè)精度比較結(jié)果見(jiàn)表1,表中黑體為表現(xiàn)最好的預(yù)測(cè)結(jié)果.
表1 本文算法TP-GCN與對(duì)比算法的ADE和FDE比較結(jié)果
由表1可以看出,TP-GCN在HOTEL和UNIV數(shù)據(jù)集上兩個(gè)指標(biāo)均優(yōu)于其他所有算法,并在5個(gè)數(shù)據(jù)集的平均ADE和FDE并列第一.相較于SoPhie和Next使用環(huán)境信息和行人姿態(tài)信息,TP-GCN僅使用坐標(biāo)序列信息而沒(méi)有使用環(huán)境信息,更利于在多種場(chǎng)景中泛化;TP-GCN在ETH數(shù)據(jù)集上效果一般,原因在于ETH的測(cè)試集較小,各種算法普遍在ETH數(shù)據(jù)集上效果一般,但相較于使用圖網(wǎng)絡(luò)的Social-BiGAT和STGAT,TP-GCN在HOTEL、UNIV、ZARA1和ZARA2這4個(gè)數(shù)據(jù)集上表現(xiàn)更好,同時(shí)取得了良好的穩(wěn)定性.與對(duì)比算法相比,一方面,本算法使用圖卷積神經(jīng)網(wǎng)絡(luò)建立交互模式,利用盲區(qū)信息篩除錯(cuò)誤交互行為的干擾,并且加強(qiáng)了對(duì)行人自身運(yùn)動(dòng)習(xí)慣的挖掘,使算法具有較強(qiáng)的可解釋性;另一方面,本算法通過(guò)深度圖信息最大化方法,使得場(chǎng)景中個(gè)體行人與全體行人間的運(yùn)動(dòng)模式一致程度更高,從而在多種場(chǎng)景下依然具有較好的魯棒性.綜上所述,本文算法的總體預(yù)測(cè)精度較高.
3.1.2 消融實(shí)驗(yàn)
為評(píng)估TP-GCN各個(gè)部分的作用,調(diào)整多個(gè)指定模塊,其中算法1去掉最大互信息模塊,算法2去掉鄰接矩陣A,算法3沒(méi)有使用盲區(qū)信息優(yōu)化A,算法4單位矩陣系數(shù)k=0,算法5訓(xùn)練樣本數(shù)p=1,測(cè)試樣本數(shù)N=1,算法6訓(xùn)練樣本數(shù)p=1,測(cè)試樣本數(shù)N=20,觀測(cè)時(shí)長(zhǎng)Tobs=8(3.2 s),預(yù)測(cè)時(shí)長(zhǎng)Tpred=12(4.8 s),使用ADE和FDE進(jìn)行評(píng)價(jià),本文算法與調(diào)整指定模塊后的算法在5個(gè)數(shù)據(jù)集上的預(yù)測(cè)精度比較結(jié)果見(jiàn)表2.表中黑體為表現(xiàn)最好的預(yù)測(cè)結(jié)果.
表2 本文算法TP-GCN在調(diào)整指定模塊情況下的ADE和FDE比較結(jié)果
由表2可以看出,與算法1做對(duì)比,由于最大互信息模塊進(jìn)行了圖網(wǎng)絡(luò)輸出結(jié)果的局部特征和全局特征間的互信息最大化,使得受到周?chē)腥私换ビ绊懙膫€(gè)體行人運(yùn)動(dòng)模式更趨近于周?chē)腥说钠骄\(yùn)動(dòng)模式,符合環(huán)境中集體所默認(rèn)的潛在社交規(guī)則,TP-GCN的預(yù)測(cè)結(jié)果全面優(yōu)于對(duì)比算法1.與算法2、3、4做對(duì)比,TP-GCN通過(guò)構(gòu)建基于盲區(qū)信息的鄰接矩陣并外加單位矩陣構(gòu)建交互模式,既考慮了周?chē)渌腥酥苯拥慕换ビ绊?,又提取了自身所受到的隱式交互影響.3種對(duì)比算法整體表現(xiàn)均不如TP-GCN,而值得注意的是算法3和4在UNIV數(shù)據(jù)集中表現(xiàn)優(yōu)于本文算法,本文理解為由于此數(shù)據(jù)集中行人遠(yuǎn)密集于其他數(shù)據(jù)集并且行人轉(zhuǎn)頭環(huán)顧四周情況明顯增多,周?chē)腥说闹苯咏换ビ绊懜鼮槊黠@,在此情景下本文算法單位矩陣權(quán)重過(guò)大且盲區(qū)范圍過(guò)大,但另一方面,這也恰恰說(shuō)明交互權(quán)重在密集場(chǎng)景中的重要性.與算法5、6做對(duì)比,TP-GCN考慮了軌跡的多樣性和不確定性,預(yù)測(cè)效果明顯優(yōu)于算法5和算法6,在同為產(chǎn)生20個(gè)預(yù)測(cè)樣本的情況下比算法6的ADE提升了8.5%,F(xiàn)DE提升了15.3%.通過(guò)消融實(shí)驗(yàn)的對(duì)比結(jié)果可知,本文所使用算法的預(yù)測(cè)精度較高.
通過(guò)對(duì)軌跡序列進(jìn)行可視化,進(jìn)一步分析本文所提出算法的可解釋性.從ZARA2測(cè)試數(shù)據(jù)集中提取本文算法所使用和生成的軌跡,實(shí)線軌跡為觀察軌跡,時(shí)長(zhǎng)為3.2 s,點(diǎn)劃線軌跡為真實(shí)未來(lái)軌跡,虛線為預(yù)測(cè)未來(lái)軌跡,時(shí)長(zhǎng)為4.8 s,軌跡可視化結(jié)果見(jiàn)圖4.
圖4 預(yù)測(cè)軌跡可視化結(jié)果
從圖4(a)、(b)中可以觀察到,在密集行人場(chǎng)景中,處于圖像右側(cè)的個(gè)體行人自右向左運(yùn)動(dòng),左側(cè)的群體行人并排自左向右運(yùn)動(dòng),此時(shí)右側(cè)行人通過(guò),由于右側(cè)行人經(jīng)過(guò)了左側(cè)行人原本朝向的方向,左側(cè)群體的路徑受到了輕微影響.從圖4(c)、(d)中可觀察到,處于相向行走的兩組行人,相遇時(shí)兩組人依照社會(huì)規(guī)則相互繞行,期間基本沒(méi)有改變組內(nèi)個(gè)體間的距離關(guān)系;另一方面,預(yù)測(cè)最終時(shí)刻行人的盲區(qū)范圍如圖中矩型陰影范圍所示,由于此時(shí)背向而行的行人位于彼此的盲區(qū)之中,沒(méi)有相互的交互影響,故而視覺(jué)盲區(qū)中的交互信息被篩除,行人保持原有方向運(yùn)動(dòng).從圖4(e)、(f)中可以看出,圖4(e)右側(cè)的兩名并行的行人和圖4(f)右側(cè)同向而行的3個(gè)行人,受到周?chē)唤?jīng)過(guò)自身路線的行人影響較小,即原本沿近乎直線行走的行人,能夠察覺(jué)附近的行人不妨礙自身運(yùn)動(dòng)時(shí),行人可以保持原有路線運(yùn)動(dòng),這也與人的運(yùn)動(dòng)習(xí)慣相符.通過(guò)分析預(yù)測(cè)結(jié)果,證明本文算法能夠基于交互信息做出與真實(shí)行為接近的符合行人習(xí)慣的預(yù)測(cè).
本文提出了一種基于視覺(jué)盲區(qū)信息和互信息最大化圖卷積神經(jīng)網(wǎng)絡(luò)的算法TP-GCN來(lái)建立行人間的交互模式并進(jìn)行軌跡預(yù)測(cè).該算法克服了圖注意力網(wǎng)絡(luò)構(gòu)建交互模式不直觀的問(wèn)題,篩除了盲區(qū)中行人的交互影響,綜合考慮了行人間直接的交互模式和隱含的交互信息,并使得個(gè)體運(yùn)動(dòng)符合群體運(yùn)動(dòng)的社交規(guī)則,具有良好的可解釋性和泛化性能.在公開(kāi)數(shù)據(jù)集ETH和UCY上與目前先進(jìn)的算法進(jìn)行對(duì)比,本文算法的整體預(yù)測(cè)精度較高,同時(shí)消融實(shí)驗(yàn)和預(yù)測(cè)軌跡的可視化也顯示了本文算法的有效性及良好的可解釋性.