孔 瑋,劉 云,李 輝,崔雪紅,楊浩冉
(青島科技大學(xué)信息科學(xué)技術(shù)學(xué)院,山東青島 266061)
行人軌跡預(yù)測旨在利用觀察到的行人軌跡,預(yù)測行人未來的運動軌跡[1].行人軌跡預(yù)測在自動駕駛[2,3]、視覺識別[4]、目標跟蹤[5]和視頻監(jiān)控[6]等領(lǐng)域得到了廣泛的應(yīng)用.但受客觀環(huán)境的影響,人與人之間、人與環(huán)境的交互變得復(fù)雜抽象,準確預(yù)測行人的軌跡仍然具有復(fù)雜性和挑戰(zhàn)性.
隨著深度學(xué)習[7]的發(fā)展,神經(jīng)網(wǎng)絡(luò)為行人軌跡預(yù)測提供了必要條件.尤其是,用于序列學(xué)習的遞歸神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)、生成對抗網(wǎng)絡(luò)(Generative Adversarial Networks,GAN)及圖卷積網(wǎng)絡(luò)(Graph Convolutional Network,GCN)成為行人軌跡預(yù)測建模的主要網(wǎng)絡(luò).Social LSTM[8]是循環(huán)神經(jīng)網(wǎng)絡(luò)在行人軌跡預(yù)測領(lǐng)域的典型應(yīng)用,它通過池化層建模行人之間的相互作用.基于GANs 的方法[9~12]預(yù)測未來軌跡的分布時,模型的生成器也是使用遞歸神經(jīng)網(wǎng)絡(luò)設(shè)計.這些方法的局限性在于遞歸架構(gòu)的使用,使得網(wǎng)絡(luò)模型的參數(shù)多,訓(xùn)練成本高.基于RNN 的軌跡預(yù)測方法在建模行人之間的交互時,不能單獨處理空間上下文,而是需要借助額外的結(jié)構(gòu)對相鄰行人的信息進行編碼,既不直觀也不直接.
圖卷積網(wǎng)絡(luò)是另一種被廣泛應(yīng)用于行人軌跡預(yù)測的模型.很多研究者將時空圖[13~16]應(yīng)用于行人軌跡預(yù)測,并實現(xiàn)了不錯的預(yù)測性能.時空圖包含豐富的特征信息,比聚集的方法(例如池化)[17]直觀有效.由于行人在軌跡預(yù)測中的重要性不同,注意力機制更有助于編碼行人之間的相對影響和潛在互動.基于圖注意力網(wǎng)絡(luò)的軌跡預(yù)測方法[14~16,18~21]打破了RNN 網(wǎng)絡(luò)的順序依賴性,利用注意力機制實現(xiàn)了行人特征信息的加權(quán)融合.然而,在建立時空圖模擬行人交互的過程中仍存在許多問題,如圖1所示.
圖1 行人交互的時空場景分析
首先,網(wǎng)絡(luò)的時空感受野小,無法獲得行人的全局信息.圖1(a)表示行人的空間交互,當融合行人j的交互特征時,往往根據(jù)距離只關(guān)注行人k和行人l的信息,而忽略遠距離行人i的特征,這使得網(wǎng)絡(luò)的輸入范圍變小.在時域中,基于長短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)的行人軌跡預(yù)測只依賴前一時刻的隱藏狀態(tài),不能像卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)那樣實現(xiàn)并行處理,如圖1(b)表示的時域模型LSTM 中缺失的連接所示.這導(dǎo)致模型運行時間長,感知范圍狹窄.其次,以往的研究在空間域構(gòu)造圖模型時,不同的行人在同一時間通常定義為全連通圖,默認行人之間的相互影響是對等的,忽視了行人間的不對稱交互關(guān)系,方向性不強,導(dǎo)致網(wǎng)絡(luò)模型不能準確模擬行人之間的真實互動.例如在圖1(a)中,行走在后面的行人n的運動軌跡不會影響前面的行人j和k(綠色虛線所示),而這兩個行人的運動軌跡卻對行人n的未來軌跡產(chǎn)生了重要的作用(紅色實線所示).最后,全連通圖不能隨著行人運動狀態(tài)的變化及時調(diào)整圖結(jié)構(gòu),行人間的交互冗余,自適應(yīng)能力差.為此,本文提出了基于全局自適應(yīng)有向圖的行人軌跡預(yù)測方法(pedestrian trajectory prediction method based on Global Adaptive Directed Graph,GADG).針對以上問題,本文的研究貢獻總結(jié)如下:
(1)設(shè)計全局特征更新GFU(Global Feature Updating)和全局特征選擇GFS(Global Feature Selection),關(guān)聯(lián)相互交互的行人的全局特征,擴展網(wǎng)絡(luò)感受野,強化網(wǎng)絡(luò)學(xué)習時空特征的能力.
(2)構(gòu)建有向特征圖模型,有效提取成對行人之間的非對稱社交互動,增強網(wǎng)絡(luò)的方向性,提高網(wǎng)絡(luò)模擬真實場景的能力.
(3)建模自適應(yīng)交互圖,定義行人之間的自適應(yīng)交互關(guān)系,減少不必要的交互連接,增強圖模型適應(yīng)場景變化的能力.
人與人之間的交互建模經(jīng)歷了社會力模型、多模型方法、混合估計方法和基于模式的方法.人與人的交互不僅包括成對行人間的交互,還涉及復(fù)雜的群組行為[22].而基于模式的方法從數(shù)據(jù)中擬合不同的函數(shù)(如神經(jīng)網(wǎng)絡(luò))來學(xué)習行人之間的交互關(guān)系,提高了模型的靈活性.例如,RNN和CNN聯(lián)合建??臻g關(guān)系[23]以捕獲行人之間的交互.Social LSTM[8]利用LSTM 計算隱藏狀態(tài),聚集一定范圍內(nèi)的行人交互影響.Social GAN[9]建立新的池化機制確定行人間的交互關(guān)系.然而,這些基于RNN的模型在長序列訓(xùn)練中容易出現(xiàn)梯度消失和爆炸.基于圖結(jié)構(gòu)的模型表現(xiàn)出基于圖數(shù)據(jù)的依賴關(guān)系進行建模的強大功能,可以更好地模擬場景中人與人之間的交互.STGAT[14]通過圖注意力網(wǎng)絡(luò)(Graph Attention network,GAT)學(xué)習行人間的影響權(quán)重.Social-STGCNN[15]將軌跡直接建模為圖形,根據(jù)相對距離確定行人之間的相互關(guān)系.GraphTCN[16]以輸入感知的方式捕獲時空交互.然而,這些方法忽略了行人交互建模的方向性,認為兩個行人之間的相互交互是對等的.在行人運動的過程中,后面的行人總是會注意前面的行人,而前面的行人通常對后面的行人不關(guān)注.所以,行人之間的相互交互具有不對稱性.為了體現(xiàn)這種不對稱關(guān)系,本文把行人之間的互動建模為有向圖,不僅能捕捉對目標行人產(chǎn)生重要影響的交互對象,還能提取他們之間的方向信息.
遞歸神經(jīng)網(wǎng)絡(luò)雖然具備顯著的序列建模能力,但缺乏直觀的高層時空結(jié)構(gòu).在行人運動過程中,行人的運動軌跡不確定[24],行人之間的交互沒有規(guī)律,圖結(jié)構(gòu)是表示行人交互行為的自然方法.時空圖[14~16,19,20]是比較流行的工具,可以同時捕獲空間和時間關(guān)系.這些方法通常將行人表示為節(jié)點,將他們的交互表示為連接.但這些方法在每一個時間步都會引入一個固定結(jié)構(gòu)的圖,圖結(jié)構(gòu)不能隨著場景的變化而改變.與上述方法不同的是,本文提出的自適應(yīng)圖模型在不同的時間點是動態(tài)變化的,可以自適應(yīng)調(diào)整行人之間的連接.有些方法把圖模型與LSTM 等深層序列模型結(jié)合建模,并在此基礎(chǔ)上進行拓展.例如,Zhang 等人[25]在位置和運動方向上構(gòu)建圖模型,并使用層次LSTM 逐步解碼.遞歸社交行為圖[26]遞歸更新交互范圍內(nèi)的個體特征來強化社交互動.這些方法只建模了局部交互,不能體現(xiàn)深層交互關(guān)系,網(wǎng)絡(luò)的空間感受野小.為此,本文設(shè)計全局特征更新GFU,打破行人地理位置的限制,捕獲網(wǎng)絡(luò)全局空間特征.
由于相鄰行人對軌跡預(yù)測的重要性不同,注意力機制更有助于編碼行人之間的相對影響和潛在交互.Su 等人[27]根據(jù)速度計算鄰居的相關(guān)性.SoPhie[12]與CNN 結(jié)合,為行人添加雙向注意力.Vemula 等人[28]利用隱藏狀態(tài)計算注意力分數(shù).圖注意力網(wǎng)絡(luò)利用軟注意力或轉(zhuǎn)移機制來區(qū)分鄰居的重要性,實現(xiàn)了節(jié)點之間的加權(quán)消息傳遞和更好的群體理解.STGAT[14]和Social-STGCNN[15]通過引入靈活的圖注意力機制來改善行人之間的交互關(guān)系.GraphTCN[16]使用邊緣圖注意力網(wǎng)絡(luò)捕獲行人間的空間交互.Social-BiGAT[18]通過圖注意力網(wǎng)絡(luò)學(xué)習網(wǎng)絡(luò)中可靠的特征表示.然而,這些方法只根據(jù)距離來確定行人之間的相互影響,忽略了時域注意力,導(dǎo)致注意力分配不符合行人行走的客觀規(guī)律.本文構(gòu)建空間注意力(Spatial Attention,SA),融合行人軌跡中隱含的距離、速度和方向信息,克服僅使用位置特征的不足.設(shè)計時域注意力模塊(Temporal Attention Module,TAM),激勵網(wǎng)絡(luò)調(diào)整在時間維度上的權(quán)值比重.這使模型具備了更好的時空建模能力.
遞歸神經(jīng)網(wǎng)絡(luò)及其變體在行人軌跡預(yù)測領(lǐng)域廣泛應(yīng)用,表現(xiàn)出了良好的預(yù)測性能.ST-RNN[29]使用時空轉(zhuǎn)換矩陣建模每個層的時空上下文.Social GAN[9]在Social LSTM 的基礎(chǔ)上增加對抗性訓(xùn)練,提高了預(yù)測性能.SR-LSTM[30]激活鄰居的當前意圖,迭代細化了行人的當前狀態(tài).但基于RNN 的軌跡預(yù)測模型只依賴前一時刻的輸出,忽略了其他時刻對軌跡預(yù)測的影響,時域感知范圍小.而CNN 可以實現(xiàn)并行處理并能提取豐富的上下文信息,一些方法證實了基于CNN 的模型在軌跡預(yù)測方面具有競爭性.例如,Yi 等人[31]使用一個大的感受野來模擬行人的行為;Yagi 等人[32]開發(fā)了一種深度神經(jīng)網(wǎng)絡(luò)來預(yù)測行人位置.但是,僅利用CNN 來集中附近行人的特征會丟失一些運動信息,這限制了預(yù)測精度.為了提升時域的感知范圍,本文將CNN 與LSTM 進行組合,在利用LSTM 進行軌跡預(yù)測之前,設(shè)計了全局特征選擇GFS,并在LSTM 上增加殘差連接.消融實驗表明,此設(shè)計進一步提高了網(wǎng)絡(luò)的預(yù)測性能.
本文提出的模型GADG 是一種編解碼結(jié)構(gòu),總體框架如圖2 所示.編碼器包括圖注意力網(wǎng)絡(luò)和自適應(yīng)有向圖學(xué)習(Adaptive Learning,APL),解碼器包括全局特征選擇GFS和軌跡預(yù)測.其中,編碼器中的全局特征更新GFU、自適應(yīng)有向圖學(xué)習APL和解碼器中的全局特征選擇GFS是本文的主要創(chuàng)新點.
圖2 模型的技術(shù)路線圖
3.1.1 單人運動特征編碼
每個行人在運動過程中有不同的運動狀態(tài),而LSTM 已被證明能從行人軌跡中提取可以描述或預(yù)測行人運動模式的隱藏特征.行人下一時刻的運動趨勢受到當前時刻運動狀態(tài)的較大影響,為了強化行人當前的運動意圖,增強當前特征信息的傳輸,本文在LSTM 中添加殘差連接,形成TS-LSTM,使得行人獲取更豐富的特征信息,增強運動決策的合理性和準確性.增加殘差連接前后的對比情況見4.2 節(jié)中的消融實驗,具體實現(xiàn)如式(1)和式(2)所示.
3.1.2 全局特征更新(GFU)
H==1,2,…,Tm,?i={1,2,…,N}}作為圖3 的輸入.GFU 通過卷積運算θ和β計算圖中所有行人之間的特征關(guān)聯(lián)程度(親密度),來獲得目標行人的全局更新特征.
圖3 全局特征更新GFU的流程圖
在實驗過程中,式(3)中的親密度函數(shù)d(hi,hj)有4種定義,4.2 節(jié)中的消融實驗驗證了它們的有效性.和分別是和的維度轉(zhuǎn)換結(jié)果,T 表示轉(zhuǎn)置.式(4)中的s(·)是一個顯示函數(shù),用于計算相鄰行人的特征.GFU不再局限于近距離的行人特征,所以提升了網(wǎng)絡(luò)在空間域的感受野.經(jīng)過GFU 后,H被擴展為Z=表示全局更新特征.
3.1.3 時空注意力
(1)空間注意力(SA)
空間注意力綜合了行人間的距離、速度和方向信息.因為數(shù)據(jù)集的采樣時間是0.4 s,輸入為相對距離,所以相對速度等于相對距離除以采樣時間.相對方向是計算行人間的余弦相似性.當融合距離Adit、速度Aspd和方向Adic信息后,空間注意力Ae的計算如式(5)所示.距離Adit構(gòu)造了圖的鄰接矩陣,建立了行人間的連接關(guān)系.為了分別突出速度和方向?qū)D上行人交互的不同影響,Adit分別與速度Aspd和方向Adic相乘后,再通過加法進行特征融合,即AditAspd+AditAdic=Adit(Aspd+Adic),距離、速度和方向?qū)︻A(yù)測性能影響的消融實驗見4.2節(jié).
其中,a∈R2D′是單層感知機的權(quán)值向量,Wt∈RD′×D是實現(xiàn)線性變換的共享權(quán)重,D和D'是輸入輸出維度,||是拼接操作,j表示行人i的鄰居,?表示矩陣的乘法.
(2)圖卷積
結(jié)合注意力Ae和全局特征Z,圖卷積的輸出如式(6)所示.
圖4 多頭圖注意力網(wǎng)絡(luò)
(3)時域注意力模塊(TAM)
由于行人在不同時刻的運動狀態(tài)不同,且不同歷史時刻的運動特征對行人未來軌跡的影響力度也不同,因此,時域注意力TAM 可以定義行人在不同時刻的運動狀態(tài)的重要程度,激勵網(wǎng)絡(luò)調(diào)整在時間維度上的權(quán)值比重,以進一步模擬真實場景,提高網(wǎng)絡(luò)的預(yù)測性能.給定來自式(6)的輸入Z,通過TAM 進行時間關(guān)聯(lián)后,輸出變成R.首先,Z被共享的線性變換函數(shù)f=xw(x是輸入,w是可學(xué)習的權(quán)值參數(shù))轉(zhuǎn)換維度,經(jīng)過3 次不同的權(quán)值參數(shù)w的轉(zhuǎn)換,變成式(7)中的3 個不同的張量Qi、Ki和Vi;其次,用Qi計算不同時間步之間的關(guān)聯(lián)程度,也就是時間注意力;再次,通過Vi轉(zhuǎn)換維度;最后,把時間注意力加權(quán)到Vi中得到式(8)的單頭注意力headj.TAM的計算過程如圖5所示.
圖5 TAM的計算過程
sf是將輸出調(diào)整到合理范圍的比例因子,0<sf<1.根據(jù)實驗結(jié)果,當sf=0.5時,預(yù)測性能最優(yōu).為使網(wǎng)絡(luò)獲取更豐富的特征信息,用式(9)計算多頭注意力.其中,時域注意力頭的數(shù)量h_num=8,消融實驗見4.2節(jié).
圖6 自適應(yīng)有向圖APL的學(xué)習過程
3.2.1 建立有向特征圖
為了體現(xiàn)行人交互的方向性和不對稱性,本文設(shè)計了行與列的級聯(lián)卷積,交叉融合行人i對行人j的影響和行人j對行人i的影響.在實現(xiàn)過程中,首先把R表示的圖結(jié)構(gòu)利用1×1的卷積進行時空融合,產(chǎn)生時空密集交互,然后,對R'分別實現(xiàn)行卷積和列卷積,最后把兩種卷積結(jié)果融合,如式(10)所示.E(0)=R',K是卷積核.本文設(shè)置7 層卷積,最終獲得的高級交互特征表示為E.
3.2.2 構(gòu)建自適應(yīng)圖模型
(1)自適應(yīng)學(xué)習
級聯(lián)卷積使行人間的交互具有了方向,但圖結(jié)構(gòu)不能隨著場景的變化而改變,存在很多冗余連接.比如在圖結(jié)構(gòu)中,后面的行人仍會對前面的行人軌跡產(chǎn)生影響.為此,本文學(xué)習閾值ξ∈[0,1]來消除不必要的交互.通過實驗,當ξ=0.5時,網(wǎng)絡(luò)的預(yù)測性能最好.在式(11)中,I(·)是指示函數(shù),如果不等式成立輸出1,否則輸出0.
(2)非零規(guī)范化
為了增加自連接,在F中需增加大小相等的單位矩陣I.然后通過元素相乘形成特征矩陣Gsp,如式(12)所示,⊙代表元素相乘.本文對編碼結(jié)果歸一化時發(fā)現(xiàn),零輸入值經(jīng)過Softmax 后變成非零值,使得沒有交互連接的行人被重新影響,冗余連接再次產(chǎn)生.為了避免這個問題,本文設(shè)計了調(diào)整因子?,來保持特征矩陣的稀疏性.
(3)編碼輸出
首先,把自適應(yīng)有向圖輸入圖注意力網(wǎng)絡(luò),輸出為G,表達式如式(14),Z來自式(6).其次,在行人運動過程中,目標行人的軌跡變化不僅來自周圍行人的相互作用,還取決于目標行人自身的影響.
3.3.1 全局特征選擇(GFS)
在使用LSTM 預(yù)測軌跡之前,為了提高時域的感知范圍,選擇重要的行人特征并控制特征信息的流動,本文設(shè)計GFS.
GFS 由卷積層和特征選擇組成,具體結(jié)構(gòu)如圖7 所示.輸入來自式(15),由C0表示,具體的表達式為C0=
(1)卷積層
在圖7 左側(cè)中,GFS 有3 個卷積層,卷積核是3×3.為了確保輸入和輸出的長度相同,需要使用填充操作來保持卷積前后的特征映射不變.觀察圖中紅線的變化可以發(fā)現(xiàn),隨著卷積層的加深,感受野變得越來越大.例如,假設(shè)把圖中的省略號表示的多個時間步看成一個時間步,那么經(jīng)過3 層卷積,輸出的一個時間步特征能感知輸入的7 個時間步的特征,這便提高了網(wǎng)絡(luò)在時域的接收范圍.經(jīng)過每個時間步特征的相互疊加,網(wǎng)絡(luò)便獲取了全局時域特征.
圖7 全局特征選擇GFS的架構(gòu)圖
(2)特征選擇
為了從卷積層中選擇重要的行人特征并控制特征信息的流動,圖7右側(cè)設(shè)計了由兩個激活函數(shù)組成的選通機制.當兩個激活函數(shù)分別為Tanh和Sigmoid 時,模型表現(xiàn)最好.圖中的一個圓可以代表許多行人,方框表示不同的時間步.GFS之后,最終輸出如式(16)所示.
其中,Wa和Wσ是兩個激活函數(shù)的權(quán)重,b是偏差,C3是最后卷積層的輸出.
3.3.2 軌跡預(yù)測
圖2 中的解碼部分是在LSTM 上增加殘差連接形成P-LSTM 來預(yù)測軌跡.P-LSTM 的結(jié)構(gòu)類似于TSLSTM.為了模擬真實場景,在訓(xùn)練過程中,對服從標準正態(tài)分布N(0,1)的隨機噪聲U進行采樣,并與O連接作為P-LSTM的輸入,如式(17)所示.是初始隱藏狀態(tài),來自式(1)的表示初始輸入,We是P-LSTM 的可更新權(quán)重.式(18)的是最終預(yù)測的行人相對位置.通過后續(xù)輸入,相對位置可以轉(zhuǎn)換為絕對位置.
為了模擬行人運動的不確定性,本文使用多樣性損失策略.受隨機噪聲U的影響,k個結(jié)果可在一次訓(xùn)練中生成.這些結(jié)果分別計算L2 距離,并將最小值作為損失,如式(19)所示.
其中,Yi是真實軌跡,是預(yù)測軌跡,k是超參數(shù),在本文中,k=20.
(1)數(shù)據(jù) 驗在2 個開放數(shù)據(jù)集ETH和UCY 上進行了驗證.這2 個數(shù)據(jù)集包括5 個室外拍攝的鳥瞰場景,共2 206 條行人軌跡,詳細介紹見表1.本文參考了Social GAN[9]的數(shù)據(jù)預(yù)處理策略,所有數(shù)據(jù)都轉(zhuǎn)換為世界坐標.
表1 ETH/UCY數(shù)據(jù)集
(2)評估指標
式(20)為平均位移誤差(Average Displacement Error,ADE)和最終位移誤差(Final Displacement Error,F(xiàn)DE)的計算方式,主要用于計算預(yù)測軌跡和真實軌跡之間的差異.指標值越小,網(wǎng)絡(luò)性能越好.
(3)實驗細節(jié)
實驗在Pytorch=1.2 的環(huán)境中運行.訓(xùn)練過程使用兩個NVIDIA GeForce GTX-1080 GPU.行人的相對坐標是模型的輸入.TS-LSTM 的隱藏狀態(tài)和圖卷積的輸出為32維向量,隨機噪聲U為16維.模型使用Adam進行優(yōu)化,批量大小為64.觀測的歷史軌跡為3.2 秒(8 個時間步),預(yù)測軌跡為4.8秒(12個時間步).
消融實驗在ZARA2 數(shù)據(jù)集上進行.由于基線模型的預(yù)測長度為12 個時間步,所以在驗證各個模塊對網(wǎng)絡(luò)性能的影響時,預(yù)測長度設(shè)置為12 個時間步.其余消融實驗的預(yù)測長度設(shè)為8.
4.2.1 模塊內(nèi)的消融實驗
表2是超參數(shù)的設(shè)置實驗,由于這些超參數(shù)是基線模型自帶的參數(shù),所以表2 的消融實驗以基線為基礎(chǔ),用黑色粗體突出最好的結(jié)果.當圖卷積層數(shù)l=2、多頭圖注意力h=4和預(yù)測次數(shù)k=20的時候,模型取得了較好的性能.這說明,圖卷積網(wǎng)絡(luò)具有淺層特征,多頭圖注意力可以強化模型的學(xué)習能力以及k表示的多樣性軌跡能體現(xiàn)行人運動的不確定性.
表2 圖卷積層數(shù)l、圖注意力頭數(shù)h和預(yù)測次數(shù)k的消融實驗
表3 用黑色粗體突出的是最好結(jié)果,可以看出,與基線相比,當親密度函數(shù)是嵌入高斯函數(shù)時,模型的表現(xiàn)最好.在LSTM 上增加殘差連接后,ADE和FDE 分別比基線降低10%和7.5%,這證明了殘差連接對于預(yù)測性能的提升是有效的.
表3 親密度函數(shù)與LSTM上殘差連接的消融實驗
表4和表5 中用黑色粗體突出最好的結(jié)果.表4 顯示,融合了行人的距離、速度和方向的空間注意力,能使網(wǎng)絡(luò)獲得詳細的行人交互,多特征融合能提升網(wǎng)絡(luò)的預(yù)測性能.表5中的數(shù)據(jù)不僅體現(xiàn)了多頭注意力的有效性,還確定了最佳時域注意力頭數(shù)是8.時域注意力體現(xiàn)的是目標行人在不同時刻的歷史運動狀態(tài)對其未來軌跡的影響,而多頭注意力能從多個角度關(guān)聯(lián)歷史運動信息.
表4 行人間的距離、速度和方向?qū)︻A(yù)測性能的影響
表5 時域注意力頭數(shù)的設(shè)置實驗
4.2.2 模塊間的消融實驗
基線STGAT[14]的圖注意力網(wǎng)絡(luò)根據(jù)距離獲得行人間的空間交互,使用兩個LSTM 分別對時域的個人運動狀態(tài)和行人交互進行編碼.在預(yù)測行人軌跡時,也使用了LSTM,預(yù)測長度為12 個時間步.本節(jié)主要是驗證全局特征更新GFU、自適應(yīng)學(xué)習APL和全局特征選擇GFS 對模型性能的影響,實驗結(jié)果如表6 所示,用黑色粗體突出最好的結(jié)果.Res 是在LSTM 上添加的殘差連接.表6 中的數(shù)據(jù)證明了在GADG 中設(shè)計的各個模塊可以進一步提高預(yù)測性能.尤其是同時增加GFU,APL和GFS 后,模型的性能達到最優(yōu),這也證明了本文提出的模型GADG 的有效性.在基線上增加全局特征更新GFU,并在LSTM 上增加殘差連接的網(wǎng)絡(luò),本文稱之為擴展圖注意力網(wǎng)絡(luò)(Extended Graph Attention Network,EGAT),以便于后面的軌跡比較.
表6 各個模塊的消融實驗
4.3.1 與先進技術(shù)的比較
在表7中,排在前三位的預(yù)測指標值分別用紅、綠、藍三種顏色表示.表中標有*的模型生成確定的軌跡,未標記的模型生成多種軌跡,并選擇最佳軌跡進行對比.實驗結(jié)果表明,與其他模型相比,本文提出的模型GADG 在所有場景數(shù)據(jù)集中都優(yōu)于基線STGAT,ADE和FDE 的平均值分別比STGAT 降低14%和12%.與最優(yōu)值相比,ADE和FDE 的平均值分別降低14%和3%.ETH 的ADE/FDE,HOTEL 的ADE/FDE,ZARA2 的ADE以及ADE和FDE 的均值都達到最優(yōu).在UNIV 中,高密度人群涉及更多的行人交互,迫使目標行人在轉(zhuǎn)彎、穿越人群等不同選項中做出決策,這使得預(yù)測更具有挑戰(zhàn)性.在ZARA1 中,行人的軌跡經(jīng)常受到周圍行人和障礙物的影響,這可能會改變或限制人類活動,導(dǎo)致模型無法捕捉更多的社交互動.
表7 在ETH/UCY數(shù)據(jù)集上的實驗結(jié)果比較
4.3.2 推斷時間
表8 比較了不同方法的推理時間,通過比較可以發(fā)現(xiàn),GADG 在推理過程中具有較高的計算效率.這歸因于其計算過程只使用視覺信息,不需要在場景中檢測和跟蹤行人.但由于GADG 使用了遞歸網(wǎng)絡(luò)LSTM進行部分時態(tài)推理,因此,本模型的推理速度略慢于Social-STGCNN.但與STGAT 相比,GADG 的推理速度依然很快.這是因為GADG 不僅增加了感受野,提高了數(shù)據(jù)并行處理的效率,還能利用圖的自適應(yīng)學(xué)習精簡模型結(jié)構(gòu).
表8 推斷時間比較
4.4.1 訓(xùn)練過程對比
在相同的實驗環(huán)境下,GADG和STGAT 的訓(xùn)練過程在圖8 中進行了比較.圖中ADE和FDE 的變化趨勢存在幾個特點.首先,GADG 隨著訓(xùn)練進度的推進更加穩(wěn)定,比STGAT 更快地擬合.其次,擬合后,GADG 的ADE和FDE 均優(yōu)于STGAT,且都超過了最優(yōu)值.最后,STGAT 在ADE 上的變化先降后升,說明更多的迭代使得STGAT 的性能沒有提高反而下降.也就是,盡管STGAT能夠適應(yīng)樣本,但對樣本的擬合能力不強.
圖8 訓(xùn)練過程分析
4.4.2 自適應(yīng)有向圖的可視化
圖9 不僅展示了模型在不同場景中行人之間的交互影響,而且還能捕捉到行人具體的交互對象.圖中由實線帶箭頭表示的交互連接具有不同的方向和顏色,說明了行人間的交互具有方向性和不對稱性.連接顏色越深,行人間的影響越大,且影響程度從藍色、紫色到紅色依次遞增.例如,在圖9(a)中,由于綠色節(jié)點到藍色節(jié)點的連接顏色(深紅色)比藍色節(jié)點到綠色節(jié)點的連接顏色(淡紅色)深,所以綠色節(jié)點對藍色節(jié)點的影響大于藍色節(jié)點對綠色節(jié)點的影響,這與現(xiàn)實場景是一致的.在圖9(b)和圖9(c)中,通過交互連接的方向可以發(fā)現(xiàn),紅色節(jié)點的軌跡僅受自身歷史軌跡的影響.此外,根據(jù)交互連接的指示方向,模型還可以動態(tài)捕獲目標行人的交互對象.例如,圖9(a)中的藍色節(jié)點與綠色和黃色節(jié)點交互,與棕色節(jié)點無交互關(guān)系;在圖9(c)中,除紅色節(jié)點外,綠色節(jié)點與所有節(jié)點交互,但藍色節(jié)點的交互節(jié)點只有黃色節(jié)點.
圖9 自適應(yīng)有向圖的可視化
4.4.3 軌跡可視化
圖10比較了行人在同向或異向行走、多人并行、相遇、群組行走的軌跡變化,黃色虛線(預(yù)測軌跡)和藍色實線(真實軌跡)的重合度越高,預(yù)測精度越高.對于群體運動,行人交互是復(fù)雜的,觀察重合度可以看出GADG 預(yù)測的軌跡比EGAT和STGAT 更準確.STGAT擅長預(yù)測線性軌跡,而GADG 可以推斷行人軌跡的變化,如圖10(c)(e)(f)所示.當行人直行時,STGAT 可以預(yù)測符合現(xiàn)實的軌跡,但精度比EGAT 差.這是因為EGAT 在融合運動特征時利用全局特征更新GFU 捕獲了行人的全局交互.但是與GADG 相比,EGAT 的預(yù)測精度較差.其原因是GADG能在自適應(yīng)學(xué)習過程中建立合理的自適應(yīng)有向圖,并能利用全局特征選擇GFS提升時域的感知范圍并獲取行人在運動過程中的顯著特征.當行人非線性移動(如轉(zhuǎn)彎、曲折行走)時,如圖10(a)(b)(d)(e),STGAT 不能準確預(yù)測行人的未來軌跡,但GADG 卻可以合理地預(yù)測貼近真實的軌跡.在圖10(e)中,當一名身穿黑色T 恤衫的女士穿過人群時,STGAT 預(yù)測的黃色虛線較短,與藍色實線表示的真實軌跡相差很大.也就是,STGAT預(yù)測該女士將在原地等待.但EGAT和GADG 卻推斷出她即將穿過人群,這主要得益于GFU 實現(xiàn)的全局特征關(guān)聯(lián).但是,GADG 的預(yù)測精度更好,這就證明APL和GFS 對預(yù)測性能的提升是有效的.在圖10(b)中,EGAT和GADG能判斷靜止行人(軌跡由點表示)并預(yù)測其未來的靜止狀態(tài),而STGAT 將靜止行人視為移動行人.這些可視化結(jié)果直觀地表明,與STGAT 生成的軌跡相比,本文提出的模型GADG能夠更好地捕捉全局交互和顯著的運動特征,并能生成更可靠的行人軌跡.
圖10 預(yù)測軌跡的可視化
在UNIV 數(shù)據(jù)集中,行人的數(shù)量不多但密集度很高,建立的圖模型比較復(fù)雜,行人之間存在著更加復(fù)雜的交互.圖11 展示了在密集行人的場景中預(yù)測的未來軌跡.根據(jù)真實軌跡和預(yù)測軌跡的重合度可以發(fā)現(xiàn),本文提出的模型能取得較好的預(yù)測效果.由于觀測軌跡是8 個時間步,預(yù)測軌跡是12 個時間步,在建立圖模型的過程中,模型會忽略當前場景中達不到要求的行人.所以,圖11 顯示的是達到上述要求的部分行人的預(yù)測軌跡,而不滿足要求的行人多為剛進入或即將走出場景以及正在行走但未達到時間步數(shù)量的人.
圖11 密集行人的預(yù)測軌跡
4.4.4 存在的問題及研究方向
當場景中同時有大量行人出現(xiàn)時,由于行人比較密集,因此行人之間的特征差異減小,導(dǎo)致空間注意力均勻分布,如圖12所示.在圖12中,周圍行人上的圓圈越大,說明此行人對目標行人的影響越大.而圖中卻顯示了大小差不多的圓圈,即模型產(chǎn)生了均勻分布的注意力.因此,未來的研究重點將是為模型添加額外的輔助信息,例如場景信息、行人的社會屬性信息等.只有對這些信息進行整合,才能把握行人的運動意圖,模擬行人的最終行為決策.另外,面對異常復(fù)雜的人群數(shù)據(jù)集,還需要提升模型的泛化性能.
圖12 空間注意力均勻分布
本文提出了一種基于全局自適應(yīng)有向圖的行人軌跡預(yù)測方法GADG,旨在解決行人軌跡預(yù)測過程中存在的時空感知范圍小、行人之間的交互對稱和圖結(jié)構(gòu)固定不隨場景變化的問題.模型在5個開放的場景數(shù)據(jù)集上取得了優(yōu)異的實驗性能.實驗結(jié)果表明,GADG 能提高模型的時空感知范圍,根據(jù)行人之間的不對稱交互強化方向感知,自適應(yīng)調(diào)整圖結(jié)構(gòu),并能預(yù)測更可靠的行人運動軌跡.然而,當場景中突然出現(xiàn)許多行人時,行人之間的特征差異隨著行人數(shù)量的增加而減小,導(dǎo)致注意力均勻分布.所以,結(jié)合場景、行人社會屬性等信息,及時判斷行人的運動意圖,為將來的研究指明了方向.