孫 科,鄢 府,范勇強(qiáng),牟利平,謝海兵
(1. 數(shù)字瀘州產(chǎn)業(yè)投資集團(tuán)有限公司,四川 瀘州 646004;2. 四川省金科成地理信息技術(shù)有限公司,四川 成都 610095;3. 成都市生態(tài)環(huán)境數(shù)智治理中心,四川 成都 610015;4. 四川省煙草公司瀘州市公司,四川 瀘州 646004;5.中國(guó)人民解放軍聯(lián)勤保障部隊(duì),湖北 武漢 430013)
通常,行人在行走時(shí)可能會(huì)受到多種因素的影響,如行人的預(yù)期目標(biāo)位置、預(yù)期行動(dòng)路線上的障礙物,以及附近其他行人的移動(dòng)狀態(tài)等。近年來,傳統(tǒng)的行人軌跡預(yù)測(cè)技術(shù)并沒有考慮與其他行人的交互關(guān)系[1-4]?;趯W(xué)習(xí)的方法也存在一定局限性,如沒有充分利用時(shí)空?qǐng)D的結(jié)構(gòu)信息,無法理解不同時(shí)間段各個(gè)行人空間坐標(biāo)的變化關(guān)系,導(dǎo)致軌跡預(yù)測(cè)模型的性能下降[3]。
時(shí)空?qǐng)D被廣泛應(yīng)用于路線規(guī)劃、定位和導(dǎo)航等領(lǐng)域[5-11]。目前,已經(jīng)有許多將時(shí)空?qǐng)D應(yīng)用于軌跡預(yù)測(cè)的案例[1, 3, 5, 8],并且取得了不錯(cuò)的成果。然而,上述方法并沒有充分利用時(shí)空?qǐng)D中的所有信息,只是傾向于使用可以從時(shí)空?qǐng)D中獲得的部分特征信息。例如,ST-LSTM[1]只使用固定時(shí)間步長(zhǎng)的空間信息,而忽略了長(zhǎng)短期空間依賴關(guān)系的特征。
關(guān)系路徑應(yīng)用于社交網(wǎng)絡(luò)分析等領(lǐng)域[12],能夠顯式地捕獲節(jié)點(diǎn)之間的長(zhǎng)短期關(guān)系。利用關(guān)系路徑來準(zhǔn)確捕捉時(shí)空?qǐng)D中的結(jié)構(gòu)信息,能夠?yàn)樾腥塑壽E預(yù)測(cè)任務(wù)提供新的思路。
本文提出了一種基于時(shí)空?qǐng)D聯(lián)合關(guān)系路徑的行人軌跡預(yù)測(cè)框架(Spatio-Temporal Graphs with Relationship Path Trajectory Prediction Framework,STRP-TPF)。STRP-TPF利用關(guān)系路徑來準(zhǔn)確捕捉時(shí)空?qǐng)D的結(jié)構(gòu)特征。STRP-TPF基于時(shí)空?qǐng)D構(gòu)建關(guān)系路徑,并基于關(guān)系路徑構(gòu)建因子圖。STRP-TPF將因子圖作為EdgeRNN和NodeRNN模型的輸入,輸出行人的預(yù)測(cè)軌跡。STRP-TPF充分學(xué)習(xí)行人在不同時(shí)間和空間點(diǎn)的軌跡關(guān)系,相比目前最先進(jìn)的方法能表現(xiàn)出更好的性能。在行人軌跡預(yù)測(cè)任務(wù)中,STRP-TPF的預(yù)測(cè)軌跡更加符合真實(shí)的行人軌跡。
本文第1節(jié)介紹了時(shí)空?qǐng)D、關(guān)系路徑以及軌跡預(yù)測(cè)的相關(guān)工作;第2節(jié)介紹了STRP-TPF的架構(gòu);第3節(jié)介紹了實(shí)驗(yàn)流程和實(shí)驗(yàn)結(jié)果;第4節(jié)進(jìn)行了總結(jié)與展望。
時(shí)空?qǐng)D不僅被應(yīng)用于機(jī)器人任務(wù),而且被廣泛應(yīng)用于交通預(yù)測(cè)、路線規(guī)劃和軌跡預(yù)測(cè)等領(lǐng)域[13-14]。時(shí)空?qǐng)D中存在多個(gè)交互實(shí)體,這些實(shí)體的屬性往往與時(shí)間和空間相關(guān)。在時(shí)空?qǐng)D中,頂點(diǎn)代表實(shí)體在場(chǎng)景中不同時(shí)刻的屬性;空間邊描述了同一時(shí)刻不同頂點(diǎn)之間的位置關(guān)系;時(shí)間邊描述了不同時(shí)刻同一頂點(diǎn)位置的變化關(guān)系。行人場(chǎng)景如圖1所示。
圖1 行人場(chǎng)景Fig.1 Pedestrian scene graph
關(guān)系路徑是指連接2個(gè)實(shí)體的一個(gè)關(guān)系序列。如圖2所示。連接2個(gè)author可以有不同的關(guān)系路徑,例如author1→paper1→author3,表示author1和author3之間的合作關(guān)系;author1→paper1→venue→paper2→author2,表示author1和author2參加同一個(gè)會(huì)議的關(guān)系。關(guān)系路徑包含豐富的語義關(guān)系,能夠指示2個(gè)沒有直接連接的實(shí)體之間的語義關(guān)系。因此,關(guān)系路徑應(yīng)用于知識(shí)圖譜[15]以及社交網(wǎng)絡(luò)分析。關(guān)系路徑對(duì)于尋找圖中的新模式和語義關(guān)系至關(guān)重要。
圖2 關(guān)系路徑示例Fig.2 Example diagram of relationship path
傳統(tǒng)的軌跡預(yù)測(cè)方法主要是基于物理的方法[16],但規(guī)則復(fù)雜、約束性強(qiáng)以及可擴(kuò)展性較差[17],往往只能應(yīng)用于特定領(lǐng)域。基于學(xué)習(xí)的軌跡預(yù)測(cè)方法不依賴于專家經(jīng)驗(yàn)的物理規(guī)則,而是基于數(shù)據(jù)驅(qū)動(dòng),根據(jù)觀察的軌跡數(shù)據(jù)來學(xué)習(xí)不同時(shí)間段的各個(gè)空間位置之間的變化規(guī)則。基于學(xué)習(xí)的方法(如基于RNN[18])已經(jīng)在軌跡預(yù)測(cè)任務(wù)中有良好的表現(xiàn),例如ST-LSTM[1],ST-Transformer[3],Social GAN[4],SR-LSTM[19]和Social Attention[20]。然而,上述方法并不顯示使用時(shí)空?qǐng)D中的結(jié)構(gòu)信息,導(dǎo)致軌跡預(yù)測(cè)模型的性能下降。
首先,定義行人軌跡預(yù)測(cè)任務(wù);其次,介紹如何基于行人軌跡預(yù)測(cè)任務(wù)構(gòu)建時(shí)空?qǐng)D;接著,介紹如何在時(shí)空?qǐng)D中構(gòu)建關(guān)系路徑并且基于關(guān)系路徑構(gòu)建因子圖;然后,介紹如何基于因子圖構(gòu)建EdgeRNN模型和NodeRNN模型;最后,介紹STRP-TPF的工作機(jī)制。
在行人軌跡預(yù)測(cè)任務(wù)中,根據(jù)行人的空間坐標(biāo)集來構(gòu)建時(shí)空?qǐng)DG,行人被視為時(shí)空?qǐng)D中的頂點(diǎn),行人軌跡預(yù)測(cè)任務(wù)的時(shí)空?qǐng)DG如圖3所示,紅線代表空間邊,黑線代表時(shí)間邊。
圖3 行人場(chǎng)景的時(shí)空?qǐng)DFig.3 Spatio-temporal graph of pedestrian scenes
時(shí)空?qǐng)DG表示為:
G=(V,Es,Et),
(1)
式中,V表示一組頂點(diǎn)集;Es表示連接2個(gè)頂點(diǎn)的空間邊集,空間邊是指將同一時(shí)刻的不同頂點(diǎn)進(jìn)行連接;Et表示連接2個(gè)頂點(diǎn)的時(shí)間邊集,時(shí)間邊是指將同一頂點(diǎn)在不同時(shí)間的空間坐標(biāo)進(jìn)行連接。V,Es,Et的定義如下:
(2)
(3)
(4)
(5)
(6)
(7)
在復(fù)雜的行人軌跡預(yù)測(cè)場(chǎng)景中,各個(gè)行人的軌跡往往相互影響,預(yù)測(cè)行人軌跡取決于以下3個(gè)關(guān)鍵因素:① 其他行人的位置在過去時(shí)間中如何變化;② 其他行人的位置與之前時(shí)刻的位置發(fā)生了怎樣的變化;③ 在預(yù)測(cè)時(shí)間內(nèi)與其他行人位置的空間關(guān)系。這3個(gè)關(guān)鍵因素基于一個(gè)事實(shí):人們?cè)谝苿?dòng)中會(huì)觀察周圍其他的主體,并通過與其他主體的時(shí)空關(guān)系做出決策。換句話說,人們不僅關(guān)注當(dāng)前其他行人的距離,還考慮其他行人的移動(dòng)方式?;跁r(shí)空?qǐng)D的關(guān)系路徑正好契合這種觀點(diǎn)。
在時(shí)空?qǐng)D中,從一個(gè)頂點(diǎn)到另一個(gè)頂點(diǎn)有多條不同的路徑。連接任意2個(gè)頂點(diǎn)的路徑為關(guān)系路徑,路徑可包含不同類型的邊,如時(shí)間邊和空間邊。在時(shí)空?qǐng)DG中,長(zhǎng)度為k的關(guān)系路徑M被定義為頂點(diǎn)vi和頂點(diǎn)vj之間的路徑。例如,有一條從頂點(diǎn)vi到頂點(diǎn)vj的路徑為vi→v1→…→vj,共包含k條不同類型的邊,關(guān)系路徑M為m1-m2-…-mk,其中m1對(duì)應(yīng)頂點(diǎn)vi和頂點(diǎn)v1之間的邊。
通常,若圖中包含b種類型的邊,對(duì)于給定長(zhǎng)度為l的路徑,共有bl種不同類型的關(guān)系路徑。在時(shí)空?qǐng)D中共有2種類型的邊:空間邊和時(shí)間邊。因此,對(duì)于給定長(zhǎng)度為2的關(guān)系路徑,在時(shí)空?qǐng)D中共有4種關(guān)系路徑,分別是時(shí)間邊→時(shí)間邊、時(shí)間邊→空間邊、空間邊→空間邊、空間邊→時(shí)間邊。每種類型的關(guān)系路徑均可以表示不同的信息。例如,一條關(guān)系路徑為空間邊→時(shí)間邊,可以表示行人相對(duì)其鄰居是如何進(jìn)行跨時(shí)間移動(dòng);關(guān)系路徑為時(shí)間邊→時(shí)間邊,可以表示行人的空間位置在一段時(shí)間內(nèi)的移動(dòng)情況;關(guān)系路徑為時(shí)間邊→空間邊,可以表示行人在一段時(shí)間內(nèi)的位置相對(duì)其鄰居的位置如何變化;關(guān)系路徑為空間邊→空間邊,可以表示行人與其鄰居的位置關(guān)系。4種關(guān)系路徑的表示方式如下:
在時(shí)空?qǐng)D中可以構(gòu)造長(zhǎng)度更長(zhǎng)的關(guān)系路徑。但是,在本文中,僅限于長(zhǎng)度為2的關(guān)系路徑,因?yàn)樵黾雨P(guān)系路徑的長(zhǎng)度往往會(huì)增加模型的復(fù)雜性。此外,長(zhǎng)度較短的關(guān)系路徑往往會(huì)比長(zhǎng)度較長(zhǎng)的關(guān)系路徑產(chǎn)生更多關(guān)鍵的特征[21]。主要是因?yàn)殚L(zhǎng)度較短的關(guān)系路徑往往包含更準(zhǔn)確的結(jié)構(gòu)特征信息,更容易描述不同時(shí)空內(nèi)各個(gè)行人之間的位置關(guān)系,能夠提供更多關(guān)鍵的特征。長(zhǎng)度較長(zhǎng)的關(guān)系路徑雖然能夠包含更多的特征信息,但是往往無法準(zhǔn)確地捕捉行人與其鄰居之間的多種位置關(guān)系,進(jìn)而容易忽略關(guān)鍵的結(jié)構(gòu)特征信息。需要注意的是,長(zhǎng)度為1的關(guān)系路徑只是時(shí)空?qǐng)D中的邊。
基于時(shí)空?qǐng)D中的關(guān)系路徑構(gòu)建因子圖,如圖4所示。設(shè)定關(guān)系路徑的長(zhǎng)度為1和2。共有7種類型的因子,分別是節(jié)點(diǎn)因子、空間關(guān)系路徑因子、時(shí)間關(guān)系路徑因子、空間→空間關(guān)系路徑因子、時(shí)間→時(shí)間關(guān)系路徑因子、時(shí)間→空間關(guān)系路徑因子、空間→時(shí)間關(guān)系路徑因子。
圖4 基于關(guān)系路徑的因子圖Fig.4 Factor graph based on relationship path
因子圖中同類型的因子均由一個(gè)RNN模塊處理,如多個(gè)空間關(guān)系路徑因子、多個(gè)時(shí)間關(guān)系路徑因子、多個(gè)節(jié)點(diǎn)因子分別由單個(gè)RNN模塊進(jìn)行處理。因此,RNN模塊的數(shù)量不會(huì)隨時(shí)空?qǐng)D中頂點(diǎn)數(shù)量的變化而變化,進(jìn)而STRP-TPF不用考慮行人的數(shù)量,可以擴(kuò)展到復(fù)雜的行人軌跡預(yù)測(cè)場(chǎng)景。
為了構(gòu)建STRP-TPF中的EdgeRNN模型,根據(jù)因子的類型,將每種因子由EdgeRNN模型進(jìn)行處理生成不同類型的特征向量。EdgeRNN模型處理同類型的關(guān)系路徑因子的過程如圖5所示。
圖5 EdgeRNN模型處理關(guān)系路徑因子的過程Fig.5 Process of EdgeRNN model processing relationship path factors
EdgeRNN模型將同一類型的所有關(guān)系路徑因子作為輸入,并輸出一個(gè)表示該類型的所有關(guān)系路徑的特征向量。首先,EdgeRNN將所有輸入的關(guān)系路徑因子相加,生成一個(gè)累加向量;然后,將累加向量輸入到編碼器生成編碼向量;最后,將編碼向量輸入到RNN模塊中。RNN模塊將同一類型所有關(guān)系路徑的編碼向量和上一時(shí)刻輸出的隱藏向量作為輸入,輸出當(dāng)前時(shí)刻的隱藏向量。當(dāng)前時(shí)刻的隱藏向量作為EdgeRNN模型的輸出再傳遞出去作為下一時(shí)刻的輸入,直到終止?fàn)顟B(tài)。
(8)
(9)
(10)
圖6 NodeRNN模型處理節(jié)點(diǎn)因子的過程Fig.6 Process of NodeRNN model processing node factors
NodeRNN模型將EdgeRNN模型輸出的隱藏向量作為輸入。首先,NodeRNN模型將隱藏向量和表示頂點(diǎn)位置的編碼向量進(jìn)行串聯(lián),生成一個(gè)串聯(lián)向量;其次,將串聯(lián)向量輸入到RNN模塊中。RNN模塊將串聯(lián)向量和上一時(shí)刻輸出的隱藏向量作為輸入,輸出當(dāng)前時(shí)刻的隱藏向量;最后,將隱藏向量輸入到偏移解碼器,生成一個(gè)偏移量,偏移量與當(dāng)前時(shí)刻頂點(diǎn)的空間坐標(biāo)相加來預(yù)測(cè)下一時(shí)刻的頂點(diǎn)位置。
NodeRNN模型負(fù)責(zé)匯總從時(shí)空?qǐng)D中收集的所有信息,并預(yù)測(cè)下一時(shí)刻的頂點(diǎn)位置。NodeRNN模型的學(xué)習(xí)參數(shù)包括節(jié)點(diǎn)編碼器的參數(shù)NEncoder,RNN模塊的參數(shù)NRNN以及偏移解碼器的參數(shù)NDecoder。
(11)
(12)
(13)
(14)
(15)
STRP-TPF的工作機(jī)制如圖7所示,由EdgeRNN模型和NodeRNN模型組成。EdgeRNN模型和NodeRNN模型的編碼器由一個(gè)linear層、tanh激活函數(shù)層以及一個(gè)dropout層組成。NodeRNN模型的解碼器包括一個(gè)linear層和tanh激活函數(shù)層。
圖7 STRP-TPF工作機(jī)制Fig.7 Working mechanism of STRP-TPF
STRP-TPF將當(dāng)前時(shí)刻頂點(diǎn)的位置和各種類型的關(guān)系路徑因子作為EdgeRNN模型和NodeRNN模型的輸入。STRP-TPF預(yù)測(cè)下一時(shí)刻的頂點(diǎn)位置(行人空間坐標(biāo)),并輸出EdgeRNN模型和NodeRNN模型中所有的隱藏狀態(tài),為進(jìn)一步預(yù)測(cè)后續(xù)時(shí)刻的頂點(diǎn)位置做準(zhǔn)備。
在觀測(cè)時(shí)間內(nèi),STRP-TPF利用時(shí)空?qǐng)D來獲取行人的當(dāng)前位置,并且初始化EdgeRNN模型和NodeRNN模型的隱藏向量。首先,STRP-TPF基于時(shí)空?qǐng)D來構(gòu)建關(guān)系路徑,預(yù)測(cè)下一時(shí)刻所有行人的位置;然后,將時(shí)空?qǐng)D進(jìn)行更新,并且基于時(shí)空?qǐng)D來構(gòu)建新的關(guān)系路徑,進(jìn)而繼續(xù)預(yù)測(cè)后續(xù)時(shí)刻所有行人的位置。
首先,介紹評(píng)估STRP-TPF性能的數(shù)據(jù)集;然后,介紹實(shí)驗(yàn)的實(shí)施細(xì)節(jié)、所有基準(zhǔn)對(duì)比方法以及定義評(píng)估指標(biāo);最后,將STRP-TPF與最先進(jìn)的方法進(jìn)行比較,并給出實(shí)驗(yàn)結(jié)果及討論。
評(píng)估STRP-TPF性能的數(shù)據(jù)集為ETH[22]數(shù)據(jù)集和UCY[23]數(shù)據(jù)集。ETH數(shù)據(jù)集由2個(gè)子集組成:ETH-UNIV和ETH-HOTEL。UCY數(shù)據(jù)集由3個(gè)子集組成:UCY-ZARA01,UCY-ZARA02和UCY-UNIV。ETH數(shù)據(jù)集和UCY數(shù)據(jù)集中的軌跡以2.5幀/秒的速率采樣。首先,對(duì)ETH數(shù)據(jù)集進(jìn)行預(yù)處理,獲得了3 837個(gè)8 s的場(chǎng)景,其中包含多個(gè)行人的互動(dòng)關(guān)系和移動(dòng)方向。為了評(píng)估STRP-TPF的泛化能力,僅使用4個(gè)子集對(duì)STRP-TPF進(jìn)行訓(xùn)練,并在余下的一個(gè)子集上對(duì)STRP-TPF進(jìn)行測(cè)試。STRP-TPF預(yù)測(cè)了在整個(gè)觀測(cè)時(shí)間內(nèi)的每個(gè)場(chǎng)景中所有行人的軌跡。所有基準(zhǔn)方法采用類似的方法進(jìn)行實(shí)驗(yàn)。
對(duì)每個(gè)場(chǎng)景的軌跡進(jìn)行3.2 s的觀察,并預(yù)測(cè)后續(xù)4.8 s的軌跡。在訓(xùn)練期間,輸入時(shí)空?qǐng)D當(dāng)前時(shí)刻所有行人的位置,并且結(jié)合Teacher Forcing機(jī)制來預(yù)測(cè)下一時(shí)刻所有行人的位置。訓(xùn)練集占數(shù)據(jù)集的80%,測(cè)試集占數(shù)據(jù)集的20%。在STRP-TPF中,任何模型計(jì)算之前,所有軌跡均標(biāo)準(zhǔn)化為[-1,1],并且預(yù)測(cè)期間的行人軌跡不使用標(biāo)準(zhǔn)化。
STRP-TPF經(jīng)過100個(gè)epoch的訓(xùn)練,并且使用ADAM優(yōu)化器進(jìn)行優(yōu)化,學(xué)習(xí)率為0.001,損失函數(shù)為均方差函數(shù)。實(shí)驗(yàn)設(shè)備的主要配置為英特爾至強(qiáng)E-2388CPU,128 GB內(nèi)存以及NVIDIA RTX 3090 GPU。
基準(zhǔn)方法包括Vanilla-LSTM (VLSTM)[24]和Structural-RNN (SRNN)[25]。VLSTM是一個(gè)簡(jiǎn)單的LSTM模型,其將當(dāng)前時(shí)刻行人的位置作為輸入來預(yù)測(cè)下一時(shí)刻行人的位置。VLSTM作為基準(zhǔn)方法是由于相比于線性模型和Social Force模型,能表現(xiàn)出更好的性能。SRNN由Jain等提出。SRNN與STRP-TPF的區(qū)別是SRNN沒有涉及到關(guān)系路徑。
評(píng)估指標(biāo)分別包括平均位移誤差(Average Displacement Error, ADE)和最終位移誤差(Final Displacement Error, FDE)。ADE是指在預(yù)測(cè)期間的每個(gè)時(shí)刻,計(jì)算預(yù)測(cè)軌跡和真實(shí)軌跡之間的L2距離的平均值。ADE的數(shù)值越小表示預(yù)測(cè)軌跡與真實(shí)軌跡越吻合。FDE是指在預(yù)測(cè)期間的最后時(shí)刻,計(jì)算預(yù)測(cè)軌跡和真實(shí)軌跡之間的歐氏距離。FDE的數(shù)值越低表示預(yù)測(cè)終點(diǎn)更接近真實(shí)終點(diǎn)。
(1)ADE分析
在ETH數(shù)據(jù)集上評(píng)估STRP-TPF與VLSTM以及SRNN的ADE,結(jié)果如圖8所示。
圖8 基于ETH數(shù)據(jù)集的不同方法的ADEFig.8 ADE of different methods based on ETH dataset
由圖8可以看出,STRP-TPF的ADE明顯小于VLSTM和SRNN。STRP-TPF的ADE比VLSTM和SRNN分別低65.6%和16.5%。這表明STRP-TPF的預(yù)測(cè)軌跡更吻合真實(shí)軌跡,VLSTM和SRNN的預(yù)測(cè)軌跡更偏離真實(shí)軌跡。主要是因?yàn)镾TRP-TPF將時(shí)空?qǐng)D結(jié)合關(guān)系路徑能夠捕捉時(shí)空?qǐng)D的整體結(jié)構(gòu)信息,并且理解各個(gè)行人軌跡之間的交互關(guān)系,使得STRP-TPF能夠預(yù)測(cè)更符合真實(shí)場(chǎng)景的軌跡。
在UCY數(shù)據(jù)集上評(píng)估STRP-TPF與VLSTM以及SRNN的ADE,結(jié)果如圖9所示。由圖9可以看出,STRP-TPF的ADE為最小,STRP-TPF的ADE比VLSTM和SRNN分別低80.5%和42.3%。這表明STRP-TPF能夠預(yù)測(cè)更加真實(shí)的軌跡。VLSTM和SRNN比STRP-TPF的ADE更大,表明VLSTM和SRNN的預(yù)測(cè)軌跡與真實(shí)軌跡偏離較大。主要原因在于STRP-TPF利用關(guān)系路徑捕捉了基于時(shí)空?qǐng)D的關(guān)系路徑特征,能夠?qū)W習(xí)其他行人的移動(dòng)軌跡對(duì)目標(biāo)行人產(chǎn)生的影響,使得STRP-TPF的預(yù)測(cè)軌跡更加匹配復(fù)雜行人場(chǎng)景中的真實(shí)軌跡。
圖9 基于UCY數(shù)據(jù)集的不同方法的ADEFig.9 ADE of different methods based on UCY dataset
(2)FDE分析
在ETH數(shù)據(jù)集上評(píng)估STRP-TPF與VLSTM以及SRNN的FDE,結(jié)果如圖10所示。
圖10 基于ETH數(shù)據(jù)集的不同方法的FDEFig.10 FDE of different methods based on ETH dataset
由圖10可以看出,STRP-TPF的FDE小于VLSTM和SRNN。STRP-TPF的FDE比VLSTM和SRNN分別低70.4%和21.9%。這表明STRP-TPF的預(yù)測(cè)軌跡的最終位置更接近真實(shí)終點(diǎn),VLSTM和SRNN更偏離真實(shí)終點(diǎn)。此外,相比于ADE,在FDE方面,STRP-TPF與VLSTM以及SRNN的差距更大。主要原因是STRP-TPF能夠提取時(shí)空?qǐng)D的整體結(jié)構(gòu)信息,更好地預(yù)測(cè)行人的最終位置。
在UCY數(shù)據(jù)集上評(píng)估STRP-TPF與VLSTM以及SRNN的FDE,結(jié)果如圖11所示。由圖11可以看出,STRP-TPF的FDE為最小。STRP-TPF的FDE比VLSTM和SRNN分別低84.4%和50.4%。這表明STRP-TPF可以更精確地預(yù)測(cè)行人軌跡的最終位置。VLSTM和SRNN相比于STRP-TPF的FDE更大,表明VLSTM和SRNN的預(yù)測(cè)軌跡的最終位置遠(yuǎn)遠(yuǎn)偏離真實(shí)的終點(diǎn)位置。主要原因是STRP-TPF在預(yù)測(cè)軌跡的過程中結(jié)合關(guān)系路徑,能夠更好地理解行人最終會(huì)停留的位置。
圖11 基于UCY集的不同方法的FDEFig.11 FDE of different methods based on UCY dataset
(3)整體性能分析
為了更好地評(píng)估STRP-TPF的整體性能,在2個(gè)數(shù)據(jù)集上計(jì)算STRP-TPF的ADE的均值和FDE的均值,結(jié)果如圖12和圖13所示。
圖12 不同方法的ADE的均值Fig.12 Mean values of the ADE of different methods
圖13 不同方法的FDE的均值Fig.13 Mean values of the FDE of different methods
由圖12和圖13可以看出,STRP-TPF的ADE均值和FDE均值為最低,說明STRP-TPF的整體性能優(yōu)于其他2種基準(zhǔn)方法。主要原因是STRP-TPF能夠利用時(shí)空?qǐng)D的結(jié)構(gòu)信息來捕捉行人位置間的時(shí)空關(guān)系,并充分學(xué)習(xí)不同時(shí)間段各個(gè)行人的空間位置的變化關(guān)系,進(jìn)而能夠準(zhǔn)確地預(yù)測(cè)行人軌跡。STRP-TPF的ADE均值比VLSTM和SRNN分別低76.2%和32.6%,STRP-TPF的FDE均值比VLSTM和SRNN分別低79.3%和37.7%。主要原因在于時(shí)空?qǐng)D結(jié)合關(guān)系路徑使得STRP-TPF的整體性能大大提升。SRNN的性能最接近STRP-TPF,主要原因在于STRP-TPF進(jìn)一步考慮了時(shí)空?qǐng)D的結(jié)構(gòu)信息,并且充分利用關(guān)系路徑來捕捉時(shí)空?qǐng)D的關(guān)鍵特征,為后續(xù)EdgeRNN和NodeRNN模型提供更豐富的行人位置關(guān)系。此外,SRNN的性能優(yōu)于VLSTM的主要原因在于VLSTM沒有考慮行人容易受到鄰居軌跡的影響,進(jìn)而沒有利用時(shí)空?qǐng)D的信息,而是僅僅將當(dāng)前時(shí)刻的行人位置作為序列模型的輸入,進(jìn)而預(yù)測(cè)下一時(shí)刻的行人位置。
本文提出了新型基于時(shí)空?qǐng)D聯(lián)合關(guān)系路徑的行人軌跡預(yù)測(cè)框架STRP-TPF。STRP-TPF利用時(shí)空?qǐng)D構(gòu)建關(guān)系路徑,并基于關(guān)系路徑來構(gòu)建因子圖,能夠更好地捕捉時(shí)空?qǐng)D的整體結(jié)構(gòu)信息。此外,基于因子圖構(gòu)建EdgeRNN和NodeRNN模型,最終預(yù)測(cè)行人下一時(shí)刻的位置,并且在時(shí)空?qǐng)D中預(yù)測(cè)出所有行人的完整軌跡。大量實(shí)驗(yàn)證明,STRP-TPF在行人軌跡預(yù)測(cè)任務(wù)上表現(xiàn)出最佳的性能,在ADE和FDE方面,均優(yōu)于當(dāng)前主流方法。未來還將考慮更長(zhǎng)的關(guān)系路徑對(duì)行人軌跡預(yù)測(cè)任務(wù)的影響;使用更復(fù)雜的數(shù)據(jù)集來探索STRP-TPF的泛化能力;引入外部因素如行人的社會(huì)關(guān)系來研究復(fù)雜的行人軌跡預(yù)測(cè)場(chǎng)景。