亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于狀態(tài)精細(xì)化長短期記憶和注意力機(jī)制的社交生成對抗網(wǎng)絡(luò)用于行人軌跡預(yù)測

        2023-05-24 03:19:06吳家皋章仕穩(wěn)蔣宇棟劉林峰
        計(jì)算機(jī)應(yīng)用 2023年5期
        關(guān)鍵詞:池化集上編碼器

        吳家皋,章仕穩(wěn),蔣宇棟,劉林峰

        (1.南京郵電大學(xué) 計(jì)算機(jī)學(xué)院,南京 210023;2.江蘇省大數(shù)據(jù)安全與智能處理重點(diǎn)實(shí)驗(yàn)室(南京郵電大學(xué)),南京 210023)

        0 引言

        近年來,基于深度學(xué)習(xí)方法的行人軌跡預(yù)測問題在計(jì)算機(jī)視覺和人工智能領(lǐng)域重新引起人們的興趣。軌跡的預(yù)測[1-4]對于社交機(jī)器人導(dǎo)航[5]、自動(dòng)駕駛[6]和智能跟蹤[7-8]具有很高的價(jià)值。行人軌跡預(yù)測指基于行人的歷史軌跡生成行人未來的位置,然而,由于行人復(fù)雜的運(yùn)動(dòng)行為,尤其是在擁擠的場景中,會(huì)增加行人軌跡預(yù)測的困難。

        基于循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)的方法和基于生成對抗網(wǎng)絡(luò)(Generative Adversarial Network,GAN)的方法是軌跡預(yù)測中最常用的兩種方法。在基于RNN 的方法中,Alahi 等[9]提出了社會(huì)長短期記憶(Social Long Short-Term Memory,SLSTM)網(wǎng)絡(luò)模型,采用LSTM 編碼器-解碼器的結(jié)構(gòu),再通過社會(huì)池化模塊得到交互信息,最后通過LSTM 解碼器輸出預(yù)測的軌跡。該模型的社會(huì)池化模塊以每一個(gè)目標(biāo)行人為中心建立池化鄰域,然后將鄰域中行人對應(yīng)的LSTM 隱狀態(tài)進(jìn)行“和池化”;但該池化方式并未將不同的行人區(qū)別對待,影響了池化效果。Lee 等[10]提出了深度學(xué)習(xí)逆最優(yōu)RNN 編碼器-解碼器框架,通過條件變分自編碼器獲得一組不同的假設(shè)未來預(yù)測樣本,并通過RNN 評(píng)分模塊對預(yù)測樣本進(jìn)行排序和細(xì)化,可以作出更好的長期預(yù)測。Bartoli 等[11]提出了環(huán)境感知的LSTM 模型,通過對環(huán)境中可能影響行人運(yùn)動(dòng)的環(huán)境物體進(jìn)行位置標(biāo)記,運(yùn)用池化層對行人交互和行人環(huán)境交互進(jìn)行建模,引入了環(huán)境物體對行人運(yùn)動(dòng)的影響。Xu 等[12]提出了人群交互深度神經(jīng)網(wǎng)絡(luò)(Crowd Interaction Deep Neural Network,CIDNN)模型,使用雙層LSTM 和三層多層感知機(jī)(Multi-Layer Perceptron,MLP),并引入“空間親和力”以及“全局和池化”來處理不同行人對目標(biāo)行人的不同影響。但是空間親和力沒有包含速度信息,不足以描述行人間的相互作用。此外,全局池化方式會(huì)將距離很遠(yuǎn)的行人也考慮在內(nèi),這必然導(dǎo)致模型性能的下降。在上述工作中,研究人員通常傾向于最小化與未來真實(shí)坐標(biāo)的L2距離,以預(yù)測目標(biāo)行人唯一的未來軌跡。然而,預(yù)測人類行為(包括行人軌跡)是一個(gè)多模態(tài)問題,因?yàn)榻o定部分歷史軌跡,可能有多條未來軌跡都適合該行人。

        這時(shí),使用基于GAN[13]的方法可以預(yù)測多個(gè)可接受的軌跡,并從中選擇“最佳”軌跡作為預(yù)測結(jié)果。Gupta 等[14]提出了社會(huì)GAN(Social GAN,SGAN)模型,由一個(gè)基于LSTM的編碼器-解碼器生成器、一個(gè)池化模塊和一個(gè)基于LSTM的鑒別器組成。SGAN 在訓(xùn)練時(shí)能一次生成多個(gè)預(yù)測結(jié)果,從而使預(yù)測軌跡具有多樣性。SGAN 的池化模塊采用“最大池化”操作來處理行人交互,但全局池化方式同樣會(huì)導(dǎo)致過多的無效交互。Amirian 等[15]在SLSTM 和SGAN 的基礎(chǔ)上提出了Social ways 模型,并引入了注意力機(jī)制使模型自主分配對交互信息的關(guān)注,進(jìn)一步提升了模型效果。本研究組在之前的工作中提出了社交生成對抗網(wǎng)絡(luò)(Social-Interaction GAN,SIGAN)模型[16],采用一種社會(huì)交互模塊獲取場景中相鄰行人與目標(biāo)行人之間的位置和運(yùn)動(dòng)信息。然而,在SIGAN 的位置編碼器中,LSTM 的隱藏態(tài)信息并不是最新的狀態(tài),特別是當(dāng)行人在短時(shí)間內(nèi)改變了運(yùn)動(dòng)狀態(tài)時(shí),LSTM 只能獲得目標(biāo)運(yùn)動(dòng)前的狀態(tài)信息,而不能獲取鄰居行人的運(yùn)動(dòng)意 圖。而Zhang 等[17]提出的 狀態(tài)精細(xì)化LSTM(State-Refinement LSTM,SR-LSTM)在LSTM 之上增加了一層狀態(tài)精細(xì)化模塊(States Refinement Module,SRM),能讓目標(biāo)行人共享編碼的鄰居行人隱狀態(tài),從而獲取精細(xì)化LSTM 細(xì)胞狀態(tài)和隱狀態(tài)。采用SR-LSTM 作為位置編碼器時(shí),可以更好地提取場景中行人的運(yùn)動(dòng)意圖信息,尤其在短時(shí)間的預(yù)測中,這種“意圖”就顯得極為重要。但是,SR-LSTM 對行人運(yùn)動(dòng)意圖中的速度考慮不足,需要通過設(shè)置速度注意力機(jī)制對同一場景中行人進(jìn)行影響力分配。

        綜上所述,本文提出了一種基于SR-LSTM 和注意力機(jī)制的社交對抗生成網(wǎng)絡(luò)(SR-LSTM and Attention mechanism based Social-Interaction GAN,SRA-SIGAN)用于行人軌跡預(yù)測。本文的主要工作包括:

        1)提出基于SRA-SIGAN 的行人軌跡預(yù)測模型,使用SRLSTM 作為位置編碼器,以有效提取行人運(yùn)動(dòng)意圖,使社會(huì)交互模塊能更準(zhǔn)確地表達(dá)目標(biāo)和相鄰行人之間的位置和運(yùn)動(dòng)信息。

        2)針對SR-LSTM 在行人運(yùn)動(dòng)速度方面考慮不足的問題,基于自注意力機(jī)制設(shè)計(jì)了速度注意力模塊(Velocity Attention Module,VAM),對同一場景中行人進(jìn)行影響力權(quán)重分配,使模型能充分利用行人間的交互信息,提升預(yù)測精度。

        3)在多個(gè)公開的真實(shí)世界數(shù)據(jù)集上對所提模型進(jìn)行了大量實(shí)驗(yàn),結(jié)果表明SRA-SIGAN 模型具有較高的行人軌跡預(yù)測準(zhǔn)確性。

        1 本文模型

        1.1 問題定義

        1.2 SRA-SIGAN總體結(jié)構(gòu)

        1.3 生成器

        1.3.1 Encoder編碼器

        對于位置編碼器,根據(jù)式(1)可以得到第i個(gè)行人對應(yīng)的LSTM 的輸出

        其中:fc1為全連接層,表示一個(gè)帶有線性整流單元(Rectified Linear Unit,ReLU)的嵌入函數(shù);WO代表嵌入函數(shù)的權(quán)重;Wencoder代表LSTM 編碼器的權(quán)重;LSTM 在所有的代理之間是共享的,也就是說Wencoder在編碼階段是共享的,∈R32是被編碼的位置向量。

        其中:Xt表示所有行人在t時(shí)刻的觀測坐標(biāo);WSR為SR 模塊對應(yīng)的權(quán)重。矩陣Ut的第i行表示第i個(gè)人所獲取其他行人運(yùn)動(dòng)意圖所表示的向量,記為∈R32)。如前所述,SR-LSTM 將LSTM 輸出的隱藏態(tài)和細(xì)胞狀態(tài)以及當(dāng)前時(shí)刻的所有行人的坐標(biāo)作為SR 模塊的輸入。使用SR-LSTM 除了能提取出他們之前的運(yùn)動(dòng)信息之外,還能提取出他們當(dāng)前的意圖信息,這樣可以在后面處理交互問題時(shí)獲取更多有用的信息。

        其中:W1、W2、W3表示帶有ReLU 非線性激活函數(shù) 的三層MLP 的權(quán)重。對于每個(gè)代理來說,分別將它們的歷史軌跡和當(dāng)前時(shí)刻的位置與速度輸入到位置編碼器和運(yùn)動(dòng)編碼器中以獲得高維向量,以便將其作為后續(xù)SIM 的輸入。

        圖1 SRA-SIGAN模型結(jié)構(gòu)Fig.1 Structure of SRA-SIGAN model

        1.3.2 社會(huì)交互模塊

        社會(huì)交互模塊(SIM)將編碼的位置和速度矢量作為輸入,計(jì)算每個(gè)目標(biāo)代理受到的鄰居的代理的交互影響,它由兩部分組成:時(shí)空親和力部分和局部池化部分。

        對于時(shí)空親和力部分,一種簡單的方法是線性組合所有代理的位置和運(yùn)動(dòng)特征用于位移預(yù)測。因此,本文采用時(shí)空親和力衡量每個(gè)鄰居代理對目標(biāo)代理影響的大小。對于任何代理Pj,將其在時(shí)間步為t時(shí)刻與目標(biāo)代理Pi的時(shí)空親和力定義為即:

        考慮到目標(biāo)代理的移動(dòng)只會(huì)受到鄰居代理的影響,本文采用局部池化方案,并將這些因素結(jié)合到行人軌跡預(yù)測中。該方案為每個(gè)目標(biāo)代理設(shè)置了一個(gè)以自己位置為中心的基于正方形網(wǎng)格的鄰域,并且設(shè)從中心到鄰域邊的垂直距離為k,所以正方形鄰域是一個(gè)2k× 2k的網(wǎng)格。然后,可以得到其他代理對目標(biāo)代理Pi的交互影響,如下所示:

        其中:∈R32;Ni(k)表示在這個(gè)2k× 2k的網(wǎng)格大小內(nèi)目標(biāo)代理的鄰居代理的集合??梢钥闯觯琸值是局部池化中的一個(gè)非常重要的參數(shù),它表示所有目標(biāo)代理受到影響的范圍。

        1.3.3 速度注意力模塊

        由于SR-LSTM 僅僅只是關(guān)注代理之間的相互坐標(biāo),缺少速度的注意力信息,因此,本文采用注意力機(jī)制獲取代理之間基于速度的注意力。將所有代理{P1,P2,…,Pn}在t時(shí)刻的速度Vt=(Vt∈Rn×2)輸入VAM 中。

        圖2 是VAM 的示意圖,該模塊根據(jù)自注意力(selfattention)機(jī)制[18]的方式得到相互的速度注意力信息:

        圖2 速度注意力模塊的示意圖Fig.2 Schematic diagram of velocity attention module

        其 中:WQ,WK,WF∈R2×16分別代 表三種 線性變 換,則Qt,Kt,F(xiàn)t∈Rn×16,即將矩陣Vt中的每一行的行向量維度升成16 維。

        然后,對于Qt和(Kt)T矩陣相乘得到的結(jié)果Qt(Kt)T(Qt(Kt)T∈Rn×n)進(jìn)行Softmax 操作,從而獲得權(quán)重系數(shù),最后,再將其與Ft相乘,即可獲取對應(yīng)代理的基于速度的注意力,即

        根據(jù)式(8)即可得到的矩陣At即為每一個(gè)目標(biāo)行人相對于鄰居行人基于速度的注意力矩陣,并且At∈Rn×16,矩陣At的第i行表示第i個(gè)人相對于其他行人基于速度的注意力向量,記為

        1.3.4 解碼器模塊

        由于解碼器的主要作用是生成預(yù)測軌跡,所以,本文采用了最基本的LSTM 進(jìn)行軌跡的解碼,這需要結(jié)合來自編碼器的信息以及注意力模塊的信息來有效地推理人與人之間的交互,所以,通過如下方法來初始化LSTM 解碼器的隱狀態(tài)

        其中:fc2是一個(gè)全連接層,Wc是相應(yīng)的權(quán)重;z是一個(gè)隨機(jī)的Gauss 分布的噪聲,z∈R8。在通過式(9)將解碼器LSTM 進(jìn)行初始化后,就可以利用式(10)迭代地預(yù)測出在同一個(gè)場景中所有的代理未來軌跡:

        其中:全連接層fc3被用來作為坐標(biāo)的嵌入函數(shù),Wco代表該函數(shù)的權(quán)重;Wdec是解碼器的權(quán)重,而全連接層fc4用于處理并生成二維坐標(biāo),是在t時(shí)刻預(yù)測的坐標(biāo),∈R2,Wp是預(yù)測的權(quán)重。

        1.4 鑒別器

        與SGAN 類似,鑒別器的作用是將生成器預(yù)測出的軌跡分類成可接受與否。它將場景中所有代理的未來軌跡預(yù)測值和真實(shí)值作為輸入,即{X1,X2,…,Xn,或者{X1,X2,…,Xn,Y1,Y2,…,Yn},然后輸出對場景中每個(gè)代理的預(yù)測的未來軌跡為真實(shí)或虛假的標(biāo)簽。

        同樣地,本文使用LSTM 對鑒別器的輸入進(jìn)行編碼,并使用全連接層對預(yù)測軌跡進(jìn)行可接受與否的分類。

        1.5 損失函數(shù)

        與SGAN 一樣,本文模型的損失函數(shù)L由兩部分組成:對抗性損失和L2損失,即:

        其中:λ是一個(gè)平衡因子。

        因?yàn)楸疚哪P突跅l件GAN(Conditional GAN,CGAN)[19],并且計(jì)算了一個(gè)場景中所有代理的損失,所以對抗損失LCGAN的定義如下:

        其中:S表示場景中所有代理的集合。

        而L2損失定義如下所示:

        L2損失的設(shè)置是為了確保生成器生成軌跡的多樣性。在計(jì)算位置偏移損失時(shí),采樣m次,為每個(gè)觀察到的代理生成m個(gè)預(yù)測的軌跡樣本,并選擇損失最小的軌跡以優(yōu)化網(wǎng)絡(luò)的反向傳播。與SGAN 一樣,設(shè)置m=20。

        2 實(shí)驗(yàn)與結(jié)果分析

        本章通過實(shí)驗(yàn)來評(píng)估SRA-SIGAN 模型的性能。

        數(shù)據(jù)預(yù)處理:遵循與SLSTM[9]和SGAN[14]相同的數(shù)據(jù)預(yù)處理策略,將視頻中所有行人出現(xiàn)的時(shí)間和位置數(shù)據(jù)轉(zhuǎn)換為真實(shí)世界的坐標(biāo),然后每0.4 s 提取一次數(shù)據(jù)以獲得坐標(biāo)系中行人的坐標(biāo)值。

        數(shù)據(jù)集:在ETH[20]和UCY[21]兩個(gè)公共行人軌跡數(shù)據(jù)集上開展評(píng)估。ETH 和UCY 總共有5 個(gè)子數(shù)據(jù)集,包括Zara1、Zara2、ETH、Hotel、Univ。此外,本文在數(shù)據(jù)集的使用上采用“漏一法”,即在實(shí)驗(yàn)的訓(xùn)練過程中,使用4 個(gè)子集對網(wǎng)絡(luò)進(jìn)行訓(xùn)練,然后用剩下的1 個(gè)子集在模型上進(jìn)行測試。

        2.1 實(shí)驗(yàn)準(zhǔn)備

        SRA-SIGAN 的參數(shù)使用Adam 優(yōu)化器訓(xùn)練優(yōu)化,學(xué)習(xí)率設(shè)置為0.001。所有模型都經(jīng)過300 輪(Epoch)的訓(xùn)練。本文模型在Pytorch 0.4 上使用Python 3.6 構(gòu)建,并使用NVIDIA RTX-2080 GPU 進(jìn)行訓(xùn)練。位置編碼器的隱藏節(jié)點(diǎn)數(shù)分別設(shè)置為16、32 和64,L2損耗中設(shè)置m=20。

        2.2 評(píng)價(jià)指標(biāo)

        本文使用最終位移誤差(Final Displacement Error,F(xiàn)DE)[9]和平均 位移誤 差(Average Displacement Error,ADE)[20]作為度量標(biāo)準(zhǔn)來衡量不同模型的性能。

        ADE 定義為一個(gè)場景中所有行人的預(yù)測的坐標(biāo)值和地面真實(shí)位置的坐標(biāo)之間的平均距離的均方差(設(shè)預(yù)測了tpred個(gè)坐標(biāo)),計(jì)算公式如下:

        FDE 是預(yù)測軌跡的最終目的地與行人的實(shí)際目的地之間的距離的均方差。其計(jì)算公式如下:

        2.3 對比預(yù)測方法

        為了評(píng)估本文SRA-SIGAN 模型的性能,與以下幾種有代表性的軌跡預(yù)測模型進(jìn)行比較:

        1)SLSTM[9]:對每個(gè)行人都采用LSTM 進(jìn)行編碼,并在預(yù)測未來步驟之前匯集他們的狀態(tài)編碼。該模型僅結(jié)合了被觀測的具有共同相鄰空間的行人的特征。根據(jù)經(jīng)驗(yàn)設(shè)置鄰域和占用網(wǎng)格大小,以便在ETH 和UCY 數(shù)據(jù)集上獲得最佳結(jié)果。

        2)CIDNN[12]:一種通過考慮其空間關(guān)系來同全局的行人進(jìn)行交互的模型。該模型首次利用空間親和力處理在行人軌跡預(yù)測中人與人的交互,并且對每個(gè)行人使用LSTM 編碼歷史軌跡。

        3)SGAN[14]:第一種使用GAN 處理軌跡預(yù)測的多模態(tài)模型,該模型也為每個(gè)行人使用LSTM 進(jìn)行編碼,然后部署在編碼器-解碼器結(jié)構(gòu)內(nèi),以使用GAN 生成未來的預(yù)測軌跡。每個(gè)代理獲得多個(gè)采樣軌跡,并最終選擇誤差最小的樣本進(jìn)行演示。

        4)SR-LSTM[17]:在LSTM 基礎(chǔ)上加入一種新的狀態(tài)精細(xì)化模塊,從而提取運(yùn)動(dòng)意圖信息,仍然采用編碼器-解碼器的結(jié)構(gòu)。

        5)SIGAN[16]:使用GAN 處理軌跡,使用LSTM 進(jìn)行編碼,然后使用“時(shí)空親和力”區(qū)分不同的行人并且在社會(huì)交互模塊中采用局部池化的方式從而提取出鄰居行人對目標(biāo)行人的交互影響信息。

        2.4 實(shí)驗(yàn)結(jié)果

        2.4.1 不同預(yù)測模型之間的比較

        表1 給出了tobs=8 和tpred=12 時(shí),SLTM、SGAN、SR-LSTM、SIGAN 與SRA-SIGAN 的ADE 和FDE 值,結(jié)果數(shù)值越 小代表效果越好。tobs和tpred的取值與上述預(yù)測模型文獻(xiàn)中的設(shè)置保持一致。另外,由于CIDNN 僅有tobs=5 和tpred=5 的結(jié)果,因此,為了便于比較,本文也給出了在tobs=5 和tpred=5 時(shí),CIDNN 與SRA-SIGAN 的ADE 值,如表2 所示。

        表1 不同預(yù)測模型的ADE和FDE對比(tobs=8,tpred=12) 單位:mTab.1 ADE and FDE comparison of different prediction models(tobs=8,tpred=12) unit:m

        表2 CIDNN與SRA-SIGAN的ADE對比(tobs=5,tpred=5) 單位:mTab.2 ADE comparison of CIDNN and SRA-SIGAN(tobs=5,tpred=5) unit:m

        由表1 結(jié)果可知,除了在Hotel 數(shù)據(jù)集上的SIGAN 模型預(yù)測效果最好以外,SRA-SIGAN 模型對ADE 和FDE 的預(yù)測結(jié)果是最好的,尤其是在Zara1 和Zara2 數(shù)據(jù)集上。例如,在Zara1 數(shù)據(jù)集上,SRA-SIGAN 比SR-LSTM 的ADE 和FDE 分別減少了20.0%和10.5%,比SIGAN 的ADE 和FDE 分別下降了31.7%和24.4%。表2 的結(jié)果與表1 類似,SRA-SIGAN 在各個(gè)數(shù)據(jù)集上的表現(xiàn)均好于CIDNN 模型。

        這是因?yàn)?,僅采用LSTM 的預(yù)測模型沒有考慮到行人的交互特征,SGAN 和SLSTM 僅考慮基于位置的特征效果也有所欠缺;CIDNN 也只提出了空間親和力,缺乏時(shí)間親和力的思考;SIGAN 考慮了影響目標(biāo)行人運(yùn)動(dòng)的鄰居行人的速度和所在位置這兩個(gè)因素;而SR-LSTM 只考慮了當(dāng)前時(shí)刻與鄰居行人的相對坐標(biāo)的信息作為與鄰居行人的運(yùn)動(dòng)意圖。本文的SRA-SIGAN 結(jié)合了上述模型的優(yōu)點(diǎn),采用SR-LSTM 編碼和速度注意力機(jī)制,既考慮了鄰居當(dāng)前的運(yùn)動(dòng)意圖,也考慮到了與鄰居行人的基于速度和位置上的交互信息。此外,SRA-SIGAN 采用的局部池化,也能更好地處理鄰近行人間的社會(huì)交互,從而在性能上有顯著提高。同時(shí)也要看到,SRASIGAN 在Hotel 數(shù)據(jù)集上表現(xiàn)略遜于SIGAN 和SLSTM,這是因?yàn)镠otel 數(shù)據(jù)集中多為直線型道路,場景相對簡單,在特殊情況下可能會(huì)造成SRA-SIGAN 模型的過擬合。

        2.4.2 SRA-SIGAN不同模塊之間的比較

        1)SR-LSTM vs.LSTM。若SRA-SIGAN 模型采用基本的LSTM 作為位置編碼器,就變成了基于速度注意力的SIGAN模型,這里稱為VA-SIGAN 模型。表3 給出了在tobs=8 和tpred=12 時(shí)VA-SIGAN 與SRA-SIGAN 的ADE 和FDE 值。從中可 以看出,二者相比有明顯差距,SRA-SIGAN 在所有數(shù)據(jù)集上的性能均優(yōu)于VA-SIGAN。這說明SR-LSTM 在獲取鄰居行人運(yùn)動(dòng)意圖上效果更明顯。SR-LSTM 除了可以提取出目標(biāo)行人本身的運(yùn)動(dòng)狀態(tài),還可以提取出其鄰居行人的運(yùn)動(dòng)意圖信息,而運(yùn)動(dòng)意圖信息對于后面處理行人交互的問題上有至關(guān)重要的意義。

        表3 SRA-SIGAN與VA-SIGAN的ADE和FDE對比(tobs=8,tpred=12) 單位:mTab.3 ADE and FDE comparison of SRA-SIGAN and VA-SIGAN(tobs=8,tpred=12) unit:m

        2)有注意力 vs.無注意力。若SRA-SIGAN 模型不采用速度注意力機(jī)制,就變成了基于SR-LSTM 的SIGAN 模型,這里稱為SR-SIGAN 模型。表4 給出了在tobs=8 和tpred=12 時(shí),SR-SIGAN 與SRA-SIGAN 的ADE 和FDE 值。從中可以看出,SRA-SIGAN 的性能在所有數(shù)據(jù)集上也都比SR-SIGAN 高,這說明基于速度的注意力機(jī)制是有效的。從實(shí)際的角度來說,行人在運(yùn)動(dòng)時(shí)會(huì)更注意那些運(yùn)動(dòng)速度較快的行人,這些人往往會(huì)較明顯地影響到目標(biāo)行人。另外,參考表1、3 的結(jié)果,可以看到VA-SIGAN 和SR-SIGAN 的性能總體上也都優(yōu)于SIGAN,進(jìn)一步驗(yàn)證了本文提出的SR-LSTM 和速度注意力機(jī)制在應(yīng)用中的有效性。

        表4 SRA-SIGAN與SR-SIGAN的ADE和FDE對比(tobs=8,tpred=12) 單位:mTab.4 ADE and FDE comparison of SRA-SIGAN and SR-SIGAN(tobs=8,tpred=12) unit:m

        3)局部池化 vs.全局池化。行人在運(yùn)動(dòng)時(shí)為了避免發(fā)生碰撞,只能被迫改變運(yùn)動(dòng)軌跡,但這種行為只會(huì)發(fā)生在局部的區(qū)域中,相距很遠(yuǎn)的行人不可能發(fā)生碰撞。所以,設(shè)置式(6)中的局部池化參數(shù)k=1,2,…,20,得到不同的預(yù)測值,并將最佳預(yù)測值設(shè)置為最終結(jié)果,從而確定相應(yīng)的k值。

        圖3、4 分別是不同數(shù)據(jù)集上ADE 和FDE 與k的關(guān)系曲線,可以看出,隨著k值的增加,ADE 和FDE 都是先減小后增大,最后逐漸趨于穩(wěn)定。當(dāng)k=9,10 時(shí),SRA-SIGAN 模型能實(shí)現(xiàn)最佳預(yù)測,驗(yàn)證了局部池化機(jī)制的有效性。

        圖3 不同數(shù)據(jù)集上ADE與k的關(guān)系曲線Fig.3 Relation curve between ADE and k on different datasets

        圖4 不同數(shù)據(jù)集上FDE與k的關(guān)系曲線Fig.4 Relation curve betweenFDE and k on different datasets

        3 結(jié)語

        本文提出了一個(gè)基于SR-LSTM 和注意力機(jī)制的社交生成對抗網(wǎng)絡(luò)行人軌跡預(yù)測模型(SRA-SIGAN),該模型采用SR-LSTM 作為位置編碼器來獲取行人軌跡預(yù)測中的鄰居行人的運(yùn)動(dòng)意圖;同時(shí),提出了基于速度的注意力機(jī)制以合理分配行人的影響力;最后,采用局部池化來發(fā)現(xiàn)最合適的行人交互影響范圍。ADE 和FDE 的實(shí)驗(yàn)結(jié)果表明,SRA-SIGAN模型在預(yù)測精度方面明顯優(yōu)于其他模型。

        在未來的工作中,將進(jìn)一步考慮環(huán)境因素,在軌跡預(yù)測中加入環(huán)境中的道路特征以及靜態(tài)或動(dòng)態(tài)障礙物對行人軌跡的影響;另外,可考慮結(jié)合行人的平視及第一人稱視角等不同視角進(jìn)行行人軌跡的預(yù)測。

        猜你喜歡
        池化集上編碼器
        基于緊湊型雙線性網(wǎng)絡(luò)的野生茵識(shí)別方法研究
        無線電工程(2024年8期)2024-09-16 00:00:00
        基于Sobel算子的池化算法設(shè)計(jì)
        卷積神經(jīng)網(wǎng)絡(luò)中的自適應(yīng)加權(quán)池化
        Cookie-Cutter集上的Gibbs測度
        鏈完備偏序集上廣義向量均衡問題解映射的保序性
        基于卷積神經(jīng)網(wǎng)絡(luò)和池化算法的表情識(shí)別研究
        基于FPGA的同步機(jī)軸角編碼器
        復(fù)扇形指標(biāo)集上的分布混沌
        基于PRBS檢測的8B/IOB編碼器設(shè)計(jì)
        JESD204B接口協(xié)議中的8B10B編碼器設(shè)計(jì)
        電子器件(2015年5期)2015-12-29 08:42:24
        人妻无码一区二区| 女人高潮久久久叫人喷水| 中文无码熟妇人妻av在线| 在线看亚洲十八禁网站| 在线看亚洲十八禁网站| 中文字幕有码在线亚洲| 成人免费a级毛片无码片2022| 国产久热精品无码激情| 亚洲av乱码一区二区三区林ゆな| 特级做a爰片毛片免费看108| 亚洲AV成人无码国产一区二区| 男女搞黄在线观看视频| 亚洲天堂二区三区三州| 无码中文字幕免费一区二区三区| 热99re久久精品这里都是免费| 人妻少妇av中文字幕乱码免费| 高潮精品熟妇一区二区三区| 曰本女人与公拘交酡| 国产精品综合一区二区三区| 乱伦一区二| 亚洲无人区乱码中文字幕| 老熟女的中文字幕欲望| 天天躁狠狠躁狠狠躁夜夜躁| 国产午夜无码精品免费看动漫| 中文字幕视频一区懂色| 深夜爽爽动态图无遮无挡| 99久久精品国产成人综合| 国产午夜精品美女裸身视频69| 亚洲视频专区一区二区三区| 欧美另类人妖| 夜夜综合网| 国产精品亚洲av一区二区三区 | 婷婷伊人久久大香线蕉av| 欧美疯狂性xxxxxbbbbb| 亚州五十路伊人网| 性生大片免费观看性少妇| 国产乱子伦农村xxxx| 18无码粉嫩小泬无套在线观看| 九月色婷婷免费| 日本五十路人妻在线一区二区| 国产成人精品日本亚洲专区61|