亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度學習的智能體軌跡預測文獻綜述

        2023-03-17 07:28:38章璐璐李思照
        無線電工程 2023年3期
        關(guān)鍵詞:行人軌跡車輛

        章璐璐, 李思照?

        (1. 哈爾濱工程大學 計算機科學與技術(shù)學院, 黑龍江 哈爾濱 150001;2. 電子政務建模仿真國家工程實驗室, 黑龍江 哈爾濱 150001)

        0 引言

        隨著科技水平的提高,人工智能新興應用的需求不斷增長,自動駕駛已經(jīng)成為一個熱點話題。 其中一個重要的問題是自動駕駛汽車如何預測附近智能體的未來軌跡,以減少交通事故的發(fā)生,提高道路的安全性。 因此,需要采取一些機制使自動駕駛汽車能夠判斷智能體的當前狀態(tài)和預測其下一步的行為。 智能體主要包括行人和車輛。 對于行人而言,行人的軌跡主要由自身、周圍的其他行人、環(huán)境因素和目標意圖等驅(qū)動。 與行人相比,車輛的軌跡預測主要取決于交通規(guī)則、駕駛環(huán)境、駕駛員的精神狀態(tài)以及其他車輛的行為。 自動駕駛汽車需要通過一些機制去學習交通規(guī)則、相應的法規(guī)和交通標志,還要能夠辨別行人的社會互動和非正式的社會規(guī)則,這樣才能幫助自動駕駛汽車預測道路參與者的軌跡,以確定下一步如何展開,最大化地保障智能體的安全[1]。

        近年來,國內(nèi)外研究學者在軌跡預測領(lǐng)域已經(jīng)有了長足的發(fā)展,大多通過建立軌跡預測模型模擬智能體的軌跡。 由于傳統(tǒng)動力學模型很難根據(jù)一些運動學方法預測行人下一時間點的行為,常規(guī)的算法很容易使預測結(jié)果傾向于一種折衷的軌跡,所以需要從過去的軌跡中推測未來的軌跡序列,或者從行人的行為習慣中學習得到。 因此軌跡預測算法已經(jīng)從傳統(tǒng)動力學模型轉(zhuǎn)向深度學習模型。 深度學習的軌跡預測方法近年來非常流行,因為它不僅考慮物理相關(guān)因素和道路結(jié)構(gòu)、智能體之間的交互,而且能適應更復雜的交通場景。 Sighencea 等[2]研究討論了基于深度學習的行人軌跡預測方法,首先從傳感器技術(shù)方面進行了分析,并且對基于深度學習方法的行人軌跡預測模型進行了詳細闡述,還討論了目前用于行人軌跡預測的數(shù)據(jù)集。 Lefèvre 等[3]對自動駕駛車輛軌跡模型提出了3 個級別的分類:基于物理的模型、基于機動的模型和基于交互感知的模型。 基于物理的模型認為車輛的運動主要取決于物理定律,分別為動力學模型和運動學模型。 基于機動的模型包括基于原型軌跡和基于意圖的模型,即根據(jù)駕駛員的意圖來預測車輛接下來的行為。 基于交互感知的模型即車輛的運動受到場景中其他車輛運動的影響。 然而,智能體軌跡的隨機性和場景交互方面仍具有高度的挑戰(zhàn)性,因此預測智能體較長一段時間的軌跡很有必要,這對自動駕駛汽車自主決策并避免碰撞有重大意義。 在文獻[2]的基礎(chǔ)上,本文將根據(jù)深度學習的方法對智能體軌跡預測模型進行歸納整理。

        本文第2 部分介紹了在自動駕駛場景中行人和車輛軌跡預測的模型;第3 部分介紹了軌跡預測中常用的數(shù)據(jù)集;第4 部分討論了軌跡預測中常用的評估指標,并比較了幾種經(jīng)典模型在公開數(shù)據(jù)集上的性能;第5 部分針對行人和車輛軌跡預測中存在的問題,對現(xiàn)有的方法進行了總結(jié)和展望。

        1 智能軌跡預測模型論述

        本節(jié)主要總結(jié)當前基于深度學習的軌跡預測方法及其優(yōu)缺點。 該方法主要將代理之間的交互、場景結(jié)構(gòu)或環(huán)境因素作為深度學習模型的輸入,最終輸出軌跡或智能體的意圖,基本框架如圖1 所示。近年來,軌跡預測方法主要有基于物理和機器學習的方法。 基于物理的方法主要有動力學模型,通常包括高斯過程、卡爾曼濾波等。 與物理的方法不同,基于機器學習的方法主要采用數(shù)據(jù)驅(qū)動來預測智能體的軌跡,主要包括支持向量機、動態(tài)貝葉斯網(wǎng)絡(luò)等。 然而,前者結(jié)構(gòu)過于簡單,只能適應簡單的預測場景和短時間的軌跡預測,無法分析智能體運動的復雜模式,而后者不能捕捉各種動態(tài)的交通場景且在推理過程中計算復雜度相對較高,因此需要深度學習的軌跡預測方法。 深度學習的方法主要有循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)、卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)、生成對抗網(wǎng)絡(luò)(Generative Adversarial Network,GAN)和混合網(wǎng)絡(luò)等,本節(jié)主要詳述有關(guān)深度學習方法的軌跡預測方法。

        圖1 基于深度學習的軌跡預測模型基本框架Fig.1 Basic framework of trajectory prediction model based on deep learning

        1.1 基于RNN 的軌跡預測模型

        早期最簡單的RNN 由單層網(wǎng)絡(luò)構(gòu)成,但對于序列型數(shù)據(jù),原始的神經(jīng)網(wǎng)絡(luò)很難處理。 為了建模序列問題,RNN 通過引入隱藏層對數(shù)據(jù)進行特征提取,再轉(zhuǎn)換為輸出,但無法對數(shù)據(jù)狀態(tài)長期記憶,于是出現(xiàn)了長短時記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)。 LSTM 是RNN 的一種變體,通過引入記憶單元解決了長序列預測梯度消失的問題,并通過控制門對信息的協(xié)調(diào),解決了時間序列預測中長期依賴的問題。 于是,LSTM 被用于分析智能體的軌跡,主要是將智能體軌跡序列輸入到RNN 的模型中,然后輸出預測軌跡,具體框架如圖2 所示。

        圖2 基于RNN 的軌跡預測框架Fig.2 Trajectory prediction framework based on RNN

        為了在復雜的城市交通中安全高效地導航,自動駕駛車輛必須對周圍的交通代理做出可靠的預測。 Alahi 等[4]近年來第一個將RNN 模型應用到行人軌跡預測中,提出了一種“社會” LSTM(Social LSTM,S-LSTM)模型,S-LSTM 通過RNN 對每個行人的軌跡進行建模,首先為每條行人軌跡分配一個LSTM 模型,然后通過基于N×N的網(wǎng)格池來保留空間信息并結(jié)合代理周圍所有行人的信息,引入“社會池”使不同LSTM 層自動地學習行人軌跡之間的相互作用,最后將行人軌跡建模為雙變量高斯分布,生成無沖突的軌跡。 該模型在LSTM 每一步運行之間加入了“社會”池化層,解決了行人之間的交互問題,但模型結(jié)構(gòu)較為單一,只考慮了行人之間的交互,而忽略各種對象(例如自行車和汽車等)和場景背景(例如路況和建筑物)的影響。 與此同時,基于“社會”池化的模型在每次訓練時都要與輸入的“社會”向量進行計算,使預測結(jié)果的實時性不高。

        受S-LSTM[4]架構(gòu)的啟發(fā),許多研究已成功地將此方法轉(zhuǎn)移到車輛軌跡預測中。 Zyner 等[5-6]提出的主要是在無信號的環(huán)形交叉路口處預測駕駛員的行為意圖,文獻[5]使用LSTM 作為序列分類器預測車輛的機動。 為了預測目標車輛未來的位置,Altché 等[7]通過引入LSTM 實現(xiàn)車輛軌跡預測。 該模型為橫向位置預測了最好的結(jié)果,雖能夠準確預測高速公路上車輛未來的縱向和橫向軌跡,但是對于速度預測卻不夠精確,需要提供車輛類型信息。孟憲偉等[8]將意圖預測和軌跡預測相結(jié)合,構(gòu)建換道軌跡預測方法系統(tǒng)。 為了探索不同交通主體的運動模式,Ma 等[9]提出了一種基于LSTM 的實時流量預測算法——TrafficPredict,該算法由實例層和類別層組成,實例層學習代理的軌跡和交互,類別層用于學習屬于同一類型的代理的行為模式,以改進預測。在設(shè)計的4D 圖形中,時空中的所有信息都可以被利用和傳輸,但算法的精確度根據(jù)交通狀況和過去軌跡的持續(xù)時間而變化,并沒有考慮到車道方向、交通信號等約束。 因此,該方法具有一定的局限性。

        然而,車輛的軌跡預測涉及高度不確定性,智能體無法唯一確定車輛在交叉口或換道時將移動的方向。 因此,預測結(jié)果不能表示為單一的軌跡,自動駕駛車輛需要考慮周圍車輛未來運動的多模態(tài)性。 為了使軌跡多模態(tài)化,Zyner 等[6]提出了一種預測駕駛員意圖的不確定性方法,該方法在駕駛員可能選擇的預測路徑上產(chǎn)生多模態(tài)輸出分布。 模型主要使用RNN 與混合密度網(wǎng)絡(luò)(Mixture Density Network,MDN)相結(jié)合,并采用加權(quán)高斯混合模型(Gaussian Mixture Modeling,GMM)進行預測,其參數(shù)通過編碼器-解碼器3 層LSTM 獲得,然后使用概率最高的模態(tài)對預測軌跡進行聚類。 但是當車輛在高維空間中運行時,由于數(shù)值不穩(wěn)定,MDN 很難訓練。 Ding等[10]提出了一個用于城市自動駕駛的在線2 級車輛軌跡預測框架,利用LSTM 網(wǎng)絡(luò)開發(fā)了一個策略預測網(wǎng)絡(luò),該方法具有高度的靈活性,能夠適應各種復雜的環(huán)境,同時結(jié)合意圖提高預測精度,但沒有考慮到車輛之間的交互。 而Deo 等[11]則提出了一種可以用于高速公路上的車輛機動和軌跡預測的LSTM 模型。 模型編碼器LSTM 將車道結(jié)構(gòu)和所有車輛的軌跡歷史編碼到上下文向量中,輸出每一時刻的Y=[y(t+1),y(t+2),…,y(t+tf)]的概率分布和未來的t時刻的坐標位置。 模型在編碼器上下文向量中分別附加一個對應于橫向和縱向機動類別的向量,添加的機動上下文允許解碼器LSTM 生成機動特定概率分布。 該模型在2 個真實的大型高速公路車輛軌跡數(shù)據(jù)集上體現(xiàn)了較低的預測誤差,但是機動分類不夠精確且在復雜的交通場景中很難應用。 針對文獻[6,11]中出現(xiàn)的問題,Kawasaki 等[12]提出了一種基于車道的多模式預測網(wǎng)絡(luò),可以處理任意形狀和數(shù)量的車道,能夠預測每條車道的未來軌跡和各個車道被選擇的概率。 受卡爾曼濾波器(KF)和LSTM 思想的啟發(fā),在網(wǎng)絡(luò)中引入了車輛運動模型約束,采用KF 方法與預測方法相結(jié)合,提高了參數(shù)估計的能力和預測精度。 Xing等[13]提出了一種基于LSTM 的聯(lián)合時間序列建模方法來預測前方車輛的運動軌跡。 模型首先采用無監(jiān)督聚類算法識別3 種不同的駕駛風格,然后使用高斯混合模型為每輛車生成特定的駕駛風格并用最大信息系數(shù)的算法識別。 與基于物理和機動的方法相比,將交通環(huán)境考慮到運動預測中,可以對周圍車輛進行更長期和更精確的運動預測。

        由于一些LSTM 模型不能同時描述不同車輛的空間作用以及軌跡之間的時間關(guān)系,因此無法準確估計密集交通中相互作用的影響。 Dai 等[14]提出了一種基于時空LSTM 的軌跡預測模型(ST-LSTM)。首先采用Structural-RNN[13]的思想,通過修改后的LSTM 模型對所有車輛的軌跡和車輛之間的相互作用進行建模,將時間關(guān)系和空間交互構(gòu)造為不同的時間序列,同時引入快捷連接處理梯度消失。 模型主要研究密集交通中車輛端到端的非線性的軌跡,然后通過評估空間的相互作用并根據(jù)交互影響程度的先驗知識來評估網(wǎng)絡(luò)中的權(quán)重,最終輸出目標車輛修正后的軌跡序列。 實驗表明,ST-LSTM 可以比單狀態(tài)模型(M-LSTM)預測得更加精確,但數(shù)據(jù)集樣本較少,有一定的局限性。 Ding 等[15]采用RNN進行編碼,并在此基礎(chǔ)上提出了一種新穎的車輛行為交互網(wǎng)絡(luò)(Vehicle Behavior Interaction Network,VBIN)在每個交互對的隱藏狀態(tài)和連接特征中捕獲車輛交互。 這種方法在高速公路場景中實現(xiàn)了2.622 s 的最大平均預測時間,表明它能夠捕捉長時間車輛未來的行為。 因為現(xiàn)有的研究主要集中在相鄰車輛的空間相互作用,而不管時間依賴性如何,所以Jiang 等[16]提出了一種時空注意力LSTM 編碼器-解碼器模型(STAM-LSTM)來預測車輛軌跡。 與現(xiàn)有方法相比,該模型可以從空間和時間維度提取車輛的綜合特征,有效地捕捉時間依賴性對生成車輛未來軌跡的影響,但還未在更復雜的場景中預測性能,模型的復雜性較高。

        在軌跡預測問題中,文獻[17-19]將行人之間的交互刻畫為圖形。 Yan 等[17]將行人集合建模為時空圖,時空圖的邊通過與RNN 相連,分別捕捉單個行人和行人之間的交互信息,最終輸出雙變量高斯分布的參數(shù)。 該方法雖可以對時空信息進行有效建模,但比較復雜。 Haddad 等[18]提出了一種新的基于時空圖的LSTM 網(wǎng)絡(luò),在擁擠的環(huán)境中,考慮了行人與行人、行人與靜態(tài)對象的交互,然后對行人的軌跡做出預測。 模型中的時空圖有2 類點和3 類邊,2 類點分別是行人點和靜態(tài)物品點,3 類邊是同一時刻不同點的連邊,模型使用LSTM 替換時空圖中的部件,將時空圖因式化分解,最終基于輸出結(jié)果是二維正態(tài)分布的假設(shè),求出預測的位置或計算損失值。 相較于S-LSTM 和SGAN,Structural-RNN 在靜態(tài)物體較多的場景中,錯誤率顯著降低。 Salzmann 等[19]則提出了Trajectron++,能夠結(jié)合代理的動態(tài)和異構(gòu)數(shù)據(jù),并根據(jù)場景結(jié)構(gòu)不同而做出不同的預測,是一種模塊化的、圖形結(jié)構(gòu)的循環(huán)模型。 該方法可以生成以目標車輛與代理運動為條件的不同軌跡的預測,并在真實的軌跡預測數(shù)據(jù)集上展示它的性能,優(yōu)于一系列最先進的確定性和生成性的方法。

        總體而言,基于RNN 的智能體軌跡預測已經(jīng)從單一的軌跡轉(zhuǎn)向多模態(tài)軌跡,所研究的預測場景不再單一,數(shù)據(jù)集所包含的信息也越來越豐富,但它們在建??臻g關(guān)系和圖像數(shù)據(jù)方面存在不足。 同時有圖神經(jīng)網(wǎng)絡(luò)的參與,使得軌跡預測的結(jié)果更加精確,但圖神經(jīng)網(wǎng)絡(luò)的效率與先前的方法相比較為低下。相信隨著神經(jīng)網(wǎng)絡(luò)技術(shù)的發(fā)展,基于LSTM 的軌跡預測方法會更加成熟。

        1.2 基于CNN 的軌跡預測模型

        CNN 是深度神經(jīng)網(wǎng)絡(luò)之一,在圖像分類和語義識別等領(lǐng)域都有很好的性能。 CNN 一般由輸入層、卷積層、池化層、全連接層和輸出層構(gòu)成。 由于CNN 能夠很好地學習對象的特征,因此調(diào)整適當?shù)木W(wǎng)絡(luò)結(jié)構(gòu)和參數(shù),可以有效鑒別這些特征。 CNN 以智能體的歷史軌跡為輸入,通過卷積層的疊加并通過全連接層輸出未來軌跡[20],具體框架如圖3所示。

        圖3 基于CNN 的軌跡預測框架Fig.3 Trajectory prediction framework based on CNN

        現(xiàn)有的研究大多采用LSTM 學習智能體的行為,但預測精度不高,計算速度較慢,往往忽略了智能體的姿勢和方向信息以及與場景的交互。 一些神經(jīng)網(wǎng)絡(luò)采用CNN 處理數(shù)據(jù),將其作為光柵圖像進行輸入。 文獻[21]使用CNN 預測短期時間的車輛軌跡,并將單個參與者的周圍環(huán)境編碼為光柵圖像作為輸入,但輸出的軌跡較為單一。 文獻[22]使用變分自編碼器來估計未來軌跡的采樣分布。 然而,該方法不能生成置信度分數(shù)來提供一組軌跡排序,需要大量的預測來覆蓋所有的搜索空間,然后使用逆最優(yōu)控制提取最終的排序子集。 Cui 等[23]考慮了交通行為的不確定性和車輛在道路上可能遇到的情況,提出了一種基于深度卷積網(wǎng)絡(luò)的自動駕駛多模態(tài)的軌跡預測方法,給定第i個參與者的300 pixel×300 pixel 的光柵圖像,在時間步長tj處估計狀態(tài)Si,j,并使用CNN 模型預測M個可能的未來狀態(tài)序列,其 中m表示模式指數(shù),H表示預測狀態(tài)的未來連續(xù)的時間步數(shù)。 實驗結(jié)果表明,在更長的預測范圍中,多模態(tài)預測比單模態(tài)預測更加明顯,且能夠做出更多的選擇。

        然而一些CNN 模型也可用于處理智能體的軌跡。 Marchetti 等[24]基于持久記憶增強神經(jīng)網(wǎng)絡(luò)(Memory Augmented Neural Network,MANN)的車輛軌跡預測方法提出了MANTRA 模型,用于解決軌跡預測問題中的多態(tài)性。 該模型是一個具有自動編碼結(jié)構(gòu)的編碼-解碼器,MANN 被訓練成只保留最有意義和非冗余的樣本,然后將其拼接成隱藏狀態(tài),并通過GRU 網(wǎng)絡(luò)得到預測的軌跡情況。 通過用CNN對行人的周圍上下文進行編碼,并提供給細化模塊來調(diào)整預測。 該模型考慮了環(huán)境和物理的約束,并利用語義地圖集成周圍的環(huán)境信息。 與文獻[21-22]相比,MANTRA 模型能夠直接估計一小組排列軌跡,這些軌跡能顯示出足夠的多樣性,可以覆蓋多種模態(tài)的未來軌跡。 Wang 等[25]提出了一種基于多信息的卷積神經(jīng)網(wǎng)絡(luò)(MI-CNN),結(jié)合行人姿勢和三維空間信息來識別行人意圖,并采用包含目標行人周圍所有類別的三維幾何信息的深度圖來預測行人軌跡。 模型的結(jié)構(gòu)主要包括幀編碼器、基于CNN的編碼器-解碼器和注意模塊,幀編碼器使用三維邊界框[26]方法確定目標行人的三維尺寸信息,利用深度估計模型提取深度圖,為了捕捉行人的運動狀態(tài),利用預訓練模型HigherNet 提取行人每一幀的關(guān)鍵姿勢。 與LSTM 相比,該模型利用卷積的并行計算特性,加快了計算速度。 與S-LSTM 和SGAN 相比,該模型在MOT20 上產(chǎn)生了優(yōu)越的性能。 根據(jù)Social-bigat 中將LSTM 的輸入傳給GCN 的方法,Mohamed 等[27]提出了時空圖卷積網(wǎng)絡(luò),利用時空卷積建模時序,從圖中提取空間和時間信息,從而創(chuàng)建合適的嵌入。 模型主要包括2 部分:時空圖卷積神經(jīng)網(wǎng)絡(luò)(Spatio-Temporal Graph Convolutional Neural Network,ST-GCNN)和時間外推網(wǎng)絡(luò)(TXP-CNN)。ST-GCNN 將行人軌跡的交互用圖表示,圖形建完后采用時空卷積操作以提取特征,TXP-CNN 將這些特征作為輸入,輸入T×P×N(行人位置的P維,N為行人數(shù)量,T為時間步數(shù)),并預測所有行人作為一個整體的未來軌跡。 為了評估該方法,社會時空圖卷積神經(jīng)網(wǎng)絡(luò)(Social Spatio-Temporal Graph Convolutional Neural Network,Social-STGCNN) 在 ETH 和UCY 數(shù)據(jù)集上優(yōu)于現(xiàn)有模型,并可以從很少的樣本中學習數(shù)據(jù)的特征,同時定性分析了在避免碰撞、平行行走和個體遇到群體等情況下的網(wǎng)絡(luò)性能。 由于Social-STGCNN 所提出的內(nèi)核的非線性計算非常耗時,且固定核無法從數(shù)據(jù)中學習交互信息,會錯誤地表示社會交互關(guān)系,因此Zhang 等[28]提出了社會交互加權(quán)時空卷積神經(jīng)網(wǎng)絡(luò)(Social Interaction-Weighted Spatio-Temporal Convolutional Neural Network,Social-IWSTCNN),它避免了耗時的非線性計算,能夠用數(shù)據(jù)驅(qū)動的方式從行人的相對位置學習此類社會互動注意力權(quán)重。 網(wǎng)絡(luò)中的空間特征由社會互動提取器提取,包括輸入位置嵌入特征和社會互動特征。時間特征由TCN 學習,TCN 對序列空間特征使用卷積運算來捕獲序列的時間模式。 最后,在提取每個行人的空間和時間特征后,使用CNN 推斷長期軌跡。 雖然該方法在Waymo 開放數(shù)據(jù)集中的典型場景中已經(jīng)顯示出良好的性能,但準確預測稀疏擁擠場景的未來軌跡仍然具有挑戰(zhàn)性,需要考慮多種因素,如車輛與環(huán)境的交互。 因為有各種因素影響車輛的運動,Lu 等[29]提出了一種基于編碼器-解碼器架構(gòu)的異構(gòu)上下文感知圖卷積網(wǎng)絡(luò),該網(wǎng)絡(luò)主要通過時空動態(tài)圖卷積網(wǎng)絡(luò)利用了交互模式的時空演變,并捕獲高保真的交互上下文。 然而模型并未引入豐富的基礎(chǔ)設(shè)施且并未擴展到行人與車輛之間的相互作用。

        CNN 的軌跡預測方法主要用于處理圖像特征以及智能體的軌跡,這些功能能夠模擬智能體的交互和行駛場景,并以占用地圖的形式輸出,但2D CNN 缺乏對數(shù)據(jù)序列建模的處理,這是智能體軌跡隨時間變化所必需的。

        1.3 基于GAN 的軌跡預測模型

        雖然LSTM 在軌跡預測的精度方面取得了理想的結(jié)果,但是大多預測結(jié)果為單一軌跡,是一種折衷的狀態(tài),結(jié)果會與數(shù)據(jù)集形成高度的擬合。 因此,一些學者使用GAN 處理軌跡預測問題。 GAN 主要由一個生成器(Generator,G)和判別器(Discriminator,D)組成,G 主要負責產(chǎn)生虛擬數(shù)據(jù),D 主要負責判斷數(shù)據(jù)是否是真實數(shù)據(jù)。 在網(wǎng)絡(luò)的訓練過程中,G和D 相互對抗:G 通過接收噪聲z生成偽樣本,D 用于接收并區(qū)分真實樣本和偽樣本,并輸出結(jié)果,具體軌跡預測框架如圖4 所示。

        圖4 基于GAN 的軌跡預測框架Fig.4 Trajectory prediction framework based on GAN

        為了預測軌跡的多模態(tài)分布,Gupta 等[30]提出了一個考慮場景中所有智能體影響的GAN 模型——Social-GAN。 模型由一個RNN 編碼器-解碼器、生成器和池化層以及鑒別器組成。 模型首先對每個行人使用一個LSTM,編碼器通過了解每一個人的狀態(tài)和軌跡歷史,將含有上下文的輸入作為編碼,接著利用池化模塊進行人與人之間的交互,最后用解碼器生成預測軌跡。 與S-LSTM 相比,引入了噪聲z且采用了GAN 模型,提出了一個改進的多樣性損失函數(shù),使網(wǎng)絡(luò)中產(chǎn)生不同的樣本,通過隨機采樣并選擇L2 意義上的“最佳”結(jié)果生成k個可接受的預測軌跡,但該模型采用了傳統(tǒng)的GAN 方法,會使網(wǎng)絡(luò)訓練不穩(wěn)定,且在經(jīng)過特征提取時最大池化后會忽略行人的其他特征,最終導致預測結(jié)果不夠精確。 與S-GAN 不同的是,Sadeghian 等[31]提出了可以預測出符合社會和物理約束的Sophie 模型,不僅考慮了場景中的所有行人,還考慮了場景的上下文信息。 模型由3 個關(guān)鍵組件組成:特征提取模塊、注意模塊和基于LSTM 的GAN 模塊。 首先,特征提取模塊使用CNN 從場景中提取當前幀的圖像并利用LSTM 對代理之間索引不變但時間相關(guān)的特征進行編碼;其次,使用注意模塊學習行人之間的交互以及他們對每個代理未來路徑的影響,同時從訓練數(shù)據(jù)中學習場景的空間約束;最后,LSTM 解碼器用于預測未來每個代理的時間依賴狀態(tài),通過應用GAN方法,強制生成更真實的軌跡來提高生成器模型的性能。 實驗表明,通過聯(lián)合建模場景上下文和行人的軌跡信息,模型比單獨使用這些信息時表現(xiàn)更好,更能生成可接受的軌跡。

        Kosaraju 等[32]在對噪聲具有敏感性的基礎(chǔ)上使得GAN 網(wǎng)絡(luò)生成多模態(tài)的軌跡,提出了基于圖形的生成性對抗網(wǎng)絡(luò)Social-BiGAT,通過更好地模擬場景中行人的社交互動,生成真實的多模態(tài)軌跡。網(wǎng)絡(luò)的場景圖像和行人軌跡特征分別由VGG 網(wǎng)絡(luò)和LSTM 提取,根據(jù)特征的差異使用基于點積和圖注意網(wǎng)絡(luò)的注意機制,最終得到合理的輸入向量。整體模型由4 個主要網(wǎng)絡(luò)組成,每個網(wǎng)絡(luò)又由3 個關(guān)鍵模塊組成,分別是生成器、2 種形式的鑒別器(行人和場景)和潛在的空間編碼器。 生成器將從多元正態(tài)分布中采樣的噪聲向量z 作為輸入,并以物理場景上下文Cp(i)、行人場景上下文CLs(i)和行人編碼Vs(i)為條件,然后通過解碼器LSTM 生成多個時間步的軌跡。 鑒別器分別對行人和場景進行操作,利用2 個鑒別器對該體系結(jié)構(gòu)進行對抗性訓練,以輸出真實的局部和全局軌跡。 為保證模型對噪聲反應的敏感性和合理性,Social-BiGAT 還借鑒了Cycle GAN 的思想,引入了由預測軌跡反推噪聲的潛在場景編碼器,該編碼器學習生成最能共同代表場景的噪聲的均值和方差,能夠產(chǎn)生軌跡的多模態(tài)。該方法不僅很好地解決了S-GAN 遺留的問題,還能為特定的行人以及多個行人生成多模態(tài)軌跡。Amirian 等[33]通過對傳統(tǒng)GAN 架構(gòu)的改進提出了一種預測行人與他人交互運動的新方法——Social-Ways。 模型主要通過對Info-GAN 修改,首先是在輸入中新增了潛在編碼,棄用了SGAN 中的L2 損失函數(shù),在鑒別器加入了一個子網(wǎng)絡(luò)用于產(chǎn)生信息損失。然后,將行人的軌跡編碼、注意力池化后的交互信息、噪聲和潛在編碼等輸入作為解碼器的輸入,解碼出行人i的預測軌跡。 該模型引入基于交互信息的信息損失函數(shù),增強了模型對多合理軌跡的預測能力。 然而,現(xiàn)有的大多數(shù)方法不能完全提取行人之間的交互信息,Fang 等[34]提出了一種基于GAN 模型的注意力機制(Atten-GAN)來模擬行人之間交互信息的社會關(guān)系。 該方法不僅能夠提供符合社會規(guī)范的各種社會可接受的預測軌跡,而且在預測精度方面優(yōu)于現(xiàn)有的基于生成模型的方法。 為了動態(tài)預測周圍車輛的未來軌跡,Zhong 等[35]提出了生成模型(STGM),利用條件變分自動編碼器(CVAE)構(gòu)建STGM 框架,將輸入增加到模態(tài)分布中,以獲得模態(tài)方向的軌跡,且提出了新的模態(tài)抽樣技巧,作為CVAE 中傳統(tǒng)隨機抽樣的替代方法以使預測結(jié)果更加穩(wěn)定。

        總體而言,基于GAN 的軌跡預測方法能夠保證智能體軌跡最終的預測精度,能夠在復雜模型上生成合理、穩(wěn)定、可接受的預測結(jié)果。

        1.4 混合網(wǎng)絡(luò)

        由于單一的網(wǎng)絡(luò)不能夠處理復雜的數(shù)據(jù),因此采用混合網(wǎng)絡(luò)處理智能體的軌跡。 一些軌跡預測模型分別從LSTM 和CNN 中提取時間和空間特征。Lee 等[22]引入了一種深度隨機逆最優(yōu)控制(IOC)RNN 編碼器-解碼器框架DESIRE,即選通循環(huán)單元(GRU) 的 RNN 變體與條件變分自動編碼器(CVAE)相結(jié)合,用于預測動態(tài)場景中車輛的未來軌跡。 模型首先采用2 個獨立的編碼器分別對行人i的過去軌跡和未來y的軌跡進行編碼,并將這2 種編碼串聯(lián)輸入到一個具有非線性激活函數(shù)的完全連接層(fc),然后通過CVAE 引入隨機變量Zi,可以獲得一組編碼中各種假設(shè)的未來預測樣本。 其次,設(shè)計一個RNN 評分回歸模塊,將獎勵分配給每一個預測的假設(shè)樣本,根據(jù)長期累積的獎勵衡量結(jié)果的優(yōu)越性。 與S-LSTM 相比,DESIRE 將CVAE 與RNN相結(jié)合,使模型具有較強的可伸縮性和靈活性,同時也結(jié)合動態(tài)和靜態(tài)的場景,考慮了行人之間的交互,使用逆最優(yōu)控制生成了長期的預測,但數(shù)據(jù)集不夠大,在一些罕見的駕駛環(huán)境中,很難預測智能體的軌跡。 為了獲得單模態(tài)軌跡,Rasouli 等[36]采用了具有車載攝像頭系統(tǒng)的行人意圖估計和軌跡預測模型,模型主要包括意圖估計模型和軌跡預測框架,意圖估計模型的編碼器接收t時間內(nèi)帶有行人的方形圖像輸入到CNN,與LSTM 處理后再將其組合輸入給解碼器,解碼器使用含有128 個隱藏單元的LSTM輸出t+τ之前的未來軌跡。 該實驗與傳統(tǒng)LSTM 相比,短期預測差距不大,從長期來看,該模型的性能更好。 Xie 等[37]使用法國NGSIM 和Creteil 環(huán)形交叉路口的數(shù)據(jù)集,通過預測誤差、RMSE、MAE 和偏差評估CNN-LSTM 模型的預測性能,并將預測結(jié)果與CNN,LSTM 和GRU 進行對比。 實驗結(jié)果表明,該方法的RMSE、MAE 和偏差都最小化,能夠準確預測周圍車輛的軌跡。 雖然該方法為自動駕駛汽車等無人系統(tǒng)的安全運行和正確決策提供了有效的方法,但是未處理多個車輛的信息。 Xue 等[38]基于場景和交互感知提出了 Social-Scene-LSTM ( SSLSTM),是一種用于行人軌跡預測的分層LSTM 模型,在已有考慮相鄰路人之間影響的S-LSTM 模型之上額外增加了行人背景的因素。 SS-LSTM 采用了行人模塊、社會模塊和場景模塊這3 種模塊預測行人的軌跡。 行人模塊主要捕捉每個行人過去的軌跡信息,并對觀察到的軌跡進行編碼;社會模塊捕捉每個行人周圍的場景信息,并為每個行人繪制一張占用地圖,將社會規(guī)模因素納入模型中;場景模塊用于捕獲有關(guān)場景布局的信息。 網(wǎng)絡(luò)根據(jù)3 個模塊捕捉到的信息生成向量,拼接后形成解碼器的輸入,最終做出軌跡預測。 與S-LSTM、時空注意網(wǎng)絡(luò)不同的是,SS-LSTM 模型的輸出不是基于高斯二維分布,而是直接將解碼后的輸出經(jīng)線性變換后得到預測軌跡的坐標值,且模型在數(shù)據(jù)集ETH,UCY 上有更好的性能。

        智能體的運動交互過程中存在顯著的不確定性,不確定性通常都是多模態(tài)的,為了預測智能體多模態(tài)的軌跡,Eiffert 等[39]基于有無車輛的人群中預測行人的軌跡,提出了PCGAN(Probabilistic Crowd GAN)模型。 該模型由一個生成器和一個經(jīng)過逆向訓練的鑒別器組成。 生成器由RNN 編碼器、圖形車輛-行人注意(GVAT)模塊、RNN 解碼器和MDN 組成。 GVAT 模塊主要擴展了圖形注意網(wǎng)絡(luò),對場景中所有行人及車輛行人之間的社會互動進行建模,同時考慮車輛行人之間的距離。 MDN 主要為代理的未來軌跡生成多模態(tài)。 然后通過解碼器產(chǎn)生多模態(tài)的軌跡,并通過鑒別器與真實軌跡進行對比輸出合理的結(jié)果。 該方法通過與SGAN 的比較,SGAN僅限于多個樣本的平均誤差,而本方法通過估計每個路徑的可能性,可以降低對抗訓練時產(chǎn)生的誤差。雖然該方法對所有數(shù)據(jù)集都表現(xiàn)良好,但只能預測12 個時間步長的軌跡。 由于LSTM 編碼器用來學習車輛行為的動向,卻不能獲取到車輛之間的依賴性,故Deo 等[40]引入了一個“卷積社會池層”。 模型通過預測6 種機動類別的分布以及每個機動等級的概率來預測車輛未來的軌跡。 但該模型完全依賴于車輛軌跡來推斷機動類別和未來軌跡。 由于智能體的運動具有隨機性,且受到目標、場景和代理之間的互動等多種因素的影響,導致智能體的數(shù)量不固定,大多數(shù)的建模方法都是以代理或空間位置為中心的編碼方式,而Zhao 等[41]將場景與行人之間的交互進行共同建模,提出了多智能體張量融合(Multi-Agent Tensor Fusion,MATF)的編碼解碼架構(gòu),該架構(gòu)主要以代理和空間為中心方法使MATF保留所有智能體和環(huán)境的空間布局。 為了捕捉未來預測軌跡的不確定性,根據(jù)所有代理過去的軌跡、靜態(tài)場景上下文和隨機噪聲輸入,使用了條件生成對抗訓練來表示有限樣本組上軌跡的分布,該模型在NGSIM 數(shù)據(jù)集中軌跡預測方面取得了最先進的結(jié)果。 與文獻[40]相比,MATF 的預測表現(xiàn)較好。 通過實驗證明,在比NGSIM 更復雜的場景環(huán)境中,場景和多智能體交互的表示對于軌跡的準確預測是必要的。

        然而,現(xiàn)有方法通常強調(diào)行人和周圍環(huán)境之間的空間交互,忽略了預測的平滑性和時間一致性。Li 等[42]旨在通過對基于多尺度圖的空間變換器進行建模,并通過使用名為“記憶回放”的軌跡平滑算法綜合空間信息并糾正時間不一致的軌跡;還提出了一種新的評估指標,用于預測多種軌跡的全面性,但該方法只適用于單個智能體。 與旨在學習影響個人步行行為因素的現(xiàn)有行人軌跡預測文獻不同,Zhang 等[43]提出了一種稱為分步注意力的深度學習模型預測行人軌跡。 該模型直接從輸入序列學習軌跡模式,而無需對環(huán)境設(shè)置做任何假設(shè),這使得分步注意力更加穩(wěn)健,并適用于范圍較大的場景。

        2 數(shù)據(jù)集

        軌跡預測在不同場景下的數(shù)據(jù)集多種多樣,下面主要介紹影響力較大的公開數(shù)據(jù)集,主要包括應用于行人、車輛以及行人與車輛的混合數(shù)據(jù)集,如表1 所示。

        表1 常見的軌跡預測數(shù)據(jù)集Tab.1 Common trajectory prediction dataset

        行人軌跡數(shù)據(jù)集主要是ETH[44]和UCY[45],其中包含行人交互、非線性軌跡、避免碰撞和群體行人的軌跡坐標等,同時包含從固定的俯視圖記錄的5 個獨特的室外環(huán)境信息[46]。 其中,ETH 數(shù)據(jù)集包括ETH和Hotel 兩個數(shù)據(jù)集,由3 個視頻片段和1 804 張圖片組成,主要是沒有社交互動的筆直的行人軌跡。UCY 包括Zara1,Zara2 和Univ 三個數(shù)據(jù)集,由5 個視頻片段組成,其中包含了2 206 條直線運動和曲線運動不同特征的行人軌跡。 與ETH 不同,UCY 數(shù)據(jù)集包含了大量行人和場景之間的互動,軌跡特征多種多樣。

        車輛軌跡數(shù)據(jù)集主要是 HighD[47]和nuScenes[48],HighD 主要記錄了高速公路上的車輛的行駛軌跡。 數(shù)據(jù)規(guī)模包括6 個地點,11 萬輛車,4.5 萬km 的總行駛距離,447 h 的總記錄時間。nuScenes 是用于城市道路的數(shù)據(jù)集,共包含1 000 個且每個時長為20 s 的場景。 除此以外,還有NGSIM[49]數(shù)據(jù)集,經(jīng)研究發(fā)現(xiàn)其存在精度不足、坐標漂移等問題,使用頻率不高。

        行人和車輛的混合數(shù)據(jù)集主要是 Stanford Drone[50],JAAD[51]和KITTI[52]跟蹤數(shù)據(jù)集,Stanford Drone 是2016 年8 月提出的,由無人機在斯坦福校園各處俯拍的視頻和圖像組成,包括行人、車輛和滑板車等各類型的智能體,是當前最流行的數(shù)據(jù)集之一,數(shù)據(jù)規(guī)模包括了8 個場景,19 000 個目標,185 000 條含有標簽的互動信息。 JAAD 主要記錄十字路口的車輛和行人軌跡,從240 h 的行駛記錄中,提取346 個5~10 s 的視頻片段。 KITTI 主要包括21 個訓練序列和29 個測試序列,其中的標簽不僅包含了行人的軌跡坐標還有2D 邊界框信息以及GPS 位置。

        3 評估指標

        智能體軌跡預測的評估指標有很多,在文獻[53]中有其他軌跡預測指標的詳細介紹,下面只介紹關(guān)于行人和車輛軌跡預測的常用指標。

        3.1 行人軌跡預測評估指標

        行人軌跡預測的評估指標主要包括平均位移誤差(Average Displacement Error,ADE)和最終位移誤差(Final Displacement Error,FDE)。

        ADE 代表在整個預測時間內(nèi)每一個行人的預測位置與真實位置歐式距離之差的平均值,即:

        式中,n為軌跡數(shù)量;Tpred為預測的最大幀;Tobs為觀測到的幀;Dij為第i條軌跡在第j個位置處,預測軌跡的位置與真實軌跡位置之間的歐式距離:

        FDE 表示t時刻預測的最終位置與真實位置之間的歐式距離差值:

        3.2 車輛軌跡預測評估指標

        車輛軌跡預測的評估指標主要包括平均絕對誤差(Mean Absolute Error,MAE)和均方根誤差(Root Mean Squared Error,RMSE)。

        MAE 主用于衡量預測誤差et的平均值大小,RMSE 是測量預測誤差平均值的平方根,即:

        式中,n為軌跡數(shù)量;et為預測軌跡與真實軌跡之間的位移誤差。 MAE 與RMSE 是回歸問題中最常見的2 個指標,作用大致相似。 與MAE 相比,RMSE 由于使用了平方誤差,因此對較大的預測誤差比較敏感。

        3.3 性能評估

        在軌跡預測領(lǐng)域,預測軌跡常用的數(shù)據(jù)集是ETH 和UCY 數(shù)據(jù)集。 雖然后期也有學者提出關(guān)于軌跡預測的大型數(shù)據(jù)集,但由于先前的方法在這些數(shù)據(jù)集上驗證缺乏實驗數(shù)據(jù),因此本小節(jié)主要歸納部分軌跡預測經(jīng)典模型在ETH 和UCY 數(shù)據(jù)集上的性能,如表2 所示。

        表2 各軌跡預測方法在ETH,UCY 數(shù)據(jù)集上的性能Tab.2 Performance of trajectory prediction methods on ETH and UCY datasets

        從表2 可以看出,在2 個主流的數(shù)據(jù)集上,基于深度學習的軌跡預測方法在精度上遠遠比傳統(tǒng)的方法預測效果要好。 基于Trajectron++的性能最為顯著,該方法的ADE 值和FDE 值達到了0.19 和0.41,比以Social-Ways 為首的生成式網(wǎng)絡(luò)有了顯著的提升。 基于圖網(wǎng)絡(luò)的軌跡預測方法發(fā)展較為迅速,從S-RNN 時期性能為傳統(tǒng)方法的2 倍到Social-STGCNN 已經(jīng)超過了Social-Ways 性能,在ETH 和UCY 數(shù)據(jù)集上優(yōu)于現(xiàn)有模型,并可以從很少的樣本中學習數(shù)據(jù)的特征。 因此,如果能夠設(shè)計較好的損失函數(shù)以及網(wǎng)絡(luò)結(jié)構(gòu),基于深度學習的軌跡預測方法可以更好地預測出智能體的軌跡。

        4 結(jié)論與展望

        主要對全文進行總結(jié),概括基于深度學習的智能體軌跡預測的優(yōu)缺點和未來的發(fā)展方向。

        4.1 總結(jié)

        在過去的十年中,由于傳統(tǒng)的軌跡預測方法僅適用于簡單場景和短期預測,而基于深度學習的方法可以在更長的時間范圍內(nèi)進行準確預測,所以軌跡預測的研究已經(jīng)從基于物理的方法轉(zhuǎn)向基于深度學習的方法。 本文主要研究了基于深度學習的軌跡預測方向的文獻,將行人和車輛的軌跡預測文獻以模型的形式進行分類介紹,并進行總結(jié)。 智能軌跡預測的發(fā)展吸引了越來越多的學者,但仍面臨著各種挑戰(zhàn),本文也概述了未來軌跡預測研究的潛在方向,以供讀者閱讀。 “預測是困難的,尤其是對未來某一時段的預測”[54],這句話也適用于智能體的軌跡預測,基于深度學習的方法明顯優(yōu)于傳統(tǒng)軌跡預測模型,也表明了當今人工智能的發(fā)展非常迅速,隨著技術(shù)的更新以及算法性能的提高,智能軌跡預測一定能迎來一個新的時期。

        4.2 展望

        近些年來,軌跡預測正朝著復雜的預測方向發(fā)展。 目前人工智能領(lǐng)域主要使用深度學習處理智能體的軌跡預測問題,以便更好地估計真實數(shù)據(jù)與上下文之間的關(guān)系。 主要從算法、數(shù)據(jù)集和評估指標進行展望,軌跡預測在未來將有以下幾個方向:

        ① 算法:目前的算法通過輸入高清圖像、考慮智能體之間交互的相關(guān)因素,以此生成符合智能體意圖的多模態(tài)軌跡從而實現(xiàn)高精度。 然而,大多數(shù)方法都是在特定的場景,如十字路口、高速公路和無信號的環(huán)形交叉口等,但智能體的行駛場景多種多樣,未來應該開發(fā)一種能夠適用各種環(huán)境且具有魯棒性的模型來預測智能體的軌跡。

        ② 數(shù)據(jù)集:當前的智能軌跡預測數(shù)據(jù)集的應用場景大多是采用俯瞰視角的道路交通場景,這種數(shù)據(jù)集不能夠支撐實際的應用。 除了要考慮智能體之間的交互、場景信息、智能體的狀態(tài),還應將道路規(guī)則納入數(shù)據(jù)的輸入中。 然而當前的智能軌跡預測沒有一個統(tǒng)一的基準,這就決定了基于深度學習方法下的軌跡預測模型很難與其他方法做一個比較,一個好的軌跡預測模型必須要綜合利用不同的信息,因此創(chuàng)建一個信息完備(各種視角、場景結(jié)構(gòu)和軌跡信息等)的用于軌跡預測的基準數(shù)據(jù)集是有必要的[46]。

        ③ 評估指標:除了常用的評估指標外,還應考慮概率度量和算法的效率、算法的計算時間,提高模型的可信度。

        猜你喜歡
        行人軌跡車輛
        毒舌出沒,行人避讓
        意林(2021年5期)2021-04-18 12:21:17
        軌跡
        軌跡
        路不為尋找者而設(shè)
        揚子江(2019年1期)2019-03-08 02:52:34
        軌跡
        車輛
        小太陽畫報(2018年3期)2018-05-14 17:19:26
        進化的軌跡(一)——進化,無盡的適應
        中國三峽(2017年2期)2017-06-09 08:15:29
        我是行人
        冬天路滑 遠離車輛
        車輛出沒,請注意
        日韩有码中文字幕av| 久久人妻少妇嫩草av蜜桃| 亚洲va欧美va| 日本熟女人妻一区二区三区| 伊人青青草综合在线视频免费播放| 久久精品国产久精国产果冻传媒| 天堂sv在线最新版在线| 娇妻粗大高潮白浆| 全部亚洲国产一区二区| 免费人成在线观看网站| 国产成人综合久久精品免费 | 午夜福利理论片高清在线观看| 亚洲区在线| 亚洲国产精品久久久久秋霞影院| 毛片无遮挡高清免费久久| 澳门精品一区二区三区| 欧美高清精品一区二区| 日日澡夜夜澡人人高潮| 日韩亚洲中文图片小说| 精品黑人一区二区三区久久hd| 粉嫩av国产一区二区三区| 97精品依人久久久大香线蕉97| 亚洲av永久青草无码精品| 开心五月骚婷婷综合网| 毛片免费视频在线观看| 成人免费xxxxx在线视频| 一本久久伊人热热精品中文| 久久国产精品一区二区三区| 国产美女久久精品香蕉69| av狼人婷婷久久亚洲综合| 乳乱中文字幕熟女熟妇| 人人人妻人人澡人人爽欧美一区| 久久久噜噜噜久久中文字幕色伊伊| 一区二区三区在线观看日本视频| 亚洲精品国产av成拍色拍| 狠狠躁18三区二区一区| 亚洲av无码成人黄网站在线观看| 久久精品国产亚洲av麻豆四虎| 19款日产奇骏车怎么样| 国产午夜精品理论片| 福利网在线|