亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

考慮移動(dòng)目標(biāo)不確定行為方式的軌跡預(yù)測(cè)方法

2022-09-23 06:18:18郭繼峰白成超

宇航學(xué)報(bào) 2022年8期

顏鵬,郭繼峰,白成超

(哈爾濱工業(yè)大學(xué)航天學(xué)院,哈爾濱 150001)

0 引言

飛行移動(dòng)目標(biāo)軌跡預(yù)測(cè)技術(shù)在智能空戰(zhàn)、協(xié)同攔截以及目標(biāo)跟蹤監(jiān)視等任務(wù)場(chǎng)景中具有重要的理論研究和實(shí)際應(yīng)用價(jià)值。在移動(dòng)目標(biāo)跟蹤與監(jiān)視任務(wù)中,由于目標(biāo)行為的不確性以及任務(wù)環(huán)境的復(fù)雜性,極易丟失跟蹤的目標(biāo)。特別是在一些復(fù)雜的任務(wù)場(chǎng)景中,由于任務(wù)環(huán)境中分布著大量的障礙物極易遮擋觀測(cè)視線,很容易導(dǎo)致目標(biāo)丟失。因此,對(duì)移動(dòng)目標(biāo)運(yùn)動(dòng)軌跡的預(yù)測(cè)可在目標(biāo)丟失之后為目標(biāo)的搜索過(guò)程提供指導(dǎo),使得目標(biāo)被快速搜索到,從而實(shí)現(xiàn)對(duì)目標(biāo)的長(zhǎng)期跟蹤與監(jiān)視。

針對(duì)目標(biāo)軌跡預(yù)測(cè)的方法大致分為基于物理模型的預(yù)測(cè)方法、基于數(shù)據(jù)驅(qū)動(dòng)的預(yù)測(cè)方法以及基于規(guī)劃的預(yù)測(cè)方法三類(lèi)。在基于物理模型的預(yù)測(cè)方法中,通常根據(jù)目標(biāo)的運(yùn)動(dòng)模型以及觀測(cè)到的目標(biāo)狀態(tài),使用卡爾曼濾波(KF)、擴(kuò)展卡爾曼濾波(EKF)以及無(wú)跡卡爾曼濾波(UKF)等濾波方法對(duì)目標(biāo)的運(yùn)動(dòng)狀態(tài)做出一步或多步的預(yù)測(cè)。然而以上濾波方法只能處理具有單一運(yùn)動(dòng)模式的預(yù)測(cè)問(wèn)題,無(wú)法處理具有多種運(yùn)動(dòng)模式的目標(biāo)軌跡預(yù)測(cè)問(wèn)題。文獻(xiàn)[14]根據(jù)臨近空間短距滑翔飛行器的多模式機(jī)動(dòng)特點(diǎn)設(shè)計(jì)了一種基于變結(jié)構(gòu)交互式多模型(IMM)濾波的軌跡預(yù)測(cè)方法。在上述基于濾波的預(yù)測(cè)方法中假設(shè)目標(biāo)的行為方式服從建立的運(yùn)動(dòng)模型,若缺乏目標(biāo)的運(yùn)動(dòng)模型,則無(wú)法對(duì)目標(biāo)的軌跡進(jìn)行有效的預(yù)測(cè)。文獻(xiàn)[15]在假定高超聲速滑翔目標(biāo)具有必定攻擊某目標(biāo)的行為基礎(chǔ)上結(jié)合滑翔目標(biāo)的運(yùn)動(dòng)模型利用貝葉斯理論迭代地對(duì)滑翔目標(biāo)的運(yùn)動(dòng)軌跡進(jìn)行了預(yù)測(cè)。然而,作者并沒(méi)有考慮當(dāng)滑翔目標(biāo)具有不確定行為時(shí)的預(yù)測(cè)問(wèn)題。綜上所述,上述預(yù)測(cè)方法只適用于目標(biāo)運(yùn)動(dòng)模型已知的問(wèn)題,對(duì)于具有復(fù)雜不確定運(yùn)動(dòng)行為的目標(biāo),很難建立有效的運(yùn)動(dòng)模型,因而不能準(zhǔn)確地預(yù)測(cè)出目標(biāo)的軌跡。

在基于數(shù)據(jù)驅(qū)動(dòng)的預(yù)測(cè)方法中,通常使用深度神經(jīng)網(wǎng)絡(luò)(DNN)、隱馬爾可夫模型(HMM)以及高斯混合模型(GMM)建立移動(dòng)目標(biāo)的軌跡預(yù)測(cè)模型,之后通過(guò)收集的大量目標(biāo)軌跡數(shù)據(jù)訓(xùn)練模型參數(shù),挖掘出目標(biāo)的行為特征,據(jù)此對(duì)目標(biāo)的軌跡做出預(yù)測(cè)。文獻(xiàn)[19]將行人軌跡的預(yù)測(cè)問(wèn)題轉(zhuǎn)換為一個(gè)位置序列生成問(wèn)題,使用長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)建立預(yù)測(cè)模型,通過(guò)編碼觀測(cè)到的行人軌跡生成行人未來(lái)的軌跡。文獻(xiàn)[20]基于LSTM與卷積神經(jīng)網(wǎng)絡(luò)(CNN)建立了車(chē)輛軌跡預(yù)測(cè)模型。模型首先使用LSTM將待預(yù)測(cè)車(chē)輛固定范圍內(nèi)的各車(chē)輛的歷史軌跡進(jìn)行編碼,然后按照車(chē)輛的空間位置對(duì)編碼的軌跡進(jìn)行排列,之后使用CNN進(jìn)行池化處理,最后使用LSTM解碼得到預(yù)測(cè)的車(chē)輛軌跡。文獻(xiàn)[21]利用高斯混合回歸技術(shù)預(yù)測(cè)移動(dòng)對(duì)象的復(fù)雜多模式運(yùn)動(dòng)行為,建立的預(yù)測(cè)模型可以通過(guò)數(shù)據(jù)自身預(yù)測(cè)移動(dòng)對(duì)象可能性最大的運(yùn)動(dòng)軌跡。以上基于數(shù)據(jù)驅(qū)動(dòng)的預(yù)測(cè)方法雖然可以在目標(biāo)運(yùn)動(dòng)模型未知的情況下依靠目標(biāo)的移動(dòng)數(shù)據(jù)對(duì)目標(biāo)的軌跡做出預(yù)測(cè),但預(yù)測(cè)對(duì)象具有較為確定的行為方式,易于通過(guò)監(jiān)督學(xué)習(xí)的方式學(xué)習(xí)出目標(biāo)的行為模式。然而對(duì)于具有不確定行為的目標(biāo),這種方法難以達(dá)到較好的預(yù)測(cè)精度。

基于規(guī)劃的預(yù)測(cè)方法將目標(biāo)軌跡的預(yù)測(cè)過(guò)程轉(zhuǎn)換為模擬目標(biāo)軌跡規(guī)劃的過(guò)程。文獻(xiàn)[22]將人群以及障礙物對(duì)行人軌跡的影響等建模為能量,在該地圖上使用快速步進(jìn)法規(guī)劃行人的軌跡,從而達(dá)到預(yù)測(cè)行人軌跡的目的。文獻(xiàn)[23]將人行道、建筑物以及行駛的車(chē)輛等視為影響行人行為的勢(shì)場(chǎng),構(gòu)建了勢(shì)場(chǎng)代價(jià)地圖,之后利用A算法在此地圖上規(guī)劃行人的軌跡,以此作為預(yù)測(cè)結(jié)果。以上預(yù)測(cè)方法都假設(shè)行人按照最優(yōu)的軌跡運(yùn)動(dòng),然而在現(xiàn)實(shí)世界中,移動(dòng)目標(biāo)的行為方式很有可能不是最優(yōu)的,因此無(wú)法基于最優(yōu)規(guī)劃的準(zhǔn)則預(yù)測(cè)目標(biāo)的行為。為此,可以從目標(biāo)的行為軌跡數(shù)據(jù)中學(xué)習(xí)出目標(biāo)的行為方式,在此基礎(chǔ)上預(yù)測(cè)目標(biāo)的軌跡。解決這一問(wèn)題的一大類(lèi)方法為基于逆強(qiáng)化學(xué)習(xí)的軌跡預(yù)測(cè)方法。文獻(xiàn)[26]在馬爾科夫決策過(guò)程(MDP)框架下利用最大熵逆強(qiáng)化學(xué)習(xí)(MaxEnt)方法學(xué)習(xí)出行人的行為概率模型,以此預(yù)測(cè)行人的軌跡。在此基礎(chǔ)之上,文獻(xiàn)[28]使用多尺度的CNN擬合復(fù)雜城市環(huán)境中的導(dǎo)航代價(jià)地圖,然后基于此地圖規(guī)劃行駛路徑。這種直接使用深度神經(jīng)網(wǎng)絡(luò)處理環(huán)境信息得到代價(jià)地圖的方法避免了人為手動(dòng)設(shè)計(jì)的過(guò)程。此外,文獻(xiàn)[29]使用最大化邊際規(guī)劃方法(MMP)學(xué)習(xí)機(jī)器人在復(fù)雜環(huán)境中的導(dǎo)航策略。其中,利用深度神經(jīng)網(wǎng)絡(luò)建立機(jī)器人的導(dǎo)航策略,輸入為感知的環(huán)境狀態(tài)特征,輸出為選擇下一步動(dòng)作的概率。

雖然以上基于逆強(qiáng)化學(xué)習(xí)的方法可通過(guò)模擬目標(biāo)軌跡規(guī)劃的過(guò)程實(shí)現(xiàn)對(duì)目標(biāo)行為軌跡的預(yù)測(cè),然而對(duì)于在復(fù)雜環(huán)境中運(yùn)動(dòng)的、具有不確定行為的目標(biāo),其預(yù)測(cè)精度較低,難以學(xué)習(xí)到目標(biāo)的不確定行為特征。為了解決這一問(wèn)題,本文在一種最大熵逆強(qiáng)化學(xué)習(xí)方法——引導(dǎo)式成本學(xué)習(xí)(GCL)的基礎(chǔ)上引入針對(duì)飛行移動(dòng)目標(biāo)不確定行為特征的改進(jìn)措施,構(gòu)建飛行移動(dòng)目標(biāo)軌跡預(yù)測(cè)模型。首先考慮到目標(biāo)的行為方式受到局部環(huán)境信息以及全局導(dǎo)航信息的影響,基于CNN建立目標(biāo)行為偏好模型與目標(biāo)行為決策模型,通過(guò)融合局部環(huán)境信息以及全局導(dǎo)航信息將環(huán)境對(duì)目標(biāo)行為的影響編碼到建立的網(wǎng)絡(luò)模型中。其中,目標(biāo)行為偏好模型用于捕捉目標(biāo)的行為特征,指導(dǎo)目標(biāo)行為決策模型的訓(xùn)練,目標(biāo)行為決策模型用于模擬目標(biāo)的行為方式,生成預(yù)測(cè)的目標(biāo)軌跡。然后在GCL框架下利用目標(biāo)示例軌跡對(duì)建立的神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練。為了有效地從目標(biāo)示例軌跡信息中學(xué)習(xí)出目標(biāo)的不確定行為特征,提高模型的訓(xùn)練效率,本文提出的改進(jìn)措施包括使用目標(biāo)示例軌跡概率分布模型指導(dǎo)目標(biāo)行為偏好模型的訓(xùn)練以及初始化目標(biāo)行為決策模型,同時(shí)通過(guò)對(duì)目標(biāo)行為偏好模型進(jìn)行預(yù)訓(xùn)練的方式提高模型訓(xùn)練的質(zhì)量。

1 問(wèn)題定義

1.1 飛行移動(dòng)目標(biāo)軌跡預(yù)測(cè)問(wèn)題

(1)

圖1 飛行環(huán)境模型Fig.1 Flying environment model

1.2 目標(biāo)不確定行為模型

由于現(xiàn)實(shí)中收集的目標(biāo)軌跡數(shù)據(jù)難以調(diào)整其不確定性程度,無(wú)法對(duì)目標(biāo)軌跡預(yù)測(cè)方法進(jìn)行全面分析和驗(yàn)證。因此,本文手動(dòng)設(shè)計(jì)目標(biāo)的行為模型,使其可以靈活地調(diào)整目標(biāo)行為的不確定性程度。

(2)

(3)

2 基于GCL的目標(biāo)軌跡預(yù)測(cè)方法

本節(jié)在GCL方法的基礎(chǔ)上實(shí)現(xiàn)對(duì)目標(biāo)軌跡的預(yù)測(cè)。首先介紹GCL方法的基礎(chǔ)理論,其次基于深度神經(jīng)網(wǎng)絡(luò)建立目標(biāo)行為決策模型與行為偏好模型,之后由目標(biāo)示例軌跡數(shù)據(jù)學(xué)習(xí)出目標(biāo)的示例軌跡概率分布模型,用于改進(jìn)目標(biāo)行為決策模型與行為偏好模型的訓(xùn)練過(guò)程,然后使用目標(biāo)示例軌跡數(shù)據(jù)對(duì)目標(biāo)行為偏好模型進(jìn)行預(yù)訓(xùn)練,進(jìn)一步提高目標(biāo)行為偏好模型的訓(xùn)練效率。最后給出模型的訓(xùn)練流程。

2.1 GCL算法

GCL方法是一種最大熵逆強(qiáng)化學(xué)習(xí)方法。逆強(qiáng)化學(xué)習(xí)方法解決的任務(wù)一般由馬爾科夫框架定義,表示為M=〈S, A,,〉,式中S表示任務(wù)的狀態(tài)空間,A表示動(dòng)作空間,T(T(′|,),,′∈S,∈A)表示狀態(tài)轉(zhuǎn)移模型,(0≤≤1)為折扣因子,為獎(jiǎng)勵(lì)函數(shù)。在強(qiáng)化學(xué)習(xí)任務(wù)中,通過(guò)人為手動(dòng)設(shè)計(jì)的獎(jiǎng)勵(lì)函數(shù)求解最優(yōu)的策略π(|)使得智能體在執(zhí)行該策略時(shí)所獲得的累積獎(jiǎng)勵(lì)最大。對(duì)于一些復(fù)雜的任務(wù),人為很難設(shè)計(jì)合理的獎(jiǎng)勵(lì)函數(shù),因此逆強(qiáng)化學(xué)習(xí)解決從示例軌跡數(shù)據(jù)集中學(xué)習(xí)對(duì)應(yīng)的獎(jiǎng)勵(lì)函數(shù)的問(wèn)題。

在逆強(qiáng)化學(xué)習(xí)框架下預(yù)測(cè)目標(biāo)的軌跡時(shí)認(rèn)為目標(biāo)的行為過(guò)程由一個(gè)馬爾科夫框架定義,目標(biāo)的行為方式是其潛在的真實(shí)獎(jiǎng)勵(lì)函數(shù)(,)對(duì)應(yīng)的最優(yōu)的行為方式π(|),逆強(qiáng)化學(xué)習(xí)的目標(biāo)則是通過(guò)目標(biāo)示例軌跡學(xué)習(xí)出目標(biāo)的獎(jiǎng)勵(lì)函數(shù)(,)與行為方式π(|)。

在最大熵逆強(qiáng)化學(xué)習(xí)框架下,示例軌跡的概率分布表示為如下的形式：

(4)

(5)

式中：=||表示示例軌跡的個(gè)數(shù)。在式(5)的求解過(guò)程中,對(duì)于高維連續(xù)的任務(wù)環(huán)境,配分函數(shù)的計(jì)算非常困難。因此,在GCL方法中使用采樣的手段估計(jì)配分函數(shù),如下所示：

(6)

(7)

(8)

因此,在GCL框架可根據(jù)目標(biāo)示例軌跡數(shù)據(jù)集利用式(8)對(duì)獎(jiǎng)勵(lì)函數(shù)(,)進(jìn)行訓(xùn)練,而(,)又通過(guò)相關(guān)強(qiáng)化學(xué)習(xí)算法指導(dǎo)采樣策略π(|)的訓(xùn)練過(guò)程,使其采樣的軌跡更加接近在獎(jiǎng)勵(lì)函數(shù)(,)下的最優(yōu)策略采樣的軌跡。通過(guò)對(duì)(,)與π(|)的交替訓(xùn)練,最終可使得獎(jiǎng)勵(lì)函數(shù)(,)逼近目標(biāo)的真實(shí)獎(jiǎng)勵(lì)函數(shù)(,),采樣策略π(|)逼近真實(shí)的目標(biāo)行為決策策略π(|)。兩個(gè)模型的訓(xùn)練過(guò)程互相影響,互相促進(jìn)。因此,對(duì)(,)與π(|)的建模非常關(guān)鍵,需要充分考慮影響目標(biāo)行為的各種因素,建立具有較強(qiáng)數(shù)據(jù)處理能力與擬合能力的獎(jiǎng)勵(lì)函數(shù)模型與采樣策略模型。

對(duì)于飛行移動(dòng)目標(biāo)軌跡預(yù)測(cè)問(wèn)題而言,獎(jiǎng)勵(lì)函數(shù)(,)對(duì)應(yīng)目標(biāo)的行為偏好模型,影響目標(biāo)的行為方式；采樣策略π(|)對(duì)應(yīng)目標(biāo)的行為決策模型,用于模擬目標(biāo)軌跡產(chǎn)生的過(guò)程。

2.2 目標(biāo)行為決策與行為偏好模型

通常,目標(biāo)的行為決策過(guò)程以及行為偏好受到目的地位置以及目標(biāo)周?chē)h(huán)境的影響,因此,本文將目標(biāo)周?chē)h(huán)境信息以及目的地位置信息作為目標(biāo)行為決策與行為偏好模型的輸入信息。

首先,將飛行環(huán)境Ω進(jìn)行離散化處理,得到大小為×的柵格地圖(∈×),具體定義如下：

=[()]×,

(9)

圖2 目標(biāo)行為決策模型網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Network structure of the target behavior decision model

(10)

在建立的目標(biāo)行為決策模型π(|)中,首先使用兩層CNN編碼目標(biāo)周?chē)h(huán)境信息(),然后將編碼之后的信息與觀測(cè)信息()進(jìn)行拼接,之后通過(guò)兩層全連接網(wǎng)絡(luò)融合處理得到全局目的地信息與局部環(huán)境信息的混合編碼,最后經(jīng)過(guò)激活函數(shù)為softmax的全連接層處理,得到選擇下一步行為動(dòng)作的概率值(|)。

目標(biāo)行為偏好模型的網(wǎng)絡(luò)結(jié)構(gòu)與目標(biāo)行為決策模型的網(wǎng)絡(luò)結(jié)構(gòu)基本相同,相比于目標(biāo)行為決策模型,其最后一層只有一個(gè)輸出值,且激活函數(shù)為tanh,目的是將輸出獎(jiǎng)勵(lì)值(,)限制在(-1,1)之間。需要注意的是目標(biāo)行為偏好模型的輸入為在狀態(tài)處執(zhí)行動(dòng)作之后的下一步狀態(tài)′,即(,)→(′)。

2.3 目標(biāo)示例軌跡概率分布模型

具體地,目標(biāo)示例軌跡概率分布模型的網(wǎng)絡(luò)結(jié)構(gòu)以及輸入輸出同目標(biāo)行為決策模型一致,其模型參數(shù)的訓(xùn)練通過(guò)最小化以下?lián)p失函數(shù)實(shí)現(xiàn)：

(11)

2.4 目標(biāo)行為偏好模型預(yù)訓(xùn)練策略

在目標(biāo)行為偏好模型的訓(xùn)練過(guò)程中,可通過(guò)對(duì)模型參數(shù)進(jìn)行預(yù)先訓(xùn)練的方式提高模型訓(xùn)練的速度與質(zhì)量。為此,本節(jié)提出基于目標(biāo)示例軌跡的目標(biāo)行為偏好模型預(yù)訓(xùn)練策略。

對(duì)于收集的目標(biāo)示例軌跡數(shù)據(jù)集={,,…,},統(tǒng)計(jì)其經(jīng)過(guò)柵格地圖中每個(gè)柵格單元的頻次,則經(jīng)過(guò)柵格單元的頻率可表示為：

(12)

式中：min(·)函數(shù)的使用是為了將()限制在[0,1]之間。則目標(biāo)行為偏好模型的預(yù)訓(xùn)練通過(guò)最小化以下?lián)p失函數(shù)進(jìn)行：

(13)

式中：()表示目標(biāo)所在柵格單元為時(shí)觀測(cè)到的輸入狀態(tài)；(())表示在狀態(tài)()下目標(biāo)行為偏好模型的輸出值。目標(biāo)行為偏好模型經(jīng)過(guò)以上預(yù)訓(xùn)練之后,可在GCL框架下進(jìn)一步訓(xùn)練。

2.5 模型參數(shù)訓(xùn)練流程

基于GCL算法的目標(biāo)行為決策模型與目標(biāo)行為偏好模型參數(shù)訓(xùn)練流程如圖3所示。

圖3 目標(biāo)行為決策模型與目標(biāo)行為偏好模型參數(shù)訓(xùn)練流程Fig.3 Parameter training flow of the target behavior decision model and behavior preference model

在基于GCL的模型參數(shù)訓(xùn)練流程中,目標(biāo)行為決策模型π(|)使用具有基線的蒙特卡洛策略梯度方法(REINFORCE with Baseline)訓(xùn)練,其中基線函數(shù)使用值函數(shù)網(wǎng)絡(luò)()表示,其網(wǎng)絡(luò)結(jié)構(gòu)與決策模型π(|)的網(wǎng)絡(luò)結(jié)構(gòu)基本一致,不同的是值函數(shù)網(wǎng)絡(luò)()的最后一層只具有一個(gè)線性輸出單元。

3 仿真校驗(yàn)

3.1 仿真場(chǎng)景設(shè)置

3.2 模型訓(xùn)練結(jié)果

本文使用Pytorch深度學(xué)習(xí)框架建立神經(jīng)網(wǎng)絡(luò)模型,并使用Adam優(yōu)化器對(duì)所建立的網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練。在建立的網(wǎng)絡(luò)模型中,輸入環(huán)境信息()的大小為11×11,即==11。其中,目標(biāo)示例軌跡概率分布模型的訓(xùn)練過(guò)程與目標(biāo)行為偏好模型的預(yù)訓(xùn)練過(guò)程共經(jīng)過(guò)1000個(gè)訓(xùn)練回合,梯度更新使用的批大小為32,學(xué)習(xí)率為0.0001,訓(xùn)練過(guò)程中的損失值變化如圖4所示(為了方便顯示,圖中將損失值歸一化到[0,1]之間)。在基于GCL的目標(biāo)行為決策模型與目標(biāo)行為偏好模型的訓(xùn)練過(guò)程中,訓(xùn)練最大回合數(shù)=125,每回合采樣軌跡條數(shù)=20,批大小為32,學(xué)習(xí)率分別設(shè)置為0.00002, 0.0002。在具有基線的蒙特卡洛策略梯度方法中,折扣因子=095,值函數(shù)的學(xué)習(xí)率設(shè)為0.001。訓(xùn)練結(jié)果如圖5所示(為了方便顯示,圖中將損失值歸一化到[-1,0]之間)。

圖4 監(jiān)督學(xué)習(xí)過(guò)程損失值變化曲線Fig.4 Curves of the loss values during supervised learning

如圖4所示,隨著訓(xùn)練回合的增加,目標(biāo)示例軌跡概率分布模型與目標(biāo)行為偏好模型的損失值下降變緩,在訓(xùn)練后期損失值基本保持不變,表明模型訓(xùn)練完成。從圖5中可以看出,隨著訓(xùn)練回合的增加,目標(biāo)行為偏好模型的損失值的絕對(duì)值逐漸減小,表明從目標(biāo)示例軌跡中學(xué)習(xí)到的目標(biāo)行為偏好模型逐步接近目標(biāo)真實(shí)的行為偏好,以及以目標(biāo)行為偏好模型為獎(jiǎng)勵(lì)函數(shù)的目標(biāo)行為決策模型逐步向目標(biāo)真實(shí)的行為決策方式逼近。在訓(xùn)練后期,損失值逐漸接近0,表明學(xué)習(xí)過(guò)程基本完成。

圖5 目標(biāo)行為偏好模型的損失值變化曲線Fig.5 Curve of the loss value of the target behavior preference model

3.3 預(yù)測(cè)性能對(duì)比結(jié)果

對(duì)比方法

本節(jié)將所提的飛行移動(dòng)目標(biāo)軌跡預(yù)測(cè)方法與其他類(lèi)型的考慮目標(biāo)行為方式的軌跡預(yù)測(cè)方法進(jìn)行對(duì)比,對(duì)比方法包括：

(1)基于隨機(jī)A的預(yù)測(cè)方法。在A算法的基礎(chǔ)上加入了隨機(jī)性,使得其規(guī)劃的軌跡具有不確定性,從而可以對(duì)不確定行為軌跡進(jìn)行預(yù)測(cè)。目標(biāo)在每次選擇行為動(dòng)作時(shí)以概率選擇A算法規(guī)劃的行為動(dòng)作,以概率1-從其鄰居節(jié)點(diǎn)中隨機(jī)選擇下一步的行為動(dòng)作。在以下的對(duì)比實(shí)驗(yàn)中設(shè)置=07(取值的確定過(guò)程為以0.1為步長(zhǎng),從0.0開(kāi)始增加的值到1.0,當(dāng)=07時(shí)具有最好的預(yù)測(cè)性能)?；陔S機(jī)A的預(yù)測(cè)方法作為一種最基本的基于規(guī)劃的預(yù)測(cè)方法,此處作為對(duì)比的基準(zhǔn)。

(14)

(15)

在基于概率模型的預(yù)測(cè)方法中,目標(biāo)按照式(14)選擇下一步的行為動(dòng)作,直到到達(dá)目的地,目標(biāo)經(jīng)過(guò)的軌跡即為預(yù)測(cè)的軌跡。以上建立的基于概率模型的預(yù)測(cè)方法與1.2節(jié)中建立的目標(biāo)真實(shí)行為模型類(lèi)似,故理論上具有較好的預(yù)測(cè)性能。

(3)基于模仿學(xué)習(xí)的預(yù)測(cè)方法。基于模仿學(xué)習(xí)的預(yù)測(cè)方法使用訓(xùn)練的目標(biāo)示例軌跡概率分布模型π(|)直接模擬目標(biāo)行為的決策過(guò)程,以此預(yù)測(cè)目標(biāo)的軌跡。基于模仿學(xué)習(xí)的預(yù)測(cè)方法作為一種基于數(shù)據(jù)驅(qū)動(dòng)的預(yù)測(cè)方法,在很多任務(wù)中具有較好的預(yù)測(cè)性能。

性能指標(biāo)

由于目標(biāo)的行為具有不確定性,因此難以憑借預(yù)測(cè)的軌跡直接對(duì)比預(yù)測(cè)性能。為了對(duì)各軌跡預(yù)測(cè)方法的預(yù)測(cè)性能進(jìn)行合理的對(duì)比,本文通過(guò)定義目標(biāo)行為軌跡獎(jiǎng)勵(lì)值評(píng)價(jià)預(yù)測(cè)的行為軌跡。

目標(biāo)行為軌跡獎(jiǎng)勵(lì)值定義為目標(biāo)在執(zhí)行軌跡={,,,,…,,}的過(guò)程中獲得的累計(jì)獎(jiǎng)勵(lì)之和,計(jì)算如下：

()=∑(,)

(16)

式中：()表示軌跡對(duì)應(yīng)的目標(biāo)行為軌跡獎(jiǎng)勵(lì)值；(,)表示目標(biāo)在狀態(tài)下執(zhí)行動(dòng)作所獲得的獎(jiǎng)勵(lì)值。

本文在計(jì)算目標(biāo)行為軌跡獎(jiǎng)勵(lì)值時(shí),(,)設(shè)計(jì)如下：

(17)

式中：表示目標(biāo)在狀態(tài)處距離目的地區(qū)域的距離；+1表示目標(biāo)在狀態(tài)處執(zhí)行動(dòng)作之后距離目的地區(qū)域的距離。

對(duì)比結(jié)果

圖6所示為各預(yù)測(cè)方法預(yù)測(cè)性能的對(duì)比結(jié)果。從圖中可以看出,本文所提的目標(biāo)軌跡預(yù)測(cè)算法具有最小的KL散度,即其預(yù)測(cè)的目標(biāo)軌跡最接近目標(biāo)真實(shí)的行為方式。由于隨機(jī)A算法在大部分情況下按照A算法規(guī)劃的行為進(jìn)行預(yù)測(cè)(其他情況下按照隨機(jī)行為進(jìn)行預(yù)測(cè)),因此其無(wú)法對(duì)目標(biāo)的不確定行為軌跡進(jìn)行有效的預(yù)測(cè)。相比之下,基于概率模型的預(yù)測(cè)方法具有較好的預(yù)測(cè)性能,因?yàn)槠溥x擇路徑的方式與真實(shí)目標(biāo)的行為方式比較相似。此外,由于模仿學(xué)習(xí)方法只是對(duì)目標(biāo)軌跡的概率分布進(jìn)行了模擬,即只學(xué)習(xí)到了“平均目標(biāo)行為”,但沒(méi)有學(xué)習(xí)到目標(biāo)特有的行為方式,因而也不能對(duì)目標(biāo)的軌跡進(jìn)行有效的預(yù)測(cè)。

圖6 預(yù)測(cè)性能結(jié)果對(duì)比Fig.6 Comparison of the prediction performance results

圖7所示為各預(yù)測(cè)方法預(yù)測(cè)的目標(biāo)軌跡。從中可以看出只有本文提出的算法預(yù)測(cè)到了目標(biāo)進(jìn)入可進(jìn)入?yún)^(qū)域隱藏自身行蹤的行為方式,而在其他算法預(yù)測(cè)出的軌跡中沒(méi)有與目標(biāo)行為方式相似的行為特征。以上結(jié)果表明,通過(guò)對(duì)目標(biāo)示例軌跡的學(xué)習(xí),本文提出的算法可以學(xué)習(xí)到目標(biāo)的行為特征,從而對(duì)目標(biāo)行為軌跡的預(yù)測(cè)更加準(zhǔn)確。

圖7 各軌跡預(yù)測(cè)方法預(yù)測(cè)的目標(biāo)軌跡Fig.7 Target trajectories predicted by each prediction method

3.4 泛化性能測(cè)試

圖8 參數(shù)的變化對(duì)目標(biāo)軌跡預(yù)測(cè)性能的影響Fig.8 Influence of the variation of on the target trajectory prediction performance

圖9 參數(shù)的變化對(duì)目標(biāo)軌跡預(yù)測(cè)性能的影響Fig.9 Influence of the variation of on the target trajectory prediction performance

3.5 消融實(shí)驗(yàn)

本文在GCL算法的基礎(chǔ)上提出了3點(diǎn)改進(jìn)措施,即①使用目標(biāo)示例軌跡概率分布模型將目標(biāo)示例軌跡通過(guò)重要性采樣方法加入到采樣軌跡中提高采樣軌跡的質(zhì)量,②使用目標(biāo)示例軌跡概率分布模型初始化目標(biāo)行為決策模型,以及③對(duì)目標(biāo)行為偏好模型進(jìn)行預(yù)訓(xùn)練。以下測(cè)試每種改進(jìn)方法相對(duì)于原始GCL算法的影響。

圖10所示為在以上改進(jìn)措施的不同組合下對(duì)目標(biāo)軌跡的預(yù)測(cè)性能,從中可以看出,以上3種改進(jìn)措施可以逐步提高對(duì)目標(biāo)軌跡的預(yù)測(cè)性能。在原始GCL算法下,只能學(xué)習(xí)到目標(biāo)前往目的地的行為方式,無(wú)法學(xué)習(xí)到目標(biāo)其他的行為方式。當(dāng)在原始GCL算法中引入目標(biāo)示例軌跡概率分布模型之后,學(xué)習(xí)到的行為偏好模型在目標(biāo)示例軌跡附近具有較高的獎(jiǎng)勵(lì),因而可以較好地模擬目標(biāo)的行為方式。在此基礎(chǔ)之上對(duì)目標(biāo)行為決策模型的初始化以及對(duì)目標(biāo)行為偏好模型的預(yù)訓(xùn)練提高了采樣軌跡的質(zhì)量以及模型訓(xùn)練的質(zhì)量,因而可以更加全面地學(xué)習(xí)出目標(biāo)的行為偏好。以上結(jié)果表明,本文在GCL算法的基礎(chǔ)上提出的改進(jìn)措施對(duì)目標(biāo)不確定行為軌跡的預(yù)測(cè)具有明顯的提升作用,可以有效提高對(duì)目標(biāo)不確定行為軌跡的預(yù)測(cè)性能。

圖10 各改進(jìn)措施對(duì)目標(biāo)軌跡預(yù)測(cè)性能的影響Fig.10 Influence of the improvement measures on the target trajectory prediction performance

4 結(jié) 論

針對(duì)具有不確定行為方式的飛行移動(dòng)目標(biāo),本文提出了基于逆強(qiáng)化學(xué)習(xí)方法的目標(biāo)軌跡預(yù)測(cè)方法,對(duì)目標(biāo)軌跡的預(yù)測(cè)轉(zhuǎn)換為對(duì)目標(biāo)行為決策過(guò)程的模擬。由仿真結(jié)果可知,相對(duì)于其他軌跡預(yù)測(cè)方法,本文提出的算法可通過(guò)對(duì)目標(biāo)行為方式的模擬實(shí)現(xiàn)對(duì)目標(biāo)軌跡的準(zhǔn)確預(yù)測(cè)。同時(shí),其產(chǎn)生的預(yù)測(cè)軌跡可由目標(biāo)行為偏好模型進(jìn)行解釋,相比于傳統(tǒng)的基于神經(jīng)網(wǎng)絡(luò)的軌跡預(yù)測(cè)方法具有更好的可解釋性。此外,學(xué)習(xí)到的目標(biāo)行為偏好模型記錄了目標(biāo)的行為特征,因此具有較好的可遷移性,可用于不同的環(huán)境中預(yù)測(cè)目標(biāo)的行為。未來(lái)的工作將對(duì)目標(biāo)行為偏好模型的可遷移性進(jìn)行深入研究,探索其在不同環(huán)境中的遷移效果。