楊啟明, 徐建城, 田海寶, 吳勇
(1.西北工業(yè)大學(xué) 電子信息學(xué)院, 陜西 西安 710072;2.空軍駐江西地區(qū)軍事代表室, 江西 南昌 330024)
無(wú)人機(jī)(UAV)在戰(zhàn)爭(zhēng)中的應(yīng)用和出色表現(xiàn)已經(jīng)使其作為一種新型作戰(zhàn)力量受到越來(lái)越多的關(guān)注,與有人駕駛飛機(jī)相比,無(wú)人機(jī)具有隱蔽性好、不懼傷亡、可進(jìn)行大過(guò)載機(jī)動(dòng)等諸多優(yōu)勢(shì)。無(wú)人機(jī)智能化執(zhí)行任務(wù)可以讓人員的精力從繁重的具體操控上解脫出來(lái),轉(zhuǎn)而進(jìn)行態(tài)勢(shì)判斷和推理等高級(jí)思考,這樣能真正發(fā)揮人和機(jī)各自的優(yōu)勢(shì),提升綜合作戰(zhàn)效率,因此無(wú)人機(jī)的智能化是其未來(lái)的發(fā)展方向[1-3]。無(wú)論軍用還是民用領(lǐng)域,對(duì)運(yùn)動(dòng)目標(biāo)實(shí)施跟蹤是無(wú)人機(jī)的一個(gè)主要用途,實(shí)現(xiàn)跟蹤自主化,能夠在大幅降低操作強(qiáng)度的同時(shí)提高對(duì)目標(biāo)信息探測(cè)的穩(wěn)定性。本文試圖對(duì)無(wú)人機(jī)跟蹤目標(biāo)的任務(wù)進(jìn)行自主化設(shè)計(jì),無(wú)人機(jī)周期地計(jì)算出行動(dòng)策略,進(jìn)而對(duì)飛行路徑進(jìn)行動(dòng)態(tài)調(diào)整和規(guī)劃以實(shí)現(xiàn)對(duì)目標(biāo)的跟蹤。
在狀態(tài)存在隨機(jī)性的規(guī)劃問(wèn)題中,多使用部分可觀測(cè)的馬爾科夫決策過(guò)程(POMDP)為建模方法。在基于POMDP的無(wú)人機(jī)路徑規(guī)劃應(yīng)用方面有學(xué)者已經(jīng)做了一些研究,例如文獻(xiàn)[4]基于POMDP對(duì)無(wú)人機(jī)在線性觀測(cè)方程下的路徑規(guī)劃進(jìn)行了建模;文獻(xiàn)[5]基于POMDP進(jìn)行無(wú)人機(jī)對(duì)目標(biāo)探測(cè)識(shí)別的建模;文獻(xiàn)[6]基于POMDP對(duì)兩棲車(chē)輛的運(yùn)動(dòng)路線進(jìn)行了規(guī)劃設(shè)計(jì)。上述文獻(xiàn)均使用POMDP框架對(duì)路徑規(guī)劃問(wèn)題進(jìn)行了表述和求解,并取得了較為滿意的結(jié)果,但是這些文獻(xiàn)中均對(duì)目標(biāo)的狀態(tài)轉(zhuǎn)移規(guī)律使用單一的運(yùn)動(dòng)模型(例如,勻速直線運(yùn)動(dòng))來(lái)進(jìn)行描述,這樣與真實(shí)情況下的目標(biāo)運(yùn)動(dòng)不相符合。本文以POMDP理論為基礎(chǔ),提出在POMDP模型中使用交互多模型(IMM)方法描述目標(biāo)狀態(tài)轉(zhuǎn)移規(guī)律,用IMM方法實(shí)現(xiàn)模型的切換[7-8],旨在構(gòu)建適合于目標(biāo)的機(jī)動(dòng)變化下無(wú)人機(jī)跟蹤路徑的在線規(guī)劃算法。
POMDP模型對(duì)問(wèn)題有很強(qiáng)的表現(xiàn)力,但是對(duì)其精確求解十分困難[9]。累加代價(jià)的計(jì)算量會(huì)隨著問(wèn)題規(guī)模呈指數(shù)增長(zhǎng),此外觀測(cè)的不完整性使得所獲得狀態(tài)信息具有隨機(jī)性,因此對(duì)狀態(tài)和觀測(cè)信息均需用概率分布來(lái)描述,對(duì)遠(yuǎn)期代價(jià)和高維概率分布的精確計(jì)算需要較大的計(jì)算資源和時(shí)間開(kāi)銷。因此在無(wú)人機(jī)行動(dòng)決策這樣對(duì)實(shí)時(shí)性要求較高的在線規(guī)劃場(chǎng)景,主要采用近似解法對(duì)模型進(jìn)行求解,在有限時(shí)間內(nèi)實(shí)時(shí)求出符合使用要求的次優(yōu)解。在進(jìn)行近似求解時(shí),本文通過(guò)限定預(yù)測(cè)時(shí)限來(lái)降低遠(yuǎn)期代價(jià)的計(jì)算量,使用名義信念狀態(tài)優(yōu)化(NBO)算法[10]求解POMDP的行動(dòng)序列,在滿足跟蹤性能的同時(shí)極大的降低了計(jì)算量。
無(wú)人機(jī)跟蹤目標(biāo)的路徑規(guī)劃的背景想定如下,無(wú)人機(jī)對(duì)地面一個(gè)移動(dòng)目標(biāo)進(jìn)行觀測(cè)并自動(dòng)跟蹤飛行。無(wú)人機(jī)使用傳感器獲得目標(biāo)的距離和方位值,并以此為觀測(cè)量自動(dòng)調(diào)整無(wú)人機(jī)的飛行軌跡對(duì)目標(biāo)保持跟蹤,提供準(zhǔn)確穩(wěn)定的視頻圖像等目標(biāo)信息。為了有效說(shuō)明算法,本文假設(shè)無(wú)人機(jī)在固定高度飛行,簡(jiǎn)化無(wú)人機(jī)和目標(biāo)的運(yùn)動(dòng)為二維平面內(nèi)的運(yùn)動(dòng)。
路徑規(guī)劃問(wèn)題的POMDP模型可由6個(gè)要素的六元組〈S,A,T,O,C,B〉來(lái)表示,其中,S表示狀態(tài)空間,A為行動(dòng)空間,T為狀態(tài)轉(zhuǎn)移規(guī)律,O為觀測(cè)和觀測(cè)率,C表示代價(jià)函數(shù),B為信念空間。下面對(duì)本文中各個(gè)要素代表的意義進(jìn)行說(shuō)明。
1.2.1 狀態(tài)空間
1.2.2 行動(dòng)空間
在跟蹤目標(biāo)的無(wú)人機(jī)路徑規(guī)劃問(wèn)題中,每個(gè)決策點(diǎn)所采取的行動(dòng)應(yīng)能改變無(wú)人機(jī)的飛行狀態(tài),進(jìn)而實(shí)時(shí)調(diào)整飛行路徑。因此,本文采取加速度值ak和傾斜角φk作為行動(dòng)值。在本時(shí)刻采取1組行動(dòng)值,在下一時(shí)刻就可以改變無(wú)人機(jī)的狀態(tài)。行動(dòng)空間Ak=(ak,φk)。
1.2.3 觀測(cè)和觀測(cè)率
無(wú)人機(jī)獲得的觀測(cè)值由于設(shè)備誤差和環(huán)境干擾通常是包含噪聲的。因此,觀測(cè)方程可以定義為狀態(tài)Sk和觀測(cè)噪聲ηk的函數(shù),如(1)式所示
zk=h(Sk)+ηk
(1)
傳感器所獲得的觀測(cè)量是目標(biāo)相對(duì)于無(wú)人機(jī)的距離和方位角信息[11-12]。因此,將h(Sk)定義為:
(1)式中,ηk為傳感器的觀測(cè)噪聲序列,探測(cè)目標(biāo)信息的過(guò)程中,ηk的分布與無(wú)人機(jī)和目標(biāo)的位置相關(guān),當(dāng)無(wú)人機(jī)和目標(biāo)距離較近時(shí),觀測(cè)噪聲小,觀測(cè)精度高,當(dāng)距離較遠(yuǎn)時(shí),空間內(nèi)各種噪聲較大,觀測(cè)的誤差較大。ηk的協(xié)方差可以表示為
Rk=R(xk,ξk)
(3)
0
式中,Mk=cos(φk)-sin(φk)
sin(φk)cos(φk)。
1.2.4 狀態(tài)轉(zhuǎn)移規(guī)律
狀態(tài)轉(zhuǎn)移規(guī)律是指在當(dāng)前時(shí)刻下的狀態(tài)在采取行動(dòng)后到下一時(shí)刻的變化規(guī)律。對(duì)于定義的3個(gè)子系統(tǒng),分別對(duì)其狀態(tài)轉(zhuǎn)移規(guī)律進(jìn)行定義。
1) 無(wú)人機(jī)的狀態(tài)轉(zhuǎn)移規(guī)律定義為:
xk+1=Ψ(xk,Ak)
(5)
對(duì)函數(shù)Ψ定義的過(guò)程,就是設(shè)計(jì)行動(dòng)值對(duì)無(wú)人機(jī)狀態(tài)進(jìn)行控制的方法的過(guò)程,即無(wú)人機(jī)在k時(shí)刻基于狀態(tài)xk采取行動(dòng)值A(chǔ)k=(ak,φk),在k+1時(shí)刻到達(dá)狀態(tài)xk+1的控制邏輯,本文采取的映射關(guān)系如下:
θk
(6)
(7)
θk+1=θk+(gTtanφk)vk
(8)
vk+1=vk+akT
(9)
vk+1=max{vmin,min{vmax,vk+1}}
(10)
(6)~(10)式分別求解出下一時(shí)刻無(wú)人機(jī)的位置和速度,式中g(shù)為重力加速度值,T為2個(gè)時(shí)刻之間的采樣周期。在實(shí)際情況中無(wú)人機(jī)的速度存在上下限,采用(10)式對(duì)無(wú)人機(jī)速度的大小值進(jìn)行了限制。
2) 目標(biāo)的狀態(tài)轉(zhuǎn)移規(guī)律定義為:
ζk+1=f(ζk)+wk
(11)
式中,wk表示獨(dú)立同分布的噪聲序列,在本文中設(shè)定為零均值的高斯噪聲,f表示目標(biāo)的運(yùn)動(dòng)模型。
在已有的基于POMDP的無(wú)人機(jī)路徑規(guī)劃問(wèn)題中,多將目標(biāo)的運(yùn)動(dòng)模型假設(shè)為單一的運(yùn)動(dòng)模型,這對(duì)于研究POMDP的求解算法大有助益。但是在實(shí)際情況下地面目標(biāo)不可能保持單一的運(yùn)動(dòng)形式,運(yùn)動(dòng)過(guò)程中受到地形和態(tài)勢(shì)影響必然會(huì)存在各種機(jī)動(dòng),運(yùn)動(dòng)目標(biāo)的動(dòng)態(tài)模型比較復(fù)雜,傳統(tǒng)的單一模型的定位跟蹤算法不能實(shí)現(xiàn)良好的定位跟蹤。采用交互式多模型算法(interacting multiple model,IMM)可以較好地解決這個(gè)問(wèn)題[13-14]。
IMM的原理是將系統(tǒng)的運(yùn)動(dòng)模式映射為模型集,基于每個(gè)運(yùn)動(dòng)模型構(gòu)建一個(gè)濾波器,所有模型的濾波器并行工作,利用每個(gè)濾波器輸出的殘差信息以及各模型的先驗(yàn)信息,依據(jù)假設(shè)檢驗(yàn)規(guī)則,得出每個(gè)濾波器所對(duì)應(yīng)的模型為當(dāng)前時(shí)刻系統(tǒng)匹配模型的概率(稱為模型概率),系統(tǒng)的狀態(tài)估計(jì)是各模型濾波器估計(jì)的概率加權(quán)融合。
依據(jù)IMM,狀態(tài)方程(11)式和量測(cè)方程(1)可以改寫(xiě)為(12)式。
ζk+1=f(ζk,mk)+w(k,mk)
zk=h(Sk,mk)+η(k,mk)
(12)
式中,mk是采樣時(shí)刻k的有效模式,設(shè)系統(tǒng)模型集M={m1,m2,…,mr},模型的轉(zhuǎn)換過(guò)程符合馬爾可夫過(guò)程。
濾波狀態(tài)(ξk,Pk)的轉(zhuǎn)移規(guī)律按所采取的濾波算法確定。由于系統(tǒng)方程和觀測(cè)方程為非線性方程,本文使用無(wú)跡卡爾曼濾波(UKF)算法,具體IMM-UKF濾波算法在1.2.6節(jié)介紹信念狀態(tài)時(shí)一并介紹。
1.2.5 代價(jià)函數(shù)
代價(jià)函數(shù)表示在某個(gè)狀態(tài)下采取某一行動(dòng)所付出的代價(jià)值。本文采用無(wú)人機(jī)在當(dāng)前狀態(tài)下采取行動(dòng)后,目標(biāo)狀態(tài)和濾波狀態(tài)之間的均方誤差值作為代價(jià)函數(shù),代價(jià)函數(shù)可以表述為:
C(ζk,Ak)=Eηk+1,wk[‖ζk+1-ξk+1‖2|ζk,Ak]
(13)
1.2.6 信念狀態(tài)和IMM-UKF算法
UKF和標(biāo)準(zhǔn)卡爾曼濾波都屬于線性最小方差估計(jì),算法都基于模型。標(biāo)準(zhǔn)卡爾曼濾波確定最佳增益陣時(shí),使用了觀測(cè)量的先驗(yàn)信息和一步預(yù)測(cè)均方誤差陣,并基于系統(tǒng)和觀測(cè)均為線性的假設(shè)。UKF根據(jù)估計(jì)量和觀測(cè)量的協(xié)方差陣來(lái)確定最佳增益陣,協(xié)方差陣根據(jù)復(fù)現(xiàn)的一倍σ樣本點(diǎn)計(jì)算,所以UKF在計(jì)算最佳增益陣的過(guò)程中未對(duì)系統(tǒng)方程和觀測(cè)方程提出任何附加條件,算法既適用于線性對(duì)象,也適用于非線性對(duì)象。
1) 模型交互
∑ri=1
(14)
2) 模型條件濾波
UKF的算法步驟如下:
①計(jì)算k-1時(shí)刻的2n+1個(gè)σ樣本點(diǎn),n為ζ的維數(shù),本文中n=4。
k-1
(15)
②確定權(quán)值
λn+λ
(16)
上式中,γ=n+λ,λ=α2(n+κ)-n,其中α是很小的正數(shù),可以取10-4≤α≤1,本文中取1;κ=3-n;β取值與ζ的分布形式有關(guān),對(duì)于本文中的采用的正態(tài)分布,β=2為最優(yōu)值。(15)式中(Pk-1)(i)表示矩陣Pk-1的下三角分解平方根的第i列。
③計(jì)算k時(shí)刻的一步預(yù)測(cè)模型值
(17)
(19)
(19)式中Qk為(12)式中wk的方差陣。
④計(jì)算k時(shí)刻的一步預(yù)測(cè)樣本點(diǎn)
i=n+1,n+2,…,2n
(20)
⑤更新量測(cè)
(21)
(23)
(24)
⑥濾波更新
增益矩陣為:
濾波值為:
k=k/k-1+Kk[zk-k/k-1]
(26)
3) 模型概率更新
(28)
對(duì)于各個(gè)模型j=1,2,…r,計(jì)算模型概率
4) 估計(jì)融合
計(jì)算k時(shí)刻的總體估計(jì)和誤差協(xié)方差矩陣,分別為:
k=∑ri=1
POMDP模型的濾波狀態(tài)根據(jù)融合的估計(jì)值得以更新,即ξk=k。繼而,信念狀態(tài)得到更新ζ)=Ν(ζ-ξk,Pk)。
在無(wú)人機(jī)跟蹤目標(biāo)的路徑規(guī)劃POMDP模型中,目的是求解出一系列的最優(yōu)行動(dòng)值,讓未來(lái)行動(dòng)代價(jià)的累加值能夠最小。由于無(wú)人機(jī)飛行的環(huán)境變化很快,對(duì)于較長(zhǎng)時(shí)間后未來(lái)狀態(tài)的預(yù)測(cè)無(wú)實(shí)際意義,因此只考慮未來(lái)H時(shí)限內(nèi)的狀態(tài)預(yù)測(cè)和行動(dòng)策略求解,按照代價(jià)函數(shù)的定義,H時(shí)限內(nèi)的行動(dòng)代價(jià)的累加值可以表述為:
JH=E∑H-1k=0C(ζk,Ak)
(31)
由于狀態(tài)ζk不完全可觀測(cè),只能求解得到信念狀態(tài)分布,所以(31)式可以改寫(xiě)為:
JH=E∑H-1k=0C(bk,Ak)
(32)
式中
(33)
根據(jù)貝爾曼公式,在當(dāng)前信念狀態(tài)b0下,最優(yōu)目標(biāo)函數(shù)可以寫(xiě)為
(34)
(35)
根據(jù)貝爾曼公式,在k=0時(shí)刻的最優(yōu)行動(dòng)策略可以表述為
,A)
(36)
(37)
基于上述假設(shè),NBO方法的核心可以被概括為如下公式:
J*(b)≈min∑kC(k,Ak)
(38)
①設(shè)系統(tǒng)噪聲和觀測(cè)噪聲的均值均為0,則(1)式和(11)式可以寫(xiě)為
ζk+1=f(ζk)+wk,wk~Ν(0,Qk),
zk=h(Sk)+ηk,ηk~N(0,Rk)
(39)
bk+1=Φ(bk,Ak,ηk+1,wk)?k+1=Φ(k,Ak,0,0),
(40)
③用名義信念狀態(tài)序列來(lái)代替信念狀態(tài)的期望值,即
JH(b0)=Eb1,…,bH∑Hk=1C(bk,Ak)?
JH(b0)≈∑Hk=1C(k,Ak)
(41)
④根據(jù)(41)式求最優(yōu)行動(dòng)序列(A0,…,AH-1)。以min∑Hk=1C(k,Ak)為目標(biāo)函數(shù),以Ak的取值范圍為約束條件,求解過(guò)程可以轉(zhuǎn)化為一個(gè)標(biāo)準(zhǔn)的最優(yōu)化問(wèn)題,這里采用matlab中的fmincon函數(shù)來(lái)實(shí)現(xiàn)。
基于上述通用步驟,結(jié)合無(wú)人機(jī)目標(biāo)跟蹤路徑規(guī)劃的特點(diǎn),設(shè)計(jì)基于IMM-UKF的無(wú)人機(jī)行動(dòng)序列NBO求解算法如下。
ζ)=N(ζ-k,k)
(42)
由于預(yù)測(cè)時(shí)限H不長(zhǎng),所以認(rèn)為在預(yù)測(cè)時(shí)限內(nèi)目標(biāo)均按照當(dāng)前的匹配模型Fk運(yùn)動(dòng),因此基于匹配模型Fk和k,通過(guò)(44)式可以遞推出預(yù)測(cè)時(shí)限內(nèi)各個(gè)時(shí)刻的。
k+1=Fkk
(44)
在預(yù)測(cè)過(guò)程中,沒(méi)有量測(cè)信息輸入,因此協(xié)方差矩陣的名義信念狀態(tài)k可以通過(guò)克拉美羅下界來(lái)進(jìn)行估計(jì)。
k+1=[(Fk
(45)
式中,Hk是量測(cè)函數(shù)h(Sk)對(duì)Sk求導(dǎo)得到的雅各比矩陣。
最后,根據(jù)代價(jià)函數(shù)的近似計(jì)算公式(37),將預(yù)測(cè)時(shí)限內(nèi)遞推得到的名義信念狀態(tài)序列k帶入(41)式,獲得預(yù)測(cè)時(shí)限內(nèi)的行動(dòng)代價(jià)累加值,并以此為目標(biāo)函數(shù)通過(guò)fmincon函數(shù)求得最優(yōu)行動(dòng)序列(A0,…,AH-1),取A0為當(dāng)前時(shí)刻的行動(dòng)策略并執(zhí)行,則無(wú)人機(jī)狀態(tài)改變,根據(jù)下一時(shí)刻的狀態(tài)再執(zhí)行IMM-UKF濾波,并重復(fù)上述步驟進(jìn)行策略求解,不斷往復(fù),利用各個(gè)時(shí)刻求取的行動(dòng)策略調(diào)整無(wú)人機(jī)狀態(tài),完成跟蹤目標(biāo)的路徑規(guī)劃。
本文在MTALAB環(huán)境下編寫(xiě)仿真程序,以無(wú)人機(jī)對(duì)單目標(biāo)跟蹤為背景進(jìn)行仿真,基于跟蹤的位置誤差均值和無(wú)人機(jī)飛行軌跡對(duì)算法進(jìn)行分析。目標(biāo)的運(yùn)動(dòng)模型集合包括勻速直線運(yùn)動(dòng),勻速左轉(zhuǎn)彎運(yùn)動(dòng)和勻速右轉(zhuǎn)彎3種運(yùn)動(dòng)。
單次仿真時(shí)間300 s,目標(biāo)從(0,0)點(diǎn)開(kāi)始沿水平軸方向勻速運(yùn)動(dòng)60 s,之后進(jìn)行勻速左轉(zhuǎn)彎運(yùn)動(dòng)60 s,再勻速直線運(yùn)動(dòng)60 s,之后再完成勻速右轉(zhuǎn)彎運(yùn)動(dòng)60 s,最后再完成勻速直線運(yùn)動(dòng)60 s。
圖1 目標(biāo)狀態(tài)估計(jì)和無(wú)人機(jī)路徑規(guī)劃
圖2 基于IMM的位置誤差均值
對(duì)基于IMM方法所建立的POMDP模型,分別在預(yù)測(cè)時(shí)限H=3和H=4的情況下各仿真30次,仿真結(jié)果如圖1、圖2和圖3所示,從圖1中可以看出無(wú)論是預(yù)測(cè)時(shí)限H=3和H=4,無(wú)人機(jī)在整個(gè)仿真過(guò)程中均能夠跟蹤目標(biāo),并圍繞目標(biāo)飛行。對(duì)比圖1a)和圖1b)可以發(fā)現(xiàn),較之于H=3,在H=4時(shí),行動(dòng)策略所產(chǎn)生的無(wú)人機(jī)飛行軌跡更加平穩(wěn),圍繞目標(biāo)飛行的波動(dòng)較小,這充分體現(xiàn)出了POMDP的遠(yuǎn)期代價(jià)計(jì)算特點(diǎn),在當(dāng)前狀態(tài)下對(duì)目標(biāo)未來(lái)狀態(tài)進(jìn)行預(yù)測(cè)能夠讓無(wú)人機(jī)對(duì)目標(biāo)的行為有了預(yù)判,進(jìn)而再計(jì)算出的行動(dòng)策略能根據(jù)預(yù)測(cè)結(jié)果得到最優(yōu)值,預(yù)測(cè)時(shí)限越長(zhǎng),策略越好。
圖2a)反映了各次仿真中每一仿真時(shí)刻的位置誤差平均值,從圖中可以看出,不論H=3或H=4,整個(gè)仿真過(guò)程中濾波結(jié)果和目標(biāo)真實(shí)位置之間的位置誤差波動(dòng)不是很大,在60 s、120 s、180 s、240 s等目標(biāo)運(yùn)動(dòng)規(guī)律發(fā)生變化的時(shí)刻,位置誤差均值并沒(méi)有顯著增加,說(shuō)明采用IMM方法,無(wú)人機(jī)能夠判斷出目標(biāo)的運(yùn)動(dòng)模型切變,在POMDP框架下對(duì)目標(biāo)未來(lái)的遠(yuǎn)期狀態(tài)進(jìn)行預(yù)判,利用NBO方法求解的行動(dòng)策略能夠讓無(wú)人機(jī)識(shí)別目標(biāo)的運(yùn)動(dòng)規(guī)律而保持對(duì)目標(biāo)的近距離跟蹤。圖3為各個(gè)時(shí)刻交互多模型集中各個(gè)模型的概率值,其中,P-CV代表勻速直線運(yùn)動(dòng)的概率值,P-CTL代表勻速左轉(zhuǎn)彎運(yùn)動(dòng)的概率值,P-CTR代表勻速右轉(zhuǎn)彎運(yùn)動(dòng)的概率值。圖2b)反映了各次仿真整個(gè)過(guò)程的位置誤差平均值,從整體上可以看出可H=4時(shí)的位置誤差均值略小于H=3時(shí)的值,表1中的確切數(shù)據(jù)也反映了這一現(xiàn)象。H=4時(shí)位置誤差均值為2.228 9,僅略小于H=3時(shí)的2.282 2,這在說(shuō)明了POMDP模型決策遠(yuǎn)期性的同時(shí)也要求在設(shè)計(jì)預(yù)測(cè)時(shí)限時(shí)需要綜合考慮計(jì)算開(kāi)銷和獲得效果之間的平衡點(diǎn)。
表1 位置誤差均值
圖3 IMM中各個(gè)模型的概率值
圖4 基于CV模型的飛行軌跡和位置誤差均值
為了對(duì)比IMM方法,在同樣條件下進(jìn)行了僅采用勻速直線運(yùn)動(dòng)的一種運(yùn)動(dòng)模型的仿真30次。圖4顯示的是基于勻速直線運(yùn)動(dòng)(CV)模型的飛行軌跡和位置誤差均值。UKF濾波和NBO算法預(yù)測(cè)中對(duì)目標(biāo)的狀態(tài)估計(jì)僅使用勻速直線運(yùn)動(dòng)這一種模型。從圖4a)中可看出,在目標(biāo)進(jìn)行從直行進(jìn)入轉(zhuǎn)彎運(yùn)動(dòng)的過(guò)程中,無(wú)人機(jī)的飛行明顯偏離了目標(biāo)的運(yùn)動(dòng)軌跡,同時(shí)在圖4b)中可以看出在目標(biāo)進(jìn)行左轉(zhuǎn)彎運(yùn)動(dòng)和右轉(zhuǎn)彎運(yùn)動(dòng)時(shí),位置誤差明顯增大。從表1中也可以看出在整個(gè)仿真過(guò)程中僅采用CV模型的位置誤差均值3.423 7遠(yuǎn)大于采用IMM算法的結(jié)果。在真實(shí)情況中,如果位置誤差超過(guò)無(wú)人機(jī)傳感器的有效探測(cè)距離,很有可能導(dǎo)致跟蹤失敗,為了驗(yàn)證,在相同情況下,將(3)式中的傳感器測(cè)距不確定性m增大2%再進(jìn)行仿真,結(jié)果如圖5所示。
圖5 CV模型下增大量測(cè)誤差后仿真結(jié)果
在目標(biāo)進(jìn)行右轉(zhuǎn)彎?rùn)C(jī)動(dòng)時(shí),無(wú)人機(jī)丟失目標(biāo),跟蹤失敗。
對(duì)比圖2a)和圖4b),說(shuō)明基于IMM的無(wú)人機(jī)路徑規(guī)劃POMDP模型能夠有效提高跟蹤精度,使得規(guī)劃的無(wú)人機(jī)路徑更加貼合目標(biāo)的運(yùn)動(dòng),避免出現(xiàn)丟失目標(biāo)的情況。
綜上所述,在POMDP模型的狀態(tài)轉(zhuǎn)移規(guī)律中使用交互多模型機(jī)制能夠比單一模型有效提高跟蹤精度,能夠保證無(wú)人機(jī)對(duì)機(jī)動(dòng)目標(biāo)跟蹤的路徑規(guī)劃求解。
本文從無(wú)人機(jī)跟蹤地面機(jī)動(dòng)目標(biāo)需求出發(fā),針對(duì)無(wú)人機(jī)跟蹤目標(biāo)任務(wù)中的路徑規(guī)劃問(wèn)題,引入POMDP理論,構(gòu)建了基于POMDP的無(wú)人機(jī)在線路徑規(guī)劃決策模型。根據(jù)目標(biāo)運(yùn)動(dòng)規(guī)律的多樣性,使用了交互多模型(IMM)的方法描述狀態(tài)轉(zhuǎn)移規(guī)律并基于IMM-UKF算法來(lái)更新信念空間。為實(shí)現(xiàn)模型在線求解,引入了NBO算法,求解的行動(dòng)策略能夠?qū)崟r(shí)完成無(wú)人機(jī)的運(yùn)動(dòng)調(diào)整和路徑規(guī)劃。仿真結(jié)果驗(yàn)證了本文所建立的無(wú)人機(jī)路徑規(guī)劃模型的有效性。
參考文獻(xiàn):
[1] Wang Z, Zheng M, Guo J, et al. Uncertain UAV ISR Mission Planning Problem with Multiple Correlated Objectives[J]. Journal of Intelligent & Fuzzy Systems, 2017, 32(1): 321-335
[2] 陳宗基,張汝麟,張平,等. 飛行器控制面臨的機(jī)遇與挑戰(zhàn)[J]. 自動(dòng)化學(xué)報(bào),2013,39(6):703-710
Chen Zongji, Zhang Rulin, Zhang Ping, et al. Flight Control: Challenges and Opportunities[J]. Acta Automatica Sinica, 2013,39(6):703-710 (in Chinese)
[3] 張耀中,張建東,史國(guó)慶. 無(wú)人機(jī)警戒雷達(dá)仿真系統(tǒng)的建模與仿真[J]. 火力與指揮控制,2016,41(2):93-96
Zhang Yaozhong, Zhang Jiandong, Shi Guoqing. Research on Modeling and Simulation of UAV Warning Radar[J]. Fire Control & Command Control, 2016,41(2): 93-96 (in Chinese)
[4] Ragi Shankarachary, Chong Edwin K P. UAV Path Planning in a Dynamic Environment via Partially Observable Markov Decision Process [J]. IEEE Trans on Aerospace And Electronic Systems, 2013,49(4):2397-2412
[5] Ponzoni Carvalho Chanel, Caroline, Teichteil K?nigsbuch. POMDP-Based Online Target Detection and Recognition for Autonomous UAVs[C]∥The 20th European Conference on Artificial Intelligence (ECAI), 2012
[6] Ragi Shankarachary, Chong Edwin K P. Decentralized Control of Unmanned Aerial Vehicles for Multitarget Tracking[C]∥2013 International Conference on Unmanned Aircraft Systems, 2013: 260-268
[7] Cork L, Walker R. Sensor Fault Detection for UAVs Using a Nonlinear Dynamic Model and the IMM-UKF Algorithm[C]∥Information, Decision and Control, 2007: 230-235
[8] 藏榮春,崔平遠(yuǎn),崔祜濤,等. 基于IMM-UKF的組合導(dǎo)航算法[J]. 控制理論與應(yīng)用,2007,24(4):634-638
Zang Rongcui, Cui Pingyuan, Cui Hutao, et al. Integrated Navigation Algorithm Based on IMM-UKF[J]. Control Theory & Applications, 2007, 24(4): 634-638 (in Chinese)
[9] 萬(wàn)開(kāi)方,高曉光,李波,等. 基于部分可觀察馬爾可夫決策過(guò)程的多被動(dòng)傳感器組網(wǎng)協(xié)同反隱身探測(cè)任務(wù)規(guī)劃[J]. 兵工學(xué)報(bào),2015,36(4):731-743
Wan Kaifang, Gao Xiaoguang, Li Bo, et al. Mission Planning of Passive Networked Sensors for Cooperative Anti-stealth Detection Based on POMDP[J]. Acta Armamentarii, 2015,36(4): 731-743 (in Chinese)
[10] Miller Scott A, Harris Zachary A, Chong Edwin K P. A POMDP Framework for Coordinated Guidance of Autonomous UAVs for Multitarget Tracking [J]. EURASIP Journal on Advances in Signal Processing, 2009, 2009(1): 1-17
[11] Gong S L, Wang B F, Honglan W U, et al. Tracking of Moving Targets on Airport Surface Based on IMM Algorithm[J]. Systems Engineering & Electronics, 2011, 33(10):2322-2326
[12] Wang D, Lv H, Wu J. In-Flight Initial Alignment for Small UAV MEMS-Based Navigation via Adaptive Unscented Kalman Filtering Approach[J]. Aerospace Science & Technology, 2017, 61:73-84
[13] Cui N, Hong L, Layne J R. A Comparison of Nonlinear Filtering Approaches with an Application to Ground Target Tracking[J]. Signal Processing, 2005, 85(8):1469-1492
[14] Ragi Shankarachary, Chong Edwin K P. Decentralized Guidance Control of UAVs with Explicit Optimization of Communication[J]. Journal of Intelligent & Robotic Systems, 2014,73(1):811-822