徐公國,單甘霖?,段修生
(1.陸軍工程大學石家莊校區(qū),石家莊050003;2.石家莊鐵道大學,石家莊050003)
現(xiàn)代戰(zhàn)爭呈現(xiàn)出網(wǎng)絡化和信息化的特點,傳感器管理的作用日益增大[1-3]。作為傳感器管理的關鍵一環(huán),移動傳感器的調(diào)度問題越來越受到重視,其實質(zhì)上是非線性最優(yōu)化控制問題。通過對移動傳感器平臺的有效控制,可使傳感器時刻保持對目標良好的觀測性,從而獲取更好的量測數(shù)據(jù)和目標跟蹤精度。
現(xiàn)階段,移動傳感器調(diào)度問題的研究多集中在無線傳感器網(wǎng)絡(WSN)覆蓋控制和無人機(UAV)路徑規(guī)劃上,針對目標跟蹤下移動傳感器控制問題的研究還比較少。一般情況下,目標的運動和狀態(tài)變化規(guī)律可用馬爾科夫決策過程來描述。如文獻[4]利用部分可觀馬爾科夫決策過程(POMDP)對傳感器控制問題進行建模分析,采用目標狀態(tài)的先驗和后驗概率之間的信息散度作為代價函數(shù),該模型能夠有效解決傳感器移動調(diào)度問題,但增加了問題的復雜度。文獻[5]利用Fisher信息增益對被動式移動傳感器的調(diào)度問題進行了研究,并利用網(wǎng)格搜索策略來尋找問題的最優(yōu)解,但網(wǎng)格搜索速度較為緩慢??紤]目標數(shù)目的時變性,文獻[6-7]基于隨機集理論研究了多目標跟蹤下的傳感器調(diào)度問題。文獻[8]則基于隨機集理論進一步對機動目標跟蹤下的傳感器調(diào)度問題進行分析,并給出了信息理論下傳感器調(diào)度的一般方法。但是基于隨機集理論框架的控制方法對目標進行統(tǒng)一的探測與跟蹤,不能很好地對目標進行區(qū)分,沒有良好的針對性,容易造成傳感器大范圍的搖擺移動,能耗問題會偏大。
針對上述問題,考慮多目標跟蹤需求以及傳感器的運動能力,提出了一種面向目標跟蹤的基于PCRLB和目標優(yōu)先級的主動式移動傳感器長期調(diào)度方法。仿真實驗表明,本文所提模型能夠有效控制傳感器進行合理地移動,并能獲得更多的目標跟蹤收益。
如圖1所示,本文主要對面向目標跟蹤的主動式移動傳感器的調(diào)度問題進行研究,目標和傳感器均設定在二維平面內(nèi)運動,本節(jié)給出了二維坐標下的目標運動模型、傳感器運動模型和量測模型。此外,依據(jù)貝葉斯濾波理論,給出了移動傳感器的長期控制模型,下面進行具體分析。
圖1 移動傳感器調(diào)度示意圖
假設在x-o-y偵察區(qū)域內(nèi),有N個主動式傳感器資源,M個被探目標。假設目標運動模型為CV模型,則目標m(m=1,2,…,M)在 k時刻的狀態(tài)方程可表示為:
式中:Fm為目標的狀態(tài)轉(zhuǎn)移矩陣,Γm為噪聲增益矩陣,wmk-1~N(0,Qm)是服從高斯分布的狀態(tài)轉(zhuǎn)移噪聲。在二維CV模型下,狀態(tài)xmk=[xmkx?mkymky?mk]T,分別表示目標在x和y方向上的位置和速度信息。
由于傳感器機動能力的限制,定義每一時刻傳感器的移動步長為L,傳感器可移動的方向為λ個。如圖2所示,傳感器在每個時刻的位置變化矢量集合為 θΛ={a1,a2,…,aλ},其中 ai是在以傳感器單步移動距離L為半徑的圓上等分而來,在λ等分的情況下,位置變化矢量ai可由式(2)計算而來:
圖2 傳感器單步移動示意圖
參數(shù)λ反映了對傳感器運動模型刻畫的精細程度,但當λ過大時,進行長期預測的計算復雜度會快速增加,為加快問題的優(yōu)化速度,一般情況下λ取4或8。二維平面內(nèi),主動式傳感器一般選取目標的斜距離、方位角作為量測信息,若傳感器n在k-1時刻的調(diào)度動作為Ank-1∈θΛ,則傳感器 n(n=1,2,…,N)在k時刻的對目標m的量測方程可表示為:
式中:hn(·)為非線性量測方程,vnk~N(0,Rn)是服從高斯分布的量測噪聲,vnk,r、vnk,θ分別為斜距離、方位角的量測噪聲,rmk,n、θmk,n分別為目標到傳感器的斜距離和方位角,具體計算方法為:
式中:xns,k和 yns,k為傳感器n在k時刻的位置坐標,傳感器位置坐標[xns,k,yns,k],且滿足以下遞推公式:
需要注意的是,傳感器n的位置發(fā)生變化,相應的量測方程hn(·)在調(diào)度過程中也會變化。考慮到量測方程為非線性方程,容積卡爾曼濾波(CKF)算法對處理非線性系統(tǒng)有著良好的性能且比較成熟,故本文采用CKF對目標狀態(tài)進行濾波更新,具體步驟參見文獻[9],這里就不再展開分析。
傳感器預測控制存在短期和長期之分,短期調(diào)度只以當前時刻的收益最大化為目標,而忽略當前動作對未來收益的影響。長期調(diào)度則考慮未來一段時域內(nèi)的整體收益,該策略對未來狀態(tài)進行預測,以求全時域內(nèi)的收益最大化。
已知在k時刻內(nèi),傳感器n的調(diào)度動作Ank,目標m的量測值zmk,n,目標m的狀態(tài)xmk,滿足以下關系:
式中:p(·|xmk-1),p(·|xmk,Ank-1)為狀態(tài)轉(zhuǎn)移函數(shù)和量測似然函數(shù),π0為狀態(tài)初始分布概率,則目標m在k時刻的狀態(tài)分布滿足以下貝葉斯遞推公式:
因此,可通過濾波預測對移動傳感器的長期調(diào)度問題進行建模分析。移動傳感器具體調(diào)度過程如圖3所示。
圖3 移動傳感器調(diào)度過程示意圖
定義傳感器n在移動過程中跟蹤目標m時的優(yōu)化目標函數(shù)為Rk(xmk,Ank),即為優(yōu)化過程中的收益函數(shù),其依據(jù)具體任務需求來確定,可以為跟蹤精度、能耗等。進一步,假設傳感器n在時域T內(nèi)的調(diào)度動作序列為 A1n:T= {An1,A2n,…,AnT}∈θΛ,令傳感器在時域T上的長期收益為累積單步收益的期望值,此時傳感器n的移動調(diào)度問題就轉(zhuǎn)化為了以下最優(yōu)化問題:
進而傳感器最優(yōu)調(diào)度指令的選擇問題就可描述為:在 k時刻通過濾波預測,選擇使目標函數(shù)Υ(An1:T)最優(yōu)的傳感器移動軌跡,最優(yōu)調(diào)度動作序列可由式(9)計算得出。
獲得最優(yōu)調(diào)度動作序列An1:,?T之后,在實際應用時,一般有兩種執(zhí)行策略:一種是執(zhí)行完A1n,
:T?動
作序列中的所有動作,稱為開環(huán)控制;另一種,類似于滑窗的形式,只執(zhí)行最優(yōu)序列An1:,?T中第一個動作,然后重新進行預測優(yōu)化,獲取新的An1,:T?′,稱為閉環(huán)控制。如圖4所示,由于閉環(huán)控制能夠?qū)崟r從調(diào)度動作中獲取新的反饋信息,對目標狀態(tài)的估計也就更準確,故本文采用閉環(huán)方式進行傳感器移動控制。
圖4 控制指令執(zhí)行策略
傳感器移動控制的目的是通過預測來事先進行傳感器機動,進而減少目標狀態(tài)的不確定性,提高目標跟蹤的精度。后驗克拉美-羅下界(PCRLB)給出了目標狀態(tài)估計的預測誤差的理論下界,適用于傳感器資源的調(diào)度管理。例如,文獻[10-11]基于PCRLB對多傳感器資源的部署問題進行了研究,分析不同布站方式下對目標PCRLB的影響。文獻[12-13]則基于PCRLB對無線傳感器網(wǎng)絡中的選擇策略進行了研究,并取得了良好的跟蹤效果。
已知,對于目標m的狀態(tài)xmk+1,其均方誤差下界滿足:式中:^xmk為目標m的狀態(tài)估計,Jk+1為Fisher信息矩陣,且滿足以下遞推公式:
式中:
式中:Hnk+1非線性量測方程 hn(·)的雅可比矩陣,已知hn(·)隨著傳感器位置的變化會發(fā)生改變,相應的PCRLB也會發(fā)生變化。因此,可以通過優(yōu)化PCRLB來選擇傳感器的最佳位置變化,從而獲取最優(yōu)的移動軌跡。此外,由于在目標跟蹤過程中更重視目標的位置量,故本文選擇目標位置分量的誤差邊界和作為優(yōu)化目標函數(shù),即有:
式中:J-k+11[1,1]和 J-k+1
1[3,3]分別為目標在 x 和 y 方向上的均方誤差下界。PCRLB描述的目標位置誤差的下界,應該越小越好,故此時式(8)中的最優(yōu)化問題應為最小化問題。
多目標跟蹤場景下,有限的傳感器資源可能無法滿足所有目標的跟蹤需求,這就需要區(qū)分目標的重要程度,以便對重點目標優(yōu)先跟蹤。目標優(yōu)先級的確定實質(zhì)上是一個多屬性決策問題,通常目標威脅程度越大,目標優(yōu)先級越高。
進行目標威脅度判斷,目標的移動速度、目標與我方陣地的距離以及目標的類型往往是重點考慮的目標屬性。故定義目標m的優(yōu)先級函數(shù)為Prm(Vm,Lm,Tym),其中Vm是目標速度,Lm是目標距離,Tym是目標類型。目標優(yōu)先級的具體計算方法參見文獻[14],當求出多個目標的優(yōu)先級函數(shù)值后,按照式(13)的歸一化方法求出目標m的重要程度:
式中:Pri為目標i的優(yōu)先級函數(shù)值,1≤i≤M。
綜上,當考慮目標跟蹤誤差下界和目標優(yōu)先級時,傳感器n在時域T內(nèi)的優(yōu)化目標函數(shù)應為:
最優(yōu)調(diào)度動作序列 An,?1:T則由以下公式計算得出:
如圖5所示,當移動傳感器的預測優(yōu)化步長T>1時,由于傳感器在每一時刻都有λ個移動選擇,該問題可抽象為深度為T、分支為λ的決策樹問題。決策樹中各分支的權重為該移動方向所對應的Υ(An1:T),獲取最佳的傳感器組合也就轉(zhuǎn)化為搜索決策樹中Υ(An1:T)(目標函數(shù))最小的分支路徑。
當步長T較大時,搜索空間會呈現(xiàn)指數(shù)型增長,問題求解速度會變緩。為加快求解速度,這里引入分支剔除技術來減少搜索空間。常用的分支剔除技術有平滑窗法和閾值法,本文針對移動傳感器移動控制問題的特點,在標準代價搜索的基礎上,利用閾值剔除搜索技術來尋找問題的次優(yōu)解。其中,閾值δ≤1為分支取舍參數(shù),當某一節(jié)點所對應的目標函數(shù)值大于最優(yōu)目標函數(shù)值的1/(1+δ)倍時,則將該節(jié)點剔除,其后的節(jié)點也不再打開。通過剔除分支可有效達到減少搜索空間的目的,從而加快問題解的搜索速度。利用決策樹來進行問題求解,主要具有兩個方面的優(yōu)勢:一是可減少內(nèi)存開銷,降低硬件成本;二是不用進行重復濾波預算,節(jié)點的濾波值可被后面所有的節(jié)點用來進行濾波。
圖5 決策樹
基于閾值δ分支剔除的傳感器移動控制求解算法的具體步驟如算法1所示。
算法1 基于閾值δ剔除的傳感器移動控制算法
在該場景中,面向單個運動目標,對移動傳感器的調(diào)度問題進行研究,分析優(yōu)化時域步長T對傳感器調(diào)度序列和跟蹤性能的影響,驗證所提長期調(diào)度方法的有效性。
實驗參數(shù)設置:采樣間隔 t=1 s,采樣時間Simtime=50 s。目標運動模型為CV模型,目標初始狀態(tài)為 x0=[2000,50,4500,-50]Tm,噪聲協(xié)方差矩陣 Q=diag[20,5,20,5]m,狀態(tài)轉(zhuǎn)移和噪聲增益矩陣分別為:
傳感器可運動方向為4,即λ=4,移動步長為60 m,則移動指令有:a1=[0,60], a2=[0,-60], a3=[60,0],a2=[-60,0]。 此外,傳感器初始位置為[500,500]m,量測噪聲協(xié)方差矩陣為 R=diag[1002,0.52]m。
此外,為對比分析本文所提調(diào)度模型的有效性,實驗過程中同時采用傳感器位置固定策略SP(Stationary Policy)和恒定速度移動策略CVP(Constant Velocity Policy)進行跟蹤實驗。不失一般性,SP策略中傳感器位置位于[500,500]m,CVP策略中傳感器初始位置為[500,500]m,并按速度矢量為[60/2,60/2]m/s方向移動。對于本文所提基于PCRLB的長期調(diào)度策略,分別取優(yōu)化時域步長T為1(又稱為短期調(diào)度)、2、3進行實驗,實驗結(jié)果分別如圖6~圖8所示。
圖6 不同調(diào)度策略下的目標位置RMSE
圖6 為不同調(diào)度策略下目標估計位置的均方根誤差(RMSE)。由圖可見,相較于SP和CVP兩種調(diào)度策略,本文所提方法能較好控制傳感器的跟蹤誤差,跟蹤性能也更加優(yōu)越。且隨著優(yōu)化時域T的增加,傳感器對目標的估計誤差越來越小。原因在于優(yōu)化時域T越長,預測時間也就越長,就可使移動傳感器能夠提前運動到更好的位置,以至獲得更為準確的目標信息,目標的跟蹤精度也就會變高。
圖7 傳感器優(yōu)化軌跡對比圖
圖8 不同時域T下的RMSE均值
圖9 不同閾值下的決策樹平均展開節(jié)點數(shù)
圖10 不同閾值下的目標位置RMSE平均值
圖7 為本文方法在時域T=1、2、3時的傳感器移動軌跡對比圖??梢?,相較于短期調(diào)度,長期調(diào)度能夠更為準確地把握目標的運動趨勢,從而獲取更為合理的傳感器移動軌跡。
在前面的實驗中我們發(fā)現(xiàn),在長期調(diào)度策略中,預測優(yōu)化時域T較長時,移動傳感器的跟蹤效果較好。那是否預測時域步長T越長,傳感器對目標的跟蹤效果越好,對此我們做了大量的實驗,分析預測優(yōu)化時域T對跟蹤精度的影響。圖8為不同優(yōu)化時域T下,重復運行20次時的跟蹤誤差RMSE的平均值。
由圖8可見,跟蹤誤差RMSE并不是隨著T的增加而不斷減小。而是在T=6時出現(xiàn)了拐點,跟蹤誤差RMSE又開始增加。通過分析,原因在于進行跟蹤收益預測時,是根據(jù)假設的傳感器運動模型來推理的。但目標的實際運動情況與假設的模型會有所差異,且隨著預測時間的增加這種差異會越來越大。定義RMSE均值下降區(qū)間為正收益區(qū)間,在正收益區(qū)間內(nèi),隨著預測優(yōu)化時域T的增加,目標跟蹤誤差會減小。因此,在針對具體問題時,要先確定正收益區(qū)間,以便選擇合適的預測優(yōu)化時域T,在保證跟蹤收益的同時還要減少問題的計算復雜度。以本問題為例,取T=3比較好,因為此時問題的計算復雜度不高且能獲得較高的目標跟蹤精度。
此外,為尋找合適的閾值δ來有效減少搜索空間,保持時域步長T=3不變,在[0,1]內(nèi)取δ為不同值進行實驗,分析決策樹列表展開節(jié)點數(shù)和目標估計位置的RMSE全局平均值的變化情況,實驗結(jié)果如圖9和圖10所示。圖9為不同閾值δ下決策樹優(yōu)化時展開計算的節(jié)點個數(shù),可見隨著閾值δ的增加,展開節(jié)點數(shù)呈現(xiàn)不斷減少的趨勢,且在δ=0.4時,展開節(jié)點數(shù)有了大幅度的減少。圖10為不同閾值δ下目標估計位置RMSE全局平均值,可見隨著閾值δ的增加,RMSE平均值也在不斷增加,原因在于控制參數(shù)δ的控制范圍太小,使得優(yōu)勝解被剔除掉。且在δ=0.5時,RMSE平均值大幅增加。綜上所述,為有效減少搜索空間并保持較高的跟蹤精度,在本文實驗中取δ=0.4進行實驗。
在該場景中,面向多個運動目標,對移動傳感器的調(diào)度問題進行研究,驗證所提長期調(diào)度方法在多目標跟蹤場景下的適用性。
實驗參數(shù)設置:采樣間隔 t=1 s,采樣時間Simtime=50 s。目標數(shù)目為2,運動模型均為CV模型,目標 1 的初始狀態(tài)為 x10=[3000,30,4200,-30]Tm,目標 2 的初始狀態(tài)為 x20=[400,30,2400,35]Tm,傳感器初始位置調(diào)整為[2000,500]m,其他傳感器和目標參數(shù)與場景1保持一致。此外,分別取目標權重矩陣[W1,W2]為[0.5,0.5]、[0.8,0.2]、[0.2,0.8]進行實驗。實驗結(jié)果如表1、圖11~圖13所示。
表1為三種權重場景下不同優(yōu)化時域T時的目標跟蹤估計位置的 RMSE平均值,由表 1中的RMSE平均值的綜合值來看。當面對多目標跟蹤場景,在正收益區(qū)間內(nèi),長期調(diào)度的收益也高于短期調(diào)度收益,進一步證明了所提方法的有效性性。
圖11~圖13分別為三種權重場景下傳感器移動優(yōu)化軌跡圖。可見,當移動傳感器對多目標進行跟蹤時,本文所提方法能夠根據(jù)目標權重的不同,優(yōu)先對高權重目標進行跟蹤處理,從而獲取更多的目標跟蹤收益,體現(xiàn)了本文所提傳感器調(diào)度模型在多目標跟蹤場景下的適用性。
表1 不同權重下的目標位置RMSE平均值
圖11 權重[0.5,0.5]下的傳感器優(yōu)化軌跡圖
圖12 權重[0.8,0.2]下的傳感器優(yōu)化軌跡圖
圖13 權重[0.2,0.8]下的傳感器優(yōu)化軌跡圖
面向多目標跟蹤需求,提出了一種基于PCRLB和目標優(yōu)先級的主動式移動傳感器長期調(diào)度方法。該方法以目標跟蹤精度下界為調(diào)度目標,并采用目標優(yōu)先級來區(qū)分目標的重要程度,實現(xiàn)了傳感器的合理調(diào)度,并且能夠獲得更多的目標跟蹤收益。同時,為快速求解最佳的傳感器調(diào)度方案,在標準代價搜索的基礎上,利用閾值剔除技術來搜索問題的解,可有效減少搜索空間,加快求解速度。
后期,將考慮傳感器能耗問題,進一步完善傳感器運動模型,在跟蹤收益與能耗之間進行平衡,并實現(xiàn)多運動傳感器的協(xié)同跟蹤,使其更加貼近實際應用環(huán)境。