張昀普,單甘霖
陸軍工程大學石家莊校區(qū) 電子與光學工程系,石家莊 050003
隨著科學技術的發(fā)展,現代戰(zhàn)爭的主流已演變成以“網絡中心戰(zhàn)”為核心的信息戰(zhàn)爭,這也為傳感器系統的有效使用提出了更高的要求[1]。由于信息戰(zhàn)爭中作戰(zhàn)節(jié)點錯綜復雜,信息量巨大且形式多樣,傳感器系統往往在操作、部署位置和算法邏輯等多方面存在約束,致使系統處理信息的難度大大增加,因此,需要對傳感器系統進行有效的管理,以使作戰(zhàn)收益最大化。隨著傳感器管理理論研究不斷深入,人們開始將研究重點放在貝葉斯意義上的最優(yōu)管理方法上[2],截止目前,共發(fā)展為3類基于貝葉斯理論的傳感器管理方法,即基于任務的管理方法[3-4]、基于信息論的管理方法[5-6]和基于風險的管理方法[7]。
這3類方法均設定一個與作戰(zhàn)密切相關的目標函數以使所需求的收益達到最大。前兩種方法更多關注的是通過傳感器管理使一項或多項戰(zhàn)術指標達到最優(yōu),如目標跟蹤精度[8]、后驗克拉美羅下界[9]、Rényi信息增量等[10-11]。但在有些情況下,寧可不追求這些戰(zhàn)術指標的最優(yōu)值,也要使作戰(zhàn)風險達到最小。例如,文獻[12]指出,當對目標進行跟蹤時,利用前兩種管理方法可以得到極佳的目標跟蹤精度,但是如果不需要打擊目標,僅使傳感器不丟失目標即可,而不是一味地追求高的跟蹤精度,此時需通過傳感器管理使目標的丟失風險達到最小。因此,基于風險的管理方法將關注重點放在了控制作戰(zhàn)風險上,通常認為風險是由作戰(zhàn)決策所造成的潛在損失及其發(fā)生的概率所決定的,執(zhí)行傳感器管理的目的是降低作戰(zhàn)風險以使損失達到最小,該類方法具有良好的實際應用價值,已成為傳感器管理領域內的研究熱點。文獻[13]建立了面向目標檢測的風險模型,認為由于傳感器漏警概率的存在,在檢測時會產生相應的漏警風險,并提出一種基于最小貝葉斯風險的傳感器管理方法使漏警所造成的損失達到最低。文獻[14]研究了目標識別背景下的傳感器管理問題,認為識別結果的不準確性會導致指揮員做出錯誤的決策,從而產生相應的風險,并建立了基于觀測值校正的風險函數模型,提出了相應的傳感器管理方法。文獻[15]認為在對目標進行威脅評估時,目標的威脅度是一個與目標狀態(tài)相關的函數,并以威脅度分布的方差量化威脅評估風險。
但文獻[15]中僅以威脅度分布的方差量化威脅評估風險是不夠準確的,在實際中,對于目標威脅度不同程度的誤判所造成的損失應是不同的,例如在我方防御資源充足的情況下,當把高威脅的目標錯判為低威脅時,我方會對其分配較少的防御資源,從而可能使我方受到致命的火力打擊,但把低威脅的目標錯判為高威脅時,可能僅會造成一些防御資源的浪費,比上一種情況的損失要小得多。因此,在建立威脅度模型時,需將威脅度不確定性與誤判損失相結合,使模型更具有實際價值。
同時,以有源雷達為代表的主動傳感器作為獲取戰(zhàn)場信息的重要工具,其探測距離遠且具有較高的距離分辨力,可實現對目標的高精度量測,但在工作時會輻射電磁波,容易暴露位置,因此需要在執(zhí)行任務時對主動傳感器的輻射風險進行控制,以提高其戰(zhàn)場生存能力。合理量化傳感器的輻射狀態(tài)是控制輻射風險的前提,文獻[16-17]利用傳感器發(fā)射功率、目標回波功率和接收機接收靈敏度等參數計算出傳感器輻射被截獲的概率,并以此表示傳感器在每一時刻的輻射狀態(tài)。但在實際中目標參數很難獲取,故該方法的實用性較差。文獻[18-19]采用輻射度影響(Emission Level Impact,ELI)替代了截獲概率,其表示傳感器被敵方接收機累積接收的輻射量,在使用時不需要獲取目標相關參數,具有較好的實際應用價值。
針對上述問題,本文面向空中目標威脅評估任務,以多主動傳感器系統為研究對象,在不改變傳感器結構和空間位置的條件下,提出一種基于風險的多傳感器管理方法,旨在最小化由威脅評估結果的不準確性和傳感器輻射所帶來的潛在損失。首先建立了基于部分可觀馬爾可夫決策過程(Partially Observable Markov Decision Process,POMDP)的傳感器管理模型;然后提出了基于信息狀態(tài)的威脅評估風險和輻射風險的預測方法;并以二者加權和最小為優(yōu)化目標建立了長期目標函數,最后設計了一種基于分支定界的決策樹搜索算法以求解該問題。仿真結果證明了所提搜索算法和管理方法的有效性和合理性。
本文任務場景描述如圖1所示。假設我方共部署M個傳感器對N個空中目標進行威脅評估,并將獲取的量測信息發(fā)送給控制中心,我方控制中心制定相應的傳感器管理方案,并向整個傳感器系統發(fā)布命令以控制各傳感器工作。
由于在整個過程中傳感器的量測不確定性和目標運動狀態(tài)的隨機性,所以本文研究的傳感器管理問題是一個不確定信息下的決策問題,而POMDP是一種研究隨機環(huán)境下多階段決策的理論方法[20],故可以基于該理論對該問題進行建模,其基本組成要素分為系統動作、系統狀態(tài)、狀態(tài)轉移函數、系統觀測、觀測函數和收益函數。
考慮到傳感器在時間和空間上配準較為困難,為簡便計算,本文設定在同一時刻一部傳感器只能量測一個目標,且一個目標只能被一部傳感器所量測,則系統動作的約束可描述為
(1)
定義k時刻系統狀態(tài)Sk=[Xk,Ek],由目標的運動狀態(tài)和傳感器的輻射狀態(tài)組成。
(2)
Tn,k=[p(En,k=j|En,k-1=i)]i,j∈{0,1,…,Emax}
(3)
(4)
若該傳感器不工作,Tn,k為單位陣。
定義k時刻系統的觀測集合Zk=[ZXk,ZEk],由目標信息和傳感器瞬時輻射量的觀測值組成。
(5)
W(Zn,Ek=c)=[p(Zn,Ek=c|En,k=j,
En,k-1=i)]i,j∈{0,1,…,Emax}c∈{0,1,…,Cmax}
(6)
若該傳感器不工作,其觀測矩陣為單位陣。
傳感器管理的核心在于對未來時刻內的收益進行預測,并以收益達到最佳為目標制定相應的管理方案。結合目標威脅評估任務,同時考慮威脅評估風險和傳感器的輻射風險,可得一步收益函數為
R(Ak)=ωU(Ak)+(1-ω)Y(Ak)
(7)
式中:R(Ak)、U(Ak)和Y(Ak)分別為在執(zhí)行分配方案Ak后,在k+1時刻的總風險、威脅評估風險和輻射風險;ω為平衡系數,用來權衡兩種風險。
進一步,多步收益函數的表達式為
(8)
式中:H為決策步長。
通過1.4節(jié)可知,對威脅評估風險和輻射風險進行預測是制定傳感器管理方案的核心,因此,需要對兩種風險進行合理量化和準確預測。
目標的威脅度是一個隨著目標狀態(tài)變化的隨機變量,在威脅評估的過程中,會將目標狀態(tài)的不確定性傳遞到威脅度上來,使威脅等級評估的結果難以精確,從而產生相應的評估風險。
2.1.1 威脅評估方法
(9)
式中:xp、yp和zp為防御陣地中心的三坐標。
構建各影響因素對應的子威脅度函數,從而將目標狀態(tài)的估計映射到威脅上來。
1) 目標距離
(10)
式中:d0為子威脅度極值點對應的距離;fd為距離系數,用來調節(jié)子威脅度函數值與距離的變化倍率。
2) 目標速度
(11)
式中:v0為子威脅度極值點對應的速度;fv為速度系數。
3) 航向角
(12)
式中:fα為角度系數。
在得到各因素對應的子威脅度后,通過加權的方式計算目標m的威脅度
(13)
式中:ωd、ωv和ωα分別為距離、速度和航向角的權重。
在實際戰(zhàn)場上,需要根據威脅度得到目標的威脅等級,以使指揮員更直觀的了解目標的威脅性。本文設置3類威脅等級,記為1(低等級)、2(中等級)和3(高等級)3類,其對應規(guī)則為
(14)
式中:θ2和θ3分別為威脅等級分界點所對應的威脅度。
2.1.2 基于信息狀態(tài)的威脅風險預測方法
(15)
由于信息狀態(tài)為高斯分布,在非線性變換后難以獲得其分布律的解析解,故本文在計算威脅度時先使用蒙特卡羅方法依照信息狀態(tài)分布獲取一定數量的目標狀態(tài)樣本點,再通過計算各樣本點對應的威脅度得到相應的威脅度概率分布,從而近似估計目標的威脅等級和威脅評估風險。其過程如下:
步驟2采樣。依據目標m在k+1時刻的信息狀態(tài)分布獲取L個樣本點(L為任意值,其值越大,威脅度評估的結果就越準確,但會影響計算速度)。
步驟5預測一步威脅評估風險。結合傳感器的分配方案Ak,可得一步威脅評估風險的預測值為
(16)
步驟6預測多步威脅評估風險。令k=k+1,轉到步驟1,進行H-1次循環(huán)后(H為決策步長),計算結束,得到多步威脅評估風險的預測值為
(17)
和目標運動狀態(tài)相同,傳感器的ELI狀態(tài)無法完全預知,因此引入ELI信息狀態(tài)bEk=[b1,Ek,b2,Ek,…,bN,Ek]T。對于任意的傳感器n,其在k時刻的信息狀態(tài)為
(18)
假設在k+1時刻傳感器n處于工作狀態(tài),且已知相應的瞬時觀測輻射等級Zn,Ek+1的具體值,則可利用隱馬爾可夫模型濾波器更新其ELI信息狀態(tài)[18]:
(19)
式中:⊙為Hadamard積;1為Emax維單位向量。
若該傳感器不工作時,其ELI信息狀態(tài)不發(fā)生轉移。
然而在實際中,在k時刻無法預測k+1時刻Zn,Ek+1的具體值,但是可以根據信息狀態(tài)得到其概率分布:
p(Zn,Ek+1|bn,Ek)=
p(En,k+1|En,k)bn,Ek=
(20)
根據式(19)和式(20),可求出傳感器n在k+1 時刻的預測信息狀態(tài):
p(Zn,Ek+1|bn,Ek)=
(Tn,k+1)Tbn,Ek
(21)
根據ELI值與被截獲概率的關系,得到該傳感器在k+1時刻的被截獲概率:
(22)
當我方傳感器被敵方截獲時,將有可能遭受火力打擊,從而產生傳感器資源損失。因此,本文定義在k+1時刻傳感器n的輻射風險預測值為
(23)
式中:on∈O=[o1,o2,…,oN],代表傳感器的戰(zhàn)術價值,屬于先驗信息。
結合我方傳感器的分配方案,可得一步輻射風險預測值為
(24)
根據式(21),可求出傳感器n的多步預測信息狀態(tài)為
(25)
進一步,可得多步輻射風險預測值為
(26)
傳感器管理在決策周期上可分為短期和長期兩種管理方法,短期方法以未來一步的收益函數為決策依據,盡管實現簡單,但忽視了系統動作對未來系統狀態(tài)的影響,管理效果欠佳。而長期方法以多步收益函數為決策依據,其管理效果要優(yōu)于短期管理[8]。為追求更高的作戰(zhàn)收益,本文采用長期管理方法,以H為決策步長,建立相應的目標函數為
(27)
該目標函數的最優(yōu)解為[Ak,Ak+1,…,Ak+H-1]opt,代表時域[k+1,k+H]上的最優(yōu)管理方案。
由于該問題是一個多決策步長、系統動作連續(xù)的POMDP問題,在求解時計算復雜度過大。為了滿足實際戰(zhàn)場上對于決策的實時性要求,本文將傳感器管理問題轉化為決策樹,提出一種基于分支定界的UCS(Uniform Cost Search)算法以快速獲得最優(yōu)解。
圖2 決策樹示意圖Fig.2 Decision tree diagram
(28)
由于在單一運動模型下傳感器性能的穩(wěn)定性和目標跟蹤的持續(xù)性,目標狀態(tài)的最優(yōu)估計誤差通常不會較前一時刻有太大變化[24]。由于威脅評估風險僅與目標狀態(tài)有關,因此其在大多時候也不會發(fā)生突變,通過大量仿真發(fā)現,下一時刻的威脅評估風險通常是上一時刻的0.8~1.2倍,因此,可得
(29)
(30)
因此,可得
(31)
根據式(28)、式(29)和式(31),得該節(jié)點的下界值為
(32)
得到節(jié)點的下界值后,即可以在UCS的過程中通過分支定界方法及時刪除多余的節(jié)點,加快搜索速度。基于分支定界的UCS搜索算法流程如下所示:
步驟2
1) 若列表不為空
打開列表中第一個節(jié)點并將其刪除。
① 若此時未到達最底層H
② 若此時已到達最底層H
2) 若列表為空
轉到步驟3
表1 傳感器參數Table 1 Parameters of sensors
將傳感器的ELI狀態(tài)量化為{0,1,2,3,4},0為無輻射,對應被截獲概率為0%,1為低輻射等級,對應被截獲概率為0%~25%,2為中輻射等級,對應被截獲概率為25%~50%,3為高輻射等級,對應嗎 被截獲概率為50%~75%,4為極高輻射等級,對應被截獲概率為75%~100%。設定每個傳感器有3個ELI狀態(tài)轉移矩陣,為了不失一般性,設定在相同的目標距離范圍內量測精度高的傳感器更容易處于高ELI等級,各傳感器的ELI狀態(tài)轉移矩陣為
傳感器與目標距離小于5 km時:
傳感器與目標距離位于5~15 km時:
傳感器與目標距離大于15 km時:
平衡系數w的作用在于權衡威脅評估風險和輻射風險對于總風險的影響。本文在H=1下研究了不同平衡系數對兩種風險的影響,并以此為依據確定w。圖3給出了不同平衡系數下的傳感器對目標1的分配方案,圖4描述了平衡系數的變化對歸一化威脅評估風險和輻射風險的影響。從圖3可以看出,平衡系數的改變會使管理方案發(fā)生相應的變化,從而影響的風險控制效果。結合圖4可知,隨著平衡系數的增大,威脅評估風險越來越小,輻射風險越來越大,說明所制定的管理方案越來越注重控制威脅評估風險,而漸漸忽視輻射風險。當w<0.45時,輻射風險遠小于威脅評估風險,當w>0.45時,威脅評估風險遠小于輻射風險,這兩種情況均會造成兩種風險的失衡,無法兼顧評估結果的準確性和傳感器的生存。當w=0.45時,二者十分接近,說明此時所制定的管理方案兼顧了兩種風險的影響,使二者可以達到相對平衡,因此在接下來的仿真中選取w=0.45。
圖3 不同平衡系數下傳感器對目標1的分配方案Fig.3 Assignment scheme of sensors to target 1 under different equilibrium coefficients
圖4 不同平衡系數下的歸一化風險值Fig.4 Normalized risk under different equilibrium coefficients
圖5為當w=0.45時,不同決策步長下累積總風險值的對比圖??梢钥闯觯贖=2到H=6時,隨著H的增加,累積總風險值越來越小,說明系統能夠獲得更優(yōu)的管理方案。但當H=7時,累積風險值相較于H=6時不降反增,這是因為隨著決策步長的增加,對于系統狀態(tài)的預測變得越來越不準確,計算的誤差就會越來越大,從而使總風險有所增加,因此,一味增大決策步長是沒有意義的。同時,雖然在H=6時的累積風險值最小,但其與H=4時的風險值相差不多,且由于步長的增加會導致計算復雜度的大幅增長,為了兼顧風險控制效果和計算量,本文在接下來的仿真中選取決策步長H=4。
圖5 不同決策步長下的累積總風險Fig.5 Cumulative total risk value under different decision time steps
為了驗證本文提出的基于分支定界的UCS算法(BB-UCS)的優(yōu)勢,采用窮舉搜索(Enumerative Search, ES)和UCS算法進行對比。表2為不同算法的性能指標對比,其中,打開節(jié)點百分比數和最大存儲節(jié)點數越小,代表算法的搜索時間和內存消耗越少[25],總風險值越小,代表算法的求解質量越高,圖6為UCS和本文算法的節(jié)點打開百分比的對比圖。
表2 不同算法搜索性能對比Table 2 Comparison of search performance under different algorithms
圖6 不同算法下節(jié)點打開百分比Fig.6 Percentage of nodes opened under different algorithms
結合表2和圖6可知,ES和UCS下的節(jié)點打開百分比和最大存儲節(jié)點數較大,說明這兩種算法在尋優(yōu)時需要大量的時間和存儲空間,實時性較差。相比之下,BB-UCS顯著降低了節(jié)點打開百分比和最大存儲節(jié)點,在搜索時間和內存消耗上優(yōu)勢明顯,極大地提高了搜索效率。同時,雖然BB-UCS下的累積風險值較大,但與能獲得最優(yōu)解的ES和UCS的差距很小,故說明BB-UCS雖然僅能獲得次優(yōu)解,但依舊能夠有效控制總風險以確保獲得較高的作戰(zhàn)收益。
圖7為總風險值隨時間變化的曲線,圖中,風險預測值為通過信息狀態(tài)預測的未來時刻內的風險值,風險實際值為在執(zhí)行分配方案后通過實際量測所計算出的風險值??梢钥闯鲈谡麄€時間范圍內,預測值與估計值大致相等,驗證了本文在系統狀態(tài)不可觀測時利用信息狀態(tài)預測未來時間內目標的運動狀態(tài)和傳感器的ELI狀態(tài)是有效的,同時說明了以風險預測值為依據制定傳感器管理方案是合理的。
圖7 總風險曲線Fig.7 Curves of total risk
圖8給出了目標軌跡在x-y平面的投影和傳感器的分配方案,圖中目標航跡上的傳感器序列代表著通過本文方法所得出的傳感器最佳分配方案。圖9給出了兩個目標的威脅等級采樣示意圖。可以看出在威脅評估的過程中,目標狀態(tài)的不確定性會傳遞到威脅度模型當中,從而在威脅等級評估時產生相應的風險。結合圖7~圖9可以看出,在20~30 s內,目標1和目標2的威脅度采樣點在高和中兩個威脅等級內均有大量分布,此時的威脅評估風險也最大,因此,圖7中總風險曲線也在該時間段內逐漸上升到最大值。而在30 s后,隨著目標1逐漸靠近防御中心(目標2逐漸遠離防御中心),采樣點的分布逐漸向高(中)威脅等級的范圍內集中,落在不同區(qū)間內的采樣點數量也越來越少,目標威脅評估的不確定性也隨之越來越小,威脅評估風險也就越來越小,故圖7中的總風險曲線也逐漸下降。在仿真時間的末段,兩個目標的威脅度采樣點幾乎在一個威脅度區(qū)間內,此時的威脅評估風險已經非常小,影響系統決策的主要是傳感器的輻射風險。當所有采樣點均落在一個等級范圍內時,目標威脅等級為該等級的概率為1,根據本文所提威脅評估風險計算方法可知,威脅評估風險此時為0,系統將僅需控制傳感器的輻射風險。
圖8 目標航跡及傳感器分配方案Fig.8 Target trajectory and sensor assignment scheme
圖9 威脅等級不確定性采樣Fig.9 Sampling of target threat level uncertainty
為了充分說明本文所提出的管理方法(Proposed Management Approach,PMA)能夠有效控制總風險,采用3種常用方法進行對比:
1) 短期管理方法(Myopic Management Approach,MMA),以一步風險預測值為依據執(zhí)行傳感器管理。
2) 隨機管理方法(Random Management Approach,RMA)[8],每一時刻隨機分配傳感器評估目標的威脅等級,主要用于作戰(zhàn)態(tài)勢緊急,來不及解算目標函數的情況。
3) 最近鄰管理方法(Closest Management Approach,CMA)[17],每一時刻選擇與目標最近的傳感器評估目標,此方法在理論上能獲得較優(yōu)的目標狀態(tài)估計誤差。
圖10為不同方法下各時刻的總風險曲線對比圖,圖11為整個仿真時間內的累積總風險、威脅評估風險和輻射風險的對比圖。可以看出,RMA不進行風險的預測,風險控制效果很差,故其3種風險均為最高;CMA在一定程度上可以保證對目標有較好的量測性能,故其威脅評估風險較低,但其實質上也不進行風險的預測,無法根據目標和傳感器的實際情況制定管理方案,所以其總風險值和輻射風險較高,進一步說明了以風險預測值為決策依據的重要性。MMA通過預測未來一步內的風險值,相比于RMA和MMA,能夠較大程度上改善風險控制效果,但相比于本文所提出的長期管理方法來說可視為一種貪婪搜索,無法得到最好的風險控制效果。而PMA通過對一定時域內的長期風險進行預測,使3類風險在整個仿真時間內的累積值均為所有方法中的最低,且在各個時刻也均能得到最低的總風險,說明本文方法能較好地權衡并降低威脅評估風險和輻射風險,從而控制總風險,既提高了威脅評估的準確性,又保障了傳感器系統的生存性能。
圖10 不同方法下各時刻的總風險對比Fig.10 Comparison of total risk at each time under different methods
本文面向空中目標威脅評估任務,對多傳感器管理方法進行了研究,提出了一種基于風險的傳感器管理方法,主要結論如下:
1)相比于傳統算法,本文所提出的基于分支定界的UCS算法能夠快速搜索出質量高的解,且大大減低了搜索時間和內存消耗,保證了傳感器管理的實時性要求。
2)通過與實際風險值的比較,驗證了本文所提出的基于信息狀態(tài)的風險預測方法能夠準確預測風險值,也說明了本文以風險預測值為決策依據的思想是合理的。
3)與常用傳感器管理方法相比,本文方法能有效權衡并降低威脅評估風險和輻射風險,從而提升威脅評估結果的準確性和傳感器系統的戰(zhàn)場生存能力。