馮路為, 劉松濤, 徐華志
(海軍大連艦艇學(xué)院信息系統(tǒng)系, 遼寧 大連 116018)
在未來戰(zhàn)場環(huán)境中,信息優(yōu)勢逐漸成為交戰(zhàn)雙方爭奪的首要目標(biāo),而電子對抗是獲取信息優(yōu)勢的重要手段之一[1]。隨著各個國家對雷達(dá)的重視程度不斷加強,雷達(dá)發(fā)展趨于智能化,對比普通雷達(dá),智能雷達(dá)發(fā)射的多為變化復(fù)雜的脈沖信號,同時開始利用相控陣電掃方式取代傳統(tǒng)雷達(dá)的機械式掃描方式[2],各種新概念新體制的智能雷達(dá)現(xiàn)已廣泛應(yīng)用于民用和軍事領(lǐng)域,在遠(yuǎn)程預(yù)警、反導(dǎo)和區(qū)域防空等領(lǐng)域發(fā)揮了很大作用。因此,針對非合作方智能雷達(dá),干擾方正面臨著極其復(fù)雜的電子對抗環(huán)境,傳統(tǒng)的對抗手段在面對智能雷達(dá)時已無法進(jìn)行快速有效的干擾,干擾效果不斷降低[3]。
在此背景下,如何有效地對智能雷達(dá)實施干擾是干擾決策技術(shù)的新興問題和研究熱點。目前,學(xué)者們已提出一系列基于強化學(xué)習(xí)的干擾決策方法,比如:李云杰等[4]通過將認(rèn)知技術(shù)引入雷達(dá)干擾決策問題中,利用Q-學(xué)習(xí)算法設(shè)計了雷達(dá)認(rèn)知干擾決策的過程;邢強等[5]通過分析雷達(dá)工作模式的識別過程,提高了結(jié)合Q-學(xué)習(xí)算法進(jìn)行雷達(dá)對抗方法的功能性與實時性;張柏開等[6]提出了一種基于深度Q神經(jīng)網(wǎng)絡(luò)(deep Q network,DQN)雷達(dá)干擾決策方法,對Q-學(xué)習(xí)算法進(jìn)行了改進(jìn),定量分析先驗知識對干擾決策的影響,較好地完成了對多功能雷達(dá)的干擾決策任務(wù)。此外,周脈成[7]提出了基于博弈論的雷達(dá)干擾決策方法,有效解決了電子對抗過程中如何選擇雷達(dá)有源干擾樣式的問題。孫宏偉等[8]將D-S(Dempster-Shafer)證據(jù)理論結(jié)合到傳統(tǒng)電子干擾模式選擇過程中,以解決電子對抗裝備選擇干擾模式的問題。張思齊[9]將部分可觀測馬爾可夫決策過程(partially observable Markov decision process, POMDP)引入雷達(dá)干擾決策問題中,提出了一種對工作模式數(shù)已知雷達(dá)的干擾決策方法。雖然上述方法能夠為智能雷達(dá)干擾決策提供借鑒,但由于沒有充分考慮戰(zhàn)場環(huán)境的復(fù)雜性,難以有效應(yīng)用到智能雷達(dá)的對抗過程。
為了解決上述問題,本文基于POMDP模型將動態(tài)規(guī)劃和強化學(xué)習(xí)的特點結(jié)合[10],設(shè)計干擾決策方法,實現(xiàn)在信息部分已知情況下的最優(yōu)決策。具體思路為干擾方偵察設(shè)備通過接收的雷達(dá)信號特征生成脈內(nèi)參數(shù)和脈間參數(shù),根據(jù)參數(shù)特征判斷雷達(dá)工作狀態(tài);當(dāng)干擾實施后,依據(jù)雷達(dá)工作狀態(tài)的改變形成新的環(huán)境空間,將參數(shù)的信息熵作為評估干擾效果的依據(jù),采用貝葉斯濾波更新干擾方對環(huán)境的信念,開始新的干擾決策過程,完成實時在線動態(tài)干擾,極大提高了對工作狀態(tài)未知的智能雷達(dá)干擾的效率和準(zhǔn)確率。
POMDP模型是一種在信息部分可知條件下決策的理想模型,通過不斷優(yōu)化構(gòu)建的模型逐步生成最優(yōu)策略。在實際干擾決策過程中,由于對抗雙方自身的非合作性,干擾方僅能通過以往的對抗經(jīng)驗獲取敵方雷達(dá)的部分參數(shù)信息,基于智能雷達(dá)狀態(tài)的多變性以及參數(shù)的部分可知性,本文提出了基于POMDP模型的干擾決策方法用于非合作方的電子對抗過程[11]。
通過分析智能雷達(dá)對抗的特點,文中POMDP模型包括以下7個元素。
(1) 狀態(tài)空間S:在干擾決策過程中為智能雷達(dá)的狀態(tài)集用來表示雷達(dá)工作時的各個狀態(tài)。例如,以目前比較先進(jìn)的相控陣?yán)走_(dá)為例,具有多目標(biāo)搜索、跟蹤、引導(dǎo)和測量參數(shù)等諸多功能。
(2) 觀測空間C:智能雷達(dá)干擾決策問題中,觀測空間主要是指干擾方通過信號偵收設(shè)備獲取的雷達(dá)參數(shù)信息集合。
(3) 行動空間A:表示干擾方在電子對抗過程中可以采取的干擾行動,記為干擾策略集。
(4) 轉(zhuǎn)移概率函數(shù)T(s′|s,a):表示智能體在雷達(dá)工作狀態(tài)為s時通過實施干擾行動a后使目標(biāo)雷達(dá)工作狀態(tài)變?yōu)閟′的概率。
(5) 觀測概率P(c|z):z為環(huán)境狀態(tài)真值,測量概率表示智能體在某個狀態(tài),此時實際雷達(dá)狀態(tài)為z時,偵收設(shè)備測量為c的概率,反映在實際對抗過程中為干擾方獲取敵方雷達(dá)參數(shù)信息時的不確定度。
(6) 回報函數(shù)R(s,a):表示在采取某一種行動a后的立即回報值。在干擾決策過程中,用實施不同干擾方式后雷達(dá)威脅等級變化情況來定義R值,具體如下:
(1)
(7)γ為折扣因子:代表對未來回報的重視程度,其取值將完全累加到回報函數(shù)中,γ值越大認(rèn)為當(dāng)前收益與未來收益相比越不重要。
依據(jù)這些參數(shù)建立基于POMDP的干擾決策模型,將POMDP模型用一個包含所需信息的七元組M=表示。
通過設(shè)計一種循環(huán)的方法,實現(xiàn)干擾決策的目的,具體對抗過程如下。
(1) 首先讓智能體隨機選擇幾種不同的干擾方式并通過雷達(dá)狀態(tài)的改變信息得到一個初始的數(shù)據(jù)集,建立POMDP模型。
(2) 有了基本的初始數(shù)據(jù)集以后,對于模式已知的雷達(dá)工作狀態(tài),運用POMDP模型的貪婪策略做出行為決策,讓智能體選擇算法中的回報函數(shù)R值最大的一種模式進(jìn)行干擾,通過傳感器的反饋數(shù)據(jù)得到結(jié)果,利用信息熵進(jìn)行干擾評估和效果分析。
(3) 當(dāng)面對雷達(dá)工作狀態(tài)未知的情況時,可根據(jù)當(dāng)前已有信息來預(yù)測未知雷達(dá)狀態(tài)的信息。根據(jù)未知狀態(tài)的雷達(dá)參數(shù),結(jié)合已有的預(yù)測樣本集,選擇信息熵最大的干擾模式對雷達(dá)進(jìn)行干擾,將得到的數(shù)據(jù)運用貝葉斯濾波來更新對環(huán)境的信念,從而完成了未知雷達(dá)狀態(tài)的歸類、特點分析以及最優(yōu)方式的選擇,最大化這一步觀察的信息量,周而復(fù)始直至目標(biāo)雷達(dá)轉(zhuǎn)換到威脅等級較低的模式,則認(rèn)為完成了一次最優(yōu)干擾策略的選擇,圖1為POMDP模型實現(xiàn)對抗功能的流程圖。
圖1 干擾對抗流程圖Fig.1 Flow chart of jamming countermeasure
雷達(dá)狀態(tài)識別技術(shù)在智能雷達(dá)對抗過程中起著非常重要的作用。通過準(zhǔn)確快速識別智能雷達(dá)所處狀態(tài),能夠結(jié)合對應(yīng)的干擾策略集A為每種態(tài)勢分配所對應(yīng)的回報函數(shù),使整個POMDP算法具有邊學(xué)習(xí)邊對抗的能力。在雷達(dá)狀態(tài)識別方面,目前識別的主要方式是基于脈沖描述字(pulse description word,PDW)和輻射源描述字(emitter description word, EDW)分析實現(xiàn)。PDW={tTOA,θAOA,fRF,τPW,AP,F}用來表示雷達(dá)信號的脈內(nèi)參數(shù)變化情況,其中tTOA為脈沖到達(dá)時間,θAOA為脈沖到達(dá)方位角,fRF為載波頻率,τPW為脈沖寬度,AP為脈沖幅度,F為脈內(nèi)調(diào)制參數(shù);EDW由脈沖重復(fù)間隔(pulse repetition interval, PRI)、天線掃描參數(shù)與脈內(nèi)參數(shù)組成,用來表示雷達(dá)信號的脈間參數(shù)變化情況并作為對輻射源的全方位描述。
將雷達(dá)信號的脈內(nèi)參數(shù)和脈間參數(shù)變化情況映射為智能雷達(dá)對抗中的雷達(dá)狀態(tài)量ST,如圖2所示,通過分析雷達(dá)狀態(tài)的威脅等級變化情況對當(dāng)前所采用的干擾行動進(jìn)行加強或者替換,使干擾決策過程具備邊學(xué)習(xí)邊對抗的認(rèn)知功能。
圖2 雷達(dá)狀態(tài)識別Fig.2 Radar state recognition
信念分布是基于智能雷達(dá)工作模式數(shù)未知的特點引入的特殊表達(dá)方式,用來表征智能體對未知環(huán)境的認(rèn)知程度,本文采用非參數(shù)的、基于樣本的方法來表示系統(tǒng)中信念的概率分布[12]。將對抗方式明確的雷達(dá)狀態(tài)定義為已知狀態(tài),智能體對所有已知狀態(tài)的信念表示為nZ個樣本值和對應(yīng)的權(quán)重,即:
Z={(zj,wj),j=1,2,…,nz}
(2)
式中:nz為樣本值的個數(shù);zj為樣本值;wj為樣本值所對應(yīng)的權(quán)重,wj∈(0,1)。樣本值及對應(yīng)的權(quán)重通過非參數(shù)的形式表征了智能體對環(huán)境信念的認(rèn)知,該方法可以用來描述更全面的分布空間,并能夠?qū)ο到y(tǒng)中未知變量的非線性變換過程進(jìn)行建模分析[13]。
設(shè)計貝葉斯濾波來實現(xiàn)對環(huán)境信念的預(yù)測和更新[14],具體包括兩步。
(2) 根據(jù)生成的未知雷達(dá)狀態(tài)預(yù)測樣本集,利用POMDP模型給予干擾機干擾手段。干擾機采用系統(tǒng)給出的最佳干擾樣式實施干擾,干擾完成后對當(dāng)前雷達(dá)狀態(tài)參數(shù)進(jìn)行多次偵收分析得到測量均值Cm,一般測量概率服從標(biāo)準(zhǔn)差為σ的高斯分布,因此可將參數(shù)測量的后驗概率分布定義[15]為
(3)
式中:η為規(guī)范化因子;P(z)是預(yù)測樣本集中的先驗概率;P(c|z)為干擾設(shè)備進(jìn)行多次偵收分析雷達(dá)參數(shù)得到的測量概率。這一步通過計算參數(shù)測量的后驗概率完成了貝葉斯濾波的更新過程,將jam定義為可供智能體選擇的干擾樣式樣本集:
jam={Zk,k=1,2,…,njam}
(4)
式中:Zk為加權(quán)環(huán)境樣本集;njam為智能體已知干擾樣式個數(shù)。
POMDP模型的解被稱為策略,建立策略的回報函數(shù)R(s,a),表示在狀態(tài)為s時,采取行動a后所得到的立即回報。引入值函數(shù)VT(s)來表示策略所獲得的長期回報的大小[16]為
(5)
式中:γ∈[0,1]。通過值函數(shù)可以得到策略的遞歸函數(shù)為
(6)
此時,最優(yōu)策略可以計算為
(7)
本文的目標(biāo)是讓智能體自主地學(xué)習(xí)環(huán)境,對于未知的雷達(dá)狀態(tài),自主選擇對抗方式。對于最優(yōu)策略的效果,選取信息熵作為評估依據(jù),其定義如下:
H(z)=E[log2I(z)]
(8)
式中:I(z)為目標(biāo)雷達(dá)處于某種狀態(tài)時包含的信息量。
為了驗證本文基于POMDP模型的干擾決策方法對抗智能雷達(dá)的優(yōu)越性,在Matlab環(huán)境下對提出方法進(jìn)行仿真實驗,實驗平臺參數(shù)為Intel(R) Core(TM) i7-10750H CPU@2.60 GHz處理器,16G內(nèi)存,未使用顯卡加速。采用干擾機對環(huán)境的尋優(yōu)時長和決策準(zhǔn)確率作為定量評價指標(biāo),將其與傳統(tǒng)Q-學(xué)習(xí)法[17]以及經(jīng)驗決策法對比分析。
一般認(rèn)為智能雷達(dá)具有多種不同的工作狀態(tài),只有采取合適的干擾方式才能夠逐步降低目標(biāo)雷達(dá)工作狀態(tài)的威脅等級。例如,當(dāng)某型智能雷達(dá)在某一時刻處于制導(dǎo)狀態(tài)時,實施干擾后雷達(dá)可能丟失部分參數(shù)信息導(dǎo)致自身無法持續(xù)鎖定目標(biāo),從而使雷達(dá)只能轉(zhuǎn)移到威脅等級較低的成像狀態(tài);繼續(xù)施加干擾,雷達(dá)的成像精度和準(zhǔn)確度下降,雷達(dá)轉(zhuǎn)為測距狀態(tài);再進(jìn)行干擾,雷達(dá)檢測不到目標(biāo)轉(zhuǎn)化為粗搜索狀態(tài),可以認(rèn)為該干擾過程效果較為顯著。雷達(dá)在受到干擾時一般不會由已知的最高威脅等級狀態(tài)直接轉(zhuǎn)變?yōu)樽畹屯{等級狀態(tài)。
表1 雷達(dá)工作狀態(tài)庫Table 1 Radar working state database
圖3 目標(biāo)狀態(tài)概率分布Fig.3 Target state probability distribution
圖4 狀態(tài)初始輸入Fig.4 Status initial input
圖5 貝葉斯濾波更新環(huán)境信念Fig.5 Bayesian filtering updates environmental beliefs
圖6 二次更新環(huán)境信念Fig.6 Second renewal of environmental beliefs
圖7 輸出決策結(jié)果Fig.7 Output decision results
通過對POMDP模型的仿真實驗,智能體完成了一個干擾決策過程??梢钥闯?當(dāng)基于POMDP模型的干擾決策方法在面對未知智能雷達(dá)狀態(tài)時,計算出當(dāng)前已知狀態(tài)信息熵,通過分析未知雷達(dá)狀態(tài)的參數(shù)特征,利用貝葉斯濾波對其進(jìn)行分步?jīng)Q策有較高的準(zhǔn)確度,并且系統(tǒng)得到最優(yōu)策略時間僅為3.7 s,如表2所示。同時,用概率分布的形式表征出其他干擾方式可能帶來的效果與影響,即使沒有正確預(yù)測出雷達(dá)的工作狀態(tài),但通過結(jié)合以往干擾決策信息,POMDP方法仍能以一定概率選擇出次優(yōu)干擾方式。
表2 POMDP模型決策時間Table 2 POMDP model decision time s
經(jīng)驗決策法是指干擾方利用模板匹配技術(shù),針對參數(shù)體制不變的雷達(dá)建立豐富的先驗知識庫,通過直接觀測雷達(dá)參數(shù)并結(jié)合庫內(nèi)先驗知識自動選擇干擾樣式類型。由于雷達(dá)方與干擾方固有的非合作屬性,導(dǎo)致干擾方在實際電子對抗過程中一般無法獲得敵方雷達(dá)的全部參數(shù)信息,雷達(dá)工作狀態(tài)只能通過主觀分析觀測值估計確定,干擾決策時再依據(jù)即時收益R(s,a)的大小選擇相應(yīng)的干擾樣式。然而,隨著智能雷達(dá)的迅速發(fā)展,干擾方獲取和利用先驗知識的難度大大增加,干擾方執(zhí)行某種干擾行動后無法獲取最終的效果反饋,不能根據(jù)目標(biāo)雷達(dá)狀態(tài)的實時變化情況相應(yīng)調(diào)整己方的干擾策略,導(dǎo)致在干擾決策過程中操作人員主觀性較強,干擾效率始終較低;如果干擾機錯誤地識別了目標(biāo)雷達(dá)當(dāng)前所處的工作狀態(tài),更會對干擾策略選取結(jié)果造成影響。
傳統(tǒng)Q-學(xué)習(xí)法可以看作是一個增量式動態(tài)規(guī)劃過程,通過不斷迭代計算狀態(tài)與動作對的映射函數(shù),使算法的收益總和最大值趨于收斂,系統(tǒng)輸出最優(yōu)策略。通過對系統(tǒng)進(jìn)行恰當(dāng)?shù)某跏蓟?可以大幅減少雷達(dá)干擾決策過程中最優(yōu)策略的輸出時長,極大地提高了干擾決策的效率。但是該方法在計算過程中,需要不斷迭代更新收斂值,當(dāng)雷達(dá)狀態(tài)增加時,決策過程的計算復(fù)雜度大幅上升并出現(xiàn)“維數(shù)災(zāi)難”問題[18],導(dǎo)致系統(tǒng)的收斂精度大幅下降,收益總和收斂時產(chǎn)生的系統(tǒng)誤差對最優(yōu)干擾策略的選取造成很大的影響;并且該方法只有在學(xué)習(xí)過程完成時才能更新系統(tǒng)的狀態(tài)值函數(shù),整體決策周期長、學(xué)習(xí)效率低。
為了體現(xiàn)基于POMDP模型決策方法的優(yōu)越性,利用3種方法在同等仿真條件下進(jìn)行實驗,結(jié)果如圖8所示。
圖8 3種方法決策效果對比圖Fig.8 Comparison of decision-making effects of three methods
本文提出了一種基于POMDP的干擾決策方法來引導(dǎo)實現(xiàn)對戰(zhàn)場非合作方智能雷達(dá)的有效干擾。首先通過分析智能雷達(dá)對抗任務(wù)的特點建立POMDP模型;然后以信息熵作為評估標(biāo)準(zhǔn),干擾機選擇信息熵最大的干擾樣式不斷嘗試,輸出最優(yōu)干擾策略;最后采用非參數(shù)的形式反映智能體對環(huán)境的認(rèn)知,利用貝葉斯濾波完成對干擾庫中未知雷達(dá)狀態(tài)的信念更新。仿真結(jié)果表明,所提方法對部分未知雷達(dá)的干擾過程取得了較好的效果,與傳統(tǒng)Q-學(xué)習(xí)法以及經(jīng)驗決策法相比,決策準(zhǔn)確率和效率優(yōu)勢明顯。