馬子杰,高 杰,武沛羽,謝擁軍
(北京航空航天大學(xué) 電子信息工程學(xué)院,北京 100191)
巡航導(dǎo)彈是一種能機(jī)動(dòng)發(fā)射、命中精度高、隱蔽性強(qiáng)、機(jī)動(dòng)性能強(qiáng)的戰(zhàn)術(shù)打擊武器,但近年來由海陸空防御武器整合得到的體系化信息化反導(dǎo)防御系統(tǒng)態(tài)勢(shì)感知能力和區(qū)域拒止能力都得到了極大的提升,巡航導(dǎo)彈的戰(zhàn)場生存能力受到威脅,提升巡航導(dǎo)彈規(guī)避動(dòng)態(tài)威脅的能力成為其能否成功打擊目標(biāo)的關(guān)鍵[1-3]。傳統(tǒng)的巡航導(dǎo)彈航跡規(guī)劃方法中將雷達(dá)威脅建模為一個(gè)靜態(tài)的雷達(dá)檢測(cè)區(qū)域,這難以適應(yīng)對(duì)決策實(shí)時(shí)性要求較高的動(dòng)態(tài)戰(zhàn)場環(huán)境,而且其缺乏探索先驗(yàn)知識(shí)以外的突防策略的能力,需要研究能應(yīng)對(duì)動(dòng)態(tài)對(duì)抗的巡航導(dǎo)彈智能航跡規(guī)劃算法。
深度強(qiáng)化學(xué)習(xí)是人工智能領(lǐng)域新的研究熱點(diǎn)[4-6]。隨著深度強(qiáng)化學(xué)習(xí)研究的深入,其開始被應(yīng)用于武器裝備智能突防,文獻(xiàn)[7]利用深度強(qiáng)化學(xué)習(xí)提出了一種新的空空導(dǎo)彈制導(dǎo)律,提高了打擊目標(biāo)的能力。文獻(xiàn)[8]針對(duì)目標(biāo)、打擊導(dǎo)彈、攔截導(dǎo)彈作戰(zhàn)問題,探究了是否發(fā)射攔截導(dǎo)彈、攔截導(dǎo)彈的最佳發(fā)射時(shí)間和發(fā)射后的最佳導(dǎo)引律。文獻(xiàn)[9]利用深度價(jià)值網(wǎng)絡(luò)算法探究了靜態(tài)預(yù)警威脅下的無人機(jī)航跡規(guī)劃問題,提升了航跡規(guī)劃的時(shí)間。文獻(xiàn)[10]將雷達(dá)威脅建模為一個(gè)靜態(tài)的雷達(dá)檢測(cè)區(qū)域,在二維平面探究了巡飛彈動(dòng)態(tài)突防控制決策問題,提高了巡飛彈的自主突防能力。
綜上所述,目前巡航導(dǎo)彈智能突防研究中針對(duì)預(yù)警雷達(dá)的威脅建模都屬于靜態(tài)建模,其設(shè)定預(yù)警機(jī)威脅區(qū)域固定,而實(shí)際戰(zhàn)場環(huán)境中預(yù)警機(jī)是動(dòng)態(tài)的,因而其威脅區(qū)域也是動(dòng)態(tài)變化的。因此,本文提出了兩點(diǎn)改進(jìn):(1)對(duì)預(yù)警機(jī)威脅進(jìn)行動(dòng)態(tài)建模,給出了預(yù)警機(jī)雷達(dá)探測(cè)概率的預(yù)測(cè)公式;(2)使用深度確定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法訓(xùn)練時(shí)引入了時(shí)序相關(guān)的奧恩斯坦-烏倫貝克隨機(jī)過程作為探索噪聲,解決了收斂難度加大的問題,進(jìn)而縮短了算法的訓(xùn)練時(shí)間。
DDPG[11-13]是深度強(qiáng)化學(xué)習(xí)應(yīng)用于連續(xù)控制強(qiáng)化學(xué)習(xí)領(lǐng)域的一種重要算法,將確定性策略梯度算法與Actor-Critic 框架相結(jié)合,提出了一個(gè)任務(wù)無關(guān)的模型,并可以使用相同的參數(shù)解決眾多任務(wù)不同的連續(xù)控制問題。DDPG 采取經(jīng)驗(yàn)回放機(jī)制,通過目標(biāo)網(wǎng)絡(luò)的參數(shù)不斷與原網(wǎng)絡(luò)的參數(shù)加權(quán)平均進(jìn)行訓(xùn)練,以避免振蕩。深度確定性策略梯度算法流程如下:
輸入:環(huán)境;
輸出:最優(yōu)策略的估計(jì);
參數(shù):學(xué)習(xí)率α(w)、α(θ)、折扣因子γ、控制回合數(shù)和回合內(nèi)步數(shù)的參數(shù)、目標(biāo)網(wǎng)絡(luò)學(xué)習(xí)率α目標(biāo)。
(1) 初始化網(wǎng)絡(luò)參數(shù):θ←任意值,θ目標(biāo)←θ,w←任意值,w目標(biāo)←w。
(2) For episode=1,M do(M 為仿真最大回合數(shù))
(3) 用對(duì)π(S;θ)加擾動(dòng)進(jìn)而確定動(dòng)作A
(4) 執(zhí)行動(dòng)作A,觀測(cè)到收益R 和下一狀態(tài)S′
(5) 將經(jīng)驗(yàn)(S,A,R,S′)儲(chǔ)存在經(jīng)儲(chǔ)存空間D
(6) For t=1,T do(T 為仿真終止時(shí)間)
(7) 從存儲(chǔ)空間D 采樣出一批經(jīng)驗(yàn)B
(8) 為經(jīng)驗(yàn)估計(jì)回報(bào)U←R+γq(S′,π(S′;θ目標(biāo));w目標(biāo))
DDPG 算法的網(wǎng)絡(luò)結(jié)構(gòu)為Actor-Critic 網(wǎng)絡(luò)結(jié)構(gòu),其中Actor 網(wǎng)絡(luò)輸入狀態(tài),輸出動(dòng)作,Critic 網(wǎng)絡(luò)輸入狀態(tài)和動(dòng)作,輸出在這一狀態(tài)下采取這個(gè)動(dòng)作的評(píng)估Q 值,其示意圖如圖1 所示。由于巡航導(dǎo)彈、目標(biāo)和預(yù)警機(jī)的狀態(tài)動(dòng)作信息是一個(gè)在時(shí)間上連續(xù)的序列,因此由狀態(tài)構(gòu)成的樣本之間并不具備獨(dú)立性,只使用單個(gè)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)過程很不穩(wěn)定。為解決這個(gè)問題,DDPG 算法引入了經(jīng)驗(yàn)回放機(jī)制,引入目標(biāo)Actor 網(wǎng)絡(luò)和目標(biāo)Critic 網(wǎng)絡(luò),與現(xiàn)實(shí)網(wǎng)絡(luò)獨(dú)立訓(xùn)練。首先現(xiàn)實(shí)Actor 網(wǎng)絡(luò)與環(huán)境進(jìn)行交互訓(xùn)練,得到狀態(tài)S、動(dòng)作a、獎(jiǎng)勵(lì)r、下一時(shí)刻狀態(tài)S′,將這4 個(gè)數(shù)據(jù)放入經(jīng)驗(yàn)池中,得到一定的樣本空間后,現(xiàn)實(shí)Critic 網(wǎng)絡(luò)從經(jīng)驗(yàn)池中提取樣本進(jìn)行訓(xùn)練得到Q 值;目標(biāo)網(wǎng)絡(luò)也進(jìn)行同樣的訓(xùn)練,每間隔一定時(shí)間就利用現(xiàn)實(shí)網(wǎng)絡(luò)參數(shù)更新目標(biāo)網(wǎng)絡(luò)。訓(xùn)練完成后可以通過Actor 網(wǎng)絡(luò)得到高維的具體動(dòng)作,可解決連續(xù)動(dòng)作空間學(xué)習(xí)問題。其求解流程如圖2 所示。
圖1 Actor-Critic 網(wǎng)絡(luò)結(jié)構(gòu)
圖2 DDPG 算法流程圖[10]
1.2.1 時(shí)序相關(guān)的探索噪聲
傳統(tǒng)的DDPG 算法中的探索噪聲為高斯噪聲,其在時(shí)序上不相關(guān),對(duì)時(shí)序相關(guān)的問題探索能力差,探索時(shí)間長;導(dǎo)彈突防過程屬于慣性過程,引入時(shí)序相關(guān)的奧恩斯坦-烏倫貝克隨機(jī)過程可以提高在慣性系統(tǒng)中的控制任務(wù)的探索效率,使訓(xùn)練更快收斂。奧恩斯坦-烏倫貝克過程滿足的微分方程為:
其中,xt為過程刻畫的量;θ為比例系數(shù);μ是xt的均值;Wt為維納過程,是一種隨機(jī)噪聲;σ 是隨機(jī)噪聲的權(quán)重。
1.2.2 動(dòng)態(tài)預(yù)警威脅
預(yù)警機(jī)是一種裝有遠(yuǎn)距離搜索雷達(dá)、數(shù)據(jù)處理、敵我識(shí)別以及通信導(dǎo)航、指揮控制、電子對(duì)抗等完善的電子設(shè)備,用于搜索、監(jiān)視與跟蹤空中和海上目標(biāo)并指揮、引導(dǎo)己方飛機(jī)執(zhí)行作戰(zhàn)任務(wù)的作戰(zhàn)支援飛機(jī),起到活動(dòng)雷達(dá)站和空中指揮中心的作用,是現(xiàn)代戰(zhàn)爭中重要的武器裝備。DDPG 算法應(yīng)用于突防策略研究時(shí),一般將預(yù)警機(jī)雷達(dá)威脅簡化為一個(gè)靜態(tài)的禁飛區(qū),但這樣無法反映真實(shí)作戰(zhàn)場景下巡航導(dǎo)彈遇到的動(dòng)態(tài)預(yù)警威脅,因此在解決巡航導(dǎo)彈突防航跡規(guī)劃問題時(shí),需要在DDPG 算法中引入預(yù)警機(jī)雷達(dá)動(dòng)態(tài)探測(cè)概率預(yù)測(cè)公式。
E2-D 預(yù)警機(jī)的雷達(dá)在一定的虛警概率下,一次掃描對(duì)目標(biāo)的發(fā)現(xiàn)概率為[14]:
式中:
其中,no為一次掃描脈沖積累數(shù),yo為虛警時(shí)的檢測(cè)門限,S/N 為信噪比。
對(duì)其曲線進(jìn)行擬合可得預(yù)警雷達(dá)探測(cè)瞬時(shí)概率與目標(biāo)的雷達(dá)散射截面積值σ 和目標(biāo)與雷達(dá)的R的計(jì)算公式為:
其中,R的單位為km,σ的單位為m2;c1與c2和雷達(dá)的工作模式和場景有關(guān),本文分別取為1.5和1.5×10-8.5。
巡航導(dǎo)彈突防過程為一個(gè)馬爾科夫決策過程(Markov Decision Process,MDP),需要對(duì)導(dǎo)彈運(yùn)動(dòng)模型、狀態(tài)空間、動(dòng)作空間、獎(jiǎng)勵(lì)函數(shù)進(jìn)行建模。
可以對(duì)突防過程的彈道進(jìn)行簡化:導(dǎo)彈和預(yù)警機(jī)均可視為質(zhì)點(diǎn),巡航導(dǎo)彈采用3自由度質(zhì)點(diǎn)運(yùn)動(dòng)。
由于對(duì)抗雙方均設(shè)為質(zhì)點(diǎn),可以將巡航導(dǎo)彈、目標(biāo)、預(yù)警機(jī)的質(zhì)心位置ot、彈目質(zhì)心位置的距離lt以及航向角φt作為狀態(tài)空間,即狀態(tài)空間為st=[ot,lt,φt]。
巡航導(dǎo)彈處在一個(gè)連續(xù)的動(dòng)作空間,其動(dòng)作空間設(shè)為巡航導(dǎo)彈在x、y、z 3 個(gè)方向的速度分量,即vx、vy、vz。
2.4.1 導(dǎo)彈成功擊中目標(biāo)獎(jiǎng)勵(lì)
巡航導(dǎo)彈采取突防策略的主要目的是在避開預(yù)警威脅的情況下,成功擊中目標(biāo)。其獎(jiǎng)勵(lì)函數(shù)為:
2.4.2 導(dǎo)彈和目標(biāo)相對(duì)距離獎(jiǎng)勵(lì)
導(dǎo)彈可目標(biāo)的距離越近,導(dǎo)彈擊中目標(biāo)的可能性越大,其獎(jiǎng)勵(lì)函數(shù)為:
其中,lt為導(dǎo)彈與目標(biāo)當(dāng)回合的距離。
2.4.3 導(dǎo)彈速度和彈目連線夾角獎(jiǎng)勵(lì)
導(dǎo)彈速度和彈目連線夾角即為視線角,視線角越小,巡航導(dǎo)彈擊中目標(biāo)的可能性越大,其獎(jiǎng)勵(lì)函數(shù)為:
其中,φt為導(dǎo)彈與目標(biāo)當(dāng)回合的視線角。
2.4.4 視線角變化率獎(jiǎng)勵(lì)
視線角變化率獎(jiǎng)勵(lì)的具體形式為:
其中,φt-1為導(dǎo)彈與目標(biāo)上一回合的視角。
2.4.5 探測(cè)概率降低獎(jiǎng)勵(lì)
其中,Pd為雷達(dá)探測(cè)概率,k 為比例系數(shù)。
綜合考慮上述5 種獎(jiǎng)勵(lì)模型,每回合巡航導(dǎo)彈的動(dòng)作獎(jiǎng)勵(lì)為:
訓(xùn)練完成后的總獎(jiǎng)勵(lì)為:
仿真場景主要對(duì)巡航導(dǎo)彈、攻擊目標(biāo)、預(yù)警機(jī)的位置、機(jī)動(dòng)參數(shù)和機(jī)動(dòng)范圍進(jìn)行設(shè)置。作戰(zhàn)場景如圖3 所示,主要為巡航導(dǎo)彈、目標(biāo)和預(yù)警機(jī)的空間位置關(guān)系。預(yù)警機(jī)在7 500 m 高度以“跑道形”巡邏線探測(cè)巡航導(dǎo)彈,直邊長度為70 km,弧線半徑為15 km,航線中心點(diǎn)坐標(biāo)為東經(jīng)119.5°、北緯20°、海拔7 500 m。巡航彈目標(biāo)為位于東經(jīng)120°、北緯20°、海拔15 m的宙斯盾艦船,巡航導(dǎo)彈的發(fā)射點(diǎn)位于東經(jīng)117.5°、北緯20°、海拔15 m。其中巡航導(dǎo)彈的最大巡航速度為300 m/s,目標(biāo)的最大速度為200 m/s;當(dāng)巡航導(dǎo)彈和目標(biāo)的相對(duì)距離小于0.05 km時(shí)假定巡航導(dǎo)彈擊中目標(biāo)。
圖3 巡航導(dǎo)彈突防典型作戰(zhàn)場景
仿真的軟件環(huán)境為:Windows 10、Python3.7以及TensorFlow 架構(gòu),硬件環(huán)境為GTX2060 和64 GB DDR4 內(nèi)存。Actor、Critic 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)均采用2 層隱藏層的全連接神經(jīng)網(wǎng)絡(luò),隱藏單元數(shù)為256 和32;超參數(shù)設(shè)置如下:學(xué)習(xí)率為0.000 1,折扣因子為0.95,目標(biāo)網(wǎng)絡(luò)更新系數(shù)為0.005,經(jīng)驗(yàn)回放池容量為10 000。
分別使用傳統(tǒng)DDPG 算法和改進(jìn)DDPG 算法對(duì)巡航導(dǎo)彈應(yīng)對(duì)動(dòng)態(tài)預(yù)警威脅突防進(jìn)行訓(xùn)練,其每回合獎(jiǎng)勵(lì)值曲線如圖4 所示,數(shù)據(jù)對(duì)比如表1 所示。
圖4 算法改進(jìn)前后不同訓(xùn)練回合數(shù)下的獎(jiǎng)勵(lì)值
表1 算法改進(jìn)前后數(shù)據(jù)對(duì)比
改進(jìn)后的DDPG 算法由于其探索噪聲時(shí)序相關(guān),探索能力更高,收斂速度更快,相較于傳統(tǒng)的算法模型訓(xùn)練達(dá)到穩(wěn)定時(shí)間縮短了一半,訓(xùn)練收斂后改進(jìn)算法每回合探索步數(shù)更少,因而其穩(wěn)定每回合獎(jiǎng)勵(lì)值更低。訓(xùn)練完成后模型能在1 s 內(nèi)生成巡航導(dǎo)彈自主避開預(yù)警威脅打擊目標(biāo)的機(jī)動(dòng)軌跡指令。
圖5 為模型訓(xùn)練完成后測(cè)試模型得到的一個(gè)攻防場景圖,其中預(yù)警機(jī)巡航軌跡為跑道型軌跡,目標(biāo)直線航行,巡航導(dǎo)彈避開預(yù)警威脅后成功擊中目標(biāo)。
圖5 典型作戰(zhàn)場景下訓(xùn)練后攻防軌跡圖
本文首先構(gòu)建了巡航導(dǎo)彈突防時(shí)的典型作戰(zhàn)場景,給出了預(yù)警機(jī)雷達(dá)探測(cè)概率的預(yù)測(cè)公式;然后采用一種基于時(shí)序相關(guān)探索噪聲的改進(jìn)DDPG 算法求解得到了巡航導(dǎo)彈快速智能突防算法。仿真實(shí)驗(yàn)表明,在預(yù)警機(jī)雷達(dá)威脅下采用上述算法巡航導(dǎo)彈可以實(shí)現(xiàn)快速主動(dòng)突防。該模型的訓(xùn)練時(shí)間大約為30 min,訓(xùn)練完成后可在1 s 內(nèi)生成突防機(jī)動(dòng)軌跡,遠(yuǎn)遠(yuǎn)超過傳統(tǒng)航跡規(guī)劃算法的速度;而且該算法具備良好的適應(yīng)性和延展性,可用于廣泛的作戰(zhàn)場景中。