王因翰,范世鵬,*,吳廣,王江,何紹溟
1.北京理工大學(xué) 宇航學(xué)院,北京 100081
2.北京航天自動控制研究所,北京 100854
近幾十年來,防御體系不斷完善,我方飛行器在飛行過程中所面臨的生存壓力不斷增大,如何有效避開敵方攔截彈的攻擊是飛行器研發(fā)過程中的一項重要課題。目前飛行器規(guī)避攔截的主要策略有基于微分對策的規(guī)避策略和隨機機動規(guī)避策略。無論采用哪種博弈策略,為更好地規(guī)避攔截,都需要利用我方飛行器探測到的與敵方攔截彈相對運動信息,對其所用制導(dǎo)律及制導(dǎo)參數(shù)進行在線辨識。與單純基于運動學(xué)的傳統(tǒng)軌跡預(yù)測及規(guī)避策略相比,基于制導(dǎo)律辨識的規(guī)避策略能夠更準(zhǔn)確地預(yù)測敵方攔截彈飛行路線,制定針對性更強的規(guī)避方案。
然而,研究制導(dǎo)律辨識的文獻數(shù)量較少。攔截彈制導(dǎo)律辨識是一個復(fù)雜動態(tài)問題,若對攔截彈制導(dǎo)律辨識僅依靠某一時刻運動學(xué)信息,則辨識結(jié)果具有片面性。傳統(tǒng)辨識方法以卡爾曼濾波器為基礎(chǔ),通過將所測到的敵方導(dǎo)彈運動信息與卡爾曼濾波器的預(yù)測信息進行對比,不斷調(diào)整卡爾曼濾波器輸出數(shù)值直至測量值與真實值相近。文獻[13-14]設(shè)計了基于非線性多模自適應(yīng)卡爾曼濾波器的制導(dǎo)律辨識方法,設(shè)置多個卡爾曼濾波器并行運行,每個濾波器代表一種可能的敵方攔截彈制導(dǎo)律;文獻[15]在海戰(zhàn)防空攔截背景下對交互卡爾曼濾波進行了改進,利用改進交互卡爾曼濾波器對敵方反艦導(dǎo)彈所用制導(dǎo)律進行辨識?;诳柭鼮V波器的制導(dǎo)律辨識方法通常通過與其他方法相結(jié)合來增強模型的適應(yīng)性和準(zhǔn)確度,這類辨識方法存在以下問題:對獲取信息的連續(xù)性要求高,使工程應(yīng)用價值大打折扣,同時,也限制了我方飛行器的機動性;辨識過渡過程較長,在1 s以上,不能滿足強對抗條件下的快速性要求。
神經(jīng)網(wǎng)絡(luò)因其強大的自主學(xué)習(xí)能力,可從大量數(shù)據(jù)中提煉基本規(guī)律,在諸多問題上都得到了廣泛的應(yīng)用。其中,長短時記憶神經(jīng)網(wǎng)絡(luò)(LSTM)因其可模擬人類長期和短期記憶篩選能力,在解決動態(tài)問題上大放異彩。文獻[24]使用LSTM 網(wǎng)絡(luò)提出了一種時變結(jié)構(gòu)振動觀測模型,建立了時變結(jié)構(gòu)動力特性與振動間關(guān)系,能夠?qū)崿F(xiàn)對時變結(jié)構(gòu)模型的在線分析。文獻[25]針對空間機器人系統(tǒng)慣性張量測量問題,利用LSTM 神經(jīng)網(wǎng)絡(luò)建立了慣性張量在軌辨識模型。文獻[26]建立了基于LSTM 的戰(zhàn)場意圖識別模型,通過綜合分析戰(zhàn)場傳感器獲得的多源信息,實現(xiàn)對敵方目標(biāo)粗粒度戰(zhàn)術(shù)意圖的識別。文獻[27]應(yīng)用門循環(huán)單元(GRU)神經(jīng)網(wǎng)絡(luò)對航空發(fā)動機的剩余壽命進行預(yù)測,辨識依據(jù)為航空發(fā)動機內(nèi)部多個位置處的速度、維度和壓力。LSTM 網(wǎng)絡(luò)初步實現(xiàn)了動態(tài)問題數(shù)據(jù)快速分析,然而,由于其規(guī)模龐大,導(dǎo)致訓(xùn)練時間過長,為此,GRU 網(wǎng)絡(luò)在LSTM 網(wǎng)絡(luò)結(jié)構(gòu)上進行了簡化,在幾乎不影響網(wǎng)絡(luò)性能的條件下,有效地提升了網(wǎng)絡(luò)的訓(xùn)練速度。
針對強對抗條件下的敵方攔截彈制導(dǎo)律辨識問題,考慮到GRU 網(wǎng)絡(luò)的優(yōu)勢,本文提出了一種基于GRU 網(wǎng)絡(luò)的制導(dǎo)律快速辨識方法。建立相對運動學(xué)模型,以一段時間內(nèi)的敵我運動學(xué)信息作為樣本輸入,將所使用的攔截彈制導(dǎo)律參數(shù)作為類型標(biāo)簽,為該網(wǎng)絡(luò)構(gòu)建大量的多樣化樣本庫;其次,給定損失參數(shù),采用Adam 算法對GRU 網(wǎng)絡(luò)進行訓(xùn)練,使網(wǎng)絡(luò)參數(shù)達到最優(yōu),利用完成訓(xùn)練的GRU 網(wǎng)絡(luò),即可實現(xiàn)對敵方攔截彈制導(dǎo)律的在線快速辨識,在噪聲較大的條件下,辨識準(zhǔn)確度仍保持較高的水準(zhǔn)。
在慣性坐標(biāo)系下建立我方飛行器與敵方攔截彈(導(dǎo)彈)的運動學(xué)模型。導(dǎo)彈初始位置位于坐標(biāo)系原點,豎直向上,垂直于指向目標(biāo),按照右手定則確定,如圖1所示。
圖1 敵方攔截彈攔截我方飛行器示意圖Fig.1 Schematic view of an aircraft intercepted by an enemy missile
敵方攔截彈運動學(xué)可描述為
式中:、、為攔截彈在慣性系中的坐標(biāo);、為攔截彈速度傾角和速度偏角;()為攔截彈質(zhì)量;()為導(dǎo)彈推力;為攔截彈所受阻力;n 、n 分別為的攔截彈俯仰和偏航加速度。
比例導(dǎo)引(PN)制導(dǎo)律是目前應(yīng)用最為廣泛的制導(dǎo)律,在攻擊目標(biāo)過程中,導(dǎo)彈需用過載與相對速度和彈目視線角的乘積成正比;增強比例導(dǎo)引(APN)在PN 基礎(chǔ)上增加了目標(biāo)機動補償項,從而降低在命中點附近的彈道需用法向過載。2種制導(dǎo)律生成的加速度指令分別為
式中:為制導(dǎo)參數(shù);為目標(biāo)加速度。
在我方飛行器攻擊末段,可近似認(rèn)為敵方攔截彈速度大小是不變的,即
我方飛行器在三維空間中按照一定規(guī)律進行機動,敵方可精確制導(dǎo)的攔截彈對我方飛行器進行攔截。在飛行過程中,我方飛行器可通過機載或彈載雷達實時獲取敵方攔截彈運動學(xué)信息,包括相對距離、彈目視線傾角q 和彈目視線偏角q 。在敵我相對運動模型中,其各自計算表達式為
敵方攔截彈以我方飛行器為目標(biāo),采用不同的制導(dǎo)律或制導(dǎo)參數(shù),都會控制攔截彈產(chǎn)生不同的加速度,進而使其沿著不同運動路線飛行,如圖2所示。
圖2 使用不同制導(dǎo)律導(dǎo)彈沿不同軌跡接近飛行器Fig.2 Missiles with different guidance laws approaching aircraft along different trajectories
圖3 信息獲取及辨識過程Fig.3 Process of information acquisition and guidance law identification
LSTM網(wǎng)絡(luò)是循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種,其通過“門”的設(shè)計實現(xiàn)對長期記憶的保留,解決了原始RNN 網(wǎng)絡(luò)在模型訓(xùn)練過程中存在的“梯度爆炸”或“梯度消失”問題。GRU 網(wǎng)絡(luò)將LSTM 神經(jīng)元結(jié)構(gòu)合并簡化,在保證準(zhǔn)確率的同時,加快訓(xùn)練速度,并減少存儲空間。
神經(jīng)網(wǎng)絡(luò)由大量神經(jīng)元組成,GRU 神經(jīng)元內(nèi)部結(jié)構(gòu)如圖4所示。
圖4 GRU 神經(jīng)元內(nèi)部結(jié)構(gòu)Fig.4 Inner structure of GRU
GRU 神經(jīng)元由以下幾部分組成:
1)兩個輸入:上一時刻的神經(jīng)元輸出h 和上一層的神經(jīng)元輸出x ,用來傳承上一時刻神經(jīng)元的輸出和接收上一層神經(jīng)元的輸出。
2)兩個門:重置門r ,用于計算之前的記憶需要保留多少;更新門z ,用于計算當(dāng)前時刻的更新內(nèi)容,計算方法為
4)一個輸出:最終輸出h ,根據(jù)當(dāng)前的輸入和內(nèi)部狀態(tài)計算輸出,計算方法為
式(5)~式(7)中:表 示sigmoid函 數(shù);表 示 權(quán)重矩陣;表示偏置量;計算符號·表示矩陣乘,計算符號⊙表示按元素乘。
GRU 網(wǎng)絡(luò)輸入端為
式中:size(input)表示輸入端矩陣大小;表示輸入維度;表示輸入步長。輸入數(shù)據(jù)為二維矩陣形式,相比于一維輸入的BP 網(wǎng)絡(luò),GRU 網(wǎng)絡(luò)可快速識別發(fā)現(xiàn)不同特征量在不同時間點變化。
使用GRU 網(wǎng)絡(luò)建立制導(dǎo)律辨識模型如圖5所示,包含輸入層、3個隱含層、輸出層,其中為隱含層神經(jīng)元數(shù)量。
圖5 基于GRU 制導(dǎo)律辨識模型Fig.5 Guidance law identification model based on GRU
輸入層輸入數(shù)據(jù)為敵我雙方運動學(xué)信息,采用tanh函數(shù)作為激活函數(shù),將時刻的輸入加權(quán)并壓縮到[-1,1]區(qū)間內(nèi),計算公式為
式中:h 為輸入層傳遞到隱含層的信息;w 為權(quán)重矩陣;x 為時刻輸入信息。
假設(shè)制導(dǎo)律及制導(dǎo)參數(shù)屬于給定集合,輸出層輸出為不同制導(dǎo)律的概率,輸出層計算公式為
輸出層激活函數(shù)為softmax,使GRU 網(wǎng)絡(luò)的輸出結(jié)果滿足:
本文采用監(jiān)督學(xué)習(xí)的方式對網(wǎng)絡(luò)進行訓(xùn)練,基于前述運動學(xué)模型進行數(shù)學(xué)仿真提取數(shù)據(jù)建立樣本庫,對網(wǎng)絡(luò)進行訓(xùn)練。
網(wǎng)絡(luò)訓(xùn)練是指網(wǎng)絡(luò)不斷調(diào)整各參數(shù)值以適應(yīng)訓(xùn)練樣本輸入輸出的過程,用于訓(xùn)練的樣本對網(wǎng)絡(luò)的優(yōu)化效果至關(guān)重要。為了盡可能覆蓋樣本空間,本文通過不同的敵我雙方初始狀態(tài)、我方目標(biāo)運動軌跡等方式使訓(xùn)練樣本多樣化。
樣本輸入形式為
式中:a 表示第時刻的輸入向量,上標(biāo)T 表示我方飛行器運動學(xué)信息,上標(biāo)M 表示敵方攔截彈運動學(xué)信息,上標(biāo)TM 表示敵我雙方相對運動學(xué)信息;為輸入步數(shù)。
為加快模型收斂,在輸入數(shù)據(jù)前需將原始數(shù)據(jù)轉(zhuǎn)化為區(qū)間相同的、無量綱的數(shù)值,即對其進行標(biāo)準(zhǔn)化和歸一化處理,消除不同指標(biāo)之間因?qū)傩圆煌鴰淼挠绊?。?dāng)前廣泛應(yīng)用的處理方法有最大最小線性變化、Logistics/Softmax 變化、反正切函數(shù)變化、Z-score規(guī)范化和對數(shù)變換等。本文采用的是最大最小線性變化,將數(shù)據(jù)縮放到[0,1]區(qū)間內(nèi),計算公式為
采用one-hot方法為樣本添加標(biāo)簽,標(biāo)簽與制導(dǎo)律映射關(guān)系如圖6所示。
圖6 標(biāo)簽與制導(dǎo)律映射關(guān)系Fig.6 Mapping relationship between tags and guidance laws
采用滑動時窗方式生成樣本以最大限度利用數(shù)據(jù),如圖7所示。為保證網(wǎng)絡(luò)適應(yīng)性及廣泛性,在從敵我雙方相對運動模型提取數(shù)據(jù)過程中。
圖7 樣本生成方法Fig.7 Method of sample generation
基于Adam 算法對GRU 網(wǎng)絡(luò)進行訓(xùn)練,該算法將Momentum 算法與RMSprop算法相結(jié)合,加入動量并使參數(shù)自適應(yīng)訓(xùn)練。與BP 算法相比,Adam 算法能夠有效避免網(wǎng)絡(luò)陷入局部最優(yōu)點,加速網(wǎng)絡(luò)收斂,提高算法魯棒性。
選取交叉熵函數(shù)作為損失函數(shù),其計算公式為
首先,計算各參數(shù)對目標(biāo)函數(shù)的梯度:
式中:為損失函數(shù);為所需訓(xùn)練參數(shù),包括權(quán)重和偏置。權(quán)重與偏置訓(xùn)練方式相同,下面推導(dǎo)以權(quán)重w 為例進行。
根據(jù)GRU 基本神經(jīng)元內(nèi)部結(jié)構(gòu),式(15)可化為
對于其他層之前時刻神經(jīng)元,其神經(jīng)元內(nèi)部誤差傳遞項均為
1)沿時間反向傳播
2)沿層反向傳播
由此式(21)可化為
由式(16)、式(18)、式(20)、式(23),可計算得要訓(xùn)練的參數(shù),∈{,}目標(biāo)函數(shù)的梯度g 。
對于和中的某一具體元素,基于Adam算法的參數(shù)更新公式為
式中:θ為更新前參數(shù);θ為更新后參數(shù);k為所訓(xùn)練參數(shù)在梯度矩陣g 中對應(yīng)梯度元素;為學(xué)習(xí)率;為平滑項,防止被零除;m'為一階矩估計,v'為二階矩估計;m為梯度一階矩;v 為梯度二階矩。
網(wǎng)絡(luò)流程如圖8 所示。建立好樣本庫及GRU 網(wǎng)絡(luò)后,分批次從訓(xùn)練樣本庫中抽取樣本輸入GRU 網(wǎng)絡(luò)中,計算訓(xùn)練集準(zhǔn)確度、損失函數(shù)值及訓(xùn)練時間;而后對網(wǎng)絡(luò)進行訓(xùn)練,訓(xùn)練完成后將測試樣本集輸入網(wǎng)絡(luò)進行測試,得到測試集準(zhǔn)確度和損失函數(shù)值;不斷重復(fù)直至訓(xùn)練次數(shù)或損失函數(shù)達到預(yù)設(shè)值。
圖8 神經(jīng)網(wǎng)絡(luò)訓(xùn)練流程Fig.8 Training process of neural network
為驗證所提方法準(zhǔn)確度和有效性,進行了三部分對比實驗。神經(jīng)網(wǎng)絡(luò)類型直接影響模型辨識準(zhǔn)確度,為了驗證GRU 神經(jīng)網(wǎng)絡(luò)相較其他網(wǎng)絡(luò)的優(yōu)勢,首先進行噪聲影響下不同類型網(wǎng)絡(luò)辨識準(zhǔn)確度對比仿真驗證;采用不同輸入步長對制導(dǎo)律辨識的效果不同,第2部分實驗對比輸入步長對模型的影響;神經(jīng)網(wǎng)絡(luò)通過隱含層來學(xué)習(xí)數(shù)據(jù)中信息,第3部分實驗探究隱含層神經(jīng)元數(shù)量對最終結(jié)果的影響。
設(shè)置相對運動學(xué)模型仿真步長為0.001 s,我方飛行器對攔截彈運動學(xué)信息測量更新頻率為50 Hz,輸入步長包括10、15、20、25、30五種情況,對應(yīng)的時間跨度分別為0.2 s、0.3 s、0.4 s、0.5 s、0.6 s。最終提取到訓(xùn)練樣本160 000個,每種時間跨度樣本各占20%,10種不同制導(dǎo)律各所占比例均為10%,提取到的樣本中隨機抽取10%用于測試,其余用于訓(xùn)練。在網(wǎng)絡(luò)訓(xùn)練參數(shù)中,dropout失效率為5%,批處理數(shù)量為3 000,每次實驗迭代次數(shù)為2 000次,網(wǎng)絡(luò)初始學(xué)習(xí)率為0.000 25,每100次迭代學(xué)習(xí)率衰減率為0.85。
選取輸入步長為15,隱含層數(shù)為3,每個隱含層神經(jīng)元數(shù)量=81時不同類型神經(jīng)網(wǎng)絡(luò)作為對比,不同類型網(wǎng)絡(luò)的訓(xùn)練效果、辨識準(zhǔn)確率如圖9和圖10所示。
圖9 不同類型神經(jīng)網(wǎng)絡(luò)類型損失函數(shù)Fig.9 Loss of different types of neural network
圖10 不同類型神經(jīng)網(wǎng)絡(luò)類型準(zhǔn)確度Fig.10 Accuracy of different types of neural network
LSTM 網(wǎng)絡(luò)與GRU 網(wǎng)絡(luò)識別準(zhǔn)確率分別為92.78%和95.88%,較RNN 網(wǎng)絡(luò)89.33%提升3.45%和6.55%,較BP 網(wǎng)絡(luò)提升1.44%和4.547 2%。證明LSTM 與GRU 與BP 相比,在處理與時序有關(guān)問題時具有較大優(yōu)勢。
我方飛行器在對敵方攔截彈運動學(xué)信息進行測量時會存在誤差,相對運動模型構(gòu)建與真實模型之間也會存在偏差,這兩者對模型輸入量的影響均可視為高斯白噪聲。設(shè)定各輸入?yún)?shù)噪聲標(biāo)準(zhǔn)差如表1所示,其中,噪聲水平一表示我方飛行器上傳感器正常工作且構(gòu)建模型與實際情況偏差較小,噪聲水平二表示傳感器因環(huán)境或構(gòu)建模型與實際情形而存在較大測量偏差,辨識準(zhǔn)確率變化如圖11所示。
表1 輸入?yún)?shù)高斯白噪聲標(biāo)準(zhǔn)差Table 1 Standard deviation of white Gaussian noise of input parameters
圖11 噪聲對不同類型網(wǎng)絡(luò)影響Fig.11 Influence of noise on different types of neural network
各類型網(wǎng)絡(luò)受噪聲水平一影響后準(zhǔn)確度變?yōu)?8.15% (BP)、85.26% (RNN)、92.37%(LSTM)和95.44% (GRU),分別下降3.19%(BP)、4.06% (RNN)、0.41% (LSTM)和0.44%(GRU),證明較低噪聲水平對除RNN 網(wǎng)絡(luò)外網(wǎng)絡(luò)的影響都較小。隨著噪聲的增大,各類型網(wǎng)絡(luò)準(zhǔn)確度都有所下降,BP網(wǎng)絡(luò)準(zhǔn)確率受噪聲影響最大,準(zhǔn)確度從無噪聲時91.34%下降到76.57%,GRU 網(wǎng)絡(luò)受噪聲影響最小,準(zhǔn)確度從無噪聲時95.88%下降到86.32%。
輸入片段時間跨度影響辨識效果。圖12和圖13對比了隱含層數(shù)量為3、每個隱含層神經(jīng)元數(shù)量=81和=100兩種情況下采用不同時間跨度對制導(dǎo)律進行辨識時網(wǎng)絡(luò)訓(xùn)練效果及辨識準(zhǔn)確度。
圖12 不同輸入步長下神經(jīng)網(wǎng)絡(luò)的損失函數(shù)Fig.12 Loss of neural network with different input steps
圖13 不同輸入步長下神經(jīng)網(wǎng)絡(luò)的辨識準(zhǔn)確度Fig.13 Accuracy of neural network with different input steps
由圖12和圖13中可得,網(wǎng)絡(luò)損失度隨迭代次數(shù)增加不斷下降,最終損失度最大值為0.330 9,所有模型最后均能夠收斂。時間跨度為0.3 s和0.5 s時識別效果較好,但時間跨度為0.3 s時輸入步長更少,所需計算量更小。
傳統(tǒng)基于濾波器的制導(dǎo)律辨識方法辨識所用時間在1 s以上,而基于GRU 網(wǎng)絡(luò)的制導(dǎo)律辨識網(wǎng)絡(luò)在完成訓(xùn)練后,實際使用中僅需將設(shè)定時間跨度內(nèi)的運動學(xué)信息片段輸入到網(wǎng)絡(luò)中即可,辨識所用時間在0.5 s內(nèi),相比于前者所用時間縮短50%以上。且前者要求我方飛行器滿足實時對攔截彈進行測量,限制了飛行器機動行,后者對測量連續(xù)性要求更低,在整個飛行過程中只需有一段時間片段滿足時間跨度要求即可。
每個隱含層都是在上一隱含層學(xué)習(xí)到特征基礎(chǔ)上繼續(xù)進行學(xué)習(xí),隱含層神經(jīng)元數(shù)量越多,該隱含層所能提取到的信息越充分。但神經(jīng)元數(shù)量增多會使訓(xùn)練參數(shù)數(shù)量增多,導(dǎo)致訓(xùn)練速度下降。圖14和圖15為時間跨度為0.3 s時,不同隱含層神經(jīng)元數(shù)量的GRU 網(wǎng)絡(luò)訓(xùn)練及辨識效果。
圖14 不同神經(jīng)元數(shù)量下神經(jīng)網(wǎng)絡(luò)的損失函數(shù)Fig.14 Loss of neural network with different number of neurons
圖15 不同神經(jīng)元數(shù)量下神經(jīng)網(wǎng)絡(luò)的準(zhǔn)確度Fig.15 Accuracy of neural network with different number of neurons
當(dāng)神經(jīng)元數(shù)量較少時,網(wǎng)絡(luò)對樣本學(xué)習(xí)不充分,辨識準(zhǔn)確率較低;隨著神經(jīng)元數(shù)量增加,網(wǎng)絡(luò)辨識準(zhǔn)確度整體呈現(xiàn)上升趨勢。但神經(jīng)元數(shù)量越多,對我方飛行器上計算機計算能力要求越高。當(dāng)神經(jīng)元數(shù)量=81時,準(zhǔn)確度為95.88%,能夠較好地平衡辨識準(zhǔn)確率和計算量。
與對意圖進行識別相比,對制導(dǎo)律進行辨識所需神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)更復(fù)雜。前者偏向定性計算,不同意圖間輸入差異性強;后者偏向定量計算,不同制導(dǎo)律對應(yīng)各輸入?yún)?shù)間差異性不明顯,對網(wǎng)絡(luò)的數(shù)據(jù)挖掘能力要求更高。
1)本文將神經(jīng)網(wǎng)絡(luò)應(yīng)用到制導(dǎo)律辨識上,提出了一種基于GRU 的導(dǎo)彈制導(dǎo)律辨識方法。首先建立導(dǎo)彈-目標(biāo)運動學(xué)模型,從中提取數(shù)據(jù)建立訓(xùn)練樣本集和測試樣本集,對神經(jīng)網(wǎng)絡(luò)模型進行訓(xùn)練和測試。
2)對比了不同條件下不同隱含層神經(jīng)元數(shù)量、不同類型模型的制導(dǎo)律辨識效果。結(jié)果表明,本文所提方法相比于其他方法具有更快的辨識速度和更高的準(zhǔn)確度。
3)探究了噪聲對神經(jīng)網(wǎng)絡(luò)辨識效果的影響。仿真顯示,噪聲較小時對網(wǎng)絡(luò)辨識準(zhǔn)確度影響不大,噪聲較高時,網(wǎng)絡(luò)辨識準(zhǔn)確度有所下降,但GRU 網(wǎng)絡(luò)模型相對于其他類型模型具有更好的抗干擾能力。
然而,由于未考慮敵我飛行器的動力學(xué),將影響本文所提出方法辨識的準(zhǔn)確性,后續(xù)將開展敵方攔截彈制導(dǎo)律與動力學(xué)環(huán)節(jié)一體化辨識方面的理論研究。