張宏鵬,黃長(zhǎng)強(qiáng),軒永波,唐上欽
(1.空軍工程大學(xué) 航空工程學(xué)院,陜西 西安 710038; 2.空軍研究院 航空兵研究所,北京 100085)
機(jī)動(dòng)決策是指戰(zhàn)斗機(jī)根據(jù)空戰(zhàn)過程中迅速變化的態(tài)勢(shì)信息做出相應(yīng)的機(jī)動(dòng)動(dòng)作。機(jī)動(dòng)決策以獲得有利的攻擊位置或逃離敵機(jī)攻擊范圍為目的,是無人作戰(zhàn)飛機(jī)(UCAV)進(jìn)行自主空戰(zhàn)所必須具備的關(guān)鍵技術(shù)。
國(guó)內(nèi)外學(xué)者為解決戰(zhàn)斗機(jī)自主決策問題提出了多種自主決策方法。文獻(xiàn)[1]提出利用博弈論的方法,用矩陣的形式評(píng)估敵我雙方可能選擇的機(jī)動(dòng),從而選取對(duì)我方最有利的機(jī)動(dòng)動(dòng)作;文獻(xiàn)[2]提出基于多級(jí)影響圖的機(jī)動(dòng)決策方法;文獻(xiàn)[3]提出了一種結(jié)合人工勢(shì)場(chǎng)[4]、滾動(dòng)時(shí)域控制[5]和粒子群算法[6]的戰(zhàn)斗機(jī)空戰(zhàn)機(jī)動(dòng)決策方法;文獻(xiàn)[7]構(gòu)造了基于滾動(dòng)時(shí)域的無人機(jī)空戰(zhàn)決策專家系統(tǒng);文獻(xiàn)[8]提出了結(jié)合貝葉斯推理與滾動(dòng)時(shí)域優(yōu)化的自主決策方案;文獻(xiàn)[9]針對(duì)空戰(zhàn)雙方毀傷概率的不確定性,將魯棒優(yōu)化[10]思想引入無人機(jī)空戰(zhàn)博弈模型中;文獻(xiàn)[11]提出了基于統(tǒng)計(jì)學(xué)原理[12]的魯棒機(jī)動(dòng)決策方法;文獻(xiàn)[13]提出了一種基于連續(xù)動(dòng)作集強(qiáng)化學(xué)習(xí)的無人機(jī)機(jī)動(dòng)決策方法;文獻(xiàn)[14]提出了一種將多目標(biāo)優(yōu)化思想[15]與強(qiáng)化學(xué)習(xí)[16]相結(jié)合的機(jī)動(dòng)決策模型;文獻(xiàn)[17]將博弈論和直覺模糊集結(jié)合,解決了不確定環(huán)境下無人機(jī)空戰(zhàn)的機(jī)動(dòng)決策問題。上述方法中,矩陣博弈方法不適于大動(dòng)作空間的機(jī)動(dòng)決策,多級(jí)影響圖法不滿足實(shí)時(shí)性要求,滾動(dòng)時(shí)域法和基于統(tǒng)計(jì)學(xué)原理的方法選擇機(jī)動(dòng)動(dòng)作時(shí)優(yōu)化區(qū)間有限,強(qiáng)化學(xué)習(xí)法采集到有效樣本的難度極大且訓(xùn)練時(shí)間很長(zhǎng)。同時(shí),現(xiàn)有決策方法所使用的機(jī)動(dòng)動(dòng)作較少,飛機(jī)機(jī)動(dòng)方式不夠靈活。
為解決上述問題,本文提出了一種基于深度神經(jīng)網(wǎng)絡(luò)(DNN)的機(jī)動(dòng)決策模型及方法。首先構(gòu)建了新的機(jī)動(dòng)動(dòng)作庫,共36種機(jī)動(dòng),增強(qiáng)了飛行的靈活性。其次,利用深度學(xué)習(xí)技術(shù)[18]和272 160種飛行樣本,以當(dāng)前態(tài)勢(shì)及飛行控制量為輸入,以一段較長(zhǎng)時(shí)域后的態(tài)勢(shì)為輸出,構(gòu)造了具有一定態(tài)勢(shì)預(yù)測(cè)能力的DNN. 空戰(zhàn)仿真時(shí),利用該網(wǎng)絡(luò)根據(jù)當(dāng)前信息從機(jī)動(dòng)動(dòng)作庫中選取輸出態(tài)勢(shì)最優(yōu)的機(jī)動(dòng)動(dòng)作,從而增強(qiáng)決策智能化程度,避免強(qiáng)化學(xué)習(xí)法的低效率采樣、滾動(dòng)時(shí)域法優(yōu)化區(qū)間有限的缺點(diǎn),并滿足較高的實(shí)時(shí)性要求。最后通過有效性仿真、與文獻(xiàn)[11]方法的對(duì)抗性仿真和對(duì)空戰(zhàn)過程的態(tài)勢(shì)評(píng)估,檢驗(yàn)了本文方法有效性及優(yōu)越性。
在研究UCAV機(jī)動(dòng)決策的過程中,采用以法向過載、切向過載和滾轉(zhuǎn)角為飛行操控量的UCAV運(yùn)動(dòng)動(dòng)力學(xué)模型。為簡(jiǎn)化問題的復(fù)雜度,不考慮飛行過程中的迎角和側(cè)滑角,將地面坐標(biāo)系視為慣性系,同時(shí)忽略地球自轉(zhuǎn)及公轉(zhuǎn)的影響,并且不考慮地球曲率變化。具體公式[19]如下:
(1)
美國(guó)國(guó)家航空航天局學(xué)者設(shè)計(jì)了7種基本機(jī)動(dòng)動(dòng)作[20]:1)保持原有狀態(tài)飛行;2)最大加速直飛;3)最大過載左轉(zhuǎn);4)最大過載右轉(zhuǎn);5)最大過載爬升;6)最大過載俯沖;7)最大減速飛行。在此基礎(chǔ)上對(duì)機(jī)動(dòng)動(dòng)作進(jìn)行擴(kuò)展,具體方式為在(-180°, 180°)范圍內(nèi)每隔10°選擇一個(gè)滾轉(zhuǎn)角,同時(shí)使UCAV縱向過載和側(cè)向過載最大。由此構(gòu)成36種機(jī)動(dòng)動(dòng)作,軌跡如圖1所示。由于考慮了滾轉(zhuǎn)角速度,給定滾轉(zhuǎn)角后,飛機(jī)需要從初始滾轉(zhuǎn)角開始滾轉(zhuǎn),故圖中軌跡組成的圖形有開口,且滾轉(zhuǎn)角速度越大、開口越小。
圖1 動(dòng)作庫Fig.1 Maneuver library
深度學(xué)習(xí)崛起于21世紀(jì)初,是機(jī)器學(xué)習(xí)的一個(gè)分支領(lǐng)域。它是從數(shù)據(jù)中學(xué)習(xí)表示的一種數(shù)學(xué)框架,強(qiáng)調(diào)從連續(xù)的層中進(jìn)行學(xué)習(xí)[21]。深度學(xué)習(xí)中的“深度”指的并不是利用這種方法所獲取的更深層次的理解,而是指一系列連續(xù)的表示層[22]。在深度學(xué)習(xí)中,這些表示層是通過叫作神經(jīng)網(wǎng)絡(luò)的模型來學(xué)習(xí)得到的。DNN的結(jié)構(gòu)如圖2所示。
圖2 深度神經(jīng)網(wǎng)絡(luò)Fig.2 Deep neural network
2.2.1 空戰(zhàn)態(tài)勢(shì)信息
機(jī)動(dòng)決策的過程是根據(jù)態(tài)勢(shì)信息選擇最有利于己方機(jī)動(dòng)動(dòng)作的過程。我機(jī)與敵機(jī)的態(tài)勢(shì)信息,直接或者間接影響雙方武器作戰(zhàn)效能的發(fā)揮[23],從而影響空戰(zhàn)的最終結(jié)果。態(tài)勢(shì)信息主要有以下3種:
1)距離態(tài)勢(shì):敵我距離、絕對(duì)高度和相對(duì)高度。
2)速度態(tài)勢(shì):敵我絕對(duì)速度和相對(duì)接近速度。
3)角度態(tài)勢(shì):我機(jī)機(jī)頭指向相對(duì)于視線矢量的傾角和偏角,敵機(jī)機(jī)頭指向相對(duì)于視線矢量的傾角和偏角,視線轉(zhuǎn)動(dòng)角速度。
2.2.2 DNN決策模型
本文提出一種基于DNN的決策模型,包括兩個(gè)部分:DNN訓(xùn)練和DNN決策。具體如下:
DNN訓(xùn)練過程如圖3所示。以UCAV機(jī)頭指向在水平面的投影為x軸方向,z軸與水平面垂直,y軸方向按右手定則選取,此坐標(biāo)系為采樣坐標(biāo)系。UCAV初始時(shí)刻位于坐標(biāo)原點(diǎn),以初始航跡傾角γ0、初始滾轉(zhuǎn)角μ0、初始速度v0和UCAV將要采用的動(dòng)作庫中某一目標(biāo)滾轉(zhuǎn)角μt作為DNN輸入,令UCAV在當(dāng)前γ0、μ0、v0下采用μt飛行一段固定時(shí)間T,記錄此時(shí)UCAV的航跡傾角γt和航跡偏角ψt,并將其作為DNN輸出。
圖3 DNN訓(xùn)練Fig.3 DNN training
通過對(duì)4種輸入均勻采樣并進(jìn)行飛行仿真,得到對(duì)應(yīng)的輸出,由此獲得大量飛行樣本。再利用樣本訓(xùn)練DNN,使其獲得根據(jù)當(dāng)前狀態(tài)和動(dòng)作預(yù)測(cè)未來狀態(tài)的能力。采樣范圍及間隔如表1所示。
表1 采樣范圍及間隔Tab.1 Sampling range and interval
2.2.3 決策目標(biāo)函數(shù)
本文方法用于解決近距空戰(zhàn)的機(jī)動(dòng)決策問題,目標(biāo)是使己方快速達(dá)成導(dǎo)彈發(fā)射條件,不考慮使用航炮的攻擊方式。因此,結(jié)合DNN的輸出量,設(shè)計(jì)決策目標(biāo)函數(shù)如下:
Tar=α1|γp-γLOS|+α2|ψp+ψt-ψLOS|,
(2)
式中:γp和ψp分別為經(jīng)過DNN預(yù)測(cè)后得到的我機(jī)在2.2.2節(jié)中采樣坐標(biāo)系下的航跡傾角和航跡偏角;α1和α2為決策目標(biāo)函數(shù)中的權(quán)重,由于滿足導(dǎo)彈發(fā)射條件既要考慮傾角也要考慮偏角,因此進(jìn)攻時(shí)取兩個(gè)權(quán)重均為0.5;γLOS和ψLOS分別為視線矢量RLOS在當(dāng)前坐標(biāo)系下的傾角和偏角。DNN決策的目的是從動(dòng)作庫中選出使T時(shí)間后的目標(biāo)函數(shù)值Tar最小的動(dòng)作,由此使得UCAV快速達(dá)到導(dǎo)彈發(fā)射條件。
為客觀描述空戰(zhàn)過程,設(shè)計(jì)空戰(zhàn)態(tài)勢(shì)評(píng)估函數(shù)。現(xiàn)有決策方法的目的是找到使態(tài)勢(shì)函數(shù)最大的動(dòng)作,而本文方法中態(tài)勢(shì)函數(shù)僅用于評(píng)估我機(jī)在空戰(zhàn)中的優(yōu)劣勢(shì)情況,不參與機(jī)動(dòng)決策。而敵機(jī)仍采用現(xiàn)有方法,即采用使態(tài)勢(shì)函數(shù)值最大的機(jī)動(dòng)動(dòng)作。
3.1.1 角度態(tài)勢(shì)
在空戰(zhàn)中最重要的事情就是射擊,其次是戰(zhàn)斗中的各種戰(zhàn)術(shù)動(dòng)作,最后才是飛行能力[24]。而不論是使用航炮還是導(dǎo)彈進(jìn)行射擊,首先要滿足角度要求,因此,角度是空戰(zhàn)過程中最重要的因素。角度態(tài)勢(shì)函數(shù)如下:
(3)
(4)
式中:Qγ為傾角態(tài)勢(shì)函數(shù);Qψ為偏角態(tài)勢(shì)函數(shù);γr和ψr分別為機(jī)頭相對(duì)于視線的傾角和偏角;(xa,ya,za)和(xb,yb,zb)分別為我方和敵方的三維坐標(biāo),我方計(jì)算角度態(tài)勢(shì)值時(shí)視線矢量RLOS=(xb-xa,yb-ya,zb-za),敵方計(jì)算角度態(tài)勢(shì)值時(shí)視線矢量RLOS=(xa-xb,ya-yb,za-zb)。
3.1.2 距離態(tài)勢(shì)
影響距離態(tài)勢(shì)的主要因素是導(dǎo)彈的射程,因此設(shè)計(jì)距離態(tài)勢(shì)函數(shù)為
(5)
式中:QR為距離態(tài)勢(shì)函數(shù);Rm為導(dǎo)彈射程;σ為其標(biāo)準(zhǔn)偏差;R為兩機(jī)直線距離。當(dāng)敵機(jī)位于導(dǎo)彈射程之內(nèi)時(shí),距離態(tài)勢(shì)值恒為1;當(dāng)敵機(jī)位于射程之外時(shí),距離越大,態(tài)勢(shì)值越小。
空戰(zhàn)過程中飛機(jī)的實(shí)時(shí)飛行高度也十分重要,高度太低容易出現(xiàn)墜機(jī)事故,太高不利于飛機(jī)性能發(fā)揮。因此設(shè)計(jì)高度態(tài)勢(shì)函數(shù):
(6)
式中:QH為高度態(tài)勢(shì)函數(shù);H為飛行高度;Hl為飛行高度下限;Hu為飛行高度上限。
綜合考慮角度、距離和高度因素,用加權(quán)求和的方式計(jì)算空戰(zhàn)態(tài)勢(shì)函數(shù)值,公式如下:
(7)
為驗(yàn)證本文方法的優(yōu)越性,敵機(jī)采用文獻(xiàn)[11]中的自主決策算法。敵機(jī)空戰(zhàn)機(jī)動(dòng)動(dòng)作庫與我機(jī)相同,如1.2節(jié)所示??諔?zhàn)勝利首先必須滿足導(dǎo)彈發(fā)射條件,如(8)式所示。
(8)
圖4 勝負(fù)判定Fig.4 Judgement of victory or defeat
采樣范圍及間隔如表1所示,使用(1)式的UCAV運(yùn)動(dòng)動(dòng)力學(xué)方程進(jìn)行仿真實(shí)驗(yàn),共得到272 160組樣本。由于樣本數(shù)量較多,因此采用DNN構(gòu)建從當(dāng)前飛行狀態(tài)和控制量到未來飛行狀態(tài)的映射,提高網(wǎng)絡(luò)預(yù)測(cè)的準(zhǔn)確性、減少網(wǎng)絡(luò)訓(xùn)練時(shí)間。同時(shí)為降低過擬合風(fēng)險(xiǎn),加入丟棄層[16]。訓(xùn)練算法為RMSProp,損失函數(shù)設(shè)為樣本的均方誤差,學(xué)習(xí)率取0.001. 網(wǎng)絡(luò)結(jié)構(gòu)如表2所示。
表2 網(wǎng)絡(luò)結(jié)構(gòu)Tab.2 Structure of network
圖5所示為DNN訓(xùn)練過程中的訓(xùn)練集和驗(yàn)證集的預(yù)測(cè)準(zhǔn)確率變化曲線,其中訓(xùn)練次數(shù)為50. 從圖5中可以看出,由于訓(xùn)練樣本采樣均勻且網(wǎng)絡(luò)有一定深度,因此網(wǎng)絡(luò)預(yù)測(cè)準(zhǔn)確率較高。
圖5 預(yù)測(cè)準(zhǔn)確率Fig.5 Accuracy of prediction
仿真實(shí)驗(yàn)共分為兩個(gè)部分:第1部分為一種初始態(tài)勢(shì),第2部分為3種初始態(tài)勢(shì)。首先,為驗(yàn)證本文方法的有效性,在一種初始態(tài)勢(shì)下,敵機(jī)采用直線飛行策略;其次,為驗(yàn)證本文方法的對(duì)抗性,敵機(jī)采用3.2節(jié)所示的自主決策算法,在3種不同的初始態(tài)勢(shì)下進(jìn)行仿真實(shí)驗(yàn)。
通用參數(shù)設(shè)置如下:初始飛行速度為250 m/s,最大飛行速度為400 m/s,最小飛行速度為90 m/s;Rf為4 000 m,Rm為5 000 m,σ為100 m;Hl為500 m,Hu為12 000 m,初始飛行高度為5 000 m;最大飛行時(shí)間為100 s;決策周期為1 s;初始滾轉(zhuǎn)角始終為0°. 勝負(fù)判定方法如圖4所示。
敵機(jī)初始位置為(0 m,5 000 m,5 000 m),航跡傾角為0°,航跡偏角為0°;UCAV初始位置為(0 m,0 m,5 000 m),航跡傾角為0°,航跡偏角為0°. 空戰(zhàn)仿真軌跡、態(tài)勢(shì)函數(shù)值變化情況以及滾轉(zhuǎn)角變化情況如圖6所示。其中,UCAV軌跡及相應(yīng)參數(shù)變化用實(shí)線表示,敵機(jī)軌跡及相應(yīng)參數(shù)變化用虛線表示。在決策過程中,采用最大過載機(jī)動(dòng),并以最大滾轉(zhuǎn)角速度改變滾轉(zhuǎn)角。3個(gè)控制量均沒有突變,因此可以保證軌跡的平滑性。
圖6 敵機(jī)勻速直線運(yùn)動(dòng)Fig.6 Uniform straight line motion of enemy aircraft
圖6(c)反映了決策過程中機(jī)動(dòng)動(dòng)作的變化情況,飛機(jī)在每一個(gè)整數(shù)秒時(shí)刻進(jìn)行決策,之后根據(jù)決策結(jié)果以最大速度改變滾轉(zhuǎn)角。若飛機(jī)在下一個(gè)決策時(shí)刻之前已經(jīng)完成要做的機(jī)動(dòng),則保持此時(shí)的滾轉(zhuǎn)角不變;若在下一個(gè)決策時(shí)仍未完成上一個(gè)動(dòng)作,則不再繼續(xù)該動(dòng)作,轉(zhuǎn)而做出新的機(jī)動(dòng)。從圖6(c)中可以看出:敵機(jī)滾轉(zhuǎn)角始終為0°,處于勻速直線運(yùn)動(dòng)狀態(tài);UCAV在第1.0 s時(shí)采用180°的滾轉(zhuǎn)角機(jī)動(dòng),完成動(dòng)作后角度保持不變;在第2.0 s時(shí)減小滾轉(zhuǎn)角度,采用120°滾轉(zhuǎn)機(jī)動(dòng);在第3.0 s時(shí)采用60°滾轉(zhuǎn)角機(jī)動(dòng);在第4.0 s時(shí)根據(jù)網(wǎng)絡(luò)計(jì)算結(jié)果,又采用120°滾轉(zhuǎn)機(jī)動(dòng);在第5.0 s時(shí)UCAV減小滾轉(zhuǎn)角至20°;第6.0 s時(shí)又將滾轉(zhuǎn)角增大至150°;最終在第7.0 s時(shí)達(dá)到勝利條件。
態(tài)勢(shì)1:敵機(jī)初始位置為(0 m,6 000 m,5 000 m),航跡傾角為0°,航跡偏角為0°;UCAV初始位置為(0 m,0 m,5 000 m),航跡傾角為0°,航跡偏角為0°. 空戰(zhàn)對(duì)抗結(jié)果如圖7所示。
圖7 敵機(jī)自主機(jī)動(dòng)態(tài)勢(shì)1Fig.7 Autonomous maneuver of enemy aircraft at Situation 1
從圖7中可以看出,空戰(zhàn)雙方初始時(shí)刻處于均勢(shì)狀態(tài),雙方態(tài)勢(shì)函數(shù)值相同。由滾轉(zhuǎn)角變化情況可知,與敵機(jī)采用勻速直線運(yùn)動(dòng)時(shí)的決策結(jié)果不同,態(tài)勢(shì)1下UCAV在每個(gè)決策時(shí)刻計(jì)算出的最優(yōu)動(dòng)作均為90°滾轉(zhuǎn)機(jī)動(dòng),因此UCAV在完成該機(jī)動(dòng)后控制量不再改變。而敵機(jī)除第3.0 s外其他每個(gè)決策時(shí)刻都選擇了新的動(dòng)作。最后,由于UCAV率先達(dá)成導(dǎo)彈發(fā)射條件且態(tài)勢(shì)函數(shù)值大于敵機(jī),因此獲得勝利。同時(shí),UCAV只用了一個(gè)機(jī)動(dòng)動(dòng)作,而敵機(jī)多次改變動(dòng)作,表明本文方法決策效率較高。
同時(shí),從敵機(jī)4次小角度的動(dòng)作調(diào)整可以看出,所設(shè)計(jì)的動(dòng)作庫能滿足機(jī)動(dòng)決策需要,傳統(tǒng)的動(dòng)作庫中不同動(dòng)作的滾轉(zhuǎn)角通常相差45°或90°,使得飛行不夠靈活。
態(tài)勢(shì)2:敵機(jī)初始位置為(5 000 m,5 000 m,5 000 m),航跡傾角為0°,航跡偏角為-135°;UCAV初始位置為(0 m,0 m,5 000 m),航跡傾角為0°,航跡偏角為45°. 空戰(zhàn)對(duì)抗結(jié)果如圖8所示。
圖8 敵機(jī)自主機(jī)動(dòng)態(tài)勢(shì)2Fig.8 Autonomous maneuver of enemy aircraft at Situation 2
從圖8中可以看出,初始時(shí)刻空戰(zhàn)雙方相向而行。UCAV在第1.0 s時(shí)選擇滾轉(zhuǎn)角為170°的左轉(zhuǎn)機(jī)動(dòng),而敵機(jī)選擇滾轉(zhuǎn)角為110°的左轉(zhuǎn)機(jī)動(dòng)。由于UCAV滾轉(zhuǎn)角選擇較大,因此其態(tài)勢(shì)函數(shù)值經(jīng)過短暫上升后迅速下降。由于轉(zhuǎn)彎較大,因此敵機(jī)在第2.0 s時(shí)便選擇向右滾轉(zhuǎn),而UCAV則在第3.0 s時(shí)才選擇向右滾轉(zhuǎn)。最終在第5.6 s時(shí),雙方均達(dá)成導(dǎo)彈發(fā)射條件,但由于此時(shí)UCAV的態(tài)勢(shì)函數(shù)值小于敵機(jī),被判為失敗。
態(tài)勢(shì)3:敵機(jī)初始位置為(5 000 m,5 000 m,5 000 m),航跡傾角為0°,航跡偏角為-135°;UCAV初始位置為(0 m,0 m,5 000 m),航跡傾角為0°,航跡偏角為0°. 空戰(zhàn)對(duì)抗結(jié)果如圖9所示。
圖9 敵機(jī)自主機(jī)動(dòng)態(tài)勢(shì)3Fig.9 Autonomous maneuver of enemy aircraft at Situation 3
根據(jù)態(tài)勢(shì)3可知,空戰(zhàn)開始時(shí)敵機(jī)機(jī)頭直接指向UCAV,而UCAV機(jī)頭相對(duì)于視線的偏角為45°,敵機(jī)處于有利位置。由圖9可知,UCAV在第1.0 s和第4.0 s時(shí)經(jīng)過兩次機(jī)動(dòng),最終轉(zhuǎn)劣勢(shì)為優(yōu)勢(shì),在第6.0 s時(shí)達(dá)成勝利條件,且態(tài)勢(shì)函數(shù)值高于敵機(jī),因此獲得空戰(zhàn)勝利。
空戰(zhàn)機(jī)動(dòng)可分為進(jìn)攻和逃逸兩種,因此,可通過修改決策目標(biāo)函數(shù)中的權(quán)重,選擇使機(jī)頭指向與視線矢量的夾角最大機(jī)動(dòng),以達(dá)到逃逸的目的。另外,空戰(zhàn)態(tài)勢(shì)可簡(jiǎn)單分為有利和不利兩種,但選擇進(jìn)攻還是逃逸不應(yīng)根據(jù)態(tài)勢(shì)。例如,態(tài)勢(shì)3中UCAV初始時(shí)處于不利狀態(tài),但若選擇逃逸則空戰(zhàn)結(jié)果為敵機(jī)獲勝。因此設(shè)計(jì)逃逸機(jī)動(dòng)判斷條件,若滿足條件,則選擇逃逸,否則選擇進(jìn)攻。逃逸條件如下:
(9)
設(shè)置滿足上述條件的初始態(tài)勢(shì):敵機(jī)初始位置為(6 000 m,3 000 m,8 000 m),航跡傾角為0°,航跡偏角為180°;UCAV初始位置為(0 m,0 m,8 000 m),航跡傾角為0°,航跡偏角為180°. 此時(shí)UCAV處于被尾追狀態(tài)。圖10為UCAV僅采用攻擊的仿真結(jié)果。
圖10 攻擊機(jī)動(dòng)Fig.10 Attacking maneuver
從圖10(b)可以看出,初始時(shí)刻雙方態(tài)勢(shì)函數(shù)值差距較大,空戰(zhàn)過程中,UCAV態(tài)勢(shì)函數(shù)值有所上升,但始終低于敵機(jī)。圖10(c)顯示了UCAV的機(jī)動(dòng)情況。UCAV首先進(jìn)行-80°的滾轉(zhuǎn)機(jī)動(dòng),第3.0 s時(shí)又將滾轉(zhuǎn)角調(diào)整為-90°. 由圖10(c)可以看出由于僅采用攻擊,UCAV始終朝著減小與視線夾角的方向進(jìn)行機(jī)動(dòng),但初始時(shí)刻的劣勢(shì)使其無法僅通過攻擊的方式獲得勝利,最終在第9.8 s時(shí)敵機(jī)獲勝。圖11為UCAV采用混合方式的空戰(zhàn)仿真結(jié)果,即雙方態(tài)勢(shì)滿足 (9) 式時(shí),UCAV采用逃逸機(jī)動(dòng),不滿足時(shí)則采用攻擊機(jī)動(dòng)。其中,逃逸機(jī)動(dòng)時(shí)α1=-0.6,α2=0.4,進(jìn)攻時(shí)α1=α2=0.5,讓決策目標(biāo)函數(shù)值最小,可以達(dá)到使UCAV指向與視線矢量的夾角減小的目的,從而快速滿足導(dǎo)彈發(fā)射條件。逃逸時(shí)α2=0.4,此時(shí)讓決策目標(biāo)函數(shù)值最小,可以使ψLOS減小,從而為進(jìn)攻做準(zhǔn)備;若α2取負(fù),則ψLOS增大,導(dǎo)致我方在水平方向上始終處于不利地位,而α1=-0.6,此時(shí)讓決策目標(biāo)函數(shù)值最小,可以使γLOS增大,有助于在豎直方向上逃出敵方攻擊范圍。
圖11 混合機(jī)動(dòng)Fig.11 Hybrid maneuver
此次仿真時(shí)長(zhǎng)為56.8 s,說明采用逃逸機(jī)動(dòng)可以提高UCAV生存時(shí)間??諔?zhàn)過程中UCAV首先進(jìn)行逃逸,采用-140°的滾轉(zhuǎn)機(jī)動(dòng)向斜下方飛行,因?yàn)橄蛳路斤w行可以獲得重力幫助使UCAV在豎直方向上更快逃出對(duì)方攻擊范圍,同時(shí)也能保證在水平方向逃出對(duì)方攻擊范圍。從圖11(a)中可看出UCAV有明顯的高度下降,而由于敵機(jī)高度下降太晚,因此UCAV在第14.0 s時(shí)逃出對(duì)方攻擊范圍并轉(zhuǎn)入進(jìn)攻狀態(tài)。第14.0 s以前的動(dòng)作均為逃逸機(jī)動(dòng),以后的動(dòng)作均為進(jìn)攻機(jī)動(dòng)。進(jìn)攻時(shí),UCAV不再下降高度,而是水平盤旋以占據(jù)有利位置。最終在第56.8 s時(shí)雙方均滿足導(dǎo)彈發(fā)射條件,但由于UCAV態(tài)勢(shì)函數(shù)值較低,因此失敗。
用兩種方法分別進(jìn)行1 000次決策再計(jì)算其平均決策時(shí)間,結(jié)果如圖12所示。
圖12 決策用時(shí)Fig.12 Time cost of decision-making
由圖12可知,本文方法平均決策時(shí)間為0.063 s,對(duì)比方法為0.072 s. 對(duì)于速度為400 m/s的飛機(jī)來說,0.063 s內(nèi)大約飛過了25 m,相對(duì)于空戰(zhàn)雙方的距離來說可以忽略不計(jì),可認(rèn)為決策過程中雙方態(tài)勢(shì)基本不變,因此本文方法滿足實(shí)時(shí)性要求。
本文針對(duì)自主空戰(zhàn)機(jī)動(dòng)決策問題,提出了基于DNN的機(jī)動(dòng)決策方法。通過分析網(wǎng)絡(luò)訓(xùn)練結(jié)果、仿真實(shí)驗(yàn)結(jié)果和決策用時(shí),可以得到主要結(jié)論如下:
1)網(wǎng)絡(luò)訓(xùn)練結(jié)果表明,本文采樣方法合理,網(wǎng)絡(luò)參數(shù)設(shè)置合理,網(wǎng)絡(luò)對(duì)未來態(tài)勢(shì)的預(yù)測(cè)準(zhǔn)確性較高,避免了強(qiáng)化學(xué)習(xí)的低效率采樣。
2)所設(shè)計(jì)的動(dòng)作庫能滿足決策要求;由相應(yīng)的態(tài)勢(shì)函數(shù)值變化情況和滾轉(zhuǎn)角變化情況可知,在敵機(jī)采取簡(jiǎn)單直線機(jī)動(dòng)時(shí),本文方法能取得勝利,驗(yàn)證了該方法的有效性。
3)在敵機(jī)采取自主機(jī)動(dòng)的情況下,本文決策方法在均等態(tài)勢(shì)下能達(dá)成導(dǎo)彈發(fā)射條件,在劣勢(shì)情況下能通過多次機(jī)動(dòng)轉(zhuǎn)為優(yōu)勢(shì)態(tài)勢(shì)并獲得勝利,驗(yàn)證了該方法的優(yōu)越性;同時(shí)決策用時(shí)較對(duì)比方法縮短了約9 ms.
為使本文提出的決策方法能應(yīng)對(duì)更多不利態(tài)勢(shì),仍需要進(jìn)一步擴(kuò)展機(jī)動(dòng)動(dòng)作并優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)。