越凱強,李 波*,范盤龍
(1.西北工業(yè)大學(xué)電子信息學(xué)院,西安 710129;2.中國航空工業(yè)集團有限公司西安航空計算技術(shù)研究所,西安 710068)
戰(zhàn)斗機空對空作戰(zhàn)[1]是指敵我雙方飛機為爭奪空中優(yōu)勢并使得一方飛機進入另一方飛機的導(dǎo)彈攻擊區(qū)而進行的對抗性斗爭,目的是擊落或驅(qū)離敵方作戰(zhàn)飛機,從而取得戰(zhàn)區(qū)的制空權(quán)[2],機動決策是近距空戰(zhàn)的關(guān)鍵,最優(yōu)的機動動作有利于我方掌握空戰(zhàn)的主動權(quán),這對消滅敵方有生力量、獲取戰(zhàn)場制空權(quán)有著至關(guān)重要的作用[3-5]。
現(xiàn)有的機動決策方法,如:基于深度強化學(xué)習(xí)的知識進行自主機動決策[6]和基于貝葉斯理論的空戰(zhàn)機動決策[7]等方法,無法在信息不充分和不準(zhǔn)確情況下對戰(zhàn)斗機進行有效的空戰(zhàn)決策,考慮到三支決策具有適合處理不確定性和模糊性問題的特點,故而本文提出一種基于三支決策的飛機空戰(zhàn)機動決策方法,解決了在空戰(zhàn)信息不充分和不準(zhǔn)確的情況下,飛機無法進行有效空戰(zhàn)決策的問題,使之能夠更好地適用空戰(zhàn)需求。
使用三支決策意圖識別模型對目標(biāo)意圖進行識別,其識別過程與基于序貫三支決策目標(biāo)意圖識別方法[8]相似,一個完整的序貫三支決策[9-12]定義如式(1):
其中:ISi=(Ui,Ci,Di)表示第i個階段的決策信息表;Uu表示第i個階段的論域;Ci表示第i個階段獲得的目標(biāo)特征信息,用以表示條件集合;Di=表示第i個階段目標(biāo)的備選意圖集合。在決策類形成的二分類,則的正域、負域和邊界域的判別為:
三支決策閾值由式(3)給出:
在現(xiàn)實空戰(zhàn)中,戰(zhàn)場態(tài)勢環(huán)境變化快速,目標(biāo)作戰(zhàn)意圖可能會隨著戰(zhàn)場態(tài)勢的變化而作出相應(yīng)的調(diào)整,對已經(jīng)明確識別出作戰(zhàn)意圖的目標(biāo),在原來信息的基礎(chǔ)上,每隔一定的時間,對目標(biāo)意圖重新進行識別。對未明確識別出作戰(zhàn)意圖的目標(biāo),則仍依照原有的方法繼續(xù)對目標(biāo)進行意圖識別。
為解決多類別序貫三支決策沖突甚至無法識別意圖的問題,本文采用一種基于代價敏感多類別三支決策的目標(biāo)意圖識別模型對目標(biāo)意圖進行識別。與傳統(tǒng)三支決策的誤分類代價損失值的設(shè)置相同,正確分類的誤分類代價應(yīng)該為0,即λii=0。設(shè)pi為目標(biāo)作戰(zhàn)意圖為意圖i的先驗概率,其值由目標(biāo)的特征信息和意圖識別知識庫得出,則計算將樣本分類到n個不同意圖類別中的風(fēng)險損失,有:
其中:Λi三支決策代價矩陣的第i列。
與多類別序貫三支決策相比,無論目標(biāo)的特征信息是否完整充分,基于代價敏感多類別三支決策[13]的目標(biāo)意圖識別模型在每一個識別階段都能計算出誤分類代價損失值最小的那一種意圖分類,從而得到唯一的識別結(jié)果,避免了意圖識別結(jié)果沖突。
通過建立的三支決策意圖識別模型,對空戰(zhàn)多目標(biāo)進行意圖識別[14-15],進行威脅評估[16]。以目標(biāo)威脅為基礎(chǔ),結(jié)合我機作戰(zhàn)優(yōu)勢,將我方編隊中的飛機進行合理的分配[17]。同時,依據(jù)目標(biāo)威脅程度,使用三支決策方法構(gòu)建基于權(quán)值動態(tài)調(diào)整策略的機動決策模型,開展目標(biāo)分配后的一對一空戰(zhàn)機動決策研究。
飛機的運動可以看作是質(zhì)點運動,使用三自由度質(zhì)點模型來建立戰(zhàn)斗機飛行動力學(xué)模型,可表示為:
其中:x、y、z分別表示飛機位置的三個坐標(biāo)值;φ表示航向角;θ表示飛仰角;γ表示滾轉(zhuǎn)角;V表示飛行速度;nx表示切向過載;nz表示法向過載。S=(x,y,z,V,φ,θ)可以表示狀態(tài)向量,u=(nx,nz,γ)表示控制向量,通過飛機的控制值(即控制向量)可以計算出飛機下一時刻的狀態(tài)值(即狀態(tài)向量),遞推公式如式(6)所示:
空戰(zhàn)機動是一個復(fù)雜的動態(tài)過程,存在大量的不確定性,為了使機動決策的結(jié)果更加符合可靠性和可使用性的要求,本文構(gòu)建角度、高度、距離、速度和機動決策評價函數(shù)。
1)角度因子評價函數(shù)。
角度因子一直是空戰(zhàn)中的關(guān)鍵因素,我方戰(zhàn)機盡量從對手尾后追擊目標(biāo),使目標(biāo)進入我方導(dǎo)彈攻擊區(qū),發(fā)射導(dǎo)彈將其擊落,并避免進入對方的進攻區(qū)域。機載導(dǎo)彈離軸發(fā)射能力對于增強飛機的攻擊能力有著非常重要的作用,當(dāng)敵機在我方飛機離軸發(fā)射角度范圍以內(nèi),則可認為此時角度因子評價函數(shù)為理想值1。
其中:δmmax是導(dǎo)彈最大離軸發(fā)射角;ka是角度增強因子,用以增強角度因子評價函數(shù)的可靠性。
2)高度因子評價函數(shù)。
高度優(yōu)勢不僅可以增加飛機自身的能量優(yōu)勢,還可以增加導(dǎo)彈的可操作性能量,但是如果敵我飛機高度差過大,會嚴重影響到我方飛機的空戰(zhàn)性能,并且空空導(dǎo)彈在飛行過程中也需要在鉛垂面內(nèi)做大幅度機動,作戰(zhàn)飛機的高度優(yōu)勢也會相應(yīng)減小。所以,高度優(yōu)勢應(yīng)該存在合理的高度差上下邊界,敵我高度差Δh在這個邊界內(nèi),我方才具有較好的高度優(yōu)勢。
其中:Δh=hr-hb,hr表示我方飛機的飛行高度,hb表示敵方飛機的飛行高度;ΔHup和ΔHdown是保持最佳高度優(yōu)勢的高度差的上下邊界;kh是高度增強因子,用以增強高度因子評價函數(shù)的可靠性。
3)距離因子評價函數(shù)。
為了提高攻擊概率,需要將不可逃逸區(qū)的概念引入到構(gòu)建距離因子評價函數(shù)中。如果目標(biāo)在飛機的不可逃逸區(qū)內(nèi),則距離因子函數(shù)達到最佳效果值1,如果目標(biāo)不在飛機的不可逃逸區(qū)內(nèi),則要給距離因子施加適當(dāng)?shù)莫剟钪祷蛘呤菓土P值,以促使目標(biāo)盡早進入到我方飛機導(dǎo)彈攻擊的不可逃逸區(qū)內(nèi)。
其中:kd是距離增強因子,用以增強距離因子評價函數(shù)的可靠性;LM_far和LM_near分別表示機載導(dǎo)彈不可逃逸區(qū)的最大和最小邊界距離。
4)速度因子評價函數(shù)。
我方飛機飛行速度本身相較于目標(biāo)應(yīng)保持相對優(yōu)勢,以獲得較高的速度能量,來應(yīng)對不斷變化的敵我態(tài)勢和戰(zhàn)場環(huán)境。當(dāng)目標(biāo)進入到我方導(dǎo)彈的不可逃逸區(qū)內(nèi),則此時我方飛機應(yīng)維持與目標(biāo)同樣的飛行速度,當(dāng)目標(biāo)未進入到我方導(dǎo)彈的攻擊區(qū)時,此時我方飛機應(yīng)加大飛行速度以縮短敵我距離。
其中:Vmax和Vmin分別表示我方飛機飛行速度的最大值和最小值;Kv是速度增強因子,用以增強速度因子評價函數(shù)的可靠。
5)機動決策評價函數(shù)。
機動決策評價函數(shù)就是將角度因子、高度因子、距離因子和速度因子這四個因素綜合考慮,按照一定的權(quán)重規(guī)則將四個函數(shù)相加。根據(jù)該評價函數(shù)飛機就可以選擇最優(yōu)的控制變量以控制飛機作出相應(yīng)的機動動作,最終形成可行的飛行軌跡。
其中:ηa表示角度函數(shù)對應(yīng)的權(quán)重;ηh表示高度函數(shù)對應(yīng)的權(quán)重;ηd表示距離函數(shù)對應(yīng)的權(quán)重;ηv表示速度函數(shù)對應(yīng)的權(quán)重。
在近距空戰(zhàn)中,影響機動決策的四個因素的權(quán)重在不同的態(tài)勢威脅情況下應(yīng)有所不同[18]。通過對不同威脅下不同影響因素權(quán)重的分析,令A(yù)={aP,aB,aN}表示角度、高度、距離和速度按權(quán)重大小排序的三種不同情況,即三支決策域中的正域POS()、負域BND()和邊界域NEG(),規(guī)則如式(12)所示:
實施不同的權(quán)重策略會產(chǎn)生不同的損失,記λPy、λBy、λNy分別表示當(dāng)我方飛機面臨威脅時,實施三種權(quán)重策略aP、aB、aN所對應(yīng)的損失函數(shù)值;λPn、λBn、λNn分別表示當(dāng)我方飛機無威脅時,實施三種權(quán)重策略aP、aB、aN所對應(yīng)的損失函數(shù)值。權(quán)重與損失值的對應(yīng)關(guān)系如表1 所示。
表1 三支決策損失矩陣Tab.1 Three-way decision loss matrix
根據(jù)實施三種權(quán)重調(diào)整策略不同的決策損失函數(shù)值和最小風(fēng)險貝葉斯決策方法可以求出實施權(quán)重策略aP、aB、aN對應(yīng)的期望代價為:
其中:P(sy|X)+P(sn|X)=1。
結(jié)合決策規(guī)則和實際情況可知,飛機在有威脅的情形下選擇權(quán)重策略aP的損失函數(shù)值必然小于選擇aB和aN的損失函數(shù)值,而且選擇aB的損失函數(shù)值小于選擇aN的損失函數(shù)值,反之一樣。因此,有0≤λPy≤λBy≤λNy,0≤λNn≤λBn≤λPn,所以結(jié)合期望代價公式和代價最小規(guī)則可得:
正域:若P(sy|X)≥α,則aP=POS域,即是ηa≥ηv≥ηh≥ηd;
負域:若P(sy|X) >β且P(sy|X) <α,則aB=BND域,即是ηh≥ηa≥ηd≥ηv;
邊界域:若P(sy|X)≤β,則aN=NEG域,即是ηd≥ηa≥ηv≥ηh。
空戰(zhàn)中,機動決策的目的是使得空戰(zhàn)態(tài)勢向著我方有利的方向發(fā)展,就是在每一決策時刻,找出使機動決策評價函數(shù)值最大的控制變量。依據(jù)上述公式可知,由飛機當(dāng)前時刻的狀態(tài)向量St及所選擇的控制變量ut,可得到飛機下一時刻的狀態(tài)向量St+1,進而知道t+1 時刻飛機的機動評價函數(shù)ft+1(ΦA(chǔ),ΦH,ΦD,ΦV)。遞推關(guān)系如式(14):
控制變量u=[nx,nz,γ]的選擇依據(jù):
當(dāng)目標(biāo)威脅滿足P(sy|X)≥α?xí)r,控制變量u從表2 中選擇。此時,目標(biāo)威脅較大,我機需要使用極限操作來改變不利狀況;
當(dāng)目標(biāo)威脅滿足P(sy|X) <α?xí)r,以表2 為基礎(chǔ),將最大過載和最大橫滾角變?yōu)?/3 最大過載和2/3 最大橫滾角,控制變量u從改進后的表2 中選擇。此時,目標(biāo)威脅較小,我機使用2/3 極限操作來改變空戰(zhàn)態(tài)勢即可,以此來降低飛行員的身體負擔(dān)。
表2 機動動作的控制變量輸入Tab.2 Control variable inputs of maneuver actions
作戰(zhàn)想定:我方有三架作戰(zhàn)飛機,分別為C1、C2、C3,在空間的初始位置分別為(10,10,6)、(7,10,6)、(10,7,6),單位km;初始速度均為240 m/s。敵方有T1、T2、T3三架作戰(zhàn)飛機,空間的初始位置分別為(100,100,7)、(95,100,7)、(100,95,7),單位km;初始速度為270 m/s。
圖1 多機空戰(zhàn)軌跡圖Fig.1 Multi-aircraft air combat trajectory chart
在空戰(zhàn)開始時分別對每個目標(biāo)進行意圖識別,由目標(biāo)的特征信息和意圖識別知識庫可得到作戰(zhàn)意圖的先驗概率,再計算其損失值。因為我方在空戰(zhàn)中需要依據(jù)目標(biāo)意圖對目標(biāo)進行威脅評估,所以本節(jié)中使用三支決策模型對目標(biāo)進行意圖識別,這樣做的好處是我方在識別的每個時間點上都可以找到風(fēng)險決策最小的意圖決策結(jié)果。
圖2 分別是目標(biāo)一、目標(biāo)二和目標(biāo)三的基于三支決策作戰(zhàn)意圖識別決策結(jié)果損失圖和基于二支決策作戰(zhàn)意圖識別決策結(jié)果損失圖。
圖2 作戰(zhàn)意圖識別決策結(jié)果損失圖Fig.2 Loss charts of combat intention recognition decision results
目標(biāo)一在作戰(zhàn)開始時便朝下飛行,以超低空的飛行方式接近目標(biāo),結(jié)合現(xiàn)有的飛機空戰(zhàn)作戰(zhàn)軌跡可以得出,目標(biāo)一的作戰(zhàn)意圖極有可能為突防,圖2(a)仿真結(jié)果也驗證了這一判別。目標(biāo)二以高空飛行的形式接近目標(biāo),在空戰(zhàn)中,該飛行軌跡對應(yīng)的意圖是攻擊和突防的可能性較高,在圖2(b)中,攻擊意圖和突防意圖的決策結(jié)果損失值一直處于較低水平。目標(biāo)三的前進方向始終朝著我方飛機,其作戰(zhàn)意圖可認為是攻擊。作為對比實驗的二支決策意圖中,目標(biāo)一和目標(biāo)二攻擊、偵察和突防三種意圖接近,無法識別出其準(zhǔn)確意圖,目標(biāo)三意圖為攻擊或突防。與基于代價敏感多類別二支決策的目標(biāo)意圖識別方法相比,三支決策能夠更加準(zhǔn)確地識別目標(biāo)意圖。因此,在此次實驗案例中,三個目標(biāo)的意圖分別被識別為:突防、攻擊或突防、攻擊。
隨著敵我距離的不斷逼近,我方需要對敵方目標(biāo)進行目標(biāo)分配,以充分調(diào)動我方戰(zhàn)場資源,提高戰(zhàn)場生存率。由仿真可知,在作戰(zhàn)第100 秒左右,敵我雙方距離接近50 km,此時進行目標(biāo)分配較為合理。目標(biāo)分配最佳方案為:C1分配T3、C2分配T2、C3分配T1
本文直接給出表1 對應(yīng)的動態(tài)權(quán)重三支決策的損失值(λPy,λPn)=(0.1,0.8)、(λBy,λBn)=(0.3,0.5)、(λNy,λNn)=(0.9,0.2),根據(jù)三支決策理論,當(dāng)目標(biāo)威脅概率P(sy|X)≥0.6,則選擇權(quán)重策略為aP:ηa≥ηv≥ηh≥ηd,具體設(shè)置為ηa=0.4,ηv=0.25,ηh=0.25,ηd=0.1。當(dāng)目標(biāo)威脅概率 3
圖3 單機空戰(zhàn)機動軌跡圖Fig.3 Single aircraft air combat maneuver trajectory chart
由圖3 可以看出,對于目標(biāo)一的突防意圖,我機采取三支決策的機動決策后,敵方飛機改變飛行方向,瓦解敵方突防意圖。對于目標(biāo)二,我機始終在敵機下方,干擾其偵察和突防。對于目標(biāo)三的攻擊意圖,我機近距離尾追敵機,具有更高的生存性和作戰(zhàn)優(yōu)勢。綜上所述,在充滿不確定性和復(fù)雜性的空戰(zhàn)環(huán)境中,基于三支決策的空戰(zhàn)機動決策能很好地適應(yīng)作戰(zhàn)環(huán)境,對識別出意圖的敵方戰(zhàn)機,我方戰(zhàn)機由三支決策的空戰(zhàn)機動決策迅速作出反應(yīng),與敵機展開空戰(zhàn),并在戰(zhàn)斗中保持作戰(zhàn)優(yōu)勢。
通過對目標(biāo)意圖進行識別和評估威脅,構(gòu)建我方作戰(zhàn)飛機對目標(biāo)的作戰(zhàn)優(yōu)勢,完成了多目標(biāo)分配。利用三支決策理論將目標(biāo)威脅程度分為三個域,并為每個域制定不同的權(quán)重調(diào)整策略。仿真結(jié)果表明了機動決策評價函數(shù)和權(quán)重動態(tài)調(diào)整策略的可行性和有效性。