高 昂, 董志明,*, 李 亮, 段 莉, 郭齊勝
(1. 陸軍裝甲兵學院演訓中心, 北京 100072; 2. 中國人民解放軍61516部隊, 北京 100076)
真實-虛擬-構造(live-virtual-constructive, LVC)源自美軍訓練模擬領域?qū)I(yè)術語,特指實物模擬系統(tǒng)、虛擬模擬系統(tǒng)和推演模擬系統(tǒng)集成形成的綜合模擬訓練系統(tǒng)環(huán)境,提供了一種可擴展、高保真、多領域仿真能力,解決了目前實裝訓練面臨的經(jīng)費、地域、演習頻率、實時評估限制等難題[1]。目前,LVC戰(zhàn)術對抗訓練中,虛擬實體主要通過對人類作戰(zhàn)行為建模,對仿真戰(zhàn)場環(huán)境中的事件和狀態(tài)作出機動、射擊等決策,與人在環(huán)的模擬器交互,構建完善的裝備對抗體系。其決策模型直接影響人員和裝備在環(huán)境中的狀態(tài)和所能反饋信息的種類和質(zhì)量,進而對訓練效果產(chǎn)生影響。臨近空間是未來實現(xiàn)空天進攻突襲的新戰(zhàn)場,近距空戰(zhàn)是未來戰(zhàn)爭主要樣式之一,也是軍事訓練的重要課題[2]。目前,世界主流戰(zhàn)機的高空最大速度為2~2.2馬赫,即飛行員需要以約2 450~2 695 km/h的速度在高空中飛行。兼顧到戰(zhàn)機的機動性、導彈武器的發(fā)射以及規(guī)避對方的攻擊,實際近距空戰(zhàn)中,戰(zhàn)機速度大多都是在0.8~0.9馬赫高亞音速區(qū)。瞬息萬變的近距空戰(zhàn)態(tài)勢,使得飛行員需要綜合運用身體、技能和直覺操縱高速戰(zhàn)機完成所有動作,一個細小的失誤將帶來高昂的代價,每個瞬間的決斷都至關重要。因此,針對具體訓練需求設計虛擬實體決策模型,對提升訓練效果具有重要意義。
LVC近距離空戰(zhàn)對抗訓練如圖1所示。紅藍雙方戰(zhàn)機分別由操作模擬器的飛行員與虛擬實體所控制,同在一個虛擬作戰(zhàn)空間中。虛擬實體作為LVC訓練系統(tǒng)中的重要組成元素,主要通過提供“真實的戰(zhàn)斗行動”與操作模擬器的訓練人員交互。如果虛擬實體藍方能夠?qū)W習到作戰(zhàn)對手紅方的主要作戰(zhàn)特點,那么藍方在一定程度上便成為了紅方的“化身”,主要體現(xiàn)為:① 虛擬實體擁有了紅方的作戰(zhàn)能力水平,不同對手會有作戰(zhàn)能力水平的差別,戰(zhàn)機性能相同的情況下,作戰(zhàn)能力強的對手能夠準確判斷態(tài)勢,抓住戰(zhàn)機,迅速機動至最佳位置,作戰(zhàn)能力弱的對手則容易被動挨打。② 虛擬實體擁有了紅方的作戰(zhàn)風格,不同對手即使作戰(zhàn)能力水平相同,作戰(zhàn)風格也會存在較大差異,例如相同態(tài)勢下的攻擊行為,有些對手擅長緊盯對方6點鐘方向,達到射程便開火,有些則擅長迅速爬升戰(zhàn)機,從對方頭頂、背部發(fā)起攻擊。由于近距空戰(zhàn)高動態(tài)、強對抗的特點,每個戰(zhàn)術動作的實施都直接影響整個空戰(zhàn)進程。軍事訓練遵循由易到難,由簡到繁的循序漸進原則,具有特定作戰(zhàn)特點的決策模型可達到按需訓練,循序漸進提升訓練效果等目的。例如,根據(jù)某特級戰(zhàn)機飛行員red_1的對抗訓練數(shù)據(jù),學習出具有red_1作戰(zhàn)特點的虛擬實體blue_1。那么,便會有任意多的特級戰(zhàn)機飛行員blue_1分別作為任意多紅方訓練人員red的“陪練”在任意時間、任意地域?qū)?。根?jù)紅方訓練人員red_2在時間T的對抗訓練數(shù)據(jù),學習出具有T時間段red_2作戰(zhàn)特點的藍方虛擬實體blue_2_T。那么,訓練人員red_2便可以和從前的“自己”blue_2_T對抗來檢驗這段時間的訓練效果。
圖1 人機近距空戰(zhàn)對抗示意圖Fig.1 Schematic diagram of close-range air combat between man and machine
空戰(zhàn)智能決策方法的適用性隨所研究虛擬實體的數(shù)量、屬性(同構/異構)、任務、作戰(zhàn)場景的不同而有所區(qū)別。按虛擬實體數(shù)量,將空戰(zhàn)智能決策分為戰(zhàn)斗級、分隊級、集群級3個層面[3-8]??諔?zhàn)決策方法可歸納4大類:基于知識、推理、規(guī)劃方法,基于問題求解方法,基于不確定知識推理方法,基于自主學習方法,如圖2所示。
圖2 空戰(zhàn)智能決策方法分類Fig.2 Classification of air combat intelligent decision methods
近年來,國內(nèi)外學者對基于自主學習、智能優(yōu)化類方法的空戰(zhàn)研究較多[8-13]?;谧灾鲗W習方法的空戰(zhàn)研究集中在戰(zhàn)斗級虛擬實體近距空戰(zhàn)機動決策[13-19]。仿生優(yōu)化類方法集中在分隊級中距空戰(zhàn)火力決策[20-25]。另外,戰(zhàn)斗級虛擬實體近距空戰(zhàn)機動決策還有基于博弈論[26]、近似動態(tài)規(guī)劃[27]、數(shù)學求解[28]、貝葉斯[29-30]、模糊理論與其他方法結合[31-32]等方法。自主學習方法的研究熱點又集中在深度強化學習(deep reinforcement learning, DRL)方面。DRL遵循馬爾可夫決策過程(Markov decision process, MDP)或馬爾可夫博弈過程(Markov game process, MGP),是使用MDP或MGP框架來形式化智能體與環(huán)境交互,并從與環(huán)境交互的經(jīng)驗中學習最優(yōu)策略,從而最大化智能體累積期望獎勵的一類方法,為空戰(zhàn)決策建模提供了一種新途徑。相關空戰(zhàn)文獻研究均是針對空戰(zhàn)對手求解最優(yōu)對抗策略,取得了較大進展,具有重要的軍事意義。
本文試圖構建適用于特定訓練人員實際訓練需求的藍方虛擬實體決策模型,所建模型具有“虛擬陪練”的作用,沒有從求解對手最優(yōu)對抗策略的角度開展問題研究。目前,智能優(yōu)化方法主要包括:遺傳算法(genetic algorithm, GA)、人工免疫系統(tǒng)(artificial immune system, AIS)、模擬退火算法(simulated annealing algorithm, SA)、多目標進化算法(multi objective evolutionary algorithm, MOEA)等進化算法;粒子群優(yōu)化(particle swarm optimization, PSO)、蟻群優(yōu)化(ant colony optimization, ACO)、人工蜂群算法(artificial bee colony algorithm, ABC)等群體智能算法(swarm intelligence algorithm, SIA)。這類方法可以在解空間內(nèi)搜索全局最優(yōu)解,并且可以對多個目標函數(shù)同時進行優(yōu)化,輸出一組非支配的帕累托解集,有效地求解多目標問題,具有良好的全局優(yōu)化性和魯棒性。由于智能優(yōu)化類方法可以通過適應度函數(shù)來定義所求解問題的目標,進而尋找滿意解,而不僅是局限于求解空戰(zhàn)對手的最優(yōu)策略問題,同時考慮到神經(jīng)網(wǎng)絡較強的擬合能力,本文將智能優(yōu)化方法與神經(jīng)網(wǎng)絡結合,根據(jù)具體訓練需求,構建適應度函數(shù),通過神經(jīng)網(wǎng)絡實現(xiàn)端到端感知決策,從智能優(yōu)化理論的角度對神經(jīng)網(wǎng)絡的權值空間和結構空間進行定義,最終實現(xiàn)能夠滿足適應度函數(shù)的神經(jīng)網(wǎng)絡端到端感知決策,即實現(xiàn)滿足特定訓練人員訓練需求的藍方戰(zhàn)機近距空戰(zhàn)決策。
藍方虛擬實體決策模型構建思路如圖3所示。虛擬實體由一個權值可以被智能優(yōu)化算法優(yōu)化的神經(jīng)網(wǎng)絡控制,將影響戰(zhàn)斗結果的關鍵飛行狀態(tài)數(shù)據(jù)X={x1,x2,…,xn}作為神經(jīng)網(wǎng)絡的輸入,戰(zhàn)機的動作空間A={a1,a2,…,am}分布作為神經(jīng)網(wǎng)絡的輸出,實現(xiàn)虛擬實體端對端的感知與決策控制。將神經(jīng)網(wǎng)絡權值矩陣W控制的虛擬實體建模為智能優(yōu)化算法群體中的個體,并初始化為規(guī)模為M的群體。針對決策建模需求,構造智能優(yōu)化算法適應度函數(shù),通過統(tǒng)計固定時間內(nèi)對抗雙方的戰(zhàn)斗得分,保留得分差距小的個體,淘汰比分差距大的個體,并通過虛擬實體神經(jīng)網(wǎng)絡權值的不斷迭代尋優(yōu),最終達到與訓練人員作戰(zhàn)能力、作戰(zhàn)風格相當?shù)乃?成為該訓練人員的“化身”。
圖3 決策模型構建示意圖Fig.3 Schematic diagram of decision model construction
圖4展示了1對1紅藍近距空戰(zhàn)場景,假定戰(zhàn)機t時刻以固定速度在x-y平面上機動,藍方虛擬實體的目標是學習一種策略來控制戰(zhàn)機機動并保持對對手的位置優(yōu)勢,進而在射程內(nèi)發(fā)起攻擊。
圖4 飛行運動示意圖Fig.4 Flight motion diagram
將優(yōu)勢位置[33]定義為
(1)
分析戰(zhàn)機的運動模型,設計戰(zhàn)機飛行動作空間,飛行器的運動方程為
(2)
式中,(x,y,z)表示戰(zhàn)機的坐標;v,γ,φ分別表示戰(zhàn)機的速度、航跡角、偏航角。飛機的動力學方程為
(3)
式中,m,g,L,D,T,α,φ分別表示戰(zhàn)機的質(zhì)量、重力加速度、升力、牽引阻力、推力、攻擊角度、傾斜角。實際近距空戰(zhàn)中,戰(zhàn)機的速度是一個在高亞音速區(qū)連續(xù)變化的值,本文在不影響驗證方法有效性的條件下,將問題簡化為戰(zhàn)機在水平面上以固定速度v飛行,v∈[980 km/h,1 102.5 km/k],戰(zhàn)機運動方程簡化為
(4)
圖5為決策模型求解示意圖,將智能優(yōu)化算法中個體q建模為權值矩陣為由Wq的神經(jīng)網(wǎng)絡控制的藍方虛擬實體,假設q在T時間內(nèi)與訓練人員red進行了K場戰(zhàn)斗。
圖5 決策模型求解示意圖Fig.5 Schematic diagram of decision making model solution
k=1,2,…,K
(5)
紅藍戰(zhàn)機采用空空導彈攻擊對方,導彈數(shù)量為1枚,每場戰(zhàn)斗中,紅藍雙方個體勝負的評判標準為
(6)
當出現(xiàn)一方勝利或判斷為平局時,戰(zhàn)斗結束。
(7)
(8)
(9)
定義適應度函數(shù)為
(10)
示例設計思路是使戰(zhàn)機飛行員red_x在每次訓練過程中與特定虛擬實體blue_x對抗。blue_x在對抗過程中利用對抗數(shù)據(jù)優(yōu)化自身的神經(jīng)網(wǎng)絡權值,并在每次訓練完畢保存最新神經(jīng)網(wǎng)絡模型π。當red_x再次進行對抗訓練時,blue_x首先在初始化時加載模型π,并在此基礎上繼續(xù)優(yōu)化模型。雖然隨著訓練時間的增加,red_x的戰(zhàn)技水平在提升,但算法控制的blue_x提升速度要遠超過red_x,最終通過迭代進化與red_x的作戰(zhàn)水平和作戰(zhàn)風格相當。此時,其他飛行員red_y與blue_x對抗,就相當于和戰(zhàn)機飛行員red_x對抗。考慮到LVC訓練系統(tǒng)在建設過程中以及真實對抗數(shù)據(jù)的敏感性,本文采用具有學習能力的遺傳神經(jīng)網(wǎng)絡代替真實飛行員red_x,分析訓練迭代過程中blue_x的適應度函數(shù)變化、每代擊毀對手所用平均時間變化、每代優(yōu)化所用時間變化、虛擬實體勝率變化以及對比分析模型收斂后red_x和blue_x在L次對抗過程中的飛行動作序列相似度,驗證藍方虛擬實體學習效果的有效性。
本節(jié)采用經(jīng)典GA作為優(yōu)化神經(jīng)網(wǎng)絡權值的算法,給出藍方戰(zhàn)機決策模型及其求解示例,如圖6所示。
圖6 基于遺傳神經(jīng)網(wǎng)絡的藍方戰(zhàn)機決策模型構建與求解示例Fig.6 Construction and solution example of blue fighter decision making model based on genetic neural network
輸出最優(yōu)神經(jīng)網(wǎng)絡權值。
步驟 1將神經(jīng)網(wǎng)絡權值W轉(zhuǎn)換為染色體結構空間。
步驟 2Gen=0,隨機產(chǎn)生M個初始個體Wq,q=1,2,…,M。
步驟 3開啟M個進程,進程q運行個體Wq,如果f(Wq)>M,解碼,輸出最優(yōu)神經(jīng)網(wǎng)絡權值,結束尋優(yōu);否則,進入步驟4。
步驟 4選擇操作,根據(jù)適應度,按照一定的規(guī)則,從第Gen代群體中選擇出下一代優(yōu)良的個體遺傳到Gen+1代群體中:
步驟 4.1j=0;
步驟 4.3執(zhí)行復制;
步驟 4.4將復制的個體添入新群體中;
步驟 4.5j=j+1;
步驟 4.6如果j=M,執(zhí)行步驟5;否則執(zhí)行步驟4.2;
步驟 5交叉操作,將第Gen代群體內(nèi)的各個個體隨機搭配成對,對每一對個體,以交叉概率pc遵循某一規(guī)則交換其部分染色體:
步驟 5.1j=0;
步驟 5.2選擇兩個交叉?zhèn)€體;
步驟 5.3執(zhí)行交叉;
步驟 5.4將交叉后的兩個新個體添入新群體中;
步驟 5.5j=j+2;
步驟 5.6如果j=pcM執(zhí)行步驟6;否則執(zhí)行步驟5.2。
步驟 6變異操作,對第Gen代群體的每一個個體,以變異概率pm改變某一個或某一些染色體基因座上基因值為其他的等位基因:
步驟 6.1j=0;
步驟 6.2選擇基因變異點;
步驟 6.3執(zhí)行變異;
步驟 6.4將變異后的兩個新個體添入新群體中;
步驟 6.5j=j+1;
步驟 6.6如果j=pmLM,產(chǎn)生下一代群體,執(zhí)行步驟3;否則執(zhí)行步驟6.2。
圖7為適應度函數(shù)變化曲線,隨著迭代次數(shù)的增加,曲線趨于平穩(wěn),說明藍方虛擬實體與紅方的戰(zhàn)斗得分差值在減小。
圖7 適應度函數(shù)變化曲線Fig.7 Variation curve of fitness function
統(tǒng)計虛擬實體每訓練N輪的標準偏差為
i∈(episode,episode+N-1)
(11)
圖8(a)為藍方虛擬實體每代擊毀對手所用的平均時間步長變化曲線,計算公式為
(12)
可以看出,曲線隨著世代數(shù)的增長,呈快速下降趨勢,并逐漸趨于平穩(wěn)。這說明藍方虛擬實體的作戰(zhàn)能力在增加。圖8(b)為每代優(yōu)先所用時間變化曲線,計算公式為
(13)
可以看出,由于藍方虛擬實體作戰(zhàn)能力的增加,使得每代擊毀對手所用的平均時間步長減少,導致每代尋優(yōu)所用時間減少,圖8(a)和圖8(b)相互印證。雖然圖8(b)曲線呈現(xiàn)快速下降,并逐漸趨于平穩(wěn)的趨勢,但是大致在460代時出現(xiàn)了峰值。結合圖5決策模型求解示意圖以及式(11)可知,導致上述現(xiàn)象的可能原因有:群體交叉、變異產(chǎn)生新的少數(shù)個體延長了一代的整體優(yōu)化時間;紅藍雙方在每場戰(zhàn)斗開始時,位置隨機初始化,并在格斗過程中相互追逐、糾纏,空戰(zhàn)態(tài)勢的不確定性導致整體優(yōu)化時間的波動。
圖8 時間變化統(tǒng)計(以步長為單位)Fig.8 Time change statistics (in steps)
圖9為藍方虛擬實體的勝率隨世代數(shù)的變化曲線,計算公式為
圖9 虛擬實體勝率曲線Fig.9 Winning rate curve of virtual entity
(14)
如果個體q勝利,則countq=1;否則,countq=0。可以看出,藍方虛擬實體的勝率在50%上下波動,結合圖7分析可知,雖然藍方虛擬實體的作戰(zhàn)能力在增加,但是勝率并沒有增加,這說明紅藍對抗雙方均在學習如何作戰(zhàn),用神經(jīng)網(wǎng)絡模擬的人類飛行員與真實飛行員的差別在于神經(jīng)網(wǎng)絡的學習速度遠高于人類。
圖10 紅藍方飛行動作序列獲取示意圖Fig.10 Schematic diagram of flight action sequence acquisition of red and blue
為進一步驗證藍方戰(zhàn)機可實現(xiàn)通過與對手對抗來學習對手作戰(zhàn)特點的能力,定義B和R的相似度D計算公式為
(15)
式中,len(B)和len(R)分別表示序列B和序列R的長度;min(len(B),len(R))分別表示序列B和序列R長度的最小值;MCOSS(B,R)為B和R的最長公共作戰(zhàn)行動子序列(maximum common operational sub-sequence,MCOSS)。值得注意的是,子序列是有序的,但不一定是連續(xù)的。用動態(tài)規(guī)劃方法計算MCOSS(B,R)為
MCOSS(B,R)=
(16)
式中,序列B=(b1,b2,…,bT),R=(r1,r2,…,rT)中,head(B)表示b1,rest(B)表示(b2,b3,…,bT),head(R)表示r1,rest(R)表示(r2,r3,…,rT),ε為判斷閾值。使用極坐標(ρ,θ)表示戰(zhàn)機的位置,ρ和θ分別表示戰(zhàn)機質(zhì)心的極徑和極角。戰(zhàn)機的飛行動作序列可進一步用(ρ,θ,φ,f)四元組表示,f表示是否開火(f=1開火,f=0未開火),即bi=(ρi,θi,φi,fi),rj=(ρj,θj,φj,fj),只有當bi-rj<ε時,才認為元素bi=rj,ε=(Δρ,Δθ,Δφ,Δf),即
1對1近距空戰(zhàn)是雙方戰(zhàn)機相互搶占優(yōu)勢位置,擺脫劣勢位置,并在構成開火條件時,先對方命中目標的過程。一方戰(zhàn)機位置的優(yōu)勢與劣勢是相對于對方戰(zhàn)機的距離、角度來說的。因此,戰(zhàn)機在追逐,盤旋格斗過程中,作戰(zhàn)能力水平相當?shù)碾p方戰(zhàn)機,會在作戰(zhàn)行動序列上呈現(xiàn)一定的相似性。采集L=10場戰(zhàn)斗的紅藍戰(zhàn)機飛行動作序列B和R,設置戰(zhàn)機位置誤差Δρ=100 m,Δθ=10°,根據(jù)格斗導彈構成開火條件的離軸角范圍,設置Δφ=30°,Δf=0.5來判斷戰(zhàn)機的射擊動作是否相同。使用式(14)對飛行動作序列相似度進行統(tǒng)計,如表1所示,飛行動作序列平均相似度為0.68,該值會隨Δρ,Δθ,Δφ的設定而有所變化。算法試圖從近距空戰(zhàn)的制勝原理出發(fā),將關鍵飛行狀態(tài)作為輸入,目標函數(shù)僅是淘汰比分差距大的個體,保留比分差距小的個體,并沒有淘汰作戰(zhàn)行動序列相似度低的個體,保留作戰(zhàn)行動序列相似度高的個體。這是因為戰(zhàn)機的優(yōu)勢、劣勢位置并不是單一的,對戰(zhàn)雙方的策略也不是單一的,這也在一定程度上避免了神經(jīng)網(wǎng)絡的過擬合。戰(zhàn)斗得分小于某一閾值,可以認為戰(zhàn)機的作戰(zhàn)能力是相當?shù)摹T诖嘶A上,飛行動作序列平均相似度超過0.5,可以說明作戰(zhàn)能力水平相當?shù)碾p方戰(zhàn)機,作戰(zhàn)行動序列會在空戰(zhàn)過程中呈現(xiàn)一定的相似性。圖11為紅藍雙方飛行動作序列軌跡的極軸-偏航角坐標可視化表示。其中,紅色軌跡為紅方戰(zhàn)機的飛行動作序列,藍色軌跡為藍方戰(zhàn)機的飛行動作序列。從圖11中可以看出,紅藍雙方的飛行運動軌跡具有一定的相似性,與式(14)的計算結果相互印證,進一步說明了藍方戰(zhàn)機可實現(xiàn)通過對抗數(shù)據(jù)來學習對手作戰(zhàn)特點的功能。
表1 飛行動作序列相似度統(tǒng)計
圖11 紅藍雙方飛行動作序列圖Fig.11 Sequence diagram of actions for red and blue flight
表2 紅方作戰(zhàn)行動序列相似度矩陣
表3 藍方作戰(zhàn)行動序列相似度矩陣
(17)
可以看出,紅、藍方作戰(zhàn)行動序列間的平均差異度分別為0.19和0.21,數(shù)值均較小,說明各方策略差異均較大,具有多樣性。
本文針對LVC近距離空戰(zhàn)對抗訓練對藍方虛擬實體決策建模需求,提出基于智能優(yōu)化算法的神經(jīng)網(wǎng)絡進化方法構建決策模型,通過實驗數(shù)據(jù)分析,藍方虛擬實體可實現(xiàn)通過與對手對抗來學習對手作戰(zhàn)特點的功能。這使得藍方虛擬實體通過加載訓練好的模型可滿足任意多紅方訓練人員在任意時間、任意地域與“特定作戰(zhàn)對手的化身”或者“以前的自己”展開對抗訓練,從而達到提升訓練水平、降低訓練成本的目的,同時為智能藍軍建設提供了有效技術支撐。所提方法對目前智能優(yōu)化類算法及其改進類型,以及不同結構的神經(jīng)網(wǎng)絡具有通用性。
本文不足之處在于由于目前不具備人類飛行員與虛擬實體對抗的條件,所以暫且使用了具有學習能力的神經(jīng)網(wǎng)絡來模擬紅方訓練人員,下一步會將方法應用于實際LVC訓練系統(tǒng)中,從實際應用角度進行綜合驗證和分析。