亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

面向LVC訓(xùn)練的藍(lán)方虛擬實體近距空戰(zhàn)決策建模

2021-05-31 13:49:30董志明郭齊勝

系統(tǒng)工程與電子技術(shù) 2021年6期

高昂, 董志明,*, 李亮, 段莉, 郭齊勝

(1. 陸軍裝甲兵學(xué)院演訓(xùn)中心, 北京 100072; 2. 中國人民解放軍61516部隊, 北京 100076)

0 引言

真實-虛擬-構(gòu)造(live-virtual-constructive, LVC)源自美軍訓(xùn)練模擬領(lǐng)域?qū)I(yè)術(shù)語,特指實物模擬系統(tǒng)、虛擬模擬系統(tǒng)和推演模擬系統(tǒng)集成形成的綜合模擬訓(xùn)練系統(tǒng)環(huán)境,提供了一種可擴(kuò)展、高保真、多領(lǐng)域仿真能力,解決了目前實裝訓(xùn)練面臨的經(jīng)費、地域、演習(xí)頻率、實時評估限制等難題[1]。目前,LVC戰(zhàn)術(shù)對抗訓(xùn)練中,虛擬實體主要通過對人類作戰(zhàn)行為建模,對仿真戰(zhàn)場環(huán)境中的事件和狀態(tài)作出機(jī)動、射擊等決策,與人在環(huán)的模擬器交互,構(gòu)建完善的裝備對抗體系。其決策模型直接影響人員和裝備在環(huán)境中的狀態(tài)和所能反饋信息的種類和質(zhì)量,進(jìn)而對訓(xùn)練效果產(chǎn)生影響。臨近空間是未來實現(xiàn)空天進(jìn)攻突襲的新戰(zhàn)場,近距空戰(zhàn)是未來戰(zhàn)爭主要樣式之一,也是軍事訓(xùn)練的重要課題[2]。目前,世界主流戰(zhàn)機(jī)的高空最大速度為2～2.2馬赫,即飛行員需要以約2 450～2 695 km/h的速度在高空中飛行。兼顧到戰(zhàn)機(jī)的機(jī)動性、導(dǎo)彈武器的發(fā)射以及規(guī)避對方的攻擊,實際近距空戰(zhàn)中,戰(zhàn)機(jī)速度大多都是在0.8～0.9馬赫高亞音速區(qū)。瞬息萬變的近距空戰(zhàn)態(tài)勢,使得飛行員需要綜合運用身體、技能和直覺操縱高速戰(zhàn)機(jī)完成所有動作,一個細(xì)小的失誤將帶來高昂的代價,每個瞬間的決斷都至關(guān)重要。因此,針對具體訓(xùn)練需求設(shè)計虛擬實體決策模型,對提升訓(xùn)練效果具有重要意義。

1 需求分析及相關(guān)工作

LVC近距離空戰(zhàn)對抗訓(xùn)練如圖1所示。紅藍(lán)雙方戰(zhàn)機(jī)分別由操作模擬器的飛行員與虛擬實體所控制,同在一個虛擬作戰(zhàn)空間中。虛擬實體作為LVC訓(xùn)練系統(tǒng)中的重要組成元素,主要通過提供“真實的戰(zhàn)斗行動”與操作模擬器的訓(xùn)練人員交互。如果虛擬實體藍(lán)方能夠?qū)W習(xí)到作戰(zhàn)對手紅方的主要作戰(zhàn)特點,那么藍(lán)方在一定程度上便成為了紅方的“化身”,主要體現(xiàn)為:① 虛擬實體擁有了紅方的作戰(zhàn)能力水平，不同對手會有作戰(zhàn)能力水平的差別,戰(zhàn)機(jī)性能相同的情況下,作戰(zhàn)能力強(qiáng)的對手能夠準(zhǔn)確判斷態(tài)勢,抓住戰(zhàn)機(jī),迅速機(jī)動至最佳位置,作戰(zhàn)能力弱的對手則容易被動挨打。② 虛擬實體擁有了紅方的作戰(zhàn)風(fēng)格，不同對手即使作戰(zhàn)能力水平相同,作戰(zhàn)風(fēng)格也會存在較大差異,例如相同態(tài)勢下的攻擊行為,有些對手擅長緊盯對方6點鐘方向,達(dá)到射程便開火,有些則擅長迅速爬升戰(zhàn)機(jī),從對方頭頂、背部發(fā)起攻擊。由于近距空戰(zhàn)高動態(tài)、強(qiáng)對抗的特點,每個戰(zhàn)術(shù)動作的實施都直接影響整個空戰(zhàn)進(jìn)程。軍事訓(xùn)練遵循由易到難,由簡到繁的循序漸進(jìn)原則,具有特定作戰(zhàn)特點的決策模型可達(dá)到按需訓(xùn)練,循序漸進(jìn)提升訓(xùn)練效果等目的。例如,根據(jù)某特級戰(zhàn)機(jī)飛行員red_1的對抗訓(xùn)練數(shù)據(jù),學(xué)習(xí)出具有red_1作戰(zhàn)特點的虛擬實體blue_1。那么,便會有任意多的特級戰(zhàn)機(jī)飛行員blue_1分別作為任意多紅方訓(xùn)練人員red的“陪練”在任意時間、任意地域?qū)埂８鶕?jù)紅方訓(xùn)練人員red_2在時間T的對抗訓(xùn)練數(shù)據(jù),學(xué)習(xí)出具有T時間段red_2作戰(zhàn)特點的藍(lán)方虛擬實體blue_2_T。那么,訓(xùn)練人員red_2便可以和從前的“自己”blue_2_T對抗來檢驗這段時間的訓(xùn)練效果。

圖1 人機(jī)近距空戰(zhàn)對抗示意圖Fig.1 Schematic diagram of close-range air combat between man and machine

空戰(zhàn)智能決策方法的適用性隨所研究虛擬實體的數(shù)量、屬性(同構(gòu)/異構(gòu))、任務(wù)、作戰(zhàn)場景的不同而有所區(qū)別。按虛擬實體數(shù)量,將空戰(zhàn)智能決策分為戰(zhàn)斗級、分隊級、集群級3個層面[3-8]。空戰(zhàn)決策方法可歸納4大類:基于知識、推理、規(guī)劃方法,基于問題求解方法,基于不確定知識推理方法,基于自主學(xué)習(xí)方法,如圖2所示。

圖2 空戰(zhàn)智能決策方法分類Fig.2 Classification of air combat intelligent decision methods

近年來,國內(nèi)外學(xué)者對基于自主學(xué)習(xí)、智能優(yōu)化類方法的空戰(zhàn)研究較多[8-13]?；谧灾鲗W(xué)習(xí)方法的空戰(zhàn)研究集中在戰(zhàn)斗級虛擬實體近距空戰(zhàn)機(jī)動決策[13-19]。仿生優(yōu)化類方法集中在分隊級中距空戰(zhàn)火力決策[20-25]。另外,戰(zhàn)斗級虛擬實體近距空戰(zhàn)機(jī)動決策還有基于博弈論[26]、近似動態(tài)規(guī)劃[27]、數(shù)學(xué)求解[28]、貝葉斯[29-30]、模糊理論與其他方法結(jié)合[31-32]等方法。自主學(xué)習(xí)方法的研究熱點又集中在深度強(qiáng)化學(xué)習(xí)(deep reinforcement learning, DRL)方面。DRL遵循馬爾可夫決策過程(Markov decision process, MDP)或馬爾可夫博弈過程(Markov game process, MGP),是使用MDP或MGP框架來形式化智能體與環(huán)境交互,并從與環(huán)境交互的經(jīng)驗中學(xué)習(xí)最優(yōu)策略,從而最大化智能體累積期望獎勵的一類方法,為空戰(zhàn)決策建模提供了一種新途徑。相關(guān)空戰(zhàn)文獻(xiàn)研究均是針對空戰(zhàn)對手求解最優(yōu)對抗策略,取得了較大進(jìn)展,具有重要的軍事意義。

本文試圖構(gòu)建適用于特定訓(xùn)練人員實際訓(xùn)練需求的藍(lán)方虛擬實體決策模型,所建模型具有“虛擬陪練”的作用,沒有從求解對手最優(yōu)對抗策略的角度開展問題研究。目前,智能優(yōu)化方法主要包括:遺傳算法(genetic algorithm, GA)、人工免疫系統(tǒng)(artificial immune system, AIS)、模擬退火算法(simulated annealing algorithm, SA)、多目標(biāo)進(jìn)化算法(multi objective evolutionary algorithm, MOEA)等進(jìn)化算法;粒子群優(yōu)化(particle swarm optimization, PSO)、蟻群優(yōu)化(ant colony optimization, ACO)、人工蜂群算法(artificial bee colony algorithm, ABC)等群體智能算法(swarm intelligence algorithm, SIA)。這類方法可以在解空間內(nèi)搜索全局最優(yōu)解,并且可以對多個目標(biāo)函數(shù)同時進(jìn)行優(yōu)化,輸出一組非支配的帕累托解集,有效地求解多目標(biāo)問題,具有良好的全局優(yōu)化性和魯棒性。由于智能優(yōu)化類方法可以通過適應(yīng)度函數(shù)來定義所求解問題的目標(biāo),進(jìn)而尋找滿意解,而不僅是局限于求解空戰(zhàn)對手的最優(yōu)策略問題,同時考慮到神經(jīng)網(wǎng)絡(luò)較強(qiáng)的擬合能力,本文將智能優(yōu)化方法與神經(jīng)網(wǎng)絡(luò)結(jié)合,根據(jù)具體訓(xùn)練需求,構(gòu)建適應(yīng)度函數(shù),通過神經(jīng)網(wǎng)絡(luò)實現(xiàn)端到端感知決策,從智能優(yōu)化理論的角度對神經(jīng)網(wǎng)絡(luò)的權(quán)值空間和結(jié)構(gòu)空間進(jìn)行定義,最終實現(xiàn)能夠滿足適應(yīng)度函數(shù)的神經(jīng)網(wǎng)絡(luò)端到端感知決策,即實現(xiàn)滿足特定訓(xùn)練人員訓(xùn)練需求的藍(lán)方戰(zhàn)機(jī)近距空戰(zhàn)決策。

2 模型構(gòu)建與求解

藍(lán)方虛擬實體決策模型構(gòu)建思路如圖3所示。虛擬實體由一個權(quán)值可以被智能優(yōu)化算法優(yōu)化的神經(jīng)網(wǎng)絡(luò)控制,將影響戰(zhàn)斗結(jié)果的關(guān)鍵飛行狀態(tài)數(shù)據(jù)X={x1,x2,…,xn}作為神經(jīng)網(wǎng)絡(luò)的輸入,戰(zhàn)機(jī)的動作空間A={a1,a2,…,am}分布作為神經(jīng)網(wǎng)絡(luò)的輸出,實現(xiàn)虛擬實體端對端的感知與決策控制。將神經(jīng)網(wǎng)絡(luò)權(quán)值矩陣W控制的虛擬實體建模為智能優(yōu)化算法群體中的個體,并初始化為規(guī)模為M的群體。針對決策建模需求,構(gòu)造智能優(yōu)化算法適應(yīng)度函數(shù),通過統(tǒng)計固定時間內(nèi)對抗雙方的戰(zhàn)斗得分,保留得分差距小的個體,淘汰比分差距大的個體,并通過虛擬實體神經(jīng)網(wǎng)絡(luò)權(quán)值的不斷迭代尋優(yōu),最終達(dá)到與訓(xùn)練人員作戰(zhàn)能力、作戰(zhàn)風(fēng)格相當(dāng)?shù)乃?成為該訓(xùn)練人員的“化身”。

圖3 決策模型構(gòu)建示意圖Fig.3 Schematic diagram of decision model construction

2.1 關(guān)鍵飛行狀態(tài)

圖4展示了1對1紅藍(lán)近距空戰(zhàn)場景,假定戰(zhàn)機(jī)t時刻以固定速度在x-y平面上機(jī)動,藍(lán)方虛擬實體的目標(biāo)是學(xué)習(xí)一種策略來控制戰(zhàn)機(jī)機(jī)動并保持對對手的位置優(yōu)勢,進(jìn)而在射程內(nèi)發(fā)起攻擊。

圖4 飛行運動示意圖Fig.4 Flight motion diagram

將優(yōu)勢位置[33]定義為

(1)

2.2 飛行動作空間

分析戰(zhàn)機(jī)的運動模型,設(shè)計戰(zhàn)機(jī)飛行動作空間,飛行器的運動方程為

(2)

式中,(x,y,z)表示戰(zhàn)機(jī)的坐標(biāo);v,γ,φ分別表示戰(zhàn)機(jī)的速度、航跡角、偏航角。飛機(jī)的動力學(xué)方程為

(3)

式中,m,g,L,D,T,α,φ分別表示戰(zhàn)機(jī)的質(zhì)量、重力加速度、升力、牽引阻力、推力、攻擊角度、傾斜角。實際近距空戰(zhàn)中,戰(zhàn)機(jī)的速度是一個在高亞音速區(qū)連續(xù)變化的值,本文在不影響驗證方法有效性的條件下,將問題簡化為戰(zhàn)機(jī)在水平面上以固定速度v飛行,v∈[980 km/h,1 102.5 km/k],戰(zhàn)機(jī)運動方程簡化為

(4)

2.3 適應(yīng)度函數(shù)

圖5為決策模型求解示意圖,將智能優(yōu)化算法中個體q建模為權(quán)值矩陣為由Wq的神經(jīng)網(wǎng)絡(luò)控制的藍(lán)方虛擬實體,假設(shè)q在T時間內(nèi)與訓(xùn)練人員red進(jìn)行了K場戰(zhàn)斗。

圖5 決策模型求解示意圖Fig.5 Schematic diagram of decision making model solution

k=1,2,…,K

(5)

紅藍(lán)戰(zhàn)機(jī)采用空空導(dǎo)彈攻擊對方,導(dǎo)彈數(shù)量為1枚,每場戰(zhàn)斗中,紅藍(lán)雙方個體勝負(fù)的評判標(biāo)準(zhǔn)為

(6)

當(dāng)出現(xiàn)一方勝利或判斷為平局時,戰(zhàn)斗結(jié)束。

(7)

(8)

(9)

定義適應(yīng)度函數(shù)為

(10)

3 基于遺傳神經(jīng)網(wǎng)絡(luò)的模型構(gòu)建與求解示例

示例設(shè)計思路是使戰(zhàn)機(jī)飛行員red_x在每次訓(xùn)練過程中與特定虛擬實體blue_x對抗。blue_x在對抗過程中利用對抗數(shù)據(jù)優(yōu)化自身的神經(jīng)網(wǎng)絡(luò)權(quán)值,并在每次訓(xùn)練完畢保存最新神經(jīng)網(wǎng)絡(luò)模型π。當(dāng)red_x再次進(jìn)行對抗訓(xùn)練時,blue_x首先在初始化時加載模型π,并在此基礎(chǔ)上繼續(xù)優(yōu)化模型。雖然隨著訓(xùn)練時間的增加,red_x的戰(zhàn)技水平在提升,但算法控制的blue_x提升速度要遠(yuǎn)超過red_x,最終通過迭代進(jìn)化與red_x的作戰(zhàn)水平和作戰(zhàn)風(fēng)格相當(dāng)。此時,其他飛行員red_y與blue_x對抗,就相當(dāng)于和戰(zhàn)機(jī)飛行員red_x對抗?？紤]到LVC訓(xùn)練系統(tǒng)在建設(shè)過程中以及真實對抗數(shù)據(jù)的敏感性,本文采用具有學(xué)習(xí)能力的遺傳神經(jīng)網(wǎng)絡(luò)代替真實飛行員red_x,分析訓(xùn)練迭代過程中blue_x的適應(yīng)度函數(shù)變化、每代擊毀對手所用平均時間變化、每代優(yōu)化所用時間變化、虛擬實體勝率變化以及對比分析模型收斂后red_x和blue_x在L次對抗過程中的飛行動作序列相似度,驗證藍(lán)方虛擬實體學(xué)習(xí)效果的有效性。

3.1 構(gòu)建與求解

本節(jié)采用經(jīng)典GA作為優(yōu)化神經(jīng)網(wǎng)絡(luò)權(quán)值的算法,給出藍(lán)方戰(zhàn)機(jī)決策模型及其求解示例,如圖6所示。

圖6 基于遺傳神經(jīng)網(wǎng)絡(luò)的藍(lán)方戰(zhàn)機(jī)決策模型構(gòu)建與求解示例Fig.6 Construction and solution example of blue fighter decision making model based on genetic neural network

輸出最優(yōu)神經(jīng)網(wǎng)絡(luò)權(quán)值。

步驟 1將神經(jīng)網(wǎng)絡(luò)權(quán)值W轉(zhuǎn)換為染色體結(jié)構(gòu)空間。

步驟 2Gen=0,隨機(jī)產(chǎn)生M個初始個體Wq,q=1,2,…,M。

步驟 3開啟M個進(jìn)程,進(jìn)程q運行個體Wq,如果f(Wq)>M,解碼,輸出最優(yōu)神經(jīng)網(wǎng)絡(luò)權(quán)值,結(jié)束尋優(yōu);否則,進(jìn)入步驟4。

步驟 4選擇操作,根據(jù)適應(yīng)度,按照一定的規(guī)則,從第Gen代群體中選擇出下一代優(yōu)良的個體遺傳到Gen+1代群體中:

步驟 4.1j=0;

步驟 4.3執(zhí)行復(fù)制;

步驟 4.4將復(fù)制的個體添入新群體中;

步驟 4.5j=j+1;

步驟 4.6如果j=M,執(zhí)行步驟5;否則執(zhí)行步驟4.2;

步驟 5交叉操作,將第Gen代群體內(nèi)的各個個體隨機(jī)搭配成對,對每一對個體,以交叉概率pc遵循某一規(guī)則交換其部分染色體:

步驟 5.1j=0;

步驟 5.2選擇兩個交叉?zhèn)€體;

步驟 5.3執(zhí)行交叉;

步驟 5.4將交叉后的兩個新個體添入新群體中;

步驟 5.5j=j+2;

步驟 5.6如果j=pcM執(zhí)行步驟6;否則執(zhí)行步驟5.2。

步驟 6變異操作,對第Gen代群體的每一個個體,以變異概率pm改變某一個或某一些染色體基因座上基因值為其他的等位基因:

步驟 6.1j=0;

步驟 6.2選擇基因變異點;

步驟 6.3執(zhí)行變異;

步驟 6.4將變異后的兩個新個體添入新群體中;

步驟 6.5j=j+1;

步驟 6.6如果j=pmLM,產(chǎn)生下一代群體,執(zhí)行步驟3;否則執(zhí)行步驟6.2。

3.2 結(jié)果分析

圖7為適應(yīng)度函數(shù)變化曲線,隨著迭代次數(shù)的增加,曲線趨于平穩(wěn),說明藍(lán)方虛擬實體與紅方的戰(zhàn)斗得分差值在減小。

圖7 適應(yīng)度函數(shù)變化曲線Fig.7 Variation curve of fitness function

統(tǒng)計虛擬實體每訓(xùn)練N輪的標(biāo)準(zhǔn)偏差為

i∈(episode,episode+N-1)

(11)

圖8(a)為藍(lán)方虛擬實體每代擊毀對手所用的平均時間步長變化曲線,計算公式為

(12)

可以看出,曲線隨著世代數(shù)的增長,呈快速下降趨勢,并逐漸趨于平穩(wěn)。這說明藍(lán)方虛擬實體的作戰(zhàn)能力在增加。圖8(b)為每代優(yōu)先所用時間變化曲線,計算公式為

(13)

可以看出,由于藍(lán)方虛擬實體作戰(zhàn)能力的增加,使得每代擊毀對手所用的平均時間步長減少,導(dǎo)致每代尋優(yōu)所用時間減少,圖8(a)和圖8(b)相互印證。雖然圖8(b)曲線呈現(xiàn)快速下降,并逐漸趨于平穩(wěn)的趨勢,但是大致在460代時出現(xiàn)了峰值。結(jié)合圖5決策模型求解示意圖以及式(11)可知,導(dǎo)致上述現(xiàn)象的可能原因有:群體交叉、變異產(chǎn)生新的少數(shù)個體延長了一代的整體優(yōu)化時間;紅藍(lán)雙方在每場戰(zhàn)斗開始時,位置隨機(jī)初始化,并在格斗過程中相互追逐、糾纏,空戰(zhàn)態(tài)勢的不確定性導(dǎo)致整體優(yōu)化時間的波動。

圖8 時間變化統(tǒng)計(以步長為單位)Fig.8 Time change statistics (in steps)

圖9為藍(lán)方虛擬實體的勝率隨世代數(shù)的變化曲線,計算公式為

圖9 虛擬實體勝率曲線Fig.9 Winning rate curve of virtual entity

(14)

如果個體q勝利,則countq=1;否則,countq=0?？梢钥闯?藍(lán)方虛擬實體的勝率在50%上下波動,結(jié)合圖7分析可知,雖然藍(lán)方虛擬實體的作戰(zhàn)能力在增加,但是勝率并沒有增加,這說明紅藍(lán)對抗雙方均在學(xué)習(xí)如何作戰(zhàn),用神經(jīng)網(wǎng)絡(luò)模擬的人類飛行員與真實飛行員的差別在于神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)速度遠(yuǎn)高于人類。

圖10 紅藍(lán)方飛行動作序列獲取示意圖Fig.10 Schematic diagram of flight action sequence acquisition of red and blue

為進(jìn)一步驗證藍(lán)方戰(zhàn)機(jī)可實現(xiàn)通過與對手對抗來學(xué)習(xí)對手作戰(zhàn)特點的能力,定義B和R的相似度D計算公式為

(15)

式中,len(B)和len(R)分別表示序列B和序列R的長度;min(len(B),len(R))分別表示序列B和序列R長度的最小值;MCOSS(B,R)為B和R的最長公共作戰(zhàn)行動子序列(maximum common operational sub-sequence,MCOSS)。值得注意的是,子序列是有序的,但不一定是連續(xù)的。用動態(tài)規(guī)劃方法計算MCOSS(B,R)為

MCOSS(B,R)=

(16)

式中,序列B=(b1,b2,…,bT),R=(r1,r2,…,rT)中,head(B)表示b1,rest(B)表示(b2,b3,…,bT),head(R)表示r1,rest(R)表示(r2,r3,…,rT),ε為判斷閾值。使用極坐標(biāo)(ρ,θ)表示戰(zhàn)機(jī)的位置,ρ和θ分別表示戰(zhàn)機(jī)質(zhì)心的極徑和極角。戰(zhàn)機(jī)的飛行動作序列可進(jìn)一步用(ρ,θ,φ,f)四元組表示,f表示是否開火(f=1開火,f=0未開火),即bi=(ρi,θi,φi,fi),rj=(ρj,θj,φj,fj),只有當(dāng)bi-rj<ε時,才認(rèn)為元素bi=rj,ε=(Δρ,Δθ,Δφ,Δf),即

1對1近距空戰(zhàn)是雙方戰(zhàn)機(jī)相互搶占優(yōu)勢位置,擺脫劣勢位置,并在構(gòu)成開火條件時,先對方命中目標(biāo)的過程。一方戰(zhàn)機(jī)位置的優(yōu)勢與劣勢是相對于對方戰(zhàn)機(jī)的距離、角度來說的。因此,戰(zhàn)機(jī)在追逐,盤旋格斗過程中,作戰(zhàn)能力水平相當(dāng)?shù)碾p方戰(zhàn)機(jī),會在作戰(zhàn)行動序列上呈現(xiàn)一定的相似性。采集L=10場戰(zhàn)斗的紅藍(lán)戰(zhàn)機(jī)飛行動作序列B和R,設(shè)置戰(zhàn)機(jī)位置誤差Δρ=100 m,Δθ=10°,根據(jù)格斗導(dǎo)彈構(gòu)成開火條件的離軸角范圍,設(shè)置Δφ=30°,Δf=0.5來判斷戰(zhàn)機(jī)的射擊動作是否相同。使用式(14)對飛行動作序列相似度進(jìn)行統(tǒng)計,如表1所示,飛行動作序列平均相似度為0.68,該值會隨Δρ,Δθ,Δφ的設(shè)定而有所變化。算法試圖從近距空戰(zhàn)的制勝原理出發(fā),將關(guān)鍵飛行狀態(tài)作為輸入,目標(biāo)函數(shù)僅是淘汰比分差距大的個體,保留比分差距小的個體,并沒有淘汰作戰(zhàn)行動序列相似度低的個體,保留作戰(zhàn)行動序列相似度高的個體。這是因為戰(zhàn)機(jī)的優(yōu)勢、劣勢位置并不是單一的,對戰(zhàn)雙方的策略也不是單一的,這也在一定程度上避免了神經(jīng)網(wǎng)絡(luò)的過擬合。戰(zhàn)斗得分小于某一閾值,可以認(rèn)為戰(zhàn)機(jī)的作戰(zhàn)能力是相當(dāng)?shù)?。在此基礎(chǔ)上,飛行動作序列平均相似度超過0.5,可以說明作戰(zhàn)能力水平相當(dāng)?shù)碾p方戰(zhàn)機(jī),作戰(zhàn)行動序列會在空戰(zhàn)過程中呈現(xiàn)一定的相似性。圖11為紅藍(lán)雙方飛行動作序列軌跡的極軸-偏航角坐標(biāo)可視化表示。其中,紅色軌跡為紅方戰(zhàn)機(jī)的飛行動作序列,藍(lán)色軌跡為藍(lán)方戰(zhàn)機(jī)的飛行動作序列。從圖11中可以看出,紅藍(lán)雙方的飛行運動軌跡具有一定的相似性,與式(14)的計算結(jié)果相互印證,進(jìn)一步說明了藍(lán)方戰(zhàn)機(jī)可實現(xiàn)通過對抗數(shù)據(jù)來學(xué)習(xí)對手作戰(zhàn)特點的功能。

表1 飛行動作序列相似度統(tǒng)計

圖11 紅藍(lán)雙方飛行動作序列圖Fig.11 Sequence diagram of actions for red and blue flight

表2 紅方作戰(zhàn)行動序列相似度矩陣

表3 藍(lán)方作戰(zhàn)行動序列相似度矩陣

(17)

可以看出,紅、藍(lán)方作戰(zhàn)行動序列間的平均差異度分別為0.19和0.21,數(shù)值均較小,說明各方策略差異均較大,具有多樣性。

4 結(jié) 論

本文針對LVC近距離空戰(zhàn)對抗訓(xùn)練對藍(lán)方虛擬實體決策建模需求,提出基于智能優(yōu)化算法的神經(jīng)網(wǎng)絡(luò)進(jìn)化方法構(gòu)建決策模型,通過實驗數(shù)據(jù)分析,藍(lán)方虛擬實體可實現(xiàn)通過與對手對抗來學(xué)習(xí)對手作戰(zhàn)特點的功能。這使得藍(lán)方虛擬實體通過加載訓(xùn)練好的模型可滿足任意多紅方訓(xùn)練人員在任意時間、任意地域與“特定作戰(zhàn)對手的化身”或者“以前的自己”展開對抗訓(xùn)練,從而達(dá)到提升訓(xùn)練水平、降低訓(xùn)練成本的目的,同時為智能藍(lán)軍建設(shè)提供了有效技術(shù)支撐。所提方法對目前智能優(yōu)化類算法及其改進(jìn)類型,以及不同結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)具有通用性。

本文不足之處在于由于目前不具備人類飛行員與虛擬實體對抗的條件,所以暫且使用了具有學(xué)習(xí)能力的神經(jīng)網(wǎng)絡(luò)來模擬紅方訓(xùn)練人員,下一步會將方法應(yīng)用于實際LVC訓(xùn)練系統(tǒng)中,從實際應(yīng)用角度進(jìn)行綜合驗證和分析。