吳宜珈 賴俊 陳希亮 曹雷 徐鵬
摘要:針對(duì)近端策略優(yōu)化算法在空戰(zhàn)智能決策過(guò)程中面臨的動(dòng)作空間過(guò)大、難收斂等問(wèn)題,提出基于option的近端策略分層優(yōu)化算法,構(gòu)建了基于強(qiáng)化學(xué)習(xí)的空戰(zhàn)智能決策模型框架,并在超視距空戰(zhàn)仿真模型中進(jìn)行了對(duì)抗性實(shí)驗(yàn)并可視化。實(shí)驗(yàn)結(jié)果表明,近端策略分層優(yōu)化算法能夠驅(qū)動(dòng)智能體在對(duì)抗過(guò)程中產(chǎn)生迂回攻擊等戰(zhàn)術(shù)行為,達(dá)到提升傳統(tǒng)算法性能和提高空戰(zhàn)博弈決策效率的目的。
關(guān)鍵詞: 超視距空戰(zhàn);智能決策;人工智能;強(qiáng)化學(xué)習(xí);近端策略優(yōu)化算法;分層強(qiáng)化學(xué)習(xí)
中圖分類號(hào):TJ760; V271.4? 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1673-5048(2021)02-0055-07
0 引? 言
超視距空戰(zhàn)環(huán)境中,戰(zhàn)場(chǎng)態(tài)勢(shì)不斷變化,戰(zhàn)爭(zhēng)節(jié)奏不斷加快。傳統(tǒng)空戰(zhàn)中常用的影響圖法[1-3]、動(dòng)態(tài)規(guī)劃法[4]、矩陣博弈法[5]、風(fēng)險(xiǎn)決策法[6]、模糊推理法[7-11]等已不能滿足指揮員決策需要,空戰(zhàn)領(lǐng)域智能化發(fā)展需求與日俱增[12]。隨著人工智能技術(shù)的飛速發(fā)展,利用智能化方法輔助飛行員決策、奪取制空權(quán)在打贏信息化局部戰(zhàn)爭(zhēng)中的需求日趨迫切,空戰(zhàn)智能決策成為研究熱點(diǎn)[13-14]。
強(qiáng)化學(xué)習(xí)作為人工智能技術(shù)的重要組成部分,在指揮控制系統(tǒng)中的應(yīng)用優(yōu)勢(shì)愈發(fā)突顯。2007年,DARPA開發(fā)DEEP GREEN系統(tǒng),平行仿真戰(zhàn)場(chǎng)態(tài)勢(shì),預(yù)測(cè)戰(zhàn)局走向[15]。2016年,美國(guó)空軍實(shí)驗(yàn)室將遺傳模糊樹(Genetic Fuzzy Trees,GFTs)方法應(yīng)用于ALPHA AI系統(tǒng),使系統(tǒng)具備充當(dāng)僚機(jī)、搜集情報(bào)、控制無(wú)人機(jī)群[16]等能力。同年,應(yīng)用強(qiáng)化學(xué)習(xí)算法對(duì)計(jì)算機(jī)生成兵力(Computer Generated Forces,CGFs)行為建模,開發(fā)新的獎(jiǎng)勵(lì)函數(shù),使之可將擊敗曾經(jīng)對(duì)手時(shí)學(xué)到的知識(shí)應(yīng)用于擊敗下一個(gè)對(duì)手,從而學(xué)習(xí)到新戰(zhàn)術(shù)[17]。2017年,美國(guó)空軍Maven系統(tǒng)成功利用強(qiáng)化學(xué)習(xí)算法在智能采集單元中自動(dòng)識(shí)別目標(biāo)運(yùn)動(dòng),通過(guò)自主智能體實(shí)驗(yàn)改進(jìn)軍事仿真軟件行為建模方式,為決策應(yīng)用提供輔助[18]。2018年,智能化交互式問(wèn)題解答系統(tǒng)MEADE應(yīng)用于美國(guó)空軍飛行員日常訓(xùn)練,為訓(xùn)練提供針對(duì)性輔助決策。同年10月,美國(guó)空軍在軍事演習(xí)中應(yīng)用SLATE訓(xùn)練系統(tǒng)實(shí)現(xiàn)航空兵在本場(chǎng)和異地開展分布式訓(xùn)練。2019年,美軍啟動(dòng) “智能僚機(jī)”、“空戰(zhàn)演進(jìn)”和“機(jī)器飛行員”項(xiàng)目,旨在為飛行員提供智能僚機(jī)群作戰(zhàn)輔助和行動(dòng)方案推薦,通過(guò)非侵入式手段對(duì)現(xiàn)有作戰(zhàn)系統(tǒng)進(jìn)行無(wú)人化改裝。同年,模擬人類知識(shí)的更新和存儲(chǔ)機(jī)制改造智能空戰(zhàn)學(xué)習(xí)系統(tǒng),設(shè)計(jì)了具有層次結(jié)構(gòu)的異步學(xué)習(xí)原理[19],將神經(jīng)網(wǎng)絡(luò)和人工勢(shì)場(chǎng)結(jié)合應(yīng)用于空戰(zhàn)協(xié)同博弈問(wèn)題[20]。2020年,DARPA 發(fā)布“座艙內(nèi)機(jī)組自動(dòng)化系統(tǒng)(ALIAS)”研究計(jì)劃,擬通過(guò)無(wú)人駕駛技術(shù)控制美國(guó)陸軍直升機(jī),利用蒙特卡洛搜索樹算法進(jìn)行推演式?jīng)Q策計(jì)算,通過(guò)智能虛擬陪練幫助飛行員完成復(fù)雜的戰(zhàn)術(shù)訓(xùn)練[21]。
指揮控制系統(tǒng)的智能化水平?jīng)Q定未來(lái)戰(zhàn)爭(zhēng)的主動(dòng)權(quán)[22],戰(zhàn)術(shù)決策是該系統(tǒng)的核心[23]。實(shí)踐證明,強(qiáng)化學(xué)習(xí)算法有效提升指揮控制系統(tǒng)智能性,為戰(zhàn)術(shù)決策系統(tǒng)在戰(zhàn)場(chǎng)信息搜集、處理、分析、決策等方面提供強(qiáng)大動(dòng)力。目前,近端策略優(yōu)化算法是強(qiáng)化學(xué)習(xí)中性能最好的算法[24],但面對(duì)具體的超視距空戰(zhàn)決策問(wèn)題仍面臨動(dòng)作空間過(guò)大、不易收斂等問(wèn)題。 現(xiàn)提出基于Option的近端策略分層優(yōu)化算法,通過(guò)在動(dòng)作選擇過(guò)程中加入專家知識(shí),智能提高決策博弈效率,輔助智能體學(xué)習(xí)空戰(zhàn)規(guī)則,豐富空戰(zhàn)過(guò)程戰(zhàn)術(shù)指向性。
1 相關(guān)工作
1.1 強(qiáng)化學(xué)習(xí)
強(qiáng)化學(xué)習(xí)(Reinforcement Learning,RL)用于解決序貫決策問(wèn)題[25-26],以使整個(gè)任務(wù)序列在當(dāng)前狀態(tài)下達(dá)到最優(yōu)為目的進(jìn)行動(dòng)作選擇。智能體不斷與環(huán)境交互,通過(guò)“試錯(cuò)”機(jī)制和“利用-探索”平衡策略從環(huán)境中獲得實(shí)時(shí)反饋,根據(jù)反饋選擇相應(yīng)動(dòng)作,繼而不斷調(diào)整參數(shù),最終選擇出最優(yōu)策略[27]。強(qiáng)化學(xué)習(xí)[28]過(guò)程主要有狀態(tài)、動(dòng)作、轉(zhuǎn)移概率及獎(jiǎng)賞函數(shù)四個(gè)要素,可用馬爾可夫決策過(guò)程(Markov Decision Process,MDP)描述:智能體處在環(huán)境中,狀態(tài)為智能體對(duì)當(dāng)前環(huán)境的感知,智能體通過(guò)執(zhí)行動(dòng)作影響環(huán)境。在某一狀態(tài)下,當(dāng)智能體采取某一動(dòng)作后,環(huán)境受影響根據(jù)轉(zhuǎn)移概率轉(zhuǎn)移至下一狀態(tài),同時(shí)依據(jù)獎(jiǎng)賞函數(shù)給予智能體獎(jiǎng)勵(lì),如圖1所示。
當(dāng)狀態(tài)維度和動(dòng)作維度不斷提高,強(qiáng)化學(xué)習(xí)面臨難以遍歷所有情況、收斂慢、無(wú)法找到最優(yōu)策略的難題。有學(xué)者提出通過(guò)線性函數(shù)、核函數(shù)、神經(jīng)網(wǎng)絡(luò)等來(lái)近似表示值或策略的解決方法[29-30]。深度強(qiáng)化學(xué)習(xí)在強(qiáng)化學(xué)習(xí)中加入神經(jīng)網(wǎng)絡(luò),結(jié)合了強(qiáng)化學(xué)習(xí)和深度學(xué)習(xí)的優(yōu)點(diǎn)[31],經(jīng)典近端策略優(yōu)化算法屬于深度強(qiáng)化學(xué)習(xí)算法。
1.2 經(jīng)典近端策略優(yōu)化算法
近端策略優(yōu)化算法(Proximal Policy Optimization Algorithms,PPO)[24] 是以信賴域策略優(yōu)化算法(Trust Region Policy Optimization,TRPO)[32] 為基礎(chǔ)的改進(jìn)算法。
TRPO算法通過(guò)對(duì)步長(zhǎng)的合理選擇使回報(bào)函數(shù)的值在策略更新后單調(diào)增或不減,解決了策略梯度算法對(duì)迭代步長(zhǎng)異常敏感的問(wèn)題。PPO算法在TRPO算法的基礎(chǔ)上結(jié)合Actor-Critic架構(gòu),針對(duì)TRPO算法在懲罰時(shí)超參數(shù)β難以確定的問(wèn)題,提出了自適應(yīng)確定超參數(shù)的方法:
d=Et[KL[πθ,πθ′]]
式中:θ為原網(wǎng)絡(luò)參數(shù);θ′為目標(biāo)網(wǎng)絡(luò)參數(shù)。
PPO算法針對(duì)控制分布差距范圍優(yōu)化問(wèn)題,采用裁剪函數(shù)
clippθ(at|st)pθ′(at|st),1-ε,1+ε
來(lái)避免完全施加硬約束。相對(duì)于TRPO算法,PPO算法降低了計(jì)算復(fù)雜性,彌補(bǔ)了TRPO算法計(jì)算效率低下的缺陷。
近年,出現(xiàn)較多關(guān)于近端策略優(yōu)化算法性能改進(jìn)的探討。PPO算法的近端特性導(dǎo)致不能完全消除推動(dòng)策略退出的動(dòng)機(jī)[33-34],所以不能嚴(yán)格限制概率比率。文獻(xiàn)[35]提出基于信任域的回滾PPO 算法(TR-PPO-RB),應(yīng)用一個(gè)負(fù)面激勵(lì)來(lái)防止在訓(xùn)練期間將策略推出,該算法結(jié)合了TRPO算法和PPO算法的優(yōu)點(diǎn),易于與一階優(yōu)化相結(jié)合。由于 PPO算法和 TRPO 算法分別采用的兩種約束類型之間的固有差異而不能強(qiáng)制執(zhí)行信任區(qū)域約束,文獻(xiàn)[36]提出基于kronecker因子逼近的深度強(qiáng)化學(xué)習(xí)的可伸縮信賴域方法(ACKTR),擴(kuò)展PG框架,利用帶信賴域的kronecker因子近似曲率(K-FAC) 對(duì)Actor-Critic進(jìn)行優(yōu)化。文獻(xiàn)[33]發(fā)現(xiàn) PPO算法受局部最優(yōu)問(wèn)題的困擾,衍生出基于概率比率的裁剪方法問(wèn)題,并通過(guò)自適應(yīng)地調(diào)整由信任區(qū)域標(biāo)準(zhǔn)指導(dǎo)的裁剪范圍來(lái)解決此問(wèn)題。文獻(xiàn)[37]提出DPPO算法,使用多個(gè)線程在不同的環(huán)境中并行PPO算法。
1.3 分層強(qiáng)化學(xué)習(xí)
分層強(qiáng)化學(xué)習(xí)(Hierarchical Reinforcement Learning,HRL)在強(qiáng)化學(xué)習(xí)的基礎(chǔ)上增加抽象機(jī)制,通過(guò)設(shè)立子任務(wù)把問(wèn)題分解成具有層次結(jié)構(gòu)的子問(wèn)題,是一種有效加強(qiáng)強(qiáng)化學(xué)習(xí)訓(xùn)練速率的層次結(jié)構(gòu)方法。分層強(qiáng)化學(xué)習(xí)可以通過(guò)馬爾可夫決策過(guò)程模型化,Option方法是典型的分層強(qiáng)化學(xué)習(xí)方法。
Option由Sutton提出,通過(guò)擴(kuò)展MDP原子動(dòng)作將學(xué)習(xí)過(guò)程進(jìn)行分層[38-39]。原子動(dòng)作是第一層Option,原子動(dòng)作集即Action集。Option可由專家系統(tǒng)離線寫入,也可在線生成。上層Option被定義為新的動(dòng)作加入初始動(dòng)作集中,通過(guò)調(diào)用下層Option或原子動(dòng)作實(shí)現(xiàn)分層控制。Option可分為基于馬爾可夫決策過(guò)程的Option(Markov-Option)和基于半馬爾可夫決策過(guò)程的Option(Semi- Markov-Option)。
馬爾可夫決策過(guò)程可用元組表達(dá)[40]:S為狀態(tài)集; A為動(dòng)作集;P(s′|s,a)為狀態(tài)s下采取動(dòng)作a之后,轉(zhuǎn)移到s′狀態(tài)的概率;R(s,a)為狀態(tài)s下采取動(dòng)作a獲得的累積回報(bào)。γ是未來(lái)回報(bào)的折扣因子,是0到1之間的實(shí)數(shù)。半馬爾可夫決策過(guò)程將動(dòng)作間隔時(shí)間設(shè)置為變量。Semi-Markov-Option可表示為三元組<,μ,β>。 μ:×0[0,1]為內(nèi)部策略。第一層Option<,μ,β>啟動(dòng)后,根據(jù)μ選擇相應(yīng)動(dòng)作或Option執(zhí)行。滿足終止條件β則完成選擇。被選中的Option可以根據(jù)自身策略選擇其他Option,如圖2所示。
2 基于Option的近端策略分層優(yōu)化算法
針對(duì)強(qiáng)化學(xué)習(xí)在處理超視距空戰(zhàn)博弈問(wèn)題時(shí)面臨的動(dòng)作空間大、難以收斂、獎(jiǎng)勵(lì)稀疏等共性問(wèn)題[41],提出了基于Option的近端策略分層優(yōu)化算法(Proximal Policy Hierarchical Optimization Algorithm,PPHO),優(yōu)化空戰(zhàn)決策過(guò)程中戰(zhàn)術(shù)性策略選擇過(guò)程,提高空戰(zhàn)決策效率。
PPHO算法選用Semi-Markov模型對(duì)標(biāo)準(zhǔn)的近端策略優(yōu)化算法進(jìn)行改進(jìn)。用擴(kuò)充后的馬爾科夫決策過(guò)程表示強(qiáng)化學(xué)習(xí)過(guò)程,M為過(guò)程的Option空間,D為初始的狀態(tài)分布。PPHO算法動(dòng)作選擇過(guò)程為:第一步根據(jù)狀態(tài)選擇合適的Option,第二步根據(jù)Option選擇合適的動(dòng)作。PPHO算法利用Option有效增強(qiáng)動(dòng)作選擇過(guò)程的專業(yè)指向性,提高動(dòng)作選擇效率。
空戰(zhàn)原子動(dòng)作集中每一動(dòng)作均為基本Option,在此基礎(chǔ)上,根據(jù)問(wèn)題實(shí)際情況設(shè)置復(fù)雜Option。復(fù)雜Option包含為完成特定目的根據(jù)專家系統(tǒng)知識(shí)做出的動(dòng)作序列,算法結(jié)構(gòu)如圖3所示。
PPHO算法流程為
(1) 接受初始觀察狀態(tài)S1;
(2) θ′=θ+αΔθJ;
(3) For n=1,2,…,n do;
(4) 將s輸入 Actor的目標(biāo)網(wǎng)絡(luò),構(gòu)建正態(tài)分布,fθ(s)=A;
(5) 將action輸入environment得到獎(jiǎng)勵(lì)r_和下一步狀態(tài)s_,存儲(chǔ)[s,a,r];
(6) 將s_輸入到critic網(wǎng)絡(luò)中,得到狀態(tài)的v_值,計(jì)算折扣獎(jiǎng)勵(lì);
(7) 將s_輸入Actor的目標(biāo)網(wǎng)絡(luò)中;
(8) End for;
(9) 將存儲(chǔ)的所有s組合輸入到critic網(wǎng)絡(luò)中,得到所有狀態(tài)的V_值,計(jì)算At;
(10) 求解損失函數(shù),反向傳播更新critic網(wǎng)絡(luò);
(11) 將(3)的結(jié)果輸入Option層;
(12) If Option=1,2,…,N then;
(13) Action=原子動(dòng)作序列;
(14) 將結(jié)果輸入Actor的原網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò);
(15) 計(jì)算裁剪函數(shù)clippθ(at|st)pθ′(at|st),1-ε,1+ε,更新Actor的目標(biāo)網(wǎng)絡(luò);
(16) 循環(huán)算法第(12)~(15)步;
(17) 更新Actor的原網(wǎng)絡(luò);
(18) 結(jié)束。
PPHO算法謀求更加高效解決超視距空戰(zhàn)問(wèn)題中針對(duì)性制定決策等問(wèn)題,同時(shí)在策略選擇過(guò)程中結(jié)合傳統(tǒng)經(jīng)典戰(zhàn)術(shù)進(jìn)一步豐富戰(zhàn)術(shù)智能。PPHO算法通過(guò)向PPO算法中引入分層思想加入領(lǐng)域知識(shí),引導(dǎo)智能體脫離盲目搜索、提高學(xué)習(xí)效率,大大提高算法收斂速度。
3 基于強(qiáng)化學(xué)習(xí)的空戰(zhàn)智能決策模型構(gòu)建
3.1 空戰(zhàn)決策狀態(tài)空間
通過(guò)狀態(tài)空間對(duì)戰(zhàn)場(chǎng)態(tài)勢(shì)進(jìn)行描述,基礎(chǔ)狀態(tài)集有:速度、海拔、重力、垂直速度、方向、推力、彈藥、燃油、質(zhì)量、空氣密度、壓強(qiáng)和溫度。
3.2 空戰(zhàn)決策動(dòng)作空間
基礎(chǔ)的原子動(dòng)作集有:向前直線飛行,向左飛行,向右飛行,提升飛機(jī)高度,降低飛機(jī)高度。實(shí)驗(yàn)初步預(yù)設(shè)9個(gè)Option,通過(guò)IF-THEN規(guī)則關(guān)系描述飛機(jī)Option到動(dòng)作的映射關(guān)系,如表1所示。后期的訓(xùn)練過(guò)程中,隨著戰(zhàn)術(shù)理論的發(fā)展,Option數(shù)量可機(jī)動(dòng)增加,及時(shí)適應(yīng)新戰(zhàn)術(shù)博弈需要。
3.3 回報(bào)函數(shù)設(shè)計(jì)
(1) 當(dāng)Agent未感知到環(huán)境威脅時(shí),reward+=1/dis(agent,target):引導(dǎo)Agent飛向目標(biāo)進(jìn)行交戰(zhàn);
(2) 超出交戰(zhàn)空域,reward-=10:引導(dǎo)Agent在交戰(zhàn)空域內(nèi);
(3) 命中目標(biāo),reward+=2:引導(dǎo)Agent發(fā)射導(dǎo)彈;
(4) 被目標(biāo)擊中,reward-=10:引導(dǎo)Agent避免進(jìn)入敵方不可逃逸區(qū);
(5) 被敵方鎖定后,逃脫導(dǎo)彈成功,reward+=1,引導(dǎo)Agent學(xué)習(xí)導(dǎo)彈規(guī)避動(dòng)作。
3.4 決策模型構(gòu)建
構(gòu)建基于強(qiáng)化學(xué)習(xí)的空戰(zhàn)仿真指揮控制模型,如圖4所示。
智能決策系統(tǒng)代表強(qiáng)化學(xué)習(xí)過(guò)程中智能體的角色,利用傳感器、探測(cè)器等設(shè)備感知當(dāng)前戰(zhàn)場(chǎng)態(tài)勢(shì)信息。決策系統(tǒng)利用自身目前已掌握的經(jīng)驗(yàn)和知識(shí),對(duì)當(dāng)前戰(zhàn)場(chǎng)態(tài)勢(shì)進(jìn)行判斷,同時(shí)結(jié)合強(qiáng)化學(xué)習(xí)所學(xué)得的策略,在動(dòng)作空間中對(duì)飛行控制、航電系統(tǒng)、火力控制等方面進(jìn)行相應(yīng)的選擇。戰(zhàn)場(chǎng)環(huán)境狀態(tài)收到動(dòng)作的影響后,轉(zhuǎn)移到新的狀態(tài),同時(shí)給予智能決策系統(tǒng)一個(gè)即時(shí)效果反饋,決策系統(tǒng)根據(jù)效果反饋和當(dāng)前戰(zhàn)場(chǎng)態(tài)勢(shì),調(diào)整自身強(qiáng)化學(xué)習(xí)策略并進(jìn)行下一次動(dòng)作選擇。結(jié)合近端策略分層優(yōu)化算法的空戰(zhàn)智能決策模型訓(xùn)練過(guò)程如圖5所示。
4 面向超視距空戰(zhàn)模型的近端策略分層優(yōu)化算法仿真實(shí)驗(yàn)
4.1 實(shí)驗(yàn)場(chǎng)景設(shè)置
現(xiàn)有的空戰(zhàn)仿真實(shí)驗(yàn)因?qū)嶋H問(wèn)題的復(fù)雜性和仿真效能的限制大多將問(wèn)題抽象成簡(jiǎn)單模型,簡(jiǎn)化空戰(zhàn)決策過(guò)程,降低了系統(tǒng)對(duì)飛行員決策的參考意義。本實(shí)驗(yàn)選用在Unity平臺(tái)安裝ML-Agents插件為背景進(jìn)行超視距智能化空戰(zhàn)模擬仿真實(shí)驗(yàn),構(gòu)建空戰(zhàn)仿真環(huán)境,對(duì)超視距空戰(zhàn)博弈問(wèn)題進(jìn)行3D仿真。
ML-Agents是Unity支持的處理連續(xù)問(wèn)題的開源插件,用于Agent在模擬環(huán)境中的訓(xùn)練。ML-Agents提供基于TensorFlow的算法實(shí)現(xiàn)方式,包含2D,3D 和 VR/AR的實(shí)驗(yàn)環(huán)境。
ML-Agents包含三個(gè)高級(jí)組件:
(1)Learning Environment:包含 Unity 場(chǎng)景和所有角色,可分為三個(gè)組件:Agent,可以被附加到場(chǎng)景中的任何角色上,負(fù)責(zé)生成觀測(cè)結(jié)果、執(zhí)行接收動(dòng)作,并適時(shí)分配正/負(fù)獎(jiǎng)勵(lì)。Brain,封裝 Agent 的決策邏輯。Academy,指揮 Agent 的觀測(cè)和決策過(guò)程。
(2)Python API:包含訓(xùn)練的所有機(jī)器學(xué)習(xí)算法。
(3)External Communicator:將Learning Environment與 Python API 連接起來(lái)。
實(shí)驗(yàn)運(yùn)用PPHO 算法指導(dǎo)紅方飛機(jī)進(jìn)行機(jī)動(dòng)。PPHO算法包含于Python API 組件中,通過(guò)External Communicator與 Learning Environment中的紅方智能體相連,使紅方智能體在學(xué)習(xí)型Brain的指導(dǎo)下學(xué)習(xí)算法策略。Learning Environment中的Academy組件負(fù)責(zé)指揮智能體的觀測(cè)和決策過(guò)程。ML-Agents環(huán)境中PPHO算法應(yīng)用框架如圖6所示。
基于Unity平臺(tái),實(shí)驗(yàn)場(chǎng)景設(shè)置為100 km×100 km,設(shè)置紅藍(lán)雙方飛機(jī)探測(cè)性能50 km,射程10 km,同時(shí)對(duì)飛機(jī)速度、海拔、重力、垂直速度、方向、功效、推力、彈藥、燃油、重量、空氣密度、壓強(qiáng)、溫度等參數(shù)進(jìn)行實(shí)時(shí)監(jiān)控調(diào)整。在仿真環(huán)境中既可以通過(guò)規(guī)則制定紅藍(lán)雙方的作戰(zhàn)行動(dòng)序列,也可以通過(guò)快速博弈對(duì)抗產(chǎn)生大量數(shù)據(jù)訓(xùn)練決策模型的方式進(jìn)行,實(shí)驗(yàn)場(chǎng)景如圖7所示。
4.2 定義任務(wù)想定
紅藍(lán)雙方使用同等戰(zhàn)機(jī)型號(hào)。雙方在指定對(duì)抗空域內(nèi),自由空戰(zhàn)。藍(lán)方為規(guī)則驅(qū)動(dòng),當(dāng)未感知到威脅時(shí),在預(yù)設(shè)交戰(zhàn)空域內(nèi)巡邏,一旦感知到威脅,殲滅紅方威脅,目標(biāo)丟失后,繼續(xù)巡邏搜索。紅方任務(wù)為取得預(yù)設(shè)空域制空權(quán),擊落敵機(jī)。
4.3 決策模型更新方法
智能體學(xué)習(xí)主要包括離線訓(xùn)練和在線使用兩部分。通過(guò)離線訓(xùn)練得到強(qiáng)化學(xué)習(xí)的決策網(wǎng)絡(luò),然后進(jìn)行“自主對(duì)抗”,優(yōu)化決策網(wǎng)絡(luò)。使用“自主對(duì)抗”產(chǎn)生的數(shù)據(jù)訓(xùn)練態(tài)勢(shì)評(píng)估網(wǎng)絡(luò),訓(xùn)練好的態(tài)勢(shì)評(píng)估網(wǎng)絡(luò)能夠?qū)?zhàn)場(chǎng)態(tài)勢(shì)進(jìn)行評(píng)估,對(duì)決策方案的作戰(zhàn)效能進(jìn)行預(yù)測(cè)。
在離線訓(xùn)練階段,智能決策模型為紅方智能體提供動(dòng)作選擇,藍(lán)方智能體基于規(guī)則驅(qū)動(dòng),紅藍(lán)雙方進(jìn)行對(duì)抗。將戰(zhàn)場(chǎng)態(tài)勢(shì)信息等交戰(zhàn)數(shù)據(jù)轉(zhuǎn)換成狀態(tài)向量存儲(chǔ)于記憶單元中,從記憶單元中采樣數(shù)據(jù)對(duì)新舊策略價(jià)值網(wǎng)絡(luò)進(jìn)行訓(xùn)練,經(jīng)過(guò)Option層輸出相應(yīng)行為序列,對(duì)紅方飛機(jī)速度、航向、航電系統(tǒng)、火力控制等參數(shù)設(shè)置進(jìn)行更新,進(jìn)一步提高對(duì)抗水平,產(chǎn)生更高質(zhì)量的交戰(zhàn)數(shù)據(jù)用于策略價(jià)值網(wǎng)絡(luò)的訓(xùn)練。學(xué)得的策略價(jià)值網(wǎng)絡(luò)即作為當(dāng)前作戰(zhàn)仿真環(huán)境下的博弈對(duì)抗行為模型,進(jìn)行在線部署。
對(duì)戰(zhàn)回合數(shù)以200為限,基礎(chǔ)點(diǎn)數(shù)均為100。每回合開始,飛機(jī)位置隨機(jī)分配,交戰(zhàn)過(guò)程根據(jù)動(dòng)作選擇損失相應(yīng)點(diǎn)數(shù),點(diǎn)數(shù)歸零,回合結(jié)束。下一回合開始,系統(tǒng)初始化。實(shí)驗(yàn)主要根據(jù)點(diǎn)數(shù)比分判斷回合勝負(fù),通過(guò)比較算法收斂速度和變化率進(jìn)行算法優(yōu)劣對(duì)比。
4.4 仿真實(shí)驗(yàn)結(jié)果分析
針對(duì)實(shí)驗(yàn)效果和收斂速度兩方面對(duì)當(dāng)前訓(xùn)練階段算法效能進(jìn)行評(píng)價(jià)。通過(guò)累計(jì)回報(bào)和損失函數(shù)的對(duì)比進(jìn)行具體論述。累計(jì)回報(bào)是智能體在采取相應(yīng)動(dòng)作之后,環(huán)境反饋的累計(jì)獎(jiǎng)勵(lì),實(shí)驗(yàn)效果如圖8所示。
實(shí)驗(yàn)數(shù)據(jù)統(tǒng)計(jì)時(shí),取最近10次訓(xùn)練模型的測(cè)試?yán)塾?jì)回報(bào)值,偏差小于1.5%,認(rèn)為該算法已經(jīng)達(dá)到穩(wěn)定收斂。PPHO算法在1.1×105步長(zhǎng)的訓(xùn)練后趨于穩(wěn)定,PPO算法在1.6×105步長(zhǎng)的訓(xùn)練后趨于穩(wěn)定。PPHO算法累計(jì)回報(bào)值達(dá)到與PPO算法同樣高度,證明PPHO算法在效果上同樣達(dá)到了PPO算法的高水平。對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析:PPHO算法訓(xùn)練數(shù)據(jù)均值為1.50,方差為0.39。 PPO算法訓(xùn)練數(shù)據(jù)均值為1.12,方差為1.10。PPHO算法與PPO算法均值相近,方差相差較大,說(shuō)明算法的改進(jìn)起到了穩(wěn)定提升訓(xùn)練速度的作用。
損失函數(shù)計(jì)算訓(xùn)練樣本的誤差,評(píng)估算法對(duì)數(shù)據(jù)的建模程度。若實(shí)際結(jié)果與預(yù)測(cè)值相差較大 ,損失函數(shù)也會(huì)相應(yīng)變大。算法優(yōu)化后,損失函數(shù)不斷減小預(yù)測(cè)值的誤差。實(shí)驗(yàn)效果如圖9所示,PPHO算法初始狀態(tài)損耗值小于經(jīng)典PPO算法損耗值的一半。訓(xùn)練過(guò)程中,PPHO算法正向損耗值均小于PPO算法,實(shí)驗(yàn)效果優(yōu)于PPO算法。收斂速度上,PPHO算法先于PPO算法達(dá)到穩(wěn)定狀態(tài),最終結(jié)果趨近于0。
實(shí)驗(yàn)結(jié)果顯示:在訓(xùn)練期間,PPHO算法較PPO算法展現(xiàn)出了更加優(yōu)越的性能。
利用訓(xùn)練好的模型驅(qū)動(dòng)飛機(jī)2v2自由空戰(zhàn),同時(shí)取1.1×105步長(zhǎng)訓(xùn)練后的模型作為測(cè)試對(duì)象??梢暬砻?,PPO算法在1.1×105步長(zhǎng)訓(xùn)練后飛機(jī)仍采用直接攻擊的策略,如圖10所示。通過(guò)探索-利用與仿真環(huán)境交互產(chǎn)生動(dòng)作,由于動(dòng)作本身沒有明確的戰(zhàn)術(shù)意義,學(xué)習(xí)的代價(jià)是大量不符合戰(zhàn)術(shù)規(guī)則的動(dòng)作導(dǎo)致任務(wù)失敗。但PPHO算法訓(xùn)練得到的模型驅(qū)動(dòng)的飛機(jī)在面對(duì)敵方正面攻擊的情況時(shí),能夠以顯式的戰(zhàn)術(shù)機(jī)動(dòng)優(yōu)化模型,表現(xiàn)出迂回攻擊的戰(zhàn)術(shù)行為,如圖11所示。
5 結(jié)? 論
本文提出的PPHO算法通過(guò)專家指導(dǎo)增加戰(zhàn)術(shù)儲(chǔ)備,為超視距空戰(zhàn)仿真過(guò)程注入經(jīng)驗(yàn)支持的戰(zhàn)術(shù)智能,達(dá)到加速學(xué)習(xí)過(guò)程的效果。實(shí)驗(yàn)過(guò)程貼近實(shí)戰(zhàn),對(duì)增強(qiáng)戰(zhàn)斗機(jī)端到端的操作訓(xùn)練經(jīng)驗(yàn)具有積極意義。實(shí)驗(yàn)結(jié)果表明PPHO算法可有效提升輔助決策效率。
下一步工作重點(diǎn)為:提升算法自學(xué)習(xí)能力,解決Option的內(nèi)容需要離線更新的問(wèn)題??梢圆扇〉姆椒òǎ海?)結(jié)合規(guī)則驅(qū)動(dòng);借助少量規(guī)則提升強(qiáng)化學(xué)習(xí)的探索與利用效率,加速收斂。(2)結(jié)合元深度強(qiáng)化學(xué)習(xí); 對(duì)不同任務(wù)下歷史數(shù)據(jù)和訓(xùn)練參數(shù)優(yōu)化模式的充分利用,從一系列不同任務(wù)下歷史數(shù)據(jù)中尋找共性規(guī)律,提煉出一般性的知識(shí),提升決策模型的泛化能力。(3)結(jié)合深度逆向強(qiáng)化學(xué)習(xí); 借助少量高質(zhì)量對(duì)抗樣本數(shù)據(jù)重構(gòu)回報(bào)函數(shù),加速?gòu)?qiáng)化學(xué)習(xí)。
參考文獻(xiàn):
[1] Ji H M,Yu M J,Yang J Y. Research on the Air Combat Countermeasure Generation of Fighter Mid-Range Turn[C]∥ 2018 2nd International Conference on Artificial Intelligence Applications and Technologies (AIAAT2018),2018.
[2] 孫永芹,孫濤,范洪達(dá),等. 現(xiàn)代空戰(zhàn)機(jī)動(dòng)決策研究[J]. 海軍航空工程學(xué)院學(xué)報(bào),2009,24(5):573-577.
Sun Yongqin,Sun Tao,F(xiàn)an Hongda,et al. Research on Maneuvering Decision for Modern Air Combat[J]. Journal of Naval Aeronautical and Astronautical University,2009,24(5):573-577. (in Chinese)
[3] Pan Q,Zhou D Y,Huang J C,et al. Maneuver Decision for Cooperative Close-Range Air Combat Based on State Predicted Influence Diagram[C]∥? IEEE International Conference on Information and Automation(ICIA),2017:726-731.
[4] 馬耀飛,馬小樂. 一種空戰(zhàn)智能決策方法研究[C]∥中國(guó)制導(dǎo)、導(dǎo)航與控制學(xué)術(shù)會(huì)議論文集,2014: 2249-2454.
Ma Yaofei,Ma Xiaole.The Methods of Air Combat Intelligent Decision[C]∥Proceedings of IEEE Chinese Guidance,Navigation and Control Conference,2014: 2249-2454. (in Chinese)
[5] 惠一楠,朱華勇,沈林成. 無(wú)人機(jī)攻防對(duì)抗不完全信息動(dòng)態(tài)博弈方法研究[J]. 兵工自動(dòng)化,2009,28(1):7-10.
Hui Yinan,Zhu Huayong,Shen Lincheng. Study on Dynamic Game Method with Incomplete Information in UAV Attack-Defends Campaign[J].Ordnance Industry Automation,2009,28(1):7-10. (in Chinese)
[6] 周思羽,吳文海,張楠.自主空戰(zhàn)機(jī)動(dòng)決策方法綜述[J]. 航空計(jì)算技術(shù),2012,24(1):27-31.
Zhou Siyu,Wu Wenhai,Zhang Nan. Overview of Autonomous Air Combat Maneuver Decision[J]. Aeronautical Computing Technique,2012,24(1):27-31.(in Chinese)
[7] 張立鵬,魏瑞軒,李霞. 無(wú)人作戰(zhàn)飛機(jī)空戰(zhàn)自主戰(zhàn)術(shù)決策方法研究[J]. 電光與控制,2012,19(2):92-96.
Zhang Lipeng,Wei Ruixuan,Li Xia. Autonomous Tactical Decision-Making of UCAVs in Air Combat[J]. Electronics Optics & Control,2012,19(2):92-96.(in Chinese)
[8] 張磊. 無(wú)人作戰(zhàn)飛機(jī)自主決策技術(shù)研究[J]. 航空科學(xué)技術(shù),2014,25(5):49-53.
Zhang Lei. Research on Autonomous Decision Making Technology of UCAV[J]. Aeronautical Science & Technology,2014,25(5):49-53.(in Chinese)
[9] 唐傳林,黃長(zhǎng)強(qiáng),丁達(dá)理,等. 一種UCAV自主空戰(zhàn)智能戰(zhàn)術(shù)決策方法[J].指揮控制與仿真,2015,37(5):5-11.
Tang Chuanlin,Huang Changqiang,Ding Dali,et al. A Method of Intelligent Tactical Decision Making for UCAV Autonomous Air Combat[J]. Command Control & Simulation,2015,37(5):5-11.(in Chinese)
[10] Ma S D,Zhang H Z,Yang G Q. Target Threat Level Assessment Based on Cloud Model under Fuzzy and Uncertain Conditions in Air Combat Simulation[J]. Aerospace Science and Technology,2017,67:49-53.
[11] Ernest N,Cohen K,Kivelevitch E,et al. Genetic Fuzzy Trees and Their Application towards Autonomous Training and Control of a Squadron of Unmanned Combat Aerial Vehicles[J]. Unmanned Systems,2015,3(3):185-204.
[12] 鮮勇,李揚(yáng). 人工智能技術(shù)對(duì)未來(lái)空戰(zhàn)武器的變革與展望[J]. 航空兵器,2019,26(5): 26-31.
Xian Yong,Li Yang. Revolution and Assumptions of Artificial Intelligence Technology for Air Combat Weapons in the Future[J]. Aero Weaponry,2019,26(5): 26-31.(in Chinese)
[13] Ernest N,Garroll D,Schumacher C,et al. Genetic Fuzzy Based Artificial Intelligence for Unmanned Combat Aerial Vehicle Control in Simulated Air Combat Missions[J]. Journal of Defense Management,2016,6(1):1-7.
[14] Yin Y F,Gong G H,Han L. An Approach to Pilot Air-Combat Behavior Assessment[J].Procedia Engineering,2011,15:4036-4040.
[15] 胡曉峰,榮明. 作戰(zhàn)決策輔助向何處去——“深綠”計(jì)劃的啟示與思考[J]. 指揮與控制學(xué)報(bào),2016,2(1):22-25.
Hu Xiaofeng,Rong Ming. Where Do Operation Decision Support Systems Go: Inspiration and Thought on Deep Green Plan[J]. Journal of Command and Control,2016,2(1):22-25.(in Chinese)
[16] 周光霞,周方.美軍人工智能空戰(zhàn)系統(tǒng)阿爾法初探[C]∥第六屆中國(guó)指揮控制大會(huì)論文集,2018.
Zhou Guangxia,Zhou Fang. Analysis of Alpha AI for Air-to-Air Combat of US[C]∥Proceedings of 6th Command and Control Conference,2018.(in Chinese)
[17] Toubman A,Roessingh J J,van Oijen J,et al. Modeling Behavior of Computer Generated Forces with Machine Learning Techniques,the NATO Task Group Approach[C]∥ IEEE International Conference on? Systems,Man,and Cybernetics(SMC), 2016.
[18] Roessingh J J,Toubman A,van Oijen J,et al. Machine Learning Techniques for Autonomous Agents in Military Simulations-Multum in Parvo[C]∥IEEE International Conference on Systems,Man,and Cybernetics (SMC), 2017.
[19] Zhou K,Wei R X,Xu Z F,et al. An Air Combat Decision Learning System Based on a Brain-Like Cognitive Mechanism[J]. Cognitive Computation,2019,12(4):128-139.
[20] 張菁,何友,彭應(yīng)寧,等. 基于神經(jīng)網(wǎng)絡(luò)和人工勢(shì)場(chǎng)的協(xié)同博弈路徑規(guī)劃[J]. 航空學(xué)報(bào),2019,40(3): 322493.
Zhang Jing,He You,Peng Yingning,et al. Neural Network and Artificial Potential Field Based Cooperative and Adversarial Path Planning[J]. Acta Aeronautica et Astronautica Sinica,2019,40(3): 322493.(in Chinese)
[21] 陳斌,王江,王陽(yáng). 戰(zhàn)斗機(jī)嵌入式訓(xùn)練系統(tǒng)中的智能虛擬陪練[J]. 航空學(xué)報(bào),2020,41(6): 523467.
Chen Bin,Wang Jiang,Wang Yang. Intelligent Virtual Training Partner in Embedded Training System of Fighter[J]. Acta Aeronautica et Astronautica Sinica,2020,41(6): 523467. (in Chinese)
[22] 程運(yùn)江,張程,趙日,等. 人工智能的發(fā)展及其在未來(lái)戰(zhàn)爭(zhēng)中的影響與應(yīng)用思考[J]. 航空兵器,2019,26(1): 58-62.
Cheng Yunjiang,Zhang Cheng,Zhao Ri,et al. Development of Artificial Intelligence and Thoughts on Its Influence and Application in the Future War[J]. Aero Weaponry,2019,26(1): 58-62.(in Chinese)
[23] 黃長(zhǎng)強(qiáng). 未來(lái)空戰(zhàn)過(guò)程智能化關(guān)鍵技術(shù)研究[J]. 航空兵器,2019,26(1): 11-19.
Huang Changqiang. Research on Key Technology of Future Air Combat Process Intelligentization[J]. Aero Weaponry,2019,26(1): 11-19. (in Chinese)
[24] Schulman J,Wolski F,Dhariwal P,et al. Proximal Policy Optimization Algorithms[EB/OL].(2017-08-28)[2020-05-10].https://arxiv.org/pdf/1707.06347.pdf
[25] 杜正軍,陳超,姜鑫. 基于影響網(wǎng)絡(luò)與序貫博弈的作戰(zhàn)行動(dòng)序列模型與求解[J]. 系統(tǒng)工程理論與實(shí)踐,2013,33(1):215-222.
Du Zhengjun,Chen Chao,Jiang Xin. Modeling and Solution of Course of Action Based on Influence Net and Sequential Game[J]. System Engineering Theory and Practice,2013,33(1): 215-222. (in Chinese)
[26] 張迎新,陳超,劉忠,等. 資源不確定軍事任務(wù)計(jì)劃預(yù)測(cè)調(diào)度模型與算法[J]. 國(guó)防科技大學(xué)學(xué)報(bào),2013,35(3): 30-35.
Zhang Yingxin,Chen Chao,Liu Zhong,et al. Method for Modeling and Solving Military Mission Planning with Uncertain Resource Availability[J]. Journal of National University of Defense Technology,2013,35(3): 30-35. (in Chinese)
[27] 陳希亮,張永亮. 基于深度強(qiáng)化學(xué)習(xí)的陸軍分隊(duì)?wèi)?zhàn)術(shù)決策問(wèn)題研究[J]. 軍事運(yùn)籌與系統(tǒng)工程,2017,31(3):21-27.
Chen Xiliang,Zhang Yongliang. Research on the Tactical Decision-Making Problem of Army Units Based on Deep Reinforcement Learning[J].Military Operations Research and Systems Engineering,2017,31(3):21-27.(in Chinese)
[28] Richard S S,Andrew G B. Reinforcement Learning: An Introduction[M].London: MIT Press,1998.
[29] Whiteson S,Stone P. Evolutionary Function Approximation for Reinforcement Learning[J]. Journal of Machine Learning Research,2006(7):877-917.
[30] Preux P,Girgin S,Loth M. Feature Discovery in Approximate Dynamic Programing[C]∥ Proceedings of IEEE Symposium on Adaptive Dynamic Programming and Reinforcement Learning,2009:109-116.
[31] 周志華.機(jī)器學(xué)習(xí)[M].北京:清華大學(xué)出版社,2015: 390-392.
Zhou Zhihua. Machine Learning[M]. Beijing: Tsinghua University Press,2015:390-392. (in Chinese)
[32] Schulman J,Levine S,Moritz P,et al. Trust Region Policy Optimization[EB/OL].(2015-02-19)[2020-05-10].https://arxiv.org/abs/1502.05477v2.
[33] Wang Y H,He H,Tan X Y,et al.Trust Region-Guided Proximal Policy Optimization[EB/OL].(2019-11-08)[2020-05-10].https://arxiv.org/pdf/1901.10314.pdf.
[34] Ilyas A,Engstrom L,Santurkar S,et al. Are Deep Policy Gradient Algorithms Truly Policy Gradient Algorithms? [EB/OL].(2018-11-06)[2020-05-10].https://arxiv.org/abs/1811.02553v3.
[35] Wang Y H,He H,Wen C,et al. A Closer Look at Deep Policy Gradients[EB/OL].(2018-11-06)[2020-05-10].https://arxiv.org/abs/1811.02553v4.
[36] Wu Y H,Mansimov E,Liao S,et al. Scalable Trust Region Method for Deep Reinforcement Learning Using Kronecker-Factored Approximation[EB/OL].(2017-08-17)[2020-05-10].https://arxiv.org/abs/1708.05144v2.
[37] Heess N,TB D,Sriram S,et al.Emergence of Locomotion Behaviors in Rich Environments[EB/OL].(2017-07-10)[2020-05-10].https://arxiv.org/pdf/1707.02286.pdf.
[38] Sutton R S,Precup D,Singh S. Between MDPs and Semi-MDPs: A Framework for Temporal Abstraction in Reinforcement Learning[J]. Artificial Intelligence,1999,112(1/2):181-211.
[39] Mannor S,Menache I,Hoze A,et al. Dynamic Abstraction in Reinforcement Learning via Clustering[C]∥ Proceedings of the 21st International Conference on Machine Learning,2004: 560-567.
[40] Preux P,Girgin S,Loth M. Feature Discovery in Approximate Dynamic Programming[C]∥Proceedings of IEEE Symposium on Adaptive Dynamic Programming and Reinforcement Learning,2009:109-116.
[41] Barto A G,Mahadevan S. Recent Advances in Hierarchical Reinforcement Learning[J].Discrete Event Dynamic Systems,2003,13 (4): 341-379.
Research on the Application of Reinforcement Learning Algorithm in
Decision Support of Beyond-Visual-Range Air Combat
Wu Yijia1,2,Lai Jun1*,Chen Xiliang1,Cao Lei1,Xu Peng1,3
(1. Army Engineering University of PLA,Nanjing 210000,China;2. Unit 32526 of PLA,Wuxi 214000,China;
3.Unit 31102 of PLA,Nanjing 210000,China)
Abstract:
In order to solve? problems of the action selection space and the difficulty of convergence of traditional proximal policy optimization algorithm in air combat simulation,proximal policy hierarchical optimization algorithm is proposed. The framework of intelligent decision model of air combat based on reinforcement learning is constructed,and the antagonistic experiment is carried out and visualized. The experimental result shows that proximal policy hierarchical optimization algorithm could drive the agent to produce indirect attack and other tactical behaviors in the process of confrontation. The purpose of improving the performance of the traditional algorithm and decision-making efficiency of air combat is achieved.
Key words: beyond-visual-range air combat; intelligent decision; artificial intelligence; reinforcement learning; proximal policy optimization algorithm; hierarchical reinforcement learning
收稿日期:2020-05-11
基金項(xiàng)目:國(guó)家自然科學(xué)基金項(xiàng)目(61806221);裝備發(fā)展部預(yù)研基金項(xiàng)目(61421010318);十三五全軍共用信息系統(tǒng)裝備預(yù)研項(xiàng)目(31505550302)
作者簡(jiǎn)介:吳宜珈(1993-),女,江蘇連云港人,助理工程師,研究方向?yàn)橹悄芑笓]控制。
通訊作者:賴?。?979-),男,江蘇南京人,副教授,研究方向?yàn)橹笓]信息系統(tǒng)、虛擬現(xiàn)實(shí)、模擬仿真和人工智能。