亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于價值濾波的空戰(zhàn)機動決策優(yōu)化方法

        2024-01-20 08:25:08付宇鵬鄧向陽朱子強張立民
        航空學(xué)報 2023年22期
        關(guān)鍵詞:藍(lán)方機動示例

        付宇鵬,鄧向陽,2,*,朱子強,張立民

        1.海軍航空大學(xué) 航空作戰(zhàn)勤務(wù)學(xué)院,煙臺 264001

        2.清華大學(xué) 自動化系,北京 100084

        隨著電子對抗技術(shù)的發(fā)展和戰(zhàn)機隱身性能的提高,未來仍存在視距內(nèi)空戰(zhàn)的場景[1],對抗雙方如何根據(jù)當(dāng)前作戰(zhàn)態(tài)勢選擇精確有效的機動決策仍然是重要的研究方向[2]。為了提高訓(xùn)練效能,飛行員對抗訓(xùn)練中需要具有決策能力的智能化、風(fēng)格化的陪練對手[3]。

        2020 年,DARPA 舉辦Alpha Dogfight 狗斗大賽,最終美國蒼鷺公司獲得冠軍,洛克希德·馬丁公司獲得亞軍[4]。并且蒼鷺公司的AI 在人機對抗中以5:0 完勝人類飛行員。同年11 月,中國航空工業(yè)成都飛機設(shè)計研究所舉辦人工智能空戰(zhàn)大賽,是相關(guān)單位第1 次組織如此大規(guī)模人工智能對戰(zhàn)。2021 年開始,中國指揮與控制學(xué)會每年主辦全國空中智能博弈大賽,吸引全國各機構(gòu)隊伍參賽。與傳統(tǒng)方法不同的是,各賽事中各參賽隊伍越來越多采用強化學(xué)習(xí)(Reinforcement Learning,RL)和模仿學(xué)習(xí)(Imitation Learning,IL)算法實現(xiàn)機動決策控制。

        強化學(xué)習(xí)是一個旨在學(xué)習(xí)某種控制策略的過程,該策略可以最大化智能體獲得的獎勵[5]。結(jié)合深度神經(jīng)網(wǎng)絡(luò)優(yōu)秀的函數(shù)逼近能力,深度強化學(xué)習(xí)已被證明即使在復(fù)雜的連續(xù)動作空間也可以解決許多困難的任務(wù)并獲得超過人類專家的性能,具備近距格斗這類復(fù)雜場景的飛行機動決策控制的能力。

        強化學(xué)習(xí)在飛行控制系統(tǒng)、航路規(guī)劃、空戰(zhàn)博弈等領(lǐng)域取得了一定的進(jìn)展,文獻(xiàn)[5-6]設(shè)計了基于強化學(xué)習(xí)算法的姿態(tài)控制器,驗證了神經(jīng)網(wǎng)絡(luò)模型控制固定翼飛機的可行性。文獻(xiàn)[7]利用經(jīng)驗池Actor-Critic 算法,通過選擇原子動作實現(xiàn)了固定翼飛機軌跡跟蹤,為機動決策系統(tǒng)架構(gòu)設(shè)計提供了寶貴的思路。文獻(xiàn)[2]采用基于原子行為的分層馬爾科夫決策過程,利用雙深度Q網(wǎng)絡(luò)(Double Deep Q-Network,DDQN)算法訓(xùn)練網(wǎng)絡(luò)模型,實現(xiàn)了機動決策控制?;谠有袨榈目刂颇P头抡婢群驼鎸嵭允芟抻陔x散動作空間粒度,隨著離散動作空間的增長,模型訓(xùn)練難度和內(nèi)存需求將大幅上升。而采用端到端模型,即智能體直接控制飛機發(fā)動機油門開度、升降舵、副翼、方向舵偏轉(zhuǎn),算法收斂難度大。文獻(xiàn)[4]采用分層策略的架構(gòu),利用柔性動作-評價(Soft Actor-Critic,SAC)算法訓(xùn)練網(wǎng)絡(luò)模型,取得了較好的效果,但模型結(jié)構(gòu)復(fù)雜,訓(xùn)練周期長。文獻(xiàn)[8]基于雙延時確定策略梯度(Twin Delayed Deep Deterministic Policy Gradient,TD3)

        算法,提出了基于價值的經(jīng)驗池樣本優(yōu)先度排序方法,提高了算法收斂速度。文獻(xiàn)[9-10]提出了應(yīng)用于超視距空戰(zhàn)的機動決策方法,采用分層近端策略優(yōu)化(Hierarchical Proximal Policy Optimization,H-PPO)算法,將動作空間映射到原子行為序列,分別實現(xiàn)了單機和多機的空戰(zhàn)機動決策智能體建模。

        面對空戰(zhàn)對抗這類狀態(tài)空間復(fù)雜的環(huán)境,基于強化學(xué)習(xí)的空戰(zhàn)機動決策優(yōu)化算法專家經(jīng)驗利用不足,往往難以保證算法快速收斂。針對該問題,提出了價值濾波(Value-Filter)概念,并提出了基于價值濾波方法的示例策略約束算法(Demonstration Policy Constrain,DPC)。主要創(chuàng)新在于,算法利用價值濾波方法提取回放經(jīng)驗池和示例經(jīng)驗池的優(yōu)勢數(shù)據(jù),約束空戰(zhàn)智能體策略優(yōu)化方向,從而提高傳統(tǒng)強化學(xué)習(xí)在線策略(on-policy)算法的收斂效率,并避免示例數(shù)據(jù)次優(yōu)的問題。

        1 研究背景

        1.1 基于示例的策略優(yōu)化問題

        在復(fù)雜的智能體機動決策優(yōu)化任務(wù)中,訓(xùn)練難點在于狀態(tài)空間龐大,且大多數(shù)據(jù)無效,導(dǎo)致智能體消耗大量時間學(xué)會平穩(wěn)飛行,因此需要示例數(shù)據(jù)給予啟發(fā)式信息。少量的示例軌跡可以由人類專家或簡單的策略模型收集,示例軌跡數(shù)據(jù)集定義為DE={τ1,τ2,…,τn},其中τn=表示第n條飛行軌跡,由“狀態(tài)-動作-獎勵-狀態(tài)”四元組序列構(gòu)成。這些軌跡的質(zhì)量可以用獎勵函數(shù)來判斷?;谑纠龜?shù)據(jù)的策略優(yōu)化方法中,常用方法包括3 類:

        1)利用模仿學(xué)習(xí)的策略優(yōu)化方法。最常見的一類方式稱為行為克隆(Behavioral Cloning,BC),直接通過監(jiān)督學(xué)習(xí)的方式,從示例數(shù)據(jù)集的狀態(tài)-動作對中學(xué)習(xí)策略。行為克隆技術(shù)在自動駕駛[11-12],無人機導(dǎo)航控制[13-14]取得了進(jìn)展。為了解決行為克隆技術(shù)存在的策略偏移和復(fù)合誤差,提出了基于數(shù)據(jù)增廣的DAgger 算法[15],但該類算法需要長時間在線干預(yù),在空戰(zhàn)決策建模場景中不易實現(xiàn)。逆強化學(xué)習(xí)(IRL)是另一類模仿學(xué)習(xí)算法,通過示例推測獎勵函數(shù)[16],在無人機自主飛行控制,機械手臂等應(yīng)用中取得一定成果[17-18]。但空戰(zhàn)對抗問題狀態(tài)空間復(fù)雜,示例策略分布往往不唯一或目標(biāo)不明確,算法難以收斂。

        2)將示例數(shù)據(jù)保存為示例經(jīng)驗池,利用離線強化學(xué)習(xí)算法進(jìn)行訓(xùn)練。文獻(xiàn)[19-20]將深度確定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法與BC 算法相結(jié)合,利用BC 約束策略優(yōu)化方向,在稀疏獎勵下利用后驗經(jīng)驗回放技術(shù)仍可獲得較高回報。但離線強化學(xué)習(xí)存在策略偏移問題,往往需要在線細(xì)調(diào)。

        3)行為克隆預(yù)訓(xùn)練,在線細(xì)調(diào)。AlphaStar[21]使用人類玩家對局?jǐn)?shù)據(jù)和智能體自博弈數(shù)據(jù)結(jié)合訓(xùn)練生成策略,在星際爭霸游戲中擊敗職業(yè)玩家。文獻(xiàn)[22]將模仿學(xué)習(xí)應(yīng)用于無人駕駛環(huán)境,實現(xiàn)智能體自主駕駛。文獻(xiàn)[23]利用采集的飛行軌跡數(shù)據(jù)并進(jìn)行軌跡分類預(yù)處理,通過模仿學(xué)習(xí)生成行為網(wǎng)絡(luò)集作為原子行為集合,有效提高行為逼真度,并利用DQN 算法優(yōu)化智能體策略探索能力。文獻(xiàn)[24]提出SAIL 算法,通過將經(jīng)驗池中的優(yōu)勢軌跡數(shù)據(jù)擴充示例數(shù)據(jù),提高算法收斂效率。

        1.2 基于策略分布正則項的約束方法

        上述基于示例的策略優(yōu)化方法中,第3 類方法目前應(yīng)用廣泛,但基于行為克隆的預(yù)訓(xùn)練策略在與環(huán)境交互過程中存在復(fù)合誤差,如果僅依靠強化學(xué)習(xí)算法在線細(xì)調(diào),策略更新方向?qū)⒉豢煽兀?,在飛行器機動控制時出現(xiàn)飛機不停滾轉(zhuǎn)、墜地等情況,破壞預(yù)訓(xùn)練的初始化參數(shù)。這類情況下,學(xué)習(xí)率、batch size、更新次數(shù)等算法超參數(shù)設(shè)置不當(dāng)可能直接導(dǎo)致算法無法收斂。因此示例數(shù)據(jù)應(yīng)得到充分利用,在算法訓(xùn)練中對智能體策略更新方向加以約束。

        在基于策略分布正則項的約束方法中,將示例數(shù)據(jù)保存在經(jīng)驗池DE中加以利用。設(shè)示例策略表示為πE,其狀態(tài)-動作概率分布表示為dπE(s,a),當(dāng)前策略的狀態(tài)-動作概率分布表示為dπθ(s,a),πθ(s)即策略網(wǎng)絡(luò),根據(jù)輸入狀態(tài)s輸出動作a。為衡量dπθ(s,a)與dπE(s,a)的相似性,采樣(s,a)~DE,將二者分布距離作為策略損失函數(shù)的正則項,記為D(dπE(s,a)||dπθ(s,a)),其中D(·||·)表示概率分布空間的距離測量方法。因此策略優(yōu)化方向約束為式(1),用κ衡量概率分布約束邊界。

        式(1)表示智能體策略在訓(xùn)練過程中的目標(biāo)是在策略分布約束范圍內(nèi),得到式(2)的最大期望回報Rπ,其中γ為折扣系數(shù),確保無限長馬爾科夫決策過程能夠收斂。通過策略分布距離作為正則項,能夠引導(dǎo)策略向示例策略方向收斂。

        2 價值濾波

        現(xiàn)實中真實對抗數(shù)據(jù)獲得成本高,因此基于示例的策略優(yōu)化方法的目標(biāo)是充分利用少量的示例軌跡,結(jié)合在線訓(xùn)練來提高樣本效率,但當(dāng)示例數(shù)據(jù)質(zhì)量低,如策略分布多峰或次優(yōu)時,該方法難以得到最優(yōu)解,會導(dǎo)致在線訓(xùn)練時的負(fù)向引導(dǎo)。因此基于次優(yōu)示例的策略約束面臨的難點在于如何對次優(yōu)數(shù)據(jù)采樣,從而接近最優(yōu)策略π*。在上述預(yù)訓(xùn)練-在線細(xì)調(diào)的策略訓(xùn)練框架下,本文提出價值濾波,通過對優(yōu)勢經(jīng)驗數(shù)據(jù)和優(yōu)勢示例數(shù)據(jù)提取,提高算法收斂速度,并解決示例策略次優(yōu)的問題。

        2.1 價值函數(shù)濾波器設(shè)計

        強化學(xué)習(xí)算法中優(yōu)勢動作評論(Advantage Actor Critic,A2C)、置信域策略優(yōu)化(Trust Region Policy Optimization,TRPO)[25]、PPO[26]等在線策略(on-policy)算法,穩(wěn)定性高,同時支持并行仿真,在計算資源充足的情況下具有優(yōu)勢,但on-policy 算法的采樣機制導(dǎo)致經(jīng)驗數(shù)據(jù)利用率低;DQN、DDPG、TD3、SAC 等離線策略(offpolicy)算法[27]經(jīng)驗數(shù)據(jù)利用率高,為了提高有效樣本的利用率,常采用優(yōu)先經(jīng)驗回放等技術(shù),但是當(dāng)示例價值波動較大時,優(yōu)先經(jīng)驗回放會提高次優(yōu)數(shù)據(jù)的采樣概率,從而降低價值網(wǎng)絡(luò)的準(zhǔn)確性,進(jìn)而影響策略網(wǎng)絡(luò)收斂性。為了解決上述問題,將基于策略梯度的在線策略算法和基于能量模型的離線策略算法相結(jié)合[28],提出價值濾波方法。

        基于策略梯度的強化學(xué)習(xí)算法訓(xùn)練的目標(biāo)是接近最優(yōu)策略π*,根據(jù)熵正則化強化學(xué)習(xí)和soft Q learning 理論[29],最優(yōu)動作價值函數(shù)和最優(yōu)狀態(tài)價值函數(shù)分別表示為

        式中:Hπ表示策略的熵正則化,則推導(dǎo)出最優(yōu)策略表示為

        由式(5)可知,狀態(tài)價值滿足V*(st)≥Vφ(st),即當(dāng)前策略狀態(tài)價值上界為最優(yōu)策略π*的狀態(tài)價值,因此必然有V*(st)≥Rt-,即當(dāng)前策略下的回報小于最優(yōu)狀態(tài)價值。為了使當(dāng)前策略快速逼近最優(yōu)策略,訓(xùn)練過程增加優(yōu)勢樣本的采樣占比,選擇Rt->Vφ(st)的優(yōu)勢數(shù)據(jù)進(jìn)行增強訓(xùn)練,由此提出價值濾波器(V-Filter),定義為

        式(6)在實現(xiàn)中忽略策略熵,文獻(xiàn)[28]證明了當(dāng)系數(shù)α很小時,狀態(tài)價值函數(shù)將逼近最優(yōu)狀態(tài)價值函數(shù)的下界,說明價值濾波方法具有可收斂性。根據(jù)策略梯度算法得到利用回放經(jīng)驗的策略損失函數(shù),即

        式(7)直觀表示算法訓(xùn)練中選擇當(dāng)前策略和狀態(tài)價值評估下的優(yōu)勢狀態(tài)-動作進(jìn)行進(jìn)一步模型訓(xùn)練。

        2.2 基于價值濾波的策略約束算法

        為了實現(xiàn)利用價值濾波對優(yōu)勢示例數(shù)據(jù)進(jìn)行增強,提出基于價值濾波的示例策略約束算法(DPC)。為便于實現(xiàn),首先將式(1)改寫為拉格朗日函數(shù)形式[30],即

        該min-max 問題包含θ和η這2 個參數(shù),為了降低算法設(shè)計和收斂難度,將η作為超參數(shù),訓(xùn)練中僅更新策略網(wǎng)絡(luò)參數(shù)θ,即

        當(dāng)獎勵函數(shù)設(shè)計的目標(biāo)與示例策略目標(biāo)一致時,根據(jù)式(9),可以通過對基于策略(policybased)的強化學(xué)習(xí)算法優(yōu)化,實現(xiàn)利用少量示例數(shù)據(jù)實現(xiàn)策略約束。

        考慮到通過mini-batch 采樣DE得到的策略分布dπE(s,a)存在較大誤差,因此在策略約束算法具體實現(xiàn)中,算法參考行為克隆,采樣示例狀態(tài)-動作(,)~DE,~πE。因此式(9)簡化為

        針對實際示例數(shù)據(jù)中策略可能存在次優(yōu)或不唯一的問題,將價值濾波與策略約束相結(jié)合,濾除采樣示例數(shù)據(jù)中回報低于當(dāng)前狀態(tài)價值的非優(yōu)勢數(shù)據(jù),僅對優(yōu)勢數(shù)據(jù)進(jìn)行增強,因此式(10)改寫為

        針對可能存在的價值函數(shù)過估計問題,可利用廣義優(yōu)勢估計(GAE)方法更新價值網(wǎng)絡(luò)[31],降低偏差和方差,價值網(wǎng)絡(luò)損失函數(shù)表示為

        注意到與優(yōu)先經(jīng)驗回放不同,采樣數(shù)據(jù)近似服從獨立同分布,在訓(xùn)練初期,價值網(wǎng)絡(luò)隨機性較高,當(dāng)其因過估計導(dǎo)致輸出Vφ(st)>V*(st)時,價值濾波器輸出為0,即當(dāng)前策略僅根據(jù)在線策略算法更新;當(dāng)價值網(wǎng)絡(luò)估計偏低時,策略同時由示例策略約束算法和在線策略算法更新;隨著價值網(wǎng)絡(luò)收斂,算法將對示例數(shù)據(jù)進(jìn)行濾波從而解決示例次優(yōu)問題。

        2.3 PPO-DPC 算法流程

        本文的DPC 算法可優(yōu)化任意在線策略算法。以結(jié)合分布式PPO 算法為例,設(shè)置N個分布式Rollout Worker 和一個中心Learner。每個Worker 與環(huán)境交互并將四元組軌跡數(shù)據(jù)存放在各自的回合經(jīng)驗池(記為)中?;睾辖Y(jié)束后將數(shù)據(jù)存入全局回放經(jīng)驗池(記為Doff)中。

        PPO-DPC 算法流程如算法1 所示,首先建立示例經(jīng)驗池,行為克隆生成預(yù)訓(xùn)練策略,并利用示例數(shù)據(jù)對價值網(wǎng)絡(luò)進(jìn)行初始化。由各Worker 與環(huán)境交互采集數(shù)據(jù),回合結(jié)束后,將采樣數(shù)據(jù)分割成mini-batch,策略梯度為

        式中:ct(θ)表示當(dāng)前策略和舊策略的概率比,即

        將其回傳Learner,由Learner 將各梯度累加并更新策略網(wǎng)絡(luò)和價值網(wǎng)絡(luò)參數(shù),以上過程為近似在線策略訓(xùn)練過程。

        每回合結(jié)束后,Learner 分別從Doff和DE中采樣,根據(jù)式(12)計算策略梯度并更新策略網(wǎng)絡(luò)。下一回合開始前,Learner 將更新的網(wǎng)絡(luò)參數(shù)發(fā)布給各Worker,Worker 以新策略采樣獲得樣本。

        為了使智能體行為在訓(xùn)練初期能受示例策略約束,保證算法快速收斂,而訓(xùn)練中后期利用強化學(xué)習(xí)的環(huán)境探索能力進(jìn)一步優(yōu)化當(dāng)前策略,式中參數(shù)η隨訓(xùn)練步數(shù)增加逐漸降低。

        3 實驗系統(tǒng)設(shè)計

        3.1 算法實驗系統(tǒng)

        本文算法實驗系統(tǒng)框圖如圖1 所示。訓(xùn)練過程包含3 個階段,

        圖1 實驗系統(tǒng)框圖Fig.1 Structure of experiment system

        1)數(shù)據(jù)采集階段:由專家策略模型與藍(lán)方對抗生成對抗軌跡數(shù)據(jù),即策略πE與環(huán)境交互,產(chǎn)生四元組(st,at,st+1,rt),存入示例經(jīng)驗池。

        2)離線預(yù)訓(xùn)練階段:利用行為克隆初始化神經(jīng)網(wǎng)絡(luò)模型,提高初始階段模型訓(xùn)練效率。

        3)在線訓(xùn)練階段:智能體與環(huán)境交互進(jìn)行在線強化學(xué)習(xí)訓(xùn)練,提高智能體狀態(tài)空間探索能力,解決行為克隆存在的策略偏移問題。

        仿真環(huán)境中對抗雙方采用相同的六自由度(6DOF)固定翼飛機模型。藍(lán)方策略基于蒙特卡洛樹搜索的層次化建模方法,決策層預(yù)測紅藍(lán)雙方可到達(dá)位置點,并根據(jù)態(tài)勢評估函數(shù)選擇優(yōu)勢目標(biāo)航點;控制層由PID 控制器控制飛機模型到達(dá)指定目標(biāo)點。紅方由基于神經(jīng)網(wǎng)絡(luò)的智能體控制。紅藍(lán)雙方初始高度h∈[1,9] km,初始相對水平距離Δx∈[-10,10] km,Δy∈[-10,10] km,初始速度v∈[150,300] m/s,初始任意姿態(tài)。

        3.2 模型輸入輸出變量設(shè)計

        飛機的運動主要由發(fā)動機推力、升降舵、副翼、方向舵控制。當(dāng)各操縱面變化時,模型根據(jù)對應(yīng)的氣動參數(shù),改變飛機合力和合力矩。因此機動決策控制網(wǎng)絡(luò)輸出升降舵、副翼、方向舵和油門控制指令,實現(xiàn)飛機姿態(tài)和位置的控制,即

        為了提高飛機控制的穩(wěn)定性,飛機模型包含基于PID 控制器的穩(wěn)定增強系統(tǒng),包括角速度、過載反饋環(huán)路和控制指令前饋通路,控制器輸出升降舵、副翼、方向舵偏轉(zhuǎn)角度,分別表示為

        對抗中考慮視距內(nèi)格斗,同時具有預(yù)警機支援,雙方態(tài)勢透明,智能體模型輸入狀態(tài)st由自身狀態(tài)和雙方相對態(tài)勢組成。其中自身狀態(tài)表示為

        其中:ψ、θ、φ分別表示航向角、俯仰角和滾轉(zhuǎn)角;為俯仰角速度;表示當(dāng)前滾轉(zhuǎn)角;h表示歸一化高度;V表示NED 坐標(biāo)系下的歸一化速度。相對態(tài)勢表示為

        其中:ΔV表示速度差;ΔX表示NED 坐標(biāo)系下的相對位置;αATA表示方位角;αAA表示目標(biāo)進(jìn)入角。

        3.3 獎勵函數(shù)設(shè)計

        獎勵函數(shù)rt=r(st,at)是引導(dǎo)算法收斂的重要影響因素,本文獎勵函數(shù)設(shè)計考慮角度優(yōu)勢、能量優(yōu)勢、自身穩(wěn)定性等關(guān)鍵空戰(zhàn)要素。

        雙方位置關(guān)系圖如圖2 所示,αATA和αAA用來判斷角度優(yōu)勢[32],相對歐式距離R用來引導(dǎo)我方接敵以到達(dá)格斗彈或航炮發(fā)射條件。因此,獎勵函數(shù)rt設(shè)計為

        圖2 相對位置關(guān)系圖Fig.2 Diagram of relative position

        其中:ηA、ηR、ηE分別代表的權(quán)重,本文中分別設(shè)置為0.5、0.3、0.2。

        此外,當(dāng)飛機飛行高度和飛行速度低于或高于閾值,引入懲罰項rpenalty,避免機動決策陷入快速‘死亡’等錯誤選擇的局部最優(yōu)。

        4 系統(tǒng)仿真

        本文強化學(xué)習(xí)訓(xùn)練環(huán)境采用OpenAI gym 平臺,飛機動力學(xué)和運動學(xué)解算基于JSBSim 開源平臺,飛機空氣動力學(xué)模型為公開的F16 模型。

        1)模型預(yù)訓(xùn)練階段,由基于PID 控制器的簡單策略模型對抗靶機目標(biāo),獲取20 回合對抗數(shù)據(jù),形成約2×105規(guī)模的示例數(shù)據(jù)集。基于該示例數(shù)據(jù)并對智能體策略網(wǎng)絡(luò)和價值網(wǎng)絡(luò)參數(shù)初始化。

        2)模型在線訓(xùn)練階段,仿真共2 200 回合,飛機狀態(tài)仿真步長,即智能體決策間隔為20 ms,每回合最長時間5 min。算法中超參數(shù)設(shè)計如表1所示,策略網(wǎng)絡(luò)和價值網(wǎng)絡(luò)結(jié)構(gòu)均采用全連接結(jié)構(gòu),其中隱藏層激活函數(shù)為均為ReLu 函數(shù),策略網(wǎng)絡(luò)輸出層激活函數(shù)為tanh 函數(shù)。損失函數(shù)采用Adam 方法更新梯度[33]。

        表1 PPO-DPC 算法參數(shù)設(shè)置Table 1 Parameters of PPO-DPC algorithm

        回報函數(shù)的仿真曲線如圖3,仿真對比了傳統(tǒng)PPO 算法、PPO 算法結(jié)合自模仿學(xué)習(xí)[30]算法(PPO-SIL)、PPO 算法結(jié)合本文示例策略約束算法(圖中PPO-DPC)、TD3-BC[34]算法(TD3-BC)以及BC 算法,其中BC 算法生成的模型作為上述4 種算法的預(yù)訓(xùn)練初始模型。結(jié)果顯示利用專家數(shù)據(jù)的TD3-BC 算法和PPO-DPC 算法收斂速度明顯高于PPO 算法,此外,PPO-DPC 算法通過優(yōu)勢經(jīng)驗數(shù)據(jù)的濾波,較TD3-BC 更快收斂。而PPO 與PPO-SIL 算法由于缺乏策略約束,態(tài)勢觀測發(fā)現(xiàn)智能體在訓(xùn)練中花費大量時間才能學(xué)會平穩(wěn)飛行,因此回報函數(shù)上升緩慢。

        圖3 回合回報仿真曲線Fig.3 Simulation of returns per episode

        價值函數(shù)的仿真曲線如圖4,仿真中設(shè)置γ=0.998,即價值網(wǎng)絡(luò)估計約10 s 仿真步長的策略價值。為了衡量價值網(wǎng)絡(luò)收斂情況,每次更新價值網(wǎng)絡(luò)隨機從DE中采樣,估計示例策略價值,結(jié)果表明具有策略約束的算法,其價值網(wǎng)絡(luò)在1×104仿真步數(shù)后基本收斂,能準(zhǔn)確估計策略價值,而PPO-SIL 算法對狀態(tài)價值估值較低。結(jié)合圖3 回報函數(shù)曲線,說明策略約束能夠輔助價值網(wǎng)絡(luò)收斂,從而準(zhǔn)確估計策略價值,在優(yōu)化當(dāng)前策略的同時有利于算法快速收斂。

        圖4 價值函數(shù)仿真曲線Fig.4 Simulation of value function

        示例利用率和動作誤差仿真曲線如圖5 所示。在訓(xùn)練初期,由于策略網(wǎng)絡(luò)隨機性較強,策略分布隨機,此時示例數(shù)據(jù)利用率接近1,策略網(wǎng)絡(luò)輸出動作于示例動作誤差較大;隨著算法收斂,價值濾波器將采樣示例的次優(yōu)數(shù)據(jù)濾除,示例數(shù)據(jù)利用率逐漸降低為0.25 左右,同時動作誤差在0.01 左右。結(jié)果表明在訓(xùn)練初期策略約束能夠有效幫助策略收斂,后期利用價值濾波方法提高了智能體環(huán)境探索能力,從而避免示例策略次優(yōu)的問題。

        圖5 示例利用率和動作誤差仿真曲線Fig.5 Simulation of utilization of demonstration data and error of actions

        圖6 給出了博弈對抗的部分態(tài)勢渲染圖,從圖中可以看到雙方能夠判斷態(tài)勢并做出合理的機動決策,完成如圖中破S 機動、剪刀機動、筋斗等常用機動動作。

        圖6 博弈對抗場景渲染圖Fig.6 Diagram of air-combat scene

        為了驗證基于DPC 算法的機動策略性能提高,圖7(a)、圖7(c)、圖7(e)分別給出了示例策略、DPC 策略和PPO 策略對抗相同簡單機動目標(biāo)時的航跡,圖7(b)、圖7(d)、圖7(f)分別對應(yīng)其輸出動作。航跡結(jié)果顯示,示例策略在初始階段能夠調(diào)整跟蹤目標(biāo),而90 s 后決策明顯失誤丟失目標(biāo);PPO 策略盡管始終保持相對距離,但未明顯體現(xiàn)戰(zhàn)術(shù)意圖;相比之下DPC 策略能夠始終占據(jù)藍(lán)方后半球區(qū)域,保持角度優(yōu)勢和武器發(fā)射條件,更具智能性。通過輸出動作曲線觀察,DPC策略學(xué)習(xí)到示例策略的平穩(wěn)變化規(guī)律,而PPO 策略抖動明顯。結(jié)果證明DPC 方法能夠模仿示例策略的同時,有效避免了示例策略次優(yōu)的問題。

        圖7 相同目標(biāo)下示例策略、DPC 策略和PPO 策略態(tài)勢對比圖Fig.7 Comparison of air-combat situation with the same target among demonstration,DPC and PPO based policies

        為了驗證機動策略的性能,圖8 給出了使用本文生成策略的紅方與藍(lán)方簡單靶機對抗的態(tài)勢圖。圖8(a)初始條件為雙方均勢,航線相距4 km,相向飛行,紅方選擇高yo-yo 機動,而后迅速調(diào)轉(zhuǎn)機頭指向藍(lán)方并保持優(yōu)勢位置;圖8(b)初始條件為雙方均勢,航線相距4 km,同向飛行,紅方連續(xù)壓坡度轉(zhuǎn)向藍(lán)方,占據(jù)有利位置;圖8(c)初始條件為雙方均勢迎頭飛行,紅方爬升規(guī)避,而后破S 機動轉(zhuǎn)向藍(lán)方后半球;圖8(d)初始條件為藍(lán)方位紅方6 點鐘方向,紅方迅速急轉(zhuǎn),待藍(lán)方無追擊行為,轉(zhuǎn)向藍(lán)方。結(jié)果顯示,紅方反饋行為符合占據(jù)敵后半球優(yōu)勢位置的目標(biāo)。

        圖8 簡單目標(biāo)對抗態(tài)勢圖Fig.8 Situation of combat with simple target

        圖9 給出了紅藍(lán)雙發(fā)均使用本文生成策略的自博弈對抗態(tài)勢圖,圖10 給出了策略網(wǎng)絡(luò)輸出動作,分別對應(yīng)于圖9 中紅方智能體行為。圖9(a)初始條件反向飛行,藍(lán)方高度略高,具有能量優(yōu)勢,雙方進(jìn)入剪刀機動,紅方逐漸陷入劣勢,選擇脫離,藍(lán)方追擊;圖9(b)初始條件為紅方略具角度優(yōu)勢,藍(lán)方策略激進(jìn),選擇急轉(zhuǎn)接敵,而后雙方進(jìn)入單環(huán)戰(zhàn);圖9(c)初始條件為藍(lán)方占據(jù)角度優(yōu)勢和速度優(yōu)勢,紅方急轉(zhuǎn)規(guī)避,藍(lán)方始終位紅方后半球優(yōu)勢區(qū)域;圖9(d)初始條件為雙方均勢,反向飛行,雙方進(jìn)入雙環(huán)戰(zhàn)。結(jié)果表明,在雙方使用相同策略下,初始態(tài)勢對于戰(zhàn)局發(fā)展影響較大,與直觀戰(zhàn)術(shù)機動理解一致。對抗過程中,智能體能夠利用副翼和方向舵協(xié)同轉(zhuǎn)彎,并在大坡度機動時利用方向舵保持垂直高度,優(yōu)于示例行為,同時配合使用油門和方向舵完成小半徑轉(zhuǎn)彎。通過上述比較分析,可以說明基于DPC 算法的機動決策模型具有一定智能性,能夠判斷態(tài)勢并完成戰(zhàn)術(shù)機動。

        圖9 自博弈對抗態(tài)勢圖Fig.9 Situation of combat with self-play

        圖10 策略網(wǎng)絡(luò)輸出動作Fig.10 Output action of policy network

        為了驗證智能體性能,基于VR 設(shè)備的桌面模擬器進(jìn)行了人機對抗測試,如圖11 所示,紅方為人類,藍(lán)方為智能體。智能體封裝了簡易火控雷達(dá)和武器模型,鎖定目標(biāo)后實時獲取坐標(biāo)、速度、姿態(tài)信息。圖11(a)中藍(lán)方為前述基于蒙特卡洛搜索樹的簡單智能體,圖11(b)中藍(lán)方為DPC 算法生成智能體。紅藍(lán)雙方初始高度5 km,距離10 km,速度200 m/s,同向飛行。圖11(a)智能體選擇抵近飛行,被紅方導(dǎo)彈鎖定后未及時規(guī)避,迅速被擊落;圖11(a)智能體被紅方跟蹤后釋放紅外干擾并急轉(zhuǎn)脫離,態(tài)勢相對均勢后進(jìn)入近距纏斗,智能體能精確判斷態(tài)勢和控制機動行為,智能水平明顯提高。

        圖11 人機對抗態(tài)勢圖Fig.11 Diagram of human-AI air combat

        5 結(jié)論

        針對近距空戰(zhàn)智能體機動決策建模問題,提出并分析了價值濾波方法,提出了基于價值濾波的示例策略約束算法,DPC 算法通過價值濾波方法對優(yōu)勢示例數(shù)據(jù)進(jìn)行學(xué)習(xí),有效提高模型訓(xùn)練效率,同時避免示例數(shù)據(jù)的次優(yōu)問題。

        基于DPC 算法,建立了空戰(zhàn)機動決策智能體建模流程,通過自博弈對抗和人機對抗實驗,說明生成的智能體表現(xiàn)出較好智能性。為空戰(zhàn)對抗訓(xùn)練中建立風(fēng)格化智能陪練模型提供了新思路。

        猜你喜歡
        藍(lán)方機動示例
        大還是小
        裝載機動臂的疲勞壽命計算
        2019年高考上海卷作文示例
        常見單位符號大小寫混淆示例
        山東冶金(2019年5期)2019-11-16 09:09:22
        12萬畝機動地不再“流浪”
        機動三輪車的昨天、今天和明天
        “全等三角形”錯解示例
        精彩的足球比賽
        暗號
        暗號
        小小說月刊(2015年5期)2016-01-22 08:39:19
        国产69精品久久久久777| 国产三级c片在线观看| 在线观看国产白浆一区三区| 亚洲综合成人婷婷五月网址| 亚洲精品无码久久久久av麻豆| 老熟妇Av| 亚洲一区二区三区高清视频| 国产精品一区二区三区卡| 成年无码av片在线| 免费成人福利视频| 中文天堂一区二区三区| 国产精品女同一区二区免费站| 亚洲av午夜福利精品一区二区 | 国产精品久久无码不卡黑寡妇| 国产精品高清亚洲精品| 亚洲成人av在线第一页| 久久精品人妻无码一区二区三区| 国产乱子伦露脸在线| 精品国产亚洲av成人一区| 视频在线观看国产自拍| 欧美性受xxxx狂喷水| 国产乱淫视频| 小草手机视频在线观看| 免费日本一区二区三区视频 | 欧美丝袜秘书在线一区| 沐浴偷拍一区二区视频| 日韩aⅴ人妻无码一区二区| xxxx国产视频| 亚洲色图在线视频观看| 国产精品一区二区三区在线免费| 免费人成在线观看视频播放| 午夜视频网址| 极品少妇高潮在线观看| 无码小电影在线观看网站免费| 久热在线播放中文字幕| 国产精品亚洲av网站| 青青草成人免费在线观看视频| 亚洲国产欧美日韩欧美特级| 久久久久中文字幕无码少妇| 国产精品黄色在线观看| 国内精品久久久久久99|