亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于生成對抗近端策略優(yōu)化的機動策略優(yōu)化算法

        2023-07-13 11:28:24付宇鵬鄧向陽朱子強張立民
        海軍航空大學學報 2023年3期
        關鍵詞:策略模型

        付宇鵬,鄧向陽,2,朱子強,高 陽,張立民

        (1.海軍航空大學,山東 煙臺 264001;2.清華大學,北京100084)

        0 引言

        自20 世紀50 年代以來,空戰(zhàn)智能博弈一直是軍事研究的重點之一。在諸多空戰(zhàn)機動策略、姿態(tài)控制優(yōu)化方法研究中,基于人工智能技術的算法取得了長足進步[1-5]。隨著計算機硬件算力的提升和算法的進步,深度強化學習(DRL)技術以其優(yōu)秀的逼近能力成為近年來的研究熱點,其在面對復雜狀態(tài)空間問題時仍能獲得高水平策略模型。

        傳統(tǒng)強化學習算法效率和效果與任務的獎勵函數(shù)設計密切關聯(lián),但空戰(zhàn)博弈態(tài)勢復雜,且六自由度(6-dof)飛機模型具有高階非線性的特點,因而在訓練初期,智能體很難獲得正向獎勵,致使算法難收斂。模仿學習技術則直接利用專家經驗數(shù)據生成策略,在自動駕駛、無人機導航控制、機器人等領域被廣泛應用[6-9],主要分為行為克隆[10]、逆強化學習[11]、對抗模仿學習[12]3 類算法。但這些算法中,智能體依靠示例數(shù)據學習策略,對于空戰(zhàn)博弈這類目標不明確的環(huán)境表現(xiàn)不佳。因此,將模仿學習和強化學習相結合的算法成為這類環(huán)境中生成智能體策略的研究熱點[5,13-15]。

        本文基于強化學習、模仿學習技術在飛行控制、智能博弈等方面的研究[2,4-5],針對傳統(tǒng)強化學習算法在生成空戰(zhàn)機動策略時存在收斂效率低、專家經驗利用不足的問題,提出了生成對抗式近端策略優(yōu)化算法(GA-PPO)。在傳統(tǒng)PPO 算法的策略-價值網絡(Actor-Critic)框架基礎上,增加判別器(Discriminator)網絡,用來判斷輸入狀態(tài)-動作是否屬于當前策略或專家策略,在策略訓練時約束當前策略向專家策略方向更新。

        1 研究背景

        1.1 近端策略優(yōu)化算法

        強化學習算法包括基于價值、基于策略和二者結合的Actor-Critic 方法。本文以Actor-Critic 方法為基礎。Actor網絡即策略網絡,記為πθ( )st,其中,st表示t時刻狀態(tài),θ表示策略網絡參數(shù),策略網絡輸出動作at~πθ(st);Critic 網絡即價值網絡,記為Vφ(st),φ表示價值網絡參數(shù),價值網絡用來估計當前策略的回報Rt,表示為:

        式(1)中:E(?)為數(shù)學期望;γ為折扣系數(shù),確保馬爾科夫決策過程能夠收斂;r為獎勵函數(shù),通常在實際環(huán)境中根據專家經驗設計。強化學習算法目標是使回合回報最大化。在諸多算法中,TRPO[16]、PPO[17]等算法穩(wěn)定性高,收斂效率高,成為了典型的基線算法。

        以PPO2 算法為例,其采用優(yōu)勢函數(shù)Aθ來表示策略優(yōu)劣,以減小方差,提高算法穩(wěn)定性。Aθ定義為:

        實際實現(xiàn)時,定義A?t來估計Aθ,采用使用較為廣泛的廣義優(yōu)勢估計(GAE)方法[18],定義為:

        其中,δt=rt+γV(st+1)-V(st),參數(shù)λ用來平衡方差和偏差。

        此外,算法中利用重要性采樣方法(important sampling)直接剪裁舊策略與新策略的概率幅度,記為ct(θ)=πθ(at|st)/πθ,old(at|st)。因此,得到PPO2 算法的損失函數(shù)表示為式(4)~(6)。

        1.2 生成對抗模仿學習算法

        生成對抗模仿學習(GAⅠL)算法啟發(fā)于最大熵逆強化學習(ⅠRL)和生成對抗網絡(GAN)。在on-policy算法(如TRPO、PPO等算法)框架基礎上,設計判別器Dω(st,at),用來判斷輸入的采樣數(shù)據是生成于專家策略還是當前策略。GAⅠL 算法目標,可理解為匹配當前策略分布與專家策略分布,使判別器無法區(qū)分當前策略和專家策略,其損失函數(shù)定義為:

        式(7)(8)表示在GAⅠL算法中:首先,對當前策略πθ和專家策略πE采樣,更新判別器參數(shù)ω′←ω;而后,以最大化判別器輸出更新策略網絡參數(shù)θ,此處可將Dω′(s,a)類比于強化學習算法中的狀態(tài)-動作價值函數(shù)Q(s,a)。

        由于GAⅠL 算法依靠專家數(shù)據生成策略,當該數(shù)據集包含的策略非最優(yōu),或無法達到目標時,生成策略性能將無法保證。因此,本文將強化學習環(huán)境探索優(yōu)勢與模仿學習的策略約束優(yōu)勢相結合,提出生成對抗式近端策略優(yōu)化算法。

        2 GA-PPO算法

        GA-PPO算法框圖見圖1。模型包含價值網絡、策略網絡和判別器網絡,部署時只保留策略網絡;經驗池包含示例經驗池和回合經驗池,示例數(shù)據池中的軌跡數(shù)據三元組()由人機對抗和基于規(guī)則模型的機機對抗產生?;睾辖涷灣刂写鎯Ξ斍安呗耘c環(huán)境交互所產生的軌跡四元組(st、at、st+1、rt),每回合訓練結束后,回合經驗池清空。圖中包括3 類數(shù)據流:環(huán)境交互數(shù)據流,當前策略與環(huán)境交互,生成軌跡數(shù)據存入回合經驗池;DA網絡更新數(shù)據流,回合結束后,根據式(7),利用梯度下降方法更新判別器網絡參數(shù),而后,根據式(8)更新策略網絡參數(shù),從而約束當前策略分布向專家策略收斂;AC網絡更新數(shù)據流,與PPO算法流程相同,根據式(8)更新AC網絡。

        圖1 GA-PPO算法框圖Fig.1 Framework of GA-PPO algorithm

        為提高算法收斂速度和穩(wěn)定性,采用分布式并行計算方式,設置n個分布式rollout worker 和1 個中心learner。Rollout workers與環(huán)境交互,存儲回合軌跡數(shù)據;回合結束后,計算各自策略梯度并回傳learner 進行梯度累加,更新網絡參數(shù)后,廣播給各rollout worker,采集新一輪數(shù)據。

        算法流程如圖2 所示。首先,建立示例經驗池DE={τ1,τ2,...,τn} ,其中τn表示第n條飛行軌跡,即τn=。初始化各網絡參數(shù)和算法超參數(shù)。每回合結束后,采樣DE和,計算策略梯度和,由learner累加梯度并更新網絡參數(shù),最終,輸出最優(yōu)策略網絡參數(shù)θ*。

        圖2 GA-PPO算法流程Fig.2 Flow of GA-PPO algorithm

        3 實驗仿真環(huán)境設計

        實驗仿真環(huán)境采用OpenAⅠgym 平臺框架,飛機空氣動力學模型采用JSBSim開源平臺的F-16飛機模型,其內部包含基本增穩(wěn)系統(tǒng)。飛機在高空飛行過程中,機動動作由控制升降舵、副翼、方向舵和油門完成,因此,策略網絡輸出為舵面偏轉角度和油門開度at={δel,δai,δru,δth}。

        對抗過程中,紅方由策略網絡控制,藍方由基于PⅠD 控制器的簡單規(guī)則模型控制。為簡化實驗復雜度,雙方態(tài)勢全透明,設計狀態(tài)向量st為:

        式(9)中:ψ、θ、φ為飛機自身姿態(tài)角;θ?為俯仰角速度;φ?為當前滾轉角;h為自身當前高度;V、ΔV、ΔX分別為NED 坐標系下的紅方和藍方的速度矢量、速度差矢量和相對位置矢量;αATA為方位角;αAA為目標進入角。st均歸一化處理。

        為保證算法收斂,一般設計較為稠密的獎勵函數(shù)。本文主要考慮角度優(yōu)勢、能量優(yōu)勢和滿足發(fā)射條件等方面,因此,設計獎勵函數(shù)rt為:

        式(10)中,η代表權重。此外,還應考慮飛機穩(wěn)定飛行和保證在指定空域飛行的限制條件,因此,引入邊界懲罰項,避免飛機誘導墜地等錯誤決策出現(xiàn)。

        4 系統(tǒng)仿真

        仿真中,紅藍雙方初始高度1~9 km,初始相對水平距離±10 km,初始速度150~300 m/s,初始任意姿態(tài),仿真步長20 ms,每回合5 min。算法中超參數(shù)設計如表1所示。DAC網絡結構均采用全連接結構,其中隱藏層激活函數(shù)均為ReLu 函數(shù),策略網絡輸出層激活函數(shù)為tanh 函數(shù),判別器網絡輸出激活函數(shù)為sigmoid函數(shù)。損失函數(shù)采用Adam方法更新梯度[19]。

        表1 GA-PPO算法參數(shù)設置Tab.1 Parameters of GA-PPO algorithm

        圖3 給出了回報函數(shù)的仿真結果。仿真中,首先利用示例數(shù)據對策略模型進行行為克隆預訓練,避免智能體在訓練初始階段不收斂。實驗中,對比了PPO算法、PPO-SⅠL[20]算法和本文的GA-PPO 算法。GAPPO-1中αθ為常數(shù),GA-PPO-2表示αθ隨仿真回合增加逐漸降低,即訓練初期通過模仿學習提高智能體訓練效率,訓練后期通過強化學習提高其環(huán)境的探索能力。結果顯示,GA-PPO 算法的收斂效率和最終回報要高于PPO 算法和PPO-SⅠL 算法。在約200 回合前,GA-PPO 算法需要訓練判別器,因而回報函數(shù)略有波動,而后快速升高。GA-PPO-1 算法在訓練中始終存在示例約束,因而波動較GA-PPO-2更小。

        圖3 回報函數(shù)仿真曲線Fig.3 Simulation curve of return function

        圖4 給出了價值函數(shù)的仿真曲線,即價值網絡輸出均值仿真,表示約10 s仿真步長的策略價值。為了提高比較的準確性,價值網絡輸入均為示例數(shù)據采樣。結果表明,GA-PPO 算法較PPO-SⅠL 算法收斂速度更快,原因在于智能體狀態(tài)空間探索的概率分布更接近示例數(shù)據,因而價值網絡更新方向更穩(wěn)定。

        圖4 價值函數(shù)仿真曲線Fig.4 Simulation curve of value function

        圖5 給出了根據公式(7)得到的判別器目標函數(shù)仿真曲線。該函數(shù)接近2 ln( 0.5) =-1.38,說明當前策略接近示例策略,即判別器無法區(qū)分當前策略和示例策略。GA-PPO-2 中,αθ逐漸減小,因而訓練中強化學習算法的更新比重逐漸增加。盡管回報仍逐漸增加,但當前策略與示例策略分布偏差略有增加。結果說明,可以通過調節(jié)式(8)和式(5)中的αθ的比例來影響策略分布,選擇智能體探索環(huán)境或模擬專家策略。

        圖5 判別器目標函數(shù)仿真曲線Fig.5 Simulation curve of D-object funtion of discrimination

        圖6給出了紅藍雙方均使用GA-PPO生成策略的對抗態(tài)勢圖。紅藍雙方初始態(tài)勢均勢,高度5 km,速度200 m/s,相向飛行。

        圖6 空戰(zhàn)博弈態(tài)勢圖Fig.6 Diagram of air combat play

        圖6 a)中,紅方使用GA-PPO-1生成模型,藍方使用GA-PPO-2 生成模型。10 s 時,雙機對頭有進入雙環(huán)戰(zhàn)趨勢,而后雙方相向飛行處于均勢,20 s時紅方選擇半滾倒轉機動迅速調轉機頭指向藍方,藍方處于劣勢,爬升急轉脫離未果,紅方始終保持后半球優(yōu)勢;圖6 b)中,紅藍雙方均使用GA-PPO-1生成模型自博弈,雙機交會后進入剪刀機動,均未能率先脫離,在雙方使用相同策略下和初始均勢開局情況下,最終收斂于納什均衡點,與直觀態(tài)勢理解相一致。

        5 結論

        本文提出了1種基于GA-PPO的空戰(zhàn)機動決策生成算法,能夠利用示例數(shù)據約束策略優(yōu)化方向,提高算法收斂效率。同時,結合強化學習環(huán)境探索能力,優(yōu)化當前策略。結果表明,基于GA-PPO 算法的策略模型具有較高智能性,較符合專家經驗。

        但算法仍存在一些問題:一方面,利用強化學習技術探索環(huán)境能力受限于獎勵函數(shù),對空戰(zhàn)態(tài)勢評估函數(shù)準確性、引導性、稠密性要求較高;另一方面,示例數(shù)據的多峰或非最優(yōu)性問題未得到根本的解決。此外在模型實際部署模擬器進行人機對抗時,應考慮對手變化帶來的遷移問題,在未來工作中需要進一步優(yōu)化。

        猜你喜歡
        策略模型
        一半模型
        基于“選—練—評”一體化的二輪復習策略
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權M-估計的漸近分布
        求初相φ的常見策略
        例談未知角三角函數(shù)值的求解策略
        我說你做講策略
        高中數(shù)學復習的具體策略
        3D打印中的模型分割與打包
        FLUKA幾何模型到CAD幾何模型轉換方法初步研究
        无码人妻丰满熟妇区免费| 在线视频免费自拍亚洲| 亚洲精品女同一区二区三区| 人妻少妇精品视频中文字幕国语| 亚洲天堂av在线免费观看| 精品国际久久久久999波多野| 精品亚洲国产成人av| 妺妺窝人体色www聚色窝韩国| 亚洲一区二区三区视频免费| 亚洲一区二区三区内裤视| 欧美最猛性xxxxx免费| 午夜亚洲国产理论片亚洲2020| 亚洲国产精品二区三区| 一个人看的视频在线观看| a级大胆欧美人体大胆666| 综合无码综合网站| 国产精品自拍网站在线| 国产国语按摩对白av在线观看| 人妻少妇出轨中文字幕| 韩国19禁主播深夜福利视频| 无码人妻丰满熟妇区免费| 色播视频在线观看麻豆| 国产伦理一区二区| 欧美一级色图| 亚洲天堂一区二区精品| 国产精品亚洲一区二区三区| 日本边添边摸边做边爱的网站| 国产v精品成人免费视频400条| 国产精品女同一区二区软件| 国产产区一二三产区区别在线| 亚洲视频在线看| 精品国产乱码久久免费看| av在线观看一区二区三区| 国产精品嫩草影院av| 国产一起色一起爱| 国产精品性色av麻豆| 粉嫩被粗大进进出出视频| 国产成人精品亚洲午夜| 丰满人妻被持续侵犯中出在线 | 99久久免费只有精品国产| 亚洲国产成人精品无码区在线观看|