亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于MATD3的視距內協同空戰(zhàn)機動決策

        2023-07-20 22:55:57張棟唐俊林熊威任智楊書恒
        航空兵器 2023年3期
        關鍵詞:深度強化學習

        張棟 唐俊林 熊威 任智 楊書恒

        摘要:為提升多無人作戰(zhàn)飛機空戰(zhàn)的協同作戰(zhàn)能力, 提出一種基于多智能體雙延遲深度確定性策略梯度(MATD3)的協同空戰(zhàn)機動決策方法。 首先, 基于無人作戰(zhàn)飛機的三自由度動力學模型構建空戰(zhàn)環(huán)境, 并結合飛行員的操縱方式, 設計以控制量的變化量表示的動作空間。 其次, 優(yōu)化了狀態(tài)空間和獎勵函數的設計, 將友機與敵機的相對關系引入狀態(tài)空間, 根據相對角度、 相對距離等空戰(zhàn)態(tài)勢因素建立連續(xù)型獎勵函數, 將飛行約束條件融入離散型獎勵函數, 提升機動決策的準確性和機動飛行的安全性; 采用分階段訓練、 啟發(fā)式引導、 雙探索機制、 交替凍結博弈等訓練方法, 提高算法的收斂速度和機動策略的魯棒性。 最后, 構建了二對一空戰(zhàn)的仿真場景, 結果表明我方雙機能夠展現出明顯的配合行為, 提高了對空戰(zhàn)態(tài)勢的感知能力。

        關鍵詞:無人作戰(zhàn)飛機; 協同空戰(zhàn); 機動決策; 多智能體; 深度強化學習; MATD3

        中圖分類號:??? ???TJ760文獻標識碼:??? A文章編號:??? ?1673-5048(2023)03-0020-09

        DOI: 10.12132/ISSN.1673-5048.2022.0231

        0引言

        隨著科技的進步, 空戰(zhàn)的戰(zhàn)場環(huán)境和空間信息越來越復雜, 單機已經無法滿足作戰(zhàn)需求, 多機協同空戰(zhàn)逐漸成為主要的作戰(zhàn)樣式。 協同空戰(zhàn)機動決策是指我方多架戰(zhàn)機根據交戰(zhàn)雙方的相對態(tài)勢, 相互配合共同決策, 以占據有利態(tài)勢, 甚至在處于劣勢時化解敵機的威脅。 有效的協同機動策略能使戰(zhàn)機編隊充分發(fā)揮整體作戰(zhàn)效能, 擊毀敵機的同時最大程度減小我方的損傷。

        現有的機動決策方法主要包括以矩陣博弈[1]、 微分對策[2]、 影響圖[3]為代表的傳統(tǒng)方法和以專家系統(tǒng)[4]、 神經網絡[5]、 深度強化學習為代表的人工智能方法。 文獻[6]基于矩陣博弈提出群決策理論, 以我機對每架敵機的動作偏好排序來進行決策, 為協同機動決策提供新的解決思路。 文獻[7]基于狀態(tài)預測影響圖模型提出協同空戰(zhàn)機動決策框架, 采用無跡卡爾曼濾波來更新和預測信念狀態(tài), 并通過移動視界控制法求解以滿足實時性要求。 文獻[8]建立了協商微分對策理論, 提出廣義微分動態(tài)規(guī)劃算法來求解多機協同機動策略。 文獻[9]針對編隊協同空戰(zhàn)的過程, 提出基于高階導數和相對模糊熵的二次聚類法, 實現了協同空戰(zhàn)決策過程的重構。 文獻[10]通過重復目標分配發(fā)揮戰(zhàn)機的多目標攻擊能力, 采用有限外推和粒子群算法求解指標函數, 提升了多機協同決策的效能。 傳統(tǒng)方法在多機協同機動決策領域的研究成果顯著, 但仍然存在一些不足: 矩陣對策法過于保守, 與空戰(zhàn)實際不符; 影響圖法推理過程繁雜, 決策響應速度慢; 微分對策法理論復雜, 計算量龐大, 性能函數設計困難。

        由于傳統(tǒng)方法的固有缺陷, 空戰(zhàn)機動決策技術逐漸向具有自學習能力的人工智能方向發(fā)展。 專家系統(tǒng)法難以建立完備的規(guī)則庫以適應復雜的空戰(zhàn)環(huán)境, 神經網絡法難以獲取大規(guī)模的有效訓練樣本, 而深度強化學習通過智能體對環(huán)境的“試錯”進行學習, 訓練樣本在訓練中自產生, 能夠適應復雜多變的空戰(zhàn)環(huán)境, 滿足機動決策準確性和實時性的要求, 具有很好的應用前景。 針對一對一空戰(zhàn)場景, 深度強化學習取得了不錯的應用效果。 文獻[11]基于空戰(zhàn)態(tài)勢評估和DQN, 構建機動決策模型, 采用分階段的訓練方法, 逐步獲得更加有效的機動策略。 文獻[12]基于DDPG, 得出連續(xù)平滑的控制量, 提高機動決策的精度, 并通過優(yōu)化算法產生有效樣本, 提高算法的學習效率。 文獻[13]在Actor網絡上增加與性能損失上限相關的魯棒性正則化器,? 提出SADDPG,并結合最大熵逆強化學習的獎勵塑造方法, 訓練出具有高魯棒性和高性能的機動策略。

        針對多機協同空戰(zhàn)場景, 基于深度強化學習的協同機動策略生成方法逐漸成為研究的熱點。 文獻[14]將MADDPG應用到狀態(tài)、 動作都為連續(xù)的多機空戰(zhàn)場景, 結合空戰(zhàn)態(tài)勢的評估結果設計連續(xù)型回報模型來加快收斂速度, 但仿真實現中多機的協同行為并不明顯。 文獻[15]通過動態(tài)目標分配對目標形成合圍之勢, 并基于啟發(fā)式強化學習對機動決策序列進行動態(tài)解算, 完成四對二場景的空戰(zhàn)仿真。 文獻[16]通過強化學習來計算協同威脅指數, 描述了二對一空戰(zhàn)中友機合作帶來的態(tài)勢提升, 再通過輔助決策模塊評估決策集, 最終得出無人機的控制量。 文獻[17]基于MADDPG求解協同機動策略, 并與采用預編規(guī)則的敵機進行對抗訓練, 生成多種典型的雙機協同策略。 文獻[18]將平均場理論引入DQN, 提出MFSG-Q, 在大規(guī)模無人機集群對抗中表現出有效的集群合作行為。 文獻[19]通過目標分配和態(tài)勢評估將編隊的戰(zhàn)術目標與各無人機的強化學習目標相融合, 基于actor-critic架構建立多機協同機動決策模型。

        綜上所述, 采用深度強化學習實現多機協同空戰(zhàn)機動決策通常有兩種途徑: 一是采用單智能體強化學習結合目標分配等方法, 這類機動策略仍然采用單智能體的研究方式, 協同能力較弱, 并沒有實現真正意義上的協同; 二是采用多智能體深度強化學習方法, 這類方法能夠生成比較有效的協同機動策略, 但大多數研究中采用的敵方策略過于簡單, 沒有充分挖掘多機協同的優(yōu)勢, 對于多機的協同行為考慮不足, 對于友機如何配合進而提升空戰(zhàn)優(yōu)勢的研究較少。 針對此類問題, 本文提出了一種基于MATD3空戰(zhàn)機動決策方法, 通過改進狀態(tài)空間、 動作空間和獎勵函數的設計, 并借助雙探索機制、 分階段訓練、 啟發(fā)式引導和交替凍結博弈等方法, 提高了多機機動決策的協同程度。

        1視距內空戰(zhàn)問題描述

        1.1UCAV運動模型

        空戰(zhàn)對抗仿真中, 選用高耦合的三自由度動力學模型來創(chuàng)建空戰(zhàn)環(huán)境[20]。 將UCAV視為一個質點, 考慮升力、 阻力和發(fā)動機推力, 比常見的以過載為控制量的三自由度動力學模型更加真實, 具有更高的應用價值[21]。 UCAV的飛行狀態(tài)參數如圖1所示。

        1.2空戰(zhàn)相對態(tài)勢

        根據UCAV的三自由度運動模型, 空戰(zhàn)中敵我雙機的相對位置如圖2所示。

        圖2中, vr和vb分別為敵我雙方的速度矢量; d為距離矢量, 從我方UCAV指向敵方UCAV; φ為敵機相對我機的方位角; q為敵機的進入角, 是敵機速度矢量與距離矢量的夾角。

        假設近距空空導彈的攻擊區(qū)是靜態(tài)的, 有效攻擊距離dM與離軸發(fā)射角φM均為定值。 近距空空導彈大多采用紅外導引頭, 具備全向攻擊能力。 因為戰(zhàn)機尾焰的紅外特性最為明顯, 尾后攻擊的成功率大于迎頭攻擊, 仍然希望進入角盡可能小。 選取對抗結束的勝負判定標志為: 相對距離小于空空導彈的攻擊距離, 方位角小于空空導彈的離軸發(fā)射角, 進入角小于90°, 且持續(xù)3個決策周期, 可認為滿足導彈發(fā)射條件, 即

        3.5二對一視距內空戰(zhàn)機動決策步驟

        我方雙機分別以MATD3框架選取機動動作, 通過相互配合來對抗敵方單機, 以奪取空戰(zhàn)勝利。 決策步驟如圖5所示。

        與一對一空戰(zhàn)相比, 二對一場景的狀態(tài)空間更加龐大, 為了增強機動決策的準確性, 使用較大規(guī)模的神經網絡來擬合協同機動策略。 大規(guī)模的神經網絡和以控制量變化量表示的動作設計將導致收斂緩慢甚至不收斂的問題。 針對此問題, 采用啟發(fā)式引導和分階段訓練的方法來改善算法的收斂性。 采用分階段訓練, 讓算法先解決簡單的任務, 當算法學習到一定策略后再增大任務的難度繼續(xù)訓練。 利用強化學習的經驗回放池, 可以存儲其他決策方法產生的經驗樣本, 從而在訓練中吸收其他方法的優(yōu)點。 訓練的初期, 可以采用其他決策方法選擇動作, 得到環(huán)境的獎勵, 并與狀態(tài)一起存入經驗回放池。 如此便可以讓具有較大規(guī)模神經網絡的強化學習算法解決復雜的決策問題。

        4仿真分析

        4.1參數設置

        仿真中, 敵我雙方的對抗區(qū)域邊界限制為x∈[0 km, 15 km], y∈[0 km, 15 km], z∈[1 km, 12 km]。 雙方戰(zhàn)機性能相同, 空空導彈發(fā)射距離約束dM=3 km, 離軸發(fā)射角約束φM=30°, UCAV最大速度vmax=400 m/s, 最小速度vmin=80 m/s, 質量m=14 680 kg, 參考截面積S=49.24 m2, 空氣密度ρ=1.205 kg/m3。 Actor和Critic模塊的學習率均為0.000 1, 衰減率γ=0.95, Target網絡的軟策略更新參數τ=0.01。 經驗回放池容量為1 000 000, 每次從中抽取1 000條樣本進行訓練。 攻角、 滾轉角和油門的隨機噪聲初始高斯分布分別為: Nα(0, 0.035), Nγ(0, 0.15), Nδ(0, 0.2)。 各Agent的網絡結構相同, 如表3~4所示。

        綜合考慮決策的實時性和機體操控的穩(wěn)定性, 每隔1 s, 對抗雙方同時進行一次機動動作選擇。 每執(zhí)行5步進行一次訓練, 達到回合的最大步數或勝負終止條件, 則本回合結束, 執(zhí)行下一回合的訓練。

        我方每架UCAV的獎勵函數中, 友機的獎勵提升因子k=1。 訓練過程分為初始訓練階段和對抗訓練階段。 初始訓練階段直到回合最大步數限制才終止, 先讓我方雙機跟隨直線飛行的敵機, 學習初步的機動策略, 再跟隨螺旋飛行的敵機, 以適應敵機速度矢量的變化; 對抗訓練階段加入敵機的機動策略, 進行對抗仿真, 任意一架UCAV達到攻擊條件便終止回合。 經測試, 采用本文的動作設計方法, 如果不采用啟發(fā)式引導的方法, 訓練過程中Actor模塊的動作輸出同質化嚴重, 導致算法無法收斂。 初始訓練階段中, 部分回合我機使用Min-Max算法按照一對一場景的研究方法做出決策, 生成有效樣本來指導神經網絡的訓練。

        敵方單機采用遍歷試探法, 從基本動作集中選取動作進行對抗。 每個控制量的變化量有5種取值, 分別為Δα=(-10°, -5°, 0°, 5°, 10°)、 Δγ=(-45°, -22.5°, 0°, 22.5°, 45°)和Δδ=(-1, -0.5, 0, 0.5, 1), 排列組合得到125種基本動作。 敵機決策時, 假設我方雙機位置保持不變, 以當前待選動作執(zhí)行后更新的相對態(tài)勢來評估該動作的優(yōu)劣。 態(tài)勢評估中敵機對我方每架戰(zhàn)機的綜合獎勵各占一半, 根據一對一空戰(zhàn)的獎勵函數計算。

        4.2初始訓練階段

        訓練的0~7 000個回合, 令敵機沿固定水平直線勻速飛行, 我方雙機的初始位置在以敵機初始位置為圓心、 半徑為6 km的部分圓周上隨機生成, 速度為250 m/s, 航向指向敵機, 航跡傾角為0°, 攻角為5.73°, 滾轉角為0°, 油門系數為0。 訓練完成后, 某回合中我方雙機的機動軌跡如圖6所示。

        由圖6可知, 我方雙機從任意位置出發(fā), 均能迅速繞到敵機后方形成攻擊態(tài)勢, 并穩(wěn)定保持絕對有利態(tài)勢, 直到最大步數75而終止。 引入此訓練階段的主要目的是讓每架UCAV均能學習到對敵機形成攻擊態(tài)勢的初步智能水平。

        訓練的7 000~12 000個回合, 令敵機以固定的初始位置、 隨機的初始航向角、 固定的航跡傾角大小, 向下或向上螺旋飛行。 我方雙機初始位置分別為(3 km, 6.5 km, 5 km)和(3 km, 8.5 km, 5 km), 速度均為250 m/s, 航跡偏角均為0°, 航跡傾角均為0°, 攻角均為5.73°, 滾轉角均為0°, 油門系數均為0。 訓練完成后, 某回合的機動軌跡如圖7所示。

        由圖7可知, 敵機以隨機初始航向進行螺旋飛行時, 我方雙機均能跟隨在敵機側后方, 保持絕對優(yōu)勢的態(tài)勢直到回合最大步數150。 引入此訓練階段的主要目的是讓每架UCAV均能適應敵機飛行方向的變化, 學習到對敵機持續(xù)保持攻擊態(tài)勢的智能水平。

        4.3對抗訓練階段

        訓練的后40 000個回合, 敵方單機以遍歷試探法選取動作進行機動對抗。 敵機的初始位置恒定為(7.5 km,? 7.5 km, 5 km), 速度為250 m/s, 航跡偏角指向我方雙機編隊的中心, 航跡傾角為0°, 攻角為5.73°, 滾轉角為0°, 油門系數為0; 我方雙機的初始位置在以敵機初始位置為圓心、 半徑為6 km的圓周上隨機生成, 圓心角相差10°, 速度均為250 m/s, 航跡偏角指向敵機, 航跡傾角均為0°, 攻角均為5.73°, 滾轉角均為0°, 油門系數均為0。 初始階段的訓練過程中, 直到回合最大步數限制才終止訓練, 導致算法雖然有協同機制, 但我方戰(zhàn)機決策時卻強行忽略了友機協同的優(yōu)勢提升, 各自爭取對敵機的有利態(tài)勢。 對抗階段的訓練過程中, 任意一架UCAV被擊毀便終止回合, 友機的獎勵和懲罰均會對另一架UCAV造成較大的影響, 此時雙機能逐漸學到一些協同策略。

        訓練完成后某回合的對抗軌跡如圖8所示。 我方雙機學習到的戰(zhàn)術類似于分散夾擊戰(zhàn)術, 先散開, 再分別從兩側夾擊敵機。 只要敵機偏向于其中一方, 另一方便能抓住機會, 迅速達成攻擊條件, 將敵機擊落。 刨除初始訓練階段和使用探索策略2的訓練回合, 對抗訓練階段我方雙機獎勵之和的平均值及勝負概率變化趨勢如圖9所示。

        由圖9可知, 隨著對抗訓練的進行, 我方的獲勝概率逐漸提升, 雙機所獲得的平均獎勵也在波動上升, 最終我方雙機編隊的勝率可達90%以上。 因此, 在相同的優(yōu)勢函數及權重因子下, 基于MATD3的雙機機動決策能表現出一定的協同行為, 相互配合率先達到攻擊條件并擊落敵機。

        4.4交替凍結博弈

        為獲得普適性更強的協同機動策略, 敵機使用3個獨立訓練的TD3與我方雙機對抗, 并進行交替訓練(訓練一方的策略時, 另一方的參數固定)。 為減輕“紅皇后效應”的影響, 將敵機各獨立決策算法每個訓練階段獲得的策略儲存。 我方訓練時, 敵機每回合在已有策略集(π1θ1, π2θ1, …, πi1θ1), (π1θ2, π2θ2, …, πi2θ2), (π1θ3, π2θ3, …, πi3θ3)中隨機選取一個策略進行對抗, 使得我方的協同策略能夠適應不同對手各個時期的策略。 在交替訓練過程中, 處于訓練階段的策略通過不斷迭代, 總能以較高的概率戰(zhàn)勝非訓練階段的策略。 經過若干輪交替訓練, 我方雙機對敵方不同種類、 不同時期的策略均能保持較高的對抗成功率。 某回合中的對抗軌跡如圖10所示, 我方雙機先散開, 再從兩側夾擊, 1號機擾亂了敵方對空戰(zhàn)態(tài)勢的判斷, 2號機則趁機繞到敵機側后方將其擊落, 可知分散夾擊是二對一空戰(zhàn)中一種十分有效的戰(zhàn)術。

        5結論

        本文采用MATD3研究了高動態(tài)和強對抗環(huán)境下的多機協同控制機動決策問題, 構建了基于MATD3的多機協同機動決策框架, 提升了多機協同空戰(zhàn)過程中協同的作戰(zhàn)的效能, 主要結論包括:

        (1) 通過優(yōu)化狀態(tài)空間和設計獎勵函數, 以感知友機的優(yōu)勢提升; 多智能體的合作行為主要通過對友機和敵機的觀測以及感知友機的獎勵來獲得。

        (2) 通過引入雙探索機制、 采用分階段訓練、 啟發(fā)式引導以及交替凍結博弈等方法, 可以充分挖掘機動決策框架的性能。 雙探索機制平衡探索與利用的關系; 分階段訓練和啟發(fā)式引導改善算法的收斂性; 交替凍結博弈提高決策的普適性。

        二對一空戰(zhàn)的仿真結果表明, MATD3生成的機動策略環(huán)境適應性強, 能在對抗中表現出明顯的協同行為, 充分發(fā)揮多機作戰(zhàn)的協同優(yōu)勢, 具有重要的潛在應用價值。

        參考文獻:

        [1] 李世豪,? 丁勇,? 高振龍. 基于直覺模糊博弈的無人機空戰(zhàn)機動決策[J]. 系統(tǒng)工程與電子技術,? 2019,? 41(5): 1063-1070.

        Li Shihao,? Ding Yong,? Gao Zhenlong. UAV Air Combat Maneuvering Decision Based on Intuitionistic Fuzzy Game Theory[J]. Systems Engineering and Electronics,? 2019,? 41(5): 1063-1070.(in Chinese)

        [2] Park H,? Lee B Y,? Tahk M J,? et al. Differential Game Based Air Combat Maneuver Generation Using Scoring Function Matrix[J]. International Journal of Aeronautical and Space Sciences,? 2016,? 17(2): 204-213.

        [3] Zhong L,? Tong M A,? Zhong W,? et al. Sequential Maneuvering Decisions Based on Multi-Stage Influence Diagram in Air Combat[J]. Journal of Systems Engineering and Electronics,? 2007,? 18(3): 551-555.

        [4] Geng W X,? Kong F E,? Ma D Q. Study on Tactical Decision of UAV Medium-Range Air Combat[C]∥ 26th Chinese Control and Decision Conference (CCDC),?? 2014: 135-139.

        [5] Li B,? Liang S Y,? Tian L Y,? et al. Intelligent Aircraft Maneuvering Decision Based on CNN[C]∥International Conference on Compu-ter Science and Application Engineering,? 2019: 1-5.

        [6] 周思羽,? 王慶超,? 王子健,? 等. 基于Dodgson集結算法的多機協同空戰(zhàn)機動決策方法[J]. 飛機設計,? 2021,? 41(3): 5-8.

        Zhou Siyu,? Wang Qingchao,? Wang Zijian,? et al. Research on Autonomous Maneuvering Decision-Making Method Based on Dodgson Aggregation Algorithm[J]. Aircraft Design,? 2021,? 41(3): 5-8.(in Chinese)

        [7] Pan Q,? Zhou D Y,? Huang J C,? et al. Maneuver Decision for Cooperative Close-Range Air Combat Based on State Predicted Influence Diagram[C]∥IEEE International Conference on Information and Automation (ICIA),? 2017: 726-731.

        [8] 李建勛,? 佟明安,? 金德琨. 協商微分對策理論及其在多機空戰(zhàn)分析中的應用[J]. 系統(tǒng)工程理論與實踐,? 1997,? 17(6): 68-72.

        Li Jianxun,? Tong Mingan,? Jin Dekun. Bargaining Differential Game Theory and Application to Multiple Airplane Combat Analysis[J]. Systems Engineering-Theory & Practice,? 1997,? 17(6): 68-72.(in Chinese)

        [9] 左家亮,? 張瀅,? 楊任農,? 等. 中距協同空戰(zhàn)決策過程二次聚類重構與評估[J]. 系統(tǒng)工程與電子技術,? 2020,? 42(1): 108-117.

        Zuo Jialiang,? Zhang Ying,? Yang Rennong,? et al. Reconstruction and Evaluation of Medium-Range Cooperation Air Combat Decision-Making Process with Two Phase Clustering[J]. Systems Engineering and Electronics,? 2020,? 42(1): 108-117.(in Chinese)

        [10] 奚之飛,? 徐安,? 寇英信,? 等. 多機協同空戰(zhàn)機動決策流程[J]. 系統(tǒng)工程與電子技術,? 2020,? 42(2): 381-389.

        Xi Zhifei,? Xu An,? Kou Yingxin,? et al. Decision Process of Multi-Aircraft Cooperative Air Combat Maneuver[J]. Systems Engineering and Electronics,? 2020,? 42(2): 381-389.(in Chinese)

        [11] Yang Q M,? Zhang J D,? Shi G Q,? et al. Maneuver Decision of UAV in Short-Range Air Combat Based on Deep Reinforcement Learning[J]. IEEE Access,? 2019,? 8: 363-378.

        [12] Yang Q M,? Zhu Y,? Zhang J D,? et al. UAV Air Combat Autonomous Maneuver Decision Based on DDPG Algorithm[C]∥IEEE 15th International Conference on Control and Automation (ICCA),? 2019: 37-42.

        [13] Kong W R,? Zhou D Y,? Yang Z,? et al. UAV Autonomous Aerial Combat Maneuver Strategy Generation with Observation Error Based on State-Adversarial Deep Deterministic Policy Gradient and Inverse Reinforcement Learning[J]. Electronics,? 2020,? 9(7): 1121.

        [14] 袁唯淋. 基于多智能體強化學習的超視距空戰(zhàn)決策方法研究[D]. 長沙: 國防科技大學,? 2018: 15-39.

        Yuan Weilin. Research on Decision-Making of Beyond-Visual-Range Air Combat Based on Multi-Agent Reinforcement Learning[D]. Changsha: National University of Defense Technology,? 2018: 15-39.(in Chinese)

        [15] 左家亮,? 楊任農,? 張瀅,? 等. 基于啟發(fā)式強化學習的空戰(zhàn)機動智能決策[J]. 航空學報,? 2017,? 38(10): 321168.

        Zuo Jialiang,? Yang Rennong,? Zhang Ying,? et al. Intelligent Decision-Making in Air Combat Maneuvering Based on Heuristic Reinforcement Learning[J]. Acta Aeronautica et Astronautica Sinica,? 2017,? 38(10): 321168.(in Chinese)

        [16] 韓統(tǒng),? 崔明朗,? 張偉,? 等. 多無人機協同空戰(zhàn)機動決策[J]. 兵器裝備工程學報,? 2020,? 41(4): 117-123.

        Han Tong,? Cui Minglang,? Zhang Wei,? et al. Multi-UCAV Cooperative Air Combat Maneuvering Decision[J]. Journal of Ordnance Equipment Engineering,? 2020,? 41(4): 117-123.(in Chinese)

        [17] 孫彧,? 李清偉,? 徐志雄,? 等. 基于多智能體深度強化學習的空戰(zhàn)博弈對抗策略訓練模型[J]. 指揮信息系統(tǒng)與技術,? 2021,? 12(2): 16-20.

        Sun Yu,? Li Qingwei,? Xu Zhixiong,? et al. Game Confrontation Strategy Training Model for Air Combat Based on Multi-Agent Deep Reinforcement Learning[J]. Command Information System and Technology,? 2021,? 12(2): 16-20.(in Chinese)

        [18] 李世豪. 復雜空戰(zhàn)環(huán)境下基于博弈模型的無人機機動決策方法研究[D]. 南京: 南京航空航天大學,? 2019: 51-68.

        Li Shihao. Research on UAV Maneuvering Decision Method Based on Game Theory in Complex air Combat[D]. Nanjing: Nanjing University of Aeronautics and Astronautics,? 2019: 51-68.(in Chinese)

        [19] Zhang J D,? Yang Q M,? Shi G Q,? et al. UAV Cooperative Air Combat Maneuver Decision Based on Multi-Agent Reinforcement Learning[J]. Journal of Systems Engineering and Electronics,? 2021,? 32(6): 1421-1438.

        [20] 杜海文,? 崔明朗,? 韓統(tǒng),? 等. 基于多目標優(yōu)化與強化學習的空戰(zhàn)機動決策[J]. 北京航空航天大學學報,? 2018, 44(11):2247-2256.

        Du Haiwen,? Cui Minglang,? Han Tong,? et al. Maneuvering Decision in Air Combat Based on Multi-Objective Optimization and? Reinforcement Learning[J]. Journal of Beijing University of Aeronautics and Astronautics,??? 2018, 44(11): 2247-2256.(in Chinese)

        [21] Zhang X B,? Liu G Q,? Yang C J,? et al. Research on Air Combat Maneuver Decision-Making Method Based on Reinforcement Learning[J]. Electronics,? 2018,? 7(11): 279.

        [22] Williams P. Aircraft Trajectory Planning for Terrain Following Incorporating Actuator Constraints[J]. Journal of Aircraft,? 2005,? 42(5): 1358-1361.

        [23] Williams P. Three-Dimensional Aircraft Terrain-Following via Real-Time Optimal Control[J]. Journal of Guidance,? Control,? and Dynamics,? 2007,? 30(4): 1201-1206.

        [24] 王杰,? 丁達理,? 陳誠,? 等. 導彈攻擊狀態(tài)評估下的UCAV試探機動決策[J]. 哈爾濱工業(yè)大學學報,? 2021,? 53(6): 118-127.

        Wang Jie,? Ding Dali,? Chen Cheng,? et al. UCAV Trial Maneuvering Decision under Missile Attack State Assessment[J]. Journal of Harbin Institute of Technology,? 2021,? 53(6): 118-127.(in Chinese)

        [25] Fujimoto S,? van Hoof H,? Meger D. Addressing Function Approximation Error in Actor-Critic Methods[EB/OL]. (2018-10-22)[2022-11-03]. https:∥arxiv.org/abs/1802.09477v3.

        [26] Lowe R,? Wu Y,? Tamar A,? et al. Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments[C]∥31st? International Conference on Neural Information Processing Systems, 2017: 6382-6393.

        Maneuver Decision of Cooperative Air Combat within

        Visual Range Based on MATD3

        Zhang Dong*, Tang Junlin, Xiong Wei, Ren Zhi, Yang Shuheng

        (School of Astronautics, Northwestern Polytechnic University, Xian 710072, China)

        Abstract: In order to improve the cooperative ability of multiple unmanned combat aircraft vehicle(UCAV) in air combat, a cooperative air combat maneuver decision method based on multi-agent dual delay depth deterministic policy gradient algorithm (MATD3) is proposed. Firstly, the air combat environment is constructed based on the three degree of freedom dynamic model of UCAV, and the action space represented by the change of control quantity is designed based on the pilots control mode. Secondly, the design of state space and reward function is optimized to improve the accuracy of maneuvering decision and the safety of maneuvering flight. The relative relationship between friendly aircraft and enemy aircraft is introduced into state space, the continuous reward function is established according to the relative angle, relative distance and other air combat situation factors, and the flight constraints are integrated into the discrete type reward function. Training techniques such as phased training, heuristic guidance, dual exploration mechanism, and alternating freezing game are adopted to improve the convergence speed of the algorithm and the robustness of the maneuvering strategy.Finally, a two-to-one air combat simulation scenario is constructed, and the results show that our two aircraft can show obvious cooperative behavior, which improves the perception and control of air combat situation.

        Key words: UCAV; cooperativeair combat; maneuver decision; multi-agent;? deep reinforcement learning; MATD3

        收稿日期: 2022-11-04

        基金項目: 基礎加強1912項目

        *作者簡介: 張棟(1986-),? 男,? 寧夏青銅峽人,? 副教授, 博士生導師。

        猜你喜歡
        深度強化學習
        基于DDPG算法的路徑規(guī)劃研究
        基于深度強化學習的木材缺陷圖像重構及質量評價模型研究
        基于深度強化學習與圖像智能識別的輸電線路在線監(jiān)測系統(tǒng)
        基于云控制的業(yè)務服務機器人系統(tǒng)設計
        物聯網技術(2020年3期)2020-04-09 04:33:59
        人工智能深度強化學習的原理與核心技術探究
        基于人工智能的無人機區(qū)域偵察方法研究現狀與發(fā)展
        基于策略梯度算法的工作量證明中挖礦困境研究
        計算機應用(2019年5期)2019-08-01 01:48:57
        基于深度強化學習的圖像修復算法設計
        物聯網技術(2019年6期)2019-07-29 01:12:33
        關于人工智能阿法元綜述
        商情(2019年14期)2019-06-15 10:20:13
        深度強化學習研究進展
        漂亮人妻出轨中文字幕| 久久99精品国产99久久| 国产偷2018在线观看午夜| 日韩av他人妻中文字幕| 国偷自拍av一区二区三区| 成l人在线观看线路1| 色综合久久天天综线观看| 成人影院免费视频观看| 电驱蚊液可以插一晚上吗| 亚洲色欲色欲大片www无码| 一级午夜视频| 最新国产主播一区二区| 日本一二三区在线观看视频| 黑人巨大跨种族video| 中文字幕一区二区人妻出轨 | 亚洲福利视频一区 | 丰满少妇高潮惨叫正在播放| 欧美韩国精品另类综合| 久久国产精品亚洲我射av大全| 大地资源高清在线视频播放| 无码专区天天躁天天躁在线| 国产经典免费视频在线观看| 久久精品亚洲成在人线av乱码| 亚洲va久久久噜噜噜久久男同| 亚洲中文无码久久精品1| 99久久精品国产一区色| 亚洲av无码国产精品色软件 | 中文毛片无遮挡高潮| 国产一区二区三区特区| 成人艳情一二三区| 亚洲 欧美 影音先锋| 国产日韩一区二区精品| 日产精品高潮一区二区三区5月| 四虎影视永久地址www成人| 国产亚洲第一精品| 青青草手机视频免费在线播放| 性无码专区无码| 国产精品视频久久久久| 久久综合九色综合久久久 | 一级老熟女免费黄色片| 精品久久香蕉国产线看观看亚洲|