亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度Q網(wǎng)絡(luò)的近距空戰(zhàn)智能機動決策研究

        2023-07-20 01:25:37張婷玉孫明瑋王永帥陳增強
        航空兵器 2023年3期
        關(guān)鍵詞:深度強化學(xué)習(xí)空戰(zhàn)

        張婷玉 孫明瑋 王永帥 陳增強

        摘要:針對近距空戰(zhàn)對抗中無人機機動決策問題, 本文基于深度Q網(wǎng)絡(luò)(DQN)算法的框架, 對強化學(xué)習(xí)獎勵函數(shù)設(shè)計以及超參數(shù)的選擇問題進行了研究。 對于強化學(xué)習(xí)中的稀疏獎勵問題, 采用綜合角度、 距離、 高度和速度等空戰(zhàn)因素的輔助獎勵, 能夠精確描述空戰(zhàn)任務(wù), 正確引導(dǎo)智能體的學(xué)習(xí)方向。 同時, 針對應(yīng)用強化學(xué)習(xí)超參數(shù)選擇問題, 探究了學(xué)習(xí)率、 網(wǎng)絡(luò)節(jié)點數(shù)和網(wǎng)絡(luò)層數(shù)對決策系統(tǒng)的影響, 并給出較好的參數(shù)選擇范圍, 為后續(xù)研究參數(shù)選擇提供參考。 空戰(zhàn)場景的仿真結(jié)果表明, 通過訓(xùn)練智能體能夠在不同空戰(zhàn)態(tài)勢下學(xué)習(xí)到較優(yōu)的機動策略, 但對強化學(xué)習(xí)超參數(shù)較敏感。

        關(guān)鍵詞:空戰(zhàn); 自主機動決策; 深度強化學(xué)習(xí); DQN; 獎勵函數(shù); 智能機動; 參數(shù)選擇

        中圖分類號:? TJ76; V212.13文獻標(biāo)識碼:A文章編號: 1673-5048(2023)03-0041-08

        DOI: 10.12132/ISSN.1673-5048.2022.0251

        0引言

        伴隨著現(xiàn)代戰(zhàn)爭的信息化和智能化, 空戰(zhàn)戰(zhàn)場上使用無人機的趨勢日益明顯, 無人作戰(zhàn)飛機(Unmanned Combat Aerial Vehicle, UCAV)逐漸成為未來空戰(zhàn)的主力武器[1-2]。 目前UCAV大多采用地面人員遙控的作戰(zhàn)模式, 很難適用于復(fù)雜多變的空戰(zhàn)環(huán)境。 因此, 提升UCAV的智能化水平是打贏未來空戰(zhàn)的軍事需求[3]。 飛行器自主機動決策技術(shù)是提高空戰(zhàn)自主能力與智能化水平的關(guān)鍵技術(shù), 能夠準(zhǔn)確感知空戰(zhàn)環(huán)境并生成合理機動決策的自主機動決策方法是各國軍事技術(shù)的研究重點[4]。

        現(xiàn)有的空戰(zhàn)決策方法分為兩類: 一類是非學(xué)習(xí)策略, 另外一類是自學(xué)習(xí)策略。 非學(xué)習(xí)策略的求解過程主要采用優(yōu)化理論, 包括專家系統(tǒng)[5-6]、 微分對策[7-8]、 矩陣博弈[9-10]等方法。 而自學(xué)習(xí)空戰(zhàn)決策方法的核心是用智能算法對空戰(zhàn)決策過程建模, 并根據(jù)訓(xùn)練產(chǎn)生的經(jīng)驗對決策模型參數(shù)進行優(yōu)化。 典型的自學(xué)習(xí)策略算法包括遺傳算法[11]、 動態(tài)規(guī)劃算法[12]和強化學(xué)習(xí)算法等。 丁林靜等人采用動態(tài)模糊Q學(xué)習(xí)模型, 提出了基于強化學(xué)習(xí)的無人機空戰(zhàn)機動決策方法[13], 但由于空戰(zhàn)問題的復(fù)雜性, 使傳統(tǒng)強化學(xué)習(xí)算法無法解決連續(xù)狀態(tài)空間問題, 會存在維度限制問題。

        近年來, 深度強化學(xué)習(xí)在多種決策問題中均有一定突破, 為解決空戰(zhàn)對抗中飛行器機動決策問題提供了新思路。 目前, 深度強化學(xué)習(xí)在空戰(zhàn)對抗中的運用主要有基于值函數(shù)的Q學(xué)習(xí)方法和基于策略搜索的Actor-Critic方法。 張強等人提出一種基于Q-network強化學(xué)習(xí)的超視距空戰(zhàn)機動決策方法[14]。 Zhang等應(yīng)用DQN(Deep Q-Network)算法研究了二維平面的空戰(zhàn)機動決策問題, 針對DQN算法初始隨機探索效率低的缺點, 提出利用專家知識提高探索效率, 加快訓(xùn)練時間[15]。 Yang等基于DDPG(Deep Deterministic Policy Gradient)算法構(gòu)建空戰(zhàn)決策系統(tǒng), 針對DDPG算法缺少空戰(zhàn)先驗知識、 導(dǎo)致數(shù)據(jù)利用率低的問題, 提出向經(jīng)驗池加入已有機動決策系統(tǒng)的樣本數(shù)據(jù), 加快算法收斂速度[16]。 吳宜珈等通過改進PPO(Proximal Policy Optimization)算法, 優(yōu)化策略選擇過程, 提高決策效率[17]。 上述文獻主要關(guān)注對深度強化學(xué)習(xí)算法的改進, 對于適用于一對一空戰(zhàn)的獎勵函數(shù)以及強化學(xué)習(xí)超參數(shù)選擇問題沒有過多研究。 在深度強化學(xué)習(xí)方法應(yīng)用過程中, 超參數(shù)的整定以及超參數(shù)的調(diào)整是否會帶來性能的影響, 是一個值得研究的問題。

        本文針對三維空間中無人機一對一近距對抗問題開展研究, 采用強化學(xué)習(xí)框架對空戰(zhàn)問題進行建模; 針對強化學(xué)習(xí)的稀疏獎勵問題, 考慮加入能夠準(zhǔn)確描述空戰(zhàn)任務(wù)的輔助獎勵, 設(shè)計一對一空戰(zhàn)的機動決策獎勵, 提出了基于DQN算法的自主機動決策方法; 針對深度強化學(xué)習(xí)超參數(shù)選取問題, 探究超參數(shù)對決策系統(tǒng)的影響, 并設(shè)置空戰(zhàn)場景進行仿真, 驗證機動決策方法的有效性。

        1空戰(zhàn)機動決策問題描述及建模

        1.1近距空戰(zhàn)問題描述

        空戰(zhàn)問題可用OODA環(huán)描述, 即完成空戰(zhàn)的觀察(Observe)、 判斷(Orient)、 決策(Decide)和執(zhí)行(Action)回路(簡稱OODA回路)。 結(jié)合OODA回路描述, 自主空戰(zhàn)被定義為在瞬息萬變的復(fù)雜戰(zhàn)場環(huán)境中感知并認(rèn)知戰(zhàn)場態(tài)勢和目標(biāo)意圖, 對武器和機動動作快速做出最優(yōu)的決策策略, 并控制飛機精確執(zhí)行機動指令。 空戰(zhàn)決策是自主空戰(zhàn)的核心。 本文所研究的空戰(zhàn)場景為近距一對一空戰(zhàn), 如圖1所示。

        一對一空戰(zhàn)機動決策的目的是在雙方交戰(zhàn)過程中, 使我方盡量處于空戰(zhàn)態(tài)勢的優(yōu)勢地位, 即盡可能讓敵方進入我方的武器攻擊區(qū)域, 同時避免自身落入敵方的武器攻擊區(qū)域。 典型的武器攻擊區(qū)域是攻擊機的前方一定距離和角度的錐形范圍。

        1.2UCAV運動學(xué)模型

        飛行器的運動學(xué)模型是空戰(zhàn)機動決策模型的基礎(chǔ), 本文研究的重點是機動策略, 不考慮姿態(tài)等, 故將飛行器看作三維空間中的一個質(zhì)點, 采用三自由度質(zhì)點模型。

        基于動力學(xué)基本定理, 飛行器在慣性坐標(biāo)系下的三自由度質(zhì)點運動模型為[18]

        式中: v為飛行器的速度; x, y, z為飛行器質(zhì)心在慣性坐標(biāo)系中的坐標(biāo)值; γ, ψ, μ為飛行器的俯仰角、 航向角和滾轉(zhuǎn)角; nx為切向過載, 表示飛行器在速度方向上受到的推力與自身重力的比值; nz為法向過載, 提供飛行器所需的升力[18]。 本文所選取飛行器機動模型的控制量為nx, nz, μ。

        2基于DQN的機動決策方法

        2.1系統(tǒng)框架

        深度Q網(wǎng)絡(luò)(Deep Q-Network, DQN)是將傳統(tǒng)強化學(xué)習(xí)方法Q-learning與深度神經(jīng)網(wǎng)絡(luò)相結(jié)合的一種算法。 DQN用深度神經(jīng)網(wǎng)絡(luò)代替Q表, 解決了Q表存儲限制問題; 引入目標(biāo)網(wǎng)絡(luò)來計算目標(biāo)Q值, 采用暫時參數(shù)凍結(jié)的方法切斷Q網(wǎng)絡(luò)更新時的相關(guān)性, 有效避免了Q估計值不收斂的問題。 DQN算法的框架如圖2所示。

        空戰(zhàn)格斗的機動決策是一個序貫決策過程, 強化學(xué)習(xí)正是一種求解序貫決策問題的優(yōu)化方法,故將機動決策問題建模為連續(xù)狀態(tài)空間和離散動作空間的強化學(xué)習(xí)問題。 強化學(xué)習(xí)算法為無人機進行動作選擇, 我機與目標(biāo)機的狀態(tài)形成空戰(zhàn)環(huán)境的描述, 當(dāng)前空戰(zhàn)態(tài)勢的評估結(jié)果返回強化學(xué)習(xí)算法中。 決策系統(tǒng)的框架如圖3所示。

        2.2UCAV的強化學(xué)習(xí)環(huán)境構(gòu)建

        2.2.1狀態(tài)空間

        本文選擇空戰(zhàn)態(tài)勢信息作為狀態(tài)變量, 它將為無人作戰(zhàn)飛機機動決策提供必要的信息支撐。 空戰(zhàn)態(tài)勢信息的幾何關(guān)系如圖4所示。

        狀態(tài)變量包括我機與目標(biāo)機距離R、 我機與目標(biāo)機的距離變化率R·、 我機方位角φU、 我機進入角qU、 兩機的速度方向的夾角χ、 兩機的飛行高度差Δh以及兩機的飛行速度差Δv。 除態(tài)勢信息外, 還引入我機的當(dāng)前飛行高度zU和飛行速度vU作為狀態(tài)變量。 因此, 本文設(shè)計的系統(tǒng)狀態(tài)空間向量為

        2.2.2動作空間

        飛行器的機動過程可視作一些基本機動動作的組合[19], 因此本文選擇由美國NASA提出的“基本機動動作庫”作為動作空間[20], 其包括7個基本操縱方式: 定常飛行、 加速、 減速、 左轉(zhuǎn)、 右轉(zhuǎn)、 向上拉起和向下俯沖。 飛行器可通過連續(xù)多步的基本動作選擇,從而組合出不同戰(zhàn)術(shù)動作。

        飛行器機動動作的控制量為切向過載nx、 法向過載nz和滾轉(zhuǎn)角μ, 考慮飛行器結(jié)構(gòu)特性對過載的限制, 本文切向過載的取值范圍為nx∈[-2,2], 法向過載的取值范圍為nz∈[-4,4], 滾轉(zhuǎn)角的取值范圍為μ∈[-π/3, π/3][21]。 實際每次執(zhí)行機動動作過程中均采用最大過載, 機動動作所對應(yīng)的控制指令如表1所示[21]。

        2.2.3獎勵函數(shù)

        忽略武器攻擊誤差等因素, 設(shè)定當(dāng)兩機距離R小于武器攻擊范圍Rw, 方位角小于武器最大攻擊角度φw且進入角小于qw時達(dá)到目標(biāo)狀態(tài), 可獲得最終獎勵rfinal:

        為了避免飛行器在飛行過程中失速、 飛行過低或過高、 遠(yuǎn)離目標(biāo)或與目標(biāo)發(fā)生碰撞, 本文設(shè)置來自于環(huán)境的懲罰函數(shù)re:

        綜合建立的強化學(xué)習(xí)環(huán)境、 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)及探索策略, 本文提出基于深度Q學(xué)習(xí)的機動決策算法, 算法1描述了基于深度Q學(xué)習(xí)的機動決策算法過程。

        算法1: 基于深度Q學(xué)習(xí)的飛行器機動決策過程。

        輸入: 狀態(tài)空間S, 動作空間A, 初始神經(jīng)網(wǎng)絡(luò), 訓(xùn)練參數(shù)。

        輸出: Q網(wǎng)絡(luò)參數(shù)。

        1: 初始化經(jīng)驗回放緩沖區(qū)D, 容量為N。

        2: 初始化在線Q網(wǎng)絡(luò)及隨機權(quán)重θ。

        3: 初始化目標(biāo)Q網(wǎng)絡(luò), θ-=θ。

        4: 初始化ε=1。

        5: for episode = 1, 2, do:

        6: 初始化狀態(tài)雙方飛行器的狀態(tài), 獲取當(dāng)前態(tài)勢。

        7: if episode為N的倍數(shù)then。

        8: 進行評估, 評估時ε=0。

        9: endif

        10: for step = 1, 2, …, T do。

        11: 以ε的概率從7個基本動作中隨機選擇一個動作, 否則, 選

        擇動作at=argmaxaQ(st, a, θ)。

        12: 執(zhí)行動作at, 得到獎勵rt, 進入下一狀態(tài)st+1。

        13: 將[st, at, rt, st+1]存儲到D中; 判斷該空戰(zhàn)回合是否結(jié)

        束。

        14: end for

        15: 從D中隨機抽取一批樣本[sj, aj, ?rj,? sj+1]。

        16: 定義amax=argmaxa′Q(sj+1, a′, θ)。

        17: 令yj=rj, 達(dá)到目標(biāo)狀態(tài)rj+γQ(sj+1, aj, θ-), 未達(dá)目標(biāo)狀態(tài)

        18: 根據(jù)目標(biāo)函數(shù)(yj-Q(sj, aj, θ-))2, 使用梯度下降法更新

        權(quán)重θ。

        19: 每隔C輪, 更新目標(biāo)Q網(wǎng)絡(luò), θ-←θ。

        20: 逐步減小ε的值, 直至εmin。

        21: end for

        3仿真與分析

        3.1強化學(xué)習(xí)超參數(shù)探究

        在目標(biāo)飛行器進行勻速直線運動且雙方初始相向飛行的場景下, 探究強化學(xué)習(xí)超參數(shù)對機動決策的影響。

        3.1.1學(xué)習(xí)率

        學(xué)習(xí)率決定目標(biāo)函數(shù)能否收斂以及何時收斂。 本文在網(wǎng)絡(luò)結(jié)構(gòu)不變且三個隱藏層均為64個節(jié)點的情況下, 探究學(xué)習(xí)率對機動決策系統(tǒng)的影響。 由于計算機性能限制, 訓(xùn)練耗費時間較長, 僅選擇三組對照, 所設(shè)置的三個實驗組的學(xué)習(xí)率分別是0.01、 0.001以及0.000 1。

        各學(xué)習(xí)率學(xué)習(xí)曲線如圖7所示, 橫坐標(biāo)為訓(xùn)練次數(shù), 縱坐標(biāo)為用30回合計算平均值進行平滑后的累計獎勵值。 結(jié)果表明, 學(xué)習(xí)曲線整體均呈上升趨勢, 學(xué)習(xí)率影響收斂速度。 當(dāng)α=0.01時, 在訓(xùn)練次數(shù)大于700次后獎勵值下降成為負(fù)值; 當(dāng)α=0.000 1時, 未出現(xiàn)收斂趨勢, 且獎

        勵值為負(fù)值, 說明智能體尚未探索出較好的機動策略; 當(dāng)α=0.001時, 獎勵值隨訓(xùn)練次數(shù)增加逐步提高, 且有收斂趨勢。 可見, 學(xué)習(xí)率過低會延長訓(xùn)練時間, 學(xué)習(xí)率過高可能會達(dá)到局部最優(yōu)結(jié)果或發(fā)散。 因此, 針對飛行器機動決策問題, 學(xué)習(xí)率設(shè)置為0.001較為合理。

        3.1.2神經(jīng)網(wǎng)絡(luò)節(jié)點

        在深度神經(jīng)網(wǎng)絡(luò)輸入層及輸出層結(jié)構(gòu)不變且均為3個隱藏層的情況下, 探究節(jié)點數(shù)對決策系統(tǒng)性能的影響。

        一般情況, 神經(jīng)網(wǎng)絡(luò)節(jié)點數(shù)設(shè)置為2的N次方, 另外在深度學(xué)習(xí)中, 設(shè)置倍數(shù)關(guān)系的節(jié)點數(shù)才會有區(qū)別。 因此, 三個實驗組的隱藏層節(jié)點數(shù)分別是[32, 64, 32]、 [64, 128, 64]和[128, 256, 128]。

        三個實驗組的學(xué)習(xí)曲線如圖8所示。 實驗結(jié)果表明, 節(jié)點數(shù)將會影響收斂速度或者是否收斂, 同時神經(jīng)網(wǎng)絡(luò)寬度越大也會耗費更長的訓(xùn)練時間。 學(xué)習(xí)曲線均有收斂趨勢, 第二組收斂速度更快。 強化學(xué)習(xí)的訓(xùn)練數(shù)據(jù)比監(jiān)督學(xué)習(xí)穩(wěn)定性低, 無法劃分出訓(xùn)練集與測試集來避免過擬合, 因此深度強化學(xué)習(xí)無需用過寬的網(wǎng)絡(luò), 避免參數(shù)過度冗余導(dǎo)致過擬合。 用深度強化學(xué)習(xí)解決空戰(zhàn)中飛行器的機動決策問題時, 節(jié)點數(shù)可選擇64或128。

        3.1.3神經(jīng)網(wǎng)絡(luò)層數(shù)

        在深度神經(jīng)網(wǎng)絡(luò)的輸入層及輸出層結(jié)構(gòu)不變且每個隱藏層均為64個節(jié)點的情況下, 探究神經(jīng)網(wǎng)絡(luò)層數(shù)對機動決策系統(tǒng)的影響。 設(shè)計三個實驗組的隱藏層數(shù)分別是3層、 4層和5層。 三個實驗組的學(xué)習(xí)曲線如圖9所示。

        由圖9可知, 3層隱藏層的神經(jīng)網(wǎng)絡(luò)有收斂趨勢,? 4層和5層的神經(jīng)網(wǎng)絡(luò)則沒有明顯的收斂趨勢, 可能出現(xiàn)過擬合情況。 由仿真可知, 隱藏層數(shù)對決策系統(tǒng)收斂性影響較大。 因此, 解決空戰(zhàn)機動決策問題時, 可使用有3層隱藏層的深度神經(jīng)網(wǎng)絡(luò)。

        3.2仿真結(jié)果與討論

        目標(biāo)機進行勻速直線運動的場景下, 設(shè)置目標(biāo)飛行器一直采取定常飛行的機動動作, 對我方無人機進行強化學(xué)習(xí)訓(xùn)練。 我機分別以均勢和劣勢的初始狀態(tài)進行機動。 均勢初始狀態(tài)指雙方相互朝向?qū)Ψ剑?劣勢初始狀態(tài)指目標(biāo)機從后方追趕我機。 初始狀態(tài)設(shè)置如表2所示。

        首先設(shè)置雙方相對飛行, 初始態(tài)勢為均勢。 記錄每個回合對戰(zhàn)訓(xùn)練的飛行數(shù)據(jù), 通過Matlab繪圖可視化交戰(zhàn)雙方的飛行軌跡, 可更加直觀地展示機動決策結(jié)果。

        經(jīng)過訓(xùn)練, 智能體能夠探索出針對當(dāng)前初始態(tài)勢較好的機動策略, 軌跡如圖10所示。 初始時雙方為相向飛行, 我方飛行器在目標(biāo)向我方靠近時采取拉升高度的機動動作, 主動脫離目標(biāo)機的武器攻擊區(qū)域; 而后通過筋斗動作調(diào)轉(zhuǎn)方向, 朝向目標(biāo)機飛行; 降低高度接近目標(biāo)機, 調(diào)整機頭方向, 進入優(yōu)勢攻擊位置。

        在初始態(tài)勢為劣勢的情況下, 智能體經(jīng)過訓(xùn)練后選擇的飛行策略如圖11所示。 初始時, 目標(biāo)機位于我機后方, 我方無人機初始處于劣勢, 且飛行高度低于目標(biāo)機, 我方通過機動決策首先拉升高度以脫離目標(biāo)機武器攻擊范圍的同時, 獲得重力勢能優(yōu)勢; 而后進行“筋斗”翻轉(zhuǎn)繞至目標(biāo)后方, 從而轉(zhuǎn)變了空戰(zhàn)態(tài)勢, 使我機處于優(yōu)勢攻擊角度; 再降低高度接近目標(biāo), 使得目標(biāo)機進入我方的武器攻擊范圍, 成功鎖定目標(biāo)機, 該機動決策符合空戰(zhàn)中真實的無人機格斗戰(zhàn)略。

        在目標(biāo)機進行盤旋機動的場景下, 設(shè)置目標(biāo)機始終采取向右水平盤旋機動動作, 雙方的初始狀態(tài)與直線飛行均勢初始場景的設(shè)置相同。

        圖12展示了部分回合的雙方飛行軌跡。 在訓(xùn)練前期, 智能體處于隨機探索階段, 可能會飛出限定高度或者失速等, 環(huán)境會給予較大的懲罰, 通過與環(huán)境的不斷交互, 智能體能夠逐漸探索出獲得獎勵值較高的決策策略。 圖12(a)中智能體一直采取定常飛行的策略, 獲得累計回報較低, 在后續(xù)訓(xùn)練中智能體嘗試抬升高度并調(diào)轉(zhuǎn)機頭方向等動作, 如圖12(b)~(d)所示, 有逐步向目標(biāo)方向飛行的趨勢, 能夠探索出較為合理的飛行策略, 但效果尚不理想。

        以上3個情景的仿真表明: 無人機的動作選擇策略在經(jīng)訓(xùn)練后能夠依據(jù)態(tài)勢輸出較為合理的連續(xù)動作控制量, 對不同的情景及初始態(tài)勢決策效果有所不同, 但均具有適應(yīng)性, 具備一定空戰(zhàn)能力。 由表1和仿真結(jié)果可知, 采用確定的控制指令對飛行器進行訓(xùn)練能保證基本任務(wù)完成, 而難以在復(fù)雜場景中取得明顯優(yōu)勢。 為提升復(fù)雜飛行場景下該算法的優(yōu)越性, 后續(xù)將考慮采用連續(xù)動作空間, 豐富機動動作的控制指令。

        同時, 通過采取同一實驗場景的超參數(shù)取值, 對不同場景進行測試, 由圖10~12可以看出, 該超參數(shù)取值的訓(xùn)練結(jié)果在目標(biāo)機勻速直線飛行的場景中更具飛行優(yōu)勢。 結(jié)果表明, 強化學(xué)習(xí)超參數(shù)選擇較為合理且具有一定的適應(yīng)能力, 能適用于多種飛行場景, 一定程度上能夠解決超參數(shù)整定繁冗問題。 此外, 超參數(shù)對不同場景的適應(yīng)能力問題, 仍值得進一步探索。

        4結(jié)論

        本文針對三維空間中的一對一空戰(zhàn)機動決策問題進行了研究, 將機動決策問題建模為連續(xù)狀態(tài)空間以及離散動作空間的強化學(xué)習(xí)問題, 設(shè)計獎勵函數(shù)并提出了基于深度Q網(wǎng)絡(luò)的機動決策方法。 仿真結(jié)果表明, 該方法能夠在簡單場景下探索出較合理的機動策略, 但對學(xué)習(xí)率等強化學(xué)習(xí)超參數(shù)較敏感。

        未來工作及改進方向有: (1)構(gòu)建目標(biāo)機的機動決策系統(tǒng), 使其也具備自主決策能力, 更加符合真實空戰(zhàn)場景; (2)機動決策系統(tǒng)的動作空間可采用更加符合真實飛行員操縱動作的連續(xù)動作空間。

        參考文獻:

        [1] 姜進晶, 汪民樂, 姜斌. 無人機作戰(zhàn)運用研究[J]. 飛航導(dǎo)彈, 2019(1): 41-44.

        Jiang Jinjing, Wang Minle, Jiang Bin. Research on UAV Combat Application [J]. Aerodynamic Missile Journal, 2019(1): 41-44.(in Chinese)

        [2] 范晉祥, 陳晶華. 未來空戰(zhàn)新概念及其實現(xiàn)挑戰(zhàn)[J]. 航空兵器, 2020, 27(2): 15-24.

        Fan Jinxiang, Chen Jinghua. New Concepts of Future Air Warfare and the Challenges for Its Realization[J]. Aero Weaponry, 2020, 27(2): 15-24.(in Chinese)

        [3] 鮮勇, 李揚. 人工智能技術(shù)對未來空戰(zhàn)武器的變革與展望[J]. 航空兵器, 2019, 26(5): 26-31.

        Xian Yong, Li Yang. Revolution and Prospect of Artificial Intelligence Technology for Air Combat Weapons in the Future[J]. Aero Weaponry, 2019, 26(5): 26-31.(in Chinese)

        [4] 孫智孝, 楊晟琦, 樸海音, 等. 未來智能空戰(zhàn)發(fā)展綜述[J]. 航空學(xué)報, 2021, 42(8): 525799.

        Sun Zhixiao, Yang Shengqi, Piao Haiyin, et al. A Survey of Air Combat Artificial Intelligence[J]. Acta Aeronautica et Astronautica Sinica, 2021, 42(8): 525799.(in Chinese)

        [5] Goldsmith T E, Schvaneveldt R W. Representing and Training Expertise in Air Combat Maneuvering[R]. Las Cruces: New Mexico State University, 1987:1-55.

        [6] Burgin G H, Sidor L B. Rule-Based Air Combat Simulation[R]. Washington D C: NASA, 1988.

        [7] Othling W L. Application of Differential Game Theory to Pursuit-Evasion Problems of Two Aircraft: DS/MC/67-1[R]. Ohio: Air Force Institute, 1970.

        [8] Miles S, Williamson-Noble D. Toward a Differential Game Solution to a Practical Two Aircraft Pursuit-Evasion Problem in Three-Dimensional Space: GA/MC/71-5[R]. Ohio: Air Force Institute, 1970.

        [9] Austin F, Carbone G, Falco M, et al. Game Theory for Automated Maneuvering during Air-to-Air Combat[J]. Journal of Guidance, Control, and Dynamics, 1990, 13(6): 1143-1149.

        [10] 鄧可, 彭宣淇, 周德云. 基于矩陣對策與遺傳算法的無人機空戰(zhàn)決策[J]. 火力與指揮控制, 2019, 44(12): 61-66.

        Deng Ke, Peng Xuanqi, Zhou Deyun. Study on Air Combat Decision Method of UAV Based on Matrix Game and Genetic Algorithm[J]. Fire Control & Command Control, 2019, 44(12): 61-66.(in Chinese)

        [11] Kaneshige J, Krishnakumar K. Artificial Immune System Approach for Air Combat Maneuvering[C]∥ Intelligent Computing: Theory and Applications V, 2007, 6560: 68-79.

        [12] McGrew J S, How J P, Williams B, et al. Air-Combat Strategy Using Approximate Dynamic Programming[J]. Journal of Gui ̄dance, Control, and Dynamics, 2010, 33(5): 1641-1654.

        [13] 丁林靜, 楊啟明. 基于強化學(xué)習(xí)的無人機空戰(zhàn)機動決策[J]. 航空電子技術(shù), 2018, 49(2): 29-35.

        Ding Linjing, Yang Qiming. Research on Air Combat Maneuver Decision of UAVs Based on Reinforcement Learning[J]. Avionics Technology, 2018, 49(2): 29-35.(in Chinese)

        [14] 張強, 楊任農(nóng), 俞利新, 等. 基于Q-Network強化學(xué)習(xí)的超視距空戰(zhàn)機動決策[J]. 空軍工程大學(xué)學(xué)報: 自然科學(xué)版, 2018, 19(6): 8-14.

        Zhang Qiang, Yang Rennong, Yu Lixin, et al. BVR Air Combat Maneuvering Decision by Using Q-Network Reinforcement Learning[J]. Journal of Air Force Engineering University: Natural Science Edition, 2018, 19(6): 8-14.(in Chinese)

        [15] Zhang X B, Liu G Q, Yang C J, et al. Research on Air Combat Maneuver Decision-Making Method Based on Reinforcement Learning[J]. Electronics, 2018, 7(11): 279.

        [16] Yang Q M, Zhu Y, Zhang J D, et al. UAV Air Combat Autonomous Maneuver Decision Based on DDPG Algorithm[C]∥ IEEE 15th International Conference on Control and Automation, 2019: 37-42.

        [17] 吳宜珈, 賴俊, 陳希亮, 等. 強化學(xué)習(xí)算法在超視距空戰(zhàn)輔助決策上的應(yīng)用研究[J]. 航空兵器, 2021, 28(2): 55-61.

        Wu Yijia, Lai Jun, Chen Xiliang, et al. Research on the Application of Reinforcement Learning Algorithm in Decision Support of Beyond-Visual-Range Air Combat[J]. Aero Weaponry, 2021, 28(2): 55-61.(in Chinese)

        [18] 吳昭欣. 基于深度強化學(xué)習(xí)的飛行器自主機動決策方法研究[D]. 成都: 四川大學(xué), 2021.

        Wu Zhaoxin. Research on Autonomous Maneuvering Decision Method for Aircraft Based on Deep Reinforcement Learning[D]. Chengdu: Sichuan University, 2021. (in Chinese)

        [19] Yang Q M, Zhang J D, Shi G Q, et al. Maneuver Decision of UAV in Short-Range Air Combat Based on Deep Reinforcement Learning[J]. IEEE Access, 2019,8: 363-378.

        [20] Austin F, Carbone G, Falco M, et al. Automated Maneuvering Decisions for Air-to-Air Combat[C]∥ Guidance, Navigation and Control Conference, AIAA, 1987: 2393.

        [21] 董肖杰, 余敏建, 宋帥. 空戰(zhàn)機動動作庫及控制算法設(shè)計研究[C]∥第五屆中國指揮控制大會論文集, 2017: 188-193.

        Dong Xiaojie, Yu Minjian, Song Shuai. Research on the Design of Air Combat Maneuver Library and Control Arithmetic of Movements[C]∥ Proceedings of the 5th China Command and Control Conference, 2017: 188-193.(in Chinese)

        [22] 李永豐, 史靜平, 章衛(wèi)國, 等. 深度強化學(xué)習(xí)的無人作戰(zhàn)飛機空戰(zhàn)機動決策[J]. 哈爾濱工業(yè)大學(xué)學(xué)報, 2021, 53(12): 33-41.

        Li Yongfeng, Shi Jingping, Zhang Weiguo, et al. Maneuver Decision of UCAV in Air Combat Based on Deep Reinforcement Learning[J]. Journal of Harbin Institute of Technology, 2021, 53(12): 33-41.(in Chinese)

        Research on Intelligent Maneuvering Decision-Making in Close Air Combat Based on Deep Q Network

        Zhang Tingyu1,? Sun Mingwei2, Wang Yongshuai1, Chen Zengqiang1

        (1. College of Artificial Intelligence, Nankai University, Tianjin 300350, China; 2. Key Laboratory of Intelligent Robotics of Tianjin, Tianjin 300350, China)

        Abstract: Aiming at the problem of UCAV maneuvering decision-making in close air combat, the design of reinforcement learning reward function and the selection of hyper-parameters are studied based on the framework of deep Q network algorithm. For the sparse reward problem in reinforcement learning, an auxiliary reward function that considers angle, range, altitude and speed factors is used to describe the air combat mission accurately and guide the learning direction of the agent correctly. Meanwhile, aiming at the problem of applying reinforcement learning hyper-parameter selection, the influence of learning rate, the number of network nodes and network layers on the decision-making system is explored, and a good range of parameter selection is given, which provides a reference for the following research on parameter selection. The simulation results show that the trained agent can learn the optimal maneuver strategy in different air combat situations, but it is sensitive to reinforcement learning hyper-parameters.

        Key words: ?air combat; autonomous maneuvering decision-making; deep reinforcement learning; DQN; reward function; intelligent maneuver; parameter selection

        收稿日期: 2022-11-22

        基金項目: 國家自然科學(xué)基金項目(62073177; 61973175)

        作者簡介: 張婷玉(2000-), 女, 河北衡水人, 碩士研究生。

        *通信作者: 孫明瑋(1972-), 男, 北京人, 教授。

        猜你喜歡
        深度強化學(xué)習(xí)空戰(zhàn)
        最強空戰(zhàn)王
        基于策略梯度算法的工作量證明中挖礦困境研究
        基于深度強化學(xué)習(xí)的圖像修復(fù)算法設(shè)計
        關(guān)于人工智能阿法元綜述
        商情(2019年14期)2019-06-15 10:20:13
        深度強化學(xué)習(xí)研究進展
        關(guān)于人工智能阿法元綜述
        西部論叢(2019年9期)2019-03-20 05:18:04
        基于深度強化學(xué)習(xí)的陸軍分隊?wèi)?zhàn)術(shù)決策問題研究
        空戰(zhàn)之城
        “85:0”的敘以空戰(zhàn)
        回眸不列顛空戰(zhàn)
        国产精品三级在线观看| 精品亚洲麻豆1区2区3区| 亚洲精品tv久久久久久久久久| 亚洲一区av无码少妇电影| 国产精品久久婷婷婷婷| 白白色日韩免费在线观看| 豆国产96在线 | 亚洲| 麻豆亚洲av永久无码精品久久| 精品18在线观看免费视频| 久久精品亚洲成在人线av| 尹人香蕉久久99天天拍| 国产午夜精品一区二区三区软件 | 人妻体内射精一区二区三区| 老师翘臀高潮流白浆| 久99久精品视频免费观看v| 亚洲国产综合一区二区| 久久99精品久久久久久清纯| 成人激情五月天| 全部免费国产潢色一级| av天堂中文亚洲官网| 亚洲熟妇无码av在线播放| 久久99精品久久久久久hb无码| 国产女人体一区二区三区| 亚洲av激情一区二区| а天堂中文最新一区二区三区| 99re在线视频播放| 又爽又猛又大又湿的视频| 老熟女的中文字幕欲望| 9lporm自拍视频区| 久久亚洲av成人无码软件| 日韩精品久久午夜夜伦鲁鲁 | 久久不见久久见免费影院www| 亚洲AV成人无码久久精品在| 人妻少妇被猛烈进入中文| 国产av国片精品有毛| 老熟女多次高潮露脸视频| 日本精品国产1区2区3区| 激情亚洲一区国产精品| 国产精品久久久久久久久免费 | 亚洲依依成人亚洲社区| 国产成人AⅤ|