亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        智能空戰(zhàn)深度強(qiáng)化決策方法現(xiàn)狀與展望

        2024-08-22 00:00:00張燁涂遠(yuǎn)剛張良崔顥王靖宇
        航空兵器 2024年3期
        關(guān)鍵詞:深度學(xué)習(xí)人工智能

        摘" 要:""""" 本文聚焦于現(xiàn)代智能空戰(zhàn)決策技術(shù)的發(fā)展需求, 分析了智能空戰(zhàn)場景的要素與特點(diǎn), 介紹了現(xiàn)有智能空戰(zhàn)決策理論的研究現(xiàn)狀, 包括基于博弈理論的決策方法、" 先驗(yàn)數(shù)據(jù)驅(qū)動的決策方法、" 基于自主學(xué)習(xí)的決策方法, 著重梳理了基于價值和基于策略的深度強(qiáng)化學(xué)習(xí)智能決策方法。" 最后, 面向未來智能空戰(zhàn)面臨的各種挑戰(zhàn)以及傳統(tǒng)深度強(qiáng)化學(xué)習(xí)的局限性, 展望了深度強(qiáng)化學(xué)習(xí)技術(shù)在空戰(zhàn)領(lǐng)域的發(fā)展方向:"" 面向集群作戰(zhàn)的多體智能決策技術(shù)、" 面向廣域時空的高效智能決策技術(shù)、" 面向復(fù)雜場景的泛化智能決策技術(shù)。

        關(guān)鍵詞:"""" 空戰(zhàn)決策; 人工智能; 強(qiáng)化學(xué)習(xí); 智能博弈;" 集群作戰(zhàn);"" 深度學(xué)習(xí)

        中圖分類號:"""""" TJ760

        文獻(xiàn)標(biāo)識碼:""" A

        文章編號:" """1673-5048(2024)03-0021-11

        DOI: 10.12132/ISSN.1673-5048.2023.0083

        引用格式: 張燁, 涂遠(yuǎn)剛, 張良, 等 . 智能空戰(zhàn)深度強(qiáng)化決策方法現(xiàn)狀與展望[ J]. 航空兵器, 2024, 31( 3): 21-31.

        Zhang Ye, Tu Yuangang, Zhang Liang, et al. Status and Prospect on Deep Reinforcement Learning Decision-Making Methods for Intelligent Air Combat[ J]. Aero Weaponry, 2024, 31( 3): 21-31.( in Chinese)

        0" 引" 言

        隨著現(xiàn)代空戰(zhàn)逐漸向強(qiáng)對抗、 高動態(tài)、 強(qiáng)不確定性等復(fù)雜戰(zhàn)場環(huán)境轉(zhuǎn)變, 由人工智能理論賦能的智能空戰(zhàn)決策技術(shù)成為各國軍事應(yīng)用智能化的研究重點(diǎn)。 自20世紀(jì)60年代以來, 智能空戰(zhàn)決策技術(shù)隨著戰(zhàn)場環(huán)境和作戰(zhàn)形態(tài)的演進(jìn)經(jīng)歷了若干階段[1]。 早期的空戰(zhàn)形態(tài)以有人機(jī)對抗為主, 智能決策系統(tǒng)依據(jù)專家知識生成機(jī)動規(guī)則, 為飛行員提供輔助決策或?qū)褂?xùn)練。 受限于人類固有戰(zhàn)術(shù)認(rèn)知, 此階段的決策算法智能化程度不高。 隨著高性能無人裝備的出現(xiàn), 基于智能算法的機(jī)動策略演進(jìn)技術(shù)使得無人系統(tǒng)在空戰(zhàn)場景中能夠補(bǔ)償有人機(jī)在反應(yīng)速度和毀傷成本上的劣勢, 逐漸發(fā)展為具有獨(dú)立作戰(zhàn)能力的智能平臺[2]。 近年來, 隨著有人/無人協(xié)同及分布式無人集群等新型作戰(zhàn)架構(gòu)的出現(xiàn), 智能空戰(zhàn)決策技術(shù)正在向具有自主學(xué)習(xí)能力的智能決策理論發(fā)展, 逐步由人類經(jīng)驗(yàn)主導(dǎo)過渡到以無人化自主決策為特征的新模式[3- 4]。 其中, 基于深度強(qiáng)化學(xué)習(xí)的智能決策算法通過智能體與環(huán)境或?qū)κ值膶剐圆┺模?學(xué)習(xí)并生成最優(yōu)策略, 實(shí)現(xiàn)累計(jì)回報最大化。 與傳統(tǒng)決策方法不同的是, 深度強(qiáng)化學(xué)習(xí)算法不受限于已有的專家經(jīng)驗(yàn), 能夠通過探索和學(xué)習(xí)實(shí)現(xiàn)對更加復(fù)雜空間的適應(yīng)性和魯棒性, 在能力涌現(xiàn)、 自演進(jìn)、 自學(xué)習(xí)等方面具有優(yōu)勢[5]。

        然而, 現(xiàn)有深度強(qiáng)化學(xué)習(xí)方法在智能空戰(zhàn)領(lǐng)域的應(yīng)用研究仍處于初級階段, 還存在若干難題和挑戰(zhàn)。 例如, 雖然赫倫(Heron)公司憑借深度強(qiáng)化學(xué)習(xí)技術(shù)在“阿爾法狗斗”競賽項(xiàng)目中擊敗人類飛行員, 但其對創(chuàng)造性的戰(zhàn)術(shù)和策略仍缺乏深刻理解[1]。 其次, 戰(zhàn)場態(tài)勢復(fù)雜多變, 導(dǎo)致決策過程面臨高維狀態(tài)-動作空間和稀疏獎勵問題, 學(xué)習(xí)效率和收斂平穩(wěn)性難以提高。 此外, 深度強(qiáng)化學(xué)習(xí)算法在可解釋性、 安全性和泛化性等方面的缺陷, 限制了其在實(shí)戰(zhàn)裝備上的實(shí)際應(yīng)用。 面對上述問題, 如何對現(xiàn)有深度強(qiáng)化學(xué)習(xí)方法進(jìn)行適應(yīng)性改進(jìn), 解決復(fù)雜戰(zhàn)場環(huán)境下的自主決策問題, 進(jìn)而提出支撐指揮與控制智能化的共性技術(shù), 具有重要的理論意義和軍事應(yīng)用價值。

        1" 智能空戰(zhàn)決策技術(shù)

        1.1" 智能空戰(zhàn)決策技術(shù)要素與特點(diǎn)

        智能空戰(zhàn)決策技術(shù)研究包含三個要素:" 作戰(zhàn)平臺、 組織架構(gòu)和決策理論, 如圖1所示。

        智能化作戰(zhàn)平臺依托智能感知與決策技術(shù)實(shí)現(xiàn)復(fù)雜場景下的偵察和打擊任務(wù)。 作為現(xiàn)代空戰(zhàn)的主要打擊手段, 以美國AIM-120、 法國 MICA-EM以及俄羅斯P-77為代表的第四代雷達(dá)型空空導(dǎo)彈采用復(fù)合制導(dǎo)體制,

        收稿日期: 2023-05-10

        基金項(xiàng)目: 國家自然科學(xué)基金青年項(xiàng)目(52202502); 中央高校基本科研業(yè)務(wù)費(fèi)(D5000210857)

        *作者簡介:"" 張燁(1990-), 女, 陜西西安人, 副教授。

        具有多目標(biāo)攻擊與發(fā)射后不管的能力, 并采用了先進(jìn)的抗干擾技術(shù)。 在無人機(jī)自主作戰(zhàn)系統(tǒng)中, 基于人工智能的“Alpha”AI系統(tǒng)具有一定的代表性。 該系統(tǒng)通過使用基于語言的控制方法與“遺傳模糊樹”技術(shù), 解決了計(jì)算成本和性能之間的沖突, 能夠真正實(shí)現(xiàn)低成本計(jì)算下的高效性能[6]。

        智能戰(zhàn)場的組織架構(gòu)是實(shí)現(xiàn)智能決策算法的關(guān)鍵, 主要包含有人/無人機(jī)協(xié)同以及分布式無人集群兩種形式。 有人/無人機(jī)協(xié)同作戰(zhàn)以有人平臺作為作戰(zhàn)時的總指揮, 通過數(shù)據(jù)通信指揮無人機(jī);" 無人機(jī)平臺執(zhí)行有人作戰(zhàn)平臺發(fā)出的指令, 完成目標(biāo)識別、 攻擊、 規(guī)避和評估等任務(wù), 再將識別與評估結(jié)果上傳至有人作戰(zhàn)平臺, 通過收集到的戰(zhàn)場信息對無人機(jī)進(jìn)行宏觀調(diào)控。 該技術(shù)利用了機(jī)器智能與人類智能的互補(bǔ)關(guān)系, 既能避免飛行員處于危險環(huán)境中, 又能保證作戰(zhàn)指令是受到人類嚴(yán)格把控的。 2019年3月, 美國空軍研究實(shí)驗(yàn)室(Air Force Research Laboratory, AFRL)發(fā)布了“空中博格”(Skyborg)項(xiàng)目, 該項(xiàng)目旨在開發(fā)一種基于人工智能技術(shù)的無人機(jī)系統(tǒng), 采用模塊化和開放式框架, 以此實(shí)現(xiàn)即使面對不同的復(fù)雜任務(wù)也能夠快速適應(yīng)[7]。

        分布式集群是智能空戰(zhàn)中的另一重要架構(gòu), 其以面向任務(wù)的組織架構(gòu)設(shè)計(jì), 采用分布式協(xié)同和智能決策方法實(shí)施全方位攻擊。 匈牙利羅德大學(xué)的TamásVic-sek團(tuán)隊(duì)利用群體智能行為機(jī)制, 實(shí)現(xiàn)了10架四旋翼無人機(jī)的自主集群飛行試驗(yàn)[8]。 美國國防部高級研究項(xiàng)目局(Defense Advanced Research Projects Agency, DARPA)采用群體智能理論構(gòu)建了面向?qū)ο蟮臒o人機(jī)集群的蜂群戰(zhàn)術(shù), 實(shí)現(xiàn)了進(jìn)攻性蜂群使能戰(zhàn)術(shù)項(xiàng)目[9]。

        智能空戰(zhàn)決策方法是連接作戰(zhàn)平臺和組織架構(gòu)的理論基礎(chǔ)。 目前用于解決智能空戰(zhàn)決策問題的方法大致可以分為三類:" 基于博弈理論的決策方法、 先驗(yàn)數(shù)據(jù)驅(qū)動的決策方法以及基于自主學(xué)習(xí)的決策方法, 如圖2所示。 這些方法是實(shí)現(xiàn)智能空戰(zhàn)決策的核心關(guān)鍵技術(shù)。 1.2" 智能空戰(zhàn)決策技術(shù)

        1.2.1" 基于博弈理論的決策方法

        在軍事上, 尤其是在空戰(zhàn)領(lǐng)域運(yùn)用博弈理論早已成為國內(nèi)外研究的熱點(diǎn)。 基于博弈理論的空戰(zhàn)問題主要有微分博弈和矩陣博弈。 微分博弈是一種動態(tài)博弈策略, 適用于追、 逃、 防御等問題。 矩陣博弈則是通過建立基本機(jī)動動作庫作為備選動作, 再以空戰(zhàn)中的角度、 高度和速度等參數(shù)作為評價函數(shù), 以此建立博弈矩陣。

        (1) 微分博弈

        微分博弈的求解一直是空戰(zhàn)決策研究的重點(diǎn)和難點(diǎn), 通常情況下只能通過梯度下降等方法得到數(shù)值解。 文獻(xiàn)[10]擴(kuò)展了經(jīng)典的微分博弈論, 設(shè)計(jì)了鞍點(diǎn)策略, 采用了具有代表性的性能度量, 得到了伴隨博弈的值函數(shù), 為使用微分博弈理論形式化地分析N個追擊者和M個逃避者的復(fù)雜高維沖突提供了基礎(chǔ)。 文獻(xiàn)[11]利用最優(yōu)控制和微分博弈理論, 推導(dǎo)了任意階線性導(dǎo)彈和目標(biāo)動力學(xué)的制導(dǎo)律, 并得到了基于理想導(dǎo)彈模型及具有恒定軸向加速度的目標(biāo)動力學(xué)的解析解。 目前來看, 基于微分博弈的空戰(zhàn)決策方法存在如下缺點(diǎn):" 基于微分博弈的空戰(zhàn)決策模型要經(jīng)過大量簡化才能計(jì)算, 因此該方法難以應(yīng)用于實(shí)際場景中;" 微分博弈的求解復(fù)雜性高、 耗費(fèi)時間長, 與空戰(zhàn)本身具有的特點(diǎn)相矛盾。

        (2) 矩陣博弈

        矩陣博弈具有方法靈活、 計(jì)算速度快、 計(jì)算量小等優(yōu)點(diǎn)。 文獻(xiàn)[12]根據(jù)角度威脅和距離威脅計(jì)算出空戰(zhàn)態(tài)勢評估函數(shù), 構(gòu)建博弈矩陣。 利用博弈混合策略設(shè)計(jì)了待優(yōu)化的目標(biāo)函數(shù), 并通過基于遷移學(xué)習(xí)的鴿子啟發(fā)式優(yōu)化(Transfer Learning Pigeon-Inspired Optimization, TLPIO)得到最優(yōu)混合策略。 同時, 所提出的TLPIO并沒有隨機(jī)初始化種群, 而是采用基于Kullback-Leibler (KL)散度的遷移學(xué)習(xí)方法初始化種群, 提高了優(yōu)化算法的搜索精度。 文獻(xiàn)[13]針對多無人機(jī)威脅排序時難以獲得完全信息的問題, 利用博弈模型獲得不確定參數(shù), 再將已建立好的模糊收益的零和博弈轉(zhuǎn)化為具有清晰收益的矩陣博弈來解決上述問題。 然而, 基于矩陣博弈的空戰(zhàn)決策方法還存在著不足之處:" 決策時往往只顧及短期收益, 沒有考慮長期收益;" 矩陣博弈比較保守, 該決策方法只能保證我方收益不低于某個值, 難以獲得最優(yōu)的收益。

        1.2.2" 先驗(yàn)數(shù)據(jù)驅(qū)動的決策方法

        基于先驗(yàn)數(shù)據(jù)的智能空戰(zhàn)決策方法主要分為兩類方法:" 基于專家系統(tǒng)和基于深度學(xué)習(xí)的決策方法。 基于專家系統(tǒng)的決策方法是利用人類專家的知識和經(jīng)驗(yàn)組成一個知識庫, 再將其放入計(jì)算機(jī)中, 根據(jù)當(dāng)前空戰(zhàn)態(tài)勢選擇相對應(yīng)的決策。 基于深度學(xué)習(xí)的決策方法則是讓具有空戰(zhàn)經(jīng)驗(yàn)的飛行員在模擬機(jī)中對空戰(zhàn)進(jìn)行決策, 從而獲得大量的訓(xùn)練樣本, 然后利用深度神經(jīng)網(wǎng)絡(luò)強(qiáng)大的擬合與計(jì)算能力, 得出當(dāng)前空戰(zhàn)態(tài)勢與在該態(tài)勢下執(zhí)行的決策動作之間的關(guān)系。

        (1) 專家系統(tǒng)

        傳統(tǒng)專家系統(tǒng)基于當(dāng)前空戰(zhàn)態(tài)勢, 用類似于IF-ELSE-THEN的邏輯規(guī)則產(chǎn)生基本的控制律。 具有代表性的是美軍自適應(yīng)機(jī)動邏輯(Adaptive Maneuver Logic, AML)系統(tǒng)[14], NASA考慮到空戰(zhàn)決策的高實(shí)時性、 隨機(jī)性等特點(diǎn), 認(rèn)為經(jīng)驗(yàn)豐富的人類飛行員能夠較好地應(yīng)對空戰(zhàn)場景, 故借助專家系統(tǒng)使無人機(jī)能夠擁有自主決策的能力。 其缺點(diǎn)也較為明顯:" 規(guī)則庫的建立復(fù)雜;" 策略簡單且固定;" 對于不同的機(jī)型適配性很差。

        文獻(xiàn)[15]開發(fā)了一種嵌入式專家系統(tǒng), 匯聚了大量專家提供的空戰(zhàn)專業(yè)知識, 再利用快速原型法促進(jìn)知識的獲取。 考慮到空戰(zhàn)場景的復(fù)雜多變性, 專家系統(tǒng)難以利用不確定因素完成任務(wù), 針對上述問題, 文獻(xiàn)[16]利用模糊貝葉斯網(wǎng)絡(luò)(Fuzzy Bayesian Network, FBN)處理不確定因素, 構(gòu)建了一個基于專家系統(tǒng)和FBN的混合戰(zhàn)術(shù)決策系統(tǒng)。 仿真結(jié)果顯示該系統(tǒng)能夠提高實(shí)時性, 同時能夠處理環(huán)境中的不確定因素。 文獻(xiàn)[17]針對作戰(zhàn)環(huán)境復(fù)雜、 對專家知識的過度依賴以及學(xué)習(xí)效率低等問題, 利用動態(tài)質(zhì)量重放(Dynamic Quality Replay, DQR)技術(shù), 有效引導(dǎo)智能體從歷史數(shù)據(jù)中學(xué)習(xí)戰(zhàn)術(shù)策略。 目前基于專家系統(tǒng)決策方法的研究已經(jīng)較為成熟, 與其他方法的結(jié)合也能彌補(bǔ)該方法的部分缺點(diǎn), 但依舊存在著不足之處:" 將人類專家的知識和經(jīng)驗(yàn)轉(zhuǎn)化為知識庫的過程本身就很復(fù)雜, 且不夠全面;" 專家系統(tǒng)的學(xué)習(xí)能力差, 難以對新的知識進(jìn)行學(xué)習(xí)。

        (2) 深度學(xué)習(xí)

        神經(jīng)網(wǎng)絡(luò)作為深度學(xué)習(xí)中最為成熟與重要的算法之一, 是對人腦神經(jīng)元的一種模擬與抽象, 在學(xué)習(xí)以及構(gòu)建極其復(fù)雜模型方面尤其突出。 在早期, 文獻(xiàn)[18]就探索了人工神經(jīng)網(wǎng)絡(luò)在空戰(zhàn)機(jī)動中的適用性, 然而其解釋性差, 需要大量的樣本數(shù)據(jù)進(jìn)行訓(xùn)練, 難以真正應(yīng)用在實(shí)際空戰(zhàn)中。

        文獻(xiàn)[19]以深度神經(jīng)網(wǎng)絡(luò)為基礎(chǔ), 提出了中程導(dǎo)彈交戰(zhàn)時快速分類的方法, 該方法應(yīng)用了神經(jīng)網(wǎng)絡(luò)和統(tǒng)計(jì)學(xué)程序, 對無噪聲和有噪聲的飛行器作出了極其準(zhǔn)確的類別預(yù)測, 其最終目標(biāo)是能在飛行過程中迅速識別未知導(dǎo)彈的特征。 文獻(xiàn)[20]在給定專家飛行員的飛行軌跡時, 研究了如何學(xué)習(xí)空戰(zhàn)機(jī)動模型的問題。 其訓(xùn)練了一個內(nèi)部模型代表未來狀態(tài), 通過使用MDN-RNN(Mixture Density Networks-Recurrent Neural Network)和控制器模仿專家操作, 然后通過假設(shè)的環(huán)境模型想象交戰(zhàn)情況。 該方法不需要與真實(shí)環(huán)境交互, 也不需要設(shè)計(jì)獎勵函數(shù), 極大地降低了成本, 提高了訓(xùn)練效率。 盡管基于深度學(xué)習(xí)的決策方法相較于基于專家系統(tǒng)的決策方法, 其構(gòu)建模型更簡單, 學(xué)習(xí)能力更強(qiáng), 但仍然存在缺點(diǎn):" 訓(xùn)練的數(shù)據(jù)來源于飛行員, 無論如何訓(xùn)練, 該模型最后的決策能力也無法超越飛行員;" 神經(jīng)網(wǎng)絡(luò)的參數(shù)與結(jié)構(gòu)需要人為設(shè)計(jì), 無法避免人類自身的偏向性, 具有較強(qiáng)的主觀性。

        1.2.3" 基于自主學(xué)習(xí)的決策方法

        自主學(xué)習(xí)是一種不需要先驗(yàn)知識的智能學(xué)習(xí)方法, 大致可以分為自適應(yīng)動態(tài)規(guī)劃(Adaptive Dynamic Programming, ADP)和深度強(qiáng)化學(xué)習(xí)兩部分。 前者是在動態(tài)規(guī)劃的基礎(chǔ)上形成的, 考慮到動態(tài)規(guī)劃求解時需要系統(tǒng)的狀態(tài)轉(zhuǎn)移概率, 而該概率在大多數(shù)情況下是未知的, 因此利用一個離散公式來近似原始問題, 最終能夠在未知狀態(tài)轉(zhuǎn)移概率的條件下找到問題的近似最優(yōu)解;" 后者則是讓智能體與環(huán)境進(jìn)行交互, 執(zhí)行動作從而獲得獎勵, 其目的就是通過優(yōu)化策略使期望回報最大。

        自適應(yīng)動態(tài)規(guī)劃又稱為近似動態(tài)規(guī)劃, 是人工智能與控制科學(xué)交叉形成的方法。 ADP將狀態(tài)抽象為函數(shù), 利用價值迭代或策略迭代生成決策方法。 文獻(xiàn)[21]提出了近似動態(tài)規(guī)劃的方法, 開發(fā)并測試了一種近似策略迭代算法, 該算法通過神經(jīng)網(wǎng)絡(luò)回歸實(shí)現(xiàn)值函數(shù)的逼近, 以獲得高質(zhì)量的自主無人戰(zhàn)斗飛行器機(jī)動策略。 自適應(yīng)動態(tài)規(guī)劃仍存在以下缺點(diǎn):" ADP只能解決離散動作問題, 難以應(yīng)用在實(shí)際的空戰(zhàn)系統(tǒng)中;"" ADP需要對手的空戰(zhàn)模型, 沒有統(tǒng)一的模型來實(shí)現(xiàn)對手模型的建立。

        深度強(qiáng)化學(xué)習(xí)結(jié)合了深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)各自的優(yōu)點(diǎn)來建立人工智能系統(tǒng), 主要在強(qiáng)化學(xué)習(xí)中使用深度神經(jīng)網(wǎng)絡(luò)的強(qiáng)大數(shù)據(jù)表達(dá)能力, 例如價值函數(shù)可以用神經(jīng)網(wǎng)絡(luò)來近似, 以實(shí)現(xiàn)端到端的優(yōu)化學(xué)習(xí)。 借助深度神經(jīng)網(wǎng)絡(luò)強(qiáng)大的擬合與計(jì)算能力, 深度強(qiáng)化學(xué)習(xí)的發(fā)展突飛猛進(jìn)。 2019年5月, DARPA啟動空戰(zhàn)演進(jìn)(Air Combat Evolution, ACE)項(xiàng)目, 目的是開發(fā)可信賴的人工智能算法和協(xié)作技術(shù), 將有人/無人機(jī)結(jié)合起來, 實(shí)現(xiàn)自主空戰(zhàn)[22]。 在Alpha Dogfight比賽中, 所有參賽隊(duì)伍都基于深度強(qiáng)化學(xué)習(xí)開發(fā)了算法, 而赫倫系統(tǒng)公司的智能體脫穎而出, 其特點(diǎn)是沒有使用任何專家系統(tǒng)[23]。 盡管深度強(qiáng)化學(xué)習(xí)相對于其他方法已經(jīng)有了很大的改進(jìn), 其仍存在著許多挑戰(zhàn):" (1)樣本效率問題。 深度強(qiáng)化學(xué)習(xí)在訓(xùn)練過程中需要大量的樣本數(shù)據(jù), 這就導(dǎo)致了訓(xùn)練效率越高, 最終的結(jié)果越快獲得, 并且表現(xiàn)越好。 (2)災(zāi)難性遺忘問題。 由于訓(xùn)練的次數(shù)過多, 盡管可以通過回放池保存先前訓(xùn)練的內(nèi)容, 但是在使用了神經(jīng)網(wǎng)絡(luò)后的樣本數(shù)據(jù)過于龐大, 已經(jīng)被訓(xùn)練過的數(shù)據(jù)往往要去擬合新的數(shù)據(jù)。

        2" 基于深度強(qiáng)化學(xué)習(xí)的智能空戰(zhàn)決策方法

        基于深度強(qiáng)化學(xué)習(xí)的智能空戰(zhàn)決策方法主要分為兩類:" (1)基于價值的方法。 該方法是對動作價值函數(shù)Q的優(yōu)化, 最優(yōu)的策略是通過選取最大的動作價值函數(shù)所對應(yīng)的動作。 典型的算法為深度Q網(wǎng)絡(luò)(Deep Q-Network, DQN)[24]。 (2)基于策略的方法。 該方法直接對策略進(jìn)行優(yōu)化, 使用策略梯度方法, 實(shí)現(xiàn)期望回報的最大化。 典型算法有REINFORCE[25]和Actor-Critic[26]。 兩者的區(qū)別在于前者使用實(shí)際觀測的回報來近似動作價值函數(shù), 方差大, 速度慢;" 后者采用神經(jīng)網(wǎng)絡(luò)近似動作價值函數(shù), 方差小, 速度快。 因此, 目前深度強(qiáng)化學(xué)習(xí)大多使用基于Actor-Critic的算法。 典型的算法有以信賴域策略優(yōu)化算法(Trust Region Policy Optimization, TRPO)[27]和近端策略優(yōu)化算法(Proximal Policy Optimization, PPO)[28]為代表的隨機(jī)策略方法, 也有以深度確定性策略梯度算法(Deep Deterministic Policy Gradient, DDPG)[29]為代表的確定性策略方法。 二者的區(qū)別在于前者輸出相應(yīng)動作的概率, 后者直接輸出特定的動作。

        2.1" 基于價值的方法

        價值學(xué)習(xí)的目標(biāo)是找到一個函數(shù), 使其能夠估計(jì)在當(dāng)前狀態(tài)下采取某一動作后所能帶來的價值。 當(dāng)這個函數(shù)已知, 就能使用它來進(jìn)行決策。 簡單來說, 價值學(xué)習(xí)就是當(dāng)前時刻對于未來時刻的價值判斷。 缺點(diǎn)在于其不確定性很大, 因?yàn)闊o論是環(huán)境狀態(tài)的轉(zhuǎn)移還是智能體的決策都具有隨機(jī)性, 并且時間跨度越長, 估計(jì)越不準(zhǔn)確。 優(yōu)點(diǎn)在于基于價值的方法采樣效率高、 方差小, 難以陷入局部最優(yōu), 通常適用于離散動作空間的問題。

        基于價值的方法一般是利用Q值表格進(jìn)行建模和求解, 只能解決小規(guī)模的簡單問題。 例如, 將DQN用于一對一近距空戰(zhàn)決策的生成, 但其只適用于離散動作空間的問題, 難以滿足實(shí)際飛行的需求。 如圖3所示, 空戰(zhàn)模型生成連續(xù)狀態(tài)作為輸入, 經(jīng)過幾個全連接層后輸出動作的Q值, 然后將當(dāng)前狀態(tài)、 動作、 獎勵和下一狀態(tài)存儲到經(jīng)驗(yàn)回放池中, 從中隨機(jī)抽取樣本更新權(quán)重[30]。

        文獻(xiàn)[31]考慮到DQN訓(xùn)練需要巨大的計(jì)算量, 模仿人類從簡單到復(fù)雜知識的學(xué)習(xí)過程, 進(jìn)行了分階段訓(xùn)練。 盡管最后獲得的結(jié)果并不是最優(yōu)的, 但是減少了大量的訓(xùn)練時間并且結(jié)果是有效的。 文獻(xiàn)[32]針對多對多智能空戰(zhàn)場景, 對目標(biāo)分配和機(jī)動決策進(jìn)行了研究。 目標(biāo)分配基于混合粒子群優(yōu)化算法(Hybrid Particle Swarm Optimization Algorithm)加入了移民粒子, 防止陷入局部最優(yōu), 機(jī)動決策則通過Double Q-learning算法, 減少了DQN算法容易過擬合的問題。 文獻(xiàn)[33]研究了多無人機(jī)在近距空戰(zhàn)中機(jī)動決策的生成方法, 設(shè)計(jì)了參數(shù)共享深度Q網(wǎng)絡(luò)(Parameter Sharing-Deep Q Network, PS-DQN)算法, 每一個智能體共享一個Q值網(wǎng)絡(luò)的參數(shù)。 文獻(xiàn)[34]則在PS-DQN的基礎(chǔ)上提出了參數(shù)共享競爭深度Q網(wǎng)絡(luò)(Parameter Sharing Dueling Deep Q-Network, PS- DDQN)算法, 打破了Multi-UCAV空戰(zhàn)中大狀態(tài)空間帶來的復(fù)雜性。 相比于PS-DQN來說, PS-DDQN增加了一個Dueling網(wǎng)絡(luò)結(jié)構(gòu), 使得PS-DDQN只需要學(xué)習(xí)對價值有影響的動作策略, 減少了無關(guān)動作的訓(xùn)練。 文獻(xiàn)[35]研究了連續(xù)系統(tǒng)追擊與逃避的最優(yōu)解問題, 將雙模糊系統(tǒng)與Q-learning結(jié)合。 由模糊Q-learning和Q值表模糊推理兩部分組成。 克服了Q-learning難以在連續(xù)、 低維空間中實(shí)現(xiàn)的缺點(diǎn)。 文獻(xiàn)[36]將后見經(jīng)驗(yàn)回放(Hindsight Experience Replay, HER)與參數(shù)化深度Q-網(wǎng)絡(luò)(Parameterized Deep Q-Networks, PDQN)結(jié)合起來, 形成了一種新的算法——HER-PDQN。 該算法避免了獎勵函數(shù)的設(shè)計(jì), 并且減少了人類潛在意識對訓(xùn)練過程的影響, 有效解決了混合動作空間以及獎勵稀疏的問題。 文獻(xiàn)[37]提出了多步雙深度Q-網(wǎng)絡(luò)(Multistep Double Deep Q-Network, MS-DDQN)算法, 將最終回報獎勵放入前面的訓(xùn)練步驟中, 再將訓(xùn)練前的模型作為第二學(xué)習(xí)模型的開始, 使用該算法可以加快訓(xùn)練速度和收斂速度。 文獻(xiàn)[38]提出了一種基于態(tài)勢連續(xù)性的機(jī)動自主決策方法, 設(shè)計(jì)了具有強(qiáng)引導(dǎo)的態(tài)勢評估函數(shù), 在深度Q網(wǎng)絡(luò)框架下訓(xùn)練長短期記憶(Long Short-Term Memory, LSTM)進(jìn)行空戰(zhàn)機(jī)動決策。 基于價值的方法缺點(diǎn)較為明顯:" 不能處理連續(xù)動作空間問題;" 最終獲得的策略一般為確定性策略;" 簡單地采用ε-貪心策略容易導(dǎo)致過估計(jì)。 而基于策略的方法則可以解決上述問題。

        2.2" 基于策略的方法

        策略學(xué)習(xí)的目的是獲得一個盡可能優(yōu)的策略函數(shù), 使得該函數(shù)在未來能夠獲得盡可能大的累計(jì)回報。 一般將策略π描述為一個帶有參數(shù)θ的函數(shù), 其決定了策略的具體形式, 因而求解基于策略的問題轉(zhuǎn)變?yōu)槿绾未_定策略函數(shù)的參數(shù)θ的問題。 基于策略的方法適用于高維或連續(xù)動作空間的問題, 并能夠自然地對隨機(jī)策略建模。 在基于Actor-Critic的算法中, Critic網(wǎng)絡(luò)利用基于價值的方法學(xué)習(xí)Q值函數(shù)或狀態(tài)價值函數(shù)V來提高采樣效率, Actor網(wǎng)絡(luò)利用基于策略的方法學(xué)習(xí)策略, 適用于連續(xù)、 高維的動作空間。 基于Actor-Critic的方法既可以看作是基于價值的方法在連續(xù)空間中的應(yīng)用, 也可以看作是基于策略的方法減少方差和提升采樣效率的改進(jìn)。

        文獻(xiàn)[39]以一架有人機(jī)和四架無人機(jī)協(xié)同作戰(zhàn)為戰(zhàn)斗場景, 采用PPO算法, 對獎勵函數(shù)增加了脫離獎勵、 制導(dǎo)獎勵、 目標(biāo)分配及攻擊獎勵, 使得決策更加靈活。 文獻(xiàn)[40]提出了多智能體分層策略梯度算法(Multi-Agent Hierarchical Policy Gradient, MAHPG), 該算法能夠?qū)W習(xí)多種策略, 并通過對抗性自博弈學(xué)習(xí)超越專家系統(tǒng), 同時采用分層決策網(wǎng)絡(luò)處理復(fù)雜的混合動作, 將選定的動作傳給后續(xù)動作的預(yù)測層, 有效降低了動作的模糊性。 鑒于近距空戰(zhàn)策略方法大多局限于規(guī)則或離散動作集, 文獻(xiàn)[41]以端到端方式從觀測中學(xué)習(xí)近距空戰(zhàn)策略, 為提高近端策略優(yōu)化(PPO)的學(xué)習(xí)效率設(shè)計(jì)了狀態(tài)空間, 同時還為該博弈設(shè)計(jì)了極大極小策略。 文獻(xiàn)[42]提出了一種最終獎勵估計(jì)和近端策略優(yōu)化的空戰(zhàn)機(jī)動決策方法(Final Reward Estimation-Proximal Policy Optimization, FRE-PPO), 設(shè)計(jì)了中間和最終獎勵函數(shù), 并讓最終獎勵函數(shù)取代原始PPO中的優(yōu)勢估計(jì)函數(shù), 提高了訓(xùn)練性能, 最后對最終獎勵函數(shù)抽樣, 提升了訓(xùn)練效率。 文獻(xiàn)[43]提出了一種基于態(tài)勢評估和貪婪算法的敵方機(jī)動策略, 然后構(gòu)造基于基本機(jī)動庫的動作空間和近端策略優(yōu)化算法的狀態(tài)觀察空間, 設(shè)計(jì)帶有情景獎勵塑造的獎勵函數(shù), 以加快收斂速度。

        上述方法大多以PPO算法為基礎(chǔ), 是一種隨機(jī)策略的方法, 應(yīng)用該類方法即使在相同的狀態(tài)下也可能執(zhí)行不同的動作, 有效提高了智能體的探索率。 與之對應(yīng)的則是確定性策略的方法, 以DDPG算法為例, 其思想是使用一個神經(jīng)網(wǎng)絡(luò)Actor直接預(yù)測出當(dāng)前狀態(tài)下需要采取的動作。 例如, 使用 DDPG 模擬交戰(zhàn)雙方的連續(xù)機(jī)動策略模型, 但其只支持低維空間的學(xué)習(xí)問題, 仿真精確度和真實(shí)度均較低。 如圖4所示, 自主空戰(zhàn)決策模型由空戰(zhàn)環(huán)境和強(qiáng)化學(xué)習(xí)算法組成, 其中空戰(zhàn)環(huán)境包括空戰(zhàn)態(tài)勢、 敵機(jī)狀態(tài)以及我方智能體狀態(tài)。 強(qiáng)化學(xué)習(xí)算法以DDPG算法為例, 其有兩個Actor-Critic架構(gòu), 利用目標(biāo)網(wǎng)絡(luò)使得Critic網(wǎng)絡(luò)的訓(xùn)練更加平穩(wěn)。 整個過程為:" 從空戰(zhàn)環(huán)境中獲取空戰(zhàn)狀態(tài)來訓(xùn)練算法, 將當(dāng)前狀態(tài)和動作輸入到評論家網(wǎng)絡(luò)中得到Q值, 再將下一狀態(tài)和行動者目標(biāo)網(wǎng)絡(luò)的下一動作輸入到評論家目標(biāo)網(wǎng)絡(luò)得到目標(biāo)Q值, 再訓(xùn)練策略使得評論家網(wǎng)絡(luò)Q值盡量接近評論家目標(biāo)網(wǎng)絡(luò)Q值, 然后將訓(xùn)練好的算法應(yīng)用在智能體上, 從而實(shí)現(xiàn)自主空戰(zhàn)決策[44]。

        文獻(xiàn)[45]使用非完全信息動態(tài)博弈模型模擬空戰(zhàn)的動態(tài)過程, 設(shè)計(jì)了動態(tài)貝葉斯網(wǎng)絡(luò)來推斷對手的戰(zhàn)術(shù)意圖, 然后建立基于多智能體深度確定性策略梯度(Multi-Agent Deep Deterministic Policy Gradient, MADDPG)的強(qiáng)化學(xué)習(xí)框架, 獲得了空戰(zhàn)博弈模型的最佳Bayes-Nash均衡解。 文獻(xiàn)[46]考慮到MADDPG算法只針對特定的均衡策略, 引入極大極小模來獲得期望擾動, 極大極小模對最壞情況擾動下的梯度方向進(jìn)行局部逼近, 得到期望擾動。 文獻(xiàn)[47]中, 空戰(zhàn)被建模為二人零和馬爾可夫博弈, 在該模型中引入了一種目標(biāo)位置預(yù)測方法, 使UCAV(Unmanned Combat Aerial Vehicles)能夠預(yù)測目標(biāo)的動作和位置。 文獻(xiàn)[48]將視距內(nèi)自主空戰(zhàn)建模為一個狀態(tài)-對抗性馬爾可夫決策過程(State-Adversarial Markov Decision Process, SA-MDP)。 以狀態(tài)-對抗深度確定性策略梯度(State-Adversarial Deep Deterministic Policy Gradient, SA-DDPG)為基礎(chǔ), 在Actor網(wǎng)絡(luò)中引入了與性能損失上界相關(guān)的魯棒正則子, 提高空戰(zhàn)策略的魯棒性。 同時, 它提出了一種基于最大熵逆強(qiáng)化學(xué)習(xí)(Maximum Entropy Inverse Reinforcement Learning, MaxEnt—IRL)的獎勵塑造方法, 提高了空戰(zhàn)策略生成算法的效率。 該類算法由于其確定性策略的特點(diǎn), 相同狀態(tài)下執(zhí)行的動作是一樣的, 探索效率遠(yuǎn)不如隨機(jī)策略的方法, 但是更加適用于高維或連續(xù)動作空間的問題。

        文獻(xiàn)[49]以Actor-Critic為框架, 通過改變獎勵函數(shù)的結(jié)構(gòu)來加快訓(xùn)練速度、 提升學(xué)習(xí)效率, 從而在空戰(zhàn)博弈對抗中找到有效的空戰(zhàn)策略。 文獻(xiàn)[50]通過神經(jīng)網(wǎng)絡(luò)逼近動作和狀態(tài)變量, 利用高斯分布確定策略, 同時為了提升探索效率, 根據(jù)訓(xùn)練次數(shù)調(diào)整隨機(jī)動作變量的概率分布情況, 結(jié)果表明該方法生成的策略魯棒性好, 但因其生成的機(jī)動策略均為固定的, 無法體現(xiàn)真實(shí)戰(zhàn)場下的博弈對抗。 文獻(xiàn)[51]則提出了一種分布式和可擴(kuò)展的Actor-Critic強(qiáng)化學(xué)習(xí)架構(gòu), 即情景依賴-選擇行動評估(Situation-Dependent Option-Action Evaluation, SDOE), 它使智能體能夠共享態(tài)勢感知, 并以成對的方式選擇戰(zhàn)術(shù)。 文獻(xiàn)[52]考慮到實(shí)際空戰(zhàn)中存在多無人機(jī)的場景, 建立了基于Actor-Critic的集中式評價、 分布式執(zhí)行的算法。 在評價網(wǎng)絡(luò)模塊中使用了全局信息對當(dāng)前決策優(yōu)劣作出評判, 而在執(zhí)行網(wǎng)絡(luò)模塊中僅根據(jù)非完全信息進(jìn)行自我決策, 提高了多機(jī)對抗的效能。 文獻(xiàn)[53]以包括俯仰角在內(nèi)的10個狀態(tài)變量組成狀態(tài)空間, 結(jié)合空戰(zhàn)態(tài)勢評估模型, 以異步優(yōu)勢Actor-Critic (Asynchronous Advantage Actor-Critic, A3C)[54]為基礎(chǔ)設(shè)計(jì)了內(nèi)部獎勵與稀疏獎勵結(jié)合的雙層獎勵機(jī)制。 如圖5所示, 各個線程單獨(dú)進(jìn)行訓(xùn)練, 具體過程為:" 從環(huán)境中獲取我方智能體與敵機(jī)的空戰(zhàn)態(tài)勢, 作為狀態(tài)輸入到Actor網(wǎng)絡(luò)和Critic網(wǎng)絡(luò), 隨后智能體利用訓(xùn)練好的網(wǎng)絡(luò)執(zhí)行動

        作, 敵機(jī)則利用自身控制策略與我方智能體進(jìn)行對抗, 最后, 將各個線程學(xué)習(xí)好的參數(shù)更新至全局網(wǎng)絡(luò)中, 下一次訓(xùn)練時通過獲取全局網(wǎng)絡(luò)中的參數(shù)繼續(xù)學(xué)習(xí)。

        文獻(xiàn)[55]針對無人機(jī)近距格斗, 提出了基于SAC(Soft Actor-Critic)算法[56]的無人機(jī)自主空戰(zhàn)決策, 將空戰(zhàn)態(tài)勢作為輸入信息傳遞給SAC算法模塊, 同時在算法中加入最大熵模型使策略隨機(jī)化, 最后輸出機(jī)動決策, 無人機(jī)執(zhí)行決策動作。 文獻(xiàn)[57]將經(jīng)驗(yàn)回放HER和SAC算法結(jié)合, 智能體利用HER在實(shí)現(xiàn)目標(biāo)的失敗和成功中學(xué)習(xí), 極大提高了采樣效率和學(xué)習(xí)速度。 盡管目前只適用于路徑規(guī)劃和避障等問題, 但后續(xù)也可以擴(kuò)展到僅有部分觀測信息的情況。 文獻(xiàn)[58]聚焦于S-蛇機(jī)動問題, 提出了一種比例微分的SAC算法, 加快了復(fù)雜網(wǎng)絡(luò)的訓(xùn)練速度, 同時在策略網(wǎng)絡(luò)中有多個狀態(tài)輸入和動作輸出, 通過擴(kuò)展門控循環(huán)單元(Gate Recurrent Unit, GRU)減少馬爾可夫?qū)刂频挠绊憽?雖然基于Actor-Critic的方法已經(jīng)結(jié)合了基于價值的方法和策略梯度方法, 但仍存在缺點(diǎn):" 在Critic部分依然存在著過估計(jì)和難收斂的問題, 并且有了Actor的加入, Critic的收斂更加困難;" 在Actor部分的探索不足, 容易陷入局部最優(yōu)。

        3" 面向未來空戰(zhàn)的智能決策技術(shù)展望

        3.1" 面向集群作戰(zhàn)的多智能體決策技術(shù)

        早期的深度強(qiáng)化學(xué)習(xí)都是以單智能體的算法出現(xiàn), 然而高精度, 高實(shí)時性的軍事決策往往都是多個實(shí)體相互配合完成任務(wù)的, 故多智能體強(qiáng)化學(xué)習(xí)(Multi-Agent Deep Reinforcement Learning, MADRL)方法更加適合于真實(shí)的戰(zhàn)爭中。 多智能體強(qiáng)化學(xué)習(xí)方法不僅僅是在單智能體強(qiáng)化學(xué)習(xí)方法的基礎(chǔ)上增加智能體的個數(shù), 因?yàn)殡S著智能體數(shù)量的增加, 需要擴(kuò)展的智能體信息維度也隨之增加, 將會面臨維度災(zāi)難的問題, 同時還要在算法中加入博弈、 協(xié)同和通信等機(jī)制, 使得多個智能體具有自主協(xié)同等特點(diǎn)。 盡管目前有關(guān)MADRL的方法很多, 但是實(shí)際運(yùn)用在空戰(zhàn)領(lǐng)域的算法還較少。 因此可以考慮將其他領(lǐng)域較為成熟的方法運(yùn)用到空戰(zhàn)領(lǐng)域上。

        根據(jù)任務(wù)類型和最大化期望累計(jì)回報的不同, MADRL算法可以分為完全合作類、 完全競爭類和混合類3種[59]。 而對于智能空戰(zhàn)博弈來說, 更需要的是完全合作類的算法, 即每個智能體相互合作完成團(tuán)隊(duì)任務(wù), 其目標(biāo)是最大化團(tuán)隊(duì)的全局獎勵。 根據(jù)在算法中加入的博弈、 協(xié)同和通信等機(jī)制的方式不同, 可以將完全合作類MADRL算法分為基于通信學(xué)習(xí)和基于協(xié)作學(xué)習(xí)兩類。

        (1) 基于通信學(xué)習(xí)的完全合作類MADRL算法

        該類算法假設(shè)智能體之間存在信息的交互, 在訓(xùn)練過程中需要學(xué)習(xí)的內(nèi)容包括是否需要通信、 何時通信以及與哪些智能體通信。 通信機(jī)制并不是簡單地將其他智能體視為環(huán)境的一部分, 而是可以通過自身和從其他智能體接收到的信息動態(tài)調(diào)整自身策略。 RIAL(Reinforced Inter-Agent Learning)和DIAL(Differentiable Inter-Agent Learning)是最初引入通信學(xué)習(xí)機(jī)制的算法[60], RIAL缺少智能體之間的反饋, 而這種反饋機(jī)制對于通信學(xué)習(xí)至關(guān)重要。 DIAL讓智能體之間有了梯度的傳遞, 這種梯度傳遞就形成了一種反饋機(jī)制。 為了提高通信效率, 文獻(xiàn)[61]使用CommNet模型, 使用連續(xù)通信來完成完全合作的任務(wù), 該模型由多個智能體組成, 訓(xùn)練它們之間的通信和策略。 文獻(xiàn)[62]使用門控機(jī)制自適應(yīng)地對不利通信信息進(jìn)行裁剪, 有效解決了帶寬受限的問題, 同時提高了通信過程中對于通信錯誤信息和冗余信息的魯棒性。

        (2) 基于協(xié)作學(xué)習(xí)的完全合作類MADRL算法

        與基于通信學(xué)習(xí)的算法相反, 該類算法不再顯式智能體之間的通信信息, 而是假設(shè)智能體能夠獲取其他智能體的觀測信息進(jìn)行訓(xùn)練, 而在執(zhí)行動作時智能體僅僅依靠自身的觀測進(jìn)行決策。 文獻(xiàn)[63]提出的VDN(Value Decomposition Networks)算法是一種價值分解的方法, 該方法將整體的聯(lián)合價值函數(shù)分解為每一個智能體的價值函數(shù), 簡單來說, 就是讓每一個智能體的價值函數(shù)相加求和即為聯(lián)合價值函數(shù), 不僅解決了虛假獎勵的問題, 還解決了部分智能體“懶惰”的問題。 文獻(xiàn)[64]提出了MAVEN(Multi-Agent Variational Exploration)算法, 該算法通過引入分層控制的空間, 將基于價值和基于策略的方法混合在一起。 基于價值的智能體根據(jù)分層策略控制的共享潛在變量改變其動作。

        3.2" 面向廣域時空的高效智能決策技術(shù)

        未來空戰(zhàn)具有作戰(zhàn)空域大、 作戰(zhàn)距離遠(yuǎn)、 空戰(zhàn)雙方的對抗策略空間大等特征, 因此構(gòu)建稀疏獎勵下的博弈智能策略優(yōu)化難度較大。 同時, 由于多智能體在訓(xùn)練過程中探索空間過大, 探索的過程中智能體將其他智能體視為環(huán)境的一部分, 智能體行為表現(xiàn)出隨機(jī)性, 加劇了環(huán)境的非平穩(wěn)性, 使得策略收斂時間冗長, 訓(xùn)練過程收斂困難。 針對上述挑戰(zhàn), 需要高效穩(wěn)定的智能決策技術(shù)在廣域時空下提高決策訓(xùn)練的效率和收斂的穩(wěn)定性。

        (1) 深度課程強(qiáng)化學(xué)習(xí)

        人類的學(xué)習(xí)過程一般遵循著先易后難、 由易到難的順序, 借鑒這一學(xué)習(xí)思想, 課程學(xué)習(xí)主張讓模型先從簡單的樣本/任務(wù)開始學(xué)習(xí), 然后逐步過渡到復(fù)雜的樣本/任務(wù), 從而減少訓(xùn)練時間并提高最終的性能。 課程學(xué)習(xí)方法的核心是創(chuàng)建一系列與最終目標(biāo)任務(wù)相似但難度不同的任務(wù)序列, 進(jìn)而通過遷移學(xué)習(xí)方法在任務(wù)序列之間進(jìn)行策略遷移, 從而在最終任務(wù)上達(dá)到加快學(xué)習(xí)速率、 提高漸進(jìn)性能的目的[65]。

        深度課程強(qiáng)化學(xué)習(xí)結(jié)合自主優(yōu)先課程學(xué)習(xí)和覆蓋懲罰的深度強(qiáng)化學(xué)習(xí)的新訓(xùn)練模式, 根據(jù)每個狀態(tài)樣本的復(fù)雜性自適應(yīng)地從回放存儲中選擇合適的樣本, 充分發(fā)揮經(jīng)驗(yàn)回放的作用[66]。 深度課程強(qiáng)化學(xué)習(xí)算法的訓(xùn)練過程如下:" 首先, 智能體將與環(huán)境交互過程中產(chǎn)生的樣本數(shù)據(jù)存儲在回放存儲中, 然后, 對樣本數(shù)據(jù)進(jìn)行課程評價, 評價的標(biāo)準(zhǔn)包括樣本優(yōu)先級和重復(fù)懲罰項(xiàng), 接著, 智能體自主選擇符合當(dāng)前狀態(tài)下課程難度的樣本數(shù)據(jù)組成的批訓(xùn)練集, 逐步提高課程難度使得難度更高的樣本數(shù)據(jù)被選中的概率提升, 最后, 智能體執(zhí)行動作讓環(huán)境轉(zhuǎn)移到下一狀態(tài)。

        (2) 分層強(qiáng)化學(xué)習(xí)

        分層強(qiáng)化學(xué)習(xí)(Hierarchy Reinforcement Learning, HRL)本質(zhì)上是將整個任務(wù)分解成抽象的子任務(wù), 通過完成一系列的子任務(wù)從而加快整個任務(wù)的求解速度[67]。 分層強(qiáng)化學(xué)習(xí)中, 在求解每一個子任務(wù)時, 會將其中的多個動作抽象為一個策略動作。 然而, 這并不符合馬爾可夫決策過程, 因此研究人員引入了半馬爾可夫決策過程(Semi-Markov Decision Process, SMDP)[68], 來處理多個動作只有經(jīng)歷多個時間段后才能體現(xiàn)出真正價值的問題。 分層強(qiáng)化學(xué)習(xí)的主要算法包括Option[69]、 分層抽象機(jī)HAMs(Hierarchies of Abstract Machines)[70]以及MAXQ值函數(shù)分解(MAXQ Value Function Decomposition)[71], 均是以SMDP為基礎(chǔ)提出的。

        當(dāng)前, HRL算法的架構(gòu)可以分為兩個部分, 第一部分為頂層架構(gòu), 根據(jù)接收到的環(huán)境狀態(tài)以及反饋制定子任務(wù);" 第二部分為底層架構(gòu), 根據(jù)當(dāng)前狀態(tài)以及子任務(wù)執(zhí)行動作, 從而解決子任務(wù)的問題。 通過這種架構(gòu), 頂層產(chǎn)生的子任務(wù)較為簡單, 使得底層執(zhí)行動作解決問題的效率加快。 要將分層強(qiáng)化學(xué)習(xí)運(yùn)用在空戰(zhàn)博弈領(lǐng)域, 僅靠傳統(tǒng)分層強(qiáng)化學(xué)習(xí)算法顯然是不夠的。 為了適應(yīng)空戰(zhàn)領(lǐng)域在不同環(huán)境下采取的任務(wù)與策略具有共通性的特點(diǎn), 考慮采用子策略共享分層方法, 將子策略細(xì)分為不同類別, 從而在不同子任務(wù)中實(shí)現(xiàn)共享, 進(jìn)一步提高訓(xùn)練效率。 文獻(xiàn)[72]提出了一種基于skill-based的分層強(qiáng)化學(xué)習(xí)隨機(jī)神經(jīng)網(wǎng)絡(luò)(Stochastic Neural Networks for Hierarchical Reinforcement Learning, SNNHRL), 其建立了一個預(yù)訓(xùn)練環(huán)境, 在預(yù)訓(xùn)練環(huán)境中訓(xùn)練完成后利用學(xué)習(xí)到的策略, 使智能體在實(shí)際環(huán)境中學(xué)習(xí)如何調(diào)用這些策略, 提高解決問題的效率。 而OpenAI提出了一種端到端的元共享分層學(xué)習(xí)(Meta-Learning Shared Hierarchies, MLSH)[73]算法, 摒除了以往需要人工設(shè)定分層結(jié)構(gòu), 其通過與環(huán)境的交互自動實(shí)現(xiàn)分層結(jié)構(gòu), 同時子策略也是共享的。 該算法突破了需要人工的局限性, 實(shí)現(xiàn)了真正的自主學(xué)習(xí)。

        3.3" 面向復(fù)雜場景的泛化智能決策技術(shù)

        傳統(tǒng)深度強(qiáng)化學(xué)習(xí)的方法往往僅針對單一場景下的訓(xùn)練, 訓(xùn)練后的模型魯棒性差, 在已知樣本的情況下性能優(yōu)良, 而對于未知采樣目標(biāo)的情況則會表現(xiàn)出不適性, 難以適應(yīng)不同場景下的任務(wù)。 然而空戰(zhàn)場景是時刻都在變化的, 因此, 若僅采用傳統(tǒng)深度強(qiáng)化學(xué)習(xí)的方法, 每次面對不同的場景, 就要重新訓(xùn)練, 這大大降低了效率。 針對上述問題, 將元學(xué)習(xí)和深度強(qiáng)化學(xué)習(xí)相結(jié)合是一種有效的解決辦法, 即元強(qiáng)化學(xué)習(xí)。 面對未知場景時, 經(jīng)過訓(xùn)練的泛化網(wǎng)絡(luò)能夠根據(jù)未知場景生成新的策略, 對未知場景也有較好的適應(yīng)性。

        元學(xué)習(xí)指的是學(xué)習(xí)怎樣學(xué)習(xí)[74-75], 即借助以往的經(jīng)驗(yàn)知識來學(xué)習(xí)怎樣學(xué)習(xí), 利用以往的經(jīng)驗(yàn)來減少未來學(xué)習(xí)時樣本數(shù)量的需求[76]。 以往的經(jīng)驗(yàn)一般稱為元知識, 通過元知識對未來學(xué)習(xí)加以指導(dǎo)。 元強(qiáng)化學(xué)習(xí)方法的核心思想在于它可以充分利用不同任務(wù)和不同場景下的訓(xùn)練數(shù)據(jù), 從中找出共性知識, 提煉一般性知識。 通過該方法, 既可以緩解不同任務(wù)、 場景下模型啟動慢的問題, 也可以提高對于新任務(wù)的學(xué)習(xí)效率[77]。 現(xiàn)有的元強(qiáng)化學(xué)習(xí)方法大致可以分為基于上下文的元強(qiáng)化學(xué)習(xí)、 基于梯度的元強(qiáng)化學(xué)習(xí)和離線強(qiáng)化學(xué)習(xí)。

        (1) 基于上下文的元強(qiáng)化學(xué)習(xí)

        通過將以往的經(jīng)驗(yàn)聚合形成上下文, 再以上下文作為元知識, 提取相關(guān)的特征信息。 上下文是一種隱藏表征形式, 能夠合理利用以往經(jīng)驗(yàn), 提高泛化能力。 文獻(xiàn)[78]在傳統(tǒng)強(qiáng)化學(xué)習(xí)[79]的基礎(chǔ)上, 與上下文相結(jié)合, 其結(jié)果可以達(dá)到使用最先進(jìn)的元強(qiáng)化學(xué)習(xí)算法的水平。 文獻(xiàn)[80]考慮到大多數(shù)元強(qiáng)化學(xué)習(xí)方法均由人手動設(shè)計(jì), 或是只針對專門的架構(gòu), 或是限制元學(xué)習(xí)如何解決問題。 因此, 該文提出一種簡單神經(jīng)注意力學(xué)習(xí)器(Simple Neural Attentive Learning, SNAL), 使用時間卷積(Temporal Convolution)聚合以往的經(jīng)驗(yàn)形成上下文, 接著使用軟注意力[81](Soft Attention)機(jī)制精準(zhǔn)定位并選擇特定的信息。

        (2) 基于梯度的元強(qiáng)化學(xué)習(xí)

        梯度下降法是一種常用的優(yōu)化方法, 將其運(yùn)用在元強(qiáng)化學(xué)習(xí)中可以提高泛化能力、 增強(qiáng)學(xué)習(xí)效率以及無需手動調(diào)參等問題。 經(jīng)過梯度下降法優(yōu)化后, 在遇到新任務(wù)或新環(huán)境時, 僅需少量步驟的梯度變化就可以快速適應(yīng)新任務(wù)或新環(huán)境, 避免了局限性。 文獻(xiàn)[82]提出了元梯度強(qiáng)化學(xué)習(xí), 通過自動調(diào)整獎勵函數(shù)中的超參數(shù), 使其可以適應(yīng)隨時間不斷變化的環(huán)境, 在線調(diào)整超參數(shù)來最大化獎勵回報。 文獻(xiàn)[83]在此基礎(chǔ)上, 提出了在線發(fā)現(xiàn)目標(biāo)的元梯度強(qiáng)化學(xué)習(xí), 該方法中的智能體僅能通過與環(huán)境的交互來發(fā)現(xiàn)目標(biāo), 并且通過神經(jīng)網(wǎng)絡(luò)調(diào)整超參數(shù), 隨著時間推移, 智能體將會越來越有效率地學(xué)習(xí)。

        (3) 離線元強(qiáng)化學(xué)習(xí)

        離線元強(qiáng)化學(xué)習(xí)主要用于解決元強(qiáng)化學(xué)習(xí)難以在實(shí)際中得到應(yīng)用的問題, 通過大量預(yù)先收集或離線數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練, 極大降低了環(huán)境對訓(xùn)練過程的影響, 在訓(xùn)練過程中無需與環(huán)境進(jìn)行交互, 減少了隨機(jī)探索行為以及高成本數(shù)據(jù)采樣行為。 文獻(xiàn)[84]提出了一種無模型、 端到端的離線元強(qiáng)化學(xué)習(xí), 通過行為正則化學(xué)習(xí)策略, 同時在信息空間中引入負(fù)冪距離度量, 結(jié)合上下文編碼器進(jìn)行相關(guān)任務(wù)的推斷, 該方法的計(jì)算速度高效, 能夠快速適應(yīng)新任務(wù)。 文獻(xiàn)[85]認(rèn)為對于未知敏感環(huán)境, 安全探索非常重要, 該文將安全探索的問題視為一個離線元強(qiáng)化學(xué)習(xí), 在訓(xùn)練過程中利用離線數(shù)據(jù)學(xué)習(xí)安全與不安全行為, 將學(xué)習(xí)到的安全措施運(yùn)用到全新的環(huán)境中, 并保證智能體能夠安全學(xué)習(xí), 快速適應(yīng)。

        4" 結(jié)" 束" 語

        通過對當(dāng)前智能空戰(zhàn)決策技術(shù)的梳理和未來發(fā)展趨勢的思考可以看出, 人工智能技術(shù)與空戰(zhàn)領(lǐng)域的融合將對未來航空兵器的跨代發(fā)展和技術(shù)革新產(chǎn)生深遠(yuǎn)影響, 有望成為制勝未來戰(zhàn)場的核心能力。 本文在闡釋現(xiàn)有空戰(zhàn)決策技術(shù)和國外軍事項(xiàng)目發(fā)展的基礎(chǔ)上, 重點(diǎn)關(guān)注了基于深度強(qiáng)化學(xué)習(xí)的智能對抗技術(shù)在解決高動態(tài)、 不確定性以及復(fù)雜戰(zhàn)場環(huán)境等問題的關(guān)鍵技術(shù), 揭示了智能空戰(zhàn)決策技術(shù)正逐漸從依賴先驗(yàn)知識邁向基于自主學(xué)習(xí)的發(fā)展趨勢。 目前, 空戰(zhàn)場景和作戰(zhàn)樣式已邁入“后智能”時代, 深度強(qiáng)化決策方法也將面臨更加嚴(yán)峻的技術(shù)挑戰(zhàn)," 包括智能算法的安全性、 可解釋性、 可通用性以及對實(shí)際戰(zhàn)場應(yīng)用的良好適應(yīng)性等。 這些關(guān)鍵技術(shù)的發(fā)展將進(jìn)一步推動認(rèn)知型智能技術(shù)在戰(zhàn)場上的應(yīng)用, 使得“以智取勝”成為未來航空裝備的跨代特征, 引領(lǐng)新一輪的技術(shù)變革。

        參考文獻(xiàn):

        [1] 孫智孝, 楊晟琦, 樸海音, 等. 未來智能空戰(zhàn)發(fā)展綜述[J]. 航空學(xué)報, 2021, 42(8): 525799.

        Sun Zhixiao, Yang Shengqi, Piao Haiyin, et al. A Survey of Air Combat Artificial Intelligence[J]. Acta Aeronautica et Astronautica Sinica, 2021, 42(8): 525799.(in Chinese)

        [2] 董康生, 黃漢橋, 韓博, 等. 智能空戰(zhàn)決策技術(shù)發(fā)展分析與展望[C]∥第九屆中國指揮控制大會論文集, 2021: 208-212.

        Dong Kangsheng, Huang Hanqiao, Han Bo," et al. Development Analysis and Outlook for Decision-Making Technology on Intelligent Air Combat[C]∥9th China Conference on Command and Control, 2021: 208-212. (in Chinese)

        [3] 鄒立巖, 張明智, 榮明. 智能無人機(jī)集群概念及主要發(fā)展趨勢分析[J]. 戰(zhàn)術(shù)導(dǎo)彈技術(shù), 2019(5): 1-11.

        Zou Liyan, Zhang Mingzhi, Rong Ming. Analysis of Intelligent Unmanned Aircraft Systems Swarm Concept and Main Development Trend[J]. Tactical Missile Technology, 2019(5): 1-11.(in Chinese)

        [4] 陳浩, 黃健. 有人機(jī)/無人機(jī)協(xié)同系統(tǒng)研究現(xiàn)狀與展望[C]∥第十屆中國指揮控制大會論文集, 2022: 12-17.

        Chen Hao, Huang Jian. Research Status and Prospect of Manned Vehicle and Unmanned Aerial Vehicle Cooperative System[C]∥10th China Conference on Command and Control, 2022: 12-17. (in Chinese)

        [5] 曹雷. 基于深度強(qiáng)化學(xué)習(xí)的智能博弈對抗關(guān)鍵技術(shù)[J]. 指揮信息系統(tǒng)與技術(shù), 2019, 10(5): 1-7.

        Cao Lei. Key Technologies of Intelligent Game Confrontation Based on Deep Reinforcement Learning[J]. Command Information System and Technology, 2019, 10(5): 1-7.(in Chinese)

        [6] Reilly M B. Beyond Video Games:" New Artificial Intelligence Beats Tactical Experts in Combat Simulation[EB/OL]. (2016-06-27)[2023-02-07]. http:∥ magazine.uc.edu/editors_picks/recent_features/alpha.html.

        [7] Trevithick J. USAF Plans for its Skyborg AI Computer Brain to be Flying Drones in the Next Two Years[EB/OL]. (2020-05-19) [2023-02-07]. https:∥www.thedrive.com/the- war-zone/27067/usaf-plans-for-its-skyborg-ai-computer-brain-to-be-flying-drones-in-the-next-two-years.

        [8] 樊邦奎, 張瑞雨. 無人機(jī)系統(tǒng)與人工智能[J]. 武漢大學(xué)學(xué)報:信息科學(xué)版, 2017, 42(11): 1523-1529.

        Fan Bangkui, Zhang Ruiyu. Unmanned Aircraft System and Artificial Intelligence[J]. Geomatics and Information Science of Wuhan University, 2017, 42(11): 1523-1529.(in Chinese)

        [9] Vásárhelyi G, Virágh C, Somorjai G, et al. Outdoor Flocking and Formation Flight with Autonomous Aerial Robots[C]∥IEEE/RSJ International Conference on Intelligent Robots and Systems, 2014: 3866-3873.

        [10] Garcia E, Casbeer D W, Von Moll A, et al. Multiple Pursuer Multiple Evader Differential Games[J]. IEEE Transactions on Automatic Control, 2020, 66(5): 2345-2350.

        [11] Mishley A, Shaferman V. Linear Quadratic Guidance Laws with Intercept Angle Constraints and Varying Speed Adversaries[J]. Journal of Guidance, Control, and Dynamics, 2022, 45(11): 2091-2106.

        [12] Ruan W Y, Duan H B, Deng Y M. Autonomous Maneuver Decisions via Transfer Learning Pigeon-Inspired Optimization for UCAVs in Dogfight Engagements[J]. IEEE/CAA Journal of Automatica Sinica, 2022, 9(9): 1639-1657.

        [13] Li S Y, Chen M, Wu Q X, et al. Threat Sequencing of Multiple UCAVs with Incomplete Information Based on Game Theory[J]. Journal of Systems Engineering and Electronics, 2022, 33(4): 986-996.

        [14] Burgin G H, Fogel L J, Phelps J P. An Adaptive Maneuvering Logic Computer Program for the Simulation of One-on-One Air-to-Air Combat [R]. Washington D C: NASA, 1975.

        [15] Bloom P C, Chung Q B. Lessons Learned from Developing a Mission-Critical Expert System with Multiple Experts through Rapid Prototyping[J]. Expert Systems with Applications, 2001, 20(2): 217-227.

        [16] Geng W X, Kong F E, Ma D Q. Study on Tactical Decision of UAV Medium-Range Air Combat[C]∥26th Chinese Control and Decision Conference, 2014: 135-139.

        [17] Hu D Y, Yang R N, Zhang Y, et al. Aerial Combat Maneuvering Policy Learning Based on Confrontation Demonstrations and Dynamic Quality Replay[J]. Engineering Applications of Artificial Intelligence, 2022, 111: 104767.

        [18] Schvaneveldt R W, Goldsmith T E, Benson A E, et al. Neural Network Models of Air Combat Maneuvering [R]. Texas: Williams Air Force Base, 1992.

        [19] Eckert J, Carpenter M, Hartfield R, et al. Classification of Intermediate Range Missiles during Launch[C]∥ AIAA SciTech 2020 Forum, 2020.

        [20] Park S J, Park S S, Choi H L, et al. An Expert Data-Driven Air Combat Maneuver Model Learning Approach[C]∥ AIAA SciTech 2021 Forum, 2021.

        [21] Crumpacker J B, Robbins M J, Jenkins P R. An Approximate Dynamic Programming Approach for Solving an Air Combat Maneuvering Problem[J]. Expert Systems with Applications, 2022, 203: 117448.

        [22] 王星, 郝澤龍, 周一鵬. 美國智能導(dǎo)彈空戰(zhàn)體系結(jié)構(gòu)與技術(shù)[J]. 飛航導(dǎo)彈, 2021(11): 91-97.

        Wang Xing, Hao Zelong, Zhou Yipeng. Architecture and Technology of American Intelligent Missile Air Combat[J]. Aerodynamic Missile Journal, 2021(11): 91-97.(in Chinese)

        [23] 賀嘉璠, 汪慢, 方峰, 等. 深度強(qiáng)化學(xué)習(xí)技術(shù)在智能空戰(zhàn)中的運(yùn)用[J]. 指揮信息系統(tǒng)與技術(shù), 2021, 12(5): 6-13.

        He Jiafan, Wang Man, Fang Feng, et al. Application of Deep Reinforcement Learning Technology in Intelligent Air Combat[J]. Command Information System and Technology, 2021, 12(5): 6-13.(in Chinese)

        [24] Mnih V, Kavukcuoglu K, Silver D, et al. Human-Level Control through Deep Reinforcement Learning[J]. Nature, 2015, 518(7540): 529-533.

        [25] Williams. On the Use of Backpropagation in Associative Reinforcement Learning[C]∥IEEE 1988 International Conference on Neural Networks, 2002: 263-270.

        [26] Barto A G, Sutton R S, Anderson C W. Neuronlike Adaptive Elements that can Solve Difficult Learning Control Problems[J]. IEEE Transactions on Systems, Man, and Cybernetics, 1983, SMC-13(5): 834-846.

        [27] Schulman J, Levine S, Moritz P, et al. Trust Region Policy Optimization[EB/OL]. (2017-04-20)[2023-02-07]. https: ∥arxiv.org/abs/1502.05477.

        [28] Schulman J, Wolski F, Dhariwal P, et al. Proximal Policy Optimization Algorithms[EB/OL]. (2017-08-28) [2023-02- 07]. https:∥arxiv.org/abs/1707.06347.

        [29] Lillicrap T P, Hunt J J, Pritzel A, et al. Continuous Control with Deep Reinforcement Learning[EB/OL]. (2019-07-05) [2023-02-07] . https:∥arxiv.org/abs/1509.02971.

        [30] Mohamed Ali M S, Wahid H, Mohd Subha N A, et al. Communications in Computer and Information Science[M]. Singapore: Springer Singapore, 2017: 274-286.

        [31] Yang Q M, Zhang J D, Shi G Q, et al. Maneuver Decision of UAV in Short-Range Air Combat Based on Deep Reinforcement Learning[J]. IEEE Access, 2019, 8: 363-378.

        [32] 朱星宇, 艾劍良. 多對多無人機(jī)空戰(zhàn)的智能決策研究[J]. 復(fù)旦學(xué)報:自然科學(xué)版, 2021, 60(4): 410-419.

        Zhu Xingyu, Ai Jianliang. Research on Intelligent Decision Making of Many to Many Unmanned Aerial Vehicle Air Combat[J]. Journal of Fudan University: Natural Science, 2021, 60(4): 410-419.(in Chinese)

        [33] 孔維仁, 周德云, 趙藝陽, 等. 基于深度強(qiáng)化學(xué)習(xí)與自學(xué)習(xí)的多無人機(jī)近距空戰(zhàn)機(jī)動策略生成算法[J]. 控制理論與應(yīng)用, 2022, 39(2): 352-362.

        Kong Weiren, Zhou Deyun, Zhao Yiyang, et al. Maneuvering Strategy Generation Algorithm for Multi-UAV in Close-Range Air Combat Based on Deep Reinforcement Learning and Self-Play[J]. Control Theory amp; Applications, 2022, 39(2): 352-362.(in Chinese)

        [34] Kong W R, Zhou D Y, Zhang K, et al. Multi-UCAV Air Combat in Short-Range Maneuver Strategy Generation Using Reinforcement Learning and Curriculum Learning[C]∥ 19th IEEE International Conference on Machine Learning and Applications, 2021: 1174-1181.

        [35] Liu S Z, Hu X X, Dong K J. Adaptive Double Fuzzy Systems Based Q-Learning for Pursuit-Evasion Game[J]. IFAC-Papers On Line, 2022, 55(3): 251-256.

        [36] Liu C, Van Kampen E J. HER-PDQN: A Reinforcement Learning Approach for UAV Navigation with Hybrid Action Spaces and Sparse Rewards[C]∥AIAA SciTech 2022 Forum, 2022.

        [37] Li Y F, Shi J P, Jiang W, et al. Autonomous Maneuver Decision-Making for a UCAV in Short-Range Aerial Combat Based on an MS-DDQN Algorithm[J]. Defence Technology, 2022, 18(9): 1697-1714.

        [38] Zhang J D, Yu Y F, Zheng L H, et al. Situational Continuity-Based Air Combat Autonomous Maneuvering Decision-Making[J/OL]. Defence Technology," doi: 10.1016/j.dt.2022.08.010.

        [39] 張博超, 溫曉玲, 劉璐, 等. 基于近端策略優(yōu)化的空戰(zhàn)決策算法研究[J]. 航空工程進(jìn)展, 2022: 1-7.

        Zhang Bochao, Wen Xiaoling, Liu Lu, et al. Research on Air Combat Decision Algorithm Based on Proximal Policy Optimization[J]. Advances in Aeronautical Science and Engineering, 2022: 1-7.(in Chinese)

        [40] Sun Z X, Piao H Y, Yang Z, et al. Multi-Agent Hierarchical Policy Gradient for Air Combat Tactics Emergence via Self-Play[J]. Engineering Applications of Artificial Intelligence, 2021, 98: 104112.

        [41] Li L T, Zhou Z M, Chai J J, et al. Learning Continuous 3-DoF Air-to-Air Close-in Combat Strategy Using Proximal Policy Optimization[C]∥ IEEE Conference on Games (CoG), 2022: 616-619.

        [42] Zhang H P, Wei Y J, Zhou H A, et al. Maneuver Decision-Making for Autonomous Air Combat Based on FRE-PPO[J]. Applied Sciences, 2022, 12(20): 10230.

        [43] Yang K B, Dong W H, Cai M, et al. UCAV Air Combat Maneuver Decisions Based on a Proximal Policy Optimization Algorithm with Situation Reward Shaping[J]. Electronics, 2022, 11(16): 2602.

        [44] Yang Q M, Zhu Y, Zhang J D, et al. UAV Air Combat Autonomous Maneuver Decision Based on DDPG Algorithm[C]∥ IEEE 15th International Conference on Control and Automation (ICCA), 2019: 37-42.

        [45] Ren Z, Zhang D, Tang S, et al. Cooperative Maneuver Decision Making for Multi-UAV Air Combat Based on Incomplete Information Dynamic Game[J/OL]. Defence Technology," doi: 10.1016/j.dt.2022.10.008.

        [46] Kong W R, Zhou D Y, Zhang K, et al. Air Combat Autonomous Maneuver Decision for One-on-One within Visual Range Engagement Base on Robust Multi-Agent Reinforcement Learning[C]∥IEEE 16th International Conference on Control amp; Automation (ICCA), 2020: 506-512.

        [47] Kong W R, Zhou D Y, Yang Z, et al. Maneuver Strategy Generation of UCAV for within Visual Range Air Combat Based on Multi-Agent Reinforcement Learning and Target Position Prediction[J]. Applied Sciences, 2020, 10(15): 5198.

        [48] Kong W R, Zhou D Y, Yang Z, et al. UAV Autonomous Aerial Combat Maneuver Strategy Generation with Observation Error Based on State-Adversarial Deep Deterministic Policy Gradient and Inverse Reinforcement Learning[J]. Electronics, 2020, 9(7): 1121.

        [49] Liu J X, Bailey J. AI 2019: Advances in Artificial Intelligence[M]. Cham: Springer International Publishing, 2019: 54-65.

        [50] 孫楚, 趙輝, 王淵, 等. 基于強(qiáng)化學(xué)習(xí)的無人機(jī)自主機(jī)動決策方法[J]. 火力與指揮控制, 2019, 44(4): 142-149.

        Sun Chu, Zhao Hui, Wang Yuan, et al. UCAV Autonomic Maneuver Decision-Making Method Based on Reinforcement Learning[J]. Fire Control amp; Command Control, 2019, 44(4): 142-149.(in Chinese)

        [51] Strickland L G, Pippin C E, Gombolay M. Learning to Steer Swarm-vs.-Swarm Engagements[C]∥ AIAA SciTech 2021 Forum, 2021.

        [52] 陳燦, 莫靂, 鄭多, 等. 非對稱機(jī)動能力多無人機(jī)智能協(xié)同攻防對抗[J]. 航空學(xué)報, 2020, 41(12): 324152.

        Chen Can, Mo Li, Zheng Duo, et al. Cooperative Attack-Defense Game of Multiple UAVs with Asymmetric Maneuverability[J]. Acta Aeronautica et Astronautica Sinica, 2020, 41(12): 324152.(in Chinese)

        [53] Fan Z H, Xu Y, Kang Y H, et al. Air Combat Maneuver Decision Method Based on A3C Deep Reinforcement Learning[J]. Machines, 2022, 10(11): 1033.

        [54] Mnih V, Badia A P, Mirza M, et al. Asynchronous Methods for Deep Reinforcement Learning[EB/OL]. (2017-11-07) [2023-02-07]. https:∥www.docin.com/p-2043915216.html.

        [55] 李波, 白雙霞, 孟波波, 等. 基于SAC算法的無人機(jī)自主空戰(zhàn)決策算法[J]. 指揮控制與仿真, 2022, 44(5): 24-30.

        Li Bo, Bai Shuangxia, Meng Bobo, et al. Autonomous Air Combat Decision-Making Algorithm of UAVs Based on SAC Algorithm[J]. Command Control amp; Simulation, 2022, 44(5): 24-30.(in Chinese)

        [56] Haarnoja T, Zhou A, Hartikainen K, et al. Soft Actor-Critic Algorithms and Applications[EB/OL]. (2019-01-29) [2023-02-07]. https:∥arxiv.org/abs/1812.05905.

        [57] Lee M H, Moon J. Deep Reinforcement Learning-Based Model-Free Path Planning and Collision Avoidance for UAVs: A Soft Actor-Critic with Hindsight Experience Replay Approach[J]. ICT Express, 2023, 9(3): 403-408.

        [58] Wei W Y, Fang Z, Zhu Y W. Model-Free Maneuvering Control of Fixed-Wing UAVs Based on Deep Reinforcement Learning[C]∥AIAA SciTech 2023 Forum, 2023.

        [59] 趙立陽, 常天慶, 褚凱軒, 等. 完全合作類多智能體深度強(qiáng)化學(xué)習(xí)綜述[J]. 計(jì)算機(jī)工程與應(yīng)用, 2023, 59(12): 14-27.

        Zhao Liyang, Chang Tianqing, Chu Kaixuan, et al. Survey of Fully Cooperative Multi-Agent Deep Reinforcement Learning[J]. Computer Engineering and Applications, 2023, 59(12): 14-27.(in Chinese)

        [60] Foerster J, Assael I A, De Freitas N, et al. Learning to Communicate with Deep Multi-Agent Reinforcement Learning[C]∥ Advances in the 30th Neural Information Processing Systems, 2016: 2137-2145.

        [61] Sukhbaatar S, Fergus R. Learning Multiagent Communication with Backpropagation[C]∥ Advances in the 30th Neural Information Processing Systems, 2016: 2244-2252.

        [62] Mao H Y, Zhang Z C, Xiao Z, et al. Learning Agent Communication under Limited Bandwidth by Message Pruning[C]∥AAAI Conference on Artificial Intelligence, 2020: 5142-5149.

        [63] Sunehag P, Lever G, Gruslys A, et al. Value-Decomposition Networks for Cooperative Multi-Agent Learning[EB/OL]. (2017-06-16) [2023-02-07].https:∥doi. org/10.4850/arxiv. 1706. 05296.

        [64] Mahajan A, Rashid T, Samvelyan M, et al. MAVEN: Multi-Agent Variational Exploration[EB/OL]. (2019-10-16) [2023-02-07]. https:∥doi.org/10.48550/arXiv.1910.07483.

        [65] Narvekar S, Peng B, Leonetti M, et al. Curriculum Learning for Reinforcement Learning Domains: A Framework and Survey[EB/OL]. (2017-06-16) [2023-02- 07]. https:∥doi.org/10.48550/arXiv.2003.04960.

        [66] 任志鵬. 基于自主優(yōu)先課程學(xué)習(xí)的深度強(qiáng)化學(xué)習(xí)算法研究[D]. 南京: 南京大學(xué), 2018: 14-29.

        Ren Zhipeng. Self-Paced Prioritized Curriculum Learning with Coverage Penalty in Deep Reinforcement Learning[D]. Nanjing: Nanjing University, 2018: 14-29.(in Chinese)

        [67] Barto A G, Mahadevan S. Recent Advances in Hierarchical Reinforcement Learning[J]. Discrete Event Dynamic Systems, 2003, 13(4): 341-379.

        [68] Chen T L, Lu J A. Towards Analysis of Semi-Markov Decision Processes[M]∥Artificial Intelligence and Compu tational Intelligence. Berlin: Springer, 2010: 41-48.

        [69] Sutton R S, Precup D, Singh S. Between MDPS and Semi-MDPS: A Framework for Temporal Abstraction in Reinforcement Learning[J]. Artificial Intelligence, 1999, 112(1/2): 181-211.

        [70] Parr R, Russell S. Reinforcement Learning with Hierarchies of Machines[J]. Advances in Neural Information Processing Systems, 1998: 1043-1049.

        [71] Dietterich T G. Hierarchical Reinforcement Learning with the MAXQ Value Function Decomposition[J]. Journal of Artificial Intelligence Research, 2000, 13: 227-303.

        [72] Florensa C, Duan Y, Abbeel P. Stochastic Neural Networks for Hierarchical Reinforcement Learning[EB/OL]. (2017-04-10) [2023-02-07]. https:∥doi.org/10.48550/arXiv. 1704.03012.

        [73] Frans K, Ho J, Chen X, et al. Meta Learning Shared Hierarchies[EB/OL]. (2017-10-26) [2023-02-07]. https: ∥doi.org/10.48550/arXiv.1710.09767.

        [74] Bengio Y, Bengio S, Cloutier J. Learning a Synaptic Learning Rule[C]∥IJCNN-91-Seattle International Joint Conference on Neural Networks, 1991: 231-245.

        [75] Schmidhuber J. Evolutionary Principles in Self-Referential Learning[D]. München: Technische Universitt München, 1987.

        [76] 李凡長, 劉洋, 吳鵬翔, 等. 元學(xué)習(xí)研究綜述[J]. 計(jì)算機(jī)學(xué)報, 2021, 44(2): 422-446.

        Li Fanchang, Liu Yang, Wu Pengxiang, et al. A Survey on Recent Advances in Meta-Learning[J]. Chinese Journal of Computers, 2021, 44(2): 422-446.(in Chinese)

        [77] Daniel C, van Hoof H, Peters J, et al. Probabilistic Inference for Determining Options in Reinforcement Learning[J]. Machine Learning, 2016, 104(2/3): 337-357.

        [78] Fakoor R, Chaudhari P, Soatto S, et al. Meta-Q-Learning[EB/OL]. (2020-04-04) [2023-02-07]. https:∥doi. org/10.48550/arXiv.1910.00125.

        [79] Fujimoto S, van Hoof H, Meger D. Addressing Function Approximation Error in Actor-Critic Methods[EB/OL]. (2018-02-26) [2023-02-07]. https:∥doi.org/10.48550/arXiv. 1802.09477.

        [80] Mishra N, Rohaninejad M, Chen X, et al. A Simple Neural Attentive Meta-Learner[EB/OL]. (2017-07-11) [2023-02-07]. https:∥doi.org/10.48550/arXiv.1707.03141.

        [81] Vaswani A, Shazeer N, Parmar N, et al. Attention is All You Need[EB/OL]. (2017-06-12) [2023-02-07]. https:∥doi. org/10.48550/arXiv.1706.03762.

        [82] Xu Z W, van Hasselt H, Silver D. Meta-Gradient Reinforcement Learning[EB/OL].(2018-05-24) [2023- 02-07]. https:∥www.doc88.com/p-9148411556431.html.

        [83] Xu Z W, van Hasselt H, Hessel M, et al. Meta-Gradient Reinforcement Learning with an Objective Discovered Online[EB/OL]. (2020-07-16) [2023-02-07]. https:∥doi. org/10.48550/arXiv.2007.08433.

        [84] Li L Q, Yang R, Luo D J. FOCAL: Efficient Fully-Offline Meta-Reinforcement Learning via Distance Metric Learning and Behavior Regularization[EB/OL]. (2020-10-02) [2023-02-07]. https:∥doi.org/10.48550/arXiv. 2010.01112.

        [85] Luo M, Balakrishna A, Thananjeyan B, et al. MESA: Offline Meta-RL for Safe Adaptation and Fault Tolerance[EB/OL]. (2021-12-07) [2023-02-07]. https:∥doi. org/10.48550/arXiv.2112.03575.

        Status and Prospect on Deep Reinforcement Learning

        Decision-Making Methods for Intelligent Air Combat

        Zhang Ye1*, Tu Yuangang1, Zhang Liang2," Cui Hao2, Wang Jingyu1

        (1.School of Astronautics, Northwestern Polytechnical University, Xi’an 710072, China;

        2. China Airborne Missile Academy, Luoyang 471009, China)

        Abstract: This paper focuses on the development of modern intelligent air combat decision-making technology, and analyzes the elements and characteristics of intelligent air combat scenarios. It introduces the research status and practical application of existing intelligent air combat decision-making methods, including decision-making methods based on game theory, prior data-driven decision-making method, and decision-making methods based on autonomous learning, and especially focuses on deep reinforcement learning intelligent decision-making methods based on value and strategy. Finally, facing to various challenges of future intelligent air combat and the limitations of traditional deep reinforcement learning, the paper gives the future development direction of deep reinforcement learning technology in the field of air combat, which are multi-agent intelligent decision-making technology for cluster warfare, efficient intelligent decision-making technology for wide area space-time, and generalized intelligent decision-making technology for complex scenarios.

        Key words: air combat decision-making; artificial intelligence; reinforcement learning; intelligent game; cluster warfare; deep learning

        猜你喜歡
        深度學(xué)習(xí)人工智能
        我校新增“人工智能”本科專業(yè)
        2019:人工智能
        商界(2019年12期)2019-01-03 06:59:05
        人工智能與就業(yè)
        數(shù)讀人工智能
        小康(2017年16期)2017-06-07 09:00:59
        有體驗(yàn)的學(xué)習(xí)才是有意義的學(xué)習(xí)
        電子商務(wù)中基于深度學(xué)習(xí)的虛假交易識別研究
        MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場域建構(gòu)
        大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
        深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
        基于深度卷積網(wǎng)絡(luò)的人臉年齡分析算法與實(shí)現(xiàn)
        軟件工程(2016年8期)2016-10-25 15:47:34
        激情在线一区二区三区视频| 91产精品无码无套在线| 久久久精品国产视频在线| 久久一区二区av毛片国产| 麻豆国产精品va在线观看不卡| 边做边流奶水的人妻| 伊人网综合| 色婷婷一区二区三区77| 女同同性av观看免费| 黄瓜视频在线观看| 日韩欧美国产丝袜视频| 女同同成片av免费观看| 国产亚洲成性色av人片在线观| 国产成人无码a区在线观看视频| 亚洲午夜无码AV不卡| 午夜精品人妻中字字幕| 欧美拍拍视频免费大全| 一本一道久久综合狠狠老| 日本a级大片免费观看| 日本视频一区二区三区| 国产精品无码无卡无需播放器| 无码一区二区三区老色鬼| 久久婷婷国产综合精品| 日本精品一区二区三区在线观看| 久久久久99精品成人片直播| 色综合久久久久久久久五月| 中文字幕人妻少妇美臀| 淫片一区二区三区av| 亚洲av无码xxx麻豆艾秋| 日韩中文在线视频| 亚洲av成熟国产精品一区二区| 国模冰莲极品自慰人体| 中文乱码人妻系列一区二区| 国产偷闻隔壁人妻内裤av| 精品久久亚洲中文字幕| 天天躁日日躁狠狠躁av| 91精品啪在线看国产网站| 女同恋性吃奶舌吻完整版| 亚洲欧美乱综合图片区小说区| 亚洲国产一区二区三区网| 亚洲日本精品一区二区三区|