亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        非對稱機動能力多無人機智能協(xié)同攻防對抗

        2020-12-28 08:36:02陳燦莫靂鄭多程子恒林德福
        航空學報 2020年12期
        關鍵詞:策略

        陳燦,莫靂,鄭多,*,程子恒,林德福

        1. 北京理工大學 宇航學院,北京 100081 2. 北京理工大學 無人機自主控制技術北京市重點實驗室,北京 100081

        隨著單體無人機技術的快速發(fā)展和成熟應用,無人機的協(xié)同作戰(zhàn)已經(jīng)成為可能,多無人機間的協(xié)同攻防對抗逐漸成為未來空戰(zhàn)的重要模態(tài)。多無人機通過環(huán)境感知,判斷周圍態(tài)勢,依據(jù)一定的攻防策略,采取攻擊、避讓、分散、集中、協(xié)作、援助等行為,實現(xiàn)攻防對抗。多無人機間的協(xié)同攻防對抗可以描述為復雜多約束條件下的最優(yōu)決策問題,包含追逃博弈和領土防御博弈兩個子問題。在追逃博弈中,追逃雙方通過采取最優(yōu)化的策略來快速接近或遠離對手,態(tài)勢變化迅速;在領土防御博弈中,態(tài)勢優(yōu)劣取決于入侵者、防御者和目標三者之間的幾何關系,策略求解空間大。而結合了領土防御和追逃博弈的無人機攻防對抗問題狀態(tài)空間維數(shù)高,態(tài)勢復雜多變,攻防策略多樣,導致求解的難度急劇增大,需要更加高效的決策算法。

        追逃博弈和領土防御博弈是空戰(zhàn)、搜索和安防等領域中的核心科學問題,一直是學者們爭相研究的難點和熱點。面向此類問題,傳統(tǒng)的研究主要在一對一條件下,依托于微分博弈理論和最優(yōu)控制理論,對追逃博弈和領土防御博弈的決策問題進行研究。其思想是將微分博弈問題的求解轉化為變分問題[1-2],進而通過求解哈密頓-雅克比方程,求得最優(yōu)策略的解析解。早在20世紀60年代,Isaacs[1]就從數(shù)學的角度分析了追逃博弈和領土防御博弈等雙人零和博弈問題的特性,提出了最優(yōu)策略的解析解法。文獻[3]基于變分學研究了導彈的制導問題,推導得比例導引律。文獻[4]則基于極大極小值原理提出了一種哈密頓-雅克比方程的廣義求解方法,研究了一對一的追逃博弈問題。攻防對抗最優(yōu)解的解析解通常存在求解難度大,甚至無解的問題。而數(shù)值方法可以利用計算機的強大計算能力,迭代求解最優(yōu)策略。例如,有學者將牛頓法[5]和梯度法[6]應用于微分對策數(shù)值解的求解。文獻[7]則采用自適應動態(tài)規(guī)劃算法在線求解哈密頓-雅克比方程。

        考慮攻防雙方機動能力之間的差異,低機動能力的一方需要通過增加數(shù)量來彌補個體能力差異。已經(jīng)有文獻研究了多個追蹤者和單個逃逸者的追逃博弈問題,以及多個防御者和單個入侵者的領土防御博弈問題。在多對一的博弈中,基于微分博弈理論和最優(yōu)控制理論的方法一般通過一些規(guī)則和假設,建立微分博弈模型以求解最優(yōu)策略。如文獻[8]基于導彈的命中順序的假設研究了兩個導彈攔截單個目標的最優(yōu)制導律。文獻[9]則基于兩個追蹤者與單個逃逸者的幾何關系,通過坐標轉換建立微分博弈模型,求解最優(yōu)協(xié)同追蹤策略。

        當無人機數(shù)量增多時,微分博弈的建模過程趨于復雜,所需的規(guī)則或假設增多,求解最優(yōu)的協(xié)同對抗策略的難度將顯著增加。針對該問題,現(xiàn)有文獻提出了不依賴微分博弈模型的決策方法,包括基于仿生學[10-12]和幾何學[13-14]的決策方法、基于模糊控制理論的決策方法[15]以及基于強化學習的決策方法[16-19]等?;诜律鷮W和幾何學的決策方法受到自然界中捕獵和覓食現(xiàn)象的啟發(fā),提出基于攻防雙方幾何關系的變化,設計控制策略。如Isler等[10]將隨機策略與獅子的追捕策略相結合,研究了兩個追蹤者對一個高速運動的逃逸者的協(xié)同追捕;Yamaguchi[11]研究了多對一的追逃博弈,模擬捕獵行為提出了一種帶反饋的分布式控制器;文獻[12]研究了多追蹤者具有轉彎速率約束時,多對一的追逃博弈,提出了一種受魚類覓食行為啟發(fā)的協(xié)同追捕策略;文獻[13]研究了多對一的平面追逃問題,提出了基于泰森多邊形的協(xié)同追捕策略;文獻[14]則提出了基于阿波羅圓的多對一協(xié)同追捕策略?;谀:刂评碚揫15]的方法依據(jù)專家知識和對抗規(guī)則離散化博弈狀態(tài)和行為策略,簡化博弈模型。如文獻[15]利用模糊規(guī)則離散化多無人機空戰(zhàn)問題,并采用粒子群算法求解納什均衡策略。而在強化學習[16,18]和模糊控制與強化學習相結合[17,19-20]的方法中無需微分博弈模型,智能體可以通過與環(huán)境的交互、學習和優(yōu)化對抗策略。如文獻[16]提出將Q學習算法與基于運動模式的反應式控制結構相結合,研究了在有障礙的環(huán)境中,多個追蹤者對單個有速度優(yōu)勢的逃逸者的協(xié)同追捕;文獻[17]提出了基于模糊Actor-Critic算法的分布式控制器用于研究多追蹤者單逃逸者的追逃博弈問題;加拿大卡爾頓大學的團隊[18-19]研究了Minimax-Q[21]算法、狼爬山策略學習(Wolf Policy Hill Climbing, Wolf-PHC)[22]算法、模糊Q學習[20]和模糊Actor-Critic算法[17]在一對一和二對一的領土防御博弈中的應用。

        隨著無人機協(xié)同技術的發(fā)展和應用,未來戰(zhàn)爭中無人機的攻防對抗將以復雜環(huán)境下雙方能力非對稱的多對多博弈的形式出現(xiàn),現(xiàn)有的針對一對一、多對一博弈問題的研究方法將難以適用。

        本文面向未來空中作戰(zhàn)任務需求,研究了存在障礙區(qū)和隱蔽區(qū)約束的復雜環(huán)境下,高機動能力的進攻無人機與低機動能力的防御無人機之間的非對稱條件下多對多協(xié)同攻防對抗問題。由于約束條件多、個體-群體交叉耦合以及雙方態(tài)勢交替演化、復雜多變等因素,難以求得無人機協(xié)同攻防策略的解析解。因此,本文提出基于多智能體強化學習算法[23],通過無人機與環(huán)境的不斷交互,使無人機自主地學習和優(yōu)化協(xié)同對抗策略。為了兼顧算法收斂性能與決策效率,文中將多智能體自主學習特性與神經(jīng)網(wǎng)絡的強大擬合能力相結合,利用輸入全局信息的集中式評判來提升無人機學習能力和保證訓練收斂,利用輸入局部感知信息的分布式執(zhí)行滿足在線實時決策。在此基礎上,建立高擬真的對抗環(huán)境,基于相同的決策架構,通過構造不同的獎懲機制,充分考慮多維環(huán)境變量進行攻防雙方對抗訓練,以提升分布式?jīng)Q策算法的泛化能力,賦予無人機在多約束、高動態(tài)和強對抗復雜環(huán)境的強自適應能力。

        1 無人機協(xié)同攻防對抗問題數(shù)學描述

        1.1 協(xié)同攻防對抗問題

        多無人機協(xié)同攻防對抗問題可描述為有限任務區(qū)域內,多無人機圍繞特定目標的攻防博弈。無人機通過機載導航裝置可以測量自身的位置和速度,通過機載探測雷達可以感知與其他無人機、障礙物和隱蔽區(qū)的相對位置。如圖1所示,環(huán)境中包括任務目標、若干障礙物和隱蔽區(qū),當無人機進入隱蔽區(qū)將無法被感知到其位置。其中,(xi,yi)為第i架無人機的位置坐標,(xT,yT)為任務目標中心點的位置坐標,(xl,yl)為障礙物中心點的位置坐標,(xs,ys)為隱蔽區(qū)中心點的位置坐標。攻防對抗包含兩個博弈子問題:

        1) 目標攻防(領土防御博弈)

        進攻無人機攻擊目標,而防御無人機負責保護目標,攔截進攻無人機。

        2) 追逃博弈

        在限定區(qū)域內,防御無人機追捕進攻無人機,進攻無人機躲避防御無人機的追捕。

        本文一體化考慮兩個博弈子問題定義了攻防雙方的獎勵反饋,令每個防御無人機在捕獲一個進攻無人機后獲得獎勵,在目標被入侵后獲得懲罰;而每個進攻無人機被捕獲后獲得懲罰,在入侵目標后獲得獎勵。

        (1)

        (2)

        式中:Rr和Rb分別為防御無人機和進攻無人機的個體獎勵。進攻無人機和防御無人機的博弈狀態(tài)近似使用對抗雙方無人機之間的歐式距離和進攻無人機與目標之間的歐式距離表示。進攻無人機與防御無人機的歐式距離可表示為

        (3)

        進攻無人機與目標的歐式距離表示為

        (4)

        式中:pr為防御無人機的位置;pb為進攻無人機的位置;pT為目標中心的位置。防御無人機成功攔截進攻無人機需滿足的條件為二者的歐式距離

        圖1 多無人機攻防對抗問題Fig.1 Multi-UAV attack-defense game

        小于防御無人機捕獲半徑:

        (5)

        同理,進攻無人機成功入侵目標需滿足的條件為

        (6)

        式中:er為防御無人機的捕獲半徑;eb為進攻無人機的攻擊半徑;eT為目標區(qū)域半徑。

        1.2 無人機運動學模型

        本文以多旋翼無人機為研究對象,其個體無人機的運動學模型可以簡化為

        (7)

        式中,p為無人機的位置;v為速度矢量;a為加速度控制量;λ為無人機的阻力加速度。本文考慮多旋翼無人機的氣動特性和動力系統(tǒng)的限制,確定了無人機的最大飛行速度vmax和最大加速度amax。其中,攻防雙方機動能力不同,即非對稱機動能力,故:

        1) 進攻無人機具有速度快、機動性強的優(yōu)勢,其最大速度為vmax=15 m/s,最大加速度為amax=4.5 m/s2。

        2) 防御無人機的速度較慢,機動性較弱,其最大速度為vmax=10 m/s,最大加速度為amax=3 m/s2。

        2 無人機協(xié)同攻防對抗決策

        受多智能體強化學習理論的啟發(fā),本文將單個無人機描述為具有感知、判斷和執(zhí)行能力的智能體,多無人機系統(tǒng)描述為一個多智能體系統(tǒng),無人機多智能體系統(tǒng)通過與環(huán)境的不斷交互,學習協(xié)同攻擊和防御策略,涌現(xiàn)協(xié)同智能。

        2.1 多無人機強化學習

        在單智能體強化學習中,智能體通過與環(huán)境的交互學習行為策略。如圖2所示,多無人機強化學習在此基礎上,使無人機在訓練時不僅與環(huán)境交互,還與其他無人機交互,從而學習協(xié)同對抗策略。

        圖2 多無人機強化學習基本框架Fig.2 Multi-UAV reinforcement learning framework

        多無人機強化學習的過程屬于部分可觀測馬爾科夫決策過程(POMDP)。POMDP可以通過表示,其中:

        1)n為無人機的個數(shù)。

        4) 所有無人機的運動學共同構成多無人機系統(tǒng)的狀態(tài)轉移函數(shù)T。

        (8)

        式中:γ為折扣因子,代表某一時刻獎勵的權重。本文利用由累積總回報定義的狀態(tài)-動作值函數(shù)來評估每個無人機的行為策略:

        (9)

        圖3 強化學習過程Fig.3 Reinforcement learning process

        2.2 集中評判-分布式?jīng)Q策策略優(yōu)化算法

        僅依賴于局部信息的分布式執(zhí)行,可以增強無人機決策的實時性,降低其對通信的依賴,提升系統(tǒng)的魯棒性。然而,若訓練時僅使用局部信息會導致策略梯度估計的高方差,且會由于缺少對整體態(tài)勢的評估,使無人機難以學習高效的協(xié)同對抗策略。因此本文提出集中式評判和分布式執(zhí)行的算法架構,使每個無人機在訓練時使用所有無人機的觀測和行為信息,而在執(zhí)行時僅使用無人機自身的觀測信息,這樣做可以降低梯度估計的方差,保證算法穩(wěn)定收斂,同時兼顧無人機決策的效率與性能。

        本文提出的算法受到執(zhí)行-評價(Actor-Critic)算法的啟發(fā),其可分為評判模塊和執(zhí)行模塊兩部分:執(zhí)行模塊表示無人機的行為策略,輸入為無人機自身的觀測信息;評判模塊表示無人機的集中式狀態(tài)-動作值函數(shù),輸入為多無人機系統(tǒng)的全局信息。本文在同一個多無人機系統(tǒng)中將攻防雙方無人機一體化考慮,雙方基于各自的任務目的使用不同的獎懲機制,因此每個無人機都獨立地訓練一個集中式的狀態(tài)-動作值函數(shù),從而構造一種多無人機的集中式評判-分布式執(zhí)行決策算法。算法基本架構如圖4所示,每個無人機包含一個對抗策略π和評判模塊Q,在執(zhí)行時僅使用π依據(jù)感知信息輸出動作,而在訓練中則利用Q對策略進行評價并引導策略優(yōu)化。

        將深度學習與強化學習相結合,并借鑒深度Q學習(Deep Q-learning Network, DQN)[24]算法的思想,利用神經(jīng)網(wǎng)絡提升無人機對攻防態(tài)勢的預測能力[25]和復雜情況下的決策能力。通過引入目標神經(jīng)網(wǎng)絡和經(jīng)驗回放機制,改善神經(jīng)網(wǎng)絡訓練難以穩(wěn)定收斂的問題。對于第i架無人機,其學習算法的組成及訓練流程如圖5所示。無人機的執(zhí)行模塊依據(jù)在訓練環(huán)境中T時刻的觀測來執(zhí)行決策,將訓練環(huán)境返回的狀態(tài)、行為、獎勵等信息存入到經(jīng)驗存儲單元中。評判模塊和執(zhí)行模塊均包含主神經(jīng)網(wǎng)絡和目標神經(jīng)網(wǎng)絡,其訓練數(shù)據(jù)來自對經(jīng)驗存儲單元的隨機采樣,即經(jīng)驗回放。主神經(jīng)網(wǎng)絡的參數(shù)通過優(yōu)化函數(shù)模塊更新,而目標神經(jīng)網(wǎng)絡的參數(shù)通過復制主神經(jīng)網(wǎng)絡的參數(shù)獲得,且復制滯后于主神經(jīng)網(wǎng)絡的參數(shù)更新。當訓練收斂后,即完成策略優(yōu)化,每個無人機可以僅通過將自身的感知信息輸入策略神經(jīng)網(wǎng)絡來輸出動作指令,進行決策。

        圖4 多無人機執(zhí)行-評判算法框架Fig.4 Multi-UAV actor-critic algorithm framework

        圖5 無人機i攻防決策學習算法Fig.5 Decision making and training algorithm of UAVi

        2.2.1 評判模塊:集中式值函數(shù)

        (10)

        L(ω)=Ext,at,rt,xt+1[(Qi(xt,at|ωM)-yi)2]

        (11)

        式中:t表示樣本數(shù)據(jù)的時間戳;ωT為目標神經(jīng)網(wǎng)絡遲滯更新的權重參數(shù)矩陣;ωM為主神級網(wǎng)絡實時更新的權重參數(shù)矩陣。

        為了擬合值函數(shù),建立含有4層全連接層的神經(jīng)網(wǎng)絡,如圖6所示。通過隨機梯度下降優(yōu)化式(11) 中的損失函數(shù)來更新網(wǎng)絡參數(shù)。神經(jīng)網(wǎng)絡結構的具體參數(shù)如表1所示。

        圖6 值函數(shù)神經(jīng)網(wǎng)絡Fig.6 Neural network of value function

        2.2.2 執(zhí)行模塊

        表1 值函數(shù)神經(jīng)網(wǎng)絡結構參數(shù)Table 1 Neural network of value function structure parameters

        J(θi)=Ex~pπ,a~πθ[Gi]

        (12)

        根據(jù)之前定義的狀態(tài)-動作值函數(shù),對于隨機性策略,目標函數(shù)的梯度[26]為

        (13)

        根據(jù)Silver在確定性策略梯度(Deterministic Policy Gradient, DPG)算法的論文[26]中給出的確定性策略的存在性證明,在使用經(jīng)驗回放機制時,目標函數(shù)的策略梯度如式(15)所示:

        (14)

        (15)

        式中:D表示無人機的經(jīng)驗存儲單元。

        目標函數(shù)J(θi)是狀態(tài)-動作值函數(shù)的無偏估計量,本文直接使用評判模塊的主神經(jīng)網(wǎng)絡輸出的狀態(tài)-動作值函數(shù)替代J(θi),定義策略神經(jīng)網(wǎng)絡的損失函數(shù)L(θi), 根據(jù)策略梯度可計算損失函數(shù)的梯度,從而優(yōu)化策略參數(shù)。

        (16)

        式中:ki為第i架無人機的動作空間大??;第2項是各個無人機動作空間的正則化,用于降低攻防兩類無人機的動作空間大小差異對神經(jīng)網(wǎng)絡訓練的影響;c為正則化系數(shù)。

        探索和利用是強化學習的主要矛盾之一,探索是嘗試不同的行為從而收集更多的數(shù)據(jù)樣本來進行學習,利用則是指基于當前信息做出最優(yōu)決策。為提高學習算法的探索能力,使用高斯分布在無人機的動作和估計其他無人機的動作中加入隨機性。因此,策略神經(jīng)網(wǎng)絡和目標策略神經(jīng)網(wǎng)絡的輸出分為兩部分:具體的動作值(平均值μ)和方差σ,執(zhí)行模塊的神經(jīng)網(wǎng)絡輸出的動作值為

        (17)

        式中:N(0,1)為標準正態(tài)分布。

        圖7 策略神經(jīng)網(wǎng)絡Fig.7 Policy neural network

        2.3 獎勵函數(shù)設計

        如果在攻防對抗的訓練中,無人機只有最終回報,會使得訓練過程缺乏環(huán)境反饋引導,導致策略的學習過程緩慢。因此,此處設計獎勵函數(shù)提供額外的回報來提高學習效率。下面分別對進攻和防御無人機的獎勵函數(shù)進行描述:

        1) 進攻無人機的獎勵函數(shù)包括基于目標距離的獎勵、被捕獲懲罰和越界懲罰3部分,可描述為

        Rb=Rd+Pb+Pc

        (18)

        獎勵Rd表示為

        (19)

        懲罰函數(shù)表示為

        (20)

        (21)

        式中:τ為二維正方形任務區(qū)域的邊界值;R為場景內防御無人機的集合。

        2) 防御無人機的獎勵函數(shù)包括防御無人機與距離最近的進攻無人機的距離,以及目標被攻擊的懲罰,表示為

        (22)

        3 仿真結果

        3.1 仿真參數(shù)

        本文將多無人機協(xié)同攻防對抗問題離散化,取定仿真步長1 s,任務區(qū)域為200 m×200 m的正方形區(qū)域,訓練中多無人機協(xié)同攻防場景的參數(shù)見表2,其中障礙區(qū)和隱蔽區(qū)分別為半徑15 m和半徑25 m的圓域。

        多無人機強化學習算法的訓練中,取優(yōu)化函數(shù)模塊的學習率α=0.01,折扣因子γ=0.95,單回合最大步數(shù)為50,單次采樣樣本量為1 024組,采樣周期為100步,正則化系數(shù)c=0.001。

        表2 仿真環(huán)境設置Table 2 Parameters of simulation environment

        3.2 算法訓練

        通過所有無人機的平均單回合總回報評估算法,每隔1 000個回合計算一次平均總回報,一個回合即一次攻防對抗。訓練過程中所有無人機、防御無人機和進攻無人機的平均每回合總回報曲線如圖8所示,由圖可知整個多無人機系統(tǒng)中,攻防雙方先后學習到了有效的防御策略和進攻策略。約35 000回合后,訓練開始收斂。

        在訓練20 000回合后測試了訓練效果,測試場景設置與訓練場景設置相同。圖9分別展示了無人機在20 000回合的訓練后學習到的進攻策略和防御策略。圖中,曲線表示無人機的運動軌跡,箭頭表示無人機每一時刻的速度矢量。分析圖9可知,防御無人機和進攻無人機可以完成進攻或防御任務,但是完成效率較低,協(xié)同對抗策略不完善。

        圖8 學習過程Fig.8 Learning process

        圖9 訓練測試結果Fig.9 Test result during training

        3.3 仿真結果及分析

        首先對攻防雙方采用集中評判-分布執(zhí)行算法結構的兩組仿真算例進行仿真,分別體現(xiàn)協(xié)同進攻策略和協(xié)同防御策略。

        1) 協(xié)同進攻

        圖10 無人機協(xié)同進攻的功防軌跡和態(tài)勢演化Fig.10 Trajectory and situation evolution of UAVs cooperative attack

        由圖10可知,對抗開始后,防御無人機1和防御無人機2共同追蹤進攻無人機1和進攻無人機2至右上角區(qū)域,形成了協(xié)同追捕的態(tài)勢。之后,進攻無人機2采取“分散”的策略,向與之前相反的逃逸方向快速機動。最后,進攻無人機2利用速度和加速度的優(yōu)勢從防御無人機追捕的空隙中突防,成功入侵目標,測試結果體現(xiàn)了訓練后進攻無人機的協(xié)同智能。再分析圖11可知,進攻無人機和防御無人機均滿足各自最大速度和最大加速度約束條件,進攻無人機充分利用自身的機動能力優(yōu)勢突防。

        2) 協(xié)同防御

        分析圖12可知,對抗開始后的第1階段,進攻無人機向一側運動,防御無人機1和2開始追蹤進攻無人機,而防御無人機3低速運動。在第2階段,進攻無人機做快速轉彎機動,進攻無人機1向相反方向運動,無人機2向下方運動。第3階段,防御無人機1和2繼續(xù)追蹤進攻無人機1,而防御無人機3預判了進攻無人機2的行為,成功將其攔截。最后,防御無人機1和2追蹤進攻無人機1至任務區(qū)域右上角,并形成了“上下夾擊”的態(tài)勢,進攻無人機均被成功捕獲。測試結果體現(xiàn)了訓練后防御無人機的協(xié)同智能。結合圖13分析可知,在進攻和防御無人機均滿足各自最大速度和最大加速度約束的條件下,防御無人機通過協(xié)同策略彌補了低機動能力的劣勢。

        圖11 無人機速度和加速度曲線(協(xié)同進攻)Fig.11 Velocity and acceleration of UAVs (cooperative attack)

        圖12 無人機協(xié)同防御的軌跡和態(tài)勢演化Fig.12 Trajectories and situation evolution of UAV cooperative defense

        為了測試研究提出的無人機協(xié)同對抗算法性能,將本文提出的利用全局信息集中評判(即集中評判)與僅依賴個體無人機觀測信息和動作信息評判(即局部評判)訓練得到的策略神經(jīng)網(wǎng)絡模型進行對抗。經(jīng)過1 000回合對抗仿真,統(tǒng)計結果如表3所示。其中,成功率為無人機達成目標的回合數(shù)所占比例,限時未分勝負率表示限定時間內不分勝負的回合數(shù)所占比例。

        圖13 無人機速度和加速度曲線(協(xié)同防御)Fig.13 Velocity and acceleration of UAVs (cooperative defense)

        表3 1 000回合攻防對抗仿真結果統(tǒng)計

        根據(jù)表3可知,當攻防雙方均采用本文提出的集中評判算法結構訓練個體無人機時,攻防成功率差距較小。而當攻防雙方,一方采用集中評判算法結構,另一方采用局部信息評判算法結構訓練個體無人機時,集中評判結構的成功率明顯高于局部信息評判結構的成功率,成功率相差達到2倍以上。因此,相比于僅依賴局部信息訓練的局部評判算法結構,本文提出的集中評判-分布執(zhí)行算法結構可令無人機評判模塊在訓練時評估策略對攻防雙方整體態(tài)勢的影響,使無人機可以預測整體態(tài)勢的變化,從而獲得更高效的協(xié)同對抗策略。

        4 結 論

        本文針對有限空域內多旋翼無人機的協(xié)同攻防對抗問題,考慮對抗雙方不同的機動能力約束,提出了一種基于集中式評判訓練和分布式執(zhí)行的多無人機強化學習算法,兼顧學習速度與執(zhí)行效率,賦予無人機自學習和進化的協(xié)同對抗決策能力,主要結論如下:

        1) 集中式評判和分布式執(zhí)行的算法架構能夠保證學習算法訓練的快速穩(wěn)定收斂,文中提出的多無人機強化學習算法賦予無人機在與環(huán)境不斷交互中的自學習和進化能力。

        2) 集中式評判和分布式執(zhí)行的算法架構使無人機能通過集中式評判學習高效率的協(xié)同攻防策略,同時實現(xiàn)了多無人機的分布式?jīng)Q策,使無人機能夠僅依靠個體局部感知信息,實現(xiàn)多對多協(xié)同攻防對抗,涌現(xiàn)群體智能。

        3) 高動態(tài)對抗仿真算例表明,研究提出的多無人機強化學習算法在攻防過程中能夠適時地避障、躲藏,增加無人機復雜環(huán)境的動態(tài)適應能力。低機動能力無人機通過彼此協(xié)作,可以彌補機動能力劣勢,實現(xiàn)“以智勝強”。

        4) 文中提出的集中式評判和分布式執(zhí)行多無人機強化學習算法兼顧分布式?jīng)Q策的要求與策略性能,賦予無人機高效的學習能力和協(xié)同協(xié)作能力,為復雜環(huán)境下空中多無人機協(xié)同攻防推演和決策提供了一種智能化的方法,亦為空中無人系統(tǒng)對抗研究提供了一種新思路。

        猜你喜歡
        策略
        基于“選—練—評”一體化的二輪復習策略
        幾何創(chuàng)新題的處理策略
        求初相φ的常見策略
        例談未知角三角函數(shù)值的求解策略
        我說你做講策略
        “我說你做”講策略
        數(shù)據(jù)分析中的避錯策略
        高中數(shù)學復習的具體策略
        “唱反調”的策略
        幸福(2017年18期)2018-01-03 06:34:53
        價格調整 講策略求互動
        亚洲另类激情综合偷自拍图| 99精品人妻无码专区在线视频区| 亚洲日本在线电影| 色综合另类小说图片区| 一本大道综合久久丝袜精品| 麻神在线观看免费观看| 女人和拘做受全程看视频| 亚洲av之男人的天堂| 国产免费的视频一区二区| 亚洲国产av一区二区三区| 熟妇人妻久久中文字幕| 狠狠久久久久综合网| 国产成人午夜av影院| 亚洲第一幕一区二区三区在线观看 | 久久国产精品免费一区六九堂 | 中文无码一区二区不卡αv| 国产精品偷伦免费观看的| 麻豆视频在线观看免费在线观看| 超碰国产精品久久国产精品99 | 日产精品99久久久久久| 天天综合亚洲色在线精品| 四虎国产精品免费久久麻豆| 亚洲熟女熟妇另类中文| 国内最真实的xxxx人伦| 亚洲日韩欧美国产高清αv| 少妇被爽到自拍高潮在线观看| 国产日产久久高清ww| 激情第一区仑乱| 尤物无码一区| 亚洲中文字幕一区二区三区多人 | 亚洲精品理论电影在线观看| 精品日韩在线观看视频| 日韩午夜福利无码专区a| 把插八插露脸对白内射| 美女黄频视频免费国产大全| 中国男男女在线免费av| 国产喷水1区2区3区咪咪爱av| 中文字幕不卡在线播放| 亚洲福利视频一区二区三区 | 福利视频一二区| 精品亚洲一区二区三区在线播放 |