亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于多智能體博弈強化學習的無人機智能攻擊策略生成模型

        2023-10-11 12:59:40趙芷若陳希亮章樂貴
        系統(tǒng)工程與電子技術 2023年10期
        關鍵詞:藍方紅方狀態(tài)

        趙芷若, 曹 雷, 陳希亮, 賴 俊, 章樂貴

        (中國人民解放軍陸軍工程大學指揮控制工程學院, 江蘇 南京 210007)

        0 引 言

        伴隨著機械化時代的結束和信息化、智能化時代的到來,現(xiàn)代戰(zhàn)爭戰(zhàn)斗力生成模式的發(fā)生域由物理域邁向信息域和認知域。在智能化時代,如何通過人工智能技術取得決策優(yōu)勢,加快觀察,判斷,決策,行動(observe, orient, decide, act, OODA)循環(huán),使對手陷入OODA死循環(huán),值得深入思考[1-3]。

        智能化、無人化作戰(zhàn)作為未來戰(zhàn)爭關注的焦點,迫切需要協(xié)同配合、自組織和快速決策[4-5]。構建無人機智能攻擊策略生成模型的重點,主要體現(xiàn)在以下兩個方面。

        (1) 訓練空中無人機的尋路和隱蔽能力,在避開敵人的偵察和火力打擊的前提下,精準定位目標位置并實施精確打擊;

        (2) 訓練空中無人機的協(xié)同配合和自組織、自適應能力,在最小化我方損失的原則下完成作戰(zhàn)任務。

        近年來,在單智能體領域,由深度學習與強化學習結合而產生的Atari游戲和圍棋的虛擬玩家均達到了人類頂級玩家的水平。在多智能體領域,基于值函數(shù)分解的多智能體深度強化學習算法,如值函數(shù)分解法[6]、混合多智能體值分解算法[7]等也在星際爭霸游戲中取得了很好的成績。從單智能體到多智能體,問題的復雜度大大增加,卻也更貼近軍事需要,因為真實的戰(zhàn)場空間存在大量需要協(xié)同組織與配合的基礎作戰(zhàn)單元。由于傳統(tǒng)的單智能體強化學習方法只能對單個作戰(zhàn)單元進行建模,如果將其直接應用于多智能體系統(tǒng),即將其他智能體視為環(huán)境的一部分,那么將會違反強化學習的基本假設,產生環(huán)境不平穩(wěn)的問題,從而不再適用。相比之下,多智能體強化學習方法在軍事對抗問題的建模及訓練和輔助決策上更有研究價值。另一方面,軍事對抗問題也屬于博弈問題,可以利用博弈論中的相關知識對其進行評估和優(yōu)化。

        目前,多智能體博弈強化學習作為多智能體和博弈論的結合體,在解決大規(guī)模智能體之間的交互計算困難[8]、學習對手的策略[9]、完成實時策略(real time strategy, RTS)游戲中的微觀管理任務[10]和提升算法的魯棒性[11]方面均取得了不錯的成果。隨著研究的深入,越來越多的博弈論方法被用來分析多智能體問題,產生了平均場多智能體強化學習算法[12]、基于對手意識的學習算法[13]和多智能體深度確定性策略梯度算法[14]等多智能體博弈強化學習方法。因此,將多智能體博弈強化學習方法應用于無人機智能攻擊策略生成已成為人工智能作戰(zhàn)模擬仿真領域的關鍵技術之一。

        目前,多智能體博弈的成功主要來自兩個領域的技術組合:深度強化學習和博弈論。前者用于在交互式環(huán)境中訓練具有特定目標的智能體,但無法直接被應用于多智能體場景[15];后者為分析多智能體的行為而生,但更多偏向理論研究,算法應用只局限于較小的范圍[16]。

        強化學習[17]是讓智能體以最大化獎勵函數(shù)為目標,在試錯中學習的算法,非常適合解決序貫決策類問題。深度學習[18]是用神經(jīng)網(wǎng)絡從原始輸入中提取高級特征的一類機器學習算法。在深度學習普及之前,強化學習需要用人工提取特征來表示復雜博弈的狀態(tài)信息,神經(jīng)網(wǎng)絡可以作為一個自適應函數(shù)近似器,允許強化學習擴展到高維狀態(tài)空間[19]和續(xù)動作空間[20]。深度強化學習是上述兩種算法的結合,兼具二者的優(yōu)點。

        本文嘗試使用多智能體博弈強化學習方法來解決無人機智能攻擊策略的生成與優(yōu)化問題。將無人機智能攻擊策略生成問題建模為馬爾可夫博弈過程,嘗試采用強化學習和博弈論相結合的方法來求解和優(yōu)化無人機智能攻擊策略,通過利用與仿真環(huán)境交互的“試錯”數(shù)據(jù)來直接學習策略,不需要人為構建推理模型,在此基礎上利用博弈論中“顫抖的手完美”[21-22]策略進行優(yōu)化。

        1 無人機智能攻擊策略訓練模型

        1.1 基于馬爾可夫隨機博弈的無人機智能攻擊策略生成過程建模

        單智能體強化學習可以使用馬爾可夫決策過程(Markov decision process, MDP)進行描述,而多智能體強化學習(multi-agent reinforcement learning, MARL)則需要使用馬爾可夫博弈[23-24]過程來描述。無人機智能攻擊策略訓練問題,可認為是在連續(xù)動作和狀態(tài)空間上的實時決策問題,可以依照馬爾可夫博弈過程進行建模。具體地,定義了一個元組并用數(shù)學語言進行形式化描述:(N,S,a1,a2,…,aN,T,γ,r1,r2,…,rN)。其中:N為智能體個數(shù);S為多智能體的聯(lián)合系統(tǒng)狀態(tài);a1,a2,…,aN為智能體的動作集合;T為狀態(tài)轉移函數(shù),T:S×a1×…×an×S′→[0,1],即根據(jù)當前系統(tǒng)狀態(tài)和聯(lián)合動作,給出下一個狀態(tài)的概率分布;ri(s,a1,…,aN,s′)表示智能體i在狀態(tài)S時,執(zhí)行聯(lián)合動作后,到達下一個狀態(tài)S′所獲得的獎勵,獎賞函數(shù)一般是關于環(huán)境和動作的函數(shù);γ表示折扣因子,γ∈[0,1]。

        在多智能體博弈中,智能體的學習目標是找到聯(lián)合最優(yōu)策略,最大化累積回報值。

        1.2 無人機智能攻擊場景建模

        本文構建了3vs.9的無人機反坦克對抗場景。對抗雙方為紅方和藍方。其中,紅方是由3架MQ-1C型“灰鷹”無人機組成的三機編隊(使用 MARL 算法進行仿真);藍方是由4個地空導彈排(薩姆-22“灰狗”地空導彈)和9個坦克排(4輛T-72型主戰(zhàn)坦克)組成的防空編隊(使用固定戰(zhàn)術規(guī)則)。

        交戰(zhàn)空域設置為矩形二維平面環(huán)境。雙方均設置固定出發(fā)點。紅方無人機在指定對抗空域內進行空對地打擊。藍方地空導彈排在地面按規(guī)則對紅方戰(zhàn)機進行偵察,一旦感知紅方戰(zhàn)機威脅并當紅方戰(zhàn)機進入藍方地空導彈排火力打擊范圍內,就伺機殲滅之。在目標殲滅或丟失后繼續(xù)偵察搜索。由于紅方無人機的飛行高度高于藍方坦克的射程范圍,故藍方坦克無法對紅方無人機構成威脅;紅方無人機的任務是避開地空導彈排的火力打擊范圍,并殲滅藍方所有坦克。

        1.3 無人機飛行模型

        假設無人機的飛行高度固定,無人機只在二維平面上飛行,其運動模型如下:

        式中:x,y分別表示平面直角坐標系下的坐標分量;v表示速度矢量,vx,vy分別表示無人機在兩個方向上的速度分量;φ表示航向角。

        無人機飛行軌跡受到最小航跡AB和最小轉彎半徑Rmin的限制[25]。其中,最小航跡表示無人機在改變飛行姿態(tài)前須保持直飛的最短距離。無人機的飛行軌跡如圖1所示。

        圖1 無人機飛行軌跡圖Fig.1 Unmanned aerial vehicle flight trajectory

        A,B,C,D這4個點分別對應初始位置、轉向開始位置、轉向結束位置和終止位置。

        1.4 狀態(tài)空間設定

        狀態(tài)空間包括無人機、坦克排、地空導彈排的生存狀態(tài)、速度、海拔、經(jīng)度、緯度,具體定義如下:

        式中:i,j,k分別表示第i,j,k個無人機、坦克排和地空導彈排。

        1.5 動作空間設定

        由于紅方無人機是空中移動目標,所有紅方無人機的可選動作集合包括開火和移動兩種選擇,紅方無人機根據(jù)雷達偵測情況擇機開火,每個時刻均發(fā)生位移;而所有藍方無人機都是地面固定目標,所以藍方的可選動作集合只有開火一種選擇。藍方根據(jù)雷達偵測結果開火打擊,一旦偵測到紅方無人機立即開火。紅方無人機、藍方坦克和地空導彈排之間的打擊效果依如下規(guī)則。

        當滿足以下兩個條件時,制定無人機摧毀坦克:

        (1) 設紅方無人機的雷達探測半徑為ruav,火力打擊范圍為fuav,藍方地空導彈排的雷達探測半徑為rmissile,火力打擊范圍為fmissile。

        (2) 設紅方無人機發(fā)現(xiàn)目標后的射擊概率為puav,命中率為ρuav;藍方地空導彈排發(fā)現(xiàn)目標后的射擊概率為pmissile,命中率為pmissile。

        當滿足以下兩個條件時,判定無人機摧毀坦克:

        (1) 無人機的機載火控雷達的掃描區(qū)域持續(xù)覆蓋坦克;

        (2) 無人機同時滿足空對地導彈發(fā)射概率puav,發(fā)射導彈滿足命中概率ρuav。

        同理,當滿足以下兩個條件時,判定地空導彈摧毀無人機:

        (1) 地空導彈排的火控雷達的掃描區(qū)域持續(xù)覆蓋無人機;

        (2) 地空導彈同時滿足地對空導彈發(fā)射概率pmissile,發(fā)射導彈滿足命中概率ρmissile。

        1.6 獎賞函數(shù)設計

        由于紅方無人機采用多智能體博弈強化學習方法訓練,藍方坦克和地空導彈排使用固定規(guī)則訓練。因此,獎賞函數(shù)只針對紅方無人機的任務進行設計。紅方無人機的任務是在最小化自身損失的情況下,摧毀所有藍方坦克。具體地,當紅方無人機摧毀一輛藍方坦克時,獎勵為正值,當紅方無人機被藍方地空導彈摧毀時,獎勵為負值,紅方無人機完成作戰(zhàn)任務或者全軍覆沒后分別得到全局最大(最小)的獎勵值。

        2 基于多智能體博弈強化學習的無人機智能攻擊策略生成框架和訓練流程

        多智能體近端策略優(yōu)化(multi-agent proximal policy optimization, MAPPO)算法是多智能體強化學習的常用算法之一。在MAPPO中,策略參數(shù)集為θ={θ1,θ2,…,θN},所有紅方無人機的策略集合為π={π1,π2,…,πN},單個無人機期望收益的梯度J(θi)為

        檔案信息化數(shù)據(jù)運行管理需要油田企業(yè)持續(xù)性地投入一定的資金,油田企業(yè)應當注重為檔案管理工作開展提供保障。除了要做好前期信息化管理系統(tǒng)的建設外,還要注意后期系統(tǒng)維護和定期進行設備更換等工作。特別是一些辦公軟件,使用一段時間后需要及時更新,這樣才能最大化地發(fā)揮油田檔案信息化數(shù)據(jù)運行管理的實際價值。此外,檔案管理人員還要定期做好系統(tǒng)維護,這樣也可以減少信息化數(shù)據(jù)運行管理系統(tǒng)的故障率,無形中降低了使用成本。

        由于在實際情況中,指揮員在選擇策略時可能發(fā)生失誤而做出錯誤的決策,因此需要對算法進行優(yōu)化。針對這個問題,本文借鑒博弈論中“顫抖的手完美”思想,在MAPPO算法的基礎上進行改進?!邦澏兜氖滞昝馈彼枷氲亩x如下:可能發(fā)生失誤的小概率被稱作一個顫抖。根據(jù)這個概念,即使其他參與人以較小的概率采取均衡路徑以外的行動,構成均衡的策略仍然必須是參與人的最優(yōu)反應(也就是說,其他參與人的手會“顫抖”)。具體地,在多智能體博弈深度強化學習均衡解的探索過程中,根據(jù)動作值函數(shù)選擇了動作后,會以很小的概率隨機選擇動作替代原本應該執(zhí)行的值函數(shù)最大的動作。

        本文采用MAPPO算法和“顫抖的手完美”思想對上述3vs.9無人機反坦克作戰(zhàn)想定建模并優(yōu)化。每個智能體(紅方無人機)維護一張Q值網(wǎng)絡,通過與環(huán)境不斷交互獲取獎勵,學習并更新狀態(tài)動作值。此外,算法還設置了經(jīng)驗回放機制用于存儲紅方戰(zhàn)機在環(huán)境中的訓練經(jīng)驗,并以分層抽樣方式從經(jīng)驗池中抽取經(jīng)驗以提升學習效率,直至每個智能體在當前狀態(tài)下,不能通過改變動作獲取更大的獎勵,獎勵值收斂。在本實驗的場景下,紅方3架無人機具有相同的目標函數(shù)和獎賞函數(shù),相互之間是完全合作的關系。本實驗通過狀態(tài)動作值函數(shù)迭代方式求累積回報最大值并選取使累積回報最大的動作,在不斷迭代的過程中尋找智能體(紅方無人機)的最佳策略。該方法在保持原MAPPO[26-28]算法框架不變的情況下,在每個智能體i選擇動作時,通過“顫抖的手完美”增加探索,從而實現(xiàn)對基礎算法的優(yōu)化,Critic的動作輸入集合在“顫抖的手完美”條件下進行選擇。訓練的框架圖如圖2所示,具體步驟如算法1所示。

        圖2 多智能體博弈深度強化學習無人機智能攻擊策略生成框架及改進Fig.2 Generation framework and improvement of multi-agent game deep reinforcement learning unmanned aerial vehicle intelligent attack strategy

        算法1 MAPPO(改進)算法初始化觀察狀態(tài)s;初始化m個Actori的原網(wǎng)絡Ni(s,a,θ),目標網(wǎng)絡NTi(s,a,θ'),i=1,2…,m;For episode=0,1,…,n doFor actor=1,2,…,m do 執(zhí)行策略πθ;存儲Actori的狀態(tài)集合;存儲環(huán)境其他智能體Actor-i的狀態(tài)動作集合{S-i,A-i};計算優(yōu)勢函數(shù)A︿1,A︿2,…,A︿T;end for求解損失函數(shù)loss=mean(square(A)),反向傳播更新critic網(wǎng)絡;將Actori的狀態(tài)集合輸入Actori網(wǎng)絡;依據(jù)“顫抖的手完美”思想改進探索;計算裁剪函數(shù)clip;更新Actori的目標網(wǎng)絡NTi(s,a,θ');更新Actori的原網(wǎng)絡Ni(s,a,θ);End for

        3 實驗分析

        本文以Python3.6[29]作為開發(fā)語言,多智能體博弈強化學習算法的網(wǎng)絡結構基于 TensorFlow2.0[30]。實驗硬件為Intel 512G固態(tài)硬盤,Nvidia RTX 2080TI顯卡,64G內存,軟件環(huán)境為Ubuntu 18.04。

        3.1 紅藍雙方初始位置及主要武器性能參數(shù)

        紅藍雙方初始位置及主要武器性能參數(shù)如表1所示。其中:紅方無人機掛載的反坦克導彈直徑為0.18 m,重量為45 kg,發(fā)射高度為18~4 572 m,目標速度為0~1 481 km/h,爬升率為134 m/s,最大射程為9.26 km。藍方地空導彈排裝備的地空導彈的直徑為0.17 m,重量為90 kg,目標高度為6~7 620 m,目標速度為0~3 704 km/h,爬升率為323 m/s,最大射程為18.52 km。

        表1 紅藍雙方初始位置及掛載武器參數(shù)表Table 1 Initial positions and parameters of mounted weapons of red and blue sides

        3.2 超參數(shù)設置

        本實驗中,超參數(shù)設置如表2所示。

        表2 參數(shù)設置Table 2 Parameter setting

        3.3 實驗結果分析

        紅藍雙方進行3 000輪對抗訓練,其中,紅方戰(zhàn)機采用MAPPO算法及其改進算法,藍方戰(zhàn)機采用預編規(guī)則。

        圖3 MAPPO和MAPPO改進算法的累積回報曲線Fig.3 Cumulative return curve of MAPPO algorithm and improved MAPPO algorithm

        MAPPO算法和MAPPO改進算法的損失函數(shù)值曲線如圖4所示。損失函數(shù)用于計算訓練樣本的誤差,評估算法對數(shù)據(jù)的建模程度。若實際結果與預測值相差較大,損失函數(shù)也會相應變大;反之,損失函數(shù)不斷減小。本實驗的損失函數(shù)逐漸減少,趨向于0,說明MAPPO評價網(wǎng)絡的預測值與實際值相差不大,且MAPPO改進算法的損失函數(shù)更小,表明改進后的算法的預測值與真實值之間的差值更小,可見改進后的算法提升了預測的準確性。

        圖4 MAPPO和MAPPO改進算法的損失函數(shù)曲線Fig.4 Loss function curve of MAPPO and improved MAPPO algorithm

        由于本實驗目標中最大化的累積回報是紅方3架無人機總的回報值,因此只能反映紅方總體的作戰(zhàn)效果,無法反映紅方每架無人機的戰(zhàn)斗力生成情況。為了具體分析紅方每架無人機的訓練效果,單獨統(tǒng)計了每架無人機的累計回報值,統(tǒng)計結果如表3所示。

        表3 算法改進前各無人機平均累積回報值統(tǒng)計Table 3 Statistics of average cumulative return value of each unmanned aerial vehical before algorithm improvement

        從表3可以看出,隨著迭代輪數(shù)的增加,每架無人機的累積回報均有增加,在迭代了1 000輪以后,累積回報值趨于收斂。由于2 000~3 000輪時算法已經(jīng)收斂,因此累積回報的變化不大,這與圖3得到的結論一致。由表3還可發(fā)現(xiàn),無人機1和無人機2的累積回報值接近且遠大于無人機3,這可能和3架無人機的初始位置有關,無人機1和無人機2在訓練過程中更快地學會了相互配合,從而獲得了更高的回報值。

        算法改進后各無人機平均累積回報值如表4所示。從表4可以看出,經(jīng)過“顫抖的手完美”改進的MAPPO算法在經(jīng)過訓練后,各個無人機獲得的平均累積回報值均有所增加,可見“顫抖的手完美”改進不僅增加了整體的效能,而且提升了每一個智能體的打擊和尋路能力。其中,無人機1提升了47.8%,無人機2提升了54.2%,無人機3提升了32%。

        表4 算法改進后各無人機平均累積回報值統(tǒng)計Table 4 Statistics of average cumulative return of each unmanned aerial vehical after algorithm improvement

        從最后的2 000輪無人機反坦克仿真實驗中,選擇了一組最具代表性的無人機飛行和打擊軌跡圖,如圖5所示。

        圖5 無人機反坦克仿真測試軌跡樣例Fig.5 Unmanned aerial vehical anti tank simulation test track example

        其中,3條曲線分別表示3架無人機的飛行軌跡。從無人機的飛行軌跡圖可以看出,在經(jīng)過了1 000輪的迭代訓練后,無人機逐漸學會了避開地空導彈的打擊范圍,直接對坦克進行火力打擊。同時,無人機也分別學會了打擊外圍薄弱節(jié)點和從中路縱向攻擊或橫向攻擊的戰(zhàn)術。3架無人機協(xié)同配合,首先打擊距離自身最近的藍方目標,再打擊較遠的目標??傮w而言,無人機在尋找最優(yōu)路徑、打擊目標節(jié)點和協(xié)同合作這3個方面均表現(xiàn)出了很好的效果。

        4 結束語

        針對無人機智能攻擊策略生成和優(yōu)化問題,本文闡述了馬爾可夫隨機博弈的理論框架,提出了基于多智能體博弈強化學習算法在無人機反坦克仿真場景下的解決思路,并構建了一種基于 MAPPO算法的3vs.9無人機智能攻擊策略的訓練模型,并使用“顫抖的手完美”對訓練模型進行了優(yōu)化。最后,對相關場景進行了模擬試驗和分析。仿真試驗表明,該訓練模型可產生多種無人機智能攻擊策略,對無人化戰(zhàn)爭下的智能化指揮控制具有較強的現(xiàn)實意義。

        猜你喜歡
        藍方紅方狀態(tài)
        如何在方格紙上確定位置
        狀態(tài)聯(lián)想
        生命的另一種狀態(tài)
        精彩的足球比賽
        暗號
        熱圖
        家庭百事通(2016年3期)2016-03-14 08:07:17
        堅持是成功前的狀態(tài)
        山東青年(2016年3期)2016-02-28 14:25:52
        暗號
        小小說月刊(2015年5期)2016-01-22 08:39:19
        暗號
        試論棋例裁決難點
        棋藝(2014年3期)2014-05-29 14:27:14
        精品久久久久中文字幕APP| 精品亚洲成a人无码成a在线观看| 亚洲人成未满十八禁网站| 澳门精品无码一区二区三区| 日韩人妻中文字幕一区二区| 一区二区三区国产黄色| 成人aaa片一区国产精品| 国产天堂网站麻豆| 亚洲一区二区观看网站| 青青河边草免费在线看的视频| 无码va在线观看| 国产成人精品三级91在线影院| 中文字幕国内一区二区| 97cp在线视频免费观看| аⅴ资源天堂资源库在线| 中文字幕大屁股熟女乱| 久久偷拍国内亚洲青青草| 极品少妇被黑人白浆直流| 亚洲色欲综合一区二区三区| 亚洲国产成人AⅤ片在线观看| 国产高清在线精品一区不卡| 77777_亚洲午夜久久多人| 内射精品无码中文字幕| 久久国产精品超级碰碰热| 国产一区二区三区最新地址| 色天使综合婷婷国产日韩av | 无码中文字幕在线DVD| 亚洲成av人片在线天堂无| 中文乱码字幕精品高清国产| 国产真实夫妇视频| 久久亚洲第一视频黄色| 成人免费av高清在线| 国产精品爽爽v在线观看无码| 伊人色网站| 国产视频免费一区二区| 亚洲成av人在线观看网址| 中文字幕无码免费久久| 成av人片一区二区三区久久| 亚洲综合极品美女av| 嗯啊哦快使劲呻吟高潮视频| 亚洲日本VA午夜在线电影|