亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

高速飛行器追逃博弈決策技術(shù)

2021-02-14 06:55:46崔雅萌王會霞鄭春勝胡瑞光

指揮與控制學報 2021年4期

崔雅萌王會霞鄭春勝胡瑞光

1．北京航天自動控制研究所北京100854 2. 宇航智能控制技術(shù)國家級重點實驗室北京100854

人工智能技術(shù)是引領(lǐng)新一輪科技革命和產(chǎn)業(yè)變革的戰(zhàn)略性技術(shù), 智能技術(shù)已成為大國博弈的重點[1]. 未來戰(zhàn)爭也將是智能化、體系化對抗, 傳統(tǒng)的規(guī)則化、簡單邏輯的博弈策略不能滿足要求,發(fā)展智能裝備,采用智能飛行器集群作戰(zhàn)將成為創(chuàng)新性、顛覆性的作戰(zhàn)模式[2]. 面對復(fù)雜的多飛行器攔截場景,單個飛行器逃逸成功很難實現(xiàn),而誘餌伴飛、主動機動突防等策略可以幫助飛行器逃逸成功[3?5]. 在飛行器攻防對抗中,進攻方飛行器是逃逸者,需要找到最優(yōu)策略成功逃逸;攔截方飛行器是追捕者,需要準確識別目標成功攔截,雙方構(gòu)成追逃博弈問題.

從進攻方(也稱為逃逸方)角度研究逃逸策略,現(xiàn)有的多對一攔截場景大多基于傳統(tǒng)的控制理論,在雙方信息全部已知的情況下設(shè)計固定的策略求解問題,見文獻[3?4,6?8].

從攔截方角度研究攔截策略, 多目標攔截問題需要考慮對抗雙方性能, 結(jié)合對抗場景中雙方的位置、速度、姿態(tài)等信息, 確定最優(yōu)分配方案, 實現(xiàn)資源利用最大化并獲得最佳打擊效果, 是一種組合優(yōu)化問題.目標分配方案有改進差分進化算法[9]、匈牙利算法[10]、蟻群算法[11]、粒子群算法[12?13]等. 眾多方法中, 匈牙利算法計算量小, 求解方便快速, 易于實現(xiàn),適合需要進行實時目標分配計算的對抗場景.

近年來人工智能技術(shù)迅速發(fā)展并日益成熟, 無論是逃逸方還是攔截方的策略研究都在從傳統(tǒng)的求解方法轉(zhuǎn)向智能博弈對抗方法[14?15]. 智能博弈對抗可以根據(jù)自身狀態(tài)和感知的對手狀態(tài)進行決策, 通過與環(huán)境不斷交互進行學習來與對手博弈, 并不需要知道對手策略, 面對復(fù)雜多變的對抗場景具有一定優(yōu)勢. 目前智能博弈的方法在無人機集群等低速飛行器的決策對抗領(lǐng)域取得一定進展, 但在高速飛行器攻防對抗中應(yīng)用較少, 面對此類問題時也僅使用固定方案[15], 且只考慮了單一策略, 如只進行拋撒誘餌策略或機動策略的研究[3,15]. 復(fù)雜作戰(zhàn)場景下單一的突防策略難以保證飛行器突防成功,因此,需要多種策略相結(jié)合并適應(yīng)戰(zhàn)場態(tài)勢變化. 本文解決了高速飛行器面對動態(tài)變化的多飛行器攔截時難以逃逸成功的問題,使其可采取拋撒誘餌、機動變彈道和姿態(tài)調(diào)整多種策略進行博弈.

本文將高速飛行器的攻防對抗問題抽象成多智能體博弈問題; 針對逃逸方飛行器建立含有拋撒誘餌、機動調(diào)整、姿態(tài)調(diào)整行為的多策略行為模型,加入先驗知識提升算法收斂速度; 建立飛行器威脅矩陣, 針對攔截方飛行器設(shè)計變目標的動態(tài)目標分配算法;在三維環(huán)境下進行仿真驗證. 考慮到對戰(zhàn)場態(tài)勢的動態(tài)適應(yīng)性,獎勵函數(shù)設(shè)計考慮拋誘餌的時機、拋誘餌的數(shù)量、機動時間. 仿真結(jié)果表明該算法通過訓練得到的神經(jīng)網(wǎng)絡(luò)能夠?qū)崟r解算出飛行器的突防策略,控制飛行器實施逃逸.

1 紅藍飛行器相關(guān)數(shù)學模型

文中稱逃逸方為紅方,攔截方為藍方.對抗中,紅藍雙方可獲得用于決策的信息是不對稱、不完整的,雙方所獲得的信息及誘餌誤判概率均由可獲得完整信息的白方給出.

為簡化問題,假設(shè)紅藍雙方在真空中飛行;處于均勻引力場中; 紅藍雙方為剛體、質(zhì)量不變化; 只考慮紅藍雙方飛行器在三維空間中的質(zhì)心運動, 其姿態(tài)變化受姿態(tài)指令控制.

采用歐美體制的“北東下”坐標系,定義符合右手定則的空間直角坐標系.

1)慣性坐標系SG(OGXGYGZG)

慣性系坐標原點OG取在慣性空間某一點. 軸OGXG和軸OGYG在水平面內(nèi),軸OGXG指向正北,軸OGYG指向正東,軸OGZG滿足右手定則鉛垂向下.

2)機體坐標系ST(OT XTYTZT)

機體坐標系固連于飛行器, 坐標原點在飛行器質(zhì)心OT. 軸OT XT位于飛行器對稱平面內(nèi), 平行于機身軸線指向前方.軸OTYT垂直于飛行器對稱平面(即xTOTZT平面),指向右方.軸OTZT位于飛行器對稱平面內(nèi),垂直于xT軸朝下指向飛行器腹部.

1.1 紅藍雙方行為模型

1.1.1 紅方質(zhì)心運動模型

慣性系下,紅方位置、速度的動力學方程:

式中,pr為紅方的位置矢量,vr為紅方的速度矢量,Fr為紅方的推力矢量,gz為重力加速度其只在軸OGZG方向有.

慣性系下紅方推力矢量由機體系通過坐標系轉(zhuǎn)換得到Fr=Trt→g·Fesc,其中,Trt→g為紅方機體系到慣性系坐標轉(zhuǎn)換矩陣,各元素由紅方姿態(tài)角計算.

1.1.2 紅方機動調(diào)整模型

紅方飛行器的機動裝置可以在紅方機體系OTYT軸和OTZT軸的正向和負向產(chǎn)生固定大小的推力. 由于燃料限制, 機動裝置累計工作有限.忽略機動裝置開機、關(guān)機過程中推力的過渡過程. 關(guān)機時推力為0,開機時推力大小為Fesc. 記Kesc,y,Kesc,z為紅方機動指令,Kesc,y,Kesc,z∈{?1,0,1}. 機動裝置產(chǎn)生的作用力在機體系下的各軸投影分量如下式:

1.1.3 紅方姿態(tài)調(diào)整模型

紅方飛行器的姿態(tài)調(diào)整裝置可以在一定程度上改變其姿態(tài)角. 姿態(tài)角調(diào)節(jié)范圍不受限制,但其角速度有約束. 在k(k=0,1,2,···)時刻:

在k(k= 0,1,2,···)時刻,根據(jù)當前時刻的姿態(tài)角指令、上一時刻的姿態(tài)角,按下式計算姿態(tài)角:

按式(5)計算姿態(tài)角速度:

式中, dt為仿真周期,φrcψrcγrc分別為俯仰、偏航、橫滾姿態(tài)角指令.

1.1.4 藍方行為模型

藍方給定策略為采用比例導(dǎo)引法攔截紅方, 其制導(dǎo)指令為:

式中,ky、kz為比例導(dǎo)引系數(shù),表示紅方與藍方的視距的變化率,分別表示視線高低角的變化率和方位角的變化率.

1.2 紅藍雙方相對運動關(guān)系

紅方與藍方的相對運動關(guān)系用以下方程描述:

式中,X、Y、Z為紅藍雙方相對位置,Vx、Vy、Vz為紅藍雙方相對速度, η 為視線離軸角,TTTg→t為慣性系到機體系的坐標轉(zhuǎn)換矩陣, 各元素由姿態(tài)角計算.分別為紅藍相對距離變化率、視線高低角速率.

1.3 誘餌作用模型

紅方飛行器載有一定數(shù)量的誘餌, 可根據(jù)博弈對策逐個釋放或同時釋放若干個. 釋放后的誘餌以一概率pcheat使藍方識別為紅方本體.

記Kbait,i為紅方釋放第i個誘餌的指令,Kbait,i=0 為不拋出第i個誘餌,Kbait,i=1 為拋出第i個誘餌,若第i個誘餌狀態(tài)為Kbait,i=1,則此誘餌無法再次拋出.記第i個誘餌在tbait,i時被釋放,拋撒誘餌的方向由飛行器拋撒時的姿態(tài)角決定. 釋放后誘餌只在重力作用下保持勻加速度運動.

在慣性系,第i個誘餌在釋放時的位置即為紅方此時質(zhì)心位置,在釋放時的速度為:

式中,mesc,bait為紅方攜帶誘餌數(shù)量,vbait為慣性系下紅方拋誘餌時刻的速度,vxr(tbait,i),vyr(tbait,i),vzr(tbait,i)為慣性系下紅方拋誘餌時刻的速度分量.

當紅方釋放一枚誘餌時, 該誘餌被誤判概率為pcheat,由釋放誘餌時的紅藍相對距離確定,如下式:

白方計算誤判概率同時生成一個隨機數(shù)n,取值范圍(0.05 ～0.95).n若小于pcheat,則藍方將誘餌誤判為紅方本體;否則,藍方識別其為誘餌.

2 藍方飛行器目標分配策略

多飛行器對多個目標進行打擊時, 需要在較短的時間內(nèi)對跟蹤空域中的目標進行合理分配, 實現(xiàn)對目標群的殺傷概率最大, 并避免重復(fù)攻擊與遺漏[9]. 結(jié)合紅藍雙方對抗特點及紅方所攜帶誘餌特性, 優(yōu)化目標分配模型[16?17], 采用匈牙利算法, 根據(jù)紅方實體數(shù)量變化進行動態(tài)目標分配策略調(diào)整.

2.1 目標分配的數(shù)學模型

藍方對紅方的特征分布未知, 只能根據(jù)不完備信息采取相應(yīng)策略, 故本文選擇非參量法進行目標分配的數(shù)學建模,根據(jù)紅藍飛行器間角度、距離、速度以及藍方對紅方各實體的識別概率、輻射源等參數(shù)構(gòu)造紅藍綜合威脅函數(shù).

2.1.1 識別概率

假設(shè)藍方能準確識別到紅方, 但紅方拋出的誘餌具有一定欺騙性,不能被準確識別.識別誘餌的概率與紅藍雙方距離有關(guān), 此概率服從誘餌欺騙概率,因此,構(gòu)造識別概率如下:

2.1.2 角度威脅

當藍方朝著紅方飛行時, 藍方更容易探測到目標進而執(zhí)行攔截任務(wù),因此,構(gòu)造角度威脅函數(shù)如下:

式中,a=0.000 1R,R為紅藍相對距離.

2.1.3 距離威脅

當紅藍相對距離r?Rmax或r?Rmin時,認為距離優(yōu)勢相對小; 當R0= (Rmin+Rmax)/10 時, 認為距離優(yōu)勢最大構(gòu)造,因此,構(gòu)造距離威脅函數(shù)如下:

式中,R0=(Rmin+Rmax)/10,Rmin和Rmax分別為紅方飛行器最近和最遠探測距離.

2.1.4 速度威脅

當藍方速度比紅方速度大時, 藍方更易攔截到紅方,因此,構(gòu)造紅藍之間的速度威脅函數(shù)如下:

式中,VT和V分別為紅方和藍方速度.

2.1.5 藍方與紅方輻射源之間的威脅

藍方攔截目標時, 根據(jù)質(zhì)心干擾原理跟蹤紅方及其誘餌的紅外輻射能量中心. 由于紅外誘餌產(chǎn)生強于紅方數(shù)倍的輻射源, 隨著誘餌飛行不斷遠離紅方,其將誘導(dǎo)藍方偏離目標紅方[17],故建立如下紅藍輻射特性匹配威脅函數(shù):

式中,設(shè)定nc>nd,即誘餌與藍方之間的輻射源威脅更高.

2.1.6 綜合威脅函數(shù)

根據(jù)式(10)～式(14),可構(gòu)造紅藍之間的綜合威脅函數(shù),其表達式如下:

式中:C1、C2、C3分別為權(quán)系數(shù), 0 ≤Ci≤1 且C1+C2+C3=1,其值由各威脅對綜合威脅的影響的大小決定.

2.1.7 威脅矩陣

設(shè)對抗場景中有藍方m個飛行器, 紅方n個飛行器(含誘餌),可以得到的紅方第i枚藍方飛行器對紅方第j個目標的動態(tài)威脅函數(shù)值Si j,從而可以建立起如下紅藍威脅矩陣:

則目標分配問題可描述如下:

式中,Xi j為決策變量,取值1 表示第i枚藍方飛行器被分配給第j個紅方,Tj為藍方第j個飛行器,約束條件1 表示藍方一個飛行器只能攻擊紅方一個飛行器, 約束條件2 表示紅方飛行器j最多只能被藍方Tj個飛行器攻擊.

2.2 動態(tài)目標分配算法

藍方多枚飛行器均受決策層指揮, 決策層接收各藍方飛行器感知的信息后, 根據(jù)紅方飛行器數(shù)量采取相應(yīng)目標分配策略, 將分配結(jié)果反饋給藍方各飛行器, 藍方各飛行器接收到分配指令后對指定目標進行攔截.

單飛行器攔截目標動態(tài)分配算法流程: 單個飛行器在初始時刻判斷對抗場景中紅方本體個數(shù), 若紅方個數(shù)為1,則直接攔截,不需要進行目標分配;若飛行過程中探測到的紅方實體個數(shù)發(fā)生改變(誘餌數(shù)量增加),則先對飛行器進行甄別,若識別出其為誘餌,則威脅值為0,若未識別出則進行態(tài)勢估計,將結(jié)果傳遞給指揮決策層. 決策層整合各飛行器威脅估計結(jié)果,使用目標分配算法,將分配結(jié)果發(fā)送給各個飛行器,飛行器接收相應(yīng)指令進行攔截.

3 紅方飛行器博弈算法設(shè)計

采用改進的深度確定性策略梯度(deep deterministic policy gradient,DDPG)算法對飛行器攻防對抗場景中的逃逸方(紅方)進行訓練, 使紅方智能體采取最優(yōu)策略躲避藍方多個飛行器的攔截. 在傳統(tǒng)DDPG 方法的基礎(chǔ)上,提出一種基于先驗知識(prior knowledge)的DDPG 算法即DDPG-PK 算法. 在動作選擇時,根據(jù)專家經(jīng)驗加入先驗知識(動作選擇時受規(guī)則限制),并在采樣時根據(jù)樣本權(quán)重優(yōu)先選取價值高的樣本,利用神經(jīng)網(wǎng)絡(luò)進行預(yù)訓練.

3.1 紅方飛行器的MDP 模型

馬爾科夫決策過程(markov decision process,MDP)可由包含狀態(tài)空間、動作空間、狀態(tài)轉(zhuǎn)移函數(shù)、回報函數(shù)、折扣因子的五元組描述[19]. 針對紅藍雙方典型的對抗場景,建立的MDP 模型如下.

對于紅方飛行器而言, 目的是躲避藍方多個飛行器的攔截, 紅方的策略是優(yōu)先躲避對自己威脅最大的藍方飛行器, 故紅方選擇與其距離最近的藍方,記錄其編號,計算紅藍的相對距離、視線高低角和方位角. 采用紅藍雙方的三維位置建立MDP 狀態(tài)空間,為增強算法泛化性, 采用紅藍雙方的相對位置關(guān)系,給出的狀態(tài)空間如下:

式中,R為紅方和藍方的相對距離,qε為紅方與藍方視線的高低角,qβ為視線方位角.

對于追逃博弈場景,MDP 轉(zhuǎn)移函數(shù)為各智能體的運動學方程.

訓練目標: 訓練紅方在合適姿態(tài)下釋放較少的誘餌且機動時間盡可能少(節(jié)省燃料)時成功逃逸.

紅方攜帶誘餌數(shù)量為n,每一時刻對每個誘餌可選擇拋撒或不拋撒策略,可進行姿態(tài)調(diào)整,也可選擇機動.因此,設(shè)計的動作空間為:

式中,Kbait,i為紅方釋放第i個誘餌的指令,φrc、ψrc、γrc為紅方姿態(tài)調(diào)整指令,Kesc,z為紅方機動指令,Kbait.i、kesc,z∈{?1,0,1}.

在藍方多個飛行器攔截紅方一個飛行器的對抗場景下, 紅方釋放誘餌個數(shù)需盡量大于藍方飛行器數(shù)量, 若紅方釋放誘餌時機合理且合適的姿態(tài)調(diào)整使得拋撒誘餌的方向也合理, 則拋撒的誘餌對藍方飛行器產(chǎn)生較高的欺騙性,后續(xù)博弈過程中,紅方再結(jié)合機動變道才能有效躲避藍方多個飛行器攔截.紅方需選擇最優(yōu)策略,朝合適的方向拋誘餌,拋出數(shù)量盡可能少, 機動時間盡可能少, 以保存實力, 故設(shè)定MDP 獎勵函數(shù)為:

式中,resbait為紅方剩余誘餌個數(shù). 初始resbait為紅方攜帶誘餌總數(shù), 每拋出一個誘餌resbait?1;restime表示剩余機動時間,初始為紅方可機動的總時間,每步機動一次, 則restime?0.01;tbait,i為釋放第i個誘餌的時刻.rwd1為機動指令即時獎勵, 有機動動作時給一定懲罰, 沒有時給出獎勵, 目的是節(jié)省燃料;rwd2為拋誘餌指令即時獎勵, 過早拋誘餌時給出懲罰,拋誘餌時刻晚時獲得較高獎勵. 只在拋誘餌的時刻計算此獎勵, 并將此時刻拋出全部誘餌的獎勵累加計算.

3.2 改進的DDPG 算法設(shè)計

紅方飛行器姿態(tài)變化是連續(xù)動作, 所以選擇具有連續(xù)動作空間的DDPG 算法. 但是傳統(tǒng)的DDPG算法存在動作難探索到較大獎勵、收斂速度較慢等問題, 可在采樣方法、動作噪聲設(shè)計、分布式并行計算、經(jīng)驗回放機制等方面對DDPG 算法進行改進[19?23]. 除上述方法,加入先驗知識也可加快深度強化學習方法學習速度,縮短算法收斂時間[24?27].

結(jié)合紅藍對抗場景, 考慮紅方飛行器攜帶3 個誘餌時, 其七維的動作空間探索難度較大, 所以, 選擇先驗知識和優(yōu)先權(quán)重相結(jié)合的方式優(yōu)化算法. 引入專家的先驗知識,縮小智能體的決策空間,對神經(jīng)網(wǎng)絡(luò)進行預(yù)訓練,同時在進一步提升收斂速度,提高樣本利用率的同時增強樣本相關(guān)性, 采用具有優(yōu)先經(jīng)驗回放的DDPG 進行預(yù)訓練.

圖1 藍方單飛行器動態(tài)目標分配流程圖Fig.1 Blue single aircraft dynamic target allocation fl w

在簡單環(huán)境下進行100 次預(yù)訓練, 如圖2 所示.簡單環(huán)境指的是對于紅方飛行器而言, 動作空間較小、容易學習到較優(yōu)的策略環(huán)境,如不考慮姿態(tài)調(diào)整和機動調(diào)整策略,可拋撒誘餌的時間變短等. 簡單環(huán)境中加入專家的經(jīng)驗知識, 經(jīng)驗知識即在紅藍相距更近距離(R< 20 km)后釋放誘餌,以規(guī)則形式限定智能體的動作選擇,以此加入訓練環(huán)境中,將這些專家經(jīng)驗存儲在經(jīng)驗池中. 此環(huán)境下預(yù)訓練場景中得到的actor 和critic 網(wǎng)絡(luò)稱為預(yù)訓練網(wǎng)絡(luò), 將預(yù)訓練網(wǎng)絡(luò)和經(jīng)驗池中的專家經(jīng)驗統(tǒng)稱為預(yù)訓練知識, 作為再訓練環(huán)境的輸入,如圖3 所示. 再訓練環(huán)境為更復(fù)雜的環(huán)境,即在滿足紅方飛行器探測距離后,紅方就可進行決策, 包括可采取機動動作、拋誘餌和姿態(tài)調(diào)整,動作維度由三維上升到七維,動作空間大小由31300變?yōu)?1200,訓練難度大大增加. 訓練樣本有30%基于先驗知識生成, 70%利用強化學習算法進行訓練. 逐步減小基于先驗知識的樣本比例,最終樣本全部通過強化學習得到, 保存訓練后的神經(jīng)網(wǎng)絡(luò),進行測試. 再訓練初期記憶回放單元中存儲大量具有先驗知識的樣本,隨著訓練不斷進行,樣本不斷更新,最終全部成為強化學習產(chǎn)生的樣本. 算法如表1所示.

圖2 DDPG_PK 預(yù)訓練算法框架Fig.2 DDPG_PK pre-training algorithm structure

圖3 DDPG_PK 再訓練算法框架Fig.3 DDPG_PK retraining algorithm structure

表1 DDPG_PK 多飛行器追逃博弈算法Table 1 DDPG_PK multi-aircraft pursuit-evasion game algorithm

4 仿真驗證與分析

設(shè)定紅方飛行器質(zhì)量為100 kg, 可用推力2 000 N; 藍方飛行器質(zhì)量均為20 kg, 最大可用過載4 g,藍方采用比例導(dǎo)引法攔截紅方,比例導(dǎo)引系數(shù)均為3. 仿真步長為0.01,總仿真時間20 s,積分環(huán)節(jié)采用四階龍格庫塔法. 紅藍雙方初始位置和速度具有一定隨機性.

在不同仿真場景的博弈過程中, 紅方分別采用固定策略和智能策略. 藍方面對紅方多個飛行器時(含誘餌和紅方飛行器本體),利用匈牙利算法進行目標分配, 選擇最佳攔截目標, 完成攔截任務(wù). 博弈過程體現(xiàn)在紅方在約束條件下選擇何時拋誘餌或機動或姿態(tài)調(diào)整, 藍方面對紅方多個本體(含誘餌)如何選擇目標進行攔截.

紅方逃逸成功標志為所有藍方均攔截誘餌, 或者仿真時間結(jié)束時紅方與所有藍方的視線離軸角η > 60°,此時紅方超出藍方探測范圍.藍方攔截成功標志為藍方有一個飛行器擊中紅方, 藍方擊毀條件即紅藍雙方相對距離小于R< 100 m且視線離軸角η < 20°. 若仿真結(jié)束時,紅方未被攔截則紅方逃逸成功. 實驗設(shè)定紅藍相對距離R< 30 km 后,紅方可見藍方, 可采取各種決策; 藍方全程可知紅方位置, 但初始感知噪聲為位置噪聲3 000 m,速度噪聲120 m/s.紅方最大可機動時間為1.5 s.

4.1 目標分配算法驗證

以紅方攜帶3 枚誘餌為例,對目標分配算法進行驗證. 整個博弈過程藍方進行多次目標選擇,初始時刻,藍方兩個飛行器選擇攔截紅方本體,紅方拋出誘餌后,藍方再次進行目標選擇,若紅方拋出3 枚誘餌且欺騙藍方成功, 則藍方兩個飛行器分別選擇4 個目標中的兩個進行攔截. 紅方及誘餌被擊中一次即損毀.

初始位置及速度如表2 所示, 其余參數(shù)假設(shè)為psc= 1,pnc= 0.35 ?0.95,d1= 20 km,d2=40 km,p1= 0.95,p2= 0.35,σR=Rmin+Rmax,nc=1.0,nd= 0.5,C1= 0.4,C2=C3= 0.3,Rmin=1 km,Rmax=60 km.

表2 實驗初始參數(shù)設(shè)定Table 2 Experiment initial parameter setting

若紅方飛行器在29 km 拋出3 個誘餌,得到紅藍威脅矩陣為:

利用匈牙利算法得到的目標分配矩陣α 為:

此時,藍方2 號選擇攔截紅方,藍方1 號選擇攔截紅方1 號誘餌,在此時刻,雖然紅方拋出3 個誘餌,但是誘餌產(chǎn)生的威脅值過小, 沒有引誘全部藍方進行攔截.

若紅方飛行器在19 km 拋出3 個誘餌,得到紅藍威脅矩陣為:

利用匈牙利算法得到的目標分配矩陣α 為:

根據(jù)分配結(jié)果藍方兩個飛行器均選擇攔截紅方誘餌,紅方可以成功逃逸,此時的紅方策略更優(yōu).

兩次分配紅方集群威脅值分別為1.056 02、1.608 97, 均大于隨機選擇威脅值. 上述結(jié)果表明,所使用的匈牙利算法分配可以找到紅方集群威脅值最大的最優(yōu)解.

4.2 DDPG_PK 算法驗證

4.2.1 仿真場景設(shè)置

仿真場景選取傳統(tǒng)策略和智能博弈對抗策略進行比較驗證,選用4 個仿真場景如下:

仿真場景1: 基于固定策略:設(shè)定紅方飛行器在紅藍相距29 km 處釋放全部誘餌,在燃料剩余的情況下隨機選擇機動動作.

仿真場景2: 基于智能策略:神經(jīng)網(wǎng)絡(luò)模型初始參數(shù)隨機設(shè)定, 用初始設(shè)定的神經(jīng)網(wǎng)絡(luò)模型直接控制紅方飛行器決策.

仿真場景3: 基于智能策略:無先驗知識直接訓練時的利用神經(jīng)網(wǎng)絡(luò)控制紅方飛行器決策.

仿真場景4: 基于智能策略:利用先驗知識訓練后的神經(jīng)網(wǎng)絡(luò)控制紅方飛行器決策.

仿真場景1 中,飛行器策略是固定的,不管在對抗環(huán)境中遇到何種情況, 飛行器均采取已設(shè)定好的策略, 其面對動態(tài)變化的藍方多個飛行器攔截易處于劣勢,很多情況下難以逃逸成功. 仿真場景2、3、4中飛行器根據(jù)當前探測到的藍方信息(包含位置、速度等), 分別通過初始神經(jīng)網(wǎng)絡(luò)、無經(jīng)驗知識訓練的神經(jīng)網(wǎng)絡(luò)、利用先驗知識訓練后的神經(jīng)網(wǎng)絡(luò)決定此時策略(是否拋誘餌、機動、姿態(tài)調(diào)整),躲避藍方攔截. 利用神經(jīng)網(wǎng)絡(luò)決策的飛行器面對復(fù)雜動態(tài)變化的對抗環(huán)境時能實時進行決策, 不受固定策略限制,更易完成逃逸任務(wù).

4.2.2 實驗參數(shù)設(shè)置

實驗采用DDPG PK 算法進行訓練, 算法中網(wǎng)絡(luò)均為全連接網(wǎng)絡(luò)的架構(gòu), actor 網(wǎng)絡(luò)有2 個隱含層, critic 網(wǎng)絡(luò)有一個隱含層, 均是反向傳播(back propagation, BP)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu). 訓練算法的學習率actor 網(wǎng)絡(luò)為0.000 2, critic 網(wǎng)絡(luò)為0.000 5, 折扣因子為0.999, 經(jīng)驗池為200 000, batch_size = 64, 加入動作噪聲增加探索性, 初始動作噪聲為3, 隨后逐漸減少至0.1. 實驗首先選取的對抗環(huán)境實驗1 為藍方兩個飛行器攔截紅方一個飛行器, 而后進行更多飛行器的對抗實驗.

4.2.3 實驗結(jié)果分析

使用傳統(tǒng)的DDPG 方法直接訓練神經(jīng)網(wǎng)絡(luò), 智能體能探索到較大獎勵,但經(jīng)常失敗,算法無法收斂.采用本文提出的DDPG_PK 算法基于先驗知識進行預(yù)訓練, 將預(yù)訓練好的神經(jīng)網(wǎng)絡(luò)放入環(huán)境中繼續(xù)訓練. 接下來驗證算法一致性,修改隨機種子進行多次訓練, 陰影區(qū)域表示訓練過程中智能體得到的最大獎勵和最小獎勵區(qū)域.訓練結(jié)果如圖4 所示, 前100次為預(yù)訓練, 具有先驗知識的智能體可以獲得較大獎勵,后900 次是規(guī)則加強化學習混合訓練,智能體經(jīng)過短暫的探索后收斂到較大獎勵,選擇10 次事件的平均獎勵作為結(jié)果展示.

圖4 訓練1 000 回合平均獎勵Fig.4 Average reward of training for 1 000 episodes

圖5 展示了基于先驗知識的紅藍雙方的軌跡圖,具有一定經(jīng)驗的智能體選擇策略合理, 先驗知識中未添加機動和姿態(tài)調(diào)整策略, 故智能體只選擇在紅藍距離19 km 處釋放3 個誘餌, 誘餌成功誘惑藍方,紅方面對藍方多個飛行器成功逃逸.

圖5 基于先驗知識的紅藍飛行器軌跡圖Fig.5 Red and blue aircraft trajectories based on prior knowledge

圖6 展示紅方未選擇拋誘餌策略, 只進行機動和姿態(tài)調(diào)整,未能躲避藍方攔截;圖7 紅方雖然拋出3 個誘餌,但未能迷惑藍方或者藍方根據(jù)目標分配算法仍然選擇威脅值較大的紅方攔截. 由圖6、圖7 可見,訓練前紅方拋誘餌時機、數(shù)量或者姿態(tài)調(diào)整及選擇機動動作不合理,很容易被藍方多個飛行器攔截.

圖6 訓練前紅藍飛行器軌跡圖(無誘餌)Fig.6 Red and blue aircraft trajectory before training(without bait)

圖7 訓練前紅藍飛行器軌跡圖(包含誘餌)Fig.7 Red and blue aircraft trajectory before training(including bait)

圖8 展示了訓練中期智能體學習到逃逸成功的策略, 但此時機動時間長, 耗費燃料多, 得到獎勵較小. 圖9 展示了訓練后紅方智能體選擇最佳的逃逸策略,進行適當?shù)淖藨B(tài)調(diào)整,在紅藍距離較近時紅方拋出3 個誘餌且機動較少. 各仿真結(jié)果的拋誘餌時機、數(shù)量、機動時間如表3 所示,姿態(tài)調(diào)整策略如圖10 所示.

圖8 訓練中紅藍飛行器軌跡圖Fig.8 Red and blue aircraft trajectories during training

圖9 訓練后紅藍飛行器軌跡圖Fig.9 Red and blue aircraft trajectory after training

表3 訓練前后紅方飛行器策略對比Table 3 Comparison of Red aircraft strategy before and after training

圖10 中的仿真結(jié)果表明所提出的DDPG_PK 算法相比于傳統(tǒng)的DDPG 算法能很快收斂, 智能體較快學習到成功逃逸的策略.

圖10 各場景飛行器姿態(tài)變化圖Fig.10 Aircraft attitude changes in various scenarios

實驗1 首先對訓練好的模型進行測試, 并將訓練前后結(jié)果及傳統(tǒng)固定策略逃逸成功結(jié)果進行對比.實驗1 中仿真共選取4.2.1 節(jié)4 個場景進行對比驗證. 訓練結(jié)果見表6, 結(jié)果表明使用DDPG_PK 算法訓練的網(wǎng)絡(luò)在測試中逃逸成功率高達97%以上, 可以很好地控制飛行器完成逃逸任務(wù).

4.2.4 算法拓展性仿真驗證

將此方法拓展于更多數(shù)量的飛行器博弈對抗場景. 用實驗1 的訓練方式繼續(xù)訓練紅方智能體, 讓紅方攜帶更多誘餌,抵御更多藍方飛行器的攔截. 設(shè)置實驗場景2 ～5 分別為紅方攜帶4 個誘餌,對抗藍方3 個飛行器(初始隊形為橫向編隊、三角形編隊);紅方攜帶5 個誘餌,對抗藍方4 個飛行器(初始隊形為橫向編隊、菱形編隊). 其中, 拋誘餌時機、數(shù)量、機動時間等訓練結(jié)果如表4 所示, 藍方飛行器初始位置如表5 所示,其余參數(shù)均與實驗1 設(shè)定相同,各實驗場景訓練后紅藍飛行器軌跡圖如圖11 ～圖14所示.

表4 各實驗紅方飛行器策略對比Table 4 Comparison of red aircraft trajectories in various scenarios

表5 各實驗藍方初始位置(xb,yb,zb)參數(shù)設(shè)定Table 5 Blue initial position(xb,yb,zb)parameter setting in various scenarios

圖11 飛行器1(4)V3 橫向編隊軌跡圖Fig.11 Horizontal formation trajectories of aircraft 1(4)V3

圖11 ～圖14 展示了紅方攜帶更多誘餌與藍方多個飛行器博弈場景. 可以看出藍方初始隊形為橫向、三角形或者菱形編隊, 飛行器數(shù)量由2 擴展到4,所提出方法均使得紅方智能體學習到逃逸策略,且所用機動時間較少. 將每個實驗同樣在4 個場景中進行對比驗證,仿真結(jié)果如表6 所示,結(jié)果表明所提出的DDPG_PK 算法可應(yīng)用于多個飛行器博弈對抗場景, 相比基于固定規(guī)則和無規(guī)則訓練的方法進行博弈對抗,其逃逸成功率均有顯著提升.

圖14 飛行器1(5)V4 菱形編隊軌跡圖Fig.14 Diamond formation trajectories of aircraft 1(5)V4

表6 各場景實驗逃逸成功率比較Table 6 Comparison of experimental escape success rates in various scenarios

圖12 飛行器1(4)V3 三角形編隊軌跡圖Fig.12 Triangle formation trajectories of aircraft 1(4)V3

圖13 飛行器1(5)V4 橫向編隊軌跡圖Fig.13 Horizontal formation trajectories of aircraft 1(5)V4

5 結(jié)論

通過對高速飛行器的博弈對抗仿真, 證明飛行器采取拋誘餌、姿態(tài)調(diào)整、機動調(diào)整等策略可有效躲避藍方多個飛行器動態(tài)攔截. 針對多飛行器攔截多個目標問題,采用匈牙利算法進行動態(tài)目標分配,實現(xiàn)對紅方飛行器集群最大程度打擊. 采用改進的DDPG 算法—DDPG_PK 算法,用先驗知識進行預(yù)訓練和采用優(yōu)先經(jīng)驗回放機制相結(jié)合的方式, 可以加快智能體學習速度和算法收斂速度, 有效地解決了多攔一場景下飛行器難以逃逸的問題. 與傳統(tǒng)固定拋誘餌策略相比,智能體逃逸成功率顯著提升. 利用本文所提算法, 使紅方飛行器與不同編隊及不同數(shù)量的藍方飛行器對抗, 均能獲得較高的逃逸成功率,驗證該算法具有一定的泛化能力. 所提方法對研究高速空間飛行器群體博弈策略有較強的借鑒意義,可將此方法拓展于更復(fù)雜的飛行器博弈對抗場景.