王若冰,王曉芳
(北京理工大學(xué)宇航學(xué)院,北京 100081)
現(xiàn)代無人機(jī)體型小,隱蔽性強(qiáng),大量應(yīng)用于現(xiàn)代空戰(zhàn)。無人機(jī)追逃博弈問題成為當(dāng)前競相研究的熱點。為了提高無人機(jī)的自主博弈能力,亟需研究使無人機(jī)空戰(zhàn)對抗更加智能化的追逃博弈方法[1]。
求解飛行器追逃問題的方法主要有基于蒙特卡洛法的數(shù)值求解方法[2]、采用最優(yōu)控制理論[3-4]和微分對策理論[5-6]的方法。采用數(shù)值解法的追逃博弈求解方法需要進(jìn)行大量仿真,求解成本過高,不滿足當(dāng)前快速求博弈均衡解的需求。文獻(xiàn)[3-4]在基于最優(yōu)控制理論的飛行器追逃博弈求解方法中,都假設(shè)對方的機(jī)動策略已知。這些方法不適用于追逃雙方均在自己最大機(jī)動能力范圍內(nèi)進(jìn)行機(jī)動,而沒有哪方采用固定策略的場景。采用微分對策理論的博弈方法大多是基于精確的追逃雙方相對運動模型推導(dǎo)的。而現(xiàn)代戰(zhàn)爭中,復(fù)雜戰(zhàn)場環(huán)境往往對飛行器形成較大干擾,無法建立其追逃問題的精確數(shù)學(xué)模型,此時微分對策博弈方法的精度將會下降,甚至不再適用。
近年來發(fā)展起來的深度強(qiáng)化學(xué)習(xí)算法不需要建立飛行器的精確數(shù)學(xué)模型,而是通過與環(huán)境的交互、設(shè)定獎勵函數(shù)來引導(dǎo)飛行器進(jìn)行自主機(jī)動決策。當(dāng)前,深度強(qiáng)化學(xué)習(xí)算法在航跡規(guī)劃[7]、制導(dǎo)律設(shè)計[8-10]、姿態(tài)控制[11-13]、空戰(zhàn)決策[14]等多方面有著較多的應(yīng)用。近年來,也有學(xué)者采用深度強(qiáng)化學(xué)習(xí)理論研究飛行器追逃博弈問題[15-16]。文獻(xiàn)[15]采用基于自博弈架構(gòu)的PPO 算法,根據(jù)CW 方程設(shè)計了一種特殊的獎勵函數(shù),最終求解得到軌道航天器追逃博弈的均衡解;文獻(xiàn)[16]將模糊推理與時序誤差評價相結(jié)合,對經(jīng)驗回放池進(jìn)行分類后,采用深度強(qiáng)化學(xué)習(xí)算法求解了高速飛行器的攻防博弈。
當(dāng)前采用深度強(qiáng)化學(xué)習(xí)算法的追逃博弈求解方法,大多采用了多階段交替訓(xùn)練(自博弈)的方式,也就是固定一方的策略同時訓(xùn)練另一方的策略直至收斂,并進(jìn)行多次交替訓(xùn)練。但實際博弈過程中,追逃雙方同時機(jī)動,上述方法求得的解并不一定是最優(yōu)解,且該方法中網(wǎng)絡(luò)的訓(xùn)練時間比較長。本文將復(fù)雜作戰(zhàn)環(huán)境中變速飛行的飛行器追逃博弈問題看作多智能體博弈對抗問題,采用多智能體強(qiáng)化學(xué)習(xí)與博弈論相結(jié)合的方法,通過“集中式訓(xùn)練、分布式執(zhí)行”[17]的方式,實現(xiàn)訓(xùn)練過程中無人機(jī)追逃雙方的同時機(jī)動博弈,在追逃雙方獎勵函數(shù)收斂時求得雙方的最優(yōu)解(納什均衡解)。
在追逃博弈問題中,捕獲域和逃逸域是非常重要的概念。所謂捕獲域是指追擊方成功情況下追逃雙方初始態(tài)勢的集合,逃逸域定義類似。目前求解捕獲域(逃逸域)的方法,大多數(shù)是在定性或定量微分對策的基礎(chǔ)上,對微分對策問題進(jìn)行簡化,最后求得捕獲域[18-19]。文獻(xiàn)[18]采用微分博弈理論研究了捕獲域的存在條件,并給出了近地軌道飛行器追逃博弈中關(guān)于偏心率的捕獲域邊界;文獻(xiàn)[19]提出了一種基于定性微分博弈的數(shù)值方法,對軌道追逃問題中的三維界柵軌跡和捕獲域進(jìn)行轉(zhuǎn)化并求解。
以上求解捕獲域的方法都是在精確數(shù)學(xué)模型基礎(chǔ)上進(jìn)行的,當(dāng)飛行器處于復(fù)雜干擾環(huán)境而無法獲得精確數(shù)學(xué)模型,求解捕獲域非常困難,目前還未見到此方面的文獻(xiàn)。事實上,影響博弈結(jié)果的初始因素很多,例如初始位置、初始速度方向等,故表征捕獲域的是一個高維狀態(tài)向量域,此時捕獲域的求解會更加復(fù)雜。深度對比學(xué)習(xí)方法是一種考察樣本之間差異信息的監(jiān)督學(xué)習(xí)方法[20-21],通過構(gòu)建孿生神經(jīng)網(wǎng)絡(luò),采用引導(dǎo)樣本進(jìn)行分類的損失函數(shù)訓(xùn)練出一種可以穩(wěn)定有效提取特征的深度神經(jīng)網(wǎng)絡(luò)。而捕獲域和逃逸域?qū)嶋H上是兩種不同類別的高維向量域,因此本文采用深度對比學(xué)習(xí)的方法,對高維初始狀態(tài)向量進(jìn)行區(qū)分學(xué)習(xí),進(jìn)而實現(xiàn)對復(fù)雜環(huán)境中高維捕獲域(逃逸域)的間接表征。
假設(shè)兩架無人機(jī)在水平面內(nèi)進(jìn)行博弈對抗,其相對運動關(guān)系如圖1所示。
圖1 無人機(jī)二維追逃博弈幾何模型Fig.1 Geometric model of UAVs two-dimensional pursuit-evasion game
圖1 中,OXZ為地面坐標(biāo)系。P、E 分別代表追擊方無人機(jī)(以下簡稱“追擊方”)和逃逸方無人機(jī)(以下簡稱“逃逸方”)。vP、vE分別為追擊方和逃逸方的速度矢量,速度矢量與OX軸的夾角為速度方向角ψ,若由OX軸逆時針旋轉(zhuǎn)至速度矢量,則ψ為正,反之為負(fù)。ηPE為追擊方速度矢量前置角,即vP與目標(biāo)視線之間的夾角,若由速度矢量逆時針旋轉(zhuǎn)到目標(biāo)視線,則ηPE為正,反之為負(fù)。分別為追擊方和逃逸方的切向加速度大小則為雙方的法向加速度大小。qPE為追擊方-逃逸方無人機(jī)視線角。
考慮擾動的無人機(jī)運動模型為:
式中:xi,zi(i=P,E)為無人機(jī)i的質(zhì)心坐標(biāo)和為復(fù)雜環(huán)境中的等效有界擾動??紤]到無人機(jī)機(jī)動能力的有限性,其控制量須滿足:
在無人機(jī)追逃博弈問題中,無人機(jī)i可通過攜帶的慣導(dǎo)、雷達(dá)探測器等裝置獲得自身與對手的位置以及自身的速度信息,故可得雙方之間的距離rPE及追擊方速度矢量前置角ηPE為:
式中:vP、rPE分別為追擊方速度大小與追逃雙方相對距離大小。
假設(shè)ra為追擊無人機(jī)的毀傷半徑,Tmax為考慮燃油等因素的無人機(jī)允許飛行最長時間。當(dāng)滿足以下不等式時,認(rèn)為追擊方成功捕獲逃逸方,否則認(rèn)為逃逸方成功逃逸。
式中:TPE為追逃博弈的實際時間。
對于無人機(jī)追逃博弈問題,追擊方與逃逸方是非合作目標(biāo),雙方的博弈目的完全沖突,此問題實質(zhì)上是一種完全競爭的零和博弈(Zero-sum game,ZSG)問題。二維平面內(nèi)運動的無人機(jī)通過調(diào)整切向加速度和法向加速度來實現(xiàn)對運動的控制,即無人機(jī)i的控制量ui=
追逃博弈過程中,追擊方(逃逸方)在考慮對方的前提下,不斷調(diào)整自身的策略以縮短(增加)相對距離來實現(xiàn)捕獲(逃逸)。根據(jù)追逃雙方上述博弈目標(biāo),構(gòu)建t時刻基于相對距離的博弈效能微分函數(shù)jP(uP,uE)、jE(uP,uE),考慮總博弈時間為TPE,則時間-控制量效能目標(biāo)函數(shù)為:
式中:λi(i=P,E)為加權(quán)系數(shù)。
綜上,本文的無人機(jī)追逃博弈三要素為:博弈者集合{P,E}、動作集合U={uP,uE}、效能函 數(shù){JP,JE}。
在無人機(jī)追逃博弈過程中,追逃雙方分別根據(jù)當(dāng)前的狀態(tài)調(diào)整策略,獨立優(yōu)化各自的效能函數(shù)JP,JE,并得到各自的最優(yōu)策略。假設(shè)目標(biāo)函數(shù)JP,JE:uP×uE→R在uP×uE上連續(xù),則根據(jù)博弈論中的納什均衡理論,雙方的策略滿足如下不等式時,零和博弈存在納什均衡態(tài):
式中:J=JP。對于零和博弈,博弈均衡態(tài)是博弈系統(tǒng)的穩(wěn)定狀態(tài)。本文采用的基于多智能體強(qiáng)化學(xué)習(xí)算法的無人機(jī)追逃博弈求解框架,在“集中式訓(xùn)練”中,追逃雙方的博弈能力不斷提升,最終雙方的效能函數(shù)均達(dá)到考慮對手策略與狀態(tài)下的最優(yōu),系統(tǒng)到達(dá)博弈納什均衡態(tài)。采用“分布式執(zhí)行”的方式,追逃雙方可根據(jù)自身狀態(tài)執(zhí)行將所有對手的狀態(tài)與動作考慮在內(nèi)的納什均衡策略,得到在不同初始條件下的納什均衡解。
MADDPG 算法基于多個智能體之間的博弈關(guān)系,采用全局觀測信息與策略不斷評估各個智能體的決策。本節(jié)首先介紹多智能體馬爾科夫決策過程與MADDPG 算法理論,最后給出了采用MADDPG 算法的無人機(jī)追逃博弈納什均衡解求解流程。
2.1.1 追逃雙方的狀態(tài)空間與動作空間
對于多智能體強(qiáng)化學(xué)習(xí),其采用的馬爾科夫決策過程可以看作一種隨機(jī)博弈(Stochastic games,SG)框架,具體可以表示為:
式中:S為包含環(huán)境中所有智能體的所有狀態(tài)的空間集合,在無人機(jī)博弈問題中,觀測量S為:
設(shè)N為參與博弈的智能體數(shù)量,A1,A2,…,AN表示各智能體的動作,則多智能體的聯(lián)合動作A可表示為A=A1×A2× …×AN,對于無人機(jī)追逃博弈,無人機(jī)i(i∈{P,E})的動作為其切向加速度大小ati和法向加速度大小ani,則聯(lián)合動作A為:
式(8)中的P:S×A×S→[0,1]為狀態(tài)轉(zhuǎn)移矩陣,γ∈[0,1]為獎勵期望中的衰減因子。
2.1.2 追逃雙方的獎勵函數(shù)
式(8)中,R1,R2,…,RN為智能體的即時獎勵。獎勵函數(shù)的設(shè)置對于MADDPG 算法的收斂性具有重要影響。追逃博弈過程中,式(3)中的相對距離rPE與追擊方速度矢量前置角ηPE對追逃雙方的博弈態(tài)勢有著至關(guān)重要的作用,因此可根據(jù)這2 項設(shè)定獎勵函數(shù)。
式(14)中:ηa為追擊方期望的速度矢量前置角,為了有利于追擊目標(biāo)并且網(wǎng)絡(luò)不至于太難收斂,其一般設(shè)為一個較小的值,本文設(shè)為15°。
為了避免常值獎勵函數(shù)帶來的獎勵稀疏問題,式(11)~(14)中,在常值獎勵函數(shù)的基礎(chǔ)上增加了隨時間變化的項(式(12)和(14)的常值獎勵函數(shù)可看作0)。
綜上,對于第m步,追擊方獎勵函數(shù)RP為:
類似地,逃逸方的獎勵函數(shù)RE也由4 部分組成:
考慮到逃逸方目標(biāo)與追擊方相反且采用零和馬爾科夫博弈的前提,式(16)中4 部分獎勵函數(shù)分別為:
2.1.3 無人機(jī)追逃博弈的納什均衡態(tài)表征
追逃雙方無人機(jī)智能體i(i∈{P,E})的狀態(tài)值函數(shù)為:
式中:πi為智能體i的策略,π-i為除去智能體i以外其他智能體的策略;Ei表示智能體i的累計回報在聯(lián)合狀態(tài)St=T=s處的期望值為智能體i在t=T+1 時刻獲得的獎勵;St=T+1為所有智能體在t=T+1時刻的聯(lián)合狀態(tài)集;γ仍然為折扣系數(shù)。
對于無人機(jī)追逃博弈這個零和博弈問題,所有智能體i(i∈{P,E})都在最大化各自的策略價值函數(shù),其納什均衡態(tài)可表示為:
式中:πi,?、π-i,?分別為智能體i與除去i外的其他智能體的納什均衡策略;∏i為智能體i的策略集。
MADDPG 算法的網(wǎng)絡(luò)結(jié)構(gòu)分為Actor 網(wǎng)絡(luò)與Critic 網(wǎng)絡(luò),其采用“集中式訓(xùn)練,分布式執(zhí)行”的框架進(jìn)行訓(xùn)練,意義在于:在訓(xùn)練過程中,通過全局集中式的Critic 網(wǎng)絡(luò)對各個獨立的agent 進(jìn)行訓(xùn)練,使得每個agent 都在考慮全局信息的前提下對自身的局部策略進(jìn)行調(diào)整,避免了單智能體算法無法解決的環(huán)境不平穩(wěn)問題;在分布式應(yīng)用時,每個Actor 網(wǎng)絡(luò)僅需根據(jù)自身的觀測信息便可得出策略。
采用MADDPG 算法的無人機(jī)追逃博弈求解算法架構(gòu)如圖2所示。
圖2 采用MADDPG算法的無人機(jī)追逃博弈求解算法架構(gòu)Fig.2 Framework of the MADDPG algorithm solving the pursuit-evasion game between UAVs
多智能體追逃博弈網(wǎng)絡(luò)中,每個智能體的Critic網(wǎng)絡(luò)的輸入包括所有智能體的全局信息,網(wǎng)絡(luò)損失函數(shù)為:
Critic 網(wǎng)絡(luò)通過最小化式(20)來實現(xiàn)自身網(wǎng)絡(luò)參數(shù)的更新。
追逃雙方智能體的Actor 網(wǎng)絡(luò)則采用梯度下降法進(jìn)行參數(shù)更新,每個智能體的Actor網(wǎng)絡(luò)僅需要局部信息,以此實現(xiàn)后續(xù)的分布式執(zhí)行。
智能體(i∈{P,E})的Actor 網(wǎng)絡(luò)梯度的計算公式為:
式(20)~(21)中,參數(shù)上下標(biāo)t代表更新網(wǎng)絡(luò)參數(shù)的第t個數(shù)據(jù),其中t=1,2,…,K。
追逃雙方的Actor網(wǎng)絡(luò)參數(shù)的更新公式為:
式中:η為學(xué)習(xí)率,θi為Actor網(wǎng)絡(luò)參數(shù)。
在MADDPG 集中式訓(xùn)練過程中,追逃雙方智能體i(i∈{P,E})的策略梯度均按照式(20)~(22)進(jìn)行更新。當(dāng)每個智能體的獎勵函數(shù)都趨于收斂時,雙方的獎勵均為考慮對手策略下的最優(yōu),根據(jù)1.2小節(jié)以及式(6)可知,此時便得到了多智能體追逃博弈的納什均衡解。
2.3.1 無人機(jī)捕獲域和逃逸域的表征
對于無人機(jī)追逃博弈,雙方的博弈結(jié)果取決于博弈的初始態(tài)勢,即不同的初始狀態(tài)對應(yīng)的雙方博弈結(jié)果不同。本文中,定義追擊方成功捕獲所對應(yīng)的追逃雙方初始條件的集合為捕獲域;逃逸方成功逃逸所對應(yīng)的初始條件的集合稱為逃逸域。
若對抗開始時,追逃雙方的位置、速度大小已定,則表示初始速度方向的速度方向角組合(ψP0,ψE0)可表征捕獲域和逃逸域;若對抗開始時,追逃雙方的速度大小和方向已定,則雙方的初始位置XPE=(xP0,zP0,xE0,zE0)T可表征捕獲域和逃逸域。
以(ψP0,ψE0)表征的捕獲域(由于逃逸域也類似,以下均不再寫逃逸域)是二維平面內(nèi)的點集,因此可較容易地直觀表征。而以(xP0,zP0,xE0,zE0)T表示的捕獲域為四維點集,其表征比較困難。如果對抗開始時雙方的位置和速度均未定,則表征捕獲域的向量維度更高。本文采用對比學(xué)習(xí)的方法來求取高維捕獲域。
對比學(xué)習(xí)通過讓孿生神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)數(shù)據(jù)點之間的相似或不同的關(guān)系,來獲得區(qū)分?jǐn)?shù)據(jù)點類別的能力[21]。對于高維度的向量,孿生神經(jīng)網(wǎng)絡(luò)將其映射為一個具有區(qū)分度的低維向量,并通過衡量低維向量之間的相似度來衡量高維向量之間的相似度。
對于本文中的高維捕獲域與逃逸域,兩者互不相容,故可采用對比學(xué)習(xí)的方法,利用孿生神經(jīng)網(wǎng)絡(luò)將高維初始條件映射為具有區(qū)分度的低維特征向量,并衡量低維特征向量的相似程度,進(jìn)而對高維的捕獲域和逃逸域進(jìn)行間接表征。
2.3.2 深度對比學(xué)習(xí)的樣本集獲取
給定典型攻防對抗場景下的初始條件,采用收斂的MADDPG 博弈網(wǎng)絡(luò)獲得不同初始態(tài)勢下的博弈結(jié)果,從而獲得捕獲成功樣本點集和逃逸成功樣本點集。之后,采用先隨機(jī)打亂、后隨機(jī)取樣的方式獲得具有相同分布且互不相容的訓(xùn)練樣本集、驗證樣本集與測試樣本集,用于孿生神經(jīng)網(wǎng)絡(luò)的訓(xùn)練和測試。
2.3.3 采用深度對比學(xué)習(xí)的捕獲域求解
孿生神經(jīng)網(wǎng)絡(luò)的2 個輸入為追逃博弈的2 個初始條件X1,X2,以Y來表示X1,X2的差異 度。若X1,X2對應(yīng)的博弈結(jié)果相同,稱其為同類樣本對,則Y=0;若不同,則為異類樣本對,同時Y=1。孿生神經(jīng)網(wǎng)絡(luò)由2 個共享權(quán)重的深度神經(jīng)網(wǎng)絡(luò)構(gòu)成,輸入為高維的向量樣本對X1,X2,輸出為具有可提取特征的低維樣本對G(X1),G(X2)。X1,X2之間的相似程度用映射后的低維向量之間的歐氏距離D來衡量,即:
設(shè)定歐氏距離閾值ε,當(dāng)D(X1,X2) ≤ε時,認(rèn)為X1,X2相似;反之,則認(rèn)為X1,X2相異。對比學(xué)習(xí)算法通過低維樣本的相似度衡量高維向量的相似度,具體見文獻(xiàn)[21]。
孿生神經(jīng)網(wǎng)絡(luò)的損失函數(shù)為對比損失函數(shù)L,其表達(dá)式為[21]:
基于訓(xùn)練集中的同類樣本對與異類樣本對,通過最小化L來不斷更新網(wǎng)絡(luò)參數(shù),最終可訓(xùn)練出使異類樣本對相互遠(yuǎn)離,同類樣本對相互靠近的孿生神經(jīng)網(wǎng)絡(luò)。當(dāng)L趨于0 并穩(wěn)定后,認(rèn)為孿生神經(jīng)網(wǎng)絡(luò)收斂,此時網(wǎng)絡(luò)便具有了穩(wěn)定地提取特征的能力。
設(shè)孿生神經(jīng)網(wǎng)絡(luò)提取特征能力的強(qiáng)弱由區(qū)分正確率ζ來表示:
式中:N為總樣本數(shù),M為孿生神經(jīng)網(wǎng)絡(luò)區(qū)分正確的樣本數(shù)。
本文采用對比學(xué)習(xí)算法,在訓(xùn)練過程中通過L來調(diào)整網(wǎng)絡(luò)參數(shù),直到驗證集與訓(xùn)練集的ζ均不低于95%且L收斂時,停止訓(xùn)練。再應(yīng)用測試集對該網(wǎng)絡(luò)的區(qū)分效果進(jìn)行非重復(fù)試驗,進(jìn)而驗證網(wǎng)絡(luò)對樣本區(qū)分的有效性與魯棒性。
本仿真在CPU 為i5-6500 CPU@3.20 GHz、內(nèi)存為12 GB 的PC 機(jī)上進(jìn)行,基于Pycharm Community 2022.03.22 平臺、采用Python 3.7 語言進(jìn)行程序編寫,深度學(xué)習(xí)環(huán)境采用Pytorch 1.13.1。
追逃雙方無人機(jī)的初始位置、初始速度大小及方向范圍、雙方的切向和法向加速度范圍,以及擾動見表1。表中dti與dni在擾動范圍內(nèi)均勻分布。
表1 追逃雙方初始參數(shù)、加速度及擾動Table 1 The initial parameters,accelerations of the pursuer and escaper and the disturbances
假設(shè)追擊方無人機(jī)毀傷半徑ra=15 m。MADDPG 算法中的Actor 網(wǎng)絡(luò)與Critic 網(wǎng)絡(luò)的參數(shù)設(shè)置見表2。
表2 MADDPG網(wǎng)絡(luò)參數(shù)Table 2 Network parameters of MADDPG
MADDPG算法訓(xùn)練參數(shù)設(shè)置見表3。
采用表2~3 的網(wǎng)絡(luò)與算法參數(shù),對處于表1 隨機(jī)場景中的追逃雙方無人機(jī)進(jìn)行集中式訓(xùn)練,得到的追逃雙方平均回合獎勵如圖3所示。
圖3 追逃雙方平均回合獎勵Fig.3 Average episode reward of the pursuer and escaper
由圖3可知,博弈對抗網(wǎng)絡(luò)在經(jīng)過1 849回合的集中式訓(xùn)練后,追逃雙方平均回合獎勵趨于收斂,此時雙方的獎勵函數(shù)都在考慮對方策略的前提下趨于收斂穩(wěn)定,系統(tǒng)達(dá)到了均衡狀態(tài),此時博弈對抗網(wǎng)絡(luò)即為納什均衡網(wǎng)絡(luò)。
采用收斂的MADDPG 博弈對抗網(wǎng)絡(luò)作為策略生成網(wǎng)絡(luò),對給定追逃雙方初始條件的場景進(jìn)行“分布式執(zhí)行”,實現(xiàn)雙方無人機(jī)的博弈對抗。假設(shè)某作戰(zhàn)場景中,追擊方的初始位置(xP0,zP0)為(-30.84,24.42)m,初始速度大小vP0=148.75 m/s,初始發(fā)射方向ψP0=69.13°;逃逸方初始位置(xE0,zE0)為(27.99,1 727.25)m,初始速度大小為vE0=24.42 m/s,初始發(fā)射方向ψE0=-34.68°。追逃雙方切向、法向加速度范圍與訓(xùn)練時相同,見表1。
采用MADDPG 決策網(wǎng)絡(luò)得到追逃雙方的飛行軌跡(包含第20、30、40步的追逃雙方實時位置和視線)如圖4所示。
圖4 追逃雙方運動軌跡Fig.4 The trajectory of the pursuer and the escaper
由圖4可知,在給定場景中,追擊方在t=9.809 s時與逃逸方的相對距離rPE達(dá)到15 m,實現(xiàn)了對逃逸方的捕獲。
追擊方和逃逸方的切向加速度、法向加速度變化如圖5~8所示。
圖5 追擊方切向加速度Fig.5 The tangential acceleration of the pursuer
圖6 逃逸方切向加速度Fig.6 The tangential acceleration of the escaper
圖7 追擊方法向加速度Fig.7 The centripetal acceleration of the pursuer
圖8 逃逸方法向加速度Fig.8 The centripetal acceleration of the escaper
由圖5~8可知,追擊方的切向加速度較小且其變化也較小,而其法向加速度變化較大;逃逸方的法向加速度較小且其變化也較小,但其切向加速度較大,因此追擊方主要通過法向機(jī)動進(jìn)行追擊而逃逸方主要通過切向機(jī)動進(jìn)行逃逸。
對于無人機(jī)追逃博弈,不同的初始條件下,追逃雙方的博弈結(jié)果也不同,接下來求解以初始發(fā)射方向、初始位置表征的捕獲域和逃逸域。
1) (ψP0,ψE0)表征的捕獲域與逃逸域
假設(shè)追逃雙方的初始位置、速度大小以及加速度范圍與3.2 中的仿真場景一致,追擊方、逃逸方的初始速度方向角ψP0與ψE0分別在[60°,75°]和[ -45°,-15°]內(nèi)采樣。采用收斂的MADDPG 決策網(wǎng)絡(luò)作為無人機(jī)的控制網(wǎng)絡(luò),根據(jù)博弈結(jié)果,可直接通過蒙特卡洛打靶的方式得到以(ψP0,ψE0)表征的捕獲域和逃逸域,具體如圖9所示。
圖9 捕獲域與逃逸域的劃分Fig.9 Division of capture region and escape region
圖中,藍(lán)色區(qū)域為捕獲域,紅色區(qū)域為逃逸域,分別表征追擊方成功捕獲與逃逸方成功逃逸的(ψP0,ψE0)。
2) (xP0,zP0,xE0,zE0)表征的捕獲域與逃逸域
假設(shè)追逃雙方無人機(jī)初始速度大小及加速度范圍同3.1 中的仿真場景,本部分設(shè)雙方的初始發(fā)射方向分別為ψP0=60°,ψE0=-30°。追擊方初始位置的xP0、zP0分別在(-100,0)m 和(0,100) m 內(nèi)均勻采樣,逃逸方初始位置的xE0、zE0分別在(0,100) m 和(1 700,1 800) m內(nèi)均勻采樣。將四維向量XPE=[xP0,zP0,xE0,zE0]T輸入MADDPG 博弈對抗網(wǎng)絡(luò),根據(jù)博弈結(jié)果,劃分同類樣本對與異類樣本對,2類樣本對的數(shù)量基本符合1∶1 的比例。2 類樣本對混合得到總樣本對集合W?;赪按照8∶2∶2的比例劃分訓(xùn)練集T、驗證集V和測試集J,各樣本集中同類、異類樣本對的數(shù)量也基本符合1∶1的比例,具體見表4。
表4 訓(xùn)練集、驗證集和測試集參數(shù)Table 4 The parameters of the training set、validation set and test set
對比學(xué)習(xí)訓(xùn)練參數(shù)以及孿生神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)設(shè)置見表5。
表5 對比學(xué)習(xí)訓(xùn)練參數(shù)和孿生神經(jīng)網(wǎng)絡(luò)參數(shù)Table 5 The training parameters of contrastive learning and parameters of the Siamese Network
在計算區(qū)分正確率的式(25)中,設(shè)N=100。在表4和表5的基礎(chǔ)上,得到孿生神經(jīng)網(wǎng)絡(luò)的L隨回合數(shù)變化曲線如圖10所示;訓(xùn)練集與驗證集的區(qū)分正確率隨回合數(shù)變化的曲線如圖11所示。
圖10 孿生神經(jīng)網(wǎng)絡(luò)的損失函數(shù)圖Fig.10 The loss of the Siamese Network
圖11 訓(xùn)練集與驗證集的區(qū)分正確率Fig.11 The distinguish accuracy rate of the training and validation set
由圖10 可知,經(jīng)過40 回合的訓(xùn)練后,孿生神經(jīng)網(wǎng)絡(luò)的L逐漸收斂至0附近;由圖11可知,隨著回合數(shù)的增多,訓(xùn)練集和驗證集的區(qū)分正確率呈現(xiàn)振蕩上升趨勢,當(dāng)回合數(shù)為90 時,測試集和驗證集的區(qū)分正確率均達(dá)到96%,此時滿足算法終止條件(區(qū)分正確率大于95%),停止訓(xùn)練。
從測試集中隨機(jī)抽取100 個樣本對,采用第90 回合的孿生神經(jīng)網(wǎng)絡(luò)對其進(jìn)行判別,重復(fù)進(jìn)行30 次。在30 次的測試結(jié)果中,最低的ζ為88%,最高的ζ達(dá)99%,平均ζ為94.8%,說明訓(xùn)練出的孿生神經(jīng)網(wǎng)絡(luò)對于追擊成功與逃逸成功對應(yīng)的高維初始條件有著較強(qiáng)的區(qū)分能力。
隨機(jī)從W中抽取1 414 個高維樣本(追擊成功、逃逸成功樣本分別為621、793個),將其輸入至孿生神經(jīng)網(wǎng)絡(luò),根據(jù)深度對比學(xué)習(xí)算法的原理,網(wǎng)絡(luò)將輸出具有可區(qū)分特征的低維向量,其空間分布如圖12所示。
圖12 追擊成功與逃逸成功的低維可提取特征向量分布Fig.12 Low-dimensional extractable feature vector distribution of successful pursuit and successful escape
由圖12可知在絕大多數(shù)情況下,經(jīng)由對比學(xué)習(xí)得到的孿生神經(jīng)網(wǎng)絡(luò)可將追擊成功與逃逸成功的高維向量對應(yīng)的低維特征向量明顯地區(qū)分開,即:同類樣本點的低維特征向量之間的距離大部分小于歐氏距離閾值0.1,異類樣本點的低維特征向量之間距離則大部分大于0.1。結(jié)合式(24)可知,孿生神經(jīng)網(wǎng)絡(luò)使同類樣本點相互靠近而異類樣本點相互遠(yuǎn)離,以此實現(xiàn)了對于高維初始條件的區(qū)分,進(jìn)而間接表征了高維捕獲域。
在實際應(yīng)用時,令孿生神經(jīng)網(wǎng)絡(luò)的其中一個輸入為捕獲成功的某初始條件向量(xP0,zP0,xE0,zE0)T=(-50,40,90,1 790)Tm,另一個輸入是需判別的20個初始條件向量,得到的對比學(xué)習(xí)分類與實際分類結(jié)果如表6所示(為了節(jié)省篇幅,只給出其中10個的結(jié)果)。表中P和E分別表示捕獲成功和逃逸成功。
表6 采用孿生神經(jīng)網(wǎng)絡(luò)的捕獲與逃逸預(yù)測Table 6 The predictions of the pursuit and escape success by using Siamese Network
由表6 可知,對比學(xué)習(xí)網(wǎng)絡(luò)的區(qū)分正確率為95%,說明了此對比學(xué)習(xí)的孿生神經(jīng)網(wǎng)絡(luò)對于捕獲域(逃逸域)表征的有效性。
本文針對二維平面內(nèi)無人機(jī)追逃博弈問題,研究了博弈均衡解的求取以及捕獲域(逃逸域)的表征問題。主要結(jié)論有:提出了一種考慮零和博弈的無人機(jī)追逃博弈獎勵函數(shù)設(shè)計方法,并建立了多智能體追逃博弈馬爾科夫模型;構(gòu)建了采用MADDPG算法的追逃博弈策略求解框架,并求得了博弈均衡解;提出了一種采用深度對比學(xué)習(xí)理論和孿生神經(jīng)網(wǎng)絡(luò)的捕獲域(逃逸域)求解方法,實現(xiàn)了對2 個高維區(qū)域的有效區(qū)分和間接表征。