暢 鑫,李艷斌,趙 研,杜宇峰,2,劉東輝
(1.中國(guó)電子科技集團(tuán)公司第五十四研究所,河北石家莊 050081;2.河北省電磁頻譜認(rèn)知與管控重點(diǎn)實(shí)驗(yàn)室,河北石家莊 050081;3.石家莊鐵道大學(xué)經(jīng)濟(jì)管理學(xué)院,河北石家莊 050043)
異構(gòu)無(wú)人機(jī)突防是指揮控制決策體系博弈中的重要策略組成部分[1-5]。在指揮控制博弈中,功能不同的無(wú)人機(jī)將依據(jù)突防任務(wù)安排編組為異構(gòu)多無(wú)人機(jī)群。異構(gòu)多無(wú)人機(jī)如何智能化地產(chǎn)生博弈策略,對(duì)于提高指揮控制體系博弈具有關(guān)鍵作用[6]。因此,異構(gòu)多無(wú)人機(jī)智能化協(xié)同突防方法的研究對(duì)于指揮控制決策領(lǐng)域具有重要的研究意義。
當(dāng)前,國(guó)內(nèi)外協(xié)同突防博弈策略產(chǎn)生和優(yōu)化問(wèn)題可以分為自動(dòng)化、自適應(yīng)化和智能化3個(gè)階段?;谂袛噙壿嬍侄螌?shí)現(xiàn)系統(tǒng)自動(dòng)化,能夠按照預(yù)設(shè)任務(wù)等信息,不考慮與環(huán)境的交互,靜態(tài)的實(shí)現(xiàn)任務(wù)。基于專家經(jīng)驗(yàn)知識(shí),考慮環(huán)境變化的影響,人工梳理和構(gòu)建完成任務(wù)需求的目標(biāo)函數(shù)和約束函數(shù),實(shí)現(xiàn)動(dòng)態(tài)自適應(yīng)化的系統(tǒng),如國(guó)內(nèi)外研究中的經(jīng)典算法包括動(dòng)態(tài)規(guī)劃方法、最速下降法、牛頓法、共軛梯度法、擬牛頓法、信賴域方法、最小二乘法和最優(yōu)控制法等。上述方法存在共同的缺點(diǎn),面對(duì)不同任務(wù),需要分別人工提煉任務(wù)目標(biāo)函數(shù)和約束函數(shù),且通常要求目標(biāo)函數(shù)連續(xù)可導(dǎo)。為了解決該問(wèn)題,引入啟發(fā)式尋優(yōu)等方法改進(jìn),使得突防效果提升。但是該思路依然需要人工構(gòu)建目標(biāo)函數(shù)和約束函數(shù),且多目標(biāo)優(yōu)化問(wèn)題始終是元啟發(fā)算法的重難點(diǎn)問(wèn)題,如多目標(biāo)進(jìn)化計(jì)算。為了提高自動(dòng)化程度,并且降低人工參與對(duì)于系統(tǒng)性能的影響,終極目標(biāo)是通過(guò)機(jī)器學(xué)習(xí)等智能手段,構(gòu)建通用框架,從環(huán)境中提取特征,并且隨著在環(huán)境中不斷地探索和學(xué)習(xí),從博弈狀態(tài)中提取特征,并迭代出最優(yōu)或者多個(gè)次優(yōu)策略,不斷提升任務(wù)達(dá)成效果。在當(dāng)前國(guó)內(nèi)外無(wú)人機(jī)協(xié)同突防的研究中,強(qiáng)化學(xué)習(xí)在博弈策略的智能化產(chǎn)生問(wèn)題上具有良好表現(xiàn)。
強(qiáng)化學(xué)習(xí)可以分為值函數(shù)方法和策略梯度方法。Q-learning方法是值函數(shù)方法中最具代表性的方法[7]。該算法的特點(diǎn)在于基于“狀態(tài)-動(dòng)作”配對(duì)的價(jià)值選擇最優(yōu)動(dòng)作,具有魯棒性強(qiáng)、收斂速度快等特點(diǎn),廣泛應(yīng)用于無(wú)人機(jī)自動(dòng)控制領(lǐng)域。但是,由于需要通過(guò)查表的方式進(jìn)行策略訓(xùn)練,在高維狀態(tài)空間中存在維度爆炸的問(wèn)題。針對(duì)這一問(wèn)題,深度Q網(wǎng)絡(luò)(deep Q network,DQN)算法結(jié)合深度學(xué)習(xí)和Q-learning,利用深度神經(jīng)網(wǎng)絡(luò)對(duì)狀態(tài)空間的特征提取能力,將Q表保存在神經(jīng)網(wǎng)絡(luò)中,解決了維度爆炸的問(wèn)題。除此之外,依據(jù)經(jīng)驗(yàn)的重要性對(duì)重放次數(shù)進(jìn)行加權(quán),提高學(xué)習(xí)效率。進(jìn)一步通過(guò)算法引入優(yōu)勢(shì)函數(shù)等數(shù)學(xué)模型,改進(jìn)傳統(tǒng)DQN的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),提出了多種不同神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的改進(jìn)DQN算法,如Dueling DQN,Noisy DQN,Distributed DQN,Rainbow等算法[8]。除此之外,在多智能體強(qiáng)化學(xué)習(xí)領(lǐng)域中也出現(xiàn)了Independent Q-Learning,Value-Decomposition Networks,QMIX等優(yōu)秀的值函數(shù)強(qiáng)化學(xué)習(xí)算法。基于值函數(shù)的深度強(qiáng)化學(xué)習(xí)的最大缺點(diǎn)表現(xiàn)在對(duì)于連續(xù)動(dòng)作空間的處理?;谥岛瘮?shù)的深度強(qiáng)化學(xué)習(xí)的本質(zhì)是采用深度學(xué)習(xí)的分類網(wǎng)絡(luò),使用離散的動(dòng)作空間。在連續(xù)的動(dòng)作空間中,需要對(duì)動(dòng)作空間進(jìn)行采樣,將會(huì)導(dǎo)致動(dòng)作空間爆炸的問(wèn)題。對(duì)此,以Actor-Critic算法為代表的策略梯度方法在連續(xù)控制問(wèn)題上表現(xiàn)出了巨大優(yōu)勢(shì)。Actor-Critic算法分別構(gòu)建用于連續(xù)動(dòng)作選擇和時(shí)域離散估計(jì)價(jià)值神經(jīng)網(wǎng)絡(luò),將值函數(shù)和策略梯度方法相結(jié)合,解決了連續(xù)動(dòng)作空間的決策問(wèn)題。Advantage Actor-Critic算法引入了基線提高算法的性能。Asynchronous Advantage Actor-Critic提出了多線程并行訓(xùn)練框架,有效地解決了強(qiáng)化學(xué)習(xí)在環(huán)境中交互經(jīng)驗(yàn)利用效率低的問(wèn)題。為了進(jìn)一步解決AC算法收斂難的問(wèn)題,利用DQN算法的經(jīng)驗(yàn)回放和雙網(wǎng)絡(luò)估值的思路,提出了深度確定性策略梯度(deep deterministic policy gradient,DDPG)方法[9-11]。DDPG方法與MADDPG方法廣泛應(yīng)用于無(wú)人機(jī)追擊、路徑尋優(yōu)、圍捕等問(wèn)題,在自動(dòng)控制領(lǐng)域表現(xiàn)出了巨大的生命力[12-17]。在上述指揮控制問(wèn)題中,深度強(qiáng)化學(xué)習(xí)的落地關(guān)鍵在于提高數(shù)據(jù)的利用率。除此之外,獎(jiǎng)賞函數(shù)的設(shè)計(jì)也將影響智能水平。如果獎(jiǎng)賞函數(shù)描述的過(guò)于微觀,將導(dǎo)致智能體的探索受限,而獎(jiǎng)賞函數(shù)描述的過(guò)于宏觀,智能體將陷入局部最優(yōu)。
為了智能化產(chǎn)生異構(gòu)多無(wú)人機(jī)協(xié)同突防策略,提出多智能體異步模仿深度確定性策略梯度算法(multi-agent asynchronous imitative deep deterministic policy gradient,MA2IDDPG)的異構(gòu)多無(wú)人機(jī)協(xié)同突防方法,后文中簡(jiǎn)稱MA2IDDPG方法。圍繞方法創(chuàng)新,構(gòu)建異構(gòu)多無(wú)人機(jī)協(xié)同突防策略優(yōu)化和生成優(yōu)化框架,實(shí)現(xiàn)智能突防。本文的關(guān)鍵貢獻(xiàn)和主要?jiǎng)?chuàng)新在于:首先,面對(duì)異構(gòu)多無(wú)人機(jī)協(xié)同突防策略生成和優(yōu)化問(wèn)題,采用異步并行框架改進(jìn)DDPG算法,提高協(xié)同突防經(jīng)驗(yàn)數(shù)據(jù)的收集效率;然后,構(gòu)建共享經(jīng)驗(yàn)池,增加經(jīng)驗(yàn)數(shù)據(jù)的多樣性,提高異構(gòu)多無(wú)人機(jī)智能體的學(xué)習(xí)效率;其次,構(gòu)建基于專家經(jīng)驗(yàn)知識(shí)的牽引性獎(jiǎng)賞函數(shù)和基于異構(gòu)無(wú)人機(jī)任務(wù)結(jié)果的描述性獎(jiǎng)賞函數(shù),分階段使用兩種獎(jiǎng)賞函數(shù)對(duì)異構(gòu)無(wú)人機(jī)智能體進(jìn)行訓(xùn)練,使得異構(gòu)多無(wú)人機(jī)智能體在快速達(dá)到專家知識(shí)水平后,進(jìn)一步提高智能水平,最后,在詳述算法原理的基礎(chǔ)上,給出了算法流程。在異構(gòu)無(wú)人機(jī)協(xié)同突防環(huán)境下,從任務(wù)達(dá)成度的角度對(duì)改進(jìn)算法進(jìn)行了對(duì)比驗(yàn)證。實(shí)驗(yàn)結(jié)果表明,改進(jìn)算法能夠有效產(chǎn)生異構(gòu)多無(wú)人機(jī)協(xié)同突防策略。
多無(wú)人機(jī)協(xié)同突防博弈環(huán)境的特點(diǎn)在于無(wú)人機(jī)具有異構(gòu)性,即為了貼近實(shí)戰(zhàn),博弈環(huán)境中實(shí)體的功能各不相同。除此之外,被突防方非靜止,同樣具有智能水平,以此充實(shí)樣本的多樣性。在突防方和被突防方相互動(dòng)態(tài)博弈的過(guò)程中,不斷提高智能水平。
在圖1所示的博弈環(huán)境中,紅方作為防守方,通過(guò)紅方攔截智能體攔截藍(lán)方攻擊智能體,達(dá)到保護(hù)紅方基地的目標(biāo)。而藍(lán)方作為突防方,通過(guò)藍(lán)方攔截智能體和藍(lán)方攻擊智能體的相互配合,達(dá)到突防攻擊紅方基地的目標(biāo)。
圖1 博弈環(huán)境Fig.1 Game environment
通過(guò)分析場(chǎng)景可知,智能體之間通過(guò)不斷與博弈環(huán)境進(jìn)行交互形成動(dòng)態(tài)博弈,提升異構(gòu)多無(wú)人機(jī)系統(tǒng)突防的智能水平,故適合采用深度強(qiáng)化學(xué)習(xí)方法產(chǎn)生博弈策略。
采用深度強(qiáng)化學(xué)習(xí)的前提是需要將博弈環(huán)境梳理為馬爾可夫決策過(guò)程。抽象要素為智能體位置信息組成的狀態(tài)空間,與引起狀態(tài)轉(zhuǎn)移的動(dòng)作空間和博弈過(guò)程得到獎(jiǎng)勵(lì)。智能體通過(guò)基于狀態(tài)選擇動(dòng)作,然后與博弈環(huán)境交互進(jìn)行博弈訓(xùn)練。
狀態(tài)st可以表示為
st=[x1,y1,x2,y2,x3,y3,x4,y4],
(1)
式中:st∈S,S是狀態(tài)空間;x為智能體的橫坐標(biāo);y為智能體的縱坐標(biāo);1代表基地坐標(biāo);2代表紅方攔截智能體;3代表藍(lán)方攻擊智能體;4代表藍(lán)方攔截智能體。
動(dòng)作a可以表示為
a=[ax,ay],
(2)
式中:a∈A,A是狀態(tài)空間;ax和ay分別為智能體沿橫坐標(biāo)和縱坐標(biāo)的動(dòng)作,取值范圍為[-amax,amax],amax表示最大速度。
MA2IDDPG方法框架如圖2所示,其核心是通過(guò)聯(lián)合獎(jiǎng)賞產(chǎn)生多智能體的協(xié)同策略。博弈場(chǎng)景由博弈環(huán)境和多個(gè)DDPG算法框架組成。借鑒遷移學(xué)習(xí)和課程學(xué)習(xí)的理念,博弈場(chǎng)景分為2個(gè)類型,分別為牽引性訓(xùn)練場(chǎng)景和描述性遷移場(chǎng)景。首先,多智能體在基于經(jīng)驗(yàn)知識(shí)的牽引性訓(xùn)練場(chǎng)景中進(jìn)行自博弈[18],產(chǎn)生牽引性聯(lián)合經(jīng)驗(yàn)存入共享經(jīng)驗(yàn)池,通過(guò)批經(jīng)驗(yàn)更新生成策略;然后,進(jìn)一步在描述性訓(xùn)練場(chǎng)景中進(jìn)行探索,生成超越經(jīng)驗(yàn)知識(shí)的博弈策略;最后,通過(guò)與典型規(guī)則進(jìn)行對(duì)戰(zhàn),針對(duì)性訓(xùn)練智能體,使其產(chǎn)生針對(duì)性的博弈策略。
圖2 算法框架Fig.2 Algorithm framework
獎(jiǎng)賞函數(shù)的設(shè)計(jì)分為基于專家經(jīng)驗(yàn)知識(shí)的牽引性設(shè)計(jì)方法和基于任務(wù)結(jié)果的描述性設(shè)計(jì)方法,分別對(duì)應(yīng)牽引性獎(jiǎng)賞函數(shù)和描述性獎(jiǎng)賞函數(shù)。
對(duì)于抽象后的博弈環(huán)境而言,紅方攔截智能體的任務(wù)是攔截藍(lán)方攻擊智能體對(duì)重要目標(biāo)的進(jìn)攻。從博弈過(guò)程角度分析,可知紅方攔截智能體越靠近藍(lán)方攻擊智能體,則有效攔截藍(lán)方攻擊智能體的效果越好。定義紅方攔截智能體與藍(lán)方攻擊智能體的距離d1為
(3)
故利用紅方攔截智能體與藍(lán)方攻擊智能體位置的距離,得到牽引性獎(jiǎng)勵(lì)函數(shù)r1,表示紅方攔截智能體在當(dāng)前狀態(tài)下選取動(dòng)作所獲得的反饋值:
(4)
同理,藍(lán)方攔截智能體越靠近紅方攔截智能體,則有效攔截紅方攻擊智能體的效果越好。定義紅方攔截智能體與藍(lán)方攔截智能體的距離d2為
(5)
利用藍(lán)方攔截智能體與紅方攔截智能體位置的距離,得到牽引性獎(jiǎng)勵(lì)函數(shù)r2,表示藍(lán)方攔截智能體在當(dāng)前狀態(tài)下選取動(dòng)作所獲得的反饋值:
(6)
同理,紅方攻擊智能體越靠近藍(lán)方重點(diǎn)目標(biāo),則攻擊效果越好。定義藍(lán)方攻擊智能體與紅方基地的距離d3為
(7)
利用藍(lán)方攻擊智能體與紅方基地位置的距離,得到牽引性獎(jiǎng)勵(lì)函數(shù)r3,表示藍(lán)方攻擊智能體在當(dāng)前狀態(tài)下選取動(dòng)作所獲得的反饋值:
(8)
利用牽引性獎(jiǎng)賞函數(shù)能夠使得智能體經(jīng)過(guò)少量訓(xùn)練能快速達(dá)到基于專家知識(shí)的自動(dòng)化水平。為了智能體能夠通過(guò)不斷訓(xùn)練達(dá)到超過(guò)專家知識(shí)的智能化水平,本算法首先利用遷移性獎(jiǎng)賞函數(shù)達(dá)到基于專家知識(shí)的自動(dòng)化水平,然后設(shè)置描述性獎(jiǎng)賞函數(shù),取消專家經(jīng)驗(yàn)知識(shí)對(duì)智能體的限制,使得智能體能夠以專家經(jīng)驗(yàn)知識(shí)為基礎(chǔ),進(jìn)一步探索獲得更優(yōu)的博弈策略,從而不斷提高博弈效果。
描述性獎(jiǎng)賞函數(shù)直接將博弈取勝的結(jié)果通過(guò)公式化表述為獎(jiǎng)賞。
(9)
(10)
式中ε為判定距離。
在沒(méi)有得到結(jié)果的回合中,為了促進(jìn)智能的探索,每個(gè)回合獎(jiǎng)賞都為-1。
描述性獎(jiǎng)勵(lì)除可以用于訓(xùn)練智能體外,也將用于評(píng)估智能體的對(duì)戰(zhàn)勝率。
在博弈系統(tǒng)中的智能單體使用DDPG算法框架[19],為藍(lán)方在突防過(guò)程中不斷提供多樣化的經(jīng)驗(yàn),促進(jìn)智能體的智能水平。
DDPG算法的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)包含策略神經(jīng)網(wǎng)絡(luò)Actor和值函數(shù)神經(jīng)網(wǎng)絡(luò)Critic。Actor擬合策略函數(shù)μ,完成狀態(tài)st到動(dòng)作a的映射。除此之外,將動(dòng)作和隨機(jī)噪聲相疊加,能夠提高智能體對(duì)于未知?jiǎng)幼骱蜖顟B(tài)的探索概率。
a=μ(st)。
(11)
Critic擬合價(jià)值函數(shù),輸入狀態(tài)s到動(dòng)作a,擬合價(jià)值Q。Actor采用策略梯度下降法更新神經(jīng)網(wǎng)絡(luò)參數(shù)θ:
(12)
Critic采用均方誤差損失函數(shù)更新神經(jīng)網(wǎng)絡(luò)參數(shù)ω:
ri-Q(si,ai|ω)]2,
(13)
式中:γ為獎(jiǎng)勵(lì)折扣;μ′為目標(biāo)策略神經(jīng)網(wǎng)絡(luò)Actor,μ′的參數(shù)權(quán)重為θ′;Q′為目標(biāo)值函數(shù)神經(jīng)網(wǎng)絡(luò)Critic,Q′的參數(shù)權(quán)重為ω′。
為了提高學(xué)習(xí)的穩(wěn)定性,對(duì)神經(jīng)網(wǎng)絡(luò)參數(shù)進(jìn)行軟更新。
(14)
式中τ為軟更新比例系數(shù)。
規(guī)則算法針對(duì)特定任務(wù)設(shè)置,用于驗(yàn)證MA2IDDPG算法的性能和效果。在智能體完成牽引性訓(xùn)練場(chǎng)景和描述性遷移場(chǎng)景泛化訓(xùn)練后,基于遷移學(xué)習(xí)的理念,針對(duì)特定任務(wù)進(jìn)行特異性任務(wù)的訓(xùn)練,使得智能體能夠更有針對(duì)性的產(chǎn)生博弈策略。具體到本博弈場(chǎng)景中的紅方規(guī)則算法可以描述為
(15)
式中mod表示取余。
算法訓(xùn)練流程具體分為3個(gè)階段。其中前2個(gè)階段為訓(xùn)練階段,包含牽引性訓(xùn)練和描述性訓(xùn)練,最后1個(gè)階段為評(píng)估階段。
第1階段為牽引性訓(xùn)練。利用牽引性獎(jiǎng)賞對(duì)紅藍(lán)方智能體進(jìn)行牽引訓(xùn)練,以專家經(jīng)驗(yàn)初始化神經(jīng)網(wǎng)絡(luò)參數(shù)收斂趨勢(shì),且不進(jìn)行勝率評(píng)估。第2階段為描述性訓(xùn)練,利用描述性獎(jiǎng)賞使得紅藍(lán)方智能體進(jìn)行自博弈,使得神經(jīng)網(wǎng)絡(luò)關(guān)聯(lián)長(zhǎng)時(shí)間跨度下的狀態(tài)、動(dòng)作和獎(jiǎng)賞,進(jìn)一步泛化神經(jīng)網(wǎng)絡(luò)擬合得到的策略。第3階段為評(píng)估階段,將完成訓(xùn)練后的藍(lán)方多智能體與紅方規(guī)則算法在同場(chǎng)景下進(jìn)行博弈,評(píng)估智能體訓(xùn)練效果。
本文實(shí)驗(yàn)博弈場(chǎng)景中,紅藍(lán)方實(shí)體數(shù)量為4個(gè),包括紅方基地、紅方攔截智能體、藍(lán)方攔截智能體和藍(lán)方攻擊智能體。
實(shí)驗(yàn)訓(xùn)練階段:設(shè)置1 000輪博弈訓(xùn)練,每輪博弈回合數(shù)為1 000步。其中牽引性訓(xùn)練500輪,描述性訓(xùn)練500輪。評(píng)估階段設(shè)置100輪博弈。
在牽引性訓(xùn)練階段中,紅方攔截智能體采用DDPG算法,由藍(lán)方攔截智能體和藍(lán)方攻擊智能體構(gòu)成的藍(lán)方異構(gòu)多無(wú)人機(jī)群采用MA2IDDPG算法,采用牽引性獎(jiǎng)賞函數(shù)進(jìn)行訓(xùn)練;在描述性訓(xùn)練階段,紅方攔截智能體采用DDPG算法,由藍(lán)方攔截智能體和藍(lán)方攻擊智能體構(gòu)成的藍(lán)方異構(gòu)多無(wú)人機(jī)群采用MA2IDDPG方法,用描述性獎(jiǎng)賞函數(shù)進(jìn)行訓(xùn)練;在評(píng)估階段,紅方攔截智能體采用規(guī)則算法模型,由藍(lán)方攔截智能體和藍(lán)方攻擊智能體構(gòu)成的藍(lán)方異構(gòu)多無(wú)人機(jī)群采用MA2IDDPG算法。
在仿真實(shí)驗(yàn)中,通過(guò)本文提出的MA2IDDPG方法與典型DDPG方法進(jìn)行對(duì)比,表明本文提出算法的創(chuàng)新性。
神經(jīng)網(wǎng)絡(luò)模型架構(gòu)參數(shù)配置如表1所示。
表1 神經(jīng)網(wǎng)絡(luò)模型架構(gòu)參數(shù)配置
訓(xùn)練參數(shù)配置如表2所示。
表2 訓(xùn)練參數(shù)配置
在1 000輪博弈訓(xùn)練過(guò)程中,本文方法和DDPG方法的累計(jì)回報(bào)獎(jiǎng)賞如圖3所示。由圖3可知,在算法訓(xùn)練的過(guò)程中,回報(bào)獎(jiǎng)賞不斷提高。MA2IDDPG方法相比于DDPG方法,累計(jì)回報(bào)獎(jiǎng)賞增長(zhǎng)更為穩(wěn)定。
圖3 回報(bào)獎(jiǎng)賞Fig.3 Reward
在博弈評(píng)估下,描述性訓(xùn)練500輪如圖4所示。描述性訓(xùn)練500輪的自博弈過(guò)程中,MA2IDDPG方法勝率最終達(dá)到76%,而DDPG方法勝率達(dá)到58%??梢?jiàn)MA2IDDPG方法在描述性訓(xùn)練階段的表現(xiàn)優(yōu)于DDPG方法。
圖4 訓(xùn)練勝率Fig.4 Training win rate
在評(píng)估階段中,采用2.4節(jié)中的規(guī)則方法,對(duì)DDPG方法和MA2IDDPG方法進(jìn)行對(duì)比驗(yàn)證。評(píng)估回報(bào)獎(jiǎng)賞如圖5所示。
圖5 評(píng)估勝率Fig.5 Evaluated win rate
通過(guò)分析圖5可知,經(jīng)過(guò)訓(xùn)練后,MA2IDDPG方法和經(jīng)典DDPG方法評(píng)估勝率一致,表明均能夠有效戰(zhàn)勝基于規(guī)則算法的紅方。但是結(jié)合訓(xùn)練實(shí)驗(yàn)結(jié)果表明,MA2IDDPG算法不但能夠有效產(chǎn)生博弈對(duì)抗策略,而且在訓(xùn)練階段的穩(wěn)定性和效果上均優(yōu)于經(jīng)典DDPG方法。
圖6 典型博弈過(guò)程Fig.6 Typical game process
在整個(gè)博弈過(guò)程中,典型博弈過(guò)程如圖6所示。通過(guò)分析可知,在場(chǎng)景給定的獎(jiǎng)賞趨勢(shì)下,藍(lán)方攔截智能體趨向于對(duì)藍(lán)方攔截智能體進(jìn)行保護(hù),即通過(guò)對(duì)于藍(lán)方攻擊智能體策略擬合,形成聯(lián)合策略,在保護(hù)藍(lán)方攻擊智能體的過(guò)程中,對(duì)紅方攻擊智能體進(jìn)行攔截,從而達(dá)成對(duì)于藍(lán)方基地的進(jìn)攻。
為了能夠智能化產(chǎn)生超過(guò)基于專家經(jīng)驗(yàn)知識(shí)的異構(gòu)多無(wú)人機(jī)協(xié)同突防策略,基于MA2IDDPG算法提出了異構(gòu)多無(wú)人機(jī)協(xié)同突防方法。
首先,基于經(jīng)典DDPG方法框架,通過(guò)采用異步并行的方法對(duì)其進(jìn)行改進(jìn),得到了MA2IDDPG方法框架,能有效提高經(jīng)驗(yàn)數(shù)據(jù)的收集效率。然后,構(gòu)建共享經(jīng)驗(yàn)池,將不同獎(jiǎng)賞下獲得的經(jīng)驗(yàn)同時(shí)存儲(chǔ),增加經(jīng)驗(yàn)數(shù)據(jù)的多樣性。其次,為了解決用于神經(jīng)網(wǎng)絡(luò)訓(xùn)練的優(yōu)質(zhì)樣本問(wèn)題,構(gòu)建基于專家經(jīng)驗(yàn)知識(shí)的牽引性獎(jiǎng)賞函數(shù)。在牽引性獎(jiǎng)賞函數(shù)的反饋下,異構(gòu)多無(wú)人機(jī)能夠快速生成達(dá)到領(lǐng)域?qū)<宜降牟呗浴T俅危瑸榱私鉀Q異構(gòu)無(wú)人機(jī)智能遷移性的問(wèn)題,構(gòu)建基于博弈結(jié)果的描述性獎(jiǎng)賞函數(shù)。最后,借鑒遷移學(xué)習(xí)和課程學(xué)習(xí)的理念,分別采用牽引性獎(jiǎng)賞和描述性獎(jiǎng)賞,將訓(xùn)練階段分成為牽引性訓(xùn)練階段和描述性訓(xùn)練階段,分階段對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,使得神經(jīng)網(wǎng)絡(luò)能夠在快速達(dá)到專家知識(shí)水平后,進(jìn)一步提高產(chǎn)生的策略水平。在仿真實(shí)驗(yàn)中,構(gòu)建了異構(gòu)多無(wú)人機(jī)協(xié)同突防環(huán)境,將MA2IDDPG方法與典型DDPG方法進(jìn)行了對(duì)比驗(yàn)證。實(shí)驗(yàn)結(jié)果表明,MA2IDDPG方法在訓(xùn)練過(guò)程中更穩(wěn)定,對(duì)抗效果更優(yōu)。
研究受限于場(chǎng)景的逼真度,將在后續(xù)研究中進(jìn)一步考慮攔截概率對(duì)多智能體策略的影響。當(dāng)前研究的關(guān)鍵在于深度神經(jīng)網(wǎng)絡(luò)的可解釋性,當(dāng)前改善多從超參數(shù)調(diào)整和神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)調(diào)整等外因方面入手,需要深入研究深度神經(jīng)網(wǎng)絡(luò)的解釋性,從而實(shí)現(xiàn)對(duì)算力、訓(xùn)練時(shí)間和對(duì)抗效果之間的預(yù)測(cè)。