馬也,范文慧,常天慶
(1.陸軍裝甲兵學(xué)院 兵器與控制系,北京 100072;2.清華大學(xué) 自動化系,北京 100084)
無人集群的概念來源于無人機(jī)集群的研究,隨著人工智能及自動化技術(shù)的進(jìn)步,無人機(jī)器人、無人機(jī)、無人車及其他無人裝備迅速發(fā)展,使得無人集群的種類范圍大大擴(kuò)展。由于無人集群具有裝備及可完成任務(wù)數(shù)量多、無需人在環(huán)、可自主協(xié)同、無中心更靈活的組織方式、可方便回收等特點(diǎn),受到美國為首等強(qiáng)國的高度重視,將其發(fā)展為無人集群系統(tǒng)(USS)并應(yīng)用在軍事中,成為未來戰(zhàn)爭的重要作戰(zhàn)形式之一。目前,有專家在聯(lián)合作戰(zhàn)、協(xié)同偵察和戰(zhàn)場通信等軍事領(lǐng)域中研究探索無人集群系統(tǒng)的應(yīng)用潛力。無人集群系統(tǒng)彌補(bǔ)了單一無人裝備戰(zhàn)斗力不足,可完成任務(wù)單一等問題,智能體(Agent)仿真技術(shù)中的Agent同樣具有協(xié)同合作、自主性及與環(huán)境互動的能力。同時,Agent技術(shù)可應(yīng)用在強(qiáng)化學(xué)習(xí)等多種智能算法中。將無人集群技術(shù)與Agent技術(shù)相結(jié)合,能夠擴(kuò)展無人集群的研究方法及思路。
無人集群的自主兵力部署及協(xié)同任務(wù)分配是無人集群作戰(zhàn)的重點(diǎn)研究方向之一,是其自主及適應(yīng)性的體現(xiàn)。在防御作戰(zhàn)中,利用有限的兵力發(fā)揮最大的作戰(zhàn)效能是防御作戰(zhàn)中的研究疑難點(diǎn),高效合理的兵力部署是實(shí)現(xiàn)其目標(biāo)的手段。針對兵力部署問題,多使用粒子群優(yōu)化算法、遺傳算法、Memetic算法、線性規(guī)劃算法等多種智能算法進(jìn)行優(yōu)化。以上方法存在模型構(gòu)建復(fù)雜、陣地區(qū)域及武器種類單一、算法有早熟及局部最優(yōu)、未對結(jié)果進(jìn)行進(jìn)一步論證測試等問題。
無人集群任務(wù)分配是任務(wù)規(guī)劃的一部分,能夠協(xié)調(diào)集群的一致性,保證高效完成作戰(zhàn)任務(wù)。目前的作戰(zhàn)任務(wù)分配領(lǐng)域大多以人為主,根據(jù)戰(zhàn)場經(jīng)驗(yàn)進(jìn)行規(guī)劃,而無人集群作戰(zhàn)使作戰(zhàn)方式逐步無人化,由此任務(wù)分配算法的研究逐步引起學(xué)者的關(guān)注。其中Agent技術(shù)與任務(wù)規(guī)劃結(jié)合的方法取得較多成果,主要成果有基于馬爾可夫過程的Agent任務(wù)分配算法,可以解決機(jī)器人在位置環(huán)境中的任務(wù)規(guī)劃問題;基于Agent技術(shù)的分層任務(wù)規(guī)劃方法,可以解決局部個體的任務(wù)分配方式等。上述方法的任務(wù)分配效率不高,隨著強(qiáng)化學(xué)習(xí)算法在智能決策方面的突出表現(xiàn),將其引用可突破任務(wù)分配問題的瓶頸。其中效果較好的強(qiáng)化學(xué)習(xí)算法有Team-Q算法、Distributed-Q算法等Agent技術(shù)任務(wù)分配方法。這些方法均從個體的角度進(jìn)行考慮,未能協(xié)調(diào)多個個體并獨(dú)立完成任務(wù)的問題。
本文針對無人集群作戰(zhàn)的重點(diǎn)構(gòu)建防御作戰(zhàn)情景下的無人集群作戰(zhàn)仿真模型。從作戰(zhàn)方案中的兵力部署及任務(wù)分配兩個方面,提出一種自適應(yīng)遺傳算法來解決無人集群兵力部署問題,對算法的目標(biāo)函數(shù)及相應(yīng)參數(shù)進(jìn)行改進(jìn),提高算法性能,完成無人集群的戰(zhàn)場兵力部署。為進(jìn)一步驗(yàn)證算法的結(jié)果,提出一種基于深度強(qiáng)化學(xué)習(xí)的無人集群任務(wù)分配方法。增加自適應(yīng)調(diào)節(jié)權(quán)重因子,根據(jù)算法運(yùn)行效果實(shí)時調(diào)整Q值并得出無人集群防御作戰(zhàn)結(jié)果。通過上述算法對無人集群防御作戰(zhàn)的優(yōu)化,使防御作戰(zhàn)成功率得到提高。
兵力部署及任務(wù)分配為無人集群作戰(zhàn)中的重點(diǎn)研究方向之一,合理的兵力部署可使有限的兵力發(fā)揮出最高的作戰(zhàn)效能,有利于提高我方作戰(zhàn)勝率。無人集群任務(wù)分配能夠協(xié)調(diào)集群一致性,保證作戰(zhàn)任務(wù)合理高效分配,更好地完成作戰(zhàn)任務(wù)。針對無人集群作戰(zhàn)中兵力部署和任務(wù)分配這兩個重點(diǎn)方面,構(gòu)建無人集群防御作戰(zhàn)模型。模型架構(gòu)如圖1所示。
圖1 無人集群防御作戰(zhàn)模型架構(gòu)Fig.1 Unmanned swarm defensiv combat model architecture
由圖1可見,無人集群防御作戰(zhàn)模型主要由四部分構(gòu)成,分別用于對戰(zhàn)斗區(qū)域及兵力進(jìn)行設(shè)置、構(gòu)建目標(biāo)函數(shù)、完成自適應(yīng)遺傳算法的設(shè)置解決兵力部署、通過強(qiáng)化學(xué)習(xí)算法完成防御任務(wù)分配及攻防對抗。
作戰(zhàn)過程中,防御方會根據(jù)地形、敵方主攻方向、防御目標(biāo)等因素劃分戰(zhàn)斗區(qū)域。綜合考慮各方影響,在某些區(qū)域集中兵力進(jìn)行高強(qiáng)度戰(zhàn)斗,某些區(qū)域作為佯攻區(qū)域。假設(shè)一個防御作戰(zhàn)戰(zhàn)場分為(≥1)個戰(zhàn)斗區(qū)域,每個戰(zhàn)斗區(qū)域內(nèi)包含(≥1)個防御重點(diǎn)。設(shè)戰(zhàn)斗強(qiáng)度因數(shù)為(≤1),作戰(zhàn)重要程度因數(shù)為。模型通過戰(zhàn)斗強(qiáng)度因數(shù)表示戰(zhàn)斗區(qū)域的戰(zhàn)斗強(qiáng)度,在主要戰(zhàn)斗區(qū)域,=1,非主要戰(zhàn)斗區(qū)域<1,相同戰(zhàn)斗區(qū)域內(nèi)的不同防御要點(diǎn)其戰(zhàn)斗強(qiáng)度因數(shù)相同。通過戰(zhàn)斗區(qū)域的作戰(zhàn)重要程度因數(shù)表示作戰(zhàn)區(qū)域的作戰(zhàn)重要程度。戰(zhàn)斗區(qū)域的戰(zhàn)斗強(qiáng)度及作戰(zhàn)重要程度都將對兵力部署方案造成一定影響。
包含(=1,2,…,)個防御重點(diǎn)的第個戰(zhàn)斗區(qū)域的作戰(zhàn)重要程度因數(shù)計(jì)算方法如(1)式所示:
(1)
式中:為第個戰(zhàn)斗區(qū)域的作戰(zhàn)重要程度因數(shù);()為第個防御重點(diǎn)的戰(zhàn)斗強(qiáng)度因數(shù)。
無人集群裝備的戰(zhàn)斗能力通過單件裝備的武器效能指數(shù)量化,武器效能指數(shù)是度量不同型號種類武器裝備戰(zhàn)斗能力的標(biāo)準(zhǔn)。模型中的無人集群裝備種類及兵力效能指數(shù)參考?xì)v史數(shù)據(jù)及現(xiàn)有情況分析分為5種類型,包括類步槍型、類機(jī)關(guān)槍型、類迫擊炮型、類榴彈炮型及類坦克型無人裝備。無人集群裝備類型、數(shù)量及單件武器戰(zhàn)斗效能指數(shù)如表1所示。
表1 無人集群裝備兵力設(shè)計(jì)Tab.1 Unmanned swarm equipment force design
單件無人集群裝備戰(zhàn)斗效能指數(shù)為,該類裝備總戰(zhàn)斗效能指數(shù)為與該類裝備數(shù)量的乘積。為方便模型構(gòu)建及后續(xù)優(yōu)化算法的使用,將每件無人集群裝備視作一個Agent。模型將根據(jù)武器效能指數(shù)決定裝備有效防御戰(zhàn)區(qū)的概率并得出作戰(zhàn)對抗勝負(fù)結(jié)果。
無人集群的防御作戰(zhàn)效能可通過目標(biāo)函數(shù)進(jìn)行描述,該函數(shù)可同時用于遺傳算法兵力部署優(yōu)化。為方便描述武器裝備類型,將5類裝備分別用數(shù)字1~5代替,設(shè)單件裝備可有效防御戰(zhàn)區(qū)的概率為,則第′類單件裝備有效防御第個戰(zhàn)斗區(qū)域的概率′的計(jì)算方法如(2)式所示:
(2)
式中:(′)為第′類單件裝備的總戰(zhàn)斗效能指數(shù);()表示第類武器的總數(shù);()為第類武器所有裝備的總戰(zhàn)斗效能指數(shù)。第類多件裝備有效防御第個戰(zhàn)斗區(qū)域的概率′計(jì)算方法如(3)式所示:
(3)
式中:(′)表示在第個戰(zhàn)斗區(qū)域中第′類武器數(shù)量占第類武器總數(shù)量()的比例,其約束條件為
(4)
′的數(shù)學(xué)期望如(5)式所示:
(5)
根據(jù)上述分析,無人集群防御作戰(zhàn)的目標(biāo)函數(shù)構(gòu)建為
(6)
構(gòu)建好的目標(biāo)函數(shù)將用于進(jìn)行無人集群的兵力部署,通過遺傳算法對其進(jìn)行優(yōu)化,得出兵力部署方案。
根據(jù)無人集群的兵力部署問題設(shè)計(jì)遺傳算法的優(yōu)化過程。傳統(tǒng)遺傳算法容易出現(xiàn)過早收斂而陷入局部最優(yōu)的情況,為避免出現(xiàn)此類問題,本文提出一種自適應(yīng)遺傳算法,對目標(biāo)函數(shù)、交叉率及變異率3個方面進(jìn)行優(yōu)化。
定義一個防御作戰(zhàn)實(shí)例,對無人集群裝備進(jìn)行兵力部署。無人集群的裝備種類和數(shù)量見表1。防御作戰(zhàn)戰(zhàn)場設(shè)有3個戰(zhàn)斗區(qū)域,其中一個主要戰(zhàn)斗區(qū)域、兩個次要戰(zhàn)斗區(qū)域,每個區(qū)域分別包含4、3、2個防御重點(diǎn),戰(zhàn)斗區(qū)域分布示意如圖2所示。
圖2 戰(zhàn)斗區(qū)域分布示意圖Fig.2 Battle area distribution diagram
設(shè)主要戰(zhàn)斗區(qū)域的戰(zhàn)斗強(qiáng)度因數(shù)為1,兩個次要戰(zhàn)斗區(qū)域的戰(zhàn)斗強(qiáng)度因數(shù)分別為08和07。根據(jù)(1)式和(2)式分別計(jì)算作戰(zhàn)重要程度因數(shù)及有效防御概率′,具體數(shù)值如表2所示,保留小數(shù)點(diǎn)后3位。
表2 兩類參數(shù)數(shù)值Tab.2 Two types of parameter values
根據(jù)無人集群防御作戰(zhàn)的任務(wù)和目標(biāo)函數(shù)的設(shè)置,遺傳算法的個體數(shù)目為40、最大遺傳代數(shù)為200、變量維數(shù)為15、其上下界為[0,1]。為改變算法的局部搜索能力,使用格雷碼進(jìn)行編碼,編碼位數(shù)為20。適應(yīng)度值分配采用線性排序方式,按照排序適應(yīng)度因數(shù)進(jìn)行排序。其排序適應(yīng)度因數(shù)的計(jì)算方式如(7)式所示:
(7)
式中:()為種群中的待計(jì)算個體;()為排序種群的位置;()為種群中的個體數(shù)量。
標(biāo)準(zhǔn)遺傳算法在運(yùn)行過程中,種群中個體的適應(yīng)度值將逐漸趨于相似數(shù)值,難以繼續(xù)優(yōu)化,造成在算法過早收斂而未能找到最優(yōu)解。為解決此類問題,本文對遺傳函數(shù)的目標(biāo)函數(shù)進(jìn)行優(yōu)化,優(yōu)化后目標(biāo)函數(shù)如(8)式所示:
(8)
式中:為遺傳算法的代數(shù)。隨著算法的運(yùn)行,對目標(biāo)函數(shù)進(jìn)行一個適當(dāng)補(bǔ)償,以提高高適應(yīng)度的優(yōu)勢個體被遺傳的概率,達(dá)到算法自適應(yīng)的調(diào)整的目的。
在個體進(jìn)行交叉和變異的過程中,若采用固定概率,則優(yōu)秀個體和不良個體的交叉、變異可能性相同,不利于優(yōu)秀個體的遺傳。因此對算法的交叉及變異率進(jìn)行改進(jìn),交叉率的計(jì)算方法如(9)式所示:
(9)
式中:為當(dāng)前個體的適應(yīng)度;為當(dāng)前群體最大適應(yīng)度;為每一代的平均適應(yīng)度。變異率的計(jì)算方式如(10)式所示:
=01×
(10)
對交叉和變異率的改進(jìn)能夠使群體中具有較高適應(yīng)度個體的交叉及變異率較小,更容易遺傳給子代,適應(yīng)度較群體較低的個體將更容易被進(jìn)化。通過以上改進(jìn),遺傳算法能夠自適應(yīng)地進(jìn)行無人集群兵力部署的優(yōu)化。
根據(jù)21節(jié)及22節(jié)的算法設(shè)定,自適應(yīng)遺傳算法的運(yùn)行流程如圖3所示。
圖3 自適應(yīng)遺傳算法運(yùn)行流程圖Fig.3 Fflow chart of adaptive genetic algorithm
首先根據(jù)算法參數(shù)設(shè)置進(jìn)行種群初始化,隨后按照格雷碼進(jìn)行編碼,計(jì)算適應(yīng)度值,在算法未終止之前,一直循環(huán)選擇、交叉、變異及最優(yōu)解的計(jì)算,待滿足終止條件后,進(jìn)行解碼及結(jié)果輸出。算法的終止條件設(shè)置為最大遺傳代數(shù),當(dāng)達(dá)到該代數(shù)時停止計(jì)算。算法的偽代碼如表3所示。
表3 自適應(yīng)遺傳算法偽代碼Tab.3 Pseudo code of adaptive genetic algorithm
為與標(biāo)準(zhǔn)遺傳算法進(jìn)行對比,將標(biāo)準(zhǔn)遺傳算法的變異率及交叉率設(shè)置為0.03和0.7。進(jìn)行100次重復(fù)實(shí)驗(yàn),取其平均值。標(biāo)準(zhǔn)遺傳算法的平均最佳適應(yīng)度曲線如圖4所示。
圖4 標(biāo)準(zhǔn)遺傳算法平均最佳適應(yīng)度曲線Fig.4 Average optimal adaptive curve of standard genetic algorithm
由圖4可見,遺傳算法的代數(shù)運(yùn)行到40代時適應(yīng)度值變化不再明顯,進(jìn)化過程受到阻礙,由此造成算法得到局部最優(yōu)的結(jié)果。本文提出的自適應(yīng)遺傳算法平均最佳適應(yīng)度曲線如圖5所示。
圖5 自適應(yīng)遺傳算法平均最佳適應(yīng)度曲線Fig.5 Average optimal adaptive curve of adaptive genetic algorithm
在增加了自適應(yīng)參數(shù)調(diào)整后,適應(yīng)度曲線呈現(xiàn)緩慢上升趨勢,保證了更高適應(yīng)度的優(yōu)秀個體遺傳,防止過早收斂及局部最優(yōu)情況的出現(xiàn)。
對算法的100次重復(fù)實(shí)驗(yàn)進(jìn)行平均,得到的()值及其對應(yīng)的無人裝備武器數(shù)量如表4所示。
表4 算法運(yùn)行結(jié)果Tab.4 Algorithm operation results
經(jīng)過自適應(yīng)遺傳算法的優(yōu)化,得到最佳的無人集群兵力部署方案為:在第1戰(zhàn)斗區(qū)域分別部署各類無人集群裝備397、32、17、13、50件;第2戰(zhàn)斗區(qū)域分別部署各類無人集群裝備320、25、13、11、28件;第3戰(zhàn)斗區(qū)域分別部署各類無人集群裝備283、23、10、6、22件。
為進(jìn)一步檢驗(yàn)無人集群防御作戰(zhàn)的兵力部署方案,本文提出一種改進(jìn)的深度Q網(wǎng)絡(luò)(DQN)深度強(qiáng)化學(xué)習(xí)算法,對無人集群任務(wù)分配進(jìn)行優(yōu)化,利用算法給出的方案進(jìn)行防御作戰(zhàn),最終得到無人集群防御作戰(zhàn)結(jié)果。
防御作戰(zhàn)任務(wù)即為防御方一定數(shù)量的無人集群裝備Agent與攻擊方一定數(shù)量的作戰(zhàn)裝備Agent進(jìn)行作戰(zhàn)。每輪對戰(zhàn)在本模型中,攻擊方采用和防御方一樣的兵力構(gòu)成,同樣包含5種無人集群裝備。分三波依次攻擊3個戰(zhàn)斗區(qū)域,若每波還有兵力剩余,則并入下一波進(jìn)行攻擊。雙方作戰(zhàn)流程按照OODA環(huán)進(jìn)行循環(huán)戰(zhàn)斗,直到一方Agent數(shù)量為0?;贠ODA環(huán)的戰(zhàn)斗按照偵察(Observation)、判斷(Orientation)、決策(Decision)和行動(Action)4部分依次進(jìn)行。本模型的觀察部分即觀測對方現(xiàn)有Agent的數(shù)量及種類,判斷部分和決策部分則為無人集群任務(wù)分配部分,由深度強(qiáng)化學(xué)習(xí)算法完成,行動部分則按照任務(wù)分配方案進(jìn)行作戰(zhàn)。其作戰(zhàn)流程如圖6所示。
圖6 無人集群防御作戰(zhàn)流程Fig.6 Flow chart of unmanned swarm defensive combat
Agent的屬性為={,},其中為Agent的數(shù)量、為Agent戰(zhàn)斗效能指數(shù),=,在11節(jié)中定義。
任務(wù)的屬性包括任務(wù)數(shù)量、任務(wù)優(yōu)先級、任務(wù)執(zhí)行質(zhì)量及任務(wù)收益。任務(wù)數(shù)量為攻擊方Agent個數(shù),在防御作戰(zhàn)的過程中,任務(wù)數(shù)量將實(shí)時變化,取決于當(dāng)前進(jìn)攻方還能有效作戰(zhàn)的Agent數(shù)量。任務(wù)優(yōu)先級與每類Agent的有關(guān),越高則優(yōu)先級越高。任務(wù)執(zhí)行質(zhì)量為Agent在攻擊對方時是否能成功的概率,其計(jì)算方式如(11)式所示:
=1-(1-)()
(11)
任務(wù)收益函數(shù)與任務(wù)執(zhí)行質(zhì)量及Agent的戰(zhàn)斗效能指數(shù)相關(guān),對分配給Agent的任務(wù)進(jìn)行價(jià)值衡量,其計(jì)算方法如(12)式所示:
(12)
式中:為當(dāng)前行動方與選定任務(wù)方的之差;為當(dāng)前Agent是否參與任務(wù)的標(biāo)志因數(shù),當(dāng)參與任務(wù)時=1,不參與任務(wù)則=0。
攻擊方的策略原則為:任意選擇小于等于自己的Agent進(jìn)行攻擊。防御方的策略由任務(wù)分配算法得到。只有不小于對方時才有可能成功攻擊對方,成功攻擊的概率由(11)式進(jìn)行判定,否則攻擊無效。
DQN算法是包含預(yù)測網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)兩個神經(jīng)網(wǎng)絡(luò)的強(qiáng)化學(xué)習(xí)結(jié)構(gòu),兩個網(wǎng)絡(luò)分別用于動作選擇和動作執(zhí)行后的獎勵更新。網(wǎng)絡(luò)的損失函數(shù)根據(jù)Q-learning構(gòu)建。Q-learning的Q值更新方法如(13)式所示:
(,)=(,)+(+max(′,′)-(,))
(13)
式中:為狀態(tài);為動作;′與′為下一時刻的狀態(tài)和動作;為學(xué)習(xí)率,∈[0,1];為隨機(jī)數(shù);為折扣因數(shù)。在DQN算法中,網(wǎng)絡(luò)的權(quán)重參數(shù)為,因此使用(,,)代替動作值函數(shù)(,)。傳統(tǒng)DQN算法中,神經(jīng)網(wǎng)絡(luò)在計(jì)算Q值時容易出現(xiàn)過度估計(jì)問題,造成Q值高于實(shí)際值,使算法無法收斂至最佳狀態(tài)。為解決上述問題,本文提出一種自適應(yīng)權(quán)重Q值更新方法。其計(jì)算方式如(14)式所示:
(,,)=(,,)+(+
(max(′,′,)+
max(′,′,))-(1-)(,,))
(14)
式中:(,,)為更新后的Q值;為自適應(yīng)調(diào)節(jié)權(quán)重因子,∈[0,1],
(15)
()為損失函數(shù),
()=E[(+max(′,′,)-
(,,))]
(16)
根據(jù)(16)式,網(wǎng)絡(luò)參數(shù)的梯度計(jì)算方式為
(17)
算法的目標(biāo)函數(shù)采用隨機(jī)梯度下降法進(jìn)行優(yōu)化。改進(jìn)的自適應(yīng)權(quán)重Q值更新方法可根據(jù)損失函數(shù)進(jìn)行自適應(yīng)調(diào)整,當(dāng)=0為原DQN算法。策略選擇使用貪婪策略進(jìn)行策略更新,策略原理如圖7所示。
圖7 ε貪婪策略原理Fig.7 ε greedy strategy principle
策略在非零概率的規(guī)則下進(jìn)行選擇,在概率為時隨機(jī)選擇行為,在概率為1-時根據(jù)網(wǎng)絡(luò)權(quán)重選擇當(dāng)前最佳Q值對應(yīng)的行為。
算法的回報(bào)計(jì)算方法如(18)式所示:
(18)
式中:、表示所有進(jìn)攻方和防御方的總戰(zhàn)斗效能指數(shù);和為一輪攻擊后當(dāng)前進(jìn)攻方和防御方剩余的總戰(zhàn)斗效能指數(shù)。
算法的行為集合為防御方可能會選擇進(jìn)攻方的5類無人集群裝備中的某一類,即={,,,,},狀態(tài)空間為防御方的五類無人集群裝備,={,,,,}。設(shè)計(jì)深度強(qiáng)化學(xué)習(xí)算法神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖8所示,輸入層為防御方當(dāng)前狀態(tài)空間,輸出為對應(yīng)的任務(wù)分配動作Q值。
圖8 算法神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)Fig.8 Neural network structure of algorithm
本文提出的深度強(qiáng)化學(xué)習(xí)算法流程如圖9所示。
圖9 深度強(qiáng)化學(xué)習(xí)算法流程Fig.9 Flow chart of deep reinforcement learning algorithm
首先構(gòu)建經(jīng)驗(yàn)池,用于存放算法產(chǎn)生的各類樣本及數(shù)據(jù),對其進(jìn)行初始化,方便后續(xù)進(jìn)行經(jīng)驗(yàn)回放。隨后對預(yù)測網(wǎng)絡(luò)及目標(biāo)網(wǎng)絡(luò)權(quán)重、強(qiáng)化學(xué)習(xí)所需的參數(shù)、模型狀態(tài)集合以及行動集合進(jìn)行初始化。初始化完成后開始算法迭代。通過貪婪策略對動作進(jìn)行選擇,根據(jù)規(guī)則可隨機(jī)選擇或通過網(wǎng)絡(luò)選擇Q值最大的動作。其次根據(jù)動作執(zhí)行及環(huán)境反饋得到獎勵,獲得新狀態(tài),將各類參數(shù)存入經(jīng)驗(yàn)池。隨機(jī)取出少量經(jīng)驗(yàn)用于目標(biāo)網(wǎng)絡(luò)更新Q值,并通過梯度下降法更新權(quán)重。在迭代過程中使用預(yù)測網(wǎng)絡(luò)的參數(shù)更新目標(biāo)網(wǎng)絡(luò)的參數(shù)。算法的偽代碼如表5所示。
表5 深度強(qiáng)化學(xué)習(xí)算法偽代碼Tab.5 Pseudo code of deep reinforcement learning algorithm
3.4.1 無人集群任務(wù)分配算法結(jié)果
模型采用2層全連接神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),每層神經(jīng)元數(shù)量為(40,40),訓(xùn)練10 000個回合,每個回合為一個episode,代表一次完整的任務(wù)分配和防御作戰(zhàn)過程。重復(fù)實(shí)驗(yàn)100次。模型仿真參數(shù)如表6所示。
表6 模型參數(shù)Tab.6 Model parameters
按照遺傳算法給出的最優(yōu)無人集群部署方案進(jìn)行部署:第1戰(zhàn)斗區(qū)域分別部署各類無人集群裝備397、32、17、13、50件;第2戰(zhàn)斗區(qū)域分別部署各類無人集群裝備320、25、13、11、28件;第3戰(zhàn)斗區(qū)域分別部署各類無人集群裝備283、23、10、6、22件。
進(jìn)攻和防御均采取該方案,經(jīng)過仿真實(shí)驗(yàn),Q值在各種狀態(tài)下均能收斂。防御方第1類無人集群裝備的Q值誤差如圖10所示。
圖10 防御方第1類無人集群裝備Q值誤差Fig.10 Q value error of the first class unmanned swarm equipment of the defensive side
Q值在最初幾回合較大的誤差波動后,隨著回合數(shù)的增加逐步趨向于穩(wěn)定。其中,防御方第1類無人集群裝備的深度強(qiáng)化學(xué)習(xí)獎勵曲線如圖11所示。為進(jìn)一步清晰觀察獎勵曲線的變化,在圖11中添加強(qiáng)力曲線在1~200回合的局部放大圖。從中可見,隨著回合數(shù)的增長,初期獎勵曲線迅速增加,隨后呈現(xiàn)出趨勢較微弱的緩慢增長。
圖11 防御方第1類無人集群裝備獎勵曲線Fig.11 Reward value curve of the first class unmanned swarm equipment of the defensive side
3.4.2 防御作戰(zhàn)結(jié)果
通過防御作戰(zhàn)對無人集群的兵力部署算法進(jìn)行效果驗(yàn)證,進(jìn)攻方采用最優(yōu)部署方案,且與防御方裝備數(shù)量相等。防御方采用本文算法與標(biāo)準(zhǔn)遺傳算法兩種方式進(jìn)行兵力部署,并分別利用本文提出的深度強(qiáng)化學(xué)習(xí)算法進(jìn)行防御作戰(zhàn),對比作戰(zhàn)成功率。對手的全部無人集群裝備被損毀即為作戰(zhàn)成功,損毀標(biāo)準(zhǔn)根據(jù)(11)式得到。作戰(zhàn)成功率由100次重復(fù)試驗(yàn)的平均值得來,使用橫坐標(biāo)對應(yīng)的訓(xùn)練回合數(shù)得到的任務(wù)分配結(jié)果進(jìn)行作戰(zhàn)。標(biāo)準(zhǔn)遺傳算法的變異率及交叉率分別設(shè)置為0.03和0.7。本文提出的自適應(yīng)算法根據(jù)數(shù)據(jù)適應(yīng)度自行調(diào)整,結(jié)果如圖12所示。
圖12 采用不同遺傳算法計(jì)算兵力部署方案的防御作戰(zhàn)效果對比Fig.12 Comparison of the force deployment effects of different genetic algorithms in defensive combat
根據(jù)仿真結(jié)果,本文提出的無人集群兵力部署算法可增加無人集群防御作戰(zhàn)的成功率,較標(biāo)準(zhǔn)算法可提高23%。同時,本文還使用其他文獻(xiàn)提出的拍賣算法、粒子群優(yōu)化算法及蟻群算法進(jìn)行兵力部署,并將部署方案用于無人集群防御作戰(zhàn),將防御作戰(zhàn)成功率與本文算法進(jìn)行對比,算法對比結(jié)果如表7所示。
表7 算法對比結(jié)果Tab.7 Algorithm comparison results
對比結(jié)果表明,本文算法得出的兵力部署方案在進(jìn)行無人集群防御作戰(zhàn)時的成功率最高,蟻群算法與粒子群優(yōu)化算法效果相近,拍賣算法次之,但均低于本文算法。本文算法能夠更好地結(jié)合無人集群防御作戰(zhàn)戰(zhàn)場及武器裝備的特點(diǎn),利用有限兵力設(shè)計(jì)最優(yōu)兵力部署方案,同時提高防御作戰(zhàn)的成功率。
其次,對本文提出的無人集群任務(wù)分配算法效果進(jìn)行驗(yàn)證,進(jìn)行攻防雙方防御作戰(zhàn)。雙方均采用自適應(yīng)遺傳算法得到的最佳裝備部署方案進(jìn)行作戰(zhàn),且數(shù)量相等。對比本文提出的深度強(qiáng)化學(xué)習(xí)算法與標(biāo)準(zhǔn)強(qiáng)化學(xué)習(xí)算法的防御作戰(zhàn)效果,其結(jié)果如圖13所示,取100次實(shí)驗(yàn)平均值。
圖13 深度強(qiáng)化學(xué)習(xí)算法防御作戰(zhàn)效果對比圖Fig.13 Comprison of defense combat effects of deep reinforcement learning algorithm
圖13顯示,標(biāo)準(zhǔn)強(qiáng)化學(xué)習(xí)算法因未對Q值進(jìn)行過度估計(jì)修正,前期出現(xiàn)一定的波動,后續(xù)慢慢趨于穩(wěn)定,但總體效果仍低于改進(jìn)后的算法。本文提出的深度強(qiáng)化學(xué)習(xí)算法能夠提高無人集群防御作戰(zhàn)的成功率,提高效果為7%。
3.4.3 不同兵力下的防御作戰(zhàn)結(jié)果
通過對無人集群兵力部署算法和任務(wù)分配算法的防御作戰(zhàn)驗(yàn)證,均對防御作戰(zhàn)的效果進(jìn)行了提升,證明了本文算法的有效性。為進(jìn)一步對模型的防御作戰(zhàn)能力進(jìn)行測試,對進(jìn)攻方兵力數(shù)量的變化進(jìn)行研究。在進(jìn)攻方與防御方均為最優(yōu)兵力部署的情況下,將進(jìn)攻方兵力設(shè)置為多于防御方兵力0%、10%、20%及30% 4種情況,分別進(jìn)行防御作戰(zhàn)防真,成功率計(jì)算方法與前述方法相同,取100次實(shí)驗(yàn)平均值,仿真結(jié)果如圖14所示。圖14表明,在進(jìn)攻方與我方兵力相同時,因我方采用基于深度強(qiáng)化學(xué)習(xí)的任務(wù)分配方式,防御作戰(zhàn)成功率接近100%,隨著進(jìn)攻方兵力的逐步增加,防御方的作戰(zhàn)成功率逐步下降,當(dāng)進(jìn)攻方兵力比我方多30%時,防御方已經(jīng)不能成功防御,需要對防御方兵力進(jìn)行提升。
圖14 多種進(jìn)攻方兵力防御作戰(zhàn)結(jié)果Fig.14 Defensive combat results of a variety of offensive-side forces
模型還對不同的兵力部署方案進(jìn)行測試,防御方兵力部署方案除了2.2節(jié)和2.3節(jié)中提到的自適應(yīng)遺傳算法最優(yōu)兵力部署方案,還分別采取兵力平均部署及隨機(jī)部署方案。使用兩種不同的兵力部署方法,由深度學(xué)習(xí)算法進(jìn)行任務(wù)分配及防御作戰(zhàn)仿真。其中,平均部署方案的仿真結(jié)果如圖15所示,取100次實(shí)驗(yàn)平均值。圖15的結(jié)果顯示,當(dāng)雙方兵力相同時,最終能取得72.7%的作戰(zhàn)成功率,進(jìn)攻方兵力比防御方多10%時,雖然成功率只有45%,但并非不能防御作戰(zhàn)。在進(jìn)攻方兵力比防御方多20%時,防御作戰(zhàn)不能成功。
圖15 平均兵力部署方案防御作戰(zhàn)結(jié)果Fig.15 Defensive combat results of average force deployment plan
最后,防御方采用隨機(jī)部署方案,使用深度強(qiáng)化學(xué)習(xí)進(jìn)行任務(wù)分配及防御作戰(zhàn)效果如圖16所示,取100次實(shí)驗(yàn)平均值。由圖16可見,當(dāng)防御方采用隨機(jī)兵力部署方案時,在雙方兵力相同的狀態(tài)下,其成功防御的作戰(zhàn)成功率僅為56%,即有將近一半的可能性會防御失敗。在進(jìn)攻方兵力比我方多10%時,已經(jīng)幾乎不能防御成功。
圖16 隨機(jī)兵力部署方案防御作戰(zhàn)結(jié)果Fig.16 Defensive combat results of random force deployment plan
將上述3種不同兵力部署方案的防御作戰(zhàn)效果進(jìn)行匯總,結(jié)果如表8所示。
表8 多種兵力部署方案防御作戰(zhàn)結(jié)果Tab.8 Defensive combat results of a variety of force deployment plans
由最優(yōu)部署、平均兵力部署及隨機(jī)兵力部署進(jìn)行防御作戰(zhàn)仿真的結(jié)果可知:最優(yōu)兵力部署方案的防御作戰(zhàn)效果最為顯著,平均兵力部署方案次之,隨機(jī)兵力部署方案最差。在進(jìn)攻方兵力數(shù)量多于防御方數(shù)量時,最優(yōu)部署方案在進(jìn)攻方兵力多20%時,還具有42%的防御成功率;其他兩個方案,在進(jìn)攻方兵力多于20%及10%時已經(jīng)幾乎喪失防御能力。仿真實(shí)驗(yàn)結(jié)果也進(jìn)一步表明,在防御方兵力有限的情況下,對進(jìn)攻方的防御能力在兵力多于30%時達(dá)到極限,需要采用除兵力規(guī)劃及任務(wù)分配之外的優(yōu)化方案進(jìn)行優(yōu)化,如采用增援力量、提高自身防御兵力數(shù)等。
本文構(gòu)建了基于多智能體技術(shù)的無人集群防御作戰(zhàn)模型,提出了一種無人集群兵力部署自適應(yīng)遺傳算法以及一種基于DQN的無人集群任務(wù)分配算法,對部署好的無人集群進(jìn)行了任務(wù)分配和防御作戰(zhàn)。得出主要結(jié)論如下:
1)本文提出的模型及算法可對無人集群防御作戰(zhàn)的兵力部署及任務(wù)分配進(jìn)行優(yōu)化,優(yōu)化后的防御作戰(zhàn)成功率的提高率分別為23%和7%。
2)模型還研究了最優(yōu)兵力部署方案、平均兵力部署方案及隨機(jī)兵力部署方案3種方案下進(jìn)攻方不同兵力的防御作戰(zhàn)效果。其中,經(jīng)過優(yōu)化的最優(yōu)兵力部署方案取得了最優(yōu)的防御作戰(zhàn)效果,防御作戰(zhàn)成功率最高可達(dá)97%。
3)對部署好的無人集群進(jìn)行任務(wù)分配和防御作戰(zhàn)。結(jié)果表明,該無人集群兵力部署與任務(wù)分配技術(shù)可有效提高防御作戰(zhàn)的成功率。