亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于多智能體強(qiáng)化學(xué)習(xí)的協(xié)同目標(biāo)分配

2023-09-05 00:34:08馬悅,吳琳,許霄

系統(tǒng)工程與電子技術(shù) 2023年9期

馬悅, 吳琳, 許霄

(1. 國(guó)防大學(xué)研究生院, 北京 100091; 2. 中國(guó)人民解放軍 31002部隊(duì), 北京 100091;3. 國(guó)防大學(xué)聯(lián)合作戰(zhàn)學(xué)院, 北京 100091)

0 引言

協(xié)同目標(biāo)分配,決定了兵力運(yùn)用的科學(xué)性和合理性,是將作戰(zhàn)意圖落地為作戰(zhàn)行動(dòng)的關(guān)鍵環(huán)節(jié)[1]。在同一時(shí)間或空間范圍內(nèi),多個(gè)作戰(zhàn)單元為完成同一項(xiàng)作戰(zhàn)任務(wù)或相互之間存在邏輯關(guān)系的多個(gè)作戰(zhàn)任務(wù)時(shí),需從時(shí)間、空間和效果等角度考慮,進(jìn)行目標(biāo)或火力的合理分配,以最大作戰(zhàn)效費(fèi)比和最小作戰(zhàn)風(fēng)險(xiǎn)獲得最優(yōu)打擊效果。

協(xié)同目標(biāo)分配是一種典型的非線性多項(xiàng)式完全問(wèn)題,決策空間隨問(wèn)題規(guī)模(即作戰(zhàn)單元數(shù)目和作戰(zhàn)目標(biāo)數(shù)目)增大呈指數(shù)級(jí)增長(zhǎng),求解結(jié)果的的實(shí)時(shí)性、準(zhǔn)確性和有效性將直接影響軍事對(duì)抗中能否取得最佳作戰(zhàn)效果。在軍事運(yùn)籌領(lǐng)域,協(xié)同目標(biāo)分配通常被規(guī)約為兵力分配、火力分配或武器目標(biāo)分配(weapon target assignment, WTA)等問(wèn)題[2-3],常用求解方法可分為傳統(tǒng)規(guī)劃方法[4]、模擬退火(simulated annealing, SA)算法[5-6]、蟻群優(yōu)化(ant colony optimization, ACO)算法[7]、粒子群優(yōu)化(partical swarm optimization, PSO)算法[8-11]、進(jìn)化算法(evolutionary algorithm, EA)[12-15]和合同網(wǎng)協(xié)議(contract net protocol, CNP)[16]?，F(xiàn)有研究雖從不同角度對(duì)各種算法進(jìn)行了改進(jìn),并成功應(yīng)用于不同場(chǎng)景,但關(guān)于動(dòng)態(tài)不確定環(huán)境下的協(xié)同目標(biāo)分配研究較少,且難以保證大規(guī)模目標(biāo)分配問(wèn)題的求解效率。

在分布式作戰(zhàn)自同步理論中[17],協(xié)同關(guān)系體現(xiàn)為作戰(zhàn)單元“自底向上組織復(fù)雜戰(zhàn)爭(zhēng)的行為”。將作戰(zhàn)單元構(gòu)建為智能體,協(xié)同目標(biāo)分配問(wèn)題便轉(zhuǎn)化為多智能體協(xié)作(multi-agent cooperation, MAC)問(wèn)題,多智能體強(qiáng)化學(xué)習(xí)(multi-agent reinforcement learning, MARL)[18]在解決類似協(xié)作問(wèn)題上有著廣泛應(yīng)用[19-23]。據(jù)此,通過(guò)分析協(xié)同目標(biāo)分配的軍事內(nèi)涵,構(gòu)建了基于MARL的協(xié)同目標(biāo)分配模型,采用局部策略評(píng)分和集中式策略推理,利用Advantage Actor-Critic算法進(jìn)行策略學(xué)習(xí),以期能夠?qū)崿F(xiàn)簡(jiǎn)單場(chǎng)景中訓(xùn)練好的模型直接泛化應(yīng)用到復(fù)雜場(chǎng)景,從而有效實(shí)現(xiàn)大規(guī)模目標(biāo)分配。

1 協(xié)同目標(biāo)分配數(shù)學(xué)模型

1.1 相關(guān)概念

為在統(tǒng)一語(yǔ)義框架下描述協(xié)同目標(biāo)分配問(wèn)題,定義以下相關(guān)概念。

作戰(zhàn)單元,指能夠獨(dú)立遂行作戰(zhàn)任務(wù)的基本作戰(zhàn)單位,為執(zhí)行作戰(zhàn)任務(wù)提供作戰(zhàn)資源。在協(xié)同目標(biāo)分配中,作戰(zhàn)單元是不可再分割的基本作戰(zhàn)單位或作戰(zhàn)平臺(tái)。

作戰(zhàn)目標(biāo),指戰(zhàn)場(chǎng)上存在且具有一定軍事價(jià)值的客觀實(shí)體,是作戰(zhàn)單元執(zhí)行作戰(zhàn)任務(wù)時(shí)所作用的客觀對(duì)象。

作戰(zhàn)協(xié)同關(guān)系,指多個(gè)作戰(zhàn)單元在同一時(shí)空范圍內(nèi)執(zhí)行同一作戰(zhàn)任務(wù)或具有邏輯關(guān)系的不同作戰(zhàn)任務(wù)時(shí),在空間部署、時(shí)間銜接、目標(biāo)分配、火力分配和效果達(dá)成等方面,所形成的相互照應(yīng)、相互配合和優(yōu)劣互補(bǔ)的關(guān)系。

1.2 符號(hào)定義

協(xié)同目標(biāo)分配描述過(guò)程中,定義以下符號(hào)。

(1) Tg={tg1,tg2,…,tgN}:打擊目標(biāo)清單列表,N為打擊目標(biāo)總數(shù)。

(2)U={u1,u2,…,uM}:進(jìn)攻方可用作戰(zhàn)單元列表,M為作戰(zhàn)單元總數(shù)。

(3)W={w1,w2,…,wL}:進(jìn)攻方可用彈藥類型列表,L為彈藥類型總數(shù)。

(4) Vtg={vtg1,vtg2,…,vtgN}:各作戰(zhàn)目標(biāo)被摧毀后的收益價(jià)值列表。vtgi為打擊目標(biāo)tgi被摧毀后的收益價(jià)值,i∈{1,2,…,N}。

(5) Vu={vu1,vu2,…,vuM}:各作戰(zhàn)單元被摧毀后的損失價(jià)值列表。vuj為作戰(zhàn)單元uj被摧毀后的損失價(jià)值,j∈{1,2,…,M}。

(6) Vw={vw1,vw2,…,vwL}:各類型彈藥消耗單位數(shù)量后的損失價(jià)值列表。vwl為wl類型彈藥消耗單位數(shù)量后的損失價(jià)值,l∈{1,2,…,L}。

(7) Tglt=(tglt,1,tglt,2,…,tglt,N):執(zhí)行第t次分配方案時(shí)被摧毀目標(biāo)清單。tglt,i表示目標(biāo)tgi是否被摧毀,tglt,i=1表示被摧毀,否則tglt,i=0。

(8) Ult=(ult,1,ult,2,…,ult,M):執(zhí)行第t次目標(biāo)分配方案時(shí)被摧毀單元清單。ult,j表示單元uj是否被摧毀,ult,j=1表示被摧毀,否則ult,j=0。

(9) Wlt=(wlt,1,wlt,2,…,wlt,L):執(zhí)行第t次目標(biāo)分配方案時(shí)進(jìn)攻方的彈藥消耗清單。wlt,l表示wl類型彈藥的消耗數(shù)量。

(10) Vlsumt:執(zhí)行第t次目標(biāo)分配方案時(shí)防守方的彈藥消耗價(jià)值總量。

(11) Wut,j=(wt,j,1,wt,j,2,…,wt,j,L):執(zhí)行第t次目標(biāo)分配方案時(shí)進(jìn)攻方作戰(zhàn)單元uj的掛載。wj,l為作戰(zhàn)單元uj掛載的wl類型彈藥的數(shù)目。

(12)RPro=[rprol,i]L×N:進(jìn)攻方各類彈藥對(duì)不同作戰(zhàn)目標(biāo)的命中毀傷概率矩陣。rprol,i為wl類型彈藥對(duì)作戰(zhàn)目標(biāo)tgi的命中毀傷概率。

(13)BPro=(bpro1,bpro2,…,bproM):防守方一體化聯(lián)合防空反導(dǎo)對(duì)進(jìn)攻方各作戰(zhàn)單元的綜合命中毀傷概率矩陣。bproj為對(duì)作戰(zhàn)單元uj的綜合命中毀傷概率。

1.3 數(shù)學(xué)模型

考慮使命任務(wù)、彈目匹配以及作戰(zhàn)效費(fèi)比等因素建立數(shù)學(xué)模型,如下所示:

(1)

(1) 模型變量

令變量xi,j,t表示在第t次作戰(zhàn)目標(biāo)分配時(shí),是否指派作戰(zhàn)單元uj打擊作戰(zhàn)目標(biāo)tgi。當(dāng)指派單元uj打擊目標(biāo)tgi時(shí),xi,j,t=1,否則xi,j,t=0。因此,模型變量為

X=[xi,j,t]N×M×T

(2)

式中:T為作戰(zhàn)過(guò)程中進(jìn)行目標(biāo)分配的總次數(shù);模型變量規(guī)模為N×M×T,在相同問(wèn)題背景下,隨著決策次數(shù)T的增大呈線性增長(zhǎng)。

(2) 目標(biāo)函數(shù)

模型目標(biāo)函數(shù),衡量了作戰(zhàn)效果的大小。參數(shù)α和β,用于平衡兩部分計(jì)算結(jié)果對(duì)目標(biāo)函數(shù)值的影響;F1(X)表示任務(wù)使命完成度,計(jì)算方法如下所示:

(3)

式中:Rle和Ble分別表示作戰(zhàn)結(jié)束后作戰(zhàn)單元和作戰(zhàn)目標(biāo)的剩余率。

F2(X)/F3(X)表示作戰(zhàn)效費(fèi)比;F2(X)表示作戰(zhàn)過(guò)程中摧毀敵方作戰(zhàn)目標(biāo)和消耗敵方彈藥所產(chǎn)生的總收益;F3(X)表示作戰(zhàn)過(guò)程中自身作戰(zhàn)單元被摧毀和彈藥消耗所產(chǎn)生的總損失,計(jì)算方法如下所示:

(4)

(3) 約束條件

1)Φ(t)表示執(zhí)行第t次目標(biāo)分配方案所產(chǎn)生的結(jié)果。根據(jù)各方彈目匹配關(guān)系及命中毀傷概率(BPro與RPro),執(zhí)行作戰(zhàn)目標(biāo)分配方案Xt,得到進(jìn)攻方作戰(zhàn)單元損失情況Ult和彈藥消耗情況Wlt、敵方作戰(zhàn)目標(biāo)被摧毀情況Tglt和彈藥消耗總價(jià)值Vlsumt。

(5)

2 協(xié)同目標(biāo)分配求解方法

MAC問(wèn)題的聯(lián)合狀態(tài)動(dòng)作空間,隨著智能體與任務(wù)數(shù)目的增多呈指數(shù)級(jí)增長(zhǎng)。大規(guī)模作戰(zhàn)場(chǎng)景下的協(xié)同策略訓(xùn)練,對(duì)訓(xùn)練時(shí)間和計(jì)算能力具有更高要求。因此,如何能夠?qū)崿F(xiàn)簡(jiǎn)單場(chǎng)景中訓(xùn)練好的模型直接泛化應(yīng)用到復(fù)雜場(chǎng)景,是有效解決大規(guī)模協(xié)同目標(biāo)分配問(wèn)題的關(guān)鍵。諸多學(xué)者針對(duì)上述類似問(wèn)題,或利用空間近鄰性構(gòu)建獎(jiǎng)勵(lì)函數(shù)和任務(wù)分配策略以期實(shí)現(xiàn)可泛化應(yīng)用模型[24-25],或使用集中式評(píng)價(jià)方法以期解決分散策略學(xué)習(xí)問(wèn)題[26-27]。而Carion提出了一種學(xué)習(xí)預(yù)測(cè)模型及訓(xùn)練方法[28],為解決本文問(wèn)題提供了很好的借鑒。

考慮遠(yuǎn)期決策對(duì)當(dāng)前收益影響的衰減,動(dòng)作價(jià)值函數(shù)如下所示:

qπ(St,At)=E(Rt+1+γqπ(St+1,At+1)|St,At)

(6)

式中:St為時(shí)刻t作戰(zhàn)單元和作戰(zhàn)目標(biāo)的聯(lián)合狀態(tài);E(·)為求解期望值的函數(shù)。

問(wèn)題目標(biāo)是通過(guò)學(xué)習(xí)獲取一個(gè)最優(yōu)協(xié)同目標(biāo)分配策略,保證所有作戰(zhàn)單元的協(xié)同打擊行動(dòng)能夠使獎(jiǎng)勵(lì)函數(shù)在長(zhǎng)期內(nèi)達(dá)到最大化,如下所示:

(7)

2.1 模型訓(xùn)練及應(yīng)用框架

在此,構(gòu)建基于MARL的協(xié)同目標(biāo)分配模型訓(xùn)練及應(yīng)用框架,如圖1所示,具體流程如下。

圖1 基于MARL的協(xié)同目標(biāo)分配模型訓(xùn)練與應(yīng)用Fig.1 Training and application of cooperative targets assignment model based on MARL

步驟 1基于深度強(qiáng)化學(xué)習(xí)優(yōu)化協(xié)同目標(biāo)分配策略。在此,“智能體”是進(jìn)攻方的各作戰(zhàn)單元,“動(dòng)作”是作戰(zhàn)單元選擇打擊哪個(gè)作戰(zhàn)目標(biāo),“環(huán)境”是本文實(shí)驗(yàn)平臺(tái)-計(jì)算機(jī)兵棋推演系統(tǒng)的模擬仿真環(huán)境,“狀態(tài)”為所有作戰(zhàn)單元和作戰(zhàn)目標(biāo)的聯(lián)合狀態(tài)。在每一步學(xué)習(xí)中,采用“集中式策略推理模型”獲取目標(biāo)分配方案,各作戰(zhàn)單元根據(jù)分配方案和固定行動(dòng)規(guī)則對(duì)作戰(zhàn)目標(biāo)進(jìn)行打擊,兵棋系統(tǒng)會(huì)實(shí)時(shí)返回各棋子狀態(tài)和交戰(zhàn)結(jié)果。而后,依據(jù)系統(tǒng)環(huán)境返回的收益值信息,利用基于多層神經(jīng)網(wǎng)絡(luò)的“評(píng)分模型”對(duì)該步目標(biāo)分配方案進(jìn)行優(yōu)劣評(píng)價(jià),評(píng)價(jià)值用于優(yōu)化策略。

步驟 2最優(yōu)協(xié)同目標(biāo)分配策略的模擬執(zhí)行。在利用計(jì)算機(jī)兵棋系統(tǒng)對(duì)某次聯(lián)合火力打擊進(jìn)行模擬仿真時(shí),每隔一段時(shí)間Δt,依據(jù)最優(yōu)協(xié)同目標(biāo)分配策略生成目標(biāo)分配方案,各作戰(zhàn)單元依據(jù)當(dāng)前方案實(shí)時(shí)調(diào)整打擊對(duì)象。當(dāng)完成打擊任務(wù)后,將得到一個(gè)隨時(shí)間變化的“作戰(zhàn)目標(biāo)分配方案序列”。作戰(zhàn)單元在各目標(biāo)分配方案中分配得到的作戰(zhàn)目標(biāo),組成了該作戰(zhàn)單元的打擊目標(biāo)序列;作戰(zhàn)目標(biāo)在各目標(biāo)分配方案中是否被打擊,形成了不同作戰(zhàn)目標(biāo)之間的先后打擊順序。

2.1.1 協(xié)同目標(biāo)分配方案表示

在決策時(shí)刻t,一個(gè)確定的策略π會(huì)根據(jù)所有作戰(zhàn)單元和作戰(zhàn)目標(biāo)的聯(lián)合狀態(tài)〈S1,t,S2,t〉,給出能夠獲取最大回報(bào)的聯(lián)合動(dòng)作At=maxπ(S1,t,S2,t,t)。At實(shí)質(zhì)就是時(shí)刻t的協(xié)同目標(biāo)分配方案,可用分配矩陣Bt等價(jià)表示,如下所示:

(8)

式中:bi,j表示作戰(zhàn)單元uj是否打擊作戰(zhàn)目標(biāo)tgi,如果打擊則bi,j=1,否則bi,j=0。

若每隔時(shí)間Δt生成一次作戰(zhàn)目標(biāo)分配方案,當(dāng)完成打擊任務(wù)后,將會(huì)得到該作戰(zhàn)場(chǎng)景下的一個(gè)作戰(zhàn)目標(biāo)分配方案序列,如下所示:

B=[B1,B2,…,Bt,…,BT]

(9)

2.1.2 底層固定行動(dòng)規(guī)則

當(dāng)給定分配矩陣Bt后,各作戰(zhàn)單元將會(huì)按照固定行動(dòng)規(guī)則對(duì)指派的作戰(zhàn)目標(biāo)進(jìn)行打擊。作戰(zhàn)單元的行動(dòng)規(guī)則包括:作戰(zhàn)單元自動(dòng)規(guī)劃打擊目標(biāo)的最短路徑;作戰(zhàn)目標(biāo)進(jìn)入射程范圍后,作戰(zhàn)單元將根據(jù)自身掛載的命中毀傷概率,計(jì)算彈藥發(fā)射數(shù)量;作戰(zhàn)單元消耗完自身彈藥或油料后將自動(dòng)退出作戰(zhàn)。上述行動(dòng)規(guī)劃均由計(jì)算機(jī)兵棋系統(tǒng)自動(dòng)完成,符合軍事規(guī)范并在長(zhǎng)期應(yīng)用中得到驗(yàn)證。因此,學(xué)習(xí)任務(wù)將聚焦于分配策略π的學(xué)習(xí),而作戰(zhàn)單元對(duì)作戰(zhàn)目標(biāo)的具體打擊行為不需要進(jìn)行訓(xùn)練。

2.1.3 獎(jiǎng)勵(lì)函數(shù)

根據(jù)協(xié)同目標(biāo)分配模型的目標(biāo)函數(shù),構(gòu)建強(qiáng)化學(xué)習(xí)的單步獎(jiǎng)勵(lì)函數(shù),計(jì)算方法如下所示:

(10)

式中:Rt表示在第t步得到的單步獎(jiǎng)勵(lì)值;bvs和blst表示防守方作戰(zhàn)目標(biāo)及彈藥的總價(jià)值與第t步時(shí)被摧毀/消耗后的總收益;rvs和rlst表示進(jìn)攻方作戰(zhàn)單元及彈藥的總價(jià)值與第t步時(shí)被摧毀/消耗后的總損失;d標(biāo)識(shí)作戰(zhàn)過(guò)程是否結(jié)束,若結(jié)束則d=1,否則d=0;r_d為作戰(zhàn)結(jié)束時(shí)的獎(jiǎng)勵(lì)值;Rle和Ble分別表示作戰(zhàn)過(guò)程結(jié)束后作戰(zhàn)單元和作戰(zhàn)目標(biāo)的剩余率。

2.2 協(xié)同策略評(píng)分模型

評(píng)分模型根據(jù)作戰(zhàn)單元和作戰(zhàn)目標(biāo)的狀態(tài),評(píng)價(jià)當(dāng)前策略的優(yōu)劣。在此,采用多層神經(jīng)網(wǎng)絡(luò)構(gòu)建局部評(píng)分模型,通過(guò)不斷學(xué)習(xí)優(yōu)化模型參數(shù)來(lái)提高模型評(píng)分的精確度,可用h(s1,i,s2,j,θ1)和g(s1,i,s1,k,θ2)表示。其中,h(·)對(duì)作戰(zhàn)單元與作戰(zhàn)目標(biāo)的分配關(guān)系進(jìn)行評(píng)分,反映了指派作戰(zhàn)單元uj打擊作戰(zhàn)目標(biāo)tgi的優(yōu)劣;g(·)對(duì)作戰(zhàn)目標(biāo)之間的打擊順序進(jìn)行評(píng)分,反映了作戰(zhàn)目標(biāo)tgi與tgk先后打擊順序的優(yōu)劣;s2,j表示作戰(zhàn)單元uj的狀態(tài);s1,i和s1,k分別表示作戰(zhàn)目標(biāo)tgi與tgk的狀態(tài);θ1和θ2分別為兩個(gè)神經(jīng)網(wǎng)絡(luò)的參數(shù)。

在某一決策時(shí)刻,經(jīng)過(guò)評(píng)分后可得到兩個(gè)評(píng)分矩陣H和G,分別如下所示:

(11)

(12)

式中:hθ1(i,j)表示對(duì)作戰(zhàn)單元uj打擊作戰(zhàn)目標(biāo)tgi的評(píng)分;gθ2(i,k)表示對(duì)作戰(zhàn)目標(biāo)tgi與tgk打擊順序的評(píng)分。

評(píng)分模型h(·)和g(·)分別采用結(jié)構(gòu)相同但參數(shù)不同的神經(jīng)網(wǎng)絡(luò),如圖2所示。h(·)的輸入數(shù)據(jù)為評(píng)分對(duì)象“作戰(zhàn)單元和作戰(zhàn)目標(biāo)”的聯(lián)合狀態(tài)向量;g(·)的輸入數(shù)據(jù)為評(píng)分對(duì)象“作戰(zhàn)目標(biāo)和作戰(zhàn)目標(biāo)”的聯(lián)合狀態(tài)向量。作戰(zhàn)單元和作戰(zhàn)目標(biāo)的特征狀態(tài),包括類型、位置、自身價(jià)值、彈藥攜帶量和彈藥單位價(jià)值。輸入數(shù)據(jù)經(jīng)過(guò)批標(biāo)準(zhǔn)化層和4個(gè)全連接層后,輸出評(píng)分?jǐn)?shù)值。

圖2 評(píng)分模型神經(jīng)網(wǎng)絡(luò)Fig.2 Scoring model neural network

2.3 協(xié)同策略推理模型

協(xié)同策略推理模型主要負(fù)責(zé)根據(jù)評(píng)分矩陣H和G確定能夠獲取最大評(píng)分總數(shù)的分配矩陣Bt。在協(xié)同目標(biāo)分配策略π為確定性策略時(shí),分配矩陣Bt只與當(dāng)前t時(shí)刻各作戰(zhàn)單元和作戰(zhàn)目標(biāo)的聯(lián)合狀態(tài)有關(guān)。在學(xué)習(xí)過(guò)程中,分配矩陣Bt還取決于評(píng)分模型的網(wǎng)絡(luò)參數(shù)θ1和θ2。因此,可使用參數(shù)化Bt(S1,S2,θ1,θ2)表示分配矩陣。

一種貪婪的策略推理,是將作戰(zhàn)單元指派給h(·)分?jǐn)?shù)最高的作戰(zhàn)目標(biāo)。但貪婪地選擇分?jǐn)?shù)最大的作戰(zhàn)單元打擊作戰(zhàn)目標(biāo),實(shí)質(zhì)是默認(rèn)打擊目標(biāo)的效益與指派打擊該目標(biāo)的作戰(zhàn)單元數(shù)目呈正比例關(guān)系。然而,當(dāng)作戰(zhàn)單元和作戰(zhàn)目標(biāo)數(shù)目較多時(shí),打擊某一作戰(zhàn)目標(biāo)的總收益,會(huì)隨著指派作戰(zhàn)單元的數(shù)目增大而趨于飽和,從而導(dǎo)致嚴(yán)重的資源浪費(fèi)。因此,需要限制打擊同一作戰(zhàn)目標(biāo)的作戰(zhàn)單元數(shù)量。

此外,還需要考慮不同作戰(zhàn)目標(biāo)的先后打擊順序。當(dāng)考慮作戰(zhàn)目標(biāo)之間的約束關(guān)系時(shí),可能會(huì)出現(xiàn)兩種極端情況:一種情況是作戰(zhàn)目標(biāo)之間的相關(guān)關(guān)系較弱,則作戰(zhàn)單元會(huì)被“分散”指派給各個(gè)作戰(zhàn)目標(biāo)并同時(shí)執(zhí)行打擊任務(wù);另一種情況是作戰(zhàn)目標(biāo)之間存在較強(qiáng)的相關(guān)關(guān)系,則作戰(zhàn)單元會(huì)被“集中”指派去打擊重要性較大的作戰(zhàn)目標(biāo),而后按照重要性順序依次打擊其他作戰(zhàn)目標(biāo)。在實(shí)際作戰(zhàn)中,作戰(zhàn)目標(biāo)之間的重要性對(duì)比關(guān)系,應(yīng)處于上述兩種極端情況之間。

協(xié)同策略推理過(guò)程,可表示為

(13)

式中,bi,j為分配矩陣Bt(S1,S2,θ1,θ2)中第i行第j列的元素,表示作戰(zhàn)單元uj是否打擊作戰(zhàn)目標(biāo)tgi;h(i,j,θ1)為評(píng)分矩陣H中第i行第j列的元素,表示指派作戰(zhàn)單元uj打擊作戰(zhàn)目標(biāo)tgi的優(yōu)劣程度;g(i,k,θ2)為評(píng)分矩陣G中第i行第k列的元素,表示對(duì)作戰(zhàn)目標(biāo)tgi與tgk的打擊順序的評(píng)分;約束條件∑bi,j≤1,表示指派作戰(zhàn)單元uj打擊的作戰(zhàn)目標(biāo)數(shù)目最多為1;φi(si)表示打擊作戰(zhàn)目標(biāo)tgi的最大彈藥需求量,使用φi,j(si,sj)表示作戰(zhàn)單元uj打擊作戰(zhàn)目標(biāo)tgi的打擊效果;約束條件∑φi,j(si,sj)bi,j≤φi(si)表示指派打擊作戰(zhàn)目標(biāo)tgi的作戰(zhàn)單元的打擊效果之和不能超出該作戰(zhàn)目標(biāo)的打擊需求。

2.4 協(xié)同策略學(xué)習(xí)算法

協(xié)同目標(biāo)分配策略的優(yōu)化,需要通過(guò)學(xué)習(xí)算法實(shí)現(xiàn)。在此,將“評(píng)分”視為一個(gè)負(fù)責(zé)頂層決策的虛擬中心智能體的“動(dòng)作”,將“評(píng)分模型”作為需要學(xué)習(xí)的“策略”,將協(xié)同策略推理過(guò)程和仿真模擬環(huán)境統(tǒng)一看作為學(xué)習(xí)“環(huán)境”,通過(guò)A2C (advantage actor-critic)算法[29-30]進(jìn)行策略優(yōu)化。策略網(wǎng)絡(luò)Actor用于逼近“評(píng)分模型”,評(píng)價(jià)網(wǎng)絡(luò)Critic用于逼近整個(gè)“環(huán)境”運(yùn)行產(chǎn)生的累計(jì)回報(bào)。學(xué)習(xí)優(yōu)化的基本過(guò)程,如圖3所示,具體步驟如下。

圖3 基于A2C算法的學(xué)習(xí)過(guò)程Fig.3 Learning process based on A2C

步驟 1策略網(wǎng)絡(luò)Actor為第2.2節(jié)中所構(gòu)建的評(píng)分模型。神經(jīng)網(wǎng)絡(luò)接收當(dāng)前作戰(zhàn)單元和作戰(zhàn)目標(biāo)的空間分布狀態(tài),通過(guò)網(wǎng)絡(luò)前向傳播計(jì)算評(píng)分矩陣H和G。然后,將H和G作為“動(dòng)作”輸出給協(xié)同策略推理模型。

步驟 2協(xié)同策略推理模型根據(jù)評(píng)分矩陣H和G,通過(guò)策略推理制定協(xié)同目標(biāo)分配方案,具體方法如第2.3節(jié)所述。然后,將協(xié)同目標(biāo)分配方案下達(dá)給各作戰(zhàn)單元,各作戰(zhàn)單元按照底層固定的行動(dòng)策略執(zhí)行目標(biāo)打擊任務(wù)。

步驟 3評(píng)價(jià)網(wǎng)絡(luò)Critic接收目標(biāo)分配方案單步執(zhí)行后產(chǎn)生的獎(jiǎng)勵(lì)值,單步獎(jiǎng)勵(lì)值的計(jì)算方法如式(11)所示。然后,通過(guò)神經(jīng)網(wǎng)絡(luò)的前向傳播計(jì)算執(zhí)行“動(dòng)作”H和G所產(chǎn)生的評(píng)價(jià)值,并更新優(yōu)化網(wǎng)絡(luò)參數(shù)。最后,將計(jì)算得到的關(guān)于收益的TD-error輸出給策略網(wǎng)絡(luò)Actor。

步驟 4策略網(wǎng)絡(luò)Actor接收TD-error后,更新優(yōu)化評(píng)分模型的網(wǎng)絡(luò)參數(shù)θ1和θ2。

步驟 5迭代上述過(guò)程,直至學(xué)習(xí)結(jié)束。

3 實(shí)驗(yàn)驗(yàn)證

在某型計(jì)算機(jī)兵棋系統(tǒng)上,以聯(lián)合火力打擊為例,驗(yàn)證本文協(xié)同目標(biāo)分配方法。

(1) 實(shí)驗(yàn)設(shè)計(jì)與數(shù)據(jù)

實(shí)驗(yàn)背景:為保證聯(lián)合任務(wù)部隊(duì)能夠順利渡海登陸,現(xiàn)對(duì)敵沿岸雷達(dá)陣地、防空陣地、機(jī)場(chǎng)和指揮所進(jìn)行聯(lián)合火力打擊。

實(shí)驗(yàn)思路:構(gòu)建兩個(gè)不同復(fù)雜度的實(shí)驗(yàn)場(chǎng)景,如表1所示;在小場(chǎng)景中進(jìn)行模型訓(xùn)練,而后在相同場(chǎng)景下,應(yīng)用訓(xùn)練好的模型進(jìn)行仿真模擬,驗(yàn)證模型構(gòu)建和訓(xùn)練的合理性;最后,將訓(xùn)練好的模型直接泛化應(yīng)用的大場(chǎng)景中,驗(yàn)證解決大規(guī)模問(wèn)題的有效性。實(shí)驗(yàn)數(shù)據(jù):敵我雙方武器平臺(tái)、作戰(zhàn)目標(biāo)及彈藥的價(jià)值系數(shù),是綜合造價(jià)和影響己方作戰(zhàn)程度而計(jì)算的評(píng)價(jià)值。敵方一體化防空反導(dǎo),彈藥類型以W表示,其價(jià)值系數(shù)為0.05。綜合考慮武器平臺(tái)性能及掛載類型、作戰(zhàn)目標(biāo)性質(zhì)以及彈目匹配關(guān)系,敵我雙方的“武器-目標(biāo)”命中毀傷概率,如表2所示。

表1 武器平臺(tái)和作戰(zhàn)目標(biāo)信息Table 1 The data of platform and operational targets

表2 武器-目標(biāo)命中毀傷概率Table 2 Hit and kill probability of weapon-target

(2) 小場(chǎng)景下模型訓(xùn)練與驗(yàn)證

由于“武器-目標(biāo)”命中毀傷概率小于1,即便訓(xùn)練得到的策略最優(yōu),也會(huì)出現(xiàn)收益值很差的情況。在此,將每一輪訓(xùn)練的總回報(bào),設(shè)置為本次訓(xùn)練總回報(bào)與前一輪訓(xùn)練總回報(bào)的綜合值,計(jì)算方法如下所示:

(14)

根據(jù)本文方法構(gòu)建評(píng)分模型、推理模型和學(xué)習(xí)模型,利用計(jì)算機(jī)兵棋系統(tǒng)進(jìn)行1 050輪學(xué)習(xí)訓(xùn)練。訓(xùn)練過(guò)程中,綜合回報(bào)值隨訓(xùn)練次數(shù)的變化曲線,如圖4所示?？梢?基于A2C算法的策略優(yōu)化方法能夠保證策略回報(bào)值趨于收斂,從而得到最優(yōu)協(xié)同目標(biāo)分配策略。

圖4 仿真實(shí)驗(yàn)結(jié)果Fig.4 Results of simulation experiment

在相同場(chǎng)景下,使用訓(xùn)練好的模型和策略,進(jìn)行70次模擬仿真驗(yàn)證,統(tǒng)計(jì)以下信息:模擬仿真回報(bào)值,如圖5(a)所示;任務(wù)完成度(作戰(zhàn)目標(biāo)的摧毀數(shù)目與初始數(shù)目之比)和進(jìn)攻方作戰(zhàn)單元剩余率,如圖5(b)所示。

圖5 小場(chǎng)景下模型驗(yàn)證結(jié)果Fig.5 Results of model verification in small scenes

(3) 大場(chǎng)景下模型泛化應(yīng)用

在大場(chǎng)景下,不進(jìn)行任何學(xué)習(xí)訓(xùn)練,直接使用小場(chǎng)景中訓(xùn)練好的模型和策略,進(jìn)行70次模擬仿真泛化應(yīng)用驗(yàn)證,統(tǒng)計(jì)信息如圖6所示。

圖6 大場(chǎng)景下模型泛化應(yīng)用結(jié)果Fig.6 Results of model generalization application in large scenes

(4) 實(shí)驗(yàn)結(jié)果分析

1)在小場(chǎng)景驗(yàn)證實(shí)驗(yàn)中,綜合回報(bào)值落在區(qū)間[50,200]的模擬次數(shù)占總次數(shù)的77%;能夠百分之百完成打擊任務(wù)的模擬次數(shù)占總次數(shù)的78.6%,而能夠保證自身?yè)p失不超過(guò)50%的模擬次數(shù)占總次數(shù)的48.6%。雖然存在我方損失很大而敵方損失較小的情況,但非協(xié)同分配策略導(dǎo)致,而是由于敵我雙方命中毀傷概率小于1產(chǎn)生的小概率隨機(jī)結(jié)果。因此,訓(xùn)練優(yōu)化的策略能夠保證進(jìn)攻方以較小損失完成聯(lián)合火力打擊任務(wù)。

2) 在大場(chǎng)景泛化應(yīng)用實(shí)驗(yàn)中,綜合回報(bào)值落在區(qū)間[50,200]的模擬次數(shù)占總次數(shù)的62.9%;能夠百分之百完成打擊任務(wù)的模擬次數(shù)占總次數(shù)的71.4%。相比小場(chǎng)景實(shí)驗(yàn),進(jìn)攻方的作戰(zhàn)單元損失較大且收益平均值較小。主要原因是大場(chǎng)景下作戰(zhàn)目標(biāo)是小場(chǎng)景的2.75倍,而武器平臺(tái)只是小場(chǎng)景的1.9倍,因此進(jìn)攻方會(huì)產(chǎn)生更大的損失。但訓(xùn)練優(yōu)化的策略,依舊能夠保證進(jìn)攻方以較大概率完成聯(lián)合火力打擊任務(wù)。

4 結(jié) 論

本文針對(duì)傳統(tǒng)方法難以實(shí)現(xiàn)動(dòng)態(tài)不確定環(huán)境下的大規(guī)模協(xié)同目標(biāo)分配問(wèn)題,提出了基于MARL的協(xié)同目標(biāo)分配方法。通過(guò)策略分層將學(xué)習(xí)任務(wù)聚焦于頂層分配策略的學(xué)習(xí),構(gòu)建了策略評(píng)分模型和策略推理模型,并基于A2C算法進(jìn)行策略的優(yōu)化學(xué)習(xí)。實(shí)驗(yàn)結(jié)果表明,基于多智能體系統(tǒng)對(duì)作戰(zhàn)單元協(xié)同作戰(zhàn)行為進(jìn)行建模,能夠形象地刻畫協(xié)同作戰(zhàn)的演化內(nèi)因;基于A2C算法的策略優(yōu)化方法,能夠確保最優(yōu)協(xié)同目標(biāo)分配策略的有效生成;而生成的最優(yōu)目標(biāo)分配策略,能夠在執(zhí)行時(shí)以較好的效果完成聯(lián)合火力打擊任務(wù)。