摘" 要:
近年來,將深度強(qiáng)化學(xué)習(xí)技術(shù)用于兵棋推演的智能對(duì)抗策略生成受到廣泛關(guān)注。針對(duì)強(qiáng)化學(xué)習(xí)決策模型采樣率低、訓(xùn)練收斂慢以及智能體博弈勝率低的問題,提出一種融合三支多屬性決策(three-way multiple attribute decision making, TWMADM)與強(qiáng)化學(xué)習(xí)的智能決策技術(shù)。基于經(jīng)典軟表演者批評(píng)家(soft actor-critic,SAC)算法開發(fā)兵棋智能體,利用TWMADM方法評(píng)估對(duì)方算子的威脅情況,并將該威脅評(píng)估結(jié)果以先驗(yàn)知識(shí)的形式引入到SAC算法中規(guī)劃戰(zhàn)術(shù)決策。在典型兵棋推演系統(tǒng)中開展博弈對(duì)抗實(shí)驗(yàn),結(jié)果顯示所提算法可有效加快訓(xùn)練收斂速度,提升智能體的對(duì)抗策略生成效率和博弈勝率。
關(guān)鍵詞:
兵棋推演; 三支多屬性決策; 軟表演者批評(píng)家; 強(qiáng)化學(xué)習(xí); 智能決策
中圖分類號(hào):
TN 95
TP 181; E 91
文獻(xiàn)標(biāo)志碼: A""" DOI:10.12305/j.issn.1001-506X.2024.07.15
Intelligent decision-making technology for wargame by integrating
three-way multiple attribute decision-making and SAC
PENG Lisha1,2, SUN Yuxiang1,*, XUE Yufan1, ZHOU Xianzhong1,3
(1. School of Engineering Management, Nanjing University, Nanjing 210008, China; 2. School of Information
Technology amp; Artificial Intelligence, Zhejiang University of Finance amp; Economics, Hangzhou 310018, China;
3. Research Center for New Technology in Intelligent Equipment, Nanjing University, Nanjing 210008, China)
Abstract:
In recent years, the generation of intelligent confrontation strategies using deep reinforcement learning technology for wargaming has attracted widespread attention. Aiming at the problems of low sampling rate, slow training convergence of reinforcement learning decision model and low game winning rate of agents, an intelligent decision-making technology integrating three-way multiple attribute decision making (TWMADM) and reinforcement learning is proposed. Based on the classical soft actor-critic (SAC) algorithm, the wargaming agent is developed, and the threat situation of the opposing operator is evaluated by using TWMADM method, and the threat assessment results are introduced into the SAC algorithm in the form of prior knowledge to plan tactical decisions. A game confrontation experiment is conducted in a typical wargame system, and the results shows that the proposed algorithm can effectively speed up the training convergence, improve the efficiency of generating adversarial strategies and the game winning rate for agents.
Keywords:
wargame; three-way multiple attribute decision making (TWMADM); soft actor-critic (SAC); reinforcement learning (RL); intelligent decision
0" 引" 言
兵棋推演是基于實(shí)戰(zhàn)化規(guī)則的作戰(zhàn)模擬系統(tǒng)[1],用棋盤描述戰(zhàn)場(chǎng)地形地貌,用棋子/算子及其動(dòng)態(tài)變化描述作戰(zhàn)實(shí)體和戰(zhàn)斗事件,基于作戰(zhàn)經(jīng)驗(yàn)和時(shí)間對(duì)作戰(zhàn)雙方的對(duì)抗過程進(jìn)行仿真推演。如今,計(jì)算機(jī)兵棋推演已成為現(xiàn)代戰(zhàn)爭(zhēng)模擬訓(xùn)練的有效手段之一,對(duì)研究信息化和智能化戰(zhàn)爭(zhēng)有重要價(jià)值。
近年來,一些代表性的棋類和游戲人工智能(artificial intelligence, AI)的成功研發(fā)為兵棋推演的智能化發(fā)展奠定了基礎(chǔ),為兵棋智能體的研發(fā)提供了新的思路。2016年,DeepMind公司開發(fā)的AlphaGo[2]在人機(jī)圍棋大戰(zhàn)中以絕對(duì)優(yōu)勢(shì)戰(zhàn)勝了世界冠軍,成為了AI發(fā)展史上的里程碑節(jié)點(diǎn)。AlphaGo的突破為兵棋推演中態(tài)勢(shì)智能認(rèn)知和自主決策等關(guān)鍵問題提供了解決思路[3]。之后,機(jī)器學(xué)習(xí)技術(shù)繼續(xù)在各類人機(jī)博弈場(chǎng)景中取得突破,Libratus、OpenAI Five、AlphaStar等相繼在德州撲克、Dota2角色扮演游戲、星際爭(zhēng)霸II等即時(shí)策略游戲領(lǐng)域中擊敗人類頂級(jí)職業(yè)選手[4]。在即時(shí)策略游戲(real-time strategy game, RTS)方面,Silver等[5]介紹了一種不依賴人類數(shù)據(jù)和領(lǐng)域知識(shí)的純深度強(qiáng)化學(xué)習(xí)(deep reinforcement learning, DRL)算法,實(shí)現(xiàn)了更高質(zhì)量的移動(dòng)選擇和自我博弈,其構(gòu)造的AlphaGo Zero以100660戰(zhàn)勝了AlphaGo。Espeholt等[6]提出IMPALA(importance weighted actor-learner architectwre)算法實(shí)現(xiàn)離策略分布式強(qiáng)化學(xué)習(xí)(reinforcemert learning, RL)并成功用于奪旗對(duì)抗,目前以IMPALA為代表的分布式RL算法也常被用于智能兵棋訓(xùn)練。Barriga等[7]利用深度卷積神經(jīng)網(wǎng)絡(luò)在RTS視頻游戲中進(jìn)行抽象動(dòng)作選擇,用深度Q網(wǎng)絡(luò)(deep-Q networks, DQN)和異步A3C(asynchronaie advantage actor critic)學(xué)習(xí)復(fù)雜協(xié)作策略以改進(jìn)戰(zhàn)術(shù)多智能體AI,實(shí)現(xiàn)了在中等規(guī)模游戲中擊敗高難度的內(nèi)置AI。Ye等[8]基于雙剪輯近端策略優(yōu)化(proximal policy optimization, PPO)和actor-critic網(wǎng)絡(luò)訓(xùn)練出了可擊敗頂級(jí)職業(yè)玩家的《王者榮耀》游戲AI。
對(duì)智能體的研發(fā)是兵棋推演研究體系中的重要課題,相關(guān)研究主要包括知識(shí)(規(guī)則)驅(qū)動(dòng)的、數(shù)據(jù)驅(qū)動(dòng)的和知識(shí)數(shù)據(jù)混合驅(qū)動(dòng)的智能體這3大類[910]。① 知識(shí)驅(qū)動(dòng)的智能體主要利用高水平人類的專業(yè)推演的知識(shí)經(jīng)驗(yàn)和戰(zhàn)法規(guī)律,通過行為樹[11]和自動(dòng)機(jī)[12]等框架研發(fā)而成。現(xiàn)有作戰(zhàn)仿真推演系統(tǒng)主要還是基于經(jīng)驗(yàn)規(guī)則實(shí)現(xiàn)決策,例如“兵棋分隊(duì)級(jí)AI-微風(fēng)1.0”和“兵棋群隊(duì)級(jí)AI-紫冬智劍2.0” 等[10]。② 數(shù)據(jù)驅(qū)動(dòng)的智能體多數(shù)基于DRL研發(fā)而成,智能體通過與環(huán)境交互收集狀態(tài)、動(dòng)作和獎(jiǎng)勵(lì)數(shù)據(jù)進(jìn)行訓(xùn)練,從而學(xué)習(xí)到面向特定任務(wù)的行動(dòng)策略[10]。例如,李琛等[1]結(jié)合actor-critic框架與產(chǎn)生式規(guī)則提出一種面向回合制六角格兵棋推演的多智能體決策方法,提升了行動(dòng)策略生成的高效性和穩(wěn)定性。施偉等[13]通過改進(jìn)PPO算法提升了多機(jī)協(xié)同空戰(zhàn)場(chǎng)景下DRL的學(xué)習(xí)效果。Chen等[14]結(jié)合對(duì)比預(yù)測(cè)編碼模型、可變長(zhǎng)短期記憶網(wǎng)絡(luò)模型和注意力權(quán)重分配器提出一種深度學(xué)習(xí)架構(gòu),用于提升不完全信息兵棋環(huán)境下在線意圖識(shí)別的穩(wěn)定性和準(zhǔn)確率。張振等[15]提出了基于監(jiān)督學(xué)習(xí)和PPO的智能決策算法,并結(jié)合額外獎(jiǎng)勵(lì)設(shè)置使智能體的收斂速度和勝率得到穩(wěn)步提升。Sun等[16]利用RL多智能體深度確定性策略梯度算法(deep deterministic policy gradient, DDPG)實(shí)現(xiàn)游戲AI的動(dòng)態(tài)決策,并利用深度學(xué)習(xí)和自然語言處理技術(shù)將兵棋推演情景圖轉(zhuǎn)化為語義文本。③ 知識(shí)數(shù)據(jù)混合驅(qū)動(dòng)的智能體通過在學(xué)習(xí)模型中引入先驗(yàn)知識(shí)實(shí)現(xiàn)更快收斂。例如,Rueden等[17]提出的融入先驗(yàn)知識(shí)的神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)系統(tǒng)―知信機(jī)器學(xué)習(xí)可實(shí)現(xiàn)對(duì)各種方法的結(jié)構(gòu)化分類。Sun等[18]提出的融入先驗(yàn)知識(shí)的DQN算法的策略生成穩(wěn)定性和收斂速度優(yōu)于傳統(tǒng)DQN算法,且可擊敗高級(jí)規(guī)則驅(qū)動(dòng)的算子。Xue等[19]結(jié)合多屬性決策(multiple attribute decision making,MADM)方法和PPO算法進(jìn)行智能體訓(xùn)練,仿真實(shí)驗(yàn)顯示該智能體的綜合博弈效果和勝率相比基于純PPO和純規(guī)則的智能體得到提升。
總體而言,知識(shí)驅(qū)動(dòng)的智能體可解釋性強(qiáng),但強(qiáng)依賴于人類推演經(jīng)驗(yàn),缺乏對(duì)不同對(duì)抗場(chǎng)景的適應(yīng)能力;數(shù)據(jù)驅(qū)動(dòng)的智能體具有高度的探索多樣性和環(huán)境適應(yīng)性,但依賴于訓(xùn)練數(shù)據(jù)和深度神經(jīng)網(wǎng)絡(luò),訓(xùn)練難度大且可解釋性不強(qiáng)。而混合驅(qū)動(dòng)的智能體的相關(guān)研究尚處于起步階段。目前,基于DRL的智能體采樣率低、訓(xùn)練收斂困難、即時(shí)策略產(chǎn)出緩慢,以及對(duì)抗特定規(guī)則時(shí)勝率低仍是主要挑戰(zhàn)。為此,結(jié)合三支MADM(three-way MADM, TWMADM)模型與經(jīng)典的軟表演者批評(píng)家(soft actor-critic, SAC)算法,提出一種混合驅(qū)動(dòng)的智能決策技術(shù)簡(jiǎn)稱為TMSAC,用于提高智能體的訓(xùn)練收斂速度和博弈勝率。
TWMADM是MADM[20]與三支決策(three-way decisions, TWD)[21]的融合模型。本質(zhì)上講,TWMADM融合了MADM對(duì)有序信息系統(tǒng)的排序功能,以及 TWD對(duì)不確定信息的處理功能和對(duì)論域(有限對(duì)象或個(gè)體的集合)的分類功能,故TWMADM常被用于解決不確定信息環(huán)境下對(duì)論域有同步分類和排序需求的MADM問題,如項(xiàng)目投資選擇[2223]、目標(biāo)威脅評(píng)估[2425]等,但就目前而言還未發(fā)現(xiàn)TWMADM在兵棋推演智能決策方面的應(yīng)用研究。SAC算法是Haarnoja等[26]提出的一種非策略最大熵DRL算法。該算法在保持熵最大化和穩(wěn)定性的同時(shí)能夠進(jìn)行高效的樣本學(xué)習(xí),獎(jiǎng)勵(lì)的增加使智能體趨于選擇最優(yōu)動(dòng)作,而熵增使智能體可通過探索更多情況而避免陷入局部最優(yōu),兩者的結(jié)合使策略收斂速度大幅增長(zhǎng)。目前,已有學(xué)者探究了SAC算法的應(yīng)用價(jià)值,包括機(jī)器人路徑規(guī)劃[2728]、無人機(jī)空戰(zhàn)多維決策[29]、智能車應(yīng)急救援[30]等。夏琳[31]結(jié)合后驗(yàn)經(jīng)驗(yàn)回放技術(shù)和SAC 算法,用于訓(xùn)練Mujoco 平臺(tái)機(jī)械臂抓取任務(wù),之后又結(jié)合注意力機(jī)制,將 SAC 擴(kuò)展到多智能體環(huán)境,通過GridWorld訓(xùn)練環(huán)境和作戰(zhàn)仿真推演系統(tǒng)驗(yàn)證了算法的性能和勝率得到有效提升。
基于TWMADM和SAC的特點(diǎn)和優(yōu)勢(shì),本文提出TMSAC算法用于提升兵棋智能體的決策高效性和高勝率。主要利用經(jīng)典SAC算法訓(xùn)練智能體,并利用TWMADM方法獲取兵棋推演系統(tǒng)中對(duì)方算子的威脅評(píng)估結(jié)果,將其引入到SAC的策略學(xué)習(xí)框架中作為先驗(yàn)知識(shí)引導(dǎo)獎(jiǎng)勵(lì)動(dòng)態(tài)更新,從而提升算法采樣率和收斂速度,以及智能體的行動(dòng)效率和準(zhǔn)確性。在典型兵棋推演智能博弈系統(tǒng)中開展仿真對(duì)比實(shí)驗(yàn),驗(yàn)證了TMSAC智能決策算法的綜合性能和優(yōu)勢(shì)。
1" 預(yù)備知識(shí)介紹
TWMADM是基于TWD和MADM的融合決策方法/模型,用于在有序信息系統(tǒng)中實(shí)現(xiàn)對(duì)備選方案的同步分類和排序。文獻(xiàn)[2324]面向此類完備信息系統(tǒng)提出了一種基于ELECTRE(elimination et choice translating reality)-I的TWMADM方法。鑒于該方法中ELECTRE-I可以構(gòu)造方案間嚴(yán)謹(jǐn)?shù)膬?yōu)勢(shì)關(guān)系,且相對(duì)更易于計(jì)算和理解、涉及參數(shù)更少,基于ELECTRE-I的TWMADM方法實(shí)現(xiàn)完全信息環(huán)境下兵棋推演系統(tǒng)中的算子威脅評(píng)估。SAC算法可在大型連續(xù)任務(wù)空間中進(jìn)行策略學(xué)習(xí),且在系列連續(xù)控制任務(wù)中優(yōu)于PPO和DDPG等無模型DRL算法。因此,本文采用SAC算法對(duì)兵棋推演中的智能體進(jìn)行訓(xùn)練。下面,簡(jiǎn)要回顧基于ELECTRE-I的TWMADM方法[2324]和經(jīng)典SAC算法[26]。
1.1" TWMADM
給定一個(gè)包含m個(gè)對(duì)象和n個(gè)屬性的信息系統(tǒng),用四元組S=〈U,C,W,V〉表示。論域U代表對(duì)象集{o1,o2,…,om},C代表屬性集{c1,c2,…,cn},V代表屬性值集V=∪vik(i=1,2,…,m;k=1,2,…,n),vik代表對(duì)象oi在屬性ck上的屬性值。
首先,利用ELECTRE-I獲取論域U中任意對(duì)象oi的優(yōu)勢(shì)集合:[oi]s={oj|oiRoj∧oi,oj∈U}(R表示優(yōu)勢(shì)關(guān)系);然后,計(jì)算給定狀態(tài)集Ω={X,
瘙 綈 X}下oi關(guān)于X的條件概率P(X|[oi]R)=∑oj∈[oi]RX(oj)|[oi]R|=∑oj∈[oi]R∑nk=1wkv′jk|[oi]R|其中,wk代表屬性ck的權(quán)重。根據(jù)表1的轉(zhuǎn)化機(jī)制客觀計(jì)算基于vjk的決策損失函數(shù)λΔ
SymbolQC@ (Δ=P,B,N;
SymbolQC@ =P,N),其中為延遲決策厭惡系數(shù),{λPP,λBP,λNP}{λPN,λBN,λNN}分別表示當(dāng)oi屬于X、不屬于X時(shí),將oi劃分到X的正域(positive region, POS)、邊界域(boundary region, BND)和負(fù)域(negative region, NEG)的決策損失。
之后,計(jì)算將oi劃分到X的POS、BND和NEG所產(chǎn)生的貝葉斯期望決策損失L(aΔ|[oi]R)(Δ=P,B,N)為
L(aΔ|[oi]R)=λΔPP(X|[oi]R)+λΔNP(
瘙 綈 X|[oi]R)(1)
根據(jù)貝葉斯期望決策損失最小化目標(biāo)制定分類規(guī)則:
(P′)L(aP|[oi]R)=minΔ=P,B,N(L(aΔ|[oi]R))oi∈POS(X)
(B′)L(aB|[oi]R)=minΔ=P,B,N(L(aΔ|[oi]R))oi∈BND(X)
(N′)L(aN|[oi]R)=minΔ=P,B,N(L(aΔ|[oi]R))oi∈NEG(X)
AL(oi)=L(aP|[oi]R), oi∈POS(X)
L(aB|[oi]R), oi∈BND(X)
L(aN|[oi]R), oi∈NEG(X)(2)
其中,AL表示關(guān)聯(lián)損失。最后,在上述分類基礎(chǔ)上設(shè)置排序規(guī)則,構(gòu)建基于決策損失最小化的TWMADM模型。全局排序規(guī)則:對(duì)不同域中的對(duì)象,POS中的對(duì)象排在邊界域中的對(duì)象前面,而NEG中的對(duì)象排在最后,即對(duì)oi,oj,ol∈U,若oi∈POS(X),oj∈BND(X),ol∈NEG(X),則oifojfol。局部排序規(guī)則:對(duì)于同一個(gè)域中的對(duì)象,關(guān)聯(lián)損失更低的對(duì)象排序越靠前,即對(duì)于oi,oj∈U,若oi,oj∈POS(X)∨BND(X)∨NEG(X)且AL(oi)lt;AL(oj),則 oifoj。
如引言所述,TMSAC中的威脅評(píng)估模塊將通過TWMADM實(shí)現(xiàn),即將推演系統(tǒng)中坦克算子的威脅評(píng)估問題視為MADM問題進(jìn)行處理,將坦克算子視為評(píng)估對(duì)象oi,將算子威脅指標(biāo)視為屬性ck,則可通過上述TWMADM模型獲得對(duì)方坦克算子的威脅等級(jí)分類和排序結(jié)果,作為提升TMSAC模型訓(xùn)練效率的先驗(yàn)知識(shí)。
1.2" DRL-SAC算法
PPO等on-policy算法在每次策略更新時(shí)都需要重新采樣大量樣本,采樣需求大、復(fù)雜度高。而DDPG/D4PG等離線策略off-policy算法盡管解決了樣本效率低的問題,但策略與Q值相互耦合導(dǎo)致穩(wěn)定性和收斂性不好,尤其在連續(xù)狀態(tài)和動(dòng)作空間中的穩(wěn)定性和收斂性更差,此外DDPG還存在脆弱性和超參數(shù)敏感性問題。為彌補(bǔ)這些DRL算法的缺陷,Haarnoja等[26]提出一種最大熵DRL算法——SAC算法。
SAC算法的理論基礎(chǔ)是馬爾可夫決策過程(Markov decision process, MDP)。MDP通過狀態(tài)、動(dòng)作和獎(jiǎng)勵(lì)描述智能體與環(huán)境的交互過程,表征為四元組〈S,A,p,r〉。S和A分別代表智能體的連續(xù)狀態(tài)空間和動(dòng)作空間;p:S·S·A→[0,
SymboleB@ )為狀態(tài)轉(zhuǎn)移概率,表示給定當(dāng)前狀態(tài)st∈S和動(dòng)作at∈A時(shí),智能體執(zhí)行新動(dòng)作并轉(zhuǎn)移到下一狀態(tài)st+1∈S的概率密度函數(shù);r:S·A→[rmin,rmax)表示環(huán)境針對(duì)每次狀態(tài)轉(zhuǎn)移給出的有界獎(jiǎng)勵(lì);ρπ(st)和ρπ(st,at)表示π生成的軌跡分布的所有狀態(tài)和所有狀態(tài)―動(dòng)作集合。
SAC包含3個(gè)關(guān)鍵要素:滿足訓(xùn)練探索性和穩(wěn)定性的最大熵模型、具有獨(dú)立策略和價(jià)值網(wǎng)絡(luò)的actor-critic框架、能夠通過重用歷史數(shù)據(jù)提高學(xué)習(xí)效率的off-policy范式。下面從這3個(gè)方面簡(jiǎn)要介紹SAC的基本概念。
(1) 最大熵模型:以同時(shí)最大化獎(jiǎng)勵(lì)r(st,at)和H(π(·|st))為優(yōu)化目標(biāo),獲得最優(yōu)策略π,如下所示:
J(π)=∑Tt=0E(st,at)~ρπ[r(st,at)+αH(π(·|st))](3)
式中:r和E分別為當(dāng)前狀態(tài)的獎(jiǎng)勵(lì)和獎(jiǎng)勵(lì)期望總值;H為當(dāng)前動(dòng)作的熵;溫度參數(shù)α決定熵項(xiàng)對(duì)于獎(jiǎng)勵(lì)項(xiàng)的相對(duì)重要性,從而控制了最優(yōu)策略的隨機(jī)性。當(dāng)α→0,最大熵優(yōu)化目標(biāo)恢復(fù)到標(biāo)準(zhǔn)強(qiáng)化學(xué)習(xí)的最大期望獎(jiǎng)勵(lì)優(yōu)化目標(biāo)。該最大熵優(yōu)化目標(biāo)有兩個(gè)優(yōu)勢(shì):一是增強(qiáng)探索性的同時(shí)使智能體放棄獎(jiǎng)勵(lì)明顯不多的動(dòng)作。二是捕獲多個(gè)近最優(yōu)動(dòng)作,并對(duì)這些動(dòng)作設(shè)置相同的概率,從而加速訓(xùn)練過程。
(2) actor-critic框架:在最大熵框架下,軟策略迭代在策略評(píng)估和策略更新之間交替進(jìn)行。actor網(wǎng)絡(luò)負(fù)責(zé)學(xué)習(xí)和更新策略,輸出每個(gè)狀態(tài)下的策略,并根據(jù)Kullback-Leibler散度進(jìn)行更新。critic網(wǎng)絡(luò)負(fù)責(zé)策略評(píng)估,輸出每個(gè)狀態(tài)下的策略值函數(shù)。對(duì)于任意固定策略π,從任意函數(shù)Q:S×A→R開始,用修正貝爾曼輔助算子Tπ迭代計(jì)算π的軟Q值。SAC通過兩個(gè) critic 網(wǎng)絡(luò)(雙Q-函數(shù))降低過高估計(jì)Q值的風(fēng)險(xiǎn)。SAC對(duì)Q函數(shù)和策略使用函數(shù)逼近器,并交替使用隨機(jī)梯度下降優(yōu)化這兩個(gè)網(wǎng)絡(luò)。
(3) off-policy范式:采用行動(dòng)策略和目標(biāo)策略,分別用于智能體訓(xùn)練軌跡樣本數(shù)據(jù)的生成和智能體策略學(xué)習(xí),基于歷史狀態(tài)和動(dòng)作的分布數(shù)據(jù)持續(xù)更新并優(yōu)化目標(biāo)策略,最終生成最優(yōu)策略。
2" 威脅指標(biāo)量化建模
在基于TWMADM與SAC的融合模型TMSAC中,TWMADM模型被用于評(píng)估兵棋推演系統(tǒng)中算子的威脅等級(jí)分類和綜合威脅排序結(jié)果,為提升SAC的算法收斂速度和策略學(xué)習(xí)效率提供先驗(yàn)知識(shí)。為確保TWMADM的威脅評(píng)估準(zhǔn)確性,需預(yù)先構(gòu)建威脅指標(biāo)體系和威脅指標(biāo)量化模型,并根據(jù)實(shí)時(shí)獲取的系統(tǒng)中算子的指標(biāo)威脅數(shù)據(jù)準(zhǔn)確計(jì)算算子的綜合威脅隸屬度(后文簡(jiǎn)稱威脅度),之后統(tǒng)一表征為二維威脅評(píng)估信息系統(tǒng),以此作為TWMADM進(jìn)行威脅評(píng)估的數(shù)據(jù)來源。
現(xiàn)有關(guān)于坦克威脅評(píng)估的文獻(xiàn)因研究的想定和側(cè)重點(diǎn)不同,所構(gòu)建的威脅指標(biāo)體系及其量化方法存在差異。本文參考相關(guān)文獻(xiàn)[19,3233],在一般性坦克威脅指標(biāo)基礎(chǔ)上,針對(duì)典型的戰(zhàn)術(shù)級(jí)智能兵棋推演系統(tǒng)“先勝1號(hào)”[34],主要考慮3類威脅指標(biāo),如表2所示,本文統(tǒng)一規(guī)定,雙方都稱為算子,對(duì)方為藍(lán)方算子,我方為紅方算子。一是由算子自身軟硬件性能決定的靜態(tài)型威脅指標(biāo):攻擊能力、防御能力;二是關(guān)系到算子攻擊能力的動(dòng)態(tài)型威脅指標(biāo):距離、速度、角度;三是與算子所處地理因素相關(guān)的威脅指標(biāo):地形通視、所處環(huán)境。
接下來,給出針對(duì)上述7項(xiàng)威脅指標(biāo)的數(shù)學(xué)量化模型。如圖1所示,常量r代表藍(lán)方坦克算子oi的有效打擊距離,即射程。坦克的射程分為3 km、5 km、9 km等,第4節(jié)仿真實(shí)驗(yàn)中設(shè)置r=3 km。變量l代表算子之間的直線距離;向量v代表藍(lán)方算子的行進(jìn)方向和速度大小。
(1) 距離威脅指標(biāo)量化
距離威脅由雙方攻擊距離威脅T1dis和藍(lán)方算子與奪控點(diǎn)之間的奪控距離威脅T2dis綜合決定。T1dis與攻擊距離l和射程r有關(guān),雙方直線距離l越近,對(duì)方攻擊意圖越大,威脅越大,當(dāng)l足夠小時(shí),T1dis趨于1,而當(dāng)l超出r時(shí),T1dis趨于0,T1dis與l負(fù)相關(guān)。T2dis由奪控距離l′決定,若藍(lán)方越靠近奪控點(diǎn),勝率越大,相對(duì)而言對(duì)紅方威脅也越大,T2dis與l′負(fù)相關(guān)。綜上,將距離威脅Tdis計(jì)算為
Tdis=(T1dis+T2dis)2=121-lr+dd′·1l′, l≤r
12dd′·1l′, lgt;r(4)
式中:d和d′分別代表藍(lán)方通過普通地形(如平原、草地等)和特殊地形(如森林、一級(jí)公路、二級(jí)公路、城鎮(zhèn)居民地等)的損耗系數(shù),通常dlt;d′。在相同奪控距離l′下,藍(lán)方在普通地形上損耗更少,能更快達(dá)到奪控點(diǎn),對(duì)紅方的毀傷率也更大,故設(shè)置威脅度與d正相關(guān)。反過來,藍(lán)方在特殊地形上消耗更多,對(duì)紅方威脅更小,故設(shè)置威脅度與d′反相關(guān)。
(2) 速度威脅指標(biāo)量化。
情形 1" 對(duì)戰(zhàn)斗機(jī)而言,速度越快,威脅越大,但對(duì)坦克而言則相反。根據(jù)文獻(xiàn)[32],在對(duì)抗?fàn)顟B(tài)時(shí),靜止的坦克可能有較強(qiáng)的攻擊意圖,命中率也最高,威脅度為1;當(dāng)坦克速度較低時(shí),威脅度較高,趨于1;當(dāng)坦克加速運(yùn)動(dòng)時(shí),其對(duì)紅方打擊意圖較弱,命中率逐漸下降,當(dāng)速度超出其準(zhǔn)確射擊速度閾值V時(shí),命中率幾乎為0,故此時(shí)的速度威脅為0。假設(shè)|v|代表算子的行進(jìn)速度大小,則將行進(jìn)速度威脅T1vel量化為
T1vel=1-|v|Ve2,|v|≤V
0,|v|gt;V(5)
情形 2" 算子的速度威脅還與雙方相對(duì)速度(雙方在單位時(shí)間內(nèi)相對(duì)位移的大?。┯嘘P(guān)。已知坦克在靜止時(shí)命中率最高,但隨著速度加快會(huì)逐漸降低。因此,藍(lán)方相對(duì)于紅方速度越快,威脅越小,屬于反相關(guān),而紅方相對(duì)于藍(lán)方的速度越快,受到的威脅越大,屬于正相關(guān)。令|v|和|v′|分別代表藍(lán)方和紅方的行進(jìn)速度大小,則將藍(lán)方的相對(duì)速度威脅量化為
T2vel=|v′||v|(6)
綜合考慮①和②兩種情況構(gòu)建速度威脅量化函數(shù),其中dV=|v|-|v′|:
Tvel=f(T1vel,T2vel)=1-dVV2, dV≤V
0, dVgt;V(7)
當(dāng)雙方相對(duì)速度差超出射擊閾值時(shí),某一方對(duì)另一方的速度威脅都為0,而當(dāng)相對(duì)速度在射擊閾值范圍內(nèi)時(shí),不論藍(lán)方行進(jìn)速度是高于還是低于紅方速度,式(7)都滿足其速度越快,威脅越低的實(shí)際情形,即考慮了雙方相對(duì)速度的式(7)是科學(xué)合理的。
(3) 角度威脅量化
通常,坦克的角度威脅與攻擊角和防御角有關(guān),但針對(duì)不處于同一水平面的坦克算子,應(yīng)從立體空間考慮,故基于各自所處的高程度量角度威脅,如圖2所示。垂直攻擊角度是0°到90°之間,故可由雙方水平距離l″與藍(lán)方相對(duì)于紅方的高程差決定角度威脅函數(shù),如下所示:
Tang=arctanl″90(8)
(4) 攻擊能力威脅量化
綜合7項(xiàng)參數(shù)計(jì)算坦克算子的攻擊能力威脅度[19]:機(jī)動(dòng)能力Cap1、武器系統(tǒng)攻擊能力Cap2(攜帶不同類型彈藥的打擊能力)、偵察能力Cap3、操縱效能系數(shù)ρ1、載彈系數(shù)ρ2、行程系數(shù)ρ3、電子對(duì)抗系數(shù)ρ4。各項(xiàng)參數(shù)可根據(jù)實(shí)際情況進(jìn)行設(shè)置或調(diào)整,第4節(jié)仿真實(shí)驗(yàn)中設(shè)置:Cap1=6、Cap2=Cap3={1,0.5,3}、ρ1=ρ2=ρ4=1、ρ2=3。
Tatt=ln Cap1+ln∑Cap2+1+
ln ∑Cap3ρ1ρ2ρ3ρ4(9)
(5) 防御能力威脅量化
不同類型的裝甲在裝甲防護(hù)、形體防護(hù)、偽裝防護(hù)、主動(dòng)防護(hù)、防后效、三防等性能上存在差異,即防御能力由裝甲類型決定。簡(jiǎn)便起見,此處直接根據(jù)裝甲類型量化防御能力進(jìn)行量化:復(fù)合裝甲:Tdef=1;重型裝甲:Tdef=0.7;中型裝甲:Tdef=0.5;輕型裝甲:Tdef=0.3;無裝甲:Tdef=0。
(6) 地形通視威脅量化
坦克是直瞄武器,藍(lán)方高程、紅方高程、以及雙方之間的地形高程關(guān)系到雙方能否通視,并直接影響到藍(lán)方能否打擊到紅方,以及對(duì)紅方打擊所造成的毀傷程度,因此地形通視是坦克威脅評(píng)估的重要因素之一。
在直瞄射擊時(shí),令藍(lán)方高程為h,紅方高程為h′,雙方中間地形的最高高程為H,給定兩個(gè)通視威脅參數(shù)t1,t2∈[0,1],且t1lt;t2,后續(xù)第4節(jié)的仿真實(shí)驗(yàn)中設(shè)置:t1=0,t2=0.2。分析4種通視情況:① 當(dāng)H≥h∧H≥h′時(shí),雙方不能通視,通視威脅為0;② 當(dāng)H≥h∧H≤h′時(shí),雙方可通視,具備一定威脅,但紅方高程高于藍(lán)方,故威脅度較小,視為[0,t1];③ 當(dāng)H≤h∧H≤h′時(shí),雙方可通視,對(duì)紅方威脅較大,視為[t2,1];④ 當(dāng)H≤h∧H≥h′時(shí),雙方可通視,且藍(lán)方高程大于紅方高程,此時(shí)極具威脅,視為1。便于理解,給出這4種通視情況說明簡(jiǎn)圖,如圖3所示。
當(dāng)雙方不處于同一直線時(shí),紅方可能遭受間瞄射擊,此時(shí)不受地形通視影響,視為[t1,t2]。綜上分析,地形通視威脅指數(shù)如下:
Tele=
0, H≥h∧H≥h′
[0,t1], h≤Hlt;h′
[t1, t2],間瞄射擊
[t2,1], Hlt;h∧Hlt;h′
1, h′≤Hlt;h(10)
(7) 所處環(huán)境指標(biāo)威脅量化
城市作戰(zhàn)中,坦克可在平坦公路快速行進(jìn),也可在建筑物、綠化帶周圍進(jìn)行隱蔽。本文討論的兵棋推演系統(tǒng)中包括一級(jí)公路、二級(jí)公路、城鎮(zhèn)居民區(qū)。公路級(jí)別越高,算子移動(dòng)越快,能更快到達(dá)奪控點(diǎn),威脅越大,且若藍(lán)方隱蔽,既不利于攻擊,也可更準(zhǔn)確地實(shí)施打擊,威脅度明顯增強(qiáng)。為此,
綜合3種地形條件定義所處環(huán)境威脅指數(shù)如下:
Tenv=w1h1+w2h2+w3r(11)
其中,w1、w2、w3是一級(jí)公路、二級(jí)公路和城鎮(zhèn)居民的環(huán)境威脅系數(shù),第4節(jié)仿真實(shí)驗(yàn)中設(shè)置:w1=0.25,w2=0.35,w3=0.4,h1、h2、r是用于表示藍(lán)方是否位于一級(jí)公路、二級(jí)公路或城鎮(zhèn)居民區(qū)的布爾型變量,若檢測(cè)到藍(lán)方處于對(duì)應(yīng)環(huán)境,則賦值為1,否則為0。比如,若藍(lán)方位于一級(jí)公路,則Tenv=1×0.25+0×0.35+0×0.4=0.25。
3" TWSAC智能決策技術(shù)
3.1" TWMADM與SAC的融合機(jī)制
針對(duì)知識(shí)驅(qū)動(dòng)的智能體的弱靈活性和對(duì)歷史推演經(jīng)驗(yàn)的強(qiáng)依賴性,以及傳統(tǒng)RL算法驅(qū)動(dòng)的智能體樣本效率低和收斂速度慢的問題,構(gòu)建TWMADM與SAC的融合智能決策模型,如圖4所示。該融合模型的關(guān)鍵是在SAC策略學(xué)習(xí)框架中充分利用TWMADM獲得的威脅度評(píng)估結(jié)果。包括:① 預(yù)先對(duì)威脅等級(jí)越高的算子設(shè)置更高的獎(jiǎng)勵(lì)回報(bào),使SAC訓(xùn)練過程中獲得的獎(jiǎng)勵(lì)根據(jù)威脅排序結(jié)果動(dòng)態(tài)更新,以此加快策略收斂速度,提高智能體的行動(dòng)有效性和最終勝率;② 將威脅等級(jí)劃分結(jié)果作為SAC學(xué)習(xí)到射擊動(dòng)作后系統(tǒng)選擇射擊算子的依據(jù),減少TWMADM模塊的執(zhí)行頻次,使全局博弈時(shí)長(zhǎng)進(jìn)一步縮短。下面,以SAC單輪學(xué)習(xí)為例,簡(jiǎn)要闡述威脅評(píng)估模塊和智能融合模塊的運(yùn)作機(jī)制。
(1) 基于TWMADM的威脅評(píng)估模塊:首先,從各角度獲取兵棋推演環(huán)境中藍(lán)方算子的距離、速度、角度、高度、厚度等各項(xiàng)性能指標(biāo)及其所處環(huán)境等對(duì)紅方算子具有威脅的原始數(shù)據(jù)。然后,對(duì)這些數(shù)據(jù)進(jìn)行歸類、表征和表格化預(yù)處理,再利用第2節(jié)給出的各個(gè)威脅指標(biāo)量化模型計(jì)算藍(lán)方算子的距離威脅度等7項(xiàng)威脅指標(biāo)量化值,并構(gòu)建二維威脅評(píng)估信息系統(tǒng)。之后,利用TWMADM對(duì)該信息系統(tǒng)進(jìn)行處理和計(jì)算,輸出藍(lán)方算子的3類威脅等級(jí)劃分結(jié)果和綜合威脅排序結(jié)果,并存儲(chǔ)到經(jīng)驗(yàn)數(shù)據(jù)緩存池,作為系統(tǒng)選擇射擊目標(biāo)和SAC策略學(xué)習(xí)過程中更新動(dòng)作獎(jiǎng)勵(lì)的主要依據(jù)。
(2) TWMADM和SAC的融合模塊:在當(dāng)前時(shí)間步驟中,SAC根據(jù)緩存池中的先驗(yàn)知識(shí)和獎(jiǎng)勵(lì)更新規(guī)則進(jìn)行策略學(xué)習(xí),輸出智能體的行動(dòng)策略,智能體執(zhí)行完動(dòng)作后引發(fā)環(huán)境變化,此時(shí)再根據(jù)環(huán)境更新狀態(tài)和獎(jiǎng)勵(lì)更新規(guī)則更新當(dāng)前動(dòng)作生成的獎(jiǎng)勵(lì),該獎(jiǎng)勵(lì)指引SAC在下一個(gè)時(shí)間步驟中的策略生成。由于獎(jiǎng)勵(lì)更新規(guī)則中預(yù)設(shè)了射擊威脅度越高的算子得到的獎(jiǎng)勵(lì)會(huì)越高,因此當(dāng)SAC學(xué)習(xí)到射擊動(dòng)作時(shí),智能體會(huì)優(yōu)先射擊威脅度最高的算子。而又由于正域中的算子的威脅度最高,故在若干個(gè)時(shí)間步驟中,設(shè)置智能體直接按照緩存池中TWMADM獲得的局部威脅排序結(jié)果對(duì)正域中的算子進(jìn)行依次射擊,直至正域中的算子都被射擊完畢再重新啟動(dòng)TWMADM模塊,如此可避免在每個(gè)時(shí)間步驟中都運(yùn)行TWMADM,從而提升融合算法的執(zhí)行效率。
為更清晰地展示SAC在融合模型的主要作用,給出以強(qiáng)化學(xué)習(xí)SAC框架為主的融合模型,如圖5所示,包含融合TWMADM的SAC預(yù)訓(xùn)練經(jīng)驗(yàn)存儲(chǔ)模塊、actor策略網(wǎng)絡(luò)更新模塊、critic評(píng)估網(wǎng)絡(luò)更新模塊。其中,預(yù)訓(xùn)練模塊已在圖4及其相應(yīng)文字中有詳細(xì)描述,此處不再贅述,僅簡(jiǎn)要介紹actor和critic網(wǎng)絡(luò)更新模塊。
在critic網(wǎng)絡(luò)的動(dòng)作價(jià)值評(píng)估模塊中,兩個(gè)critic目標(biāo)網(wǎng)絡(luò)評(píng)估actor網(wǎng)絡(luò)生成動(dòng)作at+1的價(jià)值,并輸出其中的最小值,根據(jù)該最小動(dòng)作價(jià)值和actor網(wǎng)絡(luò)計(jì)算動(dòng)作熵,利用修正貝爾曼輔助算子計(jì)算狀態(tài)價(jià)值V(st+1),再結(jié)合折扣因子γ和動(dòng)作獎(jiǎng)勵(lì)r(st,at)計(jì)算軟Q值Qs,該值類似于監(jiān)督學(xué)習(xí)中的標(biāo)簽。與此同時(shí),兩個(gè)critic網(wǎng)絡(luò)根據(jù)原環(huán)境和原動(dòng)作at估計(jì)動(dòng)作價(jià)值,輸出Q1和Q2,并與Qs對(duì)比,計(jì)算誤差值Qs1和Qs2,以該最小化差值為優(yōu)化目標(biāo)進(jìn)行訓(xùn)練,穩(wěn)定迭代更新critic網(wǎng)絡(luò)。在actor網(wǎng)絡(luò)的策略更新模塊中,actor根據(jù)環(huán)境狀態(tài)和獎(jiǎng)勵(lì)更新規(guī)則生成相應(yīng)動(dòng)作,同步計(jì)算動(dòng)作熵,持續(xù)更新的critic網(wǎng)絡(luò)使動(dòng)作價(jià)值估計(jì)逐漸收斂并接近于Qs,因而可利用KL散度評(píng)估actor網(wǎng)絡(luò)輸出的策略損失,從而反向更新actor網(wǎng)絡(luò)輸出下一個(gè)時(shí)間步驟的新動(dòng)作。
3.2" TWSAC算法
TWMADM與SAC的融合模型利用威脅等級(jí)分類的先驗(yàn)知識(shí)降低局部模塊運(yùn)行頻次,以提高融合模型的運(yùn)行效率,利用威脅排序的先驗(yàn)知識(shí)不斷更新動(dòng)作獎(jiǎng)勵(lì),以提高SAC的收斂速率和動(dòng)作選擇準(zhǔn)確率,通過這兩個(gè)操作縮短全局博弈時(shí)長(zhǎng),提升智能體博弈勝率。算法1給出了融合TWMADM和SAC的智能決策算法偽碼,超參設(shè)置情況如表3所示。CR用于存儲(chǔ)TWMADM評(píng)估藍(lán)方算子的威脅等級(jí)分類結(jié)果{POS(X),BND(X),NEG(X)}和威脅排序結(jié)果Rank。
算法1" 融合TWMADM和SAC的智能決策算法TMSAC
Begin
For oi∈U,ck∈C do
計(jì)算{Tdis,Tvel,Tang,Tatt,Tdef,Tele,Tenv}
計(jì)算[oi]R、P(X|[oi]R)和λiΔ
SymbolQC@
End for
For oi∈U do
計(jì)算L(aP|[oi]R)
If L(aP|[oi]R)=minΔ=P,B,N(L(aΔ|[oi]R))Then oi∈POS(X)
Else If L(aB|[oi]R)=minΔ=P,B,N(L(aΔ|[oi]R))Then oi∈BND(X)
Else oi∈NEG(X)
End if
End for
For oi,oj∈U ck∈C do
If oi,oj∈POS(X)or BND(X)or NEG(X) and AL(oi)≥AL(oj) Then oifoj
Else If oi∈POS(X) or(oi∈BND(X) and oj∈NEG(X)) Then oifoj
Else oipoj
End if
End for
Rank←oifojf…fol
CR←POS(X),BND(X),NEG(X),Rank
初始化參數(shù)向量 ,-,θ,,CR
For 每次迭代 do
For 每個(gè)環(huán)境步驟 do
at~π(at|st)
st+1~p(st+1|st,at)
D←D∪{st,at,r(st,at),st+1}
End for
For 每個(gè)梯度步驟 do
←-λV
SymbolQC@ ︿JV()
θi←θi-λQ
SymbolQC@ ︿θiJQ(θi) for i={1,2}
←-λπ
SymbolQC@ ︿φJ(rèn)π()
-←τ+(1-τ)-
End for
Update rt(CR)
End for
End
表3" SAC的超參設(shè)置
Table 3" Hyperparameter settings for SAC
超參
取值
GAMMA
0.997
S_DIM
4
A_DIM
7
MINI_ENTROPY
0.1
BATCH_SIZE
32
LEARNING_RATE
0.001
DECAY
0.995
4" 實(shí)驗(yàn)評(píng)估與比較
4.1" 實(shí)驗(yàn)環(huán)境和獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)
(1) 實(shí)驗(yàn)環(huán)境介紹
兵棋推演系統(tǒng)是一類典型的智能博弈仿真平臺(tái),通常包括算子、地圖、規(guī)則和想定4個(gè)基本組成要素。選擇典型的戰(zhàn)術(shù)級(jí)智能兵棋推演系統(tǒng)“先勝1號(hào)”作為實(shí)驗(yàn)環(huán)境。該系統(tǒng)針對(duì)陸戰(zhàn)場(chǎng)裝甲合成(部)分隊(duì)紅藍(lán)博弈對(duì)抗進(jìn)行功能設(shè)計(jì),為規(guī)則驅(qū)動(dòng)的和基于強(qiáng)化學(xué)習(xí)的智能體的研發(fā)提供支撐環(huán)境[19,34]。系統(tǒng)涵蓋地圖編輯、算子管理、規(guī)則編輯、想定編輯、推演設(shè)置、數(shù)據(jù)分析和系統(tǒng)功能模塊,可實(shí)現(xiàn)對(duì)作戰(zhàn)行動(dòng)序列自動(dòng)生成與智能指揮官模型算法的效能評(píng)估。
實(shí)驗(yàn)想定:在“先勝1號(hào)”推演平臺(tái)中進(jìn)行仿真實(shí)驗(yàn),平臺(tái)主界面(主戰(zhàn)區(qū)域)為如圖6所示的正六邊形網(wǎng)格城鎮(zhèn)居民地地圖(網(wǎng)格數(shù)目:66×51),博弈雙方為紅方和受藍(lán)方各10個(gè)坦克算子,每個(gè)算子代表陸軍裝甲合成營(yíng)的最小作戰(zhàn)單元,雙方算子在區(qū)域內(nèi)進(jìn)行博弈對(duì)抗,一方任意一個(gè)算子率先搶占奪控點(diǎn)或者一方擊毀另一方全部算子的為勝利方。詳情:① 各網(wǎng)格上方標(biāo)有位置坐標(biāo),坐標(biāo)為1 224(“12”代表橫坐標(biāo),“24”代表縱坐標(biāo))且用紅旗標(biāo)注的網(wǎng)格為唯一主奪控點(diǎn)。② 各網(wǎng)格下方標(biāo)有高程信息,不同網(wǎng)格顏色代表不同高程,顏色越深代表高程越高,相鄰色塊高程相差10 m。③ 有房子圖標(biāo)的網(wǎng)格代表城鎮(zhèn)居民地,用于算子隱蔽和防御。④ 黑色和紅色線條分別代表一級(jí)公路和二級(jí)公路。⑤ 系統(tǒng)設(shè)置了每個(gè)算子的初始油量,算子每移動(dòng)一格消耗一定油量,且高程越大,油耗越多。⑥ 針對(duì)六宮格地形,算子態(tài)勢(shì)信息包括狀態(tài)空間(位置坐標(biāo)和實(shí)時(shí)狀態(tài))和動(dòng)作空間(機(jī)動(dòng)狀態(tài)和射擊狀態(tài))。實(shí)時(shí)狀態(tài)包括機(jī)動(dòng)、靜止和射擊;機(jī)動(dòng)狀態(tài)包括向“東、西、東北、西北、東南、西南”方向移動(dòng),外加靜止?fàn)顟B(tài)共7種,用0~6表示;射擊狀態(tài)包括射擊和未射擊,用0和1表示。⑦ 算子瞄準(zhǔn)射擊時(shí),被瞄準(zhǔn)算子上方呈現(xiàn)十字符號(hào),若算子被擊毀則在地圖上消失。
(2) 獎(jiǎng)勵(lì)函數(shù)設(shè)置
在智能體的策略優(yōu)化訓(xùn)練過程中,獎(jiǎng)勵(lì)起到十分重要的監(jiān)督和引導(dǎo)作用。以往系統(tǒng)只在雙方達(dá)到勝利或失敗條件時(shí)設(shè)置獎(jiǎng)勵(lì),而在訓(xùn)練過程中未設(shè)置任何獎(jiǎng)勵(lì),存在稀疏獎(jiǎng)勵(lì)問題,影響算法收斂速度。為此,預(yù)先設(shè)置獎(jiǎng)勵(lì)更新規(guī)則,如表4所示。表中r代表上一動(dòng)作的獎(jiǎng)勵(lì);T代表被擊中算子的綜合威脅度,即TWMADM獲得的對(duì)方算子的威脅排列序號(hào),取值為1,2,3,…,9,10。該規(guī)則對(duì)Agent在獲勝之前每多探索一個(gè)回合都設(shè)置負(fù)向獎(jiǎng)勵(lì),以防止Agent在探索過程中陷入局部最優(yōu)。訓(xùn)練過程中,算法會(huì)根據(jù)雙方算子實(shí)時(shí)狀態(tài)、與奪控點(diǎn)之間的距離狀態(tài)、以及藍(lán)方算子的威脅情況不斷更新動(dòng)作獎(jiǎng)勵(lì)[16,19],引導(dǎo)智能體優(yōu)先選擇威脅度最高的算子進(jìn)行射擊,從而實(shí)現(xiàn)快速收斂的同時(shí)更快地取勝。
4.2" 實(shí)驗(yàn)驗(yàn)證與比較
在兵棋推演系統(tǒng)中開展博弈對(duì)抗實(shí)驗(yàn),對(duì)基于TMSAC融合算法的和基于其他6種RL相關(guān)算法的智能體的綜合表現(xiàn)進(jìn)行分析和對(duì)比。簡(jiǎn)要介紹參與對(duì)比的7種AI算法:① TWMADM與SAC的融合算法(簡(jiǎn)稱為TMSAC);② TWMADM與當(dāng)前流行的PPO的融合算法(簡(jiǎn)稱為TMPPO);③ 未利用TWMADM中分類結(jié)果的退化版TMSAC算法(簡(jiǎn)稱為M1SAC);④ 文獻(xiàn)[19]提出的MADM與SAC的融合算法(簡(jiǎn)稱為M2SAC);⑤ MADM與PPO的融合算法[19](簡(jiǎn)稱為M2PPO);⑥ 純強(qiáng)化學(xué)習(xí)SAC算法(簡(jiǎn)稱為SAC);⑦ 純強(qiáng)化學(xué)習(xí)PPO算法(簡(jiǎn)稱為PPO)。實(shí)驗(yàn)運(yùn)行環(huán)境為:Win10,AMD Ryzen,CPU R7-4800H 2.90 GHz和16.0 GB內(nèi)存,Python編程語言,開發(fā)平臺(tái)為Pycharm 2020.2.3(Community Edition)。為保證實(shí)驗(yàn)公平性,所有AI算法均利用熵權(quán)法[19]計(jì)算威脅指標(biāo)權(quán)重,再通過式(4)~式(11)計(jì)算各指標(biāo)的威脅度,且均先在兵棋推演系統(tǒng)中與基于規(guī)則的AI進(jìn)行700局博弈對(duì)抗訓(xùn)練。
4.2.1" 算法訓(xùn)練收斂速度比較
訓(xùn)練效果對(duì)比如圖7所示。結(jié)果顯示,TMSAC比其他AI算法更快收斂,大約在第200局~第250局時(shí)基本達(dá)到穩(wěn)定狀態(tài)(紅方每局能夠獲勝的最高獎(jiǎng)勵(lì)值在33附近,獎(jiǎng)勵(lì)值的計(jì)算如表4所示。其他算法收斂更加滯后,收斂最慢的是純強(qiáng)化學(xué)習(xí)SAC和PPO算法,收斂速率排序情況大致如下:TMSACfTMPPOfM2PPOfM1SAC≈M2SACfSACfPPO。據(jù)此可知,在SAC算法中融入TMMADM獲得的先驗(yàn)知識(shí)可有效提升樣本利用率和智能體的訓(xùn)練收斂速度。
4.2.2" 算法綜合性能比較
在推演系統(tǒng)中將基于上述7個(gè)AI算法的紅方智能體分別與基于規(guī)則的藍(lán)方進(jìn)行200局的博弈對(duì)抗,并通過以下6項(xiàng)指標(biāo)展示這些AI算法的博弈效果和綜合性能:① 勝率:紅方獲勝局?jǐn)?shù)在當(dāng)前累計(jì)博弈局?jǐn)?shù)中的占比,比如(10,90)表示在當(dāng)前10局中紅方勝率是90%,即紅方獲勝9局。② 獲勝局?jǐn)?shù):當(dāng)前累計(jì)局?jǐn)?shù)中紅方獲勝的總局?jǐn)?shù),比如(10,9)表示當(dāng)前10局中紅方獲勝9局。③ 總得分:當(dāng)前累計(jì)博弈局中紅方獲勝的總得分。分?jǐn)?shù)判定規(guī)則:每局結(jié)束后,若紅方獲勝,則根據(jù)藍(lán)方傷亡數(shù)量分“多”“適量”“少”3個(gè)等級(jí)判定紅方得分分別為70分、60分和50分,若紅方未獲勝則不得分。④ 擊殺得分:當(dāng)前累計(jì)博弈局中紅方擊殺藍(lán)方一定數(shù)量獲得的總得分。分?jǐn)?shù)判定規(guī)則:每局結(jié)束后,不論紅方是否獲勝都統(tǒng)計(jì)擊殺藍(lán)方的數(shù)量,根據(jù)該數(shù)量判定得分,擊殺1個(gè)、2個(gè)、3個(gè)分別得5分、10分、15分,4個(gè)及以上得20分。⑤ 存活得分:當(dāng)前累計(jì)博弈局中紅方存活一定數(shù)量獲得的總得分。分?jǐn)?shù)判定規(guī)則:每局結(jié)束后,不論紅方是否獲勝都統(tǒng)計(jì)紅方存活的數(shù)量,根據(jù)該數(shù)量判定得分,存活10個(gè)、9個(gè)、8個(gè)分別得30分、25分、20分,7個(gè)及以下得15分。⑥ 博弈時(shí)長(zhǎng):200個(gè)博弈局的總時(shí)長(zhǎng)。用二維表導(dǎo)出上述指標(biāo)的實(shí)驗(yàn)結(jié)果,再繪制折線圖(指標(biāo)①~⑤見圖8,指標(biāo)⑥見表5)。各算法用不同顏色實(shí)線和不同類型節(jié)點(diǎn)表示,其中用紅色實(shí)線和五角星節(jié)點(diǎn)標(biāo)記的是TMSAC融合算法的實(shí)驗(yàn)結(jié)果。
(1) 定性分析
分析圖8中各子圖可總結(jié)出以下結(jié)論:由圖8(a)可知,各AI算法在大約前50局的勝率波動(dòng)較大,之后穩(wěn)定在50%到80%之間,而全局上看,TMSAC的勝率明顯高于其他AI算法,大致排序?yàn)椋篢MSACfTMPPOfM1SAC≈M2SAC≈M2PPOfSACfPPO。由圖8(b)和圖8(c)可知,這個(gè)排序情況同樣也體現(xiàn)在獲勝局?jǐn)?shù)和總得分上,這與上述勝率、獲勝局?jǐn)?shù)和總得分的設(shè)置規(guī)則相吻合。此外,在圖8(a)中,需要說明的是由于首局累積獲勝次數(shù)為1次或0次,故勝率只有1或0兩種結(jié)果。
從圖8(d)看出,各算法在不同階段的相對(duì)表現(xiàn)不同,可分3個(gè)階段概括:前期階段(約前50局),各算法累計(jì)下來的得分相差很小;中期階段(約50局~120局),隨著局?jǐn)?shù)增多,各算法差異逐漸明顯,總體趨勢(shì)為:TMSACfTMPPOfM2PPOfM1SAC≈M2SACfSACfPPO;后期階段,個(gè)別算法之間的差異相較于中期階段又變得模糊,大致趨勢(shì)如下:TMSACfTMPPOfM2PPO≈M1SAC≈M2SACf" SAC≈PPO。
從圖8(e)來看,各算法在整個(gè)博弈過程的相對(duì)表現(xiàn)差異不大,但根據(jù)實(shí)驗(yàn)結(jié)果數(shù)據(jù)并放大圖8(e),也可分3個(gè)階段進(jìn)行比較:前期階段(約前50局),各算法的累計(jì)存活得分相差非常小;中期階段(約50局~140局),總體表現(xiàn)為:TMSACfTMPPO≈M2PPOfM1SACfM2SAC≈SACf PPO;后期階段(140局到200局),總體表現(xiàn)如下:TMSACf TMPPO≈M2PPO≈M1SAC≈M2SACfSACfPPO。
根據(jù)上述實(shí)驗(yàn)結(jié)果可得出下幾點(diǎn)結(jié)論:第一,本文所提算法TMSAC在勝率、獲勝次數(shù)、總得分、存活得分以及擊殺得分這5個(gè)方面的表現(xiàn)都明顯優(yōu)于其他算法,這也說明TWMADM模型的融入切實(shí)提升了基于SAC的智能體的博弈對(duì)抗能力。第二,能夠同步獲得對(duì)方算子威脅分類和排序先驗(yàn)知識(shí)的TWMADM和強(qiáng)化學(xué)習(xí)的融合算法性能最優(yōu),只能獲得威脅排序先驗(yàn)知識(shí)的MADM與強(qiáng)化學(xué)習(xí)的融合算法次之,而既未融入MADM又未融入TWMADM的純強(qiáng)化學(xué)習(xí)算法最不理想。第三,M1SAC和M2SAC在各項(xiàng)指標(biāo)上的表現(xiàn)都不相上下,這說明未利用分類結(jié)果的退化版TWMADM與文獻(xiàn)[19]提出只能排序的MADM對(duì)算法的影響相差不多,也間接說明退化版TWMADM和MADM的威脅評(píng)估能力相當(dāng),這一點(diǎn)與兩個(gè)模型的作用特點(diǎn)相吻合。
(2) 定量分析
考慮實(shí)驗(yàn)結(jié)果數(shù)據(jù)較多,從200個(gè)博弈局中以10為步長(zhǎng)提取10個(gè)節(jié)點(diǎn)的勝率展示在表5中,同時(shí)也將各算法完成200個(gè)博弈局所耗費(fèi)的總時(shí)長(zhǎng)展示在表6中。
由表5可知:① TMSAC在博弈中途的10個(gè)節(jié)點(diǎn)處的勝率普遍接近或超過80%,且相對(duì)穩(wěn)定,平均勝率達(dá)到81%,斷層式高于位居第二的TMPPO及其他算法,這再次說明了TMSAC的算法優(yōu)越性,也說明了TWMADM與SAC融合優(yōu)勢(shì)要比與PPO的融合優(yōu)勢(shì)更高。② 從變化過程看,隨著博弈局?jǐn)?shù)的增加,TMPPO與其他M1SAC、M2SAC、M2PPO的勝率差距逐漸拉開,這再次說明RL與TWMADM的融合算法要比與MADM的融合模型表現(xiàn)更好。③ 總體上,TWMADM、MADM與RL的融合算法的勝率普遍達(dá)到70%以上,而純RL算法只在50%~60%左右徘徊,說明利用了先驗(yàn)知識(shí)的融合算法比純RL算法更優(yōu)。不過,仔細(xì)觀察發(fā)現(xiàn),SAC和PPO分別在大約80局和60局之后呈穩(wěn)步上升趨勢(shì),由此推測(cè),隨著局?jǐn)?shù)的增多,純RL算法的學(xué)習(xí)能力漸增,與融合算法的差距也逐漸縮小。
從表6得出結(jié)論:① TMSAC完成200局的總博弈時(shí)長(zhǎng)要略少于其他算法,說明TMSAC在獲得較高勝率的同時(shí)相對(duì)也能更快取勝。② 前5種融合算法的博弈時(shí)長(zhǎng)普遍低于后兩種純強(qiáng)化學(xué)習(xí)算法約6~10 min,原因是融合算法有效利用了TWMADM或MADM獲得的藍(lán)方算子的威脅評(píng)估結(jié)果這些先驗(yàn)知識(shí),從而提高了樣本利用率,減少了智能體的探索次數(shù)和訓(xùn)練時(shí)間,縮短了整體博弈時(shí)長(zhǎng)。③ 未利用威脅分類結(jié)果的退化版TMSAC,即M1SAC,其博弈總時(shí)長(zhǎng)比利用了威脅分類結(jié)果的TMSAC和TMPPO多2 min左右,說明威脅等級(jí)分類結(jié)果這一先驗(yàn)知識(shí)的利用可以有效提升博弈效率。
本節(jié)實(shí)驗(yàn)展示了TMSAC在典型兵棋推演系統(tǒng)中的應(yīng)用效果,并證明了TMSAC算法相比于其他融合算法和純強(qiáng)化學(xué)習(xí)算法的優(yōu)越性,這歸功于TWMADM與SAC的有效融合。實(shí)驗(yàn)也說明TWMADM獲得的威脅評(píng)估信息能夠改善SAC的獎(jiǎng)勵(lì)稀疏問題,提升算法的訓(xùn)練收斂速度和智能體的博弈對(duì)抗勝率。
5" 結(jié)束語
首次構(gòu)建TWMADM與強(qiáng)化學(xué)習(xí)相融合的智能決策模型,利用TWMADM模型獲得的先驗(yàn)知識(shí)指導(dǎo)SAC在學(xué)習(xí)過程中的獎(jiǎng)勵(lì)更新,提出了TMSAC智能決策算法,并將其應(yīng)用于典型兵棋推演系統(tǒng)中智能體的開發(fā),有效提升了算法的訓(xùn)練收斂速度和智能體的博弈勝率,并縮短了整體博弈時(shí)長(zhǎng)。相比于已有的MADM與RL的融合算法和純RL算法,充分利用了威脅等級(jí)分類和綜合威脅排序先驗(yàn)知識(shí)的TMSAC在博弈過程中的綜合性能更優(yōu)。未來,將進(jìn)一步考慮將不完備混合信息系統(tǒng)的改進(jìn)版TWMADM與RL算法相結(jié)合,探究其在非完全信息環(huán)境下的兵棋推演等智能博弈場(chǎng)景的應(yīng)用效果。
參考文獻(xiàn)
[1]" 李琛, 黃炎焱, 張永亮, 等. Actor-Critic框架下的多智能體決策方法及其在兵棋上的應(yīng)用[J]. 系統(tǒng)工程與電子技術(shù), 2021, 43(3): 755762.
LI C, HUANG Y Y, ZHANG Y L, et al. Multi-agent decision-making method based on Actor-Critic framework and its application in wargame[J]. Systems Engineering and Electronics, 2021, 43(3): 755762.
[2] SILVER D, HUANG A, MADDISON C J, et al. Mastering the game of Go with deep neural networks and tree search[J]. Nature, 2016, 529(7587): 484489.
[3] 胡曉峰, 賀筱媛, 陶九陽. AlphaGo的突破與兵棋推演的挑戰(zhàn)[J]. 科技導(dǎo)報(bào), 2017, 35(21): 4960.
HU X F, HE X Y, TAO J Y. AlphaGo’s breakthrough and challenges of wargaming[J]. Science amp; Technology Review, 2017, 35(21): 4960.
[4] 孫宇祥, 彭益輝, 李斌, 等. 智能博弈綜述: 游戲AI對(duì)作戰(zhàn)推演的啟示[J]. 智能科學(xué)與技術(shù)學(xué)報(bào), 2022, 4(2): 157173.
SUN Y X, PENG Y H, LI B, et al. Overview of intelligent game: enlightenment of game AI to combat deduction[J]. Chinese Journal of Intelligent Science and Technology, 2022, 4(2): 157173.
[5] SILVER D, SCHRITTWIESER J, SIMONYAN K, et al. Mastering the game of go without human knowledge[J]. Nature, 2017, 550(7676): 354359.
[6] ESPEHOLT L, SOYER H, MUNOS R, et al. IMPALA: scalable distributed deep-RL with importance weighted actor-learner architectures[C]∥Proc.of the 35th International Conference on Machine Learning, 2018: 14071416.
[7] BARRIGA N A, STANESCU M, BESOAIN F, et al. Improving RTS game AI by supervised policy learning, tactical search, and deep reinforcement learning[J]. IEEE Computational Intelligence Magazine, 2019, 14(3): 818.
[8] YE D H, LIU Z, SUN M F, et al. Mastering complex control in MOBA games with deep reinforcement learning[C]∥Proc.of the 34th AAAI Conference on Artificial Intelligence, 2020, 34(4): 66726679.
[9] JADERBERG M, CZARNECKI W M, DUNNING I, et al. Human-level performance in 3D multiplayer games with population-based reinforcement learning[J]. Science, 2019, 364(6443): 859865.
[10] 尹奇躍, 趙美靜, 倪晚成, 等. 兵棋推演的智能決策技術(shù)與挑戰(zhàn)[J]. 自動(dòng)化學(xué)報(bào), 2023, 49(5): 913928.
YIN Q Y, ZHAO M Q, NI W C, et al. Intelligent decision making technology andchallenge of wargame[J]. Acta Automatica Sinica, 2023, 49(5): 913928.
[11] NICOLAU M, PEREZ-LIEBANA D, O’NEI-LL M, et al. Evolutionary behavior tree approaches for navigating platform games[J]. IEEE Trans.on Computational Intelligence and AI in Games, 2017, 9(3): 227238.
[12] NAJAM-UL-LSLAM M, ZAHRA F T, JAFRI A R, et al. Auto implementation of parallel hardware architecture for Aho-Corasick algorithm[J]. Design Automation for Embbedded System, 2022, 26(1): 2953.
[13] 施偉, 馮旸赫, 程光權(quán), 等. 基于深度強(qiáng)化學(xué)習(xí)的多機(jī)協(xié)同空戰(zhàn)方法研究[J]. 自動(dòng)化學(xué)報(bào), 2021, 47(7): 16101623.
SHI W, FENG Y H, CHENG G Q, et al. Research on multi-aircraft cooperative air combat method based on deep reinforcement learning[J]. Acta Automatica Sinica, 2021, 47(7): 16101623.
[14] CHEN L, LIANG X X, FENG Y H, et al. Online intention recognition with incomplete information based on a weighted contrastive predictive coding model in wargame[J]. IEEE Trans.on Neural Networks and Learning Systems, 2023, 34(10): 75157528.
[15] 張振, 黃炎焱, 張永亮, 等. 基于近端策略優(yōu)化的作戰(zhàn)實(shí)體博弈對(duì)抗算法[J]. 南京理工大學(xué)學(xué)報(bào), 2021, 45(1): 7783.
ZHANG Z, HUANG Y Y, ZHANG Y L, et al. Battle entity confrontation algorithm based on proximal policy optimization[J]. Journal of Nanjing University of Science and Technology, 2021, 45(1): 7783.
[16] SUN Y X, YUAN B, ZHOU X Z, et al. Intelligent decision-making and human language communication based on deep reinforcement learning in a Wargame environment[J]. IEEE Trans.on Human-Machine Systems, 2023, 53(1): 201214.
[17] RUEDEN L V, MAYER S, BECKH K, et al. Informed machine learning: a taxonomy and survey of integrating prior knowledge into learning systems[J]. IEEE Trans.on Know-ledge and Data Engineering, 2021, 35(1): 614633.
[18] SUN Y X, YUAN B, ZHANG T, et al, Research andimplementation of intelligent decision based on a priori knowledge and DQN algorithms in wargame environment[J]. Electronics, 2020, 9(10): 1668.
[19] XUE Y F, SUN Y X, ZHOU J W, et al. Multi-attribute decision-making in wargames leveraging the entropy-weight method with deep reinforcement learning[J]. IEEE Trans.on Games, 2024, 16(1): 151161.
[20] YOON P K, HWANG C L, YOON K. Multiple attribute decision making: an introduction[M]. New York: Thousand Oaks Sage Publications, 1995.
[21] YAO Y Y. The superiority of three-way decisions in probabilistic rough set models[J]. Information Sciences, 2011, 181(6): 10801096.
[22] WANG W J, ZHAN J M, ZHANG C, et al. A regret-theory-based three-way decision method with a priori probability tole-rance dominance relation in fuzzy incomplete information systems[J]. Information Fusion, 2023, 89: 382396.
[23] ZHAN J M, JIANG H B, YAO Y Y. Three-way multi-attri-bute decision-making based on outranking relations[J]. IEEE Trans.on Fuzzy Systems, 2021, 29(10): 28442858.
[24] PENG L S, ZHANG T, ZHANG X Y, et al. Threat assessment for aerial targets based on three-way multi-criteria decision making[C]∥Proc.of the IEEE International Conference on Networking, Sensing and Control, 2021.
[25] PENG L S, ZHOU X Z, ZHAO J J, et al. Three-way multi-attribute decision making under incomplete mixed environments using probabilistic similarity[J]. Information Science, 2022, 614: 432463.
[26] HAARNOJA T, ZHOU A, ABBEEL P, et al. Soft Actor-Critic: off-policy maximum entropy deep reinforcement learning with a stochastic actor[C]∥Proc.of the 35th International Conference on Machine Learning, 2018.
[27] DE JESUS J C, KICH V A, KOLLING A H, et al. Soft actor-critic for navigation of mobile robots[J]. Journal of Intelligent amp; Robotic Systems, 2021, 102(2): 3142.
[28] 楊來義, 畢敬, 苑海濤. 基于SAC算法的移動(dòng)機(jī)器人智能路徑規(guī)劃[J]. 系統(tǒng)仿真學(xué)報(bào), 2023, 35(8): 17261736.
YANG L Y, BI J, YUAN H T. Intelligent path planning for mobile robots based on soft actor-critic algorithm[J]. Journal of System Simulation, 2023, 35(8): 17261736.
[29] 張建東, 王鼎涵, 楊啟明, 等. 基于分層強(qiáng)化學(xué)習(xí)的無人機(jī)空戰(zhàn)多維決策[J]. 兵工學(xué)報(bào), 2023, 44(6): 15471563.
ZHANG J D, WANG D H, YANG Q M, et al. Multi-dimensional decision-making for UAV air combat based on hierarchical rein-forcement learning[J]. Acta Armamentarii, 2023, 44(6): 15471563.
[30] 單麒源, 張智豪, 張耀心, 等. 基于SAC算法的礦山應(yīng)急救援智能車快速避障控制[J]. 黑龍江科技大學(xué)學(xué)報(bào), 2021, 31(1): 1420.
SHAN Q Y, ZHANG Z H, ZHANG Y X, et al. High speed obstacle avoidance control of mine emergency rescue intelligent vehicle based on SAC algorithm[J]. Journal of Heilongjiang University of Science and Technology, 2021, 31(1): 1420.
[31] 夏琳. 基于深度強(qiáng)化學(xué)習(xí)的海上作戰(zhàn)仿真推演決策方法研究[D]. 北京: 中國(guó)艦船研究院, 2023.
XIA L. Research ondecision making method of maritime combat simulation based on deep reinforcement learning[D]. Beijing: Chinese Journal of Ship Research, 2023.
[32] 趙燁南, 杜偉偉, 陳鐵健, 等. 基于集對(duì)分析的坦克多目標(biāo)威脅評(píng)估方法[J]. 火力與指揮控制, 2020, 45(6): 108112.
ZHAO Y N, DU W W, CHEN T J, et al. Multi-target threat assessment method of tank based on set pair analysis[J]. Fire Control amp; Command Control, 2020, 45(6): 108112.
[33] 張曉南, 王德泉, 楊俊峰. 坦克戰(zhàn)場(chǎng)目標(biāo)威脅評(píng)估方法[J]. 指揮信息系統(tǒng)與技術(shù), 2015, 6(1): 4548.
ZHANG X N, WANG D Q, YANG J F. Battlefield target threat assessment for tank[J]. Command Information System and Technology, 2015, 6(1): 4548.
[34] 孫宇祥, 李原白, 周勝, 等. 對(duì)抗環(huán)境下的智能兵棋系統(tǒng)設(shè)計(jì)及其關(guān)鍵技術(shù)[J]. 火力與指揮控制, 2024, 49(2): 3341.
SUN Y X, LI Y B, ZHOU S, et al. Design anel key technology of intelligent wargame system in adversary environment[J]. Fire Control amp; Command Control, 2024, 49(2): 3341.
作者簡(jiǎn)介
彭莉莎(1994―),女,博士,講師,主要研究方向?yàn)橹悄苄畔⑻幚砼c智能決策、三支決策。
孫宇祥(1990―),男,助理研究員,博士,主要研究方向?yàn)橹悄懿┺呐c決策。
薛宇凡(1998―),男,碩士,主要研究方向?yàn)橹悄鼙逋蒲荨?/p>
周獻(xiàn)中(1962―),男,教授,博士,主要研究方向?yàn)镃2 系統(tǒng)理論與技術(shù)、智能信息處理、智能人機(jī)交互。