閆雪飛, 李新明, 劉 東, 王壽彪
(裝備學(xué)院復(fù)雜電子系統(tǒng)仿真實(shí)驗(yàn)室, 北京 101416)
武器裝備體系(簡(jiǎn)稱為體系)作戰(zhàn)仿真研究一直是軍事領(lǐng)域的熱點(diǎn)和難點(diǎn),對(duì)于指導(dǎo)體系發(fā)展建設(shè)[1]、進(jìn)行使命能力論證[2]、開展系統(tǒng)需求評(píng)估、輔助戰(zhàn)場(chǎng)指揮決策等均具有重要的意義。網(wǎng)絡(luò)信息體系(network information system-of-systems,NISoS)被認(rèn)為是體系發(fā)展的高級(jí)形態(tài),雖然相關(guān)概念才剛提出,但卻引起了軍事專家的高度重視。目前,針對(duì)NISoS的基本概念、內(nèi)涵和架構(gòu)研究已形成共識(shí),對(duì)其基本形態(tài)也有了一個(gè)初步的認(rèn)識(shí),但對(duì)其更深層次的作戰(zhàn)機(jī)理研究則尚未起步,因此,迫切需要開發(fā)新的適合探索NISoS特征規(guī)律和概念演示的作戰(zhàn)仿真平臺(tái),對(duì)于NISoS的論證評(píng)估研究具有基礎(chǔ)性意義。
通過(guò)總結(jié)針對(duì)NISoS的相關(guān)研究成果,可知NISoS是指由基礎(chǔ)網(wǎng)、感知網(wǎng)、決策網(wǎng)、火力網(wǎng)、保障網(wǎng)共同組成的,通過(guò)集成各種信息共享網(wǎng)絡(luò),將陸、海、空、天、電、網(wǎng)多維戰(zhàn)場(chǎng)空間融為一體的大規(guī)模武器裝備體系?;炯軜?gòu)由基礎(chǔ)網(wǎng)、感知網(wǎng)、決策網(wǎng)、火力網(wǎng)、保障網(wǎng)組成,每個(gè)子網(wǎng)又由相應(yīng)類型的武器裝備聚合而成,這是與一般武器裝備體系的主要區(qū)別,如圖1所示。另外,其基本內(nèi)涵為網(wǎng)絡(luò)中心、信息主導(dǎo)與體系支撐,而如何以網(wǎng)絡(luò)為中心、以信息為主導(dǎo)、以體系為支撐則是需要進(jìn)一步研究的內(nèi)容。NISoS也是一個(gè)武器裝備體系,因此NISOS是一個(gè)復(fù)雜巨系統(tǒng),同時(shí)也是一個(gè)復(fù)雜適應(yīng)系統(tǒng),而multi-Agent系統(tǒng)(multi-Agent system,MAS)是復(fù)雜系統(tǒng)以及復(fù)雜適應(yīng)系統(tǒng)研究的主要渠道[3-4],此外,NISOS的復(fù)雜性、非線性、涌現(xiàn)性等體系特征也特別適合于采用MAS進(jìn)行探索,因此,基于MAS的建模仿真是NISOS試驗(yàn)研究的最佳選擇。但NISoS的極端復(fù)雜性則是制約將MAS技術(shù)進(jìn)行成功移植的一大挑戰(zhàn),其中,體系驅(qū)動(dòng)的核心——Agent認(rèn)知決策技術(shù),則是最關(guān)鍵也是最棘手的環(huán)節(jié)。
圖1 NISoS架構(gòu)示意圖Fig.1 Schematic diagram of NISoS architecture
文獻(xiàn)[5]對(duì)空戰(zhàn)Agent的決策行為進(jìn)行了理論研究,采用反應(yīng)型Agent決策,并結(jié)合作戰(zhàn)實(shí)際將Agent的決策規(guī)則分成了不同的階段,包括起飛階段、巡航階段、攻擊階段、規(guī)避階段以及降落階段等。文獻(xiàn)[6]在海軍作戰(zhàn)任務(wù)中采用了反應(yīng)型Agent對(duì)指揮官的決策行為進(jìn)行了建模,并對(duì)每條規(guī)則的權(quán)值進(jìn)行了設(shè)定,具有最大權(quán)值的規(guī)則被采用,而在實(shí)際應(yīng)用時(shí),規(guī)則可以根據(jù)實(shí)際情況進(jìn)行更新。文獻(xiàn)[7]基于信息、愿望和意圖(belief desire intention,BDI)模型對(duì)不對(duì)稱作戰(zhàn)Agent的決策制定進(jìn)行了研究,但由于BDI基于邏輯演繹的推理方式,在實(shí)現(xiàn)過(guò)程中過(guò)于復(fù)雜,尤其是對(duì)于更復(fù)雜的作戰(zhàn)場(chǎng)景。文獻(xiàn)[8]針對(duì)multi-Agent作戰(zhàn)仿真決策機(jī)制的復(fù)雜性、不確定性提出了一種基于組件思想的Agent體系結(jié)構(gòu)——基于multi-Agent的非對(duì)稱作戰(zhàn)仿真體系結(jié)構(gòu)(multi-Agent based asymmetric combat simulation architecture,ACOMSIM),包括邏輯推理Agent、行動(dòng)制定Agent、地形分析Agent、己方態(tài)勢(shì)感知Agent、敵方態(tài)勢(shì)感知Agent、任務(wù)時(shí)間調(diào)度Agent、任務(wù)分析Agent等,通過(guò)模塊化的思想將復(fù)雜問(wèn)題簡(jiǎn)單化,各個(gè)組件Agent相互協(xié)作共同實(shí)現(xiàn)問(wèn)題的求解,其主要不足是各個(gè)組件都依賴于豐富的先驗(yàn)知識(shí),且不同組件之間的通信開銷降低了決策的效率。上述針對(duì)作戰(zhàn)Agent的決策行為研究都具有一定的代表性,但僅適用于特定的情形,且都存在一定程度的不足,尤其是當(dāng)作戰(zhàn)體系更復(fù)雜、環(huán)境的不確定性更高時(shí)。
強(qiáng)化學(xué)習(xí)(reinforcement learning,RL)作為一種無(wú)師在線決策技術(shù),在無(wú)需任何先驗(yàn)知識(shí)的情況下即可實(shí)現(xiàn)對(duì)未知環(huán)境的學(xué)習(xí),具有對(duì)不確定環(huán)境自適應(yīng)的能力,因此被廣泛用于復(fù)雜環(huán)境包括體系對(duì)抗仿真情形下的智能體自主決策研究[9]。文獻(xiàn)[10]以戰(zhàn)場(chǎng)仿真中安全隱蔽的尋找模型為例,對(duì)基于半自治作戰(zhàn)Agent的Profit-sharing增強(qiáng)學(xué)習(xí)進(jìn)行了實(shí)驗(yàn)研究;文獻(xiàn)[11]將強(qiáng)化學(xué)習(xí)引入智能體模糊戰(zhàn)術(shù)機(jī)動(dòng)決策模型中,有效地解決了馬爾可夫決策過(guò)程(Markov decision process,MDP)狀態(tài)轉(zhuǎn)移規(guī)律難以獲得時(shí)的模型求解問(wèn)題;文獻(xiàn)[12]基于強(qiáng)化學(xué)習(xí)對(duì)仿真航空兵的空戰(zhàn)機(jī)動(dòng)決策問(wèn)題進(jìn)行了研究;文獻(xiàn)[13]基于高斯徑向基函數(shù)(Gauss radial basis function,GRBF)神經(jīng)網(wǎng)絡(luò)和Q-leaning算法對(duì)飛行器三維空間的隱蔽接敵策略進(jìn)行了學(xué)習(xí)研究。
上述研究表明了RL在進(jìn)行作戰(zhàn)仿真認(rèn)知決策方面的可行性,但對(duì)于更復(fù)雜的NISoS作戰(zhàn)仿真決策,RL算法則具有其局限性。其根本原因是體系對(duì)抗中的Agent,其執(zhí)行每個(gè)行為的收益不僅取決于自身的行為,還取決于對(duì)手的行為,而對(duì)于這一點(diǎn),RL算法則不能很好地考慮,因此出現(xiàn)收斂較慢甚至決策不夠合理等問(wèn)題。而博弈論則是專門研究決策主體相互作用時(shí)的一門學(xué)問(wèn),尤其是在解決非合作博弈方面具有獨(dú)特地優(yōu)勢(shì)。本文的主要?jiǎng)?chuàng)新工作為①針對(duì)體系對(duì)抗開展博弈論研究;②建立了戰(zhàn)役層次零和動(dòng)態(tài)博弈模型;③基于Nash-Q實(shí)現(xiàn)了Nash均衡求解;④通過(guò)NISoS作戰(zhàn)仿真原型系統(tǒng)驗(yàn)證了算法的可行性以及相比Q-leaning的優(yōu)勢(shì)。
Q-leaning算法是一種模型無(wú)關(guān)的RL算法,被廣泛應(yīng)用于復(fù)雜問(wèn)題、不確定環(huán)境中的Agent認(rèn)知行為求解。經(jīng)典Q-learning算法是一種基于單Agent的RL算法,學(xué)習(xí)的Q值對(duì)應(yīng)于單個(gè)Agent的狀態(tài)-動(dòng)作對(duì),其優(yōu)勢(shì)在于即使只知道每個(gè)狀態(tài)下的立即獎(jiǎng)賞值,也可以基于時(shí)間差分(temporal difference,TD)公式完成Q(s,a)的學(xué)習(xí),即
Qt(s,a)=Qt-1(s,a)+
(1)
基于單Agent的Q-leaning算法在選擇下一個(gè)動(dòng)作時(shí),僅僅考慮自身的行動(dòng)而不去考慮對(duì)手動(dòng)作的影響,這樣做的好處是計(jì)算復(fù)雜度低并且實(shí)現(xiàn)起來(lái)容易,但也面臨學(xué)習(xí)結(jié)果不夠準(zhǔn)確的問(wèn)題,因此,采用聯(lián)合Q-leaning算法是一種有效的解決途徑。相比基于單Agent的Q-leaning算法,聯(lián)合Q-leaning將原來(lái)的狀態(tài)-動(dòng)作對(duì)Q函數(shù)擴(kuò)展為狀態(tài)-聯(lián)合動(dòng)作對(duì)Q函數(shù),即增加了自變量的維數(shù),同樣基于TD公式,其Q函數(shù)的迭代形式[14]為
(2)
Nash-Q算法與聯(lián)合Q-learning算法類似,都是基于TD公式迭代求解,并且Q函數(shù)對(duì)應(yīng)的動(dòng)作為所有Agent的聯(lián)合動(dòng)作,區(qū)別在于其策略選取形式。Nash-Q算法基于Nash均衡選擇新狀態(tài)下的聯(lián)合動(dòng)作,并且不需要獲取其他Agent的歷史動(dòng)作信息,但是需要其他Agent的支付函數(shù)以及動(dòng)作集。對(duì)于有兩個(gè)Agent的博弈模型,設(shè)QA為A的支付函數(shù),QB為B的支付函數(shù),則Nash-Q的迭代公式為
(3)
為了實(shí)現(xiàn)NISoS的作戰(zhàn)仿真研究,基于Java語(yǔ)言自主開發(fā)了一款作戰(zhàn)仿真原型系統(tǒng)。系統(tǒng)采用分布式進(jìn)程調(diào)度架構(gòu),采用時(shí)間離散方式,通過(guò)用戶界面可向紅藍(lán)雙方的對(duì)抗體系加入不同類別的Agent,共包含6種類型的Agent,分別為通信Agent(communication Agent,CCAgent)、偵察Agent(scout Agent,SCAgent)、補(bǔ)給Agent(supply Agent,SUAgent)、修復(fù)Agent(repair Agent,RPAgent)、打擊Agent(attack Agent,ATAgent)以及指控Agent(canmand Agent,CMAgent),對(duì)應(yīng)于NISoS的組成架構(gòu),可支持面向NISoS的地空一體化體系對(duì)抗研究,如圖2所示。
圖2 面向NISoS的空地一體化作戰(zhàn)仿真情景Fig.2 NISoS oriented ground to air integrated combat simulation scene
需要說(shuō)明,雖然仿真時(shí)構(gòu)建的NISoS與現(xiàn)實(shí)中的NISoS在規(guī)模和復(fù)雜程度上還有很大差距,但是作為真實(shí)NISoS的雛形,研究結(jié)果對(duì)于真實(shí)NISoS的規(guī)劃設(shè)計(jì)等相關(guān)研究具有一定的啟發(fā)。原型系統(tǒng)的物理作戰(zhàn)空間為按照J(rèn)AVA3D標(biāo)準(zhǔn)定制的100 m×100 m的三維幾何地圖,在作戰(zhàn)開始時(shí),紅藍(lán)雙方的兵力被分別自動(dòng)部署在地圖的左右兩側(cè),當(dāng)仿真開始后,雙方會(huì)相向運(yùn)動(dòng),直到在中間區(qū)域遭遇并展開對(duì)抗。
從層次上分,NISoS共包含兩個(gè)層次:戰(zhàn)術(shù)層次和戰(zhàn)役層次。其中,CCAgent、SCAgent、SUAgent、ATAgent、RPAgent隸屬于戰(zhàn)術(shù)層次,由于其決策行為相對(duì)簡(jiǎn)單,可采用有限狀態(tài)機(jī)實(shí)現(xiàn)。而CMAgent隸屬于戰(zhàn)役層次,負(fù)責(zé)對(duì)所屬Agent的指揮與控制,決策行為比較復(fù)雜,是論文研究的重點(diǎn)。
由于系統(tǒng)基于時(shí)間離散模型進(jìn)行調(diào)度,因此CMAgent的決策行為是以仿真時(shí)鐘為單位進(jìn)行的,其主要目的是在當(dāng)前感知態(tài)勢(shì)的基礎(chǔ)上進(jìn)行決策,其認(rèn)知域描述如表1所示,考慮到RPAgent為少量(通常紅藍(lán)雙方各有一個(gè),作為雙方“大后方”出現(xiàn)),忽略其影響。
表1 CMAgent的認(rèn)知域描述表
此外,CMAgent還能夠獲取殺傷敵軍數(shù)目以及死亡數(shù)目的實(shí)時(shí)信息。然而,CMAgent無(wú)法獲取對(duì)手Agent的支付函數(shù)以及行為策略,并且對(duì)于態(tài)勢(shì)感知也是具有不確定性的,這是體系對(duì)抗博弈模型求解的難點(diǎn)。
為了壓縮參數(shù)空間,也為了使學(xué)習(xí)成果更具一般性,需要首先對(duì)用到的學(xué)習(xí)參數(shù)進(jìn)行規(guī)范化,其意義類似于流體力學(xué)中的無(wú)量綱化,對(duì)于實(shí)驗(yàn)結(jié)果至關(guān)重要。主要包括狀態(tài)空間參數(shù)的歸一化以及獎(jiǎng)賞參數(shù)的規(guī)約。狀態(tài)空間的歸一化公式為
式中,δ是一個(gè)極小值,其意義是避免除零,根據(jù)歸一化公式,CMAgent的狀態(tài)空間可由四維參數(shù)向量s={NCC,NSC,NSU,NAT}表示。獎(jiǎng)賞信息的規(guī)約公式為
式中,EK為殺傷敵軍數(shù)目;OD為死亡友軍數(shù)目;δ的意義同前??梢钥闯?當(dāng)r>0時(shí),CMAgent得到的是正獎(jiǎng)賞,當(dāng)r<0時(shí),CMAgent得到的是負(fù)獎(jiǎng)賞,獎(jiǎng)賞的好壞一目了然。通過(guò)以上對(duì)學(xué)習(xí)參數(shù)的規(guī)范化處理,使得學(xué)習(xí)數(shù)據(jù)更具普遍性,并且限定了范圍。
傳統(tǒng)的Q函數(shù)采用表格進(jìn)行狀態(tài)空間的離散,然而,當(dāng)狀態(tài)空間是連續(xù)的且維數(shù)較多時(shí),表格離散法會(huì)面臨“分割難題”,并且學(xué)習(xí)效率較低??紤]到GRBF神經(jīng)網(wǎng)絡(luò)的離散性能以及泛化能力,可以采用GRBF神經(jīng)網(wǎng)絡(luò)對(duì)Q函數(shù)進(jìn)行離散[12-13]。所謂泛化能力是指即使某個(gè)樣本沒有學(xué)習(xí),GRBF神經(jīng)網(wǎng)絡(luò)也能估計(jì)其輸出,而這是表格離散法不能做到的,其網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。
圖3 基于GRBF神經(jīng)網(wǎng)絡(luò)的Q離散Fig.3 Q discretization based on GRBF neural network
由圖3可知,GRBF神經(jīng)網(wǎng)絡(luò)由4層組成,第1層為輸入層,第2層為離散層,第3層為隱含層,第4層為輸出層。其中,離散層的等寬離散公式為
(4)
可以算出,輸入狀態(tài)空間的樣本數(shù)目最大為54=625個(gè),可以想象采用傳統(tǒng)離散方法的復(fù)雜性,其輸出層是對(duì)應(yīng)聯(lián)合動(dòng)作a={a1,a2,…}的Q值,共有|A|×|A|=3×3=9個(gè)聯(lián)合動(dòng)作,其計(jì)算公式為
式中,徑向基函數(shù)bi(s)的計(jì)算公式為
式中,ci是第i個(gè)基函數(shù)的中心,與s具有相同的維度;σi是第i個(gè)基函數(shù)的寬度;m是隱含層的個(gè)數(shù);‖s-ci‖為輸入狀態(tài)與基函數(shù)中心的歐氏距離。
定義1(混合策略) 一個(gè)Agent的混合策略為其行動(dòng)空間的一個(gè)概率分布為
式中,aij為Agenti對(duì)應(yīng)的第j個(gè)行動(dòng),下面給出混合策略Nash均衡的定義。
Nash-Q算法采用Q函數(shù)代替支付函數(shù),假設(shè)學(xué)習(xí)Agent的支付函數(shù)為矩陣Amn,對(duì)手Agent的支付矩陣為Bmn,則根據(jù)Nash均衡的定義,雙方混合策略的求解可轉(zhuǎn)化為線性規(guī)劃問(wèn)題,即
由于任何時(shí)刻
因此QA+QB=0,故CMAgent的博弈模型為零和博弈,故在已知自己的Q函數(shù)情況下,對(duì)手的支付函數(shù)可以設(shè)為Q函數(shù)的負(fù),至此,可以實(shí)現(xiàn)Nash均衡的求解,而求解的Nash均衡對(duì)應(yīng)的Q值即可作為Agent的學(xué)習(xí)目標(biāo),如式(3)所示。
(5)
式中,idx(at)為執(zhí)行的行動(dòng)的序號(hào);TDNash為Nash強(qiáng)化信號(hào),其計(jì)算公式為
TDNash的計(jì)算公式與式(3)是有區(qū)別的,即GRBF神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)目標(biāo)為Nash均衡而非單一狀態(tài)-動(dòng)作對(duì)的Q函數(shù)。
學(xué)習(xí)過(guò)程以周期計(jì)數(shù),當(dāng)一個(gè)回合的作戰(zhàn)結(jié)束時(shí)視為一個(gè)學(xué)習(xí)周期的結(jié)束,其學(xué)習(xí)框架如圖4所示。
圖4 基于Nash-Q的CMAgent認(rèn)知學(xué)習(xí)框架Fig.4 CMAgent cognitive learning framework based on Nash-Q
基于Nash-Q的NISoS戰(zhàn)役層次CMAgent的決策過(guò)程如下:
步驟1初始化CMAgent的GRBF神經(jīng)網(wǎng)絡(luò),通過(guò)k-means聚類設(shè)置GRBF的中心和寬度,設(shè)定最大學(xué)習(xí)周期數(shù)K,令k=1;
步驟5執(zhí)行決策at,轉(zhuǎn)到新的狀態(tài)st+1;
步驟6如果仿真沒有分出勝負(fù)或者t<最大仿真步數(shù),返回步驟3,否則繼續(xù);
步驟8k=k+1,如果k>K,則結(jié)束學(xué)習(xí),否則轉(zhuǎn)到步驟2繼續(xù)。
為了對(duì)本文所提算法的有效性進(jìn)行充分驗(yàn)證,在NISoS作戰(zhàn)仿真系統(tǒng)中共實(shí)現(xiàn)了3種決策方式,第1種是基于Nash-Q算法的決策,第2種是基于Q-Learning算法的決策,第3種是基于規(guī)則的決策,通過(guò)兩兩對(duì)抗的方式,驗(yàn)證Nash-Q算法的優(yōu)越性。
由于實(shí)驗(yàn)的目的是為驗(yàn)證基于Nash-Q的指控Agent智能決策算法,因此可以忽略對(duì)參戰(zhàn)兵力的指標(biāo)參數(shù)進(jìn)行關(guān)注,只研究在相同的兵力結(jié)構(gòu)下,在不同決策算法約束下的體系對(duì)抗效果,進(jìn)而分析決策算法。在地空一體化體系對(duì)抗的作戰(zhàn)背景下,設(shè)置紅藍(lán)雙方的NISoS結(jié)構(gòu)均相同,且均只有1個(gè)編隊(duì),對(duì)應(yīng)1個(gè)CMAgent,每個(gè)編隊(duì)由5個(gè)地基SCAgent、5個(gè)空基SCAgent、5個(gè)地基ATAgent、5個(gè)空基ATAgent、5個(gè)地基CCAgent、5個(gè)空基CCAgent、5個(gè)地基SUAgent、5個(gè)空基SUAgent以及1個(gè)地基RPAgent組成,由于性能指標(biāo)不是研究?jī)?nèi)容,這里省略每種類別Agent的性能指標(biāo)介紹。
5.3.1 Nash-Q與Rule-based算法的對(duì)比
表2 基于Rule-based的CMAgent決策表
圖5 Nash-Q與Rule-based算法的總獎(jiǎng)賞值隨周期的變化Fig.5 Total reward value of Nash-Q and Rule-based algorithm varying with the period
從圖5中可以,看出采用Rule-based的紅方在一開始占據(jù)優(yōu)勢(shì),這是由于采用Nash-Q的藍(lán)方在初始時(shí)刻以探索為主,無(wú)任何經(jīng)驗(yàn),故在決策上不占優(yōu)勢(shì),然而隨著學(xué)習(xí)周期的增加,Rall快速提升,在20個(gè)周期內(nèi)就已基本收斂。此外,采用Nash-Q算法的藍(lán)方無(wú)論是累積獎(jiǎng)賞值還是獲勝率都要遠(yuǎn)遠(yuǎn)高于采用Rule-based決策算法的紅方,并且藍(lán)方獲勝概率幾乎為1,表明了Nash-Q的絕對(duì)優(yōu)勢(shì)。Nash-Q決策算法能夠優(yōu)于Rule-based決策算法的原因有兩個(gè)方面,一方面是由于強(qiáng)化學(xué)習(xí)特有的自適應(yīng)能力,能夠在對(duì)抗的過(guò)程中逐步掌握對(duì)手的弱點(diǎn)并進(jìn)行相應(yīng)的針對(duì),另一方面是由于相比Rule-based算法,Nash-Q能夠利用更多的態(tài)勢(shì)信息(4個(gè)維度共625種),從而能夠形成更準(zhǔn)確的態(tài)勢(shì)判斷。
5.3.2 Nash-Q與Q-learning算法的對(duì)比
為了進(jìn)一步驗(yàn)證Nash-Q算法的學(xué)習(xí)能力,設(shè)計(jì)實(shí)現(xiàn)了基于Q-learning的CMAgent決策算法,其學(xué)習(xí)框架同Nash-Q,并且同樣采用GRBF神經(jīng)網(wǎng)絡(luò)對(duì)Q表進(jìn)行離散,其區(qū)別之處在于網(wǎng)絡(luò)權(quán)值的更新,即
由于聯(lián)合Q-learning需要獲取其他CMAgent的歷史決策信息,占據(jù)通信帶寬,且實(shí)現(xiàn)起來(lái)比較復(fù)雜,采用了單Agent Q-learning算法,其中強(qiáng)化信號(hào)為
圖6 Nash-Q與Q-learning算法的總獎(jiǎng)賞值隨學(xué)習(xí)周期的變化Fig.6 Total reward value of Nash-Q and Rule-based algorithm varying with the studying period
5.3.3 Nash-Q的離線決策效能評(píng)估
當(dāng)Nash-Q算法學(xué)習(xí)到一個(gè)較好的GRBF神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)后,可以關(guān)閉對(duì)網(wǎng)絡(luò)參數(shù)的學(xué)習(xí),只根據(jù)已有的學(xué)習(xí)成果進(jìn)行決策,即為離線決策。在離線決策試驗(yàn)中,改變每個(gè)陣營(yíng)編隊(duì)的數(shù)目以制造與在線學(xué)習(xí)階段不同的體系對(duì)抗情形,并與Rule-based算法進(jìn)行對(duì)比,其中每個(gè)編隊(duì)的配置同前,得到的離線決策效能試驗(yàn)結(jié)果如表3所示。其中,Nc代表編隊(duì)的數(shù)目,為了提高運(yùn)行效率,實(shí)驗(yàn)用機(jī)的數(shù)目不小于Nc,以確保每個(gè)CMAgent被分配到單獨(dú)的節(jié)點(diǎn)上。
表3 Nash-Q與Rule-based算法的離線決策效能對(duì)比
由表3可以明顯看出采用Nash-Q算法的藍(lán)方相比采用Rule-based算法的紅方具有與在線決策相當(dāng)?shù)臎Q策優(yōu)勢(shì),無(wú)論是平均總獎(jiǎng)賞值還是獲勝率都要遠(yuǎn)遠(yuǎn)高于紅方,表明了離線Nash-Q算法學(xué)習(xí)成果的普適性,同時(shí)也表明了戰(zhàn)法戰(zhàn)略的通用性,可以作為決策知識(shí)庫(kù)使用。
傳統(tǒng)的針對(duì)體系作戰(zhàn)Agent的認(rèn)知決策行為主要以BDI推理、反應(yīng)式為主,主要存在過(guò)于依賴專家經(jīng)驗(yàn)、實(shí)現(xiàn)過(guò)程復(fù)雜以及無(wú)法適應(yīng)動(dòng)態(tài)變化的環(huán)境等不足。為此,面向NISoS作戰(zhàn)仿真,建立了戰(zhàn)役層次指揮Agent不完全信息動(dòng)態(tài)博弈模型,并基于Nash-Q實(shí)現(xiàn)了模型求解,可充分發(fā)揮強(qiáng)化學(xué)習(xí)以及博弈論各自的優(yōu)勢(shì),滿足對(duì)復(fù)雜體系對(duì)抗環(huán)境的自適應(yīng)學(xué)習(xí)目的。此外,為了提高模型的泛化能力,采用GRBF神經(jīng)網(wǎng)絡(luò)對(duì)Q-table進(jìn)行擬合離散。仿真實(shí)驗(yàn)證明了Nash-Q算法的可行性和相比Q-leaning以及反應(yīng)式?jīng)Q策算法的優(yōu)越性,并表明了Nash-Q算法較好的離線決策效能。下一步的工作是以動(dòng)態(tài)博弈模型作為紅藍(lán)雙方的共同決策依據(jù),盡可能去除非理性決策因素對(duì)對(duì)抗過(guò)程的影響,實(shí)現(xiàn)體系作戰(zhàn)效能的最大化、評(píng)估的客觀化、決策的智能化。
[1] GILMORE J M. 2015 Assessment of the ballistic missile defense system (BMDS)[R]. Washington, DC: Defense Technical Information Center, 2016.
[2] PATRICK T H, KEVIN M A. Integrated condition assessment for navy system of systems[J]. International Journal of System of Systems Engineering, 2012, 3(3/4): 356-367.
[3] YANG A, ABBASS H A, SARKER R. Landscape dynamics in multi-agent simulation combat systems[J]. Lecture Notes in Computer Science, 2004, 3339: 121-148.
[4] CONNORS C D. Agent-based modeling methodology for analyzing weapons systems[D]. Ohio: Air Force Institute of Technology, 2015.
[5] GISSELQUIST D E. Artificially intelligent air combat simulation agents[D]. Ohio: Air Force Institute of Technology,1994.
[6] ERCETIN A. Operational-level naval planning using agent-based simulation[R]. Monterey: Naval Post-graduate School, 2001.
[7] TSVETOVAT M,ATEK M. Dynamics of agent organizations: application to modeling irregular warfare[J]. Lecture Notes in Computer Science, 2009,5269: 141-153.
[8] CIL I, MALA M. A multi-agent architecture for modelling and simulation of small military unit combat in asymmetric warfare[J]. Expert Systems with Applications, 2010, 37(2): 1331-1343.
[9] GALSTYAN A. Continuous strategy replicator dynamics for multi-agent Q-learning[J]. Autonomous Agents and Multi-Agent Systems, 2013, 26(1): 37-53.
[10] 楊克巍,張少丁,岑凱輝,等.基于半自治agent的profit-sharing增強(qiáng)學(xué)習(xí)方法研究[J].計(jì)算機(jī)工程與應(yīng)用,2007,43(15): 72-95.
YANG K W, ZHANG S D, CEN K H, et al. Research of profit-sharing reinforcement learning method based on semi-autonomous agent[J]. Computer Engineering and Applications, 2007, 43(15): 72-75.
[11] 楊萍, 畢義明, 劉衛(wèi)東. 基于模糊馬爾可夫理論的機(jī)動(dòng)智能體決策模型[J]. 系統(tǒng)工程與電子技術(shù), 2008, 30(3): 511-514.
YANG P, BI Y M, LIU W D. Decision-making model of tactics maneuver agent based on fuzzy Markov decision theory[J]. Systems Engineering and Electronics, 2008, 30(3): 511-514.
[12] 馬耀飛, 龔光紅, 彭曉源. 基于強(qiáng)化學(xué)習(xí)的航空兵認(rèn)知行為模型[J]. 北京航空航天大學(xué)學(xué)報(bào), 2010, 36(4): 379-383.
MA Y F,GONG G H,PENG X Y.Cognition behavior model for air combat based on reinforcement learning[J]. Journal of Beijing University of Aeronautics and Astronautics,2010,36(4): 379-383.
[13] 徐安,寇英信,于雷,等.基于RBF神經(jīng)網(wǎng)絡(luò)的Q學(xué)習(xí)飛行器隱蔽接敵策略[J].系統(tǒng)工程與電子技術(shù),2012,34(1):97-101.
XU A, KOU Y X, YU L, et al. Stealthy engagement maneuvering strategy with Q-learning based on RBFNN for air vehicles[J]. Systems Engineering and Electronics, 2012, 34(1): 97-101.
[14] 段勇, 徐心和. 基于多智能體強(qiáng)化學(xué)習(xí)的多機(jī)器人協(xié)作策略研究[J]. 系統(tǒng)工程理論與實(shí)踐, 2014, 34(5): 1305-1310.
DUAN Y, XU X H. Research on multi-robot cooperation strategy based on multi-agent reinforcement learning[J]. Systems Engineering-Theory & Practice,2014,34(5):1305-1310.
[15] 賈文生,向淑文,楊劍鋒,等.基于免疫粒子群算法的非合作博弈Nash均衡問(wèn)題求解[J].計(jì)算機(jī)應(yīng)用研究,2012,29(1):28-31.
JIA W S, XIANG S W, YANG J F, et al. Solving Nash equilibrium for N-persons non-cooperative game based on immune particle swarm algorithm[J]. Application Research of Computers, 2012, 29(1): 28-31.