宋秉璽,肖 毅,楊鴻杰,杜宇峰
(1.中國(guó)電子科技集團(tuán)公司第五十四研究所,河北 石家莊050081;2.中國(guó)人民解放軍31618部隊(duì),福建 福州350003)
自20世紀(jì)60年代人工智能被提出以來(lái),它已應(yīng)用于模式識(shí)別、語(yǔ)言處理和圖像識(shí)別等各種領(lǐng)域,人工智能應(yīng)用于通信對(duì)抗也已經(jīng)成為國(guó)際的前沿研究方向[1]。在電子對(duì)抗方向上,美國(guó)國(guó)防高級(jí)研究計(jì)劃局(DAPRA)近年來(lái)使用新一代人工智能技術(shù)重點(diǎn)發(fā)展自適應(yīng)電子戰(zhàn)行為學(xué)習(xí)及自適應(yīng)雷達(dá)對(duì)抗等認(rèn)知電子戰(zhàn)項(xiàng)目[2-3],并將電子戰(zhàn)系統(tǒng)的智能化水平提到前所未有的高度。2018年,美國(guó)國(guó)防部啟動(dòng)了聯(lián)合人工智能中心(JAIC),預(yù)計(jì)投資16億美元,探索人工智能在電子對(duì)抗領(lǐng)域的應(yīng)用。中國(guó)船舶工業(yè)總公司的楊春華等人做了Agent理論和技術(shù)在電子戰(zhàn)中應(yīng)用的研究,主要應(yīng)用于雷達(dá)對(duì)抗[4],本文將主要通過(guò)仿真手段來(lái)研究多Agent在通信對(duì)抗中的應(yīng)用實(shí)現(xiàn)。通過(guò)建立仿真模型,來(lái)模擬通信對(duì)抗過(guò)程,進(jìn)而完成智能決策算法的學(xué)習(xí)與驗(yàn)證,可以有效提升通信對(duì)抗能力。
本文主要目的是研究群體通信對(duì)抗的自動(dòng)化協(xié)作決策問(wèn)題,針對(duì)該問(wèn)題提出模型開(kāi)展仿真,找出最優(yōu)方案。要構(gòu)建決策對(duì)象模型,此對(duì)象模型應(yīng)可以客觀表征群體通信對(duì)抗作戰(zhàn)的特點(diǎn),能夠進(jìn)行博弈、有勝負(fù),應(yīng)用于決策技術(shù)的訓(xùn)練,可以展示作戰(zhàn)過(guò)程,并且可以人機(jī)對(duì)抗演示。由此仿真模型的基本元素構(gòu)想如下:
① 紅藍(lán)雙方:進(jìn)行博弈的2個(gè)作戰(zhàn)方;
② 通信單元:負(fù)責(zé)進(jìn)行通信的單元;
③ 干擾單元:負(fù)責(zé)進(jìn)行干擾對(duì)方通信單元;
④ 干擾區(qū)域:干擾單元可以干擾到的范圍;
⑤ 策略:對(duì)應(yīng)作戰(zhàn)單元的移動(dòng)方式;
⑥ 行動(dòng)方式:紅藍(lán)雙方每次可以移動(dòng)的作戰(zhàn)單元數(shù)目,有步進(jìn)方式和整體方式2種,其中步進(jìn)方式表示紅藍(lán)雙方每次只動(dòng)一個(gè)仿真單元,整體模式則表示紅藍(lán)雙方每次可動(dòng)多個(gè)仿真單元;
⑦ 數(shù)量規(guī)模:仿真單元數(shù)量;
⑧ 對(duì)戰(zhàn)策略:對(duì)戰(zhàn)的方式,人機(jī)對(duì)戰(zhàn)和機(jī)器對(duì)戰(zhàn);
⑨ 地圖大?。浩灞P(pán)大小,代表作戰(zhàn)單元可移動(dòng)的位置范圍;
⑩ 勝負(fù)判別:多輪后累計(jì)被干擾的通信單元總數(shù)少的一方獲勝。
由此設(shè)計(jì)的仿真模型基本處理流程如圖1所示,可視化對(duì)抗仿真主界面如圖2所示。
圖1 仿真模型基本處理流程
圖2 可視化對(duì)抗仿真主界面
根據(jù)基本設(shè)計(jì)元素和流程設(shè)計(jì)博弈戰(zhàn)場(chǎng)環(huán)境基本的配置界面主要通過(guò)在交互界面上點(diǎn)擊下拉框選擇相應(yīng)的配置參數(shù)。這些參數(shù)配置信息常駐內(nèi)存,在仿真的每一個(gè)回合博弈的過(guò)程中是不可重入的,在每一個(gè)回合博弈開(kāi)始時(shí)是可重入的。
根據(jù)仿真配置界面數(shù)據(jù)生成通信對(duì)抗主場(chǎng)景,實(shí)時(shí)可視化展示當(dāng)前仿真對(duì)抗的相關(guān)信息,如圖2所示。頁(yè)面展示的內(nèi)容包含當(dāng)前戰(zhàn)場(chǎng)和仿真單元的位置和干擾區(qū)域等信息,顯示當(dāng)前回合和平均上紅藍(lán)雙方的正常通信數(shù)量和干擾通信數(shù)量,顯示出仿真過(guò)程。
2.1.1 環(huán)境定義
首先對(duì)強(qiáng)化學(xué)習(xí)中的環(huán)境進(jìn)行定義,包括狀態(tài)空間、動(dòng)作空間和獎(jiǎng)賞函數(shù)。
(1)狀態(tài)表示
整個(gè)對(duì)戰(zhàn)棋局的狀態(tài)使用28*28*6的數(shù)據(jù)結(jié)構(gòu)進(jìn)行表示,具體每一通道所代表的含義如圖3所示。
(2)動(dòng)作和獎(jiǎng)勵(lì)
動(dòng)作:本方所有移動(dòng)單元的動(dòng)作(50*5*10);
獎(jiǎng)勵(lì):∑(本方通信單元數(shù)目+干擾對(duì)方通信單元數(shù)量)的變化值。
圖3 棋局狀態(tài)表示
2.1.2 算法介紹
① 初始化狀態(tài)價(jià)值網(wǎng)絡(luò)V(S);
② 獲取當(dāng)前的戰(zhàn)場(chǎng)狀態(tài);
③ 通過(guò)環(huán)境模型獲取所有可能的動(dòng)作所到達(dá)的下一個(gè)狀態(tài);
④ 將所有可能到達(dá)的下一個(gè)狀態(tài)輸入至狀態(tài)價(jià)值網(wǎng)絡(luò)中,獲取對(duì)應(yīng)的V值;
⑤ 通過(guò)評(píng)估所有可能的V值獲取當(dāng)前的策略,即選擇最大的V值所對(duì)應(yīng)的動(dòng)作;
⑥ 通過(guò)執(zhí)行動(dòng)作,獲取Reward,更新當(dāng)前的V值,更新方法為:V(S)=r+γV(S′)。
算法描述如圖4所示。
網(wǎng)絡(luò)的輸入即之前定義的狀態(tài),是一個(gè)三維的張量,中間的卷積層本文定義了3層,卷積核的大小為3*3,卷積核的數(shù)量為64個(gè),最終的全連接層的單元數(shù)為256,接最終的輸出,即輸入狀態(tài)對(duì)應(yīng)的V值。在本網(wǎng)絡(luò)中的損失函數(shù)使用的是均方誤差MSE,可以類比于回歸任務(wù)。優(yōu)化器用的是Adam。
圖4 基于After-State強(qiáng)化學(xué)習(xí)算法示意圖
通過(guò)對(duì)該場(chǎng)景進(jìn)行分析認(rèn)為:干擾兵必須到達(dá)地理上的可干擾區(qū)域,才能夠通過(guò)控制頻段實(shí)現(xiàn)干擾;而通信兵只有在保證較大程度地遠(yuǎn)離對(duì)方干擾兵,到達(dá)安全距離的條件下,才能最大程度保持跟隊(duì)友的頻段一致。因此,最核心的控制部分在于位置的控制,在該方法中將動(dòng)作的控制與頻段的選擇進(jìn)行了分離。位置的控制采用了強(qiáng)化學(xué)習(xí)的算法,位置確定之后頻段采用基于全局的控制方法。環(huán)境定義和狀態(tài)表示與基于After-State強(qiáng)化學(xué)習(xí)算法類此,算法的基本步驟如下:
① 初始化狀態(tài)動(dòng)作價(jià)值網(wǎng)絡(luò)Q(s,a);
② 在本方所有的Agent中進(jìn)行循環(huán),依次選擇;
③ 根據(jù)選擇出的Agent,確定該Agent的視野,進(jìn)而確定其對(duì)應(yīng)的狀態(tài);
④ 將該狀態(tài)輸入至Q網(wǎng)絡(luò)中,獲取所有動(dòng)作對(duì)應(yīng)的Q值;
⑤ 在環(huán)境中對(duì)該Agent執(zhí)行最大Q值所對(duì)應(yīng)的動(dòng)作,并獲取所對(duì)應(yīng)的Reward;
⑥ 通過(guò)該Reward使用TD-ERROR更新Q網(wǎng)絡(luò);
⑦ 通過(guò)全局控制的頻段選擇方法對(duì)頻段進(jìn)行選擇;
⑧ 執(zhí)行下一個(gè)Agent一直到該回合結(jié)束。
算法描述如圖5所示。
圖5 基于多Agent的集中式控制圖
網(wǎng)絡(luò)的輸入即之前定義的狀態(tài),是一個(gè)三維的張量,中間的卷積層本文定義了3層,卷積核的大小為3*3,卷積核的數(shù)量為64個(gè),最終的全連接層的單元數(shù)為256,接最終的輸出,即輸入狀態(tài)對(duì)應(yīng)的所有動(dòng)作的Q值。在本網(wǎng)絡(luò)中的損失函數(shù)使用的是均方誤差MSE,可以類比于回歸任務(wù)。優(yōu)化器用的是Adam。
通過(guò)對(duì)基于多Agent的集中式控制算法場(chǎng)景進(jìn)行分析,在此基礎(chǔ)上提出再利用平均場(chǎng)論來(lái)理解大規(guī)模多智能體交互,極大地簡(jiǎn)化了交互模式,提高多智能體強(qiáng)化學(xué)習(xí)算法的能力。應(yīng)用平均場(chǎng)論后,學(xué)習(xí)在2個(gè)智能體之間是相互促進(jìn)的:?jiǎn)蝹€(gè)智能體最優(yōu)策略的學(xué)習(xí)是基于智能體群體的動(dòng)態(tài);同時(shí),集體的動(dòng)態(tài)也根據(jù)個(gè)體的策略進(jìn)行更新。環(huán)境定義和狀態(tài)表示與基于After-State強(qiáng)化學(xué)習(xí)算法類此,算法的基本步驟如下:
① 初始化狀態(tài)動(dòng)作價(jià)值網(wǎng)絡(luò)Q(s,a);
② 在本方所有的Agent中進(jìn)行循環(huán),依次選擇;
③ 根據(jù)選擇出的Agent,確定該Agent的視野,進(jìn)而確定其對(duì)應(yīng)的狀態(tài);
④ 計(jì)算每一個(gè)Agent的所有鄰居Agent的平均行為;
⑤ 將第③步和第④步計(jì)算出的結(jié)果合并;
⑥ 將第⑤步的結(jié)果輸入到該狀態(tài)輸入至Q網(wǎng)絡(luò)中,獲取所有動(dòng)作對(duì)應(yīng)的Q值;
⑦ 在環(huán)境中對(duì)該Agent執(zhí)行最大Q值所對(duì)應(yīng)的動(dòng)作,并獲取所對(duì)應(yīng)的Reward;
⑧ 通過(guò)該Reward使用TD-ERROR更新Q網(wǎng)絡(luò);
⑨ 通過(guò)全局控制的頻段選擇方法對(duì)頻段進(jìn)行選擇;
⑩ 執(zhí)行下一個(gè)Agent一直到該回合結(jié)束。
基于平均場(chǎng)的多Agent強(qiáng)化學(xué)習(xí)描述如圖6所示。
圖6 基于平均場(chǎng)的多Agent強(qiáng)化學(xué)習(xí)圖
網(wǎng)絡(luò)的輸入即之前定義的狀態(tài),是一個(gè)三維的張量,中間的卷積層本文定義了3層,卷積核的大小為3*3,卷積核的數(shù)量為64個(gè),最終的全連接層的單元數(shù)為256,接最終的輸出,即輸入狀態(tài)對(duì)應(yīng)的所有動(dòng)作的Q值。在本網(wǎng)絡(luò)中的損失函數(shù)使用的是均方誤差MSE,可以類比于回歸任務(wù)。優(yōu)化器用的是Adam。最后在選擇最大的V值對(duì)應(yīng)的動(dòng)作之后,本文再基于貪心策略選擇頻段,如果當(dāng)前的Agent被干擾則更換頻段,使得不被干擾;否則頻段不變。
在雙Ti1080GPU下,用Python平臺(tái)經(jīng)過(guò)3小時(shí)訓(xùn)練后,通信子與干擾子初步具備了對(duì)抗能力。對(duì)抗的干擾子和通信子具備了追擊和躲避功能,干擾兵會(huì)向前移動(dòng)去干擾對(duì)方的通信兵,而通信兵則向后移動(dòng)躲避對(duì)方干擾兵的干擾。干擾子在進(jìn)入通信子可干擾范圍后,可以自動(dòng)選擇和通信方一致的干擾頻段進(jìn)行干擾,如圖7所示,紅干擾單元成功干擾藍(lán)方通信兵,使其不能通信。
圖7 紅干擾單元成功干擾藍(lán)方通信兵
當(dāng)通信方被干擾后,應(yīng)當(dāng)自動(dòng)逃離干擾子,通過(guò)訓(xùn)練學(xué)習(xí)后,通信子具備了此項(xiàng)能力,在被干擾后通信子優(yōu)先選擇了距離遠(yuǎn)離,并沒(méi)有優(yōu)先選擇改變頻段策略,只有無(wú)法移動(dòng)后,才選擇改變頻段,如圖8所示,藍(lán)方被干擾通信兵陳工逃離紅方干擾單元的干擾。
圖8 藍(lán)方被干擾通信兵陳工逃離紅方干擾單元的干擾
經(jīng)過(guò)計(jì)算機(jī)3天的增強(qiáng)學(xué)習(xí)訓(xùn)練,各干擾節(jié)點(diǎn)可以簡(jiǎn)單配合對(duì)通信節(jié)點(diǎn)進(jìn)行聯(lián)合干擾。近距離干擾節(jié)點(diǎn)可以組成一個(gè)小組進(jìn)行協(xié)作,對(duì)敵方多子進(jìn)行干擾,如圖9所示。
圖9 近距離干擾兵作為一個(gè)小組進(jìn)行合作
本文對(duì)分布式通信對(duì)抗作戰(zhàn)進(jìn)行了模型建立和仿真運(yùn)行,設(shè)計(jì)了紅藍(lán)雙方多智能體、雙兵種的作戰(zhàn)模式,分別仿真了機(jī)器自主對(duì)戰(zhàn)和人機(jī)對(duì)戰(zhàn)的不同模式,在此基礎(chǔ)上利用基于平均場(chǎng)的強(qiáng)化學(xué)習(xí)算法,實(shí)現(xiàn)了在分布式通信對(duì)抗環(huán)境下的智能對(duì)抗系統(tǒng),并對(duì)敵方系統(tǒng)采用隨機(jī)策略、貪心策略以及人工策略的多種情況進(jìn)行了仿真。事實(shí)證明,該智能對(duì)抗系統(tǒng)能夠贏過(guò)隨機(jī)策略及貪心策略,且能夠在對(duì)抗人工策略時(shí)達(dá)到百分之五十的勝率。本文的方法為智能對(duì)抗系統(tǒng)的進(jìn)一步研究提供了新的思路,可以為智能對(duì)抗系統(tǒng)的發(fā)展提供參考。