亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        分布式通信對(duì)抗智能決策仿真系統(tǒng)

        2019-08-30 03:31:58宋秉璽楊鴻杰杜宇峰
        無(wú)線電通信技術(shù) 2019年5期
        關(guān)鍵詞:頻段卷積狀態(tài)

        宋秉璽,肖 毅,楊鴻杰,杜宇峰

        (1.中國(guó)電子科技集團(tuán)公司第五十四研究所,河北 石家莊050081;2.中國(guó)人民解放軍31618部隊(duì),福建 福州350003)

        0 引言

        自20世紀(jì)60年代人工智能被提出以來(lái),它已應(yīng)用于模式識(shí)別、語(yǔ)言處理和圖像識(shí)別等各種領(lǐng)域,人工智能應(yīng)用于通信對(duì)抗也已經(jīng)成為國(guó)際的前沿研究方向[1]。在電子對(duì)抗方向上,美國(guó)國(guó)防高級(jí)研究計(jì)劃局(DAPRA)近年來(lái)使用新一代人工智能技術(shù)重點(diǎn)發(fā)展自適應(yīng)電子戰(zhàn)行為學(xué)習(xí)及自適應(yīng)雷達(dá)對(duì)抗等認(rèn)知電子戰(zhàn)項(xiàng)目[2-3],并將電子戰(zhàn)系統(tǒng)的智能化水平提到前所未有的高度。2018年,美國(guó)國(guó)防部啟動(dòng)了聯(lián)合人工智能中心(JAIC),預(yù)計(jì)投資16億美元,探索人工智能在電子對(duì)抗領(lǐng)域的應(yīng)用。中國(guó)船舶工業(yè)總公司的楊春華等人做了Agent理論和技術(shù)在電子戰(zhàn)中應(yīng)用的研究,主要應(yīng)用于雷達(dá)對(duì)抗[4],本文將主要通過(guò)仿真手段來(lái)研究多Agent在通信對(duì)抗中的應(yīng)用實(shí)現(xiàn)。通過(guò)建立仿真模型,來(lái)模擬通信對(duì)抗過(guò)程,進(jìn)而完成智能決策算法的學(xué)習(xí)與驗(yàn)證,可以有效提升通信對(duì)抗能力。

        1 對(duì)抗模型設(shè)計(jì)

        本文主要目的是研究群體通信對(duì)抗的自動(dòng)化協(xié)作決策問(wèn)題,針對(duì)該問(wèn)題提出模型開(kāi)展仿真,找出最優(yōu)方案。要構(gòu)建決策對(duì)象模型,此對(duì)象模型應(yīng)可以客觀表征群體通信對(duì)抗作戰(zhàn)的特點(diǎn),能夠進(jìn)行博弈、有勝負(fù),應(yīng)用于決策技術(shù)的訓(xùn)練,可以展示作戰(zhàn)過(guò)程,并且可以人機(jī)對(duì)抗演示。由此仿真模型的基本元素構(gòu)想如下:

        ① 紅藍(lán)雙方:進(jìn)行博弈的2個(gè)作戰(zhàn)方;

        ② 通信單元:負(fù)責(zé)進(jìn)行通信的單元;

        ③ 干擾單元:負(fù)責(zé)進(jìn)行干擾對(duì)方通信單元;

        ④ 干擾區(qū)域:干擾單元可以干擾到的范圍;

        ⑤ 策略:對(duì)應(yīng)作戰(zhàn)單元的移動(dòng)方式;

        ⑥ 行動(dòng)方式:紅藍(lán)雙方每次可以移動(dòng)的作戰(zhàn)單元數(shù)目,有步進(jìn)方式和整體方式2種,其中步進(jìn)方式表示紅藍(lán)雙方每次只動(dòng)一個(gè)仿真單元,整體模式則表示紅藍(lán)雙方每次可動(dòng)多個(gè)仿真單元;

        ⑦ 數(shù)量規(guī)模:仿真單元數(shù)量;

        ⑧ 對(duì)戰(zhàn)策略:對(duì)戰(zhàn)的方式,人機(jī)對(duì)戰(zhàn)和機(jī)器對(duì)戰(zhàn);

        ⑨ 地圖大?。浩灞P(pán)大小,代表作戰(zhàn)單元可移動(dòng)的位置范圍;

        ⑩ 勝負(fù)判別:多輪后累計(jì)被干擾的通信單元總數(shù)少的一方獲勝。

        由此設(shè)計(jì)的仿真模型基本處理流程如圖1所示,可視化對(duì)抗仿真主界面如圖2所示。

        圖1 仿真模型基本處理流程

        圖2 可視化對(duì)抗仿真主界面

        根據(jù)基本設(shè)計(jì)元素和流程設(shè)計(jì)博弈戰(zhàn)場(chǎng)環(huán)境基本的配置界面主要通過(guò)在交互界面上點(diǎn)擊下拉框選擇相應(yīng)的配置參數(shù)。這些參數(shù)配置信息常駐內(nèi)存,在仿真的每一個(gè)回合博弈的過(guò)程中是不可重入的,在每一個(gè)回合博弈開(kāi)始時(shí)是可重入的。

        根據(jù)仿真配置界面數(shù)據(jù)生成通信對(duì)抗主場(chǎng)景,實(shí)時(shí)可視化展示當(dāng)前仿真對(duì)抗的相關(guān)信息,如圖2所示。頁(yè)面展示的內(nèi)容包含當(dāng)前戰(zhàn)場(chǎng)和仿真單元的位置和干擾區(qū)域等信息,顯示當(dāng)前回合和平均上紅藍(lán)雙方的正常通信數(shù)量和干擾通信數(shù)量,顯示出仿真過(guò)程。

        2 智能仿真體決策關(guān)鍵技術(shù)

        2.1 基于After-State強(qiáng)化學(xué)習(xí)搜索算法

        2.1.1 環(huán)境定義

        首先對(duì)強(qiáng)化學(xué)習(xí)中的環(huán)境進(jìn)行定義,包括狀態(tài)空間、動(dòng)作空間和獎(jiǎng)賞函數(shù)。

        (1)狀態(tài)表示

        整個(gè)對(duì)戰(zhàn)棋局的狀態(tài)使用28*28*6的數(shù)據(jù)結(jié)構(gòu)進(jìn)行表示,具體每一通道所代表的含義如圖3所示。

        (2)動(dòng)作和獎(jiǎng)勵(lì)

        動(dòng)作:本方所有移動(dòng)單元的動(dòng)作(50*5*10);

        獎(jiǎng)勵(lì):∑(本方通信單元數(shù)目+干擾對(duì)方通信單元數(shù)量)的變化值。

        圖3 棋局狀態(tài)表示

        2.1.2 算法介紹

        ① 初始化狀態(tài)價(jià)值網(wǎng)絡(luò)V(S);

        ② 獲取當(dāng)前的戰(zhàn)場(chǎng)狀態(tài);

        ③ 通過(guò)環(huán)境模型獲取所有可能的動(dòng)作所到達(dá)的下一個(gè)狀態(tài);

        ④ 將所有可能到達(dá)的下一個(gè)狀態(tài)輸入至狀態(tài)價(jià)值網(wǎng)絡(luò)中,獲取對(duì)應(yīng)的V值;

        ⑤ 通過(guò)評(píng)估所有可能的V值獲取當(dāng)前的策略,即選擇最大的V值所對(duì)應(yīng)的動(dòng)作;

        ⑥ 通過(guò)執(zhí)行動(dòng)作,獲取Reward,更新當(dāng)前的V值,更新方法為:V(S)=r+γV(S′)。

        算法描述如圖4所示。

        網(wǎng)絡(luò)的輸入即之前定義的狀態(tài),是一個(gè)三維的張量,中間的卷積層本文定義了3層,卷積核的大小為3*3,卷積核的數(shù)量為64個(gè),最終的全連接層的單元數(shù)為256,接最終的輸出,即輸入狀態(tài)對(duì)應(yīng)的V值。在本網(wǎng)絡(luò)中的損失函數(shù)使用的是均方誤差MSE,可以類比于回歸任務(wù)。優(yōu)化器用的是Adam。

        圖4 基于After-State強(qiáng)化學(xué)習(xí)算法示意圖

        2.2 基于多Agent的集中式控制算法

        通過(guò)對(duì)該場(chǎng)景進(jìn)行分析認(rèn)為:干擾兵必須到達(dá)地理上的可干擾區(qū)域,才能夠通過(guò)控制頻段實(shí)現(xiàn)干擾;而通信兵只有在保證較大程度地遠(yuǎn)離對(duì)方干擾兵,到達(dá)安全距離的條件下,才能最大程度保持跟隊(duì)友的頻段一致。因此,最核心的控制部分在于位置的控制,在該方法中將動(dòng)作的控制與頻段的選擇進(jìn)行了分離。位置的控制采用了強(qiáng)化學(xué)習(xí)的算法,位置確定之后頻段采用基于全局的控制方法。環(huán)境定義和狀態(tài)表示與基于After-State強(qiáng)化學(xué)習(xí)算法類此,算法的基本步驟如下:

        ① 初始化狀態(tài)動(dòng)作價(jià)值網(wǎng)絡(luò)Q(s,a);

        ② 在本方所有的Agent中進(jìn)行循環(huán),依次選擇;

        ③ 根據(jù)選擇出的Agent,確定該Agent的視野,進(jìn)而確定其對(duì)應(yīng)的狀態(tài);

        ④ 將該狀態(tài)輸入至Q網(wǎng)絡(luò)中,獲取所有動(dòng)作對(duì)應(yīng)的Q值;

        ⑤ 在環(huán)境中對(duì)該Agent執(zhí)行最大Q值所對(duì)應(yīng)的動(dòng)作,并獲取所對(duì)應(yīng)的Reward;

        ⑥ 通過(guò)該Reward使用TD-ERROR更新Q網(wǎng)絡(luò);

        ⑦ 通過(guò)全局控制的頻段選擇方法對(duì)頻段進(jìn)行選擇;

        ⑧ 執(zhí)行下一個(gè)Agent一直到該回合結(jié)束。

        算法描述如圖5所示。

        圖5 基于多Agent的集中式控制圖

        網(wǎng)絡(luò)的輸入即之前定義的狀態(tài),是一個(gè)三維的張量,中間的卷積層本文定義了3層,卷積核的大小為3*3,卷積核的數(shù)量為64個(gè),最終的全連接層的單元數(shù)為256,接最終的輸出,即輸入狀態(tài)對(duì)應(yīng)的所有動(dòng)作的Q值。在本網(wǎng)絡(luò)中的損失函數(shù)使用的是均方誤差MSE,可以類比于回歸任務(wù)。優(yōu)化器用的是Adam。

        2.3 基于平均場(chǎng)的多Agent強(qiáng)化學(xué)習(xí)算法

        通過(guò)對(duì)基于多Agent的集中式控制算法場(chǎng)景進(jìn)行分析,在此基礎(chǔ)上提出再利用平均場(chǎng)論來(lái)理解大規(guī)模多智能體交互,極大地簡(jiǎn)化了交互模式,提高多智能體強(qiáng)化學(xué)習(xí)算法的能力。應(yīng)用平均場(chǎng)論后,學(xué)習(xí)在2個(gè)智能體之間是相互促進(jìn)的:?jiǎn)蝹€(gè)智能體最優(yōu)策略的學(xué)習(xí)是基于智能體群體的動(dòng)態(tài);同時(shí),集體的動(dòng)態(tài)也根據(jù)個(gè)體的策略進(jìn)行更新。環(huán)境定義和狀態(tài)表示與基于After-State強(qiáng)化學(xué)習(xí)算法類此,算法的基本步驟如下:

        ① 初始化狀態(tài)動(dòng)作價(jià)值網(wǎng)絡(luò)Q(s,a);

        ② 在本方所有的Agent中進(jìn)行循環(huán),依次選擇;

        ③ 根據(jù)選擇出的Agent,確定該Agent的視野,進(jìn)而確定其對(duì)應(yīng)的狀態(tài);

        ④ 計(jì)算每一個(gè)Agent的所有鄰居Agent的平均行為;

        ⑤ 將第③步和第④步計(jì)算出的結(jié)果合并;

        ⑥ 將第⑤步的結(jié)果輸入到該狀態(tài)輸入至Q網(wǎng)絡(luò)中,獲取所有動(dòng)作對(duì)應(yīng)的Q值;

        ⑦ 在環(huán)境中對(duì)該Agent執(zhí)行最大Q值所對(duì)應(yīng)的動(dòng)作,并獲取所對(duì)應(yīng)的Reward;

        ⑧ 通過(guò)該Reward使用TD-ERROR更新Q網(wǎng)絡(luò);

        ⑨ 通過(guò)全局控制的頻段選擇方法對(duì)頻段進(jìn)行選擇;

        ⑩ 執(zhí)行下一個(gè)Agent一直到該回合結(jié)束。

        基于平均場(chǎng)的多Agent強(qiáng)化學(xué)習(xí)描述如圖6所示。

        圖6 基于平均場(chǎng)的多Agent強(qiáng)化學(xué)習(xí)圖

        網(wǎng)絡(luò)的輸入即之前定義的狀態(tài),是一個(gè)三維的張量,中間的卷積層本文定義了3層,卷積核的大小為3*3,卷積核的數(shù)量為64個(gè),最終的全連接層的單元數(shù)為256,接最終的輸出,即輸入狀態(tài)對(duì)應(yīng)的所有動(dòng)作的Q值。在本網(wǎng)絡(luò)中的損失函數(shù)使用的是均方誤差MSE,可以類比于回歸任務(wù)。優(yōu)化器用的是Adam。最后在選擇最大的V值對(duì)應(yīng)的動(dòng)作之后,本文再基于貪心策略選擇頻段,如果當(dāng)前的Agent被干擾則更換頻段,使得不被干擾;否則頻段不變。

        3 終端對(duì)抗學(xué)習(xí)仿真過(guò)程

        在雙Ti1080GPU下,用Python平臺(tái)經(jīng)過(guò)3小時(shí)訓(xùn)練后,通信子與干擾子初步具備了對(duì)抗能力。對(duì)抗的干擾子和通信子具備了追擊和躲避功能,干擾兵會(huì)向前移動(dòng)去干擾對(duì)方的通信兵,而通信兵則向后移動(dòng)躲避對(duì)方干擾兵的干擾。干擾子在進(jìn)入通信子可干擾范圍后,可以自動(dòng)選擇和通信方一致的干擾頻段進(jìn)行干擾,如圖7所示,紅干擾單元成功干擾藍(lán)方通信兵,使其不能通信。

        圖7 紅干擾單元成功干擾藍(lán)方通信兵

        當(dāng)通信方被干擾后,應(yīng)當(dāng)自動(dòng)逃離干擾子,通過(guò)訓(xùn)練學(xué)習(xí)后,通信子具備了此項(xiàng)能力,在被干擾后通信子優(yōu)先選擇了距離遠(yuǎn)離,并沒(méi)有優(yōu)先選擇改變頻段策略,只有無(wú)法移動(dòng)后,才選擇改變頻段,如圖8所示,藍(lán)方被干擾通信兵陳工逃離紅方干擾單元的干擾。

        圖8 藍(lán)方被干擾通信兵陳工逃離紅方干擾單元的干擾

        經(jīng)過(guò)計(jì)算機(jī)3天的增強(qiáng)學(xué)習(xí)訓(xùn)練,各干擾節(jié)點(diǎn)可以簡(jiǎn)單配合對(duì)通信節(jié)點(diǎn)進(jìn)行聯(lián)合干擾。近距離干擾節(jié)點(diǎn)可以組成一個(gè)小組進(jìn)行協(xié)作,對(duì)敵方多子進(jìn)行干擾,如圖9所示。

        圖9 近距離干擾兵作為一個(gè)小組進(jìn)行合作

        4 結(jié)束語(yǔ)

        本文對(duì)分布式通信對(duì)抗作戰(zhàn)進(jìn)行了模型建立和仿真運(yùn)行,設(shè)計(jì)了紅藍(lán)雙方多智能體、雙兵種的作戰(zhàn)模式,分別仿真了機(jī)器自主對(duì)戰(zhàn)和人機(jī)對(duì)戰(zhàn)的不同模式,在此基礎(chǔ)上利用基于平均場(chǎng)的強(qiáng)化學(xué)習(xí)算法,實(shí)現(xiàn)了在分布式通信對(duì)抗環(huán)境下的智能對(duì)抗系統(tǒng),并對(duì)敵方系統(tǒng)采用隨機(jī)策略、貪心策略以及人工策略的多種情況進(jìn)行了仿真。事實(shí)證明,該智能對(duì)抗系統(tǒng)能夠贏過(guò)隨機(jī)策略及貪心策略,且能夠在對(duì)抗人工策略時(shí)達(dá)到百分之五十的勝率。本文的方法為智能對(duì)抗系統(tǒng)的進(jìn)一步研究提供了新的思路,可以為智能對(duì)抗系統(tǒng)的發(fā)展提供參考。

        猜你喜歡
        頻段卷積狀態(tài)
        基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
        gPhone重力儀的面波頻段響應(yīng)實(shí)測(cè)研究
        地震研究(2021年1期)2021-04-13 01:04:56
        狀態(tài)聯(lián)想
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        基于傅里葉域卷積表示的目標(biāo)跟蹤算法
        生命的另一種狀態(tài)
        熱圖
        家庭百事通(2016年3期)2016-03-14 08:07:17
        推擠的5GHz頻段
        CHIP新電腦(2016年3期)2016-03-10 14:07:52
        堅(jiān)持是成功前的狀態(tài)
        山東青年(2016年3期)2016-02-28 14:25:52
        TD—LTE在D頻段和F頻段的覆蓋能力差異
        国产99在线 | 亚洲| 亚洲情精品中文字幕99在线| 亚洲不卡在线免费视频| 成在线人av免费无码高潮喷水 | 日本午夜免费福利视频| 亚洲一区二区在线视频播放| 亚洲av中文字字幕乱码软件| 蜜臀久久99精品久久久久久| 天堂а√在线中文在线新版| 国产亚洲sss在线观看| 亚洲精品久久麻豆蜜桃| 亚洲 欧美 综合 在线 精品| 99久久精品费精品国产一区二区| 二区久久国产乱子伦免费精品| 香蕉蜜桃av一区二区三区| 在线精品亚洲一区二区动态图| 国内揄拍国内精品人妻浪潮av| 亚洲 暴爽 AV人人爽日日碰| 国产精品综合女同人妖| 中文字幕色av一区二区三区| 亚洲综合色丁香婷婷六月图片| 亚洲欧洲无码精品ⅤA| 亚洲中文字幕久久精品色老板| 97无码免费人妻超级碰碰夜夜| 91麻豆精品激情在线观看最新| 手机在线免费av网址| 337p日本欧洲亚洲大胆色噜噜| 大肉大捧一进一出好爽视频mba| 午夜国产精品久久久久| 91精品国产综合久久精品密臀| 国产伦人人人人人人性| 国产人成午夜免电影观看| 亚洲一区二区三区国产精品| 亚洲精品国产精品乱码视色| 国产亚洲一区二区手机在线观看| 欧洲人体一区二区三区| 日本一区二区免费在线看| 性高湖久久久久久久久| 加勒比精品久久一区二区三区| 亚洲天堂av在线一区| 日日摸天天碰中文字幕你懂的|