亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度強(qiáng)化學(xué)習(xí)的無人艇集群博弈對抗

        2022-10-14 03:04:42劉殿勇
        兵器裝備工程學(xué)報(bào) 2022年9期
        關(guān)鍵詞:策略

        蘇 震,張 釗,陳 聰,劉殿勇,梁 霄

        (1.珠海云洲智能科技股份有限公司 工業(yè)發(fā)展部, 廣東 珠海 519080;2.大連海事大學(xué) 船舶與海洋工程學(xué)院, 遼寧 大連 116026)

        1 引言

        水面無人艇作為智能化無人系統(tǒng)和作戰(zhàn)平臺的代表性武器裝備,具有體積小、造價(jià)低、隱身性好、全海域航行、全天候工作等特點(diǎn),能夠在環(huán)境調(diào)查、情報(bào)偵查、警戒巡邏、反水雷作戰(zhàn)等領(lǐng)域發(fā)揮重要作用。

        在復(fù)雜多變的海洋環(huán)境下,單無人艇載荷配置十分有限、任務(wù)能力偏弱、作戰(zhàn)樣式相對單一,在很大程度上無法保證任務(wù)的順利完成。無人艇集群協(xié)同作戰(zhàn)可彌補(bǔ)單艇能力的不足,充分發(fā)揮群體靈活部署快、監(jiān)控范圍廣、作戰(zhàn)組織靈活、抗毀重構(gòu)性強(qiáng)等優(yōu)勢。為應(yīng)對無人艇集群攻擊,最有效的方法就是利用無人艇集群對入侵的無人艇集群進(jìn)行攔截、驅(qū)離或圍捕,從而形成無人艇集群間的博弈對抗。

        博弈對抗技術(shù)是智能化軍事應(yīng)用的基礎(chǔ)和共性技術(shù),是解決指揮控制中作戰(zhàn)方案生成、任務(wù)規(guī)劃及臨機(jī)決策等智能化的關(guān)鍵,同時也是訓(xùn)練模擬、自主集群無人化作戰(zhàn)等軍事關(guān)鍵領(lǐng)域智能化建設(shè)的核心技術(shù)基礎(chǔ)。因此,在網(wǎng)絡(luò)環(huán)境下,研究無人艇集群博弈對抗技術(shù)具有重要的理論意義和軍事價(jià)值。

        Marden等研究了基于博弈理論的協(xié)同對抗技術(shù),通過評估當(dāng)前行為的后續(xù)影響,以及對可能發(fā)生的情況進(jìn)行預(yù)測估計(jì),從而制定更為合理的實(shí)時方案。Atanassov等對傳統(tǒng)模糊集進(jìn)行了進(jìn)一步拓展,由于直覺模糊數(shù)的二元標(biāo)量性具有更強(qiáng)的模糊表述能力,被廣泛地應(yīng)用于解決不確定環(huán)境下的決策問題。Park等基于微分博弈理論,提出了一種機(jī)動決策方法,遵循分級決策結(jié)構(gòu),使用評分函數(shù)矩陣描述機(jī)動決策過程,以選擇動態(tài)作戰(zhàn)態(tài)勢下最優(yōu)機(jī)動決策方案,提升機(jī)動決策的有效性。邵將等通過建立多無人機(jī)協(xié)同空戰(zhàn)連續(xù)決策過程,使用貝葉斯推論對空戰(zhàn)態(tài)勢進(jìn)行實(shí)時評估,并以此設(shè)計(jì)的決策規(guī)則進(jìn)行機(jī)動決策。陳俠等通過建立無人機(jī)的能力函數(shù),建立多無人機(jī)協(xié)同打擊任務(wù)的攻防博弈模型,給出了有限策略靜態(tài)博弈模型與純策略納什均衡的求解方法。通過求解博弈模型的混合策略納什均衡解,并結(jié)合一定作戰(zhàn)經(jīng)驗(yàn),形成任務(wù)決策方法。段海濱等研究了“狼群”智能行為機(jī)理,并將其應(yīng)用于無人機(jī)集群系統(tǒng)對抗任務(wù),解決無人機(jī)集群協(xié)同決策問題。魏娜等針對多自主水下航行器的水下協(xié)同對抗博弈問題,以博弈論為基礎(chǔ),多無人艇的多次對抗為作戰(zhàn)背景,從同時考慮敵我雙方對抗策略的角度出發(fā),對多無人艇的動態(tài)協(xié)同攻防對抗策略問題進(jìn)行了研究。李瑞珍等采用協(xié)商法為機(jī)器人分配動態(tài)圍捕點(diǎn),建立包含圍捕路徑損耗和包圍效果的目標(biāo)函數(shù)并優(yōu)化 航向角,從而實(shí)現(xiàn)協(xié)同圍捕。陳亮等提出混合DDPG算法,有效協(xié)同異構(gòu)agent之間的工作,同時,Q函數(shù)重要信息丟失及過估計(jì)等問題有待解決。Foersteret提出了使用集中式評論家的 COMA,集中式評論家可以獲得全局信息來指導(dǎo)每個智能體,從而進(jìn)一步提高每個智能體的信息建模能力。

        上述研究成果的取得表明國內(nèi)外研究學(xué)者在無人艇集群博弈對抗方面取得了一定的研究成果,但仍處于起步階段,存在許多實(shí)際問題有待進(jìn)一步解決。

        第一,無人艇集群動態(tài)博弈對抗研究較少。海上博弈對抗環(huán)境復(fù)雜且目標(biāo)大都為動態(tài),動態(tài)對抗在決策過程中不僅需要考慮博弈前一階段的影響,同時需考慮對后一階段產(chǎn)生的后果。

        第二,實(shí)時決策效率較低。無人艇集群動態(tài)博弈對抗過程中,每個階段均需通過多步矩陣運(yùn)算產(chǎn)生對抗雙方的博弈收益,這將導(dǎo)致博弈空間復(fù)雜度成指數(shù)級增長,現(xiàn)有求解算法難以實(shí)現(xiàn)實(shí)時決策目的。

        本文中針對紅藍(lán)雙方無人艇集群動態(tài)博弈對抗問題,開展基于深度強(qiáng)化學(xué)習(xí)的無人艇集群協(xié)同圍捕決策研究。首先,根據(jù)無人艇集群狀態(tài)信息與無人艇運(yùn)動性能進(jìn)行圍捕環(huán)境建模;然后,采用基于雙評價(jià)網(wǎng)絡(luò)改進(jìn)的DDPG算法設(shè)計(jì)策略求解方法,并且立足協(xié)同圍捕任務(wù),設(shè)計(jì)基于距離和相對角度的階段性獎勵函數(shù);最終,經(jīng)仿真實(shí)驗(yàn)驗(yàn)證,訓(xùn)練得到的智能體能夠較好的完成協(xié)同圍捕任務(wù)。

        2 問題描述

        無人艇集群協(xié)同圍捕是集群作戰(zhàn)的典型樣式,在無限大且無障礙的作戰(zhàn)區(qū)域內(nèi),存在若干艘逃逸無人艇與圍捕無人艇,逃逸無人艇要在躲避圍捕無人艇追蹤;圍捕無人艇要對逃逸無人艇盡快完成對其的圍捕。本文中追擊-逃逸過程在二維平面內(nèi)進(jìn)行,且假設(shè)通過探測設(shè)備,雙方均能獲得所有無人艇運(yùn)動參數(shù)信息。

        紅方無人艇的目標(biāo)點(diǎn)均勻分布在以藍(lán)方艇群中心為圓心,以為半徑的圓上。此外,考慮到無人艇機(jī)動性,若各紅方艇距離目標(biāo)點(diǎn)均小于時,可視為圍捕完成。以5艘圍捕無人艇,一艘逃逸無人艇為例,圍捕過程如圖1所示,圍捕完成如圖2所示。

        圖1 圍捕過程示意圖Fig.1 Round up process

        圖2 圍捕完成示意圖Fig.2 Round up complete

        無人艇運(yùn)動模型為

        (1)

        式中:表示第艘無人艇橫向位置;表示無人艇縱向位置;表示無人艇速度大?。?span id="0uqc00k" class="subscript">表示無人艇艏向角。

        第艘無人艇與第艘無人艇相對距離和相對角度

        (2)

        狀態(tài)空間包括各無人艇位置信息,其具體形式為

        =(,,,,…,,,,)

        (3)

        無人艇動作空間是連續(xù)的,對應(yīng)的動作為二維速度向量。定義藍(lán)方無人艇速度大小∈[0,max],max為藍(lán)方無人艇速度上限;艏相角∈[0,2π](單位為弧度);定義紅方無人艇速度大小∈[0,max],max為紅方無人艇速度上限;艏相角∈[0,2π]。

        3 集群博弈對抗策略

        本文中基于改進(jìn)的深度確定性策略梯度(deep deterministic policy gradient,DDPG)算法研究無人艇集群博弈對抗策略問題,DDPG算法結(jié)構(gòu)如圖3所示。

        圖3 DDPG算法結(jié)構(gòu)框圖Fig.3 DDPG structure

        首先,為每艘無人艇設(shè)計(jì)策略網(wǎng)絡(luò)和評價(jià)網(wǎng)絡(luò),其中的評價(jià)網(wǎng)絡(luò)接收無人艇的狀態(tài)和動作進(jìn)行學(xué)習(xí),策略網(wǎng)絡(luò)只接收狀態(tài)信息。該算法主要包括策略函數(shù)網(wǎng)絡(luò)和評價(jià)函數(shù)網(wǎng)絡(luò),且每個網(wǎng)絡(luò)均包括了主網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò),主網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)的結(jié)構(gòu)完全一樣,網(wǎng)絡(luò)總體結(jié)構(gòu)如圖4所示。

        圖4 策略網(wǎng)絡(luò)和評價(jià)網(wǎng)絡(luò)總體結(jié)構(gòu)框圖Fig.4 Network structure of actor and critic

        DDPG算法是深度Q網(wǎng)絡(luò)算法在連續(xù)動作空間的進(jìn)階版,因此DDPG同樣存在目標(biāo)值高估問題。針對該問題對算法結(jié)構(gòu)做出如下改進(jìn):

        1) 建立2套結(jié)構(gòu)相同的評價(jià)網(wǎng)絡(luò),計(jì)算時序差分目標(biāo)時采用2個目標(biāo)網(wǎng)絡(luò)輸出中的較小值作為目標(biāo)值,2個主網(wǎng)絡(luò)均通過最小化均方差更新。

        2) 降低策略網(wǎng)絡(luò)的更新頻率,促使評價(jià)網(wǎng)絡(luò)更新更穩(wěn)定。

        3) 在目標(biāo)策略網(wǎng)絡(luò)的輸出上增加一個服從正態(tài)分布的噪聲,從而平滑值估計(jì),避免評價(jià)網(wǎng)絡(luò)過擬合。策略主網(wǎng)絡(luò)更新時,采用2個評價(jià)主網(wǎng)絡(luò)輸出的較小值。

        算法流程如下:

        改進(jìn)的DDPG算法

        初始化策略網(wǎng)絡(luò)和2套評價(jià)網(wǎng)絡(luò)參數(shù)

        初始化經(jīng)驗(yàn)池

        for episode=1,do

        初始化智能體狀態(tài)

        for=1,do

        為每一個智能體,選擇加入噪聲的隨機(jī)過程動作

        返回所有智能體的動作集合,獎勵,下一個狀態(tài)值

        儲存狀態(tài)轉(zhuǎn)移數(shù)據(jù)對到經(jīng)驗(yàn)池

        從經(jīng)驗(yàn)池中隨機(jī)選擇最小批次數(shù)據(jù)

        計(jì)算損失函數(shù)更新評價(jià)網(wǎng)絡(luò)

        計(jì)算策略梯度更新策略網(wǎng)絡(luò)

        “軟更新”目標(biāo)網(wǎng)絡(luò)參數(shù)

        End for

        End for

        其中,代表總回合數(shù);代表回合時長。

        獎勵函數(shù)決定了深度強(qiáng)化學(xué)習(xí)的收斂速度與收斂程度,需要根據(jù)作業(yè)任務(wù)與環(huán)境來設(shè)置獎勵函數(shù)。在傳統(tǒng)強(qiáng)化學(xué)習(xí)中,獎勵函數(shù)的設(shè)計(jì)通常做法是只有一個結(jié)果獎勵,即只有在智能體到達(dá)最終目標(biāo)時才會獲得獎勵,因此這種做法在操作規(guī)則較為復(fù)雜的任務(wù)中并不適用。為此,本文中將任務(wù)獎勵分解為目標(biāo)獎勵與過程獎勵兩部分,通過賦予無人艇階段性運(yùn)動獎勵來引導(dǎo)其學(xué)習(xí)到正確的圍捕行為,得到最優(yōu)博弈對抗策略的同時避免回報(bào)稀疏問題。針對協(xié)同圍捕,下面設(shè)計(jì)紅方無人艇獎勵函數(shù)。

        集體獎勵函數(shù)

        (4)

        式中:為第艘紅方無人艇距藍(lán)方無人艇的距離;為第艘紅方無人艇與藍(lán)方無人艇的角度。

        =1+2+3

        (5)

        式中:1表示當(dāng)紅方與藍(lán)方距離未達(dá)到包圍范圍時獎勵,獎勵考慮因素為平均距離;2表示當(dāng)紅方與藍(lán)方距離達(dá)到包圍范圍時獎勵,獎勵考慮因素為相對角度;3表示規(guī)定時間內(nèi)未完成圍捕,紅方任務(wù)失敗。

        4 仿真結(jié)果

        為驗(yàn)證基于深度強(qiáng)化學(xué)習(xí)的無人艇集群博弈對抗策略有效性,下面分別進(jìn)行5對1和7對3圍捕下的集群博弈對抗仿真。

        5對1下的仿真參數(shù)如表1所示。收益如圖5所示,其中,回合收益表示一回合中每次迭代所獲得的獎勵的和,平均收益為最近一百回合收益的平均值??梢钥闯觯找嬲w呈上升趨勢并最終穩(wěn)定在較高水平,證明所建立的已經(jīng)收斂。算法約在3 800回合收斂,最大獎勵值為800,每艘無人艇均可到達(dá)目標(biāo)位置完成圍捕任務(wù)。

        表1 5對1仿真參數(shù)Table 1 Simulation parameters under 5 vs 1

        圖5 5對1回合收益示意圖Fig.5 Round reward under 5 vs 1

        圍捕仿真結(jié)果如圖6所示,圖6(a)為起始位置,圖6(d)為圍捕完成時位置,中間各時刻位置圖相差14 s。在圍捕初始時刻,紅方無人艇位置相對分散,藍(lán)方無人艇出現(xiàn)在紅方無人艇北偏西方向。隨后,紅方向藍(lán)方無人艇所在方向進(jìn)行集中,逐漸接近藍(lán)方無人艇;藍(lán)方無人艇向目標(biāo)區(qū)域靠近,并在紅方無人艇接近時向北方向進(jìn)行偏移躲避,狀態(tài)如圖6(b)所示。接著,紅方無人艇追上藍(lán)方無人艇并在其周圍做伴隨運(yùn)動,逐漸形成圍捕趨勢;藍(lán)方無人艇繼續(xù)向目標(biāo)區(qū)域靠近,狀態(tài)如圖6 (c)所示。最終,紅方無人艇在藍(lán)方無人艇到達(dá)目標(biāo)區(qū)域前完成對藍(lán)方無人艇的圍捕,狀態(tài)如圖6(d)所示。

        圖6 5對1仿真結(jié)果示意圖Fig.6 Simulation results under 5 vs 1

        7對3下的仿真參數(shù)如表2所示。收益如圖7所示,可以看出,收益值呈整體上升并最終穩(wěn)定在較高水平,算法約在4 300回合收斂,最大獎勵值為1 000,每艘無人艇均可到達(dá)目標(biāo)位置完成圍捕任務(wù)。

        表2 7對3仿真參數(shù)Table 2 Simulation parameters under 7 vs 3

        圖7 7對3回合示意圖Fig.7 Round reward under 7 vs 3

        圍捕仿真結(jié)果如圖8所示,圖中(a)為起始位置,(d)為圍捕完成時位置,中間各時刻位置圖相差32 s。在圍捕初始時刻,紅方無人艇與藍(lán)方無人艇相距300 m左右,藍(lán)方無人艇位于紅方無人艇北方向,目標(biāo)區(qū)域位于藍(lán)方無人艇東北方向,紅藍(lán)雙方位置均較為散亂。隨后,紅方無人艇向藍(lán)方無人艇所在方向進(jìn)行運(yùn)動;藍(lán)方無人艇邊向目標(biāo)區(qū)域靠近,邊對紅方無人艇追捕行為進(jìn)行躲避,狀態(tài)如圖(b)所示。接著,紅方無人艇追上藍(lán)方無人艇,并在其周圍逐漸展開圍捕趨勢;藍(lán)方無人艇繼續(xù)向目標(biāo)區(qū)域運(yùn)動,狀態(tài)如圖(c)所示。最終,紅方無人艇完成對藍(lán)方無人艇的圍捕,圍捕半徑約為300 m,并以圍捕狀態(tài)伴隨在藍(lán)方無人艇周圍進(jìn)行運(yùn)動,狀態(tài)如圖(d)所示。

        圖8 7對3仿真結(jié)果示意圖Fig.8 Simulation results under 7 vs 3

        5 結(jié)論

        設(shè)計(jì)了協(xié)同圍捕環(huán)境下深度強(qiáng)化學(xué)習(xí)算法的狀態(tài)信息、動作信息、神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和獎勵函數(shù),并分別開展了5對1和7對3下的集群博弈對抗仿真驗(yàn)證。仿真結(jié)果表明,基于深度強(qiáng)化學(xué)習(xí)的紅方無人艇集群能夠?qū)λ{(lán)方無人艇進(jìn)行有效的協(xié)同圍捕。未來工作將在此基礎(chǔ)上研究弱連通下的無人艇集群博弈對抗。

        猜你喜歡
        策略
        基于“選—練—評”一體化的二輪復(fù)習(xí)策略
        幾何創(chuàng)新題的處理策略
        求初相φ的常見策略
        例談未知角三角函數(shù)值的求解策略
        我說你做講策略
        “我說你做”講策略
        數(shù)據(jù)分析中的避錯策略
        高中數(shù)學(xué)復(fù)習(xí)的具體策略
        “唱反調(diào)”的策略
        幸福(2017年18期)2018-01-03 06:34:53
        價(jià)格調(diào)整 講策略求互動
        情爱偷拍视频一区二区| 亚洲婷婷久久播66性av| 亚洲精品大全中文字幕| 天堂av无码大芭蕉伊人av孕妇黑人| 激情人妻中出中文字幕一区| 青青草视频在线观看9| 国产精品国产三级国产专区不| 99国产精品久久99久久久| 亚洲成av人在线播放无码| 特级做a爰片毛片免费看108| 亚洲暴爽av天天爽日日碰| 亚洲国产精品久久久天堂不卡海量| 伊在人亚洲香蕉精品区麻豆| 亚洲av永久综合网站美女| 天堂久久一区二区三区| 极品尤物精品在线观看| 亚洲一区av在线观看| 亚洲日韩成人av无码网站| 久久精品国产99久久丝袜| 亚洲人妻中文字幕在线视频| 亚洲av推荐网站在线观看| 亚洲精品国产成人久久av| 亚洲妇熟xxxx妇色黄| 久久夜色精品国产噜噜亚洲av | 中文亚洲av片在线观看不卡| 日本污视频| 日韩美女人妻一区二区三区| 人妻少妇猛烈井进入中文字幕 | 亚洲一区二区三区香蕉| 毛茸茸的中国女bbw| 亚洲免费天堂| 美女偷拍一区二区三区| 一区二区三区无码高清视频| 韩国三级中文字幕hd| 欧美黑人疯狂性受xxxxx喷水| 91综合久久婷婷久久| 国产精品老熟女乱一区二区| 麻豆md0077饥渴少妇| 夜夜躁狠狠躁2021| 久久亚洲道色宗和久久| 国产美女冒白浆视频免费|