亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于深度強(qiáng)化學(xué)習(xí)的無人艇集群博弈對抗

2022-10-14 03:04:42劉殿勇

兵器裝備工程學(xué)報(bào) 2022年9期

關(guān)鍵詞：策略

蘇震，張釗，陳聰，劉殿勇，梁霄

(1.珠海云洲智能科技股份有限公司工業(yè)發(fā)展部，廣東珠海 519080；2.大連海事大學(xué) 船舶與海洋工程學(xué)院，遼寧大連 116026)

1 引言

水面無人艇作為智能化無人系統(tǒng)和作戰(zhàn)平臺的代表性武器裝備，具有體積小、造價(jià)低、隱身性好、全海域航行、全天候工作等特點(diǎn)，能夠在環(huán)境調(diào)查、情報(bào)偵查、警戒巡邏、反水雷作戰(zhàn)等領(lǐng)域發(fā)揮重要作用。

在復(fù)雜多變的海洋環(huán)境下，單無人艇載荷配置十分有限、任務(wù)能力偏弱、作戰(zhàn)樣式相對單一，在很大程度上無法保證任務(wù)的順利完成。無人艇集群協(xié)同作戰(zhàn)可彌補(bǔ)單艇能力的不足，充分發(fā)揮群體靈活部署快、監(jiān)控范圍廣、作戰(zhàn)組織靈活、抗毀重構(gòu)性強(qiáng)等優(yōu)勢。為應(yīng)對無人艇集群攻擊，最有效的方法就是利用無人艇集群對入侵的無人艇集群進(jìn)行攔截、驅(qū)離或圍捕，從而形成無人艇集群間的博弈對抗。

博弈對抗技術(shù)是智能化軍事應(yīng)用的基礎(chǔ)和共性技術(shù)，是解決指揮控制中作戰(zhàn)方案生成、任務(wù)規(guī)劃及臨機(jī)決策等智能化的關(guān)鍵，同時也是訓(xùn)練模擬、自主集群無人化作戰(zhàn)等軍事關(guān)鍵領(lǐng)域智能化建設(shè)的核心技術(shù)基礎(chǔ)。因此，在網(wǎng)絡(luò)環(huán)境下，研究無人艇集群博弈對抗技術(shù)具有重要的理論意義和軍事價(jià)值。

Marden等研究了基于博弈理論的協(xié)同對抗技術(shù)，通過評估當(dāng)前行為的后續(xù)影響，以及對可能發(fā)生的情況進(jìn)行預(yù)測估計(jì)，從而制定更為合理的實(shí)時方案。Atanassov等對傳統(tǒng)模糊集進(jìn)行了進(jìn)一步拓展，由于直覺模糊數(shù)的二元標(biāo)量性具有更強(qiáng)的模糊表述能力，被廣泛地應(yīng)用于解決不確定環(huán)境下的決策問題。Park等基于微分博弈理論，提出了一種機(jī)動決策方法，遵循分級決策結(jié)構(gòu)，使用評分函數(shù)矩陣描述機(jī)動決策過程，以選擇動態(tài)作戰(zhàn)態(tài)勢下最優(yōu)機(jī)動決策方案，提升機(jī)動決策的有效性。邵將等通過建立多無人機(jī)協(xié)同空戰(zhàn)連續(xù)決策過程，使用貝葉斯推論對空戰(zhàn)態(tài)勢進(jìn)行實(shí)時評估，并以此設(shè)計(jì)的決策規(guī)則進(jìn)行機(jī)動決策。陳俠等通過建立無人機(jī)的能力函數(shù)，建立多無人機(jī)協(xié)同打擊任務(wù)的攻防博弈模型，給出了有限策略靜態(tài)博弈模型與純策略納什均衡的求解方法。通過求解博弈模型的混合策略納什均衡解，并結(jié)合一定作戰(zhàn)經(jīng)驗(yàn)，形成任務(wù)決策方法。段海濱等研究了“狼群”智能行為機(jī)理，并將其應(yīng)用于無人機(jī)集群系統(tǒng)對抗任務(wù)，解決無人機(jī)集群協(xié)同決策問題。魏娜等針對多自主水下航行器的水下協(xié)同對抗博弈問題，以博弈論為基礎(chǔ)，多無人艇的多次對抗為作戰(zhàn)背景，從同時考慮敵我雙方對抗策略的角度出發(fā)，對多無人艇的動態(tài)協(xié)同攻防對抗策略問題進(jìn)行了研究。李瑞珍等采用協(xié)商法為機(jī)器人分配動態(tài)圍捕點(diǎn)，建立包含圍捕路徑損耗和包圍效果的目標(biāo)函數(shù)并優(yōu)化航向角，從而實(shí)現(xiàn)協(xié)同圍捕。陳亮等提出混合DDPG算法，有效協(xié)同異構(gòu)agent之間的工作，同時，Q函數(shù)重要信息丟失及過估計(jì)等問題有待解決。Foersteret提出了使用集中式評論家的 COMA，集中式評論家可以獲得全局信息來指導(dǎo)每個智能體，從而進(jìn)一步提高每個智能體的信息建模能力。

上述研究成果的取得表明國內(nèi)外研究學(xué)者在無人艇集群博弈對抗方面取得了一定的研究成果，但仍處于起步階段，存在許多實(shí)際問題有待進(jìn)一步解決。

第一，無人艇集群動態(tài)博弈對抗研究較少。海上博弈對抗環(huán)境復(fù)雜且目標(biāo)大都為動態(tài)，動態(tài)對抗在決策過程中不僅需要考慮博弈前一階段的影響，同時需考慮對后一階段產(chǎn)生的后果。

第二，實(shí)時決策效率較低。無人艇集群動態(tài)博弈對抗過程中，每個階段均需通過多步矩陣運(yùn)算產(chǎn)生對抗雙方的博弈收益，這將導(dǎo)致博弈空間復(fù)雜度成指數(shù)級增長，現(xiàn)有求解算法難以實(shí)現(xiàn)實(shí)時決策目的。

本文中針對紅藍(lán)雙方無人艇集群動態(tài)博弈對抗問題，開展基于深度強(qiáng)化學(xué)習(xí)的無人艇集群協(xié)同圍捕決策研究。首先，根據(jù)無人艇集群狀態(tài)信息與無人艇運(yùn)動性能進(jìn)行圍捕環(huán)境建模；然后，采用基于雙評價(jià)網(wǎng)絡(luò)改進(jìn)的DDPG算法設(shè)計(jì)策略求解方法，并且立足協(xié)同圍捕任務(wù)，設(shè)計(jì)基于距離和相對角度的階段性獎勵函數(shù)；最終，經(jīng)仿真實(shí)驗(yàn)驗(yàn)證，訓(xùn)練得到的智能體能夠較好的完成協(xié)同圍捕任務(wù)。

2 問題描述

無人艇集群協(xié)同圍捕是集群作戰(zhàn)的典型樣式，在無限大且無障礙的作戰(zhàn)區(qū)域內(nèi)，存在若干艘逃逸無人艇與圍捕無人艇，逃逸無人艇要在躲避圍捕無人艇追蹤；圍捕無人艇要對逃逸無人艇盡快完成對其的圍捕。本文中追擊-逃逸過程在二維平面內(nèi)進(jìn)行，且假設(shè)通過探測設(shè)備，雙方均能獲得所有無人艇運(yùn)動參數(shù)信息。

紅方無人艇的目標(biāo)點(diǎn)均勻分布在以藍(lán)方艇群中心為圓心，以為半徑的圓上。此外，考慮到無人艇機(jī)動性，若各紅方艇距離目標(biāo)點(diǎn)均小于時，可視為圍捕完成。以5艘圍捕無人艇，一艘逃逸無人艇為例，圍捕過程如圖1所示，圍捕完成如圖2所示。

圖1 圍捕過程示意圖Fig.1 Round up process

圖2 圍捕完成示意圖Fig.2 Round up complete

無人艇運(yùn)動模型為

(1)

式中:表示第艘無人艇橫向位置；表示無人艇縱向位置；表示無人艇速度大?。?span id="0uqc00k" class="subscript">表示無人艇艏向角。

第艘無人艇與第艘無人艇相對距離和相對角度為

(2)

狀態(tài)空間包括各無人艇位置信息，其具體形式為

=(,,,,…,,,,)

(3)

無人艇動作空間是連續(xù)的，對應(yīng)的動作為二維速度向量。定義藍(lán)方無人艇速度大小∈[0,max]，max為藍(lán)方無人艇速度上限；艏相角∈[0,2π](單位為弧度)；定義紅方無人艇速度大小∈[0,max]，max為紅方無人艇速度上限；艏相角∈[0,2π]。

3 集群博弈對抗策略

本文中基于改進(jìn)的深度確定性策略梯度(deep deterministic policy gradient,DDPG)算法研究無人艇集群博弈對抗策略問題，DDPG算法結(jié)構(gòu)如圖3所示。

圖3 DDPG算法結(jié)構(gòu)框圖Fig.3 DDPG structure

首先，為每艘無人艇設(shè)計(jì)策略網(wǎng)絡(luò)和評價(jià)網(wǎng)絡(luò)，其中的評價(jià)網(wǎng)絡(luò)接收無人艇的狀態(tài)和動作進(jìn)行學(xué)習(xí)，策略網(wǎng)絡(luò)只接收狀態(tài)信息。該算法主要包括策略函數(shù)網(wǎng)絡(luò)和評價(jià)函數(shù)網(wǎng)絡(luò)，且每個網(wǎng)絡(luò)均包括了主網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)，主網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)的結(jié)構(gòu)完全一樣，網(wǎng)絡(luò)總體結(jié)構(gòu)如圖4所示。

圖4 策略網(wǎng)絡(luò)和評價(jià)網(wǎng)絡(luò)總體結(jié)構(gòu)框圖Fig.4 Network structure of actor and critic

DDPG算法是深度Q網(wǎng)絡(luò)算法在連續(xù)動作空間的進(jìn)階版，因此DDPG同樣存在目標(biāo)值高估問題。針對該問題對算法結(jié)構(gòu)做出如下改進(jìn)：

1) 建立2套結(jié)構(gòu)相同的評價(jià)網(wǎng)絡(luò)，計(jì)算時序差分目標(biāo)時采用2個目標(biāo)網(wǎng)絡(luò)輸出中的較小值作為目標(biāo)值，2個主網(wǎng)絡(luò)均通過最小化均方差更新。

2) 降低策略網(wǎng)絡(luò)的更新頻率，促使評價(jià)網(wǎng)絡(luò)更新更穩(wěn)定。

3) 在目標(biāo)策略網(wǎng)絡(luò)的輸出上增加一個服從正態(tài)分布的噪聲，從而平滑值估計(jì)，避免評價(jià)網(wǎng)絡(luò)過擬合。策略主網(wǎng)絡(luò)更新時，采用2個評價(jià)主網(wǎng)絡(luò)輸出的較小值。

算法流程如下：

改進(jìn)的DDPG算法

初始化策略網(wǎng)絡(luò)和2套評價(jià)網(wǎng)絡(luò)參數(shù)

初始化經(jīng)驗(yàn)池

for episode=1，do

初始化智能體狀態(tài)

for=1，do

為每一個智能體，選擇加入噪聲的隨機(jī)過程動作

返回所有智能體的動作集合，獎勵，下一個狀態(tài)值

儲存狀態(tài)轉(zhuǎn)移數(shù)據(jù)對到經(jīng)驗(yàn)池

從經(jīng)驗(yàn)池中隨機(jī)選擇最小批次數(shù)據(jù)

計(jì)算損失函數(shù)更新評價(jià)網(wǎng)絡(luò)

計(jì)算策略梯度更新策略網(wǎng)絡(luò)

“軟更新”目標(biāo)網(wǎng)絡(luò)參數(shù)

End for

其中，代表總回合數(shù)；代表回合時長。

獎勵函數(shù)決定了深度強(qiáng)化學(xué)習(xí)的收斂速度與收斂程度，需要根據(jù)作業(yè)任務(wù)與環(huán)境來設(shè)置獎勵函數(shù)。在傳統(tǒng)強(qiáng)化學(xué)習(xí)中，獎勵函數(shù)的設(shè)計(jì)通常做法是只有一個結(jié)果獎勵，即只有在智能體到達(dá)最終目標(biāo)時才會獲得獎勵，因此這種做法在操作規(guī)則較為復(fù)雜的任務(wù)中并不適用。為此，本文中將任務(wù)獎勵分解為目標(biāo)獎勵與過程獎勵兩部分，通過賦予無人艇階段性運(yùn)動獎勵來引導(dǎo)其學(xué)習(xí)到正確的圍捕行為，得到最優(yōu)博弈對抗策略的同時避免回報(bào)稀疏問題。針對協(xié)同圍捕，下面設(shè)計(jì)紅方無人艇獎勵函數(shù)。

集體獎勵函數(shù)為

(4)

式中:為第艘紅方無人艇距藍(lán)方無人艇的距離；為第艘紅方無人艇與藍(lán)方無人艇的角度。

=1+2+3

(5)

式中:1表示當(dāng)紅方與藍(lán)方距離未達(dá)到包圍范圍時獎勵，獎勵考慮因素為平均距離；2表示當(dāng)紅方與藍(lán)方距離達(dá)到包圍范圍時獎勵，獎勵考慮因素為相對角度；3表示規(guī)定時間內(nèi)未完成圍捕，紅方任務(wù)失敗。

4 仿真結(jié)果

為驗(yàn)證基于深度強(qiáng)化學(xué)習(xí)的無人艇集群博弈對抗策略有效性，下面分別進(jìn)行5對1和7對3圍捕下的集群博弈對抗仿真。

5對1下的仿真參數(shù)如表1所示。收益如圖5所示，其中，回合收益表示一回合中每次迭代所獲得的獎勵的和，平均收益為最近一百回合收益的平均值?？梢钥闯觯找嬲w呈上升趨勢并最終穩(wěn)定在較高水平，證明所建立的已經(jīng)收斂。算法約在3 800回合收斂，最大獎勵值為800，每艘無人艇均可到達(dá)目標(biāo)位置完成圍捕任務(wù)。

表1 5對1仿真參數(shù)Table 1 Simulation parameters under 5 vs 1

圖5 5對1回合收益示意圖Fig.5 Round reward under 5 vs 1

圍捕仿真結(jié)果如圖6所示，圖6(a)為起始位置，圖6(d)為圍捕完成時位置，中間各時刻位置圖相差14 s。在圍捕初始時刻，紅方無人艇位置相對分散，藍(lán)方無人艇出現(xiàn)在紅方無人艇北偏西方向。隨后，紅方向藍(lán)方無人艇所在方向進(jìn)行集中，逐漸接近藍(lán)方無人艇；藍(lán)方無人艇向目標(biāo)區(qū)域靠近，并在紅方無人艇接近時向北方向進(jìn)行偏移躲避，狀態(tài)如圖6(b)所示。接著，紅方無人艇追上藍(lán)方無人艇并在其周圍做伴隨運(yùn)動，逐漸形成圍捕趨勢；藍(lán)方無人艇繼續(xù)向目標(biāo)區(qū)域靠近，狀態(tài)如圖6 (c)所示。最終，紅方無人艇在藍(lán)方無人艇到達(dá)目標(biāo)區(qū)域前完成對藍(lán)方無人艇的圍捕，狀態(tài)如圖6(d)所示。

圖6 5對1仿真結(jié)果示意圖Fig.6 Simulation results under 5 vs 1

7對3下的仿真參數(shù)如表2所示。收益如圖7所示，可以看出，收益值呈整體上升并最終穩(wěn)定在較高水平，算法約在4 300回合收斂，最大獎勵值為1 000，每艘無人艇均可到達(dá)目標(biāo)位置完成圍捕任務(wù)。

表2 7對3仿真參數(shù)Table 2 Simulation parameters under 7 vs 3

圖7 7對3回合示意圖Fig.7 Round reward under 7 vs 3

圍捕仿真結(jié)果如圖8所示，圖中(a)為起始位置，(d)為圍捕完成時位置，中間各時刻位置圖相差32 s。在圍捕初始時刻，紅方無人艇與藍(lán)方無人艇相距300 m左右，藍(lán)方無人艇位于紅方無人艇北方向，目標(biāo)區(qū)域位于藍(lán)方無人艇東北方向，紅藍(lán)雙方位置均較為散亂。隨后，紅方無人艇向藍(lán)方無人艇所在方向進(jìn)行運(yùn)動；藍(lán)方無人艇邊向目標(biāo)區(qū)域靠近，邊對紅方無人艇追捕行為進(jìn)行躲避，狀態(tài)如圖(b)所示。接著，紅方無人艇追上藍(lán)方無人艇，并在其周圍逐漸展開圍捕趨勢；藍(lán)方無人艇繼續(xù)向目標(biāo)區(qū)域運(yùn)動，狀態(tài)如圖(c)所示。最終，紅方無人艇完成對藍(lán)方無人艇的圍捕，圍捕半徑約為300 m，并以圍捕狀態(tài)伴隨在藍(lán)方無人艇周圍進(jìn)行運(yùn)動，狀態(tài)如圖(d)所示。

圖8 7對3仿真結(jié)果示意圖Fig.8 Simulation results under 7 vs 3

5 結(jié)論

設(shè)計(jì)了協(xié)同圍捕環(huán)境下深度強(qiáng)化學(xué)習(xí)算法的狀態(tài)信息、動作信息、神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和獎勵函數(shù)，并分別開展了5對1和7對3下的集群博弈對抗仿真驗(yàn)證。仿真結(jié)果表明，基于深度強(qiáng)化學(xué)習(xí)的紅方無人艇集群能夠?qū)λ{(lán)方無人艇進(jìn)行有效的協(xié)同圍捕。未來工作將在此基礎(chǔ)上研究弱連通下的無人艇集群博弈對抗。