亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于DDPG算法的無(wú)人機(jī)集群追擊任務(wù)

        2020-11-06 06:44:34張耀中許佳林姚康佳劉潔凌
        航空學(xué)報(bào) 2020年10期
        關(guān)鍵詞:評(píng)論家人工神經(jīng)網(wǎng)絡(luò)集群

        張耀中,許佳林,姚康佳,劉潔凌

        1.西北工業(yè)大學(xué) 電子信息學(xué)院,西安 710072 2.西安北方光電科技防務(wù)有限公司,西安 710043

        無(wú)人機(jī)與有人飛機(jī)相比,具有體積小、造價(jià)低、使用方便、對(duì)作戰(zhàn)環(huán)境要求低、戰(zhàn)場(chǎng)生存能力強(qiáng)等優(yōu)點(diǎn)。在過(guò)去的幾十年里,伴隨著導(dǎo)航、傳感器、能量存儲(chǔ)與制造等相關(guān)技術(shù)的發(fā)展,無(wú)人機(jī)在軍用和民用領(lǐng)域都得到了廣泛的應(yīng)用。

        隨著無(wú)人機(jī)在相關(guān)領(lǐng)域應(yīng)用的不斷推進(jìn),單架無(wú)人機(jī)在執(zhí)行任務(wù)時(shí)暴露出了靈活性差和任務(wù)完成率低的短板,因此使用多架無(wú)人機(jī)構(gòu)成集群協(xié)同執(zhí)行相關(guān)任務(wù)必將成為無(wú)人機(jī)未來(lái)應(yīng)用的重要發(fā)展方向。無(wú)人機(jī)集群可以看作是一個(gè)多Agent 系統(tǒng)(Multi-Agent Systems,MAS),其目標(biāo)是協(xié)調(diào)集群內(nèi)的無(wú)人機(jī)實(shí)現(xiàn)一個(gè)共同的任務(wù)目標(biāo)。

        當(dāng)前對(duì)無(wú)人機(jī)集群的眾多研究都集中在協(xié)同任務(wù)決策方面,通過(guò)蟻群算法、狼群算法等有關(guān)的群體智能算法來(lái)實(shí)現(xiàn)對(duì)多架無(wú)人機(jī)的指揮控制。但這些方法有著計(jì)算時(shí)間過(guò)長(zhǎng)、靈活性不足、智能化程度低的缺點(diǎn),無(wú)法很好地滿(mǎn)足無(wú)人機(jī)集群對(duì)于無(wú)中心化、自主化、自治化的要求。相比而言,人工智能領(lǐng)域中的深度強(qiáng)化學(xué)習(xí)方法憑借著其強(qiáng)大的高維度信息感知、理解以及非線(xiàn)性處理能力,有望使無(wú)人機(jī)集群在面向戰(zhàn)場(chǎng)復(fù)雜任務(wù)時(shí)有足夠的智能協(xié)同完成作戰(zhàn)任務(wù)。

        目前,已經(jīng)有諸多學(xué)者使用深度強(qiáng)化學(xué)習(xí)方法對(duì)無(wú)人機(jī)集群的相關(guān)問(wèn)題進(jìn)行了探索性研究。其中,Pham等基于深度強(qiáng)化學(xué)習(xí)算法對(duì)無(wú)人機(jī)的自主導(dǎo)航過(guò)程進(jìn)行了研究,并應(yīng)用于自主目標(biāo)區(qū)域覆蓋問(wèn)題,在一定程度上解決了無(wú)人機(jī)集群聯(lián)合行動(dòng)下的協(xié)同任務(wù)規(guī)劃問(wèn)題和高維度狀態(tài)空間的挑戰(zhàn)[1-2];Qi和Zhu使用深度強(qiáng)化學(xué)習(xí)研究了智能體的環(huán)境感知問(wèn)題,實(shí)現(xiàn)了對(duì)相鄰智能體的意圖感知[3];李高壘[4]和魏航[5]使用深度強(qiáng)化學(xué)習(xí)方法研究了影響無(wú)人機(jī)自主空戰(zhàn)的相關(guān)因素,為未來(lái)智能空戰(zhàn)提供了理論依據(jù)。Yamaguchi引入反饋控制律研究多機(jī)器人的協(xié)調(diào)運(yùn)動(dòng)問(wèn)題,采用隊(duì)形矢量法控制機(jī)器人群體隊(duì)形實(shí)現(xiàn)了對(duì)目標(biāo)的追擊[6]。目前已有部分學(xué)者采用人工智能算法來(lái)解決無(wú)人機(jī)對(duì)目標(biāo)的追擊問(wèn)題,如Gadre采用Q學(xué)習(xí)算法在柵格化環(huán)境下研究了智能體的追擊問(wèn)題,并與動(dòng)態(tài)規(guī)劃算法進(jìn)行對(duì)比,取得了較好的效果[7]。蘇治寶等通過(guò)對(duì)未知環(huán)境中多移動(dòng)智能體追擊單目標(biāo)問(wèn)題的研究,采用強(qiáng)化學(xué)習(xí)中的Q學(xué)習(xí)算法給出了相應(yīng)的解決方案[8]。通過(guò)對(duì)相關(guān)文獻(xiàn)的分析可以看出,目前在無(wú)人機(jī)集群應(yīng)用方面的研究還不夠完善,所研究問(wèn)題的規(guī)模都比較小,而且大多采用柵格化的任務(wù)環(huán)境,導(dǎo)致應(yīng)用環(huán)境過(guò)于簡(jiǎn)單。

        與此同時(shí),一些軍事強(qiáng)國(guó),如美、英、俄羅斯等都在開(kāi)展將人工智能技術(shù)應(yīng)用于無(wú)人機(jī)集群任務(wù)的相關(guān)實(shí)驗(yàn)驗(yàn)證,美國(guó)已經(jīng)開(kāi)展了多個(gè)智能化無(wú)人機(jī)集群項(xiàng)目,2016年美軍在加州進(jìn)行的無(wú)人機(jī)集群實(shí)驗(yàn),成功地將人工智能技術(shù)應(yīng)用到無(wú)人機(jī)集群的行為決策中,實(shí)現(xiàn)了無(wú)人機(jī)集群在空中自主協(xié)作,組成無(wú)人機(jī)集群隊(duì)形,并完成預(yù)定任務(wù),充分體現(xiàn)了無(wú)人機(jī)集群的無(wú)中心化、自主化、自治化,這一實(shí)驗(yàn)表明美軍在無(wú)人機(jī)集群自組網(wǎng)以及任務(wù)決策方面已經(jīng)達(dá)到了實(shí)用化水平[9]。因此,進(jìn)行無(wú)人機(jī)集群的應(yīng)用研究具有一定的理論意義和使用價(jià)值。

        本文在現(xiàn)有研究的基礎(chǔ)上,以無(wú)人機(jī)集群對(duì)敵方來(lái)襲目標(biāo)的追擊任務(wù)為場(chǎng)景[10],基于深度確定性策略梯度網(wǎng)絡(luò)(Deep Deterministic Policy Gradient,DDPG)算法建立了人工神經(jīng)網(wǎng)絡(luò)模型,設(shè)計(jì)了一種引導(dǎo)型回報(bào)函數(shù)有效解決了深度強(qiáng)化學(xué)習(xí)在長(zhǎng)周期任務(wù)下的稀疏回報(bào)問(wèn)題,通過(guò)引入基于滑動(dòng)平均值的軟更新策略減少了DDPG算法中Eval網(wǎng)絡(luò)和Target網(wǎng)絡(luò)在訓(xùn)練過(guò)程中的參數(shù)震蕩,提高了算法的訓(xùn)練效率。仿真實(shí)驗(yàn)結(jié)果表明,訓(xùn)練完成后的無(wú)人機(jī)集群能夠較好地執(zhí)行對(duì)敵方來(lái)襲目標(biāo)的追擊任務(wù),表現(xiàn)了人工智能算法在提升無(wú)人機(jī)集群指揮決策能力上的應(yīng)用潛力。

        1 任務(wù)場(chǎng)景描述

        如圖1所示,在任務(wù)場(chǎng)景中出現(xiàn)敵方目標(biāo),目標(biāo)的初始位置已知,保持高度和速度恒定飛行,我方派出無(wú)人機(jī)集群進(jìn)行追擊攔截。設(shè)定雙方都處于同一個(gè)水平面內(nèi),不考慮高度因素。不同于以往將任務(wù)環(huán)境網(wǎng)格化的離散處理方案,本文構(gòu)建了連續(xù)的二維戰(zhàn)場(chǎng)地圖作為無(wú)人機(jī)集群追擊問(wèn)題的任務(wù)環(huán)境,集群中的無(wú)人機(jī)、被追擊目標(biāo)的位置,均采用連續(xù)的空間位置坐標(biāo)表示。

        圖1 無(wú)人機(jī)集群執(zhí)行追擊任務(wù)示意圖Fig.1 Schematic diagram of UAV swarm for pursuit task

        本文針對(duì)任務(wù)場(chǎng)景中只有一個(gè)目標(biāo)出現(xiàn)的情況,且不考慮目標(biāo)針對(duì)無(wú)人機(jī)集群進(jìn)行機(jī)動(dòng)規(guī)避等行為,目標(biāo)按照自身預(yù)定的運(yùn)動(dòng)策略進(jìn)行飛行。無(wú)人機(jī)集群的任務(wù)是圍堵目標(biāo),實(shí)現(xiàn)對(duì)目標(biāo)的打擊或者驅(qū)離,當(dāng)無(wú)人機(jī)集群與目標(biāo)之間的距離滿(mǎn)足一定的態(tài)勢(shì)要求后,視為無(wú)人機(jī)集群完成追擊任務(wù)[11-12]。

        2 無(wú)人機(jī)集群模型

        2.1 無(wú)人機(jī)運(yùn)動(dòng)控制模型

        為了便于問(wèn)題分析,將集群中的無(wú)人機(jī)看作質(zhì)點(diǎn)運(yùn)動(dòng)模型,使用兩個(gè)方向的加速度來(lái)控制無(wú)人機(jī)的運(yùn)動(dòng)過(guò)程,如圖2所示。

        圖2 無(wú)人機(jī)的運(yùn)動(dòng)學(xué)模型Fig.2 Kinematic model of UAV

        無(wú)人機(jī)的質(zhì)點(diǎn)運(yùn)動(dòng)方程表示為

        (1)

        (2)

        (3)

        針對(duì)式(1)~式(3)建立的無(wú)人機(jī)運(yùn)動(dòng)控制模型,為了便于強(qiáng)化學(xué)習(xí)算法的實(shí)現(xiàn),采用2個(gè)方向的加速度作為控制量對(duì)無(wú)人機(jī)的運(yùn)動(dòng)行為進(jìn)行控制,如圖3所示。

        由圖3可知,無(wú)人機(jī)的行為空間包含切向加速度a∥和法向加速度a⊥2個(gè)維度,無(wú)人機(jī)的行為即深度強(qiáng)化學(xué)習(xí)算法的輸出可以是這2個(gè)維度中滿(mǎn)足范圍要求的任意值,限定無(wú)人機(jī)的行為空間滿(mǎn)足:

        圖3 無(wú)人機(jī)加速度控制模型圖Fig.3 Diagram of UAV acceleration control model

        (4)

        同時(shí),對(duì)無(wú)人機(jī)的速度做出限制,規(guī)定無(wú)人機(jī)的速度v∈[3,7] m/s。

        2.2 無(wú)人機(jī)傳感器探測(cè)模型

        設(shè)定集群中的無(wú)人機(jī)具有對(duì)任務(wù)場(chǎng)景的全局探測(cè)能力,為了模擬傳感器的真實(shí)探測(cè)效果,對(duì)無(wú)人機(jī)的傳感器探測(cè)結(jié)果加入一個(gè)服從正態(tài)分布ε~N(μ,σ2)的隨機(jī)誤差。誤差的參數(shù)為

        (5)

        式中:di_t為無(wú)人機(jī)到目標(biāo)的距離。

        因此,集群中每架無(wú)人機(jī)對(duì)目標(biāo)位置的探測(cè)結(jié)果為

        (6)

        式中:(xg,yg)為無(wú)人機(jī)探測(cè)到的目標(biāo)位置;(x′g,y′g) 為目標(biāo)的真實(shí)位置;εx、εy為服從正態(tài)分布N(0,σ2)的隨機(jī)誤差。

        無(wú)人機(jī)對(duì)目標(biāo)速度的探測(cè)結(jié)果計(jì)算為

        (7)

        式中:(xg_old,yg_old)為上一時(shí)刻探測(cè)到的目標(biāo)位置;(xg_now,yg_now)為當(dāng)前時(shí)刻探測(cè)到的目標(biāo)位置。

        2.3 集群內(nèi)無(wú)人機(jī)信息交互模型

        集群內(nèi)的無(wú)人機(jī)之間需要進(jìn)行信息交互以便使無(wú)人機(jī)集群具有更好的協(xié)作行為決策,每架無(wú)人機(jī)都有固定的通信范圍,在通信范圍內(nèi)的無(wú)人機(jī)之間可以進(jìn)行通信,為了便于仿真分析,設(shè)定每架無(wú)人機(jī)最多可以與通信范圍內(nèi)距離最近的3架無(wú)人機(jī)進(jìn)行信息交互,如圖4所示。

        圖4 集群內(nèi)信息交互關(guān)系示意圖Fig.4 Schematic diagram of interaction within swarm

        圖5 無(wú)人機(jī)間態(tài)勢(shì)信息關(guān)系圖Fig.5 Situational relationship between UAVs

        3 深度確定性策略梯度網(wǎng)絡(luò)算法

        DDPG算法是一種結(jié)合了基于值迭代和策略迭代的深度強(qiáng)化學(xué)習(xí)算法[13-14]。該算法的優(yōu)勢(shì)在于可以針對(duì)無(wú)限大小的狀態(tài)空間和行為空間實(shí)現(xiàn)智能體對(duì)最優(yōu)策略的學(xué)習(xí),使無(wú)人機(jī)集群在針對(duì)具體任務(wù)的學(xué)習(xí)過(guò)程中具有更優(yōu)良的性能表現(xiàn)。DDPG算法是在傳統(tǒng)的“演員-評(píng)論家”算法的基礎(chǔ)上改進(jìn)形成的,下面對(duì)算法網(wǎng)絡(luò)的結(jié)構(gòu)進(jìn)行詳細(xì)分析。

        3.1 “演員-評(píng)論家”算法

        “演員-評(píng)論家”算法主要由2個(gè)不同的網(wǎng)絡(luò)模塊組成,分別是演員網(wǎng)絡(luò)模塊和評(píng)論家網(wǎng)絡(luò)模塊。

        演員網(wǎng)絡(luò)模塊主要通過(guò)對(duì)輸入環(huán)境的狀態(tài)觀測(cè),利用人工神經(jīng)網(wǎng)絡(luò)得到智能體行為的選擇概率,完成智能體與環(huán)境的交互過(guò)程,并且用交互得到的環(huán)境回報(bào)對(duì)人工神經(jīng)網(wǎng)絡(luò)的參數(shù)進(jìn)行更新,用來(lái)維護(hù)和更新智能體的動(dòng)作選取策略。

        評(píng)論家網(wǎng)絡(luò)模塊則通過(guò)對(duì)輸入環(huán)境的狀態(tài)及行為進(jìn)行觀測(cè),來(lái)評(píng)估每個(gè)環(huán)境狀態(tài)與行為的價(jià)值,即估計(jì)演員網(wǎng)絡(luò)模塊的價(jià)值,通過(guò)實(shí)際網(wǎng)絡(luò)價(jià)值與預(yù)測(cè)網(wǎng)絡(luò)價(jià)值的誤差來(lái)更新當(dāng)前神經(jīng)網(wǎng)絡(luò)。評(píng)論家網(wǎng)絡(luò)模塊輸出的價(jià)值可以對(duì)演員網(wǎng)絡(luò)模塊的行為選取策略進(jìn)行指導(dǎo),這也是“演員-評(píng)論家”算法的由來(lái)。

        由上述可知,對(duì)于“演員-評(píng)論家”算法2個(gè)不同的網(wǎng)絡(luò)模塊:演員網(wǎng)絡(luò)模塊和評(píng)論家網(wǎng)絡(luò)模塊分別需要建立各自的人工神經(jīng)網(wǎng)絡(luò)。演員網(wǎng)絡(luò)模塊的人工神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)了從觀測(cè)狀態(tài)到智能體行為選取概率的映射,其訓(xùn)練過(guò)程需要結(jié)合評(píng)論家網(wǎng)絡(luò)模塊的誤差進(jìn)行。而評(píng)論家網(wǎng)絡(luò)模塊的人工神經(jīng)網(wǎng)絡(luò)是通過(guò)對(duì)環(huán)境狀態(tài)和行為選取的觀測(cè)得到相應(yīng)的評(píng)分,形成環(huán)境狀態(tài)與行為到對(duì)應(yīng)評(píng)分的映射?!把輪T-評(píng)論家”算法的模型結(jié)構(gòu)如圖6所示。

        圖6 “演員-評(píng)論家”算法的模型結(jié)構(gòu)Fig.6 Model structure of “Actor-Critics” algorithm

        3.2 DDPG算法的網(wǎng)絡(luò)架構(gòu)

        DDPG算法融合了“演員-評(píng)論家”算法和深度Q網(wǎng)絡(luò)算法,是一種新型的深度強(qiáng)化學(xué)習(xí)算法[15-16],算法的網(wǎng)絡(luò)架構(gòu)如圖7所示。

        圖7 DDPG算法的網(wǎng)絡(luò)架構(gòu)圖Fig.7 Network architecture of DDPG algorithm

        如圖7所示,DDPG算法主要由環(huán)境、記憶回放單元、演員網(wǎng)絡(luò)模塊和評(píng)論家網(wǎng)絡(luò)模塊構(gòu)成。其中,環(huán)境是智能體的交互空間,也是智能體的探索空間,智能體在與環(huán)境的交互過(guò)程中得到交互樣本,并將交互樣本存儲(chǔ)到記憶回放單元中用于智能體的訓(xùn)練過(guò)程。為了優(yōu)化算法的學(xué)習(xí)過(guò)程,DDPG算法吸取了深度Q網(wǎng)絡(luò)算法的思想,對(duì)于算法中的網(wǎng)絡(luò)部分分別構(gòu)建了一對(duì)結(jié)構(gòu)完全相同的人工神經(jīng)網(wǎng)絡(luò),分別稱(chēng)為Eval神經(jīng)網(wǎng)絡(luò)和Target神經(jīng)網(wǎng)絡(luò)。其中Eval神經(jīng)網(wǎng)絡(luò)用于訓(xùn)練更新網(wǎng)絡(luò)參數(shù),Target神經(jīng)網(wǎng)絡(luò)則使用周期性軟更新策略對(duì)Eval神經(jīng)網(wǎng)絡(luò)進(jìn)行跟隨,并協(xié)助Eval神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。

        演員網(wǎng)絡(luò)模塊的神經(jīng)網(wǎng)絡(luò)用來(lái)完成對(duì)智能體行為選取概率的確定,智能體進(jìn)行行為決策時(shí),將依據(jù)演員網(wǎng)絡(luò)模塊提供的行為選擇概率來(lái)選取行為與環(huán)境進(jìn)行交互。評(píng)論家網(wǎng)絡(luò)模塊的神經(jīng)網(wǎng)絡(luò)通過(guò)接收環(huán)境狀態(tài)和智能體行為,用來(lái)生成對(duì)“狀態(tài)-行為”的價(jià)值評(píng)估。其中Eval神經(jīng)網(wǎng)絡(luò)用來(lái)判斷當(dāng)前狀態(tài)與行為的價(jià)值,Target神經(jīng)網(wǎng)絡(luò)接收下一時(shí)刻的狀態(tài)和演員部分Target神經(jīng)網(wǎng)絡(luò)輸出的下一時(shí)刻行為,并進(jìn)行價(jià)值判斷。

        DDPG算法中演員和評(píng)論家2部分的神經(jīng)網(wǎng)絡(luò)有著不同的功能和結(jié)構(gòu),相應(yīng)的訓(xùn)練方式也不同,使用不同的損失函數(shù)進(jìn)行訓(xùn)練。對(duì)于評(píng)論家網(wǎng)絡(luò)而言,使用TD-error對(duì)Eval神經(jīng)網(wǎng)絡(luò)的參數(shù)進(jìn)行訓(xùn)練,訓(xùn)練過(guò)程使用最小化損失函數(shù)Loss進(jìn)行更新,即

        TD-error=reward(st,at)+

        (8)

        Loss=(TD-error)2

        (9)

        對(duì)于演員網(wǎng)絡(luò)模塊中神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過(guò)程,通過(guò)最大化<狀態(tài),行為>相對(duì)應(yīng)的價(jià)值判斷來(lái)實(shí)現(xiàn),因此使用對(duì)狀態(tài)和行為的評(píng)價(jià)均值作為損失函數(shù),即

        Loss=-mean(v(s,a;θcritic))

        (10)

        3.3 DDPG算法中探索與經(jīng)驗(yàn)的平衡

        在DDPG算法中,如果只是依據(jù)算法輸出的行為選擇策略來(lái)決定無(wú)人機(jī)的當(dāng)前行為,容易導(dǎo)致算法對(duì)任務(wù)環(huán)境探索的不充分,因此需要對(duì)DDPG算法策略增加一定的探索性[17]。根據(jù)DDPG算法的特點(diǎn),增強(qiáng)算法探索性的實(shí)現(xiàn)方法是在無(wú)人機(jī)行為選取過(guò)程中增加一定的隨機(jī)噪聲[18-19],即

        action=action′+Noise

        (11)

        式中:action為無(wú)人機(jī)當(dāng)前時(shí)刻選擇的行為;action′為DDPG算法中演員網(wǎng)絡(luò)模塊輸出的無(wú)人機(jī)行為;Noise為隨機(jī)噪聲。

        由于DDPG算法輸出的是無(wú)人機(jī)在2個(gè)方向上加速度的連續(xù)控制量,因此采用上述方法增強(qiáng)DDPG算法的探索性具備良好的可行性,設(shè)定隨機(jī)噪聲服從正態(tài)分布:

        Noise~N(μ,σ2)

        (12)

        噪聲的期望值μ=0、方差σ與迭代輪次相關(guān),隨著網(wǎng)絡(luò)訓(xùn)練迭代次數(shù)的增加σ將逐漸減小,為了保證無(wú)人機(jī)集群具備足夠的探索能力,確保在無(wú)人機(jī)探索初期其行為選擇能夠選取到行為空間中的任意值,對(duì)隨機(jī)噪聲方差初始值的設(shè)計(jì)為

        σ0=(actionmax-actionmin)/4

        (13)

        σ=Kepisodeσ0

        (14)

        式中:K=0.999 5;episode為算法訓(xùn)練代數(shù)。

        3.4 DDPG算法的網(wǎng)絡(luò)結(jié)構(gòu)

        由前述分析可知,DDPG算法由一對(duì)結(jié)構(gòu)完全相同的神經(jīng)網(wǎng)絡(luò),即“演員”部分人工神經(jīng)網(wǎng)絡(luò)(Actor網(wǎng)絡(luò))和“評(píng)論家”部分人工神經(jīng)網(wǎng)絡(luò)(Critic網(wǎng)絡(luò))構(gòu)成[19-20],所構(gòu)建網(wǎng)絡(luò)的Tensorboard輸出如圖8所示。

        圖8 DDPG算法網(wǎng)絡(luò)結(jié)構(gòu)(Tensorboard)Fig.8 Network structure of DDPG algorithm (Tensorboard)

        3.4.1 “演員”網(wǎng)絡(luò)模塊的人工神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

        “演員”網(wǎng)絡(luò)模塊的人工神經(jīng)網(wǎng)絡(luò)用來(lái)輸出無(wú)人機(jī)的行為,在無(wú)人機(jī)集群追擊任務(wù)環(huán)境中,無(wú)人機(jī)集群的狀態(tài)空間為自身位置(xi,yi)、速度(vx_i,vy_i)、探測(cè)得到的目標(biāo)位置(xg,yg)、速度(vx_g,vy_g)以及通過(guò)信息交互得到的其他無(wú)人機(jī)的相關(guān)信息(xij,yij)、(vx_ij,vy_ij)和其他無(wú)人機(jī)的探測(cè)信息(xij_get,yij_get)、(vx_ij_get,vy_ij_get),共32個(gè)維度作為無(wú)人機(jī)的狀態(tài)空間,如圖9所示。

        對(duì)“演員”網(wǎng)絡(luò)模塊中的Target和Eval人工神經(jīng)網(wǎng)絡(luò),構(gòu)建了2個(gè)結(jié)構(gòu)完全相同的6層全連接人工神經(jīng)網(wǎng)絡(luò),每層網(wǎng)絡(luò)的人工神經(jīng)元個(gè)數(shù)分別為[100,100,300,100,100,2],最后一層神經(jīng)網(wǎng)絡(luò)為二維度的輸出層,對(duì)應(yīng)無(wú)人機(jī)的切向加速度a∥與法向加速度a⊥。輸出神經(jīng)元使用tanh(x)作為激活函數(shù),實(shí)現(xiàn)網(wǎng)絡(luò)輸出與無(wú)人機(jī)行為的映射,其他各層的神經(jīng)元使用relu(x)作為激活函數(shù)。并且使用RMSProp(Root Mean Square Prop)算法作為訓(xùn)練的優(yōu)化器?!把輪T”網(wǎng)絡(luò)模塊中人工神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)如圖10所示。圖中“演員”

        圖10 “演員”網(wǎng)絡(luò)模塊中人工神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)Fig.10 Network structure in “Actor” network module

        網(wǎng)絡(luò)模塊中,w1,w2,…,w6和b1,b2,…,b6代表了6層網(wǎng)絡(luò)中的權(quán)重值和偏置值。

        3.4.2 “評(píng)論家”網(wǎng)絡(luò)模塊的人工神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

        “評(píng)論家”網(wǎng)絡(luò)模塊的人工神經(jīng)網(wǎng)絡(luò)通過(guò)對(duì)“狀態(tài)-行為”的價(jià)值評(píng)估,指導(dǎo)“演員”網(wǎng)絡(luò)模塊中神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過(guò)程[21-23]。因此,評(píng)論家網(wǎng)絡(luò)模塊中神經(jīng)網(wǎng)絡(luò)的輸入狀態(tài)為無(wú)人機(jī)集群的狀態(tài)信息與行為信息,網(wǎng)絡(luò)的狀態(tài)空間構(gòu)成如圖11所示。

        圖11 “評(píng)論家”網(wǎng)絡(luò)模塊的狀態(tài)空間構(gòu)成Fig.11 State space of “Critic” network module

        對(duì)“評(píng)論家”網(wǎng)絡(luò)模塊中的Target和Eval人工神經(jīng)網(wǎng)絡(luò),構(gòu)建了2個(gè)結(jié)構(gòu)完全相同的5層全連接人工神經(jīng)網(wǎng)絡(luò),每層網(wǎng)絡(luò)的人工神經(jīng)元個(gè)數(shù)分別為[100,300,100,10,1]。輸出層的神經(jīng)元使用tanh (x)作為激活函數(shù),隱藏層的神經(jīng)元使用relu(x)作為激活函數(shù),并且使用RMSProp(Root Mean Square Prop)算法作為訓(xùn)練的優(yōu)化器。神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)如圖12所示。

        圖12 “評(píng)論家”網(wǎng)絡(luò)模塊中的人工神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)Fig.12 Network structure in “Critic” network module

        在“演員”網(wǎng)絡(luò)模塊和“評(píng)論家”網(wǎng)絡(luò)模塊中同時(shí)存在Target和Eval人工神經(jīng)網(wǎng)絡(luò),其中Eval神經(jīng)網(wǎng)絡(luò)用于訓(xùn)練過(guò)程,而Target神經(jīng)網(wǎng)絡(luò)則周期性的跟隨訓(xùn)練網(wǎng)絡(luò)相應(yīng)參數(shù)的變化而更新。對(duì)于Target神經(jīng)網(wǎng)絡(luò)的參數(shù)更新使用基于滑動(dòng)平均值的軟更新策略,即

        θTarget=kθTarget+(1-k)θEval

        (15)

        式中:θTarget為T(mén)arget神經(jīng)網(wǎng)絡(luò)參數(shù);θEval為Eval神經(jīng)網(wǎng)絡(luò)參數(shù);k為滑動(dòng)因子,經(jīng)驗(yàn)取值為0.2。

        3.5 DDPG算法的稀疏回報(bào)問(wèn)題

        對(duì)于連續(xù)的狀態(tài)空間和行為空間,無(wú)人機(jī)進(jìn)行隨機(jī)初始化之后要經(jīng)歷一段很長(zhǎng)時(shí)間與環(huán)境的交互過(guò)程才能達(dá)到最終狀態(tài)。此時(shí),僅在無(wú)人機(jī)集群到達(dá)最終狀態(tài)之后給予相應(yīng)回報(bào)的方式,有著回報(bào)周期過(guò)長(zhǎng)的缺陷,容易導(dǎo)致強(qiáng)化學(xué)習(xí)過(guò)程無(wú)法進(jìn)行有效學(xué)習(xí),即存在著稀疏回報(bào)問(wèn)題。

        為了解決稀疏回報(bào)問(wèn)題,對(duì)無(wú)人機(jī)集群的學(xué)習(xí)目標(biāo)進(jìn)行了相應(yīng)的修改,增加有效回報(bào),從而加快學(xué)習(xí)速度,構(gòu)建不同情形下無(wú)人機(jī)的回報(bào)函數(shù)來(lái)指導(dǎo)深度強(qiáng)化學(xué)習(xí)的學(xué)習(xí)方向,即

        (16)

        對(duì)于式(16)中的無(wú)人機(jī)集群回報(bào)函數(shù),由無(wú)人機(jī)與目標(biāo)之間的距離變化情況、無(wú)人機(jī)的速度方向以及無(wú)人機(jī)的速度大小共同表示。當(dāng)無(wú)人機(jī)與目標(biāo)之間的距離變小時(shí)對(duì)應(yīng)的回報(bào)函數(shù)為正值;由無(wú)人機(jī)的速度大小與速度方向相結(jié)合構(gòu)成了回報(bào)函數(shù),在相同速度大小的情況下,速度矢量的方向越指向目標(biāo),無(wú)人機(jī)的回報(bào)就越高;同理,在無(wú)人機(jī)速度方向指向目標(biāo)的情況下,無(wú)人機(jī)的速度越大回報(bào)越高;對(duì)于無(wú)人機(jī)速度方向遠(yuǎn)離目標(biāo)的情況下,無(wú)人機(jī)的速度越大,其負(fù)向回報(bào)越高。

        由于無(wú)人機(jī)集群從初始狀態(tài)出發(fā),需要運(yùn)行較長(zhǎng)時(shí)間才能到達(dá)目標(biāo)狀態(tài),如果在長(zhǎng)時(shí)間的中間狀態(tài)下無(wú)法得到環(huán)境的有效回報(bào),容易導(dǎo)致算法訓(xùn)練過(guò)程中的梯度消失,從而導(dǎo)致訓(xùn)練過(guò)程無(wú)法收斂。無(wú)人機(jī)集群采用上述引導(dǎo)型回報(bào)函數(shù)時(shí),訓(xùn)練過(guò)程中會(huì)根據(jù)無(wú)人機(jī)的任一狀態(tài)產(chǎn)生一個(gè)與當(dāng)前<狀態(tài),行為>相對(duì)應(yīng)的價(jià)值回報(bào),從而引導(dǎo)無(wú)人機(jī)集群逐漸向目標(biāo)狀態(tài)轉(zhuǎn)移。因此,式(16) 能較準(zhǔn)確地反應(yīng)無(wú)人機(jī)的行為收益,算法的訓(xùn)練結(jié)果表明,通過(guò)采用引導(dǎo)型回報(bào)函數(shù)能夠較好地解決深度強(qiáng)化學(xué)習(xí)中的稀疏回報(bào)問(wèn)題。

        3.6 DDPG算法程序流程

        使用DDPG算法對(duì)無(wú)人機(jī)集群的追擊任務(wù)進(jìn)行訓(xùn)練,程序?qū)崿F(xiàn)流程如圖13所示。

        圖13 DDPG算法的程序流程圖Fig.13 Algorithm flow chart of DDPG algorithm

        4 仿真實(shí)驗(yàn)

        設(shè)定仿真場(chǎng)景中只存在一個(gè)勻速前進(jìn)的目標(biāo),當(dāng)集群中的任意一架無(wú)人機(jī)追擊到目標(biāo)之后,視為無(wú)人機(jī)集群完成了對(duì)目標(biāo)的追擊任務(wù),即到達(dá)了任務(wù)的最終狀態(tài)。

        4.1 訓(xùn)練過(guò)程

        仿真中使用5架完全相同的無(wú)人機(jī)構(gòu)成集群進(jìn)行訓(xùn)練。為了便于觀察算法的訓(xùn)練狀態(tài),防止訓(xùn)練過(guò)程中出現(xiàn)梯度消失等現(xiàn)象,對(duì)人工神經(jīng)網(wǎng)絡(luò)的收斂性能進(jìn)行了監(jiān)測(cè),分別選取“演員”和“評(píng)論家”網(wǎng)絡(luò)模塊中的神經(jīng)網(wǎng)絡(luò)參數(shù)進(jìn)行統(tǒng)計(jì)觀察,得到相關(guān)統(tǒng)計(jì)信息如圖14~圖17所示。

        圖14 “演員”網(wǎng)絡(luò)模型Eval網(wǎng)絡(luò)參數(shù)均值變化曲線(xiàn)Fig.14 Curve of average change in Eval network parameters in “Actor” network module

        圖15 “演員”網(wǎng)絡(luò)模塊Target網(wǎng)絡(luò)參數(shù)方差變化曲線(xiàn)Fig.15 Curve of variance in Target network parameters in “Actor” network module

        圖16 “評(píng)論家”網(wǎng)絡(luò)模塊Eval網(wǎng)絡(luò)參數(shù)均值變化曲線(xiàn)Fig.16 Curve of average change in Eval network parameters in “Critic” network module

        圖17 “評(píng)論家”網(wǎng)絡(luò)模塊Target網(wǎng)絡(luò)參數(shù)方差變化曲線(xiàn)Fig.17 Curve of variance in Target network parameters in “Critic” network module

        圖14~圖17數(shù)據(jù)曲線(xiàn)圖分別是對(duì)“演員”和“評(píng)論家”網(wǎng)絡(luò)模塊中的神經(jīng)網(wǎng)絡(luò)參數(shù)取均值和方差進(jìn)行統(tǒng)計(jì)的結(jié)果,圖中實(shí)線(xiàn)為網(wǎng)絡(luò)參數(shù)統(tǒng)計(jì)的真實(shí)值,虛線(xiàn)則是對(duì)統(tǒng)計(jì)數(shù)據(jù)進(jìn)行周期為3的滑動(dòng)平均處理的結(jié)果,用來(lái)表明參數(shù)統(tǒng)計(jì)的變化趨勢(shì)。由上述參數(shù)統(tǒng)計(jì)曲線(xiàn)圖可以看出人工神經(jīng)網(wǎng)絡(luò)在訓(xùn)練過(guò)程中很好地實(shí)現(xiàn)了收斂。

        圖18截取自TensorBoard的“評(píng)論家”網(wǎng)絡(luò)模塊中的神經(jīng)網(wǎng)絡(luò)參數(shù)分布變化直方圖,由遠(yuǎn)及近(顏色由深變淺)表現(xiàn)了神經(jīng)網(wǎng)絡(luò)在不同訓(xùn)練階段各個(gè)神經(jīng)元參數(shù)分布的變化情況,橫向表示神經(jīng)元各個(gè)參數(shù)取值,從神經(jīng)網(wǎng)絡(luò)的參數(shù)統(tǒng)計(jì)變化曲線(xiàn)圖與參數(shù)分布變化直方圖可以看出,人工神經(jīng)網(wǎng)絡(luò)的參數(shù)分布情況在訓(xùn)練過(guò)程中逐漸收斂到穩(wěn)定的分布狀態(tài)。

        圖18 “評(píng)論家”網(wǎng)絡(luò)模塊Eval網(wǎng)絡(luò)參數(shù)分布變化曲線(xiàn)Fig.18 Eval network parameter distribution curves in “Critic” network module

        無(wú)人機(jī)集群在不同訓(xùn)練輪次下的平均回報(bào)值變化趨勢(shì)如圖19所示。

        由圖19可見(jiàn),在算法的訓(xùn)練過(guò)程中,無(wú)人機(jī)集群的行為收益值保持比較平穩(wěn)的狀態(tài)緩慢增加,說(shuō)明無(wú)人機(jī)集群行為隨著訓(xùn)練過(guò)程的不斷進(jìn)行有著越來(lái)越好的表現(xiàn)。

        圖19 無(wú)人機(jī)集群在不同訓(xùn)練輪次下的平均回報(bào)值Fig.19 Mean value of rewards under different training epochs for UAV swarm

        隨著算法訓(xùn)練回合的增加,無(wú)人機(jī)集群在環(huán)境中的回合總回報(bào)變化趨勢(shì)如圖20所示。

        圖20 無(wú)人機(jī)集群在不同迭代輪次下的回合總回報(bào)Fig.20 Total rewards under different training epochs for UAV swarm

        無(wú)人機(jī)集群在不同訓(xùn)練輪次下的任務(wù)完成率如圖21所示。

        從圖21可以看出,完成訓(xùn)練后無(wú)人機(jī)集群執(zhí)行對(duì)敵來(lái)襲目標(biāo)追擊任務(wù)的成功率可以達(dá)到95%左右。

        圖21 無(wú)人機(jī)集群在不同迭代輪次下的任務(wù)成功率Fig.21 Task completion rate under different training epochs for UAV swarm

        4.2 驗(yàn)證過(guò)程

        使用5架相同無(wú)人機(jī)構(gòu)成集群完成所創(chuàng)建神經(jīng)網(wǎng)絡(luò)的訓(xùn)練后,對(duì)訓(xùn)練完成的模型進(jìn)行了測(cè)試驗(yàn)證。使用訓(xùn)練完成的無(wú)人機(jī)集群執(zhí)行對(duì)目標(biāo)的追擊任務(wù),生成5架無(wú)人機(jī)集群及目標(biāo)的初始狀態(tài),得到無(wú)人機(jī)集群追擊任務(wù)的軌跡圖如圖22所示。

        如圖22所示,使用訓(xùn)練完成的神經(jīng)網(wǎng)絡(luò)模型很好地實(shí)現(xiàn)了5架無(wú)人機(jī)構(gòu)成集群執(zhí)行對(duì)目標(biāo)的追擊任務(wù)。為了驗(yàn)證模型對(duì)于動(dòng)態(tài)數(shù)量無(wú)人機(jī)集群的適用性,分別使用10架和20架無(wú)人機(jī)構(gòu)成集群,對(duì)無(wú)人機(jī)集群的追擊任務(wù)進(jìn)行驗(yàn)證,得到無(wú)人機(jī)集群軌跡圖如圖23和圖24所示。

        圖23 10架無(wú)人機(jī)執(zhí)行追擊任務(wù)的軌跡Fig.23 Trajectory of 10 UAVs on pursuit mission

        圖24 20架無(wú)人機(jī)執(zhí)行追擊任務(wù)的軌跡Fig.24 Trajectories of 20 UAVs on pursuit mission

        由圖22~圖24可以看出,基于5架無(wú)人機(jī)訓(xùn)練得到的模型能很好地應(yīng)用于10和20架無(wú)人機(jī)用來(lái)執(zhí)行對(duì)敵來(lái)襲目標(biāo)的追擊任務(wù)中,可以看出,DDPG算法對(duì)無(wú)人機(jī)集群的行為決策有著良好的適應(yīng)能力和泛化能力。

        為了進(jìn)一步驗(yàn)證本文基于改進(jìn)DDPG算法無(wú)人機(jī)集群模型的泛化能力和適應(yīng)能力,對(duì)具有不同程度的逃逸策略的機(jī)動(dòng)目標(biāo)使用訓(xùn)練完成的集群模型進(jìn)行了實(shí)驗(yàn)驗(yàn)證,得到無(wú)人機(jī)集群軌跡圖如圖25所示。由圖25仿真結(jié)果可以看出,對(duì)于具有簡(jiǎn)單逃逸策略的來(lái)襲目標(biāo),無(wú)人機(jī)集群很好地完成了預(yù)定的追擊任務(wù)。

        圖25 簡(jiǎn)單逃逸策略下對(duì)20架無(wú)人機(jī)的追擊任務(wù)軌跡Fig.25 Trajectories of 20 UAVs on pursuit mission with simple escape strategy target

        在圖26的追擊任務(wù)場(chǎng)景中,當(dāng)目標(biāo)采用大機(jī)動(dòng)逃逸運(yùn)動(dòng)策略時(shí),由于來(lái)襲目標(biāo)快速逃逸出了設(shè)定的任務(wù)邊界導(dǎo)致目標(biāo)逃逸成功,但是訓(xùn)練完成后的無(wú)人機(jī)集群仍然很好地完成了對(duì)預(yù)定目標(biāo)的追擊任務(wù)。

        圖26 大機(jī)動(dòng)逃逸策略下對(duì)20架無(wú)人機(jī)的追擊任務(wù)軌跡Fig.26 Trajectories of 20 UAVs on pursuit mission with big maneuver escape strategy target

        仿真實(shí)驗(yàn)表明,深度強(qiáng)化學(xué)習(xí)能夠很好地滿(mǎn)足了無(wú)人機(jī)集群對(duì)于無(wú)中心化、自主化和自治化的要求。將人工智能算法應(yīng)用在無(wú)人機(jī)集群的任務(wù)決策中具有很好的發(fā)展前景。

        5 結(jié) 論

        本文基于深度強(qiáng)化學(xué)習(xí)中的DDPG算法對(duì)無(wú)人機(jī)集群追擊任務(wù)進(jìn)行了研究,為了平衡DDPG算法“探索-經(jīng)驗(yàn)”的矛盾,在訓(xùn)練過(guò)程中對(duì)無(wú)人機(jī)行為加入了自適應(yīng)的噪聲單元,以增強(qiáng)算法的探索能力。為了提升算法性能,引入基于滑動(dòng)平均值的軟更新策略減少了DDPG算法中Eval神經(jīng)網(wǎng)絡(luò)和Target神經(jīng)網(wǎng)絡(luò)在訓(xùn)練過(guò)程中的參數(shù)震蕩,提高了算法的收斂速度。為解決深度強(qiáng)化學(xué)習(xí)中的“稀疏回報(bào)”問(wèn)題,設(shè)計(jì)了指導(dǎo)型回報(bào)函數(shù),避免了無(wú)人機(jī)集群在長(zhǎng)周期訓(xùn)練條件下無(wú)法有效學(xué)習(xí)的問(wèn)題,提升了算法的收斂性。

        訓(xùn)練完成后的無(wú)人機(jī)集群能夠很好地執(zhí)行追擊任務(wù)。同時(shí)驗(yàn)證了在不改變網(wǎng)絡(luò)模型和狀態(tài)空間結(jié)構(gòu)的前提下,訓(xùn)練完成的模型能直接應(yīng)用于更多無(wú)人機(jī)構(gòu)成的集群追擊任務(wù)中和具有不同程度逃逸策略的機(jī)動(dòng)目標(biāo)追擊任務(wù)中。仿真結(jié)果表明使用DDPG算法針對(duì)無(wú)人機(jī)集群的追擊任務(wù)可以求解出良好的行為策略,體現(xiàn)了基于人工神經(jīng)網(wǎng)絡(luò)的強(qiáng)化學(xué)習(xí)算法在提升無(wú)人機(jī)集群指揮決策模型的泛化能力上的巨大應(yīng)用潛力。

        猜你喜歡
        評(píng)論家人工神經(jīng)網(wǎng)絡(luò)集群
        音樂(lè)評(píng)論家的“內(nèi)功”修煉——論八項(xiàng)追求
        著名詩(shī)人、評(píng)論家
        鴨綠江(2021年29期)2021-02-28 05:44:26
        著名詩(shī)人、評(píng)論家 吳思敬
        鴨綠江(2020年29期)2020-11-15 07:05:52
        利用人工神經(jīng)網(wǎng)絡(luò)快速計(jì)算木星系磁坐標(biāo)
        海上小型無(wú)人機(jī)集群的反制裝備需求與應(yīng)對(duì)之策研究
        評(píng)論家楊占平
        火花(2019年8期)2019-08-28 08:45:06
        人工神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)簡(jiǎn)單字母的識(shí)別
        電子制作(2019年10期)2019-06-17 11:45:10
        一種無(wú)人機(jī)集群發(fā)射回收裝置的控制系統(tǒng)設(shè)計(jì)
        電子制作(2018年11期)2018-08-04 03:25:40
        Python與Spark集群在收費(fèi)數(shù)據(jù)分析中的應(yīng)用
        勤快又呆萌的集群機(jī)器人
        青春草在线视频观看| 美女脱了内裤露出奶头的视频| 久久国内精品自在自线| 乱老年女人伦免费视频| 成人美女黄网站色大免费的| 色老头在线一区二区三区| 国产精品福利影院| 亚洲色www成人永久网址| 人人妻人人澡人人爽精品欧美| 国产精品18久久久久久不卡中国 | 亚洲欧洲免费无码| av综合网男人的天堂| 3d动漫精品一区二区三区| 亚洲免费观看| 亚洲av永久无码精品水牛影视| 亚洲国产天堂av成人在线播放| 日本熟女精品一区二区三区| 看久久久久久a级毛片| 8av国产精品爽爽ⅴa在线观看| 欧美激情区| 精品人妻一区二区三区蜜臀在线| 国产午夜免费啪视频观看| 亚洲 日本 欧美 中文幕| 无码任你躁久久久久久久| 麻豆国产人妻欲求不满| 亚洲日本在线va中文字幕| 亚洲一区二区三区国产精品| 亚洲免费女女在线视频网站| 亚洲一区二区三区四区五区黄| 欧美日韩精品一区二区三区不卡 | 亚洲AV无码中文AV日韩A| 久久黄色精品内射胖女人| 丰满人妻久久中文字幕| 久久久久久亚洲av无码蜜芽| 好大好硬好爽免费视频| 在线看片国产免费不卡| 白白白色视频在线观看播放| 一区在线视频免费播放| 乱人妻中文字幕| 国产精品 视频一区 二区三区| 亚洲欧美日韩精品香蕉|