亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        改進(jìn)DDPG無(wú)人機(jī)航跡規(guī)劃算法

        2022-04-21 05:24:12高敬鵬胡欣瑜江志燁
        關(guān)鍵詞:蜜源航跡威脅

        高敬鵬,胡欣瑜,江志燁

        1.電子信息系統(tǒng)復(fù)雜電磁環(huán)境效應(yīng)國(guó)家重點(diǎn)實(shí)驗(yàn)室,河南 洛陽(yáng) 471003

        2.哈爾濱工程大學(xué) 信息與通信工程學(xué)院,哈爾濱 150001

        3.北京航天長(zhǎng)征飛行器研究所 試驗(yàn)物理與計(jì)算數(shù)學(xué)國(guó)家級(jí)重點(diǎn)實(shí)驗(yàn)室,北京 100076

        航跡規(guī)劃是無(wú)人機(jī)(unmanned aerial vehicle,UAV)完成電子對(duì)抗作戰(zhàn)任務(wù)的有效技術(shù)手段。面對(duì)地形及敵方雷達(dá)威脅,UAV飛行時(shí)亟需合理的規(guī)劃算法獲取航跡以規(guī)避危險(xiǎn)并完成任務(wù)。實(shí)際飛行過(guò)程存在未知?jiǎng)討B(tài)威脅,更要求UAV具備實(shí)時(shí)決策能力[1],因此在未知威脅環(huán)境如何實(shí)時(shí)規(guī)劃UAV航跡是亟待解決的難題。

        群智能算法是當(dāng)前規(guī)劃航跡的主要手段,結(jié)合約束條件,設(shè)計(jì)目標(biāo)函數(shù),利用迭代技術(shù)解算最優(yōu)航跡。文獻(xiàn)[2]提出一種自適應(yīng)遺傳算法實(shí)現(xiàn)UAV低空三維航跡規(guī)劃,可以有效適用于靜態(tài)地形威脅環(huán)境,然而其忽略了未知威脅對(duì)實(shí)際飛行過(guò)程的影響。文獻(xiàn)[3]提出一種基于改進(jìn)蟻群的UAV三維航跡重規(guī)劃算法,相較其他算法,減少了規(guī)劃時(shí)間,然而隨著威脅數(shù)目增多,算法迭代計(jì)算復(fù)雜度升高,處理速度下降,難以滿足無(wú)人機(jī)飛行航跡實(shí)時(shí)控制的需求。另外,若以離散航點(diǎn)兩兩連接形成的直線段為航跡,無(wú)人機(jī)在航點(diǎn)切換處飛行,不符合自身飛行動(dòng)力學(xué)原理,將導(dǎo)致飛行誤差,故在航跡規(guī)劃的基礎(chǔ)上,利用航跡優(yōu)化技術(shù)將離散航點(diǎn)優(yōu)化為一條滿足無(wú)人機(jī)運(yùn)動(dòng)約束的飛行航跡[4]。文獻(xiàn)[5]利用改進(jìn)A*算法完成離散航跡點(diǎn)的規(guī)劃,并通過(guò)插值平均處理優(yōu)化航跡,卻也增大了解算航跡的時(shí)間成本。文獻(xiàn)[6]提出一種改進(jìn)RRT航跡規(guī)劃算法,在得到航跡節(jié)點(diǎn)的基礎(chǔ)上,采用B樣條曲線平滑方法生成曲率連續(xù)的航跡,也造成整體耗時(shí)增多。雖然傳統(tǒng)以及基于群智能優(yōu)化的航跡規(guī)劃算法均能夠獲得最優(yōu)航跡,但依賴于航跡優(yōu)化技術(shù)配合且解算目標(biāo)函數(shù)速度慢加大了實(shí)時(shí)規(guī)劃難度。因此現(xiàn)階段選擇高效算法對(duì)于實(shí)現(xiàn)UAV航跡實(shí)時(shí)規(guī)劃尤為重要。

        近年來(lái),隨著機(jī)器學(xué)習(xí)的發(fā)展,深度強(qiáng)化學(xué)習(xí)因其出色的泛化性和適配性被成功應(yīng)用于規(guī)劃領(lǐng)域[7]。2013年,DeepMind團(tuán)隊(duì)[8]提出基于深度Q網(wǎng)絡(luò)(deep Q-network,DQN)的深度強(qiáng)化學(xué)習(xí)(deep reinforcement learning,DRL)方法,利用神經(jīng)網(wǎng)絡(luò)擬合Q值函數(shù),能夠解決高維狀態(tài)空間的離散動(dòng)作決策問(wèn)題。文獻(xiàn)[9]設(shè)計(jì)一種改進(jìn)DQN算法,在三維空間規(guī)劃移動(dòng)機(jī)器人路徑,控制智能體輸出離散動(dòng)作,但無(wú)人機(jī)實(shí)際飛行是需要連續(xù)精準(zhǔn)控制的,故其方法無(wú)法拓展至航跡規(guī)劃領(lǐng)域。2015年,Lillicrap等人[10]提出基于連續(xù)控制模型的深度確定性策略梯度(deep deterministic policy gradient,DDPG)算法,使智能體能在復(fù)雜環(huán)境根據(jù)自身狀態(tài)決策輸出連續(xù)動(dòng)作。文獻(xiàn)[11]利用DDPG算法決策無(wú)人機(jī)機(jī)動(dòng)著陸的連續(xù)動(dòng)作,這與航跡規(guī)劃中無(wú)人機(jī)連續(xù)飛行需求不謀而合,故DDPG算法可用于無(wú)人機(jī)航跡規(guī)劃。然而DDPG算法收斂性能受網(wǎng)絡(luò)權(quán)重參數(shù)影響較大[12],適配網(wǎng)絡(luò)參數(shù)及優(yōu)化模型將導(dǎo)致訓(xùn)練耗時(shí)長(zhǎng)。文獻(xiàn)[13]提出混合噪聲優(yōu)化DDPG算法實(shí)現(xiàn)無(wú)人機(jī)對(duì)機(jī)動(dòng)目標(biāo)的連續(xù)跟蹤,DDPG算法收斂性能得以提升,但仍存在訓(xùn)練耗時(shí)長(zhǎng)的弊端。因此實(shí)際應(yīng)用中如何降低網(wǎng)絡(luò)訓(xùn)練時(shí)間成本成為DDPG算法仍待解決的問(wèn)題。

        為解決在未知威脅環(huán)境無(wú)人機(jī)難以實(shí)時(shí)規(guī)劃航跡且模型訓(xùn)練機(jī)制冗余的問(wèn)題,本文提出一種改進(jìn)DDPG無(wú)人機(jī)航跡規(guī)劃算法。結(jié)合實(shí)際環(huán)境,搭建飛行場(chǎng)景模型,將DRL方法引入航跡規(guī)劃領(lǐng)域,根據(jù)任務(wù)和飛行需求,設(shè)計(jì)狀態(tài)空間、動(dòng)作空間和獎(jiǎng)勵(lì)函數(shù),利用人工蜂群改進(jìn)DDPG算法,更新網(wǎng)絡(luò)模型參數(shù),訓(xùn)練并應(yīng)用改進(jìn)DDPG網(wǎng)絡(luò)模型,實(shí)現(xiàn)無(wú)人機(jī)航跡實(shí)時(shí)規(guī)劃。

        1 無(wú)人機(jī)航跡規(guī)劃系統(tǒng)模型

        為完成無(wú)人機(jī)航跡實(shí)時(shí)控制,并提升DDPG算法訓(xùn)練效率,本文提出改進(jìn)DDPG無(wú)人機(jī)航跡規(guī)劃算法,其系統(tǒng)模型如圖1所示。首先,構(gòu)建環(huán)境空間,包括靜態(tài)地形以及雷達(dá)探測(cè)威脅。其次,設(shè)計(jì)航跡規(guī)劃問(wèn)題的強(qiáng)化學(xué)習(xí)要素,根據(jù)無(wú)人機(jī)運(yùn)動(dòng)模型設(shè)計(jì)狀態(tài)空間,依據(jù)飛行動(dòng)力學(xué)理論設(shè)計(jì)動(dòng)作空間,結(jié)合非稀疏化思想,考慮無(wú)人機(jī)與環(huán)境的交互情況設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù)。隨后,結(jié)合所設(shè)計(jì)的強(qiáng)化學(xué)習(xí)要素,構(gòu)成經(jīng)驗(yàn)數(shù)組,利用人工蜂群算法,優(yōu)化DDPG算法網(wǎng)絡(luò)參數(shù)更新機(jī)制,訓(xùn)練改進(jìn)DDPG無(wú)人機(jī)航跡規(guī)劃網(wǎng)絡(luò)模型。最后,應(yīng)用改進(jìn)DDPG算法,實(shí)現(xiàn)無(wú)人機(jī)從實(shí)時(shí)飛行狀態(tài)到實(shí)時(shí)飛行動(dòng)作的決策映射,形成航跡。

        圖1 無(wú)人機(jī)航跡規(guī)劃系統(tǒng)模型Fig.1 Model of UAV track planning system

        2 強(qiáng)化學(xué)習(xí)與航跡規(guī)劃

        無(wú)人機(jī)與環(huán)境發(fā)生交互得到飛行動(dòng)作的航跡規(guī)劃過(guò)程可以視為序列決策過(guò)程,使用馬爾科夫決策過(guò)程可以對(duì)其建模,利用強(qiáng)化學(xué)習(xí)算法能夠?qū)ζ淝蠼狻?/p>

        2.1 馬爾科夫決策過(guò)程模型

        馬爾科夫決策過(guò)程中每個(gè)t時(shí)刻狀態(tài)的變化都只與t-1時(shí)刻狀態(tài)和動(dòng)作有關(guān),與t-1時(shí)刻之前的狀態(tài)和動(dòng)作無(wú)關(guān),其定義為一個(gè)四元組集合:

        式中,S表示智能體在環(huán)境中的所有狀態(tài)集合,A表示智能體在對(duì)應(yīng)狀態(tài)下可執(zhí)行的動(dòng)作集合,P表示智能體的狀態(tài)轉(zhuǎn)移概率矩陣,R表示智能體得到的獎(jiǎng)勵(lì)回報(bào)集合,r t(st,at,st+1)∈R表示智能體通過(guò)動(dòng)作at,從狀態(tài)st轉(zhuǎn)移至狀態(tài)st+1獲得獎(jiǎng)勵(lì)回報(bào)值。

        2.2 無(wú)人機(jī)飛行環(huán)境設(shè)計(jì)

        為更好地模擬無(wú)人機(jī)實(shí)際飛行,本節(jié)設(shè)定規(guī)劃空間,搭建空間中靜態(tài)地形和雷達(dá)威脅模型,將其作為無(wú)人機(jī)執(zhí)行任務(wù)應(yīng)考慮的威脅因素,為無(wú)人機(jī)飛行構(gòu)建環(huán)境基礎(chǔ)。

        2.2.1規(guī)劃空間

        在規(guī)劃空間中,無(wú)人機(jī)以原點(diǎn)為起點(diǎn),依據(jù)實(shí)時(shí)規(guī)劃的航跡,避開(kāi)地形威脅和雷達(dá)探測(cè)威脅,到達(dá)任務(wù)目的地。設(shè)定無(wú)人機(jī)在三維飛行空間的位置坐標(biāo)(x,y,z),x和y分別表示無(wú)人機(jī)在經(jīng)緯方向的坐標(biāo)點(diǎn),z表示其在空間的海拔高度,則無(wú)人機(jī)的三維規(guī)劃空間數(shù)學(xué)模型C可表示為:

        式中,x m和ym分別為無(wú)人機(jī)在經(jīng)緯方向最大飛行范圍,zmin和zmax分別為其在空間中最小和最大飛行高度。

        2.2.2地形和雷達(dá)威脅

        考慮到無(wú)人機(jī)實(shí)際飛行環(huán)境存在地形威脅和未知位置雷達(dá)探測(cè)威脅,所以需要模擬靜態(tài)地形以及不同位置的雷達(dá)威脅數(shù)學(xué)模型。靜態(tài)地形模型可表示為:

        式中,H(x,y)為地形起伏高度,x和y表示地面水平方向的點(diǎn)坐標(biāo),υ、κ、χ、δ是模型的常系數(shù),通過(guò)改變這些系數(shù)數(shù)值大小即能模擬起伏地貌的實(shí)際地形。

        威脅輻射源的探測(cè)范圍決定了其對(duì)無(wú)人機(jī)的威脅程度,常用的方法通過(guò)計(jì)算威脅高度數(shù)據(jù),將其等效為地形模型[14]。雷達(dá)對(duì)不同距離的目標(biāo)有不同的探測(cè)能力,因而在建立雷達(dá)威脅模型時(shí),應(yīng)將雷達(dá)與目標(biāo)間距離D和檢測(cè)概率Pd納入考慮范圍?;诖?,本文結(jié)合雷達(dá)原理,依據(jù)文獻(xiàn)[15]推導(dǎo)目標(biāo)和雷達(dá)間任意距離與檢測(cè)概率的關(guān)系Pd(D)為:

        式中,Dmax表示雷達(dá)最大探測(cè)距離,Pf表示虛警概率。

        利用上述將威脅源等效為地形模型的方法,把雷達(dá)威脅范圍處理為地形高程數(shù)據(jù)后數(shù)學(xué)表達(dá)式為:

        式中,Hradar(x,y)為整合后的雷達(dá)威脅高程,K r表示與雷達(dá)相關(guān)的性能系數(shù),Dmax為雷達(dá)的最大作用半徑,(x0,y0)為雷達(dá)中心坐標(biāo)。最后,將靜態(tài)地形和雷達(dá)威脅模型疊加后得:

        式中,H′(x,y)表示整體高程數(shù)據(jù)。

        2.3 航跡規(guī)劃問(wèn)題的強(qiáng)化學(xué)習(xí)要素設(shè)計(jì)

        無(wú)人機(jī)航跡規(guī)劃問(wèn)題的強(qiáng)化學(xué)習(xí)基本要素主要體現(xiàn)為其在飛行空間的狀態(tài),由一個(gè)狀態(tài)轉(zhuǎn)換到下一狀態(tài)對(duì)應(yīng)的動(dòng)作以及執(zhí)行動(dòng)作后與環(huán)境交互所得獎(jiǎng)勵(lì)。

        2.3.1狀態(tài)空間

        無(wú)人機(jī)在飛行時(shí),應(yīng)具有實(shí)時(shí)感知環(huán)境信息并決策航跡的能力,從而避開(kāi)地形和未知雷達(dá)威脅??紤]到以上需求,利用無(wú)人機(jī)能夠根據(jù)傳感器和情報(bào)等途徑獲取飛行信息的特點(diǎn),本文設(shè)計(jì)無(wú)人機(jī)當(dāng)前位置、相對(duì)威脅距離和飛行速度方向三方面信息為狀態(tài),將其在任意時(shí)刻狀態(tài)信息聯(lián)合,用公式表示為:

        式中,pu,t和pt,t分別為終點(diǎn)和無(wú)人機(jī)位置,vu,t為無(wú)人機(jī)速度,[x u,t,yu,t,zu,t]為t時(shí)刻無(wú)人機(jī)在飛行空間的坐標(biāo)位置,[dx t,dyt,dzt]為無(wú)人機(jī)和終點(diǎn)的相對(duì)距離,[vx,t,vy,t,vz,t]為無(wú)人機(jī)飛行時(shí)三個(gè)方向的分速度。

        2.3.2動(dòng)作空間

        從無(wú)人機(jī)飛行動(dòng)力學(xué)角度出發(fā),為避開(kāi)地形和雷達(dá)威脅并安全到達(dá)終點(diǎn),其需要在飛行時(shí)改變速度方向。本文設(shè)定無(wú)人機(jī)按照恒定速率飛行,因而調(diào)整其飛行角度即可改變速度方向,并規(guī)定飛行角度精度,以期形成平滑的航跡,滿足飛行動(dòng)力學(xué)要求。所以將其在任意時(shí)刻的動(dòng)作信息聯(lián)合,用公式表示為:

        式中,φt和?t分別表示無(wú)人機(jī)飛行的方向角和俯仰角。

        2.3.3獎(jiǎng)勵(lì)函數(shù)

        強(qiáng)化學(xué)習(xí)算法的收斂性依賴于合理的獎(jiǎng)勵(lì)設(shè)置,本文結(jié)合非稀疏思想設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù),使無(wú)人機(jī)執(zhí)行每一步到達(dá)終點(diǎn)的趨勢(shì)更加明顯。無(wú)人機(jī)在規(guī)劃空間內(nèi)飛行的首要目的是到達(dá)任務(wù)終點(diǎn),其航程受到自身攜帶燃料限制,同時(shí)飛行過(guò)程要避免被雷達(dá)探測(cè),因此本文獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì)主要考慮以下3個(gè)方面。

        (1)到達(dá)正獎(jiǎng)勵(lì)rappr。無(wú)人機(jī)航跡規(guī)劃的首要任務(wù)是成功到達(dá)任務(wù)目的地,因而當(dāng)任務(wù)終點(diǎn)在無(wú)人機(jī)的探測(cè)范圍內(nèi)時(shí),系統(tǒng)反饋正獎(jiǎng)勵(lì)以使到達(dá)趨勢(shì)更加明顯,具體表示為:

        式中,N^(·)表示歸一化,‖‖·表示取模長(zhǎng),ρmax為無(wú)人機(jī)最大探測(cè)距離。

        (2)航程負(fù)獎(jiǎng)勵(lì)rpath。實(shí)際飛行時(shí),無(wú)人機(jī)飛行航程受到燃料等能源限制,所以設(shè)置航程負(fù)獎(jiǎng)勵(lì)rpath,使無(wú)人機(jī)經(jīng)歷越短的航程便能到達(dá)終點(diǎn),具體表示為:式中,d表示無(wú)人機(jī)已經(jīng)飛過(guò)的航程,Lmax表示無(wú)人機(jī)攜帶燃料對(duì)應(yīng)的最大飛行航程。

        (3)威脅負(fù)獎(jiǎng)勵(lì)rthreat。依據(jù)前文建立的威脅模型,若無(wú)人機(jī)進(jìn)入雷達(dá)威脅區(qū)域則視為被敵方雷達(dá)發(fā)現(xiàn),因此設(shè)置威脅負(fù)獎(jiǎng)勵(lì)rthreat,以降低無(wú)人機(jī)進(jìn)入雷達(dá)探測(cè)區(qū)域的概率,具體表示為:

        式中,pr,t表示雷達(dá)位置坐標(biāo),Dr,max表示雷達(dá)最大探測(cè)距離。

        將任意時(shí)刻獎(jiǎng)勵(lì)綜合表示為:

        綜上所述,本文結(jié)合無(wú)人機(jī)實(shí)際飛行需求,設(shè)計(jì)基于航跡規(guī)劃問(wèn)題的強(qiáng)化學(xué)習(xí)基本要素,為構(gòu)建網(wǎng)絡(luò)訓(xùn)練經(jīng)驗(yàn)集奠定基礎(chǔ)。

        2.4 DDPG與航跡規(guī)劃

        在眾多強(qiáng)化學(xué)習(xí)算法中,DDPG算法因其能在連續(xù)動(dòng)作空間確定性選擇唯一動(dòng)作的優(yōu)點(diǎn)受到青睞。又由前文設(shè)計(jì)的強(qiáng)化學(xué)習(xí)基本要素可知,航跡規(guī)劃問(wèn)題是基于高維狀態(tài)空間以及連續(xù)動(dòng)作決策的,因此采用DDPG算法可以很好地完成無(wú)人機(jī)航跡決策。

        DDPG網(wǎng)絡(luò)中包含Actor策略網(wǎng)絡(luò)和Critic值函數(shù)網(wǎng)絡(luò)。Actor網(wǎng)絡(luò)用來(lái)擬合策略函數(shù),進(jìn)而提取可執(zhí)行的動(dòng)作,其網(wǎng)絡(luò)權(quán)重參數(shù)為θ,輸入為狀態(tài)st,輸出為動(dòng)作at;Critic網(wǎng)絡(luò)通過(guò)內(nèi)部的值函數(shù)信息估計(jì)Actor策略網(wǎng)絡(luò)中對(duì)應(yīng)梯度更新的方向,其網(wǎng)絡(luò)權(quán)重參數(shù)為ω,輸入為狀態(tài)st和動(dòng)作at,輸出為評(píng)估值Q。

        Actor網(wǎng)絡(luò)更新采用策略梯度下降法,具體表示為:

        式中,m為經(jīng)驗(yàn)數(shù)據(jù)(s,a,r,s′)的采樣個(gè)數(shù)。Critic網(wǎng)絡(luò)采用均方誤差損失函數(shù)進(jìn)行參數(shù)更新:

        式中,γ為獎(jiǎng)勵(lì)折扣因子。

        另外,DDPG算法分別復(fù)制Actor策略網(wǎng)絡(luò)和Critic值函數(shù)網(wǎng)絡(luò)作為目標(biāo)網(wǎng)絡(luò),使智能體對(duì)任務(wù)策略進(jìn)行穩(wěn)定學(xué)習(xí),其網(wǎng)絡(luò)權(quán)重參數(shù)分別表示為θ′和ω′。結(jié)合軟迭代思想,緩慢更新目標(biāo)網(wǎng)絡(luò),使智能體在訓(xùn)練時(shí),學(xué)習(xí)過(guò)程穩(wěn)定性大幅度增強(qiáng)。Actor目標(biāo)網(wǎng)絡(luò)具體更新方式為:

        式中,τ用來(lái)控制Actor目標(biāo)網(wǎng)絡(luò)權(quán)重θ′的更新速度。同樣,利用式(15)的方式更新Critic目標(biāo)網(wǎng)絡(luò)參數(shù)ω′。

        此外,DDPG算法利用隨機(jī)噪聲,增加Actor策略網(wǎng)絡(luò)在連續(xù)動(dòng)作空間的探索能力,形成策略映射μ′:

        式中,N為該噪聲隨機(jī)過(guò)程。

        本文設(shè)計(jì)Actor策略網(wǎng)絡(luò)和Critic值函數(shù)網(wǎng)絡(luò)均由兩個(gè)全連接層FC構(gòu)成,網(wǎng)絡(luò)結(jié)構(gòu)簡(jiǎn)單且運(yùn)算方便,時(shí)間復(fù)雜度低。故結(jié)合Actor網(wǎng)絡(luò)輸入狀態(tài),輸出動(dòng)作,Critic網(wǎng)絡(luò)輸入狀態(tài)和動(dòng)作,輸出Q值的特點(diǎn),根據(jù)上文選定的9維狀態(tài)和2維動(dòng)作,設(shè)計(jì)DDPG網(wǎng)絡(luò)結(jié)構(gòu)如表1所示。表中ReLu和tanh為神經(jīng)網(wǎng)絡(luò)常用的兩種非線性激活函數(shù)。

        表1 DDPG網(wǎng)絡(luò)結(jié)構(gòu)Table 1 Network structure of DDPG

        依據(jù)DDPG網(wǎng)絡(luò)訓(xùn)練原理,采用表1設(shè)計(jì)的網(wǎng)絡(luò)結(jié)構(gòu),根據(jù)式(13)至式(16),訓(xùn)練DDPG網(wǎng)絡(luò)。訓(xùn)練完成后,獲取從飛行狀態(tài)到飛行動(dòng)作端到端的決策映射,其Actor在線網(wǎng)絡(luò)策略映射公式如下:

        式中,μθ(·)為已訓(xùn)練Actor在線網(wǎng)絡(luò)的策略映射關(guān)系,θ是其網(wǎng)絡(luò)權(quán)重參數(shù),st為無(wú)人機(jī)實(shí)時(shí)飛行狀態(tài),at即為由映射關(guān)系μθ(·)得到的實(shí)時(shí)飛行動(dòng)作。

        在實(shí)際應(yīng)用中,無(wú)人機(jī)實(shí)時(shí)采集飛行狀態(tài),遷移已訓(xùn)練Actor在線網(wǎng)絡(luò),即可得到實(shí)時(shí)飛行動(dòng)作,實(shí)現(xiàn)航跡規(guī)劃。

        3 基于改進(jìn)DDPG的無(wú)人機(jī)航跡規(guī)劃算法

        DDPG網(wǎng)絡(luò)訓(xùn)練過(guò)程中,學(xué)習(xí)率的改變會(huì)直接影響網(wǎng)絡(luò)收斂性能,傳統(tǒng)方法通過(guò)調(diào)試學(xué)習(xí)率,直至網(wǎng)絡(luò)具有較好的收斂效果,但調(diào)整至合適的學(xué)習(xí)率將會(huì)耗費(fèi)大量時(shí)間成本。群智能算法通過(guò)不斷迭代更新求解適應(yīng)度函數(shù)最優(yōu)值的思想,與神經(jīng)網(wǎng)絡(luò)優(yōu)化權(quán)重參數(shù)的思想異曲同工,因此結(jié)合群智能算法尋優(yōu)DDPG網(wǎng)絡(luò)權(quán)重參數(shù)能夠避免學(xué)習(xí)率對(duì)網(wǎng)絡(luò)收斂性能的影響,最終解決網(wǎng)絡(luò)訓(xùn)練時(shí)間長(zhǎng)的問(wèn)題。

        3.1 改進(jìn)人工蜂群算法

        人工蜂群(artificial bee colony,ABC)算法具備尋優(yōu)能力強(qiáng)以及收斂速度快等優(yōu)點(diǎn),故本文采用ABC算法優(yōu)化DDPG網(wǎng)絡(luò)更新機(jī)制。但直接采用ABC算法需在一次完整DDPG網(wǎng)絡(luò)訓(xùn)練中,利用不同的蜂群尋優(yōu)策略和值函數(shù)兩類網(wǎng)絡(luò)的最佳更新方式,必然導(dǎo)致計(jì)算冗余。為彌補(bǔ)該缺陷,本文設(shè)計(jì)一種二維人工蜂群(two dimensional artificial bee colony,2D-ABC)算法,改進(jìn)初始解和位置更新公式,共享種群行為機(jī)制,減少計(jì)算復(fù)雜度,提升訓(xùn)練效率。

        2D-ABC算法將蜂群分為二維開(kāi)采蜂、二維隨從蜂和二維偵察蜂,二維蜜源每一維位置分別對(duì)應(yīng)兩個(gè)優(yōu)化問(wèn)題可能解,每一維蜜源花粉量分別對(duì)應(yīng)兩個(gè)解的適應(yīng)度。二維蜂群采蜜的行為機(jī)制有以下三種,

        (1)初始化種群。蜜蜂群體派出SN個(gè)二維開(kāi)采蜂,開(kāi)采蜂和隨從蜂各占蜂群總數(shù)的一半,蜜源數(shù)與開(kāi)采蜂相同,依據(jù)式(18)隨機(jī)產(chǎn)生SN個(gè)二維初始解:

        式中,φk為第k維中區(qū)間[0,1]的隨機(jī)數(shù)。

        (3)隨從蜂采蜜。二維隨從蜂根據(jù)對(duì)應(yīng)維蜜源花蜜量的多少選擇每一維較優(yōu)的標(biāo)記蜜源,并在其附近按照式(20)探索第k維新蜜源,選擇概率表達(dá)式為:

        本文提出2D-ABC算法流程如圖2所示,其改進(jìn)DDPG算法具體步驟描述如下:

        圖2 2D-ABC算法流程圖Fig.2 Flow chart of 2D-ABC algorithm

        步驟1初始化二維蜜源和二維蜂群。根據(jù)式(18),在M維空間隨機(jī)初始化SN個(gè)二維蜜源位置,第一維和第二維蜜源位置分別代表Actor在線網(wǎng)絡(luò)和Critic在線網(wǎng)絡(luò)權(quán)重參數(shù)。同時(shí),設(shè)置開(kāi)采蜂和隨從蜂數(shù)目均為2×SN,第一維和第二維蜂群的工作對(duì)象分別為第一維和第二維蜜源。

        步驟2計(jì)算二維適應(yīng)度。將Critic在線網(wǎng)絡(luò)權(quán)重更新的均方誤差損失函數(shù),即式(14)作為第一維適應(yīng)度函數(shù),得到第一維蜜源評(píng)價(jià)值;將Actor在線網(wǎng)絡(luò)權(quán)重更新的策略梯度下降函數(shù),即式(13)作為第二維適應(yīng)度函數(shù),得到第二維蜜源評(píng)價(jià)值。

        步驟3二維開(kāi)采蜂開(kāi)采蜜源。根據(jù)式(19),開(kāi)采蜂分別在每一維蜜源位置附近開(kāi)采,獲得新蜜源位置。

        步驟4根據(jù)式(13)和式(14),再次分別計(jì)算每一維新位置蜜源評(píng)價(jià)值,并與原位置蜜源評(píng)價(jià)值相比較,進(jìn)行貪婪選擇,保留更優(yōu)的二維蜜源。

        步驟5隨從蜂選擇蜜源。二維隨從蜂依據(jù)式(20)得到的概率,選擇每一維新蜜源。

        步驟6再次執(zhí)行步驟4。

        步驟7在Limit次蜜源位置更新后,若每一維有放棄的蜜源則利用觀察蜂替換開(kāi)采蜂,并隨機(jī)選擇新蜜源,若無(wú)則從已保留的優(yōu)質(zhì)蜜源得到每一維最優(yōu)蜜源位置,即最優(yōu)的Actor網(wǎng)絡(luò)和Critic網(wǎng)絡(luò)權(quán)重參數(shù)。

        3.2 改進(jìn)DDPG算法模型訓(xùn)練及應(yīng)用

        本文融合2D-ABC算法尋優(yōu)與DDPG算法模型更新機(jī)制,將Actor在線網(wǎng)絡(luò)權(quán)重更新的策略梯度下降函數(shù)和Critic在線網(wǎng)絡(luò)權(quán)重更新的均方誤差損失函數(shù)作為適應(yīng)度函數(shù),利用2D-ABC算法分別尋優(yōu)每一回合DDPG算法Actor和Critic在線網(wǎng)絡(luò)權(quán)重參數(shù),完成改進(jìn)DDPG算法模型的訓(xùn)練,從而提升網(wǎng)絡(luò)訓(xùn)練效率,降低總體的訓(xùn)練時(shí)間成本。改進(jìn)DDPG算法模型訓(xùn)練及應(yīng)用結(jié)構(gòu)框圖如圖3所示,具體訓(xùn)練步驟如下:

        圖3 改進(jìn)DDPG算法模型訓(xùn)練及應(yīng)用結(jié)構(gòu)框圖Fig.3 Training and application structure diagram of improved DDPG algorithm model

        步驟1結(jié)合式(7)至式(12),設(shè)計(jì)航跡規(guī)劃問(wèn)題的強(qiáng)化學(xué)習(xí)要素。

        步驟2初始化狀態(tài)s,清空經(jīng)驗(yàn)回放池。

        步驟3根據(jù)狀態(tài)s,Actor在線網(wǎng)絡(luò)得到對(duì)應(yīng)動(dòng)作a,智能體執(zhí)行動(dòng)作a,并得到新?tīng)顟B(tài)s′以及與環(huán)境交互后的獎(jiǎng)勵(lì)r。

        步驟4將經(jīng)驗(yàn)數(shù)組存入經(jīng)驗(yàn)回放池,并從經(jīng)驗(yàn)回放池中采樣m個(gè)經(jīng)驗(yàn)數(shù)組,送入Critic值函數(shù)網(wǎng)絡(luò),計(jì)算得在線Q值Qω(s,a)和目標(biāo)Q值Qω′(s′,a′)。

        步驟5根據(jù)式(13)和式(14),結(jié)合Critic值函數(shù)網(wǎng)絡(luò)的在線Q值和目標(biāo)Q值,利用2D-ABC算法求得最優(yōu)Actor網(wǎng)絡(luò)權(quán)重參數(shù)和最優(yōu)Critic網(wǎng)絡(luò)權(quán)重參數(shù)。

        步驟6根據(jù)式(15),通過(guò)軟迭代更新Actor網(wǎng)絡(luò)以及Critic網(wǎng)絡(luò)權(quán)重參數(shù)。

        步驟7判斷是否滿足DDPG網(wǎng)絡(luò)訓(xùn)練結(jié)束條件,結(jié)束訓(xùn)練。

        最后,與改進(jìn)前方法相同,無(wú)人機(jī)實(shí)時(shí)采集飛行狀態(tài),根據(jù)式(17),獲取該狀態(tài)下的決策映射,執(zhí)行飛行動(dòng)作,實(shí)現(xiàn)航跡規(guī)劃。

        4 仿真與分析

        對(duì)本文提出的改進(jìn)DDPG無(wú)人機(jī)航跡規(guī)劃算法進(jìn)行仿真分析,無(wú)人機(jī)飛行約束參數(shù)、相關(guān)威脅仿真參數(shù)和改進(jìn)DDPG算法參數(shù)分別如表2、表3和表4所示。本文設(shè)定無(wú)人機(jī)航跡規(guī)劃空間大小為15 km×15 km×7.5 km,且假設(shè)無(wú)人機(jī)飛行恒定速率,同時(shí)設(shè)置算法測(cè)試500次,另外忽略自然環(huán)境干擾因素影響。本文涉及仿真的實(shí)驗(yàn)設(shè)備及環(huán)境滿足:Intel?CoreTMi7-9700k CPU,32 GB雙通道內(nèi)存,Windows 10 64位操作系統(tǒng),Python 3.5,TensorFlow 1.7.0。

        表2 無(wú)人機(jī)飛行約束參數(shù)Table 2 Fight constraint parameters of UAV

        表3 相關(guān)威脅仿真參數(shù)Table 3 Simulation parameters of related threat

        表4 改進(jìn)DDPG算法參數(shù)Table 4 Parameters of improved DDPG

        為驗(yàn)證改進(jìn)DDPG算法有效性和在未知環(huán)境的適應(yīng)性,本文選取網(wǎng)絡(luò)訓(xùn)練時(shí)長(zhǎng)、測(cè)試成功率和航跡偏差率為評(píng)估指標(biāo),評(píng)估算法的訓(xùn)練和測(cè)試結(jié)果。其中,網(wǎng)絡(luò)訓(xùn)練時(shí)長(zhǎng)用于評(píng)估算法訓(xùn)練效率,測(cè)試成功率用于評(píng)估無(wú)人機(jī)滿足航程約束情況下依照航跡決策順利達(dá)到終點(diǎn)的能力,其計(jì)算公式為:

        航跡偏差率TE用于評(píng)估無(wú)人機(jī)在成功到達(dá)終點(diǎn)前提下的航跡質(zhì)量,其計(jì)算公式為:

        式中,F(xiàn)為測(cè)試次數(shù),αi和βi分別為設(shè)定相同條件下用智能算法解算得第i條航跡長(zhǎng)度和改進(jìn)DDPG算法決策得第i條航跡長(zhǎng)度,航跡偏差率越低航跡質(zhì)量越高,本文設(shè)定航跡偏差率低于7.5%時(shí)航跡質(zhì)量達(dá)標(biāo)。

        由于訓(xùn)練次數(shù)多,且算法隨機(jī)波動(dòng)較大,直接顯示所有訓(xùn)練回合獎(jiǎng)勵(lì)收斂曲線效果不佳,為更好展示算法訓(xùn)練效果,本文將每20個(gè)訓(xùn)練回合所得獎(jiǎng)勵(lì)和取平均并作歸一化處理,將10 000次迭代收斂曲線等效處理為500次迭代收斂曲線。圖4和表5分別給出了在網(wǎng)絡(luò)結(jié)構(gòu)設(shè)置如表1,超參數(shù)設(shè)置如表4,設(shè)定4組不同Actor網(wǎng)絡(luò)和Critic網(wǎng)絡(luò)學(xué)習(xí)率情況下,DDPG算法的獎(jiǎng)勵(lì)收斂曲線和訓(xùn)練時(shí)長(zhǎng)表。

        圖4 四種不同學(xué)習(xí)率情況下DDPG算法的獎(jiǎng)勵(lì)收斂曲線Fig.4 Reward convergence curve of DDPG under four different learning rates

        表5 四種不同學(xué)習(xí)率情況下DDPG網(wǎng)絡(luò)訓(xùn)練時(shí)長(zhǎng)Table 5 Network training duration under four different learning rates

        由圖4可知,隨著學(xué)習(xí)率的增大,DDPG算法收斂速度明顯加快,當(dāng)Actor網(wǎng)絡(luò)和Critic網(wǎng)絡(luò)學(xué)習(xí)率分別為2×10-5和10-4時(shí),歸一化獎(jiǎng)勵(lì)值在5 600次訓(xùn)練回合左右才趨于穩(wěn)定,而當(dāng)Actor網(wǎng)絡(luò)和Critic網(wǎng)絡(luò)學(xué)習(xí)率分別為4×10-5和4×10-4時(shí),歸一化獎(jiǎng)勵(lì)值在3 800次訓(xùn)練回合左右即逐漸收斂。另外,不同學(xué)習(xí)率情況下,歸一化獎(jiǎng)勵(lì)最終收斂值也不同,當(dāng)Actor網(wǎng)絡(luò)和Critic網(wǎng)絡(luò)學(xué)習(xí)率分別為2×10-5和2×10-4時(shí),歸一化獎(jiǎng)勵(lì)值在0.8上下波動(dòng),而當(dāng)Actor網(wǎng)絡(luò)和Critic網(wǎng)絡(luò)學(xué)習(xí)率分別為4×10-5和4×10-4時(shí),歸一化獎(jiǎng)勵(lì)值在0.6上下浮動(dòng),且浮動(dòng)幅度較大。這是因?yàn)閷W(xué)習(xí)率是強(qiáng)化學(xué)習(xí)算法學(xué)習(xí)能力的數(shù)值體現(xiàn),過(guò)高會(huì)導(dǎo)致算法早期樣本過(guò)擬合,過(guò)低會(huì)導(dǎo)致樣本利用率低使算法收斂慢,因此降低學(xué)習(xí)率對(duì)網(wǎng)絡(luò)性能的影響尤為重要。

        由表5可知,僅調(diào)試4組學(xué)習(xí)率情況下網(wǎng)絡(luò)總訓(xùn)練時(shí)間累計(jì)140 h 34 min 44 s,訓(xùn)練耗時(shí)長(zhǎng),而調(diào)整至合適的學(xué)習(xí)率需要大量的訓(xùn)練時(shí)間,本文提出改進(jìn)DDPG算法優(yōu)化網(wǎng)絡(luò)更新機(jī)制,提升算法訓(xùn)練效率。

        圖5給出了網(wǎng)絡(luò)結(jié)構(gòu)和參數(shù)設(shè)置分別如表1和表4情況下改進(jìn)DDPG算法歸一化獎(jiǎng)勵(lì)收斂曲線。

        圖5 改進(jìn)DDPG算法獎(jiǎng)勵(lì)收斂曲線Fig.5 Reward convergence curve of improved DDPG

        由圖5可知,改進(jìn)DDPG算法歸一化獎(jiǎng)勵(lì)值在4 400次訓(xùn)練回合左右即趨于收斂,且穩(wěn)定在0.9左右。另外,記錄其經(jīng)歷10 000次訓(xùn)練回合耗費(fèi)時(shí)長(zhǎng)為69 h 40 min 34 s,對(duì)比表5結(jié)果可知,改進(jìn)DDPG算法整體訓(xùn)練時(shí)長(zhǎng)僅為原算法在表5所設(shè)4組學(xué)習(xí)率情況下平均訓(xùn)練時(shí)長(zhǎng)的1.98倍。這是因?yàn)樗崴惴總€(gè)訓(xùn)練回合內(nèi)利用ABC算法迭代更新尋優(yōu)網(wǎng)絡(luò)參數(shù),導(dǎo)致網(wǎng)絡(luò)訓(xùn)練復(fù)雜度增加,引起單個(gè)訓(xùn)練回合耗時(shí)增長(zhǎng)的代價(jià)。得益于改進(jìn)DDPG算法網(wǎng)絡(luò)訓(xùn)練不依賴于學(xué)習(xí)率的優(yōu)勢(shì),僅一次訓(xùn)練就能完成對(duì)模型權(quán)重參數(shù)的尋優(yōu),因此總體上網(wǎng)絡(luò)訓(xùn)練時(shí)長(zhǎng)大幅度減少,所提算法具有一定的有效性。

        圖6給出了在無(wú)人機(jī)仿真參數(shù)設(shè)置如表2,威脅模型仿真參數(shù)設(shè)置如表3的情況下,在兩種隨機(jī)位置多雷達(dá)環(huán)境中,無(wú)人機(jī)利用改進(jìn)DDPG算法航跡規(guī)劃測(cè)試效果圖。

        圖6 改進(jìn)DDPG算法航跡規(guī)劃效果圖Fig.6 Track planning effect chart by using improved DDPG

        由圖6可知,無(wú)人機(jī)能以連續(xù)平滑的航跡飛行,有效避開(kāi)實(shí)際環(huán)境地形和不同位置未知雷達(dá)探測(cè)威脅,成功到達(dá)任務(wù)終點(diǎn),驗(yàn)證了所提算法應(yīng)用的可行性。

        盡管智能算法解算航跡速率慢導(dǎo)致測(cè)試成功率不盡如人意,但迭代計(jì)算的特點(diǎn)決定了其能在不限時(shí)間內(nèi)得到更優(yōu)航跡。本文以智能算法在測(cè)試回合內(nèi)解得航跡為參照,用航跡偏差率評(píng)估改進(jìn)DDPG算法每次測(cè)試形成航跡的質(zhì)量。蟻群算法具有啟發(fā)式概率搜索特點(diǎn),易于找到全局最優(yōu)解,在規(guī)劃領(lǐng)域廣泛應(yīng)用,因此選擇蟻群算法作為對(duì)比算法。表6給出在相同飛行環(huán)境內(nèi)無(wú)人機(jī)利用改進(jìn)DDPG算法進(jìn)行航跡決策和用蟻群算法解算航跡的測(cè)試結(jié)果對(duì)比。其中蟻群算法種群數(shù)量為40,全局信息素濃度更新率為0.5,局部信息素濃度更新率為0.4,信息素濃度重要程度因子為1.5,啟發(fā)值重要程度因子為5。

        表6 不同算法航跡規(guī)劃測(cè)試結(jié)果Table 6 Test results of different algorithms for track planning %

        由表6可知,500次測(cè)試中,用蟻群算法解算航跡無(wú)人機(jī)測(cè)試成功率僅48.2%,而改進(jìn)DDPG算法成功率高達(dá)97.2%。這是由于大量的訓(xùn)練增強(qiáng)了改進(jìn)DDPG算法學(xué)習(xí)能力,能夠?qū)崟r(shí)決策無(wú)人機(jī)飛行航跡,獲得較高飛行成功率。同時(shí),以蟻群算法獲得最優(yōu)航跡為參照,改進(jìn)DDPG算法所得航跡偏差率僅為3.78%,其原因是所提算法采取的航跡決策使無(wú)人機(jī)飛行航跡有效且平滑,形成的航跡滿足航跡質(zhì)量需求,進(jìn)一步驗(yàn)證了所提算法在工程應(yīng)用的可行性。

        5 結(jié)語(yǔ)

        本文提出一種改進(jìn)DDPG無(wú)人機(jī)航跡規(guī)劃算法,解決了用傳統(tǒng)算法解算航跡速度慢的問(wèn)題,同時(shí)優(yōu)化了DDPG網(wǎng)絡(luò)權(quán)重參數(shù)更新過(guò)程。所提算法將深度強(qiáng)化學(xué)習(xí)應(yīng)用于航跡規(guī)劃領(lǐng)域,為無(wú)人機(jī)飛行提供連續(xù)確定性動(dòng)作決策,并設(shè)計(jì)2D-ABC算法,改進(jìn)DDPG算法模型更新機(jī)制。仿真結(jié)果表明,所提算法無(wú)需調(diào)整學(xué)習(xí)率的過(guò)程,提升了無(wú)人機(jī)在未知威脅環(huán)境飛行的實(shí)時(shí)反應(yīng)能力,降低了訓(xùn)練的時(shí)間成本,且在達(dá)到97.2%飛行成功率前提下,保證了航跡質(zhì)量。忽略自然干擾因素影響,所提算法相比典型智能算法,憑借連續(xù)飛行動(dòng)作輸出和實(shí)時(shí)航跡決策的優(yōu)勢(shì),在無(wú)人機(jī)航跡規(guī)劃領(lǐng)域更具可行性。面對(duì)實(shí)際環(huán)境天氣、風(fēng)力和氣流等變化影響,可聯(lián)合卡爾曼濾波等技術(shù)完善飛行動(dòng)作,使得所提算法在自然環(huán)境應(yīng)用可行。下一步工作,本團(tuán)隊(duì)將研究所提算法的優(yōu)化技術(shù),同時(shí)探討超參數(shù)對(duì)于深度強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)模型性能的影響。

        猜你喜歡
        蜜源航跡威脅
        貴州寬闊水國(guó)家級(jí)自然保護(hù)區(qū)蜜源植物資源調(diào)查研究*
        林下拓蜜源 蜂業(yè)上臺(tái)階
        人類的威脅
        夢(mèng)的航跡
        青年歌聲(2019年12期)2019-12-17 06:32:32
        受到威脅的生命
        指示蜜源的導(dǎo)蜜鳥(niǎo)
        面對(duì)孩子的“威脅”,我們要會(huì)說(shuō)“不”
        家教世界(2017年11期)2018-01-03 01:28:49
        自適應(yīng)引導(dǎo)長(zhǎng)度的無(wú)人機(jī)航跡跟蹤方法
        視覺(jué)導(dǎo)航下基于H2/H∞的航跡跟蹤
        Why Does Sleeping in Just Make Us More Tired?
        日本一区二区三深夜不卡| 国产农村妇女精品一二区| 亚洲av无码一区二区三区观看| 亚洲AV永久无码制服河南实里| 亚洲男人在线无码视频| 久久亚洲精品一区二区三区| 国产欧美日韩一区二区加勒比| 情侣黄网站免费看| 亚洲永久精品ww47永久入口| 国产白浆流出一区二区| 精品国产一区二区三区18p| 久久精品国产亚洲av无码娇色| 福利视频黄| 久久人妻av不卡中文字幕| 亚洲女同同性一区二区| 内射合集对白在线| 国产欧美在线观看不卡| 中文字幕在线观看亚洲日韩| 男人的天堂在线无码视频| 国产在线观看免费不卡视频| 亚洲乱码中文在线观看| 怡红院a∨人人爰人人爽| 色欲AV成人无码精品无码| 在线亚洲妇色中文色综合| 男奸女永久免费视频网站| 中文字幕人妻熟在线影院| 亚洲国产一区二区在线| 色婷婷久久99综合精品jk白丝 | 天堂av在线播放观看| 色婷婷久久亚洲综合看片| 中国农村熟妇性视频| 亚洲AV无码成人精品区天堂| 国产洗浴会所三级av| 国产欧美va欧美va香蕉在| 欧美日韩久久久精品a片| 91精品啪在线观看国产18| 亚洲国产精品成人一区二区三区| 99re6在线视频精品免费| 亚洲国产精品特色大片观看完整版 | 国产老熟女精品一区二区| 亚洲 另类 日韩 制服 无码 |