亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于時空感知增強(qiáng)的深度Q網(wǎng)絡(luò)無人水面艇局部路徑規(guī)劃

        2023-01-01 00:00:00張目唐俊楊友波陳雨雷印杰
        計算機(jī)應(yīng)用研究 2023年5期

        摘要:無人水面艇局部路徑規(guī)劃在海事救援、海洋運(yùn)輸?shù)阮I(lǐng)域中發(fā)揮著重要的作用?,F(xiàn)有局部路徑規(guī)劃算法在簡單場景中取得了不錯的效果,但面對環(huán)境中存在的復(fù)雜障礙物和海流干擾時,性能表現(xiàn)較差。為此,提出了一種基于時空感知增強(qiáng)的深度Q網(wǎng)絡(luò)強(qiáng)化學(xué)習(xí)算法,首先,引入多尺度空間注意力模塊捕捉距離傳感器的多尺度空間信息,提升了復(fù)雜障礙物環(huán)境的感知能力;其次,利用基于長短時記憶網(wǎng)絡(luò)的海流感知模塊提取海流干擾環(huán)境的時間序列特征,增強(qiáng)了對海流干擾的感知能力;此外,對無人水面艇傳感器和運(yùn)動模型進(jìn)行了模擬,并設(shè)計了強(qiáng)化學(xué)習(xí)狀態(tài)空間、動作空間和基于方向?qū)б莫剟詈瘮?shù),提升了算法的導(dǎo)航性能和收斂速度。在復(fù)雜仿真場景中進(jìn)行了實(shí)驗(yàn),結(jié)果表明,所提算法相比于原始算法在導(dǎo)航成功率和平均到達(dá)時間兩個指標(biāo)上均得到了提升,算法表現(xiàn)出較強(qiáng)的復(fù)雜環(huán)境適應(yīng)性。

        關(guān)鍵詞:局部路徑規(guī)劃;復(fù)雜障礙物;海流干擾;深度Q網(wǎng)絡(luò);多尺度空間注意力;獎勵函數(shù)

        中圖分類號:TP391文獻(xiàn)標(biāo)志碼:A文章編號:1001-3695(2023)05-007-1330-05doi:10.19734/j.issn.1001-3695.2022.09.0466

        0引言

        無人水面艇(unmannedsurfacevehicle,USV)局部路徑規(guī)劃要求USV根據(jù)自身傳感器獲取的部分環(huán)境信息來完成實(shí)時避障和導(dǎo)航[1],從而規(guī)劃出從起點(diǎn)到達(dá)終點(diǎn)的安全行駛路徑,該技術(shù)近年來被廣泛應(yīng)用于海事救援、海洋運(yùn)輸?shù)阮I(lǐng)域[2],并在實(shí)現(xiàn)USV航行無人化、智能化、安全化的過程中發(fā)揮著重要作用。

        目前較為常見的局部路徑規(guī)劃算法包括人工勢場法[3](artificialpotentialfield,APF)、動態(tài)窗口法[4](dynamicwindowapproach,DWA)和深度強(qiáng)化學(xué)習(xí)類的深度Q網(wǎng)絡(luò)(deepQ-network,DQN)[5]及其衍生算法D3QN(duelingdouble,DQN)等。人工勢場法通過在目標(biāo)和障礙物周圍構(gòu)建引力勢場和斥力勢場來實(shí)現(xiàn)路徑規(guī)劃,在簡單障礙物場景中取得了較好的效果。動態(tài)窗口法根據(jù)若干條未來可行的軌跡,使用評價函數(shù)選擇出下一時刻的最優(yōu)行駛速度來完成路徑規(guī)劃,其充分考慮和評估規(guī)劃主體的運(yùn)動學(xué)約束,能夠得到較高的成功率和較少的到達(dá)時間。隨著人工智能技術(shù)的發(fā)展,深度強(qiáng)化學(xué)習(xí)[6]被越來越多地應(yīng)用到局部路徑規(guī)劃中,它結(jié)合了深度學(xué)習(xí)強(qiáng)大的環(huán)境特征提取能力和強(qiáng)化學(xué)習(xí)[7]的控制策略學(xué)習(xí)能力,能夠?qū)崿F(xiàn)端對端的決策輸出,算法的適應(yīng)性、魯棒性較強(qiáng),且規(guī)劃實(shí)時性較好。Xiao等人[8]通過改進(jìn)人工勢場法的引力勢場模型和約束遠(yuǎn)處的引力勢場,實(shí)現(xiàn)了USV局部路徑規(guī)劃,但其只能在規(guī)則障礙物下完成避障,并且未考慮海流干擾。Wang等人[9]重新設(shè)計了動態(tài)窗口法的運(yùn)動學(xué)模型和評估函數(shù),在海洋環(huán)境下進(jìn)行了USV實(shí)時路徑規(guī)劃與避障,但障礙物場景較為簡單。Wu等人[10]模擬了USV的實(shí)際運(yùn)動模型,使用DuelingDQN算法在靜態(tài)和動態(tài)環(huán)境下完成了USV局部路徑規(guī)劃,但其未考慮海流干擾和復(fù)雜無規(guī)則障礙物的環(huán)境。Wang等人[11]提出了一種基于先驗(yàn)知識的強(qiáng)化學(xué)習(xí)actor-critic算法,完成了USV的實(shí)時避障,但其對復(fù)雜環(huán)境的適應(yīng)性較差。

        USV局部路徑規(guī)劃目前存在的問題有:a)現(xiàn)有算法一般都只能在簡單的規(guī)則障礙物場景中取得不錯的效果,但是在真實(shí)環(huán)境下,障礙物的形狀和大小都較為復(fù)雜,現(xiàn)有算法往往會陷入局部最小點(diǎn),以至于無法在規(guī)定時間內(nèi)到達(dá)目標(biāo);b)現(xiàn)有算法較少考慮海流干擾對USV運(yùn)動狀態(tài)的影響。為此,本文提出了一種基于時空感知增強(qiáng)的深度Q網(wǎng)絡(luò)算法ESD3QN(enhancedsensingD3QN)。首先,利用多尺度空間注意力模塊(multi-scalespatialattention,MSA)捕捉不同尺度的障礙物空間距離信息,以提高傳感器對復(fù)雜障礙物環(huán)境的空間感知能力,增加了USV在復(fù)雜障礙物環(huán)境下的導(dǎo)航性能。其次,利用基于長短時記憶網(wǎng)絡(luò)的海流感知模塊捕捉海流時間序列特征,提升了USV對海流干擾環(huán)境的感知能力;最后,在Python平臺下對海洋環(huán)境與無人水面艇運(yùn)動和感知模型進(jìn)行了模擬仿真,并設(shè)計了強(qiáng)化學(xué)習(xí)狀態(tài)空間、動作空間,針對海流對USV運(yùn)動模型的干擾,設(shè)計了基于方向?qū)б莫剟詈瘮?shù),增加了算法的內(nèi)在獎勵,使算法能夠應(yīng)對海流干擾,提升了算法的導(dǎo)航性能和收斂速度。ESD3QN相比于D3QN算法,導(dǎo)航成功率和平均到達(dá)時間等指標(biāo)均得到明顯提升,同時保持了良好的計算實(shí)時性,能夠適應(yīng)復(fù)雜的海洋環(huán)境。

        1本文方法

        1.1深度Q網(wǎng)絡(luò)

        深度Q網(wǎng)絡(luò)(DQN)是深度強(qiáng)化學(xué)習(xí)的開山之作,它用一個Q值神經(jīng)網(wǎng)絡(luò)替代了傳統(tǒng)的Q值表,解決了Q-learning[12]難以處理高維狀態(tài)空間的問題,同時引入了經(jīng)驗(yàn)回放機(jī)制(experiencereplay),保證了訓(xùn)練樣本的獨(dú)立同分布特性。

        DQN中Q值網(wǎng)絡(luò)損失函數(shù)如式(1)所示。

        其中:Q(s,a;θ)是當(dāng)前Q值網(wǎng)絡(luò),用于策略選擇;Q(s,a;θ′)是目標(biāo)Q值網(wǎng)絡(luò),用于Q值估計;Yt是目標(biāo)Q值(如式(2)所示),用于估計當(dāng)前狀態(tài)的最大獎勵期望。DQN算法利用當(dāng)前Q值作為訓(xùn)練對象,目標(biāo)Q值作為訓(xùn)練標(biāo)簽,當(dāng)前Q值和目標(biāo)Q值之間的均方誤差作為損失函數(shù)來更新Q(s,a;θ)的參數(shù),以實(shí)現(xiàn)算法的最優(yōu)迭代。

        1.2D3QN

        在DQN中會出現(xiàn)Q值過估計的問題[13],于是提出DoubleDQN(DDQN)[14],利用當(dāng)前Q值網(wǎng)絡(luò)來選擇動作,目標(biāo)Q網(wǎng)絡(luò)來估計Q值,降低了Q值過估計帶來的誤差,其目標(biāo)Q值Ydoublet和損失函數(shù)L(θ)如式(3)和(4)所示。

        D3QN[15]在DoubleDQN的基礎(chǔ)上引入了動作優(yōu)勢函數(shù),它將Q值函數(shù)拆分成兩個分支,一個分支為狀態(tài)價值函數(shù)V(s;θ,β),它僅與狀態(tài)s有關(guān),而與動作a無關(guān),另一分支為動作優(yōu)勢函數(shù)A(s,a;θ,α),它與狀態(tài)s和動作a都有關(guān),D3QN將狀態(tài)價值和動作優(yōu)勢相分離,提高了算法的學(xué)習(xí)速度,其Q值計算方法如式(5)所示。

        D3QN算法流程如圖1所示。

        1.3ESD3QN網(wǎng)絡(luò)

        1.3.1ESD3QN網(wǎng)絡(luò)結(jié)構(gòu)

        ESD3QN(圖2)在傳統(tǒng)D3QN的基礎(chǔ)上對神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行了修改,將低層的環(huán)境感知部分分成了三個分支模塊,即狀態(tài)感知模塊(statesensingmodule,SSM)、障礙物感知模塊(obstaclesensingmodule,OSM)和海流感知模塊(currentsensingmodule,CSM)。狀態(tài)感知模塊輸入目標(biāo)狀態(tài)信息,以提取目標(biāo)點(diǎn)的相對位置和USV的運(yùn)動狀態(tài)等狀態(tài)感知特征;障礙物感知模塊輸入一維障礙物距離信息,通過多尺度空間注意力模塊捕捉不同尺度下的障礙物距離空間感知特征;海流感知模塊輸入海流環(huán)境信息,利用長短時記憶網(wǎng)絡(luò)(longshort-termmemory,LSTM)[16]提取海流狀態(tài)的時間感知特征。

        在網(wǎng)絡(luò)的動作決策部分,利用一個全連接網(wǎng)絡(luò)對上述三個模塊的輸出進(jìn)行特征融合,得到融合感知特征,然后送入兩個全連接分支網(wǎng)絡(luò),分別得到動作優(yōu)勢和狀態(tài)價值,并將它們相加得到Q值,以輸出不同的動作。

        1.3.2狀態(tài)感知模塊

        狀態(tài)感知模塊由一個全連接網(wǎng)絡(luò)構(gòu)成,網(wǎng)絡(luò)輸入是終點(diǎn)相對USV當(dāng)前位置的距離、方位角以及USV當(dāng)前的速度、偏航角等目標(biāo)狀態(tài)信息,其目的是融合終點(diǎn)相對于USV的實(shí)時位置信息和USV的運(yùn)動狀態(tài),得到狀態(tài)感知特征,提取出USV的導(dǎo)航信息。

        1.3.3障礙物感知模塊

        障礙物感知模塊由一個多尺度空間注意力模塊(MSA)[17]和全連接網(wǎng)絡(luò)構(gòu)成。海洋環(huán)境中,障礙物的形狀和大小都十分復(fù)雜,呈現(xiàn)出非結(jié)構(gòu)化特征,距離傳感器采集一維的空間距離信息,對于這類信息通常使用空間注意力進(jìn)行特征提取,以加強(qiáng)對某些重要空間位置的感知能力,然而一般的空間注意力僅僅考慮單尺度信息,學(xué)習(xí)到的空間特征比較單一,無法適應(yīng)復(fù)雜的障礙物環(huán)境,于是本文使用多尺度空間注意力模塊,利用不同大小的卷積核提取多尺度的空間注意力信息,學(xué)習(xí)到更豐富的障礙物特征,并用通道注意力機(jī)制自適應(yīng)地標(biāo)定不同尺度通道的權(quán)重,以加強(qiáng)USV對復(fù)雜障礙物環(huán)境的感知能力。MSA模塊(圖3)輸入距離傳感器一維序列感知數(shù)據(jù),分別使用多種不同大小的一維卷積核對輸入進(jìn)行滑動卷積,再將卷積輸出經(jīng)過sigmoid函數(shù)得到多尺度下的空間注意力權(quán)重[18],并將它們分別與輸入相乘得到多尺度空間注意力特征,然后在通道上拼接起來并經(jīng)過一個通道注意力模塊[19],賦予其相應(yīng)的通道注意力權(quán)重,得到多尺度的障礙物距離空間感知特征。最后將MSA模塊的輸出經(jīng)過全連接層進(jìn)行多尺度特征融合,得到障礙物感知特征。MSA模塊能夠提取不同尺度下的障礙物空間距離信息,因此能夠提升USV在復(fù)雜障礙物場景的導(dǎo)航與避障能力。

        1.3.4海流感知模塊

        海流感知模塊由LSTM和全連接網(wǎng)絡(luò)構(gòu)成。在復(fù)雜的海流環(huán)境下,USV運(yùn)動過程中僅能感知當(dāng)前時刻的海流信息,同時可以保存歷史時刻的海流信息以構(gòu)成海流時序數(shù)據(jù)。LSTM針對時序數(shù)據(jù)具有較強(qiáng)的預(yù)測能力,使用LSTM可以獲取對未來時刻的海流干擾的估計信息,以優(yōu)化USV的運(yùn)動策略。LSTM網(wǎng)絡(luò)的輸入為由歷史海流狀態(tài)時間序列組成的海流環(huán)境信息,它使用滑動窗的方式進(jìn)行構(gòu)建,USV每更新一次運(yùn)動狀態(tài),就記錄該時刻的海流狀態(tài)vc(t),并刪除最早存入的海流狀態(tài),使得輸入序列的長度固定為L。LSTM輸出的海流時間序列特征經(jīng)過一個全連接網(wǎng)絡(luò),以獲得海流感知特征。海流感知模塊能夠利用LSTM的長序列特征提取能力,獲取海流狀態(tài)的時間特征信息,提升USV對海流干擾環(huán)境的感知能力和預(yù)測能力[20],提高導(dǎo)航成功率,減少到達(dá)終點(diǎn)的時間。

        1.4強(qiáng)化學(xué)習(xí)模型設(shè)計

        1.4.1動作空間設(shè)計

        在平面空間構(gòu)建USV三自由度運(yùn)動模型[21],三個自由度分別表述為朝向USV船首、右舷的前進(jìn)速度u、橫漂速度v,以及繞朝向地心的USV中軸旋轉(zhuǎn)的艏搖角速度ω。USV在平面的運(yùn)動狀態(tài)為[x,y,φ],其中[x,y]為USV的坐標(biāo),φ為USV的偏航角。

        在海流干擾環(huán)境中,海流主要影響的是USV的橫漂和前進(jìn)速度,海流在USV當(dāng)前位置的速度矢量表示為vc(t)=[vcx(t),vcy(t)],USV在離散時間Δt內(nèi)的運(yùn)動學(xué)方程如式(6)所示。

        根據(jù)上述運(yùn)動學(xué)模型,為方便航行時間的計算,假設(shè)航行的前進(jìn)速度固定不變,在最大偏航角范圍內(nèi)設(shè)置n個不同的角速度,作為離散動作空間Ci,如式(7)所示。

        1.4.2狀態(tài)空間設(shè)計

        USV感知的目標(biāo)狀態(tài)信息表示為g=[dg,φg,φ],dg、φg分別為終點(diǎn)與USV的相對距離和相對方位角。為獲取障礙物距離信息,在USV上模擬配置了k個等角度間隔的距離傳感器,每一個距離傳感器可以在最大感知距離dmax內(nèi)實(shí)時探測自身角度的障礙物距離,返回的障礙物距離信息為d=[d0,d1,…,dk]。海流環(huán)境信息表示為vcseq=[vc(t),vc(t-1),…,vc(t-L+1)],其中vc(t)表示t時刻USV位置的海流速度。

        基于USV所獲取的局部環(huán)境感知信息,構(gòu)建強(qiáng)化學(xué)習(xí)算法中的狀態(tài)空間為S=[g,d,vcseq]。

        1.4.3獎勵函數(shù)設(shè)計

        稀疏獎勵[22]是強(qiáng)化學(xué)習(xí)獎勵設(shè)計中的一個難題,智能體在中間狀態(tài)無法獲得獎勵,難以探索出成功的策略。因此,常用的做法是獎勵重塑(rewardshaping)[23],即在智能體作出每一個動作后都給予一個中間狀態(tài)獎勵,在路徑規(guī)劃任務(wù)中,常用的獎勵重塑方法設(shè)計的獎勵函數(shù)如式(8)所示,其中m是到達(dá)目標(biāo)時獲得的獎勵,dt-1、dt分別是上一時刻和當(dāng)前時刻智能體與目標(biāo)點(diǎn)的距離。

        式(8)是獎勵函數(shù)無法在海流干擾環(huán)境下給予USV合適的內(nèi)在獎勵,因此本文設(shè)計了方向?qū)б剟詈瘮?shù),將海流干擾矢量與方向?qū)б噶肯嘟Y(jié)合,使USV可以更好地克服海流干擾,同時提升了算法的收斂速度。其設(shè)計思路是:假設(shè)目標(biāo)點(diǎn)對USV存在一個吸引力Fatt=ζea,ζ為吸引力的大小,ea為吸引力單位向量,方向由USV當(dāng)前位置指向目標(biāo)點(diǎn)位置。傳感器檢測到距離USV最近的障礙物對USV存在一個排斥力,如式(9)所示。其中d是USV與障礙物的距離;d0是排斥力的最小作用范圍;er是排斥力單位向量,方向由USV當(dāng)前位置指向障礙物。

        吸引力Fatt和排斥力Frep的合力方向?yàn)閁SV期望的導(dǎo)引方向,然而由于存在海流干擾力Fc=βvc,它會導(dǎo)致真實(shí)的導(dǎo)引方向發(fā)生偏離,所以將三個作用力矢量進(jìn)行合成,得到海流環(huán)境下的方向?qū)б噶縁guide=Fatt+Frep-Fc,如圖4所示。USV的前進(jìn)速度矢量為V=[vx,vy],通過計算前進(jìn)速度矢量與方向?qū)б噶康挠嘞蚁嗨贫萩osθg來衡量USV前進(jìn)方向與導(dǎo)引方向的偏離程度,由此構(gòu)建方向?qū)б剟詈瘮?shù)(如式(10)所示),該獎勵函數(shù)使USV能夠盡量避免海流干擾帶來的軌跡偏離,使其朝著期望的導(dǎo)引方向前進(jìn)。

        2實(shí)驗(yàn)

        2.1實(shí)驗(yàn)仿真環(huán)境

        本研究分別構(gòu)建了訓(xùn)練和測試場景的仿真環(huán)境。為了便于障礙物的構(gòu)建以及距離傳感器對障礙物的感知,對二維場景地圖進(jìn)行了柵格化和二值化處理[24],每一個柵格用0或1來表示該位置是否有障礙物,同時每一個柵格還包含了該位置的海流速度。實(shí)驗(yàn)仿真海流環(huán)境由定常流(如式(11)所示)和渦流(如式(12)所示)[25]疊加生成,(x0,y0)是渦流中心點(diǎn)的坐標(biāo),r是地圖上某一點(diǎn)(x,y)到渦流中心點(diǎn)的距離。

        訓(xùn)練階段,每一輪生成若干個隨機(jī)位置的不同形狀大小的障礙物,USV起點(diǎn)和終點(diǎn)位置在地圖上隨機(jī)生成,且場景中存在隨機(jī)生成的海流干擾。

        測試階段,設(shè)置了100組不同的USV起點(diǎn)和終點(diǎn)。場景選取了舟山群島的部分海域,對真實(shí)地圖進(jìn)行了二值化處理,以作為測試環(huán)境,如圖5所示。環(huán)境中障礙物的空間排布和障礙物形狀都十分復(fù)雜,呈現(xiàn)出非結(jié)構(gòu)化特征,并且存在隨機(jī)生成的海流干擾,增加了導(dǎo)航和避障的難度。

        2.2實(shí)驗(yàn)設(shè)置

        本文實(shí)驗(yàn)是在Windows10系統(tǒng)下進(jìn)行,采用PyTorch1.4深度學(xué)習(xí)框架和gym強(qiáng)化學(xué)習(xí)框架,硬件配置為NVIDIAGeForceGTX1060,3GB顯存,IntelCoreTMi5-8400CPU@280GHz×6,8GBRAM。訓(xùn)練的學(xué)習(xí)率為00005,探索率為0.1,折扣因子為0.99,經(jīng)驗(yàn)回放池容量為10000,目標(biāo)Q網(wǎng)絡(luò)更新頻率為500,批次大小為32。

        2.3評價指標(biāo)

        為了衡量不同算法的導(dǎo)航性能,主要設(shè)置了導(dǎo)航成功率(successrate,SR)、平均到達(dá)時間(averagearrivaltime,AAT)和每步計算耗時(time-consumingperstep,TPS)這三個評價指標(biāo)。SR的計算方式如式(13)所示,其中SE為導(dǎo)航成功的實(shí)驗(yàn)次數(shù),TE為總實(shí)驗(yàn)次數(shù);AAT的計算方式如式(14)所示,其中SS為所有導(dǎo)航成功實(shí)驗(yàn)的到達(dá)步數(shù)之和;TPS的計算方式如式(15)所示,其中TT為所有實(shí)驗(yàn)的總計算耗時,TS為所有實(shí)驗(yàn)的總步數(shù)。這三個指標(biāo)當(dāng)中,SR和AAT是評價算法路徑規(guī)劃能力的重要指標(biāo),而TPS是評價算法實(shí)時性的指標(biāo)。

        2.4消融實(shí)驗(yàn)

        本文提出的MSA模塊、CSM模塊是對算法網(wǎng)絡(luò)結(jié)構(gòu)部分的修改,方向?qū)б剟詈瘮?shù)是對算法獎勵函數(shù)部分的修改,這三個模塊之間相互獨(dú)立。為了驗(yàn)證不同模塊的效果提升能力,在測試場景中進(jìn)行了消融實(shí)驗(yàn)。本節(jié)所有實(shí)驗(yàn)均以D3QN和如式(8)所示獎勵函數(shù)為基礎(chǔ),依次添加本文提出的方向?qū)б剟詈瘮?shù)(簡稱DG)、MSA模塊和CSM模塊,來驗(yàn)證不同模塊對SR、AAT和TPS性能指標(biāo)的影響,如表1所示。

        對比實(shí)驗(yàn)1和2可知,方向?qū)б剟詈瘮?shù)加強(qiáng)了算法在復(fù)雜環(huán)境中的適應(yīng)性,有效提高了SR、減少了AAT;對比實(shí)驗(yàn)2和3可知,MSA模塊加強(qiáng)了障礙物感知能力,提高了SR,減少了AAT;對比實(shí)驗(yàn)3和4可知,CSM模塊加強(qiáng)了海流感知能力,提高了SR,減少了AAT;對比實(shí)驗(yàn)1和4可知,由于本文方法具有較強(qiáng)的環(huán)境感知能力,其在增加一定TPS的情況下,大幅提高了SR,減少了AAT,具有對復(fù)雜環(huán)境的適應(yīng)能力。實(shí)驗(yàn)過程中各項(xiàng)性能指標(biāo)隨所加模塊的變化情況如圖6所示。由圖可知,本文使用的模塊雖然在TPS指標(biāo)上作出了一定犧牲,但換取了SR和AAT這兩個重要性能指標(biāo)的提升。

        2.5對比實(shí)驗(yàn)

        將本文算法與其他算法的性能指標(biāo)進(jìn)行對比實(shí)驗(yàn)。首先對ESD3QN和D3QN算法在訓(xùn)練階段的SR和AAT這兩個性能指標(biāo)隨迭代次數(shù)的變化進(jìn)行對比分析,以評估算法在訓(xùn)練時的學(xué)習(xí)和收斂性能,結(jié)果如圖7和8所示。原始收斂曲線的波動較大,為使曲線的變化情況更清晰,對其進(jìn)行了平滑(smooth)處理。

        由于ESD3QN的方向?qū)б剟詈瘮?shù)能夠提供更為準(zhǔn)確的內(nèi)在獎勵,所以ESD3QN相比于D3QN的SR和AAT訓(xùn)練迭代曲線能夠更快地收斂,ESD3QN在第2500次迭代時便趨于收斂,而D3QN在10000次迭代之后才趨于收斂,同時收斂后ESD3QN的SR值更高,AAT值也更小。由此可知,ESD3QN算法具有更好的學(xué)習(xí)和收斂性能。

        為了驗(yàn)證ESD3QN算法相比于其他局部路徑規(guī)劃算法對于復(fù)雜環(huán)境的適應(yīng)能力。在測試場景下對APF、DWA、DQN、DDQN、D3QN和ESD3QN算法的SR、AAT和TPS三項(xiàng)性能指標(biāo)進(jìn)行對比分析,結(jié)果如表2所示,同時,對這幾種算法導(dǎo)航成功的軌跡進(jìn)行了對比,航行軌跡如圖9所示。

        在實(shí)驗(yàn)場景中,由于存在隨機(jī)生成的海流干擾以及復(fù)雜無規(guī)則分布的不同形狀大小的障礙物,給算法的局部避障性能造成了較大的影響,DWA和APF算法對復(fù)雜環(huán)境的適應(yīng)性較差,在該場景下測試時,均出現(xiàn)了陷入局部最小點(diǎn)或不可達(dá)點(diǎn)的情況,導(dǎo)致它們的導(dǎo)航成功率較低。APF算法的每步計算耗時最小,但其導(dǎo)航成功率最低,并且由于勢場的動態(tài)變化和海流干擾影響,其軌跡平滑性較差;DWA算法由于需要進(jìn)行大量的采樣,所以每步計算耗時最大,并且由于存在海流干擾,算法對未來軌跡的預(yù)測有一定偏差,導(dǎo)致平均到達(dá)時間較長;由于深度強(qiáng)化學(xué)習(xí)算法具有較強(qiáng)的學(xué)習(xí)能力和自適應(yīng)能力,所以DQN類算法在該場景下均能達(dá)到較高的導(dǎo)航成功率,但DQN、DDQN、D3QN算法的平均到達(dá)時間均較長,其中D3QN算法的效果表現(xiàn)最好,導(dǎo)航成功率和平均到達(dá)時間分別為80%和7296;本文提出的ESD3QN算法對復(fù)雜的障礙物和海流環(huán)境具有優(yōu)秀的感知能力,因而避障能力較強(qiáng),導(dǎo)航成功率和平均到達(dá)時間分別達(dá)到90%和60.38,相比于D3QN算法分別提升了1250%和1724%,同時算法能夠克服海流對USV運(yùn)動模型的干擾,規(guī)劃的軌跡平滑性較好。相對于其他算法,本文提出的ESD3QN算法表現(xiàn)出了較強(qiáng)的復(fù)雜環(huán)境適應(yīng)性和魯棒性。

        3結(jié)束語

        本文針對無人水面艇在復(fù)雜環(huán)境下的局部路徑規(guī)劃問題,提出了一種基于多尺度空間注意力、海流感知模塊和方向?qū)б剟詈瘮?shù)的ESD3QN算法。算法在復(fù)雜場景中的導(dǎo)航成功率和平均到達(dá)時間相比于D3QN均得到了提升,算法收斂性也得到了提高,具有較強(qiáng)的復(fù)雜環(huán)境適應(yīng)性,解決了傳統(tǒng)局部路徑規(guī)劃算法難以處理復(fù)雜無規(guī)則障礙物和海流干擾的問題。本文研究的是二維海洋環(huán)境下的局部路徑規(guī)劃問題,未考慮更加復(fù)雜的三維海洋環(huán)境,未來的研究工作可以考慮復(fù)雜三維海洋環(huán)境的情況。

        參考文獻(xiàn):

        [1]ChengChunxi,ShaQixin,HeBo,etal.PathplanningandobstacleavoidanceforAUV:areview[J].OceanEngineering,2021,235:109355.

        [2]KarimiHR,LuYanyang.Guidanceandcontrolmethodologiesformarinevehicles:asurvey[J].ControlEngineeringPractice,2021,111:104785.

        [3]XieShaorong,WuPeng,PengYan,etal.TheobstacleavoidanceplanningofUSVbasedonimprovedartificialpotentialfield[C]//ProcofIEEEInternationalConferenceonInformationandAutomation.Piscataway,NJ:IEEEPress,2014:746-751.

        [4]FoxD,BurgardW,ThrunS.Thedynamicwindowapproachtocollisionavoidance[J].IEEERoboticsamp;AutomationMagazine,1997,4(1):23-33.

        [5]MnihV,KavukcuogluK,SilverD,etal.PlayingAtariwithdeepreinforcementlearning[EB/OL].(2013).https://arxiv.org/abs/1312.5602.

        [6]MnihV,KavukcuogluK,SilverD,etal.Human-levelcontrolthroughdeepreinforcementlearning[J].Nature,2015,518(7540):529-533.

        [7]KaelblingLP,LittmanML,MooreAW.Reinforcementlearning:asurvey[J].JournalofArtificialIntelligenceResearch,1996,4:237-285.

        [8]XiaoMa,ZuanLin,SongRuiyin.Localpathplanningforunmannedsurfacevehiclewithimprovedartificialpotentialfieldmethod[J].JournalofPhysics:ConferenceSeries,2020,1634(1):012125.

        [9]WangZhenyu,LiangYan,GongChangwei,etal.Improveddynamicwindowapproachforunmannedsurfacevehicles’localpathplanningconsideringtheimpactofenvironmentalfactors[J].Sensors,2022,22(14):5181.

        [10]WuXing,ChenHaolei,ChenChanggu,etal.TheautonomousnavigationandobstacleavoidanceforUSVswithANOAdeepreinforcementlearningmethod[J].Knowledge-BasedSystems,2020,196:105201.

        [11]WangWei,LuoXiangfeng,LiYang,etal.Unmannedsurfacevesselobstacleavoidancewithpriorknowledge-basedrewardshaping[J].ConcurrencyandComputation:PracticeandExperience,2021,33(9):e6110.

        [12]WatkinsCJCH,DayanP.Q-learning[J].MachineLearning,1992,8(3):279-292.

        [13]HasseltH.DoubleQ-learning[J].AdvancesinNeuralInformationProcessingSystems,2010,23:2613-2621.

        [14]VanHasseltH,GuezA,SilverD.DeepreinforcementlearningwithdoubleQ-learning[C]//ProcofAAAIConferenceonArtificialIntelligence.2016.

        [15]WangZ,SchaulT,HesselM,etal.Duelingnetworkarchitecturesfordeepreinforcementlearning[C]//ProcofInternationalConferenceonMachineLearning.2016:1995-2003.

        [16]HochreiterS,SchmidhuberJ.Longshort-termmemory[J].NeuralComputation,1997,9(8):1735-1780.

        [17]ZhangHu,ZuKeke,LuJian,etal.EPSANet:anefficientpyramidsqueezeattentionblockonconvolutionalneuralnetwork[EB/OL].(2021).https://arxiv.org/abs/2105.14447.

        [18]ZhaoHengshuang,ZhangYi,LiuShu,etal.PSANet:point-wisespatialattentionnetworkforsceneparsing[C]//ProcofEuropeanConferenceonComputerVision.2018:267-283.

        [19]HuJie,ShenLi,SunGang.Squeeze-and-excitationnetworks[C]//ProcofIEEEConferenceonComputerVisionandPatternRecognition.Piscataway,NJ:IEEEPress,2018:7132-7141.

        [20]BakkerB.Reinforcementlearningwithlongshort-termmemory[J].AdvancesinNeuralInformationProcessingSystems,2001,14:1475-1482.

        [21]HuangChen,YinKai,LiuLantao.Learningpartiallystructuredenvironmentaldynamicsformarineroboticnavigation[C]//ProcofOCEANSMTS/IEEECharleston.Piscataway,NJ:IEEEPress,2018:1-8.

        [22]PlappertM,AndrychowiczM,RayA,etal.Multi-goalreinforcementlearning:challengingroboticsenvironmentsandrequestforresearch[EB/OL].(2018).https://arxiv.org/abs/1802.09464.

        [23]NgAY,HaradaD,RussellS.Policyinvarianceunderrewardtransformations:theoryandapplicationtorewardshaping[C]//ProcofInternationalConferenceonMachineLearning.1999:278-287.

        [24]WuMeiyi,ZhangAnmin,GaoMiao,etal.ShipmotionplanningforMASSbasedonamulti-objectiveoptimizationHA*algorithmincomplexnavigationconditions[J].JournalofMarineScienceandEngineering,2021,9(10):1126.

        [25]王奎民,趙玉飛,侯恕萍,等.一種改進(jìn)人工勢場的UUV動礙航物規(guī)避方法[J].智能系統(tǒng)學(xué)報,2014,9(1):47-52.(WangKuimin,ZhaoYufei,HouShuping,etal.Dynamicobstacleavoidanceforunmannedunderwatervehiclebasedonanimprovedartificialpotentialfield[J].CAAITransonIntelligentSystems,2014,9(1):47-52.)

        女女同女同一区二区三区| 91国视频| 亚洲AV无码成人精品区日韩密殿| 少妇人妻在线伊人春色| 激情综合五月开心婷婷| 成年无码av片在线| 亚洲精品视频久久| 91青青草免费在线视频| 最新国产不卡在线视频| 未满十八勿入av网免费| 久久亚洲av成人无码国产最大| 欧美黑人xxxx又粗又长| 99视频在线国产| 国产黑色丝袜在线观看网站91| 不卡的高清av一区二区三区| 亚洲av无码久久精品狠狠爱浪潮| 亚洲综合色一区二区三区小说| 国产亚洲午夜高清国产拍精品不卡| 翘臀诱惑中文字幕人妻| 美女国产毛片a区内射| 少妇人妻偷人精品免费视频| 二区久久国产乱子伦免费精品| 亚洲乱码中文字幕第一页| 国产麻豆精品精东影业av网站| 国产99久久久国产精品免费看| 国产成人亚洲精品91专区手机| 精品日产一区2区三区| 男女18视频免费网站| 国产麻豆剧传媒精品国产av| 国产精品美女AV免费观看| 蜜桃成熟时日本一区二区| 久久狠狠色噜噜狠狠狠狠97| 免费无码肉片在线观看| 亚洲精品一品二品av| 亚洲av不卡一区男人天堂| 男女车车的车车网站w98免费| 久久久久久一级毛片免费无遮挡| 日本不卡不二三区在线看| 成年女人vr免费视频| 精品人妻无码视频中文字幕一区二区三区| 国产精品久久中文字幕亚洲|