摘 要:針對缺乏完整環(huán)境信息的條件下移動(dòng)機(jī)器人局部路徑規(guī)劃算法性能提升及深度強(qiáng)化學(xué)習(xí)智能體訓(xùn)練速度慢的問題,提出了突變定位算法和改進(jìn)的soft actor-critic (SAC)算法,并將兩者結(jié)合為突變定位SAC算法。突變定位算法能夠在缺乏完備環(huán)境信息的情況下計(jì)算子目標(biāo)點(diǎn)位置,減少移動(dòng)機(jī)器人規(guī)劃路徑的長度。同時(shí),通過引入基于虛擬勢場的critic網(wǎng)絡(luò)改進(jìn)損失函數(shù)和多階段訓(xùn)練方法,提高SAC智能體的訓(xùn)練速度。實(shí)驗(yàn)結(jié)果表明,與DDPG、SAC、PER-SAC和HER-TD3相比,突變定位SAC算法在訓(xùn)練時(shí)間上分別減少了46.68%、39.50%、20.18%和27.79%。此外,突變定位SAC算法在不同環(huán)境下規(guī)劃路徑的長度平均減少了13.71%、10.26%、10.90%和15.89%。
關(guān)鍵詞: 移動(dòng)機(jī)器人; 路徑規(guī)劃; 深度強(qiáng)化學(xué)習(xí)算法; SAC算法; 激光雷達(dá); 未知環(huán)境
中圖分類號: TP242 文獻(xiàn)標(biāo)志碼: A 文章編號: 1001-3695(2025)02-018-0455-07
doi: 10.19734/j.issn.1001-3695.2024.06.0233
Mutation localization SAC based path planning algorithm for mobile robots under unknown environments
Hu Likun, Wei Chunyou’
(School of Electrical Engineering, Guangxi University, Nanning 530000, China)
Abstract:This study proposed a mutation localization algorithm and an improved SAC algorithm, and combined the two into a mutation localization SAC algorithm" for mobile robots under the condition of lack of complete environment information and the slow training speed of deep reinforcement learning agents. The mutation localization algorithm was able to compute the sub-target point locations in the absence of complete environment information and reduce the length of the planned path for mobile robots. Meanwhile, it improved the training speed of SAC agents by introducing the improved loss function and multi-stage trai-ning method of critic network based on virtual potential field. The experimental results show that the mutation localization SAC algorithm reduces 46.68%, 39.50%, 20.18%, and 27.79% in training time compared with the DDPG, SAC, PER-SAC, and HER-TD3, respectively. In addition, the mutation localization SAC algorithm reduces the length of the planned paths in different environments by 13.71%, 10.26%, 10.90% and 15.89% on average.
Key words:mobile robot; path planning; deep reinforcement learning algorithm; SAC algorithm; LiDAR; unknown environment
0 引言
移動(dòng)機(jī)器人可以替代人們從事繁重的體力勞動(dòng)或者勝任人力難以完成的任務(wù)[1],對于減少人力負(fù)擔(dān)并提升產(chǎn)業(yè)自動(dòng)化水平具有重要意義[2]。然而,移動(dòng)機(jī)器人必須依靠合理的路徑規(guī)劃算法才能到達(dá)目標(biāo)點(diǎn)的位置[3]。因此,路徑規(guī)劃算法的能力能顯著影響移動(dòng)機(jī)器人的動(dòng)態(tài)性能[4]。在移動(dòng)機(jī)器人的應(yīng)用場景中,移動(dòng)機(jī)器人經(jīng)常需要在未知環(huán)境下規(guī)劃路徑。因此,研究移動(dòng)機(jī)器人在未知環(huán)境下的路徑規(guī)劃算法十分有必要。單一的移動(dòng)機(jī)器人的路徑規(guī)劃算法的種類主要包括基于圖搜索的路徑規(guī)劃算法[5]、基于采樣的路徑規(guī)劃算法[6]、基于群智能的路徑規(guī)劃算法[7]、局部路徑規(guī)劃算法[8]和基于強(qiáng)化學(xué)習(xí)的路徑規(guī)劃算法[9]。移動(dòng)機(jī)器人的路徑規(guī)劃算法還可以是多個(gè)路徑規(guī)劃算法結(jié)合的混合路徑規(guī)劃算法[10]。
局部路徑規(guī)劃算法的路徑規(guī)劃過程關(guān)注環(huán)境的局部來滿足移動(dòng)機(jī)器人的動(dòng)態(tài)避障需求[11]。局部路徑規(guī)劃算法具有實(shí)時(shí)性高的優(yōu)點(diǎn),能適應(yīng)環(huán)境的快速變化[12]。然而,局部路徑規(guī)劃算法可能會由于缺乏全局信息導(dǎo)致無法在復(fù)雜環(huán)境中找到正確的路徑。常見的局部路徑規(guī)劃算法包括人工勢場算法和動(dòng)態(tài)窗口算法。
基于強(qiáng)化學(xué)習(xí)的路徑規(guī)劃算法的核心思想是讓移動(dòng)機(jī)器人從環(huán)境中自主學(xué)習(xí),并預(yù)測出可行路徑[13]。基于強(qiáng)化學(xué)習(xí)的路徑規(guī)劃算法具有實(shí)時(shí)性高、適應(yīng)性強(qiáng)和適用于復(fù)雜環(huán)境的優(yōu)點(diǎn)[14]?;趶?qiáng)化學(xué)習(xí)的路徑規(guī)劃算法的應(yīng)用形式主要有柵格環(huán)境下輸出離散路徑的全局路徑規(guī)劃算法[15]和根據(jù)激光雷達(dá)的探測數(shù)據(jù)規(guī)劃連續(xù)路徑的局部路徑規(guī)劃算法[16]兩種。根據(jù)激光雷達(dá)的探測數(shù)據(jù)規(guī)劃連續(xù)路徑的局部路徑規(guī)劃算法不需要在規(guī)劃路徑前對環(huán)境進(jìn)行建模,適用于未知環(huán)境下移動(dòng)機(jī)器人的路徑規(guī)劃。常見的強(qiáng)化學(xué)習(xí)包括SAC、DDPG算法。
基于強(qiáng)化學(xué)習(xí)的移動(dòng)機(jī)器人路徑規(guī)劃算法已有較多學(xué)者展開研究。文獻(xiàn)[17]將蟻群算法的信息素機(jī)制引入到Q學(xué)習(xí)智能體的探索過程中來提升智能體的訓(xùn)練速度。然而,基于Q學(xué)習(xí)的路徑規(guī)劃算法只能應(yīng)用于簡單的柵格環(huán)境。當(dāng)環(huán)境較為復(fù)雜時(shí),基于Q學(xué)習(xí)的路徑規(guī)劃算法容易出現(xiàn)維度爆炸問題。文獻(xiàn)[18]驗(yàn)證了存在子目標(biāo)點(diǎn)引導(dǎo)的深度Q網(wǎng)絡(luò)算法可以獲得更好的路徑規(guī)劃效果。然而,文獻(xiàn)[18]的子目標(biāo)點(diǎn)的獲取需要詳細(xì)的全局信息。當(dāng)環(huán)境的全局信息缺乏時(shí),文獻(xiàn)[18]沒有給出如何獲得子目標(biāo)點(diǎn)的方法。同樣,文獻(xiàn)[19]驗(yàn)證了虛擬目標(biāo)點(diǎn)的引導(dǎo)可以提高自適應(yīng)Q學(xué)習(xí)路徑規(guī)劃算法的性能。然而,文獻(xiàn)[19]同樣無法給出全局信息缺乏的條件下虛擬目標(biāo)點(diǎn)位置的確定方法。文獻(xiàn)[20] 提出的一種融合進(jìn)化策略思想和安全獎(jiǎng)勵(lì)函數(shù)的安全近端策略優(yōu)化算法可以提升移動(dòng)機(jī)器人規(guī)劃道路的安全性。然而,安全近端策略優(yōu)化算法所規(guī)劃的路徑在節(jié)點(diǎn)處容易出現(xiàn)較大轉(zhuǎn)折,導(dǎo)致無法滿足移動(dòng)機(jī)器人的運(yùn)動(dòng)學(xué)約束。DDPG 算法也是一種處理連續(xù)動(dòng)作空間的深度強(qiáng)化學(xué)習(xí)算法。與SAC算法不同的是,DDPG算法的目標(biāo)是最大化獎(jiǎng)勵(lì),而不是最大化獎(jiǎng)勵(lì)與熵的和[21]。文獻(xiàn)[22]采用免疫優(yōu)化算法對DDPG算法的經(jīng)驗(yàn)緩沖池中的經(jīng)驗(yàn)樣本進(jìn)行優(yōu)化的方式可以提高智能體的訓(xùn)練速度。然而,采用免疫優(yōu)化算法改進(jìn)的DDPG算法無法為智能體提供全局信息,導(dǎo)致智能體規(guī)劃的路徑較長。文獻(xiàn)[23]設(shè)計(jì)合理的獎(jiǎng)勵(lì)函數(shù),使用動(dòng)態(tài)的狀態(tài)歸一化和優(yōu)先級經(jīng)驗(yàn)技術(shù)來使用SAC算法規(guī)劃移動(dòng)機(jī)器人的路徑。文獻(xiàn)[24]將PER機(jī)制結(jié)合到SAC算法中來為經(jīng)驗(yàn)數(shù)據(jù)賦予權(quán)重。SAC智能體根據(jù)權(quán)重對經(jīng)驗(yàn)池中的經(jīng)驗(yàn)數(shù)據(jù)采樣。因此,PER-SAC算法可以更充分地利用優(yōu)良經(jīng)驗(yàn)數(shù)據(jù)來提高智能體的訓(xùn)練速度。類似的,文獻(xiàn)[25]通過HER算法提高TD3智能體的探索能力,緩解路徑規(guī)劃的稀疏獎(jiǎng)勵(lì)的問題。
基于深度強(qiáng)化學(xué)習(xí)的移動(dòng)機(jī)器人的局部路徑規(guī)劃算法可以在未知環(huán)境下利用環(huán)境的局部信息規(guī)劃移動(dòng)機(jī)器人的路徑。采用子目標(biāo)點(diǎn)引導(dǎo)移動(dòng)機(jī)器人的方法是提升局部路徑規(guī)劃算法性能的有效方式。然而,計(jì)算移動(dòng)機(jī)器人的子目標(biāo)點(diǎn)位置的過程往往需要完備的環(huán)境信息。先前的基于強(qiáng)化學(xué)習(xí)算法的移動(dòng)機(jī)器人的路徑規(guī)劃算法的研究往往單獨(dú)作為缺乏全局信息的局部路徑規(guī)劃算法,或者必須獲得完整的環(huán)境信息才能獲得移動(dòng)機(jī)器人的子目標(biāo)點(diǎn)。此外,先前基于強(qiáng)化學(xué)習(xí)算法的移動(dòng)機(jī)器人的路徑規(guī)劃算法存在訓(xùn)練速度慢的問題。
針對先前基于強(qiáng)化學(xué)習(xí)算法的移動(dòng)機(jī)器人的路徑規(guī)劃算法所存在的問題,本文提出突變定位SAC算法用于移動(dòng)機(jī)器人的路徑規(guī)劃,其具有以下特點(diǎn):a)提出一種利用局部信息計(jì)算子目標(biāo)點(diǎn)位置的突變定位算法。突變定位算法可以利用移動(dòng)機(jī)器人攜帶的激光雷達(dá)裝置獲取的環(huán)境的局部信息來計(jì)算子目標(biāo)點(diǎn)的位置。突變定位算法計(jì)算的子目標(biāo)點(diǎn)和動(dòng)作選擇器策略可以引導(dǎo)移動(dòng)機(jī)器人以減少規(guī)劃路徑的長度。b)提出基于虛擬勢場的critic網(wǎng)絡(luò)的改進(jìn)損失函數(shù)和多階段訓(xùn)練方法來提高SAC智能體的訓(xùn)練速度。基于虛擬勢場的critic網(wǎng)絡(luò)的改進(jìn)損失函數(shù)提出利用虛擬勢場改進(jìn)critic目標(biāo)網(wǎng)絡(luò)輸出Q值的方法。多階段訓(xùn)練方法可以提高具有未來代表性的經(jīng)驗(yàn)數(shù)據(jù)的利用率。
1 算法的基本原理
本文提出的突變定位SAC算法主要涉及SAC算法和人工勢場算法。
1.1 SAC算法的基本原理
SAC算法是一種基于actor-critic網(wǎng)絡(luò)的深度強(qiáng)化學(xué)習(xí)算法[26]。SAC算法通過期望獎(jiǎng)勵(lì)和熵值的最大化來訓(xùn)練算法的神經(jīng)網(wǎng)絡(luò)[27]。SAC算法最大化獎(jiǎng)勵(lì)和熵值的計(jì)算方式如下:
π*std=argmaxπ∑tE(st,at)~ρπ[r(st,at)+αH(π(·|st))](1)
其中:E(st,at)~ρπ是當(dāng)前狀態(tài)的期望回報(bào);r(st,at)是當(dāng)前狀態(tài)的獎(jiǎng)勵(lì);H(π(·|st))是策略的熵;α是熵的系數(shù)。
SAC算法采用經(jīng)驗(yàn)回放機(jī)制訓(xùn)練智能體[28]。智能體與環(huán)境交互獲得的經(jīng)驗(yàn)數(shù)據(jù)會被放入經(jīng)驗(yàn)池中。在訓(xùn)練過程中,智能體抽取經(jīng)驗(yàn)池中的經(jīng)驗(yàn)數(shù)據(jù)來進(jìn)行訓(xùn)練。SAC算法采用經(jīng)驗(yàn)回放機(jī)制的目的是消除經(jīng)驗(yàn)數(shù)據(jù)間的相關(guān)性來達(dá)到更好的訓(xùn)練效果。SAC智能體的神經(jīng)網(wǎng)絡(luò)包含一個(gè)actor網(wǎng)絡(luò)、兩個(gè)critic網(wǎng)絡(luò)和兩個(gè)critic目標(biāo)網(wǎng)絡(luò)。critic網(wǎng)絡(luò)用于評估智能體當(dāng)前的動(dòng)作。critic目標(biāo)網(wǎng)絡(luò)用于評估當(dāng)前的狀態(tài)。SAC算法的評估網(wǎng)絡(luò)利用TD誤差衡量算法來評估評估網(wǎng)絡(luò)對于樣本的獎(jiǎng)勵(lì)期望的不確定性[29]。TD誤差計(jì)算方式表示如下:
δt=rt+γQ(st+1,at+1)-Q(st,at)(2)
其中:δt是計(jì)算的TD誤差;γ是折扣因子;Q是評估網(wǎng)絡(luò)的狀態(tài)價(jià)值。圖1是傳統(tǒng)的SAC算法的結(jié)構(gòu)。
1.2 人工勢場算法
人工勢場算法是基于虛擬勢場的局部路徑規(guī)劃算法[30]。人工勢場算法實(shí)時(shí)性高,能適用于移動(dòng)機(jī)器人的動(dòng)態(tài)避障[31]。在人工勢場算法的計(jì)算過程中,目標(biāo)點(diǎn)被作為吸引勢場源;障礙物被作為排斥勢場源[32]。采用人工勢場算法規(guī)劃路徑的移動(dòng)機(jī)器人在目標(biāo)點(diǎn)產(chǎn)生的虛擬吸引力和障礙物產(chǎn)生的虛擬排斥力的共同作用下避開障礙物并抵達(dá)目標(biāo)點(diǎn)。
虛擬吸引力的方向由移動(dòng)機(jī)器人指向目標(biāo)點(diǎn),大小與移動(dòng)機(jī)器人和目標(biāo)點(diǎn)的距離有關(guān)[33]。吸引力勢場函數(shù)Uatt(qagent)以及吸引力函數(shù)Fatt(qagent)的計(jì)算方式如下:
Uatt(qagent)=12Kaρ2(qagent,qgoal)(3)
其中:Ka為吸引力增益系數(shù);qgoal為目標(biāo)點(diǎn)的位置;qagent為移動(dòng)機(jī)器人的位置;ρ(qagent,qgoal)為移動(dòng)機(jī)器人到目標(biāo)點(diǎn)的距離。
虛擬排斥力的方向由移動(dòng)機(jī)器人指向障礙物的反方向,大小與移動(dòng)機(jī)器人和障礙物的距離有關(guān)[34]。然而,移動(dòng)機(jī)器人于某個(gè)障礙物的距離超過一個(gè)閾值時(shí),移動(dòng)機(jī)器人不受到這個(gè)障礙物產(chǎn)生的虛擬排斥力。斥力勢場函數(shù)Urep(qagent)以及斥力函數(shù)Frep(qagent)的計(jì)算方式如下:
Urep(qagent)=12Kr(1ρ(qagent,qobs)-1ρd)2 ρ(qagent,qobs)lt;ρd
0ρ(qagent,qobs)≥ρd(5)
其中: Kr為排斥力增益系數(shù);ρ(qagent,qobs)為移動(dòng)機(jī)器人與障礙物的距離;ρd為距離閾值。
圖2為采用人工勢場算法的移動(dòng)機(jī)器人的受力示意圖。移動(dòng)機(jī)器人所受的合力為吸引力和排斥力的矢量疊加:
F(qagent)=Fatt(qagent)+Frep(qagent)(7)
其中:F(qagent)是移動(dòng)機(jī)器人所受到的合力。
2 算法的改進(jìn)
為了解決現(xiàn)有路徑規(guī)劃算法在缺乏完整環(huán)境信息的環(huán)境下無法規(guī)劃子目標(biāo)點(diǎn)的問題,本文提出利用環(huán)境的局部信息計(jì)算子目標(biāo)點(diǎn)位置的突變定位算法。突變定位算法計(jì)算的子目標(biāo)點(diǎn)可以和動(dòng)作選擇器策略用于減少路徑的長度。此外,本文提出基于虛擬勢場的critic網(wǎng)絡(luò)的改進(jìn)損失函數(shù)和多階段訓(xùn)練方法用于提高智能體的訓(xùn)練速度。
2.1 總體結(jié)構(gòu)
本文提出的突變定位SAC算法作為深度強(qiáng)化學(xué)習(xí)算法,需要定義智能體的狀態(tài)和獎(jiǎng)勵(lì),其結(jié)構(gòu)如圖3所示。
突變定位SAC算法的動(dòng)作取值為[-1,1]。智能體的動(dòng)作值代表移動(dòng)機(jī)器人的移動(dòng)方向。
突變定位SAC算法智能體的狀態(tài)為智能體所處的環(huán)境的信息表示為一個(gè)數(shù)組obs。狀態(tài)數(shù)組obs的表示方法如下:
obs=[range,θagent,θdetal,dis](8)
其中:range是激光雷達(dá)所獲取的一組探測數(shù)據(jù);θagent是智能體的移動(dòng)方向;θdetal是智能體的移動(dòng)方向與智能體和目標(biāo)點(diǎn)連線方向的偏差角度;dis是智能體與目標(biāo)點(diǎn)之間的距離。
智能體的獎(jiǎng)勵(lì)設(shè)置主要考慮以下幾個(gè)方面:a)移動(dòng)機(jī)器人應(yīng)該盡可能與障礙物保持距離;b)移動(dòng)機(jī)器人應(yīng)該盡量減少轉(zhuǎn)向;c)移動(dòng)機(jī)器人應(yīng)該盡量朝向目標(biāo)點(diǎn)移動(dòng);d)移動(dòng)機(jī)器人應(yīng)該盡量減少自身到目標(biāo)點(diǎn)的距離。因此,改進(jìn)的SAC智能體的獎(jiǎng)勵(lì)reward設(shè)置如下:
reward=r1+r2+r3+r4(9)
r1=α1(min(range))2(10)
r2=α2v2a(11)
r3=α3Δangle2(12)
r4=α4dis(13)
其中:α1是移動(dòng)機(jī)器人到障礙物距離系數(shù);va是移動(dòng)方向的變化值;α2是移動(dòng)機(jī)器人的方向系數(shù);Δangle是移動(dòng)機(jī)器人的移動(dòng)方向與移動(dòng)機(jī)器人和目標(biāo)點(diǎn)連線方向的偏差角度;α3是移動(dòng)機(jī)器人的運(yùn)動(dòng)偏差系數(shù);dis是移動(dòng)機(jī)器人到目標(biāo)點(diǎn)的距離;α4是移動(dòng)機(jī)器人的距離系數(shù)。
當(dāng)智能體與障礙物發(fā)生碰撞或者到達(dá)目標(biāo)點(diǎn)時(shí),智能體停止規(guī)劃路徑。智能體根據(jù)激光雷達(dá)的探測數(shù)據(jù)判斷是否發(fā)生碰撞。當(dāng)智能體獲取激光雷達(dá)的探測數(shù)據(jù)的最小值小于設(shè)定的閾值時(shí),智能體被認(rèn)為與障礙物發(fā)生碰撞。當(dāng)智能體與目標(biāo)點(diǎn)的直線距離小于設(shè)定的閾值時(shí),智能體被認(rèn)為到達(dá)目標(biāo)點(diǎn)。
2.2 突變定位算法
現(xiàn)有的路徑規(guī)劃研究表明,采用子目標(biāo)點(diǎn)引導(dǎo)的方式是提高局部路徑規(guī)劃算法的有效方式。然而,現(xiàn)有路徑規(guī)劃算法的子目標(biāo)點(diǎn)的計(jì)算都基于獲得了完備環(huán)境信息的全局路徑規(guī)劃算法。在未知環(huán)境下,移動(dòng)機(jī)器人無法提前獲知環(huán)境的完備信息。因此,先前的路徑規(guī)劃研究無法給出在未知環(huán)境下僅利用環(huán)境的局部信息計(jì)算子目標(biāo)點(diǎn)位置的方法。
本文提出一種在未知環(huán)境下計(jì)算子目標(biāo)點(diǎn)位置的方法,稱為突變定位算法。移動(dòng)機(jī)器人的子目標(biāo)點(diǎn)可以引導(dǎo)移動(dòng)機(jī)器人遠(yuǎn)離陷阱區(qū)域以及減少移動(dòng)路徑長度。
圖4是本文提出的突變定位算法根據(jù)激光雷達(dá)的探測數(shù)據(jù)計(jì)算子目標(biāo)點(diǎn)的示意圖。突變定位算法的步驟如下:
a)當(dāng)滿足智能體的目標(biāo)點(diǎn)的連線處于智能體的激光雷達(dá)的輻射范圍之內(nèi)且智能體與目標(biāo)點(diǎn)之間存在遮擋時(shí),突變定位算法開始計(jì)算子目標(biāo)點(diǎn)。智能體與目標(biāo)點(diǎn)之間存在遮擋的定義為
max(Ln,Ln+1)lt;Lg
遮擋
else不遮擋(14)
其中:Ln和Ln+1分別為角度與移動(dòng)機(jī)器人和目標(biāo)點(diǎn)連線角度最接近的兩條相互靠近的激光雷達(dá)的射線的探測數(shù)據(jù);Lg是移動(dòng)機(jī)器人到目標(biāo)點(diǎn)的距離。
b)如果智能體與目標(biāo)點(diǎn)之間滿足遮擋條件,突變定位算法通過突變射線來確定子目標(biāo)點(diǎn)的位置。當(dāng)兩條臨近的激光雷達(dá)射線滿足式(15)時(shí),至少其中一條射線滿足突變射線的定義。
|Lk+1-Lk|Lkgt;D
k=1,2,…,N-1(15)
其中:D是設(shè)定的取值為正數(shù)的突變閾值;N是激光雷達(dá)射線數(shù)量的總數(shù);Lk和Lk+1分別為相鄰的兩條激光雷達(dá)射線所獲取的探測數(shù)據(jù)。
c)如果兩條臨近激光雷達(dá)的射線滿足突變射線存在的條件,突變定位算法根據(jù)兩條激光雷達(dá)射線所獲取的探測數(shù)據(jù)的大小關(guān)系來確定突變射線對應(yīng)的角度:
θ=θk Lkgt;Lk+1
θk+1Lklt;Lk+1 (16)
其中:θk和θk+1是探測距離為Lk和Lk+1的激光射線對應(yīng)的角度;θ是突變射線對應(yīng)的角度。
d)當(dāng)環(huán)境中不止存在一條突變射線時(shí),最終的突變射線取為射線角度與移動(dòng)機(jī)器人與目標(biāo)點(diǎn)連線的角度偏差最小的射線。
e)突變定位算法根據(jù)突變射線確定子目標(biāo)點(diǎn)的位置的方法如下:
Xsubgoal
Ysubgoal=Xagentcos(θ)
Yagentsin(θ)1
(1+D/2)min(Lk,Lk+1)(17)
其中:Xsubgoal、Ysubgoal分別為子目標(biāo)點(diǎn)位置的橫縱坐標(biāo);Xagent、Yagent分別為智能體當(dāng)前位置的橫縱坐標(biāo)。突變定位算法計(jì)算得到子目標(biāo)點(diǎn)的位置后,智能體的目標(biāo)點(diǎn)被設(shè)置為對應(yīng)的子目標(biāo)點(diǎn)。在智能體到達(dá)子目標(biāo)點(diǎn)之前,智能體不會計(jì)算新的子目標(biāo)點(diǎn)。
當(dāng)智能體到達(dá)子目標(biāo)點(diǎn)后,智能體的目標(biāo)點(diǎn)被重新設(shè)置為最終的目標(biāo)點(diǎn)。當(dāng)智能體還未到達(dá)最終目標(biāo)點(diǎn)且再次出現(xiàn)符合突變定位算法計(jì)算子目標(biāo)點(diǎn)的初始條件時(shí),智能體再次計(jì)算子目標(biāo)點(diǎn)來引導(dǎo)移動(dòng)機(jī)器人到達(dá)最終目標(biāo)點(diǎn)。相比于最終目標(biāo)點(diǎn),子目標(biāo)點(diǎn)與移動(dòng)機(jī)器人之間往往不存在障礙物。因此,移動(dòng)機(jī)器人直接朝向?qū)?yīng)的目標(biāo)點(diǎn)移動(dòng)可以減少移動(dòng)路徑的長度。
基于上述想法,本文提出了一種動(dòng)作選擇器策略。圖5所示為本文提出的動(dòng)作選擇器策略的結(jié)構(gòu)。動(dòng)作選擇器策略選擇指導(dǎo)動(dòng)作的前提是移動(dòng)機(jī)器人與對應(yīng)的目標(biāo)點(diǎn)之間沒有出現(xiàn)遮擋。對應(yīng)的目標(biāo)點(diǎn)可以是子目標(biāo)點(diǎn)或者最終目標(biāo)點(diǎn)。
當(dāng)移動(dòng)機(jī)器人與對應(yīng)的目標(biāo)點(diǎn)之間沒有遮擋且移動(dòng)機(jī)器人所獲取的激光雷達(dá)的探測數(shù)據(jù)的最小值大于設(shè)定的閾值時(shí),動(dòng)作選擇器策略采用下面的方法計(jì)算指導(dǎo)動(dòng)作的動(dòng)作值:
A=-1 θgoal≤-δmax
θgoal/δmax-δmaxlt;θgoallt;δmax
1θgoal≥δmax(18)
其中:A是取值為[-1,1]的指導(dǎo)動(dòng)作;θgoal是移動(dòng)機(jī)器人與對應(yīng)的目標(biāo)點(diǎn)連線的角度;δmax是移動(dòng)機(jī)器人在一個(gè)時(shí)間步中的最大轉(zhuǎn)向角度。當(dāng)移動(dòng)機(jī)器人所獲取的激光雷達(dá)的探測數(shù)據(jù)的最小值小于設(shè)定的閾值時(shí),本文采用SAC智能體產(chǎn)生移動(dòng)機(jī)器人的行動(dòng)來避免移動(dòng)機(jī)器人與障礙物之間發(fā)生碰撞。
2.3 基于虛擬勢場的critic網(wǎng)絡(luò)的改進(jìn)損失函數(shù)
深度強(qiáng)化學(xué)習(xí)算法的狀態(tài)動(dòng)作對的評價(jià)機(jī)制的基礎(chǔ)是貝爾曼等式:
Q(st,at)=r(st,at)+Est+1~pat+1~π[Q(st+1,at+1)](19)
其中:Q(st,at)是狀態(tài)動(dòng)作對(st,at)的Q值;r(st,at)是對應(yīng)的獎(jiǎng)勵(lì);p是狀態(tài)轉(zhuǎn)移分布;π是神經(jīng)網(wǎng)絡(luò)的策略;Q(st+1,at+1)是狀態(tài)動(dòng)作對(st+1,at+1)的Q值。SAC算法引入了自適應(yīng)熵機(jī)制。SAC算法的目標(biāo)是最大化獎(jiǎng)勵(lì)和熵的和,而不是僅僅最大化獎(jiǎng)勵(lì)。根據(jù)信息論的知識,策略的熵可以表示為
其中:H(p)是策略的熵值;p(x)是概率函數(shù)。
因此,SAC算法的狀態(tài)價(jià)值對的評估方程可以表示為
Q(st,at)=r(st,at)+Est+1~pat+1~π[Q(st+1,at+1)-αlog(π(at+1|st+1))](21)
其中:α是熵溫度系數(shù)。critic網(wǎng)絡(luò)的損失函數(shù)可以表示為
LQ(θ)=E [(Qθ(st,at)-(r(st,at)+
Est+1~pat+1~π[min Qθ′(st+1,at+1)-αlog(π(at+1|st+1))]))2](22)
其中:LQ(θ)是critic網(wǎng)絡(luò)的損失函數(shù);Qθ(st,at)是critic網(wǎng)絡(luò)對應(yīng)(st,at)的Q值;min Qθ′(st+1,at+1)是兩個(gè)critic目標(biāo)網(wǎng)絡(luò)對應(yīng)(st+1,at+1)的Q值的最小值。
actor網(wǎng)絡(luò)的損失函數(shù)是基于critic網(wǎng)絡(luò)的評估函數(shù)。因此,critic網(wǎng)絡(luò)的評估效果決定了actor網(wǎng)絡(luò)的輸出效果。然而,critic網(wǎng)絡(luò)的損失函數(shù)依賴于critic目標(biāo)網(wǎng)絡(luò)的評估效果。critic目標(biāo)網(wǎng)絡(luò)的參數(shù)通過軟更新機(jī)制復(fù)制critic網(wǎng)絡(luò)的參數(shù)。在這種參數(shù)更新機(jī)制下,critic目標(biāo)網(wǎng)絡(luò)的參數(shù)在訓(xùn)練初期的不確定性會顯著影響critic網(wǎng)絡(luò)的訓(xùn)練效果,進(jìn)而影響actor網(wǎng)絡(luò)輸出動(dòng)作的合理性。因此,本文希望找到一種明確且易獲取的Q值的修正值來提高critic目標(biāo)網(wǎng)絡(luò)在訓(xùn)練初期輸出的Q值的合理性,進(jìn)而提高智能體的訓(xùn)練速度。這樣的修正值應(yīng)該隨著critic網(wǎng)絡(luò)的參數(shù)的更新逐漸減少來提升critic目標(biāo)網(wǎng)絡(luò)的評估值比重。critic目標(biāo)網(wǎng)絡(luò)對應(yīng)的Q值的最小值可以增廣為
min Qθ′(st+1,at+1)=min Qθ′(st+1,at+1)+fsum(23)
其中: fsum是修正值。在神經(jīng)網(wǎng)絡(luò)的訓(xùn)練初期,神經(jīng)網(wǎng)絡(luò)策略的不確定性較大。因此,策略的熵在神經(jīng)網(wǎng)絡(luò)的訓(xùn)練初期較大。隨著神經(jīng)網(wǎng)絡(luò)參數(shù)的收斂,策略的熵隨之減少并趨于0。因此,策略的熵可以用來衡量狀態(tài)動(dòng)作對的初始Q值的比重。
在移動(dòng)機(jī)器人的路徑規(guī)劃算法中,人工勢場算法將目標(biāo)點(diǎn)作為吸引力勢場源且將障礙物作為排斥力勢場源的人工勢場算法。移動(dòng)機(jī)器人沿著勢場降低的方向抵達(dá)目標(biāo)點(diǎn)。因此,虛擬勢場可以作為訓(xùn)練前期Q值的修正值。本文將吸引力勢場源作為正勢場,排斥力勢場源作為負(fù)勢場。當(dāng)移動(dòng)機(jī)器人所處狀態(tài)的總的勢場越大,狀態(tài)動(dòng)作對的初始Q值就越大。
因此,本文提出的基于虛擬勢場的critic網(wǎng)絡(luò)的改進(jìn)損失函數(shù)可以表示為
LQ(θ)=E [(Qθ(st,at)-(r(st,at)+Est+1~pat+1~π[min Qθ′(st+1,at+1)-log(π(at+1|st+1)(α+βexp(ite)fsum))]))2](24)
fsum=12Kattdrg-12Krep(1/drg-1/min(range))2(25)
其中:β是勢場系數(shù);Katt是吸引勢場系數(shù);Krep是排斥勢場系數(shù);drg是移動(dòng)機(jī)器人到目標(biāo)點(diǎn)的距離;ite是運(yùn)行過程中的迭代數(shù);min(range)是激光雷達(dá)裝置探測到的移動(dòng)機(jī)器人與障礙物的最短距離。
2.4 多階段訓(xùn)練
SAC算法采用經(jīng)驗(yàn)回放機(jī)制從經(jīng)驗(yàn)池中隨機(jī)抽取一定數(shù)量的經(jīng)驗(yàn)數(shù)據(jù)用于訓(xùn)練critic網(wǎng)絡(luò)。處于經(jīng)驗(yàn)池中的經(jīng)驗(yàn)數(shù)據(jù)被抽取到的概率相同。然而,經(jīng)驗(yàn)數(shù)據(jù)被置入經(jīng)驗(yàn)池的過程存在時(shí)間上的差異。在經(jīng)驗(yàn)回放機(jī)制下,越早被置入經(jīng)驗(yàn)池的經(jīng)驗(yàn)數(shù)據(jù)被抽出用于訓(xùn)練的次數(shù)越多,且critic網(wǎng)絡(luò)對于相應(yīng)狀態(tài)的評價(jià)越準(zhǔn)確。對于路徑規(guī)劃問題,智能體在某一狀態(tài)下的過去狀態(tài)往往是起點(diǎn)附近的狀態(tài),未來的狀態(tài)往往是終點(diǎn)附近的狀態(tài)。
根據(jù)式(13)可知,當(dāng)前狀態(tài)動(dòng)作對評估的準(zhǔn)確性依賴于未來狀態(tài)動(dòng)作對的評估準(zhǔn)確性。矛盾在于:起點(diǎn)附近的狀態(tài)更早地被置入經(jīng)驗(yàn)池中且對應(yīng)的狀態(tài)評估更準(zhǔn)確;然而,對于當(dāng)前狀態(tài)動(dòng)作對的評估更重要的未來狀態(tài)動(dòng)作對的經(jīng)驗(yàn)數(shù)據(jù),會由于智能體初期在起點(diǎn)附近的隨機(jī)探索,導(dǎo)致被置入經(jīng)驗(yàn)池的時(shí)間卻更遲。因此,本文希望找到一種訓(xùn)練方法來將更具未來代表性的經(jīng)驗(yàn)數(shù)據(jù)更早地置入經(jīng)驗(yàn)池中。為了解決上述矛盾,本文提出一種SAC算法的多階段訓(xùn)練方法用于加快智能體的收斂速度。圖6是本文提出的多階段訓(xùn)練方法的示意圖。
在智能體訓(xùn)練的初始階段,智能體的起點(diǎn)取自終點(diǎn)附近的綠色區(qū)域(見電子版)。經(jīng)過一定的訓(xùn)練后,智能體的起點(diǎn)取自終點(diǎn)附近的藍(lán)色區(qū)域。以此類推,智能體的起點(diǎn)取至起始點(diǎn)之后不再變更。在本文提出的多階段訓(xùn)練模式下,智能體所獲取的初期經(jīng)驗(yàn)數(shù)據(jù)主要集中于終點(diǎn)附近。
3 算例仿真
本文采用的編程語言為Python。實(shí)驗(yàn)運(yùn)行于操作系統(tǒng)為Windows 10,運(yùn)行內(nèi)存為16 GB,CPU型號為AMD R5 3600 (3.6 GHz),GPU型號為NVIDIA RTX 2070的計(jì)算機(jī)上。
為了驗(yàn)證突變定位SAC算法的在提高智能體的訓(xùn)練速度方面的有效性,本文在同一訓(xùn)練環(huán)境下對比了突變定位SAC、HER-TD3[25]、PER-SAC[24]、SAC[23]和DDPG[21]達(dá)到智能體收斂的條件時(shí)需要的迭代次數(shù)。為了驗(yàn)證突變定位SAC算法在減少路徑長度方面的有效性,本文分別在不同的環(huán)境下對比了突變定位SAC、PER-SAC、SAC、DDPG和HER-TD3規(guī)劃的路徑。
表1為本文涉及的突變定位SAC、PER-SAC、SAC、DDPG和HER-TD3的部分參數(shù)。
3.1 訓(xùn)練速度對比
為了驗(yàn)證突變定位SAC在提升智能體訓(xùn)練速度上的有效性,將突變定位SAC和基礎(chǔ)SAC、PER-SAC、DDPG和HER-TD3在同一環(huán)境下進(jìn)行訓(xùn)練。值得注意的是,多階段訓(xùn)練方法會改變迭代過程中起點(diǎn)的位置。為了達(dá)到對比的效果,突變定位SAC雖然采用多階段訓(xùn)練方法獲取經(jīng)驗(yàn)數(shù)據(jù),訓(xùn)練曲線所對應(yīng)的起點(diǎn)仍然與其他算法保持一致來驗(yàn)證突變定位SAC算法的有效性。SAC是DDPG的改進(jìn)算法。因此,SAC的訓(xùn)練速度比DDPG快。此外,DDPG的目標(biāo)是最大化獎(jiǎng)勵(lì),而不是最大化獎(jiǎng)勵(lì)與熵的和。因此,DDPG在收斂后更容易出現(xiàn)不穩(wěn)定的現(xiàn)象。相較于SAC,PER-SAC和HER-TD3可以通過為經(jīng)驗(yàn)數(shù)據(jù)賦予權(quán)重來提高重要經(jīng)驗(yàn)數(shù)據(jù)的利用率。
突變定位SAC是SAC的改進(jìn)算法。本文提出基于虛擬勢場的critic網(wǎng)絡(luò)的改進(jìn)損失函數(shù)和多階段訓(xùn)練方法?;谔摂M勢場的critic網(wǎng)絡(luò)的改進(jìn)損失函數(shù)可以利用虛擬勢場修正critic網(wǎng)絡(luò)在訓(xùn)練初期輸出的Q值。多階段訓(xùn)練方法可以提高具有未來代表性的經(jīng)驗(yàn)數(shù)據(jù)的利用率。因此,相較于DDPG、SAC、PER-SAC和HER-TD3,突變定位SAC可以更有效地減少智能體的訓(xùn)練時(shí)間。圖7是不同算法在同一訓(xùn)練環(huán)境下的平均獎(jiǎng)勵(lì)曲線。其中,DDPG收斂需要訓(xùn)練497次;SAC收斂需要訓(xùn)練438次;PER-SAC收斂需要訓(xùn)練332次;HER-TD3收斂需要訓(xùn)練367次;突變定位SAC收斂需要訓(xùn)練265次。相比于DDPG、SAC、PER-SAC和HER-TD3,突變定位SAC收斂所需的訓(xùn)練迭代數(shù)分別減少了46.68%、39.50%、20.18%和27.79%。
綜上所述,本文提出的突變定位SAC可以有效減少智能體的訓(xùn)練時(shí)間。
3.2 規(guī)劃路徑對比
為了驗(yàn)證突變定位SAC在減少路徑長度方面的有效性,本文分別在不同環(huán)境下對比了DDPG、SAC、PER-SAC、HER-TD3、突變定位SAC所規(guī)劃的路徑。其中,環(huán)境1是智能體的訓(xùn)練環(huán)境;環(huán)境2~4是比環(huán)境1復(fù)雜的新環(huán)境。
DDPG、SAC、PER-SAC和HER-TD3僅根據(jù)訓(xùn)練的智能體規(guī)劃路徑。因此,它們所規(guī)劃路徑的差異主要來自于智能體本身的訓(xùn)練效果。突變定位SAC可以利用環(huán)境的局部信息計(jì)算子目標(biāo)點(diǎn)。子目標(biāo)點(diǎn)可以引導(dǎo)移動(dòng)機(jī)器人繞開環(huán)境中的障礙物。此外,動(dòng)作選擇器可以結(jié)合移動(dòng)機(jī)器人的子目標(biāo)點(diǎn)或目標(biāo)點(diǎn)減少不必要的移動(dòng)。因此,相比于DDPG、SAC、PER-SAC和HER-TD3,突變定位SAC規(guī)劃的路徑更短。
圖8~11分別為以上算法在環(huán)境1~4中的路徑規(guī)劃。表2分別為它們在環(huán)境1~4中規(guī)劃的路徑長度。在環(huán)境1中,突變定位SAC所規(guī)劃路徑的長度相比于DDPG、SAC、PER-SAC和HER-TD3分別減少了6.88%、2.76%、3.30%和1.12%。在環(huán)境2中,分別減少了1.47%、4.95%、0.74%和22.35%。在環(huán)境3中,分別減少12.68%、4.45%、19.78%和11.62%。在環(huán)境4中,分別減33.91%、28.84%、19.78%和28.46%。因此,在四種不同的環(huán)境中,突變定位SAC所規(guī)劃路徑的長度相比于DDPG、SAC、PER-SAC和HER-TD3平均減少了13.71%、10.26%、10.90%和15.89%。綜上所述,突變定位SAC可以有效減少移動(dòng)機(jī)器人的路徑長度。
4 結(jié)束語
針對移動(dòng)機(jī)器人在未知環(huán)境下難以確定子目標(biāo)點(diǎn)的位置和SAC算法訓(xùn)練速度慢的問題,本文提出了基于突變定位SAC算法的未知環(huán)境下移動(dòng)機(jī)器人的路徑規(guī)劃算法。該算法的路徑規(guī)劃解決了未知環(huán)境下無法確定子目標(biāo)點(diǎn)的位置的問題和SAC智能體訓(xùn)練速度慢的問題。突變定位SAC算法可以總結(jié)為:a)實(shí)驗(yàn)結(jié)果表明,相比于DDPG、SAC、PER-SAC和HER-TD3,突變定位SAC的訓(xùn)練速度更快且規(guī)劃路徑更短。b)突變定位SAC采用突變定位算法計(jì)算引導(dǎo)移動(dòng)機(jī)器人移動(dòng)的子目標(biāo)點(diǎn)的位置;采用動(dòng)作選擇器策略減少不必要的移動(dòng)。因此,突變定位算法和動(dòng)作選擇器策略可以縮短移動(dòng)機(jī)器人的移動(dòng)距離。c)本文提出基于虛擬勢場的critic網(wǎng)絡(luò)的改進(jìn)損失函數(shù)和多階段訓(xùn)練方法?;谔摂M勢場的critic網(wǎng)絡(luò)的改進(jìn)損失函數(shù)和多階段訓(xùn)練方法可以提高智能體的訓(xùn)練速度。
參考文獻(xiàn):
[1]程龍, 王欣, 吳迪, 等. 改進(jìn)人工勢場法的洗浴機(jī)器人擦洗路徑規(guī)劃 [J]. 計(jì)算機(jī)應(yīng)用研究, 2023, 40(9): 2760-2764. (Cheng Long, Wang Xin, Wu Di, et al. Scrubbing path planning of bathing robot based on improved artificial potential field method [J]. Application Research of Computers, 2023, 40(9): 2760-2764.)
[2]Wenna W, Weili D, Changchun H, et al. A digital twin for 3D path planning of large-span curved-arm gantry robot[J]. Robotics and Computer-Integrated Manufacturing, 2022; 76: 102330.
[3]劉榮華, 王欣, 吳迪, 等. 改進(jìn)雙向動(dòng)態(tài)JPS算法的移動(dòng)機(jī)器人全局路徑規(guī)劃 [J]. 計(jì)算機(jī)應(yīng)用研究, 2024, 41(4): 1117-1122. (Liu Ronghua, Wang Xin, Wu Di, et al. Improved bidirectional dynamic JPS algorithm for global path planning of mobile robot [J]. Application Research of Computers, 2024, 41(4): 1117-1122.)
[4]Yi L, Wan A Y S, Le A V, et al. Complete coverage path planning for reconfigurable omni-directional mobile robots with varying width using GBNN [J]. Expert Systems with Applications, 2023,228: 120349.
[5]劉宇庭, 郭世杰, 唐術(shù)鋒, 等. 改進(jìn)A*與ROA-DWA融合的機(jī)器人路徑規(guī)劃 [J]. 浙江大學(xué)學(xué)報(bào):工學(xué)版, 2024, 58(2): 360-369. (Liu Yuting, Guo Shijie, Tang Shufeng, et al. Path planning based on fusion of improved A* and ROA-DWA for robot [J]. Journal of Zhejiang University:Engineering Science, 2024, 58(2): 360-369.)
[6]Wang Yan, Jiang Wensong, Luo Zai, et al. Path planning of a 6-DOF measuring robot with a direction guidance RRT method [J]. Expert Systems with Applications, 2024, 238: 122057.
[7]孫鵬耀, 黃炎焱, 王凱生. 基于勢場增強(qiáng)煙花算法的二維全局路徑規(guī)劃 [J]. 兵工學(xué)報(bào), 2024,45(10):3499-3518. (Sun Pengyao, Huang Yanyan, Wang Kaisheng. Two-dimensional global path planning based on potential field enhanced fireworks algorithm [J]. Acta Armamentarii, 2024,45(10):3499-3518.)
[8]萬俊, 孫薇, 葛敏, 等. 基于含避障角人工勢場法的機(jī)器人路徑規(guī)劃 [J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào), 2024, 55(1): 409-418. (Wan Jun, Sun Wei, Ge Min, et al. Robot path planning based on artificial potential field method with obstacle avoidance angles [J]. Trans of the Chinese Society for Agricultural Machinery, 2024, 55(1): 409-418.)
[9]周文娟, 張超群, 湯衛(wèi)東, 等. 一種新的基于強(qiáng)化學(xué)習(xí)改進(jìn)SAR的無人機(jī)路徑規(guī)劃 [J]. 控制與決策, 2024, 39(4): 1203-1211. (Zhou Wenjuan, Zhang Chaoqun, Tang Weidong, et al. A novel modified search and rescue optimization algorithm based on reinforcement learning for UAV path planning [J]. Control and Decision, 2024, 39(4): 1203-1211.)
[10]時(shí)維國, 寧寧, 宋存利, 等. 基于蟻群算法與人工勢場法的移動(dòng)機(jī)器人路徑規(guī)劃 [J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào), 2023, 54(12): 407-416. (Shi Weiguo, Ning Ning, Song Cunli, et al. Path planning of mobile robots based on ant colony algorithm and artificial potential field algorithm [J]. Trans of the Chinese Society for Agricultural Machi-nery, 2023, 54(12): 407-416.)
[11]劉澳霄, 周永錄, 劉宏杰. 基于改進(jìn)人工勢場法的醫(yī)療配送機(jī)器人路徑規(guī)劃 [J]. 計(jì)算機(jī)應(yīng)用研究, 2024, 41(3): 842-847. (Liu Aoxiao, Zhou Yonglu, Liu Hongjie. Path planning of medical delivery robot based on improved artificial potential field method [J]. Application Research of Computers, 2024, 41(3): 842-847.)
[12]劉珂, 董洪昭, 張麗梅, 等. 基于改進(jìn)人工勢場法的物流無人配送車路徑規(guī)劃 [J]. 計(jì)算機(jī)應(yīng)用研究, 2022, 39(11): 3287-3291. (Liu Ke, Dong Hongzhao, Zhang Limei, et al. Path planning for logistics unmanned delivery vehicles based on improved artificial potential field method [J]. Application Research of Computers, 2022, 39(11): 3287-3291.)
[13]Yu Y, Liu Y, Wang J, et al. Obstacle avoidance method based on double DQN for agricultural robots[J]. Computers and Electronics in Agriculture, 2023,204: 107546.
[14]黃巖松, 姚錫凡, 景軒, 等. 基于深度Q網(wǎng)絡(luò)的多起點(diǎn)多終點(diǎn)AGV路徑規(guī)劃 [J]. 計(jì)算機(jī)集成制造系統(tǒng), 2023, 29(8): 2550-2562. (Huang Yansong, Yao Xifan, Jing Xuan, et al. DQN-based AGV path planning for situations with multi-starts and multi-targets [J]. Computer Integrated Manufacturing Systems, 2023, 29(8): 2550-2562.)
[15]周治國, 余思雨, 于家寶, 等. 面向無人艇的T-DQN智能避障算法研究 [J]. 自動(dòng)化學(xué)報(bào), 2023, 49(8): 1645-1655. (Zhou Zhi-guo, Yu Siyu, Yu Jiabao, et al. Research on T-DQN intelligent obstacle avoidance algorithm of unmanned surface vehicle [J]. Acta Automatica Sinica, 2023, 49(8): 1645-1655.)
[16]Wang Xia, Liu Jun, Nugent C, et al. Mobile agent path planning under uncertain environment using reinforcement learning and probabilistic model checking[J]. Knowledge-Based Systems, 2023, 264: 110355.
[17]田曉航, 霍鑫, 周典樂, 等. 基于蟻群信息素輔助的Q學(xué)習(xí)路徑規(guī)劃算法 [J]. 控制與決策, 2023, 38(12): 3345-3353. (Tian Xiaohang, Huo Xin, Zhou Dianle, et al. Ant colony pheromone aided Q-learning path planning algorithm [J]. Control and Decision, 2023, 38(12): 3345-3353.)
[18]耿璽鈞, 崔立堃, 熊高, 等. 子目標(biāo)驅(qū)動(dòng)DQN算法的無人車狹窄轉(zhuǎn)彎環(huán)境導(dǎo)航 [J]. 控制與決策, 2024, 39(11): 3637-3644. (Geng Xijun, Cui Likun, Xiong Gao, et al. Navigation in narrow turning environment of unmanned vehicle based on subgoal-driven DQN algorithm [J]. Control and Decision, 2024, 39(11): 3637-3644.)
[19]李子怡, 胡祥濤, 張勇樂, 等. 基于虛擬目標(biāo)制導(dǎo)的自適應(yīng)Q學(xué)習(xí)路徑規(guī)劃算法 [J]. 計(jì)算機(jī)集成制造系統(tǒng), 2024, 30(2): 553-568. (Li Ziyi, Hu Xiangtao, Zhang Yongle, et al. Adaptive Q-lear-ning path planning algorithm based on virtual target guidance [J]. Computer Integrated Manufacturing Systems, 2024, 30(2): 553-568.)
[20]別桐, 朱曉慶, 付煜, 等. 基于Safe-PPO算法的安全優(yōu)先路徑規(guī)劃方法 [J]. 北京航空航天大學(xué)學(xué)報(bào), 2023, 49(8): 2108-2118. (Bie Tong, Zhu Xiaoqin, Fu Yu, et al. Safety priority path planning method based on Safe-PPO algorithm [J]. Journal of Beijing University of Aeronautics and Astronautics, 2023, 49(8): 2108-2118.)
[21]張瀚, 解明揚(yáng), 張民, 等. 融合DDPG算法的移動(dòng)機(jī)器人路徑規(guī)劃研究 [J]. 控制工程, 2021, 28(11): 2136-2142. (Zhang Han, Xie Mingyang, Zhang Min, et al. Path planning of mobile robot with fusion DDPG algorithm [J]. Control Engineering of China, 2021, 28(11): 2136-2142.)
[22]Yan Chengliang, Chen Guangzhu, Li Yang, et al. Immune deep reinforcement learning-based path planning for mobile robot in unknown environment [J]. Applied Soft Computing, 2023, 145: 110601.
[23]楊來義, 畢敬, 苑海濤. 基于SAC算法的移動(dòng)機(jī)器人智能路徑規(guī)劃 [J]. 系統(tǒng)仿真學(xué)報(bào), 2023, 35(8): 1726-1736. (Yang Laiyi, Bi Jing, Yuan Haitao. Intelligent path planning for mobile robots based on SAC algorithm [J]. Journal of System Simulation, 2023, 35(8): 1726-1736.)
[24]崔立志, 鐘航, 董文娟. 基于改進(jìn)優(yōu)先經(jīng)驗(yàn)回放的SAC算法路徑規(guī)劃 [J]. 空間控制技術(shù)與應(yīng)用, 2023, 49(5): 55-64. (Cui Li-zhi, Zhong Hang, Dong Wenjuan. Path planning using SAC algorithm based on improved prioritized experience replay [J]. Aerospace Control and Application, 2023, 49(5): 55-64.)
[25]楊淑華, 謝曉波, 邴振凱,等. 基于HER-TD3算法的青皮核桃采摘機(jī)械臂路徑規(guī)劃 [J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào), 2024, 55(4): 113-123. (Yang Shuhua, Xie Xiaobo, Bing Zhenkai, et al. Path planning of green walnut picking robotic arm based on HER-TD3 algorithm [J]. Trans of the Chinese Society for Agricultural Machinery, 2024, 55(4): 113-123.)
[26]Lin Chuan, Han Guangjie, Zhang Tongwei, et al. Smart underwater pollution detection based on graph-based multi-agent reinforcement learning towards AUV-based network ITS [J]. IEEE Trans on Intelligent Transportation Systems, 2023, 24(7): 7494-7505.
[27]Chen Pengzhan, Pei Jiean, Lu Weiqing, et al. A deep reinforcement learning based method for real-time path planning and dynamic obstacle avoidance [J]. Neurocomputing, 2022, 497: 64-75.
[28]錢立軍, 宣亮, 陳健, 等. 基于SAC算法的多交叉口交通信號控制研究 [J]. 天津大學(xué)學(xué)報(bào):自然科學(xué)與工程技術(shù)版, 2024, 57(1): 105-111. (Qiang Lijun, Xuan Liang, Chen Jian, et al. Multi-intersection traffic signal control based on SAC algorithm [J]. Journal of Tianjin University:Science and Technology, 2024, 57(1): 105-111.)
[29]Guo Haisen, Ren Zhigang, Lai Jialun, et al. Optimal navigation for AGVs: a soft actor-critic-based reinforcement learning approach with composite auxiliary rewards [J]. Engineering Applications of Artificial Intelligence, 2023, 124: 106613.
[30]Das M S, Sanyal S, Mandal S. Navigation of multiple robots in forma-tive manner in an unknown environment using artificial potential field based path planning algorithm [J]. Ain Shams Engineering Journal, 2022, 13(5): 101675.
[31]Tong Xiaolong, Yu Shanen, Liu Guangyu, et al. A hybrid formation path planning based on A* and multi-target improved artificial potential field algorithm in the 2D random environments [J]. Advanced Engineering Informatics, 2022, 54: 101755.
[32]王慶祿, 吳馮國, 鄭成辰, 等. 基于優(yōu)化人工勢場法的無人機(jī)航跡規(guī)劃 [J]. 系統(tǒng)工程與電子技術(shù), 2023, 45(5): 1461-1468. (Wang Qinglu, Wu Fengguo, Zheng Chengchen, et al. UAV path planning based on optimized artificial potential field method [J]. Systems Engineering and Electronics, 2023, 45(5): 1461-1468.)
[33]寧君, 馬昊冉, 李鐵山. 基于改進(jìn)人工勢場法的船舶路徑規(guī)劃與跟蹤控制 [J]. 哈爾濱工程大學(xué)學(xué)報(bào), 2022, 43(10): 1414-1423. (Ning Jun, Ma Haoran, Li Tieshan. Underactuated surface vessel path planning and following control based on an improved artificial potential field method [J]. Journal of Harbin Engineering University, 2022, 43(10): 1414-1423.)
[34]辛鵬, 王艷輝, 劉曉立, 等. 優(yōu)化改進(jìn)RRT和人工勢場法的路徑規(guī)劃算法 [J]. 計(jì)算機(jī)集成制造系統(tǒng), 2023, 29(9): 2899-2907. (Xin Peng, Wang Yanhui, Liu Xiaoli, et al. Path planning algorithm based on optimize and improve RRT and artificial potential field [J]. Computer Integrated Manufacturing Systems, 2023, 29(9): 2899-2907.)