亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于改進SAC算法的移動機器人路徑規(guī)劃

2023-02-24 05:02:08李永迪李彩虹張耀玉張國勝

計算機應(yīng)用 2023年2期

李永迪，李彩虹，張耀玉，張國勝

（山東理工大學計算機科學與技術(shù)學院，山東淄博 255049）

0 引言

在移動機器人自主導(dǎo)航中，路徑規(guī)劃是一個重要的組成部分，可以描述為在一定的約束條件下，尋找一條從起點到目標點的最優(yōu)路徑。常見的路徑規(guī)劃方法有人工勢場法［1］、A*算法［2-3］、蟻群算法［4-5］、遺傳算法［6］、粒子群優(yōu)化算法［7］等。這些算法大都需要建立地圖模型，工作在已知環(huán)境下；另外在復(fù)雜環(huán)境中存在運算時間長、迭代次數(shù)多以及在未知環(huán)境下實時性差或者容易陷入局部最優(yōu)等問題。

近年來，深度學習（Deep Learning，DL）［8］和強化學習（Reinforcement Learning，RL）［9］成為機器學習領(lǐng)域重要的研究熱點，將深度學習和強化學習相結(jié)合的深度強化學習（Deep Reinforcement Learning，DRL）［10］算法在移動機器人路徑規(guī)劃中得到了廣泛使用。深度強化學習具有深度學習的感知優(yōu)勢和強化學習的決策優(yōu)勢，其中，深度學習負責通過傳感器獲取周圍環(huán)境信息來感知機器人當前的狀態(tài)信息，而強化學習負責對獲取的環(huán)境信息進行探索、做出決策，從而實現(xiàn)移動機器人路徑規(guī)劃的智能化需求。

SAC（Soft Actor-Critic）算法是Haarnoja 等［11］提出的一種穩(wěn)定高效的DRL 算法，適用于現(xiàn)實世界的機器人技能學習并能與機器人實驗要求高度契合，能夠滿足實時性的需求；Haarnoja 等［12］在SAC 算法中加入了熵權(quán)重的自動調(diào)整，在訓(xùn)練前期熵的權(quán)重較大，在后期逐漸衰減熵的權(quán)重，讓智能體收斂更加穩(wěn)定；De Jesus 等［13］將SAC 算法應(yīng)用到ROS（Robot Operating System）環(huán)境下，實現(xiàn)了移動機器人在不同環(huán)境下的局部路徑規(guī)劃，但算法存在訓(xùn)練時間長和環(huán)境獎勵稀疏的問題；肖碩等［14］引入智能體通信機制，有效降低了環(huán)境不穩(wěn)定性對算法造成的影響，但樣本利用率低、收斂慢；單麒源等［15］優(yōu)化了算法的狀態(tài)輸入，改善了訓(xùn)練次數(shù)越多獎勵值越低的問題，但應(yīng)用場景簡單，面對復(fù)雜環(huán)境算法效率無法保證；胡仕柯等［16］通過在原有算法中引入內(nèi)在好奇心機制，提高智能體探索能力與樣本利用效率，同樣存在應(yīng)用場景簡單且收斂速度較慢。

針對上述算法的不足，本文對SAC 算法進行了改進，首先，提出的PER-SAC 算法使用三層全連接神經(jīng)網(wǎng)絡(luò)，通過雷達傳感器獲取環(huán)境信息和目標點信息，并且令環(huán)境中障礙物的距離信息、機器人的角速度和線速度、機器人與目標點之間的距離和角度，作為網(wǎng)絡(luò)的輸入，輸出為機器人的角速度和線速度；進而結(jié)合優(yōu)先級經(jīng)驗回放（Prioritized Experience Replay，PER），對經(jīng)驗池中不同樣本的重要程度進行區(qū)分，使重要程度較高的樣本更頻繁地回放，進一步提高了原始算法中樣本的利用率，從而進行更有效的學習，提高算法的收斂速度；然后設(shè)計改進的獎勵函數(shù)，克服環(huán)境獎勵稀疏的缺點；此外，設(shè)計了不同的仿真環(huán)境（無障礙物、離散障礙物和特殊障礙物），提高算法的泛化性；考慮到在不同障礙物環(huán)境下實驗的重復(fù)性，引入遷移學習，將收斂后的無障礙物模型作為離散型障礙物與特殊障礙物環(huán)境的初始化模型，加快算法收斂。

1 SAC算法

SAC 算法使用了AC（Actor-Critic）體系結(jié)構(gòu)［17］。傳統(tǒng)強化學習的目標是使獎勵的期望最大，而SAC 使獎勵期望和熵值同時最大化：

其中：E是當前狀態(tài)的回報期望，r是當前狀態(tài)的回報值，ρπ為t=0 到T所有的狀態(tài)和動作的集合，H是當前動作的熵，τ是溫度系數(shù)，π是通過網(wǎng)絡(luò)得到的當前狀態(tài)的所有動作概率。

SAC 算法為了減小值函數(shù)的估計誤差，在Actor-Critic 體系的基礎(chǔ)上增加了價值網(wǎng)絡(luò)，由1 個Actor 網(wǎng)絡(luò)（策略網(wǎng)絡(luò)）和4 個Critic 網(wǎng)絡(luò)構(gòu)成，分別是狀態(tài)價值估計V和TargetV網(wǎng)絡(luò)，由VCritic 表示；動作-狀態(tài)價值估計Q0和Q1網(wǎng)絡(luò)，由QCritic 表示。SAC 算法網(wǎng)絡(luò)構(gòu)架如圖1 所示。

圖1 SAC算法網(wǎng)絡(luò)構(gòu)架Fig.1 Network framework of SAC algorithm

已知一個狀態(tài)st，通過Actor 網(wǎng)絡(luò)得到所有動作概率π(a|st)，依概率采樣得到動作at∈a，將at輸入到環(huán)境中得到st+1和rt+1，獲得1 個experience：（st，at，st+1，rt+1），放入到經(jīng)驗池中。

在QCritic 網(wǎng)絡(luò)中，從經(jīng)驗池中采樣出數(shù)據(jù)（st，at，st+1，rt+1），進行網(wǎng)絡(luò)參數(shù)ω的更新，將動作at的q（st，at）值作為st的預(yù)測價值估計，根據(jù)最優(yōu)Bellman 方程得到作為st狀態(tài)的真實價值估計：

其中Eπ為當前狀態(tài)的累計回報期望。

用均方損失函數(shù)作為損失，對QCritic 網(wǎng)絡(luò)進行訓(xùn)練，損失函數(shù)定義為：

其中B為從經(jīng)驗池中取1 個batch 的數(shù)據(jù)。

在VCritic 網(wǎng)絡(luò)中，從經(jīng)驗池采樣出數(shù)據(jù)（st，at，st+1，rt+1），進行網(wǎng)絡(luò)參數(shù)θ的更新，Vcritic 網(wǎng)絡(luò)輸出的真實值為：

其中：為Actor 網(wǎng)絡(luò)的策略π預(yù)測的下一步所有可能動作；lnπ(，θ)為熵。

根據(jù)真實值計算Vcritic 網(wǎng)絡(luò)的損失：

在Actor 網(wǎng)絡(luò)中，進行梯度下降訓(xùn)練的損失函數(shù)定義為：

強化學習通過時序差分（Temporal-Difference，TD）誤差衡量算法修正幅度，采用計算TD 誤差的形式對策略選擇的動作at進行評估：

其中：Q為Critic 的狀態(tài)價值，γ為折扣因子。

2 改進SAC算法

為提高訓(xùn)練速度和穩(wěn)定性，本文設(shè)計了PER-SAC 算法，將優(yōu)先級經(jīng)驗回放引入SAC 算法中，使從經(jīng)驗池中等概率隨機采樣變?yōu)榘凑諆?yōu)先級采樣，增大重要樣本被采樣的概率。利用重要性采樣權(quán)重來修正優(yōu)先回放引入的誤差，并更新網(wǎng)絡(luò)的損失函數(shù)，減少模型的錯誤率。PER-SAC 算法包含了網(wǎng)絡(luò)結(jié)構(gòu)、獎懲函數(shù)、連續(xù)的狀態(tài)空間和動作空間的設(shè)計。

2.1 網(wǎng)絡(luò)結(jié)構(gòu)

PER-SAC 算法所采用的神經(jīng)網(wǎng)絡(luò)有14 個輸入和2 個輸出，如圖2 所示。

圖2 網(wǎng)絡(luò)的輸入和輸出Fig.2 Network input and output

網(wǎng)絡(luò)的輸入包括：雷達10 個方向上的讀數(shù)xt，機器人的線速度vt-1和角速度wt-1，機器人的相對位置與目標點的標量距離dt和角度θt；網(wǎng)絡(luò)的輸出為機器人的線速度vt和角速度wt。

SAC 網(wǎng)絡(luò)結(jié)構(gòu)包括策略網(wǎng)絡(luò)（Actor）、Q網(wǎng)絡(luò)（QCritic）和價值網(wǎng)絡(luò)（VCritic）三個部分，如圖3 所示。

圖3 SAC網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 SAC network structure

策略網(wǎng)絡(luò)的輸入是機器人在環(huán)境中的當前狀態(tài)；隱藏層是3 個具有512 個節(jié)點的全連接層；輸出層生成發(fā)送給機器人要執(zhí)行的動作。

Q網(wǎng)絡(luò)、價值網(wǎng)絡(luò)和策略網(wǎng)絡(luò)的隱藏層相同。Q網(wǎng)絡(luò)給出機器人當前狀態(tài)和動作的Q值，而價值網(wǎng)絡(luò)預(yù)測當前狀態(tài)值。

2.2 結(jié)合優(yōu)先級經(jīng)驗回放

優(yōu)先級經(jīng)驗回放賦予每個樣本一個優(yōu)先級。從經(jīng)驗池采樣時，使優(yōu)先級越高的樣本被采樣的概率越大，提高訓(xùn)練速度，并引入SumTree 來存儲樣本的優(yōu)先級。

樣本的優(yōu)先級用TD 誤差定義。TD 誤差越大，優(yōu)先級越高。TD 誤差δt的計算如式（7）所示，樣本抽取的概率定義為：

其中：a用于對優(yōu)先程度的調(diào)節(jié)；pi=|δi|+ε是第i個樣本的優(yōu)先度，δi是第i個樣本的TD 誤差，加入ε用于避免概率為0。

計算TD 誤差時要考慮SAC 算法中3 個網(wǎng)絡(luò)的情況，由于Q網(wǎng)絡(luò)和價值網(wǎng)絡(luò)輸出的值遠大于策略網(wǎng)絡(luò)的值，將3 個網(wǎng)絡(luò)的誤差直接相加將導(dǎo)致策略網(wǎng)絡(luò)的誤差對總誤差影響較小，因此引入調(diào)整系數(shù)Tα和Tβ對Q網(wǎng)絡(luò)和價值網(wǎng)絡(luò)的值進行調(diào)整：

由于優(yōu)先級經(jīng)驗回放改變了樣本采樣方式，因此使用重要性采樣權(quán)重來修正優(yōu)先回放引入的誤差，并計算網(wǎng)絡(luò)進行梯度訓(xùn)練的損失函數(shù)，減小模型的錯誤率。重要性采樣權(quán)重計算如下：

其中選取了樣本j的權(quán)重wj，并進行歸一化處理，方法是除以所有樣本中權(quán)重最大的樣本i，用maxi（wi）表示；N為樣本容量；β是wj的調(diào)整系數(shù)。

最后使用重要性采樣權(quán)重對Q網(wǎng)絡(luò)和價值網(wǎng)絡(luò)的損失函數(shù)進行更新。對式（3）和（5）的更新如下：

2.3 連續(xù)的動作空間和狀態(tài)空間設(shè)計

設(shè)計恰當?shù)倪B續(xù)狀態(tài)空間和動作空間作為神經(jīng)網(wǎng)絡(luò)的輸入和輸出，通過傳感器返回周圍環(huán)境信息。

狀態(tài)空間是對智能體所處環(huán)境的反饋，是智能體選擇動作空間的依據(jù)。機器人搭載的激光雷達，探測范圍為360°，探測距離為3.5 m?？紤]到機器人不后退、雷達數(shù)據(jù)多和計算量大的問題，只使用機器人前方180°的探測范圍和10 個方向上的雷達數(shù)據(jù)。激光雷達數(shù)據(jù)的采集方向設(shè)置結(jié)構(gòu)如圖4 所示。

圖4 激光雷達數(shù)據(jù)采集結(jié)構(gòu)Fig.4 Lidar data acquisition structure

機器人的位姿信息由10 個方向雷達返回的最近障礙物的距離信息di以及機器人與目標點之間的距離Dg和角度θg組成，所以移動機器人狀態(tài)空間sj定義為：

機器人運動學模型使用的是Turtlebot3 的Burger 版本，運動參數(shù)包含線速度［vmax，vmin］、角速度［wmax，wmin］、最大加速度a。線速度的取值范圍為［0.0，2.0］，單位m/s；角速度的取值范圍為[-2.0，2.0]，單位rad/s。動作空間定義為線速度v和角速度w。

2.4 獎懲函數(shù)設(shè)計

獎懲函數(shù)的設(shè)計決定在某一狀態(tài)下移動機器人執(zhí)行一個動作的好壞程度。通過設(shè)計一種連續(xù)性獎懲函數(shù)來解決獎勵稀疏問題。獎懲函數(shù)如下：

其中：rarrival表示到達目標點的正向獎勵；dt表示當前時刻機器人到目標點的距離；dt-1表示上一個時刻機器人到目標點的距離；cd表示到達目標點的閾值，小于此值代表到達了目標點；rcollision表示碰到障礙物的負獎勵；minx表示激光雷達的最小距離；co表示碰撞障礙物的安全距離，低于這個值表示觸碰障礙物；cr1和cr2是設(shè)置的兩個獎勵參數(shù)。

如果機器人通過閾值檢查到達目標，則給予正獎勵；如果通過最小距離讀數(shù)檢查與障礙物碰撞，則給予負獎勵。兩種情況都足以結(jié)束訓(xùn)練。否則，獎勵是基于從目標到最后一個時間步的距離差(dt?1?dt)。如果差值是正的，獎勵等于經(jīng)過的距離乘以參數(shù)cr1，否則乘以參數(shù)cr2。這種措施激勵移動機器人更接近目標位置，并鼓勵其避開環(huán)境中的障礙物。

2.5 遷移學習

局部路徑規(guī)劃中的大部分任務(wù)存在相關(guān)性，在不同地圖環(huán)境中利用參數(shù)遷移來初始化相關(guān)任務(wù)中的參數(shù)，可以加快移動機器人在不同場景下策略的學習。

首先加載預(yù)訓(xùn)練模型，獲取全部的模型參數(shù)。通過隨機初始化訓(xùn)練獲得趨向目標點的模型參數(shù)ωi，將ωi初始化為離散場景ωs和特殊障礙物場景的模型參數(shù)ωt，完善避障規(guī)則vs與vt，實現(xiàn)局部路徑規(guī)劃。本文所設(shè)計的遷移學習框架如圖5 所示。

圖5 遷移學習結(jié)構(gòu)Fig.5 Transfer learning structure

3 算法仿真

基于Python 語言，驗證所設(shè)計的PER-SAC 算法完成移動機器人局部路徑規(guī)劃任務(wù)的有效性。在ROS 平臺上利用Gazebo 搭建4 種仿真環(huán)境（無障礙物、離散型障礙物、一型障礙物和U 型障礙物環(huán)境）來進行PER-SAC 算法和原始SAC 算法的對比實驗。

為了更清晰地觀察仿真結(jié)果，將繪制兩種算法訓(xùn)練的每輪平均回報值對比圖。在Rviz 中，機器人初始位置為起點，方框代表目標點，圓柱體代表障礙物，實線代表機器人的運行軌跡。實驗?zāi)Ｐ筒糠謪?shù)設(shè)置如表1 所示。

表1 仿真參數(shù)設(shè)置Tab.1 Simulation parameter setting

3.1 無障礙物下的仿真

Gazebo 中無障礙物仿真環(huán)境和移動機器人如圖6 所示，在5 m×5 m 的范圍內(nèi)隨機生成目標點進行訓(xùn)練。

圖6 無障礙仿真環(huán)境Fig.6 Obstacle-free simulation environment

根據(jù)設(shè)定的參數(shù)，移動機器人初始階段在無障礙物環(huán)境中訓(xùn)練，達到預(yù)設(shè)訓(xùn)練次數(shù)后，抽取批量經(jīng)驗進行學習，在探索率上升到預(yù)設(shè)峰值后，探索率保持不變，繼續(xù)訓(xùn)練到預(yù)訓(xùn)練次數(shù)，輸出每輪的平均回報值（一輪中的回報值除以本輪步數(shù)），如圖7 所示。從圖7 中可以看出，PER-SAC 算法的平均回報值在30 輪左右開始上升，說明算法開始收斂，收斂速度明顯快于原始SAC 算法，而收斂后的PER-SAC 算法相較于原始算法更穩(wěn)定。

圖7 無障礙環(huán)境下每輪的平均獎勵對比Fig.7 Comparison of average reward per round of obstacle-free environment

用兩種算法收斂后模型進行路徑規(guī)劃，起點為（1，0.6），終點為（1.2，1.2），并且在Rviz 中繪制路徑，規(guī)劃結(jié)果分別如圖8（a）和（b）所示。PER-SAC 算法從起點到終點所用步數(shù)為115，原始SAC 算法為118，兩種算法的路徑基本一致，PER-SAC 算法路徑略短。

圖8 無障礙環(huán)境下的路徑規(guī)劃Fig.8 Path planning in obstacle-free environment

3.2 離散障礙物下的仿真

Gazebo 中離散障礙物環(huán)境和移動機器人如圖9（a）所示，在Rviz 中如圖9（b）所示。起點為機器人初始位置，坐標為（-2，-2），目標點坐標為（2，1）。

圖9 離散障礙物仿真環(huán)境Fig.9 Discrete obstacle simulation environment

利用遷移學習將兩種算法在無障礙物環(huán)境下訓(xùn)練好的模型遷移到7 m×7 m 的離散障礙物環(huán)境中作為初始訓(xùn)練模型，各進行200 輪，每輪500 步的訓(xùn)練后，輸出每輪平均回報值，如圖10 所示。

圖10 離散障礙環(huán)境下每輪的平均獎勵對比Fig.10 Comparison of average reward per round in discrete obstacle environment

PER-SAC 算法在30 輪后每一輪的平均回報值明顯比原始SAC 算法高，說明PER-SAC 算法每輪中機器人到達目標點的次數(shù)更多，并且在140 輪左右模型開始收斂。相較于原始SAC 算法，PER-SAC 算法收斂后每輪的平均回報值波動范圍小，更加穩(wěn)定。

用兩種算法收斂后的模型進行路徑規(guī)劃，規(guī)劃結(jié)果如圖11 所示。PER-SAC 算法從起點到終點所用步數(shù)為248，原始SAC 算法為257。相較于原始SAC 算法，PER-SAC 算法能夠規(guī)劃出趨向目標點的相對更短路徑。

圖11 離散障礙環(huán)境下的路徑規(guī)劃Fig.11 Path planning in discrete obstacle environment

3.3 U型障礙物下的仿真

如離散障礙物下的訓(xùn)練過程，同樣利用遷移學習將兩種算法在無障礙物環(huán)境下訓(xùn)練好的模型遷移到5 m×5 m 的U型障礙物環(huán)境中作為初始化訓(xùn)練模型。Gazebo 中U 型障礙物環(huán)境和移動機器人如圖12（a）所示，在Rviz 中如圖12（b）所示。起點為機器人初始位置，坐標為（-1.2，0），目標點坐標為（1.2，0）。

圖12 U型障礙物仿真環(huán)境Fig.12 U-shaped obstacle simulation environment

兩種算法各進行200 輪，每輪500 步的訓(xùn)練后，同樣輸出平均回報值，如圖13 所示。

圖13 U型障礙環(huán)境下每輪的平均獎勵對比Fig.13 Comparison of average reward per round in U-shaped obstacle environment

PER-SAC 算法在25 輪后每一輪的平均獎勵明顯比原始SAC 算法高，說明每一輪機器人到達目標點的次數(shù)更多；PER-SAC 算法在140 輪左右收斂趨于穩(wěn)定，而原始SAC 算法在180 輪左右，模型的訓(xùn)練和收斂速度更快。

用兩種收斂后的模型進行路徑規(guī)劃，并且在Rviz 中繪制路徑，分別如圖14（a）和（b）所示。PER-SAC 算法從起點到終點所用步數(shù)為274，原始SAC 算法為298。相較于原始SAC 算法，PER-SAC 算法能更快走出障礙物，規(guī)劃出趨向目標點的相對較優(yōu)路徑。

圖14 U型障礙環(huán)境下的路徑規(guī)劃Fig.14 Path planning in U-shaped obstacle environment

3.4 一型障礙物下的仿真

Gazebo 中一型障礙物環(huán)境和移動機器人如圖15（a）和（b）所示。起點為機器人初始位置，坐標為（-1.2，0），目標點坐標為（1.2，0）。

圖15 一型障礙物仿真環(huán)境Fig.15 1-shaped obstacle simulation environment

U 型障礙物是特殊的一型障礙物，使用3.3 節(jié)中U 型障礙物環(huán)境下訓(xùn)練好的模型進行路徑規(guī)劃，檢測已經(jīng)訓(xùn)練好的算法的泛化性。如圖16 所示，在U 型障礙物環(huán)境下訓(xùn)練好的算法同樣適用于一型障礙物環(huán)境，不需要重新訓(xùn)練即可很好地完成路徑規(guī)劃任務(wù)。PER-SAC 算法從起點到終點所用步數(shù)為183，原始SAC 算法為226。PER-SAC 算法表現(xiàn)較好，在U 型環(huán)境中二者的模型就表現(xiàn)出選擇動作的差異，在一型障礙物中表現(xiàn)得更加明顯，機器人能更快繞出障礙區(qū)域。

圖16 一型障礙環(huán)境下的路徑規(guī)劃Fig.16 Path planning in one-shaped obstacle environment

3.5 混合障礙物算法模型驗證

搭建兩個混合障礙物環(huán)境對算法進行驗證，混合障礙物是離散型、一型和U 型三種障礙物的組合。

混合障礙物環(huán)境一和移動機器人如圖17（a）和（b）所示。起點為機器人初始位置，坐標為（-2.2，-2.5），目標點為（1.8，1.3）。

圖17 混合障礙環(huán)境一Fig.17 The first mixed obstacle environment

使用3.3 節(jié)中經(jīng)過遷移學習從無障礙物到離散障礙物、再到U 型障礙物環(huán)境下訓(xùn)練好的模型進行路徑規(guī)劃，如圖18所示，同樣不需要重新訓(xùn)練即可很好地完成路徑規(guī)劃任務(wù)，并且PER-SAC 算法規(guī)劃的路徑較優(yōu)。PER-SAC 算法從起點到終點所用步數(shù)為271，原始SAC 算法為304。

圖18 混合障礙環(huán)境一下的路徑規(guī)劃Fig.18 Path planning in the first mixed obstacle environment

混合障礙物環(huán)境二中，調(diào)整了障礙物和目標點的布局，使移動機器人更容易經(jīng)過U 型障礙物，如圖19（a）和（b）所示。起點和目標點分別為（-2.2，-2.5）和（1.25，2）。

圖19 混合障礙物環(huán)境二Fig.19 The second mixed obstacle environment

路徑規(guī)劃結(jié)果如圖20（a）和（b）所示。PER-SAC 算法從起點到終點所用步數(shù)為279，原始SAC 算法為310。PER-SAC 算法規(guī)劃的路徑較優(yōu)，能較好地規(guī)避障礙物。

圖20 混合障礙環(huán)境二下的路徑規(guī)劃Fig.20 Path planning in the second mixed obstacle environment

PER-SAC 算法經(jīng)過遷移學習后訓(xùn)練得到的模型，能夠在不同的環(huán)境中規(guī)劃一條從起點到目標點的路徑，算法具有一定的泛化能力，同時驗證了算法的有效性。

最后將兩種算法在上述三種仿真環(huán)境下的訓(xùn)練時間進行匯總，如表2 所示。從表2 中可以看出，在每種環(huán)境下，所設(shè)計的PER-SAC 算法訓(xùn)練或收斂時間更快。

表2 算法收斂時間Tab.2 Algorithm convergence time

再對5 個仿真環(huán)境中路徑規(guī)劃時從起點到目標點的步數(shù)進行匯總，如表3 所示。從表3 中可以看出，在每種障礙物運行情況下，PER-SAC 算法均比原始SAC 算法所用步數(shù)少。

表3 到達目標所用步數(shù)Tab.3 Number of steps reaching target

4 結(jié)語

對于未知環(huán)境下的移動機器人局部路徑規(guī)劃問題，本文提出了一種基于SAC 和優(yōu)先級經(jīng)驗回放的PER-SAC 算法，并且在不同的仿真環(huán)境中與原始算法進行了對比實驗，驗證了新算法的有效性。PER-SAC 算法具有以下特點：

1）優(yōu)先級經(jīng)驗回放機制使經(jīng)驗池中的每個樣本擁有了優(yōu)先級，增加了重要程度較高的樣本被采樣的頻率，提高了訓(xùn)練效率和穩(wěn)定性。

2）在線運行時間和訓(xùn)練時間沒有關(guān)聯(lián)，并且充分訓(xùn)練后得到的收斂模型，實際運行時不需要再進行訓(xùn)練。機器人通過傳感器實時感知當前環(huán)境信息，經(jīng)訓(xùn)練模型可以求出一條合理的局部規(guī)劃路徑，滿足運行的實時性需求。

3）利用參數(shù)遷移初始化不同障礙物環(huán)境下的模型參數(shù)，縮短訓(xùn)練進程，加快模型收斂，模型的泛化性增加。

PER-SAC 算法目前還存在一些局限性，在計算網(wǎng)絡(luò)的損失函數(shù)時直接將重要性采樣權(quán)重與損失函數(shù)相乘，可能導(dǎo)致訓(xùn)練的信息不夠充分。下一步的研究方向?qū)⒖紤]優(yōu)化損失函數(shù)，進一步提升算法的性能，使機器人在更加復(fù)雜的環(huán)境下（多U 型、高混合型）實現(xiàn)局部路徑規(guī)劃任務(wù)。