亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于改進SAC算法的移動機器人路徑規(guī)劃

        2023-02-24 05:02:08李永迪李彩虹張耀玉張國勝
        計算機應(yīng)用 2023年2期
        關(guān)鍵詞:移動機器人障礙物機器人

        李永迪,李彩虹,張耀玉,張國勝

        (山東理工大學 計算機科學與技術(shù)學院,山東 淄博 255049)

        0 引言

        在移動機器人自主導(dǎo)航中,路徑規(guī)劃是一個重要的組成部分,可以描述為在一定的約束條件下,尋找一條從起點到目標點的最優(yōu)路徑。常見的路徑規(guī)劃方法有人工勢場法[1]、A*算法[2-3]、蟻群算法[4-5]、遺傳算法[6]、粒子群優(yōu)化算法[7]等。這些算法大都需要建立地圖模型,工作在已知環(huán)境下;另外在復(fù)雜環(huán)境中存在運算時間長、迭代次數(shù)多以及在未知環(huán)境下實時性差或者容易陷入局部最優(yōu)等問題。

        近年來,深度學習(Deep Learning,DL)[8]和強化學習(Reinforcement Learning,RL)[9]成為機器學習領(lǐng)域重要的研究熱點,將深度學習和強化學習相結(jié)合的深度強化學習(Deep Reinforcement Learning,DRL)[10]算法在移動機器人路徑規(guī)劃中得到了廣泛使用。深度強化學習具有深度學習的感知優(yōu)勢和強化學習的決策優(yōu)勢,其中,深度學習負責通過傳感器獲取周圍環(huán)境信息來感知機器人當前的狀態(tài)信息,而強化學習負責對獲取的環(huán)境信息進行探索、做出決策,從而實現(xiàn)移動機器人路徑規(guī)劃的智能化需求。

        SAC(Soft Actor-Critic)算法是Haarnoja 等[11]提出的一種穩(wěn)定高效的DRL 算法,適用于現(xiàn)實世界的機器人技能學習并能與機器人實驗要求高度契合,能夠滿足實時性的需求;Haarnoja 等[12]在SAC 算法中加入了熵權(quán)重的自動調(diào)整,在訓(xùn)練前期熵的權(quán)重較大,在后期逐漸衰減熵的權(quán)重,讓智能體收斂更加穩(wěn)定;De Jesus 等[13]將SAC 算法應(yīng)用到ROS(Robot Operating System)環(huán)境下,實現(xiàn)了移動機器人在不同環(huán)境下的局部路徑規(guī)劃,但算法存在訓(xùn)練時間長和環(huán)境獎勵稀疏的問題;肖碩等[14]引入智能體通信機制,有效降低了環(huán)境不穩(wěn)定性對算法造成的影響,但樣本利用率低、收斂慢;單麒源等[15]優(yōu)化了算法的狀態(tài)輸入,改善了訓(xùn)練次數(shù)越多獎勵值越低的問題,但應(yīng)用場景簡單,面對復(fù)雜環(huán)境算法效率無法保證;胡仕柯等[16]通過在原有算法中引入內(nèi)在好奇心機制,提高智能體探索能力與樣本利用效率,同樣存在應(yīng)用場景簡單且收斂速度較慢。

        針對上述算法的不足,本文對SAC 算法進行了改進,首先,提出的PER-SAC 算法使用三層全連接神經(jīng)網(wǎng)絡(luò),通過雷達傳感器獲取環(huán)境信息和目標點信息,并且令環(huán)境中障礙物的距離信息、機器人的角速度和線速度、機器人與目標點之間的距離和角度,作為網(wǎng)絡(luò)的輸入,輸出為機器人的角速度和線速度;進而結(jié)合優(yōu)先級經(jīng)驗回放(Prioritized Experience Replay,PER),對經(jīng)驗池中不同樣本的重要程度進行區(qū)分,使重要程度較高的樣本更頻繁地回放,進一步提高了原始算法中樣本的利用率,從而進行更有效的學習,提高算法的收斂速度;然后設(shè)計改進的獎勵函數(shù),克服環(huán)境獎勵稀疏的缺點;此外,設(shè)計了不同的仿真環(huán)境(無障礙物、離散障礙物和特殊障礙物),提高算法的泛化性;考慮到在不同障礙物環(huán)境下實驗的重復(fù)性,引入遷移學習,將收斂后的無障礙物模型作為離散型障礙物與特殊障礙物環(huán)境的初始化模型,加快算法收斂。

        1 SAC算法

        SAC 算法使用了AC(Actor-Critic)體系結(jié)構(gòu)[17]。傳統(tǒng)強化學習的目標是使獎勵的期望最大,而SAC 使獎勵期望和熵值同時最大化:

        其中:E是當前狀態(tài)的回報期望,r是當前狀態(tài)的回報值,ρπ為t=0 到T所有的狀態(tài)和動作的集合,H是當前動作的熵,τ是溫度系數(shù),π是通過網(wǎng)絡(luò)得到的當前狀態(tài)的所有動作概率。

        SAC 算法為了減小值函數(shù)的估計誤差,在Actor-Critic 體系的基礎(chǔ)上增加了價值網(wǎng)絡(luò),由1 個Actor 網(wǎng)絡(luò)(策略網(wǎng)絡(luò))和4 個Critic 網(wǎng)絡(luò)構(gòu)成,分別是狀態(tài)價值估計V和TargetV網(wǎng)絡(luò),由VCritic 表示;動作-狀態(tài)價值估計Q0和Q1網(wǎng)絡(luò),由QCritic 表示。SAC 算法網(wǎng)絡(luò)構(gòu)架如圖1 所示。

        圖1 SAC算法網(wǎng)絡(luò)構(gòu)架Fig.1 Network framework of SAC algorithm

        已知一個狀態(tài)st,通過Actor 網(wǎng)絡(luò)得到所有動作概率π(a|st),依概率采樣得到動作at∈a,將at輸入到環(huán)境中得到st+1和rt+1,獲得1 個experience:(st,at,st+1,rt+1),放入到經(jīng)驗池中。

        在QCritic 網(wǎng)絡(luò)中,從經(jīng)驗池中采樣出數(shù)據(jù)(st,at,st+1,rt+1),進行網(wǎng)絡(luò)參數(shù)ω的更新,將動作at的q(st,at)值作為st的預(yù)測價值估計,根據(jù)最優(yōu)Bellman 方程得到作為st狀態(tài)的真實價值估計:

        其中Eπ為當前狀態(tài)的累計回報期望。

        用均方損失函數(shù)作為損失,對QCritic 網(wǎng)絡(luò)進行訓(xùn)練,損失函數(shù)定義為:

        其中B為從經(jīng)驗池中取1 個batch 的數(shù)據(jù)。

        在VCritic 網(wǎng)絡(luò)中,從經(jīng)驗池采樣出數(shù)據(jù)(st,at,st+1,rt+1),進行網(wǎng)絡(luò)參數(shù)θ的更新,Vcritic 網(wǎng)絡(luò)輸出的真實值為:

        其中:為Actor 網(wǎng)絡(luò)的策略π預(yù)測的下一步所有可能動作;lnπ(,θ)為熵。

        根據(jù)真實值計算Vcritic 網(wǎng)絡(luò)的損失:

        在Actor 網(wǎng)絡(luò)中,進行梯度下降訓(xùn)練的損失函數(shù)定義為:

        強化學習通過時序差分(Temporal-Difference,TD)誤差衡量算法修正幅度,采用計算TD 誤差的形式對策略選擇的動作at進行評估:

        其中:Q為Critic 的狀態(tài)價值,γ為折扣因子。

        2 改進SAC算法

        為提高訓(xùn)練速度和穩(wěn)定性,本文設(shè)計了PER-SAC 算法,將優(yōu)先級經(jīng)驗回放引入SAC 算法中,使從經(jīng)驗池中等概率隨機采樣變?yōu)榘凑諆?yōu)先級采樣,增大重要樣本被采樣的概率。利用重要性采樣權(quán)重來修正優(yōu)先回放引入的誤差,并更新網(wǎng)絡(luò)的損失函數(shù),減少模型的錯誤率。PER-SAC 算法包含了網(wǎng)絡(luò)結(jié)構(gòu)、獎懲函數(shù)、連續(xù)的狀態(tài)空間和動作空間的設(shè)計。

        2.1 網(wǎng)絡(luò)結(jié)構(gòu)

        PER-SAC 算法所采用的神經(jīng)網(wǎng)絡(luò)有14 個輸入和2 個輸出,如圖2 所示。

        圖2 網(wǎng)絡(luò)的輸入和輸出Fig.2 Network input and output

        網(wǎng)絡(luò)的輸入包括:雷達10 個方向上的讀數(shù)xt,機器人的線速度vt-1和角速度wt-1,機器人的相對位置與目標點的標量距離dt和角度θt;網(wǎng)絡(luò)的輸出為機器人的線速度vt和角速度wt。

        SAC 網(wǎng)絡(luò)結(jié)構(gòu)包括策略網(wǎng)絡(luò)(Actor)、Q網(wǎng)絡(luò)(QCritic)和價值網(wǎng)絡(luò)(VCritic)三個部分,如圖3 所示。

        圖3 SAC網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 SAC network structure

        策略網(wǎng)絡(luò)的輸入是機器人在環(huán)境中的當前狀態(tài);隱藏層是3 個具有512 個節(jié)點的全連接層;輸出層生成發(fā)送給機器人要執(zhí)行的動作。

        Q網(wǎng)絡(luò)、價值網(wǎng)絡(luò)和策略網(wǎng)絡(luò)的隱藏層相同。Q網(wǎng)絡(luò)給出機器人當前狀態(tài)和動作的Q值,而價值網(wǎng)絡(luò)預(yù)測當前狀態(tài)值。

        2.2 結(jié)合優(yōu)先級經(jīng)驗回放

        優(yōu)先級經(jīng)驗回放賦予每個樣本一個優(yōu)先級。從經(jīng)驗池采樣時,使優(yōu)先級越高的樣本被采樣的概率越大,提高訓(xùn)練速度,并引入SumTree 來存儲樣本的優(yōu)先級。

        樣本的優(yōu)先級用TD 誤差定義。TD 誤差越大,優(yōu)先級越高。TD 誤差δt的計算如式(7)所示,樣本抽取的概率定義為:

        其中:a用于對優(yōu)先程度的調(diào)節(jié);pi=|δi|+ε是第i個樣本的優(yōu)先度,δi是第i個樣本的TD 誤差,加入ε用于避免概率為0。

        計算TD 誤差時要考慮SAC 算法中3 個網(wǎng)絡(luò)的情況,由于Q網(wǎng)絡(luò)和價值網(wǎng)絡(luò)輸出的值遠大于策略網(wǎng)絡(luò)的值,將3 個網(wǎng)絡(luò)的誤差直接相加將導(dǎo)致策略網(wǎng)絡(luò)的誤差對總誤差影響較小,因此引入調(diào)整系數(shù)Tα和Tβ對Q網(wǎng)絡(luò)和價值網(wǎng)絡(luò)的值進行調(diào)整:

        由于優(yōu)先級經(jīng)驗回放改變了樣本采樣方式,因此使用重要性采樣權(quán)重來修正優(yōu)先回放引入的誤差,并計算網(wǎng)絡(luò)進行梯度訓(xùn)練的損失函數(shù),減小模型的錯誤率。重要性采樣權(quán)重計算如下:

        其中選取了樣本j的權(quán)重wj,并進行歸一化處理,方法是除以所有樣本中權(quán)重最大的樣本i,用maxi(wi)表示;N為樣本容量;β是wj的調(diào)整系數(shù)。

        最后使用重要性采樣權(quán)重對Q網(wǎng)絡(luò)和價值網(wǎng)絡(luò)的損失函數(shù)進行更新。對式(3)和(5)的更新如下:

        2.3 連續(xù)的動作空間和狀態(tài)空間設(shè)計

        設(shè)計恰當?shù)倪B續(xù)狀態(tài)空間和動作空間作為神經(jīng)網(wǎng)絡(luò)的輸入和輸出,通過傳感器返回周圍環(huán)境信息。

        狀態(tài)空間是對智能體所處環(huán)境的反饋,是智能體選擇動作空間的依據(jù)。機器人搭載的激光雷達,探測范圍為360°,探測距離為3.5 m??紤]到機器人不后退、雷達數(shù)據(jù)多和計算量大的問題,只使用機器人前方180°的探測范圍和10 個方向上的雷達數(shù)據(jù)。激光雷達數(shù)據(jù)的采集方向設(shè)置結(jié)構(gòu)如圖4 所示。

        圖4 激光雷達數(shù)據(jù)采集結(jié)構(gòu)Fig.4 Lidar data acquisition structure

        機器人的位姿信息由10 個方向雷達返回的最近障礙物的距離信息di以及機器人與目標點之間的距離Dg和角度θg組成,所以移動機器人狀態(tài)空間sj定義為:

        機器人運動學模型使用的是Turtlebot3 的Burger 版本,運動參數(shù)包含線速度[vmax,vmin]、角速度[wmax,wmin]、最大加速度a。線速度的取值范圍為[0.0,2.0],單位m/s;角速度的取值范圍為[-2.0,2.0],單位rad/s。動作空間定義為線速度v和角速度w。

        2.4 獎懲函數(shù)設(shè)計

        獎懲函數(shù)的設(shè)計決定在某一狀態(tài)下移動機器人執(zhí)行一個動作的好壞程度。通過設(shè)計一種連續(xù)性獎懲函數(shù)來解決獎勵稀疏問題。獎懲函數(shù)如下:

        其中:rarrival表示到達目標點的正向獎勵;dt表示當前時刻機器人到目標點的距離;dt-1表示上一個時刻機器人到目標點的距離;cd表示到達目標點的閾值,小于此值代表到達了目標點;rcollision表示碰到障礙物的負獎勵;minx表示激光雷達的最小距離;co表示碰撞障礙物的安全距離,低于這個值表示觸碰障礙物;cr1和cr2是設(shè)置的兩個獎勵參數(shù)。

        如果機器人通過閾值檢查到達目標,則給予正獎勵;如果通過最小距離讀數(shù)檢查與障礙物碰撞,則給予負獎勵。兩種情況都足以結(jié)束訓(xùn)練。否則,獎勵是基于從目標到最后一個時間步的距離差(dt?1?dt)。如果差值是正的,獎勵等于經(jīng)過的距離乘以參數(shù)cr1,否則乘以參數(shù)cr2。這種措施激勵移動機器人更接近目標位置,并鼓勵其避開環(huán)境中的障礙物。

        2.5 遷移學習

        局部路徑規(guī)劃中的大部分任務(wù)存在相關(guān)性,在不同地圖環(huán)境中利用參數(shù)遷移來初始化相關(guān)任務(wù)中的參數(shù),可以加快移動機器人在不同場景下策略的學習。

        首先加載預(yù)訓(xùn)練模型,獲取全部的模型參數(shù)。通過隨機初始化訓(xùn)練獲得趨向目標點的模型參數(shù)ωi,將ωi初始化為離散場景ωs和特殊障礙物場景的模型參數(shù)ωt,完善避障規(guī)則vs與vt,實現(xiàn)局部路徑規(guī)劃。本文所設(shè)計的遷移學習框架如圖5 所示。

        圖5 遷移學習結(jié)構(gòu)Fig.5 Transfer learning structure

        3 算法仿真

        基于Python 語言,驗證所設(shè)計的PER-SAC 算法完成移動機器人局部路徑規(guī)劃任務(wù)的有效性。在ROS 平臺上利用Gazebo 搭建4 種仿真環(huán)境(無障礙物、離散型障礙物、一型障礙物和U 型障礙物環(huán)境)來進行PER-SAC 算法和原始SAC 算法的對比實驗。

        為了更清晰地觀察仿真結(jié)果,將繪制兩種算法訓(xùn)練的每輪平均回報值對比圖。在Rviz 中,機器人初始位置為起點,方框代表目標點,圓柱體代表障礙物,實線代表機器人的運行軌跡。實驗?zāi)P筒糠謪?shù)設(shè)置如表1 所示。

        表1 仿真參數(shù)設(shè)置Tab.1 Simulation parameter setting

        3.1 無障礙物下的仿真

        Gazebo 中無障礙物仿真環(huán)境和移動機器人如圖6 所示,在5 m×5 m 的范圍內(nèi)隨機生成目標點進行訓(xùn)練。

        圖6 無障礙仿真環(huán)境Fig.6 Obstacle-free simulation environment

        根據(jù)設(shè)定的參數(shù),移動機器人初始階段在無障礙物環(huán)境中訓(xùn)練,達到預(yù)設(shè)訓(xùn)練次數(shù)后,抽取批量經(jīng)驗進行學習,在探索率上升到預(yù)設(shè)峰值后,探索率保持不變,繼續(xù)訓(xùn)練到預(yù)訓(xùn)練次數(shù),輸出每輪的平均回報值(一輪中的回報值除以本輪步數(shù)),如圖7 所示。從圖7 中可以看出,PER-SAC 算法的平均回報值在30 輪左右開始上升,說明算法開始收斂,收斂速度明顯快于原始SAC 算法,而收斂后的PER-SAC 算法相較于原始算法更穩(wěn)定。

        圖7 無障礙環(huán)境下每輪的平均獎勵對比Fig.7 Comparison of average reward per round of obstacle-free environment

        用兩種算法收斂后模型進行路徑規(guī)劃,起點為(1,0.6),終點為(1.2,1.2),并且在Rviz 中繪制路徑,規(guī)劃結(jié)果分別如圖8(a)和(b)所示。PER-SAC 算法從起點到終點所用步數(shù)為115,原始SAC 算法為118,兩種算法的路徑基本一致,PER-SAC 算法路徑略短。

        圖8 無障礙環(huán)境下的路徑規(guī)劃Fig.8 Path planning in obstacle-free environment

        3.2 離散障礙物下的仿真

        Gazebo 中離散障礙物環(huán)境和移動機器人如圖9(a)所示,在Rviz 中如圖9(b)所示。起點為機器人初始位置,坐標為(-2,-2),目標點坐標為(2,1)。

        圖9 離散障礙物仿真環(huán)境Fig.9 Discrete obstacle simulation environment

        利用遷移學習將兩種算法在無障礙物環(huán)境下訓(xùn)練好的模型遷移到7 m×7 m 的離散障礙物環(huán)境中作為初始訓(xùn)練模型,各進行200 輪,每輪500 步的訓(xùn)練后,輸出每輪平均回報值,如圖10 所示。

        圖10 離散障礙環(huán)境下每輪的平均獎勵對比Fig.10 Comparison of average reward per round in discrete obstacle environment

        PER-SAC 算法在30 輪后每一輪的平均回報值明顯比原始SAC 算法高,說明PER-SAC 算法每輪中機器人到達目標點的次數(shù)更多,并且在140 輪左右模型開始收斂。相較于原始SAC 算法,PER-SAC 算法收斂后每輪的平均回報值波動范圍小,更加穩(wěn)定。

        用兩種算法收斂后的模型進行路徑規(guī)劃,規(guī)劃結(jié)果如圖11 所示。PER-SAC 算法從起點到終點所用步數(shù)為248,原始SAC 算法為257。相較于原始SAC 算法,PER-SAC 算法能夠規(guī)劃出趨向目標點的相對更短路徑。

        圖11 離散障礙環(huán)境下的路徑規(guī)劃Fig.11 Path planning in discrete obstacle environment

        3.3 U型障礙物下的仿真

        如離散障礙物下的訓(xùn)練過程,同樣利用遷移學習將兩種算法在無障礙物環(huán)境下訓(xùn)練好的模型遷移到5 m×5 m 的U型障礙物環(huán)境中作為初始化訓(xùn)練模型。Gazebo 中U 型障礙物環(huán)境和移動機器人如圖12(a)所示,在Rviz 中如圖12(b)所示。起點為機器人初始位置,坐標為(-1.2,0),目標點坐標為(1.2,0)。

        圖12 U型障礙物仿真環(huán)境Fig.12 U-shaped obstacle simulation environment

        兩種算法各進行200 輪,每輪500 步的訓(xùn)練后,同樣輸出平均回報值,如圖13 所示。

        圖13 U型障礙環(huán)境下每輪的平均獎勵對比Fig.13 Comparison of average reward per round in U-shaped obstacle environment

        PER-SAC 算法在25 輪后每一輪的平均獎勵明顯比原始SAC 算法高,說明每一輪機器人到達目標點的次數(shù)更多;PER-SAC 算法在140 輪左右收斂趨于穩(wěn)定,而原始SAC 算法在180 輪左右,模型的訓(xùn)練和收斂速度更快。

        用兩種收斂后的模型進行路徑規(guī)劃,并且在Rviz 中繪制路徑,分別如圖14(a)和(b)所示。PER-SAC 算法從起點到終點所用步數(shù)為274,原始SAC 算法為298。相較于原始SAC 算法,PER-SAC 算法能更快走出障礙物,規(guī)劃出趨向目標點的相對較優(yōu)路徑。

        圖14 U型障礙環(huán)境下的路徑規(guī)劃Fig.14 Path planning in U-shaped obstacle environment

        3.4 一型障礙物下的仿真

        Gazebo 中一型障礙物環(huán)境和移動機器人如圖15(a)和(b)所示。起點為機器人初始位置,坐標為(-1.2,0),目標點坐標為(1.2,0)。

        圖15 一型障礙物仿真環(huán)境Fig.15 1-shaped obstacle simulation environment

        U 型障礙物是特殊的一型障礙物,使用3.3 節(jié)中U 型障礙物環(huán)境下訓(xùn)練好的模型進行路徑規(guī)劃,檢測已經(jīng)訓(xùn)練好的算法的泛化性。如圖16 所示,在U 型障礙物環(huán)境下訓(xùn)練好的算法同樣適用于一型障礙物環(huán)境,不需要重新訓(xùn)練即可很好地完成路徑規(guī)劃任務(wù)。PER-SAC 算法從起點到終點所用步數(shù)為183,原始SAC 算法為226。PER-SAC 算法表現(xiàn)較好,在U 型環(huán)境中二者的模型就表現(xiàn)出選擇動作的差異,在一型障礙物中表現(xiàn)得更加明顯,機器人能更快繞出障礙區(qū)域。

        圖16 一型障礙環(huán)境下的路徑規(guī)劃Fig.16 Path planning in one-shaped obstacle environment

        3.5 混合障礙物算法模型驗證

        搭建兩個混合障礙物環(huán)境對算法進行驗證,混合障礙物是離散型、一型和U 型三種障礙物的組合。

        混合障礙物環(huán)境一和移動機器人如圖17(a)和(b)所示。起點為機器人初始位置,坐標為(-2.2,-2.5),目標點為(1.8,1.3)。

        圖17 混合障礙環(huán)境一Fig.17 The first mixed obstacle environment

        使用3.3 節(jié)中經(jīng)過遷移學習從無障礙物到離散障礙物、再到U 型障礙物環(huán)境下訓(xùn)練好的模型進行路徑規(guī)劃,如圖18所示,同樣不需要重新訓(xùn)練即可很好地完成路徑規(guī)劃任務(wù),并且PER-SAC 算法規(guī)劃的路徑較優(yōu)。PER-SAC 算法從起點到終點所用步數(shù)為271,原始SAC 算法為304。

        圖18 混合障礙環(huán)境一下的路徑規(guī)劃Fig.18 Path planning in the first mixed obstacle environment

        混合障礙物環(huán)境二中,調(diào)整了障礙物和目標點的布局,使移動機器人更容易經(jīng)過U 型障礙物,如圖19(a)和(b)所示。起點和目標點分別為(-2.2,-2.5)和(1.25,2)。

        圖19 混合障礙物環(huán)境二Fig.19 The second mixed obstacle environment

        路徑規(guī)劃結(jié)果如圖20(a)和(b)所示。PER-SAC 算法從起點到終點所用步數(shù)為279,原始SAC 算法為310。PER-SAC 算法規(guī)劃的路徑較優(yōu),能較好地規(guī)避障礙物。

        圖20 混合障礙環(huán)境二下的路徑規(guī)劃Fig.20 Path planning in the second mixed obstacle environment

        PER-SAC 算法經(jīng)過遷移學習后訓(xùn)練得到的模型,能夠在不同的環(huán)境中規(guī)劃一條從起點到目標點的路徑,算法具有一定的泛化能力,同時驗證了算法的有效性。

        最后將兩種算法在上述三種仿真環(huán)境下的訓(xùn)練時間進行匯總,如表2 所示。從表2 中可以看出,在每種環(huán)境下,所設(shè)計的PER-SAC 算法訓(xùn)練或收斂時間更快。

        表2 算法收斂時間Tab.2 Algorithm convergence time

        再對5 個仿真環(huán)境中路徑規(guī)劃時從起點到目標點的步數(shù)進行匯總,如表3 所示。從表3 中可以看出,在每種障礙物運行情況下,PER-SAC 算法均比原始SAC 算法所用步數(shù)少。

        表3 到達目標所用步數(shù)Tab.3 Number of steps reaching target

        4 結(jié)語

        對于未知環(huán)境下的移動機器人局部路徑規(guī)劃問題,本文提出了一種基于SAC 和優(yōu)先級經(jīng)驗回放的PER-SAC 算法,并且在不同的仿真環(huán)境中與原始算法進行了對比實驗,驗證了新算法的有效性。PER-SAC 算法具有以下特點:

        1)優(yōu)先級經(jīng)驗回放機制使經(jīng)驗池中的每個樣本擁有了優(yōu)先級,增加了重要程度較高的樣本被采樣的頻率,提高了訓(xùn)練效率和穩(wěn)定性。

        2)在線運行時間和訓(xùn)練時間沒有關(guān)聯(lián),并且充分訓(xùn)練后得到的收斂模型,實際運行時不需要再進行訓(xùn)練。機器人通過傳感器實時感知當前環(huán)境信息,經(jīng)訓(xùn)練模型可以求出一條合理的局部規(guī)劃路徑,滿足運行的實時性需求。

        3)利用參數(shù)遷移初始化不同障礙物環(huán)境下的模型參數(shù),縮短訓(xùn)練進程,加快模型收斂,模型的泛化性增加。

        PER-SAC 算法目前還存在一些局限性,在計算網(wǎng)絡(luò)的損失函數(shù)時直接將重要性采樣權(quán)重與損失函數(shù)相乘,可能導(dǎo)致訓(xùn)練的信息不夠充分。下一步的研究方向?qū)⒖紤]優(yōu)化損失函數(shù),進一步提升算法的性能,使機器人在更加復(fù)雜的環(huán)境下(多U 型、高混合型)實現(xiàn)局部路徑規(guī)劃任務(wù)。

        猜你喜歡
        移動機器人障礙物機器人
        移動機器人自主動態(tài)避障方法
        高低翻越
        SelTrac?CBTC系統(tǒng)中非通信障礙物的設(shè)計和處理
        基于Twincat的移動機器人制孔系統(tǒng)
        機器人來幫你
        認識機器人
        機器人來啦
        認識機器人
        極坐標系下移動機器人的點鎮(zhèn)定
        基于引導(dǎo)角的非完整移動機器人軌跡跟蹤控制
        婷婷五月六月综合缴情| 青青草久久久亚洲一区| 成人爽a毛片在线播放| 亚洲国产成人极品综合| 久久成人国产精品免费软件| 蜜桃精品免费久久久久影院| 人妻无码中文专区久久AV| 国产精品国产三级国a| 中文字幕女同系列在线看一 | 中国一级特黄真人片久久| 国产日产综合| 综合久久给合久久狠狠狠97色| 无码AⅤ最新av无码专区| av资源在线免费观看| 国产av无码专区亚洲av果冻传媒| 97人人模人人爽人人少妇| 国内露脸中年夫妇交换| 蜜桃在线观看免费高清完整版| 熟女人妻一区二区三区| 吃奶摸下高潮60分钟免费视频| 性一交一乱一伧国产女士spa| 四虎成人精品国产一区a| 国产av一区二区内射| 中国人在线观看免费的视频播放 | 欧洲亚洲视频免费| av男人操美女一区二区三区| 91久久国产香蕉视频 | 又爽又黄又无遮挡网站动态图| 丝袜美女污污免费观看的网站| 国产精品久久中文字幕亚洲| 日本五十路人妻在线一区二区| 18禁黄网站禁片免费观看女女| 日韩精品一区二区亚洲av| 亚洲欧洲无码精品ⅤA| 一本色道久久88加勒比综合| 免费网站内射红桃视频| 亚洲国产精品嫩草影院久久| 久久久久久人妻一区二区无码Av | 中文字幕成人精品久久不卡91| 人妻少妇被粗大爽.9797pw| 日本xxxx色视频在线播放|