蔡 澤,胡耀光,聞敬謙,張立祥
(北京理工大學(xué) 工業(yè)與智能系統(tǒng)工程研究所,北京 100081)
自動導(dǎo)引車(Automated Guided Vehicle, AGV)因其自動化程度高、應(yīng)用靈活等特點(diǎn)逐漸成為智能工廠物料運(yùn)輸?shù)年P(guān)鍵設(shè)備。在智能工廠中,工廠布局柔性多變、多AGV運(yùn)行相互影響,使得AGV的運(yùn)行環(huán)境更加復(fù)雜,對其動態(tài)避障能力有了更高的要求。
AGV避障路徑規(guī)劃要求AGV以合理的方式躲避障礙,安全高效地完成運(yùn)輸任務(wù)。早期的避障路徑規(guī)劃多采用集中式方法,由一個中央服務(wù)器決定所有AGV的運(yùn)行,中央服務(wù)器可以獲取工廠環(huán)境信息和所有AGV的運(yùn)行狀態(tài),為多AGV同時規(guī)劃無碰撞的路徑[1]。集中式方法可以保證多個AGV安全運(yùn)行,并能使路徑達(dá)到近似最優(yōu),但這種方法嚴(yán)重依賴于實(shí)時通信和精準(zhǔn)的狀態(tài)感知,抗干擾和容錯能力很差,不適用于復(fù)雜環(huán)境和有人參與的場景。與集中式方法對應(yīng)的是分散式方法,分散式方法允許AGV只感知自身局部環(huán)境信息,不需要中央服務(wù)器。分散式方法中一種經(jīng)典的方法是速度障礙法[2],根據(jù)周圍環(huán)境中障礙物的信息選擇回避障礙的速度,基于此框架衍生出互惠速度障礙法(Reciprocal Velocity Obstacles, RVO)[3]、最優(yōu)互惠速度障礙法(Optimal Reciprocal Collision Avoidance, ORCA)[4]等方法,但速度障礙避障方法需要對障礙的位置、速度和形狀有精確感知,在現(xiàn)實(shí)應(yīng)用中很難實(shí)現(xiàn)。
機(jī)器學(xué)習(xí)、大數(shù)據(jù)等人工智能技術(shù)的發(fā)展為AGV避障問題提供了新的解決方案,深度學(xué)習(xí)強(qiáng)大的表示能力與強(qiáng)化學(xué)習(xí)技術(shù)的結(jié)合,允許直接利用原始的傳感器數(shù)據(jù)動態(tài)規(guī)劃路徑[5]。基于深度強(qiáng)化學(xué)習(xí)技術(shù)的避障方法通常采用端到端的模式,以傳感器(如激光雷達(dá)、深度相機(jī)等)采集到的數(shù)據(jù)為輸入,輸出AGV的控制指令(速度、角速度、電機(jī)轉(zhuǎn)速等)[6],因為控制指令多為連續(xù)值,所以采用基于策略的算法[7]等。避障路徑規(guī)劃通常被設(shè)置為點(diǎn)到點(diǎn)的局部避障,AGV檢測到障礙后從全局路徑中選取一個路點(diǎn)作為局部目標(biāo)點(diǎn),無碰撞的運(yùn)行到此目標(biāo)點(diǎn)后視為避障結(jié)束[8]。避障過程被建立為適合強(qiáng)化學(xué)習(xí)解決的離散序列決策問題,在每個時刻根據(jù)環(huán)境的狀態(tài)決策出運(yùn)動控制指令[9]。基于以上模式,研究者開始探索在復(fù)雜環(huán)境中的避障方法。ZHU等[10]針對復(fù)雜室內(nèi)場景(如迷宮等)中局部目標(biāo)點(diǎn)難以定位的問題,將感知的第一人稱環(huán)境圖像作為輸入,引導(dǎo)AGV運(yùn)行;LONG等[11]針對多AGV場景下算法難以收斂的問題,提出多場景多階段的訓(xùn)練方法,從簡單到復(fù)雜的訓(xùn)練避障策略;CHEN等[12]考慮到人運(yùn)動的隨機(jī)性,融合多傳感器評估行人意圖,使AGV適應(yīng)不確定運(yùn)行環(huán)境。上述方法將局部避障視為點(diǎn)到點(diǎn)過程,以AGV是否到達(dá)目標(biāo)點(diǎn)一定范圍內(nèi)作為避障結(jié)束的依據(jù),該方式只關(guān)注了躲避障礙而沒有考慮局部避障規(guī)劃對后續(xù)運(yùn)行的影響,避障結(jié)束后需要繼續(xù)調(diào)整軌跡使AGV回到全局路徑,影響了AGV的運(yùn)行效率。
因此,為解決復(fù)雜動態(tài)環(huán)境下考慮全局路徑引導(dǎo)的避障問題,本文提出一種基于深度強(qiáng)化學(xué)習(xí)的AGV局部避障路徑規(guī)劃方法。首先,將AGV避障問題表示為部分觀測馬爾可夫決策過程,詳細(xì)介紹了觀測空間、動作空間和獎勵函數(shù),在建立避障決策模型時同時考慮了路點(diǎn)位置和后續(xù)路徑方向的引導(dǎo)作用;基于建立的決策過程,開發(fā)仿真環(huán)境并采用深度確定性策略梯度算法(Deep Deterministic Policy Gradient,DDPG)訓(xùn)練避障策略。最后,進(jìn)行仿真實(shí)驗,設(shè)置多種實(shí)驗場景驗證提出方法的有效性。
在智能工廠中,設(shè)備布局柔性多變、多AGV同時執(zhí)行物料搬運(yùn)任務(wù),AGV的運(yùn)行環(huán)境更加復(fù)雜,為了安全、高效地執(zhí)行任務(wù),AGV需要有自感知與自決策能力。在運(yùn)行過程中,AGV通過安裝的傳感器實(shí)時探測周圍環(huán)境,當(dāng)檢測到附近存在障礙物時,需要自主規(guī)劃出避障路徑規(guī)避碰撞風(fēng)險[13];為完成搬運(yùn)任務(wù)AGV通常采用全局與局部相結(jié)合的路徑規(guī)劃方法,在執(zhí)行任務(wù)前先全局規(guī)劃出從起點(diǎn)到任務(wù)目標(biāo)點(diǎn)的全局路徑,在運(yùn)行過程中遇到障礙時進(jìn)行局部路徑規(guī)劃。因此,局部避障路徑規(guī)劃既要滿足無碰撞的要求,也要考慮任務(wù)的影響,在全局路徑的引導(dǎo)下完成避障。在多AGV同時運(yùn)行時,AGV需要躲避不同速度的障礙,因此局部避障路徑規(guī)劃需要具有應(yīng)對動態(tài)環(huán)境的能力。
局部避障路徑規(guī)劃可以表示為在等間隔離散時間點(diǎn)的序列決策問題,AGV上安裝有感知周圍環(huán)境的激光雷達(dá),在開始時刻Ts(記時刻t=0)檢測到有障礙物進(jìn)入安全范圍,AGV進(jìn)入避障狀態(tài),從全局路徑的路點(diǎn)中選擇局部目標(biāo)點(diǎn);避障過程中,在每個時刻t(t=0,1,2,…)AGV接受傳感器感知的環(huán)境信息、自身的位置姿態(tài)、運(yùn)行速度等狀態(tài)信息以及目標(biāo)點(diǎn)的位置信息,AGV根據(jù)以上信息生成運(yùn)動控制指令并執(zhí)行,改變自身狀態(tài);每一步?jīng)Q策完成后時間推進(jìn)ΔT,進(jìn)入下一時刻t=t+1;當(dāng)AGV無碰撞的到達(dá)局部目標(biāo)點(diǎn)時完成避障,如果在該過程中與障礙物發(fā)生碰撞則避障失敗。要解決的問題是得到局部避障策略πθ,在每個時刻t以觀測到的信息為輸入,輸出運(yùn)行控制指令。
局部避障需要滿足以下要求:①AGV在運(yùn)行過程中不與障礙物發(fā)生碰撞;②局部規(guī)劃以全局路徑作為引導(dǎo),避免過度偏離全局路徑,避障結(jié)束后的運(yùn)行方向與全局方向一致;③避障過程消耗的時間盡可能少;④確保避障路徑的平滑性與AGV運(yùn)行穩(wěn)定性,控制指令不能大幅度變化。
無碰撞的要求表示為:在避障過程的每一個時刻t,AGV對任何障礙物都有R∩Bi=?(i=1,2,…),R表示AGV的幾何形狀,Bi為障礙物的幾何形狀。
et=at-vt;
(1)
AGV在下一時刻的位置和姿態(tài)為:
(2)
考慮到在實(shí)際運(yùn)行中,局部目標(biāo)點(diǎn)可能與障礙重合,因此判定AGV到達(dá)目標(biāo)點(diǎn)不必嚴(yán)格要求AGV的位置與目標(biāo)點(diǎn)位置重合或接近,只需整體運(yùn)行軌跡與全局路徑一致即可。結(jié)合上述全局路徑引導(dǎo)的要求,AGV在Te時到達(dá)目標(biāo)點(diǎn)可以表示為Vte·Ve>0、ΔVte·Ve>0,即AGV在全局方向上超過目標(biāo)點(diǎn)、AGV的運(yùn)行方向與全局方向一致。對觀測信息做進(jìn)一步補(bǔ)充,加入全局路徑方向信息,同時將環(huán)境信息lt、引導(dǎo)向量Ve、位置向量Vt由全局坐標(biāo)變換到以AGV位置為原點(diǎn),以姿態(tài)方向為x軸的相對坐標(biāo)系下,新的觀測信息表示為ot=(lt,vt,Ve,Vt)。以最短時間完成避障表示最小化Te-Ts。
綜上所述,智能工廠環(huán)境下的AGV避障問題可以轉(zhuǎn)化為不確定環(huán)境下的從開始避障到結(jié)束避障的序列決策問題,優(yōu)化目標(biāo)為:
min(Te-Ts)。
(3)
決策變量為:
at=πθ(ot)。
(4)
約束包括:
Vte·Ve>0;ΔVte·Ve>0。
(5)
為了求解最優(yōu)策略πθ,本文將局部避障問題構(gòu)建為馬爾可夫決策過程,由于觀測數(shù)據(jù)ot只來自于對應(yīng)的AGV,是對環(huán)境信息的部分觀測,該決策問題屬于部分觀測馬爾可夫決策過程(Partial Observational Markov Decision Process, POMDP)[15]。POMDP包含6個元素(S,A,P,R,Ω,O),其中:S為環(huán)境的狀態(tài)空間,包含AGV運(yùn)行環(huán)境中的所有可能狀態(tài);A為動作空間,包括對AGV的控制指令;P為狀態(tài)轉(zhuǎn)移函數(shù),表示執(zhí)行動作后狀態(tài)轉(zhuǎn)移的概率;R為獎勵函數(shù),用來評價狀態(tài)轉(zhuǎn)移過程;Ω為觀測空間(ot∈Ω);O為對環(huán)境狀態(tài)的觀測函數(shù)(ot=O(st))。在建立的模型中,AGV依據(jù)對環(huán)境的觀測決策出控制指令,因此不需要考慮環(huán)境的相關(guān)元素,下面詳細(xì)介紹避障問題中的觀測空間、動作空間與獎勵函數(shù)。
AGV在時刻t觀測到的信息ot包括周圍環(huán)境數(shù)據(jù)lt、AGV運(yùn)行速度vt、避障過程的全局路徑引導(dǎo)方向Ve以及表示AGV位置與局部目標(biāo)點(diǎn)位置的Vt,如圖2所示。lt由布置在AGV前端的激光雷達(dá)掃描產(chǎn)生,可以探測180°的平面區(qū)域,角分辨率為1°,全部的雷達(dá)探測數(shù)據(jù)維度過高,不利于計算[16],因此在每個時刻等間隔(15°)抽取13個數(shù)據(jù)(lt∈13)作為最終的輸入,雷達(dá)測距半徑為2.5 m;vt為AGV的運(yùn)行速度,由AGV行駛的線速度和角速度表示(vt∈2);Ve為表示全局路徑方向的二維向量(Ve∈2);Vt表示AGV與避障目標(biāo)點(diǎn)的位置關(guān)系,同樣由二維向量表示(Vt∈2)。
單次觀測ot包含環(huán)境中障礙物的靜態(tài)信息(如形狀、位置等),為了提高決策的有效性,需要利用環(huán)境中的動態(tài)信息,因此使用最近的N個連續(xù)觀測值組成的觀測序列ot=(ot+(-N+1),ot+(-N+2),…,ot)推測障礙的速度、運(yùn)動趨勢等信息。觀測序列中的觀測數(shù)量越多,包含的環(huán)境信息也越充分,可以提高決策的準(zhǔn)確率,但過多的信息會影響計算的速度,對決策的時效性產(chǎn)生負(fù)面影響,綜合考慮本文取N=3,即ot=(ot-2,ot-1,ot)作為觀測序列。在開始避障的時刻t=0,觀測序列取o0=(o0,o0,o0)。
局部避障路徑規(guī)劃的目標(biāo)是在無碰撞約束、全局路徑引導(dǎo)約束、軌跡平滑約束下以最短的時間完成避障。上文通過對動作進(jìn)行PID控制處理實(shí)現(xiàn)了軌跡平滑約束,下面介紹獎勵函數(shù)的設(shè)置以實(shí)現(xiàn)優(yōu)化目標(biāo)與其余兩種約束。
本研究的獎勵函數(shù)設(shè)置為:
(6)
(7)
切向獎勵根據(jù)切向距離的大小與固定獎勵成比例。
(8)
局部避障問題最終需要求解得到最優(yōu)避障策略πθ(at|ot),在建立的模型中觀測狀態(tài)ot屬于高維連續(xù)輸入,輸出的動作at同樣也是連續(xù)的,因此本文采用深度強(qiáng)化學(xué)習(xí)算法中的DDPG算法[17]訓(xùn)練確定性策略,在每一步?jīng)Q策出最優(yōu)的動作。
DDPG算法中包含動作(Actor)和評價(Critic)兩種神經(jīng)網(wǎng)絡(luò),分別對策略與價值近似表征。Actor網(wǎng)絡(luò)以觀測序列o為輸入,輸出動作a,控制AGV的行駛速度和方向,為AGV規(guī)劃出避障路徑,表征避障策略πθ(at|ot)[18];Critic網(wǎng)絡(luò)以觀測序列o和動作a為輸入,輸出二者的價值Q(o,a),對Actor網(wǎng)絡(luò)的決策結(jié)果進(jìn)行評價,使其能夠不斷優(yōu)化。
本文選取決策時刻觀測數(shù)據(jù)和前兩個時刻的觀測數(shù)據(jù)組成觀測序列,以多幀序列數(shù)據(jù)作為決策所需的輸入數(shù)據(jù)。為了解決多幀序列輸入的決策問題,本文針對Actor和Critic網(wǎng)絡(luò)設(shè)計了如圖3和圖4所示的架構(gòu)。
如圖3所示為Actor網(wǎng)絡(luò),觀測序列o被分為全局路徑方向Ve、AGV速度序列(vt-2,vt-1,vt)、雷達(dá)探測序列(lt-2,lt-1,lt)和AGV位置序列(Vt-2,Vt-1,Vt),單幀數(shù)據(jù)Ve連接全連接網(wǎng)絡(luò),3種多幀序列輸入數(shù)據(jù)按照先后順序堆疊為一維向量分別連接全連接網(wǎng)絡(luò),中間層及最后的輸出層均為全連接網(wǎng)絡(luò),Actor網(wǎng)絡(luò)的具體參數(shù)如表1所示。
表1 Actor網(wǎng)絡(luò)參數(shù)
如圖4所示為Critic網(wǎng)絡(luò),與Actor網(wǎng)絡(luò)類似,Critic網(wǎng)絡(luò)同樣采用數(shù)據(jù)堆疊的方法處理多幀序列輸入問題,因為Critic網(wǎng)絡(luò)是對觀測—動作(o,a)進(jìn)行評價,所以還添加了動作處理層,Critic網(wǎng)絡(luò)的具體參數(shù)如表2所示。兩種網(wǎng)絡(luò)中用到的激活函數(shù)包括:雙曲正切函數(shù)tanh(x)和relu(x)=max(0,x)。
表2 Critic網(wǎng)絡(luò)參數(shù)
DDPG算法是基于Actor-Critic(動作—評價)網(wǎng)絡(luò)的確定性策略梯度算法,算法使用經(jīng)驗回放與備份網(wǎng)絡(luò)的方法提高數(shù)據(jù)利用率與算法穩(wěn)定性。本文利用DDPG算法訓(xùn)練避障策略的流程如下:
(1)隨機(jī)初始化Critic網(wǎng)絡(luò)Q(o,a|θQ)和Actor網(wǎng)絡(luò)μ(o|θμ),初始化參數(shù)γ(獎勵折扣因子)、τ(網(wǎng)絡(luò)更新率)、l(學(xué)習(xí)率);(2)復(fù)制Critic和Actor的網(wǎng)絡(luò)參數(shù),初始化目標(biāo)網(wǎng)絡(luò)Q′(o,a|θQ′)和μ′(o|θμ′),θQ′←θQ,θμ′←θμ;(3)初始化經(jīng)驗存儲池,容量為P,設(shè)置經(jīng)驗采樣數(shù)M(M≤P),設(shè)置訓(xùn)練回合數(shù)E;(4)訓(xùn)練E次:
1)初始化策略探索噪聲aN;
2)AGV檢測到障礙物,進(jìn)入避障狀態(tài),時間步t=0,獲取雷達(dá)掃描數(shù)據(jù)、AGV運(yùn)行速度、全局路徑方向以及AGV位置向量,構(gòu)建初始觀測ot=o0;
5)向經(jīng)驗池中存入狀態(tài)轉(zhuǎn)移過程(ot,at,rt+1,ot+1,isDone);
6)從經(jīng)驗池中隨機(jī)抽取M個狀態(tài)轉(zhuǎn)移過程;
7)使用兩種目標(biāo)網(wǎng)絡(luò)Q′(o,a|θQ′)和μ′(o|θμ′)計算觀測—動作的目標(biāo)價值yi,
yi=ri+1+γQ′(oi+1,μ′(oi+1|θμ′)|θQ′)
8)采用梯度下降方法以學(xué)習(xí)率l更新Critic網(wǎng)絡(luò),目標(biāo)是最小化對價值的評價誤差,使Critic對價值的估計更準(zhǔn)確,損失函數(shù)為:
9)采用梯度上升方法以學(xué)習(xí)率l更新Actor網(wǎng)絡(luò),目標(biāo)是最大化價值,使Actor選擇更好的動作,損失函數(shù)為:
10)更新目標(biāo)網(wǎng)絡(luò)
θQ′←τθQ+(1-τ)θQ′
θμ′←τθμ+(1-τ)θμ′
11)時間步更新t=t+1;
12)重復(fù)步驟3)~步驟11),直到避障結(jié)束,此回合結(jié)束。
(5)訓(xùn)練結(jié)束。
在上述算法的每一回合中,Actor網(wǎng)絡(luò)表示避障策略,輸入觀測o,輸出控制指令at,在對at處理后由仿真環(huán)境中的AGV執(zhí)行,AGV根據(jù)at改變自身位置和速度,仿真環(huán)境根據(jù)式(6)計算相應(yīng)的獎勵rt+1,并產(chǎn)生新的觀測ot+1,同時判斷是否完成了避障(isDone)。每一步可以表示為一個狀態(tài)轉(zhuǎn)移過程(ot,at,rt+1,ot+1,isDone),并將其存入經(jīng)驗池中。當(dāng)經(jīng)驗池中積累了足夠多的狀態(tài)轉(zhuǎn)移過程后即可用來更新網(wǎng)絡(luò)參數(shù),優(yōu)化網(wǎng)絡(luò)。
算法中的相關(guān)參數(shù)如表3所示:
表3 算法參數(shù)設(shè)置
本文使用編程語言Python 3.8搭建仿真環(huán)境,實(shí)現(xiàn)了AGV狀態(tài)更新、雷達(dá)感知、AGV碰撞檢測等功能,模擬AGV運(yùn)行,使用Pytorch 1.9開發(fā)包編寫DDPG算法,硬件采用AMD Ryzen7-4800處理器和RTX 2060顯卡。
在訓(xùn)練避障策略時,每個回合隨機(jī)設(shè)置靜態(tài)障礙、AGV的引導(dǎo)路徑及AGV的初始避障狀態(tài)(包括位置、姿態(tài)、線速度、角速度),設(shè)置多臺AGV同時運(yùn)行,每臺AGV與環(huán)境交互生成經(jīng)驗并利用DDPG算法訓(xùn)練避障策略,同時也作為其他AGV運(yùn)行時的動態(tài)障礙。策略訓(xùn)練仿真環(huán)境的相關(guān)參數(shù)如表4所示。
表4 避障策略訓(xùn)練環(huán)境參數(shù)設(shè)置
基于構(gòu)建的仿真環(huán)境和3.2節(jié)的算法流程訓(xùn)練避障策略,訓(xùn)練過程中每個回合得到的獎勵值如圖5所示。由圖5可以看到,訓(xùn)練后期可以獲得較大獎勵且獎勵值保持平穩(wěn)趨勢,表明算法已經(jīng)收斂。策略訓(xùn)練時每回合的障礙分布和多AGV狀態(tài)隨機(jī)設(shè)置,因此獎勵值會出現(xiàn)微小波動。
本文提出的方法在避障時考慮了后續(xù)路徑方向的引導(dǎo)作用,因此對避障策略的避障性能與整體運(yùn)行效率進(jìn)行實(shí)驗分析,并與現(xiàn)有的只以目標(biāo)點(diǎn)作為引導(dǎo),不考慮后續(xù)方向的策略[15]進(jìn)行對比?;?.3節(jié)介紹的仿真環(huán)境開展單次避障與長距離多次避障實(shí)驗。
本文采用以下3種指標(biāo)對避障性能和效率進(jìn)行評價:
(1)成功率αAGV成功完成避障次數(shù)占總避障次數(shù)的比率;(2)額外時間比teAGV完成避障消耗的時間除以預(yù)期時間,預(yù)期時間指AGV在無障礙環(huán)境下以最大速度到達(dá)目標(biāo)點(diǎn)所需時間;
(3)額外距離比deAGV避障過程的行駛距離除以預(yù)期距離,預(yù)期距離指避障起始點(diǎn)到目標(biāo)點(diǎn)的路徑距離。
在實(shí)際應(yīng)用中,當(dāng)AGV之間的路徑重合或者交叉時即有碰撞風(fēng)險[20],本文設(shè)計了交替、交叉以及十字形3種實(shí)驗場景,場景中包含4臺AGV,如圖6所示。
(1)交替場景 AGV路徑重合,兩端的AGV運(yùn)行方向相反;(2)交叉場景 AGV路徑垂直交叉,且交叉位置在路徑中間部分;(3)十字形場景 同時包含路徑交叉與重合。
在不同場景下進(jìn)行1 000次避障實(shí)驗,每次實(shí)驗時為AGV在路徑方向的位置增加隨機(jī)擾動,使AGV的開始避障位置發(fā)生變化。分別采用本文得到的避障策略和文獻(xiàn)[15]無方向引導(dǎo)的避障策略控制AGV完成避障實(shí)驗,實(shí)驗結(jié)果如表5所示,兩種策略下的AGV避障軌跡如圖6所示,圖中不同AGV使用不同顏色標(biāo)出,從開始避障到結(jié)束,AGV軌跡的顏色由淺變深。
表5 不同場景下的避障結(jié)果
為了探究避障策略對AGV整體運(yùn)行效率的影響,本文設(shè)計了長距離運(yùn)行實(shí)驗,在實(shí)驗中AGV需要多次躲避障礙完成較長距離的運(yùn)行。實(shí)驗場景如圖7所示,實(shí)驗場景為40 m×3 m的矩形,場景中間設(shè)置0.6 m×0.6 m的矩形塊障礙,AGV需要從左端運(yùn)行到右端。設(shè)置不同密度障礙的實(shí)驗場景,障礙的間距分別為5 m、4 m、3 m,對應(yīng)的障礙數(shù)量為7個、8個、11個。
在每種場景下進(jìn)行1 000次實(shí)驗,每次實(shí)驗時隨機(jī)設(shè)置障礙物在豎直方向的位置,分別以本文策略和文獻(xiàn)[15]的策略控制AGV運(yùn)行,實(shí)驗結(jié)果如表6所示,AGV運(yùn)行軌跡如圖7所示。
表6 不同障礙密度場景下的運(yùn)行結(jié)果
經(jīng)過上述實(shí)驗測試,本文提出的局部避障方法可以為AGV規(guī)劃出有效的避障軌跡,保證AGV的無碰撞運(yùn)行,避障成功率α已達(dá)或接近100%。在單次避障實(shí)驗中,相比于不考慮后續(xù)方向引導(dǎo)的方法,本文方法使AGV在避障時偏離路徑的程度更小,可以縮短5%左右的行駛距離。
在長距離多次避障測試中,本文方法可以使AGV避障結(jié)束后的運(yùn)行方向與后續(xù)路徑方向盡可能保持一致,在障礙物密集環(huán)境下可以有效提升運(yùn)行效率,在實(shí)驗中,當(dāng)障礙物間隔為3 m時,行駛時間和距離分別縮短8.8%和10.1%。
由于是以避障時間最短為優(yōu)化目標(biāo),AGV在避障時與障礙物的間距較小,運(yùn)行軌跡對障礙的位置和形狀敏感,在現(xiàn)實(shí)中可能會因為誤差等原因?qū)е掳踩珕栴},因此后續(xù)還需針對數(shù)據(jù)誤差等問題做進(jìn)一步研究,提升方法的魯棒性。
本文針對智能工廠復(fù)雜動態(tài)環(huán)境下的AGV無沖突運(yùn)行問題,提出一種基于深度強(qiáng)化學(xué)習(xí)的局部避障路徑規(guī)劃方法。主要研究內(nèi)容包括:將局部避障路徑規(guī)劃問題表征為部分觀測馬爾可夫決策過程,考慮了后續(xù)路徑方向?qū)Ρ苷系囊龑?dǎo)作用,介紹了觀測空間、動作空間和獎勵函數(shù);設(shè)計DDPG算法求解最優(yōu)避障策略,利用多幀數(shù)據(jù)評估障礙物的運(yùn)動趨勢,使AGV可以應(yīng)對動態(tài)環(huán)境;最后設(shè)計仿真實(shí)驗對訓(xùn)練出的避障策略進(jìn)行驗證,實(shí)驗結(jié)果表明本文所提方法可以為AGV規(guī)劃出安全的行駛軌跡,相比于現(xiàn)有方法可以提升運(yùn)行效率。
本研究提出的方法是以傳感器觀測到的外部環(huán)境數(shù)據(jù)作為輸入,沒有充分考慮AGV自身的參數(shù),如尺寸、載重等,下一步的研究將盡可能全面地考慮影響避障的因素,提高AGV的避障能力。