亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        復(fù)雜動態(tài)環(huán)境下基于深度強(qiáng)化學(xué)習(xí)的AGV避障方法

        2023-02-15 06:30:56胡耀光聞敬謙張立祥
        關(guān)鍵詞:全局局部障礙

        蔡 澤,胡耀光,聞敬謙,張立祥

        (北京理工大學(xué) 工業(yè)與智能系統(tǒng)工程研究所,北京 100081)

        0 引言

        自動導(dǎo)引車(Automated Guided Vehicle, AGV)因其自動化程度高、應(yīng)用靈活等特點(diǎn)逐漸成為智能工廠物料運(yùn)輸?shù)年P(guān)鍵設(shè)備。在智能工廠中,工廠布局柔性多變、多AGV運(yùn)行相互影響,使得AGV的運(yùn)行環(huán)境更加復(fù)雜,對其動態(tài)避障能力有了更高的要求。

        AGV避障路徑規(guī)劃要求AGV以合理的方式躲避障礙,安全高效地完成運(yùn)輸任務(wù)。早期的避障路徑規(guī)劃多采用集中式方法,由一個中央服務(wù)器決定所有AGV的運(yùn)行,中央服務(wù)器可以獲取工廠環(huán)境信息和所有AGV的運(yùn)行狀態(tài),為多AGV同時規(guī)劃無碰撞的路徑[1]。集中式方法可以保證多個AGV安全運(yùn)行,并能使路徑達(dá)到近似最優(yōu),但這種方法嚴(yán)重依賴于實(shí)時通信和精準(zhǔn)的狀態(tài)感知,抗干擾和容錯能力很差,不適用于復(fù)雜環(huán)境和有人參與的場景。與集中式方法對應(yīng)的是分散式方法,分散式方法允許AGV只感知自身局部環(huán)境信息,不需要中央服務(wù)器。分散式方法中一種經(jīng)典的方法是速度障礙法[2],根據(jù)周圍環(huán)境中障礙物的信息選擇回避障礙的速度,基于此框架衍生出互惠速度障礙法(Reciprocal Velocity Obstacles, RVO)[3]、最優(yōu)互惠速度障礙法(Optimal Reciprocal Collision Avoidance, ORCA)[4]等方法,但速度障礙避障方法需要對障礙的位置、速度和形狀有精確感知,在現(xiàn)實(shí)應(yīng)用中很難實(shí)現(xiàn)。

        機(jī)器學(xué)習(xí)、大數(shù)據(jù)等人工智能技術(shù)的發(fā)展為AGV避障問題提供了新的解決方案,深度學(xué)習(xí)強(qiáng)大的表示能力與強(qiáng)化學(xué)習(xí)技術(shù)的結(jié)合,允許直接利用原始的傳感器數(shù)據(jù)動態(tài)規(guī)劃路徑[5]。基于深度強(qiáng)化學(xué)習(xí)技術(shù)的避障方法通常采用端到端的模式,以傳感器(如激光雷達(dá)、深度相機(jī)等)采集到的數(shù)據(jù)為輸入,輸出AGV的控制指令(速度、角速度、電機(jī)轉(zhuǎn)速等)[6],因為控制指令多為連續(xù)值,所以采用基于策略的算法[7]等。避障路徑規(guī)劃通常被設(shè)置為點(diǎn)到點(diǎn)的局部避障,AGV檢測到障礙后從全局路徑中選取一個路點(diǎn)作為局部目標(biāo)點(diǎn),無碰撞的運(yùn)行到此目標(biāo)點(diǎn)后視為避障結(jié)束[8]。避障過程被建立為適合強(qiáng)化學(xué)習(xí)解決的離散序列決策問題,在每個時刻根據(jù)環(huán)境的狀態(tài)決策出運(yùn)動控制指令[9]。基于以上模式,研究者開始探索在復(fù)雜環(huán)境中的避障方法。ZHU等[10]針對復(fù)雜室內(nèi)場景(如迷宮等)中局部目標(biāo)點(diǎn)難以定位的問題,將感知的第一人稱環(huán)境圖像作為輸入,引導(dǎo)AGV運(yùn)行;LONG等[11]針對多AGV場景下算法難以收斂的問題,提出多場景多階段的訓(xùn)練方法,從簡單到復(fù)雜的訓(xùn)練避障策略;CHEN等[12]考慮到人運(yùn)動的隨機(jī)性,融合多傳感器評估行人意圖,使AGV適應(yīng)不確定運(yùn)行環(huán)境。上述方法將局部避障視為點(diǎn)到點(diǎn)過程,以AGV是否到達(dá)目標(biāo)點(diǎn)一定范圍內(nèi)作為避障結(jié)束的依據(jù),該方式只關(guān)注了躲避障礙而沒有考慮局部避障規(guī)劃對后續(xù)運(yùn)行的影響,避障結(jié)束后需要繼續(xù)調(diào)整軌跡使AGV回到全局路徑,影響了AGV的運(yùn)行效率。

        因此,為解決復(fù)雜動態(tài)環(huán)境下考慮全局路徑引導(dǎo)的避障問題,本文提出一種基于深度強(qiáng)化學(xué)習(xí)的AGV局部避障路徑規(guī)劃方法。首先,將AGV避障問題表示為部分觀測馬爾可夫決策過程,詳細(xì)介紹了觀測空間、動作空間和獎勵函數(shù),在建立避障決策模型時同時考慮了路點(diǎn)位置和后續(xù)路徑方向的引導(dǎo)作用;基于建立的決策過程,開發(fā)仿真環(huán)境并采用深度確定性策略梯度算法(Deep Deterministic Policy Gradient,DDPG)訓(xùn)練避障策略。最后,進(jìn)行仿真實(shí)驗,設(shè)置多種實(shí)驗場景驗證提出方法的有效性。

        1 AGV避障問題描述與數(shù)學(xué)表征

        1.1 問題描述與假設(shè)

        在智能工廠中,設(shè)備布局柔性多變、多AGV同時執(zhí)行物料搬運(yùn)任務(wù),AGV的運(yùn)行環(huán)境更加復(fù)雜,為了安全、高效地執(zhí)行任務(wù),AGV需要有自感知與自決策能力。在運(yùn)行過程中,AGV通過安裝的傳感器實(shí)時探測周圍環(huán)境,當(dāng)檢測到附近存在障礙物時,需要自主規(guī)劃出避障路徑規(guī)避碰撞風(fēng)險[13];為完成搬運(yùn)任務(wù)AGV通常采用全局與局部相結(jié)合的路徑規(guī)劃方法,在執(zhí)行任務(wù)前先全局規(guī)劃出從起點(diǎn)到任務(wù)目標(biāo)點(diǎn)的全局路徑,在運(yùn)行過程中遇到障礙時進(jìn)行局部路徑規(guī)劃。因此,局部避障路徑規(guī)劃既要滿足無碰撞的要求,也要考慮任務(wù)的影響,在全局路徑的引導(dǎo)下完成避障。在多AGV同時運(yùn)行時,AGV需要躲避不同速度的障礙,因此局部避障路徑規(guī)劃需要具有應(yīng)對動態(tài)環(huán)境的能力。

        1.2 避障過程數(shù)學(xué)表征

        局部避障路徑規(guī)劃可以表示為在等間隔離散時間點(diǎn)的序列決策問題,AGV上安裝有感知周圍環(huán)境的激光雷達(dá),在開始時刻Ts(記時刻t=0)檢測到有障礙物進(jìn)入安全范圍,AGV進(jìn)入避障狀態(tài),從全局路徑的路點(diǎn)中選擇局部目標(biāo)點(diǎn);避障過程中,在每個時刻t(t=0,1,2,…)AGV接受傳感器感知的環(huán)境信息、自身的位置姿態(tài)、運(yùn)行速度等狀態(tài)信息以及目標(biāo)點(diǎn)的位置信息,AGV根據(jù)以上信息生成運(yùn)動控制指令并執(zhí)行,改變自身狀態(tài);每一步?jīng)Q策完成后時間推進(jìn)ΔT,進(jìn)入下一時刻t=t+1;當(dāng)AGV無碰撞的到達(dá)局部目標(biāo)點(diǎn)時完成避障,如果在該過程中與障礙物發(fā)生碰撞則避障失敗。要解決的問題是得到局部避障策略πθ,在每個時刻t以觀測到的信息為輸入,輸出運(yùn)行控制指令。

        局部避障需要滿足以下要求:①AGV在運(yùn)行過程中不與障礙物發(fā)生碰撞;②局部規(guī)劃以全局路徑作為引導(dǎo),避免過度偏離全局路徑,避障結(jié)束后的運(yùn)行方向與全局方向一致;③避障過程消耗的時間盡可能少;④確保避障路徑的平滑性與AGV運(yùn)行穩(wěn)定性,控制指令不能大幅度變化。

        無碰撞的要求表示為:在避障過程的每一個時刻t,AGV對任何障礙物都有R∩Bi=?(i=1,2,…),R表示AGV的幾何形狀,Bi為障礙物的幾何形狀。

        et=at-vt;

        (1)

        AGV在下一時刻的位置和姿態(tài)為:

        (2)

        考慮到在實(shí)際運(yùn)行中,局部目標(biāo)點(diǎn)可能與障礙重合,因此判定AGV到達(dá)目標(biāo)點(diǎn)不必嚴(yán)格要求AGV的位置與目標(biāo)點(diǎn)位置重合或接近,只需整體運(yùn)行軌跡與全局路徑一致即可。結(jié)合上述全局路徑引導(dǎo)的要求,AGV在Te時到達(dá)目標(biāo)點(diǎn)可以表示為Vte·Ve>0、ΔVte·Ve>0,即AGV在全局方向上超過目標(biāo)點(diǎn)、AGV的運(yùn)行方向與全局方向一致。對觀測信息做進(jìn)一步補(bǔ)充,加入全局路徑方向信息,同時將環(huán)境信息lt、引導(dǎo)向量Ve、位置向量Vt由全局坐標(biāo)變換到以AGV位置為原點(diǎn),以姿態(tài)方向為x軸的相對坐標(biāo)系下,新的觀測信息表示為ot=(lt,vt,Ve,Vt)。以最短時間完成避障表示最小化Te-Ts。

        綜上所述,智能工廠環(huán)境下的AGV避障問題可以轉(zhuǎn)化為不確定環(huán)境下的從開始避障到結(jié)束避障的序列決策問題,優(yōu)化目標(biāo)為:

        min(Te-Ts)。

        (3)

        決策變量為:

        at=πθ(ot)。

        (4)

        約束包括:

        Vte·Ve>0;ΔVte·Ve>0。

        (5)

        2 部分觀測馬爾可夫決策過程構(gòu)建

        為了求解最優(yōu)策略πθ,本文將局部避障問題構(gòu)建為馬爾可夫決策過程,由于觀測數(shù)據(jù)ot只來自于對應(yīng)的AGV,是對環(huán)境信息的部分觀測,該決策問題屬于部分觀測馬爾可夫決策過程(Partial Observational Markov Decision Process, POMDP)[15]。POMDP包含6個元素(S,A,P,R,Ω,O),其中:S為環(huán)境的狀態(tài)空間,包含AGV運(yùn)行環(huán)境中的所有可能狀態(tài);A為動作空間,包括對AGV的控制指令;P為狀態(tài)轉(zhuǎn)移函數(shù),表示執(zhí)行動作后狀態(tài)轉(zhuǎn)移的概率;R為獎勵函數(shù),用來評價狀態(tài)轉(zhuǎn)移過程;Ω為觀測空間(ot∈Ω);O為對環(huán)境狀態(tài)的觀測函數(shù)(ot=O(st))。在建立的模型中,AGV依據(jù)對環(huán)境的觀測決策出控制指令,因此不需要考慮環(huán)境的相關(guān)元素,下面詳細(xì)介紹避障問題中的觀測空間、動作空間與獎勵函數(shù)。

        2.1 觀測空間

        AGV在時刻t觀測到的信息ot包括周圍環(huán)境數(shù)據(jù)lt、AGV運(yùn)行速度vt、避障過程的全局路徑引導(dǎo)方向Ve以及表示AGV位置與局部目標(biāo)點(diǎn)位置的Vt,如圖2所示。lt由布置在AGV前端的激光雷達(dá)掃描產(chǎn)生,可以探測180°的平面區(qū)域,角分辨率為1°,全部的雷達(dá)探測數(shù)據(jù)維度過高,不利于計算[16],因此在每個時刻等間隔(15°)抽取13個數(shù)據(jù)(lt∈13)作為最終的輸入,雷達(dá)測距半徑為2.5 m;vt為AGV的運(yùn)行速度,由AGV行駛的線速度和角速度表示(vt∈2);Ve為表示全局路徑方向的二維向量(Ve∈2);Vt表示AGV與避障目標(biāo)點(diǎn)的位置關(guān)系,同樣由二維向量表示(Vt∈2)。

        單次觀測ot包含環(huán)境中障礙物的靜態(tài)信息(如形狀、位置等),為了提高決策的有效性,需要利用環(huán)境中的動態(tài)信息,因此使用最近的N個連續(xù)觀測值組成的觀測序列ot=(ot+(-N+1),ot+(-N+2),…,ot)推測障礙的速度、運(yùn)動趨勢等信息。觀測序列中的觀測數(shù)量越多,包含的環(huán)境信息也越充分,可以提高決策的準(zhǔn)確率,但過多的信息會影響計算的速度,對決策的時效性產(chǎn)生負(fù)面影響,綜合考慮本文取N=3,即ot=(ot-2,ot-1,ot)作為觀測序列。在開始避障的時刻t=0,觀測序列取o0=(o0,o0,o0)。

        2.2 動作空間

        2.3 獎勵函數(shù)

        局部避障路徑規(guī)劃的目標(biāo)是在無碰撞約束、全局路徑引導(dǎo)約束、軌跡平滑約束下以最短的時間完成避障。上文通過對動作進(jìn)行PID控制處理實(shí)現(xiàn)了軌跡平滑約束,下面介紹獎勵函數(shù)的設(shè)置以實(shí)現(xiàn)優(yōu)化目標(biāo)與其余兩種約束。

        本研究的獎勵函數(shù)設(shè)置為:

        (6)

        (7)

        切向獎勵根據(jù)切向距離的大小與固定獎勵成比例。

        (8)

        3 基于深度強(qiáng)化學(xué)習(xí)的避障策略求解

        局部避障問題最終需要求解得到最優(yōu)避障策略πθ(at|ot),在建立的模型中觀測狀態(tài)ot屬于高維連續(xù)輸入,輸出的動作at同樣也是連續(xù)的,因此本文采用深度強(qiáng)化學(xué)習(xí)算法中的DDPG算法[17]訓(xùn)練確定性策略,在每一步?jīng)Q策出最優(yōu)的動作。

        3.1 網(wǎng)絡(luò)結(jié)構(gòu)

        DDPG算法中包含動作(Actor)和評價(Critic)兩種神經(jīng)網(wǎng)絡(luò),分別對策略與價值近似表征。Actor網(wǎng)絡(luò)以觀測序列o為輸入,輸出動作a,控制AGV的行駛速度和方向,為AGV規(guī)劃出避障路徑,表征避障策略πθ(at|ot)[18];Critic網(wǎng)絡(luò)以觀測序列o和動作a為輸入,輸出二者的價值Q(o,a),對Actor網(wǎng)絡(luò)的決策結(jié)果進(jìn)行評價,使其能夠不斷優(yōu)化。

        本文選取決策時刻觀測數(shù)據(jù)和前兩個時刻的觀測數(shù)據(jù)組成觀測序列,以多幀序列數(shù)據(jù)作為決策所需的輸入數(shù)據(jù)。為了解決多幀序列輸入的決策問題,本文針對Actor和Critic網(wǎng)絡(luò)設(shè)計了如圖3和圖4所示的架構(gòu)。

        如圖3所示為Actor網(wǎng)絡(luò),觀測序列o被分為全局路徑方向Ve、AGV速度序列(vt-2,vt-1,vt)、雷達(dá)探測序列(lt-2,lt-1,lt)和AGV位置序列(Vt-2,Vt-1,Vt),單幀數(shù)據(jù)Ve連接全連接網(wǎng)絡(luò),3種多幀序列輸入數(shù)據(jù)按照先后順序堆疊為一維向量分別連接全連接網(wǎng)絡(luò),中間層及最后的輸出層均為全連接網(wǎng)絡(luò),Actor網(wǎng)絡(luò)的具體參數(shù)如表1所示。

        表1 Actor網(wǎng)絡(luò)參數(shù)

        如圖4所示為Critic網(wǎng)絡(luò),與Actor網(wǎng)絡(luò)類似,Critic網(wǎng)絡(luò)同樣采用數(shù)據(jù)堆疊的方法處理多幀序列輸入問題,因為Critic網(wǎng)絡(luò)是對觀測—動作(o,a)進(jìn)行評價,所以還添加了動作處理層,Critic網(wǎng)絡(luò)的具體參數(shù)如表2所示。兩種網(wǎng)絡(luò)中用到的激活函數(shù)包括:雙曲正切函數(shù)tanh(x)和relu(x)=max(0,x)。

        表2 Critic網(wǎng)絡(luò)參數(shù)

        3.2 算法流程

        DDPG算法是基于Actor-Critic(動作—評價)網(wǎng)絡(luò)的確定性策略梯度算法,算法使用經(jīng)驗回放與備份網(wǎng)絡(luò)的方法提高數(shù)據(jù)利用率與算法穩(wěn)定性。本文利用DDPG算法訓(xùn)練避障策略的流程如下:

        (1)隨機(jī)初始化Critic網(wǎng)絡(luò)Q(o,a|θQ)和Actor網(wǎng)絡(luò)μ(o|θμ),初始化參數(shù)γ(獎勵折扣因子)、τ(網(wǎng)絡(luò)更新率)、l(學(xué)習(xí)率);(2)復(fù)制Critic和Actor的網(wǎng)絡(luò)參數(shù),初始化目標(biāo)網(wǎng)絡(luò)Q′(o,a|θQ′)和μ′(o|θμ′),θQ′←θQ,θμ′←θμ;(3)初始化經(jīng)驗存儲池,容量為P,設(shè)置經(jīng)驗采樣數(shù)M(M≤P),設(shè)置訓(xùn)練回合數(shù)E;(4)訓(xùn)練E次:

        1)初始化策略探索噪聲aN;

        2)AGV檢測到障礙物,進(jìn)入避障狀態(tài),時間步t=0,獲取雷達(dá)掃描數(shù)據(jù)、AGV運(yùn)行速度、全局路徑方向以及AGV位置向量,構(gòu)建初始觀測ot=o0;

        5)向經(jīng)驗池中存入狀態(tài)轉(zhuǎn)移過程(ot,at,rt+1,ot+1,isDone);

        6)從經(jīng)驗池中隨機(jī)抽取M個狀態(tài)轉(zhuǎn)移過程;

        7)使用兩種目標(biāo)網(wǎng)絡(luò)Q′(o,a|θQ′)和μ′(o|θμ′)計算觀測—動作的目標(biāo)價值yi,

        yi=ri+1+γQ′(oi+1,μ′(oi+1|θμ′)|θQ′)

        8)采用梯度下降方法以學(xué)習(xí)率l更新Critic網(wǎng)絡(luò),目標(biāo)是最小化對價值的評價誤差,使Critic對價值的估計更準(zhǔn)確,損失函數(shù)為:

        9)采用梯度上升方法以學(xué)習(xí)率l更新Actor網(wǎng)絡(luò),目標(biāo)是最大化價值,使Actor選擇更好的動作,損失函數(shù)為:

        10)更新目標(biāo)網(wǎng)絡(luò)

        θQ′←τθQ+(1-τ)θQ′

        θμ′←τθμ+(1-τ)θμ′

        11)時間步更新t=t+1;

        12)重復(fù)步驟3)~步驟11),直到避障結(jié)束,此回合結(jié)束。

        (5)訓(xùn)練結(jié)束。

        在上述算法的每一回合中,Actor網(wǎng)絡(luò)表示避障策略,輸入觀測o,輸出控制指令at,在對at處理后由仿真環(huán)境中的AGV執(zhí)行,AGV根據(jù)at改變自身位置和速度,仿真環(huán)境根據(jù)式(6)計算相應(yīng)的獎勵rt+1,并產(chǎn)生新的觀測ot+1,同時判斷是否完成了避障(isDone)。每一步可以表示為一個狀態(tài)轉(zhuǎn)移過程(ot,at,rt+1,ot+1,isDone),并將其存入經(jīng)驗池中。當(dāng)經(jīng)驗池中積累了足夠多的狀態(tài)轉(zhuǎn)移過程后即可用來更新網(wǎng)絡(luò)參數(shù),優(yōu)化網(wǎng)絡(luò)。

        算法中的相關(guān)參數(shù)如表3所示:

        表3 算法參數(shù)設(shè)置

        3.3 避障策略訓(xùn)練

        本文使用編程語言Python 3.8搭建仿真環(huán)境,實(shí)現(xiàn)了AGV狀態(tài)更新、雷達(dá)感知、AGV碰撞檢測等功能,模擬AGV運(yùn)行,使用Pytorch 1.9開發(fā)包編寫DDPG算法,硬件采用AMD Ryzen7-4800處理器和RTX 2060顯卡。

        在訓(xùn)練避障策略時,每個回合隨機(jī)設(shè)置靜態(tài)障礙、AGV的引導(dǎo)路徑及AGV的初始避障狀態(tài)(包括位置、姿態(tài)、線速度、角速度),設(shè)置多臺AGV同時運(yùn)行,每臺AGV與環(huán)境交互生成經(jīng)驗并利用DDPG算法訓(xùn)練避障策略,同時也作為其他AGV運(yùn)行時的動態(tài)障礙。策略訓(xùn)練仿真環(huán)境的相關(guān)參數(shù)如表4所示。

        表4 避障策略訓(xùn)練環(huán)境參數(shù)設(shè)置

        基于構(gòu)建的仿真環(huán)境和3.2節(jié)的算法流程訓(xùn)練避障策略,訓(xùn)練過程中每個回合得到的獎勵值如圖5所示。由圖5可以看到,訓(xùn)練后期可以獲得較大獎勵且獎勵值保持平穩(wěn)趨勢,表明算法已經(jīng)收斂。策略訓(xùn)練時每回合的障礙分布和多AGV狀態(tài)隨機(jī)設(shè)置,因此獎勵值會出現(xiàn)微小波動。

        4 仿真實(shí)驗與分析

        本文提出的方法在避障時考慮了后續(xù)路徑方向的引導(dǎo)作用,因此對避障策略的避障性能與整體運(yùn)行效率進(jìn)行實(shí)驗分析,并與現(xiàn)有的只以目標(biāo)點(diǎn)作為引導(dǎo),不考慮后續(xù)方向的策略[15]進(jìn)行對比?;?.3節(jié)介紹的仿真環(huán)境開展單次避障與長距離多次避障實(shí)驗。

        4.1 評價指標(biāo)

        本文采用以下3種指標(biāo)對避障性能和效率進(jìn)行評價:

        (1)成功率αAGV成功完成避障次數(shù)占總避障次數(shù)的比率;(2)額外時間比teAGV完成避障消耗的時間除以預(yù)期時間,預(yù)期時間指AGV在無障礙環(huán)境下以最大速度到達(dá)目標(biāo)點(diǎn)所需時間;

        (3)額外距離比deAGV避障過程的行駛距離除以預(yù)期距離,預(yù)期距離指避障起始點(diǎn)到目標(biāo)點(diǎn)的路徑距離。

        4.2 單次避障測試

        在實(shí)際應(yīng)用中,當(dāng)AGV之間的路徑重合或者交叉時即有碰撞風(fēng)險[20],本文設(shè)計了交替、交叉以及十字形3種實(shí)驗場景,場景中包含4臺AGV,如圖6所示。

        (1)交替場景 AGV路徑重合,兩端的AGV運(yùn)行方向相反;(2)交叉場景 AGV路徑垂直交叉,且交叉位置在路徑中間部分;(3)十字形場景 同時包含路徑交叉與重合。

        在不同場景下進(jìn)行1 000次避障實(shí)驗,每次實(shí)驗時為AGV在路徑方向的位置增加隨機(jī)擾動,使AGV的開始避障位置發(fā)生變化。分別采用本文得到的避障策略和文獻(xiàn)[15]無方向引導(dǎo)的避障策略控制AGV完成避障實(shí)驗,實(shí)驗結(jié)果如表5所示,兩種策略下的AGV避障軌跡如圖6所示,圖中不同AGV使用不同顏色標(biāo)出,從開始避障到結(jié)束,AGV軌跡的顏色由淺變深。

        表5 不同場景下的避障結(jié)果

        4.3 長距離多次避障測試

        為了探究避障策略對AGV整體運(yùn)行效率的影響,本文設(shè)計了長距離運(yùn)行實(shí)驗,在實(shí)驗中AGV需要多次躲避障礙完成較長距離的運(yùn)行。實(shí)驗場景如圖7所示,實(shí)驗場景為40 m×3 m的矩形,場景中間設(shè)置0.6 m×0.6 m的矩形塊障礙,AGV需要從左端運(yùn)行到右端。設(shè)置不同密度障礙的實(shí)驗場景,障礙的間距分別為5 m、4 m、3 m,對應(yīng)的障礙數(shù)量為7個、8個、11個。

        在每種場景下進(jìn)行1 000次實(shí)驗,每次實(shí)驗時隨機(jī)設(shè)置障礙物在豎直方向的位置,分別以本文策略和文獻(xiàn)[15]的策略控制AGV運(yùn)行,實(shí)驗結(jié)果如表6所示,AGV運(yùn)行軌跡如圖7所示。

        表6 不同障礙密度場景下的運(yùn)行結(jié)果

        4.4 實(shí)驗結(jié)果分析

        經(jīng)過上述實(shí)驗測試,本文提出的局部避障方法可以為AGV規(guī)劃出有效的避障軌跡,保證AGV的無碰撞運(yùn)行,避障成功率α已達(dá)或接近100%。在單次避障實(shí)驗中,相比于不考慮后續(xù)方向引導(dǎo)的方法,本文方法使AGV在避障時偏離路徑的程度更小,可以縮短5%左右的行駛距離。

        在長距離多次避障測試中,本文方法可以使AGV避障結(jié)束后的運(yùn)行方向與后續(xù)路徑方向盡可能保持一致,在障礙物密集環(huán)境下可以有效提升運(yùn)行效率,在實(shí)驗中,當(dāng)障礙物間隔為3 m時,行駛時間和距離分別縮短8.8%和10.1%。

        由于是以避障時間最短為優(yōu)化目標(biāo),AGV在避障時與障礙物的間距較小,運(yùn)行軌跡對障礙的位置和形狀敏感,在現(xiàn)實(shí)中可能會因為誤差等原因?qū)е掳踩珕栴},因此后續(xù)還需針對數(shù)據(jù)誤差等問題做進(jìn)一步研究,提升方法的魯棒性。

        5 結(jié)束語

        本文針對智能工廠復(fù)雜動態(tài)環(huán)境下的AGV無沖突運(yùn)行問題,提出一種基于深度強(qiáng)化學(xué)習(xí)的局部避障路徑規(guī)劃方法。主要研究內(nèi)容包括:將局部避障路徑規(guī)劃問題表征為部分觀測馬爾可夫決策過程,考慮了后續(xù)路徑方向?qū)Ρ苷系囊龑?dǎo)作用,介紹了觀測空間、動作空間和獎勵函數(shù);設(shè)計DDPG算法求解最優(yōu)避障策略,利用多幀數(shù)據(jù)評估障礙物的運(yùn)動趨勢,使AGV可以應(yīng)對動態(tài)環(huán)境;最后設(shè)計仿真實(shí)驗對訓(xùn)練出的避障策略進(jìn)行驗證,實(shí)驗結(jié)果表明本文所提方法可以為AGV規(guī)劃出安全的行駛軌跡,相比于現(xiàn)有方法可以提升運(yùn)行效率。

        本研究提出的方法是以傳感器觀測到的外部環(huán)境數(shù)據(jù)作為輸入,沒有充分考慮AGV自身的參數(shù),如尺寸、載重等,下一步的研究將盡可能全面地考慮影響避障的因素,提高AGV的避障能力。

        猜你喜歡
        全局局部障礙
        Cahn-Hilliard-Brinkman系統(tǒng)的全局吸引子
        量子Navier-Stokes方程弱解的全局存在性
        局部分解 巧妙求值
        非局部AB-NLS方程的雙線性B?cklund和Darboux變換與非線性波
        睡眠障礙,遠(yuǎn)不是失眠那么簡單
        落子山東,意在全局
        金橋(2018年4期)2018-09-26 02:24:54
        跨越障礙
        局部遮光器
        吳觀真漆畫作品選
        多導(dǎo)睡眠圖在睡眠障礙診斷中的應(yīng)用
        亚洲成人av一二三四区| 亚洲欧美日韩精品高清| 天天躁日日躁狠狠躁| 欧美一区二区三区视频在线观看| 国产超碰人人爽人人做人人添| 无遮挡边摸边吃奶边做视频免费| 亚洲成色www久久网站夜月| www插插插无码免费视频网站| 亚洲深深色噜噜狠狠爱网站| 真人男女做爰无遮挡免费视频| 加勒比无码专区中文字幕| 国产欧美另类精品久久久| 自慰高潮网站在线观看| 精品视频在线观看一区二区有| 亚洲日本在线中文字幕| 久久老熟女乱色一区二区| 91精品亚洲熟妇少妇| 伊人狼人激情综合影院| 日韩不卡一区二区三区色图| 亚洲免费一区二区三区四区| 亚洲国产国语在线对白观看| 久久久久99精品成人片欧美| 国产精品毛片va一区二区三区| 东北少妇不带套对白| 国产成人精品一区二区不卡| 狼色精品人妻在线视频| 亚洲国产精品久久久久久网站| 99久久久精品免费| 强d乱码中文字幕熟女1000部| 国产一区二区三区在线观看蜜桃| 毛片成人18毛片免费看| 国产毛片av一区二区| 国产精品久久精品第一页| 99精品国产在热久久无码| 蜜桃麻豆www久久囤产精品| 色婷婷欧美在线播放内射| 日本理论片一区二区三区| 国产免费的视频一区二区| 精品一区二区三区人妻久久福利| 日韩中文字幕有码午夜美女| 欧洲多毛裸体xxxxx|