亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        移動(dòng)機(jī)器人優(yōu)先采樣D3QN路徑規(guī)劃方法研究

        2023-05-12 12:31:28張莉莉顧琦然呂佳琪
        關(guān)鍵詞:移動(dòng)機(jī)器人環(huán)境

        袁 帥,張莉莉,顧琦然,張 鳳,呂佳琪

        1(沈陽(yáng)建筑大學(xué) 信息與控制工程學(xué)院,沈陽(yáng) 110168) 2(中國(guó)科學(xué)院 沈陽(yáng)自動(dòng)化研究所,沈陽(yáng) 110016)

        1 引 言

        路徑規(guī)劃是指機(jī)器人可以在不碰撞的情況下從初始位置移動(dòng)到目標(biāo)位置規(guī)劃最優(yōu)路徑.傳統(tǒng)的路徑方法是將路徑規(guī)劃問(wèn)題轉(zhuǎn)化為搜索或最優(yōu)問(wèn)題,其缺點(diǎn)是較為依賴先驗(yàn)知識(shí),實(shí)時(shí)性和靈活性不高,并不適用未知環(huán)境.強(qiáng)化學(xué)習(xí)基于馬爾可夫決策過(guò)程(Markov Decision Process,MDP),通過(guò)與環(huán)境不斷交互學(xué)習(xí)和訓(xùn)練的方式,規(guī)劃出移動(dòng)機(jī)器人的實(shí)時(shí)路徑.將深度學(xué)習(xí)(Deep Learning,DL)和強(qiáng)化學(xué)習(xí)(Deep Learning,DL)各自的優(yōu)勢(shì)相結(jié)合就是深度強(qiáng)化學(xué)習(xí)(Deep Reinforcement Learning,DRL),其中深度學(xué)習(xí)對(duì)高維狀態(tài)空間進(jìn)行特征提取,與環(huán)境不斷交互,強(qiáng)化學(xué)習(xí)對(duì)移動(dòng)機(jī)器人的決策控制,既滿足機(jī)器人的移動(dòng)要求又解決大規(guī)模環(huán)境下的規(guī)劃問(wèn)題,且DRL已逐漸成為實(shí)現(xiàn)室內(nèi)機(jī)器人路徑規(guī)劃的方案之一[1].

        深度強(qiáng)化學(xué)習(xí)最初在游戲仿真領(lǐng)域應(yīng)用,后來(lái)逐漸應(yīng)用于機(jī)器人導(dǎo)航、調(diào)度與優(yōu)化等領(lǐng)域,被認(rèn)為是人工智能(Artificial General Intelligence,AGI)的重要方向之一.DeepMind于2013年提出了深度Q網(wǎng)絡(luò)(DeepQ-Network,DQN),將CNN與Q-learning結(jié)合提出端到端的控制策略模型,在Atari 游戲中進(jìn)行完美驗(yàn)證[2].2015年再次提出Nature DQN 算法,因出色的表現(xiàn)奠定其地位,深度強(qiáng)化學(xué)習(xí)的研究熱潮正式開(kāi)始[3].

        在移動(dòng)機(jī)器人路徑規(guī)劃領(lǐng)域應(yīng)用最為廣泛的深度強(qiáng)化學(xué)習(xí)算法是DQN算法.傳統(tǒng)的DQN算法存在以下問(wèn)題:1)過(guò)估計(jì)問(wèn)題,即動(dòng)作選擇和計(jì)算Q值采用同一網(wǎng)絡(luò)模型參數(shù),導(dǎo)致選擇過(guò)高的估計(jì)值,獲取不太精確的Q值函數(shù),出現(xiàn)過(guò)多的無(wú)效迭代訓(xùn)練過(guò)程,降低訓(xùn)練速度;2)樣本利用率低,即在回放經(jīng)驗(yàn)池中進(jìn)行重采樣數(shù)據(jù)訓(xùn)練,原本的隨機(jī)采樣機(jī)制會(huì)導(dǎo)致訓(xùn)練樣本種類比較單一,進(jìn)而導(dǎo)致移動(dòng)機(jī)器人對(duì)環(huán)境探索率較低,易獲取局部最優(yōu)解,降低訓(xùn)練速度.

        針對(duì)以上問(wèn)題,很多學(xué)者提出了各種基于DQN的改進(jìn)算法.文獻(xiàn)[4]提出了基于動(dòng)態(tài)融合目標(biāo)的DTDQN方法,將DQN與Sarsa算法的思想結(jié)合,有效地解決了值函數(shù)過(guò)估計(jì)問(wèn)題,提高訓(xùn)練速度.文獻(xiàn)[5]提出了利用原始圖像獲取最優(yōu)動(dòng)作,解決了過(guò)估計(jì)問(wèn)題,保證機(jī)器人能夠避障到達(dá)目標(biāo)位置;文獻(xiàn)[6]提出一個(gè)更正函數(shù)對(duì)評(píng)價(jià)函數(shù)進(jìn)行改進(jìn),使得最優(yōu)Q值與非最優(yōu)Q值的差異增大,減少過(guò)估計(jì)的影響;文獻(xiàn)[7]提出一種探索噪音的EN-DQN方法,加入改進(jìn)的LSTM單元,該算法大大提高了機(jī)器人的訓(xùn)練速度;文獻(xiàn)[8]基于DDQN方法,利用壓縮的全局環(huán)境地圖與代理附近的裁剪但未壓縮的局部地圖相結(jié)合,該算法提高了訓(xùn)練速度.文獻(xiàn)[9]提出一種動(dòng)態(tài)實(shí)時(shí)融合的DDQN方法,通過(guò)先驗(yàn)知識(shí)和調(diào)整權(quán)重進(jìn)行網(wǎng)絡(luò)參數(shù)訓(xùn)練,減少過(guò)估計(jì)來(lái)保證所選策略最優(yōu).文獻(xiàn)[10]提出動(dòng)態(tài)目標(biāo) DTDDQN的算法,將 DDQN與平均 DQN 算法相結(jié)合,改進(jìn)網(wǎng)絡(luò)參數(shù),解決了過(guò)估計(jì)的問(wèn)題.

        對(duì)于樣本利用較低的問(wèn)題,文獻(xiàn)[11]將深度圖像作為輸入,將繼承特征的導(dǎo)航策略遷移到未知環(huán)境中,提高樣本利用率;文獻(xiàn)[12]提出了樣本存儲(chǔ)的DQN方法,利用回放池存儲(chǔ)網(wǎng)絡(luò)數(shù)據(jù)來(lái)解決采樣效率低的問(wèn)題,并通過(guò)仿真環(huán)境和真實(shí)環(huán)境分析驗(yàn)證了算法的有效性;文獻(xiàn)[13]提出二次主動(dòng)采樣方法,從序列累積回報(bào)和TD-error兩部分選擇樣本,用兩次采樣得到的樣本訓(xùn)練獲取最優(yōu)策略;文獻(xiàn)[14]提出了狀態(tài)值再利用的RSV-Dueling DQN方法,將獎(jiǎng)勵(lì)值標(biāo)準(zhǔn)化后再與 Dueling-DQN 得到的Q值進(jìn)行結(jié)合,提高了樣本利用率.文獻(xiàn)[15]提出一種改進(jìn)NDQN方法,加入了差值增長(zhǎng)概念,利用改正函數(shù)提高樣本利用率;文獻(xiàn)[16]提出了一種改進(jìn)的DQN算法,創(chuàng)建一個(gè)體驗(yàn)價(jià)值評(píng)價(jià)網(wǎng)絡(luò),利用并行結(jié)構(gòu)增大對(duì)其他點(diǎn)的探索,提高樣本的利用率.文獻(xiàn)[17]提出一種結(jié)合LSTM強(qiáng)化學(xué)習(xí)路徑規(guī)劃算法.以環(huán)境圖像作為輸入,利用自動(dòng)編碼器對(duì)環(huán)境圖像特征降維,降低了模型的復(fù)雜程度,提高了算法穩(wěn)定性.上述對(duì)DQN算法的改進(jìn)在一定程度上提高了算法性能,但是依然存在因樣本數(shù)據(jù)過(guò)大而導(dǎo)致收斂速度過(guò)慢的問(wèn)題.

        針對(duì)以上問(wèn)題,本文提出D3QN-PER端到端模型的路徑規(guī)劃方法.首先,在模型感知端上加入LSTM,將障礙物狀態(tài)向量輸入到 LSTM 網(wǎng)絡(luò),采用遺忘門選擇障礙物的關(guān)鍵信息;然后,采用優(yōu)先經(jīng)驗(yàn)回放機(jī)制,抽取有利的樣本進(jìn)行訓(xùn)練.最后驗(yàn)證算法,通過(guò)Gym-breakout游戲測(cè)試進(jìn)行初步測(cè)驗(yàn),再采用Ros-Gazebo平臺(tái)設(shè)置3個(gè)不同復(fù)雜程度的仿真環(huán)境依次進(jìn)行訓(xùn)練,分別對(duì)D3QN-PER、D3QN、DDQN、DQN這4種算法進(jìn)行比較,實(shí)驗(yàn)結(jié)果表明D3QN-PER算法與其他3種方法相比,收斂速度和到達(dá)目標(biāo)點(diǎn)成功率P均得到大幅度提升,可證明該方法在未知環(huán)境中可以更好地獲取最優(yōu)路徑,對(duì)未知環(huán)境的路徑規(guī)劃具有一定研究意義.

        2 深度強(qiáng)化學(xué)習(xí)方法

        2.1 Double DQN

        DRL 是一種通用性的感知與控制系統(tǒng).Q-learning的更新公式為:

        (1)

        (2)

        2.2 Dueling DQN

        機(jī)器人通過(guò)觀測(cè)獲得環(huán)境數(shù)據(jù),將環(huán)境數(shù)據(jù)作為輸入數(shù)據(jù),先通過(guò)神經(jīng)網(wǎng)絡(luò)對(duì)數(shù)據(jù)進(jìn)行分析,在當(dāng)前網(wǎng)絡(luò)中輸出最大Q值,目標(biāo)網(wǎng)絡(luò)中輸出最優(yōu)動(dòng)作Q值,因?yàn)橹貜?fù)計(jì)算最優(yōu)動(dòng)作的Q值,易產(chǎn)生獎(jiǎng)勵(lì)偏置問(wèn)題(reward-bias),因此利用Dueling DQN[19]的思想,引入競(jìng)爭(zhēng)網(wǎng)絡(luò),分別平衡當(dāng)前網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)中動(dòng)作對(duì)Q值的影響,去除獎(jiǎng)勵(lì)偏差,最后輸出每個(gè)動(dòng)作的Q值,競(jìng)爭(zhēng)網(wǎng)絡(luò)Q值計(jì)算公式如下:

        Q(s,a;θ,?,β)=νη(fξ(s))+

        (3)

        3 D3QN-PER算法

        本文采用基于D3QN-PER的路徑規(guī)劃算法.如圖1所示為D3QN-PER模型結(jié)構(gòu).

        如圖2移動(dòng)機(jī)器人路徑規(guī)劃流程所示.將激光傳感器收集障礙物So送入模型感知端的LSTM中提取障礙物特征,轉(zhuǎn)換同維度的向量和機(jī)器人狀態(tài)Sr輸入至D3QN-PER網(wǎng)絡(luò)中,計(jì)算Q值得到當(dāng)前動(dòng)作A,并根據(jù)獲取的獎(jiǎng)勵(lì)R評(píng)估動(dòng)作A的好壞.機(jī)器人進(jìn)入下一個(gè)狀態(tài),并將當(dāng)前數(shù)(s,s′,a,r)存儲(chǔ)到緩存回放池中,通過(guò)小批量數(shù)據(jù)進(jìn)行優(yōu)先重要性采樣訓(xùn)練,循環(huán)迭代更新網(wǎng)絡(luò)參數(shù),直至訓(xùn)練完成,通過(guò)不斷循環(huán)以上過(guò)程,以累積獎(jiǎng)勵(lì)值reward最大化為目標(biāo),直至得到最優(yōu)動(dòng)作值函數(shù)Q*(s,a)對(duì)應(yīng)的最優(yōu)動(dòng)作.

        圖1 D3QN-PER模型結(jié)構(gòu)Fig.1 D3QN-PER model structure diagram

        圖2 移動(dòng)機(jī)器人路徑規(guī)劃流程Fig.2 Flow chart of mobile robot path planning

        3.1 長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)

        強(qiáng)化學(xué)習(xí)可視為無(wú)后效性的馬爾可夫過(guò)程,即系統(tǒng)的當(dāng)前狀態(tài)只與前一時(shí)刻狀態(tài)有關(guān),而與更早的狀態(tài)無(wú)關(guān).長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Long Short Term, LSTM)是一種循環(huán)網(wǎng)絡(luò)結(jié)構(gòu),使機(jī)器人具有長(zhǎng)期記憶功能,接受任意長(zhǎng)度的序列輸出固定大小向量.如圖3 LSTM處理模型圖所示,因此把障礙物信息So看作是一個(gè)輸入序列,在每一個(gè)決策步驟中,將每一個(gè)障礙物狀態(tài)S輸入一個(gè)LSTM單元,LSTM最初處于空狀態(tài),接受So1經(jīng)過(guò)遺忘門提取關(guān)鍵信息,存儲(chǔ)在h1,依此類推.當(dāng)移動(dòng)機(jī)器人的障礙物信息So被輸入時(shí),使用h存儲(chǔ)相關(guān)信息,并舍棄不太重要的部分.在輸入所有障礙物的狀態(tài)信息后,可以將存儲(chǔ)在LSTM狀態(tài)信息的維度轉(zhuǎn)換為統(tǒng)一維度的狀態(tài)向量So,用于之后的決策控制.障礙物狀態(tài)So作為輸入數(shù)據(jù),經(jīng)過(guò)LSTM網(wǎng)絡(luò)處理后,得到統(tǒng)一大小的障礙物狀態(tài)So,再和移動(dòng)機(jī)器人自身狀態(tài)Sr結(jié)合,輸送到D3QN網(wǎng)絡(luò)的輸入端,經(jīng)過(guò)全連接層等處理,最后輸出狀態(tài)空間和離散動(dòng)作空間組成的動(dòng)作值函數(shù)Q(s,a).

        圖3 LSTM處理模型圖Fig.3 LSTM processing model diagram

        圖3中的虛線部分是LSTM的內(nèi)部結(jié)構(gòu).LSTM利用3個(gè)“門”機(jī)制決定信息的去留.丟棄的信息由遺忘門確定,讀取上一個(gè)LSTM單元的輸出ht-1和當(dāng)前LSTM單元的輸入xt,通過(guò)sigmoid激活函數(shù)過(guò)濾的信息輸出到ft.輸入門存放過(guò)濾后的新信息,sigmoid函數(shù)更新信息it;輸出門利用tanh激活函數(shù)輸出候選值向量mt;新信息it×mt加上歷史狀態(tài)的細(xì)胞ct-1×ft完成細(xì)胞更新.輸出門輸出ht值,首先sigmoid函數(shù)輸出ot,再與tanh函數(shù)輸出的ct相乘,輸出ht.LSTM各單元門的工作原理如式(4)~式(7)所示:

        zt=σ(Wz·[ht-1,xt])

        (4)

        rt=σ(Wr·[ht-1,xt])

        (5)

        (6)

        (7)

        3.2 優(yōu)先經(jīng)驗(yàn)回放機(jī)制

        由于使用均勻采樣方法無(wú)法區(qū)分樣本的重要性,經(jīng)驗(yàn)回放池的內(nèi)存有限,造成采樣低效性.因此對(duì)學(xué)習(xí)幫助的數(shù)據(jù)增加采樣頻率,學(xué)習(xí)無(wú)幫助的數(shù)據(jù)減少采樣頻率,提高學(xué)習(xí)效率.本文提出基于時(shí)間差分誤差(TD-error)改進(jìn)的優(yōu)先經(jīng)驗(yàn)回放機(jī)制.時(shí)間差分誤差計(jì)算如公式如下:

        (8)

        εj是DQN網(wǎng)絡(luò)中的時(shí)間差分誤差,將最近的時(shí)間差分誤差絕對(duì)值作為歷史經(jīng)驗(yàn)軌跡進(jìn)行采樣的概率P,時(shí)間差分誤差越大,預(yù)測(cè)精度的上升空間就越大,表明基于該樣本的學(xué)習(xí)能夠獲得更好的提升效果,其優(yōu)先級(jí)P應(yīng)越高.

        (9)

        當(dāng)α決定使用優(yōu)先級(jí),α=0是均勻隨機(jī)采樣.基于比例優(yōu)先級(jí)采樣的公式如下,其中參數(shù)σ防止出現(xiàn)緩存采樣記憶單元概率為0的情況.

        Pj=|εj|+σ

        (10)

        基于均勻采樣公式如式(11)所示,一般轉(zhuǎn)移樣本的重要性與樣本采樣的概率,即超參數(shù)ω決定概率分布情況.

        (11)

        (12)

        ωi為轉(zhuǎn)移樣本i的權(quán)重,β用于調(diào)節(jié)偏差程度.該機(jī)制通過(guò)調(diào)節(jié)權(quán)重ω的大小保證優(yōu)先更新重要性高的轉(zhuǎn)移樣本,以一定概率更新重要性較低的轉(zhuǎn)移樣本同時(shí)保證樣本的多樣性,提高網(wǎng)絡(luò)的訓(xùn)練效率.

        4 實(shí)驗(yàn)結(jié)果及分析

        4.1 基本環(huán)境

        強(qiáng)化學(xué)習(xí)最初利用游戲仿真驗(yàn)證其學(xué)習(xí)性能.因此,本文搭建Gym平臺(tái)中breakout游戲環(huán)境.對(duì)DQN、DDQN、D3QN、D3QN-PER方法分別比較,驗(yàn)證其學(xué)習(xí)性能.配置是TensorflowGPU1.15、Python3.6、OpenCV4.5等.

        4.1.1 breakout游戲環(huán)境

        在游戲環(huán)境中,擋板在屏幕范圍內(nèi)可以向左或右移動(dòng).其中累積消除的磚塊越多,分?jǐn)?shù)越高,即代表算法的學(xué)習(xí)性能越好.

        圖4 卷積神經(jīng)網(wǎng)絡(luò)圖Fig.4 Convolutional neural network diagram

        如圖4卷積神經(jīng)網(wǎng)絡(luò)圖,首先將預(yù)處理后連續(xù)4幀的80×80的灰度圖像作為神經(jīng)網(wǎng)絡(luò)的輸入,感知游戲環(huán)境的動(dòng)態(tài)性,經(jīng)過(guò)3層卷積層處理輸出10×10×64的特征張量,經(jīng)過(guò)reshape成為1×512的一維向量,經(jīng)過(guò)全連接層最終輸出5個(gè)神經(jīng)元即輸出值的大小對(duì)應(yīng)不同動(dòng)作的Q值.

        4.1.2 結(jié)果與分析

        如圖5所示,可以看出D3QN-PER方法與其余3種算法相比,收斂速度較快.如圖 6所示,可以看出D3QN-PER的AverageScore明顯高過(guò)其余3種方法,其AverageScore是DQN算法的2倍.一般來(lái)說(shuō),收斂速度越快,其對(duì)應(yīng)機(jī)器人在更少迭代次數(shù)學(xué)習(xí)性能越好;平均累積獎(jiǎng)勵(lì)值越多,其對(duì)應(yīng)機(jī)器人到達(dá)目標(biāo)點(diǎn)的次數(shù)越多;因此,表明D3QN-PER算法具有更好的學(xué)習(xí)能力,能更快更好地在未知環(huán)境中獲取最優(yōu)路徑.

        圖5 Breakout游戲仿真平均損失函數(shù)值Fig.5 Breakout game simulation average loss function value

        圖6 Breakout游戲仿真平均獎(jiǎng)勵(lì)值Fig.6 Breakout game simulation average reward value

        評(píng)價(jià)指標(biāo)是平均累積獎(jiǎng)勵(lì)A(yù)verageScore,平均損失函數(shù)值A(chǔ)verageLoss.實(shí)驗(yàn)參數(shù)在表1中給出.

        (13)

        (14)

        表1 Breakout游戲仿真實(shí)驗(yàn)參數(shù)

        4.2 仿真實(shí)驗(yàn)

        仿真實(shí)驗(yàn):因?yàn)樯疃葟?qiáng)化學(xué)習(xí)需要大量訓(xùn)練數(shù)據(jù),實(shí)際實(shí)驗(yàn)中可能對(duì)硬件設(shè)備有損壞,因此大多數(shù)采用仿真環(huán)境訓(xùn)練的.本文使用稀疏激光測(cè)距結(jié)果作為輸入,以減少機(jī)器人在仿真世界和現(xiàn)實(shí)之間的可觀察差異.

        實(shí)驗(yàn)環(huán)境為TensorFlow框架,Python3.6,Gazebo7.0,使用Turtlebot3 burger雙輪機(jī)器人在ROS-Gazebo搭建仿真環(huán)境中進(jìn)行訓(xùn)練.Turtlebot3 burger 機(jī)器人根據(jù)在移動(dòng)過(guò)程中獲得實(shí)時(shí)位置,通過(guò)與實(shí)時(shí)位置的距離判斷當(dāng)前狀態(tài),將激光傳感器收集到坐標(biāo)數(shù)據(jù)作為輸入,輸出相應(yīng)動(dòng)作,通過(guò)激光測(cè)距傳感器來(lái)實(shí)現(xiàn)路徑規(guī)劃.設(shè)置的動(dòng)作空間包括5個(gè)動(dòng)作:向前移動(dòng),向右或向右轉(zhuǎn)動(dòng),向左或向左轉(zhuǎn)動(dòng).

        圖7 仿真環(huán)境1-3Fig.7 Simulation environment 1-3

        首先構(gòu)建了3個(gè)復(fù)雜程度不同的室內(nèi)環(huán)境進(jìn)行訓(xùn)練,驗(yàn)證D3QN-PER和DQN、DDQN、D3QN4種算法的性能.如圖7所示,3個(gè)不同仿真實(shí)驗(yàn)環(huán)境,環(huán)境的復(fù)雜程度依次遞增,實(shí)驗(yàn)環(huán)境1有四面墻封閉無(wú)障礙物的環(huán)境,首先移動(dòng)機(jī)器人進(jìn)行訓(xùn)練,讓其具備到達(dá)目標(biāo)點(diǎn)和躲避墻壁障礙的能力.實(shí)驗(yàn)環(huán)境2是在環(huán)境1的基礎(chǔ)上加入4個(gè)位置相對(duì)規(guī)律的圓柱體障礙物,訓(xùn)練機(jī)器人具備躲避靜態(tài)障礙物的能力.實(shí)驗(yàn)環(huán)境3是在環(huán)境2的基礎(chǔ)上增加4個(gè)的正方體障礙物,這些障礙物分布密集且沒(méi)有規(guī)律,加大了移動(dòng)機(jī)器人路徑規(guī)劃的難度,可以進(jìn)一步驗(yàn)證算法性能.本實(shí)驗(yàn)中使用機(jī)器人是Turtlebot3中burger雙輪機(jī)器人,使用稀疏24維的激光測(cè)距結(jié)果和相對(duì)目標(biāo)位置來(lái)完成路徑規(guī)劃任務(wù),而不會(huì)發(fā)生碰撞.在每次回合更新時(shí),目標(biāo)位置在整個(gè)區(qū)域內(nèi)隨機(jī)初始化,并且與障礙物的位置不相同.

        D3QN-PER 方法參數(shù)設(shè)置如表 2所示,其中探索因子ε范圍在(0.1,1)線性遞減.神經(jīng)網(wǎng)絡(luò)中采用均方根的隨機(jī)梯度下降方法更新參數(shù),每次從回放池中抽mini-batch=64的樣本更新網(wǎng)絡(luò).

        表2 仿真環(huán)境1-3實(shí)驗(yàn)參數(shù)Table 2 Simulation environment 1-3 experimental parameters

        獎(jiǎng)勵(lì)值函數(shù)設(shè)置如下所示:

        (15)

        獎(jiǎng)勵(lì)函數(shù)設(shè)置包括正負(fù)獎(jiǎng)勵(lì),目標(biāo)點(diǎn)設(shè)置為單位為1的紅色正方形,安全距離閾值為0.2m,移動(dòng)機(jī)器人在安全距離閾值范圍到達(dá)目標(biāo)位置,可認(rèn)定是到達(dá)目標(biāo)位置,獲取正向獎(jiǎng)勵(lì)值+200,一直訓(xùn)練直至超時(shí)或發(fā)生碰撞,進(jìn)入下一回合;障礙物設(shè)置為尺寸統(tǒng)一的圓柱體、正方體,及可擬作為實(shí)際環(huán)境中墻壁的四面正方形板,碰撞檢測(cè)閾值為0.4m,移動(dòng)機(jī)器人在碰撞檢測(cè)閾值范圍內(nèi)碰撞障礙物,可認(rèn)定移動(dòng)機(jī)器人發(fā)生碰撞,獲取負(fù)向獎(jiǎng)勵(lì)值-200,本回合結(jié)束,進(jìn)入下一回合繼續(xù)訓(xùn)練,直至所有回合數(shù)訓(xùn)練完成.

        結(jié)果和分析如下所示:

        1)仿真環(huán)境1仿真分析

        圖8 仿真環(huán)境1累積獎(jiǎng)勵(lì)值Fig.8 Simulation environment 1 cumulative reward value

        表3 仿真環(huán)境1的平均累積獎(jiǎng)勵(lì)值Table 3 Average cumulative reward value of simulation environment 1

        圖8展示的是DQN、DDQN、D3QN、D3QN-PER這4種算法的累積獎(jiǎng)勵(lì)值圖,可以明顯看出,D3QN-PER的累積獎(jiǎng)勵(lì)值比較穩(wěn)定,而DQN、DDQN、D3QN算法的波動(dòng)性較大,尤其DQN算法波動(dòng)頻繁.

        在表3中,看出4種算法平均累積獎(jiǎng)勵(lì)值在3000次回合中均為正數(shù),且穩(wěn)定變化,DQN算法在2600~2800回合為最高值2098.11,DDQN算法在1800~2000回合為最高值3114.42;D3QN算法在200~400回合為最高值3782.21;D3QN-PER在1001~1200回合為最高值3813.45,是 DQN 算法平均累積獎(jiǎng)賞值的1.8倍,這表示 D3QN-PER 方法在較少的迭代次數(shù)就完成了移動(dòng)機(jī)器人在仿真環(huán)境1中路徑規(guī)劃的訓(xùn)練.

        表4 仿真環(huán)境1到達(dá)目標(biāo)點(diǎn)次數(shù)Table 4 Simulation environment 1 number of times to reach the target point

        一般移動(dòng)機(jī)器人進(jìn)行訓(xùn)練時(shí),獲取正向獎(jiǎng)賞值越多,對(duì)應(yīng)在路徑規(guī)劃過(guò)程中,代表能成功避開(kāi)障礙物到達(dá)更多目標(biāo)點(diǎn)次數(shù)越多,其獲取的路徑越接近于最優(yōu).將到達(dá)目標(biāo)點(diǎn)的成功率P作為一個(gè)驗(yàn)證指標(biāo).

        (16)

        Ng:3000回合中成功到達(dá)目標(biāo)點(diǎn)次數(shù)

        N:代表總的訓(xùn)練回合次數(shù),即N=3000

        如表4所示,可以明顯看出D3QN-PER算法成功到達(dá)目標(biāo)點(diǎn)次數(shù)最多,為2992次,并且D3QN-PER 方法的到達(dá)目標(biāo)點(diǎn)的成功率P比 DQN 算法提高了1.2倍多.

        2)環(huán)境2的對(duì)比實(shí)驗(yàn)數(shù)據(jù)圖

        圖9 仿真環(huán)境2累積獎(jiǎng)勵(lì)值Fig.9 Simulation environment 2 cumulative reward value

        從圖9中可以看出,DQN算法的累積獎(jiǎng)勵(lì)值在正負(fù)值波動(dòng),其余3種算法的累積獎(jiǎng)勵(lì)值在正值范圍波動(dòng),且它們的累積獎(jiǎng)勵(lì)值呈逐漸上升趨勢(shì).

        如表5中所示,明顯看出DQN算法在前期出現(xiàn)負(fù)值,后期出現(xiàn)正值,在2400~2600回合為最高值113.12;DDQN算法偶爾出現(xiàn)負(fù)值,在2800~3000回合為最高值219.27;D3QN算法全部為正值,且在1400~1600回合為最高值749.51,與DQN、DDQN算法相比,訓(xùn)練效果大大提升;而D3QN-PER算法不僅全部為正值,且最高值遠(yuǎn)遠(yuǎn)大于D3QN回合最高值,說(shuō)明D3QN-PER效果比D3QN效果更加穩(wěn)定,這表示D3QN-PER方法通過(guò)較少的迭代次數(shù)就完成了移動(dòng)機(jī)器人在仿真環(huán)境2中路徑規(guī)劃的訓(xùn)練.

        表5 仿真環(huán)境2的平均累積獎(jiǎng)勵(lì)值Table 5 Average cumulative reward value of simulation environment 2

        如表6所示,和仿真環(huán)境1的數(shù)據(jù)對(duì)比,明顯看出DQN、DDQN、D3QN、D3QN-PER這4種算法的成功到達(dá)目標(biāo)點(diǎn)次數(shù)Ng差距很大,其中D3QN-PER算法成功到達(dá)目標(biāo)點(diǎn)次數(shù)為2112次,DQN算法成功到達(dá)目標(biāo)點(diǎn)次數(shù)為142,DDQN算法成功到達(dá)目標(biāo)點(diǎn)次數(shù)為472,D3QN算法成功到達(dá)目標(biāo)點(diǎn)次數(shù)為1150,D3QN-PER算法的成功率P比 DQN 算法提高了15倍多,可證明D3QN-PER 算法在仿真環(huán)境2中訓(xùn)練效果最佳,即能在仿真環(huán)境2中獲取最優(yōu)路徑.

        表6 仿真環(huán)境2 到達(dá)目標(biāo)點(diǎn)次數(shù)

        3)環(huán)境3仿真分析

        圖10 仿真環(huán)境3 累積獎(jiǎng)勵(lì)值Fig.10 Simulation environment 3 cumulative reward value

        從圖10中可以看出,DQN、DDQN算法的累積獎(jiǎng)勵(lì)值在負(fù)值范圍波動(dòng),而D3QN、D3QN-PER算法均在正值范圍內(nèi)波動(dòng),而且D3QN-PER算法的累積獎(jiǎng)勵(lì)值呈大幅度上升趨勢(shì).

        表7 仿真環(huán)境3 的平均累積獎(jiǎng)勵(lì)值

        表8 仿真環(huán)境3到達(dá)目標(biāo)點(diǎn)次數(shù)

        如表7中所示,明顯看出DQN的平均累積獎(jiǎng)賞值均為負(fù)值,說(shuō)明機(jī)器人沒(méi)有成功到達(dá)目標(biāo)點(diǎn)位置無(wú)法獲取最優(yōu)路徑;DDQN算法只在2601~2800回合為最高值,值為47.71,其余大部分為負(fù)值;D3QN在早期出現(xiàn)負(fù)值,后期出現(xiàn)正值,在1601~1800回合為最高值205.04,與DQN、DDQN算法相比,訓(xùn)練效果大大提升,依舊會(huì)發(fā)生碰撞;D3QN-PER均為正值,在2401~2600回合為最高值2650.59,因?yàn)镈QN、DDQN算法在3000回合的總平均累積獎(jiǎng)勵(lì)值均為負(fù)值,說(shuō)明DQN和DDQN算法對(duì)于復(fù)雜度較高的仿真環(huán)境3并不適用,D3QN算法效果也不如D3QN-PER的效果穩(wěn)定,這表示 D3QN-PER 方法通過(guò)較少的迭代次數(shù)就完成了移動(dòng)機(jī)器人在仿真環(huán)境3中路徑規(guī)劃的訓(xùn)練.

        在表8中,可以明顯看出D3QN-PER算法在3000次回合中成功到達(dá)目標(biāo)點(diǎn)次數(shù)最多,累積次數(shù)為1814次,其到達(dá)目標(biāo)點(diǎn)的成功率P遠(yuǎn)遠(yuǎn)高于其余方法.

        對(duì)上述結(jié)果分析,仿真環(huán)境情況越復(fù)雜,D3QN-PER算法效果越明顯,移動(dòng)機(jī)器人所需要的訓(xùn)練時(shí)間更少,提高了移動(dòng)機(jī)器人的學(xué)習(xí)性能.

        5 結(jié) 論

        本文針對(duì)未知的室內(nèi)場(chǎng)景,在傳統(tǒng)DQN算法的基礎(chǔ)上,提出了D3QN-PER模型.D3QN-PER模型利用D3QN模型解決如何獲取精確Q值的問(wèn)題;使用 LSTM處理激光傳感器信息,使模型具有提取和記憶障礙信息功能.動(dòng)作和獎(jiǎng)勵(lì)的歷史信息被當(dāng)作Q值網(wǎng)絡(luò)的輸入,提供更完整環(huán)境的信息.利用稀疏激光測(cè)距作為輸入,減小仿真環(huán)境與現(xiàn)實(shí)之間的差異,訓(xùn)練后的模型適用于真實(shí)環(huán)境中的機(jī)器人,從而提高了移動(dòng)機(jī)器人自主決策和自主學(xué)習(xí)的能力.通過(guò)Gym中Breakout游戲驗(yàn)證D3QN-PER的學(xué)習(xí)性能,然后通過(guò)Ros-Gazebo搭建3個(gè)復(fù)雜程度不同仿真環(huán)境,從簡(jiǎn)單到復(fù)雜依次對(duì)DQN、DDQN、D3QN、D3QN-PER進(jìn)行路徑規(guī)劃的訓(xùn)練,實(shí)驗(yàn)結(jié)果表明,對(duì)于簡(jiǎn)單的仿真環(huán)境1,4種算法學(xué)習(xí)性能相差不大;對(duì)于難度增加的仿真環(huán)境2,D3QN-PER算法的學(xué)習(xí)性能相當(dāng)于傳統(tǒng)DQN算法的2倍;對(duì)于最為復(fù)雜的仿真環(huán)境3,D3QN-PER算法的學(xué)習(xí)性能,遠(yuǎn)遠(yuǎn)高于其余3種算法,D3QN-PER 方法明顯提高了移動(dòng)機(jī)器人的學(xué)習(xí)速度,同時(shí)驗(yàn)證了該方法對(duì)不同環(huán)境的適應(yīng)性,該方法對(duì)于移動(dòng)機(jī)器人在未知環(huán)境的路徑規(guī)劃比經(jīng)典的DQN算法更有效、更穩(wěn)定.

        猜你喜歡
        移動(dòng)機(jī)器人環(huán)境
        移動(dòng)機(jī)器人自主動(dòng)態(tài)避障方法
        移動(dòng)機(jī)器人VSLAM和VISLAM技術(shù)綜述
        長(zhǎng)期鍛煉創(chuàng)造體內(nèi)抑癌環(huán)境
        一種用于自主學(xué)習(xí)的虛擬仿真環(huán)境
        孕期遠(yuǎn)離容易致畸的環(huán)境
        不能改變環(huán)境,那就改變心境
        環(huán)境
        孕期遠(yuǎn)離容易致畸的環(huán)境
        基于Twincat的移動(dòng)機(jī)器人制孔系統(tǒng)
        室內(nèi)環(huán)境下移動(dòng)機(jī)器人三維視覺(jué)SLAM
        久久久精品人妻一区二区三区| 亚洲v日本v欧美v综合v| 亚洲欧洲日韩免费无码h| 中文字幕精品人妻av在线| 一区二区三区四区中文字幕av| 亚洲精品国产电影| 亚洲无亚洲人成网站77777| 国际无码精品| 久草视频华人在线观看| 男人天堂亚洲天堂av| 国产日产精品一区二区三区四区的特点 | 国产中老年妇女精品 | 乱人伦人妻中文字幕不卡| 中文字幕乱码人妻在线| 亚洲一区二区三区四区五区黄| 岳好紧好湿夹太紧了好爽矜持| 欧美丰满大屁股ass| 国产一区二区欧美丝袜| 亚洲色偷偷色噜噜狠狠99| 亚洲AV无码一区二区一二区教师| 后入少妇免费在线观看| 在线视频国产91自拍| 国产精品欧美福利久久| 精品国产AⅤ一区二区三区4区| 激情综合网缴情五月天| 一区二区在线视频免费蜜桃| 永久黄网站免费视频性色| 日日碰狠狠躁久久躁| 国产精品美女黄色av| 蜜桃视频在线在线观看| 国产精品无码久久综合网| 国产97色在线 | 亚洲| 99久久久无码国产精品动漫| 亚洲精品在线97中文字幕| 中国午夜伦理片| 五十路熟久久网| 少妇勾引视频网站在线观看| 国精产品一区一区三区| 成熟人妻av无码专区| 国产经典免费视频在线观看| 麻豆视频在线播放观看|