亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        DDPG優(yōu)化算法的機(jī)械臂軌跡規(guī)劃*

        2021-12-29 00:57:46張浩博仲志丹喬棟豪楊遨宇
        關(guān)鍵詞:機(jī)械狀態(tài)動(dòng)作

        張浩博,仲志丹,喬棟豪,趙 耀,楊遨宇

        (河南科技大學(xué)機(jī)電工程學(xué)院,河南 洛陽 471003)

        0 引言

        機(jī)械臂的軌跡規(guī)劃是指在滿足一定的約束條件下,計(jì)算出一條連接起點(diǎn)和終點(diǎn)的軌跡[1-2]。傳統(tǒng)的機(jī)械臂軌跡規(guī)劃主要包括人工勢(shì)場(chǎng)法[3]、蟻群算法[4]、快速隨機(jī)樹法[5]等,這些方法都需要在已知的環(huán)境中進(jìn)行訓(xùn)練,且動(dòng)態(tài)規(guī)劃較差,智能性較低。隨著深度強(qiáng)化學(xué)習(xí)(Deep Reinforcement Learning,DRL)的發(fā)展,具備了讓智能體在未知的環(huán)境中進(jìn)行自主學(xué)習(xí)的能力,深度學(xué)習(xí)(Deep Learning,DL)使用多層神經(jīng)網(wǎng)絡(luò)學(xué)習(xí),在特征提取和事物感知方面具有獨(dú)特的優(yōu)勢(shì),強(qiáng)化學(xué)習(xí)(Reinforcement Learning,RL)是一個(gè)順序決策問題,在馬爾科夫決策過程中,通過獲得最大的獎(jiǎng)勵(lì)來找到最優(yōu)的策略。DRL結(jié)合了DL和RL的優(yōu)勢(shì),可以很好地完成在復(fù)雜的環(huán)境下對(duì)機(jī)械臂的控制[6]。

        Mnih V等[7]提出了DQN算法,將神經(jīng)網(wǎng)絡(luò)與Q-learning相結(jié)合,并且在Atari 2600游戲中進(jìn)行了訓(xùn)練,最終訓(xùn)練的水平遠(yuǎn)高于人類。Lillicrap T P等[8]用DDPG算法,將其應(yīng)用到高維連續(xù)動(dòng)作空間。Rusu A A等[9]將仿真環(huán)境下訓(xùn)練的結(jié)果遷移到實(shí)體機(jī)械臂上,只需要進(jìn)行簡單的訓(xùn)練之后就能達(dá)到與仿真相似的效果??仑S愷等[10]基于DDPG算法,提出根據(jù)TD-error變化的優(yōu)化采樣算法,并將其應(yīng)用到機(jī)械臂。陳建平等[11]提出的E-DDPG算法,增加了多樣性和高誤差樣本池,收斂速度更快。Li Z等[12]通過添加成功經(jīng)驗(yàn)池和碰撞經(jīng)驗(yàn)池改進(jìn)傳統(tǒng)的經(jīng)驗(yàn)池,與傳統(tǒng)的DDPG算法相比,改進(jìn)后的DDPG算法效果更好。Luck K S等[13]將DDPG算法與基于模型的軌跡優(yōu)化方法相結(jié)合,利用已學(xué)習(xí)到的深度動(dòng)力學(xué)模型來計(jì)算策略梯度,以價(jià)值函數(shù)作為評(píng)判標(biāo)準(zhǔn),從而提高了訓(xùn)練的效率。綜上所述,以上方法并未改變樣本的提取方式,仍然是均勻地從經(jīng)驗(yàn)池中采集樣本進(jìn)行訓(xùn)練,智能體不能高效地學(xué)習(xí)到成功的樣本,從而導(dǎo)致訓(xùn)練時(shí)間較長。

        針對(duì)上述問題,本文以深度確定性策略梯度(DDPG)算法為基礎(chǔ),采用以SumTree[14]數(shù)據(jù)結(jié)構(gòu)的加權(quán)采樣方法來代替均勻采樣的方法,使成功的樣本有更大的幾率被智能體學(xué)習(xí),并對(duì)Q-learning動(dòng)作價(jià)值函數(shù)進(jìn)行優(yōu)化,在訓(xùn)練起始階段引入OU隨機(jī)噪聲模型,最后將其應(yīng)用到機(jī)械臂上,經(jīng)實(shí)驗(yàn)仿真表明,優(yōu)化后的DDPG算法能夠使機(jī)械臂更加快速地完成任務(wù)。

        1 深度強(qiáng)化學(xué)習(xí)算法

        1.1 強(qiáng)化學(xué)習(xí)模型

        強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)的重要分支之一,它是一種自監(jiān)督的學(xué)習(xí)方式。在智能體與環(huán)境交互過程中,假設(shè)環(huán)境是完全可觀測(cè)的,包括狀態(tài)S,執(zhí)行動(dòng)作A,獎(jiǎng)勵(lì)函數(shù)R,初始狀態(tài)p(s0),狀態(tài)轉(zhuǎn)移概率p(st+1|st,at)以及折扣因子γ,這些成分構(gòu)成了一個(gè)元組{S,A,R,P,γ},表示為馬爾科夫決策過程。

        在訓(xùn)練開始時(shí),從分布p(s0)中采樣初始狀態(tài)s0,在每個(gè)時(shí)間步長t下,智能體在當(dāng)前狀態(tài)st下執(zhí)行一個(gè)動(dòng)作,該動(dòng)作遵循策略at=π(st),策略π表示從狀態(tài)空間到動(dòng)作空間的映射。之后,環(huán)境反饋一個(gè)獎(jiǎng)勵(lì)rt=r(st,at),并從狀態(tài)轉(zhuǎn)移概率p中采樣下一個(gè)狀態(tài)st+1。在每個(gè)時(shí)間步長t,智能體獲得的獎(jiǎng)勵(lì)會(huì)減少γ倍,即:

        (1)

        γt隨著訓(xùn)練時(shí)長的增加而變小,即后期的獎(jiǎng)勵(lì)對(duì)當(dāng)前決策影響較小。

        強(qiáng)化學(xué)習(xí)的目標(biāo)是選出最優(yōu)的一系列動(dòng)作,使得機(jī)械臂在任意步數(shù)獲得期望的獎(jiǎng)勵(lì)值為:

        (2)

        定義策略函數(shù)π:S→A,從狀態(tài)到動(dòng)作的映射a=π(s),即為機(jī)械臂中的決策策略,優(yōu)化策略函數(shù)的過程即根據(jù)機(jī)械臂在不同的狀態(tài)下執(zhí)行不同的動(dòng)作,并使期望獎(jiǎng)勵(lì)值最大化。通過構(gòu)造狀態(tài)動(dòng)作價(jià)值函數(shù)和動(dòng)作對(duì)總獎(jiǎng)勵(lì)的影響,策略π在某狀態(tài)st下執(zhí)行動(dòng)作at所獲得的總獎(jiǎng)勵(lì)期望定義如下:

        Qπ(st,at)=Est+1~psa[r(st,at)+γEat+1~πQπ(st+1,at+1)]

        (3)

        其中,r(st,at)為機(jī)械臂獲得的獎(jiǎng)勵(lì),γEat+1~πQπ(st+1,at+1)是策略π在未來累積獎(jiǎng)勵(lì)的期望。機(jī)械臂在初始狀態(tài)s下獲得的期望獎(jiǎng)勵(lì)值為:

        (4)

        1.2 深度確定性策略梯度算法

        機(jī)械臂執(zhí)行的任務(wù)是連續(xù)狀態(tài)空間,因此本文選擇適用于連續(xù)狀態(tài)空間的DDPG算法,該算法采用深度性行為策略,通過相應(yīng)的函數(shù)得到確定的動(dòng)作值,使用參數(shù)為θμ的actor網(wǎng)絡(luò)表示確定性策略μ(s|θμ),參數(shù)為θQ的critic網(wǎng)絡(luò)表示狀態(tài)動(dòng)作價(jià)值函數(shù)Q(s,a|θQ),采用確定性策略可以充分地利用機(jī)械臂與環(huán)境進(jìn)行交互并產(chǎn)生訓(xùn)練數(shù)據(jù)。確定性策略用μ表示,其動(dòng)作價(jià)值函數(shù)表示為:

        Qπ(st,at)=Est+1~psa[r(st,at)+γQμ(st+1,μ(st+1))]

        (5)

        確定性策略梯度法到目標(biāo)函數(shù)的梯度為:

        (6)

        其中,控制策略μ為機(jī)械臂的動(dòng)作,Q網(wǎng)絡(luò)為動(dòng)作價(jià)值函數(shù)。訓(xùn)練這些深層神經(jīng)網(wǎng)絡(luò)要求輸入數(shù)據(jù)是獨(dú)立且均勻分布的,而強(qiáng)化學(xué)習(xí)模型是馬爾可夫決策過程,數(shù)據(jù)是順序采集的,并不滿足要求。因此引入DQN(Deep Q-learning Network)的經(jīng)驗(yàn)重播來打破數(shù)據(jù)相關(guān)性。

        當(dāng)經(jīng)驗(yàn)池儲(chǔ)存的訓(xùn)練數(shù)據(jù)達(dá)到一定數(shù)量之后,按照均勻采樣的方式,從經(jīng)驗(yàn)池中采集數(shù)據(jù)進(jìn)行訓(xùn)練Q網(wǎng)絡(luò)。

        2 動(dòng)作價(jià)值函數(shù)和OU隨機(jī)噪聲模型的設(shè)計(jì)與優(yōu)化

        2.1 動(dòng)作價(jià)值函數(shù)的設(shè)計(jì)與優(yōu)化

        動(dòng)作價(jià)值函數(shù)是判斷機(jī)械臂行駛當(dāng)前策略好壞的重要依據(jù),Q網(wǎng)絡(luò)的輸入包含了機(jī)械臂當(dāng)前的狀態(tài)和動(dòng)作,采用神經(jīng)網(wǎng)絡(luò)對(duì)Q函數(shù)進(jìn)行擬合。

        本文采用Q-learning算法對(duì)Q網(wǎng)絡(luò)進(jìn)行優(yōu)化,同時(shí)也用到了策略網(wǎng)絡(luò),優(yōu)化的目標(biāo)函數(shù)為:

        δt=rt+γQ(st+1,μ(st+1))-Q(st,at)

        (7)

        同時(shí)設(shè)置了Q網(wǎng)絡(luò)和策略網(wǎng)絡(luò)的目標(biāo)網(wǎng)絡(luò)Q′、μ′,計(jì)算如式(8)所示:

        δt=rt+γQ′(st+1,|μ′(st+1|θt))-Q(st,at)

        (8)

        對(duì)于Q網(wǎng)絡(luò)在訓(xùn)練過程中,對(duì)參數(shù)的更新會(huì)產(chǎn)生延時(shí)誤差,本文采用如下公式進(jìn)行更新:

        ω′←τω+(1-τ)ω′
        θ′←τθ+(1-τ)θ′

        (9)

        其中,ω、ω′是Q網(wǎng)絡(luò)參數(shù)和目標(biāo)網(wǎng)絡(luò)參數(shù),θ、θ′是機(jī)械臂策略網(wǎng)絡(luò)參數(shù)和目標(biāo)網(wǎng)絡(luò)參數(shù)。

        2.2 OU隨機(jī)噪聲模型的設(shè)計(jì)

        深度強(qiáng)化學(xué)習(xí)在訓(xùn)練之初,機(jī)械臂會(huì)在相同的狀態(tài)下執(zhí)行相同的動(dòng)作,不具備探索能力。本文在訓(xùn)練起始階段對(duì)控制策略的生成動(dòng)作中加入Ornstein-Uhlenbeck(OU)噪聲,此時(shí)噪聲的方差較大,使機(jī)械臂能夠搜索較多的空間,可以嘗試更多的動(dòng)作,并通過當(dāng)前狀態(tài)信息和獎(jiǎng)勵(lì)大小進(jìn)行學(xué)習(xí)。在訓(xùn)練中后期控制策略產(chǎn)生的動(dòng)作大體上可以完成規(guī)定的任務(wù),此時(shí)機(jī)械臂只需要小范圍的搜索并微調(diào)控制策略,產(chǎn)生更多成功的訓(xùn)練樣本,優(yōu)化控制策略,此刻的噪聲方差應(yīng)盡可能的小。

        OU噪聲是一種隨機(jī)變量,應(yīng)用于和時(shí)間相關(guān)聯(lián)的噪聲數(shù)據(jù),其產(chǎn)生方式如下式所示:

        dxt=θ(α-xt)+σWt

        (10)

        其中,xt是需要產(chǎn)生的數(shù)據(jù),設(shè)置的隨機(jī)變量期望用α表示,隨機(jī)變量用W表示。

        3 基于SumTree加權(quán)采樣的DDPG算法的研究與設(shè)計(jì)

        機(jī)械臂每次與環(huán)境交互所獲得的數(shù)據(jù)(st,at,st+1,rt)被儲(chǔ)存在經(jīng)驗(yàn)池(Replay Buffer)中,傳統(tǒng)的DDPG算法視經(jīng)驗(yàn)池中所有樣本對(duì)網(wǎng)絡(luò)訓(xùn)練的價(jià)值是相同的,以均勻隨機(jī)采樣的方法提取訓(xùn)練樣本。但實(shí)際上經(jīng)驗(yàn)池中的樣本對(duì)于網(wǎng)絡(luò)訓(xùn)練有較大的不同。在機(jī)械臂軌跡規(guī)劃的實(shí)際訓(xùn)練中,成功的案例較少,失敗的案例居多,如果采取均勻隨機(jī)采樣的方法會(huì)導(dǎo)致成功的樣本難以被提取出來進(jìn)行訓(xùn)練。

        SumTree作為二叉樹結(jié)構(gòu)存取數(shù)據(jù),本文將它運(yùn)用到DDPG算法的經(jīng)驗(yàn)回放中。在DDPG算法中運(yùn)用目標(biāo)Q值和現(xiàn)實(shí)Q值差值的期望進(jìn)行更新策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)中的參數(shù),差值越大代表參數(shù)的選取并不準(zhǔn)確,即樣本更需要被機(jī)械臂訓(xùn)練。因此本文將目標(biāo)Q值與現(xiàn)實(shí)Q值所產(chǎn)生的損失值作為優(yōu)先權(quán)的標(biāo)準(zhǔn),表達(dá)式為:

        (11)

        其中,P(i)為訓(xùn)練樣本的第i個(gè)元組被采樣的概率,β為常數(shù),β越大則優(yōu)先權(quán)的比重就越大,k為經(jīng)驗(yàn)池的樣本總數(shù)。

        經(jīng)驗(yàn)池中儲(chǔ)存的元組,相對(duì)于之前的(st,at,st+1,rt),優(yōu)化之后為(st,at,st+1,rt,δt),其中δt的計(jì)算如式(7)所示。SumTree的結(jié)構(gòu)如圖1所示。

        圖1 結(jié)構(gòu)圖

        在建立好SumTree的結(jié)構(gòu)后,對(duì)經(jīng)驗(yàn)池中的數(shù)據(jù)用以下方式進(jìn)行采樣:首先,從[0,ρtotal]采樣出一個(gè)權(quán)值ρ1,接著從根節(jié)點(diǎn)開始比較,采取從左往右從上到下的順序,若選取的權(quán)值ρ1小于等于左節(jié)點(diǎn)權(quán)值,則走左邊子節(jié)點(diǎn)這條,若選取的權(quán)值ρ1大于左節(jié)點(diǎn)權(quán)值,則用ρ1減去左節(jié)點(diǎn)的權(quán)值,并將所得到的新的權(quán)值賦值給ρ1,接著以右節(jié)點(diǎn)作為新的節(jié)點(diǎn)繼續(xù)向下進(jìn)行采集,直到當(dāng)前的節(jié)點(diǎn)為葉節(jié)點(diǎn)的時(shí)候,提取其中的數(shù)據(jù),搜索結(jié)束。

        圖2 加權(quán)采樣的DDPG算法

        優(yōu)化后的DDPG算法如表1所示,其中訓(xùn)練步數(shù)用episode表示,每個(gè)步數(shù)下策略的時(shí)長序列用T表示。

        表1 基于SumTree的DDPG優(yōu)化算法

        4 實(shí)驗(yàn)仿真

        4.1 仿真實(shí)驗(yàn)的準(zhǔn)備

        圖3 機(jī)械臂仿真環(huán)境

        ROS(Robot Operating System)是一款機(jī)器人仿真開源平臺(tái),使用ROS平臺(tái)仿真主要應(yīng)用到了它獨(dú)特的通訊機(jī)制(話題的發(fā)布和訂閱,可以通過修改話題內(nèi)容和訂閱者對(duì)機(jī)械臂模型進(jìn)行修改。Gazebo是ROS平臺(tái)中的仿真工具,在Gazebo中建立一個(gè)UR5機(jī)械臂作為實(shí)驗(yàn)主體,在工作平臺(tái)上放置障礙物,獲取Gazebo發(fā)布機(jī)械臂的狀態(tài)作為Q網(wǎng)略的輸入,算法輸出的動(dòng)作發(fā)布到action話題,實(shí)驗(yàn)主體訂閱action話題,即可在仿真環(huán)境中做出相應(yīng)的動(dòng)作。圖3為UR5仿真環(huán)境的搭建。

        UR5機(jī)械臂經(jīng)過訓(xùn)練之后,可以有效地避開環(huán)境中的障礙物,并沿著能夠獲得最大獎(jiǎng)勵(lì)值的方向進(jìn)行軌跡規(guī)劃,最終可以到達(dá)指定的目標(biāo)點(diǎn),如圖4所示。

        (a) 起始姿態(tài) (b) 第2步

        (c) 第3步 (d) 最終姿態(tài)圖4 機(jī)械臂軌跡規(guī)劃避障過程

        將傳統(tǒng)DDPG算法和優(yōu)化后的DDPG算法進(jìn)行比較,除了對(duì)數(shù)據(jù)采樣的方式不同之外,其他參數(shù)均相同,具體參數(shù)設(shè)定如表2所示。

        表2 算法的相關(guān)參數(shù)

        4.2 實(shí)驗(yàn)仿真數(shù)據(jù)分析

        機(jī)械臂在學(xué)習(xí)訓(xùn)練過程中,獲得的累積獎(jiǎng)勵(lì)越高,說明機(jī)械臂完成任務(wù)所選擇的動(dòng)作越優(yōu),對(duì)比兩種算法在每一百回合中獲取的平均累積獎(jiǎng)勵(lì),獎(jiǎng)勵(lì)越高表明機(jī)械臂規(guī)劃的軌跡越優(yōu)。從圖5可以看出,加權(quán)采樣的DDPG算法在3000回合趨于穩(wěn)定,即達(dá)到了最大累積獎(jiǎng)勵(lì),經(jīng)典的DDPG算法在6500回合趨于穩(wěn)定,相比之下學(xué)習(xí)效率提高了53.8%。

        圖5 訓(xùn)練過程中的獎(jiǎng)勵(lì)

        在仿真8000回合之后,得到最終訓(xùn)練結(jié)果的成功率,如圖6所示。實(shí)驗(yàn)結(jié)果表明,基于加權(quán)采樣的DDPG算法在訓(xùn)練3000回合后成功率可以保持在90%以上,而傳統(tǒng)的DDPG算法在6000回合后達(dá)到90%以上。通過該仿真實(shí)驗(yàn)可以驗(yàn)證在軌跡規(guī)劃任務(wù)中,加權(quán)采樣的DDPG算法與傳統(tǒng)的方法相比較,學(xué)習(xí)速率提高了一倍以上,能夠快速地實(shí)現(xiàn)機(jī)械臂的學(xué)習(xí)訓(xùn)練,效果較為明顯。

        圖6 機(jī)械臂完成任務(wù)的成功率

        5 結(jié)束語

        本文首先通過對(duì)現(xiàn)存的基于深度強(qiáng)化學(xué)習(xí)的DDPG算法進(jìn)行改進(jìn),對(duì)Q-learning的動(dòng)作價(jià)值函數(shù)進(jìn)行優(yōu)化,并在訓(xùn)練起始階段引入了OU噪聲模型,增強(qiáng)了智能體的探索能力,從而得到更好的控制策略,其次,對(duì)傳統(tǒng)DDPG算法的均勻采樣進(jìn)行改進(jìn),采用SumTree數(shù)據(jù)結(jié)構(gòu)的加權(quán)采樣方法,對(duì)經(jīng)驗(yàn)池中的每個(gè)樣本添加優(yōu)先權(quán),提高了機(jī)械臂的學(xué)習(xí)速度,大大減少了訓(xùn)練的時(shí)間。實(shí)驗(yàn)表明,經(jīng)過加權(quán)采樣的DDPG算法,訓(xùn)練六自由度的機(jī)械臂效果明顯提高,收斂速度更快。

        猜你喜歡
        機(jī)械狀態(tài)動(dòng)作
        調(diào)試機(jī)械臂
        狀態(tài)聯(lián)想
        動(dòng)作描寫要具體
        生命的另一種狀態(tài)
        簡單機(jī)械
        畫動(dòng)作
        動(dòng)作描寫不可少
        機(jī)械班長
        熱圖
        家庭百事通(2016年3期)2016-03-14 08:07:17
        堅(jiān)持是成功前的狀態(tài)
        山東青年(2016年3期)2016-02-28 14:25:52
        一区二区三区不卡在线 | 黄片在线观看大全免费视频| 国产一区二区三区四区在线视频| 日本高清视频一区二区| 公和我做好爽添厨房| 一本一道波多野结衣av中文| 精品五月天| 久久青草国产免费观看| 蜜桃视频网址在线观看| 国产av一区二区亚洲精品| 久久国产色av免费观看| 毛茸茸性xxxx毛茸茸毛茸茸| 娇妻粗大高潮白浆| 国产性色av一区二区| 中国午夜伦理片| 粗壮挺进人妻水蜜桃成熟漫画| 国产又黄又爽视频| 亚洲精品女同在线观看| 人人妻人人澡人人爽欧美一区| 亚洲av日韩av天堂久久| 欧美多毛肥胖老妇做爰| 男女在线免费视频网站| 在线精品首页中文字幕亚洲| 少妇私密会所按摩到高潮呻吟| 日本成人一区二区三区| 亚洲一区二区在线视频,| 午夜天堂av天堂久久久| 亚洲永久无码7777kkk| 丰满熟妇人妻av无码区 | 午夜精品久久久久久久99老熟妇| 亚洲av无码日韩精品影片| 国产粉嫩高清| 精品视频一区二区三区日本| 色与欲影视天天看综合网| 把插八插露脸对白内射| 99日本亚洲黄色三级高清网站| 婷婷色精品一区二区激情| 日本久久高清一区二区三区毛片| 亚洲亚洲网站三级片在线| 国产麻豆极品高清另类| 欧美牲交a欧美牲交aⅴ|