亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于指導(dǎo)軌跡加速的機(jī)械臂強(qiáng)化學(xué)習(xí)運(yùn)動規(guī)劃

        2022-11-02 12:25:22劉哲潘愛強(qiáng)魏本剛江安烽張家維白成超
        電氣自動化 2022年5期
        關(guān)鍵詞:成功率軌跡神經(jīng)網(wǎng)絡(luò)

        劉哲, 潘愛強(qiáng), 魏本剛, 江安烽,2, 張家維, 白成超

        (1.國網(wǎng)上海市電力公司電力科學(xué)研究院,上海 200437;2. 國網(wǎng)上海能源互聯(lián)網(wǎng)研究院有限公司,上海 201210;3.哈爾濱工業(yè)大學(xué) 航天學(xué)院,黑龍江 哈爾濱 150001)

        0 引 言

        運(yùn)動規(guī)劃是機(jī)械臂執(zhí)行操作任務(wù)的前提,其目的是為機(jī)械臂找到一條滿足無碰撞和運(yùn)動平滑度等約束的關(guān)節(jié)運(yùn)動軌跡。機(jī)械臂的運(yùn)動規(guī)劃空間通常為高維的關(guān)節(jié)構(gòu)型空間,這導(dǎo)致了很多傳統(tǒng)的運(yùn)動規(guī)劃算法很難直接用于機(jī)械臂的運(yùn)動規(guī)劃。針對機(jī)械臂的高維規(guī)劃空間,目前基于采樣的運(yùn)動規(guī)劃算法可以取得不錯(cuò)的效果,如快速拓展隨機(jī)樹(rapidly-exploring random trees, RRT)[1]、概率路線圖(probabilistic roadmap method, PRM)[2]。此外常用的機(jī)械臂運(yùn)動規(guī)劃算法還包括人工勢場法[3]和軌跡優(yōu)化算法[4]等。

        上述的運(yùn)動規(guī)劃方法的效率不可避免地隨機(jī)械臂自由度的增加而降低。近年來基于深度強(qiáng)化學(xué)習(xí)[5]的機(jī)械臂運(yùn)動規(guī)劃算法得到了很多學(xué)者的關(guān)注。與模仿學(xué)習(xí)[6]相比,深度強(qiáng)化學(xué)習(xí)運(yùn)動規(guī)劃算法能夠更好地探索障礙物的邊界,進(jìn)而得到更高的成功率。與經(jīng)典的運(yùn)動規(guī)劃算法相比,基于強(qiáng)化學(xué)習(xí)的運(yùn)動規(guī)劃算法執(zhí)行速度更快,且不受關(guān)節(jié)空間維度影響。本文利用軟動作-評論家(soft actor-critis, SAC)[7]算法進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練,并利用經(jīng)典運(yùn)動規(guī)劃算法計(jì)算得到的指導(dǎo)軌跡來輔助探索,提升訓(xùn)練的效果。

        1 算法理論

        1.1 基于深度強(qiáng)化學(xué)習(xí)的機(jī)械臂運(yùn)動規(guī)劃

        當(dāng)機(jī)械臂的末端位置與目標(biāo)位置之間的距離小于閾值ε時(shí),認(rèn)為規(guī)劃成功,當(dāng)機(jī)械臂與障礙物發(fā)生碰撞或規(guī)劃時(shí)間超出限制時(shí),認(rèn)為規(guī)劃失敗。對于獎(jiǎng)勵(lì)函數(shù)的設(shè)置,本文設(shè)計(jì)了一個(gè)密集獎(jiǎng)勵(lì)函數(shù)和一個(gè)稀疏獎(jiǎng)勵(lì)函數(shù),密集獎(jiǎng)勵(lì)函數(shù)可以表示為如下形式。

        (1)

        (2)

        稀疏獎(jiǎng)勵(lì)函數(shù)可以表示為如式(3)所示。

        (3)

        1.2 SAC算法

        機(jī)械臂強(qiáng)化學(xué)習(xí)運(yùn)動規(guī)劃問題的動作空間為連續(xù)動作空間。本文采用適用于連續(xù)動作空間的SAC強(qiáng)化學(xué)習(xí)算法來進(jìn)行訓(xùn)練。SAC算法中用神經(jīng)網(wǎng)絡(luò)對三個(gè)函數(shù)進(jìn)行了分析,分別是狀態(tài)價(jià)值函數(shù)Vψ(s),其對應(yīng)的神經(jīng)網(wǎng)絡(luò)參數(shù)表示為ψ;狀態(tài)-動作價(jià)值函數(shù)Qθ(s,a),其對應(yīng)的神經(jīng)網(wǎng)絡(luò)參數(shù)表示為θ;策略函數(shù)πφ(a|s),其對應(yīng)的神經(jīng)網(wǎng)絡(luò)參數(shù)表示為φ。

        在SAC算法中首先對狀態(tài)價(jià)值網(wǎng)絡(luò)進(jìn)行更新。在計(jì)算Vψ(s)的損失函數(shù)時(shí)Qθ(st,at)和πφ(at|st)的神經(jīng)網(wǎng)絡(luò)參數(shù)保持不變。狀態(tài)價(jià)值網(wǎng)絡(luò)損失函數(shù)JV(ψ)的計(jì)算公式為:

        (4)

        (5)

        式中:τ為更新速率。JQ(θ)的計(jì)算公式為:

        (6)

        (7)

        式中:tanh(·)為雙曲正切函數(shù);μφ(s)為策略網(wǎng)絡(luò)輸出的動作均值;σφ(s)為策略網(wǎng)絡(luò)輸出的策略方差;N(0,I)為維度與關(guān)節(jié)自由度數(shù)相同的正態(tài)分布函數(shù)。經(jīng)過重參數(shù)化之后策略網(wǎng)絡(luò)損失函數(shù)Jπ(φ)的計(jì)算公式為:

        (8)

        1.3 指導(dǎo)軌跡

        在利用強(qiáng)化學(xué)習(xí)進(jìn)行機(jī)械臂運(yùn)動規(guī)劃的早期訓(xùn)練階段需要進(jìn)行大量的隨機(jī)探索,才能逐步學(xué)會規(guī)劃策略。為了解決這一問題,可以將傳統(tǒng)運(yùn)動規(guī)劃算法規(guī)劃得到的成功運(yùn)動軌跡加入經(jīng)驗(yàn)池中來為機(jī)械臂提供指導(dǎo)。本文在訓(xùn)練開始之前生成了10 000組不與障礙物發(fā)生碰撞的起始點(diǎn)和目標(biāo)點(diǎn)以及兩者對應(yīng)指導(dǎo)軌跡數(shù)據(jù)。起始點(diǎn)和目標(biāo)點(diǎn)的生成規(guī)則如下:

        (9)

        τguide={q0,a0,q1,a1,…,qn,an}

        (10)

        而經(jīng)驗(yàn)池中數(shù)據(jù)的存儲形式為:

        D={(st,at,rt,st+1)}

        (11)

        將指導(dǎo)軌跡加入到經(jīng)驗(yàn)池中之前,需要根據(jù)機(jī)械臂每一時(shí)刻的關(guān)節(jié)角度qt和機(jī)械臂的運(yùn)動學(xué)模型計(jì)算狀態(tài)st,并根據(jù)獎(jiǎng)勵(lì)函數(shù)計(jì)算采取動作之后獲得的獎(jiǎng)勵(lì)rt。

        2 試驗(yàn)驗(yàn)證

        圖1 機(jī)械臂運(yùn)動到目標(biāo)位置的過程

        本文共進(jìn)行了4組試驗(yàn),每組試驗(yàn)在同樣的訓(xùn)練參數(shù)下重復(fù)訓(xùn)練3次。在訓(xùn)練過程中每隔100個(gè)回合輸出一次神經(jīng)網(wǎng)絡(luò)運(yùn)動規(guī)劃器的規(guī)劃成功率,圖2中的曲線表示3次訓(xùn)練的成功率均值。

        本文選擇評估訓(xùn)練10 000個(gè)回合后神經(jīng)網(wǎng)絡(luò)規(guī)劃器的規(guī)劃成功率和訓(xùn)練過程的收斂速度。在成功率評估方面,本文將神經(jīng)網(wǎng)絡(luò)運(yùn)動規(guī)劃器在新的起始構(gòu)型和目標(biāo)構(gòu)型下運(yùn)行100次規(guī)劃,將100次規(guī)劃的成功率作為神經(jīng)網(wǎng)絡(luò)運(yùn)動規(guī)劃器的真實(shí)成功率估計(jì)值,并計(jì)算了3次訓(xùn)練的成功率均值。本文將訓(xùn)練過程中成功率首次達(dá)到80%時(shí)的訓(xùn)練回合數(shù)作為評價(jià)策略收斂速度的指標(biāo),成功率和收斂速度測試結(jié)果如表2所示。

        圖2 訓(xùn)練過程的成功率變化曲線

        表2 神經(jīng)網(wǎng)絡(luò)運(yùn)動規(guī)劃器的測試結(jié)果

        3 結(jié)束語

        本文基于SAC強(qiáng)化學(xué)習(xí)算法,研究了指導(dǎo)軌跡和獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)對運(yùn)動規(guī)劃成功率和收斂速度的影響。試驗(yàn)結(jié)果表明,密集獎(jiǎng)勵(lì)較稀疏獎(jiǎng)勵(lì)有更好的訓(xùn)練效果。指導(dǎo)軌跡的加入明顯地減少了訓(xùn)練的收斂回合數(shù),提高了運(yùn)動規(guī)劃的成功率。當(dāng)獎(jiǎng)勵(lì)函數(shù)為稀疏獎(jiǎng)勵(lì)時(shí),指導(dǎo)軌跡的作用更加明顯。

        猜你喜歡
        成功率軌跡神經(jīng)網(wǎng)絡(luò)
        成功率超70%!一張冬棚賺40萬~50萬元,羅氏沼蝦今年將有多火?
        如何提高試管嬰兒成功率
        軌跡
        軌跡
        神經(jīng)網(wǎng)絡(luò)抑制無線通信干擾探究
        電子制作(2019年19期)2019-11-23 08:42:00
        如何提高試管嬰兒成功率
        軌跡
        進(jìn)化的軌跡(一)——進(jìn)化,無盡的適應(yīng)
        中國三峽(2017年2期)2017-06-09 08:15:29
        基于神經(jīng)網(wǎng)絡(luò)的拉矯機(jī)控制模型建立
        復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)在基于WiFi的室內(nèi)LBS應(yīng)用
        国产成人福利在线视频不卡| 久久人妻av一区二区软件| 正在播放亚洲一区| av中国av一区二区三区av| 国产精品久久婷婷婷婷| 欧洲女人与公拘交酡视频| 亚洲av区一区二区三区| 躁躁躁日日躁| 亚洲一区二区国产一区| 日韩在线免费| 中国杭州少妇xxxx做受| 精品一区二区三区在线视频观看 | 久久久国产精品三级av| 亚洲丁香婷婷综合久久小说 | 人妻精品久久无码区| AⅤ无码精品视频| 青草国产精品久久久久久| 婷婷久久av综合一区二区三区| 精品国产午夜福利在线观看| 亚洲天堂av在线网站| 亚洲国产午夜精品乱码| 人与人性恔配视频免费 | 久久av无码精品人妻糸列| 伊人久久久精品区aaa片| 色婷婷一区二区三区四| 亚洲av无码一区二区三区在线| 好大好湿好硬顶到了好爽视频| 久久精品视频日本免费| 天美麻花果冻视频大全英文版| 久久精品中文少妇内射| 国产精品国产三级农村妇女| 亚洲国产一区二区三区在线视频| 欧美老熟妇欲乱高清视频| 一本色道加勒比精品一区二区| 天天射色综合| 欧美视频二区欧美影视| a级特黄的片子| 国产精品国产自产拍高清| 99久久超碰中文字幕伊人| 亚洲欧美一区二区成人片| 国产免费在线观看不卡|