亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        改進DDPG算法在外骨骼機械臂軌跡運動中的應(yīng)用*

        2023-03-03 08:45:58劉光宇暨仲明黃雨夢
        傳感器與微系統(tǒng) 2023年2期
        關(guān)鍵詞:外骨骼上肢經(jīng)驗

        蘇 杰, 劉光宇, 暨仲明, 黃雨夢

        (1.杭州電子科技大學 自動化學院(人工智能學院),浙江 杭州 310018;2.杭州電子科技大學 浙江省物聯(lián)感知與信息融合重點實驗室,浙江 杭州 310018)

        0 引 言

        由于全球人口老齡化和新型冠狀病毒(COVID—19)的爆發(fā),以及腦卒中、外傷、運動損傷增加,醫(yī)療資源短缺,通過對上肢進行康復(fù)訓練來恢復(fù)身體功能的需求不斷增加[1]。

        Rahman M H等人[2]研究了4個自由度的MARSE[3]機器人外骨骼的遠程操作,采用了非線性計算力矩控制和線性比例積分微分控制技術(shù)來達到對期望軌跡的跟蹤。Riani A等人[4]針對非線性系統(tǒng)未知但有界的動態(tài)不確定性,提出了一種基于魯棒自適應(yīng)積分的終端滑??刂品椒?。Li Z J等人[5]提出了一種結(jié)合高增益觀測器的自適應(yīng)神經(jīng)網(wǎng)絡(luò)控制,在沒有速度測量的情況下驅(qū)動機器人跟蹤期望的軌跡。He W等人[6]提出了狀態(tài)反饋和輸出反饋控制策略,設(shè)計了一個干擾觀測器來在線抑制未知干擾,實現(xiàn)軌跡跟蹤。Obayashi C等人[7]提出了一種用戶自適應(yīng)的機器人訓練系統(tǒng)模型,該系統(tǒng)根據(jù)用戶的表現(xiàn)調(diào)整其輔助力量,以防止用戶過于依賴機器人協(xié)助。隨著人工智能的發(fā)展,AlphaGo[8]引起了強化學習的研究熱潮。強化學習的優(yōu)勢在于,和傳統(tǒng)監(jiān)督學習相比不需要大量數(shù)據(jù)集,而是使用“獎懲”方式進行反饋,這恰好符合機械臂的控制[9]中數(shù)據(jù)集較難獲得的情況。深度神經(jīng)網(wǎng)絡(luò)能夠通過不斷訓練完成對控制策略的非線性擬合,滿足機械臂突發(fā)關(guān)節(jié)故障時高維度、多變量、難預(yù)測的特點。

        本文針對六軸上肢外骨骼機械臂末端軌跡運動任務(wù),將研究分為算法改進和實驗仿真兩部分。先用D-H方法對上肢外骨骼機械臂建模,再通過TensorFlow搭建深度強化學習算法框架。由于機械臂是連續(xù)的控制任務(wù),舍棄深度Q網(wǎng)絡(luò)(deep Q network,DQN)[10]算法而采用更為合適的深度確定性策略梯度(deep deterministic policy gradient,DDPG)[11]算法,在此基礎(chǔ)上,通過優(yōu)先經(jīng)驗回放和分區(qū)獎勵(prioritized experience relay and district awards,PERAD)優(yōu)化改進此算法框架。最后通過一個三軸機械臂驗證上述算法改進的成功性。實驗結(jié)果表明:改進后的算法具有更快的收斂速度,速度提升了約9.2 %,具有較強的魯棒性和泛化性。

        1 上肢外骨骼機器人正運動學分析

        本文采用機構(gòu)參數(shù)的D-H定義方法對六自由度上肢外骨骼機械臂進行了運動學建模[12],通過機構(gòu)桿系的齊次變化來對來連桿坐標系進行設(shè)定,如圖1所示,其中,0系為基坐標系。并進行相關(guān)計算與分析。

        圖1 上肢外骨骼機械臂D-H建模

        根據(jù)圖1所示的連桿參數(shù)以及關(guān)節(jié)角度,建立DH表,如表1所示。4個參數(shù)分別為αi,ai,di,θi,其中,αi為Zi-1和Zi的角度,即扭轉(zhuǎn)角;ai為Zi-1和Zi的距離,即連桿長度;di為Xi-1和Xi的距離,即連桿偏移量;θi為Xi-1和Xi的夾角,即關(guān)節(jié)角度。

        (1)

        (2)

        2 深度強化學習DDPG算法

        DDPG算法流程如圖2所示。

        圖2 DDPG算法流程

        定義策略網(wǎng)絡(luò)actor network和評價網(wǎng)絡(luò)critic network的參數(shù)分別為θμ,θQ。動作目標函數(shù)可表示為

        Q(st)=Eπ(Gt|st=Ωt-Ωnml,at=a0)

        (3)

        初始化Target critic network和Target actor network 的θ′和μ′,網(wǎng)絡(luò)的權(quán)值參數(shù)為

        θQ′←θQ,θμ′←θμ

        (4)

        執(zhí)行動作at,記錄獎勵值rt,當前狀態(tài)st和下一個狀態(tài)st+1,將其存儲在經(jīng)驗池(si,ai,ri,si+1),并從中隨機取樣N個作為actor network和critic network訓練數(shù)據(jù)。

        DDPG分別為action network和value netword創(chuàng)建2個神經(jīng)網(wǎng)絡(luò),即online network和target network。

        action network的更新方式如下

        (5)

        value network的更新方式如下

        (6)

        在critic中,更新critic network且最小化損失函數(shù)Loss定義為

        (7)

        用梯度策略算法更新action network

        (8)

        用soft update更新target network

        θQ′←τθQ+(1-τ)θQ′,θμ′←τθμ+(1-τ)θμ′

        (9)

        3 改進DDPG算法

        3.1 優(yōu)先經(jīng)驗回放

        強化學習算法在與深度神經(jīng)網(wǎng)絡(luò)結(jié)合后,需要大量樣本進行網(wǎng)絡(luò)訓練。如果直接使用稀疏獎勵樣本進行學習,可能無法提升策略,甚至會導致神經(jīng)網(wǎng)絡(luò)的訓練發(fā)散。針對在稀疏獎勵條件下,存在時間差分誤差(TD-errors)[13]絕對值較小的問題,TD-errors的定義式為

        (10)

        本文采用優(yōu)先經(jīng)驗回放(prioritized experience replay,PER)法[14],優(yōu)先采樣具有較大TD-errors的樣本,旨在提高樣本的利用效率,減少智能體探索環(huán)境的時間。

        在經(jīng)驗重放機制中,它隨機使用固定數(shù)量經(jīng)驗池存儲的先前經(jīng)驗,在一個時間步長內(nèi)區(qū)更新神經(jīng)網(wǎng)絡(luò),當前時間步長的動作公式為

        at=μ(st|θμ)+Nt

        (11)

        本文選擇經(jīng)驗的絕對時延誤差|δ|作為評價經(jīng)驗價值的指標。經(jīng)驗樣本j的TD-errors|δ|的計算如下

        δj=r(st,at)+γQ′(st+1,at+1,w)-Q(st,at,w)

        (12)

        式中Q′(st+1,at+1,w)為w由參數(shù)化的Target action network。

        采樣概率[15]的定義可以被看作是一種在選擇經(jīng)驗時添加隨機因素的方法,因為即使存在一些低時延誤差的經(jīng)驗,但仍然有被重放的概率,這保證了采樣經(jīng)驗的多樣性,有助于防止神經(jīng)網(wǎng)絡(luò)過度擬合。

        將經(jīng)驗樣本j的概率[16]定義為

        (13)

        式中 rank(j)為第j個經(jīng)驗樣本在全體經(jīng)驗樣本中所排的位數(shù),按照對應(yīng)的|δ|由大到小排列;參數(shù)α控制優(yōu)先級程度。

        3.2 分區(qū)獎勵

        本文中第二處對DDPG深度強化學習算法的改進為分區(qū)獎勵(district awards,DA)函數(shù)的設(shè)置。針對經(jīng)典強化學習算法中,獎勵函數(shù)設(shè)置單一問題,即二值化的獎勵函數(shù),會存在智能體探索時間過長、神經(jīng)網(wǎng)絡(luò)訓練失敗等問題。本文以三軸機械臂模型為訓練對象,如圖3,提出了基于軸距dBO,dCO,dDO的分區(qū)獎勵函數(shù),旨在提高智能體減少對于環(huán)境探索的時間和增強穩(wěn)定性,更快達到收斂。設(shè)計思路為:在區(qū)域4時,由于機械臂極大地偏移了目標,相對應(yīng)地加大“懲罰”,當越接近目標時,持續(xù)給一個較小的“懲罰”,直到給出一個較大的正向獎勵。以三軸dBO,dCO,dDO之和的獎勵作為引導項,在分區(qū)獎勵設(shè)置合理的基礎(chǔ)上,如表1,有效提升訓練速度,精準到達目標處。

        圖3 三軸機械臂模型

        表1 分區(qū)獎勵值

        3.3 算法設(shè)計

        改進后的PREDA-DDPG算法的偽代碼如下所示:

        PREDA-DDPG算法流程

        1.初始化actor-online network、critic-online network的參數(shù),θQ;θμ

        2.初始化actor-target network、critic-target network的參數(shù),θQ′;θμ′

        3.初始化經(jīng)驗池R的大小,設(shè)置為W;

        4.初始化最大優(yōu)先級參數(shù)α;

        5.初始化目標網(wǎng)絡(luò)更新速度τ;

        6.初始化mini-batch的大小為K;

        7.for each episode,do;

        8. 獲取初始狀態(tài)s0,初始化隨機噪聲N;

        9. fort=1,do;

        10. 增加噪聲Nt,actor根據(jù)當前策略選擇動作at;

        11. 根據(jù)已設(shè)置的分區(qū)獎勵值表格獲得獎勵值rt和新狀態(tài)st+1;

        12. 將經(jīng)驗(st,at,rt,st+1)存儲在經(jīng)驗池R中;

        13. ift>W,then;

        14. forj=1,do;

        15. 以采樣概率p(j)來采樣某一經(jīng)驗j;

        16. 計算TD-errors,根據(jù)TD-errors絕對值的大小更新j的優(yōu)先級;

        17. End for;

        20. 根據(jù)更新速率τ,更新actor-target network、critic-target network的參數(shù),θQ′;θμ′

        21. End for.

        22. End for.

        23.End for.

        4 實 驗

        4.1 實驗平臺設(shè)計與參數(shù)設(shè)定

        本文搭建的仿真軟件環(huán)境是基于Open AI Gym環(huán)境所構(gòu)建的模擬器,由Python語言編寫,使用OpenGL生成三軸機械臂模型。使用Python3.7語言在深度學習框架TensorFlow2.0—CPU上編寫改進DDPG算法。

        Actor網(wǎng)絡(luò)和Critic網(wǎng)絡(luò)由2層全連接層構(gòu)成。Actor網(wǎng)絡(luò)學習率為0.005,Critic網(wǎng)絡(luò)學習率為0.005,獎勵折扣為0.9,批量處理為32,每輪探索的最大步數(shù)為199,總迭代次數(shù)為2 000次。L2權(quán)重縮減速率是 0.1,目標網(wǎng)絡(luò)的更新率為0.01。Actor網(wǎng)絡(luò)和Critic網(wǎng)絡(luò)包括2個隱含層,第一、二層的隱藏單元分別為300,200。這里從均勻分布中隨機選擇值作為2個神經(jīng)網(wǎng)絡(luò)權(quán)重的輸入層。使用Ornstein-Uhlenbeck[17]過程來產(chǎn)生噪聲,該噪聲被添加到探索策略中,以幫助智能體徹底探索環(huán)境。重放緩沖區(qū)設(shè)定為5 000。在與環(huán)境交互的過程中,智能體接收狀態(tài)向量作為觀察,這些狀態(tài)向量是關(guān)節(jié)角度和坐標信息的值。在本文中,比較了改進前后的DDPG算法在三軸機械臂軌跡運動任務(wù)中的的性能表現(xiàn)。仿真平臺如圖4所示。

        圖4 Open AI Gym仿真環(huán)境

        4.2 實驗結(jié)果分析

        如圖5,在相同環(huán)境下,將改進后的DDPG算法與原始均勻采樣和歐氏距離作為獎勵函數(shù)的DDPG算法作對比,不難看出,原始算法需要760回合達到收斂,獎勵值穩(wěn)定在95附近。改進后的算法在690回合就已達到收斂。此外,改進后的算法在獎勵函數(shù)曲線的凸起會更少,表明其在訓練過程中具有更強的穩(wěn)定性,這是因為優(yōu)先經(jīng)驗重放傾向于選擇具有中等和高的TD-errors的經(jīng)驗,它們對代理的學習過程有很高的價值,但也并沒有完全忽略較低的TD-errors的經(jīng)驗,很大程度上顯示了采樣經(jīng)驗的多樣性。

        圖5 改進前、后的獎勵函數(shù)曲線

        如圖6,反映的是回合數(shù)與每回合數(shù)所需步數(shù)的關(guān)系,每回合所需步數(shù)越少,則學習最優(yōu)策略的效果越好,可以類比于有監(jiān)督學習的損失函數(shù)。若在200步內(nèi)未能完成對目標物的探索,則直接進行下一回合。在500回合后,很明顯可以看出每回合步數(shù)大幅減少,并在680回合散點多集中于90左右。這表明改進后的算法在更短時間內(nèi)去學習到最優(yōu)策略的能力有所提升。

        圖6 每回合所需步數(shù)

        5 結(jié) 論

        本文針對原始DDPG算法在應(yīng)用上肢外骨骼機械臂軌跡運動的過程中,會存在獎勵函數(shù)曲線的凸起,收斂性能慢等問題,提出了將優(yōu)先經(jīng)驗回放與分區(qū)獎勵結(jié)合的DDPG算法,該方法更加細化獎勵區(qū)間且根據(jù)TD-errors的大小選擇采樣經(jīng)驗,使它們能在訓練中發(fā)揮更大的作用,以此提升算法的收斂速度。將算法運用于三軸機械臂的目標探索實驗當中,比較驗證算法的性能,實驗結(jié)果表明:改進后的算法大大縮短了總訓練時間,并且學習過程更加穩(wěn)定,優(yōu)于原始 DDPG 算法,同時也為解決上肢外骨骼機械臂的軌跡運動問題提供了新的視角,為后期的研究提供了基礎(chǔ)。

        猜你喜歡
        外骨骼上肢經(jīng)驗
        讓戰(zhàn)士變身“鋼鐵俠”的單兵外骨骼
        軍事文摘(2024年6期)2024-02-29 09:59:38
        2021年第20期“最值得推廣的經(jīng)驗”評選
        黨課參考(2021年20期)2021-11-04 09:39:46
        昆蟲的外骨骼
        一種可穿戴式外骨骼康復(fù)機械手結(jié)構(gòu)設(shè)計
        經(jīng)驗
        基于慣性傳感器的上肢位置跟蹤
        2018年第20期“最值得推廣的經(jīng)驗”評選
        黨課參考(2018年20期)2018-11-09 08:52:36
        錯誤姿勢引發(fā)的上肢問題
        中國自行車(2018年4期)2018-05-26 09:01:53
        侗醫(yī)用木頭接骨保住傷者上肢66年1例報道
        機器絞軋致上肢毀損傷成功保肢1例
        男女互舔动态视频在线观看| 国产欧美va欧美va香蕉在线观| 久久久国产精品ⅤA麻豆百度| 精品蜜桃av免费观看| 边添小泬边狠狠躁视频| 久久久久久国产精品无码超碰动画 | 欧美婷婷六月丁香综合色| 超级碰碰人妻中文字幕| 99久久国产免费观看精品| 精品国产免费一区二区三区| 曰本无码人妻丰满熟妇5g影院| 亚洲大尺度动作在线观看一区| 国产视频一区二区三区观看| 国产两女互慰高潮视频在线观看 | 2022国内精品免费福利视频| 日韩精品自拍一区二区| 丰满少妇高潮惨叫久久久| 真人与拘做受免费视频| 青青草视频网站免费观看| 亚洲韩日av中文字幕| 成在线人av免费无码高潮喷水| 亚洲男人av香蕉爽爽爽爽| av网站影片在线观看| 国产乱理伦在线观看美腿丝袜| 少妇性饥渴bbbbb搡bbbb| 亚洲精品123区在线观看| 在线观看视频亚洲一区二区三区| 午夜成人理论福利片| 亚洲熟女少妇一区二区| 日本一区不卡高清在线观看| 日韩人妻精品中文字幕专区| 国产亚洲精品bt天堂精选| 久久这里只精品国产2| 亚洲熟少妇一区二区三区| 久久久久久九九99精品| 久久精品国波多野结衣| 女同中文字幕在线观看| 国产 精品 自在 线免费| 国产suv精品一区二区69| 东风日产系列全部车型| 久久熟妇少妇亚洲精品|