亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于改進PPO算法的雙足機器人自適應行走控制

        2024-01-11 13:06:16吳萬毅劉芳華郭文龍
        揚州大學學報(自然科學版) 2023年6期
        關鍵詞:雙足步態(tài)網(wǎng)絡結構

        吳萬毅, 劉芳華, 郭文龍

        (江蘇科技大學機械工程學院, 江蘇 鎮(zhèn)江 212000)

        雙足機器人為仿人類外形設計, 具有多種行走模式,經(jīng)控制可實現(xiàn)在樓梯、崎嶇地面等復雜地形環(huán)境中智能行走.為保證機器人的穩(wěn)定運行, 國內外學者開展了大量研究.葛一敏[1], Kim[2], Chen[3]等將離線步態(tài)規(guī)劃作為主要控制手段, 結合其他在線步態(tài)修正算法, 實現(xiàn)了雙足機器人的持續(xù)穩(wěn)定行走, 但對算法解算的快速性與實時性要求較高, 雙足機器人行走至復雜地形時無法迅速適應環(huán)境變化, 故該方法對雙足機器人的實際控制效果不理想.深度強化學習(deep reinforcement learning, DRL)算法具有深層網(wǎng)絡結構, 可處理高維狀態(tài)信息[3-5].近端策略優(yōu)化(proximal policy optimization, PPO)作為一種DRL算法, 可重復使用樣本, 減少采樣次數(shù), 縮短學習時間, 在串聯(lián)剛性體的軌跡規(guī)劃控制中得到了廣泛應用[6-10].Hou等[7]將PPO算法與單剛體的模型預測控制算法相結合, 準確預測雙足機器人擺動下肢的運動狀態(tài), 同時抵抗行走干擾, 實現(xiàn)了雙足機器人的穩(wěn)定行走, 但該控制方法的模型訓練收斂速度較慢, 并且機器人自重可能會影響行走的穩(wěn)定性; Zhang等[8]采用PPO算法結合卷積神經(jīng)網(wǎng)絡處理拍攝的圖像, 提高了狀態(tài)處理效率, 使智能體具有穩(wěn)定的控制效果, 但該方法僅適用于視覺領域的圖像處理, 對于非視覺領域的應用存在局限性.針對上述問題, 本文擬提出一種基于改進近端策略優(yōu)化算法的雙足機器人控制方法, 將長短時記憶(long short-term memory, LSTM)與近端策略優(yōu)化算法相結合, 并在非視覺領域引入注意力機制[11], 以期提高算法的學習效率和實現(xiàn)雙足機器人在復雜環(huán)境下的自適應穩(wěn)定行走.

        1 近端策略優(yōu)化算法

        2 改進的近端策略優(yōu)化算法

        2.1 引入長短時記憶

        圖1 LSTM結構圖Fig.1 Structure diagram of LSTM

        2.2 引入多頭注意力機制

        多頭注意力機制(multi-head attention mechanism, MHSA)是注意力機制的一種擴展形式, 結構如圖2所示.多頭注意力機制的頭數(shù)為h, 多個查詢向量Q和狀態(tài)信息輸入向量X經(jīng)LSTM輸出后, 每個注意力關注LSTM輸出信息的不同部分, 并進行平行計算, 最后將輸出狀態(tài)信息的不同權重進行拼接att((K,V),Q)=att((K,V),q1)?…?att((K,V),qm), 從而獲得帶有不同權重的狀態(tài)信息, 提高神經(jīng)網(wǎng)絡處理信息的能力.

        圖2 多頭注意力機制Fig.2 Multi-head attention mechanism

        2.3 改進后PPO算法網(wǎng)絡結構

        改進后PPO算法網(wǎng)絡結構如圖3所示.在動作策略網(wǎng)絡中, 把速度、位姿、雷達信息等24個搜集到的狀態(tài)信息作為輸入, 轉化到具有256個隱藏單元的中間層, 通過LSTM映射及注意力機制計算, 輸出帶有權重差異的狀態(tài)信息高維表示, 得到連續(xù)空間的輸出動作概率分布.在價值網(wǎng)絡中, 輸入狀態(tài)經(jīng)兩層全連接層, 由LSTM映射為一維的價值函數(shù),得到輸出的預測值.

        圖3 網(wǎng)絡結構Fig.3 Network structure

        3 實驗結果與分析

        為驗證所提算法的有效性, 在Open AI gym提供的BipedalWalker-v3環(huán)境中進行仿真測試, 利用MuJoCo物理仿真器模擬雙足機器人在崎嶇道路環(huán)境下運動時身體姿態(tài)和關節(jié)角度的自適應變化.機器人具有四自由度和24個維度的狀態(tài)信息, 前14個維度的狀態(tài)信息包括機器人的關節(jié)運動速度、質心角度、地面接觸力等, 后10個維度的狀態(tài)信息由雷達提供.機器人行走建模時,設置學習率為0.000 1,衰減率為0.99, 剪切函數(shù)的超參數(shù)為0.2, 批量大小為256, 梯度閾值為1.

        3.1 收斂性

        圖4為改進后PPO算法的損失函數(shù)曲線.由圖4可知, 隨著迭代次數(shù)的增加, 損失函數(shù)曲線逐漸趨于平穩(wěn), 表明該算法收斂到最優(yōu)解.為進一步分析所提算法的性能, 采用本文改進算法與PPO算法和深度確定性策略梯度(deep deterministic policy gradient, DDPG)算法[13]進行對比仿真實驗, 結果如圖5和表1所示.由圖5和表1可知, 本文算法的最終獎勵結果與PPO算法相近, 而收斂速度更快, 這是因為該算法善于利用復雜的狀態(tài)信息進行機器人動作預判.綜上, 本文改進的PPO算法較其他算法具有更好的綜合性能.

        表1 3種算法的實驗結果對比

        圖4 改進后PPO算法的損失函數(shù)曲線Fig.4 Loss function curve of enhanced PPO algorithm

        圖5 不同算法的平均獎勵對比曲線Fig.5 Average reward graph of each algorithm

        利用雙足機器人膝關節(jié)和髖關節(jié)的彎曲角度數(shù)據(jù)創(chuàng)建可視化窗口, 分析雙足機器人在仿真環(huán)境中的表現(xiàn), 得到如圖6~7所示的雙足機器人自適應行走和四維動作的輸出結果.由圖6可知, 雙足機器人能夠根據(jù)輸入狀態(tài)信息, 不斷調整并輸出4個關節(jié)的角度, 最終形成穩(wěn)定步態(tài), 實現(xiàn)自適應行走.由圖7可知, 雙足機器人的4個關節(jié)能夠交替進行周期性運動, 進一步證明了算法收斂后雙足機器人運動過程的穩(wěn)定性.

        圖6 雙足機器人自適應性行走示意圖Fig.6 Adaptive walking diagram of biped robot

        圖7 機器人四維動作輸出值Fig.7 Output value of robot four-dimensional action

        3.2 實物驗證

        為驗證本文所提算法對雙足機器人在不同行走環(huán)境下的控制效果, 搭建四自由度雙足機器人實物模型, 模型照片及各部分具體參數(shù)如圖8和表2所示.

        表2 各段參數(shù)和關節(jié)幅度

        圖8 雙足機器人實物模型Fig.8 Physical model of biped robot

        在Gazebo物理仿真平臺上, 利用本文所提算法對雙足機器人在平坦地面和高度變化地面分別進行行走訓練, 具體行走過程如圖9所示.訓練完畢后, 遷移近端策略的網(wǎng)絡數(shù)據(jù), 進行實物模型驗證, 并通過超聲波距離傳感器測試雙足機器人在平坦地面和高度變化地面行走時水平方向和豎直方向的位移變化情況, 結果如圖10所示.由圖10(a)可知, 雙足機器人在平坦地面行走時的步態(tài)周期為2.5 s, 一個步態(tài)周期內的水平位移為60 mm, 豎直位移為10 mm以內, 行走過程中雙足機器人始終保持穩(wěn)定前行.由圖10(b)可知, 雙足機器人在高度變化地面行走時, 能夠根據(jù)地面突起高度調節(jié)步態(tài),進而實現(xiàn)自適應行走.綜上, 改進后的PPO算法能夠控制雙足機器人在平坦地面及高度變化地面實現(xiàn)自適應行走.

        圖9 雙足機器人在不同行走環(huán)境下的行走示意圖Fig.9 Illustrations of bipedal robot walking in various environments

        猜你喜歡
        雙足步態(tài)網(wǎng)絡結構
        小螞蟻與“三角步態(tài)”
        科學大眾(2024年5期)2024-03-06 09:40:34
        Anti-N-methyl-D-aspartate-receptor antibody encephalitis combined with syphilis:A case report
        基于面部和步態(tài)識別的兒童走失尋回系統(tǒng)
        電子制作(2018年18期)2018-11-14 01:48:04
        基于Kinect的學步期幼兒自然步態(tài)提取
        自動化學報(2018年6期)2018-07-23 02:55:42
        冰凍的夢
        基于互信息的貝葉斯網(wǎng)絡結構學習
        知識網(wǎng)絡結構維對于創(chuàng)新績效的作用機制——遠程創(chuàng)新搜尋的中介作用
        滬港通下A+ H股票網(wǎng)絡結構演化的實證分析
        復雜網(wǎng)絡結構比對算法研究進展
        便宜假肢能模仿正常步態(tài)
        日本中文字幕婷婷在线| 国产精品网站夜色| 欧美亚洲另类自拍偷在线拍| 国产av熟女一区二区三区老牛| 国产成人精品一区二区三区av| 日本精品一区二区三区福利视频| 狠狠色噜噜狠狠狠777米奇小说| 久久久久久免费毛片精品| 加勒比黑人在线| 国产啪啪视频在线观看| 一区二区三区日本伦理| 99久热在线精品视频观看| 三年片免费观看大全国语| 国产精品福利片免费看 | 精品国产一区二区三区性色| 日本熟妇人妻xxxx| 色一情一乱一乱一区99av| 久久AV中文综合一区二区| av中文字幕在线资源网| 沐浴偷拍一区二区视频 | 末成年女a∨片一区二区| 亚洲精品自产拍在线观看| 亚洲 国产 韩国 欧美 在线 | 免费无码又爽又刺激聊天app| 久久精品国产亚洲黑森林| 国产精品一区又黄又粗又猛又爽 | 素人系列免费在线观看| 女人18毛片aa毛片免费| 日日噜噜夜夜狠狠va视频v| 玩弄少妇高潮ⅹxxxyw| 亚洲专区一区二区在线观看| 中文字幕人成乱码中文| 久久久亚洲熟妇熟女av| 国产精品人妻一码二码| 亚洲影院天堂中文av色| 日韩av一区在线播放| 国产亚洲精品90在线视频| 在线看片免费人成视频电影| 国产精品午睡沙发系列| 国产亚洲精品成人av在线| 在线观看国产视频午夜|