亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于強化學習的腿式機器人運動控制與決策研究

        2021-07-28 05:30:35侯遠韶
        科技創(chuàng)新導報 2021年3期
        關(guān)鍵詞:深度學習

        侯遠韶

        DOI:10.16660/j.cnki.1674-098x.2011-5640-9053

        摘? 要:傳統(tǒng)的腿式機器人在未知環(huán)境中進行運動控制和路徑規(guī)劃時收斂速度慢,路徑不夠優(yōu)化具有一定的局限性,無法滿足運動控制系統(tǒng)對實時性和精確度的要求。針對這一情況,將深度學習的學習能力與強化學習的決策能力有機地結(jié)合起來,利用深度學習具有自動特征提取和深度結(jié)構(gòu)的學習優(yōu)勢,以及強化學習在閉環(huán)學習系統(tǒng)中對未知環(huán)境進行探索、反饋再探索魯棒性強的特點,從而解決機器人在運動控制中的復雜序貫決策得到最優(yōu)路徑規(guī)劃,最終實現(xiàn)腿式機器人合理的運動控制與決策。

        關(guān)鍵詞:深度學習? 強化學習? 運動控制? 路徑規(guī)劃

        中圖分類號:TP391.4? ? ? ? ? ? ? ? ? ? ? ? ? 文獻標識碼:A? ? ? ? ? ? ? ? ? ? 文章編號:1674-098X(2021)01(c)-0111-04

        Research on Motion Control and Decision of Legged Robot? ? ?based on Reinforcement Learning

        HOU Yuanshao

        (Department of Mechanical and Electrical Engineering, Henan Industry and Trade Vocational College, Zhengzhou ,Henan Province, 451191, China )

        Abstract: Traditional legged robots converge slowly when performing motion control and path planning in an unknown environment, and the path is not optimized enough to have certain limitations, and cannot meet the real-time and accuracy requirements of the motion control system. In response to this situation, the learning ability of deep learning and the decision-making ability of reinforcement learning are organically combined, and deep learning has the advantages of automatic feature extraction and deep structure learning, as well as reinforcement learning to explore unknown environments in a closed-loop learning system. The feedback explores the characteristics of strong robustness, so as to solve the complex sequential decision-making of the robot in the motion control to obtain the optimal path planning, and finally realize the reasonable motion control and decision-making of the legged robot.

        Key Words: Deep learning; Reinforcement learning;? Sport control;? Route plan

        1? 強化學習

        1.1 強化學習原理及系統(tǒng)組成

        機器學習算法作為人工智能算法的核心,包含了有監(jiān)督、無監(jiān)督以及強化學習算法。其中強化學習算法作為一種典型的序貫決策問題對無訓練樣本數(shù)據(jù)具有很大的優(yōu)勢,通過求解輸入輸出之間的最優(yōu)解來解決優(yōu)化問題,是一種對控制策略進行優(yōu)化的框架。強化學習作為一種學習算法通過模擬人的學習方式,利用已知的環(huán)境數(shù)據(jù),不斷優(yōu)化自身的決策,實現(xiàn)收益的最大化,最終得到準確的位置判斷和決策控制[1]。標準的強化學習主要受環(huán)境狀態(tài)、動作、探索率以及狀態(tài)轉(zhuǎn)移模型等8個因素的影響[2]。

        1.2 深度學習與強化學習

        深度學習作為典型的機器學習算法也稱為深層結(jié)構(gòu)學習,通過對原始數(shù)據(jù)進行逐級提取從而得到抽象的高層表征[3]。深度學習利用分層抽象的思想處理復雜的高維數(shù)據(jù),得到具有典型代表性的機器學習有效特征,同時深度學習可以利用網(wǎng)絡(luò)中任意一層的輸出數(shù)據(jù)作為特征的表達,進而實現(xiàn)特征提取與轉(zhuǎn)換,并反饋給高層數(shù)據(jù),繼而得到更加復雜抽象的特征[4]。

        強化學習算法主要通過對人類學習的心理學以及控制理論中路徑規(guī)劃的最優(yōu)控制分析,獲得知識進而改進策略以適應(yīng)復雜多變的環(huán)境[5]。主要分為模型已知的強化學習算法和模型未知的強化學習算法,兩種算法都需要通過環(huán)境交互得到信息,不同之處在于其中模型已知的強化學習算法可以利用已知模型對值函數(shù)進行計算,進而得到不同控制策略下的最佳輸出結(jié)果,主要代表算法有價值迭代算法和策略迭代算法;模型未知的強化學習算法,不依賴精確的模型,具有很好的適應(yīng)能力,通過比較利用與探索問題進而得到最優(yōu)策略,主要代表算法有時序差分算法和DQN算法[6]。強化學習具體流程如圖1所示。

        1.3 深度強化學習與路徑規(guī)劃

        傳統(tǒng)的路徑規(guī)劃算法以及運動控制策略可以實現(xiàn)基本的路徑規(guī)劃和避障運動,但面對快速移動的障礙物和復雜背景時往往出現(xiàn)規(guī)劃效率不高、收斂速度慢等問題。另一方面,對于腿式機器人來說不管是要進行避障還是路徑規(guī)劃,對周邊環(huán)境信息的感知是第一步,因此通過深度強化學習強大的決策能力和感知能力,通過對外部環(huán)境數(shù)據(jù)進行感知,進而分析決策,最終將已知的原始高維數(shù)據(jù)轉(zhuǎn)化為末端的控制機制。

        雖然強化學習在智能控制系統(tǒng)中得到了很大應(yīng)用,很好地結(jié)合了運籌學、控制以及其他學科,為強化學習融入人工智能領(lǐng)域奠定了基礎(chǔ)。但是由于路徑規(guī)劃數(shù)據(jù)具有隨機性和依賴于傳感器獲取外部數(shù)據(jù),具有一定的時延性,且沒有既定的標準和模型可以依賴,因此強化學習存在初期學習時對策略的探索比較依賴,后期側(cè)重對最優(yōu)化的求解而忽略對新策略的尋找,具有一定的局限性。因此,強化學習需要在維數(shù)求解、對模型的收斂速度、對已知和未知問題的研究現(xiàn)狀以及時間信度分配的問題進行研究。

        2? 腿式機器人運動控制

        2.1 路徑規(guī)劃算法

        傳統(tǒng)的路徑規(guī)劃算法可以分為局部路徑規(guī)劃和全局路徑規(guī)劃,全局路徑規(guī)劃針對環(huán)境完全已知代表算法有粒子群算法、遺傳算法和A*算法;局部路徑規(guī)劃針對外部環(huán)境未知或者只有部分已知環(huán)境信息,通過傳感器實時感知外部數(shù)據(jù)代表算法有動態(tài)窗口算法以及人工勢場法。傳統(tǒng)的路徑規(guī)劃算法作為典型的慎思框架,首先需要通過對外部環(huán)境進行感知繼而建立規(guī)劃模型,然后做出運動策略,最后實現(xiàn)運動,在這一過程中難以對突變環(huán)境作出應(yīng)對,速度慢、同時容易陷入局部最優(yōu)而非全局最優(yōu),因此具有一定的局限性[7]。深度強化學習具有強大的自我學習能力和感知能力,可以實現(xiàn)腿式機器人的運動控制與路徑規(guī)劃,只需要對最終軌跡目標進行確定,而無需對其進行主動參與,就可以實現(xiàn)機器人與外部環(huán)境的交互,進而對網(wǎng)絡(luò)模型進行訓練,最終實現(xiàn)路徑的合理規(guī)劃以及運動控制和決策[8]。經(jīng)典的路徑規(guī)劃算法如圖2所示。

        2.2 腿式機器人步行策略

        腿式機器人具有非線性、多自由度以及多驅(qū)動模式等特點,具有較多的不穩(wěn)定因素因此建立合適的動力學模型是腿式機器人步行策略必不可少的步驟。傳統(tǒng)的腿式機器人步行策略通過對步態(tài)設(shè)計以及模型運用,實現(xiàn)機器人行走的穩(wěn)定性以及路徑規(guī)劃,主要分為動態(tài)步行策略和靜態(tài)步行策略。動態(tài)步行策略,通過分析機器人的運行速度以及質(zhì)心,將運動問題簡化,生成關(guān)節(jié)軌跡,進而利用逆運動方程進行反向求解步態(tài)軌跡,對模型的精度要求較高;靜態(tài)步行策略,通過對步行過程中的重心投影計算得到其步態(tài)軌跡,如果其重心投影一直在支撐的區(qū)域內(nèi),那么其步態(tài)具有一定的穩(wěn)定性但速度較慢。因此,腿式機器人步行策略需要建立物理模型以避免動力模型中參數(shù)的理想化假設(shè)與實際行走運動存在的誤差,最終實現(xiàn)腿式機器人的運動控制以及及時避障。

        2.3 深度強化學習的運動控制

        傳統(tǒng)的強化學習算法雖然能夠在一定程度上對簡單的目標運動控制和路徑規(guī)劃作出分析判斷,但面對復雜環(huán)境和快速移動的障礙物時,傳統(tǒng)的強化學習方法往往難以應(yīng)對。而另一方面,由于移動機器人的運行環(huán)境復雜多變,目標和障礙物受各種因素的影響,具有不確定性,因此將強化學習的決策能力與深度學習擅長對事物表征特點結(jié)合起來,進而提高算法對未知環(huán)境的求解,繼而得到準確的數(shù)據(jù)輸出與路徑規(guī)劃。

        在進行深度強化學習的運動控制時,需要考慮以下問題:由于深度強化學習善于對像素類數(shù)據(jù)進行處理,而非圖像數(shù)據(jù)缺乏相應(yīng)的特征信息因此處理能力不足;同時在缺乏全局信息的情況下,機器人無法對外部環(huán)境做出全局判讀,進而導致決策數(shù)據(jù)波動,值函數(shù)的收斂性能不好,難以有效實現(xiàn)運動控制?;诖?,需要在原始的深度強化學習基礎(chǔ)上進行改進,主要包括對傳感器采集的數(shù)據(jù)進行降維處理,記憶網(wǎng)絡(luò)進行長短時設(shè)計以及改進獎賞函數(shù)和經(jīng)驗回放。

        3? 基于深度強化學習的運動控制與決策設(shè)計

        3.1 避障策略

        移動機器人在進行路徑規(guī)劃與運動控制時,不可避免要進行避障策略的研究。移動機器人通過外部傳感器感知器路徑規(guī)劃過程中存在的動態(tài)或靜態(tài)干擾因素,繼而改變規(guī)劃選擇新的路徑,最終到達終點。移動機器人避障一方面依賴于傳感器獲取外部數(shù)據(jù),常見的傳感器有超聲波測距儀、紅外測距儀、激光以及視覺傳感器;另一方面,則依賴于避障算法,常見的避障算法有基于向量場直方圖(VFH)、勢場法(PFM)、模糊邏輯以及神經(jīng)網(wǎng)絡(luò)等,模糊邏輯的核心在于模糊控制器的訓練,而神經(jīng)網(wǎng)絡(luò)方法在于訓練模型的建立,這些方法雖然可以對大部分的障礙物作出合理判斷,但不具有普遍適用性?;趶娀瘜W習的避障策略是一個反復迭代的過程,這種算法只有一個值函數(shù)數(shù)據(jù),通過多次迭代,實現(xiàn)兩個問題的循環(huán)往復即由已知策略求解值函數(shù),再根據(jù)值函數(shù)優(yōu)化策略,直到全局最優(yōu)解的出現(xiàn)。具體流程為設(shè)計狀態(tài)空間,繼而對離散動作數(shù)據(jù)進行優(yōu)化,獎賞函數(shù)的選擇、動作策略規(guī)劃,最終進行深度網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計。

        3.2 結(jié)論及仿真

        由于深度強化學習需要多次迭代,對計算機硬件要求較高,因此搭建仿真環(huán)境需要合適的仿真工具以及軟硬件設(shè)備,本文采用ROS Kinect操作系統(tǒng)作為機器人框架,仿真環(huán)境則采用開源的Gazebo9.0;硬件則采用64G內(nèi)存,20G顯存,CPU則采用因特i7處理器,主頻為3.2G。為了減少系統(tǒng)的運行時間,通過將路徑規(guī)劃模型加速計算,使代碼運行速率加快,進而提高仿真運行速率。最后通過對大量實驗數(shù)據(jù)結(jié)果進行分析可知,基于強化學習的腿式機器人運動控制與決策,收斂速度快,路徑規(guī)劃具有較高的成功率,在面對復雜多變的外部環(huán)境時,可以很好地進行避障運動,進而實現(xiàn)高精度的運動控制與決策。

        參考文獻

        [1] 劉全,翟建偉,章宗長,等.深度強化學習綜述[J]. 計算機學報, 2018,41(1):1-27.

        [2] 高陽,陳世福,陸鑫.強化學習研究綜述[J].自動化學報,2004,30(1):86-100.

        [3] 付如彬,李亮,徐成,等.基于強化學習的仿生機器魚節(jié)能研究[J].北京大學學報.自然科學版,2019, 55(3):12-17.

        [4] 董培方,張志安,梅新虎,等.引入勢場及陷阱搜索的強化學習路徑規(guī)劃算法[J].計算機工程與應(yīng)用, 2018(1):129-134.

        [5] 吳曉光,劉紹維,楊磊,等.基于深度強化學習的雙足機器人斜坡步態(tài)控制方法[J].自動化學報,2020:73-78.

        [6] 張自東,邱才明,張東霞,等.基于深度強化學習的微電網(wǎng)復合儲能協(xié)調(diào)控制方法[J]. 電網(wǎng)技術(shù),2019, 43(6):1914-1921.

        [7] 吳保勝, 郭宇, 王發(fā)麟,等. 基于改進蟻群算法的線纜路徑規(guī)劃技術(shù)研究[J]. 計算機工程與應(yīng)用, 2018,54(10):236-241.

        [8] 王志中.基于改進蟻群算法的移動機器人路徑規(guī)劃研究[J].機械設(shè)計與制造,2018,323(1):248-250.

        猜你喜歡
        深度學習
        從合坐走向合學:淺議新學習模式的構(gòu)建
        面向大數(shù)據(jù)遠程開放實驗平臺構(gòu)建研究
        基于自動智能分類器的圖書館亂架圖書檢測
        搭建深度學習的三級階梯
        有體驗的學習才是有意義的學習
        電子商務(wù)中基于深度學習的虛假交易識別研究
        利用網(wǎng)絡(luò)技術(shù)促進學生深度學習的幾大策略
        考試周刊(2016年94期)2016-12-12 12:15:04
        MOOC與翻轉(zhuǎn)課堂融合的深度學習場域建構(gòu)
        大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
        深度學習算法應(yīng)用于巖石圖像處理的可行性研究
        軟件導刊(2016年9期)2016-11-07 22:20:49
        亚洲AV无码成人精品区网页| 国产麻豆剧传媒精品国产av| 亚洲最大不卡av网站| 亚洲一区中文字幕一区| 久久婷婷国产五月综合色| 真人在线射美女视频在线观看| 天堂av在线播放观看| 蜜桃噜噜一区二区三区| 中国孕妇变态孕交xxxx| 玩弄放荡人妇系列av在线网站| 久久精品国产视频在热| 免费国产交换配乱淫| 亚洲欧美日韩高清一区二区三区| 日韩精品国产一区二区| 亚洲av资源网站手机在线| 亚洲av中文无码乱人伦在线视色| 无码成人一区二区| 日韩视频第二页| 亚洲毛片av一区二区三区| 国产精品一区二区av麻豆日韩 | 国产精品jizz在线观看老狼| 国产nv精品你懂得| 人妻少妇一区二区三区| 人妻少妇中文字幕久久hd高清| 女人18毛片a级毛片| 亚洲av久久无码精品九九| 中国免费一级毛片| 国产女主播福利一区二区| 国产手机在线观看一区二区三区| 国产真实乱对白精彩久久老熟妇女 | 日本少妇比比中文字幕| 一区二区三区国产精品麻豆| 免费a级毛片在线播放| 国产成人喷潮在线观看| 思思久久96热在精品国产 | 欧美激情区| 极品少妇一区二区三区四区| 国产成人精品无码免费看| 亚洲精品中文字幕无码蜜桃| 99精品成人片免费毛片无码| 国产精品国产三级国产在线观|