亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于分層學(xué)習(xí)的四足機(jī)器人運(yùn)動(dòng)自適應(yīng)控制模型

        2020-02-27 12:33:50崔俊文劉自紅劉福強(qiáng)
        計(jì)算機(jī)測量與控制 2020年1期
        關(guān)鍵詞:腿部分層機(jī)器人

        崔俊文, 劉自紅, 石 磊, 劉福強(qiáng), 樂 玉

        (西南科技大學(xué) 制造科學(xué)與工程學(xué)院,四川 綿陽 621010)

        0 引言

        在自然界中,多足生物可以在腿部受傷失效后,快速調(diào)整姿態(tài)和運(yùn)動(dòng)步態(tài),繼續(xù)保持一定的運(yùn)動(dòng)狀態(tài)前進(jìn),如圖1。因此,在實(shí)際的應(yīng)用環(huán)境中也要求機(jī)器人具有應(yīng)對自我損傷,改變原有的運(yùn)動(dòng)方式的能力。

        圖1 單腿失效狗和四足機(jī)器人

        以四足機(jī)器人為例,正常運(yùn)動(dòng)時(shí),可以有多種步態(tài)控制方法實(shí)現(xiàn)前進(jìn)、轉(zhuǎn)向、跳躍等多種運(yùn)動(dòng)技能。然而在單腿失效后,其腿部運(yùn)動(dòng)布局變化及重心偏移的影響導(dǎo)致控制策略復(fù)雜性提升,快速適應(yīng)及調(diào)整的控制是較為復(fù)雜的。在文獻(xiàn)[1]中,提出依據(jù)行為空間得到價(jià)值直覺,指導(dǎo)試錯(cuò)學(xué)習(xí)算法實(shí)現(xiàn)局部關(guān)節(jié)失效的六足機(jī)器人和機(jī)械臂恢復(fù)運(yùn)動(dòng)技能。Bongard在文獻(xiàn)[2]中提出連續(xù)自我建模恢復(fù)算法,產(chǎn)生替代步態(tài)的方式。

        近年來,深度強(qiáng)化學(xué)習(xí)(Deep Reinforcement Learning)在無經(jīng)驗(yàn)的條件下,在虛擬器中讓機(jī)器人學(xué)習(xí)各種運(yùn)動(dòng)技巧取得了巨大的進(jìn)步[3-5]。在文獻(xiàn)[6]中,迪士尼的研究人員構(gòu)建了在實(shí)際環(huán)境中訓(xùn)練單腿或多腿機(jī)器人系統(tǒng)。然而其結(jié)果仍是較為簡單的單一策略。對于一些復(fù)雜的多要求的運(yùn)動(dòng)控制,則不能滿足。分層學(xué)習(xí)將控制策略結(jié)構(gòu)化,使得任務(wù)復(fù)雜度降低。目前的分層學(xué)習(xí),仍沒有可通用的模型,一般依據(jù)任務(wù)特點(diǎn)采用人工分層方式。在文獻(xiàn)[7]中使用高低級(jí)的控制器有效控制雙足類人模型的行走于小道和踢足球。分層目的將基本運(yùn)動(dòng)中樞和調(diào)節(jié)器分開,達(dá)到較好運(yùn)動(dòng)策略。然而,對于狀態(tài)空間因腿部失效維度降低,采用串級(jí)結(jié)構(gòu)則是失效的。文獻(xiàn)[8]中,Google團(tuán)隊(duì)將直接從圖像像素到空間機(jī)械臂運(yùn)動(dòng)抓取進(jìn)行端到端訓(xùn)練,CNN和電機(jī)控制輸出層網(wǎng)絡(luò)相合,達(dá)到三維空間中抓取多形態(tài)物體的目的。文獻(xiàn)[9]中提出分層DQN,讓高級(jí)策略決定內(nèi)在目標(biāo),低級(jí)策略滿足給定目標(biāo)完成Atari游戲。

        本文提出采用深度強(qiáng)化學(xué)習(xí)(Deep Reinforcement Learning)對四足機(jī)器人單一向前運(yùn)動(dòng)進(jìn)行連續(xù)控制,以此為子策略構(gòu)建分層學(xué)習(xí)框架形成自適應(yīng)控制模型。框架分為狀態(tài)評估控制器 (Status Decision Controller)和基礎(chǔ)運(yùn)動(dòng)控制器(Basic Dynamic Controller),分別采用Double-DQN(Double Deep Q-Network)[10]和PPO(Proximal Policy Optimization)[3]算法實(shí)現(xiàn)。狀態(tài)評估策略監(jiān)測機(jī)器人狀態(tài),相應(yīng)激活子策略進(jìn)行運(yùn)動(dòng)控制,該過程不受狀態(tài)空間部分信息失效而影響。該方法成功實(shí)現(xiàn)機(jī)器人在腿部受損失效后,仍保持有效運(yùn)作,并保證整個(gè)過程快速響應(yīng)和穩(wěn)定。

        1 分層學(xué)習(xí)

        1.1 概述

        根據(jù)四足機(jī)器人要求在狀態(tài)空間維度變化的條件下實(shí)現(xiàn)自適應(yīng)控制問題,提出由狀態(tài)判斷控制器(Status Decision Controller)和多個(gè)基礎(chǔ)運(yùn)動(dòng)控制器(Basic Dynamic Controller)組合而成的分層學(xué)習(xí)結(jié)構(gòu),系統(tǒng)如圖2所示。SDC要求每個(gè)時(shí)間步都進(jìn)行狀態(tài)決策,并以3 Hz向子策略激活單元發(fā)送最優(yōu)的運(yùn)動(dòng)方式。由于構(gòu)建的機(jī)器人及電機(jī)運(yùn)動(dòng)模型要求BDC的控制頻率也為3 Hz,相同決策頻率保證機(jī)器人實(shí)現(xiàn)基本運(yùn)動(dòng)切換連貫性。SDC狀態(tài)決策后估計(jì)最優(yōu)BDC,BDC控制機(jī)器人以期望目標(biāo)運(yùn)作。

        圖2 分層學(xué)習(xí)系統(tǒng)結(jié)構(gòu)

        SDC功能特性只要求其離散決策,采用Double-DQN算法優(yōu)化策略。SDC輸入為全部狀態(tài)單元Sall,未激活的狀態(tài)單元?jiǎng)t為ox=0,ox∈Sall。將SDC策略輸出行為最高估值的索引io傳遞給策略激活單元。策略激活單元將索引在固定序列上匹配到合適的子策略,SDC以完成相對最大化Q值這一過程作為收斂目標(biāo)。

        BDC作為基礎(chǔ)運(yùn)動(dòng)控制器,主導(dǎo)基礎(chǔ)運(yùn)動(dòng)控制。由于基本運(yùn)動(dòng)控制要求的連續(xù)性,采用近端策略優(yōu)化(PPO)算法,其在文獻(xiàn)[3]證明其在連續(xù)運(yùn)動(dòng)控制上所達(dá)到的較好的效果。由狀態(tài)決策單元獲取目標(biāo)索引io,整理狀態(tài)空間Oi,io∈0,1,2,輸出行為ai作為腿部運(yùn)動(dòng)關(guān)節(jié)的PD控制器輸入值。BDC各個(gè)單一策略提前進(jìn)行訓(xùn)練,滿足期望累積獎(jiǎng)勵(lì)后,再進(jìn)行SDC訓(xùn)練。使用該種分層學(xué)習(xí)模型,將復(fù)雜運(yùn)動(dòng)策略結(jié)構(gòu)化,簡化神經(jīng)網(wǎng)絡(luò)深度及策略收斂的復(fù)雜性,擺脫腿部失效后狀態(tài)空間維度變化所帶來的影響,同時(shí)各部分相互獨(dú)立,不受單一策略變動(dòng)而影響整體。

        1.2 狀態(tài)判斷控制器(Status Decision Controller)

        假設(shè)構(gòu)建機(jī)器人所有可能運(yùn)動(dòng)狀態(tài)所需的狀態(tài)空間為Sall,并依據(jù)所有BDC策略要求的維度確定As,構(gòu)建價(jià)值函數(shù)為Q(s,a;θt),其中s∈Sall,a∈As,θ表示策略參數(shù)集。當(dāng)前獎(jiǎng)勵(lì)rt+1子運(yùn)動(dòng)決策在環(huán)境中交互通過公用的獎(jiǎng)勵(lì)策略式(7)所述Rt+1,即:

        (1)

        其中:ws為獎(jiǎng)勵(lì)權(quán)重,實(shí)驗(yàn)測試時(shí)ws=0.8,Rmax為BDC策略成熟后單個(gè)時(shí)間步可獲得最大直接獎(jiǎng)勵(lì)。由此可得Double-DQN的單時(shí)間步損失為L(θt):

        (2)

        L(θt)=(Yt-Q(St,a;θt))2

        (3)

        其中:γ∈[0,1]為折扣因子,經(jīng)實(shí)驗(yàn)選取為0.9。學(xué)習(xí)速率設(shè)定值為0.001。SDC策略φ則存在最優(yōu)函數(shù),需最大化這一過程:

        Q*(s,a)=maxφQφ(s,a)

        (4)

        最佳策略是由行動(dòng)的最高估值即:

        φ(s)=argmaxa(Q*(s,a))

        (5)

        在該問題中策略激活單元的最佳行為正是最高估值的索引io=φ(s),io則代表BDC激活的對應(yīng)序列值。該過程使用神經(jīng)網(wǎng)絡(luò)表示SDC策略φ輸出最高估值。SDC的策略訓(xùn)練較BDC在時(shí)序上落后,其需要有足夠的經(jīng)驗(yàn)累積,每個(gè)時(shí)間步不斷刷新經(jīng)驗(yàn)累積內(nèi)容。

        1.3 基礎(chǔ)運(yùn)動(dòng)控制器(Basic Dynamic Controller)

        1.3.1 部分馬爾科夫決策(POMDP)

        BDC為多個(gè)運(yùn)動(dòng)策略單元組成。每個(gè)單元代表某種狀態(tài)下的控制策略,并將控制過程制定為部分馬爾科夫決策(POMDP)。受損其被表述為組員(S,AB,τ,R,Ω,γ),其中S為狀態(tài)空間,AB行為空間,τ代表系統(tǒng)動(dòng)力,R為獎(jiǎng)勵(lì)函數(shù),Ω代表概率觀察函數(shù),γ∈[0,1]為折扣因子。

        由于狀態(tài)部分可觀測,有狀態(tài)可觀測集O,而非S,可得o∈O。采用PPO算法優(yōu)化BDC策略?:O→AB,由此可以計(jì)算價(jià)值策略如下:

        V?(o) =Ε[∑t = 0TγtR(ot,at)|?]

        (6)

        其中:T表示總時(shí)間步。R(ot,at)表示訓(xùn)練體在給定目標(biāo)下執(zhí)行動(dòng)作獲取的反饋函數(shù)。該函數(shù)由人為依據(jù)訓(xùn)練目的而設(shè)定為(7)。

        BDC所可能包含的部分狀態(tài)空間O及行為空間AB.如表1所示。每個(gè)關(guān)節(jié)運(yùn)動(dòng)范圍及方向如圖3。以正常策略為例,包含身體的歐拉角,四組腿關(guān)節(jié)的相對角度,共11個(gè)信息。由于底層采用PD控制,為簡化復(fù)雜性,未涉及速度和加速度信息。行為空間AB作為四足機(jī)器人關(guān)節(jié)的運(yùn)動(dòng)期望,PD進(jìn)行速度控制,在關(guān)節(jié)角度上進(jìn)行范圍限制。在單腿失效后,失效腿部異側(cè)引入擺動(dòng)關(guān)節(jié)以調(diào)節(jié)身體平衡,失效腿狀態(tài)單元不作為輸入量,此時(shí)的狀態(tài)量維度為10。

        圖3 四足機(jī)器人關(guān)節(jié)運(yùn)動(dòng)示意圖

        表1 狀態(tài)及行為空間范圍

        名稱范圍(deg)前腿Hip (α2)-50°~-10°后腿Hip (α1)-80°~-30°擺動(dòng)關(guān)節(jié)(Side swing joint) (α4)-30°~30°前腿Knee (α3)60°~100°后腿Knee (α3)60°~100°行為空間 AB-25.30°~25.30°

        獎(jiǎng)勵(lì)策略R的構(gòu)建,以機(jī)器人快速向前運(yùn)動(dòng)為運(yùn)作目標(biāo)。構(gòu)建機(jī)器人坐標(biāo)系如圖3。以四足機(jī)器人在x軸運(yùn)動(dòng)方向速度Vx為參考的主要部分,以機(jī)器人身體在水平面的穩(wěn)定性為次要部分,攝入?yún)?shù)為身體的歐拉角αx,αy,αz。構(gòu)建獎(jiǎng)勵(lì)函數(shù)為

        R(ot,at)=w1Vx-|w2αx|-|w3αy|-|w4αz|

        (7)

        其中:w1,w2,w3,w4為各參量權(quán)重。測試時(shí)設(shè)定速度經(jīng)驗(yàn)權(quán)重w1=60。四足機(jī)器人可以穩(wěn)定前行的一種主要表現(xiàn)是其運(yùn)動(dòng)時(shí)姿態(tài)趨于平衡,所以為規(guī)避機(jī)器人局限于某種前進(jìn)策略,需要降低訓(xùn)練時(shí)出現(xiàn)不穩(wěn)定姿態(tài)的概率。在機(jī)器人x軸與y軸方向上設(shè)置歐拉角經(jīng)驗(yàn)權(quán)重w2=w3=0.5。機(jī)器人運(yùn)動(dòng)前進(jìn)的方式未知,某些暫時(shí)性姿態(tài)有可能讓未來動(dòng)作達(dá)到更大獎(jiǎng)勵(lì),而該姿態(tài)卻可能帶來較小的獎(jiǎng)勵(lì),如跳躍。為解決這種矛盾,將機(jī)器人的俯仰姿態(tài)z軸權(quán)重設(shè)置w4=0.2。設(shè)置權(quán)重這一線性的獎(jiǎng)勵(lì)函數(shù),在實(shí)際訓(xùn)練過程中呈現(xiàn)較好效果。

        1.3.2 近端策略優(yōu)化(PPO)

        使用策略梯度算法對學(xué)習(xí)率調(diào)整至關(guān)重要,同時(shí)策略梯度算法對每個(gè)數(shù)據(jù)樣本執(zhí)行梯度跟新,具有高樣本復(fù)雜度。為解決此問題,在PPO算法中讓rt(k)表示概率比為:

        (8)

        式中,k表示策略?參數(shù)集,優(yōu)化目標(biāo)為:

        (9)

        使用神經(jīng)網(wǎng)絡(luò)表示策略?,通過PPO算法來求解POMDP。即?*求解最優(yōu)的參數(shù)集k*,表達(dá)為

        k*=argmaxkVk(o)

        (10)

        PPO算法基于Actor-Critic算法實(shí)現(xiàn),該算法相對傳統(tǒng)的策略梯度算法收斂更快。Actor依據(jù)概率選擇行為,Critic根據(jù)行為得到獎(jiǎng)勵(lì)優(yōu)勢決定Actor收斂方向。Actor和Critic均有兩個(gè)神經(jīng)網(wǎng)絡(luò)構(gòu)成。Actor網(wǎng)絡(luò)有兩個(gè)隱含層,神經(jīng)元數(shù)量依據(jù)經(jīng)驗(yàn)確定,設(shè)置第一個(gè)隱含層神經(jīng)元數(shù)量為狀態(tài)空間維度nOi×20,第二層為行為空間維度nAi×10,由Critic作用可知其策略相對較簡單,設(shè)置一層隱含層,維度為nOi×20。Critic要求相對于Actor更快收斂,依據(jù)實(shí)驗(yàn)分別設(shè)定學(xué)習(xí)率為0.000 09和0.000 18。兩組神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖4。

        圖4 Actor-Critic神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

        1.4 算法實(shí)現(xiàn)過程

        該分層學(xué)習(xí)模型要求在運(yùn)動(dòng)策略成熟后再進(jìn)行上級(jí)策略訓(xùn)練。首先對機(jī)器人各種腿部受損狀況分別訓(xùn)練BDC運(yùn)動(dòng)策略,主要針對兩個(gè)前腿受損問題進(jìn)行訓(xùn)練及仿真。待BDC全部收斂后,引入SDC獲取全部狀態(tài)空間Sall,在隨機(jī)模式下激活BDC與環(huán)境交互,依據(jù)獎(jiǎng)勵(lì)策略(1)對SDC策略進(jìn)行更新。算法實(shí)現(xiàn)過程概括為算法1。

        算法1:分層學(xué)習(xí)訓(xùn)練算法

        隨機(jī)初始化SDC策略參數(shù)集θ

        隨機(jī)初始化BDC策略參數(shù)集k[3]

        初始化運(yùn)動(dòng)模式i=0,i∈0,1,2

        循環(huán)i!=3

        遍歷step=0,1,2...TBDCDO

        與Unity3D交互得到N個(gè)批量:N×{Oi,Ai,Ri}

        依據(jù)Max(sum(Ri))

        依據(jù)目標(biāo)L(k)

        跟新優(yōu)化策略?i←{Oi,Ai,Ri}*

        結(jié)束遍歷

        i++

        結(jié)束循環(huán)遍歷step=0,1,2...TSDCDO

        隨機(jī)運(yùn)動(dòng)模式i,激活BDC策略?i與Unity3D環(huán)境交互

        獲取估值最大索引io

        激活BDC策略后獲取批量 {Sall,As,Rn}

        將批量存入記憶中心有M×{Sall,As,Rn}

        教務(wù)處(部)作為校長和主管教學(xué)副校長領(lǐng)導(dǎo)下的主管全校教育教學(xué)工作的職能機(jī)構(gòu),根據(jù)實(shí)際履行職責(zé)范圍、下設(shè)科室多少,存在“大教務(wù)”和“小教務(wù)”之分。從各校教務(wù)處(部)實(shí)際情況來看,基本屬于“大教務(wù)”范疇,涵蓋規(guī)劃、招生、培養(yǎng)、教研、教務(wù)、實(shí)踐、實(shí)驗(yàn)等各方面,致使事務(wù)過于繁重、工作強(qiáng)度大,全然忙于“事務(wù)性”的應(yīng)付狀態(tài)。

        隨機(jī)向記憶中心抽取一個(gè)批量Mn

        依據(jù)損失函數(shù)L(θ)

        跟新優(yōu)化策略φ←Mn

        結(jié)束遍歷

        分層學(xué)習(xí)的整個(gè)決策過程是由 SDC激活相關(guān)BDC開始。SDC獲取四足機(jī)器人狀態(tài)集Sall,策略φ表達(dá)該狀態(tài)的估計(jì)集,獲取估計(jì)集中最高估值的索引io,io傳遞進(jìn)入策略激活單元,激活固定序列,策略激活單元按序列整理狀態(tài)空間集Oi,其對應(yīng)BDC的Actor網(wǎng)絡(luò)輸入層,BDC子策略?再輸出該狀態(tài)的控制動(dòng)作。

        2 機(jī)器人環(huán)境構(gòu)建

        在Unity3D中構(gòu)建反關(guān)節(jié)四足機(jī)器人系統(tǒng),單個(gè)腿部系統(tǒng)為3個(gè)自由度。策略中心和機(jī)器人仿真分為兩部分進(jìn)行,使用TCP通訊連接兩個(gè)系統(tǒng)。重復(fù)構(gòu)建多個(gè)四足機(jī)器人系統(tǒng),訓(xùn)練時(shí)儲(chǔ)存每個(gè)機(jī)器人連續(xù)運(yùn)動(dòng)集,在概率ρ=0.95選取最優(yōu)獎(jiǎng)勵(lì)集進(jìn)行訓(xùn)練。系統(tǒng)構(gòu)建如圖5描述。

        機(jī)器人Hip關(guān)節(jié)和Knee關(guān)節(jié)角度參考零點(diǎn)垂直于x軸。各關(guān)節(jié)角度區(qū)間跨度較大,不利于快速收斂。為使BDC輸出的角度期望在訓(xùn)練初期更快表現(xiàn)出運(yùn)動(dòng)行為,對輸出范圍進(jìn)行歸一化,行為值a∈AB限制為[-0.44,0.44]。最終輸出期望角度αx=a+b,其中b為各關(guān)節(jié)運(yùn)動(dòng)范圍中值,運(yùn)動(dòng)范圍如表1中所示。

        機(jī)器人的運(yùn)作目標(biāo)是四足機(jī)器人盡可能極限化向前運(yùn)動(dòng)的最大速率。在實(shí)驗(yàn)過程中,由于初始訓(xùn)練時(shí),策略隨機(jī)性導(dǎo)致機(jī)器人姿態(tài)偏離過多,均發(fā)生側(cè)翻,摔倒,嚴(yán)重偏離方向等狀況,這些可能性導(dǎo)致樣本復(fù)雜度上升或增加獲取非理想樣本的概率,因此構(gòu)建機(jī)器人輔助運(yùn)動(dòng)機(jī)制,對過度偏離的角度進(jìn)行周期定角度矯正。并且單一限制某方向歐拉角,不能使機(jī)器人具有調(diào)整姿態(tài)的能力。在策略成熟后,撤銷輔助運(yùn)動(dòng)機(jī)制,再進(jìn)行一定時(shí)間步的訓(xùn)練,機(jī)器人具有保持較好的姿態(tài)調(diào)節(jié)能力并保持一定魯棒性。運(yùn)動(dòng)輔助機(jī)制主要針對x軸和y軸進(jìn)行矯正,y軸角度穩(wěn)定范圍為[-2°,2°],超出范圍則進(jìn)行周期為6 ms,單次0.4°的矯正。同樣的,x軸的穩(wěn)定范圍為[-8°,8°],單次0.6°矯正。x軸角度受腿部運(yùn)動(dòng)的影響,穩(wěn)定范圍相對偏大,可以使其充分發(fā)揮腿部運(yùn)動(dòng)機(jī)能。次要的,z軸矯正防止機(jī)器人過激運(yùn)動(dòng)行為導(dǎo)致傾角過度,z軸穩(wěn)定范圍為[-60°,60°],單次10°矯正。對于某些沖擊動(dòng)作造成姿態(tài)傾斜較大的,該運(yùn)動(dòng)輔助機(jī)制在物理環(huán)境中具有緩和的效果。

        圖5 機(jī)器人訓(xùn)練系統(tǒng)構(gòu)建

        3 仿真與測試

        在Intel單核2.4 GHz處理器上訓(xùn)練所有神經(jīng)網(wǎng)絡(luò)和運(yùn)行機(jī)器人仿真程序,通過構(gòu)建TCP通信網(wǎng)絡(luò)連接分層學(xué)習(xí)策略中心和機(jī)器人仿真環(huán)境,兩者間利用響應(yīng)機(jī)制自動(dòng)完成交互控制及信息反饋這一過程。

        BDC運(yùn)動(dòng)策略的訓(xùn)練目標(biāo),主要有正常運(yùn)動(dòng)與單腿失效運(yùn)動(dòng)。兩者均構(gòu)建基于姿態(tài)歐拉角的輔助運(yùn)動(dòng)系統(tǒng)。在式(7)獎(jiǎng)勵(lì)策略下,正常運(yùn)動(dòng)策略經(jīng)過1 200個(gè)訓(xùn)練批量后,綜合獎(jiǎng)勵(lì)值穩(wěn)定在40。單腿受損后的,同樣經(jīng)過1 200個(gè)訓(xùn)練批量,綜合的獎(jiǎng)勵(lì)值穩(wěn)定在39。訓(xùn)練過程平均直接獎(jiǎng)勵(lì)值數(shù)據(jù)如圖6。分析可知該腿部受損的四足機(jī)器人相對未受損狀況的,運(yùn)動(dòng)速率沒有明顯差異。

        圖6 BDC策略平均直接獎(jiǎng)勵(lì)曲線

        圖7 SDC策略平均直接獎(jiǎng)勵(lì)曲線

        圖8 機(jī)器人運(yùn)動(dòng)速度曲線

        SDC在各個(gè)BDC單元訓(xùn)練結(jié)束后進(jìn)行訓(xùn)練,設(shè)定機(jī)器人運(yùn)動(dòng)狀態(tài)改變周期為20 s,估計(jì)后激活BDC表達(dá)運(yùn)動(dòng)行為。式(1)中獎(jiǎng)勵(lì)權(quán)重依據(jù)子運(yùn)動(dòng)的穩(wěn)定獎(jiǎng)勵(lì)值確定。由于BDC策略存在神經(jīng)網(wǎng)絡(luò)的稀疏性,所以傳入BDC的狀態(tài)空間Oi,不一定就是期望的狀態(tài)空間,但仍可能控制相關(guān)BDC實(shí)現(xiàn)到運(yùn)動(dòng)技能,甚至達(dá)到更好的運(yùn)動(dòng)策略,所以導(dǎo)致Oi可能對應(yīng)多個(gè)BDC策略,但不是之前預(yù)定的訓(xùn)練目標(biāo)。將這一問題交給自適應(yīng)的Double-DQN去解決。在單腿受損后或恢復(fù)正常狀態(tài)過渡時(shí),SDC 激活BDC同時(shí)要考慮過程的時(shí)機(jī)性,讓這一過程快速及穩(wěn)定完成。SDC策略在經(jīng)過4小時(shí)訓(xùn)練后,每個(gè)批量總獎(jiǎng)勵(lì)穩(wěn)定在14,訓(xùn)練數(shù)據(jù)曲線如圖7。

        依據(jù)實(shí)驗(yàn),機(jī)器人從正常運(yùn)動(dòng)向腿部受損過渡時(shí),也近乎完美的表現(xiàn)出連貫性及柔和性。從圖8機(jī)器人左腿受損后的運(yùn)動(dòng)速率曲線分析可得,在正常運(yùn)動(dòng)下,機(jī)器人保持跳躍運(yùn)動(dòng)行為,峰值運(yùn)動(dòng)速率約1.2 m/s,在接近18 s時(shí)腿部受損后,仍繼續(xù)保持速度峰值約0.9 m/s的運(yùn)動(dòng)行為,在運(yùn)動(dòng)過渡期間內(nèi),沒有出現(xiàn)明顯的停滯時(shí)間。對機(jī)器人運(yùn)動(dòng)行為進(jìn)行連續(xù)運(yùn)動(dòng)逐幀截取如圖9,其俯仰姿態(tài)變化對應(yīng)了其運(yùn)動(dòng)時(shí)的跳躍特性。在7幀至8幀的腿部受損的過渡期間,該模型自適應(yīng)調(diào)整運(yùn)動(dòng)行為使機(jī)器人保持運(yùn)動(dòng)的連續(xù)性。

        由此可見該模型可以實(shí)現(xiàn)機(jī)器人連續(xù)向前運(yùn)動(dòng),并在機(jī)器人腿部受損后可以自適應(yīng)控制機(jī)器人繼續(xù)保持運(yùn)作,并保證過程有效的連續(xù)及柔和。

        圖9 正常運(yùn)動(dòng)至左腿受損的截取幀

        4 結(jié)束語

        為解決機(jī)器人腿部受損后無法繼續(xù)保持前進(jìn)的問題,構(gòu)建一種分層學(xué)習(xí)控制模型。SDC和BDC兩部分分別控制運(yùn)動(dòng)決策激活和基礎(chǔ)運(yùn)動(dòng)控制功能,結(jié)構(gòu)化控制方法,降低策略學(xué)習(xí)的復(fù)雜度。依據(jù)Unity3D中訓(xùn)練及仿真的結(jié)果,充分證實(shí)該種分層學(xué)習(xí)組合的可行性。特別地,Double-DQN離散控制和PPO連續(xù)控制各發(fā)揮關(guān)鍵作用。讓激活策略適應(yīng)相關(guān)控制層,由于神經(jīng)網(wǎng)絡(luò)稀疏性,盡管可能不符合期望目標(biāo),但是由于狀態(tài)空間信息局部變化,有可能讓子策略表達(dá)更好的運(yùn)動(dòng)行為。另外,在訓(xùn)練中采用運(yùn)動(dòng)輔助系統(tǒng),降低初始訓(xùn)練的混亂度,有效幫助快速收斂,并且該種方法不會(huì)降低和影響機(jī)器人自我姿態(tài)的調(diào)整能力。

        該種分層學(xué)習(xí)方法,結(jié)構(gòu)化網(wǎng)絡(luò)關(guān)系,互相聯(lián)系上下級(jí)控制策略關(guān)系,但是并沒有深層次的互相影響策略執(zhí)行,仍然是一種淺層次的分層方法。雖然目前的分層學(xué)習(xí)仍然沒有一種通用或者具有深層次理論的方式,依然依據(jù)問題所引而確定結(jié)構(gòu)及方式,但其表達(dá)的思想是大型及復(fù)雜策略解決的理想途徑。未來將分類及思考任務(wù)間不同策略關(guān)系,架構(gòu)相互優(yōu)化的算法,深化策略聯(lián)系,實(shí)現(xiàn)高要求的運(yùn)動(dòng)控制??紤]將傳統(tǒng)控制理論相結(jié)合,將會(huì)是一個(gè)極具價(jià)值的方向。

        猜你喜歡
        腿部分層機(jī)器人
        分體式腿部氣動(dòng)按摩裝置設(shè)計(jì)
        玩具世界(2022年2期)2022-06-15 07:35:58
        一種沉降環(huán)可準(zhǔn)確就位的分層沉降儀
        雨林的分層
        有趣的分層
        腳下放靠墊睡覺更解乏
        機(jī)器人來幫你
        認(rèn)識(shí)機(jī)器人
        機(jī)器人來啦
        認(rèn)識(shí)機(jī)器人
        腳下放靠墊睡覺更解乏
        国产精品熟妇视频国产偷人| 国产精品黑丝美女啪啪啪| 国产av一区二区三区天堂综合网| 国产在线不卡一区二区三区| 亚洲国产成人久久综合一区77| 亚洲av乱码一区二区三区观影| 国产精品网站91九色| 69一区二三区好的精华| 秒播无码国产在线观看| 日产乱码一区二区国产内射| 亚洲综合中文字幕日韩| 亚洲人成无码区在线观看| 日本www一道久久久免费榴莲| 国产毛片A啊久久久久| 综合亚洲二区三区四区在线| 中国人妻与老外黑人| 精品久久久久久无码国产| 91精品国产无码在线观看| 国产无套一区二区三区久久| 精品无码av一区二区三区| 无码中文字幕在线DVD| 国产精品国产三级国av在线观看| 91精品国产在热久久| 中国丰满熟妇xxxx性| 在线精品无码一区二区三区| 99国语激情对白在线观看| 亚洲av午夜精品无码专区| 欧美性猛交xxxx黑人猛交| 国产精品成人av电影不卡| 日本不卡一区二区三区久久精品 | 国产免费无码一区二区三区| 亚洲a人片在线观看网址| av网站不卡的av在线| 久久久亚洲精品一区二区三区| 国产天堂网站麻豆| 女同av免费在线播放| 99久久国产精品网站| 亚洲日韩欧洲无码av夜夜摸| 亚洲午夜无码视频在线播放| 桃色一区一区三区蜜桃视频| 亚洲精品久久久久中文字幕|