亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于強(qiáng)化學(xué)習(xí)的空間機(jī)械臂控制方法

        2021-01-08 13:14:34李鶴宇林廷宇施國強(qiáng)
        航天控制 2020年6期
        關(guān)鍵詞:狀態(tài)變量控制算法物體

        李鶴宇 林廷宇 曾 賁 施國強(qiáng)

        1. 北京電子工程總體研究所,北京 100854; 2. 北京仿真中心,北京 100854

        0 引言

        隨著航天事業(yè)的不斷發(fā)展,太空垃圾清理、航天器維修、裝備組裝成為研究熱點(diǎn)??臻g機(jī)械臂由于具有良好的適應(yīng)性和擴(kuò)展性,能夠在復(fù)雜場(chǎng)景下,完成多種類型任務(wù),被廣泛應(yīng)用于航天領(lǐng)域。針對(duì)空間碎片對(duì)在軌航天器的安全造成威脅的問題,使用空間機(jī)械臂捕獲非滾轉(zhuǎn)的目標(biāo)[1-2]。SpiderFab計(jì)劃采用7自由度的空間機(jī)械臂,通過人員遙控的方式實(shí)現(xiàn)全自主模式下的在軌制造與組裝[3]。RAMST計(jì)劃在地球軌道上,通過遙操作的方式實(shí)現(xiàn)模塊化天基望遠(yuǎn)鏡的在軌裝配[4]。裝配于國際空間站的雙機(jī)械臂空間機(jī)器人系統(tǒng)Dextre、Robonaut2,利用雙臂的協(xié)同性,能夠執(zhí)行更加復(fù)雜的任務(wù)[5-6]。

        為使得空間機(jī)械臂應(yīng)對(duì)復(fù)雜的任務(wù)需求,需要不斷優(yōu)化控制算法,提高系統(tǒng)的魯棒性與精確性。文獻(xiàn)[7]將末端執(zhí)行器與目標(biāo)相對(duì)速度的絕對(duì)值作為目標(biāo)函數(shù),使用最優(yōu)控制的方法解決空間機(jī)器人捕獲航天器的問題。文獻(xiàn)[8]提出一種凸規(guī)劃控制方法,用于控制空間機(jī)械臂捕獲翻滾航天器。文獻(xiàn)[9]建立碰撞避免模型,提出一種主動(dòng)抑制干擾的控制算法,用于避免碰撞。文獻(xiàn)[10]提出一種基于運(yùn)動(dòng)學(xué)的自適應(yīng)控制方法,用于存在閉環(huán)約束和有效載荷慣性參數(shù)不確定的空間雙機(jī)械臂控制問題。文獻(xiàn)[11]使用絕對(duì)節(jié)點(diǎn)坐標(biāo)法描述柔性體,建立末端帶集中質(zhì)量的雙連桿柔性機(jī)械臂的動(dòng)力學(xué)模型,采用PD控制策略實(shí)現(xiàn)了機(jī)械臂的運(yùn)動(dòng)跟蹤控制。文獻(xiàn)[12]運(yùn)用非慣性系下的拉格朗日分析力學(xué)建立空間機(jī)械臂系統(tǒng)動(dòng)力學(xué)方程,針對(duì)空間機(jī)械臂載體自由繞飛空間目標(biāo)的情形,設(shè)計(jì)抓取目標(biāo)的尋的制導(dǎo)控制規(guī)律。

        隨著計(jì)算能力的發(fā)展和數(shù)據(jù)資源的增加,用于決策問題的深度強(qiáng)化學(xué)習(xí)成為研究熱點(diǎn),出現(xiàn)DQN (Deep Q-network)[13]、DDPG (Deep Deterministic Policy Gradient)[14]、TRPO (Trust Region Policy Optimization)[15]、A3C (Asynchronous Advantage Actor-Critic)[16]、DPPO (Distributed Proximal Policy Optimization)[17-18]等算法。將深度強(qiáng)化學(xué)習(xí)應(yīng)用于控制領(lǐng)域,產(chǎn)生了良好的效果。文獻(xiàn)[19]對(duì)DDPG算法進(jìn)行修改,并結(jié)合人工演示,使用深度強(qiáng)化學(xué)習(xí)控制機(jī)械臂完成插銷入洞的任務(wù)。文獻(xiàn)[20]在仿真環(huán)境中對(duì)TRPO算法進(jìn)行訓(xùn)練,并將神經(jīng)網(wǎng)絡(luò)遷移至ANYmal機(jī)器人,實(shí)現(xiàn)四足控制。文獻(xiàn)[21]不依賴于先驗(yàn)知識(shí)對(duì)PPO算法進(jìn)行訓(xùn)練,并將訓(xùn)練結(jié)果遷移至多指靈巧手機(jī)器人,實(shí)現(xiàn)翻轉(zhuǎn)立方體。文獻(xiàn)[22]使用Q-learning的方法訓(xùn)練最大熵策略,并應(yīng)用于實(shí)際機(jī)器人的操縱,實(shí)現(xiàn)較高的樣本效率。

        本文在虛擬環(huán)境中對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,實(shí)現(xiàn)使用深度強(qiáng)化學(xué)習(xí)的方法控制空間機(jī)械臂,移動(dòng)其抓手至物體下方特定位置。構(gòu)建虛擬環(huán)境,包括5軸空間機(jī)械臂和目標(biāo)物體,作為神經(jīng)網(wǎng)絡(luò)的訓(xùn)練環(huán)境,為算法提供數(shù)據(jù)支撐。設(shè)置狀態(tài)變量表示當(dāng)前環(huán)境信息,作為深度強(qiáng)化學(xué)習(xí)算法的輸入,深度強(qiáng)化學(xué)習(xí)根據(jù)狀態(tài)變量計(jì)算輸出值,設(shè)置獎(jiǎng)勵(lì)函數(shù)對(duì)輸出值進(jìn)行評(píng)價(jià),并由評(píng)價(jià)結(jié)果對(duì)神經(jīng)網(wǎng)絡(luò)的參數(shù)進(jìn)行修改,實(shí)現(xiàn)學(xué)習(xí)過程。

        1 PPO算法

        在policy gradient算法中,神經(jīng)網(wǎng)絡(luò)的參數(shù)為θ,對(duì)應(yīng)的策略為π,在一個(gè)完整的決策過程中,共包含T個(gè)步驟,神經(jīng)網(wǎng)絡(luò)不斷與環(huán)境交互,形成序列τ:

        τ={s1,a1,s2,a2,…,sT,aT}

        (1)

        式中:st∈Rn(t=1,2,…,T)為當(dāng)前環(huán)境的狀態(tài)向量,at∈Rm(t=1,2,…,T)為針對(duì)si神經(jīng)網(wǎng)絡(luò)的動(dòng)作輸出向量。由于神經(jīng)網(wǎng)絡(luò)在相同狀態(tài)下可能得到不同的輸出,因此序列τ發(fā)生的概率為:

        (2)

        式中:p(s1)為當(dāng)前環(huán)境的初始狀態(tài)為s1的概率,pθ(at|st)為環(huán)境狀態(tài)為st、神經(jīng)網(wǎng)絡(luò)參數(shù)為θ時(shí),輸出為at的概率,p(st+1|st,at)的狀態(tài)為st時(shí),通過動(dòng)作輸出at得到新的環(huán)境狀態(tài)為st+1的概率。

        在策略為π時(shí),神經(jīng)網(wǎng)絡(luò)能獲得的期望獎(jiǎng)勵(lì)值為:

        (3)

        式中:pθ(τ)為神經(jīng)網(wǎng)絡(luò)參數(shù)為θ時(shí),τ的概率分布,R(τ)為序列τ對(duì)應(yīng)的獎(jiǎng)勵(lì)值。獎(jiǎng)勵(lì)對(duì)應(yīng)的梯度為:

        (4)

        (5)

        式中:θ′為收集數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)的參數(shù),E(st,at)~πθ表示神經(jīng)網(wǎng)絡(luò)參數(shù)為θ時(shí),由(st,at)計(jì)算得到的期望值,Aθ(st,at)為優(yōu)勢(shì)函數(shù)。如果θ′神經(jīng)網(wǎng)絡(luò)和θ神經(jīng)網(wǎng)絡(luò)在相同狀態(tài)下得到的輸出概率分布相差較大,則需要大量的采樣才能保證算法的有效性,因此在目標(biāo)函數(shù)中加入θ′神經(jīng)網(wǎng)絡(luò)和θ神經(jīng)網(wǎng)絡(luò)的KL散度,最終的目標(biāo)函數(shù)為:

        (6)

        式中:β為KL散度的系數(shù),DKL(θ,θ′)為參數(shù)為θ和θ′神經(jīng)網(wǎng)絡(luò)輸出概率分布的差異。

        2 基于PPO的控制算法

        2.1 系統(tǒng)組成

        本文致力于使用PPO算法對(duì)空間機(jī)械臂進(jìn)行控制,完成將空間機(jī)械臂抓手移動(dòng)至物體下方的目的。系統(tǒng)包括PPO算法和訓(xùn)練環(huán)境2部分,訓(xùn)練環(huán)境由空間機(jī)械臂和目標(biāo)物體組成。設(shè)置合理的狀態(tài)變量和獎(jiǎng)勵(lì)函數(shù)用于PPO算法和訓(xùn)練環(huán)境的交互,PPO算法根據(jù)模型的狀態(tài)變量做出控制決策,獎(jiǎng)勵(lì)函數(shù)對(duì)控制決策進(jìn)行評(píng)價(jià),如果是好的控制決策,則通過調(diào)整神經(jīng)網(wǎng)絡(luò)的參數(shù)增加決策出現(xiàn)的概率,反之則通過調(diào)整參數(shù)降低決策出現(xiàn)的概率,系統(tǒng)結(jié)構(gòu)如圖1所示。

        圖1 系統(tǒng)結(jié)構(gòu)圖

        2.2 訓(xùn)練環(huán)境

        訓(xùn)練環(huán)境包括空間機(jī)械臂和目標(biāo)物體2部分,物體位于空間機(jī)械臂正前方,空間機(jī)械臂包含5個(gè)關(guān)節(jié),每個(gè)關(guān)節(jié)能夠在[0°,360°)的范圍內(nèi)自由旋轉(zhuǎn),相鄰關(guān)節(jié)間的連桿長(zhǎng)度固定,通過控制關(guān)節(jié)的旋轉(zhuǎn),可以在有限范圍內(nèi)移動(dòng)空間機(jī)械臂末端插盤式抓手至任意位置。

        使用Unity設(shè)置空間機(jī)械臂每個(gè)連桿的長(zhǎng)度、關(guān)節(jié)的旋轉(zhuǎn)角度、底座的坐標(biāo)、物體的中心坐標(biāo)和尺寸,完成訓(xùn)練環(huán)境的構(gòu)建。物體放置于固定的位置,空間機(jī)械臂每次初始化時(shí)每個(gè)關(guān)節(jié)保持固定的角度,界面如圖2所示。在PPO算法的獎(jiǎng)勵(lì)函數(shù)中考慮碰撞事件,因此在Unity中使用盒子碰撞器實(shí)現(xiàn)碰撞檢測(cè)功能,將盒子碰撞器加入到空間機(jī)械臂模型的各個(gè)部分監(jiān)控碰撞事件,當(dāng)發(fā)生碰撞時(shí),碰撞器發(fā)出碰撞捕獲信號(hào)和碰撞位置信息。

        圖2 仿真環(huán)境界面

        2.3 基于PPO的控制決策算法

        使用PPO控制空間機(jī)械臂進(jìn)行運(yùn)動(dòng),將抓手移動(dòng)至物體下方,需要設(shè)置合理的狀態(tài)變量和獎(jiǎng)勵(lì)函數(shù),其中狀態(tài)變量用于表示當(dāng)前環(huán)境的信息,神經(jīng)網(wǎng)絡(luò)據(jù)此對(duì)空間機(jī)械臂進(jìn)行控制,輸出5個(gè)軸的轉(zhuǎn)動(dòng)角度,獎(jiǎng)勵(lì)函數(shù)對(duì)神經(jīng)網(wǎng)絡(luò)的控制決策進(jìn)行評(píng)價(jià),從而調(diào)整神經(jīng)網(wǎng)絡(luò)的參數(shù),完成學(xué)習(xí)過程。

        (7)

        代表環(huán)境信息的狀態(tài)變量共79維:

        (8)

        式中:jn為世界坐標(biāo)系中原點(diǎn)指向空間機(jī)械臂關(guān)節(jié)中心的向量,ttarget為世界坐標(biāo)系中原點(diǎn)指向目標(biāo)物體中心坐標(biāo)的向量,f為世界坐標(biāo)系中原點(diǎn)指向機(jī)械臂基座中心的向量,tm為世界坐標(biāo)系中原點(diǎn)指向物體下方選定點(diǎn)的向量,hm為世界坐標(biāo)系中原點(diǎn)指向抓手上方選定點(diǎn)的向量,dcol為碰撞發(fā)生情況。

        獎(jiǎng)勵(lì)函數(shù)分為2個(gè)階段。第1個(gè)階段引導(dǎo)空間機(jī)械臂抓手移動(dòng)至物體下方特定位置:

        (9)

        (10)

        第2階段引導(dǎo)抓手從物體正下方向上移動(dòng)至特定位置:

        (11)

        (12)

        (13)

        3 仿真校驗(yàn)

        為驗(yàn)證本文算法的效果,從算法收斂時(shí)間、訓(xùn)練周期獎(jiǎng)勵(lì)值,以及神經(jīng)網(wǎng)絡(luò)參數(shù)收斂后機(jī)械臂抓手與物體下表面距離等方面進(jìn)行對(duì)比。

        對(duì)不同控制方法的收斂時(shí)間進(jìn)行統(tǒng)計(jì)。傳統(tǒng)控制方法需要根據(jù)特定任務(wù)進(jìn)行調(diào)試,調(diào)試時(shí)間84.0h。訓(xùn)練所使用的計(jì)算機(jī)處理器為Intel(R) Core(TM) i5-9300H,顯卡為NVIDIA GeForce GTX 1650,基于DDPG算法實(shí)現(xiàn)的機(jī)械臂控制算法的學(xué)習(xí)過程需要33.2h[23],本文所使用的基于PPO算法的學(xué)習(xí)過程需要26.1h。相比于經(jīng)典的控制算法,本文算法的學(xué)習(xí)過程能夠節(jié)約68.9%的時(shí)間,相比基于DDPG的控制算法,本文算法的學(xué)習(xí)過程能夠節(jié)約21.4%的時(shí)間。

        其次,統(tǒng)計(jì)訓(xùn)練過程中每個(gè)周期得到的獎(jiǎng)勵(lì)值,如圖3所示,橫軸表示一次訓(xùn)練中的周期數(shù),縱軸表示每個(gè)周期獲得的獎(jiǎng)勵(lì)值。獎(jiǎng)勵(lì)值小說明該周期做出錯(cuò)誤的控制決策,獎(jiǎng)勵(lì)值大說明該周期做出正確的控制決策。

        圖3 三種系統(tǒng)突然加負(fù)載時(shí)的動(dòng)態(tài)響應(yīng)

        由于PPO算法采用離線訓(xùn)練的方式,因此能夠有效縮短數(shù)據(jù)積累階段,在訓(xùn)練開始后,快速進(jìn)入學(xué)習(xí)階段。從圖中可以看出,隨著訓(xùn)練的進(jìn)行,單個(gè)周期獲得的獎(jiǎng)勵(lì)值逐漸增加,說明神經(jīng)網(wǎng)絡(luò)通過與環(huán)境的交互,利用獎(jiǎng)勵(lì)值正確地修改自身參數(shù),逐漸做出正確的控制決策,最終獎(jiǎng)勵(lì)值趨于穩(wěn)定,說明此時(shí)神經(jīng)網(wǎng)絡(luò)的參數(shù)收斂,達(dá)到穩(wěn)定的控制效果。在訓(xùn)練過程中獎(jiǎng)勵(lì)值會(huì)出現(xiàn)波動(dòng),這主要是由于PPO算法在接收狀態(tài)變量后,根據(jù)不同動(dòng)作的概率得到輸出,因此存在較小的概率輸出錯(cuò)誤的動(dòng)作,即出現(xiàn)獎(jiǎng)勵(lì)值的波動(dòng)。由于PPO通過神經(jīng)網(wǎng)絡(luò)生成一個(gè)關(guān)于不同控制決策的概率,因此在一個(gè)周期內(nèi),不一定會(huì)選擇最優(yōu)決策,因此曲線不是平滑的,會(huì)出現(xiàn)獎(jiǎng)勵(lì)值階躍式變化的情況。

        最后對(duì)比在訓(xùn)練完成后,即神經(jīng)網(wǎng)絡(luò)參數(shù)穩(wěn)定時(shí),基于DDPG的控制算法和本文算法的控制穩(wěn)定性。統(tǒng)計(jì)30個(gè)控制指令中機(jī)械臂抓手與物體下方特定位置的相對(duì)距離,如圖4所示,其中虛線代表基于DDPG的控制算法,實(shí)線代表本文算法,實(shí)線波動(dòng)范圍更小,說明訓(xùn)練完成后,本文算法能夠達(dá)到更穩(wěn)定的控制效果,因?yàn)閷?duì)獎(jiǎng)勵(lì)函數(shù)的細(xì)化,有效抑制了控制中的抖動(dòng)現(xiàn)象。

        圖4 機(jī)械臂抓手與物體下方特定位置的相對(duì)位置

        4 結(jié)論

        提出一種基于深度強(qiáng)化學(xué)習(xí)的機(jī)械臂控制算法。首先為深度強(qiáng)化學(xué)習(xí)搭建訓(xùn)練環(huán)境,包括機(jī)械臂和目標(biāo)物體2部分,其次構(gòu)建PPO算法,并設(shè)置合理的狀態(tài)變量和獎(jiǎng)勵(lì)函數(shù),用于神經(jīng)網(wǎng)絡(luò)的訓(xùn)練。通過驗(yàn)證,本文算法能夠在較短時(shí)間內(nèi)收斂,提高效率,并且具有穩(wěn)定的控制效果,能夠有效抑制抖動(dòng)現(xiàn)象。

        猜你喜歡
        狀態(tài)變量控制算法物體
        一階動(dòng)態(tài)電路零狀態(tài)響應(yīng)公式的通用拓展
        基于TwinCAT3控制系統(tǒng)的YB518型小盒透明紙包裝機(jī)運(yùn)行速度的控制分析
        基于嵌套思路的飽和孔隙-裂隙介質(zhì)本構(gòu)理論
        深刻理解物體的平衡
        我們是怎樣看到物體的
        基于ARM+FPGA的模塊化同步控制算法研究
        一種優(yōu)化的基于ARM Cortex-M3電池組均衡控制算法應(yīng)用
        為什么同一物體在世界各地重量不一樣?
        Recent Development and Emerged Technologies of High-Tc Superconducting Coated Conductors
        一種非圓旋轉(zhuǎn)工件支撐裝置控制算法
        青草青草伊人精品视频| 国产成人a在线观看视频免费| 成人黄色网址| 亚洲第一无码精品久久| 国产一区二区精品久久呦| 永久免费视频网站在线| 黑色丝袜秘书夹住巨龙摩擦| 日韩手机在线免费视频| 亚洲毛片av一区二区三区| 丰满少妇被啪啪到高潮迷轩| 午夜精品久久久久久毛片| 无码伊人66久久大杳蕉网站谷歌| 久久久av精品波多野结衣| 性无码专区无码| 国精产品一品二品国在线| 日本熟妇hd8ex视频| 少妇太爽高潮在线播放| 国产成人午夜高潮毛片| 成人无码免费一区二区三区| 国产视频最新| 日本大片在线一区二区三区| 国产精品亚洲av三区亚洲| 国产特级毛片aaaaaaa高清| 亚洲视频1区| 成人短篇在线视频夫妻刺激自拍| 97人妻人人揉人人躁九色| 国产精品v欧美精品v日韩精品| 午夜短无码| 国产在线视频一区二区三区不卡| 无码国产精品一区二区av| 精品人妻系列无码一区二区三区| 国产日韩AV无码免费一区二区| 男女激情视频网站在线| 国产麻豆精品一区二区三区v视界| 二区三区视频| 一级一片内射在线播放| 国产精品无码翘臀在线观看| 久久久噜噜噜www成人网| 色婷婷丁香综合激情| 91色区在线免费观看国产| 狠狠综合久久av一区二区|