亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度強(qiáng)化學(xué)習(xí)的水下機(jī)械臂自主控制研究

        2024-01-09 07:06:12李忻陽盧倪斌呂詩為劉海瑞
        控制與信息技術(shù) 2023年6期
        關(guān)鍵詞:機(jī)械策略

        李忻陽,盧倪斌,呂詩為,劉海瑞

        (上海中車艾森迪海洋裝備有限公司, 上海 201306)

        0 引言

        近年來,隨著各國(guó)相繼提出“工業(yè)4.0”發(fā)展計(jì)劃,智能控制、水下機(jī)器人技術(shù)、海洋科學(xué)等前沿科技逐漸受到了廣泛的關(guān)注[1]。水下機(jī)器人作為探索海洋的主力軍,近些年來更是獲得了飛速的發(fā)展。水下機(jī)器人按控制方式大體上可分為遙控水下機(jī)器人(remotely operated vehicle,ROV)、半自主水下機(jī)器人(unmanned underwater vehicle,UUV)和智能水下機(jī)器人(autonomous underwater vehicle,AUV),其中水下作業(yè)任務(wù)通常是由裝載有水下機(jī)械臂的ROV來完成。由于水下機(jī)器人往往只能從有限的角度觀測(cè)目標(biāo)物,不僅受水下海流、能見度等因素影響,而且水下作業(yè)環(huán)境復(fù)雜多變,傳統(tǒng)的控制算法很難實(shí)現(xiàn)水下機(jī)械臂的自主控制。操作水下機(jī)器人和機(jī)械臂進(jìn)行作業(yè)通常需要經(jīng)驗(yàn)豐富的操作手謹(jǐn)慎地完成,會(huì)耗費(fèi)大量的時(shí)間和精力。

        2014 年,夏威夷大學(xué)的Giacomo 等[2]在“SAUVIM”型UUV的基礎(chǔ)上,設(shè)計(jì)并搭載了一款基于聲吶和視覺的多重感知系統(tǒng)。其通過獲得的感知信息,在海洋環(huán)境中完成了目標(biāo)的抓取和移動(dòng)任務(wù)。2016年,美國(guó)斯坦福大學(xué)(Stanford University)和阿卜杜拉國(guó)王科技大學(xué)紅海研究中心(KAUST’s Red Sea Research Center)以及MEKA機(jī)器人(MEKA Robotics)合作研制了“海洋一號(hào)”(Ocean One)人形水下機(jī)器人來代替潛水員實(shí)現(xiàn)較高度智能的水下作業(yè)[3]。其配備了兩個(gè)七功能的機(jī)械臂以及多種傳感器,方便操作人員通過遙控的方式進(jìn)行控制和感知,可以執(zhí)行精細(xì)的水下勘探和考古等作業(yè)任務(wù)。2018 年,Satja 等提出了一種用于作業(yè)級(jí)水下機(jī)器人的全自動(dòng)視覺伺服控制算法[4],其通過視覺伺服的方法獲取目標(biāo)位置的偏差量,然后通過逆運(yùn)動(dòng)學(xué)計(jì)算各關(guān)節(jié)的期望位置,以此來控制機(jī)械臂的運(yùn)動(dòng)。但這種方法往往僅適用于小范圍的機(jī)械臂移動(dòng),而且隨著機(jī)械臂自由度的提高,逆運(yùn)動(dòng)學(xué)求解也會(huì)愈發(fā)困難。由此可見,實(shí)現(xiàn)水下機(jī)械臂系統(tǒng)的自主控制仍然面臨著諸多挑戰(zhàn),特別是隨著自由度的提高,狀態(tài)維度會(huì)成倍增加,控制的難度和復(fù)雜度也會(huì)顯著提升。

        近年來,隨著人工智能技術(shù)的發(fā)展,深度強(qiáng)化學(xué)習(xí)逐漸被證明是一種極具發(fā)展?jié)摿Φ闹悄芸刂扑惴?,其?yōu)秀的自學(xué)習(xí)能力、良好的魯棒性以及可以快速適應(yīng)不同環(huán)境的強(qiáng)大能力,為實(shí)現(xiàn)水下機(jī)器人及機(jī)械臂的自主控制提供了廣闊的發(fā)展前景。本文以作業(yè)級(jí)水下機(jī)器人上搭載的七功能機(jī)械臂為主要研究對(duì)象,分析并應(yīng)用強(qiáng)化學(xué)習(xí)算法,實(shí)現(xiàn)了水下七功能機(jī)械臂在空間內(nèi)自主地向目標(biāo)位置進(jìn)行快速精準(zhǔn)移動(dòng)。文中提出的基于人工勢(shì)場(chǎng)的獎(jiǎng)勵(lì)塑造方法不僅適用于水下機(jī)械臂的強(qiáng)化學(xué)習(xí)訓(xùn)練,而且對(duì)目標(biāo)移動(dòng)類型的強(qiáng)化學(xué)習(xí)任務(wù)訓(xùn)練均有較好的學(xué)習(xí)效果。

        1 任務(wù)概述和建模

        1.1 任務(wù)概述

        如圖1 所示,本文所研究的水下機(jī)械臂自主運(yùn)動(dòng)控制任務(wù)可以被看作是一系列連貫的決策-運(yùn)動(dòng)控制過程。在每一個(gè)時(shí)間步內(nèi),智能體會(huì)從環(huán)境中獲得機(jī)械臂和目標(biāo)物的狀態(tài)信息,包括機(jī)械臂各關(guān)節(jié)的位置、速度和目標(biāo)物的位置等數(shù)據(jù)。隨后智能體會(huì)根據(jù)獲得的數(shù)據(jù),基于強(qiáng)化學(xué)習(xí)訓(xùn)練得到的策略做出相應(yīng)的決策,決策數(shù)據(jù)會(huì)對(duì)應(yīng)輸出給各個(gè)關(guān)節(jié)的控制器,控制機(jī)械臂各關(guān)節(jié)的運(yùn)動(dòng)。在下一個(gè)時(shí)間步內(nèi),智能體會(huì)根據(jù)新的狀態(tài)信息,做出新的決策,直到完成任務(wù)目標(biāo)或被判定任務(wù)失敗。從任務(wù)開始直到達(dá)成目標(biāo)或任務(wù)失敗的這一系列決策-運(yùn)動(dòng)控制的過程被稱之為一幕(Episode)。

        1.2 系統(tǒng)建模

        設(shè)世界坐標(biāo)系為{I},機(jī)械臂關(guān)節(jié)坐標(biāo)系為{i},i∈{0,1,2,…,n},其中{n}為末端執(zhí)行器坐標(biāo)系。則,由世界坐標(biāo)系到末端執(zhí)行器坐標(biāo)系的齊次變換矩陣可表示為[5]

        式中:T0,I——機(jī)械臂基坐標(biāo)到世界坐標(biāo)系的齊次變換矩陣,由機(jī)械臂基座的安裝位置決定;Ti,i-1(ηi)——機(jī)械臂關(guān)節(jié)i到關(guān)節(jié)(i-1)的齊次變換矩陣,由機(jī)械臂的DH(Denavit-Hartenberg)參數(shù)ηi決定。

        機(jī)械臂各關(guān)節(jié)的運(yùn)動(dòng)學(xué)可通過下列方程組遞歸得出:

        式中:ωi,i——第i個(gè)關(guān)節(jié)相對(duì)于坐標(biāo)系{i}的角速度;Vi,i——第i個(gè)關(guān)節(jié)相對(duì)于坐標(biāo)系{i}的線速度;Ri-1,i——由坐標(biāo)系{i-1}到坐標(biāo)系{i}的旋轉(zhuǎn)變換矩陣;zi-1,i-1——在坐標(biāo)系{i-1}下第( )i-1 個(gè)關(guān)節(jié)的旋轉(zhuǎn)軸方向;ri,i——在坐標(biāo)系{i}中表示的由坐標(biāo)系{i-1}原點(diǎn)指向坐標(biāo)系{i}原點(diǎn)的位置向量。

        系統(tǒng)的動(dòng)力學(xué)模型如下[6-7]:

        式中:M——計(jì)及附加質(zhì)量的慣性矩陣;C——計(jì)及附加質(zhì)量的科氏力矩陣;D——阻尼矩陣;G——恢復(fù)力矩陣;τctrl——控制力(矩)。

        2 基于強(qiáng)化學(xué)習(xí)的機(jī)械臂自主控制策略

        多功能機(jī)械臂的自主控制具有高維且連續(xù)的狀態(tài)空間和動(dòng)作空間,應(yīng)用強(qiáng)化學(xué)習(xí)算法需保證強(qiáng)化學(xué)習(xí)策略更新方向準(zhǔn)確并有效解決強(qiáng)化學(xué)習(xí)訓(xùn)練過程中的獎(jiǎng)勵(lì)稀疏問題。

        2.1 PPO結(jié)合AC算法模型和原理

        強(qiáng)化學(xué)習(xí)的本質(zhì)就是學(xué)習(xí)“做什么才能使得數(shù)值化的收益信號(hào)最大化”,其中“做什么”指的是如何把當(dāng)前的情景映射成動(dòng)作輸出。近端策略優(yōu)化[8](proximal policy optimization,PPO)屬于一類基于策略的強(qiáng)化學(xué)習(xí)方法。所謂策略指的是由狀態(tài)空間到動(dòng)作空間的一個(gè)映射,主要通過構(gòu)建深度神經(jīng)網(wǎng)絡(luò)的方式來實(shí)現(xiàn)。

        對(duì)于隨機(jī)策略,策略函數(shù)π(a|s,θ)的意義為:在時(shí)刻t、狀態(tài)s和參數(shù)θ下選擇動(dòng)作a的概率,即

        式中:At——t時(shí)刻采取的動(dòng)作;St——t時(shí)刻的狀態(tài);θt——t時(shí)刻的策略網(wǎng)絡(luò)參數(shù)。

        基于策略的強(qiáng)化學(xué)習(xí)算法通常采用式(5)和式(6)進(jìn)行策略的更新:

        式中:Gt——t時(shí)刻的綜合收益或回報(bào);T——當(dāng)前幕的總時(shí)間步數(shù);γ——獎(jiǎng)勵(lì)折扣系數(shù),用于反映某一時(shí)刻的收益與之前時(shí)刻的關(guān)聯(lián)程度,一般取值在0.9~0.99之間;Rk——(k-1)時(shí)刻后智能體從環(huán)境中獲得的即時(shí)獎(jiǎng)勵(lì);α——學(xué)習(xí)率,也稱步長(zhǎng),用于控制參數(shù)更新的步進(jìn)效率。

        該策略梯度算法被稱為REINFORCE[9],它的策略參數(shù)的更新正比于回報(bào)Gt和一個(gè)向量的乘積。這個(gè)向量是選取動(dòng)作概率的梯度除以概率本身,這使得參數(shù)更新的大小正比于回報(bào),而反比于選擇動(dòng)作的概率。前者的意義在于它使得參數(shù)向著更有利于產(chǎn)生最大回報(bào)動(dòng)作的方向更新;而后者的意義在于如果不這樣的話,在當(dāng)前策略下頻繁被選擇的動(dòng)作會(huì)具有優(yōu)勢(shì)而被頻繁更新,即便這些動(dòng)作并不是產(chǎn)生最大回報(bào)的選擇,而這將導(dǎo)致這些動(dòng)作可能會(huì)在學(xué)習(xí)的過程中勝出,繼而影響策略的優(yōu)化。

        該方法在大多數(shù)簡(jiǎn)單的強(qiáng)化學(xué)習(xí)環(huán)境中都獲得了良好的表現(xiàn),但對(duì)水下具有多個(gè)自由度的機(jī)械臂控制而言,卻難以取得較好效果。主要原因有:1) REINFORCE所使用的獎(jiǎng)勵(lì)是由環(huán)境直接給出的,它所評(píng)判的只是某一時(shí)刻所采取的動(dòng)作正確與否,而非基于當(dāng)前已學(xué)習(xí)到的策略的評(píng)判。在水下機(jī)械臂控制這一類高維環(huán)境下,這樣的獎(jiǎng)勵(lì)很難指導(dǎo)智能體朝著正確的方向更新策略;2) 相較于簡(jiǎn)單的強(qiáng)化學(xué)習(xí)測(cè)試環(huán)境,水下機(jī)械臂的自主控制更為接近真實(shí)的環(huán)境,具有較高的狀態(tài)維度。這使得智能體難以充分地去探索環(huán)境以獲得有效的獎(jiǎng)勵(lì),致使訓(xùn)練過程進(jìn)展緩慢甚至無法得到進(jìn)展。

        因此,本文采用PPO 結(jié)合AC 算法[10]框架進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練,AC 包含行動(dòng)器(actor)和評(píng)判器(critic)兩部分,算法結(jié)構(gòu)如圖2所示。

        圖2 PPO 結(jié)合AC 算法結(jié)構(gòu)圖Fig.2 Algorithm structure of PPO combined with AC

        行動(dòng)器使用深度神經(jīng)網(wǎng)絡(luò)構(gòu)建和擬合策略函數(shù),并使用PPO算法對(duì)策略網(wǎng)絡(luò)進(jìn)行參數(shù)學(xué)習(xí)和更新,策略參數(shù)更新的表達(dá)式為

        式中:Vt——t時(shí)刻的優(yōu)勢(shì)函數(shù),用于描述t時(shí)刻所采取的行為的優(yōu)劣;θold——上一次策略更新后的策略參數(shù)向量;?——裁剪系數(shù);clip——裁剪函數(shù)。

        式(8)為clip 函數(shù),用于修正新舊策略的比值函數(shù),見式(9),避免在相同狀態(tài)下,依據(jù)新、舊策略選擇某一動(dòng)作的概率出現(xiàn)過大的差異,進(jìn)而影響強(qiáng)化學(xué)習(xí)策略參數(shù)的更新。

        近端策略優(yōu)化算法通過裁剪函數(shù)來控制新舊策略之間的差異,并將其控制在(1-?,1+?)的范圍內(nèi)。此時(shí),如果優(yōu)勢(shì)函數(shù)Vt>0,則依據(jù)梯度上升的原理,式(9)將大于1,如果比值超出了()1+?,程序?qū)?huì)提前中斷策略參數(shù)的更新,從而將新舊策略之間的比值控制在(1+?)以內(nèi);反之,如果優(yōu)勢(shì)函數(shù)Vt<0,根據(jù)梯度上升原理,式(9)將小于1,程序就會(huì)將新舊策略間的比值限制在(1-?)和1之間。

        評(píng)判器使用深度神經(jīng)網(wǎng)絡(luò)構(gòu)建和擬合當(dāng)前環(huán)境的狀態(tài)價(jià)值函數(shù)v(St|ω),并采用深度學(xué)習(xí)中的梯度下降算法對(duì)價(jià)值網(wǎng)絡(luò)的參數(shù)進(jìn)行更新。價(jià)值網(wǎng)絡(luò)更新過程中的損失計(jì)算采用均方誤差的方式,損失函數(shù)Lv為

        價(jià)值網(wǎng)絡(luò)參數(shù)ω通過梯度下降算法進(jìn)行更新,更新的價(jià)值網(wǎng)絡(luò)參數(shù)為ωq,其計(jì)算公式為

        式中:q——強(qiáng)化學(xué)習(xí)訓(xùn)練輪次。

        價(jià)值網(wǎng)絡(luò)所擬合的正是在當(dāng)前策略下的狀態(tài)價(jià)值函數(shù),將此時(shí)的回報(bào)與狀態(tài)價(jià)值函數(shù)進(jìn)行比較,即可得到基于當(dāng)前策略的優(yōu)勢(shì)函數(shù):

        2.2 獎(jiǎng)勵(lì)塑造

        稀疏獎(jiǎng)勵(lì)問題是指智能體在訓(xùn)練環(huán)境中進(jìn)行探索的過程中難以獲得有效的獎(jiǎng)勵(lì),導(dǎo)致學(xué)習(xí)緩慢甚至無法進(jìn)行學(xué)習(xí)[11]。這是強(qiáng)化學(xué)習(xí)訓(xùn)練過程中經(jīng)常會(huì)面臨的核心問題之一,特別是在面對(duì)復(fù)雜任務(wù)或是接近真實(shí)環(huán)境的情況下。

        解決強(qiáng)化學(xué)習(xí)中的稀疏獎(jiǎng)勵(lì)問題,通常首選的思路是使用人為設(shè)計(jì)的密集獎(jiǎng)勵(lì);但如果人為設(shè)計(jì)獎(jiǎng)勵(lì)的方法不當(dāng),會(huì)使強(qiáng)化學(xué)習(xí)訓(xùn)練產(chǎn)生諸多的問題。首先,人為設(shè)計(jì)獎(jiǎng)勵(lì)的方法大都是針對(duì)某一特定的強(qiáng)化學(xué)習(xí)環(huán)境,幾乎不具備足夠的通用性,即便是相近的環(huán)境,也經(jīng)常需要對(duì)獎(jiǎng)勵(lì)的設(shè)計(jì)做出較大的改動(dòng);其次,不當(dāng)?shù)娜藶楠?jiǎng)勵(lì)設(shè)計(jì)往往會(huì)給予智能體以錯(cuò)誤的引導(dǎo),使學(xué)習(xí)到的策略錯(cuò)誤地收斂到局部最優(yōu),從而導(dǎo)致強(qiáng)化學(xué)習(xí)訓(xùn)練的失?。辉僬?,不當(dāng)?shù)娜藶楠?jiǎng)勵(lì)可能會(huì)使訓(xùn)練得到的策略存在安全隱患,甚至在應(yīng)用后對(duì)機(jī)器人或周邊環(huán)境帶來損害。

        對(duì)于獎(jiǎng)勵(lì)的設(shè)計(jì),文獻(xiàn)[12-13]給出了一種在獎(jiǎng)勵(lì)設(shè)計(jì)的過程中可以保證最優(yōu)策略不變的充分必要條件,結(jié)論是當(dāng)附加的值函數(shù)可以表示為勢(shì)函數(shù)的差分形式的時(shí)候可以保證原最優(yōu)策略不變,即

        式中:F(s,a,s')——在狀態(tài)s采取動(dòng)作a并達(dá)到狀態(tài)s'后給予的附加獎(jiǎng)勵(lì);Φ(s)——狀態(tài)s的勢(shì)函數(shù),其定義為狀態(tài)到實(shí)數(shù)的映射。

        根據(jù)這一原理,本文提出了一種基于人工勢(shì)場(chǎng)法的密集獎(jiǎng)勵(lì)設(shè)計(jì)方法,該方法在保證整體強(qiáng)化學(xué)習(xí)最優(yōu)策略不變的同時(shí),可以廣泛適用于多種水下作業(yè)任務(wù)。

        設(shè)pn=[xn yn zn]T為末端執(zhí)行器在世界坐標(biāo)系下的坐標(biāo),pt=[xtytzt]T為目標(biāo)物在世界坐標(biāo)系下的坐標(biāo),則末端執(zhí)行器和目標(biāo)物的相對(duì)位置矢量可以表示為

        此時(shí),末端執(zhí)行器與目標(biāo)物的歐幾里得距離ρ(pnt)可表示為

        則密集獎(jiǎng)勵(lì)的勢(shì)函數(shù)可表示為

        式中:ξ——大于0的獎(jiǎng)勵(lì)增益系數(shù)。

        式(16)中取負(fù)號(hào)的原因在于,對(duì)于強(qiáng)化學(xué)習(xí)中的獎(jiǎng)勵(lì)而言,越接近目標(biāo)物智能體所獲得的獎(jiǎng)勵(lì)應(yīng)是不斷增大的,這樣才有利于智能體朝著正確的方向更新相應(yīng)的抓取策略。由此可得,每一步的附加獎(jiǎng)勵(lì)函數(shù)的表達(dá)式:

        3 仿真試驗(yàn)和分析

        為驗(yàn)證基于人工勢(shì)場(chǎng)法的獎(jiǎng)勵(lì)塑造方法的有效性,將應(yīng)用獎(jiǎng)勵(lì)塑造前后的強(qiáng)化學(xué)習(xí)訓(xùn)練綜合獎(jiǎng)勵(lì)曲線進(jìn)行對(duì)比分析;同時(shí),應(yīng)用強(qiáng)化學(xué)習(xí)訓(xùn)練后的策略進(jìn)行仿真試驗(yàn),分析自主控制策略的有效性和穩(wěn)定性。

        3.1 仿真試驗(yàn)環(huán)境

        本文中的仿真試驗(yàn)所采用的仿真建模工具為OpenAI Gym MuJoCo(Multi-Joint dynamics with Contact),在機(jī)器人的運(yùn)動(dòng)仿真過程中,MuJoCo可以通過設(shè)置介質(zhì)密度和黏度來模擬水下操作環(huán)境,通過設(shè)置關(guān)節(jié)和驅(qū)動(dòng),完成對(duì)水下機(jī)器人各自由度的狀態(tài)模擬和運(yùn)動(dòng)控制,實(shí)現(xiàn)水下機(jī)器人的姿態(tài)控制和機(jī)械臂運(yùn)動(dòng)仿真功能[14-15]。此外,MuJoCo也可以設(shè)置多種類型的傳感器,以方便地獲得各類數(shù)據(jù),如位置、角度、速度信息等,便于對(duì)強(qiáng)化學(xué)習(xí)結(jié)果進(jìn)行驗(yàn)證。本文搭建的仿真環(huán)境包括水下仿真環(huán)境、七功能機(jī)械臂仿真模型和目標(biāo)物模型,以模擬水下機(jī)械臂自主操作控制的場(chǎng)景。

        圖3 示出水下機(jī)械臂實(shí)物和仿真模型,其中七功能機(jī)械臂的后兩個(gè)關(guān)節(jié)主要用于末端執(zhí)行器的轉(zhuǎn)動(dòng)和開合,并不影響末端執(zhí)行器的位置。因此,本文僅對(duì)影響末端執(zhí)行器運(yùn)動(dòng)的前五個(gè)轉(zhuǎn)動(dòng)關(guān)節(jié)進(jìn)行了仿真建模。為方便觀察,本文在仿真模型中以一個(gè)球形點(diǎn)表示末端執(zhí)行器位置的參考點(diǎn);目標(biāo)物隨機(jī)生成在機(jī)械臂的作業(yè)空間內(nèi),同樣以一個(gè)球形點(diǎn)表示,如圖3中的機(jī)械臂仿真模型所示。

        圖3 水下機(jī)械臂實(shí)物和仿真模型Fig.3 Physical and simulated models of the underwater manipulator

        3.2 仿真試驗(yàn)設(shè)置

        本文采用Python 搭建仿真訓(xùn)練程序,策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)均包含2個(gè)隱層,每個(gè)隱層包含64個(gè)神經(jīng)元,激活函數(shù)采用Tanh 函數(shù),輸出層無激活函數(shù)。輸入層包含5 個(gè)關(guān)節(jié)的角度和角速度,以及末端執(zhí)行器與目標(biāo)的相對(duì)位置關(guān)系,共13個(gè)神經(jīng)元;輸出層包含5個(gè)關(guān)節(jié)的控制力信息,共5個(gè)神經(jīng)元。

        本文設(shè)置的PPO 訓(xùn)練參數(shù)為:獎(jiǎng)勵(lì)折扣系數(shù)γ=0.99,裁剪系數(shù)?=0.2,策略網(wǎng)絡(luò)學(xué)習(xí)率αθ=0.000 3,價(jià)值網(wǎng)絡(luò)學(xué)習(xí)率αω=0.001,每幕最大時(shí)間步長(zhǎng)為1 000,每個(gè)訓(xùn)練輪次步長(zhǎng)為4 000,訓(xùn)練輪次為400次。

        環(huán)境獎(jiǎng)勵(lì)設(shè)置為:每個(gè)時(shí)間步給予-0.1的獎(jiǎng)勵(lì)。當(dāng)關(guān)節(jié)角超出限定值,額外給予-30獎(jiǎng)勵(lì)。末端執(zhí)行器與目標(biāo)距離小于0.005 m,并穩(wěn)定維持3 個(gè)時(shí)間步后,任務(wù)判定成功,額外給予100獎(jiǎng)勵(lì)。若應(yīng)用獎(jiǎng)勵(lì)塑造后的附加獎(jiǎng)勵(lì),則獎(jiǎng)勵(lì)增益系數(shù)ξ=1 000。

        3.3 仿真結(jié)果分析

        強(qiáng)化學(xué)習(xí)訓(xùn)練綜合獎(jiǎng)勵(lì)曲線如圖4所示。圖中,曲線V0表示未應(yīng)用獎(jiǎng)勵(lì)塑造時(shí)的強(qiáng)化學(xué)習(xí)獎(jiǎng)勵(lì)曲線,曲線V1表示應(yīng)用獎(jiǎng)勵(lì)塑造后的強(qiáng)化學(xué)習(xí)獎(jiǎng)勵(lì)曲線。

        圖4 獎(jiǎng)勵(lì)曲線對(duì)比Fig.4 Comparison of reward curves

        從曲線V0可以看出,由于智能體始終難以探測(cè)到有效的正獎(jiǎng)勵(lì),最終只能避免獲得更大的負(fù)獎(jiǎng)勵(lì),經(jīng)過約100萬步訓(xùn)練后,訓(xùn)練獎(jiǎng)勵(lì)穩(wěn)定在-100。而從曲線V1中看到,智能體經(jīng)過約90萬步的訓(xùn)練后,逐漸獲得了有效的自主控制策略,綜合獎(jiǎng)勵(lì)曲線逐漸收斂,獎(jiǎng)勵(lì)穩(wěn)定在300左右。其中獎(jiǎng)勵(lì)曲線的波動(dòng)主要源于目標(biāo)物生成位置的隨機(jī)性,最終的任務(wù)成功率達(dá)到95%以上。

        為驗(yàn)證智能體經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練后策略的有效性,本文在機(jī)械臂的工作范圍內(nèi)隨機(jī)生成了一個(gè)目標(biāo)點(diǎn)(0.626,0.295,0.137)進(jìn)行仿真試驗(yàn)。圖5和圖6分別示出水下機(jī)械臂5 個(gè)關(guān)節(jié)的角度和角速度曲線。可以看出,在智能體控制機(jī)械臂自主向目標(biāo)移動(dòng)過程中,機(jī)械臂各關(guān)節(jié)的運(yùn)動(dòng)過程穩(wěn)定、連貫,共同帶動(dòng)末端執(zhí)行器向目標(biāo)位置快速移動(dòng)。

        圖5 機(jī)械臂關(guān)節(jié)轉(zhuǎn)角曲線Fig.5 Angle curves of manipulator joints

        圖6 機(jī)械臂關(guān)節(jié)角速度曲線Fig.6 Angular velocity curves of manipulator joints

        圖7 和圖8 分別顯示了末端執(zhí)行器向目標(biāo)靠近過程中的三維路徑曲線和歐氏距離曲線。可以看出,在機(jī)械臂的整個(gè)運(yùn)動(dòng)過程中,末端執(zhí)行器徑直趨向目標(biāo),并走出了一條較為平直且順滑的三維趨近曲線;同時(shí)從歐氏距離曲線中也可以看到,僅經(jīng)過約140 個(gè)仿真時(shí)間步,末端執(zhí)行器即完成了初始距離約0.5 m的趨近任務(wù),整個(gè)趨近過程流暢且穩(wěn)定,達(dá)到了水下機(jī)械臂自主運(yùn)動(dòng)控制的預(yù)期效果。

        圖7 機(jī)械臂末端執(zhí)行器軌跡Fig.7 Track of the manipulator end effector

        圖8 末端執(zhí)行器與目標(biāo)距離Fig.8 Distance between the end effector and the target

        4 結(jié)束語

        受水下環(huán)境水動(dòng)力的復(fù)雜特性以及水下作業(yè)時(shí)觀測(cè)角度因素的影響,操作水下多功能機(jī)械臂完成水下精細(xì)的作業(yè)任務(wù)一直以來都需要耗費(fèi)大量的人力和時(shí)間成本,這對(duì)自主控制技術(shù)的研究提出了更為迫切的需求。本文針對(duì)水下機(jī)械臂的自主控制問題,設(shè)計(jì)了一種將PPO與AC結(jié)合的深度強(qiáng)化學(xué)習(xí)訓(xùn)練方法。同時(shí),針對(duì)此類高維環(huán)境下強(qiáng)化學(xué)習(xí)訓(xùn)練過程中出現(xiàn)的獎(jiǎng)勵(lì)稀疏問題,文章提出了一種能夠保證最優(yōu)策略不變的基于人工勢(shì)場(chǎng)法的獎(jiǎng)勵(lì)塑造方法,并使用MuJoCo 建立了仿真模擬環(huán)境,通過對(duì)比分析強(qiáng)化學(xué)習(xí)訓(xùn)練綜合獎(jiǎng)勵(lì)曲線,驗(yàn)證了該獎(jiǎng)勵(lì)塑造方法的有效性。通過隨機(jī)生成目標(biāo)點(diǎn)的方式,驗(yàn)證了經(jīng)強(qiáng)化學(xué)習(xí)訓(xùn)練得到的策略可以在較短的時(shí)間內(nèi)控制水下機(jī)械臂向目標(biāo)完成趨近,趨近過程流暢、穩(wěn)定且可靠。

        目前,受客觀條件的限制,水下機(jī)械臂自主控制的整體研究還僅是在仿真環(huán)境下進(jìn)行,缺少實(shí)際水下機(jī)械臂的自主控制經(jīng)驗(yàn)。在今后的研究中,我們會(huì)逐步將仿真結(jié)果遷移到實(shí)際的水下機(jī)器人的機(jī)械臂控制中,并將其應(yīng)用到更多、更復(fù)雜的情況中,比如更多的自由度、水下機(jī)器人自主控制乃至多智能體的協(xié)同作業(yè)等。

        猜你喜歡
        機(jī)械策略
        基于“選—練—評(píng)”一體化的二輪復(fù)習(xí)策略
        機(jī)械革命Code01
        調(diào)試機(jī)械臂
        求初相φ的常見策略
        例談未知角三角函數(shù)值的求解策略
        我說你做講策略
        ikbc R300機(jī)械鍵盤
        高中數(shù)學(xué)復(fù)習(xí)的具體策略
        簡(jiǎn)單機(jī)械
        機(jī)械班長(zhǎng)
        亚洲一二三四五中文字幕| 中文字幕无码精品亚洲资源网久久 | 日韩人妻无码一区二区三区久久| 久久久久无码精品国产app| 国产欧美日韩精品a在线观看| 玩弄放荡人妻一区二区三区| 精品中文字幕久久久久久| 国产成人久久综合第一区| 精品国产免费一区二区久久| 亚洲av专区国产一区| 香蕉免费一区二区三区| 亚洲欧美一区二区三区 | 亚洲国产av玩弄放荡人妇| 特黄a级毛片免费视频| 中文岛国精品亚洲一区| 永久免费在线观看蜜桃视频| 日本一区二区三区精品免费| 91露脸半推半就老熟妇| 精品无码国产自产拍在线观看| 久草热8精品视频在线观看| 亚洲AV无码乱码一区二区三区| 国产精品国产三级国产不卡| 欧美群妇大交群| 亚洲国产精品毛片av不卡在线 | 亚洲中文久久精品无码| 中文乱码人妻系列一区二区| 久久精品韩国日本国产| 91成人黄色蘑菇视频| 欧美老肥妇做爰bbww| 国产裸体歌舞一区二区| 国产午夜av一区二区三区| 国产精品国产三级国产an不卡| 伊甸园亚洲av久久精品| 亚洲欧洲日本综合aⅴ在线| 久久国产精品免费一区二区| 亚洲大胆视频在线观看| 国产精品情侣呻吟对白视频| 777午夜精品免费观看| 日韩女人毛片在线播放| 亚洲一区久久久狠婷婷| 日韩精品在线一二三四区|