亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度強化學(xué)習(xí)的機械臂控制快速訓(xùn)練方法

        2022-08-12 02:29:44趙寅甫馮正勇
        計算機工程 2022年8期
        關(guān)鍵詞:向量機械設(shè)置

        趙寅甫,馮正勇

        (西華師范大學(xué)電子信息工程學(xué)院,四川南充 637009)

        0 概述

        機械臂作為機器人領(lǐng)域中使用最廣的一種機械裝置,被應(yīng)用在各個行業(yè),如從工業(yè)生產(chǎn)中的倉庫管理、汽車制造,到農(nóng)業(yè)生產(chǎn)中的碼垛和瓜果產(chǎn)品的采摘分揀。在工業(yè)生產(chǎn)中,許多工廠都是使用示教法對機械臂進(jìn)行控制的,即事先通過手動拖拽或是使用示教器調(diào)整的方式,在移動機械臂到達(dá)每一個目標(biāo)位置時保存各個目標(biāo)的位置信息,然后使機械臂按照目標(biāo)點的順序移動。然而,如果在新的應(yīng)用中目標(biāo)位置產(chǎn)生變化,則需要重新示教,因此,這種采用示教的方法不僅耗費人力,靈活性也有所欠缺。除了示教法,應(yīng)用最為普遍的傳統(tǒng)控制方法通過運動規(guī)劃理論對機械臂進(jìn)行控制。目前的運動規(guī)劃理論包括正運動學(xué)和逆運動學(xué),正運動學(xué)的作用是根據(jù)機械臂的各軸轉(zhuǎn)動角度計算得到機械臂末端的位置,而逆運動學(xué)則根據(jù)機械臂末端的目標(biāo)位置計算得到各軸所需的轉(zhuǎn)動角度。為了實現(xiàn)更靈活的機械臂應(yīng)用,越來越多的研究人員開始將人工智能的數(shù)據(jù)驅(qū)動方法應(yīng)用在機械臂的控制中。本文也將引入數(shù)據(jù)驅(qū)動的深度強化學(xué)習(xí)算法來解決機械臂的智能控制問題。

        強化學(xué)習(xí)是人工智能的一個分支,其通過與環(huán)境的交互得到訓(xùn)練數(shù)據(jù),利用數(shù)據(jù)的訓(xùn)練得到控制模型,進(jìn)而實現(xiàn)智能決策。當(dāng)前,為了提升模型的表征能力,研究者將深度神經(jīng)網(wǎng)絡(luò)引入到強化學(xué)習(xí)中,將兩者優(yōu)勢互補,提出了可在復(fù)雜環(huán)境中感知并決策的深度強化學(xué)習(xí)算法。深度強化學(xué)習(xí)算法能夠在高維度和連續(xù)狀態(tài)空間下有效工作,其研究已經(jīng)在圍棋對弈、Atari 游戲等領(lǐng)域取得了較大進(jìn)展。對于同屬連續(xù)狀態(tài)空間的機械臂控制問題,深度強化學(xué)習(xí)算法也可以很好地加以解決,但存在訓(xùn)練時間消耗巨大的問題。本文提出針對機械臂控制模型先2D 后3D 的訓(xùn)練方法,在保證應(yīng)用效果的情況下縮短訓(xùn)練時間。

        1 深度強化學(xué)習(xí)算法

        1.1 算法介紹

        深度強化學(xué)習(xí)算法作為一種端到端的學(xué)習(xí)算法,具有很強的通用性,研究者已經(jīng)利用深度強化學(xué)習(xí)算法解決了很多智能決策問題:文獻(xiàn)[1]提出深度強化學(xué)習(xí)算法DQN,使智能體學(xué)會了玩Atari 游戲,并打破了人類保持的記錄;文獻(xiàn)[2]同樣在Atari 游戲中使用深度強化學(xué)習(xí)實現(xiàn)了多智能體之間的對戰(zhàn)與合作;文獻(xiàn)[3]利用深度強化學(xué)習(xí)優(yōu)化了仿人機器人的行走穩(wěn)定性;文獻(xiàn)[4]通過策略搜索的方式完成了飛行器的自主飛行;文獻(xiàn)[5]在OpenAI Gym 環(huán)境下,使用深度強化學(xué)習(xí)算法完成了對不同結(jié)構(gòu)的雙足、四足機器人的仿真訓(xùn)練,并比較了不同算法在訓(xùn)練效果上的差異;文獻(xiàn)[6]將深度強化學(xué)習(xí)加入到目標(biāo)檢測算法中,加快了目標(biāo)外框的檢測速度;文獻(xiàn)[7]在超參數(shù)的優(yōu)化中使用強化學(xué)習(xí)算法,并提出了狀態(tài)向量、獎勵函數(shù)和動作的定義方法。

        在深度強化學(xué)習(xí)算法中有以下5 大要素:智能體(Agent),環(huán)境(Environment),動作(Action),狀態(tài)(State),獎勵(Reward)。如圖1 所示,智能體實時地和環(huán)境進(jìn)行交互,智能體觀測到狀態(tài)(狀態(tài)由狀態(tài)向量表征,即描述當(dāng)前狀態(tài)的物理量個數(shù)和取值)后根據(jù)策略輸出動作(機械臂各個關(guān)節(jié)電機的旋轉(zhuǎn)角度),而動作會作用于環(huán)境進(jìn)而影響狀態(tài)。此外,環(huán)境還會根據(jù)動作和狀態(tài)給智能體一個獎勵(由獎勵函數(shù)表征,描述是否達(dá)到了目標(biāo)的一個反饋量化值),而智能體則根據(jù)動作狀態(tài)和獎勵更新自身選擇動作的策略[8]。通過在環(huán)境中的不斷嘗試,獲得最大的獎勵值,學(xué)習(xí)到從狀態(tài)到動作的映射,這種映射就是策略,以參數(shù)化的深度神經(jīng)網(wǎng)絡(luò)表示。

        圖1 強化學(xué)習(xí)算法流程Fig.1 Procedure of reinforcement learning algorithm

        本文中使用的深度強化學(xué)習(xí)算法是深度確定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法[9],該算法流程如圖2 所示。DDPG 算法使用確定性策略梯度(Deterministic Policy Gradient,DPG)算法[10]中的策略網(wǎng)絡(luò),采用Actor-Critic 框架[11],并結(jié)合深度Q 網(wǎng)絡(luò)(Deep Q-Network,DQN)[1]中的經(jīng)驗回放以及目標(biāo)網(wǎng)絡(luò)(Target_Net)和評估網(wǎng)絡(luò)(Eval_Net)分開的技巧,在針對連續(xù)動作空間的環(huán)境中取得了不錯的效果。在DDPG 算法架構(gòu)中包含4 個神經(jīng)網(wǎng)絡(luò),分別是Actor 的目標(biāo)網(wǎng)絡(luò)和評估網(wǎng)絡(luò)以及Critic 的目標(biāo)網(wǎng)絡(luò)和評估網(wǎng)絡(luò),且2 個Actor 網(wǎng)絡(luò)的結(jié)構(gòu)完全相同,2 個Critic 網(wǎng)絡(luò)的結(jié)構(gòu)完全相同。

        圖2 DDPG 算法流程Fig.2 Procedure of DDPG algorithm

        DDPG 算法描述如下:

        算法1DDPG

        輸入Actor 評估網(wǎng)絡(luò),參數(shù)為θ;Actor 目標(biāo)網(wǎng)絡(luò),參數(shù)為θ′;Critic 評估網(wǎng)絡(luò),參數(shù)為ω;Actor 目標(biāo)網(wǎng)絡(luò),參數(shù)為ω′;衰減因子γ;軟更新權(quán)重系數(shù)τ;批量梯度下降的樣本數(shù)m;目標(biāo)網(wǎng)絡(luò)參數(shù)更新步數(shù)C;最大迭代次數(shù)T

        輸出最優(yōu)的Actor 評估網(wǎng)絡(luò)參數(shù)θ,最優(yōu)的Critic 評估網(wǎng)絡(luò)參數(shù)ω

        1)隨機初始化θ、ω,令θ′=θ,ω′=ω,并清空經(jīng)驗回放集合D。

        2)從1 到T(訓(xùn)練總回合)進(jìn)行迭代。

        (1)初始化最初狀態(tài)s。

        (2)Actor 評估網(wǎng)絡(luò)基于狀態(tài)s得到動作a=πθ(s)+N。

        (3)執(zhí)行動作a,得到新的狀態(tài)s′和獎勵r,判斷是否為終止?fàn)顟B(tài)done。

        (4)將{s,a,r,s′,done}保存在經(jīng)驗回放集合D中。

        (7)使用J(θ)=作為損失函數(shù),通過神經(jīng)網(wǎng)絡(luò)的反向傳播來更新Actor評估網(wǎng)絡(luò)的參數(shù)θ。

        (8)若T%C=1,則通過θ′←τθ+(1-τ)θ′,ω′←τω+(1-τ)ω′更新Actor 目標(biāo)網(wǎng)絡(luò)和Critic 目標(biāo)網(wǎng)絡(luò)的參數(shù)θ′和ω′。

        (9)若s′為終止?fàn)顟B(tài),則本輪迭代結(jié)束,否則s=s′,并回到步驟(2)。

        1.2 狀態(tài)向量設(shè)計與獎勵函數(shù)

        在深度強化學(xué)習(xí)中,狀態(tài)向量、獎勵函數(shù)是決定算法性能的重要組成部分。一個好的狀態(tài)向量,能夠全面地表征當(dāng)前所處環(huán)境的特征,加快模型訓(xùn)練速度。一個適合的獎勵函數(shù),能夠準(zhǔn)確地表征模型任務(wù)目標(biāo),加快模型收斂速度。在將深度強化學(xué)習(xí)算法應(yīng)用于真實問題時,如何設(shè)置狀態(tài)向量和獎勵函數(shù)是算法成功的關(guān)鍵,因此,需要使用不同的設(shè)置方式進(jìn)行訓(xùn)練,對兩者的收斂性和穩(wěn)定性進(jìn)行比較分析,尋找最優(yōu)的設(shè)置方式。

        對于狀態(tài)向量的設(shè)置方式,往往根據(jù)具體問題的物理量通過經(jīng)驗設(shè)置。對于獎勵函數(shù)的設(shè)置方式:文獻(xiàn)[12]分析了不同獎勵方式對強化學(xué)習(xí)模型最終效果的影響;文獻(xiàn)[13]針對傳統(tǒng)Q 算法對于機器人獎勵函數(shù)的定義較為寬泛,導(dǎo)致機器人學(xué)習(xí)效率不高的問題,提出一種回報詳細(xì)分類Q(RDC-Q)學(xué)習(xí)算法,算法的收斂速度相對傳統(tǒng)回報Q算法有明顯提高。文獻(xiàn)[14-16]都是基于內(nèi)在啟發(fā)的思路對環(huán)境的感知和外部獎勵信號進(jìn)行處理,轉(zhuǎn)化成自己的內(nèi)在獎勵。

        1.3 機械臂的算法應(yīng)用

        關(guān)于針對機械臂的深度強化學(xué)習(xí)算法訓(xùn)練,已有許多研究者進(jìn)行了不同的研究和嘗試:文獻(xiàn)[17]使用DDPG 算法以機械臂各個關(guān)節(jié)角度作為狀態(tài)向量,針對獎勵函數(shù)設(shè)置問題,提出包含單步獎勵、回合稀疏獎勵和方向獎勵的復(fù)合獎勵函數(shù),并加入優(yōu)先經(jīng)驗回放的概念,提升了算法的訓(xùn)練速度;文獻(xiàn)[18]在OpenAI Gym 的FetchPickAndPlace-v1 環(huán)境中,專門針對機械臂控制進(jìn)行了獎勵函數(shù)的設(shè)計,通過不同獎勵函數(shù)訓(xùn)練,得到了機械臂通過不同的軌跡到達(dá)目標(biāo)位置的策略;文獻(xiàn)[19]采用人工免疫原理對RBF 網(wǎng)絡(luò)訓(xùn)練數(shù)據(jù)集的泛化能力在線調(diào)整隱層結(jié)構(gòu),生成RBF 網(wǎng)絡(luò)隱層,當(dāng)網(wǎng)絡(luò)結(jié)構(gòu)確定時,采用遞推最小二乘法確定網(wǎng)絡(luò)連接權(quán)值,由此對神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu)和連接權(quán)進(jìn)行自適應(yīng)調(diào)整和學(xué)習(xí),大幅提高了機械臂逆運動學(xué)求解精度。文獻(xiàn)[20]提出了基于增廣示教的機械臂軌跡規(guī)劃方法,在經(jīng)驗回放中提前加入少量的示教信息,有效地降低了訓(xùn)練初期的難度,獲得了更優(yōu)秀的性能,并在Gazebo仿真平臺下的Kent6 V2 機械臂上得到了驗證。在訓(xùn)練耗時方面:文獻(xiàn)[21]在Unity 中搭建了包括機械臂和目標(biāo)物品的3D 模型,直接在3D 模型中通過DDPG 算法控制機械臂到達(dá)目標(biāo)下方,并將其托舉起,整個訓(xùn)練過程平均消耗33 h,相較于傳統(tǒng)調(diào)試方法效率提升近61%。

        本文提出先簡化模型(2D 模型)再復(fù)雜模型(3D模型)的訓(xùn)練方法,使尋找合理的狀態(tài)向量設(shè)置和獎勵函數(shù)形式的訓(xùn)練時長大幅縮短,由此構(gòu)建能控制3D 機械臂到達(dá)目標(biāo)位置的深度強化學(xué)習(xí)算法模型,提升算法效率。

        2 模型訓(xùn)練

        本文通過深度強化學(xué)習(xí)算法進(jìn)行訓(xùn)練得到機械臂的控制模型(一個深度神經(jīng)網(wǎng)絡(luò)),其動作是機械臂各轉(zhuǎn)動軸的轉(zhuǎn)動角度,而對于狀態(tài)向量和獎勵函數(shù)形式的選取,則根據(jù)經(jīng)驗使用不同的設(shè)置方式進(jìn)行訓(xùn)練。

        深度強化學(xué)習(xí)算法的訓(xùn)練過程是異常耗時的,通過對訓(xùn)練模型采取不同的狀態(tài)向量和獎勵函數(shù)形式來尋找合理的設(shè)置方式,會使得訓(xùn)練時長成倍增長。為縮減訓(xùn)練時間,本文先在不具備物理屬性的2D 機械臂仿真模型上進(jìn)行訓(xùn)練,這一過程主要目的是找到合理的狀態(tài)向量和獎勵函數(shù)設(shè)置方式,然后基于此設(shè)置方式,遷移到具備物理屬性的3D 仿真環(huán)境中進(jìn)行訓(xùn)練,3D 仿真環(huán)境中的機械臂和現(xiàn)實世界的真實機械臂在物理屬性上已經(jīng)非常接近。本文采用的真實機械臂是越疆科技的Dobot Magician,其在3D 仿真環(huán)境Gazebo中的模型與真是機械臂物理屬性一致。

        2.1 2D 機械臂訓(xùn)練仿真分析

        本文所使用的2D 機械臂仿真效果如圖3 所示[22](彩色效果見《計算機工程》官網(wǎng)HTML 版)。該2D 機械臂環(huán)境以圖中左下角為坐標(biāo)原點,長寬均為400;圖中藍(lán)色方塊為目標(biāo)區(qū)域,中心點坐標(biāo)為(100,100),長寬均為40;兩連桿為一個二軸機械臂,a 點為固定關(guān)節(jié),在整個環(huán)境的正中心,坐標(biāo)為(200,200),b 點和c 點均為自由關(guān)節(jié),c 點為機械臂末端,連桿ab 和連桿bc 的長度均為200,用l代替,兩者與水平正方向的夾角分別記為θ、α,活動范圍均為[0,2π]。根據(jù)θ、α和l可以得到中端b 和末端c 的坐標(biāo)分別為(200+l×cosθ,200+l×sinθ)、(200+l×cosθ+l×cosα,200+l×sinθ+l×sinα)。本文根據(jù)目標(biāo)位置坐標(biāo)點、自身狀態(tài)等環(huán)境信息,使用不同的狀態(tài)向量和獎勵函數(shù)設(shè)置方式進(jìn)行訓(xùn)練,輸出θ、α的改變量,從而控制末端c到達(dá)目標(biāo)區(qū)域(藍(lán)色方塊)。收集每回合的總獎勵值和總步數(shù),對比不同設(shè)置方式的收斂速度和穩(wěn)定性,找到合理的狀態(tài)向量和獎勵函數(shù)設(shè)置方式。

        圖3 2D 機械臂仿真效果示意圖Fig.3 Schematic diagram of 2D manipulator simulation effect

        2.1.1 狀態(tài)向量設(shè)置

        一個好的狀態(tài)向量能夠完整地展示整個學(xué)習(xí)的環(huán)境特征,這樣深度強化學(xué)習(xí)模型就能夠依據(jù)這些狀態(tài)從中學(xué)到有價值的策略。好的狀態(tài)向量在加速模型的收斂速度以及提高模型穩(wěn)定性上起到了至關(guān)重要的作用。

        經(jīng)過分析,最終得到如表1 所示的6 種針對2D機械臂的狀態(tài)向量設(shè)置方法,其中各個參數(shù)的具體含義見表2。

        表1 2D 機械臂狀態(tài)向量設(shè)置方式Table 1 2D manipulator status vector setting patterns

        表2 2D 機械臂狀態(tài)向量中各參數(shù)含義Table 2 Definition of each parameter in 2D manipulator state vector

        本文將以上狀態(tài)設(shè)置方法應(yīng)用在深度強化學(xué)習(xí)算法中,進(jìn)行500 回合每回合最大200 步的訓(xùn)練,得到結(jié)果如圖4~圖9 所示??梢钥闯觯菏褂脴?biāo)準(zhǔn)化后的末端和中端坐標(biāo)以及末端和中端與目標(biāo)之間的直線距離和x、y兩軸距離作為狀態(tài)的效果最好,收斂速度快,且收斂后穩(wěn)定其原因如下:

        圖4 使用2D 機械臂狀態(tài)向量設(shè)置方式1 的訓(xùn)練結(jié)果Fig.4 Training results while using 2D manipulator status vector setting pattern 1

        圖5 使用2D 機械臂狀態(tài)向量設(shè)置方式2 的訓(xùn)練結(jié)果Fig.5 Training results while using 2D manipulator status vector setting pattern 2

        圖6 使用2D 機械臂狀態(tài)向量設(shè)置方式3 的訓(xùn)練結(jié)果Fig.6 Training results while using 2D manipulator status vector setting pattern 3

        圖7 使用2D 機械臂狀態(tài)向量設(shè)置方式4 的訓(xùn)練結(jié)果Fig.7 Training results while using 2D manipulator status vector setting pattern 4

        圖8 使用2D 機械臂狀態(tài)向量設(shè)置方式5 的訓(xùn)練結(jié)果Fig.8 Training results while using 2D manipulator status vector setting pattern 5

        圖9 使用2D 機械臂狀態(tài)向量設(shè)置方式6 的訓(xùn)練結(jié)果Fig.9 Training results while using 2D manipulator status vector setting pattern 6

        1)狀態(tài)向量中不僅包含了末端坐標(biāo),而且還包含了末端與目標(biāo)的位置關(guān)系和中端與目標(biāo)的位置關(guān)系,這樣的狀態(tài)向量能夠更詳細(xì)地描述機械臂整體與目標(biāo)之間相對位置信息,也使算法模型能夠更全面地了解和學(xué)習(xí)環(huán)境。

        2)使用標(biāo)準(zhǔn)化或歸一化對神經(jīng)網(wǎng)絡(luò)訓(xùn)練的輸入量進(jìn)行預(yù)處理能夠消除奇異樣本對訓(xùn)練的影響,加快網(wǎng)絡(luò)模型的收斂速度。

        綜合考慮以上因素,本文最終選擇表1 中第6 種設(shè)置方式作為針對2D 機械臂的最優(yōu)狀態(tài)向量。

        2.1.2 獎勵函數(shù)設(shè)置

        在強化學(xué)習(xí)領(lǐng)域,獎勵函數(shù)的設(shè)計對于算法收斂速度和穩(wěn)定性方面也起到關(guān)鍵作用。一個好的獎勵函數(shù)能夠清晰地告訴強化學(xué)習(xí)算法任務(wù)目標(biāo)是什么,強化學(xué)習(xí)算法就能夠依據(jù)獎勵函數(shù)快速學(xué)習(xí)。

        本文分別選用如表3 中的4 種獎勵函數(shù)設(shè)置方式,各參數(shù)的具體含義見表4。選用以上4 種獎勵函數(shù)設(shè)置方式進(jìn)行500 回合每回合最大200 步的訓(xùn)練,得到結(jié)果如圖10~圖13 所示。

        圖10 使用2 維機械臂獎勵函數(shù)設(shè)置方式1 的訓(xùn)練結(jié)果Fig.10 Training results while using 2D manipulator reward function setting pattern 1

        圖11 使用2 維機械臂獎勵函數(shù)設(shè)置方式2 的訓(xùn)練結(jié)果Fig.11 Training results while using 2D manipulator reward function setting pattern 2

        圖12 使用2 維機械臂獎勵函數(shù)設(shè)置方式3 的訓(xùn)練結(jié)果Fig.12 Training results while using 2D manipulator reward function setting pattern 3

        圖13 使用2 維機械臂獎勵函數(shù)設(shè)置方式4 的訓(xùn)練結(jié)果Fig.13 Training results while using 2D manipulator reward function setting pattern 4

        表3 2 維機械臂獎勵函數(shù)設(shè)置方式Table 3 2D manipulator reward function setting patterns

        表4 2 維機械臂獎勵函數(shù)中各參數(shù)含義Table 4 Definition of each parameter in 2D manipulator reward function

        可以看出:使用執(zhí)行動作前后距離差作為獎勵并沒有使強化學(xué)習(xí)算法很好地了解到任務(wù)目的,每回合步數(shù)和每回合獎勵均未收斂;當(dāng)單純地使用末端與目標(biāo)之間直線距離的負(fù)值時,收斂后的穩(wěn)定性最好;而使用末端與目標(biāo)之間x、y兩軸距離和的負(fù)值作為獎勵時,收斂速度最快,但是收斂后的穩(wěn)定性不足;在使用負(fù)的距離獎勵加上到達(dá)目標(biāo)獎勵時,雖然每回合獎勵的收斂速度快,但是在收斂后會出現(xiàn)“甩手”的現(xiàn)象(每回合步數(shù)大,但是獎勵值小,機械臂末端在目標(biāo)區(qū)域邊緣晃動)。最終,本文選擇使用結(jié)果最為穩(wěn)定的末端與目標(biāo)之間直線距離的負(fù)值作為針對2D 機械臂的最優(yōu)獎勵函數(shù)。

        2.2 3D 機械臂訓(xùn)練仿真分析

        Dobot Magician 機械臂結(jié)構(gòu)如圖14 所示,由圖中可知,該機械臂主要由底座、大臂、小臂和末端執(zhí)行器4 個部分組成,連接處有4 個旋轉(zhuǎn)關(guān)節(jié)Joint1~Joint4,其中,Joint1~Joint3 用于控制末端位置,而Joint4 則用于控制末端執(zhí)行器的角度。圖15 為在Gazebo 仿真環(huán)境下的3D 機械臂,是通過越疆公司給出的Urdf模型導(dǎo)出的,其中并沒有包含末端執(zhí)行器,其余機械結(jié)構(gòu)和實物一致。圖16 為實物機械臂的圖片。

        圖14 Dobot Magician 結(jié)構(gòu)Fig.14 Structure of Dobot Magician

        圖15 Gazebo 中 的Dobot Magician 模型Fig.15 Dobot Magician model in Gazebo

        圖16 實物Dobot Magician 機械臂Fig.16 Real Dobot Magician

        根據(jù)2.1 節(jié)中仿真訓(xùn)練確定的2D 機械臂環(huán)境下的最優(yōu)狀態(tài)向量和獎勵函數(shù),本文將其遷移到3D 環(huán)境中,加入了z軸的信息,并對3D 機械臂進(jìn)行標(biāo)定,使用機械臂的第三軸Joint3 作為中端mid,末端執(zhí)行器作為末端end,得到狀態(tài)向量如下:

        使用末端與目標(biāo)之間的距離的負(fù)值作為獎勵:

        各參數(shù)的具體含義見表5。

        表5 3 維機械臂各參數(shù)含義Table 5 Definition of each parameter in 3D manipulator

        在對獎勵函數(shù)和狀態(tài)向量設(shè)置完成后,使用固定的目標(biāo)位置,在Gazebo 仿真環(huán)境下進(jìn)行訓(xùn)練,每次500 回合,每回合最大200 步,最終得到的訓(xùn)練結(jié)果如圖17~圖18 所示??梢钥闯觯罕疚氖褂玫莫剟詈瘮?shù)和狀態(tài)向量設(shè)置在3D 機械臂環(huán)境下,針對固定目標(biāo)位置的訓(xùn)練效果好,收斂速度快,且收斂后穩(wěn)定,并沒有出現(xiàn)“甩手”的情況。

        圖17 固定目標(biāo)位置的訓(xùn)練結(jié)果1Fig.17 Training result 1 for fixed target positions

        圖18 固定目標(biāo)位置的訓(xùn)練結(jié)果2Fig.18 Training result 2 for fixtarget positions

        在完成對固定目標(biāo)位置的訓(xùn)練后,為了能夠在真實場景下應(yīng)用,對目標(biāo)位置在每回合開始前進(jìn)行隨機的初始化,使用相同的獎勵函數(shù)和狀態(tài)向量設(shè)置進(jìn)行訓(xùn)練,每次3 000 回合,每回合最大200 步,最終得到的訓(xùn)練結(jié)果如圖19~圖20 所示。可以看出:每回合的總步數(shù)和總獎勵在1 000 回合左右收斂,且收斂后的穩(wěn)定性良好。

        圖19 隨機目標(biāo)位置的訓(xùn)練結(jié)果1Fig.19 Training result 1 for random target positions

        圖20 隨機目標(biāo)位置的訓(xùn)練結(jié)果2Fig.20 Training result 2 for random target positions

        以上結(jié)果充分說明了本文所使用的獎勵函數(shù)和狀態(tài)向量能夠很好地描述機械臂所處的環(huán)境與任務(wù)目標(biāo),同時加快強化學(xué)習(xí)模型的收斂速度,提高收斂后的穩(wěn)定性。

        本文采用2D 機械臂仿真完成狀態(tài)向量和獎勵函數(shù)的設(shè)置方式選擇,并成功遷移到3D 機械臂的訓(xùn)練上。在總耗時方面,包括2D 機械臂仿真中狀態(tài)向量和獎勵函數(shù)的探索以及3D 機械臂針對隨機目標(biāo)的訓(xùn)練,平均共消耗約16 h。與文獻(xiàn)[21]中直接在3D 機械臂上訓(xùn)練方式相比,訓(xùn)練時間提升了近52%。最終,訓(xùn)練得到的控制模型部署在真實機械臂上,其控制效果達(dá)到了應(yīng)用要求,具體可見https://www.bilibili.com/video/BV12v41117jQ 視頻。

        3 結(jié)束語

        在機器人應(yīng)用領(lǐng)域,一個可以快速控制機械臂到達(dá)目標(biāo)位置完成抓取和擺放的機械臂控制器,能夠在很大程度上提高生產(chǎn)效率。本文使用基于數(shù)據(jù)驅(qū)動的深度強化學(xué)習(xí)算法DDPG 代替?zhèn)鹘y(tǒng)運動學(xué)求解方法,針對2D 機械臂進(jìn)行訓(xùn)練仿真找到合理的狀態(tài)向量和獎勵函數(shù)設(shè)置方式,并將其遷移到3D 機械臂的仿真環(huán)境中進(jìn)行訓(xùn)練,最終得到能夠快速控制真實機械臂的控制模型。在訓(xùn)練中考慮到強化學(xué)習(xí)算法訓(xùn)練時間冗長,本文提出先2D 后3D 的訓(xùn)練方式,訓(xùn)練時間相較于直接3D 訓(xùn)練縮短近52%。后續(xù)將構(gòu)建存在障礙物的機械臂操作環(huán)境,通過深度強化學(xué)習(xí)算法訓(xùn)練得到控制模型,進(jìn)一步提升機械臂操控的智能化水平。

        猜你喜歡
        向量機械設(shè)置
        向量的分解
        中隊崗位該如何設(shè)置
        少先隊活動(2021年4期)2021-07-23 01:46:22
        聚焦“向量與三角”創(chuàng)新題
        調(diào)試機械臂
        簡單機械
        機械班長
        向量垂直在解析幾何中的應(yīng)用
        按摩機械臂
        本刊欄目設(shè)置說明
        向量五種“變身” 玩轉(zhuǎn)圓錐曲線
        中国老太老肥熟女视频| 国语自产偷拍精品视频偷| 天美麻花果冻视频大全英文版 | 大伊香蕉精品视频一区| 日本av一级视频在线观看| 国产色视频一区二区三区qq号 | 极品av一区二区三区| 欧美私人情侣网站| 日韩国产一区| 中文字幕人妻一区色偷久久| 亚洲精品国产精品乱码视色| 帮老师解开蕾丝奶罩吸乳视频 | 超碰cao已满18进入离开官网| 亚洲成aⅴ人在线观看| 婷婷精品国产亚洲av| 青青草在线免费播放视频| 一区二区三区国产| 精品免费福利视频| 色妞一区二区三区免费视频| 一本色道无码不卡在线观看| 久久人人爽人人爽人人av| 男女好痛好深好爽视频一区| 久久国产精品亚洲我射av大全| 国产精品videossex久久发布 | 久久午夜一区二区三区| 色偷偷偷在线视频播放| 无码少妇一区二区三区芒果| 波多野无码AV中文专区| av网站免费在线浏览| 男女高潮免费观看无遮挡 | 久久亚洲AV无码一区二区综合| 国产交换精品一区二区三区| 亚洲最大av网站在线观看| 国产乱子伦露脸在线| 成年男人午夜视频在线看| 第一次处破女18分钟高清| 精品国精品无码自拍自在线| 国产av无码专区亚洲aⅴ| 蜜桃视频在线观看网址| 色橹橹欧美在线观看视频高清 | 色中文字幕视频在线观看|