亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于確定性策略梯度算法的機械臂控制模型構(gòu)建及仿真

        2021-09-22 12:17:45賈紅濤胡文娟
        粘接 2021年9期
        關(guān)鍵詞:仿真

        賈紅濤 胡文娟

        摘 要:為更好的實現(xiàn)對工業(yè)制造領域中機械臂的控制,結(jié)合當前的深度學習算法,提出一種改進獎勵函數(shù)的DDPG機械臂控制方法。在該方法中,通過引入多獎勵參數(shù)等方式,增強機械臂控制的靈活性,提高目標抓取的準確率。最后通過參數(shù)設置和DDPG網(wǎng)絡模型構(gòu)建,對改進方案進行驗證。結(jié)果表明,該改進方式在目標抓取方面更具有穩(wěn)定性。

        關(guān)鍵詞:DDPG算法;機械臂控制;仿真;獎勵參數(shù)

        中圖分類號:TM359.9 文獻標識碼:A 文章編號:1001-5922(2021)09-0151-04

        Construction and Simulation of Manipulator Control Model Based on Deterministic Strategy Gradient Algorithm

        Jia Hongtao, Hu Wenjuan

        (Shangluo Vocational and Technical College, Shangluo 726000, China)

        Abstract:In order to better control the manipulator in the field of industrial manufacturing, combined with the current deep learning algorithm, a DDPG manipulator control method with improved reward function is proposed. In this method, multi reward parameters are introduced to enhance the flexibility of manipulator control and improve the accuracy of target grasping. Finally, through parameter setting and DDPG network model construction, the improved scheme is verified. The results show that the improved method is more stable in target capturing.

        Key words:DDPG algorithm; manipulator control; simulation; reward parameters

        機械臂在工業(yè)制造領域發(fā)揮重要作用,早期的機械臂控制方法采用的是基于任務的精確數(shù)學模型,這種控制方法下的機械臂的自適應性不理想,只能滿足特定工作條件和指定任務目標下的應用需求,而無法根據(jù)任務或緩解的變化而做出調(diào)整,從而實現(xiàn)更好地控制效果。在最近幾年間,深度強化學習(Deep Reforcement Learning,DRL)實現(xiàn)了快速發(fā)展,并逐步推廣到機器人控制、人工智能博弈等領域,其中的一個重要突破就是機械臂控制開始引用DRL技術(shù)。應用于機械臂控制領域的DRL技術(shù)主要是確定性策略梯度算法(Deep Deterministic Policy Gradient,DDPG),該算法在發(fā)揮強適應性控制效果的同時,也暴露出諸多弊端,比如學習效率低、不穩(wěn)定、調(diào)參難、難復現(xiàn)等。針對該問題,文章提出DDPG算法以提高機械臂控制中目標點到達以及目標抓取任務中的學習效率。

        1 深度確定性策略梯度算法

        運用DQN拓展Q-Learning的方法,Lillicrap等進一步改進了確定性策略梯度算法,創(chuàng)建了DDPG算法。DDPG算法是強化學習領域的重要發(fā)展成果,它的前身是最初的策略梯度算法(Policy Gradient,PG)以及其后的確定性策略梯度算法(Deterministic Policy Gradient,DPG)。DDPG整體結(jié)構(gòu)如圖1所示。

        2 實驗機械臂設計

        在二維平面上,機械臂關(guān)節(jié)坐標位置和機械臂關(guān)節(jié)旋轉(zhuǎn)角度的關(guān)系可用圖2表示。

        圖2中,o表示坐標原點或仿真機械臂的根節(jié)點。l1的一側(cè)端點坐標是a=(0,0),也就是位o點之上,l2末端坐標是,l1與l2的焦點b的坐標是。同理,可計算出關(guān)節(jié)點a、b和c的相對位置,以及目標區(qū)域中心點T。

        3 基于改進DDPG的機械臂控制設計

        3.1 輸入狀態(tài)信息設計

        考慮到在二維機械臂仿真環(huán)境中的狀態(tài)信息并不充分,因此選用三層全連接網(wǎng)絡進行數(shù)據(jù)特征提取即可滿足應用需求。具體控制策略如圖3所示。

        通過上述的策略,可獲取2段機械臂l1、l2的關(guān)節(jié)角度信息、。

        設定機械臂l1、l2的長度均為100,通過上式(1)獲取與環(huán)境相關(guān)的狀態(tài)信息,這些狀態(tài)信息也是算法的狀態(tài)輸入。

        式(2)中,d1-x,d2-x分別是機械臂關(guān)節(jié)b、c的橫坐標距離;d1-y,d2-y表示目標中心點T的縱坐標距離;d3-x,d3-y分別是目標中心點T與仿真環(huán)境中心點的橫坐標距離、縱坐標距離;goal表示布爾值,當機械臂末端在目標中心點T范圍內(nèi)部,布爾值等于1,否則等于0。通過式(2)可獲取算法輸入的7維狀態(tài)信息。

        3.2 輸出控制動作設計

        完成以上網(wǎng)絡控制策略后,機械臂的2個關(guān)節(jié)動作控制量可表示為式(3)。

        其中,a表示動作輸出控制量w1、w2,它是由轉(zhuǎn)動角度變量共同構(gòu)成的,其單位是弧度。其中,w1表示機械臂l1根關(guān)節(jié)在該次動作中所需轉(zhuǎn)動的角度,w2表示機械臂l2與機械臂l1連接關(guān)節(jié)在該次動作值所需轉(zhuǎn)動的角度。轉(zhuǎn)動角度變量w1、w2的取值區(qū)間是[-1,1],設定這一角度區(qū)間是為了避免出現(xiàn)機械臂轉(zhuǎn)動突變的情況,也是防范控制異常的常規(guī)辦法。

        在完成關(guān)節(jié)旋轉(zhuǎn)動作以后a=[w1、w2],機械臂的關(guān)節(jié)角度從變化成,即輸入7維狀態(tài)信息,輸出2維的關(guān)節(jié)轉(zhuǎn)動控制量。

        3.3 原始獎勵函數(shù)改進

        設r為二維仿真機械臂獎勵函數(shù),獎勵r包括r1與r2兩部分組成。

        式(4)中,r1表示目標區(qū)域中心點與機械臂末端的距離獎勵函數(shù),;r2表示稀疏獎勵函數(shù),即機械臂末端在目標區(qū)域內(nèi)環(huán)境反饋值為1的單步獎勵;r=r1+r2表示DDPG算法的原始獎勵函數(shù)。

        研究認為,傳統(tǒng)的單一獎勵函數(shù)設置無法對機械臂動作的優(yōu)劣程度做出準確評定,也無法通過訓練建立理想的算法模型。優(yōu)化后的獎勵函數(shù)能夠避免機械臂的無效探索,還能夠促進強化學習算法走向收斂,對此,可以組合應用分布獎勵、稀疏獎勵、形式化獎勵等不同的獎勵方法。舉例來說,選定上式(4)作為機械臂的獎勵函數(shù),在算法控制下,機械臂會進行轉(zhuǎn)圈甩動,其末端會在某一瞬間抵達目標塊位置,然后繼續(xù)轉(zhuǎn)圈甩動偏離目標點,說明該算法只能實現(xiàn)機械臂轉(zhuǎn)動至目標點,卻不能使機械臂停留在目標點。根據(jù)式(4)的弊端,文章提出了多種獎勵策略相結(jié)合的獎勵函數(shù),即增加r3以改進該獎勵策略。

        式(5)中,d、d`分別表示機械臂末端與目標點在這一時刻及下一時刻的距離。在上式(6)中,獎勵函數(shù)包含了r1、r2、r3三部分。其中,r1表示機械臂末端與目標點之間關(guān)于距離的懲罰性獎勵函數(shù),二者的間距越大,r1值越大,表示懲罰越嚴重,反則反之。

        3.4 整體機械臂抓取控制策略設計

        結(jié)合以上輸入、輸出,以及對獎勵函數(shù)的改進,將DDPG的網(wǎng)絡結(jié)構(gòu)設計為如圖4所示。

        DDPG包含策略網(wǎng)絡和價值網(wǎng)絡,它們的學習率均是10-3,獎勵折扣率y=0.9,回放記憶單元存放數(shù)據(jù)量為30000,單次提取的數(shù)據(jù)batch_size=32。根據(jù)上述設計的網(wǎng)絡結(jié)構(gòu)看出,首先從save、R、S以及S_中調(diào)取出經(jīng)驗回放池內(nèi)的數(shù)據(jù),應用Actor網(wǎng)絡和Critic網(wǎng)絡進行對其訓練。然后,應用依據(jù)策略梯度和TD殘差更新策略網(wǎng)路和價值評價網(wǎng)絡的權(quán)重,實現(xiàn)參數(shù)優(yōu)化。

        4 實驗驗證

        4.1 參數(shù)設置

        設訓練集總數(shù)為2000,每集最大步數(shù)為300,目標區(qū)域的大小為40×40。若目標域連續(xù)停留50步,即可判定控制機械臂已經(jīng)抵達目標點并處于穩(wěn)定狀態(tài),隨即終止該輪訓練。

        4.2 實驗結(jié)果

        4.2.1 不同獎勵函數(shù)下的獎勵變化趨勢

        reward_trend表示平均獎勵隨訓練集數(shù)的變化趨勢。同時為對比該算法的優(yōu)勢,將上述改進的獎勵函數(shù)與傳統(tǒng)的A3C獎勵函數(shù)進行對比。根據(jù)實驗,得到圖5的結(jié)果。

        根據(jù)圖5所示,A3C算法有效利用了cpu的多核性能,可同時對多個智能體進行訓練,因此提高了計算的效率。此外,該算法還可以信息共享的方式更新結(jié)構(gòu)參數(shù),進而提高訓練速度。通過對比上述兩種獎勵函數(shù)下的收斂速度發(fā)現(xiàn),本研究提出的改進DDPG算法波動性的平均獎勵上升速度更快,波動性最小,說明該算法擁有更好的收斂性,只需有效的集數(shù)就可以實現(xiàn)收斂上升。

        4.2.2 訓練效果對比

        通過對比A3C算法與改進的DDPG算法在最后100集中的訓練效果,得到圖6的對比結(jié)果。

        由圖6分析,A3C算法平均每集所用步數(shù)是171.30,改進DDPG算法的平均步數(shù)是111.45。依據(jù)上圖6(a),每10集進行一輪統(tǒng)計,發(fā)現(xiàn)改進DDPG算法的整體步數(shù)普遍少于A3C算法,而且相對步數(shù)的波動性更小。依據(jù)上6(b),在100集內(nèi)最終達成探索任務的,A3C算法只有77%,而改進DDPG算法增加至87%。綜上可知,改進DDPG算法在準確性、穩(wěn)定性上都優(yōu)于A3C算法,整體表現(xiàn)更優(yōu)。

        5 結(jié)語

        通過改進的DDPG算法與傳統(tǒng)的主流算法相比,在機械臂的連續(xù)控制效果方面,無論是在準確性,還是在穩(wěn)定性方面,都具有明顯的優(yōu)勢。說明文章改進的獎勵函數(shù)方式對提高機械臂的穩(wěn)定性具有非常積極的作用和價值。

        參考文獻

        [1]李廣源,史海波,孫杳如. 基于層級深度強化學習的間歇控制算法[J].現(xiàn)代計算機(專業(yè)版),2018(35):3-7.

        [2]多南訊,呂強,林輝燦,等.邁進高維連續(xù)空間:深度強化學習在機器人領域中的應用[J].機器人,2019,41(02):276-288.

        [3]劉乃軍,魯濤,蔡瑩皓,等.機器人操作技能學習方法綜述[J].自動化學報,2019,45(03):458-470.

        [4]柯豐愷,周唯倜,趙大興.優(yōu)化深度確定性策略梯度算法[J].計算機工程與應用,2019,55(07):151-156+233.

        [5]解永春,王勇,陳奧,李林峰.基于學習的空間機器人在軌服務操作技術(shù)[J].空間控制技術(shù)與應用,2019,45(04):25-37.

        [6]卜令正.基于深度強化學習的機械臂控制研究[D].徐州:中國礦業(yè)大學,2019.

        [7]王斐,齊歡,周星群,等.基于多源信息融合的協(xié)作機器人演示編程及優(yōu)化方法[J].機器人,2018,40(04):551-559.

        [8]周慶鋒,王思淳,李德鑫,等.基于DDPG的風電場動態(tài)參數(shù)智能校核知識學習模型[J/OL].中國電力:1-8[2020-09-18].

        [9]張耀中,許佳林,姚康佳,等.基于DDPG算法的無人機集群追擊任務研究[J/OL].航空學報:1-13[2020-09-18].

        [10]張斌,何明,陳希亮,等.改進DDPG算法在自動駕駛中的應用[J].計算機工程與應用,2019,55(10):264-270.

        猜你喜歡
        仿真
        Proteus仿真軟件在單片機原理及應用課程教學中的應用
        工業(yè)機器人模擬仿真技術(shù)在職業(yè)教育中的應用淺析
        一種幫助幼兒車內(nèi)脫險應急裝置的仿真分析
        科技資訊(2016年18期)2016-11-15 20:09:22
        論虛擬仿真實訓系統(tǒng)在口腔實驗教學中的應用
        科技資訊(2016年18期)2016-11-15 07:55:28
        基于機電設備電氣控制線路排故的仿真系統(tǒng)設計
        價值工程(2016年29期)2016-11-14 02:01:16
        航空電氣系統(tǒng)中故障電弧研究
        Buck開關(guān)變換器的基本參數(shù)設計及仿真分析
        試析PLC控制下的自動化立體倉庫仿真情況分析
        基于MADYMO的航空座椅約束系統(tǒng)優(yōu)化設計
        科技視界(2016年18期)2016-11-03 21:44:44
        中國體態(tài)假人模型與FAA Hybrid Ⅲ 型假人模型沖擊差異性分析
        科技視界(2016年18期)2016-11-03 20:31:49
        五月天丁香久久| 久久精品国产亚洲av麻豆长发 | 久久精品国产亚洲综合av| 日韩网红少妇无码视频香港| 亚洲av无码专区在线电影| 香色肉欲色综合| 国产成人精品日本亚洲语音1| 亚洲成生人免费av毛片| 人妻少妇中文字幕,久久精品| 久久亚洲道色综合久久| 日产无人区一线二线三线乱码蘑菇| 中文字幕无线码中文字幕| 天堂Av无码Av一区二区三区| 视频在线播放观看免费| 人妻少妇精品中文字幕专区| 亚洲欧美aⅴ在线资源| 国产午夜成人久久无码一区二区 | 久久九九精品国产av| 男人扒开添女人下部免费视频| 国产肉体ⅹxxx137大胆| 久久精品国产热| 三级日本午夜在线观看| 图片小说视频一区二区| 日韩内射美女人妻一区二区三区 | 婷婷久久香蕉五月综合加勒比| 天堂8中文在线最新版在线| 东京热久久综合久久88| 在线观看免费人成视频国产| 国产一区三区二区视频在线观看| 午夜天堂精品久久久久| 少妇被猛男粗大的猛进出| 精选麻豆国产AV| 国产白浆一区二区三区佳柔| 国产综合精品久久99之一| 丰满熟妇乱子伦| 热99精品| 午夜精品人妻中字字幕| 亚洲精品乱码久久久久蜜桃| 乱子伦视频在线看| 男女在线免费视频网站| 东京热加勒比视频一区|