亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于DE-MADDPG多智能體強(qiáng)化學(xué)習(xí)機(jī)械臂裝配*

        2024-01-03 01:31:36蘇工兵曾文豪于楚飛
        關(guān)鍵詞:軸孔姿態(tài)機(jī)械

        王 晶,蘇工兵,袁 夢(mèng),曾文豪,于楚飛

        (武漢紡織大學(xué)a.機(jī)械工程與自動(dòng)化學(xué)院;b.湖北省數(shù)字紡織裝備重點(diǎn)實(shí)驗(yàn)室,武漢 430200)

        0 引言

        軸孔裝配是工業(yè)生產(chǎn)中常見(jiàn)的任務(wù)[1]。近年來(lái),隨著以深度學(xué)習(xí)為核心的智能技術(shù)在裝配領(lǐng)域得到了飛躍的發(fā)展[2-6],但在任務(wù)復(fù)雜,需要合作或競(jìng)爭(zhēng)的環(huán)境中,需要多個(gè)智能體協(xié)作[7-9]共同完成目標(biāo),如雙臂機(jī)器人實(shí)現(xiàn)抓取裝配等[10-11]。其中,MADDPG[12]是處理多智能體合作關(guān)系最主要的算法之一,SHEIKH等[13]為了解決多個(gè)智能體的相互影響,提出了解耦性多智能體算法(DE-MADDPG),為每個(gè)智能體獨(dú)立設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù),能有效的加快收斂速度。在串聯(lián)機(jī)器人中,WITT等[14]在連續(xù)動(dòng)作空間中將機(jī)器人的每個(gè)活動(dòng)關(guān)節(jié)作為可觀測(cè)對(duì)象進(jìn)行了多智能體算法的探索研究。趙毓等[15]提出了一種改進(jìn)DDPG算法,以各個(gè)關(guān)節(jié)為決策智能體建立多智能體系統(tǒng),實(shí)現(xiàn)空間機(jī)械臂的勻速抓取。TAO等[16]將多指機(jī)械手的每個(gè)手指視為獨(dú)立個(gè)體,并組合訓(xùn)練各自對(duì)應(yīng)的智能體算法,以協(xié)同完成機(jī)械手操作任務(wù)。這些研究拓展了深度強(qiáng)化學(xué)習(xí)在機(jī)器臂裝配中有效的應(yīng)用,現(xiàn)機(jī)械臂只能實(shí)現(xiàn)較為簡(jiǎn)單的抓取移動(dòng)等任務(wù),對(duì)于較高精度的裝配任務(wù),還是需要進(jìn)一步探索。

        本文以六自由度機(jī)械臂Pieper準(zhǔn)則構(gòu)型為基礎(chǔ),將末端的位置和姿態(tài)分開(kāi)獨(dú)立控制,提出了將DE-MADDPG運(yùn)用于六自由度機(jī)械臂的裝配任務(wù)中,主要解決單智能體算法訓(xùn)練時(shí)間長(zhǎng),難以收斂等,以及多智能體算法在串聯(lián)機(jī)器人中裝配精度等問(wèn)題。對(duì)末端位置和姿態(tài)獨(dú)立控制,降低這兩部分的耦合性,實(shí)現(xiàn)多智能體的協(xié)同控制,可以提高裝配效率,改善裝配穩(wěn)定性以及環(huán)境適應(yīng)能力。

        1 軸孔裝配任務(wù)分析

        軸孔裝配任務(wù)可分為3個(gè)階段,首先通過(guò)尋孔階段,將軸移動(dòng)至孔的正上方;再調(diào)整軸與孔的相對(duì)姿態(tài),完成對(duì)準(zhǔn)任務(wù);最后在保證姿態(tài)穩(wěn)定后沿孔的中心線插入指定深度。為了使軸孔能正確的裝配,主要需要解決軸與孔的位置P和姿態(tài)R之間的對(duì)應(yīng)關(guān)系。裝配模型如圖1所示,在基座標(biāo)下由機(jī)械臂正運(yùn)動(dòng)學(xué)定義的裝配軸的接觸面位姿為(RM,PM),根據(jù)裝配孔在機(jī)械臂基座標(biāo)下的位置關(guān)系,將裝配孔接觸面位姿定義為(RG,PG)。Δl為裝配軸接觸面中心點(diǎn)與孔的中心線之間的距離,Δε、Δω、Δμ分別為裝配軸孔在XYZ軸上的姿態(tài)偏差。

        (a) 圓軸孔裝配 (b) 方軸孔裝配圖1 軸孔裝配示意圖

        在圖1a所示的圓孔的裝配中,軸在調(diào)整姿態(tài)時(shí),只需要實(shí)現(xiàn)Δμ=0為零,即可完成姿態(tài)的匹配,對(duì)于Z軸轉(zhuǎn)動(dòng)引起Δε、Δω誤差可以不用考慮,再將軸移動(dòng)到孔的正上方,滿足位置Δl=0,就能達(dá)到裝配要求。圓軸孔裝配有較多的方案和算法可以實(shí)現(xiàn)這一目標(biāo)[4-6],但對(duì)于如圖1b所示方孔而言,不能只考慮Z軸之間的偏差Δμ,當(dāng)Δε、Δω出現(xiàn)偏差時(shí),方孔裝配過(guò)程中還是會(huì)發(fā)生碰撞,并且是多點(diǎn)多面的復(fù)雜接觸狀態(tài)。這就必須要同時(shí)滿足Δε、Δω、Δμ都為零,才能達(dá)到裝配對(duì)姿態(tài)的要求。過(guò)多的狀態(tài)輸入使得傳統(tǒng)的算法不能很好的適用,且各元素之間的關(guān)聯(lián)會(huì)導(dǎo)致算法無(wú)法收斂,可以通過(guò)將裝配任務(wù)分解為動(dòng)作和姿態(tài)分別控制,能有效的降低運(yùn)算復(fù)雜程度。

        2 DE-MADDPG算法

        2.1 多智能體深度強(qiáng)化學(xué)習(xí)

        強(qiáng)化學(xué)習(xí)算法是一種通過(guò)智能體與環(huán)境交互來(lái)學(xué)習(xí)決策的方法,在多智能體問(wèn)題中,智能體的行動(dòng)和決策互相影響,且需要與其他智能體進(jìn)行交互通信和協(xié)同決策,以達(dá)到協(xié)同實(shí)現(xiàn)任務(wù)的目標(biāo)。多智能體強(qiáng)化學(xué)習(xí)是以馬爾可夫決策過(guò)程為基礎(chǔ)的隨機(jī)博弈過(guò)程,可以將其定義為一個(gè)多元組(S,A1…AN,R1…RN,T,γ)。其中,N為智能體的數(shù)量,S為環(huán)境狀態(tài)的集合,Ai為第i個(gè)智能體的動(dòng)作,Ri為智能體動(dòng)作Ai使St→St+1而獲得的獎(jiǎng)勵(lì)回報(bào),T∈[0,1]為狀態(tài)轉(zhuǎn)移概率,γ為累計(jì)獎(jiǎng)勵(lì)衰減系數(shù)。

        (1)

        每個(gè)智能體的動(dòng)作價(jià)值函數(shù)取決于聯(lián)合動(dòng)作,其公式為:

        (2)

        根據(jù)多智能體的任務(wù)類型,一般可分為完全合作、完全競(jìng)爭(zhēng)和混合類型。本文在單機(jī)械臂中對(duì)位置和姿態(tài)獨(dú)立控制的模式屬于完全合作類型,即所有智能體對(duì)一個(gè)共同的目標(biāo)實(shí)現(xiàn)最優(yōu)控制。

        2.2 MADDPG

        MADDPG是DDPG在多智能體環(huán)境中的擴(kuò)展,每一個(gè)智能體都有完整的DDPG框架。且在訓(xùn)練網(wǎng)絡(luò)中采用雙網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì),即Actor和Critic網(wǎng)絡(luò)都擁有估計(jì)網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò),其網(wǎng)絡(luò)參數(shù)分別為(θπ,θQ)和(θπ′,θQ′)。其中估計(jì)網(wǎng)絡(luò)實(shí)時(shí)計(jì)算更新網(wǎng)絡(luò)參數(shù),能更好的反映環(huán)境的變化;目標(biāo)網(wǎng)絡(luò)通過(guò)延遲更新目標(biāo)Q值和策略,以達(dá)到穩(wěn)定參數(shù)更新的目的。

        MADDPG核心思想是通過(guò)集中訓(xùn)練,分布執(zhí)行的原理,為多智能體系統(tǒng)尋找最佳的聯(lián)合策略H。即每個(gè)智能體的Critic網(wǎng)絡(luò)在訓(xùn)練動(dòng)作價(jià)值函數(shù)階段,還會(huì)用到其他智能體的觀測(cè)和動(dòng)作信息,可以幫助其更好的理解環(huán)境,能更好的對(duì)當(dāng)前聯(lián)合策略的評(píng)估,即Q值。計(jì)算公式為:

        Q=Q(St,a1,a2,…aN)

        (3)

        式中:輸入的參數(shù)為環(huán)境信息St,每個(gè)智能體的動(dòng)作ai,以及Critic的網(wǎng)絡(luò)參數(shù)θQ。

        在多智能體模型中,每個(gè)智能體的Critic網(wǎng)絡(luò)輸入都是相同的,則其損失函數(shù)為:

        (4)

        (5)

        在執(zhí)行階段,每個(gè)智能體的Actor網(wǎng)絡(luò)僅獨(dú)立根據(jù)自己的觀測(cè)和策略就可以做出決策,不需要其他智能體的信息。其策略依靠對(duì)應(yīng)的Critic網(wǎng)絡(luò)訓(xùn)練得到的Q值進(jìn)行梯度更新,策略梯度公式為:

        (6)

        每一次的迭代訓(xùn)練中,由式(7)更新估計(jì)網(wǎng)絡(luò)參數(shù):

        (7)

        式中:απ,αQ為Actor和Critic網(wǎng)絡(luò)的更新率。再估計(jì)網(wǎng)絡(luò)迭代多次后,將其參數(shù)以軟更新的方式傳遞給目標(biāo)網(wǎng)絡(luò),軟更新方式為:

        θ′←τθ+(1-τ)θ′

        (8)

        式中:τ?1為更新系數(shù),θ和θ′分別為估計(jì)網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)參數(shù),可以有效的降低策略評(píng)估和改進(jìn)過(guò)程中的方差,提高算法的穩(wěn)定性和收斂速度。

        2.3 DE-MADDPG

        DE-MADDPG算法是對(duì)MADDPG的一種改進(jìn)算法,在集中訓(xùn)練的基礎(chǔ)上,還為每個(gè)智能體單獨(dú)設(shè)計(jì)局部Critic網(wǎng)絡(luò),如圖2所示,使每個(gè)智能體能夠以解耦的方式同時(shí)最大化全局獎(jiǎng)勵(lì)和局部獎(jiǎng)勵(lì)。可以有效的避免局部最優(yōu)的情況,也防止了全局獎(jiǎng)勵(lì)起主導(dǎo)作用,可以使各智能體高效穩(wěn)定的學(xué)習(xí)到最優(yōu)策略。

        局部Critic網(wǎng)絡(luò)只需要對(duì)智能體i的動(dòng)作狀態(tài)進(jìn)行評(píng)價(jià),得到局部Q值,其損失函數(shù)為:

        (9)

        (10)

        (11)

        3 軸孔裝配策略設(shè)計(jì)

        根據(jù)軸孔裝配的任務(wù)設(shè)計(jì),由兩個(gè)智能體分別控制位置和姿態(tài),對(duì)于一個(gè)六自由度機(jī)械臂而言,雖能通過(guò)控制不同關(guān)節(jié)的運(yùn)動(dòng)分開(kāi)進(jìn)行描述,但在串聯(lián)系統(tǒng)中仍具有一定的耦合性。通過(guò)DE-MADDPG算法來(lái)弱化影響,根據(jù)機(jī)械臂的不同結(jié)構(gòu)特性,為兩個(gè)智能體設(shè)計(jì)獨(dú)立的獎(jiǎng)勵(lì)函數(shù),協(xié)同完成精準(zhǔn)裝配這一共同目標(biāo)。

        3.1 機(jī)械臂動(dòng)作狀態(tài)設(shè)計(jì)

        軸孔裝配示意圖如圖3所示,將控制末端位置信息的關(guān)節(jié)1、2、3定義為智能體1,控制末端姿態(tài)的關(guān)節(jié)4、5、6定義為智能體2。

        圖3 機(jī)械臂軸孔裝配

        3.1.1 機(jī)械臂聯(lián)合狀態(tài)空間

        在裝配任務(wù)中,主要通過(guò)比較軸孔接觸面之間的位姿狀態(tài)來(lái)判斷裝配是否完成,同時(shí)還需要實(shí)現(xiàn)插入指定的深度h,將智能體的狀態(tài)空間定義為:

        (12)

        3.1.2 機(jī)械臂聯(lián)合動(dòng)作空間

        機(jī)械臂通過(guò)輸入6個(gè)關(guān)節(jié)的轉(zhuǎn)動(dòng)角度實(shí)現(xiàn)對(duì)末端位姿的控制,根據(jù)智能體的設(shè)計(jì),定義各智能體的動(dòng)作空間為:

        (13)

        3.2 獎(jiǎng)勵(lì)回報(bào)函數(shù)設(shè)計(jì)

        獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì)是強(qiáng)化學(xué)習(xí)系統(tǒng)能在環(huán)境中不斷試錯(cuò),學(xué)習(xí)到高效穩(wěn)定策略的關(guān)鍵。設(shè)置合適的獎(jiǎng)勵(lì)函數(shù)能準(zhǔn)確的表征模型任務(wù)目標(biāo),提高系統(tǒng)的性能,它的好壞直接決定著算法的收斂速度和程度。本文根據(jù)每個(gè)智能體的獨(dú)立特征以及多智能體系統(tǒng)的任務(wù)目標(biāo)來(lái)設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù),以提高訓(xùn)練的效率和穩(wěn)定性。

        3.2.1 全局獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)

        智能體在t時(shí)刻執(zhí)行聯(lián)合動(dòng)作At,并由機(jī)械臂運(yùn)動(dòng)學(xué)得到此時(shí)的聯(lián)合狀態(tài)St,計(jì)算軸孔接觸面的位置距離Δl和姿態(tài)偏差Δε、Δω、Δμ,如未滿足軸孔裝配精度要求,則進(jìn)行下一時(shí)間步的循環(huán)。在滿足精度要求后進(jìn)行插入階段,當(dāng)插入深度h達(dá)到指定深度hs后即為裝配完成。在裝配探索過(guò)程中,依靠軸與機(jī)械臂之間的六維力傳感器判斷軸與環(huán)境之間的接觸力F,當(dāng)力或力矩超過(guò)突變閾值Flim,則判定發(fā)生碰撞。當(dāng)軸孔裝配完成或發(fā)生碰撞時(shí),才給予系統(tǒng)獎(jiǎng)勵(lì)反饋,并結(jié)束本輪循環(huán)。以任務(wù)目標(biāo)設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù)Rg:

        (14)

        式中:rvc為成功裝配時(shí)獲得的獎(jiǎng)勵(lì)值,即在位置偏差Δl和姿態(tài)偏差Δε、Δω、Δμ都在誤差允許范圍內(nèi)趨近于0時(shí),軸插入指定深度hs后獲得獎(jiǎng)勵(lì);rfl為發(fā)生碰撞時(shí)給予智能體的懲罰值,在其他情況下反饋為智能體的值都為0。在每一輪的訓(xùn)練中,目標(biāo)獎(jiǎng)勵(lì)Rg只會(huì)獲得一次,并在獲得后完成本輪訓(xùn)練。在訓(xùn)練中設(shè)置rvc=100,rfl=-100。

        為了提高智能體的探索效率,同時(shí)避免稀疏獎(jiǎng)勵(lì)導(dǎo)致局部震蕩,無(wú)法收斂等狀態(tài),將各關(guān)節(jié)的轉(zhuǎn)動(dòng)角度作為懲罰值,驅(qū)使機(jī)械臂能夠以最短的運(yùn)動(dòng)路徑完成裝配。其角度懲罰函數(shù)定義為Rθ:

        (15)

        式中:θi對(duì)應(yīng)的是6個(gè)關(guān)節(jié)在一個(gè)步長(zhǎng)內(nèi)的旋轉(zhuǎn)角度,單位為弧度。

        3.2.2 局部獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)

        對(duì)于分別控制位置和姿態(tài)的兩個(gè)智能體,根據(jù)各自的任務(wù)特性設(shè)置獨(dú)立的獎(jiǎng)勵(lì)函數(shù),能提高多智能體的協(xié)作性能。為了提高探索初期的效率,以裝配孔接觸面中心點(diǎn)為圓心,設(shè)置半球形虛擬空間如圖4所示,其半徑為Rd=σRφ。在軸孔裝配過(guò)程中,監(jiān)測(cè)軸接觸面中心點(diǎn)PM與圓心PG之間的距離Ls,當(dāng)Ls≤Rd后,才開(kāi)始對(duì)累計(jì)各智能體的獎(jiǎng)勵(lì)。

        圖4 位置獎(jiǎng)勵(lì)示意圖

        圖4中,Rφ為裝配孔基本尺寸;σ為比例系數(shù),其值根據(jù)軸孔裝配尺寸以及機(jī)械臂裝配環(huán)境而定。通過(guò)仿真實(shí)驗(yàn),當(dāng)系數(shù)較大時(shí),初始獎(jiǎng)勵(lì)較高,但學(xué)習(xí)進(jìn)步較慢,且最終收斂獎(jiǎng)勵(lì)值較低,不是最優(yōu)策略;當(dāng)系數(shù)過(guò)小后,前期的目標(biāo)探索時(shí)間過(guò)長(zhǎng),而且在進(jìn)入范圍后無(wú)法及時(shí)的調(diào)整位姿就發(fā)生碰撞,最終難以收斂。經(jīng)測(cè)試,比較穩(wěn)定的虛擬范圍是σ∈(1,3),在此范圍內(nèi)機(jī)械臂可以較快的找到目標(biāo)區(qū)域,且有充足的時(shí)間來(lái)調(diào)整位置和姿態(tài)。

        (1)基于位置的獎(jiǎng)勵(lì)函數(shù)。為了保證在姿態(tài)在為正確匹配前不發(fā)生碰撞,對(duì)空間三維坐標(biāo)的接近階段采用不同的獎(jiǎng)勵(lì)策略。如圖4所示,將PM沿孔的中心線投影在X-Y平面內(nèi),計(jì)算軸與孔之間的水平距離。在Z軸方向上的位置接近設(shè)置不同的權(quán)重系數(shù),減緩匹配速度,并以虛擬空間半徑為基準(zhǔn)將獎(jiǎng)勵(lì)函數(shù)歸一化,使獎(jiǎng)勵(lì)值不會(huì)因軸孔裝配尺寸的不同以及虛擬空間大小而改變。在接近階段,其獎(jiǎng)勵(lì)函數(shù)為:

        (16)

        在接觸面達(dá)到裝配精度后執(zhí)行插入階段,此時(shí)只需要沿Z軸方向的運(yùn)動(dòng)即可,以插入指定深度hs為目標(biāo),設(shè)計(jì)插入階段獎(jiǎng)勵(lì)函數(shù):

        (17)

        對(duì)于控制位置的智能體,其局部獎(jiǎng)勵(lì)為:

        (18)

        (2)基于姿態(tài)的獎(jiǎng)勵(lì)函數(shù)。用于描述姿態(tài)的旋轉(zhuǎn)方式有旋轉(zhuǎn)矩陣、歐拉角和四元數(shù)等,相較于旋轉(zhuǎn)矩陣的較多元素運(yùn)算以及歐拉角的萬(wàn)向鎖,四元數(shù)只需要一個(gè)4維向量即可描述姿態(tài)的旋轉(zhuǎn),效率更高,且在連續(xù)的變換中更為平滑準(zhǔn)確。一般機(jī)械臂由DH法得到的末端姿態(tài)為旋轉(zhuǎn)矩陣形式,為了更好的計(jì)算裝配軸孔姿態(tài)之間的偏差,通過(guò)式(19)將軸孔的姿態(tài)(RM,RG)轉(zhuǎn)變?yōu)閱挝凰脑獢?shù)的形式(qM,qG)進(jìn)行描述。

        (19)

        式中:mij為姿態(tài)矩陣中的各個(gè)元素,(q0,q1,q2,q3)為四元數(shù)中的4個(gè)參數(shù),且兩個(gè)向量相向時(shí)夾角最大為π。為了使軸在朝著目標(biāo)姿態(tài)修正后得到正向獎(jiǎng)勵(lì),滿足偏差越小,獎(jiǎng)勵(lì)越高。以四元數(shù)之間的夾角定義姿態(tài)獎(jiǎng)勵(lì)函數(shù)r2為:

        r2=π-cos-1(|qM·qG|)

        (20)

        綜上所述,對(duì)于全局Critic網(wǎng)絡(luò)中使用的獎(jiǎng)勵(lì)函數(shù)Rt為:

        (21)

        4 實(shí)驗(yàn)設(shè)計(jì)及驗(yàn)證

        4.1 仿真訓(xùn)練

        在Gazebo仿真訓(xùn)練環(huán)境中搭建裝配模型,裝配實(shí)驗(yàn)對(duì)象采用直徑40 mm圓軸和邊長(zhǎng)25 mm方軸,裝配間隙為0.8 mm,裝配深度hs=100 mm。訓(xùn)練硬件為Inter i9-10900k,RTX 3070 8 G顯存,內(nèi)存32 GB。主要的訓(xùn)練參數(shù)如下:網(wǎng)絡(luò)折扣因子γ=0.99;目標(biāo)網(wǎng)絡(luò)軟更新率τ=0.01;Actor網(wǎng)絡(luò)學(xué)習(xí)率απ=0.001,Critic網(wǎng)絡(luò)學(xué)習(xí)率αQ=0.002;決策周期ΔT=0.1 s,批樣本數(shù)為64,最大訓(xùn)練回合數(shù)15 000,虛擬空間比例σ=2。

        以相同的性能參數(shù)將DE-MADDPG算法與MADDPG算法和DDPG算法進(jìn)行圓孔裝配和方孔裝配對(duì)比訓(xùn)練,總體平均獎(jiǎng)勵(lì)值如圖5所示。

        (a) 圓軸裝配 (b) 方軸裝配圖5 智能體裝配平均獎(jiǎng)勵(lì)

        根據(jù)仿真數(shù)據(jù)分析,3種算法都能實(shí)現(xiàn)穩(wěn)定收斂。多智能體算法(MADDPG和DE-MADDPG)比單智能體算法(DDPG)在收斂速度上有明顯的優(yōu)勢(shì)。在兩種裝配軸孔中,多智能體算法在8000回合之前基本開(kāi)始趨于穩(wěn)定,而DDPG在11 000回合左右才開(kāi)始收斂,這也驗(yàn)證了在單個(gè)機(jī)械臂中應(yīng)用多智能體算法的可行性,并且在訓(xùn)練速度上有較大的提升。在方軸孔裝配中,由于接觸狀態(tài)的復(fù)雜性,使得裝配精度要求更高,相比于圓軸孔裝配,多智能體采取的最優(yōu)策略獲得的獎(jiǎng)勵(lì)都穩(wěn)定在200左右,而DDPG的平均獎(jiǎng)勵(lì)值從196.2降低到了164.6,多智能體在面對(duì)不同形狀、不同精度的裝配任務(wù)使,都能表現(xiàn)出良好的穩(wěn)定性。

        由于DE-MADDPG算法在訓(xùn)練中同時(shí)兼顧了整體目標(biāo)和局部目標(biāo),與MADDPG算法相比,在初期的探索中能讓多智能體系統(tǒng)更快的找到正確的學(xué)習(xí)方向,其獎(jiǎng)勵(lì)值在較少的訓(xùn)練回合中能得到較大的提升。在圓軸孔裝配中,DE-MADDPG在4500回合左右時(shí)其獎(jiǎng)勵(lì)值開(kāi)始趨于穩(wěn)定,比MADDPG減少了近3000回合的訓(xùn)練次數(shù)。而在方軸孔裝配中,其收斂速度只有少量的提升,但在訓(xùn)練過(guò)程中的獎(jiǎng)勵(lì)值波動(dòng)明顯弱于MADDPG,當(dāng)DE-MADDPG遇到錯(cuò)誤的優(yōu)化方向后及時(shí)的修正自身的策略,使得其比MADDPG更加適用于復(fù)雜的任務(wù)。

        為了驗(yàn)證算法的有效性,分別對(duì)DE-MADDPG、MADDPG和DDPG進(jìn)行500次的圓孔和方孔的裝配測(cè)試,孔的位置在工作平臺(tái)上隨機(jī)生成,結(jié)果如表1所示。

        表1 圓孔與方孔裝配時(shí)長(zhǎng)分析

        表1中的總體標(biāo)準(zhǔn)差反映了當(dāng)前算法在執(zhí)行裝配任務(wù)中,每一次用時(shí)長(zhǎng)短的偏差,數(shù)值越小,則表明該算法在面對(duì)不同環(huán)境下的裝配更加的穩(wěn)定。在圓孔裝配中,多智能體算法(DE-MADDPG和MADDPG)與DDPG算法相比,總體用時(shí)分別提升了8.7%和6.6%,而且對(duì)于平均單次裝配用時(shí)標(biāo)準(zhǔn)差,多智能體算法相對(duì)于DDPG有較大的提升,裝配過(guò)程更加的穩(wěn)定。在方孔的裝配中,DE-MADDPG算法學(xué)習(xí)到的策略明顯由于DDPG算法,總裝配時(shí)間縮短了1.15 h,提高了13.2%的裝配效率,且相較于MADDPG,其總體標(biāo)準(zhǔn)差和總時(shí)長(zhǎng)也反映了此算法更加的穩(wěn)定高效。

        4.2 裝配實(shí)驗(yàn)驗(yàn)證

        搭建如圖6所示的裝配環(huán)境,選用川崎BA006N型機(jī)械臂,并配置力/力矩傳感器,以方軸孔的裝配作為實(shí)驗(yàn)對(duì)象,裝配軸固定在機(jī)械臂末端,裝配孔在訓(xùn)練階段固定在工作平臺(tái)已知坐標(biāo)上。實(shí)驗(yàn)采用DE-MADDPG算法通過(guò)控制器對(duì)機(jī)械臂進(jìn)行了10 000次裝配訓(xùn)練,其平均獎(jiǎng)勵(lì)值如圖7所示。

        圖6 裝配實(shí)驗(yàn)示意圖 圖7 實(shí)驗(yàn)訓(xùn)練獎(jiǎng)勵(lì)曲線圖

        實(shí)驗(yàn)環(huán)境與仿真理想環(huán)境有一定差距,在初期探索過(guò)程中提升較慢,后期的收斂穩(wěn)定性也有較大的波動(dòng),但仍在8500回合左右獎(jiǎng)勵(lì)值收斂穩(wěn)定,平均獎(jiǎng)勵(lì)值與仿真結(jié)果基本一致。

        為驗(yàn)證訓(xùn)練結(jié)果的可行性以及泛化性,通過(guò)改變裝配孔在工作空間中的位姿坐標(biāo),對(duì)機(jī)械臂進(jìn)行了100次方孔軸裝配測(cè)試。為了檢驗(yàn)訓(xùn)練模型處理不同任務(wù)的能力,將孔傾斜15°和30°進(jìn)行圓孔和方孔的100次裝配測(cè)試。測(cè)試結(jié)果如表2所示。

        表2 DE-MADDPG算法裝配成功率測(cè)試

        在實(shí)際裝配過(guò)程中,機(jī)械臂動(dòng)力學(xué)參數(shù)配置的誤差以及本體結(jié)構(gòu)的系統(tǒng)誤差是影響裝配成功率的主要原因。從實(shí)驗(yàn)結(jié)果中可以看出,改變裝配孔的傾斜角度會(huì)降低裝配成功的準(zhǔn)確率,但傾斜角度的大小對(duì)實(shí)驗(yàn)的結(jié)果沒(méi)有明顯的影響。在15°和30°傾角裝配中主要失敗在插入過(guò)程中,由于裝配角度的變化,運(yùn)動(dòng)策略也更復(fù)雜,很容易與孔壁發(fā)生摩擦碰撞。而對(duì)于姿態(tài)精度不高的圓孔裝配仍能達(dá)到預(yù)期結(jié)果??梢?jiàn)該算法在機(jī)械臂裝配上具有一定的泛化性。

        5 結(jié)論

        本文對(duì)軸孔裝配提出了基于DE-MADDPG的裝配方案,將六自由度機(jī)械臂分解為兩個(gè)智能體分別對(duì)位置和姿態(tài)控制,并引入了局部評(píng)價(jià)函數(shù),根據(jù)裝配動(dòng)作設(shè)計(jì)了分別用于控制位置和姿態(tài)的局部獎(jiǎng)勵(lì)函數(shù),在訓(xùn)練中能有效的提高收斂速度。并在圓軸孔和方軸孔裝配任務(wù)中與DDPG算法和MADDPG算法進(jìn)行對(duì)比實(shí)驗(yàn),相較于單智能體算法(DDPG)提高了13.2%的裝配效率,且比MADDPG在準(zhǔn)確度和穩(wěn)定性都得到了提升。最后在實(shí)體裝配檢驗(yàn)了DE-MADDPG算法的可行性,同時(shí)其在處理不同姿態(tài)和位置的任務(wù)目標(biāo)時(shí)也具有較好泛化能力。

        猜你喜歡
        軸孔姿態(tài)機(jī)械
        煉鋼轉(zhuǎn)爐托圈銷軸孔在線修復(fù)探討
        攀爬的姿態(tài)
        調(diào)試機(jī)械臂
        全新一代宋的新姿態(tài)
        汽車觀察(2018年9期)2018-10-23 05:46:40
        跑與走的姿態(tài)
        簡(jiǎn)單機(jī)械
        軸孔協(xié)調(diào)接觸建模與試驗(yàn)研究
        機(jī)械班長(zhǎng)
        按摩機(jī)械臂
        有關(guān)大跨距同軸孔系加工方法的研究
        亚洲色拍拍噜噜噜最新网站 | 精品国偷自产在线不卡短视频| 91精品国产无码在线观看| 长腿丝袜在线观看国产| 华人在线视频精品在线| 欲求不満の人妻松下纱荣子| 久久久久久人妻一区精品| 久久精品人成免费| 精品日韩欧美一区二区三区在线播放| av免费在线观看网站大全| 日本最新一区二区三区在线| 婷婷成人丁香五月综合激情| 亚洲色欲色欲综合网站| 国产精品高清视亚洲乱码有限公司 | 日本真人做爰免费视频120秒| 亚洲 精品 综合 精品 自拍| 亚洲偷自拍另类图片二区| 国产一区二区三区白浆在线观看| 免费视频亚洲一区二区三区| 精品人妻少妇av中文字幕| 中国女人内谢69xxxx免费视频| 乱码午夜-极品国产内射| 中文无码免费在线| 国产一区二区白浆在线观看| 国产精品一区二区三久久不卡| 风流老熟女一区二区三区| 区二区欧美性插b在线视频网站| 福利片免费 亚洲| 亚洲熟女熟妇另类中文| 成人无码av免费网站| 久久精品人人做人人综合| 在线视频中文字幕乱人伦| 亚洲女同av一区二区在线观看| 国产日产久久高清ww| 色天使综合婷婷国产日韩av| 精品无码一区二区三区爱欲九九| 日韩午夜在线视频观看| 人妻精品久久一区二区三区| 又大又长粗又爽又黄少妇视频| 亚洲av无码不卡| 69堂在线无码视频2020|