亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        概率預(yù)測強化學(xué)習(xí)下非結(jié)構(gòu)環(huán)境機械臂變阻抗力跟蹤控制

        2024-01-01 00:00:00董梓呈胡偉石邵輝郭霖

        摘要: 針對非結(jié)構(gòu)環(huán)境下末端實時移動機械臂阻抗控制力跟蹤問題,通過動態(tài)調(diào)節(jié)阻尼系數(shù)以應(yīng)對接觸環(huán)境的不確定性。為確保阻抗策略的高效搜索,利用機械臂與接觸環(huán)境交互產(chǎn)生狀態(tài)-動作序列構(gòu)建概率預(yù)測模型(PPM)。學(xué)習(xí)過程中,機械臂僅需與非結(jié)構(gòu)接觸環(huán)境進行少量交互即可獲得最優(yōu)變阻抗策略,這使得該過程在真實機械臂上直接訓(xùn)練成為可能。仿真實驗表明,在幾種非結(jié)構(gòu)環(huán)境下,所提出的方法使力跟蹤動態(tài)和穩(wěn)態(tài)性能均明顯優(yōu)于傳統(tǒng)阻抗控制和自適應(yīng)變阻抗控制。

        關(guān)鍵詞: 變阻抗控制; 機械臂力跟蹤; 強化學(xué)習(xí); 非結(jié)構(gòu)環(huán)境; 概率預(yù)測模型

        中圖分類號: TP 273文獻標(biāo)志碼: A"" 文章編號: 1000 5013(2024)04 0461 10

        Probability Prediction Reinforcement Learning for Variable Impedance Force Tracking Control of Robotic Arms in Unstructured Environments

        DONG Zicheng1, HU Weishi2, SHAO Hui1, GUO Lin1

        (1. College of Information Science and Engneering, Huaqiao University, Xiamen 361021, China;

        2. Department of Laboratory and Device Management, Huaqiao University, Xiamen 361021, China)

        Abstract: Aiming at the real time impedance control force tracking problems of the end mobile robotic arm in a unstructured environment, the damping coefficient is dynamically adjusted to cope with the uncertainty of the contact environment. To ensure efficient search of the impedance strategy, a probabilistic prediction model (PPM) is constructed by utilizing the interaction between the robotic arm and the contact environment to generate state action sequences. During the learning process, the robotic arm only needs to interact minimally with the unstructured contact environment to obtain the optimal variable impedance strategy. This makes it possible to directly train the process on a real robotic arm. Simulation results show that in several unstructured environments, the proposed method significantly outperforms the traditional impedance control and adaptive variable impedance control in both dynamic and steady state force tracking performance.

        Keywords: variable impedance control; robotic arm force tracking; reinforcement learning; unstructured environment; probability prediction model

        機械臂已經(jīng)被廣泛應(yīng)用于各類接觸式任務(wù),如人機協(xié)作[1]、貨物裝卸[2]、外科手術(shù)[3]等。這些場景中,除了高精度的運動控制外,還需考慮末端接觸力的跟蹤控制,以保證機械臂作業(yè)效果和交互安全性。阻抗控制是一種機械臂力控制的經(jīng)典方法,然而,實際中的接觸環(huán)境往往是動態(tài)且未知的,經(jīng)典阻抗控制缺乏適應(yīng)環(huán)境變化的能力,因此,難以實現(xiàn)精確力控制。

        一些國內(nèi)外學(xué)者研究了非結(jié)構(gòu)環(huán)境下的阻抗控制力跟蹤方法,目前主要方法可歸結(jié)為參考軌跡自適應(yīng)和變阻抗控制兩類。參考軌跡自適應(yīng)通過辨識環(huán)境信息或直接根據(jù)接觸力來預(yù)測機器人的參考軌跡。Li等[4]用李雅普諾夫理論對接觸動力學(xué)進行分析,提出一種迭代學(xué)習(xí)控制器,調(diào)節(jié)參考軌跡使接觸力保持在所需范圍,控制性能優(yōu)于傳統(tǒng)阻抗控制,但所需迭代次數(shù)較多。劉勝遂等[5]提出基于卡爾曼濾波的自適應(yīng)阻抗控制方法,對機械臂接觸環(huán)境的位置和剛度進行估計,但仍存在一定力跟蹤誤差。李振等[6]在基于環(huán)境參數(shù)估計自適應(yīng)生成參考軌跡的方法上,采用遺傳算法補償接觸力誤差,提高了接觸力跟蹤精度。Roveda等[7]關(guān)注阻抗控制接觸力過沖的問題,采用擴展卡爾曼濾波對環(huán)境剛度進行連續(xù)自適應(yīng)估計,避免接觸過程的力超調(diào)和不穩(wěn)定,但該方法的響應(yīng)速度較慢且跟蹤精度有限。此類方法依賴于環(huán)境信息的辨識精度,對辨識誤差力控精度有較大影響。變阻抗控制是一種更簡單有效的自適應(yīng)力控制方法,對環(huán)境特性的估計誤差不敏感,關(guān)鍵在于設(shè)計控制性能良好而通用的變阻抗策略以應(yīng)對復(fù)雜的接觸環(huán)境。Jung等[8]和Duan等[9]提出的自適應(yīng)變阻抗控制算法具有等價的形式,根據(jù)機械臂末端接觸力實時調(diào)節(jié)阻尼系數(shù),能夠在未知剛度和幾何形狀的曲面上實現(xiàn)力跟蹤,但該方法的跟蹤精度受限于采樣頻率和初始阻抗參數(shù),在控制器和力傳感器的采樣頻率足夠高時,才能獲得較好的控制效果。Cao等[10]對該自適應(yīng)變阻抗方法進行改進,提出一種自適應(yīng)更新率策略,但力控精度提升有限。Hamedani等[11]提出了基于小波神經(jīng)網(wǎng)絡(luò)的智能變阻抗算法來自動調(diào)節(jié)阻尼系數(shù),但這種方法在斜面和復(fù)雜曲面上的力跟蹤精度不高,且動態(tài)性能不佳。此類變阻抗方法難以較好地平衡力跟蹤動態(tài)性能和穩(wěn)態(tài)誤差,綜合控制性能仍存在提升空間。

        人工智能的快速發(fā)展為機械臂控制問題提供了新思路,例如,利用強化學(xué)習(xí),機械臂能夠通過試錯的方式優(yōu)化自身行為,而不需要本體和環(huán)境的先驗信息[12-13]。Buchli等[14]提出一種基于策略函數(shù)的強化學(xué)習(xí)算法PI2,將此方法運用于機器人的自適應(yīng)阻抗控制中,并證明其最優(yōu)性。Li等[15]提出一種強化學(xué)習(xí)變阻抗方法,通過仿真和實驗證明機器人與環(huán)境只需少量交互即可成功學(xué)習(xí)出力控制策略。Wu等[16]研究了人機協(xié)作最優(yōu)阻抗問題,用Q-Learning設(shè)計自適應(yīng)阻抗控制律,使機器人能夠根據(jù)接觸力在線估測人的示教軌跡,實現(xiàn)人機平順交互。Du等[17]將虛擬阻尼項引入傳統(tǒng)阻抗控制中,使用模糊強化學(xué)習(xí)對虛擬阻尼進行調(diào)整,提升了手術(shù)機器人的力跟蹤性能,并保證能量消耗最優(yōu)。然而,目前大多數(shù)基于強化學(xué)習(xí)的變阻抗方法主要關(guān)注任務(wù)本身而忽略了數(shù)據(jù)效率,機械臂需與環(huán)境進行大量交互以采集足量的訓(xùn)練樣本,這在實際機械臂系統(tǒng)中存在安全問題,且交互過程通常非常耗時,因此,數(shù)據(jù)效率低下成為嚴(yán)重限制強化學(xué)習(xí)在實際機器人系統(tǒng)中應(yīng)用的主要原因之一[18-20]。基于此,本文提出一種概率預(yù)測強化學(xué)習(xí)下非結(jié)構(gòu)環(huán)境機械臂變阻抗力跟蹤控制(PPM-VIC)方法。

        1 問題描述

        笛卡爾空間中,阻抗控制利用質(zhì)量-彈簧-阻尼模型維持機械臂運動狀態(tài)與外力之間的動態(tài)關(guān)系,使機械臂末端呈現(xiàn)期望的柔順性?;谖恢玫淖杩箍刂?,如圖1所示。圖1中:Fd,F(xiàn)e分別表示期望力和實際接觸力,F(xiàn)d,F(xiàn)e∈Rk,k為受力數(shù);Xr,Xd分別表示參考軌跡和期望軌跡,

        Xr,Xd∈Rn,在位置控制精度足夠高的情況下可近似認(rèn)為機械臂末端實際軌跡與期望軌跡相等,即X=Xd。阻抗模型將力跟蹤誤差轉(zhuǎn)化為運動補償量,與參考軌跡疊加后得到期望軌跡,機械臂末端跟蹤期望軌跡可實現(xiàn)力跟蹤。

        對于n自由度的機械臂系統(tǒng),阻抗控制的一般形式可表示為

        M(X¨r-X¨d)+B(X·r-X·d)+K(Xr-Xd)=Fd-Fe。(1)

        式(1)中:M,B,K分別為質(zhì)量、阻尼和剛度矩陣,它們直接決定了阻抗模型的動力學(xué)特性,M,B,K∈Rn×n。

        純剛性接觸環(huán)境Fe定義為

        Fe=Ke(Xe-X)," Xe≥X,0," Xelt;X。(2)

        式(2)中:Ke為環(huán)境剛度,Ke∈Rk×n;Xe為環(huán)境位置,Xe∈Rn;Xe≥X為機器人末端處于接觸狀態(tài)。

        為簡化分析,假設(shè)阻抗模型在笛卡爾空間各方向上是解耦的,以一維力跟蹤為例,設(shè)fe,fd,m,b,k,ke,xe分別表示Fe,F(xiàn)d,M,B,K,Ke,Xe中的元素。

        根據(jù)文獻[9,11]的分析,若環(huán)境剛度未知或時變,可設(shè)力控方向的剛度為零,以實現(xiàn)力跟蹤無偏差,故設(shè)k≡0。非結(jié)構(gòu)環(huán)境中,環(huán)境位置xe通常難以精確獲取,因此,可用常值估計量x^e代替,假設(shè)估計誤差δxe=x^e-xe。令e=xe-xd=xe-x,則e^=e+δxe,用e^代替式(1)中的偏差項e,有

        Δf=fd-fe=me^¨+be^·=m(e¨+δx¨e)+b(e·+δx·e)=m(x¨e-x¨+δx¨e)+b(x·e-x·+δx·e)。(3)

        機械臂末端執(zhí)行器在未知幾何形狀的接觸面上實時移動時,末端實際軌跡、真實環(huán)境軌跡和估計誤差可能隨時間連續(xù)變化,即x,x·,x¨,xe,x·e,x¨e,δxe,δx·e,δx¨e時變,因此,式(3)的跟蹤誤差Δf將始終存在。自適應(yīng)阻抗參數(shù)可以補償環(huán)境位置時變產(chǎn)生的跟蹤誤差,而質(zhì)量系數(shù)的變化容易引起系統(tǒng)震蕩[9]。

        2 強化學(xué)習(xí)變阻抗策略

        最優(yōu)變阻抗策略π*(st)在任意時刻狀態(tài)st滿足跟蹤誤差Δfe=0。無模型強化學(xué)習(xí)(如深度確定性策略梯度算法(DDPG)、近端策略優(yōu)化算法(PPO)等)通常要求智能體與環(huán)境進行大量交互以收集足夠的訓(xùn)練樣本,但過多的交互可能會對環(huán)境和機器人造成潛在的損傷,在實際機器人應(yīng)用中并不可取。強化學(xué)習(xí)可根據(jù)交互數(shù)據(jù)建立接觸狀態(tài)轉(zhuǎn)移模型p(st+1|st),從而顯著提高數(shù)據(jù)利用效率。

        為消除未知動態(tài)環(huán)境引起的力跟蹤誤差,引入高斯過程建立接觸狀態(tài)轉(zhuǎn)移概率模型,借助該模型近似預(yù)測未來一段時間內(nèi)的狀態(tài)分布,并采用價值函數(shù)Vπ(s)進行評估,最后使用BFGS(broyden-fletcher-goldfarb-shanno)算法更新參數(shù),以逐步逼近最優(yōu)變阻抗策略。

        2.1 策略學(xué)習(xí)框架

        考慮機械臂移動方向和受力方向,設(shè)連續(xù)狀態(tài)s=[py,pz,fz,Δfz]T,其中,py,pz分別表示世界坐標(biāo)系下機械臂末端位置在y和z方向的對應(yīng)分量,fz為力控方向上的實際接觸力,Δfz為力跟蹤誤差,自適應(yīng)調(diào)整量u為力控方向的阻尼系數(shù)。定義自適應(yīng)阻抗策略π(st,θ),θ為待學(xué)習(xí)的策略參數(shù)。自適應(yīng)阻抗策略由兩部分構(gòu)成。1) 徑向基(RBF)神經(jīng)網(wǎng)絡(luò),將狀態(tài)映射到初始控制量u′=π′(s)。

        2) 飽和函數(shù)表達(dá)式為u=Sat(u′),將控制量限制在合理范圍內(nèi)。

        RBF神經(jīng)網(wǎng)絡(luò)等價于N個高斯核的線性組合,即

        π′(st)=Ni=1βikπ(ci,st)=βTπkπ(Cπ,st);(4)

        kπ(ci,st)=exp-12(ci-st)TΛπ-1(ci-st)。(5)

        式(4),(5)中:βπ=(Kπ+σ2πI)-1yπ表示加權(quán)向量,Kπ是由元素kπ(ci,cj),i,j=1,2,…,N構(gòu)成的Gram矩陣,I為單位矩陣,yπ為訓(xùn)練目標(biāo),yπ=π′(Cπ)+ηπ,ηπ~N(0,σ2πI)表示測量噪聲,σ2π代表噪聲方差;Λπ為加權(quán)歐式權(quán)重矩陣;Cπ表示核函數(shù)的中心點,Cπ=[c1,c2,…,cN]T。

        令g(u′)=[9sin(u′)+sin(3u′)]/8∈[-1,1],飽和函數(shù)Sat(u′)把控制量限制在umax與umin之間,其表達(dá)式為

        Sat(u′)=12(umax-umin)g(u′)+12(umax+umin)。(6)

        代價函數(shù)設(shè)計為有界的形式,設(shè)目標(biāo)狀態(tài)star=[0,0,fd,0]T,ΛL為對角權(quán)重矩陣,與位置相關(guān)的元素為零,常數(shù)λ用于控制代價函數(shù)達(dá)到飽和時的狀態(tài)偏差度。

        代價函數(shù)L(st)∈[0,1]為

        L(st)=1-exp-12λ2(st-star)TΛL(st-star)。(7)

        2.2 接觸狀態(tài)概率預(yù)測模型

        假設(shè)連續(xù)狀態(tài)s∈RE、連續(xù)控制量u∈R1及隨機噪聲ω均服從高斯分布,則預(yù)測模型為高斯過程,即h~GP(m(·),k(·,·))。接觸狀態(tài)概率預(yù)測模型表達(dá)式為

        st=h(st-1,ut-1,ω)。(8)

        機械臂在特定變阻抗策略作用下沿接觸環(huán)境表面的運動過程中,以固定頻率對數(shù)據(jù)采樣,構(gòu)成預(yù)測模型的訓(xùn)練輸入X=[s1,s2,…,sn]T及訓(xùn)練目標(biāo)Y=[Δ1,Δ2,…,Δn]T,其中,st=(st,ut)∈RE+1表示狀態(tài)-動作二元組,Δt=st+1-st∈RE為相鄰時刻的狀態(tài)變化量。

        協(xié)方差函數(shù)k(·,·)與式(5)有相似的形式,即

        k(s,s′)=σ2fexp-12(s-s′)TΛ-1(s-s′)+δσ2 ω 。(9)

        式(9)中:δ在s與s′相等時為1,否則為0;Λ=diag(l21,l22,…,l2E)是由尺度l組成的權(quán)重矩陣,與信號方差σ2f,噪聲方差σ2ω共同構(gòu)成預(yù)測模型的超參數(shù)(利用第二類最大似然估計[19]獲?。?。

        每個獨立的預(yù)測模型分別對應(yīng)每一維狀態(tài)分量。由于高斯分布經(jīng)非線性映射通常會變成非高斯分布,對于任一輸入st-1~N(μst-1,Σst-1)∈RE+1,利用矩匹配法近似預(yù)測輸出Δt~N(μΔt,ΣΔt)∈RE,故預(yù)測均值為

        μΔt=[βT1q1,…,βTEqE]T。(10)

        式(10)中:βa=(Ka+σ2ωaI)-1ya,a∈[1,2,…,E],Ka,σωa,ya分別表示第a個預(yù)測模型的Gram矩陣、噪聲方差及訓(xùn)練目標(biāo);向量qa=[qa1,qa2,…,qan]T∈Rn,

        qai=σ2faexp(-12(si-μst-1)T(Σst-1+Λa)-1(si-μst-1))Σst-1Λa-1+I。(11)

        式(11)中:σfa,Λa分別為對應(yīng)預(yù)測模型的信號方差和權(quán)重矩陣。

        預(yù)測協(xié)方差(ΣΔt)為

        ΣΔt=var[h1(st-1)]…cov[h1(st-1),hE(st-1)]cov[hE(st-1),h1(st-1)]…var[hE(st-1)]。(12)

        式(12)中:對角線元素var[ha(st-1)]為第a個預(yù)測模型對st的預(yù)測方差,非對角線元素cov[ha(st-1),hb(st-1)],b∈[1,2,…,E]為不同預(yù)測模型對同一輸入st的預(yù)測混合協(xié)方差。

        預(yù)測協(xié)方差各元素為

        σ2fa-tr[(Ka+σ2ωaI)-1Q]+βTaQβa-(μaΔt)2," a=b,βTaQβb-μaΔtμbΔt," a≠b。(13)

        令P=Σst-1(Λ-1a+Λ-1b)+I,ρi=si-μst-1,ρj=sj-μst-1,zi,j=Λ-1aρi+Λ-1bρj,i,j∈[1,2,…,n]。

        矩陣Q∈Rn×n的元素為

        Qi,j=σfaσfbPexp12[ρTiΛ-1aρi+ρjTΛ-1bρj-zTi,jP-1Σzi,j]。(14)

        2.3 狀態(tài)預(yù)測及策略評估

        相鄰時刻的狀態(tài)概率分布為

        p(st-1)RBFp(u′t-1)→p(ut-1)→p(s′t-1)→p(st-1)GPp(Δt)→p(st)。(15)

        假設(shè)前一時刻的狀態(tài)概率分布p(st-1)已知,可得出初始控制量概率分布p(u′t-1),其均值和協(xié)方差分別為

        μu′t-1=βTπqπ,Σu′t-1=βTπQπβπ-(βTπqπ)2。(16)

        根據(jù)正弦函數(shù)期望和方差的性質(zhì),容易計算限幅后的控制量概率分布p(ut-1),繼而初始聯(lián)合概率分布p(st-1,u′t-1)=p(s′t-1),p(s′t-1)計算式為

        p(s′t-1)=Nμst-1μu′t-1,Σst-1Σst-1,u′t-1ΣTst-1,u′t-1Σu′t-1。(17)

        非對角線元素(Σst-1,u′t-1)的計算式為

        Σst-1,u′t-1=Ni=1βπiqπiΣst-1(Σst-1+Λπ)-1(si-μst-1)。(18)

        利用正弦函數(shù)期望和方差的性質(zhì),可以得到聯(lián)合概率分布p(st-1),根據(jù)當(dāng)前預(yù)測模型及矩匹配法,可預(yù)測狀態(tài)變化量的概率分布p(Δt),考慮到Δt=f(st-1,ut-1,ω)-st-1,p(st)計算式為

        p(st)=

        μst=μst-1+μΔt-1,

        Σst=Σst-1+Σst-1,Δt+ΣTst-1,Δt+ΣΔt。(19)

        式(19)中:μst-1和Σst-1分別為上一時刻的狀態(tài)分布;μΔt-1和ΣΔt分別為狀態(tài)變化量的預(yù)測分布;Σst-1,Δt分別為交叉協(xié)方差項。

        重復(fù)式(15),得到虛擬狀態(tài)序列[s0,s1,…,sH],以此實現(xiàn)策略評估,序列的價值函數(shù)(Vπ(s0))為

        Vπ(s0)=Ht=0E[L(st)]=Ht=0∫L(st)p(st)dst。(20)

        2.4 策略參數(shù)更新

        待學(xué)習(xí)的策略參數(shù)θ=[Cπ,yπ,Λπ,σ2π]。最優(yōu)變阻抗策略為

        π*(s,θ*)=argθ min Vπ(s0)。(21)

        為保證價值函數(shù)最小,需計算策略參數(shù)的梯度,即

        dVπ(s0)dθ=Ht=1ddθE[L(st)]。(22)

        代價函數(shù)L(st)依賴狀態(tài)概率分布p(st)~N(μst,Σst),利用鏈?zhǔn)椒▌t,有

        dE[L(st)]dθ=E[L(st)]μst·dμstdθ+E[L(st)]Σst·dΣstdθ。(23)

        令Ψ=ΛL(I+ΣstΛL)-1,由式(7),期望E[L(st)]為

        E[L(st)]=∫L(st)p(st)dst=1-exp-12(μst-star)TΨ(μst-star)I+ΣstΛL。(24)

        則偏導(dǎo)數(shù)為

        E[L(st)]μst=-E[L(st)](μst-star)TΨ,(25)

        E[L(st)]Σst=12E[L(st)][Ψ(μst-star)(μst-star)T-I]Ψ。(26)

        當(dāng)前時刻的狀態(tài)概率分布p(st)由前一時刻的狀態(tài)概率分布p(st-1)通過策略π(st-1,θ)及高斯過程模型h(·)預(yù)測得到。因此,再次利用鏈?zhǔn)椒▌t,有

        dμstdθ=μstμst-1·dμst-1dθ+μstΣst-1·dΣst-1dθ+μstθ,(27)

        dΣstdθ=Σstμst-1·dμst-1dθ+ΣstΣst-1·dΣst-1dθ+Σstθ。(28)

        顯然,這是一個迭代計算的過程,dμst-1dθ和dΣst-1dθ由前次計算中得出,利用鏈?zhǔn)椒▌t,有

        μstθ=μΔtμut-1·μut-1θ+μΔtΣut-1·Σut-1θ,(29)

        Σstθ=ΣΔtμut-1·μut-1θ+ΣΔtΣut-1·Σut-1θ。(30)

        由價值函數(shù)算出策略參數(shù)的梯度,使用BFGS算法更新策略參數(shù),當(dāng)Vπ(s0)趨于零時,訓(xùn)練收斂。

        3 仿真驗證及分析

        仿真實驗基于MATLAB/Simulink設(shè)計,用Robotic Toolbox搭建PUMA560機械臂模型,期望充分體現(xiàn)機械臂動力學(xué)特性。PUMA560型機械臂可視化模型,如圖2所示。軌跡生成和接觸環(huán)境模型通過S-Function實現(xiàn),機械臂位置內(nèi)環(huán)可達(dá)較高控制精度,滿足驗證要求。仿真和策略訓(xùn)練過程在搭載Core i7-10700型工作站中完成,無GPU加速。

        3.1 訓(xùn)練設(shè)置

        策略網(wǎng)絡(luò)模型,如圖3所示。輸入層由當(dāng)前狀態(tài)st構(gòu)成,隱藏層神經(jīng)元個數(shù)N根據(jù)實際情況而定,其中的高斯核函數(shù)對輸入信息進行空間映射變換,輸出層對隱藏層神經(jīng)元的信息進行線性加權(quán)求和,得到初始控制量u′t,經(jīng)連續(xù)可微的飽和函數(shù)Sat限幅到合理的范圍內(nèi),得到最終控制量ut。訓(xùn)練時基于BFGS(broyden-fletcher-goldfarb-shanno)算法更新策略。

        3.2 訓(xùn)練過程

        假設(shè)接觸環(huán)境剛度ke=5 000 N·m-1,環(huán)境為余弦曲面(圖4),力控方向(z方向)的期望力fd=10 N,在機械臂運動過程中,保持末端姿態(tài)不變。選擇合適的質(zhì)量系數(shù)m=0.2 kg和剛度系數(shù)k=0 N·m-1,阻尼系數(shù)由策略網(wǎng)絡(luò)動態(tài)調(diào)整。機械臂末端在y方向上運動速度為0.16 m·s-1,x方向位置保持不變,機械臂從接觸面的起點運動至終點需6 s。為減少訓(xùn)練時間,將Simulink仿真步長固定為0.005 s,決策頻率為0.05 s,采樣頻率0.05 s,阻尼為0.01~150.00,預(yù)測時間域為120,隱藏層神經(jīng)元數(shù)N為200,代價函數(shù)飽和系數(shù)λ為5。

        在每一次訓(xùn)練迭代中,機械臂在當(dāng)前阻抗策略(第1次迭代使用隨機策略)的作用下從接觸面的起點運動到終點,同時,以特定頻率狀態(tài)和控制量進行采樣。完成一次交互后,采樣的數(shù)據(jù)用于估計高斯過程預(yù)測模型的超參數(shù)。機械臂根據(jù)當(dāng)前策略與該預(yù)測模型進行虛擬交互,產(chǎn)生虛擬狀態(tài)-動作序列,并以此虛擬數(shù)據(jù)計算價值函數(shù)。最后,計算價值函數(shù)的梯度,更新策略的參數(shù)。隨著迭代次數(shù)的增加,用于訓(xùn)練預(yù)測模型的數(shù)據(jù)集不斷擴充,模型趨于準(zhǔn)確,預(yù)測不確定性趨于降低。

        訓(xùn)練過程中的代價,如圖5所示。圖5中:L為價值;藍(lán)色曲線是機械臂與預(yù)測模型進行虛擬交互時的預(yù)測代價,其寬度表示預(yù)測過程的不確定性;紅色曲線為機械臂與真實環(huán)境交互的實際代價,直接反應(yīng)了力控制效果。

        由圖5可知:在訓(xùn)練初期,由于數(shù)據(jù)集較小,高斯過程模型的預(yù)測是不準(zhǔn)確的,方差很大,隨著迭代次數(shù)的增多,預(yù)測模型趨于準(zhǔn)確,不確定性變得很?。蛔罱K,預(yù)測代價與實際代價都趨于零,機械臂獲得最優(yōu)變阻抗策略π*(s,θ*)。

        圖6為訓(xùn)練結(jié)果。對比訓(xùn)練結(jié)果與傳統(tǒng)阻抗控制、自適應(yīng)變阻抗控制(初始阻尼系數(shù)設(shè)為20 N·m-1,更新率為0.02)[9]可知:參考軌跡不準(zhǔn)確導(dǎo)致傳統(tǒng)阻抗控制在非結(jié)構(gòu)環(huán)境中無法實現(xiàn)恒力跟蹤,接觸力穩(wěn)態(tài)誤差隨環(huán)境位置的變化而呈現(xiàn)周期性變化,最大穩(wěn)態(tài)跟蹤誤差為1.6 N;相對而言,自適應(yīng)變阻抗控制穩(wěn)態(tài)精度更高,但動態(tài)過程較差,其穩(wěn)態(tài)跟蹤誤差與初始阻尼系數(shù)、更新率及采樣頻率有關(guān),更高精度的力跟蹤參數(shù)易導(dǎo)致更差的動態(tài)過程[8],在此場景下最大穩(wěn)態(tài)誤差約為0.25 N。因此,提出的PPM-VIC方法具有很小的超調(diào)和更高的穩(wěn)態(tài)跟蹤精度。

        3.3 接觸環(huán)境的對比測試

        為了驗證訓(xùn)練的變阻抗策略是否適用于其他類型的接觸環(huán)境,設(shè)計斜面環(huán)境恒力跟蹤、復(fù)雜曲面環(huán)境恒力跟蹤和復(fù)雜曲面環(huán)境變力跟蹤3種非結(jié)構(gòu)環(huán)境任務(wù)場景,初始環(huán)境剛度均為ke=5 000 N·m-1。對機械臂而言,環(huán)境信息未知。

        設(shè)置機械臂的作業(yè)環(huán)境為斜率未知的斜面,則機械臂末端實時移動過程中x·e為非零常值,x¨e=0。斜面環(huán)境恒力跟蹤,如圖7所示。

        由圖7(b)可知:在斜面環(huán)境下,傳統(tǒng)阻抗控制在剛度系數(shù)k=0時始終存在恒定的穩(wěn)態(tài)誤差;自適應(yīng)變阻抗控制在接觸初期會產(chǎn)生較大的超調(diào),需要約0.7 s才能使接觸力穩(wěn)定至期望值,動態(tài)性能較差,但穩(wěn)態(tài)時可實現(xiàn)高精度力跟蹤;PPM-VIC方法在剛發(fā)生接觸時存在微小抖震,但超調(diào)量明顯小于另外兩種控制方式,穩(wěn)定后跟蹤精度優(yōu)于自適應(yīng)變阻抗。接觸環(huán)境剛度突變時,3種控制方法都表現(xiàn)出不同程度的超調(diào)和震蕩,但PPM-VIC方法表現(xiàn)出更優(yōu)的控制效果。

        斜面環(huán)境恒力跟蹤性能對比,如表1所示。對于未知表達(dá)式的復(fù)雜接觸曲面,顯然xe,x·e,x¨e≠0且始終隨著時間變化。設(shè)期望力fd=10 N,復(fù)雜曲面環(huán)境恒力跟蹤,如圖8所示。

        由圖8(b)可知:接觸環(huán)境起伏對傳統(tǒng)阻抗控制的影響最大,跟蹤誤差與環(huán)境位置變化速度有關(guān),2 s后環(huán)境變化速度明顯變大,力跟蹤誤差也隨之增大。自適應(yīng)變阻抗控制的動態(tài)性能較差,但穩(wěn)態(tài)誤差優(yōu)于傳統(tǒng)阻抗控制。PPM-VIC方法幾乎不受環(huán)境位置變化的影響,能夠以較高的精度跟蹤恒定期望力。

        復(fù)雜曲面環(huán)境恒力跟蹤性能對比,如表2所示。復(fù)雜曲面環(huán)境變力跟蹤性能對比,如表3所示。

        設(shè)期望力為變力,即fd=10+5sin(t)N,復(fù)雜曲面環(huán)境變力跟蹤,如圖9所示。

        由圖9可知:前1.5 s環(huán)境位置變化相對平緩,3種控制方法均可在穩(wěn)定后較好地跟蹤期望力;自2.5 s開始,接觸環(huán)境變得陡峭,傳統(tǒng)阻抗控制和自適應(yīng)變阻抗都出現(xiàn)了不同程度的跟蹤誤差,但自適應(yīng)變阻抗誤差較小,PPM-VIC方法仍然能以較高精度跟蹤連續(xù)變化的期望力。

        4 結(jié)束語

        針對非結(jié)構(gòu)環(huán)境下機械臂難以實現(xiàn)良好的力跟蹤性能,以及強化學(xué)習(xí)數(shù)據(jù)利用效率低的問題,將機械臂力控制問題建模為馬爾可夫決策過程,提出一種基于概率預(yù)測強化學(xué)習(xí)的PPM-VIC方法。利用概率預(yù)測模型及矩匹配法預(yù)測未來時間域內(nèi)的狀態(tài)序列分布,從而產(chǎn)生大量虛擬訓(xùn)練樣本,使機械臂僅需與環(huán)境交互18次即可獲得良好的變阻抗策略。仿真結(jié)果表明,提出的變阻抗策略適用于各種非結(jié)構(gòu)接觸環(huán)境,其超調(diào)量、震蕩幅度及穩(wěn)態(tài)精度均顯著優(yōu)于傳統(tǒng)阻抗控制和自適應(yīng)變阻抗控制,在期望力恒定和連續(xù)變化時均具備良好的跟蹤性能。

        參考文獻:

        [1] PETERNEL L,TSAGARAKIS N,CALDWELL D,et al.Robot adaptation to human physical fatigue in human-robot co-manipulation[J].Autonomous Robots,2018,42(5):1011-1021.DOI 10.1007/s10514-017-9678.

        [2] 倪濤,黎銳,繆海峰,等.船載機械臂末端位置實時補償[J].吉林大學(xué)學(xué)報(工學(xué)版),2020,50(6):2028-2035.DOI:10.13229/j.cnki.jdxbgxb20190662.

        [3] REN Qinyuan,ZHU Wenxin,ZHAO Feng,et al.Learning-based force control of a surgical robot for tool-soft tissue interaction[J].IEEE Robotics and Automation Letters,2021,6(4):6345-6352.DOI:10.1109/LRA.2021.3093018.

        [4] LI Y,GOWRISHANKAR G,NATHANAEL J,et al.Force, impedance, and trajectory learning for contact tooling and haptic identification[J].IEEE Transactions on Robotics,2018,34(5):1-13.DOI:10.1109/TRO.2018.2830405.

        [5] 劉勝遂,李利娜,熊曉燕,等.基于卡爾曼濾波的機器人自適應(yīng)控制方法研究[J].機電工程,2023,40(6):936-944.DOI:10.3969/j.issn.1001-4551.2023.06.017.

        [6] 李振,趙歡,王輝,等.機器人磨拋加工接觸穩(wěn)態(tài)自適應(yīng)力跟蹤研究[J].機械工程學(xué)報,2022,58(9):200-209.DOI:10.3901/JME.2022.09.200.

        [7] ROVEDA L,IANNACCI N,VICENTINI F,et al.Optimal impedance force-tracking control design with impact formulation for interaction tasks[J].IEEE Robotics and Automation Letters,2016,1(1):130-136.DOI:10.1109/LRA.2015.2508061.

        [8] JUNG S,HSIA T C,BONITZ R G.Force tracking impedance control of robot manipulators under unknown environment[J].IEEE Transactions on Control Systems Technology,2004,12(3):474-483.DOI:10.1109/TCST.2004.824320.

        [9] DUAN Jinjun,GAN Yajui,CHEN Ming,et al.Adaptive variable impedance control for dynamic contact force tracking in uncertain environment[J].Robotics and Autonomous Systems,2018,102:54-65.DOI:10.1016/j.robot.2018.01.009.

        [10] CAO Hongli,CHEN Xiaoan,HE Ye,et al.Dynamic adaptive hybrid impedance control for dynamic contact force tracking in uncertain environments[J].IEEE Access,2019,7:83162-83174.DOI:10.1109/ACCESS.2019.2924696.

        [11] HAMEDANI M H,SADEGHIAN H,ZEKRI M,et al.Intelligent impedance control using wavelet neural network for dynamic contact force tracking in unknown varying environments[J].Control Engineering Practice,2021,113:104840.DOI:10.1016/J.CONENGPRAC.2021.104840.

        [12] ANDRYCHOWICZ O M,BAKER B,CHOCIEJ M,et al.Learning dexterous in-hand manipulation[J].The International Journal of Robotics Research,2020,39(1):3-20.DOI:10.1177/0278364919887447.

        [13] LI Yunfei,KONG Tao,LI Lei,et al.Learning design and construction with varying-sized materials via prioritized memory resets[C]∥International Conference on Robotics and Automation.Philadelphia:IEEE Press.2022:7469-7476.DOI:10.1109/ICRA46639.2022.9811624.

        [14] BUCHLI J,STULP F,THEODOROU E,et al.Learning variable impedance control[J].The International Journal of Robotics Research,2011,30(7):820-833.DOI:10.1177/0278364911402527.

        [15] LI Chao,ZHANG Zhi,XIA Guihua,et al.Efficient force control learning system for industrial robots based on variable impedance control[J].Sensors,2018,18(8):2539.DOI:10.3390/s18082539.

        [16] WU Min,HE Yanhao,LIU S.Adaptive impedance control based on reinforcement learning in a human-robot collaboration task with human reference estimation[J].International Journal of Mechanics and Control,2020,21(1):21-32.DOI:10.1007/978-3-030-19648-6_12.

        [17] DU Zhijiang,WANG Wei,YAN Zhiyuan,et al.Variable admittance control based on fuzzy reinforcement learning for minimally invasive surgery manipulator[J].Sensors,2017,17(4):844.DOI:10.3390/s17040844.

        [18] DEISENROTH M P,F(xiàn)OX D,RASMUSSEN C E.Gaussian processes for data-efficient learning in robotics and control[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2015,37(2):408-423.DOI:10.1109/TPAMI.2013.218.

        [19] RASMUSSEN C E,WILLIAMS C K I.Gaussian processes for machine learning[M].Cambridge:MIT Press,2005.

        [20] DEISENROTH M P.Efficient reinforcement learning using Gaussian process[D].Karlsruhe:Karlsruhe Institute of Technology,2010.DOI:10.5445/KSP/1000019799.

        (責(zé)任編輯: 陳志賢" 英文審校: 陳婧)

        曰韩精品无码一区二区三区| 中文字幕免费在线观看动作大片| 亚洲欧美色一区二区三区| 欧美丰满熟妇aaaaa片| 中文字幕在线观看国产双飞高清| 日本女优中文字幕在线观看| 日本午夜剧场日本东京热| 国产动作大片中文字幕| 精品少妇人妻av免费久久久| 亚洲av中文无码乱人伦在线咪咕| 极品粉嫩嫩模大尺度视频在线播放| 国产精品永久久久久久久久久| 丰满人妻在公车被猛烈进入电影| 日日爽日日操| 成人国产av精品麻豆网址 | 亚洲日韩中文字幕无码一区| 亚洲一区二区观看播放| 亚洲欧美成人久久综合中文网| 亚洲天堂亚洲天堂亚洲色图| 国产一精品一av一免费| 毛片免费在线播放| 日韩在线精品视频免费| 日本视频二区在线观看| 国产无遮挡无码视频免费软件| 国产在线不卡免费播放| 性感熟妇被我玩弄到高潮| 免费观看mv大片高清| 男人边吻奶边挵进去视频| 中文字幕亚洲无线码a| 亚洲午夜经典一区二区日韩| 亚洲av日韩av永久无码下载| 久久久久亚洲av无码a片软件| 亚洲精品一区二区三区播放 | 中字无码av电影在线观看网站| 国产一区二区三区不卡在线播放| 人人爽久久久噜人人看| 小12箩利洗澡无码视频网站| 中文字幕日本熟妇少妇| 久草手机视频在线观看| 大肉大捧一进一出视频| 亚洲国产99精品国自产拍|