韓霖驍,胡劍波,宋仕元,王應(yīng)洋,賀子厚,張 鵬
(空軍工程大學(xué)裝備管理與無(wú)人機(jī)工程學(xué)院,陜西 西安 710051)
機(jī)械臂作為一個(gè)高度復(fù)雜的時(shí)變耦合非線性系統(tǒng),是機(jī)器人系統(tǒng)的核心技術(shù)之一,已逐漸成為衡量一個(gè)國(guó)家高端制造業(yè)水平的標(biāo)志。目前,針對(duì)機(jī)械臂系統(tǒng)跟蹤控制的學(xué)術(shù)成果斐然,主要分為以下兩類問(wèn)題[1]:一是解決機(jī)械臂系統(tǒng)在測(cè)量建模過(guò)程中的誤差[2-4],二是減弱系統(tǒng)負(fù)載變化和外部干擾影響。文獻(xiàn)[2]通過(guò)設(shè)計(jì)一種基于模糊自適應(yīng)神經(jīng)網(wǎng)絡(luò)的魯棒控制器,避免了機(jī)械臂系統(tǒng)參數(shù)無(wú)法準(zhǔn)確測(cè)量對(duì)跟蹤性能產(chǎn)生的影響。文獻(xiàn)[3]針對(duì)機(jī)械臂系統(tǒng)參數(shù)不確定問(wèn)題,設(shè)計(jì)了一種參數(shù)在線估計(jì)的自適應(yīng)滑模控制器。本文聚焦參數(shù)不確定問(wèn)題,通過(guò)人工智能(artificial intelligence,AI)算法對(duì)控制器參數(shù)進(jìn)行整定,以保證機(jī)械臂控制器良好的軌跡跟蹤效果。當(dāng)前機(jī)械臂軌跡跟蹤控制器種類繁多,比例-微分(proportional-derivative,PD)控制作為一種經(jīng)典的傳統(tǒng)控制方法,憑借其原理簡(jiǎn)單、使用方便且魯棒性強(qiáng)的特點(diǎn),如今在各領(lǐng)域有著廣泛的研究和運(yùn)用,如機(jī)械臂控制[5-11]、四旋翼無(wú)人機(jī)飛行控制[12-14]和仿人機(jī)器人控制[15-16]。本文通過(guò)PD控制器這一算例對(duì)PG(Policy Gradient)參數(shù)整定器進(jìn)行仿真驗(yàn)證。PD控制方法魯棒性強(qiáng)體現(xiàn)在PD控制器的控制效果對(duì)被控對(duì)象特性的變化不敏感,具備較強(qiáng)的抗干擾能力,而影響PD控制器控制效果的關(guān)鍵因素之一是其控制器參數(shù)。為改善PD控制器側(cè)重于穩(wěn)態(tài)性能而對(duì)系統(tǒng)動(dòng)態(tài)性能控制不夠的問(wèn)題,本文通過(guò)設(shè)計(jì)基于PG的參數(shù)整定器對(duì)PD控制器參數(shù)進(jìn)行整定,以改善其動(dòng)態(tài)性能,從而達(dá)到更優(yōu)的控制效果。
參數(shù)優(yōu)化是一種行之有效的提高控制效果的方法,而比例-積分-微分(proportional-integral-derivative,PID)控制器的參數(shù)自整定方法按工作機(jī)理可以分為兩大類:一是基于規(guī)則的自整定方法;二是基于辨識(shí)的自整定方法[17]。自1942年Ziegler和Nichols提出著名的臨界比例度法以來(lái),當(dāng)前PD控制器參數(shù)優(yōu)化方法有粒子群算法[18-20]、混沌原子搜索優(yōu)化算法[21]、Levenberg-Marquart算法[22-23]、遺傳算法[24-25]、量子尋優(yōu)算法[26]等。與其他參數(shù)優(yōu)化方法不同的是,強(qiáng)化學(xué)習(xí)具有收斂速度快、不依賴于先驗(yàn)知識(shí)、克服局部最優(yōu)且實(shí)時(shí)性強(qiáng)的特點(diǎn)。
文獻(xiàn)[27-30]對(duì)強(qiáng)化學(xué)習(xí)算法在參數(shù)優(yōu)化中的應(yīng)用作以充分的討論。文獻(xiàn)[27]設(shè)計(jì)了一種基于Q-learning參數(shù)整定的PID控制器,使被控系統(tǒng)的調(diào)速性能更加優(yōu)良,但Q-learning算法只適用于離散問(wèn)題。文獻(xiàn)[28-29]均討論了通過(guò)DQN(Deep Q Nerwork)算法進(jìn)行參數(shù)設(shè)計(jì),其中文獻(xiàn)[28]利用DQN算法對(duì)飛行姿態(tài)模擬系統(tǒng)進(jìn)行了控制算法設(shè)計(jì),數(shù)值仿真結(jié)果表明,經(jīng)過(guò)一定時(shí)間的學(xué)習(xí)之后能達(dá)到良好的控制效果。文獻(xiàn)[29]將DQN算法同一種遺傳算法結(jié)合設(shè)計(jì)了一種參數(shù)估計(jì)器,能夠?qū)崿F(xiàn)較為準(zhǔn)確的參數(shù)估計(jì),但仍存在只適用于離散的情況且學(xué)習(xí)時(shí)間長(zhǎng),時(shí)效性較差。文獻(xiàn)[30]將Actor-Critic結(jié)構(gòu)用于滑??刂破鞯膮?shù)整定中,避免了控制參數(shù)選取的盲目性并取得了良好的控制效果,但Actor-Critic網(wǎng)絡(luò)結(jié)構(gòu)較為復(fù)雜。因此,本文選擇PG算法來(lái)進(jìn)行PD控制器參數(shù)整定器的設(shè)計(jì),PG算法神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)較為簡(jiǎn)單,學(xué)習(xí)時(shí)間較短且能夠處理連續(xù)狀態(tài)問(wèn)題。為了進(jìn)一步提高PG參數(shù)整定器的性能,本文通過(guò)引入積分器來(lái)改善整定器性能,將其學(xué)習(xí)過(guò)程中的行為連續(xù)化。
本文所使用的參數(shù)整定器結(jié)構(gòu)較小,結(jié)構(gòu)簡(jiǎn)單,計(jì)算量小,經(jīng)過(guò)學(xué)習(xí)后可以直接用于被控系統(tǒng)無(wú)需再次進(jìn)行學(xué)習(xí),同時(shí)可在額外增加計(jì)算量的情況下進(jìn)行在線學(xué)習(xí),適合用于嵌入式系統(tǒng)。
考慮摩擦非線性與動(dòng)力學(xué)非線性的特點(diǎn),機(jī)械手混合動(dòng)力學(xué)模型描述如下:
(1)
式中:
式中:KT=diag{KT1,KT2,…,KTn}為正定矩陣,表示直流電機(jī)工作參數(shù);N=diag{nk1,nk2,…,nkn}為機(jī)械臂關(guān)節(jié)電機(jī)的齒輪減速比;Dm=diag{Dm1,Dm2,…,Dmn}為驅(qū)動(dòng)系統(tǒng)各部件折算到電機(jī)側(cè)的轉(zhuǎn)動(dòng)慣量,為正定矩陣;Lm=diag{Lm1,Lm2,…,Lmn}為驅(qū)動(dòng)系統(tǒng)各部件的粘滯系數(shù)且為正定矩陣。
將系統(tǒng)驅(qū)動(dòng)電流I作為機(jī)械臂的控制輸入量,得到機(jī)械臂模型:
(2)
對(duì)于機(jī)械臂模型式(2)需說(shuō)明如下。
(1)對(duì)于?x,慣性矩陣D(q)符合:
m1‖x‖2≤xTu(q)x≤m2‖x‖2,q∈Rn
(2)對(duì)于?x,存在:
(3)當(dāng)忽略不確定項(xiàng),該模型可線性化為
取獨(dú)立PD控制律[31]為
(3)
此時(shí),機(jī)械手的方程為
(4)
(5)
定理 1如果控制增益矩陣Kd與Kp滿足正定條件,則控制器式(3)滿足Lyapunov理論的穩(wěn)定性條件。
證 明取Lyapunov函數(shù)為
(6)
由D(q)及KP的正定性可知,V是全局正定的,則
(7)
證畢
引理 1LaSalle定理
對(duì)于微分方程組:
令
并設(shè)M是微分方程組在S內(nèi)的最大不變集。如果V是G上的李雅普諾夫函數(shù),而γ+(x0)是微分方程組落在G內(nèi)的有界軌道,則當(dāng)t→∞時(shí),x(t,x0)→M。
PG是一種有效的強(qiáng)化學(xué)習(xí)方法。PG參數(shù)整定器的本質(zhì)是通過(guò)一個(gè)引入?yún)?shù)θ的神經(jīng)網(wǎng)絡(luò),設(shè)定期望收益作為評(píng)價(jià)指標(biāo),經(jīng)過(guò)n次行動(dòng)后通過(guò)梯度上升的方法尋到使期望收益最高,即控制效果最優(yōu)的一組參數(shù)值,PG參數(shù)整定器的整定對(duì)象是式(3)中的關(guān)鍵參數(shù)矩陣Kd和Kp,結(jié)構(gòu)如圖1所示。圖1描述的是PG離線整定過(guò)程,整定結(jié)果為4組變化的參數(shù)值。
圖1 控制系統(tǒng)結(jié)構(gòu)框圖Fig.1 Block diagram of control system structure
設(shè)行動(dòng)狀態(tài)序列τ為
τ={S1,A1,S2,A2,…,Sn,An}
(8)
式中:Ai為第i次行動(dòng)的參數(shù)矩陣,表示為
Ai=[Kdi,Kpi]
Si為PD控制器在參數(shù)矩陣Ai作用下對(duì)機(jī)械臂控制效果的狀態(tài)描述,控制過(guò)程如圖2所示。
圖2 馬爾可夫決策過(guò)程Fig.2 Markov decision process
為了使離散的整定過(guò)程連續(xù)化,對(duì)行動(dòng)矩陣Ai作以改寫,表示為
設(shè)定
在給定神經(jīng)網(wǎng)絡(luò)參數(shù)θ的前提下,出現(xiàn)行動(dòng)狀態(tài)序列τ的概率為
Pθ(τ)=P(S1)Pθ(A1|S1)P(S2|S1,A1)Pθ(A2|S2)
P(S3|S2,A2)…=
因此,對(duì)于行動(dòng)序列τ的累積期望收益為
(9)
式中:
(10)
不同于深度學(xué)習(xí)中梯度下降來(lái)求最小值的方法,策略梯度求解是通過(guò)梯度上升的方法對(duì)收益函數(shù)式(9)求最大值,將式(9)對(duì)參數(shù)θ求導(dǎo),得到
(11)
式中:R(τ)并不要求完全可微。同時(shí)在PG參數(shù)整定器訓(xùn)練的過(guò)程中會(huì)進(jìn)行采樣訓(xùn)練,次數(shù)為N,得到結(jié)果如下:
EτPθ(τ)[R(τ)lgPθ(τ)]≈
(12)
由于在訓(xùn)練過(guò)程中參數(shù)矩陣Ai的采樣是在給定范圍內(nèi)隨機(jī)進(jìn)行,因此往往會(huì)出現(xiàn)以下兩種阻礙學(xué)習(xí)效率的情況:一是可能會(huì)出現(xiàn)范圍內(nèi)的某個(gè)參數(shù)矩陣Ai不被選取的情況,而該參數(shù)矩陣Ai可能恰恰是有利的,這會(huì)導(dǎo)致其被選取的概率下降,學(xué)習(xí)結(jié)果變差;二是由于給定范圍內(nèi)所有參數(shù)矩陣被采取的概率和為1,那么在歸一化后,就可能導(dǎo)致有利的參數(shù)矩陣概率降低,而有害的參數(shù)矩陣概率升高,同樣會(huì)導(dǎo)致學(xué)習(xí)結(jié)果無(wú)法最優(yōu)。因此,需要引入基準(zhǔn)線參數(shù)b來(lái)避免上述情況的發(fā)生:
(13)
式中:b≈E[R(τ)]。
同時(shí),考慮到在t采樣點(diǎn)采取的參數(shù)矩陣與t采樣點(diǎn)之前的收益無(wú)關(guān),因此只需將t采樣點(diǎn)之后的收益進(jìn)行求和。并且由于某一采樣點(diǎn)采取參數(shù)矩陣對(duì)隨后各采樣點(diǎn)收益的影響會(huì)逐漸減小,因此需要引入折舊因子γ:
式中:γ<1。
針對(duì)被控對(duì)象式(1),選取二關(guān)節(jié)機(jī)械手系統(tǒng)進(jìn)行仿真驗(yàn)證,其動(dòng)力學(xué)模型為
(14)
式中:
PG參數(shù)整定器學(xué)習(xí)步長(zhǎng)為0.1,基準(zhǔn)線設(shè)定為狀態(tài)函數(shù)估計(jì)值b=16,折扣因子設(shè)定為γ=0.99。根據(jù)參數(shù)調(diào)整范圍,將行為值矩陣設(shè)置為以下16種情況:[-100,-100,-100,-100],[-100,-100,-100,100],[-100,-100,100,-100],[-100,-100,100,100],[-100,100,-100,-100],[-100,100,-100,100],[-100,100,100,-100],[-100,100,100,100],[100,-100,-100,-100],[100,-100,-100,100],[100,-100,100,-100],[100,-100,100,100],[100,100,-100,-100],[100,100,-100,100],[100,100,100,-100],[100,100,100,100]。
圖3 強(qiáng)化學(xué)習(xí)過(guò)程曲線Fig.3 Reinforcement learning process curve
圖4 跟蹤軌跡x1,x2Fig.4 Tracking trajectory x1,x2
圖5 控制輸入u1,u2Fig.5 Control input u1,u2
圖6 控制參數(shù)k1,k2Fig.6 Control parameters k1,k2
圖3表述了參數(shù)整定器在進(jìn)行強(qiáng)化學(xué)習(xí)過(guò)程中,期望獎(jiǎng)勵(lì)值和實(shí)際獎(jiǎng)勵(lì)值的動(dòng)態(tài)變化曲線。由圖3可得,PG參數(shù)整定器在學(xué)習(xí)過(guò)程中共進(jìn)行了500次參數(shù)的整定調(diào)整,在調(diào)整的過(guò)程中收益指標(biāo)曲線總體呈現(xiàn)上升趨勢(shì),其中移動(dòng)平均獎(jiǎng)勵(lì)值代表對(duì)歷史獎(jiǎng)勵(lì)值的加權(quán)求和,衡量著當(dāng)前代次下控制系統(tǒng)對(duì)機(jī)械臂控制效果的高低。同時(shí),3條曲線呈現(xiàn)向同一值收斂的趨勢(shì),表明強(qiáng)化學(xué)習(xí)系統(tǒng)評(píng)估值和實(shí)際獎(jiǎng)勵(lì)值逼近同一值并上下波動(dòng),此時(shí)學(xué)習(xí)過(guò)程結(jié)束,得到整定后的參數(shù)矩陣。同時(shí),還可得到以下結(jié)論。
圖7 控制參數(shù)k3,k4Fig.7 Control parameters k3,k4
結(jié)論 1驗(yàn)證了PG強(qiáng)化學(xué)習(xí)算法的有效性,在PG整定器的參數(shù)調(diào)整過(guò)程中,PD控制器對(duì)機(jī)械臂的控制效果不斷被改善,并能夠達(dá)到預(yù)期水平。
結(jié)論 2在折舊因子的作用下,克服了個(gè)別臨近代次中的壞值對(duì)移動(dòng)平均獎(jiǎng)勵(lì)值評(píng)價(jià)效果產(chǎn)生干擾這一問(wèn)題。
結(jié)論 3由圖4可得,機(jī)械臂跟蹤軌跡的收斂時(shí)間由參數(shù)整定前的4 s縮短至整定后的2 s,且超調(diào)量未出現(xiàn)明顯增大。因此,PG參數(shù)整定器的引入使PD控制器的動(dòng)態(tài)性能在保證穩(wěn)態(tài)性能的前提下得到了有效的提升,收斂時(shí)間更短。
結(jié)論 4由圖5可得,控制輸入信號(hào)u在參數(shù)整定器的作用下,在控制的前2 s內(nèi),其信號(hào)曲線發(fā)生明顯波動(dòng),表明控制輸入信號(hào)u能夠根據(jù)不同的控制情況在參數(shù)整定器的作用下進(jìn)行靈活調(diào)整,以達(dá)到圖4中更優(yōu)的控制效果。
結(jié)論 5圖6~圖7驗(yàn)證了PG參數(shù)整定器在機(jī)械臂式(19)的被控過(guò)程中,通過(guò)在線學(xué)習(xí)的方式向PD控制器發(fā)送離散的行動(dòng)矩陣Ai,經(jīng)過(guò)積分器使PD控制器的關(guān)鍵參數(shù)變化是連續(xù)的,進(jìn)而使圖5中控制輸入信號(hào)能夠連續(xù)變化,符合實(shí)際過(guò)程中機(jī)械臂驅(qū)動(dòng)電機(jī)的工作要求。
本文針對(duì)一類機(jī)械臂PD控制器的參數(shù)自整定問(wèn)題,設(shè)計(jì)了一種基于PG的PD控制參數(shù)整定器。仿真驗(yàn)證說(shuō)明,通過(guò)引入積分器保證控制參數(shù)變化的連續(xù)性,從而實(shí)現(xiàn)了PG參數(shù)整定器的可行性,并有效改善了機(jī)械臂系統(tǒng)的動(dòng)態(tài)性能,且由于不同控制方法的參數(shù)整定過(guò)程均相似,所以該算法對(duì)于其他軌跡跟蹤控制律設(shè)計(jì)也具有一定通用性。