邱志成,杜佳豪
華南理工大學(xué)機(jī)械與汽車工程學(xué)院,廣東 廣州 510641
隨著科學(xué)技術(shù)的不斷發(fā)展,人們對(duì)宇宙的探索不斷進(jìn)行著.僅在2018年,全球共執(zhí)行114次發(fā)射任務(wù)[1].對(duì)航空航天器的功能要求使得航天結(jié)構(gòu)大型化、復(fù)雜化、柔性化.航天航空器柔性結(jié)構(gòu)在運(yùn)動(dòng)過程中容易產(chǎn)生殘余振動(dòng),且頻率低,時(shí)間長.結(jié)果,可能導(dǎo)致控制的性能下降.更糟糕的是各個(gè)柔性結(jié)構(gòu)之間存在耦合關(guān)系.在最壞的情況下,可能會(huì)導(dǎo)致受控系統(tǒng)的不穩(wěn)定[2],甚至造成疲勞損壞.
柔性梁粘貼壓電傳感器和致動(dòng)器這種智能材料,也稱智能結(jié)構(gòu),在主動(dòng)振動(dòng)抑制中的應(yīng)用廣泛[3].婁軍強(qiáng)等[4]以壓電陶瓷為致動(dòng)器對(duì)旋轉(zhuǎn)柔性機(jī)械臂系統(tǒng)進(jìn)行振動(dòng)抑制;GARCIA等[5]利用壓電陶瓷貼片對(duì)柔性連桿機(jī)器人進(jìn)行振動(dòng)控制.多柔性梁振動(dòng)存在耦合關(guān)系,非線性因素等,其主動(dòng)控制是一個(gè)研究熱點(diǎn)與難點(diǎn).ABE等[6]提出了一種雙柔性連桿點(diǎn)對(duì)點(diǎn)運(yùn)動(dòng)抑制殘余振動(dòng)的前饋控制方法;PRADHAN與SUBUDHI[7]提出一種新的非線性自適應(yīng)模型預(yù)測控制器,用于雙鏈柔性機(jī)械臂在不同載荷作用下的末端位置控制;ROSENZWEIG等[8]提出了一種基于預(yù)測水平向下采樣的運(yùn)動(dòng)塊法對(duì)末端彈性聯(lián)接的多柔性梁結(jié)構(gòu)進(jìn)行振動(dòng)抑制.
柔性梁的建模方法常見的有假設(shè)模態(tài)法、有限單元法等,利用Lagrange方程,結(jié)合變分法、虛功原理等方法進(jìn)行建模[9].ANDREAS和THOMAS[10]使用Hamilton原理,對(duì)多柔性懸臂梁結(jié)構(gòu)進(jìn)行了建模;張娟等[11]對(duì)帶有壓電陶瓷作動(dòng)器和傳感器的平面智能柔性梁進(jìn)行了有限元?jiǎng)恿W(xué)建模.
近年來,強(qiáng)化學(xué)習(xí)控制得到了廣泛關(guān)注.強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個(gè)重要分支,其本質(zhì)是描述和解決智能體在與環(huán)境的交互過程中學(xué)習(xí)策略以最大化回報(bào)或?qū)崿F(xiàn)特定目標(biāo)的問題[12].徐意鈞等[13]提出一種基于概率推斷式強(qiáng)化學(xué)習(xí)的關(guān)節(jié)控制方法以提高空間機(jī)械臂的自主操作能力.PRADHAN等[14]利用強(qiáng)化學(xué)習(xí)技術(shù),對(duì)一個(gè)雙連桿柔性機(jī)械臂的末端軌跡和振動(dòng)進(jìn)行實(shí)時(shí)自適應(yīng)控制.
本文將研究多柔性梁耦合結(jié)構(gòu)的殘余振動(dòng),為此搭建多柔性梁耦合結(jié)構(gòu)平臺(tái),采用有限元法,對(duì)該結(jié)構(gòu)進(jìn)行理論建模分析;設(shè)計(jì)了模糊強(qiáng)化學(xué)習(xí)控制器與PD控制器和自抗擾控制器,對(duì)多柔性梁的殘余振動(dòng)進(jìn)行控制仿真,結(jié)果與PD控制器和自抗擾控制器進(jìn)行比較.
為研究多柔性梁耦合結(jié)構(gòu)特點(diǎn),搭建了多柔性梁結(jié)構(gòu)平臺(tái),以三柔性梁為例.為了給后續(xù)仿真提供環(huán)境模型,采用有限元法建立系統(tǒng)運(yùn)動(dòng)模型.
如圖1所示的為多梁耦合結(jié)構(gòu).隔振平臺(tái)上安裝有多柔性梁耦合結(jié)構(gòu).多柔性梁包括了3只柔性梁,一端固定,相鄰兩梁之間存在彈簧聯(lián)接,最外邊的柔性梁有彈簧與固定端聯(lián)接.靠近自由端有激光位移傳感器作為檢測裝置.
圖1 多柔性梁結(jié)構(gòu)Fig.1 Multiflexible beams structure
如圖2所示為多柔性梁結(jié)構(gòu)示意圖.柔性梁靠近固定端粘貼有壓電驅(qū)動(dòng)器,雙面對(duì)稱粘貼,用于控制.一根梁上所有壓電驅(qū)動(dòng)器施加的電壓相同.各梁接近末端添加有附加質(zhì)量塊.柔性梁使用環(huán)氧板制成,壓電驅(qū)動(dòng)器為壓電陶瓷片.
圖2 多柔性梁結(jié)構(gòu)示意圖Fig.2 Schematic diagram of multi flexible beam structure
柔性梁的位置與激光位移傳感器的位置均可在隔振平臺(tái)上自由調(diào)整.彈簧剛度及附加質(zhì)量塊可以自由更換.
如圖3所示,為普通梁單元,圖4所示為雙面粘貼的壓電梁單元,基于Euler-Bernoulli梁理論進(jìn)行建模.
圖3 梁單元示意圖Fig.3 Schematic diagram of beam element
圖4 壓電梁單元示意圖Fig.4 Schematic diagram of piezoelectric beam element
由Hamilton原理可知
(1)
式中,L=T-U+Wf,T表示動(dòng)能,U表示彈性應(yīng)變能,Wf表示外力功[15].
(1)動(dòng)能
普通柔性梁單元的動(dòng)能為
(2)
對(duì)于壓電柔性梁單元的動(dòng)能為
(3)
(2)應(yīng)變能
普通柔性梁單元的應(yīng)變能為
(4)
對(duì)于壓電梁單元的應(yīng)變能為
(5)
(3)外力功
設(shè)存在集中力fe作用于梁單元節(jié)點(diǎn)上,則普通柔性梁單元的外力功為
(6)
對(duì)于壓電梁單元,則存在控制驅(qū)動(dòng)力
(7)
由式(1)可以得到兩種單元的運(yùn)動(dòng)方程
此外,梁與梁之間的彈簧單元有
kspde=fsp
(8)
式中ksp表示彈簧的剛度矩陣.
最后是測量單元,采用的是激光位移傳感器,其單元輸出為
(9)
將多柔性梁結(jié)構(gòu)劃分為有限數(shù)量的單元,如圖5所示,將各個(gè)單元組裝,并通過刪除法添加固定約束,可以得到多柔性梁的總體運(yùn)動(dòng)方程
圖5 單元節(jié)點(diǎn)示意圖Fig.5 Schematic diagram of cell node
(10)
式中,M為總體質(zhì)量矩陣,Λ=k0M+k1K為瑞利阻尼矩陣,其中k0、k1為質(zhì)量阻尼系數(shù)和剛度阻尼系數(shù);Fc=HcUc為壓電驅(qū)動(dòng)力矢量,Hc為總體的控制力系數(shù)矩陣,Uc為控制電壓矢量,F(xiàn)為其他外力矢量,d為總體自由度矢量.
激光位移傳感器輸出可以表示為
Y=Slaserd
(11)
其中Slaser為總體測量系數(shù)矩陣.
可以得到狀態(tài)空間方程
(12)
所使用的材料以及結(jié)構(gòu)尺寸如表1所示,彈簧剛度如表2所示,附加質(zhì)量塊均為0.05 kg.
表1 材料屬性Tab.1 The material properties
表2 彈簧剛度Tab.2 Spring stiffness
通過上述有限元建模方法,每個(gè)梁單元長度均為0.02 m,得到多柔性梁耦合結(jié)構(gòu)的模態(tài)頻率如表3所示,以及其對(duì)應(yīng)的振型特征,如圖6 (a)~(f)所示.可見前3階模態(tài)頻率較為接近,第4階模態(tài)頻率約為前幾階6倍,而之后的4到6階頻率又較為接近.多柔性梁耦合結(jié)構(gòu)的殘余振動(dòng)呈現(xiàn)了密頻的特性.
圖6 各階模態(tài)振型特征Fig.6 Modal characteristics of each order
表3 模態(tài)頻率Tab.3 Modal frequencies
由于殘余振動(dòng)主要集中在前三階模態(tài)中,為簡化模型,仿真所采用的模型截取前三階模態(tài).不考慮施加的其他外力,僅考慮控制力作用,則式(12)的模態(tài)截?cái)嗄P涂梢詫懗?/p>
(13)
(14)
如圖7及圖8所示,分別為激勵(lì)1梁和激勵(lì)2梁時(shí)所引起的響應(yīng),可見梁與梁之間存在著耦合關(guān)系,且有“此消彼長”的特點(diǎn).
圖7 激勵(lì)梁1的振動(dòng)響應(yīng)Fig.7 Vibration responses of excitation beam 1
圖8 激勵(lì)梁2的振動(dòng)響應(yīng)Fig.8 Vibration responses of excitation beam 2
激勵(lì)梁1時(shí),梁1與梁3的振動(dòng)主要為前三階模態(tài)結(jié)合,梁2主要為1階和3階結(jié)合.三梁耦合呈現(xiàn)密頻特性,拍頻特征.而激勵(lì)梁2時(shí),三梁的振動(dòng)均主要為1階和3階頻率結(jié)合.三梁耦合也呈現(xiàn)密頻特性,有很明顯的拍頻特征,且振動(dòng)時(shí)間長,特別是小幅值振動(dòng).
自抗擾控制由韓京清[16]提出,并在多個(gè)領(lǐng)域得到了應(yīng)用.根據(jù)文獻(xiàn)[17]設(shè)計(jì)多柔性梁結(jié)構(gòu)自抗擾控制器如圖9所示,其控制律為
圖9 自抗擾控制器控制框圖Fig.9 Block diagram of active disturbance rejection controller
(15)
(16)
(17)
(18)
強(qiáng)化學(xué)習(xí)在離散動(dòng)作方面取得了許多成果,但難以處理連續(xù)動(dòng)作方面問題,為此引入T-S模糊作為解決途徑[18-19].
T-S模糊規(guī)則如下:
Ri:ifs1isFi1and...snisFin
thenui,1withqi,1or...ui,jwithqi,j.
式中,sm表示第m個(gè)狀態(tài),F(xiàn)im為第i條規(guī)則相應(yīng)的模糊集,m=1,2,…,n;ui,j為第i規(guī)則的后件第j個(gè)動(dòng)作,qi,j為所對(duì)應(yīng)的狀態(tài)動(dòng)作價(jià)值.由此可以建立模糊控制電壓表{ui,j},以及動(dòng)作價(jià)值表{qi,j}.
則對(duì)第i條規(guī)則有激活度
κi(s)=μ1(s1)×μ2(s2)…×μn(sn)
(19)
式中μm(sm)表示第m個(gè)狀態(tài)隸屬度.對(duì)激活度進(jìn)行歸一化操作有
(20)
T-S模糊后件的選擇通過ε-貪婪策略進(jìn)行,即有1-ε的概率選擇狀態(tài)動(dòng)作價(jià)值最大的動(dòng)作,ε的概率選擇其他動(dòng)作,如下所示
(21)
式中,π(u|s)表示在狀態(tài)s下選擇動(dòng)作u的概率.
T-S模糊的實(shí)際輸出為
(22)
而強(qiáng)化學(xué)習(xí)目標(biāo)為使得累計(jì)回報(bào)期望最大,即
(23)
式中rt+1表示t時(shí)刻與環(huán)境互動(dòng)后獲得回報(bào)值,γ為折扣系數(shù).而Q(s,u)反映當(dāng)前狀態(tài)s下采取控制電壓u,所能獲得的未來累計(jì)回報(bào)期望,即
Q(s,u)=E(Gt|st=s,ut=u)
因此,只要?jiǎng)幼鳡顟B(tài)價(jià)值收斂,隨著策略參數(shù)ε的減小,就能收斂到最優(yōu)動(dòng)作序列.
記動(dòng)作狀態(tài)價(jià)值的TD誤差為
δt=rt+1+γQ(st+1,ut+1)-Q(st,ut)
對(duì)于每條規(guī)則后件的更新為
(24)
引入資格跡能有效加速訓(xùn)練效果[20]
(25)
式中,λ為加權(quán)因子;zt為資格跡矢量,z0=0.則后件更新為
qt+1=qt+αδtzt
(26)
式中α表示更新步長.
對(duì)于多梁控制可以視為分別單獨(dú)進(jìn)行控制,對(duì)于模糊規(guī)則后件動(dòng)作的設(shè)置,采用等差擴(kuò)展的方法,即
式中,ui,mid表示所擴(kuò)展動(dòng)作的中項(xiàng),nj與nmid分別為ui,j與ui,mid的對(duì)應(yīng)項(xiàng)數(shù),di為公差.
回報(bào)設(shè)置為
r=-sTKs-uTΓu
(27)
式中K與Γ分別為狀態(tài)權(quán)重與電壓權(quán)重.
如圖10所示,為模糊強(qiáng)化學(xué)習(xí)控制框圖.圖11為控制流程圖.
圖10 模糊強(qiáng)化學(xué)習(xí)控制框圖Fig.10 Fuzzy reinforcement learning control block diagram
圖11 模糊強(qiáng)化學(xué)習(xí)控流程圖Fig.11 Flow chart of fuzzy reinforcement learning control
PD控制器控制律如下所示:
(28)
式中,e(k)=r(k)-y(k),r(k)表示參考值,u(k)為控制輸入,kp,kd分別為比例項(xiàng)增益系數(shù)矩陣和微分項(xiàng)增益系數(shù)矩陣.
在MATLAB中進(jìn)行仿真,以激勵(lì)梁1為例,設(shè)置梁1初始位移為10 mm,振動(dòng)1 s后控制介入;控制電壓u∈[-150,150]V.
PD參數(shù)選擇為比例kp=diag{23,23,23},微分kd=-diag{1.5,1.5,1.5}.如圖12所示為PD控制各梁的振動(dòng)情況;如圖13所示為各梁控制電壓圖.可以看出PD控制大幅值振動(dòng)衰減迅速,但是小幅值的振動(dòng)持續(xù)時(shí)間較長.
圖12 PD控制下各梁振動(dòng)Fig.12 Vibration of each beam under PD control
圖13 PD控制下各梁控制電壓Fig.13 Voltage of each beam under PD control
在MATLAB中進(jìn)行仿真,以激勵(lì)梁1為例,設(shè)置梁1初始位移為10 mm,振動(dòng)1 s后控制介入;控制電壓u∈[-150,150]V.
如圖14所示為自抗擾控制器各梁的振動(dòng)情況;如圖15所示為各梁控制電壓圖.自抗擾控制器控制效果略優(yōu)于PD,但其結(jié)構(gòu)也更為復(fù)雜.
圖14 自抗擾控制下各梁振動(dòng)Fig.14 Vibration of each beam under ADRC control
圖15 自抗擾控制下各梁控制電壓Fig.15 Voltage of each beam under ADRC control
圖16 位移誤差模糊集Fig.16 Displacement error fuzzy sets
圖17 速度誤差模糊集Fig.17 Speed error fuzzy sets
設(shè)置折扣系數(shù)γ=0.99,加權(quán)因子λ=0.6.貪婪系數(shù)ε隨著幕數(shù)nepi變化為ε=0.5×0.99nepi,步長α也隨幕數(shù)nepi變化,α=0.8×0.99nepi.
如圖18所示為第1次訓(xùn)練的控制效果與第500次訓(xùn)練控制效果對(duì)比;圖19所示為第1次訓(xùn)練的控制電壓與第500次訓(xùn)練控制電壓對(duì)比.可以看出,第1次訓(xùn)練中的控制電壓較為紊亂,控制幾乎無效果,而在第500次訓(xùn)練時(shí),控制效果得到很明顯的提升.
圖18 模糊強(qiáng)化學(xué)習(xí)控制下各梁振動(dòng)Fig.18 Vibration of each beam under FRLC
圖19 模糊強(qiáng)化學(xué)習(xí)控制下各梁控制電壓Fig.19 Voltage of each beam under FRLC
為了解決訓(xùn)練開始控制電壓大范圍跳動(dòng)可能造成對(duì)壓電片的損傷,且初期幾乎無控制效果的問題,鑒于模糊控制表具有很好的可移植性,使用PD控制電壓初始化設(shè)置擴(kuò)展動(dòng)作的中項(xiàng)umid,公差d=5 V,擴(kuò)展數(shù)量為21.其控制效果如圖20與圖21所示.可見訓(xùn)練開始時(shí)的效果接近于PD控制效果,經(jīng)500次訓(xùn)練后控制效果有明顯提升.
圖20 PD初始化模糊強(qiáng)化學(xué)習(xí)控制各梁振動(dòng)Fig.20 Vibration of each beam under FRLC with PD initiated
圖21 PD初始化模糊強(qiáng)化學(xué)習(xí)下的各梁控制電壓Fig.21 Voltage of each beam under FRLC with PD initiated
圖22顯示每幕到達(dá)設(shè)定終止?fàn)顟B(tài)時(shí)所經(jīng)歷的時(shí)間.雖然到達(dá)終止?fàn)顟B(tài)時(shí)間存在一定的變動(dòng),但總體趨勢可以明顯看出,隨著幕數(shù)增加,到達(dá)終止?fàn)顟B(tài)的時(shí)間越來越短,然后逐漸趨平.
圖22 訓(xùn)練過程Fig.22 Training process
相比于自抗擾與PD控制器,模糊強(qiáng)化學(xué)習(xí)控制能夠更好的抑制小幅值振動(dòng).自抗擾控制器到達(dá)終止?fàn)顟B(tài)時(shí)間需要13.5 s左右,而經(jīng)過500次訓(xùn)練的模糊強(qiáng)化學(xué)習(xí)控制器到達(dá)終止?fàn)顟B(tài)僅需要10 s左右.
針對(duì)多柔性梁殘余振動(dòng)的主動(dòng)控制,本文分析了殘余振動(dòng)密頻的特點(diǎn),設(shè)計(jì)了模糊強(qiáng)化學(xué)習(xí)控制器,并進(jìn)行訓(xùn)練及控制的仿真,采用PD初始化控制電壓表能在初期得到較好效果.結(jié)果顯示模糊強(qiáng)化學(xué)習(xí)控制器能有效地控制多梁殘余振動(dòng),特別是小幅值的振動(dòng).