孫明軒 徐晨晨 鄒勝祥
(浙江工業(yè)大學(xué)信息工程學(xué)院 杭州 310023)
積分自適應(yīng)方法適用于連續(xù)時間參數(shù)系統(tǒng),它提供的自適應(yīng)機(jī)制在線調(diào)整控制器參數(shù),以實現(xiàn)期望的控制性能。這種自適應(yīng)方法的典型特征在于其積分自適應(yīng)參數(shù)估計算法,可利用 Lyapunov綜合方法推導(dǎo)這種自適應(yīng)律,并建立閉環(huán)系統(tǒng)穩(wěn)定性與收斂性。積分自適應(yīng)算法在相關(guān)文獻(xiàn)中較為常見,關(guān)于它的詳細(xì)理論(包括算法推導(dǎo)、算法性質(zhì))可參見文獻(xiàn)[1,2]。由已發(fā)表文獻(xiàn)可以看出,積分自適應(yīng)方法在處理參數(shù)不確定性方面是十分有效的,通過算法形式的設(shè)置能夠直接導(dǎo)致性能分析的完成。由于自適應(yīng)算法的積分形式,實現(xiàn)時需要求解用于估值計算的積分方程,即需要進(jìn)行離散近似。離散近似后的參數(shù)估值與積分自適應(yīng)律所得結(jié)果是存在偏差的。已發(fā)表文獻(xiàn)中提出了多種魯棒自適應(yīng)策略,可以使得積分自適應(yīng)律在離散實現(xiàn)時仍能夠保證閉環(huán)系統(tǒng)的控制性能[2]。通過采取界已知的不確定性魯棒處理手段,文獻(xiàn)[3]提出的自適應(yīng)魯棒控制方法能夠預(yù)先規(guī)定系統(tǒng)性能,從而有效改進(jìn)了閉環(huán)系統(tǒng)的瞬態(tài)性能。
迭代學(xué)習(xí)方法借鑒人們處理重復(fù)行為的做法,經(jīng)由逐步學(xué)習(xí)過程不斷改善、提高性能,如運動員的訓(xùn)練過程。迭代學(xué)習(xí)控制技術(shù)適于有限區(qū)間上重復(fù)運行的受控對象,通過學(xué)習(xí)可實現(xiàn)完全跟蹤任務(wù)。值得借鑒之處在于學(xué)習(xí)算法的構(gòu)造形式,它能夠提供關(guān)于時變參數(shù)的估計,但每次作業(yè)完成后要求初始定位。重復(fù)控制是與迭代學(xué)習(xí)控制并行發(fā)展的領(lǐng)域,重復(fù)控制適于周期參考信號控制任務(wù),可實現(xiàn)周期參考信號的漸近跟蹤及周期干擾的抑制[3-8]。自適應(yīng)方法已被用于處理存在未知周期時變參數(shù)的情形,形成了自適應(yīng)學(xué)習(xí)控制,其中的周期性自適應(yīng)機(jī)制用于估計周期性時變參數(shù)。它適用于處理周期性干擾信號,因為這種干擾可以被認(rèn)為是受控系統(tǒng)動態(tài)特性中的周期時變參數(shù)[7-9]。學(xué)習(xí)控制器設(shè)計時的一個重要問題是估值限幅,通過限幅措施可以確保有界估計[10-13]。這種控制技術(shù)在電機(jī)控制等工業(yè)場合已有應(yīng)用報道[14-17]。
借鑒上述學(xué)習(xí)控制方法,本文提出增量自適應(yīng)學(xué)習(xí)策略,以推廣學(xué)習(xí)控制的適用范圍。具體地,增量自適應(yīng)學(xué)習(xí)方法可應(yīng)用于連續(xù)運行受控對象,其參考信號不要求為周期的。針對連續(xù)時間自適應(yīng)系統(tǒng),文中應(yīng)用增量自適應(yīng)學(xué)習(xí)策略,避免使用積分自適應(yīng)律,從而規(guī)避了在實現(xiàn)積分自適應(yīng)律時進(jìn)行離散化帶來的近似問題。文中提出具有未知常參數(shù)不確定系統(tǒng)的自適應(yīng)學(xué)習(xí)控制算法,與通常自適應(yīng)控制類似,適合于任何參考輸入信號跟蹤(除光滑性要求外),并未有周期性或重復(fù)性要求。本文詳細(xì)分析了非限幅和限幅自適應(yīng)學(xué)習(xí)機(jī)制,給出了數(shù)值仿真結(jié)果,并將其應(yīng)用于實際運動控制裝置。
考慮下述參數(shù)不確定動態(tài)系統(tǒng):
(1)
其中,x和u分別是標(biāo)量狀態(tài)和控制輸入,θ是nθ維未知參數(shù)向量,φ(·)是連續(xù)非線性函數(shù)向量。θ在式(1)的右端呈線性形式,這表明與傳統(tǒng)自適應(yīng)系統(tǒng)類似,本文也注重處理線性參數(shù)不確定性。本文的控制目標(biāo)是,對于系統(tǒng)式(1),設(shè)計自適應(yīng)控制器,使得系統(tǒng)狀態(tài)收斂于0,即當(dāng)t→∞時,x(t)→0;同時,閉環(huán)系統(tǒng)中所有信號都是有界的。為了實現(xiàn)這一控制目標(biāo),本文提出設(shè)計控制器的增量自適應(yīng)方法,而不是采用通常的積分自適應(yīng)方法。
常規(guī)積分自適應(yīng)控制器具有如下形式:
(2)
并采用下述自適應(yīng)律:
(3)
(4)
(5)
式(3)被稱為積分自適應(yīng)律,這是因為它可寫為
對于t>T,
將上述兩式相減,可得式(3)的增量形式為
(6)
利用積分中值定理:
(7)
其中,ξ位于t-T和t之間的某個時刻。式(7)右邊的第2項,其取值取決于ξ;由于ξ的不確定性,在不同時刻這一項的取值也無法確定。由于實際控制系統(tǒng)中采用計算機(jī)技術(shù),該積分自適應(yīng)律在應(yīng)用時只能近似實現(xiàn),即x(ξ)以x(t)替代,也可以x(t-T)替代。通常,閉環(huán)性能分析是針對式(3)進(jìn)行的,或者是針對式(6)進(jìn)行的,而不是針對替代后的閉環(huán)系統(tǒng)。因此,替代后的閉環(huán)系統(tǒng)性能尚無理論保證。本文擬探討無需采用積分近似的自適應(yīng)方法,以便規(guī)避實現(xiàn)積分自適應(yīng)算法時遇到的問題,并分析其閉環(huán)系統(tǒng)控制性能。
本節(jié)給出的自適應(yīng)系統(tǒng)設(shè)計采用了增量自適應(yīng)方法,它不同于使用積分自適應(yīng)算法的傳統(tǒng)設(shè)計。本文將分別討論未限幅和限幅自適應(yīng)機(jī)制。
首先,考慮下述自適應(yīng)律:
(8)
證明選擇下述Lyapunov-Krasovski泛函:
(9)
它關(guān)于時間的導(dǎo)數(shù)為
利用下述等式:
可將V的導(dǎo)數(shù)表達(dá)為
(10)
利用自適應(yīng)律式(8),可將式(10)寫為
(11)
可以得出,x∈L2T。進(jìn)一步地,對于t∈[iT, (i+1)T],t0=t-iT∈[0,T)。
因而,
由級數(shù)收斂的必要性條件可知:
利用不等式(a-b)2≤2a2+2b2,由式(4)得:
由于x的有界性和φ(x)的連續(xù)性,存在常數(shù)c1和c2使得:
式(8)給出了一種增量形式的自適應(yīng)律,它在應(yīng)用中可以直接實現(xiàn),無近似計算。不像式(6)那樣含有積分運算,實現(xiàn)時需近似計算積分。
通過在式(8)所示自適應(yīng)律中引入飽和函數(shù),本文提出如下形式學(xué)習(xí)律:
(12)
(13)
證明利用式(4),V的時間導(dǎo)數(shù)可表達(dá)為
依據(jù)文獻(xiàn)[11]中引理1(取q1=1,q2=0),
因此,
利用式(12)和式(13),得到:
-βx2(t)≤-βx2(t)
至此,容易推出該自適應(yīng)學(xué)習(xí)系統(tǒng)的穩(wěn)定性和收斂性結(jié)果。
仿真結(jié)果如圖1~圖3所示。從圖1可以看出,系統(tǒng)狀態(tài)在所提出的控制器作用下收斂;圖2為控制輸入信號;由增量自適應(yīng)學(xué)習(xí)律給出的參數(shù)估值收斂性能如圖3所示。
圖3 參數(shù)θ的估計(其真值為3)
圖2 控制輸入u
圖1 系統(tǒng)狀態(tài)x
這一節(jié),本文將增量自適應(yīng)方法應(yīng)用于實際中常見的運動控制系統(tǒng)。對于這類系統(tǒng),自適應(yīng)魯棒控制是一種有效控制方法。
考慮下述不確定運動控制系統(tǒng):
(14)
其中,x1和x2分別為系統(tǒng)位置與速度變量,u是控制輸入,M為慣性負(fù)載的轉(zhuǎn)動慣量,B為粘滯摩擦系數(shù),Δ表示擾動、建模誤差等集總不確定性。
為了表達(dá)簡便,定義參數(shù)θ1=M,θ2=B,可將式(14)寫為
(15)
對于未知參數(shù)及外部干擾,假設(shè)其變化范圍有界,且界已知。
假設(shè)1在式(15)中:
θ∈Ωθ={θ: 0<θmin<θ<θmax}
(16)
(17)
給定位置參考軌跡xd,本文的控制目標(biāo)是設(shè)計控制輸入u,使得系統(tǒng)實際位置盡可能跟蹤上該參考軌跡。為了達(dá)到此控制目標(biāo),本文采用增量自適應(yīng)學(xué)習(xí)算法估計未知參數(shù),同時以魯棒手段處理外部擾動,設(shè)計增量自適應(yīng)魯棒控制器。
為此,定義如下濾波誤差函數(shù):
(18)
對式(18)求導(dǎo),并代入式(15)可得:
(19)
考慮誤差動態(tài)方程式(19),本文設(shè)計如下自適應(yīng)學(xué)習(xí)控制器:
u=ua+ur
(20)
(21)
ur=us1+us2
(22)
(23)
(24)
(25)
(26)
這里,γ1、γ2>0為增益系數(shù),sat(·)為飽和函數(shù)。ur為由2項組成的控制項,比例反饋控制項us1=-ksef,ks>0,us2為魯棒控制項,用于處理不確定性影響,本文假定us2有界(在狀態(tài)有界情形下)。與文獻(xiàn)[3]中相似,此項需滿足以下條件:
(27)
P2:efus2≤0
(28)
本文首先僅考慮存在參數(shù)不確定性的閉環(huán)系統(tǒng)收斂性能,即考慮Δ=0的情形。
定理3系統(tǒng)式(15)在控制律式(20)作用下,當(dāng)Δ=0時,閉環(huán)系統(tǒng)所有變量有界,且跟蹤誤差漸近收斂于0。
證明選取如下Lyapunov泛函:
(29)
為了分析收斂性能,本文考查該泛函在整個周期上的差,即ΔL(t)=L(t)-L(t-T),
(30)
當(dāng)Δ=0時,對于上式右端的前2項,依據(jù)條件式(28)可得:
(31)
進(jìn)一步地,有下述關(guān)系式:
(32)
以及
(33)
將式(31)~(33)代入式(30),可得:
(34)
依據(jù)文獻(xiàn)[11]中引理1(取q1=1,q2=0)可知:
這樣,式(34)可寫為
(35)
對于t∈[iT,(i+1)T],記t0=t-iT∈[0,T),可將L(t)寫為
由式(35)可知:
(36)
為了得到L(t)的有界性,需先證得L(t0)是有界的,即,對于t∈[0,T),L(t)有界。由L(t)的定義可知:
對上式關(guān)于時間求導(dǎo):
為了方便實現(xiàn),本文需設(shè)計具體的魯棒控制項us2。該項需滿足條件P1和P2,本文設(shè)計us2為如下形式:
(37)
式中,取h滿足:
(38)
這里,各界值定義見假設(shè)1。
定理4系統(tǒng)式(15)在控制律式(20)作用下(采用式(37)給出的us2),當(dāng)Δ≠0時,系統(tǒng)響應(yīng)滿足下述微分不等式:
(39)
證明根據(jù)式(20),對V求導(dǎo)可得:
可得:
定理得證。
由定理4可以看出,在控制器式(20)中采用魯棒控制項式(37)規(guī)定了閉環(huán)系統(tǒng)響應(yīng)的瞬態(tài)過程,瞬態(tài)及穩(wěn)態(tài)性能可以預(yù)先設(shè)定。這與常規(guī)自適應(yīng)魯棒控制方法是相同的。對于增量自適應(yīng)學(xué)習(xí)算法(不同于積分自適應(yīng)算法),本文證明了這種控制性能能夠預(yù)先設(shè)定的特點。本文提出的控制方案并未要求參考軌跡是周期信號,這不同于重復(fù)控制方法。
在電機(jī)實驗裝置上,實現(xiàn)本文提出的增量自適應(yīng)學(xué)習(xí)控制方案,以便驗證其控制效果。該實驗裝置如圖4所示,它以TMS320F2812控制器、ELMO HAR-5/60驅(qū)動器、APM-SB01AGN交流伺服電機(jī)構(gòu)成閉環(huán)控制系統(tǒng),完成位置跟蹤控制過程,上位機(jī)作為運行監(jiān)控設(shè)備。
圖4 電機(jī)實驗裝置
實驗中采用了2組期望軌跡,以便檢驗正弦信號跟蹤與點到點控制效果。
取正弦參考信號xd(t)=90sin(πt)。圖5~圖7為采用增量自適應(yīng)學(xué)習(xí)算法的跟蹤控制結(jié)果。其中,圖5(a)分別給出實際輸出信號與參考信號;圖5(b)為跟蹤誤差。由圖中可以看出,它最終收斂于-0.3520~0.3020 deg;圖6為控制輸入;圖7為參數(shù)θ1和θ2的估計,如圖中所示,參數(shù)估值會逐漸趨于常值(或是在某鄰域內(nèi)波動),但無法確認(rèn)參數(shù)估值是否收斂于真值,因為本文在保證穩(wěn)定性與控制精度下,僅證明參數(shù)估值有界。
圖5 增量自適應(yīng)學(xué)習(xí)控制下的實際輸出軌跡與跟蹤誤差
圖6 控制輸入
圖7 參數(shù)θ1和θ2的估值
為了檢驗由式(23)~(26)所表示的增量自適應(yīng)學(xué)習(xí)算法性能,在測試點到點控制性能時考慮以下3種學(xué)習(xí)周期:T=Ts=0.005 s;T=5Ts=0.025 s;T=10Ts=0.05 s。
點到點參考信號如圖8所示;圖9分別給出3種學(xué)習(xí)周期下的跟蹤誤差,對于不同的學(xué)習(xí)周期,誤差最大峰值分別為-1.8238 deg、-1.7990 deg、-1.8296 deg,且跟蹤誤差分別收斂至[-0.3495,0.3660] deg、[-0.3540,0.3697] deg、[-0.3793,0.3540] deg;圖10為3種學(xué)習(xí)周期下的控制輸入;圖11和圖12給出了不同學(xué)習(xí)周期下的參數(shù)θ1和θ2的估計。
圖12 系統(tǒng)參數(shù)θ2的估值
圖11 系統(tǒng)參數(shù)θ1的估值
圖8 點到點運動參考信號
圖9 跟蹤誤差
圖10 控制輸入
本文提出了一種增量自適應(yīng)學(xué)習(xí)策略,適用于連續(xù)時間自適應(yīng)控制系統(tǒng),它不同于傳統(tǒng)自適應(yīng)系統(tǒng)中采用的積分自適應(yīng)算法,在實現(xiàn)時規(guī)避了像積分自適應(yīng)算法那樣的離散化處理。為此,本文分析了積分自適應(yīng)算法在應(yīng)用時的近似實現(xiàn)方式。提出的增量自適應(yīng)學(xué)習(xí)策略具有未限幅與限幅2種形式。本文證明了非限幅增量自適應(yīng)系統(tǒng)的漸近收斂性,且估值在L2T意義下有界。提出的限幅增量自適應(yīng)學(xué)習(xí)算法,能夠保證參數(shù)估值本身有界,并借助類Barbalat引理,證明了閉環(huán)系統(tǒng)收斂性。理論分析與實驗結(jié)果表明,提出的增量自適應(yīng)學(xué)習(xí)算法能夠有效處理受控系統(tǒng)中的參數(shù)不確定性,也證明了引入限幅是獲得有界估計的有效方法;更為重要的是,它規(guī)避了積分自適應(yīng)算法的離散化實現(xiàn)方式。