姜 藝 范家璐 柴天佑
在實(shí)際的控制器設(shè)計問題中,通常是希望將被控對象的輸出跟蹤給定的設(shè)定值或給定的期望軌跡,即實(shí)現(xiàn)輸出跟蹤.對于前者,PID 控制器[1]、模型預(yù)測控制器[2]是一類經(jīng)典的解決方案.對于后者,該問題通??梢越⒊梢活愝敵稣{(diào)節(jié)問題[3-6],該問題的目標(biāo)通常包括兩部分,設(shè)計穩(wěn)定的控制器使得輸出信號與給定參考軌跡的誤差是漸近穩(wěn)定的,并且能夠完全可以克服外部系統(tǒng)所產(chǎn)生擾動信號對系統(tǒng)所產(chǎn)生的影響.然而,解決輸出調(diào)節(jié)問題通常依賴于已知的精確模型參數(shù),而在一些特殊情況下該要求是難以滿足的.
針對模型未知的被控對象的輸出跟蹤問題,一些專家學(xué)者提出了基于自適應(yīng)的控制方法,如模型參考自適應(yīng)控制[7]、無模型自適應(yīng)控制[8]、神經(jīng)網(wǎng)絡(luò)自適應(yīng)控制[9],這些方法可以在部分模型知識未知的情況下,很好的實(shí)現(xiàn)輸出跟蹤.而在有些情況下,控制器目標(biāo)需要使得最小化給定的性能指標(biāo),同時希望系統(tǒng)的動態(tài)性能滿足一定要求,這使得需要設(shè)計最優(yōu)自適應(yīng)控制器.
為解決最小化給定的性能指標(biāo)問題,一些專家學(xué)者提出了基于強(qiáng)化學(xué)習(xí)的自適應(yīng)控制方法,該方法通過與未知被控對象的交互來更新控制策略,使得控制器是最優(yōu)的.對于跟蹤問題,主要有兩類基于強(qiáng)化學(xué)習(xí)的方法,一類是將跟蹤問題定義為一類最優(yōu)二次型跟蹤問題,另一類是基于輸出調(diào)節(jié)理論的最優(yōu)輸出調(diào)節(jié)問題.利用前一類方法,文獻(xiàn)[10-11]與文獻(xiàn)[12-15]分別解決了連續(xù)與離散線性系統(tǒng)的最優(yōu)跟蹤控制問題,文獻(xiàn)[16]與文獻(xiàn)[17-19]分別解決了連續(xù)與離散非線性系統(tǒng)的最優(yōu)跟蹤控制問題.利用后一類方法,文獻(xiàn)[20-23]與文獻(xiàn)[24-26]分別解決了連續(xù)與離散線性系統(tǒng)的最優(yōu)輸出調(diào)節(jié)問題,文獻(xiàn)[27]與文獻(xiàn)[28]分別解決了連續(xù)與離散非線性系統(tǒng)的最優(yōu)輸出調(diào)節(jié)問題.上述方法是基于狀態(tài)反饋與策略迭代的方法,而對于系統(tǒng)狀態(tài)難以在線測量的系統(tǒng),上述方法不能直接應(yīng)用,針對這個問題,文獻(xiàn)[29]與文獻(xiàn)[30]分別設(shè)計了基于輸出反饋的控制器解決了最優(yōu)跟蹤控制問題與最優(yōu)輸出調(diào)節(jié)問題.對于動態(tài)性能要求,文獻(xiàn)[31]針對單無人機(jī)對單目標(biāo)的環(huán)航跟蹤問題,設(shè)計了飛行軌跡快速收斂到期望航跡的控制器.文獻(xiàn)[32]通過設(shè)計狀態(tài)反饋和動態(tài)輸出反饋控制,研究了機(jī)器人系統(tǒng)的有限時間控制問題.然而,上述文獻(xiàn)需要利用系統(tǒng)的動態(tài)模型參數(shù)來設(shè)計合適的Lyapunov 函數(shù).
為了使系統(tǒng)的動態(tài)特性滿足預(yù)先給定的要求,同時實(shí)現(xiàn)最優(yōu)自適應(yīng)控制,本文提出保證收斂速率的數(shù)據(jù)驅(qū)動線性離散系統(tǒng)最優(yōu)輸出調(diào)節(jié)方法,該方法不需要部分模型知識,與文獻(xiàn)[24-25]中的方法與被控對象相比,該算法不需要穩(wěn)定的初始控制律,同時輸出方程中輸入到輸出的前饋增益矩陣不等于0,利用在線的狀態(tài)數(shù)據(jù)、輸入數(shù)據(jù),或者在線的輸出、輸入數(shù)據(jù)求解得到基于狀態(tài)反饋與輸出反饋?zhàn)顑?yōu)的輸出調(diào)節(jié)器,并保證跟蹤誤差的收斂速率滿足預(yù)先給定的要求.
本文結(jié)構(gòu)如下:第1 節(jié)給出離散線性系統(tǒng)的最優(yōu)輸出調(diào)節(jié)問題描述,第2 節(jié)與第3 節(jié)分別進(jìn)行基于狀態(tài)反饋與輸出反饋的自適應(yīng)最優(yōu)輸出調(diào)節(jié)器設(shè)計,第4 節(jié)給出設(shè)計方法的收斂性與系統(tǒng)閉環(huán)穩(wěn)定性分析,第5 節(jié)利用仿真實(shí)驗(yàn)驗(yàn)證本文設(shè)計方法的有效性,第6 節(jié)為結(jié)論.
考慮如下受擾動的線性離散系統(tǒng)
傳統(tǒng)的輸出調(diào)節(jié)問題的控制器設(shè)計目標(biāo)為使得跟蹤誤差e(k) 是漸近穩(wěn)定的,即 l imk→∞e(k)=0.本文目標(biāo)為利用外部系統(tǒng)數(shù)據(jù)w(k),系統(tǒng)輸入u(k),系統(tǒng)狀態(tài)x(k)或系統(tǒng)輸出y(k)設(shè)計最優(yōu)輸出調(diào)節(jié)器,使得跟蹤誤差e(k)是漸近穩(wěn)定的,同時期望跟蹤誤差e(k)的收斂速率快于γ-k,其中γ>1.該問題可以定義為求解如下問題.
問題1.針對被控對象(1)~ (2),對應(yīng)的外部系統(tǒng)為(3)~ (4),設(shè)計控制器u(k)使得跟蹤誤差滿足
為解決該問題,根據(jù)輸出調(diào)節(jié)理論[3,33],該問題的輸出調(diào)節(jié)方程為
其中,X∈Rnx×nw與U∈Rnu×nw為輸出調(diào)節(jié)方程的待求解未知數(shù).利用Kronecker 積,輸出調(diào)節(jié)方程(7)~ (8)可寫為
基于假設(shè)2 可知,Γ 是行滿秩的,輸出調(diào)節(jié)方程(7)~ (8)是有解的[33].基于該解,并同時考慮控制器設(shè)計要求為使得跟蹤誤差e(k)的收斂速率快于γ-k,定義新系統(tǒng)為
基于新系統(tǒng)(10)~ (11),建立如下最優(yōu)控制問題與約束最優(yōu)化問題.通過求解該問題,可以保證式(6)成立,即跟蹤誤差e(k)的收斂速率快于γ-k,該性質(zhì)將會在閉環(huán)系統(tǒng)分析部分進(jìn)行證明.
問題2[34].針對系統(tǒng)(10)~ (11),給定Q≥0,R ≥0,設(shè)計基于狀態(tài)反饋與輸出反饋的最優(yōu)控制輸入,使得如下性能指標(biāo)最小
本節(jié)在被控對象狀態(tài)方程(1)中矩陣A、B、D、E未知、被控對象輸出方程(2)中矩陣C、S與F已知的情況下,設(shè)計數(shù)據(jù)驅(qū)動的基于狀態(tài)反饋的最優(yōu)自適應(yīng)輸出調(diào)節(jié)器.首先給出基于狀態(tài)反饋的最優(yōu)輸出調(diào)節(jié)器的解,之后利用該解的求解形式,設(shè)計數(shù)據(jù)驅(qū)動的基于值迭代的自適應(yīng)最優(yōu)輸出調(diào)節(jié)器.值得注意的是,由于本節(jié)所設(shè)計的是基于狀態(tài)反饋的最優(yōu)輸出調(diào)節(jié)器,因此需要利用狀態(tài)計算跟蹤誤差,故矩陣C、S與F已知的假設(shè)是合理的.
利用該式可以得到輸出調(diào)節(jié)方程(7)~ (8)的解X和U.
以上為基于模型的輸出調(diào)節(jié)方程(7)~ (8)的求解,與文獻(xiàn)[32]直接求解輸出調(diào)節(jié)方程不同,式(20)中的求解方法將會為第2.2 節(jié)中自適應(yīng)控制器設(shè)計提供指導(dǎo).
然而,直接求解Riccati 方程比較復(fù)雜,針對此問題,該小節(jié)利用基于值迭代的算法求解,其收斂性性質(zhì)見如下引理.
算法1.基于模型的值迭代狀態(tài)反饋?zhàn)顑?yōu)輸出調(diào)節(jié)算法
證明.文獻(xiàn)[37]給出了當(dāng)S=0 時的收斂性證明,本文將簡述S0 時的收斂性證明.首先將式(28)與式(26)定義為
注3.對于基于策略迭代的算法[24-25,38],其初始控制律K0要求矩陣是穩(wěn)定的,即A-BK0的特征值在以原點(diǎn)為圓心,半徑為 1/γ的圓內(nèi),當(dāng)矩陣A,B已知時,選擇滿足該條件的初始控制律K0是很容易的,然而,當(dāng)矩陣A、B未知時,初始控制律的選擇則更加嚴(yán)格.因此,本文使用基于值迭代的算法,該算法的初始控制律K0可以是任意的,同時該算法不用重復(fù)求解Lyapunov 函數(shù)[24-25,38].
以上為基于模型的問題求解方法,該求解方法將會為下一節(jié)中自適應(yīng)控制器設(shè)計提供指導(dǎo).
可將式(41)轉(zhuǎn)化為如下方程組
當(dāng)在線數(shù)據(jù)滿足一定要求時,上述方程組可由最小二乘方法求解.如下引理給出了方程組(42)具有唯一解的條件.
引理 2.方程組(42)可解并具有唯一解,當(dāng)且僅當(dāng)
當(dāng)引理2 成立時,方程組可以由下式求解,為
同時考慮式(30)與式(31)可得
以上為反饋控制增益Kj的在線計算過程,該部分將介紹如何在線求解輸出調(diào)節(jié)方程(7)~ (8)的解X和U,基于式(17)可得
利用上式,可將輸出調(diào)節(jié)方程(7)~ (8)寫為
其中
利用矩陣行變換,可以將式(47)重寫為類似式(19)的形式,進(jìn)而可以利用式(20)進(jìn)行求解得到輸出調(diào)節(jié)方程(7)~ (8)的解X和U,最后利用式(29)得到前饋增益.至此,基于狀態(tài)反饋與強(qiáng)化學(xué)習(xí)的自適應(yīng)最優(yōu)輸出調(diào)節(jié)算法如下.
算法2.基于狀態(tài)反饋與強(qiáng)化學(xué)習(xí)的自適應(yīng)最優(yōu)輸出調(diào)節(jié)算法
初始化:選擇任意的初始控制律K0,終止條件常數(shù)ε>0,半正定矩陣P0,矩陣序列Xi ∈Rnx×nw與Ui ∈Rnu×nw,j←0,i←0;
最優(yōu)反饋控制律在線計算:利用如下迭代算法計算最優(yōu)反饋增益,在區(qū)間 [k,k+s] 利用控制輸入為u(k)=-K0x(k)+n(k),其中n(k)為控制輸入中添加的探測噪聲,s為使得引理2 滿足的數(shù);
1) 利用式(43) 計算得到L1j,L2j,L3j,L4ij,L5ij,L6ij;
2) 利用式(44)計算Pj+1;
3) 判斷 ‖Pj+1-Pj‖<ε是否成立,如果成立則停止迭代,并利用式(45)計算得到Kj,反之重復(fù)上述兩步,并令j←j+1;
前饋增益在線計算:令i←i+1,重復(fù)計算得到所有L4ij直到i=m+1,進(jìn)而利用式(24) 進(jìn)行求解得到輸出調(diào)節(jié)方程(7)~ (8)的解X和U,最后利用式(29)得到前饋增益.
注4.值得注意的是,中僅含有過程數(shù)據(jù),因此,該值在迭代過程中對于固定i僅需要計算1 次,相較于基于策略迭代的方法,本文方法雖然迭代步數(shù)多,但每一步所需要的計算量卻小一些.
注5.對于序列,由于并不參與過程迭代,Kj僅需要在Pj收斂后計算1 次.因此,在該算法過程中u(k)并不需要進(jìn)行在線更新,因此該方法是一類離線策略,相較于在線策略,該方法可以保證計算結(jié)果是無偏的[39-40].
注6.探測噪聲n(k)的加入是為了使得引理2的條件滿足,達(dá)到充分激勵的效果.通常選擇為白噪聲或者正弦函數(shù)等.
本節(jié)在被控對象(1)~ (2)中矩陣A、B、D、S、E、C與F未知、在lU已知的情況下,設(shè)計基于輸出反饋的最優(yōu)自適應(yīng)輸出調(diào)節(jié)器,首先利用歷史的輸入輸出數(shù)據(jù)設(shè)計重構(gòu)狀態(tài)[29-30,41],之后設(shè)計基于值迭代的輸出反饋?zhàn)赃m應(yīng)最優(yōu)輸出調(diào)節(jié)器.
由式(29) 可知,最優(yōu)輸出調(diào)節(jié)問題可由如下控制輸入求解
上式的Riccati 方程難以直接求解,基于式(55)與動態(tài)方程
可得
可將式(59)轉(zhuǎn)化為如下方程組
當(dāng)在線數(shù)據(jù)滿足一定要求時,上述方程組可由最小二乘方法求解.如下引理給出了方程組(60)具有唯一解的條件.
引理3.方程組(60)可解并具有唯一解,當(dāng)且僅當(dāng)
當(dāng)引理3 成立時,方程組(60) 可以由下式求解,為
至此,基于輸出反饋與強(qiáng)化學(xué)習(xí)的自適應(yīng)最優(yōu)輸出調(diào)節(jié)算法如下.
算法3.基于輸出反饋與強(qiáng)化學(xué)習(xí)的自適應(yīng)最優(yōu)輸出調(diào)節(jié)算法
本節(jié)進(jìn)行所設(shè)計的狀態(tài)反饋與輸出反饋?zhàn)赃m應(yīng)最優(yōu)輸出調(diào)節(jié)算法的收斂性分析與基于所設(shè)計的最優(yōu)輸出調(diào)節(jié)器的閉環(huán)系統(tǒng)穩(wěn)定性分析,如下兩個定理分別給出了收斂性結(jié)論與穩(wěn)定性結(jié)論.
本節(jié)進(jìn)行所提算法的仿真實(shí)驗(yàn)研究,首先介紹仿真實(shí)驗(yàn)對象與實(shí)驗(yàn)參數(shù),之后分別進(jìn)行基于狀態(tài)反饋的仿真實(shí)驗(yàn)與基于輸出反饋的仿真實(shí)驗(yàn).
考慮如下受擾動的線性離散時間系統(tǒng)
探測噪聲n(k)為白噪聲,被控對象的初始狀態(tài)為x(1)=[1 2]T與w(1)=[2 1]T.由引理2 可知,求解公式(42)至少需要15 組數(shù)據(jù),故s需大于14,仿真實(shí)驗(yàn)中選擇s=17.
仿真結(jié)果如圖1~ 3 所示,圖1 表示基于狀態(tài)反饋的輸出y(k)與參考信號yd(k)的軌跡,由該圖可知本文所提方法能夠在系統(tǒng)矩陣A,B,D,E未知時實(shí)現(xiàn)自適應(yīng)輸出調(diào)節(jié),圖2 表示基于狀態(tài)反饋的 ‖Pj-P*‖與 ‖Kj-K*‖的誤差軌跡,由圖可知經(jīng)過13 步迭代算法收斂,圖3 表示基于狀態(tài)反饋的誤差e(k)與γ-ke(k0)的對比曲線,實(shí)驗(yàn)結(jié)果表明所設(shè)計的控制器能夠使得跟蹤誤差收斂快于γ-k.
圖1 基于狀態(tài)反饋的輸出y(k)與參考信號yd(k)軌跡Fig.1 Trajectories of the output y(k) and the reference signal yd(k) via state feedback
圖2 基于狀態(tài)反饋的 ‖Pj-P*‖與‖Kj-K*‖誤差軌跡Fig.2 Trajectory of the error between ‖Pj-P*‖and‖Kj-K*‖via state feedback
圖3 基于狀態(tài)反饋的誤差e(k)與 γ-k e(k0)對比曲線Fig.3 Comparison curve of e(k) and γ-k e(k0) via state feedback
本小節(jié)進(jìn)行基于狀態(tài)反饋的仿真實(shí)驗(yàn),仿真實(shí)驗(yàn)中,初始控制律
終止條件常數(shù)ε=80,半正定矩陣P0=0,探測噪聲n(k) 為白噪聲,被控對象的初始狀態(tài)為x(1)=[1 2]T與w(1)=[2 1]T.由引理3 可知,求解式(60)至少需要45 組數(shù)據(jù),故s需大于44,仿真實(shí)驗(yàn)中選擇s=64.
仿真結(jié)果如圖4~ 6 所示,圖4 表示基于s 輸出反饋的輸出y(k)與參考信號yd(k)的軌跡,由該圖可知本文所提方法能夠?qū)崿F(xiàn)自適應(yīng)輸出調(diào)節(jié),圖5表示基于輸出反饋的的誤差軌跡,圖6 表示基于輸出反饋的誤差e(k) 與γ-k e(k0)的對比曲線,實(shí)驗(yàn)結(jié)果表明所設(shè)計的控制器能夠使得跟蹤誤差收斂快于γ-k.
圖4 基于輸出反饋的輸出y(k)與參考信號yd(k)軌跡Fig.4 Trajectories of the output y(k) and the reference signal yd(k) via output feedback
圖5 基于輸出反饋的 ‖-‖與‖-‖誤差軌跡Fig.5 Trajectory of the error between ‖-‖and‖-‖via output feedback
圖6 基于輸出反饋的誤差e(k)與 γ-ke(k0)對比曲線Fig.6 Comparison curve of e(k) andγ-ke(k0)via outputfeedback
本小節(jié)進(jìn)行對比仿真實(shí)驗(yàn),其中對比方法選用文獻(xiàn)[24] 方法,對比實(shí)驗(yàn)的參數(shù)選擇為Q=1,R=30,收斂速率γ=3.由于文獻(xiàn)[24]中的方法無法求解輸出調(diào)節(jié)方程(7)~ (8)的解X和U,對比實(shí)驗(yàn)中求解X和U均使用本文的方法.對比方法中的初始控制策略為穩(wěn)定的.對比仿真結(jié)果如圖7表示,實(shí)驗(yàn)結(jié)果表明,與對比方法相比,在相同的權(quán)重矩陣參數(shù)下,本文所設(shè)計的控制器使得跟蹤誤差收斂快于γ-k,而對比方法計算得到的控制器使得跟蹤誤差收斂慢于γ-k.
圖7 對比仿真結(jié)果Fig.7 Comparison of simulation results
本文針對具有未知動態(tài)與收斂速率要求的受擾離散線性系統(tǒng)的輸出調(diào)節(jié)問題,提出了基于狀態(tài)反饋與輸出反饋的自適應(yīng)最優(yōu)輸出調(diào)節(jié)算法,該算法不需要穩(wěn)定的初始控制律與部分模型知識,利用在線算法求解得到最優(yōu)的輸出調(diào)節(jié)器,同時還能夠保證跟蹤誤差的收斂速率滿足預(yù)先給定的要求.本文的后續(xù)工作將著重于研究基于動態(tài)反饋的輸出調(diào)節(jié)算法,以克服對部分模型知識的要求.