梁小輝,胡昌華,周志杰,王青
1. 西北工業(yè)大學(xué) 自動化學(xué)院,西安 710129 2.火箭軍工程大學(xué) 導(dǎo)彈工程學(xué)院,西安 710025 3.北京航空航天大學(xué) 自動化科學(xué)與工程學(xué)院,北京 100191
大型運(yùn)載火箭是開展大規(guī)??臻g探索與開發(fā)的前提,研制新一代運(yùn)載火箭對于中國未來的太空發(fā)展戰(zhàn)略意義重大。目前由于大運(yùn)載技術(shù)還不夠成熟,發(fā)射任務(wù)還時有失敗,因此,保障大型運(yùn)載火箭的安全可靠飛行已成為國家迫切需要解決的重大工程問題[1-3]。容錯控制技術(shù)[4]可利用故障檢測信息,通過參數(shù)調(diào)整、控制重構(gòu)等手段,保證執(zhí)行機(jī)構(gòu)、測量器件或其他系統(tǒng)元器件處于故障狀態(tài)時,閉環(huán)系統(tǒng)仍然穩(wěn)定且維持一定的控制性能,在航天飛控系統(tǒng)設(shè)計(jì)中得到了廣泛的應(yīng)用[5]。
容錯控制一般可分為主動容錯和被動容錯2種情況[6-7]。針對運(yùn)載火箭推力下降或伺服機(jī)構(gòu)卡死等有限故障,文獻(xiàn)[8]提出了一種基于徑向基神經(jīng)網(wǎng)絡(luò)的自適應(yīng)容錯姿態(tài)控制方法,使用神經(jīng)網(wǎng)絡(luò)在線辨識模型的故障參數(shù)和不確定干擾,在保證姿態(tài)控制系統(tǒng)穩(wěn)定的同時提高了對故障的自適應(yīng)能力。文獻(xiàn)[9-10]設(shè)利用擴(kuò)張狀態(tài)觀測器來估計(jì)可重復(fù)使用運(yùn)載火箭的柵格翼故障和系統(tǒng)不確定性,并結(jié)合固定時間收斂的相關(guān)理論,消除了觀測誤差收斂受系統(tǒng)初始值的限制,并在此基礎(chǔ)上,設(shè)計(jì)了一種非奇異快速終端滑模容錯控制器,消除了執(zhí)行器故障的不利影響,保證了姿態(tài)跟蹤性能。針對結(jié)構(gòu)損傷導(dǎo)致的氣動參數(shù)變化,文獻(xiàn)[11]在線估計(jì)了氣動參數(shù)的變化,利用自適應(yīng)反步容錯控制器來補(bǔ)償結(jié)構(gòu)損傷導(dǎo)致的氣動參數(shù)變化,消除了結(jié)構(gòu)損傷對系統(tǒng)靜穩(wěn)定性和控制精度的影響,實(shí)現(xiàn)容錯飛行控制功能??紤]到系統(tǒng)受外部干擾和未知執(zhí)行器效率損失的影響,文獻(xiàn)[12]提出了一種積分滑模容錯控制方法,該方法保證了執(zhí)行器故障下航天器姿態(tài)控制系統(tǒng)的穩(wěn)定性,并采用自適應(yīng)方法消除了故障信息邊界的限制。進(jìn)一步考慮執(zhí)行器飽和問題,文獻(xiàn)[13]利用魯棒控制技術(shù),設(shè)計(jì)了一種被動容錯姿態(tài)穩(wěn)定控制方法,該方法即使在控制輸入飽和的情況下也可以保證姿態(tài)系統(tǒng)的局部有限時間穩(wěn)定性。
上述的幾種容錯控制手段雖然可以有效提高姿態(tài)控制系統(tǒng)的魯棒容錯能力,但其大多都缺乏自我學(xué)習(xí)和參數(shù)自主更新的功能,當(dāng)系統(tǒng)遭遇意外故障時,火箭控制系統(tǒng)的性能會仍然會受到很大影響。與傳統(tǒng)的控制方法不同,自適應(yīng)動規(guī)劃(Adaptive Dynamic Programming, ADP)是一種利用一個函數(shù)近似結(jié)構(gòu)(例如神經(jīng)網(wǎng)絡(luò)、模糊模型、多項(xiàng)式等) 來估計(jì)代價函數(shù), 用于按時間正向求解動態(tài)規(guī)劃的學(xué)習(xí)算法,具有在線學(xué)習(xí)和調(diào)整控制器參數(shù)的能力[14-16]。文獻(xiàn)[17]提出了一種基于執(zhí)行-評價(Actor-Critic, AC)結(jié)構(gòu)的ADP算法來處理分散跟蹤控制問題,并通過AC網(wǎng)絡(luò)求解了Hamiltonian-Jacobi-Bellman方程。文獻(xiàn)[18]基于增量近似動態(tài)規(guī)劃設(shè)計(jì)了一類非線性系統(tǒng)的無模型控制方案。利用ADP和滑??刂萍夹g(shù),文獻(xiàn)[19]解決了高超聲速飛行器姿態(tài)跟蹤控制問題。該算法將實(shí)際值與參考信號之間的偏差信息作為AC網(wǎng)絡(luò)的輸入,利用ADP算法產(chǎn)生補(bǔ)償控制以改善系統(tǒng)性能。雖然容錯控制和自適應(yīng)動態(tài)規(guī)劃都取得了一定的研究成果,但是二者之間的有機(jī)結(jié)合還有待進(jìn)一步研究,尤其是在運(yùn)載火箭姿態(tài)控制方面的相關(guān)應(yīng)用。
為了解決運(yùn)載火箭執(zhí)行機(jī)構(gòu)故障下的姿態(tài)容錯控制問題,本文提出了一種基于自適應(yīng)動態(tài)規(guī)劃的智能容錯控制方法。首先,構(gòu)造了一種自適應(yīng)故障觀測器,有效實(shí)現(xiàn)了執(zhí)行機(jī)構(gòu)未知故障的估計(jì);在此基礎(chǔ)上設(shè)計(jì)了一種自適應(yīng)滑模容錯控制器,保證了故障情況下閉環(huán)系統(tǒng)的穩(wěn)定以及姿態(tài)跟蹤誤差的有限時間收斂;同時,為了提高火箭姿態(tài)跟蹤的控制精度,利用執(zhí)行-評價網(wǎng)絡(luò)結(jié)構(gòu),設(shè)計(jì)了一種自適應(yīng)動態(tài)規(guī)劃補(bǔ)償控制器,降低執(zhí)行機(jī)構(gòu)故障帶來的消極影響;最后,通過仿真驗(yàn)證證明了所提算法的有效性。
運(yùn)載火箭繞質(zhì)心轉(zhuǎn)動動力學(xué)方程可表示為[20]
(1)
式中:τ∈R3為控制力矩;d= [dx,dy,dz]T∈R3為系統(tǒng)的復(fù)合干擾項(xiàng),主要包括彈性模態(tài)等引起的未建模動態(tài)、外部干擾以及系統(tǒng)不確定性等;J=diag(Jxx,Jyy,Jzz)T∈R3×3為轉(zhuǎn)動慣量;ω=[ωx,ωy,ωz]T∈R3為姿態(tài)角速度向量;ω×表示向量ω∈R3擴(kuò)張成的斜對稱矩陣。
定義ξ=[φ,ψ,θ]T∈R3,φ、ψ和θ分別為滾轉(zhuǎn)角、偏航角和俯仰角,姿態(tài)角可以表示為
(2)
式中:S(ξ)為坐標(biāo)轉(zhuǎn)換矩陣。
運(yùn)載火箭上升段的動力系統(tǒng)主要由4臺捆綁助推發(fā)動機(jī)(A1~A4)和4臺芯級發(fā)動機(jī)(B1~B4)構(gòu)成,每臺發(fā)動機(jī)推力可達(dá)460 t,其擺角執(zhí)行機(jī)構(gòu)如圖1所示布局。其中:Ra和Rb表示火箭中心軸線到捆綁發(fā)動機(jī)中心和芯級發(fā)動機(jī)中心的距離,黃色噴管為固定噴管,其他為擺動噴管。發(fā)動機(jī)A1、A3、B1、B3聯(lián)合擺動控制偏航運(yùn)動,發(fā)動機(jī)A2、A4、B2、B4聯(lián)合擺動控制俯仰運(yùn)動,8臺發(fā)動機(jī)綜合控制運(yùn)載火箭滾轉(zhuǎn)運(yùn)動[21]。根據(jù)火箭擺角等效原則,姿態(tài)控制三通道(俯仰、偏航、滾轉(zhuǎn))等效擺角指令為
圖1 推力發(fā)動機(jī)分布Fig.1 Configuration of propulsive engines
(3)
式中:δA和δB分別為捆綁和芯級發(fā)動機(jī)三通道的擺角值;kA、kB為發(fā)動機(jī)擺角系數(shù),轉(zhuǎn)換矩陣TA和TB的具體形式為
此時,運(yùn)載火箭主動段的姿態(tài)控制系統(tǒng)三通道的等效擺角值δ=[δx,δy,δz]T可以表示為
δ=δA+δB
(4)
本文主要考慮效率損失和偏差性故障這2種最為常見的擺動執(zhí)行機(jī)故障[21],因此,執(zhí)行機(jī)構(gòu)故障模型采用矩陣形式可表示為
δf=Eδ+ρ
(5)
式中:E=diag{e1,e2,e3}∈R3×3為執(zhí)行效率矩陣且效率系數(shù)滿足0 τf=Gδf (6) 式中:對角矩陣G∈R3×3為力矩轉(zhuǎn)換矩陣,為三通道的等效控制輸入。 注1區(qū)別于文獻(xiàn)[22],本文將擺動發(fā)動機(jī)的控制等效到了俯仰、偏航和滾轉(zhuǎn)3個通道,這里考慮的故障影響是一種綜合的體現(xiàn),并不是具體哪個執(zhí)行機(jī)構(gòu)的故障。ei=0表示等效三通道的某個通道已經(jīng)完全失去控制,控制系統(tǒng)已經(jīng)失去了控制作用。 結(jié)合式(1)~式(6),運(yùn)載火箭執(zhí)行器故障情況下的姿態(tài)控制系統(tǒng)可表示為 (7) (8) 為簡化后續(xù)的推導(dǎo)表述,式(8)可被改寫為 (9) 本文的主要目的是:在式(5)所示的發(fā)動機(jī)擺動執(zhí)行機(jī)構(gòu)故障情況下,設(shè)計(jì)一種基于自適應(yīng)動態(tài)規(guī)劃的智能容錯控制器,以提高運(yùn)載火箭姿態(tài)控制系統(tǒng)的容錯能力和抗干擾特性,消除執(zhí)行機(jī)構(gòu)故障以及外部干擾帶來的消極影響,維持姿態(tài)系統(tǒng)(7)的穩(wěn)定,保證指令跟蹤誤差系統(tǒng)(9)收斂到零。 引理1[13]對于系統(tǒng)(10),若存在李雅普諾夫函數(shù)滿足: ?t≥t0,V(xt0)≥0 則系統(tǒng)收斂時間為 其中:λ1>0,λ2>0和0 引理2[23]若李雅普諾夫函數(shù)V(t)為連續(xù)正定函數(shù)且V(0)有界,滿足下述不等式: 式中:c1和c2為正常數(shù);h(t)為有界正函數(shù)。則V(t)為有界函數(shù)。 引理3[24]徑向基神經(jīng)網(wǎng)絡(luò)(Radial Basis Function Neural Networks, RBFNN)可以很好的逼近未知連續(xù)函數(shù)。利用RBFNN,未知連續(xù)函數(shù)f(Z):Rk→Rp可被改寫為 f(Z)=WTf(Z)+ε 因?yàn)樽顑?yōu)權(quán)重W和近似誤差ε未知,可得 注2運(yùn)載火箭的氣動面和發(fā)動機(jī)擺動執(zhí)行機(jī)構(gòu)的偏轉(zhuǎn)角是在一定范圍內(nèi)連續(xù)的變化的。因此,附加的氣動力不確定性和擾動也是有界的[20]。此外,對于工程實(shí)踐來說,執(zhí)行器故障和外部干擾是有界性假設(shè)是合理的。 本文設(shè)計(jì)智能容錯控制器結(jié)構(gòu)如圖2所示,綠色部分是穩(wěn)定控制器,黃色部分是補(bǔ)償控制器。設(shè)計(jì)目的是結(jié)合2種方法的優(yōu)勢,實(shí)現(xiàn)存在故障和各類不確定性下的火箭姿態(tài)高精度跟蹤控制。傳統(tǒng)的穩(wěn)定控制方法可以保證系統(tǒng)穩(wěn)定,但是在火箭發(fā)射過程中即使保持穩(wěn)定,但穩(wěn)定過程耗費(fèi)的時間太多,仍然會導(dǎo)致發(fā)射任務(wù)的失敗,所以采用ADP優(yōu)化補(bǔ)償控制器來改善系統(tǒng)的控制性能,同時也降低穩(wěn)定控制器設(shè)計(jì)的難度和復(fù)雜度。 圖2 基于自適應(yīng)動態(tài)規(guī)劃的智能容錯控制器結(jié)構(gòu)Fig.2 Structure of ADP-based intelligent fault-tolerant controller 定義輔助變量U(t)=diag{δx(t),δy(t),δz(t)},Σ=[e1,e2,e3]T,此時有 (10) 設(shè)計(jì)如下所示的故障觀測器: (11) (12) 式中: (13) α1>0,β1>0,γ1>0為常值增益;P為正定對稱矩陣;(·)i為向量的第i個元素。 (14) 式中: (15) α2>0,β2>0,γ2>0為常值增益。 (16) (17) 式中:ε為一個較小的正數(shù),常值增益α3>0。此時,可得觀測誤差系統(tǒng)為 (18) 定理1考慮系統(tǒng)(9),設(shè)計(jì)故障觀測器(11)和自適應(yīng)更新律(12)~(15),對于給定的Hurwitz矩陣A和正常數(shù)ξ,若存在正定對稱矩陣P滿足: ATP+PA+2ξP<0 (19) 則觀測誤差系統(tǒng)(19)是最終一致有界的。 (20) 求導(dǎo)可得 (21) 式中: 根據(jù)式(12),YΣ可分為下面3種情況。 (22) (23) (24) 同理可得 (25) 將式(22)~式(25)代入(21)可得 (26) 易知下述不等式成立 (27) (28) (29) (30) 將式(27)~(30)代入(26)可得 (31) 選擇參數(shù)βi,γi,(i=1,2)使得2βi-1>0和2γi-1>0成立,可得 (32) 式中: Ω= 其中:λmin(·)為矩陣(·)的最大特征值。 同樣的根據(jù)式(16),分情況討論。 (34) 根據(jù)引理2和假設(shè)3可知:李雅普諾夫函數(shù)V1(t)是有界的。 (34) 由式(17)可知,π(t)是一個正的單調(diào)遞增函數(shù),且存T>0,對于?t>T,滿足π(t)≥ζ。因此,函數(shù)V1(t)是有界的,且滿足: (35) 根據(jù)ATP+PA+2ξP<0可得 V1(T)-V1(t)- V1(T)-V1(t)+ (36) 通過上述分析可知, (37) 證畢。 進(jìn)一步設(shè)計(jì)自適應(yīng)滑模容錯控制器來保證姿態(tài)閉環(huán)系統(tǒng)的穩(wěn)定性。首先,設(shè)計(jì)如式(38)所示的非奇異快速終端滑模面: (38) 對滑模面(38)求微分可得 F+GE(t)δ(t)+Gρ(t)+D(t)+ (39) 式中: Dx1= (40) 式中:W1和φ1為權(quán)重矩陣和徑向基函數(shù);ε1為近似誤差。 滑模面的可達(dá)律為 (41) 注3在容錯控制率的設(shè)計(jì)中采用了RBFNN來處理滑模動態(tài)中的不確定性,主要是因?yàn)樵诠收嫌^測器中并不涉及不確定性的觀測,如果利用觀測器來直接處理會增加觀測器設(shè)計(jì)的復(fù)雜度,降低觀測誤差的收斂時間,不利于算法實(shí)現(xiàn),同樣的策略在文獻(xiàn)[25]中也有所體現(xiàn)。 定理2考慮系統(tǒng)(9),設(shè)計(jì)容錯控制律 (42) (43) 對式(43)求導(dǎo)可得 (44) 將自適應(yīng)容錯控制律(42)代入式(44)可得 ?1S-?2signa/b(S)+ (45) 式中: 下面將YW1分為以下2種情況進(jìn)行討論。 (46) (47) (48) 同時,易得下述不等式成立, (49) (50) 將不等式(46)~式(50)代入式(45)可得 (51) (52) (53) (54) 因此可知,自適應(yīng)控制律(42)可使得閉環(huán)系統(tǒng)穩(wěn)定,且滑模動態(tài)(40)在有限時間內(nèi)收斂到原點(diǎn)的鄰域內(nèi)。 證畢。 為了進(jìn)一步改善運(yùn)載火箭姿態(tài)系統(tǒng)的跟蹤性能,本節(jié)主要利用自適應(yīng)動態(tài)規(guī)劃算法,設(shè)計(jì)了一種執(zhí)行-評價網(wǎng)絡(luò)結(jié)構(gòu)的優(yōu)化補(bǔ)償控制器。 定義系統(tǒng)的效用函數(shù)為[26] r(x(t),u(t))=[xT(t),uT(t)]Kr[xT(t),uT(t)]T (55) 式中:u(k)=δ(k)為ADP算法的輸出;Kr為正定對稱矩陣。 然后,評價函數(shù)定義為[27] (56) 式中:收斂系數(shù)ε∈(0,1)。 ADP的主要目的是找到一個控制輸入u(k)使得上述的評價函數(shù)J(x(t),u(t))最小,所以最優(yōu)評價函數(shù)J*(x(t),u(t))可表示為 (57) 根據(jù)最優(yōu)控制理論,可得下述Bellman方程: εJ*(x(t+Δt),u(t+Δt))} (58) ainput=x(t),aoutput=u(t) (59) 評價網(wǎng)絡(luò)的輸入cinput和輸出coutput可表示為 (60) (61) (62) 對于執(zhí)行網(wǎng)絡(luò)的第p個輸出節(jié)點(diǎn),其輸出up(t)為 (63) (64) (65) (66) 根據(jù)梯度下降算法,執(zhí)行-評價網(wǎng)絡(luò)權(quán)重的更新規(guī)則為 (67) (68) (69) (70) 其中:λa>0和λc>0為學(xué)習(xí)效率。至此,基于自適應(yīng)動態(tài)規(guī)劃的優(yōu)化補(bǔ)償控制方案設(shè)計(jì)完成。ADP補(bǔ)償控制部分網(wǎng)絡(luò)權(quán)重更新主要利用的梯度下降的方法實(shí)現(xiàn),由于篇幅所限,這里就不做具體推導(dǎo),詳細(xì)的證明過程可以參考我們之前的工作[28]。 (71) 為了說明所設(shè)計(jì)的基于ADP的智能容錯控制的有效性,分別對“滑模容錯”和“ADP+滑模容錯”2種控制方法進(jìn)行數(shù)值仿真,仿真結(jié)果如圖4~圖12所示。同時,為了說明本文所提方法的優(yōu)越性,論文結(jié)果與文獻(xiàn)[20]進(jìn)行對比仿真,由圖可知上述的幾種容錯控制設(shè)計(jì)方法都可保證執(zhí)行機(jī)構(gòu)故障下姿態(tài)控制系統(tǒng)的穩(wěn)定,并完成火箭上升段姿態(tài)指令跟蹤任務(wù),但是不難發(fā)現(xiàn),本文所提的基于自適應(yīng)動態(tài)規(guī)劃的智能容錯控制方法具有更強(qiáng)的容錯能力,當(dāng)運(yùn)載火箭姿態(tài)系統(tǒng)遭遇外部干擾和執(zhí)行機(jī)構(gòu)故障的不利影響時,能夠更好的維持姿態(tài)系統(tǒng)的跟蹤性能。 圖4為偏航通道執(zhí)行器部發(fā)生分效率損失故障的估計(jì)曲線,圖5為俯仰通道執(zhí)行器偏置故障的估計(jì)曲線,由圖可知:所設(shè)計(jì)的故障觀測器可以有效實(shí)現(xiàn)故障信息的估計(jì)。圖6~圖8為火箭姿態(tài)系統(tǒng)的姿態(tài)角指令跟蹤曲線,圖9為姿態(tài)跟蹤誤差響應(yīng)曲線。觀察圖6~圖8可知,姿態(tài)角在12 s內(nèi)即可跟蹤上指令信號,跟蹤誤差不超過0.1°。當(dāng)仿真進(jìn)行到20 s時,系統(tǒng)遭遇執(zhí)行機(jī)構(gòu)故障,姿態(tài)跟蹤特性明顯被影響,系統(tǒng)出現(xiàn)明顯的跟蹤誤差,如圖9所示。3種容錯控制方法都可以消除故障的持續(xù)影響,其中本文多提“ADP+滑模控制”的方法處理故障的速度更快,在10 s就能消除跟蹤誤差。相比較而言,緊靠“滑??刂啤狈椒m然最終也實(shí)現(xiàn)了姿態(tài)指令的跟蹤,但是沒有ADP的補(bǔ)償控制明細(xì)響應(yīng)速度下降。 圖4 執(zhí)行器效率損失故障觀測值Fig.4 Estimation of LOE fault for actuators 圖5 執(zhí)行器偏置性故障觀測值Fig.5 Estimation of bais fault for actuators 圖6 滾轉(zhuǎn)角跟蹤曲線Fig.6 Tracking curves of the roll angle 圖10為姿態(tài)角速率的時間響應(yīng)曲線,等效三通道控制輸入響應(yīng)曲線如圖11所示,效用函數(shù)的響應(yīng)曲線如12所示。觀察圖10可知,在整個仿真過程中,姿態(tài)角速率都能快速收斂,但是本文所采用的“ADP+滑??刂啤钡姆椒骷?xì)收斂速度和振蕩幅值、頻率都低于其他2種方法。從圖12明顯可以看出:通過提出的權(quán)重更新算法,當(dāng)執(zhí)行器在20 s發(fā)生故障時,效用函數(shù)將迅速收斂到零,這意味著姿態(tài)跟蹤誤差將減小到零,即所提方法可以快速消除執(zhí)行器故障對姿態(tài)跟蹤性能的影響。 圖7 偏航角跟蹤曲線Fig.7 Tracking curves of the yaw angle 圖8 俯仰角跟蹤曲線Fig.8 Tracking curves of pitch angle 圖9 姿態(tài)角跟蹤誤差曲線Fig.9 Tracking erros of attitude angle 圖10 姿態(tài)角速率響應(yīng)曲線Fig.10 Responses of attitude velocity 圖11 控制輸入Fig.11 Control input 本文針對主動上升段存在發(fā)動機(jī)擺動執(zhí)行機(jī)構(gòu)故障的運(yùn)載火箭姿態(tài)控制問題,提出了一種基于自適應(yīng)動態(tài)規(guī)劃的智能姿態(tài)容錯控制方法。主要結(jié)論包括: 1) 利用自適應(yīng)控制技術(shù),可設(shè)計(jì)出一種基于非線性觀測器的故障檢測估計(jì)方法,成功實(shí)現(xiàn)對執(zhí)行機(jī)構(gòu)效率損失和偏置性故障的估計(jì)。 2) 在上述故障觀測器基礎(chǔ)上,結(jié)合非奇異終端滑模技術(shù)和故障估計(jì)信息,可構(gòu)建了一種滑模自適應(yīng)容錯控制器,保證了姿態(tài)閉環(huán)系統(tǒng)的穩(wěn)定性。 3) 為進(jìn)一步減小系統(tǒng)跟蹤誤差,利用強(qiáng)化學(xué)習(xí)的執(zhí)行-評價結(jié)構(gòu),設(shè)計(jì)出一種自適應(yīng)動態(tài)規(guī)劃補(bǔ)償控制算法,可以依據(jù)系統(tǒng)跟蹤誤差對系統(tǒng)進(jìn)行優(yōu)化補(bǔ)償,在確保姿態(tài)系統(tǒng)跟蹤精度,提高姿態(tài)跟蹤的收斂速度。2 預(yù)備知識
3 基于ADP的智能容錯控制
3.1 容錯穩(wěn)定控制器
3.2 優(yōu)化補(bǔ)償控制器
4 仿真驗(yàn)證
5 結(jié) 論