郭建國, 蘇亞魯
(西北工業(yè)大學(xué)精確制導(dǎo)與控制研究所, 陜西 西安 710072)
高超聲速飛行器主要是指飛行速度大于5馬赫的飛行器。由于飛行速度快、飛行包線大、作戰(zhàn)距離長等特點(diǎn),這類飛行器已成為世界各國航空航天領(lǐng)域的重點(diǎn)發(fā)展方向[1]。然而,高超聲速飛行器的復(fù)雜特性使其飛行控制系統(tǒng)設(shè)計(jì)面臨嚴(yán)峻挑戰(zhàn)。
國內(nèi)外學(xué)者基于高超聲速飛行器的建模和控制問題已開展了廣泛研究并取得一定成果,包括反饋線性化、反步法、滑??刂?、自適應(yīng)魯棒控制等[2]。文獻(xiàn)[3]在反步法框架下設(shè)計(jì)了姿態(tài)跟蹤魯棒控制器,同時(shí)采用一種基于新型跟蹤微分器的非線性干擾觀測器估計(jì)參數(shù)攝動、外部干擾等不確定性。文獻(xiàn)[4]采用反饋線性化和干擾觀測器相結(jié)合的方法,研究了輸入受限條件下高超聲速飛行器的速度和高度跟蹤問題。文獻(xiàn)[5]針對帶有非最小相位特性的高超聲速飛行器控制問題,借鑒正則形式變換,提出了一種縱向輸出跟蹤控制方法。文獻(xiàn)[6]利用干擾觀測器和神經(jīng)網(wǎng)絡(luò)研究了風(fēng)干擾下的高超聲速飛行器的控制問題。文獻(xiàn)[7]通過匹配化變換實(shí)現(xiàn)了高超聲速飛行器的滑模姿態(tài)控制。上述各種先進(jìn)控制方法保證了系統(tǒng)的魯棒性、穩(wěn)定性和抗飽和能力,然而鮮有文獻(xiàn)涉及到滿足性能指標(biāo)要求的優(yōu)化控制問題。
高超聲速飛行器這類非線性系統(tǒng)優(yōu)化控制的難點(diǎn)是求解哈密頓-雅可比-貝爾曼(Hamilton-Jacobi-Bellman, HJB)方程。自適應(yīng)動態(tài)規(guī)劃(adaptive dynamic programming, ADP)利用一個(gè)函數(shù)近似結(jié)構(gòu)近似性能指標(biāo)函數(shù),采用離線迭代或在線更新的方式獲得系統(tǒng)的近似最優(yōu)控制,成為最優(yōu)化領(lǐng)域的研究熱點(diǎn)[8]。文獻(xiàn)[9]基于策略迭代提出了一種在線自適應(yīng)方法,并在理論上證明了算法的穩(wěn)定性。文獻(xiàn)[10]采用積分強(qiáng)化學(xué)習(xí)技術(shù)求解連續(xù)時(shí)間非線性系統(tǒng)的最優(yōu)跟蹤控制問題。上述方法均采用評價(jià)網(wǎng)絡(luò)和控制網(wǎng)絡(luò),而且為了保證系統(tǒng)的穩(wěn)定性,往往要求給定一個(gè)初始穩(wěn)定控制。為了放松這兩個(gè)條件,文獻(xiàn)[11]只使用一個(gè)評價(jià)網(wǎng)絡(luò)估計(jì)系統(tǒng)的性能指標(biāo)函數(shù),同時(shí)采用一種新型的參數(shù)訓(xùn)練方法,克服了對初始穩(wěn)定控制的要求。文獻(xiàn)[12]采用一種新型的策略迭代方法求解非線性系統(tǒng)的全局最優(yōu)控制問題。文獻(xiàn)[13]針對高超聲速飛行器的魯棒控制問題,設(shè)計(jì)滑??刂破鱽肀WC系統(tǒng)整體穩(wěn)定性,同時(shí)提出一種基于數(shù)據(jù)的輔助控制器在線自適應(yīng)補(bǔ)償干擾和不確定引起的系統(tǒng)振蕩。文獻(xiàn)[14]基于積分滑模和ADP方法實(shí)現(xiàn)了近空間飛行器的最優(yōu)姿態(tài)跟蹤。需要指出的是,上述關(guān)于ADP的研究主要基于仿射非線性系統(tǒng),不能直接應(yīng)用在具有嚴(yán)格反饋形式的模型。
綜合以上分析,本文針對高超聲速飛行器的縱向模型,提出了一種反步法和ADP相結(jié)合的非線性優(yōu)化學(xué)習(xí)控制方法。首先,采用反步法設(shè)計(jì)穩(wěn)態(tài)控制器以保證穩(wěn)態(tài)階段系統(tǒng)跟蹤誤差趨近于0,并由此得到系統(tǒng)的誤差模型。然后,基于單個(gè)評價(jià)網(wǎng)絡(luò)的ADP方法,通過在線調(diào)整評價(jià)網(wǎng)絡(luò)的權(quán)值,設(shè)計(jì)最優(yōu)反饋控制器,最終使系統(tǒng)實(shí)現(xiàn)近似最優(yōu)跟蹤。
考慮高超聲速飛行器縱向動力學(xué)模型[15]為
(1)
(2)
式中,β為發(fā)動機(jī)節(jié)流閥開度。
由式(1)知,可以將模型分解成速度子系統(tǒng)和高度子系統(tǒng),令x1=V,u1=β,速度子系統(tǒng)為
(3)
式中,當(dāng)u1>1時(shí),
而當(dāng)u1≤1時(shí),
(4)
式中,kp和ki為待設(shè)計(jì)的正常數(shù)。
假設(shè) 1[16]模型式(1)中推力項(xiàng)Tsinα相對升力L很小,因此忽略不計(jì)。
令x2=γ,x3=α+γ,x4=q和u2=δe,考慮到假設(shè)1,高度子系統(tǒng)可以寫成嚴(yán)格反饋形式:
(5)
控制器的設(shè)計(jì)目標(biāo)是使速度子系統(tǒng)和高度子系統(tǒng)分別準(zhǔn)確跟蹤速度指令x1d和航跡角指令γd,同時(shí)滿足給定性能指標(biāo)最優(yōu)。自適應(yīng)最優(yōu)控制器設(shè)計(jì)成穩(wěn)態(tài)控制和最優(yōu)反饋控制兩部分,穩(wěn)態(tài)控制項(xiàng)保證跟蹤誤差在穩(wěn)態(tài)階段趨向于0,最優(yōu)反饋控制實(shí)現(xiàn)暫態(tài)階段對指令信號的最優(yōu)跟蹤。
針對速度子系統(tǒng),控制輸入u1設(shè)計(jì)成兩部分:
(6)
定義速度跟蹤誤差e1=x1-x1d,對e1進(jìn)行求導(dǎo),并考慮式(3)和式(6),得
(7)
(8)
(9)
則系統(tǒng)式(3)的最優(yōu)跟蹤問題就可以轉(zhuǎn)化為誤差系統(tǒng)式(9)的最優(yōu)穩(wěn)定問題。
(10)
將式(8)代入式(10)得
(11)
證畢
高度子系統(tǒng)是具有嚴(yán)格反饋形式的三階系統(tǒng),可以采用反步法設(shè)計(jì)控制器。首先,定義誤差如下:
(12)
式中,x2d=γd;x3d和x4d為虛擬控制輸入。
步驟 1對e2求導(dǎo),并考慮式(5)和式(12),得
(13)
(14)
將式(14)代入式(13)得
(15)
步驟 2對e3求導(dǎo),并考慮式(5)和式(12),得
(16)
(17)
將式(17)代入式(16)得
(18)
步驟 3對e4求導(dǎo),并考慮式(5)和式(12),得
(19)
(20)
將式(20)代入式(19)得
(21)
(22)
則系統(tǒng)式(5)的最優(yōu)跟蹤問題就可以轉(zhuǎn)化為誤差系統(tǒng)式(22)的最優(yōu)穩(wěn)定問題。
(23)
證畢
基于定理1和定理2,這部分研究速度誤差系統(tǒng)式(9)和高度誤差系統(tǒng)式(22)的最優(yōu)穩(wěn)定問題,可將式(9)和式(22)寫成統(tǒng)一形式:
(24)
首先,針對式(24),定義無限時(shí)間性能指標(biāo)函數(shù):
(25)
式中,τ表示時(shí)間;Q和R為正定對稱矩陣。
基于式(24)和式(25),定義Hamilton函數(shù):
(26)
(27)
從而得最優(yōu)控制輸入:
(28)
將式(28)代入式(27),得到
(29)
為了獲得最優(yōu)控制,必須求解式(29),但是式(29)是一階非線性偏微分方程,很難獲得解析解。
假設(shè) 2存在關(guān)于E的函數(shù)η(E),使其滿足:
(30)
引理 1[17]針對系統(tǒng)式(24)和性能指標(biāo)函數(shù)式(25)設(shè)計(jì)最優(yōu)控制式(28),則有如下結(jié)論成立:
結(jié)論 1Lyapunov函數(shù)J1(E)滿足:
(31)
(32)
采用單層評價(jià)網(wǎng)絡(luò)估計(jì)性能指標(biāo)函數(shù)
V*(E)=WTφ(E)+ε(E)
(33)
式中,W∈Rl是理想權(quán)值;φ(E)∈Rl是激活函數(shù),且φ (0)=0,l是隱含層的節(jié)點(diǎn)數(shù);ε(E)是估計(jì)誤差。
對式(33)求導(dǎo)可得
(34)
由式(28)、式(29)和式(34)得
(35)
(36)
式中,
D=G(X)R-1GT(X)
(37)
從而最優(yōu)控制和Hamilton函數(shù)的估計(jì)為
(38)
(39)
(40)
(41)
式中,
ρ=σTσ+1
(42)
高度子系統(tǒng)在反步控制設(shè)計(jì)過程中,進(jìn)行虛擬控制量求導(dǎo)運(yùn)算時(shí)存在“微分膨脹”問題。本文采用如下一階濾波器解決這一問題:
(43)
式中,x3c和x4c為濾波器的輸入;τ3和τ4為時(shí)間常數(shù)。
證明選取Lyapunov函數(shù)
J=α2J1(E)+J2
(44)
對J2求導(dǎo),并考慮式(36)、式(39)和式(41),得
(45)
經(jīng)化簡整理,可得
(46)
對式(46)前兩項(xiàng)取范數(shù),并考慮Dm≤|D|≤DM,有
(47)
考慮到
(48)
(49)
從而得
(50)
(51)
下面分兩種情況討論。
(52)
由假設(shè)2得
(53)
(54)
考慮到假設(shè)2和引理1,有
(55)
由式(33)、式(35)、式(37)和式(38)得
(56)
(57)
bWφM+εM=εr1
(58)
(59)
式中,λmax(R-1)為矩陣R-1的最大特征值。
證畢
為驗(yàn)證本文所提出的控制方法的有效性,對高超聲速飛行器縱向模型進(jìn)行閉環(huán)系統(tǒng)仿真。速度和高度參考指令分別由幅值為30.48 m/s和304.80 m的階躍信號通過如下濾波器給出:
(60)
評價(jià)網(wǎng)絡(luò)的權(quán)值更新過程如圖1所示,由仿真結(jié)果可知,在經(jīng)過約25 s的學(xué)習(xí)后,評價(jià)網(wǎng)絡(luò)的權(quán)值收斂。為了驗(yàn)證本文方法對控制性能的提升,將所設(shè)計(jì)的自適應(yīng)優(yōu)化控制方法與文獻(xiàn)[18]中反步控制方法進(jìn)行對比分析,仿真結(jié)果如圖2~圖6所示。
圖1 評價(jià)網(wǎng)絡(luò)的權(quán)值更新Fig.1 Weight updating of critic network
圖2 速度跟蹤曲線Fig.2 Curve of velocity tracking
圖2為速度跟蹤曲線,從圖中可以看出,在所設(shè)計(jì)控制方案下,閉環(huán)系統(tǒng)對速度指令具有很好的跟蹤精度,且相對反步法收斂速度更快。由圖3的高度跟蹤曲線可知,所提方法能夠?qū)崿F(xiàn)高度的精確跟蹤。圖4為航跡角、攻角和俯仰角速度的響應(yīng)曲線,與傳統(tǒng)的反步法相比,本文所設(shè)計(jì)的控制方法可以使系統(tǒng)在更短的時(shí)間內(nèi)趨于穩(wěn)定狀態(tài),從而改善系統(tǒng)的響應(yīng)特性。圖5和圖6為控制輸入的變化曲線,發(fā)動機(jī)節(jié)流閥開度和升降舵偏轉(zhuǎn)角均保持在合理范圍內(nèi)。
圖3 高度跟蹤曲線Fig.3 Curve of altitude tracking
圖4 系統(tǒng)狀態(tài)響應(yīng)曲線Fig.4 Response curve of system states
圖5 發(fā)動機(jī)節(jié)流閥開度曲線Fig.5 Opening curve of engine throtte
圖6 升降舵偏轉(zhuǎn)角曲線Fig.6 Curve of elevator deflection
為進(jìn)一步說明所提方案的優(yōu)越性,在80 s≤t≤150 s時(shí)分別向速度子系統(tǒng)和高度子系統(tǒng)加入以下擾動:d1=10sint,d2=0.05sint。系統(tǒng)在干擾作用下的速度和高度跟蹤結(jié)果如圖7和圖8所示??梢钥闯?本文所提出的方法仍能保證閉環(huán)系統(tǒng)的穩(wěn)定且具有較高的跟蹤精度,這主要是因?yàn)樵u價(jià)網(wǎng)絡(luò)可以利用權(quán)值更新律實(shí)時(shí)調(diào)整權(quán)值,從而提升控制器的控制性能,降低外界干擾對系統(tǒng)的不利影響。
圖7 干擾作用下的速度跟蹤曲線Fig.7 Velocity tracking curve with disturbance
圖8 干擾作用下的高度跟蹤曲線Fig.8 Altitude tracking curve with disturbance
本文設(shè)計(jì)了一種基于ADP的高超聲速飛行器優(yōu)化學(xué)習(xí)控制方案。首先借助反步法得到穩(wěn)態(tài)控制輸入,同時(shí)建立系統(tǒng)的誤差模型,將最優(yōu)控制問題轉(zhuǎn)化為最優(yōu)穩(wěn)定問題。在誤差模型的基礎(chǔ)上,采用單個(gè)評價(jià)網(wǎng)絡(luò)的ADP方法設(shè)計(jì)最優(yōu)反饋控制輸入。理論分析和仿真結(jié)果均表明所設(shè)計(jì)的控制方法不僅可以實(shí)現(xiàn)對指令信號的穩(wěn)定精確跟蹤,而且可以改善系統(tǒng)的動態(tài)特性。