何飛毅,張莫楠,倪 昊,辛 穎,黃子豪
(1. 上海航天控制技術(shù)研究所·上?!?01109;2. 陸裝駐上海地區(qū)第三軍事代表室·上海 ·201109)
高超聲速飛行器采用基于乘波特性設(shè)計的升力體外形,在高超聲速條件下具有高升阻比、高操縱性的特點,展現(xiàn)出了極強的長航時跨域飛行、高速機動軌跡變更等優(yōu)點,得到了各國的廣泛研究。高超聲速飛行器在飛行過程中,飛行包線跨域大,其氣動存在非線性強、不確定性大、耦合特征明顯等特點,特別是在大動壓飛行工況下表現(xiàn)出極強的靜不穩(wěn)定性,容易造成參數(shù)較大攝動情況下的控制品質(zhì)下降。另一方面,由于采用最優(yōu)升阻比設(shè)計和輕質(zhì)結(jié)構(gòu)外形,飛行器一階、二階固有振動頻率低,發(fā)動機、制導(dǎo)飛控艙設(shè)備等彈上設(shè)備振動影響顯著,隨著飛行動壓增大,飛行器振動模態(tài)與剛體控制耦合明顯,進一步降低控制系統(tǒng)穩(wěn)定裕度,嚴重時甚至使飛行器失穩(wěn)。因此,如何在飛行器特性具有較大攝動時,高效實現(xiàn)大動壓、大靜不穩(wěn)定下的剛體控制和彈性體抑制,對提高超聲速飛行器飛行控制品質(zhì)具有重要意義。
傳統(tǒng)飛行控制系統(tǒng)設(shè)計一般基于精確的被控對象模型,通過離線設(shè)計的控制參數(shù)確保實際飛行過程中具有一定的穩(wěn)定性和響應(yīng)性能,例如LQR控制[1]、魯棒控制[2]、反步法控制[3]、滑??刂芠4]等,上述方法在面對高超聲速飛行器嚴酷的飛行環(huán)境時,往往難以適應(yīng)飛行器復(fù)雜多變的強不確定性影響。因此,需要研究一種能夠根據(jù)飛行器輸入輸出響應(yīng)信息,在線優(yōu)化飛行控制性能的方法。針對上述問題,研究人員提出了一種融合動態(tài)規(guī)劃(Dynamic Programming,DP)、強化學習(Reinforcement Learning,RL)和函數(shù)近似的自適應(yīng)動態(tài)規(guī)劃(Adaptive Dynamic Programming,ADP)方法[5]。該方法利用在線獲取的輸入輸出數(shù)據(jù),采用近似函數(shù)估計來構(gòu)造系統(tǒng)性能指標評價函數(shù),然后依據(jù)貝爾曼動態(tài)規(guī)劃理論獲得近似最優(yōu)的控制策略,其作為一種基于數(shù)據(jù)學習和優(yōu)化的智能控制方法,在解決具有未知特性的復(fù)雜系統(tǒng)最優(yōu)控制問題中具有極大潛力,目前已經(jīng)得到國內(nèi)外學者的廣泛研究[6]。
D Vrabie等提出了一種基于強化學習(Reinforcement Learning,RL)的連續(xù)系統(tǒng)控制的在線策略迭代方法,該方法不需要知道系統(tǒng)的動力學模型,僅僅通過對評價網(wǎng)絡(luò)和執(zhí)行網(wǎng)絡(luò)的順序更新,實現(xiàn)了系統(tǒng)的在線優(yōu)化[7-8]。在此基礎(chǔ)上,K Vamvoudakis等提出了評價網(wǎng)絡(luò)和執(zhí)行網(wǎng)絡(luò)的同步更新策略,進而提高了控制性能在線優(yōu)化的效率[9]。H Modares等為了進一步提高基于RL的自適應(yīng)動態(tài)規(guī)劃對執(zhí)行機構(gòu)飽和的適應(yīng)能力,并解決在線優(yōu)化過程中持續(xù)激勵條件(Persistence of Excitation,PE)難以判別的問題,提出了一種基于積分強化學習和經(jīng)驗回放機制的自適應(yīng)動態(tài)規(guī)劃方法,不僅采用了當前的輸入輸出信息,還充分利用了歷史數(shù)據(jù)優(yōu)化控制系統(tǒng)性能,并且在穩(wěn)定系統(tǒng)上進行了驗證[10]。上述方法通過采集系統(tǒng)當前和過去的控制信號、狀態(tài)反饋信號等信息,通過求解評價網(wǎng)絡(luò)和執(zhí)行網(wǎng)絡(luò)權(quán)函數(shù)的梯度實時更新控制權(quán)重,但是優(yōu)化過程中對系統(tǒng)穩(wěn)定的要求過于嚴格,一旦更新的權(quán)重使系統(tǒng)發(fā)散,特別是對于靜不穩(wěn)定系統(tǒng),往往難以獲得收斂且可靠的結(jié)果。Jiang Y等針對不確定連續(xù)系統(tǒng)提出了一種魯棒ADP控制方法(Robust Adaptive Dynamic Programming,RADP),該方法基于最優(yōu)性原理利用當前和過去信息,將控制權(quán)重更新問題轉(zhuǎn)化為二次規(guī)劃問題求解,使每一次控制更新都能得到使系統(tǒng)穩(wěn)定的解[11]。
在上述研究的基礎(chǔ)上,國內(nèi)外學者也針對高超聲速飛行器對象,開展了自適應(yīng)動態(tài)規(guī)劃方法的應(yīng)用研究。郭建國等針對高超聲速飛行器的速度和高度自適應(yīng)控制問題,結(jié)合反步法與積分強化學習(Integral Reinforcement Learning,IRL)方法設(shè)計了最優(yōu)反饋學習控制律,并通過Lyapunov穩(wěn)定性理論嚴格證明了跟蹤誤差的一致最終有界[12]。汪雨劼等針對臨近控制飛行器最優(yōu)控制問題,將飛行器系統(tǒng)轉(zhuǎn)化為標稱跟蹤系統(tǒng)和誤差跟蹤系統(tǒng),基于RADP方法對誤差跟蹤系統(tǒng)設(shè)計了姿態(tài)控制律,實現(xiàn)了氣動參數(shù)攝動情況下的近似最優(yōu)跟蹤控制[13]。李旭針對天地往返飛行器再入段姿態(tài)控制問題,基于滑??刂坪虯DP方法設(shè)計了內(nèi)外雙環(huán)控制器,并在外環(huán)引入ADP控制結(jié)構(gòu)作為輔助控制[14]。
上述方法在一定程度上能夠解決高超聲速飛行器強不確定因素影響下的控制性能在線優(yōu)化問題,但是,由于高超聲速飛行器過載跟蹤過程中獲取的狀態(tài)信息混雜了無法測量的振動和噪聲干擾,將影響在線數(shù)據(jù)的利用效率,難以得到滿意的控制參數(shù)優(yōu)化結(jié)果。本文針對上述問題,首先對高超聲速飛行器剛體、彈性體耦合模型進行了分析和建模,然后基于RADP方法設(shè)計了過載跟蹤控制策略,在此基礎(chǔ)上,通過RADP和陷波濾波方法的結(jié)合,形成適用于彈性高超聲速飛行器的數(shù)據(jù)驅(qū)動自學習控制方法,最后通過仿真驗證方法的有效性。
飛行器縱向動力學模型如下
(1)
對上述縱向動力學模型進行小擾動線性化,可以得到如下控制模型
(2)
式中,a1~a5為動力系數(shù)。
飛行器彈性振動模型可通過簡化的一維梁模型表示,彈性振動簡化動力學模型為
(3)
式中,qi為第i階振動廣義坐標,ζi為振動阻尼,ωi為振動頻率,D1i,D2i,D3i為對應(yīng)狀態(tài)量的彈性振動動力系數(shù)。
由于傳感器安裝位置、線角耦合等因素影響,彈體振動會通過傳感器耦合到控制器中,進而產(chǎn)生高頻附加干擾信號,彈性振動對傳感器輸出的影響為
(4)
結(jié)合高超聲速飛行器剛體和彈性體模型,且只考慮1階彈性振動,可以得到面向控制的小擾動線性化模型如下
(5)
式中
u=Gf(s)uc=Gf(s)KY
(6)
能夠控制系統(tǒng)跟蹤給定的期望指令。本文設(shè)計的目標則是在上述基本控制結(jié)構(gòu)的基礎(chǔ)上,基于控制量和狀態(tài)量歷史數(shù)據(jù),在不確定參數(shù)影響下在線優(yōu)化控制增益K,并盡可能降低彈性振動帶來的影響。本文控制方案如圖1所示。
圖1 控制方案Fig.1 Control scheme
由文獻[15]可知,RADP主要考慮狀態(tài)反饋形式,當無彈性振動影響時,由于式(5)中矩陣C滿秩,因此可將其變?yōu)槿缦聽顟B(tài)空間模型
(7)
式中,A1=CAC-1,B1=CB。
通過在線求解最小化的二次型性能指標
(8)
進而實現(xiàn)反饋控制律u=KY的在線更新。
由于系統(tǒng)狀態(tài)矩陣A1和控制矩陣B1未知,因此無法采用傳統(tǒng)解Riccati方程的方法求解控制增益K。為了實現(xiàn)在線學習,將控制量變?yōu)槿缦滦问?/p>
u=KY+e
(9)
式中,e為一個較小的探測信號,保證在線學習過程中系統(tǒng)滿足持續(xù)激勵條件進而有可行解。
此時,在初始控制u0作用下,系統(tǒng)變?yōu)槿缦滦问?/p>
(10)
令每一次迭代過程中ui=u0+e-vi,則系統(tǒng)可寫為
(11)
考慮如下二次型Lyapunov函數(shù)
Vi=YTPY
(12)
當滿足下式時
(13)
有
(14)
且要求每個樣本區(qū)間[t,t+δt]內(nèi),均滿足式(13),則可得到如下Pi、ui+1的更新策略
YT(t+δt)PiY(t+δt)-YT(t)PiY(t)-
(15)
進一步得到
(16)
(17)
式中
因此通過最小二乘法求解式(17),可以實現(xiàn)Pi、Ki+1的在線更新。
考慮跟蹤過載指令Nyc,即令
uc=KY-KrNyc
(18)
使過載輸出誤差ΔNy=Ny-Nyc≈0。
根據(jù)閉環(huán)傳遞函數(shù)顯然可以得到
(19)
則式(11)變?yōu)?/p>
(20)
此時定義
(21)
即
(22)
即可實現(xiàn)滿足過載跟蹤需求下的Pi、ui+1在線更新。
當系統(tǒng)中存在如式(5)所示的振動影響時,由于實際飛行過程中振動狀態(tài)Q無法準確測量,且附加矩陣Cq存在較大的不確定性,將導(dǎo)致反饋控制律中存在難以區(qū)分的高頻振動干擾,如下所示
(23)
式中,Y=CX。使得式(21)中的u0、ui不再是純粹的剛體信號,而是包含了彈性振動干擾,且無法按照式(22)的方式轉(zhuǎn)化為探測噪聲,導(dǎo)致式(16)中等號左右兩邊均出現(xiàn)擾動,當彈性振動量級過大時,將直接影響Pi,Ki+1的求解精度,甚至得到錯誤的解。
因此本節(jié)通過結(jié)合陷波濾波器,在抑制彈性振動對穩(wěn)定性影響的同時,提高振動影響下的控制參數(shù)在線更新效果。
為了便于分析,僅考慮1階彈性振動作用,采用的陷波濾波器形式如下
(24)
式中,ξ1,ξ2,w1,w2為對應(yīng)的設(shè)計參數(shù),通過合理的設(shè)計,可以在特定頻率對彈性振動實現(xiàn)一定幅值的衰減。
將其轉(zhuǎn)化為狀態(tài)空間形式有
(25)
(26)
將其轉(zhuǎn)化為式(7)所示的狀態(tài)空間形式有
(27)
進一步將式(27)按照式(17)策略求解,即可在振動影響下準確求解Pi,Ki+1。
下面通過對比仿真驗證本文彈性高超聲速飛行器數(shù)據(jù)驅(qū)動自學習過載跟蹤控制方法的有效性。
式(5)中對象模型參數(shù)如下所示
Cq=
在仿真中,設(shè)計初始控制參數(shù)為K=[1.0,1.0,0.19],Q=diag[4,0,0],R=1。設(shè)計陷波濾波器參數(shù)為
探測信號e設(shè)置為
e=0.2sin(6t)+0.2sin(12t)+0.2sin(18t)
(28)
下面分別對采用初始控制參數(shù)、無彈性振動RADP方法、不加濾波器RADP方法、本文加濾波器后RADP方法進行仿真,控制參數(shù)在線優(yōu)化結(jié)果如表1所示,控制參數(shù)迭代過程如圖2~圖4所示。
表1 控制參數(shù)在線優(yōu)化結(jié)果Tab.1 Online optimization results
圖2 無彈性體RADP參數(shù)迭代結(jié)果Fig.2 Parameter iteration results of RADP without elastic vibration
圖3 不加濾波器RADP參數(shù)迭代結(jié)果Fig.3 Parameter iteration results of RADP without filter
圖4 加濾波器RADP參數(shù)迭代結(jié)果Fig.4 Parameter iteration results of RADP with filter
仿真對比曲線如圖5~圖7所示。
圖5 過載跟蹤曲線Fig.5 Overload tracking curve
圖6 角速度變化曲線Fig.6 Angular velocity variation curve
圖7 舵偏變化曲線Fig.7 Rudder deviation curve
從圖中可以看出,在初始控制參數(shù)的作用下,過載響應(yīng)、角速度和舵偏出現(xiàn)較明顯的振蕩,過載跟蹤超調(diào)接近50%。仿真中在4s左右進行控制參數(shù)在線更新,參數(shù)迭代過程如圖2~圖4所示,更新后的控制參數(shù)如表1所示,當采用不加濾波器的RADP方法時,迭代參數(shù)不收斂,且更新后控制參數(shù)與解析解差異很大,表明RADP方法解算準確性明顯受到彈性振動影響,當采用本文加濾波器的RADP方法時,迭代參數(shù)迅速收斂,且更新后控制參數(shù)與解析解基本一致,表明本方法較好地隔離了彈性振動的影響,有效提高了控制參數(shù)在線優(yōu)化的準確性。此外,本文所提方法有效提升了控制品質(zhì),并保證了過載響應(yīng)對指令的穩(wěn)定跟蹤。
針對彈性高超聲速飛行器過載跟蹤控制性能在線優(yōu)化和振動影響下的控制參數(shù)準確更新問題,提出了一種基于數(shù)據(jù)驅(qū)動的彈性高超聲速飛行器過載跟蹤自學習控制方法。算法分析與實驗結(jié)果表明,在不依賴于準確模型參數(shù)的條件下,所提的方法能夠有效實現(xiàn)彈性振動干擾下的控制參數(shù)在線優(yōu)化,并提高過載跟蹤控制品質(zhì)。但本文僅是通過數(shù)字仿真完成了相關(guān)驗證工作,后續(xù)將通過半實物仿真進一步驗證算法的適應(yīng)性。