高煜欣, 劉春生
(南京航空航天大學自動化學院, 江蘇 南京 211106)
導彈防御系統(tǒng)作為國防系統(tǒng)的重要組成部分,被廣泛研究[1]。制導策略作為其重要的組成部分,不僅影響導彈的運動特性,同時還直接決定導彈控制系統(tǒng)的設計。當前針對制導策略的研究已取得了許多成果,如比例導引法[2-4]、滑模制導法[5-7]、反步制導法[8-10]等。在制導過程中,由目標機動等因素引起的非理想制導因素廣泛存在,直接影響制導精度。因此,研究遭受不確定影響條件下的制導策略具有實際意義。
針對制導系統(tǒng)中的不確定因素,一種有效的方式是對其進行估計與重構(gòu)[11-13]。文獻[11]針對部分動態(tài)未知的制導系統(tǒng),結(jié)合神經(jīng)網(wǎng)絡逼近未知動態(tài),設計了一類前饋和反饋相結(jié)合的復合制導策略,實現(xiàn)機動目標的攔截。針對未知目標機動,文獻[12]利用擴張狀態(tài)觀測器估計目標速度,設計比例導引滑模制導策略,成功攔截機動目標??紤]建模誤差與不確定項,文獻[13]使用干擾觀測器估計未知因素,并結(jié)合反步控制與滑模理論,設計了一類針對探導控一體化系統(tǒng)的制導方法,實現(xiàn)對目標的跟蹤。考慮未來戰(zhàn)場跨空域、強電子對抗的作戰(zhàn)環(huán)境,目標機動等非理想制導因素往往難以測量與重構(gòu),顯然上述制導策略無法適用。
微分對策是一種研究雙方或多方最優(yōu)控制的理論,在導彈攔截制導問題中得到了廣泛應用[13-15],導彈和目標機動相互獨立,將其視為對抗雙方,利用偏微分方程組來描述制導策略的變化,一方尋求性能指標最大化,另一方則尋求最小化,研究目標機動最壞情況下的制導策略。文獻[13]針對輸入輸出受限的導彈攔截系統(tǒng),提出了一類前饋控制和微分對策相結(jié)合的制導策略,保證了成功攔截機動目標的同時滿足約束條件。為了處理帶有擾動情況下的制導問題,文獻[14]提出了一類有限時域微分對策制導方案,建立時變性能函數(shù)并考慮終端約束,保證制導性能;在針對帶有防御彈的三方對抗問題中[15],微分對策制導律可以實現(xiàn)導彈避開防御彈的同時擊中目標。上述研究取得了很好的成果,然而無論是文獻[13-14]的非線性系統(tǒng),還是[15]的線性系統(tǒng)均是仿射形式,在實際系統(tǒng)中,非仿射形式普遍存在,因其對控制的非仿射特征使得控制策略的設計變得困難。
目前,處理非仿射系統(tǒng)的思路主要分為兩類,一類是利用輔助函數(shù)或中值定理,將系統(tǒng)轉(zhuǎn)化為仿射形式,從而便于控制器的設計;另一類是直接從原系統(tǒng)分離控制線性項。文獻[16]針對二階非仿射系統(tǒng),分離控制線性項,提出一類滑模控制策略??紤]中值定理,文獻[17]將非仿射非線性多智能體系統(tǒng)轉(zhuǎn)化為控制仿射形式,利用努斯鮑姆函數(shù)處理未知控制方向。此外,文獻[18-20]利用模糊技術(shù)、自適應技術(shù)等實現(xiàn)了非仿射系統(tǒng)的控制。雖然上述成果成功克服了非仿射特性導致的控制策略設計困難問題,然而鮮有考慮系統(tǒng)的最優(yōu)特性。
綜上所述,本文提出一類基于微分對策的非仿射導彈學習滑模制導方法,將導彈與目標視為對抗雙方,結(jié)合控制補償技術(shù),引入輔助控制輸入,分別設計自適應滑模策略魯棒匹配擾動、微分對策最優(yōu)控制策略處理非匹配部分,利用評價網(wǎng)絡并給出權(quán)值更新律,在線學習控制策略,在保證系統(tǒng)實現(xiàn)滑??刂频耐瑫r滿足滑動模態(tài)的最優(yōu)性能。與傳統(tǒng)滑模制導方法相比,本文制導策略不僅可以有效處理非匹配擾動、降低對目標機動信息的依賴,而且可以滿足性能指標,有利于工程應用。
考慮如下不確定非仿射非線性系統(tǒng):
(1)
式中:x(t)∈Rn為系統(tǒng)可測狀態(tài)向量;f(x(t),u(t))∈Rn×Rm→Rn為已知連續(xù)且對控制輸入u(t)∈Rm為非仿射形式的系統(tǒng)函數(shù);k(x(t))∈Rn×p為已知連續(xù)函數(shù);δ(t)∈Rp為由目標機動導致的系統(tǒng)不確定項。為方便表達,省略時間常數(shù)t。
由于系統(tǒng)(1)的結(jié)構(gòu)表現(xiàn)為控制非仿射形式,使得控制器設計變得困難。因此,引入控制補償技術(shù)[21-22],構(gòu)建如下輔助系統(tǒng):
(2)
(3)
假設 1系統(tǒng)函數(shù)k(x)有界,即存在常數(shù)kM滿足=k(x)=≤kM。
(4)
本文的目的為設計輔助控制輸入vm使得系統(tǒng)(1)的所有信號有界,為實現(xiàn)該目標,控制輸入設計為如下形式:
vm=va+vb
(5)
式中:va為非連續(xù)滑模控制部分,用于處理未知輸入匹配部分并實現(xiàn)滑??刂?vb為連續(xù)最優(yōu)控制部分,用于實現(xiàn)存在未知輸入非匹配部分下的最優(yōu)控制。
本節(jié)設計va魯棒匹配擾動部分,并且使得系統(tǒng)沿著如下積分滑模面進入滑動模態(tài)運動:
(6)
滑模面(6)對時間求導有:
(7)
基于系統(tǒng)(3)和滑模面(6),設計如下自適應滑??刂破鱲a:
(8)
定理 1針對增廣系統(tǒng)(3),若設計非連續(xù)滑??刂破骷白赃m應律為(8),則增廣狀態(tài)將沿著預設的積分滑模面(6)進入滑動模態(tài)運動。
(9)
將式(9)求導并代入式(7)和控制器(8)可得
(10)
證畢
(11)
等效控制被抽象的應用于式(3),從而實現(xiàn)如下增廣等效滑動模態(tài)系統(tǒng):
(12)
觀察式(12)可以發(fā)現(xiàn),增廣等效滑動模態(tài)系統(tǒng)仍然存在未知擾動,且為非匹配形式,使得控制器設計變得困難。為有效處理非匹配擾動,首先,考慮如下性能指標:
(13)
(14)
根據(jù)極大極小值原理,納什均衡解存在的必要條件是:
(15)
則利用貝爾曼最優(yōu)原理,可推導微分對策控制策略為
(16)
則將最優(yōu)控制式(16)代入式(14)有
(17)
為了能夠有效實施微分對策控制策略,設計如下評價網(wǎng)絡近似式(17)的解析解:
(18)
式中:W為神經(jīng)網(wǎng)絡理想權(quán)值;φ為設計的系數(shù)矩陣;ε為神經(jīng)網(wǎng)絡逼近殘差。如果定義:
(19)
則有
(20)
(21)
(22)
利用神經(jīng)網(wǎng)絡輸出估計式(17)解析解,則有
(23)
近似控制策略對和哈密頓函數(shù)分別為
(24)
(25)
假設 4理想權(quán)值有界WM,即=W=≤WM。殘差均有界,即滿足關系=ε=≤εM,=εHJI=≤εHM。
(26)
基于梯度下降,設計如下權(quán)值更新律:
(27)
(28)
證明考慮如下Lyapunov函數(shù):
(29)
首先對第一項求導,得
(30)
接著,對第2項求導可得
(31)
考慮如下變換:
(32)
(33)
式中:
合理的T1和T2可以保證N1為正定矩陣,進而有
(34)
根據(jù)規(guī)則(28),接下來分為兩種情況討論:
情況 1Θ=0
(35)
(36)
(37)
不難得到權(quán)值估計誤差有界,且滿足:
(38)
情況 2Θ=1
則式(34)變?yōu)?/p>
(39)
(40)
(41)
(42)
證畢
定理 3針對增廣系統(tǒng)式(3),滑模控制器設計為式(8),微分對策控制策略設計為式(24),則在整合學習滑??刂破?5)作用下,系統(tǒng)(1)的狀態(tài)有界。
(43)
(44)
證畢
本節(jié)驗證所設計制導策略的有效性,將本文理論應用于二維平面導彈攔截機動目標的場景中,運動示意圖如圖1所示,基于幾何關系,建立導彈-目標相對運動關系:
圖1 導彈-目標運動示意圖
(45)
導彈與目標均表現(xiàn)為一階自動駕駛儀系統(tǒng),滿足動態(tài):
(46)
相關參數(shù)含義如表1所示。
表1 相關參數(shù)
(47)
結(jié)合滑??刂?8)與微分對策技術(shù)(24),制導策略vm設計為如下形式:
vm=-asgn()-k1==lsgn()-k2
(48)
由式(47)可以發(fā)現(xiàn),當導彈足夠接近目標,即r→0時,系統(tǒng)被破壞。事實上,在實際制導過程中,存在最小相對距離rmiss,即脫靶量。當r≤rmiss時,制導結(jié)束,導彈依靠慣性完成剩余任務,視為攔截成功[27-28]。因此,本節(jié)驗證所提算法能否實現(xiàn)對相對距離要求,且滿足如下必要條件:
(49)
導彈攔截軌跡圖如圖2所示,可以看到,在學習滑??刂撇呗?5)的作用下,經(jīng)過一段時間后,導彈能夠成功擊中目標。相對距離曲線如圖3所示。從初始時刻的1 250 m左右,經(jīng)過大約4.8 s,減少至1.697 m,由文獻[29]可知,在合理脫靶量范圍內(nèi)。圖4、圖5則是刻畫導彈視線角速率和導彈目標的相對速率圖,可以看到,在整個制導過程中,視線角速率始終在零點附近,相對速率始終為負值,顯然,保證攔截成功的必要條件(48)被滿足,則導彈可以成功攔截目標。基于控制補償技術(shù),系統(tǒng)的輔助輸入曲線如圖6所示,圖中曲線逐漸收斂,且在合理范圍內(nèi)。在權(quán)值更新律(27)的作用下,神經(jīng)網(wǎng)絡權(quán)值估計值曲線如圖7所示。在局部放大圖中可以看出,經(jīng)過一段時間后,權(quán)值估計值曲線逐漸趨于穩(wěn)定,驗證了權(quán)值估計誤差的有界性,從而保證了最優(yōu)微分對策控制策略的在線學習。綜上,本文所提出的控制策略能夠有效處理非仿射形式,并且使得導彈能夠成功攔截目標。
圖2 攔截軌跡圖
圖3 相對距離圖
圖4 導彈視線角速率
圖5 導彈-目標相對速率
圖6 導彈側(cè)向加速度
圖7 神經(jīng)網(wǎng)絡權(quán)值估計值
在導彈的制導過程中,導彈參數(shù)的測量誤差不可避免,這會導致導彈的彈道與理想彈道產(chǎn)生偏差。因此,進行蒙特卡羅打靶試驗驗證制導精度,引入滿足正態(tài)分布N(0,0.1)的導彈視線角隨機測量誤差ΔθMT,進行50次打靶試驗,并對導彈的彈著點數(shù)學期望進行統(tǒng)計,統(tǒng)計結(jié)果如表2所示。從表中可以看出,在存在測量誤差的情況下,50次打靶試驗彈著點在本文考慮的二維攔截平面中x軸和y軸的期望彈著點和理想彈道(即無測量誤差)的彈著點非常接近。并且,圓偏差概率(circular error probable, CEP)[30]計算為1.86 m,可以保證導彈超過一半的概率彈著點位于圓內(nèi)。因此蒙特卡羅試驗結(jié)果表明本文算法具有較高的制導精度。
表2 彈著點期望值統(tǒng)計
為進一步體現(xiàn)本文所提算法的優(yōu)勢,選擇比例導引算法與經(jīng)典積分滑模算法[31-32]進行對比驗證。顯然,針對非仿射制導系統(tǒng),兩類對比方法無法直接應用。因此,同樣引入控制補償技術(shù),構(gòu)建仿射增廣系統(tǒng),便于進行對比試驗。進一步,考慮比例導引算法的實施需要目標機動信息,則在比例導引制導過程中,目標機動信息設置為實時可測。在傳統(tǒng)積分滑模制導過程中,針對不可測目標機動信息,與本文所提算法式(8)類似采用自適應控制策略,且相關參數(shù)與本文所提算法選取一致,對比試驗仿真結(jié)果如圖8和圖9所示。
圖8 3種方法攔截軌跡圖
圖8刻畫了在3種制導方案下導彈攔截目標的軌跡圖,可看出實施3種不同策略均可以使導彈逐漸靠近目標,并且本文所提學習滑模制導策略與經(jīng)典積分滑模制導策略曲線相似。然而,從相對距離圖(見圖9)中可以看出,3種制導策略作用下的脫靶量rmiss有所不同。為了方便對比,不同制導策略下的脫靶量在表3中列出??梢钥闯?理想制導環(huán)境下(即目標機動實時可測)的比例導引制導策略的脫靶量最小。由于目標未知機動的非匹配形式,經(jīng)典積分滑模制導策略的脫靶量較大。然而,本文結(jié)合經(jīng)典積分滑模與微分對策理論提出的整合學習滑模制導策略,能夠在導彈初始條件與制導策略相同參數(shù)的前提下,有效降低脫靶量,制導效果與理想制導環(huán)境下比例導引制導效果接近且在合理范圍內(nèi),提升積分滑模的制導精度,表明微分對策控制部分能夠有效的處理非匹配未知目標機動,大大降低了目標突防逃逸的概率。另一方面,為體現(xiàn)本文算法的優(yōu)化特性,考慮本文所提制導策略與經(jīng)典積分滑模制導策略的過載能耗,選擇如下能耗指標[33]:
表3 3種制導策略脫靶量
(50)
計算結(jié)果表明本文所題算法的過載能耗約為23.3,而經(jīng)典積分滑模的過載能耗約為42.9,顯然微分對策最優(yōu)控制部分的引入優(yōu)化了過載能耗,節(jié)省了約45%的耗能。因此,通過對比試驗可以得出,與其他兩種制導方法相比,本文所題算法不僅可以有效的處理非仿射制導系統(tǒng),而且具有較好的制導性能,進一步體現(xiàn)了所提算法的優(yōu)越性。
本文針對非仿射制導模型提出了一類學習滑模制導方法,利用控制補償技術(shù),將系統(tǒng)轉(zhuǎn)化為增廣仿射形式;設計自適應滑??刂撇糠?使得系統(tǒng)魯棒匹配擾動部分的同時,沿著預設積分滑模面進入滑動模態(tài)運動;針對帶有非匹配擾動部分的等效滑動模態(tài)系統(tǒng),設計微分對策最優(yōu)控制策略,利用評價網(wǎng)絡學習近似哈密頓方程的解析解,給出權(quán)值更新律在線學習最優(yōu)控制策略;仿真結(jié)果表明,所提出的學習滑模策略,能夠使得目標被成功攔截,驗證了所提制導策略的有效性。實際制導過程中,受物理因素限制,執(zhí)行器存在承受上限,并且有限時間制導策略能夠提升作戰(zhàn)效率,如何處理飽和問題以及實現(xiàn)目標的有限時間攔截,將在后續(xù)的研究中進一步討論。