田輩輩,劉 奇,袁斐然
(1 焦作大學機電工程學院,河南 焦作 454003;2 航空電子系統(tǒng)綜合技術重點實驗室,上海 200233)
導彈攔截系統(tǒng)[1-3]在國防領域中舉足輕重。制導律作為導彈攔截系統(tǒng)的關鍵部分,直接影響導彈性能并決定導彈能否成功攔截目標。隨著攻防對抗形勢的日益復雜,為了提高生存能力,目標可能采取更加隱蔽、多變的機動方式進行突防,因此,發(fā)展新型制導方式迫在眉睫。
近年來,將制導與現代控制理論相結合,形成諸如滑模制導[4-5],反步制導[6-7],自適應制導[8-9]等現代制導策略,并且取得了很好的效果。文獻[10]針對制導攔截系統(tǒng),設計了一類固定時間終端滑模制導策略,利用固定時間擴張狀態(tài)觀測器補償目標機動,實現目標的攔截??紤]狀態(tài)和輸入約束;文獻[11]基于反步法自適應動態(tài)規(guī)劃技術,設計了一類自適應復合制導方法,實現了導彈在保證約束條件的前提下,對目標的精確攔截。上述制導策略雖然成功實施,在實際制導過程中,受戰(zhàn)場環(huán)境等因素的影響,目標機動往往很難測量,這給制導律的設計帶來了困難。
微分對策[12-13]是研究雙方或多方沖突對抗或者競爭問題的有效工具,將博弈論的基本原理應用于最優(yōu)控制中,研究多個控制輸入在系統(tǒng)中的動態(tài)決策過程,控制的結果致使一方受益的同時另一方造成損失,被廣泛應用于制導系統(tǒng)中,將導彈和機動目標視為對抗雙方,考慮目標機動最壞情況下的制導策略,能夠有效降低對目標機動信息的依賴。為此,文獻[14]提出了一種基于事件觸發(fā)的微分對策制導方法,考慮目標最壞逃逸方式,實現對目標攔截的同時降低導彈的通信負擔;考慮目標攜帶防御武器的情況,文獻[15]將其視為三方博弈問題,構造融合脫靶量和需用過載性能指標,設計微分對策制導策略,使得導彈能夠避開防御武器并擊中目標;針對多約束制導系統(tǒng),文獻[16]提出了一類復合微分對策制導方法,實現了導彈對目標的成功攔截。
然而,上述文獻考慮的都是仿射系統(tǒng),在實際系統(tǒng)中非仿射系統(tǒng)也是大量存在的,針對非仿射系統(tǒng)控制策略研究具有實際意義[17]。文獻[18]針對具有多約束受限的非線性非仿射系統(tǒng),提出了固定時間自適應神經網絡跟蹤控制方法;文獻[19]針對一類具有內部動態(tài)和外部擾動未知以及非對稱輸入飽和約束的非仿射系統(tǒng),提出了一種自抗擾反演控制方法。在未來戰(zhàn)場中,攻防對抗必然更加復雜,當制導系統(tǒng)對制導策略呈現非線性時,針對仿射制導系統(tǒng)的研究顯然不足以應對,因此,發(fā)展針對非仿射制導系統(tǒng)的研究迫在眉睫。
綜上所述,文中針對非仿射導彈攔截系統(tǒng),結合微分對策技術及積分自適應動態(tài)規(guī)劃技術,提出了一類新的制導策略。主要創(chuàng)新點如下:
1) 與文獻[4-11]所考慮的仿射導彈攔截系統(tǒng)不同,文中考慮的是更具一般性的非仿射導彈攔截系統(tǒng),當前鮮有針對非仿射制導策略的設計成果,因此,文中所提的制導方法可以適用于更加復雜的制導系統(tǒng)。
2) 實際制導過程中目標機動信息往往未知且難以測量,文中所設計的制導策略不依賴目標機動信息,無需額外引入觀測器等測量工具,降低了制導律設計的復雜性。
考慮如下非仿射非線性系統(tǒng)
(1)
由于系統(tǒng)對控制輸入表現為非仿射形式,使得控制器設計變得困難,則考慮控制補償技術[20],構建如下輔助系統(tǒng):
(2)
其中:M(u)∈Rn、G(u)∈Rmxp為已知函數,且G(u)為有界函數;μ∈Rp為輔助控制輸入。
定義新狀態(tài)z=[xT,uT]T,則式(2)變?yōu)槿缦略鰪V系統(tǒng):
(3)
考慮如下博弈型性能指標[16]
(4)
其中:Q(z)為關于z的二次型函數;R1,R2為正定對稱矩陣。定義哈密頓函數為:
(5)
基于Nash-Pontryagin極大極小值原理,納什均衡解(μ*,ω*)使得最優(yōu)性能指標滿足:
(6)
則推導出微分對策最優(yōu)控制對為:
(7)
將式(7)代入式(6)可得相應的HJI方程:
(8)
構建如下神經網絡逼近性能指標,在線求解HJI式(8)的解:
V(z)=WTθ(z)+Δ
(9)
其中:W∈RL表示理想神經網絡權值向量;θ(z)∈RL表示激勵函數;Δ表示逼近誤差。
相應的最優(yōu)性能指標偏導數:
(10)
其中:θz=?θ(z)/?z;Δz=?Δ/?z表示相應函數對z的偏導數,代入式(7)得最優(yōu)微分對策控制為:
(11)
(12)
其中神經網絡近似誤差為:
(13)
利用神經網絡輸出值,得近似性能指標
(14)
(15)
則神經網絡權值誤差為:
(16)
則近似最優(yōu)微分對策控制器表達式為:
(17)
近似哈密頓函數表達式為:
(18)
為了設計權值更新律,首先定義如下積分二次型目標函數:
(19)
(20)
(21)
(22)
(23)
選擇Lyapunov函數:
(24)
首先,求導第一項V*(z)可得:
(25)
接著,考慮第二項J(z),求導可得
(26)
對第三項求導可得:
(27)
觀察式(27)可以發(fā)現,由于開關函數Γ的存在,結合式(23),系統(tǒng)分兩種情況討論:
(28)
(29)
(30)
(31)
2)Γ=1此時學習網絡不穩(wěn)定,則可得:
(32)
基于假設,容易得到D1-D2也是有界的,令其界為ψ,則有:
(33)
由式(33)可知,下列不等式滿足其一:
(34)
(35)
為了驗證所提算法的有效性, 文中將設計的最優(yōu)控制器應用于導彈攔截制導系統(tǒng)的末制導階段中,考慮如圖1所示導彈攔截系統(tǒng)。
圖1 導彈攔截系統(tǒng)Fig.1 Missile interception system
(36)
并且,導彈與目標自動駕駛儀系統(tǒng)均為一階系統(tǒng),且其質心方程表達為:
(37)
(38)
根據控制補償技術(2),構建如下輔助系統(tǒng):
u=-2u+0.2μ
(39)
。
仿真目標為設計μ使得導彈能夠成功攔截目標。然而,觀察式(38)可以發(fā)現,當r→0,此時系統(tǒng)被破壞。因此,存在一個最小距離參數rm,即脫靶量,使得當r≤rm時,制導結束,剩余攔截任務依靠慣性完成,且需滿足目標攔截必要條件:
(40)
圖2 相對距離Fig.2 Relative distance
圖3 導彈-目標攔截軌跡Fig.3 Missile-target intercept trajectory
圖4 視線角速率Fig.4 The line of sight angle rate
圖5 相對速率Fig.5 Range rate
圖6為權值泛數曲線圖,可以看出,在積分權值更新律式(21)作用下,權值估計誤差有界,并且可以發(fā)現,權值曲線在很短的時間內即趨于穩(wěn)定,表明神經網絡學習時間相較于制導時間是很短的,則對于制導過程的實時性影響較小,因此 可以實現控制器式(17)更好的在線學習。觀察圖2~圖6可以發(fā)現,在制導的最后階段,曲線均呈現出發(fā)散特性,這主要是由制導動力學模型的特點導致的,根據式(38),當導彈與目標足夠接近時,即r→0,則系統(tǒng)動態(tài)區(qū)域無窮大,導致狀態(tài)發(fā)散,此時制導律將不再適用。因此出現發(fā)散現象是必然的。
圖6 權值泛數Fig.6 Norm of weight
為解決目標機動未知和存在控制非線性項的導彈攔截系統(tǒng)制導問題,研究了非仿射導彈攔截系統(tǒng)的制導律設計問題。利用控制補償技術處理非仿射控制輸入。進而,將目標機動視為未知擾動,結合微分對策理論,給出目標機動最壞情況下的制導策略設計方案,實現制導過程的穩(wěn)定性并滿足最優(yōu)性能指標, 引入積分自適應動態(tài)規(guī)劃技術, 利用神經網絡設計一類新的積分權值更新律, 在線學習微分對策最優(yōu)制導策略,實現對機動目標的成功攔截。并保證整個閉環(huán)制導系統(tǒng)最終一致有界。與傳統(tǒng)制導策略相比,克服了因控制非線性項的存在從而導致制導策略解析形式無法獲得的問題,并且降低了對目標機動信息的依賴,無需額外引入觀測工具,減少了制導策略設計的復雜程度。然而,在制導的過程中受戰(zhàn)場環(huán)境的影響,外部擾動、信息傳輸延遲問題總是不可避免,針對非仿射導彈攔截系統(tǒng)的魯棒控制和時滯問題將在之后的研究中進一步討論。