雷 剛,田海鵬,鮮 勇,胡偉華
(1.西北工業(yè)大學 航天學院,西安 710072;2.第二炮兵工程大學,西安 710025; 3.96271部隊,宜陽 471600;4.第二炮兵駐航天四院軍代室,西安 710025)
博弈論是研究決策主體行為發(fā)生直接相互作用時的決策及這種決策的均衡問題,即當一個主體的選擇受其他個體選擇的影響,而且反過來影響其他個體選擇時的決策問題和均衡問題,是研究決策問題的重要理論。
將導彈突防研究中攔截方的攔截策略作為己知,來研究突防的最優(yōu)控制問題,稱之為最優(yōu)突防。在突防策略研究中,通常構建系統(tǒng)數學模型考慮指令與加速度間的動態(tài)特性、機動載荷的限制,定義脫靶量并把它和指標函數聯(lián)系起來[1]。然而,用最優(yōu)控制方法和微分對策來研究突防策略時,如系統(tǒng)模型過于復雜,即使問題的最優(yōu)解存在,但在限定時間內通常求不到解。
矩陣博弈方法是將研究對象的狀態(tài)變量和控制策略分別在時間和控制性質上離散化后的一種研究方法,其解是次最優(yōu)的[2]。該方法需要進行大量數據分析,得到的結果即為最優(yōu)策略集,突防方可根據支付函數采取相應的策略,即突防方自主完成突防任務,從而使導彈突防趨于智能化。
制定導彈機動策略的過程需要對雙方攔截狀態(tài)進行大量仿真計算。由于彈上計算能力有限,因此彈上實時生成實時突防策略的能力有限?;诖?,本文針對導彈和EKV攔截末段的飛行過程,運用博弈理論求解導彈實時機動策略,并形成機動策略序列。通過設定導彈完成試探性機動后,在EKV不同的導引系數條件下,導彈紅外探測系統(tǒng)測得的EKV到彈頭的視線偏航角不相同,從而使導彈通過試探性機動計算得到EKV比例導引系數和EKV到導彈的視線偏航角信息與機動策略序列具有的對應關系。
假設EKV采用擴展比例導引律,對不同的導引系數條件下分別進行仿真,得到6組EKV機動策略序列,構成策略庫。
在導彈發(fā)射前將機動策略庫裝訂到彈上,導彈在實際飛行中通過試探性機動,識別出EKV擴展比例導引律后,將導引系數和EKV到彈頭視線偏航角作為輸入信息,彈機從機動策略庫中讀取相應的機動策略序列,從而實現(xiàn)導彈機動突防。
設導彈為局中人1,EKV為局中人2,導彈支付為脫靶量M,EKV支付即為脫靶量的負值(-M),雙方博弈的目的都是想實現(xiàn)各自的支付盡量大。可將博弈的過程根據時間劃分為不同階段,在每個突防階段,導彈和EKV進行博弈。從而將該本問題視為二人零和有限重復的博弈數學問題。
當攔截器與目標機動比μ≥2時,就能產生較小的脫靶距離[3]。由于EKV最大加速度為4g,可設定導彈側噴發(fā)動機的加速度為2g。在突防-攔截博弈中,定義局中人1的策略集為
S1={以2g的加速度垂直射面負向機動,不做機動,以2g的加速度垂直射面正向機動}
局中人2的策略集為
S2={根據導引律進行機動,不做機動}
規(guī)范化策略集即得
S1={1,0,-1},S2={1,0}
在導彈飛行中,記博弈的第一階段為I1,每個博弈階段持續(xù)時間為T,則(t2+T)時刻為I1的結束時刻,同時可記為I2的開始時刻。在攻防結束時,博弈過程即結束。
1 0
式中A為局中人1的贏矩陣。
在各階段博弈中取脫靶量15 m作為導彈突防成功閥值,脫靶量4.5 m為EKV攔截成功閥值(脫靶量小于4.5 m時EKV處于零控攔截狀態(tài)[4])。當EKV與導彈博弈預期值小于導彈突防成功閥值時,導彈采用反向機動方式規(guī)避EKV的攔截。在每一個制導周期,根據當前導彈和EKV運動狀態(tài),對下一個制導周期分別采用不同策略時的脫靶量值進行預測計算,依據脫靶量確定下一個制導周期機動策略,過程如下:
(1)若導彈采用1機動策略,預測脫靶量大于當前預測脫靶量時,則采用正向機動策略;
(2)若導彈采用0機動策略,預測脫靶量大于當前預測脫靶量時,則采用不機動策略;
(3)若導彈采用-1機動策略,預測脫靶量大于當前預測脫靶量時,則采用負向機動策略。
假設導彈垂直射面負向機動的時間為8 s,令t1為EKV捕獲導彈的時刻,t2為博弈的起始時刻,則有t2=t1+8 s。
假設導彈和EKV的相向運動,且導彈和EKV的速度在oxm軸和oym軸方向的分量較大,導彈和EKV沿oxm軸和oym軸方向的速度分量在博弈時變化不大,故可預估博弈的終止時刻。經計算EKV實施末段攔截的有效時間約為16.39 s。因此,博弈終止時刻約為t3=t1+16.39 s。
設每個博弈階段持續(xù)時間T=0.2 s,可分別制備EKV的導引系數K=i(i=1,…,6)時的機動策略:
(1)輸入博弈階段起始時刻導彈、EKV的位置和速度信息;
(3)根據預測脫靶量,按照上節(jié)所確定的機動準則,確定t=(j+1)*T時刻機動策略;
(4)循環(huán)1~3步直至博弈終止時刻,導彈不再機動。
每個周期機動策略計算流程如圖1所示。
每隔0.2 s記錄導彈的機動指令,形成一組導彈機動控制指令序列{u(k)}。
由于基于博弈理論求解的導彈機動控制指令序列{u(k)}中控制指令數量較大,不利于彈上數據存儲。因此,可將控制指令序列進行壓縮。
圖1 博弈值的計算流程
壓縮編碼時,每2個數字為1組。其中,第1個數表示機動指令的重復個數;第2個數為對應的機動指令。如控制指令序列為{0 0 0 0 1 1 1 0 -1 0 0 0},壓縮后得到新的序列可列寫為{(4,0),(3,1),(1,0),(1,-1),(3,0)}。
根據EKV擴展比例導引律可能采取的不同比例導引系數,設計獲得6組機動策略序列,組成機動策略庫。機動策略庫裝訂到彈上后,彈上將根據EKV比例導引參數讀取機動策略庫中對應的機動策略序列。
按上文所述方法最終得到裝訂到彈上機動策略庫:
其中,第i行的數據記為Ci={(Ni1,Oi1),(Ni2,Oi2),(Ni3,Oi3),…},即為EKV采用導的引系數K=i(i=1,…,6)所對應的導彈要采用的機動策略序列。
導彈發(fā)射前,將機動策略庫裝訂在彈上,根據辨識出的EKV導引參數,從策略庫中讀取對應機動策略。例如,辨識出EKV導引參數等于i時,彈頭選擇機動策略Ci,機動指令計算方法如下:
(1)當t (3)當t>t3時,彈頭不再機動。 當K=3時,彈機從策略庫中選取策略序列C3,導彈按照指令序列進行機動。通過仿真計算,最終得出EKV脫靶量為8.5 m,即EKV攔截失敗。仿真得到的彈頭機動策略如圖2所示,對應EKV機動方向如圖3所示,EKV測得的彈頭視線角變化情況如圖4所示,各博弈階段脫靶量如圖5所示。 從圖2~圖5可看出: (1)EKV機動指令滯后于導彈機動指令,說明EKV是在探測到導彈機動狀態(tài)變化到一定程度后才開始機動,符合實際情況; (2)每個博弈周期EKV的機動指令寬度小于導彈機動指令寬度,符合EKV機動加速度大于導彈機動加速度的實際情況; (3)盡管導彈機動加速度小于EKV的機動加速度,但最終脫靶量大于4.5 m,說明導彈采用博弈機動策略可實現(xiàn)有效突防。 圖2 K=3時導彈機動指令 圖3 K=3時EKV機動情況 圖4 K=3時EKV測得彈頭視線角變化 圖5 K=3時各博弈階段脫靶量 當EKV擴展比例導引律的導引系數K=i(i=1,2,3,4,5,6)時,采用機動指令、EKV機動方向隨時間變化情況和各博弈階段脫靶量仿真結果均大于4.5 m(見表1)。 表1 EKV采用不同比例導引律脫靶量和導彈正負向機動指令數 由于本文假設在理想狀態(tài)下EKV發(fā)動機能夠瞬間產生需要的加速度,因此K取值越大,則EKV的加速度越大,即EKV機動能力越強[5]。所以,出現(xiàn)了K值越大,則脫靶量越小的規(guī)律。 從表1可見,隨著EKV比例導引系數增大,導彈機動指令數也增大。說明在導引系數變大時,彈頭需要消耗更多能量來擺脫EKV攔截。由于EKV在實際飛行中選取較大比例導引系數會引起系統(tǒng)整個大回路抑制噪聲能力下降,所以EKV在選取比例導引系數時,需考慮系統(tǒng)降噪能力[6]。 導彈機動突防策略中的博弈理論的運用,可有效提高導彈的智能化水平。本文通過仿真實現(xiàn)了一種在導彈機動加速度小于EKV機動加速度時仍能利用博弈式機動策略實現(xiàn)有效突防的方法,為導彈機動突防策略研究提供一種思路。該方法尚未考慮導彈和EKV的測量誤差、推力偏差以及其動態(tài)響應過程,還有待進一步深入研究。 參考文獻: [1] 汪民樂.彈道導彈突防效能研究綜述[J].戰(zhàn)術導彈技術,2012(1):1-6. [2] Austin F,Carbone G,Hinz H,et al. Game theory for automated maneuvering during air-to-air combat [J]. Journal of Guidance,Control,and Dynamics,1990,13(6):1143-1149. [3] 馬俊聲.博弈論——機動彈頭攻防的核心[J].航天電子對抗,2005,22(1):4-6. [4] 馮杰,鮮勇,劉順成,等.基于零控攔截的EKV末段攔截彈道仿真 [J].飛行力學,2010,28(2):75-77. [5] 張義廣,楊軍,朱學平,等.非制冷紅外成像導引頭[M].西安:西北工業(yè)大學,2009. [6] 程風舟,陳士櫓.攔截彈頭的修正比例導引律[J].空軍工程大學學報,2003,4(4):15-18.4 仿真結果及分析
5 結束語