亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于縱程解析解的飛行器智能橫程機動再入協(xié)同制導

2021-08-28 04:42:20張晚晴余文斌李靜琳陳萬春

兵工學報 2021年7期

張晚晴，余文斌，李靜琳，陳萬春

(1.北京航空航天大學宇航學院, 北京 100191; 2.北京宇航系統(tǒng)工程研究所, 北京 100076)

0 引言

高超聲速滑翔飛行器具有飛行速度快、反應時間短、打擊精度高、作戰(zhàn)半徑大等特點[1]，在現代化戰(zhàn)爭中具有良好的應用前景，近年來成為世界各國廣泛關注的焦點。與此同時，針對高超聲速目標威脅，各國相繼研發(fā)了多種防空反導武器系統(tǒng)，大大降低了單個高超聲速滑翔飛行器的突防能力和作戰(zhàn)效能。因此，發(fā)展多高超聲速滑翔飛行器協(xié)同打擊技術，提高對防空反導武器系統(tǒng)的突防概率，成為當前各國學者的研究熱點[2]。

高超聲速飛行器協(xié)同飽和打擊任務要求飛行器具備一定程度上自由調節(jié)自身飛行時間的能力，同時在指定時間范圍內實現對目標的精確打擊。在高超聲速飛行器再入制導過程中，再入滑翔段是飛行距離最遠、空域跨度最大、氣動特性變化最為劇烈的一段，其制導與控制系統(tǒng)設計也最為復雜。傳統(tǒng)針對末制導段的協(xié)同方法多基于定常速度運動模型或小角度線化模型設計[3]，難以直接應用到再入協(xié)同制導方法設計中，因此如何設計具備飛行時間可控能力的再入制導方法是一個研究難點。

現階段的再入制導方法主要分為兩種：標準軌跡制導法[4-7]和預測-校正制導法[8-10]，在這兩種典型方法的基礎上，又衍生出了標準軌跡與落點預測混合制導方法，這3種制導方法主要是針對縱向飛行軌跡。在側向平面，高超聲速飛行器采用傾斜轉彎(BTT)模式，通過傾側反轉邏輯來控制飛行器側向機動。但目前大多數再入制導問題未考慮時間約束，對協(xié)同再入制導的研究較少。

關于時間可控再入制導可以歸結為縱向彈道調整與橫向傾側反轉設計。文獻[11]基于模型預測靜態(tài)規(guī)劃設計了協(xié)同再入制導方法，但該方法并未對終端速度與高度進行約束管理，難以滿足工程實際需求。文獻[12]分析了影響飛行時間的因素，基于反向傳播(BP)神經網絡提出一種時間可控再入制導方法。該方法通過BP神經網絡在線預測剩余飛行時間，進而調整航向角走廊寬度以改變飛行時間。仿真論證可知，該制導方法時間調整范圍為整個再入時間的4%～5%，時間可控范圍較窄，不適用于復雜的協(xié)同任務需求。Yu等[13]將縱程制導傾側角剖面表示為能量的線性函數，基于三維彈道解析解與時間解析解調整傾側角剖面參數，用當前剩余飛行時間和剩余射程與事先規(guī)劃彈道的偏差來修正由橫向傾側反轉引起的時間偏差，實現了對再入飛行時間的精確控制。Li等[14]同樣將傾側角剖面參數化，縱程采用數值積分預測剩余射程與剩余時間，進而實現對傾側角剖面的修正，橫程采用剩余時間進一步修正傾側反轉時刻。其制導方法雖然實現了對飛行時間的控制，但是終端傾側反轉次數較多，不利于控制系統(tǒng)跟蹤。文獻[15]在高度-速度剖面內設計了參考軌跡，通過在線數值預測剩余飛行航程和時間。而后校正兩個軌跡參數以滿足航程和時間約束并求取實際控制量，結合側向航向角走廊實現了單飛行器的時間約束再入制導。文獻[16]將再入過程劃分為兩個階段，第1個階段通過傾側角剖面去實現期望攻角約束，第2個階段通過調整攻角剖面進而實現攻擊時間約束。

由于時間可控再入制導的復雜性與制導實時性要求，常規(guī)再入制導方法難以簡單應用到協(xié)同問題上。隨著智能算法的興起，強化學習在一些決策問題上的出色表現為再入制導設計提供了可行的探索方向[17-18]，并且其離線訓練-在線使用模式具有較強的適應性與實時性。文獻[19]結合了強化學習與神經網絡，運用確定性策略梯度下降的深度神經網絡(DDPG)算法設計傾側角剖面，實現了再入制導設計。文獻[20]提出了一種飛行時間約束的再入制導方法，該制導方法縱向制導運用數值預測-校正計算傾側角，橫向制導將傾側反轉邏輯視為馬爾可夫決策問題，運用強化學習尋找滿足時間和射程約束的橫向制導最優(yōu)策略，但其未考慮地球自轉引起的慣性力，不適用于實際再入飛行過程。文獻[21]將飛行環(huán)境構建為包含千萬量級狀態(tài)點的狀態(tài)空間，采用強化學習算法訓練制導模型參數，縱向制導依然采用基于定攻角剖面的傾側角迭代方法，橫向制導則利用Q-學習算法訓練橫向翻轉決策器。雖然智能決策結果使再入飛行器在復雜任務中可以發(fā)揮其較強的機動能力，但是仿真結果命中精度不及傳統(tǒng)的預測-校正制導方法。

相比于數值預測-校正制導方法，基于彈道解析解的制導方法能夠對再入彈道進行精準預測，減少在線計算時間，滿足工程上實時應用的需求。而強化學習類方法憑借其處理復雜模型、受擾動模型，甚至無模型情況下控制問題所具有的設計流程通用性、自學習自適應能力、泛化能力強的特點，逐步運用于飛行器制導方法設計中。

基于以上分析，本文提出一種基于縱程解析解的橫向智能機動再入協(xié)同制導方法。基于旋轉地球模型，本文首先給出基于縱程解析解的縱向制導方法結構，之后引入深度Q-學習網絡(DQN)進行橫向傾側反轉規(guī)劃策略設計，實現位置、飛行時間、能量管理等多約束協(xié)同再入制導，并通過仿真進行驗證。

1 時間協(xié)同再入問題描述

1.1 動力學模型

旋轉地球模型下，高超聲速飛行器的6自由度動力學方程[6]為

(1)

(2)

(3)

(4)

2vωecosφsinψ]，

(5)

(6)

式中：λ為經度；t為時間；v為飛行器相對于地球固連坐標系的速度；γ為彈道傾角；ψ為飛行器航向角，以當地北向為基準；Re為地球半徑，Re=6 378.137 km；H為海拔高度；φ為緯度；D為阻力，D=0.5ρv2SCD，ρ為大氣密度，S為飛行器參考面積，CD為阻力系數；m為飛行器質量；g為重力加速度；ωe為地球自轉角速度；L為升力，L=0.5ρv2SCL，CL為升力系數；σ為傾側角。

1.2 過程約束

高超聲速飛行器滑翔段過程約束為

(7)

(8)

(9)

1.3 終端約束

本文研究的再入段終點嚴格來說并非是一個點，而是一定大小的區(qū)域，飛行器在進入該區(qū)域的同時也要保證具有相應的速度大小和方向。定義tf為再入段終止時刻，則終端約束設計為λ(tf)=λd、φ(tf)=φd、v(tf)=vd、H(tf)=Hd、tf=td、Rtm(tf)=Sd、σd≈0°、γd≈0°、Δψd≈0°，λd、φd、vd、Hd、td、σd、γd、Δψd分別為期望的終端經度、終端緯度、終端速度、終端高度、終端時間、終端傾側角、終端彈道傾角、終端航向角誤差，Rtm為飛行器與目標之間的距離。

2 基于縱程解析解的智能橫程機動再入協(xié)同制導設計

根據再入彈道的特性，將其劃分為初始下降段、平穩(wěn)滑翔段和高度調整段3部分[6]。制導方法流程如圖1所示。

圖1 基于縱程解析解的智能橫程機動再入協(xié)同制導方法流程

2.1 初始下降段

(10)

σc=0°，

(11)

Δγ=γ-γG，

(12)

(13)

式中：kγ為反饋系數，kγ=5；γG為平穩(wěn)滑翔彈道傾角，

(14)

hS為標稱高度。(14)式是令彈道傾角2階導數為0°/s2平穩(wěn)滑翔條件下求得的平穩(wěn)滑翔彈道傾角[7]。當Δγ=0°時，飛行器進入平穩(wěn)滑翔階段。

2.2 基于縱程解析解的平穩(wěn)滑翔段縱向制導

2.2.1 基準攻角剖面設計

鑒于縱程解析解[6]是以能量為自變量設計的，為更方便地利用解析解，本文提出的制導方法中所有的參考剖面均采用單位能量E作為自變量。設計參考攻角剖面αb為

(15)

式中：αi和αf分別為基準攻角剖面設計初值參數和終值參數；Eα為參考攻擊剖面的分段函數轉換點，位于平穩(wěn)滑翔段與最后的高度調整段的交界點附近，設為Eα=-5.55×107J/kg；Ed為期望終端能量。為發(fā)揮出飛行器的最大能力，設計攻角為最大升阻比對應攻角，即αi=10°.設計攻角為能量的二次函數是為了使攻角可以從αi平緩地過渡到αf.在本文制導方法中，設計αf=6°.當攻角剖面設計完成時，相應的參考升阻比Kb也隨之確定。

2.2.2 基準升阻比剖面設計

為滿足射程要求，設計參考縱向升阻比剖面KLb為

KLb=

(16)

式中：KLi和KLf分別為基準升阻比剖面設計初值參數和終值參數。

令縱程解析解等于剩余射程，即可求得KLi.設計KLf=Kd是為了使得終端的傾側角為0°，其中Kd是終端時刻的升阻比。通過設計(16)式的形式，可在飛行過程中控制傾側角近似為常值。

為求解KLi，首先需要計算剩余飛行射程xDf.在地心旋轉坐標系下[6]，定義η為從地球中心指向飛行器的矢量與從地球中心指向目標的矢量之間夾角。考慮到滑翔段中飛行器的高度變化相較于地球半徑而言量級較小，對生成傾側角指令影響較小，此處忽略高程變化因素，則剩余飛行射程可表示為

xDf=Reη-Sd，

(17)

式中：Sd為再入段結束時到目標的距離。求解KLi的過程可見文獻[6]，結果為：

當E≥Eα時，有

(18)

(19)

(20)

(21)

(22)

R*=Re+H，μ為引力常量,hij(i=1,2;j=0,1)、α1和γ1均為常值系數，具體求解方法見文獻[6]。

當E

2.3 基于強化學習的橫向制導方法設計

文獻[12]中分析表明，不同的航向角走廊寬度，即不同的橫向傾側反轉機制設計，會影響飛行航程，進而影響飛行時間。由于再入飛行時間與橫向反轉策略的關系非線性程度很高，二者的關系難以解析表達，因此傳統(tǒng)的橫向制導策略方法將無法適用于解決飛行時間約束問題。

考慮到高超聲速飛行器再入橫向傾側反轉規(guī)劃本質上是一個典型的二值決策問題，即根據當前狀態(tài)和目標給出傾側角符號“+”或“-”，因此本文基于強化學習方法設計再入橫向制導智能決策器，通過調節(jié)傾側角符號實現再入飛行時間的可控性。

解決強化學習問題的框架是馬爾可夫決策過程[22]，由元組(S,A,P,R,η)描述，其中：S為有限的狀態(tài)空間，且任意狀態(tài)s∈S；A為有限動作空間，且任意動作a∈A；P為狀態(tài)轉移概率；R為回報函數；η為折扣因子，η∈[0,1]，用來計算累積回報[23]。其目標是找到最優(yōu)策略π，使得該策略下總回報最大。

2.3.1 基于DQN算法的橫向制導

考慮到再入橫向制導問題是一個狀態(tài)空間連續(xù)、動作空間離散的問題，選擇DQN算法進行橫向制導方法設計[24]。

DQN算法是一種將Q-學習和深度學習相結合的強化學習算法，其算法結構如圖2所示。在每個訓練周期內，DQN算法隨機抽取來自經驗池的樣本對兩個網絡進行訓練。使用一個網絡產生當前狀態(tài)-動作值函數Q(st,at;θ)，其中st和at分別表示當前時刻的狀態(tài)和動作，θ為網絡參數。使用另一個網絡產生目標狀態(tài)-動作值函數，表示為

圖2 DQN算法結構

QT(st,at;θ-)=

(23)

式中：θ-為該網絡參數；Rt為當前時刻期望值；stf為終端時刻狀態(tài)。在訓練過程中，DQN根據網絡參數θ的動作評價網絡對當前狀態(tài)st下能夠采取的動作集A中所有動作的價值Q(st,at;θ)進行估計，輸出其中具有最大價值的動作；之后根據最大價值動作的實際價值與估計值之間的誤差對參數θ進行更新。為保證網絡具有一定的探索能力，定義探索率ε，使得每次輸出均存在概率ε進行隨機動作選擇。

根據Q(st,at;θ)的Bellman方程形式，神經網絡訓練中，定義第i次迭代的損失函數為

(24)

式中：θi為第i次迭代網絡參數。經過一段時間的學習后，采用梯度下降法用新的θi更新目標值函數網絡參數θ-，可以在一定程度降低當前Q值和目標Q值的相關性，提高算法穩(wěn)定性：

(25)

2.3.2 馬爾可夫決策過程建模

首先對橫向飛行過程進行馬爾可夫決策過程建模。考慮到由橫向飛行狀態(tài)控制再入飛行時間，并綜合射程、落點誤差和能量管理要求，構建狀態(tài)歸一化空間S為

(26)

(27)

(28)

(29)

(30)

(31)

(32)

式中：λgo、φgo分別為剩余經度和剩余緯度，λgo=λd-λ，φgo=φd-φ；v0為再入初始速度；Sgo為剩余射程，Sgo=Reη；tgo為剩余飛行時間,tgo=td-t；下標0表示初始時刻的狀態(tài)，如λgo0與φgo0分別為初始時刻的剩余經度與剩余緯度。

由于傾側角符號僅有正、負兩個選項(當傾側角大小為0°時視為符號為正)，設符號函數表示為sign(·)，因此動作空間集合A為

A=sign(σ)={1,-1}.

(33)

再入制導問題是一個多約束問題，需要滿足落點偏差、飛行時間、終端速度、終端高度、過程約束等多項指標，存在的可行解范圍較窄，因此回報函數的合理設計對再入問題至關重要?？紤]到本文中終端速度、高度約束由縱向制導設計決定，橫向制導主要考慮射程與時間約束。所以結合混合回報函數設計方法，將回報函數R(stf)設計為階梯狀，如(34)式所示：

R(stf)=

(34)

式中：ΔSgo為射程誤差，ΔSgo=Sgo(tf)-Sd；Δtgo為飛行時間誤差，Δtgo=tf-td；B為傾側反轉次數；ξB為反轉次數權重值，ξB越大，橫向決策器會傾向于向傾側反轉次數較少的方向學習。本文選擇ξB=5、ξB=10與ξB=20分別進行學習，其中ξB=5和ξB=10的學習效果如圖3所示。由圖3可以看出，當ξB減小時，收斂速度加快，但是訓練出來的結果傾側反轉次數會較多。

訓練結束后，在線應用生成的智能體進行橫向傾側決策，即可以實現再入協(xié)同制導。制導流程如圖4所示。

圖4 基于DQN算法的智能橫向機動決策器

2.4 指令攻角與傾側角設計

KHb=sign·|KHb|，

(35)

式中：sign為表示傾側反轉方向的符號變量。得到橫向升阻比剖面后，參考傾側角剖面σb也隨之確定，表示為

(36)

式中：Kr表示實際的升阻比。為保證參考剖面的跟蹤精度，這里采用了彈道阻尼控制技術[7]來抑制再入彈道存在的長周期、弱阻尼的振蕩。設計指令攻角αc與傾側角σc分別為

(37)

(38)

式中：KγG是彈道阻尼控制系數的反饋系數，取值為5.平穩(wěn)滑翔段需要滿足過程約束，故將(7)式～(9)式的過程約束轉變?yōu)閮A側角約束，表示為

(39)

(40)

(41)

(42)

式中：Hmin對應滑翔高度的最低邊界，可以通過過程約束求得；kσ為常值系數，kσ=-50.因此，為滿足過程約束，傾側角需要滿足：

|σc|≤σmax.

(43)

2.5 高度調整段制導方法

設平穩(wěn)滑翔段與高度調整段的交班點能量為EA.當能量E

2.5.1 交班點能量EA調整算法

為嚴格滿足終端高度約束，且使得末段彈道更加平滑，高度調整階段設計采用三維比例導引律進行制導。通過對平穩(wěn)滑翔段制導方法的分析可知，如果減小EA，制導方法指令將會產生更大的傾側角以消除最后一次傾側反轉時產生更大的航向誤差，從而使縱向升阻比減小，降低終端速度vf.因此，vf可視為關于EA的單調函數。為保證終端約束，這個問題可視為求解非線性方程vf(EA)=vd解的問題。這里采用割線法進行求解，通過多次彈道仿真對vf進行預測，并根據預測值與終端約束的偏差調整EA的值：

(44)

2.5.2 高度調整段制導方法

當飛行器進入高度調整階段后，本文采用三維比例導引制導方法進行控制。在航跡(FP)坐標系[25]下，指令加速度矢量為

(45)

(46)

(47)

式中：γLOS、ψLOS分別表示縱向平面視線角與橫向平面視線角，

(48)

(49)

(50)

(51)

(52)

橫向平面內機動加速度指令為

(53)

因此可得參考傾側角σb為

(54)

升力加速度大小為

(55)

則升力系數為

(56)

則可根據升力系數與馬赫數反求得攻角αb[27].注意攻角需要滿足過程約束，即αb∈[αmin,αmax]，其中αmin與αmax分別為飛行器許可攻角的最小值與最大值。

為了滿足過程約束，與2.4節(jié)相同，傾側角仍然需要滿足|σc|≤σmax，其中σmax可由(39)式計算得到。

3 仿真驗證

再入飛行器模型選擇CAV-H[27]飛行器，其質量為906.4 kg，參考面積為0.483 87 m2.本文采用的DQN算法網絡結構如圖 5所示，隱藏層神經元節(jié)點數均為200，采用ReLU激活函數。

圖5 DQN網絡結構

網絡參數設定如表1所示。對于高超聲速再入飛行過程，采樣時間如果設置過短，可能會造成飛行器頻繁反轉，降低尋找最優(yōu)解效率。若采樣時間過長，則有可能遺漏更優(yōu)策略?？紤]高超聲速飛行器再入飛行時間較長，且較為頻繁的傾側反轉會影響控制系統(tǒng)的穩(wěn)定性，這里設置采樣時間為50 s.

表1 DQN網絡參數設置

3.1 與基于三維解析解再入協(xié)同制導方法對比仿真

為了驗證本文提出的基于縱程解析解的智能橫程機動再入協(xié)同制導方法有效性，在標稱條件下，與Yu[13]提出的基于三維解析解的再入協(xié)同制導方法(AGCF)以兩個再入任務案例進行仿真對比分析。任務初始設置條件如表2所示。再入初始高度為80 km，兩個任務均打擊同一目標點，目標經緯度坐標為(0°,-30°)。終端射程約束為Sd=50 km，終端高度約束為Hd=25 km，終端速度約束為vd=2 000 m/s.由于高超聲速飛行器在再入過程中的機動能力有限，在多種約束下時間調節(jié)能力不大，因此飛行任務的時間約束設置較為嚴苛。基于制導方法[6-7]的經驗，設計再入期望時間如表2所示。

表2 再入任務初始條件設置

仿真結果如圖6～圖11和表3所示。由表3可以看出，兩種制導算法均能嚴格滿足終端時間、射程、速度和高度約束。由圖6的經度-緯度曲線可知，基于三維解析解的再入協(xié)同制導方法規(guī)劃出的彈道大多沿著飛行器與目標構成的大圓弧進行運動，而本文基于縱程解析解的智能橫程機動再入協(xié)同制導方法規(guī)劃出來的彈道具有更大的橫程機動，能夠充分發(fā)揮飛行器的側向機動能力，極大地增加了突防的成功概率。圖7的高度-時間曲線與圖11的彈道傾角-時間曲線顯示：相比于AGCF，本文制導方法規(guī)劃的高度曲線更加平滑，更容易應對較為嚴苛的過程約束；特別是即將命中目標的最后飛行階段，AGCF彈道高度有明顯的跳起，容易造成較大的終端高度偏差和彈道傾角誤差。圖8展示了速度-時間變化曲線，可以明顯得看出更短的飛行時間約束會使速度減小更快。圖9對比了兩種再入任務的傾側角-時間曲線，最后傾側角大小均收斂到了0°附近。雖然基于DQN的智能橫向機動決策器會在剛開始進入平穩(wěn)滑翔段的時候迅速進行一次傾側反轉，但是由于訓練時采樣時間設置的比較大，且本文對傾側角指令變化率進行了限幅，所以傾側反轉速率在控制系統(tǒng)能力允許范圍內。由圖9可以看出，相比于AGCF，除去飛行器由初始下降段剛開始進入平穩(wěn)滑翔段時一次微小的傾側反轉，本文提出的制導方法在平穩(wěn)滑翔階段的傾側反轉次數比AGCF要少，控制更為簡單，飛行器的潛在橫向機動能力也得到了更大程度的開發(fā)。圖10顯示了兩種制導方法攻角時間曲線對比圖。由于兩種制導方法采用的高度調整段制導策略不一致，末段攻角曲線有較大差別。AGCF末段通過調整攻角的最小值以滿足高度約束，然而其彈道曲線在末段振蕩較為劇烈。在末段稠密大氣環(huán)境中，過大的振蕩會對飛行器熱控系統(tǒng)帶來較大的壓力。因此，本文則采用三維比例導引策略以滿足終端高度約束，這樣可以使得圖7中的彈道曲線變化更加平緩。在本文中，當飛行器由平穩(wěn)滑翔段過渡到高度調整段時，縱向平面內合外力不再滿足平穩(wěn)滑翔條件，所反求得到的攻角存在突變現象，但是通過1.2節(jié)中對攻角的變化率進行約束，可以使得攻角變化在控制系統(tǒng)承受范圍內，滿足工程實際需求。

圖6 兩種再入任務下不同制導方法的經度-緯度曲線對比

圖7 兩種再入任務下不同制導方法的高度-時間曲線對比

圖8 兩種再入任務下不同制導方法的速度-時間曲線對比

圖9 兩種再入任務下不同制導方法的傾側角-時間曲線對比

圖10 兩種再入任務下不同制導方法的攻角-時間曲線對比

圖11 兩種再入任務下不同制導方法的彈道傾角-時間曲線對比

表3 兩種再入任務下不同制導方法的仿真結果對比

3.2 多智能體協(xié)同打擊仿真

在訓練好的智能體基礎上，改變初始發(fā)射點與期望時間約束，進行多智能體協(xié)同打擊任務。3個飛行器的初始仿真設置如表4所示。

表4 多飛行器再入初始條件設置

再入初始高度為80 km.打擊目標經緯度坐標為(0°,-30°)。終端射程約束Sd=50 km，終端高度約束Hd=25 km，終端速度約束vd=2 000 m/s.飛行器M1～M3的初始發(fā)射時間分別為0 s、117.7 s和204.6 s.

飛行器M1、M2、M3分別基于回報函數((34)式)中傾側反轉次數的權重ζB=10(飛行器M1、M2)和ζB=20訓練得到的智能體進行制導仿真。

仿真結果如圖12～圖16和表5所示。由圖12的經度-緯度曲線可以看出，針對不同初始點與再入時間約束，飛行器展現出不同的橫向機動能力。圖13為多飛行器協(xié)同打擊任務的高度-能量曲線，從中可以看出過程約束均嚴格滿足。圖14為多飛行器協(xié)同打擊任務的速度-時間曲線。圖15中的傾側角-時間曲線顯示，相比于傳統(tǒng)的制導律規(guī)劃軌跡方法較為固定，本文提出的橫向智能機動策略則更具創(chuàng)造性。由于設計M3飛行器回報函數時傾側反轉次數的權重ζB較大，所以飛行器能夠憑借更少的傾側反轉次數命中目標，橫向機動幅度更大。而飛行器M1和M2的傾側角控制曲線顯示，盡管本文在設計DQN算法時有意識地朝著減少傾側反轉次數的方向設計回報函數，但是根據不同的任務需求，制導算法可以智能調節(jié)橫向機動能力，以實現終端時間約束與射程約束。圖16為多飛行器協(xié)同打擊任務攻角-時間曲線。表5展現了多智能體協(xié)同打擊任務的狀態(tài)量誤差，可以看出，協(xié)同飛行時間誤差控制在0.1 s以內，終端射程偏差不超過0.1 m，驗證了本文提出的再入協(xié)同制導方法的有效性與準確性。綜合來看，基于智能橫向機動的多智能體協(xié)同制導可以通過不同橫向機動形式在指定時間打擊目標，極大地增加了突防成功概率，為飽和打擊任務提供了可能。

圖12 多飛行器協(xié)同打擊任務的經度-緯度曲線

圖13 多飛行器協(xié)同打擊任務的高度-能量曲線

圖14 多飛行器協(xié)同打擊任務的速度-時間曲線

圖15 多飛行器協(xié)同打擊任務的傾側角-時間曲線

圖16 多飛行器協(xié)同打擊任務的攻角-時間曲線

表5 多飛行器協(xié)同飽和打擊任務的仿真結果

4 結論

本文設計了一種基于縱程解析解的智能橫程機動再入協(xié)同制導方法，可以實現高超聲速飛行器協(xié)同攻擊。得出主要結論如下：

1)本文制導方法的橫向制導方法設計基于強化學習DQN算法。相比于AGCF，本文制導方法采用調節(jié)回報函數權重的方法，可以有效減少傾側反轉次數，使得再入飛行器在復雜任務中更大程度發(fā)揮其橫程機動能力成為可能，增大了突防概率。

2)針對不同再入任務，基于DQN的橫向智能決策器擺脫了原來基于規(guī)則的橫向制導邏輯約束，具備自主智能調節(jié)反轉策略的能力和良好的任務適應性，使得再入彈道橫向設計具有更多的可能性。

3)在高度調整階段采用三維比例導引進行設計，在嚴格滿足終端高度約束的條件下，能夠使高度曲線變化更加平緩，更易滿足嚴苛的過程約束。

4)本文制導方法采用“離線強化學習+在線智能體應用”的模式，能夠適應不同起始點、不同飛行時間約束等問題，制導精度較高，具有良好的應用前景?？紤]到其優(yōu)秀的橫程機動能力，未來有望應用于多飛行器協(xié)同規(guī)避多禁飛區(qū)軌跡設計，進一步提高高超聲速武器智能化水平。