攔截機動目標的信賴域策略優(yōu)化制導算法

2023-07-29 03:04:48陳文雪高長生荊武興

航空學報 2023年11期

陳文雪，高長生，荊武興

哈爾濱工業(yè)大學航天學院，哈爾濱 150001

針對高速性、機動性的臨近空間目標攔截制導問題是目前單枚彈道導彈防御中的一個研究熱點及難點問題。近些年來，隨著航天領域制導技術的發(fā)展，古典導引律、現(xiàn)代導引律均得到了快速發(fā)展。古典制導控制方法中，比例導引與其各種改進方法因其結構簡單、易于實現(xiàn)及有效性得到了廣泛應用［1-2］。文獻［3］運用比例導引律（Proportional Navigation，PN）研究理想導彈在不同初始條件下對目標的攔截問題，文獻［4］基于純比例導引律（Pure Proportional Navigation，PPN）研究針對有界分段連續(xù)時變機動目標的捕獲能力，在PPN 的基礎上文獻［5］考慮攔截碰撞角約束提出一種基于純比例導引律的攔截碰撞角約束（Pure Proportional Navigation Intercept Angle Constraint Guidance，PPNIACG）制導算法。文獻［6］研究擴展真比例導引律（Ture Pro‐portional Navigation，TPN），并將其應用于具有較小航向誤差的簡單攔截場景。文獻［7］在比例導引律的基礎上提出一種改進比例導引律，提高了針對大氣層外高機動目標的命中精度。由上述研究可知，雖然比例導引及其變結構形式在制導律設計中得到了廣泛應用，但其缺陷也在應用過程中逐漸凸顯，當攔截機動能力較大的目標時，其攔截效果并不理想，甚至造成脫靶。

針對傳統(tǒng)制導律存在的缺陷，隨著經典控制理論的發(fā)展，將經典控制理論與制導方法相結合的現(xiàn)代制導理論逐漸得到發(fā)展。文獻［8］考慮導彈三維制導問題中的耦合作用，提出了一種將有限時間控制和非線性干擾觀測器相結合的復合制導控制方法，文獻［9］運用神經網絡對目標加速度進行預測，提出一種最優(yōu)滑模制導律，并設計自適應開關項來處理執(zhí)行器飽和誤差及預測誤差。文獻［10］基于彈目相對視線方向與視線法向設計終端滑模雙層協(xié)同制導律，并針對提出的制導律設計新的自適應律，用以加快滑模面的收斂速度。文獻［11］以具有理想動態(tài)時滯的自動駕駛儀為前提，提出了滑模制導律，并將其推廣到自動駕駛儀具有動態(tài)延遲的情況。文獻［12］考慮攻擊角約束、自動駕駛儀動態(tài)特性，設計一種固定時間收斂的新型非奇異終端滑模制導律，并設計固定時間收斂的滑模干擾器用于估計目標機動等干擾。文獻［13］提出了一種基于最小控制力和末端位置、速度約束的最優(yōu)策略，并將其與滑模控制相結合，得到魯棒最優(yōu)制導律，最后將此種方法推廣至攔截任意時變機動目標。文獻［14］提出一種針對機動目標，帶有終端虛擬視線角約束、終端視線角約束的最優(yōu)制導律，旨在以一定的末端攻擊角度攔截目標。文獻［15］提出了一種具有權重函數(shù)的最優(yōu)制導律，使得導彈在全程制導過程中不需對制導律進行重新設計。文獻［16］基于模型靜態(tài)規(guī)劃算法提出了一種考慮初制導與中制導的聯(lián)合規(guī)劃制導算法，用于解決多階段、最優(yōu)攔截制導問題。除此之外，一些新型制導方法也被廣泛應用，文獻［17］提出一種基于新型幾何方法的攔截制導律，文獻［18］基于經典微分幾何曲線理論與Lyapunov 理論，提出一種新型的魯棒幾何方法制導律。文獻［19］中針對高速機動目標，提出一種基于混合策略博弈理論的新型自適應加權微分博弈制導律，其權重依據(jù)目標加速度的估計誤差進行設計。文獻［20］針對非線性動態(tài)控制系統(tǒng)在給定時刻的閉環(huán)制導問題，提出了一種模糊組合制導律，文獻［21］中基于PN 方法提出了一種模糊控制方法，通過模糊邏輯控制器改變等效導航常數(shù)值，以達到導彈最好性能。文獻［22］基于監(jiān)督學習，運用具有比例導引律的導彈系統(tǒng)生成大量數(shù)據(jù)訓練深度神經網絡得到制導策略。盡管目前諸多算法在攔截非機動目標與機動目標時均具有明顯效果，但算法中仍有諸多角度、時間等約束，并且需明確目標運動信息。

在經典制導律與現(xiàn)代制導律存在缺陷的基礎上，隨著人工智能的快速發(fā)展，機器學習被廣泛應用于解決決策問題。強化學習（Reinforce‐ment Learning，RL）作為機器學習中的一個重要分支，被引入到制導律設計中，此算法能夠將觀察到的狀態(tài)直接映射到動作。在與環(huán)境進行交互的過程中，通過不斷學習、試錯的方式采取動作信息來影響系統(tǒng)的狀態(tài)，從而最大化所獲得的獎勵，即隨著時間的推移能夠不斷進行學習尋找最優(yōu)策略的過程［23］。將強化學習方法與制導、導航與控制領域相結合，能夠克服基于模型的傳統(tǒng)方法需要系統(tǒng)模型和完整地環(huán)境信息的局限性問題［23-24］。在強化學習中通常選用策略函數(shù)、價值函數(shù)等不同的優(yōu)化目標以及不同的函數(shù)逼近器來近似策略、價值函數(shù)或者他們的組合［25］。

文獻［26］基于Q 學習方法設計零控脫靶制導律，并在垂直平面上驗證算法的有效性。文獻［27］設計了一種基于微分對策方法的神經網絡制導律，面向二維平面內的追逃問題進行研究。傳統(tǒng)的強化學習算法往往采用離散的狀態(tài)與動作空間，所以“狀態(tài)-值”函數(shù)可以用狀態(tài)的查找表表示。但在實際復雜任務中往往需要較大的狀態(tài)空間及連續(xù)的動作空間［28］。為避免狀態(tài)、動作空間過大而造成的維數(shù)“災難”問題，通常使用由神經網絡構成的函數(shù)逼近器或“動作-評價”智能體結構搭配實現(xiàn)具有連續(xù)狀態(tài)、動作的強化學習算法［24］。文獻［29］中將卷積神經網絡引入到強化學習算法中，提出了深度Q 學習算法，并提出了深度強化學習（Deep Reinforcement Learn‐ing，DRL）相關概念。深度強化學習算法結合了強化學習中的決策能力與深度學習（Deep Learn‐ing，DL）的特征提取能力。文獻［30］應用動作-評價（Actor-Critic，AC）深度強化學習算法研究其在導彈突防問題中的實用性。文獻［31］考慮數(shù)據(jù)運用效率，基于模型預測路徑積分控制方法設計基于模型的深度強化學習制導律，文獻［32］將元學習與近端策略優(yōu)化（Proximal Policy Opti‐mization，PPO）算法相結合對制導律進行設計，且所設計的制導律不需目標與攔截器的距離估計。文獻［33］基于深度確定性策略梯度（Deep Deterministic Policy Gradient，DDPG）算法設計多智能體深度確定性策略梯度（Multi-Agent Deep Deterministic Policy Gradient，MADDPG）算法解決不同情況下多智能體的防御和攻擊問題，文獻［34］運用DDPG 算法學習行動策略，將所觀察到的狀態(tài)映射到制導指令中。文獻［35］中針對彈道導彈終端攔截問題，設計基于雙延遲深度確定性策略梯度（Twin Delayed Deep De‐terministic Policy Gradient，TD3）算法的制導策略。在上述研究中，強化學習算法的學習、訓練效率仍然是目前研究的難點問題，本文結合神經網絡函數(shù)逼近器與“動作-評價”智能體結構的優(yōu)勢，運用深度強化學習中的信賴域策略優(yōu)化（Trust Region Policy Optimization，TRPO）算法對攔截制導問題進行研究，對訓練數(shù)據(jù)進行充分運用，提高訓練效率。

本文研究深度強化學習算法在導彈攔截制導問題中的應用，首先建立攔截彈與目標間的相對運動模型，將其作為深度強化學習智能體的訓練環(huán)境。其次設計基于TRPO 算法的制導算法，其輸入為狀態(tài)，并將狀態(tài)直接映射為動作即加速度制導指令，通過對交戰(zhàn)訓練場景、狀態(tài)空間、動作空間和獎勵函數(shù)進行設計，以完成對制導算法的訓練。其中獎勵函數(shù)的設計對強化學習算法的訓練尤為關鍵，好的獎勵函數(shù)能夠加速訓練過程的收斂，壞的獎勵函數(shù)會導致收斂時間加長甚至無法收斂。因此，獎勵函數(shù)設計結合狀態(tài)空間中相對距離、相對視線角、相對視線角速度以及能量消耗等因素，能夠充分反映攔截彈與目標的系統(tǒng)狀態(tài)。最終設置不同初始條件完成對環(huán)境的訓練，主要包含2 種：①特定初始條件下對智能體進行訓練；②隨機初始條件下對智能體進行訓練。

訓練完成后，通過仿真驗證所設計制導算法的有效性，主要對不同初始狀態(tài)的學習場景和未學習場景進行測試，測試結果顯示所設計的制導算法具有一定魯棒性、泛化能力。

1 深度強化學習及TRPO 算法

深度強化學習（Deep Reinforcement Learn‐ing，DRL）將強化學習與深度學習進行結合，運用深度神經網絡作為函數(shù)逼近器。TRPO 算法位于同策略（On-policy）與異策略（Off-policy）強化學習方法的交界處。雖在算法設計過程中使用新、舊2 種策略網絡，并運用舊策略（Oldpolicy）進行重要性采樣，但真正的異策略算法可以用任意策略網絡生成的數(shù)據(jù)更新目標策略網絡，而TRPO 算法新、舊策略比例受到一定約束，并且舊策略權重由新策略軟更新得來，此方法保證新策略應用舊策略采樣所得到的數(shù)據(jù)更新參數(shù)時更加有效。

在強化學習中，智能體與環(huán)境進行不斷的交互，在交互過程中試圖通過不斷試錯的方式調整、優(yōu)化策略來解決系統(tǒng)所存在的問題。在學習過程中，智能體（Agent）產生動作at∈A，傳送到環(huán)境（Environment）對狀態(tài)st+1∈S及獎勵rt+1(st，at)∈R進行更新，并收集返回到智能體進行經驗收集、分析后優(yōu)化策略π(a|s)，通過最大化收集到的獎勵rt+1(st，at)∈R找到一個最優(yōu)策略π?(a|s)［36］。其中涉及到馬爾可夫決策過程、策略梯度、優(yōu)勢函數(shù)等方法。

1.1 馬爾可夫決策過程

馬爾可夫決策過程（Markov Decision Pro‐cess，MDP）本質為一個隨機過程，表示序列決策建模的理論框架，通過此框架強化學習中環(huán)境與智能體的交互過程以概率論的形式表現(xiàn)出來。馬爾可夫決策過程被定義為M=。

在MDP 中，智能體在時間序列t時觀察到環(huán)境狀態(tài)st∈S，并依據(jù)狀態(tài)st采取一個動作at∈A積分得到t+1 時刻狀態(tài)st+1∈S。同時，為評估狀態(tài)轉換的好壞程度，智能體得到即時獎勵rt+1(st，at)∈R，γ表示未來獎勵的折扣因子，P表示狀態(tài)轉移概率。交互過程如圖1 所示。

圖1 “智能體-環(huán)境”交互Fig.1 “Agent-environment” interaction

圖1 中“環(huán)境”代指所建立的攔截彈-目標相對運動模型，“智能體”代指基于信賴域策略優(yōu)化算法的制導策略。

MDP 與智能體共同給出了一組序列：

式（1）所示的序列中主要包括2 種狀態(tài)轉換：一是狀態(tài)到動作的轉換由智能體的策略π(a|s)決定；另一種是由環(huán)境決定的動作到狀態(tài)的轉換。

智能體在狀態(tài)st時的動作選擇被建模為策略π(at|st)的映射，將環(huán)境的狀態(tài)值st映射到一個動作集合的概率分布或者概率密度函數(shù)：

在強化學習中，累積獎勵被定義為與時間序列相關的表達式：

“狀態(tài)-值”函數(shù)定義為當我們采取了某一策略π(a|s)后，累計回報在狀態(tài)st時的期望值：

在馬爾可夫決策過程中，擁有各種各樣的策略π(a|s)，策略優(yōu)化過程為得到一個最優(yōu)策略π?(a|s)，需獲得最大化的折扣獎勵：

式中：γ∈(0，1]為獎勵函數(shù)折扣因子，對未來獎勵進行考慮加權，當γ→0 時，更加注重目前的獎勵；當γ→1 時，會更優(yōu)先考慮未來的獎勵。

1.2 策略梯度

策略梯度算法的基本思想是通過學習策略π(a|s)對性能函數(shù)J(π)=Vπ(s)進行最大化。針對復雜的目標與攔截彈的交戰(zhàn)環(huán)境，其連續(xù)動作空間及狀態(tài)空間較為龐大，為更好地近似策略函數(shù)π(a|s)，其策略網絡由帶有權重θ的深度神經網絡構成，其策略函數(shù)參數(shù)化可以近似表示為πθ(a|s)。神經網絡與強化學習結合為深度強化學習算法。神經網絡是依據(jù)一系列層組成的輸入輸出系統(tǒng)，每一層均包含有限個神經元。策略網絡內部結構如圖2 所示，評價網絡內部結構與策略網絡內部結構相似。

圖2 策略（動作）神經網絡內部結構Fig.2 Policy（action）neural network interior structure

在神經網絡中對權重參數(shù)進行更新以最大化性能目標函數(shù)J(πθ)：

策略梯度算法主要依據(jù)隨機梯度上升法對權重參數(shù)θ進行更新：

式中：α表示策略網絡的學習率，決定了梯度更新的步長。

由策略梯度定理得知，估計策略函數(shù)的梯度表示為

式中：b(st)表示基準函數(shù)。

將式（8）改寫為策略梯度的損失函數(shù)［37］：

利用式（9）損失函數(shù)進行參數(shù)優(yōu)化將會導致參數(shù)空間中出現(xiàn)多種相似的軌跡，且所提出的?θ J(θ)前面的每一次更新都會對后續(xù)更新產生影響，并最終影響訓練效果。為解決上述缺陷，采用信賴域策略優(yōu)化（TRPO）算法設計制導策略。

1.3 優(yōu)勢函數(shù)

本節(jié)中，基于“狀態(tài)-值”函數(shù)式（4）引入“狀態(tài)-動作-值”函數(shù)，并通過兩者定義優(yōu)勢函數(shù)。

“狀態(tài)-動作-值”函數(shù)表示當狀態(tài)st與動作at均確定時長期期望獎勵：

“狀態(tài)-值”函數(shù)與“狀態(tài)-動作-值”函數(shù)均表示為長期期望獎勵，當對所有動作的“狀態(tài)-動作-值”函數(shù)求期望便可以得到“狀態(tài)-值”函數(shù)表達式，具體表示為［23］

基于“狀態(tài)-值”函數(shù)式（4）與“狀態(tài)-動作-值”函數(shù)式（10），可得到優(yōu)勢函數(shù)表達式：

1.4 信賴域策略優(yōu)化算法

在信賴域策略優(yōu)化（TRPO）算法中，通過設置Kullback-Leibler（KL）散度值來約束新、舊策略比例，使梯度步驟更新后的新策略與舊策略間差別減小，但同時TRPO 方法又采取了較大的更新步長來更新策略參數(shù)，目的為提高算法的性能。其中散度為新舊策略概率分布間的量度。

在信賴域策略優(yōu)化函數(shù)中，為最大化目標狀態(tài)的期望回報，引入一個新的函數(shù)定義η(π)，將期望折扣獎勵式（4）進一步表示為

基于式（12）與式（13），策略πθ的預期回報為

針對式（16）等號右端第2 項，所有動作的選擇均是由舊策略進行采樣，因此當狀態(tài)st時，運用文獻［39］所介紹的重要性采樣及式（15）對其進行改進：

為保證式（20）更好地逼近、替代預期回報式（14），應限制策略更新幅度，因此為避免局限性，信賴域策略優(yōu)化算法引入KL 散度衡量新策略與舊策略概率分布間差異，其被定義為所有狀態(tài)中最大動作分布的總變差散度DTV，表示為

若直接對上述目標函數(shù)進行優(yōu)化，由式（23）可得，懲罰系數(shù)ε較大，導致KL 散度較小，最終導致在策略優(yōu)化過程中，對策略更新幅度較小，即式（23）中懲罰系數(shù)ε在一定程度上限制步長，為增大步長將懲罰系數(shù)變?yōu)榧s束項：

式中：δ定義為約束因子。

在策略優(yōu)化的過程中，需對式（24）所示的目標函數(shù)最大化以得到下一步參數(shù)θ。為進一步優(yōu)化目標函數(shù)，將約束項KL 散度用其期望代替，且權重為舊策略穩(wěn)定狀態(tài)分布表示為

最終目標函數(shù)為

目標函數(shù)優(yōu)化過程中，依據(jù)式（13）和式（20）可得知舊策略下的期望折扣獎勵與新策略參數(shù)πθ是相互獨立的，因此依據(jù)式（23）針對目標函數(shù)的優(yōu)化可進一步簡化為

本文中信賴域策略優(yōu)化算法是依據(jù)“動作-評價”網絡架構進行設計的，在訓練過程中評價網絡針對策略網絡產生的策略進行評估，并運用TD-error 設計評價網絡目標函數(shù)：

因此依據(jù)策略網絡目標函數(shù)式（27）與評價網絡目標函數(shù)式（28）運用優(yōu)化器與梯度上升方法對網絡參數(shù)進行更新：

式中：k和k+1 分別表示當前訓練集與下一訓練集；α和β分別為策略網絡與評價網絡的學習率；并設計Ke限制每次更新頻率，提高訓練效率。舊策略網絡的參數(shù)則由新策略網絡參數(shù)軟更新得到。

2 基于深度強化學習的制導問題描述

本文主要考慮攔截彈與目標相對運動模型，暫時不考慮攔截彈、目標繞質心轉動的姿態(tài)運動，并將其應用于深度強化學習制導策略設計中。首先提出以下3 個假設［35，41］：

假設1將地球視為均值的球體，對末制導進行設計，因時間較短，忽略掉地球自身的旋轉角速度。

假設2將攔截彈視為理想剛體狀態(tài)，不考慮攔截彈所存在的可能性彈性形變，并將攔截彈與目標視為常值速度的質點運動。

假設3將攔截彈系統(tǒng)狀態(tài)視為理想制導狀態(tài)，暫不考慮執(zhí)行結構的動態(tài)特性。

2.1 交戰(zhàn)環(huán)境

使用一個簡潔的攔截彈與目標相對運動場景，并且主要針對攔截彈與目標二維垂直平面內的制導問題進行研究，但研究結論可以推廣到三維空間。兩者縱向平面內相對運動場景如圖3所示。

圖3 攔截彈-目標相對運動環(huán)境Fig.3 Interceptor-target relative motion environment

圖中：M和T分別表示攔截彈與目標質點。在雙方交戰(zhàn)過程中，當目標飛行器T進入到探測范圍后，發(fā)射攔截彈M運用所設計的制導策略攔截目標T，同時目標T采取相應的策略進行規(guī)避，直至攔截成功或失敗。坐標系OXY為慣性坐標系；q表示彈目相對視線角；瞬時相對距離表示為R；Vm和Vt分別為攔截彈與目標的運動速度；φm和φt為攔截彈與目標之間的彈道傾角；am和at分別表示攔截彈與目標垂直于速度方向的法向加速度。

根據(jù)圖3 交戰(zhàn)場景，我們給出攔截彈與目標在二維平面內運動學模型：

描述攔截彈與目標相對運動的方程為

攔截彈與目標垂直于速度方向的加速度與速度間的關系可表示為

直接應用攔截彈與目標相對運動方程作為深度強化學習環(huán)境，以便于更加直觀的計算、觀測系統(tǒng)各狀態(tài)變量。

2.2 制導算法設計

在本節(jié)中，提出一種基于信賴域策略優(yōu)化（TRPO）算法的制導算法設計方法，在智能體訓練過程中將狀態(tài)直接映射到攔截彈的制導指令，并通過不斷地學習得到最優(yōu)策略。本文所設計制導算法具體結構如圖4 所示，詳細描述制導算法的內部結構。為順利訓練TRPO 制導算法，對制導算法中作戰(zhàn)訓練場景、狀態(tài)空間、動作空間、獎勵函數(shù)及網絡結構五方面進行詳細設計。

圖4 信賴域策略優(yōu)化制導算法全結構Fig.4 Trust region policy optimization guidance algorithm full structure

2.2.1 訓練場景

本文所研究的深度強化學習制導算法訓練場景是基于所建立的攔截彈與目標在二維垂直平面內的相對運動模型構建的，其在訓練過程中與智能體直接進行交互，為更好地對模型進行訓練，獲得最優(yōu)策略。為降低訓練算法的隨機性，設定隨機初始條件范圍，其初始條件設置包括攔截彈與目標的初始位置、速度等，相應初始相對視線角及初始彈道傾角由初始條件推導可得，訓練交戰(zhàn)環(huán)境如圖5 所示。圖5 中φmmax、φmmin、φtmax和φtmin分別表示攔截彈與目標彈道傾角最大值與最小值；qmax和qmin分別表示相對視線角的最大值與最小值；ximax、ximin、yimax和yimin(i=m，t)分別表示攔截彈和目標的初始位置邊界。設置環(huán)境各參數(shù)在訓練過程中的約束條件如表1所示。

表1 訓練場景參數(shù)邊界Table 1 Training scenario parameters constraints

圖5 訓練交戰(zhàn)場景Fig.5 Training engagement scenario

在攔截彈與目標位置、速度通過隨機初始化確定后，兩者初始相對距離與初始相對視線角可表示為

式中：(xm0，ym0)與(xt0，yt0)分別表示為攔截彈與目標的初始位置；qd表示初始視線角誤差，初始化時對其在設定范圍內進行隨機初始化。

在相對視線角基礎上，目標初始彈道傾角可表示為

式中：HE表示攔截彈與目標的初始彈道傾角誤差，當HE=0 時表示目標速度指向攔截彈方向，但訓練過程中每一訓練集開始時均在表1 所設定的范圍內對HE進行隨機初始化，即HE并不為0，目標速度并不直接指向攔截彈，更加符合實際任務需求。

攔截彈初始彈道傾角表示為

式中：q0表示為攔截彈與目標間的初始相對視線角，由式（34）確定；等號右端第2 項考慮目標速度垂直于初始視線角的分量對攔截彈初始彈道傾角的影響；等號右端第3 項與目標初始彈道傾角計算同理，當HE=0 時攔截彈速度指向目標，但同樣在每一訓練集中進行隨機初始化，使HE≠0。

當式（35）與式（36）中初始彈道傾角誤差HE均為0 時，目標與攔截彈滿足不機動情況下的碰撞三角形如圖5 所示。但實際訓練過程中，在每一訓練集開始對兩式中的初始彈道傾角誤差HE分別進行隨機初始化，且兩者取值并不一致，使目標與攔截彈速度均不指向對方，更加貼合實際需求。

訓練過程中，目標飛行器采用方波機動：

式中：nt表示目標最大機動過載；g表示重力加速度；ωf表示方波機動頻率；Δt表示為機動持續(xù)時間；Rtm表示目標開始機動時攔截彈與目標的臨界距離；ΔT為機動所持續(xù)的最大時間。

2.2.2 狀態(tài)空間

為了更好地訓練所設計的TRPO 制導算法，在構造狀態(tài)空間時，既要考慮到攔截彈與目標交戰(zhàn)系統(tǒng)變量的多樣性，又要考慮智能體能夠更好提取狀態(tài)變量的關鍵信息，運用神經網絡進行非線性擬合。因此狀態(tài)變量的選擇應盡可能反應系統(tǒng)重要信息，并盡可能簡潔，以減小智能體所需要搜索的狀態(tài)空間，加快智能體的訓練速度?；谑剑?2）所示的攔截彈與目標二維交戰(zhàn)運動方程，將環(huán)境狀態(tài)空間設為

選定攔截彈與目標相對距離、相對視線角、相對距離變化率和相對視線角速度4 個元素作為環(huán)境狀態(tài)量，其能夠充分反應攔截彈與目標相對位置信息，且相對視線角應盡可能變化小，以盡可能的滿足平行接近。

2.2.3 動作空間

深度強化學習中，根據(jù)特定任務需要，動作空間需設計為離散動作空間或連續(xù)動作空間。設計的TRPO 制導算法作為生成制導指令的策略，依據(jù)攔截任務需要采用連續(xù)動作空間進行描述。制導指令由相關狀態(tài)變量進行直接映射：

式中：ft(?)表示非線性函數(shù)，由神經網絡擬合而成。

制導指令設置在最大過載范圍內：

式中：nm表示為攔截彈最大的法向過載。

2.2.4 獎勵函數(shù)

獎勵函數(shù)作為TRPO 制導算法中最重要的一部分，合適的獎勵函數(shù)能夠更好地輔助訓練智能體。在攔截彈與目標相對運動過程中，系統(tǒng)需要針對每一步返回一個即時獎勵到智能體，更直觀地反映系統(tǒng)狀態(tài)好壞。設計的制導算法需要使攔截彈能夠不斷地接近目標最終成功攔截。獎勵函數(shù)的具體形式為

式中：rp表示為攔截彈與目標相互接近過程中獎勵函數(shù)，即為過程獎勵函數(shù)；re表示攔截彈是否成功攔截目標的終端獎勵，若成功攔截則給出一個正獎勵。

rp和re的具體形式可表示為

式中：過程獎勵函數(shù)等號右端第1 項為攔截彈與目標相對距離的直觀獎勵，當攔截彈不斷接近目標時則給出正獎勵，距離越近獎勵值越高，kr表示相對距離權重系數(shù)；等號右端第2 項對攔截彈能量消耗進行考慮，使攔截彈在攔截目標的同時盡量保證較少的能量消耗，ka表示能耗權重系數(shù)；等號右端第3 項與第4 項均與相對視線角有關，使攔截彈在不斷接近目標的同時保證相對視線角的變化量與變化率盡可能小，以保證攔截彈盡可能以平行接近的方式攔截目標，ks1和ks2表示相對視線角及視線角變化率權重系數(shù)；re表示終端攔截成功時直接加入一個正值獎勵a1，用于區(qū)別普通過程獎勵，使本文所設計的制導算法在訓練過程中朝此方向優(yōu)化；Rm表示攔截成功時最小脫靶量。

2.2.5 網絡結構

信賴域策略優(yōu)化（TRPO）算法屬于強化學習中“動作-評價”算法，其中包括策略（動作）與評價2 種網絡結構。2 種網絡均由4 層全連接神經網絡構成，其中包含一個輸入層，2 個隱含層與一個輸出層，其網絡結構均如圖2 所示。4 層全連接神經網絡中每層具體單元數(shù)、激活函數(shù)如表2 所示。

表2 策略與評價網絡結構Table 2 Policy and critic network structure

策略網絡與評價網絡中輸入層、隱含層的激活函數(shù)均為ReLU 函數(shù)，此種激活函數(shù)比其他非線性激活函數(shù)具有更快的處理速度，并在一定程度上緩解梯度消失的問題，其具體表達形式為

動作網絡為將動作范圍限制在［?1，1］內，其輸出層激活函數(shù)為tanh 函數(shù)，既能夠防止制導機構飽和，又便于對制導指令按照最大過載nm進行精確縮放，其具體表達式為

式中：z表示激活函數(shù)的輸入變量。

2.2.6 訓練流程

針對2.2.1～2.2.5 節(jié)所建立的攔截彈與目標相對運動交戰(zhàn)環(huán)境與基于信賴域策略優(yōu)化算法的制導算法進行交互訓練。在介紹具體流程前首先進行變量初始化：一是相關超參數(shù)初始化包括折扣系數(shù)γ，約束因子δ，更新頻率Ke，經驗池大小|D|，最小批量大小|B|，訓練集數(shù)nepisodes，每集訓練最大步長nsteps，策略網絡學習率α及評價網絡學習率β；二是交戰(zhàn)環(huán)境參數(shù)邊界初始化包括攔截彈與目標初始位置(xm0，ym0)、(xt0，yt0)，初始速度Vt、Vm，初始彈道傾角誤差HE，初始視線角誤差qd，初始彈道傾角φt0、φm0，初始視線角q0等。后續(xù)具體訓練流程如算法1 所示。

3 仿真校驗

3.1 訓練超參數(shù)

深度強化學習中各超參數(shù)的取值對訓練效果有明顯的影響，實際訓練過程中針對不同環(huán)境、不同任務需求，其調參過程、最終參數(shù)取值并不唯一。針對2.2 節(jié)給出的攔截彈與目標的正面接觸場景及所設計的狀態(tài)空間、動作空間、網絡結構及獎勵函數(shù)等，通過多次調參試錯，給出訓練中最佳效果的超參數(shù)值，如表3 所示。

表3 訓練超參數(shù)設計Table 3 Training hyper-parameters design

表3 中訓練集數(shù)nepisodes與每集最大訓練步長nsteps取值依據(jù)彈目相對距離、兩者速度大小，保證每集最大訓練步長內能夠成功攔截，且多次訓練中保證算法能夠在訓練集數(shù)內收斂。策略網絡與評價網絡學習率α和β依據(jù)訓練經驗評價網絡學習率設計比策略網絡高一數(shù)量級。依據(jù)攔截任務中數(shù)據(jù)量經驗池大小|D|一般選為1×106～5×106，最小批量數(shù)據(jù)|B|通常選為128～512，約束因子δ一般設為0.1～0.3，更新頻率Ke取值限制網絡參數(shù)更新頻率，通常選為60 ～90，獎勵折扣系數(shù)γ通常選為0.99～0.999，合適的參數(shù)能夠在訓練過程中使訓練更加高效的同時，盡量減小計算量。過程獎勵函數(shù)中彈目相對距離系數(shù)kr，能耗系數(shù)ka，相對視線角及視線角速度系數(shù)ks1和ks2為使獎勵不會過大導致計算量增加，又能夠在彈目相對運動中給出明顯的正負獎勵，取值范圍選定為0.1～1，且在本文算法設計中更加注重相對距離因素，故彈目相對距離權重系數(shù)取值相對較大。脫靶量Rm表示彈目距離

3.2 訓練過程

訓練、測試仿真驗證均依托于Python 3.8 和PyTorch 1.10.2 框架，計算機硬件信息為 i5-10400F CPU @ 2.90GHz，32G DDR3，1T SSD，NVIDIA GeForce GTX 1650。

在訓練過程中，最大訓練集被設定為1×104，每一集中最大訓練步長為1 000。在每一訓練集開始首先對攔截彈-目標相對運動環(huán)境進行特定或隨機初始化，得到初始化觀測狀態(tài)s0，而后智能體依據(jù)此狀態(tài)得到相對應的動作a0，環(huán)境得到動作指示后，依據(jù)動作運用四階龍格庫塔積分得到下一步狀態(tài)st+1，起始積分步長選定為0.01，當相對距離R<500 m 時積分步長選為0.001，并獲得獎勵值rt+1，而后將狀態(tài)輸入到智能體，循環(huán)此過程，直到攔截目標或步長達到最大值后進入下一訓練集。最終直到獲得最佳的制導策略。同時將一系列狀態(tài)、動作、獎勵等值存入經驗池，每5 次循環(huán)對智能體進行一次訓練并運用優(yōu)化器、梯度算法更新網絡參數(shù)，每次更新中依據(jù)參數(shù)δ與Ke對網絡參數(shù)更新幅度及頻率進行控制，且在動作選擇時加入隨機噪聲N 用以估計執(zhí)行結構等引起的誤差。

訓練過程中，為保證所設計制導算法具有應對多種初始情況的能力，主要針對2 種場景進行訓練：一種為特定初始條件下攔截彈-目標相對運動環(huán)境，對攔截彈與目標初始位置、初始速度進行設定，并列舉3 種具有代表性初始特征點如表4 所示，相應的學習曲線如圖6 所示；另一種是隨機初始條件下攔截彈-目標相對運動環(huán)境，使攔截彈與目標初始位置、初始速度每集訓練時在表1 設定范圍內進行隨機選擇，其學習曲線如圖7 所示。

表4 訓練初始條件Table 4 Training initial condition

圖6 特定初始條件下學習過程Fig.6 Learning process with fixed initial conditions

圖7 隨機初始條件下學習過程Fig.7 Learning process with random initial conditions

學習曲線圖6（a）可看出條件1 時，在1 000 訓練集內獎勵得到有效提升，并在4 000 集左右有明顯波動，5 000 集后訓練曲線能夠基本保持穩(wěn)定，獎勵值最終在500 左右波動。圖6（b）可看出條件2 學習曲線在1 000 集內得到提升，且最終能夠基本穩(wěn)定在490～500 之間。由圖6（c）可以看出條件3 學習曲線在訓練集2 000 以內提升、波動，最終獎勵值在5 000 集后能夠穩(wěn)定在480 左右。由3 組特定條件下學習曲線可得出，雖然因為初始條件的差異，獎勵曲線最終穩(wěn)定值不同，但均有較好的學習效果，證明所設計的制導策略針對不同初始條件，具有一定的魯棒性。

根據(jù)圖7 隨機初始條件下的學習曲線可看出，獎勵在2 000 集以內得到快速的提升，且在2 000 集后維持在480～500 間波動，由學習曲線可得知在隨機初始條件下雖比特定初始條件下波動明顯，但仍然能夠得到理想的訓練效果，且隨機初始條件的訓練更加符合現(xiàn)實任務需要。經上述訓練曲線分析表明所設計的TRPO 制導算法針對不同特定初始條件、隨機初始條件的訓練場景均具有一定的穩(wěn)定性，能夠及時收斂。

為進一步對TRPO 制導算法訓練效率提升效果進行驗證，運用本文所設計的TRPO 制導算法與文獻［35］提出的雙延遲深度確定性策略梯度（TD3）制導算法對隨機條件下攔截彈與目標相對運動環(huán)境進行訓練，圖8 顯示訓練過程中平均獎勵對比曲線。由圖8 中可得知TRPO 制導算法在2 000 集以內得到收斂，而TD3 方法在4 000～6 000 集間進行收斂。表明本文提出的TRPO 制導算法比TD3 制導算法收斂更快速，且最終平穩(wěn)獎勵值更高，由此驗證TRPO 制導算法對訓練數(shù)據(jù)利用率更高，提高了訓練效率。

圖8 獎勵函數(shù)對比曲線Fig.8 Reward function comparison curves

3.3 測試過程

為驗證3.2 節(jié)訓練的TRPO 制導算法的有效性、魯棒性及在不同初始條件下攔截不同機動模式目標的泛化性，對所設計的TRPO 制導算法進行2 種場景下的測試驗證：一是在學習場景下進行測試；二是在未知場景下進行測試。測試過程中考慮攔截彈在臨近空間環(huán)境的復雜性，易受到風場等干擾，在測試中對彈道傾角φm加入5%實時誤差，驗證本文所設計的深度強化學習算法在攔截目標時具有應對干擾的能力。并將測試結果與傳統(tǒng)的比例導引律（PN）及改進比例導引律（IPN）結果相比較，驗證算法的高效性。

PN 和IPN 具體形式為［42］

3.3.1 學習場景下測試

本節(jié)基于上文建立的攔截彈-目標交戰(zhàn)環(huán)境，運用隨機初始條件下訓練的制導算法，并與隨機初始條件下訓練過程采用相同的參數(shù)，具體取值如表3 所示，同時目標進行方波機動如式（37）所示。在學習場景下采用蒙特卡洛打靶法進行1 000 次打靶仿真對所設計的制導算法進行測試，并將結果與PN、IPN 仿真結果相比較，驗證算法的優(yōu)越性，脫靶量散點分布如圖9 所示。

圖9 學習場景下脫靶量分布Fig.9 Miss distances distribution in learned scenarios

由圖9 可得知在15 m 處脫靶量分布逐漸密集，且越靠近0 m 分布越密集。統(tǒng)計不同導引律脫靶量平均值及方差特性如表5 所示。由表5 中數(shù)據(jù)可得知與傳統(tǒng)的PN、IPN 相比，所提出的深度強化學習制導算法脫靶量具有明顯的減小，平均值基本能夠維持在4.5 m 以內，由方差值大小可得出TRPO 制導算法相較于PN、IPN 脫靶量波動更小，攔截效果更加平穩(wěn)，驗證提出的深度強化學習制導算法具有一定的優(yōu)越性。

表5 脫靶量統(tǒng)計Table 5 Statistics of miss distances

為進一步測試提出的深度強化學習制導算法在不同初始彈道傾角誤差下的性能，針對不同初始彈道傾角誤差分別進行1 000 次蒙特卡洛仿真實驗，并分別記錄不同彈道傾角誤差下的攔截概率，其性能對比如圖10 所示。由圖10 可得知，TRPO 制導算法在不同彈道傾角誤差下性能均優(yōu)于傳統(tǒng)PN、IPN 制導律，且隨著初始彈道傾角誤差的增大，優(yōu)勢更為明顯，表明所設計的制導算法對中末交班條件要求更低，初始彈道傾角誤差容錯率更高，能夠一定程度上對攔截彈中制導誤差進行修正。另一方面在測試過程中所設計的彈道傾角基礎上增加5%實時誤差，用于模擬外部環(huán)境干擾，攔截結果表明所設計的深度強化學習制導算法具有應對外部干擾的能力。

圖10 學習場景下攔截性能對比Fig.10 Comparison of interception probability in learned scenarios

攔截過程中，為更加直觀的展現(xiàn)所設計的TRPO 制導算法針對不同位置、速度來襲目標的攔截效果，選取學習場景下10 組攔截彈與目標運動狀態(tài)與1 組傳統(tǒng)PN、IPN 攔截過程進行記錄繪圖，攔截測試中攔截彈與目標運動軌跡、相對運動距離、攔截彈法向加速度及目標法向加速度如圖11 所示，由圖11（a）可更加直觀的得到不同初始條件下的攔截效果，運用本文提出的TRPO 算法能夠對不同初始位置、速度的目標進行有效攔截。由圖11（b）可得出攔截彈與目標相對距離呈線性減小，當目標與攔截彈相對距離減小到一定程度時，本文設定為500 m，為了更加精確對目標進行攔截，積分步長減小，相對距離縮減變緩。由圖11（c）攔截彈法向加速度曲線可得出TRPO 制導算法與傳統(tǒng)PN、IPN 算法相比，法向加速度后期變化更為平緩。在接近目標時，攔截彈法向加速度增加是由于目標進行機動導致，與圖11（d）中目標法向加速度變化曲線相對應，且由圖可得知目標進行方波機動。但兩者法向加速度均在所設計的加速度范圍內，滿足攔截要求。而由圖11（c）可得知傳統(tǒng)PN、IPN 算法的法向加速度不在所設定的范圍內，易造成執(zhí)行機構的飽和。

圖11 學習場景下測試結果Fig.11 Test results in learned scenarios

3.3.2 未知場景下測試

為驗證所設計的深度強化學習制導算法針對未知環(huán)境的適應能力，本小節(jié)中運用隨機初始條件下訓練的模型對未知場景進行測試，且在攔截測試過程中采用與隨機初始條件下訓練過程相同的超參數(shù)，具體取值如表3 所示，仿真仍然采用1 000 次蒙特卡洛打靶實驗。其初始條件改變主要包括目標的機動方式、目標與攔截彈初始位置、速度變化等。其初始位置與速度主要針對超出隨機初始條件范圍的部分進行測試，具體位置、速度范圍如表6 所示，其他訓練場景參數(shù)邊界值如表1 所示。目標機動方式選為正弦機動，進一步驗證制導算法的泛化性。

表6 未知場景參數(shù)邊界Table 6 Unlearned scenario parameters constraints

正弦機動具體形式表示為

式中：ωs表示正弦機動頻率。

在正弦機動模式下，測試過程中脫靶量分布與傳統(tǒng)PN 和IPN 算法對比如圖12 所示，由圖可知TRPO 制導算法脫靶量在20 m 以內分布逐漸密集，表明TRPO 制導算法對不同位置、速度及機動模式的來襲目標均具有較好的攔截效果。

圖12 未知場景下脫靶量分布Fig.12 Miss distances distribution in unlearned scenarios

不同初始彈道傾角誤差下的性能對比如圖13 所示，由圖得知TRPO 制導算法相較于傳統(tǒng)制導律在不同初始彈道傾角誤差時均具有更高的攔截概率，但在初始彈道傾角誤差較大時，其攔截效果提升有輕微減小，后續(xù)研究中可對未知場景初始彈道傾角誤差較大的情況進行改進。

圖13 未知場景下攔截概率對比Fig.13 Comparison of interception probability in unlearned scenarios

為進一步直觀的展現(xiàn)本文所設計的TRPO制導算法針對目標速度、位置超過訓練過程中所設定范圍、且機動模式改變時的攔截效果，同時記錄不同制導算法在攔截過程中制導參數(shù)的變化情況，在未知場景下選取10 組TRPO 制導算法與傳統(tǒng)PN 和IPN 算法攔截過程進行對比。詳細攔截過程、彈目相對距離變化曲線及攔截彈、目標法向加速度如圖14 所示。由圖14（a）可知，當攔截彈與目標位置、速度位于所設定范圍以外時，TRPO 制導算法仍具有很好的攔截效果，更加說明TRPO 制導算法的泛化性，可應用于多種攔截場景。由圖14（c）可得知傳統(tǒng)PN、IPN 制導律與所設計的TRPO 制導算法相比，法向加速度變化劇烈，且不在所規(guī)定范圍內，容易造成執(zhí)行機構飽和，消耗更多的能量。由圖14（d）目標法向加速度變化曲線可看出目標在攔截過程后半程進行正弦機動。

圖14 未知場景下測試結果Fig.14 Test results in unlearned scenarios

依據(jù)上述學習場景和未知場景下的測試仿真分析可得知，運用所設計的TRPO 制導算法針對不同位置、速度及不同機動模式的目標均具有較好的攔截效果，證實TRPO 制導算法具有泛化性，并具有一定的魯棒性及應對外部干擾的能力，且相較于2 種傳統(tǒng)制導律性能優(yōu)勢明顯。在攔截過程中，深度強化學習制導算法運用神經網絡對4 種狀態(tài)變量進行擬合得到指令加速度，其計算量較小，經過在不同配置計算機上進行訓練測試，均具有較快的收斂速度，且單次攔截測試均保持在1 s 內，表明所設計的TRPO 制導算法可應用于多種配置計算機。

4 結論

提出了一種攔截臨近空間高超聲速飛行器的信賴域策略優(yōu)化（TRPO）制導算法。建立了攔截彈與目標相對運動交戰(zhàn)模型，并與制導算法共同構建馬爾可夫決策框架，依據(jù)實際任務需求設計狀態(tài)空間、動作空間和深度強化學習制導算法中的網絡結構以及結合相對距離、相對視線角及能量消耗等因素的獎勵函數(shù)，并在算法訓練過程中針對狀態(tài)空間、獎勵運用歸一化方法加快學習速度。最終在學習場景和未知場景下運用蒙特卡洛打靶法對制導算法進行仿真驗證，仿真結果表明：本文所提出的深度強化學習制導算法相較于傳統(tǒng)比例導引律（PN）及改進比例導引律（IPN）具有更好地攔截效果，更小的脫靶量，更穩(wěn)定的性能，在多種場景下具有一定的魯棒性、抗干擾性及泛化性，并可適應于多種不同配置計算機。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放