亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于強化學(xué)習(xí)的多發(fā)導(dǎo)彈協(xié)同攻擊智能制導(dǎo)律

        2021-09-23 09:14:46陳中原韋文書陳萬春
        兵工學(xué)報 2021年8期
        關(guān)鍵詞:設(shè)計

        陳中原, 韋文書, 陳萬春

        (1.北京航空航天大學(xué) 宇航學(xué)院, 北京 100191; 2.中國運載火箭技術(shù)研究院, 北京 100076)

        0 引言

        近年來,為提升打擊效能,協(xié)同制導(dǎo)技術(shù)得到越來越多的關(guān)注[1-5]。協(xié)同制導(dǎo)的多發(fā)導(dǎo)彈可以看作是僅基于簡單控制律即可相互協(xié)作以實現(xiàn)任務(wù)目標(biāo)的多智能體系統(tǒng)[6]。多發(fā)導(dǎo)彈協(xié)同作戰(zhàn)在效能上要優(yōu)于單個高技術(shù)和高成本的飛行器。此外,多發(fā)導(dǎo)彈構(gòu)成的多智能體系統(tǒng)也會比單個飛行器具有更強的作戰(zhàn)能力[7]。其中,多發(fā)處于不同初始條件的導(dǎo)彈實現(xiàn)對目標(biāo)的同時打擊是一個極具挑戰(zhàn)的問題[8-9]。

        目前,多彈同時攻擊協(xié)同制導(dǎo)律可以分為兩類:

        1) 第1類是為協(xié)同制導(dǎo)系統(tǒng)指定期望的攻擊時間。Cho等[10]提出了一種非奇異滑模制導(dǎo)律使導(dǎo)彈在指定的時間打擊目標(biāo);Liu等[11]基于自適應(yīng)滑模設(shè)計了一種指定攻擊時間和攻擊角度的制導(dǎo)律。然而,為處于不同初始條件下的多發(fā)導(dǎo)彈指定同一個攻擊時間顯然是有困難的。此外,各發(fā)導(dǎo)彈間沒有交互,降低了多彈協(xié)同制導(dǎo)系統(tǒng)對環(huán)境的感知能力。

        2) 另一類是由系統(tǒng)中的各發(fā)導(dǎo)彈相互協(xié)調(diào),對齊攻擊時間。Jeon等[7]對比例導(dǎo)引制導(dǎo)律(簡稱PN制導(dǎo)律)進行拓展,設(shè)計了多彈協(xié)同攻擊制導(dǎo)律。然而,該制導(dǎo)律要求每發(fā)導(dǎo)彈都要有整個系統(tǒng)的全局信息,為集中式控制,通訊負(fù)擔(dān)較重。此后,Zhou等[12]基于李雅普諾夫理論設(shè)計了有限時間收斂的分布式協(xié)同攻擊制導(dǎo)律。Sinha等[13]設(shè)計了一種超螺旋滑模制導(dǎo)律,使制導(dǎo)指令更加平滑。李文等[14]基于一致性理論,選取飛行器與目標(biāo)的相對距離和接近速度為協(xié)調(diào)變量,設(shè)計了無動力飛行器在速度時變情況下的分布式時間協(xié)同三維制導(dǎo)方法。

        在導(dǎo)彈制導(dǎo)方面,Cottrell等[17]設(shè)計了神經(jīng)網(wǎng)絡(luò)最優(yōu)攔截制導(dǎo)律,減小了燃料消耗,有利于實現(xiàn)攔截器的小型化。然而,基于神經(jīng)網(wǎng)絡(luò)或深度學(xué)習(xí)網(wǎng)絡(luò)[18]的制導(dǎo)律需要最優(yōu)化樣本進行訓(xùn)練,樣本數(shù)量一定程度上決定了智能制導(dǎo)律可應(yīng)用的交戰(zhàn)環(huán)境,即某些不在樣本中的交戰(zhàn)環(huán)境可能使制導(dǎo)律失效。

        為了簡化制導(dǎo)律設(shè)計,提高制導(dǎo)律魯棒性,Gaudet等[19]基于元強化學(xué)習(xí)設(shè)計了攔截器末制導(dǎo)律。南英等[20]對傳統(tǒng)深度Q網(wǎng)絡(luò)(DQN)的記憶池生成方法進行改進,提出了一種基于Markov決策過程的彈道導(dǎo)彈中段突防控制模型。強化學(xué)習(xí)技術(shù)不需要深度學(xué)習(xí)所需要的樣本,也無需設(shè)計控制器的結(jié)構(gòu),可自主探索實現(xiàn)獎勵值最大的動作。然而,上述智能制導(dǎo)律僅針對單個彈,而不是“彈群”。胡仕友等[21]總結(jié)了導(dǎo)彈武器智能精確制導(dǎo)技術(shù)的發(fā)展現(xiàn)狀并對發(fā)展趨勢做了分析,指出開展多彈間信息交互與協(xié)同處理技術(shù)研究,實現(xiàn)群體的分布式智能化協(xié)作,是未來導(dǎo)彈武器智能精確制導(dǎo)技術(shù)發(fā)展的重要方向。

        基于深度確定性策略梯度(DDPG)的強化學(xué)習(xí)算法,引入Actor和Critic神經(jīng)網(wǎng)絡(luò)用于動作的選取和獎勵值的逼近,用于解決復(fù)雜連續(xù)的控制問題[22-23]。本文基于DDPG設(shè)計了多彈同時攻擊協(xié)同制導(dǎo)律。為了降低協(xié)同制導(dǎo)系統(tǒng)的通訊負(fù)擔(dān),利用多智能體思想,使協(xié)同制導(dǎo)系統(tǒng)中的每發(fā)導(dǎo)彈只需與自己的鄰居進行通訊,實現(xiàn)了分布式協(xié)同制導(dǎo)。此外,本文方法不再假設(shè)初始航向角誤差為小角度[7,10],因而具有更廣的應(yīng)用范圍。

        1 問題描述

        1.1 平面交戰(zhàn)幾何模型

        考慮如圖1所示的n發(fā)導(dǎo)彈和一個靜止目標(biāo)間的平面交戰(zhàn)幾何關(guān)系,圖1中:vmi為第i發(fā)導(dǎo)彈的速度;θi為彈道傾角;ri為第i為導(dǎo)彈和目標(biāo)的相對距離;λi為彈目視線角;σi為第i發(fā)導(dǎo)彈的航向角誤差;ami為導(dǎo)彈指令加速度。系統(tǒng)的非線性交戰(zhàn)動力學(xué)方程為

        圖1 多彈協(xié)同制導(dǎo)平面交戰(zhàn)幾何關(guān)系Fig.1 Planar engagement geometry

        (1)

        需要說明的是,這里假設(shè)各發(fā)導(dǎo)彈的速度大小為常值,導(dǎo)彈加速度的方向垂直于導(dǎo)彈速度。

        由于本文所研究的是氣動控制的導(dǎo)彈,也就是只有速度方向可被氣動力控制,而導(dǎo)彈的軸向速度是不可控的。因此,制導(dǎo)指令垂直于速度方向。另外,導(dǎo)彈末制導(dǎo)階段飛行距離和制導(dǎo)時間較短,目標(biāo)為靜止目標(biāo),可忽略導(dǎo)彈速度大小變化,因此導(dǎo)彈速度假設(shè)為常值。

        (2)

        (3)

        式中:Ni為比例導(dǎo)引常數(shù)。然而小角度假設(shè)不能夠接近實際,因此本文中考慮初始航向角誤差較大時,剩余飛行時間由(4)式估計,即

        (4)

        1.2 圖論

        隨著協(xié)同制導(dǎo)系統(tǒng)中導(dǎo)彈數(shù)量的增加,圖論成為描述導(dǎo)彈間信息交互關(guān)系的有力工具。考慮一個有n發(fā)導(dǎo)彈的協(xié)同制導(dǎo)系統(tǒng),系統(tǒng)拓?fù)淇梢员磉_為Gs=(Vs,Es,As),其中:Vs={1,2,…,n}為拓?fù)鋱D形中頂點的集合,代表每發(fā)導(dǎo)彈的位置;Es?Vs×Vs拓?fù)鋱D形中邊的集合;As=[aij]是拓?fù)鋱D形Gs的鄰接矩陣[24]。頂點i和頂點j的邊由(j,i)∈Es來表達,代表第i發(fā)導(dǎo)彈可以獲取第j發(fā)導(dǎo)彈的信息。鄰接矩陣As定義為:當(dāng)且僅當(dāng)(j,i)∈Es時,aij=1,如果(j,i)?Es則aij=0.此外,鄰居的集合定義為Ni={j∶(j,i)∈Es}.第i個頂點的自由度由di來表示,di為第i發(fā)導(dǎo)彈鄰居的個數(shù)。拓?fù)鋱D形Gs的自由度矩陣可以表達為Δ=diag{di},i∈[1,2,…,n].拓?fù)鋱D形Gs的拉普拉斯矩陣La定義為

        La=Δ-As,

        (5)

        La代表了多彈協(xié)同制導(dǎo)系統(tǒng)中導(dǎo)彈間的信息交互關(guān)系。

        根據(jù)文獻[25-27]:若多導(dǎo)彈協(xié)同制導(dǎo)拓?fù)涞幕A(chǔ)圖是固定且無向的,當(dāng)且僅當(dāng)拓?fù)鋱D連通時,多發(fā)導(dǎo)彈可實現(xiàn)到達時間的一致;若拓?fù)涞幕A(chǔ)圖為有向圖,當(dāng)且僅當(dāng)拓?fù)鋱D含有一個生成樹時,利用強化學(xué)習(xí)算法,多發(fā)導(dǎo)彈可實現(xiàn)到達時間的一致。

        1.3 擬解決的問題

        針對多導(dǎo)彈協(xié)同制導(dǎo)系統(tǒng), 需設(shè)計一個分布式協(xié)同制導(dǎo)方案,使多發(fā)導(dǎo)彈在不同初始條件下實現(xiàn)同時打擊目標(biāo)。根據(jù)(2)式,若各發(fā)導(dǎo)彈的剩余飛行時間達到一致,那么多發(fā)導(dǎo)彈即可實現(xiàn)對目標(biāo)的同時打擊。定義剩余飛行時間估計的一致性誤差為

        (6)

        即第i發(fā)導(dǎo)彈與其鄰居間估計剩余飛行時間的誤差。

        因此,需要設(shè)計一個協(xié)同制導(dǎo)律來實現(xiàn)下面3個目標(biāo):

        1) 所有導(dǎo)彈都要擊中目標(biāo),即脫靶量為0 m;

        2) 所有導(dǎo)彈剩余飛行時間估計的一致性誤差要變?yōu)? s,實現(xiàn)同時攻擊;

        3) 當(dāng)剩余飛行時間估計的一致性誤差為0 s時,各發(fā)導(dǎo)彈可利用簡單的制導(dǎo)律繼續(xù)飛行,當(dāng)有剩余飛行時間誤差時,繼續(xù)進行調(diào)整。

        由于傳統(tǒng)方法在設(shè)計制導(dǎo)律時需要仔細(xì)調(diào)整制導(dǎo)律中的各個參數(shù),來實現(xiàn)期望的性能。本文將嘗試應(yīng)用強化學(xué)習(xí)技術(shù)來設(shè)計制導(dǎo)律,無需關(guān)心制導(dǎo)律結(jié)構(gòu)及參數(shù)設(shè)計,實現(xiàn)智能協(xié)同制導(dǎo)。

        2 協(xié)同攻擊制導(dǎo)律設(shè)計

        2.1 協(xié)同制導(dǎo)律的結(jié)構(gòu)

        受文獻[25]的啟發(fā),協(xié)同制導(dǎo)律的結(jié)構(gòu)設(shè)計為

        (7)

        (8)

        2.2 基于強化學(xué)習(xí)的協(xié)同制導(dǎo)律

        如1.1節(jié)所述,剩余飛行時間的估計表達式為

        (9)

        其對時間的1階導(dǎo)數(shù)為

        (10)

        那么多彈協(xié)同制導(dǎo)系統(tǒng)剩余飛行時間一致性誤差對時間的導(dǎo)數(shù)可等效為如(11)式所示的非線性系統(tǒng):

        (11)

        (12)

        式中:q(x(t))為脫靶量和一致性誤差的函數(shù)。

        本文目標(biāo)就是尋找一個狀態(tài)反饋控制器u*=Φ(x),使得非線性系統(tǒng)式的性能指標(biāo)式達到最小化。求解該問題的一種常用方法就是將該最優(yōu)控制問題轉(zhuǎn)化為Hamilton-Jacobi-Bellman方程,即

        (13)

        式中:J*(x)為一個值函數(shù),其表達式為

        (14)

        若求解出Hamilton-Jacobi-Bellman方程,則最優(yōu)控制量的表達式為

        (15)

        然而,對于非線性系統(tǒng),得到Hamilton-Jacobi-Bellman方程的解析解是極其困難的,尤其是問題的維度比較高時[28-29]。隨著人工智能技術(shù)的發(fā)展,上述問題的性能指標(biāo)函數(shù)可采用策略梯度法進行優(yōu)化[30]。

        本文采用的是基于策略梯度下降的深度神經(jīng)網(wǎng)絡(luò)DDPG強化學(xué)習(xí)算法,該算法是一個不基于模型、在線、異步策略的強化學(xué)習(xí)方法。DDPG算法利用Actor-Critic神經(jīng)網(wǎng)絡(luò)來生成使長期回報最大化的最優(yōu)動作。Actor網(wǎng)絡(luò)基于當(dāng)前的觀測給出最佳動作,Critic網(wǎng)絡(luò)基于當(dāng)前的觀測和動作給出獎勵值估計。DDPG的觀測量可以為連續(xù)或離散的,而動作空間是連續(xù)的。Critic網(wǎng)絡(luò)并不需要評價所有動作來選出最佳動作,只關(guān)注當(dāng)前Actor網(wǎng)絡(luò)生成的動作。

        圖2 DDPG算法的結(jié)構(gòu)Fig.2 Structure of DDPG algorithm

        2.2.1 狀態(tài)空間設(shè)計

        為實現(xiàn)多發(fā)導(dǎo)彈的協(xié)同打擊,各發(fā)導(dǎo)彈的脫靶量要盡量小,且每發(fā)導(dǎo)彈的攻擊時間要一致。因此,強化學(xué)習(xí)算法的狀態(tài)空間設(shè)計為

        S=[r1…ri…rnξ1…ξi…ξn]T.

        (16)

        2.2.2 動作空間設(shè)計

        動作空間定義為制導(dǎo)律(7)式中的協(xié)同控制項,即

        (17)

        2.2.3 獎勵函數(shù)設(shè)計

        如1.3節(jié)所述,需要讓脫靶量和剩余飛行時間的誤差盡量小。當(dāng)脫靶量小于1 m時,獎勵值加10;且當(dāng)剩余飛行時間誤差小于0.02 s時,獎勵值加10.因此,獎勵函數(shù)設(shè)計為

        (18)

        2.2.4 行為策略設(shè)計

        如圖2所示,DDPG算法中包含了4個函數(shù)估計器,即:

        1) Actor網(wǎng)絡(luò)μ(S):輸入為觀測S,輸出為使長期回報最大化的動作。

        2) 目標(biāo)Actor網(wǎng)絡(luò)μ′(S′):為了提高優(yōu)化的穩(wěn)定性,算法基于最新的Actor網(wǎng)絡(luò)參數(shù)值周期性地更新目標(biāo)Actor網(wǎng)絡(luò)。

        3) Critic網(wǎng)絡(luò)Q(S,A):輸入為觀測S和動作A,輸出相應(yīng)的長期回報的期望。

        4) 目標(biāo)Critic網(wǎng)絡(luò)Q′(S′,A′):為了提高優(yōu)化的穩(wěn)定性,算法基于最新的Critic網(wǎng)絡(luò)參數(shù)值周期性地更新目標(biāo)Critic網(wǎng)絡(luò)。

        需要指出的是,μ(S)和μ′(S′)有相同的結(jié)構(gòu)和參數(shù),Q(S,A)和Q′(S,A)有相同的結(jié)構(gòu)和參數(shù)。當(dāng)訓(xùn)練結(jié)束時,訓(xùn)練好的最優(yōu)策略存儲于Actor網(wǎng)絡(luò)μ(S)中。

        DDPG算法的訓(xùn)練過程中會在每個步長都更新Actor網(wǎng)絡(luò)和Critic網(wǎng)絡(luò),具體算法如下:

        1) 用隨機參數(shù)θQ初始化Critic網(wǎng)絡(luò)Q(S,A),并用同樣的參數(shù)初始化目標(biāo)Critic網(wǎng)絡(luò)Q′(S′,A′), 即θQ=θQ′.

        2) 用隨機參數(shù)θμ初始化Actor網(wǎng)絡(luò)μ(S),并用同樣的參數(shù)初始化目標(biāo)Actor網(wǎng)絡(luò)μ′(S′),即θμ=θμ′.

        3) 對于訓(xùn)練中的每個步長:

        (1) 對于當(dāng)前的觀測S,選擇動作A=μ(S)+w,其中w為噪聲模型中的隨機噪聲。

        (2) 執(zhí)行動作A.觀測獎勵R及后續(xù)的觀測S′.

        (3) 在經(jīng)驗池中存儲經(jīng)驗(S,A,R,S′)。

        (4) 從經(jīng)驗池中隨機取出一小批M個經(jīng)驗(Sk,Ak,Rk,S′k),k=1,2,3,…,M.

        (5) 如果S′k是最終狀態(tài),則設(shè)置值函數(shù)目標(biāo)yi=Ri.否則,

        yi=Ri+γQ′(S′k,μ′(S′k|θμ)|θQ′)。

        (19)

        值函數(shù)目標(biāo)是經(jīng)驗獎勵Rk和折扣未來回報的和。為了計算累計獎勵,DDPG算法首先將后續(xù)的觀測S′k從經(jīng)驗池中傳到目標(biāo)Actor網(wǎng)絡(luò)來生成下一步的動作。然后算法將下一步的動作傳到目標(biāo)Critic網(wǎng)絡(luò)得出累計獎勵。

        (6) 通過使經(jīng)驗值損失L最小化更新Critic網(wǎng)絡(luò)參數(shù):

        (20)

        (7) 利用下面的采樣策略梯度使期望的折扣獎勵最大化來更新Actor網(wǎng)絡(luò)參數(shù):

        (21)

        (22)

        (23)

        式中:Gai為Critic網(wǎng)絡(luò)相對于Actor網(wǎng)絡(luò)輸出動作的梯度;Gμi為Actor網(wǎng)絡(luò)輸出動作相對于Actor網(wǎng)絡(luò)參數(shù)的梯度。本文中,采用隨機梯度下降法進行梯度更新。

        (8) 基于如下目標(biāo)網(wǎng)絡(luò)參數(shù)更新方法來更新Actor和Critic網(wǎng)絡(luò)參數(shù):

        ① 平滑:每個時間步長利用平滑因子τ來更新目標(biāo)網(wǎng)絡(luò)參數(shù),即:

        目標(biāo)Critic網(wǎng)絡(luò)參數(shù)更新

        θQ′=τθQ+(1-τ)θQ′;

        (24)

        目標(biāo)Actor網(wǎng)絡(luò)參數(shù)更新

        θμ′=τθμ+(1-τ)θμ′.

        (25)

        ② 周期性更新:不進行平滑處理時周期性地更新目標(biāo)參數(shù),即平滑因子τ=1.

        ③ 周期性平滑:周期性地更新目標(biāo)參數(shù),并進行平滑處理。

        Actor網(wǎng)絡(luò)和Critic網(wǎng)絡(luò)在完成訓(xùn)練后,實際在線使用時,輸入為彈目相對距離和剩余飛行時間估計的一致性誤差,輸出為2.1節(jié)(7)式中所涉及的協(xié)同控制項,從而實現(xiàn)多發(fā)導(dǎo)彈的協(xié)同制導(dǎo)。

        3 仿真實驗

        3.1 決策優(yōu)化

        考慮交戰(zhàn)場景中有2發(fā)不同初始條件的導(dǎo)彈和一個靜止目標(biāo),決策優(yōu)化過程中,交戰(zhàn)場景的初始條件設(shè)置如表1所示。

        如表1所示,導(dǎo)彈1和導(dǎo)彈2的初始位置和速度均不相同,目標(biāo)垂直位置坐標(biāo)隨機從1 000 m、1 500 m、2 000 m中隨機選取,這樣導(dǎo)彈初始的航向角誤差也會隨著變化,使DDPG算法不會僅僅學(xué)習(xí)一條彈道,能夠適應(yīng)更廣范圍的交戰(zhàn)初始條件。

        表1 決策優(yōu)化的初始條件Tab.1 Initial conditions for policy optimation

        DDPG算法訓(xùn)練過程中的Actor網(wǎng)絡(luò)和Critic網(wǎng)絡(luò)學(xué)習(xí)率分別設(shè)置為α1=0.000 1和α2=0.001,折算因子設(shè)置為γ=0.99.訓(xùn)練停止條件設(shè)置為訓(xùn)練次數(shù)達到915次。

        訓(xùn)練過程中每次仿真的獎勵值及最近5次仿真獎勵值的平均值如圖3所示。從圖3中可以看到,隨著訓(xùn)練的進行,獎勵值波動上升,訓(xùn)練500次后,獎勵值穩(wěn)定在500左右,勵值期望也在逐漸收斂。

        圖3 DDPG算法策略優(yōu)化訓(xùn)練過程Fig.3 Training progress of policy optimation of DDPG algorithm

        3.2 決策測試

        算法測試過程中目標(biāo)初始垂直坐標(biāo)取為1 000~1 500 m,以0.5 m為間隔,進行1 000次仿真,統(tǒng)計每次交戰(zhàn)的脫靶量及攻擊時間誤差,評價強化學(xué)習(xí)協(xié)同制導(dǎo)律的制導(dǎo)效果。

        以目標(biāo)垂直坐標(biāo)為1 500 m為例,比例導(dǎo)引系數(shù)N=4,PN制導(dǎo)律、傳統(tǒng)協(xié)同比例(CPN)制導(dǎo)律[7]、強化學(xué)習(xí)協(xié)同比例導(dǎo)引(RL-CPN)制導(dǎo)律的彈道如圖4所示。由圖4可見:PN制導(dǎo)律的彈道比較平滑,但是2發(fā)導(dǎo)彈的攻擊時間分別為5.26 s和5.36 s,有0.1 s的差別,即未實現(xiàn)同時攻擊;CPN制導(dǎo)律實現(xiàn)了2發(fā)導(dǎo)彈的同時攻擊,攻擊時間均為5.35 s,但彈道轉(zhuǎn)彎次數(shù)較多,說明導(dǎo)彈在交戰(zhàn)過程中不斷調(diào)整制導(dǎo)指令來對齊剩余飛行時間;RL-CPN制導(dǎo)律為了實現(xiàn)同時打擊,相應(yīng)的彈道在制導(dǎo)初期開始進行必要的機動來對齊剩余飛行時間,轉(zhuǎn)彎機動次數(shù)較少,最終2發(fā)導(dǎo)彈均在5.35 s實現(xiàn)了對目標(biāo)的同時攻擊。RL-CPN和CPN制導(dǎo)律的指令加速度如圖 5所示,可見在交戰(zhàn)結(jié)束時,制導(dǎo)指令并沒有飽和,因此導(dǎo)彈有能力精確命中目標(biāo)。但本文中獎勵函數(shù)未考慮燃料消耗,因此RL-CPN制導(dǎo)律的制導(dǎo)指令幅值較大,在后續(xù)工作中需要進一步探索燃料最優(yōu)的RL-CPN制導(dǎo)律。

        圖4 二維協(xié)同打擊的彈道對比Fig.4 Comparative trajectories of 2-D engagement

        圖5 RL-CPN和CPN制導(dǎo)律的導(dǎo)彈指令加速度Fig.5 Commands acceleration of CPN and RL-CPN

        1 000次仿真的統(tǒng)計結(jié)果如表2所示。從表2中可以看出:RL-CPN制導(dǎo)律的攻擊時間誤差平均值為0.001 s,而PN制導(dǎo)律的攻擊時間誤差為0.101 219 8 s,二者相差了兩個數(shù)量級;與CPN制導(dǎo)律相比,RL-CPN制導(dǎo)律的脫靶量和攻擊時間誤差也相對較小,也就是說,RL-CPN制導(dǎo)律的制導(dǎo)精度更高。

        表2 制導(dǎo)律性能的對比Tab.2 Comparation of guidance laws

        3.3 拓展交戰(zhàn)場景下的決策測試

        為了進一步驗證RL-CPN制導(dǎo)律的有效性,本文一些未在訓(xùn)練中使用的數(shù)據(jù)將用來進行測試。設(shè)置目標(biāo)垂直位置2 000~2 500 m,以0.5 m為間隔,進行1 000次仿真,統(tǒng)計每次交戰(zhàn)的脫靶量及攻擊時間誤差,評價RL-CPN制導(dǎo)律的制導(dǎo)效果。

        仿真結(jié)果如表3所示,從中可見RL-CPN制導(dǎo)律的脫靶量依然小于PN制導(dǎo)律和CPN制導(dǎo)律的脫靶量。此外,RL-CPN制導(dǎo)律的脫靶量標(biāo)準(zhǔn)差也比PN制導(dǎo)律和CPN制導(dǎo)律的小,說明RL-CPN制導(dǎo)律的性能更加穩(wěn)定。RL-CPN制導(dǎo)律的攻擊時間誤差為0.006 239 s,依然較PN制導(dǎo)律的小一個量級。盡管RL-CPN制導(dǎo)律的攻擊時間誤差在本仿真場景中略大于CPN制導(dǎo)律,但是其脫靶量僅為CPN制導(dǎo)律的約1/3,對于同時打擊而言更具有實戰(zhàn)意義。

        表3 拓展交戰(zhàn)場景進行制導(dǎo)律性能的對比Tab.3 Comparation of guidance laws in extended engagement scenarios

        圖6、圖7、圖8分別為對RL-CPN制導(dǎo)律、CPN制導(dǎo)律和PN制導(dǎo)律的脫靶量進行了直方圖統(tǒng)計。由圖6、圖7、圖8可以看出:RL-CPN制導(dǎo)律脫靶量集中在0~1 m;而PN制導(dǎo)律的分布則比較均勻,出現(xiàn)較大脫靶量的次數(shù)更多;CPN制導(dǎo)律的脫靶量在3.5~4.0 m區(qū)間出現(xiàn)的頻次則更多,這也說明了RL-CPN制導(dǎo)律的制導(dǎo)精度更高。這是因為本文所考慮的是非線性交戰(zhàn)動力學(xué)模型,剩余飛行時間的估計和制導(dǎo)律的設(shè)計不再基于文獻[7]所考慮小角度假設(shè)下的線性動力學(xué)模型。強化學(xué)習(xí)算法中的神經(jīng)網(wǎng)絡(luò)理論上可以擬合任何非線性函數(shù),因此本文制導(dǎo)律可獲得較高的制導(dǎo)精度。

        圖6 RL-CPN制導(dǎo)律的統(tǒng)計直方圖Fig.6 Miss distance histogram of RL-CPN

        圖7 CPN制導(dǎo)律的統(tǒng)計直方圖Fig.7 Miss distance histogram of CPN

        圖8 PN制導(dǎo)律的統(tǒng)計直方圖Fig.8 Miss distance histogram of PN

        另外,考慮目標(biāo)運動狀態(tài)的不確定性也是一項值得研究的工作。若考慮目標(biāo)機動的不確定性,強化學(xué)習(xí)算法在訓(xùn)練時就要給定一些目標(biāo)機動的場景,如目標(biāo)做常值機動、Bang-Bang機動、正弦機動等,隨機選取機動幅值的大小和頻率來構(gòu)造訓(xùn)練環(huán)境,算法收斂后,令目標(biāo)執(zhí)行一些訓(xùn)練未遇到的機動幅度大小和頻率,對算法進行測試。最后,結(jié)合仿真結(jié)果來評價考慮目標(biāo)機動的不確定性時強化學(xué)習(xí)協(xié)同制導(dǎo)律的效果。

        4 結(jié)論

        本文設(shè)計了一種基于強化學(xué)習(xí)算法的協(xié)同制導(dǎo)律,可以實現(xiàn)多發(fā)導(dǎo)彈對目標(biāo)的同時打擊。通過仿真實驗,得出主要結(jié)論如下:

        1) RL-CPN制導(dǎo)律實現(xiàn)了分布式協(xié)同,不再需要提前指定某攻擊時刻,而是各發(fā)導(dǎo)彈根據(jù)剩余飛行時間誤差這一協(xié)調(diào)變量生成制導(dǎo)指令,進而實現(xiàn)剩余飛行時間的一致性,達到同時打擊的目的。利用圖論理論,各發(fā)導(dǎo)彈不需要“彈群”的全局信息,只需與其鄰居進行通訊,降低了通訊負(fù)擔(dān)。

        2) RL-CPN制導(dǎo)律脫靶量較小,各發(fā)導(dǎo)彈之間的剩余飛行時間誤差較小,制導(dǎo)精度高,能夠適應(yīng)線下學(xué)習(xí)未訓(xùn)練的交戰(zhàn)場景。

        3) 基于強化學(xué)習(xí)算法設(shè)計制導(dǎo)律,極大簡化了制導(dǎo)律設(shè)計過程,無需考慮控制器的結(jié)構(gòu),也免去了控制器的調(diào)參過程,縮短了制導(dǎo)律的設(shè)計周期。

        4) 由于未考慮導(dǎo)彈的燃料消耗因素,RL-CPN制導(dǎo)律燃料消耗較大,在后續(xù)工作中可以進一步優(yōu)化。

        本文后續(xù)工作可進一步拓展智能協(xié)同制導(dǎo)的應(yīng)用場景,考慮導(dǎo)彈速度是時變的以及導(dǎo)彈軸向速度可控的情況,以提高多彈同時攻擊的制導(dǎo)精度。此外,可將本文方法擴展為三維協(xié)同制導(dǎo),除考慮燃料消耗最優(yōu)需求外,也可考慮攻擊角度約束及避障、避撞等約束,實現(xiàn)多發(fā)導(dǎo)彈在多約束條件下的智能協(xié)同制導(dǎo)。

        猜你喜歡
        設(shè)計
        二十四節(jié)氣在平面廣告設(shè)計中的應(yīng)用
        河北畫報(2020年8期)2020-10-27 02:54:06
        何為設(shè)計的守護之道?
        《豐收的喜悅展示設(shè)計》
        流行色(2020年1期)2020-04-28 11:16:38
        基于PWM的伺服控制系統(tǒng)設(shè)計
        電子制作(2019年19期)2019-11-23 08:41:36
        基于89C52的32只三色LED搖搖棒設(shè)計
        電子制作(2019年15期)2019-08-27 01:11:50
        基于ICL8038的波形發(fā)生器仿真設(shè)計
        電子制作(2019年7期)2019-04-25 13:18:16
        瞞天過?!律O(shè)計萌到家
        設(shè)計秀
        海峽姐妹(2017年7期)2017-07-31 19:08:17
        有種設(shè)計叫而專
        Coco薇(2017年5期)2017-06-05 08:53:16
        從平面設(shè)計到“設(shè)計健康”
        商周刊(2017年26期)2017-04-25 08:13:04
        中字亚洲国产精品一区二区| 日本国产成人国产在线播放| 久久香蕉国产线看观看精品yw| 国产一区二区不卡老阿姨| 97精品国产高清自在线看超| 久久久精品网站免费观看| 一区二区三区无码高清视频| 久久和欧洲码一码二码三码 | 无码国产精品一区二区免费网曝| 美女被插到高潮嗷嗷叫| 中文字幕一区二区精品视频| 在线 | 一区二区三区四区| 毛片网站视频| 日本看片一区二区三区| 亚洲av不卡一区男人天堂 | 中国女人a毛片免费全部播放| 青青草免费在线视频久草| 全黄性性激高免费视频| 中文字幕无线码中文字幕| 日日摸日日碰夜夜爽无码| 91精品国产91久久久无码95| 亚洲天堂av在线免费看| 精品人妻系列无码人妻漫画| 国产亚洲人成a在线v网站| 91成人午夜性a一级毛片| 国产精品美女主播在线| 国自产拍偷拍精品啪啪一区二区 | 久久婷婷免费综合色啪| 日本高清一区二区三区在线观看| 国产av无码专区亚洲av中文 | 东京热加勒比日韩精品| 久久96日本精品久久久| 性欧美老人牲交xxxxx视频| 国产精品美女久久久久久大全| 亚洲女同性恋激情网站| 97久人人做人人妻人人玩精品| 综合久久给合久久狠狠狠97色| 成年人视频在线播放视频| 久久人妻精品免费二区| 亚洲熟妇无码av在线播放| 亚洲最大中文字幕无码网站 |