亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種基于雙DQN的空戰(zhàn)干擾樣式選擇方法

        2021-11-30 04:30:40陳澤盛楊承志曹鵬宇邴雨晨
        電訊技術(shù) 2021年11期
        關(guān)鍵詞:空戰(zhàn)樣式雷達

        陳澤盛,楊承志,曹鵬宇,邴雨晨,納 賢

        (1.空軍航空大學(xué),長春 130022;2.中國人民解放軍95510部隊,貴陽 550031)

        0 引 言

        隨著機載火控雷達(Airborne Fire Control Radar,AFCR)技術(shù)體制的不斷發(fā)展,其工作狀態(tài)更加復(fù)雜,波形單元更靈活多變,抗干擾能力更強[1],傳統(tǒng)的基于人工加載的干擾樣式選擇方法[2]將失去用武之地。在加載干擾樣式正確的情況下干擾機可以產(chǎn)生干擾效果,一旦敵方采取抗干擾措施,我方缺乏先驗知識將無法選擇合適的干擾樣式,作戰(zhàn)效能會大打折扣。強化學(xué)習(xí)由于無需先驗知識,且其與環(huán)境交互的過程與雷達對抗相似,因此更適用于雷達干擾樣式選擇。

        Q-學(xué)習(xí)是強化學(xué)習(xí)中的一種高效的免模型算法。文獻[3]設(shè)計了基于Q-學(xué)習(xí)的認知雷達對抗過程,使雷達干擾系統(tǒng)通過自主學(xué)習(xí)實現(xiàn)高效干擾,但環(huán)境雷達的工作狀態(tài)較少。文獻[4]提出了智能雷達對抗(Intelligent Radar Countermeasure,IRC)方法,在工作模式數(shù)目未知的情況下通過Q-學(xué)習(xí)選擇最優(yōu)的干擾路徑。文獻[5]研究了對多功能雷達(Multifunctional Radar,MFR)的Q-學(xué)習(xí)認知干擾決策方法,對仿真中各參數(shù)對實驗的影響進行分析,對比了該方法與其他傳統(tǒng)方法的優(yōu)勢。但基于Q-學(xué)習(xí)的認知干擾決策方法在雷達任務(wù)較多的實戰(zhàn)條件下決策效率會明顯下降,因此文獻[6]使用深度Q神經(jīng)網(wǎng)絡(luò)(Deep Q Network,DQN)來應(yīng)對MFR任務(wù)較多的問題,但DQN算法存在計算Q值中“過估計”的問題[7]。為此,本文采用Double DQN算法,通過不同的網(wǎng)絡(luò)執(zhí)行動作的評估與選擇,對這兩個部分進行解耦來解決這一問題,對空戰(zhàn)中的干擾樣式選擇進行研究。仿真結(jié)果顯示了本文算法的有效性。

        1 干擾矩陣

        現(xiàn)代空戰(zhàn)已經(jīng)進入了超視距時代,AFCR已經(jīng)成為空戰(zhàn)中主要的作戰(zhàn)對象,發(fā)揮著不可替代的作用。AFCR要在不同的作戰(zhàn)環(huán)境中遂行多樣化的作戰(zhàn)任務(wù),因此在雷達系統(tǒng)設(shè)計上會設(shè)定多種工作模式,不同的工作模式對應(yīng)著不同的威脅等級。空戰(zhàn)中使用較多的是空-空模式下的雷達工作模式,因此本文以AFCR的空-空雷達工作模式為主開展干擾研究。

        在典型的空戰(zhàn)場景中,我方針對敵方的干擾實施流程如下:首先,我方通過偵察對敵AFCR的工作模式進行識別[8],之后通過干擾樣式選擇算法從干擾樣式集中選擇最優(yōu)干擾樣式對其進行干擾,使其工作模式不斷轉(zhuǎn)換,直至轉(zhuǎn)換為對應(yīng)的威脅等級最低的狀態(tài),達到預(yù)期干擾效果。

        根據(jù)雷達的工作模式及其轉(zhuǎn)換關(guān)系和干擾樣式集可以構(gòu)建出干擾矩陣,將干擾矩陣作為算法輸入進行干擾樣式選擇。

        1.1 典型空-空雷達工作模式

        空-空模式下AFCR的工作模式[9]主要包括搜索、跟蹤、格斗和識別等,每一類模式下又有多種子模式。

        1.1.1 搜索模式

        速度搜索(Velocity Search,VS)模式主要用于遠距高速接近目標(biāo)的早期預(yù)警,威脅等級低。

        邊搜索邊測距(Range While Search,RWS)模式可以在探測目標(biāo)的同時進行測距,從而快速獲取潛在目標(biāo)的位置信息。

        邊掃描邊跟蹤(Track While Scan,TWS)模式[10]主要用于對多個來襲目標(biāo)的探測和跟蹤。在檢測到目標(biāo)后火控計算機會建立跟蹤文件,再通過關(guān)聯(lián)算法來對目標(biāo)未來的參數(shù)進行估計。

        1.1.2 跟蹤模式

        態(tài)勢感知(Situation Awareness Mode,SAM)模式是RWS模式下的一個子模式,可以在單目標(biāo)跟蹤(Single Target Tracking,STT)的方式下同時保持對多個目標(biāo)的探測,威脅等級較高。

        高優(yōu)先級目標(biāo)(High Priority Target,HPT)模式是TWS模式的一個子模式,在TWS模式探測到的目標(biāo)中指定一個為HPT,威脅等級較高。

        單目標(biāo)跟蹤模式是AFCR具有最高威脅等級的模式。在選定HPT、SAM模式以及空戰(zhàn)格斗模式下的子模式均可進入STT模式。

        1.1.3 空戰(zhàn)格斗模式

        空戰(zhàn)格斗(Air Combat Mode,ACM)模式主要用于敵我近距離空戰(zhàn),具有三種子模式。

        機炮(Gun Acquire,GACQ)模式下,AFCR的平視顯示器(Heads Up Display,HUD)上會出現(xiàn)一個20°視角的虛線圓圈。垂直(Vertical Acquire,VACQ)模式下,HUD上會出現(xiàn)兩條距離5°視角的垂直虛線。這兩種模式如果探測到一個位于5 n mile內(nèi)的目標(biāo),將自動轉(zhuǎn)入STT模式。

        準(zhǔn)星(Boresight,BST)模式下,HUD上的水線位置會出現(xiàn)一個3.4 °視角的虛線圓圈,如果探測到目標(biāo)并位于10 n mile內(nèi),將自動轉(zhuǎn)入STT模式。

        1.1.4 識別模式

        非合作目標(biāo)識別(Non-cooperative Target Recognition,NCTR)模式[11]是載機通過AFCR利用非合作目標(biāo)自身的反射特性對其進行遠距識別與分類。

        1.2 干擾樣式集

        雷達干擾樣式多種多樣,每種干擾樣式的原理又不盡相同,且對于不同的雷達工作模式作用效果也有所差別。我方機載干擾設(shè)備在作戰(zhàn)前會進行干擾樣式的預(yù)加載,用于在作戰(zhàn)中的干擾樣式選擇。本文在干擾樣式集的建立上選擇了部分典型干擾樣式[12],包括相參和非相參干擾樣式共10種:0是密集假目標(biāo);1是窄帶噪聲調(diào)相;2是靈巧噪聲;3是相參梳狀譜;4是間歇采樣;5是距離-速度聯(lián)合拖引;6是多普勒噪聲;7是掃頻噪聲;8是全脈沖復(fù)制;9是移頻干擾。這些干擾樣式產(chǎn)生的干擾效果包括壓制、欺騙和壓制-欺騙聯(lián)合效果。

        1.3 干擾矩陣構(gòu)建

        干擾矩陣的構(gòu)建可以分為實時建立和非實時建立。實時建立是在作戰(zhàn)環(huán)境下,由機載偵察設(shè)備對敵方AFCR的工作狀態(tài)進行偵察與識別,根據(jù)我方做出干擾樣式選擇之后敵方AFCR的模式變化來獲取雷達的工作模式轉(zhuǎn)換關(guān)系,再結(jié)合我方的干擾樣式集建立干擾矩陣。這種方式幾乎沒有任何先驗知識,干擾樣式是否可以起到效果無法得知。非實時建立則是在非作戰(zhàn)環(huán)境下,依靠偵察設(shè)備在平時的戰(zhàn)略偵察,我方已對敵方AFCR的工作模式有一定了解,通過對偵察數(shù)據(jù)的情報分析,對其在一些干擾樣式作用下的工作模式轉(zhuǎn)換關(guān)系已有一定的先驗知識,再通過仿真手段對其他干擾樣式進行驗證、更新,得到一個較為完善的干擾矩陣。

        本文的干擾矩陣是在第二種方式下建立的,并且結(jié)合了部分先驗知識和開源資料。如表1所示,左側(cè)一欄為威脅等級從高到低排列的工作模式,右側(cè)則是各種干擾樣式作用下的工作模式轉(zhuǎn)換關(guān)系。

        表1 干擾矩陣表

        2 基于Double DQN的干擾樣式選擇算法

        2.1 DQN原理與Double DQN的改進

        2.1.1 DQN原理

        DQN算法[13]是一種從高維的輸入學(xué)習(xí)控制策略的深度強化學(xué)習(xí)算法。和Q-學(xué)習(xí)算法相比,DQN將Q表的迭代更新過程轉(zhuǎn)化為一個函數(shù)擬合問題,通過用函數(shù)來代替Q表產(chǎn)生Q值。

        在普通的Q-學(xué)習(xí)中,Q值更新公式如下:

        Q(s,a)←Q(s,a)+α(r+γQ(s′,a′)-Q(s,a))。

        (1)

        式中:s代表智能體(Agent)當(dāng)前狀態(tài),a′是Agent在下一個狀態(tài)s′下選擇的動作,r表示Agent到達下一個狀態(tài)得到的獎勵值,α∈[0,1]是Q值更新中的學(xué)習(xí)率,γ∈[0,1]是Q值更新中的折扣因子。Q(s,a)為Q現(xiàn)實值,r+γmaxa′Q(s′,a′)為Q估計值,通過對兩者之間的誤差學(xué)習(xí)來更新Q現(xiàn)實值。

        在DQN算法中使用神經(jīng)網(wǎng)絡(luò)來對Q值進行估計,相近的狀態(tài)得到相近的輸出動作。通過更新網(wǎng)絡(luò)參數(shù)θ來使Q函數(shù)逼近最優(yōu)Q值,如式(2)所示:

        Q(s,a;θi)≈Q(s,a)。

        (2)

        式中:θi是第i次迭代時的神經(jīng)網(wǎng)絡(luò)參數(shù)。

        (3)

        損失函數(shù)如下:

        (4)

        MainNet的參數(shù)是每次訓(xùn)練均在更新,每隔一定步數(shù)將網(wǎng)絡(luò)的參數(shù)值賦給TargetNet。在單步更新中TargetNet參數(shù)值不變,Q估計值也不變。

        2.1.2 Double DQN的改進

        DQN中計算Q估計值時的最大化操作會使得估計的值函數(shù)比值函數(shù)的真實值大,即會產(chǎn)生非均勻的“過估計”,影響最終決策。作為一種離線學(xué)習(xí)的算法,DQN每次學(xué)習(xí)時不是使用下一次交互的真實動作,而是使用當(dāng)前認為價值最大的動作來更新目標(biāo)值函數(shù),但是對于真實的策略來說在給定的狀態(tài)下并不是每次都選擇使得Q值最大的動作,所以目標(biāo)值直接選擇動作最大的Q值往往會導(dǎo)致目標(biāo)值要高于真實值。

        在Double DQN算法中動作的選擇和動作的評估分別用不同的值函數(shù)網(wǎng)絡(luò)來實現(xiàn):首先,動作的評估是根據(jù)MainNet得到下一狀態(tài)s′下的Q值最大的動作Q(s′,a′;θi);然后,將這個動作作為計算TargetQ值的動作,用TargetNet完成最優(yōu)動作的選擇工作。Double DQN中TargetQ的計算式如下:

        (5)

        將上式帶入損失函數(shù)計算公式,得

        Loss(θ)=E[(TargetQ-Q(s,a;θi))2]。

        (6)

        2.2 Double DQN干擾樣式選擇方法概述

        本文將Double DQN的原理應(yīng)用于干擾樣式選擇,其算法模型的流程如圖1所示,其中,s∈S表示敵方AFCR在某時刻的工作狀態(tài),S代表敵方AFCR的工作狀態(tài)集;a∈A表示干擾機在某時刻下選擇出的干擾樣式,A代表我方干擾樣式集。當(dāng)我方偵察設(shè)備通過雷達工作狀態(tài)識別得到s,將此狀態(tài)輸入到Double DQN網(wǎng)絡(luò)中,經(jīng)過神經(jīng)網(wǎng)絡(luò)擬合得到各個干擾樣式對應(yīng)的Q值,根據(jù)ε-greedy策略(該策略可以平衡探索與利用之間的關(guān)系來獲得累計最大回報)來選取出一種干擾樣式a,作用于敵方AFCR。根據(jù)敵方AFCR的工作狀態(tài)轉(zhuǎn)換,我方進行效果評估得到回報r∈。由于敵方AFCR與我方屬于非合作關(guān)系,我方可以根據(jù)遭受干擾后的雷達工作狀態(tài)的改變來確定干擾的有效性[14],通過對AFCR的威脅等級判定來給出相應(yīng)的回報值r。干擾機根據(jù)回報值來更新Q值,決定下一工作狀態(tài)s′所要采取的干擾樣式,然后將上述的四個變量存入四元組樣本〈s,a,r,s′〉中,多條樣本組成樣本池D。在樣本池D中隨機抽取一定批量(minibatch)的樣本對神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練,對網(wǎng)絡(luò)參數(shù)進行更新,然后再進行干擾樣式選擇,循環(huán)往復(fù),直至達到終止?fàn)顟B(tài)。

        圖1 算法流程圖

        算法的偽代碼如下:

        1 輸入:狀態(tài)空間S,動作空間A,折扣因子γ,學(xué)習(xí)率α,迭代次數(shù)M

        FORi=1:M

        2 初始化網(wǎng)絡(luò)參數(shù)

        FORs∈S

        3 輸入偵察到的敵方AFCR工作狀態(tài)s

        4 Double DQN計算Q值并依據(jù)ε-greedy策略給出干擾樣式a

        5 我方通過偵察得到AFCR下一工作狀態(tài) ,進行干擾評估得到獎勵值r

        6 將四元組 存入樣本池D,隨機抽取minibatch個樣本對網(wǎng)絡(luò)進行訓(xùn)練,更新網(wǎng)絡(luò)參數(shù)

        7s為終止?fàn)顟B(tài);

        END FOR

        8 達到最大迭代次數(shù)M

        END FOR

        由于不同的干擾樣式產(chǎn)生的干擾效果不同,壓制性干擾樣式會使敵方AFCR的工作狀態(tài)朝著威脅等級降低的方向轉(zhuǎn)變;欺騙性干擾樣式會產(chǎn)生欺騙性干擾效果,部分干擾樣式可能會使其工作狀態(tài)的威脅等級朝著升高的方向變化。因此,回報值定義如下:

        (7)

        式中:TL→min表示AFCR的工作狀態(tài)威脅等級將至最低;TL↓,ASJ表示采取壓制性干擾樣式,工作狀態(tài)向威脅等級降低的方向轉(zhuǎn)換;TL↑,ADJ表示采取部分欺騙性干擾樣式時工作狀態(tài)威脅等級向升高方向轉(zhuǎn)換;TL?/TL表示工作模式之間沒有轉(zhuǎn)換;TL↑表示AFCR工作狀態(tài)向威脅等級升高的方向轉(zhuǎn)換。

        3 仿真驗證

        本文仿真使用Tensorflow框架編寫。計算機配置如下:處理器采用Intel(R)Core(TM) i5-10200H;內(nèi)存為16 GB。

        本文用兩個全連接層來近似Q函數(shù)Q(s,a;θi)。網(wǎng)絡(luò)的細節(jié)如圖2所示,該網(wǎng)絡(luò)由兩個全連接層組成。

        圖2 值函數(shù)擬合神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

        算法的訓(xùn)練參數(shù)如表2所示。

        表2 參數(shù)設(shè)置

        在兩個網(wǎng)絡(luò)的參數(shù)替換前先觀察300步,然后每隔5步將MainNet的參數(shù)賦給TargetNet;初始化的ε-greedy策略中ε的初始概率值為0.1,終止概率值為0.9,即初始時有90%的概率隨機選擇干擾樣式,最終有90%的概率選擇最優(yōu)干擾樣式,每一次學(xué)習(xí)都會將ε的值增大0.001,增加到終止值時停止,這樣的設(shè)置可以在訓(xùn)練的過程中使網(wǎng)絡(luò)逐漸收斂;每次從樣本池的2 000個樣本中隨機抽取64個樣本用于網(wǎng)絡(luò)訓(xùn)練。

        圖3是Double DQN算法訓(xùn)練得到的損失圖。由于樣本量較少,在迭代中選擇隔5步交換一次網(wǎng)絡(luò)參數(shù)。在每隔5步交換網(wǎng)絡(luò)參數(shù)后,網(wǎng)絡(luò)訓(xùn)練損失值逐步下降,但由于初始時刻的ε探索值較低,隨機選擇干擾樣式會導(dǎo)致?lián)p失值產(chǎn)生波動,但隨著訓(xùn)練的進行,ε探索值逐漸變大,神經(jīng)網(wǎng)絡(luò)擬合的Q值越來越準(zhǔn)確,損失值在大約750步以后降至0附近,說明網(wǎng)絡(luò)訓(xùn)練完成。整個訓(xùn)練過程所花費的平均時間為11.7 s,但在實際應(yīng)用時,網(wǎng)絡(luò)訓(xùn)練完成之后即可進行干擾決策,所以在實際應(yīng)用中可以適當(dāng)減少迭代次數(shù),這樣可以提高決策效率,使決策時間控制在秒級,滿足實戰(zhàn)要求。

        圖3 網(wǎng)絡(luò)訓(xùn)練損失

        將訓(xùn)練中每次用于干擾樣式選擇的Q值記錄下來,如圖4所示,可以看到兩種算法的Q值變化趨勢一致,在迭代5 500步后收斂至495附近。但是Double DQN算法的Q值消除了一部分過估計,相比DQN算法的Q值較低,計算Q值的平均值可以得到前者比后者低34.01。這也驗證了Double DQN算法在解決Q值偏大和網(wǎng)絡(luò)訓(xùn)練的TargetQ值不準(zhǔn)確的問題上具有更良好的表現(xiàn)。

        圖4 Q值對比

        強化學(xué)習(xí)算法的最終目標(biāo)都是使總的目標(biāo)獎勵最大化,因此,把迭代過程中每次干擾樣式選擇產(chǎn)生的獎勵值相加得到總的獎勵值,對比20次重復(fù)實驗中DQN與Double DQN兩種算法得到的總獎勵值,如圖5所示。可以發(fā)現(xiàn),在絕大部分情況下Double DQN算法產(chǎn)生的總獎勵值要高于DQN算法,這說明在干擾樣式選擇中選擇最優(yōu)動作比次優(yōu)動作會獲得更高的獎勵值,從而驗證了本文方法的有效性。

        圖5 兩種算法的總獎勵值對比

        在參數(shù)選擇上,折扣因子γ是調(diào)節(jié)長期回報與即時回報的參數(shù),在仿真中我們更注重長期回報,因此將γ設(shè)置為0.9;而學(xué)習(xí)率α一般取值為0.1,但由于本文仿真迭代次數(shù)較多,而且α值過大會引起損失函數(shù)劇烈波動,所以經(jīng)過多次試驗將α值設(shè)為0.005;樣本池的容量沒有固定的設(shè)置,當(dāng)訓(xùn)練步數(shù)恒定為2 000步時分別設(shè)置樣本池容量為1 000和2 000,對比兩種設(shè)置上的損失值情況,如圖6所示,可見樣本池容量設(shè)為2 000時損失值明顯高于容量為1 000時的。因此,在訓(xùn)練步數(shù)為2 000步時選擇樣本池容量為1 000。

        圖6 樣本池容量對比

        根據(jù)仿真結(jié)果可以得到如圖7所示的最優(yōu)干擾樣式選擇路徑,圖中以數(shù)字代表具體的干擾樣式,根據(jù)空戰(zhàn)的態(tài)勢和AFCR雷達的工作模式分為近距和遠距兩類,分別如圖7(a)和圖7(b)所示。在不同的干擾樣式的作用下,AFCR的威脅等級由高到低逐漸下降;部分干擾樣式在不同的態(tài)勢和工作模式下產(chǎn)生的干擾效果也不盡相同。

        圖7 最優(yōu)干擾樣式選擇路徑圖

        4 結(jié)束語

        隨著機載火控雷達技術(shù)體制的不斷進步,現(xiàn)代空戰(zhàn)中敵我雙方的電子戰(zhàn)博弈也愈演愈烈。針對空戰(zhàn)場景中機載火控雷達與干擾機之間的對抗,本文提出了一種基于Double DQN干擾樣式選擇方法,在建立干擾矩陣的基礎(chǔ)上通過Double DQN算法選擇最優(yōu)干擾樣式,仿真實驗分析了參數(shù)設(shè)置,對比DQN證明了其在解決“過估計”問題上的有效性,給出了不同態(tài)勢下的最優(yōu)干擾樣式選擇路徑。本文方法也可以為機載自衛(wèi)吊艙的干擾樣式選擇提供參考??紤]到目前先進戰(zhàn)機均為多用途戰(zhàn)機,還可以執(zhí)行對地、對海突擊任務(wù),因此下一步研究中還需對AFCR更多作戰(zhàn)模式下的干擾樣式選擇問題進行探索。

        猜你喜歡
        空戰(zhàn)樣式雷達
        有雷達
        大自然探索(2023年7期)2023-08-15 00:48:21
        CPMF-I 取樣式多相流分離計量裝置
        最強空戰(zhàn)王
        CPMF-I 取樣式多相流分離計量裝置
        取樣式多相流分離計量裝置
        雷達
        空戰(zhàn)之城
        基于空時二維隨機輻射場的彈載雷達前視成像
        “85:0”的敘以空戰(zhàn)
        現(xiàn)代“千里眼”——雷達
        91九色播放在线观看| 国产精品流白浆喷水| 无遮挡粉嫩小泬| 国产一区二区三区亚洲| 风流老太婆大bbwbbwhd视频| 韩国精品一区二区三区无码视频 | 性无码专区无码| 玖玖资源站无码专区| 亚洲精品亚洲人成在线播放| 蜜桃av区一区二区三| 一本久道高清视频在线观看| 亚洲av永久无码精品网址| 亚洲精品中文字幕无乱码麻豆| 第九色区Aⅴ天堂| 亚洲av成人波多野一区二区| 天天躁日日躁狠狠躁av麻豆| 性xxxx视频播放免费| 无码国产精品色午夜| 成人爽a毛片在线播放| 特黄大片又粗又大又暴| 1000部精品久久久久久久久 | 台湾自拍偷区亚洲综合| 大香焦av一区二区三区| 日日碰狠狠添天天爽五月婷| 国产欧美日韩在线观看| 亚洲欧美变态另类综合| 熟女免费视频一区二区| 成品人视频ww入口| 欧美巨大巨粗黑人性aaaaaa| 亚洲AV一二三四区四色婷婷| 免费人成网站在线播放| 脱了老师内裤猛烈进入| 男女野外做爰电影免费| 在线国产视频精品视频| 自拍偷拍韩国三级视频| 亚洲国产精品久久电影欧美 | 国内色精品视频在线网址| 国产变态av一区二区三区调教 | 无码人妻av免费一区二区三区| 亚洲爆乳无码专区| 欧美熟妇与小伙性欧美交|