亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合多屬性決策和深度Q值網(wǎng)絡(luò)的反導(dǎo)火力分配方法

        2022-11-29 10:59:36謝俊偉彭冬亮任金磊王昌平
        電子與信息學(xué)報(bào) 2022年11期
        關(guān)鍵詞:分配方法

        謝俊偉 方 峰* 彭冬亮 任金磊 王昌平

        ①(杭州電子科技大學(xué)自動(dòng)化學(xué)院 杭州 310018)

        ②(中國運(yùn)載火箭技術(shù)研究院 北京 100076)

        1 引言

        為了應(yīng)對(duì)彈道導(dǎo)彈和高超聲速飛行器等目標(biāo)的威脅,各國相繼發(fā)展了由預(yù)警探測系統(tǒng)、導(dǎo)彈攔截系統(tǒng)、指揮控制作戰(zhàn)管理系統(tǒng)組成的全球一體化反導(dǎo)防御體系。武器-目標(biāo)分配(Weapon-Target Assignment, WTA)是導(dǎo)彈防御系統(tǒng)中的核心決策內(nèi)容,決策人員根據(jù)來襲導(dǎo)彈目標(biāo)的威脅程度和防御系統(tǒng)的攔截彈資源配置情況,按照特定的火力打擊策略,生成火力分配方案,最大限度上發(fā)揮防御系統(tǒng)的作戰(zhàn)性能[1]。

        WTA問題可以分解為WTA模型構(gòu)建和WTA優(yōu)化方法兩部分。由于攔截空域會(huì)出現(xiàn)多個(gè)來襲目標(biāo),因此在建立WTA模型時(shí),首先需要評(píng)估來襲目標(biāo)的威脅程度,確定攔截優(yōu)先級(jí),并基于此設(shè)計(jì)多約束條件下的火力分配準(zhǔn)則函數(shù)。目前,已有的威脅評(píng)估方法主要包括層次分析(Analytic Hierarchy Process, AHP)方法[2]、優(yōu)劣解距離(Technique for Order Preference by Similarity to an Ideal Solution, TOPSIS)方法[3]、貝葉斯網(wǎng)絡(luò)方法[4]、粗糙集方法[5]等。其中,AHP方法在構(gòu)建指標(biāo)權(quán)重判別矩陣時(shí)較為依賴主觀經(jīng)驗(yàn);TOPSIS方法的指標(biāo)信息熵計(jì)算對(duì)數(shù)據(jù)噪聲較為敏感,從而影響評(píng)估準(zhǔn)確性;貝葉斯網(wǎng)絡(luò)模型結(jié)構(gòu)的確定缺乏客觀設(shè)計(jì)標(biāo)準(zhǔn);基于粗糙集理論的方法當(dāng)歷史數(shù)據(jù)集規(guī)模較小時(shí),存在評(píng)估規(guī)則難以準(zhǔn)確提取的問題。由此,本文針對(duì)AHP方法計(jì)算指標(biāo)權(quán)重較為主觀的問題,引入了表征目標(biāo)特性信息的熵值法來增加準(zhǔn)則層指標(biāo)權(quán)重確定的客觀性,從而提升目標(biāo)威脅評(píng)估的準(zhǔn)確性。改進(jìn)的AHP方法計(jì)算量小,實(shí)時(shí)性好,便于工程上實(shí)現(xiàn)。

        WTA優(yōu)化方法是指在WTA模型基礎(chǔ)上建立快速高效的優(yōu)化搜索算法,給出最優(yōu)或者次優(yōu)的火力分配方案。WTA優(yōu)化問題實(shí)質(zhì)上是一類整數(shù)型非線性組合優(yōu)化問題,屬于NP完全(NP-Complete)問題[6]。目前,已有的WTA優(yōu)化方法包括分支定界法[7]、動(dòng)態(tài)規(guī)劃[8]、遺傳算法[9]和粒子群算法[10]等,但是,上述方法在面對(duì)中大規(guī)模WTA問題時(shí)求解效率較低。分支定界和動(dòng)態(tài)規(guī)劃存在搜索空間維數(shù)爆炸問題,啟發(fā)式算法搜索速度慢且容易陷入局部最優(yōu)。基于強(qiáng)化學(xué)習(xí)的決策方法可避免以上問題,近年來已被廣泛應(yīng)用在棋類博弈[11]、機(jī)器人路徑規(guī)劃[12]及自主空戰(zhàn)決策[13]等場景中。本文將強(qiáng)化學(xué)習(xí)方法引入到火力分配問題中,把WTA問題轉(zhuǎn)化為一個(gè)多步?jīng)Q策問題。文獻(xiàn)[14]采用強(qiáng)化學(xué)習(xí)算法解決反艦導(dǎo)彈火力分配問題,但僅將單步?jīng)Q策帶來的毀傷概率增量作為獎(jiǎng)勵(lì)函數(shù),火力分配決策的全局最優(yōu)性很難保證,求解方案不夠理想。另外,文獻(xiàn)[14]的狀態(tài)向量和動(dòng)作向量設(shè)計(jì)不夠靈活,使得訓(xùn)練所得的智能體難以應(yīng)對(duì)場景參數(shù)變化的情況。本文在深度Q網(wǎng)絡(luò)(Deep Q-Network, DQN)框架下建立了高效的火力分配方法:基于最大毀傷概率準(zhǔn)則設(shè)計(jì)了兼顧快速收斂和全局收益的獎(jiǎng)勵(lì)函數(shù),構(gòu)建了火力單元狀態(tài)集、目標(biāo)庫和經(jīng)驗(yàn)池,并引入了公平采樣策略,確保等概率學(xué)習(xí)各目標(biāo)分配經(jīng)驗(yàn)。大量仿真結(jié)果表明,本文所提改進(jìn)AHP方法通過目標(biāo)屬性值分布差異可以更加客觀地評(píng)估目標(biāo)威脅度,DQN火力分配方法則可以根據(jù)目標(biāo)導(dǎo)彈的威脅度和攔截彈的毀傷能力,快速求解中大規(guī)模WTA問題的攔截彈-目標(biāo)分配方案,實(shí)現(xiàn)最大概率毀傷來襲目標(biāo)群;同時(shí),本文訓(xùn)練得到的DQN智能火力分配模型對(duì)包括目標(biāo)-火力單元類型和數(shù)量、攔截彈毀傷概率等WTA場景參數(shù)變化具有一定的魯棒性。

        2 WTA問題描述

        本文分別圍繞目標(biāo)威脅評(píng)估和WTA優(yōu)化這兩部分開展WTA問題研究。目標(biāo)威脅評(píng)估指的是導(dǎo)彈防御系統(tǒng)對(duì)來襲目標(biāo)進(jìn)行預(yù)警探測、識(shí)別與跟蹤,確定來襲目標(biāo)的數(shù)量、種類以及相應(yīng)的運(yùn)動(dòng)狀態(tài)信息,并應(yīng)用上述目標(biāo)信息評(píng)估目標(biāo)威脅度。其中,需要提取能反映目標(biāo)特性差異的關(guān)鍵因素作為威脅度評(píng)估指標(biāo)集,由此計(jì)算來襲目標(biāo)的威脅度。對(duì)于導(dǎo)彈防御系統(tǒng)而言,不同目標(biāo)的威脅度會(huì)引起攔截優(yōu)先級(jí)的差異,且是WTA模型的關(guān)鍵參數(shù),對(duì)于后續(xù)火力分配決策起著決定性的作用。

        其中,vj為由威脅評(píng)估方法得到的目標(biāo)威脅值,pij為第i個(gè)火力單元對(duì)j個(gè)目標(biāo)的毀傷概率,不等式約束則分別表示每個(gè)火力單元最多只能分配1個(gè)目標(biāo),每個(gè)目標(biāo)可以分配多個(gè)火力單元。等影響力由上級(jí)指揮專家打分給出,對(duì)應(yīng)的威脅度值可以量化為

        3 目標(biāo)威脅評(píng)估

        3.1 威脅評(píng)估因素定量分析

        本文考慮4類典型目標(biāo),分別為近、中、遠(yuǎn)程彈道導(dǎo)彈和高超聲速飛行器,導(dǎo)彈防御系統(tǒng)則考慮低、中和高層3類典型攔截彈,如分別由美國的愛國者攔截彈(Patriot Advanced Capability-3, PAC-3)、?;鶖r截彈(Standard Missile, SM-3)和陸基攔截彈(Ground-Based Interceptor, GBI)構(gòu)成的低中高層導(dǎo)彈防御系統(tǒng)。根據(jù)彈道導(dǎo)彈和高超聲速飛行器等目標(biāo)的運(yùn)動(dòng)特性和固有屬性,構(gòu)造如下威脅評(píng)估指標(biāo):來襲目標(biāo)攻擊區(qū)域重要程度、目標(biāo)剩余飛行時(shí)間、目標(biāo)最大飛行高度、目標(biāo)關(guān)機(jī)點(diǎn)速度和雷達(dá)反射面積(Radar Cross-Section, RCS)。其中,目標(biāo)打擊區(qū)域重要程度根據(jù)該區(qū)域的軍事、政治、經(jīng)濟(jì)其中,Ij為整數(shù),代表第j個(gè)目標(biāo)攻擊區(qū)域的重要程度。目標(biāo)剩余飛行時(shí)間越小,留給防御系統(tǒng)的反應(yīng)時(shí)間越短,對(duì)應(yīng)的威脅度越大。本文涉及的彈道導(dǎo)彈和高超聲速飛行器的最大飛行高度區(qū)間差別較大,分別為200~1400 km和20~80 km(臨近空間),在相應(yīng)的高度范圍內(nèi),最大飛行高度越大則威脅程度越大。目標(biāo)的關(guān)機(jī)點(diǎn)速度決定了目標(biāo)的再入速度和攻擊威力,關(guān)機(jī)點(diǎn)速度越大,則攔截窗口時(shí)間越短,較難攔截,目標(biāo)的威脅程度也越大。目標(biāo)的雷達(dá)反射面積越小,防御系統(tǒng)也越難跟蹤,其威脅程度越大。結(jié)合上述分析,可分別建立各威脅指標(biāo)對(duì)應(yīng)的分段量化函數(shù),以最大高度為例,其威脅指標(biāo)量化函數(shù)可以描述為

        綜上,根據(jù)威脅指標(biāo)量化函數(shù),可以得到各來襲導(dǎo)彈目標(biāo)的威脅因子評(píng)估向量。

        3.2 基于熵值法的改進(jìn)AHP

        AHP將復(fù)雜的評(píng)估系統(tǒng)模型層次化,通過逐層比較各種評(píng)估因素的重要性進(jìn)行評(píng)估分析[2]。在導(dǎo)彈威脅評(píng)估問題中,目標(biāo)層為目標(biāo)威脅評(píng)估值,準(zhǔn)則層為威脅評(píng)估因素,方案層為待評(píng)估的目標(biāo)彈。本文在準(zhǔn)則層中引入熵值法,通過評(píng)估目標(biāo)(來襲導(dǎo)彈)的指標(biāo)屬性信息熵來修正準(zhǔn)則層指標(biāo)權(quán)重的計(jì)算,提升指標(biāo)權(quán)重判定的客觀性。引入熵值法的改進(jìn)AHP方法整體框架如圖1所示,具體執(zhí)行步驟如下:

        圖1 改進(jìn)AHP法框架示意圖

        步驟1 應(yīng)用AHP方法計(jì)算準(zhǔn)則層的指標(biāo)權(quán)重。根據(jù)專家意見采用1~9標(biāo)度法構(gòu)建準(zhǔn)則層(各威脅評(píng)估因素)的判別矩陣A,則AHP方法下的指標(biāo)權(quán)重向量wAHP可計(jì)算為

        其中,λmax為判別矩陣A的最大特征值,wmax為對(duì)應(yīng)的特征向量,wmax,j為特征向量wmax中的第j個(gè)元素,wjAHP為權(quán)重向量中的第j個(gè)元素。

        步驟2 應(yīng)用熵值法計(jì)算準(zhǔn)則層的指標(biāo)權(quán)重。熵值法認(rèn)為若某個(gè)指標(biāo)下各目標(biāo)屬性值的分布較為接近,則該指標(biāo)對(duì)于目標(biāo)威脅評(píng)估的價(jià)值較低,其對(duì)應(yīng)的指標(biāo)權(quán)重較小;反之,若各目標(biāo)屬性值分布較為離散,則該指標(biāo)對(duì)威脅評(píng)估的價(jià)值較高,其對(duì)應(yīng)的指標(biāo)權(quán)重也更大[15]。基于熵值法的指標(biāo)權(quán)重計(jì)算過程如下:

        首先,將根據(jù)3.1節(jié)計(jì)算得到的各目標(biāo)威脅因素量化值進(jìn)行歸一化為

        其中,ωij為第i個(gè)目標(biāo)對(duì)于第j個(gè)威脅指標(biāo)因素的量化值,zij為歸一化的指標(biāo)屬性值。

        其次,應(yīng)用歸一化的指標(biāo)屬性值信息,各指標(biāo)的信息熵為

        其中,ej為第j個(gè)指標(biāo)的信息熵。

        最后,各評(píng)估指標(biāo)在信息熵語義下的指標(biāo)權(quán)重可以計(jì)算為

        步驟3 利用熵值法計(jì)算得到的指標(biāo)權(quán)重對(duì)AHP準(zhǔn)則層中指標(biāo)權(quán)重進(jìn)行修正

        其中,wj為準(zhǔn)則層中第j個(gè)指標(biāo)的最終權(quán)重。

        步驟4 計(jì)算方案層中各目標(biāo)相對(duì)于準(zhǔn)則層的指標(biāo)權(quán)重。利用目標(biāo)威脅因子向量構(gòu)造方案層相對(duì)于準(zhǔn)則層的重要性判別矩陣。令方案層各來襲目標(biāo)導(dǎo)彈相對(duì)于準(zhǔn)則層中第j個(gè)威脅評(píng)估指標(biāo)的判別矩陣為,該判別矩陣元素計(jì)算為

        步驟5 計(jì)算目標(biāo)的綜合威脅度。結(jié)合準(zhǔn)則層各指標(biāo)修正后的權(quán)重和方案層各目標(biāo)相對(duì)于準(zhǔn)則層指標(biāo)的層次排序結(jié)果,各目標(biāo)的綜合威脅度計(jì)算式為

        其中,vi為第i個(gè)目標(biāo)的綜合威脅度。

        4 基于DQN的WTA決策方法

        基于DQN的WTA決策模型整體架構(gòu)如圖2所示,將火力分配過程看作一個(gè)多段決策過程,單步?jīng)Q策通過優(yōu)化決策獎(jiǎng)勵(lì)值,實(shí)現(xiàn)對(duì)單個(gè)攔截彈的目標(biāo)分配,通過依次對(duì)攔截彈進(jìn)行分配決策,從而完成整個(gè)WTA過程。當(dāng)完成一輪火力分配后,計(jì)算全局決策收益,并更新到臨時(shí)記憶庫中。DQN根據(jù)“均勻采樣”策略利用臨時(shí)記憶庫中的分配經(jīng)驗(yàn)(狀態(tài)轉(zhuǎn)移4元組)進(jìn)行訓(xùn)練,不斷完善Q網(wǎng)絡(luò),從而達(dá)到基于DQN的火力分配智能體可快速高效求解中大規(guī)模WTA問題的目的。

        圖2 基于DQN的WTA決策模型

        4.1 狀態(tài)轉(zhuǎn)移4元組設(shè)計(jì)

        根據(jù)WTA問題特點(diǎn),以火力單元數(shù)量的編號(hào)順序作為決策時(shí)序,第i步?jīng)Q策表示對(duì)第i個(gè)攔截彈進(jìn)行目標(biāo)分配,即確定xij=1時(shí)j的取值。定義第i步?jīng)Q策的狀態(tài)轉(zhuǎn)移4元組為si,ai,ri,ai+1>,其中si為火力單元當(dāng)前狀態(tài)向量,包含第i步?jīng)Q策時(shí)的火力單元剩余量和當(dāng)前火力單元的類型;ai為當(dāng)前動(dòng)作向量,表示將第i個(gè)攔截彈分配給指定的目標(biāo),包含第i步?jīng)Q策時(shí)選擇的被分配目標(biāo)編號(hào)和類型,及該目標(biāo)已被分配的攔截彈數(shù)量;ri為獎(jiǎng)勵(lì)函數(shù),即采取相應(yīng)動(dòng)作所產(chǎn)生的獎(jiǎng)勵(lì);si+1為基于當(dāng)前決策的下一步火力單元狀態(tài)向量,即第i+1步?jīng)Q策時(shí)的火力單元剩余量和火力單元類型。

        4.1.1 狀態(tài)向量si定義

        根據(jù)藍(lán)方反導(dǎo)攔截系統(tǒng)的攔截彈資源配置和部署情況,構(gòu)造合適的狀態(tài)向量si。由于不同類型的攔截火力單元對(duì)同一目標(biāo)的毀傷概率存在差異,例如,美國的GBI和SM-3適用于攔截中高層目標(biāo),而PAC-3則擅長攔截低空大氣層內(nèi)的目標(biāo)。因此,狀態(tài)向量需包含火力單元的類型信息,同時(shí)也需要包含火力資源的剩余情況。由此,定義第i個(gè)火力單元分配時(shí)的狀態(tài)為

        其中,mcost為已分配的攔截彈數(shù)量;(i=1,2,···,l)為第i類攔截彈已分配的數(shù)量;mi_type為該攔截彈的類型獨(dú)熱編碼。類似地,當(dāng)執(zhí)行完第i個(gè)火力單元分配后,更新狀態(tài)信息,可得第i+1步?jīng)Q策時(shí)的狀態(tài)量si+1。值得注意的是,當(dāng)i=m時(shí),不存在si+1。

        4.1.2 動(dòng)作向量ai定義

        在對(duì)攔截彈進(jìn)行目標(biāo)分配時(shí),需要考慮目標(biāo)的威脅度。目標(biāo)威脅度越高,對(duì)應(yīng)的打擊優(yōu)先級(jí)越高。當(dāng)一個(gè)目標(biāo)已被多個(gè)火力單元分配時(shí),該目標(biāo)的毀傷概率可以得到較好的保障,此時(shí)考慮給其分配火力單元的優(yōu)先級(jí)隨之下降。因此,在設(shè)計(jì)DQN的動(dòng)作向量時(shí),需要綜合考慮目標(biāo)威脅度、目標(biāo)彈已被分配的情況。此外,由于同一攔截彈對(duì)不同類型的目標(biāo)的毀傷概率各不相同,動(dòng)作向量還需包括目標(biāo)的類型信息。因此,假設(shè)第i步?jīng)Q策時(shí),將攔截彈分配給第j個(gè)目標(biāo),可定義ai動(dòng)作向量的一個(gè)決策動(dòng)作aij為

        4.1.3 獎(jiǎng)勵(lì)函數(shù)ri定義

        其中,Ji為第i步?jīng)Q策完成后的對(duì)敵方目標(biāo)的整體毀傷概率,計(jì)算公式如式(1)所示。

        若DQN只學(xué)習(xí)到上述單步?jīng)Q策獎(jiǎng)勵(lì)會(huì)導(dǎo)致DQN決策時(shí)出現(xiàn)“短視”現(xiàn)象,具體可描述為:在一輪火力分配的初期,DQN為了最大化單步?jīng)Q策獎(jiǎng)勵(lì),會(huì)做出不利于最大毀傷概率的目標(biāo)分配選擇。假設(shè)有兩個(gè)威脅度相同的目標(biāo),分別為目標(biāo)1和目標(biāo)2,攔截彈1和攔截彈2對(duì)目標(biāo)1,2的毀傷概率分別為[0.86, 0.84]和[0.84, 0.75]。在基于DQN的WTA分段決策中,單步獎(jiǎng)勵(lì)最大化下的決策是將攔截彈1分配給目標(biāo)1,攔截彈2分配給目標(biāo)2,但按照最大化整體毀傷概率準(zhǔn)則的分配結(jié)果是將攔截彈1分配給目標(biāo)2,攔截彈2分配給目標(biāo)1。造成這種沖突現(xiàn)象的原因在于DQN做當(dāng)前決策時(shí)僅注重了單步?jīng)Q策獎(jiǎng)勵(lì),忽視了全局收益,即并未考慮單步?jīng)Q策對(duì)后續(xù)攔截彈的分配決策帶來的影響。由此,造成了本文所謂的“短視現(xiàn)象”。

        為了改善上述這種現(xiàn)象,考慮單步?jīng)Q策對(duì)后續(xù)決策的影響,將代表一輪分配完成后的目標(biāo)最終整體毀傷概率引入到單步?jīng)Q策的獎(jiǎng)勵(lì)函數(shù)中,兼顧火力分配的單步?jīng)Q策收益和全局收益,由此修正第i步?jīng)Q策的獎(jiǎng)勵(lì)函數(shù)為

        其中,αi為 權(quán)重系數(shù),rg=J(xij)為目標(biāo)整體毀傷概率。此外,將上式與僅考慮全局收益的獎(jiǎng)勵(lì)函數(shù)相比,可知由于引入了單步?jīng)Q策增益獎(jiǎng)勵(lì),可以在一定程度上引導(dǎo)決策空間的探索,表現(xiàn)在能夠使得搜索沿著在單步增益較大的空間內(nèi)開展,提高搜索效率。因此,式(14)綜合考慮單步和全局收益的獎(jiǎng)勵(lì)函數(shù)能夠使得DQN兼顧優(yōu)化解的全局性和搜索的快速性。

        在火力分配初始階段更容易發(fā)生“短視現(xiàn)象”,需要更加重視全局收益的影響,因此關(guān)于全局收益的權(quán)重系數(shù)需要設(shè)置的較大。當(dāng)火力分配進(jìn)入后期階段時(shí),由于大部分?jǐn)r截彈已分配完成,最大化單步?jīng)Q策獎(jiǎng)勵(lì)下的決策逐步與最大化整體毀傷概率下的決策趨于一致,此時(shí)關(guān)于全局收益的權(quán)重系數(shù)可以適當(dāng)減小,從而引導(dǎo)DQN進(jìn)行快速探索。綜上分析,本文采用動(dòng)態(tài)權(quán)重的方法來實(shí)現(xiàn)上述目的,變權(quán)重系數(shù)的表達(dá)式為

        4.2 “均勻采樣”策略與經(jīng)驗(yàn)存儲(chǔ)

        在完成所有火力單元的目標(biāo)分配后,可通過火力分配決策矩陣按式(1)計(jì)算該輪火力分配的整體毀傷概率,并將其更新到該輪的各狀態(tài)轉(zhuǎn)移4元組中。由于不同類型的目標(biāo)數(shù)量相差較大,導(dǎo)致對(duì)應(yīng)各類目標(biāo)的分配經(jīng)驗(yàn)數(shù)量之間存在差異。若直接使用隨機(jī)采樣策略抽取樣本進(jìn)行訓(xùn)練,則會(huì)導(dǎo)致低數(shù)量類型的目標(biāo)被抽取的概率較低,從而對(duì)該類目標(biāo)的分配訓(xùn)練效果不佳。由此,本文采用根據(jù)目標(biāo)類型進(jìn)行抽取的“均勻采樣”策略,將一輪火力分配完成后產(chǎn)生的分配經(jīng)驗(yàn)按照目標(biāo)類型分別進(jìn)行存儲(chǔ),訓(xùn)練時(shí)從各類型目標(biāo)對(duì)應(yīng)的子經(jīng)驗(yàn)池中等量隨機(jī)抽取一批經(jīng)驗(yàn),保證DQN能夠等頻率地學(xué)習(xí)到各類目標(biāo)下的分配經(jīng)驗(yàn)。

        4.3 Q值迭代

        對(duì)所有的m個(gè)攔截彈完成目標(biāo)分配即完成了一輪的火力分配任務(wù),因此定義本文火力分配場景中Q函數(shù)的最優(yōu)貝爾曼方程為

        其中,rk為第k步分配決策的獎(jiǎng)勵(lì)。

        由式(16)可得Q函數(shù)的更新規(guī)則為

        其中,α為學(xué)習(xí)率,0α<1。

        為使DQN訓(xùn)練更加穩(wěn)定,構(gòu)造目標(biāo)網(wǎng)絡(luò)θ和預(yù)測網(wǎng)絡(luò)θ′,兩個(gè)網(wǎng)絡(luò)的結(jié)構(gòu)相同,初始權(quán)重相同[16]。利用式(18)和反向傳播算法更新θ,θ′滯后若干決策步以后從θ復(fù)制節(jié)點(diǎn)權(quán)重進(jìn)行更新

        利用ε- greedy算法使DQN在決策空間探索和訓(xùn)練效率之間取得平衡。

        綜上,DQN訓(xùn)練流程主要包括:初始化訓(xùn)練配置參數(shù);在ε- greedy機(jī)制下利用DQN模型選取最優(yōu)攔截彈-目標(biāo)對(duì),并計(jì)算單步局部獎(jiǎng)勵(lì);一輪火力分配結(jié)束后計(jì)算目標(biāo)群整體毀傷概率并根據(jù)式(14)更新該輪經(jīng)驗(yàn)池的所有單步?jīng)Q策回報(bào)值;按照均勻采樣策略等量抽取各目標(biāo)類型的子經(jīng)驗(yàn)池,進(jìn)行目標(biāo)網(wǎng)絡(luò)訓(xùn)練,并按照預(yù)設(shè)間隔步數(shù)更新預(yù)測網(wǎng)絡(luò),對(duì)網(wǎng)絡(luò)不斷訓(xùn)練直至滿足結(jié)束條件。

        5 仿真測試與分析

        5.1 目標(biāo)威脅評(píng)估方法測試與分析

        假定有10個(gè)來襲目標(biāo),其中目標(biāo)1,2,5為近程彈道導(dǎo)彈,目標(biāo)3,4,6為中程彈道導(dǎo)彈,目標(biāo)7和8為遠(yuǎn)程彈道導(dǎo)彈,目標(biāo)9和10為高超聲速飛行器,各目標(biāo)屬性值如表1所示。

        根據(jù)表1中數(shù)據(jù),利用本文所提改進(jìn)AHP方法計(jì)算評(píng)估指標(biāo)權(quán)重,并與傳統(tǒng)AHP方法的指標(biāo)權(quán)重作對(duì)比,結(jié)果如表2所示。分析表1和表2結(jié)果可知,各目標(biāo)彈的攻擊地重要度指標(biāo)分布較為分散,對(duì)攔截優(yōu)先級(jí)判斷的影響較大,因此,相較于傳統(tǒng)的AHP方法,引入熵值法的改進(jìn)AHP法對(duì)該指標(biāo)因素給定的權(quán)重較大。相反,各目標(biāo)彈的RCS值分布較為接近,對(duì)攔截優(yōu)先級(jí)判斷的影響較小,由改進(jìn)AHP法計(jì)算得到的權(quán)重較小。因此,改進(jìn)AHP方法可根據(jù)目標(biāo)各威脅要素的量化指標(biāo)分布情況,合理地調(diào)整指標(biāo)權(quán)重,使得在威脅評(píng)估時(shí)突出不同目標(biāo)間的差異性。

        表2 傳統(tǒng)和改進(jìn)AHP方法的評(píng)估指標(biāo)權(quán)重計(jì)算結(jié)果對(duì)比

        利用改進(jìn)AHP法和傳統(tǒng)AHP法對(duì)表1中各來襲目標(biāo)彈進(jìn)行綜合威脅度計(jì)算,結(jié)果如表3所示,其中遠(yuǎn)程彈道導(dǎo)彈目標(biāo)8的攻擊地重要度最高,關(guān)機(jī)點(diǎn)速度大,因此兩種方法都認(rèn)為該目標(biāo)的綜合威脅度最高;而近程彈道導(dǎo)彈目標(biāo)2的攻擊地重要度和關(guān)機(jī)點(diǎn)速度最低,最大飛行高度低,因此兩種方法計(jì)算該目標(biāo)的綜合威脅度都為最低。需要注意,相較于傳統(tǒng)AHP方法,改進(jìn)AHP方法認(rèn)為高超聲速目標(biāo)9和10的目標(biāo)威脅度更高,尤其是目標(biāo)9的威脅度排序更加靠前。在實(shí)際戰(zhàn)場中,高超聲速目標(biāo)通常殺傷力較大且難以攔截,威脅程度較高,改進(jìn)AHP方法對(duì)高超聲速飛行器的威脅評(píng)估結(jié)果更加符合實(shí)際。由此,可以說明本文提出的改進(jìn)AHP威脅評(píng)估方法的評(píng)價(jià)結(jié)果與實(shí)際情況更符合,具有較高的合理性。

        表1 目標(biāo)屬性值

        表3 改進(jìn)AHP與傳統(tǒng)AHP法的目標(biāo)威脅度評(píng)估結(jié)果

        5.2 DQN火力分配測試與分析

        5.2.1 固定場景下的DQN火力分配測試與分析

        針對(duì)表1中各來襲目標(biāo),利用本文所提DQN方法優(yōu)化分配策略,DQN的訓(xùn)練參數(shù)設(shè)置為:學(xué)習(xí)率等于0.001,衰減率等于0.8,隱藏層數(shù)量為3,每層各100個(gè)節(jié)點(diǎn),訓(xùn)練數(shù)據(jù)的批大小(batch_size)為32,預(yù)測網(wǎng)絡(luò)的更新步長為50,共訓(xùn)練2000輪。設(shè)定攔截彈總量為20,低層、中層以及高層攔截彈的數(shù)量分別為11:6:3。其中,高層攔截彈對(duì)于遠(yuǎn)程目標(biāo)的毀傷概率最大,為85%;對(duì)于中程目標(biāo)的毀傷概率為40%。中層攔截彈對(duì)于中程目標(biāo)的毀傷概率最大,為85%;而對(duì)于遠(yuǎn)程目標(biāo)的毀傷概率為55%。低層攔截彈對(duì)于近程目標(biāo)和高超聲速目標(biāo)具有較高的毀傷概率,分別為90%和55%。

        經(jīng)過2000輪的訓(xùn)練后,得到的DQN學(xué)習(xí)曲線如圖3所示。由圖3可知,在訓(xùn)練初期,由于ε值較小,DQN對(duì)決策空間進(jìn)行隨機(jī)探索,分配結(jié)果不穩(wěn)定,隨著訓(xùn)練回合數(shù)的增加,利用學(xué)習(xí)完善的DQN進(jìn)行決策,整體毀傷概率逐漸上升并趨于穩(wěn)定,最終穩(wěn)定在0.91左右?;鹆Ψ峙浣Y(jié)果如圖4所示,該火力分配的整體毀傷概率為0.9128,由圖3可知,對(duì)于威脅度最高的遠(yuǎn)程目標(biāo)彈8,DQN分配了兩枚針對(duì)性最強(qiáng)的高層攔截彈以及一枚近程攔截彈進(jìn)行攔截,很大程度上確保毀傷該目標(biāo);對(duì)于威脅度較高的高超聲速目標(biāo)彈9,DQN則針對(duì)性地分配了3枚低層攔截彈,使該目標(biāo)的毀傷概率達(dá)到90%以上;而對(duì)于威脅度最低的近程彈2,5,1,DQN則各分配了1枚低層攔截彈,既保證了目標(biāo)的毀傷概率,也為攔截其他重要目標(biāo)留出了較多的可支配火力資源。由此,說明DQN能夠綜合考慮目標(biāo)威脅度、攔截彈-目標(biāo)毀傷概率、火力資源配置情況,做出合理的火力分配決策。

        圖3 固定場景下DQN訓(xùn)練效果

        圖4 固定場景下DQN火力分配方案

        此外,在上述場景下,對(duì)僅考慮全局收益的DQN火力分配模型進(jìn)行訓(xùn)練,整體毀傷概率收斂曲線如圖5所示。對(duì)比圖3可知,當(dāng)DQN僅考慮全局收益獎(jiǎng)勵(lì)時(shí),DQN訓(xùn)練效率降低,收斂效果較差,從而使得最終的火力分配方案不佳。利用圖5訓(xùn)練得到的DQN火力分配模型進(jìn)行仿真測試,分配結(jié)果的整體毀傷概率較低,僅為0.678,火力分配結(jié)果不太理想。綜上對(duì)比分析驗(yàn)證了式(14)綜合考慮單步和全局收益的獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)可帶來的訓(xùn)練效率和決策性能的提升。

        圖5 固定場景下僅考慮全局收益的DQN訓(xùn)練效果

        5.2.2 隨機(jī)場景下的DQN火力分配測試與分析

        考慮實(shí)際作戰(zhàn)場景中,目標(biāo)規(guī)模通常難以準(zhǔn)確預(yù)測,可用火力資源數(shù)量和配置也會(huì)隨戰(zhàn)場態(tài)勢動(dòng)態(tài)變化。因此,需要火力分配方法對(duì)WTA場景要素的變化具有較好的魯棒性。考慮目標(biāo)-攔截彈數(shù)量變化,毀傷概率和目標(biāo)威脅度在小范圍內(nèi)浮動(dòng)的WTA隨機(jī)場景下,對(duì)DQN火力分配模型進(jìn)行訓(xùn)練。每一輪的訓(xùn)練場景中,目標(biāo)數(shù)量和攔截彈數(shù)量分別為[20, 30]和[30, 60]之間的隨機(jī)整數(shù),其中近、中和遠(yuǎn)程目標(biāo)數(shù)量分別占目標(biāo)總量的20%~40%,20%~40%, 10%~20%,其余為高超聲速目標(biāo)。低、中層攔截彈配比范圍均為30%~40%,剩余為高層攔截彈。

        為體現(xiàn)DQN在隨機(jī)場景下的訓(xùn)練效果,對(duì)訓(xùn)練過程進(jìn)行1000次蒙特卡羅仿真,得到的DQN平均學(xué)習(xí)收斂曲線如圖6所示。從圖中可以看出,DQN能夠在場景要素變化的情況下進(jìn)行有效訓(xùn)練,隨著訓(xùn)練的進(jìn)行,平均整體毀傷概率逐步提高并最終收斂于0.9左右。該結(jié)果可以說明本文所提DQN方法在WTA要素變化的場景下具備良好且穩(wěn)定的訓(xùn)練效果。

        圖6 1000次蒙特卡羅仿真訓(xùn)練

        為了驗(yàn)證本文所提基于DQN的火力分配算法的性能,利用上述訓(xùn)練得到的DQN火力分配模型與文獻(xiàn)[10]中的基于改進(jìn)粒子群算法(Particle Swarm Optimization, PSO)的WTA優(yōu)化方法,以及基于目標(biāo)威脅度的隨機(jī)分配法進(jìn)行比較。其中,PSO方法的種群規(guī)模設(shè)為60,迭代次數(shù)為5000;隨機(jī)法可描述為針對(duì)第j個(gè)可用火力單元,產(chǎn)生[0,1]之間的隨機(jī)數(shù),若滿足

        則將該火力單元分配給第i+1個(gè)目標(biāo),其中ωi為歸一化的目標(biāo)威脅度。該分配方法使得火力單元有更大的概率分配給威脅度較高的目標(biāo)。

        設(shè)置如表4所示的3個(gè)測試用例,測試時(shí)的毀傷概率各類型目標(biāo)數(shù)量占比和各類型攔截彈數(shù)量占比的設(shè)定與訓(xùn)練場景保持一致。在訓(xùn)練場景中,目標(biāo)數(shù)量和攔截彈數(shù)量分別在[20,30]和[30,60]之間隨機(jī)取值,測試用例1是一個(gè)較小規(guī)模的WTA場景,目標(biāo)和攔截彈數(shù)量分別為15和25,目標(biāo)和攔截彈的數(shù)量規(guī)模均低于DQN模型訓(xùn)練時(shí)的各自最小規(guī)模;用例3是一個(gè)較大規(guī)模的WTA場景,目標(biāo)、攔截彈數(shù)量分別為35和50,其目標(biāo)數(shù)量規(guī)模大于DQN模型訓(xùn)練時(shí)的最大規(guī)模。

        表4 測試用例參數(shù)

        3種方法在不同測試場景下產(chǎn)生的目標(biāo)群整體毀傷概率和運(yùn)行時(shí)間如表5所示,隨著WTA規(guī)模的增大,基于改進(jìn)PSO方法的搜索空間規(guī)模爆炸式增長,受限于種群規(guī)模和迭代次數(shù),所得解的質(zhì)量不斷下降,尤其在用例3中,由于搜索空間的急劇增大,該方法求解得到的整體毀傷概率下降到了0.75左右,且耗時(shí)很長,難以滿足高動(dòng)態(tài)場景下火力分配決策的快速性需求。而基于DQN的火力分配模型得益于充分的訓(xùn)練,基于良好的網(wǎng)絡(luò)參數(shù),能夠適應(yīng)目標(biāo)和火力資源配置動(dòng)態(tài)變化的情況,在3個(gè)測試用例下都能保持較好的求解質(zhì)量,尤其是在用例3,較大規(guī)模的火力分配問題中也能保持0.85以上的毀傷概率,且能夠滿足決策快速性需求。此外,用例1和用例3的測試結(jié)果表明,模型能夠適應(yīng)超出訓(xùn)練場景參數(shù)范圍的WTA場景,因此,基于訓(xùn)練得到的DQN模型對(duì)于非預(yù)期內(nèi)的場景參數(shù)變化情況,包括目標(biāo)和攔截彈數(shù)量、毀傷概率等變化情況,具有一定的魯棒性,可適用于戰(zhàn)場中的突發(fā)動(dòng)態(tài)情況下的火力分配應(yīng)用。

        表5 3種場景測試結(jié)果

        6 結(jié)束語

        本文考慮由不同性能攔截彈組成的一體化導(dǎo)彈防御系統(tǒng)對(duì)不同類型的來襲目標(biāo)群實(shí)施火力分配的問題,提出了一種融合改進(jìn)AHP和DQN的WTA優(yōu)化方法。首先,應(yīng)用基于熵值法的改進(jìn)AHP方法評(píng)估來襲目標(biāo)威脅度,本文方法由于引入了目標(biāo)威脅指標(biāo)量化數(shù)據(jù)的分布差異,相較于典型的AHP方法能夠較好地突出區(qū)分目標(biāo)威脅差異,結(jié)果具有良好的合理性。接著,針對(duì)基于傳統(tǒng)啟發(fā)式方法求解中大規(guī)模WTA問題效率低、優(yōu)化解質(zhì)量不高的問題,本文在DQN框架下將WTA過程看作一個(gè)多段決策過程,通過設(shè)置可綜合兼顧訓(xùn)練效率和決策性能的獎(jiǎng)勵(lì)函數(shù),引入公平采樣策略等手段,建立了基于DQN的火力分配方法。大量仿真結(jié)果表明,在固定和隨機(jī)的WTA場景下,本文提出的基于DQN的WTA優(yōu)化方法均能在較少的訓(xùn)練次數(shù)下快速收斂,針對(duì)不同的測試用例均能給出較優(yōu)的火力分配方案,且對(duì)于WTA場景參數(shù)動(dòng)態(tài)變化具有一定的適應(yīng)性,具備對(duì)戰(zhàn)場環(huán)境動(dòng)態(tài)變化的適應(yīng)能力。同時(shí),相較于經(jīng)典的PSO算法,本文算法在處理中大規(guī)模WTA問題時(shí)優(yōu)勢明顯,具備決策的快速性和準(zhǔn)確性。

        猜你喜歡
        分配方法
        基于可行方向法的水下機(jī)器人推力分配
        應(yīng)答器THR和TFFR分配及SIL等級(jí)探討
        遺產(chǎn)的分配
        學(xué)習(xí)方法
        一種分配十分不均的財(cái)富
        績效考核分配的實(shí)踐與思考
        可能是方法不對(duì)
        用對(duì)方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        賺錢方法
        亚洲av无码av制服丝袜在线 | 亚洲av无码一区二区一二区| 国产精品毛片久久久久久久| 2021国产精品视频| 91麻豆精品一区二区三区| 国内自拍色第一页第二页| 成人毛片无码一区二区三区| 中文字幕欧美一区| 亚洲精品中文字幕尤物综合| 国产精品国产三级久久| 国产日产综合| 免费观看国产精品| 中文字幕一区二区三在线| 我要看免费久久99片黄色| 久久国产精品99精品国产| 亚洲国产福利精品一区二区| 亚洲素人av在线观看| 国产精华液一区二区三区| 精品久久欧美熟妇www| 女人体免费一区二区| 日韩精品一区二区三区av| 亚洲国产婷婷六月丁香| 黑人玩弄人妻中文在线| 男人天堂AV在线麻豆| 国产三级精品三级在线专区 | 亚洲乱码日产精品bd| 亚洲欧洲国无码| 久久中文字幕暴力一区| 国产裸体舞一区二区三区| 欧美精品久久久久久久久| 日本免费a一区二区三区| 国产情侣一区二区| 国产超碰人人模人人爽人人喊| a午夜国产一级黄片| 成人免费播放视频影院| 日本艳妓bbw高潮一19| 国产精品无码一区二区在线国| 亚洲精品女同在线观看| 国产精品久久国产精麻豆99网站 | 曰批免费视频播放免费| 免费无码毛片一区二区三区a片|