融合多屬性決策和深度Q值網(wǎng)絡(luò)的反導(dǎo)火力分配方法

2022-11-29 10:59:36謝俊偉彭冬亮任金磊王昌平

電子與信息學(xué)報(bào) 2022年11期

關(guān)鍵詞：分配方法

謝俊偉方峰* 彭冬亮任金磊王昌平

①(杭州電子科技大學(xué)自動(dòng)化學(xué)院杭州 310018)

②(中國運(yùn)載火箭技術(shù)研究院北京 100076)

1 引言

為了應(yīng)對(duì)彈道導(dǎo)彈和高超聲速飛行器等目標(biāo)的威脅，各國相繼發(fā)展了由預(yù)警探測系統(tǒng)、導(dǎo)彈攔截系統(tǒng)、指揮控制作戰(zhàn)管理系統(tǒng)組成的全球一體化反導(dǎo)防御體系。武器-目標(biāo)分配(Weapon-Target Assignment, WTA)是導(dǎo)彈防御系統(tǒng)中的核心決策內(nèi)容，決策人員根據(jù)來襲導(dǎo)彈目標(biāo)的威脅程度和防御系統(tǒng)的攔截彈資源配置情況，按照特定的火力打擊策略，生成火力分配方案，最大限度上發(fā)揮防御系統(tǒng)的作戰(zhàn)性能[1]。

WTA問題可以分解為WTA模型構(gòu)建和WTA優(yōu)化方法兩部分。由于攔截空域會(huì)出現(xiàn)多個(gè)來襲目標(biāo)，因此在建立WTA模型時(shí)，首先需要評(píng)估來襲目標(biāo)的威脅程度，確定攔截優(yōu)先級(jí)，并基于此設(shè)計(jì)多約束條件下的火力分配準(zhǔn)則函數(shù)。目前，已有的威脅評(píng)估方法主要包括層次分析(Analytic Hierarchy Process, AHP)方法[2]、優(yōu)劣解距離(Technique for Order Preference by Similarity to an Ideal Solution, TOPSIS)方法[3]、貝葉斯網(wǎng)絡(luò)方法[4]、粗糙集方法[5]等。其中，AHP方法在構(gòu)建指標(biāo)權(quán)重判別矩陣時(shí)較為依賴主觀經(jīng)驗(yàn)；TOPSIS方法的指標(biāo)信息熵計(jì)算對(duì)數(shù)據(jù)噪聲較為敏感，從而影響評(píng)估準(zhǔn)確性；貝葉斯網(wǎng)絡(luò)模型結(jié)構(gòu)的確定缺乏客觀設(shè)計(jì)標(biāo)準(zhǔn)；基于粗糙集理論的方法當(dāng)歷史數(shù)據(jù)集規(guī)模較小時(shí)，存在評(píng)估規(guī)則難以準(zhǔn)確提取的問題。由此，本文針對(duì)AHP方法計(jì)算指標(biāo)權(quán)重較為主觀的問題，引入了表征目標(biāo)特性信息的熵值法來增加準(zhǔn)則層指標(biāo)權(quán)重確定的客觀性，從而提升目標(biāo)威脅評(píng)估的準(zhǔn)確性。改進(jìn)的AHP方法計(jì)算量小，實(shí)時(shí)性好，便于工程上實(shí)現(xiàn)。

WTA優(yōu)化方法是指在WTA模型基礎(chǔ)上建立快速高效的優(yōu)化搜索算法，給出最優(yōu)或者次優(yōu)的火力分配方案。WTA優(yōu)化問題實(shí)質(zhì)上是一類整數(shù)型非線性組合優(yōu)化問題，屬于NP完全(NP-Complete)問題[6]。目前，已有的WTA優(yōu)化方法包括分支定界法[7]、動(dòng)態(tài)規(guī)劃[8]、遺傳算法[9]和粒子群算法[10]等，但是，上述方法在面對(duì)中大規(guī)模WTA問題時(shí)求解效率較低。分支定界和動(dòng)態(tài)規(guī)劃存在搜索空間維數(shù)爆炸問題，啟發(fā)式算法搜索速度慢且容易陷入局部最優(yōu)。基于強(qiáng)化學(xué)習(xí)的決策方法可避免以上問題，近年來已被廣泛應(yīng)用在棋類博弈[11]、機(jī)器人路徑規(guī)劃[12]及自主空戰(zhàn)決策[13]等場景中。本文將強(qiáng)化學(xué)習(xí)方法引入到火力分配問題中，把WTA問題轉(zhuǎn)化為一個(gè)多步?jīng)Q策問題。文獻(xiàn)[14]采用強(qiáng)化學(xué)習(xí)算法解決反艦導(dǎo)彈火力分配問題，但僅將單步?jīng)Q策帶來的毀傷概率增量作為獎(jiǎng)勵(lì)函數(shù)，火力分配決策的全局最優(yōu)性很難保證，求解方案不夠理想。另外，文獻(xiàn)[14]的狀態(tài)向量和動(dòng)作向量設(shè)計(jì)不夠靈活，使得訓(xùn)練所得的智能體難以應(yīng)對(duì)場景參數(shù)變化的情況。本文在深度Q網(wǎng)絡(luò)(Deep Q-Network, DQN)框架下建立了高效的火力分配方法：基于最大毀傷概率準(zhǔn)則設(shè)計(jì)了兼顧快速收斂和全局收益的獎(jiǎng)勵(lì)函數(shù)，構(gòu)建了火力單元狀態(tài)集、目標(biāo)庫和經(jīng)驗(yàn)池，并引入了公平采樣策略，確保等概率學(xué)習(xí)各目標(biāo)分配經(jīng)驗(yàn)。大量仿真結(jié)果表明，本文所提改進(jìn)AHP方法通過目標(biāo)屬性值分布差異可以更加客觀地評(píng)估目標(biāo)威脅度，DQN火力分配方法則可以根據(jù)目標(biāo)導(dǎo)彈的威脅度和攔截彈的毀傷能力，快速求解中大規(guī)模WTA問題的攔截彈-目標(biāo)分配方案，實(shí)現(xiàn)最大概率毀傷來襲目標(biāo)群；同時(shí)，本文訓(xùn)練得到的DQN智能火力分配模型對(duì)包括目標(biāo)-火力單元類型和數(shù)量、攔截彈毀傷概率等WTA場景參數(shù)變化具有一定的魯棒性。

2 WTA問題描述

本文分別圍繞目標(biāo)威脅評(píng)估和WTA優(yōu)化這兩部分開展WTA問題研究。目標(biāo)威脅評(píng)估指的是導(dǎo)彈防御系統(tǒng)對(duì)來襲目標(biāo)進(jìn)行預(yù)警探測、識(shí)別與跟蹤，確定來襲目標(biāo)的數(shù)量、種類以及相應(yīng)的運(yùn)動(dòng)狀態(tài)信息，并應(yīng)用上述目標(biāo)信息評(píng)估目標(biāo)威脅度。其中，需要提取能反映目標(biāo)特性差異的關(guān)鍵因素作為威脅度評(píng)估指標(biāo)集，由此計(jì)算來襲目標(biāo)的威脅度。對(duì)于導(dǎo)彈防御系統(tǒng)而言，不同目標(biāo)的威脅度會(huì)引起攔截優(yōu)先級(jí)的差異，且是WTA模型的關(guān)鍵參數(shù)，對(duì)于后續(xù)火力分配決策起著決定性的作用。

其中，vj為由威脅評(píng)估方法得到的目標(biāo)威脅值，pij為第i個(gè)火力單元對(duì)j個(gè)目標(biāo)的毀傷概率，不等式約束則分別表示每個(gè)火力單元最多只能分配1個(gè)目標(biāo)，每個(gè)目標(biāo)可以分配多個(gè)火力單元。等影響力由上級(jí)指揮專家打分給出，對(duì)應(yīng)的威脅度值可以量化為

3 目標(biāo)威脅評(píng)估

3.1 威脅評(píng)估因素定量分析

本文考慮4類典型目標(biāo)，分別為近、中、遠(yuǎn)程彈道導(dǎo)彈和高超聲速飛行器，導(dǎo)彈防御系統(tǒng)則考慮低、中和高層3類典型攔截彈，如分別由美國的愛國者攔截彈(Patriot Advanced Capability-3, PAC-3)、?；鶖r截彈(Standard Missile, SM-3)和陸基攔截彈(Ground-Based Interceptor, GBI)構(gòu)成的低中高層導(dǎo)彈防御系統(tǒng)。根據(jù)彈道導(dǎo)彈和高超聲速飛行器等目標(biāo)的運(yùn)動(dòng)特性和固有屬性，構(gòu)造如下威脅評(píng)估指標(biāo)：來襲目標(biāo)攻擊區(qū)域重要程度、目標(biāo)剩余飛行時(shí)間、目標(biāo)最大飛行高度、目標(biāo)關(guān)機(jī)點(diǎn)速度和雷達(dá)反射面積(Radar Cross-Section, RCS)。其中，目標(biāo)打擊區(qū)域重要程度根據(jù)該區(qū)域的軍事、政治、經(jīng)濟(jì)其中，Ij為整數(shù)，代表第j個(gè)目標(biāo)攻擊區(qū)域的重要程度。目標(biāo)剩余飛行時(shí)間越小，留給防御系統(tǒng)的反應(yīng)時(shí)間越短，對(duì)應(yīng)的威脅度越大。本文涉及的彈道導(dǎo)彈和高超聲速飛行器的最大飛行高度區(qū)間差別較大，分別為200～1400 km和20～80 km(臨近空間)，在相應(yīng)的高度范圍內(nèi)，最大飛行高度越大則威脅程度越大。目標(biāo)的關(guān)機(jī)點(diǎn)速度決定了目標(biāo)的再入速度和攻擊威力，關(guān)機(jī)點(diǎn)速度越大，則攔截窗口時(shí)間越短，較難攔截，目標(biāo)的威脅程度也越大。目標(biāo)的雷達(dá)反射面積越小，防御系統(tǒng)也越難跟蹤，其威脅程度越大。結(jié)合上述分析，可分別建立各威脅指標(biāo)對(duì)應(yīng)的分段量化函數(shù)，以最大高度為例，其威脅指標(biāo)量化函數(shù)可以描述為

綜上，根據(jù)威脅指標(biāo)量化函數(shù)，可以得到各來襲導(dǎo)彈目標(biāo)的威脅因子評(píng)估向量。

3.2 基于熵值法的改進(jìn)AHP

AHP將復(fù)雜的評(píng)估系統(tǒng)模型層次化，通過逐層比較各種評(píng)估因素的重要性進(jìn)行評(píng)估分析[2]。在導(dǎo)彈威脅評(píng)估問題中，目標(biāo)層為目標(biāo)威脅評(píng)估值，準(zhǔn)則層為威脅評(píng)估因素，方案層為待評(píng)估的目標(biāo)彈。本文在準(zhǔn)則層中引入熵值法，通過評(píng)估目標(biāo)(來襲導(dǎo)彈)的指標(biāo)屬性信息熵來修正準(zhǔn)則層指標(biāo)權(quán)重的計(jì)算，提升指標(biāo)權(quán)重判定的客觀性。引入熵值法的改進(jìn)AHP方法整體框架如圖1所示，具體執(zhí)行步驟如下：

圖1 改進(jìn)AHP法框架示意圖

步驟1 應(yīng)用AHP方法計(jì)算準(zhǔn)則層的指標(biāo)權(quán)重。根據(jù)專家意見采用1～9標(biāo)度法構(gòu)建準(zhǔn)則層(各威脅評(píng)估因素)的判別矩陣A，則AHP方法下的指標(biāo)權(quán)重向量wAHP可計(jì)算為

其中，λmax為判別矩陣A的最大特征值，wmax為對(duì)應(yīng)的特征向量，wmax,j為特征向量wmax中的第j個(gè)元素，wjAHP為權(quán)重向量中的第j個(gè)元素。

步驟2 應(yīng)用熵值法計(jì)算準(zhǔn)則層的指標(biāo)權(quán)重。熵值法認(rèn)為若某個(gè)指標(biāo)下各目標(biāo)屬性值的分布較為接近，則該指標(biāo)對(duì)于目標(biāo)威脅評(píng)估的價(jià)值較低，其對(duì)應(yīng)的指標(biāo)權(quán)重較小；反之，若各目標(biāo)屬性值分布較為離散，則該指標(biāo)對(duì)威脅評(píng)估的價(jià)值較高，其對(duì)應(yīng)的指標(biāo)權(quán)重也更大[15]。基于熵值法的指標(biāo)權(quán)重計(jì)算過程如下：

首先，將根據(jù)3.1節(jié)計(jì)算得到的各目標(biāo)威脅因素量化值進(jìn)行歸一化為

其中，ωij為第i個(gè)目標(biāo)對(duì)于第j個(gè)威脅指標(biāo)因素的量化值，zij為歸一化的指標(biāo)屬性值。

其次，應(yīng)用歸一化的指標(biāo)屬性值信息，各指標(biāo)的信息熵為

其中，ej為第j個(gè)指標(biāo)的信息熵。

最后，各評(píng)估指標(biāo)在信息熵語義下的指標(biāo)權(quán)重可以計(jì)算為

步驟3 利用熵值法計(jì)算得到的指標(biāo)權(quán)重對(duì)AHP準(zhǔn)則層中指標(biāo)權(quán)重進(jìn)行修正

其中，wj為準(zhǔn)則層中第j個(gè)指標(biāo)的最終權(quán)重。

步驟4 計(jì)算方案層中各目標(biāo)相對(duì)于準(zhǔn)則層的指標(biāo)權(quán)重。利用目標(biāo)威脅因子向量構(gòu)造方案層相對(duì)于準(zhǔn)則層的重要性判別矩陣。令方案層各來襲目標(biāo)導(dǎo)彈相對(duì)于準(zhǔn)則層中第j個(gè)威脅評(píng)估指標(biāo)的判別矩陣為，該判別矩陣元素計(jì)算為

步驟5 計(jì)算目標(biāo)的綜合威脅度。結(jié)合準(zhǔn)則層各指標(biāo)修正后的權(quán)重和方案層各目標(biāo)相對(duì)于準(zhǔn)則層指標(biāo)的層次排序結(jié)果，各目標(biāo)的綜合威脅度計(jì)算式為

其中，vi為第i個(gè)目標(biāo)的綜合威脅度。

4 基于DQN的WTA決策方法

基于DQN的WTA決策模型整體架構(gòu)如圖2所示，將火力分配過程看作一個(gè)多段決策過程，單步?jīng)Q策通過優(yōu)化決策獎(jiǎng)勵(lì)值，實(shí)現(xiàn)對(duì)單個(gè)攔截彈的目標(biāo)分配，通過依次對(duì)攔截彈進(jìn)行分配決策，從而完成整個(gè)WTA過程。當(dāng)完成一輪火力分配后，計(jì)算全局決策收益，并更新到臨時(shí)記憶庫中。DQN根據(jù)“均勻采樣”策略利用臨時(shí)記憶庫中的分配經(jīng)驗(yàn)(狀態(tài)轉(zhuǎn)移4元組)進(jìn)行訓(xùn)練，不斷完善Q網(wǎng)絡(luò)，從而達(dá)到基于DQN的火力分配智能體可快速高效求解中大規(guī)模WTA問題的目的。

圖2 基于DQN的WTA決策模型

4.1 狀態(tài)轉(zhuǎn)移4元組設(shè)計(jì)

根據(jù)WTA問題特點(diǎn)，以火力單元數(shù)量的編號(hào)順序作為決策時(shí)序，第i步?jīng)Q策表示對(duì)第i個(gè)攔截彈進(jìn)行目標(biāo)分配，即確定xij=1時(shí)j的取值。定義第i步?jīng)Q策的狀態(tài)轉(zhuǎn)移4元組為si,ai,ri,ai+1>，其中si為火力單元當(dāng)前狀態(tài)向量，包含第i步?jīng)Q策時(shí)的火力單元剩余量和當(dāng)前火力單元的類型；ai為當(dāng)前動(dòng)作向量，表示將第i個(gè)攔截彈分配給指定的目標(biāo)，包含第i步?jīng)Q策時(shí)選擇的被分配目標(biāo)編號(hào)和類型，及該目標(biāo)已被分配的攔截彈數(shù)量；ri為獎(jiǎng)勵(lì)函數(shù)，即采取相應(yīng)動(dòng)作所產(chǎn)生的獎(jiǎng)勵(lì)；si+1為基于當(dāng)前決策的下一步火力單元狀態(tài)向量，即第i+1步?jīng)Q策時(shí)的火力單元剩余量和火力單元類型。

4.1.1 狀態(tài)向量si定義

根據(jù)藍(lán)方反導(dǎo)攔截系統(tǒng)的攔截彈資源配置和部署情況，構(gòu)造合適的狀態(tài)向量si。由于不同類型的攔截火力單元對(duì)同一目標(biāo)的毀傷概率存在差異，例如，美國的GBI和SM-3適用于攔截中高層目標(biāo)，而PAC-3則擅長攔截低空大氣層內(nèi)的目標(biāo)。因此，狀態(tài)向量需包含火力單元的類型信息，同時(shí)也需要包含火力資源的剩余情況。由此，定義第i個(gè)火力單元分配時(shí)的狀態(tài)為

其中，mcost為已分配的攔截彈數(shù)量；(i=1,2,···,l)為第i類攔截彈已分配的數(shù)量；mi_type為該攔截彈的類型獨(dú)熱編碼。類似地，當(dāng)執(zhí)行完第i個(gè)火力單元分配后，更新狀態(tài)信息，可得第i+1步?jīng)Q策時(shí)的狀態(tài)量si+1。值得注意的是，當(dāng)i=m時(shí)，不存在si+1。

4.1.2 動(dòng)作向量ai定義

在對(duì)攔截彈進(jìn)行目標(biāo)分配時(shí)，需要考慮目標(biāo)的威脅度。目標(biāo)威脅度越高，對(duì)應(yīng)的打擊優(yōu)先級(jí)越高。當(dāng)一個(gè)目標(biāo)已被多個(gè)火力單元分配時(shí)，該目標(biāo)的毀傷概率可以得到較好的保障，此時(shí)考慮給其分配火力單元的優(yōu)先級(jí)隨之下降。因此，在設(shè)計(jì)DQN的動(dòng)作向量時(shí)，需要綜合考慮目標(biāo)威脅度、目標(biāo)彈已被分配的情況。此外，由于同一攔截彈對(duì)不同類型的目標(biāo)的毀傷概率各不相同，動(dòng)作向量還需包括目標(biāo)的類型信息。因此，假設(shè)第i步?jīng)Q策時(shí)，將攔截彈分配給第j個(gè)目標(biāo)，可定義ai動(dòng)作向量的一個(gè)決策動(dòng)作aij為

4.1.3 獎(jiǎng)勵(lì)函數(shù)ri定義

其中，Ji為第i步?jīng)Q策完成后的對(duì)敵方目標(biāo)的整體毀傷概率，計(jì)算公式如式(1)所示。

若DQN只學(xué)習(xí)到上述單步?jīng)Q策獎(jiǎng)勵(lì)會(huì)導(dǎo)致DQN決策時(shí)出現(xiàn)“短視”現(xiàn)象，具體可描述為：在一輪火力分配的初期，DQN為了最大化單步?jīng)Q策獎(jiǎng)勵(lì)，會(huì)做出不利于最大毀傷概率的目標(biāo)分配選擇。假設(shè)有兩個(gè)威脅度相同的目標(biāo)，分別為目標(biāo)1和目標(biāo)2，攔截彈1和攔截彈2對(duì)目標(biāo)1,2的毀傷概率分別為[0.86, 0.84]和[0.84, 0.75]。在基于DQN的WTA分段決策中，單步獎(jiǎng)勵(lì)最大化下的決策是將攔截彈1分配給目標(biāo)1，攔截彈2分配給目標(biāo)2，但按照最大化整體毀傷概率準(zhǔn)則的分配結(jié)果是將攔截彈1分配給目標(biāo)2，攔截彈2分配給目標(biāo)1。造成這種沖突現(xiàn)象的原因在于DQN做當(dāng)前決策時(shí)僅注重了單步?jīng)Q策獎(jiǎng)勵(lì)，忽視了全局收益，即并未考慮單步?jīng)Q策對(duì)后續(xù)攔截彈的分配決策帶來的影響。由此，造成了本文所謂的“短視現(xiàn)象”。

為了改善上述這種現(xiàn)象，考慮單步?jīng)Q策對(duì)后續(xù)決策的影響，將代表一輪分配完成后的目標(biāo)最終整體毀傷概率引入到單步?jīng)Q策的獎(jiǎng)勵(lì)函數(shù)中，兼顧火力分配的單步?jīng)Q策收益和全局收益，由此修正第i步?jīng)Q策的獎(jiǎng)勵(lì)函數(shù)為

其中，αi為權(quán)重系數(shù)，rg=J(xij)為目標(biāo)整體毀傷概率。此外，將上式與僅考慮全局收益的獎(jiǎng)勵(lì)函數(shù)相比，可知由于引入了單步?jīng)Q策增益獎(jiǎng)勵(lì)，可以在一定程度上引導(dǎo)決策空間的探索，表現(xiàn)在能夠使得搜索沿著在單步增益較大的空間內(nèi)開展，提高搜索效率。因此，式(14)綜合考慮單步和全局收益的獎(jiǎng)勵(lì)函數(shù)能夠使得DQN兼顧優(yōu)化解的全局性和搜索的快速性。

在火力分配初始階段更容易發(fā)生“短視現(xiàn)象”，需要更加重視全局收益的影響，因此關(guān)于全局收益的權(quán)重系數(shù)需要設(shè)置的較大。當(dāng)火力分配進(jìn)入后期階段時(shí)，由于大部分?jǐn)r截彈已分配完成，最大化單步?jīng)Q策獎(jiǎng)勵(lì)下的決策逐步與最大化整體毀傷概率下的決策趨于一致，此時(shí)關(guān)于全局收益的權(quán)重系數(shù)可以適當(dāng)減小，從而引導(dǎo)DQN進(jìn)行快速探索。綜上分析，本文采用動(dòng)態(tài)權(quán)重的方法來實(shí)現(xiàn)上述目的，變權(quán)重系數(shù)的表達(dá)式為

4.2 “均勻采樣”策略與經(jīng)驗(yàn)存儲(chǔ)

在完成所有火力單元的目標(biāo)分配后，可通過火力分配決策矩陣按式(1)計(jì)算該輪火力分配的整體毀傷概率，并將其更新到該輪的各狀態(tài)轉(zhuǎn)移4元組中。由于不同類型的目標(biāo)數(shù)量相差較大，導(dǎo)致對(duì)應(yīng)各類目標(biāo)的分配經(jīng)驗(yàn)數(shù)量之間存在差異。若直接使用隨機(jī)采樣策略抽取樣本進(jìn)行訓(xùn)練，則會(huì)導(dǎo)致低數(shù)量類型的目標(biāo)被抽取的概率較低，從而對(duì)該類目標(biāo)的分配訓(xùn)練效果不佳。由此，本文采用根據(jù)目標(biāo)類型進(jìn)行抽取的“均勻采樣”策略，將一輪火力分配完成后產(chǎn)生的分配經(jīng)驗(yàn)按照目標(biāo)類型分別進(jìn)行存儲(chǔ)，訓(xùn)練時(shí)從各類型目標(biāo)對(duì)應(yīng)的子經(jīng)驗(yàn)池中等量隨機(jī)抽取一批經(jīng)驗(yàn)，保證DQN能夠等頻率地學(xué)習(xí)到各類目標(biāo)下的分配經(jīng)驗(yàn)。

4.3 Q值迭代

對(duì)所有的m個(gè)攔截彈完成目標(biāo)分配即完成了一輪的火力分配任務(wù)，因此定義本文火力分配場景中Q函數(shù)的最優(yōu)貝爾曼方程為

其中，rk為第k步分配決策的獎(jiǎng)勵(lì)。

由式(16)可得Q函數(shù)的更新規(guī)則為

其中，α為學(xué)習(xí)率，0α＜1。

為使DQN訓(xùn)練更加穩(wěn)定，構(gòu)造目標(biāo)網(wǎng)絡(luò)θ和預(yù)測網(wǎng)絡(luò)θ′，兩個(gè)網(wǎng)絡(luò)的結(jié)構(gòu)相同，初始權(quán)重相同[16]。利用式(18)和反向傳播算法更新θ，θ′滯后若干決策步以后從θ復(fù)制節(jié)點(diǎn)權(quán)重進(jìn)行更新

利用ε- greedy算法使DQN在決策空間探索和訓(xùn)練效率之間取得平衡。

綜上，DQN訓(xùn)練流程主要包括：初始化訓(xùn)練配置參數(shù)；在ε- greedy機(jī)制下利用DQN模型選取最優(yōu)攔截彈-目標(biāo)對(duì)，并計(jì)算單步局部獎(jiǎng)勵(lì)；一輪火力分配結(jié)束后計(jì)算目標(biāo)群整體毀傷概率并根據(jù)式(14)更新該輪經(jīng)驗(yàn)池的所有單步?jīng)Q策回報(bào)值；按照均勻采樣策略等量抽取各目標(biāo)類型的子經(jīng)驗(yàn)池，進(jìn)行目標(biāo)網(wǎng)絡(luò)訓(xùn)練，并按照預(yù)設(shè)間隔步數(shù)更新預(yù)測網(wǎng)絡(luò)，對(duì)網(wǎng)絡(luò)不斷訓(xùn)練直至滿足結(jié)束條件。

5 仿真測試與分析

5.1 目標(biāo)威脅評(píng)估方法測試與分析

假定有10個(gè)來襲目標(biāo)，其中目標(biāo)1,2,5為近程彈道導(dǎo)彈，目標(biāo)3,4,6為中程彈道導(dǎo)彈，目標(biāo)7和8為遠(yuǎn)程彈道導(dǎo)彈，目標(biāo)9和10為高超聲速飛行器，各目標(biāo)屬性值如表1所示。

根據(jù)表1中數(shù)據(jù)，利用本文所提改進(jìn)AHP方法計(jì)算評(píng)估指標(biāo)權(quán)重，并與傳統(tǒng)AHP方法的指標(biāo)權(quán)重作對(duì)比，結(jié)果如表2所示。分析表1和表2結(jié)果可知，各目標(biāo)彈的攻擊地重要度指標(biāo)分布較為分散，對(duì)攔截優(yōu)先級(jí)判斷的影響較大，因此，相較于傳統(tǒng)的AHP方法，引入熵值法的改進(jìn)AHP法對(duì)該指標(biāo)因素給定的權(quán)重較大。相反，各目標(biāo)彈的RCS值分布較為接近，對(duì)攔截優(yōu)先級(jí)判斷的影響較小，由改進(jìn)AHP法計(jì)算得到的權(quán)重較小。因此，改進(jìn)AHP方法可根據(jù)目標(biāo)各威脅要素的量化指標(biāo)分布情況，合理地調(diào)整指標(biāo)權(quán)重，使得在威脅評(píng)估時(shí)突出不同目標(biāo)間的差異性。

表2 傳統(tǒng)和改進(jìn)AHP方法的評(píng)估指標(biāo)權(quán)重計(jì)算結(jié)果對(duì)比

利用改進(jìn)AHP法和傳統(tǒng)AHP法對(duì)表1中各來襲目標(biāo)彈進(jìn)行綜合威脅度計(jì)算，結(jié)果如表3所示，其中遠(yuǎn)程彈道導(dǎo)彈目標(biāo)8的攻擊地重要度最高，關(guān)機(jī)點(diǎn)速度大，因此兩種方法都認(rèn)為該目標(biāo)的綜合威脅度最高；而近程彈道導(dǎo)彈目標(biāo)2的攻擊地重要度和關(guān)機(jī)點(diǎn)速度最低，最大飛行高度低，因此兩種方法計(jì)算該目標(biāo)的綜合威脅度都為最低。需要注意，相較于傳統(tǒng)AHP方法，改進(jìn)AHP方法認(rèn)為高超聲速目標(biāo)9和10的目標(biāo)威脅度更高，尤其是目標(biāo)9的威脅度排序更加靠前。在實(shí)際戰(zhàn)場中，高超聲速目標(biāo)通常殺傷力較大且難以攔截，威脅程度較高，改進(jìn)AHP方法對(duì)高超聲速飛行器的威脅評(píng)估結(jié)果更加符合實(shí)際。由此，可以說明本文提出的改進(jìn)AHP威脅評(píng)估方法的評(píng)價(jià)結(jié)果與實(shí)際情況更符合，具有較高的合理性。

表1 目標(biāo)屬性值

表3 改進(jìn)AHP與傳統(tǒng)AHP法的目標(biāo)威脅度評(píng)估結(jié)果

5.2 DQN火力分配測試與分析

5.2.1 固定場景下的DQN火力分配測試與分析

針對(duì)表1中各來襲目標(biāo)，利用本文所提DQN方法優(yōu)化分配策略，DQN的訓(xùn)練參數(shù)設(shè)置為：學(xué)習(xí)率等于0.001，衰減率等于0.8，隱藏層數(shù)量為3，每層各100個(gè)節(jié)點(diǎn)，訓(xùn)練數(shù)據(jù)的批大小(batch_size)為32，預(yù)測網(wǎng)絡(luò)的更新步長為50，共訓(xùn)練2000輪。設(shè)定攔截彈總量為20，低層、中層以及高層攔截彈的數(shù)量分別為11:6:3。其中，高層攔截彈對(duì)于遠(yuǎn)程目標(biāo)的毀傷概率最大，為85%；對(duì)于中程目標(biāo)的毀傷概率為40%。中層攔截彈對(duì)于中程目標(biāo)的毀傷概率最大，為85%；而對(duì)于遠(yuǎn)程目標(biāo)的毀傷概率為55%。低層攔截彈對(duì)于近程目標(biāo)和高超聲速目標(biāo)具有較高的毀傷概率，分別為90%和55%。

經(jīng)過2000輪的訓(xùn)練后，得到的DQN學(xué)習(xí)曲線如圖3所示。由圖3可知，在訓(xùn)練初期，由于ε值較小，DQN對(duì)決策空間進(jìn)行隨機(jī)探索，分配結(jié)果不穩(wěn)定，隨著訓(xùn)練回合數(shù)的增加，利用學(xué)習(xí)完善的DQN進(jìn)行決策，整體毀傷概率逐漸上升并趨于穩(wěn)定，最終穩(wěn)定在0.91左右?；鹆Ψ峙浣Y(jié)果如圖4所示，該火力分配的整體毀傷概率為0.9128，由圖3可知，對(duì)于威脅度最高的遠(yuǎn)程目標(biāo)彈8，DQN分配了兩枚針對(duì)性最強(qiáng)的高層攔截彈以及一枚近程攔截彈進(jìn)行攔截，很大程度上確保毀傷該目標(biāo)；對(duì)于威脅度較高的高超聲速目標(biāo)彈9，DQN則針對(duì)性地分配了3枚低層攔截彈，使該目標(biāo)的毀傷概率達(dá)到90%以上；而對(duì)于威脅度最低的近程彈2,5,1，DQN則各分配了1枚低層攔截彈，既保證了目標(biāo)的毀傷概率，也為攔截其他重要目標(biāo)留出了較多的可支配火力資源。由此，說明DQN能夠綜合考慮目標(biāo)威脅度、攔截彈-目標(biāo)毀傷概率、火力資源配置情況，做出合理的火力分配決策。

圖3 固定場景下DQN訓(xùn)練效果

圖4 固定場景下DQN火力分配方案

此外，在上述場景下，對(duì)僅考慮全局收益的DQN火力分配模型進(jìn)行訓(xùn)練，整體毀傷概率收斂曲線如圖5所示。對(duì)比圖3可知，當(dāng)DQN僅考慮全局收益獎(jiǎng)勵(lì)時(shí)，DQN訓(xùn)練效率降低，收斂效果較差，從而使得最終的火力分配方案不佳。利用圖5訓(xùn)練得到的DQN火力分配模型進(jìn)行仿真測試，分配結(jié)果的整體毀傷概率較低，僅為0.678，火力分配結(jié)果不太理想。綜上對(duì)比分析驗(yàn)證了式(14)綜合考慮單步和全局收益的獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)可帶來的訓(xùn)練效率和決策性能的提升。

圖5 固定場景下僅考慮全局收益的DQN訓(xùn)練效果

5.2.2 隨機(jī)場景下的DQN火力分配測試與分析

考慮實(shí)際作戰(zhàn)場景中，目標(biāo)規(guī)模通常難以準(zhǔn)確預(yù)測，可用火力資源數(shù)量和配置也會(huì)隨戰(zhàn)場態(tài)勢動(dòng)態(tài)變化。因此，需要火力分配方法對(duì)WTA場景要素的變化具有較好的魯棒性。考慮目標(biāo)-攔截彈數(shù)量變化，毀傷概率和目標(biāo)威脅度在小范圍內(nèi)浮動(dòng)的WTA隨機(jī)場景下，對(duì)DQN火力分配模型進(jìn)行訓(xùn)練。每一輪的訓(xùn)練場景中，目標(biāo)數(shù)量和攔截彈數(shù)量分別為[20, 30]和[30, 60]之間的隨機(jī)整數(shù)，其中近、中和遠(yuǎn)程目標(biāo)數(shù)量分別占目標(biāo)總量的20%～40%,20%～40%, 10%～20%，其余為高超聲速目標(biāo)。低、中層攔截彈配比范圍均為30%～40%，剩余為高層攔截彈。

為體現(xiàn)DQN在隨機(jī)場景下的訓(xùn)練效果，對(duì)訓(xùn)練過程進(jìn)行1000次蒙特卡羅仿真，得到的DQN平均學(xué)習(xí)收斂曲線如圖6所示。從圖中可以看出，DQN能夠在場景要素變化的情況下進(jìn)行有效訓(xùn)練，隨著訓(xùn)練的進(jìn)行，平均整體毀傷概率逐步提高并最終收斂于0.9左右。該結(jié)果可以說明本文所提DQN方法在WTA要素變化的場景下具備良好且穩(wěn)定的訓(xùn)練效果。

圖6 1000次蒙特卡羅仿真訓(xùn)練

為了驗(yàn)證本文所提基于DQN的火力分配算法的性能，利用上述訓(xùn)練得到的DQN火力分配模型與文獻(xiàn)[10]中的基于改進(jìn)粒子群算法(Particle Swarm Optimization, PSO)的WTA優(yōu)化方法，以及基于目標(biāo)威脅度的隨機(jī)分配法進(jìn)行比較。其中，PSO方法的種群規(guī)模設(shè)為60，迭代次數(shù)為5000；隨機(jī)法可描述為針對(duì)第j個(gè)可用火力單元，產(chǎn)生[0,1]之間的隨機(jī)數(shù)，若滿足

則將該火力單元分配給第i+1個(gè)目標(biāo)，其中ωi為歸一化的目標(biāo)威脅度。該分配方法使得火力單元有更大的概率分配給威脅度較高的目標(biāo)。

設(shè)置如表4所示的3個(gè)測試用例，測試時(shí)的毀傷概率各類型目標(biāo)數(shù)量占比和各類型攔截彈數(shù)量占比的設(shè)定與訓(xùn)練場景保持一致。在訓(xùn)練場景中，目標(biāo)數(shù)量和攔截彈數(shù)量分別在[20,30]和[30,60]之間隨機(jī)取值，測試用例1是一個(gè)較小規(guī)模的WTA場景，目標(biāo)和攔截彈數(shù)量分別為15和25，目標(biāo)和攔截彈的數(shù)量規(guī)模均低于DQN模型訓(xùn)練時(shí)的各自最小規(guī)模；用例3是一個(gè)較大規(guī)模的WTA場景，目標(biāo)、攔截彈數(shù)量分別為35和50，其目標(biāo)數(shù)量規(guī)模大于DQN模型訓(xùn)練時(shí)的最大規(guī)模。

表4 測試用例參數(shù)

3種方法在不同測試場景下產(chǎn)生的目標(biāo)群整體毀傷概率和運(yùn)行時(shí)間如表5所示，隨著WTA規(guī)模的增大，基于改進(jìn)PSO方法的搜索空間規(guī)模爆炸式增長，受限于種群規(guī)模和迭代次數(shù)，所得解的質(zhì)量不斷下降，尤其在用例3中，由于搜索空間的急劇增大，該方法求解得到的整體毀傷概率下降到了0.75左右，且耗時(shí)很長，難以滿足高動(dòng)態(tài)場景下火力分配決策的快速性需求。而基于DQN的火力分配模型得益于充分的訓(xùn)練，基于良好的網(wǎng)絡(luò)參數(shù)，能夠適應(yīng)目標(biāo)和火力資源配置動(dòng)態(tài)變化的情況，在3個(gè)測試用例下都能保持較好的求解質(zhì)量，尤其是在用例3，較大規(guī)模的火力分配問題中也能保持0.85以上的毀傷概率，且能夠滿足決策快速性需求。此外，用例1和用例3的測試結(jié)果表明，模型能夠適應(yīng)超出訓(xùn)練場景參數(shù)范圍的WTA場景，因此，基于訓(xùn)練得到的DQN模型對(duì)于非預(yù)期內(nèi)的場景參數(shù)變化情況，包括目標(biāo)和攔截彈數(shù)量、毀傷概率等變化情況，具有一定的魯棒性，可適用于戰(zhàn)場中的突發(fā)動(dòng)態(tài)情況下的火力分配應(yīng)用。

表5 3種場景測試結(jié)果

6 結(jié)束語

本文考慮由不同性能攔截彈組成的一體化導(dǎo)彈防御系統(tǒng)對(duì)不同類型的來襲目標(biāo)群實(shí)施火力分配的問題，提出了一種融合改進(jìn)AHP和DQN的WTA優(yōu)化方法。首先，應(yīng)用基于熵值法的改進(jìn)AHP方法評(píng)估來襲目標(biāo)威脅度，本文方法由于引入了目標(biāo)威脅指標(biāo)量化數(shù)據(jù)的分布差異，相較于典型的AHP方法能夠較好地突出區(qū)分目標(biāo)威脅差異，結(jié)果具有良好的合理性。接著，針對(duì)基于傳統(tǒng)啟發(fā)式方法求解中大規(guī)模WTA問題效率低、優(yōu)化解質(zhì)量不高的問題，本文在DQN框架下將WTA過程看作一個(gè)多段決策過程，通過設(shè)置可綜合兼顧訓(xùn)練效率和決策性能的獎(jiǎng)勵(lì)函數(shù)，引入公平采樣策略等手段，建立了基于DQN的火力分配方法。大量仿真結(jié)果表明，在固定和隨機(jī)的WTA場景下，本文提出的基于DQN的WTA優(yōu)化方法均能在較少的訓(xùn)練次數(shù)下快速收斂，針對(duì)不同的測試用例均能給出較優(yōu)的火力分配方案，且對(duì)于WTA場景參數(shù)動(dòng)態(tài)變化具有一定的適應(yīng)性，具備對(duì)戰(zhàn)場環(huán)境動(dòng)態(tài)變化的適應(yīng)能力。同時(shí)，相較于經(jīng)典的PSO算法，本文算法在處理中大規(guī)模WTA問題時(shí)優(yōu)勢明顯，具備決策的快速性和準(zhǔn)確性。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放