亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于DQN的反艦導彈火力分配方法研究

        2019-09-13 08:40:28棟,蘇航,朱
        導航定位與授時 2019年5期
        關鍵詞:艦艇深度策略

        閻 棟,蘇 航,朱 軍

        (清華大學計算機科學與技術系,北京 100086)

        0 引言

        隨著軍事技術的不斷發(fā)展,各種高精尖武器在戰(zhàn)爭中的地位日益凸顯。反艦導彈作為海上作戰(zhàn)的主要武器,以其對敵的精準打擊和高效毀傷能力在歷次海戰(zhàn)中均取得不俗的戰(zhàn)績。與此同時,為了有效攔截反艦導彈,艦船的各種防御設施對于反艦導彈的預警、偵查、攔截和干擾技術都有顯著的提高,因此如何提升反艦導彈對敵方艦船的毀傷能力就成為現(xiàn)代海上作戰(zhàn)的關鍵環(huán)節(jié),而保證反艦導彈安全快速突防和精確高效打擊就是其中的核心。在給定反艦導彈自身技戰(zhàn)術性能的前提下,如何進行反艦導彈的火力分配決定了攻擊的最終毀傷效果。

        反艦導彈的火力分配是以對敵方艦艇編隊的毀傷效果最大化為目標[1]。目前國內(nèi)外對于反艦導彈攻擊艦艇編隊的火力分配問題基本都是針對特定的場景進行建模[11-12],對于特定的情況反艦導彈火力分配在考慮打擊的代價和收益的情況下,將問題轉化為最大化打擊收益和最小化打擊代價的算法問題。但是由于在實際復雜戰(zhàn)場環(huán)境下綜合求解上述問題涉及參數(shù)過多,傳統(tǒng)的求解方法(枚舉法、分支定界法和動態(tài)規(guī)劃的方法[2])易于實現(xiàn)但搜索速度太慢,智能算法(遺傳算法、神經(jīng)網(wǎng)絡算法)存在難以擴展的問題。例如文獻[3]提出的一種基于神經(jīng)網(wǎng)絡的火力分配求解方法,該方法合理地使用了神經(jīng)網(wǎng)絡但容易得到不穩(wěn)定的解。目前大多數(shù)的反艦導彈火力分配模型在方法上存在著一定的缺陷和不足,優(yōu)化效果有限且無法推廣到大規(guī)模、高強度的軍事對抗當中,因此如何建立更加準確、全面和合理的火力分配模型以及如何改進傳統(tǒng)的智能優(yōu)化算法成為當前的研究熱點。

        隨著人工智能技術的突破性進展,特別是強化學習技術在智能控制領域的發(fā)展給反艦導彈的火力分配問題帶來了新的思路。強化學習算法的機制類似人類的決策過程,智能體的每一個動作都是在策略的驅動下完成的,而策略是智能體通過與環(huán)境的交互得到的。智能體通過交互式的學習從環(huán)境中得到獎勵或者懲罰,并根據(jù)學習過程中的累加回報值不斷更新策略。強化學習主要包含兩類算法,一類是基于值函數(shù)估計的方法,如Q-learning[3]和SARSA[4]等,這類方法具有較好的理論基礎,算法的收斂性和解的質量相對有保證;另一類是在參數(shù)空間中進行求解的方法,其中典型方法包括TRPO[5]和Actor-Critic[6]等,其主要思想是將策略參數(shù)化,直接在參數(shù)空間中對問題進行求解,在許多場景下求解效率較高,但缺乏理論保證。如前所述,這兩類經(jīng)典的強化學習算法僅能夠解決一些小規(guī)模問題。在面對現(xiàn)實世界中大規(guī)模、復雜的問題時,由于無法遍歷整個狀態(tài)空間,所以不能在一個合理的時間內(nèi)給出結果。近年來,深度神經(jīng)網(wǎng)絡與強化學習相結合,形成了深度強化學習方法。利用深度神經(jīng)網(wǎng)絡[7]來解決強化學習中狀態(tài)空間的泛化問題,在許多領域取得了突破[8,13-15]。其中用深度神經(jīng)網(wǎng)絡擬合Q值函數(shù),同時使用Q-learning更新規(guī)則來迭代Q值函數(shù)的方法稱為深度Q值網(wǎng)絡(Deep Q-value Network, DQN)。使用深度Q值網(wǎng)絡訓練的智能體在視頻游戲上的表現(xiàn)達到或者超過了人類專家的水平[9]。本文針對反艦導彈火力分配問題,利用深度Q值網(wǎng)絡在高維度的解空間學習反艦導彈火力分配策略并最終實現(xiàn)打擊效果的優(yōu)化。

        1 反艦導彈突防模型

        反艦導彈對目標艦艇編隊實施攻擊,目標艦艇編隊對來襲反艦導彈實施電子干擾、艦空導彈攔截和密集陣火力攔截。為了簡化反艦導彈的火力分配模型,本文采用單一類型的反艦導彈,以多彈協(xié)同的方式打擊艦艇編隊,綜合考慮導彈飛行及目標捕獲的可靠性、抗干擾能力、抗導彈攔截能力和密集陣攔截等對抗全過程,計算打擊任務成功率。

        整個過程中可假設反艦導彈和防空導彈均做勻速直線運動,在攻擊過程中艦艇編隊的隊形保持不變,艦艇編隊可將態(tài)勢信息進行共享。反艦導彈到達指定位置后導引頭開機,開始搜索目標艦艇,一旦捕獲目標即對目標進行識別并判斷相關威脅,此時由于目標艦艇編隊發(fā)現(xiàn)來襲反艦導彈,開始捕捉跟蹤并將相關數(shù)據(jù)同步傳送給其他艦艇。

        1.1 艦艇編隊陣型設定

        艦艇編隊一共有四種不同的陣型設定,如圖1所示,從左上到右下依次為3支艦艇、6支艦艇、8支艦艇和10支艦艇。艦艇位置在圖中以小圓點形式表示,其中:紅色為宙斯盾驅逐艦,擁有8個火力通道,冷卻時間20s,防空導彈攔截半徑為20km;藍色為普通驅逐艦,擁有4個火力通道,冷卻時間25s,防空導彈攔截半徑為15km;黃色為補給艦,沒有火力通道。各個艦艇的防空范圍在圖中以綠色圓圈表示。所有艦艇都擁有密集陣攔截能力,密集陣攔截半徑為3km,在圖中為簡潔起見不予展示。

        圖1 艦艇編隊設定Fig.1 Fleet formation setting

        1.2 艦艇編隊毀傷概率模型

        為了衡量突防策略的優(yōu)劣,此處對艦艇編隊毀傷概率模型進行簡要說明。假設一共有N枚反艦導彈同時在指定位置發(fā)射,每一枚導彈從發(fā)射到命中的過程相互獨立。該過程一共需要經(jīng)歷如下4個步驟:

        1)可靠飛行及目標捕獲流程

        反艦導彈之間相互獨立,其概率分布符合二項分布,N0發(fā)導彈中有i枚導彈捕獲攻擊目標的概率為

        (1)

        其中,N0為導彈初始彈量,P1為單彈能夠可靠飛行并成功捕獲目標的概率,其值為0.98。

        2)各類干擾流程

        在準備攔截反艦導彈的過程中,艦艇編隊對反艦導彈實施干擾,默認在準備使用干擾設備的情況下一定會使用該設備,且干擾一旦釋放所有的反艦導彈都會受到干擾。根據(jù)反艦導彈的抗干擾概率計算突防彈量,概率分布采用二項分布計算。各導彈之間相互獨立,其概率分布符合二項分布,N1枚導彈中有N2枚導彈對抗干擾成功的概率計算方法如下

        (2)

        (3)

        3)防空導彈攔截

        當反艦導彈到達艦艇防空導彈的防御邊界時,艦艇發(fā)射防空導彈對反艦導彈進行攔截。對于單次攔截事件,按照獨立事件處理,防御艦船火力通道有限,一個火力通道只能導引一枚防空導彈對反艦導彈進行攔截,在考慮協(xié)防的情況下,需要計算攔截次數(shù)。在整個攔截過程中,攔截次數(shù)可以分為目標艦艇對反艦導彈的攔截以及協(xié)防艦艇對反艦導彈的攔截兩種。對于協(xié)防艦艇,在保證自身安全的情況下對目標艦艇提供保護,每次用一枚防空導彈攔截反艦導彈,不存在多枚防空導彈攔截一枚反艦導彈的情況。

        在防空導彈對反艦導彈的攔截過程中,各導彈之間相互獨立,其概率分布符合二項分布,經(jīng)過一次防空導彈攔截后,N1枚導彈中有N2枚導彈成功突防的概率為

        (4)

        其中,P3為單彈突破防空導彈攔截的概率,N1和N2均為非負整數(shù),n為本次攔截的可用火力通道數(shù)目。

        4)密集陣攔截

        其中記一枚導彈在暴露于密集陣時所飛行的距離為d,密集陣攔截半徑為d0=3km;如果單彈在全過程中完全暴露于密集陣,則面對密集陣攔截時能夠成功突防的概率為P4=0.5。

        給定上述4個攔截步驟,設第i枚導彈能夠擊中其目標艦艇j的概率為Pij,則有

        所以最終目標為最大化艦隊中所有艦船的毀傷概率之和pfleet,即將所有導彈的毀傷概率線性加和為

        2 基于深度Q值網(wǎng)絡的反艦導彈火力分配

        2.1 強化學習

        強化學習研究未知環(huán)境下的序列決策問題,其基本理念是基于環(huán)境給出的反饋來決定行為,以取得最大化的累積獎勵。與監(jiān)督學習相比,強化學習的訓練并不需要預設的輸入/輸出對,可通過與環(huán)境的交互自動改善性能。由于其訓練理念的普適性,它在許多其他領域如運籌學、博弈論、控制論、群體智能、信息論、統(tǒng)計學以及遺傳算法等都有相關研究。在機器學習的語境下,強化學習更加注重在線規(guī)劃,需要在探索(在未知的領域)和遵從(現(xiàn)有知識)之間找到平衡。

        2.2 馬爾可夫決策過程

        在強化學習中,未知環(huán)境通常被建模為馬爾可夫決策過程。馬爾可夫決策過程包括如下5個元素,狀態(tài)空間S、動作空間A、變遷函數(shù)T(s,a,s′)、獎勵函數(shù)R(s,a)以及折扣因子λ。在艦隊火力分配問題中,狀態(tài)空間S為當前已發(fā)射導彈和艦隊毀傷狀況;動作空間A為所有可選艦船目標;變遷函數(shù)T(s,a,s′)為發(fā)射一枚導彈之后艦隊從狀態(tài)s轉移到狀態(tài)s′的概率;獎勵函數(shù)R(s,a)為發(fā)射導彈后增加的毀傷數(shù)值;折扣因子λ取0.99.

        具體地,假設在t-1時刻已發(fā)射了t-1枚導彈,將計算得到每一艘艦艇j的當前毀傷概率向量Pj(t-1)作為狀態(tài)s。將t時刻,智能體進行的動作a定義為給定當前狀態(tài)s選擇第t枚導彈所瞄準的艦艇和它的發(fā)射位置。隨后根據(jù)T(s,a,s′)得到狀態(tài)s′,即t時刻每一艘艦艇的毀傷概率Pj(t)。而這次動作所獲得的獎勵為Pj(t)-Pj(t-1)。

        2.3 Q值學習算法

        強化學習的目標是最大化累計獎勵值,因此可用未來可能獲得的累計獎勵值來評價從一個狀態(tài)出發(fā)選擇每個動作的的優(yōu)劣。使用Q(s,a)來表示從狀態(tài)s出發(fā)選擇動作a所可能獲得的累計獎勵值,在后續(xù)的文中稱其為Q值。在獲得正確的Q值后,在每個狀態(tài)選擇Q值最大的動作,就是智能體的最佳策略。Q值學習算法的核心思想就是通過與環(huán)境的交互,迭代逼近真實的Q值,其公式如下

        Q(st,at)=Q(st,at)+α(rt+

        Q值學習算法給每個狀態(tài)動作對一個隨機的初始值。從初始狀態(tài)出發(fā),選擇Q值最大的動作,按照這個過程不斷的積累數(shù)據(jù)。每一組數(shù)據(jù)表示為一個五元組(st,a,st+1,r,t),將每一組數(shù)據(jù)代入上述公式更新相應的Q值,交替進行數(shù)據(jù)的積累和Q值的更新,直到Q值收斂。其算法具體流程如表1所示。

        表1 深度Q值網(wǎng)絡算法流程

        2.4 深度Q值網(wǎng)絡

        傳統(tǒng)的Q值學習算法只能處理低維數(shù)據(jù),而現(xiàn)實生活中的實際問題的狀態(tài)空間往往非常巨大,無法采用遍歷的方式更新。因此,研究人員采用深度神經(jīng)網(wǎng)絡解決Q值在不同狀態(tài)之間的泛化問題,從而提出了深度Q值網(wǎng)絡[10]。

        如圖2所示,本文所采用深度Q值網(wǎng)絡由兩層全連接層組成。值得說明的是,由于本文所處理問題的狀態(tài)可以表示為一維概率向量,所以網(wǎng)絡結構中沒有采用常見深度Q值網(wǎng)絡中的卷積層。深度Q值網(wǎng)絡采用ReLU作為激活函數(shù),每層的神經(jīng)元數(shù)量均為128,采用隨機方式對網(wǎng)絡權重初始化。

        圖2 深度Q值網(wǎng)絡結構示意圖Fig.2 Structural diagram of deep Q-value network

        2.5 訓練參數(shù)

        Q值學習為確定性算法,為保證算法能夠找到最優(yōu)值,本文在訓練過程中采用epsilon貪心法來探索新的動作序列,其中epsilon值隨訓練進行而線性遞減。訓練深度Q值網(wǎng)絡的所有相關參數(shù)如表2所示。

        表2 深度Q值網(wǎng)絡訓練參數(shù)

        3 仿真驗證

        在實驗部分,本文通過在四種不同的艦隊配置下計算深度Q值網(wǎng)絡和其他三種策略的毀傷概率來驗證深度Q值網(wǎng)絡的實際效果。圖3展示了在10艘艦艇,最多64枚導彈的設定下,深度Q值網(wǎng)絡的訓練情況。其中橫軸為訓練周期數(shù),縱軸為毀傷效能;圖4則展示了在相同設定下深度Q值網(wǎng)絡損失函數(shù)的變化情況。

        圖3 深度Q值網(wǎng)絡訓練效果Fig.3 Training result of deep Q-value network

        圖4 深度Q值網(wǎng)絡收斂曲線Fig.4 Convergence of deep Q-value network

        從圖3中可以看出,在前60個訓練周期中深度Q值網(wǎng)絡所給出的毀傷值都處在較低的水平。這是由于在這個階段,深度Q值網(wǎng)絡輸出的策略主要被epsilon貪心策略決定,以探索各種可能的策略為主。經(jīng)過前60個訓練周期之后,深度Q值網(wǎng)絡對整個樣本空間有了一個相對全面的采樣。在此基礎上,神經(jīng)網(wǎng)絡通過訓練不斷對Q值進行泛化,同時epsilon探索值也下降到了0.1,因此從60個訓練周期開始性能逐步上漲直到訓練結束。

        圖4展示了損失函數(shù)隨訓練時間的變化,從圖4中可以看到,在前30個訓練周期中,epsilon貪心策略的探索值從0.9線性下降到0.5,因此深度Q值網(wǎng)絡損失函數(shù)顯露出先下降后上升的波動趨勢。而在經(jīng)過前30個訓練周期后,探索值從0.5逐步下降到0.1,此時過去與環(huán)境交互獲得的經(jīng)驗開始占據(jù)主導地位,因此損失函數(shù)不斷下降,直至趨近于0。

        圖5展示了在4種編隊陣型(艦船數(shù)目依次為3,6,8,10)的設定下,給定不同的導彈數(shù)目上限值,每個策略所能達到的最好表現(xiàn)。橫軸表示導彈數(shù)目,縱軸表示各個艦艇的平均毀傷概率。除了深度Q值網(wǎng)絡之外,還引入了其他3個策略進行比較:

        1)隨機策略:在離艦隊中心50km的圓上隨機選擇每一枚導彈的發(fā)射位置,并且隨機選擇其目標艦艇;

        2)最近攻擊策略:將導彈發(fā)射位置均勻分布在50km圓上,每枚導彈只會打離自己發(fā)射位置最近的艦艇;

        3)平均攻擊策略:給每一艘艦艇分配幾乎相同數(shù)量的導彈去攻擊,并且如果2枚導彈的目標是同一艘艦艇,那么它們的發(fā)射位置完全重合,這樣能最大限度減小密集陣攔截的效果。

        從圖5中可以看出,深度Q值網(wǎng)絡(圖標為DQN,紅色曲線)在各個場景中均比其他策略有著明顯的優(yōu)勢,最近攻擊策略(圖標為heuristic 1,黃色曲線)和平均攻擊策略(圖標為heuristic 2,綠色曲線)表現(xiàn)不相上下,隨機策略(圖標為random,藍色曲線)表現(xiàn)最差。在3艘艦艇的配置下,由于其防御能力不足,各個策略在導彈數(shù)目達到一定數(shù)量之后的差距不是很明顯,但是導彈數(shù)目較少時深度Q值網(wǎng)絡一直保持明顯優(yōu)勢;6艘和8艘艦艇的場景下,深度Q值網(wǎng)絡在各個導彈上限設置下均有著比其他方法更加明顯的優(yōu)勢,雖然在導彈數(shù)目增多之后,性能逐漸被其他兩種策略追上;10艘艦艇防御能力最強,但是深度Q值網(wǎng)絡仍然取得了最佳的毀傷效果,并且遙遙領先其他策略,直至導彈數(shù)目增加到上限64時仍相對其他策略保持著巨大的優(yōu)勢。

        圖5 不同策略在不同設定下的最優(yōu)表現(xiàn)Fig.5 Experiment results with different settings

        更進一步地考察深度Q值網(wǎng)絡的火力分配策略可以發(fā)現(xiàn),在反艦導彈數(shù)目未滿足飽和攻擊標準的情況下,對任何一種艦艇編隊,深度Q值網(wǎng)絡均能自動學習出集火策略,即集中攻擊艦隊中防御較弱的普通驅逐艦,避開防御能力較強的宙斯盾驅逐艦。在火力分配問題上,深度Q值網(wǎng)絡不僅求解效果優(yōu)于其他策略,而且能夠很好地為人類所理解。

        4 結論

        本文針對反艦導彈的火力分配問題,提出了一種基于深度Q值網(wǎng)絡的解決方案。算法分析與實驗結果表明,與傳統(tǒng)方案相比,深度Q值網(wǎng)絡在各種艦船編隊下都能取得最佳的毀傷效果,且具有良好的可解釋性。在不使用任何先驗信息的情況下,深度Q值網(wǎng)絡通過純粹的訓練過程,自動學到了集中火力攻擊艦隊防空薄弱角度的策略。

        目前的艦隊防空模型與真實情況相比,做了較多簡化處理。未來可通過進一步細化防空模型使其更加貼近真實情況,從而使得深度Q值網(wǎng)絡的計算結果更加符合作戰(zhàn)要求。

        猜你喜歡
        艦艇深度策略
        艦艇入列
        海戰(zhàn)中的蒙面殺手——隱形艦艇
        深度理解一元一次方程
        例談未知角三角函數(shù)值的求解策略
        我說你做講策略
        深度觀察
        深度觀察
        深度觀察
        高中數(shù)學復習的具體策略
        Passage Four
        私人毛片免费高清影视院| 麻豆精品在线视频观看| 亚洲国产精品美女久久| 国产婷婷色综合av蜜臀av| 国产高级黄区18勿进一区二区| 国产一区,二区,三区免费视频| 丝袜美腿丝袜美腿丝袜美腿丝袜| 免费a级毛片18禁网站app| 少妇内射高潮福利炮| 国产精品久久久久久久y| 国产精品高清国产三级国产av| 草色噜噜噜av在线观看香蕉| 日本无遮挡吸乳呻吟视频| 国产高清白浆| 亚洲av激情一区二区| 国产丶欧美丶日本不卡视频| 亚洲饱满人妻视频| 亚洲高清美女久久av| 中文字日产幕码三区的做法步| 一本一道av无码中文字幕﹣百度| 亚洲日韩图片专区小说专区 | 免费观看mv大片高清| 999久久久免费精品国产| 无码伊人久久大蕉中文无码| 国产av一卡二卡日韩av| 国语对白做受xxxxx在| 亚洲综合色一区二区三区另类| 一区二区免费国产a在亚洲| 一区二区三区美女免费视频| 无套内射蜜桃小视频| 国产一区二区三区免费在线视频| av在线不卡免费中文网| 亚洲a∨无码男人的天堂| 亚洲美女影院| 国产剧情亚洲一区二区三区| 久久精品国产亚洲av麻豆长发| 大地资源中文在线观看官网第二页 | 国产免费丝袜调教视频| 国产在线观看免费一级| 亚洲综合自拍偷拍一区| 中文字幕天天躁日日躁狠狠躁免费|