亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種基于DQN的改進(jìn)NSGA-II算法?

        2023-08-04 05:45:20吳亞楠
        艦船電子工程 2023年4期
        關(guān)鍵詞:收斂性種群深度

        吳亞楠 張 劍

        (武漢數(shù)字工程研究所 武漢 430205)

        1 引言

        武器目標(biāo)分配(Weapon Target Assignment,WTA)問題,又稱導(dǎo)彈分配問題(Missile Assignment Prob?lem,MAP),起源于20 世紀(jì)50 年代[1],是作戰(zhàn)指揮控制系統(tǒng)所要解決的重點(diǎn)問題。武器目標(biāo)分配方案是否實(shí)時(shí)、準(zhǔn)確、有效,將直接影響軍事對抗中能否取得更好的作戰(zhàn)效能并盡量減少作戰(zhàn)資源消耗[2]。

        當(dāng)前,已有多種方法可用于求解WTA 問題。其中,以NSGA-II 算法等為代表的智能優(yōu)化算法[3~5],以及由這些算法組合而成的混合優(yōu)化算法[6~8],是目前WTA 問題的主流求解方法。受算法本身原理機(jī)制的影響,直接將NSGA-II 算法應(yīng)用于求解WTA 問題仍然存在無法規(guī)避的缺陷,如算法容易陷入局部最優(yōu)、多樣性不足。近年來,強(qiáng)化學(xué)習(xí)領(lǐng)域發(fā)展勢頭迅猛,有些學(xué)者開始思考將強(qiáng)化學(xué)習(xí)主動探索、不斷試錯的特性與傳統(tǒng)優(yōu)化算法結(jié)合的可能性[9~11]。封碩等[12]提出可采用雙種群“遷徙思想”對傳統(tǒng)單種群NSGA-II 算法進(jìn)行改進(jìn),引入強(qiáng)化學(xué)習(xí)Q-learning 算法來對遷徙操作涉及到的相關(guān)參數(shù)m主動地進(jìn)行優(yōu)化,并通過實(shí)驗(yàn)驗(yàn)證了該做法可避免傳統(tǒng)單種群NSGA-II算法陷入局部最優(yōu),解集具有更好的分布性,但其他兩項(xiàng)遷徙參數(shù)p、q的設(shè)置對算法的最終結(jié)果同樣起著重要的作用。

        本文針對多類型反艦導(dǎo)彈攻擊艦艇編隊(duì)的WTA 問題進(jìn)行研究,首先對數(shù)學(xué)建模過程進(jìn)行簡要介紹,分析海戰(zhàn)場背景下可能影響分配方案結(jié)果的多項(xiàng)因素,建立多目標(biāo)優(yōu)化數(shù)學(xué)模型。為有效求解該模型,本文提出了基于深度強(qiáng)化學(xué)習(xí)的改進(jìn)NSGA-II算法,采用深度強(qiáng)化學(xué)習(xí)和雙種群“遷徙”思想對傳統(tǒng)單種群NSGA-II算法進(jìn)行改進(jìn),通過深度強(qiáng)化學(xué)習(xí)DQN 算法對遷徙操作涉及到的多個(gè)參數(shù)進(jìn)行優(yōu)化。仿真實(shí)驗(yàn)表明,與傳統(tǒng)單種群NS?GA-II 算法、遷徙參數(shù)按照人類經(jīng)驗(yàn)設(shè)置的普通雙種群NSGA-II算法進(jìn)行對比,本文所提出的基于深度強(qiáng)化學(xué)習(xí)的改進(jìn)NSGA-II算法可提升算法性能,減少算法耗時(shí),獲得更好的分配方案集結(jié)果。

        2 問題描述與建模

        在復(fù)雜的海戰(zhàn)場環(huán)境下,武器目標(biāo)分配方案的形成一方面要考慮最大化對敵毀傷效果,另一方面要盡量減少彈藥消耗。除此之外,還需考慮多個(gè)約束條件,如對單個(gè)目標(biāo)所分配彈藥上限、各類型反艦導(dǎo)彈總彈量、反艦導(dǎo)彈所搭載平臺上火力通道數(shù)限制、反艦導(dǎo)彈作用距離限制等。只有全面細(xì)致地考慮代價(jià)和收益兩方面因素,綜合各項(xiàng)約束條件,才能反映真實(shí)的戰(zhàn)場情況,得到更加科學(xué)、合理的武器—目標(biāo)分配方案。因此,本文所研究的WTA問題實(shí)質(zhì)上是一個(gè)多目標(biāo)優(yōu)化問題,如圖1所示。

        圖1 WTA方案優(yōu)化

        3 改進(jìn)NSGA-II算法用于求解彈目分配問題

        3.1 DQN算法優(yōu)化遷徙參數(shù)思想

        文獻(xiàn)[12]提出可采用雙種群“遷徙思想”改善傳統(tǒng)單種群NSGA-II算法的缺陷,首先設(shè)置兩個(gè)獨(dú)立種群1和種群2,令兩種群分別進(jìn)行遺傳演化,在進(jìn)化初期的前p 代每隔q 代令種群1 的前m 個(gè)精英個(gè)體和種群2 的隨機(jī)m 個(gè)個(gè)體進(jìn)行交換,交換后形成新的種群1和種群2,隨后兩種群繼續(xù)尋優(yōu)進(jìn)化,直到達(dá)到終止條件。此時(shí),共有p、q、m 三項(xiàng)遷徙參數(shù)需要確定,本文采用深度強(qiáng)化學(xué)習(xí)DQN 算法,通過智能體與環(huán)境的交互來同時(shí)對三項(xiàng)遷徙參數(shù)進(jìn)行動態(tài)調(diào)整,進(jìn)而提高算法性能,獲得更好的Pareto最優(yōu)方案集。

        3.2 DQN算法要素設(shè)計(jì)

        基于深度強(qiáng)化學(xué)習(xí)DQN 算法對傳統(tǒng)單種群NSGA-II算法進(jìn)行改進(jìn),首先必須用馬爾可夫決策過程進(jìn)行建模,對狀態(tài)空間、動作空間、回報(bào)函數(shù)等進(jìn)行設(shè)計(jì)。本文以種群1和種群2的當(dāng)前收斂性與初始收斂性的比值、當(dāng)前多樣性與初始多樣性的比值作為狀態(tài)空間。選用七點(diǎn)平均距離SPAD[13]作為收斂性衡量指標(biāo),選用指標(biāo)Δ*[14]作為多樣性衡量指標(biāo)。以三個(gè)遷徙參數(shù)p、q、m 的增大、減小、不變作為動作空間,根據(jù)狀態(tài)設(shè)計(jì)相應(yīng)的回報(bào)值,具體細(xì)節(jié)如下。

        1)狀態(tài)空間S

        狀態(tài)St表征當(dāng)前種群收斂性、多樣性與初始種群收斂性、多樣性的比值,即St=(SPAD1_m/SPAD10,SPAD2_m/SPAD20,VAR1_m/VAR10,VAR2_m/VAR20)。其中,SPAD10、SPAD20、VAR10、VAR20 分別表示初始種群1、初始種群2的收斂性值、多樣性值;SPAD1_m、SPAD2_m、VAR1_m、VAR2_m分別表示根據(jù)智能體動作獲取三個(gè)遷徙參數(shù)值,并按照參數(shù)值在環(huán)境中執(zhí)行完相應(yīng)的遷徙操作后當(dāng)前種群1、種群2的收斂性值、多樣性值。

        根據(jù)比值大小,狀態(tài)的意義可分為與初始種群相比遷徙后數(shù)值增大、數(shù)值減小、數(shù)值保持不變,兩個(gè)種群共有4 個(gè)比值,總共3×3×3×3=81 種組合方式,即81 種狀態(tài),目標(biāo)狀態(tài)為4 個(gè)比值均小于1(因收斂性衡量指標(biāo)SPAD和多樣性衡量指標(biāo)Δ*均為值越小越好型),表示按照遷徙參數(shù)值執(zhí)行相應(yīng)的遷徙操作后,當(dāng)前兩種群的收斂性和多樣性均優(yōu)于初始兩種群。

        2)動作空間A

        動作空間的動作設(shè)計(jì)為對p、q、m 三個(gè)遷徙參數(shù)大小的更改,如表1 所示。初始化種群的同時(shí)會隨機(jī)設(shè)定三個(gè)參數(shù)大小在一定范圍內(nèi),用p_random、q_random、m_random分別代表三個(gè)遷徙參數(shù)的初始值。動作空間的每一個(gè)動作是在三個(gè)參數(shù)原基礎(chǔ)上進(jìn)行增加、減少或保持不變,每個(gè)參數(shù)的改變量由事先設(shè)定,如A×popsize=10、B×popsize=1、C×popsize=2,其中popsize=100代表種群大小,A、B、C分別代表參數(shù)p、參數(shù)q、參數(shù)m的調(diào)整比例。

        表1 遷徙參數(shù)調(diào)整

        如表1 所示,動作空間共有1×3×3=9 個(gè)動作可供選擇,其中參數(shù)p 的數(shù)值不可減小或保持不變,因參數(shù)p代表在前p代執(zhí)行遷徙,而遺傳操作一經(jīng)執(zhí)行不可逆轉(zhuǎn),故參數(shù)p只可增大。

        3)回報(bào)函數(shù)R

        本文優(yōu)化的目的在于尋找p,q,m 三個(gè)參數(shù)的最佳值,以使得與之前種群相比,種群1和種群2的收斂性、多樣性指標(biāo)均有所改善。因此,對回報(bào)函數(shù)設(shè)計(jì)如下式所示。

        當(dāng)回報(bào)值Ri(i=1,2,3,4) 的值為0.5 時(shí),代表執(zhí)行遷徙動作后當(dāng)前種群收斂性或多樣性優(yōu)于初始種群。

        3.3 改進(jìn)NSGA-II算法實(shí)現(xiàn)

        將雙種群NSGA-II算法主體部分作為環(huán)境,它將根據(jù)智能體選定的動作獲取三項(xiàng)遷徙參數(shù)的值,在相應(yīng)遺傳代數(shù)執(zhí)行遷徙操作,并根據(jù)當(dāng)前遷徙操作的結(jié)果,將相應(yīng)回報(bào)值返回至智能體。

        主程序DQN算法實(shí)現(xiàn)步驟如表2所示,主要描述了算法如何進(jìn)行動作選擇、如何訓(xùn)練Q網(wǎng)絡(luò)等細(xì)節(jié)。

        表2 DQN算法實(shí)現(xiàn)步驟

        環(huán)境更新部分的算法步驟如表3 所示,主要描述了環(huán)境如何根據(jù)智能體的動作獲取相應(yīng)的遷徙參數(shù),對狀態(tài)進(jìn)行更新等。

        表3 環(huán)境更新算法步驟

        當(dāng)網(wǎng)絡(luò)訓(xùn)練完成后,即可利用訓(xùn)練好的Q網(wǎng)絡(luò)對遷徙參數(shù)進(jìn)行調(diào)整優(yōu)化,并在優(yōu)化完成后繼續(xù)執(zhí)行遺傳迭代,直到獲得最終的Pareto 最優(yōu)解集結(jié)果。該部分的算法步驟如表4所示。

        表4 驗(yàn)證測試算法步驟

        4 仿真實(shí)驗(yàn)

        4.1 想定設(shè)計(jì)

        假設(shè)某一時(shí)刻,我方?jīng)Q定對敵方艦艇編隊(duì)發(fā)起攻擊。初始狀態(tài)下,我方共有4 種不同類型的反艦導(dǎo)彈,敵艦編隊(duì)共有5 艘艦船目標(biāo),一些參數(shù)信息詳見表5~表8,數(shù)據(jù)來源參考文獻(xiàn)[15]。規(guī)定整個(gè)過程中分給各目標(biāo)的彈量總上限均為12 枚,避免造成彈藥浪費(fèi)。算法遺傳迭代終止后輸出武器目標(biāo)分配方案,作為一個(gè)打擊波次。每波次打擊結(jié)束后評估各目標(biāo)的毀傷程度,確定剩余彈量,根據(jù)戰(zhàn)場信息并結(jié)合表8 確定是否繼續(xù)解算下一波次方案,規(guī)定對所有目標(biāo)的毀傷程度應(yīng)為重傷或擊沉。

        表5 目標(biāo)威脅程度

        表6 反艦導(dǎo)彈基本信息

        表7 導(dǎo)彈對目標(biāo)毀傷概率

        表8 毀傷程度區(qū)間

        4.2 實(shí)驗(yàn)結(jié)果與分析

        設(shè)置對比實(shí)驗(yàn)來驗(yàn)證本文基于深度強(qiáng)化學(xué)習(xí)的改進(jìn)NSGA-II 算法在求解WTA 問題上的有效性,選擇傳統(tǒng)單種群NSGA-II 算法、普通雙種群NSGA-II算法(遷徙參數(shù)按照人類經(jīng)驗(yàn)設(shè)置)、與本文方法進(jìn)行對比,比較最終生成的Pareto 解集的收斂性、多樣性、算法耗時(shí)長短等。

        1)收斂性、多樣性對比

        將上述三種算法的程序各自獨(dú)立運(yùn)行20 次,記錄每一次運(yùn)行后最終種群的收斂性值、多樣性值,對20 次的結(jié)果取平均,結(jié)果如表9 所示。由表可知,對比傳統(tǒng)單種群NSGA-II 算法,本文的改進(jìn)算法結(jié)果在收斂性和多樣性上均有一定程度的提升。進(jìn)一步對比普通雙種群NSGA-II 算法和本文方法,可以看出本文所提出的基于DQN 的改進(jìn)NS?GA-II 算法在收斂性和多樣性上與對比算法表現(xiàn)基本一致。

        表9 算法收斂性與多樣性對比

        2)算法運(yùn)行耗時(shí)對比

        記錄三種算法生成最終Pareto 前沿的運(yùn)行時(shí)間,將20 次運(yùn)行耗時(shí)取平均值,結(jié)果如表10 所示。由表10 可知,與其他兩種算法進(jìn)行對比,盡管本文基于深度強(qiáng)化學(xué)習(xí)的改進(jìn)NSGA-II 算法前期需要較久的時(shí)間用于模型的訓(xùn)練,但在最后的優(yōu)化階段耗時(shí)較少,表現(xiàn)更佳。

        表10 算法運(yùn)行耗時(shí)

        3)優(yōu)化目標(biāo)函數(shù)值對比

        將三種算法的程序各自獨(dú)立運(yùn)行20 次,記錄每次最終Pareto前沿結(jié)果中目標(biāo)函數(shù)f1的最大值、f2的最小值,繪制兩個(gè)目標(biāo)函數(shù)的20 次結(jié)果的統(tǒng)計(jì)箱線圖如圖2、圖3 所示,從圖可以看出,傳統(tǒng)單種群NSGA-II 算法在兩個(gè)目標(biāo)函數(shù)上的數(shù)據(jù)均存在較大的波動,表明該方法的解集結(jié)果隨機(jī)性較大,不夠穩(wěn)定;雙種群NSGA-II 算法和本文方法均引入了遷徙思想,可在傳統(tǒng)單種群NSGA-II算法基礎(chǔ)上改善不穩(wěn)定的問題;對雙種群NSGA-II算法和本文方法做進(jìn)一步對比可知,本文方法將深度強(qiáng)化學(xué)習(xí)DQN 用于遷徙參數(shù)的優(yōu)化,盡管可以在算法性能和算法耗時(shí)上獲得一定的改善,但算法在魯棒性上略顯不足。

        圖2 不同算法對敵毀傷箱型圖

        圖3 不同算法資源消耗箱型圖

        5 結(jié)語

        本文針對傳統(tǒng)單種群NSGA-II 算法在求解WTA 數(shù)學(xué)模型時(shí),容易陷入局部最優(yōu)、多樣性不足等缺陷,提出可引入深度強(qiáng)化學(xué)習(xí)和雙種群“遷徙”思想對其進(jìn)行改進(jìn),利用深度強(qiáng)化學(xué)習(xí)DQN 算法來對“遷徙”操作涉及到的三項(xiàng)參數(shù)進(jìn)行優(yōu)化。面向具體的海戰(zhàn)場武器目標(biāo)分配場景進(jìn)行仿真實(shí)驗(yàn),結(jié)果顯示:與傳統(tǒng)單種群NSGA-II 算法、遷徙參數(shù)依靠人類經(jīng)驗(yàn)進(jìn)行設(shè)置的普通雙種群NSGA-II 算法相比,本文所提出的基于深度強(qiáng)化學(xué)習(xí)的改進(jìn)NSGA-II 算法可以獲得更好的收斂性、多樣性結(jié)果,且算法耗時(shí)更少,驗(yàn)證了本文改進(jìn)方法的有效性。

        猜你喜歡
        收斂性種群深度
        邢氏水蕨成功繁衍并建立種群 等
        山西省發(fā)現(xiàn)刺五加種群分布
        深度理解一元一次方程
        Lp-混合陣列的Lr收斂性
        深度觀察
        深度觀察
        深度觀察
        END隨機(jī)變量序列Sung型加權(quán)和的矩完全收斂性
        行為ND隨機(jī)變量陣列加權(quán)和的完全收斂性
        松弛型二級多分裂法的上松弛收斂性
        女同同志熟女人妻二区| 动漫在线无码一区| 中国精品久久久久国产| 国产一区二区三区男人吃奶| 免费国产在线精品一区| 亚洲av永久无码天堂网手机版| 久热香蕉av在线爽青青| 国产在线视频一区二区三| 国产精品无码翘臀在线观看 | 日韩五十路| 色婷婷久色国产成人免费| 97精品人妻一区二区三区蜜桃| 精品深夜av无码一区二区| 国产精品毛片无码久久| 自拍偷拍另类三级三色四色| 丝袜美腿国产一区精品| 久久99精品久久久久久秒播 | 亚洲国产精品自拍一区| 国产精品久久久精品三级18| 少妇免费av一区二区三区久久 | 青青草原综合久久大伊人| 亚洲av影院一区二区三区四区| 亚洲日本中文字幕乱码| 亚洲精品中文幕一区二区| 波多野结衣中文字幕久久| 免费人成视频欧美| 日本a级黄片免费观看| 人妻哺乳奶头奶水| 91精彩视频在线观看| 中文字幕这里都是精品| 巨爆中文字幕巨爆区爆乳| 国产99久久久久久免费看| 久久亚洲第一视频黄色| 久久一区二区av毛片国产| 精品久久久bbbb人妻| 99这里只有精品| 蜜桃在线一区二区三区| av熟妇一区二区三区| 水蜜桃无码视频在线观看| 国产日韩三级| av中文字幕一区人妻|