亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度強(qiáng)化學(xué)習(xí)的防空反導(dǎo)智能任務(wù)分配*

        2024-04-27 12:12:25劉家義夏智權(quán)王思遠(yuǎn)
        火力與指揮控制 2024年1期
        關(guān)鍵詞:規(guī)則智能策略

        劉家義,王 剛,夏智權(quán),王思遠(yuǎn),付 強(qiáng)

        (1.國(guó)防大學(xué)聯(lián)合作戰(zhàn)學(xué)院,石家莊 050000;2.空軍工程大學(xué)防空反導(dǎo)學(xué)院,西安 710051;3.解放軍93126部隊(duì),北京 100000)

        0 引言

        強(qiáng)博弈對(duì)抗性是現(xiàn)代戰(zhàn)爭(zhēng)最大的特點(diǎn)之一,大規(guī)模博弈對(duì)抗是一個(gè)持續(xù)決策的過(guò)程,需要針對(duì)局勢(shì)的變化,作出適應(yīng)性較好的決策,發(fā)揮最大的作戰(zhàn)效能[1]。任務(wù)分配改變了武器目標(biāo)分配火力單元-目標(biāo)的模式,形成任務(wù)-目標(biāo)的分配模式,提高了對(duì)各個(gè)部分的協(xié)調(diào)能力,分配方案更加靈活,為最大化作戰(zhàn)效能提供根本保證[2]。

        防空反導(dǎo)作戰(zhàn)體系是一個(gè)部署范圍廣且松散耦合、異構(gòu)結(jié)構(gòu)的系統(tǒng),其面臨的威脅可能是大規(guī)模的體系空襲,也可能是小規(guī)模的戰(zhàn)術(shù)偷襲,整個(gè)戰(zhàn)場(chǎng)態(tài)勢(shì)充滿了復(fù)雜性和不確定性[3]。為了更好地適應(yīng)信息時(shí)代戰(zhàn)爭(zhēng)需求,防空反導(dǎo)任務(wù)分配的方法必須具有求解大規(guī)模復(fù)雜化問(wèn)題的能力和應(yīng)對(duì)突發(fā)性事件的動(dòng)態(tài)處理能力。近年來(lái),人工智能技術(shù)在即時(shí)戰(zhàn)略游戲[4]、自動(dòng)駕駛[5]、網(wǎng)絡(luò)資源優(yōu)化[6]等多個(gè)領(lǐng)域取得了較好的應(yīng)用效果。其較快的反應(yīng)性和較高的動(dòng)態(tài)性正是信息時(shí)代防空反導(dǎo)任務(wù)分配所需要的。因此,本文討論了當(dāng)前防空反導(dǎo)任務(wù)分配的發(fā)展需求和所面臨的挑戰(zhàn);基于OODA 理論和決策問(wèn)題的本質(zhì),分析了防空反導(dǎo)智能任務(wù)分配方法的優(yōu)勢(shì),提出了當(dāng)前研究亟待解決的關(guān)鍵問(wèn)題,并給出了有望解決這些問(wèn)題的關(guān)鍵技術(shù)。

        1 防空反導(dǎo)任務(wù)分配需求分析

        1.1 防空反導(dǎo)任務(wù)分配

        根據(jù)John Boyd 的作戰(zhàn)指揮理論,可以將作戰(zhàn)指揮的過(guò)程抽象為觀察(Observe)、判斷(Orient)、決策(Decide)和行動(dòng)(Act)4個(gè)有序循環(huán)的過(guò)程[7],即OODA 環(huán)理論?;谶@一理論,防空反導(dǎo)作戰(zhàn)的具體流程如圖1所示。

        圖1 防空反導(dǎo)作戰(zhàn)流程Fig.1 Air defense and anti-missile operations process

        武器目標(biāo)分配對(duì)應(yīng)其中的決策環(huán)節(jié),是指根據(jù)目標(biāo)運(yùn)動(dòng)參數(shù)、數(shù)量和火力單元的數(shù)量、性能、資源等,將目標(biāo)分配給不同火力單元攔截,優(yōu)化作戰(zhàn)效能的技術(shù)[8]。任務(wù)分配在目標(biāo)分配概念基礎(chǔ)上提出,當(dāng)作戰(zhàn)任務(wù)被分解為不同類(lèi)型的元任務(wù)后,目標(biāo)分配將轉(zhuǎn)化為任務(wù)分配。任務(wù)分配以不同類(lèi)型作戰(zhàn)要素的武器裝備為完成任務(wù)的基本單元,將任務(wù)分解為作戰(zhàn)要素可執(zhí)行的元任務(wù)[9]。結(jié)合OODA 理論以及殺傷鏈和殺傷網(wǎng)中信息流轉(zhuǎn)的概念[10],任務(wù)分配可以充分利用防空反導(dǎo)武器系統(tǒng)中的傳感器和攔截器,構(gòu)造一個(gè)嚴(yán)密的殺傷網(wǎng),靈活性高、抗毀性強(qiáng),更適合于分布式作戰(zhàn)。具體流程如圖2所示。

        圖2 防空反導(dǎo)任務(wù)分配過(guò)程Fig.2 Air defense and anti-missile task assignment process

        目前,對(duì)于任務(wù)分配的研究主要從建模和求解兩個(gè)方面進(jìn)行。目前建模方法主要有基于Agent 建模方法[11]、UML和Petri網(wǎng)[12]等。任務(wù)分配求解方法主要有基于準(zhǔn)則的啟發(fā)式算法[13]、遺傳算法[14]、粒子群算法[15]等智能優(yōu)化算法,以及基于市場(chǎng)機(jī)制的拍賣(mài)算法[16]、合同網(wǎng)協(xié)議[17]等。

        1.2 防空反導(dǎo)任務(wù)分配面臨的挑戰(zhàn)

        隨著作戰(zhàn)遠(yuǎn)程化、要素化、智能化的高速發(fā)展,裝備向著松耦合方向發(fā)展,作戰(zhàn)過(guò)程越來(lái)越復(fù)雜,依靠人的判斷決策很難適應(yīng)快節(jié)奏、高強(qiáng)度的對(duì)抗要求,依靠傳統(tǒng)解析模型處理也難以適應(yīng)復(fù)雜多變的場(chǎng)景。

        從敵方的角度來(lái)看,體系化、智能化的發(fā)展使其具有快速高效的OODA 過(guò)程,給我方帶來(lái)巨大壓力,面臨的挑戰(zhàn)是:

        1)必須提高博弈對(duì)抗的應(yīng)對(duì)能力。博弈的強(qiáng)弱體現(xiàn)在基于對(duì)方策略改變自身策略的程度。隨著敵方博弈能力的提升,場(chǎng)景不確定因素增加,需要深入研究應(yīng)對(duì)方法。

        2)縮短O(píng)ODA環(huán)的決策周期。需要在更短時(shí)間內(nèi)知道更多的戰(zhàn)場(chǎng)信息并且更快求解出任務(wù)分配方案,作出決策。并基于態(tài)勢(shì)認(rèn)知進(jìn)行決策,通過(guò)預(yù)測(cè)未來(lái)時(shí)刻的態(tài)勢(shì)來(lái)進(jìn)行超前性決策,進(jìn)一步壓縮決策周期。

        從我方的角度來(lái)看,傳統(tǒng)火力單元-目標(biāo)的模式逐漸被任務(wù)-目標(biāo)的分配模式所取代,裝備解耦合帶來(lái)了更加靈活的分配方式,但同時(shí)也在建模和求解方面提出了新的挑戰(zhàn)。

        3)數(shù)學(xué)模型難以構(gòu)建。在確定場(chǎng)景下,現(xiàn)有方法可以準(zhǔn)確建模并找到最優(yōu)解。但靈活的分配方式帶來(lái)的組合爆炸問(wèn)題,加上許多不確定因素?zé)o法量化,導(dǎo)致建立精確的數(shù)學(xué)模型十分困難。

        4)求解速度不足。裝備的解耦合讓任務(wù)分配虛擬出更多火力單元,產(chǎn)生更多的分配結(jié)果,導(dǎo)致求解空間巨大,現(xiàn)有方法求解目標(biāo)函數(shù)時(shí)速度不足,且雙方的強(qiáng)博弈對(duì)抗導(dǎo)致態(tài)勢(shì)復(fù)雜多變,需要不斷求解目標(biāo)函數(shù),時(shí)間代價(jià)巨大。

        1.3 防空反導(dǎo)任務(wù)分配智能化

        為了解決上述問(wèn)題與挑戰(zhàn),目前在任務(wù)分配智能化方面已經(jīng)有了初步的探索,部分學(xué)者通過(guò)知識(shí)圖譜[18]、多智能體系統(tǒng)[19]、深度強(qiáng)化學(xué)習(xí)[20](deep reinforcement learning,DRL)等方法對(duì)任務(wù)分配進(jìn)行研究。其中,DRL 方法被認(rèn)為是解決防空反導(dǎo)任務(wù)分配問(wèn)題智能化的重要手段之一[21]。DRL 是深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)的結(jié)合,同時(shí)擁有強(qiáng)大的規(guī)則表征能力和最優(yōu)決策能力,其將問(wèn)題建模為一個(gè)馬爾可夫決策過(guò)程,基本框架如圖3所示。

        圖3 深度強(qiáng)化學(xué)習(xí)基本框架Fig.3 Basic framework for deep reinforcement learning

        DRL 以智能體(agent)作為決策的主體,環(huán)境輸出當(dāng)前態(tài)勢(shì),由狀態(tài)感知器將態(tài)勢(shì)轉(zhuǎn)換為狀態(tài)(state),然后智能體作出相應(yīng)的動(dòng)作(action),由指令選擇器將動(dòng)作轉(zhuǎn)換為對(duì)應(yīng)各個(gè)要素的指令輸入環(huán)境,環(huán)境輸出對(duì)應(yīng)的獎(jiǎng)勵(lì)(reward)和下一時(shí)刻態(tài)勢(shì)。DRL 的決策存在時(shí)間關(guān)聯(lián),能讓策略朝著未來(lái)收益最大化的方向優(yōu)化,為解決任務(wù)分配這類(lèi)非完備信息博弈問(wèn)題提供了一種全新高效的方法。

        1.4 基于深度強(qiáng)化學(xué)習(xí)的智能任務(wù)分配

        在防空反導(dǎo)任務(wù)分配問(wèn)題中,規(guī)則可以分為指導(dǎo)性規(guī)則和約束性規(guī)則,其中,指導(dǎo)性規(guī)則是求解的重點(diǎn),現(xiàn)有的求解方法利用目標(biāo)函數(shù)來(lái)表征,求解目標(biāo)函數(shù)來(lái)得到最優(yōu)策略;而基于DRL 的智能任務(wù)分配方法則使用神經(jīng)網(wǎng)絡(luò)的參數(shù)來(lái)模擬規(guī)則空間,利用獎(jiǎng)勵(lì)值引導(dǎo)智能體學(xué)習(xí),通過(guò)強(qiáng)化學(xué)習(xí)算法在訓(xùn)練中尋找一組最優(yōu)的參數(shù),從而獲得最優(yōu)策略。對(duì)于約束性規(guī)則,傳統(tǒng)方法使用各種約束函數(shù)來(lái)表示,而DRL 則是將約束添加在狀態(tài)空間和動(dòng)作空間以及環(huán)境中。因此,現(xiàn)有的傳統(tǒng)方法與基于DRL 的智能任務(wù)分配方法在求解問(wèn)題的本質(zhì)上并無(wú)差異。

        在問(wèn)題求解的過(guò)程中,DRL 的智能表現(xiàn)在以下兩個(gè)方面:

        1)基于數(shù)據(jù)的學(xué)習(xí)能力。知識(shí)是智能的基礎(chǔ),DRL 不需要建立精確的數(shù)學(xué)模型,通過(guò)智能體與環(huán)境交互獲得數(shù)據(jù)并學(xué)習(xí)其中的固有規(guī)則。在與環(huán)境的互動(dòng)過(guò)程中,智能體通過(guò)不斷探索與試錯(cuò)的方式,利用基于正∕負(fù)獎(jiǎng)勵(lì)的目標(biāo)導(dǎo)向式學(xué)習(xí),找到解決問(wèn)題的最優(yōu)策略?;跀?shù)據(jù)的學(xué)習(xí)方法能夠改善在不確定場(chǎng)景中建模困難的問(wèn)題。

        2)高效快速的求解能力。DRL利用神經(jīng)網(wǎng)絡(luò)的參數(shù)將數(shù)據(jù)中的固有規(guī)則量化,利用強(qiáng)化學(xué)習(xí)算法在訓(xùn)練中不斷調(diào)整參數(shù)使其能夠準(zhǔn)確表征規(guī)則,待訓(xùn)練完成后能夠利用深度神經(jīng)網(wǎng)絡(luò)的快速計(jì)算能力求解出最優(yōu)策略,可有效改善現(xiàn)有方法在解空間巨大時(shí)求解時(shí)間代價(jià)過(guò)大的問(wèn)題,提高決策速度。

        其次,在問(wèn)題求解的結(jié)果上,DRL 的智能表現(xiàn)在以下兩個(gè)方面:

        1)強(qiáng)博弈對(duì)抗的適應(yīng)能力。DRL 方法輸出的其實(shí)并不是具體的動(dòng)作,而是策略(policy),是由狀態(tài)空間S 到動(dòng)作空間A 的映射。即只要輸入的狀態(tài)屬于狀態(tài)空間S,都能得到最優(yōu)的動(dòng)作,這能很好地適應(yīng)復(fù)雜多變的態(tài)勢(shì)。并且策略通常是概率密度函數(shù),DRL 通過(guò)訓(xùn)練能夠提高最優(yōu)動(dòng)作的輸出概率,但由于動(dòng)作是隨機(jī)抽樣,我方?jīng)Q策依然具有不確定性,增加了敵方的決策難度。

        2)基于態(tài)勢(shì)認(rèn)知的預(yù)測(cè)能力。在交互數(shù)據(jù)足夠多的前提下,智能體能夠根據(jù),已有的態(tài)勢(shì)信息和先驗(yàn)知識(shí),通過(guò)觀測(cè)和推理等過(guò)程預(yù)測(cè)出對(duì)手的意圖、計(jì)劃、策略等信息,預(yù)測(cè)對(duì)手行為并提前予以回?fù)?,將信息?yōu)勢(shì)轉(zhuǎn)化為決策優(yōu)勢(shì)。基于態(tài)勢(shì)認(rèn)知的預(yù)測(cè)能力,能快速適應(yīng)敵方的行為模式,作出超前性決策,有效應(yīng)對(duì)敵方快速高效的OODA循環(huán)。

        2 DRL 應(yīng)用于防空反導(dǎo)任務(wù)分配所面臨問(wèn)題

        DRL理論上能更好地滿足防空反導(dǎo)任務(wù)分配智能化的需求,但將DRL 實(shí)際應(yīng)用于不確定場(chǎng)景下的防空反導(dǎo)任務(wù)分配,還有許多關(guān)鍵問(wèn)題亟待解決。

        2.1 交互環(huán)境仿真度不高

        軍事智能化存在訓(xùn)練數(shù)據(jù)不足、驗(yàn)證成本高等問(wèn)題,DRL 通過(guò)引入智能體和環(huán)境的概念,智能體能夠自主地與環(huán)境交互,獲取訓(xùn)練樣本。但是如何將物理環(huán)境較好地映射到虛擬環(huán)境中,構(gòu)建一個(gè)高仿真度的對(duì)抗環(huán)境,依然存在許多困難。因此,急需針對(duì)性地打造模擬數(shù)字戰(zhàn)場(chǎng),提供仿真訓(xùn)練的基礎(chǔ)保障。

        2.2 智能體建模局限

        早期的研究主要以單智能體方法為主,該方法具有很好的全局統(tǒng)籌能力,但隨著對(duì)戰(zhàn)態(tài)勢(shì)復(fù)雜度逐漸提升及參與實(shí)體增多,決策過(guò)程將面臨高維狀態(tài)-動(dòng)作空間,單個(gè)智能體的計(jì)算壓力巨大,實(shí)用性不高。目前大多數(shù)研究從多智能體系統(tǒng)的角度研究該問(wèn)題,每個(gè)智能體分別選擇行為策略,能有效分擔(dān)計(jì)算壓力。但由于作戰(zhàn)環(huán)境的特殊性與作戰(zhàn)迷霧的存在,戰(zhàn)場(chǎng)上沒(méi)有一個(gè)位置可以觀測(cè)到全局態(tài)勢(shì)信息,因此,各個(gè)作戰(zhàn)要素之間態(tài)勢(shì)信息不完全共享,彼此之間存在博弈關(guān)系。每個(gè)參與的智能實(shí)體僅能觀察到自身狀態(tài)和有限的對(duì)手狀態(tài),在決策過(guò)程中容易產(chǎn)生沖突,對(duì)于隨機(jī)事件的全局協(xié)調(diào)性較差,難以滿足防空反導(dǎo)任務(wù)分配的需求。

        2.3 訓(xùn)練前期效率低下

        現(xiàn)代戰(zhàn)場(chǎng)態(tài)勢(shì)復(fù)雜多變及作戰(zhàn)實(shí)體多,狀態(tài)和動(dòng)作數(shù)量的增加,交互試錯(cuò)的學(xué)習(xí)機(jī)制大大降低了DRL 的訓(xùn)練效率。從實(shí)際博弈對(duì)抗過(guò)程看,多步?jīng)Q策模型的狀態(tài)空間和動(dòng)作空間會(huì)隨著其規(guī)模的擴(kuò)大呈指數(shù)級(jí)增長(zhǎng),導(dǎo)致DRL 方法在訓(xùn)練的初期進(jìn)行過(guò)多無(wú)效探索,這個(gè)過(guò)程需要消耗大量計(jì)算資源,甚至在復(fù)雜任務(wù)環(huán)境中無(wú)法學(xué)到有效策略。

        2.4 獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)困難

        DRL 使用神經(jīng)網(wǎng)絡(luò)的參數(shù)來(lái)模擬規(guī)則空間,但仍然需要合理的獎(jiǎng)勵(lì)函數(shù)作為配合。神經(jīng)網(wǎng)絡(luò)的參數(shù)表征是指導(dǎo)性規(guī)則中的隱性規(guī)則,而獎(jiǎng)勵(lì)函數(shù)則可以看作是表征顯性規(guī)則的手段。在訓(xùn)練中通過(guò)獎(jiǎng)勵(lì)值來(lái)引導(dǎo)神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí),快速找到一組最優(yōu)的參數(shù)。目前的實(shí)際應(yīng)用中往往使用一些相對(duì)簡(jiǎn)單、直觀的獎(jiǎng)勵(lì)值函數(shù)進(jìn)行訓(xùn)練,在一定程度上導(dǎo)致DRL需要較多的訓(xùn)練回合,才能學(xué)到可用的策略。

        3 基于DRL 的防空反導(dǎo)智能任務(wù)分配關(guān)鍵技術(shù)

        3.1 智能對(duì)抗環(huán)境模型構(gòu)建

        智能對(duì)抗環(huán)境構(gòu)建包括了指控可視化技術(shù)、紅藍(lán)雙方行為樹(shù)構(gòu)建、博弈對(duì)抗性體現(xiàn)等。

        指揮控制可視化能夠方便指揮員理解指揮控制決策過(guò)程,通過(guò)對(duì)神經(jīng)網(wǎng)絡(luò)隱藏層的分析并抽取關(guān)鍵特征進(jìn)行加工,以圖像的形式表現(xiàn)出來(lái),方便指揮員理解其決策背后的邏輯。

        行為樹(shù)構(gòu)建包含紅藍(lán)方每個(gè)單位的所有可以執(zhí)行的行動(dòng)與這些行動(dòng)之間的切換規(guī)則,每個(gè)單位的行為和行為切換規(guī)則共同組成了對(duì)應(yīng)單位的行為樹(shù),在行為樹(shù)的執(zhí)行節(jié)點(diǎn)上同時(shí)包含多個(gè)動(dòng)作,例如雷達(dá)照射、毀傷評(píng)估等內(nèi)容。

        博弈對(duì)抗性的體現(xiàn)程度,取決于能夠根據(jù)對(duì)手策略來(lái)改變自己策略的程度。因此,在攻防雙方中都需要考慮博弈對(duì)抗性。大規(guī)模不確定場(chǎng)景下,復(fù)雜的任務(wù)環(huán)境和態(tài)勢(shì)擾動(dòng),環(huán)境模型呈現(xiàn)一定的隨機(jī)性和時(shí)變性,進(jìn)攻方作為環(huán)境的一部分,其博弈對(duì)抗性主要體現(xiàn)在突防路線、到達(dá)時(shí)間、分隊(duì)編成等方面的隨機(jī)性。因此,對(duì)抗環(huán)境必須能實(shí)現(xiàn)多樣性的想定設(shè)計(jì)且符合智能體訓(xùn)練的需要,其基本框架如圖4所示。

        圖4 仿真對(duì)抗環(huán)境基本框架Fig.4 Basic framework for a simulated adversarial environment

        3.2 分層強(qiáng)化學(xué)習(xí)方法

        分層強(qiáng)化學(xué)習(xí)是為解決強(qiáng)化學(xué)習(xí)的維數(shù)災(zāi)難問(wèn)題而提出的,其思想是通過(guò)引入狀態(tài)空間分解、狀態(tài)抽象和時(shí)態(tài)抽象等機(jī)制[22]將一個(gè)整體任務(wù)分解為多層次的子任務(wù),使得每個(gè)子任務(wù)能夠在一個(gè)小規(guī)模的狀態(tài)空間中進(jìn)行求解,從而加快整個(gè)任務(wù)的求解速度。因此,可將防空反導(dǎo)任務(wù)分配問(wèn)題的智能體進(jìn)行分層建模,有望在保留單智能體全局協(xié)調(diào)能力的同時(shí)加入多智能體的高效優(yōu)勢(shì)。

        3.3 模仿學(xué)習(xí)方法

        模仿學(xué)習(xí)研究如何從專(zhuān)家的決策示例中進(jìn)行學(xué)習(xí),讓智能體的決策快速接近專(zhuān)家水準(zhǔn)。模仿學(xué)習(xí)能從決策示例中獲得更為直接的反饋,可以分為行為克?。?3]和逆向強(qiáng)化學(xué)習(xí)[24]兩大類(lèi)方法。由于逆向強(qiáng)化學(xué)習(xí)需要多次采樣來(lái)評(píng)估軌跡分布,而迭代求解過(guò)程需要消耗大量計(jì)算資源,故難以求解大規(guī)模問(wèn)題。行為克隆的主要思想是直接克隆專(zhuān)家樣本在各狀態(tài)處的單步動(dòng)作映射,即對(duì)專(zhuān)家樣本進(jìn)行監(jiān)督學(xué)習(xí)。該方法具有較好表現(xiàn)的前提是有充足的樣本,因此,可將人類(lèi)知識(shí)與對(duì)戰(zhàn)規(guī)則轉(zhuǎn)化為知識(shí)規(guī)則庫(kù)與環(huán)境交互,為模仿學(xué)習(xí)提供所需樣本,有望提升DRL 方法初期的訓(xùn)練效率,基本流程如圖5所示。

        圖5 模仿學(xué)習(xí)基本流程Fig.5 The basic process of imitation learning

        3.4 安全強(qiáng)化學(xué)習(xí)方法

        在強(qiáng)化學(xué)習(xí)的基礎(chǔ)上,安全強(qiáng)化學(xué)習(xí)的目標(biāo)是找到一個(gè)策略,在滿足預(yù)先設(shè)定的一系列安全約束的基礎(chǔ)上,最大化智能體在無(wú)窮時(shí)域內(nèi)的累積獎(jiǎng)賞的期望值。常用的框架是將安全強(qiáng)化學(xué)習(xí)建模為受約束的馬爾可夫過(guò)程,表示為:

        其中,c(st,at)為代價(jià)函數(shù);d為代價(jià)閾值;r(st,at)為獎(jiǎng)勵(lì)函數(shù)策略目標(biāo),是在不超過(guò)代價(jià)閾值的約束條件下最大化長(zhǎng)期獎(jiǎng)勵(lì)。大規(guī)模博弈對(duì)抗場(chǎng)景約束眾多,單一的獎(jiǎng)勵(lì)函數(shù)難以充分表征這些規(guī)則,安全強(qiáng)化學(xué)習(xí)的約束函數(shù)可在很大程度上加強(qiáng)約束性規(guī)則的表征能力,且有望提升輸出策略的可解釋性。

        4 防空反導(dǎo)任務(wù)分配方法的評(píng)價(jià)指標(biāo)

        智能方法與現(xiàn)有方法之間的比較,主要從規(guī)則表征和策略求解兩個(gè)方面進(jìn)行:

        1)規(guī)則表征準(zhǔn)確度。現(xiàn)有的遺傳算法、蟻群算法、合同網(wǎng)協(xié)議等方法與深度強(qiáng)化學(xué)習(xí)、模仿學(xué)習(xí)、分層強(qiáng)化學(xué)習(xí)等智能方法,在求解任務(wù)分配問(wèn)題的本質(zhì)上都是研究如何準(zhǔn)確地表征其中的規(guī)則,并在規(guī)則空間中尋找最優(yōu)解。因此,規(guī)則是否能準(zhǔn)確表征重要的評(píng)價(jià)指標(biāo),可以從最終分配策略的質(zhì)量和合理性等方面來(lái)衡量。

        2)策略求解速度。根據(jù)不同武器系統(tǒng)的特點(diǎn)和當(dāng)前態(tài)勢(shì)信息,快速有效整合作戰(zhàn)資源,使之發(fā)揮最大作戰(zhàn)效能是任務(wù)分配的關(guān)鍵。且敵方的進(jìn)攻態(tài)勢(shì)是實(shí)時(shí)變化的,對(duì)抗分配也需要具有很強(qiáng)的動(dòng)態(tài)性以應(yīng)對(duì)變化。因此,任務(wù)分配方法求解大規(guī)模復(fù)雜化問(wèn)題的速度,和應(yīng)對(duì)突發(fā)性事件的動(dòng)態(tài)處理能力是重要的評(píng)價(jià)指標(biāo)。

        在復(fù)雜的不確定場(chǎng)景中,多種智能方法也存在差異。各種智能方法間的比較主要從訓(xùn)練過(guò)程和訓(xùn)練結(jié)果兩個(gè)方面進(jìn)行:

        1)智能體訓(xùn)練效率。隨著場(chǎng)景復(fù)雜度的不斷增加,用于神經(jīng)網(wǎng)絡(luò)訓(xùn)練的時(shí)間成本也在不斷提升,因此,訓(xùn)練的效率是智能方法的重要評(píng)價(jià)指標(biāo)之一。在實(shí)際應(yīng)用過(guò)程中,主要從相同訓(xùn)練時(shí)間內(nèi)獲得的獎(jiǎng)勵(lì)值、對(duì)抗的勝率、決策的合理性,以及資源的利用等方面進(jìn)行衡量。

        2)場(chǎng)景泛化能力。智能化戰(zhàn)場(chǎng)存在的強(qiáng)博弈對(duì)抗使其充滿不確定性,訓(xùn)練完成后的網(wǎng)絡(luò)能否適應(yīng)多變的戰(zhàn)場(chǎng)是衡量算法優(yōu)越性的重要依據(jù)。在實(shí)際應(yīng)用中,主要從想定的變化程度、面對(duì)不同想定時(shí)決策的變化程度、合理性等方面進(jìn)行比較。

        5 結(jié)論

        大規(guī)模復(fù)雜場(chǎng)景中,要素眾多且作戰(zhàn)過(guò)程復(fù)雜,防空反導(dǎo)任務(wù)分配智能化被認(rèn)為是適應(yīng)不確定場(chǎng)景的關(guān)鍵。本文分析了防空反導(dǎo)任務(wù)分配的要素和過(guò)程,討論了當(dāng)前的發(fā)展需求和面臨的挑戰(zhàn),以及基于DRL 的智能任務(wù)分配方法的優(yōu)勢(shì),提出了當(dāng)前亟待解決的關(guān)鍵問(wèn)題和對(duì)應(yīng)的關(guān)鍵技術(shù)。為防空反導(dǎo)任務(wù)分配智能化研究提供了理論和技術(shù)支撐。

        猜你喜歡
        規(guī)則智能策略
        撐竿跳規(guī)則的制定
        數(shù)獨(dú)的規(guī)則和演變
        例談未知角三角函數(shù)值的求解策略
        我說(shuō)你做講策略
        智能前沿
        文苑(2018年23期)2018-12-14 01:06:06
        智能前沿
        文苑(2018年19期)2018-11-09 01:30:14
        智能前沿
        文苑(2018年17期)2018-11-09 01:29:26
        智能前沿
        文苑(2018年21期)2018-11-09 01:22:32
        高中數(shù)學(xué)復(fù)習(xí)的具體策略
        讓規(guī)則不規(guī)則
        Coco薇(2017年11期)2018-01-03 20:59:57
        h动漫尤物视频| 亚洲av日韩综合一区在线观看| 18无码粉嫩小泬无套在线观看| 中文字幕一区二区三区四区在线| 青青草最新在线视频观看| 日韩精品一区二区三区在线视频| 亚洲国产av无码专区亚洲av| 亚洲av无码乱码国产麻豆穿越| 中日无码精品一区二区三区| 国产av丝袜熟女丰满一区二区| 午夜性色一区二区三区不卡视频| 欧美性猛交xxxx黑人| 性无码国产一区在线观看| 久久亚洲免费精品视频| 国产乱妇无乱码大黄aa片| 免费av片在线观看网站| 日韩一区二区三区中文字幕| 久草手机视频在线观看| 人妻少妇乱子伦精品| 麻豆国产高清精品国在线| 97中文字幕一区二区| 久久精品国产亚洲av网| 亚洲日韩av无码中文字幕美国| 极品 在线 视频 大陆 国产| 亚洲一区二区三区最新视频| 真人做爰试看120秒| 中文字幕人妻丝袜乱一区三区| 高h视频在线免费观看| 综合激情五月三开心五月| 中文字幕一精品亚洲无线一区| 无码人妻丰满熟妇精品区| 亚洲一区二区av偷偷| 亚洲天堂成人av在线观看| 亚洲日韩成人av无码网站| 男女好痛好深好爽视频一区| 国产精品髙潮呻吟久久av| 又粗又黄又猛又爽大片app| 亚洲国产成人久久综合一区77| 免费观看在线一区二区| 亚洲色一区二区三区四区| 色翁荡息又大又硬又粗又视频图片 |