亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        改進(jìn)近似動態(tài)規(guī)劃法的攻擊占位決策*

        2019-08-27 03:46:52姜龍亭寇雅楠張彬超
        火力與指揮控制 2019年7期
        關(guān)鍵詞:規(guī)劃法藍(lán)方空戰(zhàn)

        姜龍亭,寇雅楠,王 棟,張彬超,胡 濤

        (1.空軍工程大學(xué)航空工程學(xué)院,西安710038;2.解放軍95974部隊,河北 滄州061000;3.解放軍95356部隊,湖南 耒陽421800)

        0 引言

        近年來,無人機(jī)技術(shù)發(fā)展迅猛,已經(jīng)在經(jīng)濟(jì)和軍事領(lǐng)域有了一定的應(yīng)用。目前,大多數(shù)的空戰(zhàn)任務(wù)主要是由有人機(jī)來完成。但是由于近距空戰(zhàn)激烈的對抗性和動態(tài)特性,人在回路的無人機(jī)以及有人機(jī)在面臨復(fù)雜的戰(zhàn)場情況時,常常因?yàn)檎`判態(tài)勢造成空戰(zhàn)失利。同時,由于自主決策系統(tǒng)能將飛行員從緊張、激烈的對抗任務(wù)中解脫出來,對武器裝備的發(fā)展以及人類的發(fā)展進(jìn)步都具有深遠(yuǎn)的意義。因此,研究具有自主機(jī)動決策的無人機(jī)成為各軍事強(qiáng)國爭先發(fā)展的重點(diǎn)。

        自主空戰(zhàn)決策[1]是指對抗過程中,為了實(shí)現(xiàn)優(yōu)勢態(tài)勢和最小化我機(jī)面臨的危險,實(shí)時地計算出無人機(jī)的最優(yōu)機(jī)動策略。目前,學(xué)者們針對無人機(jī)自主決策問題提出了許多方法。主要有微分對策法、影響圖法、專家系統(tǒng)法和強(qiáng)化學(xué)習(xí)法。基于微分對策法[2-4]的決策系統(tǒng)由于受限于具體的數(shù)學(xué)模型,可移植性較差;影響圖法[5]在一定程度上對空戰(zhàn)給出了合理的決策行為,但是沒有通過全局的戰(zhàn)場態(tài)勢信息構(gòu)建決策模型,無法滿足高強(qiáng)度的空戰(zhàn)需要,很難應(yīng)用到實(shí)戰(zhàn)中;專家系統(tǒng)法[6-7]通過建立態(tài)勢與機(jī)動策略的映射關(guān)系來模擬飛行員的決策過程,但是專家系統(tǒng)難以構(gòu)建完備的規(guī)則模型,并且通用性較差;神經(jīng)網(wǎng)絡(luò)法[8-9]求解得到的機(jī)動決策無法從模型本身進(jìn)行合理解釋,并且需要大量的實(shí)戰(zhàn)訓(xùn)練樣本數(shù)據(jù)。

        本文主要針對空戰(zhàn)過程的攻擊占位決策問題進(jìn)行研究。由于近似動態(tài)規(guī)劃法[10-14]具有良好的泛化能力和在線學(xué)習(xí)能力,本文在前期研究的基礎(chǔ)上,通過對戰(zhàn)場環(huán)境和戰(zhàn)術(shù)使用原則的分析,建立基于近似動態(tài)規(guī)劃的空戰(zhàn)機(jī)動決策模型。文獻(xiàn)[10]通過對近似動態(tài)規(guī)劃法的研究,解決了航模的追逃問題,但是真實(shí)的空戰(zhàn)過程有著不同與航模的高機(jī)動性的特點(diǎn)。文獻(xiàn)[13]雖然通過近似動態(tài)規(guī)劃法對水平飛行的空戰(zhàn)接敵問題進(jìn)行了研究,但是在占位決策過程中,由于未考慮飛機(jī)的過沖問題,智能體在機(jī)動決策后容易進(jìn)入敵方攻擊區(qū)內(nèi)。針對上述存在的不足,本文通過對空戰(zhàn)過程分析,提出懲罰因子對近似動態(tài)法進(jìn)行改進(jìn),建立改進(jìn)的近似動態(tài)規(guī)劃模型,避免了攻擊占位過程中的“過沖”現(xiàn)象。

        1 問題描述

        正如著名軍事理論家杜黑所言:空戰(zhàn)就是以奪取制空權(quán)為最終目的對抗過程。作戰(zhàn)雙方的作戰(zhàn)目的就是在避免被對方擊落的情況下,占據(jù)攻擊對方的戰(zhàn)術(shù)優(yōu)勢位置。這種戰(zhàn)術(shù)優(yōu)勢位置隨著敵我雙方的相對位置在空間里連續(xù)變化。為了清晰描述態(tài)勢的動態(tài)變化過程,某一時刻紅藍(lán)雙方的幾何占位態(tài)勢信息如圖1所示。

        圖1 紅藍(lán)雙方幾何占位態(tài)勢圖

        算法1:狀態(tài)轉(zhuǎn)移函數(shù)計算方法

        初始化:

        For i=1:5(仿真步長為Δt=0.375 s)

        算法1中,st為當(dāng)前時刻輸入的狀態(tài)信息,根據(jù)狀態(tài)轉(zhuǎn)移方程求解,st+1即為下一時刻的狀態(tài)信息。

        求解自主攻擊的占位決策問題實(shí)質(zhì)上是一個序列決策問題。即基于當(dāng)前的態(tài)勢信息給出一種最優(yōu)的機(jī)動決策序列,也即求解空間狀態(tài)與機(jī)動行為之間的一種映射,使得飛機(jī)快速朝著攻擊的優(yōu)勢位置飛行,最終完成攻擊敵機(jī)的任務(wù)。

        2 近似動態(tài)規(guī)劃法

        2.1 近似動態(tài)規(guī)劃法基本框架

        由于動態(tài)規(guī)劃法具有良好的泛化和在線學(xué)習(xí)能力,在解決序列決策問題上有著很大的優(yōu)勢。利用動態(tài)規(guī)劃法求解序列決策問題時,需要建立長期收益與狀態(tài)之間的映射關(guān)系。對于離散的低維度狀態(tài)空間,各個狀態(tài)的長期收益可以保存在查詢表內(nèi)。但是,隨著戰(zhàn)場環(huán)境和空戰(zhàn)任務(wù)的日益復(fù)雜,基于查詢表式的長期收益顯得捉襟見肘。尤其是在解決具有連續(xù)性狀態(tài)空間的空戰(zhàn)決策問題更是容易出現(xiàn)“維數(shù)災(zāi)難”。為了解決狀態(tài)維數(shù)高造成的問題,近似動態(tài)規(guī)劃法基于函數(shù)擬合的思想,以連續(xù)函數(shù)逼近長期收益的狀態(tài)值函數(shù)。通過嚴(yán)密的數(shù)學(xué)推導(dǎo),對長期收益值函數(shù)進(jìn)行逼近優(yōu)化,由此獲得狀態(tài)空間與長期收益值之間的映射關(guān)系。

        則近似值函數(shù)可作為線性回歸的觀測值,即

        為了清楚地對空戰(zhàn)狀態(tài)進(jìn)行描述,采樣狀態(tài)的特征集合記為:

        其中,M為狀態(tài)特征的數(shù)目。

        基于函數(shù)擬合的思想,采樣狀態(tài)和近似值函數(shù)可以抽象為一個多元線性回歸問題,即

        使用標(biāo)準(zhǔn)最小二乘估計進(jìn)行計算,

        由此可得,第i次迭代后的長期收益值函數(shù)為:

        2.2 獎勵函數(shù)

        空戰(zhàn)過程中,紅藍(lán)雙方在各自的戰(zhàn)術(shù)策略下首先隱蔽接敵,然后攻擊占位。通過控制飛機(jī)快速進(jìn)入敵方的尾后區(qū)域,并截獲跟蹤目標(biāo),直至發(fā)射導(dǎo)彈。為了準(zhǔn)確控制飛機(jī)快速占據(jù)攻擊敵方的優(yōu)勢位置,本文從空戰(zhàn)的隱蔽接敵和攻擊占位兩個階段對上述提出的獎勵函數(shù)進(jìn)行定義。因此,獎勵函數(shù)R(s)包括即時獎勵函數(shù)G(s)和態(tài)勢獎勵函數(shù)A(s)兩部分。

        一是即時獎勵函數(shù)。即將敵方的尾后區(qū)域定義為占位的目標(biāo)區(qū)域,通過獎勵進(jìn)入占位目標(biāo)區(qū)域的狀態(tài)引導(dǎo)飛機(jī)進(jìn)入攻擊位置。目標(biāo)區(qū)域(見圖2)往往與飛機(jī)的性能密切相關(guān)。在本文中,主要考慮飛機(jī)的提前角ATA、進(jìn)入角AA和雙方的相對距離r。因此,依據(jù)文獻(xiàn)[10]的分析,即時獎勵函數(shù)G(s)定義為:

        圖2 藍(lán)方攻擊優(yōu)勢區(qū)域示意圖

        圖2所示虛線區(qū)域表示當(dāng)藍(lán)方飛機(jī)的進(jìn)入角小于60°,提前角小于30°,兩機(jī)距離在武器系統(tǒng)的作用范圍內(nèi)時,無論藍(lán)方采取何種機(jī)動,藍(lán)方都占據(jù)優(yōu)勢地位,并且可以以較高的命中率發(fā)射導(dǎo)彈。近似動態(tài)規(guī)劃法通過即時獎勵函數(shù)G(s)對優(yōu)勢攻擊位置獎勵,將引導(dǎo)藍(lán)方飛機(jī)快速進(jìn)入定義的優(yōu)勢攻擊位置。

        二是態(tài)勢獎勵函數(shù)。即當(dāng)飛機(jī)在隱蔽接敵過程中對空戰(zhàn)態(tài)勢優(yōu)勢的獎勵。飛機(jī)在空戰(zhàn)過程中可以通過態(tài)勢獎勵函數(shù)引導(dǎo)飛機(jī)向空戰(zhàn)區(qū)域機(jī)動。態(tài)勢獎勵函數(shù)A(s)的定義將彌補(bǔ)即時獎勵函數(shù)不連續(xù)性的缺點(diǎn)。由于本文只考慮平面等高度下的空戰(zhàn)對抗,且雙方速度假設(shè)恒定,因此,態(tài)勢獎勵函數(shù)主要與敵我雙方的相對角度和距離相關(guān)。態(tài)勢獎勵函數(shù)A(s)定義為:

        結(jié)合即時獎勵函數(shù)和態(tài)勢獎勵函數(shù),近似動態(tài)規(guī)劃法中的獎勵函數(shù)R(s)定義為:

        其中,wr為即時獎勵函數(shù)與態(tài)勢獎勵函數(shù)之間的權(quán)重因子。即時獎勵函數(shù)引導(dǎo)飛機(jī)進(jìn)入攻擊占位優(yōu)勢區(qū)域;態(tài)勢獎勵函數(shù)在整個狀態(tài)空間發(fā)揮作用,在空戰(zhàn)過程中,引導(dǎo)飛機(jī)朝著優(yōu)勢區(qū)域飛行。

        2.3 懲罰因子

        理想的空戰(zhàn)決策問題需要在獲得獎勵的同時也要平衡在機(jī)動過程中存在的風(fēng)險。由于近似動態(tài)規(guī)劃法在機(jī)動決策時,僅考慮了如何將飛機(jī)引導(dǎo)至己方優(yōu)勢區(qū)域,依據(jù)幾何關(guān)系定義了優(yōu)勢函數(shù),未對飛機(jī)的危險區(qū)域進(jìn)行定義,并且因?yàn)椴呗运阉魉惴ㄓ邢薜那罢靶裕^短的搜索范圍也容易陷入局部最優(yōu),仿真分析和飛行機(jī)動決策過程中容易造成“過沖”,使得飛機(jī)處于敵方的優(yōu)勢區(qū)域內(nèi)。當(dāng)藍(lán)方處于紅方的優(yōu)勢區(qū)域時間越長,相對距離越近,藍(lán)方被紅方擊中的幾率也就越大。為了克服上述存在的不足,本文針對“過沖”問題和距離太近引起的“碰撞”問題,結(jié)合空戰(zhàn)實(shí)際問題,定義了與獎勵函數(shù)對應(yīng)的懲罰函數(shù)P(s)。

        空戰(zhàn)過程中,進(jìn)入敵方攻擊區(qū)的概率也是隨機(jī)的,為了描述這種隨機(jī)性,定義了風(fēng)險概率pt(s):

        為了避免距離太近引起的兩機(jī)相撞問題,對pt進(jìn)一步改進(jìn),改進(jìn)后的風(fēng)險概率P(s)為:

        例如,當(dāng)飛機(jī)的相對距離小于武器的最小發(fā)射距離,AA=180°時,危險概率P=0.1。也就是說在現(xiàn)實(shí)世界中飛機(jī)進(jìn)入敵方飛機(jī)的攻擊區(qū)域,被敵方攻擊的概率是0.1。隨著雙機(jī)距離逐漸接近,危險概率P(s)越來越大。危險概率P(s)將阻止藍(lán)方飛機(jī)進(jìn)入紅方的攻擊區(qū)域。

        為了防止飛機(jī)在飛行過程中因“過沖”進(jìn)入敵方的攻擊區(qū)域,本文基于懲罰函數(shù)對長期收益值函數(shù)式(9)進(jìn)行了修正:

        如果當(dāng)前狀態(tài)P(s)>0時,則表示藍(lán)方飛機(jī)處于敵方的攻擊區(qū)域內(nèi)。通過減小長期收益值,引導(dǎo)藍(lán)方飛機(jī)進(jìn)行快速擺脫。也即藍(lán)方飛機(jī)一旦進(jìn)入敵方的優(yōu)勢區(qū)域內(nèi),將快速機(jī)動至敵方的攻擊優(yōu)勢區(qū)域外。

        改進(jìn)后的近似值函數(shù)計算如算法2:

        算法2:改進(jìn)的近似值函數(shù)計算

        2.4 狀態(tài)采樣

        近似動態(tài)規(guī)劃法逼近長期收益值,需要對空戰(zhàn)博弈的狀態(tài)空間進(jìn)行采樣。采樣稀疏對近似值函數(shù)Jappr(s)與值函數(shù)J*(s)的誤差有著至關(guān)重要的影響。只有最大限度地減小最優(yōu)值函數(shù)與值函數(shù)的誤差,求解的機(jī)動策略才最接近最優(yōu)的機(jī)動策略。從這個角度出發(fā),高密度的采樣將比低密度的采樣更接近最優(yōu)解,但是采樣數(shù)的增多必然帶來計算量指數(shù)增加。并且,采樣數(shù)目的增多,執(zhí)行貝爾曼迭代所需要的時間也大幅增加,必然會對機(jī)動決策的實(shí)時性產(chǎn)生很大的影響。從這個角度出發(fā),采樣的狀態(tài)數(shù)目應(yīng)該是越少越好,低密度的采樣將會使得智能體的運(yùn)算速度較快,決策的實(shí)時性將得到提升。因此,為了平衡機(jī)動策略的誤差與決策實(shí)時性這一對矛盾,必須合理地選擇采樣點(diǎn)。在重要的狀態(tài)空間區(qū)域,有必要進(jìn)行精細(xì)的狀態(tài)采樣;在很小幾率出現(xiàn)的狀態(tài)空間區(qū)域,則沒必要劃分太精細(xì)。為了確保空戰(zhàn)過程中最有可能出現(xiàn)的區(qū)域得到充分的采樣,本文對飛機(jī)空戰(zhàn)過程進(jìn)行軌跡采樣[10]。

        2.5 機(jī)動策略提取

        在紅藍(lán)雙方仿真對抗過程中,紅方采取最大最小策略進(jìn)行機(jī)動決策,藍(lán)方采取近似動態(tài)規(guī)劃方法進(jìn)行機(jī)動決策。則藍(lán)方的機(jī)動策略為:

        算法3:機(jī)動策略提取

        輸入:si

        基于改進(jìn)的近似動態(tài)規(guī)劃法可以依據(jù)最優(yōu)的長期收益值進(jìn)行決策,而不是通過有限的前瞻策略進(jìn)行決策,并且以懲罰函數(shù)對收益值函數(shù)進(jìn)行修正。因此,基于ADP的機(jī)動決策不僅能反映空戰(zhàn)全局的最優(yōu)決策,而且還能有效避免“過沖”問題和“碰撞”問題。

        3 仿真分析

        仿真1假設(shè)紅方飛機(jī)未能有效感知戰(zhàn)場態(tài)勢,依然保持初始航向和初始機(jī)動策略飛行。藍(lán)方飛機(jī)根據(jù)所處戰(zhàn)場態(tài)勢,使用基于ADP的機(jī)動策略。紅藍(lán)雙方初始狀態(tài)信息見表1。

        表1 紅藍(lán)雙方初始態(tài)勢信息表

        仿真如下頁圖3所示。

        圖3 仿真驗(yàn)證1結(jié)果

        從圖3可以看出,在紅方保持機(jī)動方向不變的情況下,藍(lán)方通過ADP機(jī)動策略能夠很快機(jī)動至紅方的尾后攻擊區(qū)域,有效占據(jù)攻擊優(yōu)勢。

        仿真2假設(shè)紅方飛機(jī)能有效感知戰(zhàn)場態(tài)勢,并且根據(jù)戰(zhàn)場態(tài)勢以最大最小的機(jī)動策略與藍(lán)方飛機(jī)進(jìn)行對抗。藍(lán)方飛機(jī)根據(jù)所處的戰(zhàn)場態(tài)勢,使用基于ADP的策略進(jìn)行機(jī)動決策。紅藍(lán)雙方初始初始狀態(tài)信息見表1。

        仿真如圖4所示。

        圖4 仿真驗(yàn)證2結(jié)果

        從圖4可以看出,在紅方采取最大最小策略進(jìn)行機(jī)動,藍(lán)方通過ADP機(jī)動策略能夠很快機(jī)動至紅方的尾后攻擊區(qū)域,有效占據(jù)攻擊優(yōu)勢。

        仿真3假設(shè)紅方飛機(jī)能有效感知戰(zhàn)場態(tài)勢,并且根據(jù)戰(zhàn)場態(tài)勢以最大最小的策略進(jìn)行機(jī)動決策,藍(lán)方飛機(jī)根據(jù)所處的戰(zhàn)場態(tài)勢,在使用基于ADP的策略與紅方飛機(jī)對抗時存在“過沖”機(jī)動,于是使用改進(jìn)的ADP策略確保不處于紅方的優(yōu)勢區(qū)域,并且快速占據(jù)優(yōu)勢攻擊位置。紅藍(lán)雙方初始狀態(tài)信息如表2所示。

        表2 紅藍(lán)雙方初始態(tài)勢信息

        仿真如圖5所示。

        從圖5中可以看出,當(dāng)紅方采取最大最小策略,藍(lán)方采取ADP策略時,藍(lán)方由于提前采取左轉(zhuǎn)機(jī)動,在第4次機(jī)動決策后,造成“過沖”現(xiàn)象,此時紅方呈尾追態(tài)勢,若鎖定目標(biāo),即可對藍(lán)方實(shí)施攻擊。在同樣的初始條件下,藍(lán)方依舊采取最大最小策略,紅方采用改進(jìn)之后的ADP策略時,最優(yōu)機(jī)動決策則是先維持初始航向,然后再采取左轉(zhuǎn)盤旋機(jī)動。通過仿真可以發(fā)現(xiàn),藍(lán)方在第5次機(jī)動決策后,占據(jù)尾追攻擊的優(yōu)勢態(tài)勢,有效避免了“過沖”問題。

        圖5 仿真驗(yàn)證3結(jié)果

        4 結(jié)論

        本文基于近似動態(tài)規(guī)劃法理論對水平飛行、定速、一對一空戰(zhàn)自主攻擊占位決策方法進(jìn)行了研究?;诮苿討B(tài)規(guī)劃理論建立了空戰(zhàn)自主攻擊占位的決策框架。針對空戰(zhàn)環(huán)境的高維度狀態(tài)空間,基于函數(shù)擬合的思路構(gòu)建近似值函數(shù),對空戰(zhàn)過程的長期收益逼近優(yōu)化,給出了自主攻擊占位決策的策略學(xué)習(xí)方法;對傳統(tǒng)的近似動態(tài)規(guī)劃決策方法存在的“過沖”和“碰撞”問題,提出了懲罰因子對近似動態(tài)規(guī)劃法進(jìn)行改進(jìn)。仿真結(jié)果表明,改進(jìn)的近似動態(tài)規(guī)劃法在自主攻擊占位決策中,可以有效避免發(fā)生“過沖”和“碰撞”問題。

        基于改進(jìn)的近似動態(tài)規(guī)劃法在自主攻擊占位決策時,近似值函數(shù)的優(yōu)劣對策略學(xué)習(xí)有著至關(guān)重要的影響。確定合理的長期收益值函數(shù)將能逼近最優(yōu)的值函數(shù),進(jìn)而得到最優(yōu)的機(jī)動策略。同時,在進(jìn)行策略學(xué)習(xí)時,藍(lán)方機(jī)動策略的優(yōu)越性依賴于紅方飛機(jī)的智能化水平。紅方的智能化水平越高,藍(lán)方學(xué)習(xí)到的機(jī)動策略將更具魯棒性和智能性。因此,在后續(xù)的研究中,提高藍(lán)方飛機(jī)機(jī)動策略的智能性以及逼近最優(yōu)的值函數(shù),將進(jìn)一步提升飛機(jī)的自主空戰(zhàn)能力。

        猜你喜歡
        規(guī)劃法藍(lán)方空戰(zhàn)
        最強(qiáng)空戰(zhàn)王
        序列二次規(guī)劃法在抽油機(jī)優(yōu)化設(shè)計中的應(yīng)用研究
        云南化工(2020年11期)2021-01-14 00:50:58
        精彩的足球比賽
        農(nóng)業(yè)供給側(cè)改革下的南京旅游型鄉(xiāng)村“四態(tài)”規(guī)劃法分析
        空戰(zhàn)之城
        暗號
        自主車輛路徑規(guī)劃算法
        汽車文摘(2016年1期)2016-12-10 13:26:39
        暗號
        小小說月刊(2015年5期)2016-01-22 08:39:19
        暗號
        “85:0”的敘以空戰(zhàn)
        日本中文字幕一区二区视频| 亚洲日本va午夜在线电影| 欧美日韩亚洲色图| 日本五十路熟女在线视频| 亚洲国产色婷婷久久精品| 久久久久久九九99精品| 俺来也俺去啦久久综合网| 国产丝袜精品丝袜一区二区| 亚洲天堂av黄色在线观看| 在线亚洲高清揄拍自拍一品区 | 日本精品久久久久中文字幕1| 日本一区二区在线播放视频| 中国无码人妻丰满熟妇啪啪软件| 99re热这里只有精品最新| 最新手机国产在线小视频| 少妇又骚又多水的视频| 三年的高清电影免费看| 亚洲 欧美 唯美 国产 伦 综合| 无人视频在线播放在线观看免费| 丰满少妇被猛进去高潮| a级毛片无码久久精品免费| 最新无码国产在线播放| 久久亚洲宅男天堂网址| 优优人体大尺大尺无毒不卡| 国产精品美女一区二区三区| 免费在线观看一区二区| 精品中文字幕在线不卡| 精品无码国产自产拍在线观看蜜| 老男人久久青草AV高清| 久久熟女精品—区二区蜜臀| 999zyz玖玖资源站永久| 国产一区二区三区在线观看免费 | 中文字幕精品久久天堂一区| 蜜桃传媒免费观看视频| 亚洲一区av在线观看| 国产成人精品电影在线观看18 | 国模无码视频专区一区| 白色白在线观看免费2| 人人人妻人人澡人人爽欧美一区| 亚洲AV成人无码久久精品老人| 亚洲精品国产一区av|