亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于RF XGBoost算法的無(wú)人機(jī)多回合攻防博弈決策

        2025-03-20 00:00:00鄒世培王玉惠劉鴻睿
        關(guān)鍵詞:無(wú)人機(jī)

        摘 要:為解決不平衡空戰(zhàn)數(shù)據(jù)集下的無(wú)人機(jī)多回合博弈對(duì)抗問(wèn)題,提出一種隨機(jī)森林-極限梯度提升(random forest eXtreme gradient boosting, RF XGBoost)算法以進(jìn)行攻防博弈決策研究。通過(guò)分析紅藍(lán)雙方的運(yùn)動(dòng)狀態(tài)和空戰(zhàn)信息,建立支付矩陣模型,利用線性歸納法求解當(dāng)前博弈納什均衡解和期望收益,以藍(lán)方最終獲勝作為博弈對(duì)抗是否停止的判斷條件。在博弈對(duì)抗過(guò)程中,首先基于隨機(jī)森林(random forest, RF)算法對(duì)空戰(zhàn)數(shù)據(jù)集進(jìn)行特征降維以提高空戰(zhàn)決策的實(shí)時(shí)性,然后提出改進(jìn)的XGBoost算法來(lái)處理不平衡數(shù)據(jù)集,將其用于確定最優(yōu)機(jī)動(dòng)動(dòng)作以提高機(jī)動(dòng)決策準(zhǔn)確率和提升藍(lán)方對(duì)抗態(tài)勢(shì),并得到下一回合的紅藍(lán)空戰(zhàn)信息;之后,根據(jù)下一回合的支付矩陣模型重新計(jì)算納什均衡解和期望收益,直至藍(lán)方獲勝;最后,通過(guò)仿真驗(yàn)證所提算法的可行性和有效性。

        關(guān)鍵詞: 無(wú)人機(jī); 隨機(jī)森林; 極限梯度提升; 多回合博弈

        中圖分類號(hào): TP 391.9

        文獻(xiàn)標(biāo)志碼: ADOI:10.12305/j.issn.1001 506X.2025.02.18

        Multi round attack and defense game decision making of UAVs based on RF XGBoost algorithm

        ZOU Shipei, WANG Yuhui*, LIU Hongrui

        (College of Automation Engineering, Nanjing University of Aeronautics and Astronautics, Nanjing 211106, China)

        Abstract:To solve the multi round game confrontation problem of unmanned aerial vehicles (UAVs) with unbalanced air combat data set, a random forest eXtreme gradient boosting (RF XGBoost) algorithm is proposed to study the attack and defense game decision making. The payment matrix model is established by analyzing the movement status and air combat information of the red and blue sides, then, the linear induction method is considered to solve the current Nash equilibrium solution and expected return of the game, and whether the game confrontation will stop depends on the victory of the blue side. In the process of game confrontation, in the first place, the feature dimensionality reduction of air combat data set is conducted based on the random forest (RF) algorithm to improve the real time performance of air combat decision making. Then, an improved XGBoost algorithm is proposed to deal with the unbalanced data set, which is used to determine the optimal maneuvers to improve the accuracy of maneuver decision making and enhance blue confrontation’s situation, and" air combat information of the next round of red and blue sides is obtained. Furthermore, the Nash equilibrium solution and expected return based on the payment matrix model of the next round can be obtained once again, until the blue side wins. Finally, the feasibility and effectiveness of the proposed algorithm are verified by simulation test.

        Keywords:unmanned aerial vehicle (UAV); random forest (RF); eXtreme gradient boosting (XGBoost); multi round game

        0 引 言

        自主空戰(zhàn)決策是無(wú)人機(jī)空戰(zhàn)獲勝的關(guān)鍵技術(shù)之一。目前,關(guān)于空戰(zhàn)決策的研究大都只適用于單回合對(duì)抗,針對(duì)更符合空戰(zhàn)實(shí)際的多回合決策問(wèn)題的研究較少。因此,為使自主決策技術(shù)真正進(jìn)入實(shí)戰(zhàn),開展多回合動(dòng)態(tài)空戰(zhàn)決策研究具有重要的意義1-3。

        近年來(lái),博弈論因其本身具有對(duì)抗的特點(diǎn)而在空戰(zhàn)最優(yōu)機(jī)動(dòng)決策研究中取得了不少研究成果。最優(yōu)機(jī)動(dòng)決策研究方向主要為數(shù)學(xué)求解、機(jī)器搜索以及數(shù)據(jù)驅(qū)動(dòng)4-6。數(shù)學(xué)求解主要是根據(jù)博弈雙方的分析和空戰(zhàn)結(jié)果,求解具有狀態(tài)約束的微分對(duì)策,以確定最優(yōu)機(jī)動(dòng)動(dòng)作。該方法形式簡(jiǎn)單,計(jì)算量小,但難以滿足復(fù)雜的空戰(zhàn)需求7-9。機(jī)器搜索可通過(guò)建立滾動(dòng)時(shí)域控制模型或引入蒙特卡羅樹搜索算法獲取最優(yōu)機(jī)動(dòng)動(dòng)作,該方法更加符合人類思維,但對(duì)于復(fù)雜度高的實(shí)際空戰(zhàn)而言,其決策實(shí)時(shí)性難以保證10-14。數(shù)據(jù)驅(qū)動(dòng)主要利用神經(jīng)網(wǎng)絡(luò)、強(qiáng)化學(xué)習(xí)或決策樹算法,基于數(shù)據(jù)集訓(xùn)練模型從而預(yù)測(cè)最優(yōu)機(jī)動(dòng)動(dòng)作。該方法能夠很好地反映戰(zhàn)場(chǎng)態(tài)勢(shì)和空戰(zhàn)決策的映射關(guān)系,但存在高維度數(shù)據(jù)樣本處理速度慢、訓(xùn)練耗時(shí)較長(zhǎng),以及難以處理不平衡樣本數(shù)據(jù)集等問(wèn)題15-21。

        針對(duì)高維數(shù)據(jù)訓(xùn)練耗時(shí)較長(zhǎng)的問(wèn)題,隨機(jī)森林(random forest, RF)作為以決策樹為基學(xué)習(xí)器的集成學(xué)習(xí)算法,能夠?qū)?shù)據(jù)特征的重要度進(jìn)行評(píng)估,通過(guò)適當(dāng)?shù)厝コ匾容^低的特征,能夠在保證預(yù)測(cè)準(zhǔn)確率的同時(shí)降低數(shù)據(jù)集的維數(shù),以提高訓(xùn)練效率,從而提升機(jī)動(dòng)決策的實(shí)時(shí)性22-24。對(duì)于不平衡數(shù)據(jù)集的問(wèn)題,極限梯度提升 (eXtreme gradient boosting, XGBoost) 算法是在梯度提升決策樹 (gradient boosting decision tree, GBDT) 算法的基礎(chǔ)上改進(jìn)的端到端的提升樹系統(tǒng)25-27,但傳統(tǒng)的XGBoost算法考慮的是數(shù)據(jù)的整體誤差,對(duì)于多數(shù)類樣本會(huì)給予更多的關(guān)注,對(duì)于少數(shù)類樣本的分類性能難以得到充分訓(xùn)練。因此,本文在該算法的損失函數(shù)上進(jìn)行改進(jìn),以平衡各類樣本的損失函數(shù)值,從而提高機(jī)動(dòng)決策準(zhǔn)確率。

        綜上所述,本文提出一種基于RF特征降維和改進(jìn)XGBoost的RF XGBoost算法,用于處理多回合空戰(zhàn)動(dòng)態(tài)博弈中的最優(yōu)機(jī)動(dòng)決策問(wèn)題。首先,確定多回合空戰(zhàn)博弈決策的流程,并依據(jù)當(dāng)前回合紅、藍(lán)空戰(zhàn)信息建立博弈支付矩陣模型,求解當(dāng)前回合的納什均衡解和期望收益;然后,在下一回合的機(jī)動(dòng)決策前通過(guò)RF算法對(duì)空戰(zhàn)數(shù)據(jù)集進(jìn)行降維,并針對(duì)空戰(zhàn)數(shù)據(jù)集樣本不平衡問(wèn)題,提出基于樣本比例改進(jìn)損失函數(shù)的XGBoost算法以確定最優(yōu)機(jī)動(dòng)決策;最后,通過(guò)單回合和多回合空戰(zhàn)博弈對(duì)抗仿真與傳統(tǒng)決策樹算法的對(duì)比仿真驗(yàn)證所提算法的有效性。

        1 問(wèn)題描述

        結(jié)合實(shí)際空戰(zhàn)問(wèn)題和博弈論,將雙方視為對(duì)抗的玩家{A,B}。其中,A為藍(lán)方,無(wú)人機(jī)集合為Blue={1,2,…,i,…,m},m為藍(lán)方的無(wú)人機(jī)總數(shù);藍(lán)方可采用的策略集合為SA={sA1,sA2,…,sAp,…,sAr},r為藍(lán)方可采取的策略點(diǎn)數(shù);B為紅方,無(wú)人機(jī)集合為Red={1,2,…,j,…,n},n為紅方的無(wú)人機(jī)總數(shù);紅方可采用的策略集合為SB={sB1,sB2,…,sBq,…,sBl},l為紅方可采取的策略總數(shù)??紤]紅藍(lán)無(wú)人機(jī)的多回合空戰(zhàn)對(duì)抗,其中第k回合至第k+1回合的博弈對(duì)抗過(guò)程如圖1所示。

        由圖1可知,針對(duì)第k回合至第k+1回合的博弈對(duì)抗,首先根據(jù)空戰(zhàn)雙方信息由文獻(xiàn)[28]中的空戰(zhàn)優(yōu)勢(shì)函數(shù)計(jì)算得到第k回合的紅藍(lán)雙方的空戰(zhàn)信息,然后利用線性規(guī)劃法求解當(dāng)前回合的納什均衡和期望收益。若當(dāng)前回合藍(lán)方期望收益小于0,則利用訓(xùn)練好的XGBoost模型進(jìn)行最優(yōu)機(jī)動(dòng)決策,得到下一回合的機(jī)動(dòng)動(dòng)作,重新計(jì)算空戰(zhàn)信息,再次求解納什均衡和期望收益,重復(fù)上述步驟直至藍(lán)方期望收益大于0,即藍(lán)方取得勝利。

        1.1 博弈模型建立

        假設(shè)紅藍(lán)雙方共進(jìn)行K回合的攻防博弈,且在k-1回合內(nèi)藍(lán)方均未取得勝利,第k回合雙方無(wú)人機(jī)位置、速度、俯仰角和偏航角信息均為已知。

        對(duì)于第k+1回合,建立藍(lán)方的收益支付函數(shù)為

        fk+1Apq=∑mi=1∑nj=1pk+1ijuk+1Aij-∑nj=1∑mi=1qk+1jiuk+1Bji(1)

        式中:pk+1ij=1表示藍(lán)方第i架無(wú)人機(jī)攻擊紅方第j架無(wú)人機(jī);pk+1ij=0則表示沒(méi)有攻擊,qk+1ji同理;uk+1Aij為第k+1回合藍(lán)方總體優(yōu)勢(shì)函數(shù),uk+1Bji為第k+1回合紅方總體優(yōu)勢(shì)函數(shù)。

        由此可建立藍(lán)方空戰(zhàn)支付矩陣為

        fk+1A=fk+1A11…fk+1A1q…fk+1A1l

        ……

        fk+1Ap1…fk+1Apq…fk+1Apl

        ……

        fk+1Ar1…fk+1Arq…fk+1Arl(2)

        式中:p和q分別為藍(lán)方和紅方的第p個(gè)和第q個(gè)策略。

        將單矩陣博弈問(wèn)題轉(zhuǎn)化為線性規(guī)劃問(wèn)題,可得到納什均衡解的求解如下:

        vk+1=maxx∈A uk+1(x)

        s.t. uk+1(x)=min1≤q≤l∑rp=1fk+1Apqxk+1p

        ∑rp=1fk+1Apqxk+1pfuk+1(x), q=1,2,…,l

        xk+11+xk+12+…+xk+1r=1

        xk+1p≥0, p=1,2,…,r(3)

        式中:uk+1表示第k+1回合紅方的期望收益;xk+1p表示第k+1回合紅方的混合策略納什均衡。

        根據(jù)無(wú)人機(jī)從第k回合到第k+1回合的變化過(guò)程,即可得到k+1回合的納什均衡解。若判斷藍(lán)方無(wú)法獲勝,選擇最優(yōu)機(jī)動(dòng)以提升下一回合獲勝的可能性,直至最終藍(lán)方期望收益大于0并取得勝利。

        1.2 機(jī)動(dòng)決策

        本文使用的無(wú)人機(jī)機(jī)動(dòng)動(dòng)作庫(kù),包括勻速前飛、左轉(zhuǎn)彎、右轉(zhuǎn)彎、加速前飛、減速前飛、俯沖和爬升7種基本機(jī)動(dòng)動(dòng)作29。最優(yōu)機(jī)動(dòng)決策通常選用分類與回歸樹 (classification and regression tree, CART) 決策樹算法,藍(lán)方無(wú)人機(jī)的位置(xA,yA,zA)、速度VA、俯仰角θA和偏航角A以及紅方無(wú)人機(jī)的位置(xB,yB,zB)、速度VB、俯仰角θB和偏航角B構(gòu)成決策樹空戰(zhàn)數(shù)據(jù)樣本集D的輸入特征E,E={e1,e2,e3,e4,e5,e6,e7,e8};7種機(jī)動(dòng)動(dòng)作構(gòu)成決策樹樣本集D的輸出屬性W,W={w1,w2,w3,w4,w5,w6,

        w7},即D={E,W}。輸入特征E與紅藍(lán)雙方的空戰(zhàn)信息關(guān)系如表1所示,輸出屬性W與機(jī)動(dòng)動(dòng)作關(guān)系如表2所示。

        根據(jù)表1中紅藍(lán)雙方的輸入信息,通過(guò)采用決策樹優(yōu)化算法可從表2列出的機(jī)動(dòng)動(dòng)作中確定最優(yōu)機(jī)動(dòng)動(dòng)作,即機(jī)動(dòng)決策。但由于傳統(tǒng)算法存在建模時(shí)間長(zhǎng)、不平衡空戰(zhàn)數(shù)據(jù)集決策準(zhǔn)確率低等問(wèn)題,本文考慮采用基于決策樹的RF降維和改進(jìn)XGBoost算法相結(jié)合的算法進(jìn)行多回合空戰(zhàn)對(duì)抗的最優(yōu)機(jī)動(dòng)動(dòng)作的確定。

        2 RF特征選擇

        由于存在高維空戰(zhàn)數(shù)據(jù)樣本集訓(xùn)練時(shí)間長(zhǎng)的問(wèn)題,本文采用RF算法通過(guò)計(jì)算每個(gè)輸入特征的重要性大小對(duì)初始空戰(zhàn)數(shù)據(jù)集進(jìn)行特征降維處理,即將每個(gè)輸入特征的重要性大小進(jìn)行排序,刪除對(duì)數(shù)據(jù)集貢獻(xiàn)較小的特征,再將降維后的空戰(zhàn)數(shù)據(jù)集作為初始數(shù)據(jù)集進(jìn)行訓(xùn)練。

        使用RF進(jìn)行變量重要評(píng)分(variable importance mea sures, VIM)的基本思想即獲取每個(gè)特征在RF的每棵樹上的貢獻(xiàn)大小,取平均值,最后進(jìn)行比較。貢獻(xiàn)度通常用Gini指數(shù)作為評(píng)價(jià)指標(biāo)來(lái)進(jìn)行衡量30

        若空戰(zhàn)數(shù)據(jù)集中有J個(gè)輸入特征e1,e2,…,ej,…,eJ,M個(gè)輸出機(jī)動(dòng)動(dòng)作,RF模型中有O棵決策樹,每個(gè)特征ej的重要度指標(biāo)即為VIM(Gini)j,定義為第j個(gè)特征在RF所有決策樹中節(jié)點(diǎn)分裂不純度的平均改變量。

        第o棵樹的節(jié)點(diǎn)q的Gini指數(shù)的計(jì)算公式為

        Gini(o)jq=∑Mm=1p(o)jqm(1-p(o)jqm)=

        ∑Mm=1p(o)jqm-∑Mm=1(p(o)jqm)2=

        1-∑Mm=1(p(o)jqm)2(4)

        式中:p(o)jqm表示第o棵樹節(jié)點(diǎn)q中第j個(gè)特征的機(jī)動(dòng)動(dòng)作編號(hào)m所占比例,且有∑Mm=1p(o)jqm=1。

        特征ej在第o棵樹節(jié)點(diǎn)q的重要性(即節(jié)點(diǎn)q分枝前后的Gini指數(shù)變化量)為

        VIM(Gini)(o)jq=Gini(o)jq-Gini(o)jq1-Gini(o)jq2(5)

        式中:Gini(o)jq1和Gini(o)jq2分別表示節(jié)點(diǎn)q分枝后的兩個(gè)新節(jié)點(diǎn)的Gini指數(shù)。

        若特征ej在決策樹o中出現(xiàn)的節(jié)點(diǎn)集合為Q,則ej在第o棵樹的重要性為

        VIM(Gini)(o)j=∑q∈QVIM(Gini)(o)jq(6)

        RF共有O棵決策樹,則特征ej的重要性為

        VIM(Gini)j=∑Oo=1VIM(Gini)(o)j(7)

        綜上,即可得到空戰(zhàn)樣本集中每個(gè)輸入特征ej的重要性大小,排序后去除空戰(zhàn)樣本集D中重要性較小的輸入特征以實(shí)現(xiàn)特征降維,在保證準(zhǔn)確率的同時(shí)提高模型訓(xùn)練速度,以滿足實(shí)戰(zhàn)要求。

        3 改進(jìn)XGBoost算法

        通過(guò)RF算法對(duì)空戰(zhàn)數(shù)據(jù)集進(jìn)行特征降維處理后,將處理后的數(shù)據(jù)集作為XGBoost算法的輸入來(lái)訓(xùn)練模型,并通過(guò)模型預(yù)測(cè)下一回合藍(lán)方無(wú)人機(jī)的最優(yōu)機(jī)動(dòng)動(dòng)作。

        傳統(tǒng)的XGBoost算法14以降低整體誤差為目標(biāo),因此在模型學(xué)習(xí)過(guò)程中更多地關(guān)注多數(shù)類樣本的分類預(yù)測(cè)性能,這將導(dǎo)致模型對(duì)少數(shù)類樣本的分類性能不能得到充分訓(xùn)練。因此,本文提出一種損失函數(shù)系數(shù)法對(duì)此問(wèn)題進(jìn)行處理,使樣本數(shù)量與該類樣本的損失函數(shù)大小呈負(fù)相關(guān)。

        (1) 計(jì)算機(jī)動(dòng)動(dòng)作類別占比um:

        um=zmN(8)

        式中:m為第m個(gè)機(jī)動(dòng)動(dòng)作;zm為第m個(gè)機(jī)動(dòng)動(dòng)作在空戰(zhàn)數(shù)據(jù)集中的數(shù)量;N為數(shù)據(jù)集中所有機(jī)動(dòng)動(dòng)作樣本數(shù)。

        (2) 定義損失函數(shù)系數(shù)

        對(duì)不平衡數(shù)據(jù)集進(jìn)行處理的一個(gè)簡(jiǎn)單有效的方法往往是對(duì)式(8)取倒數(shù),這樣可以顯著提高少數(shù)類樣本的損失函數(shù)系數(shù),但同時(shí)也會(huì)導(dǎo)致多數(shù)類樣本系數(shù)過(guò)小,進(jìn)而對(duì)模型預(yù)測(cè)結(jié)果起反作用,降低模型預(yù)測(cè)準(zhǔn)確率。因此,這里將損失函數(shù)系數(shù)βm定義為

        βm=αe-um(9)

        式中:α為適應(yīng)參數(shù),適當(dāng)調(diào)整α可保證βm數(shù)值的合理性。這里根據(jù)空戰(zhàn)數(shù)據(jù)集考慮設(shè)定α=1.5。且通過(guò)分析可知,式(9)可以保證新的損失函數(shù)二階可導(dǎo),滿足算法要求。

        (3) 損失函數(shù)

        對(duì)于多分類問(wèn)題,XGBoost算法常選用的損失函數(shù)為交叉熵?fù)p失,對(duì)于第n個(gè)樣本,其損失函數(shù)為

        l(wn,w^n)=-∑Mm=1wn(m)·logwn^(m)(10)

        式中:wn(m)為樣本n屬于第m個(gè)機(jī)動(dòng)動(dòng)作的真實(shí)概率值,w^(m)n為樣本n屬于第m個(gè)機(jī)動(dòng)動(dòng)作的預(yù)測(cè)概率值,log為任意底數(shù)的對(duì)數(shù)。

        考慮式(9),在式(10)的基礎(chǔ)上得到改進(jìn)后的損失函數(shù)為

        l(wn,w^n)=-∑Mm=1βm·wn(m)·log w^n(m)(11)

        將損失函數(shù)作用于XGBoost算法的目標(biāo)函數(shù)中

        Obj=∑Nn=1l(wn,w^n)+∑Tt=1Ω(ft)(12)

        式中:∑Nn=1l(wn,w^n)為損失函數(shù);∑Tt=1Ω(ft)為正則化項(xiàng),其作用主要是控制樹的復(fù)雜度,防止模型過(guò)擬合。

        XGBoost算法遵從前向分步加法,式(12)中的損失函數(shù)可寫為

        l(wn,w^n)=l(wn,w^(T-1)n+fT(en))(13)

        式中:w^(T-1)n為前T-1棵決策樹的總預(yù)測(cè)值;fT(en)為第T棵決策樹的預(yù)測(cè)值。

        將式(13)進(jìn)行泰勒展開,可進(jìn)一步寫為

        l(wn,w^(T-1)n+fT(en))≈l(wn,w^(T-1)n)+

        gnfT(en)+12hnf2T(en)(14)

        式中:gn=w^(T-1)l(wn,w^(T-1)n)和hn=2w^(T-1)l(w^n,w^(T-1)n)分別為損失函數(shù)對(duì)w^(T-1)n的一階導(dǎo)和二階導(dǎo)。

        對(duì)于第T顆樹的預(yù)測(cè),w^(T-1)n為已知值,所以l(wn,w^(T-1)n)和前T-1顆樹的正則化值均為常數(shù)值,對(duì)目標(biāo)函數(shù)的優(yōu)化沒(méi)有影響,因此去掉常數(shù)項(xiàng)后,式(12)可改寫為

        Obj(T)≈∑Nn=1[gnfT(en)+12hnf2T(en)]+Ω(fT)(15)

        式(15)中的正則化項(xiàng)定義為

        Ω(fT)=γS+12λ∑Ss=1w2s(16)

        式中:γ和λ為懲罰項(xiàng)系數(shù);S為第T顆樹的葉子節(jié)點(diǎn)個(gè)數(shù);ws為第s個(gè)葉子節(jié)點(diǎn)的取值。

        定義Is={τ|d(en)=s}表示第s個(gè)葉子節(jié)點(diǎn)的所有樣本τ的集合,Gs=∑τ∈Isgτ,Hs=∑τ∈Ishτ分別表示第s個(gè)葉子節(jié)點(diǎn)的所有樣本的損失函數(shù)一階導(dǎo)數(shù)值和二階導(dǎo)數(shù)值之和,式(15)可以寫為

        Obj(T)=∑Ss=1[Gsws+12(Hs+λ)w2s]+γS(17)

        由于損失函數(shù)均為凸函數(shù),可知在Obj(T)/ws=0時(shí),目標(biāo)函數(shù)可取得最小值,此時(shí)每個(gè)葉子節(jié)點(diǎn)的最優(yōu)值為

        w*s=-GsHs+λ(18)

        通過(guò)將系數(shù)βm作用于各個(gè)機(jī)動(dòng)動(dòng)作編號(hào)的損失函數(shù),可以提高樣本數(shù)較少的機(jī)動(dòng)動(dòng)作編號(hào)的損失函數(shù)值,同時(shí)適當(dāng)降低樣本數(shù)較多的機(jī)動(dòng)動(dòng)作編號(hào)的損失函數(shù)值,即改變各個(gè)機(jī)動(dòng)動(dòng)作編號(hào)樣本的損失函數(shù)一階、二階導(dǎo)數(shù)值,可以適當(dāng)調(diào)整模型對(duì)于不同數(shù)量的機(jī)動(dòng)動(dòng)作編號(hào)樣本的關(guān)注度,最終改變決策樹的葉子節(jié)點(diǎn)的值,即樣本的概率預(yù)測(cè)值,從而提高不平衡空戰(zhàn)數(shù)據(jù)集的機(jī)動(dòng)動(dòng)作預(yù)測(cè)概率,進(jìn)而確定最優(yōu)機(jī)動(dòng)決策。

        隨后,藍(lán)方無(wú)人機(jī)執(zhí)行確定的最優(yōu)機(jī)動(dòng)決策,以提升藍(lán)方態(tài)勢(shì),然后根據(jù)下一回合的支付矩陣模型重新計(jì)算納什均衡解和期望收益,直至藍(lán)方獲勝。

        4 仿真與分析

        為了驗(yàn)證本文所提方法的有效性,下面將分別進(jìn)行單回合和多回合攻防博弈仿真,其中多回合為藍(lán)方2架無(wú)人機(jī)(A1,A2)對(duì)抗紅方4架無(wú)人機(jī)(B1,B2,B3,B4)。

        4.1 單回合博弈算法仿真

        4.1.1 RF特征降維

        給定初始空戰(zhàn)數(shù)據(jù)樣本集D,其中以表1和表2作為樣本集D的輸入特征和輸出屬性,根據(jù)表1將藍(lán)方無(wú)人機(jī)位置(xA,yA,zA)視為特征e11,e21,e31,速度VA視為特征e2,俯仰角θA和偏航角A視為特征e3和e4,紅方無(wú)人機(jī)同理,可以得到12個(gè)輸入特征。將樣本集D作為RF算法的輸入,計(jì)算每個(gè)特征的重要度大小,將其排序后可以得到圖2。

        由圖2可知特征e2,e7,e4和e11(即藍(lán)方無(wú)人機(jī)速度VA),紅方無(wú)人機(jī)俯仰角θB,藍(lán)方無(wú)人機(jī)偏航角A和位置xA的重要性相對(duì)于其他特征較小,即對(duì)數(shù)據(jù)集的貢獻(xiàn)度較小,可將其從初始數(shù)據(jù)集中刪除并生成新的數(shù)據(jù)集D′,其特征數(shù)共有8個(gè),表3和表4分別給出了初始數(shù)據(jù)集D和新數(shù)據(jù)集D′中的部分?jǐn)?shù)據(jù),表中編號(hào)為無(wú)人機(jī)機(jī)動(dòng)動(dòng)作編號(hào),與表2中的數(shù)字標(biāo)號(hào)相對(duì)應(yīng)。將初始數(shù)據(jù)集D和新數(shù)據(jù)集D′分別作為XGBoost算法的輸入數(shù)據(jù)集進(jìn)行訓(xùn)練,得到兩者的平均訓(xùn)練時(shí)間如表5所示。

        由表5可知,根據(jù)特征重要度進(jìn)行適當(dāng)?shù)奶卣鹘稻S后,模型訓(xùn)練時(shí)間提高了21.77%,說(shuō)明所提算法能夠有效提高模型訓(xùn)練速度,保證了空戰(zhàn)時(shí)進(jìn)行實(shí)時(shí)決策的能力。

        4.1.2 XGBoost模型預(yù)測(cè)

        將初始數(shù)據(jù)集D和降維后的數(shù)據(jù)集D′分別作為原始XGBoost算法的輸入數(shù)據(jù)集,再將D′作為改進(jìn)后XGBoost算法的輸入數(shù)據(jù)集進(jìn)行訓(xùn)練,并將數(shù)據(jù)集中20%的樣本作為測(cè)試集,進(jìn)行最優(yōu)機(jī)動(dòng)動(dòng)作預(yù)測(cè),得到的預(yù)測(cè)結(jié)果如圖3所示。

        由圖3(a)和圖3(b)可知,將初始空戰(zhàn)數(shù)據(jù)集根據(jù)RF算法特征降維后,XGBoost算法的最優(yōu)機(jī)動(dòng)決策的預(yù)測(cè)準(zhǔn)確率從93.78%提高到95.34%,說(shuō)明對(duì)空戰(zhàn)數(shù)據(jù)集特征降維能夠在提高模型訓(xùn)練效率的同時(shí)保證預(yù)測(cè)準(zhǔn)確率。由圖3(b)和圖3(c)可知,改進(jìn)后XGBoost算法相較于改進(jìn)前XGBoost算法的機(jī)動(dòng)動(dòng)作預(yù)測(cè)準(zhǔn)確率從95.34%提高到了98.45%,提升較為明顯,圖4給出了兩者對(duì)于測(cè)試集預(yù)測(cè)的混淆矩陣。

        圖4中,混淆矩陣的橫坐標(biāo)為XGBoost模型預(yù)測(cè)的機(jī)動(dòng)動(dòng)作編號(hào),縱坐標(biāo)為測(cè)試集中真實(shí)的機(jī)動(dòng)動(dòng)作編號(hào),每行的數(shù)據(jù)總數(shù)表示了測(cè)試集中該機(jī)動(dòng)動(dòng)作的數(shù)量,對(duì)角線上代表預(yù)測(cè)正確的機(jī)動(dòng)動(dòng)作的數(shù)量。由圖4(b)可知,機(jī)動(dòng)動(dòng)作4(即加速前飛動(dòng)作)的樣本數(shù)明顯多于其余機(jī)動(dòng)動(dòng)作,對(duì)于此不平衡樣本集,改進(jìn)后的XGBoost算法提高了對(duì)少數(shù)類樣本的預(yù)測(cè)概率,并且隨著數(shù)據(jù)集維數(shù)的增大,算法性能提升效果更加明顯,對(duì)于解決樣本不平衡問(wèn)題可以起到一定作用。

        4.2 多回合攻防博弈

        設(shè)定藍(lán)方無(wú)人機(jī)(A1,A2)的價(jià)值集合vaA={58,55},攻擊命中率集合pA={0.60,0.62};紅方無(wú)人機(jī)(B1,B2,B3,B4)的價(jià)值集合vaB={46,50,48,50},攻擊命中率集合pB={0.58,0.56,0.56,0.60}。假設(shè)紅藍(lán)雙方無(wú)人機(jī)每次攻擊均只能鎖定一個(gè)目標(biāo),根據(jù)文獻(xiàn)[18]中的優(yōu)勢(shì)函數(shù)定義,可得到藍(lán)方無(wú)人機(jī)的初始狀態(tài)博弈支付矩陣為

        -0.268-0.254-0.255-0.241-0.255-0.241-0.241-0.227-0.254-0.241-0.241-0.227-0.241-0.227-0.227-0.213

        -0.267-0.253-0.254-0.240-0.253-0.240-0.240-0.226-0.253-0.239-0.240-0.226-0.239-0.226-0.226-0.212

        -0.273-0.259-0.259-0.246-0.259-0.245-0.246-0.232-0.259-0.245-0.245-0.232-0.245-0.231-0.232-0.218

        -0.270-0.256-0.257-0.243-0.257-0.243-0.243-0.229-0.256-0.242-0.243-0.229-0.243-0.229-0.229-0.215

        -0.267-0.253-0.254-0.240-0.254-0.240-0.240-0.226-0.253-0.240-0.240-0.226-0.240-0.226-0.226-0.212

        -0.266-0.252-0.253-0.239-0.252-0.239-0.240-0.225-0.252-0.238-0.239-0.225-0.238-0.225-0.225-0.211

        -0.272-0.258-0.258-0.245-0.258-0.244-0.245-0.231-0.258-0.244-0.244-0.231-0.244-0.230-0.231-0.217

        -0.269-0.255-0.256-0.242-0.256-0.242-0.242-0.228-0.255-0.241-0.242-0.228-0.242-0.228-0.228-0.214

        -0.273-0.259-0.259-0.245-0.259-0.245-0.246-0.232-0.259-0.245-0.245-0.232-0.245-0.231-0.232-0.218

        -0.272-0.258-0.258-0.244-0.258-0.244-0.244-0.231-0.258-0.244-0.244-0.230-0.244-0.230-0.230-0.217

        -0.277-0.263-0.264-0.250-0.264-0.250-0.250-0.236-0.253-0.250-0.250-0.236-0.250-0.236-0.236-0.222

        -0.275-0.261-0.261-0.247-0.261-0.247-0.248-0.234-0.261-0.247-0.247-0.233-0.247-0.233-0.234-0.220

        -0.270-0.256-0.257-0.243-0.256-0.243-0.243-0.229-0.256-0.242-0.243-0.229-0.243-0.229-0.229-0.215

        -0.269-0.255-0.255-0.242-0.255-0.241-0.242-0.228-0.255-0.241-0.242-0.228-0.241-0.227-0.228-0.214

        -0.275-0.261-0.261-0.247-0.261-0.247-0.248-0.234-0.261-0.247-0.247-0.233-0.247-0.233-0.234-0.220

        -0.272-0.258-0.259-0.245-0.258-0.245-0.245-0.231-0.258-0.244-0.245-0.231-0.244-0.231-0.231-0.217

        根據(jù)魯棒線性規(guī)劃法求解上述博弈支付矩陣,得到的納什均衡解為x*=(0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0),期望收益為-0.220 5。此時(shí)期望收益小于0,藍(lán)方不占優(yōu)勢(shì),因此紅藍(lán)雙方進(jìn)行多回合攻防博弈。

        設(shè)置每回合博弈對(duì)抗時(shí)間Δt為1 s,最大仿真時(shí)間T=80Δt,且當(dāng)藍(lán)方無(wú)人機(jī)期望收益大于0或者達(dá)到最大仿真時(shí)間時(shí)結(jié)束對(duì)抗。分別采用未進(jìn)行降維處理的改進(jìn)XGBoost算法、利用RF算法特征降維后的改進(jìn)XGBoost算法、利用RF算法特征降維后的傳統(tǒng)決策樹算法進(jìn)行博弈對(duì)抗的平均仿真時(shí)間如表6所示,基于改進(jìn)XGBoost算法的博弈對(duì)抗紅藍(lán)雙方位置軌跡如圖5所示,藍(lán)方期望收益變化如圖6所示?;趥鹘y(tǒng)決策樹的博弈對(duì)抗紅藍(lán)雙方位置軌跡如圖7所示,藍(lán)方期望收益變化如圖8所示。

        由表6可以看出,在RF算法對(duì)數(shù)據(jù)集進(jìn)行降維處理后,基于改進(jìn)XGBoost算法的多回合博弈對(duì)抗的時(shí)間減少了27.5%,且相較于傳統(tǒng)的決策樹算法,對(duì)抗時(shí)間減少了18.5%。由圖5和圖6可知,在對(duì)抗初期,相互接近的過(guò)程由于距離較遠(yuǎn),只進(jìn)行較小幅度的爬升和俯沖機(jī)動(dòng),藍(lán)方期望收益變化并不明顯。隨后,藍(lán)方為了獲得勝利使自身期望收益增大,在紅藍(lán)雙方接近后、藍(lán)方無(wú)人機(jī)架次不占優(yōu)的情況下,藍(lán)方的最優(yōu)機(jī)動(dòng)選擇不斷加速和爬升以獲取高度優(yōu)勢(shì)。最后,經(jīng)過(guò)46個(gè)回合,藍(lán)方期望收益從-0.220 5增加到了0.001 2,期望收益大于0,即表示藍(lán)方在博弈對(duì)抗過(guò)程中開始占優(yōu),表明藍(lán)方能夠在空戰(zhàn)中取得勝利。由圖7和圖8可知,在采用基于傳統(tǒng)決策樹的博弈對(duì)抗中,藍(lán)方獲勝所需的回合數(shù)為63,說(shuō)明所提算法相較于傳統(tǒng)決策樹算法能夠縮短藍(lán)方獲勝的對(duì)抗時(shí)間,提高空戰(zhàn)對(duì)抗中最優(yōu)機(jī)動(dòng)決策的實(shí)時(shí)性。

        根據(jù)上述仿真結(jié)果可知,藍(lán)方無(wú)人機(jī)采用的基于RF XGBoost算法的無(wú)人機(jī)多回合攻防博弈方法相較于采取一般決策的紅方無(wú)人機(jī)能夠更快地獲取空戰(zhàn)態(tài)勢(shì)優(yōu)勢(shì),且對(duì)于高維度的空戰(zhàn)數(shù)據(jù)集能夠保證對(duì)抗的實(shí)時(shí)性,因此藍(lán)方能在無(wú)人機(jī)架次不占優(yōu)的情況下,逐漸掌握戰(zhàn)場(chǎng)的主動(dòng)權(quán)。

        5 結(jié) 論

        本文針對(duì)無(wú)人機(jī)的多回合空戰(zhàn)博弈對(duì)抗問(wèn)題,提出了一種基于RF XGBoost算法的多回合攻防博弈決策方法。該方法根據(jù)紅藍(lán)雙方的運(yùn)動(dòng)狀態(tài)和空戰(zhàn)信息建立了支付矩陣模型,通過(guò)求解納什均衡和期望收益,以此為依據(jù)判斷博弈能否停止,然后利用RF算法對(duì)空戰(zhàn)數(shù)據(jù)集進(jìn)行特征降維,建立改進(jìn)的XGBoost模型處理不平衡數(shù)據(jù)集下的最優(yōu)機(jī)動(dòng)決策。所提算法在單回合博弈仿真和多回合攻防博弈仿真中均獲得了符合設(shè)計(jì)要求的最優(yōu)機(jī)動(dòng)決策,且相較于傳統(tǒng)決策樹算法減小了獲勝所需的回合數(shù)。所提算法不僅為多回合空戰(zhàn)博弈決策提供了新的解決思路,也為其他領(lǐng)域的博弈推演問(wèn)題提供了有價(jià)值的思考。

        參考文獻(xiàn)

        [1]LI B, HUANG J Y, BAI S X, et al. Autonomous air combat decision making of UAV based on parallel self play reinforcement learning[J]. CAAI Transactions on Intelligence Technology, 2022, 8(1): 64-81.

        [2]DONG Y Q, AI J L, LIU J Q. Guidance and control for own aircraft in the autonomous air combat: a historical review and future prospects[J]. Proceedings of the Institution of Mechanical Engineers, Part G: Journal of Aerospace Engineering, 2019, 233(16): 5943-5991.

        [3]ZHANG J D, YU Y F, ZHENG L H, et al. Situational continuity based air combat autonomous maneuvering decision making[J]. Defence Technology, 2023, 29(11): 66-79.

        [4]HE Y X, DU Z J, HUANG L W, et al. Maneuver decision making method for ship collision avoidance in Chengshantou traffic separation scheme waters[J]. Applied Sciences, 2023, 13(14): 8437.

        [5]LU H C, WU B Y, CHEN J Q. Fighter equipment contribution evaluation based on maneuver decision[J]. IEEE Access, 2021, 9: 132241-132254.

        [6]董一群, 艾劍良. 自主空戰(zhàn)技術(shù)中的機(jī)動(dòng)決策: 進(jìn)展與展望[J]. 航空學(xué)報(bào), 2020, 41(S2): 4-12.

        DONG Y Q, AI J L. Decision making in autonomous air combat: review and prospects[J]. Acta Aeronautica et Astronautica Sinica, 2020, 41(S2): 4-12.

        [7]AUSTIN F, CARBONE G, HINZ H, et al. Game theory for automated maneuvering during air to air combat[J]. Journal of Guidance, Control, and Dynamics, 1990, 13(6): 1143-1149.

        [8]ARDEMA A, HEYMANN M, RAJAN N. Analysis of a combat problem: the turret game[J]. Journal of Optimization Theory and Applications, 1987, 54(1): 23-42.

        [9]WONG R E. Some aerospace differential games[J]. Journal of Spacecraft and Rockets, 2012, 4(11): 1460-1465.

        [10]VIRTANEN K, KARELAHTI J, RAIVIO T. Modeling air combat by a moving horizon influence diagram game[J]. Journal of Guidance, Control, and Dynamics, 2012, 29(5): 1080-1091.

        [11]譚目來(lái), 丁達(dá)理, 謝磊, 等. 基于模糊專家系統(tǒng)與IDE算法的UCAV逃逸機(jī)動(dòng)決策[J]. 系統(tǒng)工程與電子技術(shù), 2022, 44(6): 1984-1993.

        TAN M L, DING D L, XIE L, et al. UCAV escape maneuvering decision based on fuzzy expert system and IDE algorithm[J]. Systems Engineering and Electronics, 2022, 44(6): 1984-1993.

        [12]傅莉, 謝福懷, 孟光磊, 等. 基于滾動(dòng)時(shí)域的無(wú)人機(jī)空戰(zhàn)決策專家系統(tǒng)[J]. 北京航空航天大學(xué)學(xué)報(bào), 2015, 41(11): 1994-1999.

        FU L, XIE F H, MENG G L, et al. An UAV air combat decision expert system based on receding horizon control[J]. Journal of Beijing University of Aeronautics and Astronautics, 2015, 41(11): 1994-1999.

        [13]ZHANG H P, ZHOU H, WEI Y J, et al. Autonomous maneuver decision making method based on reinforcement learning and Monte Carlo tree search[J]. Frontiers in Neurorobotics, 2022, 16: 996412.

        [14]何旭, 景小寧, 馮超. 基于蒙特卡羅樹搜索方法的空戰(zhàn)機(jī)動(dòng)決策[J]. 空軍工程大學(xué)學(xué)報(bào)(自然科學(xué)版), 2017, 18(5): 36-41.

        HE X, JING X N, FENG C. Air combat maneuver decision based on MCTS method[J]. Journal of Air Force Engineering University(Natural Science Edition), 2017, 18(5): 36-41.

        [15]TENG T H, TAN A H, TAN Y S, et al. Self organizing neural networks for learning air combat maneuvers[C]∥Proc.of the International Joint Conference on Neural Networks, 2012.

        [16]LI B, LIANG S Y, CHEN D Q, et al. A decision making method for air combat maneuver based on hybrid deep learning network[J]. Chinese Journal of Electronics, 2022, 31(1): 107-115.

        [17]張宏鵬, 黃長(zhǎng)強(qiáng), 軒永波, 等. 基于深度神經(jīng)網(wǎng)絡(luò)的無(wú)人作戰(zhàn)飛機(jī)自主空戰(zhàn)機(jī)動(dòng)決策[J]. 兵工學(xué)報(bào), 2020, 41(8): 1613-1622.

        ZHANG H P, HUANG C Q, XUAN Y B, et al. Maneuver decision of autonomous air combat of unmanned combat aerial vehicle based on deep neural network[J]. Acta Armamentarii, 2020, 41(8): 1613-1622.

        [18]ZHU J D, FU X W, QIAO Z. UAVs maneuver decision making method based on transfer reinforcement learning[J]. Computational Intelligence and Neuroscience, 2022, 2022(1): 2399796.

        [19]章勝, 周攀, 何揚(yáng), 等. 基于深度強(qiáng)化學(xué)習(xí)的空戰(zhàn)機(jī)動(dòng)決策試驗(yàn)[J]. 航空學(xué)報(bào), 2023, 44(10): 122-135.

        ZHANG S, ZHOU P, HE Y, et al. Air combat maneuver decision making test based on deep reinforcement learning[J]. Acta Aeronautica et Astronautica Sinica, 2023, 44(10): 122-135.

        [20]楊晟琦, 田明俊, 司迎利, 等. 基于分層強(qiáng)化學(xué)習(xí)的無(wú)人機(jī)機(jī)動(dòng)決策[J]. 火力與指揮控制, 2023, 48(8): 48-52.

        YANG S Q, TIAN M J, SI Y L, el al. Research on UAV maneuver decision making based on hierarchical reinforcement learning[J]. Fire Control amp; Command Control, 2023, 48(8): 48-52.

        [21]ERNEST N, COHEN K, KIVELEVITCH E, et al. Genetic fuzzy trees and their application towards autonomous training and control of a squadron of unmanned combat aerial vehicles[J]. Unmanned Systems, 2015, 3(3): 185-204.

        [22]BLUMHAGEN R Z, SCHWARTZ D A. Identification of influe ntial rare variants in aggregate testing using random forest importance measures[J]. Annals of Human Genetics, 2023, 87(4): 184-195.

        [23]程紹馳, 游光榮. 基于改進(jìn)隨機(jī)森林算法的評(píng)估指標(biāo)精簡(jiǎn)方法研究[J]. 系統(tǒng)工程與電子技術(shù), 2023, 45(7): 2108-2113.

        CHENG S C, YOU G R. Research on the method of simplifying evaluation index based on improved random forest algorithm[J]. Systems Engineering and Electronics, 2023, 45(7): 2108-2113.

        [24]DANIEL J L, ZHU R Q, CUI Y F, et al. Dimension reduction forests: local variable importance using structured random fo rests[J]. Journal of Computational and Graphical Statistics, 2022, 31(4): 1104-1113.

        [25]CHEN T Q, CARLOS G. XGBoost: a scalable tree boosting system[C]∥Proc.of the 22nd ACM SIGKDD International Conference on Knowledge Giscovery and Data Mining, 2016.

        [26]VADHWANI D Y, DEVENDRA T. Prediction of extent of da mage in vehicle during crash using improved XGBoost model[J]. International Journal of Crashworthiness, 2023, 28(3): 299-305.

        [27]REN Q X, WANG J G. Research on enterprise digital level classification based on XGBoost model[J]. Sustainability, 2023, 15(3): 2699.

        [28]王琳蒙. 非完備信息下的無(wú)人機(jī)空戰(zhàn)動(dòng)態(tài)博弈決策研究[D]. 南京: 南京航空航天大學(xué), 2023.

        WANG L M. Research on dynamic game decision making of UAV’s air combat under incomplete information[D]. Nanjing: Nanjing University of Aeronautics and Astronautics, 2023.

        [29]劉昊天. 無(wú)人機(jī)空戰(zhàn)對(duì)抗博弈決策研究[D]. 南京: 南京航空航天大學(xué), 2022.

        LIU H T. Research on game decision of UAV air combat confrontation[D]. Nanjing: Nanjing University of Aeronautics and Astronautics, 2022.

        [30]STROBL C, BOULESTEIX A L, KNEIB T, et al. Conditional variable importance for random forests[J]. BMC Bioinformatics, 2008, 9(1): 307.

        作者簡(jiǎn)介

        鄒世培(2000—),男,碩士研究生,主要研究方向?yàn)閯?dòng)態(tài)博弈決策。

        王玉惠(1980—),女,教授,博士,主要研究方向?yàn)轱w行控制、智能決策控制。

        劉鴻睿(1999—),男,碩士研究生,主要研究方向?yàn)榭諔?zhàn)決策效能評(píng)估。

        猜你喜歡
        無(wú)人機(jī)
        基于蟻群算法的一種無(wú)人機(jī)二維航跡規(guī)劃方法研究
        無(wú)人機(jī)動(dòng)態(tài)跟蹤展示系統(tǒng)設(shè)計(jì)
        無(wú)人機(jī)配送的障礙性因素分析
        無(wú)人機(jī)在海上人命救助中的應(yīng)用
        植保無(wú)人機(jī)操作規(guī)程及注意事項(xiàng)
        高職院校新開設(shè)無(wú)人機(jī)專業(yè)的探討
        人間(2016年26期)2016-11-03 17:52:40
        利用無(wú)人機(jī)進(jìn)行航測(cè)工作的方式方法
        一種適用于輸電線路跨線牽引無(wú)人機(jī)的飛行方案設(shè)計(jì)
        科技視界(2016年22期)2016-10-18 14:30:27
        淺析無(wú)人機(jī)技術(shù)在我國(guó)的發(fā)展前景
        久久熟妇少妇亚洲精品| 开心激情网,开心五月天| 日本高清视频永久网站www| 小说区激情另类春色| 国产va在线观看免费| 国产另类综合区| 国产粉嫩美女一区二区三| 阴唇两边有点白是怎么回事| 国产欧美成人一区二区a片| 无码午夜人妻一区二区三区不卡视频| 国产V日韩V亚洲欧美久久| 97人人超碰国产精品最新| 漂亮人妻出轨中文字幕| 青青草是针对华人绿色超碰| av影院在线免费观看不卡| 最近中文字幕完整版免费| 一国产区在线观看| 国产三级视频一区二区| 国产亚洲精品品视频在线| 内地老熟女老少配视频| 国产爽爽视频在线| 久久精品一区二区三区不卡牛牛| 美女脱了内裤露出奶头的视频| 日韩欧群交p片内射中文| 精品欧美久久99久久久另类专区| 国产精品久久国产精麻豆| 亚洲av色香蕉一区二区三区| 亚洲精品无码成人片久久不卡| 国产久视频| 伊人久久大香线蕉av最新午夜| 三级全黄的视频在线观看 | 免费大片黄在线观看| av熟女一区二区久久| 亚洲视频免费一区二区| 中文字幕免费不卡二区| 久久久久亚洲AV成人网毛片 | 亚洲精品国产精品系列| 精品高朝久久久久9999| 国产精品成年片在线观看| 国产av天堂亚洲国产av麻豆| 国内偷拍国内精品多白86|