劉佳敏,吳慶憲,王玉惠,周大可
(南京航空航天大學(xué)自動(dòng)化學(xué)院,南京 211106)
無(wú)人機(jī)在空戰(zhàn)中需要根據(jù)復(fù)雜的戰(zhàn)場(chǎng)信息決策出最優(yōu)的戰(zhàn)術(shù)方案。常用的攻防決策方法有專家系統(tǒng)法、狼群算法和影響圖法等,但這些方法有一定的局限性,如專家系統(tǒng)法的可適應(yīng)性較差。而采取以博弈論為基礎(chǔ)的決策方法更能體現(xiàn)空戰(zhàn)的對(duì)抗性,如文獻(xiàn)[7]提出了一種矩陣對(duì)策法與遺傳算法相結(jié)合的空戰(zhàn)決策算法等。然而由于傳感器精度、戰(zhàn)場(chǎng)環(huán)境干擾等原因,采集的空戰(zhàn)信息具有不確定性,這會(huì)影響空戰(zhàn)攻防決策的正確性。
關(guān)于不確定信息下無(wú)人機(jī)空戰(zhàn)攻防博弈的研究,目前已有文獻(xiàn)報(bào)道,并取得了一些研究成果。文獻(xiàn)[10]建立了無(wú)人機(jī)空戰(zhàn)機(jī)動(dòng)直覺(jué)模糊博弈模型,但模糊數(shù)屬性權(quán)重的確定具有主觀性。文獻(xiàn)[11-13]基于區(qū)間數(shù)對(duì)不確定環(huán)境無(wú)人機(jī)攻防博弈策略進(jìn)行了研究,但是沒(méi)有充分考慮戰(zhàn)場(chǎng)態(tài)勢(shì)對(duì)攻防博弈的影響,并且沒(méi)有客觀確定態(tài)勢(shì)權(quán)重。根據(jù)以上文獻(xiàn)的研究成果可以分析出,學(xué)者們已開(kāi)展不確定信息下無(wú)人機(jī)空戰(zhàn)攻防博弈問(wèn)題的研究,但還需充分考慮戰(zhàn)場(chǎng)態(tài)勢(shì),以及客觀確定態(tài)勢(shì)權(quán)重。
綜上分析,針對(duì)無(wú)人機(jī)空戰(zhàn)面臨信息不確定等挑戰(zhàn),本文基于區(qū)間數(shù)和量子粒子群優(yōu)化(quantum particle swarm optimization,QPSO)提出一種無(wú)人機(jī)空戰(zhàn)攻防博弈模型。該模型采用區(qū)間數(shù)表示不確定信息,然后態(tài)勢(shì)分析,借助集對(duì)分析和QPSO 算法確定態(tài)勢(shì)最優(yōu)權(quán)重,建立博弈支付函數(shù),獲得區(qū)間數(shù)支付矩陣。結(jié)合區(qū)間數(shù)可能度概念,采用QPSO 算法對(duì)雙方混合策略納什均衡和期望收益區(qū)間進(jìn)行求解。最后通過(guò)仿真,驗(yàn)證該攻防博弈模型解決不確定環(huán)境下無(wú)人機(jī)攻防博弈問(wèn)題的有效性。
不確定信息下無(wú)人機(jī)空戰(zhàn)攻防博弈決策原理如圖1 所示。無(wú)人機(jī)攻防博弈問(wèn)題需要根據(jù)雙方無(wú)人機(jī)的角度、距離、速度、高度和性能數(shù)據(jù)計(jì)算態(tài)勢(shì),并對(duì)態(tài)勢(shì)權(quán)重進(jìn)行尋優(yōu),從而計(jì)算區(qū)間數(shù)支付矩陣進(jìn)行決策。
建立攻防博弈模型,結(jié)合區(qū)間數(shù)的可能度公式,采用QPSO 算法來(lái)求解納什均衡策略。
對(duì)單矩陣博弈問(wèn)題的求解本質(zhì)上是對(duì)式(14)進(jìn)行求解,結(jié)合區(qū)間數(shù)的可能度概念,采用QPSO 算法求解納什均衡。
攻防博弈決策的具體步驟如下:
Step 1 采集不確定空戰(zhàn)信息,用區(qū)間數(shù)表示;Step 2 分析雙方每架無(wú)人機(jī)態(tài)勢(shì),根據(jù)優(yōu)勢(shì)函數(shù)計(jì)算態(tài)勢(shì)區(qū)間數(shù)矩陣,并轉(zhuǎn)化為聯(lián)系數(shù)矩陣;
另外,圍繞碩博士學(xué)位論文的使用價(jià)值,機(jī)械與動(dòng)力工程等學(xué)科提出學(xué)位論文有助于讀者快速了解某一領(lǐng)域發(fā)展及研究現(xiàn)狀,是學(xué)科用戶從事科研活動(dòng)必不可少的一類文獻(xiàn)來(lái)源。
Step 3 根據(jù)得到的態(tài)勢(shì)聯(lián)系數(shù)矩陣和式(2)~式(8),采用QPSO 算法尋找每架無(wú)人機(jī)的最優(yōu)權(quán)重;
Step 4 根據(jù)Step 3 得到的最優(yōu)權(quán)重和式(9)~式(12),計(jì)算博弈區(qū)間數(shù)支付矩陣,并根據(jù)式(13)、式(14)將單矩陣博弈問(wèn)題轉(zhuǎn)化為線性規(guī)劃問(wèn)題;
Step 5 采用QPSO 算法求解敵我雙方的混合策略納什均衡。定義無(wú)人機(jī)策略粒子種群和適應(yīng)度函數(shù),結(jié)合區(qū)間數(shù)的可能度,根據(jù)式(15)~式(18)迭代更新個(gè)體最優(yōu)策略粒子和全局最優(yōu)策略粒子;
Step 6 重復(fù)Step 5,直至達(dá)到最大迭代次數(shù),輸出全局最優(yōu)策略粒子,即敵我方無(wú)人機(jī)混合策略的納什均衡解。
由于支付矩陣為區(qū)間數(shù)矩陣,策略粒子的適應(yīng)度值也為區(qū)間數(shù),通過(guò)可能度來(lái)比較適應(yīng)度值。設(shè)定策略粒子的適應(yīng)度值為
表1 敵我雙方策略集(部分)
我方和敵方無(wú)人機(jī)空戰(zhàn)信息(角度、速度、高度、距離)如下頁(yè)表2、表3 所示。
表2 我方UAV 角度、速度態(tài)勢(shì)、UAV 高度、距離態(tài)勢(shì)
表3 敵方UAV 角度、距離態(tài)勢(shì)、UAV 高度、距離態(tài)勢(shì)
表4 我方對(duì)敵方最優(yōu)態(tài)勢(shì)權(quán)重
表5 敵方對(duì)我方最優(yōu)態(tài)勢(shì)權(quán)重
當(dāng)我方選擇策略x,敵方分別選擇策略y、y、y、y、y、y、y、y、y、y、y、y、y、y、y、y時(shí),我方區(qū)間支付值分別為[-2.334 3,-1.902 2]、[-2.233 2,-1.866 2]、[-2.490 0,-1.973 1]、[-2.388 9,-1.937 0]、[-2.580 5,-2.060 8]、[-2.479 4,-2.024 7]、[-2.736 2,-2.131 6]、[-2.635 1,-2.095 5]、[-2.450 8,-2.006 9]、[-2.349 7,-1.970 9]、[-2.606 5,-2.077 7]、[-2.505 4,-2.041 7]、[-2.697 0,-2.165 5]、[-2.595 9,-2.129 4]、[-2.852 7,-2.236 3]、[-2.751 6,-2.200 2]。
圖2、圖3 為QPSO 算法求解納什均衡過(guò)程中敵我方適應(yīng)度變化曲線。分析可知,經(jīng)過(guò)一定次數(shù)迭代后,QPSO 算法能找到各自無(wú)人機(jī)的全局最優(yōu)粒子,即敵我方混合策略納什均衡,驗(yàn)證了區(qū)間數(shù)攻防博弈模型解決不確定環(huán)境下無(wú)人機(jī)攻防博弈問(wèn)題的有效性。
圖2 我方的區(qū)間適應(yīng)度變化曲線
圖3 敵方的區(qū)間適應(yīng)度變化曲線
對(duì)比QPSO 算法和PSO 算法求解混合策略納什均衡解的性能。分別用這兩種算法進(jìn)行多次迭代求解實(shí)驗(yàn),并計(jì)算各自求得全局最優(yōu)解的平均迭代次數(shù),結(jié)果如表6 所示。
表6 兩種算法的平均迭代次數(shù)
通過(guò)表格數(shù)據(jù)可得,QPSO 算法求解區(qū)間數(shù)支付矩陣混合策略納什均衡解的平均迭代次數(shù)更少,體現(xiàn)QPSO 算法的性能優(yōu)越性。
針對(duì)不確定環(huán)境下空戰(zhàn),本文提出一種無(wú)人機(jī)空戰(zhàn)攻防博弈模型。該模型中不確定空戰(zhàn)信息用區(qū)間數(shù)表示,借助集對(duì)分析理論處理區(qū)間態(tài)勢(shì),用QPSO 算法對(duì)態(tài)勢(shì)權(quán)重進(jìn)行尋優(yōu),完善博弈支付函數(shù);結(jié)合可能度概念,采用QPSO 算法求解敵我方攻防博弈的混合策略納什均衡,并比較QPSO 算法和PSO 算法求得全局最優(yōu)解的平均迭代次數(shù)。該模型還可以應(yīng)用于其他不確定信息的博弈問(wèn)題研究,但也還存在不足之處,在之后的研究中會(huì)不斷完善改進(jìn)。