李億俍,李 娟,劉 暢,李 杰
(北京理工大學(xué)機(jī)電學(xué)院,北京 100081)
近年來(lái),隨著戰(zhàn)爭(zhēng)形態(tài)的轉(zhuǎn)變,智能無(wú)人武器裝備大規(guī)模出現(xiàn)并得到迅猛發(fā)展,未來(lái)戰(zhàn)場(chǎng)將從信息化向智能化轉(zhuǎn)變。無(wú)人武器裝備具有數(shù)量多、響應(yīng)速度快、任務(wù)執(zhí)行效率高、環(huán)境適應(yīng)能力強(qiáng)等優(yōu)勢(shì),能夠?qū)?zhàn)場(chǎng)態(tài)勢(shì)做出快速而靈活的響應(yīng)。在空中武器裝備的發(fā)展中,智能化、無(wú)人化、集群化的發(fā)展趨勢(shì)尤為明顯[1-2]。時(shí)至今日,無(wú)人機(jī)已經(jīng)成為重要的作戰(zhàn)力量,在各類軍事沖突或者戰(zhàn)爭(zhēng)中扮演的角色越來(lái)越重要[3-6],某種程度上已經(jīng)成為一種殺手锏武器。
美國(guó)國(guó)家工程院院士Vijay Kumar在2016年全球人工智能與機(jī)器人峰會(huì)(CCF-GAIR)的報(bào)告中提出了無(wú)人機(jī)發(fā)展的“5S”趨勢(shì)[7]:小型化(Small),安全化(Safe),智能化(Smart),高速化(Speed),集群化(Swarm)。其中,集群技術(shù)作為一種改變游戲方式的顛覆性技術(shù),一直被中美等國(guó)視為無(wú)人化作戰(zhàn)的突破口,在學(xué)術(shù)界和國(guó)防領(lǐng)域廣受關(guān)注。隨著集群技術(shù)的發(fā)展和集群武器的應(yīng)用,無(wú)人機(jī)集群間的攻防對(duì)抗將成為一種新的作戰(zhàn)形式[8](如圖1所示)。然而,在現(xiàn)有國(guó)內(nèi)外的研究中,尚未出現(xiàn)成熟的集群攻防決策方法[9],對(duì)于集群攻防對(duì)抗研究仍然存在大量空白。
圖1 無(wú)人機(jī)集群攻防概念圖Fig.1 Concept map of attack and defense for UAV swarms
微分博弈起源于20世紀(jì)50年代,是一種可靠且高效的空戰(zhàn)策略求解方法。由于制導(dǎo)攔截彈藥的出現(xiàn)和航天中有關(guān)機(jī)動(dòng)追擊問(wèn)題的需要,美國(guó)蘭德(Rand)公司在空軍資助下,美國(guó)數(shù)學(xué)家Rufus Isaacs博士等開(kāi)展了對(duì)抗雙方都能自由決策行動(dòng)的理論追逃問(wèn)題研究。在 Isaacs[10]的開(kāi)創(chuàng)性論文中,他運(yùn)用博弈論、變分法和控制理論的原理來(lái)解決涉及兩個(gè)和多個(gè)智能體之間動(dòng)態(tài)沖突的問(wèn)題。文中采用的微分動(dòng)態(tài)規(guī)劃的方法使微分博弈從傳統(tǒng)博弈的離散時(shí)間限制中跳脫出來(lái),能夠求解實(shí)時(shí)、動(dòng)態(tài)的最優(yōu)均衡策略。雖然微分博弈適用于無(wú)人機(jī)攻防空戰(zhàn)的決策求解,但其計(jì)算復(fù)雜度的爆炸增長(zhǎng),使得現(xiàn)階段相關(guān)研究中局中人規(guī)模仍停留在個(gè)位數(shù),遠(yuǎn)不能達(dá)到群的規(guī)模,無(wú)法直接應(yīng)用于無(wú)人機(jī)集群攻防問(wèn)題的機(jī)動(dòng)策略求解。
追逃博弈是一種重要的攻防對(duì)抗形式。對(duì)于追逃博弈的研究可以讓無(wú)人機(jī)在空戰(zhàn)中發(fā)揮性能優(yōu)勢(shì),提高決策控制的自主性。在追逃微分博弈中,追捕者的任務(wù)是捕獲(或擊毀)逃逸者,而逃逸者則需要通過(guò)機(jī)動(dòng)盡可能逃脫攻擊。近年來(lái),國(guó)內(nèi)外許多學(xué)者開(kāi)展了追逃微分博弈的相關(guān)研究,其中不乏關(guān)于對(duì)于博弈規(guī)模拓展性問(wèn)題的研究。2017年,Tomlin教授及其團(tuán)隊(duì)對(duì)于NA個(gè)攻擊者、ND個(gè)防御者圍繞固定目標(biāo)區(qū)域的模型開(kāi)展了研究[11],研究團(tuán)隊(duì)采用圖論領(lǐng)域的最大匹配方法將多對(duì)多博弈分解為一對(duì)一博弈,使攻擊者盡可能多地到達(dá)目標(biāo)位置,而防御者盡可能捕獲攻擊者的博弈。2018年,清華大學(xué)的石宗英等學(xué)者研究了矩形區(qū)域內(nèi)的雙追捕者與一逃逸者的追逃博弈[12],給出了逃逸者位于優(yōu)勢(shì)區(qū)域時(shí)的最優(yōu)逃逸策略生成方法。次年,該團(tuán)隊(duì)更為深入地研究了追捕者團(tuán)隊(duì)與逃逸者團(tuán)隊(duì)之間的有界區(qū)域追逃博弈[13],其中追捕者對(duì)逃跑者的攔截使用了任務(wù)分配方法。
目標(biāo)-攻擊-防御(Target-Attacker-Defender,TAD)三方博弈是在追逃博弈的基礎(chǔ)上,由攻擊-目標(biāo)、防御-攻擊兩組追逃博弈組合成的更為復(fù)雜的博弈模型。其中,目標(biāo)任務(wù)是逃脫攻擊者的追捕,防御者的任務(wù)是攔截攻擊者。TAD博弈模型對(duì)應(yīng)于反導(dǎo)攔截、領(lǐng)土攻防以及運(yùn)輸保護(hù)等多類現(xiàn)實(shí)問(wèn)題,具有很高的研究?jī)r(jià)值。
在上述研究的啟發(fā)下,本文針對(duì)固定翼無(wú)人機(jī)集群攻防空戰(zhàn)場(chǎng)景,依據(jù)作戰(zhàn)任務(wù)將無(wú)人機(jī)分為攻擊者、防御者和目標(biāo)3類。以分布式目標(biāo)匹配方法將三方集群博弈解耦至個(gè)體,在TAD單個(gè)個(gè)體之間使用微分博弈生成策略,并通過(guò)仿真對(duì)空戰(zhàn)過(guò)程以及決策智能程度進(jìn)行評(píng)估,驗(yàn)證基于微分博弈的無(wú)人機(jī)集群攻防空戰(zhàn)決策的有效性和適用性。
針對(duì)無(wú)人機(jī)集群攻防決策問(wèn)題,本文首先基于追逃集群間任務(wù)關(guān)系,利用分布式任務(wù)分配算法,將TAD集群之間的集群博弈解耦為T(mén)AD三機(jī)博弈,然后采用三方微分博弈生成個(gè)體的加速度策略。
在TAD三方博弈中,根據(jù)三方的任務(wù)關(guān)系,可以認(rèn)為陣營(yíng)為目標(biāo)的無(wú)人機(jī)群是攻擊者陣營(yíng)無(wú)人機(jī)群的待分配目標(biāo),而攻擊者集群又是防御者集群的待分配目標(biāo)。因此,TAD匹配的框架可描述為:通過(guò)兩次目標(biāo)分配,實(shí)現(xiàn)攻擊-目標(biāo)、防御-攻擊的一對(duì)一匹配,最終以每個(gè)攻擊者為紐帶,實(shí)現(xiàn)TAD的一對(duì)一對(duì)一配對(duì)。在本文中,假設(shè)3個(gè)陣營(yíng)的無(wú)人機(jī)數(shù)量相同,即目標(biāo)分配為等額分配。以各陣營(yíng)無(wú)人機(jī)數(shù)量N=5為例,分配效果如圖2所示。
圖2 集群規(guī)模為3×5時(shí)TAD配對(duì)過(guò)程示意圖Fig.2 Schematic diagram of the TAD pairing process when the swarm size is 3×5
追逃無(wú)人機(jī)間的匹配由追捕者集群的目標(biāo)分配實(shí)現(xiàn),原則為選擇配對(duì)使得第i個(gè)追捕者和第j個(gè)逃逸者的配對(duì)價(jià)值valueij之和最大,即匹配最有利于追捕。最優(yōu)分配函數(shù)
本文采用基于三維 Dubins路徑的價(jià)值函數(shù)作為空中追逃問(wèn)題的最優(yōu)分配函數(shù)。由于高度因素,三維Dubins路徑比二維Dubins路徑更復(fù)雜,三維 Dubins路徑的生成需要先計(jì)算飛機(jī)起始點(diǎn)和終止點(diǎn)的位置和速度方向在地面投影對(duì)應(yīng)的二維Dubins路徑,并需要知道最大俯仰角。McLain等[14]的研究表明,三維 Dubins路徑有 3種不同的情況,取決于起始點(diǎn)和結(jié)束點(diǎn)之間的高度差、二維Dubins路徑長(zhǎng)度和俯仰角限制。這3種情況被定義為低高度差、中高度差和高高度差。
在判斷情況之前,需要先確定無(wú)人機(jī)的最小轉(zhuǎn)彎半徑。對(duì)于固定翼無(wú)人機(jī),在速度固定、自動(dòng)駕駛儀控制無(wú)滯后且飛機(jī)角度調(diào)整足夠快的理想條件下,偏航角和滾轉(zhuǎn)角之間的關(guān)系由協(xié)調(diào)轉(zhuǎn)彎條件[15]給出
式中,ψ為偏航角,g為重力加速度,V為飛機(jī)的固定飛行速度,?為滾轉(zhuǎn)角。由于轉(zhuǎn)彎半徑R與偏航角ψ之間存在幾何關(guān)系
無(wú)人機(jī)的最小轉(zhuǎn)彎半徑Rmin可表示為
其中,?max為無(wú)人機(jī)的最大滾轉(zhuǎn)角。
(1)低高度差
若高度差滿足下式,則起點(diǎn)zs和終點(diǎn)ze之間的高度設(shè)置屬于低高度差
式中,右邊的項(xiàng)表示在二維Dubins距離Lcar(Rmin)和最大俯仰角±θmax約束下的最大高度變化。在低高度差情況下,飛機(jī)無(wú)需通過(guò)額外螺線機(jī)動(dòng)達(dá)到終點(diǎn)高度,三維Dubins路徑在地面的投影即為二維Dubins路徑,如圖3所示。在此情況下,飛機(jī)的最優(yōu)俯仰角θ*可表示為
圖3 低高度差情況三維Dubins軌跡Fig.3 3D Dubins trajectory for low altitude difference
Dubins飛機(jī)路徑的長(zhǎng)度Lair可描述為
(2)高高度差
如果起、終點(diǎn)之間的高度差滿足下式,則稱起點(diǎn)和終點(diǎn)之間的高度設(shè)置屬于高高度差
在高高度差的情況下,飛機(jī)需要先通過(guò)螺線爬升(或下降)縮小高度差,如圖4所示。螺線機(jī)動(dòng)的圈數(shù)k滿足
圖4 高高度差情況三維Dubins軌跡Fig.4 3D Dubins trajectory for high altitude difference
接著擴(kuò)大最小半徑Rmin至最優(yōu)半徑*R,使其滿足
Dubins飛機(jī)路徑的長(zhǎng)度為
(3)中等高度差
如果起、終點(diǎn)之間的高度差滿足下式,則稱起點(diǎn)和終點(diǎn)之間的高度設(shè)置屬于中等高度差
在中等高度差情況下,由于高度差過(guò)大,飛機(jī)無(wú)法直接通過(guò)二維Dubins路徑得到三維路徑,但可以在起始圓弧之前(或終止圓弧之后)額外插入一個(gè)中間弧,以增加二維路徑長(zhǎng)度,使飛機(jī)有足夠的時(shí)間到達(dá)終點(diǎn)高度,如圖5所示。中間弧的相關(guān)參數(shù)如圖6所示。中間弧的結(jié)束點(diǎn)zi滿足
圖5 中等高度差情況三維Dubins軌跡Fig.5 3D Dubins trajectory for medium altitude difference
圖6 中間弧以及關(guān)鍵節(jié)點(diǎn)表示Fig.6 Middle arc and key node representation
其中,cs為中間弧的圓心,R(φ)為使向量繞cs旋轉(zhuǎn)φ的旋轉(zhuǎn)矩陣。加入中心弧的Dubins路徑長(zhǎng)度可表示為
式中,sψ和eψ分別為起始點(diǎn)和終止點(diǎn)的速度方向(航向角)。尋找最優(yōu)角度*φ滿足
Dubins飛機(jī)路徑的長(zhǎng)度可描述為
當(dāng)給定追捕方無(wú)人機(jī)和逃逸方無(wú)人機(jī)的位置與姿態(tài)后,可得到三維Dubins路徑的起點(diǎn)與終點(diǎn)信息,對(duì)高度差所在范圍進(jìn)行判斷后,根據(jù)高度差類型選擇對(duì)應(yīng)計(jì)算方法得到三維 Dubins路徑的長(zhǎng)度Lair。之后,將路徑長(zhǎng)度代入下式,即可得到基于三維Dubins路徑的價(jià)值(其曲線如圖7所示)
圖7 價(jià)值隨路徑長(zhǎng)度變化曲線Fig.7 Curve of value changing with Dubins path length
此價(jià)值函數(shù)的構(gòu)建考慮了價(jià)值與相對(duì)距離的負(fù)相關(guān)性,同時(shí)指數(shù)形式的映射能夠滿足價(jià)值大于0的要求。指數(shù)的系數(shù)-0.005決定了曲線的平緩程度,整體的系數(shù)1000決定了價(jià)值的范圍。此形式的價(jià)值函數(shù)整體變化較為光滑平緩,并且對(duì)于近距離目標(biāo)的價(jià)值區(qū)別較大,且通過(guò)系數(shù)設(shè)置使0 <valueij< 1 000,利于拍賣算法快速求解。系數(shù)的設(shè)置可以根據(jù)價(jià)值范圍和最短路徑范圍需求動(dòng)態(tài)調(diào)整。
在無(wú)人機(jī)集群攻防決策算法中,TAD三方集群間的無(wú)人機(jī)博弈被分解為不同群的三個(gè)無(wú)人機(jī)個(gè)體間的博弈,即三方微分博弈。本節(jié)將介紹無(wú)人機(jī)追逃背景下三方微分博弈決策模型的構(gòu)建過(guò)程,從追逃場(chǎng)景著手,將三方微分博弈分解為兩組追逃博弈。在三方微分博弈中,攻擊者-目標(biāo)、防御者-攻擊者分別為一對(duì)追逃組合,如圖8所示,TAD的加速度形式可以分別表示為
圖8 三維空間下TAD三機(jī)追逃關(guān)系Fig.8 Relationship between the pursuit and escape of the three TAD planes in 3D space
式中,a1、a2和a3分別為目標(biāo)、防御和攻擊者的加速度,a1e和a3e分別表示目標(biāo)和攻擊者的逃逸加速度分量,a2p和a3p分別表示攻擊者和防御者的追捕加速度分量。
假設(shè)無(wú)人機(jī)的飛行空間在邊長(zhǎng)為 1000 m的立方體內(nèi),將無(wú)人機(jī)的形狀抽象為邊長(zhǎng)為1 m的立方塊,則在飛行過(guò)程中同一集群的兩無(wú)人機(jī)(無(wú)追逃關(guān)系)形狀發(fā)生重合(即相撞)的概率為27/109,在本文所考慮算例情形下可以認(rèn)為是小概率事件。然而,當(dāng)作戰(zhàn)場(chǎng)景更為復(fù)雜、集群規(guī)模增大時(shí),組內(nèi)避障將會(huì)成為影響集群效能的關(guān)鍵因素。
在三維空間中,追逃無(wú)人機(jī)的相對(duì)運(yùn)動(dòng)方程可以表示為
進(jìn)一步可以簡(jiǎn)寫(xiě)為
式中,yij為無(wú)人機(jī)i相對(duì)于無(wú)人機(jī)j的相對(duì)狀態(tài)矢量;為狀態(tài)系數(shù)矩陣;為控制輸入系數(shù)矩陣。
本節(jié)中控制規(guī)律的推導(dǎo)基于固定坐標(biāo)系(如慣性系)定義的線性相對(duì)運(yùn)動(dòng)學(xué)模型。在后續(xù)仿真中,本文利用坐標(biāo)系轉(zhuǎn)換將固定系下的策略轉(zhuǎn)移到載體坐標(biāo)系,同時(shí)加入了自動(dòng)駕駛儀動(dòng)力學(xué)以及加速度約束,使仿真結(jié)果更加接近無(wú)人機(jī)實(shí)際運(yùn)動(dòng)軌跡。
針對(duì)小型固定翼無(wú)人機(jī),一般假設(shè)在空戰(zhàn)過(guò)程中速度大小為定值,即在載體坐標(biāo)系中,對(duì)x軸加速度有
由于無(wú)人機(jī)性能限制,對(duì)于y軸和z軸加速度,存在最大值和最小值約束
和通常為負(fù)值,代表加速度在負(fù)方向能夠達(dá)到的最大值。此外,假設(shè)研究對(duì)象為自殺式無(wú)人機(jī),即通過(guò)在殺傷半徑內(nèi)引爆機(jī)載戰(zhàn)斗部的方式摧毀敵方無(wú)人機(jī),而非以導(dǎo)彈、機(jī)炮等方式遠(yuǎn)程打擊敵方目標(biāo),殺傷半徑作為可以改變的參數(shù)根據(jù)需求設(shè)置。
對(duì)微分博弈模型做出如下假設(shè):
(1)博弈類型為完全信息博弈,即博弈雙方時(shí)刻知道必要的彼此相對(duì)狀態(tài)信息,不受觀察、通信等條件的限制。
(2)系統(tǒng)的狀態(tài)是準(zhǔn)確的,不考慮傳感器在工作過(guò)程中產(chǎn)生的誤差與延遲等對(duì)信息準(zhǔn)確性產(chǎn)生的影響。
(3)無(wú)人機(jī)的最大加速度(絕對(duì)值)受到約束。在評(píng)價(jià)函數(shù)中通過(guò)權(quán)重的方式對(duì)加速度范圍進(jìn)行“軟約束”,加速度的變化在邊界附近平緩變化。
基于上述假設(shè),構(gòu)造成本函數(shù)
式中, (S1,S2,S3)為最終狀態(tài)的權(quán)重矩陣;(Rp,Re)為加速度加權(quán)矩陣;為追逃雙方的相對(duì)距離的加權(quán)平方;為相對(duì)速度在相對(duì)距離上的加權(quán)投影;為相對(duì)速度的加權(quán)平方; (aipTRpaip)為追捕者加速度的加權(quán)平方; (aejTReaej)為逃逸者加速度的加權(quán)平方,tf為博弈結(jié)束時(shí)間。
成本函數(shù)由關(guān)于結(jié)果的分量與關(guān)于過(guò)程的分量相加構(gòu)成。當(dāng)S1=I時(shí),相對(duì)距離的加權(quán)平方項(xiàng)在終止時(shí)間是偏移量的平方;速度在距離上的加權(quán)投影以及相對(duì)速度的加權(quán)平方兩項(xiàng)反映了交戰(zhàn)軌跡的形成;權(quán)重的相對(duì)值 (S1,S2,S3)和(Rp,Re)代表對(duì)狀態(tài)變量和控制變量的軟約束。
構(gòu)建哈密爾頓函數(shù)
式中,λ為拉格朗日算子。根據(jù)最優(yōu)化的必要條件可得
將必要條件式(28)與式(29)代入哈密爾頓函數(shù)有
將控制輸入項(xiàng)移項(xiàng)至等式左邊得到
由于本節(jié)期望結(jié)果是將控制輸入構(gòu)建為關(guān)于系統(tǒng)狀態(tài)的函數(shù),因此可以將λ設(shè)為
式中,P為6×6矩陣,為矩陣?yán)杩ㄌ嵛⒎址匠痰慕?,用于后續(xù)加速度策略的求解。將式(35)代入式(33)、式(34)有
按照以上求解過(guò)程,分別推導(dǎo)A-T、D-A攻防組合的加速度方程并求解。記A-T組合編號(hào)為i= 1,D-A組合編號(hào)為i=2;式(36)、(37)對(duì)應(yīng)的加速度計(jì)算方程為
由必要條件式(30)和哈密爾頓函數(shù)可得
代入式(35)可得
經(jīng)過(guò)展開(kāi)與代數(shù)化簡(jiǎn)得
由于式(43)要求對(duì)于所有yij成立,所以yij的系數(shù)與等式右側(cè)必須等于0,即
式(44)的方程形式被稱為矩陣?yán)杩ㄌ嵛⒎址匠獭榱藢?shù)學(xué)模型應(yīng)用于實(shí)際,定義權(quán)重矩陣結(jié)構(gòu)為
并定義矩陣R
則矩陣R中的對(duì)角元素為
回到式(44)的求解問(wèn)題,記T=tf-t,求解矩陣?yán)杩ㄌ嵛⒎址匠炭傻?/p>
其中,
算法1描述了面向無(wú)人機(jī)平臺(tái)的基于微分博弈的集群攻防決策算法。其中,UAV_num,simu_time,T_parameters,A_parameters,D_parameters分別表示集群規(guī)模、仿真運(yùn)行總時(shí)間,以及目標(biāo)、攻擊、防御無(wú)人機(jī)初始位置、飛行速度和最大橫向加速度?;谖⒎植┺牡募汗シ罌Q策算法首先利用分組匹配算法實(shí)現(xiàn)追逃博弈的目標(biāo)匹配,進(jìn)而基于微分博弈為每架無(wú)人機(jī)給出其加速度控制量。算法2為分組匹配算法,內(nèi)含拍賣算法子函數(shù);算法依據(jù)輸入的集群個(gè)體數(shù)量確定雙方規(guī)模并編號(hào),基于Dubins路徑的價(jià)值函數(shù)確定每個(gè)目標(biāo)對(duì)于競(jìng)拍者的價(jià)值,并基于市場(chǎng)拍賣機(jī)制框架進(jìn)行多輪提價(jià)競(jìng)拍,最后得出目標(biāo)、攻擊者、防御者三方的最優(yōu)匹配。算法 3為三維 Dubins路徑長(zhǎng)度計(jì)算算法,在獲取追逃雙方的位置與姿態(tài)后,將追捕無(wú)人機(jī)的位置與姿態(tài)設(shè)置為起點(diǎn)與起點(diǎn)方向,將逃逸無(wú)人機(jī)的位置與姿態(tài)設(shè)置為終點(diǎn)與終點(diǎn)方向,得到起終點(diǎn)之間三維Dubins路徑的長(zhǎng)度,長(zhǎng)度經(jīng)函數(shù)映射后得到價(jià)值,實(shí)現(xiàn)某一追捕無(wú)人機(jī)對(duì)某一逃逸無(wú)人機(jī)的價(jià)值確定。
算法1:集群攻防決策算法(swarm attack and defense decision-making)輸入:UAV_num, simu_time, T_parameters, A_parameters,D_parameters輸出:UAV_track 1 while 仿真剩余時(shí)間大于0 do 2 _ , _ATD A=group matching( _ , _UAV numTAD parameters)3 A_D←D_A配對(duì)轉(zhuǎn)化為A_D配對(duì)4 for i=0 to UAV_num do 5 _[]j A Ti=6 _ []k A Di=7 攻擊者i防御者k目標(biāo)j三方微分博弈生成三機(jī)軌跡與姿態(tài)8 軌跡保存9 TAD_ parameters ← 無(wú)人機(jī)最新時(shí)刻位姿10 UAV_track←軌跡格式轉(zhuǎn)換11 生成三維動(dòng)態(tài)軌跡圖算法2:分組匹配算法(group matching)輸入:UAV_num, T_parameters, A_parameters, D_parameters輸出:AT_match, DA_match 1 _ ( _ , _ ,_AT match auctionUAV numA parametersT=)parameters 2 _ ( _ , _ , _DAmatch auctionUAV numD parametersA=)parameters 3 4 function ( _ , _ , _auctionUAV numbidder parametersobject)parameters 5 _ _ _biddernum objectnum UAV num==6 for i=0 to bidder_num do 7 for j=0 to object_num do 8 [,]valueij=Dubins path (i_parameters, j_parameters)9 while ( _ ) 0 lennewbid> do 10 for i=0 to bidder_num do 11 if i暫未競(jìng)拍到物品 do 12 new_bid←最大收益物品13 new_bidder←i編號(hào)競(jìng)拍者14 new_price←最大收益-次大收益+ε 15 for 產(chǎn)生新價(jià)格的物品 do 16 current_prices←( _ , _ )maxnew pricecurrentprices 17 _currentassignment←最大價(jià)格出價(jià)者18 return _currentassignment
算法3:Dubins路徑長(zhǎng)度(Dubins path)輸入:i_parameters, j_parameters輸出:value 1 2_ / tan(_ )RminV g ?max= ×2 L_car←二維Dubins路徑的長(zhǎng)度3 _ (_ _)zrel abszi z j= -4 if _ _ tan(_ )zrel L car ?max< × do 5 L_air←低高度差Dubins飛機(jī)路徑長(zhǎng)度計(jì)算6 else if _ (_ 2π _ )tan(_ )zrel Lcar R min ?max>+× do 7 L_air←高高度差Dubins飛機(jī)路徑長(zhǎng)度計(jì)算8 else do 9 L_air←中等高度差Dubins飛機(jī)路徑長(zhǎng)度計(jì)算10 500 (0.0002 _ )value exp L air=×- ×
在實(shí)現(xiàn)TAD三機(jī)微分博弈過(guò)程中,考慮載體坐標(biāo)系轉(zhuǎn)換以及自動(dòng)駕駛儀控制模型等約束。首先,更新固定系下位姿速度加速度參數(shù)、在固定系下由博弈論控制生成最優(yōu)控制策略、將固定系下的控制輸入轉(zhuǎn)化至載體系、經(jīng)自駕儀滯后模型以及最大加速度約束后得到最終控制輸入。在微分博弈結(jié)束后,返回三機(jī)在博弈期間每一步的位置,以及博弈結(jié)束時(shí)飛機(jī)的俯仰、滾轉(zhuǎn)與偏航角,以便進(jìn)行下一輪目標(biāo)匹配與微分博弈。
集群攻防決策算法結(jié)構(gòu)與模塊間的調(diào)用關(guān)系如圖9所示,算法整體由主函數(shù)、基于拍賣算法的目標(biāo)匹配、基于Dubins路徑的價(jià)值函數(shù)和TAD三機(jī)微分博弈4部分構(gòu)成。程序運(yùn)行過(guò)程中各子程序的執(zhí)行流程如圖10所示。在主函數(shù)內(nèi)設(shè)置好各項(xiàng)參數(shù)后,運(yùn)行程序即開(kāi)始仿真;仿真開(kāi)始后程序?qū)⑹紫葯z查無(wú)人機(jī)狀態(tài),挑選出可執(zhí)行任務(wù)的無(wú)人機(jī)(在數(shù)值仿真中默認(rèn)各無(wú)人機(jī)初始狀態(tài)良好可執(zhí)行任務(wù)),并對(duì)無(wú)人機(jī)進(jìn)行目標(biāo)匹配,將群間攻防博弈問(wèn)題解耦為三方微分博弈問(wèn)題;在配對(duì)分組后,各組分別調(diào)用TAD三方微分博弈模塊進(jìn)行給定時(shí)長(zhǎng)的分組同步博弈對(duì)抗;若在博弈完成后仿真剩余時(shí)間為零,則停止仿真循環(huán)、保存軌跡并繪制圖像;若仍有剩余時(shí)間,則重新檢測(cè)無(wú)人機(jī)狀態(tài),剔除被擊落的、已完成任務(wù)的無(wú)人機(jī)后,對(duì)剩余的無(wú)人機(jī)進(jìn)行匹配分組博弈對(duì)抗。
圖9 集群攻防決策算法模塊結(jié)構(gòu)圖Fig.9 Structure of the swarm attack and defense decision algorithm
圖10 集群博弈仿真程序運(yùn)行流程圖Fig.10 Flow chart of swarm game simulation process
首先,以3×2規(guī)模的空戰(zhàn)場(chǎng)景清楚地展示集群間的攻防博弈過(guò)程,無(wú)人機(jī)軌跡與關(guān)鍵時(shí)刻位置如圖11所示。圖中不同形狀的黑色多邊形表示不同時(shí)刻的無(wú)人機(jī)位置,展示了無(wú)人機(jī)的走向。由于目標(biāo)無(wú)人機(jī)飛行速度較慢,運(yùn)動(dòng)軌跡不清晰,所以我們選擇攻擊者和防御者的飛行軌跡進(jìn)行分析。從圖中可以看出,在攻擊者躲避防御者和防御者追捕攻擊者的過(guò)程中,雙方根據(jù)當(dāng)前狀態(tài)和對(duì)未來(lái)的預(yù)測(cè)在飛行中進(jìn)行了許多博弈:防御者根據(jù)攻擊者的飛行方向預(yù)測(cè)其在一段時(shí)間后的位置并進(jìn)行攔截,攻擊者無(wú)人機(jī)通過(guò)急轉(zhuǎn)彎影響防御者預(yù)測(cè)的同時(shí)躲避防御者的攔截,在防御者“錯(cuò)過(guò)”攻擊者后會(huì)立即掉頭重新跟上攻擊者,而在攻擊者“擺脫”防御者后會(huì)馬上轉(zhuǎn)彎追捕目標(biāo)。
圖11 3×2規(guī)模無(wú)人機(jī)軌跡與關(guān)鍵時(shí)刻位置Fig.11 Drone trajectory with size 3×2
其次,考慮集群規(guī)模為3×4的空戰(zhàn)場(chǎng)景,仿真攻防過(guò)程如圖12所示。其中,相同顏色的無(wú)人機(jī)個(gè)體代表一個(gè)目標(biāo)-攻擊-防御分組,共分為紅、黃、藍(lán)、綠4組,目標(biāo)無(wú)人機(jī)顏色固定,攻擊與防御無(wú)人機(jī)顏色與同組目標(biāo)無(wú)人機(jī)顏色一致。集群博弈飛行過(guò)程中各個(gè) TAD分組的相對(duì)距離變化如圖13所示,仿真各模塊用時(shí)如表1所示。
表1 仿真各模塊用時(shí)統(tǒng)計(jì)Table 1 Time-consuming of each module
圖12 集群軌跡關(guān)鍵幀截圖Fig.12 Keyframe of trajectory of UAV swarms
整個(gè)運(yùn)行過(guò)程經(jīng)歷了 4次分組匹配-微分博弈。在第一次任務(wù)分配后,各組無(wú)人機(jī)從初始位置出發(fā)在組內(nèi)進(jìn)行博弈對(duì)抗,如圖12(a)所示,無(wú)人機(jī)在單次微分博弈過(guò)程中只考慮同組內(nèi)目標(biāo)。同一集群內(nèi)的無(wú)人機(jī)協(xié)同體現(xiàn)在任務(wù)分配過(guò)程中,在圖12(b)與(d)中,展示了第 2次與第4次分組匹配后分組的改變。在這兩次匹配中,各有兩架攻擊方無(wú)人機(jī)的目標(biāo)發(fā)生了互換,導(dǎo)致更換目標(biāo)的攻擊方無(wú)人機(jī)以及對(duì)應(yīng)的防御方無(wú)人機(jī)的顏色轉(zhuǎn)變?yōu)樾碌哪繕?biāo)無(wú)人機(jī)的顏色。圖12(c)與(d)展示了在重新匹配目標(biāo)后,分組發(fā)生變化的攻擊者無(wú)人機(jī)開(kāi)始追捕新的目標(biāo),分組未發(fā)生變化的無(wú)人機(jī)繼續(xù)追捕當(dāng)前時(shí)刻的目標(biāo)。如果縮短單次微分博弈的時(shí)間,目標(biāo)匹配就會(huì)更加頻繁,攻擊者和防御者無(wú)人機(jī)集群內(nèi)無(wú)人機(jī)的協(xié)同就會(huì)更加緊密,但是由于目標(biāo)匹配的價(jià)值函數(shù)與微分博弈中的成本函數(shù)形式并不相同,導(dǎo)致過(guò)于頻繁的目標(biāo)匹配會(huì)對(duì)無(wú)人機(jī)機(jī)動(dòng)的最優(yōu)性造成影響,需要合理選擇單輪微分博弈時(shí)長(zhǎng)以平衡集群的協(xié)同性與控制的最優(yōu)性。
圖13展示了機(jī)間相對(duì)距離隨時(shí)間變化曲線圖,能夠直觀地體現(xiàn)出 4次目標(biāo)分配的影響。由于發(fā)生在第10.2 s和30.6 s的第2、4次匹配改變了兩對(duì)攻擊者-目標(biāo)無(wú)人機(jī)的配對(duì)關(guān)系,導(dǎo)致在這兩個(gè)時(shí)刻各有兩條曲線發(fā)生突變(30.6 s的紅色點(diǎn)虛線突變前后數(shù)值相近)。在分配過(guò)程中,依據(jù)基于Dubins路徑的價(jià)值函數(shù),這意味著重新分配的結(jié)果不一定是整體相對(duì)距離更近的,但一定是整體Dubins距離更近、更易于到達(dá)的,這解釋了在第4次曲線突變后攻擊者-目標(biāo)的相對(duì)距離之和不減反增的原因。除此之外,在曲線的連續(xù)部分能夠直觀反映出各無(wú)人機(jī)之間的激烈追逃博弈:曲線下降時(shí),曲線對(duì)應(yīng)配對(duì)中的追捕者在追趕逃逸者;曲線達(dá)到極小值后突然上升代表逃避者通過(guò)急轉(zhuǎn)彎或擦肩而過(guò)等機(jī)動(dòng)拉開(kāi)了與追捕者的距離。
圖13 相對(duì)距離隨時(shí)間變化曲線圖Fig.13 Curve of relative distance between UAVs versus time
算法運(yùn)行時(shí)間受到無(wú)人機(jī)的位置、速度、集群規(guī)模、仿真時(shí)長(zhǎng)、微分博弈時(shí)長(zhǎng)、單次博弈步長(zhǎng)等多個(gè)參數(shù)的影響。從算法復(fù)雜度進(jìn)行分析,目標(biāo)匹配模塊主要受到集群規(guī)模影響,匹配時(shí)間與群內(nèi)無(wú)人機(jī)個(gè)數(shù)的平方近似成正比;微分博弈模塊主要受到博弈時(shí)長(zhǎng)、步長(zhǎng)與集群規(guī)模影響,與博弈時(shí)長(zhǎng)和群內(nèi)無(wú)人機(jī)個(gè)數(shù)成正比、與步長(zhǎng)成反比。對(duì)于3×4規(guī)模集群間的博弈,仿真能夠在0.18s內(nèi)完成集群控制和軌跡生成,能夠滿足實(shí)時(shí)性要求(一般要求決策時(shí)長(zhǎng)小于1s)。
與3×4規(guī)模算例相同,3×7規(guī)模算例與3×10規(guī)模算例的無(wú)人機(jī)初始三維坐標(biāo)均在0~500之間隨機(jī)生成,算例運(yùn)行的軌跡結(jié)果如圖14~15所示。從程序運(yùn)行結(jié)果可以看出,各無(wú)人機(jī)的運(yùn)行軌跡均由無(wú)人機(jī)集群攻防決策算法生成,證明算法對(duì)于集群規(guī)模不超過(guò)10架的集群攻防場(chǎng)景均適用。
圖14 3×7集群博弈軌跡展示Fig.14 Trajectory of UAV swarms with size 3×7
圖15 3×10集群博弈軌跡展示Fig.15 Trajectory of UAV swarms with size 3×10
本文研究了將微分博弈理論應(yīng)用于集群攻防對(duì)抗的途徑,設(shè)計(jì)了一套基于三方微分博弈的無(wú)人機(jī)集群攻防決策算法,在將三方微分博弈決策控制模型應(yīng)用于三架無(wú)人機(jī)空戰(zhàn)攻防的基礎(chǔ)上,設(shè)計(jì)了一套基于 Dubins路徑價(jià)值函數(shù)的拍賣算法,以目標(biāo)分配將單個(gè)目標(biāo)-攻擊者-防御者無(wú)人機(jī)間的博弈拓展至三方集群攻防對(duì)抗,完成了三維空間下以加速度為控制輸入的集群決策模型構(gòu)建,能夠?yàn)榈纫?guī)模三方集群內(nèi)的個(gè)體提供協(xié)同決策控制。此外,本文編寫(xiě)了一套以任務(wù)匹配-微分博弈循環(huán)為主體的仿真程序,能夠自主設(shè)置主要參數(shù)、生成飛行數(shù)據(jù)以及動(dòng)態(tài)三維軌跡圖,并加入了載體坐標(biāo)系轉(zhuǎn)換以及自動(dòng)駕駛儀控制模型等約束,提高仿真的真實(shí)性。最后,本文對(duì)微分博弈決策模型與基于微分博弈的集群攻防算法進(jìn)行了仿真驗(yàn)證。
未來(lái)的研究將在本文的基礎(chǔ)上,對(duì)集群決策算法的應(yīng)用場(chǎng)景進(jìn)行擴(kuò)展,在加入群內(nèi)無(wú)人機(jī)間的避障控制的基礎(chǔ)上,使算法不再局限于等無(wú)人機(jī)數(shù)量的 TAD集群對(duì)抗,兼容差額匹配對(duì)抗,提高算法的適應(yīng)性。同時(shí),為了將決策方法更廣泛地應(yīng)用于實(shí)際情況,未來(lái)將在下一階段融合敵機(jī)位置的多源感知、速度的擬合預(yù)測(cè)和估計(jì),以逐步實(shí)現(xiàn)不完全信息條件下的攻防決策。除此之外,筆者還計(jì)劃將算法在軟件在回路以及硬件在回路仿真系統(tǒng)中進(jìn)行測(cè)試,將算法完善為一套可應(yīng)用與實(shí)物的分布式?jīng)Q策算法,最終在無(wú)人機(jī)平臺(tái)上進(jìn)行多機(jī)集群攻防對(duì)抗試驗(yàn)。