徐星光, 王曉峰, 姚 璐, 任 章
(1. 北京機電工程研究所, 北京 100074; 2. 北京航空航天大學(xué)自動化科學(xué)與電氣工程學(xué)院, 北京 100191;3. 復(fù)雜系統(tǒng)控制與智能協(xié)同技術(shù)重點實驗室, 北京 100074)
編隊構(gòu)型設(shè)計體現(xiàn)固定翼無人機任務(wù)需求多樣性,通信拓撲優(yōu)化是平衡協(xié)同控制、網(wǎng)絡(luò)通信性能、集群隱蔽性的信息交互基礎(chǔ)?;诂F(xiàn)代優(yōu)化理論和智能算法,需要分析影響集群綜合作戰(zhàn)效能的隊形與網(wǎng)絡(luò)通信設(shè)計關(guān)鍵指標,建立優(yōu)化模型。特別地,在飛行速度日益加快、飛行任務(wù)不斷豐富的需求背景下,優(yōu)化模型對關(guān)鍵指標的覆蓋程度、計算實時性、部署實用性問題愈加重要。為適應(yīng)復(fù)雜高強度對抗環(huán)境,攻防雙方集群編隊規(guī)模均可能呈幾何增長,這將給飛行器隊形與網(wǎng)絡(luò)連通性在線設(shè)計帶來成倍計算復(fù)雜度,而飛行器計算資源與通信帶寬有限,因而如何在確保優(yōu)化準確度基礎(chǔ)上提升規(guī)模編隊下計算速度是編隊構(gòu)型與拓撲優(yōu)化問題中面臨的一個難點。所以,如何建立編隊構(gòu)型與通信拓撲指標體系,如何設(shè)計考慮攻防對抗態(tài)勢與最小信息流要求的優(yōu)化模型,并保證計算精度與實時性均衡,是首先要解決的關(guān)鍵問題。
多飛行器編隊構(gòu)型與通信拓撲優(yōu)化問題是指在滿足各種規(guī)范和某些特定要求的前提下,使編隊在空間域物理構(gòu)型、信息域通信拓撲的某種廣義性能指標最佳,在所有可用的協(xié)同方案中找出飛行器在編隊中的最優(yōu)站位,同時減少總的通信代價。編隊構(gòu)型與通信拓撲設(shè)計具有重要應(yīng)用價值,為多飛行器聯(lián)合執(zhí)行任務(wù)提供了關(guān)鍵理論支撐。據(jù)美國海軍官網(wǎng)報道,2021年6月,美國在伊利諾伊州成功完成“黃貂魚”MQ-25A無人機技術(shù)驗證機向F/A-18“超級大黃蜂”有人機的空中加油測試,這種空中云臺的實現(xiàn)很大程度上源于針對加油任務(wù)優(yōu)化出了多飛行器隊形及成員飛行器在編隊中的站位。解決編隊構(gòu)型與通信拓撲優(yōu)化設(shè)計問題的關(guān)鍵是建立全面準確的數(shù)學(xué)模型,優(yōu)化設(shè)計研究方向涵蓋設(shè)計變量選擇、約束條件分析、目標函數(shù)設(shè)計和優(yōu)化算法計算。下面從多飛行器編隊構(gòu)型、通信拓撲設(shè)計優(yōu)化方面對現(xiàn)有文獻加以概述。
編隊構(gòu)型設(shè)計變量分為拓撲、形狀與尺寸變量。按照工程實際應(yīng)用的項目階段劃分,概念設(shè)計階段可進行拓撲優(yōu)化,由編隊規(guī)模建立優(yōu)化的框架與層級;基本設(shè)計階段可進行形狀優(yōu)化,明確編隊的基本隊形組成的數(shù)量、形態(tài);詳細設(shè)計階段開展尺寸優(yōu)化,調(diào)整預(yù)先確定的隊形形狀長度、角度特征。有關(guān)學(xué)者針對不同設(shè)計變量優(yōu)化方式取得了一系列成果。文獻[2,4]針對大規(guī)模固定翼飛行器提出了多層規(guī)劃模型的拓撲優(yōu)化框架,將整體隊形優(yōu)化問題轉(zhuǎn)化為分層節(jié)點排布對比分析問題,通過改進粒子群優(yōu)化(particle swarm optimization, PSO)算法及遺傳算法求解出最優(yōu)隊形,并給出了相對整體隊形優(yōu)化的計算實時性優(yōu)勢。文獻[5-6]借鑒雁群編隊飛行行為機制,將“V”形編隊構(gòu)型引入到無人機群協(xié)同飛行中,設(shè)計縱向、橫向距離參數(shù)增升減阻,經(jīng)仿真算例證明了減少燃油消耗量的效果。文獻[7]設(shè)計了直線、菱形、半菱形、“V”形隊形,通過不同編隊規(guī)模下的流體力學(xué)仿真給出了適用一類翼身融合飛行器的減阻陣列選型建議。文獻[8]針對有翼飛行器給出了編隊合圍跟蹤隊形,為攻擊、偵查、誘餌功能提供集成框架。
在設(shè)計編隊構(gòu)型時,有必要考慮隊形的基本約束問題。隊形約束主要包括但不限于兩方面原因:一是隊形參數(shù)在實際通信環(huán)境中存在取值上下限;二是隊形合理性要有效銜接編隊控制的可實現(xiàn)性。文獻[9]在構(gòu)建飛行器編隊協(xié)同作戰(zhàn)效能指標時引入飛行器間最大通信距離、最小安全距離、最大搜索半徑、最大搜索角、最大機動半徑等參數(shù)約束,并采用PSO算法優(yōu)化出合適隊形。文獻[10]結(jié)合一般線性系統(tǒng)動力學(xué)特性給出了分段連續(xù)可微編隊向量形式和編隊可行域擴展算法,之后在切換拓撲下提出了基于一致性方法的時變編隊控制器,為無人機系統(tǒng)實際應(yīng)用奠定理論基礎(chǔ)。
為了實現(xiàn)飛行器編隊綜合效能最大化,國內(nèi)外學(xué)者在設(shè)計編隊構(gòu)型時充分考慮戰(zhàn)場態(tài)勢信息和飛行器編隊狀態(tài)以構(gòu)造綜合目標函數(shù)。文獻[13-14]基于敵我對抗態(tài)勢建立了敵我戰(zhàn)損比目標函數(shù),采用遺傳算法優(yōu)化隊形設(shè)計,并對空中作戰(zhàn)平臺對抗過程中的隊形適應(yīng)性進行了驗證。文獻[1]利用彈目間的戰(zhàn)術(shù)幾何關(guān)系,建立了涵蓋任務(wù)載荷配置、捕獲概率、角度優(yōu)勢、速度優(yōu)勢、距離優(yōu)勢的綜合優(yōu)勢函數(shù),采用禁忌搜索與離散PSO算法對多彈協(xié)同打擊目標群的作戰(zhàn)構(gòu)型尋優(yōu)。
優(yōu)化算法選擇是編隊構(gòu)型優(yōu)化設(shè)計的另一個重要問題,方法選擇的主要依據(jù)包括計算準確性與時間復(fù)雜度,重點是針對特定模型探索工程適用性強的手段。文獻[15]采用基于均值漂移的差分演化算法設(shè)計了飛行器編隊協(xié)同突防-攻擊一體化隊形,該隊形兼顧了協(xié)同突防和協(xié)同攻擊需求。文獻[16]針對大規(guī)模直升機空戰(zhàn)編隊問題,采用遺傳算法進行優(yōu)化。文獻[17]在隨機散布建筑物威脅的數(shù)字地圖下,采用改進PSO算法獲得收斂速度與優(yōu)化質(zhì)量滿足要求的無人機站位。
飛行器在編隊飛行過程中只需部分通信鏈路即可實現(xiàn)隊形控制,該部分通信鏈路為隊形保持情況下的通信拓撲,屬整個通信網(wǎng)絡(luò)子集,這就為給定編隊構(gòu)型前提下減少通信路由代價提供了理論支撐。目前針對通信拓撲構(gòu)成形式方面已有一定成果,以編隊控制方法為依據(jù),通信拓撲具體包括:面向領(lǐng)導(dǎo)者-跟隨者編隊控制策略,采用通信網(wǎng)絡(luò)中一顆有向生成樹;面向行為或虛擬結(jié)構(gòu)編隊控制策略,采用通信網(wǎng)絡(luò)中一個雙向環(huán);面向基于一致性的編隊控制策略,采用的通信拓撲至少一個子集隸屬通信網(wǎng)絡(luò)的一顆有界生成樹。
在通信拓撲約束條件分析方面的研究成果集中在3個方面:一是編隊控制方法約束;二是領(lǐng)導(dǎo)者飛行器約束;三是通信鏈路故障約束。文獻[11]分析了四旋翼無人機通信拓撲構(gòu)建條件,考慮基于一致性的編隊控制策略,提出如切換通信拓撲每個子集存在一條從領(lǐng)導(dǎo)者到跟隨者的生成樹,則可以實現(xiàn)穩(wěn)定的編隊跟蹤隊形,并給出了具有1個領(lǐng)導(dǎo)者和3個跟隨者的四旋翼無人機飛行實驗。文獻[18]分析了不同領(lǐng)導(dǎo)者無人機站位約束下的編隊通信拓撲構(gòu)建問題,提出了編隊領(lǐng)導(dǎo)者節(jié)點等效交換算法。文獻[21]研究了編隊跟蹤隊形下的通信質(zhì)量與考慮領(lǐng)導(dǎo)者未知運動約束的協(xié)同控制律之間的關(guān)系,從中可以看出對領(lǐng)導(dǎo)者飛行器的機動位置估計偏差,會產(chǎn)生生成樹丟失風(fēng)險。
通信拓撲的優(yōu)化目標是在保證任務(wù)成功率基礎(chǔ)上降低編隊通信代價。文獻[22]將通信鏈路數(shù)量作為通信拓撲生成目標,但沒有考慮不同無人機之間通信鏈路對應(yīng)通信代價的不同。文獻[23]考慮了通信路由賦權(quán)問題,提出最優(yōu)持久編隊。文獻[24]提出了一種通信能耗均衡的三維最佳持久通信拓撲生成算法,將優(yōu)化目標函數(shù)設(shè)計為從網(wǎng)絡(luò)拓撲中選擇合適的子集,使得各智能體中通信剩余能量持續(xù)時間最大化,之后引入離線優(yōu)化算法進行迭代估計,通過理論分析與仿真算例驗證了計算復(fù)雜度與求解質(zhì)量。
優(yōu)化與決策理論在通信拓撲最優(yōu)求解方面應(yīng)用廣泛。文獻[25-26]采用Dijkstra最短路徑算法優(yōu)化領(lǐng)導(dǎo)者-跟隨者編隊飛行框架下的通信拓撲。文獻[27]采用兩種不同的Nesterov加速算法,提出分布式加速最快梯度下降理論,下降收斂速率優(yōu)于集中式方法,滿足通信網(wǎng)絡(luò)高度動態(tài)變化的航空適用需求。文獻[28]在大規(guī)模異構(gòu)無人機集群通信網(wǎng)絡(luò)多邊穩(wěn)定匹配問題上,提出了雙層穩(wěn)定匹配分布式優(yōu)化算法,通過與差分進化算法的對比仿真證明了所提方法在求解速度與質(zhì)量方面的優(yōu)越性。此外,研究人員將粒子群算法、蟻群算法、螢火蟲算法應(yīng)用到無人機動態(tài)組網(wǎng)路由優(yōu)化配置中。
本文研究了考慮攻防對抗態(tài)勢與最小信息流要求的編隊構(gòu)型與拓撲優(yōu)化問題,主要貢獻如下:針對高動態(tài)任務(wù)背景下多固定翼無人機在空間域、信息域快速優(yōu)化問題給出了優(yōu)化算法;針對編隊構(gòu)型優(yōu)化提出了基于態(tài)勢場的分層編隊構(gòu)型結(jié)構(gòu)優(yōu)化方法;針對通信拓撲優(yōu)化提出了基于Q學(xué)習(xí)的網(wǎng)絡(luò)連通性控制方法,解決了考慮攻防對抗態(tài)勢與最小信息流要求的編隊構(gòu)型與拓撲優(yōu)化問題,實現(xiàn)了兼具快速性與全局最優(yōu)性的大規(guī)模編隊構(gòu)型及拓撲優(yōu)化效果。
考慮架固定翼無人機通過通信拓撲連接而成的一個多無人機集群系統(tǒng),按照編隊構(gòu)型()進行時變編隊協(xié)同飛行。通信拓撲中的邊意味著無人機和無人機之間能夠進行相互通信。結(jié)合固定翼無人機作戰(zhàn)任務(wù),建立編隊構(gòu)型效能指標體系,用以定量、準確評估編隊構(gòu)型參數(shù)對無人機集群系統(tǒng)協(xié)同編隊任務(wù)的影響。
本節(jié)的主要目的是綜合考慮戰(zhàn)場態(tài)勢信息與無人機自身特性,面向圖1所示的編隊構(gòu)型效能最大化,設(shè)計滿足計算精度與實時性要求的多無人機編隊構(gòu)型優(yōu)化模型,并有針對性地開展選型定參工作??紤]集群作戰(zhàn)網(wǎng)絡(luò)規(guī)模大,提出了分層編隊構(gòu)型結(jié)構(gòu)模型,將無人機集群編隊進行分層,集群分層的每個節(jié)點均可表示一種基本編隊構(gòu)型,最終得到整個無人機集群的設(shè)計隊形。
圖1 編隊構(gòu)型效能指標體系Fig.1 Formation configuration efficiency index system
根據(jù)編隊構(gòu)型的任務(wù)需求與工程實現(xiàn),將三維編隊構(gòu)型分解為水平和垂直兩個平面上的二維隊形,通過基本隊形組合形成立體協(xié)同編隊態(tài)勢。基本隊形共設(shè)計8種,采用二進制編碼對編隊進行編碼,具體如表1所示。
表1 基本隊形及其編碼表Table 1 Basic formation and its coding table
集群系統(tǒng)中固定翼無人機數(shù)量眾多,一般由多種基本編隊構(gòu)型組成,編隊規(guī)模較大,為便于解析化描述,引入分層編碼解碼機制。針對網(wǎng)絡(luò)規(guī)模為的無人機集群系統(tǒng),對編隊自頂向下進行共計(>1)層的分層劃分,直至不同分層獲得基本編隊構(gòu)型,在第層得到最小編隊單元,在編隊結(jié)構(gòu)體系構(gòu)建過程中按照每層構(gòu)建次序得出編碼序列。反過來,由編碼表對特定編碼序列進行依次解碼,反演獲得分層編隊構(gòu)型。在編解碼過程中,根據(jù)各層節(jié)點中隊形在其上層節(jié)點隊形中的排布方式,按照從上到下、從左向右順序進行編碼和解碼,如圖2所示。
圖2 分層編隊構(gòu)型編解碼過程Fig.2 Hierarchical formation coding and decoding process
選取編隊整體位置的幾何中心作為領(lǐng)導(dǎo)者無人機,上述位置無實體無人機時稱為虛擬領(lǐng)導(dǎo)者無人機。以上述幾何中心作參考點,描述不同基本隊形的具體設(shè)計參數(shù),記為
(1)
固定翼無人機態(tài)勢場模型主要考慮無人機探測能力、生存能力、通信能力、攻擊能力等4方面因素,第架無人機態(tài)勢模型為
=(,,,,,)=(++)
(2)
式中:(,,)表示地面坐標系下無人機的位置坐標;(,,)表示地面坐標系下對抗目標的位置;表示無人機的探測能力;表示無人機的攻擊能力;表示無人機的生存能力;表示無人機的通信能力;、、分別表示攻擊能力、生存能力、通信能力的權(quán)重值,采用三角模糊數(shù)指標權(quán)重求解方法確定。
(1) 探測能力
固定翼無人機根據(jù)任務(wù)需求配裝不同功能的任務(wù)載荷,針對對抗目標的探測設(shè)備主要包括雷達和紅外搜索跟蹤裝置,探測能力模型如下:
=ln(1+)
(3)
式中:表示無人機的探測能力參數(shù),具體表達式為
(4)
式中:表示末制導(dǎo)設(shè)備最大作用距離;?表示末制導(dǎo)設(shè)備最大搜索方位角;為對抗目標捕獲概率;為末制導(dǎo)體制衡量系數(shù);為末制導(dǎo)可同時跟蹤的對抗目標數(shù)量。
(2) 攻擊能力
攻擊能力模型為
=ln(1+)
(5)
式中:表示無人機的攻擊能力參數(shù),具體表達式為
(6)
式中:為制導(dǎo)方式修正系數(shù),半主動雷達末制導(dǎo)=1,主動雷達末制導(dǎo)=15;為無人機單發(fā)命中概率;為無人機攻擊范圍角;為無人機最大可用過載;為無人機最大跟蹤角速度;為無人機距計算點的距離;為無人機最大射程;為無人機最小攻擊距離。
(3) 生存能力
無人機生存能力模型建立如下:
=ln(1+)
(7)
式中:表示生存能力參數(shù),具體表達式為
(8)
式中:為無人機長度;為無人機翼展;為雷達發(fā)射面積;為易損系數(shù),0<<1;表示戰(zhàn)場環(huán)境控制區(qū)域最大距離。
(4) 通信能力
無人機協(xié)同編隊通過編隊支撐網(wǎng)絡(luò)實現(xiàn)信息交換和共享,通信能力實現(xiàn)載體為數(shù)據(jù)鏈設(shè)備。數(shù)據(jù)鏈通信品質(zhì)與無人機間距離相關(guān),建立通信能力模型如下:
(9)
式中:為數(shù)據(jù)鏈設(shè)備的可靠性;為數(shù)據(jù)鏈最大通信距離;為與第架無人機的距離。
(5) 交換比
為表征編隊規(guī)模對綜合效能的影響,引入交換比概念,表征無人機集群系統(tǒng)在完成特定任務(wù)時收益與資源投入比較。設(shè)己方一架無人機作戰(zhàn)成本為cos (),則可定義交換比為
(10)
則在整個戰(zhàn)場環(huán)境下,己方無人機集群編隊系統(tǒng)產(chǎn)生的態(tài)勢場由不同節(jié)點成員在空間中的態(tài)勢疊加而成,具體表達式為
(11)
節(jié)點平均態(tài)勢為
(12)
在無人機集群編隊對抗目標過程中,攔截方考慮部署個節(jié)點,按照上述公式同理可計算攔截方態(tài)勢場如下:
(13)
戰(zhàn)場空間中攔截方部署情況包括離散的先驗已知威脅和僅獲取概略情報的非合作概率威脅,故在選取適應(yīng)度函數(shù)表征無人機編隊效能時,應(yīng)將戰(zhàn)場環(huán)境內(nèi)概率威脅進行建模,基于態(tài)勢場的無人機隊形適應(yīng)度函數(shù)為
(14)
式中:Area(->0)表示己方態(tài)勢場大于敵方態(tài)勢場的戰(zhàn)場環(huán)境局部面積;Area(Bat)表示戰(zhàn)場環(huán)境整體面積;表示攔截力量部署的概率分布區(qū)域。
固定翼無人機主要通過數(shù)據(jù)鏈實現(xiàn)信息交互,按照有無信息中繼平臺,通信鏈路可以劃分為無人機-星-無人機、無人機間兩種形式。涉及無人機間協(xié)同組網(wǎng)通信的研究成果,主要從控制與通信兩方面分立開展,對于協(xié)同制導(dǎo)控制框架下對通信拓撲的反向設(shè)計研究結(jié)果較少。
本節(jié)從協(xié)同控制的最小需求出發(fā),從適用編隊控制協(xié)議一般性的角度,給出通信拓撲需要滿足的最小條件。
在固定翼無人機執(zhí)行協(xié)同編隊任務(wù)過程中,各成員通過無人機間信息交互形成的通信拓撲最小條件是,包含一條生成樹的有向圖,且根節(jié)點為虛擬領(lǐng)導(dǎo)者無人機。
為定量準確評估通信網(wǎng)絡(luò)建立路由過程對無人機集群系統(tǒng)協(xié)同編隊任務(wù)的影響,建立通信網(wǎng)絡(luò)拓撲參數(shù)效能指標體系,如圖3所示。
圖3 通信網(wǎng)絡(luò)拓撲參數(shù)效能指標體系Fig.3 Performance index system of communication network topology parameters
本節(jié)的主要目的是提出自主、智能的網(wǎng)絡(luò)連通性控制算法,對節(jié)點間連通情況進行優(yōu)化設(shè)計,使得無人機集群系統(tǒng)在編隊協(xié)同控制基礎(chǔ)上,實現(xiàn)路由低開銷,在提升通信強度和降低被敵方發(fā)現(xiàn)概率間優(yōu)化,得到最佳匹配。
針對固定翼無人機集群系統(tǒng)成員向成員構(gòu)建通信鏈路的過程,建立無人機通信網(wǎng)絡(luò)路由模型,主要涉及通信強度、通信鏈路成本、端機功耗和被敵探測概率等四方面因素,具體如下:
(15)
式中:Com1表示通信強度;Com2表示通信鏈路成本;Com3表示端機功耗;Com4表示被敵探測概率;1,、2,、3,、4,分別表示通信強度、通信鏈路成本、端機功耗、被敵探測概率的權(quán)重值,權(quán)重由三角模糊數(shù)指標權(quán)重方法解算。
(1) 通信強度
集群系統(tǒng)編隊協(xié)同的首要基礎(chǔ)之一是建立較強的通信能力、信息感知能力,以實現(xiàn)高效的數(shù)據(jù)傳輸與信息共享。通信強度模型為
(16)
式中:為成員與成員間距離;為無人機間數(shù)據(jù)鏈最大作用距離。
(2) 通信鏈路成本
(17)
(3) 端機功耗
數(shù)據(jù)鏈端機作為通信網(wǎng)絡(luò)在無人機端側(cè)部署的載體,在高動態(tài)工作條件下需無人機提供大量能源,功耗與數(shù)據(jù)鏈作用距離和通信帶寬有關(guān)。端機功耗模型如下:
Com3=ln(1+Wt)
(18)
式中:Wt表示無人機的端機工作功率,具體表達式為
(19)
式中:代表通信帶寬;為標準狀態(tài)下通信帶寬;表示標稱狀態(tài)下端機功耗。
(4) 被敵探測概率
在無人機數(shù)據(jù)通信中產(chǎn)生的電磁信號會作為敵偵查探測的目標電子特征信息,與通信強度、端機功耗、工作頻段相關(guān),建立被敵探測概率模型:
(20)
式中:fr為頻段系數(shù),0 下面基于PSO算法,給出網(wǎng)絡(luò)規(guī)模為的固定翼無人機集群系統(tǒng)編隊構(gòu)型參數(shù)設(shè)計方法。 算法1 固定翼無人機集群系統(tǒng)編隊構(gòu)型參數(shù)設(shè)計方法 步驟1 在首層分別進行8種基本隊形的節(jié)點平均態(tài)勢場計算,采用PSO算法優(yōu)化編隊構(gòu)型參數(shù),計算每種基本隊形下適應(yīng)度最大的隊形參數(shù),對比分析后擇優(yōu)選取。步驟2 計算最優(yōu)基本隊形各實體單元坐標,作為下一層節(jié)點最優(yōu)隊形站位的中心位置。在下一層采用PSO算法開展隊形選型定參工作,確定本層采取的基本隊形與隊形參數(shù)。步驟3 重復(fù)步驟2,直至隊形分解的無人機數(shù)量達到N。步驟4 整合各層級隊形優(yōu)化結(jié)果,得到全局隊形優(yōu)化方案。 隨著編隊網(wǎng)絡(luò)規(guī)模的增加,通信網(wǎng)絡(luò)可建路由數(shù)量龐大,如采用基于規(guī)則的路由設(shè)計方法對式(15)進行優(yōu)化,將給專家系統(tǒng)和計算實時性帶來較大負擔(dān)。本節(jié)在網(wǎng)絡(luò)路由過程中引入強化學(xué)習(xí)技術(shù)。 接下來需要給出網(wǎng)絡(luò)連通性控制方法,通過多輪迭代的Q學(xué)習(xí)策略尋找各網(wǎng)絡(luò)節(jié)點的最優(yōu)行動值,即選取相應(yīng)的最優(yōu)路由方向。 本節(jié)旨在建立固定翼無人機集群系統(tǒng)的網(wǎng)絡(luò)通信關(guān)系,路由過程遍歷各編隊成員,選擇狀態(tài)量對應(yīng)編隊規(guī)模,記狀態(tài)空間={1,2,…,}。每個成員無人機周邊的鄰居節(jié)點作為行動空間的變量。(,)為初值為任意值的二維空間。每個成員無人機,需要找到最佳的路由方向,使得通信網(wǎng)絡(luò)拓撲參數(shù)效能最優(yōu)。 根據(jù)假設(shè)1,路由的最終目標是建立從領(lǐng)導(dǎo)者無人機到當前節(jié)點的有向路徑。節(jié)點與領(lǐng)導(dǎo)者無人機可建立直接通信鏈路時,需要獲得最大獎勵,故回報函數(shù)設(shè)為;節(jié)點可與周邊鄰居建立多跳關(guān)聯(lián)時,需要獲得最佳網(wǎng)絡(luò)通信路由,故回報函數(shù)設(shè)為Com。策略選擇機制方面,采用貪婪策略來探索新的動作序列。 算法2 基于Q學(xué)習(xí)的網(wǎng)絡(luò)拓撲優(yōu)化方法 步驟1 根據(jù)固定翼無人機集群系統(tǒng)不同節(jié)點間距離,結(jié)合數(shù)據(jù)鏈建立鏈路的距離限制,建立無人機可建最大通信拓撲,計算初始狀態(tài)的累計回報Q矩陣:Qij=0,rij≤Rdl-1,rij>Rdl{步驟2 針對整個無人機編隊中某一節(jié)點i,將其狀態(tài)初始化為si,將其預(yù)處理成與Q網(wǎng)絡(luò)的輸入結(jié)構(gòu)相同。步驟3 回報函數(shù)的計算fR(s,a)=Fmax,(v0,vj);j=1,2,…,NFmaxComij,(vi,vj);j=1,2,…,N;i≠0ì?í????式中:建立領(lǐng)導(dǎo)者向某節(jié)點通信鏈路時,表示為(v0,vj),回報函數(shù)取Fmax。建立其他通信鏈路時,表示為(vi,vj),回報函數(shù)取Fmax/Comij。步驟4 動作設(shè)置與優(yōu)化根據(jù)無人機可建路由行動空間,將臨近節(jié)點作為建立鏈路的可選動作,選擇Q值最大的動作,獲得即時獎勵fR(s,a),并進而完成Q值的更新:Q(st+1,at+1)=(1-α)Q(st,at)+α[fR(st,at)+γmaxQ′(st+1,at+1)]步驟5 重復(fù)執(zhí)行步驟2~步驟4,直至Q網(wǎng)絡(luò)收斂。步驟6 選擇距離領(lǐng)導(dǎo)者無人機最遠的節(jié)點,根據(jù)Q矩陣推理獲得最優(yōu)動作,建立通信主鏈路。步驟7 如通信主鏈路涵蓋所有成員,計算結(jié)束;如存在通信主鏈路外成員,則此無人機選擇最短路徑與通信主鏈路建立路由,形成整體網(wǎng)絡(luò)通信拓撲。 在本節(jié)中,將對編隊規(guī)模為8的察打一體固定翼無人機集群系統(tǒng),遂行30 km×30 km戰(zhàn)場環(huán)境范圍內(nèi)的目標群對抗任務(wù),進行編隊構(gòu)型與通信拓撲優(yōu)化。戰(zhàn)場環(huán)境在地面坐標系平面內(nèi)柵格化成300×300區(qū)域網(wǎng)格,各固定翼無人機性能指標見表2。存在規(guī)模=5的攔截編隊,其位置部署在3 km×2 km的概率分布區(qū)域內(nèi),如圖4所示。虛擬領(lǐng)導(dǎo)者無人機處于編隊集群中心位置,仿真初始時刻位置=-1 200 m,=12 250 m,=-500 m,航跡傾斜角=0°,航跡偏轉(zhuǎn)角=0°,初始速度為250 m/s。虛擬領(lǐng)導(dǎo)者無人機朝向動態(tài)集結(jié)點飛行,集結(jié)點初始位置為戰(zhàn)場原點,速度=50 m/s,=0,=50 m/s。要求虛擬領(lǐng)導(dǎo)者無人機在飛行末段實現(xiàn)帶有攻擊角度約束的入射,期望角度設(shè)計為=0°、=45°,跟隨者無人機以虛擬領(lǐng)導(dǎo)者無人機為中心建立期望的編隊構(gòu)型與通信拓撲。 表2 固定翼無人機性能指標Table 2 Fixed-wing UAVs performance indicators 圖4 戰(zhàn)場環(huán)境部署Fig.4 Battlefield environment deployment 針對虛擬領(lǐng)導(dǎo)者無人機運動軌跡,亦即固定翼無人機集群系統(tǒng)整體運動參考軌跡,在地面坐標系下、平面內(nèi)采用魯棒自適應(yīng)制導(dǎo)律求解。設(shè)定虛擬領(lǐng)導(dǎo)者無人機到達集結(jié)點的條件為偏移量小于1 m。仿真結(jié)果如圖5所示,虛擬領(lǐng)導(dǎo)者無人機最終以距離集結(jié)點0.045 m的偏移量實現(xiàn)帶有攻擊角度約束的入射。虛擬領(lǐng)導(dǎo)者無人機運動設(shè)計過程不是本文研究重點,這里僅給出設(shè)計結(jié)果。 圖5 虛擬領(lǐng)導(dǎo)者無人機運動曲線Fig.5 Virtual leader unmanned aerial vehicle motion curve 針對跟隨者無人機站位設(shè)計,在飛行不同時刻均以虛擬領(lǐng)導(dǎo)者無人機為中心構(gòu)建編隊構(gòu)型。取=5.35 s開展基于態(tài)勢場的分層編隊構(gòu)型設(shè)計與優(yōu)化,來驗證本文算法的實際效果,此時虛擬領(lǐng)導(dǎo)者無人機位于圖4所示戰(zhàn)場區(qū)域原點。對于第1層,建立8種基本隊形的態(tài)勢場模型,假設(shè)編隊成員距離在1~6.5 km范圍內(nèi),應(yīng)用PSO算法優(yōu)化編隊構(gòu)型,使用規(guī)模20的粒子群迭代30次。圖6繪制出了編隊規(guī)模為2的010基本隊形、編隊規(guī)模為3的100基本隊形的參數(shù)優(yōu)化過程,其余基本隊形演化曲線與這兩種隊形相似。從圖6可以看出,本算法能在20次迭代范圍內(nèi)搜索到模型的最優(yōu)解,有效解決編隊構(gòu)型快速優(yōu)化問題。從圖7可以看出,針對基本隊形100,隨優(yōu)化迭代進程,零勢線不斷向?qū)鼓繕藚^(qū)域壓縮,編隊構(gòu)型對戰(zhàn)場態(tài)勢的控制效益不斷提升,態(tài)勢場由最初的0.767逐步增長為0.796。 圖6 編隊構(gòu)型優(yōu)化過程Fig.6 Formation configuration optimization process 圖7 基本隊形100下態(tài)勢場演化過程Fig.7 Evolution process of situation field under basic formation 100 編隊構(gòu)型優(yōu)化過程見表3和圖8??梢钥闯?在第1層,從8種隊形中選出最優(yōu)基本隊形100,隊形參數(shù)經(jīng)迭代優(yōu)化設(shè)置為2.5時,可獲得對戰(zhàn)場空間0.796的控制比例。繼續(xù)運用基于態(tài)勢場分層編隊構(gòu)型優(yōu)化算法完成第2層、第3層計算,得到的編隊構(gòu)型最終結(jié)果見表4和圖9,其中“—”表示上一層級已在本節(jié)點分層結(jié)束,本層級不作分層。 表3 第1層不同基本隊形迭代優(yōu)化過程Table 3 The 1st iteration optimal process of different basic formations 圖8 第1層不同基本隊形的適應(yīng)度直方圖Fig.8 The 1st fitness histogram of different basic formations 表4 優(yōu)化隊形參數(shù)Table 4 Optimization of formation parameters 圖9 編隊構(gòu)型優(yōu)化結(jié)果Fig.9 Optimized result of formation configuration 為證明本策略兼顧隊形全局優(yōu)化和計算實時性的優(yōu)勢,對于同一種仿真場景,采用整體隊形優(yōu)化的方法對固定翼無人機集群編隊構(gòu)型進行優(yōu)化,最終得到與圖9基本一致的最優(yōu)隊形。采用整體法時的PSO算法的適應(yīng)度曲線如圖10所示,可以看到適應(yīng)度收斂到一個最大值,說明整體法能得到最優(yōu)解,而由分層編隊構(gòu)型算法計算的隊形與整體法相似,檢驗了分層算法計算精度的有效性。但是,因集群整體隊形復(fù)雜,迭代1次耗時5 ms,適應(yīng)度計算時間約為6.325 s,遠大于分層算法1.935 s的計算時間,證明了本文算法在時間復(fù)雜度方面的優(yōu)勢。 圖10 整體優(yōu)化與本文算法對比Fig.10 Comparison of global optimization and the proposed algorithm 在不同網(wǎng)絡(luò)連通性配置下,本節(jié)基于網(wǎng)絡(luò)通信路由模型對所提理論、其他路由策略的通信性能進行仿真對比,對所提算法優(yōu)越性進行驗證。針對仿真場景中編隊規(guī)模=8的固定翼無人機集群編隊,采用算法2生成最小信息流網(wǎng)絡(luò)拓撲連接。圖11描述了網(wǎng)絡(luò)可建路由分支為17的設(shè)定下無人機通信網(wǎng)絡(luò)訓(xùn)練空間,節(jié)點1~8表示各跟隨者無人機,節(jié)點9代表虛擬領(lǐng)導(dǎo)者無人機。以4號無人機為例,其優(yōu)化前可分別與3號、6號、8號無人機建立通信路由,通過Q學(xué)習(xí)策略對最優(yōu)路由策略尋優(yōu)的訓(xùn)練過程如圖12所示。可以看出,在前70個訓(xùn)練周期中,4號無人機與其余無人機的路由效果存在持續(xù)波動現(xiàn)象,這是由于在這個階段,值網(wǎng)絡(luò)輸出以探索各種可能的策略為主。經(jīng)過前70個訓(xùn)練周期后,值網(wǎng)絡(luò)對整個樣本空間進行了相對全面的采樣?;诓蓸訑?shù)據(jù),通過訓(xùn)練不斷對值進行泛化,直至趨近于常數(shù)。與3號(藍色曲線)、6號(黑色曲線)、8號(紅色曲線)無人機建立路由的穩(wěn)態(tài)值分別為0.67、0.58、0.32。4號無人機據(jù)此建立與3號無人機的有向通信鏈路。其余路由優(yōu)化過程與4號無人機類似。 圖11 可建立路由的無人機編隊設(shè)定Fig.11 Unmanned aerial vehicle formation available for routing settings 圖12 4號無人機Q值網(wǎng)絡(luò)訓(xùn)練過程及效果Fig.12 Q value network training process and effect of No.4 unmanned aerial vehicle 經(jīng)優(yōu)化設(shè)計,無人機2、3分別經(jīng)6、3跳后與虛擬領(lǐng)導(dǎo)者無人機9建立路由,形成通信拓撲主鏈路,存在一條以虛擬領(lǐng)導(dǎo)者無人機9為根節(jié)點的生成樹,通信拓撲最終設(shè)計結(jié)果如圖13所示。 圖13 通信拓撲優(yōu)化結(jié)果Fig.13 Communication topology optimization results 除了Q學(xué)習(xí)外,進一步引入擴展場景,和其他兩個路由策略進行對比: (1) 隨機路由策略:每個固定翼無人機在數(shù)據(jù)鏈建立通信范圍內(nèi)隨機選擇與其他成員建立信息鏈路; (2) 就近路由策略:每個固定翼無人機與離自己最近的其他成員建立信息鏈路。 圖14對比了不同路由策略,給定不同的網(wǎng)絡(luò)可建路由分支,每個策略所能實現(xiàn)的最優(yōu)效果。橫坐標為網(wǎng)絡(luò)可建路由分支,縱坐標為整個網(wǎng)絡(luò)的通信性能。 圖14 不同路由策略在不同設(shè)定下的最優(yōu)表現(xiàn)Fig.14 Optimal performance of different routing strategies under different settings 仿真實驗結(jié)果表明: (1) 基于Q學(xué)習(xí)的網(wǎng)絡(luò)連通控制方法在4種編隊規(guī)模中(編隊規(guī)模依次為5、8、12、16)均比其他策略具備顯著優(yōu)勢,就近路由策略表現(xiàn)次之,隨機路由策略表現(xiàn)最差。 (2) 在網(wǎng)絡(luò)連通性較低的配置下,由于優(yōu)化動作空間有限,各個策略在路由選擇方面的差距不是很明顯,當整個編隊空間分布較為聚集時,由于可建路由分支增加,Q學(xué)習(xí)一直保持明顯優(yōu)勢。 進一步考察Q學(xué)習(xí)的路由策略,從圖14可以看出,在可建路由分支滿足數(shù)據(jù)鏈建網(wǎng)標準的情況下,對任何一種網(wǎng)絡(luò)分布情況,Q學(xué)習(xí)均能自動學(xué)習(xí)出路由分配策略,即綜合考慮通信強度與突防性能建立最小信息流網(wǎng)絡(luò)拓撲,避開通信代價較高的節(jié)點鏈路。算法分析與仿真算例表明,在路由分配問題上,Q學(xué)習(xí)不僅求解效果優(yōu)于其他策略,且具備優(yōu)良的可解釋性。 本文研究了固定翼無人機時變編隊構(gòu)型設(shè)計及拓撲優(yōu)化問題,考慮了空間分布與通信拓撲兩種優(yōu)化對象。將無人機劃分為領(lǐng)導(dǎo)者、跟隨者兩類,跟隨者無人機以領(lǐng)導(dǎo)者無人機運動軌跡為中心建立編隊構(gòu)型與通信拓撲。在大規(guī)模集群編隊系統(tǒng)高動態(tài)任務(wù)需求背景下,提出分層編隊構(gòu)型設(shè)計模型,設(shè)計隊形編解碼方法和態(tài)勢場模型,采用PSO算法進行隊形參數(shù)優(yōu)化。針對集群系統(tǒng)通信拓撲構(gòu)建問題,建立了通信網(wǎng)絡(luò)路由模型,提出了基于Q學(xué)習(xí)網(wǎng)絡(luò)連通性控制算法,解決了協(xié)同一致性與網(wǎng)絡(luò)路由代價的平衡優(yōu)化。仿真算例驗證了本文設(shè)計的時變編隊構(gòu)型及通訊拓撲設(shè)計優(yōu)化算法的有效性。2 編隊構(gòu)型與通信拓撲優(yōu)化算法
2.1 編隊構(gòu)型優(yōu)化算法
2.2 通信拓撲優(yōu)化算法
3 仿真實驗分析
3.1 編隊構(gòu)型優(yōu)化仿真
3.2 通信拓撲優(yōu)化仿真
4 結(jié) 論