孫 彧,潘宣宏*,戴定成,楊 杰,解學(xué)昊
(1.海軍指揮學(xué)院,南京 210000;2.解放軍31102部隊,南京 210000)
無人機(jī)具有低成本、無傷亡、操作簡便、靈活可靠等作戰(zhàn)優(yōu)勢[1-4],在近來的局部沖突和戰(zhàn)爭中大放異彩,因此,各國都加大了對其相關(guān)概念技術(shù)的研究力度。而無人機(jī)蜂群[2]作為一種新型作戰(zhàn)樣式,主要以大量中小微型無人機(jī)為基礎(chǔ)單元,根據(jù)作戰(zhàn)任務(wù)搭載對應(yīng)載荷,通過云計算、大數(shù)據(jù)、人工智能算法等關(guān)鍵技術(shù)形成自主協(xié)同的集群[5-6],在任務(wù)規(guī)劃指令的引導(dǎo)下遂行偵察預(yù)警、電子干擾、火力打擊等任務(wù)[7-8]。
無人機(jī)蜂群作戰(zhàn)任務(wù)規(guī)劃,是組織實施無人機(jī)蜂群作戰(zhàn)的核心,對其作戰(zhàn)能力的發(fā)揮至關(guān)重要[9-10]。無人機(jī)蜂群作戰(zhàn)任務(wù)規(guī)劃通常分為任務(wù)分配和航跡規(guī)劃兩個核心部分。無人機(jī)蜂群任務(wù)分配(task assignment)是在滿足環(huán)境和任務(wù)條件的基礎(chǔ)上為無人機(jī)蜂群分配一個或一種有序的任務(wù)序列,使任務(wù)完成最大化和己方損失最小化[1,11-12];無人機(jī)蜂群航跡規(guī)劃(path planning)則是一個多約束的組合優(yōu)化問題,其根據(jù)任務(wù)需求、戰(zhàn)場環(huán)境、威脅源等約束條件,為蜂群規(guī)劃出一條最優(yōu)或次優(yōu)的安全航跡,以保證作戰(zhàn)任務(wù)的完成[7,13-16]。
本文按照分類方式、分配模型、典型方法的思路,對比分析了無人機(jī)蜂群任務(wù)分配方法;按照規(guī)劃流程、約束條件、規(guī)劃算法的思路,闡述了無人機(jī)蜂群航跡規(guī)劃方法;展望了無人機(jī)蜂群任務(wù)規(guī)劃的關(guān)鍵問題和未來發(fā)展趨勢。
作戰(zhàn)任務(wù)規(guī)劃是在綜合作戰(zhàn)環(huán)境、作戰(zhàn)企圖、任務(wù)需求、作戰(zhàn)資源、作戰(zhàn)規(guī)則等約束條件情況下,為實現(xiàn)作戰(zhàn)目的,運(yùn)用科學(xué)規(guī)劃方法對整個作戰(zhàn)行動進(jìn)行設(shè)計的過程[17-20]。無人機(jī)蜂群作戰(zhàn)任務(wù)規(guī)劃是以無人機(jī)為基礎(chǔ)單元,以不同任務(wù)載荷為集群劃分[21-23],囊括任務(wù)分配、航跡規(guī)劃、仿真推演等多步流程的作戰(zhàn)概念,與傳統(tǒng)無人機(jī)作戰(zhàn)任務(wù)規(guī)劃相比,其更強(qiáng)調(diào)蜂群行動協(xié)同的優(yōu)化和群體智能的涌現(xiàn)[5-6,24-25],是無人機(jī)蜂群作戰(zhàn)的核心環(huán)節(jié)。
由于無人機(jī)蜂群作戰(zhàn)無飛行人員直接參與,蜂群按照遠(yuǎn)程指令完成作戰(zhàn)任務(wù),且作戰(zhàn)任務(wù)規(guī)劃中各要素互相耦合,約束條件復(fù)雜多變。因此,對規(guī)劃過程的細(xì)致性和準(zhǔn)確度要求更高。典型的無人機(jī)蜂群作戰(zhàn)任務(wù)規(guī)劃流程為:1)輸入上級作戰(zhàn)行動構(gòu)想,包括戰(zhàn)場態(tài)勢、作戰(zhàn)任務(wù)、行動設(shè)想等;2)根據(jù)約束條件進(jìn)行任務(wù)預(yù)先分配和航跡規(guī)劃;3)如果戰(zhàn)場態(tài)勢發(fā)生變化,則臨機(jī)調(diào)整任務(wù)分配計劃;4)對任務(wù)規(guī)劃結(jié)果進(jìn)行仿真推演,如果未達(dá)到預(yù)期作戰(zhàn)目標(biāo),則調(diào)整行動構(gòu)想,迭代規(guī)劃過程;5)如果達(dá)到預(yù)期作戰(zhàn)目標(biāo),則輸出規(guī)劃結(jié)果,并以指令的方式引導(dǎo)無人機(jī)蜂群完成作戰(zhàn)任務(wù)。無人機(jī)蜂群實際作戰(zhàn)行動中涉及更為復(fù)雜的觀察—調(diào)整—決定—行動(observe-orient-decide-act,OODA)指揮控制流程[17,26-27],不在本文作戰(zhàn)任務(wù)規(guī)劃的研討范圍之內(nèi)。
本文的方法介紹涵蓋臨機(jī)任務(wù)預(yù)先分配、任務(wù)分配和航跡規(guī)劃等各任務(wù)規(guī)劃環(huán)節(jié),但分類方式有所不同。
無人機(jī)蜂群任務(wù)分配是其任務(wù)規(guī)劃流程的第一步,任務(wù)分配是指在給定無人機(jī)蜂群種類和數(shù)量的前提下,基于戰(zhàn)場環(huán)境和任務(wù)需求,充分考慮無人機(jī)各項性能指標(biāo),研究如何將合適的任務(wù)在合適的時間或合適的地點分配給合適的蜂群,進(jìn)而形成對應(yīng)的任務(wù)∕目標(biāo)點序列,最終實現(xiàn)最優(yōu)作戰(zhàn)效能和最小己方代價[1,9,11,13]。不同無人機(jī)蜂群通過高效的任務(wù)分配可完成綜合作戰(zhàn)行動。
建立任務(wù)分配模型是構(gòu)建任務(wù)分配方法的先決條件。根據(jù)無人機(jī)蜂群所執(zhí)行作戰(zhàn)任務(wù)的不同,可以將任務(wù)分配模型劃分為單任務(wù)模型和多任務(wù)模型兩大類。單任務(wù)分配模型是指無人機(jī)蜂群共同執(zhí)行單一任務(wù)的分配模型,主要有多旅行商模型(multiple travelling salesman problem,MTSP)[28-30]和車輛路徑模型(vehicle routing problem,VRP)[31-33];多任務(wù)分配模型是指多個蜂群協(xié)同執(zhí)行多項任務(wù)的分配模型,主要包括動態(tài)網(wǎng)絡(luò)流模型(dynamic network flow,DNF)[34-37]、多維多選擇背包模型(multidimensional choice knapsack problem,MCKP)[38-41]、混合整數(shù)線性規(guī)劃模型(mixed-integer linear programming,MLP)[42-44]、合作多任務(wù)分配模型(cooperative multiple task allocation problem,CMTAP)[45-47]等。各分配模型主要特點如下頁表1所示。
表1 典型任務(wù)分配模型及特點Table 1 Typical task allocation model and characteristics
任務(wù)分配方法在現(xiàn)有分配模型的基礎(chǔ)上通過運(yùn)行計算實現(xiàn)任務(wù)分配。根據(jù)已有文獻(xiàn)資料,無人機(jī)蜂群任務(wù)分配方法有多種分類方式,按任務(wù)規(guī)劃架構(gòu)可以分為集中式[48-51]和分布式[52-54];按分配時機(jī)可以分為預(yù)先式[55-58]和臨機(jī)式[59-61];按任務(wù)特性可以分為動態(tài)[62-65]和靜態(tài)[66-69];按目標(biāo)數(shù)量可以分為單目標(biāo)[70-73]和多目標(biāo)[74-78]。任務(wù)分配方法的分類方式如表2所示。
表2 任務(wù)分配方法Table 2 Task allocation method
任務(wù)分配方法按照共性特點包含數(shù)學(xué)歸納類、啟發(fā)類、智能優(yōu)化類、協(xié)商機(jī)制類等多種類型方法。
2.3.1 數(shù)學(xué)規(guī)劃類方法
數(shù)學(xué)規(guī)劃類(mathematical programming)[79-80]方法主要通過構(gòu)建目標(biāo)函數(shù)和約束條件解決單目標(biāo)靜態(tài)預(yù)先任務(wù)分配問題,該類方法簡單易行,但隨著問題維度和約束的顯著增加,方法會因計算量過大而難以產(chǎn)生最優(yōu)解。比較典型的有窮舉法(exhaustive method,EM)[81-83]、匈牙利算法(hungarian algorithm,HA)[84-85]、分支定界法(branch and bound,BB)[47,86-87]、動 態(tài) 規(guī) 劃 法(dynamic programming,DP)[88-89]等。
窮舉法是一種常見的適應(yīng)函數(shù)尋優(yōu)算法,其原理是枚舉解空間中的所有可能解,通過比對找到最優(yōu)解。窮舉法原理簡單,易于實現(xiàn),理論上一定可找到最優(yōu)解,但面對復(fù)雜性較高的問題時,運(yùn)算量巨大。該方法通常用于求解簡單任務(wù)分配問題。
匈牙利算法是早期任務(wù)分配研究的經(jīng)典方法,核心是構(gòu)造并求解分配代價矩陣以實現(xiàn)目標(biāo)分配,實質(zhì)是一種指派問題求解算法。該算法實現(xiàn)簡單,但容錯能力較差,只適合求解單任務(wù)分配問題。
分支定界法是一種求解整數(shù)規(guī)劃問題的廣度優(yōu)先算法,其將任務(wù)解空間切分為較小的子集,隨后計算每個子集目標(biāo)上下界,并通過不斷篩選迭代找到可行解。分支定界法在約束條件較少的情況下能夠快速形成最優(yōu)解,但矩陣計算量過大,對于硬件要求相對較高。
動態(tài)規(guī)劃法將多階段任務(wù)分配問題分解為多個單階段子問題,并利用各階段的對應(yīng)關(guān)系分別求解。該方法通過分段式求解降低問題難度,可有效適用多目標(biāo)分配場景,但其過度簡化了分配模型,降低了分配結(jié)果可信度。
2.3.2 啟發(fā)類方法
啟發(fā)求解最初是應(yīng)對NP-hard 類問題而提出的概念,即如找不到一個問題實例的最優(yōu)解決方案,則通過啟發(fā)式求解方式得到滿足基本約束條件的次優(yōu)解[90]。該類方法計算速度快,兼容性強(qiáng),但計算量大,對初始數(shù)據(jù)要求高,一般難以得到理論上的最優(yōu)解。常見的啟發(fā)類方法包括遺傳算法(genetic algorithm,GA)[47,91]、進(jìn) 化 算 法(evolutionary algorithm,EA)[47,91]、禁忌搜索法(tabu search,TS)[92-93]等。
遺傳算法模擬達(dá)爾文進(jìn)化論中的自然選擇和遺傳機(jī)制,利用遺傳算子完成交叉變異過程,通過對解空間進(jìn)行搜索迭代演化出近似最優(yōu)解。該方法不受搜索空間限制,具有較強(qiáng)的并行能力,但容易陷入局部最優(yōu)解。提出一種自適應(yīng)的遺傳算法用于無人機(jī)蜂群協(xié)同問題求解,較好克服了其局部最優(yōu)問題;通過算法混合的方式,提升了標(biāo)準(zhǔn)遺傳算法的搜索能力,增加了分配精確度;分別從異構(gòu)蜂群和三維環(huán)境為切入點,對分配模型和遺傳算法種群進(jìn)行改進(jìn),取得了良好的任務(wù)分配效果。
進(jìn)化算法是一種以進(jìn)化論為基礎(chǔ),模仿自然界遺傳機(jī)制進(jìn)行自適應(yīng)∕自組織的全局搜索方法,其搜索流程主要包括選擇、重組、變異3 個環(huán)節(jié),經(jīng)過多次迭代遺傳后,算法選擇適應(yīng)度最強(qiáng)的個體作為最優(yōu)解。進(jìn)化算法與遺傳算法原理相似,優(yōu)點為不受搜索空間限制,并行能力較強(qiáng),在任務(wù)分配領(lǐng)域應(yīng)用較普遍。缺點為易陷入局部最優(yōu)。目前與其他方法結(jié)合是比較常見的改進(jìn)方法,如文獻(xiàn)[47,91,94-95]等。
禁忌搜索法讓仿真實體從隨機(jī)的可行解出發(fā),按照探索方向不斷移動,最終選擇目標(biāo)函數(shù)變化最大的作為最優(yōu)分配解,另外算法在探索過程中使用禁忌表規(guī)范可能的移動方向,防止盲目迭代造成死循環(huán)。相比其他方法,禁忌搜索法探索能力較強(qiáng)、收斂速度較快,分配效率高。
2.3.3 智能優(yōu)化類方法
智能優(yōu)化類方法本質(zhì)是模擬動物種群自交互行為,通過在分配空間內(nèi)進(jìn)行順次迭代找到近似最優(yōu)解。其特點是計算復(fù)雜度低,針對特定問題的自適應(yīng)能力強(qiáng),具有全局優(yōu)化性和智能性,因此,逐漸成為大規(guī)模動態(tài)多目標(biāo)任務(wù)分配的主流方法。當(dāng)然,該類方法缺乏顯式的數(shù)學(xué)基礎(chǔ)和理論分析,有效的任務(wù)分配評價指標(biāo)較少,分配結(jié)果的可信度存疑。典型算法包括蟻群優(yōu)化算法(ant colony optimization,ACO)[96-98]、粒子群優(yōu)化算法(particle swarm optimization,PSO)[99-101]等。
蟻群優(yōu)化算法模仿螞蟻找食過程的仿生學(xué)原理,即將任務(wù)分配搜索問題等效為螞蟻找食過程,通過分泌信息素引導(dǎo)搜索源朝路徑最短的方向移動,從而得出最優(yōu)解。該方法適用于建模困難的任務(wù)分配問題,具有較強(qiáng)的可擴(kuò)展性和泛化搜索能力,但求解速度比較慢,易陷入局部最優(yōu)。
粒子群優(yōu)化算法是一種模擬鳥群飛行行為的仿生學(xué)智能優(yōu)化類算法,其通過模仿粒子為尋求歷史最優(yōu)位置而演化聚合的進(jìn)程來選擇解空間,最后利用適應(yīng)度函數(shù)實時評估得到最優(yōu)解,實現(xiàn)最優(yōu)搜索。該方法簡單高效,易于求解建模困難問題,但分配精細(xì)度不高,全局搜索能力差。其中,文獻(xiàn)[101]將任務(wù)分配變量離散化以適應(yīng)粒子群求解框架,并考慮距離、角度、時間等因素構(gòu)造相對成熟的分配函數(shù),實現(xiàn)了高效的任務(wù)分配;針對粒子群算法分配精細(xì)度差的缺點,文獻(xiàn)[102]提出了一種基于變鄰域搜索的局部收斂策略,并同步設(shè)計了重分配方法,實現(xiàn)了異構(gòu)蜂群的精確任務(wù)分配;文獻(xiàn)[100]則聚焦提升全局搜索能力進(jìn)行算法改進(jìn),強(qiáng)化了較高數(shù)量無人機(jī)蜂群的任務(wù)分配能力。
2.3.4 協(xié)商機(jī)制類方法
該類方法主要通過設(shè)預(yù)設(shè)分布式協(xié)商競價的框架,并使用無人機(jī)蜂群自身收益代價模型和數(shù)據(jù)通信實現(xiàn)任務(wù)指派與交換,適合高動態(tài)多目標(biāo)實時分配問題。協(xié)商機(jī)制類方法簡單直觀,可操作性較強(qiáng),分配效率較高,但也存在個體利益與整體最優(yōu)互相沖突,進(jìn)而影響分配效果。其典型方法有合同網(wǎng)算法(contract net algorithm,CNA)[103-104]等。
合同網(wǎng)算法將任務(wù)分配看成市場交易的買賣過程,通過“招標(biāo)—投標(biāo)—中標(biāo)”(auction-bidaward)的市場競拍機(jī)制模擬分配過程,每個蜂群單機(jī)將自身無法處理的任務(wù)對外拍賣,由其他單機(jī)投標(biāo)購買,最終以整體最低代價完成最優(yōu)任務(wù)分配。近來,對合同網(wǎng)算法的改進(jìn)方法層出不窮,如文獻(xiàn)[105]通過在原始方法中增加原則性約束條件,實現(xiàn)了復(fù)雜條件下的動態(tài)任務(wù)分配;文獻(xiàn)[103]則在標(biāo)準(zhǔn)方法的基礎(chǔ)上,設(shè)置了相應(yīng)的拍賣機(jī)制,解決了突發(fā)情況下任務(wù)再分配問題;文獻(xiàn)[106-107]也針對相應(yīng)場景對合同網(wǎng)算法進(jìn)行了改進(jìn)。當(dāng)前該方法絕大多數(shù)研究主要面向不完全信息條件下多目標(biāo)動態(tài)分配問題。類似的改進(jìn)的方法也有許多,如文獻(xiàn)[108-110]等。
典型任務(wù)分配方法及特點如表3所示。總體而言,無人機(jī)蜂群作戰(zhàn)任務(wù)分配從原始的單任務(wù)、小空間、集中式,逐漸向異構(gòu)型、協(xié)同化、多任務(wù)方向發(fā)展,多種類型方法結(jié)合成為主要求解模式。
表3 典型任務(wù)分配方法及特點Table 3 Typical task allocation methods and characteristics
無人機(jī)蜂群航跡規(guī)劃主要在任務(wù)分配的基礎(chǔ)上,綜合考慮蜂群平臺、任務(wù)區(qū)域、威脅源、打擊目標(biāo)、協(xié)同關(guān)系等諸多約束條件,規(guī)劃出從出發(fā)點到打擊目標(biāo)點之間的最優(yōu)飛行航跡,使得己方損失最小化和任務(wù)完成最大化[13-16,111-112]。
無人機(jī)蜂群航跡規(guī)劃流程有以下步驟:1)輸入任務(wù)分配指令;2)設(shè)置約束條件,包括蜂群平臺自身約束、任務(wù)條件約束、戰(zhàn)場環(huán)境約束等;3)確定目標(biāo)函數(shù),主要依據(jù)偵察識別、干擾佯動、集群打擊等具體任務(wù)分配指令確定;4)選取相應(yīng)規(guī)劃方法生成最優(yōu)航跡;5)通過仿真推演驗證規(guī)劃航跡的有效性。
無人機(jī)蜂群航跡規(guī)劃約束條件大致可分為蜂群平臺自身約束、任務(wù)條件約束、戰(zhàn)場環(huán)境約束三大類。其中,平臺自身約束包含飛行高度、飛行速度、轉(zhuǎn)彎能力、最小航跡長度、最大航程等無人機(jī)性能指標(biāo);任務(wù)條件約束包括戰(zhàn)場威脅、任務(wù)載荷、協(xié)同關(guān)系等作戰(zhàn)任務(wù)要素;戰(zhàn)場環(huán)境約束則包括作戰(zhàn)時間、戰(zhàn)場空間、地形地貌等外部條件。約束條件如下頁表4所示。
表4 無人機(jī)蜂群航跡規(guī)劃約束條件Table 4 Constraints for UAV swarm trajectory planning
無人機(jī)蜂群航跡規(guī)劃典型算法主要可分為基于圖搜索、基于采樣、基于智能三大類。
3.3.1 基于圖論的航跡規(guī)劃方法
基于圖論的航跡規(guī)劃方法將無人機(jī)蜂群的所有可能航跡點轉(zhuǎn)化為狀態(tài)空間圖,通過初始狀態(tài)到目標(biāo)狀態(tài)路徑構(gòu)成可行航跡[113]。典型方法有單元分解法(cell decomposition,CD)[114]、柵格法(grid method,GM)[115]、路標(biāo)圖法(roadmap method,RM)[116]等。
單元分解法將作戰(zhàn)環(huán)境切分為若干多邊形區(qū)域,在區(qū)域內(nèi)聯(lián)通出發(fā)點到目標(biāo)點形成代價最小的航跡路徑。該方法航跡規(guī)劃的質(zhì)量取決于多邊形區(qū)域的細(xì)分程度。
柵格法將作戰(zhàn)空間分割為多個柵格網(wǎng)格,并通過啟發(fā)式搜索的方式在柵格中尋找最優(yōu)航跡。對該方法而言,柵格網(wǎng)格顆粒度的大小往往決定算法的精細(xì)程度和內(nèi)存消耗?,F(xiàn)實場景中很少單獨(dú)使用柵格法進(jìn)行航跡規(guī)劃,比較常見的是先用柵格劃分規(guī)劃區(qū)域,再利用其他算法搜索求解最優(yōu)航跡。
路標(biāo)圖法本質(zhì)上是對作戰(zhàn)環(huán)境進(jìn)行采樣,綜合目標(biāo)威脅因素和航跡規(guī)劃空間構(gòu)建多種類型的路標(biāo)圖,之后通過搜索得到最優(yōu)或次優(yōu)航跡。該方法根據(jù)圖形樣式可細(xì)分為Voronoi 圖[117-118]、概率路標(biāo)圖(probabilistic roadmap,PR)[119]、可 視 圖(visible roadmap,VR)[120]等多個子類。Voronoi 圖將環(huán)境中相鄰兩個目標(biāo)點的中垂線連接成多邊形網(wǎng)圖,特征與元素表征威脅區(qū)域,通過權(quán)值搜索得到最優(yōu)航跡;隨機(jī)路標(biāo)圖將規(guī)劃目標(biāo)隨機(jī)采樣生成路標(biāo)網(wǎng)絡(luò),進(jìn)而把航跡規(guī)劃問題轉(zhuǎn)化為圖搜索問題;可視圖規(guī)定相鄰點和威脅區(qū)頂點連線為“可視”,并順次連接“可視”點得到航跡規(guī)劃結(jié)果。路標(biāo)圖法構(gòu)造簡單、數(shù)量級低,可規(guī)劃出安全性較高的航跡,但規(guī)劃顆粒度較大,且可選航跡有限。
3.3.2 基于搜索的航跡規(guī)劃方法
基于搜索的航跡規(guī)劃方法對航跡規(guī)劃空間進(jìn)行搜索評估,進(jìn)而確定到目標(biāo)位置的最優(yōu)航跡點集,最終實現(xiàn)航跡規(guī)劃。該類方法航跡搜索距離短,因此,規(guī)劃效率較高。典型的有A*算法(A* algorithm)[121-122]、模擬退火算法(simulated annealing algorithm,SAA)[123-125]、人工勢場法(artifical potential field,APF)[123-125]、快速隨機(jī)搜索樹法(rapidly-exploring random tree,RRT)[126]等。
A*算法是一種啟發(fā)式方法,其通過計算當(dāng)前點到目標(biāo)點的實際代價函數(shù)值不斷擴(kuò)展搜索選擇,最終得出最優(yōu)航跡,該方法通常用于求解二維或三維環(huán)境下蜂群協(xié)同規(guī)劃問題。其搜索航跡短、效率高;同時,由于計算量較大、規(guī)劃時間較長,算法很難應(yīng)對大空間復(fù)雜航跡規(guī)劃。其改進(jìn)點包括多機(jī)協(xié)同性、環(huán)境適應(yīng)度、規(guī)劃精度、規(guī)劃效率等方面。
模擬退火算法是一種基于迭代策略的隨機(jī)搜索方法,其特點是利用概率的突變性找出目標(biāo)函數(shù)中的最優(yōu)解,該方法可以有效避免局部最優(yōu),魯棒性較高,但需要復(fù)雜的作戰(zhàn)環(huán)境量化過程。
人工勢場法將戰(zhàn)場環(huán)境中的目標(biāo)點和威脅區(qū)分別定義為對無人機(jī)機(jī)體產(chǎn)生引力和斥力的實體,并建立對應(yīng)的勢能函數(shù),無人機(jī)蜂群通過引力和斥力的疊加合力控制自身運(yùn)動,并根據(jù)約束條件和勢能函數(shù)進(jìn)行航跡規(guī)劃。該類方法無需復(fù)雜的搜索優(yōu)化,計算量較小、實時性強(qiáng),但易陷入局部最小值,且勢能函數(shù)需要根據(jù)特定場景定制。
快速隨機(jī)搜索樹法的基本原理是先隨機(jī)采樣產(chǎn)生多個節(jié)點,再利用節(jié)點在任務(wù)空間中構(gòu)建隨機(jī)樹,該方法能夠在復(fù)雜規(guī)劃環(huán)境中快速找到最優(yōu)航跡,但易陷入局部最優(yōu)。其主要應(yīng)用于考慮平臺自身約束的航跡規(guī)劃問題。
3.3.3 基于智能的航跡規(guī)劃方法
基于智能的航跡規(guī)劃方法可分為傳統(tǒng)智能和人工智能兩大類。傳統(tǒng)智能類算法包括粒子群優(yōu)化算法[127-128]、蟻群優(yōu)化算法[129-131]、人工蜂群算法[132]及其多種改進(jìn)型,該類方法將與上述智能優(yōu)化類任務(wù)分配方法相同的搜索原理應(yīng)用于航跡規(guī)劃場景。
近年來,利用以深度強(qiáng)化學(xué)習(xí)(deep reinforcement learning,DRL)[133]為代表的人工智能類方法進(jìn)行航跡規(guī)劃成為較為火熱的研究方向。該類方法主要基于馬爾科夫決策過程(Markov decision process)[134],利用狀態(tài)轉(zhuǎn)移對區(qū)域進(jìn)行探索和預(yù)測,并使用回報函數(shù)訓(xùn)練最優(yōu)航跡,具有極強(qiáng)的實效性和實時性,非常適合處理復(fù)雜未知作戰(zhàn)空間的航跡規(guī)劃問題。比較典型的有Q-learning[135-136]、分層強(qiáng)化學(xué)習(xí)(hierarchical reinforcement learning,HRL)[137-139]、DQN[140-141]、DDPG[142]、MADDPG[143-144]等。
Q-learning 是一種早期經(jīng)典強(qiáng)化學(xué)習(xí)方法,其利用Q 表存儲回報值,通過在預(yù)定空間內(nèi)不斷試錯訓(xùn)練出最優(yōu)航跡,該方法常用于無人機(jī)航跡規(guī)劃及避障類場景。其缺點為只適合解決離散空間規(guī)劃問題,難以滿足現(xiàn)實作戰(zhàn)環(huán)境的規(guī)劃需要。
分層強(qiáng)化學(xué)習(xí)方法將復(fù)雜的規(guī)劃問題分段為多個簡單子問題并依次求解,從一定程度上緩解了強(qiáng)化學(xué)習(xí)算法難以收斂的問題,但還是無法徹底解決連續(xù)動作選擇的難題。
DQN 將深度神經(jīng)網(wǎng)絡(luò)(deep neural network,DNN)引入經(jīng)典強(qiáng)化學(xué)習(xí)算法,使用值函數(shù)近似器預(yù)估動作,能夠較好地模擬連續(xù)動作空間航跡規(guī)劃。該方法的改進(jìn)型較多,如文獻(xiàn)[140-141]等。
DDPG 主要解決兩個方面的問題,1)使用策略梯度模型仿真連續(xù)動作空間中的動作策略和算法輸入狀態(tài),通過訓(xùn)練直接輸出最優(yōu)動作,并由連續(xù)時間點的動作組合成最優(yōu)航跡;2)引入Actor-Critic機(jī)制,由Critic 網(wǎng)絡(luò)監(jiān)督Actor 網(wǎng)絡(luò)選取最優(yōu)動作。DDPG 真正意義上實現(xiàn)了連續(xù)動作空間的航跡規(guī)劃,但算法無法體現(xiàn)蜂群間的協(xié)同行為,且一旦無人機(jī)數(shù)量上升極易導(dǎo)致維度災(zāi)難而難以收斂。
MADDPG 可以被看作DDPG 算法在解決多智能體環(huán)境中競爭合作問題的改進(jìn)型方法,其核心思想可用集中訓(xùn)練分散執(zhí)行(centralized training and decentralized execution,CTDE)概括,即使用集中式的神經(jīng)網(wǎng)絡(luò)進(jìn)行統(tǒng)一訓(xùn)練,按照蜂群的組成結(jié)構(gòu)分布式執(zhí)行,從而可有效提升蜂群間的自主協(xié)同規(guī)劃能力。該方法適合多種類異構(gòu)型蜂群協(xié)同航跡規(guī)劃,但也存在訓(xùn)練量較大,對硬件需求較高的不足。
典型無人機(jī)蜂群航跡規(guī)劃方法對比如下頁表5所示??梢钥闯?,基于圖論的方法僅適合二維簡單模型的航跡規(guī)劃,對復(fù)雜作戰(zhàn)環(huán)境的集群規(guī)劃顯得無能為力;基于搜索的航跡規(guī)劃方法雖然搜索效率高,易得出最優(yōu)解,但算法模型過于復(fù)雜,無法適應(yīng)復(fù)雜的作戰(zhàn)場景和規(guī)劃要素;基于智能的航跡規(guī)劃方法對于以智能體為基礎(chǔ)單元,以無模型訓(xùn)練算法為具體執(zhí)行對象,較為適合應(yīng)用于無人機(jī)蜂群的編組和協(xié)同任務(wù)模式,能夠以較為簡單的模型構(gòu)建實現(xiàn)蜂群作戰(zhàn)靈活編組、群智涌現(xiàn)、動態(tài)規(guī)劃等特性,是無人機(jī)蜂群航跡規(guī)劃較為理想的求解方式和發(fā)展方向,具有極高的研究意義和價值。
表5 典型無人機(jī)蜂群航跡規(guī)劃方法對比Table 5 Comparison of typical UAV swarm route planning methods
由前所述,研究人員在無人機(jī)蜂群作戰(zhàn)任務(wù)規(guī)劃領(lǐng)域取得了較為豐碩的成果,各類模型方法層出不窮,軍事場景的應(yīng)用也可圈可點,但目前仍有較多關(guān)鍵問題亟待解決。本文分別從場景構(gòu)設(shè)、規(guī)劃模型、規(guī)劃要素、推演評估、規(guī)劃模式等5方面,總結(jié)了無人機(jī)蜂群作戰(zhàn)任務(wù)規(guī)劃的關(guān)鍵問題,并針對各問題方面對該領(lǐng)域的未來發(fā)展方向進(jìn)行展望。
場景構(gòu)設(shè)方面的問題主要表現(xiàn)為:1)現(xiàn)有規(guī)劃方法和仿真環(huán)境主要集中在二維空間問題的求解上,對于作戰(zhàn)空間、戰(zhàn)場環(huán)境、約束條件等復(fù)雜性要求更高的三維空間,其規(guī)劃完成度和置信度都不夠理想;2)為了降低規(guī)劃復(fù)雜度,現(xiàn)有場景考慮的條件較為簡單,大都只包括蜂群實體、任務(wù)類型、威脅條件、打擊目標(biāo)等有限要素,雖然簡化了問題求解過程,但仿真真實度、全局度較低。
因此場景構(gòu)設(shè)方面的發(fā)展方向主要包括:1)三維仿真場景逐漸成為主流,未來無人機(jī)蜂群作戰(zhàn)任務(wù)規(guī)劃場景構(gòu)設(shè)重點在于研究和完善三維空間下的任務(wù)規(guī)劃求解方法,以增加仿真規(guī)劃的置信度;2)仿真場景要素更加細(xì)致全面,未來無人機(jī)蜂群作戰(zhàn)任務(wù)規(guī)劃將融入信息條件、體系支撐、地形氣候等多類復(fù)雜要素,在強(qiáng)大算力和智能化方法的加持下,不斷提升任務(wù)規(guī)劃的真實度。
任務(wù)規(guī)劃模型方面的問題主要包括:1)現(xiàn)有規(guī)劃模型和求解方法較為繁多,但不同模型只針對特定場景,很難形成通用的求解范式,這就導(dǎo)致規(guī)劃模型的適應(yīng)性和魯棒性較弱;2)模型參數(shù)較為簡化,對于多參數(shù)模型的研究不足,導(dǎo)致現(xiàn)有模型很難應(yīng)對多蜂群多任務(wù)復(fù)雜規(guī)劃場景。
未來無人機(jī)蜂群作戰(zhàn)任務(wù)規(guī)劃模型將逐漸向多任務(wù)、多場景、綜合化的方向發(fā)展。即在通盤考慮多種參數(shù)指標(biāo)綜合影響的基礎(chǔ)上,建立符合實際的標(biāo)準(zhǔn)化任務(wù)規(guī)劃模型,以增加規(guī)劃的普適性和魯棒性。
當(dāng)前無人機(jī)蜂群作戰(zhàn)任務(wù)規(guī)劃自主化水平較低,可以預(yù)見隨著規(guī)劃方法與模型的不斷迭代演進(jìn),智能自主的任務(wù)規(guī)劃模式必將是未來發(fā)展方向。同時也應(yīng)當(dāng)看見,戰(zhàn)爭作為一種人與技術(shù)的結(jié)合體,指揮人員必須擁有最高決策權(quán)。因此,在不斷建設(shè)智能任務(wù)規(guī)劃體系的同時,也應(yīng)當(dāng)深入研究如何更好地將指揮人員的經(jīng)驗智慧與機(jī)器智能相結(jié)合,形成“人在回路”的規(guī)劃模式,以贏得未來戰(zhàn)爭的主動權(quán)。無人機(jī)蜂群作戰(zhàn)任務(wù)規(guī)劃關(guān)鍵問題及發(fā)展方向?qū)?yīng)關(guān)系如表6所示。
表6 無人機(jī)蜂群作戰(zhàn)任務(wù)規(guī)劃關(guān)鍵問題及發(fā)展方向?qū)?yīng)關(guān)系Table 6 Key issues and corresponding development directions for UAV swarm combat mission planning
無人機(jī)蜂群作戰(zhàn)樣式是未來智能化、無人化聯(lián)合作戰(zhàn)的重要組成部分,任務(wù)規(guī)劃作為無人機(jī)蜂群執(zhí)行各類作戰(zhàn)行動的基礎(chǔ)技術(shù),在整個蜂群系統(tǒng)中將發(fā)揮舉足輕重的作用。本文通過對任務(wù)規(guī)劃流程,以及其中兩個重點問題(任務(wù)分配、航跡規(guī)劃)的模型及方法的介紹,深度分析了無人機(jī)蜂群作戰(zhàn)任務(wù)規(guī)化的現(xiàn)狀以及未來發(fā)展方向,以期在未來聯(lián)合作戰(zhàn)中贏得戰(zhàn)場主動。