張 棟 王孟陽 唐 碩
1.西北工業(yè)大學航天學院 陜西 西安 710072 2.陜西省空天飛行器設計重點實驗室 陜西 西安 710072
2020年1月, 中國科學院發(fā)布的《2019年人工智能發(fā)展白皮書》中將“群體智能技術”列為八大人工智能關鍵技術之一[1], 隨著智能系統與復雜體系、感知與判斷、分布式協同、人工智能和算法戰(zhàn)等理論與技術的不斷發(fā)展與突破, 智能系統已呈現出無人化、集群化和自主化等特征[2]. 無人機集群作為未來集群智能系統的主要形式, 能夠實現單平臺行為決策、多平臺任務協同, 具有集群涌現特性, 表現出了巨大的應用前景. 無人機集群任務環(huán)境彈性大、態(tài)勢變化快、傳感器信息不完全、通信結構不穩(wěn)定, 是以決策為主的對抗. 因此, 協同自主決策作為“感知-判斷-決策-行動(observation-orientation-decision-action,OODA)”環(huán)路循環(huán)中的關鍵技術引起了國內外廣泛關注[3-5]. 無人機集群在復雜動態(tài)變化的環(huán)境下, 如何根據不確定的態(tài)勢信息, 實施可解釋的自主決策推理, 確定高效可靠的任務協同執(zhí)行方式對保障集群安全, 提升作戰(zhàn)效能至關重要.
按照系統科學的觀點[6], 無人機集群系統多平臺異構、任務需求眾多、輸入態(tài)勢變化、戰(zhàn)術目的復雜、約束條件耦合, 為解決以上問題, 需要面向無人機集群多任務設計自主決策規(guī)劃框架, 降低系統研究的復雜性. 文獻[7]基于不確定攻防博弈態(tài)勢信息搭建了無人機集群對抗博弈模型, 并設計博弈成本函數計算最優(yōu)策略;文獻[8]提出了一種多無人機分布式智能自組織算法, 將集群偵察-打擊任務優(yōu)化問題分解為多個局部優(yōu)化問題, 并通過集群與環(huán)境和集群之間的信息交流實現全局優(yōu)化決策;文獻[9]針對區(qū)域偵察等典型集群任務, 采用深度學習方法構建任務決策模型, 然后基于遺傳算法對決策模型進行優(yōu)化, 為集群實現離線學習和在線決策提供了有效支撐, 然而現有成果從多任務角度出發(fā), 對集群自主決策問題進行研究相對較少.
對于集群系統協同作戰(zhàn)任務方面的研究, 主要以任務規(guī)劃問題為主[10], 此類問題大都是事先擬定好了任務輸入類型和約束, 是一種有目標信息的多約束優(yōu)化問題. 然而對于集群如何獲得準確的任務目標信息, 并根據態(tài)勢進行動態(tài)任務調整并沒有考慮,此問題正是集群協同任務決策的研究重點. 現階段無人機決策問題研究大都聚焦于空戰(zhàn)過程中的機動動作決策[11-12], 或者某個明確任務場景中的決策, 如集群打擊任務等[13-14], 沒有從集群協同作戰(zhàn)過程中戰(zhàn)術戰(zhàn)略及任務的多樣性和復雜性方面開展自主決策研究. 因此, 本文針對這個問題, 分析了集群任務自主決策概念、任務定義與分類, 設計了自主決策的流程;應用分層研究思想提出一種自主決策框架, 并根據通信結構定義不同的決策模式;結合多種技術途徑對無人機集群自主決策建模的體系結構和求解框架進行了分析和探討.
無人機集群的顯著特征是具有較高的自主能力,主要表現在集群能夠不斷感知態(tài)勢信息、自身性能、任務目標以及狀態(tài)約束的動態(tài)變化, 并及時地作出動態(tài)響應決策, 從整體效能角度出發(fā)衡量決策結果的正確性. 通過這種連續(xù)交互響應進程, 無人機集群不斷學習累積任務經驗, 實現決策知識庫的自發(fā)育,從而改變集群結構和任務執(zhí)行方式, 因此, 集群自主的核心是集群的學習能力.
無人機集群自主決策系統的輸入依賴于復雜多變的戰(zhàn)場信息, 通過分析集群作戰(zhàn)自主決策解算流程進行系統設計, 其結構主要由知識庫、推理機和決策庫組成, 如圖1 所示. 集群系統的先驗知識存儲在知識庫中;決策規(guī)則和決策首選項存儲在決策庫中,根據IF-ELSE-THEN 的邏輯構建規(guī)則進行選擇輸出[15].推理機是集群決策過程的最重要組成部分, 可以集成各種復雜的輸入信息完成推理和決策任務. 推理機除了使用先驗知識進行推理外, 還可在訓練后自動更新知識, 實現知識庫的補充. 因而決策系統的自主特性主要表現為:無人機集群通過對當前態(tài)勢的感知, 從現有知識庫中選擇某一自主行為去執(zhí)行, 而后通過與環(huán)境的交互行為, 學習產生新的規(guī)則, 并對原有決策庫進行更新, 進而調整自身行為, 這一過程循環(huán)往復進行.
圖1 決策系統自主性結構Fig.1 Autonomous structure of decision-making system
集群任務依據作戰(zhàn)場景和態(tài)勢信息表現為不同形式, 為使集群任務效率最大化, 一方面需要明確集群任務之間的序貫配合和任務執(zhí)行流程, 對任務執(zhí)行類型序列進行決策;另一方面, 也需要通過決策明確任務執(zhí)行約束及任務執(zhí)行最優(yōu)效能, 因此, 有必要對不同類型的任務屬性進行表征和區(qū)分, 提升集群整體決策效率. 不同任務類型包括集群潛伏、集群突防、集群偵察、集群打擊、集群封控、集群突擊、集群評估等任務, 介紹如下:
1)集群潛伏, 無人機集群從起飛點或拋灑點出發(fā), 分布為多個編隊, 形成任務執(zhí)行前待命狀態(tài), 具有一定的隱蔽性, 根據作戰(zhàn)地形、氣候和環(huán)境特點決策使得敵方預警信息最小化且我方燃料損耗最小化.
2)集群突防, 戰(zhàn)場存在地形、敵方雷達和反導系統等威脅, 集群通過實施電子干擾和光電紅外誘餌等方式進行突防, 決策使得集群突防效率最大化, 任務能力損失最小化,實現集群對敵方威脅的主動遠離.
3)集群偵察, 由于集群沒有目標的先驗狀態(tài)信息, 在太陽光照等環(huán)境信息和我方平臺能力等約束條件下對區(qū)域執(zhí)行偵察搜索任務, 實現為對目標位置狀態(tài)的準確定位, 透明化戰(zhàn)場態(tài)勢.
4)集群打擊, 打擊任務為無人機集群對動態(tài)/靜態(tài)目標的主動靠近, 考慮到敵方目標的機動性能, 在戰(zhàn)場態(tài)勢、飛行動力學和集群能力等約束下決策優(yōu)化集群打擊方式, 實現為集群對目標實現多方位多波次打擊.
5)集群封控, 封控任務是將集群拆分為能力相近的效地編隊, 增加集群強度、任務靈活性和生存能力, 實現為多方向、多波次、長耗時的持續(xù)對敵電磁壓制和電子封控.
6)集群突擊, 當敵方出現破綻時需緊急執(zhí)行突擊任務進行針對性打擊, 實現為對集群當前任務狀態(tài)影響最小化迅速地對破綻執(zhí)行突擊任務.
7)集群評估, 評估任務是指偵察、封控或打擊等任務執(zhí)行完成后, 通過集群中帶評估載荷無人機的聯合, 實現對任務執(zhí)行效果的評估, 包括集群壓制評估、毀傷評估和生存性能評估等, 實時掌握集群作戰(zhàn)效果.
對于實際態(tài)勢情況下的集群任務自主決策, 不同的任務類型決策方式之間存在一定的關系, 如圖2 所示, 對集群自主決策任務流程的具體過程描述如下:
圖2 集群任務決策全流程Fig 2 The whole process of multi-task decision-making of UAVs
1)集群潛伏階段. 是我方無人機集群面對戰(zhàn)場目標前的一種準備狀態(tài), 在這一階段, 為了避免打草驚蛇, 任務決策確定集群分簇及構型, 發(fā)射/拋灑時間, 優(yōu)化集結編隊隊形, 利用地形范圍和己方電磁屏蔽范圍等, 掩護集群分布和自身作戰(zhàn)意圖, 提高集群安全性能.
2)集群突防階段. 集群開始接近敵方作戰(zhàn)區(qū)域,此時戰(zhàn)場空間中存在敵方多種探測設備威脅, 決策確定編隊隊形保持、切換、拆分和重構樣式, 通過不斷地切換和自組合, 提高集群偽裝能力和突防性能;同時根據對敵方威脅態(tài)勢分析決策突防地理方位、突防時集群航向、集群誘餌釋放時機.
3)集群對抗階段. 當集群接近敵方目標區(qū)域過程中, 進入集群對抗階段, 該階段主要包括集群偵察、集群打擊、集群封控和集群突擊4 種任務決策類型. 分別實施對目標的準確定位、準確打擊、目標壓制和破綻針對. 上層決策根據目標信息感知與預測決策獲得任務序列, 對復雜動態(tài)的戰(zhàn)場環(huán)境, 存在4 類任務類型的序貫耦合和拼接, 如“察-打”一體任務、中繼通信(“偵察-封控”一體)任務和電磁干擾(“封控-打擊-突擊”一體)任務等, 不同任務策略多管齊下發(fā)揮集群優(yōu)勢. 下層決策對上層決策序列中的任務分別執(zhí)行約束決策, 集群偵察任務決策結果為目標偵察區(qū)域大小, 集群偵察隊形和偵察方位角,在得到偵察結果后持續(xù)或中止偵察任務;集群打擊任務根據獲取的目標信息對目標行為進行預測, 決策結果為多約束條件下多波次、多方位和多時間約束打擊模式;集群封控任務決策結果為了最大化封控效率, 確定我方最優(yōu)封控編隊隊形和封控包圍環(huán)(圈)構型;集群突擊任務決策過程需考慮時間和集群碰撞規(guī)避約束, 決策結果為時間約束和相對幾何約束下的任務執(zhí)行效能優(yōu)化.
4)集群評估階段. 在完成對敵方目標的打擊、封控等任務后, 根據戰(zhàn)場態(tài)勢決策進入集群評估階段. 由于爆炸煙霧、戰(zhàn)場動態(tài)威脅、不同的目標受損態(tài)勢信息、傳感器噪聲和其他不可避免的誤差, 會影響集群傳感器獲取的評估態(tài)勢信息的質量, 是一種信息不完全的決策問題. 因此, 結合一致性理論信息融合和平行仿真修正模型, 在考慮目標權重、集群耐久度和傳感器誤差的情況下, 建立集群的快速評估任務決策方案, 建立高效準確的作戰(zhàn)效能評估模型,根據任務評估效果決定是否仍需對目標執(zhí)行多次迭代任務.
無人機集群系統本質為數量眾多的同構/異構無人機通過通信數據鏈路交互構成的復雜系統. 隨著系統規(guī)模增加, 集群任務自主決策復雜度不論在理論研究還是系統實現上均呈指數型上升, 體系架構設計也更具挑戰(zhàn). 集群任務自主決策框架設計, 一方面要解決該復雜系統的控制和信息的耦合交互問題,另一方面也需要盡量在決策框架和算法上降低系統的復雜性. 研究表明, 分層控制可以有效降低集群任務決策的復雜性, 提高集群任務執(zhí)行效率[16-17]. 本文借鑒BOSKOVIC JD 的思想[18], 將無人機集群OODA 環(huán)中決策問題分為4 個層次, 分別為態(tài)勢通信層(communication, C)、任務決策層(decision, D)、任務規(guī)劃層(planning, P)及控制層(control, C), 簡稱為CDPC架構, 結構關系如圖3 所示.
圖3 協同任務決策分層CDPC 架構Fig.3 Hierarchical CDPC architecture for collaborative multi-task decision-making
在該架構中, 態(tài)勢通信層負責集群網絡通信, 實現信息共享、信息融合和狀態(tài)預測等;任務決策層根據動態(tài)戰(zhàn)場態(tài)勢確定環(huán)境、目標狀態(tài)和集群任務需求, 基于邏輯推理及多目標優(yōu)化技術得到最優(yōu)化決策信息, 其內容包括任務態(tài)勢評估、任務制定與協調等. 任務決策是一個動態(tài)的過程, 根據戰(zhàn)場態(tài)勢在線決策, 并面向任務規(guī)劃生成集群戰(zhàn)略、戰(zhàn)術等決策數據, 調度一系列任務規(guī)劃層的過程, 其輸出決策信息作為任務規(guī)劃層的約束輸入;任務規(guī)劃層接收決策數據并將其轉換為在線規(guī)劃輸入, 為集群內每架無人機規(guī)劃從起始位置到目標位置的運動軌跡, 實現集群內相互避碰以及避免與環(huán)境碰撞, 其內容包括任務分配和航跡規(guī)劃等;任務決策層與任務規(guī)劃層研究的出發(fā)點、目的和結果皆存在較大不同, 如表1 所示.控制層根據航路信息進行集群協調, 實現自主避障和編隊控制. 通過建立CDPC 架構對決策問題進行分層優(yōu)化求解, 集群可以針對復雜的任務場景和不同的應用領域, 實現分層協調, 快速完成集群任務決策.
表1 無人機集群自主決策與任務規(guī)劃研究異同Table 1 Similarities and differences of autonomous decision making and mission planning of UAVs
通過分層優(yōu)化, 集群可以針對復雜任務場景和不同應用領域實現任務的分層協調和快速完成, 以該結構為基礎, 建立CDPC 架構信息流向如圖4 所示. 該結構集成了智能、認知和信息融合等先進概念,包括反應、決策、規(guī)劃、執(zhí)行、控制、思考學習等6個方面. 無人機通過通信網絡獲知地面指揮控制中心和其他無人機節(jié)點的態(tài)勢信息進行推理決策, 將決策信息流向任務規(guī)劃得到集群更新后的航跡, 航跡流向無人機控制層實現集群涌現行為. 其中, 集群任務決策是決策體系架構中的一項關鍵問題, 是集群任務執(zhí)行的頂層判定, 對最終任務執(zhí)行質量有著最根本的影響.
圖4 CDPC 架構信息流向示意圖Fig 4 Schematic diagram of CDPC architecture information flow
無人機集群任務自主決策位于整個任務執(zhí)行過程中的頂層, 態(tài)勢信息的建模為決策基礎. 態(tài)勢跟蹤窗口不確定、網絡通信結構不穩(wěn)定等動態(tài)環(huán)境增加了任務決策的難度, 集群需要根據任務或環(huán)境的動態(tài)變化及時地作出任務決策. 無人機集群是否能達到預定的戰(zhàn)斗力, 關鍵在于信息的獲取和傳輸, 根據集群通信拓撲結構可將集群決策依據分為以下3 類:
1)集中式決策
集中式決策存在一個全局視角的決策節(jié)點, 通過數據鏈路獲得其他無人機的全局感知信息表征,其他無人機之間不進行相互通信,以全局為中心,從集群整體角度出發(fā)進行綜合衡量、協調, 如圖5 所示.中心決策節(jié)點一般是輔助集群內個體獲取和處理全局信息, 并在集群內進行溝通和協調, 并非自上而下取代集群內個體作出決策, 具體的決策過程還是由集群內無人機自主完成. 集中式決策在全局信息輔助下更具宏觀視角, 其最終對個體的作戰(zhàn)任務行為決策效果不一定最優(yōu), 但集群整體作戰(zhàn)行為產生效果最優(yōu), 具有群體智能性. 該結構通過感受全局信息降低環(huán)境噪聲帶來的信息損失, 對通信負載要求較高, 若決策中心單元出現異常, 則群體決策有可能陷入癱瘓, 系統容錯性較差, 對通信實時性要求較高,適用于時效性要求較低的無人機集群任務決策系統.
圖5 集中式決策架構示意圖Fig.5 Schematic diagram of centralized decision-making architecture
2)完全分布式決策
由于通信網絡結構存在通信距離和通信跳躍,完全分布式決策集群內無人機依靠自身觀測信息和局部通信信息, 結合戰(zhàn)場態(tài)勢的推斷進行數據融合自主決策, 將決策結果在集群內部共享, 以期涌現出協同決策結果, 協調一致地完成任務, 如圖6 所示.該結構對通信鏈路中單一節(jié)點的依賴性較低, 將全局優(yōu)化問題分解為多個局部優(yōu)化問題, 每架無人機解決其局部優(yōu)化問題, 通過機間信息交換進行優(yōu)化決策. 該結構由于缺乏全局態(tài)勢信息, 信息融合不完全, 受環(huán)境因素影響也更大, 易產生不一致的決策結果, 因此, 在該模式下如何利用通信信息交互, 達到一致的任務決策效果是集群效能最大化的有效保證.
圖6 完全分布式決策架構示意圖Fig.6 Schematic diagram of fully distributed decision-making architecture
3)混合式決策
當集群規(guī)模過大, 無論是集中式決策和分布式決策架構都存在容錯性差、通信負載成比例增加等問題, 對于大規(guī)模集群而言, 若無交互則魯棒性差,若無中心則全局可控性差. 因此, 結合分層研究的思想構建無人機集群混合式決策架構, 主要包括3 級:上層決策中心節(jié)點、中間層調度規(guī)劃節(jié)點和底層執(zhí)行節(jié)點, 如圖7 所示. 當底層執(zhí)行節(jié)點獲取戰(zhàn)場態(tài)勢時, 逐級上傳給上層決策中心節(jié)點進行態(tài)勢分析、任務戰(zhàn)術、戰(zhàn)略決策, 并對局部調度規(guī)劃節(jié)點下達任務命令;調度規(guī)劃節(jié)點接收任務命令進行任務分配、群航跡生成、任務評估、狀態(tài)管理等, 中間層調度規(guī)劃節(jié)點之間通過通信鏈路實現信息共享、態(tài)勢融合、戰(zhàn)術協同;底層執(zhí)行節(jié)點根據任務要求實時航跡規(guī)劃以執(zhí)行具體任務, 并實時反饋自身狀態(tài)信息及傳感器信息, 執(zhí)行節(jié)點通過數據交互實現一致性協同作戰(zhàn).
圖7 混合式決策架構示意圖Fig.7 Schematic diagram of hybrid decision-making architecture
該混合式架構通過態(tài)勢共享、指令互連將3 層節(jié)點融為一體, 將自上到下的多層指揮可控性與自下到上的個體涌現性相結合, 執(zhí)行節(jié)點和調度規(guī)劃節(jié)點既接受上層命令, 又能與同層無人機信息共享.因此, 該決策結構具有集群全局性和有序性, 又能兼顧個體自主性和涌現性.
決策是在多種選擇方案中作出選擇的認知過程,無人機集群自主決策問題通常被建模為非完整信息下的多目標動態(tài)優(yōu)化問題, 具有高動態(tài)、強實時、不確定等特點, 其研究由基于模板匹配的感性決策和基于自主學習的理性決策組成.
感性決策方法基于知識規(guī)則驅動, 適用于態(tài)勢環(huán)境和任務需求固定, 知識庫全面、任務規(guī)則覆蓋、計算實時性要求較高情況下的快速決策, 包括專家知識模板匹配、“黑箱”模板匹配推理等, 此類方法簡單高效, 但準確度較低, 決策結果局限于現有知識水平和匹配規(guī)則;理性自主任務決策方法基于數據驅動, 適用于任務環(huán)境陌生、態(tài)勢信息復雜變化, 知識庫缺乏有效模板情況下的自主決策, 包括基于微分博弈、數值優(yōu)化方法、群體智能算法和深度強化學習方法等, 此類方法具有較強的學習和自適應能力,可實現決策結果的進化和知識庫的自發(fā)育, 但需要建立合理的優(yōu)化指標, 同時依賴于大量的數據集支持以進行離線學習, 對數據依賴性較高.
任務決策過程中, 通過戰(zhàn)場特征提取和通信交流基于模糊認知圖建立態(tài)勢模型, 通過我方作戰(zhàn)體系、敵方防御體系、目標預估狀態(tài)和已有決策信息, 形成專家(經驗)先驗知識域, 建立先驗決策模型. 最后對不同態(tài)勢建模下集群作戰(zhàn)進行模板匹配推理, 若匹配, 則采用專家知識感性推理方法進行任務決策;否則, 根據當前戰(zhàn)場環(huán)境的變化情況和任務需求, 采用基于數據驅動的微分博弈、數值優(yōu)化方法、群體智能算法和深度強化學習的邏輯推理方法, 實現集群任務決策, 集群任務決策系統結構如圖8 所示. 本節(jié)對集群任務決策過程中涉及的關鍵技術途徑進行敘述.
圖8 集群任務決策系統示意圖Fig 8 Schematic diagram of multi-task decision-making system of UAVs
決策過程中的決策環(huán)境根據處理分析備選方案的類型進行區(qū)分:在確定性環(huán)境中, 備選方案的評估是明確的;在高風險不確定環(huán)境中, 對備選方案只能以近似的方式進行評估. 無人機集群決策是高動態(tài)、高風險、不確定性環(huán)境, 因此, 模糊灰色認知圖(fuzzy grey cognitive map, FGCM)因其魯棒性、自適應性、計算效率高, 可為綜合形式化模型的驗證提供了一個良好的框架[19-20]等優(yōu)勢, 被認為是解決面向任務的集群決策問題建模的有效途徑. 相比于貝葉斯網絡、影響圖等工具, 模糊灰色認知圖將模糊邏輯與人工智能相結合, 具有根據動態(tài)輸入反饋特性, 更加適合集群任務自主決策. FGCM 由以下四元組構成:
由于FGCM 建模方法簡單、具有良好的適應性和應用性,衍生出眾多拓展模型,其中,智能體模糊灰色認知圖(agent-based fuzzy grey cognitive map, ABFGCM)模型的每個節(jié)點可對應異構無人機, 基于平臺能力建立不同的決策推理模型和求解算法, 節(jié)點間通過信息傳遞機制相互作用, 適用于無人機集群決策系統的建模[14]. 基于ABFGCM 建模的無人機集群任務決策過程中, 節(jié)點的數據量綱互不相同, 統一模糊化轉換為無量綱的模糊數, 模糊決策后需進行模糊判決再將模糊數轉換為準確值, 最后根據標度因子獲得決策精確輸出.
基于ABFGCM 模型建立無人機集群自主任務決策模型過程中, 將無人機按照不同任務能力進行劃分, 分別為戰(zhàn)場信息感知無人機、威脅感知與預測無人機、目標感知與預測無人機、敵方行為預測無人機、多任務執(zhí)行安全性估計無人機、多任務執(zhí)行效能估計無人機, 建立模糊輸入態(tài)勢模型和任務決策模型框架如圖9 所示.
圖9 基于ABFGCM 的集群任務決策建模Fig.9 ABFGCM-based decision-making modelling for multi-task of UAVs
模糊任務決策基于感性決策架構和理性決策架構, 可分為專家知識匹配和自我學習決策兩種方式.采用智能算法為代表的自主學習決策可提高模型的參數學習能力, 降低對現有知識庫的依賴[14,21-22], 同時又能實現專家知識庫的發(fā)育, 具有良好的研究意義.感性決策和理性決策架構目的皆是確定任務決策閾值, 輸出任務決策信息模糊值, 并將其標準化輸出為精確輸出.
智能化作戰(zhàn)會使知識力量更加突出, 知識較量體現在作戰(zhàn)決策上, 基于態(tài)勢-決策模板匹配構建決策知識提取規(guī)則, 其決策流程如下:當集群進入決策狀態(tài)時, 由推理機將感知態(tài)勢信息與知識庫中的各個規(guī)則條件進行匹配, 直到找到與態(tài)勢信息相符的規(guī)則并提取, 規(guī)則提取策略包括啟發(fā)式搜索[23]和主動學習方法等[24], 決策知識庫基于集群任務需求和集群狀態(tài)等要素建立任務最優(yōu)決策策略. 在多任務條件下, 將先驗知識庫中的態(tài)勢-決策模板數據表示如下:
圖10 基于專家知識的無人機集群任務自主決策結構圖Fig 10 Structure diagram of autonomous decision-making for multi-task of UAVs based on expert knowledge system
博弈論(game theory)是研究多個自主個體在利益相關情形下決策行為的理論[25]. 在博弈論中每個個體的博弈策略都是通過自身策略以及其他個體策略影響的效能函數定義,調整自身策略進行優(yōu)化求解[26-27].無人機集群任務決策的微分博弈方法是先把任務對策轉化為雙邊極值問題, 然后進行求解, 涉及的相關元素由式中五元組表示:
其中, t 為集群任務博弈決策的時間變量;Xt為博弈決策中個體狀態(tài)量集合, 在不同任務中狀態(tài)量不同,如在集群突防任務中狀態(tài)量為敵方威脅探測半徑和我方無人機與敵方威脅之間的距離, 在集群打擊中表示我方無人機和敵方目標位置、相對速度等;為決策個體集合,對應集群內無人機;, si對應無人機vi的任務策略;Ct為任務決策過程的約束集合, 主要包括集群能力、飛行動力學方程以及任務環(huán)境信息;Ut為集群任務決策微分博弈中每個決策個體效能函數的集合.
集群任務決策微分博弈過程中, 關鍵在于為任務策略的設計常用的微分博弈控制策略, 包括基于梯度的博弈控制策略和基于Hamiltonian 函數的最優(yōu)化博弈策略[28-29]. 以上兩種博弈控制策略設計本質都是設計可靠的效能函數, 因此, 將其應用到集群任務決策求解過程中時, 需重點研究能夠反映實際情況的決策效能函數. 雖然微分對策法是一種具有現實意義的方法, 但是該方法存在效能函數設定困難、計算量龐大和方法復雜等缺點, 設計出符合任務決策策略的效能函數難度較大, 其次是最優(yōu)策略求解的困難性, 當面對高維度的無人機集群決策問題時納什均衡解析解求解困難, 難以應用于實際.
無人機集群自主決策態(tài)勢信息具有模糊性和動態(tài)性, 因此, 可將該問題建模為不確定環(huán)境下的在線多目標優(yōu)化問題, 基于數值優(yōu)化思想設計合理的決策效能函數, 對于鞏固集群作戰(zhàn)優(yōu)勢, 發(fā)揮集群協同效能具有重要意義. 基于數值優(yōu)化方法建立無人機集群自主決策架構如圖11 所示, 首先根據我方集群、目標和環(huán)境態(tài)勢設計合理隸屬函數實現態(tài)勢信息融合, 采用貝葉斯推理、統計學優(yōu)化和遺傳算法[30-32]等優(yōu)化方法評估態(tài)勢對集群任務決策的影響, 自適應調整效能函數權重, 優(yōu)化任務決策結果.
圖11 基于數值優(yōu)化方法的無人機集群決策Fig.11 Numerical optimization methods-based decision-making for UAVs
針對無人機集群任務決策高動態(tài)和不確定性的特點, 為了提高決策系統的魯棒性, 一方面利用隸屬函數對模糊態(tài)勢信息進行態(tài)勢信息融合, 并采用可達集理論對威脅態(tài)勢、目標意圖等進行預測[33], 在一定程度上克服信息不準確的問題;另一方面借助數值優(yōu)化方法在決策過程中盡可能地根據態(tài)勢融合結果自適應地調整決策效能函數權重, 提高決策結果的魯棒性. 雖然該集群決策方法在任務決策中應用較為廣泛, 但由于集群任務決策問題狀態(tài)空間的復雜性, 數值優(yōu)化算法要求很高的計算資源來求解此類高維度、大規(guī)模優(yōu)化問題, 難以保障實時性, 因此,數值優(yōu)化算法主要解決集群起飛前靜態(tài)、離線環(huán)境的集群任務決策問題.
自然界生物群體演化過程中存在著多種多樣的集群行為, 例如狼群捕獵、蟻群覓食和鳥群飛行等.從對生物群體行為的研究過程中也衍生出了多種啟發(fā)式智能算法, 如狼群算法(wolf algorithm)、蟻群算法(colony algorithm)和粒子群算法(particle swarm optimization, PSO)[8,34-35]等應用于無人機集群智能決策、規(guī)劃和控制領域. 基于群體智能算法集群決策的研究關鍵在于如何建立生物個體、群體位置及行為與態(tài)勢變化下的任務決策規(guī)則解之間的映射關系, 即將個體和群體合作覓食、移動、狩獵等生物行為映射為集群偵察、突防和突擊等任務行為, 將生物群體移動的位置、速度能力約束對應于無人機集群的任務、運動學能力約束等, 以此來建模優(yōu)化求解.
考慮到集群任務決策問題建模求解的高維度和復雜性, 建立基于群體智能算法的雙層優(yōu)化求解架構如圖12 所示, 外層用于集群系統性能估計, 內層用于集群任務管理和調度. 外層決策模型設計采用受生物啟發(fā)的聚類算法, 基于狼群算法或蟻群算法尋找集群網絡結構中心點, 從集群構造時間、能耗、集群生命周期和集群任務成功率等多方面評估系統的性能[36].在外層的牽引下,內層任務決策在系統性能的約束下建立系統目標函數并不斷進行優(yōu)化. 由于無人機集群的高動態(tài)性, 外層和內層模型需持續(xù)更新以適應集群任務的自主決策需求.
圖12 基于生物群體智能的無人機集群決策Fig.12 Biological population intelligence-based decision-making for UAVs
通過對自然界中生物行為機理的研究, 將不同群體行為與無人機集群任務行為作相似性對應, 例如仿照生物群體偽裝機理設計的集群潛伏任務策略、仿照狼群狩獵行為設計的集群打擊任務執(zhí)行策略等,從而提高計算得到任務策略的智能性. 但由于集群決策問題中優(yōu)化目標組成較多, 集群求解規(guī)模大, 此類方法容易陷入求解局部最優(yōu)解中, 計算量較大, 因此, 針對特定的決策任務類型需選用不同的算法及作出相應的優(yōu)化.
人工智能類的集群決策方法主要為基于神經網絡的自演進機器學習方法. 神經網絡模仿生物神經網絡進行設計, 其基本信息處理單元為神經元, 神經元主要有連接權值、累加器和激活函數3 種基本元素構成, 大量神經元的相互連接組成神經網絡, 增加神經網絡隱層的數量以達到更好的學習效果, 稱為深度學習神經網絡[37]. 將深度神經網絡應用于無人機集群任務決策問題, 需要依據任務執(zhí)行過程的特點,設計神經網絡模型, 采用深度強化學習實現自演進機器學習訓練.
深度強化學習方法是一種不斷與環(huán)境信息交互、根據外界反饋的獎懲信號來學習和修正動作策略的方法, 一般用馬爾科夫決策過程(Markov decision process, MDP)形式化表示, 與一般的MDP 不同, 面向任務的集群自主決策MDP 包含戰(zhàn)場態(tài)勢感知函數獲取真實的環(huán)境狀態(tài)信息[38]. 基本原理為:
1)動態(tài)過程中的每個時刻, 無人機集群感知模塊與決策模塊利用人工神經網絡(artificial neural network, ANN)構成的態(tài)勢認知網絡得到高維度的態(tài)勢觀察及抽象、具體的狀態(tài)特征表示.
2)各無人機將狀態(tài)特征通過通信層(兼虛擬全局無人機)進行充分地溝通和協調.
3)將溝通和協調后的信息反饋到集群在線決策模塊, 在線決策基于任務效能設計預期決策獎勵機制, 據此來評價不同任務決策方案的價值函數, 并建立當前狀態(tài)信息到決策方案的映射.
4)決策模型及時作出動態(tài)響應, 并對作戰(zhàn)執(zhí)行效果進行評估, 并改進無人機集群的作戰(zhàn)決策策略選擇, 得到下一狀態(tài)節(jié)點的觀察值, 實現無人機集群任務決策最優(yōu)策略.
根據不同任務類型及約束特征建立深度強化學習的無人機集群任務決策模型, 基于現有的決策知識水平, 設計不同的隨機變量和動態(tài)觸發(fā)條件, 在地面仿真端機進行大量的Monte Carlo 任務決策仿真實驗, 獲得樣本數據并將其輸入深度學習網絡中, 經過網絡迭代形成無人機集群任務策略集合, 利用深度學習的數據儲存能力記錄輸入態(tài)勢和輸出決策模板數據D, 從而實現知識庫自發(fā)育. 深度強化學習通過大量的試錯模式, 以最大化預期獎賞為目標進化, 獲取集群決策最優(yōu)策略, 其算法框架如圖13 所示. 根據深度神經網絡和強化學習的自組織學習特性, 不斷擴充決策知識庫, 實現理性和感性推理的結合, 從而進行高效、智能的頂層任務決策, 獲取最優(yōu)任務執(zhí)行方案.
圖13 基于深度強化學習無人機集群任務決策算法框架Fig.13 Deep reinforcement learning based algorithmic framework for multi-task decision making of UAVs
無人機由于其任務能力多樣性占據戰(zhàn)場優(yōu)勢,這會導致任務決策過程中優(yōu)化目標函數更加復雜,基于深度強化學習的集群決策方法引進了神經網絡,能夠保證對復雜任務決策優(yōu)化目標函數的有效求解,應用場景更為廣泛, 通過與任務環(huán)境持續(xù)交互, 能夠利用復雜的優(yōu)化目標函數對多任務類型和決策推理需求進行更精細化的描述, 自我學習生成全新的任務執(zhí)行模式.
集群決策往往意味著有多個決策節(jié)點共同參與決策問題, 每個節(jié)點皆有自己的想法、知識、態(tài)度和動機, 相應地每個節(jié)點會存在各自的偏好方案. 在集群決策過程中, 引入共識達成過程(consensus reaching processes, CRPs)使集群內偏好方案更加接近, 形成群體滿意的決策方案, 其主要階段為:1)共識測量, 即確定偏好方案的差異程度;2)共識控制, 確定是否達到預期共識標準水平;3)共識達成, 應用反饋機制, 使偏離程度較遠的成員偏好方案更接近平均偏好, 提高一致性水平. 在集群資源有限的情況下,通過整合利用節(jié)點關系信息, 建模分析節(jié)點之間的關系和意見, 設計基于最小調整成本的自動反饋共識達成機制, 以發(fā)現和消除集群沖突, 支持高效的一致性決定. 無人機集群任務決策中的不同偏好結構和表現形式、重要性水平參差的異構群體、緊急決策場景中的一致性保持仍是該領域的一些挑戰(zhàn)和未來研究方向.
基于自然語言處理(natural language processing,NLP)的交流形式是人類在決策過程交流的標準表示形式, 其值是從自然語言中提取的命題單詞, 確定術語集的語言描述符及其定義, 通過語義術語代替實數對集群任務進行評估, 從而使未來決策的發(fā)展回到人類的常識. 由于集群任務決策的復雜過程, 使用單一術語并不能完整決策, 造成術語與決策結果不匹配. 因此, 決策過程將允許多個語義術語, 這就導致了復雜語言表達的使用, 這些術語以人工語言或自然語言為特征, 包括語言模糊限制語、連接詞和語言術語. 因此, 有必要處理更豐富、限制更少的自然語言表達, 從而不僅能詳細準確地對決策的備選方案和標準進行評估, 還能準確描述這些方案和標準之間的相互關系.
未來集群任務決策形態(tài)將按照“人為主導的規(guī)則決策”到“人在回路的有限思維決策”到“機器為主導的認知智能決策”進行演化. 早期專家知識庫多依賴人類經驗建立, 決策結果固化, 是知識驅動的規(guī)則型決策. 現今集群任務決策向著數據驅動的自主化、智能化、認知型的趨勢發(fā)展, 基于深度學習神經網絡對海量樣本數據的訓練結果, 涌現出超越現有作戰(zhàn)經驗和戰(zhàn)術意圖的全新策略, 實現決策知識庫體系的自發(fā)育, 為決策提供充分的支持. 認知型智能決策具有較強的適應能力和學習能力, 在未來, 隨著人工智能技術和以6G 為代表的通信技術的進一步發(fā)展, 以腦機協同思維模式為主的認知型智能將成為集群任務自主決策的核心, 建立空中任務動態(tài)基站, 以收集復雜戰(zhàn)場環(huán)境信息, 從環(huán)境中學習, 快速適應動態(tài)環(huán)境, 實現集群的靈活部署, 充分發(fā)揮集群應用優(yōu)勢,驅動集群智能作戰(zhàn)技術邁入高級階段.
本文針對未來無人機集群協同作戰(zhàn)典型任務場景, 建立集群自主決策CDPC 架構, 基于通信拓撲分別給出了集中式、完全分布式和混合式決策架構. 根據自主決策任務的不同, 對7 種集群任務決策類型進行了詳細描述, 并完成集群自主決策任務流程的設計. 分別對基于專家知識、模糊認知圖、微分決策、數值優(yōu)化方法、群體智能算法和深度強化學習求解決策問題進行了分析和研究, 建立集群任務自主決策求解框架. 最后提出了集群未來的發(fā)展趨勢及面對的技術挑戰(zhàn), 為后續(xù)研究基于本文的無人機集群自主決策框架, 以算法優(yōu)勢主導決策優(yōu)勢為目標建立具體方案解決集群決策問題提供了新的發(fā)展思路.