鄭少秋,梁汝鵬,吳 浩,袁 翔,張政偉*
(1.中國電子科技集團公司第二十八研究所,南京 210007;2.中國電子科技集團公司信息系統(tǒng)需求重點實驗室,南京 210007)
當前,隨著人工智能、云計算、先進通信等技術(shù)發(fā)展,作戰(zhàn)兵力正朝無人化、智能化、模塊化方向發(fā)展。無人自主裝備快速切入戰(zhàn)場前沿,極大地拓展了對抗的時空約束,模塊化兵力支持面向任務(wù)的動態(tài)靈活組織,在為對手制造認知和決策困境的同時,極大提升了作戰(zhàn)體系效能。作戰(zhàn)兵力發(fā)展逐步引發(fā)戰(zhàn)爭形態(tài)、制勝機理的變革。戰(zhàn)爭形態(tài)日益復(fù)雜多變,分布式、多域聯(lián)合、智能化的體系作戰(zhàn)成為未來戰(zhàn)爭制勝關(guān)鍵。在此背景下,美軍相繼提出了“算法戰(zhàn)”[1]、“馬賽克戰(zhàn)”[2-3]、“聯(lián)合全域作戰(zhàn)”[4]等新型作戰(zhàn)概念。
隨著無人化、智能化、模塊化作戰(zhàn)單元的廣泛運用,作戰(zhàn)兵力的可組合性和作戰(zhàn)效能得到顯著加強,但對作戰(zhàn)決策的快速協(xié)同、精準聚優(yōu)提出了更高要求。傳統(tǒng)的以指揮員為中心的“指揮員決策、機器輔助計算”的作戰(zhàn)決策范式,難以滿足未來作戰(zhàn)時效性、精準性要求,迫切需要研制與未來戰(zhàn)爭相匹配的智能作戰(zhàn)決策能力。
圍繞智能化作戰(zhàn)決策,許多研究者做了諸多工作[5-8],包括情報信息處理、作戰(zhàn)態(tài)勢研判、作戰(zhàn)任務(wù)規(guī)劃等方面。具體地,在情報信息處理方面,邢世宏等[9]提出將遷移學(xué)習(xí)應(yīng)用于艦船目標識別;李婷婷等[10]提出智能訂單方法進行態(tài)勢產(chǎn)品服務(wù);廖鷹等[11]分析了戰(zhàn)場態(tài)勢分層表示與理解機理,并據(jù)此提出了面向態(tài)勢理解的復(fù)合架構(gòu)深度學(xué)習(xí)模型。在作戰(zhàn)態(tài)勢研判方面,胡曉峰等[12]將注意力機制應(yīng)用于態(tài)勢認知,提出戰(zhàn)場態(tài)勢感知注意力機制框架;康凱等[13]基于貝葉斯網(wǎng)絡(luò)推理模型進行態(tài)勢相關(guān)估計,實現(xiàn)對陸戰(zhàn)場的實時變化態(tài)勢動態(tài)分析、理解與判斷。在作戰(zhàn)任務(wù)規(guī)劃方面,邢思遠等[14]將Apriori 數(shù)據(jù)挖掘方法應(yīng)用于武器使用規(guī)律挖掘研究,支撐根據(jù)不同地形、協(xié)同規(guī)律進行兵力推薦;季軍亮等[15]將啟發(fā)式算法應(yīng)用于兵力編組。總體而言,主要將人工智能技術(shù)應(yīng)用到作戰(zhàn)決策單一環(huán)節(jié)業(yè)務(wù),提升其自動化、智能化水平。
近年來,隨著AlphaGo[16]、AlphaStar[17]模型在圍棋、星際爭霸游戲?qū)诡I(lǐng)域的成功應(yīng)用,為聯(lián)合作戰(zhàn)決策提供新的技術(shù)思路,研究者逐步將深度強化學(xué)習(xí)技術(shù)應(yīng)用到作戰(zhàn)決策中。曹雷[18]對基于強化學(xué)習(xí)的博弈對抗方法進行了綜述,并對軍事決策應(yīng)用進行分析。閆實等[19]將強化學(xué)習(xí)應(yīng)用于多機載雷達傳感器調(diào)度管理。曹雷等[20]提出將深度強化學(xué)習(xí)應(yīng)用于作戰(zhàn)計劃優(yōu)選。Toubman 等[21-22]基于空戰(zhàn)行為規(guī)則,使用強化學(xué)習(xí)最優(yōu)組合生成戰(zhàn)斗機行為。Rijken 等[23]將深度學(xué)習(xí)應(yīng)用到空戰(zhàn)行為訓(xùn)練中,構(gòu)建的智能體在空戰(zhàn)對抗中成功擊敗人類選手。
然而,實際的作戰(zhàn)要遠比圍棋、星際爭霸等游戲?qū)箞鼍皬?fù)雜,決策難度更高,錯判的代價也更高。主要體現(xiàn)在以下方面,1)聯(lián)合作戰(zhàn)場景具有高動態(tài)、強對抗性,作戰(zhàn)目標會動態(tài)調(diào)整,難以簡單地將“高勝率”作為決策衡量的唯一指標,因此,需要人機高效、持續(xù)地進行交互式學(xué)習(xí),機器必須能夠理解指揮員動態(tài)變化的作戰(zhàn)決心。2)聯(lián)合作戰(zhàn)兵力的種類、行為空間、協(xié)同策略規(guī)模等均遠遠高于游戲,導(dǎo)致決策模型的計算復(fù)雜度更高,迫切需要高效的模型學(xué)習(xí)方法提升模型學(xué)習(xí)收斂速度和魯棒性。因此,需要研究面向作戰(zhàn)的高效智能模型學(xué)習(xí)方法。
基于此,聚焦未來戰(zhàn)場聯(lián)合作戰(zhàn)兵力智能組織難題,本文提出了人機共生的作戰(zhàn)決策系統(tǒng)發(fā)展愿景,包括運行概念、系統(tǒng)架構(gòu),并深入分析實現(xiàn)人機共生面臨的挑戰(zhàn),提出技術(shù)解決思路。在此基礎(chǔ)上,從人機交互與理解、戰(zhàn)場態(tài)勢認知、智能作戰(zhàn)決策、模型可信賴可解釋增強等方面,提出關(guān)鍵技術(shù)體系,支撐指揮員高階戰(zhàn)場認知能力與機器強大搜索能力融合,最終形成準確、可信、全局(最)較優(yōu)的兵力規(guī)劃方案,為新一代指揮控制系統(tǒng)創(chuàng)新發(fā)展提供借鑒。
針對作戰(zhàn)決策,人機共生作戰(zhàn)決策系統(tǒng)發(fā)展愿景是通過人機的合理分工、充分協(xié)作,使得指揮員聚焦頂層的、模糊的、邊界不確定的問題,并依托智慧和經(jīng)驗將其轉(zhuǎn)換為具體的、清晰的、邊界確定的優(yōu)化問題,而后利用機器智能的強大搜索能力進行求解,指揮員根據(jù)機器快速求解結(jié)果,進行研判評估、迭代優(yōu)化,其核心是通過人機協(xié)作,為指揮員提供更多的試錯空間,進而大大提高作戰(zhàn)方案發(fā)現(xiàn)概率。
假定某時刻,紅藍雙方在某地域正面開展作戰(zhàn)對抗,紅方指揮員依托人機共生作戰(zhàn)決策系統(tǒng),通過人機協(xié)同制定作戰(zhàn)計劃,人機共生作戰(zhàn)決策系統(tǒng)運行概念如下頁圖1 所示,具體過程如下:
圖1 人機共生的智能決策過程
Step 1:系統(tǒng)引接戰(zhàn)場實時態(tài)勢,進行多源態(tài)勢信息處理融合,并在軍事知識圖譜的支撐下,完善補充態(tài)勢信息要素,呈現(xiàn)于指揮員;
Step 2:指揮員基于語音、圖像、文本、視頻、虛擬現(xiàn)實等多模態(tài)的交互手段,進行態(tài)勢感知、理解和干預(yù);
Step 3:指揮員理解上級作戰(zhàn)意圖,研判敵方作戰(zhàn)目標體系,開展作戰(zhàn)任務(wù)分析和作戰(zhàn)目標選擇,形成敵方目標打擊清單及毀傷效果要求,作為智能決策模型學(xué)習(xí)的目標狀態(tài);
Step 4:指揮員基于聯(lián)合作戰(zhàn)博弈對抗訓(xùn)練平臺,開展兵力模型構(gòu)建,設(shè)計作戰(zhàn)想定,并進行大樣本仿真對抗,形成大量仿真對抗樣本,在此基礎(chǔ)上,利用深度強化學(xué)習(xí)等技術(shù),開展紅方智能決策模型訓(xùn)練和生成,并將其引入到作戰(zhàn)想定中進行自博弈,如此反復(fù),直至在構(gòu)設(shè)的作戰(zhàn)想定中達到期望的作戰(zhàn)效果,即智能決策模型學(xué)習(xí)的目標狀態(tài),輸出作戰(zhàn)決策模型;
Step 5:指揮員將戰(zhàn)場實時態(tài)勢接入作戰(zhàn)決策模型中,依托聯(lián)合作戰(zhàn)博弈對抗訓(xùn)練平臺,推演戰(zhàn)場態(tài)勢發(fā)展,生成作戰(zhàn)決策計劃建議;
Step 6:指揮員根據(jù)作戰(zhàn)計劃建議,開展計劃干預(yù)或確認,如果不滿足作戰(zhàn)任務(wù)要求,則重新開展態(tài)勢處理分析、作戰(zhàn)任務(wù)分析、目標選擇清單及毀傷效果調(diào)整等;如果滿足作戰(zhàn)任務(wù)要求,則進行確認或微調(diào),形成最終的作戰(zhàn)計劃;
Step 7:指揮員將向作戰(zhàn)兵力下達最終的作戰(zhàn)計劃,并密切監(jiān)視戰(zhàn)場態(tài)勢變化。
人機共生智能決策核心能力主要體現(xiàn)在以下兩個方面:
1)人機交互式協(xié)同決策,大幅度縮短指揮決策周期
在人機共生決策過程中,Step1~Step3 以人為主,Step4~Step5 以機器為主,而后在Step6 中進行人工判斷,如果不滿足作戰(zhàn)任務(wù)要求,則重新從Step1 開始,否則進入Step7。一方面,通過采用高效、可靠的多模態(tài)人機交互手段,人機指揮載荷得到合理分配,分別發(fā)揮指揮員理解復(fù)雜戰(zhàn)場態(tài)勢、宏觀趨勢的優(yōu)勢,和機器智能在大規(guī)模、模式化快速方面的計算優(yōu)勢,同時規(guī)避人工指揮決策作業(yè)效率低、輔助決策系統(tǒng)缺乏指揮藝術(shù)性等問題,實現(xiàn)揚長避短。另一方面,通過人機交互式、迭代式協(xié)同決策,在決策過程中,指揮員持續(xù)對機器智能決策質(zhì)量進行評估,快速形成決策質(zhì)量優(yōu)化的閉環(huán),快速輸出高效可行的作戰(zhàn)計劃,指揮員人在回路的干預(yù)能夠確保最終輸出作戰(zhàn)計劃的有效性,以及性能的持續(xù)提升。
2)機器遍歷搜索決策空間,創(chuàng)新戰(zhàn)法發(fā)現(xiàn)與全局優(yōu)化
在人機共生決策過程中,在Step4 中,基于聯(lián)合作戰(zhàn)博弈對抗訓(xùn)練平臺,能夠超越人類腦力思考和戰(zhàn)爭實踐的邊界,根據(jù)自博弈或?qū)嶋H作戰(zhàn)數(shù)據(jù)訓(xùn)練,訓(xùn)練形成智能體內(nèi)生智慧,并持續(xù)演進。而后,面向作戰(zhàn)任務(wù),借助機器的強大搜索計算能力,通過遍歷搜索,拓展戰(zhàn)場決策容量空間,創(chuàng)新發(fā)現(xiàn)全新戰(zhàn)法,實現(xiàn)面向任務(wù)的全局(局部)的最優(yōu)方案搜索。在智能模型訓(xùn)練過程中,可以利用群體智能對抗技術(shù)、種群聯(lián)賽機制等,實現(xiàn)持續(xù)對抗演進,可有效提升機器生成的決策建議的多樣性、泛化性,以及對復(fù)雜多變戰(zhàn)場環(huán)境的動態(tài)適應(yīng)性。
人機共生作戰(zhàn)決策系統(tǒng)架構(gòu)如圖2 所示,主要包括人機交互層、指揮業(yè)務(wù)層、智能支撐層和硬件資源層。
圖2 人機共生作戰(zhàn)決策系統(tǒng)架構(gòu)
人機交互層主要提供語音、文本、視頻等多模態(tài)人機交互手段,支撐指揮員和機器高效交互與敏捷響應(yīng),并通過交互式迭代學(xué)習(xí),持續(xù)提升人機互理解水平。
指揮業(yè)務(wù)層在人機交互基礎(chǔ)上,智能理解指揮員動態(tài)變化的作戰(zhàn)決心,結(jié)合多源戰(zhàn)場實時態(tài)勢信息,研判確定對敵打擊目標清單及毀傷效果要求,基于智能支撐層提供的決策模型生成作戰(zhàn)決策和行動控制指令建議。
智能支撐層主要由軍事知識圖譜、聯(lián)合作戰(zhàn)博弈對抗訓(xùn)練平臺組成。其中,軍事知識圖譜實現(xiàn)作戰(zhàn)條例、作戰(zhàn)規(guī)則、作戰(zhàn)兵力能力的形式化建模,聯(lián)合作戰(zhàn)博弈對抗訓(xùn)練平臺在仿真空間為指揮業(yè)務(wù)提供數(shù)據(jù)管理、模型訓(xùn)練和能力持續(xù)成長服務(wù)。
硬件資源層,主要為系統(tǒng)運行、智能模型訓(xùn)練與推理、軍事知識服務(wù)等提供計算、存儲、網(wǎng)絡(luò)、安全等資源支撐。
當前,缺乏高效精準的作戰(zhàn)意圖解析方法,一是由于各軍兵種文化差異,缺乏標準化的聯(lián)合作戰(zhàn)指令描述手段,機器無法理解形式不一的作戰(zhàn)指令。二是戰(zhàn)場情況多變,對作戰(zhàn)意圖的理解需要充分結(jié)合上下文信息補充,復(fù)雜度高。
針對此問題,一是提供作戰(zhàn)意圖規(guī)范化描述,通過構(gòu)建聯(lián)合任務(wù)清單,針對各類任務(wù),確定任務(wù)的要素組成、描述規(guī)范,提出形式化描述方法和標準化的描述語言,通過作戰(zhàn)簡令的方式,降低人機交互的復(fù)雜度。二是,通過構(gòu)建軍事知識圖譜,實現(xiàn)作戰(zhàn)知識的顯式描述,形成先驗軍事知識庫,為指揮員作戰(zhàn)意圖理解提供上下文知識,提升對作戰(zhàn)意圖的動態(tài)理解能力。
智能決策模型訓(xùn)練本質(zhì)是一個優(yōu)化問題求解的過程,需要保持全局探索能力和局部挖掘能力的平衡。一方面,需要盡量保持解的求解過程的穩(wěn)定性,提升解的泛化性與實際效能;另一方面,需要盡量降低解的計算復(fù)雜度,提升解的收斂速度。由于作戰(zhàn)兵力逐步向模塊化、分布式方向發(fā)展,作戰(zhàn)體系構(gòu)建時兵力的可組合性指數(shù)增長,使得基于聯(lián)合作戰(zhàn)博弈對抗訓(xùn)練平臺進行作戰(zhàn)兵力決策空間搜索復(fù)雜度極高,對當前算法、算力帶來極大挑戰(zhàn)。
針對此問題,一是通過多粒度兵力建模、分層建模方法,在聯(lián)合作戰(zhàn)博弈對抗訓(xùn)練平臺中構(gòu)建聚合級兵力模型,降低決策問題本身的搜索空間。二是采用更加高效的模型訓(xùn)練算法,如遷移學(xué)習(xí)、課程學(xué)習(xí)等技術(shù),將模型訓(xùn)練問題分解為由易到難多階段任務(wù),逐步學(xué)習(xí),提高決策空間搜索的收斂速度。
從軍事倫理角度,軍事問題決策要求高可信、高可靠和可解釋,確?;谌斯ぶ悄艿臋C器決策結(jié)果的可信賴和可理解是需突破的難點問題。
針對可信問題,可構(gòu)建分層決策模型,實現(xiàn)各層解耦,涵蓋作戰(zhàn)任務(wù)、交戰(zhàn)規(guī)則、裝備能力,通過分層隔離誤差,構(gòu)建多層次模型體系,涵蓋基礎(chǔ)規(guī)則、交戰(zhàn)規(guī)則、戰(zhàn)斗力計算、智能決策模型等多個層級,實現(xiàn)逐步可信。
針對可解釋性問題,尤其是基于大數(shù)據(jù)的機器學(xué)習(xí)、深度學(xué)習(xí)方法黑箱問題,可采用“軍事知識+作戰(zhàn)數(shù)據(jù)”雙重驅(qū)動機制,將知識嵌入到數(shù)據(jù)驅(qū)動的模型中,提升深度學(xué)習(xí)等新方法的可解釋性。
針對可靠性問題,利用主動學(xué)習(xí)等人機交互式學(xué)習(xí)方法,通過人在環(huán)路干預(yù),為模型訓(xùn)練增強引導(dǎo)信息,實現(xiàn)人機共生的作戰(zhàn)決策新范式。
圍繞人機共生智能決策關(guān)鍵問題以及解決思路,從人機交互與理解、智能作戰(zhàn)決策、模型可信賴可解釋增強等方面,提出關(guān)鍵技術(shù)體系,如表1 所示。并圍繞作戰(zhàn)決心/指令機器理解、作戰(zhàn)兵力狀態(tài)表示、基于課程學(xué)習(xí)的作戰(zhàn)決策模型訓(xùn)練加速、基于聯(lián)賽機制的作戰(zhàn)決策模型多樣性保持策略等技術(shù)進行詳細分析。
表1 技術(shù)體系
指揮員作戰(zhàn)決心是動態(tài)變化的,系統(tǒng)需要能夠?qū)⑵鋭討B(tài)、準確、完整地轉(zhuǎn)換成機器智能學(xué)習(xí)訓(xùn)練的優(yōu)化目標和約束條件。
鑒于此,基于各類作戰(zhàn)方案,構(gòu)建聯(lián)合作戰(zhàn)任務(wù)清單,定位作戰(zhàn)任務(wù)框架、關(guān)聯(lián)關(guān)系,并利用自然語言處理技術(shù)對指揮員決心進行識別分類和關(guān)鍵要素(槽位信息)提取,確定作戰(zhàn)任務(wù)類型、關(guān)聯(lián)子任務(wù),以及任務(wù)關(guān)鍵要素,即為打擊目標清單及毀傷效果要求,明確各子任務(wù)主要內(nèi)容與序列關(guān)系;利用模糊綜合評判方法、知識圖譜技術(shù),對識別確定的任務(wù)及其關(guān)鍵要素進行量化完善,確定優(yōu)化目標和約束條件,如作戰(zhàn)初始態(tài)勢、終極態(tài)勢、邊界條件、兵力規(guī)模等,形成機器可以理解的語言表示,支撐機器智能模型訓(xùn)練,具體技術(shù)路線如圖3 所示。
圖3 作戰(zhàn)決心/指令機器理解
由于作戰(zhàn)對抗的動態(tài)性,作戰(zhàn)兵力之間會存在復(fù)雜的合作關(guān)系,一般采用分層強化學(xué)習(xí)進行模型學(xué)習(xí),進而降低模型訓(xùn)練的計算復(fù)雜度[24]。其中,在分層強化學(xué)習(xí)模型中,針對低層次作戰(zhàn)兵力狀態(tài)表示,如何最大化利用鄰域信息是一個值得研究難題,對作戰(zhàn)兵力策略實際運行效能具有重要影響。
基于此,考慮利用圖模型、注意力技術(shù),對各作戰(zhàn)兵力間交互關(guān)系進行建模,基于神經(jīng)網(wǎng)絡(luò)的注意力機制進行特征自動聚合和選擇,能夠自動選擇并聚合有助于決策的關(guān)鍵信息,將所選特征匯集,得到智能體的狀態(tài)表示,在傳統(tǒng)兵力狀態(tài)表示基礎(chǔ)上,強化對兵力間交互信息的表達水平,可以更深度地挖掘作戰(zhàn)兵力使用的實際環(huán)境信息,從而學(xué)習(xí)出更加高效的決策策略,具體作戰(zhàn)兵力狀態(tài)表示學(xué)習(xí)[25]如圖4 所示。
圖4 作戰(zhàn)兵力狀態(tài)表示學(xué)習(xí)
聯(lián)合作戰(zhàn)任務(wù)具有多樣化、高動態(tài)復(fù)雜場景特點,對智能決策模型泛化性提出很高要求。
基于此,研究多樣化對手池(各種風(fēng)格)及價值回報的設(shè)計和構(gòu)建方法,并基于種群進化思想不斷迭代優(yōu)化決策模型[3],直到模型效果穩(wěn)定,以提升模型對不同作戰(zhàn)場景、不同作戰(zhàn)對手的適應(yīng)性。
1)基于聯(lián)合作戰(zhàn)場景的價值回報函數(shù)設(shè)計
結(jié)合聯(lián)合作戰(zhàn)場景,借鑒人類指揮員經(jīng)驗,研究價值回報函數(shù)設(shè)計方法,使生成的決策方案能夠逼近作戰(zhàn)實際,并保持種群的多樣性。
2)異構(gòu)種群持續(xù)對抗方法
研究異構(gòu)種群持續(xù)對抗方法、種群更新迭代方法,保證智能模型的多樣性同時,能夠有效提高決策模型的泛化能力,進而提升作戰(zhàn)決策對不同作戰(zhàn)場景、不同作戰(zhàn)對手的適應(yīng)性。
分布式模塊化作戰(zhàn)兵力廣泛運用極大提升了決策空間搜索復(fù)雜度,使得模型訓(xùn)練難度大、收斂速度慢。
因此,可考慮使用課程學(xué)習(xí)、遷移學(xué)習(xí)技術(shù),按照執(zhí)行任務(wù)、對手等級、運行環(huán)境等由簡(低)到繁(高)設(shè)計的思路,研究如何面向聯(lián)合作戰(zhàn)任務(wù)進行多階段[25]、難度遞增的課程設(shè)計方法[26-27],模型逐步訓(xùn)練,提升模型訓(xùn)練效率。如圖5 所示,首先對簡單任務(wù)進行學(xué)習(xí),如紅軍僅使用地面防空武器摧毀藍軍指揮所。然后進一步加大任務(wù)難度,如紅軍使用多武器協(xié)同,摧毀藍方指揮所;在經(jīng)過逐步學(xué)習(xí)后,最終使用全部武器協(xié)同摧毀藍軍多個指揮所及全部兵力。
圖5 基于課程學(xué)習(xí)的作戰(zhàn)決策模型訓(xùn)練加速
人機共生作戰(zhàn)決策采用高效、可靠的新型人機交互手段,打造人機協(xié)作的作戰(zhàn)決策空間,一方面充分發(fā)揮機器強大計算搜索能力優(yōu)勢,有效降低指揮員指揮載荷,另一方面,通過博弈對抗訓(xùn)練創(chuàng)新戰(zhàn)法,采用人在環(huán)路的交互式學(xué)習(xí)機制保證決策可信,人機共生決策將成為作戰(zhàn)決策系統(tǒng)的重要發(fā)展方向。本文提出了人機共生作戰(zhàn)決策系統(tǒng)運行概念和總體架構(gòu),分析其關(guān)鍵問題和解決思路,并提出了作戰(zhàn)決心機器理解、作戰(zhàn)兵力狀態(tài)表示、作戰(zhàn)決策模型高效訓(xùn)練等關(guān)鍵技術(shù)及其實現(xiàn)路線,能夠為新一代作戰(zhàn)決策系統(tǒng)、智能指揮控制系統(tǒng)等發(fā)展提供借鑒參考。