□吳永明 楊海波 汪 超
隨著陸軍部隊(duì)諸兵種合成訓(xùn)練逐步向下延伸,合成營已逐漸成為“軍-旅-營”體制下機(jī)動(dòng)作戰(zhàn)基本單元,在單人單裝訓(xùn)練、連以下分隊(duì)協(xié)同訓(xùn)練的基礎(chǔ)上,合成營戰(zhàn)術(shù)訓(xùn)練是首次實(shí)現(xiàn)分隊(duì)指揮員指揮能力和指揮技能的融合訓(xùn)練。針對目前指揮訓(xùn)練中,存在戰(zhàn)術(shù)訓(xùn)練組織復(fù)雜、訓(xùn)練條件設(shè)置單一、訓(xùn)練模擬對手死板、戰(zhàn)法固定等不利因素,按照戰(zhàn)斗力生成的規(guī)律,構(gòu)設(shè)智能化指揮實(shí)體,模擬強(qiáng)敵對手和作戰(zhàn)環(huán)境,實(shí)現(xiàn)智能化指揮實(shí)體決策智能性、技術(shù)方法集成性和平臺(tái)搭載適應(yīng)性的目標(biāo),提升指揮員訓(xùn)練水平。
隨著信息技術(shù)的高速發(fā)展,大數(shù)據(jù)時(shí)代已經(jīng)到來,依托AR技術(shù)對大量數(shù)據(jù)信息的深度分析,有效提升了信息處理的準(zhǔn)確性和時(shí)效性,實(shí)現(xiàn)信息處理全部或部分自動(dòng)化。智能化指揮手段有效提升了指揮員對現(xiàn)代化戰(zhàn)爭的把控能力,協(xié)助指揮員深度解析戰(zhàn)場迷霧,及時(shí)準(zhǔn)確把握戰(zhàn)場態(tài)勢,為有效預(yù)測戰(zhàn)局發(fā)展提供數(shù)據(jù)信息參考,形成對敵決策優(yōu)勢。
(一)多維度模擬作戰(zhàn)對手。模擬作戰(zhàn)對手的關(guān)鍵是模擬其戰(zhàn)斗力,智能化指揮實(shí)體模擬戰(zhàn)斗力要素主要體現(xiàn)在以下五個(gè)方面:一是自動(dòng)、快速、準(zhǔn)確獲取戰(zhàn)場信息、正確理解和研究判斷作戰(zhàn)態(tài)勢;二是熟悉武器裝備戰(zhàn)技術(shù)性能、熟練運(yùn)用武器裝備;三是靈活運(yùn)用戰(zhàn)術(shù)原則和交戰(zhàn)規(guī)則;四是統(tǒng)籌把控勝負(fù)標(biāo)準(zhǔn);五是迅速生成有效交戰(zhàn)數(shù)據(jù),形成一體化的智能指揮決策能力。通過對作戰(zhàn)對手各方面的模擬,達(dá)到提升指揮員訓(xùn)練水平,提高訓(xùn)練效益的目的。
(二)實(shí)現(xiàn)對戰(zhàn)場態(tài)勢的交互與反饋。構(gòu)建復(fù)雜作戰(zhàn)模擬系統(tǒng)中的智能化指揮實(shí)體,創(chuàng)新性地采用MARL(Multi-Agent Reinforcement learning:MARL)技術(shù),構(gòu)建算法模型體系,可以讓指揮員動(dòng)態(tài)實(shí)時(shí)地讀懂戰(zhàn)場態(tài)勢、精準(zhǔn)分析判斷對手作戰(zhàn)意圖、實(shí)現(xiàn)智能決策和智能評估,通過實(shí)現(xiàn)算法的不斷調(diào)優(yōu),解決復(fù)雜條件下戰(zhàn)場信息的交互與反饋,使得決策模型逐漸向有利于我方戰(zhàn)場局勢的方面發(fā)展,實(shí)現(xiàn)理論與經(jīng)驗(yàn)的結(jié)合,在縮短模型訓(xùn)練進(jìn)化時(shí)間、節(jié)約GPU計(jì)算資源的條件下,極大地提高指揮員對瞬息萬變的戰(zhàn)場態(tài)勢的判斷能力。
(三)提升指揮員指揮能力。一方面,智能化指揮實(shí)體可在指揮訓(xùn)練模擬中應(yīng)用,對陸軍分隊(duì)指揮員訓(xùn)練方法、作戰(zhàn)方案檢驗(yàn)論證提供和開辟新的途徑。通過提升作戰(zhàn)對手的“高智能”,為指揮員指揮訓(xùn)練提供高水平的“假想敵”,達(dá)到不斷歷練和提升指揮員指揮能力和謀略水平的目的。另一方面,智能化指揮實(shí)體可與現(xiàn)有的地面無人化作戰(zhàn)平臺(tái)結(jié)合,提升地面無人化作戰(zhàn)平臺(tái)的智能化決策水平,達(dá)到“軟-硬”兼?zhèn)涞哪康?;與指揮控制系統(tǒng)一體化鏈接,自主完成作戰(zhàn)任務(wù)。
在未來信息化作戰(zhàn)中,精確作戰(zhàn)、特種作戰(zhàn)、一體化聯(lián)合作戰(zhàn)已經(jīng)成為主要的作戰(zhàn)樣式。當(dāng)前,陸軍合成營分級分層分要素的戰(zhàn)斗力逐步生成,構(gòu)建智能化指揮實(shí)體,對于檢驗(yàn)協(xié)同訓(xùn)練效果、提升戰(zhàn)術(shù)訓(xùn)練的真實(shí)性、培養(yǎng)指揮手段的可操作性具有關(guān)鍵支持作用。因此,需要從戰(zhàn)場態(tài)勢、規(guī)則運(yùn)用、勝負(fù)標(biāo)準(zhǔn)、多智能化指揮實(shí)體決策算法四個(gè)方面進(jìn)行構(gòu)建戰(zhàn)斗力要素。
(一)研判戰(zhàn)場態(tài)勢。根據(jù)《陸軍軍事訓(xùn)練大綱》要求,當(dāng)前陸軍合成營主要有7個(gè)共同課題,49個(gè)使命任務(wù)課題。無論共同課題,還是使命任務(wù)課題,模擬對抗訓(xùn)練的戰(zhàn)場態(tài)勢具有多源情報(bào)深度,多類目標(biāo)屬性,多種陸??諔B(tài)勢。復(fù)雜的態(tài)勢判斷往往借助人工智能輔助手段,分析敵情、我情和戰(zhàn)場環(huán)境,能夠結(jié)合地形環(huán)境特點(diǎn),對比分析雙方武器裝備、作戰(zhàn)體系,找出敵方態(tài)勢優(yōu)劣強(qiáng)弱,為決策行動(dòng)提供支撐。
(二)熟悉規(guī)則運(yùn)用。在戰(zhàn)斗力形成過程中,雙方的戰(zhàn)斗力均是從單人單裝的戰(zhàn)斗力逐步合成得來的。為此,智能化指揮實(shí)體要實(shí)現(xiàn)熟悉規(guī)程并熟練運(yùn)用規(guī)則,采用深度學(xué)習(xí)的方法逐步實(shí)現(xiàn)由易到難、由簡單到復(fù)雜的步驟,將規(guī)則區(qū)分為不同層次,先簡單要素到復(fù)雜要素,從基礎(chǔ)單元到編隊(duì)體系。在學(xué)會(huì)必要的對抗邏輯基礎(chǔ)上,逐步迭代升級,機(jī)器分類實(shí)現(xiàn)和理解,最終實(shí)現(xiàn)由弱人工智能向強(qiáng)人工智能轉(zhuǎn)化。
(三)理解對抗勝負(fù)標(biāo)準(zhǔn)體系。模擬對抗的勝負(fù)標(biāo)準(zhǔn)通常難于判定。每種想定下的對抗,對應(yīng)不同的作戰(zhàn)目標(biāo)、不同的評判標(biāo)準(zhǔn),可以說是“一戰(zhàn)一標(biāo)準(zhǔn)”。為了讓智能化指揮實(shí)體讀懂標(biāo)準(zhǔn)體系,需要把復(fù)雜的作戰(zhàn)目標(biāo)進(jìn)行分解細(xì)化,通過確定目標(biāo)模型,細(xì)化不同作戰(zhàn)任務(wù),確定標(biāo)準(zhǔn)的數(shù)值指標(biāo)。
(四)構(gòu)建多智能化指揮實(shí)體決策算法。按照戰(zhàn)術(shù)訓(xùn)練逐級合成的方式,構(gòu)建算法模型,實(shí)現(xiàn)不同的智能化指揮實(shí)體在共同作戰(zhàn)區(qū)域內(nèi)情報(bào)共享、機(jī)動(dòng)方式選擇、對敵打擊目標(biāo)確定、方案評估及優(yōu)選、對敵毀傷評估、行動(dòng)方案調(diào)整等方面達(dá)到最優(yōu),最大限度地確保對抗訓(xùn)練取得勝利。
(一)戰(zhàn)場態(tài)勢認(rèn)知模型構(gòu)建。
1.態(tài)勢認(rèn)知。在作戰(zhàn)指揮智能決策系統(tǒng)中,態(tài)勢認(rèn)知是智能化指揮實(shí)體決策的基礎(chǔ)。態(tài)勢認(rèn)知對象主要包括作戰(zhàn)環(huán)境、動(dòng)態(tài)的作戰(zhàn)實(shí)體以及其他影響戰(zhàn)局變化的各種因素。
2.態(tài)勢分析。主要從多源戰(zhàn)場數(shù)據(jù)中提取態(tài)勢相關(guān)技術(shù)參數(shù)。形成某時(shí)節(jié)戰(zhàn)場環(huán)境和作戰(zhàn)單元的信息技術(shù)參數(shù)S,并從S所有技術(shù)參數(shù)的集合中,提取諸如地理環(huán)境特征(高山、密林、鄉(xiāng)村、街道等)、對象類型(裝甲車、步戰(zhàn)車、指揮員等)、對象狀態(tài)(行軍、集結(jié)、開戰(zhàn)等)一系列態(tài)勢元素。
3.態(tài)勢理解。根據(jù)信息融合所生成的態(tài)勢特征向量,并結(jié)合相關(guān)作戰(zhàn)指揮規(guī)律,對戰(zhàn)場敵我態(tài)勢進(jìn)行分析,研判作戰(zhàn)對手的主要作戰(zhàn)單元部署和作戰(zhàn)企圖(進(jìn)攻、防御、撤離等),識(shí)別敵方作戰(zhàn)意圖和作戰(zhàn)計(jì)劃。
4.態(tài)勢預(yù)測。在充分掌握當(dāng)前態(tài)勢的基礎(chǔ)上,已知t時(shí)刻的戰(zhàn)場態(tài)勢S(t),預(yù)測T時(shí)刻(T>t)時(shí)刻的戰(zhàn)場態(tài)勢S(T),即在進(jìn)行威脅評估的前提下對未來敵方作戰(zhàn)單元的狀態(tài)、可能采取的行動(dòng)以及導(dǎo)致的結(jié)果進(jìn)行綜合預(yù)測。對于少量作戰(zhàn)單元的狀態(tài)預(yù)測相對簡單,而對戰(zhàn)場全局態(tài)勢演變的預(yù)測則極其復(fù)雜。
(二)作戰(zhàn)企圖判斷模型構(gòu)建。需要確定影響企圖估計(jì)的要素以及要素的狀態(tài),并按照各要素之間的密切聯(lián)系建立節(jié)點(diǎn)間的有向弧,有向弧表示事件之間的層次關(guān)系;然后確定各節(jié)點(diǎn)的先驗(yàn)概率或條件概率;最后選擇合適的推理算法進(jìn)行推理。力圖獲得更深一層次的敵軍區(qū)域企圖判斷。簡而言之該模塊的企圖判斷需要包括對單智能化指揮實(shí)體的原子態(tài)勢理解以及對于敵軍整體的復(fù)合態(tài)勢理解。
(三)構(gòu)建分層決策模型。決策是行動(dòng)的先導(dǎo),對取得戰(zhàn)爭優(yōu)勢起著決定性的作用。為使智能化指揮實(shí)體能夠在認(rèn)知態(tài)勢、理解規(guī)則的基礎(chǔ)上,圍繞作戰(zhàn)目標(biāo)作出最優(yōu)決策。
1.基本設(shè)想。利用多階層強(qiáng)化學(xué)習(xí)手段解決戰(zhàn)場對抗問題,其主要作用是將大規(guī)模的復(fù)雜戰(zhàn)場對抗問題在時(shí)域空間或頻域空間等多維度進(jìn)行分解和抽象,并采取精準(zhǔn)定位策略對各節(jié)點(diǎn)問題進(jìn)行求解。與此同時(shí),相較于傳統(tǒng)強(qiáng)化學(xué)習(xí)解決戰(zhàn)場對抗任務(wù)時(shí)存在的復(fù)雜數(shù)據(jù)問題,分層強(qiáng)化學(xué)習(xí)手段使用了實(shí)現(xiàn)高級博弈任務(wù)目標(biāo)和低級控制之間分離的組網(wǎng)架構(gòu),從而達(dá)到實(shí)現(xiàn)目標(biāo)是什么和問題怎么辦的解決思路。
2.戰(zhàn)術(shù)決策。上層決策模型,以馬爾可夫決策過程為基本理論,建立狀態(tài)空間、動(dòng)作空間、激勵(lì)函數(shù)和狀態(tài)轉(zhuǎn)移函數(shù),通過強(qiáng)化學(xué)習(xí)訓(xùn)練得出決策模型,同時(shí)避免純強(qiáng)化學(xué)習(xí)方法計(jì)算搜索空間過大的問題。
(1)狀態(tài)空間。智能化指揮實(shí)體所有狀態(tài)空間維度,主要由其兵種專業(yè)、損傷、武器裝備、地理位置、地形特點(diǎn)等要素構(gòu)成。
(2)動(dòng)作空間。智能化指揮實(shí)體的動(dòng)作空間,是軍事實(shí)體所能執(zhí)行的動(dòng)作的集合。如步戰(zhàn)車的動(dòng)作空間,包括機(jī)動(dòng)、射擊、下車、奪控、待機(jī)等。根據(jù)所代表的作戰(zhàn)實(shí)體性質(zhì)不同,各類智能化指揮實(shí)體的動(dòng)作空間不同。由于軍事規(guī)則的約束,在特定態(tài)勢下,智能化指揮實(shí)體不能執(zhí)行某些動(dòng)作,則可執(zhí)行的動(dòng)作從而構(gòu)成有效動(dòng)作空間。
(3)獎(jiǎng)勵(lì)函數(shù)。獎(jiǎng)勵(lì)函數(shù)的作用是,定義狀態(tài)與動(dòng)作之間的數(shù)值關(guān)系。獎(jiǎng)勵(lì)值越大,動(dòng)作越被鼓勵(lì);獎(jiǎng)勵(lì)值越小,動(dòng)作越被抑制。比如敵方被毀傷、敵我兵力比等,都可作為智能當(dāng)前決策的直接反饋。
獎(jiǎng)勵(lì)函數(shù)定義規(guī)則包括:當(dāng)前態(tài)勢下戰(zhàn)場雙方兵力比、我方任務(wù)完成度、雙方所受毀傷等。具體的獎(jiǎng)勵(lì)函數(shù)公式設(shè)定需要依賴大量的試錯(cuò)與模型訓(xùn)練不斷地修正并不斷地分析優(yōu)化塑形。
采用Actor-critic來優(yōu)化loss function,其中actor為策略網(wǎng)絡(luò)。利用參數(shù)化的網(wǎng)絡(luò)估計(jì)每個(gè)狀態(tài)的值函數(shù)。算法偽碼如圖1所示。
圖1
3.協(xié)作決策。盡管單個(gè)智能化指揮實(shí)體能根據(jù)態(tài)勢認(rèn)知自主決策,但智能化指揮實(shí)體之間缺少分工協(xié)作,導(dǎo)致戰(zhàn)術(shù)任務(wù)重疊;例如,多個(gè)智能獨(dú)立的局部最優(yōu)決策都是對某一目標(biāo)射擊,但實(shí)際綜合結(jié)果可能是對同一目標(biāo)進(jìn)行打擊的火力超過需求而造成浪費(fèi),未實(shí)現(xiàn)全局最優(yōu)。單智能化指揮實(shí)體與多智能化實(shí)體由于其所在環(huán)境的不同導(dǎo)致學(xué)習(xí)的任務(wù)繁重,面臨的挑戰(zhàn)更大。
為解決近端策略優(yōu)化模型(Proximal Policy Optimization,PPO)中智能化指揮實(shí)體協(xié)作不足的問題,采用MADDPG算法為協(xié)助手段,其具有以下三點(diǎn)優(yōu)勢:一是通過深度學(xué)習(xí)得到的最優(yōu)解決問題的方案,在應(yīng)用過程中利用局部信息就能給出最優(yōu)解決方案;二是無需知道現(xiàn)實(shí)環(huán)境的動(dòng)力學(xué)模型以及特殊的聯(lián)絡(luò)需求;不僅能用于合作環(huán)境,也能用于競爭環(huán)境。