任 航,賀筱媛,陶九陽
(1.國防大學,北京 100091;2.解放軍31113 部隊,南京 210008)
兵棋系統(tǒng)是作戰(zhàn)指揮及日常訓練中不可或缺的有力工具,也是軍事智能決策研究領域的重要平臺。近年來,深度強化學習技術在圍棋、紙牌、即時策略游戲中的嘗試均獲成功[1-7],為兵棋智能化的實踐探索提供了方向借鑒。目前深度強化學習與兵棋的探索嘗試主要集中于戰(zhàn)術兵棋[8-11],在聯(lián)合戰(zhàn)役級兵棋中的嘗試還鮮有報道。聯(lián)合戰(zhàn)役兵棋決策與游戲、戰(zhàn)術兵棋決策并不完全相同,聯(lián)合戰(zhàn)役兵棋決策偏重于手段與時機的選擇,游戲和戰(zhàn)術兵棋側(cè)重于行動的即時應對。這種差異集中反映出戰(zhàn)役與戰(zhàn)術、嚴肅軍事對抗與娛樂游戲間的區(qū)別,同樣也成為技術遷移過程中的主要制約。綜合兵棋AI與現(xiàn)有技術發(fā)展情況看,僅靠深度強化學習技術并不能解決聯(lián)合戰(zhàn)役兵棋決策控制中的全部問題。聯(lián)合戰(zhàn)役兵棋AI 需要將傳統(tǒng)方法與深度強化學習有機融合。本文的問題原點是在既有深度強化學習技術基礎上如何更好地與戰(zhàn)役兵棋融合,成功打造有效對接軍事需求的聯(lián)合戰(zhàn)役兵棋AI。為此首先梳理強化學習概念原理,并對聯(lián)合戰(zhàn)役兵棋AI 的功能需求展開系統(tǒng)分析,在此基礎上提出數(shù)據(jù)融合知識的混合兵棋AI 框架,并就其中的關鍵技術進行討論。
強化學習是智能體在獎勵信號牽引下通過反復交互試錯學習,如何在不確定條件下進行序列決策的過程[12]。強化學習方法中信息交互可以概括如下:1)智能體主動進行環(huán)境探索;2)環(huán)境反饋評價智能體的探索行為;3)智能體根據(jù)反饋修正對環(huán)境的認知,改進動作選擇以期達成最終目標。智能體在進行動作選擇過程中,如果動作導致后續(xù)大的正向獎勵,則智能體在類似環(huán)境下會對該動作更加青睞,反之則減小選擇頻次。強化學習原理如圖1 所示。
圖1 強化學習原理示意圖Fig.1 The sketch map of reinforcement learning basic theory
標準強化學習用馬爾可夫決策過程(markov decision process,MDP)五元組(S,A,r,f,γ)形式描述。其中S 為環(huán)境空間,A 為動作空間,r 為獎勵函數(shù),f 為狀態(tài)轉(zhuǎn)移函數(shù),γ 為獎勵折扣。在五元組形式之上智能體建立價值判斷體系進行動作選擇。價值判斷體系建立于客觀環(huán)境獎勵函數(shù)之上,價值判斷表現(xiàn)為顯式的數(shù)值量化。價值判斷體系有狀態(tài)價值網(wǎng)V 和動作價值網(wǎng)Q 兩種不同形式。獎勵函數(shù)偏重眼前反映的是當前動作的優(yōu)劣,價值評價體系重長遠評的是累積獎勵。智能體利用探索獲得的經(jīng)驗更新價值判斷體系,經(jīng)典的更新算法有Q-Learning[13]和SARSA[14]算法。
強化學習一值一更的方式無法在有限時間下遍歷搜索空間導致泛化性較差,并且不適用于連續(xù)狀態(tài)動作空間,為克服上述問題由此誕生了深度強化學習方法。深度強化學習大體區(qū)分為基于值函數(shù)方法與基于策略梯度方法兩類。
基于值函數(shù)方法圍繞價值網(wǎng)絡求解展開,深度Q 網(wǎng)絡(deep Q-network,DQN)[15]是其核心算法,后續(xù)方法大都是對DQN 的優(yōu)化。DQN 使用深度卷積網(wǎng)絡擬合動作價值,實現(xiàn)對狀態(tài)空間的降維表征,同時引入數(shù)據(jù)存儲與采樣回放機制輔助網(wǎng)絡訓練。為提高訓練穩(wěn)定性在評估網(wǎng)絡基礎上,文獻[16]引入目標網(wǎng)絡擴展DQN 方法;文獻[17]提出Double DQN,降低過估計對訓練的影響;文獻[18]根據(jù)經(jīng)驗質(zhì)量確定抽取優(yōu)先級,改變原有等概率抽樣方式;文獻[19]利用恒等變換將狀態(tài)動作函數(shù)拆解,提升動作評估的精確性;文獻[20]引入長短時記憶網(wǎng)絡(long short-term memory,LSTM)將DQN 的應用范圍擴展到時序信息領域;文獻[21]引入視覺注意力機制,使智能體將關注的重心放在影響決策的重點區(qū)域上。
策略梯度方法使用近似函數(shù)直接對策略進行建模。與值函數(shù)方法相比,策略梯度方法適用于連續(xù)高維動作空間。連續(xù)高維動作策略函數(shù)被建模為確定性函數(shù)形式。在確定性策略梯度(deterministic policy gradient,DPG)[22]算法上形成深度確定性策略梯度(deep deterministic policy gradient,DDPG)[23]算法。離散動作策略建模為概率函數(shù)形式并動態(tài)確定更新步長,算法有置信域策略優(yōu)化(trust region policy optimization,TRPO)[24]以及近端策略優(yōu)化(proximal policy optimization,PPO)[25]算法等。
在基礎的深度強化學習之上,相繼衍生出多智能體深度強化學習、分層深度強化學習等領域分支。
1.3.1 多智能體深度強化學習
多智能體強化學習(multi-agent reinforcement learning,MARL)將強化學習思想應用于多智能體系統(tǒng)。多智能體系統(tǒng)遵循馬爾可夫過程,由多元組(n,S,A1,A2,…r1,r2,…f,γ)的形式描述。MARL 中單個智能體動作產(chǎn)生效果,既取決于環(huán)境也受其他智能體制約,狀態(tài)轉(zhuǎn)移是全體智能體共同作用的結(jié)果。MARL 中動作空間為聯(lián)合動作空間A=A1×A2×…×An,全體智能體的策略構成聯(lián)合策略。MARL 原理示意如下頁圖2 所示。
圖2 多智能體強化學習原理示意圖Fig.2 The sketch map of multi-agent reinforcement learning basic theory
在經(jīng)典MARL 算法基礎上引入深度神經(jīng)網(wǎng)絡由此形成多智能體深度強化學習(multi-agent deep reinforcement learning,MADRL)方法。復雜博弈場景中MADRL 的實踐案例有:阿里巴巴提出的BiCNet網(wǎng)絡成功在星際爭霸1 的微觀操控場景中學到團隊協(xié)作策略[26];OpenAI 公司開發(fā)的OpenAI Five[6]在Dota2 平臺中擊敗了世界冠軍戰(zhàn)隊;騰訊AI 基于王者榮耀平臺開發(fā)的“絕悟”系統(tǒng)在5v5 模式下與頂尖選手對戰(zhàn)中取得了不俗表現(xiàn)[27-28]。“絕悟”架構遷移開發(fā)的足球智能體WeKick,在首屆谷歌足球Kaggle 競賽中獲得了冠軍。
1.3.2 分層深度強化學習
分層強化學習(hierarchical reinforcement learning,HRL)借鑒人類解決復雜問題化繁為簡、分而治之的思路,將分層思想引入強化學習之中。HRL 將原始問題分解成不同層次粒度的子問題,直至子問題態(tài)空間有限且易于求解。HRL 通常形成原始問題-子問題-原子問題的層級結(jié)構。在原始問題-子問題層級,動作定義為宏動作形式,即由多個底層動作向上抽象而成。HRL 的理論依據(jù)是半馬爾科夫決 策 過 程(semi-markov decision process,SMDP)。SMDP 相當于在時間維度上對MDP 的狀態(tài)轉(zhuǎn)移過程進行了折疊,圖3 為其說明示意。在分級結(jié)構中高層狀態(tài)的轉(zhuǎn)移遵循SMDP 模型,底層狀態(tài)轉(zhuǎn)移完全遵循MDP 模型。
圖3 MDP 與SMDP 狀態(tài)集比較Fig.3 The state set comparison between MDP and SMDP
深度分層強化學習(deep hierarchical reinforcement learning,DHRL)方法脫胎于HRL,其中,分層DQN(hierarchy DQN,h-DQN)算法是其典型代表[29]。h-DQN 建立雙層網(wǎng)絡結(jié)構,頂層元控制器負責為下級指定目標,底層控制器根據(jù)目標進行探索直至達成目標。底層控制器接收內(nèi)部評價器反饋的內(nèi)置獎勵,元控制器接收環(huán)境的反饋獎勵,圖4 為h-DQN的原理示意。h-DQN 在較難的Atari 游戲蒙特祖瑪?shù)膹统鹬腥〉昧藘?yōu)于DQN 的實際表現(xiàn)。除h-DQN外DHRL 的理論研究工作主要包括層次的劃分、底層策略復用等。在星際爭霸2 的研究中騰訊AI、南京大學、UCLA 等均將DHRL 的思想加以運用[30-32],整體動作任務設計上均區(qū)分為了宏動作與微觀動作兩個層級。在OpenAI Five 的結(jié)構設計中同樣包含有DHRL 的影子。
圖4 h-DQN 原理示意圖Fig.4 The demonstration diagram of h-DQN principle
強化學習技術善于在既定目標下進行決策學習與控制,試圖建立從狀態(tài)到動作的輸出映射關系,底層數(shù)據(jù)是其主要的學習素材。深度強化學習端到端自底向上提取知識的方式,不可避免伴隨學習效率問題,其展現(xiàn)出的學習能力無法與人類劃等號。人類學習能力并非體現(xiàn)在基礎知識的掌握程度上,而是對知識深層概括以及由此實現(xiàn)的跨領域遷移上。深度學習實現(xiàn)對提取知識的泛化,但這種泛化范圍相對有限,無法像人類一樣在看似風馬牛不相及的事物中找尋出共性。強化學習方法偏重于有限目標下的策略實現(xiàn),難以通過數(shù)據(jù)的綜合學習提取到更為抽象的宏觀策略。由于缺少如人類的抽象思維,加之強化學習方法探索-利用學習機制的內(nèi)在作用,很容易造成策略在局部最優(yōu)解附近震蕩,在處理長程決策問題時表現(xiàn)尤為明顯。
雖然MADRL 方法適用于解決多單元場景的博弈決策問題,但實踐落地卻面臨諸多現(xiàn)實困難。智能體間的頻繁交互打破了相對穩(wěn)定的學習環(huán)境,不同智能體動作策略的交疊增大了對獎勵的學習難度。智能體無法觀測到全部狀態(tài)信息,大量有用信息被折疊隱藏增大了轉(zhuǎn)移概率的學習難度。智能體間的協(xié)同配合依賴于通信協(xié)調(diào)機制,有效通信信道的學習構建將占用大量的訓練資源,導致模型復雜度的增長。
DHRL 方法的核心關鍵在于高層目標狀態(tài)的確定。目標牽引智能體學習,一系列高層目標狀態(tài)串聯(lián)出整個問題域的求解通路。歸根結(jié)底求解通路利用的是人類知識經(jīng)驗,反映的是人類對該類問題的應對之策。機器自身不具備發(fā)現(xiàn)定義高層目標的能力,基于高層目標的通路設計也非機器所長,因而高層目標主要還是依靠人工抽象方式定義。人工設置目標的方式也有自身問題,一方面復雜博弈場景中人工通路并非一定是問題的唯一或最優(yōu)通路,過多的設置可能會限制新穎招法的涌現(xiàn);另一方面高層目標的定義又需要大量領域知識的支持,為DHRL 的應用設置了門檻。
MADRL 實質(zhì)是確定智能體的控制層級,DHRL則是確定智能體的任務設置層級。MADRL 及DHRL方法并不適宜直接運用于聯(lián)合戰(zhàn)役兵棋系統(tǒng)中。
對于MADRL,除實體單位數(shù)量與問題規(guī)模的因素外,MADRL 無法直接適用的原因還在與聯(lián)合作戰(zhàn)指揮決策機理,以及兵棋內(nèi)置模型構模方式的作用影響。
聯(lián)合戰(zhàn)役兵棋面向戰(zhàn)役指揮,戰(zhàn)役指揮決策是其關注突出的重點。由于戰(zhàn)役指揮決策重在實現(xiàn)穩(wěn)局、控局,因而戰(zhàn)役指揮決策建構在對作戰(zhàn)全局的通盤考慮之上,決策面向的是聯(lián)合戰(zhàn)役指揮員及其指揮機關。聯(lián)合戰(zhàn)役指揮員作為戰(zhàn)役宏觀局勢的最高掌控者,其根據(jù)全局態(tài)勢信息進行決策。聯(lián)合戰(zhàn)役兵棋決策是由中心向下的垂直一體控制模式,各個智能體之間是地位平等的并列關系,不存在居于中心負責核心控制的頂端上層智能體。每個智能體僅能觀察到探測視域內(nèi)的有限信息,通過在各個智能體間建立專門的信息傳輸通道,在缺少中心智能體的情況下,借助MADRL 方式可以實現(xiàn)基于若干局部片段信息的有效決策。MADRL 的宏觀決策效果通過自底向上的涌向?qū)崿F(xiàn),在不經(jīng)上層智能體控制的情況下實現(xiàn)有效的功能自組織。兵棋特別是面向指揮決策的聯(lián)合戰(zhàn)役兵棋存在明顯的指揮與被指揮關系,戰(zhàn)役指揮員居于天然的核心位置,其通過融合匯聚下級單位信息,實現(xiàn)基于己方信息全圖的自頂向下的指揮控制。負責戰(zhàn)役指揮力量單元的智能體對其他力量單元構成絕對支配關系,滿足MADRL 方法提出所著力彌補的場景條件。此外,MADRL 更注重底層動作“微操”,能夠?qū)崿F(xiàn)底層動作的精細化配合,這與聯(lián)合戰(zhàn)役兵棋關注指揮決策本身、突出決策質(zhì)量的研究出發(fā)點存在一定方法適用性上的偏離。
綜上分析,與兵棋想定實體單位一一對應不經(jīng)抽象的控制層級設置將產(chǎn)生維度災難。對于戰(zhàn)役終局不經(jīng)提煉的任務層級構設無法克服信度長程分配的問題。一種強化學習方法手段不能有效滿足兵棋背景下復雜決策求解要求,在結(jié)合實際綜合運用多種強化學習方法手段的同時,還需要與傳統(tǒng)基于知識驅(qū)動的決策方法進行一定融合。與MADRL 以及HDRL 方法相比,由于問題研究重心的側(cè)重,基于單智能體垂直分層控制并融合知識規(guī)則的強化學習建模模式,更適用于聯(lián)合戰(zhàn)役兵棋的智能決策建模。
聯(lián)合戰(zhàn)役兵棋具有兵棋博弈對抗的基本特征,重點關注刻畫聯(lián)合戰(zhàn)役層級上的指揮對抗活動,可謂起點在聯(lián)合落點于兵棋。聯(lián)合戰(zhàn)役兵棋用途大體區(qū)分為方案分析與指揮對抗訓練兩類。方案分析側(cè)重于將兵棋作為檢驗方案的手段,突出評價的結(jié)果。指揮對抗訓練側(cè)重于將兵棋作為訓練指揮員的工具,突出的是訓練的過程。方案分析既可以融入指揮對抗訓練中,也可以獨立運用于作戰(zhàn)籌劃過程中。
作戰(zhàn)籌劃中引入兵棋推演反映戰(zhàn)爭認知方式從定性到定量的轉(zhuǎn)變。有限次推演無法窮盡戰(zhàn)爭全部可能,兵棋推演的目的主要在于查找方案缺漏并分析不同方案的優(yōu)劣短長。通過推演不同方案形成比較結(jié)論供指揮員參考。當指揮員確定某一具體方案后,隨即組織多輪次精細推演以迭代完善方案內(nèi)容。作為方案評估分析的重要手段,美軍在聯(lián)合出版物JP5-0 中明確規(guī)定了兵棋推演的地位作用。聯(lián)合戰(zhàn)役兵棋推演帶有明確的目的指向,美軍主要針對對手對威脅最大或最有可能的作戰(zhàn)行動制定其自身的任務序列(course of action,COA)并展開推演。
方案分析重在發(fā)現(xiàn)問題,聯(lián)合指揮訓練重在向指揮員傳遞知識。借助聯(lián)合戰(zhàn)役兵棋進行指揮訓練,指揮員一方面獲取聯(lián)合指揮的技能知識,另一方面熟悉掌握主要作戰(zhàn)對手的作戰(zhàn)樣式和可能行動。背靠背推演訓練形式能夠營造逼真的對抗環(huán)境,深化指揮員對作戰(zhàn)問題的認識理解,引導指揮員深入思考作戰(zhàn)問題。同時,戰(zhàn)役兵棋推演豐富了指揮員指揮實踐的手段,通過沉浸推演指揮員獲得了近乎實戰(zhàn)的一手資料,快速完成從理論知識向?qū)嵺`能力躍遷,進而更好地適應戰(zhàn)位的需要。
作為真實環(huán)境在虛擬空間的映射,聯(lián)合戰(zhàn)役兵棋的特點更多反映聯(lián)合戰(zhàn)役與戰(zhàn)術以及游戲間的區(qū)別。與戰(zhàn)術對抗相比,聯(lián)合戰(zhàn)役時空背景涵蓋陸、海、空、天、電、網(wǎng)等維度,涉及力量種類數(shù)量多元龐雜。聯(lián)合作戰(zhàn)指揮過程需要實現(xiàn)作戰(zhàn)籌劃與指揮控制相互銜接,戰(zhàn)役設計與戰(zhàn)術執(zhí)行相互配合,當前行動與長遠規(guī)劃相互適應,局部利益與全局考量相互協(xié)調(diào)。在兵棋環(huán)境中同樣需要以一體的戰(zhàn)役設計有效統(tǒng)合各維度力量。
聯(lián)合戰(zhàn)役兵棋的專業(yè)指向性更強。無論是方案分析還是指揮對抗訓練,聯(lián)合戰(zhàn)役兵棋服務的主體是居于聯(lián)合作戰(zhàn)領導核心的指揮員及其參謀團隊。聯(lián)合戰(zhàn)役兵棋模型是一種粗粒度模型,戰(zhàn)術兵棋或游戲那樣細粒度的細節(jié)刻畫在聯(lián)合戰(zhàn)役兵棋中既不可行也不可取。聯(lián)合戰(zhàn)役兵棋中戰(zhàn)術細節(jié)讓位于宏觀決策,指揮藝術成為聯(lián)合戰(zhàn)役兵棋表現(xiàn)的重點。聯(lián)合戰(zhàn)役兵棋中一機一艦的得失,對戰(zhàn)役全局并不足以產(chǎn)生根本性影響,勝負的關鍵更偏重于指揮員的全局謀劃。由于聯(lián)合戰(zhàn)役兵棋推演中紅藍遵循相同的構模原理,在力量對比均衡的條件下,勝負的關鍵主要系于指揮員精巧的擺兵布陣、精心的作戰(zhàn)設計以及靈活的處置應對。
根據(jù)OODA 循環(huán)理論,聯(lián)合作戰(zhàn)指揮是一個以觀察、判斷、決策、行動為核心的滾動迭代過程。獲取戰(zhàn)爭主動權一方面要加速己方OODA 循環(huán),另一方面要設法遲滯甚至打破對方OODA 循環(huán)。圖5 為聯(lián)合戰(zhàn)役指揮OODA 循環(huán)示意。由于需要協(xié)調(diào)控制眾多力量單元,方案計劃對于聯(lián)合作戰(zhàn)組織的指導作用分外凸顯,緊前設計事先籌謀的重要性不言自明。方案計劃為兵力火力行動協(xié)調(diào)設置統(tǒng)一基準,以方案計劃為主線鏈條串聯(lián)起不同作戰(zhàn)行動,在時域、空域、頻域等方面實現(xiàn)作戰(zhàn)組織同步。合理的方案計劃能夠規(guī)避行動間的可能沖突,使得無序的作戰(zhàn)行動歸為有序,進而降低作戰(zhàn)行動自組織的復雜性。即以作戰(zhàn)行動目標為紐帶將指揮藝術滲透其中,實現(xiàn)作戰(zhàn)行動間步調(diào)協(xié)調(diào)以更好體現(xiàn)戰(zhàn)役章法,最終通過各力量單位的同頻共振取得“1+1>2”的作戰(zhàn)效果。
圖5 聯(lián)合戰(zhàn)役指揮OODA 循環(huán)示意圖Fig.5 The demonstration diagram of OODA cycle for joint campaign command
聯(lián)合戰(zhàn)役兵棋AI 的直接軍事需求可以歸納為智能指揮官以及智能對手兩類,亦即智能紅軍與智能藍軍。智能指揮官主要面向兩類應用場景:一是方案計劃智能生成輔助,從形成構想到擬制方案為指揮員及參謀人員提供有價值的參考;二是輔助指揮員快速推演作戰(zhàn)方案,及時發(fā)現(xiàn)方案漏洞不足并加以完善。智能對手與智能指揮官有所區(qū)別,其定位是充當指揮員訓練或方案檢驗中的條件對手。與智能指揮官相比,智能對手的構設要求及實現(xiàn)難度更高。在進行全維對抗的同時盡可能地展現(xiàn)出模擬對象的風格特質(zhì),為紅方出情況、設難題。
從功能角色上來看,智能指揮官是指揮員思維的“助推器”,充當指揮員決策的輔助助手。智能對手扮演的則是“磨刀石”,即站在對手的角度為紅方挑毛病、找缺陷;從核心功能上看,智能指揮官設計的核心理念在于“強”,擊敗對手是其根本出發(fā)點。智能對手往往是“像為優(yōu)先”抑或“像強并舉”,即在兵力編制、作戰(zhàn)思想、風格特點等方面接近對手的前提下,通過恰當?shù)恼蟹ㄟx擇充分發(fā)揮出模擬對象的體系效能。
從采用的技術上看,智能指揮官直接服務于指揮員的軍事指揮,決策被指揮員認可有賴于堅實共通的知識理解體系作基礎。因而智能指揮官的構建技術大多要具備可解釋性,能夠清晰描述決策的來龍去脈,無需另行逆向決策緣由。智能對手并不要求決策具有可解釋性,只講求決策結(jié)果不偏重決策形成過程,因而可以大量采用甚至完全依靠如深度神經(jīng)網(wǎng)絡這樣的黑盒模型。
AI 智能表現(xiàn)形態(tài)上有強弱之別。弱智能僅僅能夠解求解給定問題,強智能不但能求解問題還能夠提出新問題。聯(lián)合戰(zhàn)役兵棋AI 中智能強弱的差別反映的是人與機的深層關系問題。弱智能的兵棋AI系統(tǒng)主要基于人機混合架構,AI 從屬于指揮員外在表現(xiàn),它只是指揮員思想的落實者,自身不會產(chǎn)生迸發(fā)類似指揮員的思想靈感。強智能的AI 系統(tǒng)建立在人機融合架構模式上,人與AI 處于平等地位,人的思維意圖完全為AI 所理解。
自主性是區(qū)分兵棋智能強弱的重要標志。決策自主性在兵棋AI 中具體體現(xiàn)在自主態(tài)勢理解、自主行動決策以及自主協(xié)同控制方面。弱智能的兵棋AI 無法真正理解態(tài)勢只是機械地分類態(tài)勢,通過訓練學習相應分類與決策之間的函數(shù)關聯(lián)。弱智能兵棋AI 無法完全獨立于指揮員建構出整套決策邏輯,其所代替的是作戰(zhàn)指揮中指令執(zhí)行部門全部以及計劃部門的部分。在協(xié)同控制上往往是基于人類既有規(guī)則進行,難以獨立發(fā)掘出足夠的協(xié)同規(guī)律。與之相對,強智能則能夠在態(tài)勢理解基礎上實現(xiàn)態(tài)勢的智能認知,具備對態(tài)勢信息泛化抽象以及定義發(fā)現(xiàn)新態(tài)勢信息的能力。在此基礎上,強智能的兵棋AI 探索總結(jié)出決策及協(xié)同的共性規(guī)律,并運用于不同的場景中。
綜合軍事需求及其可能的智能表現(xiàn)形態(tài)。強智能是聯(lián)合戰(zhàn)役兵棋AI 所孜孜追求的長期目標,其實現(xiàn)需要依托人機融合、智能態(tài)勢認知等領域的突破性進展。以弱智能為基礎,帶有部分強智能特征的智能形式,將是聯(lián)合戰(zhàn)役兵棋AI 當前的前進方向。
借助恰當?shù)捏w系框架,聯(lián)合戰(zhàn)役兵棋AI 能夠?qū)崿F(xiàn)對諸多力量單元的有效控制。人類智能的作用表現(xiàn)為做正確的事,AI 的作用則表現(xiàn)為正確地做事。人類智能與AI 各有優(yōu)長,人是具有情感、意識的生命體,能夠完成AI 所不具備的價值判斷。由于比之人腦AI 具有更強大的計算存儲能力,因而更擅長在指定目標下進行相關動作的精細操控。
聯(lián)合戰(zhàn)役兵棋AI 面向的是復雜場景下的決策控制。構建聯(lián)合戰(zhàn)役兵棋AI 的重要任務之一就是使AI 具備出色的全局視野。為將宏觀思維植根于AI,將數(shù)據(jù)驅(qū)動AI 作為動作控制核心的同時,引入以人的經(jīng)驗知識為核心的宏觀知識型AI 負責高層策略設計,由此形成數(shù)據(jù)融合知識的混合兵棋AI框架,具體框架如圖6 所示。
圖6 數(shù)據(jù)融合知識的混合兵棋AI 設計框架Fig.6 The wargame AI design framework based on hybrid of data and knowledge
宏觀知識型AI 與微觀數(shù)據(jù)型AI 上下聯(lián)動,宏觀知識型AI 的輸出即為微觀數(shù)據(jù)型AI 的輸入,微觀數(shù)據(jù)型AI 的累積執(zhí)行效果反向驗證宏觀知識型AI 決策。宏觀知識型AI 負責戰(zhàn)役進程規(guī)劃,為微觀數(shù)據(jù)型AI 描繪可能的路線圖。微觀數(shù)據(jù)型AI 以強化學習為技術內(nèi)核,實現(xiàn)作戰(zhàn)資源與任務的具體適配。宏觀知識型AI 建構于作戰(zhàn)原則、實戰(zhàn)經(jīng)驗以及創(chuàng)造性思維之上。創(chuàng)造性思維體現(xiàn)指揮員的指揮藝術,用于指導AI 從整體上進行戰(zhàn)役預設構想。作戰(zhàn)原則用于解構指揮藝術,將抽象的戰(zhàn)役設計具象化為一系列的序列選擇及對應的任務集合。實戰(zhàn)經(jīng)驗用以指導部分信息的選擇設定,降低信息空間的不確定度。智能程度更高的AI 不但能進行前置規(guī)劃,還能結(jié)合實時態(tài)勢進行戰(zhàn)役任務的重規(guī)劃,即視態(tài)勢偏離預想的程度進行干預。微觀數(shù)據(jù)型AI 則通過反復學習對抗數(shù)據(jù)的方式形成相應的行動策略。從對抗數(shù)據(jù)中學習很有可能會形成一些違背實際的動作行為,為此將規(guī)則約束類數(shù)據(jù)引入以規(guī)范AI行為。
受限于作戰(zhàn)場景以及模型粒度,不同策略中具體動作指令疏密分布不同,以致強化學習在底層動作的效果適用性上存在差異。劍走偏鋒、險中求勝的策略選擇,往往對作戰(zhàn)場景范圍、兵力部署、戰(zhàn)機把控等方面限制近乎嚴苛。此外一些力量單元有其程式化且固定的運用模式。以上因素設置了AI 成長的上限,降低了AI 的學習效率?;诖藢⒉糠种R規(guī)則吸納入微觀數(shù)據(jù)型AI 作為過渡,以降低AI學習訓練難度。知識規(guī)則部分與強化學習部分間保持浮動彈性,并結(jié)合課程學習思想由易向難、由淺入深依序進行漸進訓練,逐步壓縮知識規(guī)則直至底層AI 實現(xiàn)完全的數(shù)據(jù)驅(qū)動。
數(shù)據(jù)融合知識的混合兵棋AI 框架,實現(xiàn)了部分尤其是頂層軍事設計過程的相對可解釋,一定程度提升了AI 整體的可信性。該框架兼具靈活性考慮,指揮員可以通過介入宏觀知識型AI 決策的方式影響微觀數(shù)據(jù)型AI。層次化的框架設計與真實作戰(zhàn)指揮層級建立了初步對應關系,同時實現(xiàn)了功能間的部分解耦,充分發(fā)揮了知識推理與符號推理兩種知識組織運用形式各自的優(yōu)勢,并兼顧了對架構擴展性的可能需求。伴隨人機融合技術的成熟落地,指揮員意圖可以不經(jīng)過多轉(zhuǎn)換直接作為下層的功能指導,宏觀知識型AI 中功能模塊間的內(nèi)聚性也將不斷增強,與微觀數(shù)據(jù)型AI 的聯(lián)動也會愈發(fā)順暢。
一體的決策任務劃分是數(shù)據(jù)融合知識的混合兵棋AI 框架實現(xiàn)上下有機聯(lián)動的前提?;诜侄沃臈l塊分割思想,聯(lián)合戰(zhàn)役兵棋AI 的整體策略空間依序劃分為宏觀聯(lián)合策略層、作戰(zhàn)域任務層以及功能域戰(zhàn)術執(zhí)行層的3 層結(jié)構。其中,聯(lián)合宏觀策略層對應于宏觀知識型AI,作戰(zhàn)域任務層以及功能域戰(zhàn)術執(zhí)行層對應于微觀數(shù)據(jù)型AI。
宏觀策略層實現(xiàn)戰(zhàn)略意圖分解,即將戰(zhàn)略設計轉(zhuǎn)化為一系列聯(lián)合戰(zhàn)役任務集,進而轉(zhuǎn)化為規(guī)范化的COA 輸出。聯(lián)合戰(zhàn)役任務以諸軍兵種共同的作戰(zhàn)目標為組織紐帶,目標類型作為任務劃分的依據(jù)參考。聯(lián)合宏觀策略層向下對接作戰(zhàn)域任務層,輸出為陸、海、空等分域作戰(zhàn)任務。作戰(zhàn)域任務層將某一聯(lián)合任務對應的分域中作戰(zhàn)任務盡數(shù)囊括用以限定AI 決策的動作空間。功能域戰(zhàn)術執(zhí)行層上承作戰(zhàn)域任務層,下啟原子化的兵棋指令。宏觀的戰(zhàn)役設計落實為平臺末端具體的指令動作。
聯(lián)合戰(zhàn)役兵棋重點關注作戰(zhàn)體系效能發(fā)揮,戰(zhàn)術行動的細微參數(shù)變化對作戰(zhàn)體系效能并不產(chǎn)生決定性影響。為在功能域戰(zhàn)術執(zhí)行層中實現(xiàn)群體單位的綜合控制,需要在兵棋原子指令基礎上進行指令二次封裝。相關封裝內(nèi)容包括兩項,一是武器平臺運用中的知識經(jīng)驗,以排除無效甚至錯誤執(zhí)行指令的干擾。同時依據(jù)相應的條令條例、文件法規(guī)等在戰(zhàn)術層面貼近己方或?qū)κ郑瑸闃嫿☉?zhàn)役級“紅軍”或“藍軍”打好基礎。二是引接智能算法進行兵器火力分配,完成兵力火力與任務的匹配,實現(xiàn)力量單元運用的合理規(guī)劃,為高層智能的涌現(xiàn)創(chuàng)造條件。作戰(zhàn)域任務層介于上述兩層之間,是聯(lián)合戰(zhàn)役兵棋AI 的核心關鍵。作戰(zhàn)域任務層輸入為戰(zhàn)場態(tài)勢的綜合信息,主要聚焦于對下層的綜合調(diào)度控制。在封裝指令之上根據(jù)COA 的信息輸入,作戰(zhàn)域任務層AI不斷與環(huán)境交互探索綜合效應最大化的行動策略。
宏觀知識型AI 與微觀數(shù)據(jù)型AI 基于不同的構建機理,COA 是兩個AI 模塊之間溝通的橋梁依托。美軍將COA 表述為以作戰(zhàn)任務及其時序關系所構成,并以實現(xiàn)戰(zhàn)役目標企圖為指向的路線方法或手段。就所關注的軍事問題COA 提供了一個相對完整的解決方案。COA 由指揮員主導參謀人員配合完成。COA 的創(chuàng)造性開發(fā)更多基于植根在指揮員知識經(jīng)驗之上的感性認知,是一個集哲學、藝術、靈感與理性等于一體的復雜過程。宏觀知識型AI 通過智能建模技術模仿指揮員思維,以利于流程處理的結(jié)構化方法將抽象的COA 生成過程轉(zhuǎn)化落地。
常規(guī)的任務序列生成技術主要包括面向知識工程方法與機器學習方法兩大類。面向知識工程方法通常以人工構建的邏輯規(guī)則集為基礎,利用模糊規(guī)則匹配、決策樹、層次網(wǎng)絡等技術生成COA。機器學習方法通過對問題域的有效探索,尋找適宜的COA 生成路徑。知識工程方法需要人工進行知識經(jīng)驗提取,人類的認知水平成為知識工程方法拓展的天花板。由于難以抽象出探索需要的簡化模型,單純依賴前向模型探索的機器學習方法面臨效率的制約。宏觀知識型AI 在層次化的決策空間劃分基礎上融合上述兩種方式,形成人類知識引導下的AI作戰(zhàn)任務序列生成模式。宏觀知識型AI 所對應的COA 生成過程如圖7 所示,即從歷史推演數(shù)據(jù)構成的知識庫中提取出樞紐態(tài)勢用以分割約簡整個戰(zhàn)役場景;結(jié)合資料手冊以及專家經(jīng)驗等建構知識圖譜,立足知識庫中的樞紐態(tài)勢,推薦引導AI 進行任務序列的可能探索;對探索過程中出現(xiàn)的新的樞紐態(tài)勢及時加入知識庫進行完善,最終基于上述步驟循環(huán)探索出由初始場景到期望終態(tài)穩(wěn)定的可達路徑。
圖7 COA 智能生成過程示意Fig.7 The intelligent process of COA development
宏觀知識型AI 對作戰(zhàn)任務序列的規(guī)劃貫穿整個推演過程。針對實際與預想態(tài)勢的差距,宏觀知識型AI 中設計并引入重規(guī)劃機制動態(tài)調(diào)整任務序列,根據(jù)對狀態(tài)監(jiān)測與評估的結(jié)果視情確定具體調(diào)整方式。任務序列的調(diào)整方式主要有3 種:一是基于既有知識的序列信息補全;二是針對部分分域任務的局部作戰(zhàn)序列調(diào)整;三是針對整體目標變化等情況對整個作戰(zhàn)過程的全局全域調(diào)整。對任務序列的重規(guī)劃機制能夠進一步提升AI 應對不確定因素的能力,將任務序列的規(guī)劃與執(zhí)行過程更好地統(tǒng)一起來。
作為底層微觀數(shù)據(jù)型AI 的核心落地模型,深度強化學習模型利用深度神經(jīng)網(wǎng)絡分析態(tài)勢,在獎勵函數(shù)作用下進行動作的預測輸出。面向聯(lián)合戰(zhàn)役兵棋的深度強化學習模型,其作用效果受限于與宏觀知識型AI 的聯(lián)動機制、態(tài)勢輸入及動作空間設計、獎勵函數(shù)構建形式等。在聯(lián)合戰(zhàn)役兵棋中,一個單獨的智能體難以對諸多差異性力量單元進行全面有效控制。宏觀知識型AI 根據(jù)各力量單元的作用域?qū)ψ鲬?zhàn)空間進行分解,微觀數(shù)據(jù)型AI 在此基礎上圍繞相同的任務目標,構建若干功能獨立彼此不發(fā)生交聯(lián)的智能體。在一個決策周期內(nèi)諸智能體基于自身因素考量同時進行決策,并根據(jù)相應任務的動作空間構建智能體具體的策略網(wǎng)絡。每一個智能體控制能夠執(zhí)行某一特定任務的實體單位全體,策略網(wǎng)絡輸出為所要執(zhí)行的具體任務,以及執(zhí)行任務的具體主體與客體。上述輸出共同組成一個完整的任務邏輯閉環(huán)?;诂F(xiàn)代武器復合式平臺化的設計理念,諸多武器裝備單元能夠遂行多樣化作戰(zhàn)任務并非僅針對特定任務的專器專用。由于各任務域智能體的執(zhí)行主體可能會產(chǎn)生任務執(zhí)行沖突,因而需要引入專門的沖突消解模塊。沖突消解模塊以知識規(guī)則形式對任務智能體執(zhí)行任務的順序關系等進行限定。
聯(lián)合作戰(zhàn)是未來戰(zhàn)爭的主要樣式。聯(lián)合戰(zhàn)役兵棋系統(tǒng)是進行聯(lián)合作戰(zhàn)問題研究的重要依托。聯(lián)合戰(zhàn)役兵棋對抗是基于不完全信息的復雜博弈,聯(lián)合戰(zhàn)役兵棋的智能化研究具有迫切而現(xiàn)實的軍事需求。競技游戲領域中大放異彩的深度強化學習技術并非解決軍事博弈問題的萬能良藥。聯(lián)合戰(zhàn)役兵棋自身的復雜性為深度強化學習技術運用設置了障礙,機器與人類知識的融合是實現(xiàn)智能化兵棋推演的不二選擇。本文所提出的體系框架既著眼技術的現(xiàn)實情況,又充分考慮未來技術的可能發(fā)展,能夠適用于AI 整體聯(lián)動、人機混合乃至人機融合等多種智能組織形式,具有一定適應性與較強擴展性。言而總之,數(shù)據(jù)驅(qū)動的建模方式與知識規(guī)則建模方式的高效協(xié)作,將為更高階智能的涌現(xiàn)創(chuàng)造可能。尋找兩種建模方式融合效果的最佳平衡點將成為未來一個階段智能博弈技術研究的重要方向。