李 東,許 霄,吳 琳, 胡曉峰
(國(guó)防大學(xué)聯(lián)合作戰(zhàn)學(xué)院,北京 100091)
隨著DeepMind公司相繼在Atari游戲[1]和圍棋[3]中取得超過(guò)人類(lèi)水平,以深度強(qiáng)化為代表的智能決策技術(shù)吸引了學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注。決策問(wèn)題正成為繼計(jì)算、感知后人工智能領(lǐng)域新的研究前沿陣地。
作為軍事指揮訓(xùn)練和作戰(zhàn)問(wèn)題分析的重要平臺(tái),作戰(zhàn)仿真模擬系統(tǒng)(也稱(chēng)兵棋)已成為各軍事大國(guó)研究的主要途徑之一[2]。由于歷史和學(xué)科發(fā)展原因,兵棋系統(tǒng)當(dāng)前主要用于對(duì)傳統(tǒng)作戰(zhàn)理論和試驗(yàn)方法的補(bǔ)充,即使用主體是人。將智能決策方法應(yīng)用于戰(zhàn)役推演環(huán)境的研究方興未艾。
本文以聯(lián)合戰(zhàn)役推演仿真環(huán)境作為基礎(chǔ)平臺(tái),從戰(zhàn)役決策問(wèn)題本身出發(fā),結(jié)合聯(lián)合戰(zhàn)役仿真的特點(diǎn),探討將基于深度強(qiáng)化學(xué)習(xí)的決策技術(shù)應(yīng)用到作戰(zhàn)決策這一特殊問(wèn)題的可能性,以及面臨的困難和挑戰(zhàn),為智能決策在作戰(zhàn)指揮中的研究提供參考。
在取得圍棋戰(zhàn)勝人類(lèi)頂級(jí)選手的里程碑式的成果后,DeepMind團(tuán)隊(duì)瞄準(zhǔn)了多智能體實(shí)時(shí)交互這一領(lǐng)域,依靠自身在深度強(qiáng)化學(xué)習(xí)領(lǐng)域的技術(shù)積累以及Google公司強(qiáng)大的計(jì)算資源,一直引領(lǐng)著星際爭(zhēng)霸2智能技術(shù)的突破,其開(kāi)發(fā)的智能體AlphaStar[3]于2019年取得了戰(zhàn)勝人類(lèi)職業(yè)選手的輝煌成績(jī),成為第一個(gè)采用端到端的學(xué)習(xí)技術(shù)達(dá)到此水準(zhǔn)的計(jì)算機(jī)程序。在深度強(qiáng)化學(xué)習(xí)取得矚目之前,參加星際爭(zhēng)霸游戲AI賽事的隊(duì)伍們大多使用基于規(guī)則的技術(shù)嘗試打敗游戲內(nèi)置程序,普遍達(dá)不到人類(lèi)專(zhuān)業(yè)電競(jìng)選手的水準(zhǔn)。
作戰(zhàn)決策問(wèn)題的研究一般基于作戰(zhàn)仿真平臺(tái),按照仿真層次可分為戰(zhàn)略級(jí)、戰(zhàn)役級(jí)、戰(zhàn)術(shù)級(jí)和武器平臺(tái)級(jí)仿真。其中,基于計(jì)算機(jī)生成兵力(CGF)的戰(zhàn)術(shù)級(jí)智能決策技術(shù)研究較為充分,可大致分為兩類(lèi):面向知識(shí)工程的方法和基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法[4],如表1所示。知識(shí)工程的方法以專(zhuān)家系統(tǒng)為代表,在領(lǐng)域知識(shí)構(gòu)建的規(guī)則集上采用模糊推理和決策樹(shù)等技術(shù),指導(dǎo)智能體產(chǎn)生行動(dòng)。這些方法所采用的具體決策技術(shù)不盡相同,但共同缺點(diǎn)是規(guī)則組織難以維護(hù),拓展性不強(qiáng)?;趥鹘y(tǒng)機(jī)器學(xué)習(xí)的方法被用到一些電子游戲,采用樹(shù)搜索、人工神經(jīng)網(wǎng)絡(luò)、基于上下文推理等技術(shù),從收集的經(jīng)驗(yàn)數(shù)據(jù)訓(xùn)練模型指導(dǎo)決策輸出。這些方法的共同缺點(diǎn)是高度依賴(lài)訓(xùn)練數(shù)據(jù),泛化能力弱,難以應(yīng)對(duì)新情況。兩種主要技術(shù)途徑的局限阻礙了軍事智能決策技術(shù)進(jìn)一步應(yīng)用更高的層次和更復(fù)雜的場(chǎng)景。
表1 傳統(tǒng)智能決策技術(shù)及其局限
盡管強(qiáng)化學(xué)習(xí)及一般的人工智能方法在作戰(zhàn)決策領(lǐng)域已有不少運(yùn)用,但多是在軍種和戰(zhàn)術(shù)層級(jí)上進(jìn)行的[5-7]。戰(zhàn)術(shù)層級(jí)的決策及控制問(wèn)題由于狀態(tài)單一、動(dòng)作可數(shù)、因果直接、反饋即時(shí)等原因,邊界比較容易界定,給深入研究提供了很好的環(huán)境。而與之相對(duì)地,戰(zhàn)役層級(jí)的決策問(wèn)題狀態(tài)廣袤、動(dòng)作眾多、反饋延遲等因素,原因不僅在于戰(zhàn)場(chǎng)規(guī)模及復(fù)雜度的增大,還在于高層決策本身的過(guò)程有其獨(dú)特特點(diǎn)。聯(lián)合戰(zhàn)役層級(jí)相對(duì)于軍種戰(zhàn)術(shù)層級(jí)決策,決策層級(jí)變高,變量規(guī)模增大,以及過(guò)程的復(fù)雜性都給決策的智能化帶來(lái)極大挑戰(zhàn),而且針對(duì)不同作戰(zhàn)場(chǎng)景有多種個(gè)性化研究的需求,有進(jìn)一步研究的空間。
聯(lián)合戰(zhàn)役仿真旨在利用計(jì)算機(jī)仿真技術(shù),還原戰(zhàn)役進(jìn)程。聯(lián)合戰(zhàn)役仿真在仿真層級(jí)上處于中間位置,決定了它相對(duì)于純戰(zhàn)術(shù)仿真的抽象性,以及較戰(zhàn)略仿真的具體性。一般認(rèn)為,戰(zhàn)役級(jí)仿真的層次應(yīng)與其訓(xùn)練戰(zhàn)役指揮員的目的保持一致,即避免底層過(guò)多的戰(zhàn)術(shù)動(dòng)作,因戰(zhàn)役指揮員不能指揮到一機(jī)一艦;同時(shí)不能省略必要的體現(xiàn)戰(zhàn)術(shù)素養(yǎng)的交戰(zhàn)過(guò)程,才能客觀反映戰(zhàn)爭(zhēng)的行進(jìn)。
文獻(xiàn)[2]定義了戰(zhàn)爭(zhēng)模擬的基本元素:實(shí)體、行動(dòng)和交互,在聯(lián)合戰(zhàn)役仿真層面的特點(diǎn)可以概況為實(shí)體多樣、行為異質(zhì)和交互復(fù)雜,下面依次簡(jiǎn)述。
一般認(rèn)為,由兩個(gè)以上軍種戰(zhàn)役軍團(tuán)共同實(shí)施的戰(zhàn)役稱(chēng)為聯(lián)合戰(zhàn)役。相應(yīng)地,仿真實(shí)體應(yīng)涵蓋兩個(gè)以上軍種戰(zhàn)役兵團(tuán),必然涉及多種性能差異較大的實(shí)體。
聯(lián)合戰(zhàn)役仿真一般模擬地面、空中、海上、情報(bào)和后勤行動(dòng)的實(shí)施。為了模擬相對(duì)完整的聯(lián)合作戰(zhàn)進(jìn)展,各作戰(zhàn)活動(dòng)應(yīng)涵蓋以下基本功能。
從表2中可以看出,不同行動(dòng)在時(shí)間和空間維度差異性較大。當(dāng)所有活動(dòng)在同一世界觀下進(jìn)行時(shí),必然呈現(xiàn)行動(dòng)效果的緩急差異。例如同樣是一小時(shí)時(shí)間,地面部隊(duì)可能只能移動(dòng)40公里,而空中任務(wù)可以在幾千公里的廣闊疆域上來(lái)回幾趟。而海上單位可能移動(dòng)更小。大部分地面或海上單位可能處于靜止?fàn)顟B(tài)。情報(bào)后勤對(duì)戰(zhàn)場(chǎng)態(tài)勢(shì)的影響可能滯后或者不明顯。這些行動(dòng)效果的差異正是對(duì)客觀世界的模擬造成的,反過(guò)來(lái)也影響在這樣的世界觀下進(jìn)行的決策。
表2 聯(lián)合戰(zhàn)役仿真行動(dòng)
在兵力交互方面,大型兵棋系統(tǒng)內(nèi)部涉及眾多參戰(zhàn)兵力,交互過(guò)程異常復(fù)雜,一般采用離散事件仿真機(jī)制對(duì)交戰(zhàn)結(jié)果進(jìn)行等效,以此改變戰(zhàn)場(chǎng)的形態(tài)。離散事件仿真方法用事件隊(duì)列維持事件的生命周期,所有事件按事件順序發(fā)生效果,將結(jié)果依次輸出。當(dāng)事件處理服務(wù)速度低于事件產(chǎn)生速度時(shí)就會(huì)出現(xiàn)排隊(duì)現(xiàn)象,一般大量事件的涌入會(huì)造成交互效果的延遲。
從上節(jié)描述可以看出,聯(lián)合戰(zhàn)役仿真環(huán)境與即時(shí)策略游戲有很多共同點(diǎn):大規(guī)模的狀態(tài)和動(dòng)作空間,復(fù)雜的任務(wù)完成設(shè)定以及需要長(zhǎng)程決策等。受到AlphaStar等一些強(qiáng)化學(xué)習(xí)智能體在即時(shí)策略游戲中的啟發(fā),也嘗試將類(lèi)似的方法遷移到戰(zhàn)役決策中來(lái),然而實(shí)踐并非一帆風(fēng)順。本節(jié)結(jié)合強(qiáng)化學(xué)習(xí)問(wèn)題設(shè)定和聯(lián)合戰(zhàn)役仿真的基本特點(diǎn),梳理戰(zhàn)役決策對(duì)強(qiáng)化學(xué)習(xí)的挑戰(zhàn)。
聯(lián)合戰(zhàn)役仿真是對(duì)發(fā)生在現(xiàn)實(shí)世界中的戰(zhàn)爭(zhēng)活動(dòng)進(jìn)行模擬,整個(gè)戰(zhàn)場(chǎng)不僅包含多種異構(gòu)的作戰(zhàn)單元和目標(biāo),還包含多種地形和天氣信息,實(shí)體與實(shí)體之間、實(shí)體與環(huán)境之間的交互比較復(fù)雜,整個(gè)狀態(tài)變化接近連續(xù)。由于戰(zhàn)爭(zhēng)迷霧的影響,參戰(zhàn)一方往往只能感知局部戰(zhàn)場(chǎng)態(tài)勢(shì),并且感知范圍隨著偵察能力變化而變化。從對(duì)戰(zhàn)場(chǎng)環(huán)境施加影響方面看,能做出動(dòng)作的作戰(zhàn)單元差異巨大,有的能對(duì)局部戰(zhàn)場(chǎng)造成顯著影響,大部分只能影響其作用對(duì)象,通常是另一個(gè)作戰(zhàn)單元或目標(biāo)。
站在強(qiáng)化學(xué)習(xí)角度,代替作戰(zhàn)指揮的智能體所面臨的狀態(tài)空間可用全部參戰(zhàn)單元和戰(zhàn)場(chǎng)環(huán)境的高維向量表示。由戰(zhàn)爭(zhēng)迷霧帶來(lái)的直接影響是只能建模部分可觀測(cè)的戰(zhàn)場(chǎng)狀態(tài)。而智能體作用于環(huán)境的動(dòng)作則包含所有能做出行動(dòng)的作戰(zhàn)單元,以及行動(dòng)參數(shù),這些行動(dòng)種類(lèi)及參數(shù)共同構(gòu)成巨大的動(dòng)作空間。高維狀態(tài)空間和多維離散動(dòng)作空間對(duì)智能體策略學(xué)習(xí)帶來(lái)可計(jì)算性的挑戰(zhàn)。目前學(xué)術(shù)界前沿未見(jiàn)類(lèi)似的強(qiáng)化學(xué)習(xí)環(huán)境作為基線。
強(qiáng)化學(xué)習(xí)中的模型是對(duì)環(huán)境的高度抽象,最重要的兩個(gè)功能是給出狀態(tài)轉(zhuǎn)移和釋放獎(jiǎng)勵(lì)信號(hào)。然而這兩項(xiàng)基本功能在聯(lián)合戰(zhàn)役仿真環(huán)境下都是默認(rèn)缺失的。
由于戰(zhàn)役仿真層次的抽象性和全局性,很難就整場(chǎng)態(tài)勢(shì)在具體動(dòng)作的情況下發(fā)生轉(zhuǎn)移建立模型。聯(lián)合戰(zhàn)役仿真中,作戰(zhàn)實(shí)體的交互通常只在瞬間改變相關(guān)實(shí)體的實(shí)力狀態(tài),但從長(zhǎng)遠(yuǎn)看可能對(duì)戰(zhàn)場(chǎng)態(tài)勢(shì)造成重要影響,例如通信樞紐的毀傷可能影響下級(jí)作戰(zhàn)單元的相應(yīng)速度。但將其建模為可用的狀態(tài)轉(zhuǎn)移概率或者函數(shù)面臨以下困難:1)狀態(tài)表示問(wèn)題,將戰(zhàn)役全局態(tài)勢(shì)表示成可轉(zhuǎn)移的統(tǒng)一形式是前提,而全局態(tài)勢(shì)的時(shí)空多樣性和由感知真實(shí)帶來(lái)的不完全性又給統(tǒng)一表示帶來(lái)難題。2)狀態(tài)變化的機(jī)理問(wèn)題,在態(tài)勢(shì)的統(tǒng)一描述下,難點(diǎn)在于如何解決局部態(tài)勢(shì)變化受因果機(jī)理支配進(jìn)而對(duì)全局態(tài)勢(shì)的影響。3)交互效果的不定期延遲,來(lái)源為觀測(cè)狀態(tài)的延遲和動(dòng)作實(shí)施的延遲。4)建模的不確定性和隨機(jī)性對(duì)狀態(tài)變化的影響,主要是戰(zhàn)役仿真引擎內(nèi)部對(duì)于交互的處理,加入了隨機(jī)性因素和近似的等效化處理。
在獎(jiǎng)勵(lì)信號(hào)釋放方面,戰(zhàn)役決策中呈現(xiàn)模糊、延遲和可變的性質(zhì)。獎(jiǎng)勵(lì)信號(hào)指引著強(qiáng)化學(xué)習(xí)智能體學(xué)習(xí)的方向,而戰(zhàn)役決策通常由作戰(zhàn)企圖牽引,細(xì)化為作戰(zhàn)目的,具體分解為一系列作戰(zhàn)任務(wù)。表面看可用這些作戰(zhàn)任務(wù)的完成度來(lái)近似戰(zhàn)役決策的獎(jiǎng)勵(lì)信號(hào),但對(duì)智能體做出的行動(dòng)很難具體量化以及其對(duì)作戰(zhàn)目的貢獻(xiàn)度。由上述討論可知,戰(zhàn)役決策帶來(lái)的不同領(lǐng)域的行動(dòng)在時(shí)間上及空間上差異巨大,本身很難再同一量級(jí)下衡量其對(duì)戰(zhàn)役任務(wù)完成的貢獻(xiàn)。此外,異質(zhì)行動(dòng)混在一起帶來(lái)的另外一個(gè)問(wèn)題是獎(jiǎng)勵(lì)分配問(wèn)題(credit assignment problem):如何分配不同性質(zhì)的行動(dòng)對(duì)同一作戰(zhàn)目的的貢獻(xiàn)度?例如一方發(fā)射導(dǎo)彈毀傷了對(duì)方的重要目標(biāo),前提是一個(gè)小時(shí)前派出的電子偵察機(jī)偵察到了該目標(biāo)的存在,如何量化偵察部隊(duì)和導(dǎo)彈部隊(duì)的貢獻(xiàn)?
在一定獎(jiǎng)勵(lì)信號(hào)可用的情況下,由于作戰(zhàn)決策下達(dá)到作戰(zhàn)任務(wù)完成可能持續(xù)很長(zhǎng)時(shí)間,該獎(jiǎng)勵(lì)被高度延遲。其中,戰(zhàn)役仿真的獨(dú)特性體現(xiàn)在仿真機(jī)制的一定自主性以及作戰(zhàn)行動(dòng)交互效果的延遲性上。戰(zhàn)場(chǎng)態(tài)勢(shì)并非因指揮員做出決策而直接發(fā)生變化,戰(zhàn)場(chǎng)態(tài)勢(shì)經(jīng)歷決策-行動(dòng)-交互的過(guò)程更加漫長(zhǎng)。
更嚴(yán)重的是,作戰(zhàn)目的本身往往隨戰(zhàn)役進(jìn)程的推進(jìn)而改變。改變的動(dòng)力可能來(lái)自指揮員,也可能來(lái)自戰(zhàn)場(chǎng)態(tài)勢(shì)本身的突變。在目標(biāo)可變情況下的強(qiáng)化學(xué)習(xí)本身是一個(gè)待突破的科學(xué)問(wèn)題。
馬爾科夫決策過(guò)程(MDP)為形式化強(qiáng)化學(xué)習(xí)問(wèn)題提供了一般的數(shù)學(xué)基礎(chǔ)。其中,狀態(tài)轉(zhuǎn)移的馬爾科夫假設(shè)為強(qiáng)化學(xué)習(xí)提供了“一步一積累”的理想情況,反映了行動(dòng)如何影響回報(bào),進(jìn)而為累積回報(bào)最大的目標(biāo)提供一般的計(jì)算原則。其背后存在行為改變狀態(tài)的單一因果律。然而該假設(shè)在真實(shí)世界中往往不成立,在戰(zhàn)役仿真環(huán)境中尤其如此。主要體現(xiàn)在:1)戰(zhàn)役進(jìn)程的驅(qū)動(dòng)因素問(wèn)題,戰(zhàn)役進(jìn)程的發(fā)展表面是受參戰(zhàn)方各自行動(dòng)及其交互的影響,而參戰(zhàn)方行動(dòng)受各自企圖以及作戰(zhàn)規(guī)劃影響。2)作戰(zhàn)任務(wù)之間的路徑依賴(lài)較為普遍,復(fù)雜任務(wù)的完成得以一系列子任務(wù)按照嚴(yán)格次序完成。
還有一些任務(wù)是持續(xù)性的,例如偵察。決策的執(zhí)行只是觸發(fā)該任務(wù)的起點(diǎn),但發(fā)揮作用的時(shí)間卻是隨機(jī)的,有時(shí)根據(jù)戰(zhàn)場(chǎng)態(tài)勢(shì)自行改變?nèi)蝿?wù)狀態(tài),進(jìn)而對(duì)戰(zhàn)場(chǎng)環(huán)境產(chǎn)生持續(xù)性影響。對(duì)于這類(lèi)任務(wù)的決策邏輯很難被智能體學(xué)習(xí)到。
在聯(lián)合戰(zhàn)役推演中,因雙方兵種、實(shí)力、武器平臺(tái)等帶來(lái)的不對(duì)稱(chēng)作戰(zhàn),再加上戰(zhàn)場(chǎng)對(duì)抗激烈程度不一,大部分時(shí)間無(wú)需頻繁決策。以3.3中描述的戰(zhàn)役三個(gè)階段為例,除第二階段直接對(duì)抗以外,第一、三階段的大部分時(shí)間無(wú)需決策。而一旦需要頻繁決策,智能體無(wú)法在單個(gè)時(shí)間步長(zhǎng)內(nèi)控制大量單位執(zhí)行不同類(lèi)型的動(dòng)作,這里既有仿真模型的限制,也有不同類(lèi)型的動(dòng)作所需時(shí)間差異大的問(wèn)題。而為了規(guī)避此問(wèn)題采用全場(chǎng)高頻決策會(huì)帶來(lái)大量沒(méi)有反饋的空動(dòng)作。另外,戰(zhàn)役級(jí)仿真模型一般因采用離散事件仿真機(jī)制,若決策頻率高于仿真模型調(diào)度事件的頻率,則決策毫無(wú)意義。
決策過(guò)程的非均勻性導(dǎo)致了智能體除了要學(xué)習(xí)決策內(nèi)容本身,理論上還要學(xué)習(xí)何時(shí)以何種頻率進(jìn)行決策,而后者相對(duì)于前者具有超越性,相當(dāng)于在兩個(gè)維度上同時(shí)進(jìn)行學(xué)習(xí),增加了策略?xún)?yōu)化的難度。如果推演過(guò)程的這種快慢決策具有一定模式,例如都是圍繞3.3中的三個(gè)階段固定模式進(jìn)行推演,兩個(gè)維度的學(xué)習(xí)并非不可能。然而這樣的限定無(wú)疑與決策的泛化性要求背道而馳。
游戲智能中大量運(yùn)用的有監(jiān)督預(yù)訓(xùn)練、分布式訓(xùn)練、自我對(duì)抗(self-play)、聯(lián)盟技術(shù)(league)等智能體訓(xùn)練方法對(duì)于聯(lián)合戰(zhàn)役仿真推演環(huán)境同樣存在難以適配問(wèn)題。
首先,戰(zhàn)役仿真推演由于推演目的、想定等因素,未能有效積累高質(zhì)量決策樣本,難以提供有監(jiān)督預(yù)訓(xùn)練的樣本。對(duì)既定想定和場(chǎng)景,受專(zhuān)業(yè)性要求,人工標(biāo)注決策過(guò)程的代價(jià)無(wú)法估計(jì)。
其次,大規(guī)模分布式訓(xùn)練是游戲智能領(lǐng)域中的基本手段,而戰(zhàn)役仿真引擎受管理約束無(wú)法在在商用訓(xùn)練云中大規(guī)模展開(kāi)訓(xùn)練。單位自建訓(xùn)練環(huán)境相對(duì)于戰(zhàn)役層決策智能體訓(xùn)練的復(fù)雜程度,難以讓有限的經(jīng)費(fèi)發(fā)揮作用。
自我對(duì)抗的訓(xùn)練模式同樣無(wú)法實(shí)現(xiàn)。典型場(chǎng)景下參與對(duì)抗的作戰(zhàn)雙方由于歷史和現(xiàn)實(shí)需求,通常配備較大差異的作戰(zhàn)裝備和能力,動(dòng)作空間有顯著的非對(duì)稱(chēng)性,無(wú)法直接應(yīng)用自我對(duì)抗的訓(xùn)練方式。非對(duì)稱(chēng)的智能體也限制了大規(guī)模的聯(lián)盟訓(xùn)練技術(shù)。
針對(duì)在廣袤的狀態(tài)空間和動(dòng)作空間中學(xué)習(xí)難題,分層強(qiáng)化學(xué)習(xí)提供了一條可能的道路:壓縮問(wèn)題空間到可解的程度。無(wú)論是從狀態(tài)或動(dòng)作垂直分層的指揮控制角度,還是以目標(biāo)牽引的時(shí)序抽象角度,都可以找到合適的途徑解決部分問(wèn)題。但基本維持在無(wú)模型的基于交互進(jìn)行學(xué)習(xí)。
戰(zhàn)役仿真環(huán)境帶來(lái)更本質(zhì)的挑戰(zhàn)在于模型本身,例如戰(zhàn)場(chǎng)狀態(tài)變化帶來(lái)的不確定性以、獎(jiǎng)勵(lì)的模糊性、決策過(guò)程的非馬爾科夫性和非均勻性等問(wèn)題,只能從環(huán)境模型層面加以解決。對(duì)于未知模型,大致可分為構(gòu)造模型和學(xué)習(xí)模型兩種途徑,前者需要進(jìn)一步提煉仿真經(jīng)驗(yàn),而后者需要大量高質(zhì)量數(shù)據(jù),是戰(zhàn)役推演所欠缺的。重構(gòu)精簡(jiǎn)環(huán)境模型的另一好處是進(jìn)一步壓縮問(wèn)題規(guī)模,使得訓(xùn)練成本降低,但需要領(lǐng)域?qū)<医Y(jié)合學(xué)習(xí)特點(diǎn)進(jìn)行建模。
本文從梳理了當(dāng)前軍事智能決策的研究現(xiàn)狀,以及將智能化方法運(yùn)用到戰(zhàn)役決策的前景,從聯(lián)合戰(zhàn)役仿真推演環(huán)境的描述出發(fā),分析了將強(qiáng)化學(xué)習(xí)應(yīng)用到戰(zhàn)役決策所面臨的挑戰(zhàn)。這些挑戰(zhàn)來(lái)源于強(qiáng)化學(xué)習(xí)的問(wèn)題設(shè)定和戰(zhàn)役推演環(huán)境運(yùn)行之間的鴻溝,并就可能的解決方案進(jìn)行了探討。這些問(wèn)題不少是在將深度強(qiáng)化學(xué)習(xí)技術(shù)運(yùn)用到戰(zhàn)役層決策的實(shí)踐活動(dòng)中總結(jié)而來(lái),旨在闡明問(wèn)題的科學(xué)屬性,并為類(lèi)似的嘗試提供一定的參考。