亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

聯(lián)合戰(zhàn)役兵棋AI設(shè)計(jì)難點(diǎn)問題研究?

2022-02-18 09:03:08賀筱媛陶九陽

艦船電子工程 2022年11期

任航賀筱媛陶九陽

（1.國防大學(xué) 北京 100091）（2.中國人民解放軍31113部隊(duì) 南京 210008）

1 引言

兵棋是重要的作戰(zhàn)模擬手段形式，它使用棋盤和棋子代表真實(shí)的理信息和軍事力量，利用從軍事實(shí)踐活動(dòng)中獲得的經(jīng)驗(yàn)、原則和數(shù)據(jù)提煉形成規(guī)則，結(jié)合統(tǒng)計(jì)概率體現(xiàn)戰(zhàn)場(chǎng)的偶然性和不確定性。兵棋發(fā)展緊隨時(shí)代腳步，與軍事指揮發(fā)展同步，兵棋所覆蓋的領(lǐng)域由傳統(tǒng)的陸、海、空三維延伸至網(wǎng)絡(luò)、電磁以及太空等領(lǐng)域。

近年來以深度強(qiáng)化學(xué)習(xí)技術(shù)為代表的AI技術(shù)在游戲領(lǐng)域獲得巨大成功，相繼攻克了圍棋、紙牌和復(fù)雜的即時(shí)策略游戲［1～7］。兵棋決策遂成為智能技術(shù)亟待突破的下一個(gè)領(lǐng)域前沿。聯(lián)合戰(zhàn)役兵棋由于力量構(gòu)成以及層級(jí)關(guān)系自然成為當(dāng)前兵棋智能化研究的領(lǐng)域高地。伴隨聯(lián)合演訓(xùn)活動(dòng)深入開展，聯(lián)合戰(zhàn)役兵棋智能化應(yīng)用需求也愈發(fā)急切。由于專業(yè)兵棋特別是聯(lián)合戰(zhàn)役兵棋嚴(yán)肅的軍事背景與游戲有著諸多差異，以致為相應(yīng)AI技術(shù)設(shè)置了應(yīng)用障礙。本文在梳理兵棋及兵棋研究歷史現(xiàn)狀基礎(chǔ)上，立足聯(lián)合戰(zhàn)役兵棋功能定位并結(jié)合聯(lián)合戰(zhàn)役兵棋智能化軍事需求，將聯(lián)合戰(zhàn)役兵棋與典型強(qiáng)化學(xué)習(xí)環(huán)境進(jìn)行比較，分析相關(guān)技術(shù)落地中存在的實(shí)現(xiàn)難點(diǎn)。

2 兵棋及兵棋智能化研究的歷史現(xiàn)狀

自普魯士宮廷顧問馮·萊斯維茨肇始現(xiàn)代兵棋理論在國外發(fā)展已兩百余年。世界兵棋研究的中心從其誕生地的德國轉(zhuǎn)向現(xiàn)今的美國。20世紀(jì)80年代起美軍先后開發(fā)了聯(lián)合戰(zhàn)區(qū)級(jí)模擬系統(tǒng)（Joint Theater Level Simulation，JTLS）、聯(lián)合沖突戰(zhàn)術(shù)模擬系統(tǒng)（Joint Conflict and Tactical Simulation，JCATS）等典型兵棋系統(tǒng)，用以對(duì)作戰(zhàn)方案進(jìn)行輔助分析與評(píng)估。美軍在智能兵棋推演的初步嘗試可以追溯至2007年美國防部高級(jí)研究計(jì)劃局（De?fense Advanced Research Projects Agency，DARPA）資助下啟動(dòng)的“深綠”計(jì)劃［8］。美軍寄希望通過實(shí)現(xiàn)兵棋系統(tǒng)的自主決策控制從而擺脫人在回路推演方式的諸多運(yùn)用限制。系統(tǒng)核心包括“指揮員助手”、“水晶球”以及“閃電戰(zhàn)”三大子功能模塊［9］。其中，“指揮員助手”模塊是人機(jī)接口工程，試圖實(shí)現(xiàn)從指揮作業(yè)草圖到作戰(zhàn)方案自動(dòng)生成的轉(zhuǎn)變；“閃電戰(zhàn)”模塊實(shí)現(xiàn)系統(tǒng)推演仿真，快速生成可能態(tài)勢(shì)用以輔助作戰(zhàn)計(jì)劃?rùn)z驗(yàn)；“水晶球”模塊主要實(shí)現(xiàn)戰(zhàn)場(chǎng)態(tài)勢(shì)認(rèn)知的作用，輔助指揮員構(gòu)建未來可能的態(tài)勢(shì)圖景。由于龐大搜索空間加之算力缺乏，“深綠”計(jì)劃最終擱淺。隨著機(jī)器學(xué)習(xí)為代表的新興智能方法出現(xiàn)，兵棋智能化研究在短暫沉寂后又重新趨于活絡(luò)。2020年DARPA啟動(dòng)“游戲破壞者”項(xiàng)目計(jì)劃，希圖在專業(yè)兵棋CMANO上實(shí)現(xiàn)人工智能技術(shù)的嵌入融合。同年蘭德公司發(fā)布題為《思維機(jī)器時(shí)代的威懾》專題報(bào)告，重點(diǎn)針對(duì)在未來戰(zhàn)爭(zhēng)中智能化武器系統(tǒng)對(duì)國家力量威懾與升級(jí)的影響進(jìn)行兵棋推演［10］。

較之國外對(duì)兵棋智能推演的研究，國內(nèi)研究起步相對(duì)較晚。2017年起中國指控學(xué)會(huì)連續(xù)多年舉辦“全國兵棋推演大賽”。幾屆比賽中機(jī)器智能組的冠軍相繼為中科院自動(dòng)化研究所、國防科技大學(xué)所摘得。上述團(tuán)隊(duì)研發(fā)的“CASIA-先知V1.0”、“戰(zhàn)顱”系統(tǒng)，在人機(jī)對(duì)抗賽中以明顯優(yōu)勢(shì)擊敗人類組冠軍。2021年以臨機(jī)應(yīng)變?yōu)橹黝}，開創(chuàng)圖靈測(cè)試比賽模式的首屆“廟算杯”人機(jī)對(duì)抗測(cè)試賽成功舉行。在人機(jī)混合對(duì)戰(zhàn)中，中科院自動(dòng)化所研發(fā)的智能體AlphaWar順利通過了通過圖靈測(cè)試，并以一分劣勢(shì)位居排名第一的人類選手之后。

國內(nèi)圍繞兵棋智能化的部分理論探索工作有：張可等以模糊遺傳系統(tǒng)為基礎(chǔ)建立兵棋決策的控制框架［11］；劉滿等通過挖掘歷史數(shù)據(jù)，利用兵棋的基本規(guī)則以及多屬性綜合評(píng)價(jià)軟優(yōu)選算法進(jìn)行棋子控制［12］；李琛等將強(qiáng)化學(xué)習(xí)方法與規(guī)則相結(jié)合，基于Actor-Critic框架和產(chǎn)生式戰(zhàn)術(shù)規(guī)則研究多智能體決策方法［13］；Hanchao Wang等提出基于多智能體強(qiáng)化學(xué)習(xí)方法對(duì)棋子單元進(jìn)行分層控制［14］；程愷等面向戰(zhàn)術(shù)兵棋提出兵棋AI的設(shè)計(jì)框架［15］。

總體來看，相關(guān)理論研究及產(chǎn)品主要集中于戰(zhàn)術(shù)層級(jí)，所包含的實(shí)體單位規(guī)模數(shù)量較為有限，實(shí)體間的指揮控制關(guān)系相對(duì)簡(jiǎn)單。研究使用的平臺(tái)偏重于游戲娛樂，缺少軍事規(guī)則約束，與真實(shí)作戰(zhàn)場(chǎng)景還有不小距離。在這樣平臺(tái)中進(jìn)行軍事決策問題研究，往往會(huì)由于微操等原因?qū)е聸Q策問題退化為單純的速度比拼，將軍事決策問題這個(gè)根本忽視。

3 聯(lián)合戰(zhàn)役兵棋智能化軍事需求分析

兵棋服務(wù)的對(duì)象核心是各層級(jí)指揮員，是指揮員學(xué)習(xí)戰(zhàn)爭(zhēng)規(guī)律錘煉戰(zhàn)爭(zhēng)思維的依托平臺(tái)，而非單純的軍事技能訓(xùn)練工具。兵棋主要用于戰(zhàn)爭(zhēng)分析與軍事訓(xùn)練，突出作戰(zhàn)過程的謀略和對(duì)抗特性。不同兵棋所關(guān)注問題的層級(jí)粒度不盡相同。指揮員決策的導(dǎo)向作用在戰(zhàn)略戰(zhàn)役層級(jí)更為凸顯，戰(zhàn)斗層級(jí)以上兵棋刻畫重點(diǎn)由交戰(zhàn)細(xì)節(jié)轉(zhuǎn)向決策本身，兵棋模型構(gòu)模精細(xì)程度逐漸減弱，決策輻射作用范圍逐漸擴(kuò)展。戰(zhàn)役兵棋一方面凸顯決策這個(gè)中心功能，另一方面聚焦決策在戰(zhàn)術(shù)層級(jí)上的末端執(zhí)行，可謂起點(diǎn)于戰(zhàn)役，落點(diǎn)在戰(zhàn)術(shù)。

聚焦決策特別是關(guān)乎全局的宏觀決策是聯(lián)合戰(zhàn)役兵棋關(guān)注重點(diǎn)。聯(lián)合戰(zhàn)役兵棋直接應(yīng)用于作戰(zhàn)籌劃以及指揮對(duì)抗訓(xùn)練。作戰(zhàn)籌劃可以作為一個(gè)環(huán)節(jié)融入指揮對(duì)抗訓(xùn)練中，也可以作為一個(gè)獨(dú)立部分單獨(dú)運(yùn)用。美軍在其聯(lián)合出版物JP5-0中明確規(guī)定兵棋推演在聯(lián)合作戰(zhàn)計(jì)劃制定流程中的地位作用。表1簡(jiǎn)要梳理了聯(lián)合戰(zhàn)役兵棋推演對(duì)智能化的典型需求。其中，智能指揮官、智能輔助決策以及智能對(duì)手重點(diǎn)關(guān)注決策智能。智能指揮官輔助指揮員以快速推演的形式對(duì)作戰(zhàn)方案進(jìn)行檢驗(yàn)評(píng)估，以期及時(shí)發(fā)現(xiàn)方案中的漏洞不足進(jìn)而對(duì)方案進(jìn)行迭代升級(jí)。智能輔助決策重點(diǎn)就指揮員決策進(jìn)行細(xì)化，將戰(zhàn)役級(jí)任務(wù)向下分解為能夠落地的戰(zhàn)術(shù)行動(dòng)。智能指揮官、智能輔助決策共同構(gòu)成智能紅軍，與智能對(duì)手即智能藍(lán)軍相對(duì)應(yīng)。

表1 聯(lián)合戰(zhàn)役兵棋智能化需求分析簡(jiǎn)表

智能藍(lán)軍主要構(gòu)成訓(xùn)練或方案檢驗(yàn)過程中的條件對(duì)手，與智能紅軍類似但又非完全一致。與智能紅軍相比智能藍(lán)軍的構(gòu)設(shè)要求及實(shí)現(xiàn)難度更高。在進(jìn)行基本的全維對(duì)抗外，還要盡可能地挖掘出所模擬對(duì)象的風(fēng)格特質(zhì)并以有效的方法手段最大化地加以呈現(xiàn)。智能紅軍直接對(duì)接指揮員及參謀團(tuán)隊(duì)更強(qiáng)調(diào)與之共同的知識(shí)理解與表達(dá)，因而決策的可解釋性成為智能紅軍決策建模的重點(diǎn)；智能藍(lán)軍作為指揮員陪練，決策建模偏重于決策模型與對(duì)手決策模式約束的結(jié)合方式上。

智能紅軍抑或是智能藍(lán)軍是兵棋智能的外在應(yīng)用展現(xiàn)形式，除去見招拆招般的應(yīng)對(duì)以外，聯(lián)合戰(zhàn)役兵棋AI應(yīng)實(shí)現(xiàn)科學(xué)計(jì)劃與靈活作戰(zhàn)控制間的統(tǒng)一。聯(lián)合戰(zhàn)役兵棋決策智能需要凸顯復(fù)雜戰(zhàn)役態(tài)勢(shì)下智能的穩(wěn)局控局能力，面向終態(tài)目標(biāo)的長(zhǎng)程規(guī)劃與階段目標(biāo)下的有效執(zhí)行能力，依托方案計(jì)劃的協(xié)調(diào)統(tǒng)籌與機(jī)變處置能力。由OODA理論聯(lián)合作戰(zhàn)指揮過程是一個(gè)以觀察、判斷、決策、行動(dòng)為核心的滾動(dòng)向前迭代過程。對(duì)抗各方通過一方面加速己方OODA循環(huán)另一方面力圖打破對(duì)方OODA循環(huán)鏈路方式握緊戰(zhàn)爭(zhēng)主動(dòng)權(quán)，從而將對(duì)手置于己方作戰(zhàn)節(jié)奏下。聯(lián)合作戰(zhàn)復(fù)雜特性決定了方案計(jì)劃對(duì)作戰(zhàn)組織的重要作用。方案計(jì)劃為各作戰(zhàn)行動(dòng)的協(xié)調(diào)提供了統(tǒng)一的參照基準(zhǔn)，作戰(zhàn)行動(dòng)通過方案計(jì)劃實(shí)現(xiàn)邏輯串聯(lián)，在時(shí)域、空域、頻域等方面完成功能組織的同步。

4 聯(lián)合戰(zhàn)役兵棋與典型強(qiáng)化學(xué)習(xí)AI平臺(tái)環(huán)境比較

4.1 典型強(qiáng)化學(xué)習(xí)AI研究平臺(tái)環(huán)境簡(jiǎn)介

街機(jī)學(xué)習(xí)環(huán)境（Arcade Learning Environment，ALE）是通過游戲表現(xiàn)評(píng)價(jià)智能體通用能力的平臺(tái)［17］，其交互的對(duì)象是模擬Atari 2600的游戲環(huán)境［18］，內(nèi)容涵蓋搏擊、射擊、競(jìng)技、冒險(xiǎn)等多種類型。圍繞AI測(cè)試相關(guān)研究者挑選出57種固定游戲形成 Atari-57［17，19］評(píng)價(jià)基線，并將人類玩家平均得分（Human Normalized Score，HNS）作為衡量AI效果度量的依據(jù)標(biāo)準(zhǔn)。

OpenAI Gym是OpenAI推出的強(qiáng)化學(xué)習(xí)開源測(cè)試平臺(tái)。Gym涵蓋經(jīng)典控制游戲、機(jī)器人操作、文字游戲以及Atari視頻游戲等不同類型的仿真環(huán)境。機(jī)器人操作使用MuJoCo物理引擎，用于研究機(jī)器人的精細(xì)仿真控制。Atari游戲部分直接對(duì)封裝了ALE內(nèi)容。Gym提供標(biāo)準(zhǔn)化的學(xué)習(xí)輔助環(huán)境，智能體與環(huán)境的交互、仿真環(huán)境的步進(jìn)都遵循嚴(yán)格的協(xié)議規(guī)范，仿真結(jié)果連續(xù)穩(wěn)定向外輸出。

星際爭(zhēng)霸是一款即時(shí)戰(zhàn)略游戲，涉及微觀動(dòng)作操控、宏觀策略規(guī)劃、多任務(wù)學(xué)習(xí)以及多智能體協(xié)作等復(fù)雜決策問題。其與軍事決策高度的相似性使其具有極強(qiáng)的軍事借鑒價(jià)值。DeepMind與暴雪公司合作發(fā)布的學(xué)習(xí)環(huán)境SC2LE［20］同樣是智能研究重要的平臺(tái)。SC2LE包含應(yīng)用程序接口API、Py?thon開源工具PySC2以及數(shù)量巨大的對(duì)戰(zhàn)數(shù)據(jù)集。

棋牌類游戲作為受眾廣泛的博弈游戲同樣受到關(guān)注。得克薩斯農(nóng)工大學(xué)設(shè)計(jì)并開源了面向棋牌類游戲的強(qiáng)化學(xué)習(xí)平臺(tái)RLCard。RLCard支持斗地主、麻將、21點(diǎn)等八種牌類游戲，在其上有多種強(qiáng)化學(xué)習(xí)算法實(shí)現(xiàn)并能夠?qū)崿F(xiàn)并行訓(xùn)練［21］。RL?Card通過預(yù)訓(xùn)練模型或規(guī)則代替對(duì)手，使整個(gè)游戲變?yōu)榛谕婕乙暯堑膯沃悄荏w接口，并按照Ope?nAI Gym形式封裝環(huán)境。

表2 典型強(qiáng)化學(xué)習(xí)環(huán)境比較

4.2 聯(lián)合戰(zhàn)役兵棋環(huán)境特點(diǎn)及AI落地難點(diǎn)總結(jié)

深度強(qiáng)化學(xué)習(xí)綜合了深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)兩者優(yōu)點(diǎn)，深度學(xué)習(xí)實(shí)現(xiàn)信息知識(shí)的提取，強(qiáng)化學(xué)習(xí)重點(diǎn)在深度學(xué)習(xí)基礎(chǔ)上實(shí)現(xiàn)高水平?jīng)Q策。深度強(qiáng)化學(xué)習(xí)作為AI開發(fā)的關(guān)鍵技術(shù)，學(xué)習(xí)訓(xùn)練效果與環(huán)境高度相關(guān)。聯(lián)合戰(zhàn)役兵棋環(huán)境與典型強(qiáng)化學(xué)習(xí)AI環(huán)境相比更為復(fù)雜，無形中增加了兵棋AI的落地難度，主要困難挑戰(zhàn)集中在下述方面。

1）問題結(jié)構(gòu)規(guī)模復(fù)雜。聯(lián)合戰(zhàn)役兵棋決策規(guī)模與想定高度關(guān)聯(lián)，基于真實(shí)想定背景的聯(lián)合戰(zhàn)役兵棋棋子有數(shù)百個(gè)之多，所涉及的行動(dòng)指令數(shù)量分布從數(shù)百到上千條不等，與指令相關(guān)的參數(shù)類型、取值范圍千差萬別。以各擁有100個(gè)作戰(zhàn)實(shí)體單位的中等想定規(guī)模推演為例，其復(fù)雜度可能達(dá)到1014400量級(jí)。棋牌類游戲有著嚴(yán)格的規(guī)則制約，其問題規(guī)模難以與兵棋相比較。表3總結(jié)了常見的棋牌類游戲規(guī)模。星際爭(zhēng)霸、Dota這類RTS游戲雖然存在類似情況，但由于相對(duì)固定的場(chǎng)景設(shè)置因而問題量級(jí)規(guī)模遠(yuǎn)遜于兵棋。

表3 常見棋牌類游戲問題規(guī)模

2）實(shí)體間存在復(fù)雜的交互關(guān)聯(lián)關(guān)系。兵棋實(shí)體之間構(gòu)成復(fù)雜的交互關(guān)系網(wǎng)。伴隨作戰(zhàn)目的改變以及作戰(zhàn)進(jìn)程演進(jìn)，交互關(guān)系也在不斷調(diào)整。作戰(zhàn)體系中關(guān)鍵要素節(jié)點(diǎn)微小的變化都可能導(dǎo)致勝負(fù)天平發(fā)生不可逆的傾斜。作戰(zhàn)行動(dòng)間關(guān)聯(lián)密切，聚焦于戰(zhàn)役關(guān)節(jié)點(diǎn)各作戰(zhàn)力量單元在整個(gè)時(shí)間域、空間域、信息域中形成復(fù)雜的纏繞交錯(cuò)態(tài)勢(shì)。棋牌類游戲除牌面信息外不附加額外信息，RTS游戲中屬性信息相對(duì)有限屬性信息交互更多集中在傷害輸出方面，而兵棋實(shí)體中還包含有支援、保障、信息壓制等相關(guān)屬性信息。這些屬性信息及其之上衍生的關(guān)聯(lián)關(guān)系信息共同構(gòu)成AI決策所依賴的信息源。

3）不完全信息對(duì)作戰(zhàn)決策影響顯著。聯(lián)合戰(zhàn)役兵棋態(tài)勢(shì)以及對(duì)手信息的不確定程度更高。兵棋推演是不完全信息博弈對(duì)抗過程。由于存在“戰(zhàn)爭(zhēng)迷霧”，加之對(duì)手的隱真示假行動(dòng)，及時(shí)準(zhǔn)確掌握態(tài)勢(shì)信息愈發(fā)困難。不完全信息博弈在增加對(duì)抗性給人以更強(qiáng)體驗(yàn)感的同時(shí)也增大了決策難度。從現(xiàn)有博弈場(chǎng)景分析來看，圍棋對(duì)抗中雙方信息完全公開透明，斗地主、德州撲克中不完全信息體現(xiàn)在對(duì)手手牌的估計(jì)，兵棋及RTS游戲中不完全信息集中于敵方狀態(tài)信息以及可能行動(dòng)意圖的預(yù)判上。相較于敵方兵力信息，對(duì)敵方作戰(zhàn)意圖、行動(dòng)策略估計(jì)更加困難，訓(xùn)練AI從宏觀視角綜合把握局面的難度更大。

4）統(tǒng)計(jì)隨機(jī)因素增加了對(duì)模型的學(xué)習(xí)難度。兵棋在描述戰(zhàn)爭(zhēng)一般規(guī)律的同時(shí)，融合有大量統(tǒng)計(jì)模型以刻畫偶然因素的影響。隨機(jī)性的影響充斥于交戰(zhàn)毀傷、對(duì)目標(biāo)偵察發(fā)現(xiàn)結(jié)果等裁決中。相較于棋牌類游戲兵棋執(zhí)行結(jié)果展現(xiàn)出高度不確定性。兵棋狀態(tài)轉(zhuǎn)移結(jié)果表現(xiàn)為狀態(tài)轉(zhuǎn)移概率分布，這也是minimax搜索難以移植于兵棋的重要原因。諸多隨機(jī)因素進(jìn)一步增加了兵棋復(fù)雜程度，同樣增大了AI對(duì)兵棋模型結(jié)構(gòu)機(jī)理的捕捉以及學(xué)習(xí)難度。相較于游戲，基于model-based強(qiáng)化學(xué)習(xí)方法在聯(lián)合戰(zhàn)役兵棋中難以適用。學(xué)習(xí)出一個(gè)抽象的兵棋前向模型需要付出極高資源成本，因而無法像Atari游戲那樣利用習(xí)得模型進(jìn)行前向規(guī)劃。

5）可借鑒的兵棋樣本數(shù)據(jù)相對(duì)缺乏。Alpha?Go、AlphaStar等的成功離不開高質(zhì)量對(duì)戰(zhàn)數(shù)據(jù)的支持。通過模仿高水平人類玩家，AI能夠迅速形成初始決策判斷能力，為后續(xù)訓(xùn)練奠定良好基礎(chǔ)。戰(zhàn)爭(zhēng)不同于游戲只有少數(shù)真實(shí)案例及演習(xí)數(shù)據(jù)可供借鑒。一方面聯(lián)合作戰(zhàn)對(duì)專業(yè)性的要求為組織運(yùn)用聯(lián)合戰(zhàn)役兵棋推演設(shè)置了較高準(zhǔn)入門檻，聯(lián)合戰(zhàn)役兵棋的應(yīng)用領(lǐng)域決定其僅僅面向少數(shù)軍事人員；另一方面保密的要求更降低了受眾基礎(chǔ)，導(dǎo)致無法像棋牌游戲、RTS游戲那樣有著海量參考數(shù)據(jù)可供利用。特別對(duì)于模擬藍(lán)軍這樣有著更高質(zhì)量要求的數(shù)據(jù)則更是缺乏。

6）初始力量設(shè)置并非絕對(duì)均衡?；谡鎸?shí)想定情況的對(duì)陣雙方并非如游戲一樣力量對(duì)比大體相當(dāng)，以致推演初始就帶有明顯的局面優(yōu)劣差別，甚至可能出現(xiàn)一方實(shí)力對(duì)另一方全面碾壓的極端情形。兵棋推演中的不對(duì)稱特性主要表現(xiàn)在兩個(gè)方面：一是力量的不對(duì)稱性，集中體現(xiàn)在作戰(zhàn)力量多寡、武器性能強(qiáng)弱、信息手段優(yōu)劣等的差異上；二是作戰(zhàn)目標(biāo)的不對(duì)稱性，兵棋中作戰(zhàn)目標(biāo)與推演角色定位密切相關(guān)。兩方對(duì)戰(zhàn)的博弈游戲中消滅對(duì)手往往是其唯一目標(biāo)，而兵棋中作戰(zhàn)目標(biāo)受到自身紅藍(lán)角色背景制約。兵棋不對(duì)稱性間接造成一戰(zhàn)一棋這一比之棋類游戲的獨(dú)特運(yùn)用形式，導(dǎo)致諸如自博弈的強(qiáng)化學(xué)習(xí)訓(xùn)練方法無法直接運(yùn)用。

7）最終結(jié)果無法僅用簡(jiǎn)單絕對(duì)的勝負(fù)二元值描述。戰(zhàn)爭(zhēng)目的帶具有多目標(biāo)屬性特點(diǎn)，圍繞相關(guān)屬性目標(biāo)指揮員通過環(huán)環(huán)相扣的精心設(shè)計(jì)實(shí)現(xiàn)其戰(zhàn)役目的。根據(jù)指揮員的特點(diǎn)偏好，兵棋AI需要在不同目標(biāo)間平衡取舍以盡可能地實(shí)現(xiàn)指揮員的作戰(zhàn)意圖。此外，戰(zhàn)爭(zhēng)目標(biāo)并非一成不變，指揮員會(huì)根據(jù)戰(zhàn)場(chǎng)需要?jiǎng)討B(tài)進(jìn)行目標(biāo)調(diào)整，兵棋AI需要具有一定的策略適應(yīng)性，能夠根據(jù)獎(jiǎng)勵(lì)函數(shù)的變化進(jìn)行策略的及時(shí)調(diào)整。

5 結(jié)語

伴隨以深度強(qiáng)化學(xué)習(xí)為代表的AI技術(shù)在競(jìng)技游戲中不斷攻城略地，數(shù)據(jù)驅(qū)動(dòng)的智能博弈對(duì)抗建模技術(shù)愈發(fā)受到行業(yè)領(lǐng)域關(guān)注。聯(lián)合戰(zhàn)役兵棋作為一種不完全信息下的復(fù)雜博弈環(huán)境，既有游戲激烈對(duì)抗的影子又兼具軍事問題的嚴(yán)肅主題。聯(lián)合戰(zhàn)役兵棋與戰(zhàn)術(shù)兵棋、RTS游戲、棋類游戲等相比有著明顯的特點(diǎn)區(qū)分。這些特點(diǎn)導(dǎo)致單純以強(qiáng)化學(xué)習(xí)為核心構(gòu)建的AI難以取得令人滿意的結(jié)果。一種現(xiàn)實(shí)而可行的解決方式是將人的知識(shí)與強(qiáng)化學(xué)習(xí)相結(jié)合，重點(diǎn)圍繞決策框架結(jié)構(gòu)、訓(xùn)練設(shè)計(jì)以及模型構(gòu)建等方面尋找解決問題的創(chuàng)新可能，具體知識(shí)與強(qiáng)化學(xué)習(xí)的結(jié)合方式尚有待后續(xù)更為深入的研究工作。