亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        聯(lián)合戰(zhàn)役兵棋AI設(shè)計(jì)難點(diǎn)問題研究?

        2022-02-18 09:03:08賀筱媛陶九陽
        艦船電子工程 2022年11期
        關(guān)鍵詞:兵棋指揮員戰(zhàn)役

        任 航 賀筱媛 陶九陽

        (1.國防大學(xué) 北京 100091)(2.中國人民解放軍31113部隊(duì) 南京 210008)

        1 引言

        兵棋是重要的作戰(zhàn)模擬手段形式,它使用棋盤和棋子代表真實(shí)的理信息和軍事力量,利用從軍事實(shí)踐活動(dòng)中獲得的經(jīng)驗(yàn)、原則和數(shù)據(jù)提煉形成規(guī)則,結(jié)合統(tǒng)計(jì)概率體現(xiàn)戰(zhàn)場(chǎng)的偶然性和不確定性。兵棋發(fā)展緊隨時(shí)代腳步,與軍事指揮發(fā)展同步,兵棋所覆蓋的領(lǐng)域由傳統(tǒng)的陸、海、空三維延伸至網(wǎng)絡(luò)、電磁以及太空等領(lǐng)域。

        近年來以深度強(qiáng)化學(xué)習(xí)技術(shù)為代表的AI技術(shù)在游戲領(lǐng)域獲得巨大成功,相繼攻克了圍棋、紙牌和復(fù)雜的即時(shí)策略游戲[1~7]。兵棋決策遂成為智能技術(shù)亟待突破的下一個(gè)領(lǐng)域前沿。聯(lián)合戰(zhàn)役兵棋由于力量構(gòu)成以及層級(jí)關(guān)系自然成為當(dāng)前兵棋智能化研究的領(lǐng)域高地。伴隨聯(lián)合演訓(xùn)活動(dòng)深入開展,聯(lián)合戰(zhàn)役兵棋智能化應(yīng)用需求也愈發(fā)急切。由于專業(yè)兵棋特別是聯(lián)合戰(zhàn)役兵棋嚴(yán)肅的軍事背景與游戲有著諸多差異,以致為相應(yīng)AI技術(shù)設(shè)置了應(yīng)用障礙。本文在梳理兵棋及兵棋研究歷史現(xiàn)狀基礎(chǔ)上,立足聯(lián)合戰(zhàn)役兵棋功能定位并結(jié)合聯(lián)合戰(zhàn)役兵棋智能化軍事需求,將聯(lián)合戰(zhàn)役兵棋與典型強(qiáng)化學(xué)習(xí)環(huán)境進(jìn)行比較,分析相關(guān)技術(shù)落地中存在的實(shí)現(xiàn)難點(diǎn)。

        2 兵棋及兵棋智能化研究的歷史現(xiàn)狀

        自普魯士宮廷顧問馮·萊斯維茨肇始現(xiàn)代兵棋理論在國外發(fā)展已兩百余年。世界兵棋研究的中心從其誕生地的德國轉(zhuǎn)向現(xiàn)今的美國。20世紀(jì)80年代起美軍先后開發(fā)了聯(lián)合戰(zhàn)區(qū)級(jí)模擬系統(tǒng)(Joint Theater Level Simulation,JTLS)、聯(lián)合沖突戰(zhàn)術(shù)模擬系統(tǒng)(Joint Conflict and Tactical Simulation,JCATS)等典型兵棋系統(tǒng),用以對(duì)作戰(zhàn)方案進(jìn)行輔助分析與評(píng)估。美軍在智能兵棋推演的初步嘗試可以追溯至2007年美國防部高級(jí)研究計(jì)劃局(De?fense Advanced Research Projects Agency,DARPA)資助下啟動(dòng)的“深綠”計(jì)劃[8]。美軍寄希望通過實(shí)現(xiàn)兵棋系統(tǒng)的自主決策控制從而擺脫人在回路推演方式的諸多運(yùn)用限制。系統(tǒng)核心包括“指揮員助手”、“水晶球”以及“閃電戰(zhàn)”三大子功能模塊[9]。其中,“指揮員助手”模塊是人機(jī)接口工程,試圖實(shí)現(xiàn)從指揮作業(yè)草圖到作戰(zhàn)方案自動(dòng)生成的轉(zhuǎn)變;“閃電戰(zhàn)”模塊實(shí)現(xiàn)系統(tǒng)推演仿真,快速生成可能態(tài)勢(shì)用以輔助作戰(zhàn)計(jì)劃?rùn)z驗(yàn);“水晶球”模塊主要實(shí)現(xiàn)戰(zhàn)場(chǎng)態(tài)勢(shì)認(rèn)知的作用,輔助指揮員構(gòu)建未來可能的態(tài)勢(shì)圖景。由于龐大搜索空間加之算力缺乏,“深綠”計(jì)劃最終擱淺。隨著機(jī)器學(xué)習(xí)為代表的新興智能方法出現(xiàn),兵棋智能化研究在短暫沉寂后又重新趨于活絡(luò)。2020年DARPA啟動(dòng)“游戲破壞者”項(xiàng)目計(jì)劃,希圖在專業(yè)兵棋CMANO上實(shí)現(xiàn)人工智能技術(shù)的嵌入融合。同年蘭德公司發(fā)布題為《思維機(jī)器時(shí)代的威懾》專題報(bào)告,重點(diǎn)針對(duì)在未來戰(zhàn)爭(zhēng)中智能化武器系統(tǒng)對(duì)國家力量威懾與升級(jí)的影響進(jìn)行兵棋推演[10]。

        較之國外對(duì)兵棋智能推演的研究,國內(nèi)研究起步相對(duì)較晚。2017年起中國指控學(xué)會(huì)連續(xù)多年舉辦“全國兵棋推演大賽”。幾屆比賽中機(jī)器智能組的冠軍相繼為中科院自動(dòng)化研究所、國防科技大學(xué)所摘得。上述團(tuán)隊(duì)研發(fā)的“CASIA-先知V1.0”、“戰(zhàn)顱”系統(tǒng),在人機(jī)對(duì)抗賽中以明顯優(yōu)勢(shì)擊敗人類組冠軍。2021年以臨機(jī)應(yīng)變?yōu)橹黝},開創(chuàng)圖靈測(cè)試比賽模式的首屆“廟算杯”人機(jī)對(duì)抗測(cè)試賽成功舉行。在人機(jī)混合對(duì)戰(zhàn)中,中科院自動(dòng)化所研發(fā)的智能體AlphaWar順利通過了通過圖靈測(cè)試,并以一分劣勢(shì)位居排名第一的人類選手之后。

        國內(nèi)圍繞兵棋智能化的部分理論探索工作有:張可等以模糊遺傳系統(tǒng)為基礎(chǔ)建立兵棋決策的控制框架[11];劉滿等通過挖掘歷史數(shù)據(jù),利用兵棋的基本規(guī)則以及多屬性綜合評(píng)價(jià)軟優(yōu)選算法進(jìn)行棋子控制[12];李琛等將強(qiáng)化學(xué)習(xí)方法與規(guī)則相結(jié)合,基于Actor-Critic框架和產(chǎn)生式戰(zhàn)術(shù)規(guī)則研究多智能體決策方法[13];Hanchao Wang等提出基于多智能體強(qiáng)化學(xué)習(xí)方法對(duì)棋子單元進(jìn)行分層控制[14];程愷等面向戰(zhàn)術(shù)兵棋提出兵棋AI的設(shè)計(jì)框架[15]。

        總體來看,相關(guān)理論研究及產(chǎn)品主要集中于戰(zhàn)術(shù)層級(jí),所包含的實(shí)體單位規(guī)模數(shù)量較為有限,實(shí)體間的指揮控制關(guān)系相對(duì)簡(jiǎn)單。研究使用的平臺(tái)偏重于游戲娛樂,缺少軍事規(guī)則約束,與真實(shí)作戰(zhàn)場(chǎng)景還有不小距離。在這樣平臺(tái)中進(jìn)行軍事決策問題研究,往往會(huì)由于微操等原因?qū)е聸Q策問題退化為單純的速度比拼,將軍事決策問題這個(gè)根本忽視。

        3 聯(lián)合戰(zhàn)役兵棋智能化軍事需求分析

        兵棋服務(wù)的對(duì)象核心是各層級(jí)指揮員,是指揮員學(xué)習(xí)戰(zhàn)爭(zhēng)規(guī)律錘煉戰(zhàn)爭(zhēng)思維的依托平臺(tái),而非單純的軍事技能訓(xùn)練工具。兵棋主要用于戰(zhàn)爭(zhēng)分析與軍事訓(xùn)練,突出作戰(zhàn)過程的謀略和對(duì)抗特性。不同兵棋所關(guān)注問題的層級(jí)粒度不盡相同。指揮員決策的導(dǎo)向作用在戰(zhàn)略戰(zhàn)役層級(jí)更為凸顯,戰(zhàn)斗層級(jí)以上兵棋刻畫重點(diǎn)由交戰(zhàn)細(xì)節(jié)轉(zhuǎn)向決策本身,兵棋模型構(gòu)模精細(xì)程度逐漸減弱,決策輻射作用范圍逐漸擴(kuò)展。戰(zhàn)役兵棋一方面凸顯決策這個(gè)中心功能,另一方面聚焦決策在戰(zhàn)術(shù)層級(jí)上的末端執(zhí)行,可謂起點(diǎn)于戰(zhàn)役,落點(diǎn)在戰(zhàn)術(shù)。

        聚焦決策特別是關(guān)乎全局的宏觀決策是聯(lián)合戰(zhàn)役兵棋關(guān)注重點(diǎn)。聯(lián)合戰(zhàn)役兵棋直接應(yīng)用于作戰(zhàn)籌劃以及指揮對(duì)抗訓(xùn)練。作戰(zhàn)籌劃可以作為一個(gè)環(huán)節(jié)融入指揮對(duì)抗訓(xùn)練中,也可以作為一個(gè)獨(dú)立部分單獨(dú)運(yùn)用。美軍在其聯(lián)合出版物JP5-0中明確規(guī)定兵棋推演在聯(lián)合作戰(zhàn)計(jì)劃制定流程中的地位作用。表1簡(jiǎn)要梳理了聯(lián)合戰(zhàn)役兵棋推演對(duì)智能化的典型需求。其中,智能指揮官、智能輔助決策以及智能對(duì)手重點(diǎn)關(guān)注決策智能。智能指揮官輔助指揮員以快速推演的形式對(duì)作戰(zhàn)方案進(jìn)行檢驗(yàn)評(píng)估,以期及時(shí)發(fā)現(xiàn)方案中的漏洞不足進(jìn)而對(duì)方案進(jìn)行迭代升級(jí)。智能輔助決策重點(diǎn)就指揮員決策進(jìn)行細(xì)化,將戰(zhàn)役級(jí)任務(wù)向下分解為能夠落地的戰(zhàn)術(shù)行動(dòng)。智能指揮官、智能輔助決策共同構(gòu)成智能紅軍,與智能對(duì)手即智能藍(lán)軍相對(duì)應(yīng)。

        表1 聯(lián)合戰(zhàn)役兵棋智能化需求分析簡(jiǎn)表

        智能藍(lán)軍主要構(gòu)成訓(xùn)練或方案檢驗(yàn)過程中的條件對(duì)手,與智能紅軍類似但又非完全一致。與智能紅軍相比智能藍(lán)軍的構(gòu)設(shè)要求及實(shí)現(xiàn)難度更高。在進(jìn)行基本的全維對(duì)抗外,還要盡可能地挖掘出所模擬對(duì)象的風(fēng)格特質(zhì)并以有效的方法手段最大化地加以呈現(xiàn)。智能紅軍直接對(duì)接指揮員及參謀團(tuán)隊(duì)更強(qiáng)調(diào)與之共同的知識(shí)理解與表達(dá),因而決策的可解釋性成為智能紅軍決策建模的重點(diǎn);智能藍(lán)軍作為指揮員陪練,決策建模偏重于決策模型與對(duì)手決策模式約束的結(jié)合方式上。

        智能紅軍抑或是智能藍(lán)軍是兵棋智能的外在應(yīng)用展現(xiàn)形式,除去見招拆招般的應(yīng)對(duì)以外,聯(lián)合戰(zhàn)役兵棋AI應(yīng)實(shí)現(xiàn)科學(xué)計(jì)劃與靈活作戰(zhàn)控制間的統(tǒng)一。聯(lián)合戰(zhàn)役兵棋決策智能需要凸顯復(fù)雜戰(zhàn)役態(tài)勢(shì)下智能的穩(wěn)局控局能力,面向終態(tài)目標(biāo)的長(zhǎng)程規(guī)劃與階段目標(biāo)下的有效執(zhí)行能力,依托方案計(jì)劃的協(xié)調(diào)統(tǒng)籌與機(jī)變處置能力。由OODA理論聯(lián)合作戰(zhàn)指揮過程是一個(gè)以觀察、判斷、決策、行動(dòng)為核心的滾動(dòng)向前迭代過程。對(duì)抗各方通過一方面加速己方OODA循環(huán)另一方面力圖打破對(duì)方OODA循環(huán)鏈路方式握緊戰(zhàn)爭(zhēng)主動(dòng)權(quán),從而將對(duì)手置于己方作戰(zhàn)節(jié)奏下。聯(lián)合作戰(zhàn)復(fù)雜特性決定了方案計(jì)劃對(duì)作戰(zhàn)組織的重要作用。方案計(jì)劃為各作戰(zhàn)行動(dòng)的協(xié)調(diào)提供了統(tǒng)一的參照基準(zhǔn),作戰(zhàn)行動(dòng)通過方案計(jì)劃實(shí)現(xiàn)邏輯串聯(lián),在時(shí)域、空域、頻域等方面完成功能組織的同步。

        4 聯(lián)合戰(zhàn)役兵棋與典型強(qiáng)化學(xué)習(xí)AI平臺(tái)環(huán)境比較

        4.1 典型強(qiáng)化學(xué)習(xí)AI研究平臺(tái)環(huán)境簡(jiǎn)介

        街機(jī)學(xué)習(xí)環(huán)境(Arcade Learning Environment,ALE)是通過游戲表現(xiàn)評(píng)價(jià)智能體通用能力的平臺(tái)[17],其交互的對(duì)象是模擬Atari 2600的游戲環(huán)境[18],內(nèi)容涵蓋搏擊、射擊、競(jìng)技、冒險(xiǎn)等多種類型。圍繞AI測(cè)試相關(guān)研究者挑選出57種固定游戲形成 Atari-57[17,19]評(píng)價(jià)基線,并將人類玩家平均得分(Human Normalized Score,HNS)作為衡量AI效果度量的依據(jù)標(biāo)準(zhǔn)。

        OpenAI Gym是OpenAI推出的強(qiáng)化學(xué)習(xí)開源測(cè)試平臺(tái)。Gym涵蓋經(jīng)典控制游戲、機(jī)器人操作、文字游戲以及Atari視頻游戲等不同類型的仿真環(huán)境。機(jī)器人操作使用MuJoCo物理引擎,用于研究機(jī)器人的精細(xì)仿真控制。Atari游戲部分直接對(duì)封裝了ALE內(nèi)容。Gym提供標(biāo)準(zhǔn)化的學(xué)習(xí)輔助環(huán)境,智能體與環(huán)境的交互、仿真環(huán)境的步進(jìn)都遵循嚴(yán)格的協(xié)議規(guī)范,仿真結(jié)果連續(xù)穩(wěn)定向外輸出。

        星際爭(zhēng)霸是一款即時(shí)戰(zhàn)略游戲,涉及微觀動(dòng)作操控、宏觀策略規(guī)劃、多任務(wù)學(xué)習(xí)以及多智能體協(xié)作等復(fù)雜決策問題。其與軍事決策高度的相似性使其具有極強(qiáng)的軍事借鑒價(jià)值。DeepMind與暴雪公司合作發(fā)布的學(xué)習(xí)環(huán)境SC2LE[20]同樣是智能研究重要的平臺(tái)。SC2LE包含應(yīng)用程序接口API、Py?thon開源工具PySC2以及數(shù)量巨大的對(duì)戰(zhàn)數(shù)據(jù)集。

        棋牌類游戲作為受眾廣泛的博弈游戲同樣受到關(guān)注。得克薩斯農(nóng)工大學(xué)設(shè)計(jì)并開源了面向棋牌類游戲的強(qiáng)化學(xué)習(xí)平臺(tái)RLCard。RLCard支持斗地主、麻將、21點(diǎn)等八種牌類游戲,在其上有多種強(qiáng)化學(xué)習(xí)算法實(shí)現(xiàn)并能夠?qū)崿F(xiàn)并行訓(xùn)練[21]。RL?Card通過預(yù)訓(xùn)練模型或規(guī)則代替對(duì)手,使整個(gè)游戲變?yōu)榛谕婕乙暯堑膯沃悄荏w接口,并按照Ope?nAI Gym形式封裝環(huán)境。

        表2 典型強(qiáng)化學(xué)習(xí)環(huán)境比較

        4.2 聯(lián)合戰(zhàn)役兵棋環(huán)境特點(diǎn)及AI落地難點(diǎn)總結(jié)

        深度強(qiáng)化學(xué)習(xí)綜合了深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)兩者優(yōu)點(diǎn),深度學(xué)習(xí)實(shí)現(xiàn)信息知識(shí)的提取,強(qiáng)化學(xué)習(xí)重點(diǎn)在深度學(xué)習(xí)基礎(chǔ)上實(shí)現(xiàn)高水平?jīng)Q策。深度強(qiáng)化學(xué)習(xí)作為AI開發(fā)的關(guān)鍵技術(shù),學(xué)習(xí)訓(xùn)練效果與環(huán)境高度相關(guān)。聯(lián)合戰(zhàn)役兵棋環(huán)境與典型強(qiáng)化學(xué)習(xí)AI環(huán)境相比更為復(fù)雜,無形中增加了兵棋AI的落地難度,主要困難挑戰(zhàn)集中在下述方面。

        1)問題結(jié)構(gòu)規(guī)模復(fù)雜。聯(lián)合戰(zhàn)役兵棋決策規(guī)模與想定高度關(guān)聯(lián),基于真實(shí)想定背景的聯(lián)合戰(zhàn)役兵棋棋子有數(shù)百個(gè)之多,所涉及的行動(dòng)指令數(shù)量分布從數(shù)百到上千條不等,與指令相關(guān)的參數(shù)類型、取值范圍千差萬別。以各擁有100個(gè)作戰(zhàn)實(shí)體單位的中等想定規(guī)模推演為例,其復(fù)雜度可能達(dá)到1014400量級(jí)。棋牌類游戲有著嚴(yán)格的規(guī)則制約,其問題規(guī)模難以與兵棋相比較。表3總結(jié)了常見的棋牌類游戲規(guī)模。星際爭(zhēng)霸、Dota這類RTS游戲雖然存在類似情況,但由于相對(duì)固定的場(chǎng)景設(shè)置因而問題量級(jí)規(guī)模遠(yuǎn)遜于兵棋。

        表3 常見棋牌類游戲問題規(guī)模

        2)實(shí)體間存在復(fù)雜的交互關(guān)聯(lián)關(guān)系。兵棋實(shí)體之間構(gòu)成復(fù)雜的交互關(guān)系網(wǎng)。伴隨作戰(zhàn)目的改變以及作戰(zhàn)進(jìn)程演進(jìn),交互關(guān)系也在不斷調(diào)整。作戰(zhàn)體系中關(guān)鍵要素節(jié)點(diǎn)微小的變化都可能導(dǎo)致勝負(fù)天平發(fā)生不可逆的傾斜。作戰(zhàn)行動(dòng)間關(guān)聯(lián)密切,聚焦于戰(zhàn)役關(guān)節(jié)點(diǎn)各作戰(zhàn)力量單元在整個(gè)時(shí)間域、空間域、信息域中形成復(fù)雜的纏繞交錯(cuò)態(tài)勢(shì)。棋牌類游戲除牌面信息外不附加額外信息,RTS游戲中屬性信息相對(duì)有限屬性信息交互更多集中在傷害輸出方面,而兵棋實(shí)體中還包含有支援、保障、信息壓制等相關(guān)屬性信息。這些屬性信息及其之上衍生的關(guān)聯(lián)關(guān)系信息共同構(gòu)成AI決策所依賴的信息源。

        3)不完全信息對(duì)作戰(zhàn)決策影響顯著。聯(lián)合戰(zhàn)役兵棋態(tài)勢(shì)以及對(duì)手信息的不確定程度更高。兵棋推演是不完全信息博弈對(duì)抗過程。由于存在“戰(zhàn)爭(zhēng)迷霧”,加之對(duì)手的隱真示假行動(dòng),及時(shí)準(zhǔn)確掌握態(tài)勢(shì)信息愈發(fā)困難。不完全信息博弈在增加對(duì)抗性給人以更強(qiáng)體驗(yàn)感的同時(shí)也增大了決策難度。從現(xiàn)有博弈場(chǎng)景分析來看,圍棋對(duì)抗中雙方信息完全公開透明,斗地主、德州撲克中不完全信息體現(xiàn)在對(duì)手手牌的估計(jì),兵棋及RTS游戲中不完全信息集中于敵方狀態(tài)信息以及可能行動(dòng)意圖的預(yù)判上。相較于敵方兵力信息,對(duì)敵方作戰(zhàn)意圖、行動(dòng)策略估計(jì)更加困難,訓(xùn)練AI從宏觀視角綜合把握局面的難度更大。

        4)統(tǒng)計(jì)隨機(jī)因素增加了對(duì)模型的學(xué)習(xí)難度。兵棋在描述戰(zhàn)爭(zhēng)一般規(guī)律的同時(shí),融合有大量統(tǒng)計(jì)模型以刻畫偶然因素的影響。隨機(jī)性的影響充斥于交戰(zhàn)毀傷、對(duì)目標(biāo)偵察發(fā)現(xiàn)結(jié)果等裁決中。相較于棋牌類游戲兵棋執(zhí)行結(jié)果展現(xiàn)出高度不確定性。兵棋狀態(tài)轉(zhuǎn)移結(jié)果表現(xiàn)為狀態(tài)轉(zhuǎn)移概率分布,這也是minimax搜索難以移植于兵棋的重要原因。諸多隨機(jī)因素進(jìn)一步增加了兵棋復(fù)雜程度,同樣增大了AI對(duì)兵棋模型結(jié)構(gòu)機(jī)理的捕捉以及學(xué)習(xí)難度。相較于游戲,基于model-based強(qiáng)化學(xué)習(xí)方法在聯(lián)合戰(zhàn)役兵棋中難以適用。學(xué)習(xí)出一個(gè)抽象的兵棋前向模型需要付出極高資源成本,因而無法像Atari游戲那樣利用習(xí)得模型進(jìn)行前向規(guī)劃。

        5)可借鑒的兵棋樣本數(shù)據(jù)相對(duì)缺乏。Alpha?Go、AlphaStar等的成功離不開高質(zhì)量對(duì)戰(zhàn)數(shù)據(jù)的支持。通過模仿高水平人類玩家,AI能夠迅速形成初始決策判斷能力,為后續(xù)訓(xùn)練奠定良好基礎(chǔ)。戰(zhàn)爭(zhēng)不同于游戲只有少數(shù)真實(shí)案例及演習(xí)數(shù)據(jù)可供借鑒。一方面聯(lián)合作戰(zhàn)對(duì)專業(yè)性的要求為組織運(yùn)用聯(lián)合戰(zhàn)役兵棋推演設(shè)置了較高準(zhǔn)入門檻,聯(lián)合戰(zhàn)役兵棋的應(yīng)用領(lǐng)域決定其僅僅面向少數(shù)軍事人員;另一方面保密的要求更降低了受眾基礎(chǔ),導(dǎo)致無法像棋牌游戲、RTS游戲那樣有著海量參考數(shù)據(jù)可供利用。特別對(duì)于模擬藍(lán)軍這樣有著更高質(zhì)量要求的數(shù)據(jù)則更是缺乏。

        6)初始力量設(shè)置并非絕對(duì)均衡?;谡鎸?shí)想定情況的對(duì)陣雙方并非如游戲一樣力量對(duì)比大體相當(dāng),以致推演初始就帶有明顯的局面優(yōu)劣差別,甚至可能出現(xiàn)一方實(shí)力對(duì)另一方全面碾壓的極端情形。兵棋推演中的不對(duì)稱特性主要表現(xiàn)在兩個(gè)方面:一是力量的不對(duì)稱性,集中體現(xiàn)在作戰(zhàn)力量多寡、武器性能強(qiáng)弱、信息手段優(yōu)劣等的差異上;二是作戰(zhàn)目標(biāo)的不對(duì)稱性,兵棋中作戰(zhàn)目標(biāo)與推演角色定位密切相關(guān)。兩方對(duì)戰(zhàn)的博弈游戲中消滅對(duì)手往往是其唯一目標(biāo),而兵棋中作戰(zhàn)目標(biāo)受到自身紅藍(lán)角色背景制約。兵棋不對(duì)稱性間接造成一戰(zhàn)一棋這一比之棋類游戲的獨(dú)特運(yùn)用形式,導(dǎo)致諸如自博弈的強(qiáng)化學(xué)習(xí)訓(xùn)練方法無法直接運(yùn)用。

        7)最終結(jié)果無法僅用簡(jiǎn)單絕對(duì)的勝負(fù)二元值描述。戰(zhàn)爭(zhēng)目的帶具有多目標(biāo)屬性特點(diǎn),圍繞相關(guān)屬性目標(biāo)指揮員通過環(huán)環(huán)相扣的精心設(shè)計(jì)實(shí)現(xiàn)其戰(zhàn)役目的。根據(jù)指揮員的特點(diǎn)偏好,兵棋AI需要在不同目標(biāo)間平衡取舍以盡可能地實(shí)現(xiàn)指揮員的作戰(zhàn)意圖。此外,戰(zhàn)爭(zhēng)目標(biāo)并非一成不變,指揮員會(huì)根據(jù)戰(zhàn)場(chǎng)需要?jiǎng)討B(tài)進(jìn)行目標(biāo)調(diào)整,兵棋AI需要具有一定的策略適應(yīng)性,能夠根據(jù)獎(jiǎng)勵(lì)函數(shù)的變化進(jìn)行策略的及時(shí)調(diào)整。

        5 結(jié)語

        伴隨以深度強(qiáng)化學(xué)習(xí)為代表的AI技術(shù)在競(jìng)技游戲中不斷攻城略地,數(shù)據(jù)驅(qū)動(dòng)的智能博弈對(duì)抗建模技術(shù)愈發(fā)受到行業(yè)領(lǐng)域關(guān)注。聯(lián)合戰(zhàn)役兵棋作為一種不完全信息下的復(fù)雜博弈環(huán)境,既有游戲激烈對(duì)抗的影子又兼具軍事問題的嚴(yán)肅主題。聯(lián)合戰(zhàn)役兵棋與戰(zhàn)術(shù)兵棋、RTS游戲、棋類游戲等相比有著明顯的特點(diǎn)區(qū)分。這些特點(diǎn)導(dǎo)致單純以強(qiáng)化學(xué)習(xí)為核心構(gòu)建的AI難以取得令人滿意的結(jié)果。一種現(xiàn)實(shí)而可行的解決方式是將人的知識(shí)與強(qiáng)化學(xué)習(xí)相結(jié)合,重點(diǎn)圍繞決策框架結(jié)構(gòu)、訓(xùn)練設(shè)計(jì)以及模型構(gòu)建等方面尋找解決問題的創(chuàng)新可能,具體知識(shí)與強(qiáng)化學(xué)習(xí)的結(jié)合方式尚有待后續(xù)更為深入的研究工作。

        猜你喜歡
        兵棋指揮員戰(zhàn)役
        兵棋推演:未來戰(zhàn)爭(zhēng)的水晶球
        軍事文摘(2020年19期)2020-10-13 12:29:28
        戰(zhàn)役中的你
        黃河之聲(2020年5期)2020-05-21 08:24:38
        基于兵棋推演實(shí)驗(yàn)的綜合評(píng)估指標(biāo)度量方法
        基于深度學(xué)習(xí)的兵棋實(shí)體決策效果智能評(píng)估模型
        基于混合Beta分布的兵棋推演可信度評(píng)估方法研究
        備而不發(fā),功不可沒——評(píng)抗美援朝“第六次戰(zhàn)役”
        軍事歷史(1998年6期)1998-08-21 03:00:46
        搶占三所里 阻敵建奇功——憶抗美援朝二次戰(zhàn)役穿插作戰(zhàn)中的先遣團(tuán)
        軍事歷史(1996年1期)1996-08-20 07:15:34
        從兩廣作戰(zhàn)看戰(zhàn)區(qū)、戰(zhàn)役指揮員的意見分歧與統(tǒng)一
        軍事歷史(1993年3期)1993-08-21 06:16:08
        智勇兼優(yōu)的高級(jí)指揮員皮定均
        軍事歷史(1986年3期)1986-08-21 02:21:10
        扶郿戰(zhàn)役簡(jiǎn)介
        軍事歷史(1986年3期)1986-08-21 02:21:04
        97无码免费人妻超级碰碰夜夜| 激情亚洲综合熟女婷婷| 最新亚洲av日韩av二区一区| 97成人精品在线视频| 亚洲综合精品中文字幕| 国产啪亚洲国产精品无码 | 粉嫩极品国产在线观看免费一区| 国产麻豆精品久久一二三| 人妻1024手机看片你懂的| 中文字幕av高清人妻| 国产伦精品免编号公布| 亚洲色偷拍区另类无码专区| 99在线国产视频| 大白屁股流白浆一区二区三区| 亚洲一区二区三区福利久久蜜桃| 久久久久久久久无码精品亚洲日韩| 久久精品人妻无码一区二区三区| 欧美情侣性视频| 国产美女自拍国语对白| 精品人妻码一区二区三区红楼视频 | 欧美精品一区二区精品久久| 丰满少妇a级毛片野外| 亚洲av无码一区二区三区在线| 日韩久久无码免费看A| 亚洲三级香港三级久久| 久久国产劲爆∧v内射-百度| 久久夜色精品国产噜噜av| аⅴ天堂一区视频在线观看| av免费网站不卡观看| 日韩中文字幕版区一区二区三区| 亚洲精品无人区| 无码午夜剧场| 最新日韩精品视频免费在线观看| 日韩亚洲无吗av一区二区| 成人性生交大片免费看96| 狠狠爱无码一区二区三区| 扒开非洲女人大荫蒂视频| 中文字幕av长濑麻美| 亚洲中文字幕无码一久久区| 亚洲精品中国国产嫩草影院美女 | 一区二区三区免费观看在线视频|