金欣
指揮與控制是一項跨物理域、信息域和認知域的學(xué)科,既包含工程,也包含藝術(shù).受到信息技術(shù)發(fā)展的推動和制約,多年來指揮與控制技術(shù)的發(fā)展大量集中在信息域和物理域,在指揮與控制系統(tǒng)工程方面取得了長足的進步[1?2],但在指揮與控制輔助決策方面,尤其是涉及指揮藝術(shù)的認知域,一直停留在初級階段.雖然設(shè)計了一些輔助計算模型,但在現(xiàn)代化戰(zhàn)爭復(fù)雜、快速、多變的特性面前,可信度、實用性遠遠不能滿足實際需要.美軍曾推出“深綠”計劃,旨在探索智能化的指揮與控制輔助決策,但也因戰(zhàn)爭的復(fù)雜性等種種原因未獲成功.
人工智能技術(shù)近年來發(fā)展迅猛,尤以深度學(xué)習(xí)技術(shù)為代表,在語音識別、圖像識別、運動感知等領(lǐng)域紛紛取得了突破性的進展.AlphaGo與李世石的一場圍棋大戰(zhàn)獲得了舉世矚目,最終人工智能以4:1的結(jié)果戰(zhàn)勝了人類,代表其在認知領(lǐng)域再下一城,一時間掀起了熱議.緊接著,AlphaGo宣稱要挑戰(zhàn)星際爭霸,更是將人工智能推向了神壇.圍棋和星際爭霸這兩類游戲,和軍事指揮與控制有著緊密的聯(lián)系,尤其是星際爭霸與戰(zhàn)爭有著很高的相似度.因此,很自然的想法,就是將人工智能技術(shù)應(yīng)用于作戰(zhàn)指揮.隨著美軍宣稱要將人工智能列為“改變游戲規(guī)則”的顛覆性技術(shù)大力發(fā)展,國內(nèi)外對指揮與控制智能化的呼聲也越來越高.
相比之下,AlphaGo是智能化技術(shù)向軍事領(lǐng)域的推進,而“深綠”則是從軍事領(lǐng)域推智能化.兩者雖然一成一敗,都不失為軍事指揮與控制智能化發(fā)展的里程碑.其中涉及的技術(shù)方法,很值得深入研究.本文簡要介紹了二者采用的技術(shù)方法,并開展了方法適用性分析,研究了其在指揮與控制領(lǐng)域的應(yīng)用機理及能力,分析了應(yīng)用的難點及對策,并作為拋磚引玉,對指揮與控制智能化的發(fā)展提出了啟示和建議.
“深綠”計劃是美國國防部高級研究計劃局DARPA支持的一項面向美國陸軍、旅級的指揮與控制領(lǐng)域的研究項目,是將人工智能引入作戰(zhàn)輔助決策的一項嘗試探索.文獻[3?18]對“深綠”計劃中應(yīng)用的技術(shù)、執(zhí)行的情況、及其面臨的困難和挑戰(zhàn)進行了深入探討.
深綠的核心技術(shù)本質(zhì)上是基于實時態(tài)勢的動態(tài)仿真,也是“平行仿真”的核心要義[19].仿真擅長逼真地、量化地模擬復(fù)雜多因素綜合作用的過程和結(jié)果,而這是很難用傳統(tǒng)的數(shù)學(xué)公式描述出來的.基于實時態(tài)勢做仿真,可以量化地估計未來某一時刻的戰(zhàn)場狀態(tài),也可以幫助人理解各種量變在不同時間、空間上交叉產(chǎn)生、綜合作用之后可能帶來的質(zhì)變,這種質(zhì)變代表具有不同意義的戰(zhàn)場態(tài)勢局面.在復(fù)雜戰(zhàn)爭中,可能導(dǎo)致不同態(tài)勢局面的因素眾多,包含各種隨機性、偶然性,一個細微的因素可能改變整個戰(zhàn)局的發(fā)展.使用仿真的方法,可以盡可能地將每一個細節(jié)因素的影響都模擬出來,只要模型足夠逼真,計算平臺足以支撐.
然而,用仿真來預(yù)測戰(zhàn)場變化的一大缺點,是無法應(yīng)對分支太多的情形.包括敵方戰(zhàn)術(shù)策略、我方應(yīng)對策略、環(huán)境變化、隨機過程等不確定性都會導(dǎo)致分支出現(xiàn).而各種不確定性的組合爆炸是“深綠”面臨的最大難題.按照深綠的方法,每種可能的分支都要仿真模擬一遍才行,那么分支一多,這種仿真模擬的計算資源和時間成本就十分高昂,以至于無法實現(xiàn).但事實證明,戰(zhàn)爭迷霧無處不在,只有戰(zhàn)術(shù)層面、短時間內(nèi),不確定性才相對較少.但很明顯,戰(zhàn)術(shù)層面、短時間內(nèi)的預(yù)測對指揮員而言非常簡單,用機器預(yù)測的意義不大.此外,態(tài)勢與決策的輸入輸出、數(shù)據(jù)的決定性、計算機與人協(xié)同等問題,都是“深綠”計劃面臨的難題[3].
美軍于2011財年終止“深綠”計劃的原因是多方面的,包括技術(shù)上存在的風(fēng)險,也包括經(jīng)費、人員等各方面因素.美軍高調(diào)宣稱終止某項研究計劃的背后,往往在隱秘地持續(xù)開展相關(guān)研究.“深綠”計劃表面上雖然被叫停,不排除相關(guān)研究仍在繼續(xù)的可能.
相比于軍方自頂向下推進指揮與控制智能化的努力困難重重,AlphaGo在民用領(lǐng)域取得的突破可謂另辟蹊徑,后來居上.
AlphaGo所采用的核心技術(shù)是深度學(xué)習(xí)和蒙特卡洛搜索[20],特別擅于分析博弈層面的問題,而且已被證明比人類更擅長應(yīng)對天文數(shù)字般的組合不確定性.其通過訓(xùn)練深度神經(jīng)網(wǎng)絡(luò),實現(xiàn)對人類直覺思維的模擬,是在神經(jīng)網(wǎng)絡(luò)技術(shù)應(yīng)用中非常有魄力的一種創(chuàng)新.神經(jīng)網(wǎng)絡(luò)雖然和人類大腦中的神經(jīng)元系統(tǒng)相差甚遠,卻被實踐證明可以模擬非常復(fù)雜的映射關(guān)系.而人類的直覺就是一種說不清、道不明的潛在映射關(guān)系.機器通過千萬級別的訓(xùn)練樣本,學(xué)會了人類的這種直覺,可以直接生成當前局勢的“應(yīng)對良策”(實際上是人類高手在同類局勢下使用較多的棋招),而不是對每種可能性都推一遍,同時生成對最終輸贏結(jié)果的價值估計(實際上是人類類似棋局最終輸贏結(jié)果的統(tǒng)計分布),并在有限范圍內(nèi)開展推演求證(由于縮小了范圍,屏蔽了細節(jié),推演效率高).因此,使用AlphaGo的方法,可以幫助人們高效演算作戰(zhàn)中的博弈問題,從而尋求戰(zhàn)法策略的優(yōu)化.
然而,AlphaGo直接用于作戰(zhàn)設(shè)計和分析是有問題的,主要是屏蔽了太多細節(jié)導(dǎo)致的失真.和圍棋不同,戰(zhàn)場上任何一招一策,能達到何種效果,都是和具體對象、環(huán)境相關(guān)的.棋盤上看似簡單的一步棋,實際效果可能未必落在想要落在的那個格子里.此外,使用AlphaGo方法,還面臨著戰(zhàn)場抽象建模、非輪次博弈、非單一目標、不完全信息、不完備規(guī)則、缺訓(xùn)練樣本等一系列問題,下文中會詳細闡述.換言之,單靠棋盤上的博弈驗證戰(zhàn)法策略的有效性,有“紙上談兵”之嫌,具有一定的意義,但實用性不強.
“深綠”和AlphaGo所采用的兩種方法,既可以分別應(yīng)用在指揮與控制中,也可以結(jié)合起來應(yīng)用,取決于實際需求.
1)“深綠”——戰(zhàn)術(shù)級仿真推演
從美軍“深綠”系統(tǒng)的設(shè)計初衷和其應(yīng)用效果來看,其更適合戰(zhàn)術(shù)層級的仿真推演.一方面,戰(zhàn)術(shù)層級的實體行為模型較易建立,武器平臺的運用規(guī)則相對簡單、作用效果相對容易量化評估.另一方面,戰(zhàn)術(shù)層級的不確定性相對較小,因為時間相對較短、規(guī)模相對較小、流程相對固定.再一方面,戰(zhàn)術(shù)層級的分析對于精確量化的要求更高,武器平臺的控制、打擊效果的評估等都需要精確量化的數(shù)據(jù)支撐.在戰(zhàn)術(shù)級運用仿真推演,可以充分發(fā)揮機器精確的計算能力.
2)AlphaGo——戰(zhàn)略、戰(zhàn)役級博弈推理
從AlphaGo定位于棋類游戲來看,其更適合戰(zhàn)略、戰(zhàn)役層級的博弈推理.棋招類似于戰(zhàn)法,走一步棋類似于指揮員下定一步作戰(zhàn)行動的決心.通過AlphaGo扮演“藍軍”指揮員,與扮演“紅軍”的人類指揮員互相拆招喂招,可以幫助指揮員定性地分析各種戰(zhàn)法相互作用、多個回合之后的可能結(jié)果.戰(zhàn)爭是不確定性的王國,AlphaGo擅長的就是從大量不確定性中尋求可行解.另外,AlphaGo采用的自我博弈方法,還能幫助指揮員從龐大的解空間中自動尋找最有可能取勝的戰(zhàn)法組合,幫助實現(xiàn)戰(zhàn)法策略的優(yōu)化.
3)兩者結(jié)合——一體化作戰(zhàn)設(shè)計分析
然而,AlphaGo真正要用在指揮與控制領(lǐng)域,實現(xiàn)從棋類游戲到戰(zhàn)爭推演的轉(zhuǎn)化,就要和“深綠”的方法相結(jié)合,互相取長補短.
圖1 AlphaGo與“深綠”方法的指揮與控制應(yīng)用機理
結(jié)合應(yīng)用的機理如圖1所示,指揮員和機器在棋盤上進行對弈,通過仿真環(huán)境實現(xiàn)和真實戰(zhàn)場的對接.首先,指揮員在棋盤上設(shè)計戰(zhàn)法,相當于走出一步棋,“深綠”系統(tǒng)使用草圖到計劃的功能,將該戰(zhàn)法細化成具體可操作的行動方案,并基于實時接入的戰(zhàn)場數(shù)據(jù),通過仿真模擬出方案執(zhí)行后的效果,將該效果抽象之后呈現(xiàn)在棋盤上,即通過仿真估計出棋子可能落在哪一格.接著,AlphaGo用其深度學(xué)習(xí)得到的策略網(wǎng)絡(luò),生成敵方的戰(zhàn)法,“深綠”系統(tǒng)將其細化成方案,仿真出效果并抽象到棋盤上,從而完成雙方一輪走棋.AlphaGo再用估值網(wǎng)絡(luò)估計一下當前盤面的勝負概率,并用蒙特卡洛搜索進行推演求證,供指揮員分析參考.
按照這種方法,戰(zhàn)略、戰(zhàn)役、戰(zhàn)術(shù)層級得到了兼顧,兩種方法形成了優(yōu)勢互補,AlphaGo解決了不確定性的問題,“深綠”實現(xiàn)了“紙上談兵”和實際戰(zhàn)場的結(jié)合,因此,可用于一體化的作戰(zhàn)設(shè)計分析.
在指揮與控制領(lǐng)域應(yīng)用“深綠”和AlphaGo的方法,可以實現(xiàn)很多前所未有的功能,支撐戰(zhàn)前推演、實時預(yù)測、臨機決策、精準控制、戰(zhàn)后評估等一系列指揮與控制業(yè)務(wù).
1)博弈式籌劃推演
在戰(zhàn)前,可以將AlphaGo和“深綠”結(jié)合起來,實現(xiàn)博弈式的籌劃推演.一種是人-機博弈:人類指揮員設(shè)計我方戰(zhàn)法,AlphaGo設(shè)計敵方戰(zhàn)法,“深綠”負責(zé)行動方案細化生成、行動效果模擬抽象,AlphaGo估計勝負概率,人類指揮員可以選擇繼續(xù)往下走,或者悔棋重新設(shè)計戰(zhàn)法,重新推演,以此反復(fù)修改優(yōu)化方案.另一種是機-機博弈:AlphaGo用自我博弈的方法,同時設(shè)計敵、我戰(zhàn)法,通過隨機選擇戰(zhàn)法的方式,把各種可能的戰(zhàn)法組合都推演一遍,并自動對推演結(jié)果進行批處理分析、比對,從而幫助人類指揮員尋找較為理想的方案.由于人類指揮員在設(shè)計方案時往往具有思維定勢,容易忽略掉一些可行解,而機器采用有限范圍內(nèi)的解空間搜索方式,或許能搜出一些人想不到的方案,其中不乏“奇招、妙招”.
2)實時態(tài)勢預(yù)測
在戰(zhàn)中,可以將AlphaGo和“深綠”結(jié)合起來,實現(xiàn)戰(zhàn)場態(tài)勢的實時預(yù)測.其中,AlphaGo主要負責(zé)敵方的出招預(yù)測,即預(yù)測敵方在當前形勢下,下一步可能采用的戰(zhàn)法.但按其方法原理,其只能預(yù)測當前局勢下令對手贏面最大的一招,而無法預(yù)測對手可能采用的“昏招”或“險招”.“深綠”主要負責(zé)戰(zhàn)術(shù)層面的戰(zhàn)場狀態(tài)預(yù)測,一是按敵我當前戰(zhàn)法打下去,量化估計下一時刻可能的戰(zhàn)場狀態(tài),二是考慮環(huán)境、對抗中的少量隨機性,或敵我戰(zhàn)法的少量可選項,歸納出短時間內(nèi)未來態(tài)勢可能出現(xiàn)的幾種局面.
3)臨機快速決策
AlphaGo的一大特點,是克服大量未知不確定性的組合爆炸,模擬人類的棋感直覺,根據(jù)當前盤面形勢快速拆招解招.這種能力如果用在臨機指揮中,可以快速生成決策建議,尤其是在突遭變化、敵方后招難以捉摸,而形勢又特別緊急的情況下,可以避免人類指揮員容易出現(xiàn)的猶豫不決現(xiàn)象,提升決策效率.更重要的是,AlphaGo在訓(xùn)練時使用的樣本很多,可以模擬很多高水平指揮員的共性直覺,理論上其生成的建議有可能會優(yōu)于單個人類指揮員.當然,以目前人工智能的水平,支持戰(zhàn)前籌劃還行,支持戰(zhàn)中指揮有點不太現(xiàn)實,但如果AlphaGo攻克了星際爭霸之類的實時競技類游戲,那就完全不同了.
4)前饋式精準控制
深綠基于仿真的實時量化預(yù)測能力,可以在行動執(zhí)行過程中,模擬戰(zhàn)場多因素綜合作用的結(jié)果,超實時預(yù)測行動執(zhí)行的效果,并根據(jù)實時數(shù)據(jù)動態(tài)修正預(yù)測結(jié)果.指揮員可以實時把握行動預(yù)計效果同預(yù)期之間的偏差,提前對行動進行調(diào)整.過去都是根據(jù)當前行動執(zhí)行的結(jié)果,來調(diào)整下一步的行動,是在偏差已經(jīng)產(chǎn)生情況下的調(diào)控.而通過超前預(yù)測引入的反饋,是在偏差尚未產(chǎn)生之前的調(diào)控,類似控制論中的前饋式控制,可以幫助指揮員防患于未然.在此基礎(chǔ)上,如果仿真模型的粒度越細,則效果預(yù)測就越精確,控制的精準度就越高.
5)戰(zhàn)后評估訓(xùn)練
一方面,戰(zhàn)前的博弈式推演方法也可以用在戰(zhàn)后,對各種戰(zhàn)法進行博弈演練,發(fā)現(xiàn)戰(zhàn)法存在的問題,從而進行優(yōu)化.另一方面,利用AlphaGo中的深度學(xué)習(xí)技術(shù),還可以實現(xiàn)各種作戰(zhàn)模型的訓(xùn)練優(yōu)化.很多作戰(zhàn)模型因為影響因素太多、作用機理復(fù)雜,傳統(tǒng)數(shù)學(xué)模型難以精確擬合.例如部隊實戰(zhàn)能力,受敵我兵力配屬、武器配備、使用戰(zhàn)法、訓(xùn)練水平、士氣、相對位置、戰(zhàn)場環(huán)境等諸多因素影響,一直以來都很難建模.而指揮員和部隊一起摸爬滾打多年,對其實戰(zhàn)能力的估計是比較準確的,這種經(jīng)驗性的直覺判斷,類似AlphaGo對盤面勝負概率的估計.神經(jīng)網(wǎng)絡(luò)具備超強的分類/擬合性能,如果給定歷史案例中各種情況下的戰(zhàn)況數(shù)據(jù),用深度學(xué)習(xí)方式或許能擬合出一個較為精確的模型出來.
“深綠”計劃面臨的挑戰(zhàn)如前所述,包括戰(zhàn)爭的復(fù)雜不確定性、模型的精確性、計算資源的占用性等.AlphaGo的方法雖然在圍棋領(lǐng)域取得了杰出的成就,并且具有一定的通用性,但真正應(yīng)用在作戰(zhàn)指揮與控制領(lǐng)域,還面臨許多挑戰(zhàn).
1)戰(zhàn)場抽象建模
棋盤上,車無輪、馬無韁,一切都是簡化過的.而現(xiàn)實戰(zhàn)爭太復(fù)雜,要考慮的細節(jié)因素太多,只有抽象到棋盤層面,才有可能分析戰(zhàn)法博弈.但如何抽象,才能做到既簡化了繁冗的細節(jié),又保留了博弈的本質(zhì),是一個值得研究的問題.例如,戰(zhàn)場態(tài)勢決不僅僅是兵力的棋布,各種相互關(guān)系、能勢大小、趨勢方向都應(yīng)在棋盤上反映出來;調(diào)兵遣將也決不僅僅是棋子的位置挪移,各種戰(zhàn)法戰(zhàn)術(shù)策略、武器使用方式都應(yīng)在棋盤上可選.其實這是兵棋要考慮的問題,但現(xiàn)在的兵棋能否做到,還有待驗證.
2)非輪次博弈
現(xiàn)代化戰(zhàn)爭不像古代的決斗,不是你走一步我走一步的模式,而是你走一步,我可能走兩步甚至更多.戰(zhàn)爭也不是你走一子我走一子,而是多個子同時在走.像星際爭霸之類的游戲是很接近戰(zhàn)爭,但AlphaGo能否攻克還是未知數(shù),很可能不會采用和圍棋一樣的方法.戰(zhàn)爭是連續(xù)演進的,一種方式是采用某種策略將其離散化,分成許多時間片段,允許每個片段結(jié)束時雙方各做一次決策(保持不變也是一種決策),然后套用圍棋的方法,這種方法帶來的問題就是時間片劃分多細合適,太細了計算量大,太粗了容易失真.除此之外,就需要創(chuàng)新提出完全不同于AlphaGo的方法來解決.
3)非單一目標
棋盤對弈,最終的目標就是輸贏.而實際戰(zhàn)爭往往沒有那么簡單,很多情況下沒有明確的輸贏之分,而是要達到某種期望的狀態(tài),比如奪取制空權(quán)之類.而且實際戰(zhàn)爭中除了輸贏,考評一個作戰(zhàn)方案還有很多其它指標,比如預(yù)期效能的達標性、損失代價的可接受性、資源占用條件的滿足性、應(yīng)對各種變化的靈活性等.換言之,實際戰(zhàn)爭的目標是非單一的,是一套價值目標體系.如何在棋盤對弈中模擬這樣的價值目標體系,而神經(jīng)網(wǎng)絡(luò)又如何來學(xué)習(xí)這種價值目標體系下的人類直覺,都是值得研究的問題.
4)不完全信息
棋盤上,黑白分布一目了然.而現(xiàn)實戰(zhàn)爭中,信息有缺有失、有真有假.當信息缺失時,就好像一個人在下棋,走了好幾步之后,才知道對手走到哪兒,也不知道對手是怎么走到那里的,那么在這幾步“盲棋”中,該如何做決策?另一方面,當信息有假時,就好像對手表面上走了一步棋,實際上走的是另一步棋,有一個看得見的棋盤和一個看不見的棋盤,如何鑒別看得見的這步棋,又如何估計看不見的那步棋?星際爭霸游戲中設(shè)置了一部分信息缺失的元素,例如未經(jīng)玩家探索過的地區(qū)會蒙上一層黑幕.AlphaGo能否通過這樣的考驗,讓我們試目以待.
5)不完備規(guī)則
棋盤上,一招一式都有規(guī)定,規(guī)則是明確的,對雙方是一致的.而現(xiàn)實戰(zhàn)爭中,招無定式、兵無定法,人可以隨時創(chuàng)造出新戰(zhàn)法.朱可夫在與關(guān)東軍作戰(zhàn)中,用滑輪繩索將坦克拉上陡坡,實現(xiàn)了出奇制勝.而現(xiàn)代化戰(zhàn)爭中,前方兵力看似不多,后方一枚遠程導(dǎo)彈就有可能瞬間改變戰(zhàn)局,美軍號稱一小時內(nèi)能打到全球任何一處,小小棋盤又哪能覆蓋無邊界的戰(zhàn)場?即便循規(guī)蹈矩地照教科書上的戰(zhàn)法,用在不同的實際情況下也是需要調(diào)整的,創(chuàng)新是無處不在的.試想兩人對弈中,如果對手不斷地違規(guī)走棋,即便是“圍棋之神”也難以取勝.當然,實際戰(zhàn)爭中對手的規(guī)則也不是完全不清楚,是可以大致估計出來的,很多情況下對手別無選擇,這里面有個度的問題.
6)缺訓(xùn)練樣本
棋局盤面可以達到千萬級的規(guī)模,現(xiàn)實戰(zhàn)爭不太可能.即便算上演習(xí)訓(xùn)練,也離這個規(guī)模相去甚遠.AlphaGo通過自我博弈無中生有地制造了大量樣本,這對于戰(zhàn)爭能否做到是個問題.棋盤上自我博弈較為簡單,用于作戰(zhàn)還要解決從戰(zhàn)法到行動方案的自動生成問題.此外,人造的樣本能不能用也是個問題,深度學(xué)習(xí)如果學(xué)到的是人造的規(guī)律,就失去了意義.另一方面,人類自身在學(xué)習(xí)時并不需要太多樣本,打過幾次仗的兵就算老兵了,一生身經(jīng)數(shù)十戰(zhàn)就是“戰(zhàn)神”了,人類靠的不僅僅是經(jīng)驗積累,每積累一次經(jīng)驗都會帶有思考,讓理性思維和感性認識相結(jié)合,才能實現(xiàn)快速學(xué)習(xí).如何讓機器像人一樣去學(xué)習(xí)作戰(zhàn),是很值得研究的問題.
上述挑戰(zhàn)問題,每一個目前都沒有很好的解決辦法,但筆者相信隨著技術(shù)的發(fā)展,它們終有一天會被解決.正如AlphaGo贏棋之前,很多人預(yù)測這一天還要很多年才能到來.我們處在技術(shù)飛速發(fā)展的時代,每一天都在見證奇跡的出現(xiàn).
分析認為,不論AlphaGo還是“深綠”,其邁向智能化的基礎(chǔ)都是知識.AlphaGo的知識是16萬人類高手的圍棋棋譜,“深綠”的知識是各種仿真實體的交戰(zhàn)模型.沒有這些知識做基礎(chǔ),它們是達不到現(xiàn)在的智能化程度的.因此,知識工程是智能化的基石,解決智能化的關(guān)鍵問題,還應(yīng)從知識表示、知識學(xué)習(xí)、知識推理等基礎(chǔ)問題入手,加強技術(shù)方法研究.
1)加強指揮員認知域的知識表示方法研究
智能化的第一步,是讓機器理解戰(zhàn)爭,理解戰(zhàn)場上發(fā)生的事,以及指揮員心中考慮的問題.分析戰(zhàn)爭問題,很重要的一點就是抽象.要分析戰(zhàn)法博弈層面的問題,首先要分析一下指揮員心中的棋盤是什么樣的,指揮員是如何分析任務(wù)目標、理解戰(zhàn)場局勢、設(shè)計作戰(zhàn)思路的、評價作戰(zhàn)效果的,指揮員大腦里抽象、模糊、不確定的知識產(chǎn)物具有哪些要素特征.然后探尋如何將這些要素特征形式化描述,以便機器理解.
2)加強復(fù)雜戰(zhàn)爭規(guī)律的知識學(xué)習(xí)方法研究
戰(zhàn)爭規(guī)律不斷在變化,而且復(fù)雜性也在不斷提升,人類經(jīng)驗總結(jié)是一方面,機器學(xué)習(xí)的方法可以幫助人類提升對復(fù)雜戰(zhàn)爭規(guī)律的認識.運用深度學(xué)習(xí)方法,首先要解決訓(xùn)練樣本的問題,可用的實際戰(zhàn)爭和演習(xí)數(shù)據(jù)有限,一種可行的途徑是通過仿真模擬的作戰(zhàn)過程積累數(shù)據(jù).因此,要大力建設(shè)作戰(zhàn)仿真模擬環(huán)境,類似星際爭霸之類的戰(zhàn)爭游戲,還應(yīng)當越做越精細,更加逼真的模擬真實作戰(zhàn),不僅僅是在畫面效果上,還要在作戰(zhàn)流程、交戰(zhàn)對抗、實體行為決策、戰(zhàn)場環(huán)境上盡量貼近真實,讓更多一線的指揮人員成為游戲的玩家,同時也讓將戰(zhàn)爭游戲打造成為檢驗戰(zhàn)法戰(zhàn)術(shù)的試金石和試驗田.在積累了大量指揮軍官的游戲數(shù)據(jù)之后,深度學(xué)習(xí)才能派上用場.
3)加強面向博弈對抗的知識推理方法研究
如前所述,戰(zhàn)爭博弈對抗具有非輪次博弈、非單一目標、不完全信息、不完備規(guī)則等特征,傳統(tǒng)的知識推理方法存在適用性問題.因此,在充分吸收AlphaGo的推理方法的同時,還應(yīng)結(jié)合邏輯推理、不確定推理、基于案例的推理、基于仿真的模擬推演,以及傳統(tǒng)的數(shù)學(xué)計算等多種手段,或者創(chuàng)造新的推理方法.另一方面,人工智能目前還不能完全替代人類的智慧,但兩種智能可以結(jié)合起來解決問題.如何優(yōu)化人和機器的智能分工與協(xié)作效率,實現(xiàn)智能輸出的最大化,也是值得研究的問題.
本文對美軍“深綠”計劃及AlphaGo進行了簡要的介紹,分析了其各自的優(yōu)缺點,提出了將二者的核心技術(shù)方法結(jié)合起來,應(yīng)用于戰(zhàn)前推演、實時預(yù)測、臨機決策、精準控制、戰(zhàn)后評估等指揮與控制業(yè)務(wù)的方法.同時,也從戰(zhàn)爭抽象建模、非輪次博弈、非單一目標、不完全信息、不完備規(guī)則、缺訓(xùn)練樣本等方面分析了技術(shù)應(yīng)用面臨的挑戰(zhàn),指出發(fā)展指揮與控制智能化應(yīng)以知識表示、學(xué)習(xí)、推理等基礎(chǔ)問題作為著力點.知識是智能化的核心,而數(shù)據(jù)是根基,所謂“巧婦難為無米之炊”,是當前指揮與控制智能化面臨的困境,因此,要大力推進知識工程建設(shè),積累數(shù)據(jù)是關(guān)鍵.
人工智能技術(shù)雖然不能說已經(jīng)成熟,但足以和目前的指揮與控制系統(tǒng)拉開足夠差距,可以發(fā)展的空間很大,很多傳統(tǒng)方法解決不了的問題有可能通過智能化技術(shù)解決.然而,發(fā)展智能化指揮與控制要一步步來,不能急功近利,“深綠”就是前車之鑒,把握不好,一次重大失利,就可能將其帶入低谷.深度學(xué)習(xí)技術(shù)只是人工智能的一種方法,不能解決所有問題,其他人工智能方法也有待進一步發(fā)展,關(guān)鍵在于如何結(jié)合領(lǐng)域特征高效轉(zhuǎn)化應(yīng)用.最后,應(yīng)當將人工智能當作指揮員的助手,用于輔助決策,但最終做決定的還應(yīng)當是人類,全自主化戰(zhàn)爭目前來看還太遙遠.