金欣
(南京電子工程研究所 信息系統(tǒng)工程重點實驗室,江蘇 南京 210007)
指揮決策智能化的發(fā)展需求,已經提出多年。“十三五”初期,在第3 次人工智能浪潮推動下,在DeepMind 公司研發(fā)的AlphaGo[1]和美空軍研發(fā)的Alpha 空戰(zhàn)系統(tǒng)[2]兩大重要突破的激勵下,國內上下對指揮決策智能化呼聲高漲,并將其列入到了各種探索性研究規(guī)劃布局中。
技術突破催生新的作戰(zhàn)概念,而作戰(zhàn)概念的發(fā)展又牽引著技術發(fā)展。近年來在俄烏沖突和美智庫報告中出現(xiàn)的認知欺騙戰(zhàn)、決策中心戰(zhàn)等新型對抗方式,以低透明性、高復雜性、高動態(tài)性為制勝手段,旨在利用智能化技術,制造真假難辨的信息和靈活多樣的殺傷鏈組合,令對手陷入認知、決策困境。雖在技術上還面臨諸多難題,但一旦實現(xiàn)將對其他國家構成降維打擊。如今指揮決策智能化已成為迫在眉睫的需求,從用戶單位到工業(yè)部門,再到軍事院校,都在努力尋求突破。
然而,實際發(fā)展情況卻并不容樂觀。美軍在C4ISR(command,control,communication,computer,intelligence,surveillance,reconnaissance)系統(tǒng)技術領域獨步天下,也是最早開展指揮決策智能化探索的。其2007 年的“深綠”計劃[3-7]和2016 年的“指揮官虛擬參謀”計劃[8],都是為了探索指揮決策智能化,但都因經費原因被迫中止,推測背后的本質原因可能是人工智能基礎理論尚未成熟。因此,美國防高級研究計劃局(defense advanced research projects agency,DARPA)近年來在知識推理、智能博弈、可解釋AI 等基礎領域布局了大量研究,但在應用領域取得的實質性進展仍然集中在情報處理、無人自主、運維保障、作業(yè)流程自動化等領域,而態(tài)勢認知、作戰(zhàn)籌劃等指揮決策核心領域近乎沉寂狀態(tài)。在充分認識到指揮決策復雜性之后,DARPA 啟動了以可解釋、人機互理解為核心的“下一代人工智能”計劃,美智庫CSBA(center for strategic and budgetary assessments)在決策中心戰(zhàn)理論中也提出了“人指揮、機器控制”的思想[9-10]。
國內方面,“十三五”初,圍繞人工智能技術在指揮決策領域究竟能做什么展開了大量討論[11-12],并以各種挑戰(zhàn)賽的形式推動了國內技術研究熱潮,代表性的如裝備發(fā)展部舉辦的智能博弈挑戰(zhàn)賽、中國電科集團舉辦的機器閱讀理解挑戰(zhàn)賽等。五年來,在知識圖譜問答、智能博弈等基礎領域,以及情報信息關聯(lián)推理、無人自主群體智能等應用領域,取得了一批代表性成果[13-14]。但在指揮決策核心領域取得的實質性突破仍然少之又少。漸漸地,國內研究人員也基本認識到指揮決策智能化要走“人機融合”的道路,但究竟怎么融合、融合起來怎么決策,尚未形成有效的方法。
指揮決策智能化之所以這么難,有兩方面原因:
一方面,指揮決策本身就很難。指揮決策是一門綜合性學科,覆蓋領域極廣。從敵、我、環(huán)境的態(tài)勢綜合認知、預測,到任務、目標、兵力、行動、保障、協(xié)同等要素的設計規(guī)劃,再到行動過程中的方案計劃臨機調整等,都納入指揮決策的范疇。從單兵到集群再到體系,研究的問題都不一樣。龐大的問題域決定了沒有統(tǒng)一的智能化技術路線。更重要的是,指揮決策是科學與藝術的結合。力量的精準投送、火力的精準控制、行動的精準協(xié)同,這些離不開精確計算。但博弈對抗、爾虞我詐的戰(zhàn)爭本質,又需要人的經驗判斷和藝術創(chuàng)造。筆者認為,將指揮決策智能化譽為“軍事智能皇冠上的明珠”并不為過。
另一方面,當下主流AI 技術的特點,也與指揮決策領域現(xiàn)狀不相吻合。
第1 類是以深度學習為代表的技術,特點是從數(shù)據(jù)中產生智能。代表性軍事應用如偵察圖像識別、文本情報理解等。這些領域可獲得的數(shù)據(jù)還是相對成規(guī)模的。而在指揮決策領域,數(shù)據(jù)的采集積累難度很大,主要原因有2 個方面:①數(shù)字化建模難。例如態(tài)勢研判結論、作戰(zhàn)構想這類決策產品,大多是用抽象的語言文字描述,沒有規(guī)范的內涵界定和表達模型。②專業(yè)性強。絕大部分指揮決策產品,非專業(yè)研究人員難以理解,無法模擬產生可用的訓練數(shù)據(jù)。與缺數(shù)據(jù)相對的是極為復雜的問題域。指揮決策領域問題的輸入變量往往極多。例如敵方意圖研判,除了目標活動狀態(tài)外,還要考慮敵我兵力部署、國際形勢等十幾維因素,且極難抽象,導致解空間非常龐大。相比之下,可獲得的樣本數(shù)量甚至不及解空間的1‰。對于深度學習技術而言,這是一片極度貧瘠的土壤,難以落地生根。
第2 類是以知識圖譜為代表的技術,特點是運用知識產生智能。代表性的軍事應用如智能信息問答、情報關聯(lián)推理等。此類技術擅長從海量信息中挖掘隱藏的關系,和情報領域有著天然的結合。然而,指揮決策領域的知識遠不止實體、關系2 種形式,更多的是業(yè)務邏輯規(guī)則、流程方法、分析框架之類。這些知識從哪里提?。扛鞣N教科書、條令規(guī)范中寫的知識太抽象,只有人能夠讀懂。機器需要的是可實際操作的知識,而非抽象的“心法”。然而,最難的問題永遠在操作層面,往往會細分出很多不同的情況,每種情況下的規(guī)則都會有細微差別。人在遇到不同情況時,經驗會告訴他應該遵循哪條規(guī)則,但在事后沒有任務驅動的情況下,要讓他把這些細節(jié)完完全全地整理出來難度卻非常大。
第3 類是以強化學習為代表的技術,特點是從探索試錯中產生智能。代表性的軍事應用如智能兵棋、智能空戰(zhàn)等。強化學習確實能夠做到在零樣本基礎上,通過探索試錯產生智能。但目前主要在戰(zhàn)術級以下發(fā)揮效果,戰(zhàn)役級以上未見實質性突破。主要原因有兩方面:一是建模問題。越往底層模型越好建,例如飛機、導彈等,都有大量靶場試驗數(shù)據(jù)支撐。而越往上層,任務部隊和藍軍的行動規(guī)則、行動效果模型都很難建。二是可解釋性問題。機器難以將其學到的規(guī)則以人類可理解的方式呈現(xiàn)出來。目前主要的途徑是用聚類等方法從大量對抗樣本中自動挖掘模式規(guī)律,再人為提煉出戰(zhàn)法規(guī)則,但還處在探索階段。不可解釋導致的結果就是“要么機器、要么人”,是一種替代而非合作的關系。然而戰(zhàn)爭是要付出生命代價的,單憑模擬訓練勝率說服指揮員相信AI、為其失誤買單是不現(xiàn)實的。
值得一提的是最近爆火的生成式AI 和大型語言模型技術,被普遍認為是邁向通用人工智能的里程碑。但就ChatGPT 的表現(xiàn)來看,具有不可解釋性甚至欺騙性,且受技術路線決定,并非短期內能解決的問題,也無法直接用于嚴肅的指揮決策領域。
缺數(shù)據(jù)、缺知識、缺模型,讓大部分主流AI 技術無法落地。而極高的可信度、可解釋要求,又擊中了主流AI 的“軟肋”。這就是指揮決策智能化面臨的尷尬?,F(xiàn)在,大部分人都認同指揮決策智能化要走“人機融合”的路線。但“融合”并非簡單的結合。在指揮決策業(yè)務背景下,“融”字究竟該如何體現(xiàn),沒有深刻的業(yè)務理解,不容易說清楚。
導師帶徒或示教學習是人類學習模式中歷史非常悠久的一種,早在人類有數(shù)據(jù)記載、有知識提煉、開始建立抽象模型之前,這種學習模式就已廣泛應用了。它對大規(guī)模數(shù)據(jù)、知識、模型沒有苛刻的要求,卻能讓學生快速上手。導師的水平雖然有限,但傳授的知識卻很實用,能直接解決實際問題。本文根據(jù)對指揮決策領域問題的理解,基于知識圖譜、強化學習、聊天機器人等前沿技術,提出“學徒式知識提煉”“授徒式博弈推演”2 套導師帶徒模式。
與缺數(shù)據(jù)相比,缺知識的情況相對好一些。指揮人員在平時工作和訓練中會不斷摸索積累經驗知識,問題是如何將其提煉出來。知識不易提煉才是專家系統(tǒng)難以普及的根本原因。讓指揮員將心中的知識體系完整地描述出來非常困難。即便是經驗豐富的指揮員,千言萬語落到紙面上,只能變?yōu)槌橄蟮奈淖帧⒑暧^的概念,落實到具體應用還要靠個人理解。然而,面對特定任務場景、特定戰(zhàn)場情況,指揮員很容易說出他的判斷和決策是如何考慮的。因為一旦問題具體明確了,規(guī)則也就是具體明確的,只是這個規(guī)則可能僅適用于這一特定問題,但至少是一條能夠解決實際問題的、機器可操作的知識。因此我們需要智能化系統(tǒng)扮演一個聰明的“學徒”,陪在指揮人員“導師”身邊虛心求教,將他心中的知識一點點套出來,一個例子如表1所示。
表1 學徒式知識提煉示例1Table 1 Example 1 of apprentice-support knowledge extraction
通過這種方式,可以結合業(yè)務場景,提煉出一條條“碎片化”知識。因為與任務場景相關度高,暫且稱之“場景知識”。在一定范圍內,場景知識可以提煉成通用知識。例如下次遇到的敵方兵力構成和隊形與此次稍有變化,但導師還是判斷為同樣戰(zhàn)術,就可以對這條規(guī)則進行泛化,適應一類情況。
這種方法還有一個好處,可將每次提煉的知識,與對應的實際案例記錄下來,便于后續(xù)追溯和查證。后續(xù)使用這條規(guī)則的人就可以知道這條規(guī)則是誰提出來的、他的權威性如何、是針對什么情況提煉出來的、是否適用于當前情況等。同時,記錄在案也能降低規(guī)則提煉的隨意性。
在掌握一些場景知識的基礎上,學徒可以參與導師的指揮決策作業(yè)過程,運用已掌握的知識與導師實際的判斷和決策相印證,發(fā)現(xiàn)矛盾并主動提出反問,引導導師發(fā)現(xiàn)已有知識存在的漏洞,并進一步細化完善,一個例子如表2 所示。
表2 學徒式知識提煉示例2Table 2 Example 2 of apprentice-support knowledge extraction
雖然看上去,這種方式增加了導師的工作負擔,但提煉知識的同時,也會加深他的理解和思考,形成的知識體系既是學生的財富,也是導師的財富。其實知識提煉難還有一個原因,指揮人員也在不斷摸索規(guī)則知識。學徒的出現(xiàn)可在一定程度上輔助、促進導師的摸索提煉過程,促進實現(xiàn)人機共同“耕種”智能、積累知識的發(fā)展模式。
學徒可以選擇在導師忙于處置突發(fā)情況時選擇靜默,而將問題記錄下來留待事后空閑時間再提出。此時導師仍沉浸在處置成功的興奮或失敗的總結中,此時套他的話不但不會引起反感,還能第一時間將其最鮮活的思路沉淀下來。
此外,如果這個學徒還能學會各種話術,做到察言觀色、循循善誘,就可以讓導師心甘情愿地去教他。大型語言模型中的最新成果ChatGPT 在情境上下文理解、聊天話術運用方面能力卓越,可讓指揮人員產生像人類學徒一樣的代入感。并且其人類反饋學習的理念也與學徒理念如出一轍,多輪對話的Prompt 教學模式已顯雛形。這種技術能夠運用進來,“師徒”間的交流就會變得更加輕松。在調節(jié)指揮人員情緒,為其減壓的同時,還能學到知識,甚至還能加深人的思考。
在每天的值班工作和演練中,通過這種方式可以積累很多場景知識。然后再整理完善、舉一反三、融會貫通。較之過去專家系統(tǒng)“自頂向下”的知識體系構建模式,這種“自底向上”的模式可操作性更強,不需要大數(shù)據(jù)積累,可以從零開始,一點點學習構建知識體系。
學徒式知識提煉還能促進新老指揮人員之間的經驗傳承。在過去,老參謀的經驗只可意會不可言傳,新參謀上崗后需要手把手帶很長時間。現(xiàn)在,機器可以在和老參謀的共事中學習經驗知識,并能以可解釋的方式向用戶展示所學知識,從而在后續(xù)任務中指導新參謀,起到傳幫帶的作用。
實現(xiàn)上述愿景,要開展以下幾方面技術攻關:
(1)面向指揮人員的聊天機器人技術。聊天機器人技術現(xiàn)已發(fā)展到較高水平,但要結合指揮業(yè)務背景,準確理解指揮人員的專業(yè)表達,結合作戰(zhàn)任務上下文理解深層含義,掌握“套出”專業(yè)知識的特定話術,其中還有很多技術難題需要解決。
(2)知識學習提煉技術。如何對指揮領域的戰(zhàn)法規(guī)則、業(yè)務流程等知識進行結構化、形式化表達;如何從觀察指揮人員和作業(yè)過程和結果中學習經驗知識;如何結合新的作業(yè)任務,運用已掌握的知識發(fā)現(xiàn)矛盾,并在此基礎上引導指揮人員思考完善,涉及到大量知識學習技術。
(3)知識融合技術。指揮決策領域的知識體系應該如何構建,包含哪些方面的知識,這是首先需要研究的。如何基于大量碎片化場景知識,關聯(lián)印證、尋找共性、挖掘規(guī)律、歸納總結形成完整、一致的知識體系,需要大量借鑒目前在知識圖譜領域的技術成果,并將其發(fā)展到更高的水平,確保指揮決策領域知識的準確性和一致性。
(4)知識可解釋推理技術。如何運用學到的知識體系對新的任務進行推理求解,產生機器的判斷結論和決策建議,同時將背后用到的知識和推導過程可視化地呈現(xiàn)出來。這其中既涉及到知識推理的可解釋問題,也涉及到用戶心理學的問題,需要結合具體的業(yè)務問題具體設計可解釋分析內容的展現(xiàn)方式,突破其中涉及的關鍵技術。
探索試錯是指揮決策過程中非常重要的一種思維方式,能幫助指揮人員發(fā)現(xiàn)和解決問題、探尋潛在的優(yōu)化。但是缺乏高層級作戰(zhàn)指揮模型,是導致探索試錯拋不開“人在回路”,難以大規(guī)模重復開展的癥結所在。
眾所周知,強化學習的前提是對問題環(huán)境進行建模。戰(zhàn)術級以下的問題,輸入輸出參數(shù)具體明確,戰(zhàn)場裝備和環(huán)境模型是簡化的物理模型。而戰(zhàn)役級以上的問題,輸入(例如上級意圖)和輸出(例如作戰(zhàn)構想)都沒有明確的定義,指揮對象(通常是集團軍規(guī)模)的能力模型難以量化,戰(zhàn)場環(huán)境的模型不可能細到物理級別。無法建模也就無法使用強化學習技術,這是目前智能博弈局限在戰(zhàn)術級以下的根本原因。戰(zhàn)役級以上的指揮還得靠人。
另一個問題,是對于指揮人員而言,如何運用強化學習訓練出來的AI?麻省理工學院的最新研究指出[15],強化學習訓練的AI 可以完虐人類玩家,但卻并不是人類玩家的最佳隊友,甚至不如固定規(guī)則做得好。而原因是其對人類隊友給出的暗示不予理睬,而其表現(xiàn)的行為又讓隊友不能理解。換個作戰(zhàn)指揮的例子,如果指揮員把他的想法告訴一個用強化學習訓練的AI:“按我的思路:先派支部隊到這里去引誘,把他的主力吸引到這里,我方主力繞到它背后,打掉它的后援,讓其首尾不能相顧,給他來個關門打狗。照這個思路,用哪支部隊去引誘,什么時間、在哪里最好,你幫我探索探索”。這是目前指揮人員希望機器發(fā)揮的作用。遺憾的是,強化學習訓練的AI 做不到這點,它聽不懂人的意圖,也不會去改變自己學到的模型。而它學到的模型,人看不懂,也改不了。不能合作,是強化學習技術應用受限的關鍵,它訓練的AI 可以扮演一個得力的下級單元,或者聰明的對手,而恰恰不能扮演一個貼心的顧問。
因此,解決問題的關鍵,是要讓機器學會與指揮人員合作,而“師徒關系”是對這種合作關系比較貼切的定位,即在導師思路的引導下去探索試錯。核心是一套工具,能夠將導師對于“這場仗該怎么打、對手可能怎么變、我方該怎么應對”等策略翻譯成機器能夠理解的語言,然后成為機器探索試錯中用到的知識或條件約束。這種策略通常是比較宏觀的,不會過多限定細節(jié)。其本質上可以理解為前面說的場景知識,告訴機器在哪一類情況下該如何行動。用知識描述導師的策略,導入到系統(tǒng)中就完成了“教授”的過程。
在導師策略指導下,機器可以運用強化學習訓練的AI 單元、AI 群隊,靈活地開展行動,同時探索各種各樣的變量,尋求最佳的細節(jié)設定。導師的策略為機器限定了探索空間,可幫助它少走彎路。而從指揮員的角度,可以將細節(jié)放手交給機器去探索試錯,發(fā)揮它的強項。前面說到了強化學習的可解釋性問題,而這里將其用在指揮員并不關心的下級作戰(zhàn)單元/群隊層面,恰恰可以回避可解釋性問題。
這樣一來,人可以被徹底移出推演環(huán)路,只要事先把策略定好,剩下的交給機器。機器可以完成數(shù)百萬次的探索試錯,可以嘗試各種敵我策略選項、隨機戰(zhàn)場事件、環(huán)境隨機變化、隨機行動效果等不確定因素對結果的影響,甚至可以通過啟發(fā)式搜索提高探索效率。通過大量探索,可以確定一些細節(jié)的最佳設定,比如誘敵的最佳兵力、時機、陣位等,并通過統(tǒng)計數(shù)據(jù)告訴指揮人員為什么這些設置是最佳的,從而讓指揮人員相信機器的建議。一個例子如表3 所示。
表3 授徒式博弈推演示例Table 3 Example of apprentice-support knowledge extraction
授徒式博弈推演是將指揮員的藝術與機器的算力相結合的一種可能途徑,能夠形成優(yōu)勢互補,同時也能拉近指揮員和機器的距離。機器可以從指揮員的行動策略框架中學習到具體問題知識,而指揮員也可以通過機器的探索試錯加深對作戰(zhàn)問題的理解,發(fā)現(xiàn)新的戰(zhàn)法知識。伴隨著人與機器的長期磨合,相互學習帶來共同提升。
實現(xiàn)上述愿景,要開展以下幾方面技術攻關:
(1)策略構想的知識表示技術。如何將指揮員作戰(zhàn)構想中描述的各種作戰(zhàn)活動流程、條件判斷規(guī)則、策略選擇規(guī)則、運籌計算方法等內容,采用知識的形式結構化地表達出來,并能夠將草圖、文字等形式描繪的作戰(zhàn)構想自動解析成結構化的知識,可為機器自動執(zhí)行,文獻[16]在這種知識表達方法上做出了初步的探索。
(2)混合智能博弈對抗推演技術。如何將知識規(guī)則表示的策略構想,與網絡模型形態(tài)的單元/群體智能相結合,采用戰(zhàn)役級知識+戰(zhàn)術級智能體的方式,2 種不同形態(tài)的智能如何有機結合、避免沖突、高效運作,共同完成博弈推演過程中的紅藍對抗行動指揮,從單元到群體再到體系,逼真模擬真實的紅藍對抗行為和過程。
(3)基于啟發(fā)式搜索的并行推演技術。如何充分利用計算存儲資源,通過大規(guī)模并行機制、高倍速仿真技術、多分支推演管控技術、抗毀容災備份技術等,實現(xiàn)百萬級以上規(guī)模的大樣本推演,讓指揮員在提出構想之后的數(shù)分鐘到數(shù)十分鐘內就能得到反饋。如何利用啟發(fā)式搜索技術引導這種大規(guī)模并行推演,甚至讓人看到機器自主探索的過程,并隨時提供探索方向的引導。
(4)大數(shù)據(jù)分析挖掘技術。如何從海量推演數(shù)據(jù)中挖掘出對指揮人員有價值的信息,包括評估作戰(zhàn)構想/方案的目標達成概率、平均戰(zhàn)損比,尋找關鍵影響因素,挖掘關鍵策略的優(yōu)選項、探索優(yōu)化的行動方案等,為指揮員提供基于大數(shù)據(jù)的深層次見解,幫助指揮員優(yōu)化作戰(zhàn)構想、制定最佳行動計劃。
作為軍事智能皇冠上的明珠,指揮決策智能化發(fā)展已到了迎難而上的關鍵階段。然而,缺數(shù)據(jù)、缺知識、缺模型的現(xiàn)狀,導致當下主流AI 技術不能夠有效解決指揮決策智能化難題。在AI 技術短期內難以獲得革命性突破的前提下,指揮決策智能化需要走人機融合的路線。近年來,這一方向得到了廣泛關注,但主要研究還是聚焦在基礎問題層面。在指揮決策領域究竟如何實現(xiàn)人機融合,并沒有形成有效的方法途徑。
本文參考人類常見的教學模式,提出了導師帶徒式的指揮決策智能化發(fā)展理念。在此基礎上,圍繞知識、博弈2 條主要技術路線,提出了“學徒式知識提煉”“授徒式博弈推演”2 套導師帶徒式指揮決策應用模式,分別提供了示例性的解釋說明,并指出了需要突破的關鍵技術,對指揮決策智能化攻堅具有一定指導意義。