孫智孝,楊晟琦,樸海音,2,*,白成超,葛俊
1. 航空工業(yè)沈陽(yáng)飛機(jī)設(shè)計(jì)研究所,沈陽(yáng) 110035
2. 西北工業(yè)大學(xué) 電子信息學(xué)院,西安 710072
3. 哈爾濱工業(yè)大學(xué) 航天學(xué)院,哈爾濱 150001
目前機(jī)器智能已邁入深度學(xué)習(xí)時(shí)代,人工智能所賦能的空戰(zhàn)博弈研究已經(jīng)取得了實(shí)質(zhì)性進(jìn)展。隨著智能空戰(zhàn)時(shí)代的到來(lái),世界主要航空大國(guó)及相關(guān)研究機(jī)構(gòu)均將著力點(diǎn)聚焦到了新一代智能空戰(zhàn)體系的探索和研究,加大了對(duì)自主無(wú)人系統(tǒng)裝備以及智能化技術(shù)的研發(fā)投入,全面推動(dòng)航空裝備與人工智能技術(shù)的融合發(fā)展,涌現(xiàn)出一大批有代表性的研究成果。
美國(guó)國(guó)家航空航天局(National Aeronautics and Space Administration,NASA)在20世紀(jì)60至90年代持續(xù)專注研發(fā)基于專家規(guī)則的智能空戰(zhàn)系統(tǒng),將人類(lèi)在空戰(zhàn)領(lǐng)域的知識(shí)和經(jīng)驗(yàn)構(gòu)建成知識(shí)庫(kù),多次嘗試用人工智能系統(tǒng)替代飛行員去執(zhí)行空戰(zhàn)決策[1-5]。除此之外,遺傳算法和遺傳模糊樹(shù)等啟發(fā)式方法也被應(yīng)用到智能空戰(zhàn)領(lǐng)域[6-8],其中采用遺傳模糊樹(shù)的“阿爾法空戰(zhàn)”系統(tǒng),首次驗(yàn)證了基于人工智能的空戰(zhàn)決策機(jī)制具備戰(zhàn)勝人類(lèi)飛行員的潛力[6]。近些年,隨著機(jī)器學(xué)習(xí)的爆發(fā),以深度學(xué)習(xí)和深度強(qiáng)化學(xué)習(xí)為代表的自演進(jìn)智能算法在空戰(zhàn)行為涌現(xiàn)方面表現(xiàn)出巨大優(yōu)勢(shì),諸多基于此類(lèi)方法研發(fā)的智能空戰(zhàn)項(xiàng)目逐漸被提出[9-13]。比較有代表性的是美國(guó)國(guó)防高級(jí)研究計(jì)劃局(Defense Advanced Research Projects Agency,DARPA)開(kāi)展的人工智能近距空中格斗項(xiàng)目,該項(xiàng)目挑戰(zhàn)賽的冠軍隊(duì)伍采用深度強(qiáng)化學(xué)習(xí)方法在人機(jī)大戰(zhàn)中以大比分戰(zhàn)勝人類(lèi)飛行員[12-13],證明了機(jī)器學(xué)習(xí)類(lèi)方法在解決空戰(zhàn)決策問(wèn)題方面潛力巨大。
雖然智能空戰(zhàn)領(lǐng)域的研究取得了諸多進(jìn)展,但仍有很多技術(shù)難題需要攻克。在面對(duì)高動(dòng)態(tài)、強(qiáng)實(shí)時(shí)、不確定、非完美的復(fù)雜空戰(zhàn)環(huán)境時(shí),傳統(tǒng)的基于規(guī)則的專家系統(tǒng)已經(jīng)無(wú)法滿足作戰(zhàn)需求。而新興的機(jī)器學(xué)習(xí)類(lèi)方法雖然在能力涌現(xiàn)、自演進(jìn)、自學(xué)習(xí)等方面具有優(yōu)勢(shì),但面對(duì)實(shí)際的工程落地,仍需突破諸如智能空戰(zhàn)的不確定性、可解釋性、安全性和可遷移性等瓶頸。
基于上述分析,本文重點(diǎn)梳理了智能空戰(zhàn)技術(shù)研究和應(yīng)用的發(fā)展脈絡(luò),分析了各個(gè)發(fā)展階段具有代表性的項(xiàng)目,總結(jié)了智能空戰(zhàn)決策相關(guān)的基礎(chǔ)理論,分析了智能空戰(zhàn)技術(shù)的研究脈絡(luò),闡述了必須解決的技術(shù)難點(diǎn)和其中存在的挑戰(zhàn),并展望了未來(lái)智能空戰(zhàn)的發(fā)展趨勢(shì),為未來(lái)智能空戰(zhàn)系統(tǒng)工程化應(yīng)用這一重要而又富有挑戰(zhàn)性的研究領(lǐng)域提供了發(fā)展建議和探索方向。
自20世紀(jì)60年代以來(lái),智能空戰(zhàn)理論和工程實(shí)踐研究獲得了國(guó)內(nèi)外學(xué)術(shù)界與工業(yè)界的持續(xù)關(guān)注?;仡櫰浒l(fā)展歷程,從表象上看,歷經(jīng)了專家機(jī)動(dòng)邏輯、自動(dòng)規(guī)則生成、規(guī)則演進(jìn)、機(jī)器學(xué)習(xí)及演示驗(yàn)證等5個(gè)主要?dú)v史階段(如圖1所示)。從本質(zhì)上看,智能空戰(zhàn)研究正在從以人類(lèi)經(jīng)驗(yàn)為主的傳統(tǒng)專家系統(tǒng)邁向以機(jī)器智能自我演進(jìn)為特征的全新范式。這一認(rèn)知清晰地勾勒出未來(lái)智能空戰(zhàn)系統(tǒng)技術(shù)探索的發(fā)展路線與技術(shù)挑戰(zhàn),正所謂“由表及里”,即智能空戰(zhàn)之“形”。
圖1 智能空戰(zhàn)發(fā)展脈絡(luò)Fig.1 Development process of AI based air combat techniques
針對(duì)智能空戰(zhàn)的研究最早起步于20世紀(jì)60年代,Burgin和Owens自1969年起著手在NASA蘭利研究中心的資助下為該研究中心的微分機(jī)動(dòng)模擬器(Differential Maneuvering Simulator, DMS)開(kāi)發(fā)了名為自適應(yīng)機(jī)動(dòng)邏輯(Adaptive Maneuvering Logic,AML)的機(jī)動(dòng)決策軟件[1],其采用的主要決策算法是基于IF-ELSE-THEN邏輯的專家系統(tǒng)。AML不僅可以模擬敵方的戰(zhàn)斗機(jī)與操控模擬器的飛行員進(jìn)行實(shí)時(shí)對(duì)戰(zhàn),同時(shí)也可以通過(guò)操控模擬對(duì)抗中交戰(zhàn)雙方的2架飛機(jī)來(lái)實(shí)現(xiàn)飛機(jī)及武器系統(tǒng)的參數(shù)研究等工作。
AML系統(tǒng)是智能空戰(zhàn)技術(shù)的首次系統(tǒng)性嘗試。NASA認(rèn)為,空戰(zhàn)中機(jī)動(dòng)決策過(guò)程存在高度實(shí)時(shí)性、不確定性,難以給出準(zhǔn)確的求解模型,而經(jīng)驗(yàn)豐富的戰(zhàn)斗機(jī)飛行員熟知空中對(duì)抗的戰(zhàn)術(shù)態(tài)勢(shì)和機(jī)動(dòng)要領(lǐng),故可以借助專家系統(tǒng)基于空中對(duì)抗態(tài)勢(shì)做出相應(yīng)的快速?zèng)Q策,從而實(shí)現(xiàn)無(wú)人機(jī)在自主空中對(duì)抗中的機(jī)動(dòng)決策功能[2],因此AML系統(tǒng)的主要研究基礎(chǔ)是專家系統(tǒng)。
AML系統(tǒng)開(kāi)發(fā)耗時(shí)近20年,雖然是人類(lèi)歷史上第一次用人工智能替代飛行員的大膽嘗試,但受限于當(dāng)時(shí)的技術(shù)條件,仍存在諸多缺憾。例如① 提升AML的規(guī)則庫(kù)耗時(shí)冗長(zhǎng)且非常依賴飛行員對(duì)決策結(jié)果的評(píng)估;② 系統(tǒng)需將飛行員對(duì)機(jī)動(dòng)動(dòng)作的偏好選擇以硬編碼的形式寫(xiě)入決策算法中等[1-2]。
20世紀(jì)90年代,由于新型的高性能飛機(jī)開(kāi)始服役,為了應(yīng)對(duì)大幅拓展且快速變化的空戰(zhàn)戰(zhàn)術(shù)環(huán)境,NASA蘭利研究中心繼而支持開(kāi)發(fā)了戰(zhàn)術(shù)引導(dǎo)研究與評(píng)估系統(tǒng)(Tactical Guidance Research and Evaluation System,TGRES)[3]。該系統(tǒng)由戰(zhàn)術(shù)決策生成器(Tactical Decision Generator,TDG)[4]、戰(zhàn)術(shù)機(jī)動(dòng)模擬器(Tactical Maneuvering Simulator,TMS)[5]以及微分機(jī)動(dòng)模擬器(Differential Maneuvering Simulator,DMS)3個(gè)主要部分組成。而帕拉丁(PALADIN)系統(tǒng)是TGRES項(xiàng)目中以AML為基礎(chǔ)開(kāi)發(fā)的基于知識(shí)的戰(zhàn)術(shù)決策生成器。與AML不同的是,PALADIN并不依靠飛行員的經(jīng)驗(yàn)建立知識(shí)庫(kù),而是依據(jù)飛機(jī)本身數(shù)據(jù)以及空戰(zhàn)戰(zhàn)術(shù)的對(duì)抗仿真結(jié)果建立知識(shí)庫(kù),從而可以為缺少實(shí)戰(zhàn)經(jīng)驗(yàn)的新型飛機(jī)提供豐富的決策支持。除此之外,PALADIN系統(tǒng)的規(guī)則庫(kù)采用了模塊化設(shè)計(jì)思路,從而將運(yùn)算速率大幅提升了90~100倍[4]。
對(duì)比AML系統(tǒng),在PALADIN系統(tǒng)的研究過(guò)程中,洛克希德·馬丁公司和艾姆斯研究中心也積極參與,代表了智能空戰(zhàn)從先期的理論研究逐漸轉(zhuǎn)向大規(guī)模的跨域系統(tǒng)工程研究。與AML相比,PALADIN系統(tǒng)最大的創(chuàng)新在于嘗試了對(duì)空戰(zhàn)動(dòng)力學(xué)和策略搜索空間進(jìn)行數(shù)學(xué)建模,研究領(lǐng)域從純空戰(zhàn)機(jī)動(dòng)決策跨越到載荷調(diào)度和武器使用。最為關(guān)鍵的是,其規(guī)則推理邏輯可以基于仿真手段通過(guò)TDG模塊自動(dòng)生成,這打破了人類(lèi)對(duì)空戰(zhàn)既有知識(shí)的認(rèn)知邊界,給出了全新的形式化的空間知識(shí)表達(dá)[4]。
2016年6月,辛辛那提大學(xué)與美國(guó)空軍研究實(shí)驗(yàn)室(Air Force Research Laboratory,AFRL)共同披露了“阿爾法空戰(zhàn)”系統(tǒng)[6],該系統(tǒng)在模擬空戰(zhàn)中戰(zhàn)勝了有著豐富經(jīng)驗(yàn)的退役美國(guó)空軍上?;鳌だ?。其核心算法采用遺傳模糊理論體系,基于人類(lèi)專家知識(shí)構(gòu)建了多個(gè)并行模糊推理機(jī),根據(jù)其映射關(guān)系確定輸入輸出連接,進(jìn)行實(shí)時(shí)決策,解決了需要連續(xù)實(shí)時(shí)決策的高維復(fù)雜問(wèn)題?!鞍柗諔?zhàn)”系統(tǒng)的初始策略結(jié)構(gòu)主要依賴人類(lèi)的先驗(yàn)知識(shí)建模,由于目前人類(lèi)對(duì)空戰(zhàn)機(jī)理的認(rèn)識(shí)具有一定程度上的局限性,其解空間搜索能力很大程度上受限于人類(lèi)設(shè)計(jì)好的結(jié)構(gòu)[6]。作為運(yùn)用人工智能技術(shù)求解空中對(duì)抗博弈問(wèn)題領(lǐng)域的里程碑成果,“阿爾法空戰(zhàn)”系統(tǒng)成功將演化計(jì)算應(yīng)用于求解復(fù)雜空中對(duì)抗問(wèn)題,在策略參數(shù)研究方面做出了積極的探索。
雙邊對(duì)抗學(xué)習(xí)系統(tǒng)[7]是波音公司和西英格蘭大學(xué)開(kāi)展的機(jī)動(dòng)對(duì)抗人工智能程序,該系統(tǒng)與“阿爾法空戰(zhàn)”系統(tǒng)同樣基于“先進(jìn)仿真、集成、建??蚣堋?Advanced Framework for Simulation, Integration and Modeling,AFSIM)[8]進(jìn)行開(kāi)發(fā),但研究的重點(diǎn)在于通過(guò)大規(guī)模遺傳算法進(jìn)行對(duì)抗自博弈,以期來(lái)驗(yàn)證智能空戰(zhàn)決策能夠脫離人類(lèi)知識(shí)限制,依靠機(jī)器智能創(chuàng)造出全新的空中對(duì)抗戰(zhàn)術(shù)策略。雙邊對(duì)抗學(xué)習(xí)系統(tǒng)與“阿爾法空戰(zhàn)”系統(tǒng)類(lèi)似,也將態(tài)勢(shì)—機(jī)動(dòng)對(duì)編碼為基因形式,通過(guò)大量隨機(jī)態(tài)勢(shì)生成海量對(duì)抗樣本,從而驅(qū)動(dòng)遺傳算法在龐大的對(duì)抗博弈樹(shù)空間中尋求適應(yīng)度的最佳值。與“阿爾法空戰(zhàn)”系統(tǒng)的區(qū)別在于,雙邊對(duì)抗學(xué)習(xí)系統(tǒng)明確指出,其對(duì)抗訓(xùn)練并非針對(duì)某個(gè)特定的想定場(chǎng)景來(lái)進(jìn)行,在環(huán)境適應(yīng)性上更加魯棒。
“阿爾法空戰(zhàn)”系統(tǒng)及雙邊對(duì)抗學(xué)習(xí)系統(tǒng)所代表的規(guī)則演進(jìn)類(lèi)方法首先驗(yàn)證了基于人工智能的空戰(zhàn)決策機(jī)制具備戰(zhàn)勝飛行員的能力,同步說(shuō)明了相關(guān)技術(shù)途徑是可行的。其次,開(kāi)發(fā)“阿爾法空戰(zhàn)”系統(tǒng)歷經(jīng)長(zhǎng)達(dá)數(shù)十年的基礎(chǔ)條件準(zhǔn)備,比如AFRL的AFSIM仿真系統(tǒng)作為基礎(chǔ)智能對(duì)抗仿真平臺(tái),支撐了多個(gè)先進(jìn)研究項(xiàng)目的研制,這說(shuō)明支撐智能空戰(zhàn)研究相關(guān)的仿真基礎(chǔ)持續(xù)建設(shè)投入是必要的。最后,雙邊對(duì)抗學(xué)習(xí)系統(tǒng)證明了不需要人類(lèi)的介入,單純?cè)跈C(jī)動(dòng)層面,機(jī)器智能也具備創(chuàng)造全新的對(duì)抗機(jī)動(dòng)戰(zhàn)術(shù)的能力與潛力。
規(guī)則演進(jìn)階段相比于專家機(jī)動(dòng)邏輯階段和規(guī)則自動(dòng)生成階段在智能化程度上有了很大的提升,但在技術(shù)應(yīng)用中仍遇到了一些困難。例如依賴人類(lèi)先驗(yàn)知識(shí)進(jìn)行初始設(shè)計(jì)的問(wèn)題仍然存在,這將導(dǎo)致訓(xùn)練更容易過(guò)擬合到人類(lèi)已知的戰(zhàn)術(shù)策略。此外,規(guī)則演進(jìn)類(lèi)方法一般基于常規(guī)的遺傳算法或遺傳模糊系統(tǒng),其自學(xué)習(xí)能力與機(jī)器學(xué)習(xí)類(lèi)方法相比仍存在一定的差距。
2010年,麻省理工學(xué)院公開(kāi)了空中對(duì)抗自適應(yīng)動(dòng)態(tài)規(guī)劃(Approximate Dynamic Programming,ADP)系統(tǒng)[9-10]。ADP的主要思想是通過(guò)線性或者非線性的結(jié)構(gòu)近似地表達(dá)所處狀態(tài)的效用函數(shù),并通過(guò)值迭代或者策略迭代方法生成決策策略。該系統(tǒng)隨后在其“渡鴉”飛行對(duì)抗環(huán)境中開(kāi)展了博弈測(cè)試,證明了ADP能夠脫離人類(lèi)給定的策略規(guī)則完全自行學(xué)到有效且完整的平面對(duì)抗戰(zhàn)術(shù)。通過(guò)分析ADP,可以發(fā)現(xiàn)其具有如下特點(diǎn):① ADP能夠在環(huán)境中探索學(xué)習(xí)到大量有效策略,如果模型抽象得當(dāng),理論上有可能創(chuàng)造出人類(lèi)未知的空中對(duì)抗策略;② ADP只能解決平面對(duì)抗離散動(dòng)作優(yōu)化問(wèn)題,因而很難直接應(yīng)用于實(shí)際的空戰(zhàn)系統(tǒng);③ ADP需要對(duì)手空戰(zhàn)策略模型,而這些模型在實(shí)際情況中往往難以獲得。
2010年,斯坦福大學(xué)吳恩達(dá)(Andrew Y. Ng)團(tuán)隊(duì)開(kāi)發(fā)了直升機(jī)機(jī)動(dòng)飛行學(xué)習(xí)系統(tǒng)[11]?;谀鎻?qiáng)化學(xué)習(xí)實(shí)現(xiàn)了無(wú)人直升機(jī)的控制策略生成,同時(shí)具備在一定外界擾動(dòng)環(huán)境下的魯棒性,從實(shí)機(jī)測(cè)試結(jié)果可以看出該控制策略飛行表現(xiàn)要優(yōu)于飛手的控制,更加穩(wěn)定可靠。但與空戰(zhàn)對(duì)抗問(wèn)題相比,直升機(jī)機(jī)動(dòng)控制問(wèn)題要相對(duì)簡(jiǎn)單,因此很難認(rèn)為這種方式可以直接應(yīng)用于智能空戰(zhàn)系統(tǒng)。
本階段與空戰(zhàn)應(yīng)用背景結(jié)合更緊密的是人工智能近距空中格斗項(xiàng)目—“阿爾法狗斗”。該項(xiàng)目挑戰(zhàn)賽由DARPA戰(zhàn)略技術(shù)辦公室主辦,旨在對(duì)人工智能“狗斗”算法進(jìn)行演示驗(yàn)證。最終經(jīng)過(guò)激烈角逐,蒼鷺系統(tǒng)公司成為了冠軍。在最后的人機(jī)大戰(zhàn)中,F(xiàn)-16飛行教官Banger以0:5的結(jié)果慘敗[12]。根據(jù)公開(kāi)的信息可知,蒼鷺系統(tǒng)公司采用了深度強(qiáng)化學(xué)習(xí)技術(shù)及多智能體分布式訓(xùn)練系統(tǒng)架構(gòu)。從試驗(yàn)數(shù)據(jù)回放來(lái)看,AI獲勝的關(guān)鍵在于其卓越的瞄準(zhǔn)能力和敏捷的機(jī)動(dòng)操縱能力,而對(duì)創(chuàng)造性戰(zhàn)術(shù)的理解能力卻比較欠缺。簡(jiǎn)而言之,AI在“態(tài)”的精度和“感”的速度上占得先機(jī),但在“勢(shì)”的判斷和“知”的預(yù)測(cè)上還不具備優(yōu)勢(shì)[13]。
除此之外,2020年11月,Red6與EpiSci公司通過(guò)技術(shù)模擬實(shí)現(xiàn)了智能算法與有人教練機(jī)的空中對(duì)抗。該教練機(jī)利用Red6公司提供的機(jī)載戰(zhàn)術(shù)增強(qiáng)現(xiàn)實(shí)系統(tǒng)以投影的形式在飛行員頭盔視野中顯示戰(zhàn)場(chǎng)環(huán)境,相應(yīng)的,智能算法方面搭配了EpiSci公司提供的戰(zhàn)術(shù)AI系統(tǒng)以進(jìn)行戰(zhàn)斗中的戰(zhàn)術(shù)動(dòng)作選擇。同年晚期,美國(guó)U-2偵察機(jī)也裝備了人工智能輔助決策系統(tǒng)—Artoo,此智能輔助決策系統(tǒng)具備控制偵察機(jī)的傳感器系統(tǒng)執(zhí)行相關(guān)任務(wù)的能力,例如探測(cè)并識(shí)別導(dǎo)彈發(fā)射裝置,以及控制傳感器和戰(zhàn)術(shù)導(dǎo)航系統(tǒng)的使用等。
2019年3月15日,美國(guó)空軍戰(zhàn)略發(fā)展規(guī)劃與實(shí)驗(yàn)辦公室(Strategic Development Planning and Experimentation,SDPE)為自主無(wú)人作戰(zhàn)算法驗(yàn)證平臺(tái)(Skyborg)項(xiàng)目發(fā)布了能力信息征詢書(shū)[14]。擬在2023年推出Skyborg作為人工智能空中對(duì)抗實(shí)驗(yàn)驗(yàn)證平臺(tái)。Skyborg將直接支撐《2018年美國(guó)人工智能戰(zhàn)略》[15]和2019年發(fā)布的《人工智能倡議》[16],即在滿足緊迫業(yè)務(wù)的同時(shí),保持美國(guó)在智能空中對(duì)抗領(lǐng)域的領(lǐng)導(dǎo)地位。Skyborg由2個(gè)系統(tǒng)組成:第1個(gè)是R2-D2型人工智能系統(tǒng),它將作為副駕駛員乘坐載人戰(zhàn)斗機(jī),像盧克·天行者一樣,在不久的將來(lái),空軍飛行員可以通過(guò)語(yǔ)音命令與該智能系統(tǒng)開(kāi)展交互;第2個(gè)是可以自主駕駛無(wú)人飛行器的人工智能系統(tǒng),類(lèi)似波音的“忠誠(chéng)僚機(jī)”或者奎托斯防御公司的XQ-58A瓦爾基里。
從AML開(kāi)始,歷經(jīng)近50年的技術(shù)積累,雖然美國(guó)空軍在2019年預(yù)判現(xiàn)有能力已足夠開(kāi)發(fā)統(tǒng)一的智能空戰(zhàn)平臺(tái),但觀其發(fā)展部署現(xiàn)狀,即SDPE辦公室仍舊在為其原型作戰(zhàn)平臺(tái)形成早期作戰(zhàn)能力而努力,可以看出現(xiàn)有的智能化能力及水平還難以在實(shí)戰(zhàn)裝備上落地。不可否認(rèn),雖然智能化技術(shù)在Skyborg驗(yàn)證機(jī)上的應(yīng)用部署意義重大,對(duì)于推動(dòng)智能空戰(zhàn)對(duì)抗實(shí)戰(zhàn)化應(yīng)用具有里程碑價(jià)值,但是仍然存在諸多問(wèn)題與挑戰(zhàn):① 智 能化程度該如何定義;② 人機(jī)權(quán)限該如何劃分;③ 任務(wù)類(lèi)型如何選擇;④ 是否具有一定的普適性;⑤ 學(xué)習(xí)能力如何提高;⑥ 漸進(jìn)學(xué)習(xí)的機(jī)制如何構(gòu)建等等。
隨著航空科學(xué)技術(shù)的發(fā)展,現(xiàn)代空戰(zhàn)逐漸演化為以空空導(dǎo)彈為主要進(jìn)攻手段,依托綜合態(tài)勢(shì)感知與戰(zhàn)術(shù)決策,在人類(lèi)飛行員的操縱下,進(jìn)行的多回合、高復(fù)雜度、強(qiáng)風(fēng)險(xiǎn)性空中對(duì)抗。一個(gè)完整的交戰(zhàn)過(guò)程涉及多個(gè)復(fù)雜的認(rèn)知決策環(huán)節(jié),如態(tài)勢(shì)理解、戰(zhàn)術(shù)機(jī)動(dòng)和攻擊占位等。其決策的智能化程度、精準(zhǔn)度以及適配度直接決定了空戰(zhàn)的勝負(fù)。目前,空戰(zhàn)決策主要依賴人類(lèi)飛行員完成,為后續(xù)達(dá)成媲美乃至超越人類(lèi)的空戰(zhàn)水平,打破人類(lèi)固有戰(zhàn)術(shù)認(rèn)知與生理機(jī)能限制,發(fā)展先進(jìn)的智能空戰(zhàn)自主決策技術(shù)是確保制勝未來(lái)空天戰(zhàn)場(chǎng)的核心關(guān)鍵。
同時(shí)由于空戰(zhàn)具有高動(dòng)態(tài)性、強(qiáng)實(shí)時(shí)性、不確定性和非完美信息等特點(diǎn),該問(wèn)題通常被建模為非完美信息下的多優(yōu)化目標(biāo)動(dòng)態(tài)博弈問(wèn)題。目前針對(duì)智能空戰(zhàn)決策問(wèn)題的研究主要涵蓋3大方向:用于建模及求解空戰(zhàn)攻防博弈問(wèn)題的博弈理論、將空戰(zhàn)問(wèn)題建模為多目標(biāo)決策優(yōu)化問(wèn)題以及對(duì)應(yīng)的優(yōu)化理論、具有自學(xué)習(xí)能力可以不斷進(jìn)化的人工智能決策技術(shù)(如圖2所示)。這些方法是實(shí)現(xiàn)全自主空戰(zhàn)認(rèn)知決策的核心關(guān)鍵技術(shù),即智能空戰(zhàn)之“魂”。
圖2 部分智能空戰(zhàn)決策典型方法Fig.2 Partial typical methods of intelligent air combat decision
博弈論是研究多個(gè)理性決策者之間競(jìng)爭(zhēng)與合作關(guān)系的數(shù)學(xué)理論和方法[17],將博弈論應(yīng)用于軍事作戰(zhàn)方向已是國(guó)內(nèi)外主要的研究熱點(diǎn),尤其是針對(duì)高動(dòng)態(tài)強(qiáng)對(duì)抗條件下的博弈問(wèn)題。基于博弈理論的空戰(zhàn)問(wèn)題研究主要有微分博弈[18]和影響圖博弈[19]。其中,微分博弈是博弈論的重要分支,屬于動(dòng)態(tài)博弈范疇,適用于解決空戰(zhàn)中追逃博弈問(wèn)題;影響圖博弈是創(chuàng)造一種基于專家知識(shí)的概率拓?fù)浣Y(jié)構(gòu)和參數(shù)學(xué)習(xí)方式來(lái)代替飛行員,能以可控的、可解釋的以及可理解的方式求解空戰(zhàn)決策問(wèn)題[19]。
1) 微分博弈
微分博弈一般用于求解近距空戰(zhàn)中格斗雙方的機(jī)動(dòng)占位決策問(wèn)題[20]。在使用航炮作戰(zhàn)的近距空戰(zhàn)中,一方需要占據(jù)敵方的尾后向以獲取攻擊占位,其對(duì)手則需要通過(guò)有效機(jī)動(dòng)盡快擺脫攻方的攻擊鎖定。在以紅外空空導(dǎo)彈為主攻武器的現(xiàn)代近距空戰(zhàn)中,即使先進(jìn)紅外格斗導(dǎo)彈發(fā)射無(wú)須以占據(jù)敵方尾后位作為先決條件,但敏捷占位仍是空戰(zhàn)博弈必須解決的重要問(wèn)題。文獻(xiàn)[21]將微分博弈應(yīng)用至一對(duì)一視距內(nèi)空戰(zhàn)的自主機(jī)動(dòng)決策環(huán)節(jié),基于空戰(zhàn)雙方的相對(duì)幾何關(guān)系、相對(duì)速度等信息,構(gòu)建了一種用于描述雙方空戰(zhàn)優(yōu)勢(shì)的分?jǐn)?shù)矩陣。通過(guò)將分?jǐn)?shù)矩陣結(jié)合微分博弈,形成了一種分層決策架構(gòu)。其頂層的行為決策用于輸出宏觀的機(jī)動(dòng)意圖,如進(jìn)攻、防守等;底層的機(jī)動(dòng)決策用于輸出具體的機(jī)動(dòng)指令,如指令過(guò)載、橫滾角速率等。
經(jīng)過(guò)改進(jìn)的微分博弈算法也可以應(yīng)用到超視距空戰(zhàn)的機(jī)動(dòng)決策求解過(guò)程中[22]。超視距空戰(zhàn)有2個(gè)目標(biāo),一是結(jié)合導(dǎo)彈攻擊區(qū)進(jìn)行機(jī)動(dòng)占位以盡可能地使敵方落入己方導(dǎo)彈攻擊區(qū)內(nèi);二是通過(guò)機(jī)動(dòng)占位使己方盡可能地逃離敵方導(dǎo)彈攻擊區(qū),這種問(wèn)題描述使得超視距空戰(zhàn)的機(jī)動(dòng)決策也可以被建模成經(jīng)典的追逃博弈問(wèn)題。文獻(xiàn)[22]提出了動(dòng)態(tài)逃逸區(qū)的概念,通過(guò)適時(shí)地進(jìn)行動(dòng)力學(xué)逃逸,可以幫助戰(zhàn)斗機(jī)逃脫已發(fā)射導(dǎo)彈的攻擊。動(dòng)態(tài)逃逸區(qū)和微分博弈相結(jié)合后,使得被攻擊方不僅能獲知規(guī)避導(dǎo)彈的最晚時(shí)機(jī),而且能得到實(shí)施安全逃逸的連續(xù)實(shí)時(shí)指示信息。
2) 影響圖博弈
為更好地利用人類(lèi)專家知識(shí)進(jìn)行空戰(zhàn)博弈決策結(jié)構(gòu)建模,文獻(xiàn)[19,23-28]提出了影響圖博弈求解方法。影響圖是一種有向無(wú)環(huán)圖,用于描述一種概率決策結(jié)構(gòu),通過(guò)將影響決策的隨機(jī)變量進(jìn)行拓?fù)渑判蛞詷?gòu)建層次決策能力,從而簡(jiǎn)化最終決策隨機(jī)變量后驗(yàn)概率計(jì)算難題??紤]到其概率決策結(jié)構(gòu)由人類(lèi)專家建立,因此這種方法使決策過(guò)程天然具備透明性、可追溯、可理解等優(yōu)良特性[23]。
經(jīng)典的影響圖博弈最初只考慮單一的決策者,文獻(xiàn)[24]將其擴(kuò)展到多決策者情況,并且在后續(xù)的研究中提出了基于非合作博弈理論的多決策者博弈的影響圖實(shí)現(xiàn)[25-26]。另一方面,文獻(xiàn)[27]將影響圖博弈概念擴(kuò)展到動(dòng)態(tài)多階段決策問(wèn)題中,但是并未引入博弈理論。文獻(xiàn)[19]將動(dòng)態(tài)多階段決策問(wèn)題和博弈理論相結(jié)合,提出非零和多階段影響圖博弈,用于描述一對(duì)一空戰(zhàn)中的飛行員的序貫決策行為。文獻(xiàn)[28]在考慮了非完全對(duì)手信息的情況下,將影響圖與狀態(tài)估計(jì)方法結(jié)合,采用無(wú)跡卡爾曼濾波對(duì)信念狀態(tài)進(jìn)行預(yù)測(cè)估計(jì),同時(shí)為了滿足空戰(zhàn)實(shí)時(shí)性要求,采用滾動(dòng)時(shí)域控制求解建立的模型。
雖然應(yīng)用博弈理論可以解決諸多空戰(zhàn)決策的相關(guān)問(wèn)題,但隨著空戰(zhàn)決策需求的不斷提高及研究的不斷深入,博弈論的相關(guān)方法也暴露出很多缺陷:
1) 首先是真實(shí)空戰(zhàn)問(wèn)題的建模復(fù)雜性,由于真實(shí)空戰(zhàn)環(huán)境信息量巨大,狀態(tài)瞬息萬(wàn)變,各決策方法存在耦合復(fù)雜的作用關(guān)系,且信息存在不確定、不完備性,如何精確合理地對(duì)真實(shí)空戰(zhàn)問(wèn)題進(jìn)行建模是進(jìn)行空戰(zhàn)決策的首要瓶頸。
2) 其次是隨著博弈個(gè)體及決策空間的增長(zhǎng)帶來(lái)的維度爆炸問(wèn)題,由于決策過(guò)程需要將博弈中每個(gè)參與者對(duì)其他參與者的行為進(jìn)行評(píng)估,因此對(duì)于大量博弈參與者的決策問(wèn)題會(huì)帶來(lái)巨大的決策空間維度,直接影響求解的效率及精度。
3) 最后是最優(yōu)策略求解的困難性,面對(duì)復(fù)雜動(dòng)態(tài)的空戰(zhàn)決策問(wèn)題無(wú)法求得納什均衡的解析解,因此如何高效、準(zhǔn)確地進(jìn)行最優(yōu)策略的數(shù)值求解是需要解決的另一瓶頸。
空戰(zhàn)決策問(wèn)題也可以被形式化為多目標(biāo)優(yōu)化問(wèn)題,并使用經(jīng)典數(shù)值優(yōu)化算法進(jìn)行求解,如動(dòng)態(tài)規(guī)劃、遺傳算法、貝葉斯推理、統(tǒng)計(jì)學(xué)優(yōu)化等算法均在空戰(zhàn)決策領(lǐng)域得到了一定程度的應(yīng)用[9,29-35]。
文獻(xiàn)[9]提出了一種基于近似動(dòng)態(tài)規(guī)劃的空戰(zhàn)策略尋優(yōu)算法。近似動(dòng)態(tài)規(guī)劃與經(jīng)典動(dòng)態(tài)規(guī)劃的區(qū)別是,該方法無(wú)須在每個(gè)離散狀態(tài)下進(jìn)行預(yù)期累計(jì)獎(jiǎng)賞的展開(kāi)計(jì)算,而通過(guò)構(gòu)建一個(gè)連續(xù)函數(shù)逼近器來(lái)近似表示未來(lái)時(shí)刻的累計(jì)獎(jiǎng)賞,因此具有更短的計(jì)算時(shí)間。文獻(xiàn)[29]將空戰(zhàn)博弈看作為一個(gè)馬爾可夫過(guò)程,利用貝葉斯推理計(jì)算空戰(zhàn)態(tài)勢(shì),并根據(jù)態(tài)勢(shì)評(píng)估結(jié)果自適應(yīng)調(diào)整機(jī)動(dòng)決策因素的權(quán)重,使目標(biāo)函數(shù)更加合理。然后針對(duì)空戰(zhàn)博弈具有高度動(dòng)態(tài)性和大量不確定性的特點(diǎn),采用模糊邏輯建立了4個(gè)機(jī)動(dòng)決策因素的函數(shù),可有效提高機(jī)動(dòng)決策結(jié)果的魯棒性和有效性。文獻(xiàn)[30]提出了一種非線性模型預(yù)測(cè)跟蹤控制器來(lái)解決無(wú)人機(jī)的追逃博弈問(wèn)題,該控制器可對(duì)固定翼無(wú)人機(jī)的三維規(guī)避機(jī)動(dòng)進(jìn)行編碼,將追逃控制問(wèn)題建模為代價(jià)優(yōu)化問(wèn)題,通過(guò)梯度下降解決軌跡優(yōu)化和追逃博弈。文獻(xiàn)[32]使用人工免疫機(jī)制解決空戰(zhàn)機(jī)動(dòng)選擇問(wèn)題,將敵機(jī)當(dāng)作抗原,通過(guò)相對(duì)位置速度表征,將機(jī)動(dòng)動(dòng)作當(dāng)作抗體,利用遺傳算法和進(jìn)化算法模仿免疫系統(tǒng)應(yīng)對(duì)抗原的自適應(yīng)能力,這種機(jī)制使得智能體具有較強(qiáng)的記憶能力,能記錄過(guò)往成功的經(jīng)歷以便在相似場(chǎng)景下快速反應(yīng)。文獻(xiàn)[33]在上述基礎(chǔ)上將序列關(guān)聯(lián)數(shù)據(jù)挖掘和戰(zhàn)術(shù)免疫機(jī)動(dòng)系統(tǒng)模型相結(jié)合,以適應(yīng)更加動(dòng)態(tài)的戰(zhàn)場(chǎng)變化。文獻(xiàn)[34]提出了一種基于統(tǒng)計(jì)原理的無(wú)人戰(zhàn)斗機(jī)魯棒機(jī)動(dòng)決策方法。為了降低無(wú)人戰(zhàn)斗機(jī)作戰(zhàn)機(jī)動(dòng)決策的敏感性對(duì)典型機(jī)動(dòng)庫(kù)進(jìn)行了改進(jìn),設(shè)計(jì)了空戰(zhàn)態(tài)勢(shì)參數(shù)的魯棒隸屬度函數(shù)。然后將統(tǒng)計(jì)方法引入到魯棒機(jī)動(dòng)決策中,并對(duì)無(wú)人戰(zhàn)斗機(jī)對(duì)抗機(jī)動(dòng)和非對(duì)抗機(jī)動(dòng)兩種典型空戰(zhàn)情況進(jìn)行了仿真,結(jié)果表明該決策方法在引導(dǎo)無(wú)人機(jī)向有利態(tài)勢(shì)發(fā)展方面具有較強(qiáng)的魯棒性和優(yōu)化能力。文獻(xiàn)[35]通過(guò)可達(dá)集理論和目標(biāo)狀態(tài)權(quán)重的自適應(yīng)調(diào)整機(jī)制對(duì)目標(biāo)意圖進(jìn)行預(yù)測(cè),同時(shí)在態(tài)勢(shì)函數(shù)中引入魯棒設(shè)計(jì),在一定程度上克服了不完全對(duì)手信息的問(wèn)題,結(jié)合目標(biāo)意圖預(yù)測(cè)通過(guò)模糊邏輯進(jìn)行機(jī)動(dòng)決策。
基于優(yōu)化理論的空戰(zhàn)決策方法在多個(gè)細(xì)分應(yīng)用領(lǐng)域均有涉及,但由于空戰(zhàn)狀態(tài)空間的連續(xù)性和復(fù)雜性,大多數(shù)數(shù)值優(yōu)化方法在求解這種高維度、大規(guī)模的問(wèn)題時(shí),其計(jì)算性能往往無(wú)法滿足空戰(zhàn)決策的實(shí)時(shí)性需求[36]。因此,這類(lèi)方法大多用于離線的空戰(zhàn)策略優(yōu)化研究。
人工智能類(lèi)的空戰(zhàn)決策方法主要包括基于規(guī)則的專家系統(tǒng)和基于深度神經(jīng)網(wǎng)絡(luò)的自演進(jìn)機(jī)器學(xué)習(xí)類(lèi)方法。其中,基于深度神經(jīng)網(wǎng)絡(luò)的自演進(jìn)機(jī)器學(xué)習(xí)類(lèi)方法主要以深度學(xué)習(xí)和深度強(qiáng)化學(xué)習(xí)2種形式為主。
1) 基于規(guī)則的專家系統(tǒng)
基于規(guī)則的專家系統(tǒng)采用類(lèi)似IF-ELSE-THEN的謂詞邏輯構(gòu)建產(chǎn)生式規(guī)則[37-39],明確地定義決策系統(tǒng)“什么情況下該做什么”,是人工智能的初級(jí)形態(tài)。由于專家系統(tǒng)易于工程化且決策行為具有完全可解釋的優(yōu)點(diǎn),使其在工程中得到了更為廣泛的應(yīng)用,但也存在一定局限:① 對(duì)于基于規(guī)則的專家系統(tǒng)而言,空戰(zhàn)規(guī)則是其核心,而現(xiàn)有智能空戰(zhàn)產(chǎn)生式規(guī)則的設(shè)計(jì)主要依賴人類(lèi)空戰(zhàn)專家完成??紤]到完整的空戰(zhàn)規(guī)則集合不僅包括進(jìn)攻和防守等基礎(chǔ)戰(zhàn)術(shù),更重要的是需要明確界定各種邊界條件以防止出現(xiàn)未定義的情況,從而對(duì)決策結(jié)果產(chǎn)生未知影響;② 由于空戰(zhàn)狀態(tài)空間維度較為龐大,規(guī)則設(shè)計(jì)過(guò)程中往往會(huì)面臨“維數(shù)災(zāi)難”問(wèn)題[40]。即使一對(duì)一空戰(zhàn)規(guī)則能夠通過(guò)較為理想的設(shè)計(jì)覆蓋實(shí)戰(zhàn)情況,但隨著交戰(zhàn)智能體數(shù)量的線形增長(zhǎng),規(guī)則設(shè)計(jì)的復(fù)雜度呈指數(shù)級(jí)增長(zhǎng),建模具有該復(fù)雜度的空戰(zhàn)智能體僅僅依靠單純的人工手段是不可能完成的;③ 基于規(guī)則的算法其自主決策能力存在很明顯的認(rèn)知上限,其行為表現(xiàn)不會(huì)超出設(shè)計(jì)者預(yù)先設(shè)定的能力,因此空戰(zhàn)智能體的行為缺乏多樣性,更無(wú)法演化出不同于人類(lèi)做法的創(chuàng)新性戰(zhàn)術(shù)行為。
一些研究將專家系統(tǒng)和其他方法相結(jié)合以彌補(bǔ)基于規(guī)則的專家系統(tǒng)方法的不足。例如文獻(xiàn)[41]將專家系統(tǒng)和模糊貝葉斯網(wǎng)絡(luò)相結(jié)合構(gòu)建了混合策略決策系統(tǒng),彌補(bǔ)了純規(guī)則方法帶來(lái)的行為局限性。文獻(xiàn)[37]將專家系統(tǒng)和滾動(dòng)時(shí)域控制相結(jié)合,彌補(bǔ)了基于規(guī)則的專家系統(tǒng)適應(yīng)性差的缺點(diǎn)。
2) 基于深度學(xué)習(xí)的空戰(zhàn)行為克隆
深度學(xué)習(xí)是近年來(lái)人工智能領(lǐng)域的研究熱點(diǎn)方向之一,其理論和方法在諸多領(lǐng)域取得了廣泛應(yīng)用,在諸如計(jì)算機(jī)視覺(jué)[42]、自然語(yǔ)言處理[43]和用戶推薦系統(tǒng)[44]等復(fù)雜問(wèn)題中取得了巨大成功。直接通過(guò)專家標(biāo)注的數(shù)據(jù)監(jiān)督訓(xùn)練空戰(zhàn)決策智能體的方式被稱為行為克隆[45]。顧名思義,具有空戰(zhàn)經(jīng)驗(yàn)的飛行員在仿真器中親身參與空戰(zhàn)決策,仿真系統(tǒng)將每個(gè)決策時(shí)刻下的狀態(tài)和對(duì)應(yīng)的飛行員決策動(dòng)作記錄下來(lái)作為訓(xùn)練樣本,然后進(jìn)行離線訓(xùn)練,通過(guò)神經(jīng)網(wǎng)絡(luò)強(qiáng)大的擬合能力,擬合出空戰(zhàn)態(tài)勢(shì)和此態(tài)勢(shì)下所需的決策動(dòng)作之間的函數(shù)關(guān)系,這相當(dāng)于機(jī)器在克隆飛行員的動(dòng)作。在應(yīng)用部署時(shí),將實(shí)時(shí)空戰(zhàn)狀態(tài)輸入訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)模型進(jìn)行前向傳播,輸出決策指令??諔?zhàn)行為克隆的算法框架如圖3所示。其典型研究包括文獻(xiàn)[46-48],一般而言,這種方法能夠使智能體快速學(xué)會(huì)基本戰(zhàn)術(shù)機(jī)動(dòng)行為。
圖3 空戰(zhàn)行為克隆算法框架Fig.3 Algorithm framework of air combat behavior cloning
空戰(zhàn)行為克隆是一種數(shù)據(jù)驅(qū)動(dòng)的機(jī)器學(xué)習(xí)方法,無(wú)需對(duì)空戰(zhàn)動(dòng)力學(xué)的內(nèi)在機(jī)理進(jìn)行完善的數(shù)學(xué)建模,其不足包括:① 訓(xùn)練數(shù)據(jù)完全來(lái)源于飛行員手動(dòng)標(biāo)注,因此訓(xùn)練出的深度神經(jīng)網(wǎng)絡(luò)空戰(zhàn)決策能力無(wú)法超過(guò)產(chǎn)生標(biāo)注的某個(gè)飛行員;② 若采用多個(gè)飛行員標(biāo)注數(shù)據(jù)完成算法訓(xùn)練,將導(dǎo)致訓(xùn)練梯度沖突,往往導(dǎo)致訓(xùn)練難以收斂;③ 監(jiān)督學(xué)習(xí)需要一定數(shù)量的訓(xùn)練樣本,受限于標(biāo)注專家的精力和時(shí)間成本,工程上往往無(wú)法提供所需的標(biāo)注量。但是,行為克隆對(duì)空戰(zhàn)博弈策略的演化建立了一個(gè)基于專家認(rèn)知的初始基準(zhǔn),雖然無(wú)法通過(guò)該方法直接訓(xùn)練得到可以直接應(yīng)用的智能體,但該方法可以看作是深度強(qiáng)化學(xué)習(xí)自我博弈學(xué)習(xí)方式的空戰(zhàn)知識(shí)初始化手段,能夠顯著加快強(qiáng)化學(xué)習(xí)算法的收斂速度和學(xué)習(xí)效率,這一觀點(diǎn)已在棋類(lèi)博弈[49]、星際爭(zhēng)霸2[50]等多個(gè)相關(guān)領(lǐng)域得到了證實(shí)。
3) 基于深度強(qiáng)化學(xué)習(xí)的自博弈對(duì)抗
深度強(qiáng)化學(xué)習(xí)是近年來(lái)人工智能領(lǐng)域最為成功的方法之一[51-52],谷歌的DeepMind團(tuán)隊(duì)在Atari游戲環(huán)境中通過(guò)深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的有機(jī)融合,提出了深度Q網(wǎng)絡(luò)(Deep Q Network,DQN)[53],率先實(shí)現(xiàn)了人類(lèi)專家級(jí)別的操控水平。深度強(qiáng)化學(xué)習(xí)一般被形式化為馬爾可夫決策過(guò)程求解問(wèn)題:智能體從當(dāng)前環(huán)境獲取觀測(cè),產(chǎn)生決策動(dòng)作并與環(huán)境進(jìn)行交互,環(huán)境根據(jù)智能體的表現(xiàn)反饋獎(jiǎng)賞給智能體,智能體收到獎(jiǎng)賞后不斷修正自己的行為,好的獎(jiǎng)賞將會(huì)激勵(lì)智能體繼續(xù)做出一致行為,相反,則將懲罰智能體使其避免做出類(lèi)似行為。深度強(qiáng)化學(xué)習(xí)智能體通過(guò)大量上述試錯(cuò)模式,以最大化預(yù)期獎(jiǎng)賞的方式進(jìn)行學(xué)習(xí)和進(jìn)化,以獲取最優(yōu)策略。空戰(zhàn)強(qiáng)化學(xué)習(xí)的算法框架如圖4所示。
圖4 空戰(zhàn)強(qiáng)化學(xué)習(xí)算法框架Fig.4 Algorithm framework of air combat reinforcement learning
與之類(lèi)似,空戰(zhàn)智能體也可以在仿真環(huán)境中通過(guò)與對(duì)手不斷地自博弈對(duì)抗,演化出足以匹敵人類(lèi)飛行員甚至超越人類(lèi)頂尖水平的空戰(zhàn)戰(zhàn)術(shù)。文獻(xiàn)[54]將空戰(zhàn)優(yōu)勢(shì)函數(shù)作為獎(jiǎng)賞函數(shù),通過(guò)模糊邏輯方法將狀態(tài)空間泛化和連續(xù)化,提出了模糊Q學(xué)習(xí)。文獻(xiàn)[36,55]采用DQN實(shí)現(xiàn)了無(wú)人機(jī)近距機(jī)動(dòng)動(dòng)作學(xué)習(xí)。文獻(xiàn)[56-57]提出了啟發(fā)式思想與強(qiáng)化學(xué)習(xí)相結(jié)合的思路,將專家知識(shí)作為啟發(fā)信號(hào),通過(guò)強(qiáng)化學(xué)習(xí)進(jìn)行先驗(yàn)知識(shí)以外的探索,實(shí)現(xiàn)了空戰(zhàn)策略啟發(fā)式探索和隨機(jī)式探索結(jié)合的效果。文獻(xiàn)[58]解決了多智能體空戰(zhàn)的決策問(wèn)題,提出了多智能體分層策略梯度算法,通過(guò)自博弈對(duì)抗學(xué)習(xí)使智能體涌現(xiàn)出專家級(jí)的空戰(zhàn)戰(zhàn)術(shù)策略(如圖5所示);此外,還模仿人類(lèi)分層解決問(wèn)題的能力,構(gòu)建了一種分層決策網(wǎng)絡(luò)用來(lái)處理復(fù)雜的離散/連續(xù)混雜機(jī)動(dòng)動(dòng)作。
圖5 智能體通過(guò)強(qiáng)化學(xué)習(xí)涌現(xiàn)空戰(zhàn)戰(zhàn)術(shù)[58]Fig.5 Agents learning emerging air combat tactics through reinforcement learning[58]
綜上,深度強(qiáng)化學(xué)習(xí)通過(guò)和空戰(zhàn)環(huán)境的持續(xù)交互,可以開(kāi)展自我對(duì)弈從而生成全新的戰(zhàn)術(shù)模式,甚至是人類(lèi)從未見(jiàn)過(guò)的全新戰(zhàn)術(shù)[58]。由于其策略一般由深度神經(jīng)網(wǎng)絡(luò)擬合,因此深度強(qiáng)化學(xué)習(xí)空戰(zhàn)算法的工程化落地必須解決一系列關(guān)鍵技術(shù),如算法從仿真環(huán)境向真實(shí)物理世界的遷移、神經(jīng)網(wǎng)絡(luò)的可解釋性和安全性保障等[59-61]。
人工智能技術(shù)與空戰(zhàn)問(wèn)題的交叉融合,為高動(dòng)態(tài)、不確定、非完美信息條件下的空戰(zhàn)博弈問(wèn)題求解帶來(lái)了新的途徑。以深度強(qiáng)化學(xué)習(xí)為代表的人工智能方法,不僅在棋類(lèi)博弈、德州撲克等實(shí)際問(wèn)題求解上呈現(xiàn)出超越人類(lèi)的表現(xiàn)[49,62],而且揭示了這一全新模式可以創(chuàng)造出替代人類(lèi)飛行員遂行完整空戰(zhàn)任務(wù)的全新空中對(duì)抗形態(tài)??梢灶A(yù)見(jiàn),在不遠(yuǎn)的將來(lái),空戰(zhàn)對(duì)抗模式必將發(fā)生深刻變革,這一變革必然帶來(lái)智能空戰(zhàn)技術(shù)演化創(chuàng)新所涉及的全新需求與巨大挑戰(zhàn),如非完美信息的博弈[62]、多智能體協(xié)同[63]與遷移學(xué)習(xí)[64]等。面向求解這些問(wèn)題的科學(xué)探索與工程實(shí)踐,清晰地指明了智能空戰(zhàn)技術(shù)的未來(lái)發(fā)展方向和前進(jìn)道路,即智能空戰(zhàn)之“道”。
1) 智能空戰(zhàn)需求發(fā)展——從平臺(tái)能力建設(shè)到體系協(xié)同建設(shè)
縱觀以往空戰(zhàn)的發(fā)展歷程可以看出,各代戰(zhàn)斗機(jī)的研發(fā)均以提高單機(jī)作戰(zhàn)效能為主,通過(guò)提高戰(zhàn)斗機(jī)在空戰(zhàn)過(guò)程觀察、判斷、決策行動(dòng)(OODA)各環(huán)節(jié)的能力來(lái)提高整體作戰(zhàn)效能。隨著信息化時(shí)代的繁榮以及智能化時(shí)代的到來(lái),空戰(zhàn)逐步向體系博弈對(duì)抗發(fā)展,各平臺(tái)間的信息交互成為體系建設(shè)的基石,而智能則貫穿于整個(gè)空戰(zhàn)博弈體系對(duì)抗的OODA過(guò)程之中。未來(lái)空戰(zhàn)將以博弈體系建設(shè)為中心,重點(diǎn)發(fā)展智能態(tài)勢(shì)感知體系、智能態(tài)勢(shì)認(rèn)知體系、智能博弈對(duì)抗決策體系以及分布式異構(gòu)平臺(tái)協(xié)同作戰(zhàn)體系。
2) 智能空戰(zhàn)應(yīng)用發(fā)展——從“飛行員助手”到“空戰(zhàn)專家”
隨著未來(lái)先進(jìn)作戰(zhàn)思想和武器裝備的不斷發(fā)展,未來(lái)空戰(zhàn)環(huán)境也逐漸向強(qiáng)對(duì)抗、高動(dòng)態(tài)、強(qiáng)干擾、強(qiáng)不確定性等高度復(fù)雜環(huán)境轉(zhuǎn)變,對(duì)智能空戰(zhàn)技術(shù)的需求也從飛行員助手向空戰(zhàn)專家演變,人工智能技術(shù)相比于人類(lèi)飛行員在信息獲取、反應(yīng)時(shí)間、計(jì)算速度、技戰(zhàn)術(shù)動(dòng)作等方面具有絕對(duì)優(yōu)勢(shì),可突破人類(lèi)固有戰(zhàn)術(shù)認(rèn)知與生理機(jī)能限制,將在未來(lái)空戰(zhàn)中占據(jù)主導(dǎo)地位。隨著計(jì)算機(jī)科學(xué)、機(jī)器學(xué)習(xí)技術(shù)、大數(shù)據(jù)等新技術(shù)的快速迭代,與軍事作戰(zhàn)研究融合愈發(fā)緊密的智能技術(shù)必定引發(fā)空戰(zhàn)體系、裝備及相關(guān)技術(shù)的一系列革新,也必將引發(fā)未來(lái)智能空戰(zhàn)形態(tài)的進(jìn)一步變革。
3) 智能空戰(zhàn)技術(shù)發(fā)展—從以人類(lèi)智能為主到以機(jī)器智能為主
智能空戰(zhàn)技術(shù)正在由傳統(tǒng)的博弈理論和優(yōu)化理論向具有自學(xué)習(xí)能力的人工智能理論發(fā)展。傳統(tǒng)方法以飛機(jī)本體為中心,由人類(lèi)主導(dǎo)構(gòu)建空戰(zhàn)對(duì)抗的過(guò)程模型,求解空戰(zhàn)策略。受限于人類(lèi)的認(rèn)知邊界、模型的表達(dá)能力以及策略的求解能力,得出的空戰(zhàn)策略往往無(wú)法超越人類(lèi)的固有認(rèn)知。而下一代具有自學(xué)習(xí)能力的人工智能方法可以通過(guò)自博弈訓(xùn)練的方式學(xué)習(xí)到超越人類(lèi)認(rèn)知的空戰(zhàn)策略,是一種全新的以機(jī)器智能為主的發(fā)展模式。與此同時(shí),該模式面臨著不確定性、可解釋性、可遷移性以及可協(xié)同性的問(wèn)題,這些將成為未來(lái)機(jī)器智能空戰(zhàn)模式的重點(diǎn)發(fā)展方向。
1) 空天戰(zhàn)場(chǎng)的深度不確定性
未來(lái)空天戰(zhàn)場(chǎng)將面臨要素多元化、對(duì)抗?fàn)顟B(tài)隨機(jī)化、決策博弈智能化、態(tài)勢(shì)信息片段化等典型的深度不確定性挑戰(zhàn)。其中不確定狀態(tài)下的非完美信息[65-66]空戰(zhàn)決策能力將成為應(yīng)對(duì)該挑戰(zhàn)的關(guān)鍵突破點(diǎn)。非完美信息會(huì)直接影響對(duì)敵方目標(biāo)進(jìn)行有效的識(shí)別、定位、預(yù)測(cè)及攻擊等一系列作戰(zhàn)行為,將導(dǎo)致空戰(zhàn)決策缺乏足夠的信息基礎(chǔ),從而降低決策響應(yīng)及準(zhǔn)確程度。故如何在非完美信息博弈中實(shí)現(xiàn)對(duì)敵方的智能搜索、意圖預(yù)測(cè)及戰(zhàn)術(shù)推理,做到“找得到、猜得準(zhǔn)、打得贏”,是在未來(lái)高動(dòng)態(tài)不確定空戰(zhàn)背景下必須解決的核心問(wèn)題。
2) 智能空戰(zhàn)策略的解釋性與安全性
人工智能的可解釋性是指人工智能算法能夠以人類(lèi)可理解的方式進(jìn)行解釋或表達(dá)[67],智能空戰(zhàn)策略的解釋性旨在生成人類(lèi)可理解的空戰(zhàn)策略?;谏疃壬窠?jīng)網(wǎng)絡(luò)的人工智能算法的輸入與輸出映射關(guān)系復(fù)雜,以目前的技術(shù)手段還無(wú)法完整了解整個(gè)神經(jīng)網(wǎng)絡(luò)模型的內(nèi)部運(yùn)作方式。這導(dǎo)致當(dāng)人工智能算法出現(xiàn)錯(cuò)誤決策時(shí),我們無(wú)法清晰地獲知算法出錯(cuò)的原因,從而無(wú)法對(duì)算法做出精準(zhǔn)的修正[68-69]。因此,為了使人類(lèi)能夠充分理解智能空戰(zhàn)算法決策的內(nèi)在邏輯,從而使飛行員充分信任智能空戰(zhàn)系統(tǒng),就必須深入研究人工智能方法的解釋性。同時(shí),智能空戰(zhàn)算法應(yīng)能充分理解安全高度、安全飛行包線及失速邊界等飛行安全要求,避免因遭受欺騙或干擾而導(dǎo)致的錯(cuò)誤決策行為。因此,對(duì)于智能空戰(zhàn)問(wèn)題來(lái)說(shuō),能否突破智能算法的解釋性和安全性技術(shù)將直接影響人工智能在空戰(zhàn)領(lǐng)域的成熟落地。
3) 從虛擬仿真到真實(shí)飛行的遷移
從虛擬仿真到真實(shí)環(huán)境的遷移學(xué)習(xí)(Simulation to Reality,Sim2Real)[61,64]是強(qiáng)化學(xué)習(xí)中的難點(diǎn)問(wèn)題之一。在智能空戰(zhàn)問(wèn)題中,直接使用算法驅(qū)動(dòng)全尺寸真機(jī)開(kāi)展訓(xùn)練,存在以下問(wèn)題。① 樣 本效率問(wèn)題:強(qiáng)化學(xué)習(xí)算法在解決智能體控制問(wèn)題時(shí)所需要的樣本量一般會(huì)達(dá)到千萬(wàn)數(shù)量級(jí)[70],在現(xiàn)實(shí)環(huán)境中采集如此數(shù)量級(jí)的實(shí)戰(zhàn)樣本需要龐大的成本;② 訓(xùn)練過(guò)程安全性問(wèn)題:由于強(qiáng)化學(xué)習(xí)需要通過(guò)智能體在環(huán)境中進(jìn)行大范圍的隨機(jī)采樣來(lái)進(jìn)行試錯(cuò),因而在某些時(shí)刻其行為會(huì)嚴(yán)重影響飛行安全。如果在虛擬仿真環(huán)境中進(jìn)行強(qiáng)化學(xué)習(xí)算法的訓(xùn)練,以上兩個(gè)問(wèn)題均可迎刃而解。但是,由于虛擬仿真環(huán)境相對(duì)于真實(shí)物理環(huán)境始終存在誤差,導(dǎo)致在虛擬仿真環(huán)境中學(xué)習(xí)到的最優(yōu)策略無(wú)法直接應(yīng)用在真實(shí)物理環(huán)境中。因此,研究智能空戰(zhàn)策略從虛擬仿真環(huán)境到真實(shí)飛行環(huán)境的遷移學(xué)習(xí)成為了智能空戰(zhàn)工程實(shí)踐過(guò)程中必須解決的技術(shù)難題。
4) 智能空戰(zhàn)策略的協(xié)同性
現(xiàn)代空戰(zhàn)具備典型的體系化、層次化和協(xié)同化特征,因此未來(lái)的智能空戰(zhàn)系統(tǒng)也理應(yīng)具備多智能體協(xié)同空戰(zhàn)聯(lián)合策略求解能力。在多智能體系統(tǒng)中每個(gè)智能體的策略不僅取決于自身,還取決于其它智能體的策略,導(dǎo)致智能體的策略學(xué)習(xí)具有不穩(wěn)定性,這使得多智能體系統(tǒng)的策略學(xué)習(xí)變得更加復(fù)雜[71]。在更大規(guī)模的多智能體空戰(zhàn)對(duì)抗博弈過(guò)程中,基于規(guī)則的專家系統(tǒng)和傳統(tǒng)的優(yōu)化理論方法難以較好地處理“維數(shù)災(zāi)難”和策略不穩(wěn)定問(wèn)題,而基于深度神經(jīng)網(wǎng)絡(luò)的自演進(jìn)機(jī)器學(xué)習(xí)類(lèi)方法為解決此類(lèi)問(wèn)題提供了新的可能[72]。多個(gè)智能體能否自組織并演化出媲美甚至超越人類(lèi)的協(xié)作策略,是多智能體協(xié)同空戰(zhàn)算法必將面對(duì)的技術(shù)難題。
通過(guò)對(duì)上述智能空戰(zhàn)發(fā)展趨勢(shì)的幾點(diǎn)思考,可以看出人工智能技術(shù)與空戰(zhàn)領(lǐng)域的融合既是當(dāng)前的研究熱點(diǎn),也是未來(lái)的發(fā)展方向。將會(huì)對(duì)后續(xù)航空裝備需求想定、體系發(fā)展、裝備迭代以及技術(shù)革新等多個(gè)方面產(chǎn)生深遠(yuǎn)影響,有望成為制勝未來(lái)空天戰(zhàn)場(chǎng)的核心能力:
1) 機(jī)器主導(dǎo)的認(rèn)知型智能將是未來(lái)空戰(zhàn)單體智能的發(fā)展方向
未來(lái)空戰(zhàn)中的單體智能形態(tài)將經(jīng)歷從“以人為主導(dǎo)的規(guī)則型智能”到“人有限參與的機(jī)器學(xué)習(xí)型智能”再到“以機(jī)器為主導(dǎo)的認(rèn)知型智能”的演化路線。早期以專家系統(tǒng)為代表智能空戰(zhàn)技術(shù),嚴(yán)重依賴人類(lèi)對(duì)空戰(zhàn)的認(rèn)識(shí),屬于知識(shí)驅(qū)動(dòng)的規(guī)則型智能。近幾年智能空戰(zhàn)技術(shù)正向著數(shù)據(jù)驅(qū)動(dòng)的機(jī)器學(xué)習(xí)型智能方向邁進(jìn),這種以深度神經(jīng)網(wǎng)絡(luò)為代表形式的智能,通過(guò)對(duì)大量空戰(zhàn)數(shù)據(jù)樣本的訓(xùn)練,在人為加入獎(jiǎng)懲機(jī)制的情況下能夠涌現(xiàn)出類(lèi)人的決策行為,甚至創(chuàng)造全新戰(zhàn)術(shù)。其具備持續(xù)學(xué)習(xí)的能力,能夠通過(guò)訓(xùn)練執(zhí)行多類(lèi)型任務(wù),具有較強(qiáng)的戰(zhàn)場(chǎng)適應(yīng)能力,屬于人工智能在空戰(zhàn)領(lǐng)域發(fā)展的過(guò)渡階段。而在未來(lái),隨著人工智能技術(shù)的進(jìn)一步發(fā)展,以腦認(rèn)知科學(xué)為基礎(chǔ),以模仿人類(lèi)核心思維模式為目標(biāo)的認(rèn)知型智能將成為智能空戰(zhàn)技術(shù)未來(lái)的核心,有望適應(yīng)空戰(zhàn)高動(dòng)態(tài)、強(qiáng)實(shí)時(shí)、不確定和非完美的復(fù)雜環(huán)境,驅(qū)動(dòng)智能空戰(zhàn)技術(shù)邁入高級(jí)階段。
2) 群體智能將是未來(lái)空中作戰(zhàn)體系的主流形態(tài)
單個(gè)平臺(tái)的作戰(zhàn)效能存在一定局限,為了提高執(zhí)行復(fù)雜、困難任務(wù)的作戰(zhàn)效能,作戰(zhàn)平臺(tái)需要以集群的形式組織在一起共同執(zhí)行任務(wù)。未來(lái)空中集群作戰(zhàn)體系形態(tài)無(wú)論是人機(jī)混合智能集群還是全自主智能集群,都對(duì)群體智能的實(shí)戰(zhàn)化應(yīng)用提出了迫切需求。在該模式下,多個(gè)作戰(zhàn)平臺(tái)有機(jī)地組織在一起,相互產(chǎn)生“化學(xué)反應(yīng)”,實(shí)現(xiàn)作戰(zhàn)能力涌現(xiàn),將獲得“1+1>2”式的顛覆性的作戰(zhàn)能力。在機(jī)器智能技術(shù)充分提高了參戰(zhàn)個(gè)體的智能化程度后,可以預(yù)見(jiàn),群體智能將逐漸在未來(lái)空中作戰(zhàn)體系中占據(jù)重要的位置。
3) “智能×”將成為“三化融合”航空裝備設(shè)計(jì)的新理念
“+智能”是指在不突破原有裝備形態(tài)的基礎(chǔ)上,引入新的智能維度對(duì)其加以改造,從而實(shí)現(xiàn)原有裝備的功能拓展和性能增強(qiáng)。以Su-35“決斗”系統(tǒng)和美國(guó)忠誠(chéng)僚機(jī)為例,Su-35“決斗”系統(tǒng)實(shí)現(xiàn)了基于專家系統(tǒng)的空戰(zhàn)智能增強(qiáng)決策模式,能夠面向飛行員提供實(shí)時(shí)智能戰(zhàn)術(shù)建議。在忠誠(chéng)僚機(jī)中,無(wú)人僚機(jī)按有人長(zhǎng)機(jī)的命令執(zhí)行任務(wù),實(shí)現(xiàn)有人機(jī)為主導(dǎo)的作戰(zhàn)編隊(duì)能力增強(qiáng)?!?智能”設(shè)計(jì)理念雖然引入了智能增能,但本質(zhì)上仍然以機(jī)械化、信息化裝備實(shí)體為先導(dǎo)。而“智能×”是以智能化為引領(lǐng),形成機(jī)械化、信息化和智能化高度融合的具有跨代特征的先進(jìn)形態(tài),最大限度地發(fā)揮出裝備的機(jī)械潛能和信息優(yōu)勢(shì),有望更充分地適應(yīng)未來(lái)的裝備發(fā)展與作戰(zhàn)需求。
4) “高智能”有望成為未來(lái)無(wú)人制空作戰(zhàn)裝備的跨代特征
航空裝備的跨代發(fā)展是需求牽引與技術(shù)推動(dòng)共同作用的結(jié)果[73]。在隱身四代機(jī)和未來(lái)高性能制空作戰(zhàn)裝備的參與下,未來(lái)空戰(zhàn)任務(wù)必將對(duì)驅(qū)動(dòng)戰(zhàn)斗機(jī)遂行跨代空戰(zhàn)的智能主體提出更高要求。受限于人類(lèi)生理、心理限制,飛行員的態(tài)勢(shì)感知能力、決策質(zhì)量和操作準(zhǔn)確度均難以保持長(zhǎng)時(shí)間的巔峰狀態(tài);另一方面,人類(lèi)反應(yīng)時(shí)間存在上限,進(jìn)一步限制了飛機(jī)的快速響應(yīng)能力。而以人工智能為核心的下一代無(wú)人制空作戰(zhàn)裝備,有望全面超越人類(lèi)的決策效率與準(zhǔn)確性,極大地提高作戰(zhàn)效能。在機(jī)器主導(dǎo)的認(rèn)知型智能技術(shù)推動(dòng)下,“高智能”有望成為未來(lái)無(wú)人制空作戰(zhàn)裝備的跨代特征,引領(lǐng)新一輪空中對(duì)抗裝備根本性變革。
本文闡述了智能空戰(zhàn)技術(shù)研究和應(yīng)用的發(fā)展脈絡(luò),回顧了主流空戰(zhàn)自主決策問(wèn)題的建模與求解方法,揭示了智能空戰(zhàn)技術(shù)正逐漸從基于規(guī)則的專家系統(tǒng)全面邁向基于深度神經(jīng)網(wǎng)絡(luò)的自演進(jìn)機(jī)器學(xué)習(xí)方法這一根本發(fā)展趨勢(shì)。進(jìn)一步分析得出了以深度強(qiáng)化學(xué)習(xí)為代表的人工智能算法是在目前技術(shù)條件下創(chuàng)造出具有合理、可靠且豐富多樣戰(zhàn)術(shù)行為的空戰(zhàn)智能體的關(guān)鍵途徑,強(qiáng)調(diào)了未來(lái)在智能空戰(zhàn)科學(xué)研究及工程實(shí)踐中正在或即將面對(duì)的技術(shù)挑戰(zhàn):包括智能空戰(zhàn)的不確定性、解釋性、安全性、遷移性以及協(xié)同性等,為未來(lái)智能空戰(zhàn)技術(shù)研究勾勒出一條可行的探索路徑,為人工智能理論與航空科學(xué)技術(shù)的跨領(lǐng)域交叉融合提供了新的發(fā)展思路。