宋泠澳,劉 濤,趙冬梅,董宏揚(yáng)
(西南科技大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,四川 綿陽 621010)
隨著科學(xué)技術(shù)的發(fā)展和軍事理論的不斷創(chuàng)新,軍事輔助決策系統(tǒng)經(jīng)過多年建設(shè),取得了長(zhǎng)足進(jìn)步,在數(shù)據(jù)采集、傳輸、存儲(chǔ)、處理等方面有了不少成果。然而,多場(chǎng)地、無人化、復(fù)雜化的現(xiàn)代軍事博弈場(chǎng)景,需要高精度、多角度、多層面的全局或者局部決策,單純依靠人力進(jìn)行指揮調(diào)度與作戰(zhàn)決策正變得愈發(fā)困難[1],這導(dǎo)致在現(xiàn)代戰(zhàn)爭(zhēng)高烈度、快節(jié)奏的博弈環(huán)境下,在有限時(shí)間內(nèi)進(jìn)行決策分析十分困難。且現(xiàn)有的決策支持系統(tǒng)在情報(bào)處理、態(tài)勢(shì)認(rèn)知、文書生成和方案評(píng)估等方面,距離實(shí)戰(zhàn)要求還有很大的距離,與現(xiàn)代智能化戰(zhàn)爭(zhēng)的發(fā)展趨勢(shì)不相適應(yīng),亟待人工智能技術(shù)的介入。
近幾年,強(qiáng)化學(xué)習(xí)(reinforcement learning,RL)被廣泛應(yīng)用于交通、自動(dòng)駕駛、自然語言處理等多個(gè)領(lǐng)域[2-9],其基本思想是通過將智能體(agent)從環(huán)境(environment)中獲得的累計(jì)獎(jiǎng)賞值最大化,以學(xué)習(xí)完成目標(biāo)的最優(yōu)策略,因此,RL 方法更加側(cè)重于學(xué)習(xí)解決問題的策略[10]。
本文主要就強(qiáng)化學(xué)習(xí)技術(shù)在軍事領(lǐng)域的應(yīng)用進(jìn)行分析與總結(jié),包含軍事領(lǐng)域的5 種強(qiáng)化學(xué)習(xí)算法?;谝陨? 種算法,介紹了13 種強(qiáng)化學(xué)習(xí)在軍事方面應(yīng)用。通過以上6 種強(qiáng)化學(xué)習(xí)算法與13 種強(qiáng)化學(xué)習(xí)在軍事方面的應(yīng)用,分析強(qiáng)化學(xué)習(xí)在軍事領(lǐng)域的可能應(yīng)用領(lǐng)域以及未來發(fā)展趨勢(shì)。本文分別列舉了強(qiáng)化學(xué)習(xí)在海、陸、空領(lǐng)域的應(yīng)用,并分析強(qiáng)化學(xué)習(xí)對(duì)軍事智能決策系統(tǒng)搭建以及智能裝備發(fā)展的作用。
Q-learning 是一種無模型強(qiáng)化學(xué)習(xí)算法[11],它的目標(biāo)是學(xué)習(xí)一種策略,告訴agent 在什么情況下要采取什么行動(dòng)。Q-learning 不需要智能體直接與環(huán)境互動(dòng)(off-policy),不需要環(huán)境模型;可以處理隨機(jī)轉(zhuǎn)換和獎(jiǎng)勵(lì)的問題,無需進(jìn)行調(diào)整;每次更新狀態(tài)時(shí)都可以使用在訓(xùn)練期間內(nèi)任意時(shí)間點(diǎn)收集的數(shù)據(jù),而不管獲取數(shù)據(jù)時(shí)智能體的選擇。下面3 個(gè)例子說明了Q-learning 的軍事應(yīng)用可行性。
目標(biāo)分配是空戰(zhàn)中一個(gè)重要而又困難的問題[12-13],大多數(shù)目標(biāo)分配算法都被證明過于緩慢或不穩(wěn)定,無法收斂到全局最優(yōu)[14-15]。2004 年,HONG等利用Q-learning 建立制造環(huán)境動(dòng)態(tài)變化模型,進(jìn)行多目標(biāo)調(diào)度決策[16];2005 年,WANG 等將Q-learning 算法應(yīng)用于機(jī)器調(diào)度規(guī)則的選擇,檢驗(yàn)了將Q-learning 算法應(yīng)用于單機(jī)調(diào)度規(guī)則選擇問題的效果,證實(shí)了具有Q-learning 算法的機(jī)器代理能夠?yàn)椴煌南到y(tǒng)目標(biāo)學(xué)習(xí)最佳規(guī)則[17]。2006 年,JUNE等在設(shè)計(jì)一種二維移動(dòng)機(jī)器人時(shí)采用了Q-learning,該機(jī)器人在學(xué)習(xí)未知環(huán)境后能夠獨(dú)立移動(dòng),提出了一種基于Q-learning 的空戰(zhàn)目標(biāo)分配算法[17]。
2016 年,國防科技大學(xué)驗(yàn)證了Q-learning 是一種適用于空戰(zhàn)目標(biāo)分配的強(qiáng)化學(xué)習(xí)算法,可以用來尋找最優(yōu)的行動(dòng)選擇策略[18]:首先,對(duì)空戰(zhàn)智能體的屬性、結(jié)構(gòu)和動(dòng)作進(jìn)行建模;其次,定義了狀態(tài)-動(dòng)作對(duì)的判據(jù),給出了基于Q-learning 的目標(biāo)分配算法,當(dāng)學(xué)習(xí)到設(shè)計(jì)的動(dòng)作-價(jià)值函數(shù)時(shí),可以通過選擇每個(gè)狀態(tài)中值最高的動(dòng)作來構(gòu)造目標(biāo)分配最優(yōu)策略,實(shí)例分析表明,該算法不需要大量的訓(xùn)練集,避免了對(duì)先驗(yàn)知識(shí)的依賴,而且具有很好的尋優(yōu)能力,能夠很好地?cái)[脫局部最優(yōu)[19]。
2019 年,有學(xué)者從系統(tǒng)角度分析了動(dòng)態(tài)目標(biāo)防御技術(shù)中不同參數(shù)對(duì)系統(tǒng)的影響,建立了系統(tǒng)正常服務(wù)與重配置過程模型,在馬爾可夫決策過程的動(dòng)態(tài)目標(biāo)防御(moving target defense,MTD)策略優(yōu)化方法基礎(chǔ)上,引入Q-learning 算法生成了優(yōu)化策略集合,來保證在一定時(shí)間內(nèi)生成最優(yōu)策略,解決了多層次多變化參數(shù)集合的動(dòng)態(tài)防御技術(shù)的策略優(yōu)化問題[20]。其基本思想是對(duì)每個(gè)狀態(tài)s 和該狀態(tài)上可以采用的行動(dòng)aI0=ω1I1+ω2I2+…+ω3I3直接估計(jì)其回報(bào)因子Q(s,a),s∈S,a∈A,并在選擇行動(dòng)時(shí)按照式(1)進(jìn)行:
該方法既不需要計(jì)算數(shù)學(xué)期望,也不需要估計(jì)轉(zhuǎn)移狀態(tài)的信息,可以計(jì)算出優(yōu)化后的動(dòng)態(tài)目標(biāo)防御重配置策略,并且能夠較好地平衡系統(tǒng)的可用性和安全性,指導(dǎo)動(dòng)態(tài)目標(biāo)防御技術(shù)實(shí)際部署問題[21]。
隨著科學(xué)技術(shù)的飛速發(fā)展和信息技術(shù)的廣泛應(yīng)用,大量先進(jìn)的傳感器應(yīng)用于空戰(zhàn)信息系統(tǒng)中,空戰(zhàn)的復(fù)雜性和對(duì)信息處理的要求越來越高,導(dǎo)致數(shù)據(jù)融合技術(shù)在現(xiàn)代信息空戰(zhàn)中發(fā)揮著越來越重要的作用,研究空戰(zhàn)系統(tǒng)中的數(shù)據(jù)融合技術(shù)具有重要意義[13]。
2019 年,為提高現(xiàn)代空戰(zhàn)數(shù)據(jù)融合系統(tǒng)的精度,南京航空航天大學(xué)提出了一種基于Q-learning的改進(jìn)方法,在不需要適應(yīng)環(huán)境的情況下,處理隨機(jī)過渡和獎(jiǎng)勵(lì)問題[22]:在空戰(zhàn)中,傳感器系統(tǒng)由多個(gè)不同的傳感器組成,為了獲得最優(yōu)信息,假設(shè)傳感器的個(gè)數(shù)為n,每個(gè)傳感器都有相應(yīng)的權(quán)值ω1。輸出融合數(shù)據(jù)I0可以按式(2)計(jì)算:
該方法融合數(shù)據(jù)I1,I2,…,In對(duì)傳感器1,傳感器2,…,傳感器n 進(jìn)行監(jiān)控,對(duì)于每一個(gè)輸出數(shù)據(jù),數(shù)據(jù)融合系統(tǒng)對(duì)ω1,ω2,…,ωn有最佳的權(quán)重選擇,并采用強(qiáng)化學(xué)習(xí)方法進(jìn)行權(quán)值更新。該系統(tǒng)可以根據(jù)每個(gè)觀測(cè)值調(diào)整權(quán)重,通過觀測(cè)值與實(shí)際值之間的誤差來實(shí)現(xiàn)融合精度的增強(qiáng)。實(shí)例仿真結(jié)果表明,該方法可以解決不同傳感器的數(shù)據(jù)處理問題[23]。
上述研究工作展示了Q-learning 在軍事領(lǐng)域中的實(shí)際應(yīng)用,表明Q-learning 可以在數(shù)據(jù)相對(duì)較少的情況下得到策略,因?yàn)槠渲恍枰谝粋€(gè)以state 為行、action 為列的Q-table 中找出最優(yōu)解。但在大多數(shù)情況下,由于State 過多導(dǎo)致Q-table 大于預(yù)期估計(jì),使得該模型不能在規(guī)定時(shí)間內(nèi)得出解或者無法得到解,這一點(diǎn)對(duì)于其在軍事應(yīng)用方面是致命的。針對(duì)這種情況,通過引入深度學(xué)習(xí)代替Q-table 去處理Q 值,可以有效避免Q-table 的低效問題[24]。
Deepmind 團(tuán)隊(duì)在2013 年提出了deep Q-network(DQN)算法[24],實(shí)現(xiàn)了卷積神經(jīng)網(wǎng)絡(luò)(CNN)與Q-learning 的結(jié)合,將強(qiáng)化學(xué)習(xí)的決策能力和深度學(xué)習(xí)的交互能力相結(jié)合,能在復(fù)雜軍事環(huán)境中通過智能體與環(huán)境交互得到的數(shù)據(jù),不斷更新網(wǎng)絡(luò)參數(shù),使得神經(jīng)網(wǎng)絡(luò)可以較好地逼近動(dòng)作狀態(tài)值函數(shù),更好地作出適合相應(yīng)狀態(tài)的動(dòng)作,達(dá)到軍事決策的時(shí)間和精度要求。
無人戰(zhàn)斗機(jī)(unmanned combat air vehicles,UCAV)是一種多用途的新型空中武器,可以執(zhí)行空中偵察,地面目標(biāo)攻擊以及空中作戰(zhàn)[25]。早在1933年,無人機(jī)就作為“靶機(jī)”出現(xiàn)。到了2001 年,美國“捕食者”無人機(jī)在阿富汗戰(zhàn)場(chǎng)上首次作為攻擊者執(zhí)行了精確打擊任務(wù);2003 年,“捕食者”再次作為攻擊者實(shí)施了“斬首行動(dòng)”,擊斃了“911”主犯阿布-阿里;其后的伊拉克戰(zhàn)爭(zhēng)中,美國共計(jì)投入了高達(dá)60 架無人機(jī)參與戰(zhàn)爭(zhēng)。
2019 年,YANG 等提出了一種基于強(qiáng)化學(xué)習(xí)的無人機(jī)近程空戰(zhàn)自主機(jī)動(dòng)決策模型,主要包括空戰(zhàn)運(yùn)動(dòng)模型,一對(duì)一近程空戰(zhàn)評(píng)估模型和基于深度網(wǎng)絡(luò)(DQN)的需求決策模型[26]。該作者認(rèn)為面對(duì)空戰(zhàn)環(huán)境等高維連續(xù)狀態(tài)動(dòng)作空間,應(yīng)該選擇DQN 算法作為強(qiáng)化學(xué)習(xí)的算法框架,利用深度神經(jīng)網(wǎng)絡(luò)來逼近價(jià)值函數(shù),使用分階段訓(xùn)練方法對(duì)DQN 進(jìn)行訓(xùn)練,稱為“基本對(duì)抗”,這種基本對(duì)抗是基于人類從簡(jiǎn)單認(rèn)知逐漸過渡到復(fù)雜知識(shí)的學(xué)習(xí)過程,這種基于DQN 的決策模型能夠?qū)崿F(xiàn)自學(xué)習(xí)和策略更新,直至目標(biāo)被擊敗。
水下無人車(unmanned surface vehicles,USV)可作為一個(gè)單位部署執(zhí)行水下任務(wù),路徑規(guī)劃是這些任務(wù)完成前提條件的核心。
2016 年,周新源等提出了基于深度DQN 的路徑規(guī)劃算法,用在USV 編隊(duì)路徑規(guī)劃中[27]。認(rèn)為將DQN 訓(xùn)練方法用于高維狀態(tài)和動(dòng)作場(chǎng)景,不需要Q表格,不需要人類知識(shí)與設(shè)定規(guī)則,通過從以前的狀態(tài)轉(zhuǎn)換中隨機(jī)訓(xùn)練,來克服相關(guān)數(shù)據(jù)和經(jīng)驗(yàn)數(shù)據(jù)非平穩(wěn)分布的問題,還可以通過DQN 的目標(biāo)網(wǎng)絡(luò)和Q 網(wǎng)絡(luò)實(shí)現(xiàn)訓(xùn)練的穩(wěn)定性。該算法能夠計(jì)算編隊(duì)的合適路徑,并在必要時(shí)魯棒地保持編隊(duì)形狀或改變形狀,可在具有復(fù)雜障礙物的環(huán)境中輔助導(dǎo)航。
無人機(jī)與無人車輛領(lǐng)域?qū)τ贒QN 的應(yīng)用展示了強(qiáng)化學(xué)習(xí)在智能裝備方面有著重要作用。由于DQN 引入了深度學(xué)習(xí),其在交互能力上有較大的優(yōu)勢(shì),但在樣本標(biāo)定上也如同深度學(xué)習(xí)一般較為費(fèi)時(shí)。DQN 在訓(xùn)練時(shí),存在收斂速度慢的缺點(diǎn),解決思路為更改目標(biāo)函數(shù)來加快收斂速度[28]。
AC 算法框架被廣泛應(yīng)用于強(qiáng)化學(xué)習(xí)算法的實(shí)際應(yīng)用中,該框架集成了值函數(shù)(value function)估計(jì)算法和策略評(píng)估(policy evaluation)算法,是解決實(shí)際問題時(shí)最??紤]的框架。其帶有對(duì)抗性的網(wǎng)絡(luò)結(jié)構(gòu),對(duì)于軍事領(lǐng)域的決策與評(píng)估有著較高的適應(yīng)性。
2018 年6 月,吳志強(qiáng)等提出了態(tài)勢(shì)預(yù)測(cè),并與深度強(qiáng)化學(xué)習(xí)相結(jié)合,利用A3C(asynchronous advantage actor-critic)方法,在預(yù)測(cè)的基礎(chǔ)上,作出的戰(zhàn)術(shù)行動(dòng)達(dá)到最優(yōu)效果[29]。
自動(dòng)態(tài)勢(shì)分析屬于認(rèn)知智能的范疇,基于深度強(qiáng)化學(xué)習(xí)技術(shù)的指揮員agent 可以具備自主認(rèn)識(shí)戰(zhàn)場(chǎng)態(tài)勢(shì),并根據(jù)態(tài)勢(shì)演變作出預(yù)測(cè)的能力。在智能決策系統(tǒng)中,指揮員agent 可引入actor-critic 模型用于自動(dòng)態(tài)勢(shì)分析,如下頁圖1 所示。
圖1 Actor-Critic 自動(dòng)態(tài)勢(shì)估計(jì)模型Fig.1 Actor-Critic automatic situation estimation model
態(tài)勢(shì)估計(jì)可分為態(tài)勢(shì)分析、態(tài)勢(shì)理解和態(tài)勢(shì)預(yù)測(cè)3 個(gè)階段。態(tài)勢(shì)預(yù)測(cè)是態(tài)勢(shì)估計(jì)問題的難點(diǎn),利用actor-critic 模型進(jìn)行強(qiáng)化學(xué)習(xí),使得在預(yù)測(cè)的基礎(chǔ)上作出的戰(zhàn)術(shù)行動(dòng)達(dá)到最優(yōu)效果。
2001 年,周銳等討論了強(qiáng)化學(xué)習(xí)在導(dǎo)彈制導(dǎo)領(lǐng)域的應(yīng)用[30];2020 年將強(qiáng)化學(xué)習(xí)(RL)中的actor-critic(AC)算法引入導(dǎo)彈的目標(biāo)態(tài)勢(shì)評(píng)估模型中,建立導(dǎo)彈-目標(biāo)模擬作戰(zhàn)訓(xùn)練模型,通過仿真和對(duì)比實(shí)驗(yàn)表明,該模型能有效估計(jì)當(dāng)前形勢(shì)下導(dǎo)彈攻擊的預(yù)期效果,得到飛機(jī)躲避導(dǎo)彈的最優(yōu)決策模型。AC 算法結(jié)合神經(jīng)網(wǎng)絡(luò)模型,可以預(yù)測(cè)飛機(jī)在受到導(dǎo)彈攻擊時(shí)的狀態(tài),并估計(jì)可能出現(xiàn)的最壞結(jié)果,從而實(shí)現(xiàn)導(dǎo)彈對(duì)目標(biāo)攻擊效果的評(píng)估和預(yù)測(cè)[31]。
導(dǎo)彈的目標(biāo)態(tài)勢(shì)評(píng)估模型中主要發(fā)展是利用強(qiáng)化學(xué)習(xí)(RL)算法設(shè)計(jì)空戰(zhàn)場(chǎng)景,為人工智能神經(jīng)網(wǎng)絡(luò)提供訓(xùn)練數(shù)據(jù)和反饋獎(jiǎng)勵(lì)。具體做法為:將態(tài)勢(shì)評(píng)估定義為對(duì)未來收益的估計(jì),并建立導(dǎo)彈-目標(biāo)作戰(zhàn)模型。采用行動(dòng)者-批評(píng)(AC)算法,得到飛機(jī)躲避導(dǎo)彈的最優(yōu)決策模型。AC 算法得到的神經(jīng)網(wǎng)絡(luò)模型,可以預(yù)測(cè)飛機(jī)在受到導(dǎo)彈攻擊時(shí)的狀態(tài),并估計(jì)可能出現(xiàn)的最壞結(jié)果,從而實(shí)現(xiàn)導(dǎo)彈對(duì)目標(biāo)攻擊效果的評(píng)估和預(yù)測(cè)。
2007 年NAKAMUR 等改進(jìn)了AC 算法,并引入到兩足機(jī)器人的控制算法中[32]。將機(jī)器人最早應(yīng)用于軍事行業(yè)始于二戰(zhàn)時(shí)期的美國,為了減少人員的傷亡,作戰(zhàn)任務(wù)執(zhí)行前都會(huì)先派出偵察無人機(jī)到前方打探敵情。文獻(xiàn)[32]提出了一種基于強(qiáng)化學(xué)習(xí)方法中的AC 算法框架的CPG-actor-critic 方法,并將此方法應(yīng)用于TAGA 等所使用的兩足機(jī)器人模擬器[33]中。得到的計(jì)算機(jī)仿真結(jié)果表明,采用強(qiáng)化學(xué)習(xí)方法中的AC 算法可以成功地訓(xùn)練CPG,使兩足機(jī)器人在矢狀面(the sagittal plane)穩(wěn)定行走,能適應(yīng)環(huán)境的變化,并使控制器能夠產(chǎn)生穩(wěn)定的節(jié)奏進(jìn)行運(yùn)動(dòng)。
該方法采用自然政策梯度法,其梯度的估計(jì)接近于最陡下降的梯度。對(duì)于戰(zhàn)爭(zhēng)機(jī)器人來講,其在戰(zhàn)場(chǎng)上的動(dòng)作連續(xù)性是其作戰(zhàn)的根本保障,CPG-actor-critic 體系結(jié)構(gòu)和自然梯度方法相結(jié)合,實(shí)現(xiàn)了一個(gè)高效的RL 系統(tǒng)。該算法具有大量的自由度,使兩足機(jī)器人能夠像人一樣面對(duì)復(fù)雜的戰(zhàn)場(chǎng)環(huán)境。
空空導(dǎo)彈(air-to-air missile)是殲擊機(jī)的主要武器之一,它屬于典型的精確制導(dǎo)武器。在2020 年,我國航空工業(yè)集團(tuán)公司洛陽電光設(shè)備研究所提出了一種基于DDPG 算法的深度強(qiáng)化學(xué)習(xí)模型[34],其訓(xùn)練仿真測(cè)試分析表明能夠有效地實(shí)現(xiàn)對(duì)來襲導(dǎo)彈的規(guī)避決策。該模型將DDPG 的策略網(wǎng)絡(luò)作為決策控制器,完成了對(duì)戰(zhàn)場(chǎng)態(tài)勢(shì)到?jīng)Q策輸出的映射,使策略網(wǎng)絡(luò)向累計(jì)回報(bào)更大的方向收斂,并將累計(jì)期望獎(jiǎng)勵(lì)值最大的策略網(wǎng)絡(luò)作為規(guī)避導(dǎo)彈的最佳策略。
在空戰(zhàn)導(dǎo)彈規(guī)避問題上,基于DDPG 的深度強(qiáng)化學(xué)習(xí)算法,能夠得到比較好的訓(xùn)練和仿真結(jié)果,在高度、速度保持中有很好的表現(xiàn)。該算法需要不間斷保持對(duì)于距離、高度、接近速度等關(guān)鍵參數(shù)的獲取,為其連續(xù)動(dòng)作提供支持,以達(dá)到規(guī)避導(dǎo)彈的目的。
無人機(jī)在未來的空戰(zhàn)中將發(fā)揮巨大的作用,能夠壓制和摧毀敵人的防空,并打擊高價(jià)值目標(biāo)。使用DDPG 算法,可以使無人機(jī)在復(fù)雜的空戰(zhàn)環(huán)境中擁有更好的適應(yīng)性,進(jìn)行自主優(yōu)化決策[35]。
空戰(zhàn)領(lǐng)域中的學(xué)習(xí)策略,一般會(huì)經(jīng)歷以下步驟:首先,將在攻擊區(qū)域收集大量的模擬數(shù)據(jù),并構(gòu)建深度學(xué)習(xí)可使用的網(wǎng)絡(luò);然后通過新環(huán)境中的真實(shí)值來修正網(wǎng)絡(luò)的模擬值;最后,通過強(qiáng)化學(xué)習(xí)的方法使無人機(jī)自主修正攻擊區(qū)域。因此,無人機(jī)需要在作戰(zhàn)中獨(dú)立地識(shí)別周邊環(huán)境,并使用正確的優(yōu)化方法來解決神經(jīng)網(wǎng)絡(luò)的適應(yīng)性問題。深度學(xué)習(xí)是一種在無人機(jī)數(shù)據(jù)處理中廣泛應(yīng)用的方法,而強(qiáng)化學(xué)習(xí)能夠賦予無人機(jī)自主決策的能力,兩者的結(jié)合將使無人機(jī)在空戰(zhàn)環(huán)境中表現(xiàn)更加優(yōu)秀[26]。
DDPG 相較于其他深度強(qiáng)化學(xué)習(xí)領(lǐng)域的方法,擁有經(jīng)驗(yàn)池機(jī)制和雙網(wǎng)絡(luò)結(jié)構(gòu),使得學(xué)習(xí)過程更加穩(wěn)定,收斂速度更快。2020 年,LI 等提出了一種有效解決無人機(jī)自主決策問題的DDPG 算法[36]。DDPG 算法可以很好地滿足無人機(jī)在復(fù)雜空戰(zhàn)環(huán)境中的需求,且擁有傳統(tǒng)神經(jīng)網(wǎng)絡(luò)算法沒有的自主學(xué)習(xí)能力和連續(xù)動(dòng)作域來解決連續(xù)問題,對(duì)于快速變化的空戰(zhàn)環(huán)境具有強(qiáng)大的適應(yīng)性。
態(tài)勢(shì)評(píng)估是指揮決策的重要部分,在智能作戰(zhàn)指揮上有著重要作用。上述例子中展示了強(qiáng)化學(xué)習(xí)在態(tài)勢(shì)評(píng)估上的適用性,actor-critic 網(wǎng)絡(luò)可以通過評(píng)估網(wǎng)絡(luò)(critic 網(wǎng)絡(luò))對(duì)預(yù)測(cè)網(wǎng)絡(luò)(actor 網(wǎng)絡(luò))進(jìn)行評(píng)判更新,這種具有對(duì)抗性的評(píng)估網(wǎng)絡(luò),可以在指揮決策的對(duì)抗博弈中提供優(yōu)良決策。
多智能體技術(shù)(multi-agent technology)的應(yīng)用研究起源于20 世紀(jì)80 年代,并在90 年代中期獲得了廣泛的認(rèn)可[37],現(xiàn)今已經(jīng)成為了人工智能領(lǐng)域中的研究熱點(diǎn),在感知、學(xué)習(xí)、規(guī)劃、推理以及決策等方面具有較好的優(yōu)勢(shì)[38]。
多智能體系統(tǒng)(multi-agent system,MAS)是在同一個(gè)環(huán)境里,由多個(gè)智能體組成的系統(tǒng)[39],常用于解決單一智能體或單層系統(tǒng)難以解決的問題,其中的智能可以由方法、函數(shù)、過程、算法或強(qiáng)化學(xué)習(xí)來實(shí)現(xiàn)[40]。在軍事領(lǐng)域中由于所面對(duì)場(chǎng)景的復(fù)雜性,作戰(zhàn)單位的部署往往是多元化的,與單智能體強(qiáng)化學(xué)習(xí)相比,多智能體強(qiáng)化學(xué)習(xí)能更好地協(xié)調(diào)不同作戰(zhàn)單位之間的協(xié)同性,提高不同作戰(zhàn)單位之間的聯(lián)系,更好地達(dá)到作戰(zhàn)目標(biāo)。下面將以無人集群協(xié)同以及戰(zhàn)時(shí)備件供應(yīng)保障動(dòng)態(tài)協(xié)調(diào)為例子,分析多智能體強(qiáng)化學(xué)習(xí)在軍事領(lǐng)域的應(yīng)用性。
無人作戰(zhàn)已經(jīng)是現(xiàn)代化戰(zhàn)爭(zhēng)的主流,采用多智能體強(qiáng)化學(xué)習(xí)算法的無人集群協(xié)同作戰(zhàn)已經(jīng)有良好的效果。無人集群系統(tǒng)的協(xié)同控制(guided deep reinforcement learning for swarm systems,GDRLSS)包含協(xié)調(diào)和合作兩個(gè)方面。協(xié)調(diào)的目的是為了避免無人集群在執(zhí)行任務(wù)的過程中內(nèi)部之間發(fā)生沖突,即無人集群中的動(dòng)作控制。合作的目的是讓無人集群互相協(xié)作,共同完成任務(wù),即組織和決策機(jī)制問題[41]。
運(yùn)用強(qiáng)化學(xué)習(xí)等技術(shù)能夠使無人集群平臺(tái)的自主控制有更好的適應(yīng)性和靈活性,能夠增強(qiáng)無人集群的協(xié)調(diào)協(xié)作,提升無人集群系統(tǒng)的整體性能。在無人平臺(tái)系統(tǒng)中,單個(gè)無人平臺(tái)感知的環(huán)境信息是局部的,因而傳統(tǒng)單智能體強(qiáng)化學(xué)習(xí)算法的策略不具有普適性。為了解決該問題,多智能體強(qiáng)化學(xué)習(xí)在此基礎(chǔ)上增加了系統(tǒng)中智能體的數(shù)量,并通過引入分布式協(xié)同策略機(jī)制,使每個(gè)智能體具有自主性、目的性和協(xié)調(diào)性。
采用多智能體深度確定性策略梯度(multi-agent deep deterministic policy gradient,MADDPG)[42]算法框架進(jìn)行學(xué)習(xí)。無人集群強(qiáng)化學(xué)習(xí)框架如圖2所示。
圖2 無人集群強(qiáng)化學(xué)習(xí)框架Fig.2 Reinforcement learning framework for unmanned swarm
當(dāng)前軍事無人集群系統(tǒng)的作戰(zhàn)研究中,采用了多智能體強(qiáng)化學(xué)習(xí)方法實(shí)現(xiàn)無人集群系統(tǒng)的分布式協(xié)同控制[22]。隨著武器裝備體系智能化升級(jí)與現(xiàn)代戰(zhàn)爭(zhēng)節(jié)奏不斷加快,以及無人集群作戰(zhàn)平臺(tái)及其新技術(shù)的發(fā)展與應(yīng)用,未來戰(zhàn)爭(zhēng)要求無人集群具備快速、自動(dòng)和自主決策能力,因此,采用強(qiáng)化學(xué)習(xí)算法不斷優(yōu)化模型,提升無人集群協(xié)同作戰(zhàn)能力,已成為當(dāng)前主要研究思路。
戰(zhàn)時(shí)備件供應(yīng)保障系統(tǒng)(wartime spares support system,WSSS)是為滿足戰(zhàn)場(chǎng)環(huán)境條件下航空裝備對(duì)備件的需求,戰(zhàn)時(shí)備件供應(yīng)保障的特征主要是自治性、分布性等。而多agent 系統(tǒng)符合這些特征,采用仿真技術(shù)對(duì)戰(zhàn)時(shí)備件供應(yīng)保障進(jìn)行模擬和研究,運(yùn)用多agent 強(qiáng)化學(xué)習(xí)建模仿真技術(shù),來模擬研究目前戰(zhàn)爭(zhēng)任務(wù)中各個(gè)階段供應(yīng)保障過程中的協(xié)調(diào)效果,由仿真結(jié)果可以得出結(jié)論,強(qiáng)化學(xué)習(xí)策略明顯優(yōu)于平均隨機(jī)分配策略[43]。
與單智能體強(qiáng)化學(xué)習(xí)相比,多智能體強(qiáng)化學(xué)習(xí)在環(huán)境適用性上有著較強(qiáng)的適用性,與一般的應(yīng)用場(chǎng)景不同,強(qiáng)化學(xué)習(xí)在軍事上的應(yīng)用面臨著多場(chǎng)地、高緯度、復(fù)雜化的軍事博弈場(chǎng)景,要求高精度、多角度、全域性的作戰(zhàn)指揮決策,環(huán)境的復(fù)雜性使得單一智能體的泛化能力受到嚴(yán)重的挑戰(zhàn),面臨著精度不足、魯棒性不夠和難以設(shè)計(jì)的特點(diǎn)。多智能體強(qiáng)化學(xué)習(xí)遵從的是隨機(jī)博弈過程,它更關(guān)注合作型智能體之間互相配合,能夠完成高復(fù)雜度的任務(wù);競(jìng)爭(zhēng)型智能體之間也可以通過博弈,互相學(xué)習(xí)對(duì)手的策略,這在軍事博弈方面多智能體強(qiáng)化學(xué)習(xí)更是考慮到局部最優(yōu)與全局最優(yōu)之間的“協(xié)調(diào)”,在作出全局最優(yōu)決策的情況下,保障了局部策略的權(quán)益。
強(qiáng)化學(xué)習(xí)的獎(jiǎng)勵(lì)函數(shù)是人為給定的,而且對(duì)學(xué)習(xí)結(jié)果有著重要的影響,但在很多復(fù)雜的環(huán)境之中,獎(jiǎng)賞函數(shù)通常難以確定,所以就有了逆向強(qiáng)化學(xué)習(xí)[44]。逆向強(qiáng)化學(xué)習(xí)的目標(biāo)就是找到一個(gè)合適的獎(jiǎng)賞函數(shù),思想是專家在完成某個(gè)任務(wù)時(shí),所作出的決策一般是最優(yōu)的、或者接近最優(yōu)的,所以可以通過專家的決策來學(xué)習(xí)找到合適的獎(jiǎng)賞函數(shù)。本章以艦載機(jī)甲板調(diào)度問題舉例,說明逆強(qiáng)化學(xué)習(xí)在軍事方面的應(yīng)用。
艦載機(jī)甲板調(diào)度是影響航空母艦戰(zhàn)斗力的重要因素,早在1966 年就已經(jīng)出現(xiàn)了計(jì)算機(jī)輔助調(diào)度系統(tǒng)-艦載機(jī)甲板操作控制系統(tǒng)(carrier aircraft deck operation control system,CADOCS)[45];1974 年GIARDINA 和JOHNSON 完善了CADOCS[46-47],但是沒能得到充分的應(yīng)用;2002 年,TIMOTHY 提出了基于智能agent 調(diào)度系統(tǒng)的需求分析[48],得出數(shù)字化甲板調(diào)度系統(tǒng)是必然趨勢(shì)的結(jié)論;2009 年,JEFFREY 等設(shè)計(jì)了一種能夠提供危險(xiǎn)預(yù)警和艦載機(jī)的路徑規(guī)劃的甲板持續(xù)監(jiān)控系統(tǒng)[49],同年美國海軍開發(fā)出了艦船綜合信息系統(tǒng)(integrated shipboard information system,ISIS)[50];2011 年,RYAN 等為美國海軍自動(dòng)項(xiàng)目研究所設(shè)計(jì)開發(fā)了一個(gè)為甲板指控人員提供艦載機(jī)作業(yè)流程和輔助調(diào)度方案的航空母艦甲板行動(dòng)規(guī)劃軟件(aircraft carrier deck course of action planner,DCAP)[51];2013 年,李耀宇等提出了基于逆向強(qiáng)化學(xué)習(xí)的艦載機(jī)甲板調(diào)度優(yōu)化方案生成方法[52]。
李耀宇等以“尼米茲”級(jí)航母作為研究對(duì)象,建立基于MDP 的艦載機(jī)狀態(tài)轉(zhuǎn)移模型,通過逆向強(qiáng)化學(xué)習(xí),該文章為模擬指揮人員的調(diào)度演示學(xué)習(xí)并確定優(yōu)化后的回報(bào)函數(shù),再通過強(qiáng)化學(xué)習(xí)生成優(yōu)化過后的艦載機(jī)甲板調(diào)度方案[52]。
實(shí)驗(yàn)證明該方法具有較好的擬合效果,所生成的優(yōu)化策略方案是可行并符合實(shí)際需求的。該方法有助于我國航母的甲板調(diào)度工作優(yōu)化,提高航母戰(zhàn)斗力。
綜上所述,強(qiáng)化學(xué)習(xí)在軍事應(yīng)用的諸多應(yīng)用中均可提供強(qiáng)有力的自主/輔助決策能力,在不涉及先驗(yàn)?zāi)P突蛘邤?shù)據(jù)的前提下,獲得比較準(zhǔn)確的結(jié)果。但是,強(qiáng)化學(xué)習(xí)發(fā)展至今,依然存在一些問題,在其與軍事應(yīng)用相結(jié)合前提下,鑒于軍事應(yīng)用往往對(duì)于時(shí)間、效率、精度等要求與常規(guī)問題很大區(qū)別,強(qiáng)化學(xué)習(xí)的效率問題、獎(jiǎng)勵(lì)問題,局部最優(yōu)與全局最優(yōu)等問題則凸顯出來,成為當(dāng)前強(qiáng)化學(xué)習(xí)在軍事應(yīng)用中進(jìn)一步開展的挑戰(zhàn),下面一一說明。
提升樣本效率可以減少訓(xùn)練時(shí)間,節(jié)約軍事資源,提高決策和反應(yīng)速度。解決該問題有3 種思路:第1 種可以通過重復(fù)利用數(shù)據(jù)樣本來提高效率;第2 種思路是簡(jiǎn)化狀態(tài)表示和行動(dòng)表示,使其在運(yùn)行過程中加速迭代以達(dá)到提升樣本效率;第3 種思路是利用先導(dǎo)經(jīng)驗(yàn)示例數(shù)據(jù)來提升樣本效率[53]。
在訓(xùn)練過程中,智能體采用隨機(jī)策略,而獎(jiǎng)勵(lì)的獲取則需要一系列復(fù)雜的操作,由于智能體在軍事場(chǎng)景中初始化策略下很難獲得獎(jiǎng)勵(lì),使得強(qiáng)化學(xué)習(xí)算法迭代緩慢,甚至難以收斂,從而導(dǎo)致學(xué)習(xí)成本高昂,相關(guān)應(yīng)用難以落地實(shí)施。改進(jìn)獎(jiǎng)勵(lì)函數(shù)[28]以及增加獎(jiǎng)勵(lì)估計(jì)模塊,可以在一定程度上避免稀疏獎(jiǎng)勵(lì)的問題。
例如作戰(zhàn)無人機(jī)群在開始訓(xùn)練時(shí),設(shè)定擊毀某個(gè)目標(biāo)或者到達(dá)某個(gè)區(qū)域會(huì)獲取到一定的獎(jiǎng)勵(lì)值,但在無人機(jī)起飛到得到獎(jiǎng)勵(lì)值這一階段之間還有著若干動(dòng)作和狀態(tài),在這些狀態(tài)下并不會(huì)獲取到獎(jiǎng)勵(lì)值,這將導(dǎo)致作戰(zhàn)無人機(jī)訓(xùn)練過程迭代次數(shù)增加,加大訓(xùn)練成本。通過對(duì)獎(jiǎng)勵(lì)函數(shù)的改進(jìn),使得無人機(jī)在無獎(jiǎng)勵(lì)值階段減少迭代次數(shù)或者增加獎(jiǎng)勵(lì)估計(jì)模塊,來引導(dǎo)無人機(jī)獲得獎(jiǎng)勵(lì)可以減少訓(xùn)練成本,加快相關(guān)應(yīng)用的實(shí)施。
在軍事應(yīng)用多變、復(fù)雜的環(huán)境中,設(shè)計(jì)一個(gè)合理的獎(jiǎng)勵(lì)函數(shù)并不容易,尤其當(dāng)涉及到的agent 動(dòng)作較為復(fù)雜、場(chǎng)景范圍較大時(shí),獎(jiǎng)勵(lì)函數(shù)的合理定義依然存在很大困難。在軍事領(lǐng)域獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)時(shí),可以考慮使用多智能體強(qiáng)化學(xué)習(xí)由局部獎(jiǎng)勵(lì)函數(shù)到整體獎(jiǎng)勵(lì)函數(shù)這一過度途徑,以及逆強(qiáng)化學(xué)習(xí)人為給定獎(jiǎng)勵(lì)函數(shù),來降低獎(jiǎng)勵(lì)函數(shù)難以定義的問題[54]。
以稀疏獎(jiǎng)勵(lì)中的作戰(zhàn)無人機(jī)群來講,改進(jìn)的獎(jiǎng)勵(lì)函數(shù)能夠減少稀疏獎(jiǎng)勵(lì)的問題,但是設(shè)定無人機(jī)群獲得獎(jiǎng)勵(lì)的函數(shù)定義是比較困難的,這時(shí)增加智能體如將無人機(jī)群中每一個(gè)無人機(jī)設(shè)定為智能體,單獨(dú)設(shè)定單個(gè)無人機(jī)的獎(jiǎng)勵(lì)函數(shù),最終達(dá)到一個(gè)總的獎(jiǎng)勵(lì)函數(shù)值,達(dá)到簡(jiǎn)化獎(jiǎng)勵(lì)函數(shù)的目的。
強(qiáng)化學(xué)習(xí)本質(zhì)上是智能體與環(huán)境之間不斷探索和交互的過程,在智能體取得一定的獎(jiǎng)勵(lì)之后,單純從獎(jiǎng)勵(lì)層面看,其可能會(huì)陷入到局部最優(yōu)陷阱中,從而導(dǎo)致無法得到全局最優(yōu)結(jié)果。該問題可以通過增加好奇心驅(qū)動(dòng)機(jī)制來解決[55],避免陷入局部最優(yōu),這就要求設(shè)計(jì)網(wǎng)絡(luò)時(shí)將好奇心機(jī)制加入網(wǎng)絡(luò)。
該問題會(huì)影響相關(guān)強(qiáng)化學(xué)習(xí)應(yīng)用的落地實(shí)施,更好地解決以上4 點(diǎn)挑戰(zhàn), 將使得強(qiáng)化學(xué)習(xí)應(yīng)用在軍事領(lǐng)域發(fā)揮更大的作用。
強(qiáng)化學(xué)習(xí)的大力發(fā)展得益于計(jì)算能力的大幅提升和相關(guān)算法的研究,其并不具備如人類一般在戰(zhàn)場(chǎng)上進(jìn)行主管決策的能力,如上文的例子,強(qiáng)化學(xué)習(xí)需要結(jié)合場(chǎng)景與狀態(tài),為軍事指揮人員提供當(dāng)前狀態(tài)下的決策支持。基于強(qiáng)化學(xué)習(xí)本身特點(diǎn)與優(yōu)勢(shì),以及當(dāng)前軍事應(yīng)用的特點(diǎn),強(qiáng)化學(xué)習(xí)應(yīng)注重在以下幾個(gè)領(lǐng)域的發(fā)展:
基于模型方法能根據(jù)歷史經(jīng)驗(yàn)生成環(huán)境模型,通過使用內(nèi)部模型來推理未來。雖然需要先驗(yàn)學(xué)習(xí)模型,但基于模型的方法具有更好的泛化能力,且能夠利用額外的無監(jiān)督學(xué)習(xí)信號(hào),在面對(duì)多場(chǎng)地、多維度、復(fù)雜化的軍事博弈場(chǎng)景,能夠有效的提高數(shù)據(jù)效率。
強(qiáng)化學(xué)習(xí)在表達(dá)能力以及反饋機(jī)制上有所不足,與其他人工智能技術(shù)相結(jié)合可以彌補(bǔ)強(qiáng)化學(xué)習(xí)的不足。深度學(xué)習(xí)在特征提取上有著較大的優(yōu)勢(shì),前面DQN 就是深度強(qiáng)化學(xué)習(xí)的代表[24]。在一些陌生或者小樣本軍事應(yīng)用場(chǎng)景中,數(shù)據(jù)樣本并不足以完成強(qiáng)化學(xué)習(xí)的訓(xùn)練,強(qiáng)化學(xué)習(xí)與遷移學(xué)習(xí)相結(jié)合,可以有效解決小樣本數(shù)據(jù)以及個(gè)性化問題。而多智能體強(qiáng)化學(xué)習(xí)中,智能體之間的協(xié)同學(xué)習(xí)將加速模型收斂、提高智能體之間的協(xié)作性。
強(qiáng)化學(xué)習(xí)的本質(zhì)決定了其運(yùn)行環(huán)境的質(zhì)量好壞,它將直接決定結(jié)果的質(zhì)量,然而在實(shí)際的軍事應(yīng)用場(chǎng)景中,往往呈現(xiàn)不完全透明/單向透明、場(chǎng)景復(fù)雜、范圍廣、參與單位層次多,以及存在隨機(jī)問題等諸多制約因素,且相互之間存在一定的耦合影響。因此,對(duì)軍事應(yīng)用場(chǎng)景的快速準(zhǔn)確建模、不確定因素的量化考量,以及強(qiáng)化學(xué)習(xí)與構(gòu)建場(chǎng)景的相互融合,將成為一個(gè)重要的支撐技術(shù)。
此外,強(qiáng)化學(xué)習(xí)被認(rèn)為是通往通用人工智能的關(guān)鍵技術(shù),強(qiáng)化學(xué)習(xí)不同于其他機(jī)器學(xué)習(xí)技術(shù),它的核心是決策,這也是強(qiáng)化學(xué)習(xí)與軍事領(lǐng)域有著較高適應(yīng)性的原因,但是解決在一定算力的情況下達(dá)到既定效果,也是強(qiáng)化學(xué)習(xí)未來發(fā)展的趨勢(shì)。
隨著現(xiàn)代軍事博弈過程和環(huán)境的越發(fā)復(fù)雜化,強(qiáng)化學(xué)習(xí)側(cè)重于學(xué)習(xí)解決問題的策略特性在軍事領(lǐng)域凸顯出了其特殊性。強(qiáng)化學(xué)習(xí)在諸多軍事應(yīng)用領(lǐng)域中正在發(fā)揮著越來越重要的作用,目前已經(jīng)在無人裝備的自主決策領(lǐng)域得到了有效利用,同時(shí)在目標(biāo)分配與防御、復(fù)雜數(shù)據(jù)融合、供應(yīng)保障動(dòng)態(tài)協(xié)同,以及航母的甲板調(diào)度問題等復(fù)雜軍事應(yīng)用得到了應(yīng)用,并顯示出良好的應(yīng)用勢(shì)頭和優(yōu)勢(shì)。隨著相關(guān)技術(shù)和計(jì)算機(jī)技術(shù)的不斷發(fā)展,在博弈論思想基礎(chǔ)上,強(qiáng)化學(xué)習(xí)亦可在軍事戰(zhàn)略布局、作戰(zhàn)指揮決策等領(lǐng)域,為多層次和非線性、行為多樣性和信息不完備的復(fù)雜問題分析和決策提供有力的支撐。