趙佳歡 楊海明 邱令存
上海機電工程研究所,上海 201109
在現(xiàn)代信息化戰(zhàn)爭中,戰(zhàn)術(shù)意圖識別是戰(zhàn)場態(tài)勢感知的核心內(nèi)容之一,是指揮員作出決策的重要依據(jù)[1-2]。傳統(tǒng)的意圖識別方法需要指揮員結(jié)合戰(zhàn)場環(huán)境、目標(biāo)屬性、目標(biāo)狀態(tài)和敵我兵力部署等一系列特征作出判斷。這些特征與意圖之間很難用顯式的數(shù)學(xué)公式表達(dá),主要依賴于指揮員的經(jīng)驗知識。隨著現(xiàn)代戰(zhàn)爭中信息規(guī)模劇增,傳統(tǒng)的意圖識別方法普遍需要面對信息過載的問題,即面對大量的數(shù)據(jù)信息,如何選出有用的信息并加以合理的利用。為減少對專家經(jīng)驗知識的依賴,解決信息過載的問題,需要設(shè)計一種高效的智能化意圖識別模型[3]。
基于模板匹配、貝葉斯網(wǎng)絡(luò)和證據(jù)理論等方法的意圖識別模型普遍存在一些局限性[4-7],比如領(lǐng)域?qū)<抑R的顯式表示問題、戰(zhàn)場態(tài)勢時序信息處理的問題等。循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)是深度學(xué)習(xí)領(lǐng)域中備受關(guān)注的模型之一[8-9],在語音識別、機器翻譯等序列數(shù)據(jù)處理領(lǐng)域有著廣泛應(yīng)用。本文以RNN模型為基礎(chǔ)建立戰(zhàn)術(shù)意圖識別模型,解決目標(biāo)特征自動提取、序列數(shù)據(jù)處理等問題,然后將注意力機制引入意圖識別模型,提出一種融合注意力機制的戰(zhàn)術(shù)意圖識別模型,同時在注意力分布計算過程中,設(shè)計了新的點積打分函數(shù),減少計算資源的消耗,提升模型訓(xùn)練時的收斂速度,最后通過仿真驗證了改進(jìn)后意圖識別模型的有效性。
意圖是指希望達(dá)到某種目的的設(shè)想和打算[10],而戰(zhàn)術(shù)意圖指在某次具體的作戰(zhàn)過程中,為完成某一特定任務(wù)而做的基本設(shè)想和打算。對敵意圖識別是指根據(jù)戰(zhàn)場上我方信息源所獲取的敵方信息,綜合推理判斷出敵方目前的作戰(zhàn)意圖。
圖1為空中目標(biāo)群及其意圖的層次圖,該圖所含的意圖類型并非空中目標(biāo)意圖類型的全集,僅是給出了戰(zhàn)場指揮員關(guān)注的、對敵我雙方對抗有關(guān)鍵作用的意圖類型。需要明確的是,只要是判定來襲目標(biāo)為敵方軍事單位,無論其是執(zhí)行何種任務(wù)、遂行何種意圖,都會對我方造成一定程度的威脅,唯一的區(qū)別在于是直接威脅或是間接威脅。直接威脅意圖會直接導(dǎo)致我方重要目標(biāo)蒙受損失,間接威脅意圖雖然不會直接造成我方的損失,但是可能會為后續(xù)敵方行動提供情報支撐,屬于間接威脅。
圖1 空中目標(biāo)群/意圖層次分解
戰(zhàn)場上的威脅主要來源于軍事目標(biāo),一般認(rèn)為民用目標(biāo)不會構(gòu)成威脅。而軍事目標(biāo)又可分為獨立目標(biāo)和集群目標(biāo),但在現(xiàn)代信息化戰(zhàn)爭中,多兵種多組織協(xié)同作戰(zhàn)能發(fā)揮更大的作戰(zhàn)效能,不同意圖的實現(xiàn)需要各類不同戰(zhàn)機編隊配合完成,下面給出幾類常見的戰(zhàn)術(shù)編隊:①突擊編隊,主要執(zhí)行摧毀諸如指揮所、軍用機場等重要預(yù)定目標(biāo)的任務(wù),是實現(xiàn)攻擊意圖的主力,一般由殲轟機、轟炸機、強擊機等組成;②火力壓制編隊,執(zhí)行反輻射作戰(zhàn)任務(wù),摧毀對手地面防空導(dǎo)彈陣地,由“野鼬鼠”(Wild Weasel)戰(zhàn)機組成,攜帶反輻射導(dǎo)彈;③電子壓制編隊,執(zhí)行干擾壓制對手地面防空導(dǎo)彈陣地,由電子干擾機組成;④掩護(hù)編隊,掩護(hù)己方其他編隊在戰(zhàn)區(qū)內(nèi)的活動,由殲擊機和多用途飛機等組成;⑤預(yù)警指揮編隊,搜索監(jiān)視空中目標(biāo),指揮并引導(dǎo)己方戰(zhàn)機,由預(yù)警機組成;⑥戰(zhàn)術(shù)偵察編隊,對重要區(qū)域進(jìn)行偵察,由偵察機組成。
本文以攻擊、偵察和撤退這3大類入手對敵方意圖進(jìn)行分析。
攻擊是戰(zhàn)場上威脅程度最高的意圖類型。現(xiàn)代戰(zhàn)爭中攻擊任務(wù)大致可分為突防攻擊和防區(qū)外攻擊。突防攻擊,指突擊編隊在壓制編隊成功開辟空中走廊的前提下,對地面目標(biāo)實施打擊,一般用于打擊敵方縱深目標(biāo);防區(qū)外攻擊,指在電子壓制編隊協(xié)同下,載機于防區(qū)外發(fā)射遠(yuǎn)程武器進(jìn)行打擊。遂行意圖需要多兵力多機型編隊合力完成,攻擊意圖一般由突擊編隊、壓制編隊、掩護(hù)編隊、預(yù)警指揮編隊中的幾種組合完成。
偵察是為了獲取對手相關(guān)情報,比如兵力部署、戰(zhàn)斗編成、指揮所位置、武器裝備等關(guān)鍵情報,一般于戰(zhàn)斗行動發(fā)起前進(jìn)行。為強調(diào)偵察行動的靈活性、隱蔽性,偵察任務(wù)編隊一般由偵察機群組成,有時也會攜帶掩護(hù)編隊等,具有暴露即退的原則。
撤退是指戰(zhàn)斗單元在執(zhí)行任務(wù)過程中被敵方單位阻截而受損,或完成既定任務(wù)后,從作戰(zhàn)區(qū)域內(nèi)退出的行動。
戰(zhàn)術(shù)意圖識別過程顯然是非合作式的,敵方必然會隱藏其真實意圖,對戰(zhàn)術(shù)意圖的研究必須充分認(rèn)識其具有的欺騙性和對抗性。傳統(tǒng)意圖識別方法主要依靠指揮員憑借經(jīng)驗作出判斷,這種方式過度依賴專家經(jīng)驗知識。戰(zhàn)場上目標(biāo)種類和數(shù)量繁多,戰(zhàn)場數(shù)據(jù)規(guī)模劇增,指揮員在識別意圖的過程中將面臨信息過載的問題。
注意力機制是認(rèn)知神經(jīng)學(xué)中的概念,是人腦的一種復(fù)雜認(rèn)知機制[11-12]。人腦在同時接受到來自視覺、聽覺等各方面的大量信息時,仍能穩(wěn)定地工作,是由于注意力機制有意或無意地提取出部分有用的信息進(jìn)行處理,同時過濾掉冗余信息。
工程實踐中的計算資源通常是有限的,但深度學(xué)習(xí)模型需要處理大規(guī)模數(shù)據(jù),如何合理分配有限的計算資源是一個急需解決的問題[13-15]。為此,本文借鑒人腦的聚焦式注意力機制,將其引入基于RNN的戰(zhàn)術(shù)意圖識別模型中,使網(wǎng)絡(luò)能對輸入信息進(jìn)行選擇,自動提取目標(biāo)特征,解決信息過載的問題,提高意圖識別模型的識別準(zhǔn)確率。
在注意力機制的計算過程中,主要可分為2個步驟:一是計算注意力分布;二是根據(jù)注意力分布,計算所有輸入的加權(quán)平均。
1)計算注意力分布
假設(shè)有k組輸入信息X=[x1,x2,…,xk]T,其中每個xi,i∈[1,k]都是n維輸入向量,表征意圖識別問題中敵方目標(biāo)在某一時刻的狀態(tài)信息。在意圖識別過程中,并不需要將所有時刻的信息全部完整地輸入到神經(jīng)網(wǎng)絡(luò)中,可以從X中挑選出與意圖直接相關(guān)的信息輸入模型。為達(dá)到此目的,引入一個查詢向量(Query Vector)表征與意圖的相關(guān),查詢向量可以是動態(tài)生成的,也可以是可學(xué)習(xí)的參數(shù)。同時利用打分函數(shù)對輸入信息與查詢向量之間的相關(guān)性進(jìn)行評估。
在給定查詢向量q和輸入信息X的前提下,選擇第i個輸入向量的概率αi計算公式如式(1)所示。
(1)
式中:z=i表示選擇被選擇信息的索引值,αi為注意力分布(Attention Distribution),s(xi,q)為打分函數(shù)。常用的加性模型打分函數(shù)如式(2)所示,
s(xi,q)=VTtanh(Wxi+Uq)
(2)
式中:W,U和V均為可學(xué)習(xí)參數(shù)。
計算打分函數(shù)時,加性模型需要計算雙曲正切函數(shù),運算效率較低,為此提出一種點積模型作為新的打分函數(shù),如式(3)所示,
(3)
點積打分函數(shù)在實際計算過程中更好地利用了矩陣相乘,避免計算雙曲正切函數(shù)可以減少計算資源的消耗,提升模型的收斂速度,進(jìn)一步提升識別準(zhǔn)確率。
2)計算加權(quán)平均
式(1)計算得到的αi可以簡單理解為,在給定一個查詢向量q時,第i個輸入向量受關(guān)注的程度,接著需要依據(jù)αi對所有的輸入信息進(jìn)行匯總。注意力機制選擇信息的本質(zhì)是求所有輸入信息在注意力分布上的期望,圖2給出了注意力機制的示意圖。
圖2 注意力機制示意圖
該信息匯總方式的計算公式如式(4)所示。
(4)
循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)是一類具有記憶功能的神經(jīng)網(wǎng)絡(luò),屬于反饋型神經(jīng)網(wǎng)絡(luò)。與前饋型神經(jīng)網(wǎng)絡(luò)相比,RNN與生物神經(jīng)網(wǎng)絡(luò)更為相似。RNN在處理時間序列數(shù)據(jù)上更有優(yōu)勢,通過其獨特的循環(huán)層結(jié)構(gòu),時間序列數(shù)據(jù)可以依據(jù)循環(huán)輸入網(wǎng)絡(luò),各個時刻隱藏層的輸出不僅與當(dāng)前時刻的輸入有關(guān),還包含了之前所有時刻的信息。
本文在基于RNN的意圖識別模型的基礎(chǔ)上,引入注意力機制,提高意圖識別模型的性能。意圖識別問題本質(zhì)上是一個分類問題,當(dāng)RNN模型用于分類問題時,多采用N-1的拓?fù)浣Y(jié)構(gòu),即輸入為N個數(shù)據(jù),輸出只選擇最后一步的狀態(tài)。圖3給出了按時間展開的N-1型循環(huán)神經(jīng)網(wǎng)絡(luò)分類模型。
圖3 按時間展開的N-1型循環(huán)神經(jīng)網(wǎng)絡(luò)分類模型
在圖3中,x1,x2和xt分別為各時刻的戰(zhàn)場態(tài)勢輸入數(shù)據(jù),且有xi∈R1×m,i∈{1,2,…,t},m為輸入數(shù)據(jù)的維數(shù);s1,s2和st分別是各時刻RNN隱層的輸出狀態(tài),且有si∈R1×n,i∈{1,2,…,t},n為隱藏層神經(jīng)元數(shù)量;ot為最后時刻RNN的輸出,表征目標(biāo)的戰(zhàn)術(shù)意圖,且有ot∈R1×l,l為待分類的意圖類型數(shù)量。U和V分別為輸入層與隱藏層之間、隱藏層與輸出層之間的全連接權(quán)值矩陣,且有U∈Rm×n,V∈Rn×l;W為隱藏層與隱藏層之間的循環(huán)權(quán)值矩陣,且有W∈Rn×n。
RNN模型的前向計算過程如式(5)至式(8)所示。式(5)首先計算初始時刻的隱藏層狀態(tài)輸出,該狀態(tài)僅與初始時刻的輸入x1和權(quán)值U有關(guān),
s1=f(x1U+b)
(5)
式中:f為非線性激活函數(shù),本文選擇LeakyReLU函數(shù),該函數(shù)的表達(dá)式為
(6)
式中:a∈(1,+∞)。
接著是依次順序循環(huán)計算各個時刻的隱藏層狀態(tài)輸出,該輸出還與上一時刻的隱藏層輸出有關(guān),
si=f(xiU+si-1W+b),i∈[2,t]
(7)
最后依據(jù)最后一步隱藏層的狀態(tài)向量st與全連接矩陣V可得最終輸出向量,
ot=stV
(8)
結(jié)合圖4說明如何將注意力機制應(yīng)用到基于RNN的意圖識別模型中。該改進(jìn)的模型與傳統(tǒng)的“N-1型”RNN模型的區(qū)別在于,RNN的分類輸出結(jié)果不再僅依賴于最后一個時間步的輸出狀態(tài),而是需要對各時間步的輸出狀態(tài)依據(jù)式(1)計算得到的注意力分布進(jìn)行加權(quán)平均。圖4給出了按時間展開的融合注意力機制的意圖識別模型。
圖4 融合注意力機制的意圖識別模型
該意圖識別模型主要包括數(shù)據(jù)輸入層、狀態(tài)循環(huán)計算層、注意力機制作用層、信息匯總輸出層4個主要組成部分。
1)數(shù)據(jù)輸入層
意圖識別模型需要接收某一時間段內(nèi)的數(shù)據(jù),從而對目標(biāo)意圖作出判斷。輸入數(shù)據(jù)主要包括目標(biāo)距離各重要區(qū)域的空間位置信息、速度信息、相對運動信息等多維信息。
假設(shè)有m個重要目標(biāo)可能會遭受敵方攻擊或偵查,敵方航空兵的基本戰(zhàn)術(shù)編隊為1.2節(jié)所提的6種。結(jié)合圖5說明輸入數(shù)據(jù)具體格式,其中數(shù)據(jù)的下標(biāo)表示時間。
圖5 輸入數(shù)據(jù)格式
數(shù)據(jù)輸入模型前,還需要對數(shù)據(jù)進(jìn)行0-1歸一化預(yù)處理,然后將某一段時間內(nèi)的數(shù)據(jù)依次循環(huán)輸入意圖識別模型。值得注意的是,不同意圖的實現(xiàn),并非全部具有1.2節(jié)所提到的編隊,因此,當(dāng)某一特定編隊缺失,則將其對應(yīng)位置信息全部置0。
2)狀態(tài)循環(huán)計算層
3)注意力機制作用層
4)信息匯總輸出層
該結(jié)果可作為后續(xù)威脅評估、火力分配等任務(wù)的參考因素,也是戰(zhàn)場指揮員全面掌握戰(zhàn)場態(tài)勢的有效手段之一。
本小節(jié)將對提出的融合注意力機制的意圖識別方法進(jìn)行仿真驗證。數(shù)據(jù)來源于某戰(zhàn)場態(tài)勢仿真平臺,該平臺設(shè)定的空襲作戰(zhàn)樣式來源于海灣戰(zhàn)爭時期轟炸巴格達(dá)出動的“Q攻擊編隊”。海灣戰(zhàn)爭是冷戰(zhàn)后有大量高科技武器投入實戰(zhàn)的大規(guī)模武裝沖突,其展現(xiàn)了現(xiàn)代高科技條件下作戰(zhàn)的新情況和新特點。“Q攻擊編隊”展示了對防空導(dǎo)彈陣地所掩護(hù)目標(biāo)的典型空襲模式,主要包含了爭奪制電磁權(quán)、實施防空壓制、對地攻擊等一系列步驟。
表1給出某次針對地面指揮所的攻擊任務(wù)的兵力構(gòu)成情況。
表1 某次攻擊指揮所任務(wù)典型兵力構(gòu)成
1991年1月19日當(dāng)天,伊拉克首都巴格達(dá)由包括SA-2、SA-6、SA-8在內(nèi)的各類中近程防空導(dǎo)彈陣地護(hù)衛(wèi),為簡化分析,假設(shè)防御方需要重點保衛(wèi)的目標(biāo)為3處,防空陣地若干,戰(zhàn)場位置分布如圖6所示。
圖6 戰(zhàn)場位置分布示意圖
以上述戰(zhàn)場環(huán)境為背景,戰(zhàn)場態(tài)勢仿真平臺共生成1.04GB的數(shù)據(jù),其中包括對指揮所、軍用機場、某特定重要目標(biāo)進(jìn)行攻擊或偵查以及撤退這7類意圖。以9∶1的比例將數(shù)據(jù)劃分為訓(xùn)練集和測試集,訓(xùn)練集包含2395400條數(shù)據(jù),測試集包含266200條數(shù)據(jù)。
為保證深度學(xué)習(xí)模型具備良好的泛化能力,要求數(shù)據(jù)規(guī)模越大越好,但是規(guī)模大小是相對的,一般認(rèn)為數(shù)據(jù)在百萬條以上或者達(dá)到GB量級,就能滿足要求。因此,本文的數(shù)據(jù)集規(guī)模是滿足要求的。
在模型訓(xùn)練時設(shè)置總的迭代步數(shù)為200。圖7和圖8給出了引入注意力機制前后,意圖識別模型在測試集上準(zhǔn)確率和F1得分的對比,表2給出了意圖識別模型訓(xùn)練時關(guān)于收斂性的參數(shù),表3給出了意圖識別模型各項性能指標(biāo)的對比。
表2 模型訓(xùn)練參數(shù)對比
表3 引入注意力前后模型各類指標(biāo)對比
圖7 引入注意力前后模型準(zhǔn)確率對比
圖8 引入注意力前后模型F1得分對比
從圖7可以看出,將注意力機制引入基于RNN的意圖識別模型后,模型在測試集上的表現(xiàn)明顯更好,不僅初始的準(zhǔn)確率更高,而且更快達(dá)到峰值,并且最終的準(zhǔn)確率更高。
從圖8可以看出,將注意力機制引入基于RNN的意圖識別模型后,模型初始的F1得分差別不大,但隨著迭代步數(shù)增加,改進(jìn)后的模型F1得分明顯高于改進(jìn)前的F1得分。
從表2可以看出,改進(jìn)后的模型在單步訓(xùn)練耗時上更久,但收斂步數(shù)更少,收斂時間更短,收斂速度更快。這是由于在引入注意力機制的過程中,增加了諸如注意力分布、加權(quán)平均等額外計算步驟,導(dǎo)致改進(jìn)后的模型在單步訓(xùn)練中需要消耗更多的計算資源,但也恰恰因為引入了這些額外計算步驟,使得模型能對目標(biāo)信息進(jìn)行有效選擇,去除冗余信息,解決信息過載的問題,用更少的步數(shù)達(dá)到收斂,使得最終收斂時間比改進(jìn)前更短,收斂速度更快。
從表3可以看出,改進(jìn)后的意圖識別模型各項性能指標(biāo),包括準(zhǔn)確率、精確率、召回率和F1得分,都有不同程度的提升。
從圖9可以看出,由于點積打分函數(shù)相較于加性打分函數(shù),更好地利用矩陣相乘,避免計算雙曲正切函數(shù),減少計算資源的消耗,在實際計算中運算效率更高。在應(yīng)用梯度下降法更新網(wǎng)絡(luò)參數(shù)時,網(wǎng)絡(luò)能以更快的收斂速度達(dá)到更高的準(zhǔn)確率。說明點積打分函數(shù)能進(jìn)一步提升注意力機制的作用效果,意圖識別模型有更高的準(zhǔn)確率。
圖9 改進(jìn)打分函數(shù)前后的模型準(zhǔn)確率對比圖
在防空反導(dǎo)作戰(zhàn)背景下,識別敵方來襲空中目標(biāo)的戰(zhàn)術(shù)意圖具有重要意義。本文首先分析了幾類典型戰(zhàn)術(shù)意圖類型,然后建立了基于循環(huán)神經(jīng)網(wǎng)絡(luò)理論的意圖識別模型,解決傳統(tǒng)意圖識別過程中人工提取特征、時序數(shù)據(jù)處理等難點,接著引入注意力機制對模型進(jìn)行改進(jìn),提高模型的識別準(zhǔn)確率,解決信息過載的問題,最后依據(jù)實際戰(zhàn)例數(shù)據(jù),通過仿真驗證了融合注意力機制的意圖識別模型的性能。仿真結(jié)果顯示,改進(jìn)后的意圖識別模型在準(zhǔn)確率、精確率、召回率和F1得分等各項性能指標(biāo)上均有不同幅度的提升,且本文提出的將點積模型作為打分函數(shù)可以進(jìn)一步提升注意力機制的作用效果。結(jié)果表明,本文提出的融合注意力機制的意圖識別模型,能有效對敵方來襲空中目標(biāo)的戰(zhàn)術(shù)意圖進(jìn)行準(zhǔn)確的識別。