梁復(fù)臺,周焰 ,張晨浩 ,宋子豪 ,趙小瑞
(1. 空軍預(yù)警學院,湖北 武漢 430000;2. 中國人民解放軍31121 部隊,江西 南昌 330000)
1988 年數(shù)據(jù)融合聯(lián)合指揮實驗室提出JDL(joint directors of laboratories)模型,其將威脅評估(threat assessment,TA)定義為數(shù)據(jù)融合系統(tǒng)中的高層次數(shù)據(jù)融合處理過程,其通過推理紅方意圖和目的,量化并判斷紅方行為對藍方的威脅程度[1]。文獻[2-3]對初始JDL 模型中威脅評估的解釋進行了擴展,文獻[2]指出威脅評估應(yīng)該擴展為影響評估,包括威脅評估、行為分析和結(jié)果預(yù)測。同時,文獻[4]認為威脅評估不僅要對紅方能力及意圖進行分析,還要對藍方能力進行分析,將它們結(jié)合起來綜合分析,才算是威脅評估。在這個定義中,考慮了對抗雙方的能力,體現(xiàn)了威脅的對抗性。文獻[5]對JDL 數(shù)據(jù)融合模型進行了新修訂,強調(diào)了威脅評估中雙方行動計劃之間的互動,進一步明確了威脅評估的對抗性。
目前,戰(zhàn)場威脅評估的方法主要有:貝葉斯推理[6]、模糊推理[7]、多屬性決策理論[8]、案例推理[9]、專家系統(tǒng)或基于知識的方法[10]、遺傳算法[11]等。總結(jié)起來,主要分為2 類:一是建立威脅評估數(shù)學模型的方法;二是基于各種智能算法的威脅評估方法。建立威脅評估數(shù)學模型時,對屬性權(quán)重確定與方案排序是重點。采用基于智能算法的威脅評估方法,對數(shù)據(jù)的標記及模型的訓(xùn)練是重點。兩種方法中無論是屬性權(quán)值確定還是訓(xùn)練數(shù)據(jù)標記,其前提都需要確定威脅因素指標體系,但目前的研究中,大多只關(guān)注了紅方的靜態(tài)威脅,很少考慮雙方對抗因素,缺乏對戰(zhàn)場威脅動態(tài)演化過程的研究。
真實戰(zhàn)場環(huán)境中,威脅評估存在動態(tài)性和對抗性。受藍方預(yù)警探測、火力打擊兵器等反制力量及部署的影響,紅方空中目標的行動會做出相應(yīng)調(diào)整,從而帶來其威脅程度的變化,這種變化趨勢給人工研判帶來挑戰(zhàn),亟需智能化方法對紅方空中目標威脅變化趨勢提前預(yù)判以掌握戰(zhàn)場主動。
應(yīng)用強化學習技術(shù)來解決對抗條件下的威脅評估問題,更適用于真實戰(zhàn)場環(huán)境,可以減少人工參與,同時提高威脅評估的智能化程度。本文將強化學習應(yīng)用于威脅評估,是在靜態(tài)威脅評估方法基礎(chǔ)上,以紅方空中目標為智能體設(shè)計強化學習模型,通過雙方的對抗博弈,使得強化學習模型具備自主決策能力,再對紅方動態(tài)威脅進行預(yù)測,實現(xiàn)對抗條件下的紅方空中目標威脅評估。
對抗條件下的目標威脅評估方法以強化學習技術(shù)為基礎(chǔ)。首先,通過對紅方空中目標、戰(zhàn)場環(huán)境及藍方反制力量的抽象,形成適合強化學習的戰(zhàn)場態(tài)勢表述。同時,以紅方目標為智能體,采用強化學習技術(shù),使其具備自主決策的能力,進而可得到關(guān)于其下一步行動的預(yù)判。最后根據(jù)其行動預(yù)判得到紅方空中目標的狀態(tài)變化,通過威脅評估模型實現(xiàn)對紅方目標威脅的估計與預(yù)測。對抗條件下的目標威脅評估的基本框架如圖1 所示。
圖1 對抗條件下威脅評估框架Fig. 1 Diagram of threat assessment framework under confrontational conditions
對抗條件下的威脅評估框架主要由威脅評估模塊及動作預(yù)測模塊兩部分組成。
在動作預(yù)測模塊中,以紅方空中目標為智能體,建立強化學習模型,智能體和環(huán)境通過狀態(tài)、動作、獎勵進行交互的方式進行訓(xùn)練,生成紅方空中目標決策策略。決策策略的形式由強化學習算法決定,可以是策略表,也可以是深度神經(jīng)網(wǎng)絡(luò)。訓(xùn)練完成后,輸入當前戰(zhàn)場態(tài)勢數(shù)據(jù),可以根據(jù)決策策略輸出紅方空中目標下一步動作。
動作預(yù)測模塊中,紅方空中目標具備一定的態(tài)勢感知能力,通過對藍方策略及反制力量的實時感知,不斷更新強化學習模型并生成相應(yīng)策略。
在威脅評估模塊中,將當前戰(zhàn)場態(tài)勢輸入動作預(yù)測模塊,預(yù)測得到紅方空中目標下一步動作,根據(jù)該動作得到其下一步所處的狀態(tài),然后根據(jù)預(yù)先建立的威脅因素指標,使用威脅評估算法或已經(jīng)訓(xùn)練完成的威脅評估模型,得出對抗條件下紅方空中目標的威脅預(yù)測評估結(jié)果。
對抗條件下空中目標威脅評估過程可以分為兩個主要步驟。一是紅方空中目標動作預(yù)測;二是紅方空中目標威脅評估。
對紅方空中目標動作進行預(yù)測,首先構(gòu)建強化學習模型,其中重點是設(shè)計獎勵函數(shù),然后進行模型訓(xùn)練。
2.1.1 強化學習模型構(gòu)建
強化學習是機器學習的范式和方法論之一[12]。其基本原理是讓智能體與環(huán)境不斷地交互反饋,利用交互樣本和反饋信息不斷更新策略且利用策略,最終獲得最優(yōu)策略[13]。
強化學習的任務(wù)定義中主要有智能體和環(huán)境(此環(huán)境非戰(zhàn)場環(huán)境)兩個可以進行交互的對象,基本要素有智能體狀態(tài)、智能體動作、狀態(tài)轉(zhuǎn)移概率及獎勵函數(shù)[14]。通常通過四元數(shù)組(S,A,T,R)來定義強化學習的數(shù)學模型。按照本文方法設(shè)計思想,這里的智能體是紅方空中目標,環(huán)境包括戰(zhàn)場環(huán)境以及藍方兵力火力。
(1) 狀態(tài)空間
提取紅方空中目標所處的狀態(tài),如目標位置區(qū)域、距離、航向角等,構(gòu)建狀態(tài)空間。紅方空中目標所處的所有狀態(tài)S被定義為有限集{s1,s2,…,sn},集合的大小為n,即總共有n種狀態(tài)。
(2) 動作空間
紅方空中目標動作集A被定義為有限集{a1,a2,…,ak},集合的大小為k,即紅方空中目標可以執(zhí)行k種動作。執(zhí)行動作可以改變環(huán)境狀態(tài),A(s) 表示在狀態(tài)s下可執(zhí)行的動作集,很明顯A(s) ?A。通常,紅方空中目標處在一個連續(xù)的動作空間,可根據(jù)需要簡化為前進、拐彎、返回等。
(3) 轉(zhuǎn)換函數(shù)
轉(zhuǎn)換函數(shù)是在當前狀態(tài)st下執(zhí)行動作at改變?yōu)樾聽顟B(tài)st+1的概率分布。F(st,at,st+1)表示在狀態(tài)st執(zhí)行at動作最后到達st+1狀態(tài)的概率,很明顯0 ≤F(st,at,st+1) ≤1。此外,對于所有狀態(tài)s和動作a,,st+1∈S。
(4) 獎勵函數(shù)
獎勵函數(shù)定義為R:S→R,其表示某一狀態(tài)或是在某一狀態(tài)執(zhí)行某一動作的獎勵。智能體從環(huán)境中獲取當前狀態(tài)st和當前狀態(tài)的獎勵rt,根據(jù)策略執(zhí)行動作at,環(huán)境返回給智能體執(zhí)行完動作后的狀態(tài)st+1和獎勵rt+1,這就是智能體和戰(zhàn)場環(huán)境的一次交互。在空中目標狀態(tài)轉(zhuǎn)換過程中的獎勵由任務(wù)完成獎勵、任務(wù)區(qū)距離獎勵、航向角獎勵等綜合而成。
2.1.2 獎勵函數(shù)設(shè)計
強化學習的目的是實現(xiàn)獎勵最大化[15]。在空中目標的任務(wù)場景來說,獎勵函數(shù)由以下部分組成:
(1) 相對距離獎勵
紅方目標距離打擊目標的距離越近,完成任務(wù)的可能性越大,其獎勵函數(shù)為
式中:λ為距離獎勵系數(shù);d為紅方目標距離任務(wù)區(qū)域距離。
(2) 視線角獎勵
紅方目標速度和視線角,視線角越小,完成任務(wù)的可能性越大,其獎勵函數(shù)為
式中:μ為視線角獎勵系數(shù);θ為紅方目標與任務(wù)區(qū)域的視線角。
(3) 突防概率獎勵
紅方被藍方雷達探測的概率越低,其獎勵越高,其獎勵函數(shù)為
式中:p為藍方雷達探測概率。
(4) 抵達任務(wù)區(qū)的獎勵
紅方主要目的是避開藍方預(yù)警及攔截,并成功抵達任務(wù)區(qū)完成任務(wù)。其獎勵函數(shù)為
式中:σ為抵達任務(wù)區(qū)獎勵值,為常量。
在當前狀態(tài)st,紅方空中目標執(zhí)行動作at的獎勵為
根據(jù)狀態(tài)集和動作集可構(gòu)建獎勵矩陣:
式中:rij為在狀態(tài)si時執(zhí)行動作aj的獎勵;n為狀態(tài)集元素數(shù)目;k為動作集元素數(shù)目。
2.1.3 訓(xùn)練實現(xiàn)
可采用蒙特卡羅法、SARSA、Q-Learning 等強化學習算法進行訓(xùn)練學習[16],得到紅方空中目標智能體的最優(yōu)策略,根據(jù)該策略實現(xiàn)對紅方目標的威脅評估。本文采用Q-Learning 算法。
在設(shè)定衰減因子γ和獎勵集合r后,初始化價值矩陣Q,使其為0,價值矩陣Q表示智能體從經(jīng)驗中學到的知識。在一個episode 中,智能體從任意初始狀態(tài)開始,不斷地依概率轉(zhuǎn)移函數(shù)從一個狀態(tài)轉(zhuǎn)到另一個狀態(tài)進行探索,直至達到目標,然后進入下一個episode,直至模型收斂。此時,智能體學到了達到目標狀態(tài)的最佳路徑。
價值矩陣Q的更新是通過狀態(tài)-動作價值函數(shù)來實現(xiàn)的[17],其表達式為
式中:折扣因子γ∈[0,1],用來調(diào)節(jié)長期收益的影響。
利用訓(xùn)練得到的價值矩陣Q,藍方可以預(yù)測紅方目標下一步狀態(tài),再通過對下一步狀態(tài)的威脅評估,實現(xiàn)在對抗條件下紅方目標威脅估計。
建立威脅評估模型主要包括建立威脅元素指標,設(shè)計評估方法2 個主要部分[18]。
2.2.1 建立威脅評估指標
建立威脅元素指標首要工作是確定并提取威脅影響因素。提取威脅因素,需處理好完整性、準確性和及時性的關(guān)系,即需要考慮威脅目標具體情況,確定威脅目標的各項性能,又需要結(jié)合戰(zhàn)場實際情況,明確目標運動過程特點,甚至還需考慮紅方行動意圖,搞清其任務(wù)目的。
為簡化問題,主要從空中目標作戰(zhàn)意圖、運動狀態(tài)、打擊能力、體系能力4 個方面表征目標威脅程度。空中目標作戰(zhàn)意圖一般由目標類型、目標國別、目標任務(wù)、出現(xiàn)空域等要素反映;運動狀態(tài)一般包括空中目標與打擊目標之間的視線角、相對距離、飛行速度、飛行高度等;打擊能力一般包括其感知能力、生存能力、載荷能力、人員素質(zhì)等;體系能力一般包括空中目標編隊數(shù)量、編隊組成、伴隨保障、情報保障等。具體如圖2 所示。
圖2 空中目標威脅評估指標體系Fig. 2 Aerial target threat assessment index
2.2.2 設(shè)計威脅評估方法
常用的威脅評估方法較多,本文將威脅評估視為分類問題,通過生成仿真數(shù)據(jù),經(jīng)過專家評估打分及一致性檢驗形成數(shù)據(jù)集,然后采用GA-BP(genetic algorithm-back propagation)算法進行訓(xùn)練,使得模型具備威脅評估能力。
BP 網(wǎng)絡(luò)是人工神經(jīng)網(wǎng)絡(luò)的一種,由多個神經(jīng)元組成多層結(jié)構(gòu)的非線性網(wǎng)絡(luò),然后通過大量標記數(shù)據(jù)訓(xùn)練,進行調(diào)整網(wǎng)絡(luò)模型權(quán)重和閾值,最終得到自變量與因變量間的擬合函數(shù)。雖然BP 網(wǎng)絡(luò)擬合能力很強,但在訓(xùn)練過程中容易陷入局部最優(yōu)。GA是一種搜索算法,具有很強的全局搜索能力,可用于解決最優(yōu)化問題。因此,將GA 與BP 網(wǎng)絡(luò)相結(jié)合形成GA-BP 算法,應(yīng)用遺傳算法搜尋最優(yōu)初始網(wǎng)絡(luò)權(quán)重和閾值,能夠有效提升BP 網(wǎng)絡(luò)的擬合效果[19]。
雖然GA-BP算法訓(xùn)練過程中需要更多次的迭代,但訓(xùn)練完成后,威脅評估所消耗時間與BP網(wǎng)絡(luò)一樣。
為驗證本文威脅評估方法的有效性,設(shè)計一個紅方空中目標空襲的想定,結(jié)合此想定,評估對抗條件下紅方空中目標威脅。
實驗平臺為64 位Windows10 系統(tǒng),CPU 型號為Intel(R) Core(TM) i7-10700 CPU@2.90 GHz,內(nèi)存為16 GB,基于Python 語言編程。
GA-BP 算法所用BP 網(wǎng)絡(luò)設(shè)計為3 層結(jié)構(gòu):輸入層,隱藏層,輸出層。輸入層神經(jīng)元個數(shù)與威脅指標數(shù)目相一致;隱藏層共20 個神經(jīng)元;輸出層5 個神經(jīng)元,與威脅程度層級相對應(yīng),使用ReLU 激活函數(shù)。GA 算法種群規(guī)模為40,每個個體長度為BP 網(wǎng)絡(luò)所有權(quán)值和閾值數(shù)目相對應(yīng)。進化次數(shù)為100次,交叉概率為0.4,變異概率為0.05。個體適應(yīng)度函數(shù)為訓(xùn)練數(shù)據(jù)預(yù)測誤差絕對值之和。
所設(shè)計的想定如圖3 所示。紅方出動轟炸機編隊,任務(wù)目標是轟炸藍方某港口。藍方在港口部署了防空導(dǎo)彈,其預(yù)警與攔截能力范圍由綠圈給出,同時,藍方前出一個?;A(yù)警攔截編隊與空基預(yù)警攔截編隊,?;A(yù)警攔截編隊能力范圍由圖中紅圈給出,空基預(yù)警攔截編隊能力范圍由圖中藍圈給出。
圖3 作戰(zhàn)想定圖示Fig. 3 Operational scenario diagram
為簡化問題,本文將對抗場景抽象成適合強化學習的戰(zhàn)場態(tài)勢表示,在其基礎(chǔ)上進行威脅評估。
以紅方轟炸機空中目標為智能體,建立其狀態(tài)空間、動作空間。根據(jù)雙方兵力火力、戰(zhàn)場環(huán)境及交互關(guān)系,將紅方轟炸機目標可能所處的區(qū)域抽象成6 種狀態(tài),構(gòu)建狀態(tài)空間{s1,s2,s3,s4,s5,s6},如圖4所示。
圖4 狀態(tài)空間圖示Fig. 4 State space diagram
在狀態(tài)空間基礎(chǔ)上,定義動作為“進入某狀態(tài)”,形成6 個動作組成的動作集,以動作a3為例,其表示“進入狀態(tài)s3”。
將狀態(tài)空間及動作空間表示成有向圖的形式,如圖5 所示。狀態(tài)為節(jié)點,節(jié)點3 為目標節(jié)點,代表紅方轟炸機空中目標的任務(wù)終點s3。動作為邊,部分節(jié)點間為雙向邊,表示這2 種狀態(tài)間可以相互轉(zhuǎn)換。
圖5 有向圖圖示Fig. 5 Directed graph
在狀態(tài)s下執(zhí)行動作a定義為等概率事件。然后,根據(jù)2.1 節(jié)獎勵函數(shù)的定義,獎勵函數(shù)相關(guān)參數(shù)設(shè)定為:距離獎勵系數(shù)λ為50,目標距離任務(wù)區(qū)域距離d離散化為1,2,3,4,分別表示紅方目標到目標區(qū)域所需跨越的區(qū)域方格數(shù)。視線角獎勵系數(shù)μ為50,θ離散化為0,90,分別表示紅方目標與目標區(qū)域間的視線角。突防概率獎勵方面,考慮到?;c陸基雷達存在著一定的低空盲區(qū),將海基預(yù)警、陸基預(yù)警與空基預(yù)警的探測概率p分別設(shè)為0.75,0.75和1。抵達任務(wù)區(qū)獎勵值σ為100,后退獎勵為0。經(jīng)過計算可得R矩陣為
將其表現(xiàn)在有向圖中,如圖6 所示。
圖6 獎勵值標注Fig. 6 Reward value annotation
經(jīng)過強化學習訓(xùn)練,不斷更新,得到最終的Q矩陣:
將其表現(xiàn)在有向圖中,如圖7 所示。
圖7 Q 值標注Fig. 7 Q value annotation
從圖7 中可以看出,紅方目標最優(yōu)攻擊路線有2條:①從節(jié)點1 進入,經(jīng)過4,5,6 節(jié)點,到達節(jié)點3 目標節(jié)點;②從節(jié)點4 進入,經(jīng)過5,6 節(jié)點,抵達節(jié)點3目標節(jié)點。
一般而言,空中目標在攻擊時將選擇最優(yōu)攻擊路徑。將紅方目標最優(yōu)路徑所經(jīng)過節(jié)點時的各項評估指標分別輸入已經(jīng)訓(xùn)練好的BP 模型,便可實現(xiàn)對抗條件下紅方空中目標的威脅估計。
將最優(yōu)路徑所經(jīng)歷的節(jié)點逐個輸入評估模型,可得紅方目標在4,5,6 節(jié)點威脅等級分別為3,4,5,在1,2 節(jié)點的威脅等級分別為2,3。而在不考慮藍方對抗因素時,紅方目標在4,5,6 節(jié)點威脅等級分別為1,3,5,在1,2 節(jié)點的威脅等級分別為3,5。相比較而言,考慮了藍方對抗因素的威脅評估結(jié)果更符合戰(zhàn)場實際情況,紅方空中目標在防守更薄弱的空域出現(xiàn)時構(gòu)成的威脅更大。
在考慮藍方策略變化的情況下,只需對紅方空中目標的強化學習模型進行更新,根據(jù)藍方策略變化情況更新模型的狀態(tài)空間,即可按照上述過程生成相應(yīng)的應(yīng)對策略。
隨著現(xiàn)代聯(lián)合作戰(zhàn)樣式的廣泛實踐,紅藍雙方在多維多域空間的對抗日益激烈。尤其是在信息化、智能化條件下,戰(zhàn)場態(tài)勢感知能力得到極大增強,紅方威脅與藍方反制密切相關(guān),威脅評估更多體現(xiàn)為動態(tài)過程。對威脅評估概念的理解已不能僅僅局限于某一時刻的威脅,而是要在對紅方能力及意圖分析基礎(chǔ)之上,綜合考慮藍方能力及兵力部署對紅方的影響,開展對抗條件下的威脅評估研究。
在空中目標威脅評估指標選取及體系建立方面,需要考慮眾多影響因素,所選取的評估指標既要具有代表性,還應(yīng)具有廣泛性,能從不同角度、不同層次體現(xiàn)目標的威脅程度。隨著戰(zhàn)爭樣式的發(fā)展,戰(zhàn)場環(huán)境日趨復(fù)雜,“戰(zhàn)爭迷霧”效應(yīng)凸顯,爆炸式增長的戰(zhàn)場大數(shù)據(jù)已給人腦的信息處理能力帶來極大的挑戰(zhàn),人工選取威脅影響因素并建立指標體系的方法已經(jīng)難以適應(yīng)形勢的發(fā)展。隨著人工智能技術(shù)的發(fā)展,深度學習、強化學習等技術(shù)為威脅指標體系的構(gòu)建帶來了極大的促進。人工選取威脅影響因素依賴人的經(jīng)驗,體現(xiàn)了知識驅(qū)動,人工智能較多地依賴歷史數(shù)據(jù),體現(xiàn)了數(shù)據(jù)驅(qū)動。如將二者進行有效結(jié)合,將極大克服傳統(tǒng)人工構(gòu)建威脅評估指標體系的不足,增強其合理性。
預(yù)警防空作戰(zhàn)實踐具有很強的對抗性。在體系作戰(zhàn)框架下,紅方空中目標具有很強的態(tài)勢感知能力,對藍方的兵力火力部署及能力變化反應(yīng)比較敏感,威脅的對抗性體現(xiàn)較為明顯。相比傳統(tǒng)靜態(tài)的威脅評估方法,研究對抗條件下的威脅評估問題能夠?qū)ν{的變化趨勢更好地預(yù)測,對指導(dǎo)預(yù)警防空作戰(zhàn)具有更大現(xiàn)實意義。由于強化學習方法可以通過與環(huán)境交互獲得行為指導(dǎo),在對抗中實現(xiàn)智能體的自主學習,從而在對抗條件下的威脅評估中得以應(yīng)用。但隨著戰(zhàn)場紅藍雙方對抗的激烈程度提高,戰(zhàn)場態(tài)勢變化劇烈,在使用基于經(jīng)典強化學習的目標威脅評估方法時,存在著目標狀態(tài)空間與動作空間進一步擴大,或者為連續(xù)空間的情況,從而帶來維數(shù)爆炸的問題。深度強化學習技術(shù)具有強大的處理復(fù)雜、高維環(huán)境特征的能力,在該場景的應(yīng)用中具有廣闊的前景。
人工智能技術(shù)的運用,為解決對抗條件下的威脅評估問題帶來契機,但同時也存在著結(jié)果可解釋性不強、可信度難評價的問題。此問題的存在,為該技術(shù)的應(yīng)用帶來一定的局限。對于用戶來說,具有高可信度的方法更有利于輔助決策。人工智能技術(shù)的可解釋性要從數(shù)據(jù)采集、算法設(shè)計與實施、結(jié)果展示等環(huán)節(jié)入手。方法設(shè)計與實施存在著一定的“黑盒”特征,但數(shù)據(jù)采集與結(jié)果展示環(huán)節(jié)的解釋相對較為容易,解釋越透徹越能增加評估方法的可信度。很多人工智能方法對數(shù)據(jù)都有很強的依賴性,比如經(jīng)典機器學習、深度學習等。大規(guī)模的、區(qū)分度高的、涵蓋問題特征分布的數(shù)據(jù)集是智能化方法取得較好效果的基礎(chǔ),其訓(xùn)練得到的模型具有更強的泛化能力。根據(jù)不同方法的特點,從方法實施的不同階段,設(shè)計相適應(yīng)的評價指標,綜合運用各種可視化手段,均能提高可信度,促進用戶對評估方法的理解與運用。
本文提出了一種對抗條件下空中目標威脅評估方法,在建立威脅評估模型的基礎(chǔ)上,根據(jù)強化學習的思想,得出紅方目標的最優(yōu)路徑,并根據(jù)最優(yōu)路徑對目標的下一步威脅進行評估,實現(xiàn)對抗條件下空中目標的威脅評估。經(jīng)過仿真案例分析,該方法對紅方目標的威脅進行評估更符合戰(zhàn)場實際。但同時,也應(yīng)看到在使用基于經(jīng)典強化學習的目標威脅評估方法時,還存在著諸多不足,對此,提出3條建議便于對此類問題的進一步研究。