摘要:空中戰(zhàn)場態(tài)勢是對空中戰(zhàn)場中所有參與方行動和狀態(tài)的總體描述,而目標作戰(zhàn)意圖識別則為空中戰(zhàn)場態(tài)勢評估提供重要依據(jù)。為了解決在激烈對抗、快速演化的空中戰(zhàn)場態(tài)勢背景下,大量已標記的空中目標戰(zhàn)場態(tài)勢數(shù)據(jù)獲取難度大的問題,提出了一種基于度量學習的半監(jiān)督空中目標作戰(zhàn)意圖識別模型。該模型提供了一種從無標簽樣本中發(fā)掘潛在模式的方法,緩解了對大量標記數(shù)據(jù)的需求。模型通過目標時序數(shù)據(jù)編碼器對目標序列數(shù)據(jù)進行降維并得到其嵌入表示。在此基礎(chǔ)上,通過分別度量已標記的目標序列與意圖類型、未標記的目標序列之間的相似度,計算對應(yīng)的損失值。實驗結(jié)果表明,在有標簽樣本不同占比為30%、40% 和50% 的情況下,該模型識別空中目標作戰(zhàn)意圖的準確率分別為86%、89% 和91%。
關(guān)鍵詞:空中目標;戰(zhàn)場態(tài)勢;作戰(zhàn)意圖;意圖識別;度量學習;半監(jiān)督學習
DOI:10.3969/j. issn. 1009-086x. 2025. 01. 006
中圖分類號:E919;TJ76 文獻標志碼:A 文章編號:1009-086X(2025)-01 -0052 -11
引用格式:張晨浩, 周焰, 梁復(fù)臺, 等.基于度量學習的半監(jiān)督空中目標作戰(zhàn)意圖識別[J].現(xiàn)代防御技術(shù),2025,53(1):52-62.
Reference format: ZHANG Chenhao, ZHOU Yan, LIANG Futai, et al. Semi-supervised Air Targets Combat IntentionRecognition Based on Metric Learning[J].Modern Defence Technology,2025,53(1):52-62.
0 引言
隨著軍事科技的快速發(fā)展,以及戰(zhàn)爭形式的不斷演變,空中戰(zhàn)場態(tài)勢呈現(xiàn)出烈度高、變化快、要素多的特點。為了更加精準地掌握空中戰(zhàn)場的當前狀態(tài)及其發(fā)展趨勢,作戰(zhàn)人員利用多源信息對不同空中作戰(zhàn)實體、戰(zhàn)場環(huán)境等態(tài)勢元素進行多角度刻畫和分析,以此獲取雙方兵力部署情況并對進攻方的作戰(zhàn)意圖進行全面準確地評估,便于防御方及時采取應(yīng)對措施。因此,空中目標作戰(zhàn)意圖識別是空中戰(zhàn)場態(tài)勢評估的關(guān)鍵一環(huán)。
傳統(tǒng)的空中目標作戰(zhàn)意圖識別主要依賴于先驗知識,通過長期積累的目標活動規(guī)律等人工經(jīng)驗實現(xiàn)對意圖的初步識別,這種方法不僅存在認知偏差而且識別速度慢。為了克服人工識別效率低下的問題,不同類型的方法開始運用于目標意圖識別領(lǐng)域?;谝?guī)則和模板匹配[1-3]的方法需要對意圖識別的邏輯規(guī)則進行歸納總結(jié),貝葉斯網(wǎng)絡(luò)[4-5]和D-S(Dempster-Shafer)證據(jù)理論[6-7]基于概率推理識別目標意圖的識別。這些方法雖然相較于傳統(tǒng)的人工識別在一定程度上實現(xiàn)了識別過程的自動化,但是仍需要人工定義規(guī)則和模板、設(shè)定概率分配函數(shù),以及搭建貝葉斯網(wǎng)絡(luò)架構(gòu),從而嚴重依賴先驗知識,無法滿足空中戰(zhàn)場態(tài)勢評估高效精準的要求。隨著空中戰(zhàn)場態(tài)勢數(shù)據(jù)的多源化,學者們發(fā)現(xiàn)其中蘊含著豐富的高價值目標信息,通過機器學習技術(shù)從中逐級學習并提取目標特征,實現(xiàn)數(shù)據(jù)驅(qū)動下的目標意圖智能化識別。文獻[8]通過對歷史目標數(shù)據(jù)進行學習構(gòu)建目標意圖識別決策樹;此外,徑向基神經(jīng)網(wǎng)絡(luò)[9]、全連接殘差網(wǎng)絡(luò)[10]、卷積神經(jīng)網(wǎng)絡(luò)[11]和循環(huán)神經(jīng)網(wǎng)絡(luò)[12-13]等被廣泛用于識別目標作戰(zhàn)意圖。通過將戰(zhàn)場態(tài)勢數(shù)據(jù)輸入到神經(jīng)網(wǎng)絡(luò)中,利用神經(jīng)網(wǎng)絡(luò)強大的模式識別能力和學習能力,從中提取目標信息和特征,并捕捉目標數(shù)據(jù)中復(fù)雜的關(guān)系,不斷訓練得到目標意圖識別神經(jīng)網(wǎng)絡(luò)。
上述基于神經(jīng)網(wǎng)絡(luò)的目標意圖識別是一類數(shù)據(jù)驅(qū)動的方法,需要大量帶有標簽的空中目標數(shù)據(jù)。神經(jīng)網(wǎng)絡(luò)通過學習目標數(shù)據(jù)與其標簽之間的映射關(guān)系而不斷訓練和優(yōu)化,使網(wǎng)絡(luò)不斷收斂直至能夠準確識別出目標作戰(zhàn)意圖。目標樣本的意圖標簽需要有豐富經(jīng)驗的專家通過目標樣本的特征進行判定,需要耗費較高的時間成本和人力成本。在激烈對抗、快速演化的空中戰(zhàn)場態(tài)勢背景下,受人力的限制和目標戰(zhàn)術(shù)變化的影響,無法在短時間內(nèi)獲取足夠多的帶標簽的空中目標戰(zhàn)場態(tài)勢數(shù)據(jù),通用的意圖識別神經(jīng)網(wǎng)絡(luò)無法基于少量的帶標簽樣本實現(xiàn)目標意圖的高效識別。相比之下,由于多源信息不斷匯集,未標記的目標樣本更容易被獲取。因此,在少量已標記目標樣本的基礎(chǔ)上,利用大量未標記的目標樣本提升模型的意圖識別性能是可行的。為了適應(yīng)空中戰(zhàn)場態(tài)勢烈度高、變化快、要素多的特點,滿足高效識別密集目標意圖的要求,解決在激烈對抗、快速演化的空中戰(zhàn)場態(tài)勢背景下帶意圖標簽的目標樣本量不足的問題,本文提出了一種基于度量學習的半監(jiān)督意圖識別模型(semi-supervised intention recognition based onmetric learning, MLSSIR)。首先通過一維卷積神經(jīng)網(wǎng)絡(luò)- 雙向長短期記憶網(wǎng)絡(luò)(one-dimensionalconvolutional neural network and bidirectional longshort-term memory,1DCNN-BiLSTM)目標時序數(shù)據(jù)編碼器對有標簽和無標簽的目標時序數(shù)據(jù)進行降維處理,得到其嵌入表示;然后將有標簽的目標時序數(shù)據(jù)的嵌入表示與作戰(zhàn)意圖的嵌入表示進行相似度度量,將無標簽和有標簽的目標時序數(shù)據(jù)的嵌入表示進行相似度度量;最后通過2 種相似度得到了模型的輸出,計算目標數(shù)據(jù)與意圖類別之間的損失,以及目標數(shù)據(jù)之間的損失。實驗結(jié)果表明本文提出的MLSSIR 模型在有標簽樣本不同占比的情況下的有效性。
1 相關(guān)工作
1. 1 目標作戰(zhàn)意圖識別方法
諸多學者對目標意圖識別展開了研究,主要方法有專家系統(tǒng)[1]、模板匹配[2-3]、貝葉斯網(wǎng)絡(luò)[4-5]、D-S證據(jù)理論[6-7]、神經(jīng)網(wǎng)絡(luò)[9-13]等。在目標數(shù)據(jù)較少的情況下,主要通過專家系統(tǒng)和模板匹配等基于知識驅(qū)動的方法識別目標的作戰(zhàn)意圖?;诖朔N思路,和鈺等[1]提出了一種基于置信規(guī)則庫的防空目標意圖識別方法,將專家知識和相關(guān)信息抽象為規(guī)則,以此形成置信規(guī)則庫,再利用差分算法優(yōu)化初始置信規(guī)則庫,以此推理識別防空目標意圖。但是,這種基于規(guī)則庫的目標意圖識別方法嚴重依賴先驗知識,無法識別已有的經(jīng)驗知識范圍之外的意圖類型,并且當需求發(fā)生變動時需要依靠人工修改更新規(guī)則庫,增大工作量。針對規(guī)則匹配存在的問題,多層黑板模型不僅能夠通過多層次推理處理更加復(fù)雜的問題,而且可以相對容易地進行擴展和調(diào)整。規(guī)則匹配的方法需要人工根據(jù)問題定義規(guī)則或模板,并調(diào)整規(guī)則或模板以適應(yīng)不同的情況。因此,這種方法依賴人工經(jīng)驗和知識,處理不確定性推理問題的能力較弱。而D-S證據(jù)理論和貝葉斯網(wǎng)絡(luò)作為一種基于概率論的數(shù)學模型,更能適用于復(fù)雜多變的空中戰(zhàn)場態(tài)勢。王小平[6]和曹思遠等[7]利用D-S 證據(jù)理論構(gòu)建意圖預(yù)測模型,實現(xiàn)了對目標意圖的識別。ZHANG 等[14]為了排除在確定基本概率賦值(basic probability assignment,BPA)時主觀因素的影響,將深度學習網(wǎng)絡(luò)與D-S證據(jù)理論相結(jié)合,通過長短期記憶(long short-term memory,LSTM)網(wǎng)絡(luò)和生成對抗網(wǎng)絡(luò)(generative adversarial network,GAN)確定BPA。這種方法依然無法解決D-S 理論可能存在的證據(jù)沖突的問題。為了適應(yīng)動態(tài)變化的戰(zhàn)場態(tài)勢,柴慧敏等[15]提出了一種基于動態(tài)貝葉斯的戰(zhàn)術(shù)態(tài)勢估計方法,通過將靜態(tài)貝葉斯網(wǎng)絡(luò)在時間維度上展開,構(gòu)建動態(tài)貝葉斯推理網(wǎng)絡(luò),從而實現(xiàn)對目標戰(zhàn)術(shù)態(tài)勢中的意圖動態(tài)識別。D-S證據(jù)理論和貝葉斯網(wǎng)絡(luò)作為兩類基于概率推理的方法,在識別目標意圖時需要確定基本概率分配和先驗概率,這比較依賴主觀假設(shè)。隨著空中目標數(shù)據(jù)逐漸海量化、高維化,上述方法已無法適應(yīng)意圖識別的現(xiàn)實需求。神經(jīng)網(wǎng)絡(luò)作為一種能夠處理非線性和高維空中目標數(shù)據(jù)的方法,不斷被應(yīng)用于意圖識別領(lǐng)域。李寧安等[16]針對專家知識不足的情況,設(shè)計了一種適用于目標時間序列數(shù)據(jù)的LSTM 神經(jīng)網(wǎng)絡(luò)模型,通過學習目標時間序列數(shù)據(jù)中的特征信息,識別其意圖。
1. 2 半監(jiān)督學習
半監(jiān)督學習(semi-supervised learning,SSL)是一類利用有限數(shù)量的已標記樣本和大量未標記樣本獲取精準的機器學習模型的方法[17]。相較于有監(jiān)督學習,在具備較少標簽數(shù)據(jù)和大量無標簽數(shù)據(jù)的情況下,SSL通過結(jié)合有標簽數(shù)據(jù)和無標簽數(shù)據(jù),能夠在訓練模型的過程中充分利用有限的標簽數(shù)據(jù),不僅降低數(shù)據(jù)標記成本,還有助提升模型的性能。
SSL在20世紀70年代被提出后[18],已被廣泛用于圖像分類[19]、目標檢測[20]、文本分類[21]和時序數(shù)據(jù)分類[22]等不同領(lǐng)域。其中,在研究中最常用的一類半監(jiān)督學習方法是一致性正則化方法(consistencyregularization methods,CRM)。其希望達成的目標為在對未標記的樣本施加擾動的情況下,其輸出不會發(fā)生顯著變化。RASMUS 等[23] 提出了LadderNetworks,該模型對每一個編碼器均加入噪聲,且在每層的編碼器和解碼器之間添加跳躍連接,總體損失由有監(jiān)督部分的損失和每層的重構(gòu)損失組成。但是,由于Ladder Networks 的結(jié)構(gòu)較為復(fù)雜,其運算量非常大。為此SAJJADI等[24]提出了Π-Model,通過對樣本進行2次不同方式的數(shù)據(jù)增強,再分別輸入網(wǎng)絡(luò)結(jié)構(gòu)中得到各自的輸出,其優(yōu)化目標是兩個輸出盡可能相似。該方法需要將樣本輸入模型2次,導(dǎo)致運算量翻倍。為解決此問題,LAINE 等[25]提出了時間集成(temporal ensembling,TE)方法,一個樣本對應(yīng)一個輸出,同時根據(jù)之前的結(jié)果利用指數(shù)移動平均指數(shù)(exponential moving average,EMA)得到另一個輸出。上述這些半監(jiān)督學習方法,每種模型既能得到樣本的輸出,又可以基于一致性損失不斷學習訓練。這種模型結(jié)構(gòu)在無監(jiān)督損失大于有監(jiān)督損失時,容易降低模型學習訓練效果,并且無標簽樣本的信息只能在下一輪訓練過程中才能更新到模型中。為克服此問題,TARVAINEN等[26]提出了Mean Teacher方法,通過引入Teacher模型和Student模型,可以在每一輪訓練中的每一步中更新模型權(quán)重。但是隨著模型不斷迭代,Teacher 模型中的偏差容易傳導(dǎo)給Student 模型。在Mean Teacher 方法的基礎(chǔ)上,KE等[27]提出了Dual Student 方法,用Student 模型取代Mean Teacher方法中的Teacher模型,兩個Student模型分別訓練。除了上述方法,MIYATO等[28]將對抗性噪聲輸入的思想應(yīng)用于半監(jiān)督學習,提出了虛擬對抗訓練(virtual adversarial training,VAT)方法,對輸入樣本加入對抗性擾動,將其與原始樣本做一致性正則化;不同于VAT 對輸入數(shù)據(jù)加入對抗性干擾,PARK 等[29] 提出的虛擬對抗隨機失活(virtualadversarial dropout,VAdD)在網(wǎng)絡(luò)隱藏層加入對抗性Dropout層。
上述這些方法在模型中引入一致性約束,對未標記數(shù)據(jù)的依賴性較強。若未標記數(shù)據(jù)的數(shù)量和質(zhì)量不佳,可能會影響模型的性能。為了避免此類問題,本文采用了基于度量學習的半監(jiān)督模型,該方法對未標記數(shù)據(jù)的數(shù)量和質(zhì)量要求相對較低,更多地依賴于數(shù)據(jù)本身的特性。