李 威,盧盈齊,范成禮
(空軍工程大學 防空反導學院, 西安 710000)
空襲目標識別作為防空作戰(zhàn)中目標分析判斷的首要任務也是指控決策的關鍵環(huán)節(jié),能夠為攔截決策中的目標威脅判斷排序和目標火力分配提供重要依據(jù)。因此,快速而又準確地識別出空襲目標的類型對防空作戰(zhàn)指揮控制具有十分重要的意義。
目前,對于空襲目標類型的識別算法主要包括D-S證據(jù)推理[1-2]、貝葉斯網(wǎng)絡[3-4]、聚類算法[5-6]、多屬性決策[7]、支持向量機(SVM)[8]和模糊神經(jīng)網(wǎng)絡[9]、BP神經(jīng)網(wǎng)絡[10]、概率神經(jīng)網(wǎng)絡(PNN)[11]等神經(jīng)網(wǎng)絡類算法等。其中D-S證據(jù)推理存在高沖突證據(jù)組合和證據(jù)獨立性問題;貝葉斯網(wǎng)絡在對飛行高度、速度和發(fā)現(xiàn)距離等連續(xù)性數(shù)據(jù)進行離散化處理的過程中存在主觀性較強的問題;神經(jīng)網(wǎng)絡模型對于樣本數(shù)據(jù)量要求較高,且普遍存在收斂速度較慢和容易過擬合的缺點,而SVM雖然具有較強的泛化能力,但參數(shù)的調(diào)試以及核函數(shù)的選擇是一大難點,不同核函數(shù)和參數(shù)的選擇對于識別結(jié)果差異較大。
隨機森林(Random Forest)屬于機器學習[12]中的有監(jiān)督學習,是通過集成學習的思想將多個決策樹進行集成的一種算法,在處理分類問題上具有準確率高、泛化能力強和對于數(shù)據(jù)集要求低等優(yōu)點,因此較為適合解決空襲目標識別問題。但由于戰(zhàn)場傳感器能夠獲得空襲目標的飛行高度、飛行速度、發(fā)現(xiàn)距離、加速度、RCS、航線特征和電磁輻射等較多的識別特征因素,如果將全部特征代入模型容易影響目標的識別性能模型,尤其是無用的特征會對識別過程造成干擾,進而降低目標識別的準確率、穩(wěn)定性和識別速度,因此需要對特征進行篩選,去除冗余特征,選擇對于識別模型更加重要的特征。但目前的識別方法往往依靠主觀經(jīng)驗選擇特征,存在主觀性強、可解釋性差以及忽略了特征與模型的適應性等缺點。
本文根據(jù)傳統(tǒng)經(jīng)驗和歸納分析,提取了空襲目標的飛行高度、飛行速度、發(fā)現(xiàn)距離、加速度、RCS、航線特征和電磁輻射等常見的因素作為識別特征,并在傳統(tǒng)隨機森林的基礎上進一步充分挖掘數(shù)據(jù)中的信息,通過計算基尼指數(shù)變化量對特征進行重要性評估和降維,提出了基于雙層隨機森林的空襲目標識別算法,并通過仿真實驗與傳統(tǒng)隨機森林、神經(jīng)網(wǎng)絡模型和SVM進行對比分析,證明了該算法在提高空襲目標識別的速度和準確率上的有效性。
隨機森林[13-14]是一種基于集成學習的組合分類算法,首先采用Bootstrap重采樣的方式從樣本數(shù)據(jù)進行有放回的抽樣,然后用抽取的樣本構建決策樹,在以決策樹為基學習器構建Bagging集成學習的基礎上,進一步在決策樹的訓練過程中加入了隨機屬性選擇,最后通過投票得到最終的分類和預測結(jié)果。其算法結(jié)構如圖1所示。
圖1 隨機森林算法結(jié)構
1) 決策樹的基本思想是構造一個類似流程圖的樹形結(jié)構,首先從根節(jié)點開始通過基尼指數(shù)選擇最優(yōu)劃分屬性,在非葉子節(jié)點進行屬性值的對比測試,然后根據(jù)測試結(jié)果確定相應分支,最后在葉子節(jié)點得到類別結(jié)果。決策樹的結(jié)構如圖2所示。
圖2 決策樹結(jié)構
2) Bootstrap的基本思想是在給定包含n個樣本的原數(shù)據(jù)集中,每次有放回地從原數(shù)據(jù)集中隨機抽取一個樣本,將其拷貝放入新的數(shù)據(jù)集,然后將該樣本放回原數(shù)據(jù)集中,此過程重復n次后,得到一個包含n個樣本的新數(shù)據(jù)集。
3) Bagging集成的基本策略是首先利用Bootstrap采樣隨機生成T個訓練集,然后基于每個采樣集訓練出一個對應的基學習器,然后將測試集放入每個基學習器進行測試分類,最后采取投票的算法將所有基學習器的結(jié)果進行結(jié)合。
根據(jù)傳統(tǒng)經(jīng)驗,防空作戰(zhàn)面臨的空襲目標一般分為5類[15]:
第1類:戰(zhàn)術彈道導彈(TBM)。
第2類:大型目標類,包括殲擊機、轟炸機和殲擊轟炸機等。
第3類:小型目標類,包括空地導彈、反輻射導彈、巡航導彈和制導炸彈等。
第4類:武裝直升機。
第5類:誘餌。
防空作戰(zhàn)中對空襲目標的識別特征有很多,文獻[3-4]提取了飛行高度、飛行速度、航線特征和發(fā)現(xiàn)距離作為識別特征;文獻[5-8]考慮飛行高度、飛行速度、航跡特征和電磁輻射作為識別特征;文獻[6]提取了飛行高度、飛行速度、發(fā)現(xiàn)距離、航跡特征、電磁輻射和雷達反射面積(RCS)作為識別特征;文獻[7]考慮飛行高度、飛行速度、航線特征、電磁輻射和雷達反射面積作為目標識別的主要特征;文獻[9]提取了飛行速度、發(fā)現(xiàn)距離、飛行高度、航跡特征和電磁輻射作為識別主要特征;文獻[10-11]考慮飛行高度、飛行速度、加速度和雷達反射面積(RCS)作為目標識別的主要特征。
通過歸納分析發(fā)現(xiàn),飛行高度、發(fā)現(xiàn)距離、飛行速度、加速度、雷達反射面積(RCS)、航線特征和電磁輻射是空襲目標識別中考慮的主要特征,這些特征能夠充分反映目標的典型特性,提高目標識別精度,因此本文選取這7個特征作為空襲目標識別的特征集。
2.3.1特征評估與優(yōu)選
隨機森林中對特征評估的基本思想為:通過判斷每個特征在隨機森林中的每棵決策樹生長過程中所做貢獻的大小,然后比較特征之間貢獻的大小。而貢獻的計算方式采用每一個特征在森林中所有決策樹上的基尼指數(shù)[16]變化量總和來表示該特征所做的貢獻率,將特征貢獻率作為特征重要性評估的依據(jù)。
2.3.2數(shù)據(jù)降維與目標識別
(1)
2.3.3識別結(jié)果評價
采用識別準確率對隨機森林的識別結(jié)果進行評價,識別準確率定義為:
(2)
式中:H(xj)為隨機森林在類別j上的識別結(jié)果;yj為實際結(jié)果;m為測試目標個數(shù);I為邏輯運算,等式成立為1,否則為0。
從目標威脅數(shù)據(jù)庫選取了30批空襲目標,采用留出法區(qū)分訓練集和測試集,其中前20批目標為訓練數(shù)據(jù),后10批目標為測試數(shù)據(jù)。受篇幅限制,僅顯示前10批和后10批目標的空情數(shù)據(jù)如表1所示。
表1 空情數(shù)據(jù)
續(xù)表(表1)
由于航線特征和電磁輻射沒有具體的數(shù)值,因此需要對這兩類數(shù)據(jù)進行數(shù)值化預處理。
航跡特征中等高平直飛行數(shù)值化為1,爬升或俯沖數(shù)值化為2,下滑數(shù)值化為3,分岔數(shù)值化為4。電磁特征中有電磁輻射數(shù)值化為1,無電磁輻射數(shù)值化為0。
構建第一層隨機森林,根據(jù)2.3.1的思想得到各特征的重要性的步驟為:
步驟1將表1中的訓練數(shù)據(jù)放入規(guī)模為100棵決策樹的隨機森林進行訓練,得到訓練好的隨機森林模型。
步驟2得到森林中每棵決策樹上每一節(jié)點的基尼指數(shù),其中節(jié)點m的基尼指數(shù)定義為:
(3)
式中:K為類別集合;pmk為當前節(jié)點m中第k類樣本所占的比例。
步驟3計算每一特征的節(jié)點貢獻率,將特征j在節(jié)點m的貢獻率用節(jié)點m分支前后的基尼指數(shù)變化量來表示。
(4)
式中:GIl和GIr分別為分支后2個新節(jié)點的基尼指數(shù)。
步驟4計算每一特征的累計貢獻率,將特征j的累計貢獻率定義為:
(5)
式中:M為特征j在第i課決策樹中出現(xiàn)的節(jié)點集合。
步驟5計算每一特征的重要性,將特征j的重要性定義為:
(6)
式中:n為森林中決策樹的數(shù)量;C為識別特征集合。
最終得到7個識別特征的重要性程度分別為(2.759 3, 1.889 7, 2.284 9, 3.794 3, 3.348 8, 0.591 0, 0.617 0),對比情況如圖3所示。
圖3 特征重要性對比
從圖中可以看出,航跡特征和電磁特征的重要性明顯低于其他特征,說明這2個特征在隨機森林的目標識別模型中作用不大,因此舍去這2個特征及對應的數(shù)據(jù),對訓練和測試數(shù)據(jù)進行降維處理。
根據(jù)隨機森林算法結(jié)構思想,通過降維后的訓練數(shù)據(jù)構建第二層隨機森林對測試目標進行識別的步驟為:
步驟1利用Bootstrap法進行降維后的樣本采樣,隨機生成100個采樣集。
步驟2利用每個采樣集生成對應的決策樹,將降維后的5個屬性作為每棵決策樹的分裂屬性集,每次分裂時選擇最優(yōu)的劃分屬性進行分裂。
步驟3每棵樹都盡最大程度生長而不進行剪枝。
步驟4將測試集樣本分別放入100棵決策樹進行測試并得到對應的類別結(jié)果。
步驟5對于100個分類結(jié)果采用投票法得到測試樣本最終的所屬類別。
在實驗條件為:Intel(R) Core(TM) i5-10210U,1.60 GHz,四核,內(nèi)存16G,操作系統(tǒng)為Windows10,64位,仿真軟件為Matlab 2019a的實驗環(huán)境中仿真得到最終識別結(jié)果為矩陣H(其中hij表示目標i識別為類別j的決策樹數(shù)量)
分析矩陣H可以看出,在100棵決策樹的隨機森林中,對于目標1,有9棵決策樹的識別結(jié)果為類型1,2棵決策樹的識別結(jié)果為類型2,4棵決策樹的識別結(jié)果為類型3,76棵決策樹的識別結(jié)果為類型4,9棵決策樹的識別結(jié)果為類型5,所以目標1的最終識別結(jié)果為類型4。
同理可得測試集的10批目標識別結(jié)果分別為[4,1,5,3,2,3,1,5,2,4],即目標1和目標10為武裝直升機,目標2和目標7為TBM,目標3和目標8為誘餌,目標4和目標6為小型目標,目標5和目標9為大型目標,識別結(jié)果與實際情況相符。
分別將本文中提出的雙層隨機森林和傳統(tǒng)隨機森林、文獻[8]的SVM算法以及文獻[11]的PNN神經(jīng)網(wǎng)絡分別用于表1數(shù)據(jù)集的目標識別。
由于隨機森林模型無需對數(shù)據(jù)進行歸一化處理,能夠簡化識別流程并節(jié)約運算資源。而PNN神經(jīng)網(wǎng)絡和SVM均需要對數(shù)據(jù)進行歸一化處理,因此對于訓練和測試數(shù)據(jù),將歸一化公式定義為:
(7)
3.3.1特征降維方法對比
特征降維方法對于機器學習模型的識別性能和泛化能力具有一定的影響。為了對比基尼指數(shù)降維的有效性,將主成分分析、基尼指數(shù)降維和未降維的隨機森林模型進行對比分析,對于指定的空襲目標識別問題,將每種方法分別重復實驗50次,用式(8)
(8)
分別計算第k種降維方法得到隨機森林模型的識別正確率。主成分分析結(jié)果和實驗對比結(jié)果分別如圖4和圖5所示。
由圖5可以得到,無特征降維方法的識別正確率為0.989,主成分分析的識別正確率為0.760。所提方法的識別正確率為0.999,僅在第94次實驗時出現(xiàn)了識別正確率波動的情況。由于主成分分析是將原始特征進行線性組合得到新的成分,會損失較多的數(shù)據(jù)信息,而所提方法從隨機森林原理出發(fā),得到的特征與隨機森林模型的契合度更高。同時相比于傳統(tǒng)隨機森林,降維后的模型對于模型的識別穩(wěn)定性也有所提高。
圖4 主成分分析結(jié)果
圖5 特征降維方法對比
3.3.2目標識別算法對比
為了驗證所提方法的有效性,采用文獻[8]的SVM、文獻[11]的PNN神經(jīng)網(wǎng)絡進行目標識別,其中SVM中的超參數(shù)通過交叉驗證方法得到,并從加載空情數(shù)據(jù)開始記錄3種方法的識別時間,得到3種方法的識別結(jié)果和識別速度分別如圖6和表2所示。
圖6 識別結(jié)果對比
表2 識別速度對比
可以看出,PNN神經(jīng)網(wǎng)絡對于目標7、目標8和目標10的識別結(jié)果與真實值不同,SVM對于目標6和目標8的識別結(jié)果與真實結(jié)果不同,而雙層隨機森林的識別結(jié)果與實際一致,說明所提算法相比于其他的識別算法具有更好的識別性能。在識別速度方面,SVM由于需要進行交叉驗證尋找超參數(shù)因此識別的時間成本較高,難以滿足作戰(zhàn)實際。PNN神經(jīng)網(wǎng)絡和雙層隨機森林的識別時間都在0.1 s以下,滿足作戰(zhàn)實際的需求,但雙層隨機森林的所有時間要遠小于PNN神經(jīng)網(wǎng)絡,約為其的十分之一,在識別過程中隨著目標規(guī)模的增大會具有更大的優(yōu)勢。因此,綜合對比發(fā)現(xiàn),雙層隨機森林在目標類型識別中表現(xiàn)優(yōu)秀,相比于PNN神經(jīng)網(wǎng)絡和SVM,雙層隨機森林不僅能保證快速、準確地識別目標,并且在目標數(shù)據(jù)處理上還省去了歸一化處理步驟,簡化了流程,能夠在保證準確率的同時具有較高的識別速度。
為了減少單次留出法造成的樣本數(shù)據(jù)集偶然性,驗證模型的泛化能力,采用多次留出法構建10個新的數(shù)據(jù)集作為實驗樣本,其中將前20批目標作為訓練集,后10批目標作為測試集,將每個數(shù)據(jù)集分別代入雙層隨機森林模型實驗50次,實驗結(jié)果如表3所示。
表3 不同樣本集的識別結(jié)果
由表3可以得到,在10個樣本集中,雙層隨機森林得到的平均識別準確率均在90%以上,平均時間都在0.01 s以下,說明識別模型在不同樣本集中都能夠保持較高的準確率和識別速度,但在數(shù)據(jù)2和數(shù)據(jù)6中的準確率低于其他樣本集,這可能是由于樣本的隨機性導致訓練集不全面引起的。因此,可以認為所提的目標識別模型具有較強的泛化能力和魯棒性。
1) 相比于傳統(tǒng)隨機森林,所提算法通過計算基尼指數(shù)變化量對空襲目標特征進行重要性評估和數(shù)據(jù)降維,提高了目標的識別準確率和穩(wěn)定性,有效提高了隨機森林的目標識別性能。
2) 相比于神經(jīng)網(wǎng)絡和支持向量機等其他目標識別算法,所提算法具有更強的泛化能力,能夠在保證較高的識別準確率的同時具有較高的識別速度。此外,所提算法不需要對數(shù)據(jù)進行歸一化處理,進一步簡化了識別流程。
3) 但在未來防空作戰(zhàn)中,受不確定和對抗性因素影響,空情數(shù)據(jù)可能是不完整的,傳感器獲得的數(shù)據(jù)也更加多樣,如何從多個特征選擇最合理的識別特征以及根據(jù)缺失的數(shù)據(jù)進行準確的目標識別是下一步研究的重點。