孫藝聰,田潤瀾,王曉峰,田維群
(空軍航空大學(xué) 航空作戰(zhàn)勤務(wù)學(xué)院,長春 130022)
雷達(dá)信號分類識別[1-2]是電子戰(zhàn)領(lǐng)域一個重要的研究方向,在完成信號截獲和脈沖參數(shù)分析后,需要對信號進(jìn)行進(jìn)一步分析,以得到輻射源類型甚至是個體信息,最終獲得情報產(chǎn)品。近年來采用深度學(xué)習(xí)分析脈內(nèi)調(diào)制特性的研究有很多[3-7]。這些方法主要基于兩個基本的假設(shè):一是訓(xùn)練集中每種類型樣本數(shù)量分布大致相同;二是分類錯誤造成的后果是相同的。然而在現(xiàn)實(shí)情況下,由于數(shù)據(jù)收集方法限制、樣本的稀缺性以及噪聲干擾等原因,會導(dǎo)致不同類型信號樣本數(shù)量有很大的差異,而且往往分類錯誤后所造成的代價通常也不同。尤其是在電子偵察領(lǐng)域,常見的雷達(dá)信號類型偵收到的數(shù)據(jù)有很多,但是對于一些特殊的、威脅程度相對較高的信號類型卻很少能被偵察到,得到的數(shù)據(jù)集不均衡。傳統(tǒng)的基于分類準(zhǔn)確率指標(biāo)的方法訓(xùn)練得到的模型分類效果不佳,甚至毫無用處。保證能夠準(zhǔn)確地識別這些出現(xiàn)概率低且威脅程度高的信號類型,具有十分重要的意義。
針對這個問題,本文提出了一種基于棧式自編碼器結(jié)合過采樣技術(shù)支持向量機(jī)[8]的分類方法。
本文所提方法的具體流程如圖1所示。首先,通過棧式自編碼器對中頻信號樣本集進(jìn)行特征提取和降維處理,對降維后的數(shù)據(jù)中的少數(shù)類樣本采用過采樣的方法生成更多數(shù)量的少數(shù)類樣本,使多數(shù)類和少數(shù)類樣本數(shù)量達(dá)到平衡;然后,利用支持向量機(jī)(Support Vector Machine,SVM)對再平衡后的數(shù)據(jù)集進(jìn)行分類,尋找最大間距超平面[9];最后,采用F分?jǐn)?shù)和受試者工作特征(Receiver Operating Characteristic,ROC)曲線來評價網(wǎng)絡(luò)的性能。
圖1 雷達(dá)信號識別流程圖
當(dāng)數(shù)據(jù)集S中的不同類之間樣本數(shù)相差很大(通常在兩個數(shù)量級以上),那么S被稱為不平衡數(shù)據(jù)集[10]。常規(guī)方法對于不平衡數(shù)據(jù)集處理得到的模型一般效果不好,對于樣本數(shù)量少的類別準(zhǔn)確度會很低。目前關(guān)于類別不平衡問題的研究,主要集中在信用評估[11]、醫(yī)療診斷[12]等領(lǐng)域。這些領(lǐng)域?qū)τ诿恳活惙皱e的代價是不一樣的,如將患者診斷為健康的代價就可能高于健康人被診斷為患者的代價。雷達(dá)信號識別問題也有相似的情況:常見的容易偵收到的雷達(dá)信號類型,往往是那些運(yùn)用在目標(biāo)探測、遠(yuǎn)程預(yù)警雷達(dá)等平臺上的,偵察設(shè)備可以很容易地偵收到大量的這類信號。而對于一些運(yùn)用在制導(dǎo)雷達(dá)、火控雷達(dá)上的信號類型卻很難能偵收到,然而這些信號類型威脅程度更高,判錯帶來的影響也更大。
傳統(tǒng)分類模型評價方法一般采用準(zhǔn)確率(accuracy)作為評價標(biāo)準(zhǔn)。準(zhǔn)確率越高的網(wǎng)絡(luò)往往性能也越好,然而在數(shù)據(jù)不平衡的情況下,預(yù)測多數(shù)類能力的占比可能大于一半,從而掩蓋了預(yù)測少數(shù)類能力比較弱的事實(shí),無法體現(xiàn)模型的真實(shí)水平。網(wǎng)絡(luò)模型偏向于樣本數(shù)多的類型,造成樣本數(shù)少的類被大量錯分[13],這樣的網(wǎng)絡(luò)不能應(yīng)用到實(shí)際問題中。為了能夠恰當(dāng)?shù)卦u價網(wǎng)絡(luò)模型,除了準(zhǔn)確率標(biāo)準(zhǔn)外,學(xué)者們還提出了一些其他指標(biāo),主要有查準(zhǔn)率(precision)、查全率(recall)和F分?jǐn)?shù)(F-score),其中F分?jǐn)?shù)是查準(zhǔn)率和查全率的調(diào)和平均。這三種指標(biāo)的計(jì)算方法如式(1)所示:
(1)
式中:P、R、F分別代表查準(zhǔn)率、查全率和F分?jǐn)?shù);TP、TN、FP、FN分別為真正例、真反例、假正例和假反例的數(shù)量;β為調(diào)和參數(shù),度量了查全率對查準(zhǔn)率的相對重要性,β>1查全率影響更大,β<1查準(zhǔn)率影響更大,常用的有F0.5score、F1score和F2score。上述指標(biāo)主要用于二分類問題,對于多分類任務(wù),在綜合考評時就需要引入新的指標(biāo),其中最常用的一個指標(biāo)是宏平均(Macro-averaging)[14],它首先對每一個類統(tǒng)計(jì)指標(biāo)值,然后再對所有類求算數(shù)平均值,具體如式(2)所示:
(2)
除了上述指標(biāo)外,常見的性能評估方法還有受試者工作特征(Receiver Operating Characteristic,ROC)和ROC曲線下面積(Area Under ROC Curve,AUC)[15],圖2是其示意圖。ROC曲線是一種通過圖形展示分類器性能的工具[16],它以真正例率(True Positive Rate ,TPR)和假正例率(False Positive Rate,F(xiàn)PR)為軸,兩者的定義分別為
(3)
圖2中對角線對應(yīng)的是“隨機(jī)猜測”模型的ROC曲線,實(shí)線為一個典型的ROC曲線。通過ROC曲線可以較為直觀地比較分類器的性能好壞,一般情況下曲線越靠近左上角,網(wǎng)絡(luò)的性能就越好。然而實(shí)際中多個ROC曲線往往會有交叉,無法直接從圖像對分類器性能進(jìn)行比較,這時就可以采用AUC值比較。AUC值越大,性能相對就會越好,可以定量比較分類器性能,一般情況下AUC的值大于0.5,且小于1。
圖2 ROC曲線和AUC
AUC的一種計(jì)算公式為[17]
(4)
式中:f為模型函數(shù),分母代表正負(fù)樣本總的組合數(shù),分子代表正樣本大于負(fù)樣本的個數(shù)。通過AUC值的大小,可以對比出不同分類模型的性能。
F分?jǐn)?shù)可以對于分類過程中的多數(shù)類和少數(shù)類合理地進(jìn)行評價,利用宏平均可以計(jì)算得到一個宏F分?jǐn)?shù),用于對多分類任務(wù)進(jìn)行評價;ROC曲線在樣本集分布變化時能夠保持不變,能夠保證在不平衡數(shù)據(jù)評價時指標(biāo)依舊有效;AUC能夠量化模型的性能,可以用于在ROC曲線不能直接比較的情況。綜上,本文采用F分?jǐn)?shù)、ROC曲線和AUC作為模型的評價指標(biāo)。
自編碼器(Autoencoder,AE)是一種無監(jiān)督的學(xué)習(xí)模型[18]。常規(guī)的自編碼器一般由三層組成:輸入層、隱藏層和輸出層。從輸入層到隱藏層為編碼過程,輸出維度一般低于輸入維度,可以用作對輸入數(shù)據(jù)的降維,同時還可以作為特征提取器來作為深度學(xué)習(xí)輸入數(shù)據(jù)的預(yù)處理;從隱藏層到輸出層為解碼過程,主要是通過編碼層的輸出重建編碼器的輸出。編碼過程可表示為
y=σe(w1x+b1) 。
(5)
解碼的過程可以表示為
x′=σd(w2y+b2) 。
(6)
式中:w1、b1為編碼器的權(quán)重和偏置,w2、b2為解碼器的權(quán)重和偏置。通過解碼器得到的輸出與原始輸入作為對比,使用均方誤差構(gòu)造損失函數(shù),設(shè)置損失函數(shù)為
(7)
網(wǎng)絡(luò)訓(xùn)練采用傳統(tǒng)的基于梯度的訓(xùn)練方式,目標(biāo)是最小化損失函數(shù)。當(dāng)網(wǎng)絡(luò)訓(xùn)練完成后,網(wǎng)絡(luò)中的編碼結(jié)構(gòu)就是我們需要的網(wǎng)絡(luò)模型。
為了學(xué)到更加復(fù)雜的編碼特征,一般采用多個自編碼器堆疊的結(jié)構(gòu),這樣的自編碼器就是棧式自編碼器(Stacked Autoencoder,SAE)[19],又叫做堆棧自編碼器。它是由多個自編碼器得到的。一般采用逐層訓(xùn)練的方式,通過將前一個自編碼器的輸出作為下一個自編碼器的輸入,依次訓(xùn)練每一個自編碼器,通過分層預(yù)訓(xùn)練找到較好的參數(shù),在最后一層訓(xùn)練完成后對整個網(wǎng)絡(luò)采用方向傳播進(jìn)行訓(xùn)練,對網(wǎng)絡(luò)參數(shù)進(jìn)行微調(diào)。棧式自編碼器通過增加隱層可以學(xué)到更加復(fù)雜的編碼方式,每一個隱層可以學(xué)習(xí)到不同維度的信息,通過增加網(wǎng)絡(luò)深度并減少每層神經(jīng)單元數(shù)不僅可以學(xué)習(xí)到輸入數(shù)據(jù)更深層次的特征,還能夠有效降低數(shù)據(jù)的維度,減少計(jì)算量。每層網(wǎng)絡(luò)的神經(jīng)元個數(shù)通常取上一層的神經(jīng)元個數(shù)的一半。本文采用SAE來對原始數(shù)據(jù)進(jìn)行特征提取和數(shù)據(jù)降維。
研究表明,通過改變訓(xùn)練集之間的比例,使其重新達(dá)到平衡,可以有效改善傳統(tǒng)分類方法在這類問題上退化的現(xiàn)象[20]。數(shù)據(jù)再平衡的方法有很多,如重采樣法、集成分類器法和劃分訓(xùn)練集法[21],其中最常用的方法就是重采樣法。重采樣法主要分為欠采樣和過采樣。欠采樣通過刪除多數(shù)類樣本的方法減少多數(shù)類的樣本數(shù)量,但是會導(dǎo)致多數(shù)類重要信息的缺失;過采樣通過補(bǔ)充小樣本來達(dá)到增加樣本的目的,但是可能會導(dǎo)致過擬合。近年來,通過對過采樣方法的改進(jìn),學(xué)者們提出了幾種補(bǔ)充少數(shù)類樣本的過采樣方法,得到了很廣泛的應(yīng)用,主要有以下幾種:
(1)隨機(jī)過采樣法(Random Oversampling,ROS)
隨機(jī)過采樣法通過隨機(jī)復(fù)制少數(shù)類樣本實(shí)現(xiàn)樣本的平衡,但是由于其引入了重復(fù)的樣本,有可能導(dǎo)致過擬合現(xiàn)象,這種方法如今使用很少。
(2)合成少數(shù)類過采樣技術(shù)[22](Synthetic Minority Oversampling Technique,SMOTE)
SMOTE通過對少數(shù)樣本進(jìn)行分析并人工合成新的樣本,本質(zhì)上是基于“插值”來產(chǎn)生新的樣本。
為了達(dá)到較好的預(yù)測效果,較高級的方法采用有選擇的復(fù)制少數(shù)類樣本。一些方法試圖尋找每種類別的邊界,主要思路是邊界和邊界附近的樣本更容易被分類錯誤,也意味著對于分類更加重要,而遠(yuǎn)離邊界的樣本就顯得不那么重要。根據(jù)這一思想,提出了Borderline-SMOTE[23]和SVM-SMOTE[24]方法,它們是在原始的SMOTE方法上進(jìn)行改進(jìn),通過一定的規(guī)則來選擇樣本。Borderline-SMOTE方法首先將少數(shù)類樣本分為三類:安全樣本、危險樣本和噪聲樣本。安全樣本是指所有的k近鄰樣本均來自于同一個類;危險樣本則是至少有一半的k近鄰樣本來自于同一類;噪聲樣本則是指樣本的所有k近鄰樣本都是其他類樣本。Borderline-SMOTE更關(guān)注那些處在邊界的危險樣本,只為那些周圍大部分是多數(shù)類樣本的少數(shù)類樣本生成新樣本,生成樣本的方法同SMOTE。SVM-SMOTE方法則是利用支持向量機(jī)分類器產(chǎn)生支持向量然后再生成新的樣本。
(3)自適應(yīng)綜合過采樣[25](Adaptive Synthetic Sampling,ADASYN)
ADASYN關(guān)注的是在那些基于K最近鄰分類器被錯誤分類的原始樣本附近生成新的少數(shù)類樣本,最大的特點(diǎn)是能夠自動決定每個少數(shù)類樣本需要產(chǎn)生多少合成樣本。
少數(shù)類樣本由于樣本數(shù)量少,SVM不能夠找到足夠數(shù)量的支持向量,導(dǎo)致少數(shù)類邊界不明顯,所以在對少數(shù)類樣本進(jìn)行再平衡時需要重點(diǎn)增加邊界和邊界附近的樣本數(shù)量,以此增加少數(shù)類的支持向量數(shù)量,有助于支持向量機(jī)找到更加合理的邊界。本文主要采用改進(jìn)SMOTE方法中的Borderline方法。
本文選擇8種雷達(dá)信號類型,分別是多相碼(Frank、P1、P2、P3、P4)、BPSK、Costas和LFM。除Costas外載頻取值范圍為1~1.2 kHz。表1是這8類信號仿真模型的主要參數(shù)。
表1 8種信號參數(shù)設(shè)置
根據(jù)實(shí)際信號特征,采用Matlab仿真生成實(shí)驗(yàn)數(shù)據(jù),信噪比為-10~10 dB,采樣點(diǎn)個數(shù)為200個。將P2、P4、BPSK、Costas和LFM設(shè)為多數(shù)類,各產(chǎn)生20 000條數(shù)據(jù);Frank、P1和P3設(shè)為少數(shù)類,各產(chǎn)生200條數(shù)據(jù),構(gòu)成不平衡數(shù)據(jù)集,少數(shù)類和多數(shù)類的不平衡度為1∶100,過采樣每類少數(shù)類信號合成數(shù)量為19 800。
實(shí)驗(yàn)1 為了說明SAE降維和提取特征的有效性,首先構(gòu)建含有3層隱藏層的SAE模型(200-100-50-25-3),將本文得到的數(shù)據(jù)集輸入到SAE模型中進(jìn)行處理,損失函數(shù)采用均方差。通過對SAE網(wǎng)絡(luò)進(jìn)行訓(xùn)練得到適合的編碼器,將數(shù)據(jù)集利用訓(xùn)練好的編碼器進(jìn)行編碼,數(shù)據(jù)從原始的200維降到了三維,將降維后得到的數(shù)據(jù)在三維特征空間上的分布進(jìn)行可視化處理,如圖3所示。
圖3 三維特征空間數(shù)據(jù)分布
從圖3可以看出,多數(shù)類信號在三維特征空間上的分布比較清晰,同一類信號之間能夠較好地匯聚到一起,不同類信號之間的界限也相對明顯,可以進(jìn)行有效的分類。另外,由于少數(shù)類樣本數(shù)量較少,相對于多數(shù)類匯聚效果不明顯,在分類過程中很有可能會被誤分為其他類型,導(dǎo)致分類效果不好,這也說明了提高少數(shù)類數(shù)量的重要性。
為了進(jìn)一步探索降維維度對分類精度的影響,以編碼器最后一層神經(jīng)單元個數(shù)為變量,以網(wǎng)絡(luò)的macro_F為指標(biāo)。網(wǎng)絡(luò)前幾層編碼單元數(shù)按順序減半,最后一層神經(jīng)單元數(shù)從2個到15個,每種網(wǎng)絡(luò)結(jié)構(gòu)做5次實(shí)驗(yàn),對5次實(shí)驗(yàn)的macro_F取平均值作為最終的結(jié)果,實(shí)驗(yàn)結(jié)果見圖4。
圖4 不同網(wǎng)絡(luò)結(jié)構(gòu)的識別能力
從圖4中可以看出,隨著編碼器最后一層神經(jīng)元個數(shù)的不斷增加,網(wǎng)絡(luò)整體的識別能力是先上升然后下降的,在神經(jīng)元個數(shù)為11個時達(dá)到最大,隨著神經(jīng)元個數(shù)的增加,網(wǎng)絡(luò)的性能緩慢下降,網(wǎng)絡(luò)的識別能力不再隨著神經(jīng)元的增加而提升,網(wǎng)絡(luò)結(jié)構(gòu)為200-100-50-25-11時識別能力較優(yōu)。
實(shí)驗(yàn)2 過采樣方法可以有效提高少數(shù)類樣本的數(shù)量。為了比較各種過采樣方法的優(yōu)劣,本文選用5種常見的過采樣方法:ROS、SMOTE、Borderline-SMOTE、SVM-SMOTE和ADASYN。分別繪制5種過采樣方法的ROC曲線,計(jì)算對應(yīng)的AUC值,然后與不采用任何處理方式的訓(xùn)練結(jié)果進(jìn)行對比,結(jié)果如圖5和表2所示。從圖5結(jié)合表2可以明顯看出,采用原始數(shù)據(jù)訓(xùn)練得到的SVM網(wǎng)絡(luò)性能一般,AUC值只有0.827 07,分類器整體的效果并不好,而通過5種過采樣方法處理后的數(shù)據(jù)集訓(xùn)練得到的SVM網(wǎng)絡(luò)性能均有所提升,AUC值均在0.9以上,分類性能有了明顯改善。其中經(jīng)過Borderline-SMOTE處理后的數(shù)據(jù)集訓(xùn)練得到的分類器的性能更好,原因是當(dāng)處理不平衡數(shù)據(jù)時,由于少數(shù)類的支持向量更少,支持向量機(jī)就會忽略少數(shù)類支持向量導(dǎo)致決策面出現(xiàn)偏移,學(xué)習(xí)時決策面易于偏向少數(shù)類,從而增加了少數(shù)類別的錯誤分類率,而Borderline-SMOTE方法更注重于對少數(shù)類邊界樣本的生成,從一方面增加了少數(shù)類的支持向量數(shù)量,SVM的超平面位置選擇會更加合理。
圖5 ROC曲線對比圖
表2 各類處理方法的AUC值
實(shí)驗(yàn)3 對于雷達(dá)偵察領(lǐng)域來說,尤其是在少數(shù)類錯分代價更大的情況下,往往需要少漏掉少數(shù)類樣本,這時候就需要盡可能地提高查全率以減少少數(shù)類樣本被錯分的概率??梢杂肍2score來作為評價的標(biāo)準(zhǔn)。為了驗(yàn)證過采樣方法的效果,分別計(jì)算Borderline-SMOTE過采樣方法訓(xùn)練得到的分類器和原始數(shù)據(jù)訓(xùn)練得到的分類器在不同信噪比下的F2score,結(jié)果如圖6所示。圖6(a)是通過不平衡數(shù)據(jù)集訓(xùn)練得到的SVM分類器的識別結(jié)果,從圖中可以看出,三類少數(shù)類信號類型的F分?jǐn)?shù)值相較于其他類型信號較低,尤其是Frank和P1兩類信號的識別精度最大也不超過40%,這樣的網(wǎng)絡(luò)在實(shí)際應(yīng)用中效果不好。多數(shù)類信號識別結(jié)果也不是很好。這是由于少數(shù)類數(shù)量較少,少數(shù)類邊界不明顯,分類器在分類過程中將少數(shù)類誤分為多數(shù)類,導(dǎo)致各類信號F分?jǐn)?shù)普遍不高。圖6(b)是利用經(jīng)過Borderline-SMOTE方法處理后的數(shù)據(jù)集訓(xùn)練得到的分類器在各信噪比下的F分?jǐn)?shù),從圖中可以看出,少數(shù)類和多數(shù)類的F分?jǐn)?shù)均有所提高,且各類信號整體趨勢接近,識別能力相差不大,證明了過采樣方法處理的有效性。
(a)基于原始數(shù)據(jù)的識別結(jié)果
另外,圖6中兩種識別結(jié)果均出現(xiàn)了高信噪比情況下F分?jǐn)?shù)比低信噪比F分?jǐn)?shù)低的現(xiàn)象,分析原因在于本文采用的評價標(biāo)準(zhǔn)F2score是由查準(zhǔn)率和查全率共同作用的,查全率所占的比重更大,而查準(zhǔn)率和查全率是一對矛盾的指標(biāo),查準(zhǔn)率高的情況下往往查全率較低,所以會導(dǎo)致出現(xiàn)信噪比高的情況下F分?jǐn)?shù)低于信噪比低的情況,但是從整體上看F分?jǐn)?shù)是上升的。
本文提出了一種利用SAE和SVM結(jié)合過采樣方法對不平衡雷達(dá)信號分類的方法,運(yùn)用在信號調(diào)制方式識別上,并通過實(shí)驗(yàn)進(jìn)行了驗(yàn)證。實(shí)驗(yàn)結(jié)果表明,通過過采樣方法可以有效提高不平衡分類問題中少數(shù)類分類效果,在保證了較高準(zhǔn)確率的同時也提高了少數(shù)類準(zhǔn)確率,改善了傳統(tǒng)方法中少數(shù)類準(zhǔn)確度不高的問題。但是還是存在低信噪比條件下識別準(zhǔn)確率不高的問題,在選取更合適的樣本均衡方法和進(jìn)一步優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)等方面還有進(jìn)一步提升的空間。