沈佳琪,羅宇軒,楊 帆
(中國船舶集團(tuán)有限公司第八研究院,江蘇 揚(yáng)州 225101)
在現(xiàn)代電子戰(zhàn)中,信號樣式不斷增多,電磁環(huán)境日益復(fù)雜,使輻射源識別越來越困難。首先,時、空、頻雷達(dá)信號交錯,設(shè)備種類繁多,信號調(diào)制樣式快捷多變,信號密度大,甄別困難;其次,目標(biāo)識別要求實(shí)時性與準(zhǔn)確性,要求快速精準(zhǔn)打擊;還有最重要的一點(diǎn)是,缺少高質(zhì)量的輻射源數(shù)據(jù),也就是說缺少帶有專家標(biāo)簽的數(shù)據(jù)。針對上述問題,本文采用了一種替代策略,通過使用基于少量標(biāo)簽樣本訓(xùn)練的監(jiān)督網(wǎng)絡(luò)對輻射源信號進(jìn)行稀疏表示,將其降維至一個平滑的較小空間中進(jìn)行信號樣本聚類。把樣本識別問題轉(zhuǎn)換為集群識別問題,降低了工作量,可用于海量數(shù)據(jù)的識別。在該特征空間中,相似或相同類型的樣本之間距離較小,不同類型信號樣本之間距離較大,信號樣本形成彼此易于區(qū)分的可分離集群。
通過卷積神經(jīng)網(wǎng)絡(luò)來降維原始采樣信號以獲得其稀疏表示,卷積運(yùn)算的平移不變性十分適合處理時序信號,局部感知能力也有助于網(wǎng)絡(luò)學(xué)習(xí)信號細(xì)微特征。
本文針對輻射源信號識別問題,設(shè)置了9種輻射源信號,如表1~表3所示。
表1 線性調(diào)頻信號參數(shù)表
表2 二頻編碼信號參數(shù)表
表3 二相編碼信號參數(shù)表
以上9類信號在信噪比為10 dB情況下每類生成1 000個信號樣本,作為訓(xùn)練集與驗(yàn)證集。再在不同信噪比下,每類生成30個信號樣本共270個樣本,用于測試集。
采用的卷積神經(jīng)網(wǎng)絡(luò)(CNN)結(jié)構(gòu)如圖1所示。
圖1 CNN結(jié)構(gòu)
采用了4個卷積塊,如圖中標(biāo)“*”的部分,卷積核均為3×3,個數(shù)依次為8、16、32、64遞增,padding設(shè)置為same。池化采用最大池化,范圍為2×2。最后連接一個256個神經(jīng)元的全連接層,采用Dropout層緩解過擬合,最后通過softmax進(jìn)行分類。使用一部分經(jīng)過專業(yè)標(biāo)記的數(shù)據(jù),通過監(jiān)督訓(xùn)練使學(xué)習(xí)過的標(biāo)簽類別具備很好的分類效果,并且會泛化,提供在特征空間中分隔沒有標(biāo)簽的其他類別的能力。
網(wǎng)絡(luò)中采用線性整流函數(shù)(ReLU)作為激活函數(shù)。激活函數(shù)為:
(1)
ReLU是一種常用的激活函數(shù),其函數(shù)圖像如圖2所示。
圖2 ReLU函數(shù)圖像
在神經(jīng)網(wǎng)絡(luò)中,對于進(jìn)入神經(jīng)元的來自上一層神經(jīng)網(wǎng)絡(luò)的輸入向量,使用線性整流激活函數(shù)的神經(jīng)元輸出為max(0,+)。
標(biāo)準(zhǔn)的sigmoid函數(shù)不具備稀疏性,需要用一些懲罰因子來訓(xùn)練出一大堆接近0的冗余數(shù)據(jù),從而產(chǎn)生稀疏數(shù)據(jù),而ReLU的作用是如果計算出的值小于0,則輸出0,否則保持原來的值不變。
除了使用ReLU作為線性整流函數(shù),以及最大值池化(Max-Pooling)做采樣外,還使用了Dropout技術(shù)提高模型的泛化性,緩解過擬合現(xiàn)象。過擬合具體表現(xiàn)在:模型在訓(xùn)練數(shù)據(jù)上損失函數(shù)較小,預(yù)測準(zhǔn)確率較高;但是在測試數(shù)據(jù)上損失函數(shù)比較大,預(yù)測準(zhǔn)確率較低。為了解決過擬合問題,一般會采用模型集成的方法,即訓(xùn)練多個模型進(jìn)行組合。此時,訓(xùn)練模型費(fèi)時就成為一個很大的問題,不僅訓(xùn)練多個模型費(fèi)時,測試多個模型也很費(fèi)時。
綜上所述,訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)的時候,總是會遇到兩大難點(diǎn),即容易過擬合與費(fèi)時。Dropout可以比較有效地緩解過擬合的發(fā)生,在一定程度上達(dá)到正則化的效果。圖3為Dropout的可視化表示。
圖3 Dropout前后神經(jīng)元
圖3(a)是應(yīng)用Dropout之前的網(wǎng)絡(luò),圖3(b)是應(yīng)用了Dropout的同一個網(wǎng)絡(luò)。Dropout的思想是訓(xùn)練整體深度神經(jīng)網(wǎng)絡(luò),并平均整個集合的結(jié)果,而不是訓(xùn)練單個深度神經(jīng)網(wǎng)絡(luò)。網(wǎng)絡(luò)以概率舍棄部分神經(jīng)元,其它神經(jīng)元以概率=1-保留,舍去的神經(jīng)元的輸出都設(shè)置為零。
在標(biāo)準(zhǔn)神經(jīng)網(wǎng)絡(luò)中,各個參數(shù)的導(dǎo)數(shù)引導(dǎo)參數(shù)改變,使損失函數(shù)減少,因此神經(jīng)元可以通過這種方式修正其它單元的錯誤。Dropout在實(shí)踐中能很好工作的原因是其在訓(xùn)練階段阻止了神經(jīng)元的共適應(yīng)。
沒有Dropout的網(wǎng)絡(luò)計算公式如下:
(2)
(3)
式中:()為激活函數(shù)。
采用Dropout的網(wǎng)絡(luò)計算公式如下:
(4)
(5)
(6)
(7)
由于在訓(xùn)練階段神經(jīng)元以概率保持,在測試階段必須仿真出訓(xùn)練階段使用的網(wǎng)絡(luò)集的行為。因此,測試階段需要通過系數(shù)來縮放激活函數(shù):
(8)
對上述網(wǎng)絡(luò)以CNN訓(xùn)練,采用分類交叉熵函數(shù)作為損失函數(shù),優(yōu)化器選用Adam。訓(xùn)練200代,訓(xùn)練過程中損失與準(zhǔn)確率變化如圖4所示。
圖4 CNN訓(xùn)練損失及精度變化
為了便于觀察,對其進(jìn)行平滑處理,如圖5所示。
圖5 平滑后CNN訓(xùn)練損失及精度變化
可以觀察到:在125代以后,網(wǎng)絡(luò)在驗(yàn)證集上的精度與損失已經(jīng)幾乎不變。使用回調(diào)函數(shù),以最小化驗(yàn)證集損失為原則保存模型,最終測試精度為0.995 2,損失為0.006 8。
為了可視化這些稀疏表示對信號類型的可分離性,采用t-分布鄰域嵌入算法t-SNE(t-distributed stochastic neighbor embedding)對50維稀疏表示進(jìn)一步降維,對樣本分部二維可視化展示。圖6為t-SNE原理框圖。
圖6 t-SNE原理框圖
SNE通過仿射變換將數(shù)據(jù)點(diǎn)映射到概率分布上,主要包括:
(1) 構(gòu)建一個高位對象之間的概率分布,使得相似的對象有更高的概率被選擇,不相似的對象被選擇的概率較低。
(2) 在低維空間里構(gòu)建這些點(diǎn)的概率分布,使這2個概率分布盡可能相似。
低維空間下使用更重長尾分布的t分布代替高斯分布,避免擁擠問題和優(yōu)化問題,受異常值影響更小,擬合效果更為合理,較好地捕捉了數(shù)據(jù)的整體特征。
對10 dB信噪比測試集中270個樣本使用訓(xùn)練好的CNN提取其稀疏表示,并使用t-SNE進(jìn)行二維可視化,結(jié)果如圖7所示。
圖7 二維可視化的樣本分布
可見所有樣本在特征空間中均形成了可分離的聚類簇。
為了驗(yàn)證該方法對未參與訓(xùn)練信號類型的泛化性,稀疏表示的信號特征可以使用引導(dǎo)方法以半監(jiān)督的方式幫助區(qū)分新的未知信號類型。重復(fù)之前的實(shí)驗(yàn),使用9類信號中的6類訓(xùn)練監(jiān)督分類器,LFM3、2FSK3和2PSK3 3類信號不參與訓(xùn)練,生成網(wǎng)絡(luò)后對所有9類信號進(jìn)行稀疏表示提取特征圖,并使用t-SNE可視化,結(jié)果如圖8所示。
圖8 泛化性測試樣本空間
由檢查結(jié)果不難發(fā)現(xiàn),無論是已訓(xùn)練過的信號類型還是未參與訓(xùn)練的信號類型,都在嵌入空間中形成了明確可分離的聚類簇,說明稀疏表示確實(shí)有泛化能力,可用于識別和聚類。
當(dāng)樣本在嵌入空間中形成相對分離的群集,就可以使用任意群集算法將他們分組并分配一個類標(biāo)簽。對每組抽取一定數(shù)量的樣本進(jìn)行精確識別,結(jié)果視作群集的類標(biāo)簽,或在需識別數(shù)據(jù)中混入一些已識別樣本,根據(jù)群集中已標(biāo)識樣本,決定群集標(biāo)簽。
采用DBSCAN(Density-Based Spatial Clustering of Applications with Noise)聚類算法,將群集分為若干組未知但不同的信號類型。直觀效果上看,使用該算法可以找到樣本點(diǎn)全部密集區(qū)域,對遠(yuǎn)離密度核心的噪聲點(diǎn)魯棒,無需知道聚類簇數(shù)量且可以發(fā)現(xiàn)任意形狀的聚類簇。圖9為DBSCAN中點(diǎn)的類型與關(guān)系。
圖9 DBSCAN中點(diǎn)的類型與關(guān)系
DBSCAN算法將點(diǎn)分為3個類別,領(lǐng)域半徑內(nèi)樣本點(diǎn)數(shù)大于minpoints(最小樣本點(diǎn))的點(diǎn)叫核心點(diǎn);不屬于核心點(diǎn)但在某個核心點(diǎn)鄰域內(nèi)的點(diǎn)叫邊界點(diǎn);既不是核心點(diǎn)也不是邊界點(diǎn)的是噪聲點(diǎn)。算法步驟分為2步:
(1) 尋找核心點(diǎn)形成臨時聚類簇,掃描全部樣本點(diǎn),將核心點(diǎn)納入核心點(diǎn)列表,并形成對應(yīng)的臨時聚類簇。
(2) 合并臨時聚類簇,檢查每一個臨時聚類簇中的點(diǎn)是否為核心點(diǎn)。如果是,則將該點(diǎn)對應(yīng)的臨時聚類簇與當(dāng)前臨時聚類簇合并,得到新的臨時聚類簇。重復(fù)操作直至當(dāng)前臨時聚類簇中每一個點(diǎn)或不在核心列表,或密度直達(dá)點(diǎn)已在該臨時聚類簇,則該臨時聚類簇升級為聚類簇。
對嵌入空間中信號樣本進(jìn)行聚類處理,結(jié)果如圖10所示。
圖10 聚類前后樣本空間
實(shí)驗(yàn)采用之前訓(xùn)練的9類一維CNN網(wǎng)絡(luò),處理測試集為-5 dB信噪比條件下9類信號各30個共270組樣本。圖10(a)為各樣本稀疏表示的二維嵌入,圖10(b)為對嵌入空間樣本進(jìn)行DBSCAN聚類結(jié)果??梢园l(fā)現(xiàn),空間中樣本被聚類為9種未知類型,雖然由于信噪比降低稀疏表示質(zhì)量變差,導(dǎo)致少數(shù)樣本被錯誤聚類,但結(jié)果足以說明基于稀疏表示的聚類算法適用于輻射源信號識別。
實(shí)際使用中一般采用高信噪比樣本進(jìn)行訓(xùn)練,目的是網(wǎng)絡(luò)盡量學(xué)習(xí)到信號的特征而非噪聲的特征,進(jìn)行預(yù)測的時候希望網(wǎng)絡(luò)能適用于低信噪比的信號。因此,設(shè)計一組高信噪比訓(xùn)練、低信噪比測試的實(shí)驗(yàn)來探究方法性能極限。
圖11~圖18為1組仿真結(jié)果,左圖均為t-SNE后嵌入空間樣本分布;右圖均為DBSCAN聚類結(jié)果,采用超參數(shù)均為鄰域范圍=1,最小樣本點(diǎn)數(shù)=10。
圖11 10 dB信噪比實(shí)驗(yàn)
圖12 5 dB信噪比實(shí)驗(yàn)
圖13 0 dB信噪比實(shí)驗(yàn)
圖14 -4 dB信噪比實(shí)驗(yàn)
圖15 -5 dB信噪比實(shí)驗(yàn)
圖16 -6 dB信噪比實(shí)驗(yàn)
圖17 -8 dB信噪比實(shí)驗(yàn)
圖18 -10 dB信噪比實(shí)驗(yàn)
根據(jù)以上仿真結(jié)果發(fā)現(xiàn),該方法在-4 dB信噪比以上的情況下能夠無錯分類,效果良好。而訓(xùn)練的一維CNN網(wǎng)絡(luò),在0 dB信噪比時已出現(xiàn)錯誤分類情況。-4 dB信噪比時該方法出現(xiàn)了噪聲點(diǎn)(type-1)。-5 dB信噪比時出現(xiàn)了錯誤聚類以及多對類型,但仍有很好的分類效果。-6~-8 dB信噪比之間,噪聲點(diǎn)增多,對比左圖嵌入空間中各類別信號仍有聚集性,此時如果適當(dāng)放大DBSCAN算法超參數(shù),應(yīng)該會有更好的聚類效果。-6~-8 dB信噪比之間噪聲點(diǎn)急劇增多,嵌入空間中樣本已經(jīng)混雜,無法有效聚類識別。
該方法是一種劃分信號集后識別處理,規(guī)定識別正確如下:聚類算法后某一位置類型樣本80%屬于同一類型信號,則認(rèn)為聚類成功,該類信號樣本數(shù)集為正確分類個數(shù)。由于t-SNE算法具有隨機(jī)性,其本身是一個非凸優(yōu)化問題,所以會有局部最優(yōu)解。因此采用每種信噪比各進(jìn)行100次Monte Carlo實(shí)驗(yàn),以每次結(jié)果的平均正確率作為該方法在此信噪比情況下的分類準(zhǔn)確率。曲線如圖19所示。
圖19 DBSCAN與一維CNN識別準(zhǔn)確度對比
在-6~0 dB信噪比情況下,本文方法比一維CNN直接識別準(zhǔn)確率更高,在此情況下信號稀疏表示比分類器更加可靠。而當(dāng)信噪比繼續(xù)降低,本方法分類準(zhǔn)確率急速下降,說明此方法對信噪比更為敏感。
本文主要證明了在原始采樣的輻射源信號上通過卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)得到的稀疏表示可有效地聚類不同類型的輻射源信號,通過少量標(biāo)記數(shù)據(jù)進(jìn)行訓(xùn)練,即可應(yīng)用于大規(guī)模數(shù)據(jù)的識別。雖然相比分類器識別,本方法對信噪比的變化更為敏感,但考慮到應(yīng)用本方法可將針對信號樣本的識別問題轉(zhuǎn)換為針對信號集群的識別,所以具有實(shí)用價值。