張文君,張正位
(1.中國船舶集團有限公司第八研究院,江蘇 揚州 225101;2.蘇州中材建設(shè)有限公司,江蘇 蘇州 215300)
隨著科學(xué)技術(shù)的飛速發(fā)展,現(xiàn)代戰(zhàn)爭已經(jīng)從冷熱兵器時代跨入了信息化時代,戰(zhàn)爭的形態(tài)也就由現(xiàn)實可見的自然空間拓展到了不可被直接感知的電磁網(wǎng)絡(luò)空間。因此,在電磁網(wǎng)絡(luò)空間的戰(zhàn)爭中,電子偵察一直是研究的重點,它一方面是為了獲取更多更全面的信息,另一方面是為了能從獲得的信息中分析出敵方的威脅程度。而這其中涉及到的輻射源的個體識別問題,成為了研究者們的重點研究對象[1-3]。所以,如何從復(fù)雜的數(shù)據(jù)中獲取并識別出準(zhǔn)確的信息是最終目標(biāo),也是目前該領(lǐng)域亟待解決的難題。
輻射源個體識別在電子對抗領(lǐng)域起著非常重要的作用,也是雷達偵察系統(tǒng)的重要組成部分。其數(shù)據(jù)的獲取主要是針對特定頻段的某一段特定信號進行采集,而采集到的數(shù)據(jù)也只是目標(biāo)的一部分,并不能完全反映目標(biāo)的特性,所以采用單一技術(shù)手段對其進行分析是不全面的。
傳統(tǒng)的輻射源個體識別是將采集到的信息與己方已有的輻射源個體進行匹配的技術(shù)。即首先必須有一個特征庫,當(dāng)采集到信息之后,經(jīng)過處理,與已有的特征庫進行比較、匹配,判斷其屬于哪一個輻射源個體,并盡可能判斷其屬于哪一類設(shè)備,分析該設(shè)備所具有的特點、功能、威脅程度等參數(shù)。但隨著雷達技術(shù)的迅猛發(fā)展,電磁空間環(huán)境越來越復(fù)雜,新功能的雷達以及多類型的雷達信號樣式也越來越豐富,各雷達設(shè)備的信號源個體調(diào)制方式也更加靈活,參數(shù)變化多樣,其發(fā)射的信號各有特點,對于某一類同種設(shè)備其本身之間所發(fā)出的信號也有差異,同時這些多樣的信號充斥在周圍空間中,形成了數(shù)量巨大的混合信號,也就增加了信號采集和個體識別的難度。所以,構(gòu)建一種可以從復(fù)雜環(huán)境中準(zhǔn)確識別輻射源個體的模型是現(xiàn)階段非常重要的任務(wù)。本文將從雷達輻射源個體識別的特征參數(shù)提取和雷達輻射源的個體識別分類進行分析討論,并針對目前所擁有的技術(shù)缺點進行補充改進,提高雷達輻射源個體識別效率。
傳統(tǒng)的輻射源識別是提前對不同信號進行收集分類,形成一個完整的標(biāo)準(zhǔn)庫。在實際應(yīng)用中,對于采集的信息先進行預(yù)處理,將其通過時頻變化,提取人為設(shè)定的一些特征與標(biāo)準(zhǔn)庫進行對比匹配,則可以判斷其屬于哪一類型的輻射源,流程如圖1所示。其中一個主要的環(huán)節(jié)是特征提取,與生物學(xué)中的指紋相似,因此也可稱為指紋特征。而一般輻射源特征提取的都是信號物理層特征,又稱為物理層識別[4]。在提取過程中,選擇哪種特征來區(qū)分不同個體是非常重要的,傳統(tǒng)上主要是通過提取暫態(tài)特征和穩(wěn)態(tài)特征進行工作。
圖1 傳統(tǒng)輻射源識別流程
穩(wěn)態(tài)特征一般容易獲取并且穩(wěn)定,實用性較強。它是指系統(tǒng)在穩(wěn)定的工作狀態(tài)下,信號自身所攜帶的特征。通常這類特征提取方法有:基于頻率源的特征提取[5];基于噪聲的特征提取[6];基于調(diào)制參數(shù)的特征提取[7];基于雜散特性的提取[8]等。在這些已成熟的方法中,基于雜散特征提取的方法性能較其他方法的性能更好,更具有普適性。針對雜散識別一般會用到高階統(tǒng)計量、譜相關(guān)和小波變換等方法,但是在具體應(yīng)用中,一般都是盡可能多地提取特征,目的是更好、更精準(zhǔn)地識別出個體類別。總的來說,一般提取的指紋特征可以總結(jié)為以下3類[9]:信號統(tǒng)計參數(shù)、信號變換域、輻射源非線性的特征,其具體特征如圖2所示。
圖2 輻射源特征提取分類
暫態(tài)特征是指系統(tǒng)在工作中非穩(wěn)定狀態(tài)下的非線性特征,因其出現(xiàn)的條件不穩(wěn)定,持續(xù)時間短,因此,對于完整信號的獲取比較困難,外部噪聲干擾、環(huán)境等因素也會導(dǎo)致提取特征出錯,所以在工程領(lǐng)域利用暫態(tài)特征來進行個體識別的要求較高,很多研究者會放棄對該方向的研究。
在上述輻射源特征提取分類中采用的特征提取方法,其大概可以總結(jié)為兩大類:一類是傳統(tǒng)的基于確定特性的統(tǒng)計特性的特征提取方法;一類是基于目前機器學(xué)習(xí)和深度學(xué)習(xí)等技術(shù)為主的自動特征提取方法。
基于統(tǒng)計特性的提取方法主要是人為標(biāo)注所需要的具體特征,然后采用不同算法對其進行處理來獲得。常用的性能較好的算法有基于信號的高階譜、雙譜、小波包分解等變換域方法。比如高階統(tǒng)計量中的雙譜,其能夠在信號處理中消除高斯白噪聲對源信號的影響,同時能夠?qū)椛湓磦€體的細(xì)微特征進行有效表征,但它也會造成數(shù)據(jù)的“維數(shù)災(zāi)難”,因此需要對其進行降維處理。常用的降維方法有:軸向積分雙譜法[10-11](AIB)、主成份分析[11](PCA)、矩形積分雙譜[12](SIB)和選擇雙譜[13]等,每種降維方法都有著各自的優(yōu)缺點,在實際應(yīng)用中,一般會根據(jù)實際需求來選擇最適合的降維方法。
基于統(tǒng)計特性提取特征方法的缺點是部分算法需要提前知道信號的先驗概率,單一特征的使用不能反應(yīng)整個輻射源個體的信息,某些特征在實際應(yīng)用中會受到外界環(huán)境或者其他噪聲的影響,對于相似度非常高的輻射源個體可能會提取不到其異常特征,或某些算法只是針對某一個或者部分特征,不具有普適性,也不適用于如今復(fù)雜環(huán)境中的多輻射源個體識別,也就導(dǎo)致不能準(zhǔn)確地識別出輻射源個體。所以為了解決這些問題,研究者們逐漸采用機器學(xué)習(xí)和深度學(xué)習(xí)技術(shù)來解決輻射源個體識別問題,并取得了一定的成績。
隨著機器學(xué)習(xí)技術(shù)的發(fā)展,很多研究者將其應(yīng)用在輻射源個體識別中[14],可以提高工作效率,并在處理非線性數(shù)據(jù)上有一定的優(yōu)勢。傳統(tǒng)的機器學(xué)習(xí)有決策樹、k近鄰法(KNN)、支持向量機(SVM)等等。如對于線性問題,采用SVM算法可以構(gòu)建1個超平面對數(shù)據(jù)進行劃分,若遇到非線性問題,則可以采用核函數(shù)將數(shù)據(jù)映射到高維空間再進行分類識別。在此基礎(chǔ)上,將傳統(tǒng)的特征提取與機器學(xué)習(xí)相結(jié)合,如通過小波變換提取特征與SVM相結(jié)合來實現(xiàn)輻射源的個體識別[15],其結(jié)果表明在有噪聲的環(huán)境中模型間差異較小的情況下,通過SVM計算類間分離度,選出最優(yōu)的小波組構(gòu)成特征向量,獲得了較優(yōu)的效果。
機器學(xué)習(xí)一般也是配合常用的特征提取技術(shù)使用,未曾真正做到自動特征的提?。欢疃葘W(xué)習(xí)則是完全可以根據(jù)其源數(shù)據(jù)自動提取特征,不需要人為的標(biāo)注特征,正是因為其方便性和處理結(jié)果的高識別率,所以在各領(lǐng)域倍受歡迎,如圖像識別[16]、語音識別[17]和機器翻譯[18]等領(lǐng)域均有重大突破?,F(xiàn)如今也有研究者將深度學(xué)習(xí)應(yīng)用于輻射源個體識別,通過其自動提取輻射源的特征來構(gòu)建相應(yīng)的模型進行個體識別。如文獻[19]采用了深度置信網(wǎng)絡(luò)(DBN)訓(xùn)練個體識別模型,然后對載頻特征、調(diào)制參數(shù)以及互調(diào)干擾特征進行了分類識別,驗證了模型的可行性;如采用卷積神經(jīng)網(wǎng)絡(luò)[20](CNN)自動提取特征,通過反向傳播修正網(wǎng)絡(luò)模型的參數(shù),實現(xiàn)對信號特征的智能化提取。
所以,基于機器學(xué)習(xí)的輻射源個體識別方法又可以總結(jié)為以下幾類[21]:基于傳統(tǒng)機器學(xué)習(xí)的輻射源識別方法,包括決策樹、SVM等;基于神經(jīng)網(wǎng)絡(luò)的輻射源識別方法,主要包括有BP神經(jīng)網(wǎng)絡(luò)、RBF神經(jīng)網(wǎng)絡(luò)和向量神經(jīng)網(wǎng)絡(luò)等;基于集成學(xué)習(xí)的輻射源識別方法,包括基于并行方式的Bagging方法和基于串行方式的Boosting方法;基于深度學(xué)習(xí)的輻射源識別方法,主要有CNN、DBN、稀疏自動編碼(SAE)[22]和長短時記憶(LSTM)等[23]方法。應(yīng)用深度學(xué)習(xí)技術(shù)來進行輻射源個體識別是一種趨勢,可以解放勞動力,并能實現(xiàn)個體細(xì)微特征的提取,容易在個體識別上獲得比傳統(tǒng)方法更優(yōu)的結(jié)果,同時其訓(xùn)練好的識別模型可以適用于其他設(shè)備,具有良好的普適性。
基于傳統(tǒng)的輻射源個體識別技術(shù)主要分為2個步驟:一個是特征提取;一個是針對提取的特征進行識別分類。但是這種方法未能考慮到輻射源數(shù)據(jù)的時序性,其數(shù)據(jù)在產(chǎn)生過程中具有時序性,因此在被采集的過程中也具有時序性。正是考慮到數(shù)據(jù)的時序特性,所以當(dāng)其被分段研究時,數(shù)據(jù)間的時序特性就會被破壞,導(dǎo)致個體識別時缺少了部分特征,丟失了數(shù)據(jù)之間的關(guān)聯(lián)特性,降低了個體識別的準(zhǔn)確率。因此分階段討論的方法已經(jīng)很難準(zhǔn)確解決現(xiàn)階段復(fù)雜環(huán)境中的輻射源個體識別問題,需要找尋一種可以從整體上解決該問題并具有普適性和高準(zhǔn)確率的方法。
在近些年的研究中,深度學(xué)習(xí)技術(shù)逐漸應(yīng)用到該領(lǐng)域,如最基本的深度置信網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)都在該領(lǐng)域有所應(yīng)用,并取得了不錯的成績。這些深度學(xué)習(xí)模型的使用采取了自動提取特征并進行識別分類的方法,同時考慮到數(shù)據(jù)的時序性,決定采用處理時序性問題較好的模型循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)和長短時記憶(LSTM)神經(jīng)網(wǎng)絡(luò)[24-26],在序列預(yù)測和標(biāo)記任務(wù)中已經(jīng)證實了該方法的優(yōu)勢。RNN是一種輸入為序列數(shù)據(jù)的結(jié)構(gòu)模型,并且其所有的節(jié)點單元都是按照鏈?zhǔn)竭B接的一種遞歸神經(jīng)網(wǎng)絡(luò),該模型具有記憶功能,并可以共享參數(shù),能非常高效地對非線性時序特征進行學(xué)習(xí),這可以很好地處理具有時序關(guān)系的問題。但因為RNN是基于BP神經(jīng)網(wǎng)絡(luò)的,所以在每次反饋時都有信息損失,當(dāng)反饋時間過長,損失信息達到一定量時,初始狀態(tài)的信息就會退化,出現(xiàn)梯度消失[27],因此有了LSTM模型,其可以解決RNN出現(xiàn)的梯度消失問題。
LSTM使用了特殊的神經(jīng)元來保存并傳遞長時間的信息,主要是在RNN的基礎(chǔ)上加入了“門單元(gate)”,來控制特征信息的流通或阻隔。比如在t時刻需要判斷1條雷達信息的所屬類型,這時剛好t-n時刻有1個與之對應(yīng)的特性,此時就可以將該t-n時刻的符號特征傳遞過來,做出有效判斷。整個LSTM由一系列的LSTM單元構(gòu)成,有4個神經(jīng)網(wǎng)絡(luò)層,其以一種非常特殊的方式進行交互,鏈?zhǔn)浇Y(jié)構(gòu)如圖3所示。
圖3 LSTM結(jié)構(gòu)圖
圖3中,ft叫做遺忘門,表示1條雷達目標(biāo)信號序列中上一個狀態(tài)Ct-1的哪些特征被用來計算當(dāng)前的狀態(tài)Ct。其中ft是一個向量,向量的每一個元素都位于[0,1]之間:
ft=σ(Wf·[ht-1,xt]+bf)
(1)
it=σ(Wi·[ht-1,xt]+bi)
(2)
(3)
該候選值向量會被加入到當(dāng)前狀態(tài)中,it決定候選值向量的更新,ft確定需要保留或丟棄的信息,得到最終信息:
(4)
最后,輸出門決定了最終輸出的是哪些信息:
Ot=σ(W0·[ht-1,xt]+b0)
(5)
將通過的數(shù)據(jù)輸入到tanh層中進行處理,輸出一個[-1,1]的數(shù)值,并將其與輸出門進行點乘,得到隱節(jié)點的輸出ht:
ht=Ot·tanh(Ct)
(6)
當(dāng)訓(xùn)練好LSTM時,發(fā)現(xiàn)門的值絕大多數(shù)都非常接近于0和1,其中?是LSTM重要的門機制,表示ft和Ct-1之間的單位乘的關(guān)系。通常會采用sigmoid函數(shù)作為激活函數(shù),它的輸出是一個介于[0,1]之間的值,但是也可以采用其他的激活函數(shù)如relu,softmax等,不同的激活函數(shù)輸出范圍不同。
信號處理和特征提取可分為時域、頻域、聯(lián)合時頻域等其他脈內(nèi)信息。因此,從以上這些維度或其他維度中盡可能獲取信號本身的特征,可以更深地挖掘到信號之間的內(nèi)在信息,使得輻射源的個體識別更加精準(zhǔn)。
由于輻射源數(shù)據(jù)的采集過程和數(shù)據(jù)本身之間都是具有時序關(guān)系的,所以在對部分?jǐn)?shù)據(jù)進行分析時需要考慮其數(shù)據(jù)前后的關(guān)聯(lián)關(guān)系。因此,采集數(shù)據(jù)必須要盡量完整,其次對采集完的數(shù)據(jù)進行預(yù)處理,包括清洗、補充、歸一化等等,基于LSTM的輻射源個體識別的算法流程如圖4所示。
圖4 基于LSTM的輻射源個體識別算法流圖
該網(wǎng)絡(luò)模型由輸入層、隱藏層和輸出層三部分組成。首先是將采集到并預(yù)處理好的雷達目標(biāo)數(shù)據(jù)進行特征提取構(gòu)建行為鏈,用N元組(X,T,A,W,F(xiàn),…,C,O)來描述和分析不同屬性特征之間的關(guān)系,元組中的每個屬性元素就是1個行為,所有的行為構(gòu)成1條行為鏈。其中X表示某一條特定的信號,T表示脈沖到達的時間集合,A表示目標(biāo)信號到達角度的集合,W表示脈沖寬度的集合,F(xiàn)表示目標(biāo)載頻信息的集合,C設(shè)定為該目標(biāo)信號可能產(chǎn)生的結(jié)果集合,O是與該信號相關(guān)的屬性的集合,等??梢垣@得但不限于如下的特征:脈沖到達時間(TOA)、脈沖幅度(PA)、脈沖寬度(PW)、載頻(RF)、到達角(DOA)、脈沖重復(fù)周期(PRI)、天線掃描周期(ASP)、最大強度值數(shù)量(NI)、3 dB峰值數(shù)量(NP)、角度對應(yīng)最大幅度(AMM)、中值濾波瞬時頻率分布的標(biāo)準(zhǔn)偏差(WMF)、最大譜變化(MSV)等。將構(gòu)建好的每一條行為鏈按時間順序輸入到LSTM網(wǎng)絡(luò)中的輸入層,然后到隱藏層經(jīng)過多個單元LSTM結(jié)構(gòu)對其進行特征提取,提取到的信息不斷向后流動,經(jīng)過多個隱藏層的特征提取最后到達輸出層,輸出層根據(jù)內(nèi)部關(guān)聯(lián)將其分類得到最后的識別個體。在整個訓(xùn)練過程中,不斷通過學(xué)習(xí)更新每個單元的參數(shù),使其在下一個階段得到的數(shù)據(jù)更為準(zhǔn)確,最后當(dāng)?shù)竭_輸出層時可以得到最好的分類結(jié)果。
這種LSTM深度學(xué)習(xí)結(jié)構(gòu)模型具有很強的學(xué)習(xí)泛化能力和預(yù)測能力,所以在實際應(yīng)用中檢測輻射源個體時,可以根據(jù)部分?jǐn)?shù)據(jù)推斷出所屬類型,即使遇到未在訓(xùn)練過程中出現(xiàn)的數(shù)據(jù),也能根據(jù)訓(xùn)練好的模型給出較為合理的結(jié)果,所以也具有良好的普適性。
實驗數(shù)據(jù)集采用仿真數(shù)據(jù),總共8組,仿真總時間為1 s,其具體參數(shù)如表1所示,包含頻率、脈沖重復(fù)間隔、幅度、脈寬、方位和俯仰等特征的具體參數(shù)值以及每一類別數(shù)據(jù)仿真得到的數(shù)據(jù)量,仿真得到共31 331條數(shù)據(jù),其中每組數(shù)據(jù)的數(shù)量分布如圖5所示。同時選取了前350條數(shù)據(jù)對7個類型參數(shù)分別可視化,如圖6所示。
表1 仿真參數(shù)設(shè)置
圖5 8組數(shù)據(jù)的數(shù)量分布圖
將31 331條數(shù)據(jù)按照6∶4的比例進行劃分,將其中18 798條數(shù)據(jù)作為訓(xùn)練集進行模型訓(xùn)練,12 533條數(shù)據(jù)作為測試集來測試模型的準(zhǔn)確度。
圖6 仿真參數(shù)可視化
圖7 損失函數(shù)變化趨勢圖
仿真采用了3層神經(jīng)網(wǎng)絡(luò)模型,第1層為輸入層,輸入維度為7,第2層為隱藏層,包含100個神經(jīng)單元,輸出層為包含8個分類的全連接層,由于是8批目標(biāo),所以采用了softmax作為激活函數(shù),損失函數(shù)采用了分類交叉熵categorical_crossentropy,訓(xùn)練次數(shù)設(shè)置為15次。
模型在訓(xùn)練過程中,從損失函數(shù)的變化趨勢來看,如圖7所示。隨著訓(xùn)練次數(shù)的增加,模型在訓(xùn)練集中的損失越來越小,而在測試集中,損失從一開始較大逐漸減小后又逐漸增大并趨于平穩(wěn),這說明了模型的過擬合。同樣在準(zhǔn)確率的變化圖中可以看出,如圖8所示,隨著模型訓(xùn)練次數(shù)的增加,訓(xùn)練集中的準(zhǔn)確率隨之增大,并逐漸趨于平穩(wěn),而測試集的準(zhǔn)確率隨著訓(xùn)練周期的增加,從最開始的較小逐漸變大后又變小并趨于平穩(wěn),也反映了模型過擬合。
圖8 準(zhǔn)確率變化趨勢圖
由于訓(xùn)練數(shù)據(jù)的不平衡,某些類別數(shù)據(jù)量多,如第1類數(shù)據(jù)有10 000條,而有的數(shù)據(jù)量太少,如第7類和第8類數(shù)據(jù)只有不到2 000,這種數(shù)據(jù)量之間的差別會造成模型準(zhǔn)確率的不同,同時訓(xùn)練數(shù)據(jù)只有1萬多條,數(shù)據(jù)量太少會造成模型的過擬合現(xiàn)象。但也從該實驗中驗證了該方法的可行性,后續(xù)可以增加數(shù)據(jù)量和平衡各類別的數(shù)據(jù)來進一步驗證。
本文討論了輻射源個體識別技術(shù)的發(fā)展情況,從傳統(tǒng)的輻射源個體識別方法到現(xiàn)階段復(fù)雜環(huán)境中對復(fù)雜輻射源個體識別的方法,了解了從傳統(tǒng)的特征提取和分類器設(shè)計兩步驟到機器學(xué)習(xí)、深度學(xué)習(xí)技術(shù)應(yīng)用中的一體化個體識別,最后討論了對具有時序特性的輻射源數(shù)據(jù)采用LSTM模型來處理的可行性,介紹了數(shù)據(jù)輸入到輸出的算法流程,并通過仿真驗證了該方法的可行性。接下來會繼續(xù)討論時序模型的應(yīng)用,同時考慮采用多個深度學(xué)習(xí)模型組合的方式(如CNN+LSTM)進行分析實驗,通過CNN的卷積進行特征提取,并將這些特征輸入到LSTM序列模型中,挖掘其之間的關(guān)聯(lián)關(guān)系,可以得到較高的準(zhǔn)確率;或通過采用CNN+BLSTM+CTC的架構(gòu)進行建模,CNN用來提取特征,BLSTM進行不定長數(shù)據(jù)的處理,然后用CTC進行去重定向,該類模型在處理序列問題上有很好的效果。