雷迎科
(1.電子工程學院,合肥,230037;2.通信信息控制和安全技術重點實驗室,嘉興,314033)
現(xiàn)有的通信輻射源個體細微特征提取方法大體上可劃分為暫態(tài)信號特征提取方法和穩(wěn)態(tài)信號特征提取方法[1]。暫態(tài)信號特征提取方法主要是指通信輻射源在非穩(wěn)定工作條件下根據(jù)輻射源個體開關機等暫態(tài)提取信號細微特征的方法[1, 2]。穩(wěn)態(tài)信號特征提取方法主要是指通信輻射源在穩(wěn)定工作條件下根據(jù)輻射源個體噪聲特性、雜散特征以及頻率源不穩(wěn)定性等在信號相關頻率上的影響提取通信輻射源個體細微特征的方法[3-9]。無論是暫態(tài)信號特征提取方法還是穩(wěn)態(tài)信號特征提取方法,其研究的前提都是假定能夠獲得大量已知類別的通信輻射源發(fā)射信號觀測樣本,然而在實際復雜的電磁環(huán)境條件下,尤其是戰(zhàn)時,對于每個通信輻射源而言,人們很難獲取充裕的已知類別的輻射源觀測樣本數(shù)據(jù),即在實際復雜電磁環(huán)境下,常常面臨標簽樣本缺失條件下通信輻射源細微特征提取問題。顯然,如果直接采用上述提出的基于充分樣本的細微特征方法,其性能必將受到嚴重影響。在傳統(tǒng)的有監(jiān)督的維數(shù)約簡(如線性判別分析(Linear discriminant analysis,LDA)[10]和最大邊緣判決(Maximum margin criterion, MMC)[11])方法中,學習模型通常需要對大量有標簽樣本進行訓練,才能實現(xiàn)細微特征的提取。當有標簽樣本的數(shù)量較少時,所獲得的特征提取模型往往很難有好的泛化性能。因此,在使用這些維數(shù)約簡方法之前,需要借助合成虛樣本、訓練樣本局部化等技巧對樣本進行預處理。但是通信輻射源個體觀測樣本信號都是非線性、非平穩(wěn)和非高斯信號,這些人為的預處理過程很難客觀地反應通信輻射源觀測樣本的真實變化,只有通過實際采集獲取的觀測樣本才能最忠實地反應通信輻射源數(shù)據(jù)的本質分布結構。隨著數(shù)字信號處理技術的逐步提高,獲取無標簽的通信輻射源觀測樣本變得越來越容易,如何利用大量的未標簽數(shù)據(jù)來改善標簽樣本缺失條件下通信輻射源細微特征提取方法的性能,已經成為實際復雜電磁環(huán)境下通信輻射源細微特征提取研究中最受關注的問題之一。
本文擬將半監(jiān)督學習理論引入到通信輻射源細微特征提取,旨在研究有標簽樣本較少條件下試圖利用大量無標簽樣本來改善通信輻射源個體的分類識別性能。本文提出一種半監(jiān)督框架下的局部近鄰保持正則化判別分析方法(Locally neighborhood preserving regularized semi-supervised discriminant analysis,LNPRSDA),從而為實際復雜電磁環(huán)境下通信輻射源個體細微特征提取提供一條新的解決途徑。
已知屬于c類的l個樣本x1,x2,…,xl∈Rn,定義樣本類內散度矩陣Sw和類間散度矩陣Sb,有
(1)
(2)
(3)
(4)
目標函數(shù)式(4)可以轉化為如下的廣義特征值分解
Sbai=λSwaii=1,2,…,d
(5)
不失一般性,假定μ=0,則有
令輸入數(shù)據(jù)矩陣X=[X(1),…,X(c)],矩陣Ll×l定義為
(6)
有
(7)
因此,LDA的目標函數(shù)式(4)可以重新描述為
(8)
通過上述分析,不難發(fā)現(xiàn)LDA僅僅依賴于有標簽的樣本集尋找最優(yōu)的投影方向。實際上經常獲取的是大量無標簽的樣本。為了有效利用大量的無標簽樣本,通過向LDA模型中有效融入由無標簽樣本所提供的流形結構信息,從而將LDA方法擴展到半監(jiān)督學習。
LDA旨在尋找投影矩陣A使得tr(ATSbA)和tr(ATStA)的比值達到最大。當缺乏充裕的、有標簽的訓練樣本時,LDA經常會產生過擬合現(xiàn)象。阻止這一現(xiàn)象發(fā)生的典型方法是對LDA的目標函數(shù)進行正則化。LDA的正則化版本為
(9)
式中參數(shù)α是控制模型復雜度與經驗損失的調節(jié)參數(shù),最常用的正則化項J(A)是Tikhonov正則化,即
J(A)=‖A‖2
‖2
(10)
重構權值矩陣W描述了流形局部的幾何結構。受譜聚類和各種基于圖的半監(jiān)督學習方法[12,13]的啟發(fā),可以將正則化項定義為在原始數(shù)據(jù)觀測空間和低維嵌入空間保持每個樣本點的近鄰重構系數(shù)不變,從而在通信輻射源細微特征提取過程中保持整個數(shù)據(jù)的流形結構,即極小化如下的損失函數(shù)
‖2
(11)
令X=[x1,…,xm],有
(12)
(13)
最大化目標函數(shù)式(13)可以轉化為如下的廣義特征值分解
Sbai=λ(St+αXMXT)aii=1,2,…,d
(14)
基于局部近鄰保持正則化半監(jiān)督判別分析的通信輻射源個體細微特征提取方法主要分為兩步:第一步通過雙譜分析獲取通信輻射源個體發(fā)射信號細微特征參數(shù)的完備集合,通過雙譜變換將通信輻射源的時域信號投影到高維觀測空間。第二步通過局部近鄰保持正則化半監(jiān)督判別分析挖掘通信輻射源個體高維觀測數(shù)據(jù)的本質細微特征。
1.3.1 雙譜變換
假設x(t)為輻射源個體穩(wěn)定工作狀態(tài)下接收的輻射源發(fā)射信號,其k階譜定義為
(15)
式中ckx為x(t)的k階累積量。其中雙譜(三階譜)是常用的高階譜,定義如下
(16)
雙譜的優(yōu)勢在于:(1)保持通信輻射源個體信號的相位和幅度信息;(2)對加性高斯噪聲魯棒性。本文主要利用雙譜變換將通信輻射源的時域信號投影到高維觀測空間,使得每個通信輻射源時域樣本可以表示成高維觀測空間中的一個點。
令x(1),x(2),…,x(N)為輸入通信輻射源觀測數(shù)據(jù),fs為采樣速率,Δs=fs/N為雙譜分析區(qū)域水平和垂直方向上的頻率分辨率。雙譜估計算法[7]基本步驟如下。
(1)將所給輸入數(shù)據(jù)分成K段,每段包含M個觀測點,即N=KM,并且對每段數(shù)據(jù)去均值化。
(2)計算DFT系數(shù)
;i=1,2,…,K
(17)
式中{x(i)(n),n=1,2,…,M-1}是第i段數(shù)據(jù)。
(3)計算離散傅里葉變換系數(shù)的三階相關值:
(18)
式中:0≤λ2≤λ1+λ2≤fs/2
(4)輸入數(shù)據(jù)的雙譜估計為K段雙譜變換的均值
(19)
式中:w1= (2πfs/Ns)λ1;w2= (2πfs/Ns)λ2。
1.3.2 算法步驟
根據(jù)上面的分析,基于局部近鄰保持正則化半監(jiān)督判別分析的通信輻射源個體細微特征提取算法流程如圖1所示,其主要步驟如下。
圖1 基于LNPRSDA的通信輻射源個體細微特征提取算法Fig.1 Fine feature extraction for identifying communication transmitter based on LNPRSDA
(1)對每個采集的通信輻射源時域信號樣本,根據(jù)式(19)估計信號的雙譜。
(2)構造所有樣本的連接圖。根據(jù)式(10)構建所有樣本的重構權值矩陣W,并計算矩陣M=(I-W)T(I-W)。
(3)構造帶有標簽樣本的連接圖。設計如下權值矩陣L∈Rm×m有
其中Ll×l∈Rl×l如式(6)所示。定義
其中I是大小為l×l的單位陣。
(4)特征分解。計算如下形式的廣義特征值所對應的特征向量
(20)
式中X=[x1,…,xl,xl+1,…,xm];i=1,2,…,d。
(5)令A=[a1,a2,…,ad]表示n×d維的變換矩陣,則樣本集X在d維子空間的投影Y=ATX。
(21)
本實驗所采用的電臺時域信號樣本取自于同種型號、同種廠家、相同批次和相同工作模式的10部不同F(xiàn)M電臺的實際采樣零中頻IQ正交數(shù)據(jù),采集參數(shù)如表1所示。每部電臺采樣9個樣本信號,共有90個原始樣本信號,如表2所示。為了驗證本文所提出方法的性能,將雙譜+局部近鄰保持正則化半監(jiān)督判別分析(BiSpectrum + LNPRSDA)與雙譜(BiSpectrum)、雙譜+主分量分析(BiSpectrum + PCA)方法進行實驗比較,其中第二種方法涉及到PCA處理,為了保持100%信號能量,選擇所有非零特征值所對應的主分量。在LNPRSDA算法中,α和β均設置為0.1。為了考察特征提取方法的性能,在實驗中分類器僅選用簡單的1近鄰分類器。
實驗過程包括3步:首先計算所有樣本的雙譜估計;其次利用3種不同的方法計算基于訓練樣本的特征子空間;最后采用1近鄰分類器對測試樣本進行分類識別。
表1 信號采集參數(shù)
表290個原始時域樣本信號分布情況說明
Tab.2Briefintroductionof90originaltimedomainsignalsamples
序號說話人頻率/MHz電臺樣本1說話人1160電臺1號樣本2說話人1160電臺1號樣本3說話人1160電臺1號樣本4說話人2160電臺1號樣本5說話人2160電臺1號樣本6說話人2160電臺1號樣本7說話人3160電臺1號樣本8說話人3160電臺1號樣本9說話人3160電臺1號????樣本82說話人1160電臺10號樣本83說話人1160電臺10號樣本84說話人1160電臺10號樣本85說話人2160電臺10號樣本86說話人2160電臺10號樣本87說話人2160電臺10號樣本88說話人3160電臺10號樣本89說話人3160電臺10號樣本90說話人3160電臺10號
從電臺5號、電臺6號和電臺7號樣本中分別隨機選擇7個樣本構成訓練樣本集,其余樣本作為測試樣本集。對于每個電臺的7個訓練樣本,分別考慮兩種情況:第一種情況是只有1個樣本有標簽,其余6個樣本無標簽;第二種情況是4個樣本有標簽,其余3個樣本無標簽。實際上針對第一種情況,不難發(fā)現(xiàn)樣本的類間散度矩陣與總體散度矩陣相同,因此原始的LDA算法將失效。
分別采用BiSpectrum,BiSpectrum + PCA,BiSpectrum + LNPRSDA方法對訓練樣本集進行細微特征提取,在此基礎上通過1-近鄰分類器對測試樣本集進行分類識別。計算20次獨立實驗的平均識別率。BiSpectrum,BiSpectrum + PCA和BiSpectrum + LNPRSDA三種方法在電臺5~7號樣本數(shù)據(jù)上的平均識別率與特征空間維數(shù)變化曲線如圖2所示,從圖中可以看出,特征空間維數(shù)的變化將影響這3種方法的平均識別率;對于BiSpectrum + PCA和BiSpectrum + LNPRSDA方法,特征空間維數(shù)上界分別為3(類別數(shù))和20(訓練樣本數(shù)目減1),并且它們能夠很快獲得最大平均識別率。
表3和表4分別顯示了每個電臺有1個標簽樣本和4個標簽樣本時20次重復實驗的最大平均識別率。從表2和表3可以看出,在這3種方法中,BiSpectrum + LNPRSDA明顯優(yōu)于其他兩種方法。
圖2 3種方法在電臺5~7號樣本數(shù)據(jù)上的平均識別率Fig.2 Average recognition rates of three methods on the samples from 5—7 radios
圖3 3種方法在電臺3~7號樣本數(shù)據(jù)上的平均識別率Fig.3 Average recognition rates of three methods on the smaples from 3—7 radios
從電臺3號至電臺7號樣本中,每個電臺隨機選擇7個樣本作為訓練集,其余樣本作為測試集。對于每個電臺的7個訓練樣本,同樣考慮兩種情況:第一種情況是只有1個樣本有標簽,其余6個樣本無標簽;第二種情況是有4個樣本有標簽,其余3個樣本無標簽。其他實驗設置如2.1節(jié)。圖3顯示了BiSpectrum,BiSpectrum + PCA和BiSpectrum + LNPRSDA三種方法在電臺3~7號樣本數(shù)據(jù)上的平均識別率與特征空間維數(shù)變化關系,從圖中不難看出,這3種方法的平均識別率均隨著特征空間維數(shù)的變化而變化;對于BiSpectrum + PCA和BiSpectrum + LNPRSDA方法,隨著特征空間維數(shù)的增加,平均識別率達到最大值之后呈下降趨勢,這表明并不是特征空間維數(shù)越高,平均識別率越大。
表33種方法在電臺5~7號樣本數(shù)據(jù)上進行20次實驗的平均識別率(每個電臺有1個樣本有標簽)
Tab.3Averagerecognitionrateswith20experimentsforthreemethodsonthesamplesfrom5—7radios(Onelabeledsampleforeveryradio)
方法無標簽訓練樣本識別率/%測試樣本識別率/%BiSpectrum53.3356.67BiSpectrum+PCA53.6156.67BiSpectrum+LNPRSDA57.5058.33
表43種方法在電臺5~7號樣本數(shù)據(jù)上進行20次實驗的平均識別率(每個電臺有4個樣本有標簽)
Tab.4Averagerecognitionrateswith20experimentsforthreemethodsonthesamplesfrom5—7radios(Fourlabeledsamplesforeveryradio)
方 法無標簽訓練樣本識別率/%測試樣本識別率/%BiSpectrum72.2273.33BiSpectrum+PCA70.5670.00BiSpectrum+LNPRSDA75.5678.33
表5和表6分別顯示了每個電臺有1個標簽樣本和4個標簽樣本時20次重復實驗的最大平均識別率。在所有情況下BiSpectrum + LNPRSDA均獲得了最佳的分類識別性能。
表53種方法在電臺3~7號樣本數(shù)據(jù)上進行20次實驗的平均識別率(每個電臺有1個樣本有標簽)
Tab.5Averagerecognitionrateswith20experimentsforthreemethodsonthesamplesfrom3—7radios(Onelabeledsampleforeveryradio)
方 法無標簽訓練樣本識別率/%測試樣本識別率/%BiSpectrum50.1757.00BiSpectrum+PCA52.6755.00BiSpectrum+LNPRSDA54.8360.50
表63種方法在電臺3—7號樣本數(shù)據(jù)上進行20次實驗的平均識別率(每個電臺有4個樣本有標簽)
Tab.6Averagerecognitionrateswith20experimentsforthreemethodsonthesamplesfrom3—7radios(Fourlabeledsamplesforeveryradio)
方法無標簽訓練樣本識別率/%測試樣本識別率/%BiSpectrum69.3369.00BiSpectrum+PCA77.3375.00BiSpectrum+LNPRSDA80.0077.50
本小節(jié)實驗樣本包括電臺1號~電臺10號觀測樣本,實驗設置如2.1節(jié)。3種方法在10個電臺樣本數(shù)據(jù)上的平均識別率與特征空間維數(shù)變化曲線如圖4所示。從圖中可以看出,隨著特征空間維數(shù)的增加,首先這3種方法的平均識別率呈上升趨勢,當它們達到最大平均識別率后,隨著特征空間維數(shù)的進一步增加,平均識別率開始下降。表7和表8分別顯示了每個電臺有1個標簽樣本和4個標簽樣本時20次重復實驗的最大平均識別率。從表中可以看出在這3種方法中,BiSpectrum + LNPRSDA獲得了最佳的分類識別性能。
圖4 3種方法在電臺1~10號樣本數(shù)據(jù)上的平均識別率Fig.4 Average recognition rates of three methods on the samples from 1—10 radios
表7 3種方法在電臺1~10號樣本數(shù)據(jù)上進行20次實驗的平均識別率(每個電臺有1個樣本有標簽)
Tab.7Averagerecognitionrateswith20experimentsforthreemethodsonthesmaplesfrom1—10radios(Onelabeledsampleforeveryradio)
方法無標簽訓練樣本識別率/%測試樣本識別率/%BiSpectrum40.5039.75BiSpectrum+PCA44.4245.75BiSpectrum+LNPRSDA47.5047.50
表83種方法在電臺1~10號樣本數(shù)據(jù)上進行20次實驗的平均識別率(每個電臺有4個樣本有標簽)
Tab.8Averagerecognitionrateswith20experimentsforthreemethodsonthesmaplesfrom1—10radios(Fourlabeledsamplesforeveryradio)
方法無標簽訓練樣本識別率/%測試樣本識別率/%BiSpectrum61.6755.50BiSpectrum+PCA72.1767.75BiSpectrum+LNPRSDA78.1775.25
本文3個、5個與10個電臺細微特征提取的實驗結果表明:BiSpectrum + LNPRSDA算法在絕大多數(shù)實驗條件下實現(xiàn)了顯著的最優(yōu)分類識別性能。這主要源于LNPRSDA方法有效融入了通信輻射源觀測數(shù)據(jù)的流形結構信息。在實驗中,選擇了每個電臺樣本只有1個類別標簽的極端不利情況和每個電臺有4個類別標簽的一般情況,通過引入半監(jiān)督機制,有效利用大量無標簽樣本保持原始觀測空間和低維嵌入空間每個樣本點的近鄰重構系數(shù)不變,同時根據(jù)有標簽樣本尋找最優(yōu)的分類投影方向,從而確保提取通信輻射源的本質細微特征。在實驗中所處理的通信電臺數(shù)據(jù)是從實際無線傳播信道中采集的,它具有明顯的非平穩(wěn)性和非線性特點,應用基于局部近鄰保持正則化半監(jiān)督判別分析的特征提取方法能夠有效地探測到這些本征特征。從這個意義來講,LNPRSDA方法明顯優(yōu)于其他傳統(tǒng)的線性特征提取方法。
針對實際復雜電磁環(huán)境下通信輻射源個體細微特征提取面臨的標簽樣本缺失問題,本文提出一種基于局部近鄰保持正則化半監(jiān)督判別分析的通信輻射源個體細微特征提取方法。在基于雙譜分析獲取通信輻射源個體發(fā)射信號細微特征參數(shù)完備集合的基礎上,本文方法通過向線性判別模型中有效融入由無標簽樣本所提供的流形結構信息,從而將線性判別方法擴展到局部近鄰保持正則化半監(jiān)督判別分析,實現(xiàn)對通信輻射源個體高維觀測數(shù)據(jù)的本質細微特征提取。在實際采集的同種型號、同種廠家、相同批次和相同工作模式的不同F(xiàn)M通信電臺數(shù)據(jù)集上的實驗結果驗證了LNPRSDA方法的有效性。
[1] Toonstra J, Kinsner W. Transient analysis and genetic algorithms for classification[C]// WESCANEX 95 Communications, Power, and Computing.[S.l.]:IEEE, 1995, 2: 432-437.
[2] Luigi C D, Jauffre C. Estimation and classification of FM signals using time frequency transforms [J]. IEEE Transactions on Aerospace and Electronic Systems, 2005, 41(2): 421-437.
[3] Turkboylari M, Stuber G L. An efficient algorithm for estimating the signal-to-interference ratio in TDMA cellular systems [J]. IEEE Transactions on Communications, 1998, 46(6): 728-731.
[4] 陳志偉,徐志軍,王金明,等.一種基于循環(huán)譜切片的通信輻射源識別方法[J].數(shù)據(jù)采集與處理,2013,28(3):284-288.
Chen Zhiwei, Xu Zhijun, Wang Jinming, et al. Emitter identification method based on cyclic spectrum density slice [J]. Journal of Data Acquisition and Processing, 2013, 28(3): 284-288.
[5] 徐玉龍,王金明,徐志軍,等.基于小波嫡的輻射源指紋特征提取方法[J].數(shù)據(jù)采集與處理,2014,29(4):631-635.
Xu Yulong, Wang Jinming, Xu Zhijun, et al. Fingerprint feature extraction method for emitters based on wavelet entropy [J]. Journal of Data Acquisition and Processing, 2014, 29(4): 631-635.
[6] 江立偉,袁紅林,嚴燕,等.一種低信噪比下的高精度射頻指紋變換方法[J].數(shù)據(jù)采集與處理,2015,30(5):1036-1042.
Jiang Liwei, Yuan Honglin, Yan Yan, et al. High-accuracy radio frequency fingerprint transform method in low SNR envirorrment [J]. Journal of Data Acquisition and Processing, 2015, 30(5): 1036-1042.
[7] Zhang X D, Shi Y, Bao Z. A new feature vector using selected bispectra for signal classification with application in radar target recognition [J]. IEEE Transactions on Signal Processing, 2001, 49(9): 1875-1885.
[8] Delprat N. Asymptotic wavelet and Gabor analysis: Extraction of instantaneous frequencies [J]. IEEE Transactions on Information Theory, 1992, 38(3): 644-664.
[9] Liedtke F F. Computer simulation of an automatic classification procedure modulation communication signals with unknown parameters [J]. Signal Processing, 1984, 6: 311-323.
[10] Fisher R. The use of multiple measurements in taxonomic problems [J]. Annals of Eugenics, 1936, 7(2): 179-188.
[11] Li H, Jiang T, Zhang K. Efficient and robust feature extraction by maximum margin criterion [J]. IEEE Trans Neural Networks, 2006, 17(1): 157-165.
[12] Roweis S T, Saul L K. Nonlinear dimensionality reduction by locally linear embedding [J]. Science, 2000, 290: 2323-2326.
[13] Saul L K, Roweis S T. Think globally, fit locally: Unsupervised learning of low dimensional manifold [J]. J Machine Learning Research, 2003, 4: 119-155.