張力鋒,殷雪鳳
(1.陸裝駐西安地區(qū)第七軍事代表室,陜西 西安 710065;2.西安電子科技大學(xué),陜西 西安 710071)
隨著雷達(dá)技術(shù)的快速發(fā)展,電子對(duì)抗所面臨的環(huán)境日益復(fù)雜,雷達(dá)輻射源分布范圍廣、密度大,而且信號(hào)調(diào)制形式復(fù)雜,調(diào)制參數(shù)轉(zhuǎn)換越來(lái)越快捷,信號(hào)在時(shí)空領(lǐng)域內(nèi)交錯(cuò)。在如此復(fù)雜的電磁環(huán)境下,電子偵察設(shè)備截獲到的輻射源信號(hào)數(shù)目不斷增加,質(zhì)量差異也越來(lái)越大,噪聲數(shù)據(jù)與有效數(shù)據(jù)混合在一起,導(dǎo)致獲取戰(zhàn)場(chǎng)態(tài)勢(shì)信息的難度加大;另一方面,當(dāng)今雷達(dá)對(duì)抗正朝著信息化和智能化的方向發(fā)展,在輻射源信號(hào)識(shí)別、干擾識(shí)別、情報(bào)分析和電磁態(tài)勢(shì)感知等領(lǐng)域,有不少研究學(xué)者將人工智能、數(shù)據(jù)挖掘等領(lǐng)域的方法引入,用于解決電子對(duì)抗的相關(guān)研究難題,并取得了不錯(cuò)的效果。但這些高性能的數(shù)據(jù)驅(qū)動(dòng)算法對(duì)數(shù)據(jù)質(zhì)量的要求也更高。因此,在進(jìn)行輻射源信號(hào)分析識(shí)別之前,對(duì)原始雷達(dá)輻射源信號(hào)進(jìn)行數(shù)據(jù)清洗,提高數(shù)據(jù)質(zhì)量具有重要意義。
數(shù)據(jù)清洗是一種盡可能多地調(diào)整或去除有質(zhì)量問(wèn)題的原始數(shù)據(jù)而保留正確信息,使其具有更好的穩(wěn)定性和代表性的數(shù)據(jù)處理方法。目前提出的數(shù)據(jù)清洗方法大多用于分析結(jié)構(gòu)化的數(shù)據(jù),即可以使用二維表結(jié)構(gòu)表示和存儲(chǔ)的數(shù)據(jù)。根據(jù)采用的清洗算法不同可分為基于完整性約束的數(shù)據(jù)清洗算法、基于規(guī)則的數(shù)據(jù)清洗算法、基于統(tǒng)計(jì)的數(shù)據(jù)清洗算法和人機(jī)結(jié)合的數(shù)據(jù)清洗算法等,廣泛應(yīng)用于醫(yī)療、能源、零售、汽車、金融等領(lǐng)域。對(duì)于非結(jié)構(gòu)化數(shù)據(jù),也有部分研究成果,主要用于解決時(shí)間序列相關(guān)問(wèn)題,包括單點(diǎn)大錯(cuò)誤、單點(diǎn)小錯(cuò)誤、連續(xù)錯(cuò)誤、平移錯(cuò)誤等。主要的清洗方法包括基于平滑的清洗算法、基于約束的清洗算法和基于統(tǒng)計(jì)的清洗算法,用于解決土遺址監(jiān)測(cè)、風(fēng)機(jī)裝備、物流車軌跡等領(lǐng)域的時(shí)間序列清洗問(wèn)題。
針對(duì)雷達(dá)輻射源數(shù)據(jù),現(xiàn)有的數(shù)據(jù)清洗方法并不適用,因此,本文提出了一種針對(duì)雷達(dá)輻射源信號(hào)的非結(jié)構(gòu)化數(shù)據(jù)清洗方法。該方法首先求取原始信號(hào)包絡(luò)與兩個(gè)脈沖序列的相像系數(shù),然后將求得的兩個(gè)相像系數(shù)組合成特征向量,最后利用基于密度的含噪數(shù)據(jù)空間聚類算法(Density-Based Spatial Clustering of Applications with Noise,DBSCAN)對(duì)數(shù)據(jù)進(jìn)行聚類劃分,實(shí)現(xiàn)清洗。在仿真和實(shí)測(cè)數(shù)據(jù)上的實(shí)驗(yàn)證明,本文提出的數(shù)據(jù)清洗方法能有效檢測(cè)并剔除低質(zhì)量數(shù)據(jù),提高數(shù)據(jù)質(zhì)量。
在電子偵察系統(tǒng)中,因電磁環(huán)境復(fù)雜、接收機(jī)性能不佳等原因,導(dǎo)致截獲的原始雷達(dá)輻射源信號(hào)樣本間質(zhì)量差異較大,不同信號(hào)樣本信噪比各異,有的樣本僅含半個(gè)脈沖,有的甚至未截獲到輻射源脈內(nèi)信號(hào)。經(jīng)分析,本文將原始輻射源數(shù)據(jù)集中的樣本分為脈沖信號(hào)樣本和噪聲信號(hào)樣本,如圖1所示。其中,脈沖信號(hào)分為殘缺脈沖信號(hào)和完整脈沖信號(hào),分別如圖1a)和圖1b)所示。噪聲信號(hào)如圖1c)所示,其產(chǎn)生原因主要包括兩個(gè)方面:信噪比過(guò)高導(dǎo)致接收的脈內(nèi)信號(hào)被噪聲淹沒(méi);接收機(jī)截獲到脈間信號(hào)。
圖1 不同質(zhì)量輻射源信號(hào)的時(shí)域圖
由于噪聲信號(hào)不包含雷達(dá)輻射源脈內(nèi)信息或是脈內(nèi)信息被噪聲完全淹沒(méi),對(duì)其進(jìn)行進(jìn)一步的信號(hào)處理不能獲取有用的信息,浪費(fèi)計(jì)算資源,還可能影響后續(xù)分析結(jié)果。在傳統(tǒng)的電子偵察系統(tǒng)中,對(duì)于這類噪聲樣本往往是通過(guò)人為干預(yù),將其手動(dòng)剔除。但隨著電子對(duì)抗逐漸步入大數(shù)據(jù)時(shí)代,截獲數(shù)據(jù)越來(lái)越多,人工處理工作量不斷增大。因此,本文提出一種針對(duì)雷達(dá)輻射源信號(hào)的數(shù)據(jù)清洗算法,實(shí)現(xiàn)對(duì)噪聲數(shù)據(jù)的自動(dòng)檢測(cè)和剔除。
本文提出的雷達(dá)輻射源數(shù)據(jù)清洗方法總體流程如圖2所示。該數(shù)據(jù)清洗模型包含數(shù)據(jù)預(yù)處理、特征提取、聚類劃分三部分,原始輻射源信號(hào)經(jīng)過(guò)包絡(luò)提取和歸一化預(yù)處理之后,分別求取包絡(luò)信號(hào)的矩形和三角形相像系數(shù),并將二者拼接成特征向量,最后利用DBSCAN算法對(duì)數(shù)據(jù)進(jìn)行聚類劃分,從而達(dá)到檢測(cè)和剔除噪聲數(shù)據(jù)的目的。
圖2 數(shù)據(jù)清洗流程圖
為減小雷達(dá)信號(hào)脈內(nèi)特性對(duì)于清洗結(jié)果的影響,在特征提取前,利用歸一化香農(nóng)能量算法對(duì)原始的雷達(dá)信號(hào)進(jìn)行包絡(luò)提取。設(shè)一截獲的雷達(dá)輻射源信號(hào)序列表示為x(i),則其包絡(luò)P(i)的計(jì)算公式如下:
式中:=1,2,…,,為信號(hào)采樣點(diǎn)數(shù);max(·)表示求序列的最大值;()為歸一化信號(hào);()為信號(hào)的歸一化香農(nóng)能量;()為平滑后的香農(nóng)能量;表示窗內(nèi)的采樣點(diǎn)數(shù);mean(·)表示求序列的均值;(·)表示序列的標(biāo)準(zhǔn)差。
為便于提取相像系數(shù)特征,必須保證包絡(luò)序列非負(fù),因此,對(duì)包絡(luò)()進(jìn)行了min-max歸一化處理,將包絡(luò)幅值約束在0~1之間。min-max歸一化定義如下:
式中:和分別為序列(),=1,2,…,的最大值和最小值。
圖1中不同質(zhì)量信號(hào)對(duì)應(yīng)的包絡(luò)信號(hào)時(shí)域圖如圖3所示,可見(jiàn)預(yù)處理方法能有效提取信號(hào)包絡(luò)。
圖3 信號(hào)包絡(luò)時(shí)域圖
設(shè)有兩個(gè)一維的離散正值序列{()}和{()},其中,為序列點(diǎn)數(shù),()≥0且()≥0(=1,2,,),兩序列的相像系數(shù)定義為:
由于()和()為非負(fù)實(shí)數(shù)序列,故由Cauchy Schwartz不等式可得:
因此,相像系數(shù)的取值范圍在0~1之間。
式(8)取等號(hào)的條件是序列()和()相等,所以可推導(dǎo)得到序列()和()相等或?qū)?yīng)成比例時(shí)相像系數(shù)的取值為1;當(dāng)序列()和()相互正交時(shí),=0。由于相像系數(shù)這樣的特性能表征兩離散序列趨勢(shì)差異程度,兩序列的走勢(shì)和輪廓相差越小,相像系數(shù)越大。
經(jīng)過(guò)預(yù)處理之后得到的包絡(luò)信號(hào)能較好地反映噪聲樣本和脈沖樣本之間的差異,但維度過(guò)高,包含大量的冗余信息,聚類劃分時(shí)會(huì)增大計(jì)算量,因此本文對(duì)其進(jìn)行特征提取降低數(shù)據(jù)維度。觀察圖3可知,不同類型的輻射源樣本之間不完全相似,噪聲信號(hào)的包絡(luò)能量在整個(gè)采樣時(shí)間內(nèi)隨機(jī)變化,分布均勻,而脈沖信號(hào)在有脈沖處和無(wú)脈沖處能量差異較大,可認(rèn)為能量更多地集中在輻射源脈內(nèi)。因此,構(gòu)造一矩形脈沖序列和一三角形脈沖序列作為參照樣本,分別求取輻射源樣本包絡(luò)與兩個(gè)脈沖序列的相像系數(shù)和,并將其組合為樣本特征向量,記為[,]。通過(guò)此方法一方面將數(shù)據(jù)維數(shù)降為2維,大大減少了運(yùn)算量;另一方面,也能充分反映脈沖信號(hào)和噪聲信號(hào)之間的差異,保證了后續(xù)聚類參數(shù)間具有最大的分離度。
雷達(dá)輻射源的脈沖信號(hào)和噪聲信號(hào)間存在一定的相異程度,在空間中表現(xiàn)為不同的簇群。為剔除雷達(dá)輻射源數(shù)據(jù)集中的噪聲信號(hào)樣本,使用基于密度聚類的DBSCAN算法識(shí)別數(shù)據(jù)集中的噪聲數(shù)據(jù)。該算法的聚類結(jié)構(gòu)由樣本分布的緊密程度確定,能對(duì)任意形狀分布的簇進(jìn)行聚類,具有良好的抗噪聲性能。
DBSCAN算法由一組“鄰域”參數(shù)(,MinPts)來(lái)刻畫(huà)樣本分布的緊密程度。對(duì)于給定含個(gè)樣本的數(shù)據(jù)集={,,,x},算法中定義了如下概念:
1)-鄰域:對(duì)于樣本x∈,其-鄰域定義為樣本集中與x的距離不大于的樣本,即N(x)={∈|dist(x,x)≤};
2)核心對(duì)象:對(duì)于樣本x,若其-鄰域內(nèi)至少包含MinPts個(gè)樣本,即|N|(x)≥MinPts,則x為一個(gè)核心對(duì)象;
3)密度直達(dá):若x在x的-鄰域中,且x為核心對(duì)象,則稱x由x密度直達(dá);
4)密度可達(dá):對(duì)于x和x,若存在樣本序列,,,p,其中,=x,p=x且p由p密度直達(dá),則稱x由x密度可達(dá);
5)密度相連:兩個(gè)樣本x和x,若存在x使得x和x均由x密度可達(dá),則稱x和x密度相連。
如圖4所示,當(dāng)MinPts為3時(shí),虛線展示出-鄰域,為核心對(duì)象,由密度直達(dá),由密度可達(dá),與密度相連。
圖4 DBSCAN算法概念直觀理解圖
算法中的距離采用歐氏距離進(jìn)行度量,設(shè)待清洗的雷達(dá)輻射源信號(hào)數(shù)據(jù)集為,可由相對(duì)應(yīng)的相像系數(shù)特征矩陣表示。計(jì)算每?jī)蓚€(gè)樣本x和x間的歐氏距離,即:
式中:W 和W 分別為樣本x和x的特征向量;w和w分別為W 和W 第維的特征值。
DBSCAN的核心思想為:以歐氏距離為標(biāo)準(zhǔn),根據(jù)預(yù)設(shè)的鄰域參數(shù)(,MinPts)找出樣本中所有的核心點(diǎn),并將所有核心點(diǎn)的密度可達(dá)點(diǎn)形成的集合作為一個(gè)聚類簇,完成對(duì)噪聲樣本和脈沖樣本的劃分。聚類具體步驟如下:
1)提取待清洗樣本的相像系數(shù)特征,建立特征數(shù)據(jù)庫(kù)。
2)設(shè)置鄰域參數(shù)(,MinPts)。
3)從特征數(shù)據(jù)庫(kù)中選取一個(gè)未處理的樣本,并判斷該樣本是否為核心點(diǎn),若該樣本點(diǎn)為核心點(diǎn),則轉(zhuǎn)到步驟4);若該樣本點(diǎn)為非核心點(diǎn),則轉(zhuǎn)至步驟5);若數(shù)據(jù)庫(kù)中不存在未處理樣本,則轉(zhuǎn)到步驟6)。
4)找到當(dāng)前核心點(diǎn)所有密度可達(dá)的樣本點(diǎn),形成一個(gè)簇,并將其從數(shù)據(jù)庫(kù)中刪除,轉(zhuǎn)到步驟3)。
5)標(biāo)記當(dāng)前樣本點(diǎn)為邊界點(diǎn),轉(zhuǎn)到步驟3)。
6)聚類完成后,提取噪聲信號(hào)的聚類簇,并將其從原始數(shù)據(jù)集中刪除,得到數(shù)據(jù)清洗后的數(shù)據(jù)集。
為驗(yàn)證方法的有效性,本文在兩個(gè)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)測(cè)試算法性能,分別為仿真數(shù)據(jù)集和實(shí)測(cè)數(shù)據(jù)集。
仿真數(shù)據(jù)集:利用Matlab隨機(jī)生成不同類型的截獲信號(hào)樣本,脈內(nèi)調(diào)制方式包括常規(guī)脈沖信號(hào)、線性調(diào)頻信號(hào)、非線性調(diào)頻信號(hào)、二相編碼信號(hào)以及二頻編碼信號(hào)5種類型,樣本數(shù)目共10 000個(gè),每個(gè)樣本的采樣點(diǎn)數(shù)為10 000,信噪比在20 dB、15 dB、10 dB、5 dB、0 dB、-5 dB、-10 dB中通過(guò)程序隨機(jī)選擇。在進(jìn)行實(shí)驗(yàn)之前,所有樣本都經(jīng)過(guò)人工清洗打上了噪聲信號(hào)樣本或脈沖信號(hào)樣本的標(biāo)簽,其中,噪聲信號(hào)樣本有5 405個(gè),脈沖信號(hào)樣本有4 595個(gè)。
實(shí)測(cè)數(shù)據(jù):某接收機(jī)截獲的數(shù)據(jù)由5 000個(gè)樣本組成,包含完整脈沖信號(hào)、殘缺脈沖信號(hào)和噪聲信號(hào)樣本,每個(gè)樣本采樣點(diǎn)數(shù)為40 000個(gè)。同樣對(duì)其進(jìn)行脈沖信號(hào)和噪聲信號(hào)標(biāo)簽的人工標(biāo)注,其中,噪聲信號(hào)樣本有3 796個(gè),脈沖信號(hào)樣本有1 204個(gè)。
為評(píng)價(jià)本文數(shù)據(jù)清洗方法的性能,以準(zhǔn)確率作為評(píng)價(jià)指標(biāo),定義如下:
式中:準(zhǔn)確分類的數(shù)據(jù)數(shù)目是指以人工清洗標(biāo)注的標(biāo)簽為基準(zhǔn),采用本文的數(shù)據(jù)清洗方法聚類之后得到的樣本對(duì)應(yīng)標(biāo)簽與基準(zhǔn)標(biāo)簽比較正確的個(gè)數(shù)。
對(duì)仿真數(shù)據(jù)集中的樣本進(jìn)行預(yù)處理和特征提取后,樣本數(shù)據(jù)可用二維相像系數(shù)特征向量表示,因此利用特征向量對(duì)樣本進(jìn)行可視化。如圖5所示,分別為人工清洗和采用本文數(shù)據(jù)清洗方法得到的可視化結(jié)果。
圖5 仿真數(shù)據(jù)集樣本可視化結(jié)果
圖5a)為人工清洗的噪聲及脈沖樣本分布情況,噪聲樣本和脈沖樣本在特征空間的分布有明顯的差別,噪聲樣本主要分布在圖中的右上角區(qū)域,即噪聲樣本對(duì)應(yīng)的兩個(gè)特征值都較大。可見(jiàn)相像系數(shù)特征能有效反映噪聲樣本和脈沖樣本間的差異。圖5b)為利用本文提出的方法得到的數(shù)據(jù)清洗結(jié)果,對(duì)比圖5a)可以看出,大部分的噪聲數(shù)據(jù)能正確被標(biāo)記為噪聲樣本,有部分特征不太突出的樣本被錯(cuò)誤標(biāo)記為脈沖樣本。
進(jìn)一步統(tǒng)計(jì)了采用本文方法聚類后的樣本分類情況,如表1所示,本文提出的數(shù)據(jù)清洗方法準(zhǔn)確率達(dá)到了95.67%,可見(jiàn)在仿真數(shù)據(jù)集上,有較好的清洗效果,基本達(dá)到了人工清洗的水平。
表1 仿真數(shù)據(jù)樣本分類情況統(tǒng)計(jì)表
為了探究本文提出的數(shù)據(jù)清洗方法在實(shí)測(cè)數(shù)據(jù)上的效果,進(jìn)一步在實(shí)測(cè)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。圖6展示了人工方法和本文方法的清洗結(jié)果。
圖6 實(shí)測(cè)數(shù)據(jù)集樣本可視化結(jié)果
由圖6a)可知,在實(shí)測(cè)數(shù)據(jù)上,采用相像系數(shù)作為特征時(shí),樣本間具有比仿真數(shù)據(jù)更好的分離度。結(jié)合圖6a)和圖6b)分析可知,人工清洗和采用本文方法自動(dòng)清洗的差別不大。更進(jìn)一步,以人工標(biāo)注標(biāo)簽為基準(zhǔn),統(tǒng)計(jì)了本文提出的數(shù)據(jù)清洗方法對(duì)樣本分類的情況如表2所示。由表2可知,在實(shí)測(cè)數(shù)據(jù)上本文提出的方法準(zhǔn)確率能達(dá)到99.8%,基本達(dá)到了人工清洗的水平,能有效清洗去除噪聲樣本,提高數(shù)據(jù)質(zhì)量。
表2 實(shí)測(cè)數(shù)據(jù)樣本分類情況統(tǒng)計(jì)表
本文提出一種針對(duì)雷達(dá)輻射源信號(hào)的數(shù)據(jù)清洗方法,達(dá)到了將噪聲信號(hào)樣本從原始輻射源信號(hào)數(shù)據(jù)集中剔除的目的。首先對(duì)截獲的雷達(dá)輻射源信號(hào)進(jìn)行預(yù)處理,提取信號(hào)包絡(luò),然后計(jì)算包絡(luò)信號(hào)的相像系數(shù),最后以相像系數(shù)作為特征,利用DBSCAN聚類算法檢測(cè)噪聲信號(hào),并將其剔除。實(shí)驗(yàn)結(jié)果表明,該方法能有效剔除噪聲信號(hào),對(duì)仿真數(shù)據(jù)和實(shí)測(cè)數(shù)據(jù)都能達(dá)到很好的數(shù)據(jù)清洗效果,基本達(dá)到了人工清洗的水平,有效地提高了數(shù)據(jù)質(zhì)量和清洗效率。
但本文的方法也存在不足之處,DBSCAN聚類劃分部分需要人為預(yù)先設(shè)置鄰域參數(shù),參數(shù)的設(shè)置是否合理直接影響清洗效果。下一步的研究將重點(diǎn)考慮自動(dòng)設(shè)定參數(shù)的DBSCAN聚類方法,進(jìn)一步提高數(shù)據(jù)清洗的智能性。