劉 振,陳阿磊,李世飛,袁俊泉,黃 亮
(空軍預(yù)警學(xué)院,湖北 武漢 430019)
輻射源個體識別(SEI)[1-3]技術(shù)是針對同一型號、批次及工作方式的不同輻射源,綜合分析并提取能有效區(qū)分輻射源個體的特征,通過高性能的分類算法來識別具體的輻射源個體的一種方法。在復(fù)雜戰(zhàn)場信號環(huán)境中,可以通過截獲各輻射源信號的細(xì)微特征來區(qū)分信號源個體,進(jìn)一步鎖定并監(jiān)視輻射源,同時對判定通信網(wǎng)絡(luò)的組成也能提供有力支撐,具有重要的軍事應(yīng)用前景。在民用方面,為了有效管理頻譜環(huán)境,相關(guān)管理部門需要定位識別那些非法的電磁輻射源個體,如何從眾多輻射源中識別出非法輻射源個體則十分關(guān)鍵。
當(dāng)前,輻射源個體識別技術(shù)的研究大多都是在提取特征后,采用傳統(tǒng)機器學(xué)習(xí)進(jìn)行分類識別的[1-2]。在現(xiàn)實中,輻射源個體特征受時間、空間、應(yīng)用條件等因素的影響,不同時間段某一輻射源設(shè)備具體組網(wǎng)方式、使用情況都不相同,不同時間段獲取的數(shù)據(jù)往往并不完全服從相同分布。在這種情況下,傳統(tǒng)機器學(xué)習(xí)難以取得可靠的分類識別效果。遷移學(xué)習(xí)[4-6]不需要傳統(tǒng)機器學(xué)習(xí)的這種假設(shè),能夠從與目標(biāo)域不同但相似的源域數(shù)據(jù)中挖掘有用知識并遷移到目標(biāo)域?qū)W習(xí)中,因而得到了廣泛的關(guān)注和研究。立足于輻射源個體識別應(yīng)用特點,本文對基于遷移學(xué)習(xí)的SEI技術(shù)開展研究,提出了基于遷移學(xué)習(xí)的輻射源個體識別分類方法。
如圖1所示,圓形和方形表示2種類別,黑色點表示已標(biāo)記的訓(xùn)練數(shù)據(jù),空心點表示未標(biāo)記的測試數(shù)據(jù)。在圖1(a)中,由于訓(xùn)練數(shù)據(jù)與測試數(shù)據(jù)的分布結(jié)構(gòu)不同,直接使用訓(xùn)練數(shù)據(jù)學(xué)習(xí)的分類模型對測試數(shù)據(jù)進(jìn)行分類識別,往往具有較高的錯誤率。基于聚類分析和重采樣的遷移學(xué)習(xí)方法不僅不需要直接估計域分布,且能夠修正不同類型的域間差異[7]。圖1(b)~(d)給出了遷移學(xué)習(xí)過程:圖1(b)首先通過對整個數(shù)據(jù)集進(jìn)行聚類分析,尋找數(shù)據(jù)結(jié)構(gòu)信息;然后,圖1(c)按照一定的策略對每個聚類子類進(jìn)行數(shù)據(jù)篩選,選取與測試數(shù)據(jù)集分布盡可能相似的數(shù)據(jù)用于分類模型的學(xué)習(xí);圖1(d)使用重采樣的訓(xùn)練數(shù)據(jù)所得到的模型分類識別效果有了較好的改善。
圖1 聚類分析與重采樣的遷移學(xué)習(xí)基本思路
如圖1(b)所示,通過在總數(shù)據(jù)集X上進(jìn)行聚類分析來探求數(shù)據(jù)的固有結(jié)構(gòu)信息,理論上可以采用任何具有良好性能的聚類算法,如同樣使用該遷移學(xué)習(xí)框架的BRSD(Bias Reduction via Structure Discovery)算法[7]就采用了基于DBSCAN(Density Based Spatial Clustering of Application with Noise)的聚類分析。
DBSCAN算法不用預(yù)先設(shè)定聚類子類個數(shù),能夠挖掘不規(guī)則子類數(shù)據(jù)結(jié)構(gòu),具有更好的聚類性能。其主要思想是:從某一個核心點開始,然后最大化它的密度可達(dá)區(qū)域,從而形成一個內(nèi)部只有核心點和邊界點且2點之間密度可達(dá)的新子類。如何在整個數(shù)據(jù)集中發(fā)現(xiàn)核心點對DBSCAN聚類的效果十分關(guān)鍵,通常定義近鄰個數(shù)大于閾值的數(shù)據(jù)xi為核心點,即滿足式(1)的數(shù)據(jù)點:
(1)
式中:近鄰基數(shù)C(xi)用于衡量xi近鄰集合的大小;門限值T可以通過所有數(shù)據(jù)點的近鄰基數(shù)平均值進(jìn)行估計;M(xi,xj)表示xj對xi的近鄰歸屬度:
(2)
式中:d(xi,xj)表示數(shù)據(jù)xi與xj之間的距離;r為近鄰半徑,可利用有標(biāo)記數(shù)據(jù)進(jìn)行近似估計[7]。
如果xj在xi的鄰域內(nèi),則M(xi,xj)=1;否則為0,故而M(xi,xj)又稱為離散近鄰歸屬度,如圖2所示。
圖2 離散近鄰歸屬度
如圖2所示,由于沒有考慮鄰域內(nèi)數(shù)據(jù)的距離差別,鄰域內(nèi)所有數(shù)據(jù)的作用都是相同的,故而無法區(qū)分它們的差異性。在圖3中,大的實線圓表示鄰域邊界,xi1和xi2的近鄰個數(shù)相同但近鄰分布不同。由式(1)和式(2)可知,xi1和xi2的近鄰基數(shù)是相同的,但可以明顯看出它們的數(shù)據(jù)結(jié)構(gòu)不同。利用離散近鄰歸屬度表征近鄰關(guān)系會造成數(shù)據(jù)近鄰結(jié)構(gòu)信息的丟失,而這種信息可能會對學(xué)習(xí)具有重要的作用。在圖3(a)中,盡管xj和xk都非??拷徲蜻吔?它們的離散歸屬度卻完全不同。若鄰域半徑變?yōu)閞1,則xi1的近鄰基數(shù)就會從10變成20;而若鄰域半徑變?yōu)閞2,近鄰基數(shù)會從10變成1,很可能導(dǎo)致xi1從核心點變?yōu)榉呛诵狞c。離散近鄰歸屬度會使算法對參數(shù)r的取值過于敏感,進(jìn)而對不同分布形狀和密度的數(shù)據(jù)魯棒性較差。但是參數(shù)r一般是很難精確得到或估算的,也就導(dǎo)致無法保證算法的性能。
圖3 不同數(shù)據(jù)分布的近鄰歸屬度
由于聚類算法的性能對數(shù)據(jù)結(jié)構(gòu)信息的挖掘至關(guān)重要,針對離散歸屬度在挖掘數(shù)據(jù)結(jié)構(gòu)信息時存在的缺陷,提出一種基于模糊近鄰密度聚類與重采樣的遷移學(xué)習(xí)算法(TL-FNDCReK)。該方法使用模糊近鄰歸屬度[8]代替離散近鄰歸屬度,以更好地挖掘數(shù)據(jù)結(jié)構(gòu)信息用于目標(biāo)域的學(xué)習(xí)。式(3)給出了一種線性模糊近鄰歸屬度:
(3)
式中:β(β>0)用于調(diào)節(jié)近鄰歸屬度對距離的敏感度,為了使M(xi,xj)在[0,1]內(nèi),β一般計算如下:
β=(1-m0)
(4)
式中:m0∈[0, 1],表示恰好處于鄰域邊界上的數(shù)據(jù)的近鄰歸屬度。
在鄰域內(nèi),M(xi,xj)對距離的敏感度與m0的取值成反比。圖4給出了線性模糊近鄰歸屬度的示意圖。
圖4 線性模糊近鄰歸屬度
通過式(3)和式(4)的定義,可以看出:鄰域內(nèi)數(shù)據(jù)點的模糊近鄰歸屬度隨著其與中心數(shù)據(jù)的距離不同而不同,越靠近中心數(shù)據(jù),其模糊近鄰歸屬度也越大,據(jù)此能夠較好地區(qū)分鄰域內(nèi)數(shù)據(jù)的差異性。在圖3中,xi2的近鄰基數(shù)也會大于xi1的近鄰基數(shù),更加符合實際的數(shù)據(jù)鄰域結(jié)構(gòu)信息。并且,在圖3(a)中,如果m0趨于0,則靠近鄰域邊界的數(shù)據(jù)點無論在鄰域內(nèi)外,其模糊近鄰歸屬度都趨于0,參數(shù)r的微小變化就不會對整個學(xué)習(xí)過程造成大的影響,有助于提高算法對參數(shù)r的魯棒性,進(jìn)而能夠適應(yīng)不同分布形狀和密度的數(shù)據(jù)。
此外,考慮到數(shù)據(jù)之間可能會存在非線性關(guān)系,導(dǎo)致數(shù)據(jù)距離與近鄰歸屬度的關(guān)系也可能是非線性關(guān)系,此時線性模糊近鄰歸屬度可能就無法適用。因而,式(5)給出一種非線性的模糊近鄰歸屬度,即指數(shù)模糊近鄰歸屬度:
M(xi,xj)=
(5)
式中:調(diào)節(jié)M(xi,xj)對距離敏感度的參數(shù)β(β>0)計算如下:
(6)
式中:m0=(0, 1],表示在鄰域邊界上的近鄰歸屬度。
圖5給出了指數(shù)模糊近鄰歸屬度的示意圖。
假設(shè)對數(shù)據(jù)集X進(jìn)行聚類處理,得到聚類子類{C1,C2,…,CNC},其中子類個數(shù)為NC,第i個子類的數(shù)據(jù)個數(shù)為NCi。然后進(jìn)行重采樣時,在每個子類Ci中優(yōu)先選擇標(biāo)記可信度高、數(shù)據(jù)代表性高的數(shù)據(jù)[7],選取數(shù)據(jù)的個數(shù)比例一般為源域樣本數(shù)與總樣本數(shù)的比值NS/N。首先,從每個子類中選擇一定數(shù)目(大于NCiNS/N)的標(biāo)記可信度較高的數(shù)據(jù)。然后,再從中選擇NCiNS/N個數(shù)據(jù)代表性較高的數(shù)據(jù)加入到新訓(xùn)練樣本集。在遍歷完所有聚類子類后,便完成了整個新訓(xùn)練樣本的選擇過程。數(shù)據(jù)xi的標(biāo)記可信度Rl(xi)為:
(7)
數(shù)據(jù)代表性Rp(xi)為:
(8)
由式(7)和式(8)可以看出,數(shù)據(jù)的標(biāo)記可信度和代表性的計算其實就是一種相似性度量,是通過距離dist(·)來表征的,dist(xi,xj)越小,則xi與xj就越相似。BRSD算法計算dist(xi,xi)采用的是曼哈頓距離:
(9)
式中:xik表示第i個數(shù)據(jù)向量的第k個分量;d表示數(shù)據(jù)的特征維數(shù)。
distM(xi,xj)的值越小,則xi與xj之間相似性越高。
曼哈頓距離應(yīng)用在早期的計算機圖形學(xué)中,將其用于衡量數(shù)據(jù)間的相似性則未必合適。圖6給出了在二維情況下,使用曼哈頓距離表征數(shù)據(jù)間相似性的示意圖。可以看出,相同相似度區(qū)域呈現(xiàn)菱形分布的特點,但這種分布使得與中心原點距離相同的2個數(shù)據(jù)點(圖中的2個黑點)卻與中心點具有不同的相似性。
圖6 基于曼哈頓距離和高斯核函數(shù)的數(shù)據(jù)相似性
針對曼哈頓距離不能很好地度量數(shù)據(jù)間相似性的不足,將高斯核函數(shù)用于數(shù)據(jù)相似性度量,使用式(10)代替1/(dist(·)+ε)進(jìn)行相似性度量:
(10)
式中:參數(shù)σ用于控制高斯核函數(shù)的徑向作用范圍,一般取所有數(shù)據(jù)距離的平均值即可;sG(xi,xj)值越大,則xi與xj之間相似性越高。
高斯核函數(shù)具有更大的作用范圍,并且能夠?qū)崿F(xiàn)數(shù)據(jù)的非線性映射,將原始低維特征xi和xj映射到具有無限高維的φ(xi)和φ(xj)。這種高維映射的特性,使得原本在原始低維空間不可分的數(shù)據(jù)能夠在高維空間中線性可分,因此高斯核函數(shù)比曼哈頓距離更適合用于衡量數(shù)據(jù)間的相似性,尤其在數(shù)據(jù)維度高或線性不可分時。圖6(b)給出了二維情況下的基于高斯核函數(shù)的數(shù)據(jù)相似性示意圖。
基于上述分析,表1給出了TL-FNDCReK遷移學(xué)習(xí)算法的基本流程。
表1 TL-FNDCReK遷移學(xué)習(xí)算法的基本流程
如圖7所示,本文將第1節(jié)提出的TL-FNDCReK遷移學(xué)習(xí)算法用于輻射源個體識別。
圖7 輻射源個體識別框架
截獲到敵方輻射源的信號后,接下來的任務(wù)是提取能夠表征輻射源細(xì)微特征的特征參數(shù)。經(jīng)過提取大量輻射源細(xì)微特征進(jìn)行對比,最終本文選取了包括非線性、非平穩(wěn)和非高斯特征在內(nèi)的3大類、6小類特征,具體為:包絡(luò)盒維數(shù)[9]、信息維數(shù)[9]、Lempel-Ziv復(fù)雜度[9]、高階R特征[10]、高階J特征[11]、Hilbert時頻能量參數(shù)[12]。圖8舉例給出了對某電臺輻射源數(shù)據(jù)所提取的特征。
圖8 電臺輻射源信號特征
如何利用提取的信號特征對輻射源個體進(jìn)行有效識別是分類決策要解決的問題。在現(xiàn)實中,輻射源個體特征受時間、空間、應(yīng)用條件等因素的影響,不同時間段某一輻射源設(shè)備具體組網(wǎng)方式、使用情況都不相同,不同時間段獲取的數(shù)據(jù)往往并不完全服從相同分布。然而,傳統(tǒng)機器學(xué)習(xí)的前提假設(shè)是數(shù)據(jù)始終符合相同分布,否則就難以達(dá)到可靠的分類識別效果。遷移學(xué)習(xí)不需要傳統(tǒng)機器學(xué)習(xí)的這種假設(shè),能夠從與目標(biāo)域不同但相似的源域數(shù)據(jù)中挖掘有用知識并遷移到目標(biāo)域?qū)W習(xí)中。在分類決策階段使用遷移學(xué)習(xí)訓(xùn)練分類模型,將有助于提高對輻射源個體識別的性能。為此,將本文第1節(jié)提出的TL-FNDCReK遷移學(xué)習(xí)算法用于輻射源個體識別的分類決策,提出了一種基于遷移學(xué)習(xí)的輻射源個體識別分類方法。在分類決策階段,基于遷移學(xué)習(xí)分類決策的數(shù)據(jù)處理流程如圖9所示。
圖9 基于TL-FNDCReK的數(shù)據(jù)處理流程圖
本文實驗采用的數(shù)據(jù)為外場實測電臺輻射源數(shù)據(jù)。
采集了2部不同工作頻率、不同說話人、不同傳播環(huán)境的同類型調(diào)頻電臺實測數(shù)據(jù)。電臺型號、批次相同,工作頻率為160 MHz和410 MHz。采用3個不同說話人形成基帶話音調(diào)制,分別在近距離有直達(dá)波和遠(yuǎn)距離無直達(dá)波的傳播環(huán)境進(jìn)行接收,接收機信道帶寬為100 kHz,發(fā)射信號帶寬為25 kHz,以204.8 kHz的采樣頻率進(jìn)行采樣。采集到輻射源信號后,提取第2節(jié)所述的信號特征用作后續(xù)的分類決策。
在遷移學(xué)習(xí)實驗設(shè)置中,將160 MHz工作頻率的1號說話人遠(yuǎn)距離無直達(dá)波電臺話音數(shù)據(jù)集作為目標(biāo)域,并從每類數(shù)據(jù)中隨機選擇100個樣本作為目標(biāo)域測試數(shù)據(jù)。源域則選擇與目標(biāo)域不同的數(shù)據(jù)集:410 MHz工作頻率的1號說話人遠(yuǎn)距離無直達(dá)波數(shù)據(jù)(Source 1)、160 MHz工作頻率的2號說話人遠(yuǎn)距離無直達(dá)波數(shù)據(jù)(Source 2)、160 MHz工作頻率的3號說話人遠(yuǎn)距離無直達(dá)波數(shù)據(jù)(Source 3)或160 MHz工作頻率的1號說話人近距離有直達(dá)波數(shù)據(jù)(Source 4)。選定源域數(shù)據(jù)集,再從每類隨機選擇NS=r′×100個數(shù)據(jù)作為源域數(shù)據(jù),其中r′為源域訓(xùn)練樣本數(shù)與目標(biāo)域測試樣本數(shù)的比值,實驗中r′的取值范圍為[0.05,0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9]。為了驗證所提算法對采用不同基分類器均有較好的性能提升,分別使用2種基分類器進(jìn)行實驗:C4.5決策樹和樸素貝葉斯(Na?ve Bayes)。為簡化表述,將基于線性模糊近鄰歸屬度和基于指數(shù)模糊近鄰歸屬度的TL-FNDCReK算法分別用TL-Linear、TL-Exp表示。
將所提算法的2種類型TL-Linear、TL-Exp與Baseline和BRSD算法進(jìn)行對比實驗。其中,Baseline表示直接使用源域數(shù)據(jù)作為訓(xùn)練集訓(xùn)練基分類器,然后對目標(biāo)域數(shù)據(jù)進(jìn)行分類識別,不存在遷移學(xué)習(xí)過程。表2~表5分別給出了選擇不同源域數(shù)據(jù)時,20次重復(fù)獨立實驗的識別準(zhǔn)確率平均結(jié)果。不同方法間的識別率最大值用加粗字體表示。每個表格的最后一行給出了每一方法對訓(xùn)練樣本個數(shù)的識別率平均值。
表2 源域數(shù)據(jù)采用Source 1數(shù)據(jù)集的分類識別率
表3 源域數(shù)據(jù)采用Source 2數(shù)據(jù)集的分類識別率
表4 源域數(shù)據(jù)采用Source 3數(shù)據(jù)集的分類識別率
表5 源域數(shù)據(jù)采用Source 4數(shù)據(jù)集的分類識別率
通過表2~表5可以看出,TL-FNDCReK(TL-Linear和TL-Exp)在大部分情況下都能夠有效地提高識別率,這主要歸功于其能更好地挖掘數(shù)據(jù)結(jié)構(gòu)信息。Baseline直接使用源域數(shù)據(jù)而沒有考慮域間差別,其識別率大多數(shù)情況都很低?;陬l率變化、說話人變化(Source1、2、3)的識別率要高于傳播環(huán)境變化(Source4)的識別率,這可能是因為近距離有直達(dá)波的信號特征與遠(yuǎn)距離無直達(dá)波的信號特征差別較大、可用于遷移的共同知識較少造成的。通過比較還可以發(fā)現(xiàn),在TL-FNDCReK 2種類型中,TL-Exp的識別效果要略優(yōu)于TL-Linear??傊?相比于Baseline和BRSD,TL-FNDCReK能夠取得更高的識別率,較好地完成了SEI任務(wù)。
圖10給出了訓(xùn)練樣本不同個數(shù)時的平均識別率,可以看出,所有方法的識別率并不隨著源域樣本個數(shù)的增加而單調(diào)提高,甚至?xí)兴陆怠_@種現(xiàn)象的一個可能解釋是:由于域間差異,從源域能夠遷移到目標(biāo)域的有用信息是有限的。當(dāng)源域數(shù)據(jù)達(dá)到一定數(shù)量時,源域就無法提供更多的有用信息,相反還會對目標(biāo)域的學(xué)習(xí)造成干擾。
圖10 不同訓(xùn)練樣本比例的平均識別率
在TL-FNDCReK的聚類分析過程中,模糊近鄰歸屬度的主要參數(shù)為m0,下面實驗分析m0對算法的影響。圖11給出了源域數(shù)據(jù)為410 MHz工作頻率的1號說話人遠(yuǎn)距離無直達(dá)波數(shù)據(jù),r′=0.2,基分類器為樸素貝葉斯分類器,m0分別取10-10、10-6、10-5、10-4、10-3、10-2、0.1、0.5、1的識別準(zhǔn)確率。
圖11 參數(shù)m0對算法的影響
由于Baseline和BRSD使用的離散近鄰歸屬不存在參數(shù)m0,其識別率與m0無關(guān)。當(dāng)m0趨于0時,TL-Linear的識別率趨于穩(wěn)定,而TL-Exp卻一直在變化。這種差別是由它們的模糊近鄰歸屬度的性質(zhì)不同決定的。如圖12(a)所示,在m0趨于0時,線性模糊近鄰歸屬度也都趨于相同,因而TL-Linear的識別率能夠趨于穩(wěn)定。而不論m0如何趨近于0時,指數(shù)模糊近鄰歸屬度都有明顯的區(qū)別,如圖12(b)所示。當(dāng)m0取非常小的正數(shù)時(如m0=10-10),處在r鄰域內(nèi)相當(dāng)大區(qū)域里的數(shù)據(jù)的指數(shù)模糊近鄰歸屬度都近似為0,即m0取值過小不僅改變了指數(shù)模糊近鄰歸屬度的性質(zhì),而且使實際起作用的r值變小。因此,在TL-Linear中,m0一般取0值即可;在TL-Exp中,同時考慮m0對近鄰歸屬度和r的影響,m0的取值一般不能太小,通常取[10-3,10-1]范圍內(nèi)即可。
圖12 m0對模糊近鄰歸屬度的影響
立足于輻射源個體識別應(yīng)用的特點,本文提出了一種基于遷移學(xué)習(xí)的輻射源個體識別分類方法。該方法通過聚類分析和重采樣從數(shù)據(jù)集中選擇新訓(xùn)練樣本用于目標(biāo)域?qū)W習(xí),使用模糊近鄰密度聚類提高對參數(shù)選擇的魯棒性及不同分布數(shù)據(jù)的適應(yīng)性,并使用高斯核函數(shù)度量數(shù)據(jù)間的相似性以提高新訓(xùn)練樣本選擇的可靠性。通過實測數(shù)據(jù)實驗,驗證了該算法的性能。此外,在實驗結(jié)果的基礎(chǔ)上,通過理論分析,對源域樣本個數(shù)對識別性能的影響進(jìn)行了分析,并指出了模糊近鄰歸屬度的重要參數(shù)m0的選取范圍。目前,TL-FNDCReK方法仍有進(jìn)一步研究的方向,如更加有效地估計參數(shù)r,更有效的重采樣策略等。