黃少馳,朱曉蕾
(1.中國人民解放軍91404部隊(duì),河北 秦皇島 066001; 2.哈爾濱工程大學(xué),黑龍江 哈爾濱 150001)
隨著無線通信和網(wǎng)絡(luò)技術(shù)的發(fā)展,無線網(wǎng)絡(luò)在人們的生活中扮演著越來越重要的角色。相對(duì)于傳統(tǒng)有線傳輸方式,無線網(wǎng)絡(luò)的開放性能夠?yàn)槲凑J(rèn)證設(shè)備提供更多的入侵機(jī)會(huì),因此,無線移動(dòng)網(wǎng)絡(luò)中的隱私性與安全性尤為重要。傳統(tǒng)的無線網(wǎng)絡(luò)安全方法通常是在OSI模型上通過數(shù)據(jù)鏈路層、網(wǎng)絡(luò)層等上的機(jī)制來實(shí)現(xiàn)的。但這種機(jī)制往往存在很多缺陷,設(shè)備標(biāo)識(shí)很容易被復(fù)制,可以通過此種方法來獲得未經(jīng)授權(quán)的網(wǎng)絡(luò)訪問。因此,近20 年來,基于物理層的安全機(jī)制得到了廣泛的研究,以提高無線網(wǎng)絡(luò)的安全性。在過去的十幾年中,無線通信設(shè)備的射頻指紋提取與識(shí)別在國內(nèi)外都受到了廣泛的關(guān)注。它可以用于無線網(wǎng)絡(luò)中的接入控制,防止入侵設(shè)備克隆認(rèn)證設(shè)備信息。無線設(shè)備通信信號(hào)的射頻指紋就像人的指紋一樣是獨(dú)一無二的,由于硬件的差異,不同的設(shè)備有著不同的指紋。這些硬件的差異將會(huì)表現(xiàn)在信號(hào)的幅度、相位以及頻率上。雖然這些差異是微小的,但對(duì)設(shè)備的認(rèn)證是很有用的。無線設(shè)備的射頻指紋的提取與識(shí)別方法發(fā)生在物理層,所以是易于實(shí)現(xiàn)的,能夠提高無線網(wǎng)絡(luò)中的安全性。本文主要利用通信設(shè)備的射頻指紋對(duì)其識(shí)別,其中包括一些降維方法的比較,以及針對(duì)本文問題的分類器選取。通過實(shí)驗(yàn),驗(yàn)證此方法能夠獲得較好的效果。
本文主要研究入侵檢測(cè)問題中無線通信設(shè)備的個(gè)體識(shí)別。圖1為信號(hào)采集及后續(xù)處理的一個(gè)框圖。首先,從接收機(jī)收集到信號(hào),根據(jù)能量檢測(cè)方法提取出瞬時(shí)信號(hào),為了模仿信道干擾, 加上了高斯白噪聲。在經(jīng)過希爾伯特變換之后,利用降維方法來提取后續(xù)的射頻指紋特征。最后,分類器給出最終的分類結(jié)果。本文中所有的仿真均在MATLAB 2014a上完成。
圖1 通信個(gè)體識(shí)別系統(tǒng)總體框圖
待識(shí)別的信號(hào)采集自10個(gè)不同的無線通信設(shè)備。為確保收集到的信號(hào)無環(huán)境噪聲干擾,直接將無線設(shè)備與接收機(jī)用線連接。采集信號(hào)之后人為添加噪聲。
首先利用希爾伯特變換對(duì)信號(hào)進(jìn)行初步特征提取。為了減少希爾伯特變換之后的冗余信息,利用降維方法來對(duì)初始特征進(jìn)行進(jìn)一步特征提取。本文選用三種降維方法進(jìn)行比較與選擇。
1.2.1主成分分析法
主成分分析(PCA)算法是一種實(shí)現(xiàn)特征降維的方法。對(duì)于一個(gè)待測(cè)量矩陣M∈R(n1×n2),其中n1是樣本個(gè)數(shù),n2是樣本維數(shù)(特征數(shù)),PCA借助于一個(gè)正交變換,將其分量相關(guān)的原隨機(jī)向量轉(zhuǎn)化成其分量不相關(guān)的新隨機(jī)向量,在幾何上表現(xiàn)為將原坐標(biāo)系變換成新的正交坐標(biāo)系,使之指向樣本點(diǎn)散布最開的若干個(gè)正交方向,然后對(duì)多維變量系統(tǒng)進(jìn)行降維處理。在統(tǒng)計(jì)學(xué)中,PCA是一個(gè)線性變換。這個(gè)變換把數(shù)據(jù)變換到一個(gè)新的坐標(biāo)系統(tǒng)中,使得任何數(shù)據(jù)投影的第一大方差在第一個(gè)坐標(biāo)(稱為第一主分量)上,第二大方差在第二個(gè)坐標(biāo)(第二主分量)上,依次類推。PCA經(jīng)常用于減少數(shù)據(jù)集的維數(shù),同時(shí)保持?jǐn)?shù)據(jù)集的對(duì)方差貢獻(xiàn)最大的特征,這是通過保留低階主分量、忽略高階主分量做到的。
1.2.2魯棒主成分分析法
魯棒主成分分析(RPCA)算法的主要思想是將一個(gè)矩陣M∈R(n1×n2)分解成一個(gè)低秩矩陣L∈R(n1×n2)和一個(gè)稀疏矩陣S∈R(n1×n2),通過求解凸優(yōu)化問題,問題可描述為:
式中,‖·‖*表示矩陣的范數(shù),‖·‖1表示矩陣的L1范數(shù),λ是調(diào)節(jié)參數(shù)。魯棒PCA算法直接在原始數(shù)據(jù)上進(jìn)行操作,對(duì)任意足夠大的數(shù)據(jù)來說找到它的低秩估計(jì)。
無線電臺(tái)發(fā)出的瞬態(tài)信號(hào)具有特定的結(jié)構(gòu)信息,由于樣本組成的矩陣行或列是線性相關(guān)的,可以假設(shè)這是一個(gè)低秩矩陣。而由于傳輸過程中噪聲的存在,噪聲是稀疏的,就可以假設(shè)噪聲是一個(gè)稀疏矩陣。通過RPCA,將樣本矩陣分解成低秩的信號(hào)矩陣和稀疏的噪聲矩陣,最后,利用傳統(tǒng)PCA對(duì)低秩矩陣進(jìn)行降維。
1.2.3核主成分分析法
核主成分分析(KPCA)算法的基本思想是將輸入數(shù)據(jù)M通過一個(gè)非線性映射Φ映射到高維特征空間F,然后在空間F上做傳統(tǒng)PCA降維。
一般來講,PCA對(duì)線性數(shù)據(jù)能有實(shí)現(xiàn)很好的降維,但是當(dāng)觀測(cè)數(shù)據(jù)是非線性的時(shí)候,PCA不一定能夠有較好的降維效果。這些數(shù)據(jù)可以被映射到更高的維度空間中,這種空間叫做特征空間(F)。KPCA通過簡單的內(nèi)核函數(shù)找到一個(gè)計(jì)算上易于實(shí)現(xiàn)的解決方案,該函數(shù)本質(zhì)上構(gòu)建了從輸入空間到特征空間的非線性映射。因此,KPCA是在輸入空間中執(zhí)行一種非線性的PCA。
機(jī)器學(xué)習(xí)在近幾年來蓬勃發(fā)展,而機(jī)器學(xué)習(xí)作為分類器也能夠很好地展現(xiàn)優(yōu)異的性能。隨機(jī)森林(RF)是由Leo Breiman于2001年提出的一個(gè)分類器融合算法,可以很好地解決多分類問題。它的基本思想是基于統(tǒng)計(jì)學(xué)信息熵這一信息增益標(biāo)準(zhǔn)對(duì)信息進(jìn)行劃分和學(xué)習(xí),得到若干個(gè)樹形分類器,具有快速有效的優(yōu)點(diǎn)。
隨機(jī)森林是由多個(gè)相互獨(dú)立的隨機(jī)決策樹組成的,期望得到一個(gè)最“公平”的集成學(xué)習(xí)方法。這些決策樹在得出自己的判斷之后,經(jīng)過多數(shù)投票得到最終結(jié)果。構(gòu)建隨機(jī)森林首先需要構(gòu)建多個(gè)隨機(jī)決策樹,訓(xùn)練每棵樹時(shí)的訓(xùn)練集都是從總的訓(xùn)練集中放回采樣出來的,這意味著,總的訓(xùn)練集中的有些樣本可能多次出現(xiàn)在一棵樹的訓(xùn)練集中,也可能從未出現(xiàn)在一棵樹的訓(xùn)練集中。除此之外,每個(gè)決策樹在訓(xùn)練的過程中,每個(gè)節(jié)點(diǎn)只針對(duì)其中部分特征維數(shù)進(jìn)行訓(xùn)練。
除了隨機(jī)森林之外,支持向量機(jī)(SVM)、人工神經(jīng)網(wǎng)絡(luò)(ANN),以及灰色關(guān)聯(lián)分析(GRA)也是經(jīng)過人們證實(shí)的具有不錯(cuò)分類效果的分類器。
本文中的原始信號(hào)來自10臺(tái)設(shè)備發(fā)出的500次觀測(cè)信號(hào),每臺(tái)設(shè)備在沒有噪聲的情況下觀測(cè)50次。將這500個(gè)觀測(cè)信號(hào)分成2部分,300個(gè)作為訓(xùn)練樣本,200個(gè)作為測(cè)試樣本。訓(xùn)練樣本集和測(cè)試樣本集均來自希爾伯特變換之后的信號(hào),經(jīng)希爾伯特變換之后每個(gè)樣本的維數(shù)都是3187。為了提高識(shí)別精度,為每個(gè)觀測(cè)量上多次加上了高斯白噪聲,信噪比變化范圍設(shè)定為0~20dB,訓(xùn)練樣本集和測(cè)試樣本集均包含54000個(gè)樣本。
為了驗(yàn)證利用對(duì)希爾伯特變換后的特征降維結(jié)果能夠提高個(gè)體識(shí)別的精度,首先利用RPCA降維方法和隨機(jī)森林分類器對(duì)其進(jìn)行初步實(shí)驗(yàn)。信噪比環(huán)境選擇10dB,因?yàn)榇诵旁氡认碌淖R(shí)別效果并不是十分卓越,對(duì)于比較結(jié)果能夠更加清晰地顯示。降維之后的維數(shù)隨機(jī)選為4。
圖2比較了是否以降維作為分類特征的識(shí)別結(jié)果,可以看出,降維之后的識(shí)別結(jié)果比不降維的識(shí)別準(zhǔn)確率更高,在10臺(tái)設(shè)備的綜合識(shí)別率上,不降維時(shí)識(shí)別率為62.83%,RPCA降4維的識(shí)別率為95.47%。從理論上講,原始不降維的特征雖然有著完整的指紋信息,但同時(shí)也包含了很多冗余與噪聲信息,這可能對(duì)識(shí)別產(chǎn)生了干擾。另一方面,沒有降維的樣本之間也會(huì)存在著相關(guān)性,這也可能會(huì)對(duì)識(shí)別產(chǎn)生誤導(dǎo)。而RPCA將原始特征映射到彼此相互正交的新坐標(biāo)系中,這樣就減少了特征間的相關(guān)性和冗余。同時(shí),少的特征輸入也能簡化分類器的復(fù)雜程度,降低運(yùn)算時(shí)間。
前面已經(jīng)證明降維能夠提高識(shí)別精度,但哪種降維方法能夠表現(xiàn)最佳的降維性能是接下來要研究的內(nèi)容。此處比較前面介紹的三種降維方法PCA、RPCA、和KPCA。
利用三種降維方法,對(duì)20dB下的訓(xùn)練樣本集和測(cè)試樣本集進(jìn)行降維處理,取剩余維數(shù)特征占總特征包含能量的比值處作為比較點(diǎn),比較三種方法降到相同能量時(shí)所對(duì)應(yīng)的維數(shù)。從表1可以看出,在四個(gè)能量占比之處,RPCA都降到了最少的維數(shù),也就是說這種降維方法最有效。而從另一個(gè)角度想,就是當(dāng)三種方法降到同一個(gè)維數(shù)的時(shí)候,RPCA會(huì)保留最多的能量信息。所以后續(xù)實(shí)驗(yàn)采取RPCA降維方法進(jìn)行特征提取處理。
表1 三種降維方法降維效果比較 維數(shù)
在信噪比為10dB(此信噪比下識(shí)別率不高,比較效果明顯)條件下進(jìn)行分類器對(duì)比實(shí)驗(yàn)。降維方法選擇RPCA,維數(shù)根據(jù)能量占比分別從3187維降到了2維、76維、300維和645維。隨機(jī)森林的參數(shù)設(shè)置同前面相同,創(chuàng)建1000個(gè)決策樹。BP神經(jīng)網(wǎng)絡(luò)設(shè)置一個(gè)隱層,隱層節(jié)點(diǎn)數(shù)根據(jù)經(jīng)驗(yàn)公式稍加修改調(diào)整。圖3展示了四種分類器在不同位數(shù)下的分類結(jié)果比較,可以看到,當(dāng)維數(shù)較高時(shí),隨機(jī)森林分類器的識(shí)別率相比于其他三種最高,而在同種分類器的維數(shù)比較上,76維(能量保留到85%)時(shí),識(shí)別效果最好。
圖3 利用四種分類器的通信個(gè)體識(shí)別結(jié)果
通過以上實(shí)驗(yàn)結(jié)果,選擇隨機(jī)森林作為分類器,特征維數(shù)選擇為76來進(jìn)行不同信噪比下的通信個(gè)體識(shí)別。圖4是利用RPCA降維作為特征輸入的識(shí)別結(jié)果,可以看到,當(dāng)信噪比大于10dB時(shí),系統(tǒng)的識(shí)別率已經(jīng)大于90%,信噪比大于15dB時(shí),識(shí)別率大于 98%,完全能夠保證實(shí)際情況的使用。
圖4 基于RPCA和隨機(jī)森林的通信個(gè)體識(shí)別結(jié)果
無線設(shè)備在商業(yè)和軍事基礎(chǔ)設(shè)施中的應(yīng)用增加了提高保護(hù)的緊迫性。尤其是冒用授權(quán)設(shè)備的流氓設(shè)備的攻擊可能是毀滅性的。文中,射頻指紋用于識(shí)別被認(rèn)證的設(shè)備,是入侵檢測(cè)的重要組成部分。本文的成果主要包括:1)三種維數(shù)降低方法的比較。通過保留相同能量下所對(duì)應(yīng)的維數(shù),選擇出最佳的降維方法RPCA。 2)比較四個(gè)分類器的識(shí)別結(jié)果。對(duì)于所有實(shí)驗(yàn),使用隨機(jī)森林作為分類器,當(dāng)輸入特征為76維時(shí),識(shí)別效果最好。而且在信噪比大于15dB時(shí),識(shí)別率大于98%??偨Y(jié)來說,本文提出了一種最佳個(gè)體識(shí)別系統(tǒng)模型,能夠保證無線設(shè)備身份認(rèn)證的安全性。■
[1] 羅軍舟, 楊明, 凌振, 等. 網(wǎng)絡(luò)空間安全體系與關(guān)鍵技術(shù)[J]. 中國科學(xué): 信息科學(xué), 2016, 46(8): 939-968.
[2] Maged Elkashlan, Wang LF, Duong TQ, et al. On the security of cognitive radio networks[J]. IEEE Trans. on Vehicular Technology, 2015, 64(8):3790-3795.
[3] Sharma RK, Rawat DB. Advances on security threats and countermeasures for cognitive radio networks: a survey[J]. IEEE Communications Surveys and Tutorials, 2015, 17(2):1023-1043.
[4] Polak AC, Goeckel DL. Identification of wireless devices of users who actively fake their RF fingerprints with artificial data distortion[J].IEEE Trans. on Wireless Communications, 2015,14(11):5889-5899.
[5] 張子平, 郭道省, 張亞軍. 無線通信物理層安全技術(shù)研究與展望[J]. 通信技術(shù), 2016,49(6):649-655.
[6] Wang W, Sun Z, Piao S, et al. Wireless physical-layer identification: modeling and validation[J]. IEEE Trans. on Information Forensics & Security, 2015,11(9):2091-2106.
[7] 俞佳寶,胡愛群,朱長明,等.無線通信設(shè)備的射頻指紋提取與識(shí)別方法[J].密碼學(xué)報(bào),2016,3(5):433-446.
[8] Ureten O,Sefinken N.Wireless security through RF fingerprinting[J].Canadian Journal of Electrical and Computer Engineering , 2007,32(1):27-33.
[9] 王文俊.基因表達(dá)數(shù)據(jù)的相似性度量和特征提取研究[D].西安:西安電子科技大學(xué), 2011.