陳 超,彭林寧,2,張廣凱
(1.東南大學(xué) 網(wǎng)絡(luò)空間安全學(xué)院,江蘇 南京 211189;2.網(wǎng)絡(luò)通信與安全紫金山實驗室,江蘇 南京 211111;3.中車信息技術(shù)有限公司,北京 100084)
在過去的幾年里,隨著物聯(lián)網(wǎng)的蓬勃發(fā)展,網(wǎng)絡(luò)設(shè)備的數(shù)量顯著增加。由于這些設(shè)備許多具有間歇性的連接,對網(wǎng)絡(luò)安全提出了更高的要求[1]。在通信系統(tǒng)中,訪問認(rèn)證對于網(wǎng)絡(luò)安全至關(guān)重要。在以太網(wǎng)系統(tǒng)中,設(shè)備連接到網(wǎng)絡(luò)時需要訪問身份驗證。MAC地址是一種常用的身份認(rèn)證手段,然而攻擊者可以模仿目標(biāo)MAC地址,對網(wǎng)絡(luò)帶來了嚴(yán)重的安全挑戰(zhàn)。雖然基于802.11x協(xié)議的數(shù)字證書可以防止MAC地址模擬攻擊,但這種高層保護機制需要終端操作系統(tǒng)的軟件支持,在大規(guī)模的網(wǎng)絡(luò)應(yīng)用中是不方便的。因此,在以太網(wǎng)系統(tǒng)中需要備用的安全機制。
最近的研究表明,通信用設(shè)備發(fā)射的信號具有其物理指紋特征。該特征類似于人的指紋,是設(shè)備本身的固有特性,無法改變和偽造[2]。利用設(shè)備的物理指紋對設(shè)備進行識別和分類,是一種新興的安全技術(shù)。物理層的安全性在無線系統(tǒng)中已引起了高度關(guān)注[3],可以通過其獨特的指紋識別目標(biāo)設(shè)備實現(xiàn)接入控制。指紋的識別通常分為兩個階段,即訓(xùn)練階段和分類階段。在訓(xùn)練階段,接收設(shè)備將首先在良好的環(huán)境下對接收到的信號進行采樣,提取特征,并將它們作為模板保存,以供參考。在分類階段,接收設(shè)備將從候選設(shè)備中獲取信號,將相同類型的特征與模板進行比較,并根據(jù)這些特征之間的相似性對設(shè)備進行分類。這種物理層指紋識別技術(shù)已在無線WiFi、LTE和Zigbee系統(tǒng)中進行了研究[4-5]。例如,Peng[6]等人提出了一種基于多個射頻指紋特征的混合設(shè)備分類方案,用于ZigBee器件的分類,識別率可達95.52%。
受無線系統(tǒng)中物理指紋識別成功的啟發(fā),利用物理指紋識別接入的以太網(wǎng)設(shè)備是很有可能的。然而,物理指紋在以太網(wǎng)和無線系統(tǒng)之間略有不同。例如,在大多數(shù)無線物理層識別系統(tǒng)中,載波頻率偏移是一個重要的指紋特征。顯然,這種特性并不存在于大多數(shù)以太網(wǎng)系統(tǒng)中,如基于強度調(diào)制/直接檢測(Intensity Modulation Direct Detection,IM/DD)的光纖通信系統(tǒng)。因此,必須在IM/DD基帶系統(tǒng)中尋找合適的指紋特征。在文獻[7-8]中報告了利用條件星座對16個雙絞線以太網(wǎng)卡進行識別,利用最近鄰(Nearest Neighbor,NN)和多重判別分析/最大似然(Multiple Discriminant Analysis/Maximum Likelihood,MDA/ML)分類器對設(shè)備識別進行評估。MDA/ML和NN分類器的平均正確率分別為91.36%和76.73%[7]。此外,利用感興趣區(qū)域(Region Of Interest,ROI)波形的統(tǒng)計特征對6種電力線通信設(shè)備進行分類[1]。利用MDA/ML分類器,當(dāng)信噪比大于40 dB時,分類準(zhǔn)確率可達90%。
本文將設(shè)計實現(xiàn)一種用于光纖通信系統(tǒng)基帶信號設(shè)備指紋獲取和識別的方法。通過實際采集來自4個廠家的24臺光纖以太網(wǎng)設(shè)備,建立一個物理層特征提取實驗系統(tǒng)。該系統(tǒng)基于接收的信號波形,通過相關(guān)峰物理指紋提取方法,使用混合設(shè)備分類方案[6],對24臺光纖以太網(wǎng)設(shè)備進行設(shè)備指紋的識別,系統(tǒng)成功實現(xiàn)了相關(guān)峰物理指紋提取與識別在光通信系統(tǒng)中的應(yīng)用。
本文的其余部分按以下方式組織。第1節(jié)介紹實驗系統(tǒng),第2節(jié)介紹信號的預(yù)處理,第3節(jié)介紹特征提取,第4節(jié)介紹分類器設(shè)計方案,第5節(jié)介紹實驗結(jié)果,第6節(jié)結(jié)語。
本文設(shè)計了一種提取和識別光纖以太網(wǎng)設(shè)備的實驗系統(tǒng),實驗系統(tǒng)裝置如圖1所示。
圖1 實驗裝置
分類目標(biāo)采用不同的光纖以太網(wǎng)設(shè)備,這些設(shè)備連接到?jīng)]有信號傳輸?shù)木W(wǎng)絡(luò)上,因此固定開關(guān)鍵控(On Off Keying,OOK)信號將在這種空閑狀態(tài)下連續(xù)傳輸。光纖以太網(wǎng)設(shè)備工作在波分雙工(Wavelength Division Duplex,WDD)模式,上傳和下載使用不同的激光發(fā)射波長,分別為1 310 nm和1 550 nm,將0.5 m的單模光纖連接到激光發(fā)射器。為了模擬真實長距離的光纖傳輸,衰減器與單模光纖連接。在單模光纖和衰減器上傳輸后,采用雪崩光電二極管(Avalanche Photon Diode,APD)檢測接收到的光信號。APD敏感波長為1 020~1 650 nm,直接將光信號不加放大地轉(zhuǎn)換成電信號。接收到的電信號用數(shù)字示波器(Rohde&SchwarzTM,RTO 1024)進行捕獲,采樣率為10 GS。在IEEE802.3z標(biāo)準(zhǔn)下,1 000M以太網(wǎng)信號的采樣率為1.25 GS,因此有8倍過采樣。最后,采集到的信號由計算機離線處理。進行實驗的照片如圖2所示。
圖2 實驗照片
實驗中,使用來自4個制造商的24個光纖以太網(wǎng)設(shè)備,設(shè)備的模型和設(shè)備索引為CLX-9013 FC(索引1~4)、TL-FC 311(TP-link)(索引5~8)、TH-GS-03(索引9~12)和HTB-GS-03(Netlink)(索引13~24)。對每個設(shè)備進行10次實驗,得到了10個波形段,每個波形段捕獲2 000萬個樣本,再將每個波形段的2 000萬個樣本劃分為10個片段,每個片段長度為N2,最后獲得2 400個光纖以太網(wǎng)設(shè)備信號段。特征提取與識別流程如圖3所示,首先對2 400個離線信號段進行預(yù)處理,信號段被劃分為訓(xùn)練集和驗證集。每個設(shè)備前4次實驗數(shù)據(jù)用于訓(xùn)練,后6次實驗數(shù)據(jù)用于驗證。然后分別進行特征提取,最后送入混合分類器進行分類判決。離線處理由安裝了MATLABR2015b的計算機執(zhí)行。
為了便于后續(xù)提取特征,如圖4所示,需要對離線信號進行同步、能量歸一化、濾波、模擬噪聲等預(yù)處理。信號同步是對每個設(shè)備10次實驗得到的240個波形段進行處理,而后續(xù)的預(yù)處理和特征提取是將每個設(shè)備每次實驗得到的波形段分割成10個小片段進行處理,利用蒙特卡洛法進行多次模擬后取平均值得到24個設(shè)備的特征集。
圖3 特征提取與識別流程
圖4 信號預(yù)處理流程
在IEEE802.3z標(biāo)準(zhǔn)定義的以太網(wǎng)系統(tǒng)中,因為即使在空閑狀態(tài)下固定信號也會連續(xù)地發(fā)出。這種固定開關(guān)鍵信號是有周期的,所以接收的離線信號也是有周期的。周期信號的自相關(guān)函數(shù)也是周期的,且周期與原信號同周期[9]。通過移位自相關(guān)尋找自相關(guān)函數(shù)的極大值點位置,得出這些光纖以太網(wǎng)設(shè)備的信號周期都為1 280。選擇利用接收到的整個波形段進行統(tǒng)計特征提取,然而采集的每個信號段起始位置在一個周期內(nèi)可能是不同的,會弱化特征的有效性,因此需要對信號進行同步。互相關(guān)可以體現(xiàn)兩個函數(shù)的相似性,故取第1個設(shè)備第1個波形段中前1 280個信號為樣本t(n),待同步的波形段為x(d, j,n),表示第d個設(shè)備第j次實驗的波形段,對x(d, j,n)在1 280周期內(nèi)進行移位互相關(guān),m為移位量,互相關(guān)值可表示為:
然后求出互相關(guān)值最大時m的取值,并以此值作為待處理信號段的起始點位置。第d個設(shè)備第j次實驗的波形段中第l個信號片段為:
其中,l取值為1~10。
顯然,各個光纖以太網(wǎng)設(shè)備的耦合損耗是不同的,導(dǎo)致了不同的接收信號功率。此外,由于不同的衰減和傳輸距離,接收機信號功率也不同。因此,最初標(biāo)準(zhǔn)化了接收到的信號功率進行能量歸一化[10]。能量歸一化后的信號可表示為:
式中μ、σ分別為該信號的平均值和標(biāo)準(zhǔn)差。
雖然數(shù)字示波器具有8位分辨率,但由于數(shù)字示波器的動態(tài)范圍和有效位數(shù)的限制,實際波形分辨率比特數(shù)小于8位。因此,設(shè)計了一種低通數(shù)字濾波器,以平滑接收信號,消除帶外噪聲。該數(shù)字濾波器的3 dB帶寬為實際信號帶寬。
雖然使用衰減器來模擬長距離傳輸,但接收到的信號質(zhì)量仍然很好,具有很高的信噪比。因此,不同水平的加性高斯白噪聲被添加到接收信號中,用于模擬線路中的噪聲。本文使用Matlab自帶的awgn函數(shù)向信號中添加高斯白噪聲。
特征提取主要包括3個方面:(1)對若干個周期性間隔后的信號進行相關(guān)運算,提取統(tǒng)計特征;(2)對若干個周期性間隔后的信號計算其在理論主峰及其左右若干個點的自相關(guān)值,加權(quán)平均作為相關(guān)峰;(3)對這些相關(guān)峰進行曲線擬合,求取曲線擬合系數(shù)。如圖5所示。
圖5 特征提取
由于設(shè)備的容差效應(yīng),它的采樣頻率會存在一定的偏差,會導(dǎo)致k個周期性間隔后信號的相對位置出現(xiàn)偏移,即相關(guān)峰的位置出現(xiàn)偏移。對預(yù)處理后的信號段y(d, j,l,n),n=1,2,3,…,N1做如下運算:
其中:T1為周期性間隔,是1 280的整數(shù)倍;K為k的取值個數(shù)。對每個ck(n)信號,用下列方程提取均值μ(k)、方差σ2(k)、偏度λ(k)和峰度κ(k)4種統(tǒng)計特征:
由于基于最大值準(zhǔn)則求取相關(guān)峰的方法無法滿足精度的需求,本文通過計算自相關(guān)函數(shù)理論主峰及其左右N3個點(共2N3+1個)的自相關(guān)值,將其加權(quán)平均值作為相關(guān)峰。信號在T2,2T2,…,iT2,…,LT2等L個周期性間隔后的起始位置為理論主峰點,對第i個周期性間隔后,待處理信號長度為:
計算自相關(guān)的公式為:
得到一個(2N3+1)×L的矩陣,每一列加權(quán)平均值為:
將得到的L個值作為相關(guān)峰。
通過改變不同的參數(shù)設(shè)置并進行大量的實驗觀察,發(fā)現(xiàn)這些相關(guān)峰的形狀近似于一次函數(shù)。因此,對提取的相關(guān)峰進行一次函數(shù)曲線擬合[11-12],求取其兩個擬合系數(shù)。
例如,當(dāng)信噪比為0 dB、N1=80 000、N3=5、T2=1 280×3時,針對來自4個廠商的4個設(shè)備取不同的L值,實驗結(jié)果如圖6~圖9所示??梢钥闯觯@些曲線都近似于一次函數(shù)。有意思的是,發(fā)現(xiàn)設(shè)備5(TP-Link)的峰值曲線非常穩(wěn)定,一定程度上說明其產(chǎn)品質(zhì)量比較穩(wěn)定。
圖6 L=3時的相關(guān)峰曲線
圖7 L=4時的相關(guān)峰曲線
圖8 L=5時的相關(guān)峰曲線
圖9 L=6時的相關(guān)峰曲線
為了提高分類精度,通過整合前面討論的特征集,將這些特征組成向量。訓(xùn)練過程中,在不同信噪比條件下計算其類內(nèi)方差和類間方差并得到不同特征向量的權(quán)重。測試過程中,通過估計測試數(shù)據(jù)的信噪比,選擇在訓(xùn)練中得到的不同信噪比下的特征向量權(quán)重,對測試數(shù)據(jù)進行判別[6],結(jié)構(gòu)圖如圖10所示。
圖10 分類器結(jié)構(gòu)
類內(nèi)方差給出如下:
其中,P為特征總數(shù)。
當(dāng)d1≠d2時,出現(xiàn)一個錯誤分類。分類正確率β可以定義為:
其中,Ntest為總測試次數(shù),Nerro為分類錯誤次數(shù)。
對光纖以太網(wǎng)設(shè)備識別系統(tǒng)中的不同參數(shù)進行優(yōu)化,然后對基于相關(guān)峰的分類性能和基于經(jīng)典統(tǒng)計特征的分類性能進行比較。實驗中共有2 400個信號段,其中960個信號段用于訓(xùn)練,1 440個信號段用于驗證。
前文中提到,主要的參數(shù)有樣本長度N1、理論主峰點左右個數(shù)N3、相關(guān)峰周期性間隔數(shù)L、統(tǒng)計特征周期性間隔T1、相關(guān)峰周期性間隔T2、統(tǒng)計特征周期性間隔數(shù)K及信噪比γ通過大量實驗發(fā)現(xiàn),不同參數(shù)的設(shè)置對識別率影響不大,誤差通常在1%左右,而加入隨機噪聲后產(chǎn)生的誤差也在1%左右,因此通過先不加噪聲、變化一個參數(shù)、固定其他參數(shù)來逐一選取相對較優(yōu)的參數(shù)設(shè)置。首先選取 N1=80 000、N3=5、L=2、K=5、T2=1 280×3,識別率隨T1的變化如圖11所示。
圖11 隨T1變化趨勢
可以看出,當(dāng)T1≥1 280×4時,識別率緩慢增長,在T1=1 280×3時,識別率最高,故選取T1=1 280×3、N3=5、L=2、T2=1280×3、N1=80 000時識別率隨K的變化,如圖12所示。
圖12 隨K變化趨勢
K在取值大于5后趨于平穩(wěn)增長,K=5時驗證時間共為308.7 s,K=6時驗證時間共為338.9 s。考慮計算成本,選取K=5。當(dāng)T1=1 280×3、K=5、N3=5、T2=1 280×3、N1=80 000時,識別率隨L的變化如圖13所示。
L=3、4、6時識別率為90.14%,L≥8時平穩(wěn)增長,說明特征數(shù)量要控制在合理的范圍,多了只會增加計算成本,并不會對識別率有太大提升。L=3時驗證時間共為319.1 s,L=8時驗證時間共為391.8 s,識別率為90.49%,故選取L=3。當(dāng)T1=1 280×3、K=5、L=3、T2=1 280×3、N1=80 000 時,識別率隨N3的變化如圖14所示。
圖13 隨L變化趨勢
圖14 隨N3變化趨勢
當(dāng)N3取值為3和5時,識別率比較接近;當(dāng)N3=5時,識別率最高;N3>5時,識別率較低。這是由于相關(guān)峰偏離主要集中在左右5個點以內(nèi)的位置,左右3個點內(nèi)居多,故取N3=5。當(dāng)T1=1 280×3、K=5、L=3、N3=5、N1=80 000時,識別率隨T2的變化如圖15所示。
圖15中可以明顯看出,當(dāng)T2=1 280×6時,識別率最大,故取T2=1 280×6。當(dāng)T1=1 280×3、K=5、L=3、N3=5、T2=1 280×6時,識別率隨N1的變化如圖16所示。
當(dāng)N1=80 000時,識別率最高;N1>80 000時,隨著計算成本的增加,識別率不但沒有提高,反而下降,最終得到優(yōu)化后的參數(shù)為T1=1 280×3、K=5、L=3、N3=5、T2=1 280×6、N1=80 000。
圖15 隨T2變化趨勢
在不同信噪比下,對比基于相關(guān)峰和基于經(jīng)典統(tǒng)計特征的分類性能。這里的基于經(jīng)典統(tǒng)計特征的設(shè)備識別是指提取平均值、方差、偏度和峰度4個統(tǒng)計特征,將其作為物理指紋送入分類器進行分類識別,分類性能對比結(jié)果如圖17所示。
圖16 隨N1變化趨勢
圖17 分類性能對比
當(dāng)信噪比為10 dB時,兩者的識別率相差最小,為13.6%。信噪比在0~30 dB范圍內(nèi),基于相關(guān)峰的設(shè)備識別率在85.76%~91.39%,基于經(jīng)典統(tǒng)計特征的設(shè)備識別率在45.35%~76.6%??梢钥闯觯谙嚓P(guān)峰的設(shè)備識別相比基于經(jīng)典統(tǒng)計特征的設(shè)備識別,無論在準(zhǔn)確率還是在穩(wěn)定上都具有較大優(yōu)勢。
在信噪比為0 dB時,基于相關(guān)峰的分類混淆矩陣如圖18所示。
圖18 混淆矩陣
其中,分類錯誤主要集中在:設(shè)備3錯認(rèn)為設(shè)備4,設(shè)備6錯認(rèn)為設(shè)備5,設(shè)備7和設(shè)備8錯認(rèn)為設(shè)備6。而前文提到設(shè)備1~設(shè)備4,設(shè)備5~設(shè)備8分別來自兩個不同廠商??梢园l(fā)現(xiàn),大多數(shù)分類錯誤都是在同一制造商的設(shè)備之間發(fā)生。由于同一制造商生產(chǎn)的設(shè)備,其材料、加工工藝、電路板走線等都比較相似,導(dǎo)致設(shè)備的硬件容差減小,而硬件的容差是設(shè)備物理指紋的硬件基礎(chǔ),對分類識別帶來了更大的挑戰(zhàn)。
針對IM/DD光纖通信系統(tǒng),本文提出了一種新的基帶以太網(wǎng)設(shè)備指紋提取和分類方法,建立了一個實驗性IM/DD系統(tǒng),以捕獲來自4個制造商的24個光纖以太網(wǎng)設(shè)備的信號波形,初步評估了不同參數(shù)設(shè)置下的性能,并為分類系統(tǒng)設(shè)計找到了較優(yōu)的參數(shù)選擇。在此基礎(chǔ)上,對比基于相關(guān)峰和基于經(jīng)典統(tǒng)計特征的設(shè)備識別分類性能。在信噪比為0 dB和20 dB時,基于相關(guān)峰的識別率分別為85.76%和91.11%,成功驗證了本文系統(tǒng)和方法的有效性。