常婷婷,翟江濤,戴躍偉
(1.江蘇科技大學(xué)電子信息學(xué)院,江蘇鎮(zhèn)江212003;2.南京信息工程大學(xué)電子與信息工程學(xué)院,南京210044)
隨著互聯(lián)網(wǎng)技術(shù)的快速崛起,中國已發(fā)展為5G網(wǎng)絡(luò)大國,與相對封閉的傳統(tǒng)移動通信系統(tǒng)相比,“5G+移動互聯(lián)網(wǎng)”大數(shù)據(jù)背景下人和物的連接更緊密,但同時也造成網(wǎng)絡(luò)攻擊和惡意代碼出現(xiàn)的頻率大幅提高,給網(wǎng)絡(luò)用戶隱私數(shù)據(jù)保護(hù)、移動辦公和國家基礎(chǔ)網(wǎng)絡(luò)設(shè)施安全帶來重大影響。2019年,美國阿拉斯加拉文航空公司宣布其計算機(jī)網(wǎng)絡(luò)受到惡意攻擊,并在假日出行高峰期取消了至少6 班次航班,影響到近260 名乘客的正常出行。同年,美國路易斯安那州新奧爾良市遭到網(wǎng)絡(luò)攻擊,政府在當(dāng)日宣布該市進(jìn)入緊急狀態(tài)。隨著網(wǎng)絡(luò)攻擊出現(xiàn)頻率的上升,網(wǎng)絡(luò)安全維護(hù)成為研究人員關(guān)注的熱點(diǎn)。
網(wǎng)絡(luò)隱蔽通信是繼加密技術(shù)后一種新興的信息傳輸安全技術(shù),其根據(jù)隱蔽信息隱藏方式的不同分為存儲式隱蔽通信和時間式隱蔽通信。存儲式隱蔽通信主要采用向網(wǎng)絡(luò)協(xié)議的冗余位中嵌入IP 頭的擴(kuò)展與填充段[1-3]、IP 標(biāo)志符[4-5]等隱蔽信息來構(gòu)建存儲式隱信道,由于網(wǎng)絡(luò)數(shù)據(jù)包對上述字段內(nèi)容的檢查不嚴(yán)格,因此在其中嵌入此類信息不易被發(fā)現(xiàn)。除了這種傳統(tǒng)的存儲式隱蔽通信外,近年來還出現(xiàn)基于多鏈路傳輸序列的隱信道[6]、基于DNS 協(xié)議的隱信道[7]等新型存儲式隱蔽通信。多鏈路傳輸序列的隱信道構(gòu)建隱蔽通道的機(jī)制不再與網(wǎng)絡(luò)協(xié)議冗余位有關(guān),僅與數(shù)據(jù)包的時間特性有關(guān),這與時間式隱蔽通信類似,但因?yàn)槠錁?gòu)建方法是基于數(shù)據(jù)包的到達(dá)序列編碼,與包間時延無關(guān),所以其本質(zhì)仍屬于存儲式隱信道,由于其兼具時間式隱蔽通信的隱蔽性與存儲式隱蔽通信的穩(wěn)定性,因此具有良好的實(shí)用價值。DNS 協(xié)議在網(wǎng)絡(luò)運(yùn)行中占有重要地位,一般不會被防火墻等安全系統(tǒng)阻攔,因此DNS 協(xié)議是實(shí)現(xiàn)隱蔽通信的常用手段。2019年,云服務(wù)商巨頭亞馬遜公司AWSDNS 服務(wù)器遭到DDoS 攻擊,攻擊者利用垃圾網(wǎng)絡(luò)流量堵塞系統(tǒng),造成服務(wù)器無法訪問。此次攻擊持續(xù)15 小時,大量數(shù)據(jù)包阻塞了DNS 系統(tǒng),其中一些合法的域名請求被釋放以緩解問題,由于網(wǎng)站和應(yīng)用軟件嘗試聯(lián)系S3 存儲桶等亞馬遜后端托管的系統(tǒng)可能失敗,從而導(dǎo)致用戶會看到出錯信息或空白頁面。
時間式隱信道通常利用數(shù)據(jù)包的包間時延特性來傳遞秘密信息,由于其不改變數(shù)據(jù)包內(nèi)部信息,因此隱蔽性較存儲式隱信道更高[8-10]。2013年,美國將該方法應(yīng)用于匿名網(wǎng)絡(luò)節(jié)點(diǎn)追蹤。時間式隱信道一般以on/off 和delay 模式來模擬真實(shí)網(wǎng)絡(luò)傳輸?shù)陌g間隔以進(jìn)行隱蔽信息傳輸[11],在數(shù)據(jù)傳輸過程中IP報文被存儲轉(zhuǎn)發(fā)的情況下,目前常用的檢測算法會失效。此外,還有model-based 模式的隱蔽信道[12-13],其主要通過擬合現(xiàn)實(shí)通信時的數(shù)據(jù)模型來構(gòu)建隱秘信道。model-based 模式下的隱蔽通信模型具有更好的隱蔽性,且由于網(wǎng)絡(luò)的時間特性較復(fù)雜,因此對該網(wǎng)絡(luò)隱信道的檢測更困難。其中,針對Skype 流量的隱寫較大的情況,研究人員提出一種隱蔽通道檢測算法[14],先對獲取的Skype 流量進(jìn)行基于Erlang模型的擬合,再利用Walsh 編碼構(gòu)建隱蔽通道,采用傳統(tǒng)數(shù)據(jù)隨機(jī)分組的方式,將80%的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),20%的數(shù)據(jù)作為測試數(shù)據(jù),并采用BP 神經(jīng)網(wǎng)絡(luò)方法進(jìn)行檢測。該方法雖然檢測率較高,但也具有較高的虛警率。
針對上述隱信道,在處理訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)時,可提取峰態(tài)、偏態(tài)以及標(biāo)準(zhǔn)偏差的差值等特征,其中偏態(tài)和峰態(tài)用于觀察包間時延的整體分布情況。由于在基于Erlang 模型構(gòu)建隱信道的過程中,在對應(yīng)區(qū)間隨機(jī)選取一個包間隔(IPD)會破壞正常通信時包間時延的分布,因此峰態(tài)和偏態(tài)作為特征能起到較好的篩選排查作用。標(biāo)準(zhǔn)偏差的差值可用于研究較小范圍內(nèi)包間時延之間的關(guān)系,文獻(xiàn)[15]將其引入時間式隱信道的檢測算法并取得了較好的檢測效果,因此可選取標(biāo)準(zhǔn)偏差的差值作為訓(xùn)練特征,然后采用五折交叉驗(yàn)證法結(jié)合無重復(fù)抽樣技術(shù),使得每次迭代過程中每個樣本點(diǎn)只有一次被劃入訓(xùn)練集或測試集。同時,找到使得模型泛化性能最優(yōu)的超參值,并在全部訓(xùn)練集上重新訓(xùn)練模型,使用獨(dú)立測試集對模型性能做出最終評價,以保證分類精度的準(zhǔn)確性并有效避免模型產(chǎn)生過擬合現(xiàn)象。
本文提出一種Skype 時間式隱信道檢測方法。在傳統(tǒng)方法的基礎(chǔ)上增加峰態(tài)、偏態(tài)以及標(biāo)準(zhǔn)偏差的差值3 種特征,并采用Xgboost 模型判決[16-17]和檢測待測數(shù)據(jù),利用一階導(dǎo)數(shù)和二階導(dǎo)數(shù)將樹模型的復(fù)雜度作為目標(biāo)函數(shù)的正則項(xiàng)考慮,已避免出現(xiàn)過擬合現(xiàn)象。
對正常數(shù)據(jù)的累積分布函數(shù)(CDF)進(jìn)行擬合,可實(shí)現(xiàn)隱秘數(shù)據(jù)的嵌入且不易被檢測[13]。因此,本文以常用的Skype 通信流量為載體,擬合出CDF 模型?;赟kype 的時間式網(wǎng)絡(luò)隱寫算法流程如圖1所示。
圖1 基于Skype 的時間式網(wǎng)絡(luò)隱寫算法流程Fig.1 Procedure of timing network steganography algorithm based on Skype
該算法具體流程如下:
1)獲取正常環(huán)境下Skype 通信的流量數(shù)據(jù),建立CDF 模型(與Erlang 模型類似),其累積分布函數(shù)P(x;m,λx)的計算公式如下:
其中:x為包間時延,m=1 為圖形參數(shù),λ為速率參數(shù),K為擴(kuò)頻編碼時使用正交信道的數(shù)目。
2)采用N階Walsh 碼進(jìn)行二進(jìn)制擴(kuò)頻編碼如下:
其中:ck為N階Walsh 碼。
3)將正常通信數(shù)據(jù)的CDF 劃分為F=3 個區(qū)間,每個區(qū)間再分為2m+1 個小區(qū)間,以保證每個區(qū)間之間保持最小的漢明距離。s中不同的值依次與CDF的F個小區(qū)間對應(yīng),并在相應(yīng)區(qū)間內(nèi)選擇一個IPD。
本文檢測對象是對正常Skype 數(shù)據(jù)的CDF 模型進(jìn)行擬合實(shí)現(xiàn)的隱寫,因此較一般隱信道具有更強(qiáng)的抗檢測性。信息熵作為目前有效的時間式隱信道檢測手段,與上述隱寫方式相結(jié)合的檢測效果不佳,因此本文提取以下7 種特征組成特征矩陣進(jìn)行分類器的訓(xùn)練。
1)基于時間序列的馬爾可夫(Markov)轉(zhuǎn)移矩陣。設(shè)ti為第i個包間間隔,ti+1為第i+1 個包間間隔,如果ti+1<ti,則mi=0;否則mi=1,由此可得到1 條馬爾可夫鏈。由式(4)可得到馬爾可夫轉(zhuǎn)移矩陣的元素:
由于隱蔽信息的IPD 根據(jù)特定的規(guī)律隨機(jī)調(diào)制,使得馬爾可夫轉(zhuǎn)移矩陣中的4 個元素相對較穩(wěn)定,但是在現(xiàn)實(shí)網(wǎng)絡(luò)中,由于受到各方面因素的影響,馬爾可夫轉(zhuǎn)移矩陣中的元素可能會受到干擾,與含密數(shù)據(jù)的馬爾可夫移矩陣中元素有所不同,因此將其作為一種提取特征。
2)信息熵。熵可反映出一個整體的不確定性以及信息容量。由于時間式隱蔽通信會使IPD 整體分布發(fā)生變化,使其不同于正常通信的信息熵值,且對于傳統(tǒng)時間式隱信道而言,基于信息熵的檢測是一種常用的檢測手段,因此將信息熵作為一種提取特征,具體操作過程如下:
(1)分別從正常數(shù)據(jù)和含密數(shù)據(jù)中提取N個數(shù)據(jù)包,分為w=1 000 個窗口。
(2)將正常數(shù)據(jù)的IPD 分為大小相等的L塊,計算IPD 落在每塊中的概率。
(3)根據(jù)式(5)計算每個窗口的信息熵,設(shè)置檢驗(yàn)閥值,比較測試數(shù)據(jù)的信息熵值和檢驗(yàn)閥值來判斷數(shù)據(jù)是否含密,計算公式如下:
其中:Pni為時延信息落在每個塊中的概率。
3)均值與方差。包間時延的均值和方差與當(dāng)前的網(wǎng)絡(luò)環(huán)境密切相關(guān)。當(dāng)網(wǎng)絡(luò)質(zhì)量較好時,正常數(shù)據(jù)的包間時延均值一般小于含密數(shù)據(jù),此時方差較小;當(dāng)網(wǎng)絡(luò)出現(xiàn)擁塞時,正常數(shù)據(jù)的包間時延均值會隨著包間時延的增大而增加,方差也較大。由此可知,正常數(shù)據(jù)包間時延均值與方差的波動一般比較大。含密數(shù)據(jù)的包間時延通常按照一定規(guī)律隨機(jī)選擇,其均值和方差較正常數(shù)據(jù)波動更小,因此將均值和方差作為一種提取特征,其計算公式分別如下:
其中:n為樣本時延總數(shù)。
4)DCT 系數(shù)。傳統(tǒng)隱信道的檢測僅注重數(shù)據(jù)之間的時域特性,忽視了頻域特性的重要性。目前較常用的時頻域轉(zhuǎn)換方法屬于DCT 變換,研究人員將DCT 系數(shù)應(yīng)用于隱蔽通道檢測取得較好的效果,因此將DCT 系數(shù)作為一種提取特征,相關(guān)計算公式如下:
其中:0 ≤p≤M-1,0 ≤q≤N-1,M和N分別為A的行數(shù)和列數(shù);B為變換后的矩陣。
5)ε-相似度。由式(11)可計算出相鄰兩個數(shù)據(jù)包之間的差異率dif,dif 小于ε的包間時延個數(shù)占總包間時延個數(shù)的比值稱為ε-相似度E,由式(12)計算得到。
其中:num(dif <ε)表示差異率小于ε的包間時延總數(shù)。
本文采用模型擬合方法構(gòu)建隱蔽信道,對含密數(shù)據(jù)構(gòu)建的CDF 模型與現(xiàn)實(shí)數(shù)據(jù)的CDF 模型相似,但是ε-相似度是基于鄰近的包間間隔特性進(jìn)行分析,含密數(shù)據(jù)與真實(shí)數(shù)據(jù)之間可能會存在較明顯的差異,因此將ε-相似度作為一種提取特征。
6)峰態(tài)(K)和偏態(tài)(S)。偏態(tài)和峰態(tài)用于觀察包間時延的整體分布情況,在基于Erlang 模型進(jìn)行隱寫的過程中,在對應(yīng)區(qū)間隨機(jī)選取一個IPD,難免會破壞正常通信時包間時延的分布,因此將峰態(tài)和偏態(tài)作為一種提取特征,其計算公式如下:
其中:為樣本的平均值。
7)包間時延標(biāo)準(zhǔn)差的差值(C)。在研究較小范圍內(nèi)包間時延之間的關(guān)系時,研究人員將包間時延標(biāo)準(zhǔn)差引入時間式隱信道檢測算法取得較好的檢測效果[15],本文取標(biāo)準(zhǔn)差的差值作為一種分類器的訓(xùn)練特征。分別從正常數(shù)據(jù)和含密數(shù)據(jù)中提取N個數(shù)據(jù)包并分為w=1 000 個窗口,再將這w個窗口分為w/2 個窗口,分別求得各自的標(biāo)準(zhǔn)偏差σi和σj,再計算兩個窗口之間標(biāo)準(zhǔn)差的差值C,計算公式如下:
其中:為樣本的平均值。
2.2.1 梯度提升樹算法
梯度提升樹(GBDT)算法是2001年FRIEDMAN等提出的一種boosting 算法[18],其由多棵決策樹組合而成,是通過迭代產(chǎn)生的一種決策樹算法,并將所有決策樹的統(tǒng)計結(jié)果作為最終預(yù)測的結(jié)果,GBDT算法的基本原理如圖2所示。
圖2 GBDT 算法的基本原理Fig.2 Basic principle of GBDT algorithm
對于回歸樹的分裂結(jié)點(diǎn),如果是在平方損失函數(shù)中,則是對殘差的擬合;如果是在一般損失函數(shù)中(梯度下降),則是對殘差近似值的擬合。當(dāng)劃分分裂結(jié)點(diǎn)時,需列舉出所有的特征值,然后選取劃分點(diǎn)并統(tǒng)計每棵樹的預(yù)測結(jié)果,統(tǒng)計結(jié)果即為最終的預(yù)測結(jié)果。
2.2.2 Xgboost 算法原理
Xgboost 是2014年誕生的用于梯度提升樹算法的機(jī)器學(xué)習(xí)函數(shù)庫[19],該函數(shù)庫因?qū)W習(xí)效果好和訓(xùn)練速度快獲得廣泛關(guān)注。在2015年KAGGLE 競賽中獲勝的29 個算法中,有17 個使用了Xgboost,相較梯度提升算法在另一個常用機(jī)器學(xué)習(xí)庫scikit-learn 中的實(shí)現(xiàn)情況,Xgboost的性能有10 倍以上的提升。此外,Xgboost將損失函數(shù)從平方損失推廣到二階可導(dǎo)的損失,加入了正則化項(xiàng),支持列抽樣,能對連續(xù)型特征進(jìn)行處理,同時可以利用數(shù)據(jù)的稀疏性,當(dāng)數(shù)據(jù)量大時有效提高硬盤吞吐率。目前Xgboost 算法被廣泛用于企業(yè)破產(chǎn)風(fēng)險評估、物聯(lián)網(wǎng)消費(fèi)人群減少評估、網(wǎng)絡(luò)安全風(fēng)險評估[20-21]等領(lǐng)域。
Xgboost 算法是在GBDT 算法的基礎(chǔ)上略加改進(jìn)得到,其與GBDT 算法存在一些差異[22]。GBDT 算法只采用了一階導(dǎo)數(shù)進(jìn)行優(yōu)化,而Xgboost算法在優(yōu)化時將一階導(dǎo)數(shù)和二階導(dǎo)數(shù)相結(jié)合,引入樹模型的復(fù)雜度,并將其作為目標(biāo)函數(shù)里的正則項(xiàng),可有效避免發(fā)生過擬合。Xgboost算法中boosting 樹模型結(jié)構(gòu)如圖3所示(其中,f(□)=2.0+0.9=2.9,f(○)=-1.0+0.9=-0.1)。
圖3 Xgboost 算法中boosting 樹模型結(jié)構(gòu)Fig.3 Structure of boosting tree model in Xgboost algorithm
Xgboost 算法的具體實(shí)現(xiàn)過程如下:
1)設(shè)Xgboost 模型第t輪的目標(biāo)函數(shù)為:
其中:l為第t輪的損失項(xiàng);Ω為模型中決策樹的正則項(xiàng),其計算公式如下:
2)由泰勒展開公式得到:
設(shè)以下條件成立:
將式(18)~式(21)代入式(17)得到:
3)對式(22)進(jìn)行求解可得最優(yōu)系數(shù)與目標(biāo)函數(shù)最優(yōu)值分別如下:
4)根據(jù)式(23)和式(24)的最優(yōu)結(jié)果確定最優(yōu)決策樹結(jié)構(gòu),進(jìn)而進(jìn)行計算和預(yù)測。
為保證實(shí)驗(yàn)數(shù)據(jù)的一般性和實(shí)驗(yàn)結(jié)果的可靠性,本文實(shí)驗(yàn)所用數(shù)據(jù)是在教育網(wǎng)-教育網(wǎng)、教育網(wǎng)-中國鎮(zhèn)江移動有線網(wǎng)、中國鎮(zhèn)江移動有線網(wǎng)-中國六安電信有線網(wǎng)3 種不同的網(wǎng)絡(luò)環(huán)境下抓取獲得。在教育網(wǎng)-教育網(wǎng)環(huán)境下登錄Skype 建立語音連接,分別抓取正常流量數(shù)據(jù)60 326 條和65 200 條并編號為M1 和M2;在教育網(wǎng)-中國鎮(zhèn)江移動有線網(wǎng)環(huán)境下登錄Skype 建立語音連接,分別抓取正常流量數(shù)據(jù)34 465 條和46 519 條并編號為N1 和N2;在中國鎮(zhèn)江移動有線網(wǎng)-中國六安電信有線網(wǎng)環(huán)境下登錄Skype建立語音連接,抓取正常流量數(shù)據(jù)65 178 條,編號為P。按照本文隱信道構(gòu)建方法模擬生成含密流量數(shù)據(jù)Q1(40 000 條)以及Q2(4 000 條)。
本文實(shí)驗(yàn)流程如圖4所示,具體如下:
圖4 本文實(shí)驗(yàn)流程Fig.4 Procedure of the experiment in this paper
1)將正常數(shù)據(jù)與含密數(shù)據(jù)混合后按大小為w=1 000 的窗口進(jìn)行分割,兩種數(shù)據(jù)用標(biāo)識符標(biāo)記,正常數(shù)據(jù)標(biāo)記為0,含密數(shù)據(jù)標(biāo)記為1。
2)在w個數(shù)據(jù)中提取7 種特征,形成1 個13 維數(shù)組,數(shù)組中包含馬爾可夫轉(zhuǎn)移矩陣的4 個元素、熵值、包間時延均值、峰態(tài)、偏態(tài)、包間時延方差、DCT系數(shù)最大值、DCT 系數(shù)最小值、ε-相似度(ε=0.5)以及標(biāo)準(zhǔn)偏差的差值。
3)針對上述數(shù)據(jù)集預(yù)處理得到的實(shí)驗(yàn)數(shù)據(jù),采用五折交叉驗(yàn)證,同時為證明在本實(shí)驗(yàn)背景下Xgboost 算法相較Logistic 回歸算法、決策樹算法、隨機(jī)森林算法等目前較流行的算法具有更好的適用性,使用上述算法分別進(jìn)行訓(xùn)練和建模預(yù)測。
五折交叉驗(yàn)證步驟如圖5所示,具體如下:
圖5 五折交叉驗(yàn)證原理圖Fig.5 Schematic diagram of five-fold cross validation
1)將實(shí)驗(yàn)數(shù)據(jù)平均分為5 份,在分割過程中保證每份數(shù)據(jù)均含有兩種標(biāo)簽樣本。
2)保留1 份單獨(dú)的數(shù)據(jù)樣本作為測試數(shù)據(jù),其他4 份數(shù)據(jù)樣本用于對上述4 種分類器逐一進(jìn)行訓(xùn)練,交叉驗(yàn)證重復(fù)5 次,每個樣本數(shù)據(jù)測試1 次,當(dāng)輸出結(jié)果為1 時表示為含密數(shù)據(jù),當(dāng)輸出結(jié)果為0 時表示為正常數(shù)據(jù)。
3)計算5 次結(jié)果的平均值作為各個分類器的評價指標(biāo)最終結(jié)果。
本文采用基于Xgboost 的方法(以下稱為本文方法)對待測數(shù)據(jù)進(jìn)行分組實(shí)驗(yàn),并將所得結(jié)果與BP神經(jīng)網(wǎng)絡(luò)方法(以下稱為BP 方法)結(jié)果[10]進(jìn)行對比。
3.2.1 對比實(shí)驗(yàn)結(jié)果
分別對單組數(shù)據(jù)、多組數(shù)據(jù)以及不同實(shí)驗(yàn)環(huán)境數(shù)據(jù)進(jìn)行檢測,以下為對比實(shí)驗(yàn)的結(jié)果。
1)單組數(shù)據(jù)檢測。將M1 與Q1(單組數(shù)據(jù)1)、N1 與Q1(單組數(shù)據(jù)2)分別作為原始數(shù)據(jù)通過五折交叉驗(yàn)證進(jìn)行Xgboost 判決,得到實(shí)驗(yàn)結(jié)果如表1 和表2所示。
表1 單組數(shù)據(jù)1 檢測結(jié)果對比Table 1 Comparison of detection results of single group data 1
表2 單組數(shù)據(jù)2 檢測結(jié)果對比Table 2 Comparison of detection results of single group data 2
2)多組數(shù)據(jù)檢測。將M1、M2、N1、N2、Q1、Q2作為原始數(shù)據(jù)通過五折交叉驗(yàn)證進(jìn)行Xgboost 判決,得到實(shí)驗(yàn)結(jié)果如表3所示。
表3 多組數(shù)據(jù)檢測結(jié)果對比Table 3 Comparison of detection results of multi-group data
3)不同實(shí)驗(yàn)環(huán)境數(shù)據(jù)檢測。將M1、N1、P、Q1、Q2 作為原始數(shù)據(jù)通過五折交叉驗(yàn)證進(jìn)行Xgboost 判決,得到實(shí)驗(yàn)結(jié)果如表4所示。
表4 不同環(huán)境數(shù)據(jù)檢測結(jié)果對比Table 4 Comparison of detection results of different environmental data
本文添加了峰態(tài)、偏態(tài)以及標(biāo)準(zhǔn)偏差的差值3 種特征,再利用五折交叉驗(yàn)證和Xgboost 算法,根據(jù)不同實(shí)驗(yàn)得到了相應(yīng)的檢測率和虛警率。在檢測率方面,雖然本文方法偶爾略低于BP 方法,但檢測率依然保持在0.999 0 以上,基本與BP 方法檢測率相同;在虛警率方面,本文方法較BP 方法最多降低約10 個百分點(diǎn)??傮w而言,本文方法檢測率更高且虛警率更低。
3.2.2 適用性實(shí)驗(yàn)結(jié)果
為進(jìn)一步驗(yàn)證Xgboost 算法在本文實(shí)驗(yàn)研究背景下的適用性,另外選取精確率(P)、召回率(R)、精確率和召回率的調(diào)和均值(F1)、準(zhǔn)確率(A)這4 個性能指標(biāo),加上檢測率和虛警率共采用6 個性能指標(biāo)來比較Xgboost 分類器和邏輯回歸、決策樹、隨機(jī)森林等當(dāng)前較流行分類器的分類效果。
對二分類問題而言,如果實(shí)例是正類且被預(yù)測為正類,則稱為真正類(True Positive,TP);如果實(shí)例是負(fù)類且被預(yù)測成正類,則稱為假正類(False Positive,F(xiàn)P);如果實(shí)例是負(fù)類且被預(yù)測成負(fù)類,則稱為真負(fù)類(True Negative,TN);如果實(shí)例是正類且被預(yù)測成負(fù)類,則稱為假負(fù)類(False Negative,F(xiàn)N)。準(zhǔn)確率A用于描述分類器的分類效果,準(zhǔn)確率越大,分類器分類效果越好。當(dāng)A=1 時,該分類器是完美分類器;當(dāng)0.5<A<1 時,該分類器的結(jié)果優(yōu)于隨機(jī)猜測結(jié)果;當(dāng)A=0.5 時,該分類器的結(jié)果與隨機(jī)猜測結(jié)果接近;當(dāng)A<0.5 時,該分類器的結(jié)果比隨機(jī)猜測結(jié)果要差。
相關(guān)計算公式如下:
其中:TP 為正類預(yù)測正確的個數(shù),F(xiàn)P 為負(fù)類預(yù)測錯誤的個數(shù),TN 為負(fù)類預(yù)測正確的個數(shù),F(xiàn)N 為正類預(yù)測錯誤的個數(shù)。
各分類器的性能指標(biāo)如表5所示。由表5 可見,Xgboost 分類器和隨機(jī)森林分類器均有較好的分類效果,決策樹分類器次之,邏輯回歸分類器效果最差。邏輯回歸分類器的準(zhǔn)確率雖然達(dá)到0.987 51,但是另外5 項(xiàng)指標(biāo)遠(yuǎn)低于其他3 種分類器,其分類效果最差。決策樹分類器和隨機(jī)森林分類器的各項(xiàng)指標(biāo)都較好,但Xgboost 分類器的檢測率相較決策樹分類器提升約0.5 個百分點(diǎn),較隨機(jī)森林分類器提升0.1 個百分點(diǎn)。Xgboost 分類器的召回率略高于決策樹分類器,相較隨機(jī)森林分類器提升約0.1 個百分點(diǎn)。Xgboost分類器的調(diào)和均值相對決策樹分類器提升約2 個百分點(diǎn),相較隨機(jī)森林分類器提升約1 個百分點(diǎn)。Xgboost 分類器的準(zhǔn)確率為1.000 00,在本文中分類效果接近理想狀態(tài),較決策樹分類器提升約2 個百分點(diǎn)。Xgboost 分類器的虛警率在4 個分類器中最低。雖然Xgboost 分類器精確率略低于隨機(jī)森林分類器,但從總體來看,Xgboost分類器的分類效果最佳。
表5 不同分類器的性能指標(biāo)Table 5 Performance indicators of different classifiers
本文提出一種利用Xgboost 算法的Skype 時間式隱信道檢測方法?;谡Mㄐ艛?shù)據(jù)的CDF 模型建立網(wǎng)絡(luò)隱蔽通道提取數(shù)據(jù)特征并構(gòu)建特征向量,采用五折交叉驗(yàn)證法和Xgboost 算法進(jìn)行判決。同時,找到使模型泛化性能最優(yōu)的超參值,利用獨(dú)立測試集對模型性能進(jìn)行評價,以提高分類精度并避免產(chǎn)生過擬合現(xiàn)象。實(shí)驗(yàn)結(jié)果表明,該方法較BP 神經(jīng)網(wǎng)絡(luò)方法檢測率更高且虛警率更低。后續(xù)將在本文方法的基礎(chǔ)上對新型時間式隱信道檢測進(jìn)行研究,進(jìn)一步提高檢測率。