王騰飛,蔡滿(mǎn)春,岳 婷,蘆天亮
中國(guó)人民公安大學(xué) 警務(wù)信息工程與網(wǎng)絡(luò)安全學(xué)院,北京100076
Tor網(wǎng)絡(luò)作為目前覆蓋范圍最大、活躍節(jié)點(diǎn)最多、服務(wù)類(lèi)型最完善的匿名通信系統(tǒng),在保護(hù)網(wǎng)絡(luò)用戶(hù)隱私的同時(shí)也成為了違法犯罪份子隱匿的空間。對(duì)Tor匿名流量的識(shí)別是實(shí)現(xiàn)網(wǎng)絡(luò)監(jiān)管與審查的基礎(chǔ),有著重要的研究意義和價(jià)值。
Tor 匿名流量本質(zhì)上是一種經(jīng)過(guò)加密混淆的流量,對(duì)其進(jìn)行識(shí)別的本質(zhì)是對(duì)加密混淆流量的分類(lèi),在該領(lǐng)域,傳統(tǒng)的機(jī)器學(xué)習(xí)方法目前已經(jīng)取得了一定的研究成果,但也存在著模型泛化能力差、健壯性不足、復(fù)雜度高等方面的缺陷。本文在分析總結(jié)已有加密流量分類(lèi)技術(shù)、Tor匿名流量識(shí)別分類(lèi)技術(shù)的基礎(chǔ)上,結(jié)合Tor網(wǎng)絡(luò)協(xié)議的特性,提出了一種基于Histogram[1]的Tor 匿名流量特征描述方法,在增加了時(shí)間維度相關(guān)特征的基礎(chǔ)上,通過(guò)Histogram對(duì)相關(guān)特征進(jìn)一步離散化處理,獲得更加豐富的特征描述信息,提高特征的魯棒性;針對(duì)Tor匿名流量連續(xù)、非線(xiàn)性的特點(diǎn),將XGBoost 集成學(xué)習(xí)的思想應(yīng)用到Tor匿名流量識(shí)別中,該方法可以很好地處理Tor匿名流量中包長(zhǎng)、時(shí)間間隔、流持續(xù)時(shí)間等非線(xiàn)性的統(tǒng)計(jì)特征。圍繞基于XGBoost的Tor匿名流量識(shí)別技術(shù),本文的主要貢獻(xiàn)如下:
(1)提出了一種Tor 匿名流量特征描述方法,針對(duì)Tor 匿名流量,在數(shù)據(jù)流粒度下對(duì)時(shí)間相關(guān)的流量特征進(jìn)行描述,通過(guò)Histogram 對(duì)相關(guān)的特征進(jìn)行離散化處理,提高特征在不同網(wǎng)絡(luò)環(huán)境下的魯棒性。
(2)基于XGboost,提出了一種新的Tor匿名流量識(shí)別方法,結(jié)合集成學(xué)習(xí),將特征提取與模型訓(xùn)練過(guò)程結(jié)合起來(lái),在較小的特征維度下實(shí)現(xiàn)對(duì)Tor匿名網(wǎng)絡(luò)流量數(shù)據(jù)流粒度的識(shí)別。較小的特征維度可以使模型更加簡(jiǎn)單,該檢測(cè)模型也不依賴(lài)于任何有關(guān)協(xié)議和拓?fù)涞南闰?yàn)知識(shí)。
對(duì)加密流量的識(shí)別技術(shù)伴隨著流量加密混淆技術(shù)而出現(xiàn)。最初,Tor 目錄服務(wù)器與OR 中繼節(jié)點(diǎn)的IP 地址均是公開(kāi)的,可以直接根據(jù)IP地址識(shí)別阻斷Tor匿名通信流量,但隨著B(niǎo)ridge、Meek 等混淆技術(shù)的出現(xiàn),基于IP地址過(guò)濾的方法不再有效。目前針對(duì)混淆流量的識(shí)別技術(shù)根據(jù)實(shí)現(xiàn)原理可以分為兩大類(lèi):基于DPI(深度包檢測(cè))的識(shí)別技術(shù)和基于機(jī)器學(xué)習(xí)的流量識(shí)別技術(shù)[2],國(guó)內(nèi)外主要研究現(xiàn)狀如下:
深度包檢測(cè)技術(shù)已經(jīng)應(yīng)用于一些國(guó)家層面的網(wǎng)絡(luò)審查[3],但檢測(cè)技術(shù)主要是基于靜態(tài)指紋特征。文獻(xiàn)[4]針對(duì)FTE混淆流量提出了一種基于熵的識(shí)別方法,將混淆流量中第一個(gè)HTTP 報(bào)文中GET 字段的URI 信息熵與正常流量進(jìn)行比較,能夠獲得較高的識(shí)別率,但是FTE 混淆插件可以通過(guò)自定義正則表達(dá)式將流量偽裝成其他協(xié)議類(lèi)型的流量,致使基于URI熵的識(shí)別方法適用性不高。文獻(xiàn)[5]發(fā)現(xiàn)Tor 程序中密碼套件與數(shù)字證書(shū)具有一致性,提出了一種基于TLS指紋的Tor流量在線(xiàn)識(shí)別方法,能夠在Tor協(xié)議不更換密碼套件與證書(shū)序列號(hào)的情況下,達(dá)到100%的識(shí)別率,但當(dāng)Tor 程序改變了其密碼套件或數(shù)字證書(shū)特征時(shí),該方法需同步做出相應(yīng)的修改。文獻(xiàn)[6]分析總結(jié)出Meek插件7個(gè)穩(wěn)定的流特征,提出了通過(guò)其中靜態(tài)指紋特征對(duì)Meek 流量進(jìn)行識(shí)別的兩種方法,但該方法中較為關(guān)鍵的“輪詢(xún)請(qǐng)求特征”易受到網(wǎng)絡(luò)環(huán)境的影響,健壯性和矯正能力較差。
基于機(jī)器學(xué)習(xí)的分類(lèi)方法在加密流量識(shí)別中取得了廣泛的應(yīng)用,但基于機(jī)器學(xué)習(xí)的流量識(shí)別與分類(lèi)過(guò)于依賴(lài)特征的設(shè)計(jì)與選擇,特征的穩(wěn)定性會(huì)極大地影響模型的效果。文獻(xiàn)[7]在電路級(jí)和數(shù)據(jù)流級(jí)分別選取信元數(shù)、上行流量信元總數(shù)、下行信元與上行信元比等特征從電路級(jí)和數(shù)據(jù)流級(jí)兩個(gè)維度上實(shí)現(xiàn)Tor流量的分類(lèi),但在開(kāi)放環(huán)境中模型識(shí)別效率不佳。文獻(xiàn)[8]通過(guò)提取源端口、目的端口、總報(bào)文數(shù)等35 種特征,將每一條流視為一個(gè)粒子并定義粒子間操作,用重力聚類(lèi)算法解決Tor 流量分類(lèi)問(wèn)題,測(cè)試效果優(yōu)于DBSCAN、K-means等聚類(lèi)算法,但選取的特征的穩(wěn)定性會(huì)受到混淆插件的干擾。文獻(xiàn)[9]提出了一種基于兩級(jí)過(guò)濾的Obfs4 流量檢測(cè)方法,依次利用粗粒度的快速過(guò)濾和細(xì)粒度的準(zhǔn)確識(shí)別來(lái)實(shí)現(xiàn)Obfs4流量的高精度實(shí)時(shí)識(shí)別,但該方法對(duì)流量數(shù)據(jù)集要求較高,在Tor流量稀疏的環(huán)境中,適用性較差。機(jī)器學(xué)習(xí)方法對(duì)特征的健壯性要求較高,隨著Tor 混淆插件的更新,明文字段及部分統(tǒng)計(jì)字段的特征開(kāi)始不再有效,模型識(shí)別率會(huì)大幅度降低。
深度學(xué)習(xí)方法能夠避免傳統(tǒng)機(jī)器學(xué)習(xí)提取流特征的過(guò)程,在Tor 匿名流量識(shí)別中也取得了一定的進(jìn)展。文獻(xiàn)[10]將原始分組序列作為輸入,用CNN深度神經(jīng)網(wǎng)絡(luò)對(duì)Tor、網(wǎng)頁(yè)、語(yǔ)音、視頻等17 類(lèi)流量進(jìn)行分類(lèi),達(dá)到95%的精確率。但模型依賴(lài)的特征數(shù)多,訓(xùn)練開(kāi)銷(xiāo)較大。文獻(xiàn)[11]提出了一種基于深度神經(jīng)網(wǎng)絡(luò)的方法來(lái)檢測(cè)異常流量,該方法不依賴(lài)于具體的數(shù)據(jù)載荷,通過(guò)基于流的入侵檢測(cè)模型實(shí)現(xiàn)異常流量的識(shí)別,但模型更新迭代時(shí)間長(zhǎng),實(shí)用性不強(qiáng)。雖然深度學(xué)習(xí)方法實(shí)驗(yàn)中取得了良好效果,但數(shù)據(jù)集需求量大、擴(kuò)展性差,真實(shí)環(huán)境中效果有待驗(yàn)證。
已有的研究大都建立在網(wǎng)絡(luò)環(huán)境穩(wěn)定、數(shù)據(jù)集分布平衡的假設(shè)之上,且機(jī)器學(xué)習(xí)方法存在特征健壯性不強(qiáng)、易失效的問(wèn)題;深度學(xué)習(xí)的方法盡管實(shí)現(xiàn)了特征的自動(dòng)提取,但往往需要龐大的特征維度才能夠保證模型的準(zhǔn)確率,訓(xùn)練成本高且模型更迭效率低。從實(shí)踐角度出發(fā),網(wǎng)絡(luò)環(huán)境的波動(dòng)、Tor流量數(shù)據(jù)的稀疏都是不可忽略的現(xiàn)實(shí)因素,好的分類(lèi)模型除了擁有可靠穩(wěn)定的特征設(shè)計(jì)外,還應(yīng)當(dāng)能夠在一定程度上適應(yīng)網(wǎng)絡(luò)環(huán)境的變化并且能夠?qū)^少樣本數(shù)的類(lèi)別擁有較好的識(shí)別率。因此,本文提出了一種魯棒性強(qiáng)、特征維度小的Tor匿名流量識(shí)別模型,論文在數(shù)據(jù)集ISCXTor2016[12]上進(jìn)行了相關(guān)驗(yàn)證實(shí)驗(yàn)。
本文提出的Tor匿名流量識(shí)別模型的核心思想是在計(jì)算獲取數(shù)據(jù)流粒度時(shí)間相關(guān)性特征的基礎(chǔ)上,對(duì)特征進(jìn)行離散化預(yù)處理,利用XGboost對(duì)預(yù)處理后的特征進(jìn)行訓(xùn)練,從而完成對(duì)Tor匿名流量的識(shí)別。整體架構(gòu)如圖1所示,主要包括流量采集、特征獲取、數(shù)據(jù)預(yù)處理以及識(shí)別分類(lèi)四個(gè)模塊,分別實(shí)現(xiàn)原始流量樣本的收集、數(shù)據(jù)流粒度上時(shí)間相關(guān)性特征的計(jì)算與預(yù)處理、模型訓(xùn)練與分類(lèi)三大功能。
圖1 Tor匿名流量識(shí)別模型架構(gòu)
Tor 作為目前使用最廣泛的匿名通信系統(tǒng)之一,使用多跳代理機(jī)制對(duì)用戶(hù)通信隱私進(jìn)行保護(hù),客戶(hù)端會(huì)基于加權(quán)隨機(jī)的路由選擇算法分別選擇3個(gè)中繼節(jié)點(diǎn),根據(jù)洋蔥路由的原理,只有在入口節(jié)點(diǎn)前識(shí)別出Tor匿名流量才能有效發(fā)現(xiàn)Tor 匿名網(wǎng)絡(luò)用戶(hù)[13]。因此,如圖2所示,采集Tor匿名流量的位置一般為網(wǎng)關(guān)節(jié)點(diǎn),在Tor用戶(hù)與洋蔥入口節(jié)點(diǎn)之間的網(wǎng)關(guān)處,通過(guò)網(wǎng)絡(luò)嗅探獲取流量信息。
圖2 Tor匿名流量采集
通過(guò)dump 等方式捕獲的流量數(shù)據(jù)為pacp 類(lèi)型文件,由多個(gè)數(shù)據(jù)分組構(gòu)成,本文提出的分類(lèi)模型使用的特征主要是數(shù)據(jù)流粒度上的時(shí)間相關(guān)性特征,特征獲取的步驟如下。
2.2.1 數(shù)據(jù)流的生成
數(shù)據(jù)流是由一系列數(shù)據(jù)包構(gòu)成的,這些數(shù)據(jù)包具有相同的{源IP,目標(biāo)IP,源端口,目標(biāo)端口和協(xié)議(TCP或UDP)}。在Tor 匿名流量中,所有的流均為T(mén)CP 協(xié)議流。數(shù)據(jù)流具有方向,由第一個(gè)數(shù)據(jù)報(bào)決定數(shù)據(jù)流的方向是向外或者向內(nèi)。
2.2.2 特征的生成
已有的研究工作中,研究人員使用Netmate、pcap2flow、Tranalyzer[14]等工具進(jìn)行流量分析處理,但這些工具多數(shù)是基于數(shù)據(jù)報(bào)字段進(jìn)行計(jì)算,對(duì)強(qiáng)加密的Tor匿名流量并沒(méi)有很好的效果,本文通過(guò)CICflowMeter[15]對(duì)pcap流量文件進(jìn)行處理,來(lái)計(jì)算基于數(shù)據(jù)流的流量特征。
CICFlowMeter 是一種用Java 編寫(xiě)的網(wǎng)絡(luò)流量流生成器,在選擇計(jì)算、功能擴(kuò)展以及控制流持續(xù)時(shí)間等方面提供了很好的靈活性。CICFlowMeter能夠生成雙向流,其中第一個(gè)數(shù)據(jù)包確定前向(源到目的地)和后向(目的地到源)方向,分別在正向和反向上計(jì)算如持續(xù)時(shí)間、數(shù)據(jù)包數(shù)量、字節(jié)數(shù)、數(shù)據(jù)包長(zhǎng)度等83 種流量統(tǒng)計(jì)特征。特征選擇方法在各種分類(lèi)任務(wù)中起著關(guān)鍵作用,通過(guò)從數(shù)據(jù)集中顯示的更多特征中選擇較小的子集,它有助于提高機(jī)器學(xué)習(xí)算法的效率和準(zhǔn)確性。
在針對(duì)Tor 匿名流量的識(shí)別中,文獻(xiàn)[1]和文獻(xiàn)[12]等研究表明,目前提出的大多數(shù)監(jiān)管規(guī)避方法主要混淆了包的長(zhǎng)度、包數(shù)量等方面的特征,而流的突發(fā)性以及其時(shí)間相關(guān)性特征在這個(gè)過(guò)程中無(wú)法被混淆。因此時(shí)間相關(guān)性特征可以較好地區(qū)分不同類(lèi)別的流量,本文通過(guò)CfsSubsetEval 評(píng)估器[16]對(duì)CIC Flow 產(chǎn)生的83 種流量特征進(jìn)行評(píng)估,最終選擇了12個(gè)特征作為XGboost模型的輸入。Cfs SubsetEval通過(guò)考慮每個(gè)特征的個(gè)體預(yù)測(cè)能力以及它們之間的冗余程度,來(lái)評(píng)估屬性子集的價(jià)值,與子類(lèi)相關(guān)性高但互相關(guān)性低的要素子集能獲得更高的評(píng)分。表1 給出了對(duì)應(yīng)的特征集合(|O|=12)和對(duì)應(yīng)的特征重要性,它們具有Tor流量檢測(cè)的最大信息增益和卡方統(tǒng)計(jì)量。
表1 時(shí)間相關(guān)性特征
如表1 所示,本文使用的時(shí)間特性中除流持續(xù)時(shí)間、單位時(shí)間的流字節(jié)數(shù)以外,還包含前向、后向的流間隔時(shí)間以及數(shù)據(jù)包的大小數(shù)量等相關(guān)統(tǒng)計(jì)量,相比于文獻(xiàn)[17]提出的Tor 單元計(jì)算的方法,保持了流量原始的特征統(tǒng)計(jì)信息,具有更好的特征質(zhì)量。
為了提升特征魯棒性,在訓(xùn)練前對(duì)特征進(jìn)行類(lèi)離散化處理。如圖3所示,本文通過(guò)為每個(gè)特征生成一個(gè)全局分布,然后使用這些全局分布來(lái)填充每個(gè)實(shí)例的最終特征集,從而獲得比簡(jiǎn)單統(tǒng)計(jì)更詳細(xì)的特征信息。
圖3 特征預(yù)處理的步驟
特征的預(yù)處理的主要步驟如下:
(1)計(jì)算每個(gè)時(shí)間特征的全局分布。將每個(gè)時(shí)間相關(guān)的特征進(jìn)行排序形成有序數(shù)組,這個(gè)數(shù)組代表其各自功能的全局分布。對(duì)于每個(gè)特征的全局分布,將數(shù)據(jù)劃分為b個(gè)區(qū)間,使每個(gè)區(qū)間擁有相同數(shù)量的元素。每個(gè)格子的最小值與最大值構(gòu)成該格子的范圍。
(2)對(duì)于每一個(gè)特征,創(chuàng)建其全局分布直方圖,每個(gè)格子的區(qū)間由全局分布直方圖的區(qū)間范圍給出,在為每個(gè)實(shí)例生成最終特征集時(shí),將使用直方圖區(qū)間代替原有的數(shù)值型特征,落在每個(gè)格子的特征值的個(gè)數(shù)作為新的特征值,對(duì)新的特征進(jìn)行標(biāo)準(zhǔn)化處理。
一般使用透射照明觀察較為透明的標(biāo)本,如吸蟲(chóng)幼蟲(chóng)發(fā)育各期、吸蟲(chóng)成蟲(chóng)、絳蟲(chóng)節(jié)片等染色玻片標(biāo)本或尾蚴、毛蚴等活體標(biāo)本。這時(shí)光從下往上透過(guò)樣品,能夠提供明亮有效的照明。而使用落射照明觀察半透明或不透明的標(biāo)本,如昆蟲(chóng)若蟲(chóng)、成蟲(chóng)等標(biāo)本,這時(shí)光從上往下透過(guò)樣品,通過(guò)任意調(diào)節(jié)照明的角度觀察標(biāo)本的立體結(jié)構(gòu)。
更多的分布區(qū)間b能提供更加細(xì)粒度分類(lèi),但可能會(huì)降低特征的魯棒性。使用更少的區(qū)間可以增強(qiáng)特征的魯棒性,但會(huì)降低分類(lèi)的精度。在ISCXTor2016數(shù)據(jù)集上,本文進(jìn)行了參數(shù)b最佳取值的探索,最終在b=8時(shí),取得了實(shí)驗(yàn)3.3.1節(jié)的最佳分類(lèi)結(jié)果。
Boosting 技術(shù)在解決少樣本數(shù)據(jù)分類(lèi)方面表現(xiàn)優(yōu)異。XGBoost分類(lèi)器是Boosting算法的一種擴(kuò)展,由學(xué)習(xí)模型、參數(shù)調(diào)節(jié)和最優(yōu)化目標(biāo)函數(shù)組成。損失函數(shù)中加入了葉子節(jié)點(diǎn)權(quán)重和單決策樹(shù)復(fù)雜度等正則項(xiàng),可以防止決策樹(shù)模型過(guò)于復(fù)雜,在訓(xùn)練速度上較其他算法有著較大的提升[18]。
對(duì)于XGBoost來(lái)說(shuō),設(shè)定合適的樹(shù)的深度與目標(biāo)函數(shù)非常重要,它們決定著模型的復(fù)雜程度。XGBoost的目標(biāo)函數(shù)定義如公式(1)所示:
目標(biāo)函數(shù)由兩部分組成:損失函數(shù)L(θ)和正則化懲罰項(xiàng)Ω(θ)。其中,L(θ)是微分凸損失函數(shù),用于測(cè)量預(yù)測(cè)yi與目標(biāo)yi之間的差異。Ω(θ)是懲罰復(fù)雜模型的正則項(xiàng)。其中,T是樹(shù)上的葉子數(shù),γ是學(xué)習(xí)率,其值在0到1之間。γ乘以T等于生成樹(shù)修剪,以防止過(guò)度擬合。
在公式(1)中由于存在以函數(shù)為參數(shù)的模型懲罰項(xiàng),傳統(tǒng)方法無(wú)法進(jìn)行優(yōu)化。因此,需要通過(guò)公式(2)來(lái)計(jì)算目標(biāo)yi。
優(yōu)化目標(biāo)是構(gòu)建一個(gè)樹(shù)結(jié)構(gòu),以最小化每次迭代中的目標(biāo)函數(shù)。樹(shù)結(jié)構(gòu)從前一棵樹(shù)的結(jié)論和殘差(殘差=實(shí)際值-預(yù)測(cè)值)中學(xué)習(xí),從而擬合出當(dāng)前的殘差回歸樹(shù)。St(Ti)表示實(shí)例i在第t輪迭代中生成的樹(shù)。
由于方程的目標(biāo)函數(shù)(2)在求解平方損失函數(shù)的過(guò)程中是最優(yōu)的,對(duì)于求解其他損失函數(shù)來(lái)說(shuō)則變得非常復(fù)雜。因此,通過(guò)二階泰勒展開(kāi)得到公式(3),從而求解其他損失函數(shù)。其中最終目標(biāo)函數(shù)取決于誤差函數(shù)中每個(gè)數(shù)據(jù)點(diǎn)的一階和二階導(dǎo)數(shù),這也加快了其優(yōu)化速度。
模型在數(shù)據(jù)流粒度上設(shè)計(jì)了時(shí)間相關(guān)性特征以解決填充混淆帶來(lái)的字段特征失效問(wèn)題,通過(guò)基于Histogram的預(yù)處理方法進(jìn)一步提高特征的魯棒性以適應(yīng)網(wǎng)絡(luò)環(huán)境的變化,最后使用XGBoost 分類(lèi)器來(lái)解決Tor 流量樣本分布不均衡的問(wèn)題,實(shí)現(xiàn)了較小維度特征的Tor匿名流量的快速識(shí)別。
為了驗(yàn)證Histogram-XGBoost 模型的可行性、分類(lèi)效果以及模型的穩(wěn)定性,本文基于sklearn接口[20]實(shí)現(xiàn)了模型代碼并進(jìn)行了驗(yàn)證實(shí)驗(yàn),實(shí)驗(yàn)環(huán)境參數(shù)如表2所示。
表2 實(shí)驗(yàn)環(huán)境相關(guān)參數(shù)
實(shí)驗(yàn)使用的數(shù)據(jù)集由Tor 匿名網(wǎng)絡(luò)流量、正常流量?jī)蓚€(gè)部分組成,其中Tor 匿名流量包括來(lái)自ISCX Tor 2016的Tor匿名流量以及實(shí)驗(yàn)室環(huán)境下采集的Tor瀏覽器流量。
ISCX Tor 2016 是取自加拿大網(wǎng)絡(luò)安全研究所網(wǎng)站的開(kāi)源數(shù)據(jù)集,由TCPdump捕獲,共22 GB,包括一個(gè)Tor 匿名流量文件以及一個(gè)正常流量文件,數(shù)據(jù)集構(gòu)成如表3所示。
表3 ISCX Tor數(shù)據(jù)集情況
Tor瀏覽器流量則為實(shí)驗(yàn)室環(huán)境下通過(guò)Tor Browser Crawler[21]采集的訪(fǎng)問(wèn)不同應(yīng)用類(lèi)型網(wǎng)站產(chǎn)生的Tor匿名流量,流量采集分別在低速(下行20 Mbit/s/上行12 Mbit/s)、正常(下行50 Mbit/s/上行30 Mbit/s)、高速(下行80 Mbit/s/上行50 Mbit/s)三種網(wǎng)絡(luò)鏈路狀態(tài)下進(jìn)行,同時(shí)也采集了3 種網(wǎng)絡(luò)鏈路狀態(tài)下的正常的網(wǎng)絡(luò)流量。數(shù)據(jù)集構(gòu)成如表4所示。
表4 Tor瀏覽器流量數(shù)據(jù)集情況
實(shí)驗(yàn)結(jié)果的評(píng)價(jià)指標(biāo)主要包括:分類(lèi)的準(zhǔn)確率(ACC),包括兩種類(lèi)型流量的準(zhǔn)確率、召回率以及所有類(lèi)別的整體的準(zhǔn)確率。具體而言:
類(lèi)的準(zhǔn)確率ACCi=TPi/(TPi+FPi)
類(lèi)的召回率Ti=TPi/(TPi+FNi)
整體準(zhǔn)確率ACC=TP+TN/(TP+TN+FP+FN)
其中,TP是將正類(lèi)預(yù)測(cè)為正類(lèi)的數(shù)量,TN是將負(fù)類(lèi)預(yù)測(cè)為負(fù)類(lèi)的數(shù)量,F(xiàn)P是將負(fù)類(lèi)預(yù)測(cè)為正類(lèi)的數(shù)量,F(xiàn)N是將正類(lèi)預(yù)測(cè)為負(fù)類(lèi)的數(shù)量。
本文共設(shè)置2組實(shí)驗(yàn):(1)識(shí)別Tor匿名流量的二分類(lèi)實(shí)驗(yàn),主要用于驗(yàn)證本文提出的識(shí)別模型的有效性,并將實(shí)驗(yàn)結(jié)果同使用SVM、隨機(jī)森林兩種分類(lèi)器產(chǎn)生的結(jié)果進(jìn)行比較;(2)網(wǎng)絡(luò)鏈路環(huán)境的影響實(shí)驗(yàn),用于驗(yàn)證本文提出的特征預(yù)處理方法對(duì)不同網(wǎng)絡(luò)環(huán)境的適用性。
3.3.1 基于XGboost的匿名流量識(shí)別
本節(jié)實(shí)驗(yàn)的主要目的是從背景流量中有效識(shí)別出Tor匿名流量。SVM在傳統(tǒng)的分類(lèi)任務(wù)中表現(xiàn)優(yōu)異,文獻(xiàn)[5-6,22]中均選擇了SVM作為相應(yīng)模型的分類(lèi)器,因此本文將提出的識(shí)別模型與SVM、隨機(jī)森林方法進(jìn)行對(duì)比。此外,本文也對(duì)文獻(xiàn)[9]中提出的基于深度學(xué)習(xí)識(shí)別加密流量的方法進(jìn)行了復(fù)現(xiàn),在同一數(shù)據(jù)集上對(duì)比了模型的分類(lèi)效果。
實(shí)驗(yàn)結(jié)果如表5所示,其中類(lèi)別0代表正常流量,類(lèi)別1代表不同應(yīng)用類(lèi)型下的Tor匿名流量。
表5 流量識(shí)別實(shí)驗(yàn)結(jié)果
表5 與圖4 的結(jié)果表明,本文提出的基于XGboost的模型可以很好地從背景流量中識(shí)別出Tor匿名流量,平均精度高達(dá)98.75%,與對(duì)照模型相比,本文提出模型的召回率更高,在網(wǎng)絡(luò)監(jiān)管任務(wù)中,更高的召回率意味著更低的漏報(bào)率。
圖4 流量識(shí)別實(shí)驗(yàn)結(jié)果對(duì)比
3.3.2 不同網(wǎng)絡(luò)鏈路環(huán)境的適應(yīng)性
本文的方案中所使用的特征多數(shù)為數(shù)據(jù)流粒度下的時(shí)間相關(guān)性特征,為了提高特征的健壯性,減少網(wǎng)絡(luò)延時(shí)、擁堵等對(duì)模型精確度的影響[23],在特征預(yù)處理階段,使用了基于Histrogm的特征預(yù)處理方法來(lái)提高特征的魯棒性,本節(jié)實(shí)驗(yàn)的主要目的是通過(guò)探索不同網(wǎng)絡(luò)鏈路環(huán)境下模型的識(shí)別效果,來(lái)驗(yàn)證本文提出的特征預(yù)處理方案的有效性。
本節(jié)實(shí)驗(yàn)中,分別使用標(biāo)準(zhǔn)化預(yù)處理和本文提出的Histrogm特征預(yù)處理方法進(jìn)行預(yù)處理,隨后將本文提出的XGboost 模型在正常鏈路狀態(tài)收集的數(shù)據(jù)集下進(jìn)行訓(xùn)練,最后在三種數(shù)據(jù)集的測(cè)試集中進(jìn)行測(cè)試。實(shí)驗(yàn)結(jié)果如表6所示。
表6 不同鏈路狀態(tài)下對(duì)比實(shí)驗(yàn)
表6 與圖5 的結(jié)果表明,時(shí)間相關(guān)性特征確實(shí)會(huì)受到網(wǎng)絡(luò)鏈路狀態(tài)的影響。較快的鏈路速度相比較慢的鏈速度對(duì)模型識(shí)別準(zhǔn)確的影響程度更大,本文提出的特征預(yù)處理方法相比于只是用標(biāo)準(zhǔn)化處理的方法能夠有效減少網(wǎng)絡(luò)鏈路波動(dòng)對(duì)模型準(zhǔn)確性的影響。
圖5 鏈路適應(yīng)性實(shí)驗(yàn)結(jié)果對(duì)比
本文提出了一種Tor 匿名網(wǎng)絡(luò)流量分類(lèi)識(shí)別模型。通過(guò)對(duì)時(shí)間相關(guān)性特征進(jìn)行基于Histrogm 的離散化預(yù)處理,提高特征的健壯性。在ISCXTor2016數(shù)據(jù)集上進(jìn)行驗(yàn)證實(shí)驗(yàn),將實(shí)驗(yàn)結(jié)果與SVM、隨機(jī)森林等在加密流量識(shí)別中表現(xiàn)較好的分類(lèi)模型進(jìn)行比較,結(jié)果表明本文模型在準(zhǔn)確性與召回率上表現(xiàn)較好。因?yàn)楸疚氖褂玫奶卣鞫鄶?shù)為時(shí)間相關(guān)性特征,將Histogram-XGBoost 模型在不同網(wǎng)絡(luò)鏈路狀態(tài)下收集的Tor匿名流量上進(jìn)行識(shí)別對(duì)比。實(shí)驗(yàn)結(jié)果表明,經(jīng)過(guò)預(yù)處理后的時(shí)間相關(guān)性特征具有較好的健壯性,本文提出的模型受網(wǎng)絡(luò)環(huán)境影響較小。
在實(shí)驗(yàn)中發(fā)現(xiàn),流超時(shí)時(shí)間的選擇在一定程度上影響著數(shù)據(jù)收集的質(zhì)量以及后續(xù)分類(lèi)識(shí)別的準(zhǔn)確率,下一步計(jì)劃通過(guò)在不同的流超時(shí)時(shí)間下收集數(shù)據(jù)進(jìn)行實(shí)驗(yàn)對(duì)比,探究能夠提高識(shí)別效率的流超時(shí)時(shí)間,最終目標(biāo)是在真實(shí)網(wǎng)絡(luò)環(huán)境中實(shí)現(xiàn)匿名網(wǎng)絡(luò)流量的快速檢測(cè)。