RMPCM：一種基于健壯多元概率校準模型的全網(wǎng)絡(luò)異常檢測方法

2015-01-01 02:55:58李宇翀羅興國錢葉魁趙鑫

通信學報 2015年11期

李宇翀，羅興國，錢葉魁，趙鑫

(1. 國家數(shù)字交換系統(tǒng)工程技術(shù)研究中心，河南鄭州 450002；2. 通信網(wǎng)信息傳輸與分發(fā)技術(shù)重點實驗室，河北石家莊 050000；3. 解放軍防空兵學院，河南鄭州 450052)

1 引言

當前因特網(wǎng)環(huán)境下各種網(wǎng)絡(luò)異常事件層出不窮，DDoS攻擊、僵尸網(wǎng)絡(luò)等大規(guī)模的網(wǎng)絡(luò)入侵給互聯(lián)網(wǎng)的安全運營帶來嚴重威脅，而網(wǎng)絡(luò)擁塞、網(wǎng)絡(luò)故障等也會嚴重影響互聯(lián)網(wǎng)的服務(wù)質(zhì)量，因此網(wǎng)絡(luò)異常行為的檢測是非常必要的。同時，由于網(wǎng)絡(luò)異常種類繁多、變化快速，且常常隱藏在復雜龐大的背景流量中，給網(wǎng)絡(luò)異常的檢測帶來極大的困難。

針對網(wǎng)絡(luò)異常檢測的研究也有很多，文獻[1,2]等使用主機的系統(tǒng)日志、審計信息等為數(shù)據(jù)源，采用數(shù)據(jù)挖掘等方法提出基于主機的異常檢測方法；文獻[3,4]等使用端到端往返時延、分組丟失率等性能測量數(shù)據(jù)，采用一元時間序列分析法提出基于單路徑的異常檢測方法；文獻[5]等使用單條鏈路的SNMP、NetFlow等網(wǎng)絡(luò)流量數(shù)據(jù)，采用機器學習、小波分析等方法提出基于單鏈路的異常檢測方法。上述方法主要關(guān)注網(wǎng)絡(luò)的局部信息，監(jiān)測范圍有限，但隨著網(wǎng)絡(luò)規(guī)模不斷擴大，數(shù)據(jù)傳輸速度持續(xù)加快，許多網(wǎng)絡(luò)異常呈現(xiàn)出很強的全局特性[6～8]，其影響分散到網(wǎng)絡(luò)中多條鏈路或路徑，在局部表征信息并不明顯。采用上述基于主機、單路徑或單鏈路的分析檢測方法無法對網(wǎng)絡(luò)進行綜合測量和全局分析，在檢測精度方面也很難保證。

針對以上問題 Lakhina等[9]首次提出了基于主元分析子空間構(gòu)建(subspace construction via PCA)的全網(wǎng)絡(luò)(network-wide)異常檢測方法，綜合利用多條路徑的流量統(tǒng)計信息構(gòu)建正常模型，通過判斷當前情形是否偏離正常模型從而確定異常是否發(fā)生；隨后文獻[10～20]沿著全網(wǎng)絡(luò)檢測的思路，在檢測算法的時空擴展性[10～13]、頑健性[14～16]、實時性[17,18]和異常測度[19,20]等方面進行了研究，豐富了全網(wǎng)絡(luò)異常檢測的內(nèi)容。上述方法綜合利用整個網(wǎng)絡(luò)的流量數(shù)據(jù)，取得了優(yōu)于單節(jié)點、單路徑或單鏈路方法的檢測性能，同時由于采用建立正常模型并與其相比較的異常檢測方法，無需建立異常特征庫，因而既可以檢測已知異常也可以檢測未知異常，應(yīng)用范圍廣?；诹髁拷y(tǒng)計量的全網(wǎng)絡(luò)異常檢測方法通過引入范圍更廣、維度更多的網(wǎng)絡(luò)信息改善檢測性能，但該方法部署在大規(guī)模高速骨干網(wǎng)上時也面臨一些現(xiàn)實問題：一是采集范圍的擴大、采集設(shè)備的增多、網(wǎng)絡(luò)速度的加快，使得必須考慮由于部分設(shè)備故障造成的采集數(shù)據(jù)缺失的情況，或者流量數(shù)據(jù)在傳輸?shù)倪^程中出現(xiàn)缺失的情況[21]，會使上述的異常檢測方法因為數(shù)據(jù)不完整而變得不可用；二是實際的骨干網(wǎng)流量不但數(shù)據(jù)量巨大，而且非常復雜，使模型參數(shù)難以選擇，異常檢測方法的穩(wěn)定性極難保證[22]。

本文提出了一種基于健壯的多元概率校準模型(RMPCM, robust multivariate probabilistic calibration model)的異常檢測方法，該方法將多元t分布取代正態(tài)分布引入隱變量概率模型，進而建立流量矩陣的常態(tài)模型，通過比較樣本與常態(tài)模型之間的馬氏距離(Mahalanobis distance)進行流量異常檢測。該方法的健壯性較好，應(yīng)用場景廣泛，既可以處理完整數(shù)據(jù)也可以處理數(shù)據(jù)缺失的情況，對異常噪聲干擾的抵抗力較強，并且對模型參數(shù)的敏感性較低，性能穩(wěn)定。本文主要貢獻包括以下3個方面。

1) 通過建立隱變量概率模型的方法解決了待檢數(shù)據(jù)不完整情況下的異常檢測問題。

2) 通過將多元t分布引入概率建模過程中解決了噪聲干擾問題，提高了檢測精度。

3) 本文提出RMPCM方法具有很強的穩(wěn)健性，對模型參數(shù)的敏感性較低，減少了實際部署中復雜的參數(shù)調(diào)試工作。

2 數(shù)據(jù)源模型和問題描述

2.1 數(shù)據(jù)源模型

早期的因特網(wǎng)流量研究主要集中在一個互聯(lián)網(wǎng)服務(wù)提供商(ISP, internet service provider)中的單鏈路數(shù)據(jù)分組的時間特征，由此得到了在自相似、長相關(guān)等流量特性。但是一個ISP中常包含數(shù)百上千條鏈路，而因特網(wǎng)由幾萬個這樣的ISP組成，當在這樣大的背景中觀察，流量的空間特性就凸顯出來了。但是同時分析整個網(wǎng)絡(luò)所有鏈路的流量數(shù)據(jù)是難以完成的任務(wù)，而流量矩陣作為一種給定網(wǎng)絡(luò)結(jié)構(gòu)下節(jié)點間流量的緊縮和簡潔的描述，可以反映整體網(wǎng)絡(luò)的時空特性，是全網(wǎng)絡(luò)流量研究中一種常用的模型結(jié)構(gòu)。流量矩陣是全網(wǎng)流量的概覽，使用流量矩陣進行整個網(wǎng)絡(luò)的流量分析更加直接和清晰[8]，本文采用了PoP(point of presence)級流量矩陣作為研究的數(shù)據(jù)源。

定義1 (PoP級流量矩陣) 假設(shè)某自治系統(tǒng)(AS,autonomous system)有n個PoP節(jié)點，以一定的周期連續(xù)地被動測量任意一對PoP節(jié)點之間的流量，流量的流入節(jié)點為源節(jié)點，流出節(jié)點為目的節(jié)點，這樣就可記為源—目的(OD)流流量，然后將該測量值排列成一個N×D的矩陣X，稱為該AS的PoP級流量矩陣，其中，N表示測量的周期數(shù)，通常將每個周期的測量值作為一個樣本，因此N為樣本數(shù)，D表示OD流量測量值的個數(shù) (D=n×n)，即樣本的維度。流量矩陣第i行表示第i個周期由各OD流量測量值組成的向量；第j列表示第j個OD由各時間測量值序列組成的向量。流量矩陣的任一元素xij表示第i個周期第j個OD上的某種流量測度大小。本文采用的流量測度為流量大小(字節(jié)數(shù)、分組數(shù)或流數(shù))。

2.2 問題描述

在數(shù)據(jù)采集的過程中，由于高速骨干網(wǎng)數(shù)據(jù)量龐大、傳輸快速，可能造成采集設(shè)備的負擔加大、穩(wěn)定性下降，從而出現(xiàn)數(shù)據(jù)缺失；在數(shù)據(jù)傳輸過程中由于網(wǎng)絡(luò)擁塞、設(shè)備或鏈路故障也會造成數(shù)據(jù)缺失。

網(wǎng)絡(luò)測量中流量數(shù)據(jù)的缺失并非都是完全隨機化的，許多情況下缺失是高度結(jié)構(gòu)化的，這里提出了4種缺失的機制用來描述網(wǎng)絡(luò)數(shù)據(jù)采集和傳輸過程可能遇到的數(shù)據(jù)缺失的情況。

1) 完全隨機缺失

完全隨機缺失是指流量矩陣X中的任意元素xij以隨機概率q丟失，這種丟失情況可能出現(xiàn)在流量測量設(shè)備偶然出現(xiàn)的擁塞，或測量數(shù)據(jù)采用了不可靠的傳輸機制而出現(xiàn)的隨機數(shù)據(jù)缺失。

2) 時間段隨機缺失

流量矩陣的行對應(yīng)于流量的采集周期，時間段隨機缺失是指流量矩陣X中任意一行元素以概率q丟失，這種情況可能發(fā)生在測量數(shù)據(jù)集中處理時由于數(shù)據(jù)量過大導致存儲設(shè)備過載或程序故障等原因造成該時段的采集數(shù)據(jù)丟失。

3) OD隨機缺失

流量矩陣的列對應(yīng)于OD流，OD隨機缺失對應(yīng)于流量矩陣X中任意一列元素以概率q丟失。這種情況的出現(xiàn)可能由于流過濾或采集程序錯誤造成的OD源或目的識別錯誤，鏈路或路由器故障也會造成相關(guān)OD上數(shù)據(jù)的缺失。

4) 塊隨機缺失

塊隨機缺失是指流量矩陣X的某一子矩陣以概率q丟失，這種結(jié)構(gòu)化的缺失可能出現(xiàn)在采集設(shè)備故障或存儲器滿并持續(xù)若干采集周期的情況下，對應(yīng)于流量矩陣多個相鄰行列的數(shù)據(jù)缺失。如果把缺失的子塊設(shè)為流量矩陣的某一行則轉(zhuǎn)變?yōu)闀r間段隨機缺失，設(shè)為某一列則轉(zhuǎn)變?yōu)镺D隨機缺失。

3 RMPCM方法

RMPCM異常檢測方法首先使用采集到的流量數(shù)據(jù)建立常態(tài)模型，再利用樣本與常態(tài)模型的馬氏距離衡量該樣本是否異常。RMPCM方法可分為正常流量建模、流量異常檢測2個步驟。

3.1 模型引入

在流量數(shù)據(jù)不完整的情況下，以往傳統(tǒng)的網(wǎng)絡(luò)異常檢測方法都無法應(yīng)用，本文考慮采用Bayes統(tǒng)計方法，但由于網(wǎng)絡(luò)流量數(shù)據(jù)的復雜性并不能直接應(yīng)用Bayes方法得到后驗均值估計及其漸進方差，而是引入隱變量概率模型，即在已知測量數(shù)據(jù)的基礎(chǔ)上添加一些“潛在數(shù)據(jù)”，從而簡化計算完成參數(shù)估計，在這過程中可以將“數(shù)據(jù)缺失部分”連同未知參數(shù)一起作為“潛在數(shù)據(jù)”，采用EM(expectation-maximization)算法求取模型參數(shù)的極大似然估計(MLE)。

在進行極大似然估計時需要已知數(shù)據(jù)的概率分布，通常假設(shè)其滿足正態(tài)分布，但由于實際網(wǎng)絡(luò)流量中含有一些噪聲流量干擾，采用正態(tài)分布假設(shè)會造成參數(shù)估計的偏差過大，故本文引入多元t分布取代多元正態(tài)分布。相對于正態(tài)分布，t分布具有重尾特性，引入t分布后在極大似然估計過程中根據(jù)不同樣本的馬氏距離為樣本分配不同的權(quán)重，而異常樣本具有較低的權(quán)重，故可減少對參數(shù)估計的影響。

RMPCM方法通過引入基于t分布的隱變量概率模型，解決了上述問題，建立了正常流量模型。

3.2 正常流量建模

假設(shè)每個d維的隱向量ti都來自于一個D(D≥d)維特征向量xi的線性概率投影，以此建立隱變量概率模型，并選擇單位方差t分布作為隱向量的先驗分布，概率模型如下

其中，W為投影矩陣(projection matrix)，μ為位置向量，I為單位矩陣。

對該概率模型無法直接使用極大似然估計進行求解，但由文獻[23]可知，t分布模型可以擴展為均值相同的無限高斯混合模型，其先驗分布為伽瑪分布，且參數(shù)只與t分布的自由度v有關(guān)

可以采用EM算法求取模型參數(shù)的極大似然估計，為了簡化計算，本文采用了一種快速算法REM(rapid expectation-maximization)，REM可顯著提高算法收斂速度，該算法可分為2個階段，每個階段都采用EM算法對不同參數(shù)進行估計，然后迭代進行2個階段的循環(huán)直至滿足收斂條件。

第1階段。該階段不考慮ti，只對參數(shù)μ進行估計[26]，表示計算期望。

圖1 缺失數(shù)據(jù)下正常建模步驟

3.3 流量異常檢測

對于復雜的流量數(shù)據(jù)需要選擇度量標準從而判定其中的異常流量樣本。判斷數(shù)據(jù)中哪些是異常樣本常用2種策略，即通過判斷Hotelling's T2是否超過閾值確定樣本點是否為高杠桿異常點(leverage outlier)，通過判斷平方預(yù)測誤差(SPE, squared prediction error)是否超過閾值確定樣本點的正交異常點(orthogonal outlier)[27]。但本文由于建立了概率模型可以簡單地采用樣本的馬氏距離來衡量，無需采用2種異常判定方法[28]。

對于完整數(shù)據(jù)樣本，其馬氏距離平方為

其中，Φ(·)為標準正態(tài)分布的概率分布函數(shù)。

采用“3σ”控制圖來判讀異常即當取值偏離均值超過3倍標準差時，可以判斷異常事件的發(fā)生，其置信度為99.74%。

3.4 算法復雜度分析

在RMPCM算法中，主要的計算開銷是流量矩陣的尺度矩陣Ψ求逆和REM算法的迭代次數(shù)。Ψ為D×D的矩陣，D為X的維數(shù)，對應(yīng)于流量矩陣的列數(shù)，即OD的個數(shù)(n×n)。在計算過程中，直接計算對算法復雜度影響很大，本文利用Woodbury矩陣恒等式，可得的矩陣，使用PCA降維方法確定固有維度數(shù)d，可知d?D，這樣就將求D×D的矩陣Ψ的逆轉(zhuǎn)化為求d×d的矩陣M的逆，極大地簡化了計算復雜度，其時間復雜度為O(Nd2)。算法的時間復雜度還與EM算法的迭代次數(shù)有關(guān)，本文采用快速EM算法計算中迭代次數(shù)一般小于15次。采用Matlab對選用數(shù)據(jù)集執(zhí)行 RMPCM檢測算法，執(zhí)行時間如表1所示，計算機配置為Win7系統(tǒng)、酷睿i7 3.5 GHz的CPU、4 GB內(nèi)存。

表1 RMPCM檢測算法執(zhí)行時間

4 實驗評價

通常評價網(wǎng)絡(luò)異常檢測算法的性能主要有2種實驗方法：仿真平臺實驗方法[19]和網(wǎng)絡(luò)實測數(shù)據(jù)分析[9,10,20,27,29]的方法。仿真平臺的實驗方法易于掌控，但缺點是不夠真實；實測數(shù)據(jù)分析法場景真實但較難獲取標準答案(benchmark)。為了更加客觀地評價RMPCM方法的性能表現(xiàn)，本文采用2種方法相結(jié)合的網(wǎng)絡(luò)異常檢測評價辦法。

在性能比較評價方面，本文選擇基于 PCA的子空間構(gòu)建的異常檢測方法[9]與本文的RMPCM方法進行比較?；?PCA子空間構(gòu)建的異常檢測方法已經(jīng)得到了廣泛的認可，著名的商用異常檢測系統(tǒng)NetReflex就是基于該方法的[29]。

4.1 仿真平臺實驗

本文選擇采用南加州大學提出的 DETERLab(cyber-defense technology experimental research laboratory testbed)[30]安全實驗平臺。它可將原型系統(tǒng)中的節(jié)點用任何拓撲結(jié)構(gòu)互聯(lián)拓展，并可對實驗條件靈活配置，為研究者提供網(wǎng)絡(luò)攻防實驗所需的背景流量和攻擊流量的注入方法，并研究部署和評價可能的解決方案。它可充分整合本地的硬件資源，比NS2等仿真軟件具有更真實的仿真效果。

本文將基于Metasploit框架的攻擊工具集成到Deterlab的SEER(security experimentation environment)軟件套裝中，生成該仿真平臺上的多種異常流量。實驗設(shè)置了10個PoP節(jié)點，并選擇與各PoP節(jié)點相鄰的一個節(jié)點配置為采集設(shè)備，拓撲配置如圖2所示。實驗時間持續(xù)1個星期，每5 min采集一次數(shù)據(jù)，記為一個采集周期，共2 016個周期，采集的數(shù)據(jù)按字節(jié)計數(shù)。

4.1.1 噪聲環(huán)境中的異常檢測

實驗設(shè)置3種情形并與基于PCA子空間的檢測方法進行比較，分別驗證了2種方法的檢測精度、性能影響因素、突發(fā)大流的毒害性。

500時刻和1 000時刻開始從PoP1向PoP2進行TCP SYN泛洪DoS攻擊，1 800時刻開始從PoP3向PoP4進行DoS攻擊，持續(xù)時間皆為4個周期；800時刻開始采用Nmat從PoP1對PoP2、PoP5、PoP6進行掃描，持續(xù)時間5周期；1 200時刻開始將PoP1至PoP2的流量減少50%，并將這部分轉(zhuǎn)移到PoP7至PoP8的流量上，持續(xù)時間40周期后恢復；1 500時刻開始同時從PoP2、PoP4、PoP5、PoP8向PoP10發(fā)動UDP洪水DDoS攻擊，持續(xù)時間6周期。使用 RMPCM 的檢測結(jié)果和使用基于 PCA子空間方法的檢測結(jié)果如圖3(a)所示，產(chǎn)生的6次異常2種方法都檢測到了，但PCA方法并未在每次異常持續(xù)的周期中都檢出異常，尤其是對1 200～1 239的出口/入口流量轉(zhuǎn)移異常，PCA檢出的異常周期遠小于異常設(shè)定，而RMPCM方法檢出的異常周期與異常設(shè)定非常接近。

為了進一步比較2種方法的差異及影響因素，本文對異常進行調(diào)整：500時刻和1 800時開始的DoS攻擊強度減小50%；800時刻開始的掃描范圍減少到從PoP1至Pop2，掃描頻率減少50%；1 200時刻開始的出口/入口轉(zhuǎn)移持續(xù)時間減小 20個周期；1 500時刻開始DDoS攻擊范圍縮小到PoP2、PoP4至PoP10，攻擊強度不變；1 000時刻開始的DoS保持不變。從圖3(b)中可以看出異常大小和異常影響范圍的變化對 2種檢測方法的性能都有影響，800時刻開始的異常均未被檢出；而異常持續(xù)時間的縮短對檢測效果影響不大。2種方法相比，PCA方法在時刻1 272、1 407、1 451等10個時刻出現(xiàn)了誤報，虛警率高于RMPCM方法。

圖2 Deterlab平臺拓撲配置

圖3 Deterlab平臺上RMPCM與PCA檢測結(jié)果對比

在第一種實驗設(shè)定的基礎(chǔ)上將500時刻開始的DoS的攻擊強度提升為原來的 220%，產(chǎn)生突發(fā)大流，其他保持不變。突發(fā)大流可提高所在路徑上的方差水平，造成小方差的異常被誤認為正常事件。如圖3(c)所示，大流造成PCA方法檢測精度下降，凡是包含大流所在OD(PoP1至PoP2)的異常其檢出率都受到影響：1 000時刻開始的DoS與大流處于同一路徑上，因而影響最大，在圖中已不可見；出口/入口轉(zhuǎn)移涉及的 2條 OD其中一條為大流所在OD，其殘余向量也衰減嚴重未達到檢出閾值；端口掃描和DDoS也包含大流所在OD，其殘余向量不同程度受到影響；1 800時刻開始的DoS不包含大流所在OD則未受影響。而RMPCM方法對大流毒害的健壯性較強，檢測精度未受到影響。

由上述實驗可知本文提出的RMPCM方法在異常噪聲環(huán)境中精度高、抗干擾能力強，優(yōu)于經(jīng)典的基于PCA子空間的方法。

4.1.2 數(shù)據(jù)缺失條件下異常檢測

如果網(wǎng)絡(luò)故障等原因造成數(shù)據(jù)缺失，那么傳統(tǒng)的基于非概率模型的方法會因為數(shù)據(jù)的不完整而變得不可用，而本文提出的基于t分布隱變量概率模型的RMPCM方法在處理缺失數(shù)據(jù)的問題時具有優(yōu)勢。在Deterlab仿真平臺上驗證數(shù)據(jù)缺失條件下RMPCM方法的檢測性能時，數(shù)據(jù)缺失場景的設(shè)置分別按照鏈路故障、采集設(shè)備故障、PoP節(jié)點故障3種進行，鏈路故障會造成通過的OD流數(shù)據(jù)缺失，采集設(shè)備故障會造成以其相連PoP節(jié)點為源節(jié)點的 OD流數(shù)據(jù)丟失，PoP節(jié)點故障造成的數(shù)據(jù)缺失與故障類型、網(wǎng)絡(luò)拓撲以及路由策略有關(guān)。實驗的拓撲配置如圖 2所示，實驗按照4.1.1節(jié)產(chǎn)生異常的方法選擇100個周期注入異常。為了盡量消除實驗中的偶然情況，本文對每種故障情況都進行了10次實驗，每次實驗隨機選擇403個周期和1 008個周期（占1個星期2 016個周期中的20%和50%)，并在選中的周期中隨機選擇某一鏈路（采集設(shè)備、PoP節(jié)點）發(fā)生故障，每次故障持續(xù)時間為20個周期，最后取10次實驗均值繪出ROC曲線。圖4分別為完整數(shù)據(jù)、403個周期故障和1 008個周期故障的檢測結(jié)果的ROC曲線。從實驗結(jié)果中可以看出鏈路故障、采集設(shè)備故障、PoP節(jié)點故障所造成的數(shù)據(jù)缺失對檢測精度的影響逐漸加深，而且在每種場景下發(fā)生數(shù)據(jù)缺失的周期越多檢測精度越低，但總體而言RMPCM方法在數(shù)據(jù)不完整的條件下健壯性較好，20%的周期中發(fā)生數(shù)據(jù)缺失時檢測精度較高，即便是在最嚴重的情況下（50%的周期中發(fā)生PoP節(jié)點故障）仍以20%的虛警率得到接近70%的檢測率（如圖4(c)所示）。

圖4 Deterlab平臺數(shù)據(jù)缺失條件下RMPCM檢測結(jié)果

4.2 網(wǎng)絡(luò)實測數(shù)據(jù)分析

4.2.1 數(shù)據(jù)集

實測數(shù)據(jù)集選擇了網(wǎng)絡(luò)流量研究中常用的骨干網(wǎng)Abilene的數(shù)據(jù)集[2,9,10,16,18,20]，Abilene網(wǎng)絡(luò)主要用戶為美國的大學和科研機構(gòu)等。由于其 2003年的數(shù)據(jù)較為完整也有較多方法采用便于參考，本文選擇了2003年12月15日～12月21日11個PoP節(jié)點的NetFlow數(shù)據(jù)，并根據(jù)BGP和ISIS選路表得到每條流的入口點和出口點，求得OD流量大小及流量矩陣，如表2所示。本文使用該數(shù)據(jù)集進行缺失數(shù)據(jù)條件下的檢測性能評價以及敏感性分析。

表2 Abilene流量矩陣數(shù)據(jù)集

4.2.2 數(shù)據(jù)缺失條件下異常檢測

在進行實測數(shù)據(jù)集缺失條件下的異常檢測實驗時，選擇分組數(shù)(P)數(shù)據(jù)集按照2.2節(jié)提出的4種缺失機制依次進行測試。為了比較各種缺失機制下RMPCM 方法的異同從而分析影響檢測性能的因素，在完全隨機缺失、時間段隨機缺失、OD隨機缺失3種機制下設(shè)置相同的丟失率比較不同機制對檢測性能的影響，在第4種塊隨機缺失的機制下比較相同丟失率不同塊大小對檢測性能的影響。為了消除丟失數(shù)據(jù)實驗的偶然性，進行了 10次實驗，取實驗均值并以完整數(shù)據(jù)下RMPCM的檢測結(jié)果為基準繪出ROC曲線。

圖5 實測數(shù)據(jù)在4種缺失機制下的檢測結(jié)果

完全隨機缺失實驗選擇了3種丟失率，丟失數(shù)據(jù)占流量矩陣總數(shù)據(jù)量的 10%、20%、50%，如圖5(a)所示；時間段隨機缺失實驗設(shè)置隨機缺失的周期數(shù)分別為200、400、1 000，由于總的時間周期為 2 010，故時間段隨機缺失的數(shù)據(jù)丟失率接近10%、20%、50%，分別與完全隨機缺失一一對應(yīng)，結(jié)果如圖 5(b)所示；OD隨機缺失實驗時由于算法限制矩陣的整列數(shù)據(jù)不能全部丟失，故選擇某列一半相鄰數(shù)據(jù)設(shè)為空，設(shè)置缺失的OD數(shù)分別為24、48、121，每個OD的數(shù)據(jù)丟失率為50%，OD總數(shù)為121，所以O(shè)D隨機缺失實驗的數(shù)據(jù)丟失率仍為10%、20%、50%，結(jié)果如圖5(c)所示。3種機制的實驗都表明在數(shù)據(jù)缺失的條件下RMPCM方法仍保持了較高的檢測精度，在數(shù)據(jù)缺失10%時，檢測器性能損失較小，隨著數(shù)據(jù)缺失率的增大，檢測器性能也逐漸變差，但即便是數(shù)據(jù)缺失率達到50%的嚴苛條件下，檢測結(jié)果仍然可用。3種機制相比較也可發(fā)現(xiàn)檢測性能受完全隨機缺失影響最小，時間段隨機缺失次之，OD隨機缺失影響最大。3種缺失機制下數(shù)據(jù)缺失總量保持一致，但檢測器性能卻逐漸惡化，分析原因應(yīng)與每次結(jié)構(gòu)化缺失的數(shù)據(jù)量增加有關(guān)，完全隨機缺失實驗丟失的數(shù)據(jù)塊最小，OD隨機缺失實驗丟失的數(shù)據(jù)塊最大。

為了進一步驗證結(jié)構(gòu)化缺失對檢測性能的影響，在進行第4種塊隨機缺失實驗時，設(shè)定不同塊大小但保持相同丟失總量：分別設(shè)定3種塊大小5×5、16×16、40×40，缺失的塊數(shù)量分別為2 000、200、30，保持丟失量占總數(shù)據(jù)量約20%。實驗結(jié)果如圖 5(d)所示，通過 ROC曲線可知：在相同數(shù)據(jù)丟失率下，結(jié)構(gòu)化缺失的數(shù)據(jù)量越大，檢測性能下降得越多。但總體而言，RMPCM方法在塊隨機缺失機制下以20%的虛警率得到了70%以上的檢測率，檢測性能可以滿足需求。

4.2.3 敏感性分析

文獻[22]指出了基于PCA的子空間方法對于固有維度和流量測度的敏感性問題，本文通過實驗驗證RMPCM方法是否也存在這樣的問題。實驗分為2種情況：一是對固有維度d的敏感性分析，二是對流量測度的敏感性分析。實驗選用基于 PCA的子空間方法進行對比。

選擇實測數(shù)據(jù)集流數(shù)(F)進行固有維度的敏感性分析實驗。固有維度d因?qū)嶒炘O(shè)定的主元累計方差貢獻率的不同而不同，實驗結(jié)果如圖6所示。圖6(a)和圖6(b)分別為PCA固有維度d為4和5時的檢測曲線，可見曲線輪廓完全不同，檢測結(jié)果差別很大；圖6(c)和圖6(d)分別為RMPCM對應(yīng)的檢測曲線，曲線輪廓及檢測結(jié)果均保持一致。實驗中進一步驗證了RMPCM方法d取2～10的檢測情況，檢測結(jié)果基本一致，保持了很高的頑健性。

圖6 PCA(圖左側(cè))與RMPCM(圖右側(cè))對固有維度的敏感性

本文分別選擇實測數(shù)據(jù)集B、P、F進行流量測度的敏感性分析，實驗設(shè)定主元的累計方差貢獻率閾值為0.85，結(jié)果如圖7所示，PCA方法在3種測度下得到的曲線輪廓完全不同，檢測結(jié)果也差別很大；而RMPCM方法的檢測曲線輪廓近似，檢測結(jié)果雖有不同但有較大聯(lián)系。由于無法獲得該實測數(shù)據(jù)集的異常標注，故不知異常發(fā)生的實際情況。但實際上以流數(shù)、字節(jié)數(shù)、分組數(shù)為測度得到的統(tǒng)計量是有關(guān)聯(lián)的，相應(yīng)的異常檢測結(jié)果也應(yīng)該有所重合，而 PCA方法得到的結(jié)果有多處相互沖突，說明對流量測度過于敏感，相比之下RMPCM方法穩(wěn)健性很強，得到的結(jié)果更加合理。

綜上可知，RMPCM方法對固有維度和流量測度等模型參數(shù)的敏感性較低，性能穩(wěn)定，便于實際部署。

圖7 PCA(圖左側(cè))與RMPCM(圖右側(cè))對流量測度的敏感性

5 結(jié)束語

本文針對現(xiàn)有全網(wǎng)方法在數(shù)據(jù)不完整時噪聲干擾時存在的問題，通過建立基于多元t分布的隱變量概率模型，提出一種基于RMPCM的全網(wǎng)絡(luò)異常檢測方法。仿真實驗和因特網(wǎng)實測數(shù)據(jù)分析表明：RMPCM方法的檢測性能優(yōu)于經(jīng)典PCA方法，并且健壯性很好，無論待檢數(shù)據(jù)完整與否、檢測環(huán)境是否有干擾，該方法都表現(xiàn)出較為穩(wěn)定的檢測性能，對模型參數(shù)的敏感性也較低。下一步，將對更細粒度的異常定位和RMPCM的在線算法進行研究。

致謝：

感謝英國薩里大學陳濤教授在本文算法研究過程中給予的無私幫助。

[1] DANIEL T, KIRILL L, STEFAN S,et al. A comparison of syslog and IS-IS for network failure analysis[A]. Proc of the ACM Internet Measurement Conf[C]. Barcelona: ACM Press, 2013.

[2] RISTO V, MAUNO P. Using security logs for collecting and reporting technical security metrics[A]. Proc of the IEEE Military Communications Conf[C]. Baltimore: IEEE Press, 2014.

[3] NAIDU K V M, PANIGRAHI D, RASTOGI R. Detecting anomalies using end-to-end path measurements[A]. INFOCOM[C]. 2008.

[4] BARFORD P, DUFFIELD N, RON A,et al. Network performance anomaly detection and localization[A]. INFOCOM[C]. 2009.

[5] 程國振, 程東年, 俞定玖. 基于多尺度低秩模型的網(wǎng)絡(luò)異常流量檢測方法[J]. 通信學報, 2012, 33(1): 182-190.CHENG G Z, CHENG D N, YU D J. Network traffic detection based on multi resolution low rank model[J]. Journal on Communications,2012, 33(1): 182-190.

[6] JIANG D, XU Z, ZHANG P,et al.A transform domain-based anomaly detection approach to network-wide traffic [J]. Journal of Network &Computer Applications, 2013, 40(2):292-306.

[7] YEGNESWARAN V, BARFORD P, ULLRICH J. Internet intrusions:global characteristics and prevalence[J]. ACM Sigmetrics Performance Evaluation Review, 2003, 31(1): 138-147.

[8] LAKHINA A, PAPAGIANNAKI K, CROVELLA M. Structural analysis of network traffic flows[A]. SIGMETRICS[C]. New York, 2004.

[9] LAKHINA A, CROVELLA M, DIOT C. Diagnosing network-wide traffic anomalies[A]. Proc of the ACM SIGCOMM[C]. New York:ACM Press, 2004. 65-76.

[10] SOULE A, SALAMATIAN K E, TAFT N. Combining filtering and statistical methods for anomaly detection[A]. Proc of the ACM IMC[C]. Boston,USA,2005.311-312.

[11] JIANG D, YAO C, XU Z,et al. Multi-scale anomaly detection for high-speed network traffic[J]. Transactions on Emerging Telecommunications Technologies, 2015,26:308-317.

[12] 錢葉魁, 陳鳴, 葉立新. 基于多尺度主成分分析的全網(wǎng)絡(luò)異常檢測方法[J]. 軟件學報, 2012, 23(2): 361-377.QIAN Y K, CHEN M, YE L X. Network-wide anomaly detection method based on multiscale principal component analysis[J]. Journal of Software, 2012, 23(2): 361-377.

[13] BRAUCKHOFF D, SALAMATIAN K, MAY M. Applying PCA for traffic anomaly detection: problems and solutions[A]. Proc of the INFOCOM[C]. New York: IEEE Press, 2009,46-53.

[14] RUBINSTEIN B I P, NELSON B, HUANG L,et al. Stealthy poisoning attacks on PCA-based anomaly detectors[A]. Proc of the ACM SIGMETRICS[C]. New York: ACM Press, 2009.

[15] RUBINSTEIN B I P, NELSON B, HUANG L,et al. ANTIDOTE:understanding and defending against poisoning of anomaly detectors[A]. Proc of the ACM Internet Measurement Conf[C]. Chicago,2009.

[16] 錢葉魁, 陳鳴. 面向 PCA異常檢測器的毒害攻擊和防御機制[J].電子學報, 2011,39(3):543-548.QIAN Y K, CHEN M. Poison attack and defense strategies on PCA-based anomaly detector[J]. Acta Electronica Sinica, 2011,39(3):543-548.

[17] AHMED T, COATES M, LAKHINA A. Multivariate online anomaly detection using kernel recursive least squares[A]. INFOCOM[C]. 2007.

[18] 錢葉魁, 陳鳴. MOADA-SVR: 一種基于支持向量回歸的多元在線異常檢測方法[J]. 通信學報, 2011, 32(2): 106-113.QIAN Y K, CHEN M. MOADA-SVR：a multivariate online anomaly detection algorithm based on SVR[J]. Journal on Communications,2011, 32(2): 106-113.

[19] WENJI C, YANG L, YONG G. Cardinality change-based early detection of large-scale cyber-attacks[A]. Proc of the INFOCOM[C]. 2013.1788-1796.

[20] 錢葉魁, 陳鳴, 郝強. ODC: 在線檢測和分類全網(wǎng)絡(luò)流量異常的方法[J]. 通信學報, 2011, 32(1): 111-120.QIAN Y K, CHEN M, HAO Q. ODC: a method for online detecting＆classifying network-wide traffic anomalles[J]. Journal on Communications, 2011, 32(1): 111-120.

[21] YIN Z, MATTHEW R, WALTER W,et al. Spatio-temporal compressive sensing and internet traffic matrices[A]. Proc of the ACM SIGCOMM[C]. Barcelona: ACM Press, 2009.65-76.

[22] RINGBERG H, SOULE A, REXFORD J,et al. Sensitivity of PCA for traffic anomaly detection[A]. Proc of the ACM SIGMETRICS[C].New York: ACM Press, 2007.78- 89.

[23] LIU C, RUBIN D B. ML estimation of the t distribution using EM and its extensions[J]. ECM and ECME Statistica Sinica, 1995, 5: 19-39.

[24] PEEL D, Mclachlan G J. Robust mixture modelling using thetdistribution[J]. Statistics and Computing , 2000,10: 339-348.

[25] LITTLE R J A, RUBIN D B. Statistical Analysis with Missing Data[M]. Chichester: Wiley, 1987.

[26] TIPPING M E, BISHOP C M. Mixtures of probabilistic principal component analyzers[J]. Neural Computation, 1999, 11(2): 443-482.

[27] LAKHINA A, CROVELLA M, DIOT C. Characterization of network-wide anomalies in traffic flows[A]. Proc of the ACM Internet Measurement Conf[C]. New York: ACM Press, 2004. 34-55.

[28] CHEN T, MORRIS J, MARTIN E. Probability density estimation via an infinite Gaussian mixture model: application to statistical process monitoring[J]. Journal of the Royal Statistical Society: Series C (Applied Statistics), 2006, 55(5): 699-715.

[29] PAREDES-OLIVA I, DIMITROPOULOS X, MOLINA M,et al.Automating root-cause analysis of network anomalies using frequent itemset mining[J]. ACM SIGCOMM Computer Communication Review, 2011, 41(4): 467-468.

[30] BENZEL T, BRADEN R, KIM D,et al. Experiences with DETER: a testbed for security research[A]. Proc of the TRIDENTCOM[C]. IEEE Press, 2006.388-397.

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放