劉晨光,劉偉輝,燕麗艷
1.江蘇師范大學(xué) 信息網(wǎng)絡(luò)中心,江蘇 徐州 221116
2.江蘇師范大學(xué) 圖書(shū)館,江蘇 徐州 221116
基于NetFlow的特征感知自適應(yīng)的流采樣方法
劉晨光1,劉偉輝2,燕麗艷1
1.江蘇師范大學(xué) 信息網(wǎng)絡(luò)中心,江蘇 徐州 221116
2.江蘇師范大學(xué) 圖書(shū)館,江蘇 徐州 221116
在網(wǎng)絡(luò)監(jiān)控和異常檢測(cè)中,經(jīng)常使用采樣來(lái)處理大量的網(wǎng)絡(luò)流。已有的很多采樣方法,主要是優(yōu)化、保留較低層次的參數(shù),如流量值的大小或數(shù)據(jù)包的數(shù)量。然而,使用采樣獲得的數(shù)據(jù)進(jìn)行更高級(jí)的分析,如網(wǎng)絡(luò)行為分析,就會(huì)出現(xiàn)很多問(wèn)題,因?yàn)椴蓸訒?huì)嚴(yán)重?fù)p壞異常檢測(cè)及分析算法的有效性[1]。這些算法大多是基于模式識(shí)別和統(tǒng)計(jì)分析的,流量特征的失真破壞了它們關(guān)于流量特征的假設(shè),顯著增加了這些方法的誤差程度。
通過(guò)分析NetFlow/IPFIX的流采樣信息,提出一個(gè)理想的采樣模型,利用此模型可以分析采樣對(duì)于異常檢測(cè)在信息處理中的影響;提出了后期采樣的概念,它可以顯著改善采樣方法的性能;然后提出了特征感知的自適應(yīng)采樣方法,它優(yōu)化了采樣算法的行為,文章最后描述了實(shí)驗(yàn)結(jié)果的評(píng)價(jià)。
網(wǎng)絡(luò)監(jiān)控常用的采樣技術(shù)通常分為包采樣和流采樣?;诎牟蓸蛹夹g(shù)工作在數(shù)據(jù)包的級(jí)別,每個(gè)數(shù)據(jù)包被隨機(jī)采樣,隨機(jī)概率取決于所使用的采樣方法。主要優(yōu)點(diǎn)是,減少路由器內(nèi)存和CPU資源的消耗,提高監(jiān)控高速網(wǎng)絡(luò)的可能性。
流采樣的情況下,被監(jiān)控的流量匯集成一條網(wǎng)絡(luò)流,采樣本身不再是數(shù)據(jù)包,而是整個(gè)流的一部分。主要優(yōu)點(diǎn)是比數(shù)據(jù)包采樣更準(zhǔn)確[2],但它會(huì)消耗更多的內(nèi)存和CPU資源。
盡管包采樣很容易實(shí)施,但它會(huì)帶來(lái)顯著的統(tǒng)計(jì)誤差[2-3],包采樣的典型應(yīng)用包括以計(jì)劃和管理為目的研究[4-5]。關(guān)于包采樣的更深入研究是自適應(yīng)的包采樣技術(shù)[5-6]。這些技術(shù)根據(jù)當(dāng)前的網(wǎng)絡(luò)負(fù)載情況調(diào)整采樣頻率,可以獲得更加準(zhǔn)確的流量統(tǒng)計(jì)。文獻(xiàn)[7]中描述了一種自適應(yīng)非線性的采樣方法,文獻(xiàn)[8]和文獻(xiàn)[9]提出基于流的自適應(yīng)采樣方法,它們都可以保留大、小流量的分布特性。
在文獻(xiàn)[10]中提出了一種新類(lèi)型的數(shù)據(jù)包采樣,它改進(jìn)了異常檢測(cè)的質(zhì)量。數(shù)據(jù)包的檢測(cè)在網(wǎng)絡(luò)中的各個(gè)地方(有路由器的位置),并對(duì)數(shù)據(jù)包做出正?;蚍钦5臉?biāo)記,非正常的數(shù)據(jù)包會(huì)以很高的概率被采樣。
智能采樣[2]和采樣保持[11]技術(shù)可以減少內(nèi)存需求,這些技術(shù)都側(cè)重于大流量的評(píng)估。文獻(xiàn)[12]介紹了一種包采樣和流采樣的組合技術(shù),作者提出了兩個(gè)階段的采樣,在第一階段進(jìn)行流采樣,第二階段從第一階段中采樣的流中進(jìn)行包采樣。文獻(xiàn)[13]對(duì)流采樣和智能采樣也進(jìn)行了詳細(xì)的比較,流采樣在保持流量的分布特征方面有其優(yōu)點(diǎn),而智能采樣技術(shù)更注重在大流量采樣中的應(yīng)用。
有些研究不僅注重采樣方法的準(zhǔn)確性,而對(duì)異常檢測(cè)效率的研究也在加強(qiáng)。文獻(xiàn)[1]評(píng)估了一些采樣技術(shù)是如何影響異常檢測(cè)算法的性能,如隨機(jī)包采樣、隨機(jī)流采樣、智能采樣和智能保持采樣。研究結(jié)果證明,隨機(jī)包采樣具有偏差可測(cè)性并且降低了算法的有效性。
文獻(xiàn)[14]提出了選擇性流采樣,優(yōu)先小流量采樣,明顯改善了異常檢測(cè)方法的效果,但這種采樣技術(shù)在保留流量分布特征方面存在著偏差,僅用于特定場(chǎng)合的異常檢測(cè)。
表1中描述了幾種采樣方法的適用性,可以看出大部分的采樣方法適用于流量監(jiān)控,可以很好地保留網(wǎng)絡(luò)流量特征;也可以看出隨機(jī)流采樣在三個(gè)方面都適用;選擇性采樣方法僅適用于異常檢測(cè)。
表1 采樣方法的適用性
從網(wǎng)絡(luò)安全的角度來(lái)看,理想的流采樣過(guò)程是用來(lái)選擇最相關(guān)的數(shù)據(jù)流。在這個(gè)過(guò)程中,采樣結(jié)果表現(xiàn)出來(lái)的分布特征損失最小。多數(shù)的異常檢測(cè)方法都使用數(shù)據(jù)流的統(tǒng)計(jì)分布特征對(duì)網(wǎng)絡(luò)流量建模,這樣可保留更多的統(tǒng)計(jì)特征,使得信息損失達(dá)到最小化。
假定每個(gè)流x由一組元素來(lái)確定,如IP地址、協(xié)議、流量、數(shù)據(jù)包或字節(jié),把第k個(gè)流的特征表示為Xk,采樣一個(gè)流x的概率為 p(x),采樣的時(shí)刻在特征點(diǎn),特征點(diǎn)根據(jù)特征值來(lái)計(jì)算。特征點(diǎn)包括以下兩種:
(1)特征計(jì)數(shù)c(x|Xk):表示符合特征 Xk的數(shù)據(jù)流x的個(gè)數(shù)統(tǒng)計(jì)。
(2)特征熵eXk(x|Xl):表示特征 Xk的熵,這些特征與流x的特征Xl相同。
將原始有限的、未采樣的數(shù)據(jù)集表示為U,已經(jīng)采樣的數(shù)據(jù)集表示為S。因此,cS(x|srcIP)表示流x的數(shù)量,x來(lái)自于帶有相同的源IP地址的數(shù)據(jù)流采樣集S。而eUsIP(x|dP)表示源IP地址的熵,這些源IP地址來(lái)自于數(shù)據(jù)集U,相應(yīng)的目的端口和流x的目的端口相同。多個(gè)流的特征計(jì)數(shù)表示為c(x|X1,X2,…,Xq)。
通過(guò)使用特征點(diǎn),在大多數(shù)的異常檢測(cè)方法中都可以計(jì)算NetFlow流的特征。信息丟失改變了它們?cè)械臄?shù)值,因而影響了這些特征點(diǎn)數(shù)據(jù)的計(jì)算。因此,理想的采樣應(yīng)該使這種信息丟失最小化。
定義1 S1,S2,…,Sm表示以概率 p(x)從U中選擇的各個(gè)數(shù)據(jù)流集,特征點(diǎn)c(x|Xk)是可逆的當(dāng)且僅當(dāng):
特征點(diǎn)可逆確保了信息丟失最小化。
把描述正?;奶卣鼽c(diǎn)exk(x|Xl)的相對(duì)不確定性表示為:
定義特征點(diǎn)的可逆性,是使用相對(duì)不確定的值而不是熵值,因?yàn)橄鄬?duì)不確定的值能更好地說(shuō)明特征分布。
定義2 S1,S2,…,Sm表示以概率 p(x)從U中選擇的各個(gè)數(shù)據(jù)流集,特征點(diǎn)exk(x|Xl)是可逆的當(dāng)且僅當(dāng):
定義3 Xi表示第i個(gè)流的特征,特征 Xi的特征變量ν(XiU)定義為在集U中的特征Xi不同值的數(shù)量。
定義4概率 p(x)的采樣定義為以下的過(guò)程:
(1)所有的特征點(diǎn)都是可逆的(包括計(jì)數(shù)和熵)。
每個(gè)標(biāo)準(zhǔn)適合不同類(lèi)型的異常檢測(cè)方法,對(duì)基于統(tǒng)計(jì)和模式識(shí)別的方法來(lái)說(shuō),可逆的特征點(diǎn)是必不可少的;對(duì)基于知識(shí)庫(kù)的方法來(lái)說(shuō),特征可變性也是必不可少的。這個(gè)過(guò)程定義了兩個(gè)質(zhì)量指標(biāo),適用于任何已經(jīng)實(shí)施的采樣方法,可以量化檢測(cè)結(jié)果的質(zhì)量,包括:
(1)特征描述,描述了從理想分布中得到的概率分布誤差(區(qū)間[0,1]),包括:
在可逆點(diǎn)c(x|Xk)進(jìn)行誤差計(jì)算:
將用這兩個(gè)指標(biāo)來(lái)分析各種采樣技術(shù)的特點(diǎn)。
本章中介紹特征感知的自適應(yīng)采樣算法,它是采用多級(jí)處理過(guò)程的異常檢測(cè)算法,這些算法可以改善采樣質(zhì)量,減少采樣帶來(lái)的誤差。
4.1 后期采樣
特征描述和特征覆蓋兩者的標(biāo)準(zhǔn)存在著一定的矛盾,改善其中的一個(gè)方面,如加強(qiáng)采樣率,將直接對(duì)另一方面產(chǎn)生負(fù)面的影響。本文提出的算法通過(guò)對(duì)特征提取的劃分,來(lái)避免這些標(biāo)準(zhǔn)的沖突,但需要在采樣之前來(lái)完成,這樣做會(huì)增加很多的計(jì)算成本,但可以大大節(jié)省后面特征提取階段的計(jì)算成本。
目前,執(zhí)行早期采樣的技術(shù)是在采樣之后計(jì)算特征點(diǎn)的統(tǒng)計(jì)數(shù)據(jù),這會(huì)導(dǎo)致精度的不準(zhǔn)確[14],優(yōu)點(diǎn)是不需要處理特征點(diǎn)的初始化過(guò)程。
而后期采樣是在系統(tǒng)采樣之前計(jì)算特征點(diǎn)的統(tǒng)計(jì)數(shù)據(jù),特征點(diǎn)是由原始的、完整的數(shù)據(jù)集計(jì)算出來(lái)的。這種采樣方法對(duì)于采樣技術(shù)本身以及后續(xù)的異常檢測(cè)來(lái)說(shuō),能夠使用原始數(shù)據(jù)集的統(tǒng)計(jì)信息,提高了精確度。
4.2 特征感知的自適應(yīng)采樣算法
特征感知的自適應(yīng)采樣算法基于這樣的假設(shè),在單個(gè)數(shù)據(jù)集中流的增量值隨著已經(jīng)存在于這個(gè)數(shù)據(jù)集中的相似流數(shù)量的增加而降低,其中,增量值由一個(gè)或多個(gè)特征值來(lái)定義。這可以縮減巨大的數(shù)據(jù)流集,對(duì)少量的小數(shù)據(jù)流也會(huì)關(guān)注。從安全的角度來(lái)看,大的和小的數(shù)據(jù)流具有同等的重要性,在異常檢測(cè)時(shí)具有或大或小的影響,把最重要的特點(diǎn)表示為主要的特征,其余的表示為次要的特征。
定義5X1,X2,…,Xk表示主要特征,主要概率定義為符合特征X1,X2,…,Xk的流x被選中到采樣集中的概率:其中,參數(shù)s∈[0,1],表示采樣率,閥值t是在分布中定義的一個(gè)點(diǎn)。采樣技術(shù)初始設(shè)置采樣率與時(shí)間大小成比例,較大的時(shí)間值,設(shè)置較低的采樣率。減少在閥值以上的、具有較大時(shí)間值的攻擊的采樣數(shù)量,不影響異常檢測(cè)的有效性,因?yàn)檫@些攻擊很容易被檢測(cè)到。而需要保持采樣流的總數(shù)量沒(méi)有變化時(shí),采樣率的降低則允許增加采樣頻率。
定義6 X1,X2,…,Xk表示主要特征,Xi表示次要特征,次要概率定義為符合特征 Xi的數(shù)據(jù)流x被選中到采樣集中的概率:
其中,參數(shù)d∈(0,1],描述了相同方向標(biāo)識(shí)流(RU->0)或另一方向流的集增量信息值的降低程度,大部分的流是不同的(RU->1)。參數(shù)ε決定了間隔的大小。
定義7 X1,X2,…,Xk表示主要特征,Xk+1,Xk+2,…,Xn表示次要特征,特征感知的自適應(yīng)采樣選擇流 x的概率是:
其中εp≥0表示由次要概率引起的采樣流數(shù)量的減少,根據(jù)引用等式(2)計(jì)算的參數(shù)S保證了定理的陳述。
特征感知的自適應(yīng)采樣可以修改采樣概率以便反映網(wǎng)絡(luò)流量的特征分布。它根據(jù)時(shí)間值的大小選擇流,目的是擬制巨大的、容易發(fā)現(xiàn)的事件,并且注重從小的流中獲取有用的信息,而稍微改變一下這些特征分布,更有利于異常檢測(cè)。特征感知的自適應(yīng)采樣也提出了如定理1中陳述的采樣流量總和的上限,這個(gè)定理保證了采樣流總和不會(huì)超過(guò)預(yù)定義的限制。
采樣評(píng)估的目標(biāo)是在實(shí)際的網(wǎng)絡(luò)流數(shù)據(jù)中比較各種采樣算法的適用性。首先,考察采樣方法在流量特征方面的影響,自適應(yīng)方法的設(shè)置如下:c(x|srcIP)為主要特征,esrcPrt(x|srcIP),edstIP(x|srcIP)以及edstPrt(x|srcIP)為次要特征,d=0.8,ε=0.1,t=1 000。
直接在真實(shí)的萬(wàn)兆校園網(wǎng)絡(luò)中進(jìn)行攻擊實(shí)驗(yàn),會(huì)傷害到普通用戶的網(wǎng)絡(luò)服務(wù),因此在獨(dú)立的測(cè)試實(shí)驗(yàn)平臺(tái)上執(zhí)行一套攻擊實(shí)驗(yàn),然后將這些攻擊插入到實(shí)際的校園流量環(huán)境中。
實(shí)驗(yàn)攻擊分兩次進(jìn)行,第一次攻擊是從一個(gè)攻擊者的IP地址到受害者的IP地址的垂直掃描。這次攻擊開(kāi)始設(shè)置每5 min 250個(gè)流,逐步增長(zhǎng)到每5 min 1百萬(wàn)個(gè)流;第二次攻擊比較隱蔽,攻擊者首先發(fā)起較大規(guī)模的DDos攻擊,同時(shí)發(fā)起強(qiáng)度很小的、但更嚴(yán)重的SSH暴力攻擊,以這種方式來(lái)攻擊本網(wǎng)絡(luò)上的其他用戶。
5.1 保留網(wǎng)絡(luò)特征的性能分析
通過(guò)使用前文中描述的測(cè)量方法,比較隨機(jī)性的、選擇性的和自適應(yīng)的三種采樣技術(shù),評(píng)估它們保留網(wǎng)絡(luò)特征的性能。對(duì)這種評(píng)估來(lái)說(shuō),使用的網(wǎng)絡(luò)流量來(lái)自于巨大的DDos攻擊和隱藏的SSH暴力攻擊。
首先,評(píng)估兩個(gè)被廣泛應(yīng)用于異常檢測(cè)的指標(biāo),源IP地址c(x|srcIP)的數(shù)量以及給定源IP地址對(duì)應(yīng)的目標(biāo)IP地址edstIP(x|srcIP)的熵。特征值越低,特征點(diǎn)的可逆性越好。從表2中可以看出,隨機(jī)采樣技術(shù)優(yōu)于其他采樣技術(shù),而選擇性采樣技術(shù)的可逆值相對(duì)最小,所以可逆性最好。然而,由于采用可變的采樣率,使得自適應(yīng)采樣在熵時(shí)刻,具有最小的重構(gòu)誤差。
表2 源地址的數(shù)量和目標(biāo)地址熵特征描述測(cè)量
其次,比較源地址和目標(biāo)地址的特征覆蓋情況,以便發(fā)現(xiàn)更好的方法來(lái)保留特征可逆性。從表3中可以看出,選擇源IP地址作為主要特征,得到特征覆蓋的性能參數(shù)值較大,特別是應(yīng)用于自適應(yīng)采樣中表現(xiàn)得更為明顯。而選擇目標(biāo)IP地址作為主要特征時(shí),相對(duì)的結(jié)果要差一些。
表3 源地址和目標(biāo)地址特征覆蓋測(cè)量
在評(píng)估中,證明了自適應(yīng)采樣比選擇性采樣具有更好的可逆性,特別是涉及到主要特征的某些值,甚至超過(guò)隨機(jī)采樣,這使得自適應(yīng)采樣在保留網(wǎng)絡(luò)特征方面更有前途。因此,主要特征的選擇對(duì)于采樣后面的檢測(cè)技術(shù)是非常關(guān)鍵的。
5.2 異常檢測(cè)結(jié)果的質(zhì)量分析
本節(jié)中,評(píng)估模擬攻擊時(shí)的檢測(cè)質(zhì)量,使用的技術(shù)及數(shù)據(jù)包括:各種流采樣技術(shù);已采樣和未采樣部分?jǐn)?shù)據(jù);已采樣和未采樣原始數(shù)據(jù)集的統(tǒng)計(jì)信息。
具體的說(shuō),比較四種類(lèi)型的采樣技術(shù),隨機(jī)E、隨機(jī)L、選擇L和自適應(yīng)L,其中大寫(xiě)字母E和L表示早期采樣和后期采樣。首先,通過(guò)網(wǎng)絡(luò)行為異常檢測(cè)設(shè)備CAMNEP[15]的測(cè)量得到了檢測(cè)數(shù)據(jù)集,在此數(shù)據(jù)集中,比較了這四種采樣方法的檢測(cè)質(zhì)量,Quality=ε-Θˉ(φj),它表示了全局閥值ε的可信度和攻擊流Θˉ(φj)的平均可信度之間的差。
(1)掃描方案:首先評(píng)估關(guān)于大規(guī)模TCP掃描的采樣方法
在圖1中,根據(jù)已經(jīng)選擇的模擬攻擊流的總量來(lái)比較每種方法的采樣數(shù)量。掃描檢測(cè)中,選擇采樣方法的適應(yīng)性在不斷增大的攻擊數(shù)量時(shí),表現(xiàn)得更好。自適應(yīng)采樣在檢測(cè)較小規(guī)模掃描時(shí)的概率更高,而大規(guī)模的攻擊則以較低的概率采樣,結(jié)果是在所有的采樣流中,對(duì)小事件的檢測(cè)并沒(méi)有減小。
圖1 TCP掃描(采樣率1∶5)
圖2中描繪了采樣流量中模擬TCP掃描的比例,當(dāng)使用選擇采樣時(shí),最后的攻擊規(guī)模占80%的采樣數(shù)據(jù),而使用自適應(yīng)采樣時(shí),這個(gè)數(shù)據(jù)僅有40%。因此,自適應(yīng)采樣能很好地應(yīng)對(duì)攻擊流量的采樣。
圖3描繪了質(zhì)量檢測(cè)的結(jié)果,后期選擇性采樣、后期自適應(yīng)采樣和未采樣的方法都成功地檢測(cè)了所有規(guī)模的攻擊。相反,后期隨機(jī)的、尤其是早期的隨機(jī)檢測(cè)沒(méi)有檢測(cè)到第一波較小規(guī)模的攻擊。
圖2 TCP掃描(采樣率1∶5)
圖3 TCP掃描(采樣率1∶5)
(2)隱藏SSH暴力方案:本方案中包含一個(gè)大規(guī)模的DDoS攻擊,它包括很多小規(guī)模的SSH暴力攻擊(最大500個(gè)流)。后期選擇性采樣,并不是專(zhuān)門(mén)針對(duì)這種類(lèi)型攻擊的采樣方法,選擇攻擊流的數(shù)量明顯少于后期隨機(jī)和后期自適應(yīng)方法,如圖4,該圖表明了在采樣集中,SSH暴力攻擊的比例取決于DDoS攻擊規(guī)模的大小。
圖4 SSH暴力攻擊(采樣率1∶5)
圖5顯示了初始采樣率1∶5的檢測(cè)質(zhì)量的結(jié)果,相對(duì)較差的結(jié)果是早期隨機(jī)采樣技術(shù),而通過(guò)使用后期采樣技術(shù)檢測(cè)攻擊還是成功的,甚至比使用未采樣數(shù)據(jù)的方法要好,后期自適應(yīng)采樣比其他技術(shù)稍好一些。
圖5 SSH暴力攻擊(采樣率1∶5)
當(dāng)把初始采樣率降低到1∶100,所有的方法都變得不穩(wěn)定了,如圖6,后期選擇采樣方法只在一個(gè)數(shù)據(jù)集中選中了攻擊流。所以,較低的采樣率負(fù)面地影響了所有的采樣技術(shù)。
圖6 SSH暴力攻擊(采樣率1∶100)
本文提出了理想的采樣模型和兩個(gè)類(lèi)型的質(zhì)量指標(biāo),用來(lái)評(píng)估各類(lèi)型采樣算法之間的相似性,從異常檢測(cè)的角度來(lái)量化檢測(cè)結(jié)果的質(zhì)量。其次,介紹了后期采樣技術(shù)和特征感知的自適應(yīng)采樣方法,它提供了較為精確的、關(guān)于原始數(shù)據(jù)集的統(tǒng)計(jì)信息,優(yōu)化了異常檢測(cè)中數(shù)據(jù)的采樣結(jié)果。實(shí)驗(yàn)表明,在保留網(wǎng)絡(luò)特征方面,自適應(yīng)采樣具有更好的可逆性;在檢測(cè)異常流量的效果方面,自適應(yīng)采樣具有更好的表現(xiàn)。
[1]Mai J,Chuah C N,Sridharan A,et al.Is sampled data sufficient for anomaly detection?[C]//Proc of the 6th ACM SIGCOMM Conference on Internet Measurement.New York:ACM Press,2006:165-176.
[2]Hohn N,Veitch D.Inverting sampled traffic[J].IEEE/ACM Transactions on Networking(TON),2006,14(1):68-80.
[3]Duffield N,Lund C,Thorup M.Properties and prediction of flow statistics from sampled packet streams[C]//Proc of the 2nd ACM SIGCOMM Workshop on Internet Measurement.New York:ACM Press,2002:159-171.
[4]Duffield N,Lund C,Thorup M.Estimating flow distributions from sampled flow statistics[J].IEEE/ACM Transactions on Networking(TON),2005,13(5):933-946.
[5]Estan C,Keys K,Moore D,et al.Building a better netflow[C]//Proc of the 2004 Conference on Applications,Technologies,Architectures,and Protocols for Computer Communications(SIGCOMM’04).New York:ACM Press,2004:245-256.
[6]Choi B Y,Zhang Z L.Adaptive random sampling for traffic volume measurement[J].Telecommunication Systems,2007,34(1/2):71-80.
[7]Hu C,Wang S,Tian J,et al.Accurate and efficient traffic monitoring using adaptive non-linear sampling method[C]// The27thConferenceonComputer Communications,INFOCOM 2008,Phoenix,2008:26-30.
[8]潘喬,裴昌幸.一種新的可變采樣率的網(wǎng)絡(luò)流量抽樣測(cè)量方法[J].西安電子科技大學(xué)學(xué)報(bào):自然科學(xué)版,2008,35(6):968-972.
[9]王丹,謝高崗,楊建華,等.一種改進(jìn)的自適應(yīng)流量采樣方法[J].計(jì)算機(jī)研究與發(fā)展,2007,44(8):1339-1347.
[10]Ali S,Haq I U,Rizvi S,et al.On mitigating samplinginduced accuracy loss in traffic anomaly detection systems[J].ACM SIGCOMM Computer Communication Review,2010,40(3):4-16.
[11]Estan C,Varghese G.New directions in traffic measurement and accounting[J].ACM SIGCOMM Computer Communication Review,2002,32:323-336.
[12]Yang L,Michailidis G.Sampled based estimation of network traffic flow characteristics[C]//The 26th IEEE International Conference on Computer Communications,INFOCOM 2007,Alaska,2007:1775-1783.
[13]Duffield N.Sampling for passive internet measurement:a review[J].Statistical Science,2004,19:472-498.
[14]Androulidakis G,Papavassiliou S.Improving network anomaly detection via selective flow-based sampling[J]. IET Communications,2008,2(3):399-409.
[15]Rehak M,Pechoucek M,Bartos K,et al.CAMNEP:an intrusion detection system for high-speed networks[J]. Progress in Informatics and Computing,2008(5):65-74.
LIU Chenguang1,LIU Weihui2,YAN Liyan1
1.Center of Information&Network Technology,Jiangsu Normal University,Xuzhou,Jiangsu 221116,China
2.Library,Jiangsu Normal University,Xuzhou,Jiangsu 221116,China
Sampling is a major method in data acquisition in network anomaly detection.But different duration of flow, different sizes of the packet and different frequency of abnormal flow have brought about measurable negative impact on the accurate sampling.For this,this paper presents a feature perception adaptive sampling technique which can adjust the sampling rate when context is changing.Compared the adaptive sampling with the random sampling and the choice sampling,it studies the technology on retaining network feature in network behavior analysis system.The experimental result shows that the method is superior to others in retained network feature and quality assessment of anomaly detection.
anomaly detection;sampling technology;feature perception;NetFlow protocol;sampling model;sampling algorithm
采樣是網(wǎng)絡(luò)異常檢測(cè)中數(shù)據(jù)采集的主要方法。而網(wǎng)絡(luò)流的持續(xù)時(shí)間、數(shù)據(jù)包的大小、異常流量出現(xiàn)的頻率等都在不斷變化,給準(zhǔn)確的采樣帶來(lái)很多負(fù)面的影響。為此,提出了特征感知的自適應(yīng)采樣技術(shù),在流量特征不斷變化的情況下可以自動(dòng)調(diào)整采樣率,并將它和隨機(jī)采樣技術(shù)、選擇采樣技術(shù)進(jìn)行比較,研究了這些采樣技術(shù)在網(wǎng)絡(luò)行為分析系統(tǒng)中保留網(wǎng)絡(luò)特征的能力,實(shí)驗(yàn)結(jié)果表明此方法在保留網(wǎng)絡(luò)特征和異常檢測(cè)質(zhì)量評(píng)估中,明顯優(yōu)于其他方法。
異常檢測(cè);采樣技術(shù);特征感知;NetFlow協(xié)議;采樣模型;采樣算法
A
TP393
10.3778/j.issn.1002-8331.1212-0402
LIU Chenguang,LIU Weihui,YAN Liyan.Feature perception adaptive flow sampling method based on NetFlow. Computer Engineering and Applications,2014,50(24):104-108.
江蘇師范大學(xué)校自然科學(xué)基金資助項(xiàng)目(No.10XLB20)。
劉晨光(1978—),男,工程師,主研方向:網(wǎng)絡(luò)安全;劉偉輝,講師;燕麗艷,實(shí)驗(yàn)師。E-mail:liucg@jsnu.edu.cn
2013-01-04
2013-02-28
1002-8331(2014)24-0104-05
CNKI網(wǎng)絡(luò)優(yōu)先出版:2013-03-26,http∶//www.cnki.net/kcms/detail/11.2127.TP.20130326.1042.019.html