田原
摘 要:在互聯(lián)網(wǎng)中理解網(wǎng)絡(luò)行為最高效的途徑即是對(duì)網(wǎng)絡(luò)數(shù)據(jù)流量進(jìn)行安全檢測(cè)與分析,它是對(duì)已有互聯(lián)網(wǎng)的組建、規(guī)范化和改造的依據(jù),同時(shí)也是對(duì)Internet進(jìn)行安全檢測(cè)的重要環(huán)節(jié)。為了解決網(wǎng)絡(luò)中的資源和高速IP流量之間的沖突問題,需要對(duì)網(wǎng)絡(luò)流進(jìn)行多種方式的安全處理與算法研究。
論文首先提出了改進(jìn)的數(shù)據(jù)抽樣技術(shù)并綜合論述了現(xiàn)階段基于抽樣技術(shù)的數(shù)據(jù)測(cè)量算法的研究,同時(shí)通過對(duì)重要數(shù)據(jù)參數(shù)的重新設(shè)置和分析,并結(jié)合使用多種數(shù)據(jù)取樣的方法,探討改進(jìn)的數(shù)據(jù)空間映射技術(shù),與現(xiàn)階段的各種取樣方式,在測(cè)量網(wǎng)絡(luò)長流算法中的綜合應(yīng)用[1]。
關(guān)鍵詞:報(bào)文抽樣;哈希;網(wǎng)絡(luò)測(cè)量;IP流
Abstract: Way in the Internet to understand network behavior is the most efficient and the detection and analysis of network data flow. It is the basis for the formation ,standardization and transformation of the existing internet. In the meantime, it is also an important part of Internet security testing. In order to solve the problem of conflict between network resources and high speed IP flow. Study on the safe handling and algorithm to perform a variety of modes of network flow.
This paper proposes an improved sampling data base and discusses the current research sampling algorithm based on measurement data. At the same time by resetting the data on important parameters analysis and combined with the method of using a variety of data sampling ,the discussion of data space mapping technique and comprehensive application of various sampling methods at the stage in the measurement of network flows in algorithm.
Key words: packet sampling; hash; internet measurement; ip flow
1 引言
當(dāng)今,互聯(lián)網(wǎng)的數(shù)據(jù)流量特征分析已經(jīng)發(fā)生了非常顯著的變化,同時(shí)互聯(lián)網(wǎng)也產(chǎn)生了多元發(fā)展的方向,通過對(duì)網(wǎng)絡(luò)流量安全的分析,試圖完整地檢測(cè)和監(jiān)控?cái)?shù)據(jù)長流的行為,目前已經(jīng)存在很多問題。NSF的設(shè)計(jì)還存在一些弊端,缺少設(shè)定對(duì)于監(jiān)測(cè)不同流量之間的網(wǎng)絡(luò)性能問題和安全問題的考慮。與此同時(shí),互聯(lián)網(wǎng)服務(wù)供應(yīng)商也沒有重點(diǎn)整理和分析網(wǎng)絡(luò)的數(shù)據(jù),所以造成了現(xiàn)在對(duì)流量的測(cè)量和分析網(wǎng)絡(luò)行為及網(wǎng)絡(luò)行為變化的測(cè)度數(shù)據(jù)[1]缺失。
2 網(wǎng)絡(luò)測(cè)量技術(shù)的發(fā)展
在互聯(lián)網(wǎng)中對(duì)于網(wǎng)絡(luò)數(shù)據(jù)長流的測(cè)量安全方法主要有兩種[2]。主動(dòng)測(cè)量是將數(shù)據(jù)探測(cè)分組注入互聯(lián)網(wǎng)中檢測(cè),然后接受產(chǎn)生的流量直接測(cè)量互聯(lián)網(wǎng)中數(shù)據(jù)的屬性。但同時(shí)主動(dòng)測(cè)量也存在自身的問題,它會(huì)對(duì)被測(cè)網(wǎng)絡(luò)IP長流的產(chǎn)生一些阻礙,因此主動(dòng)數(shù)據(jù)測(cè)量的研究需要認(rèn)真分析對(duì)網(wǎng)絡(luò)實(shí)際傳輸流量的總體影響。被動(dòng)測(cè)量指在網(wǎng)互聯(lián)網(wǎng)中的關(guān)鍵節(jié)點(diǎn)設(shè)置數(shù)據(jù)收集器,進(jìn)行通過數(shù)據(jù)分析、收取數(shù)據(jù)流特征,并獲得關(guān)鍵性的數(shù)據(jù)。這種方式的過程取決于被測(cè)網(wǎng)絡(luò)中由已經(jīng)存在的數(shù)據(jù)樣本來決定,它的特點(diǎn)是數(shù)據(jù)被檢測(cè)的時(shí),不影響被測(cè)量網(wǎng)絡(luò)的流量,但是也存在著一定的缺點(diǎn),即產(chǎn)生數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)監(jiān)測(cè)及錯(cuò)誤率等問題[3,4]。
2.1 主動(dòng)測(cè)量
這種測(cè)量方法比較容易實(shí)現(xiàn),數(shù)據(jù)的測(cè)量可以通過在一定的條件下而產(chǎn)生,采用主動(dòng)測(cè)量方法時(shí),它不會(huì)依賴外部測(cè)量設(shè)備去同時(shí)檢測(cè)網(wǎng)絡(luò)數(shù)據(jù)的訪問時(shí)間。而這種測(cè)量是基于RTT的數(shù)據(jù)流量測(cè)量,它不支持對(duì)單路數(shù)據(jù)流量延遲的測(cè)量。還有其他測(cè)量方法是通過使用全球定位系統(tǒng)接收器來同步主機(jī)的數(shù)據(jù)。但是這些系統(tǒng)對(duì)于獲得額外的網(wǎng)絡(luò)數(shù)據(jù)流量安全信息的分析方法非常有限,因此不被普遍使用。
2.2 被動(dòng)測(cè)量
這種測(cè)量方法需要在網(wǎng)絡(luò)中的一個(gè)數(shù)據(jù)節(jié)點(diǎn)收集流量信息,例如使用多層交換機(jī)采集網(wǎng)絡(luò)數(shù)據(jù)被動(dòng)地監(jiān)測(cè)通過被測(cè)量網(wǎng)絡(luò)鏈路的流量[5]。同時(shí)互聯(lián)網(wǎng)中的被監(jiān)測(cè)流量安全性存在不穩(wěn)定、數(shù)據(jù)突發(fā)等特點(diǎn)是可以完全被監(jiān)測(cè)結(jié)果抵消的,所以有些數(shù)據(jù)長流的監(jiān)測(cè)采用這種測(cè)量方法是比較困難的,會(huì)有一定的數(shù)據(jù)損失錯(cuò)誤率產(chǎn)生。
3 長流測(cè)量技術(shù)
3.1 報(bào)文抽樣技術(shù)
在采用這種技術(shù)過程中,根據(jù)數(shù)據(jù)取樣使用的方式不同,在實(shí)際應(yīng)用中可以將數(shù)據(jù)取樣方法劃分為不同的類型,例如策略不同的數(shù)據(jù)抽樣和觸發(fā)方式不同的數(shù)據(jù)抽樣[6]。在基于不同方式的數(shù)據(jù)抽樣類型中,有時(shí)采用的時(shí)間觸發(fā)不如報(bào)文觸發(fā)方式,結(jié)合以上分析,本文只考慮基于策略不同的數(shù)據(jù)取樣分析,其中數(shù)據(jù)系統(tǒng)取樣方式本文闡述的是常用周期取樣。
3.2 改進(jìn)的分層抽樣及參數(shù)配置
分層數(shù)據(jù)抽取技術(shù)是通過有效的數(shù)據(jù)分組與操作原理相結(jié)合,通過技術(shù)劃分出行為狀態(tài)比較相似的層,以改變參數(shù)值之間的差異量的變化。而這些相似的層則是依據(jù)事先已經(jīng)定義的數(shù)據(jù)參數(shù)特征,將樣本分成若干個(gè)互不交叉、互不重復(fù)的獨(dú)立存儲(chǔ)空間,所有的取樣數(shù)據(jù)由這些相似層的獨(dú)立空間樣本組成,這些數(shù)據(jù)則依據(jù)獨(dú)立的空間做出參數(shù)估計(jì)。只要避免多余的數(shù)據(jù)分配方式就會(huì)比簡單數(shù)據(jù)隨機(jī)抽樣和周期抽樣獲得更好的測(cè)量性能和安全性[7]。endprint
數(shù)據(jù)分層采樣技術(shù)通過對(duì)數(shù)據(jù)鏈路上的報(bào)文分析出一定的數(shù)據(jù)分組,借助于網(wǎng)絡(luò)中數(shù)據(jù)鏈路接口[2]處裝置一個(gè)測(cè)量數(shù)據(jù)集成系統(tǒng),將抽樣數(shù)據(jù)測(cè)量結(jié)果處理成網(wǎng)絡(luò)流量信息反饋給測(cè)量數(shù)據(jù)集成系統(tǒng)。
3.3 CBF報(bào)文過濾技術(shù)
報(bào)文過濾技術(shù)采用對(duì)鏈路上的數(shù)據(jù)進(jìn)行隨機(jī)采樣,一個(gè)數(shù)據(jù)被抽取后,為其定義專屬的數(shù)據(jù)標(biāo)識(shí)。同時(shí)建立這個(gè)IP數(shù)據(jù)流的數(shù)據(jù)累加器,之后無論這個(gè)數(shù)據(jù)流的報(bào)文是否被采樣,其余的每一個(gè)數(shù)據(jù)都會(huì)被處理,同時(shí)累加器隨之更新,直到測(cè)量過程結(jié)束,最后輸出大于額定值的數(shù)據(jù)流即為IP長流。本文借助其基本思想并對(duì)其哈希過程進(jìn)行改進(jìn),提出使用CBF技術(shù)用于判斷是否對(duì)報(bào)文進(jìn)行抽樣并對(duì)其所屬流標(biāo)示即FSample—CBF方法。
首先對(duì)鏈路上的數(shù)據(jù)按照預(yù)先定義的速率進(jìn)行周期采樣。當(dāng)一個(gè)數(shù)據(jù)標(biāo)識(shí)的采樣數(shù)據(jù)被抽取時(shí),使用映射進(jìn)行運(yùn)算,將其映射到存儲(chǔ)空間的相應(yīng)位置,每次映射的相應(yīng)的累加器加數(shù)一次。在累加器更新過程中,我們采用更新機(jī)制,即僅更新K個(gè)累加器中最小的一個(gè),以減少錯(cuò)誤肯定率[1]。由于同一個(gè)流的所有報(bào)文都要被映射到同一存儲(chǔ)空間,因此如果數(shù)據(jù)流被抽取到的報(bào)文數(shù)超過閾值,那么每個(gè)相應(yīng)存儲(chǔ)空間的累加器也會(huì)都超過這個(gè)閾值,標(biāo)識(shí)這個(gè)長流的同時(shí),在內(nèi)存中定義這個(gè)數(shù)據(jù)流的一個(gè)選項(xiàng)來記錄信息。
隨后其所屬的報(bào)文被抽取到時(shí)直接對(duì)內(nèi)存的流標(biāo)示項(xiàng)作用。在存在可容忍流長度測(cè)量誤差的條件下,這種方法可以準(zhǔn)確地識(shí)別長流,有效地減少存儲(chǔ)空間和提高處理速度,同時(shí)也保證了數(shù)據(jù)的安全性。
4 結(jié)束語
綜上所述,通過對(duì)現(xiàn)代互聯(lián)網(wǎng)中網(wǎng)絡(luò)數(shù)據(jù)的深入分析發(fā)現(xiàn),網(wǎng)絡(luò)數(shù)據(jù)通信在很大程度上仍具有明顯的突發(fā)性,會(huì)產(chǎn)生一定范圍內(nèi)的差錯(cuò)。采用數(shù)據(jù)取樣提取技術(shù)與映射技術(shù)結(jié)合的數(shù)據(jù)測(cè)量方式,同時(shí)根據(jù)這種流量分析技術(shù)的優(yōu)缺點(diǎn),提出使用多種測(cè)量技術(shù)相結(jié)合的方法,可以實(shí)現(xiàn)數(shù)據(jù)長流的識(shí)別,實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)數(shù)據(jù)流量安全的檢測(cè),并規(guī)范互聯(lián)網(wǎng)的組建和改造,同時(shí)也擁有了對(duì)Internet進(jìn)行檢測(cè)的重要依據(jù)。
參考文獻(xiàn)
[1] Duffield.N.G,and Grossglauser.M. Trajectory Sampling for Direct Traffic Observation[J]. IEEE/ACM Trans on Networking,June 2001;9(3):280~292.
[2] 程光,龔儉.大規(guī)模高速網(wǎng)絡(luò)流量測(cè)量研究[J].計(jì)算機(jī)工程與應(yīng)用,2002.
[3] Claffy.K,Sean Mcreary. Internet measurement and data analysis: passive and active measurement[R].1999.
[4] 劉衛(wèi)江,龔儉,丁偉.流測(cè)量算法綜述[J].計(jì)算機(jī)工程與應(yīng)用,2005.
[5] K.Dhandere,Hyang-AH Kim,Tim Jia-Yu Pan. The Application and Effect of Sampling Methods on Collecting Network Traffic Statistics[Z].2001.
[6] Duffield.N.G,and Grossglauser.M. Trajectory Sampling with Unreliable Reporting[C]. IEEE Infocom 2004, HongKong:2004.
[7] Duffield.N.G,Lund.C,Thorup.M. Estimating Flow Distributions from Sampled Flow Statistics[C]. ACM SIGCOMM 2003,Karlsruhe,Germany:Aug 2003.endprint