喻東陽(yáng), 陳宏偉, 楊 莊
(湖北工業(yè)大學(xué)計(jì)算機(jī)學(xué)院, 湖北 武漢 430068)
對(duì)等網(wǎng)絡(luò)(P2P)是近年來(lái)發(fā)展迅速的的網(wǎng)絡(luò)應(yīng)用之一,根據(jù)統(tǒng)計(jì),其占用的帶寬已占到了網(wǎng)絡(luò)總帶寬的60%~90%.大量的P2P應(yīng)用已經(jīng)成為互聯(lián)網(wǎng)上帶寬消耗的主要原因,如何識(shí)別控制P2P業(yè)務(wù)流量成為產(chǎn)業(yè)界和學(xué)術(shù)界關(guān)注的熱點(diǎn)[1].
當(dāng)前P2P流量識(shí)別技術(shù)主要有[2]:端口特征識(shí)別、連接模式識(shí)別、深度流檢測(cè)Deep Flow Inspection (DFI)[3]、 深度包檢測(cè)Deep Packet Inspection(DPI).其中,DPI是一種基于應(yīng)用層的流量檢測(cè)和控制技術(shù),其檢測(cè)的單位是單個(gè)完整的數(shù)據(jù)報(bào)文.通過(guò)預(yù)先給定某些具體P2P應(yīng)用的報(bào)文特征,其掃描的過(guò)程中通過(guò)匹配特征庫(kù)中的特征來(lái)達(dá)到識(shí)別某報(bào)文是否為P2P報(bào)文的目的[4].DPI的核心是一個(gè)字符串的模式匹配算法,目前較為流行AC、Wu-Manber、SBOM三大多模匹配算法,本次仿真實(shí)驗(yàn)僅用到AC算法.AC算法是KMP單模算法在多模上的擴(kuò)展,不同的是,AC算法使用一種特殊的樹(shù)型數(shù)據(jù)結(jié)構(gòu),通過(guò)計(jì)算最長(zhǎng)前綴移動(dòng)窗口和匹配位置.
在高速寬帶的ISP上部署該類監(jiān)控系統(tǒng)時(shí),由于流量很大,想要用DPI監(jiān)控系統(tǒng)對(duì)到來(lái)的數(shù)據(jù)報(bào)逐個(gè)分析較為困難.當(dāng)前較為流行的做法是使用一定的抽樣策略來(lái)對(duì)數(shù)據(jù)報(bào)的量做一定的控制,使用抽樣策略可以大大減小DPI檢測(cè)的數(shù)據(jù)報(bào)的數(shù)量,使得資源消耗降低,整個(gè)系統(tǒng)的實(shí)時(shí)度也隨之提高[5].本文對(duì)基于信任策略的P2P流量識(shí)別展開(kāi)研究.
圖1是使用DPI監(jiān)測(cè)的P2P流量識(shí)別體系結(jié)構(gòu)圖.
圖 1 基于信任抽樣的P2P流量識(shí)別系統(tǒng)圖
其中Zα/2為標(biāo)準(zhǔn)正態(tài)分布的雙側(cè)α分為點(diǎn).
由抽樣理論樣中抽樣比的確定公式
T=(N-1)d2/alogb(p+1).
其中參數(shù)ab滿足a2b=1,則抽樣比f(wàn)確定為
本文只針對(duì)BitTorrent協(xié)議進(jìn)行單一節(jié)點(diǎn)的測(cè)試,實(shí)驗(yàn)過(guò)程中主機(jī)使用BitComet0.59版下載1G左右文件,在下載過(guò)程中對(duì)所有數(shù)據(jù)報(bào)進(jìn)行捕獲并寫入數(shù)據(jù)庫(kù),再使用離線的方式對(duì)數(shù)據(jù)庫(kù)中的記錄進(jìn)行抽樣和信任抽樣分析,然后分析兩種抽樣方式各自的特點(diǎn).初始化的參數(shù)如下.公共參數(shù):絕對(duì)誤差上限d=0.05,置信度1-α=0.95,N=1000.抽樣參數(shù):抽樣比f(wàn)=0.286,樣本容量n=286.信任抽樣參數(shù):起始信任值T1=f(p=1.0),起始抽樣比f(wàn)1=0.606,起始樣本容量n=606,樣本容量下限nl=30,b=e.在整個(gè)仿真實(shí)驗(yàn)的過(guò)程中,由于預(yù)設(shè)總體N=1000,共進(jìn)行181個(gè)周期,捕獲約18萬(wàn)數(shù)據(jù)報(bào).?dāng)?shù)據(jù)庫(kù)中字段從左到右依次是數(shù)據(jù)報(bào)編號(hào)、到達(dá)時(shí)間(s)、數(shù)據(jù)報(bào)間隔時(shí)間(μs)、流量(KB/s)、傳輸層協(xié)議、數(shù)據(jù)報(bào)長(zhǎng)度(字節(jié))、生存期、源IP、源端口、目的IP、目的IP、該報(bào)文是否為P2P報(bào)文.
圖 2 不抽樣、抽樣、信任抽樣的估計(jì)量變化圖
圖 3 信任抽樣、抽樣的絕對(duì)誤差變化圖
本文首先介紹了已有的P2P流量識(shí)別技術(shù),然后介紹了基于信任抽樣的P2P流量識(shí)別的系統(tǒng)模塊結(jié)構(gòu),在此基礎(chǔ)上使用簡(jiǎn)單隨機(jī)抽樣和定長(zhǎng)報(bào)文數(shù)量這一抽樣策略進(jìn)行了仿真實(shí)驗(yàn)并分析了實(shí)驗(yàn)的結(jié)果.實(shí)驗(yàn)結(jié)果表明,對(duì)于定長(zhǎng)報(bào)文周期分片方式而言,抽樣以及信任抽樣估計(jì)量的精確度大致相同,這兩種抽樣方式都能將抽樣過(guò)程中比例估計(jì)量的絕對(duì)誤差控制在預(yù)設(shè)的范圍內(nèi).
[參考文獻(xiàn)]
[1] 陸 慶,周世杰,秦志光,等. 對(duì)等網(wǎng)絡(luò)流量檢測(cè)技術(shù)[J]. 電子科技大學(xué)學(xué)報(bào), 2007,36 (6):1 333-1 337.
[2] 魯 剛,張宏莉,葉 磷.P2P流量識(shí)別[J].軟件學(xué)報(bào),2011,22(6):1 281-1 298.
[3] Auld T, Moore Andrew W, Gull S. Bayesian neural networks for Internet traffic classification[J]. IEEE Transactions on Neural Networks, 2007, 18 (1): 223-239.
[4] CHENG Wei-qing, GONG Jian, DING Wei. Identifying file-sharing P2P traffic based on traffic characteristics[J]. The Journal of China Universities of Posts and Telecommunications, 2008, 15(4): 112-120.
[5] 郭振濱,裘正定.應(yīng)用于高速網(wǎng)絡(luò)的基于報(bào)文采樣和應(yīng)用簽名的BitTorrent流量識(shí)別算法[J].計(jì)算機(jī)研究與發(fā)展, 2008, 45(2):227-236.