王啟明,趙凱,時(shí)合生
基于改進(jìn)型決策樹算法的網(wǎng)絡(luò)流量監(jiān)測研究
王啟明,趙凱,時(shí)合生
針對(duì)網(wǎng)絡(luò)異常流量特征擾動(dòng)性和暫態(tài)性特點(diǎn),提出一種基于改進(jìn)型決策樹優(yōu)化跟蹤算法算法。利用雙正交提升小波分解得到的各層細(xì)節(jié)信號(hào)對(duì)暫態(tài)性擾動(dòng)特征的敏感性,通過小波分解得到各層細(xì)節(jié)信號(hào),將提取的小波分層細(xì)節(jié)信號(hào)的奇異值分解特征再返回到?jīng)Q策樹主分量特征優(yōu)化跟蹤模型中,實(shí)現(xiàn)網(wǎng)絡(luò)流量異常特征的定位提取和識(shí)別。試驗(yàn)表明,基于改進(jìn)型決策樹優(yōu)化跟蹤算法,暫態(tài)性異常特征譜圖分辨能力提高,異常特征分布譜清晰可見,展示了較好的特征提取和狀態(tài)識(shí)別性能。
跟蹤算法;二叉回歸;網(wǎng)絡(luò)流量;小波分解
決策樹算法在數(shù)據(jù)挖掘和信號(hào)特征提取及分類識(shí)別中的應(yīng)用和研究比較廣泛,文獻(xiàn)[1]中,王曙燕,耿國華等采用決策樹算法對(duì)醫(yī)學(xué)圖像進(jìn)行數(shù)據(jù)挖掘,主要是基于決策樹算法設(shè)計(jì)了醫(yī)學(xué)圖像分類器,進(jìn)行輔助醫(yī)療診斷;饒翔、王懷民等在云計(jì)算系統(tǒng)中,基于決策樹模型進(jìn)行特征建模,實(shí)現(xiàn)特征挖掘并應(yīng)用到故障檢測中[2];文獻(xiàn)[3]中,采用小波分解的方法,結(jié)合數(shù)據(jù)挖掘中決策樹算法,實(shí)現(xiàn)對(duì)電能質(zhì)量擾動(dòng)自動(dòng)分類。陳輝林,夏道勛采用類型變量求解決策樹,并引入優(yōu)化的分裂函數(shù),創(chuàng)建二叉決策樹,進(jìn)行數(shù)據(jù)挖掘?qū)崿F(xiàn)[4]。綜合傳統(tǒng)研究成果可見,決策樹算法是數(shù)據(jù)挖掘和特征分類算法的一個(gè)重要延生分支,挖掘的數(shù)據(jù)特征,通過決策樹算法實(shí)現(xiàn)分類整理,實(shí)現(xiàn)對(duì)數(shù)據(jù)的合理利用[5~7]。然而傳統(tǒng)上采用決策樹算法進(jìn)行數(shù)據(jù)挖掘和分類識(shí)別中,由于網(wǎng)絡(luò)異常流量數(shù)據(jù)擾動(dòng)性和暫態(tài)性較強(qiáng),傳統(tǒng)的決策樹算法不能有效對(duì)網(wǎng)絡(luò)流量的暫態(tài)性異常特征進(jìn)行提取和定位識(shí)別[8]。
針對(duì)上述問題,本文結(jié)合小波分解得到的各層細(xì)節(jié)信號(hào)對(duì)暫態(tài)性擾動(dòng)特征的敏感性,提出一種基于小波分解的二叉分類回歸決策樹主分量特征優(yōu)化跟蹤特征提取算法,實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)流量異常特征這類暫態(tài)性和擾動(dòng)性強(qiáng)的信號(hào)的有效檢測和跟蹤定位識(shí)別,最后,通過實(shí)測網(wǎng)絡(luò)流量信號(hào)進(jìn)行仿真實(shí)驗(yàn),檢驗(yàn)方法的可行性和優(yōu)越性。
1.1 問題描述與決策樹的構(gòu)造
決策樹算法在數(shù)據(jù)特征分類研究和分類器設(shè)計(jì)中廣泛使用的分類算法,數(shù)據(jù)分類是數(shù)據(jù)挖掘技術(shù)的必然延生和歸屬,常見的數(shù)據(jù)分類器有BP神經(jīng)網(wǎng)絡(luò)分類器、貝葉斯分類器、SVM分類器、線性分類器、級(jí)聯(lián)分類器等,決策樹分類技術(shù)因簡單有效而被廣泛使用,特別是在海量特征數(shù)據(jù)聚類設(shè)計(jì)中,決策樹分類器有著廣泛的應(yīng)用前景[9]。具體來說,決策樹模型結(jié)構(gòu)包括3種節(jié)點(diǎn)模式,并由節(jié)點(diǎn)和邊組成的層次結(jié)構(gòu)模型,3種節(jié)點(diǎn)模式分別為:根節(jié)點(diǎn)、內(nèi)部節(jié)點(diǎn)和葉節(jié)點(diǎn)。其中,根節(jié)點(diǎn)與內(nèi)部節(jié)點(diǎn)為決策樹內(nèi)部層次屬性檢驗(yàn)集條件,葉節(jié)點(diǎn)為決策樹屬性標(biāo)識(shí)。決策樹分類經(jīng)典算法為ID3算法,但I(xiàn)D3算法需要實(shí)現(xiàn)目標(biāo)測試數(shù)據(jù)所含屬性離散處理,且各組訓(xùn)練測試樣本數(shù)據(jù)集標(biāo)識(shí)具有確定性,為此,本文引入二叉分類回歸決策樹算法,實(shí)現(xiàn)對(duì)ID3決策樹算法的改進(jìn),主要包括如下兩個(gè)方面:
(1)實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)流量序列連續(xù)數(shù)據(jù)集屬性離散化處理;
(2)把數(shù)據(jù)主特征建模和特征提取分類與決策樹剪枝處理同步進(jìn)行,在決策樹建構(gòu)過程中實(shí)現(xiàn)剪枝;
決策樹構(gòu)造過程采用了自頂向下和分治的方法。其構(gòu)造方式如下,令A(yù)= {a1, a2, … , an}為網(wǎng)絡(luò)流量序列訓(xùn)練集的屬性集,B = {b1,b2, … , bm}為決策樹的類別集,ai的屬性值為{c1,c2,… , ck}。首先從將訓(xùn)練集與它們所屬的類別進(jìn)行關(guān)聯(lián)。其次從訓(xùn)練集的屬性集中利用信息增益 Gain選出屬性集中的最優(yōu)分裂屬性??梢酝ㄟ^公式(1)~(3)產(chǎn)生信息增益。網(wǎng)絡(luò)流量序列決策樹構(gòu)造信息增益表達(dá)式為公式(1)、(2)、(3):
根據(jù)最優(yōu)分裂屬性的值將訓(xùn)練集劃分為若干個(gè)子集。然后在每個(gè)子集中遞歸的選取新的最優(yōu)分裂屬性,并將該子集進(jìn)行分裂,直到無屬性劃分或最終的子集都屬于一個(gè)類別,通過上述方法得到信息增益為二叉分類回歸決策樹主分量特征建模提供特征導(dǎo)向,其中i p是指訓(xùn)練集中屬于bi類的元素所占比重。jB表示在訓(xùn)練集中含有xa屬性中的vc值的元素集合。
1.2 二叉分類回歸決策樹主分量特征優(yōu)化跟蹤提取
通過上述過程進(jìn)行決策樹構(gòu)造,設(shè)置了訓(xùn)練集合屬性集,并在此基礎(chǔ)上,構(gòu)建二叉分類回歸決策樹,進(jìn)行主分量特征優(yōu)化跟蹤建模設(shè)計(jì),提取網(wǎng)絡(luò)流量序列的暫態(tài)性異常特征,設(shè)數(shù)據(jù)集測試數(shù)據(jù)待測試窗口的特征向量表示為公式(4):
考慮網(wǎng)絡(luò)流量異常特征的暫態(tài)擾動(dòng)性特點(diǎn),在numFolds,seed,BinarySplits參數(shù)設(shè)置上設(shè)定為默認(rèn)值,原始數(shù)據(jù)集特征空間屬性為2維空間,無需進(jìn)行2進(jìn)制數(shù)值轉(zhuǎn)換,參數(shù)設(shè)置中,confidenceFactor和minNumObj設(shè)置對(duì)決策樹的特征具有決定作用,提取暫態(tài)性特征空間,采用自回歸模態(tài)跟蹤技術(shù)進(jìn)行數(shù)據(jù)集預(yù)處理,實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)流量特征的提取定位,在決策數(shù)據(jù)模型狀態(tài)提取過程中,將訓(xùn)練樣本,輸入特征數(shù)據(jù)優(yōu)化跟蹤狀態(tài)識(shí)別器,產(chǎn)生數(shù)據(jù)跟蹤狀態(tài)序列集,導(dǎo)入數(shù)據(jù)特征跟蹤狀態(tài)驗(yàn)證器進(jìn)行狀態(tài)識(shí)別驗(yàn)證,最后輸出,判斷是否作為網(wǎng)絡(luò)流量的異常特征。
通過測試數(shù)據(jù)集進(jìn)行8次決策樹數(shù)據(jù)測試,得到的網(wǎng)絡(luò)流量數(shù)據(jù)主特征決策樹分叉圖,對(duì)應(yīng)的定位跟蹤屬性取值{0,1}映射到?jīng)Q策樹中表現(xiàn)為映射值{No,Yes},對(duì)應(yīng)特征跟蹤數(shù)據(jù)時(shí)候出現(xiàn),在本文算法實(shí)現(xiàn)過程中,對(duì)數(shù)據(jù)集中的異常特征采用小波分解方式進(jìn)行提取,充分利用小波分解各層細(xì)節(jié)信號(hào)對(duì)暫態(tài)性擾動(dòng)特征的敏感性,通過雙正交提升小波構(gòu)造,對(duì)網(wǎng)絡(luò)流量序列多輪分解更新,求解各層細(xì)節(jié)信號(hào),通過細(xì)節(jié)信號(hào)較好地展現(xiàn)暫態(tài)性擾動(dòng)特征。最后將提取的小波分解特征再返回到?jīng)Q策樹主分量特征優(yōu)化跟蹤模型中,實(shí)現(xiàn)網(wǎng)絡(luò)流量異常特征的定位識(shí)別。
2.1 雙正交提升小波變換和細(xì)節(jié)分解
在二叉分類回歸決策樹主分量特征建模的基礎(chǔ)上,需要提取網(wǎng)絡(luò)流量序列的異常特征在送回決策樹進(jìn)行模式識(shí)別,由于網(wǎng)絡(luò)異常流量數(shù)據(jù)擾動(dòng)性和暫態(tài)性較強(qiáng),傳統(tǒng)的決策樹算法不能有效對(duì)網(wǎng)絡(luò)流量的暫態(tài)性異常特征進(jìn)行提取和定位識(shí)別,本文采用小波分解的方式對(duì)網(wǎng)絡(luò)流量序列的細(xì)節(jié)信號(hào)進(jìn)行展示,充分體現(xiàn)信號(hào)的暫態(tài)性和擾動(dòng)性,實(shí)現(xiàn)特征有效提取的定位識(shí)別。算法描述具體如下:
采用雙正交提升小波在歐氏空間內(nèi)通過基底平移和伸縮構(gòu)造小波基,在提升小波變換中,小波由某一母小波通過平移和伸縮得到。網(wǎng)絡(luò)流量序列的雙正交小波形式為公式(5):
A(t)t為,K表示流量序列的信號(hào)包絡(luò),θ( t )為擾動(dòng)偏移相位,參數(shù)0確定如公式(6):
f0為小波雙正交變換的算術(shù)中心頻率,B為異常流量擾動(dòng)帶寬。雙曲調(diào)頻小波的瞬時(shí)頻率為公式(7):
小波函數(shù)為公式(8):
流量序列基地平移瞬時(shí)頻率為公式(9):
取τ*= (1 - a)t0,得公式(10):
對(duì)雙正交提升小波小波而言,隨著細(xì)節(jié)信號(hào)尺度算子a變化,其等效于母小波在二維空間伸縮平移,從而把異常特征信號(hào)的暫態(tài)性擾動(dòng)特征映射到小波變換的雙正交空間中進(jìn)行自小波計(jì)算。得到自小波變換為公式(11):
得到雙正交提升小波在歐氏空間內(nèi)對(duì)應(yīng)異常擾動(dòng)特征的軌跡為:
式中,網(wǎng)絡(luò)流量序列的尺度因子a、帶寬B和中心頻率f0,它們之間呈現(xiàn)一種定量分解關(guān)系。式(13)表明軌跡為一條直線,展示了信號(hào)尺度和時(shí)延耦合,通過雙正交提升小波可以用來消除耦合,進(jìn)行細(xì)節(jié)信號(hào)分解,最終可得到特征性較強(qiáng)的細(xì)節(jié)信號(hào)設(shè)網(wǎng)絡(luò)流量序列x(k ),k=0,1,2,...,N -1,可以得到多層小波分解細(xì)節(jié)信號(hào)表示為公式(14):
經(jīng)過多輪細(xì)節(jié)分解運(yùn)算后,最終得到偶數(shù)序列對(duì)應(yīng)小波分解實(shí)際的低頻細(xì)節(jié)分量,奇數(shù)序列對(duì)應(yīng)小波分解的高頻細(xì)節(jié)分量,對(duì)每層細(xì)節(jié)分量進(jìn)行異常擾動(dòng)信號(hào)特征提取。
2.2 奇異值分解特征提取
在采用雙正交提升小波進(jìn)行小波變換和細(xì)節(jié)分解的后,接著采用奇異值分解方法提取多層小波細(xì)節(jié)信號(hào)特征,充分展示網(wǎng)絡(luò)流量信號(hào)異常特征的暫態(tài)性。根據(jù)矩陣論相關(guān)知識(shí),奇異值分解進(jìn)m行 ×小 n波細(xì)節(jié)信號(hào)特征提取描述如下:設(shè)A是 的實(shí)矩陣,有m階正交矩陣U和n階正交矩陣V,使得公式(15)、(16):
綜上分析和處理,將提取的小波分層細(xì)節(jié)信號(hào)的奇異值分解特征再返回到?jīng)Q策樹主分量特征優(yōu)化跟蹤模型中,實(shí)現(xiàn)網(wǎng)絡(luò)流量異常特征的定位識(shí)別。
仿真實(shí)驗(yàn)中,通過采集我校校園網(wǎng)網(wǎng)絡(luò)中心監(jiān)測原始數(shù)據(jù)進(jìn)行數(shù)據(jù)分析處理,采集樣本每天為一段,作為一組樣本實(shí)驗(yàn)集,采樣總長為期1個(gè)周,采集方法是等時(shí)間間隔監(jiān)測網(wǎng)絡(luò)流量的數(shù)據(jù)包個(gè)數(shù)和數(shù)據(jù)量信息,采集采樣時(shí)間間隔為1min。組成一組時(shí)間序列。流量監(jiān)測的數(shù)據(jù)包括用戶進(jìn)行網(wǎng)頁瀏覽,下載傳輸,文件傳送等與產(chǎn)生流量相關(guān)的一切信息流。采用MATLAB仿真平臺(tái)構(gòu)建二叉分類回歸決策樹主分量特征優(yōu)化跟蹤分類模型,進(jìn)行網(wǎng)絡(luò)流量序列的異常特征定位識(shí)別。首先通過采集得到原始網(wǎng)絡(luò)流量序列,通過雙正交提升小波變換和細(xì)節(jié)分解得到分層細(xì)節(jié)信號(hào)如圖1所示:
圖1 通過雙正交提升小波變換后分層細(xì)節(jié)信號(hào)
最后采用奇異值分解特征提取方法對(duì)上述分層細(xì)節(jié)信號(hào)進(jìn)行特征提取并在使用決策樹主分量特征優(yōu)化跟蹤,得到網(wǎng)絡(luò)流量暫態(tài)性異常特征定位識(shí)別分布譜圖如圖2所示。
圖2 本文方法得到的網(wǎng)絡(luò)流量暫態(tài)性異常特征定位識(shí)別分布譜圖
而采用傳統(tǒng)方法,不對(duì)信號(hào)特征進(jìn)行小波細(xì)節(jié)分解,直接使用原始信號(hào)進(jìn)行特征提取并采用決策樹算法進(jìn)行特征優(yōu)化跟蹤定位識(shí)別得到的網(wǎng)絡(luò)流量暫態(tài)性異常特征定位識(shí)別分布譜圖如圖3所示:
圖3 傳統(tǒng)方法得到的網(wǎng)絡(luò)流量暫態(tài)性異常特征定位識(shí)別分布譜圖
對(duì)比兩者結(jié)果可見,采用本文方法,對(duì)網(wǎng)絡(luò)流量異常特征能夠準(zhǔn)確有效定位識(shí)別和提取,原始決策樹方法受擾動(dòng)的影響較大,抗干擾能力和分辨率有所下降,對(duì)暫態(tài)性異常信號(hào)的識(shí)別能力不足,譜圖的奇異值分解特性難以分辨。而改進(jìn)型決策樹優(yōu)化跟蹤算法提高了譜圖在擾動(dòng)中的分辨率,充分利用了小波分解各層細(xì)節(jié)信號(hào)對(duì)暫態(tài)性擾動(dòng)特征的敏感性,網(wǎng)絡(luò)流量序列異常特征信號(hào)的奇異值分解的特征分布譜清晰可見,展示了本文算法在對(duì)網(wǎng)絡(luò)流量序列特征提取和定位識(shí)別的優(yōu)越性能。
本文結(jié)合小波分解得到的各層細(xì)節(jié)信號(hào)對(duì)暫態(tài)性擾動(dòng)特征的敏感性特點(diǎn),提出一種基于二叉分類回歸決策樹主分量特征優(yōu)化跟蹤特征提取算法,實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)流量異常特征這類暫態(tài)性和擾動(dòng)性強(qiáng)的信號(hào)的有效檢測和跟蹤定位識(shí)別,最后通過實(shí)測網(wǎng)絡(luò)流量信號(hào)進(jìn)行仿真實(shí)驗(yàn),檢驗(yàn)方法的可行性和優(yōu)越性。結(jié)果表明采用本文方法,能有效準(zhǔn)確地對(duì)網(wǎng)絡(luò)流量異常特征進(jìn)行特征提取和定位識(shí)別跟蹤,改進(jìn)型決策樹優(yōu)化跟蹤算法提高了譜圖在擾動(dòng)中的分辨率,充分利用了小波分解各層細(xì)節(jié)信號(hào)對(duì)暫態(tài)性擾動(dòng)特征的敏感性,異常特征分布譜清晰可見,展示了本文算法在對(duì)網(wǎng)絡(luò)流量序列特征提取和定位識(shí)別的優(yōu)越性能,在網(wǎng)絡(luò)安全防御和網(wǎng)絡(luò)流量信息監(jiān)控等領(lǐng)域具有很好的應(yīng)用價(jià)值。
[1] 王曙燕,耿國華,李丙春.決策樹算法在醫(yī)學(xué)圖像數(shù)據(jù)挖掘中的應(yīng)用[J].西北大學(xué)學(xué)報(bào)(自然科學(xué)版),2005,35(3): 262-265.
[2] 饒翔,王懷民,陳振邦,等.云計(jì)算系統(tǒng)中基于伴隨狀態(tài)追蹤的故障檢測機(jī)制[J].計(jì)算機(jī)學(xué)報(bào),2012,35(5):856-870.
[3] 孔英會(huì),車轔轔,苑津莎,等.基于小波分解和數(shù)據(jù)挖掘中決策樹算法的電能質(zhì)量擾動(dòng)識(shí)別方法[J].電網(wǎng)技術(shù),2007, 31(23): 78-82.
[4] 陳輝林,夏道勛.基于 CART 決策樹數(shù)據(jù)挖掘算法的應(yīng)用研究[J].煤炭技術(shù),2011,30(10):164-166.
[5] 劉撿平,黃勇,周西柳.云計(jì)算科技服務(wù)系統(tǒng)平臺(tái)設(shè)計(jì)研究[J].科技通報(bào),2012,28(10):19-21.
[6] 王龍,萬振凱.基于服務(wù)架構(gòu)的云計(jì)算研究及其實(shí)現(xiàn)[J].計(jì)算機(jī)與數(shù)字工程,2009,37(7):88-91.
[7] 馬建倉,孟凡路.多小波在振動(dòng)信號(hào)降噪中的應(yīng)用[J].計(jì)算機(jī)仿真,2010,27(8):48-51.
[8] 韋新丹.模糊 C算法在網(wǎng)絡(luò)入侵防護(hù)中的仿真研究[J].科技通報(bào),2012,28(12):221-223.
[9] 馮貴玉,趙琪,張可黛.多源信息融合認(rèn)知機(jī)理與模型研究[J].計(jì)算機(jī)與數(shù)字工程,2013,280(2):182-184.
TP392文獻(xiàn)標(biāo)志碼:A
2015.01.19)
1007-757X(2015)08-0031-03
王啟明(1980-),男(漢族),河南魯山人,平頂山學(xué)院,計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,講師,碩士,研究方向:軟件工程算法和物聯(lián)網(wǎng),平頂山,467000;趙凱(1982-),男(漢族),河南平頂山人,碩士,平頂山學(xué)院,講師,研究方向:向量機(jī)、工作流引擎研究,平頂山,467000時(shí)合生(1977-),男(漢族),河南郾城縣人,平頂山學(xué)院,計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,講師,碩士,研究方向:計(jì)算機(jī)軟件與理論,平頂山,467000