米 捷,王佳欣
(河南工程學(xué)院 計算機學(xué)院,河南 鄭州 451191)
多層次數(shù)據(jù)中心網(wǎng)絡(luò)流量異常檢測算法
米 捷,王佳欣
(河南工程學(xué)院 計算機學(xué)院,河南 鄭州 451191)
針對多層次數(shù)據(jù)中心網(wǎng)絡(luò)容易發(fā)生流量擁塞的問題進(jìn)行流量異常特征檢測,以提高網(wǎng)絡(luò)的穩(wěn)定性.提出了一種基于高階累積量后置搜索的多層次數(shù)據(jù)中心網(wǎng)絡(luò)流量異常特征檢測算法,構(gòu)建多層次數(shù)據(jù)中心網(wǎng)絡(luò)的流量傳輸結(jié)構(gòu)模型,進(jìn)行流量時頻采樣和時間序列分析.結(jié)合FIR濾波器進(jìn)行流量抗干擾濾波預(yù)處理,利用高階累積量的后置聚焦性,對輸出的濾波數(shù)據(jù)進(jìn)行高階累積量特征提取改進(jìn)和后置聚焦搜索,實現(xiàn)了流量序列中異常特征的準(zhǔn)確檢測和提取.仿真結(jié)果表明,采用該算法進(jìn)行多層次數(shù)據(jù)中心網(wǎng)絡(luò)流量異常檢測的準(zhǔn)確度較高,抗干擾能力較強,保障了網(wǎng)絡(luò)的穩(wěn)定和安全.
網(wǎng)絡(luò);流量;檢測;數(shù)據(jù)中心;高階累積量
在多層次數(shù)據(jù)中心網(wǎng)絡(luò)中,由于流量處理的規(guī)模較大,容易出現(xiàn)網(wǎng)絡(luò)擁堵和異常,需要對異常流量特征進(jìn)行準(zhǔn)確檢測,實現(xiàn)對網(wǎng)絡(luò)的實時監(jiān)控和擁塞排查,提高網(wǎng)絡(luò)的穩(wěn)定性和可靠性.因此,研究多層次數(shù)據(jù)中心網(wǎng)絡(luò)流量異常的檢測算法具有重要意義.
對網(wǎng)絡(luò)流量異常特征的檢測建立在網(wǎng)絡(luò)流量的時間序列分析和統(tǒng)計特征提取的基礎(chǔ)上.多層次數(shù)據(jù)中心網(wǎng)絡(luò)流量異常特征的產(chǎn)生因素眾多,具有時變性和隨機性,對網(wǎng)絡(luò)流量異常特征的檢測方法主要有定量遞歸分析法[1]、小波分析法、基于Wolf一步預(yù)測的流量異常檢測法、高階譜特征提取算法等[2-3].上述算法把多層次數(shù)據(jù)中心網(wǎng)絡(luò)流量時間序列解析模型分解為含有多個非線性成分的統(tǒng)計量,實現(xiàn)多層次數(shù)據(jù)中心網(wǎng)絡(luò)流量序列的矢量空間重構(gòu),進(jìn)行多層次數(shù)據(jù)中心網(wǎng)絡(luò)流量的特征提取和異常特征檢測,但網(wǎng)絡(luò)流量數(shù)據(jù)規(guī)模的擴大和干擾因素的增多,影響了檢測的精度[4-5].針對上述問題,課題組提出了一種基于高階累積量后置搜索的多層次數(shù)據(jù)中心網(wǎng)絡(luò)中的流量異常特征檢測算法,構(gòu)建多層次數(shù)據(jù)中心網(wǎng)絡(luò)的流量傳輸結(jié)構(gòu)模型,進(jìn)行流量時頻采樣和時間序列分析,然后進(jìn)行高階累積量特征的提取和后置聚焦搜索,以實現(xiàn)流量序列中異常特征的準(zhǔn)確檢測和提取.最后,通過仿真實驗進(jìn)行了性能測試,實驗證明采用本算法進(jìn)行多層次數(shù)據(jù)中心網(wǎng)絡(luò)流量異常檢測的準(zhǔn)確度較高,具有一定的應(yīng)用價值.
1.1 多層次數(shù)據(jù)中心網(wǎng)絡(luò)流量傳輸結(jié)構(gòu)模型
圖1 數(shù)據(jù)中心網(wǎng)絡(luò)流量數(shù)據(jù)傳輸結(jié)構(gòu)模型Fig.1 Data center network traffic data transmission structure model
為了實現(xiàn)對多層次數(shù)據(jù)中心網(wǎng)絡(luò)流量異常特征的檢測,首先需要構(gòu)建多層次數(shù)據(jù)中心網(wǎng)絡(luò)流量采樣和數(shù)據(jù)傳輸結(jié)構(gòu)模型.結(jié)合時間序列分析方法,進(jìn)行網(wǎng)絡(luò)流量的統(tǒng)計分析.多層次數(shù)據(jù)中心網(wǎng)絡(luò)流量是一組非線性時間序列,可以采用非線性時間序列分析方法進(jìn)行網(wǎng)絡(luò)流量的特征分析和異常特征的檢測[6-8].在多層次數(shù)據(jù)中心網(wǎng)絡(luò)模型中,中心節(jié)點為基站,傳輸結(jié)構(gòu)模型為G(O)=(V,E,LV,LE,μ,η),η∶E→Lg是兩個異構(gòu)本體從邊集到概念相關(guān)集的映射,通過簇首節(jié)點將數(shù)據(jù)轉(zhuǎn)發(fā),通過Chunk進(jìn)行數(shù)據(jù)中心交互讀取Slice數(shù)據(jù),在流量的存儲池進(jìn)行流量特征的統(tǒng)計和數(shù)據(jù)收發(fā),多層次數(shù)據(jù)中心網(wǎng)絡(luò)流量數(shù)據(jù)傳輸結(jié)構(gòu)模型如圖1所示.
由圖1可知,在多層次數(shù)據(jù)中心網(wǎng)絡(luò)中,數(shù)據(jù)傳輸是一個三維連續(xù)的MIMO系統(tǒng),采用時間-頻率聯(lián)合特征分析方法,構(gòu)建多層次數(shù)據(jù)中心網(wǎng)絡(luò)的信道模型,描述為
x(t)=Re{an(t)e-j2πfcτn(t)sl(t-τn(t))e-j2πfct},
(1)
其中,多層次數(shù)據(jù)中心網(wǎng)絡(luò)流量傳輸?shù)臅r間尺度脈沖響應(yīng)可描述為
(2)
式中:an(t)是第n條數(shù)據(jù)中心網(wǎng)絡(luò)傳輸信道上的異常特征主頻特征;τn(t)為第n條數(shù)據(jù)傳輸路徑傳輸時延;fc為多層次數(shù)據(jù)中心網(wǎng)絡(luò)中的信道調(diào)制頻率;sl(t)為單分量傳遞信息.設(shè)多層次數(shù)據(jù)中心網(wǎng)絡(luò)數(shù)據(jù)傳輸節(jié)點的傳遞路徑有P條,則認(rèn)為數(shù)據(jù)中心網(wǎng)絡(luò)在跨平臺網(wǎng)絡(luò)環(huán)境下的多徑信道數(shù)據(jù)傳遞函數(shù)為
(3)
式中:ai和τi分別是多層次數(shù)據(jù)中心網(wǎng)絡(luò)中流量的傳播損失和傳遞時延.由此,得到多層次數(shù)據(jù)中心網(wǎng)絡(luò)中流量傳輸模型的特征分布函數(shù):
(4)
通過流量異常特征的分布空間重構(gòu),可得流量異常特征的頻譜特征:
(5)
(6)
式中:k表示采樣頻率;v表示多層次數(shù)據(jù)中心網(wǎng)絡(luò)的帶寬;Wx為時間窗口函數(shù).式(5)和式(6)分別表示多層次數(shù)據(jù)中心網(wǎng)絡(luò)信道中流量時間序列的時域和頻域的伸縮尺度.由此,實現(xiàn)了多層次數(shù)據(jù)中心網(wǎng)絡(luò)流量傳輸結(jié)構(gòu)的分析和信道模型的構(gòu)建,為進(jìn)行流量異常檢測提供了模型分析的基礎(chǔ).
1.2 流量的非線性時間序列分析
采用非線性時間序列分析方法進(jìn)行多層次數(shù)據(jù)中心網(wǎng)絡(luò)中流量異常特征的檢測,設(shè)網(wǎng)絡(luò)中流量異常特征的信號幅度為A,輸入的時間序列為x(t),采用時頻特征分析方法進(jìn)行檢測.
多層次數(shù)據(jù)中心網(wǎng)絡(luò)中流量異常特征的時域和頻域特征分別表示為
(7)
(8)
式中:ξ為多層次數(shù)據(jù)中心網(wǎng)絡(luò)信道的衰減系數(shù);X為多層次數(shù)據(jù)中心網(wǎng)絡(luò)中的流量非線性時間序列的時頻特征;X*表示對時頻特征取復(fù)共軛.對多層次數(shù)據(jù)中心網(wǎng)絡(luò)中流量異常特征檢測系統(tǒng)進(jìn)行雙曲調(diào)頻分解,得到網(wǎng)絡(luò)中流量時間序列在時頻域中的總能量:
Ex=∫-∞+∞∫-∞+∞Wx(t,v)dtdv,
(9)
式中:Wx(t,v)表示多層次數(shù)據(jù)中心網(wǎng)絡(luò)中流量異常特征的時變瞬時頻率.對時間序列進(jìn)行邊緣特性分解得
(10)
式中:|X(v)|表示流量時間序列在時頻特征空間子域內(nèi)的短時窗函數(shù).構(gòu)建表達(dá)多層次數(shù)據(jù)中心網(wǎng)絡(luò)流量的信息流模型:
xn=x(t0+nΔt)=h[z(t0+nΔt)]+ωn,
(11)式中:h(·)為多層次數(shù)據(jù)中心網(wǎng)絡(luò)流量時間序列的多元數(shù)量值函數(shù);ωn為多層次數(shù)據(jù)中心網(wǎng)絡(luò)流量時間序列的觀測或測量誤差.通過前期統(tǒng)計測量,得到網(wǎng)絡(luò)流量的時間序列{x(t0+iΔt)}并進(jìn)行重構(gòu),其相空間重構(gòu)模型為
X=[s1,s2,…,sK]n=(xn,xn-τ,…,xn-(m-1)τ),
(12)
式中:K=N-(m-1)τ,表示多層次數(shù)據(jù)中心網(wǎng)絡(luò)流量時間序列的正交特征向量;τ為對多層次數(shù)據(jù)中心網(wǎng)絡(luò)流量采樣的時間延遲;m為在相空間中的嵌入維數(shù);si=(xi,xi+τ,…,xi+(m+1)τ)T為一組標(biāo)量采樣序列.由此,實現(xiàn)了對網(wǎng)絡(luò)流量非線性時間序列的分析.
2.1 干擾濾波預(yù)處理
在進(jìn)行了上述流量傳輸結(jié)構(gòu)模型及時間序列分析的基礎(chǔ)上,提出了一種基于高階累積量后置搜索的多層次數(shù)據(jù)中心網(wǎng)絡(luò)中的流量異常特征檢測算法,對流量的時間序列采用FIR濾波算法進(jìn)行抗干擾濾波[9-11].假設(shè)多層次數(shù)據(jù)中心網(wǎng)絡(luò)流量是由線性相關(guān)的非線性時間序列產(chǎn)生的,用以下的FIR濾波結(jié)構(gòu)模型進(jìn)行干擾抑制:
(13)
式中:a0為初始多層次數(shù)據(jù)中心網(wǎng)絡(luò)流量的采樣幅值;xn-i為具有相同均值與方差的多層次數(shù)據(jù)中心網(wǎng)絡(luò)流量標(biāo)量時間序列;bj為多層次數(shù)據(jù)中心網(wǎng)絡(luò)流量的振蕩幅值.對多層次數(shù)據(jù)中心網(wǎng)絡(luò)流量數(shù)據(jù)信息流進(jìn)行Fourier變換,得到x(k),在干擾濾波處理后得到多層次數(shù)據(jù)中心網(wǎng)絡(luò)流量的振蕩衰減:
(14)
式中:a為多層次數(shù)據(jù)中心網(wǎng)絡(luò)流量的域間方差系數(shù);BH(t)為多層次數(shù)據(jù)中心網(wǎng)絡(luò)流量異常特征檢測的相關(guān)函數(shù).假設(shè)輸入的序列x(k)為一組寬平穩(wěn)的時間序列,濾波器的傳輸函數(shù)為
(15)
式中:
(16)
由此設(shè)計的多層次數(shù)據(jù)中心網(wǎng)絡(luò)流量干擾抑制的FIR濾波器如圖2所示.圖2中,濾波器抽頭系數(shù)的迭代公式為
圖2 FIR級聯(lián)濾波器Fig.2 FIR cascaded filter
(17)
通過FIR抗干擾濾波處理,多層次數(shù)據(jù)中心網(wǎng)絡(luò)流量輸出解析模型為
z(t)=x(t)+iy(t)=a(t)eiθ(t)+n(t),
(18)
式中:x(t)為多層次數(shù)據(jù)中心網(wǎng)絡(luò)流量時間序列的實部;y(t)為多層次數(shù)據(jù)中心網(wǎng)絡(luò)流量時間序列的虛部;a(t)為相位隨機化幅值;n(t)為干擾向量.
對多層次數(shù)據(jù)中心網(wǎng)絡(luò)流量時間序列進(jìn)行Fourier變換,得到x(k),采用自相關(guān)函數(shù)特征匹配方法檢驗多層次數(shù)據(jù)中心網(wǎng)絡(luò)流量的非線性成分生成的替代數(shù)據(jù),對序列的替代數(shù)據(jù)x′(k)求Fourier逆變換,以此為基礎(chǔ)進(jìn)行流量異常特征的提取.
2.2 流量異常特征的高階累積量后置搜索檢測的實現(xiàn)
采用高階累積量后置搜索方法進(jìn)行多層次數(shù)據(jù)中心網(wǎng)絡(luò)流量異常特征的檢測,該特征具有非平穩(wěn)時變特性,引入四階累積量后置處理算子,高階累積量切片對多層次數(shù)據(jù)中心網(wǎng)絡(luò)流量異常特征具有能量聚集和噪聲抑制的特性,高階累積量切片為
(19)
式中:γ為流量異常特征的峰度;h(j)為對應(yīng)的對角切片算子.采用高階累積量后置路徑搜索,得到多層次數(shù)據(jù)中心網(wǎng)絡(luò)流量異常特征的分離過程,可描述為
x(t)=ej2πvx(t)t,
(20)
vx(t)=v0+2βt,
(21)
YP(u)=XP(u)+δ(v-(v0+βt)),
(22)
式中:vs(t)表示輸出的多層次數(shù)據(jù)中心網(wǎng)絡(luò)流量異常特征的頻率交叉項;YP(u)表示流量異常特征檢測輸出的中心矩.若多層次數(shù)據(jù)中心網(wǎng)絡(luò)流量時間序列中的噪聲項w(n)為高斯噪聲,則
(23)
若w(n)為非高斯色噪聲,則構(gòu)建多層次數(shù)據(jù)中心網(wǎng)絡(luò)流量時間序列的約束指向性特征,對輸出的濾波數(shù)據(jù)進(jìn)行高階累積量特征的提取和后置聚焦搜索,以實現(xiàn)流量序列中異常特征的準(zhǔn)確檢測與提取.
為了測試本算法在進(jìn)行多層次數(shù)據(jù)中心網(wǎng)絡(luò)流量異常特征檢測中的性能,進(jìn)行了仿真實驗.仿真實驗的軟硬件環(huán)境配置:Windows7操作系統(tǒng)的個人PC機,2.89GHz雙核Core處理器,2GB內(nèi)存.采用C++和Matlab7混合編程實現(xiàn)檢測算法的設(shè)計,流量序列的原始樣本數(shù)據(jù)采集于數(shù)據(jù)中心網(wǎng)絡(luò)的中心交換機,采集時間為2016年3月20日至7月10日,采集時間間隔為5min,采樣頻率為fs=10×f0=10kHz,采樣的樣本長度為1 024字節(jié),流量數(shù)據(jù)異常特征采集的訓(xùn)練集為頻帶4~10kHz、時寬2.4ms的線性調(diào)頻信號.根據(jù)上述仿真環(huán)境和參數(shù)設(shè)定,進(jìn)行網(wǎng)絡(luò)流量異常特征的檢測仿真.首先,進(jìn)行原始的網(wǎng)絡(luò)流量數(shù)據(jù)采樣,然后進(jìn)行干擾濾波預(yù)處理,得到采樣時間段內(nèi)的原始流量數(shù)據(jù)和濾波處理后的時域波形,如圖3所示.
從圖3可見,原始采樣的多層次數(shù)據(jù)中心網(wǎng)絡(luò)傳輸數(shù)據(jù)受到網(wǎng)絡(luò)空間中耦合信息特征的干擾,難以有效實現(xiàn)流量異常特征的檢測,采用本算法進(jìn)行濾波處理后,能有效實現(xiàn)對干擾數(shù)據(jù)的濾波和抑制,提高流量時間序列的信息純度.對輸出的濾波數(shù)據(jù)進(jìn)行高階累積量特征提取和后置聚焦搜索,得到異常特征提取結(jié)果,如圖4所示.
圖3 多層次數(shù)據(jù)中心網(wǎng)絡(luò)流量數(shù)據(jù)采樣及濾波預(yù)處理Fig.3 Multi layer data center network flow data sampling and filtering pretreatment
圖4 流量異常特征的高階累積量頻譜Fig.4 High order cumulative spectrum of flow anomalies
從圖4可見,采用本算法進(jìn)行多層次數(shù)據(jù)中心網(wǎng)絡(luò)流量異常特征的檢測,異常特征的頻譜圖具有明顯的波束指向性,實現(xiàn)了異常流量的準(zhǔn)確檢測與提取.為了對比性能,以對流量異常特征的檢測精度為測試指標(biāo),采用本算法和傳統(tǒng)算法進(jìn)行了10 000次MonteCarlo實驗,得到了檢測概率曲線,如圖5所示.從圖5可知,采用本算法進(jìn)行流量異常檢測的準(zhǔn)確性和抗干擾性均優(yōu)于傳統(tǒng)方法.
圖6給出了不同模型下進(jìn)行流量異常檢測的誤差對比結(jié)果,對數(shù)據(jù)進(jìn)行整理分析,結(jié)果見表1.
圖5 流量異常檢測性能對比Fig.5 Performance comparison of traffic anomaly detection
圖6 誤差分析Fig.6 Error analysis
迭代次數(shù)本模型文獻(xiàn)[1]的定量遞歸分析方法文獻(xiàn)[2]的Wolf方法10.2690.3590.464200.1820.2130.412400.1550.2120.410600.1420.1790.381800.1290.1620.3601000.1030.1410.3321200.0300.1150.3121400.0260.0680.26716000.0410.24118000.0310.229
由表1可知,隨著迭代次數(shù)的增加,對網(wǎng)絡(luò)流量異常檢測的輸出誤差降低,本算法在160次迭代后檢測誤差為0,而傳統(tǒng)模型的誤差無法收斂于0,這充分展示了本算法的優(yōu)越性.
本課題進(jìn)行了多層次數(shù)據(jù)中心網(wǎng)絡(luò)的流量分析和異常檢測,提出了一種基于高階累積量后置搜索的多層次數(shù)據(jù)中心網(wǎng)絡(luò)流量異常特征檢測算法,構(gòu)建多層次數(shù)據(jù)中心網(wǎng)絡(luò)的流量傳輸結(jié)構(gòu)模型,進(jìn)行流量時頻采樣和時間序列分析.然后,進(jìn)行流量時間序列的抗干擾濾波預(yù)處理,對輸出的濾波數(shù)據(jù)進(jìn)行高階累積量特征提取和后置聚焦搜索,實現(xiàn)了流量序列中異常特征的準(zhǔn)確檢測.最后,通過實驗分析得出,采用本算法進(jìn)行多層次數(shù)據(jù)中心網(wǎng)絡(luò)流量異常檢測的準(zhǔn)確度較高、誤差較低、抗干擾性能強,優(yōu)于傳統(tǒng)方法.
[1] 陸興華,陳平華.基于定量遞歸聯(lián)合熵特征重構(gòu)的緩沖區(qū)流量預(yù)測算法[J].計算機科學(xué),2015,42(4): 68-71.
[2] 楊雷,李貴鵬,張萍.改進(jìn)的Wolf一步預(yù)測的網(wǎng)絡(luò)異常流量檢測[J].科技通報,2014,30(2):47-49.
[3] 孫三山,汪帥,樊自甫.軟件定義網(wǎng)絡(luò)架構(gòu)下基于流調(diào)度代價的數(shù)據(jù)中心網(wǎng)絡(luò)擁塞控制路由算法[J].計算機應(yīng)用, 2016, 36(7): 1784-1788.
[4] 鄧罡,龔正虎,王宏.現(xiàn)代數(shù)據(jù)中心網(wǎng)絡(luò)特征研究[J].計算機研究與發(fā)展,2014,51(2):395-407.
[5] 魏祥麟,陳鳴,范建華,等.數(shù)據(jù)中心網(wǎng)絡(luò)的體系結(jié)構(gòu)[J].軟件學(xué)報,2013,24(2):295-316.
[6] 南洋, 陳琳.基于客觀權(quán)重確定的數(shù)據(jù)中心網(wǎng)絡(luò)性能評估方法[J].計算機應(yīng)用,2015,35(11): 3055-3058.
[7] JIANG X,HARISHAN K,THAMARASA R,et al.Integrated track initialization and maintenance in heavy clutter using probabilistic data association[J].Signal Processing, 2014(94):241-250.
[8] HUANG L,ZHANG J,XU X,et al.Robust adaptive beam forming with a novel interference-plus-noise covariance matrix reconstruction method [J].IEEE Transactions on Signal Processing,2015,63(7):1643-1650.
[9] 馬俊濤,高梅國,董健.基于稀疏迭代協(xié)方差估計的缺失數(shù)據(jù)譜分析及時域重建方法[J].電子與信息學(xué)報,2016,38(6):1431-1437.
[10]王躍飛,于炯,魯亮.面向內(nèi)存云的數(shù)據(jù)塊索引方法[J].計算機應(yīng)用,2016,36(5):1222-1227.
[11]JIANG X,HARISHAN K,THAMARASA R,et al.Integrated track initialization and maintenance in heavy clutter using probabilistic data association[J].Signal Processing,2014(94):241-250.
Research on anomaly detection algorithm of multi layer data center network traffic
MI Jie, WANG Jiaxin
(CollegeofComputer,HenanUniversityofEngineering,Zhengzhou451191,China)
Aiming at the problem that the data center network is prone to traffic congestion, the traffic anomaly feature detection is carried out to improve the network stability. A traffic anomaly characteristics of multi level data center network cumulant Post search in detection algorithm based on traffic transmission structure model of multi level data center network, flow frequency sampling and time series analysis. Flow disturbance filtering pretreatment with FIR filter, using high order filter data of the rear focusing accumulation on the output of high order cumulants improved feature extraction and post focusing search, to achieve accurate detection of abnormal flow characteristics in the sequence extraction. The simulation results show that the algorithm has high accuracy and strong anti-interference performance, and ensures the stability and security of the network.
network; traffic; detection; data center; high order accumulation
2016-09-15
國家自然科學(xué)基金(61301232);河南省高等學(xué)校重點科研項目(17A520025)
米捷(1981-),女,河南鄭州人,講師,主要研究方向為圖像處理與計算機網(wǎng)絡(luò).
TP393
A
1674-330X(2016)01-0062-05