段華瓊, 唐賓徽
(四川大學(xué) 錦城學(xué)院, 成都 610036)
基于線性多尺度模型的計(jì)算機(jī)網(wǎng)絡(luò)數(shù)據(jù)流量預(yù)測(cè)*
段華瓊, 唐賓徽
(四川大學(xué) 錦城學(xué)院, 成都 610036)
為了解決網(wǎng)絡(luò)安全監(jiān)控問題,提出了一種用于預(yù)測(cè)網(wǎng)絡(luò)流量的算法.通過多個(gè)不同尺度的線性模型進(jìn)行網(wǎng)絡(luò)數(shù)據(jù)的組合預(yù)測(cè),每個(gè)尺度的線性模型由經(jīng)過濾波器濾波后的部分原始數(shù)據(jù)估計(jì)得到,最終的預(yù)測(cè)流量數(shù)據(jù)由多個(gè)尺度線性模型的平均預(yù)測(cè)值得到.選擇的線性模型為自回歸滑動(dòng)平均模型,且尺度較小的線性模型對(duì)應(yīng)自回歸滑動(dòng)平均模型的階數(shù)較高.結(jié)果表明,本算法的預(yù)測(cè)精度高,整體預(yù)測(cè)誤差的均值在10-3量級(jí).
網(wǎng)絡(luò)流量; 線性; 多尺度; 自回歸滑動(dòng)平均模型; 預(yù)測(cè); 誤差
計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)的發(fā)展極大地促進(jìn)了信息現(xiàn)代化的進(jìn)程,但網(wǎng)絡(luò)技術(shù)快速發(fā)展也伴隨著各種各樣的問題,例如存在計(jì)算機(jī)病毒網(wǎng)絡(luò)傳輸、黑客攻擊、網(wǎng)絡(luò)信息安全等隱患[1-4].網(wǎng)絡(luò)監(jiān)控以及信息安全顯得越來越重要,網(wǎng)絡(luò)監(jiān)控的重點(diǎn)是在網(wǎng)絡(luò)上傳輸?shù)母鞣N數(shù)據(jù),然而數(shù)據(jù)本身可能涉及公民的個(gè)人隱私以及其他企業(yè)機(jī)密,無差異的監(jiān)控和查看不僅在時(shí)效上不能保證,同時(shí)受到法律制約和社會(huì)輿論的質(zhì)疑.網(wǎng)絡(luò)數(shù)據(jù)的傳輸一般伴隨著信息的交換,常見的信息交換具有自身規(guī)律,雖然可能短時(shí)在局部網(wǎng)絡(luò)傳送大量信息,但一般不會(huì)引起數(shù)據(jù)量過大堵塞網(wǎng)絡(luò)通道的情況.通過對(duì)網(wǎng)絡(luò)數(shù)據(jù)流量的監(jiān)控及預(yù)測(cè),分析監(jiān)控?cái)?shù)據(jù)和預(yù)測(cè)數(shù)據(jù)之間的差異,可以更好地把握網(wǎng)絡(luò)信息傳輸規(guī)律,有效輔助網(wǎng)絡(luò)監(jiān)控,識(shí)別異常網(wǎng)絡(luò)數(shù)據(jù)信息,從而維持良好的網(wǎng)絡(luò)安全和秩序[2,5].
網(wǎng)絡(luò)流量數(shù)據(jù)預(yù)測(cè),將預(yù)測(cè)數(shù)值和監(jiān)控?cái)?shù)值以及歷史數(shù)據(jù)進(jìn)行分析比對(duì),能更有效地判斷網(wǎng)絡(luò)安全潛在隱患.一般的網(wǎng)絡(luò)流量預(yù)測(cè)方法主要包括線性預(yù)測(cè)、基于自回歸滑動(dòng)平均(autoregressive moving average ARMA)模型、多元線性回歸以及廣義線性回歸等,這些方法的特點(diǎn)是將網(wǎng)絡(luò)流量數(shù)據(jù)理解為一個(gè)平穩(wěn)的隨機(jī)過程,通過對(duì)過往數(shù)據(jù)建模來分析網(wǎng)絡(luò)流量的變化規(guī)律.
上述方法的特點(diǎn)是運(yùn)算簡(jiǎn)單,且取得了良好的預(yù)測(cè)效果,但將網(wǎng)絡(luò)數(shù)據(jù)簡(jiǎn)單理解為平穩(wěn)隨機(jī)過程,這種假設(shè)過于簡(jiǎn)化.網(wǎng)絡(luò)數(shù)據(jù)行為具有分形以及非平穩(wěn)特點(diǎn),不少研究者從這點(diǎn)出發(fā),引入了小波多尺度分析以及固態(tài)模函數(shù)分解(empirical mode decomposition,EMD)分析等新的信號(hào)分析手段,將原始信號(hào)在特定的尺度上建立起ARMA模型,使得分解后的網(wǎng)絡(luò)流量信號(hào)具有平穩(wěn)或近似平穩(wěn)的特點(diǎn),從而提高模型預(yù)測(cè)的準(zhǔn)確性.另一些研究者則是基于神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)及模糊決策等理論,通過非線性擬合近似的方法來分析網(wǎng)絡(luò)流量的變化規(guī)律.這些方法對(duì)解決網(wǎng)絡(luò)流量預(yù)測(cè)提供了較好的參考,然而通過小波分析或EMD方法在特定尺度上分析網(wǎng)絡(luò)流量可能丟失其他尺度上的信息,通過神經(jīng)網(wǎng)絡(luò)等方法來分析則存在“過擬合問題”,即模型對(duì)于擬合使用數(shù)據(jù)的解釋能力較強(qiáng),但外展能力差,這是因?yàn)樯窠?jīng)網(wǎng)絡(luò)這類方法通常會(huì)將部分噪聲也認(rèn)為是信號(hào)進(jìn)行擬合,從而使得模型過度解釋當(dāng)前觀測(cè)數(shù)據(jù)[6-10].
本文提出一種基于多尺度計(jì)算機(jī)網(wǎng)絡(luò)數(shù)據(jù)流量的預(yù)測(cè)算法,所述算法在傳統(tǒng)的ARMA模型基礎(chǔ)上,采用組合預(yù)測(cè)的方法,疊加平均多個(gè)不同預(yù)測(cè)值,能夠更準(zhǔn)確地預(yù)測(cè)網(wǎng)絡(luò)流量數(shù)據(jù).
多尺度分析思想成型于小波分析,其將信號(hào)分解在不同的尺度上,從而對(duì)應(yīng)了不同的頻帶范圍.本文所描述的多尺度和小波分析中的多尺度具有不同的含義,本文的多尺度主要是利用不同點(diǎn)長(zhǎng)的低通濾波器,每一個(gè)點(diǎn)長(zhǎng)即表示一個(gè)尺度,對(duì)應(yīng)了一個(gè)特定通帶和阻帶的低通濾波器,所述尺度下通帶內(nèi)的信號(hào)被認(rèn)為表征網(wǎng)絡(luò)數(shù)據(jù)特點(diǎn).這樣一系列濾波器可將原始網(wǎng)絡(luò)流量信號(hào)濾波,得到不同通帶信號(hào)的濾波信號(hào),每一組信號(hào)內(nèi)的信息量不同.
多尺度低通濾波器組成可表示為
WL={wi,i=1,2,…,L}
(1)
式中,wi為獨(dú)立窗低通濾波器.
一般的低通濾波器包括矩形窗、三角窗、漢明窗、漢寧窗、凱瑟、布萊克曼窗和高斯窗等,本文以漢明窗為例進(jìn)行研究分析,圖1為不同尺度漢明窗的時(shí)域和頻域展示,其表達(dá)式為
圖1 不同時(shí)間尺度的漢明窗時(shí)域和頻域波形
圖1中,藍(lán)色、深綠色以及紅色線條分別表示了窗長(zhǎng)為12點(diǎn)、22點(diǎn)及32點(diǎn)的漢明窗時(shí)域波形和頻域響應(yīng).可以看出隨著窗體點(diǎn)數(shù)的增加,其時(shí)域增長(zhǎng),頻域的通帶減小,不同的窗長(zhǎng)對(duì)應(yīng)了不同的時(shí)間尺度,可以從原始信號(hào)中篩選出不同信號(hào)和噪聲比濾波信號(hào).
常規(guī)分析時(shí)間序列的線性預(yù)測(cè)模型主要是基于自回歸滑動(dòng)平均模型,這類模型將時(shí)間序列看作一個(gè)平穩(wěn)遍歷隨機(jī)過程,序列之間在時(shí)間上存在一定聯(lián)系的,未來的數(shù)據(jù)點(diǎn)可以由過去時(shí)間點(diǎn)數(shù)值和過去時(shí)間的輸入計(jì)算得到,一般數(shù)學(xué)描述為ARMA(p,q)=yt=
c+φ1yt-1+φ2yt-2+…+φpyt-p+
εt+θ1εt-1+θ2εt-2+…+θqεt-q
(2)
式中:c為常數(shù);φ(L)為多項(xiàng)式格林函數(shù);θ(L)為過往輸入的格林函數(shù).L為引入的延遲算子,Liyt=yt-i,則一個(gè)p階的ARMA模型可由多項(xiàng)式格林函數(shù)φ(L)表示為φ(L)=(1-φ1L-φ2L2-…-φpLp),類似可以將模型用過往輸入的格林函數(shù)表示為θ(L)=(1+θ1L+θ2L2+…+θqLq).對(duì)于信號(hào)y在時(shí)刻t的條件期望估計(jì),可以將ARMA(p,q)模型簡(jiǎn)化表達(dá)為
φ(L)yt=c+θ(L)εt
(3)
將式(3)兩側(cè)同除以φ(L)可以得到
(4)
式中:μ為信號(hào)的極點(diǎn)分布;Ψ(L)為零點(diǎn)分布.圖2展示了一個(gè)典型ARMA(2,2)模型的時(shí)域和頻域信號(hào)波形.
圖2 ARMA(2,2)模型的波形和頻譜
ARMA模型建模的信號(hào)一般均存在一個(gè)特定的頻譜區(qū)域,通過建??奢^好地分析和理解信號(hào)本身的結(jié)構(gòu)特點(diǎn),而直接從時(shí)域波形上觀察通常難以看出這種規(guī)律.
本文結(jié)合多尺度低通濾波處理原始得到的網(wǎng)絡(luò)數(shù)據(jù),在不同的時(shí)間尺度上建立ARMA模型,通過每個(gè)尺度上的ARMA模型來預(yù)測(cè)一個(gè)未來的數(shù)據(jù)點(diǎn),最后將各尺度上的預(yù)測(cè)數(shù)值進(jìn)行平均,得到應(yīng)用于網(wǎng)絡(luò)數(shù)據(jù)預(yù)測(cè)值,具體步驟如下:
1) 獲取一個(gè)N點(diǎn)的歷史網(wǎng)絡(luò)流量數(shù)據(jù)fN(t);
(5)
本文所處理數(shù)據(jù)來自貝爾實(shí)驗(yàn)室所采集的流量數(shù)據(jù)[11]與DataMarket網(wǎng)站上所采集的時(shí)間序列數(shù)據(jù)[12],選取數(shù)據(jù)集合里10 000個(gè)數(shù)據(jù)點(diǎn)作為ARMA預(yù)測(cè)模型的訓(xùn)練數(shù)據(jù),再取連續(xù)的10 000點(diǎn)信號(hào)作為測(cè)試算法性能的預(yù)測(cè)數(shù)據(jù),通過比較預(yù)測(cè)數(shù)據(jù)和真實(shí)數(shù)據(jù)之間的誤差,證明算法的預(yù)測(cè)能力.本文采用漢明窗作為多尺度低通濾波器,主要考慮其設(shè)計(jì)簡(jiǎn)便,且具有良好的旁瓣抑制效果.在處理濾波前,對(duì)原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,M取6,得到6個(gè)不同尺度的濾波信號(hào),得到各自的預(yù)測(cè)值,最后平均計(jì)算得到預(yù)測(cè)數(shù)據(jù).
圖3直觀反映出了6個(gè)不同尺度漢明窗的頻譜特性,其中藍(lán)色、深綠色、紅色、淺藍(lán)色、紫色、淺綠色線分別表示窗長(zhǎng)為4點(diǎn)、8點(diǎn),16點(diǎn),32點(diǎn),64點(diǎn),128點(diǎn)的漢明窗時(shí)域波形和頻域響應(yīng).由圖3可以看出尺度越大,信號(hào)的通帶越小,即選擇用來估計(jì)ARMA模型的信號(hào)能量相對(duì)越小,更能估計(jì)出信號(hào)的基本變化趨勢(shì).反之,低尺度的信號(hào)其通帶更大,能夠得到更多的信號(hào)波動(dòng)特征,但相對(duì)也包含了更多可能的噪聲,通過6個(gè)不同的濾波器對(duì)用來建模的10 000點(diǎn)信號(hào)進(jìn)行濾波,得到對(duì)應(yīng)的6個(gè)不同濾波信號(hào).
圖4為原始的訓(xùn)練建模數(shù)據(jù)時(shí)域波形,圖5給出了經(jīng)過6個(gè)不同尺度濾波信號(hào)的時(shí)域波形,每個(gè)尺度的濾波信號(hào)均代表了對(duì)原始信號(hào)信息的一種評(píng)估.可以看出尺度越大的濾波信號(hào),其越接近信號(hào)基本的變化趨勢(shì)和特點(diǎn),反應(yīng)了更加明顯的低頻特點(diǎn);相反高頻信號(hào)在低尺度中更多地保留下來.經(jīng)過對(duì)濾波信號(hào)建立的ARMA模型可更清晰地看出這點(diǎn),低尺度濾波信號(hào)的ARMA模型中保留了更多的極點(diǎn)和零點(diǎn).圖6為6個(gè)濾波信號(hào)所對(duì)應(yīng)的ARMA模型,從圖6中可看出,其功率譜具有更多的局部極值點(diǎn),且在局部有更多的抖動(dòng)發(fā)生.通過ARMA模型進(jìn)行數(shù)值預(yù)測(cè),可以將信號(hào)在不同尺度和能量關(guān)系下的特點(diǎn)分別表達(dá)出來,進(jìn)一步通過平均計(jì)算能得到準(zhǔn)確度較高的預(yù)測(cè)數(shù)據(jù).
圖3 6個(gè)尺度的漢明窗時(shí)域和頻域波形
圖4 訓(xùn)練建模數(shù)據(jù)
圖5 6個(gè)濾波信號(hào)的時(shí)域波形
通過本算法進(jìn)行了10 000個(gè)測(cè)試點(diǎn)的數(shù)據(jù)預(yù)測(cè),圖7中給出了預(yù)測(cè)數(shù)據(jù)與測(cè)試數(shù)據(jù)之間的預(yù)測(cè)誤差,取值是對(duì)獲取的網(wǎng)絡(luò)流量數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化后得到的無量綱的數(shù)據(jù).可以看出,預(yù)測(cè)信號(hào)準(zhǔn)確地表征了測(cè)試數(shù)據(jù).圖7中預(yù)測(cè)誤差整體均值在10-3量級(jí),最大誤差為0.031,算法整體準(zhǔn)確地預(yù)測(cè)出了網(wǎng)絡(luò)流量數(shù)據(jù).
本文將原始觀測(cè)得到的網(wǎng)絡(luò)流量信號(hào)通過一系列不同時(shí)間尺度的平滑濾波器濾波,從而得到一系列的低通濾波信號(hào)組,每一個(gè)濾波后的信號(hào)組表征了一種信號(hào)和噪聲的比例關(guān)系,然后對(duì)每一個(gè)濾波信號(hào)組采用ARMA模型建模,得到一個(gè)對(duì)應(yīng)的預(yù)測(cè)模型,最終預(yù)測(cè)值通過所有組預(yù)測(cè)模型的預(yù)測(cè)值疊加平均計(jì)算得到.高精度組合預(yù)測(cè)網(wǎng)絡(luò)流量數(shù)據(jù)能夠?qū)W(wǎng)絡(luò)信息監(jiān)管和網(wǎng)絡(luò)安全提供有力保障.算法下一步將開發(fā)出自適應(yīng)的權(quán)重取代目前的平均權(quán)重,用來組合多個(gè)尺度的預(yù)測(cè)數(shù)據(jù),從而得到更精確的流量預(yù)測(cè)數(shù)據(jù).
圖6 6個(gè)濾波信號(hào)對(duì)應(yīng)的ARMA模型
圖7 測(cè)試數(shù)據(jù)、算法預(yù)測(cè)數(shù)據(jù)以及預(yù)測(cè)誤差
[1]鄒柏賢,劉強(qiáng).基于ARMA模型的網(wǎng)絡(luò)流量預(yù)測(cè) [J].計(jì)算機(jī)研究與發(fā)展,2002,39(12):1645-1652.
(ZOU Bo-xian,LIU Qiang.Network traffic prediction based on ARMA model [J].Computer Research and Development,2002,39(12):1645-1652.)
[2]田海梅,黃楠.基于ACO-LSSVM的網(wǎng)絡(luò)流量預(yù)測(cè) [J].計(jì)算機(jī)工程與應(yīng)用,2014,50(1):91-95.
(TIAN Hai-mei,HUANG Nan.Network traffic prediction based on ACO-LSSVM [J].Computer Engineering and Applications,2014,50(1):91-95.)
[3]雷建軍,夏英,趙闊.能量有效的無線傳感器網(wǎng)絡(luò)數(shù)據(jù)收集協(xié)議 [J].重慶郵電大學(xué)學(xué)報(bào)(自然科學(xué)版),2014,26(5):582-586.
(LEI Jian-jun,XIA Ying,ZHAO Kuo.Energy efficient data collection protocol for wireless sensor networks [J].Journal of Chongqing University of Posts and Telecommunications(Natural Science Edition),2014,26(5):582-586.)
[4]王雪松,趙躍龍.遺傳算法優(yōu)化小波神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)流量預(yù)測(cè) [J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2015,24(1):180-184.
(WANG Xue-song,ZHAO Yue-long.Network traffic prediction based on genetic algorithm optimized wavelet neural network [J].Application of Computer System,2015,24(1):180-184.)
[5]李媛,武巖巖,王思琪.基于混沌時(shí)間序列的Elman神經(jīng)網(wǎng)絡(luò)工業(yè)用電預(yù)測(cè) [J].沈陽工業(yè)大學(xué)學(xué)報(bào),2016,38(2):196-200.
(LI Yuan,WU Yan-yan,WANG Si-qi.Electric power prediction based on Elman neural network based on chaotic time series [J].Journal of Shenyang University of Technology,2016,38(2):196-200.)
[6]Wei D Z,Chen F J,ZhengX X.A forecast method of network public opinion based on chaos theory and improved radial basis function neural network [J].Acta Physica Sinica,2015,64(11):26-34.
[7]Li R G,Zhang H L,F(xiàn)an W H,et al.Chaotic time series prediction of Hermite orthogonal basis neural networks based on improved teaching optimization algorithm [J].Acta Physica Sinica,2015,64(20):59-66.
[8]李浩磊.基于遺傳算法優(yōu)化小波神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)流量預(yù)測(cè)模型研究 [D].西安:西安電子科技大學(xué),2013.
(LI Hao-lei.Research on network traffic prediction model based on genetic algorithm to optimize wavelet neural network [D].Xi’an:Xi’an University of Electronic Science and Technology,2013.)
[9]沈?qū)W利,邢寒蕊.改進(jìn)的基于時(shí)變FARIMA模型和小波變換的網(wǎng)絡(luò)流量預(yù)測(cè)算法 [J].激光雜志,2014(9):96-99.
(SHEN Xue-li,XING Han-rui.An improved traffic flow prediction algorithm based on time-varying ARMA model and wavelet transform [J].Acta Lasera Sinica,2014(9):96-99.)
[10]高美靜,趙勇,談愛玲.基于遺傳小波神經(jīng)網(wǎng)絡(luò)的多傳感器信息融合技術(shù)的研究 [J].儀器儀表學(xué)報(bào),2007,28(11):2013-2017.
(GAO Mei-jing,ZHAO Yong,TAN Ai-ling.Study on genetic wavelet neural network based multi-sensor information fusion technique [J].Chinese Journal of Scientific Instrument, 2007,28(11):2013-2017.)
[11]LBL.The internet traffic archive [EB/OL].(2012-03-12)[2015-12-12].http://ita.ee.lbl.gov/html/contrib.
[12]Datamarket.Datamarket data base [EB/OL].(2013-07-13)[2016-03-02].http://datamarket.com/data/list/?q-time+series.
(責(zé)任編輯:景 勇 英文審校:尹淑英)
Prediction of data flow in computer network based on linear multi-scale model
DUAN Hua-qiong, TANG Bin-hui
(Jincheng College, Sichuan University, Chengdu 610036, China)
In order to solve the supervisory and control problems of network safety, an algorithm for the prediction of network flow data was proposed. The combined prediction of network data was carried out based on multiple linear models with different scales. The linear models with each scale were obtained through estimating the partial original data after filtering with a filter. The final predicted flow data were obtained from the average predicted values with multi-scale linear models. The selected linear models were the autoregressive moving average models. The linear model with a lower scale corresponds to a relative autoregressive moving average model with a higher order. The results show that the proposed algorithm has high predicted accuracy, and the mean value of entire prediction error is in the level of 10-3.
network flow; linearity; multi-scale; autoregressive moving average model; prediction; error
2016-10-12.
四川省教育廳資助項(xiàng)目(LYC16-47).
段華瓊(1980-),女,四川資中人,講師,碩士,主要從事系統(tǒng)集成技術(shù)和云計(jì)算等方面的研究.
10.7688/j.issn.1000-1646.2017.03.15
TP 391.4
A
1000-1646(2017)03-0322-06
*本文已于2017-03-28 17∶08在中國(guó)知網(wǎng)優(yōu)先數(shù)字出版. 網(wǎng)絡(luò)出版地址: http:∥www.cnki.net/kcms/detail/21.1189.T.20170328.1708.024.html