朱倩雨,覃錫忠,賈振紅,盛 磊,陳 麗
(1.新疆大學 信息科學與工程學院,新疆 烏魯木齊830046;2.中國移動通信集團新疆有限公司,新疆烏魯木齊830063)
伴隨著移動互聯(lián)網(wǎng)、高清視頻、在線游戲、云應用等業(yè)務的興起,網(wǎng)絡流量呈現(xiàn)爆炸式增長,電信運營商雖然不斷地在提高網(wǎng)絡帶寬,卻依然感受到 “帶寬供不應求”的壓力。對它的預測,為網(wǎng)絡的流量控制、帶寬分配、選路控制、故障管理等提供有效依據(jù)。這樣,在網(wǎng)絡過載發(fā)生之前,可以預先采取防范措施,來保證網(wǎng)絡的正常服務。
現(xiàn)有的網(wǎng)絡流量預測模型主要有時間序列模型、灰色模型、神經(jīng)網(wǎng)絡模型和支持向量機模型等,但這些模型在預測性能上都存在各自的缺陷,ARMA和ARIMA模型適應于線性預測,算法簡單,易于實現(xiàn),但預測精度不高[1]。灰色模型具有所需樣本少,建模簡單的特點,但對波動較大的數(shù)據(jù)預測精度低[2]。神經(jīng)網(wǎng)絡模型基于經(jīng)驗風險最小化原則,適應于非線性預測,但要求的訓練樣本多,存在局部最小、泛化能力弱等缺點,易造成預測精度不高[3]?;诰W(wǎng)絡流量數(shù)據(jù)的長相關、自相似、周期性、突發(fā)性和多尺度等特點,單一的預測模型已遠遠不能準確地刻畫復雜性較高的流量變化的規(guī)律。
因此,許多專家學者充分利用各種單一預測模型的優(yōu)點,對組合預測模型進行了探索和研究。大量實踐研究結(jié)果表明,組合預測模型對復雜的流量特性的描述更加準確和全面,可以有效提高網(wǎng)絡流量預測精度。而對于組合預測模型的研究大都建立在小波變換[4,5]的基礎上,但在基于小波變換的預測中,存在確定分解層數(shù)以及小波基難以選擇的問題[6]。EMD(經(jīng)驗模式分解)是一種新的信號處理方法,它能夠吸取小波變換的多尺度分析能力的優(yōu)勢,從信號本身的尺度特征出發(fā)對信號進行分解,具有自適應性[7],屬于自適應小波分解。SVM(支持向量機)基于結(jié)構(gòu)風險最小化理論提出,具有結(jié)構(gòu)簡單、學習速度快、全局最優(yōu)、泛化能力強的優(yōu)點,能較好地解決數(shù)據(jù)的小樣本、非線性、高維數(shù)等問題,預測能力較強[8]。優(yōu)化的SVM泛化能力增強,更適合做長期預測[9]。根據(jù)網(wǎng)絡流量序列的特點,結(jié)合EMD和SVM兩種方法的不同功能,本文提出了基于EMD和粒子群優(yōu)化的LS-SVM (最小二乘支持向量機)相結(jié)合的方法,對網(wǎng)絡流量進行預測。對實際的網(wǎng)絡流量數(shù)據(jù)進行仿真實驗,證明了模型的有效性和可行性。
EMD算法消除以時間尺度為特征的自相似性,降低數(shù)據(jù)的復雜性,從而實現(xiàn)將非線性、非平穩(wěn)數(shù)據(jù)的處理問題向線性、平穩(wěn)的處理問題的轉(zhuǎn)化,將原始信號分解為若干互不相關的本征模函數(shù) (IMF),它們都具有原信號不同的局部特征信息,而且滿足以下兩個條件:① 函數(shù)在整個時間范圍內(nèi),局部極值點數(shù)目和過零點數(shù)目必須相等或最多相差一個;②在任意時刻點,局部最大值的包絡 (上包絡線)和局部最小值的包絡 (下包絡線)平均必須為零[10]。
設任一信號為h(t),采用三次樣條插值函數(shù)先對此信號的所有極大值擬合成上包絡線,再對所有極小值擬合成下包絡線[11],記兩條包絡線的均值為m(t),則可設一個新的信號為
當g(t)滿足上述兩個條件時,那么g(t)即為第一個IMF分量c1。設r(t)為信號余項,則
將r(t)視為新的原始信號,重復 (1)操作,可以依次得到第二個IMF分量c2,第三個IMF分量c3,…,第m個IMF分量cm,其中m∈N,是本征模函數(shù)的個數(shù)。此時最終的信號余項r(t)滿足只有一個極值點或者單調(diào)函數(shù)的條件。于是信號可以表達為
LS-SVM是利用二次損失函數(shù),通過非線性映射φ(·),將低維非線性空間的數(shù)據(jù)轉(zhuǎn)化為高維線性空間的數(shù)據(jù),從而實現(xiàn)最小二乘支持向量機的回歸問題。其原理如下[12]:
設n組用 于 訓 練 的樣本數(shù) 據(jù) (xi,yi),i∈ (1,2,…,n),xi∈Rn是樣本輸入,yi∈R是樣本輸出,則其最優(yōu)逼近回歸函數(shù)可估計為
若滿足結(jié)構(gòu)風險最小化的條件
則求解目標方程可轉(zhuǎn)化為
其中Υ為懲罰系數(shù),w∈R為權(quán)向量,b為偏置,ei(i=0,1,2,…,N)為誤差。
由以上式子可把目標優(yōu)化問題轉(zhuǎn)化為拉格朗日函數(shù)
其中αi為拉格朗日乘子。
定義核函數(shù)為K(xi,xj)=φ(xi)Tφ(xj),滿足Mercer對稱函數(shù)條件。核函數(shù)有多種形式,本文選用徑向基函數(shù) (RBF),其中σ是核函數(shù)寬度。于是可得非線性預測回歸模型
由于核函數(shù)和懲罰參數(shù)影響LS-SVM的預測精度,粒子群優(yōu)化算法具有強大的全局搜索能力,實現(xiàn)起來較簡單,故采用粒子群優(yōu)化[13]算法來優(yōu)化LS-SVM的參數(shù),以獲得較優(yōu)的LS-SVM預測模型。
經(jīng)驗模式分解 (EMD)可以將非平穩(wěn)的流量序列按其本身的尺度特征自適應地分解為若干不同尺度的平穩(wěn)的IMF(固有模態(tài))分量。根據(jù)各個IMF的特點,選擇合適的LS-SVM模型對分解后的分量進行預測,最后通過SVM合成原始流量。模型的預測流程圖如圖1所示。
圖1 EMD和粒子群優(yōu)化的LS-SVM預測模型
其預測步驟為:
(1)EMD分解將流量序列進行EMD分解得到n個本征模函數(shù)和1個剩余分量。
(2)數(shù)據(jù)的處理由于流量數(shù)據(jù)的變化范圍比較大,為了提高預測的精度,對分解后的數(shù)據(jù)進行歸一化處理。
(3)LS-SVM模型的確定與訓練對EMD分解后的各個IMF分量分別建立LS-SVM預測模型,模型的參數(shù)由粒子群優(yōu)化算法得到。此模型采用多輸入單輸出[13]的預測方法,構(gòu)造時間序列輸入輸出向量矩陣從而建立訓練樣本。訓練樣本結(jié)構(gòu)如表1,其中x(i),x(i+1),x(i+2),x(k+i-1)作為輸入向量,x(k+i)作為輸出向量。k為輸入向量的嵌入維數(shù)。
(4)LS-SVM模型的預測通過對每個分量訓練可以確定粒子群優(yōu)化LS-SVM[14]中的最優(yōu)參數(shù),從而建立預測模型,對測試集部分進行預測。
(5)流量的合成 由于分解后的每個IMF分量對最后的預測結(jié)果的貢獻率不同,簡單的線性相加將會影響模型最后的預測精度,故使用SVM來實現(xiàn)最優(yōu)加權(quán)組合預測。先對每個預測值進行反歸一化處理,再通過SVM對各個預測值組合得到最終的預測結(jié)果。
表1 構(gòu)造時間序列輸入輸出向量矩陣
實驗的數(shù)據(jù)來源于某電信公司CMNET網(wǎng)絡的流量數(shù)據(jù),采集了從2012年1月1號到1月25號共25天,每天每小時網(wǎng)絡的訪問量,得到600個數(shù)據(jù)。采用前400個數(shù)據(jù)作為訓練樣本,用于進行參數(shù)的估計及模型的確定,后200個數(shù)據(jù)作為測試樣本,作為檢測預測值和真實值差別的依據(jù)。取輸入向量的嵌入維數(shù)為3,LS-SVM模型的參數(shù)由粒子群優(yōu)化算法得到。本文采用均方誤差 (mean squared error,MSE)作為評價預測結(jié)果的標準。圖2為原始網(wǎng)絡流量的數(shù)據(jù)。
圖2 原始網(wǎng)絡流量的數(shù)據(jù)
圖3 為各個IMF分量真實值與預測值的差異。
圖3 各個IMF分量及其預測值
從圖3中可以看到,第一個分量IMF的預測效果不太理想,但是隨著IMF頻率的降低,預測精度逐漸提高。這種變化趨勢可以從MSE誤差上反映出來,見表2.
表2 各IMF分量預測的最小均方誤差 (MSE)(%)
另一方面,也可由圖3看出,預測誤差較大的序列,較之誤差較小的序列其幅值較小,所以當將各IMF預測序列合成后,大誤差序列對預測結(jié)果影響不大,合成之后預測精度較高。將各個IMF預測序列用SVM合成,得到原始序列的預測曲線如圖4所示。
圖4 真實數(shù)據(jù)及其組合后的預測數(shù)據(jù)
為驗證文中所提出模型的有效性和可行性,特采用單獨的粒子群優(yōu)化的LS-SVM和小波與粒子群優(yōu)化的LSSVM模型作為對比模型,其預測曲線如圖5所示。
圖5 對比模型的預測曲線
從圖5可以看出,采用EMD和PSO優(yōu)化的LS-SVM組合模型后曲線的擬合程度優(yōu)于其他兩個模型,預測精度較高。這是因為原始非平穩(wěn)的流量數(shù)據(jù)經(jīng)過EMD自適應分解之后變成平穩(wěn)的單一分量,并且這些分量具有一定的規(guī)律,跟原始的非線性、非平穩(wěn)序列相比更易于預測。其預測誤差比較見表3。
表3 各個模型預測的最小均方誤差 (MSE)對比 (%)
根據(jù)網(wǎng)絡流量時間序列所具有的特性,首先用EMD對信號做了平穩(wěn)化處理。將具有復雜特性的原始流量分解為具有一定規(guī)律,相對比較單一,更加易于預測的時間序列。其次用粒子群優(yōu)化的LS-SVM對各分量進行預測,最后通過SVM組合得到原始序列的預測結(jié)果。本文以真實的網(wǎng)絡流量數(shù)據(jù)對算法進行了仿真實驗,結(jié)果表明,該算法模型對網(wǎng)絡流量的預測具有一定的優(yōu)勢,預測精度有明顯提高,但在時間復雜度上有所欠缺,下一步的主要研究工作將在此方面展開。
[1]JIANG Ming,WU Chunming,HU Damin.Research on the comparison of time series models for network traffic prediction[J].Acta Electronica Sinica,2009,37 (11):2353-2359 (in Chinese).[姜明,吳春明,胡大民.網(wǎng)絡流量預測中的時間序列模 型 比 較 研 究[J]. 電 子 學 報,2009,37 (11):2353-2359.]
[2]MA Hualin,LI Cuifeng,ZHANG Liyan.Network traffic prediction based on grey model and adaptive filter[J].Computer Engineering,2009,35 (1):155-157 (in Chinese).[馬華林,李翠鳳,張立燕.基于灰色模型和自適應過濾的網(wǎng)絡流量預測[J].計算機工程,2009,35 (1):155-157.]
[3]Junsong W,Jiukun W,Maohu Z,et al.Prediction of internet traffic based on Elaman neural network[C]//Guilin:Chinese Control and Deeision Conference,2009:1248-1252.
[4]WEI Yongtao,WANG Jinkuan,WANG Cuirong,et al.Network traffic prediction algorithm based on wavelet transform and combinational models[J].Journal of Northeastern University(Natural Science),2011,32 (10):1382-1885 (in Chinese).[魏永濤,汪晉寬,王翠榮,等.基于小波變換與組合模型的網(wǎng)絡流量預測算法[J].東北大學學報 (自然科學版),2011,32(10):1382-1885.]
[5]GONG Linming,ZHANG Zhenguo.Combination prediction model to network traffic based on grey-wavelet[J].Computer Engineering and Design,2010,31 (8):1660-1662 (in Chinese).[鞏林明,張振國.基于灰色小波的網(wǎng)絡流量組合預測模型[J].計算機工程與設計,2010,31 (8):1660-1662.]
[6]CHEN Xiantian,LIU Jingxian. Network traffic prediction based on wavelet transformation and FARIIMA[J].Journal of Communications,2011,32 (4):153-158 (in Chinese).[陳曉天,劉靜嫻.改進的基于小波變換和FARIMA模型的網(wǎng)絡流量預測算法[J].通信學報,2011,32 (4):153-158.]
[7]WANG Jundong,QI Weigui.Prediction of river water turbidity based on EMD-SVM[J].Acta Electronica Sinica,2009,37(10):2129-2133 (in Chinese).[王軍棟,齊維貴.基于EMDSVM的江水濁度預測方法研究[J].電子學報,2009,37(10):2129-2133.]
[8]HUANG Chenglung,WANG Chiehjen.A GA-based feature selection and parameters optimization for support vector machines[J].Expert Systems with Application,2006,31 (2):231-240.
[9]ZHOU Xiaolei,WANG Wanliang,CHEN Weijie.Network traffic prediction model based on wavelet transform and optimized support vector machine[J].Applications and Software of Computers,2011,28 (2):34-37 (in Chinese).[周曉蕾,王萬良,陳偉杰.基于小波變換和優(yōu)化的SVM的網(wǎng)絡流量預測模型[J].計算機應用與軟件,2011,28 (2):34-37.]
[10]Zhang X,Lai k K,Wang S Y.A new approach for crude oil price analysis based on empirical mode decomposition[J].Energy Economics,2008,30 (3):905-918.
[11]Balocchi R,Menicucci D,Varanini M.Empirical mode decomposition to approach the problem of detecting sources from a reduced number of mixtures[C]//Proceeding of the 25th Annual International Conference of the IEEE EMBS,2006.
[12]WU Haishan,CHANG Xiaoling.Power load forecasting with least squares support vector machines and chaos theory[C]//Proc of Intelligent Control and Automation,2006:4369-4373.
[13]WU Lianghai.Prediction of petroleum demand based on SVM optimized by PSO[J].Computer Simulation,2010,27 (4):291-295(in Chinese).[吳良海.基于粒子群優(yōu)化支持向量機的石油需求預測[J].計算機仿真,2010,27 (4):291-295.]
[14]LIU Yuan,WANG Peng.Combining wavelet transform and Bayesian least squares support Vector machines to predict network traffic[J].Application Research of Computers,2009,26 (6):2229-2231 (in Chinese).[劉淵,王鵬.融合小波變換與貝葉斯LS-SVM的網(wǎng)絡流量預測[J].計算機應用研究,2009,26 (6):2229-2231.]