劉春茂,郝倩,張?jiān)茘?/p>
?
基于PSO-LSSVM的網(wǎng)絡(luò)流量預(yù)測
劉春茂,郝倩,張?jiān)茘?/p>
摘 要:流量預(yù)測是計(jì)算機(jī)網(wǎng)絡(luò)管理的一項(xiàng)關(guān)鍵技術(shù),以提高網(wǎng)絡(luò)流量預(yù)測的準(zhǔn)確性為目標(biāo),本文提出一種粒子群優(yōu)化算法和最小二乘支持向量機(jī)的網(wǎng)絡(luò)流量預(yù)測模型。首先對網(wǎng)絡(luò)流量歷史數(shù)據(jù)進(jìn)行混沌分析,重構(gòu)網(wǎng)絡(luò)流量樣本集,然后采用粒子群算法優(yōu)化最小二乘支持向量機(jī)對網(wǎng)絡(luò)流量數(shù)據(jù)進(jìn)行建模,最后采用仿真模擬實(shí)驗(yàn)對網(wǎng)絡(luò)流量的預(yù)測結(jié)果分析。實(shí)驗(yàn)結(jié)果表明,其模型可以描述網(wǎng)絡(luò)流量的變化趨勢,獲得高精度的網(wǎng)絡(luò)流量預(yù)測結(jié)果,提供了一種新網(wǎng)絡(luò)流量預(yù)測工具。
關(guān)鍵詞:網(wǎng)絡(luò)流量預(yù)測;最小二乘支持向量機(jī);粒子群優(yōu)化算法;核函數(shù)參數(shù)選擇
近年來,隨著上網(wǎng)用戶的不斷增加,Internet的規(guī)模急劇增加,網(wǎng)絡(luò)數(shù)據(jù)以及種類如圖像、視頻等越來越多,網(wǎng)絡(luò)擁塞越來越嚴(yán)重,從而增加了網(wǎng)絡(luò)管理難度[1]。網(wǎng)絡(luò)流量預(yù)測可以了解將要發(fā)生的網(wǎng)絡(luò)行為,預(yù)測結(jié)果有助于管理人員分析網(wǎng)絡(luò)安全狀況,并提出相應(yīng)的管理和防范措施。因此,網(wǎng)絡(luò)流量的建模與預(yù)測具有重要的意義[2]。
近些年來,人們對網(wǎng)絡(luò)流量預(yù)測問題重視程度越來越高,許多學(xué)者和專家花了大量的時(shí)間和心血進(jìn)行網(wǎng)絡(luò)流量的建模與預(yù)測研究,取得一系列的研究成果[3,4]。傳統(tǒng)網(wǎng)絡(luò)流量預(yù)測模型為線性建模方法,如自回歸(AR)模型,差分自回歸滑動平均(ARIMA)模型以及多元線性回歸模型,它們根據(jù)網(wǎng)絡(luò)流量歷史數(shù)據(jù)之間的變化關(guān)系,分析網(wǎng)絡(luò)流量的變化特點(diǎn)以及將來的變化態(tài)勢,對于小規(guī)模網(wǎng)絡(luò),它們的建模效率高、預(yù)測精度高[5-7]。網(wǎng)絡(luò)流量受到外界因素影響越來越多,傳統(tǒng)模型雖然簡單、易實(shí)現(xiàn),但不能準(zhǔn)確反映復(fù)雜多變的網(wǎng)絡(luò)流量變化特性[8]。為此,一些學(xué)者提出了一些非線性網(wǎng)絡(luò)流量建模方法,如神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)等,它們具有非線性和自適應(yīng)建模能力,能夠擬合網(wǎng)絡(luò)流量的變化特點(diǎn),預(yù)測精度得到了提高[9-11]。在網(wǎng)絡(luò)流量實(shí)際建模與預(yù)測過程中,神經(jīng)網(wǎng)絡(luò)是一種基于“大數(shù)定理”的建模方法,對網(wǎng)絡(luò)流量的歷史樣本數(shù)據(jù)要求大,因此,對于小規(guī)模的歷史樣本數(shù)據(jù),神經(jīng)網(wǎng)絡(luò)的預(yù)測結(jié)果不穩(wěn)定,許多樣本點(diǎn)出現(xiàn)過擬合缺陷[12]。對于小樣本數(shù)據(jù),支持向量機(jī)的預(yù)測準(zhǔn)確高,但對于大規(guī)模的網(wǎng)絡(luò)流量數(shù)據(jù),支持向量機(jī)的訓(xùn)練時(shí)間長,建模效率低,不符合網(wǎng)絡(luò)流量管理中的實(shí)時(shí)性建模與預(yù)測要求[12]。最小二乘支持向量機(jī)(LSSVM)是一種專門解決支持向量機(jī)建模效率低、神經(jīng)網(wǎng)絡(luò)過擬合缺陷的機(jī)器學(xué)習(xí)算法,更加符合網(wǎng)絡(luò)流量的非線性建模要求。參數(shù)好壞直接反映了LSSVM的網(wǎng)絡(luò)流量預(yù)測準(zhǔn)確性,當(dāng)前有交叉驗(yàn)證算法、遺傳算法確定LSSVM參數(shù),但它們自身存在著一些不足,如遺傳算法的交叉概率、變異概率沒有理論指導(dǎo),全憑經(jīng)驗(yàn)確定,網(wǎng)絡(luò)流量預(yù)測性能有待進(jìn)一步改善[13]。
為了提高網(wǎng)絡(luò)流量預(yù)測的準(zhǔn)確性,提出一種粒子群優(yōu)化算法和最小二乘支持向量機(jī)的網(wǎng)絡(luò)流量預(yù)測模型,該模型對網(wǎng)絡(luò)流量歷史數(shù)據(jù)進(jìn)行混沌處理,然后最小二乘支持向量機(jī)進(jìn)行建模,并采用粒子群算法優(yōu)化其參數(shù),最后仿真模擬實(shí)驗(yàn)結(jié)果表明,本文模型可以描述網(wǎng)絡(luò)流量的變化趨勢,獲得高精度的網(wǎng)絡(luò)流量預(yù)測結(jié)果。
1 相關(guān)理論1.1 最小二乘支持向量機(jī)
LSSVM回歸為公式(1):
LSSVM訓(xùn)練過程可以看作如下優(yōu)化問題如公式(2):
公式(2)中,γ為可調(diào)整正則化參數(shù)。
為了簡化運(yùn)算,提高效率,引入Lagrange函數(shù)把式(2)變成為公式(3):
式中,
為Lagrange乘子。
對L對求偏導(dǎo)為,消除變量w和:
和b的解,
其定義如公式(5)::
1.2 粒子群優(yōu)化算法
2 PSO-LSSVM的網(wǎng)絡(luò)流量預(yù)測模型
2.1 LSSVM參數(shù)尋優(yōu)的數(shù)學(xué)模型
參數(shù)γ和σ直接決定了LSSVM的網(wǎng)絡(luò)流量擬合效果,γ值越大,網(wǎng)絡(luò)流量的擬合精度就越高,而網(wǎng)絡(luò)流量預(yù)測結(jié)果的泛化能力就差,而σ值越小,網(wǎng)絡(luò)流量會出現(xiàn)欠學(xué)習(xí)缺陷,計(jì)算復(fù)雜度大,運(yùn)行效率低。同時(shí)σ值越大,網(wǎng)絡(luò)流量的擬合和預(yù)測誤差均大,預(yù)測精度比較低,為了解決該難題,本文提出采用粒子群優(yōu)化算法選擇LSSVM的參數(shù),將LSSVM的參數(shù)(γ,σ)看作是一個組合優(yōu)化問題,那么(γ,σ)的數(shù)學(xué)模型為公式(8):
2.2 具體設(shè)計(jì)
2.21 粒子編碼機(jī)制
由于PSO算法與LSSVM參數(shù)(γ,σ)之間建立聯(lián)系才能進(jìn)行尋優(yōu)求解操作,本文采用實(shí)數(shù)編編碼方式將(γ,σ)組成一個粒子,具體如圖1所示:
圖1 粒子的編碼機(jī)制
2.22 個體適應(yīng)度函數(shù)
PSO-LSSVM的工作步驟
(1)對網(wǎng)絡(luò)流量歷史樣本進(jìn)行混沌處理,確定其嵌入維和延遲時(shí)間,得到一個有規(guī)律的網(wǎng)絡(luò)流量數(shù)據(jù)序列。
(2)確定LSSVM參數(shù)(γ、σ)的范圍,并初始化PSO算法的參數(shù),如最大迭代次數(shù)等。
(3)隨機(jī)產(chǎn)生初始的粒子群,每一個粒子包括(γ,σ)兩部分,并且設(shè)置初始迭代次數(shù)t=0。
(4)對于網(wǎng)絡(luò)流量訓(xùn)練樣本,每一組參數(shù)作為LSSVM學(xué)習(xí)參數(shù),通過10折交叉驗(yàn)證法計(jì)算每一個粒子的適應(yīng)度值。
(5)根據(jù)適應(yīng)度值確定每一個粒子的當(dāng)前優(yōu)位置pbest和粒子群的當(dāng)前最優(yōu)位置gbest。
(6)根據(jù)公式(6)和公式(7)更新粒子的速度和位置,產(chǎn)生新的粒子群。
(7)近代次數(shù)自加,即有t=t+1。
(8)判斷PSO算法的終止條件,如何滿足就根據(jù)粒子群的最優(yōu)位置gbest得到最優(yōu)的(γ、σ)值,不然轉(zhuǎn)步驟(4)繼續(xù)尋優(yōu)。
(9)根據(jù)最優(yōu)的(γ、σ)值和網(wǎng)絡(luò)流量訓(xùn)練樣本,建立基于PSO-LSSVM的網(wǎng)絡(luò)流量預(yù)測模型。
綜合上述可知,基于PSO-LSSVM的網(wǎng)絡(luò)流量建模與預(yù)測流程如圖2所示:
圖2 PSO-LSSVM的工作流程
3.1 源數(shù)據(jù)
為了分析PSO-LSSVM的網(wǎng)絡(luò)流量預(yù)測性能,選擇http://news.ntu.edu.tw/stat/的2014年5月1日到2014年5月16日每小時(shí)的流量作為實(shí)驗(yàn)對象,共得到30個流量數(shù)據(jù),選擇最后100個數(shù)據(jù)測試對PSO-LSVM的泛化性能,具體如圖3所示:
圖3 實(shí)驗(yàn)流量
對比模型
選擇時(shí)間序列模型(ARIMA)、BP神經(jīng)網(wǎng)絡(luò)(BPNN)和遺傳算法優(yōu)化最小二乘支持向量機(jī)(GA-LSSVM)進(jìn)行對比實(shí)驗(yàn),采用2種評價(jià)標(biāo)準(zhǔn)評價(jià)模型的性能,它們分別為:預(yù)測準(zhǔn)確率(Accuracy)和均方根誤差(RMSE),具體定義如公式(10)、公式(11):
樣本集的建立
網(wǎng)絡(luò)流量受到上網(wǎng)人行為、網(wǎng)絡(luò)價(jià)格等因素影響,因此其不僅具有一定的變化規(guī)律,同時(shí)具體一定的混沌性,為此,需要對圖3的網(wǎng)絡(luò)流量進(jìn)行混沌處理,找到延遲時(shí)間(τ)和嵌入維數(shù)(m)從而準(zhǔn)確描述網(wǎng)絡(luò)流量的變化特點(diǎn),分別采用自相關(guān)法和假近鄰法確定τ和m,結(jié)果如圖4所示:
圖4 樣本集的建立
當(dāng)τ=6時(shí),網(wǎng)絡(luò)流量之間的相關(guān)性變小,這樣可以認(rèn)為此時(shí)τ=6最合理;當(dāng)m=9時(shí),樣本點(diǎn)的假近鄰數(shù)不再發(fā)生變化,趨于穩(wěn)定,這樣可以認(rèn)為此時(shí)m=9最合理,根據(jù)τ=6,m=9對網(wǎng)絡(luò)流量數(shù)據(jù)進(jìn)行處理,建立PSO-LSSVM的樣本集。
預(yù)測結(jié)果與分析
圖5 PSO-LSSVM的預(yù)測結(jié)果
采用LSSVM對前200個網(wǎng)絡(luò)流量數(shù)據(jù)進(jìn)行學(xué)習(xí),并采用PSO算法對LSSVM的參數(shù)(γ,σ)進(jìn)行估計(jì),最終選擇γ=10.755,σ=0.158作為LSSVM的網(wǎng)絡(luò)流量建模最優(yōu)參數(shù),從而網(wǎng)絡(luò)流量的預(yù)測模型,測試樣本的預(yù)測結(jié)果如圖5所示:在圖5(a)中,PSO-LSSVM可以很好描述該種網(wǎng)絡(luò)流量數(shù)據(jù)的變化特點(diǎn),預(yù)測值與實(shí)際值擬合精度相當(dāng)?shù)母?,這說明PSO-LSSVM可以從網(wǎng)絡(luò)流量的歷史數(shù)據(jù)中找到網(wǎng)絡(luò)流量將來的變化趨勢,網(wǎng)絡(luò)流量預(yù)測結(jié)果的泛化能力好。從圖5(b)可發(fā)現(xiàn),PSO-LSSVM的預(yù)測值與實(shí)際網(wǎng)絡(luò)流量值的偏差小,而且整個網(wǎng)絡(luò)流量偏差波動控制在一定的范圍內(nèi),PSO-LSSVM可以準(zhǔn)確刻畫了網(wǎng)絡(luò)流量的非線性、周期性變化特點(diǎn),是一種精度高、泛化能力強(qiáng)的網(wǎng)絡(luò)流量預(yù)測模型。對PSO-LSSVM與當(dāng)前網(wǎng)絡(luò)流量流行預(yù)測模型的性能進(jìn)行對比分析,統(tǒng)計(jì)它們的預(yù)測結(jié)果的Accuracy和RMSE,具體如表1所示:
表1 Accuracy和RMSE對比
對表1中各模型的Accuracy和RMSE進(jìn)行對比,我們可以發(fā)現(xiàn),對于兩種評價(jià)指標(biāo),PSO-LSSVM均優(yōu)于所有當(dāng)前網(wǎng)絡(luò)流量預(yù)測模型,如:BP神經(jīng)網(wǎng)絡(luò),對比實(shí)驗(yàn)結(jié)果表明,PSO-LSSVM可以獲得比PSO-LSSVM更理想的網(wǎng)絡(luò)流量預(yù)測結(jié)果。
針對當(dāng)前LSSVM核函數(shù)以及參數(shù)選擇問題,為了提高網(wǎng)絡(luò)流量預(yù)測精度,本文提出一種PSO-LSSVM的網(wǎng)絡(luò)流量建模方法,并通過仿真實(shí)驗(yàn)對其性能進(jìn)行測試,可以得到如下結(jié)論:
(1)網(wǎng)絡(luò)流量受到許多外界影響因素的作用,具有復(fù)雜的非線性和時(shí)變性,采用嵌入維和延遲時(shí)間對網(wǎng)絡(luò)流量歷史樣本進(jìn)行重構(gòu),能夠得到一個有規(guī)模的網(wǎng)絡(luò)流量數(shù)據(jù)樣本,有助于后續(xù)的網(wǎng)絡(luò)流量建模。
(2)核函數(shù)以及參數(shù)不同,得到的LSSVM的預(yù)測性能不同,針對具體網(wǎng)絡(luò)流量數(shù)據(jù),通過PSO算法的尋優(yōu)能力在所有LSSVM參數(shù)尋找最合理的參數(shù),減少網(wǎng)絡(luò)流量訓(xùn)練過程中的支持機(jī)量少,網(wǎng)絡(luò)流量的預(yù)測精度和建模效率均得到了不同程度的改善,而且優(yōu)于當(dāng)前的流行網(wǎng)絡(luò)流量預(yù)測模型。
網(wǎng)絡(luò)流量預(yù)測的準(zhǔn)確性不僅與LSSVM參數(shù)相關(guān),實(shí)際與網(wǎng)絡(luò)流量訓(xùn)練樣本長度密切相關(guān),如何選擇最合理的網(wǎng)絡(luò)流量訓(xùn)練樣本,以進(jìn)一步提高網(wǎng)絡(luò)流量預(yù)測精度,這是我們下一步將要進(jìn)行的研究。
參考文獻(xiàn)
[1] 黨小超,閻林. 基于多元線性自回歸模型的流量預(yù)測[J].計(jì)算機(jī)工程, 2012,38(1):84-89
[2] 鄒柏賢,劉強(qiáng). 基于ARMA模型的網(wǎng)絡(luò)流量預(yù)測[J]. 計(jì)算機(jī)研究與發(fā)展, 2002, 39(12): 1645-1652
[3] 段智彬,孫恩昌,張延華,董燕. 基于ARMA模型的網(wǎng)絡(luò)流量預(yù)測[J]. 中國電子科學(xué)研究院學(xué)報(bào), 2009,4(4):325 -356.
[4] 張冉,趙成龍.ARIMA模型在網(wǎng)絡(luò)流量預(yù)測中的應(yīng)用研究[J]. 計(jì)算機(jī)仿真, 2011, 28(1): 171-174
[5] 胡玉清,譚獻(xiàn)海,宋正陽.基于FARIMA的網(wǎng)絡(luò)建模與性能分析[J]. 計(jì)算機(jī)工程與設(shè)計(jì), 2008, 29(18): 4666-4714
[6] Clegg R G. A Practical Guide to Measuring the Hurst Parameter [J]. International Journal of Simulation: Systems,Science & Technology, 2006, 7(2):3-4
[7] 馬華林,李翠鳳,張立燕. 基于灰色模型和自適應(yīng)過濾的網(wǎng)絡(luò)流量預(yù)測[J]. 計(jì)算機(jī)工程, 2009,35(1):130-152
[8] 洪飛,吳志美. 基于小波的多尺度網(wǎng)絡(luò)流量預(yù)測模型[J].計(jì)算機(jī)學(xué)報(bào),2006,29(1):166-171
[9] 劉杰,黃亞樓. 基于BP神經(jīng)網(wǎng)絡(luò)的非線性網(wǎng)絡(luò)流量預(yù)測[J]. 計(jì)算機(jī)應(yīng)用,2007,27(7):1770-1772
[10] 王俊松,高志偉.基于RBF神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)流量建模與預(yù)測[J]. 計(jì)算機(jī)工程與應(yīng)用, 2008, 44(13):7-11
[11] 曹建華,劉淵,戴悅. 一種基于灰色神經(jīng)網(wǎng)絡(luò)的網(wǎng)強(qiáng)流量預(yù)測模型[J]. 計(jì)算機(jī)工程與應(yīng)用, 2008,44(5):155-157.
[12] 王治. 基于混沌粒子群優(yōu)化SVR的網(wǎng)絡(luò)流量預(yù)測[J].計(jì)算機(jī)仿真, 2011, 28(5): 151-154.
[13] 周輝仁, 仁仙玲. 最小二乘向量機(jī)的參數(shù)優(yōu)選方法及應(yīng)用[J]. 系統(tǒng)工程學(xué)報(bào), 2009, 24(2): 248-252.
Network Traffic Forecast Based on PSO-LSSVM
Liu Chunmao, Hao qian, Zhang Yungang
(Henan Polytechnic Institute, Nanyang 473000, China)
Abstract:Network traffic forecasting is a key technology in computer network management. In order to improve the accuracy of network traffic forecasting, a network traffic forecasting model based on particle swarm optimization algorithm and least square support vector machine is proposed in this paper. Firstly, it analyzes the historical data of network traffic by chaotic theory, and reconstructs the network traffic sample. And then, particle swarm optimization algorithm optimizing least square support vector machine is used to model the network traffic data. Finally, the simulation results are used to test the forecasting results of network traffic. Experimental results show that the proposed model can describe the change trend of network traffic, and obtain the high accuracy of network traffic forecasting results, which provides a new tool for network traffic modeling and forecasting.
Key words:Network Traffic Forecast; Least Squares Support Vector Machine; Particle Swarm Optimization A lgorithm; Kernel Function Parameter Selection
中圖分類號:TP391
文獻(xiàn)標(biāo)志碼:A
文章編號:1007-757X(2016)05-0027-04
基金項(xiàng)目:河南省科技攻關(guān)項(xiàng)目(132102210208).
作者簡介:劉春茂(1979-),男,南陽人,河南工業(yè)職業(yè)技術(shù)學(xué)院,電子信息工程系,講師,碩士,研究方向:信息處理技術(shù)及網(wǎng)絡(luò)管理研究,南陽,473000 郝 倩(1983-),女,南陽,河南工業(yè)職業(yè)技術(shù)學(xué)院,電子信息工程系,講師,碩士,研究方向:計(jì)算機(jī)應(yīng)用,南陽,473000張?jiān)茘彛?983-),男,南陽,河南工業(yè)職業(yè)技術(shù)學(xué)院,電子信息工程系,講師,碩士,研究方向:數(shù)據(jù)庫與知識庫,南陽,473000
收稿日期:(2015.10.23)