劉 悅,王 芳
(開封大學(xué) 信息工程學(xué)院,河南 開封 475004)
基于優(yōu)化組合核極限學(xué)習機的網(wǎng)絡(luò)流量預(yù)測
劉 悅,王 芳
(開封大學(xué) 信息工程學(xué)院,河南 開封 475004)
為了提高網(wǎng)絡(luò)流量預(yù)測的精度,針對網(wǎng)絡(luò)流量數(shù)據(jù)具有非線性、非平穩(wěn)的特點,提出一種基于經(jīng)驗?zāi)B(tài)分解(EMD)和混沌粒子群算法優(yōu)化組合核極限學(xué)習機的網(wǎng)絡(luò)流量預(yù)測模型。首先將網(wǎng)絡(luò)流量時間序列進行EMD分解,提取網(wǎng)絡(luò)流量數(shù)據(jù)的各個分量,然后分別對各個分量采用核極限學(xué)習機進行預(yù)測,最后重構(gòu)出預(yù)測結(jié)果。針對傳統(tǒng)核極限學(xué)習機擬合能力的不足,提出一種基于高斯核和多項式核組合的組合核極限學(xué)習機,并且采用改進的混沌粒子群算法優(yōu)化組合核的核參數(shù)組合權(quán)值以及懲罰因子,并將其應(yīng)用到網(wǎng)絡(luò)流量預(yù)測中。實驗結(jié)果表明,該方法可以有效提高網(wǎng)絡(luò)流量預(yù)測的精度,有助于指導(dǎo)網(wǎng)絡(luò)資源的合理分配和規(guī)劃。
網(wǎng)絡(luò)流量預(yù)測;核極限學(xué)習機;組合核函數(shù);混沌粒子群;經(jīng)驗?zāi)B(tài)分解
隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,流量和帶寬不斷增加,網(wǎng)絡(luò)規(guī)模和網(wǎng)絡(luò)的復(fù)雜程度日益增大,導(dǎo)致網(wǎng)絡(luò)管理工作的繁重程度急劇上升,網(wǎng)絡(luò)故障頻現(xiàn)。為了保證互聯(lián)網(wǎng)數(shù)據(jù)的可靠傳輸和資源的合理分配,高質(zhì)量的網(wǎng)絡(luò)流量預(yù)測對網(wǎng)絡(luò)的規(guī)劃、管理和設(shè)計具有重要的理論意義和實際價值[1-2]。
核極限學(xué)習機算法是新加坡學(xué)者黃廣斌提出的一種新的前饋神經(jīng)網(wǎng)絡(luò)學(xué)習算法[3]。它計算速度快,泛化性好,得到了廣泛應(yīng)用[4-6]。文中針對網(wǎng)絡(luò)流量數(shù)據(jù)的非平穩(wěn)和非線性的特點,提出了結(jié)合經(jīng)驗?zāi)B(tài)分解(EMD)和核極限學(xué)習機的網(wǎng)絡(luò)流量預(yù)測算法。首先采用EMD對原始時間序列進行分解,然后將分解出來的各個分量分別采用核極限學(xué)習機進行預(yù)測,最后重構(gòu)出預(yù)測結(jié)果。針對核極限學(xué)習機逼近能力的不足,提出一種基于徑向基核函數(shù)和多項式核函數(shù)組合的多核極限學(xué)習機方法,并且采用改進的混沌粒子群算法去優(yōu)化多核極限學(xué)習機的參數(shù)。該方法為網(wǎng)絡(luò)資源的合理配置和可靠傳輸提供決策的依據(jù)。
EMD是一種自適應(yīng)信號分解法,其吸取小波變換多分辨的優(yōu)點的同時,克服了小波基選擇和分解尺度難以確定的缺點,因此非常適合非線性非平穩(wěn)信號的分解[7-8]。網(wǎng)絡(luò)流量時間序列是一個典型的非平穩(wěn)時間序列[9],文中采用先EMD分解,再預(yù)測、重構(gòu)的方法。
2.1 核極限學(xué)習機
Huang等研究前饋神經(jīng)網(wǎng)絡(luò)無需像BP那樣迭代求解,而是可以通過隨機設(shè)置前饋神經(jīng)網(wǎng)絡(luò)的輸入權(quán)值,通過求解輸出權(quán)值的最小二乘解來完成訓(xùn)練[10]。極限學(xué)習機因其極快的訓(xùn)練速度和良好的泛化性,已經(jīng)受到很多學(xué)者的關(guān)注。在求解極限學(xué)習機的過程中,既要考慮使訓(xùn)練誤差達到最小,還要考慮到結(jié)構(gòu)風險最小化。因此需要在最小化的輸出權(quán)值和最小化的誤差之間做出折中,可以構(gòu)造如下的計算公式:
(1)
也可以表達如下:
(2)
根據(jù)KKT條件,可以定義Lagrange函數(shù)求解上面的問題,也就是說上面的問題可以等效為求解下面的公式:
相應(yīng)的優(yōu)化限制條件為:
(4)
式中,H是隱含層輸出矩陣的權(quán)值,隨機給定以后它就是一個固定的矩陣,它的數(shù)值僅僅與輸入樣本的個數(shù)和設(shè)置的隱層節(jié)點數(shù)有關(guān)。
把上述公式進行組合,可以得到:
?
(5)
其中:
(6)
于是上面公式可以合并寫成:
(7)
最終可以推導(dǎo)得到:
(8)
于是極限學(xué)習機的逼近函數(shù)可以寫成:
(9)
可以看出,無論是h(xi)HT還是HHT都是矩陣內(nèi)積的形式,可以構(gòu)造一個滿足mercer定理的核函數(shù)來代替這個內(nèi)積,于是有如下公式:
(10)
于是核極限學(xué)習機的逼近函數(shù)可以寫成:
(11)
2.2 組合核極限學(xué)習機
只要滿足mercer定理的核函數(shù)都可以作為極限學(xué)習機的核函數(shù),如高斯徑向基核函數(shù)(RBF)、多項式核函數(shù)(polynomial)等,但是往往每個核函數(shù)在不同的應(yīng)用領(lǐng)域都各有它的優(yōu)勢,而且單獨的一個核函數(shù)往往并不能達到最佳的逼近效果[10-14],所以文中提出了一種基于組合核的極限學(xué)習機算法,可以構(gòu)造權(quán)重對不同的核函數(shù)進行加權(quán)組合。
文中采用徑向基核和多項式核加權(quán)組合的方式來構(gòu)造多核核函數(shù)。RBF核是一種局部核函數(shù),多項式核是一種全局核函數(shù),局部核函數(shù)的學(xué)習力比較強,而全局核函數(shù)泛化力強,學(xué)習能力弱,因此兩者組合能發(fā)揮出比較好的效果。
RBF核公式為:
k(x,xi)=exp(-‖x-xi‖2/a)
多項式核公式為:
k(x,xi)=(xxi+1)q
混合核函數(shù)的公式為:
k(x,xi)=p(xxi+1)q+(1-p)exp(-‖x-xi‖2/a)
(12)
文中把這種采用了多核組合的核極限學(xué)習機稱之為多核極限學(xué)習機(Multi Kernel Extreme Learning Machine,MKELM)。
2.3 混沌粒子群算法(CPSO)
針對傳統(tǒng)PSO算法存在早熟的問題,將混沌理論引入粒子群算法對其進行改進,其算法具體流程如下:
(1)混沌初始化。假設(shè)優(yōu)化變量為D維。隨機生成D維向量z1=[z11,z12,…,z1D],每個分量均處于[0,1],依據(jù)Logistic方程獲得M個分量,z1,z2,…,zM:
zn+1=μzn(1-zn),n=0,1,…;0 (13) 運用式(13)實現(xiàn)混沌區(qū)間和變量范圍的映射: xij=aj+(bj-aj)zij 其中,bj,aj分別表示所需優(yōu)化變量的上界和下界。 (2)依據(jù)適應(yīng)度函數(shù)評估每個粒子的適應(yīng)度函數(shù)值,從M個初始粒子群中選擇N個作為初始解,粒子的速度隨機生成。 (3)設(shè)定初始個體極值和全局極值。設(shè)定各粒子的當前位置為個體極值Pi,依據(jù)適應(yīng)度函數(shù)評估各個體極值Pi的適應(yīng)度函數(shù)值,選擇最優(yōu)值的粒子所在位置定義為全局極值Pg。 (4)根據(jù)式(14)和式(15)實現(xiàn)粒子飛行速度和位置的更新。 (15) (5)混沌優(yōu)化最優(yōu)位置Pg。先將最優(yōu)位置映射成為Logistic方程的取值范圍[0,1],再根據(jù)Logistic方程生成m個混沌變量序列,最后將生成的混沌變量序列映射到優(yōu)化變量,獲得m個粒子,評估每個粒子的適應(yīng)度函數(shù)值,獲得最優(yōu)解p'。 (6)用最優(yōu)解p'更新當前粒子搜索群體中任意粒子的位置。 (7)轉(zhuǎn)到步驟(4),若粒子群終止條件滿足,則輸出最優(yōu)結(jié)果;反之,繼續(xù)迭代。 2.4 混沌粒子群算法優(yōu)化組合核極限學(xué)習機 需要優(yōu)化的參數(shù)為組合核的權(quán)值p,高斯核的參數(shù)a,多項式核的參數(shù)q,以及懲罰因子C。 構(gòu)造的適應(yīng)度函數(shù)如下所示: (16) 采用2.3所述算法進行優(yōu)化,最終輸出4個參數(shù)的最優(yōu)化結(jié)果。 文中算法步驟如下:先采用EMD算法將時間序列分解成幾個分量,然后分別采用CPSO-MKELM進行預(yù)測,最后將各個預(yù)測結(jié)果進行相加組合重構(gòu)出最終的預(yù)測結(jié)果。 3.1 數(shù)據(jù)來源 文中數(shù)據(jù)來源于流量文庫,收集自2014年11月7日—2014年11月21日一共15天的真實流量數(shù)據(jù)為研究對象,每天每間隔1小時采集一次網(wǎng)絡(luò)訪問流量,一共采集15*24=360組數(shù)據(jù)。網(wǎng)絡(luò)流量的原始網(wǎng)絡(luò)流量數(shù)據(jù)如圖1所示。 圖1 原始網(wǎng)絡(luò)流量 3.2 數(shù)據(jù)處理 對原始網(wǎng)絡(luò)流量數(shù)據(jù)序列進行EMD分解,依次分解出不同的IMF分量,網(wǎng)絡(luò)流量數(shù)據(jù)被分解成4個波動較小的分量和1個剩余分量。 針對每個分量采用時間序列的方法進行預(yù)測,以其中一個分量IMF1為例,采用IMF1(t-n),IMF1(t-n+1),…,IMF1(t)來預(yù)測IMF1(t+1)。其中,n為時間序列預(yù)測的步長。 運用CPSO優(yōu)化MKELM的模型分別對各個分量進行預(yù)測,最后通過各個分量的預(yù)測結(jié)果重構(gòu)出網(wǎng)絡(luò)流量的預(yù)測結(jié)果。結(jié)果采用均方誤差來評價算法的性能。 3.3 實驗結(jié)果分析 將360組網(wǎng)絡(luò)流量數(shù)據(jù)分成訓(xùn)練樣本和測試樣本,將336組數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),后面24組作為測試數(shù)據(jù),用于驗證預(yù)測結(jié)果的好壞。設(shè)定CPSO算法的最大迭代次數(shù)為100,種群大小為20,其預(yù)測結(jié)果如圖2所示,分別表示單步預(yù)測、3步預(yù)測、5步預(yù)測和7步預(yù)測。 圖2 基于EMD-CPSO-MKELM算法的7步網(wǎng)絡(luò)流量預(yù)測 由EMD-CPSO-MKELM算法的單步預(yù)測、3步預(yù)測、5步預(yù)測和7步預(yù)測結(jié)果圖可知,隨著預(yù)測步長的增加,EMD-CPSO-MKELM算法的預(yù)測精度不斷提高,效果較好。圖3是CPSO算法優(yōu)化MKELM的適應(yīng)度曲線。 圖3 CPSO優(yōu)化MKELM的適應(yīng)度曲線圖 為了對比EMD-CPSO-MKELM算法的優(yōu)越性,將EMD-CPSO-MKELM算法、CPSO-MKELM算法、CPSO-KELM算法和普通的SVM算法四者的預(yù)測結(jié)果進行對比,運行10次,其對比結(jié)果如表1所示。 表1 四種算法預(yù)測的MSE誤差對比 從表1中可以看出,文中的多核極限學(xué)習機算法要好于普通的核極限學(xué)習機算法,同時由MSE誤差對比結(jié)果可知,文中的EMD-CPSO-MKELM算法的預(yù)測效果最好。 針對核極限學(xué)習機逼近能力的不足,文中提出了一種高斯核函數(shù)和多項式核函數(shù)加權(quán)組合的核極限學(xué)習機方法。針對該算法參數(shù)選擇對識別性能的影響,文中運用混沌粒子群算法對組合核極限學(xué)習機的核參數(shù)、權(quán)值以及懲罰因子進行優(yōu)化,同時結(jié)合EMD提取網(wǎng)絡(luò)流量的細節(jié)特征和趨勢特征,構(gòu)建出基于EMD-CPSO-MKELM的網(wǎng)絡(luò)流量預(yù)測模型,分別進行單步、3步、5步和7步預(yù)測。通過對比不同網(wǎng)絡(luò)流量預(yù)測模型的預(yù)測均方誤差發(fā)現(xiàn),文中提出的算法預(yù)測精度要優(yōu)于其他模型,從而為網(wǎng)絡(luò)資源的合理配置和可靠傳輸提供決策的依據(jù)。 [1] 雷 霆,余鎮(zhèn)危.一種網(wǎng)絡(luò)流量預(yù)測的小波神經(jīng)網(wǎng)絡(luò)模型[J].計算機應(yīng)用,2012,26(3):526-528. [2] 楊 光,張國梅,劉星宇.基于小波核LS-SVM的網(wǎng)絡(luò)流量預(yù)測[J].微機發(fā)展(現(xiàn)更名:計算機技術(shù)與發(fā)展),2005,15(12):125-128. [3] Huang G B,Zhu Q Y,Siew C K.Extreme learning machine:a new learning scheme of feedforward neural networks[J].Neurocomputing,2004,2(2):985-990. [4] Huang G B,Ding X,Zhou H.Optimization method based extreme learning machine for classification[J].Neurocomputing,2010,74(1-3):155-163. [5] 武峰雨,樂秀璠,南東亮.相空間重構(gòu)的極端學(xué)習機短期風速預(yù)測模型[J].電力系統(tǒng)及其自動化學(xué)報,2013,25(1):136-141. [6] 丁金林,王 峰,孫 洪,等.改進RELM在多變量解耦控制中的應(yīng)用[J].微電子學(xué)與計算機,2012,29(11):70-73. [7] 肖志勇,楊小玲,劉愛倫.基于改進EMD和LSSVM的機械故障診斷[J].自動化儀表,2008,29(6):24-26. [8] 馮 平,丁志宏,韓瑞光,等.基于EMD的降雨徑流神經(jīng)網(wǎng)絡(luò)預(yù)測模型[J].系統(tǒng)工程理論與實踐,2009,29(1):152-158. [9] 徐曉剛,徐冠雷,王孝通,等.經(jīng)驗?zāi)J椒纸?EMD)及其應(yīng)用[J].電子學(xué)報,2009,37(3):581-585. [10] 鄭志成,徐衛(wèi)亞,徐 飛,等.基于混合核函數(shù)PSO-LSSVM的邊坡變形預(yù)測[J].巖土力學(xué),2012,33(5):1421-1426. [11] Han Jianwei,Kamber M.數(shù)據(jù)挖掘概念與技術(shù)[M].北京:機械工業(yè)出版社,2007. [12] Freund Y,Schapire R E.A decision-theoretic generalization of on-line learning and an application to boosting[J].Journal of Computer and System Sciences,1997,55(1):119-139. [13] Moore A W,Zuev D.Internet traffic classification using Bayesian analysis techniques[C]//Proc of SIGMETRICS.[s.l.]:[s.n.],2005:50-60. [14] 楊家海,吳建平,安常青.互聯(lián)網(wǎng)絡(luò)測量理論與應(yīng)用[M].北京:人民郵電出版社,2009. Network Flow Prediction Based on Optimization Combined Kernel Extreme Learning Machine LIU Yue,WANG Fang (College of Information Engineering,Kaifeng University,Kaifeng 475004,China) In order to improve precision of network flow prediction,a prediction model is proposed in this paper based on Empirical Mode Decomposition (EMD) and chaos particle swarm optimization combined kernel extreme learning machine aiming at the features of non-linear and non-stationary for network flow data.Unit flow is obtained through EMD on the network flow in time sequence,then each unit data is predicted with kernel extreme learning machine.Finally,the prediction result is reconstructed.In view of the inadequate fitting capacity of traditional kernel extreme learning machine,a machine combining Gaussian kernel and multinomial kernel is proposed and the improved kernel parameter combination and penalty factor of chaos particle swarm optimization with combined kernel are applied in the prediction of network flow.The experiment shows that this method can improve the accuracy of network prediction effectively,and help guide the rational allocation and planning of network resources. network flow prediction;kernel extreme learning machine;combined kernel function;chaos particle swarm;empirical mode decomposition 2015-10-01 2016-01-05 時間:2016-05-05 河南省教育科學(xué)技術(shù)研究重點項目(15C520016);開封市科技攻關(guān)計劃項目(130145) 劉 悅(1977-),男,碩士,講師,研究方向為機器學(xué)習、網(wǎng)絡(luò)安全。 http://www.cnki.net/kcms/detail/61.1450.TP.20160505.0831.112.html TP391.9 A 1673-629X(2016)06-0073-05 10.3969/j.issn.1673-629X.2016.06.0163 仿真實驗
4 結(jié)束語