【摘要】提出一種基于小波變換、相空間重構(gòu)理論和LS-SVM的P2P流量預(yù)測(cè)模型。首先將P2P流量分解為小波系數(shù)和尺度系數(shù),然后分別對(duì)各個(gè)系數(shù)進(jìn)行相空間重構(gòu),將重構(gòu)的分量分別通過(guò)LS-SVM模型進(jìn)行預(yù)測(cè),最后用小波方法將各個(gè)分量的預(yù)測(cè)值進(jìn)行再重構(gòu),得到原始流量的預(yù)測(cè)結(jié)果。仿真結(jié)果表明該模型的預(yù)測(cè)結(jié)果較傳統(tǒng)的LS-SVM模型有更高的精度。
【關(guān)鍵詞】流量預(yù)測(cè)小波變換LS-SVMP2P
A p2p Network Forecasting Model Based on Wavelet Decomposition and PSR-LSSVM
AbstractPropose a p2p traffic forcasting model based on wavelet transform,phase space reconstruction theory and LS-SVM.First,p2p traffic is decomposed into wavelet components and scaling components .Then use the phase space reconstruction theory to determine the optimal delay time and minimum of each component.And we use the LS-SVM model to train and predict.Finally,reconstruct each component to get the predicting result of the oringin p2p traffic using wavelet method.Simulating results show that the prediction of this new model approaches higher accuracy than the traditional model.
一、引言
自1995年Napster[1]出現(xiàn),P2P很快就嶄露頭角,如今,P2P流量已成為互聯(lián)網(wǎng)流量的主流?;赑2P協(xié)議的軟件有下載應(yīng)用類(lèi)的軟件如BitTorrent、eDonkey、迅雷等和即時(shí)信息類(lèi)軟件如:騰訊QQ、微軟MSN等以及網(wǎng)絡(luò)電視類(lèi)軟件如PPstream、PPlive等。P2P應(yīng)用占用了60%-80%以上的流量,然而,測(cè)量結(jié)果[2]表明90%的P2P流量?jī)H由20%的peers進(jìn)行傳輸,P2P的應(yīng)用使得少部分人占用了大量的網(wǎng)絡(luò)帶寬,給網(wǎng)絡(luò)運(yùn)營(yíng)帶來(lái)了很大的壓力。
傳統(tǒng)的網(wǎng)絡(luò)流量預(yù)測(cè)模型如AR、MA、ARMA[3,4]等線性時(shí)間序列模型只能描述短相關(guān)特性的流量。然而隨著網(wǎng)絡(luò)環(huán)境的不斷發(fā)展,網(wǎng)絡(luò)流量顯示出明顯的自相似性[5,6]、突發(fā)性[7]和周期性等特性,傳統(tǒng)的預(yù)測(cè)模型已經(jīng)不能準(zhǔn)確地刻畫(huà)出網(wǎng)絡(luò)流量的新特性,在實(shí)際應(yīng)用的有很大的局限性。近年來(lái),學(xué)者提出了許多新的模型,如FARIMA[8]、灰色模型[9]、神經(jīng)網(wǎng)絡(luò)模型[10]、小波模型[11]、SVM[12]等人工智能模型。
針對(duì)P2P[13]流量的非線性、數(shù)據(jù)量大、周期性強(qiáng)、用戶行為明顯等特性,本文提出了一種基于小波變換、相空間重構(gòu)和LS-SVM的網(wǎng)絡(luò)流量預(yù)測(cè)模型。
二、建模原理
2.1多分辨率分析理論
Mallat等人在1987年提出了多分辨率分析[13]的概念,多分辨率分析的基本思想就是將所選信號(hào)分解到不同的頻率上。被分解到尺度空間上的信號(hào)叫做平滑信號(hào),而另一部分信號(hào)叫做細(xì)節(jié)信號(hào)。小波變換就是將信號(hào)分解到不同的頻率上。
(1)P2P流量時(shí)間序列的多尺度分解
首先,選取適當(dāng)?shù)男〔ê瘮?shù)和級(jí)數(shù),將P2P流量時(shí)間序列X(k)分解為j層,如下式:
2.2相空間重構(gòu)
相空間重構(gòu)(phase space reconstruction,PSA)理論[14]是分析混沌時(shí)間序列的重要方法,它是一種通過(guò)有限的樣本重構(gòu)吸引子來(lái)研究系統(tǒng)動(dòng)力學(xué)特性的理論。在動(dòng)力學(xué)系統(tǒng)中,一個(gè)分量的改變都可以從其它有關(guān)的分量顯示出來(lái),通過(guò)選擇合適的相空間重構(gòu)維數(shù)和延遲時(shí)間,我們可以得到擁有原系統(tǒng)動(dòng)態(tài)規(guī)律的新系統(tǒng),從而從高維相空間里還原混沌吸引因子。
假定有一時(shí)間序列為y(t),t屬于(1,N),子為時(shí)間的延遲量,m為嵌入維數(shù)。M=N-(m-1)子,M是重構(gòu)后的相點(diǎn)的個(gè)數(shù)。則此時(shí)間序列在重構(gòu)之后,N個(gè)相點(diǎn)在m維相空間中的軌跡為:
其中,||·||表示向量的范數(shù),Yi(m+1)為第i個(gè)重構(gòu)的相空間向量,而m+1為其嵌入維數(shù);Yn(i,m)(m)是距離Yi(m+1)最近的向量,為了檢測(cè)出E(m)的變化情況,令
E1(m)=E(m+1)/ E(m)
如果預(yù)測(cè)的序列是混沌序列,那么隨著m的增大,E(m)的值會(huì)趨于飽和。若大于m0時(shí),E(m)的值接近飽和,那么最小嵌入維數(shù)即為m0+1。
2.3最小二乘支持向量機(jī)
支持向量機(jī)的基本思想是:首先使用非線性變換將輸入向量映射到高維特征空間,在這個(gè)空間中構(gòu)造最優(yōu)決策函數(shù),在構(gòu)造最優(yōu)決策函數(shù)時(shí)應(yīng)用結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則,并巧妙地利用原空間的核函數(shù)取代高維特征空間中的點(diǎn)積運(yùn)算。最小二乘支持向量機(jī)是支持向量機(jī)的一種擴(kuò)展形式,它在支持向量機(jī)中引入了最小二乘線性系統(tǒng),通過(guò)二次規(guī)劃的方法來(lái)解決函數(shù)估計(jì)的問(wèn)題,其回歸算法見(jiàn)文獻(xiàn)[15]。
三、基于小波變換和PSR-LSSVM的P2P流量預(yù)測(cè)模型
3.1模型結(jié)構(gòu)
在實(shí)際的網(wǎng)絡(luò)環(huán)境中,P2P流量時(shí)間序列是一個(gè)非線性、多尺度變換的動(dòng)力系統(tǒng)。針對(duì)它明顯的自相似性、突發(fā)性、混沌和周期性等特性,本文提出了基于小波變換、相空間重構(gòu)和LS-LVM的P2P流量預(yù)測(cè)模型,模型結(jié)構(gòu)圖如下:
3.2建模步驟
(1)對(duì)原始的P2P流量時(shí)間序列y(n)進(jìn)行M尺度的分解和重構(gòu),得到高低頻分量aM、dj(j=1...M)。(2)針對(duì)aM、dj分別進(jìn)行相空間重構(gòu),根據(jù)計(jì)算出的嵌入維數(shù)m和延遲系數(shù)子,得到重構(gòu)的多維相空間AM(n)、Dj(n),對(duì)LS-SVM模型進(jìn)行訓(xùn)練。(3)將第一步分解的高低頻系數(shù)分別通過(guò)第二步訓(xùn)練好的LS-SVM模型,得到各分量的預(yù)測(cè)結(jié)果y贊aM(n)、y贊dj(n)(4)將上一步的預(yù)測(cè)結(jié)果進(jìn)行線性
四、仿真實(shí)驗(yàn)
本實(shí)驗(yàn)數(shù)據(jù)為在某一主機(jī)上,采集QQLive觀看電影時(shí)產(chǎn)生的流量,以5秒為間隔,數(shù)據(jù)數(shù)量為600。前420個(gè)數(shù)據(jù)作訓(xùn)練集,后180個(gè)數(shù)據(jù)作預(yù)測(cè)集。并將本模型預(yù)測(cè)的結(jié)果同傳統(tǒng)的LS-SVM做比較。為了較好地評(píng)價(jià)模型的性能,本文選取的性能指標(biāo)有:
參考文獻(xiàn)
[1] Napster[EB/OL].[2012-05-20]. http://www.napster.com
[2]張?jiān)骑w,雷連虹等. Internet中Peer-to-Peer應(yīng)用流量測(cè)量與分析[J].鐵道學(xué)報(bào), 2004, 10: 55—60.
[3] Systems //Multimedia Computing and Networding 2002 (MMCN’02)
[4] G. Zhang, G. Xie, J. Yang, D. Zhang, D. Zhang. Self-similar characteristic of traffic in current metro area network [J]. Proc. of 15th IEEE Workshop on Local and Metro Area Networks, 2007,1:176-181.
[5] A Callado, C Kamienski, G Szabó, B Péter-Gero··, J Kelner, S Fernandes et al. A Survey on Internet Traffic Identification [J]. IEEE Communications Surveys and Tutorials, 2009,11(3):37-52.
[6] Kun-Chan Lan, John, Heidemann. A measurement study of correlations of Internet Flow characteristics [J].The International Journal of Computer and Telecommunications Networking,2006,50(1):46-62.
[7]魏武雄.時(shí)間序列分析———單變量多變量方法[M].北京,中國(guó)人名大學(xué)出版社,2005
[8] LiuYuan,CaoJianhua. NetworkTrafficPredictionBasedonGrey Neural Network Integratd model[C]//Proc. of2008 International Conference on Computer Science and Software Engineering.[S.L.]:IEEE Press,2008.
[9]蔡娜娜,陳月輝,李偉.基于神經(jīng)網(wǎng)絡(luò)的蛋白質(zhì)三級(jí)結(jié)構(gòu)預(yù)測(cè)[J].計(jì)算機(jī)工程,2010,36(9):176—177
[10]雷霆,余鎮(zhèn)危.一種網(wǎng)絡(luò)流量預(yù)測(cè)的小波神經(jīng)網(wǎng)絡(luò)模型[J].計(jì)算機(jī)應(yīng)用,2006,26(3):56-58
[11] FengHuifang,ShuYantai,Wangshuyi. SVM-based Models for Pedicitng WLAN Traffic [C]//Proc·ofIEEE International Conference on Cornmunications.[S.L]:IEEE Press, 2006
[12] M R Foster I. Mapping the Gnutella network. IEEE Internet-Computing Jan. 2002,6 :50-57
[13] Saroiu S, Gummadi P K, Gribble S D.A Measurement Study of Peer to Peer File Sharing
[14]呂金虎,陸君安,陳士華,混沌時(shí)間序列預(yù)測(cè)與應(yīng)用[M].武漢:武漢大學(xué)出版,2002
[15]楊延西,劉丁.基于小波變換和最小二乘支持向量機(jī)的短期電力負(fù)荷預(yù)測(cè)[J].電網(wǎng)技術(shù),2005,29(13):60-64