歐家成,吳援明
(電子科技大學光電信息學院,成都610054)
近年來對局域網(wǎng)和廣域網(wǎng)的流量采集和測量表明,網(wǎng)絡流量普遍存在自相似或長相關的特性[1]。自相似流量大時間尺度上的突發(fā)性會造成網(wǎng)絡延遲增加和由于緩沖溢出的失去增大,造成系統(tǒng)資源不必要的浪費。所以網(wǎng)絡流量的自相似性給流量控制和網(wǎng)絡資源的管理帶來了更多的困難,有必要對業(yè)務流量作出預測。針對傳統(tǒng)的短相關模型在自相似業(yè)務分析和預測上的局限性,許多學者根據(jù)網(wǎng)絡流量的統(tǒng)計特性提出了 FARIMA[2]、小波[3]等數(shù)學模型。
相對于復雜的統(tǒng)計模型,神經(jīng)網(wǎng)絡結構簡單,并具有自組織、自學習、非線性逼近能力,一些學者提出利用神經(jīng)網(wǎng)絡來解決通信網(wǎng)系統(tǒng)中的一些非線性問題:文獻[4]提出用 ARIMA和人工神經(jīng)網(wǎng)絡的組合模型用于流量的短期預測;文獻[5]提出一種基于RBF神經(jīng)網(wǎng)絡的網(wǎng)絡流量建模與預測。針對通信流量預測的問題,提出用一種簡單的徑向基(RBF,Radial Basis Function)神經(jīng)網(wǎng)絡預測結構實現(xiàn)自相似業(yè)務流的預測,并采用小波方法對數(shù)據(jù)進行預處理,簡化了輸入輸出關系,提高了預測精度。通過仿真結果與其他預測模型比較,驗證了預測結果的精確性和有效性。
引入極大重疊離散小波變換(MODWT)[6]對數(shù)據(jù)進行預處理,DWT的計算基于離散緊致集Daubechies小波濾波器。MODWT能夠應用于任意大小的樣本而且小波系數(shù)具有平移不變性,保證了序列具有原始信息一樣的有序性和完整性。分別以{gl:l=0,1,...,L -1}和{hl:l=0,1,...,L -1}表示尺度濾波器和小波濾波器,L表示濾波器長度。為了構造 MODWT,重新定義,令cj-1,n=xn,xn為樣本序列,j表示分解層數(shù)。MODWT塔式算法由{cj-1,n}產生小波系數(shù){dj,n}和尺度系數(shù){cj,n}。
其中,n=1,1,...N -1。在分解層數(shù) j-1 和 j上利用神經(jīng)網(wǎng)絡作逼近會有所不同,因此分解層數(shù)j-1上時間序列必須由分解層數(shù)j上的序列進行重構。原始信號可以通過逆塔式算法從dj和cj還原得到。
經(jīng)過預處理的數(shù)據(jù)在頻率成份上比原始流單一,分解后的流量平穩(wěn)性比原始的流量好得多,有助于簡化數(shù)據(jù)擬合過程。
對業(yè)務流經(jīng)過小波分解后,將尺度系數(shù)的延遲{cj,n-1,cj,n-2,...,cj,n-q}作為神經(jīng)網(wǎng)絡的輸入,q 為神經(jīng)網(wǎng)絡的輸入節(jié)點數(shù)目。網(wǎng)絡數(shù)據(jù)的擬合可以用(4)式來表示。
其中,右邊第一項表示網(wǎng)絡輸出,p為預測步長,ej,n+p為預測值和真實值之間的誤差。
RBF神經(jīng)網(wǎng)絡基本結構如圖1所示,隱層為徑向基層,輸出為一線性層。dist表示取輸入向量和權值的歐幾里得距離。
圖1 RBF網(wǎng)絡模型
隱層單元的變換函數(shù)是徑向基函數(shù),一般用高斯函數(shù)作為徑向基函數(shù)。
網(wǎng)絡的隱層單元數(shù)目、基函數(shù)的中心和權值都需要通過學習決定,采用正交最小二乘(OLS,Orthogonal Least Squares)算法進行網(wǎng)絡訓練。它是S.Chen[7]等人提出來的,該方法從樣本輸入中選取數(shù)據(jù)中心,同時算出輸出權值。設 y=[y(1),y(2),...,y(N)]T為期望輸出序列;隱層輸出矩陣為 p= [p1,p2,...,pM],其中 pi= [pi(1),pi(2),...,pi(N)]T,1≤i≤M,M 表示隱層神經(jīng)元數(shù);w=[w1,w2,...,wM]T,為輸出權值;E=[ε(1),ε(2),...ε(N)]T為學習后誤差。將 P 進行奇異值分解P=C×A,A是n×n階奇異陣。C是N×n階矩陣且列向量ci是正交的,即CTC=H,H是對角陣,其對角線元素滿足基于 OLS解得權值矩陣
確定隱層單元中心的步驟如下:
(1)第一步,令 c1i=pi,對于1≤i≤M 計算
(2)第 k 步,k≥2,對于 1≤i≤M,i≠i1,...,i≠ik-1計算
進行自相似業(yè)務流量預測的主要思路分為“小波預處理”和“RBF預測”兩部分,基本步驟如下:
(1)對業(yè)務流量以時間單位進行聚合處理;(2)將數(shù)據(jù)大小映射到[0,1]之間,選擇小波濾波器}和尺度濾波器及分解層數(shù)J(本文仿真最大分解層數(shù)為2),根據(jù)(1)式和(2)式對1000點數(shù)據(jù)作MODWT變換;
(3)將變換后的尺度系數(shù)構造為神經(jīng)網(wǎng)絡訓練樣本,訓練結束后保存神經(jīng)網(wǎng)絡用作預測結構;
(4)用訓練后的RBF神經(jīng)網(wǎng)絡預測訓練樣本后100點值,并用(3)式進行數(shù)據(jù)還原。
采用Bellcore實驗室收集的以太網(wǎng)數(shù)據(jù)pAug89.TL[8]進行預測研究。首先對數(shù)據(jù)以時間單位1s進行聚合,選取其中1000點作為樣本,將數(shù)據(jù)大小映射到[0,1]之間,并選擇和對樣本序列作MODWT變換。將尺度系數(shù)作為訓練神經(jīng)網(wǎng)絡的輸入輸出訓練樣本,仿真中RBF神經(jīng)網(wǎng)絡的輸入節(jié)點數(shù)為20。用訓練后的網(wǎng)絡預測樣本后的100點值。一步預測結果與真實值之間的比較如圖2所示。
圖2 RBF網(wǎng)絡一步預測結果與真實值的比較
引入信噪比(SNR,signal to noise ratio)和作為預測性能的評價標準,信噪比越大預測結果越精確。
根據(jù)一步預測結果比較了在不同時間尺度下幾種不同自相似業(yè)務模型的預測性能,這里用作比較的BP神經(jīng)網(wǎng)絡具有三層的10-20-1結構。從表1中可以看出,在不同時間尺度上,網(wǎng)絡流量的突發(fā)特性仍然不能被平滑掉,具有長相關的性質。RBF預測模型在不同時間尺度上一步預測結果的SNR比AR和FARIMA等數(shù)學模型提高了1-2個dB,同BP網(wǎng)絡相比有訓練過程不受初始值影響,不存在局部極小點的優(yōu)點,預測結果也更加精確。
表1 不同預測模型的性能比較
仿照一步預測的實驗,用此RBF網(wǎng)絡提前五步預測樣本之后的100點值,結果如圖3所示。
圖3 RBF網(wǎng)絡提前5步預測結果與真實值間的比較
當預測步長變大時,預測的精度變低。但是此預測方法在多步預測中仍然優(yōu)于AR和FARIMA等數(shù)學模型,這些模型一般預測步長不超過5步時就很快地接近均值了[9],所以基于小波分解的RBF預測模型在長期預測中仍然有很好的推廣性。
提出一種基于MODWT小波預處理的RBF神經(jīng)網(wǎng)絡預測模型,在數(shù)據(jù)處理中引入了MODWT小波分解,簡化了對輸入輸出關系的擬合,提高了對數(shù)據(jù)局部信息的跟蹤能力和神經(jīng)網(wǎng)絡對數(shù)據(jù)的處理能力。將RBF神經(jīng)網(wǎng)絡用于自相似業(yè)務流的預測研究,采用基于OLS算法的RBF網(wǎng)絡,具有結構簡單,學習速度快,逼近能力好的優(yōu)點,能很好地擬合自相似業(yè)務流非線性和非平穩(wěn)的特性。通過仿真比較了在不同時間尺度上一步預測結果的SNR,此預測模型比AR、FARIMA、BP等模型提高了1-2個dB。多步預測的仿真結果說明此預測模型在業(yè)務的長期預測中也有很好的推廣能力。
[1]W E Leland,M S Taqqu,D V Wilson.On the Self- similar Nature of Ethernet Traffic[J].IEE/ACM Transactions on Networking,1994,2(1):1 -15.
[2]Yantai Shu,Zhigang Jin.Traffic Prediction Using FARIMA Models[C].ICC’99,1999 IEEE International Conference on Communications,1999:891 -895.
[3]Zhang Shuo,Zhao Rongcai,An ke.On Generating Selfsimilar Network Traffic Using Multi-core Processors[C].2008 International Symposium on Computer Science and Computational Technology.2008:667 -672.
[4]Zeng Dehuai,Xu Jianmin,Liu Liyan.Short Term Traffic Flow Prediction Using Hybrid ARIMA and ANN Models[C].2008 Workshop on Power Electronics and Intelligent Transportation System.2008:621-625.
[5]王俊松,高志偉.基于RBF神經(jīng)網(wǎng)絡的網(wǎng)絡流量建模與預測[J].計算機工程與應用,2008,44(13):6 -11.
[6]D B Percival,A T Walden.Wavelet Methods for Time Series Analysis[M].北京:機械工業(yè)出版社,2006:159-182.
[7]S Chen,C F N Cowan,P M Grant.Orthogonal Least Squares Learning Algorithm for Radial Basis Function Networks[J].IEEE Transactions on Neural Networks,1991,2(2):302 -309.
[8]Internet traffic archive[EB/OL].http://ita.ee.lbl.gov/.
[9]Nayera Sadek.Alireza Khotanzad and Thomas Chen.ATM Dynamic Bandwidth Allocation Using F-ARIMA Prediction Model[C].The 12th Conference on Computer Communications and Networks.2003:359 -363.