孫 強,周 洋,張治鵬
(北京交通大學電子信息工程學院,北京 100044)
近年來隨著中國高速鐵路的快速發(fā)展,鐵路通信業(yè)務的多樣化程度迅速提升,其對通信網(wǎng)絡的信息化要求日益增高。作為鐵路通信MIS系統(tǒng)的基礎,鐵路數(shù)據(jù)網(wǎng)承載的業(yè)務應用越來越多,其重要性提升的同時,復雜程度也逐漸增加。準確了解當前及未來網(wǎng)絡的負載情況,對于網(wǎng)絡運營、網(wǎng)絡規(guī)劃具有重要意義,能夠避免由于局部資源緊張而帶來的網(wǎng)絡擁塞[1],實現(xiàn)未來網(wǎng)絡動態(tài)帶寬管理以及智能化調度平臺。當前鐵路數(shù)據(jù)網(wǎng)還處于簡單粗略的監(jiān)控階段,因此對網(wǎng)絡流量進行合理高效的建模分析,預測網(wǎng)絡流量趨勢迫在眉睫。針對網(wǎng)絡流量建模預測,科研人員提出了很多優(yōu)秀的模型和算法[2],例如自回歸滑動平均模型ARMA(Auto-Regressive and Moving Average Model),但ARMA模型不能表示長相關性。因此,本文結合鐵路網(wǎng)絡特性以及周期性,提出基于分形自回歸綜合滑動平均FARIMA(Fractional Autoregressive Integrated Moving Average)模型的鐵路數(shù)據(jù)網(wǎng)流量預測方法,能夠準確預測鐵路數(shù)據(jù)網(wǎng)流量趨勢,優(yōu)化網(wǎng)絡性能[3-4],幫助網(wǎng)絡及時進行擴容。
流量建模分析的基礎和參考依據(jù)主要來源于網(wǎng)絡中流量的特性,其中最重要的兩個特性分別是流量數(shù)據(jù)自相關性和流量數(shù)據(jù)長相關性。同時數(shù)據(jù)周期性也是流量建模時可以參考的特性之一[5-6]。FARIMA模型是一個自相似模型,能夠同時捕獲流量數(shù)據(jù)的長相關特性LRD(Long-Range Dependence)和短相關特性SRD(Short-Range Dependence)。對于任意時序序列{Z(n),n∈Z+},其FARIMA(p,d,q)模型可表示為[7]
φ(B)dZ(n)=θ(B)e(n)
( 1 )
式中:e(n)為均值為0、方差為σ2的白噪聲序列;d=H-0.5,為模型的差分因子,可以反映序列的長相關特性,H為赫斯特(Hurst)指數(shù);d為分形差分算子,其公式為
( 2 )
φ(B)和θ(B)為穩(wěn)定的多項式。
φ(B)=1-φ1B-φ2B2-…-φpBp
( 3 )
θ(B)=1-θ1B-θ2B2-…-θqBq
( 4 )
式中:φ(B)為自回歸項AR(Auto Regressive);θ(B)為滑動平均項MA(Moving Average);p為自回歸階次;q為滑動平均階次。
ARMA(p,q)模型可表示為φ(B)Z(n)=θ(B)e(n),F(xiàn)ARIMA模型的不同在于d。對任意的時序序列Y(n)=dZ(n),可以把Y(n)當成是一個保留了短相關特性的新過程,符合ARMA(p,q)的定義,通過ARMA(p,q)對新過程選擇合適的階數(shù)和參數(shù),便可得出FARIMA的參數(shù)。
FARIMA模型預測可以分為模型建立過程和算法預測過程。模型建立過程中最為重要的問題是FARIMA模型中參數(shù)d,p,q的選擇。而FARIMA過程可以分為差分過程以及ARMA過程。整個趨勢預測過程如下:
步驟1檢驗流量數(shù)據(jù)是否平滑,如果不平滑進行數(shù)據(jù)聚合處理。
步驟2對流量序列進行零均值化處理,使其轉換為均值為0的數(shù)據(jù)序列。
步驟3計算序列的Hurst指數(shù),并進行d階分數(shù)差分處理,消除序列的長相關性,使其符合ARMA建模過程。
步驟4進行ARMA模式識別,對模型進行定階定量。
步驟5通過判斷ARMA過程擬合殘差是否為白噪聲。
步驟6通過多個模型對給定的序列進行擬合,從中選擇最優(yōu)的擬合模型。
步驟7預測ARMA過程序列的趨勢數(shù)據(jù)。
步驟8對ARMA預測的數(shù)據(jù)進行d階分數(shù)差分得到FARIMA模型預測值。
( 5 )
R/S統(tǒng)計量可表示為
( 6 )
若隨機過程具有長相關特性,則
( 7 )
式中:C為常數(shù)。尋找一條滿足最小均方差準則的直線,該直線斜率即為Hurst指數(shù)的值H。通過d=H-0.5得到d值。經(jīng)過d階差分,便可將數(shù)據(jù)的長相關轉化為短相關過程Y(n),可用ARMA模型對其進行擬合,Y(n)具體表達式為
( 8 )
( 9 )
根據(jù)遞推關系可以得出
(10)
根據(jù)樣本自相關函數(shù)ACF(Auto-Correlation Function)和偏自相關函數(shù)PACF(Partial Auto-Correlation Function)表現(xiàn)出來的性質來選擇適當?shù)哪P蚚9],模式確定原則見表1。
表1 ARMA模型定階方法
(11)
(12)
本文根據(jù)Kalman算法進行ARMA多步預測[12],驗證模型的平穩(wěn)特性。當序列ACF和PACF處于95%置信區(qū)間時,可證明殘差序列為隨機序列。在建立的多個模型中,選擇擬合程度最好的模型,本文使用AIC信息準則來選擇最優(yōu)模型,AIC計算公式[13]如式(13)所示。ARMA模型預測得到的結果,經(jīng)過反d階差分可得到FARIMA預測值。
(13)
本文選取鐵路數(shù)據(jù)骨干網(wǎng)6個月的鏈路入口實際流量作為建模數(shù)據(jù)基礎,預測接下來2個月的流量趨勢,并與真實的數(shù)據(jù)進行對比。對基礎數(shù)據(jù)做聚合處理生成平滑的以天為時間軸的序列。同時根據(jù)鐵路數(shù)據(jù)承載網(wǎng)絡的實際特性,其具有一定的周期性,因此對原始數(shù)據(jù)進行差分,差分周期選擇為7,并對其進行零均值化處理(即每一個樣本值都減去所有樣本值的平均值),處理后的流量數(shù)據(jù)如圖1所示。
圖1 預處理后的流量波形
通過MATLAB平臺進行R/S估計,如圖2(a)所示,得出H為0.687,根據(jù)d=H-0.5,進而能得到差分階數(shù)為0.187,對數(shù)據(jù)進行分數(shù)差分,再次檢驗差分后Hurst值H,如圖2(b)所示,得出差分后的H為0.515,基本去除了流量數(shù)據(jù)的長相關性。
(a)差分前 (b)差分后圖2 數(shù)據(jù)集差分前后R/S統(tǒng)計量
根據(jù)周期特性,本文選取21階自相關函數(shù)值和偏自相關函數(shù)值進行輔助定階,計算結果如圖3所示。
由圖3可知,左側ACF取值在4,5階(最底部為1階)落入置信區(qū)間,6階處超出置信區(qū)間,之后取值均處于置信區(qū)間內(nèi),同時取值出現(xiàn)拖尾,基于前文分析,q值可以取6(若忽略6階超出置信區(qū)間的情況,q值也可以選擇3)。右側PACF取值在4,5階落入置信區(qū)間,同樣在6階處超出,但之后取值均落在置信區(qū)間內(nèi),因此p值可以取6。本文基于統(tǒng)計產(chǎn)品與服務解決方案SPSS(Statistical Product and Service Solutions)仿真得到ARMA(3,6)和ARMA(6,6)參數(shù),見表2,表3。
(a)ACF (b)PACF
圖3 21階ACF和PACF
表2 ARMA(3,6)參數(shù)選擇
表3 ARMA(6,6)參數(shù)選擇
表2、表3中,顯著性檢驗值數(shù)值越大表明參數(shù)對因變量的影響越大,由表中數(shù)據(jù)可知,ARMA(3,6)相對于ARMA(6,6)的擬合程度更好。其擬合曲線如圖4所示,且ARMA(3,6)的AIC值更低。因此,本文選用ARMA(3,6)模型。
(a)ARMA(3,6) (b)ARMA(6,6)圖4 ARMA(3,6)和ARMA(6,6)擬合對比
根據(jù)上述得出的ARMA模型以及d參數(shù),可以得出FARIMA模型關系如下
0.187z′(t)=0.653z′(t-1)-0.183z′(t-2)+
0.176z′(t-3)+e(t)-0.398e(t-1)+
0.156e(t-2)+0.09e(t-3)-0.047e(t-4)-
0.189e(t-5)-0.312e(t-6)
(14)
(a)FARIMA (b)ARMA圖5 FARIMA模型與ARMA模型結果
為了驗證模型的準確度,本文通過計算FARIMA模型和ARMA模型的平均絕對誤差MAE、均方根誤差RMSE、歸一化均方誤差NMSE、絕對百分比誤差MAPE和信噪比SNR5項參數(shù),對兩種模型擬合結果進行對比,其結果見表4。其中MAE,RMSE,NMSE,MAPE值越低證明擬合程度越好,SNR值越高越好,可見FARIMA模型各項參數(shù)均優(yōu)于ARMA模型。
表4 FARIMA與ARMA評估
本文提出的基于FARIMA鐵路數(shù)據(jù)網(wǎng)流量趨勢預測方法以FARIMA模型為基礎,并對流量序列模型構建和參量選擇等原理進行詳細分析,通過選取實際流量數(shù)據(jù)集搭建數(shù)據(jù)建模平臺,驗證方法的可行性,并根據(jù)多項技術指標進行擬合效果檢驗。實驗結果表明,使用該方法能夠準確預測網(wǎng)絡流量趨勢,預測平均絕對誤差達到6.27、平均絕對誤差率達到0.091,比傳統(tǒng)的基于ARMA模型的預測方法擬合精準度更高。但隨著預測步長的增加,擬合殘差會越來越大。因此,在進行大步長預測的前提下可增加數(shù)據(jù)集的數(shù)量。