郭 勤,賈振紅,覃錫忠,盛 磊,陳 麗
(1.新疆大學信息科學與工程學院,新疆 烏魯木齊 830046;2.中國移動通信集團新疆有限公司,新疆 烏魯木齊 830063)
話務量的需求預測在移動通信網絡運營商中有著舉足輕重的地位,話務量的過去、現在,尤其是將來的需求是移動運營商十分關注的問題,移動運營商需要根據移動用戶對話務量需求的預測來規(guī)劃未來的企業(yè)發(fā)展戰(zhàn)略。話務量預測是指導基本建設規(guī)模的一項重要依據,話務量的預測對網絡管理、規(guī)劃和設計都有重要的指導意義,關系著企業(yè)的經濟效益,因此提高話務量預測的精度成為我們研究的方向。
目前話務量預測采用的是用歷史的話務量來預測未知話務量,常見傳統(tǒng)預測方法有線性回歸分析、時間序列法,季節(jié)模型和卡爾曼濾波等。文獻[1]提出通過回歸分析得出實時話務預測的趨勢;文獻[2]針對不同時間類型的話務量序列分別研究了指數平滑方法中的Holt模型和開放預測技術中的ARIMA模型;文獻[3]利用自相關函數對其周期性和趨勢性方面的規(guī)律進行了探測,并在此基礎上提出應用乘積季節(jié)ARIMA模型進行建模和預測的方案;文獻[4]提出了一種基于卡爾曼濾波的移動網實時話務量預測算法。以上傳統(tǒng)的預測方法預測精度低,近些年一些學者提出了新的智能預測方法,有模糊邏輯、神經網絡、支持向量機等。文獻[5]提出BP神經網絡和基于Elman神經網絡的話務量預測模型;文獻[6]提出基于模糊C均值聚類和支持向量機的多元回歸話務量預測模型;文獻[7]提出了用隱馬爾科夫鏈對功率分配進行預測,以及灰色與神經網絡結合、灰色與馬爾科夫鏈結合的模型等一些組合模型。新發(fā)展的智能預測方法同傳統(tǒng)預測方法相比,精度較高。
上述的預測方法只是針對歷史話務量這一個因素來預測,而話務量是多因素綜合的結果,話務量的影響因素具有灰色性和不確定性,且灰色模型具有所需樣本少、建模簡單的特點,因此可把話務量系統(tǒng)看為一個灰色系統(tǒng),但灰色系統(tǒng)對波動較大的數據預測精度低,適合線性預測。支持向量機能較好地解決小樣本、非線性、局部極小點等實際問題。實際中話務量是受多種因素影響的,不僅需要考慮歷史的話務量還要考慮其它影響因素。由于影響因素間呈現復雜的非線性關系,單一的預測模型難以達到較高的預測精度。本文提出一種組合模型,結合灰色預測模型和支持向量機預測模型各自的優(yōu)點,通過基于支持向量機補償的多因素灰色模型來預測話務量。
灰色關聯分析是一種多因素的統(tǒng)計分析方法,其基本原理是根據序列曲線幾何形狀的相似程度來判別其聯系是否緊密,通過計算數據間相關度的大小來判別其相關性的大小[8],具體步驟如下:
(1)設系統(tǒng)特征序列為X1,相關因素序列Xk為:
X1=(x1(1),x1(2),…,x1(m))
(1)
Xk=(xk(1),xk(2),…,xk(m)),k=2,3,…,m
(2)
(2)對各序列進行無量綱化處理:
k=1,2,…,m
(3)
(3)計算特征序列與相關因素序列之間相關系數:
ξk(j)=
(4)
(4) 綜合各關聯系數,計算關聯度:
(5)
其中,γk的大小反映了數列之間相關程度的大小,γk越大說明數列之間的關系越密切。
多變量灰色模型MGM(1,n)就是利用n元一階常微分方程組來描述n元相關關聯的變量的狀態(tài)并預測它們發(fā)展趨勢的灰色系統(tǒng)模型,它是單變量灰色模型MGM(1,1)在多個變量情況下的擴展,應用于相互影響、相互制約的多變量狀態(tài)和發(fā)展趨勢分析。該模型通過對生成序列建立n個一元微分方程組,將優(yōu)化目標函數設定為相對誤差最小,然后優(yōu)化求解模型的最佳參數從而實現模擬狀態(tài)和預測的目的。其內容如下[9]:
在這個模型中,n為變量的個數,每個變量有m個數據,記為:
(6)
(1)經過1-AGO后得到一組新的數據,記為:
(7)
(8)
其中,i=1,2,…,n;j=1,2,…,m。
(2)多變量MGM(1,n)模型對累加后的數據建立n元一階微分方程組:
(9)
(3)將式(9)簡寫為:
(10)
其中,
(11)
(4)為辨別參數A和B,故將式(1)離散化為:
(12)
其中,0≤θ≤1,一般情況下取θ=1/2。i=1,2,…,n;j=1,2,…,m。
(5)令H=[ai1ai2…ainbi]T,i=1,2,…,n,由最小二乘法可得到的H辨識值H′。
i=1,2,…,n
(13)
(14)
(6)得到A、B的辨識值A′、B′:
(15)
(4)現在從式(10)可得到預測值:
(16)
(5)預測值:
(17)
其中,j=2,3,…。
最小二乘支持向量機LS-SVM[10]是Suykens J A K等在標準支持向量機(SVM)的基礎上提出的一種新的人工智能學習算法,是對標準支持向量機的改進。與標準支持向量機相比,LS-SVM把二次規(guī)劃問題轉化為解線性方程組問題,將損失函數設定成誤差平方和,以減少模型需要優(yōu)化的參數,降低求解的復雜性[11]。
設訓練樣本有k個,則樣本記為T= [(Xi,Yi)],其中Xi∈Rn為n維樣本輸入,Yi∈Rn為樣本輸出,回歸預測就是通過樣本訓練找到合適的函數f(x)。對于非線性回歸問題,在非線性條件下利用非線性映射Φ(x)將樣本映射到一個高維特征空間,建立線性模型:
f(x)=(w·Φ(xi))+b
(18)
其中,w表示權值向量,b表示偏差量。
LS-SVM函數估計問題可轉化為求解如下問題:
yi-wTΦ(xi)+b=ri,i=1,2,…,n
(19)
上式中,c表示懲罰參數,ri為模型的預測誤差。
通過引入拉格朗日乘子,將式(11)轉化為對偶優(yōu)化問題,即:
L(w,b,ri,α)=J(w,ri)-
(20)
其中,αi表示拉格朗日乘子,分別對變量w、b、ri、a求偏導,令等于0,寫成矩陣形式,并消去w、ri得:
(21)
其中,Ω=φ(xi)Tφ(xj)=K(xi,xj),若有矩陣Δ:
(22)
若Δ可逆,求解式(21)可得:
(23)
對于非線性問題,可通過引入核函數轉換為非線性預測,本文采用徑向基核函數[12],其中σ表示徑向基核函數的寬度,所以LS-SVM回歸模型為:
(24)
由于核函數和懲罰參數影響最小二乘支持向量機的預測精度,故本文采用粒子群算法來求解最小二乘支持向量機的參數最優(yōu)解[13],在參數尋優(yōu)時可有效避免陷入局部最優(yōu),且運算速度快,預測精度較高。
(1)用灰色關聯分析法計算出特征序列與各相關因素序列之間相關度的大小,根據相關性的大小,找出與話務量有關的主要因素。
(2)將與話務量影響較大的因素作為MGM(1,n)模型的輸入,以實現對話務量基本規(guī)律的預測,并得到預測的殘差序列。
(3)利用粒子群優(yōu)化的LS-SVM模型建立殘差序列預測模型,從而實現對殘差序列的預測。
(4)將MGM(1,n)的預測結果與粒子群優(yōu)化的LS-SVM的殘差序列預測結果疊加,即為對MGM(1,n)預測結果的修正,以達到對話務量的預測,具體流程圖如圖1所示。
Figure 1 Model of traffic prediction based on MGM and LS-SVM compensation 圖1 基于LS-SVM補償的多因素話務量預測模型
本文收集了新疆伊犁州2008年~2012年每年5月1日之前20天的話務量以及影響因素的資料。影響話務量X1的相關因素有短信X2、資費水平X3、GPRS上行流量X4、GPRS下行流量X5、開機用戶X6以及忙時用戶X7、EGPRS上行流量X8和EGPRS下行流量X9??衫迷撡Y料對2012年5月1日這一天的話務量進行預測,算法在Matlab 2010a平臺上實現。
(1)應用灰色關聯分析確定影響話務量的主因素變量。首先計算出各因素對話務量的關聯度大小,如表1所示,顯示與話務量影響較大的因素的關聯度的大小。
Table 1 Traffic influence factors and correlation in traffic表1 對話務量影響較大的因素與話務量間的關聯度
(2)建立MGM(1,4)模型。由表1可知,與話務量相關度較大的因素有短信、忙時用戶數和開機用戶數,因此可以建立MGM(1,4)模型進行話務量的預測,即把每一年的影響話務量的因素(短信,忙時用戶數和開機用戶數)作為MGM(1,4)的輸入變量,進行預測,把真實值與預測值相減得到殘差序列。圖2為用多因素灰色模型得到的2012年5月1日預測結果。
Figure 2 Multi-factor grey model of traffic forecast on May 1, 2012圖2 基于多因素灰色模型2012年5月1日的話務量預測值
(3)利用粒子群優(yōu)化的最小二乘支持向量機殘差預測模型,使用2008年到2011年共4年的5月1日前15天的數據以及5月1日數據的殘差序列作為已知數據訓練模型。SVM模型采用徑向基函數,粒子群算法的基本參數為:粒子群種群規(guī)模m=100,最大迭代次數為1 000,慣性權重ξ=0.9,松弛因子ε=0.54,各粒子的初始化速度為0,最小適應值£=0.01,通過粒子群優(yōu)化算法確定C=0.6160,g=10.9836作為模型參數值。利用訓練好的模型對2012年5月1日的殘差進行預測,預測結果如圖3所示,顯示的是利用最小二乘支持向量機預測2012年5月1日的殘差預測值。
Figure 3 Least squares support vector machine prediction residual May 1, 2012圖3 2012年5月1日的最小二乘支持向量機殘差預測值
(4)最后將MGM(1,4)模型的2012年5月1日的預測結果與粒子群優(yōu)化的最小二乘支持向量機得到的2012年5月1日的殘差預測結果相加,相加后的最后結果與單一多因素灰色模型相比,更接近真實值。最終預測結果如圖4所示,顯示的是支持向量機補償的多因素灰色模型與多因素灰色模型真實值的對比圖(圖4中最上面的曲線代表的是真實值,中間的曲線為支持向量機補償的多因素灰色模型的預測值,最下面的曲線為多因素灰色模型的預測值)。
Figure 4 Multi-factor grey model and support vector machine (SVM) compensation of multi-factor grey model and the real value contrast figure圖4 多因素灰色模型與支持向量機補償的多因素灰色模型以及真實值的對比圖
為了驗證本文提出模型的預測效果,取灰色系統(tǒng)預測模型作為對比模型,采用相對誤差μ來評價模型的預測功能。
Table 2 Performance comparion between two kinds of prediction表2 兩種預測方法的相對誤差比較
由表2可知,傳統(tǒng)的灰色模型建模簡單,但在數據波動較大的情形下,預測精度不高。相對于傳統(tǒng)的多因素灰色模型,本文提出的基于支持向量機的殘差補償灰色預測模型的預測效果更好,與原數據更加相似,由此表明本文提出的方法更適用于話務量的預測。
由于話務量具有時變性、隨機性、周期性等特點,傳統(tǒng)的線性預測難以達到高精度的預測效果,且以往話務量預測只考慮用歷史話務量來預測未來話務量,而實際的話務量是受多種因素的影響。單一的多因素灰色模型難以達到較高的預測精度,且灰色模型對數據波動較大的數據,預測精度較低。針對話務量的特點,本文提出了支持向量機殘差補償的多因素灰色話務量預測模型,創(chuàng)新之處在于首次提出用最小二乘支持向量機對多因素灰色模型進行補償預測。先利用關聯分析法找出與話務量相關度較大的因素,把相關度較大的因素作為多因素灰色模型MGM(1,n)的輸入變量進行話務量趨勢預測,再采用粒子群優(yōu)化的最小二乘支持向量機進行殘差預測,把殘差預測的結果與多因素灰色模型預測的結果相加,即實現殘差補償,從而實現對話務量較為精確的預測。文中對話務量進行了仿真實驗,仿真結果表明:該模型相較于傳統(tǒng)的多因素灰色模型,預測精度高,對波動較大的數據同樣適用,為話務量的預測提供了新的方法。但是,此方法有一定的局限性,適應于小樣本的預測,下一步將對復高斯小波核函數進行深入的研究,以提高殘差的預測精度。
[1] Zhang Lei. The linear regression analysis of traffic forecast telecom revenue research[D].Guangzhou:Sun Yat-sen University, 2009.(in Chinese)
[2] Jiang Jian-zhong. Time series analysis in the application of mobile telephone traffic forecasting [D]. Beijing:Beijing University of Posts and Telecommunications, 2005.(in Chinese)
[3] Yu Yan-hua,Wang Jun.Application of product seasonal ARIMA model of traffic forecast and result analysis[J]. Computer Engineering and Application, 2009,45(20):99-102.(in Chinese)
[4] Liu Jun-bo, Sun Yan, Wang Da-ming, et al. A Kalman filter-based algorithm for real-time forecasting of communication traffic[J]. Journal of Communications Technology, 2012,45(6):86-88.(in Chinese)
[5] Deng Bo,Li Jian, Sun Tao. Traffic prediction based on neural network [J]. Journal of Chengdu Information Engineering College, 2008,23(5):521-518.(in Chinese)
[6] Chen Dian-bo, Xu Fu-cang, Wu Min. Traffic based on clustering and support vector machine forecasting model [J]. Journal of Control Engineering, 2009,16(2):195-198.(in Chinese)
[7] Subhrakanti N G. A dynamic quantization and power allocation for multisensor estimation of hidden Markov model[J]. IEEE Transactions on Automatic Control, 2012,57(7):1641-1656.
[8] Geng Li-yan,Zhang Wei,Zhao Peng.LS-SVM based on grey correlation analysis of railway freight volume prediction[J]. Journal of Railway, 2012,34(3):1-6.(in Chinese)
[9] Shen Ji-hong, Zhang Chang-bin, Li Ji-de. The prediction of ship motion via updating MGM(1,n) model[C]∥Proc of the IEEE International Conference on Grey Systems and Intelligent Services, 2009:533-537.
[10] Chen Wei-min, Chen zhi-gang. Network traffic prediction based on PSR-LSSVM measurement [J]. Journal of Computer Science, 2012,39(7):92-95.(in Chinese)
[11] Wu Chih-Hung, W-H S, Ya-Wei Ho. A study on GPS GDOP approximation using support-vector machines[J]. IEEE Transactions on Instrumentation and Measurement, 2011,60(1):137-145.
[12] Fu Li-hua, Li Hong-wei, Zhang Meng,et al. With multiple multi-scale kernel functions, the radial basis function networks[J]. Journal of Huazhong University of Science and Technology (Natural Science Edition), 2010,38(1):39-42.(in Chinese)
[13] Varshney S, Pandit L S M. Comparison of PSO models for optimal placement and sizing of statcom[C]∥Proc of Sustainable Energy and Intelligent System(SEISCON 2011), 2011:125-133.
附中文參考文獻:
[1] 張蕾. 基于線性回歸分析的話務預測電信收入的研究[D]. 廣州:中山大學, 2009.
[2] 蔣建忠. 時間序列分析在移動話務量預測中的應用[D].北京:北京郵電大學,2005.
[3] 于艷華,王軍. 應用乘積季節(jié)ARIMA模型的話務量預測及結果分析[J]. 計算機工程與應用, 2009,45(20):99-102.
[4] 劉軍搏,孫巖,王大鳴,等. 一種基于Kalman的實時話務量預測算法[J]. 通信技術, 2012,45(6):86-88.
[5] 鄧波,李建,孫濤. 基于神經網絡的話務量預測[J].成都信息工程學院學報,2008,23(5):518-521.
[6] 陳電波,徐福倉,吳敏. 基于聚類和支持向量機的話務量預測模型[J]. 控制工程, 2009,16(2):195-198.
[8] 耿立艷,張偉,趙鵬. 基于灰色關聯分析的LS-SVM鐵路貨運量預測[J]. 鐵道學報, 2012,34(3):1-6.
[10] 陳衛(wèi)民,陳志剛. 基于PSR-LSSVM的網絡流量預 測[J]. 計算機科學, 2012,39(7):92-95.
[12] 付麗華,李宏偉,張猛,等. 帶多個核函數的多尺度徑向基函數網絡[J]. 華中科技大學學報(自然科學版), 2010,38(1):39-42.