葉秋生, 陳曉云
(福州大學(xué)數(shù)學(xué)與計算機(jī)科學(xué)學(xué)院,福建 福州 350116)
加權(quán)極限學(xué)習(xí)機(jī)的多變量時間序列預(yù)測方法
葉秋生, 陳曉云
(福州大學(xué)數(shù)學(xué)與計算機(jī)科學(xué)學(xué)院,福建 福州350116)
摘要:提出一種基于樣本分布的極限學(xué)習(xí)機(jī)預(yù)測模型WELMSD. 該模型先用kN近鄰密度估計方法估計出樣本的密度值,再用估計出的密度值給傳統(tǒng)ELM的經(jīng)驗風(fēng)險項加權(quán),克服傳統(tǒng)ELM在對時間序列進(jìn)行預(yù)測時忽略樣本分布的缺點. 基于Rossler混沌時間序列和上證、 深證股票數(shù)據(jù)的實驗仿真結(jié)果證明了所提算法的有效性,且當(dāng)近鄰參數(shù)kN取值較小時,所提模型對參數(shù)不敏感,是一種更優(yōu)的多變量時間序列預(yù)測模型.
關(guān)鍵詞:加權(quán)極限學(xué)習(xí)機(jī); 多變量時間序列; 預(yù)測; kN近鄰密度估計
0引言
時間序列預(yù)測技術(shù)被廣泛應(yīng)用于金融、 交通、 電力等領(lǐng)域,例如股票漲跌、 交通流量、 電力負(fù)荷的預(yù)測等. 但是,許多實際時間序列都是非平穩(wěn)和非線性的,使得傳統(tǒng)時間序列預(yù)測模型(如AR, ARMA, ARIMA等線性模型)的應(yīng)用受到極大的限制. 非線性時間序列預(yù)測方法能夠較好地處理非線性問題,從而得到更深入的研究和更廣泛的應(yīng)用[1].
極限學(xué)習(xí)機(jī)(extreme learning machine, ELM)是Huang等[2]根據(jù)廣義逆矩陣?yán)碚摵蛡鹘y(tǒng)神經(jīng)網(wǎng)絡(luò)提出的一種新算法,該算法既保留傳統(tǒng)神經(jīng)網(wǎng)絡(luò)能夠較好地處理非線性問題的優(yōu)點,又克服傳統(tǒng)神經(jīng)網(wǎng)絡(luò)需要繁瑣迭代的缺點,僅通過一步計算就能求出隱節(jié)點的輸出權(quán)值. 同傳統(tǒng)神經(jīng)網(wǎng)絡(luò)相比,ELM極大地提高了網(wǎng)絡(luò)的學(xué)習(xí)速度和泛化能力,近年來被廣泛應(yīng)用于時間序列的預(yù)測并取得良好的預(yù)測效果[3]. 但多數(shù)ELM時間序列預(yù)測方法在訓(xùn)練ELM模型時同等地看待滑動窗口內(nèi)的樣本[4-5],這顯然是不合理的. 實際情況下, 滑動窗口內(nèi)的樣本對預(yù)測點的影響是有差異的[6]. 文獻(xiàn)[6]認(rèn)為與預(yù)測點時間上較近的樣本對預(yù)測點的影響較大,賦予較大的權(quán)重,而時間上較遠(yuǎn)的樣本對預(yù)測點的影響較小,賦予較小的權(quán)重. 但是,該思想憑經(jīng)驗而來,缺乏一定的理論支持,預(yù)測精度可能會因數(shù)據(jù)的不同而有較大的差異.
基于以上不足,將傳統(tǒng)ELM算法和kN近鄰密度估計方法結(jié)合起來,提出基于樣本分布的加權(quán)極限學(xué)習(xí)機(jī)算法(weighted extreme learning machine based on sample distribution, WELMSD). WELMSD算法先通過kN近鄰密度估計方法估計出樣本的密度值,再用估計出的密度值給傳統(tǒng)ELM的經(jīng)驗風(fēng)險項加權(quán),從而考慮樣本點的分布情況,提高了模型的預(yù)測性能.
1極限學(xué)習(xí)機(jī)分析
1.1極限學(xué)習(xí)機(jī)(ELM)預(yù)測模型[4]
(1)
其中: h(xi)=(g(w1, b1, xi), …, g(wL, bL, xi))為隱含層關(guān)于xi的輸出向量; L為隱節(jié)點的個數(shù); wj為第j個隱節(jié)點的輸入權(quán)值; bj為第j個隱節(jié)點的偏差; β為隱含層的輸出權(quán)值; g(wj, bj, xj)為第j個隱節(jié)點的激勵函數(shù),可在“Sigmoid”,“Sine”,“RBF”中選擇.
根據(jù)拉格朗日乘子法和KKT最優(yōu)條件,得[4]:
(2)
其中
(3)
從而可求得預(yù)測模型
(4)
1.2樣本分布對傳統(tǒng)ELM模型的影響
在機(jī)器學(xué)習(xí)中,通常用期望風(fēng)險R[f]來評價一個決策函數(shù)f(x)的優(yōu)劣性,期望風(fēng)險R[f]表達(dá)式[7]為:
(5)
其中:P(x,y)為分布函數(shù);c(x,y,f(x))為損失函數(shù).
通常情況下,P(x,y)是未知的,期望風(fēng)險無法直接計算. 常用下式去逼近期望風(fēng)險:
(6)
式(6)稱為經(jīng)驗風(fēng)險.
在傳統(tǒng)ELM模型中,決策函數(shù)為:
(7)
損失函數(shù)為:
(8)
經(jīng)驗風(fēng)險為:
(9)
圖1 樣本分布對ELM的影響Fig.1 The effect of sample distribution on ELM
2加權(quán)極限學(xué)習(xí)機(jī)的多變量時間序列預(yù)測方法
2.1kN近鄰密度估計方法[8]
要估計數(shù)據(jù)集X={x1, …,xN}的概率密度,應(yīng)先給定近鄰樣本數(shù)kN,再根據(jù)要估計密度的樣本xi的第kN個近鄰與該樣本的距離計算出小艙的體積Vi, 則樣本xi的概率密度估計值為:
(10)
2.2加權(quán)極限學(xué)習(xí)機(jī)的多變量時間序列預(yù)測模型
圖2 樣本概率密度對ELM的影響Fig.2 The effect of Sample probability density on ELM
傳統(tǒng)的ELM算法忽略樣本概率密度對經(jīng)驗風(fēng)險項的影響,直接用經(jīng)驗風(fēng)險去逼近期望風(fēng)險,這樣會使得密度較小的樣本的預(yù)測值與實際值偏差較大. 為減小小密度樣本的預(yù)測誤差,提出基于樣本分布的加權(quán)極限學(xué)習(xí)機(jī)算法.
如圖2所示,當(dāng)N<<∞時,在y值分布較為密集(密度值較大)的xj處,小矩形的寬能夠適當(dāng)?shù)胤糯蠖挥绊懶【匦蚊娣e對曲線c(x, y, f(x))和坐標(biāo)軸所圍的幾何圖形面積的逼近. 而在密度較小(密度值較小)的xi處,寬應(yīng)適當(dāng)?shù)刈冃? 基于此,將圖1所示的小矩形的寬由1/N修改為pi, 其中,pi(i=1, …, N)為訓(xùn)練樣本的密度估計值. 則傳統(tǒng)ELM的經(jīng)驗風(fēng)險項Remp[f]變?yōu)?/p>
(11)
因此,基于樣本分布的加權(quán)極限學(xué)習(xí)機(jī)算法的目標(biāo)函數(shù)為:
(12)
式(12)同樣可采用拉格朗日乘子法求解:
(13)
其中,αi(i=1, …,N)為拉格朗日乘子. 根據(jù)KKT最優(yōu)條件可解得:
(14)
(15)
(16)
由式(14)、 (15)、 (16)可得
(17)
從而可得預(yù)測模型
(18)
3實驗與結(jié)果分析
3.1實驗數(shù)據(jù)
為驗證方法的有效性,將其應(yīng)用到Rossler混沌系統(tǒng)、 上證指數(shù)(代碼000001)和深證指數(shù)(代碼399001)時間序列預(yù)測中. Rossler映射產(chǎn)生的混沌時間序列方程為:
(19)
其中,a, b和c都是常數(shù). 實驗時取a=0.15, b=0.20, c=10.0, x(0)=0.1, y(0)=0.1, z(0)=0.1,步長h=0.01,生成1 000個時間序列數(shù)據(jù).
上證指數(shù)(代碼000001)和深證指數(shù)(代碼399001)時間序列數(shù)據(jù)從Yahoo Finance獲得. 其中,上證指數(shù)的時間跨度為2009年1月5日到2014年2月28日; 深證指數(shù)的時間跨度為2010年1月4日到2014年2月28日. 實驗時,每個數(shù)據(jù)集的前2/3作為訓(xùn)練集,后1/3作為測試集. 并將本文WELMSD算法與ELM[4]、 加權(quán)極限學(xué)習(xí)機(jī)(weighted extreme learning machine,WELM)(WELM的加權(quán)方法同文獻(xiàn)[6])以及加權(quán)最小二乘支持向量機(jī)[6](weighted least squares support vector machines,WLSSVM)進(jìn)行比較. 為定量比較不同預(yù)測方法的預(yù)測性能,采用均方根誤差(root mean square error,RMSE)作為評價指標(biāo):
(20)
實驗所用硬件平臺:CPU為Pentium(R)Dual-CoreE5300,主頻2.60GHz,2GB內(nèi)存. 軟件平臺:Matlab7.11.0(R2010b).
3.2實驗結(jié)果分析
3.2.1各預(yù)測方法在不同數(shù)據(jù)上的RMSE值對比
實驗過程中,ELM、WELM以及WELMSD的參數(shù)C=1,隱節(jié)點個數(shù)L=20或L=30[9],WELMSD的kN近鄰數(shù)為3; 激勵函數(shù)g(wj,bj,xi)為“Sigmoid”; WLSSVM的參數(shù)C和σ由粒子群優(yōu)化算法搜索取得. 由于ELM、 WELM和WELMSD隱節(jié)點的輸入權(quán)值w和偏差b都是隨機(jī)給出,而w和b對實驗結(jié)果有一定的影響; 粒子群算法有時會陷入局部最優(yōu),而局部最優(yōu)解往往有多個,從而對WLSSVM的預(yù)測結(jié)果產(chǎn)生影響. 為了更有效地比較各方法的性能,每個方法的RMSE取10次實驗結(jié)果的平均. 實驗采用滑動窗口法去獲取訓(xùn)練集的輸入、 輸出以及測試集的輸入、 輸出.
滑動窗口具體做法為: 先將滑動窗口置于數(shù)據(jù)集X的始端,然后逐步向后滑動,每次滑動的時間跨度為1,處于窗口內(nèi)的數(shù)據(jù)即為訓(xùn)練集或測試集的輸入,而窗口外的后一個數(shù)據(jù)即為訓(xùn)練集或測試集的輸出. 當(dāng)滑動窗口從數(shù)據(jù)集X的始端滑到末端時,就會產(chǎn)生N-n個輸入和N-n個輸出,其中,N為數(shù)據(jù)集X的樣本個數(shù),n為滑動窗口的大小,實驗取n=10[10]. 在Rossler混沌時間序列上用變量x,y,z對變量z進(jìn)行預(yù)測,在上證、 深證股票數(shù)據(jù)上,用開盤指數(shù)、 最高指數(shù)、 最低指數(shù)和收盤指數(shù)對收盤指數(shù)進(jìn)行預(yù)測. 表1給出了ELM、 WELM、 LSSVM以及WELMSD算法在各數(shù)據(jù)集上預(yù)測的RMSE值的對比.
從表1可以看出,在RMSE指標(biāo)下,ELM、 WELM以及WELMSD算法在三組數(shù)據(jù)中的預(yù)測精度都隨著隱節(jié)點個數(shù)L的增大而提高,這是因為L變大時,ELM、 WELM以及WELMSD能夠更好地擬合時間序列的軌跡. 當(dāng)然,L并不是越大越好,L過大時,ELM、 WELM以及WELMSD算法將會出現(xiàn)過擬合現(xiàn)象. 在Rossler數(shù)據(jù)集中,L=20或L=30時,WELM的預(yù)測精度都高于ELM的預(yù)測精度. 而在深證數(shù)據(jù)集中,WELM的預(yù)測精度卻低于ELM算法,這是因為WELM算法認(rèn)為時間上離預(yù)測點較近的點對預(yù)測點的影響較大,然而這只是直觀上的猜測,并沒有理論依據(jù),與預(yù)測點時間上較遠(yuǎn)的點對預(yù)測點有大的影響這種情況在實際上也是可能出現(xiàn)的.
表1 各預(yù)測方法在Rossler、 上證、 深證時間序列的預(yù)測結(jié)果對比
圖3 Rossler預(yù)測結(jié)果對比Fig.3 Comparison of prediction results on Rossler
從總體上看,WELMSD算法的預(yù)測精度是最高的,并且相對于WELM算法更為穩(wěn)健,證明在預(yù)測時將樣本的分布情況考慮進(jìn)去是合理的.
圖3~5直觀地展現(xiàn)了各方法的預(yù)測值與實際值的對比效果,相對于其他算法,WELMSD在測試數(shù)據(jù)上的預(yù)測曲線能夠更好地擬合實際曲線,特別是在z值(Rossler時間序列)或收盤指數(shù)(股票時間序列)分布較為稀疏的地方,WELMSD算法的預(yù)測曲線與真實曲線擬合得更好,充分說明考慮樣本的分布情況能夠減小稀疏樣本的擬合誤差.
圖4 上證股票預(yù)測結(jié)果對比Fig.4 Comparison of prediction results on Shanghai Component Index
圖5 深證股票預(yù)測結(jié)果對比Fig.5 Comparison of prediction results on Shenzhen Component Index
3.2.2kN近鄰法的參數(shù)對預(yù)測結(jié)果的影響
表2 kN對預(yù)測結(jié)果的影響
4結(jié)論
針對多變量時間序列預(yù)測問題提出一種基于樣本分布的極限學(xué)習(xí)機(jī)預(yù)測模型WELMSD,該模型克服了傳統(tǒng)ELM忽略樣本分布從而導(dǎo)致預(yù)測誤差較大的缺點. 基于Rossler混沌時間序列和上證、 深證股票數(shù)據(jù)的實驗仿真結(jié)果證明了所提算法的有效性,且當(dāng)kN的取值不超過20時,方法的預(yù)測結(jié)果對近鄰參數(shù)kN不敏感,是一種更優(yōu)的多變量時間序列預(yù)測模型.
參考文獻(xiàn):
[1] 江田漢,束炯. 基于LSSVM的混沌時間序列的多步預(yù)測[J]. 控制與決策, 2006, 21(1): 77-80.
[2] HUANG G B, ZHU Q Y, SIEW C K. Extreme learning machine: theory and applications[J]. Neurocomputing, 2006, 70(1): 489-501.
[3] SINGH R, BALASUNDARAM S. Application of extreme learning machine method for time series analysis[J]. International Journal of Intelligent Technology, 2007, 2(4): 361-367.
[4] HUANG G B, ZHOU H, DING X,etal. Extreme learning machine for regression and multiclass classification[J]. IEEE Transactions on Systems, Man, and Cybernetics Part B: Cybernetics, 2012, 42(2): 513-529.
[5] 毛力,王運濤,劉興陽,等. 基于改進(jìn)極限學(xué)習(xí)機(jī)的短期電力負(fù)荷預(yù)測方法[J]. 電力系統(tǒng)保護(hù)與控制, 2012, 40(20): 140-144.
[6] GUO Y M, RAN C B, LI X L,etal. Weighted prediction method with multiple time series using multi-kernel least squares support vector regression[J]. Eksploatacja I Niezawodno, 2013, 15(2): 188-194.
[7] 鄧乃揚, 田英杰. 數(shù)據(jù)挖掘中的新方法: 支持向量機(jī)[M]. 北京: 科學(xué)出版社, 2004.
[8] 張學(xué)工. 模式識別 [M]. 3版. 北京: 清華大學(xué)出版社, 2010.
[9] ZOMG W, HUANG G B, CHEN Y. Weighted extreme learning machine for imbalance learning[J]. Neurocomputing, 2013, 101(3): 229-242.
[10] GUO Z Q, WANG H Q, LIU Q. Financial time series forecasting using LPP and SVM optimized by PSO[J]. Soft Computing, 2013, 17(5): 805-818.
(責(zé)任編輯: 洪江星)
Multivariate time series prediction based on weighted extreme learning machine
YE Qiusheng, CHEN Xiaoyun
(College of Mathematics and Computer Science,F(xiàn)uzhou University,F(xiàn)uzhou,F(xiàn)ujian 350116,China)
Abstract:Put forward a kind of extreme learning machine prediction model based on sample distribution which is called WELMSD. WELMSD estimates the density of the sample set by the kN nearest neighbor density estimation firstly, and then weighted for the traditional extreme learning machine by the estimated density. WELMSD overcome the shortcoming of traditional extreme learning machine ignore the sample distribution when it is used for time series prediction. The effectiveness of WELMSD is demonstrated by simulation results on Rossler chaotic time series, Shanghai Composite Index and Shenzhen Component Index. In addition, the prediction results are not sensitive to the parameters of kN nearest neighbor density estimation method when kN is small. It proves that the new model is a better prediction model for multivariate time series.
Keywords:weighted extreme learning machine; multivariate time series; prediction; kN nearest neighbor density estimation
DOI:10.7631/issn.1000-2243.2016.03.0437
文章編號:1000-2243(2016)03-0437-06
收稿日期:2014-03-31
通訊作者:陳曉云(1970-),教授,主要從事數(shù)據(jù)挖掘、 模式識別、 機(jī)器學(xué)習(xí)等方面的研究,c_xiaoyun@21cn.com
基金項目:國家自然科學(xué)基金資助項目(71273053); 福建省自然科學(xué)基金資助項目(2014J01009)
中圖分類號:TP311
文獻(xiàn)標(biāo)識碼:A