劉海飛,李心丹
(南京大學(xué) 工程管理學(xué)院,南京 210093)
基于EMD方法的股票價格預(yù)測
劉海飛,李心丹
(南京大學(xué) 工程管理學(xué)院,南京 210093)
文章將經(jīng)驗(yàn)?zāi)J椒纸夥椒ǎ‥MD)引入到中國金融市場數(shù)據(jù)預(yù)測中,利用EMD正交分解的特殊功能,提出了一種較為準(zhǔn)確的金融市場時間序列預(yù)測其走勢的方法。并與傳統(tǒng)實(shí)踐上相對比較成熟的小波分析方法(WA)進(jìn)行對比分析,實(shí)證研究表明:經(jīng)驗(yàn)?zāi)J椒纸夥椒ǎ‥MD)較小波分析方法擬和精度更高、預(yù)測功能很強(qiáng)。此方法為金融市場數(shù)據(jù)研究提供了一個強(qiáng)有力新的分析工具,在理論和實(shí)踐上有其重要的指導(dǎo)意義。
金融市場;時間序列;EMD分法;小波分析;預(yù)測
金融市場的波動性研究一直以來都是國內(nèi)外學(xué)者們關(guān)注的熱點(diǎn)。金融時間序列走勢的準(zhǔn)確合理預(yù)測意味著投資者高額的市場回報和政府監(jiān)管部門對市場的有效監(jiān)管,是投資和證券理論界與實(shí)務(wù)界所共識的很有意義研究課題,金融時間序列預(yù)測模型的研究已成為國內(nèi)外學(xué)者關(guān)注的焦點(diǎn)和當(dāng)今的前沿課題。許多學(xué)者在此領(lǐng)域提出了多種有效分析方法,如短期預(yù)測方法:回歸分析、指數(shù)平滑、自回歸滑動平均模型(ARMA)、廣義條件異方差模型(GARCH)[1]、神經(jīng)網(wǎng)絡(luò)、灰度模型、小波分析、遺傳算法及它們的各種改進(jìn)型等;長期預(yù)測方法:神經(jīng)網(wǎng)絡(luò)、Holt-Winters 方法[2]、Theta 模型[3]、模糊理論[4][5]、小波包分析[6]等。由于數(shù)據(jù)和方法本身苛刻條件的限制使得模型預(yù)測結(jié)果或多或少都存在令人惋惜的缺憾。如時間序列模型適合于線性時序的預(yù)測,當(dāng)用于預(yù)測非線性時間序列時,準(zhǔn)確性較差;小波分析方法中數(shù)據(jù)基本假定為平穩(wěn)序列,當(dāng)用于非平穩(wěn)時間序列預(yù)測時準(zhǔn)確性不高;神經(jīng)網(wǎng)絡(luò)具有逼近非線性的能力,然而當(dāng)用神經(jīng)網(wǎng)絡(luò)來預(yù)測股價時間序列時,其結(jié)果不是很理想;中國證券市場的混沌性暗示著金融時間序列的長期不可預(yù)測性和短期預(yù)測的可行性,但混沌模型與其他方法對股市進(jìn)行預(yù)測時,也為未能得到令理論界和實(shí)務(wù)界較滿意的效果。
本文提出一種全新的金融時間序列預(yù)測EMD方法[7],并與傳統(tǒng)相對比較成熟的小波分析預(yù)測(WA)方法進(jìn)行對比分析表明:EMD方法的擬和與預(yù)測的精度較小波分析方法大幅提高,驗(yàn)證了此方法在金融時間序列預(yù)測應(yīng)用中的強(qiáng)有效性。
經(jīng)驗(yàn)?zāi)J椒纸夥椒?它的優(yōu)點(diǎn)是能夠?qū)Ψ蔷€性、非平穩(wěn)過程的數(shù)據(jù)進(jìn)行線性化和平穩(wěn)化處理,分解的最終函數(shù)彼此之間是正交的,從而在分解的過程中盡可能的保留了數(shù)據(jù)本身的特性。其基本思路是用波動上、下包絡(luò)的平均值去確定“瞬時平衡位置”,進(jìn)而提取出內(nèi)在模函數(shù)。內(nèi)在模函數(shù)(Intrinsic Mode Function),記為I(t))的計(jì)算過程主要有3個步驟:
(1)找出原序列Y(t)的各個局部極大值,為更好保留原序列的特性,局部極大值定義為時間序列中的某個時刻的值,其前一時刻的值不比它大,后一時刻的值也不比它大。然后用三階樣條函數(shù)進(jìn)行插值,得到原序列Y(t)的上包絡(luò)序列值Ymax(t)。同理,可以得到下包絡(luò)序列值Ymin(t)。
(2)對每個時刻的Ymax(t)和Ymin(t)取平均,得到瞬時平均值m(t):
(3)用原序列Y(t)減去瞬時平均值m(t),得到類距平值序列h(t):
對于不同的數(shù)據(jù)序列,h(t)可能是內(nèi)在模函數(shù),也可能不是。若h(t)中極值點(diǎn)的數(shù)目和跨零點(diǎn)的數(shù)目相等或至多只差一個,并且各個瞬時平均值m(t)都等于零,則它就是內(nèi)在模函數(shù),否則,把h(t)當(dāng)作原序列,重復(fù)以上步驟,直至滿足內(nèi)在模函數(shù)的定義,求出內(nèi)在模函數(shù)為止。求出了第一個內(nèi)在模函數(shù)I1(t),也即從原序列中分解出第一個分量。然后,用原序列減去I1(t),得到剩余值序列r1(t):
至此,提取第1個內(nèi)在模函數(shù)的過程全部完成。然后,把r1(t)作為一個新的原序列,按照以上步驟,依次提取第2,第3,…,直至第N個內(nèi)在模函數(shù)IN(t)。之后,由于rN(t)變成一個單調(diào)序列,再也沒有內(nèi)在模函數(shù)能被提取出來。如果把分解后的各分量合并起來,就得到原序列Y(t):
(1)小波定義:設(shè) Ψ(t)∈L2(R),其傅立葉變換為 Ψ(ω),滿足允許條件時,則稱 Ψ(ω)是一個基本小波,連續(xù)情況下小波,其中 a為伸縮因子,b為平移因子,給定任意函數(shù)f(x)∈L2(R)的連續(xù)小波變換及其重構(gòu)公式為:
(2)小波分解與重構(gòu)的基本原理:小波分解的逼近包含了信號較低頻的成分,細(xì)節(jié)包含了較高頻的成分,利用小波的分解與重構(gòu)可以得到不同頻率成分,根據(jù)需要可以選擇不同尺度對信號進(jìn)行分析,以此將原始信號Y分解成Y=G1+G2+…+GN+DN式中,G1,G2,…,GN分別為第一層、第二層到第N層分解得到的高頻信號 (即細(xì)節(jié)信號);DN為第N層分解得到的低頻信號(即逼近信號)。通過對G1,G2,…,GN與DN進(jìn)行預(yù)測,然后通過小波重構(gòu)計(jì)算方法就能實(shí)現(xiàn)對原始信號Y的擬和與預(yù)測。
本文數(shù)據(jù)來自證券之星網(wǎng)站(www.stockstar.com),選取我國上證指數(shù)(000001)從2001年 6月1日至 2005年3月31日之間的每日收盤價,共916個有效樣本數(shù)據(jù),采用對數(shù)收益率數(shù)據(jù)(對數(shù)收益率,即rt=lnPt-lnPt-1,其中Pt為第t天的日收盤價)作為研究對象,全部數(shù)據(jù)分為兩段,時段2001年6月1日至2005年3月18日的數(shù)據(jù)為模型估計(jì)階段數(shù)據(jù)(共907個數(shù)據(jù)),剩余時段為預(yù)測區(qū)間(共9個數(shù)據(jù)),用以數(shù)據(jù)的預(yù)測檢驗(yàn)。分別利用EMD和WA方法和matlab編程[8][9]對股市時間序列建模與預(yù)測。其中WA方法中使用一維離散平穩(wěn)小波多尺度分析過程。令Y=(Y(1),Y(2),…,Y(K))為原始收益率時間序列,分別經(jīng)WA的4尺度和EMD方法的9層分解后得到:
其中,i=1,2,…,N,t=1,2,…,K,且 K 為最大樣本值, μN(yùn)(t)和rN(t)為誤差項(xiàng)。在t≤T時刻的原始數(shù)據(jù)進(jìn)行分解的基礎(chǔ)上,通過(7)(8)式做出K步預(yù)測。對WA方法而言,由于小波分解可以將原時間序列分解為趨勢項(xiàng)、隨機(jī)項(xiàng)和周期項(xiàng),分別對趨勢項(xiàng)線性擬和,周期項(xiàng)正弦函數(shù)擬和,隨機(jī)項(xiàng)ARMA模型擬和,最后重構(gòu)在一起得到預(yù)測函數(shù):
對EMD方法而言,通過檢驗(yàn),每個序列都是平穩(wěn)的序列,通過ARMA模型擬和,最后復(fù)合到一起得到預(yù)測函數(shù):
最后通過小波重構(gòu)與EMD重構(gòu) (即將不同的IMF函數(shù)復(fù)合)得到預(yù)測圖形。
時間序列原始數(shù)據(jù)Y的圖形如下:
在圖1中,描述出了上證指數(shù)收益率序列的走勢圖,具體數(shù)據(jù)性質(zhì)見表1。
表1 原始時間序列Y的平穩(wěn)性檢驗(yàn)結(jié)果
由表1可知:收益率時間序列的偏度為0.864510>0,峰度為8.807155>3,其分布顯著偏離正態(tài)分布,且收益率序列ADF(PP)統(tǒng)計(jì)量值-14.36635(-29.67906)小于它們在不同顯著性水平(1%和5%)下的臨界值(-3.4402和-2.8651),統(tǒng)計(jì)值落在臨界值以外,表明收益率序列為平穩(wěn)序列。收益率序列平穩(wěn)性恰恰符合小波分析預(yù)測方法的數(shù)據(jù)基本假定,在此假定基礎(chǔ)上對此收益率數(shù)據(jù)分別進(jìn)行兩種不同方法的分解,得出兩種不同方法的擬和精度。小波重構(gòu)標(biāo)準(zhǔn)差err=0.01339和EMD重構(gòu)標(biāo)準(zhǔn)差err=6.9969e-006,可以看出EMD的誤差顯著小于小波分析方法的誤差,取得了令人滿意的效果。
在圖2中,表示出原始離散數(shù)據(jù)Y序列、一維離散平穩(wěn)小波重構(gòu)序列和最終兩者擬和預(yù)測的誤差序列,誤差序列反映了擬和值與實(shí)際值的偏離,定義偏離的標(biāo)準(zhǔn)誤差(MSE)N為:,其中 Y(t)為實(shí)際值,為擬和值,由計(jì)算可得其擬和的標(biāo)準(zhǔn)誤差為:0.01339,可見小波擬和精度是很高的,它完全能適應(yīng)實(shí)踐的各種需要,被公認(rèn)為是一種很有效的分析工具。
在圖3中,分別描繪出了原始數(shù)據(jù)在不同尺度下頻率數(shù)據(jù)圖,從中可以清晰的看出通過一維離散平穩(wěn)小波分析得出9層且尺度為4的不同的高頻與低頻數(shù)據(jù),以此可以對不同頻率的數(shù)據(jù)進(jìn)行分析,以適應(yīng)不同的需要。
在圖4、5中,同樣給出了原始數(shù)據(jù)Y的EMD重構(gòu)序列和最終兩者擬和的誤差序列,以及9個不同彼此正交的內(nèi)在模函數(shù)(IMF)。從直觀上看,小波重構(gòu)的誤差序列數(shù)據(jù)離散度要大于EMD方法的誤差序列數(shù)據(jù)離散度,再由計(jì)算可得其擬和的標(biāo)準(zhǔn)誤差(MSE)為6.9969e-006,可知通過EMD分解后再擬和誤差顯著減小,擬和精度大幅度提高,驗(yàn)證EMD方法的強(qiáng)效性。
在圖6中,由EMD和WA兩種不同方法估計(jì)出各自的預(yù)測函數(shù)進(jìn)行樣本外預(yù)測圖,預(yù)測的觀測值共9個。定義預(yù)測誤差(MSE)為:,其中 Y(t)為實(shí)際值,為預(yù)測值,由圖可知兩種方法預(yù)測圖形都與原始數(shù)據(jù)圖形近乎一致,兩種方法對平穩(wěn)數(shù)據(jù)短期預(yù)測誤差都非常高,經(jīng)計(jì)算分別為7.1043e-006和0.01333,可見EMD方法不失為一種數(shù)據(jù)預(yù)測有效的好方法。
本文提出了一種新的預(yù)測方法,即經(jīng)驗(yàn)?zāi)J椒治龇椒ǎ‥MD),對平穩(wěn)的收益率序列作了建模與預(yù)測分析,并就金融市場數(shù)據(jù)分別用EMD和WA方法進(jìn)行了實(shí)證研究,比較分析結(jié)果表明:EMD方法較傳統(tǒng)上比較成熟的WA方法更具有效性,擬和與預(yù)測精度顯著提高。而EMD對非線性非平穩(wěn)數(shù)據(jù)的處理更具有其自身的優(yōu)越性,即分解出的不同的IMF是正交的,這樣能盡可能多的保留了原始數(shù)據(jù)的基本特性。此方法為處理非線性、非平穩(wěn)的數(shù)據(jù)提供了一種強(qiáng)有力的分析工具。
鑒于EMD方法本身的特點(diǎn),它不僅可以運(yùn)用到金融市場數(shù)據(jù)的短期預(yù)測,同樣也可以用于長期預(yù)測。EMD方法可以同其他多種方法綜合使用,相信誤差會進(jìn)一步降低,精度會進(jìn)一步提高。EMD方法有廣泛的實(shí)踐應(yīng)用價值,有助于推動我國金融領(lǐng)域的預(yù)測與決策問題的深入研究,同時也能極大的促進(jìn)預(yù)測理論的進(jìn)一步發(fā)展。
[1]Engle R F.Autoregressive ConditionalHeteroscedasticity with Estimations of the Variance of UK Inflation[J].Econometrica,1982,50.
[2]ThomasH L,KyungD N.CombiningForeign ExchangeRate Forecasts Using Neural Networks[J].Global Finance Journal,1998,9(1).
[3]Howard Grubb,Alexina Mason.Long Lead-time Forecasting of UK air Passengers by Holt-W Inters Methods with Damped Trend[J].International Journal of Forecasting,2001,(17).
[4]V.Assimakopoulos,K.Nikolopoulos.The Theta Model:a Decomposition Approach to Forecasting[J].International Journal of Forecasting,2000,16.
[5]Park Jae-gyun,Park Jong-Keun,Kim Kwang-ho,et al.A Daily Peak Load Forecasting System Using a Chaotic Time Series[J].IEEE,1996,(10).
[6]梁強(qiáng),范英,魏一鳴.基于小波分析的石油價格長期趨勢預(yù)測方法及其實(shí)證研究[J].中國管理科學(xué),2005,13(1).
[7]Huang,N.E.,Z.Shen,S.R.Long,W.L.Wu.,H.H.Shih,et al.The Empirical Mode Decomposition and Hilbert Spectrum for Nonlinear and Nonstationary Time Series Analysis[J].Proc.R.Soc.,1998,A454.
[8]徐金明.MATLAB實(shí)用教程[M].北京:清華大學(xué)出版社,2005.
[9]王翼,王歆明.Matlab在動態(tài)經(jīng)濟(jì)學(xué)中的應(yīng)用[M].北京:機(jī)械工業(yè)出版社,2006.
F830.91
A
1002-6487(2011)10-0059-03
國家自然基金重點(diǎn)項(xiàng)目(70932003);國家自然科學(xué)基金資助項(xiàng)目(70671053,70701016,10726072,70901037);國家社會科學(xué)基金項(xiàng)目(07CJL014);教育部科技創(chuàng)新工程重大項(xiàng)目培育資金項(xiàng)目(708044);南京大學(xué)人文社會科學(xué)項(xiàng)目資助
劉海飛(1980-),男,安徽阜陽人,博士,副教授,研究方向:金融工程、計(jì)算金融、行為金融。
(責(zé)任編輯/亦 民)