郭慶然
(1.中南財經(jīng)政法大學 信息管理學院,武漢 430060;2.河南科技學院 經(jīng)濟與管理學院,河南 新鄉(xiāng) 453003)
異常點檢測一直以來都是數(shù)據(jù)挖掘研究的重要問題之一[1],許多學者對異常點檢測提出了多種方法[2][3][4]。然而這些方法沒有考慮到股票這種特殊的金融時間序列的特性。股票數(shù)據(jù)收益率序列通常表現(xiàn)出尖峰厚尾、高階相關和波動的類聚性特征。
Engle(1982)提出的自回歸條件異方差模型(ARCH模型)[5]和Bollerslev(1986)基于ARCH模型提出的自回歸條件異方差模型(GARCH模型)[6]是目前描述高階序列相關最流行的方法,隨后ARCH模型和GARCH模型分別在不同的方向得到了擴展。為了滿足金融時間序列的尖峰厚尾特征,Bollerslev(1987)[7]提出了GARCH模型服從學生t分布。張世英、柯柯(2002)綜合歸納了由ARCH模型衍生出來的ARCH模型族[8]。
異常點是指嚴重偏離既定模型的數(shù)據(jù)點。根據(jù)金融時間序列異常點的性質和產(chǎn)生的原理,可以把異常點劃分為加性異常點(additive outliers)和革新異常點(innovation outliers)[9]。加性異常點又可分為加性水平異常點(ALO)和加性波動異常點(AVO)兩類,ALO只對GARCH模型的均值方程產(chǎn)生影響,而不對方差方程影響。AVO不但對GARCH模型的均值方程產(chǎn)生影響,對方差方程也產(chǎn)生影響。Pe?a(2001)研究發(fā)現(xiàn)股票時間序列中革新異常點是不重要的[10],因此,本文主要研究加性異常點的檢測。
近年來,文獻[11],[12]針對時間序列提出了一些異常點檢測方法,但這些方法都無法解決異常點的“遮蔽效應”(Zhang and King(2005))[13]。所謂“遮蔽效應”,是指在異常點檢測時,一個異常點的存在會阻止其它異常點的檢測。本文采取的方法是每檢測出一個異常點,立即對其修正,然后再進行下一個異常點的檢測,從而避免了“遮蔽效應”的影響。
Bellerslev(1986)提出的廣義自回歸條件異方差GARCH(1,1)模型[6]是描述股票收益率序列很好的一種方法。這種模型的形式為:
其中,μ是股票收益率條件均值,εt是隨機誤差項,是εt的條件方差;或者服從學生t分布。且,It-1表示在t期的已知信息集。為了保證條件方差恒為正,要求系數(shù)α1>0,β1>0。且α1+β1<1確保模型是平穩(wěn)的。
加性水平異常點(ALO)可能是由市場結構改變引起的,ALO只對GARCH(1,1)模型的條件均值方差有影響,而對條件方差方程沒有影響。這樣的異常點利用GARCH(1,1)模型可以表示為:
其中,εt和以前相同,ωAO表示加性水平異常點的影響程度。IT(t)=1,如果t∈T,否則為0。條件方差和方程(1)仍然相同,這種形式的異常點僅僅影響均值序列。
加性波動異常點(AVO)不但對GARCH(1,1)模型的條件均值方差有影響,而且對條件方差方程也有影響。這樣的異常點利用GARCH(1,1)模型可以表示為:
通過方程(1)的GARCH模型,估計均值方程的殘差項X=(X1,...,Xn),殘差表示股票數(shù)據(jù)對其均值的偏離,屬于隨機波動。根據(jù)學者的研究經(jīng)驗,有三個閥值識別異常波動,分別為1%、5%和10%[14]。如果取1%的閾值通常會使異常點發(fā)生漏檢的現(xiàn)象,取10%往往會使本不是異常波動點也識別為異常波動。因此,通常學者采用5%為異常波動的閾值,本文也是采取5%作為異常波動閾值。
估計出殘差序列X=(X1,...,Xn)后,按以下步驟,檢測異常點并處理。
步驟1:對殘差序列X=(X1,...,Xn)進行一級haar小波變換,分別得到低頻系數(shù)A1和高頻系數(shù)D1。
步驟2:找出所有大于閾值的極大值點中的最大值dmax∈|D1|,并用數(shù)組P記錄dmax在D1的位置p。
步驟3:將dmax置為0,重構D',D'=(d1,...,di-1,0,di+1,...,dn/2)。
步驟4:將A1和D'做逆小波變換,得到新的殘差序列。
步驟5:重復步驟1到4,直到不存在大于閾值的極大值點。
步驟6:根據(jù)數(shù)組P中的每個p找到殘差X中的異常點。計算去掉X中位于2p和2p-1兩點后的樣本均值,
本文選取了個股蘇寧電器(002024)從2004年7月22日到2010年10月15日的每日收盤數(shù)據(jù)和近一年來的上證指數(shù)作為分析對象。
圖1顯示了蘇寧電器(002024)從2004年7月22日到2010年10月15日的每日收盤價格曲線。可以看到該股的振幅介于10~70元之間,存在非常明顯劇烈的波動。
圖1 一段時期內蘇寧電器每日收盤價
圖2 經(jīng)過GARCH模型處理得到的殘差數(shù)據(jù)
圖2是圖1中的收盤價格經(jīng)過GARCH模型處理后得到的殘差數(shù)據(jù)。前文可知,殘差數(shù)據(jù)反映的是股票價格對其均值的偏離。對照圖1和圖2,可以發(fā)現(xiàn)收盤價格的每一次大的波動都對應著殘差信號的一個峰值。
圖3 1級haar小波變換后得到的高頻系數(shù)
圖4 近一年內的上證指數(shù)
對殘差數(shù)據(jù)進行一級haar小波變換,得到如圖3的高頻系數(shù)。按上節(jié)步驟2找出所有大于閾值的極大值點的位 置P=(337,103,149,250,400,523,334,218,353,219)。再按照步驟6找出殘差X中的異常點,分別是(677,210,301,504,803,1049,672,440,710,442)。注意到,異常點(440,442)幾乎相鄰,正是由于本文采用了小波分解找出異常點后立即修正的方法,很好的解決了“遮蔽效應”,同時檢測出這兩個異常點。如果采取傳統(tǒng)方法,直接對殘差數(shù)據(jù)進行異常點檢測,則無法檢測出異常點(442)。
這些異常點說明了股票價格相對于均值的巨大波動,下面具體看一看異常點對應的日期所發(fā)生的事件。蘇寧電器分別在2008年9月26日(677)、2005年6月3日(210)、2005年10月17日(301)、2009年4月10日(803)、2010年4月16日(1049)除權,股價跌幅最低為31%。2008年1月9日(504),蘇寧電器在停牌1年3個月后復牌,復牌當日不限漲幅,股價由44元漲至68.55元,漲幅超過50%。2008年9月19日(672),股票實行單邊征收印花稅,因此重大利好消息,蘇寧電器轉跌為漲,當日接近漲停。其他3個交易日雖然沒有重大事件或消息,但是交易日近兩天的波動接近20%,屬于股票交易異常波動。
圖5 1級haar小波變換后得到的高頻系數(shù)
圖4顯示了2009年11月9日到2010年11月18日的上證指數(shù)曲線。可以看到這段時間內上證指數(shù)的振幅介于2300點和3400點之間,有一些較大的波動。同樣,找出所有大于閾值的極大值點的位置P=(63,122,5)及其在殘差X中對應的異常點(130,248,14),如圖5所示。2010月5月18日(130)的前一個交易日受加息傳聞及美國股市暴跌的影響,上證指數(shù)下跌5.07%,后證實消息為假,上證指數(shù)微漲。2010月11月15日(248)的前一個交易日即2010月11月12日傳出上調印花稅的消息導致上證指數(shù)下跌5.26%,后被證實為假消息,故15日上證指數(shù)微漲1.07%。2009年11月26日(14)無重要事件發(fā)生,屬于股票市場正常調整。
通過以上實驗可以看到,大部分異常點都對應著重大事件和消息,其余則對應著相對較大的波動,證明了本文采用的方法能夠準確有效地檢測異常點,并避免了“遮蔽效應”對異常點檢測的影響,取得了良好的效果。
本文首先使用GARCH(1,1)模型對股票數(shù)據(jù)收益率進行殘差估計。殘差數(shù)據(jù)反映了股票市場走勢對均值的偏離,但直接對其進行異常點檢測,則無法避免“遮蔽效應”。本文通過對殘差數(shù)據(jù)進行haar小波變換得到高頻系數(shù)進行異常點檢測,能夠準確地檢測異常點,且很好地克服了“遮蔽效應”。最后分析證明了我們的方法效果良好,具有很好的理論和應用價值。
[1]王宏鼎,童云海,譚少華,唐世渭,楊冬青.異常點挖掘研究進展[J].智能系統(tǒng)學報,2006.
[2]陶運信,皮德常.屏蔽輸入?yún)?shù)敏感的異常點檢測新方法[J].計算機科學,2008.
[3]劉曉艷,王麗珍,楊志強,陳紅梅.基于數(shù)學形態(tài)學的模糊異常點檢測[J].計算機研究與發(fā)展,2009,46.
[4]陶運信,皮德常.基于鄰域和密度的異常點檢測算法[J].吉林大學學報,2008.
[5]R.Engle.Autoregressive Conditional Heteroskedasticity with Esti?mates of the Variance of U.K.Inflation[J].Econometrica,1982,50(4).
[6]T.Bollerslev.Generalized Autoregressive Conditional Heteroskedastic?ity[J].Journal of Economics,1986,31(3).
[7]R.F.Engle,D.Lilien,R.P.Robins.Estimating Time Varying Risk Premia in the Term Structure:The ARCH-M Model[J].Econometrica,1987,55(2).
[8]張世英,柯柯.ARCH模型體系,系統(tǒng)工程學報,2002,(3).
[9]Aurea Granéa,Helena Veiga.Wavelet Based Detection of Outliers in Financial time Series[J].Computational Statistics and Data Analysis,2010,54(11).
[10]D.Pena,F.Prieto.Multivariate Outlierdetection and Robust Covari?ance Matrix Estimation[J].Technometrics,2001,43(3).
[11]傅強,彭選華,毛一波.金融時間序列變點探測的小波模極大值線方法[J].重慶大學學報(自然科學版)2007.
[12]周大鐲,劉月芬,馬文秀.時間序列異常檢測[J].計算機工程與應用,2008.
[13]X.Zhang,M.King.Influence in Generalized Autoregressive Condition?al Heteroscedasticity Processes[J].Journal of Business&Economic Statistics,2005,118~129.
[14]高鐵梅.計量經(jīng)濟學建模與教程第二版[M].北京:清華大學出版社,2009.