王志堅,王斌會
(1.華南師范大學 經(jīng)濟與管理學院,廣州 510631;2.廣東財經(jīng)大學 統(tǒng)計與數(shù)學學院,廣州 510320;3.暨南大學 管理學院,廣州 510632)
金融時間序列數(shù)據(jù)在觀測過程中經(jīng)常會受到一些突發(fā)事件的影響,如金融海嘯或新監(jiān)管政策的頒布等,這些事件往往會導致異常點(也稱離群值)產(chǎn)生。雖然關于時間序列異常點分類的標準并不統(tǒng)一,但從現(xiàn)有的文獻看,加性異常點(AO)與革新異常點(IO)是最基本的分類形式。時間序列異常點往往攜帶重要的投資信息。因此,如何快速、有效地從金融時序中找到這些異常點并挖掘出其背后所隱含的投資信息,對于金融風險的研究不僅具有理論上的意義,而且具有較強的現(xiàn)實價值。
關于時間序列異常點檢測方法的研究,在早期,學者們多是基于時間序列線性模型尋找離群值[1-4]。近年來,學者們開始關注非線性時間序列模型的異常值檢測[5-8]。本文在參考文獻[9,10]的基礎上推導出了IO及AO型異常點穩(wěn)健聯(lián)合檢測法。并通過模擬和實證分析驗證了穩(wěn)健聯(lián)合檢測法的可行性和有效性并將其應用于金融時間序列數(shù)據(jù)異常值的檢測。該方法不僅對于金融風險的研究具有理論上的意義,而且對金融時間序列的穩(wěn)健建模具有一定的參考價值。
對于時序IO型異常點檢測原理文獻[9]有詳細的闡述,這里就不重復。由文獻[9]可知,對IO型異常點的檢測關鍵是要計算出檢驗統(tǒng)計量值,而λ取值由模IO型殘差aT及標準差σ決定。顯然,標準差σ是不穩(wěn)健的,單個極端值就能將其改變很大,從而極大影響了IO型異常值的檢測效力,因此有必要對σ進行穩(wěn)健改進。
而對于時序AO型異常點檢測原理文獻[10]有詳細的闡述,由文獻[10]可知,對AO型異常點的檢測關鍵是要計算出檢驗統(tǒng)計量值。顯然λ由τ、ω、σ AoATa決定。由前文分析可知,τ取決于時間序列結(jié)構(gòu),而ωAT由τ及含有異常點模型殘差ei所決定,但每個觀測值模型殘差ei只與觀測值自己本身有關,各個觀測值對彼此的殘差互不影響,因而λAo的取值主要由τ及σa決定。τ及σa須由樣本數(shù)據(jù)進行估計,而σa的估計與每個觀測值息息相關,當樣本數(shù)據(jù)存在異常點時,σa常被高估,甚至單個極端的異常點就能把σa變得面目全非,從而“淹沒”(masking)或“掩蓋”(swamping)現(xiàn)象發(fā)生,導致檢測失敗。因此為了準確計算檢驗統(tǒng)計量λAo,有必要對其進行穩(wěn)健改進,也即對σa作穩(wěn)健化變換。可見兩種檢測法的檢測統(tǒng)計量均由于含有標準差而導致檢驗統(tǒng)計量不穩(wěn)健。
另外,上文在介紹IO及AO型異常點檢測原理時,有一個隱含的假設就是異常點類型是已知的,所不知的是異常點所發(fā)生時刻T。但在大數(shù)據(jù)時代背景下,由于各種隨機因素的影響,使得實際的金融時間序列數(shù)據(jù)中通常含有多種類型異常點,即出現(xiàn)混合異常點現(xiàn)象,此時異常點類型和性質(zhì)事先無從得知,需要將其檢測出來。鑒于此,本文給出穩(wěn)健聯(lián)合檢測統(tǒng)計量。
首先,要對兩種異常點檢測統(tǒng)計量的標準差進行穩(wěn)健改進,標準差常用的穩(wěn)健估計量有以下幾個:
(1)縮尾標準差(WSD),表達式為:
縮尾標準差指的是縮尾數(shù)據(jù)的標準差。
(2)絕對離差均值(MAD),表達式為:
顯然其穩(wěn)健性體現(xiàn)在表達式中的中位數(shù)MED上。
(3)絕對離差中位數(shù)(MAD),表達式為:
顯然其穩(wěn)健性體現(xiàn)在表達式中的雙重中位數(shù)MED上。
(4)四分位數(shù)間距(IQR),表達為下:
其中,Q(0.75)和Q(0.25)分別是數(shù)據(jù)由小到大排序后的第三和第一分位數(shù)。其穩(wěn)健性體現(xiàn)在數(shù)據(jù)排序后異常點被排在序列的兩端,當異常點比例未達到總數(shù)據(jù)的25%時,異常點對IQR沒有干擾。
為避免異常點檢測過程中發(fā)生“淹沒”或“掩蓋”現(xiàn)象,經(jīng)反復試驗比較,本文選用絕對離差均值來作為標準差σ的穩(wěn)健尺度估計,即用去替代檢驗統(tǒng)計量和中的σ與σ,以達到抗異常值a目的,來提高檢測效力。原始IO型異常點檢測統(tǒng)計量經(jīng)改進后變?yōu)槿缦路€(wěn)健檢測統(tǒng)計量:
其中,表示穩(wěn)健的表示穩(wěn)健的σa。
其次,如在時刻T出現(xiàn)混合異常點現(xiàn)象,則只需先算出該時刻的穩(wěn)健IO型異常點檢測統(tǒng)計量及穩(wěn)健AO型異常點檢測統(tǒng)計量,再比較兩種穩(wěn)健檢測統(tǒng)計量絕對值大小并作出判斷:
具體檢查流程圖如圖1所示:
另外,Jonathan D Cryer和Kung-Sik Chan(2008)提出用殘差絕對均值乘以π作為標準差的穩(wěn)健估計,本文將該方法記為J-K法,并比較原始檢測法、J-K檢測法及本文提出的穩(wěn)健聯(lián)合檢測法的檢測效果。
下面通過模擬來比較本文提出的穩(wěn)健聯(lián)合檢測算法與傳統(tǒng)檢測法對異常點檢測效力,在此用ARMA(1,1)模型模擬產(chǎn)生100個隨機數(shù),其中自相關系數(shù)為0.5,移動平均系數(shù)為-0.8。而后在該序列中隨機抽取預先設定好的不同比例數(shù)據(jù),用來自隨機產(chǎn)生的均勻分布數(shù)據(jù)去替代之,作為ARMA(1,1)模型異常點。在此構(gòu)造以下四種情形的污染率:ε=2%,ε=6%,ε=10%,ε=20%。需要說明的是,之所以將污染率比例設為偶數(shù)百分比,是因為在序列中需要構(gòu)造IO與AO兩種類型異常點,而且它們各占一半,個數(shù)均為整數(shù)。先給出四種被污染序列的時序圖(如圖2),以期從直觀上了解被污染序列。
圖1 時間序列IO與AO異常值穩(wěn)健聯(lián)合檢測算法流程圖
圖2 四種不同污染率下的ARMA(1,1)時序圖
接下來,分別采用原始檢測法、J-K檢測法及穩(wěn)健聯(lián)合檢測法對以上不同污染率序列中的IO及AO型異常點進行檢測,根據(jù)圖1,用前面三種方法對以上四種污染率序列進行異常值檢測,檢測結(jié)果如表1及下頁表2所示:
表1 三種檢測法檢測到總的異常點個數(shù)對比表
從表1可以看出,當污染率為2%時,穩(wěn)健聯(lián)合檢測法與其他兩種檢測法一樣,準確率為100%,說明穩(wěn)健聯(lián)合檢測法具有可行性。而在后三種污染率情形下,本文提出的穩(wěn)健檢測法檢測效力均顯著高于其他檢測法,說明穩(wěn)健檢測法具有有效性。
表2 三種檢測法分別檢測到IO及AO異常點個數(shù)對比表
從表2可以看出,以真實異常點類型個數(shù)為參照,當污染率為2%時,三種檢測法均檢測到IO及AO各一個,檢測結(jié)果與真實個數(shù)一致。當污染率為6%時,原始檢測法檢測到3個IO異常點,2個AO異常點,而J-K檢測法與穩(wěn)健聯(lián)合檢測法均檢測到3個IO、3個AO??梢?,原始檢測法漏檢了一個AO,而后面兩種檢測結(jié)果與真實個數(shù)一致。當污染率為10%時,原始檢測法只檢測到1個IO異常點、0個AO異常點,而J-K檢測法與穩(wěn)健聯(lián)合檢測法均檢測到5個IO、5個AO??梢姡紮z測法漏檢了4個IO、5個AO,而后面兩種檢測結(jié)果與真實個數(shù)一致。當污染率為20%時,原始檢測法檢測到IO、AO均為0個,而J-K檢測法2個IO、1個AO,穩(wěn)健檢測法7個IO、7個AO。從總的檢測結(jié)果來看,隨著污染率的增加,三種檢測法正確率均在減少,而原始檢測法減少最厲害,特別是在高污染率情況下,顯然原始檢測法對異常點的檢測已顯得無能為力。其次是J-K檢測法,穩(wěn)健聯(lián)合檢測法正確率最高,雖有影響,但影響不大,可見穩(wěn)健聯(lián)合檢測法改進效果顯著。
為了驗證穩(wěn)健聯(lián)合檢測的效果,本文選取深圳證券交易所的一只股票——貴州茅臺,日期為2008年1月2日至2013年3月29日,共1267個樣本,數(shù)據(jù)來源于銳思金融數(shù)據(jù)庫(www.resset.cn)。選取貴州茅臺這只股票是基于以下考慮:2012年12月中央出臺了“八項規(guī)定”“六項禁令”及一系列限制公款消費的規(guī)定,在全國掀起了遏制公款消費的風暴,在這個背景下作為高端白酒中的“領頭羊”、堪稱“國酒”的茅臺酒首當其沖受到影響,茅臺股價及收益率理所當然離不開其銷售量的影響,因此,此時研究該股票收益率的異?,F(xiàn)象與本文的研究目標相吻合。
圖3為貴州茅臺收盤價及收益率圖。可以看出貴州茅臺的收盤價時序圖的波動幅度還是比較大,其中分別存在一個明顯的波谷及波峰;從收益率的時序圖來看,圖中有些值偏離主體數(shù)據(jù)較顯著;因此初步判定茅臺股票收益率數(shù)據(jù)存在異常值。
圖3 貴州茅臺收盤價圖(左)及收益率圖(右)
下面,按照穩(wěn)健聯(lián)合檢測流程圖對股票收益率異常點進行檢測。首先建立時序ARMA模型,在建立ARMA模型之前需要確定模型的階數(shù),在這里用理論擴展的自相關函數(shù)表(EACF)來確定模型階數(shù),如表3所示,可以看出表3建議收益率序列擬合的模型為ARMA(0,0)。
表3 收益率序列的EACF表
結(jié)合圖3,可以判斷導致這種現(xiàn)象的原因是收益率序列中有異常點存在,異常點干擾了序列的相關性。由于一般經(jīng)濟系統(tǒng)中在沒有季節(jié)周期因素情況下,其自回歸的階數(shù)一般不超過5,移動平均階數(shù)不超過2。為了擬合所需要的模型,下面對1至5的階數(shù)組合后再進行反復試驗,選取階數(shù)的標準是:先看系數(shù)的顯著性,再比較AIC的值,在這個標準下最后選擇了模型ARMA(1,1),估計結(jié)果如表4。
表4 序列{rt}的ARMA(1,1)模型參數(shù)估計結(jié)果
得到如下模型:
用該模型根據(jù)上文的檢測原理,對異常點進行檢測,表5為常規(guī)檢測法檢測到的異常點分布表。
表5 常規(guī)檢測法檢測到的異常點分布表
從表5可以看出,常規(guī)檢測法共檢測到9個異常點,其中AO型異常點4個、IO型異常點5個。表6為J-K檢測法檢測到的異常點分布表。
表6 J-K檢測法檢測到的異常點分布表
從表6可以看出,J-K檢測法共檢測到12個異常點,其中AO型異常點5個、IO型異常點7個。表7(見下頁)為穩(wěn)健聯(lián)合檢測法檢測到的異常點分布表。
從表7可以看出,穩(wěn)健聯(lián)合檢測法共檢測到28個異常點,其中AO型異常點6個、IO型異常點22個。在所有被檢測到的異常點中IO型居多,而且表中有2個年頭異常點相對比較集中,分別是2008年與2012年。究其原因,2008年是因為汶川地震及全球金融風暴;2012年是受中央限制“三公消費”政策影響。這是原因都導致了貴州茅臺這只股票的股價震蕩不定,容易產(chǎn)生異常點。據(jù)了解,“三公消費”幾乎占到茅臺銷售量的四成,中央“禁令”的出臺導致2013年1月至4月茅臺銷售量下降23.8%。比較原始檢測法、J-K檢測法及穩(wěn)健聯(lián)合檢測法對收益率異常點的檢測結(jié)果,發(fā)現(xiàn)凡是原始檢測法、J-K檢測法檢測到的異常點均被穩(wěn)健聯(lián)合檢測法檢測到,由此說明改進后檢測法的可行性;另外發(fā)現(xiàn)凡是被穩(wěn)健聯(lián)合檢測法檢測到而未被原始檢測法及J-K檢測法檢測到的異常點都是由于現(xiàn)實客觀原因所導致。
表7 穩(wěn)健聯(lián)合檢測法檢測到的異常點分布表
基于假設檢驗的IO、AO型異常點檢測法檢驗統(tǒng)計量對離群值是敏感的,導致檢驗統(tǒng)計量不穩(wěn)健。鑒于此,本文經(jīng)反復試驗比較,選用絕對離差均值作為標準差σ的穩(wěn)健尺度估計,構(gòu)建出IO、AO型異常點穩(wěn)健聯(lián)合檢測算法。
模擬和實證研究均表明本文提出的穩(wěn)健聯(lián)合檢測算法具有可行性和有效性,并且能更好地捕捉到我國金融市場的異常特點。該方法不僅對于金融風險的研究具有理論上的意義,而且對金融時間序列的穩(wěn)健建模具有一定的參考價值。