王云潤(rùn),喬高秀
(西南交通大學(xué) 數(shù)學(xué)學(xué)院,成都 611756)
金融資產(chǎn)的波動(dòng)率是衡量市場(chǎng)風(fēng)險(xiǎn)的重要指標(biāo),在資產(chǎn)的定價(jià)和分配、風(fēng)險(xiǎn)管理和貨幣政策制定方面都起著重要作用。因此,對(duì)波動(dòng)率的預(yù)測(cè)在金融計(jì)量學(xué)研究中受到了極大關(guān)注。Bollerslev[1]提出了廣義自回歸條件異方差(GARCH)模型,該模型能捕捉到波動(dòng)率聚集效應(yīng)等,但其估計(jì)大多基于日數(shù)據(jù)。隨著對(duì)日內(nèi)高頻數(shù)據(jù)的可獲取,Andersen 等[2]提出將已實(shí)現(xiàn)波動(dòng)作為對(duì)高頻波動(dòng)率的度量,以便更好地觀測(cè)和評(píng)估波動(dòng)率。為了刻畫已實(shí)現(xiàn)波動(dòng)的長(zhǎng)記憶性,Corsi[3]引入異質(zhì)性自回歸(HAR)模型,該模型由于結(jié)構(gòu)簡(jiǎn)潔、估算容易在研究界被廣泛使用。Byun 等[4]將風(fēng)險(xiǎn)中性偏度直接作為解釋變量加入HAR 模型,發(fā)現(xiàn)風(fēng)險(xiǎn)中性偏度包含已實(shí)現(xiàn)波動(dòng)和隱含波動(dòng)率中沒有包含的信息,這些信息有助于波動(dòng)率預(yù)測(cè)。其中,隱含波動(dòng)率是由期權(quán)的市場(chǎng)價(jià)格倒推出的波動(dòng)率,反映了投資者對(duì)標(biāo)的資產(chǎn)未來波動(dòng)率的預(yù)期。Mei 等[5]將已實(shí)現(xiàn)偏度加入HAR 模型中,發(fā)現(xiàn)已實(shí)現(xiàn)偏度對(duì)未來的波動(dòng)率有明顯的負(fù)面影響。樣本外結(jié)果表明,已實(shí)現(xiàn)偏度有助于中長(zhǎng)期預(yù)測(cè),但無法提高短期預(yù)測(cè)的準(zhǔn)確性。鄭振龍等[6]在比較偏度和峰度對(duì)波動(dòng)率的影響時(shí),發(fā)現(xiàn)期權(quán)隱含偏度所包含的信息要多于基于歷史信息的已實(shí)現(xiàn)偏度,對(duì)波動(dòng)率的影響更顯著。
在金融預(yù)測(cè)領(lǐng)域,傳統(tǒng)研究假定經(jīng)濟(jì)系統(tǒng)是穩(wěn)定的。但是,受到政治、經(jīng)濟(jì)和環(huán)境等多方面因素的影響,金融市場(chǎng)數(shù)據(jù)可能因?yàn)橐恍O端事件引起結(jié)構(gòu)突變,使得時(shí)間序列的數(shù)據(jù)特征受到影響,從而導(dǎo)致參數(shù)不穩(wěn)定性和模型不確定性。在數(shù)據(jù)存在結(jié)構(gòu)突變時(shí),通常使用突變后的數(shù)據(jù)進(jìn)行預(yù)測(cè),而數(shù)據(jù)有限使得模型存在較高的不確定性。因此,金融預(yù)測(cè)研究的最大挑戰(zhàn)來自于考慮市場(chǎng)發(fā)生結(jié)構(gòu)突變時(shí)存在預(yù)測(cè)模型的不確定性和估計(jì)參數(shù)的不穩(wěn)定性。Pesaran 等[7]認(rèn)為這可能不會(huì)使均方預(yù)測(cè)誤差最小化,故在參數(shù)不確定性建模時(shí),Dangl 等[8]和Zhu 等[9]使用時(shí)變參數(shù)模型,允許參數(shù)隨時(shí)間變化;Wang 等[10]提出時(shí)間加權(quán)最小二乘回歸方法,通過為距離預(yù)測(cè)時(shí)間越近的樣本賦予越高的權(quán)重來解決參數(shù)不穩(wěn)定性。Zhang 等[11]繼Pesaran 等[7]和Pesaran 等[12]之后,使用窗口平均預(yù)測(cè)方法(AveW),將在不同估計(jì)窗口長(zhǎng)度上計(jì)算的同一模型進(jìn)行平均,通過與其他預(yù)測(cè)方法比較發(fā)現(xiàn),該方法能提高股票收益預(yù)測(cè)效果,在參數(shù)不穩(wěn)定和結(jié)構(gòu)突變情況下具有簡(jiǎn)單而可靠的特點(diǎn)。
盡管已有文獻(xiàn)考慮到將偏度引入HAR-RV 模型,但尚無研究系統(tǒng)地比較過不同偏度指標(biāo)所包含的信息差異和對(duì)波動(dòng)率的預(yù)測(cè)能力。本文中主要探討風(fēng)險(xiǎn)中性偏度,基于日內(nèi)高頻數(shù)據(jù)和日數(shù)據(jù)的不同偏度指標(biāo)對(duì)已實(shí)現(xiàn)波動(dòng)預(yù)測(cè)能力的信息差異,從這一新的角度對(duì)已有研究進(jìn)行補(bǔ)充。在預(yù)測(cè)方法上,首先基于單個(gè)機(jī)器學(xué)習(xí)方法[13]預(yù)測(cè)已實(shí)現(xiàn)波動(dòng)。考慮到市場(chǎng)結(jié)構(gòu)突變導(dǎo)致的模型不確定性和參數(shù)不穩(wěn)定性,且已有研究提出基于時(shí)間維度的改進(jìn)方法來提高收益率預(yù)測(cè)效果[10-11],因此將這一思想應(yīng)用到數(shù)據(jù)驅(qū)動(dòng)的機(jī)器學(xué)習(xí)算法中,充分考慮金融時(shí)間序列數(shù)據(jù)的時(shí)間維度特征,對(duì)距離預(yù)測(cè)點(diǎn)越近的樣本給予更多的關(guān)注,并與傳統(tǒng)的集成學(xué)習(xí)方法[14]相比較,從而提出具有更高預(yù)測(cè)精度的集成學(xué)習(xí)方法。
本文結(jié)構(gòu)安排如下:第2 節(jié)介紹各種偏度指標(biāo)和擴(kuò)展模型以及研究方法;第3 節(jié)為實(shí)證結(jié)果,包括相關(guān)性分析、參數(shù)估計(jì)結(jié)果、每個(gè)方法的預(yù)測(cè)結(jié)果等;第4 節(jié)為穩(wěn)健性檢驗(yàn),通過調(diào)整訓(xùn)練集長(zhǎng)度來驗(yàn)證方法是否具有穩(wěn)健性;第5 節(jié)為結(jié)論。
根據(jù)Andersen 等[2]的方法,通過將相應(yīng)的高頻日內(nèi)平方收益相加得出每日已實(shí)現(xiàn)波動(dòng),計(jì)算式如下:
其中:rt,i表示第t 天,第i 次交易的對(duì)數(shù)收益。
Andersen 等[15]證明了已實(shí)現(xiàn)波動(dòng)有以下極限結(jié)果:
其中:Δps=ps-ps-表示在s 時(shí)刻跳的大小。
根據(jù)Barndorff-Nielsen 等[16]的研究,將已實(shí)現(xiàn)波動(dòng)分解為已實(shí)現(xiàn)上半變差和已實(shí)現(xiàn)下半變差,定義如下:
并且證明了:
其中:I(*)表示示性函數(shù),易知已實(shí)現(xiàn)波動(dòng)RVt=。
使用4 種不同的方法來刻畫波動(dòng)率偏度:
1)參考鄭振龍等[6]的研究,利用m 個(gè)交易日的日對(duì)數(shù)收益率滾動(dòng)計(jì)算已實(shí)現(xiàn)偏度(RSt),計(jì)算式如下:
其中:rt為第t 天的日對(duì)數(shù)收益率;為m 個(gè)交易日的收益率均值,m 取值為22。
2)根據(jù)Chen 等[17]的研究,基于日收益率滾動(dòng)計(jì)算負(fù)偏度(NRSt)為:
其中:rt定義和m 的取值同上。
3)參考Amaya 等[18]的研究,基于日內(nèi)高頻收益計(jì)算已實(shí)現(xiàn)偏度為:
Barndorff-Nielsen 等[16]和Mathieu 等[19]的研究結(jié)果表明:
根據(jù)Feunou 等[20]提供的理論支持,可將已實(shí)現(xiàn)上半變差與已實(shí)現(xiàn)下半變差之差看作是上述已實(shí)現(xiàn)偏度(INTRSkewt)的一種度量,記為波動(dòng)率偏度(RSVt)。計(jì)算如下:
當(dāng)RSVt<0 時(shí),收益率分布是左偏的;當(dāng)RSVt>0時(shí),則分布是右偏的。
4)芝加哥期權(quán)交易所(CBOE)于2011 年推出風(fēng)險(xiǎn)中性偏度指數(shù),記為QSt,計(jì)算如下:
其中:Skt=,表示風(fēng)險(xiǎn)中性偏度;為S&P 500 對(duì)數(shù)收益;μ=,σ=分別是其在風(fēng)險(xiǎn)中性測(cè)度Q 下的期望和標(biāo)準(zhǔn)差,其具體計(jì)算方式參考文獻(xiàn)[21]。可以看出,RSt越小,左偏越明顯;而NRSt和QS 越大,左偏越明顯。
使用由Corsi[3]提出的HAR 模型研究已實(shí)現(xiàn)波動(dòng)的預(yù)測(cè)。由于該模型能很好地刻畫資產(chǎn)收益波動(dòng)率中的長(zhǎng)記憶特性,且模型僅包含代表日、周和月效應(yīng)的3 個(gè)變量,易于處理,因此該模型是已實(shí)現(xiàn)波動(dòng)預(yù)測(cè)最受歡迎的模型。本文中采用對(duì)數(shù)回歸,模型設(shè)定為:
為了比較以上幾種偏度指標(biāo)包含的信息對(duì)已實(shí)現(xiàn)波動(dòng)預(yù)測(cè)的差異性和準(zhǔn)確性,分別將上述4種偏度指標(biāo)加入HAR-RV 模型,設(shè)定如下:
1.3.1 支持向量回歸
傳統(tǒng)的線性回歸方法只要真實(shí)值與擬合值不相等就計(jì)算誤差,而在支持向量回歸[22]方法下,僅當(dāng)二者之差的絕對(duì)值大于某個(gè)正數(shù)ε 時(shí)才計(jì)算損失,相當(dāng)于以擬合值為中心,構(gòu)建了一個(gè)寬度為2ε 的間隔帶。若訓(xùn)練樣本落入間隔帶中,則認(rèn)為是預(yù)測(cè)正確。
支持向量回歸的求解表示為:
其中:C 為正則化常數(shù);lε為ε-不敏感損失函數(shù),表示為:
通過拉格朗日乘子法和對(duì)偶問題可以得到SVR 的解為:
若考慮到特征映射形式,則對(duì)應(yīng)的核函數(shù)SVR 解形式為:
其中κ(xi,xj)=φ(xi)Tφ(xj)為核函數(shù),φ(x)表示將x 映射后的特征向量。本文中選取的核函數(shù)為徑向基(RBF)核函數(shù),其定義為κ(x,z)=。采用五折交叉驗(yàn)證法和網(wǎng)格搜索法相結(jié)合來選取最優(yōu)參數(shù)組合[23]。
采用同模型(11)—(15)一致的輸入變量和輸出變量構(gòu)建SVR 模型。以模型(11)為例,具體形式如下:
其中:x·=[(ln(RVd,·),ln(RVw,·),ln(RVm,·)]T。
1.3.2 帶懲罰項(xiàng)的線性回歸
在普通最小二乘回歸基礎(chǔ)上,引入帶懲罰項(xiàng)的線性回歸來解決簡(jiǎn)單回歸分析可能產(chǎn)生的過擬合問題,即在最小化損失函數(shù)中加入懲罰函數(shù)φ(β),形式為:
根據(jù)φ(β)的不同,采用嶺回歸(ridge regression)和彈性網(wǎng)絡(luò)方法(elasticnet)[24],φ(β)形式分別表示為:
其中:λ 為正則化參數(shù),控制著模型的復(fù)雜度,λ 過大容易欠擬合,太小容易過擬合;α 為0~1 的正數(shù),控制著L1 和L2 范數(shù)的比重;當(dāng)α=1 時(shí),此時(shí)彈性網(wǎng)絡(luò)退化為套索回歸;當(dāng)α=0 時(shí),則退化為嶺回歸。由此可見彈性網(wǎng)絡(luò)結(jié)合了嶺回歸和套索回歸的共同特點(diǎn)。
1.3.3 集成學(xué)習(xí)
集成學(xué)習(xí)先通過已有的學(xué)習(xí)算法從訓(xùn)練集中訓(xùn)練得到個(gè)體學(xué)習(xí)器,再將若干個(gè)這樣的個(gè)體學(xué)習(xí)器通過某種方法結(jié)合,最終得到一個(gè)強(qiáng)學(xué)習(xí)器。根據(jù)個(gè)體學(xué)習(xí)器之間是否存在強(qiáng)依賴關(guān)系,分為串行生成的序列化方法和可同時(shí)生成的并行化方法,二者的代表方法分別是Boosting 和Bagging。
1)Adaboost 方法
本文中采用Boosting 族算法中最具代表性的Adaboost 方法[25],并在處理回歸問題時(shí)用平方誤差來衡量誤差率。在最后進(jìn)行個(gè)體學(xué)習(xí)器集成時(shí),用各個(gè)體學(xué)習(xí)器的預(yù)測(cè)結(jié)果乘以各自權(quán)重再求和作為最終結(jié)果。算法過程如下:
步驟1初始化訓(xùn)練數(shù)據(jù)的分布權(quán)重:D1=(w11,w12,…,w1i,…,w1m),w1i=,i=1,2,…,m;
步驟2使用某個(gè)學(xué)習(xí)算法訓(xùn)練具有權(quán)重D1的訓(xùn)練集,得到第1 個(gè)基本學(xué)習(xí)器;
步驟3計(jì)算基本學(xué)習(xí)器T1(x)在訓(xùn)練集上的預(yù)測(cè)誤差率e1:
Ⅰ)計(jì)算訓(xùn)練集上的最大誤差:E1=,i=1,2,…,m。
Ⅱ)采用平方誤差,計(jì)算每個(gè)樣本的相對(duì)誤差e1i=,i=1,2,…,m。
Ⅲ)計(jì)算回歸預(yù)測(cè)誤差率:e1=。
步驟4計(jì)算基本學(xué)習(xí)器T1(x)的投票權(quán)重α1,并更新第2 輪訓(xùn)練集的權(quán)重D2:
步驟5對(duì)第2 輪權(quán)重樣本再次訓(xùn)練得到第2個(gè)基本學(xué)習(xí)器,重復(fù)上述過程N(yùn) 次,得到N 個(gè)基本學(xué)習(xí)器T1(x),T2(x),…,TN(x)和相應(yīng)的權(quán)重α1,α2,…,αN,則:
其中:T(x)是所有αnTn(x)的中位數(shù)(n=1,2,…,N)。
Adaboost 方法的本質(zhì)是不改變訓(xùn)練數(shù)據(jù),改變訓(xùn)練數(shù)據(jù)權(quán)重分布,每一輪訓(xùn)練提高前一輪誤差大的樣本權(quán)重;最后加權(quán)平均得到預(yù)測(cè)值,誤差率越低的基本學(xué)習(xí)器權(quán)重越高。
2)Bagging 方法
Bagging 方法[26]是并行式集成學(xué)習(xí)方法中最著名的代表。采用自助采樣法,即從包含n 個(gè)樣本的數(shù)據(jù)集中隨機(jī)取出一個(gè)樣本放在采樣集中,再將該樣本放回?cái)?shù)據(jù)集,使之在下次采樣時(shí)仍有機(jī)會(huì)被選中,這樣隨機(jī)放回采樣m 次,然后重復(fù)N次該過程,即可得到N 個(gè)含有m 個(gè)訓(xùn)練樣本的采樣集;對(duì)每個(gè)采樣集訓(xùn)練得到一個(gè)基本學(xué)習(xí)器,對(duì)于分類問題用簡(jiǎn)單投票法,對(duì)于回歸問題用簡(jiǎn)單平均法。
3)窗口平均預(yù)測(cè)法
除上述2 種集成方法外,本文中采用窗口平均預(yù)測(cè)方法(AveW)[7,11]。該方法可以看作是固定取樣的Bagging。Bagging 集成預(yù)測(cè)方法在獲得采樣集時(shí),由于自助采樣法的隨機(jī)性,對(duì)于時(shí)間序列預(yù)測(cè)來說可能并不是最優(yōu)選擇。而AveW 方法在不同估計(jì)窗口上擬合相同模型,并對(duì)模型的預(yù)測(cè)結(jié)果求平均。即終止日期相同,根據(jù)起始日期的不同獲得若干個(gè)窗口長(zhǎng)度不同的訓(xùn)練集,在這些訓(xùn)練集上訓(xùn)練得到基本學(xué)習(xí)器,將這些基本學(xué)習(xí)器的預(yù)測(cè)結(jié)果簡(jiǎn)單平均作為最終結(jié)果。窗口平均預(yù)測(cè)法的優(yōu)勢(shì)是充分考慮數(shù)據(jù)在縱向時(shí)間維度上的特征,時(shí)間越近的樣本利用率越高,信息挖掘越充分。
以SVR 的窗口平均為例(記為 SVR +AveW),用數(shù)學(xué)語(yǔ)言描述為:將給定的訓(xùn)練集作為最長(zhǎng)的觀測(cè)窗口W=,其中m是訓(xùn)練集長(zhǎng)度,xt與2.3.1 部分提到的一致。首先,將W 分為N 個(gè)訓(xùn)練窗口:
其中:wi=wmin+,wmin為給定的最小的訓(xùn)練窗口。Wi由最小窗口逐步遞增到最大窗口。
然后,在每個(gè)Wi訓(xùn)練窗口上利用SVR 進(jìn)行擬合,得到N 個(gè)擬合結(jié)果,i=1,2,…,N。則SVR+AveW 預(yù)測(cè)結(jié)果為:
傳統(tǒng)的OLS 背后假定經(jīng)濟(jì)系統(tǒng)是穩(wěn)定的,Zhang 等[11]在預(yù)測(cè)股票收益率時(shí)考慮市場(chǎng)系統(tǒng)結(jié)構(gòu)發(fā)生突變時(shí)模型的不確定性和參數(shù)的不穩(wěn)定性,發(fā)現(xiàn)窗口平均預(yù)測(cè)方法能有效提高股票收益率的預(yù)測(cè)效果。與Zhang 等[11]的研究不同,本文中分別在線性O(shè)LS、帶懲罰項(xiàng)的線性回歸和非線性SVR 方法預(yù)測(cè)的基礎(chǔ)上采用窗口平均集成預(yù)測(cè)方法來研究已實(shí)現(xiàn)波動(dòng)預(yù)測(cè)。采用固定窗口大小的滾動(dòng)估計(jì),對(duì)于每個(gè)估計(jì)窗口,都用窗口平均預(yù)測(cè)法來向前一步預(yù)測(cè)已實(shí)現(xiàn)波動(dòng)。
數(shù)據(jù)選取標(biāo)準(zhǔn)普爾500 指數(shù)從2000-02-04 到2019-12-31 共4 983 個(gè)交易日數(shù)據(jù)。數(shù)據(jù)來自https://realized.oxford-man.ox.ac.uk/,風(fēng)險(xiǎn)中性偏度數(shù)據(jù)來源于芝加哥期權(quán)交易所網(wǎng)站。由于QS 的數(shù)值全部大于100,由式(10)可知,式中S 均小于0,因此QS 實(shí)際上刻畫的是左偏風(fēng)險(xiǎn)。由于左偏風(fēng)險(xiǎn)與市場(chǎng)崩盤風(fēng)險(xiǎn)更直接密切相關(guān),也為了與QS 保持一致,本文中對(duì)其余3 個(gè)偏度指標(biāo)進(jìn)行處理,提取RS 和RSV 中小于0 的部分并取絕對(duì)值,大于0 的部分賦值為0;對(duì)NRS 中小于0 的部分賦值為0,保留其大于0 的部分。RS-、RSV-和NRS+分別表示按上述處理之后的偏度;RS、RSV和NRS 分別表示未經(jīng)處理的偏度。
表1 給出了處理后的各個(gè)偏度指標(biāo)和已實(shí)現(xiàn)波動(dòng)自然對(duì)數(shù)的描述性統(tǒng)計(jì)結(jié)果。RS-和NRS+均為基于每日收益的偏度指標(biāo),可以看出,二者在數(shù)量級(jí)上相比于另外2 個(gè)指標(biāo)差別不是很大,差異主要由指標(biāo)本身計(jì)算公式引起,即由中心化調(diào)整和前面系數(shù)的調(diào)整引起,在數(shù)據(jù)特征上均呈現(xiàn)右偏厚尾;RSV-的量級(jí)由于基于已實(shí)現(xiàn)波動(dòng)數(shù)據(jù)本身的原因,仍然是右偏厚尾,而QS 則是右偏瘦尾。由JB統(tǒng)計(jì)量可知,所有指標(biāo)均不服從正態(tài)分布。
表1 各個(gè)變量的描述性統(tǒng)計(jì)結(jié)果
通過表2 得知,已實(shí)現(xiàn)波動(dòng)與4 個(gè)偏度指標(biāo)均存在一定相關(guān)性,但相關(guān)性方向不盡相同,證明偏度指標(biāo)所包含的信息也存在一定的差異。
表2 各個(gè)變量間的皮爾遜相關(guān)系數(shù)
表3 給出了式(11)—(15)的最小二乘估計(jì)結(jié)果,在進(jìn)一步放寬顯著性水平和有效位數(shù)的前提下(即可近似認(rèn)為在10%顯著性水平下RS-對(duì)已實(shí)現(xiàn)波動(dòng)有顯著影響),可以確定各個(gè)偏度指標(biāo)對(duì)已實(shí)現(xiàn)波動(dòng)預(yù)測(cè)確實(shí)有顯著性影響,但QS 的回歸系數(shù)與其他3 個(gè)偏度指標(biāo)的回歸系數(shù)方向不同,因此QS 對(duì)已實(shí)現(xiàn)波動(dòng)的影響與基于歷史數(shù)據(jù)的3個(gè)偏度指標(biāo)的影響不同,進(jìn)一步證實(shí)了各個(gè)偏度指標(biāo)包含著不同的信息。后續(xù)將考慮用不同方法來比較不同偏度指標(biāo)對(duì)已實(shí)現(xiàn)波動(dòng)的預(yù)測(cè)能力。
表3 普通最小二乘回歸(OLS)參數(shù)估計(jì)結(jié)果
本文研究中,重點(diǎn)關(guān)注不同方法對(duì)樣本外已實(shí)現(xiàn)波動(dòng)的預(yù)測(cè)效果。因此,將前70% (3 488個(gè))的數(shù)據(jù)(2000 年2 月4 日至2014 年1 月16日)作為樣本內(nèi)數(shù)據(jù),用于訓(xùn)練模型;將2014 年1月17 日至2019 年12 月31 日的1 495 個(gè)數(shù)據(jù)作為樣本外數(shù)據(jù),用于預(yù)測(cè)。采用以下2 個(gè)損失函數(shù)來評(píng)估模型的預(yù)測(cè)能力:
1)平均絕對(duì)誤差:
2)均方根誤差:
其中:T 表示樣本內(nèi)的觀測(cè)點(diǎn)個(gè)數(shù);N 是樣本外滾動(dòng)窗口的長(zhǎng)度;和RVT+i分別表示波動(dòng)率的預(yù)測(cè)值和真實(shí)值。
表4 給出了OLS、Ridge、ElasticNet 和SVR 估計(jì)方法的預(yù)測(cè)誤差。由于帶懲罰項(xiàng)的線性回歸沒有表現(xiàn)出比OLS 更好的預(yù)測(cè)效果,因此表4 中集成方法只給出在基于OLS 和SVR 的Adaboost、Bagging 以及窗口平均(AveW)的預(yù)測(cè)誤差。方法上,對(duì)相同偏度的不同方法預(yù)測(cè)中,可以看到SVR的預(yù)測(cè)誤差明顯低于ElasticNet、Ridge 和OLS,說明非線性的SVR 方法優(yōu)于本文所選取的3 種線性回歸方法;在基于OLS 和SVR 的集成方法中,窗口平均預(yù)測(cè)法均有明顯提升,其中基于SVR 的窗口平均預(yù)測(cè)效果最佳。比較不同偏度的預(yù)測(cè)能力時(shí),綜合比較各個(gè)方法得出:QS 對(duì)已實(shí)現(xiàn)波動(dòng)的預(yù)測(cè)能力最強(qiáng),基于日數(shù)據(jù)和日內(nèi)高頻數(shù)據(jù)的偏度指標(biāo)對(duì)已實(shí)現(xiàn)波動(dòng)預(yù)測(cè)沒有特別明顯的改善;僅將QS 加入HAR-RV 模型時(shí),模型性能才有提升,說明QS 包含已實(shí)現(xiàn)波動(dòng)中沒有的信息,并有利于預(yù)測(cè)。
表4 測(cè)試集長(zhǎng)度比例為30%時(shí)不同方法下各個(gè)偏度模型的預(yù)測(cè)誤差
采用MCS 檢驗(yàn)來進(jìn)一步驗(yàn)證上述結(jié)果。MCS檢驗(yàn)常用于評(píng)價(jià)不同模型的預(yù)測(cè)能力[27-28],根據(jù)Hansen 等[29]的研究,其檢驗(yàn)統(tǒng)計(jì)量為:
其中:模型i 與模型j 是來自模型集合M 任意2 個(gè)互異的模型;dij表示其損失差,表示模型i 與模型j 的平均損失;的自舉估計(jì)。MCS 檢驗(yàn)程序?yàn)槌跏荚O(shè)置中的每個(gè)模型分配P 值。對(duì)于給定的模型i,MCS 的P 值確定模型是否屬于MCS 的閾值置信水平,當(dāng)且僅當(dāng)≥α 時(shí)(i∈,α 為顯著性水平),越大的模型預(yù)測(cè)能力越強(qiáng)。
表5 給出了測(cè)試集長(zhǎng)度比例為30%時(shí)的MCS檢驗(yàn)結(jié)果。MCS 檢驗(yàn)的模型集合M 分為2 種情形:①相同方法之下,5 個(gè)不同HAR 模型預(yù)測(cè)誤差所組成的模型集合(見Panel A);②相同模型之下,10 種方法的預(yù)測(cè)誤差組成的模型集合(見Panel B)。由A 部分可以看出,在2 種誤差標(biāo)準(zhǔn)下,對(duì)于單個(gè)方法而言,除了基于OLS 的Bagging方法是HAR-RV 模型最優(yōu)外,其余9 種方法均為加入風(fēng)險(xiǎn)中性偏度(QS)的結(jié)果最優(yōu)。因此,將風(fēng)險(xiǎn)中性偏度(QS)加入到HAR-RV 模型能提高模型對(duì)已實(shí)現(xiàn)波動(dòng)的預(yù)測(cè)能力,而基于歷史信息的偏度對(duì)模型幾乎沒有提升作用;B 部分表示在2 種誤差標(biāo)準(zhǔn)下,對(duì)于不同的模型,其結(jié)果均為基于SVR 的窗口平均預(yù)測(cè)方法最優(yōu)??梢钥闯?,MCS檢驗(yàn)結(jié)果與上述表4 的預(yù)測(cè)結(jié)果一致。
表5 測(cè)試集長(zhǎng)度比例為30%時(shí)2 種情況下的MCS 檢驗(yàn)結(jié)果
上述結(jié)果基于測(cè)試集長(zhǎng)度占樣本總長(zhǎng)度的30%得到。為了驗(yàn)證其是否具有穩(wěn)健性,表6 給出了測(cè)試集長(zhǎng)度比例為50%時(shí)不同方法下各個(gè)偏度的預(yù)測(cè)誤差。以MAE 為衡量標(biāo)準(zhǔn)時(shí),不同方法的最小誤差均出現(xiàn)在QS;以RMSE 為衡量標(biāo)準(zhǔn)時(shí),QS 在OLS、Ridge、ElasticNet 這3 種方法下預(yù)測(cè)誤差小于NRS+,而其余7 種方法則是NRS+的預(yù)測(cè)結(jié)果略優(yōu)于QS。因此,綜合2 種標(biāo)準(zhǔn)可認(rèn)為QS 的結(jié)果略優(yōu)于NRS+。
表7 給出了MCS 檢驗(yàn)結(jié)果。由A 部分可以看出,以MAE 為衡量標(biāo)準(zhǔn)時(shí),除SVR+Bagging、SVR+AveW 外,其余8 種方法下,均為HAR-RVQS 模型明顯優(yōu)于HAR-RV-NRS+模型;而以RMSE 為衡量標(biāo)準(zhǔn)時(shí),同理可以得出,HAR-RVNRS+略優(yōu)于HAR-RV-QS,但綜合比較A 部分的2個(gè)誤差標(biāo)準(zhǔn)可知,HAR-RV-QS 模型表現(xiàn)優(yōu)越的情況居多,因此認(rèn)為當(dāng)測(cè)試集長(zhǎng)度比例為50%時(shí),QS 的結(jié)果要略優(yōu)于NRS+。由B 部分可以看出,在2 種誤差標(biāo)準(zhǔn)下的最佳方法仍為基于SVR 的窗口平均(SVR+AveW),MCS 檢驗(yàn)結(jié)果和表6 預(yù)測(cè)誤差結(jié)果一致。
表6 測(cè)試集長(zhǎng)度比例為50%時(shí)不同方法下各個(gè)偏度的預(yù)測(cè)誤差
表7 測(cè)試集長(zhǎng)度比例為50%時(shí)兩種情況下的MCS 檢驗(yàn)結(jié)果
續(xù)表(表7)
研究了風(fēng)險(xiǎn)中性偏度、基于日數(shù)據(jù)和日內(nèi)高頻數(shù)據(jù)的偏度指標(biāo)所包含的信息差異,通過機(jī)器學(xué)習(xí)方法比較不同偏度對(duì)已實(shí)現(xiàn)波動(dòng)的預(yù)測(cè)能力。經(jīng)實(shí)證發(fā)現(xiàn),隨著訓(xùn)練數(shù)據(jù)的增加,風(fēng)險(xiǎn)中性偏度的預(yù)測(cè)能力逐漸增強(qiáng),且優(yōu)于基于日數(shù)據(jù)和日內(nèi)高頻數(shù)據(jù)的偏度指標(biāo)。在預(yù)測(cè)方法上,非線性的支持向量回歸(SVR)優(yōu)于普通最小二乘回歸(OLS)、嶺回歸(Ridge)以及彈性網(wǎng)絡(luò)(Elastic-Net)。在對(duì)OLS 和SVR 進(jìn)行集成學(xué)習(xí)時(shí),窗口平均預(yù)測(cè)法能明顯改善模型的預(yù)測(cè)能力,基于SVR的窗口平均預(yù)測(cè)法的預(yù)測(cè)能力最強(qiáng)。本文的研究方法和結(jié)論對(duì)我國(guó)金融市場(chǎng)風(fēng)險(xiǎn)管理具有借鑒意義。