包 悅 妍
(南京審計(jì)大學(xué) 統(tǒng)計(jì)與數(shù)據(jù)科學(xué)學(xué)院,南京 211815)
協(xié)方差矩陣建模在風(fēng)險(xiǎn)管理、投資組合管理和資產(chǎn)定價(jià)方面有著重要的應(yīng)用。同時(shí),馬科維茨[1]投資組合理論的提出進(jìn)一步推動(dòng)了協(xié)方差矩陣的一系列研究。新時(shí)代下大量數(shù)據(jù)帶來(lái)了更多新的挑戰(zhàn),比如維數(shù)問(wèn)題導(dǎo)致的估計(jì)的一致性、預(yù)測(cè)的精度等。目前,使用高頻日內(nèi)數(shù)據(jù)獲得更可靠的低頻收益率協(xié)方差矩陣是較為主流的方法。
Merton[2]最早提出基于日內(nèi)收益平方和估計(jì)波動(dòng)率的方法——已實(shí)現(xiàn)方差(Realized Variance,RV)。隨后“已實(shí)現(xiàn)”方法也被運(yùn)用到協(xié)方差估計(jì)上,得到了已實(shí)現(xiàn)協(xié)方差;Dong等[3]基于HAR思想和Engle(2002)的動(dòng)態(tài)條件相關(guān)系數(shù)模型(Dynamic Conditional Correlation,DCC)方法,構(gòu)造了HAR-DRD波動(dòng)率矩陣預(yù)測(cè)模型;Callot等[4]提出VAR-LASSO模型,他們對(duì)波動(dòng)率矩陣做了對(duì)數(shù)化處理,然后使用向量自回歸模型建模,結(jié)合LASSO方法對(duì)系數(shù)矩陣進(jìn)行降維,估計(jì)出具有稀疏特性的系數(shù)矩陣;Bollerslev等[5]在已實(shí)現(xiàn)協(xié)方差矩陣的基礎(chǔ)上,將其分解成3部分:正部、負(fù)部和混合已實(shí)現(xiàn)半?yún)f(xié)方差矩陣,結(jié)果表明半?yún)f(xié)方差方法對(duì)經(jīng)濟(jì)信息反應(yīng)更敏銳,有效提升了投資組合波動(dòng)率的預(yù)測(cè)精度。深度學(xué)習(xí)因?yàn)槠淠芴幚砀喾N類的信息被廣泛應(yīng)用于波動(dòng)率的預(yù)測(cè)上,如長(zhǎng)短記憶神經(jīng)網(wǎng)絡(luò)模型(LSTM)、循環(huán)神經(jīng)網(wǎng)絡(luò)模型(RNN)、卷積神經(jīng)網(wǎng)絡(luò)(CNN)等方法。現(xiàn)有的研究一般將深度學(xué)習(xí)用來(lái)預(yù)測(cè)股票指數(shù)的波動(dòng)率,如Zhou等[6]使用CSI300和百度每日28個(gè)搜索關(guān)鍵詞作為L(zhǎng)STM模型的輸入來(lái)預(yù)測(cè)指數(shù)波動(dòng)率。另外,還有一些學(xué)者嘗試將深度學(xué)習(xí)方法和傳統(tǒng)時(shí)間序列方法結(jié)合來(lái)預(yù)測(cè)波動(dòng)率,如Psaradellis等[7]提出一種將異質(zhì)自回歸模型(HAR)[8]和遺傳算法支持向量機(jī)模型(GASVR)相結(jié)合的方法(HAR-GASVR)對(duì)波動(dòng)率進(jìn)行預(yù)測(cè)。許多研究表明深度學(xué)習(xí)模型在波動(dòng)率預(yù)測(cè)與應(yīng)用方面有著優(yōu)秀的表現(xiàn),但僅限于一維情況,對(duì)于預(yù)測(cè)多維協(xié)方差矩陣方面的研究幾乎沒(méi)有,深度學(xué)習(xí)模型的運(yùn)行過(guò)程是個(gè)“黑匣子”,模型的解釋度差。與深度學(xué)習(xí)模型相反,時(shí)間序列模型雖然對(duì)高維數(shù)據(jù)的處理能力差,但它能夠?qū)Σ▌?dòng)率特有的性質(zhì),如長(zhǎng)期記憶性、聚集性、杠桿性進(jìn)行刻畫(huà),因此模型的可解釋性強(qiáng)。
針對(duì)以上問(wèn)題,提出了基于LSTM模型、DRD分解、半?yún)f(xié)方差思想和HAR模型的協(xié)方差矩陣預(yù)測(cè)模型(LSTM-SDRD-HAR)。半?yún)f(xié)方差方法和HAR模型可以反映協(xié)方差矩陣存在的長(zhǎng)期記憶性和杠桿性,讓模型更好理解,LSTM模型則可以提高預(yù)測(cè)精度,通過(guò)模型結(jié)合實(shí)現(xiàn)預(yù)測(cè)模型的強(qiáng)解釋性和高預(yù)測(cè)準(zhǔn)確度。本文先介紹了關(guān)于模型LSTM-SDRD-HAR的構(gòu)建原理,然后對(duì)其進(jìn)行統(tǒng)計(jì)評(píng)價(jià)和經(jīng)濟(jì)效益評(píng)價(jià),結(jié)果表明協(xié)方差矩陣預(yù)測(cè)模型LSTM-SDRD-HAR的預(yù)測(cè)精度高,在投資組合中表現(xiàn)優(yōu)秀。
Andersen等[9]于1998年提出了已實(shí)現(xiàn)波動(dòng)率的概念,使得波動(dòng)率變成“可觀測(cè)值”,就有了已實(shí)現(xiàn)協(xié)方差的定義:
其中,RCOVij,t是第i個(gè)資產(chǎn)與第j個(gè)資產(chǎn)在第t天的已實(shí)現(xiàn)協(xié)方差,ri,t,k/M為第i個(gè)資產(chǎn)第t天的第k個(gè)對(duì)數(shù)收益率,則n個(gè)資產(chǎn)的已實(shí)現(xiàn)協(xié)方差矩陣為
∑t=(RCOVij,t)n×n
Bollerslev等在2020年進(jìn)一步提出了已實(shí)現(xiàn)半?yún)f(xié)方差的概念。首先,定義函數(shù)p(x)≡max {x,0},n(x)≡min {x,0},然后將已實(shí)現(xiàn)協(xié)方差矩陣分成3個(gè)部分,分別是正部、負(fù)部和混合部,假設(shè)考慮n個(gè)資產(chǎn),定義分別如下:
HAR模型可用于描述波動(dòng)率的長(zhǎng)期記憶性,鑒于該模型結(jié)構(gòu)簡(jiǎn)單且預(yù)測(cè)效果好,被廣泛使用。Chiriac等[10]將HAR模型從一維情形推廣到高維情形,得到向量形式的HAR。他們對(duì)已實(shí)現(xiàn)協(xié)方差矩陣∑t進(jìn)行拉直向量化,由于∑t為對(duì)稱矩陣,可只將其下三角部分進(jìn)行向量化Ht=vech(∑t),則Ht為n*=n(n+1)/2維向量,向量形式HAR模型為
Ht=θ0+θ1Ht-1+θ2Ht-5|t-1+θ3Ht-22|t-1+εt
LSTM網(wǎng)絡(luò)是一種特殊的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN),它與RNN的區(qū)別在于中間狀態(tài)的更新方式不同,這讓LSTM能夠解決梯度消失和梯度爆炸問(wèn)題。不僅如此,在處理一些需要長(zhǎng)期記憶問(wèn)題,即當(dāng)研究的序列較長(zhǎng)時(shí),LSTM的表現(xiàn)優(yōu)于RNN。因此,LSTM模型十分適合用來(lái)預(yù)測(cè)波動(dòng)率,LSTM模型構(gòu)建如下:
ft=σ(Wf·[ht-1,xt]+bf)
it=σ(Wi·[ht-1,xt]+bi)
Ot=σ(WO·[ht-1,xt]+bO)
ht=Ot°tanh(Ct)。
LSTM-SDRD-HAR模型就是通過(guò)整合DRD分解、半?yún)f(xié)方差、LSTM模型和HAR模型來(lái)構(gòu)建的,具體實(shí)施步驟:
步驟2 對(duì)Rt作拉直向量化處理,由于Rt為對(duì)稱矩陣且主對(duì)角線恒為1,只需對(duì)其下三角矩陣進(jìn)行拉直向量化,令yt=vech(Rt),利用HAR模型對(duì)yt進(jìn)行建模,再返回至矩陣形式。
LSTM-SDRD-HAR模型通過(guò)LSTM模型和HAR模型刻畫(huà)數(shù)據(jù)的長(zhǎng)期記憶性,半?yún)f(xié)方差方法刻畫(huà)數(shù)據(jù)的杠桿性,讓模型更容易挖掘數(shù)據(jù)的特征,并且針對(duì)波動(dòng)規(guī)律不同的部分Dt和Rt分別建模,具體問(wèn)題具體分析,有利于找尋各自規(guī)律,提高模型的預(yù)測(cè)精度。
實(shí)證采用上證50成分股中10只股票的5 min交易數(shù)據(jù),這10只股票的選取方法是將成分股的股票代碼從小到大排序,取排在前10的股票。5 min高頻收益率數(shù)據(jù)來(lái)源于銳思數(shù)據(jù)庫(kù),時(shí)間跨度為2004-01-02—2019-12-31,將整個(gè)數(shù)據(jù)樣本分為樣本內(nèi)數(shù)據(jù)和樣本外數(shù)據(jù),樣本內(nèi)數(shù)據(jù)為2004-01-02—2016-02-05期間數(shù)據(jù),共2 850個(gè)交易日,樣本外數(shù)據(jù)為2016-02-06—2019-12-31期間數(shù)據(jù),共943個(gè)交易日。
根據(jù)10只股票的5 min高頻收益率計(jì)算已實(shí)現(xiàn)協(xié)方差矩陣。計(jì)算已實(shí)現(xiàn)協(xié)方差矩陣時(shí),若某只股票缺失數(shù)據(jù)很多,將會(huì)出現(xiàn)已實(shí)現(xiàn)協(xié)方差矩陣不正定的情況,會(huì)給估計(jì)和預(yù)測(cè)帶來(lái)較大誤差,所以對(duì)交易日進(jìn)行剔除處理,刪去數(shù)據(jù)缺失率達(dá)到25%的交易日,剔除后剩余3 793個(gè)交易日。對(duì)于數(shù)據(jù)缺失量少于25%的交易日內(nèi)數(shù)據(jù),進(jìn)行缺失值填補(bǔ),填補(bǔ)規(guī)則為采用上一個(gè)時(shí)間段的收盤價(jià)價(jià)格,作為該時(shí)間段的收盤價(jià)格,計(jì)算出該5 min收益率。
表1展示了分解后10只股票已實(shí)現(xiàn)波動(dòng)率Dt的均值與標(biāo)準(zhǔn)差,還有相關(guān)系數(shù)矩陣Rt的平均水平。從表1可知:10只股票的已實(shí)現(xiàn)波動(dòng)率均值在0.02附近,且不同股票的已實(shí)現(xiàn)波動(dòng)率相對(duì)差異較大,體現(xiàn)了已實(shí)現(xiàn)波動(dòng)率的相對(duì)獨(dú)立特性。此外,這10只股票對(duì)應(yīng)的已實(shí)現(xiàn)波動(dòng)率標(biāo)準(zhǔn)差相近,一定程度上反應(yīng)了10只股票的流動(dòng)性和上證50市場(chǎng)的特性,即當(dāng)市場(chǎng)報(bào)價(jià)集中在一個(gè)共同價(jià)格水平附近,市場(chǎng)的買方和賣方都愿意在當(dāng)前價(jià)格附近,以較小的價(jià)差執(zhí)行股票交易,波動(dòng)率會(huì)較低且保持穩(wěn)定。流動(dòng)性強(qiáng)的市場(chǎng)會(huì)有更多的機(jī)遇,投資者通過(guò)合理制定投資策略就可以實(shí)現(xiàn)獲利。在研究相關(guān)關(guān)系時(shí),相關(guān)系數(shù)大于等于0.3,就可以認(rèn)為數(shù)據(jù)存在相關(guān)關(guān)系,從表1相關(guān)系數(shù)矩陣Rt的均值可以看出,同一市場(chǎng)內(nèi)一些股票之間的相關(guān)性很小,但其他股票之間有相關(guān)關(guān)系,研究清楚其中的關(guān)系,有利于對(duì)已實(shí)現(xiàn)協(xié)方差矩陣更準(zhǔn)確地預(yù)測(cè)并做出投資計(jì)劃。在此,研究上證50的這10只股票是有意義和價(jià)值的。
表1 描述性統(tǒng)計(jì)
經(jīng)過(guò)比較每一只股票的已實(shí)現(xiàn)波動(dòng)率RDi,t和已實(shí)現(xiàn)相關(guān)系數(shù)Rt(i,j)時(shí)間序列圖,發(fā)現(xiàn)已實(shí)現(xiàn)波動(dòng)率RDi,t和已實(shí)現(xiàn)相關(guān)系數(shù)Rt(i,j)的變化規(guī)律不同,限于篇幅,下文僅以浦發(fā)銀行為例。圖1描繪的是第一只股票浦發(fā)銀行的已實(shí)現(xiàn)波動(dòng)率RD1,t,大致在2008年和2016年,RD1,t波動(dòng)得比較劇烈,整體上波動(dòng)幅度不大,較為穩(wěn)定;圖2描繪的是浦發(fā)銀行與第二只股票東風(fēng)汽車的已實(shí)現(xiàn)相關(guān)系數(shù)Rt(1,2),其波動(dòng)幅度大,說(shuō)明已實(shí)現(xiàn)相關(guān)系數(shù)Rt(1,2)反映了一定時(shí)間內(nèi)市場(chǎng)情況的變化。比較圖1和圖2,可以直觀地看到:已實(shí)現(xiàn)波動(dòng)率Dt和相關(guān)系數(shù)Rt兩者的形態(tài)是不同的,已實(shí)現(xiàn)波動(dòng)率Dt的時(shí)間序列圖有明顯的波峰,變化值小且穩(wěn)定;而相關(guān)系數(shù)Rt波峰不明顯,波動(dòng)大且頻繁,因此有必要對(duì)Dt和Rt分別進(jìn)行研究。
圖1 已實(shí)現(xiàn)波動(dòng)率RD1,t時(shí)間序列圖
圖2 相關(guān)系數(shù)Rt(1,2)時(shí)間序列圖
選取均方根誤差,F(xiàn)RMSE和均方誤差FMAE這兩個(gè)指標(biāo)來(lái)評(píng)價(jià)已實(shí)現(xiàn)協(xié)方差矩陣預(yù)測(cè)模型的預(yù)測(cè)能力,指標(biāo)定義如下:
在實(shí)證研究中,n=10,T=943。
為了展示構(gòu)建的已實(shí)現(xiàn)協(xié)方差矩陣的預(yù)測(cè)效果,在此將其與HAR、EWMAQ、HAR-DRD、LASSO-VAR、LASSO-DRD、LSTM-DRD-HAR模型進(jìn)行比較。
表2展示了7個(gè)模型在樣本外的預(yù)測(cè)誤差,可以看到HAR模型存在的明顯問(wèn)題就是預(yù)測(cè)效果差。EWMAQ模型是在指數(shù)移動(dòng)平均模型(EWMA)的基礎(chǔ)上將估計(jì)誤差考慮進(jìn)模型的調(diào)參過(guò)程,結(jié)果顯示這個(gè)做法確實(shí)帶來(lái)了預(yù)測(cè)效果的提升,結(jié)果與HAR-DRD模型相差無(wú)幾,但EWMAQ在計(jì)算過(guò)程中會(huì)涉及四階矩,計(jì)算較為復(fù)雜且耗時(shí)久。與EWMAQ相比,剩下6個(gè)模型的計(jì)算過(guò)程簡(jiǎn)便且耗時(shí)短。表2結(jié)論主要如下:對(duì)比HAR和HAR-DRD、LASSO-VAR和LASSO-DRD模型發(fā)現(xiàn),經(jīng)過(guò)DRD分解再建模比不分解直接建模預(yù)測(cè)結(jié)果更準(zhǔn)確,這說(shuō)明事先進(jìn)行DRD分解是有必要的,它將不同結(jié)構(gòu)的組成部分分離開(kāi)來(lái),對(duì)不同部分建模找尋各自的規(guī)律可以提高準(zhǔn)確性,所以考慮的模型中大部分都采用了DRD分解;表中預(yù)測(cè)效果最好的是LSTM類模型,LSTM算法比LASSO算法的模型精度提升至少8%,LSTM-SDRD-HAR的樣本外預(yù)測(cè)結(jié)果僅次于LSTM-DRD-HAR。總體來(lái)說(shuō),DRD分解和LSTM模型能有效改進(jìn)模型預(yù)測(cè)精度,并且不會(huì)增加計(jì)算復(fù)雜度。
表2 已實(shí)現(xiàn)協(xié)方差矩陣樣本外預(yù)測(cè)結(jié)果
為了評(píng)估波動(dòng)率矩陣預(yù)測(cè)的經(jīng)濟(jì)價(jià)值,考慮馬科維茨有效前沿。假定投資者是風(fēng)險(xiǎn)厭惡型的,則在相同的年化預(yù)期收益率μp下,他們會(huì)選擇風(fēng)險(xiǎn)更小的資產(chǎn);同樣地,如果風(fēng)險(xiǎn)水平相同,投資者們就會(huì)選擇高收益資產(chǎn)。在這里,最優(yōu)投資組合就是下面這個(gè)問(wèn)題的解:
圖3中“Oracle”代表的是理想情況,在所有有效前沿的上方,很明顯它是最優(yōu)的。星標(biāo)的位置表示全局最小方差組合,從圖3可以看出:HAR模型的全局最小方差組合風(fēng)險(xiǎn)最大,收益僅高于EWMAQ模型;而EWMAQ模型的全局最小方差組合的收益最低。在經(jīng)濟(jì)評(píng)價(jià)中也有著和統(tǒng)計(jì)評(píng)價(jià)相一致的結(jié)果:LSTM類模型的全局最小方差組合風(fēng)險(xiǎn)最小,因?yàn)槟P蚅STM-DRD-HAR精準(zhǔn)的預(yù)測(cè),所以其有效前沿曲線與理想情況相近,而模型LSTM-SDRD-HAR因?yàn)閷?duì)重大事件敏感,所以能有效規(guī)避風(fēng)險(xiǎn),在同等的風(fēng)險(xiǎn)水平下獲得更高的收益;LSTM類優(yōu)于LASSO類模型,LASSO類又優(yōu)于HAR、EWMAQ和HAR-DRD類;考慮DRD分解的模型,它們的有效前沿曲線在沒(méi)有考慮DRD分解模型的上方,說(shuō)明DRD分解也有利于改善經(jīng)濟(jì)評(píng)價(jià)。綜上,LSTM算法和DRD分解不僅可以提高預(yù)測(cè)精度,在投資組合優(yōu)化方面也起到了積極作用,其中模型LSTM-SDRD-HAR的綜合評(píng)價(jià)最高。
圖3 馬科維茨有效前沿圖
近年來(lái),深度學(xué)習(xí)在預(yù)測(cè)低維時(shí)間序列時(shí)表現(xiàn)出很好的預(yù)測(cè)效果,如何利用深度學(xué)習(xí)預(yù)測(cè)優(yōu)勢(shì),結(jié)合傳統(tǒng)時(shí)間序列模型的特征優(yōu)勢(shì),從而提升協(xié)方差矩陣的預(yù)測(cè)能力,值得深入分析與研究。