劉麗萍(貴州財經大學 數(shù)學與統(tǒng)計學院,貴州 貴陽 550025)
在大數(shù)據時代,隨著數(shù)據可獲得性的提高,金融數(shù)據的維度呈爆炸式增長。目前,國外已有不少學者在變量選擇方面對高維數(shù)據進行了研究[1-2],但國內對于如何估計高維資產協(xié)方差陣的研究并不多見,協(xié)方差陣在投資組合和風險管理中扮演著重要角色,如何估計高維金融數(shù)據的協(xié)方差陣已是統(tǒng)計領域中越來越重要的亟待解決的問題。近年來,已有很多學者對高維協(xié)方差陣的估計問題進行了研究;Fan等不僅提出了基于因子結構的協(xié)方差陣估計方法,還提出了基于主成分分析的高維協(xié)方差陣估計方法[3-4];Cai和Zhou、Cai和Liu提出了基于門限函數(shù)的稀疏協(xié)方差陣估計方法[5-6];Wu和Pourahmadi[7]、Li和Wang等[8]將喬列斯基分解法和非參數(shù)收縮法相結合,提出了基于喬列斯基分解的高維協(xié)方差陣估計方法;還有學者提出了高維數(shù)據的動態(tài)協(xié)方差陣估計方法。
上述方法都是在數(shù)據服從正態(tài)分布的假定下進行的。但是,金融數(shù)據大多是服從厚尾分布的,極端風險出現(xiàn)的次數(shù)要明顯多于正態(tài)分布,而考慮金融數(shù)據的厚尾特征,有助于發(fā)現(xiàn)市場的異常走向,防范和化解金融極端風險。在估計金融數(shù)據的協(xié)方差陣時,通常采用的懲罰最小二乘估計法不再適用,因其對誤差的分布非常敏感,尤其對于超高維變量而言,由于忽略厚尾分布而產生的噪聲大大影響了協(xié)方差陣的估計效果,進而會影響投資者的投資決策。
在厚尾分布的假定下,如何估計高維協(xié)方差陣的研究還非常少。Xue和Zou針對厚尾數(shù)據,提出了基于秩方法的高維協(xié)方差陣的估計方法[9],但是該方法的應用并不廣泛,因其是在變量之間具有自然順序的假定下進行的,針對其研究的不足,本文考慮將Fan、Li、Wang提出的RA-Lasso方法和喬列斯基分解法相結合,提出新的方法以估計高維厚尾金融數(shù)據的協(xié)方差陣(記為ΣRA-Lasso):首先,通過喬列斯基分解法將復雜的高維協(xié)方差陣估計方法轉化為一系列的回歸模型;然后,將基于懲罰Huber損失函數(shù)的穩(wěn)健Lasso方法(RA-Lasso)應用到這一系列的回歸模型中,并將一些回歸系數(shù)壓縮為0來精簡模型,以達到降維的目的。Fan、Li、Wang的研究指出:RA-Lasso方法能夠很好地估計高維厚尾數(shù)據的回歸模型[10]。因此,筆者將RA-Lasso方法應用到基于喬列斯基分解的回歸模型中,在解決維數(shù)詛咒問題的同時,很好地克服了金融數(shù)據的厚尾特征對協(xié)方差陣估計的影響,明顯提高了高維協(xié)方差陣的估計效率。
Wu等提出將喬列斯基分解方法應用到高維協(xié)方差陣的估計中,將繁瑣的協(xié)方差陣估計問題轉化為一系列回歸模型的估計問題。對于協(xié)方差陣Σ,其改進的喬列斯基分解形式如下:
TΣT′=D
(1)
(2)
式(2)也可以寫成如下形式:
εt=Tyt
(3)
根據式(1)~(3)得協(xié)方差陣Σ的估計值為:
(4)
根據Fan、Li、Wang的研究,本文將RA-Lasso方法應用于式(2)所代表的系列回歸模型中。在估計式(2)時,首先引入Huber損失函數(shù)[11],其形式為:
(5)
Huber損失函數(shù)是一種使用魯棒性回歸的損失函數(shù),相比均方誤差而言,它對異常值不敏感,對于小的yj值該損失函數(shù)是二次的,而對大的yj值該函數(shù)則是線性的。根據式(5)知,可將最小二乘回歸和最小絕對偏差回歸看成是Huber損失函數(shù)中α取值為0和的兩種極端情況;ια(yj)也被稱為近似穩(wěn)健的二次損失函數(shù),即RA損失函數(shù),其中α為調整參數(shù),是變化的,其取值直接影響到Huber損失函數(shù),而如何選取最優(yōu)的α值,將在后文詳細介紹。
Fan、Li、Wang研究指出:將RA損失函數(shù)和Lasso方法相結合得到的RA-Lasso方法,能夠解決維數(shù)詛咒問題,并很好估計高維數(shù)據的回歸模型。所以,可將RA-Lasso方法應用到同樣是高維回歸模型的式(2)中,得到基于RA-Lasso方法的φtj的估計值:
(6)
在式(6)的估計中涉及到兩個未知參數(shù)α和λ,調整參數(shù)α的選擇直接影響到Huber損失函數(shù),將采用交叉驗證法來選擇最優(yōu)的α。在Wang的研究中指出,懲罰參數(shù)λ依賴于樣本量n以及資產的維度p,Wang給出λ的取值近似為[12]:
(7)
在后文的研究中,均采用式(7)來計算λ值。
(8)
由式(7)進一步得到:
(9)
從而得到高維厚尾數(shù)據協(xié)方差陣的估計量ΣRA-Lasso:
(10)
在ΣRA-Lasso估計過程中,先引入喬列斯基分解法將復雜的協(xié)方差陣估計問題轉化為一系列的回歸模型;再在回歸模型的估計過程中引入RA-Lasso方法,該方法在解決了維數(shù)詛咒的同時,還考慮了由于數(shù)據的厚尾特征而引起的估計偏差問題,從而使高維協(xié)方差陣的估計更加有效。
為了驗證ΣRA-Lasso方法的有效性,筆者在模擬研究時采用本文提出的ΣRA-Lasso方法來估計模擬數(shù)據的協(xié)方差陣,并與其他協(xié)方差陣估計方法進行比較以說明其有效性。模擬數(shù)據可根據式(11)產生,這是因為本文提出的ΣRA-Lasso方法是將RA-Lasso法直接應用到協(xié)方差陣的喬列斯基分解回歸模型中的,其形如式(11)的回歸模型,即:
(11)
具體的模擬步驟如下:
步驟一:令φtj=1-0.3t-j(1≤j 步驟二:對于誤差εt分布,考慮兩種情況:一種是εt服從于均值為0、方差為2的正態(tài)分布;另一種情況是εt服從于自由度為3的t分布。根據εt所屬的分布,可以產生n個服從正態(tài)分布的殘差數(shù)據和n個服從t分布的厚尾數(shù)據。 步驟三:根據式(11)知y1=ε1,將產生的φtj和εt代入到式(11)中,得到兩組數(shù)據向量y,y=c(y1,y2,…,yn)′,其中一組為服從t分布的厚尾數(shù)據。 步驟四:重復上述步驟N次,便得到了樣本量為N、資產維度為n的數(shù)據,在本文的研究中取N=200、n=300、n=500。 由式(6)知,在采用ΣRA-Lasso方法估計高維數(shù)據的協(xié)方差陣時,調整參數(shù)α和λ的選擇至關重要。將樣本量n和資產維度p代入式(7)可得λ。對于參數(shù)α,通常采用K折交叉驗證法選擇最優(yōu)值。本文選取K=5,即采用5折交叉驗證法來選取最優(yōu)的參數(shù)α,即將數(shù)據集等分成5份,輪流將其中4份作為訓練數(shù)據,1份作為測試數(shù)據而進行試驗;每次試驗都會得出相應的正確率,將5次結果的正確率的平均值作為對算法精度的估計。 在本文的研究中,采用的交叉驗證的統(tǒng)計量為2-范數(shù)損失函數(shù),將其定義為: (12) 圖1 最優(yōu)調整參數(shù)α選擇圖 由圖1不難發(fā)現(xiàn),當數(shù)據的維度分別為300和500時,通過交叉驗證法選擇的最優(yōu)調整參數(shù)α的值分別為5.1和5.4。 為了驗證ΣRA-Lasso方法的估計效果,將其與Wu和Pourahmadi提出的協(xié)方差陣估計方法(ΣLasso)進行比較。ΣLasso方法與本文提出的ΣRA-Lasso方法的思想有些類似,都是在高維協(xié)方差陣的估計過程中引入了喬列斯基分解方法,只是ΣLasso方法在估計喬列斯基分解的回歸模型時,通過引入Lasso方法來壓縮回歸系數(shù),以解決維數(shù)詛咒問題,而沒有考慮到數(shù)據的厚尾特征。在比較ΣRA-Lasso和ΣLasso方法時,采用以下兩種類型的損失函數(shù)作為比較標準: MSE= (13) (14) 本文采用上證180指數(shù)成分股進行實證研究,數(shù)據來自于CSMAR數(shù)據庫,樣本區(qū)間的時間范圍為2011年1月4日至2014年9月30日。將交易缺失的數(shù)據剔除后所有股票共有交易的天數(shù)為906,根據上海證券市場的CSRC行業(yè)分類標準,可以將180只股票分成8個板塊,分別為:制造業(yè)、采掘業(yè)、金融保險業(yè)、交通運輸和倉庫業(yè)、房地產行業(yè)、信息技術業(yè)、電氣水的生產和供應業(yè)以及綜合業(yè)。由于數(shù)據的分布特征會影響到協(xié)方差陣的估計效果,所以對全樣本股票以及各個板塊的收益率數(shù)據的分布進行分析。對于樣本股票的收益率,本文采用的是對數(shù)收益率,即第i只股票在第t日的收益率為Ri,t=log(Pi,t)-log(Pi,(t-1))。股票收益率的正態(tài)性分析具體見表2。 表2 股票收益率的正態(tài)性分析表 注:用**表示在5%的水平下顯著。 從表2可以看出,無論是對于全樣本股票還是對于各個板塊的股票,其收益率的峰度明顯大于3,說明上證股票收益率數(shù)據具有明顯的尖峰厚尾的特征,并且JB檢驗在5%的顯著水平下均拒絕了正態(tài)分布的假定,進一步證實了上證180指數(shù)成分股的收益率并不服從正態(tài)分布。 1.投資組合的構建。在估計和預測出資產的協(xié)方差陣后,將其應用于投資組合。本文主要構建了兩種類型的投資組合,即最小方差投資組合和等比例風險投資組合。最小方差投資組合思想是通過尋找組合方差的最小值尋找最優(yōu)的組合權重向量,當資本市場不允許賣空時,該投資組合的權重滿足下式: s.t ∑w1t=1 (0≤wit≤1) (15) 其中wit(i=1,2,…,n)為第i個資產在t日的權重向量,Wt=(w1t,w2t,…,wnt)為第t日組合權重向量。根據Liu的研究[13],最小方差投資組合的權重最優(yōu)解為: (16) 其中1為全1向量。 等比例風險投資組合是由Maillard等提出的[14],即主要通過調整權重使每個資產在投資組合中的風險比例相等。當資本市場不允許賣空時,該組合權數(shù)滿足下式: s.t ∑w1t=1 (0≤wit≤1) (17) 2.各投資組合的收益和波動分析。將預測的160天的協(xié)方差陣ΣLasso和ΣRA-Lasso應用于投資組合時,為了比較二者的實際應用績效,根據筆者的研究,將組合收益、組合標準差以及夏普比率作為衡量指標。夏普比率是由Sharpe提出的,其有效衡量了每單位風險所獲得的收益。顯然,標準差越小收益越高,夏普比率越高的投資組合越受投資者的青睞。表3給出了預測的協(xié)方差陣在投資組合中的應用效果。 表3 不同投資組合的平均收益、組合波動、Sharpe比率表 根據表3知,無論選擇何種投資組合,較預測的協(xié)方差陣ΣLasso而言,由ΣRA-Lasso構造的投資組合的組合收益更高,組合波動更小,其夏普比率值也更高,從而說明了在收益一定的情況下,由預測的協(xié)方差陣ΣRA-Lasso構造的投資組合風險更小,或者說是在風險一定的情況下,由ΣRA-Lasso構造的投資組合的組合收益更高。 圖2中Lasso表示的是由ΣLasso構造組合的Sharpe比率值,RA-Lasso表示的是由ΣRA-Lasso構造組合的Sharpe比率值。據圖2易得,無論選擇何種投資組合,由ΣRA-Lasso所構造的投資組合的Sharpe比率值顯然要高于ΣLasso。 圖2 動態(tài)Sharpe比率變化示意圖 在大數(shù)據時代,隨著數(shù)據可獲得性的提高,金融數(shù)據的維度呈爆炸式的增長。如何估計高維金融數(shù)據的協(xié)方差陣已引起了學者們的廣泛關注,但以往的研究大都是在數(shù)據服從正態(tài)分布的假定下進行的,而金融數(shù)據大多是服從厚尾分布的,極端風險出現(xiàn)的次數(shù)明顯要多于正態(tài)分布。在估計高維金融數(shù)據的協(xié)方差陣時,考慮金融數(shù)據的厚尾特征,有助于發(fā)現(xiàn)市場異常走向,防范和化解金融極端風險。本文將RA-Lasso方法和喬列斯基分解法相結合,提出新的方法來估計高維厚尾金融數(shù)據的協(xié)方差陣(記為ΣRA-Lasso)。該方法首先通過喬列斯基分解法將復雜的高維協(xié)方差陣估計方法轉化為一系列的回歸模型;然后將基于懲罰Huber損失函數(shù)的穩(wěn)健的lasso方法(RA-Lasso)法應用到這一系列的回歸模型中,并將一些回歸系數(shù)壓縮為0以精簡模型,達到降維之目的。RA-Lasso方法能夠很好地估計高維厚尾數(shù)據的回歸模型,因此將RA-Lasso方法應用到基于喬列斯基分解的回歸模型中,在解決維數(shù)詛咒問題的同時,很好地克服了金融數(shù)據的厚尾特征對協(xié)方差陣估計的影響,明顯提高了高維協(xié)方差陣的估計效率。通過模擬和實證研究發(fā)現(xiàn),考慮了數(shù)據厚尾特征的ΣRA-Lasso方法明顯優(yōu)于其他協(xié)方差陣估計方法,并將其應用于投資組合時,投資者獲得了更高的收益。 [1] 馬學俊.GSIS超高維變量的選擇[J].統(tǒng)計與信息論壇,2015(8). [2] 張景肖,李向杰,郭海明.HD-SIS超高維數(shù)據穩(wěn)健變量篩選[J].統(tǒng)計與信息論壇,2016(4). [3] Fan J,Liao Y,Mincheva M.High Dimensional Covariance Matrix Estimation in Approximate Factor models[J].The Annals of Statistics,2011(6). [4] Fan J,Liao Y,Mincheva M.Large Covariance Estimation by Thresholding Principal Orthogonal Complements[J].Journal of the Royal Statistical Society,2013(4). [5] Cai T,Zhou H.Optimal Rates of Convergence for Sparse Covariance Matrix Estimation[J].The Annals of Statistics,2012(5). [6] Cai T,Liu W.Adaptive Thresholding for Sparse Covariance Matrix Estimation[J].Journal of the American Statistical Association,2011(106). [7] Wu W B,Pourahmadi M.Nonparametric Estimation of Large Covariance Matrices of Longitudinal Data[J].Journal of Biometrika,2003(4). [8] Li Y,Wang N,Hong M,Nancy D T,Joanne R,et al.Nonparametric Estimation of Correlation Functions Inlongitudinal and Spatial Data,with Application to Colon Carcinogenesis Experiments[J].The Annals of Statistics,2007(4). [9] Xue L,Zou H.Rank-Based Tapering Estimation of Bandable Correlation Matrices[J].Journal of Statistica Sinica,2014(1). [10] Fan J,Li Q,Wang Y.Robust Estimation of High-Dimensional Mean Regression[J].Journal of Statistics,2014(4). [11] Huber P J.Robust Estimation of a Location Parameter[J].The Annals of Mathematical Statistics,1964(35). [12] Wang L.The L1 Penalized LAD Estimator for High Dimensional Linear Regression[J].Journal of Multivariate Analysis,2013(9). [13] Liu Q.On Portfolio Optimization:How and When Do We Benefit from High-Frequency Data?[J].Journal of Applied Econometrics,2009(4). [14] Maillard S,Roncalli T,Teiletche J.On the Properties of Equally Weighted Risk Contributions Portfolios[J].Journal of Portfolio Management,2010(4).(二)調整參數(shù)α的選擇
(三)ΣRA-Lasso協(xié)方差陣估計方法與其他方法的比較
四、實證研究
(一)股票收益率數(shù)據的正態(tài)性檢驗
(二)預測的動態(tài)條件協(xié)方差陣在投資組合中的應用研究
五、結 論