韓立巖 蔡明生 尹力博
(北京航空航天大學(xué) 經(jīng)濟(jì)管理學(xué)院,北京100191)
在工程設(shè)計(jì)、工程統(tǒng)計(jì)和價(jià)值評(píng)估的參數(shù)統(tǒng)計(jì)推斷中,統(tǒng)計(jì)量分布的確定是一個(gè)關(guān)鍵環(huán)節(jié).當(dāng)一個(gè)統(tǒng)計(jì)量由眾多獨(dú)立而微小的因素所決定時(shí),中心極限定理保證了設(shè)定其服從正態(tài)分布的合理性.目前主流參數(shù)統(tǒng)計(jì)說到底還是基于正態(tài)假設(shè)的.但是,在工程與價(jià)值評(píng)估相關(guān)的統(tǒng)計(jì)分析中,眾多實(shí)例的數(shù)據(jù)分析結(jié)果不能給出統(tǒng)計(jì)顯著的支持正態(tài)假設(shè)的證據(jù).例如金融投資中收益率往往具有尖峰后尾或者偏斜特性,工程可靠性分析中的部件壽命也往往不滿足正態(tài)特性.對(duì)此,以往的研究重點(diǎn)集中在特殊分布的選擇上,由此往往導(dǎo)出十分復(fù)雜的分布形式,使得后續(xù)的統(tǒng)計(jì)分析難以展開.對(duì)此,本文提出一個(gè)新的思路:非正態(tài)分布的正態(tài)逼近,并在極大似然估計(jì)的期望最大化(EM,Expectation Maximization)算法中提出基于最大覆蓋寬度的定階原則.
在工程領(lǐng)域,任何隨機(jī)擾動(dòng)都是以正態(tài)分布為基礎(chǔ).在經(jīng)濟(jì)學(xué)領(lǐng)域,Bachelier在1909年開創(chuàng)性提出用正態(tài)分布研究股票價(jià)格之后,正態(tài)假設(shè)逐漸成為價(jià)值分析的正統(tǒng).馬克維茨最優(yōu)資產(chǎn)組合理論和Black-Sholes-Merton期權(quán)定價(jià)理論奠定了正態(tài)假設(shè)之下新古典金融學(xué)的基石.而在其后對(duì)有效市場(chǎng)理論的檢驗(yàn)過程中,否定正態(tài)假設(shè)的經(jīng)驗(yàn)證據(jù)卻主導(dǎo)了文獻(xiàn).人們發(fā)現(xiàn)當(dāng)信息不均勻地傳遞到市場(chǎng)時(shí)就會(huì)導(dǎo)致收益分布呈尖峰厚尾或者偏斜狀態(tài),而且在不同的時(shí)間頻率上差異顯著.在最新的文獻(xiàn)中,Kim等人以深入的實(shí)證研究拒絕了收益率的正態(tài)分布假設(shè),并分別采用連續(xù)型和離散型市場(chǎng)模型歸納了正態(tài)破缺的條件異方差效應(yīng)[1],金融統(tǒng)計(jì)的成果對(duì)于工程領(lǐng)域也具有啟發(fā)性.只要信息傳導(dǎo)出現(xiàn)集簇現(xiàn)象,正態(tài)性假定就很難成立.
系統(tǒng)極端事件發(fā)生的頻率往往大于正態(tài)分布蘊(yùn)含的概率,Levy穩(wěn)定分布對(duì)資產(chǎn)收益率分布的左右尾部進(jìn)行單獨(dú)建模,可以描述分布的不對(duì)稱性并對(duì)極端風(fēng)險(xiǎn)進(jìn)行比較.Longin的實(shí)證檢驗(yàn)發(fā)現(xiàn)歐美金融市場(chǎng)收益分布尾部可用指數(shù)大于2的穩(wěn)定分布描述[2].該分布適合描述具有胖尾特征的分布,特征指數(shù)越小尾部越胖,當(dāng)指數(shù)小于2時(shí)穩(wěn)定分布的方差不存在.穩(wěn)定分布一般用特征函數(shù)表示,含有4個(gè)參數(shù):特征指數(shù)(尾部形狀)、偏斜度(對(duì)稱性)、尺度參數(shù)和位置參數(shù).Nolan指出該特征函數(shù)在參數(shù)空間內(nèi)是連續(xù)的,且是最簡(jiǎn)單的表示形式,因而數(shù)值計(jì)算和統(tǒng)計(jì)推理都比較方便[3].然而,穩(wěn)定分布不存在有限方差卻與市場(chǎng)實(shí)際情況不符合.經(jīng)驗(yàn)分析表明,長(zhǎng)時(shí)間標(biāo)度的低頻金融數(shù)據(jù)經(jīng)驗(yàn)分布的方差一般是有限的.對(duì)此,Mantegna等提出截?cái)郘evy分布,具有有限方差,同時(shí)保留了良好的尖峰性質(zhì)[4].Koponen提出的平滑截?cái)?Levy分布[5]、Gupta和 Campanha提出的漸近截?cái)?Levy分布[6]、Matsushita和 Gleria等提出的指數(shù)阻尼Levy分布[7-8],可以更好滿足收益率長(zhǎng)期記憶性和波動(dòng)持續(xù)性的正反饋情形.雖然截?cái)郘evy分布可以較好地描述經(jīng)驗(yàn)收益分布特征,但其密度函數(shù)十分復(fù)雜,使其應(yīng)用受到限制.
證券市場(chǎng)的豐富數(shù)據(jù)為分布選擇提供了試驗(yàn)場(chǎng).陳啟歡認(rèn)為中國(guó)股票市場(chǎng)大體符合自由度為5~9的t分布[9].王新宇和宋學(xué)峰對(duì)中國(guó)滬深股市收益的統(tǒng)計(jì)分布特征和市場(chǎng)風(fēng)險(xiǎn)規(guī)律進(jìn)行了定量比較研究,分別采用穩(wěn)定分布、漸近Pareto分布和截?cái)郘evy分布擬合中國(guó)股票市場(chǎng)收益統(tǒng)計(jì)分布,實(shí)證研究發(fā)現(xiàn)中國(guó)股市收益分布的中間部分適合用穩(wěn)定分布描述,分布的尾部適合用尾部指數(shù)大于2的漸近Pareto分布描述[10].都國(guó)雄和寧宣熙根據(jù)上證綜指和深證成指在此前7年中不同時(shí)間標(biāo)度的高頻數(shù)據(jù),對(duì)收益的波動(dòng)特性進(jìn)行了實(shí)證分析,發(fā)現(xiàn)收益的概率分布不僅具有明顯的尖峰胖尾特征和標(biāo)度不變性,而且遵循漸近冪律特性,穩(wěn)定分布較好地描述了分布的中間區(qū)域,其特征指數(shù)表明價(jià)格波動(dòng)具有非線性分形特征[11].黃德龍和楊曉光利用scaled-t分布、logistic分布、指數(shù)冪分布和GARCH-M模型等對(duì)滬深股指收益數(shù)據(jù)分布進(jìn)行擬合,認(rèn)為scaled-t分布可以較好模擬股指收益分布[12].用t分布、對(duì)稱Levy分布等代替正態(tài)分布描述具有尖峰厚尾的統(tǒng)計(jì)量分布以及建模中的誤差項(xiàng)分布是目前比較好的選擇,但仍然是屬于經(jīng)驗(yàn)主導(dǎo)的選擇.
在工程計(jì)算和價(jià)值評(píng)估中由于不同信息的到達(dá)時(shí)間以及對(duì)統(tǒng)計(jì)量的影響程度不同,同分布的假設(shè)往往不滿足,人們需要異質(zhì)性的分布刻畫.混合分布模型就是一個(gè)自然的結(jié)果.混合模型通常由2個(gè)分布構(gòu)成,其中一個(gè)為正態(tài)分布,描述統(tǒng)計(jì)量的分布形式,另一個(gè)分布則描述干擾項(xiàng)的波動(dòng)情況,控制正態(tài)分布方差的變動(dòng).由于在不同時(shí)間長(zhǎng)度上信息的到達(dá)是不均勻的,因此在不同時(shí)刻,方差的分布很可能就不同,混合模型的形式也就不同.研究者探索了大量的混合模型,Press構(gòu)造的復(fù)合事件模型起到了引領(lǐng)作用[13].Praetz研究了正態(tài)分布方差服從Gamma-2分布的情況,他證明在這種情況下收益率服從 t分布[14].Blattberg與Gonedes研究了正態(tài)分布方差服從特征指數(shù)小于1的嚴(yán)格正的漸進(jìn)Pareto分布的情況,此時(shí)收益率服從對(duì)稱的漸進(jìn)Paretian分布,且特征指數(shù)小于2[15].由于Gamma-2分布與特征指數(shù)小于1的嚴(yán)格正的漸進(jìn)Pareto分布都是非對(duì)稱有偏分布,因此這2類模型都較好地刻畫了信息到達(dá)的不均勻特征,特別刻畫了外部沖擊所引起的統(tǒng)計(jì)量較大變動(dòng).
通過以上文獻(xiàn)分析可以看出,采取分析統(tǒng)計(jì)量形成機(jī)理從而確定對(duì)應(yīng)的統(tǒng)計(jì)分布,具有堅(jiān)實(shí)的理論基礎(chǔ),但是難以滿足良好的統(tǒng)計(jì)特性;使用現(xiàn)有函數(shù)擬合經(jīng)驗(yàn)數(shù)據(jù)的方法獲得統(tǒng)計(jì)分布,有較好的精確度,但是缺乏堅(jiān)實(shí)的理論依據(jù).在長(zhǎng)期探索之后,人們又開始關(guān)注經(jīng)典的由正態(tài)分布的線性組合所構(gòu)成的混合正態(tài)分布.
正態(tài)分布以其簡(jiǎn)潔、參數(shù)線性和清晰的統(tǒng)計(jì)理論依據(jù)而得到最為廣泛的認(rèn)可,任何一種偏離正態(tài)分布的具有非對(duì)稱、尖峰后尾性質(zhì)的分布都是依某種程度對(duì)于正態(tài)的扭曲.從標(biāo)準(zhǔn)函數(shù)空間逼近其他函數(shù)的思想出發(fā),能否選擇一個(gè)恰當(dāng)數(shù)量的正態(tài)分布的線性組合來逼近一個(gè)非正態(tài)分布,這可能是選擇其他非正態(tài)分布的最為簡(jiǎn)潔的替代.而有限混合正態(tài)分布自19世紀(jì)被提出后,在工程領(lǐng)域有著一定程度的應(yīng)用,但是缺乏統(tǒng)計(jì)理論支持.近年來混合正態(tài)分布的應(yīng)用有了新的進(jìn)展,趙希男和崔海波針對(duì)上證指數(shù)和深圳成分指數(shù)采用2個(gè)正態(tài)分布加權(quán)的混合辨識(shí)模型,運(yùn)用5階矩估計(jì)和均方誤差最小化迭代方法確定權(quán)重分配,并運(yùn)用柯爾莫哥洛夫優(yōu)度檢驗(yàn)判定二元混合辨識(shí)的統(tǒng)計(jì)效果[16].隨著計(jì)算機(jī)的出現(xiàn)和發(fā)展,對(duì)混合正態(tài)分布參數(shù)估計(jì)的研究緊密結(jié)合Dempster等人的最大期望(EM)算法,獲得了新的估計(jì)方法[17].熊明和謝民育給出了均值混合正態(tài)分布的估計(jì)方法[18].Caudill針對(duì)混合正態(tài)分布的受限回歸模型給出了部分自適應(yīng)估計(jì)[19].
考慮到有限混合正態(tài)分布的簡(jiǎn)潔性,借鑒泰勒級(jí)數(shù)和傅里葉級(jí)數(shù)的逼近思想,本文提出替代非正態(tài)分布選擇的新思路:選擇若干個(gè)正態(tài)分布的凸組合而形成的有限混合正態(tài)分布在極大似然估計(jì)意義下逼近所考慮的狀態(tài)分布.從統(tǒng)計(jì)上講,極大似然估計(jì)是概率意義下的最優(yōu)化選擇,這就從統(tǒng)計(jì)理論上支持了非正態(tài)分布的正態(tài)逼近.
下面從有限混合正態(tài)分布的概念開始,順序給出有限混合狀態(tài)分布及其參數(shù)的極大似然估計(jì)的EM算法.
假定X為一隨機(jī)變量,其概率密度為
則式(1)的分布密度的參數(shù)形式為
其中權(quán)重要保證密度函數(shù)的積分等于1.
給定總體,抽取樣本為n的簡(jiǎn)單隨機(jī)樣本,X1,X2,…,Xn,其樣本似然函數(shù)為
用極大似然法估計(jì)的參數(shù)為
EM算法是分E(期望)步和M(極大化)步兩個(gè)步驟的迭代運(yùn)算.
1)E步.給定參數(shù)向量初值:
則在初值條件下樣本 X1,X2,…,Xn中 Xi∈N(μ(0)j,σ2(0)j)的后驗(yàn)概率為
EM迭代中成分分布數(shù)目k的確定是關(guān)鍵環(huán)節(jié).對(duì)一個(gè)確定的k來講,EM迭代除了給出所估計(jì)的參數(shù)外,還給出相應(yīng)的對(duì)數(shù)似然函數(shù)值l().赤池準(zhǔn)則(AIC,Akaike Information Criterion)根據(jù)最大熵原理得出了極大似然函數(shù)與熵之間的關(guān)系.根據(jù)這個(gè)關(guān)系,在有限混合正態(tài)分布參數(shù)的極大似然估計(jì)中,確定k使AIC準(zhǔn)則AIC=-2l()+2N(k)最小,其中N(k)是所估計(jì)參數(shù)的數(shù)目.
但是考慮到極端情形的覆蓋程度,本文提出覆蓋性準(zhǔn)則:計(jì)算每一個(gè)混合正態(tài)分布的經(jīng)過標(biāo)準(zhǔn)差調(diào)整的最大均值與相應(yīng)權(quán)重的乘積減去經(jīng)過標(biāo)準(zhǔn)差調(diào)整的最小均值與相應(yīng)權(quán)重的乘積,稱之為“覆蓋寬度”,選取最大覆蓋寬度的混合正態(tài)分布作為原始分布的正態(tài)逼近.
下面選擇北美股市的綜合股指MSCI_NA從2006年2月到2011年1月的日度數(shù)據(jù),進(jìn)行收益率分布的正態(tài)逼近.MSCI全球指數(shù),是摩根士丹利資本國(guó)際公司(Morgan Stanley Capital International)所編制的覆蓋全球的使用廣泛的權(quán)威證券指數(shù).所選擇的時(shí)間段覆蓋了2008年全球金融危機(jī)的前后時(shí)間,具有代表性.
采用混合正態(tài)分布對(duì)于經(jīng)驗(yàn)分布做逼近.根據(jù)上面介紹的EM迭代算法,用Matlab實(shí)現(xiàn).正態(tài)逼近的支數(shù)(成分分布個(gè)數(shù))最大取到11.覆蓋寬度的結(jié)果如表1所示.覆蓋寬度在經(jīng)過權(quán)重調(diào)整前,最大覆蓋寬度的逼近支數(shù)為7,而經(jīng)過權(quán)重調(diào)整后的最大覆蓋寬度的逼近支數(shù)為5.因此最佳逼近的參數(shù)如表2所示.
表1 混合正態(tài)分布覆蓋寬度
表2 基于最大覆蓋寬度的正態(tài)逼近參數(shù)
圖1 5支混合正態(tài)分布逼近的分布密度
5支混合正態(tài)分布的分布密度如圖1所示.根據(jù)最小AIC準(zhǔn)則的逼近選擇為2支混合正態(tài)分布,5支混合正態(tài)分布的擬合效果優(yōu)于通常的2支效果.另外,在實(shí)驗(yàn)中與主要非正態(tài)分布的擬合相比,正態(tài)逼近方法具有估計(jì)時(shí)間短、方法統(tǒng)一并適用正態(tài)情形的理論框架的優(yōu)勢(shì).
針對(duì)涉及統(tǒng)計(jì)數(shù)據(jù)建模的工程與價(jià)值分析中復(fù)雜的分布選擇問題,結(jié)合混合正態(tài)模型的實(shí)踐,本文提出非正態(tài)分布的正態(tài)逼近的思路,并在EM算法中提出最大覆蓋寬度的定階原則.實(shí)證結(jié)果驗(yàn)證了方法的可行性.今后研究的重點(diǎn)應(yīng)放在分布逼近的穩(wěn)健性評(píng)價(jià)與控制準(zhǔn)則上,以滿足復(fù)雜情形對(duì)于估計(jì)有效性的要求.
References)
[1] Kim Y S,Rachev S T,Bianchi M L,et al.Financial market models with levy process and time-varying volatility[J].Journal of Banking & Finance,2008,32(7):1363-1378
[2] Longin F.The asymptotic distribution of extreme stock market returns[J].Journal of Business,1996,69(7):383-408
[3] Nolan J P.Stabledistributions:models for heavy-tailed data[M].Verlag:Birkhauser,2003
[4] Mantegna R N,Buldyrev S V,Goldberger A L,et al.Linguistic features of noncoding DNA sequences[J].Physical Review Letters,1994,73(23):3169-3172
[5] Koponen Ismo.Analytic approach to the problem of convergence of truncated Lévy flights towards the Gaussian stochastic process[J].Phys Rev E,1995,52:1197-1199
[6] Gupta H M,CampanhaJ R.The gradually truncated Lévy flight for systems with power-law distributions[J].Physica A:Statistical Mechanics and Its Applications,1999,268(1):231-239
[7] Matsushita R,Rathie P,Silva S D.Exponentially damped Lévy flights[J].Physica A:Statistical Mechanics and Its Applications,2003,326(3):544-555
[8] Gleria I,F(xiàn)igueiredo A,Matsushita R,et al.Exponentially damped Lévy flights,multiscaling and slow convergence in stock markets[J].Physica A:Statistical Mechanics and Its Applications,2004,342(1):200-206
[9]陳啟歡.中國(guó)股票市場(chǎng)收益率分布曲線的實(shí)證[J].數(shù)理統(tǒng)計(jì)與管理,2002,21(5):9-11 Chen Qihuan.The curve of stock market yield in China[J].Journal of Application of Statistics and Management,2002,21(5):9-11(in Chinese)
[10]王新宇,宋學(xué)峰.擬合中國(guó)股票市場(chǎng)收益的統(tǒng)計(jì)分布[J].系統(tǒng)工程理論與實(shí)踐,2006(12):40-46 Wang Xinyu,Song Xuefeng.A study on describing the statistical distribution of returns in Chinese stock markets[J].Systems Engineering-Theory & Practice,2006(12):40-46(in Chinese)
[11]都國(guó)雄,寧宣熙.我國(guó)股市收益概率分布的統(tǒng)計(jì)特性分析[J].中國(guó)管理科學(xué),2007,15(5):16-22 Du Guoxiong,Ning Xuanxi.Statistical properties of probability distributions of returns in Chinese stock markets[J].Chinese Journal of Management Science,15(5):16-22(in Chinese)
[12]黃德龍,楊曉光.中國(guó)證券市場(chǎng)股指收益分布的實(shí)證分析[J].管理科學(xué)學(xué)報(bào),2008,11(1):68-77 Huang Delong,Yang Xiaoguang.Empirical study on distributions of stock index returns in China’s securities market[J].Journal of Management Sciences in China,2008,11(1):68-77(in Chinese)
[13] James S.A compound events model for security prices[J].The Journal of Business,1967,40(3):317-335
[14] Praetz P.The distribution of share price changes[J].Journal of Business,1972,45(1):49-55
[15] Blattberg,R C,Nicholas J G.A comparison of the stable and student distributions as statistical models for stock prices[J].Journal of Business,1974,47(2):244-280
[16]趙希男,崔海波.確定金融資產(chǎn)收益率分布形式的一種方法[J].數(shù)量經(jīng)濟(jì)技術(shù)經(jīng)濟(jì)研究,2004(9):56-63 Zhao Xi'nan,Cui Haibo.A kind of methods to determining return distributions of financial assets[J].Quantitative & Technical Economics,2004(9):56-63(in Chinese)
[17] Dempster,Nan Laird,Donald Rubin.Maximum likelihood from incomplete data via the EM algorithm[J].Journal of the Royal Statistical Society:Series B,1977,39(1):1-38
[18]熊明,謝民育.均值混合正態(tài)分布統(tǒng)計(jì)量的性質(zhì)[J].數(shù)學(xué)物理學(xué)報(bào),2009(3):685-690 Xiong Ming,Xie Minyu.The properties of the mean-mixture of normal distribution[J].Acta Mathematica Scientia,2009(3):685-690(in Chinese)
[19] Caudill S B.A partially adaptive estimator for the censored regression model based on a mixture of normal distributions[J].Statistical Methods and Applications,2012,21:121-137