蔡風景 ,李 元,王慧敏
(1.河海大學 商學院,南京210098;2.溫州大學 數學與信息科學學院,浙江 溫州 325035;3.廣州大學 數學與信息科學學院,廣州 510006)
圖模型(Graphical models)是統計學中一個嶄新的研究領域,它將傳統的多元統計中描述多個變量之間關系的統計模型圖形化。近幾年來,圖模型理論在人類基因、醫(yī)學診斷、經濟和金融領域的應用,已成為這一領域研究的熱門課題[1-2]。劉桂梅和李勝宏 (2006)[3]將圖模型理論應用于遺傳基因領域,利用DNA數據,研究了一個在法庭上頗有爭議的親子鑒定問題。通過案例中的家譜圖,建立Bayesian網絡,根據遺傳學的孟德爾定律,計算出網絡中各結點的概率,給出了一個可供法庭參考的合理推斷。趙慧和鄭忠國(2007)[4]在對一種新型中藥降脂靈片的藥效進行因果分析時,指出傳統的統計方法難以處理實驗數據樣本量小且是混合變量類型問提議采用圖模型的方法建立一個鏈圖模型,直觀地刻畫了該藥對反映機體抗氧化能力和血脂水平的4個指標的因果影響。陳浪南和陳強(2006)[5]將圖模型的DAG方法應用于我國的宏觀經濟領域,分析我國貨幣、消費價格指數和生產之間的信息傳導。李元等(2008)[6]將圖模型方法應用于時間序列領域,提出自回歸和雙線性模型系數新的檢驗方法。
Whittaker(1990)[7]提出 Graphical Gaussian model,該模型在變量集服從多元正態(tài)分布的假設下,由全模型出發(fā),通過似然比方法檢驗圖模型結構,但該方法受限于原假設。Reale(2001)[8]提出利用多重檢驗方法確定條件獨立圖,但該方法不能同時執(zhí)行多條邊的選擇,不適合實際中的應用。Talih(2003)[9]基于貝葉斯方法測定時間可變的圖模型結構,并將該方法應用于美國證券市場。本文對文[9]的模型進行簡化,假定圖模型結構不發(fā)生變化,提出參數化和設計MCMC算法給出我國上海證券市場行業(yè)板塊的圖模型結構,從而為投資組合優(yōu)化提供決策建議。
假定投資組合收益率向量Y=(Y1,…,Yd)T是服從多元正態(tài)分布的d維隨機向量,其期望向量為 μ=(μ1,…,μd)T,協方差陣為Σ。Markowitz(1952)[10]指出,假定投資組合給定的期望收益水平為μ0,則投資組合優(yōu)化決策可通過在給定收益水平下最小化風險實現,即為均值-方差有效邊界。資產的最優(yōu)配置wλ可通過最小化下式實現:
即wλ=λKμ,其中K=Σ-1為精度矩陣。拉格朗日乘數λ依賴于投資者的風險偏好。因此,最優(yōu)權重不僅依賴于風險偏好,同時由均值向量和精度矩陣決定。
現給出多元正態(tài)無向圖模型G=(V,E),其中V是節(jié)點集,E為邊集,變量i和j之間的邊記為(i,j)。于是在多元正態(tài)無向圖模型中,我們有
因此,通過圖G中可直觀發(fā)現變量間的條件獨立關系。
由文[9]給出參數化方法:
其中,I{.}為示性函數,(i,j)表示點i和點j之間的邊,vi=max(1,#{j:(i,j)∈E}),#表示計數函數。對于θ需限定其取值范圍為:θ∈(-1,1)。
在給定期望向量為零向量,精度矩陣為K的條件下,對數似然值為:
其中,X為經過中心化的n×d樣本矩陣,n為樣本數,d為維數。在給定樣本X的條件下,可獲得關于G,θ和σ的聯合后驗分布為:
由于直接計算公式(2)非常困難,因此,本文利用Monte Carlo模擬方法,即MCMC算法,通過大樣本模擬給出參數的后驗分布。我們采用了Metropolis-Hastings迭代算法來模擬其后驗分布。關于Metropolis-Hastings算法的詳細介紹,可參見[11]。 由文[9],假定 tan(θπ/2),log()和圖 G 的先驗分布均服從均勻分布。
首先考慮圖G的M-H設計。保持參數θ和σ不變,限定從G從新圖H至多變化1條邊,則總共存在1+d(d-1)/2種變化可能,d為節(jié)點數。假設變化等概率,則設計條件密度函數如下:
q(H|G)=(1+d(d-1)/2)-1
同理有:q(G|H)=(1+d(d-1)/2)-1
因此,圖G的迭代接受概率為:
保持圖G,參數σ不變,考慮參數θ的M-H設計。假設tan(θπ/2)服從隨機游走:
tan(θnewπ/2)=tan(θoldπ/2)+ε
其中,ε~N(0,0.81)。
最后考慮參數 σi的M-H設計,保持圖 G,參數 θ和 σj,j≠i不變,并假設 log(σi2)服從隨機游走:
log(σi,new2)=log(σi,old2)+η
其中,η N(0,0.0625)。
根據上述圖模型,首先產生200組來自N5(0,Σ)的樣本,其中多元正態(tài)分布的協方差陣由圖1和以下參數所確定:
θ=0.90 σ=(1.0,1.1,1.05,1.2,1.1)
現利用MCMC算法給出30000次迭代結果(去除前300次),這29700次迭代的結果可視為由f(G,θ,σ|X)抽取的樣本。圖2和圖3分別給出了參數θ和σ的后驗直方圖,結果表明的后驗均值和中位數與真實參數非常接近,參數σ的后驗均值和中位數相比真實參數要小些,但誤差并不大。而模擬得到的29700張圖全部與我們設計的圖1完全一致,說明該模型成功的找到了圖的結構。
下面將基于貝葉斯圖模型方法應用于我國上海證券市場,研究五大板塊:房地產板塊指數,工業(yè)板塊指數,公用事業(yè)板塊指數,商業(yè)板塊指數以及綜合板塊指數間的條件相關性。本文選取1999年7月至2007年10月上述行業(yè)板塊指數的周收益率數據,共407個樣本,數據來源于廣發(fā)證券股票分析軟件下載。雖然金融短期數據往往不具有正態(tài)性,但長期數據可以視為近似正態(tài)的,因此可近似認為周收益率數據為多元正態(tài)分布。
現利用MCMC算法給出了30000次(剔除前300次)MH迭代結果。圖4和5分別給出了參數和的后驗直方圖,結果表明參數的后驗均值和中位數基本相同,房地產板塊的后驗方差最大,與事實比較吻合。圖6給出了唯一的圖模型結構,它們很可能準確刻畫了五大板塊之間的本質聯系。房地產板塊和工業(yè)板塊,房地產板塊和商業(yè)板塊,工業(yè)板塊和商業(yè)板塊,工業(yè)板塊和公用事業(yè)板塊,工業(yè)板塊和綜合板塊,商業(yè)板塊和公用事業(yè)板塊,公用事業(yè)板塊和綜合板塊是條件相關的。除此之外,其它兩個板塊之間都是條件獨立的。由圖6可知,與工業(yè)板塊相鄰的有四條邊,與商業(yè)和公用事業(yè)板塊相鄰的有三條邊,與房地產和綜合板塊相鄰的只有兩條邊,說明工業(yè)板塊與其它板塊有較強的相關性,與實際情況相當吻合。
本文在參數化方法基礎上,提出了基于貝葉斯方法的圖模型理論和MCMC算法,數值模擬表明該算法是有效的。同時,基于上述算法給出我國上海證券市場五大行業(yè)板塊的圖結構,分析板塊收益率間的條件相關性。實證研究表明,工業(yè)板塊與其它板塊的相關性較強,房地產及綜合板塊與其它板塊的相關性較弱。
[1]Edwards D. Introduction to Graphical Modelling[M].Berlin Springer,2001.[2]Lauritzen S.L.Graphical Models[M].London:ford University Press,1996.
[3]劉桂梅,李勝宏.圖形化模型在親子鑒定中的應用[J].高校應用數學學報A輯,2006,21(2).
[4]趙慧,鄭忠國,王偉,李晉生.中藥降脂靈片藥效的因果分析[J].數理統計與管理,2007,26(4).
[5]陳浪南,陳強.我國貨幣、價格、真實部門之間的信息傳導研究[J].管理世界,2006,(3).
[6]李元,羅羨華,葉偉彰,黃香.基于圖方法的自回歸和雙線性時間序列模型系數的檢驗[J].中國科學A輯,2008,38(1).
[7]Whittaker J.Graphical Models in Applied Multivariate Statistics[M].New York:Wiley,1990.
[8]Reale M.,Tunniclie G.Identication of Vector AR Models with Recursive Structural Errors Using Conditional Independence Graphs[J].Statistical Methods and Applications,2001,10(13).
[9]Talih M.Markov Random Fields on Time-varying Graphs with an Application to Portfolio Selection[D].University Yale,2003.
[10]Markowitz H.Portfolio Selection[J].Journal of Finance,1952,7(1).
[11]Robert C.P.,Casella G.Monte Carlo Statistical Methods[M].Berlin:Springer-Verlag,1999.