曾婉紅,劉金山
(華南農(nóng)業(yè)大學(xué)理學(xué)院,廣州510642)
帶有誤差為正態(tài)分布的SUR回歸的貝葉斯分析及其應(yīng)用
曾婉紅,劉金山
(華南農(nóng)業(yè)大學(xué)理學(xué)院,廣州510642)
文章研究了帶有正態(tài)分布SUR模型,采用Jeffreys的不變先驗分析Gibbs抽樣方法和Direct Monte Carlo(DMC)方法,計算了各參數(shù)的貝葉斯后驗密度和未來值的預(yù)測密度以及其它相關(guān)的后驗量,如后驗置信區(qū)間等。通過模擬例子和建立了關(guān)于城鎮(zhèn)、農(nóng)村居民家庭平均收入和生活消費支出的SUR模型,將Gibbs抽樣方法和DMC方法得出的結(jié)果進(jìn)行了比較。
正態(tài)分布SUR模型;Jeffreys的不變先驗;Gibbs抽樣方法;Direct Monte Carlo;貝葉斯后驗密度;預(yù)測密度
Arnold Zellner的經(jīng)典文章“An Efficient Methods for Estimating Seemingly Unrelated Regressions and Tests of Aggregation of Bias”引進(jìn)了SUR模型,該文章具有里程碑意義,它極大地刺激了在計量經(jīng)濟(jì)學(xué)和其它領(lǐng)域的深入的理論研究和無數(shù)的應(yīng)用研究。
由于SUR模型在計量經(jīng)濟(jì)學(xué)中的重要性,本文擬通過一個模擬例子和建立關(guān)于城鎮(zhèn)和農(nóng)村居民家庭平均收入和生活消費支出的SUR模型。在誤差序列服從多元正態(tài)分布的假設(shè)前提下,分析SUR模型的貝葉斯方法之一的是MCMC方法。目前,在貝葉斯分析中應(yīng)用最為廣泛的MCMC方法主要有兩種:Gibbs抽樣方法和Metroplis-Hastings方法。本文采用Gibbs抽樣方法。使用Gibbs可以近似每個參數(shù)的后驗密度和對未來值構(gòu)造貝葉斯預(yù)測密度。近年來,計算機(jī)技術(shù)的發(fā)展使得MCMC技術(shù)被廣泛得使用。
然而Gibbs抽樣方法的使用會出現(xiàn)一些問題:首先,預(yù)迭代的個數(shù)不確定;第二,沒有統(tǒng)一的規(guī)則決定Gibbs的樣本量;第三,必須檢驗Gibbs方法的收斂性。雖然提出了很多檢驗Gibbs方法收斂性的方法,但都不能保證在有限的運行中Gibbs方法能從所需要的后驗分布中產(chǎn)生樣本。
最近,Zellner和Anod(2008)提出了一種新的有效的貝葉斯估計方法,它是基于直接蒙特卡羅(DMC)方法,采用Jeffreys’s的不變先驗,構(gòu)造“遞歸”的聯(lián)合后驗密度,這種方法不會出現(xiàn)Gibbs方法以上的問題。
考慮由m個回歸方程組成的系統(tǒng):
這里,yj和uj都是n×1維向量,Xj是n×pj維觀察值矩陣,βj是pj維系數(shù)向量,Ω是m×m矩陣,對角元素為非對角元素為ωij。參數(shù)值域如下:
方程(1)中表明每個方程有不同的獨立變量和方差,而且允許不同方程中的誤差項在同一觀察時間上是相關(guān)的。將(1)寫成矩陣形式:
(1)β的滿條件分布
(2)Ω的滿條件分布
Gibbs抽樣算法如下。
首先賦初始值Ω(0),Ω(0),第j次迭代:
①從滿條件分布π(β|Ω(j-1),y)中抽取β(j);
②從滿條件分布π(Ω|β(j),y)中抽取Ω(j)。
最近,Zellner和Ando(2008)得到一種直接蒙特卡羅過程,用于SUR模型的貝葉斯分析。我們將方程(1)重新表述為如下形式:
Zj是βj-1,…,β1的函數(shù),參數(shù)的似然函數(shù)為:
其中|J|是由{β,Ω}到{b,Σ}的雅克比行列式。參數(shù)θ的聯(lián)合后驗密度為:
①bj的條件后驗密度:
直接蒙特卡羅過程如下:
步驟1(初始化)固定m。設(shè)定產(chǎn)產(chǎn)生的樣本數(shù)N,令j=1。產(chǎn)生,插入樣本值到然后從中生成一個樣本
步驟3有順序地重復(fù)步驟2直到j(luò)=m。
步驟4將Σ(k)轉(zhuǎn)換成Ω(k)。
步驟5從多元正態(tài)分布中抽取β(k),均值為,協(xié)方差為矩陣
采用選擇的模型和對應(yīng)的后驗樣本{β(k),Ω(k);k=1,…,N},可評估各種量。例如,預(yù)測密度可近似為:
這樣不僅可以得到參數(shù)的后驗密度,還可計算參數(shù)的各種函數(shù)的后驗密度,例如,多項式、率、根及其他表示參數(shù)的特征的量。
為了評估本文提出的抽樣過程,在此展現(xiàn)基于模擬數(shù)據(jù)和真實數(shù)據(jù)建立模型并進(jìn)行分析。本文所有的程序的實現(xiàn)都是使用R軟件。
為了研究本文貝葉斯模型估計過程的特征,模擬m=3維的SUR模型(1),不失一般性,設(shè)定pj=2;j=1,2,3;i=1,2,…,n;n=100,Ω={ωij}。
表1 DMC和Gibbs方法的統(tǒng)計結(jié)果
兩種方法均抽取N=10000個樣本進(jìn)行統(tǒng)計計算。
(1)采用Gibbs抽樣方法時進(jìn)行迭代11000次,然后丟棄前面的1000次迭代,即剩下10000個樣本,而采用DMC方法直接抽取10000個樣本,結(jié)果見表1、圖1。
由表1得,采用Gibbs方法和DMC方法得出的參數(shù)估計值相近,而且均接近模擬時所
設(shè)置的參數(shù)值,各估計值均在95%置信區(qū)間內(nèi);收斂性診斷是采用Heidelberger和Welch的收斂性診斷結(jié)果,結(jié)果表明各參數(shù)在所抽取的馬爾可夫鏈均收斂。
表2 平均絕對誤差值
由表3、4得,上述兩種方法得出的預(yù)測估計值均能很好地接近真實值,且得出的預(yù)測估計值相差不大。圖3為一步估計預(yù)測密度圖。
表3 y1,y2,y3的預(yù)測密度統(tǒng)計,預(yù)測估計點x1=-2,x2=-3,x3=2
表4 DMC與Gibbs方法的預(yù)測值比較,預(yù)測估計點x1=-2,x2=-3,x3=2
(2)重復(fù)實驗
重復(fù)該模擬實驗100次,在DMC抽樣中每次抽取樣本量為10000,而Gibbs抽樣中每次抽取11000個樣本,然后丟棄前面的1000次迭代,剩下10000個樣本,將每次實驗得到的均值再求平均,結(jié)果見表5。從結(jié)果看出,各參數(shù)的后驗均值(即估計值)更加接近于真實值,說明重復(fù)多次實驗會使結(jié)果更加的精確。
表5 重復(fù)100次試驗后DMC與Gibbs方法的統(tǒng)計結(jié)果
2.2.1 數(shù)據(jù)來源
研究1980~2008年中國城鎮(zhèn)居民家庭人均可支配收入與生活消費支出以及農(nóng)村居民家庭人均純收入與生活消費支出(數(shù)據(jù)來源于《新中國六十年統(tǒng)計資料匯編》)的關(guān)系。本文采用1980~2007年的數(shù)據(jù)建立模型,共28組數(shù)據(jù),而2008年數(shù)據(jù)用于預(yù)測。
2.2.2 建立模型
建立以下的SUR模型:
其中表示1980~2008年,y1t,y2t分別代表城鎮(zhèn)、農(nóng)村居民家庭人均生活消費支出,x1t代表城鎮(zhèn)居民家庭人均可支配收入,x2t代表農(nóng)村居民家庭人均純收入。假設(shè)兩個回歸方程的誤差在同一時刻是相關(guān)的,即(u1t,u2t)~N(0,Ω)?,F(xiàn)分別采用Gibbs和DMC方法分析該模型,得到的結(jié)果見表6~9,圖4~5。
由表6得:采用Gibbs方法比DMC方法得出的參數(shù)估計值相近,各估計值均在95%置信區(qū)間內(nèi);根據(jù)Heidelberger和Welch的收斂性診斷,各參數(shù)抽取的馬爾可夫鏈均收斂;城鎮(zhèn)居民家庭人均可支配收入與農(nóng)村居民家庭人均純收入對生活消費支出的貢獻(xiàn)均大于0,說明人均收入能推動人均消費。從表7看出,采用這兩種方法得到的平均絕對誤差非常接近。圖4為某些參數(shù)的后驗密度圖。
表6 DMC和Gibbs方法的統(tǒng)計結(jié)果
表7 平均絕對誤差值
由表8和9得,上述兩種方法得出的預(yù)測估計值均能很好地接近真實值,且得出的預(yù)測估計值相差不大。圖5為2008年城鎮(zhèn)、農(nóng)村居民家庭人均生活消費支出估計的預(yù)測密度圖。
表8 y1,y2的預(yù)測密度統(tǒng)計,預(yù)測估計點x1=15780,x2=4760.6
表9 DMC與Gibbs方法的預(yù)測值比較
本文主要使用了兩種貝葉斯方法分析帶有誤差為正態(tài)分布的SUR模型,一種是直接蒙特卡羅方法(DMC),另一種是Gibbs抽樣方法。這兩種方法得到的結(jié)果基本上是一致的,而且得出的參數(shù)估計值均能很好地近似于真實值。但是DMC方法比Gibbs抽樣方法使用起來更加的簡便。它們的區(qū)別見表10。
表10 DMC與Gibbs的比較
在應(yīng)用實例中可得,城鎮(zhèn)(農(nóng)村)居民人均生活消費支出是隨著城鎮(zhèn)居民家庭人均可支配收入(農(nóng)村居民家庭人均純收入)的提高而增加的,這與實際情況相符合。
[1]S.Chib,E.Greenberg.Hierarchical Analysis of SUR Models with Extensions to Correlated Series and Time-Varying Parameter Models[J].Econometrics,1995,68.
[2]George Casella,Edward I.George.Explaining the Gibbs Sampler[J].The American Statistician,1992,46(3).
[3]Tomohiro Ando,Arnold Zellner.Hierarchical Bayesian Analysis of the Seemingly Unrelated Regression and Simultaneous Equations Models Using a Combination of Direct Monte Carlo and Importance Sampling Techniques[J].Bayesian Analysis,2010,5(1).
[4]Arnold Zellner,Tomohiro Ando.A Direct Monte Carlo Approach for Bayesian Analysis of the Seemingly Unrelated Regression Model[J].Journal of Econmetrics,2010,159(1).
[5]Arnold Zellner,Tomohiro Ando.Bayesian and Non-Bayesian Analysis of the Seemingly Unrelated Regression Model with Student-t errors,and Its Application for Forecasting[J].International Journal of Forecasting,2010,26.
[6]Chan K.S.,Geyer C.J.Discussion of Markov Chains for Exploring Posterior Distributions[J].Annals of Statistics,1995,22.
[7]Percy,D.F.Prediction for Seemingly Unrelated Regressions[J].Journal of the Royal.Statistical Society,1992,(54).
[8]Mary Kathryn Cowles,Bradley P.Carlin.Markov Chain Monte Carlo Convergence Diagnostics:A Comparative Review[J].1996,91(434).
[9]Cui,Tanner.Comment:Monitoring Convergence of the Gibbs Sampler:Further Experience with the Gibbs Stopper[J].Statistical Science,1992,(7).
O212.8
A
1002-6487(2011)07-0038-04
國家自然科學(xué)基金資助項目(10871072)
曾婉紅(1985-),女,廣州花都人,碩士研究生,研究方向:計算機(jī)應(yīng)用技術(shù)。劉金山(1958-),男,河南方城人,教授,研究方向:貝葉斯統(tǒng)計。
(責(zé)任編輯/亦民)