王 維
(常州大學 阿里云大數(shù)據(jù)學院, 江蘇 常州 213164)
貝葉斯統(tǒng)計自誕生以來,在許多領域都得到了應用,如多元統(tǒng)計判別分析、計量經(jīng)濟學和地理信息學等[1]。在貝葉斯統(tǒng)計中,如何確定先驗分布是一個重要的研究課題,一旦確定了先驗分布,剩下的問題幾乎都可以通過計算機輔助解決。目前,國內(nèi)外關于先驗分布的研究大致可以分為以下3類:
(1)對先驗分布選擇標準的探討。此類研究主要關注在有多個先驗分布可供選擇的情況下,如何選出最優(yōu)的先驗分布。周巧娟等[2]提出利用似然比檢驗方法選擇先驗分布,李勇等[3]提出當參數(shù)θ的可選先驗族Γ={π:π(θ)為θ的先驗},且π(θ)的先驗分布為u(π)時,可以選取u(π)下均值對應的先驗。
(2)不同先驗分布對參數(shù)Bayes估計的影響比較。王敏[4]比較了3種不同類型的先驗分布對艾拉姆咖分布中參數(shù)估計的影響;邸俊鵬等[5]比較了當先驗分布為正態(tài)分布時,方差的變化對結(jié)果的影響。
(3)特定模型中先驗分布的確定。Gelman提出了一種確定分層模型先驗分布的方法[6],之后又討論了Logistic回歸模型中先驗分布的選擇[7]。
本文關注的是上述第二類問題的研究。綜合分析相關文獻,已有研究還存在以下可以改進的方面:
(1)對先驗分布的討論不夠細致。如王敏[4]僅討論了先驗分布為伽馬分布、共軛先驗分布和無信息先驗分布的情況,并沒有考慮先驗分布中參數(shù)的變化對結(jié)果的影響;邸俊鵬等[5]只考慮了先驗分布為正態(tài)分布的情況。
(2)研究結(jié)果的指導性不強。具體表現(xiàn)在兩個方面:第一,大多數(shù)研究討論的都是無信息條件下先驗分布的選擇問題,事實上,這類問題已經(jīng)有較為成熟的研究成果,而且在實踐中對于待估參數(shù)一無所知的情況并不常見;第二,缺少對所選先驗分布合理性的說明。
隨著統(tǒng)計計算技術的長足發(fā)展,后驗分布及各種后驗量的計算已經(jīng)不再是使用Bayes分析的障礙,合理性成為了先驗分布的選取需要考慮的首要因素。遺憾的是,很少有文獻對先驗分布的選取原因予以說明,這難免會令人對其結(jié)果的準確性與可靠性產(chǎn)生懷疑,也不利于真正理解和掌握相關問題的解決方法?;谏鲜龇治?,本文從換位思考的角度出發(fā),分析了研究者在低先驗信息度時可能選擇的先驗分布,并討論了樣本量、先驗分布的類型與方差對估計結(jié)果的影響,對這類問題的解決具有一定的參考價值。
在實踐中,可能需要考慮各種各樣的先驗分布,Gelman等[7]提出先驗分布可以分為3種類型:第一,無信息先驗分布(Noninformation Prior Distribution),適用于沒有任何先驗信息的情況;第二,高信息先驗分布(Highly Information Prior Distribution),適用于針對先驗分布中參數(shù)的精確信息可得的情況;第三,適度信息多層次先驗分布(Moderately Information Hierachical Prior Distribution),適用于由已有數(shù)據(jù)不能對先驗分布中的參數(shù)做出較好的估計,需要對參數(shù)再做一個先驗的情況。
借鑒上述分類思想,根據(jù)信息量的多少,本文將先驗信息也分為3類:
第一類,無先驗信息。此時沒有任何關于先驗分布的信息。
第二類,高先驗信息。此時先驗分布已知或已知分布的類型,其中的參數(shù)可以根據(jù)先驗信息估計得到。
第三類,低先驗信息。此時已知先驗分布的部分信息,但信息量很少,無法推斷出先驗分布的具體形式,有時甚至連先驗分布的類型都無法確定,例如只知道先驗分布的均值。
高先驗信息時,所需的信息均已知,只需按部就班進行計算即可。無先驗信息下的研究已經(jīng)較為成熟,如使用Bayes假設、Jeffreys先驗等,而且實踐表明,無信息先驗雖不是唯一的,但它們對Bayes統(tǒng)計推斷結(jié)果的影響都很小,很少對計算結(jié)果產(chǎn)生重大影響。低先驗信息是實踐中經(jīng)常遇到的情況,一般而言,我們很難知道先驗分布的具體形式,但又不至于對待估參數(shù)一無所知。Assaf等[8]提供了一個隨機邊界模型中參數(shù)估計的例子,他們指出該模型中的一個參數(shù)ui(用于刻畫企業(yè)的實際表現(xiàn)與最優(yōu)表現(xiàn)間的差距)是一個非負的隨機項,因此先驗分布應是只有一側(cè)的分布,如指數(shù)分布、半正態(tài)分布、Gamma分布和其他截斷分布。
(1)合理性。是先驗分布選擇的首要標準。在統(tǒng)計計算技術飛速發(fā)展的當下,這一點顯得更為重要。先驗分布的合理性來源主要有兩個:
①有經(jīng)驗事實作為支撐。經(jīng)過大量的實踐,某些特定問題的先驗分布已經(jīng)有了較為公認的結(jié)論。如一般認為彩電的平均壽命使用倒Gamma分布IG(α,λ)作為先驗分布是恰當?shù)?,其中?0、λ>0是兩個待定的參數(shù)。
②能說明從可選先驗分布族中選擇不同的先驗分布對結(jié)果的影響很小,很少對計算結(jié)果產(chǎn)生重大影響,此時選擇可選先驗分布族中的任何分布都是合理的,如無信息時先驗分布的選擇。
(2)便利性。在滿足合理性的條件下,可能仍然有大量的分布可供選擇,考慮到研究的成本,應優(yōu)先考慮我們熟知的基礎的分布,縮小研究范圍,簡化分析計算,方便人們使用。
(3)針對性。不同的問題往往有不同的特點,在某些領域中,部分分布可能具有更好的特性,如平滑性更好。因此,在滿足合理性與便利性的要求后,還可以根據(jù)研究問題的特點,選出最優(yōu)的先驗分布。
本文以《高等數(shù)理統(tǒng)計》中的一類問題為對象,探究一類低先驗信息情況下先驗分布的選擇對參數(shù)Bayes結(jié)果的影響。
設事件A發(fā)生的概率為θ,即P(A)=θ,某人為了估計θ而做了n次獨立觀察,發(fā)現(xiàn)事件A出現(xiàn)了X次,并且根據(jù)相關經(jīng)驗,可以認為θ的概率密度函數(shù)在[0,1]區(qū)間上是連續(xù)且單調(diào)遞減的,試對θ進行估計。在這個問題中,已知θ的先驗分布定義域為[0,1],且概率密度函數(shù)在[0,1]區(qū)間上單調(diào)遞減。但是,僅根據(jù)這些信息我們甚至無法推斷出先驗分布的類型,是一個典型的低先驗信息問題。
從換位思考的角度出發(fā),可能會有以下幾種看法:
(1)雖然已知θ的概率密度函數(shù)在[0,1]區(qū)間上連續(xù)且單調(diào)遞減,但信息量仍然太少,和無先驗信息的情況差別不大,因而考慮使用無信息先驗分布。
(2)事件A發(fā)生的次數(shù)X~b(n,θ),其共軛先驗分布為Be(a,b),為了便于計算,可以選取Be(a,b)作為先驗分布,但要注意a、b的取值應滿足單調(diào)性的要求。
先驗分布的選擇包括分布類型選擇和參數(shù)選擇。前者根據(jù)看法的不同選擇無信息先驗分布(均勻分布)、共軛先驗分布、截斷指數(shù)分布和截斷正態(tài)分布4種類型。后者對應于不同的方差,方差反映了研究者對所選先驗分布的信心,一般認為其值越大,越接近于無信息先驗分布。
基于上述討論,本文設定了不同的分布類型、參數(shù)和樣本量,以觀察對結(jié)果的影響。
根據(jù)貝葉斯統(tǒng)計的相關結(jié)論,設待估的參數(shù)為θ,其參數(shù)空間為Θ,先驗分布為π(θ),根據(jù)樣本得到的似然函數(shù)為p(x|θ),那么后驗分布π(θ|x)可以表示為
即
π(θ|x)∝π(θ)p(x|θ)。
為了方便討論,設定損失函數(shù)為平方損失,此時θ的Bayes估計δπ(x)為后驗分布π(θ|x)的均值,即δπ(x)=E(θ|x),定理的證明可以查閱相關文獻,這里不再贅述。
當后驗分布較為復雜時,后驗量的計算通常比較困難,此時一般通過統(tǒng)計方法得到后驗分布的模擬分布,從模擬分布中抽樣,再根據(jù)蒙特卡羅方法得到后驗分布特征數(shù)的估計。
本文采用Jim[10]所推薦的辦法來估計后驗分布的均值,具體步驟及R語言代碼如下:
(1)確定后驗分布概率密度函數(shù)的定義域,構造向量p,使得p的第一個分量和最后一個分量恰好為定義域的兩端,且p的各分量將定義域劃分為若干個部分;
(2)得到似然函數(shù)在p各分量上的取值;
(3)得到先驗分布概率密度函數(shù)在p各分量上的取值;
(4)計算似然函數(shù)和先驗分布概率密度函數(shù)取值的乘積,并將其轉(zhuǎn)化為概率;
(5)依據(jù)上一步得到的概率,從p中進行抽樣。
p=seq(0,1,length=500)
post=dunif(p,0,1)*dbeta(p,2,3)
post=post/sum(post)
ps=sample(p,10000,replace=TRUE,prob=post)
x<-mean(ps)
為驗證前文的假設,共設計了7種先驗分布,具體見表1。
表1 試驗分布的部分特征數(shù)
極大似然估計法以X/n(樣本均值)作為θ的估計,為便于在不同樣本量時進行比較,取適當?shù)腦值,使得樣本均值分別為0、0.2、0.4、0.6、0.8、1.0,將樣本量分為n=5、n=15、n=30三組,7種先驗分布結(jié)果的標準差見表2。
表2 不同樣本量下7種先驗分布結(jié)果的標準差
為了方便總結(jié)規(guī)律,將表2的結(jié)果繪制成圖1。
圖1 表2結(jié)果的可視化
從圖1可以看出:①7種先驗分布的標準差與樣本均值有關,且不同樣本量下標準差隨樣本均值的增加呈現(xiàn)不同的變化特點;②固定樣本取值時,樣本量大的標準差總是小于樣本量小的標準差。上述結(jié)果說明,當樣本量足夠大時,先驗分布的類型與參數(shù)對結(jié)果的影響很小,采用不同先驗分布的結(jié)果相差不大。
表3 3種先驗分布的結(jié)果
從表3可以看出,3種先驗分布的測算結(jié)果相差很小,說明當樣本量與方差相同時,先驗分布的類型對結(jié)果幾乎不會造成影響。
表4 分布類型為指數(shù)分布的結(jié)果
表5 分布類型為貝塔分布的結(jié)果
從表4和表5可以看出:①固定分布類型和樣本量時,兩種分布的結(jié)果均存在差異;②貝塔分布組兩種分布的結(jié)果差異更小,說明方差相差越多,結(jié)果的差異也越大。
本文使用計算機模擬的方式研究了一類低先驗信息度情況下先驗分布的選擇問題,根據(jù)控制變量法分別討論了樣本量、分布類型與分布方差對結(jié)果的影響。結(jié)果表明:當樣本量較大時,先驗分布的選擇對結(jié)果影響不大;樣本量較小時,先驗分布類型對結(jié)果幾乎無影響,先驗分布方差相差越多,結(jié)果的差異越大。
基于上述結(jié)論,當樣本量較大時,選擇滿足已知條件的先驗分布即可。當樣本量較小時,首先考慮合理性與便利性,確定待選先驗分布的范圍,然后計算各種分布對應的結(jié)果,最后根據(jù)研究問題的特點,檢索相關資料或請教有關專家以選出最合適的先驗分布。