王燕飛
(吉林化工學院理學院,吉林 吉林132022)
貝葉斯統(tǒng)計是統(tǒng)計學專業(yè)中唯一一門非經(jīng)典統(tǒng)計學的學科。英國學者貝葉斯的遺作《論有關機遇問題的求解》,提出了著名的貝葉斯公式和一種歸納推理方法,成為了貝葉斯學派的奠基石。之后,在Jeffreys、Good、Savage、Berger等學者的不斷努力下,把貝葉斯方法在觀點和理論上不斷完善,并在工業(yè)、經(jīng)濟、管理等領域獲得了成功的應用[1]。目前,貝葉斯學派已發(fā)展成為一個有影響的統(tǒng)計學派,打破了經(jīng)典統(tǒng)計學一統(tǒng)天下的局面,占據(jù)了統(tǒng)計學的半壁江山。
貝葉斯統(tǒng)計是在與經(jīng)典統(tǒng)計的爭論中逐漸發(fā)展起來的。其基本思想和觀點是:總體分布中的未知參數(shù)可以看作隨機變量;事件的概率除了用頻率解釋外,還可用個人經(jīng)驗和歷史資料來獲得,即承認主觀概率;在經(jīng)典統(tǒng)計所用的總體信息和樣本信息外,還充分利用了抽樣之前的信息—先驗信息,并可根據(jù)先驗信息獲得先驗分布。而這些觀點在經(jīng)典統(tǒng)計學看來都是不合理的。實際上,人們在生活中都在不知不覺的運用貝葉斯的思想解決問題。比如,醫(yī)生在做手術之前會根據(jù)病人的病情和自己的經(jīng)驗估計手術成功的概率;免檢產(chǎn)品的鑒定需要利用該產(chǎn)品以往的不合格品率的歷史資料,若多次在零附近,且每隔一段時間抽查,仍保持該結(jié)果,則認定該產(chǎn)品為免檢產(chǎn)品。這些實例都是在運用了先驗信息后才得到了更好的解決,因此,若能充分利用先驗信息,對于解決很多統(tǒng)計問題,無疑是非常有利且有效的。
然而正是由于貝葉斯統(tǒng)計獨有的思想和方法,學生在習慣于以往所學的經(jīng)典統(tǒng)計的課程思路情況下,接受起來有一定的困難。因此,教師在教授過程中一定要深入淺出,運用實例,易于學生理解。將貝葉斯統(tǒng)計與經(jīng)典統(tǒng)計比較講授相關內(nèi)容,讓學生從熟悉的知識進入,循序漸進逐步認識貝葉斯方法和理論。
后驗分布的定義是貝葉斯統(tǒng)計中第一章課程的內(nèi)容,學生剛剛接觸,理解起來有一定的難度??捎山?jīng)典統(tǒng)計中所熟悉的貝葉斯公式引入講解,比較容易接受。另外通過實用案例,激發(fā)學生的學習興趣,并能更好理解定義。
設A1,A2,…,An是樣本空間Ω的一個劃分或完備事件組,即滿足:。則對Ω中任一事件B,有:
這就是概率統(tǒng)計中著名的貝葉斯公式,也叫逆概率公式[2]。我們可將事件B看作是試驗結(jié)果,A1,A2,…,An看作是導致結(jié)果B的原因。則該公式表明了結(jié)果B發(fā)生條件下由第i個原因?qū)е碌母怕?。即?zhí)果索因[3]。
案例1
已知5%的男人和0.25%的女人是色盲,現(xiàn)隨機挑選一人,檢驗為色盲,若男人和女人各占人數(shù)的一半,問此人是男人的概率。
即抽取此人是色盲時,為男人的概率為0.952。
在貝葉斯公式中,結(jié)果B可認為是已經(jīng)出現(xiàn)的樣本數(shù)據(jù)x,發(fā)生結(jié)果的原因Ai可認為是未知的隨機變量θ的取值。于是將貝葉斯公式推廣可得到后驗分布的離散形式定義。
設總體x服從分布密度p(x|θ),其中θ為離散型隨機變量,取值為有限個或可列個。即θ=θi,i=1,2,…。θ的先驗分布為π(θi)=P(θ=θi),i=1,2,…。樣本的觀察值為x=(x1,x2,…,xn),樣本聯(lián)合分布密度為,則θ的后驗分布為:
將離散形式推廣得到連續(xù)形式的后驗分布定義。
設總體x服從分布密度p(x|θ),其中θ為連續(xù)型隨機變量,取值為參數(shù)空間Θ。θ的先驗分布為π(θ)。樣本的觀察值為x=(x1,x2,…,xn),樣本聯(lián)合分布密度為,則θ的后驗分布為:
注:1.分母與未知參數(shù)θ無關,不含有θ的任何信息,稱為樣本x的邊緣分布。
記作:
2.若總體x為離散型隨機變量,則總體分布密度p(x|θ)改為分布列P(X=x|θ),后驗分布的離散形式和連續(xù)形式就不難寫出來了。
先驗分布π(θ)反映了人們在抽樣前對參數(shù)θ的認識,而后驗分布π(θ|x)則是在獲得了樣本后,對參數(shù)θ的認識,是人們利用總體信息、樣本信息(統(tǒng)稱為抽樣信息)對先驗分布π(θ)的認識作調(diào)整的結(jié)果。
案例2
英國統(tǒng)計學家Savage(1961年)考察一個統(tǒng)計實驗:一位常飲牛奶加茶的婦女聲稱,她能辨別先倒進杯子里的是茶還是牛奶。對此作了10次試驗,結(jié)果她都說對了。
若不考慮該婦女的經(jīng)驗,則應認為每次她猜對的概率為0.5,則10次猜對的概率為0.510=0.0009766非常小,顯然與實際不符,不合理。因此應該充分利用經(jīng)驗,即先驗信息。對該婦女的了解,認為有可能她每次猜對的概率為0.95。設θ為她每次猜對的概率,則取值為0.95或者0.5。
保守起見,認為π(0.95)=0.6,π(0.5)=0.4。x為10次試驗中婦女猜對的次數(shù),則x服從二項分布b(10,θ)。即x=0,1,…,10,試驗結(jié)果表明x=10。則P(X=10|θ=0.95)=0.9510,P(X=10|θ=0.5)=0.510。故θ的后驗分布為:
后驗分布是基于總體信息、樣本信息和先驗信息三種信息的綜合結(jié)果,是一個非常重要的定義,在整個貝葉斯統(tǒng)計學中起著基石一樣的作用。貝葉斯統(tǒng)計的點估計、區(qū)間估計、假設檢驗及預測等統(tǒng)計推斷問題都是建立在后驗分布基礎之上進行的。而在后驗分布引入損失函數(shù)之后,便構(gòu)成了貝葉斯決策理論的基本框架。顯然,后驗分布在貝葉斯統(tǒng)計中占有舉足輕重的地位,可以說任何貝葉斯統(tǒng)計問題都離不開后驗分布。因此,在學習該定義之初應使學生能夠理解好,并靈活運用定義。在后續(xù)其他貝葉斯理論的講授中應逐步加深對該定義的認識和應用。
貝葉斯統(tǒng)計課程是在統(tǒng)計學花海中的一支獨秀。通過對后驗分布定義的教學研究探索,我們可以將其方法推而廣之,運用到貝葉斯統(tǒng)計中的其他理論知識的講授中。在教師教學和學生學習的過程中,貝葉斯方法和思維方式都是與其他統(tǒng)計學科非常不同的。因此,可以在與熟知的經(jīng)典統(tǒng)計學的對照中比較學習,深入淺出,列舉實際案例,易于理解。通過案列的講解還能激發(fā)學生的學習興趣,提高主動思考和解決實際問題的能力,培養(yǎng)學生的創(chuàng)新意識和應用能力。當學生遇到某個問題時,若能不僅局限于經(jīng)典統(tǒng)計方法,還能考慮到使用貝葉斯方法結(jié)合解決,也就具備了貝葉斯思想,那么該課程的開設便達到了目的。若能有部分同學有興趣進一步拓寬貝葉斯方法的應用領域,深入研究學習,那么我國的貝葉斯統(tǒng)計研究就后繼有人了。
[1]茆詩松,湯銀才.貝葉斯統(tǒng)計[M].北京:中國統(tǒng)計出版社,2012:5-6.
[2]李自勇.基于貝葉斯公式及應用數(shù)學的認識與實踐[J].數(shù)學教學研究,2014(3):63-65.
[3]李春娥,王景艷.貝葉斯公式及其應用的教學研究[J].大學數(shù)學,2015:119-121.