索文莉 劉真真
【摘 要】目前貝葉斯思想還未真正融入大學(xué)課堂,實(shí)際教學(xué)中弱化了貝葉斯統(tǒng)計(jì)的思想和應(yīng)用。貝葉斯統(tǒng)計(jì)在處理極端問題時(shí)往往比極大似然更符合人們的理念,更顯著反映數(shù)據(jù)的指向性。近年來貝葉斯統(tǒng)計(jì)為牽引的隨機(jī)模擬技術(shù)的蓬勃發(fā)展,使得大量的驗(yàn)證性試驗(yàn)可以通過計(jì)算機(jī)模擬完成,更加拓展了應(yīng)用范圍。文中就貝葉斯統(tǒng)計(jì)闡述了教學(xué)過程中的一點(diǎn)思考和研究。
【關(guān)鍵詞】貝葉斯統(tǒng)計(jì);極大似然;隨機(jī)模擬
中圖分類號(hào): O212.8-4 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 2095-2457(2019)11-0249-002
DOI:10.19694/j.cnki.issn2095-2457.2019.11.119
【Abstract】At present, Bayesian thought has not really been integrated into the university classroom, which weakens the thought and application of Bayesian statistics in practical teaching. Bayesian statistics tend to be more consistent with peoples ideas than extreme likelihood when dealing with extreme problems, and more significantly reflect the directionality of data. In recent years, the rapid development of the random simulation technology of Bayesian statistics as traction has enabled a large number of validation tests to be completed by computer simulation, which has further expanded the scope of application. This paper expounds a little thinking and research on Bayesian statistics in the teaching process.
【Key words】Bayesian statistics; Great likelihood; Random simulation
頻率學(xué)派,也稱經(jīng)典學(xué)派,使用了兩種信息[1]:總體信息和樣本信息,例如極大似然估計(jì)(Maximum Likelihood Estimate,MLE),完全依賴已知的模型和樣本數(shù)據(jù),即利用了總體信息和樣本信息,思想是找到使得樣本發(fā)生概率達(dá)到最大的量作為參數(shù)估計(jì)。貝葉斯統(tǒng)計(jì)在重視使用總體信息和樣本信息的同時(shí),還注意先驗(yàn)信息的收集、挖掘和加工,使它數(shù)量化,形成先驗(yàn)分布,參與到統(tǒng)計(jì)推斷中來,以提高統(tǒng)計(jì)推斷的質(zhì)量。貝葉斯估計(jì)最基本的觀點(diǎn)是將任一未知量都看作隨機(jī)變量,根據(jù)以往的認(rèn)知,給予其分布,稱為先驗(yàn)分布,而后利用貝葉斯定理,綜合考慮未知量的先驗(yàn)信息、模型信息和樣本信息,得到未知量的后驗(yàn)概率分布,一般以后驗(yàn)期望作為估計(jì)值。
目前課程中的貝葉斯統(tǒng)計(jì)的思想體現(xiàn)還不夠。非數(shù)學(xué)專業(yè)的課本中僅有貝葉斯公式,且?guī)в懈怕视?jì)算的色彩,遠(yuǎn)遠(yuǎn)沒有展示貝葉斯統(tǒng)計(jì)本來的技術(shù)性特點(diǎn),而其被弱化現(xiàn)象的背后是當(dāng)前教學(xué)和實(shí)際運(yùn)用脫節(jié)的反映。事實(shí)上,近三十年來,以貝葉斯統(tǒng)計(jì)為牽引的隨機(jī)模擬技術(shù)得到蓬勃發(fā)展,使得大量的驗(yàn)證性試驗(yàn)可以通過計(jì)算機(jī)模擬完成。然而當(dāng)下的教學(xué)中,隨機(jī)模擬的色彩不濃,面向?qū)嶋H的模擬設(shè)計(jì)有待加強(qiáng)。下面我就貝葉斯統(tǒng)計(jì)的教學(xué)研究談一些想法。
1 貝葉斯統(tǒng)計(jì)與極大似然
貝葉斯統(tǒng)計(jì)[1]匯集了先驗(yàn)和似然的信息,將傳統(tǒng)意義上的參數(shù)θ也視為隨機(jī)變量,根據(jù)經(jīng)驗(yàn)信息得到其先驗(yàn)分布π(θ)。在取得樣本數(shù)據(jù)之后,參數(shù)的信息集中于其后驗(yàn)分布π(θ|x),其密度函數(shù)的表達(dá),分為以下幾個(gè)步驟:
(1)總體依賴于參數(shù)θ的概率密度在貝葉斯統(tǒng)計(jì)中記為p(x|θ),表示隨機(jī)變量θ取某個(gè)給定值時(shí)總體的條件概率密度。
(2)根據(jù)參數(shù)θ的先驗(yàn)信息確定隨機(jī)變量θ的先驗(yàn)分布π(θ)。
(3)樣本X=(x1,x2,…,xn)的聯(lián)合條件概率為p(X|θ)=p(x1,x2,…,xn|θ),綜合了總體信息和樣本信息,與極大似然估計(jì)中的似然函數(shù)沒有什么不同。
(4)由于參數(shù)θ被看做是一個(gè)隨機(jī)變量,其取值可能性也有考慮進(jìn)去,寫出樣本X和參數(shù)θ的聯(lián)合分布g(X,θ)=p(X|θ)π(θ),將總體信息、樣本信息和先驗(yàn)信息都納入進(jìn)來。
(5)目標(biāo)是未知參數(shù)θ。在無樣本信息時(shí),只能根據(jù)先驗(yàn)信息對(duì)θ做出推斷。在有了樣本信息后,可以根據(jù)上述聯(lián)合分布對(duì)參數(shù)θ做出推斷,分解為
稱為參數(shù)θ的后驗(yàn)分布。它集中了總體、樣本和先驗(yàn)中有關(guān)θ的一切信息,相當(dāng)于用總體和樣本信息對(duì)先驗(yàn)分布π(θ)做出調(diào)整得到其新的分布,他要比π(θ)更接近現(xiàn)實(shí)情況。根據(jù)后驗(yàn)分布密度函數(shù),取其函數(shù)最大值點(diǎn)或者期望作為參數(shù)θ的點(diǎn)估計(jì)。
這個(gè)步驟在講授當(dāng)中應(yīng)詳細(xì)說明,尤其要闡述清楚貝葉斯學(xué)派的三種信息如何體現(xiàn)在具體操作中,舉例說明貝葉斯估計(jì)的實(shí)現(xiàn)過程,理論與實(shí)踐相結(jié)合,而對(duì)于先驗(yàn)如何選取要在后面的課程中單獨(dú)說明。不僅如此,為了更好地體會(huì)貝葉斯估計(jì)的自然合理性,應(yīng)舉例與極大似然估計(jì)相比較。例如在產(chǎn)品檢驗(yàn)中,只區(qū)分合格品(記為1)和不合格品(記為0),則隨機(jī)變量X服從兩點(diǎn)分布g(x|θ)=θx(1-θ)1-x,x=0,1,參數(shù)θ未知。若給定觀測(cè)樣本x=1,或者多次觀測(cè)全為1時(shí),經(jīng)典的極大似然估計(jì)為1,若給定觀測(cè)樣本x=0,或者多次觀測(cè)全為0,經(jīng)典的極大似然估計(jì)為0。顯然這與人們的認(rèn)知不符。而貝葉斯觀點(diǎn),將參數(shù)θ看做一個(gè)隨機(jī)變量,先驗(yàn)分布為π(θ),不妨假設(shè)為均勻分布。根據(jù)公式(1)可得參數(shù)θ的后驗(yàn)分布
π(θ|x)=2θx(1-θ)1-x,θ∈(0,1)。
當(dāng)觀測(cè)樣本x=1時(shí),則
π(θ|1)=2θ,E(θ|1)=2/3,
若兩次觀測(cè)值均為1,則
π(θ|(1,1))=3θ2,E(θ|(1,1))=3/4,
依次下去,可得當(dāng)抽取10個(gè)全為正品時(shí)的貝葉斯估計(jì)為11/12。這說明抽檢1個(gè)是合格品,和抽檢10個(gè)是合格品,在人們心目中留下的印象是不同的,后者要比前者更信得過,但是極大似然估計(jì)并反映出來(均為1)。
當(dāng)觀測(cè)數(shù)據(jù)為0時(shí),參數(shù)θ的后驗(yàn)分布
π(θ|0)=2(1-θ),E(θ|1)=1/3,
當(dāng)兩次觀測(cè)數(shù)據(jù)均為0時(shí),參數(shù)θ的后驗(yàn)分布
π(θ|(0,0))=2(1-θ)2,E(θ|1)=1/6。
依次下去,具體如下表1所示。
表1 極端樣本數(shù)據(jù)下的貝葉斯估計(jì)值
顯然貝葉斯估計(jì)具有明顯的數(shù)據(jù)指向性。在抽樣數(shù)據(jù)極端情況下,貝葉斯估計(jì)比極大似然估計(jì)更符合人們對(duì)事物的認(rèn)知。通過這樣的例題可以更直觀地感受貝葉斯估計(jì)運(yùn)用先驗(yàn)信息的優(yōu)勢(shì)所在,推斷更加全面,應(yīng)該在教學(xué)中被充分體現(xiàn)。
2 貝葉斯統(tǒng)計(jì)與隨機(jī)模擬
貝葉斯估計(jì)的目標(biāo)是的后驗(yàn)分布,因此考慮的重心是后驗(yàn)分布的模擬,這樣就淡化了似然函數(shù)計(jì)算的瓶頸。因?yàn)閷?shí)際應(yīng)用中,若數(shù)據(jù)模型的似然函數(shù)過于復(fù)雜就無法使用經(jīng)典方法估計(jì)其中參數(shù);若數(shù)據(jù)來源于隨機(jī)過程模型時(shí),可能無法寫出觀測(cè)的似然函數(shù),進(jìn)而無法利用經(jīng)典統(tǒng)計(jì)方法估計(jì)其中參數(shù)。對(duì)于貝葉斯估計(jì)來說,雖然無法完整的計(jì)算出后驗(yàn)分布,但仍可借助MCMC抽樣[2]得到來自后驗(yàn)分布的隨機(jī)樣本,從而得到后驗(yàn)分布的密度函數(shù),得到θ的貝葉斯估計(jì)。近些年來近似貝葉斯計(jì)算(ABC)[3]的出現(xiàn)更是緩解了后驗(yàn)分布樣本抽取困難的問題。
參數(shù)的推斷問題實(shí)際上是隨機(jī)模擬技術(shù)的應(yīng)用問題。針對(duì)模型的不同,后驗(yàn)分布形式的不同,學(xué)習(xí)相應(yīng)的隨機(jī)模擬技術(shù)是現(xiàn)今課堂上所欠缺的。有必要將這些內(nèi)容融入到統(tǒng)計(jì)課堂教學(xué)中,如講解完常見分布之后增加相應(yīng)的模擬方法;在講述大數(shù)定律時(shí),給出隨機(jī)模擬在計(jì)算積分中的作用,例如LOOKUP離散模擬,接受拒絕抽樣法;講述極大似然估計(jì)時(shí),針對(duì)含有潛在變量模型的極大似然估計(jì)給出EM算法;在貝葉斯理論中增加MCMC和ABC思想,增強(qiáng)課程的實(shí)踐性,真正實(shí)現(xiàn)學(xué)以致用,知行合一。
3 結(jié)語
大數(shù)據(jù)時(shí)代的到來,引起了包括統(tǒng)計(jì)學(xué)在內(nèi)的各種技術(shù)革命。貝葉斯理論作為其中重要的一部分,席卷了概率論,并將應(yīng)用延伸到各個(gè)問題領(lǐng)域,所有需要作出概率預(yù)測(cè)的地方都可以見到貝葉斯方法的影子。作為教師,只有密切跟蹤統(tǒng)計(jì)學(xué)理論和方法的發(fā)展前沿,才能將知識(shí)更好的傳授給學(xué)生,讓受教育者切實(shí)體會(huì)到貝葉斯統(tǒng)計(jì)的魅力所在,更進(jìn)一步理解統(tǒng)計(jì)的意義,掌握統(tǒng)計(jì)學(xué)技術(shù)。課堂教學(xué)中和經(jīng)典統(tǒng)計(jì)對(duì)比,首先指出經(jīng)典統(tǒng)計(jì)在處理實(shí)際問題中的局限,然后給出貝葉斯統(tǒng)計(jì)的理論框架和處理思路,再探討貝葉斯統(tǒng)計(jì)實(shí)施的關(guān)鍵問題和處理技術(shù),最后借助案例演示貝葉斯統(tǒng)計(jì)的優(yōu)勢(shì)。
【參考文獻(xiàn)】
[1]茆詩松,王靜龍,濮曉龍.高等數(shù)理統(tǒng)計(jì)[M].高等教育出版社,2016.
[2]Beaumont M A, Zhang W, Balding D J. Approximate Bayesian Computation in Population Genetic[J].Genetics, 2002,162, 2025-2035.
[3]D. J.Wilkinson. Stochastic Modelling for Systems Biology[M].Taylor & Francis Group, LLC, 2012.