張 靜
顯著性檢驗(yàn)在經(jīng)典統(tǒng)計(jì)中作為統(tǒng)計(jì)推斷重要內(nèi)容之一,被廣泛應(yīng)用在各個(gè)領(lǐng)域。顯著性檢驗(yàn)是通過(guò)樣本信息對(duì)總體的某個(gè)假設(shè)做出拒絕或不拒絕的決策,是用推斷的方法解決決策的問(wèn)題,不能給出決策錯(cuò)誤時(shí)所產(chǎn)生的損失大小,并且在使用顯著檢驗(yàn)過(guò)程中出現(xiàn)一系列問(wèn)題。相比之下貝葉斯檢驗(yàn)方法能較好的處理這些檢驗(yàn)問(wèn)題。
經(jīng)典假設(shè)檢驗(yàn)首先根據(jù)問(wèn)題的要求提出假設(shè),通過(guò)給定的顯著水平確定檢驗(yàn)的拒絕域,然后根據(jù)樣本是否落入拒絕域來(lái)判斷拒絕還是接受原假設(shè)。但是,在實(shí)踐中由于假設(shè)的建立不同、顯著水平α大小不同,往往會(huì)出現(xiàn)同一問(wèn)題和同一組樣本數(shù)據(jù)得到完全相反的檢驗(yàn)結(jié)果,使得檢驗(yàn)所得的“顯著”結(jié)果在實(shí)際中并無(wú)重大意義。
假如有一組調(diào)研人員做了一個(gè)關(guān)于總體均值在0.12處的單側(cè)Z檢驗(yàn),顯著水平α=0.05,獲得抽樣結(jié)果z=0.015,若假設(shè)為 H0:μ≤0.12, H1:μ>0.12,由于拒絕域?yàn)閧z ≥1.645},而z=0.015<1.645,z值沒(méi)有落入拒絕域故認(rèn)為總體均值不大于0.12。然而若假設(shè)變?yōu)镠0:μ≥0.12, H1:μ<0.12時(shí),其拒絕域?yàn)閧z ≤-1.645} ,而z=0.015>-1.645,z值沒(méi)有落入拒絕域,即認(rèn)為總體均值不小于0.12,與上述的結(jié)論是相反的。
一個(gè)雙尾檢驗(yàn)變?yōu)閱挝矔r(shí),檢驗(yàn)結(jié)果有可能超越“統(tǒng)計(jì)顯著”的界限。假如我們做了一個(gè)雙尾Z檢驗(yàn),獲得抽樣結(jié)果z=1.85,檢驗(yàn)p值≈0.06,當(dāng)α=0.05時(shí)檢驗(yàn)結(jié)果是不拒絕原假設(shè),即不顯著。將檢驗(yàn)改為單尾時(shí),單尾檢驗(yàn)p值比雙尾檢驗(yàn)p值縮小一半,檢驗(yàn)結(jié)果立即變?yōu)轱@著的了。若將顯著水平α增大到0.07時(shí)雙尾Z檢驗(yàn)又變?yōu)轱@著了。
相比之下,貝葉斯檢驗(yàn)中,無(wú)論如何建立假設(shè),也無(wú)需給出顯著水平,只要給出參數(shù)的后驗(yàn)分布,通過(guò)計(jì)算各假設(shè)的后驗(yàn)概率,對(duì)假設(shè)的后驗(yàn)概率大小的比較,就可以得到確切的檢驗(yàn)結(jié)果,即檢驗(yàn)結(jié)果是穩(wěn)定的。
在經(jīng)典假設(shè)檢驗(yàn)中,p值越小,意味拒絕H0的證據(jù)越充分。但事實(shí)上經(jīng)典檢驗(yàn)中p值常常是高估拒絕H0的證據(jù)。當(dāng)樣本容量很大時(shí),抽樣結(jié)果與H0的微小差別,總能得到一個(gè)極小的p值,導(dǎo)致拒絕H0的結(jié)論,然而這個(gè)結(jié)論并沒(méi)有實(shí)際意義。即便是在中等樣本量時(shí),一個(gè)小的p值也幾乎不提供拒絕H0的證據(jù),即經(jīng)典的犯錯(cuò)誤的概率或顯著性水平,把原假設(shè)是否有效引導(dǎo)到完全錯(cuò)誤的印象中去。
例如,假設(shè)觀測(cè)樣本 X1,X2,…,Xn來(lái)自分布N(θ,σ2),σ2已知。檢驗(yàn)假設(shè) H0:θ=θ0,H1:θ≠θ0,采用貝葉斯方法進(jìn)行檢驗(yàn)。給θ先驗(yàn)分布為:在θ=θ0時(shí)π0=π(θ0)=1/2,在 θ≠θ0時(shí) π(θ)=π1g1(θ),其中 π1=1-π0=1/2,g1為 N(μ,τ2),當(dāng)給出先驗(yàn)的具體值 μ=θ0,τ=σ時(shí),可給出不同樣本容量n及不同抽樣結(jié)果下的p值及α0如下表。
Z(p值)n 1 5 1.65(0.1)1.96(0.05)2.576(0.01)3.291(0.001)0.42 0.35 0.21 0.086 0.44 0.33 0.13 0.026 10 0.49 0.37 0.14 0.024 20 0.56 0.42 0.16 0.026 50 0.65 0.52 0.22 0.034 100 0.72 0.60 0.27 0.045 1000 0.89 0.80 0.53 0.124
從表中的數(shù)據(jù)可以看出若由觀測(cè)值得z=1.96,意味經(jīng)典檢驗(yàn)中拒絕H0的顯著水平是0.05,由于0.05夠小,拒絕H0的證據(jù)看似足夠充分,所以結(jié)論是拒絕原假設(shè)。然而,H0的后驗(yàn)概率是很大的,從小的n時(shí)的1/3,到大的n時(shí)接近1。即當(dāng)p值為0.05時(shí)幾乎不提供拒絕H0的證據(jù)。同時(shí)可以證明,對(duì)任何合理的先驗(yàn),在同一組樣本數(shù)據(jù)下,經(jīng)典檢驗(yàn)中的較小的p值都對(duì)應(yīng)較大的后驗(yàn)概率α0。于是,出現(xiàn)了經(jīng)典犯錯(cuò)誤的概率或p值對(duì)否定H0的根據(jù)進(jìn)行完全錯(cuò)誤的描述[1]。
假設(shè)觀測(cè)樣本 X1,X2,…,Xn來(lái)自分布 N(θ,σ2),σ2已知,π(θ)~ N(μ,τ2),考慮檢驗(yàn) H0:θ≥θ0, H1:θ<θ0,若以“0—Ki”為損失函數(shù),則可得貝葉斯檢驗(yàn)的拒絕域?yàn)椋?,其中與經(jīng)典的α水平、一致最大功效檢驗(yàn)的拒絕域具有相同的形式。在經(jīng)典檢驗(yàn)中拒絕域的臨界值由α決定,而在貝葉斯檢驗(yàn)中則由損失和先驗(yàn)信息決定。結(jié)論是:(1)經(jīng)典檢驗(yàn)中α選取沒(méi)有準(zhǔn)則,通常為0.05或0.01,但這個(gè)慣例并沒(méi)有嚴(yán)格地被大多數(shù)統(tǒng)計(jì)學(xué)家嚴(yán)格遵守,α的選擇具有主觀性;(2)經(jīng)典犯第一類(lèi)錯(cuò)誤概率α不能說(shuō)明犯錯(cuò)誤時(shí)所產(chǎn)生的損失的大?。唬?)每一α水平的最大功效檢驗(yàn)相對(duì)應(yīng)一個(gè)貝葉斯檢驗(yàn),即或者對(duì)假設(shè)的先驗(yàn)及損失做主觀選擇或者對(duì)α水平做主觀選擇;(4)貝葉斯方法充分運(yùn)用了合理的先驗(yàn)信息及抽樣信息,并且給出決策錯(cuò)誤時(shí)的損失,其結(jié)論更加可靠,因而貝葉斯方法可以看作是提供了一個(gè)選擇檢驗(yàn)的顯著水平大小的合理方法。
對(duì)于問(wèn)題 H0:θ∈Θ0?H1:θ∈Θ1若 Θ0?Θ1≠Ω(Ω為參數(shù)空間),假設(shè)檢驗(yàn)中常常存在兩者皆可的區(qū)域,即產(chǎn)生第三個(gè)假設(shè)θ∈Θ2。例如,若要求檢驗(yàn)兩種藥物的治愈率 ,合 理 的 方 法 是 三 個(gè) 假 設(shè) :H0:θ1-θ2<-ε,H1:θ1-θ2>ε H2:| θ1-θ2|≤ε,其中 ε>0 的選擇是認(rèn)為|θ1-θ2|≤ε為兩種藥是等效的。經(jīng)典假設(shè)檢驗(yàn)中常處理的情況是非此即彼,對(duì)這類(lèi)問(wèn)題無(wú)法定義p值;另外,當(dāng)檢驗(yàn)涉及三個(gè)及三個(gè)以上的多重比較問(wèn)題,經(jīng)典的檢驗(yàn)將增加犯第一類(lèi)錯(cuò)誤的概率,所以,經(jīng)典假設(shè)檢驗(yàn)方法亦不宜處理多重假設(shè)問(wèn)題,而貝葉斯假設(shè)檢驗(yàn)通過(guò)計(jì)算每一個(gè)假設(shè)的后驗(yàn)概率,接受后驗(yàn)概率最大的假設(shè)。因此,貝葉斯方法更易處理多個(gè)假設(shè)的檢驗(yàn)問(wèn)題。
無(wú)論是經(jīng)典假設(shè)檢驗(yàn),還是貝葉斯假設(shè)檢驗(yàn),人們關(guān)心的問(wèn)題是假設(shè)檢驗(yàn)的結(jié)果是否真能反應(yīng)原假設(shè)的真?zhèn)?,但以“顯著水平”為中心的經(jīng)典假設(shè)檢驗(yàn)理論并不能直接回答這個(gè)問(wèn)題。本文通過(guò)對(duì)兩種檢驗(yàn)方法的對(duì)比研究,指出了經(jīng)典檢驗(yàn)方法存在的一些問(wèn)題,以及貝葉斯檢驗(yàn)方法在解決這些問(wèn)題時(shí)的優(yōu)勢(shì)。
[1] [美]James O.Berger.統(tǒng)計(jì)決策論及貝葉斯分析[M].北京:中國(guó)統(tǒng)計(jì)出版社,1998.
[2] 傅軍和.經(jīng)典檢驗(yàn)p值的若干問(wèn)題[J].統(tǒng)計(jì)與決策,2009,(1).
[3] 茆詩(shī)松.貝葉斯統(tǒng)計(jì)[M].北京:中國(guó)統(tǒng)計(jì)出版社,1999.
[4] 韋博成.參數(shù)統(tǒng)計(jì)教程[M].北京:高等教育出版社,2006.