徐禮文,梅 波
(北方工業(yè)大學(xué) 理學(xué)院,北京 100144)
當(dāng)總體的方差任意且未知時,兩個正態(tài)總體均值的比較一直是統(tǒng)計學(xué)的理論和應(yīng)用研究中感興趣的問題,稱為Behrens-Fisher問題[1,2]。在正態(tài)總體異方差下均值相等性檢驗的文獻中,一種流行的方法是Welch[3,4]給出的基于近似t分布的檢驗,這種方法因其具有簡單性和較好的精確性得到廣泛運用。但是這種方法是建立在隨機自由度近似t分布基礎(chǔ)上的,自由度不僅和樣本方差相關(guān),還依賴樣本容量。金華,鄭圣聽和陳偉權(quán)[5]提出了一種結(jié)合極大似然思想的檢驗方法,稱作得分(Score)檢驗。在原假設(shè)下構(gòu)造的U統(tǒng)計量逼近標準正態(tài)分布,從而使得檢驗的操作只依賴于標準正態(tài)分布表,操作也比較簡單,并顯示出在控制第一類錯誤標準下優(yōu)于Welch的近似t檢驗。但是這種方法運用了極限分布理論,從而對樣本量的要求相對嚴格,樣本量不能太?。磺以跇颖玖坎唤葡嗤瑫r,Score檢驗與Welch近似t檢驗都受到總體間方差比率的影響比較明顯。
Behrens-Fisher問題的困難之處在于冗余(討厭)參數(shù)總體的存在,使得我們一般無法構(gòu)造出零分布已知的檢驗統(tǒng)計量。因此,Tsui和Weerahandi[6]通過拓展檢驗統(tǒng)計量的概念,提出了廣義檢驗變量的概念,得到了Behrens-Fisher問題的一個廣義p值(generalized p-value,GP)檢驗方法。通過提前的模擬研究發(fā)現(xiàn)在樣本容量較小且兩總體方差接近時,GP檢驗和Welch近似t檢驗的第一類錯誤都過于保守,距離給定的名義水平較遠。
本文的目的是提供Behrens-Fisher問題新的參數(shù)bootstrap(parametric bootstrap,PB)檢驗。參數(shù)bootstrap方法已經(jīng)被廣泛應(yīng)用于許多傳統(tǒng)方法難以或無法給出精確檢驗的問題中[7-10]?;谖腫5]構(gòu)造的U統(tǒng)計量和其中涉及的T統(tǒng)計量,我們不是利用正態(tài)逼近和近似t分布的理論,而是提出了新的參數(shù)bootstrap方法來改進已有的檢驗,為消除已有檢驗方法受樣本量的影響和方差比率的影響,從而提高檢驗的有效性。值得注意的是,可以證明我們提供的兩種參數(shù)bootstrap檢驗之一和Krishnamoorthy,Lu和Mathew[7]給出方法等價。
接下來,我們分別描述Welch近似t檢驗、Score檢驗、GP檢驗和我們提供的PB檢驗。
其中T=Z[(U1+U2)/(n1+n2-2)-1/2]服從自由度為(n1+n2-2)的 t分 布 ,B=U1/(U1+U2)~beta((n1-1)/2,(n2-1)/2),二者相互獨立。GP檢驗法則為:對于給定的顯著性水平α,當(dāng) p<α值時,拒絕原假設(shè)。
上文已經(jīng)描述了 Behrens-Fisher問題的五種檢驗方法,下面通過Monte Carlo隨機模擬的方法,比較五種檢驗方法在控制第一類錯誤和檢驗功效方面的優(yōu)劣。使用Monte Carlo方法模擬計算PB-S檢驗的p值算法如下:
注意到,GP檢驗、PB-t檢驗、PB-S檢驗的模擬算法中涉及內(nèi)循環(huán)(計算p值)和外循環(huán)(經(jīng)驗水平)。外循環(huán)從設(shè)置參數(shù)模型中產(chǎn)生模擬樣本,計算第一類錯誤概率;內(nèi)循環(huán)從估計的模型中產(chǎn)生bootstrap樣本,用Monte Carlo方法計算 p值。而Welch近似t檢驗和Score檢驗分別利用近似t分布和近似正態(tài)分布,只需外循環(huán)計算第一類錯誤即可。相應(yīng)的循環(huán)次數(shù)設(shè)定如下表1。
表1 計算第一類錯誤的模擬次數(shù)表
在模擬PB-t、PB-S檢驗時,為了節(jié)約計算時間并也能保證p值計算的準確性,適當(dāng)?shù)販p少了模擬的次數(shù),這對模擬結(jié)果的影響不是很大。
表2 第一類錯誤概率的Monte Carlo估計值
表2中的第一類錯誤結(jié)果顯示,在小樣本下樣本量相等時,Welch近似t檢驗、PB-t檢驗和PB-S檢驗控制第一類錯誤基本穩(wěn)定在名義水平0.05上,受方差比率的影響不是很明顯。值得注意的時,隨樣本量的減小,Score檢驗和GP檢驗的將變得相當(dāng)?shù)谋J?,使用的該檢驗時樣本量的選取須相當(dāng)注意。當(dāng)樣本量不等時,Welch近似t檢驗和PB-t檢驗犯第一類錯誤概率有所上升,橫向可以看出GP檢驗要想達到同樣的控制第一類錯誤的能力,所需的樣本量大一些。而PB-S檢驗犯第一類錯誤的結(jié)果相對穩(wěn)定得多,在所有樣本量和總體方差參數(shù)設(shè)置下,PB-S檢驗受樣本量和方差比率影響最小,整體檢驗效果也最優(yōu)。在樣本量不斷變大時,四種檢驗方法在控制第一類錯誤能力方面逐漸趨于相同。
表3中檢驗勢函數(shù)的結(jié)果表明,在兩組樣本量相等時,Welch-t檢驗、PB-t檢驗和PB-S檢驗具有十分相似的檢驗功效;Score檢驗與GP檢驗的勢受總體方差比率影響明顯,Score檢驗的勢隨著方差比率變大而變大,GP檢驗的勢則相反,這點與第一類錯誤概率相似。在兩組樣本量不相等時,Welch-t檢驗和PB-t檢驗的勢時而表現(xiàn)突出,但同時不可避免它們犯第一類錯誤概率也偏大;Score檢驗和GP檢驗受總體方差比率影響更加明顯,二者控制第一類錯誤都偏向保守,檢驗勢也劣與其他三種檢驗。PB-S檢驗具有穩(wěn)定且較好的勢。
綜上比較,可以發(fā)現(xiàn)PB-S檢驗可以較好控制第一類錯誤概率,具有不亞于傳統(tǒng)檢驗的勢,并且檢驗效果受總體方差差異和樣本差異影響較小,其次是PB-t檢驗。Welch近似t檢驗、Score檢驗和GP檢驗各有自己的缺陷,本文提出的PB-S檢驗對樣本量和總體方差的要求更加寬松,提高了異方差下均值檢驗的精確性,在實際應(yīng)用中更有意義。
當(dāng)存在異方差性和樣本容量較小情形下,已有檢驗無法保證第一類錯誤概率的問題沒有得到足夠的重視。本文提出使用參數(shù)bootstrap方法構(gòu)造Behrens-Fisher問題的有效檢驗?zāi)M比較研究結(jié)果顯示,參數(shù)bootstrap方法在保證第一類錯誤概率和勢函數(shù)均有滿意的表現(xiàn)。參數(shù)bootstrap檢驗即使在小樣本情形下適用范圍也比較廣,這對于很多實際應(yīng)用領(lǐng)域只存在小樣本的問題提供了幫助,如醫(yī)學(xué)、法庭科學(xué)等。也就是說,此時我們依然可以使用參數(shù)bootstrap方法提供可信賴的檢驗報告。而Welch近似t檢驗受樣本量和總體方差之間關(guān)系的影響,以及Score檢驗和廣義p值檢驗在小樣本情形下第一類錯誤概率表現(xiàn)保守的問題,應(yīng)提醒我們謹慎選擇適合實際情況的檢驗方法。
表3 檢驗函數(shù)勢的Monte Carlo模擬估計值
[1]Behrens B V.Ein Beitrag zur Fehlerberechnung Bei Wenige Beobachtungen[J].Landwirtch.Jb.,1929,6.
[2]Fisher R A.The Fiducial Argument in Statistical Inference[J].Annals of Eugenics,1935,(6).
[3]Welch B L.The Specification of Rules for Rejecting Too Variable a Product,with Particular Reference to an Electric Lamp Problem[J].Supplement to the Journal of the Royal Statistical Society,1936,3.
[4]Welch B L.The Significance of the Difference Between Two Means when the Population Variances are Unequal[J].Biometrika,1938,29.
[5]金華,鄭圣聽,陳偉權(quán).Behrens-Fisher問題的正態(tài)逼近[J].統(tǒng)計研究,2009,(26).
[6]Tsui K W,Weerahandi S.Generalized P-Values in Significance Testing of Hypotheses in the Presence of Nuisance Parameters[J].Journal of the American Statistical Association,1989,84.
[7]Krishnamoorthy K,Lu F,Mathew T.A Parametric Bootstrap Approach for ANOVA with Unequal Variances:Fixed and Random Models[J].Computational Statistics&Data Analysis,2007,51.
[8]Efron B,Tibshirani R J.An Introduction to Bootstrap[M].Chapman&Hall London,1993.
[9]Xu L W,Yang F Q,Abula A,et al.A Parametric Bootstrap Approach for Two-way ANOVA in Presence of Possible Interactions with Unequal Variances[J].Journal of Multivariate Analysis,2013,115.
[10]Tian L L,Ma C X,Vexler A.A Parametric Bootstrap Test for Comparing Heteroscedastic Regression Models[J].Comm.Statist.Simulation Comput,2009,38.