復旦大學公共衛(wèi)生學院生物統(tǒng)計教研室,衛(wèi)生部衛(wèi)生技術評估重點實驗室
蔣 丹 趙耐青
方差不齊時兩組及以上均數(shù)比較時不同分析方法的穩(wěn)健性和把握度比較
復旦大學公共衛(wèi)生學院生物統(tǒng)計教研室,衛(wèi)生部衛(wèi)生技術評估重點實驗室
蔣 丹 趙耐青
目的 本文著重比較秩和檢驗、調整自由度的t′檢驗、混合效應模型(mixed model)以及方差加權最小二乘法(VWLS)等方法在方差不齊時,用于兩組/多組獨立樣本均數(shù)比較時的穩(wěn)健性和把握度。方法 本文通過模擬分析方法,分別設計總體均數(shù)相等或不等時,在不同標準差和樣本量的條件下,用幾種統(tǒng)計方法比較2組及3組樣本均數(shù)的Ⅰ類錯誤和Power度。結果 (1)證實樣本量相等時,t檢驗對于方差不齊的2組樣本均數(shù)比較具有穩(wěn)健性,但是樣本量相等方差不齊的3組獨立樣本均數(shù)比較時,方差分析方法卻不具有穩(wěn)健性。(2)不論是2組還是3組樣本均數(shù)比較,秩和檢驗在特定條件下對于方差不齊具有穩(wěn)健性。(3)兩組方差不齊樣本均數(shù)比較時,t′檢驗和mixed model因為Ⅰ類錯誤更穩(wěn)健,比VWLS方法更穩(wěn)定,且這三種方法的Power值相互比較接近。(4)三組方差不齊樣本均數(shù)比較,mixed model方法在樣本量較少時比VWLS方法Ⅰ類錯誤更穩(wěn)健,但是隨著樣本量增加,這一優(yōu)勢消失,而VWLS的Power值明顯高于mixed model統(tǒng)計方法。結論 2組方差不齊樣本均數(shù)比較時,可以使用t′檢驗、mixed model及VWLS等方法,其中首選更為穩(wěn)健的t′檢驗、mixed model,3組方差不齊樣本均數(shù)比較時可以使用mixed model及VWLS等方法,當樣本量較小時首選mixed model方法,樣本量增大時,以VWLS方法更優(yōu)。
方差不齊 均數(shù)比較 第Ⅰ類錯誤 把握度
比較兩組總體均數(shù)是否相同,通常使用t檢驗進行統(tǒng)計推斷,比較三組及以上總體均數(shù)是否相同,則可使用ANOVA方差分析。然而,不論t檢驗還是ANOVA,均要求數(shù)據(jù)滿足獨立性、正態(tài)性、方差齊性等前提假設。而數(shù)據(jù)是否具有獨立性在研究設計時已經(jīng)明確;大數(shù)定律則告訴我們:在樣本量足夠的情況下不論數(shù)據(jù)本身是否服從正態(tài)分布,樣本均數(shù)的抽樣分布都可以逼近正態(tài)分布[1]。因此,在樣本量較大情況下,偏態(tài)分布的資料也可以用t檢驗或方差分析。所以,對于t檢驗或方差分析,樣本資料是否滿足方差齊性就顯得尤為重要。
倘若方差齊性檢驗的統(tǒng)計學結論為方差不齊,則傳統(tǒng)醫(yī)學統(tǒng)計教材往往會給出如下建議:2組總體均數(shù)比較使用調整自由度的t′檢驗或者非參數(shù)統(tǒng)計分析方法如Wilcoxon秩和檢驗,3組及以上總體均數(shù)比較使用非參數(shù)統(tǒng)計分析方法如Kruskal-Wallis檢驗。然而,Wilcoxon秩和檢驗和Kruskal-Wallis檢驗的無效假設為:兩個或多個樣本來自同一總體[2]。當出現(xiàn)方差不齊情況時,也就是對應的已經(jīng)不是同一總體而是兩個總體或多個總體了。此時,如果還用上述秩和檢驗就存在明顯的邏輯問題,當然不排除在特殊情況下,方差不齊對于秩和檢驗也可能是穩(wěn)健的(robust)。正如2組總體均數(shù)比較的情況下,2組樣本量相同,t檢驗對于方差不齊具有穩(wěn)健性[3](即2組樣本量相同情況下,可以忽略方差不齊情況,t檢驗仍然有效)。從線性模型的角度考慮,混合效應模型(mixed model)和方差加權最小二乘法(variance-weighted least squares,VWLS)也可以用于方差不齊的2組或多組均數(shù)比較。綜上所述,本文研究目的有二:一是探究方差不齊時,使用以下4種方法比較2組獨立樣本均數(shù)的穩(wěn)健性和把握度:調整自由度的t′檢驗、Wilcoxon秩和檢驗、混合效應模型(mixed model)以及方差加權最小二乘法(VWLS);二是探究方差不齊時,3組及以上獨立樣本均數(shù)比較用以下3種分析方法的穩(wěn)健性和把握度:混合效應模型(mixed model)、Kruskal-Wallis檢驗、方差加權最小二乘法(VWLS)。
根據(jù)研究目的,有必要對方差不齊程度、樣本量之比歸類來觀察不同條件下Ⅰ類錯誤和把握度(power)的大小變化情況,從而對各種方法的穩(wěn)健性和把握度進行比較分析,因而需要在不同的情況下進行模擬分析,下面對各種模擬情境作簡單介紹。
A、成組獨立樣本均數(shù)比較的模擬情境
A1:設兩組總體均數(shù)相等為25,總體標準差之比為 1、1.5、2、2.5、3、4,使樣本量之比為 1、2、3、4,在不同情況下產(chǎn)生兩組服從正態(tài)分布的獨立樣本,觀察Ⅰ類錯誤大小。
A2:設兩組總體均數(shù)不等,第1組為24,第2組為25,總體標準差之比和樣本量之比的考慮同上,在不同情況下產(chǎn)生均服從正態(tài)分布的兩個獨立樣本,比較power值大小。
B、三組獨立樣本均數(shù)比較的模擬情境
B1:設三組總體均數(shù)相等均為25,考慮σ1=σ2<σ3和σ1<σ2<σ32種情形,并考慮3組樣本量相等、3組中有2組樣本量相等、3組樣本量互不相等的三種情況,在不同情形下產(chǎn)生均服從正態(tài)分布的3個樣本,觀察Ⅰ類錯誤大小的變化。
B2:設三組總體均數(shù)互不相等,分別為24.5、25、25.5,總體標準差和樣本量的考慮同上,得到不同情況下均服從正態(tài)分布的3個樣本,比較power值大小。
上述4種模擬情境,在每種情形下獨立模擬2000次,將Ⅰ類錯誤α設為0.05;使用SAS9.3和stata11.0統(tǒng)計軟件進行模擬分析。
1.兩組獨立樣本連續(xù)型定量資料比較
——使用 t′檢驗、VWLS、mixed model和秩和檢驗統(tǒng)計方法
(1)觀察Ⅰ類錯誤的變化
由表1可知 t′檢驗、VWLS、mixed model這三種方法始終表現(xiàn)出穩(wěn)健性,Ⅰ類錯誤大小隨機波動,與標準差之比、樣本量之比無任何關聯(lián);但是 VWLS統(tǒng)計方法分析時Ⅰ類錯誤的發(fā)生比例高于其他2種方法;此外,表1中t檢驗Ⅰ類錯誤大小的穩(wěn)定性,證實了文獻中提到的當樣本量相等時,t檢驗對方差不齊的穩(wěn)健性;因為樣本量相等時t檢驗是mixed model的特例,所以由模擬結果可知兩種方法的Ⅰ類錯誤大小完全一致。
表1 兩組樣本量和總體標準差不同比例下幾種方法Ⅰ類錯誤比較
雖然秩和檢驗在樣本量相等時Ⅰ類錯誤會隨著標準差之比的擴大而增加,但是表1結果顯示秩和檢驗的Ⅰ類錯誤大小在特定條件下增幅不十分顯著,比如總體標準差之比為2時,Ⅰ類錯誤發(fā)生的比例增大5%;如果樣本量之比與標準差之比大小變化方向一致,那么隨著兩組樣本量或總體標準差之間差距拉大,Ⅰ類錯誤呈遞減趨勢(見表1上半部分),相反地,樣本量之比與總體標準差之比大小變化方向相反,那么隨著差距拉大,Ⅰ類錯誤呈遞增趨勢(見表1),其變化幅度與樣本量之比成正比。所以當樣本量相等且標準差之比不超過2時,秩和檢驗具有穩(wěn)健性。
(2)觀察power值的變化
不論樣本量之比和總體標準差之比大小如何變化,t′檢驗、VWLS、mixed model統(tǒng)計方法的 power值相互都比較接近;秩和檢驗當樣本量相等和標準差之比不超過2時,power值同樣靠近其他方法。因為標準差之比大于2后秩和檢驗不具有穩(wěn)健性,所以power值不被納入比較范疇。
表2 兩組樣本量和總體標準差不同比例下幾種方法power值比較
2.三組獨立樣本連續(xù)型定量資料比較
——使用秩和檢驗\mixed model\VWLS統(tǒng)計方法
(1)觀察Ⅰ類錯誤變化(3組標準差存在形式如下:σ1=σ2<σ3\σ1<σ2<σ3)
當樣本量相等時,表3和表4的結果說明發(fā)現(xiàn)方差分析、秩和檢驗的Ⅰ類錯誤隨著標準差之比的增加而增加;mixed model方法和VWLS方法的Ⅰ類錯誤大小穩(wěn)定,且其變化隨機波動,與標準差之比無任何關聯(lián);但是在表3和表4中,當每組樣本量為30時,VWLS方法Ⅰ類錯誤的發(fā)生比例明顯高于mixed model方法,尤其當標準差形式是 σ1<σ2<σ3,由此說明當樣本量較小時,mixed model方法比VWLS方法對于方差不齊更為穩(wěn)健。
遇到樣本量不等時,秩和檢驗Ⅰ類錯誤大體的變化趨勢如下:當樣本量之比和標準差之比大小變化方向一致時,Ⅰ類錯誤隨著樣本量或者標準差之間差距增大呈現(xiàn)降低趨勢;當樣本量之比與標準差之比大小變化方向相反時,Ⅰ類錯誤隨著樣本量或者標準差之間差距拉大呈現(xiàn)遞增趨勢(見表3、4后半部分),變化幅度與樣本量之比成正比;表中結果說明了mixed model和VWLS的Ⅰ類錯誤發(fā)生比例的穩(wěn)定性,與樣本量和標準差之比無關聯(lián)的趨勢性改變。(見表3、4后半部分)。
表3 3組獨立樣本在不同情況下幾種方法Ⅰ類錯誤比較(1)
*:每種情況重復獨立模擬2000次,標準差存在形式為σ1=σ2<σ3
(2)比較power值大?。?組標準差存在形式如下:σ1=σ2<σ3\σ1<σ2<σ3)
由表5、表6可知,不論標準差之比和樣本量之比大小如何變化,VWLS方法的 power值始終高于mixed model方法。
從統(tǒng)計學背景看,方差不齊的多組獨立樣本比較已經(jīng)不符合非參數(shù)秩和檢驗的原假設H0,即總體分布相同。當方差不齊時,總體分布已經(jīng)為偏離H0假設,為符合H1的情況。所以,方差不齊的程度越大,即越偏離H0假設,Ⅰ類錯誤越不穩(wěn)健。如本研究發(fā)現(xiàn),當樣本量相等時,Ⅰ類錯誤大小隨方差之比的增加而增加,樣本量不等時,Ⅰ類錯誤大小隨著樣本量之比的增大而拒絕比例漸漸遠離檢驗水準 α(本研究 α=0.05);然而縱觀 t′檢驗、mixed model、VWLS,原假設是總體均數(shù)相同,方差不齊不屬于這些統(tǒng)計檢驗方法的目標,且這3種方法容許存在方差不齊的情況而進行分析計算,所以才使得Ⅰ類錯誤保持穩(wěn)健性,未隨著方差之比的變化而變化。
從模擬結果來看,在表1中樣本量之比為1∶2,標準差之比 3時,t′檢驗、mixed model、VWLS的Ⅰ類錯誤全部增至0.06左右,因為上述現(xiàn)象是獨立出現(xiàn)的,樣本量之比改變使其恢復正常,又因為該現(xiàn)象涉及了研究所用的所有參數(shù)檢驗方法,且這些方法的數(shù)學計算容許方差不齊的情況存在,因此考慮種子數(shù)設置引起的誤差所致,調整模擬所需種子數(shù)后,上述現(xiàn)象消失,Ⅰ類錯誤回歸至0.05附近(結果未顯示)。
方差不齊的2組獨立樣本均數(shù)比較證實了樣本量相等的t檢驗對于方差不齊具有穩(wěn)健性,同時說明秩和檢驗在樣本量相等、標準差之比不超過2時是穩(wěn)健的。因為 t′檢驗、mixed model、VWLS這 3種參數(shù)檢驗中,VWLS方法的Ⅰ類錯誤發(fā)生比例最大,所以mixed model和t′檢驗比VWLS方法更穩(wěn)健,并且這三種方法的把握度又相互接近,所以t′檢驗和mixed model方法更優(yōu)。
當方差不齊的3組獨立樣本均數(shù)比較時,證實當樣本量相等時,方差分析對于方差不齊是不穩(wěn)健的,此結果與ROGAN文中的結果一致[4]。而秩和檢驗在樣本量相等、方差之比較小如不超過2時才算穩(wěn)健,Ⅰ類錯誤偏頗不至太大。
3組獨立樣本均數(shù)比較的模擬結果顯示,當樣本量偏小時,VWLS方法Ⅰ類錯誤發(fā)生比例易過大增至0.06左右,主要是因為VWLS的加權方差由樣本的方差決定,所以樣本量較小時方差偏差較大,導致Ⅰ類錯誤發(fā)生比例增大;因為mixed model方法的Ⅰ類錯誤仍在0.05(本研究設置的α值)附近,所以樣本量較小時mixed model更穩(wěn)?。坏菢颖玖吭黾邮筕WLS的Ⅰ類錯誤大小恢復至設定值附近,又因為VWLS的把握度明顯高于mixed model,這時以VWLS方法更優(yōu)。
表4 3組獨立樣本在不同情況下幾種方法Ⅰ類錯誤比較(2)
表5 3組獨立樣本在不同情況下幾種方法的power值大?。?)
表6 3組獨立樣本在不同情況下幾種方法的Power值大?。?)
[1]趙耐青,陳鋒主編.衛(wèi)生統(tǒng)計學.北京:高等教育出版社,2008:49-61.
[2]方積乾主編.衛(wèi)生統(tǒng)計學.北京:人民衛(wèi)生出版社,2008:177-192.
[3]Posten HO,ChengHY,Owen DB,et al.Robustness of the two-sample t-test under violations of the homogeneity of variance assumption.Communications in Statistics Theory and Methods,1982,11(2):109-126.
[4]Rogan JC,Keselman HJ.Is the ANOVA F-Test Robust to Variance Heterogeneity When Sample Sizes Are Equal?:An Investigation via a Coefficient of Variation.American Educational Research Journal,1977,14(4):493-498.
A Comparison of Different Statistical Methods of Their Robustness and Power When Analyzing the Population Mean Difference of Unequal-variance Data
Jiang Dan,Zhao Naiqing
(Biostatistical Department of Public Health School of Fudan University;Key Lab of Health Technology Assessment,Ministry of Health(Fudan University),(200032)Shanghai)
Objective To compare the Type I error and power of different statistical methods,such as Rank Sum Test/t′test/Mixed Model and VWLS,for analyzing independent unequal variance data.Methods Under the hypothesis of equal population means and unequal population means,two/three independent groups with various ratios of standard deviation and sample size are simulated and compared using above statistical ways for thousands of times to acquire their each Type I Error and Power.Results (1)t test is robust to unequal variance data with equal sample size.However,ANOVA lacks its robustness to unequal variance data with equal sample size.(2)The method of Rank Sum Test is robust to unequal variance data only when special conditions are met.(3)t′test and Mixed Model are better than VWLSbecause of their model stable Type I Error when analyzing independent samples with unequal variance.Plus,the Power of these method is very close to each other.(4)When analyzing three independent unequal variance groups,Mixed Model is more robust than VWLS if the sample size is small;with the size getting bigger,VWLS gets robust and is better than Mixed Model for higher power.Conclusion When it comes to the analysis of two independent quantitative samples with unequal variance,t′test/Mixed Model/VWLS all can be used but the first two methods are better.When it comes to the analysis of three or more unequal variance groups,Mixed Model is better than VWLSunder the situation of small sample size,but with the size getting bigger,VWLSis getting better than Mixed Model.
Unequal variance;Means compare;Type I error;Power
郭海強)