陸運(yùn)清
(河北師范大學(xué) 教育學(xué)院,石家莊 050024)
兩個(gè)相關(guān)二分變量的差異顯著性檢驗(yàn)在實(shí)際研究中經(jīng)常涉及,最典型的是前后測實(shí)驗(yàn)設(shè)計(jì)研究。例如,在醫(yī)學(xué)研究中,考查患者服用某種藥物或接受某種處理前后是否出現(xiàn)某種癥狀,以研究該種藥物或該種處理對此癥狀的治療效果;在營銷研究中,調(diào)查消費(fèi)者在看到某產(chǎn)品廣告前后購買該產(chǎn)品的情況,以確定該產(chǎn)品廣告的效果;在教育研究中,測查學(xué)生在接受某教育過程前后某項(xiàng)素質(zhì)的達(dá)標(biāo)情況,以了解該教育過程的成效;等等。在前后測實(shí)驗(yàn)設(shè)計(jì)中(見表1),a、d分別表示處理前后的測試結(jié)果均為“是”和均為“否”的被試數(shù),二者所代表的被試,處理前后測試結(jié)果相同。b、c分別表示處理前后測試結(jié)果由“是”變?yōu)椤胺瘛焙陀伞胺瘛弊優(yōu)椤笆恰钡牟糠郑咚淼谋辉?,處理前后測試結(jié)果均發(fā)生變化。
對相關(guān)二分變量進(jìn)行統(tǒng)計(jì)檢驗(yàn)的常用方法是McNemar檢驗(yàn),它是由美國統(tǒng)計(jì)學(xué)家Quinn McNemar于1947年提出的[1]。McNemar檢驗(yàn)的基本公式為
其應(yīng)用條件為b+c≥10。該卡方分布的自由度為1。
計(jì)數(shù)數(shù)據(jù)資料的檢驗(yàn)看似簡單,但在實(shí)際應(yīng)用中經(jīng)常出現(xiàn)誤用問題[2][3]。McNemar檢驗(yàn)的問題有所不同,是理論上有些不盡如人意。從McNemar檢驗(yàn)公式可以看出,只有表示前后測結(jié)果不一致的兩部分b和c包括在公式中,而處理前后測試結(jié)果不發(fā)生變化的部分a和d并未包括在其中。Cochran WG于1950年論及前后測結(jié)果一致的部分在差異檢驗(yàn)中不起作用,并提出這一點(diǎn)不符合直觀感覺[4]。對于給定的b和c,直覺應(yīng)該是前后測試結(jié)果差異在a和d為零時(shí)要比a和d很大時(shí)顯著。這一點(diǎn)通過實(shí)例更容易理解。例如,將未通過某次標(biāo)準(zhǔn)化考試的學(xué)生隨機(jī)分配到兩輔導(dǎo)班培訓(xùn),培訓(xùn)一段兒時(shí)間后這些學(xué)生又參加了第二次的標(biāo)準(zhǔn)化考試,如果要考查甲、乙兩個(gè)輔導(dǎo)班的效果,隨機(jī)抽取學(xué)生了解考試情況,結(jié)果抽取的參加甲輔導(dǎo)班的10名學(xué)生全部通過考試(a1=0,b1=0,c1=10,d1=0),抽取的參加乙輔導(dǎo)班的30名學(xué)生中10名通過了考試(a2=0,b2=0,c2=10,d2=20)。通過McNemar檢驗(yàn)考查兩個(gè)輔導(dǎo)班輔導(dǎo)的效果,二者的檢驗(yàn)結(jié)果均為χ2=(b-c)2/(b+c)=10,p=0.0015。而具體分析,甲輔導(dǎo)班的效果應(yīng)該好于乙班??梢?,McNemar檢驗(yàn)中只存在兩次測試不一致的部分具有一定的不合理性。表1相關(guān)四格表“前-后測實(shí)驗(yàn)設(shè)計(jì)”示意表
因此,研究者得出了McNemar檢驗(yàn)公式。實(shí)際上,這個(gè)推導(dǎo)過程對a和d的極大似然估計(jì)并沒有意義,這種估計(jì)方法a和d永遠(yuǎn)不起作用。退一步講,即使承認(rèn)該推導(dǎo)過程,得出的檢驗(yàn)公式也只是計(jì)算卡方的公式形式上與McNemar檢驗(yàn)公式相同,而實(shí)際上并不能像文中論及的一樣:該過程得出McNemar檢驗(yàn)。因?yàn)镸cNemar檢驗(yàn)的卡方分布的自由度為1,而此推導(dǎo)過程的分類項(xiàng)數(shù)為4(與McNemar的推導(dǎo)過程相比,差別僅是多出了關(guān)于a和d的兩項(xiàng)),因此,該卡方分布的自由度為3。這樣,這個(gè)推導(dǎo)過程并不能得出McNemar檢驗(yàn),更不可能正確解釋McNemar檢驗(yàn)中不包含a和d的問題。
統(tǒng)計(jì)學(xué)家還就比之比、對數(shù)比、風(fēng)險(xiǎn)比等其它一些方法作過相關(guān)四格表差異顯著性檢驗(yàn)的研究,但這些方法均為得出更合理的結(jié)果[7]。
通過重新組合分組的方法,研究者簡單巧妙地解決了在樣本整體基礎(chǔ)上考慮兩個(gè)變化項(xiàng)一致的問題[8]。將樣本n考慮成b和a+c+d或者c和a+b+d兩個(gè)分項(xiàng),則對應(yīng)兩項(xiàng)的理論次數(shù)分別為(b+c)/2和n-(b+c)/2,這個(gè)過程既考慮到整個(gè)樣本,又使得b和c對應(yīng)的理論次數(shù)相等。在此基礎(chǔ)上用Pearson卡方和二項(xiàng)分布近似的正態(tài)分布均可以推導(dǎo)出相關(guān)四格表數(shù)據(jù)的檢驗(yàn)公式[8]
在b+c≥10時(shí),公式(2)和(3)的計(jì)算結(jié)果符合自由度為1的卡方分布。這個(gè)結(jié)果對McNemar檢驗(yàn)進(jìn)行了合理修正。
用修正公式(2)和(3)對本文開始部分的甲、乙輔導(dǎo)班的效果進(jìn)行檢驗(yàn),則甲輔導(dǎo)班的效果檢驗(yàn)結(jié)果χ2=10,p=0.0015;乙輔導(dǎo)班的檢驗(yàn)結(jié)果χ2=5.36,p=0.0206。甲輔導(dǎo)班的效果更顯著。
修正后的McNemar檢驗(yàn)不但依賴于前后測驗(yàn)結(jié)果發(fā)生變化的被試數(shù)目b和c,還與總樣本容量n或前后測驗(yàn)結(jié)果不變的被試的數(shù)目a和d有關(guān)。在b和c一定的情況下,修正后的卡方值隨著a和d的增大而減小,當(dāng)a+d=0時(shí),與修正前的值相等。這個(gè)結(jié)果更具有合理性。
由于McNemar檢驗(yàn)僅考慮兩次測試有變化的部分b和c,因此檢驗(yàn)結(jié)果擴(kuò)大了具有統(tǒng)計(jì)學(xué)意義的可能性。在此抽取幾個(gè)采用了McNemar檢驗(yàn)的研究文獻(xiàn),將其研究數(shù)據(jù)用McNemar檢驗(yàn)的修正公式重新進(jìn)行檢驗(yàn),兩種檢驗(yàn)的有關(guān)結(jié)果如表2。
從表2中的數(shù)據(jù)可以看出,修正公式檢驗(yàn)結(jié)果相對于McNemar檢驗(yàn)結(jié)果的顯著性在不同程度上降低了。其中數(shù)據(jù)⑵⑶⑺⑻⒀⒂⒃McNemar檢驗(yàn)結(jié)果為p<0.05,修正公式的檢驗(yàn)結(jié)果為p>0.05;數(shù)據(jù)⑷⑸⑹⑽⑾⑿的McNemar檢驗(yàn)結(jié)果為P<0.01,修正公式的檢驗(yàn)結(jié)果為p<0.05;數(shù)據(jù)⑴、⑼、⒁的McNemar檢驗(yàn)結(jié)果分別為p<0.01,p<0.001,p<0.001,修正公式的檢驗(yàn)結(jié)果分別為p>0.05,p<0.01,p<0.05。由于McNemar檢驗(yàn)只考慮兩次測試結(jié)果的不一致部分b和c,將兩次測試結(jié)果的差異放大,因此,造成I型錯(cuò)誤的顯示值比真實(shí)值小,有時(shí)使差異本不顯著的數(shù)據(jù)檢驗(yàn)結(jié)果顯示為顯著。修正后的檢驗(yàn)結(jié)果修正了這個(gè)誤差。例如,文獻(xiàn)[6]中甲、乙兩種方法檢驗(yàn)細(xì)菌的結(jié)果差異未達(dá)到顯著水平,但McNemar檢驗(yàn)結(jié)果差異非常顯著。文獻(xiàn)[9]中的McNemar檢驗(yàn)結(jié)果顯示,腰圍指數(shù)和腹部肥胖診斷代謝綜合征的結(jié)果差異顯著,修正檢驗(yàn)得出兩種診斷結(jié)果的差異不顯著。文獻(xiàn)[10]中的McNemar檢驗(yàn)結(jié)果顯示,新生兒血清HBV-DNA陽性組PBMC中HBV-DNA檢出率明顯高于血清HBV-DNA陰性組,而修正檢驗(yàn)結(jié)果顯示,陽性組與陰性組的檢出率差異不顯著。文獻(xiàn)[13]中,在對自閉癥譜系障礙分析中,被試回答有關(guān)自閉癥測試的兩種問題通過率的McNemar檢驗(yàn)結(jié)果為差異顯著,而修正后的檢驗(yàn)結(jié)果未達(dá)到顯著程度;對TD(typically developing)組的分析中,兩種問題測試通過率的差異檢驗(yàn)結(jié)果也如此。文獻(xiàn)[15]中通過基本護(hù)理篩查(ADS-PC)和簡明精神量表(MMSE)對不同組別老年癡呆病人組和非癡呆病人組測試結(jié)果進(jìn)行檢驗(yàn),原文表3中第5組的白人及表4中第6組的受教育年限大于12年的被試的測試結(jié)果而言,McNemar檢驗(yàn)結(jié)果顯著,而修正結(jié)果顯示二者差異不顯著。文獻(xiàn)[16]對選修家庭暴力問題課程的同學(xué)在上課前后調(diào)查其是否遭到過家庭暴力,結(jié)果顯示,上課后回答曾經(jīng)遭受家庭暴力的學(xué)生增多,McNemar檢驗(yàn)差異顯著,但修正檢驗(yàn)的結(jié)果差異不顯著。修正后的檢驗(yàn)糾正了因僅考慮變化部分而放大了差異性的問題。
表2 幾個(gè)研究文獻(xiàn)中數(shù)據(jù)的兩種檢驗(yàn)結(jié)果
相關(guān)二分變量的統(tǒng)計(jì)處理除在前后測設(shè)計(jì)中廣泛應(yīng)用外,對配對研究設(shè)計(jì)中的數(shù)據(jù)分析也適合。如雙胞胎對兩種性質(zhì)活動(dòng)的選擇是否有相同偏好;夫妻對某項(xiàng)社會(huì)決策的贊成和反對意見是否一致;父子對兩種養(yǎng)老方式的贊成傾向是否相同;等??梢?,相關(guān)二分變量在很多領(lǐng)域的實(shí)際研究中應(yīng)用相當(dāng)普遍。因此,選用合適的統(tǒng)計(jì)方法對相關(guān)二分變量進(jìn)行分析以得出更科學(xué)的研究結(jié)果,為生活、工作實(shí)際提供更為有效的指導(dǎo)是非常必要的。
[1]McNemar Q.Note on the Sampling Error of the Difference between Correlated Proportions or Percentages[J].Psychometrika,1947,(12).
[2]陸運(yùn)清.用Pearson’s卡方統(tǒng)計(jì)量進(jìn)行統(tǒng)計(jì)檢驗(yàn)時(shí)需要注意的幾個(gè)問題[J].統(tǒng)計(jì)與決策,2009,(15).
[3]陸運(yùn)清.心理與教育研究中列聯(lián)表統(tǒng)計(jì)檢驗(yàn)的幾種常見錯(cuò)誤辨析[J].統(tǒng)計(jì)與決策,2010,(15).
[4]Cochran WG.The Comparison of Percentages in Matched Samples[J].Biometrika,1950,(37).
[5]羅明奎.配對資料McNemar檢驗(yàn)法的適用范圍[J].中國衛(wèi)生統(tǒng)計(jì),1999,16(3).
[6]趙瑩.配對四格表的一致性檢驗(yàn)[J].數(shù)理醫(yī)藥學(xué),2010,23(4).
[7]Agresti A,Min Y.Effects and Non-Effects of Paired Identical Observations in Comparing Proportions with Binary Matched-pairs Data[J].Statistics in Medicine,2004,(23).
[8]Yunqing Lu.A Revised Version of McNemar’s Test for Paired Binary Data[J].Communication in Statistics-Theory and Methods,2010,39(19).