趙鵬輝,崔 蕊
(大慶師范學(xué)院 數(shù)學(xué)科學(xué)學(xué)院,黑龍江 大慶163712)
列聯(lián)表是統(tǒng)計(jì)同時(shí)確定兩個(gè)變量的值,對(duì)總體中要討論的個(gè)體分類(lèi)并分組,將其分布進(jìn)行分析,來(lái)探究分類(lèi)變量間的相關(guān)性[1]。對(duì)疾病和疾病成因進(jìn)行分級(jí),建立列聯(lián)表的基礎(chǔ)上,對(duì)疾病的成因進(jìn)行分析,便于對(duì)疾病的預(yù)防與治療,這樣列聯(lián)表在醫(yī)學(xué)中的應(yīng)用極為廣泛。
統(tǒng)計(jì)學(xué)中,對(duì)研究對(duì)象進(jìn)行分類(lèi)并對(duì)樣本的頻數(shù)進(jìn)行統(tǒng)計(jì)并進(jìn)行探究。依據(jù)樣本分組的指標(biāo)變量,對(duì)其排序即得到列聯(lián)表。分析研究列聯(lián)表中的數(shù)據(jù),來(lái)檢驗(yàn)兩個(gè)變量的關(guān)系,應(yīng)用假設(shè)檢驗(yàn)中的卡方檢驗(yàn)研究列聯(lián)表中分類(lèi)變量是否獨(dú)立,稱(chēng)這種檢驗(yàn)為列聯(lián)表檢驗(yàn)[2]。列聯(lián)表分析法的應(yīng)用極為廣泛,它可以分析研究總體中個(gè)體的屬性之間是否相關(guān),稱(chēng)為獨(dú)立性檢驗(yàn)。例如,帕金森與其性別是否有關(guān)?在以二者為研究對(duì)象所列出的列聯(lián)表中,以Pi.、Pj.和Pij代表研究對(duì)象中樣本分類(lèi)于等級(jí)Ai,等級(jí)Bj,以及同時(shí)屬于AiBj的概率,帕金森與性別之間是否相關(guān)這樣的問(wèn)題可以轉(zhuǎn)化為在統(tǒng)計(jì)學(xué)中的問(wèn)題,表述為H0:Pij= Pi·Pj,進(jìn)行列聯(lián)表檢驗(yàn),查對(duì)臨界值表若χ2值足夠大,則拒絕假設(shè),即二者相關(guān)。依此方法檢驗(yàn)即可以較大的把握判定出性別與帕金森是相關(guān)的。明確變量之間的相關(guān)性后,還需要引入某個(gè)定量指標(biāo)例如列聯(lián)系數(shù)來(lái)刻畫(huà)二者的相互聯(lián)系的程度[3]。
假設(shè)檢驗(yàn)方法中的卡方檢驗(yàn)的應(yīng)用較為廣泛,它包括利用卡方檢驗(yàn)對(duì)兩個(gè)率或兩個(gè)構(gòu)成進(jìn)行比較??ǚ綑z驗(yàn)?zāi)軐?duì)多個(gè)率或多個(gè)構(gòu)成比進(jìn)行比較以及對(duì)分類(lèi)變量的性質(zhì)進(jìn)行相關(guān)分析??ǚ綑z驗(yàn)用來(lái)判斷構(gòu)成比之間是否存在差別并推斷分類(lèi)變量之間是否有關(guān)系[4]。
對(duì)總體分布中的樣本的頻數(shù)分布或是列聯(lián)表中的頻數(shù)進(jìn)行檢驗(yàn),卡方檢驗(yàn)的應(yīng)用性較為廣泛,用假設(shè)檢驗(yàn)分析并探究它是服從某種理論分布還是某種假設(shè)分布。即在推斷總體的分布時(shí)參照樣本的分布,這種檢驗(yàn)方法屬于自由分布中的非參數(shù)檢驗(yàn)。它主要應(yīng)用于一個(gè)樣本分為多種類(lèi),或多個(gè)樣本各有多種類(lèi)的數(shù)據(jù),即比較兩個(gè)或兩個(gè)以上的構(gòu)成比的統(tǒng)計(jì)方法,在藥學(xué)與醫(yī)學(xué)中應(yīng)用極為廣泛,在應(yīng)用統(tǒng)計(jì)中常常需要用到卡方檢驗(yàn)進(jìn)行假設(shè)檢驗(yàn)[2]。
卡方檢驗(yàn)是對(duì)樣本的實(shí)際頻數(shù)與期望頻數(shù)進(jìn)行比較并比較二者之間的偏離程度,它們相差或偏離的幅度大小與卡方值的大小相關(guān)性很大,當(dāng)二者完全相符時(shí)卡方值為0,而卡方值越小則表明二者越趨于相符,卡方值越大,則代表二者不相符[5]。
若列聯(lián)表四個(gè)格子排序后的實(shí)際值分別為a,b,c,d,n = a+b+c+d,則對(duì)列聯(lián)表進(jìn)行卡方檢驗(yàn),為此引進(jìn)統(tǒng)計(jì)量
這個(gè)統(tǒng)計(jì)量服從 (p -1)(q -1)的卡方分布,其中p 代表行數(shù),q 代表列數(shù).這里要求樣本含量大于40,而且列聯(lián)表中的理論頻數(shù)不小于5,或者小于5 的數(shù)據(jù)不超過(guò)數(shù)據(jù)的五分之一,當(dāng)樣本量較小時(shí),可直接求得概率值進(jìn)行判斷,當(dāng)樣本量大于40,而頻數(shù)小于5 時(shí),通過(guò)對(duì)卡方值的進(jìn)一步修正即可判斷[2]。
某醫(yī)療機(jī)構(gòu)為了了解糖尿病與酗酒是否有關(guān),進(jìn)行了一次抽樣調(diào)查,共調(diào)查了200 個(gè)成年人,其中酗酒者106 人,不酗酒者94 人,調(diào)查結(jié)果是:酗酒的106 人中有82 人患糖尿病,24 人不患糖尿病;不酗酒的94 人中44 人患糖尿病,50 人不患糖尿病,研究對(duì)象可以分為I 和II,1 有兩類(lèi)取值,即酗酒與不酗酒,II 有兩類(lèi)取值,即患糖尿病與不患糖尿病,統(tǒng)計(jì)以上數(shù)據(jù)可得到如下列聯(lián)表:
表1 糖尿病與酗酒人數(shù)統(tǒng)計(jì)表
我們要研究的問(wèn)題是能否依據(jù)這些數(shù)據(jù)來(lái)判斷患糖尿病與酗酒相關(guān),很多實(shí)際問(wèn)題需要判斷分類(lèi)變量之間是否有關(guān)系,既二者是否相互獨(dú)立,根據(jù)列聯(lián)表和卡方檢驗(yàn)的性質(zhì),我們可以利用它們來(lái)探究疾病的成因??梢愿鶕?jù)以根據(jù)抽樣調(diào)查出來(lái)的數(shù)據(jù)繪制直方圖1、圖2。
圖1 糖尿病與酗酒人數(shù)直方圖1
圖2 糖尿病與酗酒人數(shù)直方圖2
從圖中分析,在直觀印象認(rèn)為患糖尿病與酗酒是有關(guān)的,而實(shí)際是否相關(guān),需要用統(tǒng)計(jì)觀點(diǎn)來(lái)考察這個(gè)問(wèn)題,利用列聯(lián)表來(lái)探究以下問(wèn)題:
1)判斷酗酒與否和患病的可能性大小的差異性及其標(biāo)準(zhǔn);
2)差異性達(dá)到多大才能作出患糖尿病與酗酒有關(guān)的判斷;
3)能否用數(shù)量來(lái)刻畫(huà)二者相關(guān)的判斷;
4)做出相應(yīng)判斷的把握為多大。
通過(guò)樣本數(shù)據(jù)的計(jì)算得出,在不酗酒者中患糖尿病所占人數(shù)比重為46.81%;在酗酒者中患糖尿病所占人數(shù)的比重為77.36%。
上面我們通過(guò)分析數(shù)據(jù)和圖形,得到的直觀印象是酗酒和患糖尿病有關(guān),還需要利用統(tǒng)計(jì)觀點(diǎn)做出判斷。利用列聯(lián)表以及假設(shè)檢驗(yàn)來(lái)分析研究這個(gè)分類(lèi)變量的相關(guān)性的問(wèn)題?,F(xiàn)在想要知道能夠以多大的把握認(rèn)為酗酒與糖尿病有關(guān),由抽樣的隨機(jī)性,根據(jù)樣本得到的推斷可能正確也可能錯(cuò)誤。利用χ2做假設(shè)檢驗(yàn),對(duì)所推斷的變量之間進(jìn)行估計(jì),為使估計(jì)較準(zhǔn)確,應(yīng)使樣本量n 盡量大一些[6]。
為此先假設(shè):H0:酗酒與患糖尿病不具有相關(guān)性
H1:酗酒與患糖尿病具有相關(guān)性
用M 表示酗酒,N 表示患糖尿病,則命題酗酒與患糖尿病沒(méi)有關(guān)系等價(jià)于“酗酒與患糖尿病獨(dú)立。即假設(shè)H0等價(jià)于P(MN)= P(M)P(N)。在H0成立的條件下,構(gòu)造出與H0矛盾的小概率事件,如果樣本使得這個(gè)小概率事件發(fā)生,就能以一定把握說(shuō)明H1成立;否則H0成立。
為了一般化,將上表中的調(diào)查數(shù)字用字母代替,則得到2 ×2 列聯(lián)表
表2 糖尿病與酗酒人數(shù)列聯(lián)表
在表2中,事件MN 發(fā)生的頻數(shù)為a;事件M 和N 發(fā)生的頻數(shù)分別為a +b 和a +c。由于在大事件中頻率接近于概率,所以在H0成立的條件下應(yīng)該有酗酒者中患糖尿病的比例等于不酗酒者中患糖尿病的比例,即
| ad - bc |其值越小,則說(shuō)明酗酒與患病之間的關(guān)系越弱;其值越大,則說(shuō)明酗酒與患病的關(guān)系越強(qiáng)。通過(guò)計(jì)算有:
統(tǒng)計(jì)學(xué)中常常用卡方統(tǒng)計(jì)量來(lái)描述實(shí)際觀測(cè)值與估計(jì)值的差異,為此構(gòu)造卡方統(tǒng)計(jì)量χ2= ∑來(lái)使不同樣本容量的數(shù)據(jù)有統(tǒng)一的評(píng)判標(biāo)準(zhǔn),構(gòu)造一個(gè)統(tǒng)計(jì)量稱(chēng)它為卡方統(tǒng)計(jì)量
因此若H0成立,即酗酒與患糖尿病沒(méi)有關(guān)系,則χ2的觀測(cè)值應(yīng)該很小。最后查對(duì)臨界值表來(lái)作相應(yīng)判斷。
表3 χ2 檢驗(yàn)臨界值表
參照上表即可以一定的把握進(jìn)行判斷,其意義如下表所示:
表4 χ2 檢驗(yàn)臨界值表的意義
因此可以依據(jù)這些步驟來(lái)驗(yàn)證酗酒是否與患糖尿病有關(guān),通過(guò)計(jì)算可知
在H0建立的情況下χ2大于10.828,出現(xiàn)這樣觀測(cè)值的概率不超過(guò)0.001,因此99.9%的把握認(rèn)為H0不成立,即99.9%的把握認(rèn)為患病與酗酒有關(guān)。
2.2.1 簡(jiǎn)介交叉列聯(lián)表及SPSS[4]
在實(shí)際問(wèn)題分析中,除了需要對(duì)某個(gè)單個(gè)變量的分布情況進(jìn)行分析外,還要分析多個(gè)變量在不同取值情況下的數(shù)據(jù)分布情況,而更加深刻的分析變量之間的相關(guān)性,即為交叉列聯(lián)表分析。當(dāng)有多個(gè)因素影響所調(diào)查的對(duì)象時(shí),通過(guò)交叉列聯(lián)表可以確定這些因素與所研究的樣本之間的相關(guān)性且能分析出這些因素之間的關(guān)系。多個(gè)特征決定的分類(lèi)變量的頻數(shù)的排序分布所成的表定義為列聯(lián)表,又定義它為頻數(shù)交叉表,在SPSS 的Crosstabs 過(guò)程可以得到交叉列聯(lián)表,它可以提供了多種檢驗(yàn)方法和相關(guān)性度量方法,其中在分析列聯(lián)表資料的數(shù)據(jù)中常常結(jié)合到假設(shè)檢驗(yàn)中的χ2檢驗(yàn)。所以在分析研究分類(lèi)變量的性質(zhì)時(shí)可以通過(guò)調(diào)查的樣本數(shù)據(jù)來(lái)得到二維交叉列聯(lián)表,然后通過(guò)得到交叉列聯(lián)表對(duì)這兩個(gè)變量的關(guān)聯(lián)性進(jìn)行分析。在這過(guò)程中,借助假設(shè)檢驗(yàn)中的非參數(shù)檢驗(yàn)和能準(zhǔn)確刻畫(huà)變量間相關(guān)程度的統(tǒng)計(jì)量。在本例中,利用SPSS 所提供的相關(guān)系數(shù)適用于不同類(lèi)型數(shù)據(jù),相關(guān)性檢驗(yàn)的原假設(shè)H0:行列變量之間相互獨(dú)立,顯著關(guān)系不明顯,每個(gè)單元格的頻數(shù)期望值和實(shí)際頻數(shù)相差不大,不拒絕原假設(shè);如果二者相差很大,則拒絕原假設(shè),并根據(jù)SPSS 檢驗(yàn),來(lái)判斷是否存在相關(guān)關(guān)系[6]。
同列聯(lián)表所介紹的一樣,交叉列聯(lián)表中各表格的期望值大小應(yīng)大于1,小于的個(gè)數(shù)不能超過(guò)的表格,這種情況應(yīng)對(duì)假設(shè)檢驗(yàn)的統(tǒng)計(jì)量即卡方量進(jìn)行修正。
在SPSS 中,檢驗(yàn)相關(guān)關(guān)系中的方法中一下三種方法較為常用:
1)卡方檢驗(yàn):對(duì)行列變量之間是否相關(guān)進(jìn)行驗(yàn)證。χ2=,其中f0表示實(shí)際觀察頻數(shù),f1表示期望頻數(shù)且統(tǒng)計(jì)量服從自由度為 (行數(shù)-1)(列數(shù)-1)的卡方統(tǒng)計(jì)。若在SPSS 中判斷行列變量之間的相關(guān)性需要計(jì)算卡方統(tǒng)計(jì)量時(shí)和相應(yīng)的相伴概率,常適用于名義變量的計(jì)算。
2)ψ 系數(shù):計(jì)算公式是由χ2修改得到的,計(jì)算變量的相關(guān)系數(shù)。其中0 <ψ <1 ,M = min (行數(shù),列數(shù))。
3,列聯(lián)系數(shù):計(jì)算公式由χ2修改得到的,計(jì)算相關(guān)系數(shù),但是它常常應(yīng)用于分類(lèi)變量的計(jì)算,其值為C
2.2.2 事例探究
在生活中,人們會(huì)患有多種疾病,我們常常關(guān)心這些疾病之間是否相關(guān),一些高血壓患者常?;加行呐K病,那么血壓疾病和心臟病是相互影響的還是獨(dú)立,這可以利用交叉列聯(lián)表來(lái)分析血壓與心臟病之間的關(guān)系。
在抽樣調(diào)查的過(guò)程中,將調(diào)查對(duì)象相對(duì)于血壓以及心臟按健康的程度進(jìn)行分級(jí),即健康、亞健康、患病三類(lèi),形成血壓等級(jí)和心臟健康等級(jí)的交叉列聯(lián)表,并考察血壓和心臟間有無(wú)關(guān)聯(lián)性。
以某患病人群為樣本進(jìn)行抽樣調(diào)查,利用SPSS 對(duì)所得到的數(shù)據(jù)進(jìn)行操作。
表5 患病人群的血壓及心臟健康程度分級(jí)統(tǒng)計(jì)表
依據(jù)前文對(duì)列聯(lián)表以及假設(shè)檢驗(yàn)的介紹,可以依此分析步驟探究問(wèn)題:
1)提出原假設(shè)H0:血壓與心臟的健康狀況這兩個(gè)變量互相無(wú)影響;
H1:血壓與心臟的健康狀況不相互獨(dú)立。
2)之所以利用交叉列聯(lián)表分析是由于這兩個(gè)變量不是連續(xù)型而都屬于離散分類(lèi)型。
3)采用SPSS 操作,利用Chi - Square 卡方檢驗(yàn)、皮爾森卡方檢驗(yàn)(Pearson)、似然比卡方檢驗(yàn)(Likelihood - ration)、連續(xù)性校正卡方檢驗(yàn)來(lái)探究心臟的健康與否與血壓的關(guān)系。通過(guò)樣本的數(shù)據(jù)可以由SPSS 輸出以下主要內(nèi)容:
表6 患病人群的血壓及心臟健康程度分級(jí)計(jì)數(shù)與期望對(duì)比表
表7 Chi - Square 卡方檢驗(yàn)
在上表中看出χ2統(tǒng)計(jì)量的值為225.274,所對(duì)應(yīng)的p 值為0.000 .由于p 值遠(yuǎn)遠(yuǎn)小于通常使用的顯著性水平,因此檢驗(yàn)的結(jié)論是拒絕原假設(shè),很大把握認(rèn)為血壓的健康狀況和心臟的健康狀況是相互獨(dú)關(guān)的。
列聯(lián)表將研究對(duì)象按某些特征分類(lèi)并統(tǒng)計(jì)排序列出的數(shù)據(jù)表。由于樣本所涉及的數(shù)據(jù)形式較簡(jiǎn)單,在統(tǒng)計(jì)檢驗(yàn)中常常出現(xiàn)錯(cuò)誤,常常會(huì)因選擇統(tǒng)計(jì)方法的不適宜;或者數(shù)據(jù)不滿足統(tǒng)計(jì)方法的條件而出現(xiàn)錯(cuò)誤[7],列聯(lián)表的具體特征決定列聯(lián)表檢驗(yàn)的統(tǒng)計(jì)方法,列聯(lián)表常常又可以分為相關(guān)列聯(lián)表和獨(dú)立列聯(lián)表。前者的兩個(gè)變量的特性完全相同。因此首先需要檢驗(yàn)這個(gè)表中的兩個(gè)變量特性是否形同。如果其中的兩個(gè)變量的特性不同,則它是獨(dú)立列聯(lián)表。在與假設(shè)檢驗(yàn)結(jié)合的過(guò)程中假設(shè)檢驗(yàn)的結(jié)論,僅僅代表樣本從同一總體中抽取的概率。例如當(dāng)藥效的差異性并不明顯時(shí),并不代表兩種藥的藥效相同,只能說(shuō)這兩種藥作為樣本來(lái)自同一總體的概率大。而當(dāng)兩種藥的治療率差異性較大時(shí),這并不能說(shuō)明其中一種藥的藥性明顯高于另一種藥的藥性,只能代表兩種藥從同一總體抽取的可能性或概率小,也存在著這兩種樣本來(lái)自不同的總體的可能性,此種差異具有代表性。因此,作出有無(wú)差異性或相關(guān)性的結(jié)論,要從實(shí)際并結(jié)合專(zhuān)業(yè)上加以研究,要根據(jù)醫(yī)學(xué)上的實(shí)際意義來(lái)評(píng)論。同時(shí)注意在假設(shè)檢驗(yàn)抽取樣本數(shù)據(jù)時(shí)最好采取抽樣調(diào)查并具有隨機(jī)性,且分類(lèi)變量除在控制處理?xiàng)l件不同外,應(yīng)盡量使其他條件相同,這樣才能避免其它條件的干擾。不能以百分百的把握對(duì)檢驗(yàn)結(jié)果下結(jié)論,這是由于顯著性性水平不是固定的而是是人為規(guī)定的,相對(duì)的。以根據(jù)P <0.01 作出的結(jié)論,即使有99% 的把握來(lái)說(shuō)明其關(guān)系,仍有1% 錯(cuò)誤的可能。
在對(duì)樣本進(jìn)行定量的分析時(shí),假設(shè)總體服從正態(tài)分布,并采取參數(shù)檢驗(yàn)統(tǒng)計(jì)方法分析研究。而對(duì)于總體分布未知的情況下和對(duì)定性資料的分析,無(wú)法進(jìn)行參數(shù)檢驗(yàn),常采用非參數(shù)檢驗(yàn)方法。例如χ2檢驗(yàn),列聯(lián)表分析是非參數(shù)檢驗(yàn)方法中應(yīng)用最廣泛的方法之一,它在經(jīng)濟(jì)、社會(huì)、醫(yī)學(xué)、教育等學(xué)領(lǐng)域定性分析中應(yīng)用的較為廣泛,它是定性資料進(jìn)行定量分析的基礎(chǔ),在醫(yī)學(xué)的應(yīng)用中極為廣泛,適合醫(yī)學(xué)中難以量化的定性變量間相關(guān)或獨(dú)立性分列。列聯(lián)表獨(dú)立性檢驗(yàn)方法最大的優(yōu)點(diǎn)就是讓我們從孤立的數(shù)據(jù)本身分析問(wèn)題的本質(zhì),及時(shí)的發(fā)現(xiàn)問(wèn)題和解決問(wèn)題[8]。
[1]陳希孺.數(shù)理統(tǒng)計(jì)理論[M].北京:科學(xué)出版社,1981:203 -209,297 -299.
[2]楊廷芬.2 ×2 列聯(lián)表檢驗(yàn)方法的回顧與比較[D].廣州:中山大學(xué)碩士學(xué)位論文,2009:9 -12.
[3]孫振球,徐勇勇.醫(yī)學(xué)統(tǒng)計(jì)學(xué)[M].北京:人民衛(wèi)生出版社,2008:136 -156.
[4]方穎.利用SPSS 軟件處理臨床治療率[J].醫(yī)學(xué)理論與實(shí)踐,2011,24(16):15 -17.
[5]何平平.配對(duì)設(shè)計(jì)2 ×2 列聯(lián)表的精確檢驗(yàn)方法及應(yīng)用[J].中國(guó)衛(wèi)生統(tǒng)計(jì),2006(5):10 -12.
[6]B.S.Everitt.The Analysis of Contingency Tables[M].London,1977:11 -36.
[7]陸運(yùn)清.列聯(lián)表資料檢驗(yàn)的幾種常見(jiàn)錯(cuò)誤辨析[J].統(tǒng)計(jì)與決策,2010(15):161 -163.
[8]蔣慶瑯.實(shí)用統(tǒng)計(jì)分析方法[M].方積乾,等譯.北京:北京醫(yī)科大學(xué),中國(guó)協(xié)和醫(yī)科大學(xué)聯(lián)合出版社,1988:102,118 -134.