薛允蓮 姜世強 劉貴浩 張晉昕
列聯(lián)表資料的關(guān)聯(lián)強度*
薛允蓮1姜世強2劉貴浩3張晉昕4△
目的探究行列數(shù)為2-4的各列聯(lián)表Pearson列聯(lián)系數(shù)的分布及其與相關(guān)系數(shù)的關(guān)系。方法 采用SAS 9.1.3軟件模擬行列數(shù)分別為2-4,且行合計固定的各種列聯(lián)表,計算相關(guān)系數(shù)和列聯(lián)系數(shù),繪制兩者的散點圖,描述其取值變化關(guān)系。結(jié)果 2×2列聯(lián)表的相關(guān)系數(shù)和列聯(lián)系數(shù)成曲線相關(guān),但是其他情況下相關(guān)系數(shù)和列聯(lián)系數(shù)的關(guān)系并非一一對應(yīng),此時通過相關(guān)系數(shù)劃分列聯(lián)系數(shù)的關(guān)聯(lián)強度是不合適的。結(jié)論 對于2×2列聯(lián)表,可以通過相關(guān)系數(shù)的強度范圍近似定義列聯(lián)系數(shù)的強度范圍。當(dāng)行列數(shù)多于2時,不能根據(jù)相關(guān)系數(shù)的強度范圍定義列聯(lián)系數(shù)的強度范圍。
列聯(lián)表 列聯(lián)系數(shù) 相關(guān)系數(shù) 關(guān)聯(lián)強度
*:中山大學(xué)教學(xué)改革研究課題(編號:中大教務(wù)〔2009〕108號-26)
1.中山大學(xué)孫逸仙紀(jì)念醫(yī)院(510120)
2.深圳市南山區(qū)疾病預(yù)防控制中心(518054)
3.廣東省健康教育研究所(510120)
4.中山大學(xué)公共衛(wèi)生學(xué)院醫(yī)學(xué)統(tǒng)計與流行病學(xué)系(510080)
△通訊作者:張晉昕,E-mail:zhjinx@mail.sysu.edu.cn
醫(yī)學(xué)研究中常采用列聯(lián)系數(shù)計算列聯(lián)表資料的關(guān)聯(lián)強度,這在一定程度上克服因樣本量過多或過少導(dǎo)致χ2值被過低或過高估計的缺陷〔1-3〕。常用的列聯(lián)系數(shù)有Phi(φ),ContingencyCoefficientr和Cramer’sV。
(1)Phi通常用于二分法形成的四格表資料相關(guān)性的測量。對于多維頻數(shù)表,Phi的最大值依賴于頻數(shù)表的維數(shù),并且絕對值會超過1,這使得Phi不是測量相關(guān)性完全合適的方法。(2)Pearson列聯(lián)系數(shù)(ContingencyCoefficientr)是對Phi的校正,目的是使相關(guān)性測量可以應(yīng)用于多維列聯(lián)表資料。r值雖然控制了樣本含量的影響,但其大小受到列聯(lián)表維數(shù)的影響,對于低維列聯(lián)表r的最大值小于1。(3)列聯(lián)系數(shù)r更適合于行列數(shù)相同時的列聯(lián)表資料,當(dāng)行列數(shù)不同時可以參考Cramer提出的列聯(lián)系數(shù)的修正方法(Cramer’sV)進(jìn)行修正。V取值在[0~1]之間,對于相同維數(shù)的列聯(lián)表資料,V值較Phi和Pearson系數(shù)小。V值受到列聯(lián)表邊緣合計的影響,邊緣合計的數(shù)值越大,V值越偏離1,僅當(dāng)兩變量的邊緣合計相等時,V值可達(dá)到1。所以V值也不是測量相關(guān)程度的可靠方法。
李克均等〔4〕認(rèn)為一個滿意的相關(guān)度量應(yīng)至少具備下列兩個特點:(1)當(dāng)兩變量顯示出完全不相關(guān)時,系數(shù)應(yīng)該等于0;(2)當(dāng)兩變量顯示出完全正相關(guān)時,系數(shù)應(yīng)該等于1。Pearson列聯(lián)系數(shù)r具有第一個特點但沒有第二個特點,使其在測量關(guān)聯(lián)強度時受到一定限制。但是,綜合以上三種列聯(lián)系數(shù)的特點可知,Pearson列聯(lián)系數(shù)r消除了樣本含量的影響,且絕對值不會超過1,是判斷行列數(shù)相等的列聯(lián)表資料關(guān)聯(lián)強度較為合適的方法。實際應(yīng)用中也較多采用Pearson列聯(lián)系數(shù)計算列聯(lián)表資料的關(guān)聯(lián)強度。
采用SAS9.1.3〔9〕軟件分別模擬行列數(shù)為2-4的列聯(lián)表,使每個列聯(lián)表的行百分比出現(xiàn)從0-1的各種情況組合的數(shù)據(jù)。本文一共模擬并計算了8種情況下列聯(lián)表資料相關(guān)系數(shù)和列聯(lián)系數(shù)的散點圖。
雖然列聯(lián)表資料的相關(guān)性不適合采用相關(guān)系數(shù)進(jìn)行描述,但是本文為了說明列聯(lián)系數(shù)的關(guān)聯(lián)強度,以絕對值[0,1]的相關(guān)系數(shù)為參照,計算同一列聯(lián)表的列聯(lián)系數(shù)和相關(guān)系數(shù)的關(guān)系。相關(guān)系數(shù)的計算是采用對頻數(shù)列加權(quán)的方式進(jìn)行。
模擬R×C列聯(lián)表資料和計算相關(guān)系數(shù)、列聯(lián)系數(shù)的SAS程序見附錄。
圖1~圖8列出了行列數(shù)為2-4時R×C列聯(lián)表的相關(guān)系數(shù)和列聯(lián)系數(shù)的散點圖,橫軸為列聯(lián)系數(shù),縱軸為相關(guān)系數(shù)。
圖1 2×2列聯(lián)表的相關(guān)系數(shù)和列聯(lián)系數(shù)的散點圖
圖2 2×3列聯(lián)表的相關(guān)系數(shù)和列聯(lián)系數(shù)的散點圖
圖3 2×4列聯(lián)表的相關(guān)系數(shù)和列聯(lián)系數(shù)的散點圖
圖4 3×2列聯(lián)表的相關(guān)系數(shù)和列聯(lián)系數(shù)的散點圖
圖5 3×3列聯(lián)表的相關(guān)系數(shù)和列聯(lián)系數(shù)的散點圖
圖6 3×4列聯(lián)表的相關(guān)系數(shù)和列聯(lián)系數(shù)的散點圖
圖7 4×3列聯(lián)表的相關(guān)系數(shù)和列聯(lián)系數(shù)的散點圖
圖8 4×4列聯(lián)表的相關(guān)系數(shù)和列聯(lián)系數(shù)的散點圖
可見,對于2×2列聯(lián)表資料,相關(guān)系數(shù)和列聯(lián)系數(shù)是曲線形式的一一對應(yīng)關(guān)系。通過圖形1可以大致確定2×2列聯(lián)表資料列聯(lián)系數(shù)的最大取值為0.707,可以通過相關(guān)系數(shù)密切程度的范圍〔4〕——[0,0.4)為低度相關(guān)、[0.4,0.7)為中度相關(guān)、[0.7,1]為高度相關(guān),近似確定列聯(lián)系數(shù)的密切程度范圍——[0,0.36)為低度相關(guān)、[0.36,0.56)為中度相關(guān)、[0.56,0.71]為高度相關(guān)。
當(dāng)行數(shù)或列數(shù)多于2時,相關(guān)系數(shù)和列聯(lián)系數(shù)并非一一對應(yīng),而是呈現(xiàn)擴(kuò)散或收斂狀的對應(yīng)關(guān)系。模擬序列情況可知,多數(shù)散點集中在列聯(lián)系數(shù)較大的位置。所以,對于行數(shù)或列數(shù)超過2的列聯(lián)表資料,不能基于列聯(lián)系數(shù)判定關(guān)聯(lián)密切程度。
在進(jìn)行列聯(lián)表資料關(guān)聯(lián)性的度量時,醫(yī)學(xué)工作者需要正確使用列聯(lián)系數(shù),不能簡單地以[0,1]作為所有維數(shù)列聯(lián)表資料關(guān)聯(lián)性的取值范圍,更不能以相關(guān)系數(shù)關(guān)聯(lián)強度的劃分范圍來定義列聯(lián)系數(shù)的關(guān)聯(lián)強度。
對于四格表資料,因為列聯(lián)系數(shù)和相關(guān)系數(shù)呈一一對應(yīng)的曲線關(guān)系,可以參考本文通過SAS程序繪制的散點圖計算得到列聯(lián)系數(shù)關(guān)聯(lián)強度的區(qū)間。但是對于列數(shù)或行數(shù)多于2的列聯(lián)表資料,因為相關(guān)系數(shù)和列聯(lián)系數(shù)并非呈現(xiàn)一一對應(yīng)的關(guān)系,所以不能簡單地像通過相關(guān)系數(shù)反映關(guān)聯(lián)強度的做法那樣,試圖基于列聯(lián)系數(shù)反映其關(guān)聯(lián)強度。
1.Roscino A,Pollice A.A Generalization of the Polychoric Correlation Coefficient.Dipartimento di Scienze Statistiche,2005:135-142.
2.Non-parametric Measures of Bivariate Relationships.http://www.unesco.org/webworld/idams/advguide/Chapt4_2.htm.
3.Nominal Association:Phi,Contingency Coefficient,Tschuprow's T,Cramer's V,Lambda,Uncertainty Coefficient.http://www2.chass.ncsu.edu/garson/pa765/assocnominal.htm.
4.李克均,時松和,胡東生.列聯(lián)表的行列關(guān)聯(lián)度與對應(yīng)分析.中國衛(wèi)生統(tǒng)計,2006,23(3):261-263.
5.方積乾主編.衛(wèi)生統(tǒng)計學(xué).第5版.北京:人民衛(wèi)生出版社,2003:213-214.
6.方積乾主編.醫(yī)學(xué)統(tǒng)計學(xué)與電腦實驗.上海:上??茖W(xué)技術(shù)出版社,2006:96-98.
7.方積乾主編.生物醫(yī)學(xué)研究的統(tǒng)計方法.北京:高等教育出版社,2007:160-163.
8.武建虎,賀佳,賀憲民,等.關(guān)聯(lián)規(guī)則及其在肝癌病人資料分析中的應(yīng)用.中國衛(wèi)生統(tǒng)計,2006,23(1):34-38.
9.SAS9.1.3在線指導(dǎo)手冊.http://support.sas.com/onlinedoc/913/docMainpage.jsp.
附錄
1./*固定行合計值的情況下,模擬產(chǎn)生各種數(shù)據(jù)組合的R×C列聯(lián)表資料*/
/*給定不同行列數(shù)的列聯(lián)表資料的參數(shù)取值,其中nrow為行數(shù),ncol為列數(shù),value為最小值和最大值的合計,low為每個格子的最小可能取值,high為每個格子的最大可能取值*/
2./*分別計算每個R×C表的列聯(lián)系數(shù)和相關(guān)系數(shù)*/
Association Strength of Contingency Table
XueYunlian,JiangShiqiang,LiuGuihao,etal.SunYat-senmemorialHospitalSun Yat-senuniversity(510120),Guangzhou
Objective To explore the distribution of Pearson contingency coefficients and their relationship with correlation coefficients.MethodsUsing SAS 9.1.3 software to simulate tables with row or column of 2-4 respectively when fixed row totals.Compute Pearson contingency coefficients and correlation coefficients of each table.Draw scatter plots of Pearson contingency coefficients and correlation coefficients to describe their relationship.ResultsThe scatter plot of correlation coefficients and Pearson contingency coefficients is a curve for 2×2 contingency table.However,for others there are no one-to-one correspondence relationship between correlation coefficients and Pearson contingency coefficients.It is impossible using Pearson contingency coefficients to determine association strength.ConclusionOne can determine intensity of association for Pearson contingency coefficients through correlation coefficients for 2×2 contingency table.But it makes no sense for the other contingency tables.
Contingency table;Pearson contingency coefficient;Correlation coefficient;Association strength
·應(yīng)用研究·