亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        信息相關(guān)系數(shù)在列聯(lián)表中的應(yīng)用

        2017-01-09 13:43:46劉成友張蓓蓓
        中國衛(wèi)生統(tǒng)計(jì) 2016年5期
        關(guān)鍵詞:關(guān)聯(lián)系數(shù)樣本量公式

        丁 勇 劉成友 張蓓蓓

        信息相關(guān)系數(shù)在列聯(lián)表中的應(yīng)用

        丁 勇1△劉成友2張蓓蓓1

        χ2檢驗(yàn)在R×C列聯(lián)表資料的統(tǒng)計(jì)研究中有著廣泛的應(yīng)用,但也存在著因樣本量改變而使χ2值被過低或過高估計(jì)的問題,通過引進(jìn)R×C列聯(lián)表的關(guān)聯(lián)系數(shù),可在一定程度上克服這一缺陷[1-3]。關(guān)聯(lián)度的分析是分析系統(tǒng)中各因素關(guān)聯(lián)程度的方法,正確計(jì)算列聯(lián)表資料的關(guān)聯(lián)系數(shù),不僅對于統(tǒng)計(jì)方法本身,而且對于實(shí)際應(yīng)用都意義重大。目前常用的關(guān)聯(lián)系數(shù)為Pearson列聯(lián)系數(shù)[4-6]。本文將以信息論為基礎(chǔ)的信息相關(guān)系數(shù)[7]應(yīng)用于R×C列聯(lián)表,并與Pearson列聯(lián)系數(shù)進(jìn)行比較,通過理論分析、實(shí)例計(jì)算和計(jì)算機(jī)模擬,我們發(fā)現(xiàn)信息相關(guān)系數(shù)更合適作為列聯(lián)表關(guān)聯(lián)系數(shù)的指標(biāo)。

        χ2檢驗(yàn)的不足之處

        一般的R行C列的R×C列聯(lián)表數(shù)據(jù)如表1所示。χ2檢驗(yàn)的統(tǒng)計(jì)量公式為[4-5]:

        自由度v=(R-1)(C-1)

        由χ2值可求出相應(yīng)的概率值

        式中的f(x)為χ2分布的概率密度函數(shù)。實(shí)際應(yīng)用中,p值一般通過查表或用各種數(shù)學(xué)、統(tǒng)計(jì)軟件得到,為得到更精確的值,本文用數(shù)學(xué)軟件Matlab的chi2cdf函數(shù)計(jì)算。

        表1 R×C列聯(lián)表數(shù)據(jù)

        關(guān)于χ2檢驗(yàn)的應(yīng)用,先看一個(gè)簡單的4格表例子。

        例:某研究欲比較兩種藥物對治療某疾病的效果,將325名治療者隨機(jī)分成2組,結(jié)果如表2所示,問兩種藥物的有效率是否相等?(顯著性水平α=0.05)

        表2 兩種藥物治療某種疾病的有效率

        建立原假設(shè)H0:兩種藥物的有效率相同。

        備擇假設(shè)H1:兩種藥物的有效率不同。

        把表1的所有數(shù)據(jù)擴(kuò)大一倍,從而樣本量也擴(kuò)大1倍(n=650),有效率保持不變時(shí),由公式(1)不難求出此時(shí)χ2=4.3337,故拒絕原假設(shè),接受備擇假設(shè),認(rèn)為兩種藥物的有效率不同。

        考慮一般的R×C表,當(dāng)樣本量擴(kuò)大k倍,而表中數(shù)據(jù)的比例不變,記此時(shí)的χ2值為由公式(1)可得

        是原χ2值的k倍,但自由度仍然是v=(R-1)(C-1)。因此,對給定的顯著性水平α,如果原R×C表的但適當(dāng)?shù)財(cái)U(kuò)大樣本量倍數(shù)k,會有

        僅僅由于樣本量的變化,它們之間的比例關(guān)系沒有發(fā)生變化,卻導(dǎo)致了兩個(gè)不同的結(jié)論,這說明χ2檢驗(yàn)在應(yīng)用中存在一定的不足之處。

        列聯(lián)系數(shù)和信息相關(guān)系數(shù)及其比較

        為了解決χ2檢驗(yàn)應(yīng)用中的不足之處,引進(jìn)不受樣本量變化影響的關(guān)聯(lián)系數(shù)。這些關(guān)聯(lián)系數(shù)有[3]:Phi系數(shù)、Pearson列聯(lián)系數(shù)、Cramer′s V等。目前最常用的關(guān)聯(lián)系數(shù)是Pearson列聯(lián)系數(shù)(以下簡稱列聯(lián)系數(shù)),廣泛出現(xiàn)在各種統(tǒng)計(jì)教材和實(shí)際應(yīng)用中[3-6]。記列聯(lián)系數(shù)為r,其計(jì)算公式為[4-5]

        顯然0≤r<1。由公式(3)可知,當(dāng)樣本量擴(kuò)大k倍時(shí),r保持不變,因?yàn)?/p>

        在信息論中,如果隨機(jī)變量X的分布律為pi=P(X=xi)>0(i=1,2,…,m),則其信息熵定義為[8]其中b為對數(shù)的底,一般取b為2、e(自然對數(shù))或10(常用對數(shù))。文獻(xiàn)[7]以信息熵為依據(jù),提出了一種廣義相關(guān)系數(shù)的概念,本文將其引入R×C列聯(lián)表中,并稱其為信息相關(guān)系數(shù),定義如下:

        把表1的因素A看成一個(gè)隨機(jī)變量,有R個(gè)不同的狀態(tài)Ai(i=1,2,…,R),其概率分布為所以因素A的信息熵為把表1的因素B看成另一個(gè)隨機(jī)變量,有C個(gè)不同狀態(tài)Bj(j=1,2,…,C),其概率分布為所以因素B的信息熵為兩個(gè)因素A和B的聯(lián)合概率分布為所以聯(lián)合信息熵信息相關(guān)系數(shù)記為ρ,定義為

        由對數(shù)換底公式不難證明,無論對數(shù)的底b取何值,公式(4)的結(jié)果都是相同的。

        對表2的數(shù)據(jù),按公式(3)和(4)可分別求出r=0.0814和ρ=0.0029。

        當(dāng)數(shù)據(jù)成比例擴(kuò)大k倍時(shí),由H(A)、H(B)和H(AB)的計(jì)算公式可知,它們保持不變,故ρ也保持不變,這一性質(zhì)與列聯(lián)系數(shù)相同。

        文獻(xiàn)已證明[7,9]:0≤ρ≤1;且當(dāng)因素A和因素B相互獨(dú)立時(shí),H(AB)=H(A)+H(B),所以ρ=0;當(dāng)因素A和因素B完全相關(guān)時(shí),H(AB)=H(A)=H(B),所以ρ=1。

        在我們前期研究[9-10]的基礎(chǔ)上,本文做進(jìn)一步的工作,說明信息相關(guān)系數(shù)可應(yīng)用于R×C列聯(lián)表,并且比列聯(lián)系數(shù)更能反映真實(shí)情況。下面對列聯(lián)系數(shù)和信息相關(guān)系數(shù)進(jìn)行比較。

        1.動態(tài)變化比較

        為簡單明了,取3×3列聯(lián)表數(shù)據(jù)T=[tij],以樣本總數(shù)的3種3×3列聯(lián)表數(shù)據(jù)為例進(jìn)行說明。

        (1)完全相關(guān)列聯(lián)表

        取T為完全相關(guān)的列聯(lián)表按公式(1)~(4)可得p=0、r=0.8165和ρ=1。

        對完全相關(guān)的列聯(lián)表,顯然信息相關(guān)系數(shù)等于1更符合實(shí)際情況,所以ρ要優(yōu)于r。

        再來看數(shù)據(jù)變動的情況:

        T有9個(gè)元素,考慮給其中一個(gè)元素增加1個(gè)樣本,其余元素不變,即樣本總數(shù)為91時(shí),分別考察r和ρ的變化情況。

        上述計(jì)算表明,當(dāng)增加的樣本在對角線上時(shí),仍然是完全相關(guān)資料,結(jié)果不變;ρ都為1,而r都為0.8165,所以仍然有ρ要優(yōu)于r。

        當(dāng)增加的樣本在其他6個(gè)位置時(shí),不再是完全相關(guān)資料,r和ρ都相應(yīng)地減少。

        再考察不增加樣本,但T1的任意的兩行(或列)合并的情況:當(dāng)T1成為2×3(或3×2)列聯(lián)表,不再是完全相關(guān)資料時(shí),都有r和ρ相應(yīng)地減少。這些變化說明雖然r與ρ的值都變小,但r由0.8165變小,ρ由1變小,后者更符合實(shí)際情況。因?yàn)楫?dāng)列聯(lián)表由完全相關(guān)資料變?yōu)椴煌耆嚓P(guān)資料時(shí),列聯(lián)表的關(guān)聯(lián)系數(shù)應(yīng)該由1變?yōu)樾∮?。

        (2)不相關(guān)列聯(lián)表

        取T為不相關(guān)的列聯(lián)表按公式(1)~(4)可得P=1、r=ρ=0,都與不相關(guān)列聯(lián)表的關(guān)聯(lián)系數(shù)應(yīng)該為0相符合。

        仿前增加1個(gè)樣本。當(dāng)?shù)?行的3個(gè)元素的其中一個(gè)增加一個(gè)樣本時(shí),都有r=0.0334,ρ=0.0005;當(dāng)?shù)?行的3個(gè)元素的其中一個(gè)增加一個(gè)樣本時(shí),都有r=0.0215,ρ=0.0002;當(dāng)?shù)?行的3個(gè)元素的其中一個(gè)增加一個(gè)樣本時(shí),都有r=0.0153,ρ=0.0001。

        增加1個(gè)樣本時(shí),T2不再是不相關(guān)列聯(lián)表,關(guān)聯(lián)系數(shù)應(yīng)增加,上述計(jì)算結(jié)果與實(shí)際情況相符,兩個(gè)關(guān)聯(lián)系數(shù)都增加;且三種情況r與ρ的大小變化規(guī)律對應(yīng)相同:增加的1個(gè)樣本在第1行時(shí)增加最多,第2行次之,第3行最少。

        仿前,當(dāng)T2的任意兩行(或列)合并成為2×3(或3×2)列聯(lián)表時(shí),仍然是不相關(guān)列聯(lián)表,都有r=ρ=0,與實(shí)際情況相符。

        (3)一般列聯(lián)表

        取T為一般的列聯(lián)表(每行每列、正對角線都有5、10和15,但排列順序不同,對稱),按公式(1)~(4)可得p=0.0047、r=0.3780和ρ=0.0794。

        仿前,當(dāng)T3的任意的兩行(或列)合并成為2×3(或3×2)列聯(lián)表時(shí),都有r=0.2774和ρ=0.0515,都相應(yīng)減少。

        2.模擬比較

        從上述三個(gè)例子數(shù)據(jù),我們看到r與ρ的大小變化規(guī)律對應(yīng)相同,但r比ρ更符合實(shí)際情況。下面進(jìn)一步考察一般的情況。由于樣本總數(shù)n=90的3×3列聯(lián)表的所有可能性是個(gè)巨大的數(shù)字,無法一一計(jì)算,所以我們用模擬數(shù)據(jù)進(jìn)行研究。

        數(shù)據(jù)模擬過程:利用Matlab函數(shù)random(′discrete uniform′,20,3,3),每次產(chǎn)生[0,20]區(qū)間上離散型均勻分布的3行3列隨機(jī)整數(shù)矩陣,作為3×3列聯(lián)表。其依據(jù)是,由數(shù)理統(tǒng)計(jì)知識可知,[0,20]區(qū)間上的均勻分布的隨機(jī)數(shù)的均值(數(shù)學(xué)期望)為10,3行3列9個(gè)數(shù)據(jù)的樣本總和的均值為90。

        按照公式(1)~(4)計(jì)算模擬數(shù)據(jù)3×3列聯(lián)表的p、r和ρ值。共進(jìn)行10000次模擬,由于10000數(shù)據(jù)量較大,無法清楚地畫出散點(diǎn)圖,我們將p值范圍[0,1]等分為10個(gè)小區(qū)間,對r和ρ求平均值,用平均值作圖。結(jié)果見表3和圖1、圖2。

        圖1 r與ρ關(guān)系圖

        表3 小區(qū)間上列聯(lián)系數(shù)平均值和信息相關(guān)系數(shù)平均值(10000次模擬結(jié)果)

        用表3的數(shù)據(jù),并結(jié)合完全相關(guān)列聯(lián)表的p=0、r=0.8165和ρ=1及不相關(guān)列聯(lián)表的p=1、r=ρ=0數(shù)據(jù),可畫出到r與ρ的關(guān)系圖(圖1)以及r和ρ與p(p取區(qū)間中點(diǎn))的關(guān)系圖(圖2)。由圖1可知,當(dāng)r增大(或減小)時(shí),ρ也增大(或減?。?,即對應(yīng)的變化趨勢是一致的,說明前面3個(gè)例子的分析結(jié)果具有普遍性。由圖2可知,當(dāng)p增大時(shí),r和ρ都相應(yīng)減小,p接近0時(shí)r<ρ,p>0.05時(shí)都有r>ρ。

        用同樣的方法,我們又對樣本總數(shù)為90的3×4、4×4、4×5和5×5的列聯(lián)表情況進(jìn)行了模擬,都得到了類似的結(jié)果。

        討 論

        列聯(lián)系數(shù)r在實(shí)際問題中得到廣泛應(yīng)用,說明作為關(guān)聯(lián)系數(shù),它具有一定的合理性。以上比較表明,當(dāng)樣本量改變時(shí),信息相關(guān)系數(shù)ρ與r的變化規(guī)律相同。此外,由公式(3)和(4)可知,這兩個(gè)關(guān)聯(lián)系數(shù)還有如下的共同特征:任意交換列聯(lián)表的兩行或兩列,兩個(gè)關(guān)聯(lián)系數(shù)的值都不變。這些都表明,ρ與r有非常多的相同點(diǎn)和一致性,ρ同樣也具有作為關(guān)聯(lián)系數(shù)的合理性。

        文獻(xiàn)[6]認(rèn)為,一個(gè)滿意的相關(guān)度量應(yīng)至少具備下列兩個(gè)特點(diǎn):(1)當(dāng)兩變量不相關(guān)時(shí),其值應(yīng)該等于0;(2)當(dāng)兩變量完全相關(guān)時(shí),其值應(yīng)該等于1。從上面列聯(lián)表T1和T2的資料可知,列聯(lián)系數(shù)r滿足(1)但不滿足(2),對完全相關(guān)的列聯(lián)表T1,r僅為0.8165;由公式(3)也可知,對任意的R×C列聯(lián)表都有r<1。而信息相關(guān)系數(shù)ρ完全滿足這兩個(gè)特點(diǎn),因而彌補(bǔ)了列聯(lián)系數(shù)的這一缺陷。當(dāng)兩變量趨于完全相關(guān)時(shí),p應(yīng)趨于0,從而拒絕兩變量不相關(guān)的零假設(shè)。圖2表明,在p=0附近,ρ值大于r值,接近于1。

        我們認(rèn)為,從實(shí)際應(yīng)用出發(fā),一個(gè)滿意的相關(guān)度量還應(yīng)具備如下特點(diǎn):當(dāng)p值較大,接收兩變量不相關(guān)的零假設(shè),也就是說,當(dāng)認(rèn)為兩變量不相關(guān)時(shí),關(guān)聯(lián)系數(shù)值應(yīng)較小。從不相關(guān)列聯(lián)表T2的情況看,無論增加的一個(gè)樣本在哪一行,都有較大的p(分別為0.9987、0.9998和0.9999),在實(shí)際應(yīng)用中,都會接受兩變量不相關(guān)的假設(shè),所以這兩個(gè)變量的關(guān)聯(lián)系數(shù)都應(yīng)較小,從上述計(jì)算來看,都有ρ<r(0.0005<0.0334,0.0002<0.0215,0.0001<0.0153);從圖2也可看出,對于較大的p,ρ<r。因此,從實(shí)際應(yīng)用來看,作為關(guān)聯(lián)系數(shù),ρ更合理。

        由于R×C列聯(lián)表為計(jì)數(shù)資料,而χ2分布是連續(xù)型分布,因此對于χ2值的精確計(jì)算,還存在不同的看法和爭議[5,11-12],有的認(rèn)為要校正,有的認(rèn)為不需校正。不同的計(jì)算,會得到不同的χ2值,由公式(3)可知,這時(shí)又會導(dǎo)致不同的列聯(lián)系數(shù)。而信息相關(guān)系數(shù)是以信息熵為基礎(chǔ)的,對變量的分布沒有要求,與統(tǒng)計(jì)分布無關(guān),既能描述變量間的線性相關(guān)關(guān)系,也能描述變量間的非線性相關(guān)關(guān)系,用公式(4)計(jì)算,不存在爭議。許多研究資料(例如臨床醫(yī)學(xué)數(shù)據(jù))由于其特殊性,變量之間關(guān)系復(fù)雜,很難確定變量的分布,因此,更適合用信息相關(guān)系數(shù)描述數(shù)據(jù)之間的相關(guān)性。

        綜上所述,我們認(rèn)為,作為R×C列聯(lián)表的關(guān)聯(lián)系數(shù),信息相關(guān)系數(shù)ρ比列聯(lián)系數(shù)r更合適。本文拋磚引玉,希望在今后的各種實(shí)際問題中,應(yīng)用這一指標(biāo),并進(jìn)一步分析、比較,完善這方面的工作和研究,確定出一個(gè)更合理的關(guān)聯(lián)系數(shù)指標(biāo)。

        [1]Roscino A,Pollice A.A Generalization of the Polychoric Corelation Coefficient.New York:Springer,2006:135-142.

        [2]鄭兵云.非參數(shù)檢驗(yàn)的兩個(gè)局限性問題.統(tǒng)計(jì)教育,2007,6:8-9.

        [3]薛允蓮,姜世強(qiáng),劉貴浩等.列聯(lián)表資料的關(guān)聯(lián)強(qiáng)度.中國衛(wèi)生統(tǒng)計(jì),2011,28(3):244-246.

        [4]李賢平,沈崇圣,陳子毅.概率論與數(shù)理統(tǒng)計(jì).上海:復(fù)旦大學(xué)出版社.2003.

        [5]孫振球,徐勇勇主編.醫(yī)學(xué)統(tǒng)計(jì)學(xué).第4版.北京:人民衛(wèi)生出版社,2014:102-107.

        [6]李克均,時(shí)松和,胡東生.列聯(lián)表的行列關(guān)聯(lián)度與對應(yīng)分析.中國衛(wèi)生統(tǒng)計(jì),2006,23(3):261-263.

        [7]丁晶,王文圣,趙永龍.以互信息為基礎(chǔ)的廣義相關(guān)系數(shù).四川大學(xué)學(xué)報(bào)(工程科學(xué)版),2002,34(3):1-5.

        [8]王海燕.信息論基礎(chǔ).南京:東南大學(xué)出版社.2003:9-14.

        [9]丁勇.平均互信息的可加性和廣義相關(guān)系數(shù)不等式.工程數(shù)學(xué)學(xué)報(bào),2007,24(2):282-286.

        [10]丁勇.離散型隨機(jī)變量的平均信息熵.?dāng)?shù)學(xué)的實(shí)踐與認(rèn)識.202,42(18):141-146.

        [11]譚藝強(qiáng).四格表資料三種檢驗(yàn)方法分析.廣東藥學(xué)院學(xué)報(bào),1999,15(1):75-77.

        [12]陳國民,王潔貞.關(guān)于四格表資料值和校正值分布的模擬分析.中國衛(wèi)生統(tǒng)計(jì),2002,19(4):249-251.

        (責(zé)任編輯:郭海強(qiáng))

        1.南京醫(yī)科大學(xué)康達(dá)學(xué)院數(shù)學(xué)與計(jì)算機(jī)教研室(222000);

        2.南京醫(yī)科大學(xué)附屬南京醫(yī)院醫(yī)療設(shè)備處

        △通信作者:丁勇,E-mail:Yding@njmu.edu.cn

        猜你喜歡
        關(guān)聯(lián)系數(shù)樣本量公式
        組合數(shù)與組合數(shù)公式
        排列數(shù)與排列數(shù)公式
        醫(yī)學(xué)研究中樣本量的選擇
        等差數(shù)列前2n-1及2n項(xiàng)和公式與應(yīng)用
        基于灰色關(guān)聯(lián)度對山東小麥新品種(系) 綜合表現(xiàn)評價(jià)分析
        應(yīng)用灰色關(guān)聯(lián)度法分析稠油熱采油井生產(chǎn)主控因素
        航空裝備測試性試驗(yàn)樣本量確定方法
        例說:二倍角公式的巧用
        Sample Size Calculations for Comparing Groups with Binary Outcomes
        大豆產(chǎn)量及主要農(nóng)藝性狀的相關(guān)性及灰色關(guān)聯(lián)度分析
        国产精品高潮av有码久久| 久久精品国产91精品亚洲| 久久综合九色综合久久久| 阴唇两边有点白是怎么回事| 国产区女主播在线观看| 欧美牲交a欧美牲交aⅴ免费下载 | 国产少妇一区二区三区| 一区二区三区视频亚洲| 精品福利一区二区三区免费视频| 色哟哟最新在线观看入口| 丰满少妇被粗大猛烈进人高清| 99久久免费只有精品国产| 草草浮力影院| 久久久久波多野结衣高潮| 免费a级毛片无码无遮挡| 欧美日韩久久久精品a片| 国产福利片无码区在线观看| 蜜桃av噜噜一区二区三区香| 亚洲精品一区二区成人精品网站| 精品视频一区二区三区日本| 久久精品熟女亚洲av麻| 无码h黄肉3d动漫在线观看| 精品av天堂毛片久久久| 超碰97人人做人人爱少妇| 亚洲av熟妇高潮30p| 国产女人91精品嗷嗷嗷嗷| 亚洲成AV人在线观看网址| 日韩精品不卡一区二区三区| 少妇一级内射精品免费| 亚洲一区二区三区精品久久av| 国产精品毛片极品久久| 特级做a爰片毛片免费看| 中文人妻无码一区二区三区在线| 国产主播无套内射一区| 国产剧情亚洲一区二区三区| 男女视频在线观看一区| 亚洲av福利无码无一区二区| 精品国产乱码久久久久久口爆网站| 亚洲香蕉毛片久久网站老妇人| 久久综合激激的五月天| 日韩精品乱码中文字幕|