戴建國(guó)
(廣州大學(xué) 數(shù)學(xué)與信息科學(xué)學(xué)院,廣東 廣州 510006)
?
名義變量的關(guān)聯(lián)強(qiáng)度分析
戴建國(guó)
(廣州大學(xué) 數(shù)學(xué)與信息科學(xué)學(xué)院,廣東 廣州 510006)
針對(duì)獨(dú)立性檢驗(yàn)統(tǒng)計(jì)量不能度量關(guān)聯(lián)性強(qiáng)弱和一些關(guān)聯(lián)測(cè)度不具解釋性的問題,首先介紹了Goodman—Kruskal提出的兩種度量名義變量間關(guān)聯(lián)性強(qiáng)弱的指標(biāo),然后將其拓展到多變量的情況,并給出了實(shí)例進(jìn)行分析,結(jié)果表明其對(duì)實(shí)際情況的確有更好更合理的解釋意義.
名義變量;關(guān)聯(lián)測(cè)度;可解釋性
隨著大數(shù)據(jù)時(shí)代的興起,在數(shù)據(jù)分析工作中經(jīng)常會(huì)遇到離散變量數(shù)據(jù)的情況,在醫(yī)學(xué)和社會(huì)學(xué)統(tǒng)計(jì)工作中尤為普遍,而其也通常是通過列聯(lián)表的形式來分析.在對(duì)于最簡(jiǎn)單的二維名義變量列聯(lián)表(即兩個(gè)變量都不存在自然序)分析時(shí),通常只對(duì)兩個(gè)名義型變量進(jìn)行獨(dú)立性檢驗(yàn),涉及到的檢驗(yàn)統(tǒng)計(jì)量有皮爾遜卡方統(tǒng)計(jì)量,Yate’s連續(xù)修正卡方統(tǒng)計(jì)量,似然比等檢驗(yàn)統(tǒng)計(jì)量.但對(duì)于獨(dú)立性檢驗(yàn)統(tǒng)計(jì)量來說,它們只能驗(yàn)證變量間有沒有關(guān)聯(lián),而不能給出一個(gè)度量關(guān)聯(lián)的指標(biāo),當(dāng)然也存在一些度量列聯(lián)表中變量關(guān)系強(qiáng)弱的指標(biāo),比如Phi系數(shù),列聯(lián)系數(shù),Cramer’s系數(shù)[1]等一些度量指標(biāo),而他們依然存在局限性,首先它們作為一個(gè)度量指標(biāo)沒有給出合理的解釋,其次是比較難用于高維列聯(lián)表的情況.而本文介紹的測(cè)度λGK,τGK克服了這些局限性,它們是Goodman—Kruskal在1954年提出來的[2],其都是以引入某變量后而減少預(yù)測(cè)誤差比例為基礎(chǔ)來構(gòu)造的統(tǒng)計(jì)量.目前對(duì)于這兩個(gè)關(guān)聯(lián)測(cè)度的研究與應(yīng)用的文獻(xiàn)有[3-6],尤其在文獻(xiàn)[3]中從不同的角度給出了τGK的更為一般的形式和深入的研究.
設(shè)一個(gè)二維列聯(lián)表,其行為名義變量A有r個(gè)類別,列為名義變量B有c個(gè)類別,如表1所示,
表1 二維列聯(lián)表的一般結(jié)構(gòu)
2.1 關(guān)聯(lián)測(cè)度λGK
當(dāng)有兩個(gè)名義變量X,Y時(shí),分別視為自變量和因變量,設(shè)它們的類別數(shù)分別為I,J,則有一個(gè)二維列聯(lián)表與之對(duì)應(yīng),其主要過程是基于最佳預(yù)測(cè),當(dāng)不知道X信息時(shí),自然而然會(huì)將Y預(yù)測(cè)為其邊緣概率最大的一類;知道X信息時(shí),則在X的每一個(gè)類別下預(yù)測(cè)Y類別中最大的那一類,其相對(duì)減小即為:
當(dāng)可拓展到有n個(gè)名義變量的情況,設(shè)其中一個(gè)因變量為Y,其他n-1個(gè)為自變量記為X1,……X(n-1),對(duì)應(yīng)的類別數(shù)分別為N1,……,N(n-1),則對(duì)應(yīng)的關(guān)聯(lián)測(cè)度為:
2.2 關(guān)聯(lián)測(cè)度τGK
表2 有關(guān)黨派認(rèn)同的數(shù)據(jù)
對(duì)于以上給出的關(guān)聯(lián)測(cè)度,其與一些檢驗(yàn)統(tǒng)計(jì)量和關(guān)聯(lián)指標(biāo)相比,不僅能度量關(guān)聯(lián)性的強(qiáng)弱,而且具有可解釋性,在國(guó)外已被廣泛討論與應(yīng)用,但在國(guó)內(nèi)比較少人關(guān)注這兩個(gè)關(guān)聯(lián)測(cè)度,而且隨著R軟件的普及,也有專家給出計(jì)算相關(guān)指標(biāo)的函數(shù)包,并命名為Goodman-Kruskal以方便被更多人使用,但該包中只給出兩個(gè)名義變量的計(jì)算函數(shù),并沒有給出多變量的情況,所以有待進(jìn)一步去研究.
[1]薛允蓮,姜世強(qiáng),劉貴浩,等.列聯(lián)表資料的關(guān)聯(lián)強(qiáng)度[J].中國(guó)衛(wèi)生統(tǒng)計(jì),2011,28(3):244-246.
[2]GoodmanLA,KruskalWH.MeasuresofAssociationforCrossClassifications[J].Springer-Verlag,1979,31(49):20-30.
[3]HuangW,ShiY,WangX.Anominalassociationmatrixwithfeatureselectionforcategoricaldata[J].Statistics,2013,25(25):58-65.
[4]BiswasA,ParkE.Measuresofassociationfornominalcategoricalvariables☆[J].JournaloftheKoreanStatisticalSociety,2009,38(3):247-258.
[5]TahaA,HadiAS.Pair-wiseassociationmeasuresforcategoricalandmixeddata[J].InformationSciences,2016,s346-347:73-89.
[6]LeeAJ.Somesimplemethodsforgeneratingcorrelatedcategoricalvariates[J].ComputationalStatistics&DataAnalysis,1997,26(2):133-148.
[責(zé)任編輯:王 軍]
Nominal variable correlation strength analysis
DAI Jianguo
(School of Mathematics and Information Science,Guangzhou University,Guangzhou 510006,China)
in view of the independence test statistics can’t measure strength of correlation and some associated measures can’t be interpreted,first introduced the Goodman-Kruskal correlations strength index between two nominal variables i,then extended to multivariable case,and gives the examples were analyzed,and the results show that the fact there are better and reasonable explanation.
nominal variables;correlation measure;interpretability
2017-02-21
戴建國(guó)(1992—),男,江西撫州人,廣州大學(xué)碩士研究生,主要從事概率統(tǒng)計(jì),數(shù)據(jù)挖掘的研究.
O211
A
1672-3600(2017)09-0011-03
商丘師范學(xué)院學(xué)報(bào)2017年9期