陳鼎 姜雨昂
摘要:在調(diào)查、醫(yī)學(xué)等研究中,有序變量的相關(guān)性都有所涉及,并且合理使用相關(guān)系數(shù)的計算方法得出正確的結(jié)論顯得尤為重要。文章介紹了有序變量相關(guān)系數(shù)的計算公式,通過R軟件編寫函數(shù)計算相關(guān)系數(shù)及其置信區(qū)間、p值,同時通過舉例說明有序變量相關(guān)性在教學(xué)研究、醫(yī)學(xué)研究、市場調(diào)查中的應(yīng)用,總結(jié)了相關(guān)系數(shù)之間的差異以及適用范圍。
關(guān)鍵詞:非參數(shù)統(tǒng)計;相關(guān)性;有序變量;R軟件
中圖法分類號:0212文獻標識碼:A
Correlation of ordinal variables and its application by R software
CHEN Ding,JIANG Yuang
(School of Mathematics and Statistics,Suzhou University,Suzhou 234000,China)
Abstract:In various researches such as investigation and medicine, the correlation of ordinal variables is involved, and it is particularly important to use the calculation method of the correlation coefficient reasonably to draw the correct conclusion. This paper introduces the calculation formula of the correlation coefficient of ordinal variables, and uses R software to write functions to calculate the correlation coefficient, its confidence interval, and p value. Finally, through the application of the correlation of ordinal variables in teaching research,medical research,and market research,this paper explains the differences between the correlation coefficients and the scope of application.
Key words: nonparametric statistics, correlation, ordered variable, R software
在經(jīng)濟、金融、醫(yī)學(xué)、氣象等各類科學(xué)研究中,研究兩個變量是否相互影響一直是人們關(guān)注的首要問題。研究變量間的相互影響,不僅關(guān)心兩個變量是否存在相關(guān),更關(guān)心兩個變量間的相關(guān)強度。目前,常用的方法是連續(xù)變量采用散點圖或折線圖等圖表法直接觀察,或者使用 Pearson 相關(guān)系數(shù)、Spearman 相關(guān)系數(shù)等衡量相關(guān)關(guān)系[1~2],而名義變量的相關(guān)關(guān)系采用列聯(lián)表分析和獨立性卡方檢驗進行定性分析,或者采用φ系數(shù)、列聯(lián)系數(shù)、Cramer? s V 系數(shù)等進行定量分析[3]。在問卷調(diào)查、疾病成因和醫(yī)學(xué)衛(wèi)生等研究領(lǐng)域,更關(guān)注的是定序名義變量間的相關(guān)程度[4~6],而大部分情況都是使用列聯(lián)表分析等方法去解決問題,這往往忽略有序變量的順序關(guān)系,甚至?xí)贸鲥e誤的結(jié)論[7]。鑒于此,本文針對有序變量相關(guān)性度量,重點介紹了幾種常用的有序變量相關(guān)系數(shù)的計算方法及性質(zhì),并使用免費開源的 R 軟件編寫函數(shù)實現(xiàn)相關(guān)系數(shù)的計算。
1有序變量的相關(guān)性
1.1有序變量的相關(guān)系數(shù)
假設(shè) X 和 Y 都是有序變量,分別有 r 個有序水平A1,A2,…,Ar 和 c 個有序水平 B1,B2,…,Bc ,而且觀測數(shù)據(jù)( Xi ,Yi ),i =1,2,…,n 能放入 r × c 的列聯(lián)表(表1)。
由于變量數(shù)據(jù)具有特殊性,常用 Kendall τb 和Kendall τc ,Goodman?Kruskal,s γ,Somers, d 等系數(shù)衡量兩個有序變量間相關(guān)性。記
,則有序變量間的相關(guān)系數(shù)可表示為如下形式:
(1)Kendall τ b 相關(guān)系數(shù):
其漸進均方差為:
其中,vij=RiDr+CjDc 。
(2)Kendall τc 相關(guān)系數(shù):
其漸進均方差為:
其中,q=min( r,c)。
(3)Goodman?Kruskal,s γ相關(guān)系數(shù):
其漸進均方差為:
(4)Somers, d(C | R)相關(guān)系數(shù):
其漸進均方差為:
(5)Somers, d(R | C)相關(guān)系數(shù):
其漸進均方差為:
(6)Somers, d 相關(guān)系數(shù):
其漸進均方差為:
Kendall τb 和 Kendall τc, Goodman?Kruskals γ, Somers d(C | R),Somers d(R | C)以及 Somers d 的取值范圍都介于?1 ~ 1 之間,其中系數(shù)的符號代表正相關(guān)和負相關(guān),系數(shù)的絕對值大小代表相關(guān)程度,絕對值接近1時,相關(guān)性越強;絕對值接近0時,相關(guān)性越弱。Kendall τ b 和 Kendall τc ,Goodman?Kruskal,s γ,Somers, d 中變量的位置是對稱的,而 Somers, d ( C | R),Somers, d( R | C)是非對稱的,可以度量自變量對因變量的影響。
1.2有序變量相關(guān)性 R 軟件的實現(xiàn)
將有序變量的相關(guān)系數(shù)、區(qū)間估計和檢驗 p 值用 R 語言編寫函數(shù) Ordinal,具體程序如下:
Ordinal=function( x)
{ n1=nrow( x)
n2=ncol( x)
C=D=matrix(NA,nrow=n1,ncol=n2)
for (i in 1:n1)
{ for (j in 1:n2)
{ C[i,j]=sum(( row( x )>i)?( col( x )>j)?x )+ sum(( row( x)
D[i,j]=sum (( row ( x )>i)?( col( x )
}
P=sum( x ?C)
Q=sum( x ?D)
n=sum( x)
Dc=n^2?sum(( apply( x,2,sum))^2)
Dr=n^2?sum(( apply( x,1,sum))^2)
Ri=matrix( apply( x,1,sum),n1,n2)
Cj=matrix( apply( x,2,sum),byrow=T,n1,n2)
V=Ri ?Dr+Cj ?Dc
Kendall taub=( P?Q)/sqrt ( Dc ? Dr )? #計算
Kendall taub 系數(shù)
ASE taub=1/(Dc ?Dr)? sqrt ( sum ( x ?(2? sqrt
(Dc ?Dr)?(C?D)+Kendall taub ?V)^2) -n^3?Kendall taub^2?(Dr+Dc)^2)
q=min( nrow( x),ncol( x))
Kendall_tauc=q ?(P?Q)/( n^2?( q?1))? #計
算 Kendall tauc 系數(shù)
ASE_tauc=2?q/(( q?1)?n^2)? sqrt ( sum ( x ?(C?D)^2)?(P?Q)^2/n)
Goodman gamma =( P ?Q)/( P +Q)? #計算
Goodman gamma 系數(shù)
ASE Goodman=4/(P+Q)^2? sqrt( sum( x ?(Q ? C ?P ?D)^2))
Somer d=2?(P?Q)/(Dc+Dr) #計算 Somers,
d 系數(shù)
ASE d=ASE taub ?sqrt(2?sqrt(Dc ?Dr)/(Dc+
Dr))
Somer dCR=( P?Q)/Dr? #計算 Somers, d( C |
R)系數(shù)
ASE dCR=2/Dr^2? sqrt ( sum ( x ?( Dr ?( C?D)?(P?Q)?( n ?Ri))^2))
Somer dRC=(P?Q)/Dc? #計算 Somers, d( R |
C)系數(shù)
ASE dRC=2/Dc^2? sqrt( sum ( x ?( Dc ?( C?D)?(P?Q)?( n ?Cj))^2))
coef= c ( Kendall taub,Kendall tauc,Goodman
gamma,Somer_d,Somer_dCR,Somer_dRC)
ASE=c(ASE taub,ASE tauc,ASE Goodman,ASE
_d,ASE_dCR,ASE_dRC)
pvalue=2?(1?pnorm ( abs ( coef/ASE))) #求檢驗 p 值
CI95=c( coef?1.96?ASE,coef+1.96?ASE) #
求95%的置信區(qū)間
result=matrix ( c ( coef,ASE,pvalue,CI95),nrow=6)
rownames ( result)= c ("Kendall taub","Kendall
tauc"," Goodman _ gamma"," Somer _ d"," Somer _
dCR","Somer dRC")
colnames( result)= c ("coef","ASE","pvalue"," CI95 low","CI95 up")
return( result)
}
在 R 程序中,輸入有序變量( X,Y)的列聯(lián)表數(shù)據(jù),運行 Ordinal 函數(shù),就可得出所有系數(shù)、95%的置信區(qū)間和檢驗 p 值[8~10]。
2實例分析
2.1有序變量相關(guān)性在教學(xué)研究中的應(yīng)用
教育教學(xué)中常常研究學(xué)科成績之間的相關(guān)性,通常成績以具體分數(shù)呈現(xiàn),可以使用連續(xù)型變量相關(guān)性系數(shù)研究學(xué)科成績間的相關(guān)性。但是,成績也會以等級形式呈現(xiàn),這時不同學(xué)科成績就是有序變量,應(yīng)該使用有序變量相關(guān)系數(shù)去研究不同學(xué)科成績間的相關(guān)性。以研究某班80名學(xué)生的數(shù)學(xué)成績(成績等級:不及格、及格、中等、良好、優(yōu)秀)與物理成績的相關(guān)關(guān)系為例,具體數(shù)據(jù)如表2所列。
導(dǎo)入數(shù)據(jù),運行 Ordinal 函數(shù)后,結(jié)果如表3所列。
根據(jù)表3可知,對稱的系數(shù)中 Kendall τ b 系數(shù)是0.760,Kendall τc 系數(shù)是0.689,Goodman?Kruskal,s γ系數(shù)是0.937,Somers, d 系數(shù)是0.760,且顯著性水平(p 值)都小于0.001。說明該班的數(shù)學(xué)成績與物理成績之間存在顯著的正相關(guān)性,并且相關(guān)性較強。非對稱系數(shù)中 Somers, d(C| R)系數(shù)是0.754,Somers, d(R | C)系數(shù)是0.766,且顯著性水平(p 值)都小于0.001,說明物理成績對數(shù)學(xué)成績的影響程度要比數(shù)學(xué)成績對物理成績的影響程度大。
2.2有序變量相關(guān)性在醫(yī)學(xué)研究中的應(yīng)用
醫(yī)學(xué)上經(jīng)??紤]有序變量間的相互影響,如吸煙的頻率與生存時間的關(guān)系、早晨起床時間段與胃病嚴重程度的關(guān)系等,這都需要使用有序變量相關(guān)系數(shù)去衡量變量間的相互影響。以嬰兒體重(低于平均水平、平均水平、高于平均水平)和嬰兒胎次(一胎、二胎、三胎、四胎及以上)為例研究有序變量間的關(guān)系,具體數(shù)據(jù)如表4所列。
導(dǎo)入數(shù)據(jù),運行 Ordinal 函數(shù)后,結(jié)果如表5所列。
根據(jù)表5可知,對稱的系數(shù)中 Kendall τ b 系數(shù)是0.524,Kendall τc 系數(shù)是0.552,Goodman?Kruskal,s γ系數(shù)是0.676,Somers, d 系數(shù)是0.523,且顯著性水平(p 值)都小于0.001,說明嬰兒體重和嬰兒胎次存在顯著的正相關(guān)性。由于醫(yī)學(xué)上很多變量間有因果關(guān)系,而本例中主要考慮嬰兒胎次對嬰兒體重的影響,因此使用不對稱的 Somers,d(R | C)相關(guān)系數(shù)。Somers, d(R | C)的系數(shù)為0.497,顯著性水平( p 值)小于0.001,說明嬰兒胎次對嬰兒體重的有顯著的正影響,即嬰兒胎次越多,嬰兒的體重越容易高于平均水平。
2.3有序變量相關(guān)性在市場調(diào)查中的應(yīng)用
在市場調(diào)查中,問卷是搜集調(diào)查數(shù)據(jù)的重要工具,而在問卷設(shè)計時,選項不可避免的出現(xiàn)順序,如五級量表:非常滿意、比較滿意、一般、比較不滿意、非常不滿意等。由于問卷的選項設(shè)置容易出現(xiàn)有序變量,因此問卷數(shù)據(jù)分析相關(guān)性時需要采用有序變量的相關(guān)系數(shù)。以研究被調(diào)查者的學(xué)歷(小學(xué)、初中、高中、本科、研究生)和收入水平(收入2000元及以下為組1、收入2001~3500元為組2、收入3501~5000元為組3、收入5001~10000元為組4、收入10000元以上為組5)兩有序變量間的相關(guān)關(guān)系為例,具體數(shù)據(jù)如表6所列。
導(dǎo)入數(shù)據(jù),運行 Ordinal 函數(shù)后,結(jié)果如表7所列。
根據(jù)表7可知,對稱的系數(shù)中 Kendall τ b 系數(shù)是0.749,Kendall τc 系數(shù)是0.725,Goodman?Kruskal,s γ系數(shù)是0.864,Somers, d 系數(shù)是0.749,且顯著性水平(p 值)都小于0.001,說明學(xué)歷與收入水平間存在較強的正相關(guān)性。問卷設(shè)計中考慮變量間的相互影響,本例中考慮學(xué)歷對收入水平的影響,因此使用非對稱系數(shù)中 Somers, d(C | R)系數(shù),其值是0.746,且顯著性水平( p 值)小于0.001,說明學(xué)歷越高,收入水平越高。
3結(jié)語
本文通過教學(xué)、醫(yī)學(xué)、市場調(diào)查三個實例,計算其有序變量的相關(guān)系數(shù),可以發(fā)現(xiàn)以下結(jié)論:(1) Goodman?Kruskal,s γ系數(shù)要比其他系數(shù)大,而除 Goodman?Kruskal,s γ系數(shù)的5種相關(guān)系數(shù)相差不大;(2)在因果分析中,使用非對稱的 Somers, d( C | R ), Somers, d(R | C)系數(shù)可以得到正確的結(jié)果。因此,有序變量相關(guān)性度量使用不同的相關(guān)系數(shù)雖然數(shù)值不同,但可以得到相同的結(jié)論。若需要考慮兩個變量的因果關(guān)系,可以使用 Somers, d(C | R),Somers, d(R | C)系數(shù),并且可根據(jù)系數(shù)對比兩個變量互為因果的強弱。在分析具體實際問題時,合理使用有序變量相關(guān)系數(shù)更容易分析有序變量間的相關(guān)關(guān)系。同時,可以使用 R 軟件編寫計算的函數(shù)程序,方便研究者使用。
參考文獻:
[1]李彥萍,楊紅霞.非參數(shù)統(tǒng)計中相關(guān)系數(shù)的計算及其應(yīng)用[J].山西農(nóng)業(yè)大學(xué)學(xué)報(自然科學(xué)版),2003(4):363?366.
[2]楊雨龍.相關(guān)性分析方法及其應(yīng)用淺析[ J].課程教育研究,2019(7):134+138.
[3]王伏虎,趙喜倉.名義變量列聯(lián)表的相關(guān)統(tǒng)計量分析[J].統(tǒng)計與決策,2009(14):164?165.
[4]曹玉嬋,左映龍.調(diào)查問卷數(shù)據(jù)統(tǒng)計列聯(lián)表分析在 SPSS 中的實現(xiàn)[J].科技創(chuàng)新與應(yīng)用,2018(26):9?11.
[5]趙鵬輝,崔蕊.列聯(lián)表檢驗在疾病成因中的應(yīng)用[ J].大慶師范學(xué)院學(xué)報,2013,33(3):33?38.
[6]吳喜之,趙博娟.非參數(shù)統(tǒng)計(第五版)[ M].北京:中國統(tǒng)計出版社,2019.
[7]陸運清.列聯(lián)表資料檢驗的幾種常見錯誤辨析[J].統(tǒng)計與決策,2010(15):161?163.
[8]陳雪東.列聯(lián)表分析及在 SPSS 中的實現(xiàn)[ J].數(shù)理統(tǒng)計與管理,2002(1):14?18+40.
[9]董云朝.應(yīng)用 SPSS 軟件分析名義變量之間的相關(guān)性[J].福建電腦,2019,35(12):16?19.
[10]薛毅,陳立萍.統(tǒng)計建模與 R 軟件[M].北京:清華大學(xué)出版社,2007.
作者簡介:
陳鼎(1993—),碩士,助教,研究方向:統(tǒng)計教學(xué)與研究、多元統(tǒng)計分析及其應(yīng)用。