中山大學(xué)公共衛(wèi)生學(xué)院醫(yī)學(xué)統(tǒng)計(jì)與流行病學(xué)系(510080)
公為潔 趙 志 顧豪高 張晉昕△
?
二分類資料的五種一致性評(píng)價(jià)指標(biāo)應(yīng)用效果比較*
中山大學(xué)公共衛(wèi)生學(xué)院醫(yī)學(xué)統(tǒng)計(jì)與流行病學(xué)系(510080)
公為潔趙志顧豪高張晉昕△
【提要】目的探討5種不同的一致性評(píng)價(jià)指標(biāo)用于估計(jì)二分類結(jié)局一致性的應(yīng)用效果。方法用Monte Carlo法模擬得到不同樣本含量和不同陽(yáng)性率的二分類數(shù)據(jù),分別估計(jì)各指標(biāo)、標(biāo)準(zhǔn)誤及估計(jì)值與真實(shí)值的相對(duì)偏差,從列聯(lián)表的均衡性角度評(píng)價(jià)各系數(shù)的適用性。實(shí)例數(shù)據(jù)則使用Bootstrap估計(jì)加以驗(yàn)證。結(jié)果當(dāng)列聯(lián)表趨于均衡時(shí),5種系數(shù)的標(biāo)準(zhǔn)誤和相對(duì)偏差均較小;列聯(lián)表趨于不均衡,Kappa、Scottπ和Krippendorffα這3種系數(shù)的標(biāo)準(zhǔn)誤和相對(duì)偏差越大;對(duì)于各種情形下的列聯(lián)表,AC1和G指數(shù)的標(biāo)準(zhǔn)誤和相對(duì)偏差變化均較小。結(jié)論列聯(lián)表的均衡狀態(tài)對(duì)Kappa、Scottπ和Krippendorffα這3種系數(shù)的穩(wěn)定性影響較大。當(dāng)列聯(lián)表趨于不均衡時(shí),推薦使用AC1和G指數(shù)評(píng)價(jià)二分類結(jié)局的一致性。
一致性評(píng)價(jià)診斷試驗(yàn)Kappa系數(shù)二分類結(jié)局
同一方法由不同或同一評(píng)價(jià)者重復(fù)評(píng)估同一組樣本,所得結(jié)果往往不盡相同。因此,有必要對(duì)評(píng)價(jià)結(jié)果的一致性程度進(jìn)行探討。采用合理的指標(biāo)客觀評(píng)價(jià)診斷結(jié)果很重要[1]。二分類結(jié)局作為一種常見的結(jié)局類型,對(duì)其評(píng)價(jià)最普遍的方法是Kappa系數(shù)。然而,Kappa在實(shí)際應(yīng)用中存在多種悖論[2],有學(xué)者指出應(yīng)謹(jǐn)慎甚至停止使用[3-4]。以兩評(píng)價(jià)者D和F評(píng)估結(jié)果的四格表為例,可將結(jié)果整理為表1。即使a和d數(shù)值不變,當(dāng)b和c的差值增大(即列聯(lián)表趨于不對(duì)稱)時(shí),Kappa取值隨之增大,影響對(duì)一致性的判斷[5]。除Kappa之外,還有多種一致性評(píng)價(jià)指標(biāo),如Scottπ、Krippendorffα等。本文將通過(guò)Monte Carlo方法,模擬兩評(píng)價(jià)者間不同發(fā)生概率的二分類結(jié)局?jǐn)?shù)據(jù),分別估計(jì)包括Kappa在內(nèi)的5種一致性系數(shù)、標(biāo)準(zhǔn)誤及估計(jì)值與真實(shí)值的相對(duì)偏差,歸納不同情況下各指標(biāo)的適用性。
表1 兩評(píng)價(jià)者二分類結(jié)局的四格表
1.一致性評(píng)價(jià)指標(biāo)
本文比較的二分類結(jié)局一致性的五種評(píng)價(jià)指標(biāo)分別為:Cohen提出的Kappa系數(shù)[6]、Scott提出的π系數(shù)[7]、Holley等提出的G指數(shù)[8]、Krippendorff提出的α系數(shù)[9]、Gwet提出的一階一致性系數(shù)(the first-order agreement coefficient,AC1)[10]。這些指標(biāo)均校正了機(jī)遇因素影響,進(jìn)而衡量?jī)稍u(píng)價(jià)者對(duì)二分類或無(wú)序多分類結(jié)局間的一致性程度。其基本定義均為:設(shè)γs為其中某一致性系數(shù),則
(1)
表2 二分類結(jié)局一致性系數(shù)對(duì)Po和Pe的不同定義
2.Monte Carlo模擬
3.指標(biāo)評(píng)價(jià)
列聯(lián)表的均衡,定義為分類結(jié)局中不同類別所占的構(gòu)成比例相等[13]。在模擬數(shù)據(jù)集中,當(dāng)實(shí)際結(jié)局陽(yáng)性率Pr越接近0.500,模擬產(chǎn)生的陽(yáng)性結(jié)果和陰性結(jié)果的構(gòu)成比越接近,則四格表趨于均衡。反之,當(dāng)Pr越接近1,模擬產(chǎn)生的兩類結(jié)果構(gòu)成比相差越大,則四格表越趨于不均衡。
模擬產(chǎn)生多種情況,每種情況均有500組模擬的結(jié)果。每種情況下500組數(shù)據(jù)所得各一致性系數(shù)的標(biāo)準(zhǔn)誤越小,說(shuō)明該指標(biāo)越穩(wěn)健。各指標(biāo)的樣本估計(jì)值與真實(shí)值間的相對(duì)偏差可用于評(píng)價(jià)指標(biāo)的準(zhǔn)確性。根據(jù)Gwet的假設(shè)及推導(dǎo)[12],設(shè)評(píng)價(jià)者D和F分別有θD和θF的概率會(huì)作出隨機(jī)性判斷,且正確率均為50%,則真實(shí)的一致率γ為
(2)
(3)
4.實(shí)例數(shù)據(jù)
資料取自1977年由Landis發(fā)表的詳細(xì)數(shù)據(jù),為多個(gè)評(píng)價(jià)者間有序分類結(jié)局的經(jīng)典數(shù)據(jù)[14]。七個(gè)病理學(xué)家被要求單獨(dú)診斷,將118張宮頸癌病理切片鑒別為為陰性、非典型鱗狀上皮增生、原位癌變、鱗狀細(xì)胞癌早期間質(zhì)浸潤(rùn)、侵襲性癌的五種病理類型[15]。根據(jù)診斷后隨訪方式的不同,可將診斷結(jié)果劃分為二分類結(jié)局(I類,包括:陰性、非典型鱗狀上皮增生、原位癌變;II類,包括:鱗狀細(xì)胞癌早期間質(zhì)浸潤(rùn)、侵襲性癌)[14]。本文選擇D和F兩位病理學(xué)家的二分類結(jié)局,整理為表1,結(jié)果為a=19,b=13,c=6,d=80,可知四格表中II類結(jié)局的例數(shù)遠(yuǎn)大于I類的例數(shù),屬于不均衡的列聯(lián)表。用Bootstrap法以118為樣本量對(duì)原始數(shù)據(jù)進(jìn)行500次再抽樣,比較五種指標(biāo)的標(biāo)準(zhǔn)誤大小。
晚上悶熱,夜空星月全無(wú),遠(yuǎn)處傳來(lái)雷聲,是天空云團(tuán)在碰撞時(shí)奏出的交響,他坐著聆聽,后面的樂章是婉約?還是激越?是低回?還是電閃電鳴?但所有的音符終將交融成雨水,滋養(yǎng)大地,注入河川。沉浸之中,突然一聲巨大的炸雷震得他一驚而起,他不安地望窗外,腦子里跳出尾砂庫(kù)上的雨景。
本文中的所有模擬及計(jì)算均在R i386 3.1.3環(huán)境下進(jìn)行。五種系數(shù)的計(jì)算參考agree.coeff2.r程序[10]。
1.Monte Carlo模擬結(jié)果
圖1分別為當(dāng)n取20、60、100時(shí),隨著實(shí)際結(jié)局陽(yáng)性率Pr的變化,五種一致性系數(shù)的標(biāo)準(zhǔn)誤及各系數(shù)與真實(shí)值相對(duì)偏差的變化趨勢(shì)。由圖1可見:1)當(dāng)n為20時(shí),圖1(a)和圖1(d)中曲線波動(dòng)幅度較大,標(biāo)準(zhǔn)誤和相對(duì)偏差取值在0.100附近,說(shuō)明樣本含量n較小時(shí),各系數(shù)取值尚不穩(wěn)定。隨n的增大,曲線波動(dòng)幅度減小,各系數(shù)的標(biāo)準(zhǔn)誤和相對(duì)偏差也逐漸減??;至n=100時(shí),曲線起始平穩(wěn)段的取值均在0.050左右。2)如圖1(a)、1(b)和1(d)、1(e)所示,當(dāng)n取20、60時(shí),曲線截止于Pr取值為0.755及0.950,而如圖1(c)和1(e)所示,當(dāng)n取100時(shí),曲線截止于Pr取值為0.995。3)隨Pr從0.500逐漸增大,五種一致性系數(shù)的標(biāo)準(zhǔn)誤和相對(duì)偏差均有變化。如圖1(b)和1(c)所示,在n取60、100時(shí),Pr取值為0.500~0.710時(shí),列聯(lián)表相對(duì)均衡,五種系數(shù)的標(biāo)準(zhǔn)誤均較小,相差不超過(guò)0.05,且曲線變化平緩。當(dāng)Pr>0.710時(shí),隨Pr的增大,列聯(lián)表逐漸趨于不均衡,G和AC1系數(shù)的標(biāo)準(zhǔn)誤逐漸減小,標(biāo)準(zhǔn)誤均低于0.05,曲線呈平緩下降的趨勢(shì),其中G的曲線變化更為平緩;而Kappa、π和α系數(shù)的標(biāo)準(zhǔn)誤逐漸增大,且趨勢(shì)一致,三條曲線基本重合。Pr越大,列聯(lián)表越不均衡,3條曲線增長(zhǎng)幅度越大,當(dāng)Pr逐漸增至0.995,標(biāo)準(zhǔn)誤高達(dá)0.20以上。如圖1(e)和1(f)所示,當(dāng)Pr取值在0.500~0.800時(shí),各系數(shù)與真實(shí)值的相對(duì)偏差均在10%以內(nèi),當(dāng)Pr>0.800時(shí),Kappa、π和α系數(shù)的相對(duì)偏差超過(guò)10%,且曲線增長(zhǎng)幅度較大,當(dāng)Pr逐漸增至0.995,相對(duì)偏差高達(dá)70%以上;而G和AC1系數(shù)的相對(duì)偏差仍較低,保持在10%以下。相對(duì)偏差的曲線變化規(guī)律與標(biāo)準(zhǔn)誤相似,不再贅述。
2.實(shí)例數(shù)據(jù)Bootstrap再抽樣結(jié)果
如表3所示,對(duì)實(shí)例數(shù)據(jù)進(jìn)行500次Bootstrap再抽樣后,五種系數(shù)的均數(shù)從大到小排序依次為:AC1>G>Kappa=π=α;標(biāo)準(zhǔn)誤排序?yàn)椋害?α>Kappa>G>AC1;極差排序?yàn)椋篕appa=π=α>G>AC1。
系數(shù)均數(shù)標(biāo)準(zhǔn)誤最小值最大值極差Kappa0.560.0890.320.860.55π0.560.0900.310.860.55G0.680.0690.490.920.42α0.560.0900.320.860.55AC10.750.0610.540.940.39
Kappa是被廣泛應(yīng)用的分類結(jié)局一致性評(píng)價(jià)指標(biāo),存在多種悖論,不能正確反映實(shí)際情況[3-4]。目前已有許多研究提出針對(duì)不同情況下計(jì)算Kappa的多種校正方法。本研究立足于已有的機(jī)遇一致性評(píng)價(jià)指標(biāo),探索不同系數(shù)在不同條件下的適用性,尋找Kappa的適用情況及合理替代指標(biāo)。
越不均衡的列聯(lián)表所需樣本含量越大[16],可以解釋在樣本含量較小時(shí),無(wú)法計(jì)算各一致性系數(shù)。當(dāng)列聯(lián)表趨于較均衡狀態(tài)時(shí),五種系數(shù)的標(biāo)準(zhǔn)誤和真實(shí)相對(duì)偏差均較小。而當(dāng)其逐漸趨于不均衡時(shí),Kappa、π和α系數(shù)的兩個(gè)統(tǒng)計(jì)量(標(biāo)準(zhǔn)誤和真實(shí)相對(duì)偏差)均逐漸增大。根據(jù)相對(duì)偏差的取值變化,當(dāng)Pr>0.800時(shí),與其他3種系數(shù)相比,G和AC1系數(shù)是距離真實(shí)一致率更接近、更符合實(shí)際情況的Kappa系數(shù)替代指標(biāo)。由實(shí)例數(shù)據(jù)再抽樣結(jié)果可知,對(duì)于不均衡的列聯(lián)表,相比之下,G和AC1系數(shù)的再抽樣標(biāo)準(zhǔn)誤估更小,說(shuō)明其取值更為穩(wěn)健,與Monte Carlo模擬結(jié)果相符。另有研究用Kappa系數(shù)和AC1分別評(píng)價(jià)多位醫(yī)生診斷人格障礙不同指標(biāo)的分類結(jié)局一致性,得到AC1的標(biāo)準(zhǔn)誤均小于Kappa,是更為穩(wěn)健的指標(biāo),與本文結(jié)論相符[17]。
本文從二分類結(jié)局是否均衡的角度比較了一致性系數(shù)的應(yīng)用效果,有待繼續(xù)探討無(wú)序和有序的多分類資料及多個(gè)評(píng)價(jià)者的判斷結(jié)果間一致性系數(shù)的應(yīng)用效果。
[1]閆巖,華琳,張建.對(duì)診斷一致性kappa系數(shù)及評(píng)價(jià)指標(biāo)的探討.中國(guó)衛(wèi)生統(tǒng)計(jì),2007,24(3):313-315.
[2]Cicchetti DV,Feinstein AR.High agreement but low kappa II.Resolving the paradoxes.J Clin Epidemiol,1990,43:551-558.
[3]Zhao X.When to use Cohen′s κ,if ever? The annual meeting of the International Communication Association.Boston,MA,US,2010.[4]Robert GP,Millones M.Death to Kappa:birth of quantity disagreement and allocation disagreement for accuracy assessment.International Journal of Remote Sensing,2011,32(15):4407-4429.
[5]公為潔,溫興煊,何賢英,等.一階一致性系數(shù)AC1對(duì)二分類結(jié)局一致性的測(cè)評(píng).中國(guó)衛(wèi)生統(tǒng)計(jì),2015,32(5):774-776.
[6]Cohen J.A coefficient of agreement for nominal scales.Educational and Psychological Measurement,1960,20(1):37-46.
[7]Scott WA.Reliability of content analysis:The case of nominal scale coding.Public opinion quarterly,1955,19:321-325.
[8]Holley JW,Guilford JP.A note on the G index of agreement.Educational and Psychological Measurement,1964,24(4):749-753.
[9]Krippendorff K.Bivariate Agreement Coefficients for Reliability of Data.Sociological Methodology,1970:139-150.
[10]Gwet KL.Handbook of inter-rater reliability.Gaithersburg,MD:STATAXIS Publishing Company,2001.
[11]Gwet KL.Handbook of inter-rater reliability:The definitive guide to measuring the extent of agreement among raters.Advanced Analytics,LLC,2014.
[12]Gwet KL.Computing inter-rater reliability and its variance in the presence of high agreement.British Journal of Mathematical and Statistical Psychology,2008,61(1):29-48.
[13]Hertzberg VS,Xu F,Haber M.Restricted Quasi-Independent Model Resolves Paradoxical Behaviors of Cohen′s Kappa.Journal of Modern Applied Statistical Methods,2005,5(2):16.
[14]Landis JR,Koch GG.An application of hierarchical kappa-type statistics in the assessment of majority agreement among multiple observers.Biometrics,1977:363-374.
[15]Holmquist N,McMahan C,Williams O.Variability in classification of carcinoma in situ of the uterine cervix.Archives of Pathology,1967,84(4):334-345.
[16]Sim J,Wright CC.The kappa statistic in reliability studies:use,interpretation,and sample size requirements.Physical therapy,2005,85(3):257-268.
[17]Wongpakaran N,Wongpakaran T,Wedding D,et al.A comparison of Cohen′s Kappa and Gwet′s AC1 when calculating inter-rater reliability coefficients:a study conducted with personality disorder samples.BMC Medical Research Methodology,2013,13(1):61-68.
(責(zé)任編輯:郭海強(qiáng))
廣東省公益研究與能力建設(shè)專項(xiàng)基金(2014A020212713)
張晉昕,E-mail:zhjinx@mail.sysu.edu.cn
中國(guó)衛(wèi)生統(tǒng)計(jì)2016年4期