亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

二分類集群數(shù)據(jù)下靈敏度和特異度的置信區(qū)間構(gòu)建

2016-06-29 01:24:02霍劍

統(tǒng)計(jì)與信息論壇 2016年6期

關(guān)鍵詞：置信區(qū)間靈敏度

霍　劍

(中國人民大學(xué) 統(tǒng)計(jì)學(xué)院，北京 100872)

二分類集群數(shù)據(jù)下靈敏度和特異度的置信區(qū)間構(gòu)建

霍劍

(中國人民大學(xué) 統(tǒng)計(jì)學(xué)院，北京 100872)

摘要：在醫(yī)學(xué)診斷等應(yīng)用領(lǐng)域中廣泛存在二分類集群數(shù)據(jù)，其特征是來自同一個群的反應(yīng)結(jié)果存在相關(guān)。對于該數(shù)據(jù)下靈敏度和特異度的置信區(qū)間構(gòu)造，目前已有方法在小樣本及靈敏度或特異度偏大時區(qū)間覆蓋率較差，通過利用二項(xiàng)分布得分區(qū)間的構(gòu)造思想，基于靈敏度和特異度的最優(yōu)加權(quán)估計(jì)量構(gòu)造一種新的置信區(qū)間；通過蒙特卡洛模擬表明，與已有方法相比新區(qū)間的覆蓋率明顯最優(yōu)、且區(qū)間長度較小；新區(qū)間在二分類集群數(shù)據(jù)的應(yīng)用中值得推廣。

關(guān)鍵詞：集群數(shù)據(jù)；靈敏度；特異度；置信區(qū)間

一、引言

集群數(shù)據(jù)(clustered data)普遍存在于醫(yī)學(xué)診斷、放射研究等應(yīng)用領(lǐng)域，其關(guān)鍵特征是來自同一個群的反應(yīng)結(jié)果存在相關(guān)。比如在醫(yī)學(xué)診斷中評估某一診斷方法檢測結(jié)腸息肉的靈敏度，而研究發(fā)現(xiàn)每個病人有多處息肉，此時統(tǒng)計(jì)分析的基本單位不是病人而是息肉，這樣在所有病人的息肉檢測結(jié)果中，每個病人是一個群，不同病人的檢測結(jié)果獨(dú)立，而同一病人的多個息肉檢測結(jié)果存在相關(guān)；這種例子還有很多，比如評價某一牙周炎診斷方法，研究的基本單位為病人牙齒表面的某個位置，此時同一病人的多個齒面位置的診斷結(jié)果存在相關(guān)。

靈敏度和特異度是評價醫(yī)學(xué)診斷精確性的重要指標(biāo)。靈敏度(sensitivity，Se)是真實(shí)情況為有病時診斷發(fā)現(xiàn)疾病的能力，即在實(shí)際有病的條件下診斷結(jié)果為陽性的概率。特異度(specificity，Sp)是真實(shí)情況為無病時試驗(yàn)排除疾病的能力，即在實(shí)際無病條件下試驗(yàn)結(jié)果為陰性的概率，在實(shí)際應(yīng)用中給出其置信區(qū)間是很有意義的。

傳統(tǒng)的靈敏度或特異度置信區(qū)間采用的是二項(xiàng)分布比例置信區(qū)間，但對于二分類集群數(shù)據(jù)，由于二項(xiàng)分布比例置信區(qū)間沒有考慮數(shù)據(jù)間的相關(guān)，而忽略相關(guān)性的推斷會有偏差，導(dǎo)致估計(jì)的區(qū)間長度過小，因此二項(xiàng)分布比例置信區(qū)間無法正確應(yīng)用到集群數(shù)據(jù)。目前，集群數(shù)據(jù)下靈敏度和特異度置信區(qū)間的研究較少，主要有四種構(gòu)造方法注意到了靈敏度和特異度的構(gòu)造方法相同[1-2]，下面以靈敏度為例進(jìn)行說明：Rao等人和Cochran提出了一種二分類集群數(shù)據(jù)下靈敏度方差的估計(jì)量，以此來調(diào)大置信區(qū)間長度[3][4]140-156；Donner和Klar[5]168-175[6]通過方差膨脹因子給出了另一種集群數(shù)據(jù)下的靈敏度的方差估計(jì)量；Lee和Dubin通過等加權(quán)于個體構(gòu)造了靈敏度估計(jì)量，并以此構(gòu)造置信區(qū)間[7-8]；Jun和Ahn則通過最小化靈敏度估計(jì)量的方差，給出了一種最優(yōu)加權(quán)形式的靈敏度估計(jì)量，并以此構(gòu)造置信區(qū)間[2]。這里將四種方法構(gòu)造的置信區(qū)間依次記為Rao-Scott區(qū)間、Donner-Klar區(qū)間、Lee-Dubin區(qū)間和Jun-Ahn區(qū)間，這四種區(qū)間都是以Wald方法思想而構(gòu)造的置信區(qū)間，而這些區(qū)間在樣本量較小及當(dāng)真實(shí)靈敏度或特異度偏大時覆蓋率較差。針對目前方法的不足，本文從新的角度，通過利用二項(xiàng)分布得分區(qū)間的構(gòu)造思想，基于靈敏度(特異度)的最優(yōu)加權(quán)估計(jì)量提出一種新的二分類集群數(shù)據(jù)靈敏度(特異度)置信區(qū)間，并通過數(shù)值模擬及實(shí)際應(yīng)用，結(jié)果表明新構(gòu)造的區(qū)間比其他四種區(qū)間有明顯的優(yōu)勢，不僅達(dá)到了更好的區(qū)間覆蓋率，同時區(qū)間長度整體較小。

二、置信區(qū)間的提出

(一)已有方法的介紹

(1)

其中z1-α/2是標(biāo)準(zhǔn)正態(tài)分布的上α/2分位數(shù)，上式為Se的100(1-α)%置信區(qū)間。

(2)

(3)

(4)

注意到如果每個個體的ni都相同時，則與Rao-Scott區(qū)間等同。

(5)

(二)新方法的提出

Var(yi)=Se(1-Se)ni(1+(ni-1)ρ)

從而有：

(6)

(7)

(8)

其中z=z1-α/2，新區(qū)間形式類似二項(xiàng)分布得分區(qū)間。

三、蒙特卡洛數(shù)值模擬

為了研究新構(gòu)造的置信區(qū)間表現(xiàn)，考慮用蒙特卡洛數(shù)值模擬比較已有四種區(qū)間和新區(qū)間，通過區(qū)間覆蓋率(CP)和區(qū)間期望長度(EL)兩個指標(biāo)評價五個區(qū)間的表現(xiàn)。區(qū)間覆蓋率越接近預(yù)先設(shè)定的置信水平，區(qū)間的表現(xiàn)越好，同時在區(qū)間覆蓋率較好控制下，區(qū)間期望長度越小越好[13]。

這里考慮不同的情形：不同的個體數(shù)m=10、20、50；不同的真實(shí)靈敏度或者特異度，這里以靈敏度為例，Se=0.5、0.6、0.7、0.8、0.9；不同的個體內(nèi)相關(guān)系數(shù)ρ= 0.1、0.2、0.5，即分別考慮不同的樣本量、靈敏度和個體內(nèi)相關(guān)性。具體模擬過程為，假定第i個個體有ni個病變位置，即有ni個試驗(yàn)結(jié)果，ni從均勻分布U[1,8]中隨機(jī)取整得到，第i個個體陽性的試驗(yàn)結(jié)果總數(shù)yi從beta-binomial分布中生成[2,14]，即yi～binomial(ni,Sei)，Sei～beta(αi,βi)，其中αi=Se(1-ρ)/ρ，βi=(1-Se)(1-ρ)/ρ。重復(fù)模擬5 000次，計(jì)算區(qū)間覆蓋率和區(qū)間期望長度，模擬結(jié)果見表1。表1中將Rao-Scott區(qū)間、Donner-Klar區(qū)間、Lee-Dubin區(qū)間、Jun-Ahn區(qū)間和新區(qū)間分別簡稱為RS、DK、LD、JA和NEW。

對于區(qū)間覆蓋率(CP)，從表1中看到新區(qū)間在不同情形下都比其他四種區(qū)間表現(xiàn)得好，特別是在樣本量較少及當(dāng)真實(shí)靈敏度偏大時，新區(qū)間比其他區(qū)間表現(xiàn)得明顯要好。對于其他四種區(qū)間，Rao-Scott區(qū)間覆蓋率較差；Donner-Klar區(qū)間、Lee-Dubin區(qū)間和Jun-Ahn區(qū)間整體上大致相當(dāng)，這四種區(qū)間都在樣本量較少及當(dāng)真實(shí)靈敏度偏大時覆蓋率較差；對于區(qū)間期望長度(EL)，Lee-Dubin區(qū)間在ρ= 0.1、0.2時比其他區(qū)間長度上更大些， Rao-Scott區(qū)間與Donner-Klar區(qū)間除m=10情況外表現(xiàn)非常接近，新區(qū)間除Se=0.9外比其他區(qū)間長度明顯要小，在Se=0.9時與其他區(qū)間相當(dāng)，整體上看新區(qū)間長度較小。綜上，通過數(shù)值模擬表明，新區(qū)間覆蓋率明顯優(yōu)于其他區(qū)間，且區(qū)間長度整體較小。同時，類似于靈敏度，易知在不同特異度情況下也有一致的結(jié)論?？紤]文章篇幅，這里只列了95%置信區(qū)間的模擬結(jié)果，90%置信區(qū)間也有一致的結(jié)論。

四、實(shí)際數(shù)據(jù)應(yīng)用

本文實(shí)際數(shù)據(jù)來自Hujoel等人[15]，該數(shù)據(jù)是用來分析某種酶診斷測試的靈敏度和特異度，這種酶測試可以檢測個體牙齒的各個位置是否感染，同時用金標(biāo)準(zhǔn)對每個個體的各個位置進(jìn)行了確診。該數(shù)據(jù)具體為：在29個個體樣本中，對于每個個體，在確診為感染的位置上用酶測試檢驗(yàn)的真陽性結(jié)果個數(shù)比該個體感染位置總數(shù)，分別為：3/6、2/6、2/4、5/6、4/5、5/5、4/6、3/4、2/4、3/4、5/5、4/4、6/6、3/3、5/6、1/2、4/6、0/4、5/6、4/5、4/6、0/6、4/5、3/5、0/2、2/6、2/4、5/5、4/6。在21個個體樣本中，對于每個個體，在確診為未感染的位置上用酶測試檢驗(yàn)的真陰性結(jié)果個數(shù)比該個體未感染位置總數(shù)，分別為：0/1、3/3、1/2、3/3、1/1、 2/3、3/3、1/1、0/1、2/3、2/3、1/1、0/1、1/3、1/1、2/2、4/4、3/3、5/5、1/1、3/3。

表2給出了五種區(qū)間計(jì)算的酶測試靈敏度和特異度的95%置信區(qū)間，可以看出在相同的置信水平下， Lee-Dubin區(qū)間的長度最長；Rao-Scott區(qū)間與Jun-Ahn區(qū)間長度偏小些；新區(qū)間長度與其他區(qū)間相比，在靈敏度區(qū)間上最短、在特異度區(qū)間上居中。

表2　五種區(qū)間計(jì)算的酶測試靈敏度和特異度置信區(qū)間表

五、結(jié)論

對于醫(yī)學(xué)診斷、放射研究等領(lǐng)域中常見的二分類集群數(shù)據(jù)，本文介紹了目前主要的四種靈敏度和特異度置信區(qū)間，針對目前區(qū)間在樣本量較小及當(dāng)真實(shí)靈敏度或特異度偏大時表現(xiàn)的不足，通過利用二項(xiàng)分布得分區(qū)間的構(gòu)造思想，提出了一種新的置信區(qū)間；蒙特卡洛數(shù)值模擬研究表明，與已有區(qū)間相比新區(qū)間表現(xiàn)最優(yōu)，不僅覆蓋率明顯改善，特別是在樣本量較小及當(dāng)真實(shí)靈敏度或特異度偏大的情況，且新區(qū)間長度整體較小，這一新區(qū)間在二分類集群數(shù)據(jù)的應(yīng)用中值得考慮推廣。

參考文獻(xiàn)：

[1]Genders T T S, Spronk S, Stijnen T, et al. Methods for Calculating Sensitivity and Specificity of Clustered Data: A Tutorial[J].Radiology, 2012, 265(3).

[2]Jung S H, Ahn C. Estimation of Response Probability in Correlated Binary Data: A New Approach[J]. Drug Information Journal, 2000, 34(2).

[3]Rao J N K, Scott A J. A Simple Method for the Analysis of Clustered Binary Data[J]. Biometrics, 1992,48(2).

[4]Cochran W G. Sampling Techniques[M]. New York: Wiley, 1977.

[5]Fleiss J L, Levin B, Paik M C. Statistical Methods for Rates and Proportions[M]. Hoboken,NJ: Wiley, 2003.

[6]Donner A, Klar N. Confidence Interval Construction for Effect Measures Arising from Cluster Randomization Rrials[J]. J Clin Epidemiol, 1993,46(2).

[7]Lee E, Dubin N.Estimation and Sample Size Considerations for Clustered Binary Responses[J]. Stat Med, 1994,13(12).

[8]Lee E. Two Sample Comparison for Large Groups of Correlated Binary Responses[J]. Stat Med, 1996, 15(11).

[9]Zhou X H, Obuchowski N A, McClish D K. Statistical Methods in Diagnostic Medicine[M]. New York: Wiley, 2011.

[10]Wilson E B. Probable Inference, the Law of Succession, and Statistical Inference[J]. J Am Stat Assoc, 1927, 22(158).

[11]Casella G, Berger R L. Statistical Inference[M]. Boston:Cengage Learning, 2001.

[12]Ahn C, Hu F, Schucany W R. Sample Size Calculation for Clustered Binary Data with Sign Tests Using Different Weighting Schemes[J]. Stat Biopharm Res, 2011, 3(1).

[13]牛翠珍,范國良.基于梯度統(tǒng)計(jì)量的逆抽樣下風(fēng)險差的置信區(qū)間構(gòu)建[J].統(tǒng)計(jì)與信息論壇,2014(8).

[14]Ahn H, Chen J J. Generation of Over-Dispersed and Under-Dispersed Binomial Variates[J]. J Comput Graph Stat, 1995, 4(1).

[15]Hujoel P, Moulton L, Loesche W. Estimation of Sensitivity and Specificity of Site-specific Diagnostic Tests[J]. J Periodontal Res, 1990, 25(4).

(責(zé)任編輯：郭詩夢)

Confidence Interval Construction for Sensitivity and Specificity in Binary Correlated Data

HUO Jian

(School of Statistics, Renmin University of China, Beijing 100872, China)

Abstract:Binary correlated data is common in many areas, such as medical diagnosis. In this paper we construct a new confidence interval for sensitivity (specificity) in binary correlated data. The idea of our construction came from score interval for a binomial proportion. The coverage probability of the existing methods is poor when the sample size is small and/or the true sensitivity (specificity) is large. Our proposed confidence interval greatly improves the performance in that case. With regard to the criterions of coverage probability and expected length, the new CI is better than the other four intervals in simulation studies. A real data example is also presented to show the application of our method.

Key words:binary correlated data; sensitivity; specificity; confidence interval

收稿日期：2016-01-08；修復(fù)日期：2016-04-13

基金項(xiàng)目：中國人民大學(xué)科學(xué)研究基金項(xiàng)目《生物醫(yī)學(xué)大數(shù)據(jù)的統(tǒng)計(jì)方法基礎(chǔ)研究》(15XNI011)

作者簡介：霍劍，男，山西石樓人，博士生，研究方向：數(shù)理統(tǒng)計(jì)與生物統(tǒng)計(jì)。

中圖分類號：O212.1∶O211.3

文獻(xiàn)標(biāo)志碼：A

文章編號：1007-3116(2016)06-0028-05

【統(tǒng)計(jì)理論與方法】