亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

7種單組率的置信區(qū)間所需樣本量的估計(jì)方法比較

2023-02-27 09:28:14于米錸石曉彤鄒碧清安勝利

南方醫(yī)科大學(xué)學(xué)報(bào) 2023年1期

關(guān)鍵詞：方法

于米錸，石曉彤，鄒碧清，安勝利

南方醫(yī)科大學(xué)公共衛(wèi)生學(xué)院生物統(tǒng)計(jì)學(xué)系，廣東廣州510515

樣本量估計(jì)在醫(yī)學(xué)研究中至關(guān)重要。其通常有兩種估計(jì)方法，假設(shè)檢驗(yàn)法基于顯著性檢驗(yàn)和檢驗(yàn)效能［1,2］計(jì)算出所需的樣本量。置信區(qū)間法關(guān)注精確度［3-11］，通過(guò)指定置信區(qū)間的寬度，計(jì)算樣本量。在流行病學(xué)調(diào)查中，研究目的常常是估計(jì)某一人群中某特定疾病的患病率［12,13］，流行病學(xué)家為了以合理的準(zhǔn)確度評(píng)估患病率，計(jì)算所需的樣本量需要用置信區(qū)間法。單組率基于置信區(qū)間法的樣本量估計(jì)，在1991年，Lwanga 和Lemeshow給出了基于正態(tài)近似的Wald 法樣本量計(jì)算公式［4］。2008年Machin給出了大樣本率下、極端樣本率下、有限總體下［14］，基于Wald 法，單組率置信區(qū)間法的公式。2013年Vallejo等人給出了基于Wilson Score法置信區(qū)間法計(jì)算樣本量的公式［15］。雖然有眾多單組率置信區(qū)間的估計(jì)方法［16］，現(xiàn)在還沒(méi)有除了Wald 法和Wilson Score法以外基于置信區(qū)間的樣本量計(jì)算方法。因此，本文擬基于Wald 法、ADD4 法、ADDZ2 法、Wilson Score法、Clopper-Pearson法、Mid-p法和Jeffreys法這7種常見(jiàn)的單組率置信區(qū)間估計(jì)方法，估算所需樣本量并模擬比較，并給出不同情況下的推薦方法，為相關(guān)研究提供參考。

1 方法

1.1 單組率的置信區(qū)間估計(jì)

1.1.1 Wald法（Wald CI）基于正態(tài)近似、點(diǎn)估計(jì)中心對(duì)稱理論［17］。如式（1）所示，p表示事件發(fā)生率，n表示樣本量。

1.1.2 ADDZ2 法（Agresti-Coull add z2CI）Agresti 和Coull提出的ADDZ2法［18,19］，實(shí)際是從Wald法入手，將樣本成功例數(shù)和失敗例數(shù)都增加。如式（2）所示，其中

1.1.3 ADD4 法（Agresti-Coull add 4 CI）Agresti 和Coull 提出的ADD4 法［18］，在ADDZ2 法中，當(dāng)α=0.05時(shí)，≈4，即將樣本成功例數(shù)和失敗例數(shù)都增加2，如式（2）所示，其中x*=x+2，n*=n+4，p*=x*/n*。

1.1.4 Wilson Score法（WS CI）假設(shè)事件發(fā)生率為π，總體X～B(n,π)，n表示樣本量，x表示事件發(fā)生數(shù)，p=x/n表示事件發(fā)生率，如式（3）所示［17］。

可解得π 為

1.1.5 Clopper-Pearson 法（Clopper-Pearson confidence interval）該法可保證置信區(qū)間覆蓋率在指定概率［20］。區(qū)間上限pU和下限pL分別為式（5）的解。

1.1.6 Mid-p 法（Mid-p confidence interval）該法是Clopper-Pearson法的矯正，在保證覆蓋率的同時(shí)可以比Clopper-Pearson法保守性少一點(diǎn)。區(qū)間上限pU和下限pL分別為式（6）的解［19,21］。

1.1.7 Jefferys 法（Jefferys confidence interval）假設(shè)X～B(n,p)，p的先驗(yàn)分布為Beta(α1,α2)，那么p的后驗(yàn)分布為Beta(X+α1,n-X+α2)，因此100(1-α)%Bayes 區(qū)間為式（7）所示［17］。

1.2 基于置信區(qū)間估計(jì)的樣本量計(jì)算方法

本文將采用搜索算法［22,28］對(duì)7種置信區(qū)間法所需樣本量進(jìn)行估計(jì)。

步驟一：給定參數(shù)p（預(yù)計(jì)總體率），ω（置信區(qū)間寬度的一半），給n（樣本量）一個(gè)初始值，假設(shè)總體X～B(n,p)，根據(jù)7種置信區(qū)間估計(jì)法，每種方法產(chǎn)生Κ個(gè)置信區(qū)間。

步驟二：計(jì)算出Κ個(gè)置信區(qū)間寬度平均值2ω*。

步驟三：若2ω*大于（或小于）2ω，則增加（或減少）n的值，重復(fù)步驟一和步驟二。

步驟四：重復(fù)步驟三直到半?yún)^(qū)間寬度ω*非常接近給定的ω，即樣本量滿足n=min{n:|ω*-ω|≤0.001}，得到近似樣本量。

步驟五：若達(dá)到指定迭代次數(shù)，依舊無(wú)法達(dá)到收斂，則判定樣本量估計(jì)失敗。

2 模擬與實(shí)例

2.1 模擬步驟

本研究用R 語(yǔ)言模擬了Wald 法、ADD4 法、ADDZ2法、Wilson Score法、Clopper-Pearson法、Mid-p法和Jeffreys法這7種單組率樣本量估計(jì)法。模擬步驟如下：（1）固定半置信區(qū)間寬度ω，在不同事件發(fā)生率p下估計(jì)樣本量。具體方法見(jiàn)1.2；（2）基于步驟（1）估計(jì)的樣本量，重復(fù)10000次，計(jì)算比較各方法的區(qū)間覆蓋率、置信區(qū)間寬度和尾側(cè)不覆蓋率比值。考慮事件發(fā)生率p在[0,1]范圍內(nèi)基于0.5對(duì)稱，因此進(jìn)行參數(shù)選擇時(shí)只考慮[0,0.5]范圍內(nèi)的p。參數(shù)設(shè)置：ω=0.05、0.1，p=0.01-0.5（間隔0.01），置信水平1-α=0.95。

2.2 評(píng)價(jià)指標(biāo)

本研究通過(guò)計(jì)算在所估計(jì)出的樣本量下置信區(qū)間的區(qū)間覆蓋率、寬度和尾側(cè)不覆蓋率來(lái)評(píng)估比較各方法。

2.2.1 區(qū)間覆蓋率（CP）統(tǒng)計(jì)上，一個(gè)置信區(qū)間的覆蓋率是它包含感興趣真值的次數(shù)占總次數(shù)的比例。區(qū)間覆蓋率越靠近置信水平越好。I[p∈CI(x;n,α)]為給定X=x，樣本量n，檢驗(yàn)水準(zhǔn)α的條件下，一次模擬研究覆蓋情況的示性函數(shù)，置信區(qū)間包含事件發(fā)生率時(shí)，即p∈CI(x;n,α)，I[p∈CI(x;n,α)]取值為1，否則為0，如式（9）所示。

若給定的置信水平為95%，則覆蓋率越接近95%，置信區(qū)間估計(jì)越好。當(dāng)覆蓋率小于94%時(shí)，認(rèn)為覆蓋率較差。當(dāng)覆蓋率大于96%時(shí)，認(rèn)為區(qū)間估計(jì)較保守。本研究中，以覆蓋率在[0.94,0.96]定義為較好。

2.2.2 置信區(qū)間寬度（CW）如式（10）所示，其中U(x)和L(x)分別表示置信區(qū)間的上限和下限。

本研究中，在保證區(qū)間覆蓋率的前提下，由于事先指定了半置信區(qū)間寬度（ω=0.05,0.1），模擬過(guò)程中若半?yún)^(qū)間寬度估計(jì)誤差值在0.001 之內(nèi)，則所估計(jì)的樣本量將被接受。因此主要考察估計(jì)出的樣本量計(jì)算的置信區(qū)間寬度是否在指定范圍[0.098,0.102]，[0.198,0.202]之內(nèi)，若在指定寬度范圍之內(nèi)，則認(rèn)為樣本量估計(jì)精確。

2.2.3 左右尾側(cè)不覆蓋率（MNCP，DNCP）置信區(qū)間下限大于真值的概率稱為MNCP，置信區(qū)間上限小于真值的概率稱為DNCP，見(jiàn)式（11）。左右尾側(cè)不覆蓋率應(yīng)盡可能接近，越接近說(shuō)明置信區(qū)間對(duì)稱性越好。

2.2.4 尾側(cè)不覆蓋率比值：MNCP/（MNCP+DNCP）越接近0.5說(shuō)明置信區(qū)間的對(duì)稱性越好。在本研究中，當(dāng)尾側(cè)不覆蓋率比值在0.4～0.6間，認(rèn)為該方法的對(duì)稱性較好。

2.3 模擬結(jié)果

2.3.1 樣本量估計(jì)失敗情況如表1 所示的半置信區(qū)間寬度和事件發(fā)生率的情況下，估計(jì)樣本量失敗，因而均不計(jì)算置信區(qū)間寬度，覆蓋率，尾側(cè)不覆蓋率比值。

表1 樣本量估計(jì)失敗情況匯總Tab.1 Summary of failure of sample size estimation

2.3.2 樣本量比較隨著事件發(fā)生率的增加，樣本量逐漸增加（圖1）。Clopper-Pearson法所估的樣本量明顯大于其他方法，其他方法計(jì)算結(jié)果相近。

圖1 樣本量隨事件發(fā)生率p的變化情況Fig.1 Influence of p on sample size estimation(ω=0.05,0.1).

2.3.3 區(qū)間覆蓋率（CP）比較在ω=0.05時(shí)，在低事件發(fā)生率p=（0.01-0.1）時(shí)，建議選擇覆蓋率較保守的ADD4法、ADDZ2法和Clopper-Pearson法。而Mid-p法偶爾發(fā)生覆蓋率低于0.94，也可參考選擇。在其余情況下，除了Clopper-Pearson法較保守，其他方法的覆蓋率都相對(duì)穩(wěn)定，Mid-p法和Jefferys法偶爾發(fā)生覆蓋率低于0.94的情況（圖2）。

圖2 區(qū)間覆蓋率(CP)隨事件發(fā)生率p的變化情況Fig.2 Influence of event probability(p)on coverage probability(ω=0.05).

在ω=0.1時(shí)，在事件發(fā)生率極低p=（0.01-0.05）時(shí)，除Clopper-Pearson法外，其余方法都存在無(wú)法迭代的情況，建議選擇Clopper-Pearson 法。其他情況與ω=0.05的情況類似，不多贅述。

2.3.4 尾側(cè)不覆蓋率比值(MNCP/(MNCP+DNCP))的比較在ω=0.05時(shí)，當(dāng)事件發(fā)生率極低時(shí)p=（0.01-0.05），所有方法的對(duì)稱性表現(xiàn)都不好。在p=（0.05-0.15）時(shí)，Mid-p 法和Clopper-Pearson 法的對(duì)稱性較好。在p=（0.15-0.3）時(shí)，除了Wald 法，其余方法都可以選擇。Wilson Score法、Jefferys法偶爾存在尾側(cè)不覆蓋率比值不在指定范圍的情況。在p=（0.3-0.5）時(shí)，所有方法對(duì)稱性都在指定范圍，都可選擇（圖3）。

圖3 尾側(cè)不覆蓋率比值(NCP)隨事件發(fā)生率p的變化情況Fig.3 Influence of p on noncoverage probability (ω=0.05;NCP=MNCP/(MNCP+DNCP)).

2.3.5 置信區(qū)間寬度（CW）的比較隨著事件發(fā)生率的增加，各方法的置信區(qū)間寬度逐漸趨于指定寬度，有些方法會(huì)在事件發(fā)生率p較低時(shí)，寬度大于指定范圍，但誤差尚在0.001內(nèi)，故基本認(rèn)為各方法無(wú)明顯差異（圖4）。

圖4 置信區(qū)間寬度(CW)隨事件發(fā)生率p的變化情況Fig.4 Influence of p on confidence interval width(ω=0.05).

2.4 實(shí)例分析

本文采用Lwanga在樣本量計(jì)算指南中的例子［4］。

衛(wèi)生部門希望估計(jì)當(dāng)?shù)匚鍤q以下兒童的結(jié)核病患病率。如果已知真實(shí)率不太可能超過(guò)20%，那么應(yīng)調(diào)查多少兒童，以便在95%的置信度下，將患病率估計(jì)誤差控制在真實(shí)值的5%以內(nèi)。即事件發(fā)生率p=0.2，ω=0.05（表2）。

表2 不同方法所估計(jì)出的樣本量及有關(guān)指標(biāo)Tab.2 Sample size and relative indexes estimated by different methods

可見(jiàn)，Clopper-Pearson法計(jì)算的樣本量明顯大于其他方法。所有方法的置信區(qū)間寬度都在指定范圍內(nèi)。綜合考慮區(qū)間覆蓋率和尾側(cè)不覆蓋率比值，建議選擇ADDZ2法，它的區(qū)間覆蓋率接近0.95，尾側(cè)不覆蓋率比值最接近0.5。ADD4 法和Mid-p法表現(xiàn)也相對(duì)較好。與模擬結(jié)論一致。

3 討論

本文從常用的7種單組率置信區(qū)間估計(jì)法入手，通過(guò)迭代計(jì)算，得到了基于置信區(qū)間估計(jì)的樣本量計(jì)算方法，并模擬比較了在不同精度（ω=0.05，0.1）、不同事件發(fā)生率下各種方法計(jì)算得出的樣本量。

在推薦方法的選擇時(shí)，由于各方法區(qū)間寬度無(wú)明顯差別，因此建議先考慮區(qū)間覆蓋率，再考慮對(duì)稱性，最后考慮置信區(qū)間寬度。若有多個(gè)方法入選，用戶可以自行選擇。

當(dāng)精度要求較高時(shí)（ω=0.05），若事件發(fā)生率在p=（0.01-0.05）時(shí)，所有方法對(duì)稱性都較差，Mid-p法、Clopper-Pearson法、ADD4法、ADDZ2雖然覆蓋率較高（保守），但是綜合表現(xiàn)最優(yōu)，建議選擇。在p=（0.05-0.15）時(shí)，Mid-p法表現(xiàn)最優(yōu)。在p=（0.15-0.3）時(shí)，除了Wald 法，其余方法表現(xiàn)差異不大，Wilson Score 法和Jefferys法偶爾存在尾側(cè)不覆蓋率不在指定范圍情況，也可以參考選擇。在p=（0.3-0.5）時(shí)，所有方法表現(xiàn)差異不大，都可以選擇。

當(dāng)精度要求適中時(shí)（ω=0.1），在事件發(fā)生率極低p=（0.01-0.05）時(shí)，除Clopper-Pearson法，其余方法都存在無(wú)法迭代的情況，建議選擇Clopper-Pearson法。其余情況與ω=0.05類似。

由于Clopper-Pearson法覆蓋率有時(shí)過(guò)高，導(dǎo)致估計(jì)結(jié)果過(guò)于保守，使計(jì)算出的樣本量大于其他方法，考慮其成本效益，在有別的方法選擇時(shí)，建議選擇其他方法。Mid-p法的計(jì)算方法運(yùn)算比較緩慢，在實(shí)際應(yīng)用中也應(yīng)考慮這一點(diǎn)。

當(dāng)ω=0.1且事件發(fā)生率較低（小于0.1）時(shí)，有較多方法估計(jì)樣本量失敗，可能的原因是置信區(qū)間法首選需固定置信區(qū)間寬度，而方法本身可能無(wú)法產(chǎn)生滿足該區(qū)間寬度的樣本量估計(jì)結(jié)果。同時(shí)，為了滿足指定的區(qū)間寬度，可能會(huì)導(dǎo)致區(qū)間對(duì)稱性較差。因此在此條件下，不推薦本研究中涉及的置信區(qū)間法進(jìn)行樣本量估計(jì)。

本文仍有值得繼續(xù)探索的地方。

（1）單組率的置信區(qū)間估計(jì)方法眾多［16］，本文只是挑選了其中代表性的方法，仍有其他方法估計(jì)樣本量值得探尋；（2）本文樣本量估計(jì)是基于搜索迭代法，部分方法在運(yùn)算時(shí)存在運(yùn)算緩慢的情況，有的置信區(qū)間估計(jì)法甚至?xí)o(wú)法得出結(jié)果。有的學(xué)者是從置信區(qū)間估計(jì)公式本身出發(fā)［3,4,13,29］，通過(guò)列等式換算，給出樣本量的計(jì)算公式，在此基礎(chǔ)上做出矯正，但該方法不適用于置信區(qū)間估計(jì)方法較復(fù)雜、無(wú)法直接樣本量計(jì)算公式的情況，需要進(jìn)一步探索如何基于置信區(qū)間估計(jì)計(jì)算樣本量的其他方法［30］，如鞍點(diǎn)逼近法等等；（3）基于置信區(qū)間寬度（精度）的設(shè)置，本文只設(shè)置了2 種情況，即ω=0.05 或0.1。還可設(shè)置更多情況，以探索不同精度下的各方法的優(yōu)劣。