中國人民解放軍軍事醫(yī)學(xué)科學(xué)院醫(yī)學(xué)統(tǒng)計(jì)學(xué)教研室(100850) 周詩國 柳偉偉 陶麗新 胡良平
對基于均差作推斷的成組設(shè)計(jì)非劣效性試驗(yàn)功效分析及樣本量估計(jì)公式正確性的探討
中國人民解放軍軍事醫(yī)學(xué)科學(xué)院醫(yī)學(xué)統(tǒng)計(jì)學(xué)教研室(100850) 周詩國 柳偉偉 陶麗新 胡良平△
△通訊作者:胡良平,E-mail:LPHu812@sina.com
樣本量的估計(jì)是在試驗(yàn)設(shè)計(jì)階段要考慮的一個(gè)重要問題。以對兩正態(tài)總體均數(shù)差值作統(tǒng)計(jì)推斷的成組設(shè)計(jì)非劣效性試驗(yàn)樣本量估計(jì)為例,目前國內(nèi)外已有一些教材、專著或論文介紹了一些公式〔1-11〕,但這些公式不盡相同,而且絕大多數(shù)公式都是直接給出或引用的,沒有給出詳細(xì)、具體的理論推導(dǎo)過程,因此,讀者并不清楚哪些公式正確,哪些公式不正確,難免會(huì)給實(shí)際工作者帶來一些困惑。本文將根據(jù)對均差作統(tǒng)計(jì)推斷的成組設(shè)計(jì)一元定量資料的非劣效性檢驗(yàn)原理及檢驗(yàn)功效的定義,從非劣效性檢驗(yàn)的拒絕域或兩均數(shù)差值的置信區(qū)間出發(fā),對相應(yīng)的檢驗(yàn)功效分析及樣本量估計(jì)公式進(jìn)行理論推導(dǎo),并采用Monte Carlo模擬方法對推導(dǎo)出來的公式進(jìn)行正確性驗(yàn)證。
假設(shè)成組設(shè)計(jì)非劣效性試驗(yàn)中試驗(yàn)組與對照組的樣本量分別為nT和nR,樣本均值分別為和,總體均值分別為μT和μR,樣本方差分別為S2T和S2R,總體方差分別為和,試驗(yàn)組與對照組的樣本混合方差為S2,總體混合方差為σ2;總體均數(shù)差值置信區(qū)間的下限為 CL。假設(shè) XT~ N(μT,),XR~ N(μR,),且XT與XR相互獨(dú)立。
假設(shè)效應(yīng)指標(biāo)均為高優(yōu)指標(biāo),即:效應(yīng)指標(biāo)取值越大,效應(yīng)越好;取值越小,效應(yīng)越差。
為了便于敘述,用δ(δ<0)表示非劣效界值。
非劣效性檢驗(yàn)犯Ⅰ型(即假陽性)錯(cuò)誤的概率為α,犯Ⅱ型(即假陰性)錯(cuò)誤的概率為β。
用 u1-α表示標(biāo)準(zhǔn)正態(tài)分布的分位數(shù),且有 Φ(u1-α)=1-α,即 Φ(u1-α)是標(biāo)準(zhǔn)正態(tài)分布概率密度曲線下u=u1-α左側(cè)的面積,其值正好等于分位數(shù)u1-α的右下標(biāo)值1-α,因?yàn)檎麄€(gè)標(biāo)準(zhǔn)正態(tài)分布曲線下的面積被定義為1。這一規(guī)定與SAS軟件系統(tǒng)中的標(biāo)準(zhǔn)正態(tài)分布函數(shù)PROBNORM(X)及標(biāo)準(zhǔn)正態(tài)分布分位數(shù)函數(shù)PROBIT(P)的定義完全一致。因此,有PROBNORM(u1-α)=1- α ,PROBIT(1- α )=u1-α。用 t1-α,v表示自由度為v的中心t分布的分位數(shù),且自由度為v的中心t分布概率密度曲線下t=t1-α,v左側(cè)的面積等于分位數(shù)t1-α,v的第1個(gè)右下標(biāo)值1-α。這一規(guī)定也與SAS軟件系統(tǒng)中的中心t分布函數(shù)PROBT(X,v)及中心t分布分位數(shù)函數(shù)TINV(P,v)的定義完全一致。因此,也有 P ROBT(t1-α,v,v)=1- α ,TINV(1- α ,v)=t1-α,v。
根據(jù)非劣效性的概念,基于兩總體均數(shù)差值的成組設(shè)計(jì)非劣效性試驗(yàn)的檢驗(yàn)假設(shè)為H0:μT-μR≤δ,即劣效;H1:μT-μR>δ,即非劣效;單側(cè)檢驗(yàn),檢驗(yàn)水準(zhǔn)為α。
當(dāng)H0在α水準(zhǔn)上被拒絕時(shí),即可認(rèn)為試驗(yàn)組效應(yīng)非劣于對照組效應(yīng),否則為劣效。
對基于兩均數(shù)差值作統(tǒng)計(jì)推斷的成組設(shè)計(jì)非劣效性試驗(yàn)資料的假設(shè)檢驗(yàn)來說,根據(jù)檢驗(yàn)功效的含義,μT-μR的上(或右)單側(cè)100(1-α)%置信區(qū)間在H1成立時(shí)落入非劣效界值區(qū)間(δ,∞)內(nèi)的概率就等于檢驗(yàn)功效 power,即 power=1-β=P(CL>δ|H1)。根據(jù)這個(gè)關(guān)系式即可對相應(yīng)的非劣效性試驗(yàn)檢驗(yàn)功效分析或樣本量估計(jì)公式進(jìn)行推導(dǎo)。
經(jīng)嚴(yán)密推導(dǎo),對兩正態(tài)總體均數(shù)差值作統(tǒng)計(jì)推斷時(shí)成組設(shè)計(jì)非劣效性試驗(yàn)的檢驗(yàn)功效分析及樣本量估計(jì)公式如下:
這就是以均差為效應(yīng)指標(biāo)的成組設(shè)計(jì)非劣效性試驗(yàn)的檢驗(yàn)功效分析通用公式。
令nR=knT,由式(1)可導(dǎo)出:
式(2)和式(3)就是以均差為效應(yīng)指標(biāo)的成組設(shè)計(jì)非劣效性試驗(yàn)的樣本量估計(jì)通用公式。
利用式(9)~式(14)估計(jì)樣本量時(shí),都需要采用迭代嘗試法。第 1 次迭代時(shí),可取 t1-α,2(n-1)=t1-α,∞=u1-α,t1-β,2(n-1)=t1-β,∞=u1-β。當(dāng)前后兩次迭代結(jié)果無明顯差別時(shí),即可停止迭代。
式(13)和式(14)都是在μT=μR這一特殊前提條件下的樣本量估計(jì)公式。當(dāng)然,當(dāng)μT與μR相差不大時(shí),這兩個(gè)公式仍可用于近似計(jì)算。但是,一旦前提條件與實(shí)際情況相差較大,利用這兩個(gè)公式所進(jìn)行的樣本量估計(jì)將會(huì)產(chǎn)生很大的誤差,甚至還可能導(dǎo)致錯(cuò)誤。
為了驗(yàn)證上面所推導(dǎo)出來的公式的正確性,這里給出了Monte Carlo模擬的結(jié)果,供讀者參考。
(1)假設(shè)從某項(xiàng)關(guān)于輕中度原發(fā)性高血壓患者的降血壓治療方法(試驗(yàn)藥治療法與標(biāo)準(zhǔn)對照藥治療法)的非劣效性試驗(yàn)預(yù)實(shí)驗(yàn)數(shù)據(jù)(測量指標(biāo)為仰臥舒張壓SDBP的降低值,計(jì)量單位為mmHg,并假定資料服從正態(tài)分布)得到=14,=12,sT=8,sR=7。此外,假定已知試驗(yàn)組與對照組的總體標(biāo)準(zhǔn)差σT=σR=8,規(guī)定非劣效區(qū)間(δ,∞)=(-3,∞),假定非劣效性檢驗(yàn)允許犯Ⅰ、Ⅱ型錯(cuò)誤的概率分別為α=0.05、β=0.20,并要求兩組樣本量相等,即nT=nR=n。用樣本均值作為總體均值的估計(jì),用樣本均值的差值作為總體均值差值的估計(jì),即diff=-=2。又u1-α=1.645,power=1-β=0.80,采用式(5)求得每組所需的樣本量nT=nR=n=32。接下來,根據(jù)上述數(shù)據(jù),進(jìn)行10萬次隨機(jī)模擬抽樣,并進(jìn)行非劣效性檢驗(yàn),以便驗(yàn)證實(shí)際的檢驗(yàn)功效是否達(dá)到了估計(jì)樣本大小時(shí)所要求達(dá)到的最低值。每次抽樣都是試驗(yàn)組從正態(tài)總體N(14,82)中隨機(jī)抽取32個(gè)數(shù),對照組從正態(tài)總體 N(12,82)中隨機(jī)抽取32個(gè)數(shù),然后對10萬次抽樣中每次抽樣所得到的數(shù)據(jù)進(jìn)行非劣效性推斷,并記錄這10萬次非劣效性推斷中得出試驗(yàn)組非劣于對照組的次數(shù),該次數(shù)除以10萬即為檢驗(yàn)功效。模擬結(jié)果為:power=0.7991(其漸近標(biāo)準(zhǔn)誤差為0.0013,95%CI為[0.7966,0.8016]),與 0.80 的差別無統(tǒng)計(jì)學(xué)意義(Z=-0.7194,P=0.4719),實(shí)際的檢驗(yàn)功效基本達(dá)到了估計(jì)樣本大小時(shí)所要求達(dá)到的最低值0.80。
(3)若前述降血壓治療方法研究的試驗(yàn)組與對照組總體平均降壓值相等,并假定μT=μR=(14+12)/2=13,其他條件和要求同(1),采用式(5)進(jìn)行樣本量估計(jì),得nT=nR=n=88。隨后進(jìn)行10萬次隨機(jī)模擬,每次抽樣都是試驗(yàn)組從正態(tài)總體N(13,82)中隨機(jī)抽取88個(gè)數(shù),對照組從正態(tài)總體N(13,82)中隨機(jī)抽取88個(gè)數(shù),其他處理同(1)。模擬結(jié)果為:power=0.7982(其漸近標(biāo)準(zhǔn)誤差為 0.0013,95%CI為[0.7957,0.8006]),與 0.80 的差別無統(tǒng)計(jì)學(xué)意義(Z=-1.4546,P=0.1458),實(shí)際的檢驗(yàn)功效基本達(dá)到了估計(jì)樣本大小時(shí)所要求達(dá)到的最低值0.80。
(4)若前述降血壓治療方法研究的試驗(yàn)組與對照組總體平均降壓值相等,并假定μT=μR=(14+12)/2=13,其他條件和要求同(2),采用式(9)進(jìn)行樣本量估計(jì),得nT=nR=n=79。隨后進(jìn)行10萬次隨機(jī)模擬,每次抽樣都是試驗(yàn)組從正態(tài)總體N(13,82)中隨機(jī)抽取79個(gè)數(shù),對照組從正態(tài)總體N(13,72)中隨機(jī)抽取79個(gè)數(shù),其他處理同(1)。模擬結(jié)果為:power=0.8056(其漸近標(biāo)準(zhǔn)誤差為 0.0013,95%CI為[0.8031,0.8080]),略大于 0.80(Z=4.3956,P <0.0001),實(shí)際的檢驗(yàn)功效達(dá)到了估計(jì)樣本大小時(shí)所要求達(dá)到的最低值0.80。
上面的Monte Carlo模擬結(jié)果表明,筆者所推導(dǎo)出來的公式是正確的。
對兩正態(tài)總體均數(shù)差值作統(tǒng)計(jì)推斷時(shí)成組設(shè)計(jì)非劣效性試驗(yàn)的檢驗(yàn)功效分析或樣本量估計(jì)公式是否正確,主要取決于以下7個(gè)方面:第一、有沒有交代清楚公式中有關(guān)符號的具體含義;第二、有沒有交代清楚公式是在什么條件下成立,在什么條件下不成立;第三、公式中用到的分位數(shù)的右下標(biāo)是否使用正確;第四、有沒有考慮到兩組真實(shí)效應(yīng)差值的影響;第五、有沒有給出明確、具體的兩組真實(shí)效應(yīng)差值的估計(jì)方法;第六、有沒有交代清楚公式中用到的非劣效界值的表達(dá)形式及取值范圍;第七、公式編輯有無錯(cuò)誤。
從式(2)~式(7)、式(11)~式(14)可以清楚地看到,由于平方項(xiàng)“[(μT-μR)-δ]2”或“δ2”位于樣本量估計(jì)公式的分母上,因此,當(dāng)試驗(yàn)組與對照組的總體均數(shù)相差較大、不可以被近似為“0”時(shí),如果仍然按照假定μT=μR時(shí)所推導(dǎo)出來的公式進(jìn)行樣本量估計(jì),將兩組真實(shí)效應(yīng)的差值(μT-μR)忽略或近似為“0”,則會(huì)低估或者高估樣本量。當(dāng)[(μT- μR)- δ]2> δ2,即(μT-μR)(μT-μR-2δ) >0時(shí),將兩組真實(shí)效應(yīng)的差值(μT-μR)忽略或近似為“0”,則會(huì)高估樣本量;當(dāng)[(μT-μR)-δ]2< δ2,即(μT- μR)(μT- μR-2δ) <0時(shí),將兩組真實(shí)效應(yīng)的差值(μT-μR)忽略或近似為“0”,則會(huì)低估樣本量。因此,當(dāng)試驗(yàn)組與對照組的總體均數(shù)相差較大、不可以被近似為“0”時(shí),估計(jì)樣本量必須考慮兩組總體均數(shù)差值的影響,千萬不可盲目假設(shè)μT= μR。
本文所推導(dǎo)出來的公式中所涉及到的兩組真實(shí)效應(yīng)的差值可以用預(yù)試驗(yàn)的樣本均值之差作為估計(jì),也可以依據(jù)既往研究或通過其他方法進(jìn)行估計(jì)。采用含有t分布分位數(shù)的公式進(jìn)行樣本量估計(jì)時(shí),需要采用迭代嘗試算法;具體迭代時(shí),可先取 t1-α,v=t1-α,∞=u1-α,t1-β,∞=t1-β,v=u1-β,計(jì)算得到樣本量的一個(gè)初始值,然后在此基礎(chǔ)上進(jìn)行迭代,當(dāng)前后兩次迭代計(jì)算的結(jié)果無明顯差別時(shí),迭代過程即可停止。
由于 u1-α= -uα,u1-β= -uβ,所以有(u1-α+u1-β)2=(uα+uβ)2成立。同理,有(t1-α,v+t1-β,v)2=(tα,v+tβ,v)2成立。
此外,采用本文所推導(dǎo)出來的公式計(jì)算得到的樣本量n是在扣除了實(shí)際試驗(yàn)過程中受試對象的不依從性、失訪等因素的影響之后所需要的有效樣本量。實(shí)際抽樣時(shí)必須考慮試驗(yàn)過程中受試對象的不依從性、失訪等因素的影響〔10,12〕,所需抽取的實(shí)際樣本例數(shù)需要在此基礎(chǔ)上進(jìn)行校正。假定受試對象的不依從率為pm,失訪率為pl,其他因素的影響可忽略不計(jì),則經(jīng)校正后的樣本量應(yīng)為nadj=n/[(1-pm)(1-pl)]。而文獻(xiàn)〔10〕給出的校正公式 nadj=n/[(1-pm)2(1-pl)]則更為保守。
1.吳圣賢,王成祥主編.臨床研究樣本含量估算.北京:人民衛(wèi)生出版社,2008,7-8.
2.Chow SC,Shao J,Wang HS.Sample Size Calculation in Clinical Research.New York:Marcel Dekker,Inc.,2003:47-59.
3.Steven A.Julious.Tutorial in biostatistics:Sample sizes for clinical trials with Normal data.Statistics in Medicine,2004,23:1921-1986.
4.Jones B,Jarvis P,Lewis JA,et al.Trials to assess equivalence:the im-portance of rigorousmethods.BMJ,313:36-39.
5.王楊,李衛(wèi),成小如,等.隨機(jī)模擬法驗(yàn)證非劣效臨床試驗(yàn)樣本量計(jì)算公式.中國衛(wèi)生統(tǒng)計(jì),2008,25(1):26-28.
6.鄭青山,孫瑞元,陳志揚(yáng).新藥臨床非劣及等效性試驗(yàn)中的例數(shù)估計(jì)和等效標(biāo)準(zhǔn).中國新藥雜志,2003,12(5):368-371.
7.劉玉秀,姚晨,陳峰,等.臨床非劣效性/等效性評價(jià)的統(tǒng)計(jì)學(xué)方法.中國臨床藥理學(xué)與治療學(xué),2000,5(4):344-349.
8.劉玉秀,姚晨,陳峰,等.非劣性/等效性試驗(yàn)中的統(tǒng)計(jì)學(xué)分析.中國臨床藥理學(xué)雜志,2000,16(6):448-452.
9.劉玉秀,姚晨,陳峰,等.非劣效/等效性試驗(yàn)的樣本含量估計(jì)及統(tǒng)計(jì)推斷.中國新藥雜志,2003,12(5):371-376.
10.劉玉秀,姚晨,陳峰,等.非劣性/等效性試驗(yàn)的樣本含量估計(jì)及把握度分析.中國衛(wèi)生統(tǒng)計(jì),2004,21(1):31-35.
11.袁小紅,莊嚴(yán),陳平雁.兩均數(shù)比較的優(yōu)效性/等效性和非劣性驗(yàn)證的樣本量估計(jì).中國新藥雜志,2009,18(23):2205-2209.
12.黃欽,趙明.對臨床試驗(yàn)統(tǒng)計(jì)學(xué)假設(shè)檢驗(yàn)中非劣效、等效和優(yōu)效性設(shè)計(jì)的認(rèn)識.中國臨床藥理學(xué)雜志,2007,23(1):63-67.