南方醫(yī)科大學(xué)南京臨床醫(yī)學(xué)院 南京軍區(qū)南京總醫(yī)院(210002) 劉麗霞 劉玉秀 陳 林 成 琪
采用以陽性藥(R)和安慰劑(P)作為對照進(jìn)行試驗(yàn)藥(E)非劣效評判的三臂臨床試驗(yàn),彌補(bǔ)了僅以陽性藥作為對照的兩臂臨床試驗(yàn)不能評估檢測敏感性和難以確保假設(shè)恒定性的先天性不足〔1〕,ICH E10將其視為非劣效評判的“金標(biāo)準(zhǔn)”設(shè)計(jì)〔2〕。
2003年,Pigeot等在正態(tài)分布且方差齊性的條件下提出了一種基于均差之比的假設(shè)檢驗(yàn),在預(yù)先給定的閾值(θ)的條件下,若試驗(yàn)藥與安慰劑療效之差大于陽性藥與安慰劑療效之差的100θ%,即可得出非劣效的結(jié)論〔3〕。2008年,Mario等研究發(fā)現(xiàn)在方差不齊時(shí),此假設(shè)檢驗(yàn)式會(huì)偏離預(yù)先給定的第一類錯(cuò)誤水平,因此提出了正態(tài)分布下方差不齊時(shí),采用Welch校正t檢驗(yàn)的假設(shè)檢驗(yàn)式〔4〕。
本文以Silva-Costa-Gomes等報(bào)道的一篇三臂臨床試驗(yàn)結(jié)果為基礎(chǔ)〔5〕,通過隨機(jī)模擬實(shí)驗(yàn)探討以對數(shù)正態(tài)分布和Gamma分布為代表的偏態(tài)分布下,三臂臨床試驗(yàn)基于bootstrap再抽樣技術(shù)的非劣效評判問題。
記 XE=(XE1,…,XE,nE)、XR=(XR1,…,XR,nR)、XP=(XP1,…,XP,nP)分別為三臂臨床試驗(yàn)的試驗(yàn)組、陽性對照組及安慰劑組的樣本觀測值,nE、nR、nP分別為三組的觀測例數(shù)。假設(shè)這些隨機(jī)變量相互獨(dú)立,其對應(yīng)的總體均數(shù)分別為 μE、μR、μP,方差分別為、、。假定觀測值越大,療效越好。
基于bootstrap再抽樣技術(shù),進(jìn)行的三臂臨床試驗(yàn)非劣效評判的具體實(shí)施步驟如下:
第一步,在三組原始樣本中進(jìn)行bootstrap抽樣,獲得bootstrap樣本,記為
第二步,對bootstrap樣本X*b計(jì)算試驗(yàn)組與安慰劑組均數(shù)之差與陽性對照組與安慰劑組均數(shù)之差的比值。
第三步,重復(fù)第一步、第二步B次獲得bootstrap樣本統(tǒng)計(jì)量b構(gòu)成的bootstrap分布,用百分位數(shù)法求出該分布2.5%的分位點(diǎn),記為(2.5)。該量即為公式(1)對應(yīng)參數(shù)的97.5%置信區(qū)間的下限估計(jì)值。
第四步,以θ作為非劣效判定的界值,一般取θ≥0.8,即試驗(yàn)組與安慰劑組的均數(shù)之差至少應(yīng)保證是陽性對照組與安慰劑均數(shù)之差的80%以上才可判定為非劣效。在預(yù)先給定的第一類錯(cuò)誤α=0.025水平下,若存在(2.5)>θ則可得出非劣效的結(jié)論。
對于三組隨機(jī)變量相互獨(dú)立且服從均數(shù)為μE、μR、μP,方差為、、的正態(tài)分布的三臂臨床試驗(yàn)可建立如下假設(shè):
該零假設(shè)可以轉(zhuǎn)換為μE-θμR-(1-θ)μP≤0。在此假設(shè)下,當(dāng)方差不齊時(shí),Welch校正t檢驗(yàn)統(tǒng)計(jì)量計(jì)算式為:
若 t> t1-α,^v即可得出非劣效的結(jié)論。
Silva-Costa-Gome等報(bào)道在開胸手術(shù)后,應(yīng)用阿米三嗪聯(lián)合一氧化氮(ALM+NO)預(yù)防單側(cè)肺通氣缺氧的三臂臨床試驗(yàn)研究中,以30分鐘后單側(cè)肺通氣氧分壓的觀測值為觀測指標(biāo).考察低劑量ALM(ALM4)相對于高劑量ALM(ALM16)的非劣效性,研究結(jié)果見表1。該組數(shù)據(jù)服從正態(tài)分布但方差不齊,Mario等以此數(shù)據(jù)為例,在α=0.05、θ=0.8的條件下經(jīng)Welch校正t檢驗(yàn)得出試驗(yàn)組(ALM4+NO)非劣于陽性對照組(ALM16+NO)的結(jié)論。本文的隨機(jī)模擬實(shí)驗(yàn)即基于該試驗(yàn)結(jié)果進(jìn)行模擬。
表1 開胸手術(shù)30分鐘后各組單側(cè)肺通氣氧分壓的統(tǒng)計(jì)描述
本文的Monte Carlo模擬實(shí)驗(yàn)均借助于SAS 9.1統(tǒng)計(jì)分析系統(tǒng),因該系統(tǒng)沒有提供根據(jù)均數(shù)和標(biāo)準(zhǔn)差直接產(chǎn)生對數(shù)正態(tài)分布和Gamma分布的隨機(jī)函數(shù),需間接實(shí)現(xiàn),這里分別給予說明。
產(chǎn)生對數(shù)正態(tài)分布隨機(jī)樣本的基本步驟為:根據(jù)欲產(chǎn)生的對數(shù)正態(tài)分布的均數(shù)(μ)和標(biāo)準(zhǔn)差(σ),求得其對數(shù)轉(zhuǎn)換后所對應(yīng)的正態(tài)分布下的均數(shù)(mean),和標(biāo)準(zhǔn)差(std),[std=ln利用正態(tài)分布的隨機(jī)函數(shù)產(chǎn)生服從均數(shù)為mean,標(biāo)準(zhǔn)差為std的正態(tài)分布的隨機(jī)樣本后,再進(jìn)行指數(shù)轉(zhuǎn)換即獲得服從均數(shù)μ、標(biāo)準(zhǔn)差為σ的對數(shù)正態(tài)分布的隨機(jī)樣本。
產(chǎn)生Gamma分布隨機(jī)樣本的基本步驟為:根據(jù)欲產(chǎn)生的Gamma分布的均數(shù)(μ)和標(biāo)準(zhǔn)差(σ),求得產(chǎn)生Gamma分布的兩參數(shù),形狀參數(shù)a,(a=σ2/μ)和尺度參數(shù) b,(b= μ2/σ2)〔7〕。利用 Gamma 分布的隨機(jī)函數(shù)產(chǎn)生服從形狀參數(shù)為a、尺度參數(shù)為b的Gamma分布的隨機(jī)樣本,即均數(shù)為μ、標(biāo)準(zhǔn)差為σ的Gamma分布的隨機(jī)樣本。
在 μR=36.7,μP=16.5,σE=10.4,σR=13.2,σP=7.5,α=0.025,θ=0.8的條件下,進(jìn)行 α 模擬。根據(jù)θ=0.8,可得出無效假設(shè)下的μE=32.66。固定其中兩組的樣本量為50,第三組的樣本量分別取25、50、75、100、125,按三組各自的均數(shù)和標(biāo)準(zhǔn)差分別產(chǎn)生100000個(gè)服從正態(tài)分布、對數(shù)正態(tài)分布和Gamma分布的隨機(jī)樣本,采用Welch校正t檢驗(yàn)法在α=0.025檢驗(yàn)水準(zhǔn)下進(jìn)行非劣效統(tǒng)計(jì)推斷,由于bootstrap法模擬耗時(shí)較長,這里僅產(chǎn)生2000個(gè)隨機(jī)樣本進(jìn)行bootstrap法的模擬。隨機(jī)模擬的Welch校正t檢驗(yàn)法和bootstrap法的第一類錯(cuò)誤率,結(jié)果見表2。
表2 不同分布下的三臂臨床試驗(yàn)非劣效推斷模擬實(shí)驗(yàn)的第一類錯(cuò)誤率(名義檢驗(yàn)水準(zhǔn)為α=0.025)
由表2可知,數(shù)據(jù)服從正態(tài)分布時(shí),Welch校正t檢驗(yàn)的第一類錯(cuò)誤率始終保持在預(yù)先給定的α=0.025水平,波動(dòng)范圍不超過3%,而bootstrap法的第一類錯(cuò)誤率,在樣本量大于50時(shí),也基本保持在α=0.025的水平,波動(dòng)范圍不超過8%。
數(shù)據(jù)服從對數(shù)正態(tài)分布時(shí),固定試驗(yàn)組和陽性對照組的樣本量nE=nR=50,改變安慰劑組樣本量nP=25、50、75、100、125,Welch 校正 t檢驗(yàn)的第一類錯(cuò)誤率非常接近α=0.025的水平,波動(dòng)范圍不超過4%。bootstrap法在樣本量大于50時(shí),第一類錯(cuò)誤率在α=0.025的水平上下波動(dòng),范圍不超過10%。固定陽性對照組和安慰劑組的樣本量nR=nP=50,改變試驗(yàn)組的樣本量 nE=25、50、75、100、125,Welch 校正 t檢驗(yàn)的第一類錯(cuò)誤率隨著樣本量的增加而逐漸增大,偏離了α=0.025的水平,而bootstrap法的第一類錯(cuò)誤率在樣本量大于50時(shí),基本保持在α=0.025的水平,波動(dòng)范圍不超過2%。固定試驗(yàn)組和安慰劑組的樣本量nE=nP=50,改變陽性對照組的樣本量 nR=25、50、75、100、125,Welch校正t檢驗(yàn)的第一類錯(cuò)誤隨著樣本含量的增加而逐漸減小,偏離了α=0.025的水平,而bootstrap法的第一類錯(cuò)誤率在樣本量大于50時(shí),在α=0.025的水平上下波動(dòng),波動(dòng)范圍不超過8%??梢?,在各組樣本量較大時(shí)(n>50),bootstrap置信區(qū)間法較Welch校正t檢驗(yàn)法能更好地控制第一類錯(cuò)誤,具有較好的穩(wěn)健性。
數(shù)據(jù)服從Gamma分布時(shí),固定試驗(yàn)組和陽性對照組的樣本量nE=nR=50,改變安慰劑組樣本量nP=25、50、75、100、125,Welch 校正 t檢驗(yàn)法的第一類錯(cuò)誤率始終保持在低于α=0.025的水平,偏離較大。而bootstrap法的第一類錯(cuò)誤率在α=0.025的水平上下波動(dòng),波動(dòng)范圍不超過4%。固定陽性對照組和安慰劑組樣本量nR=nP=50,改變試驗(yàn)組的樣本量nE=25、50、75、100、125,Welch 校正 t檢驗(yàn)法的第一類錯(cuò)誤率隨著樣本量的增加而逐漸增大,偏離了α=0.025的水平,而bootstrap法的第一類錯(cuò)誤率在α=0.025的水平上下波動(dòng),范圍不超過10%。固定試驗(yàn)組和安慰劑組的樣本量nE=nP=50,改變陽性對照組的樣本量nR=25、50、75、100、125,Welch 校正 t檢驗(yàn)法的第一類錯(cuò)誤率隨著樣本含量的增加而逐漸減小,偏離了α=0.025的水平,而bootstrap法的第一類錯(cuò)誤率在樣本量大于50時(shí),在α=0.025的水平上下波動(dòng)。范圍不超過6%??梢姡诟鹘M樣本量較大時(shí)(n>50),bootstrap置信區(qū)間法比Welch校正t檢驗(yàn)法能更好的控制第一類錯(cuò)誤,具有較好的穩(wěn)健性。
基于正態(tài)分布,在 μR=36.7,μP=16.5,σE=10.4,σR=13.2,σP=7.5,nE=nR=nP=50、60、70,α=0.025,θ=0.8的條件下,(μE-μP)/(μR-μP)分別取 0.8、0.9、1.0、1.1、1.2 時(shí),μE分別取 32.66、34.68、36.7、38.72、40.74,進(jìn)行 Welch 校正 t檢驗(yàn)法和 bootstrap法的power模擬實(shí)驗(yàn),計(jì)算出推斷結(jié)論為非劣效的百分比即為所謂的power,模擬結(jié)果見圖1。
同理,可以得出數(shù)據(jù)服從對數(shù)正態(tài)分布及Gamma分布下的模擬結(jié)果,分別見圖2和圖3。
圖1 正態(tài)分布時(shí)校正t檢驗(yàn)與bootstrap法power模擬比較(a)、(b)、(c)分別對應(yīng)各組等樣本量為50、60、70的情形
圖2 對數(shù)正態(tài)分布時(shí)校正t檢驗(yàn)法與bootstrap法的power模擬比較(a)、(b)、(c)分別對應(yīng)各組等樣本量為50、60、70的情形
從圖1、圖2和圖3可以看出,隨各組樣本量的增加,同一(μE-μP)/(μR-μP)條件下的 power逐漸增大,固定各組的樣本量,隨著(μE-μP)/(μR-μP)的增加,power也逐漸增大的特性。
圖3 Gamma分布時(shí)校正t檢驗(yàn)法與bootstrap法power模擬比較(a)、(b)、(c)分別對應(yīng)各組等樣本量為50、60、70的情形
bootstrap法是一種基于樣本數(shù)據(jù)再抽樣的方法,在總體分布不明、存在極端值、方差不齊以及無具體假設(shè)檢驗(yàn)式等特殊情況下,能幫助研究者進(jìn)一步的探討數(shù)據(jù)的結(jié)構(gòu)及其內(nèi)在的信息〔8〕。本文建立了一種適用于三臂臨床試驗(yàn)非正態(tài)分布的非劣效評判的bootstrap法,并從第一類錯(cuò)誤率和power進(jìn)行了模擬驗(yàn)證。模擬實(shí)驗(yàn)顯示,在數(shù)據(jù)服從正態(tài)分布,樣本量較大時(shí),Welch校正t檢驗(yàn)法和bootstrap法均表現(xiàn)出較好的統(tǒng)計(jì)性能。但當(dāng)數(shù)據(jù)呈偏態(tài)分布時(shí),Welch校正t檢驗(yàn)法和bootstrap法的power模擬結(jié)果基本相同,但Welch校正t檢驗(yàn)法的第一類錯(cuò)誤率會(huì)隨著樣本量的變化而偏離預(yù)先給定的第一類錯(cuò)誤水平,而bootstrap法在樣本量較大時(shí),第一類錯(cuò)誤率基本保持在預(yù)先給定的水平。第一類錯(cuò)誤的控制對于新藥研發(fā)的非劣效評判是極為重要的。因此,當(dāng)三臂臨床試驗(yàn)的樣本量較大時(shí),若數(shù)據(jù)服從正態(tài)分布且方差不齊時(shí)最好應(yīng)用Welch校正t檢驗(yàn)法進(jìn)行統(tǒng)計(jì)推斷,而當(dāng)數(shù)據(jù)呈偏態(tài)分布時(shí),在目前無具體的檢驗(yàn)統(tǒng)計(jì)式的情況下,則可考慮采用bootstrap法進(jìn)行非劣效判定。
早期國內(nèi)及國外的非劣效試驗(yàn)研究主要集中在非劣效界值的確定和兩臂非劣效試驗(yàn)的設(shè)計(jì)、數(shù)據(jù)分析和解釋等研究〔9-11〕,但隨著研究的發(fā)展和深入,一些研究發(fā)現(xiàn)兩臂非劣效試驗(yàn)由于缺乏安慰劑對照組在研究設(shè)計(jì)、數(shù)據(jù)分析、結(jié)果解釋方面存在一定的缺陷〔12,13〕。并且以歷史研究數(shù)據(jù)為基準(zhǔn)設(shè)計(jì)的兩臂試驗(yàn),存在試驗(yàn)與試驗(yàn)之間,試驗(yàn)組內(nèi)和試驗(yàn)組外等多種誤差,而Hung在研究中指出這些誤差對非劣效界值的確定影響很大,而目前的假設(shè)檢驗(yàn)統(tǒng)計(jì)式還無法消除這些誤差的干擾。因此,Tang在研究中指出,在倫理?xiàng)l件允許的情況下,應(yīng)該使用三臂臨床試驗(yàn)進(jìn)行非劣效的研究〔14〕。
本文是以θ作為非劣效評判的標(biāo)準(zhǔn),但是由于θ是基于試驗(yàn)藥和陽性對照藥與安慰劑相比療效大小比值而確定的,如果轉(zhuǎn)化為試驗(yàn)藥與陽性對照藥差值的非劣效界值,顯然該界值將隨著試驗(yàn)結(jié)果的不同而存在不確定性,因此,有學(xué)者提出了三臂臨床試驗(yàn)時(shí)仍采用類似于兩臂非劣效臨床試驗(yàn)事先固定試驗(yàn)藥與陽性對照藥效應(yīng)差值的非劣效界值的方法進(jìn)行非劣效的判定,并給出了正態(tài)分布且方差齊性條件下的統(tǒng)計(jì)檢驗(yàn)式〔15〕。數(shù)據(jù)服從正態(tài)分布且方差不齊或數(shù)據(jù)服從非正態(tài)分布的三臂臨床的固定界值法目前尚未見報(bào)道,有待進(jìn)一步的研究和探討。
對于數(shù)據(jù)不服從正態(tài)分布的三臂臨床試驗(yàn)的非劣效判定,在目前無具體的統(tǒng)計(jì)檢驗(yàn)式的情況下,建議應(yīng)用bootstrap法進(jìn)行數(shù)據(jù)的分析和判定。
1.Brown D,Volkers P,Day S.An introductory note to the CHMP guideline:Choice of the non-inferiority margin and monitoring committees.Statistical in Medicine,2006,25:1623-1627.
2.ICH GuidelineE10:Choice of control group and related issues in clinical trials.International Conference on Harmonization of Technical Requirements for Registration of Pharmaceuticals for Human Use(ICH),2000.
3.Pigeot I,Sch?fer J,R?hmel J,et al.Assessing non-inferiority of a new treatment in a three-arm clinical trial including a placebo.Statistics in Medicine,2003,22:883-899.
4.Mario H,Richardus V,Ludwig A.Assessing non-inferiority of a new treatment in a three-arm trial in the presence of heteroscedasticity.Statistics in Medicine,2008,27:490-503.
5.Silva-Costa-Gomes T,Gallart L,Valles J,et al.Low-vs-h(huán)igh-dose almitrine combined with nitrc oxide to prevent hydroxia during open-chest one-lung ventilation.British Journal of Anaesthesia,2005,95(3):410-416.
6.Welch BL.The significance of the difference between two means when the population variances are unequal.Biometrika,1938,29:350-362.
7.Laster LL,Wang SJ,Tsong Y,et al.Some fundamental issues with noninferiority testing in active controlled trials.Statistics in Medicin.,2003,22:213-225.
8.Efron B,Tibshirani RJ.An introduction to the bootstrap.Chapman &Hall:New York,1993.
9.Thomas R,F(xiàn)leming.Current issues in non-inferiority trial.Statistics in Medicine,2008,27:317-332.
10.馬玉全,周俊,周愛平,等.非劣效試驗(yàn)中對照的選擇和界值確定方法.中國臨床藥理學(xué)雜志,2009,14(9):961-965.
11.劉玉秀,姚晨,陳峰,等.非劣效等效性試驗(yàn)樣本含量估計(jì)及把握度分析.中國衛(wèi)生統(tǒng)計(jì),2004,21(1):31-35.
12.Hung HMJ,Wang SJ,O’Neill R.A regulatory perspective on choice of margin and statistical inference issue in non-inferiority trials.Biometrical Journal,2005,47:28-36.
13.Hung HMJ,Wang SJ,O’Neill R.Challenges and regulatory experiences with non-inferiority trial design without placebo arm.Biometrical Journal,2009,51:324-334.
14.Tang ML,Tang NS.Tests of non-inferiority via rate difference for three-arm clinical trials with placebo.Journal of Biopharmaceutical Statistics,2004,14:337-347.
15.Hida E,Tango T.On the three-arm non-inferiority trial including a placebo with a pre-specified margin.Statistics in Medicine,2011,30:224-231.