吳振強(qiáng) 李 衛(wèi) 孫業(yè)桓 王 楊
存在共同終點的優(yōu)效性臨床試驗樣本量問題探討
吳振強(qiáng)1,2李 衛(wèi)1Δ孫業(yè)桓2Δ王 楊1
目的 探討當(dāng)優(yōu)效性臨床試驗存在多個共同終點時,各終點分別計算樣本量取最大值的樣本量計算方法的合理性。方法 運用蒙特卡洛模擬的方法,驗證實踐中常用的多個主要終點分別計算取最大值的樣本量計算方法的合理性;并進(jìn)一步探討主要終點間相關(guān)性與檢驗效能之間的關(guān)系。結(jié)果 當(dāng)多個終點分別計算的樣本量相等時,分別計算取最大值的方法不能達(dá)到預(yù)期的檢驗效能(80%);當(dāng)相關(guān)系數(shù)小于0時,檢驗效能在60%左右波動;大于0時,隨著相關(guān)系數(shù)的增加,檢驗效能逐漸增大。結(jié)論 當(dāng)多個主要終點算得樣本量相當(dāng)時,取最大值的樣本量計算方法并不適用于優(yōu)效性臨床試驗;當(dāng)多個主要終點算得的樣本量差距較大時,可以達(dá)到試驗所需的檢驗效能。因此,運用時需要考慮其適用條件。
臨床試驗 樣本量計算 檢驗效能 相關(guān)性 蒙特卡洛模擬
1.中國醫(yī)學(xué)科學(xué)院,北京協(xié)和醫(yī)學(xué)院,國家心血管疾病中心,阜外心血管病醫(yī)院,心血管疾病國家重點實驗室,醫(yī)學(xué)研究統(tǒng)計中心(100037)
2.安徽醫(yī)科大學(xué)公共衛(wèi)生學(xué)院
△通信作者:李衛(wèi),E-mail:liwei@mrbc-nccd.com;孫業(yè)桓,E-mail:sun611007@163.com
臨床試驗中,病人的反應(yīng)可能是多種多樣的,很多疾病機(jī)理并不清楚,因此某些臨床研究并不能找出唯一的主要終點指標(biāo)來證明藥物或器械的有效性,此時通常需要設(shè)置多個主要終點〔1,2〕。根據(jù)試驗設(shè)計的不同,多終點臨床試驗大致可分為兩類〔3,4〕:(1)多個主要終點中一個有統(tǒng)計學(xué)意義,整個臨床試驗就是成功的;(2)多個主要終點必須同時有統(tǒng)計學(xué)意義,整個臨床試驗才是成功的,此時稱為多個共同終點的臨床試驗。臨床實踐中,類型(1)主要存在Ⅰ類錯誤膨脹的問題〔4-6〕。審評機(jī)構(gòu)〔7〕和科學(xué)期刊〔8〕通常建議用多重調(diào)整的方法解決這類問題(如:Bonferroni法、Holm法、Hochberg法和James等方法)。其中Leon和 Heo在2007年運用隨機(jī)模擬對這些方法的Ⅰ類錯誤的膨脹情況進(jìn)行了比較,得出終點指標(biāo)間的相關(guān)性r≤0.5時Hochberg調(diào)整具有更高的檢驗效能,當(dāng)r>0.5時James的方法更為合理〔5〕。類型(2)成功解決了Ⅰ類錯誤膨脹的問題,但是隨之而來的是Ⅱ類錯誤的膨脹〔2〕,通常解決這類問題的方法是增加樣本量〔3,9〕。存在共同終點的臨床試驗中,對每個主要終點分別計算樣本量,然后取最大值作為臨床試驗所需的樣本量是一種實踐中常用的方法;但是有些外文文獻(xiàn)對這種樣本量計算方法的合理性提出質(zhì)疑,認(rèn)為這種方法不僅沒有考慮指標(biāo)間的相關(guān)性,而且可能會出現(xiàn)檢驗效能不足的問題。目前國內(nèi)并無相關(guān)研究報道。因此本研究將結(jié)合臨床實踐中的實際數(shù)據(jù),運用隨機(jī)模擬的方法對此樣本量計算方法的合理性進(jìn)行探討。
在共同終點的臨床試驗中,為了更加清晰直觀地探討分別計算取最大值樣本量計算方法的合理性,本研究僅對實踐中常用的兩個共同終點的優(yōu)效性臨床試驗進(jìn)行模擬分析。
其中假設(shè)臨床試驗要驗證試驗藥物T優(yōu)效于對照藥物C,需要兩個共同主要終點指標(biāo)P1和P2(高優(yōu)指標(biāo)),其中P1和P2均是來自正態(tài)總體的連續(xù)性指標(biāo),為了使得模擬的結(jié)果更加貼近實際,因此本模擬研究假定指標(biāo)間存在一定相關(guān)性。
基于以上假設(shè),本研究將根據(jù)兩個終點指標(biāo)計算的樣本量相同和不相同分別進(jìn)行蒙特卡洛模擬。具體步驟如下:
(1)假定兩個共同終點間存在相關(guān)性,根據(jù)終點指標(biāo)的均值和標(biāo)準(zhǔn)差,產(chǎn)生具有一定相關(guān)性的正態(tài)分布隨機(jī)數(shù)作為研究樣本,并對其進(jìn)行統(tǒng)計分析;
(2)將組間差異95%的可信區(qū)間下限與0比較,并將所得情況記錄下來;
(3)若兩個指標(biāo)的下限同時小于0,即拒絕零假設(shè),則將結(jié)論記為“正確”;若下限至少有一個大于等于0,即不拒絕零假設(shè),則將結(jié)論記為“錯誤”;
(4)重復(fù)步驟(1)至(3)1000次,并記錄下得到“正確”結(jié)論的次數(shù),其中正確比例即為在此總體特征和參數(shù)設(shè)置下的檢驗效能。其中進(jìn)行多次模擬試驗的主要目的是保證結(jié)果的穩(wěn)定性;
(5)根據(jù)共同終點間相關(guān)程度的不同重復(fù)步驟(1)至(4),并作相應(yīng)的記錄。
(1)基本指標(biāo)
試驗組和對照組的基本數(shù)據(jù)均來自某臨床試驗報告,基本指標(biāo)如下:
基于以上指標(biāo),根據(jù)樣本量的計算公式:
可以得到兩個主要指標(biāo)所需的樣本量n1和n2相等,其中n1=n2=51×2,即臨床試驗所需的樣本量為51對。
(2)隨機(jī)模擬的結(jié)果
①研究的實際檢驗效能
基于隨機(jī)模擬步驟,我們將在不同相關(guān)系數(shù)r(-1.0,-0.9,…,0,…,0.9,1.0)下,研究臨床試驗檢驗效能(1-β)的變化情況。結(jié)果見表1。
表1 檢驗效能變化情況
圖1 檢驗效能變化情況
根據(jù)模擬的結(jié)果,得出:a)當(dāng)臨床試驗有兩個共同終點,且主要終點指標(biāo)的相關(guān)性小于1時,整體的檢驗效能均不能達(dá)到80%;b)隨著相關(guān)系數(shù)的變化,檢驗效能也會發(fā)生相應(yīng)的變化;c)相關(guān)系數(shù)在-1到0之間時,整體檢驗效能在60%左右波動;d)相關(guān)系數(shù)從0增加到1時,整體的檢驗效能從0.645增加到0.799;e)Ⅱ類錯誤和檢驗效能是互補的概念,當(dāng)檢驗效能達(dá)不到預(yù)先設(shè)定值時,相應(yīng)的Ⅱ類錯誤也會高于預(yù)先設(shè)定的值,出現(xiàn)Ⅱ類錯誤膨脹的問題。
②達(dá)到方案規(guī)定檢驗效能時所需樣本量?;陔S機(jī)模擬步驟,模擬在共同終點間的相關(guān)性一定時,隨著樣本量增大,臨床研究檢驗效能(1-β)的變化情況,匯總結(jié)果見表2。
表2 檢驗效能變化情況(相關(guān)系數(shù))
圖2 檢驗效能的變化情況
根據(jù)模擬的結(jié)果,得出:a)共同終點間的相關(guān)系數(shù)設(shè)定為0.7,每組的樣本量達(dá)到61時,整體檢驗效能才能達(dá)到預(yù)先設(shè)定的80%;b)當(dāng)整體檢驗效能達(dá)到80%時,對于單個終點計算樣本量時,檢驗效能至少需要達(dá)到85%以上,因此在用這種方法時一定要與隨機(jī)模擬方法聯(lián)合應(yīng)用,從而保證整體的檢驗效能;c)隨著樣本量逐漸增大,單個主要終點的檢驗效能和整體的檢驗效能都是逐漸增大的,進(jìn)一步證明通過樣本量的增大可以彌補檢驗效能不足的問題;d)圖2中第一條豎線顯示,在單個終點達(dá)到80%的檢驗效能時,整個臨床試驗的檢驗效能是達(dá)不到預(yù)先設(shè)定值的,同上部分模擬結(jié)果類似。
隨機(jī)模擬的基本指標(biāo):
模擬擬次數(shù):1000;
Ⅰ類錯誤:α1=α2=0.05;
檢驗效能:1-β=80%。
基于以上信息,進(jìn)行隨機(jī)模擬,結(jié)果見表3:
表3 隨著Δ差距的變化,檢驗效能的變化情況
根據(jù)模擬的結(jié)果,得出:a)兩個指標(biāo)的平均效應(yīng)差異很小時,選取最大樣本作為試驗所需樣本量并不能達(dá)到方案預(yù)先設(shè)定的檢驗效能(圖3兩條豎線間的區(qū)域);b)兩個指標(biāo)的平均效應(yīng)差異較大時(圖3兩條豎線外的區(qū)域),選取最大樣本作為試驗所需樣本是可以達(dá)到方案預(yù)先設(shè)定的檢驗效能。
圖3 隨Δ變化的檢驗效能的變化情況
本研究通過蒙特卡洛模擬的方法,對實際臨床研究中常用的多個共同終點分別計算取最大值的樣本量計算方法的合理性進(jìn)行了探討,驗證了此方法的適用條件;當(dāng)運用不當(dāng)時,并不能達(dá)到試驗方案規(guī)定的檢驗效能,即出現(xiàn)Ⅱ類錯誤膨脹的問題。另外,隨機(jī)模擬的結(jié)果也充分體現(xiàn)了指標(biāo)相關(guān)性在樣本量計算時發(fā)揮的作用;考慮終點間的相關(guān)性可以在保證試驗效能的情況下節(jié)省樣本量,降低病人暴露風(fēng)險的可能性;因此分別計算樣本量取最大值的方法,并結(jié)合隨機(jī)模擬的方法進(jìn)行驗證不失為一種切實可行的樣本量計算方法,但兩種方法結(jié)合的細(xì)節(jié)和具體的操作方式仍需探討。
每次隨機(jī)模擬都相當(dāng)于進(jìn)行了一次臨床試驗,又因模擬過程是隨機(jī)的,可能出現(xiàn)很多不滿足方差齊性等假設(shè)的情況,這樣的數(shù)據(jù)可能更貼近于實際應(yīng)用臨床試驗數(shù)據(jù)〔10〕;因此可用于探討樣本量確定方法的合理性。
綜上所述,對于存在兩個共同終點臨床試驗的樣本量設(shè)計,每個終點分別計算取最大值的樣本量計算方法不適用于兩個終點間平均效應(yīng)差距較小的情況,運用時要慎重。
1.Chuang-Stein C,Stryszak P,Dmitrienko A,et al.Challenge of multiple co-primary endpoints:a new approach.Stat Med,2007,26(6):1181-1192.
2.Sankoh AJ,Sr DRB,Huque MF.Efficacy endpoint selection and multiplicity adjustment methods in clinical trials with inherent multiple endpoint issues.Stat Med,2003,22(20):3133-3150.
3.Eaton ML,Muirhead RJ.On a multiple endpoints testing problem.Journal of Statistical Planning and Inference,2007,137(11):3416-3429.
4.Offen W,Chuang-Stein C,Dmitrienko A,et al.Multiple co-primary endpoints:medical and statistical solutions a report from the multiple endpoints expert team of the pharmaceutical research and manufacturers of america.Drug Information Journal,2007,41:31-46.
5.Leon AC,Heo M,Teres JJ,et al.Statistical power of multiplicity adjustment strategies for correlated binary endpoints.Stat Med,2007,26(8):1712-1723.
6.Leon AC,Heo M.A comparison of multiplicity adjustment strategies for correlated binary endpoints.J Biopharm Stat,2005,15(5):839-855.
7.U.S.Department of Health and Human Services,F(xiàn)ood and Drug Administration,Center for Drug Evaluation and Research,Center for Biologics Evaluation and Research.Guidance for Industry:E9 Statistical Principles,1998.
8.Altman DG,Schulz KF,Moher D,et al.The revised CONSORT statement for reporting randomized trials:explanation and elaboration.Ann Intern Med,2001,134(8):663-694.
9.Koch GG,Gansky SA.Statistical considerations for multiplicity in confirmatory protocols.Drug Information Journal,1996,33:523-533.
10.王楊,李衛(wèi),成小如,等.隨機(jī)模擬法驗證非劣效臨床試驗樣本量計算公式.中國衛(wèi)生統(tǒng)計,2008(1):26-28.
Sample Size Considerations in Superiority Clinical Trials With Co - primary Endpoints
Wu Zhenqiang,Li Wei,Sun Yehuan,et al.Medical Research &Biometrics Center,State Key Laboratory of Cardiovascular Disease,F(xiàn)uwai Hospital,National Center for Cardionascular Disease,Chinese Academy of Medical Sciences and Peking Union Medical College(100037),Beijing
ObjectiveTo evaluate the method of selecting a maximum sample size of those obtained from testing individual primary endpoint.MethodsMonte Carlo simulation was used to verify the power of this sample size calculated method.Furthermore,we assessed the effect of correlation coefficient among the co-primary endpoints.ResultsWhen the mean effect sizes are equal in individual primary endpoints,the study power cannot reach 80%.Study power fluctuates around 60%if the correlation coefficient is negative.However,the power increases with the incretion of correlation coefficient when the correlation coefficient is greater than 0.ConclusionThe method of selecting a maximum sample size is under-power when the mean effect sizes are equal in individual primary endpoint.When effect sizes largely varied,the study power is enough.
Clinical trials,Simple size calculation,Power,Correlation,Monte Carlo comsimulation
(責(zé)任編輯:丁海龍)