南京醫(yī)科大學(xué)流行病與衛(wèi)生統(tǒng)計(jì)學(xué)系(211100)
曹金金 劉麗亞 趙 楊 陳 峰 于 浩△
Ⅱ/Ⅲ期無(wú)縫臨床試驗(yàn)中合并檢驗(yàn)法與改良法的比較*
南京醫(yī)科大學(xué)流行病與衛(wèi)生統(tǒng)計(jì)學(xué)系(211100)
曹金金 劉麗亞 趙 楊 陳 峰 于 浩△
目的 研究Ⅱ/Ⅲ期無(wú)縫設(shè)計(jì)中最常用的合并檢驗(yàn)法與最新提出的改良法的統(tǒng)計(jì)學(xué)特性,推薦選擇較優(yōu)的分析方法。方法 系統(tǒng)地回顧無(wú)縫設(shè)計(jì)的基本設(shè)計(jì)思路和統(tǒng)計(jì)分析方法,采用計(jì)算機(jī)模擬技術(shù),分別研究?jī)煞N統(tǒng)計(jì)分析方法的總I類錯(cuò)誤和檢驗(yàn)效能。結(jié)果 合并檢驗(yàn)法和改良法相比,兩者在控制總I類錯(cuò)誤方面無(wú)明顯差異,但在檢驗(yàn)效能方面,合并檢驗(yàn)法始終優(yōu)于改良法。結(jié)論 建議優(yōu)先選擇合并檢驗(yàn)法進(jìn)行Ⅱ/Ⅲ期無(wú)縫臨床試驗(yàn)的統(tǒng)計(jì)分析。
Ⅱ/Ⅲ期無(wú)縫設(shè)計(jì) 早期結(jié)局指標(biāo) 主要結(jié)局指標(biāo) 合并檢驗(yàn)法 改良法
傳統(tǒng)的臨床試驗(yàn)設(shè)計(jì)思路清晰,目的明確,但存在試驗(yàn)周期長(zhǎng)、較多受試者可能長(zhǎng)時(shí)間暴露于療效差的試驗(yàn)組等缺陷。Bauer和Kieser于1999年首次提出將Ⅱ期和Ⅲ期臨床試驗(yàn)聯(lián)合設(shè)計(jì)并實(shí)施的思想[1],后經(jīng)Gallo等人推廣應(yīng)用。臨床試驗(yàn)的Ⅱ/Ⅲ期無(wú)縫設(shè)計(jì)(seamless phase Ⅱ/Ⅲ trial design)是指將原本在Ⅱb期和Ⅲ期臨床試驗(yàn)中獨(dú)立的幾個(gè)研究整合在一個(gè)完整的試驗(yàn)中。良好的Ⅱ/Ⅲ期無(wú)縫設(shè)計(jì)可以合理控制I類錯(cuò)誤,充分利用手頭信息,減少受試者人數(shù)和暴露于低效組的時(shí)間,縮短研發(fā)周期,使真正有效的藥物盡快上市[2]。
目前為止已有很多學(xué)者發(fā)表了關(guān)于無(wú)縫設(shè)計(jì)統(tǒng)計(jì)分析方法的論著,這些方法包括Stallard和Todd提出的成組序貫法[3]、Bauer和Keiser提出的合并檢驗(yàn)法[1]、 Koenig等人提出的適應(yīng)性Dunnett法[4]以及Wu Yujun等人提出的改良法[5]。本文采用Monte Carlo模擬分析探討最常用的合并檢驗(yàn)法與最新提出的改良法的統(tǒng)計(jì)學(xué)特性,推薦選擇較優(yōu)的分析方法。
Ⅱ/Ⅲ期無(wú)縫設(shè)計(jì)分兩個(gè)階段,即探索階段和確證階段。探索階段一般有多個(gè)治療組,例如多個(gè)劑量組,或多個(gè)用藥方案組,外加一個(gè)或多個(gè)對(duì)照組。探索階段結(jié)束時(shí)進(jìn)行期中分析,選擇療效好、安全性佳的治療組,連同對(duì)照組一起進(jìn)入確證階段繼續(xù)研究,而療效差、安全性差的治療組則終止。確證階段結(jié)束時(shí)合并兩階段的信息進(jìn)行統(tǒng)計(jì)分析。流程見(jiàn)圖1。
1.改良法
Pr(Z1,n (1) 由于只有第一試驗(yàn)組進(jìn)入第2階段研究,只需針對(duì)該試驗(yàn)組進(jìn)行假設(shè)檢驗(yàn),原假設(shè)表示為H10∶θ1=0。此時(shí),拒絕全局假設(shè)H0等價(jià)于拒絕H10。若只有第二試驗(yàn)組進(jìn)入確證階段研究,分析思路與情形A1類似。 2.合并檢驗(yàn)法 Bauer和Kieser于1999年提出通過(guò)合并檢驗(yàn)的方法進(jìn)行數(shù)據(jù)的統(tǒng)計(jì)分析[1],主要是先分別求得各階段獨(dú)立數(shù)據(jù)的P值,最后分析時(shí)將各階段P值進(jìn)行合并,并做出統(tǒng)計(jì)推斷。合并P值的方法有很多,本文采用加權(quán)逆正態(tài)法[6]: C(P1,P2)=1-Φ[w1Φ-1(1-P1)+w2Φ-1(1-P2)] (2) 期中分析時(shí)將每個(gè)試驗(yàn)組與對(duì)照組比較,選擇統(tǒng)計(jì)量最大的試驗(yàn)組進(jìn)入確證階段研究。 合并檢驗(yàn)法和改良法的主要區(qū)別可以概括為: (1) 期中分析時(shí),合并檢驗(yàn)法基于療效指標(biāo)數(shù)據(jù)進(jìn)行假設(shè)檢驗(yàn),根據(jù)統(tǒng)計(jì)量的大小篩選優(yōu)效試驗(yàn)組。改良法不進(jìn)行假設(shè)檢驗(yàn),根據(jù)每組樣本的療效均值大小篩選優(yōu)效試驗(yàn)組。 (2) 最終統(tǒng)計(jì)分析時(shí),合并檢驗(yàn)法將根據(jù)各階段獨(dú)立數(shù)據(jù)計(jì)算的P值合并,從而做出統(tǒng)計(jì)推斷。改良法是在獲得調(diào)整的統(tǒng)計(jì)量的條件分布基礎(chǔ)上進(jìn)行統(tǒng)計(jì)分析。 1.模擬試驗(yàn)A 試驗(yàn)的第一階段設(shè)有2個(gè)試驗(yàn)組和1個(gè)對(duì)照組,各組間樣本比為1∶1∶1,期中分析時(shí)根據(jù)早期結(jié)局指標(biāo)選擇最優(yōu)試驗(yàn)組進(jìn)入第2階段研究,不考慮早期終止。模擬試驗(yàn)中,計(jì)劃第1階段每組樣本量為200,第2階段每組樣本量也為200。由于本文不討論樣本量的影響,所以給予一個(gè)較大的樣本量以保證在特定的參數(shù)組合下樣本量滿足分析要求。 (1)試驗(yàn)?zāi)康?/p> 考察兩指標(biāo)相關(guān)系數(shù)、早期結(jié)局指標(biāo)表示的療效均值差對(duì)兩種方法總I類錯(cuò)誤的影響。 (2)參數(shù)設(shè)置(見(jiàn)表1) (3)試驗(yàn)步驟 流程見(jiàn)圖2。 (4)試驗(yàn)結(jié)果 表2的結(jié)果表明,合并檢驗(yàn)法和改良法估計(jì)的總I類錯(cuò)誤率都控制在0.025范圍內(nèi)。隨著相關(guān)系數(shù)ρ的降低,總I類錯(cuò)誤率也隨之降低,結(jié)果越來(lái)越保守。這種保守性源自于期中分析時(shí)是基于早期結(jié)局指標(biāo)數(shù)據(jù)進(jìn)行組別篩選的,目的是選出主要結(jié)局指標(biāo)估計(jì)的最優(yōu)組進(jìn)入第二階段研究。當(dāng)ρ=0時(shí),兩指標(biāo)相互獨(dú)立。當(dāng)ρ>0時(shí),兩指標(biāo)正相關(guān),基于早期結(jié)局指標(biāo)數(shù)據(jù)進(jìn)行組別篩選的結(jié)果一定程度上與基于主要結(jié)局指標(biāo)數(shù)據(jù)進(jìn)行組別篩選的結(jié)果相一致,從而降低了保守性。隨著相關(guān)系數(shù)增大,保守性逐漸降低。類似地,當(dāng)ρ<0時(shí),兩結(jié)果是背離的,保守性會(huì)增大。ρ取不同值時(shí),合并檢驗(yàn)法和改良法相比,總I類錯(cuò)誤無(wú)明顯差異。 總I類錯(cuò)誤雖未出現(xiàn)膨脹,但相較于理論值還是偏小的,說(shuō)明試驗(yàn)犯第二類錯(cuò)誤的風(fēng)險(xiǎn)增大。針對(duì)這個(gè)問(wèn)題,我們進(jìn)行了模擬試驗(yàn)B的研究。 2.模擬試驗(yàn)B (1)試驗(yàn)?zāi)康?/p> 考察兩指標(biāo)相關(guān)系數(shù)、主要結(jié)局指標(biāo)表示的療效均值差對(duì)兩種方法檢驗(yàn)效能的影響。 (2) 參數(shù)設(shè)置 (3) 試驗(yàn)步驟 (4) 試驗(yàn)結(jié)果 綜上,合并檢驗(yàn)法和改良法相比,兩者在控制總I類錯(cuò)誤方面無(wú)明顯差異,但在檢驗(yàn)效能方面,合并檢驗(yàn)法始終優(yōu)于改良法。因此,建議采用合并檢驗(yàn)法進(jìn)行Ⅱ/Ⅲ期無(wú)縫臨床試驗(yàn)的統(tǒng)計(jì)分析。 Ⅱ/Ⅲ期無(wú)縫設(shè)計(jì)由于其靈活、科學(xué)且符合倫理的特點(diǎn),受到臨床研究者和制藥企業(yè)的重視,也有了一些成功的應(yīng)用,如Barnes等人探討了茚達(dá)特羅(indacaterol)治療慢性阻塞性肺病(COPD)[11];Friede等人將這種方法應(yīng)用于多發(fā)性硬化癥的研究[12];Lu等人用于對(duì)前列腺癌的研究[13]。目前為止,無(wú)縫設(shè)計(jì)尚未得到廣泛應(yīng)用。其主要原因在于,這種方法在研究設(shè)計(jì)與統(tǒng)計(jì)分析方面仍然存在一些尚未解決的問(wèn)題,而且尚未被相關(guān)管理部門(mén)正式認(rèn)可[14]。 本文對(duì)Ⅱ/Ⅲ期無(wú)縫設(shè)計(jì)中最常用的合并檢驗(yàn)法與最新提出的改良法的統(tǒng)計(jì)學(xué)特性進(jìn)行了研究。模擬設(shè)計(jì)時(shí),沒(méi)有考慮樣本量的影響。樣本量越大,期中分析時(shí)篩選出有療效組別的概率越高,最終統(tǒng)計(jì)分析時(shí)的檢驗(yàn)效能越大。兩種統(tǒng)計(jì)方法在樣本量取不同值時(shí)的性能比較,還有待進(jìn)一步研究。閉合檢驗(yàn)原則和多重比較校正方法的應(yīng)用使得總I類錯(cuò)誤控制在原先設(shè)定的檢驗(yàn)水準(zhǔn)范圍內(nèi)。利用早期結(jié)局指標(biāo)作為替代指標(biāo)進(jìn)行期中分析的組別篩選,兩指標(biāo)間的相關(guān)性越大,控制總I類錯(cuò)誤的結(jié)果越理想;當(dāng)試驗(yàn)藥有療效時(shí),早期結(jié)局指標(biāo)表示的療效均值差越大,該試驗(yàn)組被選擇的概率越高,檢驗(yàn)效能也越高。改良法與合并檢驗(yàn)法相比,在控制總I類錯(cuò)誤方面無(wú)明顯差異,但檢驗(yàn)效能始終低于合并檢驗(yàn)法。兩種方法在期中分析組別篩選和最終統(tǒng)計(jì)分析的原理不同,改良法未能達(dá)到“改良”的目的,優(yōu)先推薦選擇合并檢驗(yàn)法進(jìn)行Ⅱ/Ⅲ期無(wú)縫臨床試驗(yàn)的統(tǒng)計(jì)分析。 臨床試驗(yàn)研究除了想獲得試驗(yàn)結(jié)束時(shí)計(jì)算的確證的P值,還需找到療效的點(diǎn)估計(jì)及可信區(qū)間。目前在研究療效的點(diǎn)估計(jì)和可信區(qū)間的方法方面已取得一些成果[15-16],但仍存在偏性較大的問(wèn)題,還有待改進(jìn)。 本研究的模擬試驗(yàn),雖然已經(jīng)盡可能地考慮了其代表性,但是也難以包含所有的復(fù)雜情況,有待進(jìn)一步研究。如期中分析時(shí),綜合考慮療效和安全性因素,選擇多個(gè)試驗(yàn)組連同對(duì)照組進(jìn)入確證階段研究;其他類型的資料(如定性資料、生存資料)分析結(jié)果如何;實(shí)際工作中可能遇到的問(wèn)題(如入組率、失訪率、隨訪時(shí)間長(zhǎng)短)對(duì)上述方法統(tǒng)計(jì)學(xué)性質(zhì)的影響等。 [1]Bauer P,Kieser M.Combining different phases in the development of medical treatments within a single trial.Stat Med,1999,18(14):1833-1848. [2]Bretz F,Schmidli H,K?nig F,et al.Confirmatory seamless phase Ⅱ/Ⅲ clinical trials with hypotheses selection at interim:general concepts.Biom J,2006,48(4):623-634. [3]Stallard N,Todd S.Sequential designs for phase Ⅲ clinical trials incorporating treatment selection.Stat Med,2003,22(5):689-703. [4]Koenig F,Brannath W,Bretz F,et al.Adaptive Dunnett tests for treatment selection.Stat Med,2008,27(10):1612-1625. [5]Wu Y,Zhao PL.Interim treatment selection with a flexible selection margin in clinical trials.Stat Med,2013,32(15):2529-2543. [6]Mosteller F,Bush RR,Green BF.Selected quantitative techniques.London:Addison-Wesley,1970. [7]Marcus R,Peritz E,Gabriel KR.On closed testing procedures with special reference to ordered analysis of variance.Biometrika,1976,63(3):655-660. [8]Dunnett CW.A multiple comparison procedure for comparing several treatments with a control.J Am Atat Assoc,1955,50:1096-1121. [9]Friede T,Stallard N.A comparison of methods for adaptive treatment selection.Biom J,2008,50(5):767-781. [10]Todd S,Stallard N.A new clinical trial design combining phases Ⅱ and Ⅲ:Sequential designs with treatment selection and a change of endpoint.Drug Inf J,2005,39:109-118. [11]Barnes PJ,Pocock SJ,Magnussen H,et al.Integrating indacaterol dose selection in a clinical study in COPD using an adaptive seamless design.Pulm Pharmacol Ther,2010,23(3):165-171. [12]Friede T,Parsons N,Stallard N,et al.Designing a seamless phase Ⅱ/Ⅲ clinical trial using early outcomes for treatment selection:an application in multiple sclerosis.Stat Med,2011,30(13):1528-1540. [13]Lu M,Freytag SO,Stricker H,et al.Adaptive seamless design for an efficacy trial of replication-competent adenovirus-mediated suicide gene therapy and radiation in newly-diagnosed prostate cancer(ReCAP Trial).Contemp Clin Trials,2011,32(3):453-460. [14]Stallard N.A confirmatory seamless phase Ⅱ/Ⅲ clinical trial design incorporating short-term endpoint information.Stat Med,2010,29(9):959-971. [15]Bebu l,Luta G,Dragalin V.Likelihood inference for a two-stage design with treatment selection.Biom J,2010,52(6):811-822. [16]Stallard N,Todd S.Point estimates and confidence regions for sequential trials involving selection.Journal of Statistical Planning and Inference,2005,135(2):402-419. (責(zé)任編輯:郭海強(qiáng)) The Comparison of Combination Test Approach and Modified Test Approach in Seamless Phase Ⅱ/Ⅲ Trial Cao Jinjin,Liu Liya,Zhao Yang,et al. (Department of Epidemiology and Biostatistics,School of Public Health,Nanjing Medical University(211100),Nanjing) Objective To compare the combination test approach,the most commonly used method and the recently proposed modified test approach in the analysis of seamless phase Ⅱ/Ⅲ clinical trials.Methods The basic principle of seamless design and two statistical methods were reviewed.Simulation studies were then used to understand the power and the family-wise type I error rate in different scenarios.Results There is no significant difference between combination test approach and modified test approach in terms of controlling family-wise type I error rate.However,combination test approach always shows higher power.Conclusion When conducting statistical analysis of a seamless phase Ⅱ/Ⅲ trial design,combination test approach has the priority. Seamless phase Ⅱ/Ⅲ design; Early endpoint; Primary endpoint; Combination test approach; Modified test approach 國(guó)家自然科學(xué)基金(81273184) △通信作者:于浩,E-mail:njyuhao@vip.sina.com模擬評(píng)價(jià)
討 論
中國(guó)衛(wèi)生統(tǒng)計(jì)2015年5期