胥芹,張怡君,3,田雪,3,夏雪,張曉麗,李靜,王安心
在臨床試驗中,傳統(tǒng)的試驗設計方法如平行組設計、交叉設計和析因設計均屬于固定設計,即需在完成所有受試者的主要結局隨訪后再對試驗數(shù)據進行分析和評價。從臨床試驗的倫理和成本效益角度來看,研究者們通常希望在試驗過程中進行期中分析,以比較處理組間的療效和安全性,并評估各中心的試驗狀況、試驗數(shù)據質量等。成組序貫設計能夠早期終止試驗,縮短試驗時間,減少試驗所需樣本量,加速有效藥的批準和應用,是期中分析中應用較為廣泛的方法。
傳統(tǒng)序貫設計方法是將每一對新的受試者隨機分配接受不同的干預,在完成試驗后進行一次統(tǒng)計分析,根據結果決定是否終止或繼續(xù)試驗。但是該方法的可操作性較差。Pocock[1]于1977年在傳統(tǒng)序貫設計的基礎上提出了成組序貫方法,隨后O’Brien-Fleming和Lan等學者對該方法進行了改進[2-3]。與傳統(tǒng)臨床試驗相比,成組序貫設計將多次假設檢驗的思想納入到試驗設計中來,樣本量估算、統(tǒng)計分析等方面不同于既往傳統(tǒng)臨床試驗。本文以腦血管病臨床試驗相關實例為基礎,對成組序貫設計的設計思路、與傳統(tǒng)臨床試驗的比較、使用場景、案例解讀、設計要點和報告規(guī)范等方面進行簡單的介紹。
成組序貫設計是每間隔一定的時間或一定比例的樣本量后對已完成試驗的所有受試者進行期中分析,以判斷試驗是否可以提前得到有效或無效結論。從設計方案角度來看,成組序貫設計是將整個試驗劃分成K個連續(xù)的時間段,每個時間段內的每個處理組都有n個受試者加入。當?shù)贙個階段(K=1,2,……,K)結束后,把之前所有階段試驗結果累積起來進行一次統(tǒng)計分析。對于拒絕性的成組序貫設計,如果拒絕H0則試驗結束,否則繼續(xù)下一階段試驗。當其處于最后一個試驗階段時,其結果不是接受H0,就是拒絕H0[4]。
成組序貫設計的一般步驟:
(1)根據試驗的數(shù)據類型(計量、計數(shù)或生存資料等)選擇合適的統(tǒng)計分析方法,指定相應的統(tǒng)計模型和效應參數(shù)θ,提出原假設:H0∶θ=0;指定試驗的總Ⅰ類錯誤、容許誤差和檢驗效能。
(2)選擇成組序貫設計的方法:如固定界值法中的Pocock法、O’Brien-Fleming法或損耗函數(shù)法等,并確定試驗的總階段數(shù)。
(3)在滿足總Ⅰ類錯誤和檢驗效能的概率條件下,計算對應的成組序貫設計每階段的邊界值參數(shù)和試驗所需的最大信息量,并進一步得到所需的樣本量。
(4)收集每階段的數(shù)據并進行統(tǒng)計分析,計算當前階段的檢驗統(tǒng)計量并進行假設檢驗,若拒絕原假設則停止試驗并給出結論,否則繼續(xù)進行下一階段試驗;在試驗的最后階段,若不能得出拒絕原假設的結論,則接受原假設并終止整個試驗。
采用成組序貫設計的臨床試驗與傳統(tǒng)臨床試驗在研究目的、研究設計、盲法、樣本量計算、試驗方案、統(tǒng)計分析計劃等方面均有不同程度的差異,兩者的區(qū)別見表1。
根據國家藥品監(jiān)督管理局公布的藥物臨床試驗的生物統(tǒng)計學指導原則[5],成組序貫設計一般用于創(chuàng)新藥物的臨床試驗,而不用于仿制藥的臨床試驗。當懷疑試驗藥物有較高的不良反應發(fā)生率,或研究者和申辦方對試驗藥物預期療效或預期療效差均有很大的不確定性,為了避免試驗失敗造成的大量資金浪費,可考慮采用在期中分析中基于有效性或無效性的結果提前結束試驗。當試驗藥與對照藥的療效相差較大,但病例稀少或臨床觀察時間過長,采用成組序貫設計可以根據其有效性提前終止試驗。
表1 成組序貫設計與傳統(tǒng)臨床試驗的比較
5.1 案例1 急性腦出血的降壓治療試驗(antihypertensive treatment of acute cerebral hemorrhage 2,ATACH-2)研究是一項國際多中心、隨機、開放標簽的Ⅲ期臨床試驗。該試驗在發(fā)病4.5 h內的自發(fā)性幕上腦出血患者中比較強化降壓治療是否優(yōu)于標準降壓治療。該研究納入年齡≥18歲、發(fā)病時間≤4.5 h、血腫<60 mL且GCS評分≥5分、發(fā)病后至少有一次收縮壓≥180 mmHg(1 mmHg=0.133 kPa)的自發(fā)性幕上腦出血患者,研究對象被隨機分配至強化強壓治療組或標準降壓治療組,使用靜脈注射尼卡地平進行降壓,在隨機化后的24 h內分別將2組的每小時的最低收縮壓控制在110~139 mmHg和140~179 mmHg,主要終點指標為3個月時中重度殘疾或死亡情況(mRS 4~6分)[6]。
ATACH-2研究采用成組序貫設計方法,分別在收集完1/3和2/3樣本量的主要終點指標隨訪時進行2次基于有效性和無效性的期中分析。根據既往文獻報道,研究者估計標準降壓治療組腦出血后3個月死亡或殘疾發(fā)生率為60%,強化降壓治療組為50%,RR為0.83,試驗組與對照組樣本量比例為1∶1,總Ⅰ類錯誤和檢驗效能分別取0.05和90%,預計需要樣本量1042例。考慮失訪率或治療失敗引起的不依從率(R=10%),根據公式1/(1-R)2得到膨脹因子1.23,最終研究所需的樣本量為1280例,每組各640例。
在第1次期中分析后,數(shù)據與安全監(jiān)察委員會(Data and Safety Monitoring Board,DSMB)建議在1/2樣本量時增加一次計劃外的期中分析。研究者采用O’Brien and Flemingα消耗函數(shù)法的邊界值作為有效性判定條件,4次分析的名義檢驗水準分別為0.0002、0.0030、0.012和0.046。采用基于條件檢驗效能(conditional power,CP)的隨機縮減法作為試驗無效的判定標準,當CP低于某一值(如20%)后,DSMB將會對整個試驗進行評估,包括入組率、次要結局指標數(shù)據等,從而判定試驗是否能夠由于無效而早期終止。在第1次分析后,DSMB決定在第2次和第3次期中分析時將CP低于20%作為試驗無效性的判定邊界。當試驗完成850例(2/3樣本量)患者的90 d隨訪時,在沒有揭盲的情況下,研究者分別計算了基于2組作為參照組的CP,分別為9.11%和4.73%且均低于預設的20%,所以DSMB決定停止試驗。
5.2 案例2 直接血管內血栓切除術與靜脈溶栓(intravenous thrombolysis,IVT)聯(lián)合血管內血栓切除術治療前循環(huán)急性大血管閉塞患者的療效(direct endovascular thrombectomyvs.combined IVT and endovascular thrombectomy for patients with acute large vessel occlusion in the anterior circulation,DEVT)這一研究是在急性顱內大血管閉塞卒中患者中比較單獨血管內治療與阿替普酶靜脈溶栓橋接血管內治療有效性及安全性的研究,是一項多中心、隨機、開放標簽、結局盲法的非劣效臨床試驗,旨在判斷對發(fā)病4.5h內大血管閉塞所致急性缺血性卒中患者進行單獨血管內取栓是否不劣于橋接取栓,研究的主要結局指標是90 d良好功能預后(mRS 0~2分)[7]。
DEVT試驗采用成組序貫設計方法,計劃在完成20%、40%、60%、80%和100%樣本量時進行期中分析。根據既往文獻報道,研究者估計橋接取栓組90 d良好功能預后為43%,非劣效界值設定為-10.0%,2組樣本量比例為1∶1,單側α=0.025,β=0.2,考慮5%的失訪率,最終研究所需的樣本量為970例。該研究采用Pocockα消耗函數(shù)法來計算樣本量和調整Ⅰ類錯誤,5次分析的名義檢驗水準分別為0.009 18、0.007 10、0.009 31、0.007 84和0.009 05。在完成20%的樣本量即194例時,2組的檢驗P=0.008小于預先設定的界值(P=0.0918),非劣效成立,DSMB決定試驗提前終止。
6.1 期中分析的次數(shù) 期中分析次數(shù)的確定在成組序貫試驗中需要慎重考慮,多次的期中分析會增大試驗總樣本量,耗費大量人力、財力。更重要的是,為了控制試驗的總Ⅰ類錯誤,多次的期中分析需要校正分配到各期的名義檢驗水準,使其值變得更小,除非試驗藥物效果非常優(yōu)越,顯著性檢驗結果有很大差異的預期,否則試驗在前期將會更難得到中止。一般期中分析次數(shù)以不超過5次為宜。
6.2 期中分析的時間 時間點的選擇有日歷時間和信息時間2種方式,通常采用信息時間,即在累積完成某一比例的樣本例數(shù)或事件數(shù)時進行分析。例如三階段成組序貫試驗預計死亡600例,可在觀察到死亡人數(shù)300例、450例和600例時,即信息時間為0.5、0.75和1的時候進行統(tǒng)計分析。時間點選擇的考量要求主要有:數(shù)據量是否充分,隨訪時間是否足夠,是否有足夠的療效估計和安全性評價結果,也要考慮重要的次要結局和重要的亞組信息是否足夠。
6.3 Ⅰ類錯誤的調整方法 在成組序貫設計試驗中,若多次假設檢驗都是采用0.05的雙側顯著性檢驗水準,則會導致Ⅰ類錯誤膨脹,假陽性的可能性增加。因此需要對各階段的檢驗水準進行校正,校正后的檢驗水準稱為名義檢驗水準。
目前常用的校正方法包括固定界值法和α消耗函數(shù)類。固定界值法包括Pocock法、O’Brien-Fleming法和Peto法。這三種方法的比較見表2。
由于Pocock法和O’Brien-Fleming法要求必須先確定期中分析的次數(shù),并且每次期中分析增加的患者數(shù)應該大致相似。Lan等[3]于1983年提出了一種更為靈活的α消耗函數(shù)方法。常用的損耗函數(shù)形式有以下三種。其中①所計算的期中分析界值和名義檢驗水準近似于Pocock設計公式,②則近似于O’Brien-Fleming設計,因此,它們也被成為Pocockα消耗函數(shù)和O’Brien-Flemingα消耗函數(shù),并在實際臨床試驗應用和統(tǒng)計軟件中替代Pocock設計和O’Brien-Fleming設計使用。
6.4 試驗終止規(guī)則 目前成組序貫設計常采用的方法是α消耗函數(shù)法,也有文獻報道了隨機縮減法,其中以CP作為衡量指標最為常用。CP是指通過當前階段所納入樣本提供的信息,估計試驗完成時能夠得出有效結論的可能性[8]。在研究開始之前,需要提前設定有效性界值和無效性界值。有效性界值是將Ⅰ類錯誤率維持在指定水平之下,通常使用α消耗函數(shù)計算,越過邊界意味著已經越過統(tǒng)計顯著性閾值,試驗有效。無效性界值是使檢驗效能保持在指定水平之上,通常使用β消耗函數(shù)或CP計算,越過邊界意味著檢測到具有統(tǒng)計學意義的結果的可能性已經低于期望值,試驗無效。
成組序貫設計屬于適應性設計的一種,報告規(guī)范可參考《試驗報告統(tǒng)一標準》針對適應性設計的擴展版——適應性設計試驗報告統(tǒng)一標準拓展[9]。
表2 常用的固定界值法的比較(總α=0.05)