朱 典 王 陵 李嬋娟 蔣志偉 張 威 王治東 吳克堅(jiān) 李 晨 夏結(jié)來△
【提 要】 目的 針對(duì)生存分析樣本量再估計(jì)的適應(yīng)性設(shè)計(jì)臨床試驗(yàn),本文基于指數(shù)分布,提出盲態(tài)下生存資料的樣本量再估計(jì)方法。方法 采用蒙特卡洛模擬方法,預(yù)設(shè)4個(gè)期中分析時(shí)間點(diǎn),以參數(shù)初始估計(jì)值M10為均數(shù)暫定搜索范圍為M10±0.5M10,在該搜索范圍內(nèi)產(chǎn)生指數(shù)分布隨機(jī)數(shù)對(duì)期中分析時(shí)的截尾生存數(shù)據(jù)進(jìn)行填補(bǔ),對(duì)填補(bǔ)后的數(shù)據(jù)進(jìn)行極大似然估計(jì),得到試驗(yàn)參數(shù)的再估計(jì)值若落在搜索范圍外,則需更改搜索范圍以包含并重新進(jìn)行搜索直至落在搜索范圍內(nèi),此時(shí)的即為試驗(yàn)參數(shù)的再估計(jì)值,在此參數(shù)的基礎(chǔ)上重新估計(jì)樣本量,并比較4個(gè)期中分析點(diǎn)的樣本量再估計(jì)結(jié)果,確定1個(gè)最合適的期中分析時(shí)間點(diǎn)。 結(jié)果 經(jīng)過期中分析調(diào)整后的樣本量接近真實(shí)值,且期中分析時(shí)間點(diǎn)越向后移,樣本量估計(jì)結(jié)果越接近真實(shí)值,變異越小。 結(jié)論 建議在入組結(jié)束并完成1/4最短隨訪時(shí)間時(shí)進(jìn)行一次期中分析重新估計(jì)樣本量,根據(jù)估計(jì)結(jié)果考慮是否增加樣本量。
傳統(tǒng)的臨床試驗(yàn)在試驗(yàn)開展前,研究者根據(jù)前期研究結(jié)果并結(jié)合相關(guān)文獻(xiàn)設(shè)定試驗(yàn)關(guān)鍵參數(shù),對(duì)樣本量進(jìn)行估計(jì),以期望達(dá)到設(shè)定的檢驗(yàn)效能。但是,試驗(yàn)開始前對(duì)參數(shù)的設(shè)定可能存在較大偏差,以此為基礎(chǔ)估計(jì)的樣本量有可能不足以達(dá)到預(yù)設(shè)的檢驗(yàn)效能。而在適應(yīng)性設(shè)計(jì)中允許在試驗(yàn)開始之后根據(jù)已得到的部分試驗(yàn)數(shù)據(jù)進(jìn)行期中分析,重新估計(jì)樣本量,以使試驗(yàn)達(dá)到預(yù)設(shè)的檢驗(yàn)效能[1]。
對(duì)于不同類型的數(shù)據(jù),需采用不同的樣本量再估計(jì)方法。對(duì)于正態(tài)資料,Gould[2]等人提出一種基于EM算法的盲態(tài)下樣本量再估計(jì)方法,在期中分析時(shí)對(duì)試驗(yàn)數(shù)據(jù)的方差進(jìn)行重新估計(jì)。對(duì)于二分類變量,Shih[3]等人提出一種基于分層理念的盲態(tài)下樣本量再估計(jì)方法,在期中分析時(shí)對(duì)兩組的事件發(fā)生率重新估計(jì);Friede[4]等人提出一種基于負(fù)二項(xiàng)分布的盲態(tài)下樣本量再估計(jì)方法,在期中分析時(shí)以負(fù)二項(xiàng)分布為基礎(chǔ)建模,對(duì)總體率進(jìn)行重新估計(jì)。對(duì)于生存資料,Togo[5]等人提出一種基于偏似然估計(jì)的樣本量再估計(jì)方法,在期中分析時(shí)對(duì)數(shù)據(jù)揭盲,并根據(jù)構(gòu)建的模型對(duì)兩組之間的風(fēng)險(xiǎn)比(HR)進(jìn)行重新估計(jì);Todd[6]等人提出一種基于外推法的盲態(tài)下生存數(shù)據(jù)樣本量再估計(jì)方法,假設(shè)兩組之間的風(fēng)險(xiǎn)比(HR)不變,試驗(yàn)進(jìn)展過程中在多個(gè)預(yù)設(shè)時(shí)間點(diǎn)上進(jìn)行多次期中分析,并根據(jù)多次期中分析結(jié)果求效應(yīng)的平均差別,推斷試驗(yàn)結(jié)束時(shí)的生存率。
期中分析時(shí)對(duì)試驗(yàn)揭盲會(huì)導(dǎo)致Ⅰ型錯(cuò)誤的膨脹,從而影響試驗(yàn)的完整性。而在盲態(tài)下進(jìn)行期中分析,對(duì)Ⅰ型錯(cuò)誤的影響可以忽略,無需對(duì)檢驗(yàn)水準(zhǔn)進(jìn)行校正[1]。本研究提出的生存資料樣本量再估計(jì)方法是在盲態(tài)下只進(jìn)行一次期中分析,該方法以極大似然估計(jì)為基礎(chǔ),結(jié)合Todd[6]等人的研究方法,假定生存數(shù)據(jù)服從指數(shù)分布,兩組之間的風(fēng)險(xiǎn)比(HR)不變,在期中分析時(shí)對(duì)其他試驗(yàn)參數(shù)進(jìn)行重新估計(jì),提出生存資料樣本量再估計(jì)的新方法。
對(duì)于服從指數(shù)分布的生存資料,期中分析在盲態(tài)下進(jìn)行,其分組未知,相當(dāng)于求解混合指數(shù)分布的參數(shù)問題。EM算法是Dempster[7]等人提出一種對(duì)于不完全數(shù)據(jù)進(jìn)行參數(shù)估計(jì)的方法,以極大似然估計(jì)為基礎(chǔ)進(jìn)行迭代,最終得到一個(gè)局部最優(yōu)參數(shù)估計(jì)的迭代算法。朱利平[8]等人將EM算法應(yīng)用到電子元件的壽命試驗(yàn)中。研究表明,樣本的截尾比例越大,EM算法參數(shù)估計(jì)的效率越差,且估計(jì)結(jié)果往往依賴于初始值和收斂標(biāo)準(zhǔn)的設(shè)定[8-9]。在對(duì)生存資料進(jìn)行期中分析時(shí),往往產(chǎn)生大量的截尾數(shù)據(jù)。因此,本研究提出填補(bǔ)數(shù)據(jù)的方法,在期中分析時(shí),用參數(shù)的初始估計(jì)值產(chǎn)生模擬數(shù)據(jù),并用模擬數(shù)據(jù)中大于期中分析時(shí)間點(diǎn)的數(shù)據(jù)填補(bǔ)截尾數(shù)據(jù),經(jīng)過填補(bǔ)后的數(shù)據(jù)包含一定比例的真實(shí)參數(shù)信息和一定比例的填補(bǔ)參數(shù)信息。本研究結(jié)合EM算法的思想,但考慮到其參數(shù)估計(jì)結(jié)果依賴于初始值的設(shè)定,因此,提出在期中分析時(shí)以初始估計(jì)值為均值確定搜索范圍(hunting zone,HZ)對(duì)實(shí)際數(shù)據(jù)進(jìn)行填補(bǔ),然后,對(duì)填補(bǔ)后的數(shù)據(jù)進(jìn)行極大似然估計(jì)。若初始估計(jì)值非常接近參數(shù)真實(shí)值,則此時(shí)參數(shù)的初始估計(jì)值與極大似然估計(jì)值也非常接近,則在搜索范圍內(nèi)篩選出參數(shù)的極大似然估計(jì)值與初始估計(jì)值之差最小的參數(shù)極大似然估計(jì)值作為期中分析時(shí)的參數(shù)估計(jì)值。
極大似然法是混合分布參數(shù)估計(jì)的常用方法,期中分析時(shí)對(duì)服從混合指數(shù)分布的生存數(shù)據(jù)應(yīng)用極大似然法,重新估計(jì)混合指數(shù)分布的參數(shù)進(jìn)行樣本量再估計(jì)。期中分析時(shí)的數(shù)據(jù)是含有缺失數(shù)據(jù)的觀測數(shù)據(jù),若用K表示分組(未知),X表示觀測數(shù)據(jù),則包含分組的完整數(shù)據(jù)用Y表示:Y=(X,K)。λ是指數(shù)分布的參數(shù),f(K|X,λ)是給定觀測數(shù)據(jù)X=Xi,λ=λi的條件下缺失數(shù)據(jù)K的條件密度。通過對(duì)觀測數(shù)據(jù)X的對(duì)數(shù)似然函數(shù)lnL(λ|X)求極大值得到λ的極大似然估計(jì)值。期中分析時(shí)的生存時(shí)間為觀測數(shù)據(jù),用X表示,xi表示每個(gè)受試者的生存時(shí)間。受試者的分組情況用K表示,Ki=1表示受試者接受對(duì)照組治療,Ki=0表示受試者接受試驗(yàn)組治療,因?qū)φ战M與試驗(yàn)組的樣本量比例為1:1,所以Ki服從二項(xiàng)分布,π(Ki=1)=π(Ki=0)=0.5,但是,期中分析是在盲態(tài)下進(jìn)行,因此Ki是不能被觀測到的隨機(jī)變量。用λc表示對(duì)照組的風(fēng)險(xiǎn)率,λt表示試驗(yàn)組的風(fēng)險(xiǎn)率,則對(duì)照組受試者的生存時(shí)間服從指數(shù)分布f1i,其概率密度函數(shù)為:
f1i=λce-λcxi(λc>0),
試驗(yàn)組受試者的生存時(shí)間服從指數(shù)分布f2i,其概率密度為:
f2i=λte-λtxi(λt>0),
則xi服從混合指數(shù)分布fi,其概率密度函數(shù)為:
fi=0.5f1i+0.5f2i.
在混合指數(shù)分布fi中,記θ=(λc,λt),則xi和Ki的聯(lián)合分布為:
g(xi,Ki,θ)=(0.5f1i)Ki(0.5f2i)1-Ki,
因此,Ki在xi給定時(shí)的條件分布為:
xi給定時(shí)θ的似然函數(shù)為:
對(duì)數(shù)似然函數(shù)為:
給定參數(shù)初始估計(jì)值θ0(λc0,λt0)時(shí),該對(duì)數(shù)似然函數(shù)的期望為:
通過極大化Q(θ,θ0)函數(shù)可得到參數(shù)θ(λc,λt)的極大似然估計(jì)值[8]。
在以事件為終點(diǎn)的隨機(jī)對(duì)照臨床試驗(yàn)中,研究者根據(jù)以往數(shù)據(jù)估計(jì)受試者的生存時(shí)間,進(jìn)而轉(zhuǎn)換為風(fēng)險(xiǎn)率λ進(jìn)行樣本量計(jì)算。指數(shù)分布下風(fēng)險(xiǎn)率λ與中位生存時(shí)間M的轉(zhuǎn)換公式為:
本研究中定義隨訪時(shí)間為最后一個(gè)受試者入組開始至研究結(jié)束所經(jīng)歷的時(shí)間。由于入組時(shí)間不同,因此最后一個(gè)入組受試者的隨訪時(shí)間決定了總研究時(shí)長,且所有受試者均隨訪至研究結(jié)束時(shí)間點(diǎn),此時(shí)樣本量計(jì)算公式為(1)~(3)所示[10]:
(1)
(2)
(3)
公式(1)~(3)中,λc和λt分別是對(duì)照組和試驗(yàn)組的風(fēng)險(xiǎn)率,T0是入組時(shí)間,T是總研究時(shí)長,k是試驗(yàn)組和對(duì)照組的樣本含量比例,nc是對(duì)照組樣本量。
采用Monte Carlo模擬構(gòu)建基于指數(shù)分布的生存資料模型,對(duì)模擬產(chǎn)生的生存資料進(jìn)行l(wèi)og-rank檢驗(yàn),探討本研究方法對(duì)生存資料樣本量再估計(jì)的準(zhǔn)確性和穩(wěn)定性。本研究所有數(shù)據(jù)均由模擬產(chǎn)生,采用SAS 9.1.3統(tǒng)計(jì)分析軟件編寫程序,并進(jìn)行數(shù)據(jù)分析。
1.參數(shù)設(shè)置
對(duì)于一個(gè)基于log-rank檢驗(yàn)的雙臂臨床試驗(yàn),對(duì)照組與試驗(yàn)組樣本比例為1:1,生存時(shí)間服從指數(shù)分布。試驗(yàn)的真實(shí)參數(shù)如下,對(duì)照組的中位生存時(shí)間為M1=1年,對(duì)照組與試驗(yàn)組的風(fēng)險(xiǎn)比HR為0.65和0.75,試驗(yàn)入組時(shí)間為T0=0.5年,受試者在入組期內(nèi)均勻入組,最短隨訪時(shí)間為t=2年,總研究時(shí)長為T=T0+t=2.5年,檢驗(yàn)水準(zhǔn)α為雙側(cè)0.05,檢驗(yàn)效能1-β為0.8,則對(duì)照組的風(fēng)險(xiǎn)率λc為ln2/M1,試驗(yàn)組的中位生存時(shí)間為M2=M1/HR,風(fēng)險(xiǎn)率λt為ln2/M2,試驗(yàn)所需樣本量為N。
在進(jìn)行期中分析的臨床試驗(yàn)中,一般進(jìn)行1~2次期中分析,本模擬研究考慮最大可能性,設(shè)定4個(gè)期中分析時(shí)間點(diǎn)(interim,I),并比較4個(gè)期中分析時(shí)間點(diǎn)的樣本量再估計(jì)結(jié)果,最終選定一個(gè)合理的期中分析時(shí)間點(diǎn)。4個(gè)期中分析時(shí)間點(diǎn)分別為I1-I4,I1是入組結(jié)束時(shí)(T0),I2是完成1/4隨訪時(shí)間時(shí)(T0+0.25t),I3是完成1/2隨訪時(shí)間時(shí)(T0+0.5t),I4是完成3/4隨訪時(shí)間時(shí)(T0+0.75t)。
2.模擬步驟
(1)根據(jù)預(yù)先設(shè)定的參數(shù),運(yùn)用SAS隨機(jī)函數(shù)ranexp(seed)先產(chǎn)生參數(shù)為M1、M2的指數(shù)分布數(shù)據(jù)x,受試者均勻入組,入組間隔為tn=T0/N0,入組順序即為隨機(jī)數(shù)的序號(hào)ob。令int=I-T0,令y=x-(N0-ob)×tn,將其中y>int者設(shè)定為y=int。
(2)重復(fù)步驟(1)產(chǎn)生參數(shù)為HM10、HM20的指數(shù)分布數(shù)據(jù)x,用其中y>int者填補(bǔ)參數(shù)為M1,M2數(shù)據(jù)中y=int的截尾數(shù)據(jù),即為期中分析的數(shù)據(jù)。每個(gè)搜索范圍內(nèi)有多個(gè)HM10,以HZ1(0.25~0.75)為例,搜索間隔為0.1年,則有0.25、0.35、0.45、0.55、0.65、0.75共6種填補(bǔ)參數(shù),根據(jù)HR求得HM20,并以HM10、HM20為參數(shù)產(chǎn)生6組混合指數(shù)分布隨機(jī)數(shù),用該6組隨機(jī)數(shù)中y>int的數(shù)據(jù)分別填補(bǔ)一次截尾數(shù)據(jù),產(chǎn)生6組期中分析數(shù)據(jù)。
表1 不同HR時(shí)4個(gè)期中分析點(diǎn)不同HZ的樣本量再估計(jì)結(jié)果
表2 不同HR時(shí)4個(gè)期中分析點(diǎn)HZ11的樣本量再估計(jì)結(jié)果
圖1 不同HR時(shí)再估計(jì)樣本量與期中分析時(shí)間點(diǎn)、HZ之間的關(guān)系
圖2 不同HR時(shí)再估計(jì)樣本量與期中分析時(shí)間點(diǎn)、HZ(包含參數(shù)真實(shí)值)之間的關(guān)系
圖3 各期中分析時(shí)間點(diǎn)上HZ11-HZ5再估計(jì)樣本量的α(a)和power(b)
藥物臨床試驗(yàn)的投入巨大,而樣本量是否充足直接關(guān)系到試驗(yàn)的成敗。若在試驗(yàn)設(shè)計(jì)階段對(duì)試驗(yàn)參數(shù)的估計(jì)存在較大的不確定性,建議采用適應(yīng)性設(shè)計(jì),預(yù)設(shè)期中分析點(diǎn)對(duì)樣本量進(jìn)行再估計(jì),根據(jù)估計(jì)結(jié)果考慮是否增加樣本量。一般期中分析時(shí)只考慮是否增加樣本量以維持把握度,而不考慮降低樣本量[1]。Todd[6]等人提出的盲態(tài)下樣本量再估計(jì)方法,需要設(shè)定多個(gè)期中分析時(shí)間點(diǎn)進(jìn)行多次期中分析,具體實(shí)施有一定的難度。本研究提出的盲態(tài)下生存資料樣本量再估計(jì)方法,只需要進(jìn)行一次期中分析。本研究假設(shè)對(duì)照組與試驗(yàn)組的樣本量之比為1:1,風(fēng)險(xiǎn)比為HR,α為0.05,power為0.8,并假設(shè)5個(gè)不同的M10,并以M10為均值暫定搜索范圍為M10±0.5M10,比較4個(gè)期中分析點(diǎn)上不同搜索范圍下樣本量再估計(jì)結(jié)果。模擬研究表明,在期中分析點(diǎn)I2~I(xiàn)4,當(dāng)搜索范圍包含參數(shù)真實(shí)值時(shí),經(jīng)過期中分析調(diào)整后的樣本量接近真實(shí)值,且樣本量估計(jì)結(jié)果變異較小。在I1時(shí)間點(diǎn)時(shí)經(jīng)填補(bǔ)的期中分析數(shù)據(jù)包含真實(shí)參數(shù)信息較少,搜索結(jié)果與填補(bǔ)參數(shù)相關(guān)性較大,因此樣本量再估計(jì)結(jié)果呈現(xiàn)出與搜索范圍值大小相關(guān)的現(xiàn)象,但在I2~ I4時(shí)間點(diǎn)時(shí)未出現(xiàn)該現(xiàn)象。
綜上所述,并考慮到實(shí)際應(yīng)用中,若樣本量再估計(jì)結(jié)果大于初始樣本量,需要繼續(xù)追加樣本量,并完成相同的隨訪時(shí)間t,此時(shí)期中分析時(shí)間點(diǎn)越晚,則研究時(shí)間就越長,研究成本也隨之增加。因此,相似背景下建議在I2(完成1/4隨訪時(shí)間)時(shí)進(jìn)行期中分析,根據(jù)參數(shù)估計(jì)結(jié)果重新確定搜索范圍,以獲得更加準(zhǔn)確的樣本量。若是其他差異較大的背景時(shí),1/4隨訪時(shí)間作為期中分析時(shí)間點(diǎn)劃分的參考依據(jù),可進(jìn)行適當(dāng)?shù)恼{(diào)整。若樣本量再估計(jì)結(jié)果比試驗(yàn)設(shè)計(jì)之初的樣本量少,則維持原定樣本量不變;反之,則根據(jù)樣本量再估計(jì)結(jié)果考慮增加樣本量以維持把握度。本研究的不足之處是在HR恒定不變的假設(shè)下進(jìn)行模擬研究,后續(xù)研究將會(huì)考慮HR改變時(shí)的情況。