呂晶晶 侯雅文 陳 征△
在臨床隨訪研究中,組間生存率差異的比較是重要的研究?jī)?nèi)容之一。其中,最常用的方法是對(duì)生存曲線整體間進(jìn)行比較的log-rank檢驗(yàn)法。然而,當(dāng)數(shù)據(jù)中存在延遲療效[1]或研究者所感興趣的是某時(shí)刻點(diǎn)后的長(zhǎng)期生存差異[2]時(shí),簡(jiǎn)單的使用部分log-rank檢驗(yàn)(partial log-rank test,PLR),即截取該時(shí)刻點(diǎn)后的數(shù)據(jù)進(jìn)行l(wèi)og-rank檢驗(yàn),往往會(huì)損失大量的患者生存信息,導(dǎo)致檢驗(yàn)性能下降。當(dāng)生存曲線存在交叉時(shí),由于交叉點(diǎn)前后的生存率高低逆轉(zhuǎn),導(dǎo)致log-rank的檢驗(yàn)效能顯著降低[3-4];即使得到顯著性差異的結(jié)論,整體檢驗(yàn)仍然無(wú)法準(zhǔn)確得到哪組生存率更高的結(jié)論。除此之外,當(dāng)生存曲線交叉時(shí),除了整體差異,研究者還會(huì)關(guān)注某固定時(shí)刻或某部分時(shí)間區(qū)域上組間療效的差異[5-6],如交叉點(diǎn)后的療效差異。但由于固定點(diǎn)檢驗(yàn)僅是對(duì)某個(gè)固定時(shí)刻點(diǎn)上組間生存率差異的檢驗(yàn),較低效,而針對(duì)某時(shí)刻點(diǎn)(t0)后的時(shí)間區(qū)域(t0,tmax)進(jìn)行組間療效的長(zhǎng)期差異是更好的方法。Logan[7]和陳金寶等[8]針對(duì)患者在某時(shí)刻點(diǎn)后的生存率差異,討論了對(duì)應(yīng)的長(zhǎng)期檢驗(yàn)法,但它們卻無(wú)法直接比較多組(3組及以上)的情況[9-10]。因此,本文針對(duì)多組間長(zhǎng)期生存率差異比較的檢驗(yàn)方法及其多種構(gòu)造形式進(jìn)行研究。
選取截?cái)鄷r(shí)間點(diǎn)為t0,針對(duì)K組間(K≥3)長(zhǎng)期(t0時(shí)間點(diǎn)后)生存率的差異進(jìn)行檢驗(yàn),得到原假設(shè)
H0:{S1(t0)=S2(t0)=…=Sk(t0)=…=SK(t0)}∩{λ1(t)=λ2(t)=…=λk(t)=…=λK(t),t>t0}。其中,Sk(t0)為第k組t0時(shí)刻的累積生存率,λk(t)為第k組在t(t>t0)時(shí)刻的風(fēng)險(xiǎn)率。則原假設(shè)H0可記為H01:S1(t0)=S2(t0)=…=Sk(t0)=…=SK(t0)和H02:λ1(t)=λ2(t)=…=λk(t)=…=λK(t),t>t0兩個(gè)子假設(shè),進(jìn)而得到備擇假設(shè)H1:兩個(gè)子假設(shè)H01和H02中至少有一個(gè)不成立。
1.基本統(tǒng)計(jì)量
2.長(zhǎng)期檢驗(yàn)統(tǒng)計(jì)量
在兩組間長(zhǎng)期療效的比較中,Logan等[6]提出了一種線性組合的思想,即對(duì)子假設(shè)的基本統(tǒng)計(jì)量進(jìn)行線性組合,進(jìn)而構(gòu)造得到最終的組合檢驗(yàn)統(tǒng)計(jì)量。在兩組間長(zhǎng)期療效的比較中,子假設(shè)H01和H02分別對(duì)應(yīng)兩個(gè)服從標(biāo)準(zhǔn)正態(tài)分布的統(tǒng)計(jì)量Z01(t0)和Z02(t0),且令Z01(t0)=Y01(t0)/δ01(t0),Z02(t0)=Y02(t0)/δ02(t0)。進(jìn)而得到組合檢驗(yàn)統(tǒng)計(jì)量Z(t0)為:
(1)
轉(zhuǎn)換公式(2)[13]為
(2)
基于naive法結(jié)合轉(zhuǎn)換公式(1)得到的線性組合檢驗(yàn)統(tǒng)計(jì)量
基于naive法結(jié)合轉(zhuǎn)換公式(2)得到的線性組合檢驗(yàn)統(tǒng)計(jì)量
基于cloglog法結(jié)合轉(zhuǎn)換公式(1)得到的線性組合檢驗(yàn)統(tǒng)計(jì)量
基于cloglog法結(jié)合轉(zhuǎn)換公式(2)得到的線性組合檢驗(yàn)統(tǒng)計(jì)量
為了檢驗(yàn)多組中長(zhǎng)期檢驗(yàn)法的性能,采用Monte-Carlo模擬研究各檢驗(yàn)法的一類(lèi)錯(cuò)誤和檢驗(yàn)效能,并與PLR對(duì)比。在一類(lèi)錯(cuò)誤方面,三組的生存時(shí)間均由參數(shù)為0.2的指數(shù)分布Exp(0.2)產(chǎn)生,刪失時(shí)間C由服從于U(0,a)、U(0,b)和U(0,c)的均勻分布產(chǎn)生。在檢驗(yàn)效能方面,三組的生存時(shí)間T和刪失時(shí)間C均由不同參數(shù)的指數(shù)分布產(chǎn)生,記錄時(shí)間為t= min(T,C),δ=1[T≤C],通過(guò)改變刪失時(shí)間分布參數(shù),可使得每組的平均刪失率相同且約為0、20%、40%。為保證時(shí)間截點(diǎn)t0前后具有足夠的事件數(shù),選取t0=2,比較三組在時(shí)間點(diǎn)2后長(zhǎng)期的生存情況??紤]樣本均衡 (n1,n2,n3均為30、60、100和150) 和不均衡(n1=30,n2=n3=60;n1=n2=30,n3=100;n1=30,n2=60,n3=100;n1=30,n2=60,n3=200) 的情形,每一種參數(shù)組合下模擬10000次,顯著水平α=0.05。
表1 長(zhǎng)期檢驗(yàn)法和部分log-rank檢驗(yàn)法模擬結(jié)果
在檢驗(yàn)效能方面,所有檢驗(yàn)法的檢驗(yàn)效能均隨刪失率的下降和樣本量的增大而增大。在所有刪失率和樣本量的組合中,PLR的檢驗(yàn)效能顯著低于其余四種方法的檢驗(yàn)效能,且其余四種方法間的檢驗(yàn)效能均相差較小。
綜合Ⅰ類(lèi)錯(cuò)誤和檢驗(yàn)效能,轉(zhuǎn)換公式(1)與轉(zhuǎn)換公式(2)(即Zn1與Zn2;Zc1與Zc2)的結(jié)果相比,前者所得到的統(tǒng)計(jì)量結(jié)果更為穩(wěn)健,且以Zc1最為穩(wěn)健。
一項(xiàng)關(guān)于探究不同種族對(duì)淋巴細(xì)胞白血病預(yù)后影響的研究。數(shù)據(jù)包含白人、黑人、美國(guó)印第安人、亞洲/太平洋島民4個(gè)種族,共500名淋巴細(xì)胞白血病患者,其中每個(gè)種族125人。研究起點(diǎn)為初診確認(rèn)為淋巴細(xì)胞白血病,終點(diǎn)事件是患者發(fā)生死亡,其余為右刪失。4類(lèi)種族的平均生存時(shí)間分別約為6年、5年、7年和7年,刪失率分別約為78.4%、66.4%、65.6%和71.2%。檢驗(yàn)水準(zhǔn)α=0.05。
由圖1可見(jiàn),三條曲線在前中期存在明顯的重疊和交叉,而成比例假設(shè)檢驗(yàn)也顯示三組間不滿足風(fēng)險(xiǎn)率成比例假設(shè)(χ2=7.6,P=0.006)。此時(shí),log-rank檢驗(yàn)結(jié)果顯示不同種族的預(yù)后情況不具有統(tǒng)計(jì)學(xué)差異(χ2=6.6,P=0.085)的結(jié)果并不可靠。在長(zhǎng)期檢驗(yàn)中,均發(fā)現(xiàn)以5年和10年為截點(diǎn)后的患者的長(zhǎng)期生存差異具有統(tǒng)計(jì)學(xué)意義,而在15年后的長(zhǎng)期生存差異沒(méi)有統(tǒng)計(jì)學(xué)意義。由圖1可見(jiàn),患者在15年后的生存數(shù)據(jù)雖仍然發(fā)散,但事件數(shù)極少、刪失率很高,因此,在第15年后,未能發(fā)現(xiàn)組間存在差異(表2)。
圖1 不同種族下淋巴細(xì)胞白血病患者的生存曲線圖
表2 實(shí)例分析結(jié)果
*:括號(hào)內(nèi)為P值對(duì)應(yīng)的統(tǒng)計(jì)量