雷震 王仕強(qiáng) 漆新偉 龍強(qiáng)友 劉國棟 張燕華 羅翰生 王德全
(成都市第七人民醫(yī)院天府醫(yī)院(成都市腫瘤醫(yī)院·成都醫(yī)學(xué)院附屬腫瘤醫(yī)院·成都市癌癥防治中心)神經(jīng)外科,四川 成都 610213)
肺癌是老年人臨床常見的惡性腫瘤,易發(fā)生腦轉(zhuǎn)移,導(dǎo)致治療失敗。傳統(tǒng)上將腦轉(zhuǎn)移瘤(Brain Metastasis,BM)作為單一的疾病實(shí)體進(jìn)行治療,目前常用Karnofsky性能狀態(tài)評分(Karnofsky Performance Status,KPS)、年齡、原發(fā)腫瘤狀態(tài)、顱外轉(zhuǎn)移和BM數(shù)量作為預(yù)后預(yù)測因素,而對于患者原發(fā)疾病相關(guān)因素關(guān)注較少[1-2]。
目前研究表明血清標(biāo)志物、表皮生長因子受體狀態(tài)(Epidermal growth factor receptor status,EGFR)、酪氨酸激酶抑制劑(Tyrosine kinase inhibitor,TKI)等是肺癌特異性預(yù)后實(shí)驗(yàn)室指標(biāo)[3],但關(guān)于血清指標(biāo)對肺腺癌腦轉(zhuǎn)移患者預(yù)后預(yù)測價(jià)值方面的研究較少[4]。
在預(yù)后模型的建立過程中變量的選擇是關(guān)鍵,一般說來綜合更多因素可以更準(zhǔn)確地?cái)M合數(shù)據(jù)集中的模型,但過度擬合的模型反而不能準(zhǔn)確預(yù)估患者的預(yù)后。多變量COX風(fēng)險(xiǎn)回歸是最常用的預(yù)后因素分析方法,然而在涉及多種因素或非線性效應(yīng)的情況下方差較高。而隨機(jī)生存森林(Random survival forest,RSF)被認(rèn)為對有刪失的生存數(shù)據(jù)更準(zhǔn)確?;贐ootstrap數(shù)據(jù)和個(gè)體決策樹的大數(shù)據(jù),RSF可以構(gòu)建多個(gè)決策樹來預(yù)測結(jié)果,并模擬非線性效應(yīng)和因素間復(fù)雜的相互作用。本研究旨在采用RSF法構(gòu)建老年患者肺腺癌腦轉(zhuǎn)移預(yù)后的預(yù)測模型,現(xiàn)報(bào)道如下。
選擇2013年1月至2016年12月成都市第七人民醫(yī)院接診的195例肺癌患者進(jìn)行回顧性分析。納入標(biāo)準(zhǔn):①符合《 2010中國肺癌臨床指南》[5]的相關(guān)診斷,并病理證實(shí)的肺腺癌;②經(jīng)影像學(xué)等檢查證實(shí)為BM;③接受了血清CA125等實(shí)驗(yàn)室檢查;④患者已獲知情同意。排除標(biāo)準(zhǔn):①合并其他惡性腫瘤的患者;②不愿意配合進(jìn)行相關(guān)檢測者。本研究已獲我院醫(yī)學(xué)倫理委員會(huì)審核通過?;颊吒鶕?jù)模型建立前后分為兩組,模型建立前的142例患者為A組,模型建立后入組的53例患者為B組。
1.2.1 變量選擇
RSF分類器可以通過最小深度和變異重要性的因子(Variable Importance,VIMP)選擇預(yù)后因素,最小深度越小則預(yù)測能力越強(qiáng);VIMP則隨著預(yù)測誤差的增加而減小。
另外Akaike信息準(zhǔn)則(Akaike Information Criterion,AIC)用于為開發(fā)模型逐步選擇變量,AIC值較低表示質(zhì)量較高且過度配合可能性較低,一致性指數(shù)(Concordance index,C-index)可用于指導(dǎo)開發(fā)具有較低過度擬合可能性和較高預(yù)后能力的潛在合格模型。
1.2.2 預(yù)后諾莫圖的內(nèi)部和外部驗(yàn)證
內(nèi)部驗(yàn)證用于從可能符合條件的RSF模型中選擇最佳模型,并將其與當(dāng)前模型(改良RPA和肺-GPA)進(jìn)行比較。除了C指數(shù)和AIC之外,還通過外包(Out-Of-Bag,OOB)誤差進(jìn)行比較以估計(jì)泛化誤差。
采用R語言3.3.1軟件進(jìn)行數(shù)據(jù)分析,軟件包包括PEC,RMS和Random Forest SRC,計(jì)量資料符合正態(tài)分布者以均數(shù)±標(biāo)準(zhǔn)差表示,不符合者以中位數(shù)表示,單因素分析行X2檢驗(yàn),以P <0.05被認(rèn)為是顯著水平。
單變量分析結(jié)果顯示:患者特征在CA199、Cy211、CA125、早期腫瘤控制情況、顱外轉(zhuǎn)移情況、治療情況、BM和肺-GPA的不同差異均具有統(tǒng)計(jì)學(xué)意義(P<0.05),見表1和表2。
所有患者中158例患者接受化療,99位患者接受了Varian 6-MV線性加速器的全腦放療。在A組和B組中,69/142和27/53例患者檢測到EGFR突變(外顯子18-21)。
在接受的TKI治療中,除單獨(dú)接受TKI治療(A組和B組分別為22/142和1/53)外,A組效果優(yōu)于B組(P<0.05),見表1和表2。
截至2017年12月底,在A組和B組中,92/142和27/53例患者分別在0.5~33.4M(中位數(shù)為6.6 M)和0.6~30M(中位數(shù)為10M)內(nèi)死亡。
Kaplan-Meier分析顯示:處理方式是OS的獨(dú)立性影響因素(X2= 6.474,P = 0.011),其他獨(dú)立性影響因素包括BM,TKI療法,EGFR(或EGFR-20),Cy211,Ca125和A組KPS(P<0.05)。在A組的多變量Cox回歸中,EGFR和KPS是獨(dú)立性影響因素(P<0.05),見表3和表4。
表1 一般資料
在最小深度閾值(4.6023)以下的變量中,9個(gè)變量具有正的VIMP評分,并進(jìn)行進(jìn)一步分析,根據(jù)AIC和C指數(shù)逐步選擇變量,有三個(gè)模型(KECS,KSE125和KE125)被選出。
KECS模型(KPS,EGFR-20,Cy211和吸煙)是AIC確定模型,KE125模型(KPS,EGFR-20和CA125)是C指數(shù)較高的簡單模型,KSE125模型(KPS,吸煙,EGFR-20和CA125)是C指數(shù)最高的(77.2%)。
表2 生化資料
模型驗(yàn)證顯示:在A組中,KSE125模型的C-指數(shù)最高(77.4%),最低的OOB和AIC值(25.7%和28.6)。與其他模型相比,A組開發(fā)的KSE125模型在B組中表現(xiàn)良好,并且該模型具有更高的預(yù)測能力和更低的過度配合可能性,見圖1。
本研究結(jié)果顯示:NSCLC患者的生存與多種因素相關(guān),除了改良RPA和肺-GPA模型外,其他因素還包括基因突變和實(shí)驗(yàn)室指標(biāo),但是所有因素都不能同時(shí)包含在過擬合的預(yù)后模型中。因此如何利用上述來開發(fā)具有高預(yù)測能力和低過度擬合模型成為問題[6]。過去多采用多變量Cox回歸選擇變量,但本研究在開發(fā)預(yù)后模型中回歸比RSF預(yù)測效果差。Cox模型中無統(tǒng)計(jì)學(xué)意義的因素例如吸煙和CA125等,可以整合到RSF模型中并提高模型的預(yù)后能力,且不增加過度擬合的可能性。更重要的是基于RSF的逐步變量選擇方法可用于開發(fā)預(yù)測模型,以更好地滿足生存預(yù)測的要求。
此外本研究結(jié)果顯示:變量選擇方法可用于開發(fā)可靠的模型。使用該方法,我們確定了3個(gè)RSF模型,這些模型均被證實(shí)具有較高的預(yù)測能力和較低的過擬合可能性。盡管所有的RSF模型可用于預(yù)測患者的預(yù)后,KSE125模型略優(yōu)于其他模型。此外,整合CA125(KSE125和KE125)的模型均略優(yōu)于KECS模型,并表明CA125是患者的重要預(yù)后因素。應(yīng)該注意的是,如在A組肺腺癌的診斷中,更多的患者已經(jīng)患有BM并呈現(xiàn)顱外轉(zhuǎn)移,而且A組患者中接受聯(lián)合治療的患者較少,這可能導(dǎo)致較低的局部控制率和較短的中位OS[7]。但是,選擇偏差并未明顯削弱B組的KSE125模型的表現(xiàn)。
本研究結(jié)果中KSE125模型優(yōu)于其他模型其中的四個(gè)變量(KPS,吸煙,EGFR-20和CA125) 都是以前報(bào)道的肺腺癌患者的因素[8]。
表3 一般資料
然而,這并不意味著所有這四個(gè)因素在預(yù)測中都是最有力的獨(dú)立預(yù)測因子。盡管治療因素,就診時(shí)已轉(zhuǎn)移的BM和TKI治療的預(yù)測效果也很強(qiáng),但它們的組合的C指數(shù)其他因素在該隊(duì)列患者中并不高。最重要的是KSE125模型的組合優(yōu)于其他變量,盡管KSE125模型是在BM發(fā)病前沒有接受過TKI治療的患者開發(fā)的,它也可以應(yīng)用于接受治療的患者[16]。 根據(jù)相關(guān)研究,在BM之前接受TKI治療的大多數(shù)患者中,EGFR的因子仍然在BM的Lung-molGPA模型中[9]。
另外,正如我們的結(jié)果研究結(jié)果所顯示CA125具有較好的預(yù)后能力,目前越來越多的腫瘤標(biāo)記物被整合到預(yù)測模型中,但是應(yīng)該充分評估模型的過擬合可能性和泛化能力,并且要有足夠的樣本量[10]??紤]到肺腺癌患者中標(biāo)記物的重要性,我們將來的研究將對其預(yù)后能力進(jìn)行研究。
表4 生化資料
圖1 兩組肺腺癌腦轉(zhuǎn)移模型對比