陳 健,閆 瀅,錢(qián)小軍,韓興華,何義富
在全球范圍內(nèi),胃癌是常見(jiàn)的消化道惡性腫瘤之一,我國(guó)更是胃癌的高發(fā)地區(qū)[1]。近年來(lái)早期篩查的推廣使更多的患者獲得了手術(shù)根治的機(jī)會(huì)[2]。然而,仍有一半以上的患者會(huì)出現(xiàn)術(shù)后復(fù)發(fā)轉(zhuǎn)移,轉(zhuǎn)變成晚期患者,預(yù)后較差[3]。目前的研究表明絕大多數(shù)復(fù)發(fā)都是發(fā)生在術(shù)后的2年內(nèi),即為早期復(fù)發(fā)[4],因此,預(yù)測(cè)患者早期復(fù)發(fā)風(fēng)險(xiǎn),制定個(gè)體化的輔助治療與隨訪方案,對(duì)改善患者的預(yù)后有著重要的意義。本研究擬通過(guò)收集胃癌根治術(shù)后患者的臨床病理特征,結(jié)合復(fù)發(fā)及生存信息,構(gòu)建患者術(shù)后早期復(fù)發(fā)的預(yù)測(cè)模型,指導(dǎo)臨床實(shí)踐。
1.1 對(duì)象 回顧性收集我院(安徽省立醫(yī)院)2008-06至2018-01接受根治性手術(shù)治療的胃癌患者114例。所有患者均經(jīng)病理確診為胃腺癌,經(jīng)影像學(xué)或胃鏡證實(shí)為術(shù)后復(fù)發(fā)轉(zhuǎn)移。排除標(biāo)準(zhǔn):合并其他腫瘤、非R0切除及發(fā)生嚴(yán)重的術(shù)后并發(fā)癥。臨床特征信息包括性別、年齡、術(shù)前CEA水平。病理特征信息包括術(shù)后病理分期(依據(jù)AJCC第八版)、WHO胃癌分類(lèi)(2010版)、Lauren分型、脈管神經(jīng)侵犯、病灶的最長(zhǎng)徑。對(duì)于術(shù)后病理檢查報(bào)告中未完整提供上述病理特征信息的患者,通過(guò)調(diào)閱其術(shù)后病理組織標(biāo)本進(jìn)行補(bǔ)充診斷。
1.2 方法
1.2.1 數(shù)據(jù)準(zhǔn)備 所有數(shù)據(jù)分析通過(guò)R軟件完成。利用R軟件中的sampling包隨機(jī)選擇70%的患者作為訓(xùn)練集,剩余30%的患者作為驗(yàn)證集。將分類(lèi)變量轉(zhuǎn)換成啞變量。術(shù)前CEA水平采用log2標(biāo)準(zhǔn)化。患者的臨床病理特征比較采用卡方檢驗(yàn)(非連續(xù)變量)和非參數(shù)檢驗(yàn)(連續(xù)變量),P<0.05為差異具有統(tǒng)計(jì)學(xué)意義。
1.2.2 變量篩選與模型構(gòu)建 在訓(xùn)練集中利用R軟件中的glmnet包擬合臨床病理特征與無(wú)復(fù)發(fā)生存時(shí)間的最小絕對(duì)收縮和選擇算子(LASSO)回歸模型。通過(guò)COX風(fēng)險(xiǎn)比例模型構(gòu)建術(shù)后復(fù)發(fā)預(yù)測(cè)模型。
1.2.3 模型預(yù)測(cè)價(jià)值的評(píng)價(jià) 根據(jù)構(gòu)建的術(shù)后復(fù)發(fā)預(yù)測(cè)模型計(jì)算患者的復(fù)發(fā)指數(shù)(recurrence index, RI)。繪制1年、2年復(fù)發(fā)的受試者工作特征曲線(ROC)并計(jì)算曲線下面積,根據(jù)RI將患者分為高復(fù)發(fā)風(fēng)險(xiǎn)組和低復(fù)發(fā)風(fēng)險(xiǎn)組,通過(guò)log-rank檢驗(yàn)比較兩組之間的無(wú)復(fù)發(fā)生存時(shí)間(relapse-free survival, RFS)的差異。利用rms包繪制列線圖與校準(zhǔn)圖。利用COX風(fēng)險(xiǎn)比例模型對(duì)臨床病理特征及RI與RFS之間的關(guān)系進(jìn)行單因素與多因素分析。以上分析中P<0.05為差異具有統(tǒng)計(jì)學(xué)意義。
2.1 患者的一般情況 所有患者均接受根治性手術(shù)治療,術(shù)后病理診斷為胃腺癌,其中訓(xùn)練集包含79例患者,中位無(wú)復(fù)發(fā)生存時(shí)間(median relapse-free survival, mRFS) 366 d(95%CI:302~466 d),驗(yàn)證集包含35例患者, mRFS為329 d(95%CI:293~584 d),兩組患者mRFS無(wú)統(tǒng)計(jì)學(xué)差異(log-rankP=0.693)。所有患者mRFS為356 d(95%CI: 306~449 d)。訓(xùn)練集與驗(yàn)證集中患者的病灶直徑及術(shù)前CEA水平無(wú)統(tǒng)計(jì)學(xué)差異(非參數(shù)檢驗(yàn)P值分別為0.415和0.888),其他臨床病理特征亦無(wú)統(tǒng)計(jì)學(xué)差異(表1)。
2.2 變量篩選與模型構(gòu)建 在訓(xùn)練集中, LASSO回歸分析表明選擇年齡、性別、黏液腺癌、中分化腺癌、Lauren混合型、病理N分期及病理分期7個(gè)變量,當(dāng)lambda=0.1141097時(shí)誤差最小。將上述7個(gè)變量進(jìn)行COX回歸分析,得到每個(gè)變量的回歸系數(shù),根據(jù)回歸系數(shù)計(jì)算患者的RI(RI=0.019×年齡+0.438×男性+(-0.813)×黏液腺癌+(-0.446)×中分化腺癌+0.30×Lauren混合型+0.472×脈管神經(jīng)侵犯+0.224×病理N分期+0.168×病理分期)。
表1 訓(xùn)練集和驗(yàn)證集中患者的一般情況
注:①中位年齡
2.3 模型預(yù)測(cè)價(jià)值評(píng)價(jià)
2.3.1 RI與患者RFS的關(guān)系 以訓(xùn)練集中患者的中位RI作為截?cái)嘀?,將患者分成高?fù)發(fā)風(fēng)險(xiǎn)組和低復(fù)發(fā)風(fēng)險(xiǎn)組。log-rank檢驗(yàn)表明,在訓(xùn)練集、驗(yàn)證集以及所有患者中,低復(fù)發(fā)風(fēng)險(xiǎn)患者的RFS顯著長(zhǎng)于高復(fù)發(fā)風(fēng)險(xiǎn)的患者(log-rankP分別為<0.001, 0.003和<0.001)。
2.3.2 RI受試者工作特征曲線 通過(guò)繪制訓(xùn)練集、驗(yàn)證集及所有患者RI預(yù)測(cè)1年、2年無(wú)復(fù)發(fā)生存ROC曲線顯示,在訓(xùn)練集中,1年和2年無(wú)復(fù)發(fā)生存ROC曲線下面積分別為0.721和0.761;在驗(yàn)證集中,1年和2年無(wú)復(fù)發(fā)生存ROC曲線下面積分別為0.724和0.812;在所有患者中,1年和2年無(wú)復(fù)發(fā)生存ROC曲線下面積分別為0.714和0.782。其他單個(gè)臨床病理特征變量預(yù)測(cè)1年和2年無(wú)復(fù)發(fā)生存ROC曲線下面積均小于0.7。
2.3.3 臨床病理特征及RI的單因素與多因素分析 對(duì)所有患者的臨床病理特征以及RI進(jìn)行COX單因素回歸分析表明,患者的病理分期、病理T分期、病理N分期偏晚,中-低分化腺癌、Lauren分型為混合型、脈管神經(jīng)侵犯以及高復(fù)發(fā)指數(shù)是胃癌術(shù)后患者復(fù)發(fā)的風(fēng)險(xiǎn)因素(表2)。對(duì)上述因素進(jìn)一步進(jìn)行多因素分析表明,RI是獨(dú)立的復(fù)發(fā)風(fēng)險(xiǎn)因素(圖1)。
表2 臨床病理特征及RI與無(wú)復(fù)發(fā)生存時(shí)間的COX單因素分析
2.3.4 1年、2年無(wú)復(fù)發(fā)生存概率預(yù)測(cè)列線圖 根據(jù)上述預(yù)測(cè)模型,繪制基于模型中7個(gè)變量的列線圖,通過(guò)列線圖計(jì)算患者1年、2年無(wú)復(fù)發(fā)生存的概率(圖2)。校準(zhǔn)圖顯示基于該列線圖模型的回歸校準(zhǔn)曲線與理想預(yù)測(cè)值較接近,可以準(zhǔn)確地預(yù)測(cè)患者1年、2年復(fù)發(fā)風(fēng)險(xiǎn)(圖3)。
圖1 臨床病理特征及RI與無(wú)復(fù)發(fā)生存時(shí)間的COX多因素分析
圖2 基于臨床病理特征預(yù)測(cè)1年、2年無(wú)復(fù)發(fā)生存概率的列線圖模型
男性、黏液腺癌、中分化腺癌、Lauren混合型、脈管神經(jīng)侵犯:1 為是,0為 否;病理分期1-8分別為ⅠA、ⅠB、ⅡA、ⅡB、ⅢA、ⅢB、ⅢC和ⅣA期;病理N分期0-4分別為N0、N1、N2、N3a和N3b
圖3 校準(zhǔn)圖驗(yàn)證列線圖模型預(yù)測(cè)1年、2年復(fù)發(fā)風(fēng)險(xiǎn)準(zhǔn)確性
A.訓(xùn)練集中校準(zhǔn)圖驗(yàn)證1年復(fù)發(fā)風(fēng)險(xiǎn);B.訓(xùn)練集中校準(zhǔn)圖驗(yàn)證2年復(fù)發(fā)風(fēng)險(xiǎn);C.驗(yàn)證集中校準(zhǔn)圖驗(yàn)證1年復(fù)發(fā)風(fēng)險(xiǎn);D.驗(yàn)證集中校準(zhǔn)圖驗(yàn)證2年復(fù)發(fā)風(fēng)險(xiǎn);E.所有患者中校準(zhǔn)圖驗(yàn)證1年復(fù)發(fā)風(fēng)險(xiǎn);F.所有患者中校準(zhǔn)圖驗(yàn)證2年復(fù)發(fā)風(fēng)險(xiǎn)
胃癌是我國(guó)常見(jiàn)惡性腫瘤之一[5]。術(shù)后復(fù)發(fā)仍然是目前胃癌患者治療失敗的主要原因之一。本研究選擇114例接受根治性手術(shù)治療的胃癌患者,通過(guò)LASSO回歸選擇特征變量,進(jìn)一步構(gòu)建基于COX風(fēng)險(xiǎn)比例模型的預(yù)測(cè)模型以計(jì)算患者的RI,其預(yù)測(cè)患者1年、2年無(wú)復(fù)發(fā)生存的ROC曲線下面積均大于0.7,優(yōu)于單個(gè)變量的預(yù)測(cè)價(jià)值。本研究結(jié)果顯示,RI是患者獨(dú)立的復(fù)發(fā)危險(xiǎn)因素。另外,我們構(gòu)建了基于該模型的列線圖,校準(zhǔn)圖顯示該列線圖預(yù)測(cè)風(fēng)險(xiǎn)與理想的預(yù)測(cè)值接近,表明該列線圖可以準(zhǔn)確地預(yù)測(cè)患者早期復(fù)發(fā)風(fēng)險(xiǎn)。在臨床實(shí)踐中,我們可以根據(jù)該列線圖計(jì)算患者每一項(xiàng)臨床病理特征的評(píng)分,從而計(jì)算患者總的風(fēng)險(xiǎn)評(píng)分,預(yù)測(cè)患者1年及2年復(fù)發(fā)的風(fēng)險(xiǎn),指導(dǎo)患者術(shù)后的輔助治療和隨訪。
由于本研究納入的患者數(shù)量有限,而特征變量較多,因此我們采用機(jī)器學(xué)習(xí)中的LASSO回歸方法[6],引入懲罰數(shù),進(jìn)行變量壓縮,可以減少變量,提高模型的可解釋性,同時(shí)防止模型過(guò)擬合,提高模型的準(zhǔn)確性。通過(guò)LASSO回歸的方法,我們篩選出年齡、性別、黏液腺癌、中分化腺癌、Lauren混合型、病理N分期,以及病理分期7個(gè)與RFS相關(guān)的變量。其中,年齡、病理分期、淋巴結(jié)轉(zhuǎn)移及Lauren分型均已在多項(xiàng)研究中被證實(shí)與患者的復(fù)發(fā)相關(guān)[7-10],與我們的研究結(jié)果相似。
盡管,目前大量的研究通過(guò)回顧性分析篩選出了多個(gè)與胃癌患者術(shù)后早期復(fù)發(fā)相關(guān)的危險(xiǎn)因素,但這些研究并未將危險(xiǎn)因素與復(fù)發(fā)風(fēng)險(xiǎn)之間的關(guān)系進(jìn)行量化,對(duì)臨床實(shí)踐的指導(dǎo)價(jià)值有限。我們通過(guò)機(jī)器學(xué)習(xí)的方法構(gòu)建的模型可以較準(zhǔn)確地預(yù)測(cè)每一名胃癌患者術(shù)后早期復(fù)發(fā)的概率,以指導(dǎo)個(gè)體化的隨訪與治療,在“精準(zhǔn)醫(yī)學(xué)”的背景下有著重要的意義,值得在臨床上進(jìn)一步證實(shí)與推廣。然而,本研究也存在一定的局限性:一方面樣本量較小,且患者均來(lái)自于同一個(gè)中心;另一方面,該研究中的絕大多數(shù)患者均接受術(shù)后輔助治療,然而由于方案差異較大,故未將其納入研究,因此研究結(jié)果可能存在一定的偏倚。在后續(xù)的研究中,我們將通過(guò)擴(kuò)大樣本量,聯(lián)合多個(gè)中心,納入更多的變量,如手術(shù)的方式、腫瘤的位置、術(shù)后輔助治療的情況等,并在多個(gè)獨(dú)立的數(shù)據(jù)集中進(jìn)一步驗(yàn)證,以優(yōu)化模型,提高模型預(yù)測(cè)的準(zhǔn)確性。