黃坤,黃正紅,趙攀,趙平武,何運(yùn)勝,白斗
(1.四川省綿陽(yáng)市中醫(yī)醫(yī)院 普通外科,四川 綿陽(yáng) 621000;2.成都中醫(yī)藥大學(xué)醫(yī)學(xué)技術(shù)學(xué)院,四川 成都 611137;3.四川省綿陽(yáng)市中心醫(yī)院 血管外科,四川 綿陽(yáng) 621000)
方法:提取SEER 數(shù)據(jù)庫(kù)中2000—2019年期間經(jīng)病理確診的GSCC患者的臨床資料,按照7∶3的比例,將數(shù)據(jù)隨機(jī)劃分為訓(xùn)練集和驗(yàn)證集,在訓(xùn)練集中,分別采用多變量Cox比例風(fēng)險(xiǎn)模型和LASSO回歸篩選影響GSCC患者預(yù)后的獨(dú)立因素,利用這些因素,構(gòu)建用于預(yù)測(cè)GSCC患者在3個(gè)月和6個(gè)月的腫瘤特異性生存期(CSS)和總生存期(OS)的列線圖模型。隨后,在訓(xùn)練集中,利用一致性指數(shù)(C指數(shù))、ROC曲線和校準(zhǔn)曲線,分別在訓(xùn)練集和驗(yàn)證集,對(duì)模型進(jìn)行內(nèi)部和外部驗(yàn)證,以評(píng)估模型的準(zhǔn)確度和預(yù)測(cè)能力。
結(jié)果:本研究共納入257例患者,其中訓(xùn)練集179例,驗(yàn)證集78例。在訓(xùn)練集和驗(yàn)證集中,患者的中位隨訪時(shí)間分別為3(1~7)個(gè)月和4(2~8)個(gè)月。兩組之間基線資料均衡可比。多變量Cox比例風(fēng)險(xiǎn)模型分析顯示,年齡、SEER分期、手術(shù)和化療是GSCC患者OS和CSS的獨(dú)立影響因素(均P<0.05)。LASSO回歸分析顯示,年齡、SEER分期、放療、手術(shù)和化療與GSCC患者的OS相關(guān);年齡、SEER分期、手術(shù)和化療與GSCC患者的CSS相關(guān)。基于這些獨(dú)立預(yù)后影響因素,構(gòu)建了用于預(yù)測(cè)GSCC患者在3、6個(gè)月的OS和CSS的列線圖。對(duì)模型的驗(yàn)證結(jié)果表明,訓(xùn)練集和驗(yàn)證集中,OS的C指數(shù)分別為0.739(95% CI=0.700~0.780)和0.729(95% CI=0.660~0.800);CSS的C指數(shù)分別為0.750(95% CI=0.710~0.790)和0.741(95% CI=0.670~0.810)。ROC曲線分析顯示,曲線在訓(xùn)練集和驗(yàn)證集的AUC值均>0.8;校準(zhǔn)曲線分析表明,通過(guò)模型預(yù)測(cè)的3、6個(gè)月的OS和CSS與GSCC患者真實(shí)的3、6個(gè)月的OS和CSS有較好的重合,兩者均靠近理想的45°參考線,表現(xiàn)出良好的一致性。
結(jié)論:年齡、SEER分期、手術(shù)、放療和化療是GSCC患者預(yù)后的獨(dú)立影響因素。所構(gòu)建的列線圖預(yù)測(cè)模型具有良好的預(yù)測(cè)價(jià)值,有利于臨床對(duì)GSCC患者選擇個(gè)性化治療。
膽囊癌是一種預(yù)后極差的高度惡性腫瘤,其發(fā)病率約為1~2/10萬(wàn),約占膽道系統(tǒng)惡性腫瘤的80%~90%[1-3]。未接受手術(shù)治療的患者,其5年總生存率僅為15.6%[4]。在組織學(xué)分型上,腺癌是最常見(jiàn)的組織學(xué)類型,約占膽囊癌的90%~95%[5]。
膽囊鱗狀細(xì)胞癌(gallbladder squamous cell carcinoma,GSCC)是膽囊癌中一種罕見(jiàn)的病理學(xué)類型,其構(gòu)成比約為1%~4%[6-7]。GSCC的預(yù)后極差,其中位生存時(shí)間約為5個(gè)月[8-9]。目前尚缺乏有關(guān)GSCC預(yù)后的高質(zhì)量大樣本臨床研究[6,8,10-15]。病理學(xué)類型是影響惡性腫瘤患者預(yù)后的重要因素,同時(shí)也是臨床治療決策制定的重要參考[16-18]。然而,現(xiàn)有的膽囊癌診療指南主要針對(duì)的是腺癌[19],因此,有必要制定專門針對(duì)GSCC的臨床預(yù)后評(píng)價(jià)工具。
本研究基于美國(guó)國(guó)家癌癥研究所監(jiān)測(cè)、流行病學(xué)和最終結(jié)果(the surveillance,epidemiology and end results,SEER)數(shù)據(jù)庫(kù)臨床病例樣本量大、資料豐富的特點(diǎn)[17,20],構(gòu)建GSCC患者預(yù)后列線圖,旨在精準(zhǔn)化、個(gè)體化評(píng)價(jià)GSCC患者的預(yù)后,為臨床決策制定提供參考。
利用 SEER*Stat v8.3.9軟件提取SEER數(shù)據(jù)庫(kù)(隨訪截止日期為2019年12月31日)中,2000—2019年期間通過(guò)病理學(xué)確診的GSCC患者的臨床隨訪資料[21]。
納入標(biāo)準(zhǔn):⑴ 初診時(shí)原發(fā)腫瘤為GSCC;⑵ 確診方式為病理學(xué)確診;⑶ 確診年份為2000—2019年;⑷ ICD-O-3編碼為:“8070/3”“8071/3”“8072/3”“8074/3”“8075/3”“8083/3”。排除標(biāo)準(zhǔn):⑴ 多源性腫瘤;⑵ 經(jīng)過(guò)尸檢或死亡證明確診的病例;⑶ 研究指標(biāo)無(wú)法獲取;⑷ 臨床或隨訪信息記錄不完整。
參照筆者[17,21-22]先前的研究,提取患者的診斷年齡、種族、性別、原發(fā)腫瘤部位、治療信息、生存時(shí)間及生存結(jié)局等資料。結(jié)合文獻(xiàn)[21,23-24]報(bào)道,本研究中,年齡界定標(biāo)準(zhǔn)設(shè)置為60歲,依據(jù)GSCC患者的年齡、性別、種族、婚姻狀況、腫瘤分化程度、SEER分期、是否接受手術(shù)、放療和化療,對(duì)其臨床資料進(jìn)行分組后用于后續(xù)分析。
本研究的研究終點(diǎn)為患者的癌癥特異性生存期(cancer-specific survival,CSS)和總生存期(overall survival,OS)。CSS被定義為:診斷至隨訪截止或因GSCC死亡的時(shí)間,非GSCC死亡和失訪數(shù)據(jù)被視為刪失數(shù)據(jù);OS被定義為:診斷至隨訪截止或任何病因死亡的時(shí)間,失訪數(shù)據(jù)被視為刪失數(shù)據(jù)。應(yīng)用Stata/MP 16.0軟件和R(version 4.2.3)軟件進(jìn)行統(tǒng)計(jì)分析。正態(tài)分布計(jì)量資料以均數(shù)±標(biāo)準(zhǔn)差(±s)表示,非正態(tài)分布計(jì)量資料采用中位數(shù)(四分位間距)[M(IQR)]描述,計(jì)數(shù)資料采用率表示,組間對(duì)比采用χ2檢驗(yàn)。采用Kaplan-Meier法計(jì)算生存率,生存率比較采用Logrank法,采用單(多)因素Cox比例風(fēng)險(xiǎn)模型和LASSO(least absolute shrinkage and selection operator)回歸進(jìn)行獨(dú)立預(yù)后因素分析并計(jì)算風(fēng)險(xiǎn)比(HR)及對(duì)應(yīng)95%置信區(qū)間(CI)。按照7∶3將數(shù)據(jù)集隨機(jī)劃分為訓(xùn)練集和驗(yàn)證集,訓(xùn)練集用于列線圖模型的構(gòu)建及其內(nèi)部驗(yàn)證,驗(yàn)證集被用于外部驗(yàn)證。通過(guò)Bootstrap 1 000次重抽樣的方法,繪制校準(zhǔn)曲線對(duì)模型準(zhǔn)確度進(jìn)行驗(yàn)證;計(jì)算一致性指數(shù)(C指數(shù))對(duì)模型區(qū)分度進(jìn)行驗(yàn)證。所有檢驗(yàn)均為雙側(cè)尾。檢驗(yàn)水準(zhǔn)α=0.05。
本研究共納入257例GSCC患者,按照7∶3的比例,將257例患者隨機(jī)分為訓(xùn)練集和驗(yàn)證集,其中訓(xùn)練集179例,驗(yàn)證集78例。兩組患者的基線特征均衡(均P>0.05)(表1)。
表1 GSCC患者的臨床基線特征[n(%)]Table 1 The baseline demographics and clinical characteristics of patients with GSCC [n (%)]
2.2.1 單變量Cox比例風(fēng)險(xiǎn)模型分析 在建模組179例患者中,中位隨訪3(1~7)個(gè)月。在驗(yàn)證組78例患者中位隨訪4(2~8)個(gè)月。生存情況的單變量Cox比例風(fēng)險(xiǎn)模型分析結(jié)果顯示,年齡、腫瘤分化程度、SEER分期、手術(shù)、化療、放療均與患者的OS及CSS明顯有關(guān)(均P<0.05)(表2)。
表2 GSCC患者OS與CSS影響因素的單變量Cox分析Table 2 Univariate Cox regression analysis for CSS and OS in GSCC patients
2.2.2 多變量Cox比例風(fēng)險(xiǎn)模型分析 根據(jù)單變量Cox比例風(fēng)險(xiǎn)模型分析結(jié)果,將有統(tǒng)計(jì)學(xué)意義的變量進(jìn)一步納入多變量Cox比例風(fēng)險(xiǎn)模型分析,結(jié)果顯示,年齡、SEER分期、手術(shù)和化療是OS和CSS的獨(dú)立影響因素(均P<0.05)(圖1)。
圖1 基于多變量Cox回歸分析森林圖 A:OS;B:CSSFigure 1 Forest plots using multivariate Cox regression analysis A: OS; B: CSS
2.2.3 LASSO回歸分析 LASSO方法的原理是在最小二乘法的基礎(chǔ)上增加一個(gè)懲罰項(xiàng)來(lái)壓縮估計(jì)參數(shù),進(jìn)而對(duì)預(yù)后影響較大的自變量進(jìn)行自動(dòng)篩選并計(jì)算出相應(yīng)的回歸系數(shù)。模型篩選的主要參數(shù)是lambda.min和lambda.1se。前者是指,獲得最小目標(biāo)參量均值的 λ值,而后者是指在lambda.min一個(gè)方差se范圍內(nèi)得到最簡(jiǎn)單模型的λ值。由于λ值到達(dá)一定值之后,再繼續(xù)增加模型自變量個(gè)數(shù)并不顯著地提高模型性能,因此,lambda.1se可以給出一個(gè)性能優(yōu)良,同時(shí)自變量數(shù)最少的模型。為了能更準(zhǔn)確而全面地篩選出,影響GSCC患者預(yù)后的獨(dú)立因素,并且盡可能減少變量共線性對(duì)結(jié)果的影響,同時(shí)采用LASSO回歸分析(基于10折交叉驗(yàn)證方法)進(jìn)一步篩選變量。結(jié)果顯示,年齡、SEER分期、放療、手術(shù)和化療患者OS相關(guān);年齡、SEER分期、手術(shù)和化療與患者CSS相關(guān)(圖2)。
圖2 基于LASSO回歸的特征選擇 A:LASSO回歸系數(shù)隨Log(λ)的變化曲線(OS);B:基于10折交叉驗(yàn)證C指數(shù)隨Log(λ)的變化曲線(OS);C:LASSO回歸系數(shù)隨Log(λ)的變化曲線(CSS);D:基于10折交叉驗(yàn)證C指數(shù)隨Log(λ)的變化曲線(CSS)Figure 2 Feature selection based on LASSO regression A: Curve of LASSO regression coefficients with changing Log(λ) (OS);B: Curve of 10-fold cross-validated C-index with changing Log(λ) (OS); C: Curve of LASSO regression coefficients with changing Log(λ) (CSS); D: Curve of 10-fold cross-validated C-index with changing Log(λ) (CSS)
在本研究中,年齡、SEER分期、放療、化療和手術(shù)與GSCC患者的OS和CSS相關(guān)(圖3-4)?;谂R床重要性、多變量Cox回歸和LASSO回歸,上述5個(gè)變量最終被選出用于預(yù)測(cè)GSCC患者在3、6個(gè)月的OS和CSS的列線圖的構(gòu)建。圖中每個(gè)臨床特征都將被賦予相應(yīng)的分值,所有變量的分值之和等于總得分(total points),其總得分越低,預(yù)后越好。根據(jù)總得分即可對(duì)不同時(shí)間點(diǎn)GSCC患者的OS和CSS做出臨床預(yù)測(cè)(圖5)。
圖4 訓(xùn)練集中GSCC患者基于5個(gè)變量的CSS曲線Figure 4 CSS curves for GSCC patients in the training set based on five variables
圖5 預(yù)測(cè)GSCC患者3、6個(gè)月預(yù)后的列線圖 A:OS;B:CSSFigure 5 Nomograms predicting the 3- and 6-month prognosis for GSCC patients A: OS; B: CSS
為了評(píng)價(jià)模型的區(qū)分度,分別在訓(xùn)練集和驗(yàn)證集中計(jì)算C指數(shù)和AUC值(表3)并繪制ROC曲線(圖6),結(jié)果顯示在訓(xùn)練集和驗(yàn)證集中,均有良好的預(yù)測(cè)價(jià)值。為了評(píng)價(jià)模型的準(zhǔn)確度,采用Bootstrap法對(duì)模型進(jìn)行內(nèi)部驗(yàn)證和外部驗(yàn)證,自抽樣次數(shù)B=1 000,并繪制校準(zhǔn)曲線。驗(yàn)證結(jié)果顯示,在訓(xùn)練集(內(nèi)部)與驗(yàn)證集(外部)中,GSCC患者的3、6個(gè)月的OS和CSS校正曲線均靠近理想的45°參考線,表明模型預(yù)測(cè)值與實(shí)際值之間具有良好的一致性(圖7)。
圖6 訓(xùn)練集和驗(yàn)證集中模型3、6個(gè)月預(yù)測(cè)能力驗(yàn)證的ROC曲線Figure 6 ROC curves for the 3- and 6-month predictive ability validation of the model in the training and validation sets
圖7 訓(xùn)練集和驗(yàn)證中3、6個(gè)月OS與CSS的校準(zhǔn)曲線Figure 7 Calibration curves for 3- and 6-month OS and CSS in the training and validation sets
表3 訓(xùn)練集和驗(yàn)證集中模型的C指數(shù)和AUC值Table 3 C-index and AUC values of the model in the training and validation sets
為了進(jìn)一步驗(yàn)證該模型在臨床實(shí)踐中的應(yīng)用價(jià)值,根據(jù)構(gòu)建的列線圖分別在訓(xùn)練集和驗(yàn)證集中計(jì)算出每個(gè)患者的總分值,并在訓(xùn)練集中采用X-tile軟件對(duì)其進(jìn)行危險(xiǎn)分層。其中對(duì)于OS和CSS,低風(fēng)險(xiǎn)組和高風(fēng)險(xiǎn)組的閾值分別為228分和251.1分。結(jié)果顯示,在驗(yàn)證集和訓(xùn)練集中該模型均能對(duì)GSCC患者的生存預(yù)后做出良好的區(qū)分(均P<0.000 1)(圖8)。
圖8 不同風(fēng)險(xiǎn)患者的生存曲線 A:訓(xùn)練集OS;B:訓(xùn)練集CSS;C:驗(yàn)證集OS;D:驗(yàn)證集CSSFigure 8 Survival curves for OS and CSS of patients with different risks A: OS for the training set; B: CSS for the training set;C: OS for the validation set; D: CSS for the validation set
GSCC發(fā)病罕見(jiàn)、預(yù)后差[7,25],在臨床實(shí)踐中,缺乏針對(duì)性的預(yù)后評(píng)價(jià)工具。本研究顯示,年齡、SEER分期、手術(shù)、放療和化療是患者預(yù)后的獨(dú)立影響因素。60歲以上GSCC患者的OS和CSS均更差。同本研究的結(jié)論類似,黃漢生[26]在對(duì)膽囊癌的預(yù)后分析中顯示,≥65歲患者的總死亡風(fēng)險(xiǎn)OS(HR=1.389,P<0.001)和腫瘤特異性死亡風(fēng)險(xiǎn)均更高(HR=1.216,P=0.009)。此外,在乳腺癌[27]、卵巢癌[28]、肝癌[29]和軟組織肉瘤[17]中,年齡同樣是影響患者預(yù)后的獨(dú)立危險(xiǎn)因素。腫瘤分期作為影響預(yù)后的獨(dú)立因素為臨床所熟知。在本研究和其他一些研究中均得到印證[24,29-31]。手術(shù)、化療和放療是膽囊癌主要的治療手段[19]。本研究發(fā)現(xiàn)手術(shù)和化療是GSCC患者預(yù)后的獨(dú)立影響因素,能明顯提高患者的OS和CSS。Leigh等[2]在一項(xiàng)回顧性隊(duì)列研究(含76例膽囊腺癌、12例腺鱗癌和3例鱗癌)中顯示,R0切除能明顯提高患者的OS(HR=0.01,95%CI=0.01~0.08,P<0.001)。Chen等[10]在另一項(xiàng)回顧性傾向性評(píng)分匹配隊(duì)列研究(含242例膽囊腺癌和121例膽囊鱗癌)也表明手術(shù)治療能提高患者的OS(HR=0.406,95%CI=0.271~0.609,P<0.001)和CSS(HR=0.418,95%CI=0.209~0.837,P=0.014)。本研究結(jié)果表明,相比于未接受化療的患者,化療患者的總死亡風(fēng)險(xiǎn)和腫瘤特異性死亡風(fēng)險(xiǎn)均降低64%。在一項(xiàng)隨機(jī)多中心臨床3期試驗(yàn)(BILCAP)[32],及Takada等[33]、龔奇等[34]的研究中,化療均被證實(shí)能使膽囊癌明顯獲益。膽囊癌的放療價(jià)值目前尚未達(dá)成一致的共識(shí)[19],然而,有研究[21,35]表明,放療能使膽囊癌患者獲益。本研究通過(guò)LASSO回歸分析表明,放療是影響患者OS的獨(dú)立因素。此外,在其他類型的腫瘤中放療也被證實(shí)可以降低局部復(fù)發(fā)、提高R0切除率等[36-38]。
列線圖被廣泛用于腫瘤預(yù)后的評(píng)價(jià)[39],它可以個(gè)體化地預(yù)測(cè)患者的生存概率,并形象化地展示,并且能幫助臨床醫(yī)師針對(duì)性地制定臨床決策。在本研究中,研究者基于上述GSCC患者預(yù)后的獨(dú)立影響因素,成功構(gòu)建了用于預(yù)測(cè)GSCC患者3、6個(gè)月OS和CSS的預(yù)測(cè)模型。進(jìn)一步通過(guò)對(duì)該預(yù)測(cè)模型的驗(yàn)證顯示,其具有良好的準(zhǔn)確度和一致性,不僅可以幫助臨床醫(yī)師對(duì)患者的預(yù)后做出更準(zhǔn)確的判斷,同時(shí)也能區(qū)分患者是否屬于高危人群,從而輔助臨床醫(yī)師針對(duì)患者做出個(gè)體化的臨床決策。例如:1例患者,年齡≥60歲,接受手術(shù)和化療,沒(méi)有接受放療,已出現(xiàn)遠(yuǎn)處轉(zhuǎn)移。該患者的OS模型總得分為270分,其3、6個(gè)月的累積生存率分別為77.6%和61.7%;該患者的CSS模型總得分為239分,其3、6個(gè)月的累積生存率分別為79.1%和61.9%。有研究[31]指出,影響患者的OS的因素相對(duì)復(fù)雜,而相比之下CSS顯得更加重要。本研究進(jìn)一步根據(jù)CSS對(duì)上述患者進(jìn)行危險(xiǎn)分層。由于其總分239分低于閾值251.1分,因而,判斷該患者可能為低?;颊?,預(yù)后相對(duì)較好;相反,如果某患者通過(guò)該模型計(jì)算出的總分高于閾值,就可能為高危人群,預(yù)后相對(duì)較差,需要給予更多臨床關(guān)注,制定更密集的隨訪周期和個(gè)體化、精準(zhǔn)化治療方案。
本研究的不足之處:首先,本研究是回顧性研究,存在一定的選擇偏倚。其次,SEER數(shù)據(jù)庫(kù)中一些信息(例如:具體的放化療方案、并發(fā)癥、腫瘤復(fù)發(fā)信息等)的缺失,可能成為影響預(yù)后的混雜因素。最后,納入研究的病例數(shù)中,部分組別病例數(shù)較少,構(gòu)成比不均衡,可能影響檢驗(yàn)效能。
綜上所述,筆者認(rèn)為年齡、SEER分期、手術(shù)、放療和化療是患者預(yù)后的獨(dú)立影響因素?;谶@些因素所構(gòu)建的預(yù)后預(yù)測(cè)模型對(duì)臨床實(shí)踐有較好的參考作用。
利益沖突:所有作者均聲明不存在利益沖突。
作者貢獻(xiàn)聲明:黃坤、白斗共同設(shè)計(jì)研究;黃正紅和趙攀完成數(shù)據(jù)提取、整理和分析;黃正紅制作表格和圖片;黃坤撰寫初稿;何運(yùn)勝和趙平武校正圖表;白斗完成最后全文校正。