朱英浩,王詩淇,張緯,劉瑜
1.溫州醫(yī)科大學附屬第一醫(yī)院 心胸外科,浙江 溫州 325035;2.溫州醫(yī)科大學 第一臨床醫(yī)學院(信息與工程學院),浙江 溫州 325035;3.浙江大學醫(yī)學院附屬第四醫(yī)院廿三里院區(qū) 內(nèi)科,浙江 金華 322000
目前,肺癌是全球第二大常見惡性腫瘤,占所有癌癥病例的11.4%,占所有癌癥死亡人數(shù)的18%[1]。非小細胞型肺癌(non-small cell lung cancer, NSCLC)占所有原發(fā)性肺癌的80%以上,骨轉移是肺癌最常見的轉移途徑,而骨轉移是導致肺腺鱗癌預后變差的重要因素之一[2-3]。因此,一個準確預測肺癌轉移到其他器官的預測模型對患者的治療至關重要。
機器學習可以識別復雜的非線性關系,并自動學習和提高性能,被認為優(yōu)于傳統(tǒng)的識別和解決問題的方法[4-5]。機器學習已廣泛應用于臨床,如圖像識別和癌癥預測[6]。本研究中展示了一種機器學習的方法來預測肺腺鱗的骨轉移。
1.1 數(shù)據(jù)收集本研究的隊列來自SEER數(shù)據(jù)庫以及溫州醫(yī)科大學附屬第一醫(yī)院。從SEER數(shù)據(jù)庫中收集了2010年至2018年診斷的患者數(shù)據(jù),使用ICDO-3代碼C34.0、C34.1、C34.2、C34.3、C34.8和C34.9以及組織學代碼8560/3來確認肺腺鱗癌患者。選擇了包括年齡、TNM分期、腫瘤偏側性、原發(fā)部位、病理分級、轉移部位和生存期等特征。從其中挑選出年齡為15~85歲,生存期大于1個月,為原發(fā)性肺癌,有準確的人種信息、病理分級、腫瘤位置、TNM分期以及腫瘤大小的病例。共收集1919例符合條件的病例,并以隨機分組的方式以7:3的比例分為訓練集組(n=1366)以及測試集組(n=553)。從溫州醫(yī)科大學附屬第一醫(yī)院收集了2017年1月至2021年12月的患者數(shù)據(jù)共51例,將其分入外部驗證集組。
1.2 統(tǒng)計學處理方法所有數(shù)據(jù)分析均使用R 4.1.3 (https://www.r-project.org/)完成;所有機器學習算法代碼都由Python 3.10(https://www.python. org/)編寫和運行;SEER*Stat(https://seer. cancer.gov/)用于獲取數(shù)據(jù)庫中患者數(shù)據(jù)。對于符合正態(tài)分布的兩組間比較采用Student’st檢驗;對于兩組間分類樣本的差異分析采用χ2檢驗進行分析;采用Kaplan-Meier法計算和可視化未經(jīng)調(diào)整的生存曲線,采用Logistic回歸分析來計算各指標的OR值以及其95%CI,以確定肺腺鱗癌患者發(fā)生骨轉移的獨立危險因素。使用了6種機器學習算法,包括隨機森林(random forest, RF)、支持向量機(support vector machine, SVM)、極端梯度提升(eXtreme Gradient Boosting, XGBoost)、梯度提升(Gradient Boosting Machine, GBM)、神經(jīng)網(wǎng)絡(Multi-Layer Perceptron, MLP)和k近鄰(K-Nearest Neighbor,kNN),使用受試者工作特征(receiver operating characteristic, ROC)曲線來評價模型的預測能力。P<0.05為差異有統(tǒng)計學意義。
2.1 患者特點在本研究的SEER隊列研究中,最終納入了1919例肺腺鱗患者,溫州醫(yī)科大學附屬第一醫(yī)院隊列納入51例符合條件肺腺鱗癌患者。各組的基本特征見表1。利用Spearman相關性分析對變量之間的相關性進行分析和可視化,結果顯示骨轉移與其他器官的轉移以及TN分期最為相關,見圖1。
圖1 Spearman相關性分析
表1 訓練集、測試集及外部驗證集患者基本特征
2.2 生存分析使用Kaplan-Meier法比較肺腺鱗患者中有無骨轉移的相對生存率。骨轉移患者的癌特異性生存(cancer specific survival, CSS)較無骨轉移者明顯較差(P<0.001)。見圖2。肺腺鱗癌骨轉移患者的中位生存期為5個月,而無骨轉移患者的中位生存期為21個月。
圖2 肺腺鱗癌骨轉移和無骨轉移患者Kaplan-Meier曲線
2.3 單因素和多因素Logistic回歸分析單因素Logistic回歸分析顯示,年齡、TN分期、病理分級、腫瘤大小、肝轉移、腦轉移、遠處淋巴結轉移與骨轉移顯著相關(P<0.05)。在多因素Logistic回歸分析中,骨轉移與淋巴轉移和肝腦轉移有很強的相關性,結果與熱圖一致。年齡、TN分期、病理分級、遠處淋巴結轉移以及其他器官轉移差異有統(tǒng)計學意義(P<0.05)。見表2。
表2 單因素和多因素Logistic回歸分析
2.4 機器算法的性能機器學習算法將隊列隨機分為訓練集組和測試集組,比較6個模型的預測屬性。訓練集組用于建模,測試集組用于測試。從ROC曲線來看,XGBoost(AUC=0.86)、GBM(AUC= 0.83)和RF(AUC=0.80)所建立的模型表現(xiàn)優(yōu)于MLP(AUC=0.80)、SVM(AUC=0.79)、kNN(AUC=0.58),見圖3。其中各個預測模型的預測準確率分別為,XGBoost:90.60%(95%CI=0.882~0.930),GBM:89.69%(95%CI=0.872~0.922),RF:89.87%(95%CI= 0.874~0.924),SVM:91.14%(95%CI=0.888~0.935),kNN:89.87%(95%CI=0.874~0.924),MLP:80.47%(95%CI=0.772~0.838)。筆者認為XGBoost、GBM、RF 3種模型表現(xiàn)優(yōu)異可用于預測肺腺鱗患者的骨轉移,而其中又以XGBoost算法模型在測試集組的表現(xiàn)最佳,因此進一步用3種內(nèi)部驗證集組表現(xiàn)優(yōu)異算法進一步進行外部驗證,以確認其預測性能。
圖3 6種不同模型的機器學習ROC曲線
2.5 機器學習算法預測模型外部驗證使用溫州醫(yī)科大學附屬第一醫(yī)院的肺腺鱗癌患者數(shù)據(jù)進行模型的外部驗證顯示,XGBoost(AUC=0.86)、GBM(AUC=0.83)和RF(AUC=0.81)機器學習模型依舊展示了優(yōu)秀的預測性能,以XGBoost預測性能最為優(yōu)異(見圖4)。
圖4 3種機器學習預測模型的外部驗證ROC曲線
2.6 患者特征的重要性基于XGBoost建立的預測模型表明肝轉移以及遠處淋巴結轉移的肺腺鱗患者更可能發(fā)生骨轉移。TN分期在肺腺鱗向骨轉移的進展中也很重要。見圖5。
圖5 XGBoost模型的特征重要性
肺腺鱗癌與肺腺癌或肺鱗癌相比是一種罕見但更具侵襲性的NSCLC組織亞型[2,7-8]。肺腺鱗癌發(fā)病率低,臨床樣本量少,因此肺腺鱗癌的進展及其影響因素尚不清楚。肺腺鱗癌除了具有肺腺癌和肺鱗癌的一般生物學特征外,也有其獨特的生物學特 征[9]。有研究證明肺腺鱗癌的預后遠比肺腺癌和肺鱗癌差[7,10]。肺腺鱗癌更容易引起局部浸潤、胸膜侵襲以及早期的淋巴或血液轉移,導致患者往往在晚期被診斷,無法進行手術治療[11-12]。對于一些初診或術后早期復查已發(fā)生轉移但卻未及時發(fā)現(xiàn)的患者,倘若不進行手術、及時全身化療或聯(lián)合靶向治療,可能導致癌癥轉移擴散甚至死亡[13]。早期手術、化療、放療和靶向治療已被證明可以改善預后和延長總生存期[11,14-16]。因此,理想的預測模型用于預測肺腺鱗患者是否容易發(fā)生骨轉移至關重要,對于轉移風險高的患者,可及早進行臨床干預。
此前的研究發(fā)現(xiàn)肺腺鱗癌相比于肺腺癌或是肺鱗癌,腫瘤尺寸更大,發(fā)病年齡更小,且預后更差,我們的研究結果與他們的結果相符[8,17]。FILOSSO等[7]的研究發(fā)現(xiàn)遠處轉移、腫瘤神經(jīng)周圍浸潤和腫瘤分期是肺腺鱗癌預后的危險因素。WATANABE等[18]的研究發(fā)現(xiàn)腫瘤周圍炎癥變化是肺腺鱗癌獨立的預后因素。徐振武等[19]的研究也發(fā)現(xiàn)分期、亞型方式和亞型類型也對肺腺鱗癌預后有著較大的影響。本研究可以分為三個部分:首先分析了患者特征的相關性,通過熱圖可視化我們可以大致了解與骨轉移相關的特征,并且使用Kaplan-Meier曲線得出發(fā)生骨轉移后的肺腺鱗癌患者的預后會明顯較差。其次,根據(jù)Logistic回歸分析結果,骨轉移與肝轉移、遠端淋巴結轉移、腦轉移最為相關,這些在之前肺腺癌和肺鱗癌的研究中得到證實[20]。最后共使用了6種不同的機器學習算法,包括RF、XGBoost、GBM、kNN、MLP和SVM去構建肺腺鱗癌的骨轉移預測模型。我們可以得到在6種算法中XGBoost、RF、GBM無論是內(nèi)部驗證或是外部驗證都表現(xiàn)優(yōu)秀,適用于構建肺腺鱗癌骨轉移預測模型。其中以XGBoost算法為基礎構建的預測模型結果最為精確,其以肝轉移、遠處淋巴結轉移、TN分期等作為預測因子,對肺腺鱗癌患者骨轉移風險做出預測。通過機器學習算法模型確定肝轉移、遠處淋巴結轉移、TN分期是肺腺鱗癌患者發(fā)生骨轉移最重要的危險因素。根據(jù)機器學習模型的結果,肺腺鱗癌合并肝轉移或遠處淋巴結轉移的患者有較高并發(fā)骨轉移的風險。
綜上所述,發(fā)生骨轉移是肺腺鱗癌患者預后變差的主要原因之一,但目前依舊缺少一個可以早期并且準確預測骨轉移的預測模型工具。我們使用機器學習的方法,構建了一種可以預測肺腺鱗癌患者骨轉移風險的預測模型。該模型可以通過對患者的特征進行分析,然后返回患者骨轉移的風險概率,能夠在臨床上幫助醫(yī)師更早并且更準確地對肺腺鱗癌患者的骨轉移風險進行預測。醫(yī)師可以根據(jù)不同的患者不同的骨轉移風險,予以不同患者更加精確地治療,并且能夠更加及時地對患者的治療方案進行有效地調(diào)整,能最終造福于肺腺鱗癌患者。
本研究存在一定的不足。因為肺腺鱗癌的發(fā)病率低,診斷相對困難,所以單靠單中心難以獲得足夠的數(shù)據(jù)樣本進行建模并驗證。且有許多的數(shù)據(jù)是較難從數(shù)據(jù)庫中進行獲得,比如血液標志物、免疫組化結果等。后續(xù)也更希望能夠通過多中心的合作,以納入更多的患者數(shù)以及更多的患者特征來建立一個更加完善以及準確的肺腺鱗癌骨轉移的預測模型。