李承圣, 包綺晗, 郝曉燕, 潘慶忠, 王素珍, 石福艷
(1. 濰坊醫(yī)學(xué)院公共衛(wèi)生學(xué)院衛(wèi)生統(tǒng)計(jì)學(xué)教研室,山東 濰坊 261053;2. 濰坊醫(yī)學(xué)院護(hù)理學(xué)院內(nèi)外科教研室,山東 濰坊 261053;3. 濰坊醫(yī)學(xué)院公共衛(wèi)生學(xué)院數(shù)學(xué)教研室,山東 濰坊 261053)
在世界范圍內(nèi)胰腺癌在癌癥死亡原因中位居第7 位,在消化系統(tǒng)惡性腫瘤死亡原因中位居第2 位,每年死亡30 多萬人[1]。2021年初由美國癌癥學(xué)會公布的數(shù)據(jù)[2]顯示:預(yù)計(jì)2021年美國新發(fā)胰腺癌病例60430 例,在男性新發(fā)惡性腫瘤中排名第10 位,女性中排名第8 位;預(yù)計(jì)死亡病例48220例,并居男性和女性惡性腫瘤死亡原因第4 位。全國腫瘤登記中心數(shù)據(jù)[3](基于2014年數(shù)據(jù))顯示:胰腺癌在我國惡性腫瘤發(fā)病率中排名第10 位,居惡性腫瘤死亡原因第6 位。胰腺導(dǎo)管腺癌(pancreatic ductal adenocarcinoma,PDAC)是最常見的胰腺癌類型,是一種由胰腺導(dǎo)管樹分化而來的腺體浸潤性腫瘤,占胰腺惡性腫瘤的95%以上[4],由于缺乏有效的輔助治療手段,目前根治性手術(shù)(根治性胰十二指腸切除術(shù)等)是胰腺癌首選的治療方案[4]。但由于胰腺癌自身的特殊解剖部位導(dǎo)致其發(fā)病隱匿且進(jìn)程快,加之其對放化療敏感性差,因此胰腺癌患者的預(yù)后極差,5年生存率僅為5%~10%[5]。因此,早期階段的生存預(yù)后預(yù)測對于改善胰腺癌患者的預(yù)后生存狀況極為重要。MAHAJAN 等[6]提出基于腫瘤的組織學(xué)特征對胰腺癌進(jìn)行預(yù)后預(yù)測;循環(huán)腫瘤DNA 被建議作為預(yù)測和后續(xù)治療轉(zhuǎn)移性胰 腺 導(dǎo) 管 腺 癌 (metastatic pancreatic ductal adenocarcinoma,mPDAC)的工具[7];YU 等[8]發(fā)現(xiàn)基于外泌體內(nèi)長鏈RNA 測序差異建立胰腺導(dǎo)管腺癌可切除階段的診斷工具有助于改善胰腺癌患者預(yù)后;張峻烽等[9]通過加權(quán)基因共表達(dá)網(wǎng)絡(luò)分析和單樣本基因富集分析構(gòu)建胰腺癌預(yù)后模型。目前,臨床上用于胰腺癌診斷和預(yù)測預(yù)后的指標(biāo)仍以癌抗原19-9(carbohydrate antigen 19-9,CA19-9)為主,但其靈敏度和特異度存在局限性,容易受到膽紅素水平、炎癥因子以及Lewis 抗原的影響[10]。因此,本研究旨在從美國國立癌癥研究所監(jiān)測、流行病學(xué)和結(jié)果數(shù)據(jù)庫[11](Surveillance,Epidemiology,and End Results,SEER) 中獲取胰腺癌的預(yù)后數(shù)據(jù),基于隨機(jī)森林算法構(gòu)建胰腺癌術(shù)后預(yù)測模型,通過該模型對胰腺癌患者術(shù)后5年生存情況進(jìn)行預(yù)測,以輔助臨床醫(yī)生改善胰腺癌患者的預(yù)后生存狀況。
1.1 研究對象數(shù)據(jù)來自SEER 數(shù)據(jù)庫。資料收集標(biāo)準(zhǔn):2004—2015年被確診為胰腺癌且5年內(nèi)因癌細(xì)胞致死和隨訪期滿5年仍存活的患者資料。納入標(biāo)準(zhǔn):①經(jīng)病理學(xué)確診為胰腺癌的患者;②組織學(xué)類型以國際腫瘤學(xué)疾病編碼(Histologic Type ICD-O-3)為分類標(biāo)準(zhǔn),將其限定在胰腺導(dǎo)管腺癌(8140、8480、8481、8490 和8500);③手術(shù)類型以原發(fā)部位手術(shù)信息[RX Summ-Surg Prim Site(1998+)]為分類標(biāo)準(zhǔn),將其限定在根治性手術(shù)(25-90);④記錄完整無空缺。排除標(biāo)準(zhǔn):①胰腺癌并不是唯一的腫瘤;②非胰腺癌的原因死亡;③資料不完整及不明確。經(jīng)過數(shù)據(jù)篩選最終納入4020 條胰腺癌患者記錄。見表1。
表1 胰腺癌患者預(yù)后變量信息Tab. 1 Prognostic variable information for pancreatic cancer patients (n=4020)
1.2 分析指標(biāo)綜合參考文獻(xiàn)[12-14]和其他相關(guān)研究[15],共納入年齡、性別、種族、腫瘤原發(fā)部位、腫瘤分化程度、是否化療、是否放療、淋巴結(jié)清掃數(shù)量、T 分期、N 分期、M 分期、婚姻狀況、腫瘤大小和淋巴結(jié)陽性比率(淋巴結(jié)陽性比率=淋巴結(jié)陽性個(gè)數(shù)/被檢淋巴結(jié)個(gè)數(shù))14 個(gè)變量作為預(yù)后因素,其中后2 項(xiàng)為連續(xù)型變量,其余為離散型變量。胰腺癌患者預(yù)后變量信息見表1。
為了構(gòu)建胰腺癌患者術(shù)后5年生存情況預(yù)測模型,根據(jù)5年生存狀況將結(jié)局變量劃分為二分類:生存時(shí)間≥60 個(gè)月者為存活編碼為1,生存時(shí)間<60 個(gè)月者為死亡編碼為0。
1.3 統(tǒng)計(jì)學(xué)分析采用R 4.0.5 軟件的“caret”包的“createDataPartition”函數(shù),按照7∶3 的比例將數(shù)據(jù)集隨機(jī)劃分為訓(xùn)練集和測試集。采用SPSS 21.0 統(tǒng)計(jì)軟件進(jìn)行數(shù)據(jù)的統(tǒng)計(jì)學(xué)分析,無序分類變量采用χ2檢驗(yàn),有序分類變量和連續(xù)型變量通過秩和檢驗(yàn)進(jìn)行2 組患者的預(yù)后因素比較。由于訓(xùn)練集中二分類結(jié)局變量存在明顯不平衡,會降低模型的效能,故采用R4.0.5 軟件的“DMwR”包的“SMOTE”函數(shù)解決結(jié)局變量不平衡問題。為提高模型的預(yù)測準(zhǔn)確性,對訓(xùn)練集采用傳統(tǒng)的統(tǒng)計(jì)學(xué)分析(單因素分析和多因素logistic 回歸分析)同時(shí)對平衡后數(shù)據(jù)集采用隨機(jī)森林變量重要性排名進(jìn)行特征變量選擇。 采用R 4.0.5 軟件的“randomForest”包的“randomForest”函數(shù)基于平衡后的數(shù)據(jù)集構(gòu)建隨機(jī)森林預(yù)測模型。利用測試集評估預(yù)測模型效能,并與logistic 回歸分析、支持向量機(jī)、決策樹和人工神經(jīng)網(wǎng)絡(luò)算法進(jìn)行比較。
2.1 訓(xùn)練集和測試集患者預(yù)后因素經(jīng)過數(shù)據(jù)集劃分,最終納入訓(xùn)練集患者2814 例,測試集患者1206 例。2 組預(yù)后因素比較差異無統(tǒng)計(jì)學(xué)意義(P>0.05)。見表2。
表2 訓(xùn)練集和測試集患者預(yù)后因素組間差異比較Tab. 2 Comparison of prognostic factors between training set and test set
續(xù)表
2.2 訓(xùn)練集的單因素分析訓(xùn)練集中的連續(xù)型變量 經(jīng) 單 樣 本Kolmogorov-Smirnov 檢 驗(yàn), 均P<0.05,不符合正態(tài)分布,因此對訓(xùn)練集中連續(xù)型變量采用秩和檢驗(yàn),而對分類變量采用χ2檢驗(yàn)。表3為單因素分析結(jié)果。
表3 訓(xùn)練集單因素分析結(jié)果Tab. 3 Single factor analysis results of training set
2.3 訓(xùn)練集的多因素分析訓(xùn)練集經(jīng)單因素分析后,采用Logistic 回歸分析進(jìn)行多因素分析。納入logistic 回歸分析的變量有年齡、腫瘤分化程度、是否化療、是否放療、T 分期、N 分期、M 分期、腫瘤大小和淋巴結(jié)陽性比率。多因素分析結(jié)果顯示:篩選出來的相關(guān)變量有腫瘤分化程度、是否化療、是否放療、T 分期、N 分期、腫瘤大小和淋巴結(jié)陽性比率。多因素分析結(jié)果見表4。
表4 訓(xùn)練集多因素Logistic 回歸分析結(jié)果Tab. 4 Results of multivariate Logistic regression analysis of training set
2.4 SMOTE 數(shù)據(jù)集經(jīng)過數(shù)據(jù)集劃分后的訓(xùn)練集中有2814 個(gè)樣本,其中少數(shù)類(存活=1,陽性樣本)與多數(shù)類(死亡=0,陰性樣本)樣本的比例約為1∶13。因此,作為結(jié)局變量的生存狀況存在二分類數(shù)據(jù)不平衡性,鑒于二分類數(shù)據(jù)集的不平衡性會影響機(jī)器學(xué)習(xí)建模的穩(wěn)定性,本文采用合成少數(shù)樣本過采樣技術(shù) (Synthetic Minority Oversampling Technique,SMOTE),以增加少數(shù)樣本數(shù)量,達(dá)到數(shù)據(jù)類別間的平衡。
SMOTE 函 數(shù) 的2 個(gè) 參 數(shù)perc. over 和perc.under 會影響新生成數(shù)據(jù)集的樣本量,perc.under 取值300 時(shí)會生成比例約為1∶3 的不平衡數(shù)據(jù)集,故perc. under 取 值 為100 或200[16]。為 了 盡 可 能 使 平衡數(shù)據(jù)集中多數(shù)類樣本量不大于原始訓(xùn)練集中多數(shù)類樣本量,當(dāng)perc.under 取值為100 時(shí),perc.over取值≤1300;當(dāng)perc. under 取值為200 時(shí),perc.over 取值≤600。根據(jù)上述參數(shù)取值,共生成19 個(gè)SMOTE 數(shù)據(jù)集,即平衡后數(shù)據(jù)集。
由于隨機(jī)森林算法內(nèi)部采用的是booststrap sample 采樣方法,每次采樣約有1/3 的樣本不會出現(xiàn)在bootstrap 所采集的樣本集合中,這些數(shù)據(jù)稱為袋外數(shù)據(jù)(out-of-bag,OOB),OOB Error 就是隨機(jī)森林泛化誤差的一個(gè)無偏估計(jì)[17]。綜合考慮陰性樣本分類錯(cuò)誤率、陽性樣本分類錯(cuò)誤率和袋外錯(cuò)誤率,本研究選擇SMOTE 數(shù)據(jù)集2 作為平衡后數(shù)據(jù)集進(jìn)行后續(xù)隨機(jī)森林算法建模。SMOTE 數(shù)據(jù)集信息見表5。
表5 SMOTE 數(shù)據(jù)集Tab. 5 SMOTE datasets
2.5 變量重要性排名基于平衡后數(shù)據(jù)集進(jìn)行隨機(jī)森林建模得到變量重要性排名,排序代表每個(gè)變量對模型的貢獻(xiàn)大小。見表6。
表6 變量重要性排名Tab. 6 Ranking of importance of variables
多因素分析未納入的變量年齡,在變量重要性排名中位次靠前,表明該變量對提升模型效能的作用較大,因此應(yīng)納入。“Mean Decrease Gini”代表使用某一個(gè)特征進(jìn)行分裂時(shí),GINI 系數(shù)下降的平均幅度,在特征類型(同時(shí)存在連續(xù)型變量和離散型變量)不一致以及特征變化范圍相差較大時(shí),結(jié)果的偏差明顯,因此以基于OOB 誤差的“Mean Decrease Accuracy” 為 主, 以 基 于 基 尼 系 數(shù) 的“Mean Decrease Gini”為輔,由于多因素分析結(jié)果為腫瘤分化程度、是否化療、是否放療、T 分期、N 分期、腫瘤大小和淋巴結(jié)陽性比率,最后選擇排名在前11 位的變量作為相關(guān)變量。以此11 個(gè)變量為基礎(chǔ),依次減去排名最后的變量,構(gòu)建不同模型,根據(jù)測試集上的模型效能確定最終高相關(guān)變量。
2.6 模型構(gòu)建根據(jù)變量重要性排名在前11 位變量的基礎(chǔ)上依次減去排名最后的變量生成4 個(gè)變量集,如下表7 所示?;谄胶夂髷?shù)據(jù)集,分別用4 個(gè)變量集構(gòu)建隨機(jī)森林模型,并用測試集對模型進(jìn)行評估,評估指標(biāo)為靈敏度、特異度、G-mean指數(shù)和受試者工作特征 (receiver operation characteristic, ROC) 曲 線 下 面 積(area under curve,AUC)。各模型評價(jià)指標(biāo)結(jié)果見表7。
表7 各模型評價(jià)指標(biāo)結(jié)果Tab. 7 Evaluation index results of each model
基于SMOTE 數(shù)據(jù)集2 構(gòu)建的隨機(jī)森林模型在不同數(shù)據(jù)集上的性能比較,見表8??梢钥闯鼋?jīng)過SMOTE 方法處理后的平衡后數(shù)據(jù)集在建模效果方面優(yōu)于原始數(shù)據(jù)集,這也從側(cè)面印證了二分類數(shù)據(jù)集的不平衡性會影響機(jī)器學(xué)習(xí)建模的穩(wěn)定性。
表8 不同數(shù)據(jù)集的隨機(jī)森林模型比較Tab. 8 Comparison of random forest models with different data sets
2.7 模型比較基于變量集2 和平衡后數(shù)據(jù)集,以logistic 回歸分析、支持向量機(jī)、決策樹和人工神經(jīng)網(wǎng)絡(luò)4 種機(jī)器學(xué)習(xí)方法分別構(gòu)建預(yù)測模型,利用測試集對4 種模型進(jìn)行分類預(yù)測,結(jié)果顯示:基于隨機(jī)森林算法構(gòu)建的預(yù)測模型各項(xiàng)指標(biāo)均優(yōu)于logistic 回歸分析、支持向量機(jī)、決策樹和人工神經(jīng)網(wǎng)絡(luò)。模型比較結(jié)果見表9。
表9 模型比較結(jié)果Tab. 9 Model comparison results
胰腺癌被稱為“癌中之王”,是最具危險(xiǎn)性的惡性腫瘤之一。近幾十年來,得益于胰腺癌外科治療和診斷技術(shù)取得的進(jìn)展,胰腺癌圍手術(shù)期死亡率及其術(shù)后并發(fā)癥發(fā)生率均有大幅下降,但是由于胰腺癌的自身特點(diǎn),胰腺癌患者術(shù)后遠(yuǎn)期生存率無明顯突破[18]。早期階段的生存預(yù)后預(yù)測對于改善胰腺癌患者的預(yù)后生存狀況顯得尤為重要。
隨著人工智能在醫(yī)學(xué)研究領(lǐng)域的不斷應(yīng)用,機(jī)器學(xué)習(xí)技術(shù)在腫瘤相關(guān)研究方面取得了巨大的進(jìn)步。但腫瘤預(yù)測涉及各方面因素,復(fù)雜程度遠(yuǎn)高于傳統(tǒng)的預(yù)測模型,基于機(jī)器學(xué)習(xí)的算法模型可以發(fā)現(xiàn)和識別多維因素之間的不同模式和非線性關(guān)系,從而對結(jié)果進(jìn)行準(zhǔn)確預(yù)測[13]。QIU 等[19]利用機(jī)器學(xué)習(xí)算法根據(jù)CT 檢查結(jié)果預(yù)測胰腺癌病理分級;馬作紅等[20]基于控制營養(yǎng)狀況評分構(gòu)建晚期胰腺癌患者預(yù)后預(yù)測模型;BRADLEY 等[21]利用貝葉斯網(wǎng)絡(luò)對胰腺癌切除術(shù)后不良預(yù)后結(jié)果進(jìn)行個(gè)性化預(yù)測;吳君君[13]利用機(jī)器學(xué)習(xí)算法建立胰腺癌遠(yuǎn)處轉(zhuǎn)移預(yù)測模型;邢曉蕊[22]基于機(jī)器學(xué)習(xí)算法建立胰腺癌診斷的預(yù)測模型。
在本研究中,只有6.3%的胰腺癌患者確診時(shí)年齡小于50 歲,這與前期的研究[23-24]結(jié)果一致,年齡是導(dǎo)致胰腺癌預(yù)后差的重要因素。經(jīng)過傳統(tǒng)的統(tǒng)計(jì)學(xué)分析,腫瘤分化程度、是否化療、是否放療、T 分期、N 分期、腫瘤大小和淋巴結(jié)陽性比率均是影響胰腺癌患者整體存活的獨(dú)立預(yù)后因素。而在隨機(jī)森林變量重要性排名結(jié)果顯示:淋巴結(jié)陽性比率對胰腺癌患者存活的影響最大。由于傳統(tǒng)的腫瘤分期系統(tǒng)只計(jì)算陽性淋巴結(jié)的數(shù)目,這些陽性淋巴結(jié)的來源不同,因此患者在術(shù)后可能發(fā)生階段性轉(zhuǎn)移的現(xiàn)象[25],因此淋巴結(jié)陽性比率被提出作為新的預(yù)后因素[26],這與方向等[27]的研究結(jié)果相符,淋巴結(jié)陽性比率是影響胰腺癌患者預(yù)后的重要因素。多項(xiàng)研究[28-29]也證明:腫瘤分化程度、T 分期和N 分期等與胰腺癌患者總體生存的不良預(yù)后有關(guān)。
本研究基于SEER 數(shù)據(jù)庫,借助SMOTE 方法,通過對特征變量進(jìn)行選擇,最終選擇影響患者生存情況的10 項(xiàng)預(yù)后因素,利用隨機(jī)森林方法建立胰腺癌患者術(shù)后5年生存情況預(yù)測模型,對患者術(shù)后5年的生存情況進(jìn)行研究。通過與logistic 回歸分析、支持向量機(jī)、決策樹和人工神經(jīng)網(wǎng)絡(luò)算法進(jìn)行比較,本研究結(jié)果顯示:利用隨機(jī)森林算法建立的胰腺癌術(shù)后預(yù)測模型在各項(xiàng)指標(biāo)上均優(yōu)于目前常用的機(jī)器學(xué)習(xí)方法。
本研究的不足之處在于未對SEER 數(shù)據(jù)庫中與胰腺癌預(yù)后相關(guān)的所有變量進(jìn)行研究,只根據(jù)文獻(xiàn)提取了與預(yù)后相關(guān)的14 個(gè)變量,故本研究的模型變量具有一定的主觀性與限制性。為了提高模型的準(zhǔn)確性,在未來的研究中可以考慮對更多的變量進(jìn)行研究。
吉林大學(xué)學(xué)報(bào)(醫(yī)學(xué)版)2022年2期