亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于重采樣和集成學(xué)習(xí)的彌漫大B細胞淋巴瘤患者復(fù)發(fā)風(fēng)險預(yù)測模型*

        2019-09-17 11:55:50趙志強余紅梅鄭楚楚黃雪倩武淑琴羅艷虹
        中國衛(wèi)生統(tǒng)計 2019年4期
        關(guān)鍵詞:決策樹靈敏度準確率

        王 蕾 趙志強 余紅梅 鄭楚楚 黃雪倩 武淑琴△ 羅艷虹△

        【提 要】 目的 對某腫瘤醫(yī)院血液科2011-2015年283名彌漫大B細胞淋巴瘤患者進行達到完全緩解后三年內(nèi)的復(fù)發(fā)風(fēng)險預(yù)測,為患者三年內(nèi)的復(fù)發(fā)情況提供參考。方法 用logistic回歸進行復(fù)發(fā)影響因素分析。采用重采樣(包括SMOTE等三種方法)處理不平衡數(shù)據(jù),同時基于boosting集成分別構(gòu)建C5.0決策樹、SVM和logistic回歸復(fù)發(fā)風(fēng)險預(yù)測模型。結(jié)果 由logistic回歸可知,Ki-67(P=0.006,OR=1.826)、LDH是否升高(P=0.012,OR=2.084)、原發(fā)縱膈腫物(P=0.033,OR=0.333)及疾病等級(P=0.001,OR=1.605)是彌漫性大B細胞淋巴瘤患者三年復(fù)發(fā)的重要影響因素。通過將訓(xùn)練集與測試集回代對各種模型性能進行評價,并用五種評價指標的比較模型性能可知,集成模型均優(yōu)于其對應(yīng)的單個學(xué)習(xí)器;平衡后數(shù)據(jù)構(gòu)建模型性能均優(yōu)于未平衡數(shù)據(jù)構(gòu)建模型,其中SMOTE最優(yōu);在測試集驗證的模型中,經(jīng)過SMOTE平衡數(shù)據(jù)構(gòu)建SVMBOOST集成模型(準確率=0.93,F(xiàn)值=0.94,AUC=0.93,Rmse=0.26,G-mean=0.93,靈敏度=0.97)和C5.0BOOST模型(準確率=0.94,F(xiàn)值=0.95,AUC=0.94,RMSE=0.24,G-mean=0.94,靈敏度=0.94),均有較優(yōu)的表現(xiàn)。結(jié)論 基于重采樣和集成學(xué)習(xí)構(gòu)建的經(jīng)過SMOTE平衡后SVMBOOST模型達到預(yù)期效果。

        彌漫大B細胞淋巴瘤(diffuse large B cell lymphoma,DLBCL)是最常見的非霍奇金淋巴瘤(non-Hodgkin lymphoma,NHL),它在每年新診斷的成人非霍奇金淋巴瘤(NHL)中占30%至40%。雖然R-CHOP(利妥昔單抗Rituximab+環(huán)磷酰胺Cyclophosphamide、阿霉素[羥基柔紅霉素]Doxorubicin、長春新堿Vincristine和強的松Prednisone)化療方案是目前的標準治療方法,對于疾病等級Ⅲ、Ⅳ級的患者都有較好的療效,患者生存率為60%~90%。但仍存在30%到50%患者對該方案耐藥,進而使達到完全緩解(complete remission,CR)后的患者有30%復(fù)發(fā)[1-2]。復(fù)發(fā)使患者的生存率降到10%~20%。本研究意在對達到完全緩解的患者的復(fù)發(fā)風(fēng)險進行預(yù)測并探究影響患者復(fù)發(fā)的危險因素。因30%到50%復(fù)發(fā)率造成數(shù)據(jù)的不平衡,故而需對數(shù)據(jù)進行重采樣使其平衡[3]。將經(jīng)過重采樣數(shù)據(jù)與未平衡數(shù)據(jù)所構(gòu)建的預(yù)測模型的性能進行比較。

        傳統(tǒng)用于風(fēng)險預(yù)測的模型是logistic回歸,由于影響DLBCL患者復(fù)發(fā)因素錯綜復(fù)雜,目前尚無定論,故判定患者的復(fù)發(fā)風(fēng)險需要收集大量特征。大量文獻表明C5.0算法是在輸入字段(即患者特征)較多的問題中表現(xiàn)較穩(wěn)健,處理的數(shù)據(jù)類型可包括連續(xù)型和離散型,分類速度快、精度高,可生成易于理解的分類規(guī)則,故本研究采用C5.0決策樹構(gòu)建模型[4-5]。因支持向量機(support vector machine,SVM)針對小樣本、非線性、高維數(shù)的數(shù)據(jù)具有較好的預(yù)測性能[6],故選擇SVM構(gòu)建預(yù)測模型。并將以上模型與傳統(tǒng)logistic模型比較。以上模型均為弱學(xué)習(xí)算法,訓(xùn)練集中較小波動都會使模型預(yù)測結(jié)果產(chǎn)生較大變化,而boosting集成通過賦予弱學(xué)習(xí)器不同權(quán)重的方法有效地提高模型性能,本研究采用集成學(xué)習(xí)[7],以便使構(gòu)建模型為臨床醫(yī)生對患者三年內(nèi)復(fù)發(fā)風(fēng)險及相關(guān)危險因素提供更為有效預(yù)測。

        資料與方法

        本研究數(shù)據(jù)來源于某醫(yī)院2011-2015年被診斷為DLBCL并通過一線化療方案達到完全緩解病例共283例,其中三年內(nèi)復(fù)發(fā)人數(shù)為71例。根據(jù)《2013年中國彌漫大B細胞淋巴瘤診斷與治療指南》[20](中華醫(yī)學(xué)會血液學(xué)分會,2013)及電子病歷記錄情況,收集每個樣本的15個變量。具體變量名稱及賦值見表1。首先錄入到Epidata3.0軟件中,采用雙錄入方式,并逐一核對。表1中可見未復(fù)發(fā)患者幾乎是復(fù)發(fā)者的三倍,故而需平衡數(shù)據(jù)后再進行預(yù)測。

        原理及方法

        本研究分別用欠采樣(under-sample)、過采樣(over-sample)與少類樣本合成過采樣技術(shù)(synthetic over-sampling techniques for small samples,SMOTE)采樣對數(shù)據(jù)進行數(shù)據(jù)平衡化,分別帶入C5.0決策樹、支持向量機和logistic回歸中構(gòu)建模型。之后分別用boosting集成,構(gòu)成C5.0-boosting集成模型,SVM-boosting集成模型和logistic-boosting集成模型。

        1.抽樣工作原理及過程

        對于不平衡數(shù)據(jù)主要采用重采樣的方法,重采樣方法可分為兩個層面:(1)數(shù)據(jù)層面包括過采樣及欠采樣,過采樣通過增加少數(shù)類中的樣本數(shù)使數(shù)據(jù)集達到平衡,欠采樣則是通過減少多數(shù)類平衡數(shù)據(jù)集;(2)算法層面包括SMOTE、隨機過采樣等,其中SMOTE是由Chawla于2002年提出的[8],其主要思想是通過在一些位置相近的少數(shù)類樣本中插入增加新的并不存在的樣本點,而非簡單復(fù)制已有樣本點。此法可有效避免“過擬合”問題[9]。本研究中使用R軟件中DMwR包中SMOTE語句實現(xiàn),其中設(shè)定perc.over=500,perc.under=100。使用R軟件中ROSE包中ovun.sample語句并設(shè)定method選項以實現(xiàn)欠采樣與過采樣。

        表1 283例彌漫大B細胞淋巴瘤患者基本特征及賦值

        2.支持向量機工作原理

        將訓(xùn)練數(shù)據(jù)集非線性映射到高維空間(Hilbert空間),以便將原先線性不可分數(shù)據(jù)集變?yōu)榫€性可分。并在特征空間中建立最大間距最優(yōu)分離超平面,使最優(yōu)超平面與兩類樣本間距離最大[12-14]。其中結(jié)構(gòu)風(fēng)險最小化思想使學(xué)習(xí)器經(jīng)驗風(fēng)險與泛化誤差均較小。本研究利用R軟件中kernlab包實現(xiàn)中的ksvm語句,其中kernel選項設(shè)定為rbfdot,即為高斯核。

        3.C5.0決策樹工作原理

        C5.0決策樹算法較C4.5決策樹[10-11]加入boosting過程,其分類依據(jù)為信息增益(information gain),通過信息增益最大字段對樣本數(shù)據(jù)分割。通過裁剪合并所得決策樹各節(jié)點確定最佳閾值。本研究利用R軟件中C50包中的C5.0語句,若需要對C5.0決策樹進行boosting集成時,設(shè)定語句中的trials選項,本研究中將其設(shè)為10。

        4.集成學(xué)習(xí)工作原理及過程

        集成學(xué)習(xí)是由多個單個弱學(xué)習(xí)組成一個強學(xué)習(xí)器,由同一種弱學(xué)習(xí)器組成的強學(xué)習(xí)器稱為同型集成模型。由兩種及以上弱學(xué)習(xí)器組成的強學(xué)習(xí)器稱為異型集成模型。本研究中采用boosting算法進行同型集成。boosting集成算法是一種迭代算法,其主要思想是利用重采樣的技術(shù)對訓(xùn)練集樣本進行采樣形成多個樣本子集,將每個樣本子集帶入模型訓(xùn)練得到一個弱分類器,以每個弱分類器錯誤率計算每個樣本的權(quán)值,根據(jù)權(quán)重投票表決加權(quán)求和,最終形成一個強分類器[15]。本研究中對SVM及l(fā)ogistic的集成均是由R軟件caret包中train語句實現(xiàn)。

        本研究使用SPSS 22.0進行l(wèi)ogistic回歸分析,后使用R軟件進行數(shù)據(jù)平衡與模型構(gòu)建。針對所構(gòu)建的模型主要使用準確率、靈敏度、F值、G-mean、RMSE及AUC等評價指標進行模型評價。

        結(jié) 果

        1.logistic回歸結(jié)果

        將以上變量納入logistic回歸模型中采用向前似然估計方法,構(gòu)建關(guān)于DLBCL患者三年復(fù)發(fā)風(fēng)險預(yù)測模型,結(jié)果見表2。

        表2 logistic回歸結(jié)果

        由logistic回歸結(jié)果可知LDH是否升高的比值比(OR)最高,OR=2.084其95%CI為(1.178~3.686),說明LDH升高的患者的三年復(fù)發(fā)風(fēng)險是正常患者的2.084倍。其次為生化指標Ki-67,OR=1.826其95%CI為(1.188~2.806),說明生化指標Ki-67大于70%患者的復(fù)發(fā)風(fēng)險比小于70%的患者高82.6%。疾病等級的OR=1.605其95%CI為(1.208~2.133),說明患者疾病等級每升高一級其復(fù)發(fā)風(fēng)險增加60.5%。原發(fā)縱膈腫瘤的OR=0.333其95%CI為(0.121~0.912),說明原發(fā)縱隔DLBCL腫瘤預(yù)后較好,較原發(fā)其他部位的患者復(fù)發(fā)風(fēng)險降低66.67%。

        2.運用重采樣與boosting集成后的C5.0決策樹、支持向量機與logistic模型

        對數(shù)據(jù)分別進行循環(huán)采樣及模型構(gòu)建各1000次,并將訓(xùn)練集與測試集分別代入模型進行驗證,選取以下六個指標對模型進行評價,篇幅所限,僅給出使用測試集的驗證模型評價結(jié)果,見表3。(其中用1代表未平衡的數(shù)據(jù),2代表經(jīng)過欠采樣,3代表經(jīng)過過采樣,4代表經(jīng)過SMOTE采樣)

        表3 測試集驗證模型評價

        測試模型中,C5.0BOOST4模型(準確率=0.94,F(xiàn)值=0.95,AUC=0.94,RMSE=0.24,G-mean=0.94,)及SVMBOOST4模型(準確率=0.93,F(xiàn)值=0.94,AUC=0.93,RMSE=0.26,G-mean=0.94),兩種模型表現(xiàn)較優(yōu)。

        現(xiàn)以AUC為例,對模型的整體效果進行評價。由圖1可知集成模型較各自單個學(xué)習(xí)器性能好,同時經(jīng)過重采樣后的數(shù)據(jù)構(gòu)建模型較未平衡的數(shù)據(jù)構(gòu)建有較好的性能,其中SMOTE采樣方法又優(yōu)于過采樣與欠采樣的模型結(jié)果。由于本研究考慮患者的復(fù)發(fā)風(fēng)險,故而復(fù)發(fā)病例為陽性組,進而采用靈敏度這一針對陽性組預(yù)測準確率的指標進一步對模型進行評估。意在觀察該模型的針對訓(xùn)練集的記憶能力與針對測試集的預(yù)測能力,結(jié)果見圖1。

        由圖2可知,所有模型中訓(xùn)練模型靈敏度均優(yōu)于測試模型,平衡后數(shù)據(jù)所構(gòu)建模型靈敏度均高于未平衡數(shù)據(jù)所建模型。通過平衡后數(shù)據(jù)中,采用SMOTE平衡后SVMBOOST模型對訓(xùn)練集的靈敏度為0.99,對測試集的靈敏度為是0.97,在兩種情況下靈敏度均最優(yōu)。

        討 論

        1.DLBCL患者三年復(fù)發(fā)情況預(yù)測

        經(jīng)過logistic回歸共有Ki-67、LDH、原發(fā)縱膈腫瘤及疾病等級四個因素進入模型。其中除原發(fā)縱膈腫瘤患者預(yù)后好于其他型DLBCL患者外,其余均為復(fù)發(fā)危險因素。Ki-67 抗原是Gerdes等[16]于1984 年發(fā)現(xiàn)的一種與細胞增殖相關(guān)的核抗原,因其可以反映腫瘤細胞增殖活性,而成為目前應(yīng)用最廣泛的細胞增殖標記物之一。當前國內(nèi)外已有大量文獻證明Ki-67高表達與DLBCL患者預(yù)后密切相關(guān)[17-19],目前該指標已是美國國立綜合癌癥網(wǎng)絡(luò)(National Comprehensive Cancer Network,NCCN)指南的必測指標,但其在患者預(yù)后及指導(dǎo)治療方面尚無明確作用。

        LDH即乳酸脫氫酶,其與疾病等級、年齡、結(jié)外受累數(shù)目、體能指數(shù)共同構(gòu)成重要的預(yù)后因素IPI指數(shù)[20],其中LDH升高、疾病等級增高都會使IPI增大,說明患者預(yù)后差,與本研究結(jié)果一致。

        原發(fā)縱隔腫瘤(primary mediastinal large B-cell lymphoma,PMBL)由Lichtenstein等于1980年首次提出[21],是DLBCL中的一種特殊亞型,大量文獻報道其預(yù)后好于DLBCL,初治緩解后2年復(fù)發(fā)率低于DLBCL,與本研究結(jié)果一致。但其復(fù)發(fā)后使用R-CHOP治療效果差,再難緩解,已成為目前一大挑戰(zhàn)[22-23]。

        圖1 訓(xùn)練與測試集AUC比較

        圖2 訓(xùn)練與測試集靈敏度比較

        本研究中對患者的復(fù)發(fā)情況進行預(yù)測時構(gòu)建模型與logistic模型相仿,故提前設(shè)定患者復(fù)發(fā)時間為三年內(nèi)。但是患者達到完全緩解到復(fù)發(fā)之間的時間也是可能影響患者復(fù)發(fā)的重要因素,目前已經(jīng)有關(guān)于使用貝葉斯、決策樹、SVM及神經(jīng)網(wǎng)絡(luò)模型構(gòu)建Cox生存分析模型[27-28],目前Cox模型滿足的比例風(fēng)險假定對數(shù)據(jù)的要求過于嚴苛,機器學(xué)習(xí)對數(shù)據(jù)限制較少而被許多國內(nèi)外學(xué)者應(yīng)用于生存分析問題中[29],下一步我們計劃就患者復(fù)發(fā)過程構(gòu)建生存分析模型,從而進一步研究更為長期的患者情況。

        2.模型分析

        SMOTE采樣后的數(shù)據(jù)構(gòu)建模型性能好,與其采樣原理密切相關(guān),目前已有大量對SMOTE采樣進行改良的方法,其中大多是應(yīng)用混合采樣的原理,有待進一步進行模型性能比較。

        本研究中將靈敏度作為模型重要評價指標,利用重采樣平衡后數(shù)據(jù)構(gòu)建模型性能好于未平衡數(shù)據(jù),有效地解決了因復(fù)發(fā)病例少,特征較多,靈敏度無法提高的問題。

        boosting集成模型好于其對應(yīng)的單個學(xué)習(xí)器,因其是由多個弱學(xué)習(xí)器投票產(chǎn)生的強學(xué)習(xí)器,其他提高學(xué)習(xí)器性能的方法包括bagging集成、代價敏感等學(xué)習(xí)方法,Qi Wang等在2017年[26]用經(jīng)過SMOTE采樣數(shù)據(jù)構(gòu)建SVM bagging集成模型的性能優(yōu)于隨機欠采樣與隨機過采樣等方法,靈敏度為87.1%,與本研究結(jié)果一致。但SMOTE模型的其他性能不如其基于邊界信息SMOTE采樣得到的模型,故可進一步進行采樣方法比較。本研究表明單模型與集成模型中SVM模型具有穩(wěn)健性,靈敏度高,泛化能力強的特性,相比于Yuan Sui等在2014年的研究[24]中同樣采用SMOTE平衡后的數(shù)據(jù)構(gòu)建的SVM模型的準確率為92.2%,好于本研究的結(jié)果;而本研究結(jié)果優(yōu)于胡明偉等在2017年[25]構(gòu)建的準確率為82.4%,靈敏度為77.2%的SVM模型。目前已有大量對SVM的改良模型,下一步計劃對此類模型進行比較,從而使預(yù)測準確率、模型靈敏度進一步提高。

        猜你喜歡
        決策樹靈敏度準確率
        乳腺超聲檢查診斷乳腺腫瘤的特異度及準確率分析
        健康之家(2021年19期)2021-05-23 11:17:39
        不同序列磁共振成像診斷脊柱損傷的臨床準確率比較探討
        2015—2017 年寧夏各天氣預(yù)報參考產(chǎn)品質(zhì)量檢驗分析
        一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
        導(dǎo)磁環(huán)對LVDT線性度和靈敏度的影響
        決策樹和隨機森林方法在管理決策中的應(yīng)用
        電子制作(2018年16期)2018-09-26 03:27:06
        高速公路車牌識別標識站準確率驗證法
        地下水非穩(wěn)定流的靈敏度分析
        基于決策樹的出租車乘客出行目的識別
        穿甲爆破彈引信對薄弱目標的靈敏度分析
        欧美xxxxx高潮喷水| 大肉大捧一进一出视频出来呀| 欧美日韩国产码高清综合人成 | 成人爽a毛片在线播放| 天堂8在线新版官网| 99久久人妻精品免费二区| 亚洲av无码国产剧情| 中文字幕永久免费观看| 麻豆视频在线观看免费在线观看| 国家一级内射高清视频| 国产精品久久国产精品99 gif| 亚欧免费无码aⅴ在线观看| 国产99久久久久久免费看| 亚洲成av人在线观看无堂无码 | 少妇人妻精品一区二区三区视 | av无码一区二区三区| 亚洲看片lutube在线观看| 国产成人午夜精品免费视频| 成人国产自拍在线播放| 丰满少妇被猛进去高潮| 天下第二社区在线视频| 亚洲欧美日韩中文无线码| 91福利精品老师国产自产在线| 国内偷拍第一视频第一视频区| 久久精品女同亚洲女同| 一区二区三区国产免费视频 | 国产免费精品一品二区三| 四虎成人精品在永久免费| 越南女子杂交内射bbwbbw| 狠狠色丁香婷婷久久综合2021| 免费看黄视频亚洲网站 | 小黄片免费在线播放观看| 亚洲综合中文字幕综合| 久久久国产精品黄毛片| 国产熟女亚洲精品麻豆| 亚洲天堂av社区久久| 国产精品内射久久一级二| 亚洲av无码乱码国产精品| 国产精品一区二区在线观看99| 亚洲一区二区日韩在线| 国产乱人无码伦av在线a|