亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于層次分類法的彌漫大B細胞淋巴瘤的疾病進展階段多分類預測研究*

        2021-05-08 05:54:56黃雪倩張巖波鄭楚楚余紅梅范雙龍陽楨寰趙志強羅艷虹
        中國衛(wèi)生統(tǒng)計 2021年2期
        關鍵詞:分類法復發(fā)性難治性

        黃雪倩 張巖波 王 蕾 鄭楚楚 余紅梅 范雙龍 陽楨寰 邢 蒙 趙志強 羅艷虹Δ

        【提 要】 目的 對山西省某醫(yī)院2011-2017年確診為彌漫大B細胞淋巴瘤(diffuse large B-cell lymphoma,DLBCL)患者進行疾病進展階段多分類預測,為患者是否需要及時轉為二線挽救治療或放療等治療手段的選擇提供參考。方法 用層次分類法將三分類的疾病進展階段進行兩層二分類,分別進行變量篩選后,用SMOTE過采樣處理數(shù)據(jù)中的類別不平衡問題,然后使用SVM、BP神經(jīng)網(wǎng)絡、隨機森林等單分類器模型與AdaBoost同型集成和Stacking異型集成方法分別構建兩層疾病進展階段的二分類預測模型,最后分別選擇兩層中分類性能最優(yōu)的模型并結合在一起。結果 使用經(jīng)SMOTE平衡后的數(shù)據(jù)構建的兩層分類模型中的SVMboost集成模型,準確率分別為0.951和0.972,模型性能均為最優(yōu),因此兩層二分類的基分類器均選擇SVMboost。結論 本研究構建彌漫大B細胞淋巴瘤患者疾病進展階段的層次多分類預測模型,其中兩層分類模型中的SVMboost集成模型性能均為最優(yōu),將兩層二分類的基分類器結合后,準確率為0.924,高于作為對比的直接多分類模型,為臨床工作者的診斷與治療方案選擇提供一定參考。

        彌漫大B細胞淋巴瘤(diffuse large B-cell lymphoma,DLBCL)是非霍奇金淋巴瘤(non-Hodgkinlymphoma,NHL)中最常見的亞型,占所有NHL的30%~40%[1],是一組具有高度異質性的惡性腫瘤,常呈進展性。目前利妥昔單抗+環(huán)磷酰胺、阿霉素、長春新堿和強的松(R-CHOP)是DLBCL的化療首選方案,大部分患者經(jīng)治療后可以達到完全緩解(complete remission,CR)。但仍有部分患者在治療中病情進展或緩解后早期復發(fā)(緩解期小于一年),且復發(fā)后治療反應率較低,反應持續(xù)時間較短,最終轉變?yōu)殡y治性DLBCL,成為DLBCL主要死亡原因[2-3]。針對復發(fā)性和難治性DLBCL,臨床上研發(fā)了很多二線挽救治療方案,能有效延長患者的總生存期(overall survival,OS),提高患者生存質量。自體造血干細胞移植和低劑量姑息性放療等方法[4]對難治性侵襲性淋巴瘤也有一定效果。復發(fā)性和難治性DLBCL通常對一線治療方案不敏感或產(chǎn)生耐藥性,若不能準確地對疾病進展階段進行判斷,重復地對其進行無用治療,不僅會錯過最好的二線挽救治療時機,還會給患者帶來一定的心理負擔和經(jīng)濟負擔。因此,對DLBCL疾病的進展階段進行精確的分類預測有較大的現(xiàn)實意義。

        資料來源

        本研究數(shù)據(jù)來自于山西省某醫(yī)院2011-2017年被確診為DLBCL的患者,共384例。其中復發(fā)性DLBCL是指初次化療獲得完全緩解后復發(fā)的淋巴瘤,共74例;難治性DLBCL是指滿足以下任何一項:①經(jīng)標準方案規(guī)范化療 4 個療程,腫瘤縮小<50%或病情進展;②經(jīng)標準方案化療達CR,但半年內(nèi)復發(fā);③CR后2次或2次以上復發(fā);④造血干細胞移植后復發(fā),共38例;剩余病例為一般性DLBCL[5],共272例。因不同疾病進展階段的病例數(shù)量差距較大,造成了數(shù)據(jù)的不平衡,因此需要對數(shù)據(jù)進行過采樣使其平衡。本文采用的過采樣方法是SMOTE算法。

        原理及方法

        1.類別不平衡數(shù)據(jù)

        SMOTE(synthetic minority over-sampling technique)[6]算法在2002年被提出并得到認可,它的基本思想是通過人工合成新的少數(shù)類樣本來降低類別不平衡性。具體做法是:假設鄰近參數(shù)為k,首先從每個少數(shù)類樣本的x個同類最近鄰中隨機選擇k個樣本;然后將每個少數(shù)類樣本分別與選中的k個樣本按式(1)合成k少數(shù)類新樣本;最后,將新樣本添加至訓練樣本集中,形成新的訓練樣本集[7]。

        xnew=x+δ(y[i]-x)

        (1)

        式中:xnew為合成的新樣本;x為少數(shù)類樣本;δ為0到1之間的隨機數(shù);y[i]為x的第i個近鄰樣本。

        在 SMOTE 算法中,鄰近參數(shù)k是否能夠合理設置將直接影響最終的分類性能。通常設置鄰近參數(shù)k=5。

        本研究中SMOTE使用R軟件中DMwR包SMOTE語句實現(xiàn),其中設perc.over=500,perc.under=100。

        2.分類模型

        多分類的本質是多次二分類,包括直接法和間接法。直接法是直接在目標函數(shù)上修改,將多個分類面的參數(shù)求解合并到一個最優(yōu)化問題中,通過求解該最優(yōu)化問題一次性實現(xiàn)多分類。該方法看似簡單,但其計算復雜度較高,且沒有通用的多分類求解法,需要根據(jù)具體問題設計策略,實現(xiàn)起來較困難,且分類準確率不高;間接法主要是通過組合多個二分類器來實現(xiàn)多分類器的構造,常見的方法有“一對一”(one-versus-one,OVO)、“一對其余”(one-versus-rest,OVR)和層次分類法等。

        (1)層次分類法原理

        本文采用的是層次分類法[8-9],其原理是第一層將所有類分為一級子類,第二層再將一級子類進一步分為二級子類,直到能夠區(qū)分所有類別為止。圖1為包含四個類別的兩種層次結構。圖1(a)是完全二叉樹,它在每個決策節(jié)點將所包含的類別分為兩個包含類別數(shù)目相同的子類;圖1(b)是偏二叉樹,它在每個決策節(jié)點將一類與其他所有類別分開。

        圖1 層次分類法結構

        針對本研究數(shù)據(jù),使用偏二叉樹層次結構,即先將所有病例分為一般性DLBCL和復發(fā)性/難治性DLBCL兩類,然后再將復發(fā)性/難治性DLBCL分為復發(fā)性DLBCL和難治性DLBCL兩類,最終將所有病例分為一般性DLBCL、復發(fā)性DLBCL和難治性DLBCL三類。

        (2)層次分類法基分類器的選擇

        在本研究中,層次分類法將三分類的DLBCL疾病進展階段數(shù)據(jù)分為兩層二分類。在每層二分類中,首先應用支持向量機[10]、BP神經(jīng)網(wǎng)絡[11]、隨機森林[12]等單分類器構建二分類模型;然后,分別應用上述單分類器構建集成學習二分類模型,集成方法主要包括AdaBoost集成[13]和Stacking集成[14],并將集成模型與各個單分類器的分類性能進行比較;最后分別選擇兩層中分類性能最優(yōu)的模型并組合在一起,即完成層次分類法基分類器的選擇。

        (3)構建模型

        為進一步證實層次分類法的分類性能,本文應用可進行直接多分類的單分類器(SVM、隨機森林和BP神經(jīng)網(wǎng)絡)構建直接三分類模型,并應用上述單分類器構建AdaBoost集成模型和Stacking集成模型,分別將其分類性能與層次分類法進行對比。

        ①直接多分類

        分別從一般性、復發(fā)性和難治性DLBCL三類中各隨機抽取三分之一樣本合并,作為測試集;其余樣本作為訓練集,訓練集用于構建模型,測試集用于測試模型的分類準確率,重復采樣并構建模型100次。

        ②層次分類法

        將三分類的疾病進展階段分為兩層二分類。第一層分別從一般性DLBCL和復發(fā)/難治性DLBCL兩類中各隨機抽取三分之一樣本合并,作為測試集,其余樣本作為訓練集,訓練集用于構建模型,測試集用于測試模型的分類準確率,重復采樣并構建模型100次;第二層從復發(fā)性DLBCL和難治性DLBCL兩類中抽樣,其余同上所述。

        3.評價指標

        本研究采用準確率(accuracy)[7]、靈敏度(sensitivity)、F值、ROC曲線下面積(AUC)和G-means值作為評價指標。由于AUC、F值、G-means一般僅適用于二分類問題,因此本研究中,上述指標用于兩層二分類最優(yōu)模型的選擇,準確率作為經(jīng)典直接多分類器和層次分類法的對比評價指標。

        每個分類器的結果可以分為真陽性(TP)、真陰性(TN)、假陽性(FP)和假陰性(FN)四類。由此可得以下的公式:

        (2)

        (3)

        (4)

        (5)

        由式(3),(4),(5)可得出F值和G-means的表達式為:

        (6)

        (7)

        F值既考慮精度(正確陽性結果的數(shù)量除以所有陽性結果的數(shù)量),也考慮召回率(正確陽性結果的數(shù)量除以應該返回的陽性結果的數(shù)量)。只有精度和召回率都比較高的前提下,F(xiàn)值才會高。G值綜合考慮了少數(shù)類和多數(shù)類的分類性能,必須滿足多數(shù)類和少數(shù)類樣本正確率的值同時高,G值才會高。受試者工作特征曲線(receiver operating characteristic curve,ROC)是在平面上以假陽性率(FPR)為橫坐標,以真陽性率(TPR)為縱坐標所畫的一條曲線,橫坐標FPR和縱坐標TPR可由下式計算得出:

        (8)

        (9)

        4.變量篩選

        病例信息來自于醫(yī)院的電子病例,包括一般情況、病理信息、CT/PET-CT影像數(shù)據(jù)和治療方案等100余個變量。結合《2013年中國彌漫大B細胞淋巴瘤診斷與治療指南》[15],對兩層二分類分別進行變量重要性排序,篩選出前18個與疾病進展階段分類相關的變量。圖2為前30個變量的重要性排序(其中1為原發(fā)部位,2為繼發(fā)部位)。

        圖2 變量重要性排序

        結 果

        1.直接多分類

        表1為三種單分類器及其構建的集成模型的直接多分類結果,用分類準確率作為評價指標。

        表1 直接多分類準確率

        由表1可知,三種單分類器中,隨機森林分類準確率最高,BP神經(jīng)網(wǎng)絡和SVM準確率相差不多;各單分類器的AdaBoost集成模型分類準確率較單分類器均有所提高,三種單分類器組合的Stacking集成分類準確率高于SVM和BP神經(jīng)網(wǎng)絡,但所有直接多分類模型準確率均沒有達到90%。

        2.層次分類法

        表2和表3分別是使用測試集進行驗證的兩層分類模型的評價指標。

        表2 第一層分類模型性能評價

        表3 第二層分類模型性能評價

        由表2可得第一層二分類中,SVMboost模型性能最優(yōu)(準確率=0.951,靈敏度=0.977,F(xiàn)值=0.956,AUC=0.948,G-means=1.001),因此選取SVMboost作為第一層的基分類器;由表3可得第二層二分類中,SVMboost模型性能最優(yōu)(準確率=0.972,靈敏度=0.997,F(xiàn)值=0.975,AUC=0.969,G-means=0.968),因此第二層的基分類器也選擇SVMboost。

        將兩層二分類所選擇的最優(yōu)基分類器SVMboost組合起來,疾病進展階段三分類準確率可達0.924。圖3為直接多分類模型和本文所應用的層次分類法的分類準確率對比。層次分類法的分類準確率明顯高于直接多分類模型。

        圖3 八種分類模型的準確率

        圖4分別給出了兩層分類模型中各個基分類器訓練集和測試集的分類準確率(其中1代表第一層分類,2代表第二層分類)。由圖4可知,所有模型中訓練集的分類準確率均優(yōu)于測試集;所有模型的第二層分類準確率均高于第一層分類。對集成模型與單分類器進行分類性能比較可知,除隨機森林模型外,集成模型的分類性能均優(yōu)于其對應的單分類器,而隨機森林本身就是對樹模型的Bagging集成模型,本研究中對其做進一步的AdaBoost集成后發(fā)現(xiàn)其模型的分類性能并未明顯提升。

        圖4 層次分類法訓練集和測試集的分類準確率

        討 論

        本文應用的層次分類法能將復雜的多分類問題簡化,每一層都含有7個基分類器,包括單分類器和同型/異型集成模型,分類準確率高于幾種用于對比的直接多分類器;在其他應用集成算法的直接多分類研究中,宋亞男等在未進行不平衡數(shù)據(jù)處理的AdaBoost 模型預測2型糖尿病患者降糖藥用藥分類準確率僅為0.642[16],王莉莉等在基于主動學習不平衡多分類 AdaBoost 算法的心臟病分類的準確率為0.883[17],均未達到90%,而Stjepan Picek等在機器學習旁路攻擊中[18],層次分類法的分類準確率比直接多分類法提高了21%。層次分類法應用靈活,每種基分類器對不同數(shù)據(jù)類型的分類性能均有所差別,趙理莉等在宮頸細胞識別的層次分類法中每層使用了6種基分類器[19]。此外,層次分類法實際應用廣泛,包括Celine Vens等對文本進行層次分類[20],IvicaDimitrovski等進行醫(yī)學圖像注釋[21],以及Ricardo Cerri等對蛋白質功能預測等生物信息學任務等[22]。本文層次分類法的模型構建通過R語言實現(xiàn),其他軟件如Python等也可實現(xiàn),適用性較強。

        但是層次分類法中存在自上而下的“誤差累積”問題,且該方法每層分類所需的運行時間較長。本文每層分類循環(huán)次數(shù)為100次,運行時間超過20小時。當需要解決5類或5類以上的多分類問題時,應用該方法所需要分的層次更多,所得分類準確率會越低,運行的時間也越長。此外,如何在層次分類中有效地進行特征變量選擇也是一個值得關注的問題,不同的特征變量能影響各層中子類的區(qū)分,進而影響整個分類模型的準確率。例如Hussein Alahmer等在基于特征差的肝臟腫瘤層次分類中[23],不同的特征采集導致分類性能差異很大。如何解決和改進上述幾個方面是本研究需要進一步研究的問題。

        猜你喜歡
        分類法復發(fā)性難治性
        從扶正祛邪法探討免疫性復發(fā)性流產(chǎn)的防治
        如何治療難治性哮喘(上)
        中老年保健(2021年5期)2021-08-24 07:06:38
        如何治療難治性哮喘(下)
        中老年保健(2021年6期)2021-08-24 06:53:48
        如何應對難治性高血壓?
        復發(fā)性流產(chǎn)的中醫(yī)治療思路
        阿立哌唑與利培酮在難治性精神分裂癥治療中的應用
        分類法在高中化學中的應用
        K 近鄰分類法在巖屑數(shù)字圖像巖性分析中的應用
        錄井工程(2017年1期)2017-07-31 17:44:42
        自擬加味理中湯辨治復發(fā)性口瘡分析
        基于貝葉斯分類法的股票選擇模型的研究
        久久国产精品偷任你爽任你| 成年人男女啪啪网站视频| 亚洲长腿丝袜中文字幕| 精品香蕉一区二区三区| 国产99久久久久久免费看| 国产免费内射又粗又爽密桃视频| 性激烈的欧美三级视频| 无码中文av有码中文av| 东京热加勒比日韩精品| 美利坚亚洲天堂日韩精品| 少妇精品亚洲一区二区成人| 国产中文欧美日韩在线| 免费中文熟妇在线影片| 一区二区三区日本久久| 国产无套乱子伦精彩是白视频| 又湿又黄裸乳漫画无遮挡网站| 国产精品一区二区三级| 国产高清女主播在线观看| 国产日韩精品欧美一区喷水| 一二三四在线视频社区3| 淫欲一区二区中文字幕| 久久在一区二区三区视频免费观看 | 日韩av无码久久一区二区| 久久精品人成免费| 超碰Av一区=区三区| 日韩激情av不卡在线| 国产乱子伦精品无码专区 | 无码成人aaaaa毛片| 中文字幕国产精品中文字幕| 久久少妇高潮免费观看| 国模精品一区二区三区| 国产真人无遮挡作爱免费视频| 国产免费看网站v片不遮挡| 青青草是针对华人绿色超碰| 成品人视频ww入口| 中文在线√天堂| 国产蜜臀精品一区二区三区| 一区二区三区免费观看日本| 久久久久国色av免费观看性色| 亚洲a∨无码一区二区| 日本中文字幕av网址|