亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于重采樣和Voting異質集成的分類模型在肝硬化并發(fā)肝性腦病風險預測中的探索性研究*

        2022-10-12 01:54:56王旭春翟夢夢李美晨全帝臣張巖波劉近春仇麗霞
        中國衛(wèi)生統(tǒng)計 2022年4期
        關鍵詞:分類模型

        王旭春 翟夢夢 任 浩 李美晨 全帝臣 張巖波 劉近春 仇麗霞△

        【提 要】 目的 針對肝硬化并發(fā)肝性腦病風險預測的因素具有高維性、冗余性及類間不均衡的特征,研究變量篩選后的重采樣和Voting異質集成分類模型的風險預測性能。方法 收集2006年1月-2015年12月某三甲醫(yī)院消化內(nèi)科肝硬化住院患者950例,68例并發(fā)肝性腦病,采用logistic 逐步回歸進行風險預報因子初篩;再采用SMOTE重采樣技術及其改進算法處理不平衡數(shù)據(jù);最后采用SVM、MLP、隨機森林以及綜合以上三種算法預測結果的Voting異質集成分類算法構建肝硬化并發(fā)肝性腦病的風險預測模型。結果 logistic回歸篩選了7個風險預報因子,采用重采樣技術后的分類模型的預測性能整體上優(yōu)于不平衡數(shù)據(jù)模型,以SVM-SMOTE最優(yōu);相同重采樣技術后的Voting異質集成與隨機森林分類模型的預測性能優(yōu)于SVM和MLP,其中Voting異質集成分類模型的性能略高于隨機森林。綜合各模型性能可知,采用SVM-SMOTE重采樣技術處理的Voting異質集成模型在識別肝硬化并發(fā)肝性腦病的效果最好,測試集各評價指標值分別為:AUC=0.947、準確率=0.877、精確度=0.898、召回率=0.855、F1分數(shù)=0.876。結論 針對肝硬化并發(fā)肝性腦病風險預測因素的高維性、冗余性及類間不均衡的特征,本文所提出的基于logistic逐步回歸特征篩選、SVM-SMOTE重采樣的Voting異質集成模型的預測效果較為滿意。

        肝性腦病(hepatic encephalopathy,HE)是一組以代謝紊亂為基礎的中樞神經(jīng)系統(tǒng)功能失調(diào)的綜合病征,是肝硬化患者常見的并發(fā)癥及死因之一[1],HE1年存活率<0.5,3年存活率<0.3[2]。因此,建立合理的HE風險預測模型,輔助臨床醫(yī)生對HE進行早期預警并及時采取有效的預防措施有著重要的臨床意義。

        國外研究表明肝硬化并發(fā)HE的發(fā)生率為30%~45%[3-5],我國從10%到50%不等[1]。目前,我們收集到數(shù)據(jù)中HE發(fā)生率較低,為7.2%,屬于類間不平衡的問題.另外,與HE發(fā)生相關的因素較多,具有高維性和信息冗余性等特征。傳統(tǒng)的風險預測模型常常使用某一種分類算法建模,忽略了類間樣本量相差懸殊或者變量冗余的問題,導致風險預測性能明顯下降。

        目前,重采樣中的SMOTE(synthetic over-sampling techniques for small samples)算法[6]是處理不均衡數(shù)據(jù)較好的方法,但其在新樣本合成過程中,具有一定的盲目性,近年來更多的方法是關注最優(yōu)化決策函數(shù)邊界的一些少數(shù)類樣本,如Borderline1-SMOTE、Borderline2-SMOTE 和SVM-SMOTE。本研究嘗試對比不同的重采樣方法,并比較他們在解決HE不均衡數(shù)據(jù)中的應用效果。

        在分類算法上,多層感知器(multilayer perceptron,MLP)[7]因其具有較好的自學習和建模能力,以及較強的魯棒性而被廣泛應用;而支持向量機(support vector machines,SVM)[8]在解決小樣本、非線性及高維模式識別問題中表現(xiàn)出特有的優(yōu)勢;隨機森林(random forest)[9]通過收集多棵決策樹的結果來降低模型總體方差,是一個相對穩(wěn)健的分類算法。但是不同的分類算法的適用范圍有一定差異、泛化能力有限。

        本研究針對HE風險預報因子存在的高維特征空間、高度特征冗余以及類間不平衡問題,首先采用logistic逐步回歸模型篩選出與HE發(fā)生相對較密切的特征變量,以減少信息冗余;之后采用SMOTE及其改進的(Borderline-SMOTE、SVM-SMOTE)類平衡處理算法,對原數(shù)據(jù)進行重采樣,以消除類間不平衡;最后以Voting投票聚類的方式,將多層感知器MLP[7]、支持向量機SVM[8]、隨機森林[9]分類算法進行異質集成,構建組合模型,以提高模型的分類預測性能。同時探討不同的重采樣技術及Voting異質集成對模型性能的影響,為肝硬化并發(fā)肝性腦病的風險預測提供更合理的建模方法,為HE的早期干預提供輔助決策。

        資料與方法

        本研究數(shù)據(jù)來源于2006年1月-2015年12月山西醫(yī)科大學第一附屬醫(yī)院消化內(nèi)科具有完整病歷資料且被診斷為肝硬化的住院患者,各生化指標以入院后24小時內(nèi)的第一次檢測結果為準。經(jīng)整理,有效病例950例,并發(fā)肝性腦病者68例,HE發(fā)生率為7.2%,屬高度不平衡數(shù)據(jù)。同時收集了肝硬化患者的人口學信息、臨床表現(xiàn)及生化等15個可能與HE相關的指標,具體變量名稱及賦值見表1。利用Epidata建立數(shù)據(jù)庫,采用雙錄入方式,逐一核對。

        表1 950例肝硬化患者基本特征及賦值

        原理及方法

        1.特征篩選

        本文收集了肝硬化患者15個可能與HE發(fā)生相關的指標,采用逐步logistic回歸模型進行變量初篩,排除與結局不相關的變量,增加數(shù)據(jù)的信噪比,以提升下一步所構建的分類模型的泛化能力。適當放寬納入、排除標準,對變量進行合理選擇,采用SPSS 22.0 軟件實現(xiàn)。

        2.重采樣技術

        SMOTE算法是通過增加隨機噪聲的方式來改善過擬合的問題,在原始數(shù)據(jù)上通過算法根據(jù)每個少數(shù)類樣本來生成新樣本,以實現(xiàn)數(shù)據(jù)集的擴展[10]。Borderline1-SMOTE、Borderline2-SMOTE和SVM-SMOTE方法更多關注最優(yōu)化決策函數(shù)邊界的一些少數(shù)類樣本,而后在最近鄰類的相反方向生成樣本:①Borderline-SMOTE[11]方法的思想是首先依據(jù)一定規(guī)則把少數(shù)類樣本劃分為安全樣本、邊界樣本和噪聲樣本3類,只針對邊界樣本進行近鄰線性插值,使得合成后的少數(shù)類樣本分布更為合理,Borderline1與Borderline2的區(qū)別在于選取最近鄰中的隨機樣本時Borderline1中必須與該少數(shù)類樣本來自于不同的類;Borderline2可以屬于任何一個類;②SVM-SMOTE[12]則是直接使用支持向量機產(chǎn)生支持向量,針對產(chǎn)生的支持向量來生成新的少數(shù)類樣本。采用Python軟件Imblearn package包中SMOTE、Borderline SMOTE和SVMSMOTE語句實現(xiàn)重采樣。

        3.支持向量機

        支持向量機通過核函數(shù)將數(shù)據(jù)點映射到高維空間(Hilbert 空間),使線性不可分數(shù)據(jù)變?yōu)榫€性可分。并在特征空間中建立最大間距最優(yōu)分離超平面,使最優(yōu)超平面與兩類樣本間距離最大[13-14],其中結構風險最小化思想使學習器經(jīng)驗風險與泛化誤差均較小。采用Python軟件sklearn.svm學習庫中的SVC語句,其中kernel 選項設定為rbf,即為高斯核。

        4.MLP多層感知器

        多層感知器[15]是一種前向結構的人工神經(jīng)網(wǎng)絡,包含輸入層、輸出層和多個輸入與輸出之間的隱藏層,映射一組輸入向量到一組輸出向量??梢员豢醋魇且粋€有向圖,由多個節(jié)點層所組成,在每一層接收輸入之后全都連接到下一層形成全連接。除了輸入節(jié)點,每個節(jié)點都是一個帶有非線性激活函數(shù)的神經(jīng)元[16]。采用Python軟件sklearn.neural_network學習庫中的MLPClassifier來進行模型構建,其中max_iter選項設定為500,即迭代次數(shù)為500。

        5.集成學習

        集成學習又被叫做基于團體的學習(committee-based learning),團體中的學習器被稱為個體學習器。根據(jù)個體學習器的種類,可分為同質集成和異質集成。它能夠從多樣化的模型中平衡噪音,從而強化模型的泛化能力。隨機森林[17]原理是在總的訓練樣本中隨機有放回地抽取訓練集,從所有樣本特征中隨機不放回地選擇部分樣本特征進行訓練及測試,形成多個決策樹,每個決策樹分別得出相應的預測結果,綜合考慮各個決策樹的投票結果,以少數(shù)服從多數(shù)的原則,來判定待測樣本的類別,屬于同質集成。軟投票法的Voting[18]算法是通過對本文涉及到的三種分類算法的對比,獲得三種算法的分類結果后,以每個個體分類器測試結果的正確率作為權重,對每個類進行加權平均,返回一組概率的加權平均值,最后取得分最高的類別作為分類結果,該方法綜合考慮前文提及的三種分類算法預測結果,屬于異質集成。采用Python軟件的sklearn.ensemble學習庫中的分類算法語句實現(xiàn)集成學習的模型構建。

        6.評價指標

        模型預測性能評價指標為AUC、準確度(accuracy)、精確度(precision)、召回率(recall)、F1分數(shù),均為越大越好。但在類別不平衡時,會出現(xiàn)模型預測準確度高而陽性類預測能力不足的現(xiàn)象。由于本文重點考慮分類模型對肝硬化并發(fā)HE的預測性能,故以精確度、召回率及二者的調(diào)和平均數(shù)F1-分數(shù)作為主要評價指標。

        結 果

        1.logistic回歸變量初選

        以7∶3比例將數(shù)據(jù)分為訓練集和測試集,在訓練集中,將與肝性腦病有關系的15個因素進行多因素logistic逐步回歸分析,變量選入和剔除標準分別為0.1和0.15。

        結果顯示電解質紊亂、肝腎綜合征、感染、精神萎靡、肝源性糖尿病、凝血酶原時間延長及總膽紅素升高7個因素最終進入回歸模型;其中,電解質紊亂與肝硬化并發(fā)HE的關系最密切,電解質紊亂的肝硬化患者并發(fā)HE的風險提高了5.836倍;其次是肝腎綜合征,并發(fā)HE的風險提高了3.375倍;感染、精神萎靡、肝源性糖尿病、凝血酶原時間延長、總膽紅素升高并發(fā)HE的風險基本上提高了1.5倍左右,分別是1.726倍、1.373倍、1.443倍、1.043倍、1.021倍,見表2。

        表2 肝硬化并發(fā)肝性腦病多因素logistic回歸分析

        2.多種重采樣技術下的各分類模型性能比較

        將logistic回歸結果中篩選出的7個變量作為特征變量,并發(fā)HE作為結局變量,采用訓練集訓練模型,并在訓練集中以十折交叉驗證的方式進行內(nèi)部驗證,最后以測試集來進行外部驗證,采用表3中的5個指標評價模型的預測性能。本文采用5種重采樣方法對原數(shù)據(jù)進行重采樣處理,包括:(1)未重采樣的不平衡數(shù)據(jù),(2)經(jīng)過SMOTE重采樣,(3)Borderline2-SMOTE重采樣,(4)Borderline1-SMOTE重采樣,(5)SVM-SMOTE重采樣;之后分別構建4種分類算法的模型,包括MLP、SVM、隨機森林模型和Voting異質集成模型。

        為了評估模型的穩(wěn)健性,避免出現(xiàn)局部極值的現(xiàn)象,采用十折交叉驗證法對模型進行內(nèi)部驗證,結果顯示:不進行重采樣、直接利用包含7個變量的數(shù)據(jù)庫建立的4種分類模型,雖然AUC和準確度不低,但對于肝硬化并發(fā)HE的預測能力卻較低,而采用了重采樣技術后的分類模型對肝硬化并發(fā)HE的預測能力有了明顯的提升,且SMOTE改進算法的各項指標均高于SMOTE本身,其中SVM-SMOTE重采樣后分類模型的預測性能最優(yōu),其次為Borderline1-SMOTE和Borderline2-SMOTE。相同采樣技術下,總的來說Voting異質集成模型與隨機森林的5項評價指標較SVM和MLP分類模型要高,而且Voting異質集成模型的效果略好于隨機森林模型。結合重采樣技術,SVM-SMOTE重采樣后構建Voting異質集成分類模型預測性能最好,10次交叉驗證各評價指標均值分別為AUC=0.952、準確率=0.884、精確度=0.900、召回率=0.863、F1分數(shù)0.881。SVM-SMOTE重采樣后構建隨機森林模型也較為滿意,其性能略低于Voting異質集成模型,AUC為0.950、準確率0.882、精確度0.898、召回率0.861、F1分數(shù)0.878,且重采樣后不同分類模型預測值的標準差減小,說明模型的預測結果具有穩(wěn)健性。詳見表3。

        表3 十折交叉驗證預測結果

        為了保證模型的泛化能力,本文進一步用測試集來對各模型進行外部驗證,研究結果與訓練集十折交叉驗證的整體結論基本一致,經(jīng)重采樣技術處理后的分類模型對肝硬化并發(fā)HE的預測能力有所提升。SVM-SMOTE重采樣后構建的Voting異質集成分類模型得到最優(yōu)的預測性能,測試集各評價指標值分別為:AUC=0.947、準確率=0.877、精確度=0.898、召回率=0.855、F1分數(shù)=0.876。詳見表4。

        表4 肝硬化并發(fā)HE的模型預測結果

        討 論

        對于高維度、高冗余、類間非均衡的醫(yī)學數(shù)據(jù)建模,傳統(tǒng)統(tǒng)計學方法在預測性能上受限。本文探索了經(jīng)logistic逐步回歸特征篩選和多種重采樣技術處理后的不同分類算法在肝硬化并發(fā)HE中的應用研究,討論了四種重采樣數(shù)據(jù)處理下的四種分類模型的預測性能。

        研究結果顯示,經(jīng)不同重采樣技術處理后所構建的分類模型性能整體上都得到提升,尤其是精確度、召回率、F1-分數(shù)三類指標值,與未平衡數(shù)據(jù)所構模型相比得到明顯提高,這意味著更多的肝硬化并發(fā)HE的樣本得到了正確的分類,與文獻[19]的研究結果一致。而且,兩種SMOTE 改進算法相較于SMOTE均得到了一定提升。SMOTE算法在新樣本合成過程中,具有一定的盲目性,不能對新合成樣本數(shù)量進行精確控制,也不能對少數(shù)類樣本進行區(qū)別性的選擇,而其改進算法更多關注最優(yōu)化決策函數(shù)邊界的一些少數(shù)類樣本,能夠彌補SMOTE算法存在的一些不足。經(jīng)比較分析,SVM-SMOTE的算法性能最優(yōu),與Hien M.Nguyen等在2011年[12]關于邊界過采樣方法在不平衡數(shù)據(jù)分類中的實驗研究結果一致。

        在分類算法上,Voting異質集成分類模型與隨機森林的預測性能優(yōu)于傳統(tǒng)單一分類器模型SVM和MLP,因為集成分類模型能夠從多樣化的模型中平衡噪音,強化模型的泛化能力,因此有更好的預測結果,在很多集成模型的應用研究中都得以驗證[9,20-21];而Voting異質集成分類模型的性能略高于隨機森林,因為Voting異質集成綜合考慮了所有基分類器(MLP、SVM、random Forest)的預測結果,并以其結果準確率作為權重進行加權平均,理論上應該優(yōu)于任何一類基分類器的預測性能,與趙培培[18]關于多種分類器在糖尿病檢測分類中的應用研究結果一致。單一分類器模型中MLP優(yōu)于SVM,與2017年陳欽界基于機器學習的智能醫(yī)療診斷輔助方法中的研究結果[22]一致。

        總之,針對高維度、高冗余、類間非均衡的醫(yī)學數(shù)據(jù),本文提出的通過logistic逐步回歸進行特征篩選,采用SVM-SMOTE重采樣技術處理的Voting異質集成模型在識別肝硬化并發(fā)HE患者方面的效果最好,該模型有助于臨床醫(yī)生對HE進行早期預警并及時采取有效的預防措施。但是本文所收集數(shù)據(jù)僅為山西某醫(yī)院住院患者數(shù)據(jù),還需收集多中心的數(shù)據(jù)進行分析;其次本研究的分類模型的超參數(shù)采用網(wǎng)格搜索算法尋優(yōu),其余均采用軟件默認參數(shù),在今后的研究中將著重探索參數(shù)尋優(yōu)方法,以期更好的提高模型性能。

        猜你喜歡
        分類模型
        一半模型
        分類算一算
        垃圾分類的困惑你有嗎
        大眾健康(2021年6期)2021-06-08 19:30:06
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權M-估計的漸近分布
        分類討論求坐標
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        3D打印中的模型分割與打包
        FLUKA幾何模型到CAD幾何模型轉換方法初步研究
        99久久人妻无码精品系列蜜桃| 久久久久久无码av成人影院| 我爱我色成人网| 中文人妻无码一区二区三区在线| 曰本无码人妻丰满熟妇5g影院| 亚洲国产麻豆综合一区| 特一级熟女毛片免费观看| av网站一区二区三区| av手机免费在线观看高潮| 国产欧美在线观看不卡 | 亚洲蜜臀av一区二区三区漫画| 国产三级精品av在线| 欧美嫩交一区二区三区| 中文乱码字慕人妻熟女人妻| 亚洲暴爽av人人爽日日碰| 亚洲欧美在线观看一区二区| 青青草针对华人超碰在线| 97人妻中文字幕总站| 国产亚洲自拍日本亚洲| 久久精品国产亚洲7777| 日本欧美视频在线观看| 国产网站视频| 午夜视频免费观看一区二区| 国产二区中文字幕在线观看| 国产亚洲一区二区在线观看| 免费视频成人片在线观看| 亚洲熟女乱色一区二区三区| 狠狠躁夜夜躁人人爽天天| av网站入口在线免费观看| 国产精品又爽又粗又猛又黄| 插上翅膀插上科学的翅膀飞| 中文字幕乱码一区av久久不卡| 免费男人下部进女人下部视频| 亚洲国产成人精品91久久久| 日本a一区二区三区在线| 国产精品成人av一区二区三区| 国产麻豆精品精东影业av网站 | 成人无码视频| 亚洲Va中文字幕无码毛片下载| 中文字幕一区二区三区6| 亚洲中文字幕人妻久久|