亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于集成學(xué)習(xí)的骨質(zhì)疏松性骨折預(yù)測研究

        2021-02-07 06:19:14陳婉琦林勇
        關(guān)鍵詞:同構(gòu)異構(gòu)分類器

        陳婉琦,林勇

        上海理工大學(xué)醫(yī)療器械與食品學(xué)院,上海200093

        前言

        骨質(zhì)疏松癥是骨骼的主要疾病,其特征是骨密度降低和骨組織微結(jié)構(gòu)損壞,進(jìn)而導(dǎo)致骨折敏感性增加[1]。由骨質(zhì)疏松癥引起的骨折叫骨質(zhì)疏松性骨折,其給患者帶來巨大痛苦,并給社會和醫(yī)療系統(tǒng)帶來沉重負(fù)擔(dān)[2]。骨質(zhì)疏松癥的發(fā)病率在女性中最高,但在接下來的50年中,男性的發(fā)病率有可能會翻3倍[3]。因此根據(jù)臨床變量預(yù)測男性骨質(zhì)疏松性骨折風(fēng)險(xiǎn)對其預(yù)防至關(guān)重要。

        近年來機(jī)器學(xué)習(xí)在醫(yī)學(xué)領(lǐng)域的應(yīng)用越來越廣泛,出現(xiàn)了基于機(jī)器學(xué)習(xí)的骨質(zhì)疏松性骨折預(yù)測研究。章軼立等[4]通 過Group Lasso 回歸算法和Logistic回歸模型初步構(gòu)建骨質(zhì)疏松性骨折風(fēng)險(xiǎn)評估工具。Villamor等[5]結(jié)合臨床和生物力學(xué)數(shù)據(jù)通過支持向量機(jī)(Support Vector Machine,SVM)對髖部骨折進(jìn)行有效預(yù)測。此類單一模型的預(yù)測精度仍有較大提升空間,進(jìn)而有研究提出采用集成學(xué)習(xí)方法提高模型預(yù)測性能。Kruse 等[6]使用邏輯回歸、隨機(jī)森林模型以及Bagging 和Boosting 集成學(xué)習(xí)方法預(yù)測髖部骨折,研究結(jié)果表明集成學(xué)習(xí)方法預(yù)測效果更佳。Kilic 等[7]使用 Bagging、梯度提升(Gradient Boosting)、隨機(jī)子空間(Random Subspace)采樣等集成學(xué)習(xí)方法對絕經(jīng)后婦女進(jìn)行骨質(zhì)疏松性骨折預(yù)測,結(jié)果顯示基于隨機(jī)子空間的隨機(jī)森林(Random Forest based on Random Subspace, RSM-RF)集成分類器模型預(yù)測精度最佳。目前使用集成學(xué)習(xí)模型的研究絕大多數(shù)是對相同結(jié)構(gòu)的個(gè)體學(xué)習(xí)器進(jìn)行集成,使用異構(gòu)分類器的研究還相對較少。

        本研究使用學(xué)習(xí)法的典型代表Stacking 構(gòu)建異構(gòu)分類器EtDtb-S,經(jīng)相關(guān)性分析后篩選出16 個(gè)特征作為特征向量,選用極端隨機(jī)樹、基于決策樹的Bagging 集成模型(Decision Tree Based on Bagging,DTB)作為初級學(xué)習(xí)器,邏輯回歸作為次級學(xué)習(xí)器進(jìn)行集成。實(shí)驗(yàn)結(jié)果表明集成的異構(gòu)分類器比同構(gòu)分類器預(yù)測準(zhǔn)確性更高。

        1 材料與方法

        1.1 實(shí)驗(yàn)材料

        本研究采用MrOs Online(https://mrosdata.sfcccpmc.net/)上的美國男性骨質(zhì)疏松性骨折研究數(shù)據(jù),數(shù)據(jù)包含5 994 例男性病例樣本,病例均為年齡在65歲以上的非臥床男子,其中有12.13%(727名)的患者主要部位(髖部、頸椎、腰椎、胸椎、腕部、肩部)發(fā)生過骨折。

        選取MrOs 數(shù)據(jù)集中的骨相關(guān)數(shù)據(jù)作為基線數(shù)據(jù),包括臨床數(shù)據(jù)、骨密度數(shù)據(jù)、骨小梁評分?jǐn)?shù)據(jù)、腹主動(dòng)脈鈣化數(shù)據(jù)以及病例骨折情況記錄數(shù)據(jù)。每項(xiàng)基線數(shù)據(jù)均包含若干特征,如骨密度數(shù)據(jù)中包含髖部骨密度、股骨骨密度、腰椎骨密度等特征。對這些數(shù)據(jù)進(jìn)行特征相關(guān)性分析,提取與骨折相關(guān)性較高的特征。部分基線數(shù)據(jù)描述如表1所示。

        1.2 特征選擇

        特征選擇是選擇相關(guān)特征子集以用于模型構(gòu)建的過程。本研究選用的相關(guān)數(shù)據(jù)文件中均包含眾多特征,其中有許多冗余或不相關(guān)特征,它們會使得機(jī)器學(xué)習(xí)算法的訓(xùn)練速度降低,增加模型的復(fù)雜性,產(chǎn)生模型過擬合現(xiàn)象并會影響預(yù)測模型的準(zhǔn)確性。因此對數(shù)據(jù)進(jìn)行特征選擇,考慮到所用學(xué)習(xí)算法較多,且對模型進(jìn)行了集成學(xué)習(xí),采用過濾式特征選擇方法:通過數(shù)據(jù)的內(nèi)在屬性來估計(jì)特征的差異性,根據(jù)特征的差異性評分進(jìn)行排序,并選取評分較高的一部分特征作為特征子集輸入到分類算法上。過濾式方法計(jì)算簡單快速,獨(dú)立于分類算法,適用于不同的分類算法[8]。筆者選用過濾式中基于皮爾遜(Pearson)相關(guān)系數(shù)的算法。

        Pearson 相關(guān)系數(shù)是衡量向量相似度的一種方法。輸出范圍為-1~+1,0 代表無相關(guān)性,負(fù)值為負(fù)相關(guān),正值為正相關(guān)。其公式為:

        其中,n為樣本個(gè)數(shù),Xi為選取的特征數(shù)據(jù)集,Yi為標(biāo)簽數(shù)據(jù)集,μX表示隨機(jī)變量X的均值,μY表示隨機(jī)變量Y的均值。從臨床數(shù)據(jù)中提取身高、體質(zhì)量、體重指數(shù)(BMI)等數(shù)據(jù);骨密度數(shù)據(jù)中提取髖部骨密度、股骨骨密度、腰椎骨密度等數(shù)據(jù);腹主動(dòng)脈鈣化數(shù)據(jù)中提取腹主動(dòng)脈鈣化評分?jǐn)?shù)據(jù);骨小梁評分?jǐn)?shù)據(jù)中提取L1~L4腰椎段的骨小梁評分?jǐn)?shù)據(jù);并從骨折情況數(shù)據(jù)中提取病例主要部位骨折數(shù)據(jù)標(biāo)簽。經(jīng)過相關(guān)性分析后,剔除與骨折數(shù)據(jù)標(biāo)簽Pearson 相關(guān)性低于0.6 的特征,對于存在高度相關(guān)的特征組(本研究取Pearson 相關(guān)性高于0.9)每組僅保留一個(gè)特征。最終篩選出骨小梁評分、腹主動(dòng)脈鈣化評分、身體質(zhì)量指數(shù)、髖部骨密度、股骨骨密度、頸部骨密度T評分等共16個(gè)相關(guān)性較高的特征納入模型中。

        1.3 數(shù)據(jù)類別不平衡校正

        本研究數(shù)據(jù)中只有12.13%的患者主要部位骨折,數(shù)據(jù)類別失衡較嚴(yán)重,若直接使用不平衡的數(shù)據(jù)進(jìn)行實(shí)驗(yàn),則多數(shù)類與少數(shù)類之間的不平衡將導(dǎo)致機(jī)器學(xué)習(xí)產(chǎn)生偏差,影響模型的性能。目前重采樣技術(shù)是處理類不平衡問題的常用方法,例如過采樣,欠采樣和綜合采樣。其中過采樣少數(shù)類雖可以平衡本文數(shù)據(jù)的類分布但無法解決數(shù)據(jù)集中存在的類重疊問題,并在使用分類器后易產(chǎn)生過擬合現(xiàn)象。本研究將過采樣方法Smote 與數(shù)據(jù)清除方法Tomek links 相結(jié)合可以解決上述問題[9]。Smote+Tomek 方法不僅可以平衡數(shù)據(jù),還能消除決策邊界錯(cuò)誤一側(cè)的嘈雜示例,最適用于本研究這種具有少量正樣本的數(shù)據(jù)集。

        1.4 基于集成學(xué)習(xí)的骨質(zhì)疏松性骨折預(yù)測模型

        集成學(xué)習(xí)是一種使用多個(gè)基礎(chǔ)學(xué)習(xí)器來提高預(yù)測準(zhǔn)確性的機(jī)器學(xué)習(xí)技術(shù)。對分類器進(jìn)行集成的思想是將一組分類器使用選定的結(jié)合策略通過多種方法(例如投票和平均)對新樣本進(jìn)行分類[10]。目前行之有效的集成技術(shù)是Bagging,Boosting,Stacking 和隨機(jī)子空間(Random subspace)方法[11]。本文選用極端隨機(jī)樹(Extremely Randomized Trees,ET)、DTB 作為初級學(xué)習(xí)器,邏輯回歸作為次級學(xué)習(xí)器,使用Stacking 算法對上述不同個(gè)體學(xué)習(xí)器進(jìn)行集成,構(gòu)建異構(gòu)分類器以進(jìn)一步提高模型預(yù)測精度。集成時(shí)初級學(xué)習(xí)器ET、DTB 的個(gè)數(shù)均取1,且ET、DTB 中決策樹的集成度均為40。

        Stacking 先從初始數(shù)據(jù)集訓(xùn)練出幾個(gè)不同的初級學(xué)習(xí)器,并通過訓(xùn)練一個(gè)次級學(xué)習(xí)器來結(jié)合這些初級學(xué)習(xí)器[12]。用于訓(xùn)練次級學(xué)習(xí)器的數(shù)據(jù)集是一個(gè)新數(shù)據(jù)集。在這個(gè)新數(shù)據(jù)集中,初級學(xué)習(xí)器的輸出被當(dāng)作樣例輸入特征,而初始樣本的標(biāo)記仍被當(dāng)作樣例標(biāo)記[13]。我們需要定義初級學(xué)習(xí)器以及次級學(xué)習(xí)器來構(gòu)建Stacking。本文Stacking 框架如下所述。

        設(shè)基學(xué)習(xí)算法為Lk,Lk分別為ET、DTB。設(shè)基學(xué)習(xí)器為Ck:

        其中,S表示本文骨質(zhì)疏松患者訓(xùn)練數(shù)據(jù)集,且S中的樣本為Si:

        其中,Xi為篩選出的16 維特征向量,yi為主要部位是否發(fā)生過骨折。

        使用交叉驗(yàn)證方式,用訓(xùn)練初級學(xué)習(xí)器未使用的樣本來產(chǎn)生次級學(xué)習(xí)器的訓(xùn)練樣本。本文將數(shù)據(jù)集S分割為20份。此時(shí)設(shè)為數(shù)據(jù)集S中去除第j份數(shù)據(jù)子集后使用第k個(gè)基學(xué)習(xí)算法訓(xùn)練出的基學(xué)習(xí)器,其表示為:

        其中,Sj為第j份數(shù)據(jù)子集。將第j份數(shù)據(jù)子集中的特征向量作為基學(xué)習(xí)器的測試集來預(yù)測是否會發(fā)生骨折,預(yù)測結(jié)果表示為:

        為每一份數(shù)據(jù)子集預(yù)測出患者發(fā)生骨折和不發(fā)生骨折的概率,得出基學(xué)習(xí)器的預(yù)測結(jié)果集為作為次級學(xué)習(xí)器的數(shù)據(jù)集,其中yj為該患者是否骨折的初始樣本標(biāo)記。

        本文采用邏輯回歸作為Stacking 的次級學(xué)習(xí)器算法,其模型可以表示為:

        其中,xi∈xl,θ為需學(xué)習(xí)的參數(shù),hθ(x)為邏輯回歸的假設(shè)函數(shù),其公式為:

        將式(7)代入式(6)可得:

        該模型的目標(biāo)函數(shù)可以定義為:

        其中,J(θ)為邏輯回歸模型的代價(jià)函數(shù),本文使用交叉熵作為代價(jià)函數(shù),其公式為:

        其中,m為訓(xùn)練樣本的個(gè)數(shù),y為樣本的標(biāo)簽值。將基學(xué)習(xí)器學(xué)習(xí)所得的是否發(fā)生骨折的結(jié)果集xl作為邏輯回歸模型訓(xùn)練樣本的特征數(shù)據(jù),將初始樣本中病例是否骨折的標(biāo)記yl作為邏輯回歸模型的標(biāo)簽,最終訓(xùn)練得到本文基于Stacking的異構(gòu)分類器EtDtb-S。

        2 實(shí)驗(yàn)驗(yàn)證與結(jié)果分析

        2.1 驗(yàn)證方法

        為驗(yàn)證本研究的有效性,本文采用準(zhǔn)確率(Accuracy)、精確率(Precision)、召回率(Recall)和F1值(F1)對各分類模型進(jìn)行評估。

        其中,TP為真陽性,表示實(shí)際骨折患者預(yù)測結(jié)果也為骨折;TN為真陰性,表示實(shí)際健康男性預(yù)測結(jié)果也為健康;FP 為假陽性,表示實(shí)際健康男性預(yù)測結(jié)果為骨折患者;FN為假陰性,表示實(shí)際骨折患者預(yù)測結(jié)果為健康。

        本文將構(gòu)建的EtDtb-S 模型與單模型以及同構(gòu)分類器共8種模型進(jìn)行對比,設(shè)標(biāo)簽為骨折的樣本為正類樣本,不骨折的樣本為負(fù)類樣本。用于實(shí)驗(yàn)對比的模型分為2 類:(1)單獨(dú)使用ET 模型和DTB 模型;(2)使用不同集成學(xué)習(xí)方法(Bagging、Boosting、Stacking)分別對ET模型、DTB模型進(jìn)行同構(gòu)集成。

        對比實(shí)驗(yàn)采用十折交叉驗(yàn)證,驗(yàn)證過程中每一折內(nèi)類別標(biāo)簽比例隨機(jī),為減少因樣本劃分不同而引入的差別,本文重復(fù)進(jìn)行10次十折交叉驗(yàn)證再取均值,得出以上共9 種模型的準(zhǔn)確率(Accuracy)、精確率(Precision)、召回率(Recall)、F1值(F1)以及相應(yīng)標(biāo)準(zhǔn)差。

        2.2 實(shí)驗(yàn)結(jié)果與分析討論

        本文數(shù)據(jù)集在不同模型下的分類預(yù)測結(jié)果及標(biāo)準(zhǔn)差如表2所示。

        表2 9種模型預(yù)測結(jié)果及標(biāo)準(zhǔn)差比較(± s)Tab.2 Comparison of prediction results obtained by 9 models(Mean±SD)

        表2 9種模型預(yù)測結(jié)果及標(biāo)準(zhǔn)差比較(± s)Tab.2 Comparison of prediction results obtained by 9 models(Mean±SD)

        模型ET DTB ET-Bagging DTB-Bagging ET-Boosting DTB-Boosting ET-Stacking DTB-Stacking EtDtb-S準(zhǔn)確率0.904±0.012 0.903±0.088 0.880±0.009 0.889±0.056 0.902±0.012 0.917±0.060 0.908±0.013 0.905±0.063 0.932±0.021精確率0.890±0.019 0.918±0.020 0.857±0.026 0.888±0.027 0.894±0.017 0.920±0.027 0.885±0.022 0.910±0.022 0.918±0.024召回率0.927±0.013 0.901±0.167 0.918±0.019 0.885±0.167 0.923±0.011 0.924±0.123 0.935±0.010 0.906±0.165 0.957±0.053 F1值0.904±0.012 0.895±0.090 0.883±0.012 0.873±0.109 0.905±0.013 0.907±0.090 0.911±0.010 0.886±0.119 0.929±0.022

        由表2 可以發(fā)現(xiàn),本文異構(gòu)分類器EtDtb-S 的分類精度為0.932,相較單獨(dú)使用ET 的分類精度0.904和單獨(dú)使用DTB的分類精度0.903,分別提高2.8%和2.9%?;贐agging 對ET、DTB 分別進(jìn)行集成的同構(gòu)分類器ET-Bagging、DTB-Bagging 分類精度分別為0.880、0.889;基于Boosting 對ET、DTB 分別進(jìn)行集成的同構(gòu)分類器ET-Boosting、DTB-Boosting 分類精度分別為0.902、0.917;基于Stacking 對ET、DTB 分別進(jìn)行集成的同構(gòu)分類器ET-Stacking、DTB-Stacking 分類精度分別為0.908、0.905。本文的異構(gòu)分類器相較上述同構(gòu)分類器的分類精度提高1.5%~5.2%。由此可得出,本文異構(gòu)分類器的分類精度優(yōu)于單模型和同構(gòu)分類器,分類效果最佳。

        為比較上述分類器的性能,繪制出各分類器基于十折交叉驗(yàn)證的ROC 曲線,在得出每一折交叉驗(yàn)證的ROC 曲線下面積(AUC)值后求出AUC 的均值,結(jié)果如圖1 所示。ROC 曲線越靠近左上角邊界,即AUC 越大,表示分類器性能越好。由圖1 可以看出,在ROC 曲線中,ET-Bagging 和DTB-Bagging 的AUC均值為0.95,DTB 和DTB-Stacking 的AUC 均值為0.96,ET、ET-Boosting、DTB-Boosting 和ET-Stacking的AUC 均值為0.97,本文異構(gòu)分類器EtDtb-S 的AUC 均值為0.98。以上數(shù)據(jù)說明,本文提出的基于Stacking 的異構(gòu)分類器EtDtb-S 相較于單模型和同構(gòu)分類器分類性能最好。

        3 總結(jié)與展望

        本文介紹了一種用于骨質(zhì)疏松性骨折預(yù)測的新的集成方法,使用Stacking 對ET、DTB 模型進(jìn)一步集成構(gòu)建出異構(gòu)分類器EtDtb-S。首先,提出了基于機(jī)器學(xué)習(xí)理論的Stacking 集成方法的模型構(gòu)建過程;其次,使用不同集成學(xué)習(xí)方法對本文集成方法中所采用的初級學(xué)習(xí)器分別進(jìn)行集成,將單獨(dú)使用初級學(xué)習(xí)器的模型、集成后的同構(gòu)分類器與本研究的異構(gòu)分類器分別對選取的特征變量進(jìn)行訓(xùn)練;最后,通過十折交叉驗(yàn)證得出的準(zhǔn)確率、精確率、召回率、ROC曲線比較各模型在測試集上預(yù)測的性能,驗(yàn)證本文提出方法的有效性。用Stacking 集成時(shí)初級學(xué)習(xí)器ET 和DTB 在模型結(jié)構(gòu)和分類偏差上的差異性改善了集成后異構(gòu)分類器的預(yù)測精度。實(shí)驗(yàn)結(jié)果表明,本文基于Stacking 的異構(gòu)分類器能夠正確預(yù)測骨質(zhì)疏松性骨折的大部分病例,并且比單模型和集成的同構(gòu)分類器預(yù)測準(zhǔn)確性更高,具有最好的分類性能。

        本文在運(yùn)用Stacking進(jìn)行模型融合的過程中將數(shù)據(jù)集分割成20份,葉子結(jié)點(diǎn)最少樣本數(shù)為1,內(nèi)部結(jié)點(diǎn)再劃分所需最小樣本數(shù)為2,決策樹集成度為40,后續(xù)還將調(diào)整這些參數(shù),以進(jìn)一步提高模型性能。本研究還嘗試過加入其它分類模型例如神經(jīng)網(wǎng)絡(luò)作為集成模型的基學(xué)習(xí)器,但最終預(yù)測準(zhǔn)確率并不理想,后續(xù)將基于本文現(xiàn)有個(gè)體學(xué)習(xí)器的特征,嘗試加入不同神經(jīng)網(wǎng)絡(luò)作為個(gè)體學(xué)習(xí)器,進(jìn)一步提高模型的準(zhǔn)確性和通用性。

        圖1 9種模型ROC曲線對比圖Fig.1 Comparison of receiver operating characteristic curves of 9 models

        猜你喜歡
        同構(gòu)異構(gòu)分類器
        巧用同構(gòu)法解決壓軸題
        試論同課異構(gòu)之“同”與“異”
        指對同構(gòu)法巧妙處理導(dǎo)數(shù)題
        同構(gòu)式——解決ex、ln x混合型試題最高效的工具
        高等代數(shù)教學(xué)中關(guān)于同構(gòu)的注記
        BP-GA光照分類器在車道線識別中的應(yīng)用
        電子測試(2018年1期)2018-04-18 11:52:35
        overlay SDN實(shí)現(xiàn)異構(gòu)兼容的關(guān)鍵技術(shù)
        加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
        結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
        LTE異構(gòu)網(wǎng)技術(shù)與組網(wǎng)研究
        亚洲精品av一区二区| 中文字幕亚洲无线码高清| 偷拍女厕尿尿在线免费看| 亚洲一区二区三区重口另类| 免费国产黄网站在线观看视频| 欧美日韩中文国产一区发布| 精品久久久久中文字幕APP| 国产午夜激情视频在线看| 免费av一区二区三区| 亚洲а∨天堂久久精品2021| 98精品国产综合久久| 91中文在线九色视频| 亚洲一区二区三区小说| 1000部夫妻午夜免费| 亚洲精品一区网站在线观看| 丰满人妻被持续侵犯中出在线| 成人欧美一区二区三区在线| 欧美日韩一卡2卡三卡4卡 乱码欧美孕交| 亚洲一区二区三区av在线免费| 隔壁人妻欲求不满中文字幕| 永久天堂网av手机版| 日韩av高清无码| 国产成人精品视频网站| 亚洲女人的天堂网av| 国内精品视频在线播放不卡| 精品免费福利视频| 亚洲视一区二区三区四区| 亚洲色一区二区三区四区| 亚洲中文字幕无码久久| 日韩av中出在线免费播放网站| 日韩精品极视频在线观看免费| 色偷偷av一区二区三区| 男女真实有遮挡xx00动态图| 国产精品国产三级厂七| 日本饥渴人妻欲求不满| 中文字幕日韩一区二区三区不卡| 2021久久精品国产99国产| 久久综合另类激情人妖| 草草浮力影院| 国产一区二区三区啪| 日本在线一区二区免费|