亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合隨機(jī)森林與SHAP 的心臟病預(yù)測(cè)及其特征分析研究

        2023-02-28 16:10:26程祉元張博良蔡雨晨馬雨生邵澤國(guó)劉巧紅
        關(guān)鍵詞:特征模型

        程祉元,張博良,蔡雨晨,馬雨生,邵澤國(guó),劉巧紅

        (上海健康醫(yī)學(xué)院醫(yī)療器械學(xué)院,上海 201318)

        0 引 言

        人的循環(huán)系統(tǒng)包括心臟、血管以及調(diào)節(jié)血液循環(huán)的神經(jīng)體液組織,而循環(huán)系統(tǒng)疾?。ㄐ难懿。┌松鲜鏊薪M織器官的疾病,而心臟病在其中最為多見(jiàn),也常見(jiàn)于內(nèi)科疾病,會(huì)導(dǎo)致患者的勞動(dòng)力嚴(yán)重喪失。 隨著生活水平的提高,人們對(duì)自己的生活質(zhì)量,尤其是身體健康有著更高的要求。 然而,根據(jù)《中國(guó)心血管健康與疾病報(bào)告2020》,心血管疾病約有3.3 億人,包括1 300 萬(wàn)腦卒中,1 139 萬(wàn)冠心病,500 萬(wàn)肺源性心臟病,4 530 萬(wàn)下肢動(dòng)脈疾病以及2.45億高血壓[1]。 心血管病給社會(huì)帶來(lái)的經(jīng)濟(jì)負(fù)擔(dān)日益加重,已成為重大的公共衛(wèi)生問(wèn)題。

        研究可知,心臟病因其多樣復(fù)雜的發(fā)病類型、極高的死亡率,成為了醫(yī)學(xué)上多年來(lái)想要攻克的難題[2]。 現(xiàn)階段心臟疾病的診斷更多依賴于醫(yī)生對(duì)各類檢查生成的醫(yī)學(xué)影像的閱片以及患者的生活環(huán)境、家族病史、生理指標(biāo)等因素的綜合診斷。 最終的診斷結(jié)果易受到醫(yī)生經(jīng)驗(yàn)和診斷方式等主觀因素影響,不同醫(yī)生的診斷結(jié)果常常不一致,甚至出現(xiàn)誤診和漏診等現(xiàn)象[3]。 近年來(lái),隨著人工智能在醫(yī)療領(lǐng)域逐步深入的應(yīng)用,人們發(fā)現(xiàn)利用機(jī)器學(xué)習(xí)算法針對(duì)醫(yī)療健康數(shù)據(jù)建立模型,輔助醫(yī)生對(duì)于疾病的診斷,增強(qiáng)評(píng)估的客觀性,可以大大提高診斷準(zhǔn)確率。同時(shí),還可降低醫(yī)生由于自身臨床經(jīng)驗(yàn)不足及疲勞工作而導(dǎo)致的誤判風(fēng)險(xiǎn),提高診斷效率,以及解決現(xiàn)階段普遍存在的醫(yī)療診斷滯后性的問(wèn)題,做到早發(fā)現(xiàn)、早干預(yù)。 例如,林志遠(yuǎn)[2]采用了決策樹(shù)算法構(gòu)建了心臟病預(yù)測(cè)模型,分析了ID3 和CART 的區(qū)別。李嶺海[4]對(duì)比SIFT、 SURF、 KAZE,發(fā)現(xiàn)深度學(xué)習(xí)可以提高分類超聲心電圖的準(zhǔn)確率,對(duì)心臟病的分類效果更好。 石勝源等學(xué)者[5]的實(shí)驗(yàn)結(jié)果表明,隨機(jī)森林算法在心血管疾病預(yù)測(cè)中準(zhǔn)確率為73.55%,具有較大的優(yōu)勢(shì),并且性能優(yōu)于其他算法,對(duì)心血管疾病的預(yù)測(cè)研究和早期病人的及時(shí)有效治療具有重要意義。 陳洞天等學(xué)者[6]利用Xgboost 模型預(yù)測(cè)心臟病,準(zhǔn)確率為76.5%,且利用了指標(biāo)分析法對(duì)預(yù)測(cè)模型的進(jìn)行特征分析。 Krithiga 等學(xué)者[7]利用貝葉斯分類器應(yīng)用于冠心病的早期預(yù)測(cè),取得了不錯(cuò)的效果。 王健等學(xué)者[8]提出了一種基于特征組合和卷積神經(jīng)網(wǎng)絡(luò)的方法預(yù)測(cè)心臟病,準(zhǔn)確率為89.9%,但缺少該預(yù)測(cè)方法的可解釋性,即不能說(shuō)明該算法的內(nèi)部預(yù)測(cè)過(guò)程及其是否與臨床診斷方法吻合。

        本文基于集成學(xué)習(xí)隨機(jī)森林算法,以克利夫蘭心臟病數(shù)據(jù)集作為研究對(duì)象,在對(duì)其進(jìn)行數(shù)據(jù)預(yù)處理、模型訓(xùn)練、超參數(shù)優(yōu)化、模型性能分析、可解釋性等工作的基礎(chǔ)上,建立了性能優(yōu)越的預(yù)測(cè)模型。 本文的主要工作體現(xiàn)在以下2 個(gè)方面:

        (1)提出使用隨機(jī)森林模型預(yù)測(cè)心臟病,并通過(guò)網(wǎng)格搜索技術(shù)進(jìn)行參數(shù)優(yōu)化提高模型性能,采用準(zhǔn)確率、查準(zhǔn)率、查全率、F1 值、AUC值等5 種指標(biāo)評(píng)價(jià)預(yù)測(cè)效果,混淆矩陣、AUC可視化分析預(yù)測(cè)效果,與線性邏輯回歸、K -最近鄰、決策樹(shù)等模型對(duì)比,驗(yàn)證了本文模型性能的優(yōu)越性。

        (2)在保證隨機(jī)森林模型預(yù)測(cè)性能的基礎(chǔ)上,引入SHAP 可解釋性模型來(lái)增強(qiáng)隨機(jī)森林模型的可解釋性,對(duì)影響心臟病的關(guān)鍵因素進(jìn)行了特征分析,為心臟病的臨床診斷和決策提供了可參考的依據(jù)。

        1 方法及原理

        1.1 隨機(jī)森林算法

        隨機(jī)森林算法的本質(zhì)是利用集成理論將多個(gè)弱分類器(決策樹(shù))通過(guò)訓(xùn)練之后生成多棵獨(dú)立分布的決策樹(shù)并將決策樹(shù)集成一體,形成強(qiáng)分類器(隨機(jī)森林)。 算法有效地解決了單棵決策樹(shù)存在的不穩(wěn)定性、無(wú)法保證全局最優(yōu)及過(guò)度擬合等問(wèn)題。 這是Bootstrap 與決策樹(shù)算法的結(jié)合,方法是先從原始數(shù)據(jù)集D中采用Bootstrap 重采樣技術(shù),采用放回式取樣抽取一定數(shù)量的訓(xùn)練樣本集,生成對(duì)應(yīng)數(shù)量的決策樹(shù);決策樹(shù)訓(xùn)練過(guò)程中,每個(gè)節(jié)點(diǎn)的特征都是從該決策樹(shù)數(shù)據(jù)集特征中按照特定比例地?zé)o放回隨機(jī)抽取新的特征子集[9];最后,從新特征子集中選出能使信息增益率最大化的特征,并以其為分割點(diǎn)。信息增益公式如下:

        其中,Gain() 表示信息增益;Ent() 表示信息熵;D表示原始數(shù)據(jù)集;a表示新特征子集中某個(gè)特征;v表示使用特征a有v個(gè)可能的分支節(jié)點(diǎn)。 最終分類結(jié)果,由所有獨(dú)立決策樹(shù)的結(jié)果投票決定,公式如下:

        其中,H(x)表示對(duì)樣本x的包外預(yù)測(cè);k表示弱分類器的迭代次數(shù);h() 表示基學(xué)習(xí)器;Y表示某個(gè)樣本特征的標(biāo)簽;I表示示性函數(shù)。 這種方式保證了輸入每棵決策樹(shù)的訓(xùn)練集的隨機(jī)性以及每個(gè)劃分節(jié)點(diǎn)的隨機(jī)性。 優(yōu)勢(shì)在于其能夠處理高維度數(shù)據(jù)集,實(shí)現(xiàn)比較簡(jiǎn)單,訓(xùn)練速度快,還可以將不平衡數(shù)據(jù)集的誤差縮小,并對(duì)于存在大量缺失值的數(shù)據(jù)樣本也能較好地處理。

        1.2 SHAP 模型解釋

        隨機(jī)森林預(yù)測(cè)模型雖然可以得到較高的準(zhǔn)確率,但其“黑盒”性質(zhì)決定了對(duì)結(jié)果的解釋力很弱,例如很難解釋為什么算法可以準(zhǔn)確預(yù)測(cè)患者是否罹患特定的疾病。

        SHAP (SHapley Additive exPlanation)能夠觀察到某一個(gè)樣本的預(yù)測(cè)中各個(gè)特征對(duì)預(yù)測(cè)結(jié)果產(chǎn)生的影響,對(duì)隨機(jī)森林模型的單個(gè)預(yù)測(cè)做出解釋。 SHAP模型的原理是給每個(gè)單獨(dú)的預(yù)測(cè)樣本都生成一個(gè)預(yù)測(cè)值,而單個(gè)樣本中對(duì)應(yīng)其特征分配的數(shù)值表現(xiàn)為SHAP value。假設(shè)第i個(gè)樣本的第j個(gè)特征為xij,模型對(duì)該樣本的預(yù)測(cè)值為yi,模型的基線( 默認(rèn)所有樣本目標(biāo)變量的均值為基線) 為ybase,那么SHAP value 服從以下公式:

        其中,f(xij) 表示第i個(gè)樣本的第j個(gè)特征對(duì)樣本預(yù)測(cè)值yi的貢獻(xiàn)度。 當(dāng)f(xij)>0,表示該特征使得預(yù)測(cè)值升高,有積極的影響;反之,則說(shuō)明該特征使得預(yù)測(cè)值降低,有消極的影響[6]。 SHAP value的優(yōu)勢(shì)在于SHAP 能反映出每一個(gè)樣本中各特征的影響力以及影響力的正負(fù)性,并且特征本身在模型內(nèi)部還有交互作用。 本文利用SHAP 來(lái)解釋隨機(jī)森林算法內(nèi)部是如何預(yù)測(cè)結(jié)果的。

        2 分類模型構(gòu)建

        2.1 模型構(gòu)建

        心臟病分類預(yù)測(cè)模型的設(shè)計(jì)思路主要包含數(shù)據(jù)探索,對(duì)數(shù)據(jù)集的統(tǒng)計(jì)分布進(jìn)行可視化展示,觀察數(shù)據(jù)的分布情況;特征工程,完成數(shù)據(jù)預(yù)處理,如數(shù)據(jù)變換、數(shù)據(jù)標(biāo)準(zhǔn)化等,保證數(shù)據(jù)的質(zhì)量;模型構(gòu)建,構(gòu)建隨機(jī)森林的心臟病預(yù)測(cè)模型;超參數(shù)優(yōu)化,采用網(wǎng)格搜索技術(shù)對(duì)隨機(jī)森林算法的超參數(shù)進(jìn)行優(yōu)化調(diào)參,提高模型的預(yù)測(cè)能力;模型訓(xùn)練,利用十折交叉驗(yàn)證將數(shù)據(jù)集隨機(jī)地劃分為訓(xùn)練集和測(cè)試集進(jìn)行驗(yàn)證,提高模型的泛化能力;可解釋性分析,采用SHAP 對(duì)模型中的心臟病的影響因素進(jìn)行解釋分析,增強(qiáng)模型的可解釋性。 整個(gè)基于隨機(jī)森林的心臟病風(fēng)險(xiǎn)預(yù)測(cè)及特征分析模型的構(gòu)建流程如圖1 所示。

        圖1 心臟病風(fēng)險(xiǎn)預(yù)測(cè)及特征分析模型流程圖Fig. 1 Flow chart of heart disease risk prediction and characteristic analysis model

        2.2 數(shù)據(jù)探索

        本研究采用kaggle 平臺(tái)提供的數(shù)據(jù)集,其來(lái)源于University of California,Irvine(UCI)機(jī)器學(xué)習(xí)數(shù)據(jù)庫(kù)中的the Cleveland database 數(shù)據(jù)集,此數(shù)據(jù)庫(kù)包含76 個(gè)屬性,但所有已發(fā)布的實(shí)驗(yàn)都引用并使用其中14 個(gè)屬性的子集,即克利夫蘭心臟病數(shù)據(jù)集。

        該數(shù)據(jù)集中一共有303 個(gè)樣本,每個(gè)樣本有14個(gè)特征,其中13 個(gè)特征為自變量,描述樣本的基本患病信息,最后1 個(gè)特征“Target”為因變量,表示患者是否患有心臟病,所有的特征及其含義見(jiàn)表1。

        表1 克利夫蘭心臟病數(shù)據(jù)集的基本特征Tab. 1 Basic characteristics of the Cleveland heart disease data set

        通過(guò)對(duì)數(shù)據(jù)質(zhì)量的探索和數(shù)據(jù)特征的分析,觀察數(shù)據(jù)樣本和特征的數(shù)量、數(shù)據(jù)類型及數(shù)據(jù)概率分布等信息,用于指導(dǎo)預(yù)測(cè)模型建立。 根據(jù)對(duì)心臟病原始數(shù)據(jù)的描述性統(tǒng)計(jì)分析發(fā)現(xiàn),未患病人群中男性所占比例遠(yuǎn)超女性,而患病人群中男性占比仍多于女性。 將年齡對(duì)患病情況的影響繪制出的柱狀統(tǒng)計(jì)分布如圖2 所示。 由圖2 可知,中年患病幾率較大。

        圖2 根據(jù)年齡分析患病情況Fig. 2 Analysis of prevalence by age

        圖3 是心臟病數(shù)據(jù)集中14 個(gè)特征的單變量分布密度圖,從圖3 中可以看出每個(gè)特征的數(shù)據(jù)類型及取值分布,其中age、trestbps、chol、thalach和oldpeak五個(gè)特征為連續(xù)型特征,sex、cp、fbs、restecg、exang、slope、ca、thal和target九個(gè)特征為非連續(xù)型特征,需要進(jìn)行數(shù)據(jù)預(yù)處理操作。

        圖3 單變量特征統(tǒng)計(jì)分布Fig. 3 Statistical distribution of univariate characteristics

        2.3 特征工程

        2.3.1 特征相關(guān)性

        圖4 給出了能夠反映特征之間關(guān)系的熱力圖,通過(guò)熱力圖來(lái)發(fā)掘特征之間的關(guān)系。 熱力圖表示了2 個(gè)數(shù)據(jù)之間的相關(guān)性,數(shù)值范圍是-1 到1 之間,大于0 表示2 個(gè)數(shù)據(jù)之間是正相關(guān)的,小于0 表示2個(gè)數(shù)據(jù)之間是負(fù)相關(guān)的,等于0 就是不相關(guān)。 由圖4 可知,cp、thalach和slope這3 個(gè)特征與target之間正相關(guān)且系數(shù)大,表明其與是否患病的關(guān)系較為密切。

        圖4 各項(xiàng)特征之間的相關(guān)性熱力圖Fig. 4 Thermodynamic diagram of correlation between features

        2.3.2 非連續(xù)型數(shù)值轉(zhuǎn)換

        經(jīng)過(guò)數(shù)據(jù)探索和特征相關(guān)性分析發(fā)現(xiàn),cp、thal和slope為不連續(xù)的多分類特征,該類型的數(shù)據(jù)不適合作為分類器輸入,因此,首先將cp、thal和slop三個(gè)特性轉(zhuǎn)換成獨(dú)熱編碼的形式參與模型訓(xùn)練。 原始特征cp轉(zhuǎn)換為4 個(gè)代表不同取值的特征cp_0、cp_1、cp_2 和cp_3,原始特征thal轉(zhuǎn)換為4 個(gè)代表不同取值的特征thal_0、thal_1、thal_2 和thal_3,原始特征slope轉(zhuǎn)換為3 個(gè)代表不同取值的特征slope_0、slope_1 和slope_2,并將原始特征刪除。 經(jīng)過(guò)數(shù)據(jù)轉(zhuǎn)換處理后的特征維度由原始數(shù)據(jù)的14 增加到了22。

        2.3.3 數(shù)據(jù)歸一化

        為了消除數(shù)據(jù)之間的量綱影響,減小數(shù)據(jù)集中數(shù)據(jù)的差異性,對(duì)數(shù)據(jù)進(jìn)行了歸一化處理,將數(shù)據(jù)統(tǒng)一歸一化到[-1,1]之間。 原始數(shù)據(jù)經(jīng)過(guò)數(shù)據(jù)標(biāo)準(zhǔn)化處理后,處于同一數(shù)量級(jí),能夠有效地提升模型精度和收斂速度。

        2.4 參數(shù)優(yōu)化

        隨機(jī)森林模型涉及到多個(gè)參數(shù)選擇,參數(shù)值的選擇影響到模型的性能。 具體的參數(shù)取值見(jiàn)表2。對(duì)于表2 中的6 個(gè)核心參數(shù),本文采用了網(wǎng)格搜索技術(shù)進(jìn)行調(diào)參。 網(wǎng)格搜索在規(guī)定的參數(shù)取值范圍內(nèi)逐步調(diào)整參數(shù),用調(diào)整后的參數(shù)對(duì)隨機(jī)森林模型進(jìn)行訓(xùn)練,使得模型性能最優(yōu)的參數(shù)確定為最佳參數(shù)。

        表2 隨機(jī)森林算法參數(shù)意義及取值Tab. 2 Meaning and value of random forest algorithm parameters

        3 實(shí)驗(yàn)分析

        3.1 模型性能度量

        為了客觀評(píng)價(jià)該算法的有效性,采用了F1 值、準(zhǔn)確率、查準(zhǔn)率、查全率和AUC值這5 種評(píng)價(jià)指標(biāo)對(duì)模型性能進(jìn)行度量。

        (1)準(zhǔn)確率(Accuracy)。 表示所有樣本中被預(yù)測(cè)正確的樣本的比率。 可由如下公式計(jì)算求值:

        (2)查準(zhǔn)率(Precision)。 表示預(yù)測(cè)樣本中預(yù)測(cè)為真陽(yáng)性的概率。 可由如下公式計(jì)算求值:

        (3)查全率(Recall),真陽(yáng)性率(True Positive Rate,TPR),靈敏度(Sensitivity)。 表示陽(yáng)性樣本被預(yù)測(cè)為真陽(yáng)性的概率。 可由如下公式計(jì)算求值:

        (4)F1 值(F1-score)。 用來(lái)衡量二分類模型精確度的一種指標(biāo),可以看作是模型查準(zhǔn)率和查全率的一種加權(quán)平均。 該指標(biāo)同時(shí)兼顧了分類模型的查準(zhǔn)率和查全率,最大值是1,最小值是0。 可由如下公式計(jì)算求值:

        其中,真陽(yáng)性(True Positive,TP) 表示樣本中正確識(shí)別的數(shù)量;假陽(yáng)性(False Positive,F(xiàn)P) 表示樣本中錯(cuò)誤識(shí)別的數(shù)量;真陰性(True Negative,TN)表示正確識(shí)別為錯(cuò)誤的樣本數(shù);假陰性(False Negative,F(xiàn)N) 表示錯(cuò)誤識(shí)別為正確的樣本數(shù)。 除了上述指標(biāo)之外,還使用了ROC曲線和AUC值。

        3.2 模型性能評(píng)估

        3.2.1 模型對(duì)比

        為驗(yàn)證本文的隨機(jī)森林模型的有效性,與邏輯回歸、K-最近鄰、決策樹(shù)等常用模型進(jìn)行比較分析。為了提高模型之間對(duì)比的公平性及可靠性,實(shí)驗(yàn)中采用了十折交叉驗(yàn)證方法進(jìn)行性能評(píng)估。 各種模型在準(zhǔn)確率、查準(zhǔn)率、查全率、F1 值和AUC值這5 項(xiàng)指標(biāo)上的對(duì)比結(jié)果見(jiàn)表3,各種模型的ROC曲線對(duì)比如圖5 所示。 從表3 和圖5 的實(shí)驗(yàn)結(jié)果可以看出,本文的集成學(xué)習(xí)模型隨機(jī)森林的預(yù)測(cè)準(zhǔn)確率為86%,查準(zhǔn)率為85%,查全率為83%,F(xiàn)1 值為84%,AUC值為0.89,均高于其它對(duì)比的方法。 隨機(jī)森林模型的ROC曲線(紅色)下方面積比邏輯回歸模型、K-最近鄰模型、決策樹(shù)模型的面積大,由ROC曲線的性質(zhì)可知,曲線下方面積(AUC) 越大、準(zhǔn)確率越高,體現(xiàn)了本文模型的優(yōu)越性。

        表3 不同分類模型對(duì)陽(yáng)性樣本的預(yù)測(cè)能力Tab. 3 The predictive ability of different classification models for positive samples

        圖5 四種模型的ROC 曲線Fig. 5 ROC curves for the four models

        各種模型的訓(xùn)練時(shí)間和測(cè)試時(shí)間的對(duì)比見(jiàn)表4。 隨機(jī)森林模型作為一種集成學(xué)習(xí)算法,模型復(fù)雜度本身高于其它幾種對(duì)比的方法,同時(shí)采用網(wǎng)格搜索技術(shù)的參數(shù)優(yōu)化較為耗時(shí),因此在訓(xùn)練時(shí)間上相對(duì)較長(zhǎng)。 圖6 還給出了本文模型的混淆矩陣,可以看出預(yù)測(cè)結(jié)果中,測(cè)試集中非心臟病被預(yù)測(cè)為非心臟病有27 例,心臟病被預(yù)測(cè)為心臟病有36 例,非心臟病被預(yù)測(cè)為心臟病有8 例,心臟病被預(yù)測(cè)為非心臟病有5 例。 顯而易見(jiàn)的是,隨機(jī)森林模型的真陽(yáng)性和真陰性數(shù)量高,而假陽(yáng)性和假陰性的值較低,因此,本文提出的模型有較好的分類性能。

        表4 各模型時(shí)間性能比較Tab. 4 Comparison of time performance of each model

        圖6 隨機(jī)森林的混淆矩陣Fig. 6 Confusion matrix of random forests

        3.2.2 相關(guān)研究對(duì)比

        為了進(jìn)一步驗(yàn)證本文模型的優(yōu)越性,與文獻(xiàn)[8]、文獻(xiàn)[10]、文獻(xiàn)[11]和文獻(xiàn)[12]等相關(guān)工作進(jìn)行了對(duì)比實(shí)驗(yàn)。 所有文獻(xiàn)都針對(duì)克利夫蘭心臟病數(shù)據(jù)集進(jìn)行研究,文獻(xiàn)[8]首先采用特征組合增強(qiáng)樣本的屬性關(guān)聯(lián),再利用卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,在準(zhǔn)確率上獲得了高達(dá)90%的預(yù)測(cè)精度。 文獻(xiàn)[10]與本文模型相似,但其樣本量在克利夫蘭心臟病數(shù)據(jù)集的基礎(chǔ)上增加到573 個(gè),且在網(wǎng)絡(luò)搜索優(yōu)化參數(shù)上僅優(yōu)化了n_estimators、max_depth、max -Leaf_nodes三個(gè)參數(shù)。 文獻(xiàn)[11]使用未優(yōu)化的隨機(jī)森林模型訓(xùn)練獲得了85%的準(zhǔn)確度。 文獻(xiàn)[12]基于聚類和XGBoost 算法進(jìn)行預(yù)測(cè)分析,準(zhǔn)確率達(dá)到83%。

        不同方法的準(zhǔn)確率比較見(jiàn)表5。 從表5 可以看出,本文模型的預(yù)測(cè)結(jié)果優(yōu)于文獻(xiàn)[10]、[11]和[12],但略低于文獻(xiàn)[8]。 然而本文與其它文獻(xiàn)的最大區(qū)別之處在于,本文在模型訓(xùn)練后,引入了SHAP 可解釋性模型,對(duì)模型進(jìn)行可解釋增強(qiáng),識(shí)別出臨床實(shí)際中影響心臟病的主要因素,為臨床上的診斷和決策提供了有利的參考。

        表5 不同方法的準(zhǔn)確率比較Tab. 5 Comparison of accuracy of different methods

        3.3 基于SHAP 的模型可解釋性分析

        圖7 是隨機(jī)森林模型的特征重要性排序圖。 圖7 中,縱坐標(biāo)是從上到下按照特征重要性排序的各個(gè)特征,橫坐標(biāo)是平均SHAP值。 圖7 中顯示特征重要性排序前六的特征分別是thal_2(固定缺陷型地中海貧血癥)、cp_0(典型心絞痛)、ca(大血管數(shù)量)、thal_3(可逆轉(zhuǎn)缺陷型地中海貧血癥)、oldpeak(運(yùn)動(dòng)高峰的心電圖ST段)、thalach(最大心率),可見(jiàn)這6 個(gè)因素是影響是否患有心臟病的最關(guān)鍵因素。

        圖7 基于SHAP value 的特征重要性排序Fig. 7 Sorts by features importance based on SHAP value

        圖8 顯示了SHAP 摘要圖,該圖對(duì)影響心臟病患病的因素重要性進(jìn)行了排序。 圖8 中的一個(gè)點(diǎn)表示一個(gè)樣本,樣本點(diǎn)的顏色從藍(lán)色到紅色表示樣本特征值從小到大,縱坐標(biāo)的各特征標(biāo)簽不僅顯示了特征重要性排序,還顯示了各個(gè)特征值與SHAP值的關(guān)系與分布。 圖8 中繪制了重要性排序前10 的特征對(duì)預(yù)測(cè)結(jié)果的影響,其中thal_2(固定缺陷型地中海貧血癥)、thalach(最大心率) 對(duì)預(yù)測(cè)結(jié)果有正向貢獻(xiàn),cp_0( 典型心絞痛)、ca( 大血管數(shù)量)、thal_3(可逆轉(zhuǎn)缺陷型地中海貧血癥)、oldpeak(運(yùn)動(dòng)高峰的心電圖ST段) 對(duì)模型預(yù)測(cè)為心臟病的輸出結(jié)果有負(fù)向貢獻(xiàn)。

        圖8 SHAP 特征分析Fig. 8 SHAP feature analysis

        4 討論與分析

        臨床上,診斷心臟病的常規(guī)檢查主要有常規(guī)心電圖(ECG)與動(dòng)態(tài)心電圖(DCG),心電圖異??商崾拘募」K馈⑿募∪毖?、心肌炎、心室肥厚等病癥。相關(guān)研究對(duì)于各類心臟疾病的診斷有如下常見(jiàn)的標(biāo)準(zhǔn):

        (1)心電圖ST 段趨勢(shì)的改變可以作為重要參考依據(jù),指標(biāo)過(guò)高可能是冠心病,指標(biāo)過(guò)低則有可能是心肌缺血等病癥,還用以診斷確定心室是否肥大[13-15]。

        (2)心肌缺血在ECG 的診斷標(biāo)準(zhǔn)為在同一導(dǎo)聯(lián)上,T波小于R波的十分之一,同時(shí),ST段水平下移0.05 mV及以上;在DCG 的診斷標(biāo)準(zhǔn)為與等電位線比較,ST段下斜或壓低0.1 mV 及以上并持續(xù)下移大于1 min[16]。

        (3)冠心病、肥厚型心肌病常伴有心絞痛等癥狀,分為典型心絞痛和非典型心絞痛,主要的病因?yàn)樾募∪毖?/p>

        (4)熒光顯色主要血管數(shù)目越少(數(shù)目與血糖、膽固醇相關(guān))證明血液流動(dòng)越通暢,血管腔狹窄會(huì)使患冠心病的風(fēng)險(xiǎn)大大增加[17-18]。 臨床常選擇冠脈造影這種有創(chuàng)性檢查,作為判斷動(dòng)脈狹窄程度的“金標(biāo)準(zhǔn)”。

        (5)地中海貧血癥是先天性貧血癥影響紅細(xì)胞的壽命,易導(dǎo)致紅細(xì)胞數(shù)量不足,使得體內(nèi)鐵超載,從而加重心臟負(fù)擔(dān),長(zhǎng)期的慢性貧血會(huì)誘發(fā)心絞痛,會(huì)造成心力衰竭[19-20]。

        本文通過(guò)對(duì)原始數(shù)據(jù)集的預(yù)處理,構(gòu)造了一個(gè)包括22 個(gè)影響心臟病患病可能的特征,并將這些特征作為隨機(jī)森林模型的輸入,結(jié)合網(wǎng)格搜索技術(shù)的調(diào)優(yōu)和十折交叉驗(yàn)證的模型訓(xùn)練,取得了高達(dá)86%的準(zhǔn)確率。 進(jìn)一步利用SHAP 模型對(duì)所有特征進(jìn)行了事后解釋分析,通過(guò)特征分析發(fā)現(xiàn)thal(地中海貧血類型)、ca(主要血管數(shù)目)、cp(心絞痛)、oldpeak(心電圖ST段趨勢(shì)的改變)、thalach(最大心率)、exang(心絞痛型胸痛) 等指標(biāo)都是影響心臟病患病的重要因素。 對(duì)于地中海貧血,綜合觀察thal_2、thal_3,可以看出固定缺陷型地中海貧血與心臟病風(fēng)險(xiǎn)顯著正相關(guān),即會(huì)明顯增加風(fēng)險(xiǎn);而可逆轉(zhuǎn)缺陷型對(duì)風(fēng)險(xiǎn)的增加不明顯。 對(duì)于心絞痛,綜合觀察cp_0、cp_2 以及exang,可以看出心絞痛、無(wú)論典型心絞痛還是非典型心絞痛,亦或是運(yùn)動(dòng)誘發(fā)的心絞痛對(duì)風(fēng)險(xiǎn)的增加不明顯;而非心絞痛型的胸痛與心臟病風(fēng)險(xiǎn)呈正相關(guān),會(huì)明顯增加風(fēng)險(xiǎn);究竟哪些非心絞痛型的胸痛明顯增加心臟病風(fēng)險(xiǎn)還需進(jìn)一步探討。 從ca指標(biāo)可以觀察到,大血管數(shù)量越少,心臟病風(fēng)險(xiǎn)系數(shù)越高;同樣,oldpeak值(即相對(duì)于休息的運(yùn)動(dòng)引起的ST值) 越低,心臟病風(fēng)險(xiǎn)系數(shù)越高。從thalach指標(biāo)可以很明顯地看到最大心率值越大,心臟病風(fēng)險(xiǎn)系數(shù)越高。 綜合觀察slope_1、slope_2,可見(jiàn)運(yùn)動(dòng)高峰ST段的坡度持平與心臟病風(fēng)險(xiǎn)成正相關(guān),ST段的坡度向上傾斜與心臟病風(fēng)險(xiǎn)成負(fù)相關(guān),這與心電圖運(yùn)動(dòng)試驗(yàn)陽(yáng)性診斷標(biāo)準(zhǔn)條件之一“運(yùn)動(dòng)中或運(yùn)動(dòng)后ST段程水平或下斜型壓低≥0.10 mV”相吻合。

        5 結(jié)束語(yǔ)

        本文基于集成學(xué)習(xí)的隨機(jī)森林算法構(gòu)建了心臟病預(yù)測(cè)模型,同時(shí)引入了SHAP 對(duì)預(yù)測(cè)模型做進(jìn)一步增強(qiáng)解釋。 首先針對(duì)Kaggle 平臺(tái)提供的心臟病數(shù)據(jù)集進(jìn)行數(shù)據(jù)變換、標(biāo)準(zhǔn)化等預(yù)處理后,采用網(wǎng)格搜索技術(shù)對(duì)模型的參數(shù)進(jìn)行優(yōu)化,并對(duì)處理后的數(shù)據(jù)集進(jìn)行十折交叉驗(yàn)證訓(xùn)練模型;然后,采用查準(zhǔn)率、查全率、F1 值、混淆矩陣、AUC值等指標(biāo)對(duì)模型進(jìn)行評(píng)估,與邏輯回歸、K-最近鄰、決策樹(shù)等機(jī)器學(xué)習(xí)模型的結(jié)果進(jìn)行對(duì)比,驗(yàn)證了隨機(jī)森林具有較強(qiáng)的泛化能力、更好的分類效果;最后,還引入SHAP 模型對(duì)隨機(jī)森林模型做進(jìn)一步解釋,識(shí)別出影響心臟病患病的主要因素,并解釋這些特征與臨床診斷的關(guān)系。 模型增加了可解釋說(shuō)明,從而提高了模型的分類識(shí)別效率,為臨床決策服務(wù),具有重要的實(shí)用價(jià)值。

        猜你喜歡
        特征模型
        一半模型
        抓住特征巧觀察
        重要模型『一線三等角』
        新型冠狀病毒及其流行病學(xué)特征認(rèn)識(shí)
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        如何表達(dá)“特征”
        不忠誠(chéng)的四個(gè)特征
        抓住特征巧觀察
        3D打印中的模型分割與打包
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        水蜜桃精品视频在线观看| 日本女优中文字幕看片| 亚洲精品国产主播一区二区| 中文字幕在线乱码亚洲| 国产成人精品999视频| 超碰97人人做人人爱少妇| 99re国产电影精品| 亚洲不卡av二区三区四区| 在线观看特色大片免费视频| 狠狠色综合网站久久久久久久| 亚洲av无码专区在线电影| 国产桃色在线成免费视频| 亚洲中文字幕综合网站| (无码视频)在线观看| 99久久精品国产成人综合| 三级全黄的视频在线观看| av天堂网手机在线观看| 无码人妻精品一区二区三区蜜桃| 日韩乱码人妻无码中文字幕久久| 中文字幕日韩一区二区三区不卡| 久久夜色撩人精品国产小说| 亚洲精品一区二区三区av| 日本午夜理论片在线观看| 曰韩人妻无码一区二区三区综合部| 麻豆国产人妻欲求不满| 亚洲无码美韩综合| 国产精品熟女一区二区三区| 99国产精品自在自在久久| 大香视频伊人精品75| 日本a一区二区三区在线| 亚洲综合色区一区二区三区| 午夜成人理论无码电影在线播放| 亚洲AV一二三四区四色婷婷| 97超碰国产一区二区三区| 国产高清在线精品一区app| 内射中出无码护士在线| 热re99久久精品国产66热6| 中文字幕精品一区二区的区别| 国产又猛又黄又爽| 国产内射合集颜射| 在线免费观看亚洲天堂av|