亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于TPE_XGBoost的冠心病風(fēng)險(xiǎn)評(píng)估與致病因素研究

        2023-05-29 10:19:46郎許鋒周作建李紅巖萬(wàn)澤宇朱金陽(yáng)何佳怡鄭永明胡孔法
        軟件導(dǎo)刊 2023年5期
        關(guān)鍵詞:貝葉斯準(zhǔn)確率冠心病

        黃 敏,郎許鋒,周作建,李紅巖,萬(wàn)澤宇,王 銳,程 俊,朱金陽(yáng),何佳怡,鄭永明,胡孔法,3

        (1.南京中醫(yī)藥大學(xué) 人工智能與信息技術(shù)學(xué)院,江蘇 南京 210046;2.南京中醫(yī)藥大學(xué)附屬連云港中醫(yī)院,江蘇 連云港 222000;3.江蘇省中醫(yī)藥防治腫瘤協(xié)同創(chuàng)新中心,江蘇 南京 210046)

        0 引言

        《中國(guó)心血管健康與疾病報(bào)告2021》指出,目前心血管疾病高居我國(guó)居民總死亡原因的榜首,且冠心病的死亡率和患病率仍在增加[1]。冠心病的病因構(gòu)成十分復(fù)雜,通常是由多種危險(xiǎn)因素引起的。因此,對(duì)冠心病患者進(jìn)行風(fēng)險(xiǎn)評(píng)估,盡早干預(yù),通過(guò)消除危險(xiǎn)因素可預(yù)防或延遲冠心病的發(fā)生或死亡。另外,對(duì)健康人群進(jìn)行風(fēng)險(xiǎn)評(píng)估,及時(shí)根據(jù)評(píng)估報(bào)告調(diào)整飲食、作息等習(xí)慣,也可以有效預(yù)防冠心病的發(fā)生。

        近年來(lái),機(jī)器學(xué)習(xí)被許多研究人員運(yùn)用于心血管病、腎病、乳腺癌、代謝疾病等領(lǐng)域的風(fēng)險(xiǎn)預(yù)測(cè)中,其對(duì)臨床疾病的診斷具有積極作用。齊俊鋒等[2]采用隨機(jī)梯度下降、logistic 回歸等6種算法構(gòu)建湖北省心血管疾病風(fēng)險(xiǎn)預(yù)測(cè)模型,其中LightGBM 模型最優(yōu),預(yù)測(cè)性能最好,前4 個(gè)危險(xiǎn)因素依次為收縮壓、脈壓差、舒展壓、年齡,但其對(duì)所有心血管疾病一起進(jìn)行研究,存在一定局限;宋亞男等[3]利用解放軍總醫(yī)院糖尿病數(shù)據(jù),對(duì)比隨機(jī)森林、logistic 回歸、XGBoost(Extreme Gradient Boosting)3 種算法,得出最優(yōu)算法——XGBoost 算法,并構(gòu)建2 型糖尿病患者并發(fā)視網(wǎng)膜病變預(yù)測(cè)模型,得到危險(xiǎn)因素為合并腎病、糖化血紅蛋白、血尿素水平;李慧等[4]基于公開(kāi)數(shù)據(jù)集,采用SMOTE 算法平衡數(shù)據(jù)集,再使用lasso 算法進(jìn)行特征選擇,最后利用隨機(jī)森林構(gòu)建乳腺鉬靶鈣化灶的良惡性預(yù)測(cè)模型,具有一定可靠性,但精確率不高。

        目前,利用機(jī)器學(xué)習(xí)進(jìn)行冠心病風(fēng)險(xiǎn)預(yù)測(cè)被廣泛應(yīng)用,雖具備較好性能,但可解釋性較差,對(duì)疾病的防治意義有限。此外,由于真實(shí)臨床數(shù)據(jù)量小,一般來(lái)說(shuō),機(jī)器學(xué)習(xí)算法優(yōu)于深度學(xué)習(xí)算法[5]。因此,本文選用經(jīng)典機(jī)器學(xué)習(xí)中的XGBoost 方法進(jìn)行建模來(lái)預(yù)測(cè)冠心病,同時(shí)利用SHAP 算法分析不同特征對(duì)冠心病的重要程度,提升模型的可解釋性。與上述研究相比,本文使用了真實(shí)數(shù)據(jù)集,具有較高可靠性,且僅研究了心血管疾病的一個(gè)分類(lèi),具有針對(duì)性,同時(shí)具有較強(qiáng)的可解釋性。

        1 模型構(gòu)建方法

        基 于TPE_XGBoost(Tree-structured Parzen Estimator_Extreme Gradient Boosting)的冠心病風(fēng)險(xiǎn)評(píng)估及基于SHAP 的特征解釋模型構(gòu)建流程如圖1 所示,其構(gòu)建過(guò)程包括數(shù)據(jù)預(yù)處理、基于TPE_XGBoost 的風(fēng)險(xiǎn)評(píng)估模型構(gòu)建與優(yōu)化、基于SHAP 的特征解釋模型構(gòu)建。

        首先,由于原始體檢數(shù)據(jù)中部分生化指標(biāo)缺失嚴(yán)重,因此首先通過(guò)特征選擇、缺失值處理、數(shù)據(jù)標(biāo)準(zhǔn)化對(duì)體檢數(shù)據(jù)進(jìn)行預(yù)處理;然后,利用該數(shù)據(jù)建立XGBoost 預(yù)測(cè)模型,因XGBoost 模型的超參數(shù)眾多,故針對(duì)此模型進(jìn)行基于TPE 的貝葉斯優(yōu)化,以自動(dòng)優(yōu)化其超參數(shù),從而提升TPE_XGBoost 冠心病風(fēng)險(xiǎn)評(píng)估模型的性能;最后,通過(guò)SHAP 解釋模型對(duì)特征進(jìn)行分析,獲得不同特征對(duì)模型預(yù)測(cè)的貢獻(xiàn)度,提高模型的可解釋性。

        1.1 XGBoost模型

        XGBoost 是一種能夠?qū)崿F(xiàn)分類(lèi)與回歸的Boosting 集成學(xué)習(xí)算法[6],由多個(gè)弱學(xué)習(xí)器迭代學(xué)習(xí)實(shí)現(xiàn)強(qiáng)學(xué)習(xí)器。XGBoost 目標(biāo)函數(shù)包括損失函數(shù)和正則項(xiàng)兩部分,本質(zhì)是對(duì)梯度提升決策樹(shù)的改進(jìn)[7-8]。XGBoost 對(duì)損失函數(shù)使用二階泰勒展開(kāi),可以有效控制模型過(guò)擬合,提高預(yù)測(cè)精度[9-11]。正則項(xiàng)可以提升單顆樹(shù)的泛化能力。

        1.2 貝葉斯優(yōu)化

        貝葉斯優(yōu)化(Bayesian Optimization,BO)是一種基于概率分布的全局優(yōu)化算法[12],用于解決最優(yōu)化問(wèn)題[13],以求得XGBoost的超參數(shù)最優(yōu)解,如式(1)所示。

        其中,x表示d維決策向量,X表示決策空間,f表示目標(biāo)函數(shù)。在本文中,x為XGBoost 預(yù)測(cè)算法的超參數(shù)組合,f(x)為準(zhǔn)確率高低的測(cè)度。貝葉斯優(yōu)化主要包含兩個(gè)核心部分:概率代理模型和采集函數(shù)[14-15]。本文的概率代理模型為樹(shù)形概率密度估計(jì)[16]。

        1.3 SHAP解釋模型

        SHAP(Shapley Additive Explanations)是 由Lundberg等[17]提出的用于解釋黑箱模型的一種解釋框架,廣泛應(yīng)用于解釋醫(yī)療和社會(huì)現(xiàn)象[18]。SHAP 基于博弈論和局部解釋?zhuān)ㄟ^(guò)計(jì)算每個(gè)特征的Shapley value,以此衡量每個(gè)特征對(duì)預(yù)測(cè)結(jié)果的貢獻(xiàn)度[19]。如式(2)所示,其中g(shù)表示解釋模型,M表示特征數(shù)目,z表示該特征是否存在,φ為每個(gè)特征的Shapley value。當(dāng)φi>0,說(shuō)明該特征對(duì)模型結(jié)果有正向作用,反之,說(shuō)明該特征對(duì)模型結(jié)果有負(fù)面影響。

        2 模型構(gòu)建及對(duì)比實(shí)驗(yàn)

        2.1 實(shí)驗(yàn)環(huán)境

        本文使用人工智能實(shí)驗(yàn)室服務(wù)器進(jìn)行訓(xùn)練與測(cè)試,具體配置如表1所示。

        Table 1 Specific configuration of experimental environment表1 實(shí)驗(yàn)環(huán)境具體配置

        2.2 評(píng)價(jià)指標(biāo)

        為了評(píng)估本文構(gòu)建模型的優(yōu)劣,采用5 項(xiàng)常用的機(jī)器學(xué)習(xí)分類(lèi)指標(biāo),分別為:準(zhǔn)確率(Accuracy)、精確率(Precision)、召回率(Recall)、F1 值(F1-score)及AUC 值(Area Under Curve,AUC)。準(zhǔn)確率、精確率、召回率和F1 值可通過(guò)混淆矩陣進(jìn)行表示,如表2所示。

        Table 2 Confusion matrix表2 混淆矩陣

        這些評(píng)價(jià)指標(biāo)的相關(guān)公式如式(3)-(8)所示。

        2.3 數(shù)據(jù)及其特征工程

        2.3.1 數(shù)據(jù)來(lái)源及納入規(guī)則

        本文的數(shù)據(jù)集來(lái)自南京中醫(yī)藥大學(xué)附屬連云港中醫(yī)院的體檢數(shù)據(jù),該數(shù)據(jù)集包含2017-2021 年體檢人群的基本信息、體檢項(xiàng)目、體檢報(bào)告、體檢問(wèn)卷等信息,包括58 602例健康人群和674 例冠心病患者。數(shù)據(jù)共包含216 個(gè)特征和1個(gè)標(biāo)簽,是否患冠心病是一個(gè)二分類(lèi)問(wèn)題,為處理缺失特征、選擇高相關(guān)性特征、提高模型泛化能力,本文采用特征選擇、缺失值處理和數(shù)據(jù)標(biāo)準(zhǔn)化方法進(jìn)行預(yù)處理。

        健康人群雖某次體檢未有異常,但是存在既往病史,例如患甲亢、糖尿病在服藥等情況。既往病史的復(fù)雜背景或其接受過(guò)的治療可能影響研究結(jié)果的準(zhǔn)確性,故刪除有既往病史的人群,總共有16例。

        2.3.2 特征選擇

        為了方便大眾隨時(shí)隨地都可得知自己將來(lái)是否會(huì)患有冠心病,選取不用去醫(yī)院即可測(cè)得的數(shù)據(jù),分別為收縮壓、舒張壓、體重指數(shù)、低密度膽固醇、高密度膽固醇、總膽固醇、空腹血糖、甘油三酯和尿酸,同時(shí)納入人口統(tǒng)計(jì)學(xué)變量:性別和年齡。

        2.3.3 缺失值處理

        分別將未患冠心病和患冠心病的數(shù)據(jù)進(jìn)行缺失值的可視化,如圖2、圖3 所示。白色線(xiàn)條越多,說(shuō)明數(shù)據(jù)缺失越多。從圖2、圖3 可以得知,除性別和年齡外,其他特征都有缺失。其中,患冠心病的人群特征缺失較少,缺失最多的是體重指數(shù),達(dá)到8.2%,未患冠心病的人群特征缺失較為嚴(yán)重。由于部分病人的重要特征缺失,采用算法自動(dòng)進(jìn)行填充可能對(duì)分析結(jié)果造成較大影響,因此本文直接將生理指標(biāo)缺失嚴(yán)重的樣本刪除。

        Fig.2 Feature absence of individuals without coronary heart disease圖2 未患冠心病人群特征缺失情況

        Fig.3 Feature absence of individuals with coronary heart disease圖3 患冠心病人群特征缺失情況

        2.3.4 數(shù)據(jù)標(biāo)準(zhǔn)化

        根據(jù)醫(yī)院體檢系統(tǒng)里給定的參考范圍對(duì)數(shù)據(jù)進(jìn)行劃分,劃分標(biāo)準(zhǔn)如表3 所示。其中,a為參考范圍中的最小值,b為參考范圍中的最大值,x為特征值。

        2.4 與其他機(jī)器學(xué)習(xí)模型對(duì)比

        為了更好地驗(yàn)證本文模型的優(yōu)越性,將本文模型與9個(gè)機(jī)器學(xué)習(xí)模型進(jìn)行對(duì)比,各模型均使用默認(rèn)參數(shù),并使用準(zhǔn)確率、精確率、召回率、F1 值、AUC 值5 個(gè)指標(biāo)對(duì)模型進(jìn)行評(píng)估。將預(yù)處理后的數(shù)據(jù)集劃分為訓(xùn)練集和測(cè)試集,比例為7∶3。

        各個(gè)模型實(shí)驗(yàn)結(jié)果如表4 所示。由實(shí)驗(yàn)結(jié)果可知,本文所用模型的評(píng)價(jià)指標(biāo)均優(yōu)于9 個(gè)對(duì)比模型,準(zhǔn)確率、精確率、召回率、F1值、AUC值分別為0.974 5、0.970 6、0.990 0、0.980 2、0.968 7,所以XGBoost模型是最優(yōu)模型。

        Table 3 Data standardization表3 數(shù)據(jù)標(biāo)準(zhǔn)化

        Table 4 Comparison results with other machine learning models表4 與其他機(jī)器學(xué)習(xí)模型對(duì)比結(jié)果

        2.5 基于TPE的貝葉斯優(yōu)化

        XGBoost 模型的超參數(shù)較多,因此參數(shù)設(shè)置是否合理會(huì)影響模型精度。僅使用默認(rèn)參數(shù)進(jìn)行測(cè)試,并不能得出最優(yōu)結(jié)果,因此需要對(duì)XGBoost 進(jìn)行超參數(shù)優(yōu)化。常用的調(diào)參方法為網(wǎng)格搜索、隨機(jī)搜索、貝葉斯優(yōu)化等[20-21],本文使用基于TPE 的貝葉斯優(yōu)化進(jìn)行超參數(shù)優(yōu)化,以準(zhǔn)確率的十折交叉驗(yàn)證平均值作為目標(biāo)函數(shù),從而獲得最佳參數(shù)。

        XGBoost 共有3 類(lèi)參數(shù):一般參數(shù)、提升參數(shù)、學(xué)習(xí)參數(shù)。本文選擇影響力較大的超參數(shù)進(jìn)行優(yōu)化,為了找到最優(yōu)的超參數(shù)組合,首先設(shè)置合理的超參數(shù)空間,如表5所示。

        通過(guò)不斷迭代,得出12 個(gè)超參數(shù)的最優(yōu)組合。尋找最優(yōu)參數(shù)的結(jié)果如圖4 所示。圖中,圓點(diǎn)表示超參數(shù)不同取值對(duì)應(yīng)的準(zhǔn)確率,五角星表示模型達(dá)到最高準(zhǔn)確率時(shí)該超參數(shù)的取值。準(zhǔn)確率最高為0.993 7,此時(shí)n_estimators為77,learning_rate為0.38,colsample_bytree為0.47,colsample_bynode為0.1,max_depth為9,gamma為5.3,subsample為0.77,reg_lambda為0.08,min_child_weight為9.58,objective為binary:logistic,rate_drop為0.38,reg_alpha為0.18。

        經(jīng)貝葉斯優(yōu)化后的模型TPE_XGBoost 在5 個(gè)評(píng)價(jià)指標(biāo)上均有所提升,準(zhǔn)確率、精確率、召回率、F1 值、AUC 值分別為0.993 7、0.992 9、0.998 1、0.995 5、0.998 3,比采用默認(rèn)參數(shù)的XGBoost 性能提升約0.81%~2.97%,原因是尋找到的最優(yōu)超參數(shù)組合與本文的數(shù)據(jù)集更加匹配,降低了復(fù)雜性,可防止產(chǎn)生過(guò)擬合,從而提升了模型性能。調(diào)參后的模型與其他算法比較如表6所示。

        Table 5 Hyperparameter selection表5 超參數(shù)選擇

        3 基于 SHAP 的模型解釋性分析

        利用SHAP 模型對(duì)基于TPE_XGBoost 的冠心病預(yù)測(cè)模型的實(shí)驗(yàn)結(jié)果進(jìn)行特征分析,圖5 為SHAP 摘要圖,該圖縱軸代表特征重要性排序,橫軸代表特征對(duì)模型的影響。由圖5 可知,AGE(年齡)、體重指數(shù)、低密度膽固醇、舒張壓、甘油三脂、高血壓等特征對(duì)模型的影響較大。SHAP 得出最重要的特征為年齡,隨著年齡的增大,患冠心病的風(fēng)險(xiǎn)也會(huì)增加;體重指數(shù)對(duì)患冠心病也有較大影響,體重指數(shù)越高,患冠心病的風(fēng)險(xiǎn)越大;舒張壓越高,患冠心病風(fēng)險(xiǎn)越大;若患有高血壓,則患冠心病的風(fēng)險(xiǎn)也較大;在相似的條件下,男性患冠心病的風(fēng)險(xiǎn)大于女性;尿酸越高,患冠心病的風(fēng)險(xiǎn)也越大。

        利用SHAP 繪制前4 個(gè)重要特征的依賴(lài)圖,如圖6 所示。隨著年齡、體重指數(shù)、舒張壓的增加,SHAP 的值也增加,說(shuō)明這些特征的值越大,患冠心病的風(fēng)險(xiǎn)則越大;SHAP 的值隨著低密度膽固醇值的增大而減小,說(shuō)明該特征在正常范圍內(nèi)對(duì)冠心病具有反向影響。

        利用SHAP 對(duì)某個(gè)預(yù)測(cè)為患冠心病和未患冠心病的個(gè)體進(jìn)行分析,分析結(jié)果分別如圖7、圖8 所示。紅色指將模型分?jǐn)?shù)變高的特征,藍(lán)色指將模型分?jǐn)?shù)變低的特征,箭頭長(zhǎng)度越長(zhǎng),代表該特征對(duì)模型結(jié)果的影響越大。由圖7 可知,被預(yù)測(cè)為患冠心病的原因包括年齡較大、收縮壓與舒張壓較高、低密度膽固醇較低等。由圖8 可知,被預(yù)測(cè)為未患冠心病的原因包括年齡較小、未患高血壓、舒張壓正常以及體重指數(shù)、甘油三脂較低等。

        Fig.4 Finding the optimal parameter result圖4 尋找最優(yōu)參數(shù)結(jié)果

        Table 6 Comparison of model after parameter tuning with other algorithms表6 調(diào)參后的模型與其他算法比較

        Fig.5 SHAP summary graph圖5 SHAP摘要圖

        SHAP 解釋模型、XGBoost 模型的特征重要性排序如圖9、圖10 所示,可以看出,特征排名并不完全一樣,但這兩個(gè)模型都將年齡排在首位,故年齡是冠心病的重要風(fēng)險(xiǎn)因素,另外低密度膽固醇、舒張壓、體重指數(shù)是影響患病的關(guān)鍵因素。

        4 結(jié)語(yǔ)

        當(dāng)前冠心病的患病率逐年攀升,且年輕化趨勢(shì)明顯。為減少醫(yī)療診斷開(kāi)支,提高冠心病診斷的準(zhǔn)確率,輔助臨床決策,將機(jī)器學(xué)習(xí)算法運(yùn)用于冠心病風(fēng)險(xiǎn)評(píng)估中,對(duì)降低冠心病的患病概率有著重要意義。本文基于機(jī)器學(xué)習(xí)算法,使用醫(yī)院的體檢數(shù)據(jù),首先對(duì)該數(shù)據(jù)進(jìn)行預(yù)處理,構(gòu)建的XGBoost 模型比其他9 種模型更優(yōu);然后經(jīng)過(guò)TPE 對(duì)XGBoost 預(yù)測(cè)模型的優(yōu)化,性能提升約0.81%~2.97%,準(zhǔn)確率達(dá)到0.993 7;最后通過(guò)SHAP 模型對(duì)各個(gè)特征的重要性進(jìn)行合理解釋?zhuān)贸瞿挲g、體重指數(shù)、低密度膽固醇、舒張壓等是影響冠心病患病的關(guān)鍵因素。

        本文實(shí)驗(yàn)?zāi)P退捎玫臄?shù)據(jù)獲取更加方便,節(jié)約了大眾去醫(yī)院檢查的時(shí)間和費(fèi)用,便于其自行分析和調(diào)整身體狀態(tài)。此外,由于本文納入的特征較少,可能會(huì)忽略部分重要特征。在下一步研究中,將納入更全面的特征,如是否吸煙、飲食習(xí)慣、作息和運(yùn)動(dòng)規(guī)律等,進(jìn)一步分析相關(guān)特 征對(duì)冠心病的影響,指導(dǎo)大眾健康生活。

        Fig.6 SHAP important features dependency diagram圖6 SHAP重要特征依賴(lài)圖

        Fig.7 An analytical plot that predicts coronary heart disease圖7 預(yù)測(cè)為患冠心病的分析圖

        Fig.9 SHAP feature importance ranking圖9 SHAP特征重要性排名

        Fig.10 TPE_XGBoost model feature importance ranking圖10 TPE_XGBoost模型特征重要性排名

        猜你喜歡
        貝葉斯準(zhǔn)確率冠心病
        ADAMTs-1、 CF6、 CARP在冠心病合并慢性心力衰竭中的意義
        乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
        健康之家(2021年19期)2021-05-23 11:17:39
        不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
        2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
        茶、汁、飲治療冠心病
        警惕冠心病
        智慧健康(2019年36期)2020-01-14 15:22:58
        高速公路車(chē)牌識(shí)別標(biāo)識(shí)站準(zhǔn)確率驗(yàn)證法
        貝葉斯公式及其應(yīng)用
        基于貝葉斯估計(jì)的軌道占用識(shí)別方法
        冠心病室性早搏的中醫(yī)治療探析
        精品国产日韩无 影视| 欧美性猛交xxxx乱大交3| 护士奶头又白又大又好摸视频 | 亚洲一品道一区二区三区| 国产成人av乱码在线观看| 国产乱妇乱子视频在播放| 亚洲国产日韩在线人成蜜芽| 一区二区三区日本美女视频| 亚洲综合国产成人丁香五月激情 | 中文字幕亚洲视频一区| 7m精品福利视频导航| 国产精品国语对白露脸在线播放 | 国产精品不卡无毒在线观看| 日本黑人人妻一区二区水多多| 国产一区二区三区内射| 48沈阳熟女高潮嗷嗷叫| 99精品成人片免费毛片无码| 国产午夜在线观看视频| 亚洲最新无码中文字幕久久| 少妇装睡让我滑了进去| 亚洲 暴爽 AV人人爽日日碰| 国产毛片精品av一区二区| 精品精品国产自在97香蕉| 免费av片在线观看网站| 国产亚洲av手机在线观看| 免费国产在线精品一区二区三区免| 久久er99热精品一区二区| 亚洲色欲大片AAA无码| 青青草免费观看视频免费 | 国产成人一区二区三区影院动漫| 亚洲AV无码一区二区二三区我| 国产美女一区三区在线观看| 国产综合精品一区二区三区| 97久久久久人妻精品专区| 青青草国内视频在线观看| 综合色免费在线精品视频| 亚洲精品第一国产综合亚av| 亚洲一区二区高清精品| 麻豆成人久久精品一区| 国产成人精品午夜二三区波多野| 久久香蕉成人免费大片|