亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種面向不平衡數(shù)據(jù)的心臟病風(fēng)險(xiǎn)預(yù)測(cè)可解釋性框架

        2023-08-01 13:57:15周展劉彬鄭立瑞譚建聰鄒北驥彭清華肖曉霞

        周展 劉彬 鄭立瑞 譚建聰 鄒北驥 彭清華 肖曉霞

        〔摘要〕 目的 研究疾病預(yù)測(cè)模型存在的類別不平衡性與不可解釋性難題。方法 結(jié)合極限梯度提升(eXtreme gradient boosting, XGBoost)、混合采樣和Shapley加法解釋(shapley additive exPlanations, SHAP)分析,提出一種面向不平衡數(shù)據(jù)的心臟病風(fēng)險(xiǎn)預(yù)測(cè)可解釋性框架ICRPI。結(jié)果 該框架下的風(fēng)險(xiǎn)預(yù)測(cè)模型平衡準(zhǔn)確度為0.942 50,AUC為0.986 03,模型可視化分析獲得高齡、高體質(zhì)量指數(shù)(body mass index, BMI)值、患有糖尿病等9個(gè)心臟病危險(xiǎn)因素,并得出高齡的糖尿病患者、高BMI值且診斷為糖尿病或臨界糖尿病患者、高BMI值且缺乏體力活動(dòng)群體為患心臟病高危群體,臨界糖尿病人群參與體力活動(dòng)可降低患心臟病風(fēng)險(xiǎn)。結(jié)論 ICRPI框架適用于真實(shí)臨床不平衡數(shù)據(jù)分析,且能明確給出致病風(fēng)險(xiǎn)因素及其相關(guān)性,可有效提高臨床診斷準(zhǔn)確率的同時(shí)為醫(yī)生提供致病因素分析,智能輔助醫(yī)生臨床診療。

        〔關(guān)鍵詞〕 數(shù)據(jù)類別不平衡;心臟病風(fēng)險(xiǎn)預(yù)測(cè);XGBoost;SHAP;可解釋性

        〔中圖分類號(hào)〕R2? ? ? ?〔文獻(xiàn)標(biāo)志碼〕A? ? ? ? 〔文章編號(hào)〕doi:10.3969/j.issn.1674-070X.2023.06.019

        〔Abstract〕 Objective To solve the problems caused by imbalanced data and interpretability of disease prediction models. Methods ICRPI, the framework for predicting heart disease risk factors with interpretability by imbalanced data was proposed by combining eXtreme Gradient Boosting(XGBoost), mixed sampling, and Shapley Additive exPlanations(SHAP). Results The balance accuracy of the risk prediction model within this framework was 0.942 50, and the AUC was 0.986 03. Nine heart disease factors such as older age, high body mass index (BMI) value, and diabetes were obtained by model visualization analysis. The older diabetic patients, the diabetes or borderline diabetes with high BMI value, the patients with high BMI and lacking physical activities are high-risk groups for heart disease; while for the borderline diabetes, physical activity can reduce the risk of heart disease. Conclusion The ICRPI framework can analyze real clinical imbalance data, and can clearly show the pathogenic factors and their correlations. It can effectively improve the accuracy of clinical diagnosis, provide pathogenic factor analysis for doctors, and intelligently assist doctors in clinical practice.

        〔Keywords〕 imbalanced data; predicting heart disease risk factors; XGBoost; SHAP; interpretability

        心血管疾病(cardiovascular disease, CVD)是心臟病和血管疾病的一個(gè)類別,包括冠心病、腦血管病、先天性心臟病、心力衰竭等。根據(jù)《中國(guó)心血管健康與疾病報(bào)告2021》推算我國(guó)現(xiàn)心血管患病人數(shù)為3.3億,2019年農(nóng)村和城市CVD死亡人數(shù)分別占總死亡人數(shù)的46.74%和44.26%,且死亡率仍處于持續(xù)上升趨勢(shì)[1]。目前,CVD臨床診斷多采用臨床血管造影術(shù)和影像診斷,該方式對(duì)醫(yī)院資源配置要求較高,檢查費(fèi)用昂貴且對(duì)人體有一定創(chuàng)傷[2]。CVD治療費(fèi)用高昂,2019年中國(guó)心腦血管疾病患者的住院總費(fèi)用為3 133.66億元,且其負(fù)擔(dān)持續(xù)加重,特別是在農(nóng)村地區(qū)[1]。因此,早預(yù)防、早發(fā)現(xiàn)和早治療是減輕患者負(fù)擔(dān)的關(guān)鍵。

        CVD往往是多種危險(xiǎn)因素協(xié)同作用的結(jié)果,通過(guò)疾病風(fēng)險(xiǎn)評(píng)估可了解患病風(fēng)險(xiǎn),做到早預(yù)防和早治療,但這要求醫(yī)生具有較高專業(yè)水平?;诖髷?shù)據(jù)建立機(jī)器學(xué)習(xí)模型并分析患病危險(xiǎn)因素可輔助醫(yī)生診斷決策,提高診斷準(zhǔn)確率,緩解醫(yī)療資源不均衡問(wèn)題。同時(shí),也可從海量臨床數(shù)據(jù)中發(fā)現(xiàn)疾病診療新知識(shí),豐富臨床診斷知識(shí)。朱宵彤等[2]提出了基于一維卷積的CVD預(yù)測(cè)模型,在爾灣加州大學(xué)兩個(gè)數(shù)據(jù)集上的獨(dú)立實(shí)驗(yàn)準(zhǔn)確率分別93.36%和94.48%。李瑞等[3]基于心腦一體化CT血管成像預(yù)測(cè)主要心血管不良事件,采用多因素邏輯回歸(logistic regression, LR)分析其危險(xiǎn)因素,顯示多因素綜合的心腦血管系統(tǒng)的影像評(píng)估模型預(yù)測(cè)結(jié)果最佳。然而這些研究都是基于類別平衡的數(shù)據(jù)集,而真實(shí)臨床數(shù)據(jù)多為類別不均衡數(shù)據(jù),基于這種數(shù)據(jù)構(gòu)建的機(jī)器學(xué)習(xí)模型性能較差,且大多機(jī)器學(xué)習(xí)和深度學(xué)習(xí)模型都缺乏可解釋性,無(wú)法直接給出模型基于哪些因素進(jìn)行預(yù)測(cè),這將無(wú)法滿足醫(yī)療領(lǐng)域要求模型可解釋的需求。目前,CVD風(fēng)險(xiǎn)預(yù)測(cè)模型對(duì)類別不均衡和模型可解釋性的問(wèn)題關(guān)注較少,本文提出基于類別不平衡數(shù)據(jù)集的ICRPI心血管疾病風(fēng)險(xiǎn)預(yù)測(cè)模型,該模型融合SMOTEENN采樣、極限梯度提升(eXtreme gradient boosting, XGBoost)等模型和SHAP可解釋性分析,可獲得較高風(fēng)險(xiǎn)預(yù)測(cè)準(zhǔn)確率的同時(shí)獲得影響CVD的危險(xiǎn)因素,為構(gòu)建智能診療模型打下基礎(chǔ)。

        1 相關(guān)工作

        1.1? 基于結(jié)構(gòu)化數(shù)據(jù)的分類算法

        LR的本質(zhì)是對(duì)數(shù)幾率(log odds)的線性模型,由于線性模型由特征權(quán)重的線性加權(quán)組成,可通過(guò)特征權(quán)重來(lái)解釋特征對(duì)輸出的貢獻(xiàn)程度,LR則可通過(guò)特征改變帶來(lái)的對(duì)數(shù)幾率的變化來(lái)解釋模型,因此LR具有內(nèi)置可解釋性。MCRAE等[4]通過(guò)LR的可解釋性,建立基于多變量指數(shù)測(cè)定系統(tǒng)的“心臟病計(jì)分卡”,分析CVD的危險(xiǎn)因素,疾病預(yù)測(cè)心臟健康和心力衰竭的AUC分別為0.840 3和0.941 2。決策樹(shù)(decision tree, DT)是通過(guò)樹(shù)形結(jié)構(gòu)形象地模擬出決策過(guò)程,從根節(jié)點(diǎn)到葉子節(jié)點(diǎn)的路徑代表一條決策路徑,只要將DT可視化即可了解模型決策全過(guò)程,因此DT是內(nèi)置可解釋性模型。但為提高模型準(zhǔn)確性所建立的DT,往往因?qū)訑?shù)較深使人類無(wú)法真正理解。BLANCO-JUSTICIA等[5]通過(guò)微聚合結(jié)合淺層DT進(jìn)行機(jī)器學(xué)習(xí)模型解釋。這些具有內(nèi)置可解釋性的分類算法,雖具有較好的模型可解釋性,但受模型本身的限制使其預(yù)測(cè)準(zhǔn)確性不高。隨機(jī)森林(random forest, RF)是由BREIMAN等[6]提出的基于Bagging的集成學(xué)習(xí)方法,而XGBoost是基于Boosting的集成學(xué)習(xí)算法[7]。相較于其他機(jī)器學(xué)習(xí)模型,不少學(xué)者發(fā)現(xiàn)集成學(xué)習(xí)模型預(yù)測(cè)能力更強(qiáng)[8-11]。但集成學(xué)習(xí)模型作為“黑盒模型”,在可解釋方面存在不足。深度學(xué)習(xí)模型在圖像和自然語(yǔ)言處理領(lǐng)域不僅預(yù)測(cè)性能高,還能避免大量特征工程工作,但在結(jié)構(gòu)化數(shù)據(jù)任務(wù)中的表現(xiàn)卻不如集成樹(shù)模型。為提升神經(jīng)網(wǎng)絡(luò)模型在結(jié)構(gòu)化數(shù)據(jù)中的性能,許多學(xué)者研究如何實(shí)現(xiàn)模擬樹(shù)結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)架構(gòu)[12-13]。TabNet是Google發(fā)布的針對(duì)結(jié)構(gòu)化數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)模型[14]。與之前學(xué)者研究的模型相比,該模型不僅預(yù)測(cè)性能更好,且可提供模型輸出的可視化解釋。劉玉航[15]在研究中醫(yī)哮喘辨證分型中提出基于定向正則化的TabNet模型,其辨證模型在多評(píng)價(jià)指標(biāo)中占優(yōu)。盡管基于結(jié)構(gòu)化數(shù)據(jù)的深度學(xué)習(xí)模型在近年來(lái)取得了較大的進(jìn)展,但這些模型不論在準(zhǔn)確性、性能還是可解釋性方面仍然有待改進(jìn)。從整體上來(lái)看,在結(jié)構(gòu)化數(shù)據(jù)領(lǐng)域分類模型中集成樹(shù)模型仍然處于優(yōu)勢(shì)地位[16]。

        1.2? SHAP可解釋性分析

        盡管集成樹(shù)模型在預(yù)測(cè)能力上取得巨大成功,但缺乏可解釋性的模型仍難以在業(yè)界應(yīng)用,尤其在醫(yī)療領(lǐng)域中。集成樹(shù)模型的解釋方法常用有兩種,第一種方法是將模型轉(zhuǎn)化為可解釋的模型,用可解釋性模型替代“黑盒模型”進(jìn)行模型解釋。SAGI等[17]通過(guò)將任意決策森林模型轉(zhuǎn)為可解釋性DT進(jìn)行模型解釋,使其預(yù)測(cè)能力近似XGBoost模型且具有可解釋性。這種方法雖然可解釋模型,但在預(yù)測(cè)能力方面仍不足原生模型。第二種方法是使用模型無(wú)關(guān)的方法,該方法通過(guò)關(guān)注模型的輸入和輸出行為而不是模型的內(nèi)部結(jié)構(gòu)來(lái)解釋模型。傳統(tǒng)的模型無(wú)關(guān)解釋方法是輸出置換特征重要性,這種方法能輸出對(duì)模型影響較大的特征并直觀地反映特征的重要程度,但無(wú)法提供具體特征與預(yù)測(cè)輸出的關(guān)系,在可解釋力度上仍有不足。該問(wèn)題的替代方案是使用Shapley值替代置換特征值,Shapley值不僅能表示特征重要度還能顯示特征如何影響模型輸出,例如在二分類任務(wù)中,通過(guò)輸出某特征的Shapley值即可表示該特征對(duì)模型輸出結(jié)果值(正類或負(fù)類)的貢獻(xiàn)度。與傳統(tǒng)的特征重要性方法相比,Shapley值更具有數(shù)學(xué)上的有效性,它是唯一滿足效益性、對(duì)稱性、虛擬性和可加性的歸因方法[18]。但計(jì)算Shapley值的時(shí)間復(fù)雜度較高,使其難以應(yīng)用于真實(shí)領(lǐng)域。SHAP是Shapley值的另一種估計(jì)方法,該方法極大地提升了計(jì)算速度,實(shí)現(xiàn)了工業(yè)化應(yīng)用[19]。為計(jì)算特征x的SHAP值,假設(shè)set代表特征x與其他特征的所有可能的組合,F(xiàn)代表所有特征的個(gè)數(shù),模型在包含特征x的特征組合下的預(yù)測(cè)結(jié)果表示為Predictset(x),模型在不包含特征x的特征組合下的預(yù)測(cè)結(jié)果表示為Predictset/feature(x),特征x的SHAP值計(jì)算公式如(1)所示。

        SHAP概要圖是將輸出重要特征和特征效應(yīng)相結(jié)合的全局可解釋性方法,通過(guò)SHAP概要圖可直觀了解每個(gè)重要特征對(duì)模型類別輸出的影響程度,但它無(wú)法展示不同特征值下模型輸出結(jié)果的變化趨勢(shì)。SHAP依賴圖可展示單個(gè)特征取不同值時(shí)SHAP值的變化趨勢(shì),也是一種全局可解釋性方法。這兩種全局解釋方法中,概要圖顯示重要特征對(duì)模型輸出的關(guān)系,依賴圖則從某個(gè)重要特征入手進(jìn)一步展示該特征不同取值時(shí)對(duì)模型預(yù)測(cè)的影響。SHAP可解釋性分析屬于模型無(wú)關(guān)可解釋方法,相較于傳統(tǒng)方法的優(yōu)勢(shì)在于具有靈活性且不影響模型的預(yù)測(cè)能力。

        1.3? 不平衡分類的數(shù)據(jù)采樣方法

        在醫(yī)療領(lǐng)域,由于疾病的發(fā)病率不同,使得收集到的數(shù)據(jù)往往存在類別不平衡的問(wèn)題。傳統(tǒng)機(jī)器學(xué)習(xí)方法和深度學(xué)習(xí)方法在數(shù)據(jù)類別均衡時(shí)能取得較好成績(jī),相反往往性能極差,特別在類別極度不均衡時(shí)。面對(duì)類別極度不平衡的數(shù)據(jù),通常使用數(shù)據(jù)采樣的方法來(lái)解決。主流的采樣方法有欠采樣、過(guò)采樣和混合采樣,目的都是通過(guò)改變數(shù)據(jù)量使不同類別的樣本量達(dá)到平衡。欠采樣是減少多數(shù)類的樣本量確保樣本量均衡的方法,隨機(jī)欠采樣通過(guò)隨機(jī)丟棄部分多數(shù)類樣本使樣本量達(dá)到平衡,是經(jīng)典的欠采樣方法。過(guò)采樣與欠采樣相反,是通過(guò)數(shù)學(xué)模型或方法合成的方式增加少數(shù)類樣本量使不同類別的樣本量均衡。最為經(jīng)典的過(guò)采樣方法是CHAWLA等[20]提出的SMOTE算法,該方法增加了數(shù)據(jù)量使數(shù)據(jù)達(dá)到均衡,同時(shí)提高了數(shù)據(jù)質(zhì)量,在諸多領(lǐng)域得到認(rèn)可。由于過(guò)采樣能增加樣本量則更多應(yīng)用于小樣本數(shù)據(jù)集,但樣本合成的方式容易造成過(guò)擬合?;旌喜蓸邮菍⑶凡蓸雍瓦^(guò)采樣相結(jié)合使不同類別樣本量達(dá)到平衡的方法,BATISTA等[21]提出的SMOTETomek和SMOTEENN算法是較為經(jīng)典的混合采樣方法?;旌喜蓸涌蓮浹a(bǔ)欠采樣導(dǎo)致的樣本量減少,同時(shí)能優(yōu)化過(guò)采樣導(dǎo)致的樣本重疊問(wèn)題,能在不改變數(shù)據(jù)量的條件下均衡數(shù)據(jù)集。

        2 對(duì)象和方法

        2.1? 研究對(duì)象及數(shù)據(jù)規(guī)范

        本文采用kaggle網(wǎng)站2020年的Personal Key Indicators of Heart Disease數(shù)據(jù)集(https://www.kaggle.com/datasets/kamilpytlak/personal-key-indicators-of-heart-disease),其數(shù)據(jù)總量為319 795,包括167 805名女性和151 990名男性,分類標(biāo)簽為是否患有心臟病,包括27 373名心臟病患者和292 422名非心臟病患者,共有17個(gè)特征。通過(guò)樣本量分析,該數(shù)據(jù)集具有數(shù)據(jù)量大且數(shù)據(jù)類別不平衡的特點(diǎn)。

        本文采用的數(shù)據(jù)集的數(shù)據(jù)規(guī)范化包括:分類標(biāo)簽數(shù)值化處理(心臟病患者標(biāo)記為“1”,非心臟病患者標(biāo)記為“0”)、特征數(shù)值化處理(文本特征值數(shù)值化)以及范圍特征取均值(如:年齡范圍為55~59,則取57),規(guī)范化結(jié)果如表1所示。

        2.2? ICRPI框架

        本文首先進(jìn)行數(shù)據(jù)規(guī)范化,將規(guī)范后數(shù)據(jù)集進(jìn)行類別平衡處理,得到多個(gè)“人工”數(shù)據(jù)集,對(duì)各“人工”數(shù)據(jù)集分別構(gòu)建模型并得到疾病預(yù)測(cè)結(jié)果,選擇最優(yōu)預(yù)測(cè)模型并根據(jù)心血管醫(yī)學(xué)理論為基準(zhǔn)進(jìn)行SHAP分析,具體模型架構(gòu)如圖1所示。

        ICRPI框架執(zhí)行步驟:(1)使用規(guī)范化后數(shù)據(jù)集S(樣本量為n),由特征集與分類標(biāo)簽組成;(2)對(duì)數(shù)據(jù)集S分別進(jìn)行隨機(jī)欠采樣、SMOTE過(guò)采樣、SMOTETomek和SMOTEENN混合采樣,得到采樣后“人工”數(shù)據(jù)集;(3)對(duì)“人工”數(shù)據(jù)集分別構(gòu)建LR、RF、XGBoost、TabNet模型,并采用平衡準(zhǔn)確度、精度、召回率、F1和AUC進(jìn)行模型結(jié)果評(píng)價(jià),對(duì)比模型評(píng)價(jià)結(jié)果,得到預(yù)測(cè)性能最佳模型M;(4)通過(guò)SHAP獲取影響模型M輸出的重要特征;(5)使用SHAP概要圖導(dǎo)出重要特征與心臟病患病的相關(guān)關(guān)系;(6)使用SHAP依賴圖導(dǎo)出top5重要特征的單變量依賴圖;(7)對(duì)單變量依賴圖進(jìn)行分析,并導(dǎo)出無(wú)法直接反映線性關(guān)系的重要特征的交互依賴圖;(8)結(jié)合相關(guān)臨床研究結(jié)果與實(shí)際情況對(duì)步驟(6)和步驟(7)中導(dǎo)出的圖進(jìn)行可解釋性分析。

        3 實(shí)驗(yàn)結(jié)果與可解釋性分析

        3.1? 實(shí)驗(yàn)結(jié)果分析與對(duì)比

        本文以TabNet、RF、DT、LR和XGBoost模型為基礎(chǔ)構(gòu)建心臟病風(fēng)險(xiǎn)預(yù)測(cè)模型,采用平衡準(zhǔn)確度、AUC、F1、精度和召回率作為模型評(píng)價(jià)指標(biāo),分別對(duì)類別不平衡的原始數(shù)據(jù)集和采樣后的數(shù)據(jù)集構(gòu)建模型,結(jié)果如表2所示。從表2可知,所有在原始數(shù)據(jù)集上構(gòu)建的模型效果都不好。經(jīng)分別使用隨機(jī)采樣、SMOTE采樣、SMOTETomek采樣和SMOTEENN采樣后,所建立的模型具有更好的學(xué)習(xí)能力,其中XGBoost+SMOTEENN模型的效果最好,其平衡準(zhǔn)確度為0.942 5,比RF+SMOTEENN模型稍好,比XGBoos高出0.41還多,比TabNet模型高出0.175,說(shuō)明XGBoost+SMOTEENN模型在數(shù)據(jù)集上效果最佳。

        3.2? 可解釋性分析

        由于在采樣后建立的XGBoost+SMOTEENN模型的預(yù)測(cè)結(jié)果整體要優(yōu)于其他機(jī)器學(xué)習(xí)模型,因此本文選擇該模型做臨床診斷可解釋性分析。XGBoost是“黑盒模型”,無(wú)法通過(guò)模型內(nèi)置性質(zhì)獲得模型解釋,但模型都依賴特征進(jìn)行預(yù)測(cè),可通過(guò)分析特征取值與模型預(yù)測(cè)結(jié)果的關(guān)系了解模型決策的依據(jù)。不同特征對(duì)于模型決策的重要程度不同,模型決策結(jié)果往往僅受少數(shù)重要特征影響,因此,本研究重點(diǎn)分析對(duì)模型輸出結(jié)果影響大的少數(shù)重要特征,而不是均攤地解釋所有特征。本研究通過(guò)SHAP值分析訓(xùn)練模型的重要特征信息,模型中特征的SHAP值降序排序結(jié)果如圖2所示,展示了從17個(gè)特征中篩選出的排名top 9的重要特征,通過(guò)對(duì)比不同特征的SHAP值可知,這些重要特征是對(duì)模型輸出影響較大的特征。

        為進(jìn)一步明確重要特征對(duì)模型輸出結(jié)果正/負(fù)關(guān)系,本文使用SHAP摘要圖進(jìn)行分析。如圖3所示,SHAP摘要圖顯示了模型中的重要特征及對(duì)模型預(yù)測(cè)的影響關(guān)系。

        SHAP單變量依賴圖可分析單個(gè)特征與SHAP值之間的線性關(guān)系,圖4是對(duì)輸出結(jié)果有影響的排名top5的重要特征的單變量依賴圖。圖4(a)顯示SHAP值隨年齡增加,中老年人患心臟病風(fēng)險(xiǎn)更高;圖4(b)顯示參與體力活動(dòng)的成年人比缺乏體力活動(dòng)的成年人SHAP值更低,表明缺乏鍛煉是導(dǎo)致心臟病的危險(xiǎn)因素;圖4(c)顯示患有糖尿病和臨界糖尿病的成年人有更多患心臟病的風(fēng)險(xiǎn);圖4(d)表明整體健康水平越高患心臟病風(fēng)險(xiǎn)越低;圖4(e)中“BMI”與SHAP值不是簡(jiǎn)單線性關(guān)系,說(shuō)明該特征可能與其他特征交互影響預(yù)測(cè)結(jié)果,無(wú)法通過(guò)單變量分析特征與模型的預(yù)測(cè)關(guān)系,需要引入雙變量突出組合特征效應(yīng)的交互依賴圖做進(jìn)一步分析。

        本文分析“BMI”分別與“體力活動(dòng)”“糖尿病”的組合特征關(guān)系,如圖5所示。圖5(a)中顯示當(dāng)“BMI”取值大于35時(shí),紅色點(diǎn)靠下居多,藍(lán)色點(diǎn)靠上居多,表明“BMI”較高且缺乏體力活動(dòng)的成年人有更高患病風(fēng)險(xiǎn)。因此,將“BMI”與“糖尿病”組合起來(lái)分析,如圖5(b)所示,“BMI”取值大于30時(shí),紅色點(diǎn)靠右上居多,表明“BMI”較高的糖尿病患者或臨界糖尿病患者有更高的患心臟病風(fēng)險(xiǎn)。

        從“糖尿病”單變量依賴圖可知糖尿病與臨界糖尿病患者是患心臟病的高危人群,構(gòu)建“糖尿病”與“體力活動(dòng)”及“年齡范圍”的交互依賴圖進(jìn)一步分析患病因素,如圖6所示。圖6(a)顯示“糖尿病”取值為2時(shí),藍(lán)色區(qū)域靠上,說(shuō)明臨界糖尿病且缺乏體力活動(dòng)的成年人有更高的患心臟病風(fēng)險(xiǎn)。圖6(b)中顯示“糖尿病”取值為3時(shí),紅色區(qū)域靠上,表明糖尿病患者隨年齡的增長(zhǎng)患心臟病風(fēng)險(xiǎn)提高。

        4 討論

        本文結(jié)合XGBoost和SMOTEENN算法提出了ICRPI框架,該框架預(yù)測(cè)的平衡準(zhǔn)確度超過(guò)94%,AUC值超過(guò)98%,且能提取與患病風(fēng)險(xiǎn)關(guān)系緊密的重要特征及其與患病風(fēng)險(xiǎn)的關(guān)系。通過(guò)本研究的實(shí)驗(yàn)得出傳統(tǒng)機(jī)器學(xué)習(xí)模型、集成學(xué)習(xí)和TabNet對(duì)類別不平衡的數(shù)據(jù)分類效果不好,混合采樣后的集成學(xué)習(xí)模型分類效果最佳。

        為解釋模型,本文使用SHAP進(jìn)行可解釋性分析。通過(guò)SHAP值排序獲得年齡、高BMI值、糖尿病、缺乏體力活動(dòng)等9個(gè)模型重要特征,有大量研究表明肥胖、糖尿病、缺乏鍛煉等是導(dǎo)致心血管疾病的危險(xiǎn)因素[22-24],這說(shuō)明通過(guò)SHAP值篩選出的重要特征符合醫(yī)學(xué)臨床真實(shí)情況。為獲得重要特征與模型輸出的關(guān)系,本文使用了基于SHAP值的單變量依賴圖和交互依賴圖,通過(guò)單變量依賴圖得出“年齡范圍”“糖尿病”“體力活動(dòng)”和“整體健康水平”這些特征與心臟病診斷結(jié)果存在線性關(guān)系。然而,單變量依賴圖無(wú)法直接得出“BMI”與輸出結(jié)果的線性關(guān)系。為分析“BMI”與其他特征的交互關(guān)系,需要了解在醫(yī)學(xué)臨床中哪些特征與“BMI”具有相關(guān)性。由于肥胖和缺乏鍛煉是心臟病的危險(xiǎn)因素[22],而肥胖可體現(xiàn)在較高的“BMI”值上,缺乏鍛煉可體現(xiàn)在缺乏一定的體力活動(dòng)上,于是分析“BMI”與“體力活動(dòng)”共同作用于心臟病患病風(fēng)險(xiǎn)。ECKEL等[25]提出BMI和糖尿病體現(xiàn)了心臟代謝風(fēng)險(xiǎn),是引發(fā)心臟病的危險(xiǎn)指標(biāo),因此,將“BMI”與“糖尿病”組合起來(lái)分析。從“BMI”交互依賴圖的分析得出高BMI值是心臟病危險(xiǎn)指標(biāo),主要體現(xiàn)在高BMI值且缺乏體力活動(dòng)與高BMI值的糖尿病患者或臨界糖尿病人群中,分析結(jié)果與臨床實(shí)際情況相符合。2型糖尿病防治指南指出,2型糖尿病患病時(shí)長(zhǎng)大于等于10年或合并年齡大于50歲等為心血管風(fēng)險(xiǎn)高危因素,早期生活方式干預(yù)(如加強(qiáng)運(yùn)動(dòng))可有效減少2型糖尿病的發(fā)生或延緩并發(fā)癥的發(fā)展[26]。本文構(gòu)建“糖尿病”與“體力活動(dòng)”及“年齡范圍”的交互依賴圖分析得出高齡糖尿病患者及缺乏鍛煉的臨界糖尿病人群具有較高心臟病患病風(fēng)險(xiǎn),該結(jié)果與2型糖尿病防治指南觀點(diǎn)一致。

        綜上所述,本研究表明ICRPI框架可以面向真實(shí)的臨床類別不平衡數(shù)據(jù)構(gòu)建合適的具有較高預(yù)測(cè)性能的分類模型,且能客觀地給出致病因素分析,可輔助醫(yī)生提高心血管疾病風(fēng)險(xiǎn)預(yù)測(cè)準(zhǔn)確率,降低心臟病診療費(fèi)用并減少人體的創(chuàng)傷。該框架目前僅可解釋特征與預(yù)測(cè)結(jié)果的相關(guān)性,不能解釋特征與預(yù)測(cè)結(jié)果的因果關(guān)系,但這一框架為構(gòu)建面向真實(shí)臨床的高準(zhǔn)確率、可解釋性的風(fēng)險(xiǎn)預(yù)測(cè)模型提供一種有效途徑,滿足臨床智能診療系統(tǒng)需求。

        參考文獻(xiàn)

        [1] 中國(guó)心血管健康與疾病報(bào)告編寫(xiě)組. 中國(guó)心血管健康與疾病報(bào)告2021概要[J]. 中國(guó)循環(huán)雜志, 2022, 37(6): 553-578.

        [2] 朱宵彤, 龐春穎, 朱? 涵. 基于深度學(xué)習(xí)的心血管疾病預(yù)測(cè)模型[J]. 計(jì)算機(jī)應(yīng)用, 2021, 41(S2): 346-350.

        [3] 李? 瑞, 劉墨麒, 黎佳璐, 等. 心腦血管系統(tǒng)的影像評(píng)估對(duì)主要心血管不良事件的預(yù)測(cè)作用[J]. 中國(guó)腦血管病雜志, 2022, 19(3): 154-160.

        [4] MCRAE M P, BOZKURT B, BALLANTYNE C M, et al. Cardiac ScoreCard: A diagnostic multivariate index assay system for predicting a spectrum of cardiovascular disease[J]. Expert Systems With Applications, 2016, 54: 136-147.

        [5] BLANCO-JUSTICIA A, DOMINGO-FERRER J, MARTíNEZ S, et al. Machine learning explainability via microaggregation and shallow decision trees[J]. Knowledge-Based Systems, 2020, 194: 105532.

        [6] BREIMAN L. Random forests[J]. Machine learning, 2001, 45: 5-32.

        [7] CHEN T Q, GUESTRIN C. XGBoost: A scalable tree boosting system[C]//Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.New York: ACM, 2016: 785-794.

        [8] 陳? 苗, 陳? 青, 尹曉清. 隨機(jī)森林的集成分類算法對(duì)心胸外科ICU患者譫妄風(fēng)險(xiǎn)的預(yù)測(cè)分析[J]. 中國(guó)胸心血管外科臨床雜志, 2022, 29(7): 886-891.

        [9] 鄭曉燕. 基于機(jī)器學(xué)習(xí)的心血管疾病預(yù)測(cè)系統(tǒng)研究[D]. 北京: 北京交通大學(xué), 2018.

        [10] 于大海. 基于BP神經(jīng)網(wǎng)絡(luò)和隨機(jī)森林算法的冠狀動(dòng)脈狹窄風(fēng)險(xiǎn)識(shí)別模型研究[D]. 太原: 山西醫(yī)科大學(xué), 2019.

        [11] 彭佳麗, 劉春容, 李? 旭, 等. 采用XGBoost和隨機(jī)森林探索中國(guó)西部女性乳腺癌危險(xiǎn)因素[J]. 現(xiàn)代預(yù)防醫(yī)學(xué), 2020, 47(1): 1-4.

        [12] KONTSCHIEDER P, FITERAU M, CRIMINISI A, et al. Deep neural decision forests[C]//2015 IEEE International Conference on Computer Vision (ICCV). Santiago, Chile. IEEE, 2016: 1467-1475.

        [13] YANG Y, MORILLO I G, HOSPEDALES T M. "Deep neural decision trees"[EB/OL]. 2018. DOI: 10.48550/arXiv.1806.06988.

        [14] ARIK S ?, PFISTER T. TabNet: Attentive interpretable tabular learning[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2021, 35(8): 6679-6687.

        [15] 劉玉航. 基于機(jī)器學(xué)習(xí)的中醫(yī)哮喘辨證分型研究與應(yīng)用[D]. 青島: 青島科技大學(xué), 2022.

        [16] SHWARTZ-ZIV R, ARMON A. Tabular data: Deep learning is not all you need[J]. Information Fusion, 2022, 81: 84-90.

        [17] SAGI O, ROKACH L. Approximating XGBoost with an interpretable decision tree[J]. Information Sciences, 2021, 572: 522-542.

        [18] MOLNAR C. Interpretable machine learning:A guide for making black box models explainable[M]. Fletcher, NC, USA: LULU, Feb. 2019: 295-296.

        [19] LUNDBERG S M, LEE S I. A unified approach to interpreting model predictions[C]//In Proceedings of the Advances in Neural Information Processing Systems, Long Beach, CA, USA, 4-9 December, 2017: 4765-4774.

        [20] CHAWLA N V, BOWYER K W, HALL L O, et al. SMOTE: Synthetic minority over-sampling technique[J]. Journal of Artificial Intelligence Research, 2002, 16: 321-357.

        [21] BATISTA G E A P A, PRATI R C, MONARD M C. A study of the behavior of several methods for balancing machine learning training data[J]. ACM SIGKDD Explorations Newsletter, 2004, 6(1): 20-29.

        [22] LI X, WU C Q, LU J P, et al. Cardiovascular risk factors in China: A nationwide population-based cohort study[J]. The Lancet Public Health, 2020, 5(12): e672-e681.

        [23] 何? 源, 馬少寧, 王海宏, 等. 寧夏回族自治區(qū)心血管疾病高危人群篩查與相關(guān)危險(xiǎn)因素研究[J]. 現(xiàn)代預(yù)防醫(yī)學(xué), 2022, 49(1): 21-26, 31.

        [24] 劉? 覽, 劉華章, 馮穎青, 等. 廣州市35~75歲社區(qū)居民心血管病主要危險(xiǎn)因素聚集情況分析[J]. 現(xiàn)代預(yù)防醫(yī)學(xué), 2020, 47(4): 635-639, 647.

        [25] ECKEL R H, KAHN R, ROBERTSON R M, et al. Preventing cardiovascular disease and diabetes: A call to action from the American Diabetes Association and the American Heart Association[J]. Circulation, 2006, 113(25): 2943-2946.

        [26] 中華醫(yī)學(xué)會(huì)糖尿病學(xué)分會(huì). 中國(guó)2型糖尿病防治指南(2020年版)[J]. 國(guó)際內(nèi)分泌代謝雜志, 2021, 41(5): 482-548.

        中国少妇久久一区二区三区| 亚洲AV无码成人网站久久精品| 一区二区三区日本大片| 国产视频一区二区三区在线看| 中文字幕一区二区人妻秘书 | 7878成人国产在线观看| 国产成社区在线视频观看| 国产特黄a三级三级三中国| 亚洲av无码国产精品色午夜软件 | 日产一区一区三区区别| 风韵丰满熟妇啪啪区老熟熟女| 自拍偷自拍亚洲精品情侣| 全免费a级毛片免费看| 69久久精品亚洲一区二区| 狠狠躁日日躁夜夜躁2022麻豆| 亚洲精品久久久久久久久av无码| 亚洲欧洲久久久精品| 一区二区三区四区国产亚洲| 国产精品免费一区二区三区四区| 成人看片黄a免费看那个网址| 色播在线永久免费视频网站| 亚洲白嫩少妇在线喷水| 少妇性bbb搡bbb爽爽爽| 国产精品99久久免费| 素人系列免费在线观看| 国产一区二区三区在线观看第八页| 日日碰狠狠添天天爽| 无码人妻少妇久久中文字幕蜜桃| 亚洲自偷自拍另类第一页| 亚洲图片自拍偷图区| 国产69精品久久久久9999| 亚洲a∨好看av高清在线观看| 美女免费视频观看网址| 中文字幕丰满乱子无码视频| 欧美国产亚洲精品成人a v| 女同另类一区二区三区| 97人伦影院a级毛片| 韩国三级中文字幕hd久久精品| 人妻少妇精品视频一区二区三区| 一区二区三区国产精品乱码| 性生交大片免费看淑女出招|