黃浩東 劉小株 龔 軍 劉 杰 張祖躍 向天雨
(1重慶醫(yī)科大學(xué)醫(yī)學(xué)數(shù)據(jù)研究院,2醫(yī)學(xué)信息學(xué)院 重慶 400016;3重慶醫(yī)科大學(xué)附屬大學(xué)城醫(yī)院信息中心 重慶 401331)
2型糖尿病是一種胰島素分泌不足、胰島素作用效果差或兩者兼而有之的慢性代謝性疾病。隨著我國居民生活方式的改變與人口老齡化的加劇,截至2019年我國糖尿病患者數(shù)量達到了1.16億[1]。盡管對于糖尿病是先于冠心病發(fā)生還是在疾病早期并存的問題仍有爭議,但糖尿病引起的氧化應(yīng)激、晚期糖基化終末產(chǎn)物和慢性炎癥反應(yīng)對血管內(nèi)皮功能有害,從而導(dǎo)致心血管疾病的觀點已被廣泛接受[2],這表明2型糖尿病是發(fā)生微血管和大血管并發(fā)癥的主要危險因素。糖尿病患者發(fā)生心血管疾病的相對風(fēng)險比非糖尿病患者高2~4倍[3-4],冠心病是其中最嚴(yán)重的并發(fā)癥之一,且與非糖尿病的冠心病患者相比,2型糖尿病患者癥狀往往不典型,可能是因為2型糖尿病患者常伴有嚴(yán)重的自主神經(jīng)功能障礙[5-6],使得機體痛閾值增高,即使發(fā)生嚴(yán)重心肌缺血,患者心絞痛癥狀也不明顯。冠狀動脈造影術(shù)雖是診斷冠心病的金標(biāo)準(zhǔn),但屬于有創(chuàng)性檢查,且價格昂貴、操作復(fù)雜、易產(chǎn)生不良反應(yīng),加之2型糖尿病患者痛閾值較高、患病早期無明顯疼痛感,易導(dǎo)致疾病治療延誤。因此,本研究從數(shù)據(jù)驅(qū)動的角度,使用機器學(xué)習(xí)與統(tǒng)計學(xué)相關(guān)理論方法,對行冠狀動脈造影術(shù)的2型糖尿病患者建立分類模型,以輔助診斷是否合并冠心病。
數(shù)據(jù)來源數(shù)據(jù)來源于重慶醫(yī)科大學(xué)醫(yī)學(xué)大數(shù)據(jù)平臺,該平臺匯集了重慶7家醫(yī)療中心的電子病歷數(shù)據(jù),所有數(shù)據(jù)均已脫敏。本研究納入2014年1月1日至2019年12月31日入院行冠狀動脈造影術(shù)的2型糖尿病患者。納入標(biāo)準(zhǔn):(1)既往史中有明確的2型糖尿病的患病年數(shù)以及控糖史;(2)住院期間行冠狀動脈造影手術(shù)且造影記錄保存完整。排除標(biāo)準(zhǔn):(1)糖尿病急性并發(fā)癥、妊娠期糖尿病以及近期(半年以內(nèi))確診2型糖尿病;(2)患風(fēng)濕性心臟病、系統(tǒng)性紅斑狼瘡等自身免疫??;(3)合并癌癥;(4)既往已被診斷為冠心病;(5)嚴(yán)重器官衰竭;(6)全身性感染。共計納入944例2型糖尿病患者,根據(jù)冠狀動脈造影情況分為2型糖尿病合并冠狀動脈狹窄<50%(T 2DM組,229例)和2型糖尿病合并冠狀動脈狹窄≥50%(T 2DM-CAD組,715例)。T 2DM組中男性94例,女性135例,年齡33~87歲;T 2DM-CAD組中男性422例,女性293例,年齡34~90歲。
指標(biāo)選取根據(jù)冠心病臨床指南和2型糖尿病合并冠心病相關(guān)研究[7-9]收集患者行冠狀動脈造影術(shù)前的35項指標(biāo),包括一般資料(如年齡、性別、合并癥等)和患者入院后第一次檢驗的實驗室指標(biāo)(如尿常規(guī)、肝腎功能、血脂指標(biāo)等)。
統(tǒng)計學(xué)處理采用SPSS 25.0和R3.6.1進行統(tǒng)計分析,缺失指標(biāo)使用missForest算法填補。采用Matchit包的鄰近匹配(nearest neighbor matching)方法對收集的原數(shù)據(jù)按照性別、年齡和是否合并高血壓進行傾向評分匹配(propensity score matching,PSM),卡鉗值設(shè)定為0.02,T 2DM組與T 2DMCAD組按1∶2匹配。采用KS方法檢驗計量資料的正態(tài)性,計量資料以x±s或M(P25,P75)表示,組間比較采用t檢驗或Mann-Whitney U檢驗;計數(shù)資料以例(%)表示,組間比較采用χ2檢驗。將兩組間有差異的指標(biāo)納入逐步向前Logistic回歸(α入=0.05,α出=0.10)分析2型糖尿病合并冠心病的危險因素,具體變量名與賦值如表1所示。P<0.05為差異有統(tǒng)計學(xué)意義。
表1 變量賦值Tab 1 Variables and their assignments
機器學(xué)習(xí)模型構(gòu)建分類模型構(gòu)建采用python 3.8.5版本、anaconda3集成開發(fā)環(huán)境。將數(shù)據(jù)按4∶1分為訓(xùn)練集和測試集,訓(xùn)練集用于分類模型的構(gòu)建。采用Scikit-learn包分別構(gòu)建Logistic回歸模型、隨機森林(Random Forest,RF)模型、支持向量(Support Vector Machine,SVM)模型和極限梯度上升(eXtreme Gradient Boosting,XGB)模型。采用 bayes_opt包 中 貝 葉 斯 優(yōu) 化(Bayesian Optimization,BO)算法分別優(yōu)化XGB算法5個主要超 參 數(shù) n_estimators、subsample、max_depth、learning_rate和min_chid_weight;RF算法3個主要超 參 數(shù) n_estimators、min_samples_split、max_features;SVM算法2個主要超參數(shù)C和gamma以及Logistic回歸超參數(shù)C,設(shè)定尋找模型最大AUC對建立的4種機器學(xué)習(xí)模型進行參數(shù)優(yōu)化。
模型評估采用5折交叉驗證法和驗證集評估模型性能,評價指標(biāo)為準(zhǔn)確率、精確率、召回率、F1分?jǐn)?shù)、ROC曲線下面積(AUC),以F1分?jǐn)?shù)和AUC的最大值判斷模型是否為最優(yōu)模型。
匹配前后兩組基線資料比較T 2DM-CAD組匹配前后,冠狀動脈單支病變分別為218例(30.49%)和115例(29.56%),冠狀動脈兩支病變分別為199例(27.83%)和101例(25.96%),冠狀動脈三支病變298例(41.68%)和173例(44.47%)。匹配后T 2DM病程、心率、吸煙史、糖尿病腎病差異有統(tǒng)計學(xué)意義(P<0.05),其余基線資料差異無統(tǒng)計學(xué)意義(表2)。匹配后共篩選出610例患者,其中T 2DM-CAD組389例,T 2DM組221例(表2,圖1)。
表2 匹配前后兩組基線指標(biāo)對比Tab 2 Comparison of baseline indicators between the two groupsbefore and after matching
圖1 根據(jù)PSM篩選與剔除的患者傾向評分分布圖Fig 1 Distribution of patient propensity scores screened and excluded according to PSM
單因素分析結(jié)果共納入22項指標(biāo),包括4項基線指標(biāo)和18項檢驗指標(biāo)。單因素分析結(jié)果顯示,兩組間T 2DM病程、心率等20項指標(biāo)差異有統(tǒng)計學(xué)意義(P<0.05),谷氨酰轉(zhuǎn)肽酶和谷丙轉(zhuǎn)氨酶差異無統(tǒng)計學(xué)意義(表3)。
表3 T2DM組與T2DM-CAD組相關(guān)指標(biāo)的單因素分析Tab 3 Univariate analysis of related indexes in T2DM group and T2DM-CAD group
Logistic回歸分析結(jié)果將單因素分析有意義的20個指標(biāo)進行逐步向前Logistic回歸分析,其中11個變量納入最佳回歸方程(表4)。
機器學(xué)習(xí)模型結(jié)果將表4中的11項指標(biāo)納入4種機器學(xué)習(xí)分類模型,并用BO算法優(yōu)化4種分類模型,結(jié)果顯示當(dāng)n_estimators=2、min_samples_split=10、max_features=69時(表5),無論是5折交叉驗證結(jié)果還是單獨的驗證集,RF算法性能最優(yōu)(表6~7)。圖2為4種分類模型的5折交叉驗證ROC曲線圖。
圖2 4種分類模型5折交叉驗證ROC曲線圖Fig 2 5-fold cross-validation ROC of 4 classification models
表4 2型糖尿病合并冠心病差異性指標(biāo)Logistic回歸分析結(jié)果Tab 4 Logistic regression analysis results of difference index of type 2 diabetes mellitus complicated with coronary heart disease
表5 參數(shù)選擇與優(yōu)化Tab 5 Parameter selection and optimization
表6 4種機器學(xué)習(xí)模型5折交叉驗證性能評價表Tab 6 Performance evaluation table of 4 machine learning models by 5-fold cross-validation
本研究對行冠狀動脈造影術(shù)的2型糖尿病患者就診數(shù)據(jù)進行回顧性分析。由于存在選擇偏倚,因此采用“PSM+單因素分析+多因素分析”篩選出2型糖尿病合并冠心病的危險因素,并比較了Logistic回歸、SVM、RF、XGB4種分類算法性能,為2型糖尿病在慢病管理中是否發(fā)生合并癥(本文為冠心?。┨峁┝搜芯克悸?,有利于及早啟動冠心病的二級預(yù)防,減少致死性心血管事件的發(fā)生。
表7 4種機器學(xué)習(xí)模型在驗證集中的性能評價表Tab 7 Performance evaluation table of four machine learning models in validation set
本研究篩選出的2型糖尿病合并冠心病的11項危險因素,包括心率、吸煙、糖尿病腎病、血肌酐、甘油三酯、脂蛋白a、白蛋白、總膽紅素、谷草轉(zhuǎn)氨酶、糖化血紅蛋白和尿糖。其中血肌酐、糖尿病腎病、尿糖、谷草轉(zhuǎn)氨酶在既往研究中報道較少。血肌酐在臨床上常用于評估腎臟功能是否正常,糖尿病腎病是糖尿病最主要的微血管并發(fā)癥之一[10],尿糖可作為檢測糖尿病患者早期腎損傷的標(biāo)志物。高濃度血肌酐、合并糖尿病腎病、出現(xiàn)尿糖現(xiàn)象都表明患者腎功能下降[11],腎功能降低可增加冠心病風(fēng)險[12-13]。Salim等[14]對非糖尿病新加坡華人進行了一項病例對照研究,發(fā)現(xiàn)在傳統(tǒng)危險因素中添加血肌酐可以更好地預(yù)測冠心病患病風(fēng)險,這與本研究相符合。谷草轉(zhuǎn)氨酶主要分布于心肌細(xì)胞中,約80%的谷草轉(zhuǎn)氨酶作為一種非特異性的細(xì)胞內(nèi)功能酶存在于心肌細(xì)胞的線粒體中。心肌損傷時,線粒體受損,谷草轉(zhuǎn)氨酶顯著升高[15-16]。因此,谷草轉(zhuǎn)氨酶可以反映心肌細(xì)胞損傷的嚴(yán)重程度。研究表明谷草轉(zhuǎn)氨酶與冠心病及其嚴(yán)重程度呈正相關(guān),可以將該指標(biāo)納入各種冠心病風(fēng)險預(yù)測模型[17-19]。而在本研究中谷草轉(zhuǎn)氨酶為2型糖尿病合并冠心病的獨立危險因素,說明對于2型糖尿病患者,谷草轉(zhuǎn)氨酶依然可以作為鑒別冠心病的一種生物標(biāo)志物。而其余的7項危險因素,包括心率、吸煙、甘油三酯、脂蛋白a、白蛋白、總膽紅素、糖化血紅蛋白,在2型糖尿病合并冠心病的研究報道中多見,與本研究的結(jié)論相似[7,20-24]。
雖然利用機器學(xué)習(xí)模型對冠心病進行疾病診斷已有較多研究[25-27],但都存在以下缺點:(1)冠心病起因不同,應(yīng)分人群研究;(2)對照組與研究組同質(zhì)性不高;(3)對照組缺少冠心病風(fēng)險評估,而患者做過冠狀動脈造影術(shù)、冠狀動脈CT成像等,冠心病評估準(zhǔn)確性較高。本研究基于冠狀動脈造影術(shù)選取糖尿病患者群,根據(jù)造影結(jié)果分為兩組,同質(zhì)性高,在一定程度上解決了以上缺點。本研究也是國內(nèi)首次從機器學(xué)習(xí)的角度判斷2型糖尿病患者是否發(fā)生冠心病的綜合性研究。在機器學(xué)習(xí)參數(shù)調(diào)優(yōu)中,只能看到模型的輸入和輸出,所以很難通過求導(dǎo)和凸優(yōu)化的方法來選擇模型最佳超參數(shù)。以往通常是通過經(jīng)驗來選擇超參數(shù),然而這種方式往往得不到性能最優(yōu)的機器學(xué)習(xí)模型。BO算法[28]可以很好地解決該問題,其思想為使用貝葉斯網(wǎng)格概率模型來顯式反映變量之間的依賴關(guān)系及可行解的分布,具體步驟為利用先驗知識逼近未知函數(shù)的后驗分布從而調(diào)節(jié)超參數(shù)。XGB算法[29]是以CART回歸樹模型為基分類器的一種提升學(xué)習(xí)算法,是當(dāng)前比較前沿的基于boosting思想的集成學(xué)習(xí)算法。SVM算法[30]的目的是尋找一個超平面對樣本數(shù)據(jù)進行分割,然后轉(zhuǎn)換為凸二次規(guī)劃問題來求解,并且SVM算法在處理線性和非線性數(shù)據(jù)的小樣本條件下具有良好的學(xué)習(xí)能力。LR算法使用Sigmoid函數(shù)作為預(yù)測函數(shù)。輸入變量x通過線性函數(shù)輸出變量y,然后輸出變量y通過Sigmoid函數(shù)轉(zhuǎn)換為帶標(biāo)簽的結(jié)果,有著計算速度快、可解釋性好、易于擴展和實現(xiàn)的特點。RF算法由決策樹作為基分類器,是一種結(jié)合了Bagging集成學(xué)習(xí)理論和隨機子空間方法的集成學(xué)習(xí)算法[31]。以上4種分類算法在目前疾病風(fēng)險預(yù)測與疾病診斷中運用最多。在本研究中,優(yōu)化后的RF模型(5折交叉驗證:AUC=0.811,測試集:AUC=0.810)分類性能優(yōu)于優(yōu)化后的Logistic回歸模型(5折交叉驗證:AUC=0.763,測試集:AUC=0.707)、SVM模型(5折交叉驗證:AUC=0.789,測試集:AUC=0.702)與XGB模型(5折交叉驗 證:AUC=0.751,測 試 集:AUC=0.709),而Logistic回歸模型、SVM模型和XGB模型3者分類性能相差不大。RF算法具有分類精度高、運算速度快、魯棒性好等優(yōu)點。在一些樣本量和指標(biāo)數(shù)與本研究相似的研究中,RF算法的分類性能表現(xiàn)為最優(yōu)[32-33],與本研究結(jié)果相似。
本研究存在一定的局限性:首先,MissForest算法對混合型缺失數(shù)據(jù)插補后為優(yōu)良數(shù)據(jù)的缺失極限是缺失值<30%[34],因此本研究未納入缺失值>30%的指標(biāo)(如BMI、血清C肽)。其次,本研究為回顧性臨床研究,且模型缺少外部驗證,結(jié)果需要進一步驗證。最后,本研究建立的模型召回率較低,臨床應(yīng)用有一定的局限性。
綜上,本研究基于2型糖尿病患者就診數(shù)據(jù),篩選出11項冠心病危險因素,并基于危險因素建立風(fēng)險分類模型,研究結(jié)果得出貝葉斯優(yōu)化后的RF算法具有較好的分類能力??蓪⒈狙芯拷⒌哪P颓度肱R床決策支持系統(tǒng),實現(xiàn)2型糖尿病患者在內(nèi)分泌科就診時收到冠心病風(fēng)險提示以減少漏診。
作者貢獻聲明黃浩東 研究設(shè)計和實施,論文構(gòu)思和撰寫。劉小株,龔軍 研究實施,數(shù)據(jù)采集和整理。劉杰,張祖躍 研究設(shè)計,論文修訂。向天雨 研究選題和設(shè)計,論文終審。
利益沖突聲明所有作者均聲明不存在利益沖突。