摘? 要:通過(guò)利用加州大學(xué)歐文分校數(shù)據(jù)庫(kù)的心臟病數(shù)據(jù)集,通過(guò)建立logistic模型和決策樹(shù)模型分析確診心臟病的危險(xiǎn)因素。采用ROC曲線(xiàn)和AUC面積作為標(biāo)準(zhǔn)來(lái)評(píng)價(jià)模型預(yù)測(cè)效果,結(jié)果顯示兩種模型對(duì)于數(shù)據(jù)的擬合都表現(xiàn)不錯(cuò)。與此同時(shí)兩種模型顯示胸痛類(lèi)型、靜息血壓、熒光染色法測(cè)定的主要血管數(shù)和是否患地中海貧血癥對(duì)于最終是否確診心臟病有顯著影響。
關(guān)鍵詞:邏輯回歸;決策樹(shù);logistic模型
中圖分類(lèi)號(hào):TP391;O212.1? ? 文獻(xiàn)標(biāo)識(shí)碼:A? 文章編號(hào):2096-4706(2023)07-0117-04
Abstract: By using the heart disease data set of the University of California Irvine database, the risk factors of diagnostic heart disease are analyzed by establishing the Logistic Regression model and Decision Tree model. The ROC curve and AUC area are used as criteria to evaluate the prediction effect of the model. The results show that the two models perform well in fitting the data. At the same time, the two models show that the type of chest pain, resting blood pressure, the number of main blood vessels measured by fluorescent staining and whether or not suffering from thalassemia has a significant impact on whether the final diagnosis of heart disease occurs.
Keywords: Logistic Regression; Decision Tree; logistic model
0? 引? 言
心臟病是由于心臟發(fā)生病變的而引起的心臟功能受損或異常的一種疾病,心臟病輕則影響各器官功能異?;蛏眢w的相關(guān)疾病,重則出現(xiàn)心臟性猝死危及生命,因此對(duì)心臟病的診斷則顯得至關(guān)重要[1]。傳統(tǒng)的對(duì)于心臟病的診斷主要是心電圖和彩超兩種方式,王敏紅和尹巧綿[2]追蹤了2006年—2009年首都醫(yī)科大學(xué)附屬兒童醫(yī)院2016孕婦的彩色多普勒超聲心動(dòng)圖和新生兒先天性心臟病的情況,發(fā)現(xiàn)彩色多普勒超聲心動(dòng)圖對(duì)于先天性?xún)和呐K病能起到早期診斷的效果。陳井英[3]采用同樣的技術(shù)彩色多普勒超聲心動(dòng)圖與心電圖檢查進(jìn)行比較,對(duì)比得到彩色多普勒超聲心動(dòng)圖對(duì)于診斷心臟病比心電圖更有效。相比于傳統(tǒng)法式,謝金華和陳冠民[4]用Logistic回歸模型對(duì)糖尿病并發(fā)心臟病的危險(xiǎn)因素進(jìn)行分析,結(jié)果顯示體重指數(shù)大、心理評(píng)分較高、舒張壓高及血脂高,其發(fā)生心臟病的風(fēng)險(xiǎn)增加。程穎等[5]利用PCA的決策樹(shù)算法對(duì)心臟病診斷進(jìn)行了研究。在此基礎(chǔ)上,文章利用常規(guī)的身體檢查例如血清膽汁和空腹血糖等建立Logistic回歸模型與決策樹(shù)模型,分析確診心臟病的危險(xiǎn)因素。
1? 資料與方法
1.1? 資料來(lái)源
心臟作為人體最重要的器官之一,對(duì)于心臟的檢查必須慎之又慎,醫(yī)生的工作便是根據(jù)
檢查的結(jié)果作出正確的醫(yī)學(xué)判斷并給出相應(yīng)的治療方案。文章是引用加州大學(xué)歐文分校數(shù)據(jù)庫(kù)的心臟病數(shù)據(jù)集,通過(guò)對(duì)數(shù)據(jù)清洗與整理后得到了303個(gè)樣本,每個(gè)樣本包括13個(gè)相對(duì)應(yīng)的變量。
1.2? 資料處理
在獲得的303個(gè)疑似心臟病患者的檢測(cè)樣本中,由于有6個(gè)樣本中存在缺失數(shù)據(jù)[6],可以先進(jìn)行刪除,確診心臟病的有137例,占總?cè)藬?shù)的46.13%;未患病的有160例,占總?cè)藬?shù)的53.87%。在每個(gè)樣本中已經(jīng)對(duì)每個(gè)疑似心臟病患者進(jìn)行了13項(xiàng)統(tǒng)計(jì)和檢測(cè),其中包括:年齡、性別、胸痛類(lèi)型、靜息血壓、血清膽汁、空腹血糖、靜息心電圖結(jié)果、達(dá)到的最大心率、是否有運(yùn)動(dòng)心絞痛、運(yùn)動(dòng)引起的ST下降、峰值運(yùn)動(dòng)ST段的斜率、熒光染色法測(cè)定的主血管數(shù)以及是否患有地中海貧血癥。
1.3? 研究方法
事實(shí)上預(yù)測(cè)是否患心臟病的方法有很多,但預(yù)測(cè)的結(jié)果有時(shí)與真實(shí)情況卻是大相徑庭,這事關(guān)患者能否得到及時(shí)的醫(yī)治甚至事關(guān)患者生命,故作出正確的預(yù)測(cè)或者判斷對(duì)于患者至關(guān)重要。本研究通過(guò)采用Logistic回歸和決策樹(shù)[7-9]兩種方法對(duì)上述取得的資料中的樣本進(jìn)行對(duì)應(yīng)的處理,通過(guò)兩種模型擬合得到的結(jié)果進(jìn)行比對(duì)分析,比較兩種模型的擬合效果等,進(jìn)而得到確診心臟病的主要影響因素。其次對(duì)于Logistic模型和決策樹(shù)模型的擬合分析選用的輔助軟件為R軟件。
2? 邏輯回歸(Logistic Regression)
2.1? 模型概述
邏輯回歸屬于概率型回歸模型,屬于廣義線(xiàn)性模型的一種,被廣泛的用于概率預(yù)測(cè)與分類(lèi)[10,11],主要用于二分類(lèi)問(wèn)題或多分類(lèi)問(wèn)題與一組解釋變量之間的關(guān)系,在解釋變量中,解釋變量可以是二分類(lèi)變量或者多分類(lèi)變量,也可以是連續(xù)變量或者離散變量。在本模型當(dāng)中就是通過(guò)13項(xiàng)體檢結(jié)果對(duì)病人是否患有心臟病這一二分類(lèi)問(wèn)題進(jìn)行估計(jì)。
式中的Y表示被解釋變量,具體在Logistic回歸模型中表示是否確診心臟病,X表示解釋變量,在模型中具體表現(xiàn)為對(duì)是否患有心臟病的影響因素,例如是否患地中海貧血癥或者靜息血糖等,β為待估計(jì)的參數(shù),它的大小和符號(hào)表征影響因素對(duì)于被解釋變量的貢獻(xiàn)程度以及作用方向。
2.2? 變量賦值
在所選取的變量中,既包括年齡和心率等連續(xù)型的變量,也包括是否罹患地中海貧血癥和峰值運(yùn)動(dòng)ST段的斜率等離散型變量,因此需針對(duì)模型中所涉及的相關(guān)變量進(jìn)行賦值,具體賦值情況如表1所示。
2.3? 重要變量解釋
血清膽汁:血清膽汁為人體膽汁中的重要組成部分,是膽固醇經(jīng)肝組織代謝的最終產(chǎn)物,測(cè)定血清膽汁對(duì)于肝臟疾病的診斷有重要作用。
峰值運(yùn)動(dòng)ST段的斜率:指心電圖結(jié)果中的一段特殊階段的變化情況,一般心電圖ST段變化都預(yù)示著心臟部位存在一定的問(wèn)題,常見(jiàn)的有ST段斜率為上坡、平緩和下坡三種情況,而上坡常見(jiàn)于急性心肌梗死和心肌缺血的患者,下坡常見(jiàn)于穩(wěn)定心絞痛患者。
地中海貧血:地中海貧血又稱(chēng)珠蛋白生成障礙性貧血,是一種遺傳性的血液疾病,大體上可以分為正常、可逆缺陷與固定缺陷三種類(lèi)型?;嫉刂泻X氀獣?huì)影響血紅蛋白的正常合成,并發(fā)后會(huì)伴隨著典型的一些貧血癥狀,例如頭暈、乏力、胸悶、氣短和氣促等,患者由于溶血會(huì)間接引起膽紅素升高,就會(huì)出現(xiàn)黃疸等一些臨床表現(xiàn)。
2.4? 因變量統(tǒng)計(jì)
對(duì)因變量即數(shù)據(jù)中心心臟病確診的相關(guān)情況進(jìn)行了簡(jiǎn)單的描述性統(tǒng)計(jì)分析,具體分析情況如表2所示。
2.5? Logistics回歸結(jié)果
通過(guò)將13個(gè)影響心臟病判定的因素納入自變量,然后進(jìn)行二項(xiàng)Logistics回歸,回歸結(jié)果整理后如表3所示,表3給出了參數(shù)β的估計(jì)值,以及β對(duì)應(yīng)自變量的均方誤差,除此之外還給出了p值和OR值,其中當(dāng)p<0.05時(shí)我們認(rèn)為該影響是顯著的(注:由于篇幅原因僅將顯著的變量歸納于表3中),OR值為某一事件發(fā)生的概率與不發(fā)生概率的比值,在本文中表現(xiàn)為在某一自變量下確診心臟病與未確診心臟病的比值,最后在給出OR值的同時(shí)還給出了OR值在置信度為95%下的置信區(qū)間。
2.6? Logistics回歸結(jié)果解讀
由表3的回歸結(jié)果可知:性別、胸痛類(lèi)型、是否患有地中海貧血癥、熒光染色法測(cè)定的主血管數(shù)、峰值運(yùn)動(dòng)ST段的斜率和靜息血壓對(duì)于最終確診心臟病有統(tǒng)計(jì)學(xué)意義(p<0.05),是最終確診心臟病的危險(xiǎn)因素。相反年齡、血清膽汁、空腹血糖是否>120 mg/dl、靜息心電圖結(jié)果、達(dá)到的最大心率、運(yùn)動(dòng)誘發(fā)心絞疼和運(yùn)動(dòng)引起的ST下降對(duì)于最終是否確診心臟病無(wú)顯著影響(p<0.05),不是最終確診心臟病的危險(xiǎn)因素。
根據(jù)Logistic回歸的結(jié)果顯示性別對(duì)于最終確診心臟病有顯著影響,即男性確診心臟病相較于女性更容易確診心臟病,這可能與男性和女性不同的生活方式有關(guān),例如男性抽煙酗酒的比例遠(yuǎn)大于女性等;根據(jù)回歸系數(shù)的正負(fù)可得到,胸痛類(lèi)型為1(典型心絞痛)、2(非典型心絞痛)和3(非心絞痛)時(shí),對(duì)于確診心臟病作用方向?yàn)樨?fù),即有上述癥狀反而不易確診心臟??;此外靜息血壓、峰值運(yùn)動(dòng)ST段的斜率為平緩、熒光染色法測(cè)定的主血管數(shù)和有可逆性的地中海貧血癥對(duì)于確診心臟病有正向的作用,即有上述癥狀會(huì)在不同程度的影響最終心臟病的確診。
以Logistic回歸模型的預(yù)測(cè)值為狀態(tài)變量作出的ROC曲線(xiàn)如圖1所示,曲線(xiàn)顯示在截?cái)嘀禐?.296時(shí),Logistic回歸的特異度達(dá)到了0.863,靈敏度為0.825,決策樹(shù)模型的ROC曲線(xiàn)下面積為0.866,說(shuō)明在Logistic回歸模型對(duì)于本文中所用的心臟病數(shù)據(jù)具有非常不錯(cuò)的預(yù)測(cè)效果,對(duì)于后續(xù)用于相關(guān)病例數(shù)據(jù)的預(yù)測(cè)具有指導(dǎo)意義。
3? 決策樹(shù)模型
3.1? 決策樹(shù)模型介紹
決策樹(shù)模型最早由Hunt等人于1966年提出的一種既可用于分類(lèi)又可用于回歸的一種監(jiān)督機(jī)器學(xué)習(xí)方法,決策樹(shù)模型相對(duì)于其他模型的原理更容易理解且建模時(shí)容易實(shí)現(xiàn),并且能夠在短時(shí)間內(nèi)對(duì)大數(shù)據(jù)進(jìn)行很準(zhǔn)確的分析與預(yù)測(cè)。
3.2? 建立決策樹(shù)模型
利用相關(guān)數(shù)據(jù)和建模規(guī)則構(gòu)建的確診心臟病風(fēng)險(xiǎn)預(yù)測(cè)圖如圖2所示。
該樹(shù)形圖總計(jì)有4層,共13個(gè)節(jié)點(diǎn),7個(gè)終端節(jié)點(diǎn)。根據(jù)決策樹(shù)模型可知地中海貧血癥、胸痛類(lèi)型、熒光染色法測(cè)定的主血管數(shù)、靜息血壓和運(yùn)動(dòng)引起的ST下降是影響最終是否確診心臟病的重要影響因素。
3.3? 決策樹(shù)模型解讀
1)當(dāng)胸痛類(lèi)型<1(即為無(wú)癥狀),熒光染色法測(cè)定的主血管數(shù)≥1時(shí)確診心臟病的概率達(dá)到了95%。
2)當(dāng)胸痛類(lèi)型<1(即為無(wú)癥狀),熒光染色法測(cè)定的主血管數(shù)<1,運(yùn)動(dòng)引起的ST下降≥1.6時(shí),確診心臟病的概率達(dá)到了88%。
3)當(dāng)胸痛類(lèi)型<1(即為無(wú)癥狀),熒光染色法測(cè)定的主血管數(shù)<1,運(yùn)動(dòng)引起的ST下降<1.6,靜息血壓≥141時(shí),確診心臟病的概率為71%。
4)當(dāng)胸痛類(lèi)型≥1(即為典型心絞痛、非典型心絞痛和非心絞痛),地中海貧血癥檢查顯示為可逆缺陷,峰值運(yùn)動(dòng)ST段的斜率為2和3(即為平或下坡)時(shí),確診心臟病概率達(dá)到63%。
決策樹(shù)模型的ROC曲線(xiàn)如圖3所示,曲線(xiàn)顯示在以0.562為截?cái)嘀禃r(shí),決策樹(shù)模型的特異度為0.925,靈敏度為0.759,決策樹(shù)模型的ROC曲線(xiàn)下面積為0.883,具有很好的預(yù)測(cè)效果,能夠很好的對(duì)于后續(xù)心臟病診斷提供有別于Logistic回歸的另外一種估計(jì)方法,也可兩種方法同時(shí)使用,提高預(yù)測(cè)結(jié)果的可信度。
4? 結(jié)? 論
文章利用Logistic回歸和決策樹(shù)兩種不同的模型對(duì)影響心臟病的13個(gè)變量進(jìn)行建模分析,兩種模型都顯示是否患地中海貧血癥、胸痛的類(lèi)型、熒光染色法測(cè)定的主血管數(shù)和靜息血壓是心臟病確診的危險(xiǎn)因素。根據(jù)兩種模型的ROC曲線(xiàn)下面積可知,兩種模型對(duì)于心臟病的預(yù)測(cè)都有不錯(cuò)的表現(xiàn),這對(duì)于臨床上患者心臟病的診斷有十分重要的指導(dǎo)意義。最后在基于兩種模型預(yù)測(cè)的基礎(chǔ)上若能結(jié)合心電圖和彩色多普勒超聲心動(dòng)圖對(duì)病情進(jìn)行進(jìn)一步分析,相信能為醫(yī)生和患者爭(zhēng)取到寶貴的時(shí)間挽救病人的生命。
參考文獻(xiàn):
[1] BARKHUIZEN M,ABELLA R,VLES J S H,et al. Antenatal and Perioperative Mechanisms of Global Neurological Injury in Congenital Heart Disease [J].Pediatr Cardiol,2021,42(1):1-18.
[2] 王敏紅,尹巧綿,孫艷麗,等.胎兒及新生兒先天性心臟病的篩查經(jīng)隨訪后的確診和結(jié)局 [J].中國(guó)醫(yī)刊,2012,47(12):72-74.
[3] 陳井英.心臟彩色多普勒超聲在高血壓心臟病診斷工作中的應(yīng)用分析 [J].中國(guó)實(shí)用醫(yī)藥,2022,17(16):103-105.
[4] 謝金華,陳冠民,陳華.Ⅱ型糖尿病并發(fā)心臟病危險(xiǎn)因素的logistic回歸分析 [J].醫(yī)學(xué)新知雜志,1999(3):124-125+148.
[5] 程穎,崔運(yùn)濤.基于PCA的決策樹(shù)算法在心臟病診斷中的應(yīng)用 [J].計(jì)算機(jī)與數(shù)字工程,2009,37(10):171-174.
[6] 曹雨,王峰,黃沃,等. 應(yīng)用統(tǒng)計(jì)學(xué) [M]. 北京:人民郵電出版社,2013:246.
[7] 任海燕,梁雨,左彭湘.基于logistic回歸與決策樹(shù)模型的母乳喂養(yǎng)影響因素分析 [J].中國(guó)衛(wèi)生統(tǒng)計(jì),2019,36(4):532-534.
[8] 劉兵,李蘋(píng),朱玫燁,等.決策樹(shù)模型與logistic回歸模型在胃癌高危人群干預(yù)效果影響因素分析中的應(yīng)用 [J].中國(guó)衛(wèi)生統(tǒng)計(jì),2018,35(1):70-73.
[9] AMINI P,AHMADINIA H,POOROLAJAL J,et al. Evaluating the high risk groups for suicide:a comparison of logistic regression,support vector machine,decision tree and artificial neural network [J].Iran J Public Health,2016,45(9):1179-1187.
[10] 張宇瑤,葛榕榕,孫剛.基于二元logistics回歸的患者過(guò)度醫(yī)療檢查認(rèn)知及影響因素研究 [J].中國(guó)衛(wèi)生事業(yè)管理,2020,37(12):893-895+899.
[11] 嚴(yán)進(jìn)錦,鄔海,韓斌德.結(jié)核性膿胸術(shù)后殘腔形成的危險(xiǎn)因素多因素Logistics回歸分析 [J].中國(guó)醫(yī)學(xué)創(chuàng)新,2020,17(18):128-131.
作者簡(jiǎn)介:張小胡(1995—),男,漢族,四川宜賓人,碩士研究生,研究方向:數(shù)理統(tǒng)計(jì)。