□ 陳蒙蒙CHEN Meng-meng 方振紅FANG Zhen-hong 涂文怡TU Wen-yi 溫偉偉WEN Wei-wei
心臟病作為人體最重要的器官之一,受到廣泛地關(guān)注[1-2],臨床在進(jìn)行心臟病治療之前,需要先預(yù)測(cè)一個(gè)人是否得了心臟病,所以如何準(zhǔn)確地預(yù)測(cè)心臟病是非常重要的課題[3-5]。心臟病預(yù)測(cè)的方法非常多,但是準(zhǔn)確率都不高[6-7]。Logistic回歸模型是一種非常經(jīng)典高效的回歸預(yù)測(cè)模型,它被廣泛應(yīng)用于預(yù)測(cè)工作[8-9]。本研究使用Logistic回歸模型對(duì)心臟病進(jìn)行預(yù)測(cè),并探討Logistic回歸模型在預(yù)測(cè)某些心臟病數(shù)據(jù)庫(kù)中患者的患病準(zhǔn)確率。
Logistic回歸模型是一種高效的監(jiān)督學(xué)習(xí)方法,被廣泛地用于概率預(yù)測(cè)與分類(lèi)。Logistic回歸模型基于極大似然估計(jì),即通過(guò)極大似然函數(shù)來(lái)推導(dǎo)損失函數(shù),通過(guò)梯度下降的方式來(lái)求解算法參數(shù),進(jìn)而對(duì)數(shù)據(jù)進(jìn)行二分類(lèi)。Logistic回歸模型的數(shù)學(xué)表達(dá)式如下:

1.一般資料。使用UCI機(jī)器學(xué)習(xí)庫(kù)中的心臟病數(shù)據(jù)集(UCI machine learning repository: statlog (heart) data set),共有樣本270個(gè),其中陽(yáng)性樣本120個(gè),陰性樣本150個(gè)。樣本的民族和國(guó)家信息不詳,每個(gè)樣本包含14個(gè)變量信息:年齡、性別、胸痛類(lèi)型、靜息血壓、血清膽汁、空腹血糖、靜息心電圖結(jié)果、達(dá)到的最大心率、運(yùn)動(dòng)性心絞痛、運(yùn)動(dòng)誘發(fā)的抑郁、峰值運(yùn)動(dòng)ST段的斜率、熒光檢查染色的主要血管數(shù)量、心臟缺陷和類(lèi)別,其中類(lèi)別是結(jié)果變量,即因變量,其他13個(gè)為自變量。數(shù)據(jù)集的14個(gè)變量信息中,性別、空腹血糖、運(yùn)動(dòng)性心絞痛、類(lèi)別是布爾值,年齡、胸痛類(lèi)型、靜息血壓、靜息心電圖結(jié)果、達(dá)到的最大心率、峰值運(yùn)動(dòng)ST段的斜率、熒光檢查染色的主要血管數(shù)量、心臟缺陷是正整數(shù),血清膽汁和運(yùn)動(dòng)誘發(fā)的抑郁是浮點(diǎn)值,具體見(jiàn)表1。變量情況見(jiàn)表2。

表1 變量含義、度量單位和區(qū)間

表2 變量情況
2.變量相關(guān)性分析。該數(shù)據(jù)集個(gè)變量之間的相關(guān)性度量見(jiàn)表3。表3顯示數(shù)據(jù)集的13個(gè)變量之間的相關(guān)度不高,說(shuō)明這些變量中的任何一個(gè)自變量都不能很好地被另一個(gè)或者另幾個(gè)變量所表示,所以在預(yù)測(cè)心臟病時(shí),需要把13個(gè)變量都納入才更科學(xué)合理。

表3 變量之間的相關(guān)度
3.方法。采用SPSS軟件進(jìn)行統(tǒng)計(jì)分析,提出以類(lèi)別為因變量,其他13個(gè)變量為自變量的針對(duì)心臟病數(shù)據(jù)集的Logistic回歸模型。通過(guò)本研究的Logistic回歸模型得出ROC曲線下方的區(qū)域信息,進(jìn)而說(shuō)明Logistic回歸模型在預(yù)測(cè)心臟病中的準(zhǔn)確率。
1.Logistic回歸模型結(jié)果。13個(gè)變量作為影響心臟病發(fā)病的因素被考慮進(jìn)了Logistic回歸模型,其中,性別、靜息血壓和熒光檢查染色的主要血管數(shù)量具有統(tǒng)計(jì)學(xué)意義(p<0.05),見(jiàn)表4。
2.心臟病影響因素的ROC曲線下方的區(qū)域。區(qū)域值為0.943,說(shuō)明本研究所用的數(shù)據(jù)庫(kù)用Logistic回歸模型來(lái)預(yù)測(cè)心臟病的準(zhǔn)確率非常高,見(jiàn)表5。

表5 心臟病影響因素的ROC曲線下方的區(qū)域
本文使用Logistic回歸模型來(lái)預(yù)測(cè)心臟病。采用人工智能機(jī)器學(xué)習(xí)領(lǐng)域較權(quán)威的UCI數(shù)據(jù)庫(kù)中的心臟病預(yù)測(cè)數(shù)據(jù)集來(lái)測(cè)試Logistic回歸模型的預(yù)測(cè)性能,結(jié)果顯示,Logistic回歸模型能夠很準(zhǔn)確地預(yù)測(cè)出樣本是否患有心臟病,對(duì)心臟病的臨床預(yù)測(cè)有指導(dǎo)意義。