姚 妮,高政源,王 強(qiáng),朱付保
(鄭州輕工業(yè)大學(xué) 計(jì)算機(jī)與通信工程學(xué)院,河南 鄭州 450000)
隨著當(dāng)今社會的飛速發(fā)展,人們生活水平不斷提高,生活方式逐漸改變,心血管疾病數(shù)量也不斷增加。根據(jù)世界衛(wèi)生組織的統(tǒng)計(jì)數(shù)據(jù),心血管疾病已逐漸成為影響人們身體健康的“頭號殺手”,而其中的冠心病更是倍受人們關(guān)注。世界衛(wèi)生組織將冠心病分為5大類[1],分別是心絞痛、無癥狀心肌缺血(隱匿性冠心?。⑷毖孕牧λソ撸ㄈ毖孕呐K?。?、心機(jī)梗死和猝死。
在冠心病的診斷過程中,不僅需要病人的基本信息,還需要病人的家族病史、血壓、臨床癥狀、心肌灌注顯影圖等大量復(fù)雜的臨床變量。由于數(shù)據(jù)量龐大,人工診斷操作對于心臟科醫(yī)生的水平要求非常高,有時(shí)甚至需要多名專家聯(lián)合會診,也為冠心病多變量相互作用的研究提供了新的機(jī)遇。
在當(dāng)前大數(shù)據(jù)的挖掘處理過程中,機(jī)器學(xué)習(xí)算法[2]發(fā)揮著重要的作用,其中邏輯回歸是一種廣義的線性回歸模型,決策樹是一種自上而下的樹形分類結(jié)構(gòu),隨機(jī)森林是利用多棵決策樹形成的集成分類器。文章首先對通過心肌灌注顯像(Myocardial Perfusion Imaging,MPI)所得到的患者心臟參數(shù)及醫(yī)生診斷的臨床數(shù)據(jù)進(jìn)行篩選、填充和離散化,形成數(shù)據(jù)集,然后通過信息增益特征評估方法,按特征對于目標(biāo)變量“雙源CT積分”的重要程度進(jìn)行排序,再利用機(jī)器學(xué)習(xí)中的邏輯回歸、決策樹、隨機(jī)森林3種機(jī)器學(xué)習(xí)算法,使用最優(yōu)的特征量構(gòu)建分類識別模型,并使用測試集中的測試數(shù)據(jù)進(jìn)行預(yù)測性能評估,根據(jù)評估結(jié)果形成最優(yōu)識別模型。
懷卡托智能分析環(huán)境(Waikato Environment for Knowledge Analysis,WEKA)[4]是一款基于Java的開源機(jī)器學(xué)習(xí)軟件,不僅包括對數(shù)據(jù)預(yù)處理、分類、回歸、聚類、關(guān)聯(lián)規(guī)則分析的函數(shù)庫,而且是個公開、免費(fèi)、非商業(yè)化的數(shù)據(jù)挖掘工作平臺。
信息增益(Information Gain)[5]是一種常用的特征選擇方法,依據(jù)各個特征,根據(jù)整個分類系統(tǒng)帶來信息量的多少來顯示特征的重要性。這個信息量即特征重要性的直觀體現(xiàn)就是信息熵,簡稱熵,其具體的計(jì)算過程如式(1)所示:
如果有變量X,其存在的類別數(shù)有n種,且每一種類別取到的概率值為Pi,那么X的熵就定義為:
使用信息增益的方法,可以對特征對于整個分類系統(tǒng)的貢獻(xiàn)做出排序,并針對不同的算法逐個刪除排名最后的特征屬性,觀察模型準(zhǔn)確率的變化,并進(jìn)行記錄,以得到使相應(yīng)算法準(zhǔn)確率最高的特征序列。
文章使用信息增益算法對患者特征重要性進(jìn)行排序,使用邏輯回歸、決策樹、隨機(jī)森林3種算法對診斷模型進(jìn)行對比建模。
1.3.1 邏輯回歸
邏輯回歸[6]是一種廣義的線性回歸分析模型,常用于大量數(shù)據(jù)的挖掘、復(fù)雜疾病的診斷以及股價(jià)預(yù)測、經(jīng)濟(jì)走勢等方面。邏輯回歸算法的基本原理:針對某些分類問題或者是回歸問題來建立合適的代價(jià)函數(shù),通過優(yōu)化的方法迭代求解得出最優(yōu)的模型參數(shù),最后對模型的好壞進(jìn)行驗(yàn)證操作。
1.3.2 決策樹
決策樹[7]是用來對數(shù)據(jù)集實(shí)例進(jìn)行分類的一種樹型結(jié)構(gòu),從數(shù)據(jù)的特征(或?qū)傩裕┏霭l(fā),以特征為基礎(chǔ),對不同類別進(jìn)行劃分。決策樹算法規(guī)則可以看作為if-then規(guī)則的集合,同時(shí)也可以認(rèn)為是定義在特征空間與類空間上的條件概率分布。決策樹算法學(xué)習(xí)的本質(zhì)就是根據(jù)已有的訓(xùn)練數(shù)據(jù)集總結(jié)、歸納出一組較好的分類規(guī)則。
1.3.3 隨機(jī)森林
隨機(jī)森林[8]是指利用多棵樹對數(shù)據(jù)集樣本進(jìn)行訓(xùn)練和預(yù)測的一種分類器,是一個包含多個決策樹的分類器,使用機(jī)器學(xué)習(xí)中常見的bagging思想,使用組成森林的每棵數(shù)的輸出類別的投票結(jié)果決定該分類器的輸出類別。
選取某醫(yī)院完整冠心病患者數(shù)據(jù)621例,其中,訓(xùn)練數(shù)據(jù)集521例,測試集100例,測試集與訓(xùn)練集獨(dú)立同分布。所有研究對象資料完整,包含MPI[9]參數(shù)左心腔短暫性缺血性擴(kuò)張(Transient Ischemic Dilation,TID)、肺/心放射性比值(Lung/Heart Ratio,LHR)、左心室負(fù)荷總積分(Summed Stress Score,SSS)等共17個,醫(yī)生臨床診斷信息性別(Gender)、年齡(Age)、高血壓(Hypertension)、緩解方式(Mitigation mode)等共19個。
經(jīng)過在醫(yī)生指導(dǎo)下的篩選、填充及離散化處理,數(shù)據(jù)集的分布狀況如表1所示。
表1 數(shù)據(jù)統(tǒng)計(jì)分布 例 % x±s
采用信息增益對數(shù)據(jù)進(jìn)行特征排序,再選擇針對不同的算法逐個刪除排名最后的特征屬性,觀察模型準(zhǔn)確率的變化,以選擇適應(yīng)算法的最優(yōu)特征數(shù)量。
邏輯回歸算法測試未經(jīng)過特征選擇的模型準(zhǔn)確率如圖1所示,測試結(jié)果為74.09%。采用根據(jù)特征選擇結(jié)果逐一刪除屬性的方式,逐一測試模型準(zhǔn)確率并記錄。實(shí)驗(yàn)初始,隨著特征選擇排名靠后的屬性刪除的個數(shù)的增加,模型準(zhǔn)確率也逐漸上升,當(dāng)模型準(zhǔn)確率達(dá)到一定限度后,再次刪除時(shí),準(zhǔn)確率又會逐漸下降,在刪除“峰值心率”屬性、保留了17個特征后,模型的準(zhǔn)確率達(dá)到了77.74%。相比未經(jīng)過特征選擇的數(shù)據(jù)集來說,模型準(zhǔn)確率提高了約3.65%。
圖1 邏輯回歸算法模型刪除屬性準(zhǔn)確率折線圖
決策樹算法測試未經(jīng)過特征選擇的模型準(zhǔn)確率如圖2所示,測試結(jié)果為64.88%,采用根據(jù)特征選擇結(jié)果逐一刪除屬性的方式,逐一測試模型準(zhǔn)確率并記錄。初步按照特征排序結(jié)果進(jìn)行屬性刪除時(shí),隨著特征選擇排名靠后的屬性刪除個數(shù)的逐漸增加,模型準(zhǔn)確率也先隨之上升,達(dá)到峰值后開始下降,在刪除“靜息脈沖寬度”屬性、保留14個特征時(shí),應(yīng)用于決策樹算法的模型準(zhǔn)確率達(dá)到峰值77.74%,模型準(zhǔn)確率相對沒有做特征選擇之前提高了12.86%。
圖2 決策樹算法模型依次刪除屬性準(zhǔn)確率折線圖
隨機(jī)森林算法測試未經(jīng)過特征選擇的模型準(zhǔn)確率如圖3所示,測試結(jié)果為75.23%,采用根據(jù)特征選擇結(jié)果逐一刪除屬性的方式,逐一測試模型準(zhǔn)確率并記錄。初步按照特征排序結(jié)果進(jìn)行屬性刪除時(shí),隨著特征選擇排名靠后的屬性刪除個數(shù)的逐漸增加,模型準(zhǔn)確率在震蕩過程中逐步上升,在刪除“家族史”屬性、保留25個特征時(shí),應(yīng)用于該算法的模型準(zhǔn)確率達(dá)到峰值77.16%,模型準(zhǔn)確率相對沒有做特征選擇之前提高了1.92%左右。
圖3 隨機(jī)森林算法模型依次刪除屬性模型準(zhǔn)確率折線圖
通過對3種算法特征選擇前后的模型準(zhǔn)確率對比,如圖4所示,特征選擇前后的模型準(zhǔn)確率均有所上升,其中決策樹算法的特征選擇成效最為明顯。但3種算法產(chǎn)生的預(yù)測模型的模型準(zhǔn)確率相差不大,為選取最優(yōu)的分類算法,先在訓(xùn)練集上使用不用模型及其相應(yīng)篩選出的特征進(jìn)行訓(xùn)練,再通過測試集來測試分類結(jié)果。
圖4 三種算法對特征選擇前后的數(shù)據(jù)構(gòu)建模型的準(zhǔn)確率對比
對于邏輯回歸算法,模型準(zhǔn)確率達(dá)到最大時(shí)保留的特征為性別、左心腔短暫性缺血性擴(kuò)張、肺/心放射性比值、左心室負(fù)荷總積分、左心室靜息總積分、靜息脈沖寬度、左心室靜息嚴(yán)重度計(jì)分、左心室靜息收縮末期容積、程度峰值、癥狀、部位、緩解方式、身高、體重、運(yùn)動實(shí)驗(yàn)時(shí)長、運(yùn)動實(shí)驗(yàn)等級、運(yùn)動實(shí)驗(yàn)結(jié)果,基于上述特征,采用邏輯回歸算法建模,并對預(yù)先處理好的測試集的“雙源CT檢查結(jié)果”進(jìn)行預(yù)測,該模型預(yù)測正確的實(shí)例個數(shù)為65,預(yù)測錯誤的實(shí)例個數(shù)為35,計(jì)算得到該算法模型對測試集預(yù)測準(zhǔn)確率為65%。
對于決策樹算法,模型準(zhǔn)確率達(dá)到最大時(shí)保留的特征為性別、肺/心放射性比值、左心室負(fù)荷總積分、左心室靜息總積分、左心室靜息收縮末期容積、程度谷值、癥狀、緩解方式、體重、運(yùn)動實(shí)驗(yàn)時(shí)長、運(yùn)動實(shí)驗(yàn)等級、運(yùn)動實(shí)驗(yàn)結(jié)果、心肌血流灌注信息、冠狀動脈旁路移植術(shù),基于上述特征,采用決策樹算法建模,并對預(yù)先處理好的測試集的“雙源CT檢查結(jié)果”進(jìn)行預(yù)測,該模型預(yù)測正確的實(shí)例個數(shù)為72,預(yù)測錯誤的實(shí)例個數(shù)為28,計(jì)算得到該算法模型對測試集預(yù)測準(zhǔn)確率為72%。
對于隨機(jī)森林算法,模型準(zhǔn)確率達(dá)到最大時(shí)保留的特征為性別、左心腔短暫性缺血性擴(kuò)張、肺/心放射性比值、左心室負(fù)荷總積分、左心室靜息總積分、靜息脈沖寬度、左心室靜息舒張末期容積、左心室靜息收縮末期容積、左心室靜息射血分?jǐn)?shù)、程度峰值、灌注缺陷峰值、程度谷值、左心室負(fù)荷射血分?jǐn)?shù)、吸煙、飲酒、癥狀部位、誘因、緩解方式、身高、體重、運(yùn)動實(shí)驗(yàn)時(shí)長、運(yùn)動實(shí)驗(yàn)等級、運(yùn)動實(shí)驗(yàn)結(jié)果、心肌血流灌注信息、冠狀動脈旁路移植術(shù),基于上述特征,采用隨機(jī)森林算法建模,并對預(yù)先處理好的測試集的“雙源CT檢查結(jié)果”進(jìn)行預(yù)測,該模型預(yù)測正確的實(shí)例個數(shù)為62,預(yù)測錯誤的實(shí)例個數(shù)為38,計(jì)算得到該算法模型對測試集結(jié)果預(yù)測準(zhǔn)確率為62%[9-10]。
當(dāng)前的研究表明,邏輯回歸算法、決策樹算法、隨機(jī)森林算法可以用來預(yù)測冠心病的風(fēng)險(xiǎn)評估。本研究的創(chuàng)新點(diǎn)源在于使用“雙源CT”積分作為分級標(biāo)準(zhǔn)及預(yù)測變量,并且在特征上結(jié)合了MPI的心肌灌注參數(shù)及臨床診斷指標(biāo),能夠更好地幫助心血管醫(yī)生更為高效地對冠心病患者進(jìn)行診斷。
本研究中的3個模型通過信息增益選取最適應(yīng)其算法的特征,其中特征選擇對決策樹算法構(gòu)建模型準(zhǔn)確率影響最大,利用決策樹算法構(gòu)建的模型在數(shù)據(jù)集進(jìn)行特征篩選后的準(zhǔn)確率提升了12.86%左右,而對隨機(jī)森林算法構(gòu)建模型準(zhǔn)確率影響最小,利用隨機(jī)森林算法構(gòu)建的模型在數(shù)據(jù)集進(jìn)行特征篩選后的準(zhǔn)確率僅提升了1.92%。進(jìn)行特征選擇后3種算法構(gòu)建模型準(zhǔn)確率相差不大,最終構(gòu)建模型準(zhǔn)確率達(dá)到最高的算法為邏輯回歸算法和決策樹算法,模型準(zhǔn)確率達(dá)到了77.74%。
通過上述3種算法依次對521個訓(xùn)練集實(shí)例的訓(xùn)練結(jié)果對比以及對100個測試集實(shí)例的預(yù)測結(jié)果對比,可以發(fā)現(xiàn),針對該冠心病數(shù)據(jù)集,用上述3種算法構(gòu)建預(yù)測模型時(shí),所訓(xùn)練出來的模型在準(zhǔn)確率最高時(shí)相差并不是很大,基本上都維持在77%~78%,準(zhǔn)確率最高的是邏輯回歸算法和決策樹算法訓(xùn)練的冠心病預(yù)測模型,兩者的準(zhǔn)確率都達(dá)到了77.74%。而在對測試集進(jìn)行預(yù)測時(shí),3種算法訓(xùn)練出來的模型所預(yù)測的結(jié)果有較大差異,隨機(jī)森林算法訓(xùn)練出的模型對100個測試集實(shí)例的預(yù)測準(zhǔn)確率是三者中最低的,為62%,而決策樹算法訓(xùn)練出的模型對相同數(shù)目的測試集實(shí)例的預(yù)測準(zhǔn)確率是3種算法中最高的,為72%。因此得出結(jié)論,在該類冠心病數(shù)據(jù)集上,決策樹算法訓(xùn)練出的模型最適合用于該冠心病數(shù)據(jù)集“雙源CT”結(jié)果的預(yù)測。