章潔 武東
摘 要:近年來,心血管疾病已成為威脅人們生命的主要疾病,而心血管疾病患者早期發(fā)病時往往出現(xiàn)心律失常癥狀,因此早期檢測心律失常對提前預(yù)防心血管疾病,及早介入治療具有至關(guān)重要的意義。基于此,本研究利用小波分析方法對不同類型的心電序列進(jìn)行去噪聲處理,再利用ARMA模型以及時間序列的方法對分解后的信號序列進(jìn)行特征提取,將ARMA模型的系數(shù)作為心電信號的特征指標(biāo);結(jié)合決策樹分類、支持向量機(jī)分類和隨機(jī)森林分類機(jī)器學(xué)習(xí)方法對提取后的心電特征指標(biāo)進(jìn)行分類研究,并根據(jù)實驗結(jié)果對三種算法的性能進(jìn)行比較分析。
關(guān)鍵詞:心電信號;分類;ARMA模型;機(jī)器學(xué)習(xí);心律失常
據(jù)世界衛(wèi)生組織(WHO)統(tǒng)計,2016年全球死亡人數(shù)中,71%死于NCDs(非傳染性疾?。?,54%緣于10大原因,而Ischaemic heart disease(缺血性心臟?。└呔影袷?。2016年我國死于心血管疾病人數(shù)約占死亡總數(shù)的43%,心血管疾病已成為剝奪我國人民生命的主要元兇,。因而,加強(qiáng)對心血管疾病的預(yù)防、診斷和治療是控制死亡人數(shù)的關(guān)鍵,同時也是我國社會長治久安的基本需要。
心律失常是心血管疾病的主要部分之一,其不僅會加重患者原有心臟疾病,而且還會導(dǎo)致患者突然死亡。本文主要針對心律失常的心電信號展開分類研究,心電圖(Electrocardiogram,ECG)是醫(yī)生臨床診斷心血管疾病的必要工具,其對心律失常的診斷具有重要價值。
近年來,心電信號分類研究大多采用神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)等傳統(tǒng)的統(tǒng)計模型,其分類的類別也大多局限在二分類。本研究采用計算速度顯著優(yōu)于神經(jīng)網(wǎng)絡(luò)模型的隨機(jī)森林算法進(jìn)行四分類,并與支持向量機(jī)分類器相比,我們發(fā)現(xiàn)隨機(jī)森林對大樣本建模更具優(yōu)勢,分類的準(zhǔn)確率也更高。
1 數(shù)據(jù)來源與方法
1.1 數(shù)據(jù)來源
本文采用MIT-BIH 數(shù)據(jù)庫中MIT-BIH Arrhythmia Database(mitdb)作為研究的心電數(shù)據(jù)源,該數(shù)據(jù)庫總共有48條ECG記錄中,且每條記錄的總樣本點為65萬,其中25條記錄(編號從200到234)包括多種一些罕見但臨床上重要的現(xiàn)象。此外,數(shù)據(jù)庫中每個記錄樣本有兩個數(shù)據(jù)通道(即 MLII 導(dǎo)聯(lián)和胸導(dǎo)聯(lián) V1),由于心律失常在 MLII 導(dǎo)聯(lián)特征較明顯且質(zhì)量較好,故選取 MLII 導(dǎo)聯(lián)數(shù)據(jù)進(jìn)行心電信號心拍的分類研究,并通過與專家注釋結(jié)果進(jìn)行對比來評價實驗結(jié)果?;诖耍疚膹?00到234這25條心電記錄出發(fā),著手研究心律失常心電信號的分類。
1.2 預(yù)處理
心電信號在采集的過程中會受到心臟自身和外部因素的干擾,使心電信號的時間間期和波形上發(fā)生變化。因此,采集的心電信號通常需要去除基線漂移(SymbolcB@5hz)、肌電噪聲(10-300hz)和工頻噪聲(50hz)等干擾信號,從而提高醫(yī)療診斷的準(zhǔn)確性。為了盡量降低噪聲對心電信號的影響,本文采用小波閾值去噪,以保證在濾除噪聲的同時盡可能保留原有心電信號的波形。
小波閾值去噪是對信號進(jìn)行正交小波變換,變換后的小波系數(shù)中含有大量的ECG信號的數(shù)據(jù),ECG中的噪聲的圖像分布情況與小波系數(shù)分布相同,其模擬具有合理性。小波系數(shù)大小不一,我們可以將絕對值小的設(shè)為0,相反,對絕對值大的,可以采用軟、硬閾值的方法對其進(jìn)行保存下來或者進(jìn)行壓縮。由此先得到小波系數(shù)(estimated wavelet coefficients,EWC)的估計值,再通過已得到的小波系數(shù)組成新的ECG信號,從而達(dá)到去噪的效果。
從右圖中可以看到原始信號的圖像受到噪聲影響,導(dǎo)致心電信號的波形改變,在臨床上可能對醫(yī)生的分析判斷產(chǎn)生干擾。我們利用matlab統(tǒng)計軟件對信號進(jìn)行小波分析,得到去噪后的信號圖像,由下圖可知,經(jīng)過去噪處理的信號圖像變得光滑,大大的減少了信號失真,以便于醫(yī)務(wù)工作人員對圖像進(jìn)行判別分析,對提高患者的診斷效率具有重要意義。
原始信號與去噪后的信號圖像對比圖
1.3 樣本心拍的分割
心律失常的心電信號往往在波形形態(tài)上表現(xiàn)異常,通常體現(xiàn)在每個心拍中,故我們對心律失常心電信號進(jìn)行分類時,需要將心電信號分割成逐個心拍。在分割過程中,分割長度是影響最終信號分類的一個重要因素,基于心律失常的波形異常主要表征在 PR 間期異常和 QRS 波群,并結(jié)合心電信號時限特征,本文以 R 波為關(guān)鍵點,前后各截取150 個樣本點即301個樣本點作為樣本心拍,基本可以包含所有的波形特征。MIT-BIH 心律失常數(shù)據(jù)庫中,每個心拍都專家進(jìn)行詳細(xì)標(biāo)注,注釋包括 R 波位置、心律失常類型等。本文共選取正常心拍(N)、左束支傳導(dǎo)阻滯心拍(L)、右束支傳導(dǎo)阻滯心拍(R)、室性早搏心拍(V)四類心拍。
1.4 特征提取
特征提取的方法大體分為頻域分析和時域分析兩類。相比于頻域分析,時域分析方法更加直觀。時域分析方法中的自回歸移動平均模型(autoregressive moving average,ARMA),可以將相關(guān)時序轉(zhuǎn)化為獨立時序,從而利用對獨立時序進(jìn)行統(tǒng)計處理的方法去處理相關(guān)時序。此外,ARMA(n,m)模型是一個平滑濾波器,對觀測數(shù)據(jù)能夠自主進(jìn)行平滑和濾波,進(jìn)一步達(dá)到去噪效果,估計出觀測數(shù)據(jù)的真值。蘊(yùn)含在心電數(shù)據(jù)的取值大小及其先后順序的心電特征可由ARMA(n,m)模型的模型參數(shù)φi、θj和δ2ε刻畫,基于ARMA(n,m)模型信息凝聚性,我們通過對心電數(shù)據(jù)建立ARMA(n,m)模型,提取擬合的模型參數(shù)作為每個樣本心拍的特征值。ARMA(n,m)的模型結(jié)構(gòu)如下:
在建模中,階次n和m的選取至關(guān)重要。無論是葛丁飛等人利用MDL和MDL敏感性函數(shù)作為定階準(zhǔn)則,還是張婷婷等人提出的根據(jù)信噪比和AIC準(zhǔn)則定階,結(jié)果都表明當(dāng)n=4,m=2時,模型擬合的仿真信號與原始信號最為接近。故本研究選用ARMA(4,2)模型,并利用R語言中的arima()函數(shù)對樣本心拍數(shù)據(jù)建立模型,直接輸出擬合的模型系數(shù)。
1.5 機(jī)器學(xué)習(xí)分類算法研究
在上一節(jié)中,我們對每個心拍提取了6個特征,以便下面的心電信號分類。有監(jiān)督機(jī)器學(xué)習(xí)領(lǐng)域中包含許多分類的方法,本研究將著重比較分析決策樹、隨機(jī)森林、支持向量機(jī)這三種機(jī)器學(xué)習(xí)分類算法。
1.5.1 分類決策樹
經(jīng)典決策樹CART(Classification and Regression Trees)是由決策樹生成和決策樹剪枝兩部分組成。CART分類樹首先對所有自變量和所有分割點進(jìn)行評估,使分割后組內(nèi)的數(shù)據(jù)因變量取值差異更小,該差異可由基尼指數(shù)(Gini index)度量,從而進(jìn)行特征選擇生成二叉樹。為了避免得到一棵過大的樹,從而出現(xiàn)過擬合現(xiàn)象,我們采用后剪枝對訓(xùn)練集生長的樹進(jìn)行剪枝。針對本研究的四分類任務(wù),CART首先將目標(biāo)類別合并成兩個超類別,再逐個分類。
假設(shè)有K個類,樣本點屬于第k類的概率為pk,則概率分布的基尼指數(shù)為:
1.5.2 隨機(jī)森林
隨機(jī)森林(random forest)是一種集成式的有監(jiān)督學(xué)習(xí)方法,基于結(jié)合多個較弱的分類器來創(chuàng)建很強(qiáng)的分類器。隨機(jī)森林對樣本單元和變量進(jìn)行有放回隨機(jī)抽樣,從而生成大量決策樹(R語言中默認(rèn)生成500棵),并用隨機(jī)組合所有的決策樹對樣本單元進(jìn)行分類。
假設(shè)樣本數(shù)據(jù)共有N個樣本單元,M個變量,則隨機(jī)森林分類的具體步驟如下:
(1)從訓(xùn)練集中隨機(jī)有放回抽取N個樣本單元,生成大量決策樹。
(2)在每棵樹的每個節(jié)點隨機(jī)抽取m (3)每棵樹最大限度生長,無需剪枝(最小節(jié)點為1)。 (4)將生成的所有決策樹組成隨機(jī)森林分類器,并用其對新的數(shù)據(jù)進(jìn)行分類,分類結(jié)果由多數(shù)決定原則生成。 隨機(jī)森林算法使用Gini系數(shù)度量變量的相對重要程度,即分割該變量時節(jié)點不純度(異質(zhì)性)的下降總量對所有樹取平均。 1.5.3 支持向量機(jī) 支持向量機(jī)(Support Vector Machine,SVM)近來被人們廣泛應(yīng)用于分類問題,它的流行根植于其最先進(jìn)的性能以及其背后優(yōu)雅的數(shù)學(xué)理論。支持向量機(jī)旨在創(chuàng)建一個稱為超平面(hyperplane)的平面邊界來劃分?jǐn)?shù)據(jù)空間,由此對數(shù)據(jù)進(jìn)行分類,并使得兩類中距離最近的點的間距盡可能大,即形成最大間隔超平面,在間距邊上的點被稱為支持向量。 本研究中的樣本數(shù)據(jù)本身是非線性的,需使用核函數(shù)將數(shù)據(jù)投影到一個更高維的空間中,使其在高維線性可分。一般,核函數(shù)將一些變換應(yīng)用于特征向量xi和xj,并進(jìn)行點積: 核函數(shù)的種類有很多,其中徑高斯徑向基核函數(shù)(Radial Basis Function,RBF)具有能應(yīng)對類別標(biāo)簽與預(yù)測變量間的非線性關(guān)系的優(yōu)良特性,對于許多類型的數(shù)據(jù)都運(yùn)行得很好故本研究選用其作為核函數(shù)。設(shè)σ是核參數(shù),則高斯RBF核函數(shù)的公式為1-6。 帶RBF核的SVM中還有一重要參數(shù)成本(Cost,C),不同的參數(shù)值對應(yīng)著不同的分類模型,在建模時,R語言軟件變換參數(shù)σ和C的值建立不同的模型,以生成性能最優(yōu)的分類器。 2 結(jié)果 本研究從MIT-BIH ALrrhythmia Database的25條記錄中進(jìn)行心拍分割,獲取5147個樣本心拍,其中N 1357個,L型心拍1201個,R型心拍1247個,V型心拍1342個。本研究中的三種分類算法都是根據(jù)訓(xùn)練集建立模型,從而對驗證集進(jìn)行預(yù)測,并與真實結(jié)果進(jìn)行對比。由此訓(xùn)練集與驗證集的劃分對分類結(jié)果的影響重大,本文從樣本數(shù)據(jù)中隨機(jī)抽取70%作為訓(xùn)練數(shù)據(jù)集,而剩下的30%作為驗證數(shù)據(jù)集。為了直接對三種機(jī)器學(xué)習(xí)方法的分類能力進(jìn)行比較分析,三種方法都采用相同的數(shù)據(jù)集。 本研究采用準(zhǔn)確率來評估各種分類器的性能,即分類器是否能對驗證集數(shù)據(jù)正確分類,并通過調(diào)用R語言中的相關(guān)函數(shù)進(jìn)行計算。具體結(jié)果如下表所示。 3 討論 分類決策樹對噪聲有較好的魯棒性,并自動忽略不重要的特征,如本文中特征六被分類器排除。但是,模型有欠擬合或過擬合傾向,故分類的準(zhǔn)確率相對較低。實驗結(jié)果表明,隨機(jī)森林分類的準(zhǔn)確率比其他分類器高,其易于使用并具有更少的過擬合傾向,其性能不輸于功能強(qiáng)大的SVM,甚至更勝一籌。與隨機(jī)森林類似SVM的一大缺點是分類準(zhǔn)則比較難以理解和表述。此外SVM在對大量樣本建模時不如隨機(jī)森林,但只要建立了一個成功的模型,對新樣本的分類就較為準(zhǔn)確。 本研究基于機(jī)器學(xué)習(xí)方法對正常心律心拍和三種心律異常的心電心拍進(jìn)行分類,成功地將傳統(tǒng)的二分類拓展到四分類。進(jìn)一步深化研究,提高分類的準(zhǔn)確性,并將該方法應(yīng)用到其他種類的心律失常信號的分類中,對醫(yī)生臨床診斷具有實踐意義。 參考文獻(xiàn): [1]World Health Organization.The Top 10 Causes of Death[Online].Available:https://www.who.int/news-room/fact-sheets/detail/the-top-10-causes-of-death,May,2018. [2]Tompkins W.Biomedical Digital Signal Processing[M].New Jersey:Prentice Hall,Englewood Cliffs,1993. [3]楊寶峰,蔡本志.心律失常發(fā)病機(jī)制研究進(jìn)[J].國際藥學(xué)研究雜志,2010,37(2):81-88. [4]張揚(yáng),蔡建立.小波分析和ECG信號的檢測.南京理工大學(xué)學(xué)報,2005,29(10):223-225. [5]楊叔子,吳雅.時間序列分析的工程運(yùn)用(上、下冊)[M].武漢:華中科技大學(xué)出版社,2007. [6]吳志勇,丁香乾,許曉偉,鞠傳香.基于深度學(xué)習(xí)和模糊C均值的心電信號分類方法[J].自動化學(xué)報,2018,44(10):1913-1920. [7]王艷.基于ECG的心律失常特征提取及分類算法的研究[D].蘇州大學(xué),2018. [8]葛丁飛,李時輝.基于ARMA模型的ECG分類和壓縮[J].浙江科技學(xué)院學(xué)報,2004(01):7-13. [9]毛雪岷,張婷婷,蔡傳晰,李瓊.基于ARMA模型的心電聚類算法[J].中國生物醫(yī)學(xué)工程學(xué)報,2012,31(06):816-821. [10]張婷婷.基于ARMA模型的時間序列挖掘[D].合肥工業(yè)大學(xué),2013. [11]陳義.心電信號的異常心律分類算法研究[D].重慶大學(xué),2016. [12]王燕.時間序列分析:基于R[M].北京:中國人民大學(xué)出版社,2015.3. [13][美]布雷特·蘭茨(Brett Lantz),李洪成,許金煒,李艦譯.機(jī)器學(xué)習(xí)與R語言(原書第2版)[M].北京:機(jī)械工業(yè)出版社,2016.12. [14][美]卡巴科弗(Kabacoff,R.I.)著,王小寧等譯.R語言實戰(zhàn):第2版[M].北京:人民郵電出版社,2016.5. [15]A.Batra,V.Jawa,Classification of arrhythmia using conjunction of machine learning algorithms and ECG diagnostic criteria,Int.J.Biol.Biomed.1(2016)1-7. 基金:安徽省高校自然科學(xué)研究重點項目(KJ2017A892) *通訊作者:武東。