卞水榮,顧媛媛,趙強(qiáng)
(徐州醫(yī)科大學(xué)醫(yī)學(xué)信息學(xué)院,江蘇徐州221000)
隨著社會(huì)節(jié)奏的不斷加速,人們的工作壓力越來(lái)越大,疾病發(fā)生概率也越來(lái)越高,心血管疾病是發(fā)病率較高的疾病之一。據(jù)調(diào)查,我國(guó)現(xiàn)有的心血管患者數(shù)量大約是2.3億,總患病率達(dá)到20%左右,并且還在在逐年上升中。據(jù)相關(guān)研究預(yù)測(cè):到2030年,僅由于人口老齡化與人口增長(zhǎng),中國(guó)每年的心血管疾病事件數(shù)將上升超過(guò)50%,如果考慮高血壓、高膽固醇血癥以及糖尿病的增長(zhǎng)所導(dǎo)致年心血管事件數(shù)將額外增長(zhǎng)23%,如果不加以控制,在2030年中國(guó)心血管疾病患者將增加2130萬(wàn)人,心血管疾病死亡人數(shù)將增加770萬(wàn)人[1-2]。因此,心血管疾病的盡早診斷和治療對(duì)國(guó)民健康來(lái)說(shuō)就顯得尤其重要。
在心血管疾病的診斷中,心電信號(hào)的參考價(jià)值最大,而心電圖檢測(cè)正是目前心電信號(hào)診斷的最常用的醫(yī)療檢測(cè)方法,具有廉價(jià)、易行、無(wú)創(chuàng)等優(yōu)點(diǎn)[3-4]。它與以前的聽診相比,提供了更加精準(zhǔn)的心臟疾病的診斷依據(jù)。然而傳統(tǒng)的人工讀心電圖診斷心血管疾病的方法效率低,受到醫(yī)生主觀因素的影響大,有一定誤診率。如果能夠在醫(yī)生做出診斷之前對(duì)所采集的心電信號(hào)進(jìn)行智能分析分類,提供一定的診斷參考支持,那么將會(huì)大幅提高醫(yī)生的工作效率以及診斷準(zhǔn)確率。
1959年世界上第一個(gè)用于區(qū)分正常與異常ECG的程序由美國(guó)人Pinbeopr等人完成,是人類對(duì)心電信號(hào)自動(dòng)分析的最早研究。隨著科學(xué)技術(shù)、方法的發(fā)展,心電信號(hào)的自動(dòng)分析和診斷技術(shù)不斷得到改進(jìn)和完善,實(shí)現(xiàn)了從理論研究到應(yīng)用的跨越。
心電信號(hào)的分類是幫助醫(yī)生實(shí)現(xiàn)心電信號(hào)智能診斷的基礎(chǔ),這些年的發(fā)展已經(jīng)有很多分類方法,比如聚類算法、神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)。
1)聚類算法,是一種無(wú)監(jiān)督的方法。經(jīng)典的是K-means和K-medoids算法,它將數(shù)據(jù)分為k類,各類內(nèi)部數(shù)據(jù)間距離近,各類之間數(shù)據(jù)間距遠(yuǎn)。距離的類型有閔可夫斯基距離、曼哈頓距離、歐幾里德距離、切比雪夫距離[5]。何云斌等人提出了基于均方差屬性加權(quán)的遺傳模擬退火K-means改進(jìn)聚類算法[6],該算法對(duì)心電信號(hào)進(jìn)行了有效分類,準(zhǔn)確率高于傳統(tǒng)的K-means算法。
2)神經(jīng)網(wǎng)絡(luò)方法,可以實(shí)現(xiàn)并行處理ECG特征的大量判斷規(guī)則。徑向基函數(shù)(RBF)網(wǎng)絡(luò)是其中的一種,該網(wǎng)絡(luò)結(jié)構(gòu)簡(jiǎn)單,學(xué)習(xí)的收斂速度快。RBF網(wǎng)絡(luò)對(duì)心電信號(hào)的分類能力強(qiáng),速度快[7]。
3)支持向量機(jī),目前已成為主要的模式識(shí)別方法之一,應(yīng)用范圍廣泛,可以在模型復(fù)雜性和學(xué)習(xí)能力之間找到最佳平衡點(diǎn)。
心電數(shù)據(jù)庫(kù)作為現(xiàn)在醫(yī)學(xué)數(shù)據(jù)庫(kù)的重要組成部分之一,發(fā)揮著臨床研究的重大意義及價(jià)值,其往往作為研究心電自動(dòng)分類診斷研究的主要數(shù)據(jù)源。為了保證心電數(shù)據(jù)庫(kù)中數(shù)據(jù)的權(quán)威性,它的建立必須有嚴(yán)格標(biāo)準(zhǔn)和必要的技術(shù)要求,包括醫(yī)學(xué)儀器設(shè)備標(biāo)準(zhǔn)、醫(yī)學(xué)分類及診斷標(biāo)準(zhǔn)。
目前有3個(gè)國(guó)際公認(rèn)的可作為心電權(quán)威的標(biāo)準(zhǔn)數(shù)據(jù)庫(kù),分別是美國(guó)麻省理工學(xué)院MIT-BIH的心率失常數(shù)據(jù)庫(kù)、美國(guó)心臟學(xué)會(huì)的AHA心電數(shù)據(jù)庫(kù)、歐洲的ST-T心電數(shù)據(jù)庫(kù)[8]。其中MIT-BIH心率失常數(shù)據(jù)庫(kù)采集了1975-1979年間在Bethlsrael醫(yī)院心率失常實(shí)驗(yàn)室的4000多個(gè)動(dòng)態(tài)心電圖數(shù)據(jù)。數(shù)據(jù)庫(kù)中含48個(gè)記錄,每個(gè)記錄的時(shí)間可達(dá)到30多分鐘。每條記錄有兩個(gè)導(dǎo)聯(lián)的數(shù)據(jù),第一導(dǎo)聯(lián)通常是肢體導(dǎo)聯(lián)MLII,第二導(dǎo)聯(lián)通常是胸前導(dǎo)聯(lián)V1或V5。數(shù)據(jù)庫(kù)中既包含常見的心電圖波形,為“100”系列:#100~#109、#111~#119、#121~#124,共 23組數(shù)據(jù);也有部分罕見的心率失常心電圖波形,為“200”系列:#200~#203、#205,#207~#210、#212~#215、#217、#219~#223、#228、#230~#234,共 25組數(shù)據(jù)。本研究就是基于MIT-BIH心率失常數(shù)據(jù)庫(kù)進(jìn)行的。
MIT-BIT心率失常數(shù)據(jù)庫(kù)中主要心搏類型如表1所示:
表1 MIT-BIT心率失常數(shù)據(jù)庫(kù)主要心搏類型
在各個(gè)樣本中的主要心搏類型數(shù)量統(tǒng)計(jì)如表2所示。
為保證有足夠的實(shí)驗(yàn)數(shù)據(jù),本研究選擇了8類主要的心搏類型?!罢P牟㎞”選擇的是115號(hào)樣本;“左束支傳導(dǎo)阻滯心搏L”選擇的是111號(hào)樣本;“右束支傳導(dǎo)阻滯心搏R”選擇的是118號(hào)樣本;“房性早搏A”選擇的是232號(hào)樣本;“室性早搏V”選擇的是208號(hào)樣本;“心室融合心跳F”選擇的是213號(hào)樣本;“起搏心搏P”選擇的是107號(hào)樣本;“起搏融合心跳f”選擇的是104號(hào)樣本。
通過(guò)調(diào)用matlab命令文件“rddata.m”,通過(guò)讀取.atr、.dat、.hea文件的信息讀取并展示心電信號(hào),調(diào)用matlab命令文件“rddata.m”的結(jié)果如圖1所示。
主成分分析方法(Principal Component Analysis,PCA)是一種數(shù)學(xué)分析方法,應(yīng)用領(lǐng)域很廣,常用于多變量問(wèn)題的分析。這一概念最早由Karl parson在1901年提出,并且被用于分析非隨機(jī)變量。在1933年Hotelling推廣這一概念,將該方法用于分析隨機(jī)變量[9-10]。主成分分析方法(PCA)是在初始特征空間中經(jīng)K-L變換找出新的較低維坐標(biāo)系表示原特征空間。假設(shè)原特征矩陣為XN×M,則PCA的目標(biāo)就是提取特征降維成,其中L<M。L是所降到的維數(shù),該L維特征向量因?yàn)槭侵鞒煞?,所以也可以代表原矩陣。比較常用的一個(gè)約束條件是滿足能量大于原始矩陣的90%,即因此,最后的求得降維后的特征矩陣此處A的特征向量是列向量。
表2 各個(gè)樣本中的主要心搏類型數(shù)量統(tǒng)計(jì)
圖1 使用matlab讀取心電信號(hào)源文件
Corinna Cortes和Vapnik在1995年首次提出了支持向量機(jī)(Support Vector Machine,SVM),用于模式分類和非線性回歸。這種方法結(jié)合統(tǒng)計(jì)學(xué)習(xí)理論的VC維理論和結(jié)構(gòu)風(fēng)險(xiǎn)最小化原理,然后依據(jù)有限的樣本信息在模型的復(fù)雜性和學(xué)習(xí)能力之間尋求最佳折中,從而獲得最好的推廣能力[11-13]。
文中所用的心電心搏類型分類的數(shù)據(jù)來(lái)源及提取的初始特征向量組數(shù)如表3所示。
表3 心電類型來(lái)源及提取的特征向量
文中選擇這8類心搏的數(shù)據(jù)各前80組,組成總的分類數(shù)據(jù)。再對(duì)這8類數(shù)據(jù)分別賦予類別標(biāo)簽“1、2、3、4、5、6、7、8”存在類別標(biāo)簽變量中。將這 8類樣本的前50%組作為訓(xùn)練集,后50%組作為測(cè)試集,即訓(xùn)練集共有320組、測(cè)試集共有320組。我們先通過(guò)使用訓(xùn)練集對(duì)SVM進(jìn)行訓(xùn)練,再用訓(xùn)練得到的模型對(duì)測(cè)試集進(jìn)行類別標(biāo)簽預(yù)測(cè)。SVM分類過(guò)程如圖2所示。
圖2 SVM分類過(guò)程
文中的SVM采用libsvm-mat-2.89-3版本的工具箱,選擇線性核函數(shù)[14-15]。數(shù)據(jù)在分類前先做歸一化處理。
分類結(jié)果如圖3所示,心搏分為8類,圓圈表示實(shí)際測(cè)試集分類,星號(hào)表示預(yù)測(cè)測(cè)試集分類,兩者的重疊越高說(shuō)明分類準(zhǔn)確率越高。此處分類預(yù)測(cè)的準(zhǔn)確率是97.8125%。
圖3 SVM方法對(duì)心電信號(hào)的分類
為了降低心電初始特征向量的冗余信息,有效提高心電心搏類型的分類準(zhǔn)確率,本文使用PCASVM的模式分類方法[16]。該P(yáng)CA-SVM方法先使用PCA方法對(duì)較高維的心電初始特征向量降維,然后再對(duì)降維后的心電特征向量進(jìn)行SVM分類。過(guò)程如圖4所示。
圖4 PCA-SVM分類過(guò)程
研究提取了含有241個(gè)數(shù)據(jù)點(diǎn)的心電分類波段被記為初始心電特征向量。使用PCA方法對(duì)初始心電特征向量進(jìn)行降維。為了找到最佳PCA下降到的維數(shù),設(shè)置迭代PCA次數(shù)為20,每次迭代輸出PCA的能量率和SVM預(yù)測(cè)準(zhǔn)確率,最終顯示出分類準(zhǔn)確率最高的分類圖形并輸出對(duì)應(yīng)的特征向量所降到的維數(shù)及最高分類準(zhǔn)確率。
PCA-SVM方法對(duì)心電信號(hào)的分類結(jié)果如圖5所示,PCA-SVM方法分類預(yù)測(cè)的準(zhǔn)確率達(dá)到99.0625%,PCA方法使初始心電特征向量維數(shù)降到10維。
圖5 PCA-SVM方法對(duì)心電信號(hào)的分類
本文針對(duì)心電信號(hào)的分類特點(diǎn),選用MIT-BIH心率失常數(shù)據(jù)庫(kù)中8類心率失常數(shù)據(jù)進(jìn)行多組相同條件下的分類實(shí)驗(yàn),分別運(yùn)用SVM模式分類方法和PCA-SVM模式分類方法進(jìn)行分類。經(jīng)過(guò)實(shí)驗(yàn)發(fā)現(xiàn),SVM模式分類方法的分類準(zhǔn)確率為97.8125%,而PCA-SVM模式分類方法的分類準(zhǔn)確率為99.0625%,比SVM模式分類準(zhǔn)確度提高了1.2%。由實(shí)驗(yàn)數(shù)據(jù)結(jié)果可知,在相同的情況下PCA-SVM模式分類方法相對(duì)于SVM模式分類方法確實(shí)可以提高心電心搏類型分類的準(zhǔn)確率,實(shí)現(xiàn)提高心電心搏類型分類準(zhǔn)確率的目的。