彭韻陶,李健
(四川大學電子信息學院,成都 610065)
心電信號是心臟電活動的綜合反映,心律失常是心電活動極為常見但又非常重要的異常狀態(tài)。因此,心律失常的分類在心臟病診斷中具有重要意義[1]。
心電圖自動分類大致分為三個步驟:預處理、特征提取和分類。第一階段,消除基線漂移和電力線干擾,將心電信號切割為心拍。第二階段,心拍的特征提取。由于不同人擁有不同心拍類型,不同類型心拍在形態(tài)上可能彼此相似,導致心拍分類異常困難。因此,ECG 特征提取方法尤為重要,主要包括三類:形態(tài)特征提取[2]、統(tǒng)計特征提取[3]和變換域特征提取[4-6]。最后,使用不同的分類器對不同心拍分類,如支持向量機[2-4]、隨機森林[6]和卷積神經網(wǎng)絡[7-8]。
雖然心電圖分類已進行大量研究,但仍存在問題。首先,美國醫(yī)療器械發(fā)展協(xié)會(AAMI)[9]已在1987年制定將心拍類型分組為5 類的標準,但仍較少文章使用該標準對心拍分類。AAMI 標準建議同一病人心拍不應同時出現(xiàn)在訓練集和測試集,因為這不符合現(xiàn)實的醫(yī)學診斷。因此,按照該標準,本文采用不將訓練心拍和測試心拍混合的“患者間”方案。其次,大量研究存在使用過多特征造成識別耗時過長或使用過少特征但識別精度下降的問題。
就上述問題,本文提出了一種所需特征量少且識別精度高的邏輯混沌投影矩陣與RR 間期結合的心拍分類算法。
ECG 數(shù)據(jù)從MIT-BIH 心律失常數(shù)據(jù)庫[10]中獲取,該數(shù)據(jù)庫包括48 條半小時的動態(tài)ECG 記錄,記錄采樣頻率為360Hz。每條記錄包含兩個數(shù)據(jù)通道,第一數(shù)據(jù)通道為改良肢體導聯(lián)II(MLII),另一數(shù)據(jù)通道通常是 V1,V2,V5 或 V4 導聯(lián)。本文采用 MLII 導聯(lián)數(shù)據(jù)。MLII 導聯(lián)包含15 種不同的心拍類型,包括大約109500 心拍,其中70%為正常心拍,其余為異常心拍。根據(jù)AAMI 提出的評價ECG 分類器的標準,將所有心拍形態(tài)分為五類:即正常搏動(N)、室上性異位搏動(S)、室性異位搏動(V)、V 與 N 融合(F)以及未知搏動類型(Q)。同時,遵循 Chazal 等人[11]提出的 ECG 記錄劃分標準,實現(xiàn)患者間的ECG 分類方案,其中訓練數(shù)據(jù)集:101,106,108,109,112,114,115,116,118,119,122,124,201,203,205,207,208,209,215,220,223,230。測試數(shù)據(jù)集:100,103,105,111,113,117,121,123,200,202,210,212,213,214,219,221,222,228,231,232,233,234。
表1 根據(jù)AAMI 標準的MIT-BIH 心率失常數(shù)據(jù)集
本文心律失常自動分類流程圖如圖1 所示。
(1)從MIT-BIH 數(shù)據(jù)庫中提取原始信號,經過預處理和分割,獲得去噪后的心拍。
(2)利用邏輯混沌投影矩陣獲取每個心拍的投影特征,同時,兩維RR 間期特征被添加到最終特征矩陣中。
(3)使用隨機森林分類器對心拍分類。
此外,數(shù)據(jù)歸一化(Z-score)用于減少來自不同儀器和不同個體導致的心拍幅度偏差問題。
圖1 心律失常自動分類流程圖
原始ECG 信號含有多種噪聲,為了去除這些噪聲,本文采用小波去噪方法,選擇“bior2.6”作為小波母函數(shù),分解層數(shù)設為8。原始信號被分解后,將最高頻率和最低頻率系數(shù)置零,以消除基線漂移和工頻干擾。心拍分割階段,由于分割精度高,本文在該領域未做出貢獻,直接利用MIT-BIH 心律失常數(shù)據(jù)庫中提供的搏動位置注釋,選擇搏動位置之前100 個采樣點和之后的150 個采樣點,組成一個心拍。圖2 展示了原始心拍和去噪心拍樣本,可觀察到基線漂移和工頻干擾已被去除。
圖2 心拍樣本
(1)投影矩陣
投影矩陣是壓縮感知理論的一部分。Candes 等人[12]和Donoho[13]為這種新穎的采樣方案奠定了理論基礎。該理論指出,只要信號在變換域中被壓縮或稀疏,就可以利用投影矩陣將高維信號投影到低維空間上。心電信號在時域上是稀疏信號,因此投影矩陣能將心電信號投影到低維實現(xiàn)信號的壓縮和特征提取。
假設輸入信號為x ∈Rn,用m 個線性觀測向量投影,數(shù)學描述如下:
其中,φ 是 m×n 的矩陣,y ∈Rm。在本項研究中,y 為壓縮后的心拍數(shù)據(jù),x 為壓縮前的心拍數(shù)據(jù),φ 為邏輯混沌投影矩陣。通過上式,原心拍數(shù)據(jù)與混沌投影矩陣相乘后可獲得壓縮后的心拍數(shù)據(jù)。
邏輯混沌序列是一種常見的投影方法,通常用于壓縮數(shù)據(jù)。該方法序列定義如下:
其中,zj∈[0,1], j ∈ N(N ∈0,…,n×m-1) 。初始值z0=0.01。當系統(tǒng)參數(shù)u=4 時邏輯映射為滿映射,所生成的混沌序列有良好的隨機性。邏輯混沌投影矩陣(φ)通過式(2)迭代獲得。
(2)RR 間期
前RR 間期和后RR 間期是ECG 信號的形態(tài)特征。前RR 間期為給定R 峰值與其前一個R 峰值之間的間隔。后RR 間期為當前R 峰值和后一個R 峰值之間的間隔。心臟信號的前后RR 間期特征表示瞬時節(jié)律特征,對心臟疾病的診斷有著重要作用。
隨機森林(RF)是分類預測的有效工具,由Breiman[14]提出。RF 使用多個決策樹對樣本進行分類,具有訓練快,分類效果好的優(yōu)點。同時,樹的棵樹通常是唯一的設置參數(shù)。
本文使用MATLAB 2010 軟件包,硬件配置包括Intel Core i5 處理器 CPU 2.50 GHz 和 6.00GB RAM。實驗結果如表2 所示,使用五類心拍構建多類混淆矩陣以提供不同類的錯誤分類信息,可作為未來比較研究的基礎。
表3 顯示了基于MIT-BIH 心律失常數(shù)據(jù)庫的算法總結。Acharya 等人[7]和Zubair 等人[8]使用卷積神經網(wǎng)絡(CNN)對心拍分類,分別達到94.03%和92.7%的準確率。Kallas[3]等人利用KPCA 技術獲得97%的分類準確率。然而,患者內的心拍分類策略是不符合實際的,心拍分類方法應遵循更公平的評估策略(患者間策略)。因此,本文側重于與采用病人間策略的研究比較[5,7,11,12]。
表4 所示,本文在分類“N”心臟病類型靈敏度優(yōu)于Herry 等人[5]和 Raj 等人[4],同時,“V”類型靈敏度高于Chen 等人[2]和精確度高于 Raj 等人[5]。對于“F”型心臟病,分類準確率優(yōu)于 Li 和 Zhou[6],Raj 等人[4]和 Chen 等人[2]。然而,當對“S”型心臟病識別時,本算法是不充分的,其原因可能是數(shù)據(jù)的不平衡。此外,與上述算法的識別準確率和特征數(shù)量相比,本算法使用4 維特征在識別準確率上高于使用6 個特征的文獻[5]和23 個特征的文獻[4]。與Chen[2]相比,本文在識別準確率上低約1.5 百分點,但特征數(shù)量減少8 倍。與Li 和Zhou[6]相比,本文在識別準確率上低約3%,但特征數(shù)量減少17 倍。綜上所述,本算法具有所需特征數(shù)少且識別準確率高的優(yōu)點。
表2 心拍分類混淆矩陣
表3 基于MIT-BIH 心律失常數(shù)據(jù)庫的算法總結
表4 本文與以往工作分類準確率和特征數(shù)量的比較
隨著智能醫(yī)療設備的小型化及實時性需要,計算耗時被提出更高的要求,因此如何使采用較少特征數(shù)達到更高識別精度成為小型智能醫(yī)療設備亟待解決的問題,本文提出一種基于邏輯混沌投影矩陣與RR 間期相結合的算法,使用4 維特征獲得91.81%的識別準確率,與現(xiàn)有算法相比,更適用于小型智能醫(yī)療設備。