王凱,楊樞,2
1.蚌埠醫(yī)學(xué)院衛(wèi)生管理系,安徽蚌埠233030;2.合肥工業(yè)大學(xué)信息與計(jì)算機(jī)學(xué)院,安徽合肥233009
為降低心血管疾病引起的死亡率,心臟相關(guān)疾病的早期并發(fā)癥檢測(cè)與識(shí)別越來(lái)越受到醫(yī)學(xué)領(lǐng)域?qū)<业闹匾暋P穆墒СJ怯尚呐K電脈沖引起的傳導(dǎo)緩慢、阻滯或經(jīng)異常通道傳導(dǎo)的規(guī)律性心率異常[1]。在各種異常中,早期心室收縮(Premature Ventricular Contraction,PVC)是一種危害性較高的心律失常,通常是由心室的異位節(jié)律點(diǎn)發(fā)出激動(dòng)波使心室提早收縮,即QRS綜合波在P波前出現(xiàn),是成人中廣泛存在的心律失常形式[2]。臨床上對(duì)PVC的評(píng)估和治療相對(duì)較復(fù)雜,針對(duì)心血管系統(tǒng)疾病的自動(dòng)識(shí)別,領(lǐng)域?qū)<疫M(jìn)行了大量研究。PVC在心電圖(Electrocardiogram,ECG)上的生物特征主要表現(xiàn)為具有異常時(shí)序的心跳序列,通過(guò)使用已建立的疾病類(lèi)別關(guān)聯(lián)關(guān)系,能夠在ECG記錄中標(biāo)記心拍序列,從所得序列中確定ECG信號(hào)的節(jié)拍屬性,達(dá)到相關(guān)疾病的診斷與識(shí)別目的。
基于ECG的PVC心律失常分類(lèi)方法,研究多采用時(shí)頻分析技術(shù)、統(tǒng)計(jì)測(cè)量等混合方法。文獻(xiàn)[3]應(yīng)用動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)進(jìn)行PVC分類(lèi),分類(lèi)過(guò)程中使用簡(jiǎn)單的決策規(guī)則,適用于嵌入式分類(lèi)監(jiān)測(cè)。文獻(xiàn)[4]使用基于神經(jīng)網(wǎng)絡(luò)的分類(lèi)方案檢測(cè)PVC,比較了PVC聚類(lèi)的學(xué)習(xí)和分類(lèi)技能,提取了10個(gè)ECG結(jié)構(gòu)特征,設(shè)計(jì)了一種用于PVC識(shí)別的低復(fù)雜度數(shù)據(jù)自適應(yīng)方法。文獻(xiàn)[5]著重于PVC檢測(cè)的多層次學(xué)習(xí)模型,提出了一種使用多支路學(xué)習(xí)和支持向量機(jī)(Support Vector Machine,SVM)的PVC識(shí)別方法。文獻(xiàn)[6]提出了基于神經(jīng)網(wǎng)絡(luò)的ECG模式識(shí)別方法,通過(guò)Nearest Neighbo(NN)分類(lèi)器對(duì)PVC進(jìn)行分類(lèi),并使用小波變換來(lái)提取心電圖數(shù)據(jù)的形態(tài)學(xué)特征。文獻(xiàn)[7]使用獨(dú)立分量分析(Independent Component Analysis,ICA)進(jìn)行特征提取,采用k-means和Fuzzy C-Means(FCM)分類(lèi)器來(lái)識(shí)別PVC節(jié)拍。文獻(xiàn)[8]采用貝葉斯正則化反向傳播訓(xùn)練模型,通過(guò)優(yōu)化多特征最優(yōu)解模型,提高臨床ECG信號(hào)標(biāo)注的準(zhǔn)確性。ECG心拍分類(lèi)算法能夠有效降低PVC心律失常的臨床檢測(cè)難度,簡(jiǎn)化記錄和分析的工作量,逐漸成為領(lǐng)域?qū)<已芯康臒狳c(diǎn)方向。目前基于ECG的心拍自動(dòng)分類(lèi)算法主要分為3大類(lèi):基于ECG信號(hào)特征識(shí)別的方法、分類(lèi)器模型方法以及自適應(yīng)模型分類(lèi)過(guò)濾算法。
然而,上述方法在提取ECG信號(hào)特征時(shí)將信號(hào)波形的線性判別與聚類(lèi)模型相結(jié)合,雖然在分類(lèi)效果上有所提高,卻降低了分類(lèi)器的樣本外點(diǎn)處理能力,無(wú)法有效處理變化的樣本數(shù)據(jù)特征識(shí)別。本文提出一種面向PVC心拍分類(lèi)的心電信號(hào)分類(lèi)算法,重點(diǎn)研究基于自適應(yīng)學(xué)習(xí)的PVC異常心拍分類(lèi)特征提取模型,通過(guò)計(jì)算心拍關(guān)聯(lián)后驗(yàn)概率,按估計(jì)置信度排序,獲取極大似然概率估計(jì)。自適應(yīng)分類(lèi)器使用領(lǐng)域?qū)<业臉?biāo)注信息,提高心跳標(biāo)簽系統(tǒng)的分類(lèi)性能。根據(jù)AAMI指南[8]處理心拍分類(lèi),使用MITBIH心律失常數(shù)據(jù)庫(kù)提供的心拍標(biāo)簽。訓(xùn)練分類(lèi)器,動(dòng)態(tài)調(diào)整分類(lèi)器參數(shù),提高整體分類(lèi)效果。
使用MIT-BIH心律失常數(shù)據(jù)庫(kù)的非起搏器記錄數(shù)據(jù),每個(gè)記錄包含兩組ECG導(dǎo)聯(lián)信號(hào)。采用0.1~100.0 Hz進(jìn)行帶通濾波,并以360 Hz進(jìn)行采樣。通過(guò)信號(hào)預(yù)處理,心拍分割獲取規(guī)范化的心拍采樣片段,通過(guò)特征提取以及概率權(quán)重排序,結(jié)合專(zhuān)家注釋標(biāo)注信息,構(gòu)建自適應(yīng)分類(lèi)器,輸出相關(guān)類(lèi)的分類(lèi)結(jié)果。
ECG信號(hào)中的噪聲主要產(chǎn)生于以下幾個(gè)方面:EMG噪聲、電力線噪聲、基線漂移和復(fù)合噪聲[9]。不同患者的ECG信號(hào)顯示出顯著的差異,對(duì)計(jì)算出的信號(hào)振幅波動(dòng)特征影響較大。執(zhí)行歸一化的預(yù)處理操作能夠顯著降低ECG信號(hào)的差異。本文將信號(hào)的均值設(shè)置為零,零均值信號(hào)計(jì)算如式(1)所示:
其中,y(t)是待計(jì)算的信號(hào),是原始ECG,x是x(t)的算術(shù)平均值,L是信號(hào)長(zhǎng)度。使用中值濾波器降低噪聲。中值濾波器是一種簡(jiǎn)單的非線性平滑器,可以保持信號(hào)邊緣光滑的同時(shí)抑制噪聲。濾波信號(hào)計(jì)算如式(2)所示:
其中,Y(t)是濾波信號(hào),y(t)是輸入信號(hào)。應(yīng)用級(jí)聯(lián)低通濾波器從信號(hào)中去除頻率分量低于0.5 Hz的信號(hào)數(shù)據(jù),消除基線漂移和電力線噪聲。基線漂移的頻率分量通常低于 0.5 Hz,將頻率限制調(diào)整為 2 Hz[10]。通過(guò)從適當(dāng)延遲的輸入信號(hào)中減去低通濾波器的輸出,實(shí)現(xiàn)信號(hào)從低通濾波器到高通濾波器的平穩(wěn)過(guò)渡。根據(jù)QRS復(fù)合波中R點(diǎn)的位置(根據(jù)濾波后的ECG信號(hào)建立每個(gè)心拍的R點(diǎn),從R點(diǎn)右側(cè)的100點(diǎn)開(kāi)始分割)。R點(diǎn)的相關(guān)位置組成了MIT-BIH數(shù)據(jù)庫(kù)的注釋文件,所選擇的心拍構(gòu)成了一個(gè)7 000×200矩陣。
使用獨(dú)立記錄數(shù)據(jù)對(duì)系統(tǒng)進(jìn)行測(cè)試,通過(guò)多個(gè)記錄中的心拍子類(lèi)估計(jì)其分類(lèi)性能[11]。分類(lèi)系統(tǒng)示意圖如圖1所示。系統(tǒng)選取的信號(hào)特征集主要包括表1的信號(hào)數(shù)據(jù)[12]。首先使用初始分類(lèi)器處理輸入ECG記錄,產(chǎn)生初始的心拍子標(biāo)簽集;然后將標(biāo)記的節(jié)拍提交給領(lǐng)域?qū)<?,根?jù)分類(lèi)需要更正標(biāo)簽信息,使用校正的標(biāo)簽計(jì)算分類(lèi)器參數(shù)集合;最后組合新分類(lèi)器的參數(shù)集合,生成自適應(yīng)的分類(lèi)器參數(shù)集合,系統(tǒng)使用已修改的參數(shù)處理剩余未注釋的心拍數(shù)據(jù)。
采用基于線性判別的分類(lèi)系統(tǒng),輸出后驗(yàn)條件概率,在單次迭代中訓(xùn)練分類(lèi)器?;谧赃m應(yīng)學(xué)習(xí)的心拍分類(lèi)算法(Adaptive Learning of the heart Beat Classification,ALHBC)通過(guò)后驗(yàn)概率分析與計(jì)算、構(gòu)造特征矩陣,以分類(lèi)器參數(shù)的加權(quán)平均值以基礎(chǔ),動(dòng)態(tài)調(diào)整最佳分類(lèi)器參數(shù)閾值,輸出具有異常時(shí)序的心跳分類(lèi)集合。ALHBC算法的核心步驟描述如下。
圖1 基于自適應(yīng)學(xué)習(xí)的心拍分類(lèi)系統(tǒng)原理圖Fig.1 Schematics of heartbeat classification system based on adaptive learning
表1 自適應(yīng)分類(lèi)器特征集Tab.1 Adaptive classifier feature set
1.3.2 計(jì)算組合后驗(yàn)概率 為減少提交給領(lǐng)域?qū)<业男呐臄?shù)量,選擇合適的自適應(yīng)分類(lèi)器心拍。使用公式(5)計(jì)算每個(gè)類(lèi)中心拍的后驗(yàn)概率,并按降序排列,獲取置信度最高的后驗(yàn)值Ri,計(jì)算公式見(jiàn)公式(6)。高置信度下的非自適應(yīng)分類(lèi)器產(chǎn)生的心拍,具有相對(duì)較高的Ri。為獲取最佳自適應(yīng)訓(xùn)練心拍,將Ri按升序排列,將數(shù)值較低的心拍交專(zhuān)家重新評(píng)估,最終輸出組合后驗(yàn)概率最高的類(lèi)。
設(shè)X為隨機(jī)變量,ECG信號(hào)波形分布服從概率密度函數(shù)f(x,θ),利用公式(6)計(jì)算的最高后驗(yàn)概率,構(gòu)造關(guān)于樣本觀測(cè)值的似然函數(shù),極大似然概率估計(jì)表示如公式(7)所示:
1.3.3 計(jì)算特征矩陣 ECG特征提取與分類(lèi)是一種涉及基線降噪、心拍分割及特征抽取等的復(fù)雜相關(guān)性過(guò)程。通過(guò)構(gòu)建核心矩陣Z,定義并存儲(chǔ)表1中的特征集合,該矩陣會(huì)隨著輸入向量的增加而進(jìn)行動(dòng)態(tài)更新。若X1,X2,…,XN∈RN與Y1,Y2,…,YM∈RN分別來(lái)自?xún)蓚€(gè)不同的訓(xùn)練組,核心矩陣Z=X∪Y定義如公式(8)所示,對(duì)應(yīng)的協(xié)變矩陣CMZ定義如公式(9)所示:
針對(duì)核心矩陣,可進(jìn)一步求解其特征值λ和特征向量y,分別定義如公式(10)、(11)所示,上式中α、β分別表示Xi、Yi的特征向量。若Z的元素總數(shù)為k,為便于將數(shù)據(jù)映射到約簡(jiǎn)的特征向量空間,分別將上式改寫(xiě)成公式(12)、(13)所示:
1.3.4 計(jì)算分類(lèi)器參數(shù)加權(quán)平均值 獲取自適應(yīng)分類(lèi)器的最佳參數(shù)μk和協(xié)方差Σ,選擇合適的心拍,并將其提交給領(lǐng)域?qū)<疫M(jìn)行標(biāo)簽注釋。在訓(xùn)練初始數(shù)據(jù)參數(shù)記錄后,計(jì)算分類(lèi)器參數(shù)加權(quán)平均值,使用公式(14)、(15)確定μ和∑k的加權(quán)平均值。
在獲取后驗(yàn)概率估值后,使用交叉驗(yàn)證過(guò)程估計(jì)分類(lèi)器的綜合性能。為了獲得性能測(cè)量的無(wú)偏估計(jì),測(cè)試數(shù)據(jù)中包括不屬于測(cè)試心拍分類(lèi)信號(hào)的數(shù)據(jù)。將所有先驗(yàn)概率設(shè)為1/11,分類(lèi)條件加權(quán)值設(shè)置為0.5,由領(lǐng)域?qū)<覙?biāo)注的最佳分類(lèi)自適應(yīng)參數(shù)在1到500次心拍之間隨機(jī)變動(dòng),以適應(yīng)不同的分類(lèi)信號(hào)采樣。使用MIT-BIH心律失常數(shù)據(jù)庫(kù)驗(yàn)證PVC心跳分類(lèi),不平衡比設(shè)置為1:100,其中選取200次正常心跳(NOR),200次右束支傳導(dǎo)阻滯(Right Bundle Branch Block,RBBB),200次左束支傳導(dǎo)阻滯(Left Bundle Branch Block,LBBB),200次心房早搏(Atrial Premature,AP)以及200次PVC作為信號(hào)的原始特征數(shù)據(jù)。
本實(shí)驗(yàn)包含兩個(gè)子實(shí)驗(yàn),實(shí)驗(yàn)一將所有心律失常心拍無(wú)區(qū)別地輸入未知類(lèi),重點(diǎn)測(cè)試ALHBC算法對(duì)異常心拍的分類(lèi)能力;實(shí)驗(yàn)二重點(diǎn)關(guān)注PVC的分類(lèi)效果,在測(cè)試階段添加未知心跳類(lèi)型,檢測(cè)算法對(duì)實(shí)驗(yàn)一中PVC類(lèi)數(shù)據(jù)的分類(lèi)能力。
實(shí)驗(yàn)一對(duì)樣本中的原始數(shù)據(jù)進(jìn)行特征分解,將特征集分別輸入 SVM[13]、Back Propagation Neural Network(BPNN)[14]以及 Learning Vector Quantization(LVQ)[15]分類(lèi)模型,并將分類(lèi)結(jié)果與ALHBC算法結(jié)果進(jìn)行橫向比較,實(shí)驗(yàn)結(jié)果如圖2所示。在本實(shí)驗(yàn)中,特征提取階段輸出60個(gè)特征集合,其中LVQ的準(zhǔn)確度為85.31%,SVM準(zhǔn)確度為87.44%,BPNN準(zhǔn)確度為91.72%,ALHBC算法準(zhǔn)確度為92.18%。結(jié)果表明通過(guò)集成特征提取階段的ALHBC算法能夠解決特征提取與分類(lèi)數(shù)據(jù)的不一致問(wèn)題。在非平衡數(shù)據(jù)條件下,對(duì)非線性流形結(jié)構(gòu)數(shù)據(jù)具有相對(duì)較高的分類(lèi)準(zhǔn)確性。
圖2 心律失常心拍分類(lèi)結(jié)果Fig.2 Arrhythmic heartbeat classification results
實(shí)驗(yàn)二重點(diǎn)分析PVC的分類(lèi)效果,在測(cè)試階段添加未知心跳類(lèi)型,選取實(shí)驗(yàn)一中分類(lèi)效果較好的兩種分類(lèi)模型(ALHBC和BPNN),構(gòu)建如表2所示的混淆矩陣,其中列數(shù)據(jù)表示實(shí)驗(yàn)預(yù)測(cè)類(lèi),每列總數(shù)為預(yù)測(cè)該類(lèi)數(shù)據(jù)總數(shù);每行表示數(shù)據(jù)的真實(shí)歸類(lèi),每行總數(shù)為該類(lèi)別數(shù)據(jù)實(shí)例總數(shù)。結(jié)果表明ALHBC算法針對(duì)的PVC異常心拍分類(lèi)特征提取較其他分類(lèi)更加接近真實(shí)數(shù)據(jù)分類(lèi)。
表2 特征分類(lèi)混淆矩陣Tab.2 Confusion matrix of feature classification
本文提出一種自適應(yīng)心拍分類(lèi)算法,研究解決ECG形態(tài)變異性的分類(lèi)指證,構(gòu)建基于自適應(yīng)學(xué)習(xí)的PVC異常心拍分類(lèi)特征提取模型,實(shí)現(xiàn)ECG的自動(dòng)分類(lèi)問(wèn)題。通過(guò)計(jì)算心拍關(guān)聯(lián)后驗(yàn)概率,結(jié)合領(lǐng)域?qū)<覙?biāo)注信息訓(xùn)練分類(lèi)器,提高整體分類(lèi)效果。研究結(jié)果表明,所提方法能夠處理非平衡類(lèi)數(shù)據(jù)特征提取的分類(lèi)問(wèn)題,特別針對(duì)非線性流形結(jié)構(gòu)數(shù)據(jù),能夠有效提升小樣本心拍的自適應(yīng)分類(lèi)器的準(zhǔn)確性。
結(jié)合臨床環(huán)境中的實(shí)際應(yīng)用,本文的后續(xù)研究將圍繞分類(lèi)器參數(shù)的動(dòng)態(tài)自適應(yīng)調(diào)整問(wèn)題,改進(jìn)輸入?yún)?shù)的初始簇最優(yōu)解模型,減少所需領(lǐng)域?qū)<业臉?biāo)簽總數(shù),提升模型用于復(fù)雜條件下的自主學(xué)習(xí)能力。