楊青峰, 夏芳, 高海燕, 馮曉菊, 程順達*
(1. 河北省中醫(yī)院, 河北, 石家莊 050011; 2. 河北經(jīng)貿(mào)大學, 河北, 石家莊 050011;3. 河北省中醫(yī)藥發(fā)展中心, 河北, 石家莊 050011)
伴隨著人工智能與單片機采集、無線網(wǎng)絡等技術(shù)的融合,研究者相繼開發(fā)出基于生理信號的輔助診斷系統(tǒng),如龐曉燕等[1]結(jié)合大數(shù)據(jù)和人工智能技術(shù),開發(fā)了具有診斷推薦和治療方案推薦的智能交互系統(tǒng),從而為臨床疾病的診斷提供了輔助功能;尹天露等[2]結(jié)合知識圖譜技術(shù),構(gòu)建疲勞標志物對疲勞相關(guān)疾病潛在篩查價值模型,從而為患者潛在疾病診斷提供了新的途徑。由此看出,基于智能算法的疾病診斷正在成為當前醫(yī)學領(lǐng)域研究的熱點。而對于心臟疾病的診斷,往往需長時間監(jiān)測ECG信號,才能發(fā)現(xiàn)心臟可能存在的異常。因此,在實際診斷中,往往需要對ECG信號進行去噪和特征提取,最后再結(jié)合智能算法對ECG進行分類。目前,常用的分類算法中包括線性識別分析、K近鄰分類器、決策樹分類器、最小二乘支持向量機、支持向量機合并各種優(yōu)化算法等。盡管這些算法大大提高了分類的精準性,但仍存在問題,如分類的效率不高,泛化能力不強。雙子支持向量機憑借自身在運行速度、泛化能力上的優(yōu)勢,近兩年被廣泛應用與生物醫(yī)學信號的識別中。對此,本研究提出一種改進LS-TWIN-SVM多分類器的心律診斷方法,并對該方法的可行性進行驗證。
LS-TWIN-SVM即最小二乘雙子支持向量機,是一種在傳統(tǒng)SVM算法基礎(chǔ)上衍生的一種基于最小二乘法和雙子支持向量機的解決線性與非線性分類的算法。該算法將傳統(tǒng)SVM的不等式約束轉(zhuǎn)化為等式約束,從而極大降低了訓練的復雜度,具有訓練速度快的特點。LS-TWIN-SVM將不等式約束轉(zhuǎn)化為式(1)[3]和式(2)[4]的等式約束,
(1)
(2)
式中,X1、X2表示樣本的N維矩陣,K(·)表示核函數(shù),c1用c1/2替代,e1、e2表示滿足屬性值全部為1的向量,ζ表示非負的松弛變量,μ、γ表示超平面參數(shù)。
將上述等式代入目標函數(shù),由此二次規(guī)劃問題變?yōu)?/p>
(3)
(4)
根據(jù)式(3)、式(4),求得兩超平面參數(shù):
(5)
(6)
式中,G=[K(X1,X)e1],H=[K(X2,X)e2]。
要對樣本分類,只需計算超平面與測試樣本的距離。
最終決策函數(shù)為
(7)
實踐表明,LS-TWIN-SVM分類包括“一對一”和“一對多”兩種策略。這兩種分類策略在訓練過程中計算復雜度會隨樣本增加而增加,進而造成訓練時間長、類別數(shù)過多、分類準確率低等問題[5]。本研究是以可穿戴式設(shè)備采集到的患者ECG信號為樣本進行智能診斷,通過分類找到ECG信號中存在的異常信號,進而判斷患者心律是否異常。因此,隨著樣本的增多,維度必然增加,進而造成分類不準確的問題。為解決上述問題,結(jié)合楊偉敏[4]的研究,認為有向無環(huán)圖的分類策略與傳統(tǒng)的OVA-SVM、OVO-SVM、DTLS-TWIN-SVM等分類策略的計算復雜度相比,有向無環(huán)圖的LS-TWIN-SVM分類策略的計算復雜度更低。因此,用有向無環(huán)圖改進LS-TWIN-SVM,可解決數(shù)據(jù)多樣性和多類別性帶來的超平面維度多的問題,縮短訓練時間,提高訓練效率和正確率。
同時,SVM 核函數(shù)參數(shù)選擇的好壞將直接影響最終的 SVM 分類器泛化能力的優(yōu)劣。理論研究表明,參數(shù)的選擇能很大程度地提高支持向量機的識別率。目前,參數(shù)尋優(yōu)方法有網(wǎng)格尋優(yōu)、交叉驗證尋優(yōu)、PSO 尋優(yōu)等,傳統(tǒng)的參數(shù)選取方法具有一定的不足,如人為選取參數(shù)取決于個人經(jīng)驗,受人為影響較大;交叉驗證法選取參數(shù)一般計算量比較大,程序也復雜。而遺傳算法具有很強的適應性,是一種全局最優(yōu)化算法,具有很好的魯棒性能和搜索能力,在諸多領(lǐng)域都有廣泛應用。因此,引入遺傳算法對SVM參數(shù)進行尋優(yōu),取最終測試集數(shù)據(jù)和預測集數(shù)據(jù)誤差最小的c和g進行分類。
結(jié)合以上的分析,將有向無環(huán)圖的LS-TWIN-SVM心律不齊診斷流程分為以下幾步:
(1) 采用小波去噪處理心電信號,并對處理后的心電信號進行特征提??;
(2) 初始化基于有向無環(huán)圖的LS-TWIN-SVM診斷模型,包括最大迭代次數(shù)、種群大小、模型懲罰參數(shù)、核參數(shù)等;
(3) 訓練模型,并計算模型適應度函數(shù);
(4) 判斷是否滿足迭代條件,若滿足則獲取模型的最優(yōu)懲罰參數(shù)和核參數(shù);反之則返回步驟(3);
(5) 對心電信號數(shù)據(jù)進行分類識別,并輸出預測結(jié)果。
以上步驟可用圖1示意。
圖1 模型診斷流程
3.1.1 數(shù)據(jù)來源
本研究仿真實驗數(shù)據(jù)來自美國麻省理工MIT-BIH心律失常數(shù)據(jù)庫中標準12導聯(lián)數(shù)據(jù),包括左束支阻滯、右束支阻滯、正常心電圖、室性早搏和房性早搏五類心律不齊記錄。為使實驗更具普遍性,研究從每類心律不齊數(shù)據(jù)中,選擇50個具有代表性的心搏用于訓練分類器,選擇1 000個心搏用于測試分類器,并保證用于訓練和測試的數(shù)據(jù)不重復。
3.1.2 數(shù)據(jù)預處理
(1) 數(shù)據(jù)預處理
ECG信號中包含大量的噪聲,如肌電干擾噪聲、運動偽影、基線漂移噪聲等,這些噪聲的存在會影響ECG信號的形態(tài)特征,進而降低智能診斷的精度。而對于臨床用的心電圖,通常采用50 Hz的陷波器濾除ECG信號中的工頻干擾,用數(shù)學形態(tài)學、中值濾波等方式去除ECG采集信號中存在的基線漂移問題[6-7]。但ECG中的ST通常被認為是判斷心律異常和心梗的一個重要指標,由于ST段頻率不高的問題,往往會存在部分與基線漂移的頻段存在重合的部分。另外在選擇頻率時,濾波器截止頻率的選擇應盡量不低于50 Hz,但又很難徹底去除高頻干擾?;谝陨戏治觯瑢ゎl信號的去除再用陷波濾波濾除,對ECG信號中的運動偽影采用閾值濾波,為防止基線漂移與ST段頻率重疊問題,采用小波分解及小波自適應閾值進行處理。
(2) 特征提取
為準確反映心率異常,研究提取了數(shù)據(jù)樣本的時間間期特征和形態(tài)特征兩類特征的混合特征。其中,針對數(shù)據(jù)樣本時間間期特征提取,研究提取了本次與前次心搏間期、本次與后次心搏間期、兩個間期比值三個時間間期特征。針對數(shù)據(jù)樣本形態(tài)特征提取,研究采用可有效保存窗口截斷信號信息的最大熵功率譜對五類心律不齊心搏信號進行特征提取。通過上述操作,本研究提取到每個心搏132個特征作為訓練樣本和測試樣本。
為評估提出的心律不齊診斷模型的識別效果,采用準確率、敏感性、特異性、陽性率4項指標進行評價。其計算公式如式(8)~式(11)[8-11]。
(8)
(9)
(10)
(11)
式中,Acc表示正確率,Sp表示特異性,Se表示敏感性,Pp表示陽性率,TP表示真陽性,F(xiàn)P表示假陽性,TN表示真陰性,F(xiàn)N表示假陰性。
3.3.1 分類器參數(shù)對識別效果的影響
由于分類器參數(shù)同樣會對基于有向無環(huán)圖的LS-TWIN-SVM診斷模型最終識別效果產(chǎn)生巨大影響,因此本研究采用交叉驗證算法用于驗證懲罰參數(shù)c和核參數(shù)σ對該分類器的影響。令C1=C2=C,c∈{10-8,…,104},σ∈{2-4,…,28},并使用300個訓練數(shù)據(jù)進行訓練,得到分類器5折交叉驗證的分類結(jié)果如圖2所示。由圖2可知,高斯核函數(shù)參數(shù)σ對心電信號數(shù)據(jù)的分類結(jié)果影響較大;網(wǎng)格搜索方法可獲得準確率較高的分類結(jié)果,最高分類準確率達到98.32%時,σ和c分別為23和10-8。
圖2 模型參數(shù)對心電信號分類結(jié)果影響
3.3.2 不同SVM方法的診斷識別率
為了驗證基于有向無環(huán)圖的LS-TWIN-SVM心律不齊診斷模型對心電信號分類效果及其泛化能力,研究在有向無環(huán)圖分類策略和同等實驗環(huán)境及相同數(shù)據(jù)集上,對比標準支持向量機(SVM)及雙子支持向量機(TWSVM)對心電信號診斷進行了測試。為簡化運算,研究將TWSVM和基于有向無環(huán)圖的LS-TWIN-SVM參數(shù)范圍設(shè)置為10-8~104[12],測試結(jié)果如表1所示。由表1可知,基于有向無環(huán)圖的LS-TWIN-SVM心律不齊診斷模型識別心律不齊異常癥狀的正確率為99.32%,標準SVM分類器識別正確率為94.12%,TWSVM模型識別正確率為98.03%;基于有向無環(huán)圖的LS-TWIN-SVM的敏感性、特異性、陽性率3項指標均高于標準SVM模型和TWSVM模型。由此可知,本研究提出的基于有向無環(huán)圖的LS-TWIN-SVM心律不齊診斷模型可準確識別心律不齊異常癥狀,且識別效果優(yōu)于標準SVM模型和TWSVM模型的識別效果。
表1 不同模型識別結(jié)果
3.3.3 本算法與其他分類算法的比較
為了驗證提出基于有向無環(huán)圖的LS-TWIN-SVM診斷模型的可行性,研究使用同一數(shù)據(jù)集,對比PNN、MLP、BP神經(jīng)網(wǎng)絡對心電信號數(shù)據(jù)的分類效果進行了測試。測試結(jié)果如表2所示。由表2可知,基于有向無環(huán)圖的LS-TWIN-SVM模型的分類準確率最高,達到99.21%;PNN分類準確率最低為65.98%。基于有向無環(huán)圖的LS-TWIN-SVM模型訓練時間最短為0.72 s;BP神經(jīng)網(wǎng)絡訓練時間最長為268.36 s。由此說明,本研究提出的基于有向無環(huán)圖的LS-TWIN-SVM模型分類準確率和效率較好,優(yōu)于PNN、MLP、BP神經(jīng)網(wǎng)絡。
表2 不同機器學習測試結(jié)果
綜上可知,本研究提出的面向社區(qū)家庭醫(yī)生的基于有向無環(huán)圖的LS-TWIN-SVM心律不齊診斷模型性能優(yōu)于標準SVM模型和TWSVM模型,且其診斷正確率較高,達到99.32%,說明該模型可用于實際診斷心律不齊異常癥狀,具有實際應用價值,可促進對面向社區(qū)的家庭醫(yī)生進行輔助診斷。此外,該模型將QPP問題中不等式約束問題轉(zhuǎn)化為等式約束,有利于面向社區(qū)的家庭醫(yī)生輔助診斷模型構(gòu)建,進而提高了診斷的實時性和準確率。
心電信號等生物信號的分類識別是建立智慧醫(yī)療系統(tǒng),構(gòu)建面向社區(qū)的家庭醫(yī)生輔助診斷模型的關(guān)鍵。本研究通過基于有向無環(huán)圖的LS-TWIN-SVM分類算法,實現(xiàn)了對心電信號的分類識別及自動診斷。該算法具有計算復雜度低,較快獲取分類結(jié)果等優(yōu)勢,可深入識別生物信號心電信號的特點,對心律不齊異常癥狀診斷正確率高達99.32%。由此說明,基于有向無環(huán)圖的LS-TWIN-SVM分類算法對實現(xiàn)大數(shù)據(jù)輔助診斷心律不齊異常癥狀具有實際意義和應用價值,建立面向社區(qū)的家庭醫(yī)生輔助診斷奠定了理論基礎(chǔ)。