賈 龍,賀 松,史景允
(貴州大學 大數(shù)據(jù)與信息工程學院,貴州 貴陽 550025)
?
基于數(shù)據(jù)挖掘的脈搏信號干擾段檢測算法
賈 龍,賀 松,史景允
(貴州大學 大數(shù)據(jù)與信息工程學院,貴州 貴陽 550025)
脈搏信號的采集過程容易受到環(huán)境影響,進而導致采集到的信號含有干擾段。脈搏信號的干擾段,也就是脈搏信號被環(huán)境污染的噪聲。為了能夠客觀地描述信號被污染的程度,文中提出了一種基于時間序列分段直線表示的脈搏信號干擾段檢測算法,建立脈搏信號模板,通過模板信號和實際采樣信號之間的匹配度(即擬合誤差),從而得到一種能夠客觀表達脈搏信號含有干擾段程度(即信號質(zhì)量)的算法。
干擾段;時間序列;分段線性表示;相似性
傳統(tǒng)中醫(yī)的四診法分別是:望、聞、問、切。其中最后一項“切”就是俗稱的脈診,它是傳統(tǒng)中醫(yī)最具特色的診斷方法之一,是中醫(yī)理論體系中不可缺少的組成部分。脈相能反饋出人體各部分的生理與病理信息,脈搏信號尤其能反映人體心臟與血液系統(tǒng)的生理變化,蘊含豐富的人體生理病理信息。是反映人體內(nèi)部各種功能變化的窗口,可以為疾病的診斷提供重要的參考依據(jù)。然而,脈搏信號采集經(jīng)常受到環(huán)境噪聲,運動偽跡以及傳感器位移引起的基線漂移,造成監(jiān)測信號參數(shù)估值錯誤,進而導致對病情的誤判,不能正確為病人制定醫(yī)療方案。因此設計一種算法來確定脈搏信號被污染程度具有現(xiàn)實意義。
針對脈搏波含有干擾的無用信號波段,已經(jīng)有相關(guān)研究人員提出了多種處理方法,例如利用數(shù)字濾波器或者小波分析設計濾波器濾除信號中的噪聲、基線漂移[1]。針對數(shù)字濾波器,脈搏信號的頻域特征主要集中在低頻部分,若噪聲信號也是低頻信號,數(shù)字濾波器無法有效識別干擾段。而小波濾波器用于處理整體連貫性較好的脈搏波,可以得到相對真實的標準波形,但缺點是當波形出現(xiàn)跳躍或者基線漂移過大時,無法有效及時處理,且算法復雜度高,計算時間長。李橋等[2]提出了脈搏信號的融合質(zhì)量評估算法,通過DTW(Dynamic Time Warping)對每個脈搏信號伸展或壓縮,選取幾種參數(shù)作為信號質(zhì)量相關(guān)特征,通過多層感知神經(jīng)網(wǎng)絡對信號相關(guān)特征的分析,從而判斷信號質(zhì)量。該算法對含有較高噪聲干擾的脈搏信號,判斷準確率明顯降低,而且算法復雜度過高,不適合實時計算。
鑒于此,本文提出了一種基于時間序列分段直線表示的脈搏信號干擾段檢測算法。由于脈搏信號是微弱的信號,采集過程中經(jīng)常受到環(huán)境和人體等各方面因素的影響,使得脈搏信號中含有工頻干擾、基線漂移和運動偽跡等噪聲信號,信號質(zhì)量較低。這些噪聲信號的疊加污染造成脈搏信號存在干擾,這些噪聲污染嚴重影響著脈搏信號的分析與處理[3-4]。當脈搏信號中存在這些噪聲干擾時,其信號的形態(tài)明顯不同于正常脈搏信號段,這些干擾段具有信號雜亂,沒有周期性和規(guī)則性等特征。而正常脈搏信號是比較規(guī)則,而且具有周期性,利用干擾段和正常脈搏信號之間的這些不同特征,從時間序列數(shù)據(jù)挖掘[5-6]的角度,可以嘗試用用脈搏信號模板匹配法來檢測干擾信號,分析兩類信號之間的特征差異,從獲得一個對脈搏信號被污染程度進行判斷的客觀標準。
1.1 脈搏信號匹配模板生成
已有許多專家學者研究證明,可以通過3個不同參數(shù)的高斯函數(shù)疊加而產(chǎn)生脈搏信號。采用高斯函數(shù)合成脈搏信號[7],其表達式如式(1)所示
s(t)=Raexp(-(t-p)/b)
(1)
其中,Ra表示幅度,它決定高斯函數(shù)圖形的高度;p表示函數(shù)在時間軸t的位移,它決定該函數(shù)形成的波形峰值出現(xiàn)的位置;b表示函數(shù)在t軸的伸縮程度,它決定該函數(shù)形成的圖像的寬度。根據(jù)常見脈搏波形特征,利用如下3個高斯函數(shù)式可構(gòu)建出脈搏信號模板波形,如圖1所示。
圖1 3個高斯函數(shù)合成的脈搏信號波形
(2)
s2(t)=0.5exp(-(t-0.45)2/0.010)
(3)
s3(t)=0.4exp(-(t-0.70)2/0.030)
(4)
S(t)=s1(t)+s2(t)+s3(t)
(5)
式(2)構(gòu)成脈搏信號的主波,式(3)構(gòu)成脈搏信號的潮波,式(4)構(gòu)成脈搏信號的重搏波,式(5)即為合成的脈搏信號。文中以此信號作為脈搏信號模板,用于后續(xù)脈搏信號干擾段檢測算法研究。
1.2 脈搏信號歸一化
對脈搏信號進行歸一化,使脈搏信號在同一參考系下進行衡量與對比。設原始脈搏信號為一個長度為n的時間序列,表示為A=[A1,A2,…,An],通過歸一化公式 (6)對原始序列進行歸一化計算,將歸一化后的時間序列表示為B=[B1,B2,…,Bn]
(6)
其中,max(A)表示序列A中的最大值;min(A)表示序列A中的最小值。
1.3 時間序列線性表示
原始脈搏信號,具有數(shù)據(jù)量大,高維度的特點,如果直接對原始信號進行處理,計算比較復雜。為了提高數(shù)據(jù)挖掘的效率,許多學者提出用時間序列的各種表示來近似原始序列,在諸多表示方法中,本文選取了最為簡單有效,又可以保留時間序列主要特征的分段線性[8-9]表示法。
(1)分段線性表示。簡單來說,分段線性表示就是指用K條線段近似模擬長度為n的時間序列。設時間序列XA={X1,X2,…,Xn},通過分段線性表示得到分段點集合為{Xt1,Xt2,…,XtN},重新被表達的序列可描述為XB={f1(Xt1,Xt2),f2(Xt2,Xt3),…,fN-1(XtN-1,XtN)}。其中fN-1(XtN-1,XtN)表示在區(qū)間[tN-1,tN]上的線性擬合函數(shù);
(2)提取時間序列得最值點。分段線性表示的關(guān)鍵是分段點選取策略,選取最優(yōu)的分段點,不僅能大幅度降低信號維度,而且最大幅度保留原始序列的形態(tài)特征。近年來許多學者對分段線性表示進行了深入的研究,本文將使用基于極值的分段方法來研究脈搏信號的干擾段檢測。
定義 1 設(xi-1,ti-1)、(xi,ti)、(xi+1,ti+1)分別表示時間序列上3個依次相鄰的數(shù)據(jù)點,如果滿足以下條件之一:(1)xi≥xi-1且xi>xi-1,或者xi>xi-1且xi≥xi-1;(2)xi≤xi-1且xi (3)確定分段點。首先將需要檢測的原始序列X按固定分段數(shù)分段,從而得到n個子序列。然后再提取每個子序列中的極值點,即時間序列的局部極值點。若局部極值點存在多個,則在所有極大值點中,選取數(shù)值最大的點作為局部最大值,同理選取數(shù)值最小的點作為局部最小值點。由這些最值點組成序列分段點集合為{Xt1,Xt2,…,XtN}。保留此序列首尾兩點,然后根據(jù)最值點分段擬合兩點間的直線,最后N條首尾相連的直線段來代替原始序列。例:脈搏模板信號經(jīng)過歸一化、分段線性表示處理后的結(jié)果如圖3所示。 圖2 模板信號歸一化 圖3 模板信號的分段線性表示 將原始信號平均分成9段,求出每一段中的最大最小值點,再將依次相鄰的點之間用直線段相連接,就可得到原始信號的分段線性近似表達,從圖中可以看出,這種表達不但最大限度的保留了原始信號的形態(tài)特征,而且可以大幅度的壓縮數(shù)據(jù),減少數(shù)據(jù)量,增快算法運算速度。 定義2 設時間序列XA={X1,X2,…,Xn},經(jīng)過線性表示得到的序列為XB={f1(Xt1,Xt2),f2(Xt2,Xt3),…,fN-1(XtN-1,XtN)},那么它的壓縮率定義為 (7) 1.4 相似性度量 脈搏信號的干擾段可以認為是標準脈搏信號被各種噪聲污染的結(jié)果,也就是說根據(jù)標準信號和含有干擾段信號之間的相似度就可以衡量信號含有干擾段的程度。時間序列的相似性度量[10-11]是時間序列數(shù)據(jù)挖掘的基礎。一般衡量兩條時間序列的相似程度通過距離函數(shù)(即擬合誤差)來度量,距離越小越相似,否則越不相似。 (8) 2.1 實驗數(shù)據(jù)來源 通過國外數(shù)據(jù)庫,例如英國哥倫比亞大學醫(yī)療電子與計算機工程研究所建立的CB數(shù)據(jù)庫等,選取由信號專家已經(jīng)標注為質(zhì)量好與質(zhì)量差的信號,將二者混合在一起作為實驗數(shù)據(jù)。 實驗從該數(shù)據(jù)庫選取500組的數(shù)據(jù)進行實驗,數(shù)據(jù)采樣頻率為125 Hz,信號質(zhì)量已經(jīng)由專家標注為質(zhì)量好與質(zhì)量差兩種。取6 s為一個窗口波形,也就是原始序列長度n=125×6=750。同時選定分段線性表示的線段數(shù)K,也就是將原序列A平均分成K段,根據(jù)式(7)可算得壓縮率,查找每段序列內(nèi)的極大極小值點,作為分段點。接下來通過線性擬合的方式,就可用首尾相連的直線段來近似表達原時間序列。再次以同頻率125 Hz采樣線性得到擬合序列B,通過計算兩序列之間的歐式距離,可得到擬合誤差ε。擬合誤差的值越大表示信號質(zhì)量越差,即含有更多的干擾段,值越小則表示信號質(zhì)量越好。從而本文通過擬合誤差ε得到一個可以判斷信號干擾段程度的客觀數(shù)據(jù)。 2.2 實驗結(jié)果 (1)不同壓縮率下擬合誤差對比實驗。為找出脈搏信號線性分段表達方法的最優(yōu)分段數(shù),本實驗將比較壓縮率相同情況下,標準脈搏信號和數(shù)據(jù)庫提供的實驗脈搏信號之間的擬合誤差,將壓縮率設置在80%、85%、90%、95%,通過上文中提到的試驗方法,比較不同壓縮率下的擬合誤差,可得出結(jié)論:90%壓縮率的擬合誤差最小,選擇它為最優(yōu)分段方法; (2)相同壓縮率下的擬合誤差對比實驗。按照上文所示方法,將模板信號和數(shù)據(jù)庫中獲取的實驗數(shù)據(jù),在壓縮率設置為90%的前提下,進行歸一化,分段線性表示,相似性判斷后,得到一個干擾段等級閾值。當擬合誤差大于閾值時,判斷為信號質(zhì)量差;擬合誤差小于閾值時,判斷為信號質(zhì)量好;若原信號質(zhì)量為好,同時經(jīng)算法判斷為質(zhì)量好;或者若原信號質(zhì)量為差,同時經(jīng)算法判斷為質(zhì)量差;那么就算判斷正確,反之則都算判斷失敗。通過不斷的調(diào)整閾值,準確率最高的結(jié)果如表1所示。 表1 實驗結(jié)果 由表1可知,該算法能夠在識別信號干擾段方面成功率達93.4%,達到了預期希望,與專家的判斷基本一致。 基于線性分段表示的數(shù)據(jù)挖掘算法[12]應用于脈搏信號干擾段檢測方面,可快速的表示出脈搏信號的變化趨勢,并且在一定程度上消除噪聲污染。它可以為脈搏信號含有干擾段的程度提供客觀判斷標準,算法簡單,且具有較高的準確性,可以幫助剔除被污染程度高的脈搏信號,為下一步的脈搏信號分析提供可靠的數(shù)據(jù)。 [6] 曾鵬飛.基于FPGA的光纖高清數(shù)字視頻傳輸系統(tǒng)的研究[D].長沙:長沙理工大學,2014. [7] 熊先越.基于Spartan6的高清視頻傳輸系統(tǒng)[J].光通信技術(shù),2014(7):36-38. [8] 庾志衡.基于FPGA與DDR2 SDRAM的大容量異步FIFO緩存設計[J].硬件縱橫,2011,30(4):34-40. [9] RichSeifert.千兆以太網(wǎng)技術(shù)與應用[M].郎波,譯.北京:機械工業(yè)出版社,2000. [10] 謝希仁.計算機網(wǎng)絡[M].4版.北京:電子工業(yè)出版社,2003. [11] 謝喆.基于FPGA的TCP/IP數(shù)據(jù)通信的設計與應用[D].武漢:武漢科技大學,2011. [12] 徐洪波,余成芳.基于FPGA的以太網(wǎng)MAC子層協(xié)議設計實現(xiàn)[J].復旦學報:自然科學版,2004(2):50-53. [13] 周華茂,程小輝,龔幼民.以太網(wǎng)MAC層IP軟核設計方法研究[J].集成電路設計與開發(fā),2007(8):692-696. [14] 葉祎恒.基于FPGA的UDP/IP硬件協(xié)議棧的研究與實現(xiàn)[D].西安:西安電子科技大學,2010. [15] 尉志偉.千兆以太網(wǎng)MAC控制器IP軟核的設計[D].成都:電子科技大學,2010. Pulse Signal Interference Detection Algorithm Based on Data Mining JIA Long,HE Song, SHI Jingyun (College of Big Data and Information Engineering, Guizhou University, Guiyang 550025, China) The acquisition process of the pulse signal is easy to be influenced by the environment, thus the pulse signal interference. In other words, the pulse signal is polluted by the environment noise. In order to objectively describe the signal polluted degree, this paper proposes a piecewise linear representation of time series of the pulse signal based on the interference detection algorithm, and establishes the pulse template, the template signal and actual sampling signal between the matching degree (i.e. fitting error), resulting in an objective expression of human pulse contains interference section level (i.e., signal quality) algorithm. interference segment; time series; piecewise linear representation; similarity 2016- 07- 29 賈龍(1989-),男,碩士研究生。研究方向:計算機應用技術(shù)。賀松(1974-),男,副教授。研究方向:數(shù)字通信與信息系統(tǒng)。 10.16180/j.cnki.issn1007-7820.2017.06.008 TN911.4 A 1007-7820(2017)06-027-042 算法驗證
3 結(jié)束語