朱春媚,黎 萍
(1.電子科技大學(xué)中山學(xué)院 機(jī)電工程學(xué)院,廣東 中山 528403;2.華南理工大學(xué) 自動(dòng)化科學(xué)與工程學(xué)院,廣東 廣州 510641)
基于幀間PCA特征降維的咳嗽識(shí)別
朱春媚1,2,黎 萍1
(1.電子科技大學(xué)中山學(xué)院 機(jī)電工程學(xué)院,廣東 中山 528403;2.華南理工大學(xué) 自動(dòng)化科學(xué)與工程學(xué)院,廣東 廣州 510641)
咳嗽是呼吸系統(tǒng)疾病常見(jiàn)的癥狀,咳嗽的自動(dòng)監(jiān)測(cè)在臨床上具有重要的輔助診斷意義。作為便攜式咳嗽監(jiān)測(cè)儀的軟件算法,咳嗽識(shí)別具有小樣本、粗分類(lèi)和運(yùn)算速度要求高的特點(diǎn),這使得特征降維在咳嗽識(shí)別中具有重要意義??人宰R(shí)別一般采用39維的Mel倒譜系數(shù)作為特征量,特征維數(shù)不高導(dǎo)致幀內(nèi)特征降維效果不顯著。針對(duì)這個(gè)問(wèn)題,文中對(duì)咳嗽的聲學(xué)特點(diǎn)進(jìn)行分析,在得出咳嗽特征集中體現(xiàn)在爆發(fā)相的結(jié)論基礎(chǔ)上,提出了一種基于主元分析法(PCA)的幀間特征降維方法。采用主元分析得到映射矩陣和主元個(gè)數(shù)后,以每6幀為一組進(jìn)行分組降維,然后組合降維后的特征作為總特征,將咳嗽識(shí)別的特征數(shù)量降維至原來(lái)的23.9%。采用隱馬爾可夫模型作為分類(lèi)器,多組錄音樣本的咳嗽識(shí)別實(shí)驗(yàn)結(jié)果表明,該降維方法能在改善識(shí)別準(zhǔn)確率的同時(shí),有效減少算法的運(yùn)行時(shí)間、提高咳嗽識(shí)別的效率。
咳嗽監(jiān)測(cè);咳嗽識(shí)別;主元分析法;特征降維
咳嗽是呼吸系統(tǒng)疾病常見(jiàn)的癥狀,咳嗽的自動(dòng)監(jiān)測(cè)在臨床上具有重要的輔助診斷意義。目前已有多種類(lèi)型的便攜式咳嗽監(jiān)測(cè)儀,能有效實(shí)現(xiàn)對(duì)咳嗽的長(zhǎng)時(shí)間記錄[1-5]。作為便攜式咳嗽監(jiān)測(cè)儀的軟件算法,咳嗽識(shí)別的主要目標(biāo)是實(shí)現(xiàn)長(zhǎng)時(shí)間監(jiān)測(cè)結(jié)果中咳嗽的自動(dòng)識(shí)別和分類(lèi),以幫助醫(yī)生進(jìn)行快速、準(zhǔn)確的診斷??人宰R(shí)別的應(yīng)用要求和分類(lèi)特點(diǎn)使得特征降維對(duì)咳嗽識(shí)別具有重要的意義,主要體現(xiàn)在:
(1)便攜式咳嗽監(jiān)測(cè)儀需對(duì)咳嗽進(jìn)行連續(xù)、長(zhǎng)時(shí)間(一般為24小時(shí))的監(jiān)測(cè),并對(duì)包含幾萬(wàn)個(gè)聲音樣本的監(jiān)測(cè)結(jié)果進(jìn)行分析,所以對(duì)其配套的咳嗽識(shí)別算法的運(yùn)行速度要求較高。特征降維有利于提高算法的運(yùn)行速度。
(2)目前咳嗽還沒(méi)有公共的大型數(shù)據(jù)庫(kù),而且符合一定呼吸疾病類(lèi)型的咳嗽樣本采集范圍較小,與語(yǔ)音識(shí)別相比屬于小樣本的情況,特征數(shù)量過(guò)多容易出現(xiàn)過(guò)擬合現(xiàn)象,不利于提高識(shí)別率。
(3)咳嗽識(shí)別一般只需要區(qū)分咳嗽與非咳嗽,與語(yǔ)音識(shí)別相比分類(lèi)要求低。傳統(tǒng)的語(yǔ)音識(shí)別特征用于咳嗽識(shí)別存在冗余,存在降維的空間。
目前關(guān)于咳嗽特征降維的研究不多,文獻(xiàn)[6]利用中位頻率和頻譜能量過(guò)濾無(wú)語(yǔ)音片段,有效壓縮了需要處理的數(shù)據(jù)量,但不屬于特征降維;文獻(xiàn)[7]采用信息論準(zhǔn)則對(duì)咳嗽識(shí)別中由Mel倒譜系數(shù)(MFCC)、響度、譜質(zhì)心、譜變化等組成的220維混合參數(shù)降維至50維,屬于幀內(nèi)特征降維。對(duì)于咳嗽識(shí)別系統(tǒng)廣泛使用的線性預(yù)測(cè)系數(shù)(LPC)、MFCC等特征,由于幀內(nèi)降維的空間不大,直接進(jìn)行幀內(nèi)降維難以獲得好的效果。
針對(duì)這個(gè)問(wèn)題,文中結(jié)合咳嗽的聲學(xué)特點(diǎn),提出了一種基于主元分析法(PCA)的幀間特征降維方法,并采用隱馬爾可夫模型(HMM)實(shí)現(xiàn)咳嗽識(shí)別。
實(shí)驗(yàn)樣本來(lái)自醫(yī)院病房,使用DELL原裝機(jī)的聲卡信號(hào)采集設(shè)備進(jìn)行單聲道采樣,采樣頻率為8 000 Hz,每個(gè)錄音保存為16位數(shù)字量化的WAV文件。選取不同性別、年齡和呼吸感染情況的病人進(jìn)行連續(xù)、長(zhǎng)時(shí)間的日常錄音。人工分割成單個(gè)咳嗽信號(hào)作為咳嗽樣本,并隨機(jī)截取時(shí)長(zhǎng)為0.2~3 s的非咳嗽信號(hào)作為非咳嗽樣本。
PCA是一種通過(guò)降維技術(shù)把多個(gè)變量化為少數(shù)幾個(gè)主成分(即綜合變量)的統(tǒng)計(jì)分析方法[8]。文中采用PCA來(lái)實(shí)現(xiàn)幀間特征降維。由于處理對(duì)象是時(shí)間長(zhǎng)度不確定的聲音信號(hào),幀間特征降維需要解決的主要問(wèn)題是信號(hào)幀數(shù)不同導(dǎo)致的特征維數(shù)不同。文中根據(jù)咳嗽的聲學(xué)特點(diǎn)采用分組的方法來(lái)實(shí)現(xiàn)。
2.1 咳嗽的聲學(xué)特點(diǎn)
研究發(fā)現(xiàn),一個(gè)完整的咳嗽時(shí)域波形由爆發(fā)相(第一聲)、平穩(wěn)過(guò)渡期和第二聲三相組成,如圖1所示。
其中第二聲是可選的,有的咳嗽沒(méi)有第二聲[9]。
圖1 一個(gè)典型咳嗽的時(shí)域波形圖
咳嗽特征集中體現(xiàn)在爆發(fā)相(第一聲),其持續(xù)時(shí)間一般在60 ms以?xún)?nèi)[9]。按幀長(zhǎng)240(30 ms),幀移80(10 ms)分幀時(shí),對(duì)應(yīng)信號(hào)的前6幀。因此,主元分析時(shí),每個(gè)咳嗽信號(hào)可以取最具咳嗽特征的前6幀作為樣本;得到映射矩陣后,把每個(gè)輸入信號(hào)的原始特征按每6幀分組,則每組的特征維數(shù)與映射矩陣對(duì)應(yīng),然后分組進(jìn)行降維。
由于第二聲咳嗽可選,而平穩(wěn)過(guò)渡期沒(méi)有包含很多的特征信息,分組若出現(xiàn)小于6幀的維數(shù),可以直接舍棄。
2.2 咳嗽特征PCA分析
文中采用12階MFCC參數(shù)和對(duì)數(shù)能量,并求其一階差分和二階差分,得到共39維參數(shù)作為一幀咳嗽信號(hào)的原始特征參數(shù)。
得到39維的MFCC參數(shù)之后,對(duì)咳嗽樣本的前6幀進(jìn)行主元分析,步驟如下:
(1)構(gòu)造原始的特征數(shù)據(jù)矩陣A。
(1)
其中:n是每個(gè)樣本前6幀的特征總數(shù),文中采用39維MFCC作為一幀信號(hào)的特征參數(shù),則前6幀的特征總數(shù)為234維,即n=234;m是咳嗽樣本數(shù);xij是第i(i∈{1,2,…,m})個(gè)樣本的第j(j∈{1,2,…,234})維特征。
(2)對(duì)A進(jìn)行標(biāo)準(zhǔn)化,得到矩陣B:
(2)
(3)
(4)
(3)計(jì)算協(xié)方差矩陣BTB,得到n*n的方陣。
(4)計(jì)算BTB的特征值λ和特征向量P,滿(mǎn)足
PTBTBP=Λ
(5)
(6)
其中,λ1,λ2,…,λn按從大到小排序,對(duì)應(yīng)的特征向量P即為降維的映射矩陣。
(5)計(jì)算累計(jì)貢獻(xiàn)率:
(7)
一般取累計(jì)貢獻(xiàn)率達(dá)85%~95%時(shí),對(duì)應(yīng)的L即為主元個(gè)數(shù)。
文中采用m=536個(gè)咳嗽樣本,得到原始數(shù)據(jù)矩陣A為536*234的矩陣,按以上步驟計(jì)算得到特征值及其累計(jì)貢獻(xiàn)率,如圖2所示。
圖2 主元分析得到的特征值及其累計(jì)貢獻(xiàn)率
為了盡可能保留原有的特征信息,文中取累計(jì)貢獻(xiàn)率達(dá)到95%,得到的主元個(gè)數(shù)L=56。
因此可見(jiàn),通常用于咳嗽識(shí)別的MFCC特征存在大量的冗余。
2.3 分組特征降維
主元分析得到映射矩陣和主元個(gè)數(shù)后,每個(gè)輸入信號(hào)的特征以每6幀為一組進(jìn)行分組降維,然后組合各組降維后的特征作為總特征。
記第i組的原始特征參數(shù)為:
Fi=[ai1,ai2,…,ain]
(8)
其中,n=234。
(9)
其中:pij為主元分析映射矩陣P的第i行第j列元素;L=56。
降維后每組的特征維數(shù)等于主元個(gè)數(shù),即56維。把降維后的各組特征參數(shù)按分幀順序組合在一起,得到最終特征為F=[F1,F2,…,FK]T。
其中,K為分組的組數(shù)。
分組特征降維流程如圖3所示。
圖3 咳嗽特征降維流程圖
3.1 識(shí)別模型
咳嗽識(shí)別采用含3個(gè)隱含狀態(tài)的自左向右HMM來(lái)實(shí)現(xiàn),每個(gè)狀態(tài)為包含3個(gè)高斯元的混合模型。采用K-均值的方法初始化高斯混合模型參數(shù),訓(xùn)練過(guò)程采用Baum-Welch[10]算法,識(shí)別采用Viterbi算法[10],HMM訓(xùn)練的迭代次數(shù)為40。
3.2 實(shí)驗(yàn)樣本
HMM訓(xùn)練樣本分別取150個(gè)咳嗽和150個(gè)非咳嗽信號(hào)。其中,非咳嗽樣本包含了各種類(lèi)似咳嗽的信號(hào),如清嗓聲、笑聲、說(shuō)話聲、呼嚕聲和撞擊性聲音??人詷颖景瞬煌?lèi)型的咳嗽,如輕度咳嗽和重度咳嗽,有痰咳嗽和無(wú)痰咳嗽,無(wú)噪聲環(huán)境下的咳嗽和有噪聲環(huán)境下的咳嗽。
咳嗽識(shí)別時(shí),測(cè)試樣本選取4組來(lái)自不同性別、年齡和呼吸感染情況的病人的錄音,每個(gè)錄音中的所有咳嗽和從該錄音中隨機(jī)截取的160個(gè)非咳嗽信號(hào)作為一組測(cè)試樣本,共4組測(cè)試樣本。每組測(cè)試樣本中人工分割得到的咳嗽信號(hào)分別為231個(gè),78個(gè),201個(gè)和126個(gè)。
3.3 實(shí)驗(yàn)結(jié)果
降維前每組MFCC的維數(shù)為234維,降維后為56維,是原始特征數(shù)量的23.9%。降維前后算法的識(shí)別結(jié)果如表1所示。由于降維減少了特征冗余和過(guò)擬合現(xiàn)象,相當(dāng)于擴(kuò)大了HMM的訓(xùn)練樣本集,從而改善了HMM的識(shí)別效果。降維后4組樣本的平均識(shí)別率為92.61%,相對(duì)降維前提高了2.34%。
表1 咳嗽識(shí)別率對(duì)比
在Windows XP系統(tǒng)下,采用Matlab 2012開(kāi)發(fā)軟件,降維前后算法的運(yùn)行時(shí)間如表2所示。降維后HMM的訓(xùn)練時(shí)間由原來(lái)的770 s降至96 s,相對(duì)下降了87.53%;4組樣本的平均識(shí)別時(shí)間由降維前的27.32 s降至7.66 s,相對(duì)下降了71.96%。
表2 算法運(yùn)行時(shí)間對(duì)比 s
可見(jiàn),特征量的大幅度降維使得HMM所需的訓(xùn)練時(shí)間和識(shí)別時(shí)間都明顯減小,這對(duì)于包含高達(dá)幾萬(wàn)個(gè)聲音樣本的長(zhǎng)時(shí)間咳嗽監(jiān)測(cè)結(jié)果的分析來(lái)說(shuō),將極大提高其咳嗽識(shí)別的效率。
咳嗽識(shí)別的應(yīng)用要求和分類(lèi)特點(diǎn)使得咳嗽特征降維具有重要的意義。文中針對(duì)幀內(nèi)特征降維效果不佳的問(wèn)題,結(jié)合咳嗽的聲學(xué)特點(diǎn),提出一種基于主元分析法的幀間特征降維方法。該方法采用分組降維的方式,把每組234維的特征降至56維,特征數(shù)量為原始數(shù)據(jù)的23.9%,并采用隱馬爾可夫模型為分類(lèi)器實(shí)現(xiàn)了咳嗽的自動(dòng)識(shí)別。實(shí)驗(yàn)結(jié)果表明,與現(xiàn)有的直接采用傳統(tǒng)的MFCC作為特征的咳嗽識(shí)別方法,如文獻(xiàn)[11-14]相比,文中方法能在提高識(shí)別率的同時(shí),大大減少分類(lèi)模型訓(xùn)練和識(shí)別的計(jì)算量,有效減少了算法的運(yùn)行時(shí)間、提高了咳嗽識(shí)別效率,對(duì)于連續(xù)、長(zhǎng)時(shí)間的咳嗽監(jiān)測(cè)結(jié)果的自動(dòng)分析具有實(shí)用價(jià)值。
文中的降維映射矩陣和主元個(gè)數(shù)是對(duì)咳嗽樣本進(jìn)行主元分析得到的,因此咳嗽樣本的選取對(duì)降維效果有直接的影響,樣本的性質(zhì)與待識(shí)別的咳嗽相近則降維后的識(shí)別效果較好。后續(xù)研究中將探討如何更加合理地選擇咳嗽樣本的類(lèi)型、數(shù)量以及減少噪聲的影響。
[1] McGuiness K,Kelsall A,Lowe J,et al.Automated cough detection:a novel approach[J].American Journal of Respiratory and Critical Care Medicine,2007,175:381-381.
[2] Vizel E,Yigla M,Goryacheyv Y,et al.Validation of an ambulatory cough detection and counting application using voluntary cough under different conditions[J].Cough,2010,6(1):1-3.
[3] Barry S J,Dane A D,Morice A H,et al.The automatic recognition and counting of cough[J].Cough,2006,2(1):8-9.
[4] Matos S,Birring S S,Pavord I D,et al.An automated system for 24-h monitoring of cough frequency:the leicester cough monitor[J].IEEE Transactions on Biomedical Engineering,2007,54(8):1472-1479.
[5] Wilhelm F H,Toth W T,Sackner M A.The lifeshirt an advanced system for ambulatory measurement of respiratory and cardiac function[J].Behavior Modification,2003,27(5):671-691.
[6] Barton A,Gaydecki P,Holt K,et al.Data reduction for cough studies using distribution of audio frequency content[J].Cough,2012,8(1):8-12.
[7] Drugman T,Urbain J,Bauwens N,et al.Audio and contact microphones for cough detection[C]//Proc of 13th annual conference of the international speech communication association.Oregon:ISCA,2012.
[8] Mackiewicz A, Ratajczak W. Principal components analysis (PCA)[J].Computers and Geosciences,1993,19:303-342.
[9] Korpá? J, Sadloňová J,Vrabec M.能性Analysis of the cough sound:an overview[J].Pulmonary Pharmacology,1996,9(5):261-268.
[10] Rabiner L.A tutorial on hidden Markov models and selected applications in speech recognition[J].Proceedings of the IEEE,1989,77(2):257-286.
[11] Hollier C A,Harmer A R,Maxwell L J,et al.Validation of respiratory inductive plethysmography (LifeShirt) in obesity hypoventilation syndrome[J].Respiratory Physiology & Neurobiology,2014,194(1):15-22.
[12] 石 銳,王 博,何慶華.基于高斯混合模型的咳嗽音檢測(cè)方法[J].計(jì)算機(jī)工程與應(yīng)用,2011,47(32):151-154.
[13] Swarnkar V,Abeyratne U R,Amrulloh Y,et al.Neural network based algorithm for automatic identification of cough sounds[C]//Proc of 35th annual international conference of the IEEE on engineering in medicine and biology society.Osaka,Japan:IEEE,2013:1764-1767.
[14] Drugman T.Using mutual information in supervised temporal event detection:application to cough detection[J].Biomedical Signal Processing and Control,2014,10(1):50-57.
Cough Recognition Based on Inter-frame PCA Feature Dimension Reduction
ZHU Chun-mei1,2,LI Ping1
(1.Mechanical and Electrical Engineering College,Zhongshan Institute of University of Electronic Science and Technology,Zhongshan 528403,China;2.College of Automation Science and Engineering,South China University of Technology,Guangzhou 510641,China)
Cough is a common symptom of respiratory diseases and automatic cough monitoring has important significance in clinical diagnosis.As a software algorithm of portable devices used in computer-aided diagnosis,cough recognition has the characteristics of small sample,rough classification and requirement for high computing speed,which makes feature dimension reduction necessary.Cough recognition commonly adopts 39-dimention MFCC as feature which results to the poor performance of dimension reduction within frame.To dress this problem,acoustic characteristics of cough is analyzed.Based on the finding that feature of cough is mainly reflected in explosive phase,a method of inter-frame feature dimension reduction based on Principal Component Analysis (PCA) is proposed.This method reduces dimension in each group of six frames,and combines each group of reduced feature as the general feature,in which only 23.9% of the original features are adopted.Automatic recognitions of cough using hidden Markov model are carried out,and the results of various groups of samples show that this method can both improve the recognition rate and reduce the running time of the recognition algorithm to increase the recognition efficiency.
cough monitoring;cough recognition;PCA;feature dimension reduction
2015-06-30
2015-09-30
時(shí)間:2016-02-18
廣東省高等學(xué)校學(xué)科與專(zhuān)業(yè)建設(shè)專(zhuān)項(xiàng)資金(2013LYM0103);中山市科技計(jì)劃項(xiàng)目(2014A2FC383)
朱春媚(1981-),女,在職博士研究生,講師,研究方向?yàn)樯镝t(yī)學(xué)信號(hào)處理、智能控制。
http://www.cnki.net/kcms/detail/61.1450.TP.20160218.1636.080.html
TP391.42
A
1673-629X(2016)03-0040-04
10.3969/j.issn.1673-629X.2016.03.010
計(jì)算機(jī)技術(shù)與發(fā)展2016年3期