茅正沖 龔 熙
(江南大學輕工過程先進控制教育部重點實驗室 江蘇 無錫 214122)
?
基于EMD與RLS的說話人識別抗噪算法
茅正沖龔熙
(江南大學輕工過程先進控制教育部重點實驗室江蘇 無錫 214122)
摘要語音信號是一種典型的非平穩(wěn)信號。為了分析語音的非平穩(wěn)特性,提出一種基于經(jīng)驗模態(tài)分解(EMD)與遞推最小二乘算法(RLS)自適應濾波器相結合的語音信號去噪預處理器,進一步提高語音信號的信噪比和可懂度。再通過Gammatone濾波器組,對去噪后的說話人語音信號進行處理,提取說話人語音信號的特征參數(shù)GFCC。仿真實驗在高斯混合模型識別系統(tǒng)中進行。實驗結果表明,采用這種方法應用于說話人識別抗噪系統(tǒng),系統(tǒng)的識別率及魯棒性都有明顯提高。
關鍵詞抗噪系統(tǒng)EMDRLS識別率
0引言
說話人識別中關鍵問題之一是提取有效的特征參數(shù)。不同的特征參數(shù)對說話人識別會產(chǎn)生不同的效果,直接影響識別系統(tǒng)的識別率及魯棒性。目前常見的特征參數(shù)有線性預測系數(shù)(LPC)、線性預測倒譜參數(shù)(LPCC)、線譜對參數(shù)(LSP)和Mel頻率倒譜系數(shù)(MFCC)等。然而,在實際的說話人識別系統(tǒng)中,容易受到噪聲的干擾,尤其是在低信噪比下,系統(tǒng)的識別率大大下降[1-3]。
對語音信號進行預處理能有效地去除信號中的噪聲,尤其是在低信噪比的環(huán)境下,語音信號的預處理能對識別效果產(chǎn)生很大的影響。文獻[4]采用改進譜減法能更好地去除背景噪聲和殘余噪聲,但在低信噪比環(huán)境下對語音信號的可懂度損傷較大。文獻[5]中采用聽覺掩蔽效應能對語音消噪,但掩蔽門限的估計會存在很大誤差。文獻[6]中Gammatone濾波器組是基于人耳耳蝸聽覺模型建立的,該濾波器組能很好地模擬基底膜的分頻特性,能進一步抑制背景噪聲,提高說話人語音信號的可懂度,但是不能提高語音信噪比。
任何信號都是由一些不同的基本模式分量組成的。每個模式可以是線性的或非線性的,一個信號可以包含多個基本模式分量,如果模式之間相互重疊,則形成復合信號。語音信號作為非平穩(wěn)復合信號,分析時需要使用具有局域性的基本量和基本函數(shù)。一般采用的方法有:短時傅里葉變換、Gabor展開、小波變換等。這些方法的共同點就是采用具有有限支撐的震蕩衰減波形作為基函數(shù),然后截取一小段時間區(qū)域內(nèi)的信號進行相似性的度量,而且這些基函數(shù)大多數(shù)預先選定的。而經(jīng)驗模態(tài)分解(EMD)方法則得到了一個自適應的廣義基。基函數(shù)沒有統(tǒng)一的表達式,而是依賴信號本身,是自適應的,不同的信號經(jīng)分解會得到不同的基函數(shù),與傳統(tǒng)的分析工具有本質的區(qū)別?;贓MD的時頻分析方法能夠定量地描述頻率和時間的關系,準確地刻畫信號的非平穩(wěn)特性,實現(xiàn)對時變信號的完整分析[7]。RLS自適應濾波器可以按事先設定的準則自動調節(jié)本身的傳遞函數(shù)以達到所需要的輸。本文將EMD和RLS相結合作為語音信號預處理器,將帶噪信號經(jīng)過預處理后進行EMD分解,分解得到時間尺度不同的基本模式分量(IMF)。這些IMF會按照頻率從高到低的順序排列,然后對噪聲主要存在的IMF通過遞推最小二乘算法(RLS)構造的濾波器濾波,自適應地最優(yōu)逼近噪聲分量,然后重構出信號,以此達到去噪的效果。最后通過Gammatone濾波器組,提取特征參數(shù)GFCC用于此說話人識別。在低信噪比的背景下,該方法的識別率和魯棒性均高于普通增強處理的說話人識別系統(tǒng)。
1EMD與RLS的語音抗噪算法
1.1EMD分解算法
基本模式分量須滿足兩個條件:
(1) 在整個語音信號數(shù)列中,信號極值點數(shù)量與過零點數(shù)量相差小于等于1。
(2) 在任意一段時間內(nèi),信號上包絡線、下包絡線確定的平均值為0[8]。
對于給定信號x(t),EMD分解方法[9]如下:
(1) 檢測x(t)所有局部極大、極小值點,進而分別確定x(t)的上、下包絡線。再取兩條包絡線的平均值組成新序列m(t)。
(2) 從x(t)中減去m(t),得:h1(t)=x(t)-m(t),如果h1(t)不滿足條件(1)和(2),則把h1(t)作為新的x(t),重復步驟(1)和步驟(2),直到h1(t)滿足條件,記:c1(t)=h1(t)。
(3) 從x(t)中分解出第一個基本模式分量c1(t)后,減去c1(t),得到剩余值序列:r1(t)=x(t)-c1(t)。
(4) 把r1(t)作為新的原始信號重復上述操作,依次可得c1(t),c2(t),…,cn(t),最后分解剩余一項rn(t)。記:
(1)
對分解的過程設定一個停止條件:當cn(t)或rn(t)小于預設值Sd時,則分解停止,即:
(2)
式中,T表示信號的時間長度;hk-1(t)和hk(t)為篩選基本模式過程中的兩個連續(xù)處理結果的時間序列。Sd的值通常取0.2~0.3[10]。圖1和圖2給出了一段受高斯白噪聲污染的語音信號(-5 dB),及這段加噪信號經(jīng)EMD分解后的IMF分量??梢园l(fā)現(xiàn),噪聲信號基本包含在高頻的基本模式分量中。
圖1 含噪語音信號
圖2 含噪語音信號的各階IMF分量
1.2RLS算法
RLS算法即“遞推最小二乘法”[11],它是考察一個由平穩(wěn)信號輸入的自適應系統(tǒng)在一段時間內(nèi)輸出誤差信號的平均功率,并使該平均功率達到最小作為自適應系統(tǒng)的性能準則。RLS算法的遞推公式為:
v(n)=v(n-1)+g(n)[d(n)-xT(n)v(n-1)]
(3)
式(3)說明在n時刻的最佳值v(n)可由n-1時刻的最佳值v(n-1)加一修正量得到,g(n)[d(n)-xT(n)v(n-1)]為修正量。其中xT(n)v(n-1)為根據(jù)n-1時刻的最佳加權和n時刻數(shù)據(jù)對d(n)之預測值。g(n)為比例增益系數(shù),表達式為:
(4)
式中,λ為遺忘因子,它是小于1的正數(shù),其變化對算法影響很大。算法的有效記憶長度用t來表示,t定義為:
(5)
因此,λ越小,對應的t越小,穩(wěn)態(tài)誤差就越大,這樣對信號的非平穩(wěn)性跟蹤性能就越好。但是如果λ太小,t會小于信號每個平穩(wěn)段的有效時間,因而就不能充分利用所有能夠獲取的采樣數(shù)據(jù),導致計算出的權矢量v(n)將會受到噪聲的嚴重影響,對于平穩(wěn)信號λ的最佳值為1。圖3為自適應噪聲消除器的結構圖。
圖3 自適應噪聲消除器的結構圖
圖3中帶噪信號d(n)包括原始語音信號和噪聲,x(n)為參考噪聲輸入。在實際工作過程中,此種自適應噪聲消除器主要是完成d(n)中的噪聲估計,使輸出的噪聲估計值y(n)盡可能接近d(n)中的噪聲信號,然后從帶噪信號中直接減去y(n),進而達到消噪的效果。
1.3本文算法
針對幾種典型的高頻噪聲,本文提出了一種將EMD和RLS結合作為預處理器的語音信號抗噪算法。在實驗室環(huán)境下采用不同的噪聲對語音信號加噪,然后用經(jīng)驗模式分解法(EMD)分解加噪后語音信號,進而得到時間尺度不同的IMF分量。這些IMF會按照頻率從高到低的順序排列,理論上分解后的絕大部分IMF分量中都會摻雜所加的噪聲信號的分量??紤]到實驗采用的噪聲信號一般時間尺度小,頻率相對較高,所以當用EMD方法分解帶噪語音信號后,噪聲信號主要分布在頻率較高的IMF分量中。這樣可以避免對帶噪信號進行全頻降噪處理,損害到一些無需處理的有用原始語音信號,而只需對高頻IMF分量進行處理。因此,本文提出一種只對高頻的IMF分量采用RLS自適應濾波器進行處理的算法,算法框圖如圖4所示。首先對帶噪語音信號進行數(shù)字化、預加重、加窗分幀和端點檢測等前處理。然后對處理后的信號EMD分解,對分解出的高頻IMF分量(第1~m級)進行RLS處理,m一般取N/3。將處理后的IMF分量與未處理的低頻IMF分量進(第m+1~N級)行疊加,重構增強后的語音信號。最后輸入Gammatone濾波器組,提取特征參數(shù)GFCC,用高斯混合模型對語音信號識別。
圖4 EMD+RLS算法過程
2Gammatone特征提取
2.1Gammatone濾波器
Gammatone濾波器[12]最早應用于描述聽覺系統(tǒng)脈沖響應函數(shù)的形狀,后來應用于耳蝸聽覺模型,用來模擬人耳聽覺頻率響應,其時域表達形式如下:
g(f,t)=kta-1e-2πbtcos(2πft+φ)t≥0
(6)
式中,k為濾波器增益,a為濾波器階數(shù),f為中心頻率,φ為相位,b為衰減因子,該因子決定相應的濾波器的帶寬,它與中心頻率f的關系為:
b=24.7(4.37f/1000+1)
(7)
由于Gammatone濾波器的時域表達式為沖擊響應函數(shù),所以將其進行傅里葉變換就可以得到其頻率響應特性。不同中心頻率的Gammatone濾波器幅頻響應曲線如圖5所示。
圖5 一組不同中心頻率下Gammatone濾波器的幅頻響應曲線
2.2GFCC特征參數(shù)的提取
根據(jù)Gammatone濾波器的特性,準備將該濾波器應用到說話人識別系統(tǒng)中。將輸入的語音信號通過一組Gammatone濾波器,進而語音信號由時域轉換到頻域。
這里采用一組64個的4階Gammatone濾波器,其中心頻率在50~8000 Hz之間。由于濾波器的輸出保留原來的采樣頻率,按時間維度取響應頻率為100 Hz、通道數(shù)為64的Gammatone濾波器。這樣就產(chǎn)生了相應的幀移為10 ms,進而可以應用到短時間的語音特征提取中。當語音信號通過以上的濾波器時,輸出信號Gm(i)的響應表達式為:
Gm(i)=[|g|(i,m)]1/2i=0,…,N-1m=0,…,M-1
(8)
式中,N=64是濾波器的通道數(shù),M是采樣之后的幀數(shù)。
這樣Gm(i)構成了一個矩陣,代表輸入信號在頻域的分布變化。這里采用類耳蝸圖[13]來描述輸入信號在頻域的分布變化。與具有直觀分辨率的語譜圖不同,類耳蝸圖在低頻段的分辨率優(yōu)于在高頻段的分辨率。圖6是一段純凈語音信號的語譜圖和類耳蝸圖。圖7是一段加噪語音信號的語譜圖和類耳蝸圖。從圖中對比可以看出,類耳蝸圖的分辨效果更加清晰,能更好地反映語音信號的能量分布,尤其是在有噪聲背景下,類耳蝸圖的優(yōu)勢更突出,更能反映出語音信號的特性。因此,將對類耳蝸圖進行下一步的分析。
圖6 一段純凈語音的語譜圖和類耳蝸圖
圖7 一段加噪語音的語譜圖和類耳蝸圖
將類耳蝸圖的每一幀稱為Gammatone特征系(GF),一個GF特征矢量由64個頻率成分組成。但是在實際的說話人識別系統(tǒng)中,GF特征矢量的維度比較大,計算量較大。此外,由于相鄰的濾波器通道有重疊的部分,GF特征矢量相互之間存在相關性。因此,為了減小GF特征矢量的維度及相關性,這里對每一個GF特征矢量進行離散余弦變換(DCT),具體表示為:
(9)
G(i)={Cj(i)|j=1,…,26}
(10)
3實驗結果與分析
實驗所用的語音庫是利用麥克風錄制的,語音采用的是單聲道,8 KHz的采樣頻率,16 bit量化。該語音庫由20人錄制的,每個人錄制10段語音,時長分2、5和10 s不等,將每個人的4段語音作為訓練樣本集,另外6段語音作為測試樣本集?;烊朐肼曔x自NOISEX-92標準噪聲庫[15]中的White噪聲、Car噪聲、Factory噪聲,信噪比分別為-10、-5、0、5和10 dB。采用的識別方法是高斯混合模型(GMM),GMM的混合數(shù)是16。特征參數(shù)GFCC的提取采用64通道的Gammatone濾波器,實驗數(shù)據(jù)表明,經(jīng)過DCT變換后的GFCC參數(shù),低26維系數(shù)占據(jù)了全部GFCC參數(shù)的主要特征信息,而高于26維的GFCC值都接近于0,提供的信息幾乎可以忽略。因此本文采用26維GFCC作為特征向量,仿真結果如圖8所示。
圖8 仿真結果
為了獲得經(jīng)本文算法處理后的語音的聽覺主觀感受,采取主觀MOS評分法,接受10位聽眾的聽覺感受測試。聽眾根據(jù)處理后語音的清晰度、可懂度和噪聲情況綜合給出評分,然后記錄不同算法處理后的MOS均分,如表1所示。
表1 主觀MOS評分比較
從圖8和表1中可以看出,本文算法的識別率和MOS評分要高于一般的語音去噪增強算法,不僅提高了信噪比,主觀感覺到的噪聲也明顯降低,體現(xiàn)出了本文算法的優(yōu)越性。
4結語
語音信號作為一種典型的非平穩(wěn)性信號,容易受到噪聲的污染。本文給出了一種將EMD+RLS作前處理,與Gammatone濾波器組相結合提取GFCC的說話人識別抗噪算法。實驗結果表明,其識別率、魯棒性及主觀感受都優(yōu)于傳統(tǒng)的語音增強識別算法。GFCC能很好地模擬人耳基底膜特性,降低加性噪聲的影響;EMD能很好地刻畫信號的非平穩(wěn)性;RLS能夠實時自適應逼近噪聲信號,提高語音信號的信噪比,進一步改善帶噪語音信號的清晰度。然而,RLS 算法運算中增益g(n)是一個隨著輸入的不同而改變的函數(shù),增加了運算量,在短時間內(nèi)進行說話人識別時,識別的效果還需進一步改進。因此,如何簡化本文的算法減少計算量,實現(xiàn)短時識別將是以后研究的重點。
參考文獻
[1] Nilu Singh,R A Khan,Raj Shree.Applications of Speaker recognition[C]//International Conference on Modelling,Optimisation and Computing(ICMOC 2012),2012,38:3122-3126.
[2] Meng Jianliang,Zhang Junwei,Zhao Haoquan.Overview of the Speech Recognition technology[C]//Computational and Information Sciences(ICCIS),2012:199-202.
[3] Zhao Xiaojia,Shao Yang,Wang Deliang.CASA-based robust speaker identification[J].IEEE Transactions on Audio,Speech and Language Processing.United States,Institute of Electrical and Electronics Engineers Inc,2012,20(5):1608-1616.
[4] 許瑞杰.基于改進增益函數(shù)譜減法的語音增強技術研究[J].計算機工程與設計,2010,31(16):3681-3684.
[5] 楊暢.基于聽覺掩蔽效應的改進譜減法算法研究[D].西安:西安電子科技大學,2009.
[6] 陳世雄,宮琴,金慧君.用Gammatone濾波器組仿真人耳基底膜的特性[J].清華大學學報:自然科學版,2008,48(6):1044-1048.
[7] Hawley S D,Atlas L E,Chizeck H J.Some properties of an empirical mode type signal decomposition algorithm[J].IEEE Signal Processing Letters,2008,17(1):3625-3628.
[8] Huang Daji,Zhao Jinping,Su Jilan.Practical implementation of Hilbert-Huang Transform algorithm[J].Acta Oceanologica Sinica,2003,22(1):1-14.
[9] 王輝,袁淑丹.基于EMD和功率譜熵的語音端點檢測[J].電聲技術,2013,37(11):40-44.
[10] 宋倩倩.基于Hilbert-Huang變換的語音信號時頻分析[D].無錫:江南大學,2009.
[11] 李寧,徐守坤,馬正華,等.自適應語音識別算法仿真研究[J].計算機仿真,2011,28(8):181-185.
[12] 王玥,錢志鴻,王雪,等.基于伽馬通濾波器組的聽覺特征提取算法研究[J].電子學報,2010,38(3):525-528.
[13] Shao Yang,Jin Zhaozhang,Wang Deliang.An auditory-based feature for robust speech recognition[C]//IEEE International Conference on Acoustics,Speech and Signal Processing.United States,Institute of Electrical and Electronics Engineers Inc,2009:4625-4628.
[14] Zhang Wanfeng,Yang Yingchun,Wu Zhaohui,et al.Experimental evaluation of a new speaker identification framework using PCA[C]//IEEE International Conference on Systems,Man and Cybernetics,2003:4147-4152.
[15] 茅正沖,王正創(chuàng),黃芳,等.基于GFCC與RLS的說話人識別抗噪系統(tǒng)研究[J].計算機工程與應用,2015(10):215-218.
[16] 胡峰松,曹孝玉.基于Gammatone濾波器組的聽覺特征提取[J].計算機工程,2012,38(21):168-172.
A SPEAKER RECOGNITION ANTI-NOISE ALGORITHM BASED ON EMD AND RLS
Mao ZhengchongGong Xi
(KeyLaboratoryofAdvancedProcessControlforLightIndustry,MinistryofEducation,JiangnanUniversity,Wuxi214122,Jiangsu,China)
AbstractSpeech signal is a kind of typical non-stationary signal. In order to analyse the non-stationary characteristic of speech signal, in the paper we present a speech signal denoising pre-processor, which is based on the combination of empirical mode decomposition (EMD) and recursive least-squares (RLS) adaptive filter, and further improves SNR and speech intelligibility of signals. Then through Gammatone filter bank it deals with the denoised speech signals, and extracts the feature parameters GFCC of speaker speech signals. We conduct the simulation experiment in Gaussian mixture model recognition system. Experimental results show that applying the algorithm in speaker recognition anti-noise system, the recognition rate and robustness of the system are all obviously improved.
KeywordsAnti-noise systemEMDRLSRecognition rate
收稿日期:2014-11-25。國家自然科學基金項目(60973095);江蘇省自然科學基金項目(BK20131107)。茅正沖,副教授,主研領域:機器人視聽覺識別。龔熙,碩士生。
中圖分類號TP391.4
文獻標識碼A
DOI:10.3969/j.issn.1000-386x.2016.05.058