鄧 蕾,高 勇
(四川大學(xué) 電子信息學(xué)院,成都 610065)
彎折濾波器在說話人識別的魯棒特征提取中的應(yīng)用①
鄧 蕾,高 勇
(四川大學(xué) 電子信息學(xué)院,成都 610065)
針對噪聲環(huán)境中說話人識別性能急劇下降的問題. 提出了一種用于說話人識別的魯棒特征提取的方法. 采用彎折濾波器組(Warped filter banks,WFBS)來模擬人耳聽覺特性,將立方根壓縮算法、相對譜濾波技術(shù)(RASTA)、倒譜均值方差歸一化算法(CMVN)引入到魯棒特征的提取中. 在高斯混合模型(GMM)下進(jìn)行仿真,實(shí)驗(yàn)結(jié)果表明該方法提取的特征參數(shù)在魯棒性和識別性能上均優(yōu)于MFCC特征參數(shù)和CFCC特征參數(shù).
說話人識別; 彎折濾波器組; 魯棒性
說話人識別又稱為聲紋識別,即提取語音波形中反映說話人的生理和行為特征的語音特征參數(shù)來自動確定說話人身份的技術(shù). 隨著識別技術(shù)的研究不斷深入,說話人識別在實(shí)驗(yàn)室環(huán)境中已經(jīng)能獲得較高的識別率,而在實(shí)際應(yīng)用中,由于噪聲的影響,識別性能有惡化的趨勢. 其根本原因在于噪聲的影響引起了語音的畸變,導(dǎo)致了訓(xùn)練環(huán)境和測試環(huán)境的不匹配,因此,訓(xùn)練數(shù)據(jù)所獲得的語音信息無法正確表達(dá)測試環(huán)境的數(shù)據(jù). 魯棒性語音識別的根源是為了消除噪聲引起的訓(xùn)練環(huán)境和測試環(huán)境之間的不匹配. 解決魯棒性語音識別問題的主要方法有以下四種[1]: 1) 抗噪特征參數(shù)提取: 尋求對噪聲不敏感的語音特征. 2) 人耳聽覺特性研究: 人耳的聽覺特性有較強(qiáng)的噪聲魯棒性. 3) 語音增強(qiáng): 從帶噪語音中恢復(fù)出干凈語音,消除噪聲的影響,增強(qiáng)語音. 4) 模型補(bǔ)償: 根據(jù)環(huán)境噪聲特性,對純凈語音模型的參數(shù)進(jìn)行修正,補(bǔ)償訓(xùn)練和測試環(huán)境間的不匹配. 本文主要研究抗噪特征參數(shù)的提取方法.
人耳具有較強(qiáng)的噪聲魯棒性,在低信噪比條件下具有較好的識別能力. 耳蝸是人耳聽覺系統(tǒng)的重要器官,耳蝸內(nèi)有一個重要的部分叫基底膜,其作用相當(dāng)于一個頻譜分析儀,它能夠把傳入人耳的聲信號在頻域上按頻帶進(jìn)行分解,就像一個帶通濾波器組. 基底膜作為濾波器組,具有在低頻處頻率分辨率較高,高頻處頻率分辨率較低的特性[2],因此,耳蝸基底膜不同位置對應(yīng)濾波器帶寬是不一樣的; 單個濾波器的頻率響應(yīng)呈非對稱分布,特征頻率的左側(cè)斜率比較平緩,而右側(cè)斜率較為陡峭. 目前,考慮人耳聽覺特性來提取的語音特征參數(shù)主要有利用Mel濾波器組提取的Mel頻率倒譜系數(shù) (Mel frequency cepstrum coefficient,MFCC)[3]和利用耳蝸濾波器組提取的耳蝸倒譜系數(shù)(Cochlear filter cepstral coefficients,CFCC)[4]. 其中 MFCC 已部分考慮到了人耳的聽覺特性[5],MFCC在純凈語音的識別率可達(dá)到98%,但當(dāng)信噪比為-10dB的噪聲條件下,識別率下降到了5%. 不同于MFCC,CFCC是基于聽覺變換的說話人特征參數(shù),具有良好的識別效果和魯棒性. 在文獻(xiàn)[4]中,當(dāng)信噪比為 6dB時,MFCC的識別率為42.1%,而 CFCC 的識別率為 90.3%. 然而,在 white 噪聲-6dB條件下時,MFCC的識別率分別為5.8%,而CFCC識別率下降到了16.6%. Mel濾波器組和耳蝸濾波器組的頻率響應(yīng)關(guān)于中心頻率呈對稱分布,并不滿足基底膜的非對稱特性. 為了充分利用人耳的聽覺特性,Zhang X,Huang L 等人[6]利用彎折濾波器組 (Warped filter banks)提取語音特征參數(shù),然后再將特征參數(shù)運(yùn)用到語音識別中,提高了語音識別系統(tǒng)的識別率.
本文在文獻(xiàn)[6]的基礎(chǔ)上,將彎折濾波器組用于說話人識別中,并融合了以下三種技術(shù): 立方根壓縮技術(shù)[7]、相對譜濾波技術(shù)(RASTA)[8]和倒譜均值方差歸一化技術(shù)(CMVN)[9],提出了基于彎折濾波器組的C-R-CWFCC特征參數(shù).
說話人識別系統(tǒng)包括訓(xùn)練階段和識別階段[10,11]. 其系統(tǒng)框圖如圖1所示.
圖1 說話人識別系統(tǒng)框圖
訓(xùn)練階段,選取N個說話人的純凈語音,對輸入的純凈語音信號先進(jìn)行預(yù)處理,再提取N個說話人的語音特征參數(shù),并將其作為GMM模型的輸入,最后訓(xùn)練出N個說話人的GMM模型.
測試階段將N個說話人的純凈語音分別加入不同信噪比(dB)的噪聲得到帶噪語音,將每個人的帶噪語音分成M段,形成N×M段帶噪語音,將帶噪語音經(jīng)過預(yù)處理后,再提取特征參數(shù),并將其作為GMM模型輸入,訓(xùn)練出N×M個帶噪語音的說話人GMM模型,最后將訓(xùn)練階段和測試階段的GMM模型進(jìn)行匹配,輸出識別結(jié)果.
MFCC特征參數(shù)是基于Mel濾波器組的基礎(chǔ)上實(shí)現(xiàn)的,Mel濾波器組的頻率響應(yīng)如圖2所示,由圖2可以看出Mel濾波器組的頻率響應(yīng)關(guān)于中心頻率對稱,且中心頻率附近幅值較陡峭.
MFCC特征參數(shù)提取流程[3]如圖3所示.
耳蝸倒譜系數(shù) (Cochlear filter cepstral coefficients,CFCC)[12]是利用耳蝸濾波器組提取的,具有較好的識別效果和魯棒性. 耳蝸濾波器的頻率響應(yīng)如圖4所示,從圖4中可以看出,耳蝸濾波器組的頻率響應(yīng)關(guān)于中心頻率對稱.
圖2 Mel濾波器組的頻率響應(yīng)
圖3 MFCC 特征參數(shù)提取流程
圖4 耳蝸濾波器組的頻率響應(yīng)
CFCC特征參數(shù)的提取方法[4,12]如圖5所示.
圖5 CFCC 特征參數(shù)提取流程
一組m通道的均勻?yàn)V波器組[13]的傳遞函數(shù)如式(1)所示:
其中α為彎折因子,公式(4)和(5)分別給出了采用一階全通變換模擬Bark和ERB頻率尺度[14]時對應(yīng)的彎折因子.
在式 (4)和式(5)中,當(dāng)采樣頻率fs=8 kHz時,α=0.58和α=0.40分別模擬ERB頻率尺度和Bark頻率尺度. 當(dāng)α=0時,彎折濾波器組的頻率響應(yīng)則為m通道均勻?yàn)V波器組的頻率響應(yīng). 式(2)中,取h(n)為20樣點(diǎn)的漢明窗序列,M、α=0.58 和α=0.40 時,則得到分布在[0,fs]上的 36通道濾波器. 36通道彎折濾波器組的頻率響應(yīng)如圖6和圖7所示.
從圖6和圖7中可以看出,彎折濾波器的分布在低頻處比較密集,高頻處較寬松,并且濾波器的帶寬關(guān)于中心頻率是非對稱分布的,符合基底膜作為濾波器的特性.α=0.58 比α=0.40 特性更加明顯. 由于語音信號的頻率主要集中在[200,4000] Hz 范圍,因此本文在設(shè)計(jì)濾波器組時,保留了第3通道到第20通道,取18 通道濾波器組分布在[200,5500] Hz 范圍內(nèi).
圖6 彎折濾波器組的頻率響應(yīng),α=0.58
圖7 彎折濾波器組的頻率響應(yīng),α=0.40
C-R-C-WFCC特征參數(shù)的提取步驟如圖8所示.
圖8 C-R-C-WFCC 特征參數(shù)提取過程
Step 1. 將語音信號預(yù)處理之后得到一幀幀的語音信號,用表示xw(n). 將xw(n)進(jìn)行FFT(快速傅里葉變換)后得到信號頻譜X(k).
Step 2. 對X(k)取平方得到短時能量譜,然后用 WFBS濾波器組濾波處理,濾波器的輸出如式(6)所示:
Step 4. 對所有濾波器輸出經(jīng)過立方根壓縮后,再經(jīng)DCT(離散余弦變換)得到倒譜,其計(jì)算公式如下:
其中,M為特征參數(shù)的維數(shù);p為濾波器的個數(shù).
Step 5. 對上一步輸出進(jìn)行 RASTA 濾波. 將RASTA濾波技術(shù)用于特征參數(shù)提取過程中,不僅可以參數(shù)的識別率,還可以使參數(shù)具有較高的穩(wěn)健性. 它的傳輸函數(shù)為:
進(jìn)行RASTA濾波. 其計(jì)算公式如下:
Step 7. 最后將進(jìn)行 CMVN(倒譜均值方差歸一化)得到特征參數(shù)C-R-C-WFCC.
本文采用18通道的彎折濾波器組,進(jìn)行語音特征參數(shù)的提取(以下簡稱為C-R-C-WFCC特征參數(shù)). 當(dāng)采樣頻率fs=8 kHz 時,α=0.58 和α=0.40. 本文采用的分類器模型為高斯混合模型(GMM)[15].
語料庫為不含噪聲的普通話語音數(shù)據(jù)庫(采樣頻率fs=8 kHz),從中選取 36 人 (男 22 人,女 14 人),每個說話人包含大約 1 min 的語句,作為訓(xùn)練語音,共36 條. 測試階段每個人包含 5 條 5 s的語句,作為測試語音,共 180 條.
實(shí)驗(yàn)1. 測試C-R-C-WFCC特征參數(shù)在純凈語音條件下的有效性.
為了驗(yàn)證本文提取的特征參數(shù)在純凈語音條件下對說話人識別的有效性,將本文提取的特征參數(shù)在α=0.58和α=0.40的條件下進(jìn)行測試. GMM混合度分別選取8階、16階、32階和64階.
實(shí)驗(yàn)2. 測試C-R-C-WFCC特征參數(shù)的抗噪聲能力.
為了測試本文提出的C-R-C-WFCC特征參數(shù)的抗噪聲能力. 實(shí)驗(yàn)2將C-R-C-WFCC特征參數(shù)與MFCC特征參數(shù)和CFCC特征參數(shù)在同等噪聲條件下得出識別結(jié)果. 采用noise-92標(biāo)準(zhǔn)噪聲庫. 分別在f16 座艙噪聲 (f-16 cockpit noise)、白噪聲 (white noise)和粉紅噪聲 (pink noise)條件下進(jìn)行實(shí)驗(yàn). 含噪語音的信噪比 (SNR)分別為-10 dB、-5 dB、0 dB、5 dB、10 dB. 實(shí)驗(yàn)2的GMM混合度為64階.
本文將彎折濾波器用于C-R-C-WFCC語音特征參數(shù)提取過程,在α=0.58和α=0.40兩個不同的彎折因子上得出了對應(yīng)的識別效果.
實(shí)驗(yàn)1的識別率見圖9. 從圖9中可得知,在純凈語音條件下,當(dāng)α=0.40時,系統(tǒng)的識別率總體上要高于α=0.58. 同時,從圖9 中可看出當(dāng)α=0.58 時,識別率僅在GMM混合度為32階時識別率能達(dá)到95.56%,在GMM混合度為8階、16階、32階和64階時識別率呈降低趨勢,由此可得知,當(dāng)α=0.58 時,GMM 混合度的階數(shù)對識別率有較大的影響. 然而,當(dāng)α=0.40時,識別率在GMM混合度為8階、16階、32階和64階的條件下具有相同的識別率,在GMM混合度為64階的條件下,識別率高達(dá)96.11%.
圖9 純凈語音條件下,不同 GMM 混合度系統(tǒng)識率
實(shí)驗(yàn)2的識別結(jié)果見圖10~圖12. 從圖10~圖12中可以看出,在三種不同的噪聲環(huán)境下,本文所提取的C-R-C-WFCC特征參數(shù)隨著信噪比的增加而升高. 在不同α的值條件下,系統(tǒng)識別率差異并不大. 如圖10中,系統(tǒng)識別率僅在信噪比為-10 dB至-5 dB 有低于2%的差異. 隨著信噪比的升高,C-R-C-WFCC特征參數(shù)的識別率均高于MFCC特征參數(shù)和CFCC特征參數(shù). 實(shí)驗(yàn)結(jié)果表明,本文提出的特征參數(shù)具有更強(qiáng)的抗噪聲能力.
圖10 white 噪聲識別結(jié)果
圖11 pink 噪聲識別結(jié)果
本文將彎折濾波器組用于說話人特征提取過程,并引入了立方根壓縮、RASTA濾波、倒譜均值方差歸一化(CMVN)3種技術(shù),得出了不同彎折因子α對應(yīng)的識別效果. 實(shí)驗(yàn)仿真結(jié)果表明,在純凈語音條件下,彎折因子α=0.40的總體識別效果比α=0.58更好; 在噪聲條件下,本文提出的C-R-C-WFCC特征參數(shù)具有較好的識別效果,均高于MFCC特征參數(shù)和CFCC特征參數(shù),且彎折因子α=0.58和α=0.40的識別效果相差不大. 然而彎折因子并不是影響實(shí)驗(yàn)結(jié)果的唯一因素,濾波器的通道個數(shù)也是影響實(shí)驗(yàn)結(jié)果的重要因素. 在將來的實(shí)驗(yàn)中將致力于這方面的研究.
圖12 f16噪聲識別結(jié)果
1Jin Q. Robust speaker recognition[Ph. D. thesis]. Pittsburgh:Carnegie Mellon University,2007: 276–279.
2曹龍濤,李如瑋,鮑長春,等. 基于噪聲估計(jì)的二值掩蔽語音增強(qiáng)算法. 計(jì)算機(jī)工程與應(yīng)用,2015,(17): 222–227. [doi:10.3778/j.issn.1002-8331.1312-0396]
3Muda L,Begam M,Elamvazuthi I. Voice recognition algorithms using mel frequency cepstral coefficient (MFCC)and dynamic time warping (DTW) techniques. Journal of Computing,2010,2(3): 138–143.
4Li Q,Huang Y. An auditory-based feature extraction algorithm for robust speaker identification under mismatched conditions. IEEE Trans. on Audio,Speech,and Language Processing,2011,19(6): 1791–1801.
5Li L,An D,Zhao D,et al. TEO-CFCC characteristic parameter extraction method for speaker recognition in noisy environments. Przeglad Elektrotechniczny,2013,89(2):118–121.
6Zhang XY,Huang LX,Evangelista G. Warped filter banks used in noisy speech recognition. Proc. of the 2009 Fourth International Conference on Innovative Computing,Information and Control. Kaohsiung,China. 2009.1385–1388.
7Jawarkar NP,Holambe RS,Basu TK. Effect of nonlinear compression function on the performance of the speaker identification system under noisy conditions. Proc. of the 2nd International Conference on Perception and Machine Intelligence. Kolkata,West Bengal,India. 2015. 137–144.
8Nidhyananthan SS,Kumari RSS. Text independent voice based students attendance system under noisy environment using RASTA-MFCC feature. Proc. of the International Conference on Communication and Network Technologies.Sivakasi,India. 2014. 182–187.
9Prasad NV,Umesh S. Improved cepstral mean and variance normalization using Bayesian framework. Proc. of 2013 IEEE Workshop on Automatic Speech Recognition and Understanding. Olomouc,Czech Republic. 2013. 156–161.
10Geng Y,Liang RZ,Li W,et al. Learning convolutional neural network to maximize Pos@Top performance measure. Computer Vision and Pattern Recognition. arXiv:1609.08417. 2017.
11Li QF,Zhou XF,Gu AH,et al. Nuclear norm regularized convolutional Max Pos@Top machine. Neural Computing &Applications,2016: 1–10. [doi: 10.1007/s00521-016-2680-2]
12Raikar A,Gandhi A,Patil HA. Combining evidences from mel cepstral and cochlear cepstral features for speaker recognition using whispered speech. Král P,Matou?ek V.Text,Speech,and Dialogue. Cham,Germany. 2015.405–413.
13黃麗霞. 非特定人魯棒性語音識別中前端濾波器的研究[博士學(xué)位論文]. 太原: 太原理工大學(xué),2011.
14Chavan MS,Chougule SV. Speaker identification in mismatch condition using warped filter bank features.International Journal of Circuits,Systems and Signal Processing,2015,9: 88–93.
15Chakroun R,Zouari LB,Frikha M. An improved approach for text-independent speaker recognition. International Journal of Advanced Computer Science and Applications,2016,7(8): 343–348.
Warped Filter Banks Applied in Robust Feature Extraction Method for Speaker Recognition
DENG Lei,GAO Yong
(College of Electronics and Information Engineering,Sichuan University,Chengdu 610065,China)
The performance of the speaker recognition system degrades drastically in the noisy environment. A robust feature extraction method for speaker recognition is proposed in this paper. Warped filter banks(WFBS) are used to simulate the human auditory characteristics. The cubic root compression method,relative spectral filtering technique(RASTA) and the cepstral mean and variance normalization algorithm(CMVN) are introduced into the robust feature extraction. Subsequently,simulation experiment is conducted based on Gaussian mixes model(GMM). The experimental results indicate that the proposed feature has better robustness and recognition performance than the mel cepstral coefficients(MFCC) and cochlear filter cepstral coefficients(CFCC).
speaker recognition; warped filter banks; robustness
鄧?yán)?高勇.彎折濾波器在說話人識別的魯棒特征提取中的應(yīng)用.計(jì)算機(jī)系統(tǒng)應(yīng)用,2017,26(12):227–232. http://www.c-s-a.org.cn/1003-3254/6106.html
2017-03-13; 修改時間: 2017-04-05; 采用時間: 2017-04-07