李 昕, 李 為, 游寒旭, 朱 杰
(上海交通大學(xué) 電子信息與電氣工程學(xué)院,上海 200240)
?
含語音增強(qiáng)模塊的i-向量說話人識別性能分析
李昕, 李為, 游寒旭, 朱杰
(上海交通大學(xué) 電子信息與電氣工程學(xué)院,上海 200240)
摘要:為解決文本無關(guān)說話人識別中訓(xùn)練與識別環(huán)境不同導(dǎo)致模式失配的問題,提出了一種采用語音增強(qiáng)模塊進(jìn)行前端預(yù)處理的i-向量說話人識別系統(tǒng),從而提高系統(tǒng)對于環(huán)境噪聲的魯棒性.為評估不同語音增強(qiáng)算法的性能,利用NIST08核心測試集進(jìn)行仿真實(shí)驗(yàn).采用IMCRA算法對語音進(jìn)行噪聲估計(jì)后,分別用維納濾波法、MMSE-LSA、傳統(tǒng)譜減法和多頻帶譜減法等4種方法進(jìn)行語音增強(qiáng)前端處理,在基于i-向量的說話人識別系統(tǒng)下進(jìn)行實(shí)驗(yàn).實(shí)驗(yàn)結(jié)果表明采用了語音增強(qiáng)的系統(tǒng)具有一定抗噪聲性能,并且在高信噪比條件下,基于多頻帶的譜減法在此系統(tǒng)下性能最佳,而低信噪比情況下MMSE-LSA算法更有優(yōu)勢.
關(guān)鍵詞:說話人識別; i-向量; 語音增強(qiáng); 維納濾波; MMSE; 譜減法
0引言
說話人識別是一種生物識別技術(shù),通過特定說話人的語音信號來對其身份進(jìn)行識別,可以作為一種身份認(rèn)證方式,應(yīng)用于網(wǎng)絡(luò)安全、電話偵聽和司法鑒定等領(lǐng)域,具有廣泛的應(yīng)用前景,并且每兩年美國國家標(biāo)準(zhǔn)技術(shù)署(NIST)通過舉辦NIST說話人識別評測,對當(dāng)前國際上說話人識別的技術(shù)水平進(jìn)行評估.該技術(shù)主要通過對語音信號進(jìn)行分析、提取特征向量后進(jìn)行數(shù)學(xué)建模來實(shí)現(xiàn),早期的說話人識別模型有動態(tài)時間彎折(DTW)、矢量量化(VQ)[1]等,而近年來在評測中表現(xiàn)更好的則是以高斯混合模型(GMM)為基礎(chǔ)的GMM-UBM(Universal Background Model)[2],以及利用GMM超向量進(jìn)行估計(jì)建模的聯(lián)合因子分析(JFA)[3]和i-向量[4]模型,并輔以類內(nèi)協(xié)方差規(guī)整(WCCN)[5]、概率線性判別分析(PLDA)[6]等信道補(bǔ)償方法,說話人識別系統(tǒng)的性能在一定的環(huán)境條件下,基本可以達(dá)到實(shí)際應(yīng)用要求.
然而在實(shí)際應(yīng)用環(huán)境中,由于外界的噪聲干擾存在,語音質(zhì)量大大降低,會導(dǎo)致識別準(zhǔn)確率受到影響,尤其是在訓(xùn)練和識別的噪聲環(huán)境不匹配的情況下,系統(tǒng)的性能更會顯著降低.為了改善說話人識別系統(tǒng)對噪聲的魯棒性,可以通過語音增強(qiáng)方法消除語音中的噪聲,還原被噪聲破壞的特征向量從而改善說話人識別系統(tǒng)在噪聲失配情況下的識別性能.
通常在說話人識別系統(tǒng)中并不采用語音增強(qiáng)模塊,一方面由于實(shí)驗(yàn)用的測試語料都是干凈語料,一般不包含有噪聲,因而處理時無需考慮該問題.另一方面由于說話人識別技術(shù)的特性,其對語音處理帶來的信號失真十分敏感,如果語音增強(qiáng)算法不能保持語音中說話人的個性特征,整體系統(tǒng)的性能反而會下降.為得到最佳的抗噪聲說話人識別系統(tǒng),對各種語音增強(qiáng)算法在識別系統(tǒng)中的應(yīng)用效果進(jìn)行評估,本文作者選擇基于最小均方誤差準(zhǔn)則和譜減法的兩種語音增強(qiáng)方法及其相應(yīng)改進(jìn)算法,在不同噪聲強(qiáng)度下進(jìn)行測試,得到其對系統(tǒng)識別準(zhǔn)確率改善情況的分析和結(jié)論,為實(shí)際環(huán)境下的系統(tǒng)實(shí)現(xiàn)提供理論依據(jù).
1系統(tǒng)組成
抗噪聲說話人識別的整體系統(tǒng)框圖如圖1所示.
圖1 說話人識別系統(tǒng)框圖
在一般的說話人識別系統(tǒng)前端加入語音增強(qiáng)預(yù)處理模塊后,進(jìn)行Mel-scale Frequency Cepstral Coefficients(MFCC)特征提取,之后分別利用訓(xùn)練和識別語音的特征參數(shù)提取i-向量說話人模型,將兩個模型比較計(jì)算得分,最終得到拒絕或接受的判決結(jié)果,下面主要就語音增強(qiáng)、i-向量說話人模型和判決模塊進(jìn)行闡述.
2語音增強(qiáng)
含噪聲的語音信號y(t)可表示為:
(1)
其中s(t)為純凈語音信號,n(t)為加性噪聲,語音增強(qiáng)的目的就是從帶噪信號y(t)中恢復(fù)原信號s(t),算法由噪聲估計(jì)和語音增強(qiáng)兩個主要部分組成.由于假設(shè)語音為短時平穩(wěn)信號,通常將語音分幀后在頻域內(nèi)對帶噪信號幅度譜或功率譜進(jìn)行恢復(fù).
2.1噪聲估計(jì)
單通道語音增強(qiáng)方法需要利用噪聲特性參數(shù),在沒有先驗(yàn)知識的條件下,噪聲的功率譜需要從帶噪語音中獲得,因而準(zhǔn)確的噪聲估計(jì)算法是提高語音增強(qiáng)效果的關(guān)鍵環(huán)節(jié).傳統(tǒng)的噪聲估計(jì)通過語音活性檢測(VAD)檢測噪聲段,對其功率譜進(jìn)行最優(yōu)平滑,得到最終噪聲估計(jì)值,但其對非平穩(wěn)噪聲效果不佳,無法及時跟蹤噪聲能量的變化.因而采用Cohen[7]提出的改進(jìn)最小控制遞歸平均算法(IMCRA)進(jìn)行噪聲估計(jì),在計(jì)算語音出現(xiàn)概率的基礎(chǔ)上,通過2次平滑和最小值統(tǒng)計(jì)來估計(jì)噪聲功率譜.
2.2語音增強(qiáng)
根據(jù)估計(jì)的噪聲結(jié)果,可以通過多種方式計(jì)算純凈語音的估計(jì).為尋求最合適的語音增強(qiáng)方法,從維納濾波法、最小均方誤差(MMSE-LSA)、傳統(tǒng)譜減法和多頻帶譜減法4種方法中進(jìn)行選擇,通過仿真實(shí)驗(yàn)分析各算法的優(yōu)劣.
2.2.1維納濾波法
維納濾波算法是首先通過對先驗(yàn)信噪比進(jìn)行估計(jì),基于最小均方誤差(MMSE)的判別方法得出譜增益函數(shù)后,最后根據(jù)式(2)得到純凈語音信號頻譜的估計(jì):
(2)
其中ξk,γk分別為先驗(yàn)和后驗(yàn)信噪比,Sk(ω)為純凈語音頻譜,Yk(ω)為帶噪語音頻譜,Gk(ξk,γk)為譜增益函數(shù),由先驗(yàn)信噪比計(jì)算得出:
(3)
估計(jì)先驗(yàn)信噪比可以通過Ephraim和Malah[8]提出的“直接判決法”(decision-directed)得到:
(4)
2.2.2MMSE-LSA
MMSE-LSA是維納濾波的改進(jìn)算法,在對數(shù)譜幅度域中進(jìn)行最小均方誤差估計(jì),得到新的譜增益函數(shù),其中v定義為v?ξkγk/(1+ξk):
(5)
在此方法中,采用Cohen在2004年提出的無關(guān)聯(lián)估計(jì)器對先驗(yàn)信噪比進(jìn)行估計(jì),此估計(jì)方法相比于直接判決法能更快速地跟蹤噪聲水平的突變,并且估計(jì)結(jié)果更為平滑,從而降低語音增強(qiáng)帶來的音樂噪聲,詳細(xì)的估計(jì)算法參考文獻(xiàn)[9].
2.2.3傳統(tǒng)譜減法[10]
譜減法是通過對帶噪語音功率譜減去估計(jì)的噪聲功率譜來達(dá)到語音增強(qiáng)的效果,基本公式如下:
(6)
其中a是過減因子,b是譜減系數(shù),過減因子a通過后驗(yàn)信噪比進(jìn)行自適應(yīng)的調(diào)整,實(shí)驗(yàn)中a的調(diào)整范圍取1~3,b取0.002.譜減法的優(yōu)勢在于實(shí)現(xiàn)十分簡單快速,適合實(shí)時語音增強(qiáng),然而傳統(tǒng)的譜減法缺少對語音頻譜特性進(jìn)行分析假設(shè),因而處理后會對語音的可懂度損傷較大,并且由于頻譜相減使處理后的語音中產(chǎn)生一種具有節(jié)奏感的殘余噪聲,稱為音樂噪聲,對語音的聽覺效果影響很大,因而常采用非線性譜減法降低語音失真度并去除音樂噪聲.
2.2.4多頻帶譜減法
考慮到噪聲的頻譜在整個頻域上不均勻分布,多頻帶譜減法將頻率劃分為N個頻帶,對每個子頻帶計(jì)算后驗(yàn)信噪比SNRk,以此為基礎(chǔ)調(diào)整過減因子a,并添加控制因子δ以調(diào)整不同頻段的系數(shù),算法公式如下:
(7)
過減因子和控制因子的自適應(yīng)調(diào)整方法分別表示為:
(8)
(9)
頻帶的劃分也有多種方式,經(jīng)實(shí)驗(yàn)驗(yàn)證,按照Bark域進(jìn)行頻帶劃分的方法要優(yōu)于線性劃分方法[11],因而采用Bark帶方式劃分頻帶.
3i-向量說話人模型
i-向量是近年來主流的文本無關(guān)說話人建模方法,其基本思想源自JFA中對信道和說話人的子空間估計(jì).Dehak提出的i-向量是利用一個全局變化子空間(Total Variability Space)來表征以上兩種特征,其基本假設(shè)是將說話人的GMM超向量表示為:
(10)
其中m是與說話人和信道無關(guān)的超向量,通常使用UBM的超向量表示,而T是一個低秩的表征全局變化子空間的矩陣,ω是標(biāo)準(zhǔn)正態(tài)分布的向量,表征特定說話人在全局變化子空間內(nèi)的全局因子,因其作為表征說話人身份的矢量(identityvector),所以簡稱為i-向量.由式(10)可以看出,該建模方式的關(guān)鍵在于對全局變化矩陣T的估計(jì),該矩陣起到對GMM超向量進(jìn)行降維,同時加強(qiáng)對不同說話人和信道之間的區(qū)分性的作用.
全局變化矩陣是通過大量不同說話人語料進(jìn)行估計(jì)的,基本思想與JFA中對說話人子空間和信道子空間的估計(jì)相同,通過EM算法對矩陣參數(shù)進(jìn)行迭代計(jì)算,但i-向量將說話人和信道特征作為整體,將同一說話人在不同信道下的語段分別估計(jì),因而不需要對說話人進(jìn)行標(biāo)記.在得到了全局變化矩陣后,便可從語音特征向量中得到對應(yīng)的i-向量.詳細(xì)的T估計(jì)算法和i-向量提取方法可參考文獻(xiàn)[4].
4判決模塊
系統(tǒng)的判決方式采用余弦距離得分[12]的方式,通過計(jì)算分別從訓(xùn)練和識別語音中提取的i-向量之間的余弦距離,并與固定閾值θ進(jìn)行比較得出拒絕或接受的判定結(jié)果.余弦距離由式(11)所示:
(11)
該判決方法是一種對稱式的核函數(shù)分類器,通過歸一化消除了矢量幅度變化的影響,實(shí)現(xiàn)快速簡單,在此系統(tǒng)中能達(dá)到與SVM媲美的分類性能.
5測試實(shí)驗(yàn)與性能分析
采用NIST08的核心測試集short2-short3作為測試語料進(jìn)行實(shí)驗(yàn),僅取男性語料進(jìn)行測試,由290段訓(xùn)練語料和344段識別語料組成共3256個測試.為仿真噪聲失配環(huán)境,設(shè)計(jì)的系統(tǒng)在訓(xùn)練端采用原始語音,識別端分別加入不同信噪比的白噪聲.說話人識別系統(tǒng)采用MFCC特征提取方式,語音分幀的參數(shù)為每幀長20ms,幀移10ms,提取20維倒譜系數(shù),加上一階和二階差分共60維作為特征參數(shù),之后用VAD去除非語音幀,用倒譜均值減(CMS)進(jìn)行特征規(guī)整作為最終的特征參數(shù).模型參數(shù)方面,GMM混合數(shù)為512,i-向量維數(shù)為400,UBM和T用NIST06和08剩余的語料進(jìn)行訓(xùn)練得到.在此基線系統(tǒng)中加入語音增強(qiáng)算法,分別用上述4種語音增強(qiáng)算法對語音進(jìn)行預(yù)處理后再進(jìn)行說話人識別,得到各噪聲條件下的系統(tǒng)等錯誤率(EER)如表1所示.從表1中可以看出,在無噪聲的情況下,i-向量說話人識別系統(tǒng)的EER為2.63%,基本可以滿足實(shí)際應(yīng)用的要求.而在噪聲失配的情況下,系統(tǒng)的識別性能顯著降低,并且隨著信噪比的降低,系統(tǒng)整體識別率也成比例地下降.隨著語音增強(qiáng)前端處理算法的引入,系統(tǒng)的識別性能能夠得到一定的改善,然而不同的語音增強(qiáng)算法帶來的效果也不盡相同.在信噪比相對較高時,即5dB情況下,無增強(qiáng)的系統(tǒng)惡化到18.86%,而加了多頻帶譜減法增強(qiáng)模塊后,可以達(dá)到15.32%,盡管還很不理想,但也改善了3.54%的EER.而隨著噪聲能量的不斷增大,噪聲估計(jì)的準(zhǔn)確率下降,導(dǎo)致以譜減法為基礎(chǔ)的語音增強(qiáng)算法效果愈發(fā)下降,而以最小均方誤差準(zhǔn)則的增強(qiáng)方法由于考慮到語音的分布情況,使得抗噪聲效果愈發(fā)明顯,在低信噪比為-5dB條件下,MMSE-LSA算法比起其他算法,有較顯著的性能提升,與無增強(qiáng)系統(tǒng)相比,可以降低6.14%的EER.同時值得注意的是,傳統(tǒng)譜減法由于在語音增強(qiáng)的同時引入了較強(qiáng)的殘留音樂噪聲,并且由于過減因子沒有自適應(yīng)變化而導(dǎo)致一定的語音失真,其識別率反而比不使用增強(qiáng)算法的系統(tǒng)更低,說明語音增強(qiáng)算法應(yīng)謹(jǐn)慎選擇,否則會使系統(tǒng)性能進(jìn)一步退化.
表1 噪聲環(huán)境下各語音增強(qiáng)算法識別結(jié)果
6結(jié)論
本文作者針對噪聲失配環(huán)境下的說話人識別,利用語音增強(qiáng)模塊結(jié)合i-向量說話人模型來改善系統(tǒng)整體性能,同時對常用的四種語音增強(qiáng)算法在系統(tǒng)中的表現(xiàn)進(jìn)行實(shí)驗(yàn)評估,以求找到最佳的前端處理算法.從實(shí)驗(yàn)結(jié)果來看,合適的語音增強(qiáng)算法確實(shí)可以改善說話人識別系統(tǒng)的性能,但必需根據(jù)不同的信噪比情況有針對性地選擇.實(shí)驗(yàn)結(jié)果表明,在多頻帶譜減法和MMSE-LSA兩種算法中如果能根據(jù)具體環(huán)境合理使用,可以獲得較佳的系統(tǒng)抗噪聲性能.
參考文獻(xiàn):
[1]Zhang Q.Research on target speaker identification system under noise environment [D].Wuhan:Wuhan Textile University,2012.
[2]Togneri R,Pullella D.An overview of speaker identification:Accuracy and robustness issues [J].Circuits and Systems Magazine IEEE,2011,11(2):23-61.
[3]Kenny P.Joint factor analysis of speaker and session variability:Theory and algorithms [R].Montreal:CRIM,2005.
[4]Dehak N,Kenny P,Dehak R,et al.Front-end factor analysis for speaker verification [J].Audio,Speech,and Language Processing,IEEE Transactions on,2011,19(4):788-798.
[5]Hatch A O,Kajarekar S S,Stolcke A.Within-class covariance normalization for SVM-based speaker recognition [C]//DBLP.INTERSPEECH 2006 and 9th International Conference on Spoken Language Processing-ICSLP.Pittsburgh:DBLP,2006.
[6]Kenny P.Bayesian Speaker Verification with Heavy-Tailed Priors [C]//ISCA.Proceedings of the Odyssey Speaker and Language Recognition Workshop.Bruno:ISCA,2010.
[7]Cohen I.Noise spectrum estimation in adverse environments:Improved minima controlled recursive averaging [J].Speech and Audio Processing IEEE Transactions on,2003,11(5):466-475.
[8]Ephraim Y.A minimum mean square error approach for speech enhancement [C]//IEEE.Acoustics Speech and Signal Processing.Albuquerque:IEEE,1990.
[9]Cohen I.Speech enhancement using a noncausal a priori SNR estimator [J].Signal Processing Letters,IEEE,2004,11(9):725-728.
[10]Berouti M,Schwartz R,Makhoul J.Enhancement of speech corrupted by acoustic noise [C]//IEEE.Acoustics Speech and Signal Processing IEEE International Conference on ICASSP′79.Washington,D.C:IEEE,1979.
[11]Cheng Z,Zhao H M.Speech enhancement based on spectral subtraction of multi-band scale [J].Computer Engineering and Applications,2007,43(36):40-42.
[12]Dehak N,Dehak R,Glass J R,et al.Cosine Similarity Scoring without Score Normalization Techniques [C]//Deleon P,Pucher M,Yamagishi J.Proceedings of the Odyssey Speaker and Language Recognition Workshop,Brno:Odessey,2010.
(責(zé)任編輯:包震宇)
Speech enhancement ini-vector speaker verification system
LI Xin,LI Wei, YOU Hanxu, ZHU Jie
(School of Electronic Information and Electrical Engineering,Shanghai Jiao Tong University,Shanghai 200240,China)
Abstract:To solve the model-mismatch problem in text-independent speaker verification system when training environment differs from recognition environment,We propose a i-vector speaker verification system using speech enhancement in front-end preprocessing it can improve the system robustness to additive noise.To estimate the performance of different speech enhancement methods,we used NIST08 core test set in the experiment.Four speech enhancement methods,including wiener filtering,MMSE-LSA,traditional spectral subtraction and multi-band spectral subtraction,combining with IMCRA noise estimation,were evaluated in the speaker verification system based on i-vector.The result shows the proposed system with speech enhancement had some improvement in noise environment and that multi-band spectral subtraction method performed the best when SNR was relatively high and MMSE-LSA performed the best when SNR was low.
Key words:speaker verification; i-vector; speech enhancement; wiener filtering; MMSE; spectral subtraction method
中圖分類號:TN 912.32
文獻(xiàn)標(biāo)志碼:A
文章編號:1000-5137(2016)02-0237-06
通信作者:朱杰,中國上海市閔行區(qū)東川路800號,上海交通大學(xué)電子信息與電氣工程學(xué)院,郵編:200240,E-mail:zhujie@sjtu.edu.cn
基金項(xiàng)目:國家自然科學(xué)基金(61271349,61371147,11433002);上海交通大學(xué)醫(yī)工合作基金(YG2012ZD04)
收稿日期:2016-02-29