唐宗渤王茂蓉周 萍
(1.桂林電子科技大學(xué)信息科技學(xué)院,廣西 桂林 541004;2.桂林電子科技大學(xué)電子工程與自動(dòng)化學(xué)院,廣西 桂林 541004)
基于相關(guān)距離Fisher比的混合參數(shù)用于說話人識(shí)別
唐宗渤1王茂蓉2周 萍2
(1.桂林電子科技大學(xué)信息科技學(xué)院,廣西 桂林 541004;2.桂林電子科技大學(xué)電子工程與自動(dòng)化學(xué)院,廣西 桂林 541004)
為了得到更具區(qū)分性的特征參數(shù),采用改進(jìn)的MFCC提取方法,即低方差性的多窗譜估計(jì)MFCC,并在其基礎(chǔ)上引入了短時(shí)TEO能量和 MFCCΔ動(dòng)態(tài)特征參量組合特征進(jìn)行說話人識(shí)別。由于直接將兩者進(jìn)行組合會(huì)造成維度過高,計(jì)算復(fù)雜度增加,為此提出了相關(guān)距離Fisher比來對(duì)特征參數(shù)進(jìn)行加權(quán)和維度篩選,最后送入GMM-UBM分類器模型進(jìn)行識(shí)別。實(shí)驗(yàn)表明,改進(jìn)的混合特征參數(shù)相較于單一的特征參量,具備更好的識(shí)別能力,使得識(shí)別率有一定程度的提高。
說話人識(shí)別;多窗譜MFCC;相關(guān)距離Fisher比;TEO;混合特征
說話人識(shí)別系統(tǒng)已經(jīng)在社會(huì)各個(gè)領(lǐng)域得到了廣泛的應(yīng)用,如司法偵查、電子商務(wù)和金融等領(lǐng)域,是國內(nèi)外研究的熱點(diǎn),其發(fā)展已比較成熟,但如何進(jìn)一步提高說話人識(shí)別率是語音識(shí)別領(lǐng)域一個(gè)熱門課題。目前最常見的特征參數(shù)有MFCC參數(shù)、LPC參數(shù)、LPCC參數(shù)、HHT倒譜系數(shù)、基因頻率等[1]。
其中MFCC反映人對(duì)語音的感知特性,相對(duì)于其它特征具有強(qiáng)抗噪性,高識(shí)別率的特點(diǎn),已成為說話人識(shí)別領(lǐng)域應(yīng)用最為廣泛的特征參數(shù)。但MFCC也存在一些不足,如實(shí)時(shí)性不夠理想,高方差性的缺點(diǎn),對(duì)此,許多研究者在對(duì)MFCC的提取方法上進(jìn)行改進(jìn),文獻(xiàn)[2]提出用觀察性的多窗譜估計(jì)來代替?zhèn)鹘y(tǒng)的提取 MFCC算法中的單級(jí)窗和離散傅里葉變換,使得系統(tǒng)具有更好的系統(tǒng)魯棒性。文獻(xiàn)[3]首先對(duì)MFCC特征參數(shù)進(jìn)行研究,求取其差分和加權(quán)Mel系數(shù),將它們進(jìn)行維度篩選和擴(kuò)張,得到混合特征參數(shù),使得系統(tǒng)的魯棒性得到提高,但其運(yùn)算量過大,因此,本文提出的改進(jìn)算法是在多窗譜MFCC的基礎(chǔ)上加入短時(shí)TEO能量,來提取EMFCC和一階差分 MFCC。由于簡單的將兩者進(jìn)項(xiàng)組合會(huì)帶來大量的冗余信息,達(dá)不到預(yù)期的效果,反而會(huì)增加系統(tǒng)的運(yùn)算開銷,故本文提出使用相關(guān)距離Fisher比,相比于傳統(tǒng)的Fisher比只能反映每維參數(shù)對(duì)識(shí)別系統(tǒng)的貢獻(xiàn)大小,該算法將每維參量間的相關(guān)性考慮進(jìn)去,選出可分程度相對(duì)較大的分量,進(jìn)行加權(quán)降維,組成新的混合參數(shù)。通過實(shí)驗(yàn)驗(yàn)證,該混合特征提高了系統(tǒng)的整體識(shí)別性能。
特征參數(shù)的選取影響系統(tǒng)識(shí)別的好壞,本文利用多窗譜提取 MFCC,并加入 TEO能量,然后提取出 EMFCC、ΔMFCC ,利用相關(guān)距離Fisher比來對(duì)其進(jìn)行降維,然后對(duì)說話人識(shí)別貢獻(xiàn)大的參量加以相對(duì)較大的權(quán)重系數(shù),構(gòu)造出混合特征參量。相比于傳統(tǒng)的 MFCC,本文所提算法將表征語音信號(hào)時(shí)域特征的一階差分MFCC和反映語音信號(hào)能量特征的 EMFCC相結(jié)合,得到更能完整描述說話者個(gè)性特征的混合參數(shù)。又由于特征參數(shù)的維數(shù)越多,計(jì)算量就越大,相比于文獻(xiàn)[3]將差分和加權(quán)Mel系數(shù)組合得到17維的特征參量,而我們所求的混合參數(shù)是12維的,使得系統(tǒng)識(shí)別性能提高的同時(shí)大大降低了計(jì)算復(fù)雜度。綜上,本文所提方法理論上是有效的。
1.1 多窗譜MFCC
文獻(xiàn)[10]等提出Mel倒譜系數(shù),能夠很好地描述語音信號(hào)的頻率特性。利用Mel三角濾波器組提取MFCC特征參數(shù)。其中,MFCC特征參數(shù)是在Mel頻率尺度上提取出來的,兩者之間的轉(zhuǎn)關(guān)系換如(1)式所示,
式中:f為頻率,單位為Hz。
首先用一階數(shù)字濾波器對(duì)語音信號(hào)進(jìn)行預(yù)加重,再對(duì)預(yù)加重過的語音信號(hào)分幀加窗處理。然而,在對(duì)信號(hào)加窗分幀處理操作時(shí),短時(shí)分析的參數(shù)特征的優(yōu)劣取決于窗函數(shù)的選取。通常語音信號(hào)加窗采用單級(jí)窗函數(shù),而單級(jí)窗雖然減少了頻譜估計(jì)的偏差,卻使得信號(hào)頻譜估計(jì)仍存在較大方差[10]。為減小信號(hào)中設(shè)備信息的頻譜損失有效保留大部分頻譜信息,本文使用多窗譜估計(jì)代替單級(jí)窗,其原理框圖如圖1所示,
圖1 提取多窗譜MFCC參量
其公式如下:
由圖2可知,多窗譜函數(shù)不僅可以減少語音的頻譜損失,而且還能提升語音的低頻部分,多窗譜的這個(gè)優(yōu)點(diǎn)有效地提高了了傳統(tǒng)MFCC低頻部分的噪聲魯棒性,有利于對(duì)后續(xù)特征參數(shù)的分析選取。另外,通過一系列的實(shí)驗(yàn)測試,當(dāng)子窗個(gè)數(shù)為 6個(gè)時(shí),無論是系統(tǒng)識(shí)別率還是運(yùn)算時(shí)間都能達(dá)到最佳,所以本文多窗譜函數(shù)子窗個(gè)數(shù)為6個(gè)。
圖2 加單級(jí)窗(漢明窗)和多窗譜的語音頻譜對(duì)比
提取MFCC參數(shù)具體步驟[6]是將進(jìn)過上述預(yù)處理后的信號(hào)Xt(τ)對(duì)其取模的平方,然后送入 Mel三角濾波器組濾波,求取對(duì)數(shù)能量,再對(duì)輸出向量作DCT,得到MFCC,提取。計(jì)算公式如下,
其中:n為所取MFCC的個(gè)數(shù);Cj(n)為第j幀的第n個(gè)MFCC系數(shù);Sj(m)為語音信號(hào)的對(duì)數(shù)能量譜;M為24即濾波器數(shù)。除去代表直流成分的Cj(0),得到Cj(1),…,Cj(n),然后由式(6)求取表征信號(hào)動(dòng)態(tài)特性的ΔMFCC系數(shù)Dt(n),
其中,k為常數(shù),一般取為2。
1.2 短時(shí)TEO能量
Teager能量算子(Teager Energy Operator,TEO)實(shí)際上是一個(gè)非線性算子,它是由Teager等人[6]提出的,能夠很好地表征信號(hào)的瞬時(shí)能量值,將其加入到特征參數(shù)中,輔助進(jìn)行說話人識(shí)別。但我們首先要對(duì) TEO能量進(jìn)行歸一化處理,并求其對(duì)數(shù)能量。TEO的具體求取過程是,先求TEO,并對(duì)其分幀加窗,最后求各幀信號(hào)的TEO能量,其計(jì)算公式為式(5)
其中,(ETEO)t是第t幀的TEO能量,τ為每幀樣點(diǎn)數(shù);L為幀長,本文取為256。
對(duì)其進(jìn)行歸一化能量并取其對(duì)數(shù),其計(jì)算公式如(6),然后把其加入到MFCC特征向量的第一維,組成EMFCC特征向量,最后與MFCCΔ經(jīng)相關(guān)距離Fisher比加權(quán)和維度篩選,組成混合參數(shù)。
通過以上對(duì)特征參數(shù)的提取,筆者得到了12維的EMFCC和12維的MFCCΔ,若直接把它們混合,得到了24維混合參數(shù),造成信息的冗余。不僅增加系統(tǒng)的運(yùn)算量,而且由于不同的特征參量所包含的表征說話人的個(gè)性特征的信息不同,對(duì)識(shí)別的貢獻(xiàn)也各不相同,故不能將每維特征向量都同等對(duì)待。為消除冗余信息,筆者采用相關(guān)距離 Fisher準(zhǔn)則,其中Fisher比的計(jì)算公式(7)所示,
其中,ui、u代表第i個(gè)說話者和全部說話者參量均值估計(jì),代表第i個(gè)說話者第j句話的特征參數(shù),i=1,2…M;j=1,2…N 。
從式(7)可以看出Fisher比只能反映每維參數(shù)對(duì)識(shí)別系統(tǒng)的貢獻(xiàn)大小,但未將每維參量間的相關(guān)性考慮進(jìn)去,故本文相關(guān)距離的 Fisher比來進(jìn)行加權(quán)降維。相關(guān)距離顧名思義就是指每一維特征參數(shù)與其他各維參量之間的距離,它的值越大,則表明該維參量與其他維參量間所包含的共同信息就越少,它們之間的相關(guān)性也就越弱。該準(zhǔn)則有效地克服了Fisher比的局限性,避免了每兩維特征之間重疊的過多的信息,造成信息的冗余,增加系統(tǒng)的開銷,更好的篩選出能表征說話人個(gè)性特特征的有效維度,提高系統(tǒng)的整體性能。其公式如式(8)和(9),
通過式(9)可知,H和F之間是成正比關(guān)系的,但和相關(guān)距離成反比關(guān)系,也就是說 F的值越大,相關(guān)距離 Fisher比H也就越大。圖3給出了MFCC的相關(guān)距離Fisher比,由圖可知,MFCC第一維的貢獻(xiàn)值是最小的,故用短時(shí)TEO能量代替第一維,理論上說明,該混合特征是有效的。圖 4給出了EMFCC和MFCCΔ每一維參量之間的相關(guān)距離Fisher比。
圖3 MFCC參數(shù)相關(guān)距離Fisher比
圖4 兩個(gè)參數(shù)各維分量的Fisher比
從圖3中可以看出,MFCC最后一維的貢獻(xiàn)值式最小的,故用短時(shí)TEO能量來代替最后一維向量;從圖4中可以看出,不同分量的相關(guān)距離 Fisher比的值是不同的,表明對(duì)說話人識(shí)別貢獻(xiàn)值也是不同的,筆者則根據(jù)圖 4分別選出 EMFCC和差分MFCC中區(qū)分度最大的6維構(gòu)成12維的混合特征參數(shù),對(duì)相關(guān)距離 Fisher比大的賦予較大的權(quán)重系數(shù),反之則賦予相對(duì)較小的權(quán)重系數(shù),通過上述這種加權(quán)降維區(qū)分了不同維特征向量對(duì)說話人識(shí)別系統(tǒng)的的貢獻(xiàn)。
圖5 本文算法系統(tǒng)原理框圖
實(shí)驗(yàn)使用50人語音庫(男女各25),每人分別錄制10段長約3 s的語音,7段用于訓(xùn)練,3段用于測試,采樣頻率8 KHz,采樣精度16 bit。在同一背景噪聲,不同信噪比下,進(jìn)行說話人識(shí)別,其中實(shí)驗(yàn)中均采用16階GMM-UBM作為識(shí)別模型。通過實(shí)驗(yàn)可知,本文方法原理簡單,且計(jì)算量相對(duì)較小,在信噪比較低時(shí)識(shí)別率也能較高。
為了證明本文所提混合特征參數(shù)的有效可行,表1給出了四種不同信噪比下對(duì)傳統(tǒng)MFCC與多窗譜MFCC進(jìn)行實(shí)驗(yàn)。表2給出了文獻(xiàn)[3]算法與本文所提算法識(shí)別率的對(duì)比。表3給出了兩種不同降維方法的識(shí)別率對(duì)比。圖6給出了相關(guān)距離 Fisher比在對(duì)特征參數(shù)進(jìn)行加權(quán)前后系統(tǒng)識(shí)別率的比較。
表1 傳統(tǒng)MFCC和多窗譜MFCC識(shí)別率的對(duì)比
表2 文獻(xiàn)[2]算法與本文算法識(shí)別率對(duì)比
由表1可知,相較于傳統(tǒng)MFCC,本文選用的多窗譜估計(jì)MFCC的識(shí)別率在各種噪聲環(huán)境下均略高一籌,進(jìn)而證明了本文使用多窗譜代替單級(jí)窗和離散傅里葉變換的提取算法的有效性。由表2可以看出,本文所提方法識(shí)別率在四種信噪比環(huán)境中都高于文獻(xiàn)[2]所提方法識(shí)別率,有力的證明了短時(shí)TEO能量中含有對(duì)說話人識(shí)別有用的信息,從而進(jìn)一步證明本文所提算法是可行的。
表3 兩種降維方法對(duì)系統(tǒng)識(shí)別率的對(duì)比
由表3可知,本文采用基于相關(guān)距離Fisher準(zhǔn)則進(jìn)行參數(shù)降維加權(quán)后的系統(tǒng)識(shí)別率均在基于 Fisher比算法之上,特別是在信噪比相對(duì)較低的環(huán)境下,本文所采用的降維加權(quán)算法仍然保持了較高的優(yōu)越性,提高了系統(tǒng)的噪聲魯棒性。通過表1、表2、表3和圖6說明了本文算法在沒有提高復(fù)雜度的同時(shí),使說話人識(shí)別率相對(duì)于文獻(xiàn)[2]有將近3%的提升,從而更加有力的說明了本文所提算法是可行的。
圖6 相關(guān)距離Fisher比對(duì)特征參數(shù)加權(quán)前后系統(tǒng)識(shí)別率的比較
本文首先針對(duì)傳統(tǒng)MFCC提取算法實(shí)時(shí)性差和高方差性的缺點(diǎn),提出了多窗譜估計(jì) MFCC,然后將分別表征說話者動(dòng)態(tài)特性與時(shí)域特性的EMFCCMFCCΔ引入MFCC參量中,最后通過相關(guān)距離 Fisher比對(duì)參量進(jìn)行加權(quán)降維,并通過GMM-UBM的說話人識(shí)別系統(tǒng)進(jìn)行說話人識(shí)別。實(shí)驗(yàn)結(jié)果表明,在信噪比相對(duì)較低的環(huán)境下,本文所提算法在沒有增加計(jì)算復(fù)雜度的同時(shí),提高了系統(tǒng)的整體識(shí)別性能,增強(qiáng)了系統(tǒng)對(duì)噪聲的魯棒性。
[1] 趙力.語音信號(hào)處理[M].北京:機(jī)械工業(yè)出版社,2012.
[2] Kinnunen T,Saeidi R,Sedlák F,et al.Low-variance multitaper MFCC features: a case study in robust speaker verification[J].IEEE Trans. on Audio,Speech,and Language Processing,2012,20(7):1990-2001.
[3] 柯晶晶,周萍,景新幸,等.差分和加權(quán)Mel倒譜混合參數(shù)應(yīng)用于說話人識(shí)別[J].微電子學(xué)與計(jì)算機(jī),2014,31(9):89-91.
[4] 鮮曉東,樊宇星.基于 Fisher比的梅爾倒譜系數(shù)混合特征提取方法[J].計(jì)算機(jī)應(yīng)用,2014,34(2):556-558.
[5] 李杰,周萍,杜志然.短時(shí)TEO能量在端點(diǎn)檢測中的應(yīng)用[J].計(jì)算機(jī)工程與應(yīng)用,2013,49(12):144-147.
[6] Teager H,Teager S.Evidence for nonlinear sound production mechanisms in the vocal tract[M].Speech Production & Speech Modeling.[S.l.]:Springer,1990:241-261.
[7] 王偉,鄧輝文.基于MFCC參數(shù)和VQ的說話人識(shí)別系統(tǒng)[J].儀器儀表學(xué)報(bào),2006,27(6):2253-2155.
[8] Zhou Ping, Li Xiaopan, Li Jie,et al. Spe-ech Emotion Recognition Based on Mixed MFCC[C].International Conference on Applied Mechanics and Mechanical Engineering,2012:1252-1258.
[9] 曾祺,甘濤,曾紅斌.改進(jìn)的多窗譜MFCC在說話人確認(rèn)中的應(yīng)用[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2014,23(11):192-195.
[10] 吳迪,曹潔,王進(jìn)花.基于自適應(yīng)高斯混合模型與靜動(dòng)態(tài)聽覺特征融合的說話人識(shí)別[J].光學(xué)精密工程,2013,21(6):1598-1604.
Mixed parameters based on fisher criterion with correlation distance in speaker recognition
In order to get more distinguished characteristic parameters, we utilize a improved multitaper MFCC extraction algorithm which with low variance. On the basis of this, we propose mixed characteristic parameters which combined short-time TEO energy with first-order MFCC that time-domain characteristics and reflecting individual voice dynamic characteristics of the speech signal separately. Due to combing the two parameters directly will result in high dimension parameters and increase the complexity of computational, for this reason, we propose a algorithm for feature selection about fisher criterion with correlation distance. Then, the speaker recognition is based on GMM-UBM classification model. Experiments show that the improved mixed characteristic parameter compared to single characteristic parameters has better recognition results and improving the system recognition rate.
Speaker recognition; multitaper MFCC; fisher criterion with correlation distance; TEO; mixed feature
TN912.34
A
1008-1151(2016)01-0013-04
2015-12-10
國家自然科學(xué)基金資助項(xiàng)目(61363005);國家自然科學(xué)基金資助項(xiàng)目(61462017);廣西研究生教育創(chuàng)新計(jì)劃資助項(xiàng)目(YCSZ2015152)。
唐宗渤(1986-),男,廣西桂林人,桂林電子科技大學(xué)信息科技學(xué)院教師,助理工程師,研究方向?yàn)檎Z音信號(hào)處理與智能控制;周萍(1961-),女,廣西桂林人,桂林電子科技大學(xué)電子工程與自動(dòng)化學(xué)院教授,碩士,研究方向?yàn)檎Z音識(shí)別與智能控制研究。
王茂蓉(1990-),女,江蘇徐州人,桂林電子科技大學(xué)電子工程與自動(dòng)化學(xué)院碩士研究生,研究方向?yàn)檎Z音識(shí)別與反蓄意模仿。