,,
(浙江工業(yè)大學(xué) 信息工程學(xué)院,浙江 杭州 310023)
基于加權(quán)混合特征的話者識(shí)別算法
徐志江,趙夢(mèng)娜,盧為黨
(浙江工業(yè)大學(xué) 信息工程學(xué)院,浙江 杭州 310023)
用多窗譜估計(jì)和伽馬通濾波改進(jìn)經(jīng)典的梅爾倒譜特征(MFCC)的識(shí)別性能,并與delta特征相結(jié)合,提出了一種基于加權(quán)參數(shù)設(shè)置策略的混合特征話者識(shí)別算法.該算法解決了梅爾倒譜系數(shù)方差過(guò)大、聽(tīng)覺(jué)特征不明顯及話者識(shí)別算法特征單一的問(wèn)題.仿真結(jié)果表明:與MFCC和線性預(yù)測(cè)的提取方法相比,該算法魯棒性能更優(yōu),對(duì)不同噪聲環(huán)境的適應(yīng)性更好.
多窗譜估計(jì);伽馬通濾波器組;加權(quán)函數(shù);加權(quán)混合特征
說(shuō)話人特征提取算法從話者語(yǔ)音中提取能夠表征話者個(gè)性特征的參數(shù),是話者識(shí)別算法中的核心技術(shù)之一.目前,在話者識(shí)別算法中應(yīng)用最為廣泛的特征參數(shù)有梅爾倒譜系數(shù)(Mel frequency cepstral coefficient MFCC),線性預(yù)測(cè)倒譜系數(shù)(Linear prediction cepstrum coefficient LPCC),基音周期等[1].梅爾倒譜系數(shù)是基于人耳聽(tīng)覺(jué)特征的特征參數(shù),具有較好的區(qū)分度,是當(dāng)前話者識(shí)別的主流參數(shù)[2].實(shí)驗(yàn)表明人耳具有特別優(yōu)異的語(yǔ)音識(shí)別性能和抗噪性能.研究結(jié)果表明:相對(duì)于Mel濾波器組,伽馬通濾波器組可以更好地模擬人耳耳蝸聽(tīng)覺(jué)模型.因此,筆者采用伽馬通濾波器組優(yōu)化Mel倒譜提取算法.進(jìn)一步針對(duì)MFCC頻譜具有高方差,且有時(shí)延性的缺點(diǎn)[3],摒棄傳統(tǒng)譜估計(jì),利用多窗譜估計(jì)來(lái)提取基于伽馬通濾波器組和多窗譜估計(jì)的改進(jìn)MFCC.改進(jìn)的梅爾倒譜參數(shù)具有實(shí)時(shí)性,且其譜估計(jì)值具有低方差性,相對(duì)于利用特征彎折、RASTA濾波等算法提取的MFCC,具有更好的魯棒性.同時(shí),新型MFCC特征也具有缺點(diǎn),其只反映語(yǔ)音靜態(tài)特性,缺失動(dòng)態(tài)信息[4],因此筆者提取該特征的二次特征即Delta特征加入特征向量.
在對(duì)經(jīng)典梅爾倒譜系數(shù)進(jìn)行深入研究后,發(fā)現(xiàn)該特征參數(shù)的各個(gè)分量對(duì)語(yǔ)音的表征能力不同.進(jìn)一步針對(duì)改進(jìn)的基于伽馬通濾波器組和多窗譜估計(jì)的MFCC的參數(shù)特性,分析特征的各維系數(shù)對(duì)語(yǔ)音表征的貢獻(xiàn)度,提出一種基于加權(quán)函數(shù)的改進(jìn)Mel倒譜混合特征參數(shù).
1.1 經(jīng)典MFCC提取
人耳聽(tīng)到的聲音高低與聲音本身的頻率并不是線性成正比關(guān)系[5].一般使用Mel刻度來(lái)描述不同頻率的聲音對(duì)聽(tīng)覺(jué)系統(tǒng)的作用.梅爾頻率與聲音頻率的公式[6]為
Mel(f)=2 595ln(1+f/700)
(1)
MFCC的提取流程圖如圖1所示.
圖1 MFCC提取過(guò)程Fig.1 MFCC extraction process
1.2 多窗譜估計(jì)
多窗口譜估計(jì)是一種采用不同權(quán)值的多個(gè)窗函數(shù),用它們頻域的平均值來(lái)獲得語(yǔ)音信號(hào)的頻譜估計(jì)的算法.設(shè)X=[x(0),…,x(N-1)]為一幀有N個(gè)采樣點(diǎn)的語(yǔ)音信號(hào),多窗譜估計(jì)[7]的定義為
(2)
式中:K為正交窗函數(shù)的個(gè)數(shù);ωj(t)為正交窗函數(shù);λ(j)為第j個(gè)窗函數(shù)對(duì)應(yīng)的權(quán)值;M為語(yǔ)音幀個(gè)數(shù).
1.3 伽馬通濾波器
伽馬通濾波器組是一個(gè)標(biāo)準(zhǔn)的耳蝸聽(tīng)覺(jué)濾波器,其濾波器組的沖激響應(yīng)的典型模式[8]為
gk(t)=AtT-1exp(-2πbkt)cos(2πfkt+φk)t≥0,1≤k≤T
(3)
式中:A為濾波器增益;T為濾波器階數(shù);fk為中心頻率;φk為相位;bk為衰減因子,其決定了濾波器沖激響應(yīng)的衰減速度,并與相應(yīng)濾波器的帶寬有關(guān),bk=1.019ERB(fk).
ERB(fk)為等效矩形帶寬,即
(4)
這里設(shè)定T=24,即由24個(gè)濾波器疊加成伽馬通濾波器組來(lái)實(shí)現(xiàn)耳蝸濾波器模型.
2.1MFCC缺陷分析
頻譜的估計(jì)是MFCC提取過(guò)程中的重要步驟.然而,經(jīng)典的譜估計(jì)一般采用單窗對(duì)語(yǔ)音進(jìn)行加窗,這使得到的頻譜具有高方差值,引起巨大的MFCC偏差,降低識(shí)別的準(zhǔn)確性.筆者采用多窗譜估計(jì)來(lái)解決該問(wèn)題.此外,MFCC是基于人耳聽(tīng)覺(jué)特性的特征,具有良好的區(qū)分性.但梅爾濾波器組卻不能很好地模擬人耳耳蝸的聽(tīng)覺(jué)模型,從而嚴(yán)重影響到梅爾倒譜特征的識(shí)別性能.因此,采用伽馬通濾波器替代梅爾濾波器組來(lái)模擬耳蝸聽(tīng)覺(jué)模型,提出一種基于多窗譜和伽馬通濾波器組的改進(jìn)MFCC特征(RMFCC,Reformative MFCC).
語(yǔ)音信號(hào)具有時(shí)變特性,但RMFCC并不能表征幀間相關(guān)性.而各人發(fā)音的習(xí)慣差異主要表現(xiàn)在語(yǔ)音信號(hào)頻譜結(jié)構(gòu)的時(shí)間變化上,因此應(yīng)充分利用語(yǔ)音的動(dòng)態(tài)特征以彌補(bǔ)RMFCC的缺陷.將RMFCC的動(dòng)態(tài)特征(Delta)加入特征向量.
實(shí)驗(yàn)證明:倒譜特征各維分量的均方差差異十分明顯,參數(shù)的各個(gè)分量對(duì)系統(tǒng)識(shí)別率的貢獻(xiàn)并不相同[9].特征參數(shù)分量中對(duì)語(yǔ)音的表征能力微弱的部分不僅不能提高識(shí)別率,反而會(huì)降低識(shí)別性能.若僅將特征各維分量直接進(jìn)行簡(jiǎn)單組合,這是一種比較粗糙的方法.進(jìn)一步,加權(quán)參數(shù)是一種至關(guān)重要的參數(shù),與加入向量的特征特性以及環(huán)境有關(guān),對(duì)說(shuō)話人識(shí)別算法具有很大的影響,筆者將根據(jù)RMFCC和Delta的特性和噪聲環(huán)境,提出加權(quán)參數(shù)設(shè)定策略.
2.2 改進(jìn)MFCC特征提取
RMFCC算法拋棄傳統(tǒng)的譜估計(jì),利用多窗譜估計(jì),且將三角濾波器組改為伽馬通濾波器組.多窗譜估計(jì)在減小語(yǔ)音頻譜方差上的性能優(yōu)越.而伽馬通濾波器組是基于人耳耳蝸聽(tīng)覺(jué)模型建立的,可以很好地模擬人耳基底膜的分頻特性,并可進(jìn)一步抑制語(yǔ)音的背景噪聲,具有一定的抗噪性.因此,RMFCC既可以減小頻譜方差,提高特征的準(zhǔn)確性,又可以更好地模擬人耳特性,還使倒譜特征具有一定的抗噪性能,因此將兩者相結(jié)合得到新型聽(tīng)覺(jué)特征參數(shù).圖2為RMFCC特征的提取流程圖.
圖2 RMFCC提取流程圖Fig.2 RMFCC extraction process
2.3 Delta參數(shù)的提取
Delta特征是通過(guò)將特征向量在語(yǔ)音幀序列的時(shí)序上做一次傅里葉變換就得到了該特征向量的Delta特征.筆者采用RMFCC進(jìn)行二次提取以得到魯棒性更佳的語(yǔ)音幀間動(dòng)態(tài)信息.
Delta公式[10]定義為
(5)
2.4 加權(quán)參數(shù)的設(shè)定
各維特征參數(shù)分量對(duì)說(shuō)話人識(shí)別的表征能力是不同的,為增強(qiáng)特征參數(shù)的區(qū)分性,對(duì)加入特征向量的特征進(jìn)行加權(quán).加權(quán)參數(shù)能夠更好地突出說(shuō)話人的個(gè)性特征,將對(duì)識(shí)別率貢獻(xiàn)較低的特征分量進(jìn)行衰減處理.在將特征加入特征向量之前,將特征各維分量與相應(yīng)加權(quán)系數(shù)相乘,使之最大程度反映出特征的個(gè)性信息.筆者采用升半正弦函數(shù)對(duì)特征進(jìn)行加權(quán),傳統(tǒng)采用的升半正弦函數(shù)[11]為
r=0.5+0.5sin(π(m-1)/L)m∈[1,L]
(6)
式中L為特征參數(shù)的維數(shù).傳統(tǒng)的升半正弦加權(quán)參數(shù)分布如圖3所示.由圖3可知:傳統(tǒng)升半正弦函數(shù)值在第13維左右時(shí)最大,但在第2維左右趨近于0.
圖3 升半正弦函數(shù)加權(quán)參數(shù)分布Fig.3 Weighted half-sine function
實(shí)驗(yàn)采用TIMIT標(biāo)準(zhǔn)語(yǔ)音數(shù)據(jù)庫(kù)[12]中dr1~dr5(其中,dr為TIMIT語(yǔ)音庫(kù)中的分類文件夾名稱)部分的前20個(gè)說(shuō)話人(男女各10人)的語(yǔ)音進(jìn)行RMFCC提取.進(jìn)而深入研究不同噪聲環(huán)境下RMFCC的特性.RMFCC特征參數(shù)圖如圖4所示.圖5為在信噪比為5 dB的babble,car,factory,white等四種噪聲環(huán)境下,最大幅度值的RMFCC在維數(shù)上的分布圖.
圖4 RMFCC的參數(shù)分布Fig.4 Parameter distribution of RMFCC
圖5 RMFCC最大幅值位置分布Fig.5 Maximum amplitude position distribution of RMFCC
分析圖4可以得到:RMFCC特征參數(shù)在第2維和第13維左右的特征參量值達(dá)到最大,而在第10維到第12維左右趨近于0.從圖5可以得到:在4種噪聲中,RMFCC的最大幅值大多分布在第1~3維,其余基本集中在第12~15維,還有少部分集中于第15~17維.由此可得語(yǔ)音能量主要集中在低頻.研究表明:幅值較小甚至趨近于0部分對(duì)語(yǔ)音的表征能力較弱,為使特征參數(shù)的區(qū)分性突出,加權(quán)函數(shù)的最大值位置應(yīng)與特征參數(shù)的最大幅值位置相匹配,顯然,式(6)所示的加權(quán)函數(shù)并不理想.因此提出另一種加權(quán)函數(shù)為
(7)
式中:L為特征參數(shù)的維數(shù),設(shè)定L=24;a為加權(quán)函數(shù)的靜態(tài)分量,根據(jù)試驗(yàn)結(jié)果,設(shè)定a=0.35,目的是保證系數(shù)不會(huì)完全衰減,同時(shí)保證低維分量的作用比高維分量更大.
加權(quán)函數(shù)分布圖如圖6所示,得到的加權(quán)特征如圖7所示.對(duì)比圖5,6可以得到:改進(jìn)加權(quán)函數(shù)的峰值位置與RMFCC最大幅值的位置分布基本一致.由于幅值大小與該維特征對(duì)語(yǔ)音的表征能力成正比,因此改進(jìn)加權(quán)函數(shù)能夠提升特征的魯棒性.分析圖7可得:說(shuō)話人特征進(jìn)行加權(quán)函數(shù)處理后,在保留特征參數(shù)較大幅值的同時(shí),對(duì)可能由噪聲引起的幅值較小的波動(dòng)進(jìn)行一定的弱化,從而使加權(quán)特征參數(shù)能夠更精確地反映不同說(shuō)話人的區(qū)別.
圖6 改進(jìn)的加權(quán)函數(shù)參數(shù)分布Fig.6 Improved weight function parameter distribution
圖7 加權(quán)RMFCC的參數(shù)分布Fig.7 Weighted RMFCC parameter distribution
現(xiàn)實(shí)環(huán)境中的語(yǔ)音必然會(huì)包含噪聲,而去噪也是語(yǔ)音特征處理的一個(gè)重要的過(guò)程,分析圖8可知:RMFCC特征參數(shù)的第4~6維特征以及14,15維特征受噪聲影響較大,會(huì)一定程度降低識(shí)別性能.因此,為優(yōu)化識(shí)別性能,采用維度篩選,選擇表征說(shuō)話人個(gè)性能力良好,且受噪聲影響較小的特征.在進(jìn)行參數(shù)組合時(shí),選擇1~3,7~13,16~24維特征.將RMFCC和delta特征相組合得到38維混合特征向量.
圖8 受噪的RMFCC參數(shù)分布Fig.8 The parameter distribution of noisy RMFCC
3.1 實(shí)驗(yàn)參數(shù)的設(shè)定
本實(shí)驗(yàn)采用TIMIT標(biāo)準(zhǔn)語(yǔ)音實(shí)驗(yàn)庫(kù)中的語(yǔ)音數(shù)據(jù).語(yǔ)音庫(kù)中具有多人的純凈語(yǔ)音,每段語(yǔ)音時(shí)長(zhǎng)為3~6 s.語(yǔ)音采樣率為16 kHz,采樣精度為16 bit,語(yǔ)音分幀長(zhǎng)度為16 ms.NOIZEX-92是一種標(biāo)準(zhǔn)的噪聲語(yǔ)音庫(kù),具有多種常用的噪聲[13].筆者采用庫(kù)中car,restaurant,street這三種噪聲,每種噪聲的信噪比分別為15,10,5,0 dB.針對(duì)話者識(shí)別而言,識(shí)別結(jié)果只有正確和錯(cuò)誤這兩種情況,且正確概率和錯(cuò)誤概率總和為1,由此實(shí)驗(yàn)采用正確識(shí)別概率作為評(píng)價(jià)算法性能的指標(biāo).
3.2 特征提取實(shí)驗(yàn)
實(shí)驗(yàn)一測(cè)試RMFCC聽(tīng)覺(jué)特征對(duì)話者語(yǔ)音的區(qū)別性能.采用隨機(jī)從純凈TIMIT語(yǔ)音庫(kù)中dr3,dr5兩個(gè)語(yǔ)音數(shù)據(jù)集中選取的24個(gè)說(shuō)話人(男女各12個(gè)),對(duì)每個(gè)說(shuō)話人語(yǔ)音,隨機(jī)選擇一段作為測(cè)試音,其他語(yǔ)音作為訓(xùn)練語(yǔ)音.
實(shí)驗(yàn)二測(cè)試RMFCC聽(tīng)覺(jué)特征對(duì)噪聲環(huán)境的抗噪性能,采用TIMIT語(yǔ)音庫(kù)中的語(yǔ)音,分別在car,street,restaurant環(huán)境下進(jìn)行試驗(yàn).
實(shí)驗(yàn)三測(cè)試在三種噪聲環(huán)境下,測(cè)試加權(quán)混合特征的改進(jìn)的有效性和魯棒性.
試驗(yàn)首先將語(yǔ)音進(jìn)行預(yù)加重、分幀,對(duì)每幀語(yǔ)音提取RMFCC,Delta兩種參數(shù).對(duì)兩種特征參數(shù)進(jìn)行加權(quán),并將加權(quán)特征進(jìn)行組合得到加權(quán)混合特征向量.采用高斯混合模型——支持向量機(jī)混合模型對(duì)特征參數(shù)進(jìn)行建模和分類[14-15].其中高斯混合模型混合階數(shù)為16.
3.3 結(jié)果與分析
實(shí)驗(yàn)一的話者識(shí)別結(jié)果如表1所示.
表1 純凈TIMIT語(yǔ)音下的識(shí)別率Table 1 The recognition rate of pure TIMIT speech
分析表1的結(jié)果,得到RMFCC與MFCC在純凈語(yǔ)音下的性能相當(dāng),而LPCC相比這兩者魯棒性較差,RMFCC和MFCC均比LPCC高約3%左右.這個(gè)結(jié)果表明新型聽(tīng)覺(jué)特征RMFCC對(duì)語(yǔ)音具有識(shí)別性能.
實(shí)驗(yàn)二的話者識(shí)別結(jié)果見(jiàn)圖9~11.分析圖9~11可以看出:在三種噪聲情況下,RMFCC的識(shí)別性能明顯比MFCC,LPCC更好.在語(yǔ)音環(huán)境惡劣的情況下(信噪比在0~5 dB時(shí)),RMFCC隨著信噪比的增長(zhǎng),識(shí)別率增長(zhǎng)速度遠(yuǎn)大于MFCC和LPCC,且識(shí)別率也高于其他兩種特征參數(shù).這說(shuō)明RMFCC的抗噪性比MFCC,LPCC更強(qiáng),在低信噪比環(huán)境下,魯棒性更為優(yōu)異.信噪比為10~15 dB時(shí),圖9~11中傳統(tǒng)MFCC和LPCC的識(shí)別性能相對(duì)近似,但同比MFCC性能較好.這是因?yàn)镸FCC能更好地描述元音,而LPCC對(duì)輔音的描述效果較優(yōu),基于不同的語(yǔ)音,識(shí)別率略有變化.此外,MFCC參數(shù)強(qiáng)調(diào)低頻信息,且參數(shù)無(wú)任何前提假設(shè),因此抗噪性比LPCC參數(shù)更強(qiáng),在0~5 dB環(huán)境下性能更優(yōu).RMFCC與MFCC,LPCC識(shí)別率相差不多,這說(shuō)明在環(huán)境優(yōu)良時(shí),三種參數(shù)的性能相差不多,這表示RMFCC同樣適合在信噪比良好的情況下作為話者識(shí)別算法的特征參數(shù).這個(gè)結(jié)果證明不同的語(yǔ)音環(huán)境下,RMFCC的魯棒性都比MFCC,LPCC更好.
圖9 Car噪聲下的識(shí)別結(jié)果Fig.9 Recognition results under car noise
圖10 Street噪聲下的識(shí)別結(jié)果Fig.10 Recognition results under street noise
圖11 Restaurant噪聲下的識(shí)別結(jié)果Fig.11 Recognition results under restaurant noise
實(shí)驗(yàn)三的話者識(shí)別結(jié)果見(jiàn)圖12~14.對(duì)圖12~14的識(shí)別結(jié)果分析可以得到:加權(quán)混合特征的識(shí)別率總體要明顯高于RMFCC,MFCC,LPCC.這證明該特征的識(shí)別性能比其他三種更優(yōu),加權(quán)函數(shù)對(duì)說(shuō)話人算法特征的優(yōu)化是有效的.此外,在低信噪比環(huán)境下,加權(quán)混合特征不僅在識(shí)別性能上表現(xiàn)良好,并且在識(shí)別性能的提升速度方面也比其他三種特征更優(yōu)異.這表明該特征的抗噪性和對(duì)語(yǔ)音環(huán)境的適應(yīng)性比RMFCC,MFCC,LPCC更好.在語(yǔ)音環(huán)境較好的情況下,雖然加權(quán)混合特征的識(shí)別率的增長(zhǎng)速度變慢,但識(shí)別率明顯仍高于其他三種語(yǔ)音特征參數(shù).這表明加權(quán)混合特征的識(shí)別性能和抗噪性均優(yōu)于其他三種特征.
圖12 Car噪聲下的識(shí)別結(jié)果Fig.12 Recognition results under car noise
圖13 Street噪聲下的識(shí)別結(jié)果圖Fig.13 Recognition results under street noise
圖14 restaurant噪聲下的識(shí)別結(jié)果圖Fig.14 Recognition results under restaurant noise
在研究多窗譜估計(jì)和MFCC時(shí),針對(duì)傳統(tǒng)MFCC方差過(guò)大和區(qū)分性能不佳的缺陷,采用多窗譜提取特征頻譜,并利用伽馬通濾波器替代三角濾波器模擬人耳耳蝸濾波模型,彌補(bǔ)MFCC特征的缺陷.從而得到一種基于多窗譜估計(jì)和伽馬通濾波器組的新型聽(tīng)覺(jué)特征參數(shù)RMFCC.由于RMFCC是靜態(tài)特征,缺失語(yǔ)音的動(dòng)態(tài)信息,因此為保證說(shuō)話人特征信息的完整性,提取說(shuō)話人語(yǔ)音的動(dòng)態(tài)特征即Delta特征.進(jìn)一步,分析RMFCC特征參數(shù)的幅值位置分布的特性,提出改進(jìn)的加權(quán)函數(shù).對(duì)特征進(jìn)行加權(quán)并組合,由此提出一種基于新型聽(tīng)覺(jué)特征和加權(quán)函數(shù)的加權(quán)混合特征.實(shí)驗(yàn)結(jié)果表明:提出的加權(quán)混合特征與MFCC,LPCC相比,不僅在良好語(yǔ)音環(huán)境下具有優(yōu)良的魯棒性,并且在低信噪比環(huán)境下具有更好的識(shí)別性能和抗噪性.
[1] SAHIDULLAH M, SAHA G. A novel windowing technique for efficient computation of MFCC for speaker recognition[J]. IEEE signal processing letters,2013,20(2):149-152.
[2] ALAM M J, KINNUNEN T, KENNY P, et al. Multitaper MFCC and PLP features for speaker verification using i-vectors[J]. Speech communication,2013,55(2):237-251.
[3] 曾祺,甘濤,曾紅斌.改進(jìn)的多窗譜MFCC在說(shuō)話人確認(rèn)中的應(yīng)用[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2014,23(11):192-195.
[4] 方志剛,胡國(guó)興,吳曉波.基于非語(yǔ)音聲音的聽(tīng)覺(jué)用戶界面研究[J].浙江大學(xué)學(xué)報(bào)(工學(xué)版),2003,37(6):684-688.
[5] TRANGOL J, HERRERA A. Traditional method and multi-taper to feature extraction using Mel frequency cepstral coefficients[J]. International journal of information and electronics engineering,2015,5(1):27.
[6] ALAM M J, KENNY P, O’SHAUGHNESSY D. Low-variance multitaper Mel-frequency cepstral coefficient features for speech and speaker recognition systems[J]. Cognitive computation,2013,5(4):533-544.
[7] SANDBERG J, HANSSON-SANDSTEN M, KINNUNEN T, et al. Multitaper estimation of frequency-warped cepstra with application to speaker verification[J]. IEEE signal processing letters,2010,17(4):343-346.
[8] LI M, NARAYANAN S. Simplified supervised i-vector modeling
with application to robust and efficient language identification and speaker verification[J]. Computer speech & language,2014,28(4):940-958.
[9] ZHU L, YANG Q. Speaker recognition system based on weighted feature parameter[J]. Physics procedia,2012,25:1515-1522.
[10] ZHAO X, SHAO Y, WANG D L. CASA-based robust speaker identification[J]. IEEE transactions on audio, speech, and language processing,2012,20(5):1608-1616.
[11] SAHIDULLAH M, SAHA G. Design, analysis and experimental evaluation of block based transformation in MFCC computation for speaker recognition[J]. Speech communication,2012,54(4):543-565.
[12] ZUE V, SENEFF S, GLASS J. Speech database development at MIT: TIMIT and beyond[J]. Speech communication,1990,9(4):351-356.
[13] VARGA A, STEENEKEN H J M. Assessment for automatic speech recognition: II NOISEX-92: a database and an experiment to study the effect of additive noise on speech recognition systems[J]. Speech communication,1993,12(3):247-251.
[14] 姚明海,何通能.一種基于模糊積分的多分類器聯(lián)合方法[J].浙江工業(yè)大學(xué)學(xué)報(bào),2002,30(2):156-159.
[15] 湯一平,嚴(yán)海東.非約束環(huán)境下人臉識(shí)別技術(shù)的研究[J].浙江工業(yè)大學(xué)學(xué)報(bào),2010,38(2):155-161.
(責(zé)任編輯:陳石平)
Speakerrecognitionalgorithmbasedonweightedmixturefeatures
XU Zhijiang, ZHAO Mengna, LU Weidang
(College of Information Engineering, Zhejiang University of Technology, Hangzhou 310023, China)
Multi-window spectrum estimation and gamma-pass filtering are used to improve the recognition performance of classical Mel-cepstral feature (MFCC). Combined with the delta feature, a mixed feature speaker recognition algorithm based on weighted parameter setting strategy is proposed. The algorithm solves the problem that the Mel-cepstral coefficient variance is too large, the auditory features are not obvious, and the feather of speaker recognition algorithm is simple. The simulation results show that the proposed algorithm has better robust performance and better adaptability to different noise environments than MFCC and linear predictive extraction methods.
multi-window spectrum estimation; gamma-pass filter bank; weighted parameter; weighted mixed characteristic parameters
2016-12-14
國(guó)家自然科學(xué)基金資助項(xiàng)目(61471322,61402416)
徐志江(1973—),男,浙江紹興人,副教授,研究方向?yàn)樾诺谰幾g碼、網(wǎng)絡(luò)測(cè)量與建模、計(jì)算機(jī)網(wǎng)絡(luò)及應(yīng)用等,E-mail: zyfxzj@zjut.edu.cn.
TP391
A
1006-4303(2017)06-0628-06