李哲軍,周 萍,景新幸
(1.桂林電子科技大學(xué) 電子工程與自動(dòng)化學(xué)院,廣西 桂林 541004;2.桂林電子科技大學(xué) 信息與通信學(xué)院,廣西 桂林 541004)
?
基于改進(jìn)噪聲估計(jì)的譜減法應(yīng)用于說(shuō)話(huà)人識(shí)別
李哲軍1,周萍1,景新幸2
(1.桂林電子科技大學(xué) 電子工程與自動(dòng)化學(xué)院,廣西 桂林541004;2.桂林電子科技大學(xué) 信息與通信學(xué)院,廣西 桂林541004)
針對(duì)語(yǔ)音信號(hào)中存在加性噪聲使MFCC的魯棒性和識(shí)別系統(tǒng)的性能下降的問(wèn)題,基本譜減法的引入在增強(qiáng)MFCC抗噪性上取得的效果有限,為了使MFCC具有更好的抗噪性,提出了一種改進(jìn)算法,在譜減法的基礎(chǔ)上引入譜熵的思想,利用譜熵值的分布逐幀進(jìn)行噪聲估計(jì),可更精確地譜減去噪;實(shí)驗(yàn)結(jié)果表明,當(dāng)語(yǔ)音中含有加性噪聲時(shí),與基本譜減法相比,改進(jìn)譜減法的說(shuō)話(huà)人識(shí)別系統(tǒng)抗噪性與魯棒性更好。
說(shuō)話(huà)人識(shí)別;譜減法;譜熵;噪聲估計(jì);梅爾頻率倒譜系數(shù)
`聲紋識(shí)別[1]是通過(guò)語(yǔ)音識(shí)別說(shuō)話(huà)人的身份,與指紋識(shí)別、文字密碼等認(rèn)證技術(shù)相比,其具有不會(huì)遺失、無(wú)須記憶、實(shí)現(xiàn)簡(jiǎn)單等特點(diǎn),是一種非接觸識(shí)別方式。有效特征參數(shù)[2]的提取是其關(guān)鍵問(wèn)題,常見(jiàn)的特征參數(shù)有線譜對(duì)參數(shù)(LSP)、線性預(yù)測(cè)倒譜參數(shù)(LPCC)、Mel頻率倒譜系數(shù)(MFCC)等,其中MFCC因能充分描述人耳的感知特性而應(yīng)用廣泛[3]。
語(yǔ)音純凈不含噪時(shí)MFCC的魯棒性及系統(tǒng)識(shí)別效果都比較好,但系統(tǒng)在語(yǔ)音含噪時(shí)的識(shí)別性能下降明顯。針對(duì)語(yǔ)音中存在的加性噪聲降低識(shí)別性能的問(wèn)題,已經(jīng)有許多改進(jìn)算法[4],有倒譜均值與方差規(guī)整(CepstralMean and Variance Normalization,CMVN)、特征彎折、RASTA濾波等,都曾被用來(lái)提高M(jìn)FCC的魯棒性,但它們都存在需要延遲處理的缺點(diǎn)。
首先,本文研究了語(yǔ)音增強(qiáng)中的譜減法[5](Spectral Subtraction,SS),相比傳統(tǒng)MFCC,加入譜減法的系統(tǒng)處理含有加性噪聲的語(yǔ)音時(shí)性能有提高但程度有限,于是提出了改進(jìn)算法以進(jìn)一步提高M(jìn)FCC的抗噪性。在基本譜減法基礎(chǔ)上引入譜熵[6]的概念,根據(jù)譜熵的定義和性質(zhì)分析噪聲與語(yǔ)音信號(hào)的譜熵分布規(guī)律,用以動(dòng)態(tài)更新噪聲譜值,使譜減更精確、所提取的MFCC抗噪性更好。此外,實(shí)驗(yàn)采用GMM-UBM模型[7]代替GMM模型以彌補(bǔ)樣本的不足。實(shí)驗(yàn)結(jié)果表明改進(jìn)譜減法的說(shuō)話(huà)人識(shí)別系統(tǒng)抗噪性改善明顯。
常用特征參數(shù)可分為時(shí)域和頻域兩類(lèi),時(shí)域中有幅度、平均過(guò)零率等參數(shù);頻域中有線譜對(duì)參數(shù)(LSP)、線性預(yù)測(cè)倒譜系數(shù)(LPCC)、共振峰頻率、Mel頻率倒譜系數(shù)(MFCC)等,其中MFCC因反映了人耳聽(tīng)覺(jué)特性而具有較好的魯棒性。
MFCC采用的是梅爾頻率,代表著人耳對(duì)不同頻率聲音的感受程度[8]:在1 000 Hz以下人耳感知較為敏銳,與頻率近似成線性關(guān)系;在1 000 Hz以上人耳感知與頻率成對(duì)數(shù)關(guān)系。梅爾頻率與赫茲頻率的轉(zhuǎn)換公式為:
fmel=25951g(1+fhz/700)
(1)
其提取過(guò)程如圖1所示。
圖1 MFCC提取流程
1)預(yù)加重:濾除低頻干擾,補(bǔ)償受發(fā)音系統(tǒng)所抑制的高頻部分,其傳遞函數(shù)為:
H(z)=1-kz-1
(2)
其中:k介于0.9和1.0之間,本文實(shí)驗(yàn)中取0.95。
2)分幀:將N個(gè)采樣點(diǎn)集合成一個(gè)觀測(cè)單位,稱(chēng)作幀,為避免相鄰兩幀間變化過(guò)大,相鄰幀間有一段重疊區(qū)域,稱(chēng)作幀移,常為N的1/2或1/3。
3)漢明窗:增加窗邊界處信號(hào)的連續(xù)性,減小吉伯斯效應(yīng):
(3)
4)離散傅里葉變換:將信號(hào)的時(shí)域分布變換為頻域上的能量分布:
(4)
5)Mel濾波:消除諧波,降低數(shù)據(jù)維數(shù),將離散譜X(k)通過(guò)M個(gè)Mel濾波器組,得到M個(gè)h(m)參數(shù):
(5)
6)離散余弦變換:將經(jīng)過(guò)對(duì)數(shù)運(yùn)算的濾波輸出變換到倒譜域,得到MFCC參數(shù):
(6)
由以上步驟得到的靜態(tài)MFCC,經(jīng)差分運(yùn)算可得到一階差分倒譜系數(shù)ΔMFCC,ΔMFCC作為動(dòng)態(tài)特征參數(shù),能更加完整地表征說(shuō)話(huà)者的動(dòng)態(tài)語(yǔ)音特征[9],描述語(yǔ)音信號(hào)幀間變化即說(shuō)話(huà)者的動(dòng)態(tài)特征。本文實(shí)驗(yàn)中采用MFCC與ΔMFCC的組合參數(shù)。
語(yǔ)音增強(qiáng)是從帶噪語(yǔ)音中消去或減小其中的噪聲以獲得較純凈的語(yǔ)音,使提取的特征參數(shù)接近于無(wú)噪聲的情況。語(yǔ)音增強(qiáng)主要有譜減法、Wiener濾波法、最小均方誤差估計(jì)法等,其中譜減法具有計(jì)算量小、引入約束條件少等優(yōu)點(diǎn)而應(yīng)用廣泛。
2.1基本譜減法
基本譜減法中,假定且噪聲和語(yǔ)音不相關(guān)且噪聲為加性噪聲,記為z(n),純凈語(yǔ)音信號(hào)為平穩(wěn)信號(hào),記為s(n),則帶噪信號(hào)為:
(7)
設(shè)y(n)、s(n)、z(n)的傅里葉變換分別為Yk、Sk、Zk,則對(duì)(7)兩邊進(jìn)行傅里葉變換有:
(8)
于是可得:
(9)
由于s(n)與z(n)相互獨(dú)立,則Sk和Zk獨(dú)立,且Zk滿(mǎn)足高斯分布且均值為零,則有:
(10)
記為無(wú)語(yǔ)音時(shí)的統(tǒng)計(jì)平均值,則對(duì)于分幀內(nèi)的短時(shí)平穩(wěn)過(guò)程有:
(11)
于是,增強(qiáng)后的語(yǔ)音信號(hào)為:
(12)
基本譜減法的核心是以無(wú)語(yǔ)音幀中噪聲的統(tǒng)計(jì)均值替代整段語(yǔ)音的噪聲估計(jì),但以不變的統(tǒng)計(jì)均值替代隨機(jī)變化的噪聲進(jìn)行譜減就會(huì)產(chǎn)生很大誤差,出現(xiàn)殘留噪聲即音樂(lè)噪聲。為了改善音樂(lè)噪聲問(wèn)題而出現(xiàn)了許多改進(jìn)的譜減法:有人將聽(tīng)覺(jué)掩敝模型用于譜減法[10],但要人為設(shè)定參數(shù),會(huì)增加系統(tǒng)復(fù)雜度和引入新的失真;有人提出在譜減法計(jì)算譜值時(shí)引入修正系數(shù)[11],但人為確定的系數(shù)并沒(méi)有改變以偏概全的本質(zhì);還有人提出添加語(yǔ)音活性檢測(cè)[12]步驟,但在低信噪比時(shí)效果較差。本文在基本譜減法的基礎(chǔ)上引入譜熵的概念,用以更為精確地進(jìn)行噪聲估計(jì)以獲得更好的去噪效果。
2.2譜熵與頻譜的關(guān)系
針對(duì)短時(shí)平穩(wěn)的語(yǔ)音信號(hào),將其分成若干短時(shí)幀,然后經(jīng)傅里葉變換得到的短時(shí)頻譜并進(jìn)行歸一化處理,其概率密度函數(shù)如下:
(13)
其中:s(fi)是頻率分量fi的頻譜值,對(duì)應(yīng)的概率密度值為pi,N為FFT的頻率點(diǎn)數(shù),每幀譜熵定義為:
(14)
譜熵是熵的一種形式,具有熵的基本性質(zhì)[13]:熵值不因各分量的次序改變而變化;熵值在集合中的事件等概率發(fā)生時(shí)達(dá)到最大值,例如在式(14)中有H≤log2(N)。由譜熵的定義和性質(zhì)可知,每幀譜熵值僅與頻譜的分布有關(guān),與頻譜值不直接相關(guān),且語(yǔ)音譜熵值隨頻譜分布的變化有如下規(guī)律:
純靜語(yǔ)音的頻率分布的范圍較小,頻譜s(fi)及其概率分布pi較為集中,可表示為pi1=(p1,p2,…,ps,0,0,…,0),i=1,2,…,N,s?N;噪聲的頻譜較為豐富,頻譜s(fi)及其概率分布pi也較為分散,可表示為pi2=(p1,p2,…,pn,0,0,…,0),i=1,2,…,N,n≈N;對(duì)于H(pi1)和H(pi2),由于s?n,根據(jù)譜熵的性質(zhì)可以知H(pi1) 綜上可知,譜熵值受頻譜分布影響且與頻譜幅度不直接相關(guān),于是可根據(jù)譜熵值更準(zhǔn)確地區(qū)分噪聲幀和語(yǔ)音幀使提取的特征參數(shù)具有更好的魯棒性。 2.3基于譜熵的譜減法改進(jìn) 噪聲值的估計(jì)不準(zhǔn)會(huì)使譜減去噪時(shí)產(chǎn)生音樂(lè)噪聲,且噪聲值隨機(jī)變化,但其譜熵值變化不大,本文根據(jù)各幀的譜熵變化來(lái)確定并動(dòng)態(tài)的更新噪聲值,每一幀都減去更新后的噪聲值,由信號(hào)的短時(shí)平穩(wěn)性可知,這樣進(jìn)行譜減更為準(zhǔn)確[14]。 基于譜熵噪聲估計(jì)改進(jìn)的譜減法 (Improved Spectral Subtraction,ISS)分為3個(gè)部分: 1)初始噪聲估計(jì),將譜熵值最大的一幀作為噪聲幀并將該幀頻譜值更新為初始噪聲值; 2)噪聲更新,根據(jù)判斷新一幀與前一噪聲幀譜熵值的比值是否大于設(shè)定閾值r(根據(jù)實(shí)驗(yàn),取為0.95):是則判定此幀為新噪聲幀并更新其頻譜值為噪聲譜值,否則當(dāng)前幀的噪聲值等于前一幀的噪聲值; 3)譜減,每一幀減去更新后的噪聲值完成消噪。 加入改進(jìn)譜減法后的MFCC提取算法過(guò)程如下: 1)輸入含噪語(yǔ)音; 2)對(duì)每一語(yǔ)音幀進(jìn)行FFT變換,得到語(yǔ)音頻譜Si,其中,i=1,2,…,N; 3)計(jì)算每一幀的譜熵值h(Si),將譜熵值最大的一幀m作為初始噪聲幀,即Noise=Sm; 4)若新的一幀的譜熵值與前一純?cè)肼晭谋戎荡笥陂撝郸?取為0.95),即h(Sn)/h(Sm)>γ,n=1,2,…,N,此時(shí)便更新噪聲估計(jì)Noise=Sn; 5)利用前面已得到的語(yǔ)音譜Si以及更新后的噪聲幀估計(jì)Noise進(jìn)行譜減; 6)輸出消噪后的增強(qiáng)語(yǔ)音頻譜。 3.1GMM模型 GMM[15]模型原理是若干高斯函數(shù)的線性組合可逼近任意曲線,其作為一種概率統(tǒng)計(jì)模型能精確地描繪說(shuō)話(huà)人特征參數(shù)的概率分布。對(duì)于混合度為M、模型參數(shù)為λ的GMM,特征矢量為X,則X在該GMM模型下的似然度為: (15) (16) 式中,μi表示均值向量,∑i表示協(xié)方差矩陣,本文∑i采用對(duì)角陣的形式以方便計(jì)算。 GMM模型參數(shù)包含混合權(quán)值、均值矢量及協(xié)方差矩陣,即λ={ωi,μi,∑i},i=1,2,…,M,λ可通過(guò)EM算法[16]估計(jì)得出。 3.2GMM-UBM模型 GMM模型在訓(xùn)練和測(cè)試語(yǔ)音都足夠長(zhǎng)且語(yǔ)音較純凈的情況下,其識(shí)別效果比較理想。當(dāng)訓(xùn)練語(yǔ)音只有數(shù)十秒、測(cè)試語(yǔ)音只有幾秒時(shí),GMM模型就不能很好地刻畫(huà)說(shuō)話(huà)人特征。GMM-UBM模型的原理是先利用所有的語(yǔ)音訓(xùn)練得到一個(gè)UBM,然后基于MAP(Maximum A Posteriori)自適應(yīng)UBM得到目標(biāo)說(shuō)話(huà)人的GMM模型,可用來(lái)彌補(bǔ)數(shù)據(jù)的不足。UBM是一個(gè)大型的高斯混合模型,可反映所有說(shuō)話(huà)人語(yǔ)音特征以及環(huán)境通道的共性,通過(guò)大量說(shuō)話(huà)人在各種環(huán)境下的數(shù)據(jù)訓(xùn)練獲得。 在GMM-UBM模型中,對(duì)于測(cè)試語(yǔ)音的特征矢量序列X={Xi},i=1,2,…,M,每個(gè)說(shuō)話(huà)人的對(duì)數(shù)概率得分計(jì)算公式如下: (17) 式中,λs為目標(biāo)說(shuō)話(huà)人的GMM模型參數(shù),λUBM為UBM模型參數(shù)。 訓(xùn)練階段利用大量的語(yǔ)音進(jìn)行訓(xùn)練得到UBM,在UBM的基礎(chǔ)上通過(guò)MAP自適應(yīng)得到目標(biāo)說(shuō)話(huà)人的GMM模型。測(cè)試階段根據(jù)已經(jīng)訓(xùn)練好的UBM模型和GMM模型,利用公式(17)計(jì)算出對(duì)數(shù)概率得分,找到最大的得分者即目標(biāo)說(shuō)話(huà)人?;贕MM-UBM模型的說(shuō)話(huà)人識(shí)別原理框圖如下: 采用似然比打分的方式是一種歸一化處理,可對(duì)不同的目標(biāo)話(huà)人設(shè)置統(tǒng)一的判決閾值。識(shí)別時(shí)分別計(jì)算似然度得分,選取最大者對(duì)應(yīng)的目標(biāo)說(shuō)話(huà)人即為識(shí)別結(jié)果[17]。 4.1實(shí)驗(yàn)設(shè)置 硬件環(huán)境:PC個(gè)人計(jì)算機(jī)(Intel(R)Core(TM) i5-3210M CPU@2.5 GHz)。 軟件環(huán)境:Windows 7操作系統(tǒng)、MATLAB R2010a和CoolEditpro-v2.0錄音軟件。 實(shí)驗(yàn)采用的語(yǔ)音庫(kù)為自建小型普通話(huà)語(yǔ)音數(shù)據(jù)庫(kù)。語(yǔ)音文件在普通研究室環(huán)境下錄制,采樣頻率為8 kHz,量化精度為16 bit。60名錄音者(34名男性、26名女性)隨機(jī)朗讀5分鐘(文本無(wú)關(guān))。從每人語(yǔ)音中截取UBM訓(xùn)練語(yǔ)音(1 min)、GMM訓(xùn)練語(yǔ)音(10 s)和測(cè)試語(yǔ)音(5 s)。為提高本文后續(xù)實(shí)驗(yàn)的有效性,進(jìn)行截取時(shí)避免所截取的語(yǔ)音段重復(fù)。 實(shí)驗(yàn)采用13維MFCC與13維ΔMFCC組成的組合參數(shù),按幀長(zhǎng)256個(gè)采樣點(diǎn)、幀移128個(gè)采樣點(diǎn)逐幀提取語(yǔ)音特征參數(shù)。訓(xùn)練階段依次訓(xùn)練UBM模型(高斯混合度為128)和GMM模型,之后通過(guò)MAP自適應(yīng)得到目標(biāo)說(shuō)話(huà)人的GMM模型。測(cè)試階段從語(yǔ)料庫(kù)中選取50個(gè)說(shuō)話(huà)人構(gòu)成測(cè)試集,每個(gè)人有5段測(cè)試語(yǔ)音。 4.2實(shí)驗(yàn)結(jié)果與分析 實(shí)驗(yàn)一:不同信號(hào)的幅值及譜熵值的對(duì)比: 圖3 純凈語(yǔ)音信號(hào)S 圖5 純高斯白噪聲N 圖6 N的譜熵值 圖7 加噪語(yǔ)音S1 圖8 S1的譜熵值 從圖4和圖5可以看出,純凈語(yǔ)音信號(hào)中語(yǔ)音幀的譜熵值都比較小,在5.8上下波動(dòng),靜音幀的譜熵值較大,在7.0之上波動(dòng);從圖6和圖7可以看出,純高斯白噪聲的譜熵值較大,在7.5之上波動(dòng);從圖8和圖9可以看出,在含噪語(yǔ)音中,語(yǔ)音幀和噪聲幀的譜熵值分別在6.0和7.2左右。因此可據(jù)此將譜熵值最大的一幀作為噪聲幀,并根據(jù)各幀的譜熵變化來(lái)確定并動(dòng)態(tài)的更新噪聲值。 實(shí)驗(yàn)二:低噪環(huán)境中GMM與GMM-UBM模型對(duì)比: 在未加噪情況下,采用未加入譜減法的MFCC作為特征參數(shù),對(duì)比GMM與GMM-UBM模型識(shí)別效果,分別取GMM混合度為8,16,32,64進(jìn)行實(shí)驗(yàn),得出識(shí)別率如下表: 表1 不同混合度的GMM模型與GMM-UBM模型對(duì)比 由表可見(jiàn),在基于GMM模型中,混合度為32時(shí)的識(shí)別性能最好,而GMM-UBM模型識(shí)別性能遠(yuǎn)高于GMM模型。 實(shí)驗(yàn)三:不同參數(shù)在不同噪聲環(huán)境中識(shí)別率對(duì)比: 分別在SNR=10dB、5dB、0dB、-5dB環(huán)境下,對(duì)未進(jìn)行語(yǔ)音增強(qiáng)的MFCC、采用基本譜減法(SS)得到的MFCC和采用改進(jìn)譜減法(ISS)得到的MFCC進(jìn)行說(shuō)話(huà)人識(shí)別實(shí)驗(yàn),得到識(shí)別結(jié)果如下: 表2 不同信噪比下3種參數(shù)識(shí)別率 % 由表可見(jiàn),在相同信噪比環(huán)境下,基本譜減法所提取的MFCC性能好于未進(jìn)行語(yǔ)音增強(qiáng)的MFCC,而本文提出的改進(jìn)譜減法提取的MFCC性能優(yōu)于基本譜減法所提取的MFCC。隨著信噪比的降低,各方法提取的特征參數(shù)識(shí)別率均有所下降,本文提出的改進(jìn)譜減法所提取的MFCC對(duì)識(shí)別性能的改善更為明顯,在SNR=-5dB的環(huán)境中也能達(dá)到75%以上的識(shí)別率,較基本譜減法所提取的MFCC在識(shí)別率方面有30%以上的提高。 本文提出了改進(jìn)譜減法用以改善加性噪聲降低說(shuō)話(huà)人識(shí)別系統(tǒng)性能的問(wèn)題,首先介紹了傳統(tǒng)的MFCC提取算法,隨后對(duì)語(yǔ)音增強(qiáng)中的基本譜減法進(jìn)行改進(jìn),并仿真實(shí)現(xiàn)了改進(jìn)譜減法的MFCC提取?;贕MM-UBM系統(tǒng)經(jīng)加噪測(cè)試實(shí)驗(yàn),結(jié)果表明改進(jìn)譜減法提取得到的MFCC較基本譜減法具有更強(qiáng)的魯棒性,在低信噪比環(huán)境中有更好的表現(xiàn)。此外,采用GMM-UBM計(jì)算量較大,耗時(shí)較長(zhǎng),如何減少識(shí)別系統(tǒng)的計(jì)算量,提高識(shí)別效率將是接下來(lái)的研究工作。 [1] 徐子豪,張騰飛. 基于語(yǔ)音識(shí)別和無(wú)線傳感網(wǎng)絡(luò)的智能家居系統(tǒng)設(shè)計(jì)[J]. 計(jì)算機(jī)測(cè)量與控制,2012 ,01: 180-182. [2]張雪英. 數(shù)字語(yǔ)音處理及MATLAB仿真[M]. 北京: 電子工業(yè)出版社,2011. [3]Yu G H,Zhao Y L,Wei Z X. A descent nonlinear conjugate gradient method for large-scale unconstrained optimization[J]. Applied Mathematics and Computation,2007,187(2):636-642. [4]曾祺,甘濤,曾紅斌.改進(jìn)的多窗譜MFCC在說(shuō)話(huà)人確認(rèn)中的應(yīng)用[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2014,23(11):192-195. [5]王路露,夏旭,馮璐,等. 基于頻譜方差和譜減法的語(yǔ)音端點(diǎn)檢測(cè)新算法[J].計(jì)算機(jī)工程與應(yīng)用,2014 ,50 (8): 194-197. [6]李曄,張仁智,崔慧娟,等. 低信噪比下基于譜熵的語(yǔ)音端點(diǎn)檢測(cè)算法[J]. 清華大學(xué)學(xué)報(bào)(自然科學(xué)版),2005,45 (10): 1397-1400. [7]周?chē)?guó)鑫,高勇. 基于GMM-UBM模型的說(shuō)話(huà)人辨識(shí)研究[J]. 無(wú)線電系統(tǒng),2014,44(12):14-17. [8]楊海燕,景新幸,曾招華.基于DSP開(kāi)發(fā)板的語(yǔ)音識(shí)別系統(tǒng)的研究[J]. 計(jì)算機(jī)測(cè)量與控制,2013(01): 210-212,220.[9] 吳迪,曹潔,王進(jìn)花. 基于自適應(yīng)高斯混合模型與靜動(dòng)態(tài)聽(tīng)覺(jué)特征融合的說(shuō)話(huà)人識(shí)別[J]. 光學(xué)精密工程,2013,21(6):1598-1604. [10] 馬義德,邱秀清,陳昱蒞,等. 改進(jìn)的基于聽(tīng)覺(jué)掩蔽特性的語(yǔ)音增強(qiáng)[J]. 電子科技大學(xué)學(xué)報(bào),2008,37(2): 255-25. [11] 茅正沖,王正創(chuàng),龔熙. 一種低信噪比下的說(shuō)話(huà)人識(shí)別算法研究[J]. 計(jì)算機(jī)應(yīng)用與軟件,2014,31(12): 218-220,251. [12] Kitaoka N,Yamamoto K,KusamizuT,et al..Development of VAD evaluation framework CENSREC-1-C and investigation of relationship between VAD and speech recognition performance[A]. Automatic Speech Recognition & Understanding[C],Kyoto,Japan,2007:607-612. [13] 李振靜,王國(guó)胤,楊勇,等. 基于譜熵噪聲估計(jì)的改進(jìn)譜減法[J]. 計(jì)算機(jī)工程,2009,35(18):164-166. [14] 杜志然,周萍,景新幸,等. 基于譜熵的耳語(yǔ)音增強(qiáng)研究[J]. 傳感器與微系統(tǒng),2012,31(6):69-72. [15] 蔣曄,唐振民. GMM文本無(wú)關(guān)的說(shuō)話(huà)人識(shí)別系統(tǒng)研究[J]. 計(jì)算機(jī)工程與應(yīng)用,2010,46(11):179-182. [16] 趙立輝,毛竹,霍春寶,等. 基于GMM-SVM的說(shuō)話(huà)人識(shí)別系統(tǒng)研究[J]. 工礦自動(dòng)化,2014,40(5):49-53. [17] 侯玨,劉軼,鄭方,等. 基于VP樹(shù)結(jié)構(gòu)的多層匹配算法在哼唱識(shí)別中的應(yīng)用[J]. 清華大學(xué)學(xué)報(bào)(自然科學(xué)版),2009,49(S1):1419-1424. Speaker Recognition Using Spectral Subtraction Method Based on Improved Noise Estimation Li Zhejun1,Zhou Ping1,Jing Xinxing2 (1.School of Electronic Engineering and Automation,Guilin University of Electronic Technology,Guilin541004,China; 2.School of Information and Communication,Guilin University of Electronic Technology,Guilin541004,China) Aiming at the problem that additive noise in speech signal makes the performance of speaker recognition system degradate when using MFCC. The introduction of traditional spectral subtraction achieved some effect on enhancing noise immunity of MFCC,but the improvement is limited. To get a better result,a novel algorithm of spectral subtract is proposed in this paper. The concept of spectral entropy is introduced based on the spectral subtraction,the noise of each flame is estimated more accurately according to its spectral entropy and subtracted to get better denoising effect. Experimental results show that when there is additive noise in the test speech,compared with traditional spectral subtraction,the speaker recognition system of novel algorithm has better noise immunity and robustness. speaker recognition; spectral subtraction; spectral entropy; noise estimation; MFCC 1671-4598(2016)04-0155-04DOI:10.16526/j.cnki.11-4762/tp.2016.04.046 TN912.34 A 2015-10-10; 2015-11-08。 廣西研究生教育創(chuàng)新計(jì)劃資助項(xiàng)目(YCSZ2015152);國(guó)家自然科學(xué)基金(61363005)。 李哲軍(1990-),男,湖北天門(mén)人,碩士研究生,主要從事語(yǔ)音識(shí)別方向的研究。 周萍(1961-),女,河北唐山人,教授,碩士研究生導(dǎo)師,主要從事智能控制及語(yǔ)音信號(hào)處理的研究。 景新幸(1960-),男,湖北武漢人,教授,碩士研究生導(dǎo)師,主要從事語(yǔ)音識(shí)別及其混合集成電路的研究。3 GMM-UBM模型
4 實(shí)驗(yàn)結(jié)果與分析
5 結(jié)束語(yǔ)