魏 勛,耿志輝,王曉攀
(1.中國人民解放軍63891部隊,河南洛陽471003;2.中國人民解放軍63888部隊,河南濟源454650)
當前的很多語音識別系統(tǒng)在實驗室環(huán)境下都可以達到相當高的識別正確率,但在實際環(huán)境中,性能會急劇下降。其根本原因在于不同環(huán)境下語音的畸變引起了訓(xùn)練環(huán)境和測試環(huán)境的不匹配,導(dǎo)致訓(xùn)練數(shù)據(jù)所獲得的語音信息無法正確表達測試環(huán)境的數(shù)據(jù),即噪聲魯棒性問題。因此,如何提高系統(tǒng)的魯棒性是語音識別的一個關(guān)鍵難點,語音識別的魯棒性特征提取方法可以很好地解決這一問題。
語音識別就是讓機器通過識別和理解過程把語音信號轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的技術(shù),它包含2種含義:①將口述語言逐字逐句地轉(zhuǎn)換成相應(yīng)的文字;②對說的話所包含的要求或詢問做出正確的響應(yīng),而不拘泥于轉(zhuǎn)換成書面文字。典型語音識別系統(tǒng)的實現(xiàn)過程如圖1所示。
實際語音識別環(huán)境復(fù)雜多變,在此主要考慮其中最重要的因素,即加性噪聲和卷積噪聲。
假設(shè)干凈語音用序列x[m]表示,卷積噪聲用濾波器h[m]表示,加性噪聲用n[m]表示,帶噪語音用y[m]表示。在時域、頻域,分別有以下關(guān)系:
圖1 語音識別系統(tǒng)基本原理框圖
在等式(2)兩邊取模平方,則其幅度譜之間的關(guān)系為:
式(3)中忽略了 2|X[k]|?|H[k]|?|N[k]|cosθk,θk表示復(fù)變量N[k]和X[k]?H[k]之間夾角。
對于倒譜域,倒譜參數(shù)定義如下:
式中,C為離散余弦變換矩陣。對式(3)兩邊取對數(shù),有:
根據(jù)式(4)的定義,容易得到:
其中非線性函數(shù):
MFCC是基于人耳聽覺,加入了與人類聽覺系統(tǒng)有關(guān)的Mel濾波器組,流程如圖2所示。
Wnt/β-catenin通路的活性決定了MPCs是分化為成骨細胞還是軟骨細胞。實驗表明[23],敲除βcatenin的間充質(zhì)細胞,會向軟骨方向分化,而使骨生成受到抑制,生成異位的軟骨。
圖2 MFCC流程
設(shè)濾波器組的個數(shù)為M,每個濾波器的定義如下:
Mel域頻率定義為:
式中,f為線性域頻率;m為Mel域頻率。式(8)中f[m]由下式計算:
式中,N為快速傅里葉變換點數(shù);Fs為采樣率;fl和fh分別為濾波器組的最低頻率和最高頻率;M為濾波器組的維數(shù)。則濾波器組輸出為:
語音識別所使用的參數(shù),例如MFCC,本身都是隨機變量,因而有相應(yīng)的概率分布,訓(xùn)練環(huán)境和測試環(huán)境的不匹配也就表現(xiàn)為概率分布上的差異。一般可以通過對參數(shù)進行規(guī)整或歸一化來減小這種差異,最經(jīng)典和常用的累計分布函數(shù)匹配的方法就正是基于這一點。下面給出的3種方法是對這一思想的引伸。
式(6)中若不考慮加性噪聲,則有
下標t表示第t幀,對于干凈倒譜序列X={x0,x1,…xT-1},均值ˉx為:
然后對每一幀減去這個均值,即歸一化,有
可以看出,歸一化后的帶噪倒譜是原來干凈倒譜的歸一化結(jié)果,完全去除信道h的影響,補償了信道畸變。
MVN不僅考慮倒譜均值的歸一化,同時也考慮了方差,它是CMN的一個擴展。大量實驗表明,噪聲的影響往往表現(xiàn)為干凈語音分布參數(shù)的變化,最常見的是均值的偏移和方差的壓縮和擴張。定義方差:
則MVN的計算公式為:
人類對語音的聽覺感知可以抑制相對平穩(wěn)、變化緩慢的非語言背景。通常來說,信道相對于語音的變化是平緩的甚至常量,因此可以通過一個低端截止頻率非常低的帶通濾波器,抑制住頻帶上緩變的部分。RASTA濾波方法采用的帶通濾波器傳遞函數(shù)為:
仿真平臺采用歐洲電信標準委員會(ETSI)發(fā)行的Aurora 2.0數(shù)據(jù)庫,基于ETSI_ES _201 _108標準,采用14維特征向量(13維MFCC和對數(shù)能量),語音采用幀輸入,幀長為25 ms,幀移長度為10 ms,加窗為漢明窗,Mel濾波器組為23維,最低頻率64 Hz,最高頻率4 kHz,采樣率8 kHz。選用Aurora 2.0的數(shù)據(jù)庫的性能評測標準,即相對于ETSI標準參考MFCC提取程序訓(xùn)練識別結(jié)果的性能提升。相對性能提升計算公式為:
Aurora 2.0數(shù)據(jù)組織可分為兩部分:訓(xùn)練集和測試集。訓(xùn)練集包括干凈訓(xùn)練集和帶噪訓(xùn)練集。干凈訓(xùn)練集沒有加入噪聲,用來訓(xùn)練一個對應(yīng)用于干凈語音的模型;帶噪訓(xùn)練集加入了不同信噪比的噪聲,用于訓(xùn)練一個帶噪聲數(shù)據(jù)的模型。測試集按照不同的測試目的,分為A、B、C三個部分。
CMN的識別結(jié)果相對于MFCC的性能提升如表1所示??梢钥闯?在帶噪模型訓(xùn)練方式下,CMN的識別性能都有所提升,特別對測試集C這種不可見信道的情形,這說明CMN對消除信道影響很有效。但在干凈模型下的測試集C,結(jié)果有些異常,這與干凈模型下環(huán)境的高度不匹配有關(guān)。
表1 CMN的仿真結(jié)果
MVN的識別結(jié)果相對于MFCC的性能提升如表2所示。和CMN相比較,MVN可能削弱了它在去除信道影響方面的優(yōu)勢(如帶噪模型下的測試集C),但對其他測試集的識別結(jié)果以及平均性能都有一定的提高。
表2 MVN的仿真結(jié)果
RASTA濾波的識別結(jié)果相對于MFCC的性能提升如表3所示。通過RASTA濾波后,識別性能有了普遍的提升,說明RASTA濾波對去除信道噪聲的低頻成分中人耳聽不到的部分是有效的。
表3 RASTA濾波的仿真結(jié)果
訓(xùn)練環(huán)境和測試環(huán)境的不匹配是造成實際情況下語音識別性能下降的主要原因,CMN可以補償信道畸變,但當信道出現(xiàn)非平穩(wěn)加性噪聲時,性能會有較大下降;MVN雖在語音識別中較有效,但由于噪聲的多變而影響其應(yīng)用范圍;RASTA濾波通過一個低端截止頻率非常低的帶通濾波器抑制頻帶上緩變的部分,是一種用于減小傳輸通道影響的方法。實際應(yīng)用中,可以針對不同的噪聲環(huán)境采用不同的算法。
[1]GONG Y F.Speech Recognition in Noisy Environment:a Survey[J].Speech Communication,1995,16(3):261-291.
[2]ZHANG Jun,WEIGang.RobustMulti-stream Speech Recognition Based on Weighting the Output Probabilities of Feature Components[J].聲學(xué)學(xué)報(英文版),2009,33(3):269-279.
[3]關(guān) 勇,李 鵬.基于計算聽覺場景分析和語者模型信息的語音識別魯棒前端研究[J].自動化學(xué)報,2009,35(4):410-460.
[4]惠 博.語音識別特征提取算法的研究及實現(xiàn)[D].陜西:西北工業(yè)大學(xué)碩士論文,2008:34-37.
[5]趙 力.語音信號處理[M].北京:機械工業(yè)出版社,___2009.