杜 俊,戴禮榮,王仁華
(中國科學技術(shù)大學電子工程與信息科學系科大訊飛語音實驗室,安徽合肥230027)
隨著自動語音識別(ASR:Automatic Speech Recognition)技術(shù)的發(fā)展,語音識別器的噪聲魯棒性在實際系統(tǒng)的開發(fā)中得到了越來越多的關(guān)注。各種各樣的噪聲魯棒性技術(shù)層出不窮,既有特征域方法也有模型域方法[1-2]。由于模型域方法對運算復雜度要求更高,因此本文中我們關(guān)注于特征域方法。在特征域方法中,有一大類稱為特征規(guī)整方法。首先最簡單的是倒譜均值規(guī)整(CMN:Cepstral Mean Normalization),CMN雖然簡單,但卻是一種非常有效的去除時不變信道影響的途徑,在很多實際系統(tǒng)中都加以采用;CMN的一個自然擴展是倒譜均值方差規(guī)整(MVN:M ean and V ariance Normalization)[3],它通過同時對均值和方差做規(guī)整,在達到對信道影響去除的基礎(chǔ)上,也能對加性噪聲進行很好的抑制。從統(tǒng)計學角度來看,均值和方差分別是和一階矩和二階矩相關(guān)的,因此自然而然就會想到更為一般化的倒譜高階矩規(guī)整(HOCMN:High Order Cepstral M oment Normalization)[4],實驗證明HOCMN確實有更好的噪聲魯棒性。此外,從累積分布函數(shù)匹配(Cumu lative Density Function M atching)的角度,有人提出了所謂的雙高斯規(guī)整(DGN:Double Gaussian Norm alization)[5],DGN方法基于這樣一個假設(shè):噪聲環(huán)境下語音特征分布往往表現(xiàn)出雙峰特點。上面這些規(guī)整方法都是基于參數(shù)化模型,另外還有一類方法是基于非參數(shù)化模型的,比如使用累積直方圖的直方圖均衡(HEQ:H istogram EQualization)[6]。HEQ相比于 CMN和MVN最大的優(yōu)勢在于其非線性變換特性,不僅僅匹配特征分布的均值方差,而是考慮了特征整體分布。針對傳統(tǒng)HEQ方法的某些缺陷,又有一系列改進算法,如分數(shù)位直方圖均衡(Quantile HEQ)[7]、漸進式直方圖均衡(Progressive HEQ)[8]和多項式擬合直方圖均衡(Polynomial-fitHEQ)[9]。
我們提出的倒譜形狀規(guī)整(CSN:Cepstral Shape Normalization)方法可以說不僅考慮了以上各種方法存在的缺陷,而且具有更加明確的物理意義。首先CMN和MVN方法本身過于簡單,無法對付復雜的噪聲環(huán)境;HOCMN雖然有所改進,但是其解法并不直接,特別是奇數(shù)階和偶數(shù)階還要分開考慮;HEQ需要較多的數(shù)據(jù)量來計算累積分布函數(shù),這對于句子級規(guī)整來說,總是一個問題。其次,在文獻[10-12]中,討論了語音特征分布的建模問題,并且我們的初步實驗表明在噪聲環(huán)境下語音倒譜特征分布每一維都可以用一般化高斯分布(GGD:Generalized Gaussian Density)來很好的近似。綜合以上兩方面討論,提出了CSN方法。它不僅物理意義明確,而且解法也很簡單,只需要估計形狀因子,對數(shù)據(jù)量的要求很小。
下面我們將分幾部分對CSN方法加以介紹。首先在第二節(jié)中,將從原理出發(fā)對CSN進行分析和推導;然后在第三節(jié)和第四節(jié)中,我們將給出實驗配置和實驗結(jié)果,最后在第五節(jié)中給出結(jié)論。
在介紹CSN方法之前,我們首先來對噪聲環(huán)境下的語音特征分布進行初步的分析。在圖1中,我們給出了干凈環(huán)境和噪聲環(huán)境下各維特征分布的對比,這里的特征我們都做了MVN預處理,因為我們只關(guān)心分布形狀的變化。我們觀察到:在干凈環(huán)境下,C0維和對數(shù)能量維的分布呈現(xiàn)出雙峰,而其他維都是單峰的;在噪聲環(huán)境下(信噪比0dB時),各維分布形狀都發(fā)生了變化。不過我們發(fā)現(xiàn)所有維(包括C0和對數(shù)能量)都比較像高斯分布,區(qū)別在于不同維分布形狀的峰度和偏度不同。
受此啟發(fā),我們引入一般化高斯分布(GGD)[12],這里我們用它來很好的擬合噪聲環(huán)境下的語音特征分布。對于統(tǒng)計信號 x,假設(shè)具有零均值和單位方差,那么其一般化高斯分布的概率密度函數(shù)如下:
A(v)定義了GGD分布的散度(Dispersion)和尺度(Scale),參數(shù)v則描述了指數(shù)衰減的速率,一般反映了分布的形狀(Shape)或者偏度(Skewness)。圖2給出了不同v值對應的概率密度分布圖,可以看出,v越小會產(chǎn)生越明顯的拖尾和更尖銳的峰。當v=2時,GGD對應于標準高斯或者正態(tài)分布。
圖2 不同v值對應的概率密度函數(shù)分布圖
基于2.1節(jié)的分析,CSN算法可以概述為以下兩個步驟(同時對訓練和測試數(shù)據(jù)處理)。步驟1:對倒譜參數(shù)進行MVN預處理。
此處x(n,k)表示第n幀原始特征向量的第k維,μ(k)和σ(k)分別表示當前句子第k維特征向量的均值和標準差。
步驟2:利用指數(shù)因子進行形狀規(guī)整。
α(k)是第k維形狀因子,和GGD分布里面的形狀參數(shù)v類似。公式(5)中我們的目的就是使得變換之后的特征滿足一個由GGD分布表征的參考分布。
為了求出形狀因子α(k),這里采用矩匹配估計(MME:Moment M atching Estim ator)[12]。首先我們定義形狀參數(shù)為v0的GGD分布的r階絕對中心矩(Absolute CentralM oment):
我們把公式(1)帶入上式,則可以進一步得到:
接著定義一般化高斯比函數(shù)(Generalized Gaussian Ratio Function):
可以看出,公式(8)是根據(jù)GGD分布的參數(shù)得到的;另一方面,我們利用當前句子本身信息可以得到一般化高斯比函數(shù)的估計形式如下:
根據(jù)MME準則,我們可以得到形狀因子的方程:
很顯然,只要求出上述方程的根,就能得到形狀因子??梢宰C明,上式左邊函數(shù)是關(guān)于形狀因子的單調(diào)函數(shù),因此我們可以采用數(shù)值迭代方法快速找到方程的根。最后,我們討論一下公式(10)中兩個自由參數(shù)v0和r的確定。我們初步做了一些挑選實驗發(fā)現(xiàn)當v0=2和r=2時,可以達到最佳性能,其實這組參數(shù)具有很強的物理意義。首先,v0=2表示我們采用的參考分布是標準高斯分布;其次,r=2表示公式(7)中我們采用的是統(tǒng)計學里面很重要的物理量—峰度(Kurtosis)。
雖然CSN規(guī)整方法能有效地使得測試和訓練在統(tǒng)計上達到匹配,但是在某些情況下,由非穩(wěn)態(tài)噪聲引起時序上的毛刺,無法通過規(guī)整算法進行很好的處理,一般使用一個簡單的平滑濾波器解決這個問題,比如本文中采用的ARMA濾波器[13]。
我們的CSN方法將在aurora2和aurora3兩個數(shù)據(jù)庫上加以驗證。這兩個數(shù)據(jù)庫都是專門為驗證噪聲魯棒性算法設(shè)計的。Aurora2是人工加噪(包括加性噪聲和信道影響)的英文數(shù)字串任務(wù),干凈數(shù)據(jù)來源來TIDigits數(shù)據(jù)庫。定義了兩種訓練方式,一種是干凈訓練(Clean Condition Training),即訓練中只有干凈數(shù)據(jù);另一種是加噪訓練(M u lti Condition Training),即將各種環(huán)境下加噪之后的數(shù)據(jù)混在一起訓練,本文實驗只采用了干凈訓練,因為這種情況下測試和訓練的不匹配程度最高,能很好的體現(xiàn)規(guī)整算法的有效性。測試集按照不同信噪比和噪聲環(huán)境的組合劃分了很多子集,如果按照大類可分為SetA/SetB/SetC三個集合,其中SetA的噪聲環(huán)境是和加噪訓練集完全匹配的,SetB的加性噪聲環(huán)境和加噪訓練集不匹配,而SetC在加性噪聲和信道影響兩方面都不匹配。
Aurora3也是數(shù)字串任務(wù),不過它的數(shù)據(jù)都是在各種真實的車載環(huán)境下采集的,并且包含四種語言:丹麥語、德語、西班牙語和芬蘭語。根據(jù)測試和訓練的匹配程度定義了三種實驗模式:高度匹配(Well-Matched)、中度不匹配(M id-M ismatch)、高度不匹配(High-Mismatch)。
實驗中我們采用的前端特征包括12維MFCC、C0和對數(shù)能量,再加上這些特征對應的一階和二階動態(tài)擴展特征,其中C0和對數(shù)能量每次只選其一。所有的規(guī)整方法只對靜態(tài)特征處理。后端訓練和測試部分采用的是aurora任務(wù)提供的標準配置,具體可參見文獻[14-15]。
這一小節(jié)中,我們將CSN方法和四種傳統(tǒng)規(guī)整方法(MVN,DGN,HEQ,HOCMN)在性能方面進行對比,并且選擇對數(shù)能量而不是C0。由于M VN是最簡單的規(guī)整算法,所以可以看成是基線系統(tǒng),另外HOCMN中奇數(shù)階和偶數(shù)階分別設(shè)成3和4。
從表1中可以看出,在aurora2數(shù)據(jù)庫上,CSN方法在不同集合上均表現(xiàn)出最佳性能。并且和MVN相比,總體詞錯誤率有38.0%的相對下降。
表1 Aurora2數(shù)據(jù)庫干凈訓練方式下CSN方法和其他規(guī)整方法在不同測試集上的性能比較
從信噪比的角度,我們在表2中也做了對比。我們發(fā)現(xiàn)在高信噪比時,CSN方法和其他方法都可比;而在低信噪比時(5dB以下),CSN要明顯好于其他方法。
表2 Aurora2數(shù)據(jù)庫干凈訓練方式下CSN方法和其他規(guī)整方法在不同信噪比時的性能比較
另外,規(guī)整算法的有效性還可以通過下面定義的平均距離來度量:
表3 Aurora2數(shù)據(jù)庫CSN方法和其他規(guī)整方法關(guān)于平均距離度量的比較
下面我們再來看看在aurora3數(shù)據(jù)庫上的對比結(jié)果。如表4所示,CSN方法在三種模式下(高度匹配、中度不匹配和高度不匹配)的平均性能都取得了最好性能,特別是在高度不匹配的時候更為明顯。并且和M VN相比,總體詞錯誤率有25%的相對下降。另外,從不同語言來看,CSN在絕大多數(shù)時候也都是最佳。如果對比表1和表4,我們發(fā)現(xiàn)傳統(tǒng)方法如 DGN、HEQ、HOCMN,在 aurora2和 aurora3兩個數(shù)據(jù)庫上的性能排序并不完全一致,這也說明了我們的CSN方法在不同數(shù)據(jù)庫上的表現(xiàn)更加穩(wěn)定。
表4 Aurora3數(shù)據(jù)庫CSN方法和其它規(guī)整方法的性能比較
為了得到進一步的性能提升,考慮將下面幾種技術(shù)和CSN結(jié)合在一起使用:1)采用C0代替對數(shù)能量,有實驗室表明C0在噪聲環(huán)境下更加魯棒;2)之前提到的規(guī)整算法都是基于句子級,其實當句子很長時,有時采用分段規(guī)整效果會更好,即對于當前幀,左右各取L/2幀組成一段數(shù)據(jù),再計算各種統(tǒng)計量,我們發(fā)現(xiàn)段規(guī)整在aurora2上有效果,但aurora3上效果并不明顯;3)加入M階的ARMA平滑濾波器。
圖3 Aurora2數(shù)據(jù)庫各種技術(shù)和CSN結(jié)合后的性能比較
圖4 Aurora3數(shù)據(jù)庫各種技術(shù)和CSN結(jié)合后的性能比較
各種改進之后的性能對比如圖3和圖4所示。圖中,LogE表示未做任何改進的CSN,C0表示用C0替換LogE,L表示采用長度為L的段級規(guī)整,M表示使用M階ARMA濾波器??梢姼倪M后效果比較明顯,相比于未做任何改進的CSN,最好性能在aurora2和aurora3兩個庫上分別帶來詞錯誤率18.9%和26.4%的相對下降。
本文中提出的CSN規(guī)整算法,直接對特征分布的形狀進行規(guī)整,實驗證明非常有效,比MVN方法好了很多,相比其他傳統(tǒng)方法也是一致變好。并且通過一些對CSN的簡單改進,進一步帶來了提升。在將來的工作中,我們會考慮將CSN算法和其它魯棒性技術(shù)進一步結(jié)合,以期帶來更好的性能。
[1] 丁沛,曹志剛.基于語音增強失真補償?shù)目乖肼曊Z音識別技術(shù)[J].中文信息學報,2004,18(5):64-69.
[2] Y.Gong.Speech Recognition in Noisy Environments:A Survey[J].Speech Communication,1995,16(3):261-291.
[3] O.V iikki and K.Laurila.Cepstral Domain Segmental Feature Vector Normalization for Noise Robust Speech Recognition[J].Speech Communication,1998,25(1):133-147.
[4] C.-W.Hsu and L.-S.Lee.Higher Order Cepstral M oment Normalization(HOCMN)for Robust Speech Recognition[C]//IEEE Proc.of ICASSP,2004:197-200.
[5] B.Liu,L.-R.Dai,J.-Y.Li and R.-H.Wang.Double Gaussian Based Feature Normalization for Robust Speech Recognition[C]//Proc.of ISCSLP,2004,253-256.
[6] A.de la Torre,J.C.Segura,C.Benitez,A.M.Peinado and A.J.Rubio.Non-linear Transformations of the Feature Space for Robust Speech Recognition[C]//IEEE Proc.of ICASSP,2002:401-404.
[7] F.Hilger and H.Ney.Quantile Based H istogram E-qualization for Noise Robust Speech Recognition[C]//Proc.of EUROSPEECH,2001:1135-1138.
[8] S.-N.Tsai and L.-S.Lee.A New Feature Extraction Front-End for Robust Speech Recognition using Progressive H istogram Equalization and Mu lti-Eigenvector Temporal Filtering[C]//Proc.of ICSLP,2004:165-168.
[9] S.-H.Lin,Y.-M.Yeh and B.Chen.Exp loiting Polynom ial-fit H istogram Equalization and Temporal Average for Robust Speech Recognition[C]//Proc.of ICSLP,2006,2522-2525.
[10] S.Gazor and W.Zhang.Speech Probability Distribution[J].IEEE Signal Processing Letters,2003,10(7):204-207.
[11] J.W.Shin,J.-H.Chang and N.S.K im.Statistical M odeling o f Speech Signals Based on Generalized Gamma Distribution[J].IEEE Signal Processing Letters,2005,12(3):258-261.
[12] K.Kokkinakis and A.K.Nandi.Speech Modelling Based on Generalized Gaussian Probability Density Functions[C]//IEEE Proc.of ICASSP,2005:381-384.
[13] C.-P.Chen,J.Bilmes and K.K irchhoff.Low-Resource Noise-robust Feature Post-processing on Aurora2.0[C]//Proc.of ICSLP,2002:2445-2448.
[14] H.G.H irsch and D.Pearce.The AURORA Experimental Framework for the Performance Evaluations of Speech Recognition Systems under Noisy Conditions[C]//Proc.of ISCA ITRW ASR,2000:181-188.
[15] A.M oreno,et al.SpeechDat-Car:A Large Speech Database for Automotive Environments[C]//Proc.of LREC,2000:373-378.