丁冬冬,佘玉梅,江 濤,莊 麗,王米利,劉敬鳳
(云南民族大學 數(shù)學與計算機科學學院,云南 昆明 650031)
在現(xiàn)實應用中,噪聲下語音識別的研究就變得越來越重要.語音識別技術主要包括特征提取、模式匹配及模型訓練等3個方面.噪音處理有3種常用方法[1-2]:信號級抗噪方法、特征參數(shù)級抗噪方法、模型級抗噪方法.這3種方法的應用都針對某種特定環(huán)境下的語音去噪,有很大的局限性.本文方法融合了這3種方法,有較強的適應環(huán)境的能力,具有更好的實用性.
信號級抗噪處理方法是從帶噪音的語音信號中提取較純凈的原始語音,也稱為語音信號處理中的語音增強.對于不同的噪音,必須采取不同的語音處理方法.現(xiàn)在語音識別系統(tǒng)中運用比較多的有最小均方差法(MMSE)、譜減法(SS)及其改進形式、維納濾波法、中值濾波法等等.本文重點介紹譜減法.
在譜減法中,假定噪聲是加性的,所以其思想是在頻域上從帶噪語音的功率譜中減去噪聲的功率譜,從而得到比較純凈的語音頻譜.它的實現(xiàn)過程是先把語音信號經(jīng)過快速FFT變換,然后平方得到語音幅度估計,將其相位恢復后再采用逆FFT變換恢復時域信號[3].信號恢復的模型為:
y(t)=s(t)+n(t).
(1)
其中y(t)表示含噪語音,s(t)表示純語音信號,n(t)表示噪聲信號.
對上式進行FFT變換得到
Yw(w)=Sw(w)+Nw(w).
(2)
其功率譜有
|Yw(w)|2= |Sw(w)|2+ |Nw(w)|2+
Sw(w)N*w(w) +S*w(w)Nw(w).
(3)
由于s(t)和n(t)相互獨立,所有Sw(w)與Nw(w)也相互獨立,而Nw(w)為零均值的高斯分布,所以原始語音的估值為
(4)
目前,大部分的語音識別系統(tǒng)使用的特征參數(shù)為倒譜類參數(shù).如線性預測系數(shù)倒譜(LPCC)、Mel倒譜系數(shù)(MFCC)、共振峰、基音周期等.其中LPCC和MFCC的應用最為廣泛.
Mel倒譜系數(shù)(MFCC)是基于人耳聽覺特征的,主要思路是把語音信號的頻譜通過濾波器轉換成基于Mel頻率尺度的非線性頻譜,再對濾波器的輸出進行對數(shù)和離散余弦變換,就可以得到MFCC系數(shù),它與頻率的關系可以近似表示為[4]:
(5)
其中頻率f的單位是Hz.MFCC分析是從人耳的聽覺機理,依據(jù)實驗結果來分析語音頻譜,能夠獲得比較高的識別率和比較好的魯棒性,具體提取步驟見文獻[5-6].
模型級抗噪處理方法有2類,第1類是用于測試具有相同環(huán)境的少數(shù)數(shù)據(jù)做模型且快速適應,即自適應方法;第2類是直接在識別模型中增加對環(huán)境噪音的處理.目前模型級抗噪處理方法中,效果比較好的是并行模型結合處理法(PMC).PMC是基于模型的噪聲補償算法,通過引入噪聲的統(tǒng)計知識,調(diào)整用純語音訓練出的模型參數(shù),也就是隱馬爾科夫模型(HMM)各個狀態(tài)的概率密度輸出函數(shù)的均值和方差,使其反映識別時實際遇到的帶噪語音的統(tǒng)計特征.其過程圖如圖1[7-10].
圖1中先對HMM的參數(shù)進行IDCT(逆離散余弦變換),從倒譜域轉換到對數(shù)譜域,而此時它們在對數(shù)譜域輸出的概率密度函數(shù)很接近高斯分布,或者疊加的高斯分布,所以這樣就可以降低復雜度.合并后模型的參數(shù)再通過DCT(離散余弦變換)轉換到倒譜域用于識別.
以上3種方法對噪聲處理有一定的效果,但是自身都有不足.其中信號級去噪很難區(qū)分清輔音和寬帶噪音等;參數(shù)級去噪的缺點是噪音的時變性很強,很難直接去除噪音等;模型級去噪僅限于對噪音模型的自適應等.由于這些方法自身的缺陷,所以單一的去噪方法對于語音的去噪效果并不能達到實際要求的效果.鑒于這3種方法的互補,本文提出一種改進的去噪方法,對這3種方法進行綜合應用,具體操作如下:
1) 首先對帶噪語音進行信號級去噪處理,本文選擇其中的譜減法.因為譜減法的算法簡單、運算量小,能夠?qū)崿F(xiàn)快速處理,適應性比較強.普通的譜減法去噪會出現(xiàn)殘留而呈現(xiàn)出“音樂噪聲”[11],所以在此方法基礎上進行了改進.通過頻譜相減時給噪聲譜乘上一個大于1的參數(shù),這樣頻譜相減時減去的值比估計的噪聲譜多,如式(6).
(6)
其中α和β是調(diào)節(jié)參數(shù),適當調(diào)節(jié)它們可以達到較好的去噪效果.
2) 再對去噪后的語音進行特征參數(shù)級去噪處理,本文選擇MFCC方法.
對譜減法處理后的帶噪語音先進行MFCC特征提取,經(jīng)過FFT變換后得到Mel濾波器組,濾波器組的個數(shù)為M,三角濾波器的中心頻率是f(m),它們之間的間隔隨m的增加而增加.
三角函數(shù)濾波器函數(shù)為:
(7)
3) 最后再對去噪后的語音進行模型級去噪處理,本文選擇PMC技術.因為PMC也是假設噪音和純凈語音線性疊加,而且此方法能夠適用于非平穩(wěn)特點的噪聲, 并且可以在不重新進行訓練的條件下接近在噪聲背景下訓練得到的語音模型的性能.
對于上述處理過的帶噪語音進行估計求解,下面是最大似然估計方程式:
(8)
然后用PMC技術與干凈的語音模型進行合成,得到一個干凈語音模型,利用這個模型進行識別,能夠得到比較好的識別率.過程中PMC的處理可以表示為:
(9)
其中λ是模型參數(shù),p-s是偽干凈語音數(shù)據(jù),g是一個加權控制因子.處理的參數(shù)是基于高斯分布的均值和方差矢量,參數(shù)的變換方法采用對數(shù)正態(tài)近似、對數(shù)求和近似的方法.
實驗中采用的語音材料來自海天瑞聲科技有限公司的數(shù)據(jù)庫,選擇了其中10人的100個詞語錄音,實驗添加的噪音信號為高斯噪音.表1中的不同信噪比(-5 dB,0 dB,5 dB,10 dB,15 dB,20 dB)都是由純凈的語音信號和噪音信號線性相加而成的.然后對噪聲語音信號采取Hanmming窗進行分幀,每幀時間為25 ms,疊加的時間為15 ms.再利用Matlab編程對這幾種不同信噪比的語音信號進行SS、MFCC、PMC處理,幾種聯(lián)合算法及本文算法實驗結果如表1.
由表1可以看出,在信噪比比較低時,系統(tǒng)的識別率比較低,在信噪比比較高時,語音增強能有比較好的魯棒性,識別率比較高.相對而言,在不同信噪比的情況下,單一的去噪方法及這幾種聯(lián)合算法識別率都不是很高,而改進的算法能夠提高系統(tǒng)的識別率.因此改進的方法能夠強于任何一種單獨算法及以上的聯(lián)合算法.
表1 幾種方法在不同信噪比下的識別率 %
語音去噪一直是語音識別研究中一個重要的難題,信號級抗噪方法、特征參數(shù)級抗噪方法、模型級抗噪方法的應用都對于某種特定環(huán)境下的語音去噪,有很大的局限性.本文提出了一種結合信號級去噪方法、參數(shù)級去噪方法、模型級去噪方法的綜合方法,實驗仿真表明,本文方法能夠有效地提高系統(tǒng)的識別率.
參考文獻:
[1] 楊大利,徐明星,吳文虎. 噪音環(huán)境下的語音識別研究[J].計算機工程與應用,2003,39(20):1-4.
[2] 劉菁華. 一種改進的語音識別抗噪算法[J].華僑大學學報:自然科學版,2009,30(1):117-118.
[3] 肖全寶,徐晨,宋廣為,等.用于語音識別的基于高譜分辨率的譜減法[J].廣西師范大學學報:自然科學版,2006,24(4):26-29.
[4] 李澤,崔宣,馬雨廷,等. MFCC和LPCC特征參數(shù)在說話人識別中的研究[J].河南工程學院學報:自然科學版,2010,22(2):51-55.
[5] 王華朋,楊洪臣. 聲紋識別特征MFCC的提取方法研究[J].中國人民公安大學學報:自然科學版, 2008,14(1):28-30.
[6] 劉順蘭,竇園園,應娜. 噪聲背景下語音識別特征參數(shù)選擇研究[J].杭州電子科技大學學報,2011,31(4):73-76.
[7] 金連斌,丁慶海,陳顯治. PMC在噪聲環(huán)境下的語音識別中的應用[J].解放軍理工大學學報:自然科學版,2001,2(2):42-45.
[8] 丁沛,曹志剛. 融合語音增強與后續(xù)補償?shù)目乖肼曊Z音識別方法[J].清華大學學報:自然科學版,2003,43(7):919-922.
[9] JANG J S R. Audio signal processing and recognition[EB/OL].(2008-01-23) [2013-09-20]. http://neural.cs.nthu.edu.tw/jang/books/audioSignalProcessing/.
[10] 宗成慶. 統(tǒng)計自然語音處理[M].北京:清華大學出版社,2010.
[11] 職振華,馬建芬. 改進的譜減法在語音增強中的應用[J].電聲技術,2008,32(2):46-48.