張昊慧
(1.淮陰師范學院物理與電子電氣工程學院,江蘇淮安 223300);2.東南大學信息科學與工程學院,江蘇南京 210096)
加性噪聲環(huán)境下語音特征參數提取方法的研究
張昊慧1,2
(1.淮陰師范學院物理與電子電氣工程學院,江蘇淮安 223300);2.東南大學信息科學與工程學院,江蘇南京 210096)
提出一種具有良好抗噪性的語音特征分析方法.將語音信號的短時自相關序列進行時間方向上的平滑處理,然后利用平滑后的序列代替原語音信號進行線性預測分析,從而得到線性預測倒譜系數.實驗表明,利用該特征參數的語音識別系統的識別性能優(yōu)于MEL倒譜系數、LPC倒譜系數等傳統的語音特征參數.
短時自相關函數;平滑處理;LPCC
經過近半個世紀的研究,語音識別系統在安靜的實驗室環(huán)境下已達到很高的性能,但在實際的帶有噪聲的環(huán)境下,由于訓練模型和識別環(huán)境的失配,系統的識別性能往往會有較大幅度的下降.為了提高語音識別系統的抗噪性,研究者提出了很多方法,除了對語音識別模型進行噪聲補償等方法外,許多學者致力于研究更具魯棒性的語音特征.Mansou Juang[1]提出了短時修正的相干系數(SMCC,Short-timeModified Coherence Coefficient)作為語音特征參數.基于人耳的聽覺特性,S.B.Davis[2]提出了Mel倒譜系數(MFCC),Y oon K im[2]利用Bark雙線性變換得到了基于Bark頻率規(guī)整的線性預測倒譜系數(LPCC).由于這些參數可近似人耳的聽覺特性,所以在無噪環(huán)境下可取得較好的識別效果,但抗噪性能較差.
針對這種情況,本文提出一種算法,首先將語音信號的短時自相關序列進行時間方向上的平滑處理,消除加性噪聲對語音信號的自相關序列的影響,然后利用平滑后的序列代替原語音信號進行線性預測分析,從而得到線性預測倒譜系數[3].實驗表明,該參數在計算量增加不多的情況下既能提高識別性能,又具有較強的抗噪能力.
首先將觀測語音信號分成幀長為M的N幀.由于混入語音的噪聲可以是加性的,也可以是非加性的.但考慮到對于非加性噪聲,有些可以通過一定變換轉化為加性噪聲,例如,乘積性噪聲、卷積性噪聲可以通過同態(tài)變換而成為加性噪聲.因此本文僅考慮加性噪聲的影響.因此,對每一幀語音信號,根據加性噪聲模型得:
其中,y(n,m)是觀測語音信號分析幀,x(n,m)是純凈語音信號分析幀,r(n,m)是環(huán)境加性噪聲信號分析幀,M是幀長,N是幀數.在語音信號分析中,為了保證語音信號的短時平穩(wěn)特性,幀長一般取為10~30ms.
假設噪聲與語音信號是不相關的,且噪聲是平穩(wěn)隨機信號.含噪語音信號的短時自相關函數為:
由于短時自相關函數序列是偶對稱序列,為了減小數據的冗余,對于(2)式的各項,可以按照(3)式只取其偶序列.
因此,式(2)可寫成:
由前面對噪聲的假設知:在每一幀語音上,噪聲的自相關函數是一個常數,即R′r(n,k)只與k有關而與幀數 n無關,則(4)式可寫成:
將(5)式兩邊分別對 n求導可得:
由(6)可知,當噪聲與語音信號無關且是平穩(wěn)的情況下,在每一幀語音內,觀測語音信號的短時自相關關于 n求導與純凈語音信號的短時自相關關于n求導相等,而與噪聲無關.
由于短時自相關序列是離散時間序列,直接利用其一階差分近似(6)式的各導數項,會引起較大的噪聲干擾.下面根據最小均方誤差準則[2],由多項式擬合[4]的方法給出其近似公式.R′y(n+t,k)表示經過偏移 t的值,設 R′y(n+t,k),t=-L,-L+1,…,0,1,…,L可以用一個以t為自變量的二次多項式擬合,設二次多項式為g1+g2t+g3t2,則2L+1個短時自相關序列用二次多項式擬合時的總均方誤差表示為:
最小均方誤差準則就是對式(7)兩邊分別對 g1,g2.g3求導,并令其等于零,可得:
其中,0≤n≤N-1,
由以上分析可知:
在 t=0時刻的導數為:
根據數字信號處理的原理,由式(12)可求得該變換的轉移函數為:
當L=1,2時,式(13)表示的轉移函數的幅度響應如圖1所示.由圖可知,式(13)是一個帶通濾波器,L對應通帶的個數.根據對噪聲的假設,噪聲信號的短時自相關函數是直流分量,因此可以通過式(13)得到有效地抑制.同理,當噪聲信號的自相關函數序列是一個慢變信號時,也可以通過式(13)得到有效地抑制.綜上可知,對短時自相關函數按照式(13)進行濾波處理,既對高頻部分進行了平滑處理,又可以有效地消除平穩(wěn)噪聲和慢噪聲對語言信號的影響.
圖1 濾波器的幅度響應
實驗是在一個連續(xù)隱馬爾可夫模型(CHMM)的非特定人漢語數字語音識別系統上完成的.特征參數的階數、識別系統的狀態(tài)數和混合密度數分別取12,10和1.語音庫為10個男性和10個女性話者0~9的發(fā)音,每個數字重復10次,共2000個語音數據,其中一半作為訓練集(純凈語音),另一半語音數據按不同信噪比和噪聲進行疊加得到含噪語音數據作為測試集.其中噪聲采用Noisex-92噪聲數據包的白噪聲、工廠噪聲(慢變噪聲)和汽車噪聲(平穩(wěn)噪聲).所使用的語音模型均是用純凈的語音訓練而成.
語音信號經16 kHz/8bit采樣,窗長為32 ms(512點),窗移16ms的漢明窗后,取L=1分別計算采用本算法的LPCC、MFCC和傳統的LPCC系數,作為特征參數,在不同信噪比下的識別效果如表1.
表1 本文算法的LPCC、MFCC和傳統的LPCC的比較
在無噪環(huán)境下,本文算法的LPCC與MFCC具有相當的識別率,且優(yōu)于傳統的LPCC特征參數.在噪聲環(huán)境下,LPCC與MFCC受噪聲的影響比較大,而本文算法的LPCC具有更好的噪聲魯棒性.
提高系統的噪聲魯棒性一直是語音識別領域的研究熱點,由于噪聲的復雜多變,沒有通用的方法,任何參數都有其局限性.本文提出的對語音信號的短時自相關序列進行時間方向上的平滑處理再利用線性預測倒譜系數不僅具有較高的識別率,而且對于平穩(wěn)隨機噪聲和慢變噪聲具有良好的噪聲魯棒性.
[1] 拉賓納L R.語音識別的基本原理[M].北京:清華大學出版社,2002.
[2] 趙力.語音信號處理[M].北京:機械工業(yè)出版社,2003.
[3] 沈紅麗.一種改進的基于倒譜特征的帶噪語言端點檢測方法[J].通信技術,2009 28(2):156-158.
[4] 董胡,錢盛友.基于小波變換的語音增強方法研究[J].計算機工程與應用,2007,43(31):58-60.
A Study of Speech Features Extraction under Noisy Conditions
(1.School of Physics and Electronic Electrical Engineering,Huaiyin Normal University,Huaian Jiangshu 223300,China)(2.School of Information Science and Engineering,Southeast University,Nanjing 210096,China)
ZHANG Hao-hui1,2
A good anti-noise characteristics of speech analysis is introduced.The idea is to filter the short-time Autocorrelation Sequence of speech.Then frequency warped LPC algorithm is applied to the Sequence instead of the original speech.The recognition experiment shows the feature is more effective than MEL Cepstrum and LPC cepstrum coefficients.
short-time autocorrelation sequence;smoothing;LPCC
TN912
A
1671-6876(2010)04-0318-04
2009-12-28
張昊慧(1979-),女,遼寧錦州人,淮陰師范學院助教,東南大學碩士研究生,研究方向為語音信號處理.
[責任編輯:蔣海龍]