緱新科,徐高鵬
(1.蘭州理工大學電氣工程與信息工程學院,甘肅 蘭州 730050; 2.甘肅省工業(yè)過程先進控制重點實驗室,甘肅 蘭州 730050;3.蘭州理工大學電氣與控制工程國家級實驗教學示范中心,甘肅 蘭州 730050)
語音識別系統(tǒng)的魯棒性一直是語音識別領(lǐng)域研究的重點問題,提高語音識別魯棒性的方法大致分為2類,一類是基于模型的魯棒性改善,另一類是通過提取聲學特征來提高魯棒性。聲學特征的優(yōu)劣很大程度上決定了語音識別系統(tǒng)的魯棒性,因此研究聲學特征的提取對提高語音識別系統(tǒng)的抗噪能力有很大的價值。語音魯棒特征又可以劃分為基于統(tǒng)計特性的魯棒特征和基于聽覺機理的魯棒特征這2大類。
短時修正的相干系數(shù)(SMCC)[1]、高斯超向量(GSV)[2]、自相關(guān)梅爾倒譜系數(shù)(AMFCC)[3]以及i-vector[4]為基于統(tǒng)計特征的幾種常見統(tǒng)計魯棒特征。SMCC和AMFCC常被用來抑制寬帶噪音,但它們對于非平穩(wěn)噪音的抵抗能力不足。GSV是一種基于GMM[5]的語音特征,它繼承了高斯混合模型的魯棒性,而且包含說話人發(fā)音個性統(tǒng)計信息,然而在信道畸變的環(huán)境噪聲下它的魯棒性不佳。i-vector在GSV的基線上降低了特征的維數(shù),提高了識別的效率。與統(tǒng)計特性的特征不同,基于生物機理的聲學特征提取嘗試模擬生理器官對語音的感知來描述聲學特征,常見的特征有LPCC[6]、MFCC[7]和GFCC[8]。LPCC是線性預測系數(shù)(LPC)的倒譜參數(shù),可以較好反映聲道特性,但對于頻率特性的反映不符合實際?;贛EL譜[9]的MFCC特征考慮了人類聽覺系統(tǒng)的基本聽覺原理,如頻率分辨率和強度感知,卻對語音信號高頻段的特性描述精度不足。GFCC特征,通過動態(tài)地模擬人耳基底膜來提取特征,很大程度上提升了識別的魯棒性。毋庸置疑,上述特征的研究對于語音識別魯棒性的提升作出了很大貢獻,但是它們都基于特定的域進行特征提取,這導致局部特征的丟失。
針對上述工作的不足,本文嘗試通過聯(lián)合時域和頻域來提取聲學特征,提出一種利用Gabor濾波器[10]跨時域和頻域提取聲學特征的方法,并將高維GBFB特征映射到時域和頻域不同的子空間中,從而消除噪音成分,保留魯棒特征,經(jīng)實驗證明,GBFB特征在噪音環(huán)境下與常見的幾種聲學特征相比有更好的魯棒性。
Gabor特征提取是在加窗的Fourier[11]變換基礎(chǔ)上實現(xiàn)的,通過Gabor變換可以跨時頻域?qū)μ卣餍畔⑦M行提取,因此可以獲取到更多有用的特征信息。
一個二維Gabor濾波器是由復平面波和高斯窗函數(shù)的乘積構(gòu)成的,二維Gabor濾波器可以同時在頻域和時域提取局部化的特性,利用二維Gabor濾波器可以同時描述時域局部信息,其空間域描述如公式(1):
(1)
圖1 二維Gabor函數(shù)時域?qū)嵅?/p>
其中,n和k分別表示時域的水平和垂直方向,x=ncos θ+ksin θ,y=kcos θ-nsin θ,δ表示高斯窗函數(shù)的標準差,ω和θ表示中心調(diào)制頻率和方位,exp (-w2σ2/2)表示直流分量,這個直流分量的存在可以抵抗外部環(huán)境對濾波的干擾。在時域中可以通過調(diào)節(jié)θ的值來改變方位,從而得到良好的方向特征;同樣,可以通過改變w的值來改變頻域的參數(shù),當選定固定的w和θ參數(shù)時就可以構(gòu)造出特定方向和頻率上的模式圖。如圖1所示,w=3π/4、θ=0時,Gabor核函數(shù)在時域的實部部分。Gabor濾波器在時域與頻域中都有很好的辨識度,通過選擇不同的方位和頻率就可以構(gòu)造不同的濾波器,在不同的方位和尺度上提取需要的特征。
一個用于聲學特征提取的二維Gabor函數(shù)定義如下:
(2)
其中,γ=kveiφ決定了Gabor濾波器的方位和尺度,ε(n,k)表示經(jīng)FFT[12]得到的聲譜樣本點,φ=u(π/k),kv=2-((v+2)/2)·π,可以通過改變u,v調(diào)整Gabor濾波器組的方位和尺度,如圖2所示,本文中尺度和方向均取4,γ可以控制u、v。
圖2 二維Gabor濾波器組
在確定的時域窗口下聲譜x(n,k)=RNn×Nk可以用向量空間ζ∈RNn×Nk×Nu×Nv來表示,其中Nn×Nk表示時域和頻域的坐標,Nu×Nv表示尺度和方位。通過將原始信號的聲譜與4方向、4尺度組成的Gabor濾波器組進行卷積,得到16幅局部特征譜,采樣時將其分為64個小塊,每塊取8個量級進行量化,最終形成512維,16幅一共構(gòu)成8192維特征。當尺度和方位一定時,卷積過程可表示為公式(3):
Gu,v(n,k)=|X(n,k)·gu,v(n,k)|
(3)
為了去除冗余,保留對聲學感知有用的特征信息,利用mel濾波器對Gu,v(n,k)進行濾波,濾波的表達式如公式(4):
(4)
其中,MELl(n)表示mel濾波器組,mel濾波器的最低頻率和最高頻率由Lt和Ht表示。
(5)
(6)
Uu,v=[max ((Gjk)ij)]p×q
(7)
對新的特征矩陣Uu,v進行向量化,表示為:
UQ=[Q(U0,0),…,Q(Up,q)]
(8)
利用PCA將UQ投影到低維的子空間:
P(UQ)=AT(UQ-μ)
(9)
其中,μ為UQ的均值,維數(shù)為M×1,M=p×q,AT為低維的映射矩陣,維數(shù)為M×d,d表示主成分個數(shù),因此最終可以得到d×1維的GBFB特征,本文取d=81。將向量化后的特征投影到時域和頻域不同的維度上,投影到不同維度上的語音信號的能量會集中到少數(shù)的特征分量上,將有用的特征保留到投影矩陣中,當噪音摻雜入干凈的語音時,與干凈語音特性一致的成分會被保留,噪聲的能量會被削弱,最終得到抑制噪音的GBFB特征。
通過以上的分析,得到如圖3所示的GBFB特征提取的過程:
圖3 GBFB特征提取過程
1)對原始的語音信號做預處理,并通過FFT得到對應的聲譜圖。
2)利用二維的Gabor濾波器組對聲譜進行卷積。
為了驗證算法的有效性,本文通過2個實驗進行測試,分別采用TIMIT[14]語音庫和NOIZEUS[15]語音庫。語音的采樣率為16 kHz,采樣精度為16 bits,選擇基于3狀態(tài)HMM[16]的上下文相關(guān)音素模型作為聲學模型,在實驗中先對語音信號進行預處理,再對每一幀語音提取GBFB、MFCC、GFCC、LPCC特征,其中選取GBFB的特征參數(shù)為81維,MFCC、GFCC、LPCC特征參數(shù)均取39維,用GMM作為分類器進行識別,混合度可選8、16、32。
實驗1在純凈語音環(huán)境下,測試GBFB特征的有效性,采用TIMIT語音庫,該語音庫共采集了50名說話人語音,其中男性說話人35名,女性說話人15名,從每名說話人語音中選擇7句用于實驗訓練,3段用于實驗測試。在GMM混合度不同的情況下,分別用LPCC、MFCC以及GBFB特征測試在干凈語音環(huán)境下的識別率。
實驗2首先對Gabor濾波器提取的原始特征與分塊大小為16×16的GBFB特征在25 dB的噪聲環(huán)境下進行識別率對比,觀察PCA降維對GBFB特征的影響,然后在NOIZEUS語音庫的White noise噪聲環(huán)境下對分塊為4×4、16×16以及64×64的GBFB特征的識別率進行對比,最后在Factory noise、White noise和Babble noise噪聲環(huán)境下使用SOX[17]工具加入不同信噪比的噪音,對MFCC、LPCC、GFCC以及GBFB特征的魯棒性進行對比。
實驗1的識別結(jié)果如圖4所示。
圖4 純凈語音的識別結(jié)果
從圖4可以看出,在未加入噪音的環(huán)境下,3種聲學特征識別的準確率隨GMM混合度的增加而增加,隨著混合度的增加,GBFB識別率的提升最大,綜合來看GBFB的識別率比LPCC的識別率高,與MFCC接近,驗證了基于Gabor濾波的GBFB特征的有效性。同時,從實驗1的結(jié)果可以看出,GBFB在純凈語音環(huán)境下的識別率相較其他幾種特征并沒有明顯的提升,這是由于Gabor濾波器在提取純凈語音特征時,將純凈語音中絕對值較小的成分當做噪音,在經(jīng)過PCA投影后部分特征的系數(shù)被削減,因此導致了識別率的下降。
現(xiàn)在分析實驗2的識別結(jié)果。如表1所示,經(jīng)PCA降維后的GBFB特征的識別率高于原始Gabor濾波器提取的特征,說明通過PCA算法在縮減了特征維數(shù)的同時保留了信息的主要成分,生成了更好的魯棒特征。不同分塊的GBFB的識別率如圖5所示,其中p、q大小為4×4時特征識別率較低,增加到16×16時識別率提升了13%,當取值增加到64×64時識別率再次下降,說明不同大小的分塊對GBFB的識別率有很大影響,p、q的取值太小會導致語音信號主分量被削減,過大會導致特征的冗余過多。
表1 PCA降維對識別率的影響 單位:%
圖5 不同分塊PCA下的識別率
對GBFB以及其他聲學特征進行抗噪測試時選取分塊16×16的GBFB特征,結(jié)果如表2和圖6所示。在低信噪比的環(huán)境下,4種特征識別的準確率都較低,隨著信噪比的增加,準確率都有提升,其中基于GBFB特征在6種不同信噪比語音環(huán)境下的識別率都高于MFCC、LPCC、GFCC。與魯棒性較好的GFCC相比GBFB特征的準確率提高了5.35%,與MFCC特征相比提升了7.05%,比LPCC特征識別的基線低9 dB,說明了本文提出的GBFB特征可以增強噪聲環(huán)境下語音識別的魯棒性。
表2 不同環(huán)境下4種特征的識別率 單位:%
(b) Babble噪聲下的識別率
(c) 工廠噪聲下的識別率圖6 不同噪聲環(huán)境下的識別率
本文采用Gabor濾波器組來提取語音信號的魯棒特征,采用分塊PCA對特征降維,驗證PCA降維對識別率的影響,并測試了不同分塊大小的GBFB特征對識別率的影響,最后對GBFB、MFCC、LPCC、GFCC特征在多個噪聲噪音環(huán)境下進行性能測試。從實驗結(jié)果可以看出,基于Gabor濾波的GBFB特征在不同信噪比語音環(huán)境下的識別率都明顯高于MFCC、LPCC和GFCC特征。說明了本文提出的GBFB特征可以更準確地反映語音信號在噪音環(huán)境下的特征,提升說話人識別在噪聲環(huán)境下的識別率。
此外,從實驗1的結(jié)果可以看出,由于GBFB特征在提取純凈語音聲學特征時會誤將絕對值較小的成分當做噪音處理,對干凈語音有一定程度上的損傷,導致GBFB在純凈語音環(huán)境下的識別率相較其他幾種特征并沒有明顯的提升,某些情況下甚至低于其他特征,下一步工作將研究GBFB特征在純凈語音環(huán)境下識別率提升的方法。
參考文獻:
[1] 羅仁澤,蔣濤,敬龍江,等. 一種低信噪比SMCC+系統(tǒng)快速同步算法[J]. 信號處理, 2005,21(3):236-239.
[2] 劉偉偉. 基于GSV-SVM的語種識別關(guān)鍵技術(shù)研究與實現(xiàn)[D]. 鄭州:解放軍信息工程大學, 2012.
[3] 趙彥平. 孤立詞小詞匯量抗噪聲語音識別方法的研究[D]. 長春:吉林大學, 2006.
[4] Glembek O, Burget L, Matejka P, et al. Simplification and optimization of i-vector extraction[J]. IEEE International Conference on Acoustics, 2011,125(3):4516-4519.
[5] 陳強. 基于GMM的說話人識別系統(tǒng)研究與實現(xiàn)[D]. 武漢:武漢理工大學, 2010.
[6] Zbancioc M, Costin M. Using neural networks and LPCC to improve speech recognition[C]// International Symposium on Signals, Circuits and Systems(Vol 2). 2003:445.
[7] 蔣文建,韋崗. 基于掩蔽的噪聲環(huán)境下語音識別新特征[J]. 聲學學報, 2001(6):516-520.
[8] Islam M A. GFCC-based robust gender detection[C]// IEEE International Conference on Innovations in Science, Engineering and Technology. 2017:1-4.
[9] 王讓定,柴佩琪. 語音倒譜特征的研究[J]. 計算機工程, 2003,29(13):31-33.
[10] 曹麗. 基于Gabor濾波器的人臉特征提取算法研究[D]. 沈陽:東北大學, 2008.
[11] 孫曉兵,保錚. 分數(shù)階Fourier變換及其應用[J]. 電子學報, 1996(12):60-65.
[12] Pei Soo-chang, Ding Jian-jiun, Chang Ja-han. Efficient implementation of quaternion Fourier transform, convolution, and correlation by 2-D complex FFT[J]. IEEE Transactions on Signal Processing, 2001,49(11):2783-2797.
[13] Roweis S. EM algorithms for PCA and SPCA[C]// Proceedings of 1997 Conference on Advances in Neural Information Processing Systems. 1997:626-632.
[14] 林海波,王可佳. 一種新的聽覺特征提取算法研究[J]. 南京郵電大學學報(自然科學版), 2017,37(2):27-32.
[15] 黃玲,李琳,王薇,等. 基于Sparse K-SVD學習字典的語音增強方法[J]. 廈門大學學報(自然科學版), 2014,53(1):36-40.
[16] Tokuda K, Masuko T, Miyazaki N, et al. Multi-space probability distribution HMM[J]. Ieice Transactions on Information & Systems, 2002,85(3):455-464.
[17] Mathew L R, Anselam A S, Pillai S S. Analysis of LD-CELP coder output with Sound eXchange and Praat software[C]// IEEE International Conference on Advanced Communication Control and Computing Technologies. 2015:1281-1285.