劉妍秀,孫一鳴,楊華民
(1.長春大學 教務處,長春 130022;2.長春理工大學 計算機科學技術學院,長春 130022)
?
基于歸一化算法的噪音魯棒性連續(xù)語音識別*
劉妍秀1,孫一鳴2,楊華民2
(1.長春大學 教務處,長春 130022;2.長春理工大學 計算機科學技術學院,長春 130022)
針對歸一化方法在連續(xù)語音特征曲線調(diào)整時存在的問題,提出一種優(yōu)化解決方案,解決了噪聲的不穩(wěn)定性及不可預測性對語音特征的影響.結果表明,基于該優(yōu)化方法建立的魯棒性連續(xù)語音識別模型可實現(xiàn)在實驗室干凈環(huán)境和現(xiàn)實噪音環(huán)境下同時得到較好的識別結果.
歸一化;噪音魯棒性;連續(xù)語音識別
目前,大多數(shù)語音識別系統(tǒng)都采用隱Markov模型(HMM)進行識別,它的識別率高、速度快.針對實驗室干凈環(huán)境和噪音環(huán)境,通常要使用不同的模型才能得到較好的識別結果[1].本文通過歸一化方法建立一個魯棒性模型,實現(xiàn)了在實驗室干凈環(huán)境和現(xiàn)實噪音環(huán)境下同時都能得到較好的識別結果.
語音識別領域中針對不同的歸一化方法有不同的優(yōu)化方法.某些歸一化方法的計算量較大,因此不能真正應用于實時的語音識別,特別是實時的連續(xù)語音識別[2].而計算量小、時間復雜度低的歸一化方法又無法獲得理想的識別結果.雖然語音識別可根據(jù)說話方式、詞匯量等輸入語音的限制進行分類,但實時性對任何一種語音識別系統(tǒng)都非常重要.針對歸一化方法、時間復雜度和識別結果之間的矛盾關系,不同的語音識別需求有不同的實際問題.因此,如何合理地將歸一化方法應用到實時性的連續(xù)語音識別中是連續(xù)語音識別的一個關鍵問題.
在歸一化方法中,動態(tài)范圍調(diào)整(DRA)方法簡單、高效,本文基于DRA方法提出了其改進方法.如果以音素為單位,并在每個音素內(nèi)直接使用DRA方法可能存在缺陷:除無音音素外,其余有效音素的范圍太小,一般是3~15幀數(shù)據(jù).無音音素包括短暫的停頓(sp)、語音開始和結束時的無音部分(SilB和SilE).如果在音素范圍內(nèi)直接使用DRA方法,會導致語音特征發(fā)生急劇變化,且在連續(xù)語音中如何精確獲取音素的邊界也是一個難題[3].如果把范圍擴充,例如以10個音素為一組應用DRA方法,歸一化過程中,每組的不同最大值會破壞特征曲線在組與組邊緣的連續(xù)性,且音素的邊界確定問題仍未解決.
針對上述問題,本文以語音特征曲線的自然分段為單位進行歸一化,雖然不能解決音素邊界的精確提取問題,但可通過該方法避免語音特征發(fā)生急劇變化的問題.為了最大限度地保持待識別噪音數(shù)據(jù)與建模數(shù)據(jù)的相似性,把特征曲線的自然分段定義在過零點附近,在過零點附近對語音特征曲線進行分段可保持特征曲線的連續(xù)性.在進行語音特征調(diào)整時需確定3個參數(shù):選擇過零點的范圍、用于進行歸一化的最大值和噪聲影響系數(shù)[4].
在選擇過零點時不考慮該過零點是否出現(xiàn)在音素特征曲線的中間位置,因為多數(shù)過零點并不出現(xiàn)在音素特征曲線的邊界,而出現(xiàn)在音素特征曲線的中間位置.在檢測過零點時不考慮檢出特征曲線中所有的過零點,因為受噪音影響,短時內(nèi)可能出現(xiàn)多個過零點.特征曲線調(diào)整的思想是通過對過零點的選擇及部分顯著特征的部分恢復保持待識別噪聲特征曲線和建模特征曲線的相似性,并在兩個過零點之間應用DRA方法保證特征曲線的連續(xù)性.
噪聲信號會對語音信號產(chǎn)生影響,理論上,噪音對信號增益部分與信號直流分量部分產(chǎn)生的影響不同,相對于純凈的語音信號,噪音對直流分量部分會產(chǎn)生較強的影響.圖1為噪聲對孤立詞語音特征曲線的影響.其中:藍色表示純凈語音的特征曲線,綠色表示受噪聲干擾后的特征曲線.由圖1可見:在紅線標識處的差異導致了識別精度的下降,但通過歸一化方法最大限度地減少了這種差異;受干擾后特征曲線的動態(tài)范圍小于純凈語音特征曲線的動態(tài)范圍.因此歸一化方法在孤立詞識別中作用明顯[5].由語音特征曲線可見,特征曲線的顯著部分雖會受噪聲的影響,但影響后的特征與其他部分相比仍為明顯特征.
在孤立詞中,噪聲對峰值的影響多成比例關系,因此通過歸一化算法能減少噪聲帶來的影響.但在連續(xù)語音特征曲線中,噪聲對特征曲線動態(tài)范圍的影響與孤立詞相同,但隨著連續(xù)語音特征曲線的延長,雖然部分語音特征被噪聲完全破壞,但其明顯特征部分比孤立詞多,而且明顯特征部分受噪音影響的程度也不一致,在明顯特征部分也沒有孤立詞中較穩(wěn)定的對應關系[6].圖2為噪聲對連續(xù)語音特征曲線的影響.
圖1 噪聲對孤立詞語音特征曲線的影響Fig.1 Effect of noise on the isolated wordspeech characteristic curve
圖2 噪聲對連續(xù)語音特征曲線的影響Fig.2 Effect of noise on continuous speechcharacteristic curve
如果在連續(xù)語音特征調(diào)整中使用歸一化方法,必須對原有方法進行改進.在改進過程中,期望通過不同的調(diào)整值保持顯著特征部分能相互匹配,從而增加識別的正確比例.由圖2可見,受噪聲影響特征曲線的最高峰值與純凈語音的最高峰值并不對應,因此容易判斷出該位置不能很好地匹配,這部分的顯著特征需要進行單獨處理.繼續(xù)觀察可見,特征曲線中峰值顯著部分的比例關系由于噪聲的影響也受到了破壞,因此,在算法中還需對受噪聲影響顯著特征部分的比例關系進行恢復[7].
特征調(diào)整算法優(yōu)化步驟如下.
(1)
2)獲得調(diào)整值.從第一幀到LP2之間,選擇一個絕對值最大的峰值并定義該值為P2,從LP3到最后一幀之間,選擇一個絕對值最大的峰值并定義該值為P3.最大值在DRA算法中決定了特征向量的壓縮比例,在不同分段內(nèi)使用不同的調(diào)整值,在每個分段內(nèi)的最大值定義為Tmax,然后將Tmax與P2和P3進行比較.定義Mmax=max{Mmax,P2,P3},如果P1-Mmax<2,則將max{Mmax,P2,P3}作為最終的調(diào)整值;否則,選擇P1作為調(diào)整值.
3)添加噪音系數(shù).噪音類型和信噪比會對語音產(chǎn)生不同的影響,因此噪音系數(shù)包含噪音類型系數(shù)和噪音信噪比系數(shù),定義N1,N2和N3為不同類型的噪音系數(shù),SSNR為噪音信噪比系數(shù),S10,S15和S20分別對應10,15,20 dB,分別設置S10=0.1,S15=-0.1,S20=-0.8,N1:-0.2~0.3,N2:0~0.3,N3:-0.2~0.1,這些系數(shù)的值和范圍均來自實驗數(shù)據(jù).
4)在分段內(nèi)使用DRA算法.根據(jù)已得到的分段和調(diào)整值以及噪音系數(shù)對語音特征進行歸一化處理,在主分段內(nèi),使用(P1+SSNR+N2)作為調(diào)整值進行歸一化,在主分段左側使用(Mmax+SSNR+N2)作為調(diào)整值進行歸一化,在主分段右側使用(Mmax+SSNR+N3)作為調(diào)整值進行歸一化.新的語音特征歸一化向量為
(2)
其中:CB(n)表示歸一化后的語音特征;CBf表示主分段左側的任意一個特征向量;CBb表示主分段右側的任意一個特征向量;CBm表示主分段內(nèi)的任意一個特征向量.
由式(2)可見,所有連續(xù)語音特征的動態(tài)范圍都被調(diào)整到(-1,1)內(nèi),在實驗仿真時,可精確知道噪音的類型,但在實際環(huán)境中,很難得到確切的噪音類型,因此,在未知噪音類型的情況下,可將N1,N2和N3設置為0,即在實際應用中可以只考慮信噪比而不考慮噪音類型[8].
本文以音素為基本識別單位建立HMM模型,建模數(shù)據(jù)為實驗室環(huán)境的純凈語音數(shù)據(jù).雖然建模數(shù)據(jù)為實驗室環(huán)境下的語音數(shù)據(jù),但在信號處理階段仍使用倒譜均值相減法(CMS)去除信道的噪聲,去除噪聲后先用梅爾頻率倒譜系數(shù)(MFCC)對連續(xù)語音特征進行提取,再用運行頻譜分析(RSA)方法對得到的MFCC語音特征進行優(yōu)化,最后使用DRA方法對語音特征進行歸一化處理.在模型訓練階段,使用歸一化后的特征對語音文本進行上下文文本相關訓練.為了保證發(fā)音的多樣性,在訓練過程中未對訓練語音進行任何分段處理.建模過程中根據(jù)發(fā)音的主要特點對上下文相關的三音素進行分類,得到最終模型.分類規(guī)則列于表1.
表1 音素分類規(guī)則Table 1 Phoneme classification rule
如果設置“X”為中心音素,在中心音素左側的音素用“-”標識,中心音素右側的音素用“+”標識,根據(jù)表1中規(guī)則對三音模型進行聚類,聚類后的模型用于識別匹配.
在識別中,為了保證識別實時性的需求,信號處理階段只使用最基本的CMS方法進行去噪,并使用MFCC進行連續(xù)語音特征提取,針對MFCC語音特征再使用本文提出的算法.RSA方法主要對特征曲線進行平滑處理,有利于訓練過程中對純凈語音下大量的相似特征進行建模,而識別中要盡量保持有限的明顯特征,故在識別中不使用RSA方法,而是通過本文提出的算法盡量去保持連續(xù)語音特征中的明顯部分.
通過對算法的改進,在識別時有效放大了連續(xù)語音特征曲線中特征明顯的部分,針對訓練和識別中采樣量化、建模工具及需要設置的各種參數(shù)如下:采樣頻率為16 kHz;量化標準為16位;特征向量為12維MFCC參數(shù)+12維一階MFCC參數(shù)+1階能量特征(共25維);幀長為25 ms;偏移量為10 ms;窗口類型為海寧窗;音素個數(shù)為43個;語音增強公式為1~0.97z-1;HMM狀態(tài)數(shù)為5個狀態(tài)(由左至右HMM,含開始和結束狀態(tài));高斯混合數(shù)為16;聚類狀態(tài)約為2 000個;訓練數(shù)據(jù)為153人朗讀共計23 561個句子;無語言模型;建模工具為HMM ToolKit;識別工具為JULIUS.
為了驗證模型的魯棒性,在識別時不僅使用建模數(shù)據(jù)進行驗證,還使用了與建模數(shù)據(jù)完全不同的數(shù)據(jù)進行測試.建模數(shù)據(jù)為12人朗讀共50個句子;未知數(shù)據(jù)為6人朗讀共180個句子;采樣分幀條件同上.
分別使用建模數(shù)據(jù)和未知數(shù)據(jù)對系統(tǒng)模型進行測試能更好反應聲學模型的魯棒性和算法的可靠性.識別正確率(corr)可反映在連續(xù)語音所有單詞序列中正確識別單詞的比例;識別精度(acc)可反應連續(xù)語音的整體識別性能.在識別結果中,針對單詞的錯誤被分成插入性錯誤(insertion error)、刪除性錯誤(deletion error)和子詞錯誤(subsitution error).與識別精度相比,識別正確率中只考慮對單詞的識別是否正確,而不考慮插入性錯誤對識別的影響.在連續(xù)語音識別中,一般以識別的正確率作為評價標準.用公式表示為:
(3)
(4)
其中:N為連續(xù)語音中總的單詞數(shù);S為子詞性錯誤;D為刪除性錯誤;I為插入性錯誤;RC為識別正確率;RA為識別精度[9].
針對實驗室環(huán)境下的非訓練數(shù)據(jù),本文算法也體現(xiàn)了良好的性能.表2和表3分別列出了使用原方法和本文方法的識別結果.由表2和表3可見,算法對刪除性錯誤有顯著影響.
表2 原有方法的識別結果Table 2 Recognition results by the original method
表3 本文方法的識別結果Table 3 Results of this method using the identification
在各種噪聲中,因為白噪聲會在所有的頻譜內(nèi)對語音產(chǎn)生影響,甚至淹沒整個語音特征,一般除信號去噪外算法很難對該噪聲產(chǎn)生影響,因此是最難處理的噪聲信號.表4為不同噪聲類型系數(shù)對10 dB白噪聲識別精度的影響,取S10=0.1.由表4可見,本文算法可有效識別白噪聲.
表4 白噪聲下不同噪聲系數(shù)對識別精度的影響Table 4 Effect of different factors on the recognition accuracy under the white noise
在噪聲測試中,對NOISEX-92中規(guī)定的標準噪聲全部進行算法有效性的測試.實驗中應用15種噪音類型,分別為babble,buccaneer1,buccaneer2,destroyerengniner,destroyerops,f16,factory1,factory2,hfchannel,leopard,m109,machinegun,pink,volvo和white.針對不同種類和不同強度的噪聲對算法進行測試.測試結果表明,本文提出的基于分段DRA方法對連續(xù)語音特征向量進行了優(yōu)化,提出的方法不僅在實驗室環(huán)境下體現(xiàn)了良好的噪音魯棒性,在噪音環(huán)境下算法仍比原方法有效,表5列出了15種不同噪音下的平均識別精度.在各種噪聲中,相同的信噪比環(huán)境下,白色噪聲和氣泡噪聲的識別精度最低,汽車噪音下的識別精度最高.在不同噪聲下,算法對噪聲類別的影響系數(shù)均設置為0,如果針對不同的噪聲取不同的噪聲系數(shù),識別結果的均值在10 dB情況下比表5中給出的結果約高10%,但由于實際環(huán)境中噪聲復雜,所以本文未針對不同噪音系數(shù)下給出系數(shù)值和相應的結果.表5中結果所有的噪音系數(shù)均為0.
表5 不同信噪比下的識別精度Table 5 Recognition accuracy at different SNR
綜上所述,本文從歸一化方法出發(fā),通過分析歸一化方法在孤立詞中應用的優(yōu)勢和噪聲對語音特征的影響,發(fā)現(xiàn)了歸一化方法在連續(xù)語音特征曲線調(diào)整時存在的問題,并根據(jù)問題提出了優(yōu)化解決方案,同時,進一步解決了噪聲的不穩(wěn)定性及不可預測性對語音特征的影響.
[1] 鐘金宏,楊善林,徐士林.三字詞語調(diào)的模糊識別方法 [J].系統(tǒng)工程與電子技術,2000,22(12):69-72.(ZHONG Jinhong,YANG Shanlin,XU Shilin.Fuzzy Recognition of Three Words and Intonation [J].Systems Engineering and Electronics,2000,22(12):69-72.)
[2] Lev-Ari H,Ephraim Y.Extension of the Signal Subspace Speech Enhancement Approach to Colored Noise [J].IEEE Signal Processing Letters,2003,10(4):104-106.
[3] 金銀燕,于鳳琴,何艷.基于時頻分布與MFCC的說話人識別 [J].計算機系統(tǒng)應用,2012,21(4):189-190.(JIN Yinyan,YU Fengqin,HE Yan.Based on the Speaker Recognition of Frequency Distribution and MFCC [J].Computer Systems and Applications,2012,21(4):189-190.)
[4] 胡堅,樊可清.基于歸一化互相關法的聲學回聲消除及仿真 [J].微計算機信息,2010,4(1):186-187.(HU Jian,FAN Keqing.Based on Acoustic Echo Normalized Cross-Correlation Method of Elimination and Simulation [J].Microcomputer Information,2010,4(1):186-187.)
[5] SUN Yiming.A Study on Noise Robust Continuous Speech Recognition System Using Block Based Dynamic Range Adjustment [D].[S.l.]:Graduate School of Information Science and Technology of Hokkaido University,2012:25-27.
[6] 韓紀慶,張磊,鄭鐵冉.語音信號處理 [M].北京:清華大學出版社,2004:98-102.(HAN Jiqing,ZHANG Lei,ZHENG Tieran.Speech Signal Processing [M].Beijing:Tsinghua University Press,2004:98-102.)
[7] 龐全,陳晨方,楊翠容.基于美爾倒譜系數(shù)和復雜性的語種辨識 [J].計算機工程,2008,34(19):203-204.(PANG Quan,CHEN Chenfang,YANG Cuirong.Based Mel Cepstral and Complexity of Language Identification [J].Computer Engineering,2008,34(19):203-204.)
[8] 倪崇嘉,劉文舉.漢語大詞匯量連續(xù)語音識別系統(tǒng)研究進展 [J].中文信息學報,2009,23(1):56-57.(NI Chongjia,LIU Wenju.Progress Identification System Chinese Large Vocabulary Continuous Speech [J].Journal of Chinese Information,2009,23(1):56-57.)
[9] 袁里馳.基于改進的隱馬爾科夫模型的語音識別方法 [J].中南大學學報,2008,39(6):23-26.(YUAN Lichi.Improved Voice Recognition Method Based on Hidden Markov Models [J].Journal of Central South University,2008,39(6):23-26.)
(責任編輯:韓 嘯)
NoiseRobustContinuousSpeechRecognitionBasedonNormalization
LIU Yanxiu1,SUN Yiming2,YANG Huamin2
(1.OfficeofAcademicAffairs,ChangchunUniversity,Changchun130022,China;2.Collegeof
ComputerScienceandTechnology,ChangchunUniversityofScienceandTechnology,Changchun130022,China)
Analyzing the impact of normalization method applied in isolated word speech dominant and noise characteristics to discover the continuous speech characteristic curve adjustment problems.The authors raised optimized solutions to further solve the problem of instability and unpredictability of the noise characteristics for voice effects.Robust continuous speech recognition model by normalization method in this paper can achieve a clean environment in the laboratory and real noise environment so as to get the best recognition results.
normalization;noise-robust;continuous speech recognition
10.13413/j.cnki.jdxblxb.2015.03.32
2014-12-18. *“吉林省計算機學會2015年學術年會(JLPCF2015)”征集論文.
劉妍秀(1984—),女,漢族,碩士,實驗師,從事計算機語音識別的研究,E-mail:klxx123456@163.com.
吉林省自然科學基金(批準號:20140101227JC).
TP319
:A
:1671-5489(2015)03-0519-06