洪淑月, 施曉鐘, 徐 皓
(1.浙江師范大學(xué)數(shù)理與信息工程學(xué)院,浙江 金華 321004;2.浙江師范大學(xué) 行知學(xué)院,浙江 金華321004)
語音識別是一個多學(xué)科交叉的領(lǐng)域,它與聲學(xué)、語音學(xué)、語言學(xué)、數(shù)字信號處理理論、信息論、計算機(jī)科學(xué)等眾多學(xué)科緊密相連[1].隨著人們對語音識別認(rèn)識的深入,人們對語音識別也提出了越來越高的要求.小波分析作為一種強(qiáng)有力的信號分析工具,近年來被廣泛地應(yīng)用于圖像處理和語音處理中,它是時間和頻率的局部變換,能有效地從信號中提取信息.通過小波變換,在信號的高頻域部分,可以取得較好的時間分辨率;在信號的低頻域部分,可以取得較好的頻率分辨率,這種特性使得小波特別適合于語音信號處理[2].隱馬爾可夫模型(Hidden Markov Models:HMM),作為語音信號的一種統(tǒng)計模型,目前正在語音處理各個領(lǐng)域中獲得廣泛的應(yīng)用[3-4].語音識別系統(tǒng)的識別率十分依賴基于HMM模型的訓(xùn)練技術(shù),然而經(jīng)典的訓(xùn)練算法(Baum-Welch算法)有一個致命的缺陷,即所得最終解依賴于初始值的選取,故只得局部最優(yōu)解,影響了系統(tǒng)的最終識別率,尤其高噪聲環(huán)境下語音識別進(jìn)展困難,必須尋找新的信號分析處理方法[5-6].本文改進(jìn)思路,將進(jìn)化算法尋找最優(yōu)B初值與Baum-Welch算法相結(jié)合來訓(xùn)練HMM模型,使得整個語音識別系統(tǒng)的識別率大大提升.
在實(shí)際運(yùn)用中,去除語音信號中的背景噪聲顯得尤為重要.小波變換是時間和頻率的局域變換,能夠有效地從信號中提取信息.它不但可以檢測到低信噪比信號中的邊緣信號,而且可以濾去噪聲從而恢復(fù)原信號.小波變換的語音降噪原理如下,令觀察信號為
W是正交陣,且Q=σ2uI,所以P=σ2uI.因此,可得到一個重要的結(jié)論:平穩(wěn)白噪聲的正交小波變換仍然是平穩(wěn)的白噪聲[7].
由該結(jié)論可知,對于如同式(1)的加噪聲模型,經(jīng)正交小波變換后,最大程度地去除了s(n)的相關(guān)性,其能量將集中在少數(shù)小波系數(shù)上.小波變換具有一種“集中”的能力,能使信號和噪聲在不同尺度上所表現(xiàn)出的特征不同,對于信號函數(shù),隨著尺度的增大,小波變換系數(shù)也增大;對于噪聲,其小波變換系數(shù)隨著尺度的增大而減?。x擇一個合適的閾值對小波系數(shù)進(jìn)行閾值處理,就可以達(dá)到濾除噪聲而保留有用信號的目的.
HMM模型作為語音信號的一種統(tǒng)計模型,今天正在語音處理各個領(lǐng)域中獲得廣泛的應(yīng)用.語音識別系統(tǒng)的原理圖1所示[8].
HMM過程是一個雙重隨機(jī)過程:一重用于描述非平穩(wěn)信號的短時平穩(wěn)段的統(tǒng)計特征(信號的瞬態(tài)特征);另一重隨機(jī)過程描述了每個短時平穩(wěn)段如何轉(zhuǎn)變到下一個短時平穩(wěn)段,即短時統(tǒng)計特征的動態(tài)特性(隱含在觀察序列中).人的言語過程本質(zhì)上也是一個雙重隨機(jī)過程,語音信號本身是一個可觀測的時變序列.可見,HMM合理地模仿了這一過程,是一種較為理想的語音信號模征參量.HMM模型通常表示成
圖1 HMM語音識別系統(tǒng)
這3個問題目前都已解決,通常情形下評估問題使用“前向-后向”算法解決,解碼問題使用Viterbi算法解決,訓(xùn)練問題使用Baum-Welch算法解決[9].
語音識別系統(tǒng)的識別率十分依賴基于HMM模型的訓(xùn)練技術(shù),經(jīng)典的訓(xùn)練算法(Baum-Welch算法)有一個致命的缺陷,即所得最終解依賴于初始值的選取,故往往只得局部最優(yōu)解,影響了系統(tǒng)的最終識別率.改進(jìn)思路是將遺傳算法尋找最優(yōu)B初值與Baum-Welch算法相結(jié)合來訓(xùn)練HMM模型,使得整個語音識別系統(tǒng)的識別率大大提升.
進(jìn)化Baum-Welch算法的設(shè)計如下:
因此,A中只需5個參數(shù)形成染色體的一部分,即
所以在遺傳操作后還需對B部分作歸一化操作.
2)適應(yīng)函數(shù).遺傳算法中,適應(yīng)函數(shù)作為區(qū)分個體優(yōu)劣的標(biāo)準(zhǔn),需保證優(yōu)秀個體的適應(yīng)度比差的個體的適應(yīng)度高.這里個體的適應(yīng)度用各個訓(xùn)練樣本的對數(shù)似然概率表示,即
式(3)中:O(k)表示用于訓(xùn)練模型的第k個觀測序列;P(O(k)|λ)由Viterbi算法求出.
3)選擇策略.文中采用了基于排名的非線性選擇.在每一代中,將群體成員按適應(yīng)值從高到低依次排列,按照排名分配選擇概率,適應(yīng)值高的個體選擇概率也就相應(yīng)地高.
4)遺傳算子和控制參數(shù).遺傳算子包含雜交算子和變異算子,它直接影響到算法的最終解.雜交算子相當(dāng)于一個局部搜索操作,它產(chǎn)生父代附近的2個子代,而變異算子則使得個體能夠跳出當(dāng)前的局部搜索區(qū)域,兩者的結(jié)合正好體現(xiàn)了進(jìn)化算法的精髓所在.實(shí)驗(yàn)中采用了3個單點(diǎn)雜交,一點(diǎn)對應(yīng)一個狀態(tài).在個體中A部分隨機(jī)取一點(diǎn),將2個父體該點(diǎn)的對應(yīng)值互換;再對每一狀態(tài)在B的兩部分中個體隨機(jī)選取一個點(diǎn),將2個父體該點(diǎn)后的分量進(jìn)行互換,這樣就完成了雜交的操作.變異算子采用均勻性變異.實(shí)驗(yàn)中種群大小取40,雜交概率取0.7,變異概率取0.001.
5)終止策略.常用的終止準(zhǔn)則是預(yù)先設(shè)置最大進(jìn)化的代數(shù)或預(yù)先設(shè)置一個適應(yīng)值改善的門限值.對于前一種準(zhǔn)則,在進(jìn)化代數(shù)到達(dá)預(yù)置值時進(jìn)化終止.后一種情況下,在適應(yīng)值改善低于該門限值時進(jìn)化停止.本系統(tǒng)取最大進(jìn)化代數(shù)為100.
基于小波變換和改進(jìn)型HMM的系統(tǒng)設(shè)計模型如圖2所示.
改進(jìn)后的系統(tǒng)在預(yù)處理之后加入小波變換,可以對瞬間突變的語音信號進(jìn)行檢測與分析,有效降低原始語音信號中的噪聲.小波降噪后進(jìn)行端點(diǎn)檢測,之后對語音信號進(jìn)行特征參數(shù)提取MFCC,然后進(jìn)行矢量量化和編碼,再將編碼得到的碼本使用改進(jìn)后的算法訓(xùn)練HMM,最后得到輸出結(jié)果.
圖2 改進(jìn)型系統(tǒng)設(shè)計框圖
實(shí)驗(yàn)基于HMM對人體語音識別系統(tǒng)進(jìn)行.訓(xùn)練數(shù)據(jù)取自10人,在不同SNR(高斯白噪聲)下,詞匯量分別為10,20,30,40,50個,共600個實(shí)驗(yàn)樣本,其中300個樣本用于訓(xùn)練,另外300個用于檢測實(shí)驗(yàn)結(jié)果.時間長度為5~10 s,采樣頻率為8 kHz,A/D轉(zhuǎn)換精度為16 bit,并采用單聲道語音進(jìn)行識別測試.實(shí)驗(yàn)結(jié)果如表1所示.
表1 4種系統(tǒng)的識別率比較
表1中,系統(tǒng)Ⅰ為基于HMM的語音識別系統(tǒng);系統(tǒng)Ⅱ?yàn)榛谛〔ㄗ儞Q和HMM的語音識別系統(tǒng);系統(tǒng)Ⅲ為基于改進(jìn)HMM的語音識別系統(tǒng);系統(tǒng)Ⅳ為基于小波變換和改進(jìn)HMM的語音識別系統(tǒng).因此,可得到以下一些結(jié)論:
1)在高噪聲環(huán)境下,小波降噪對語音系統(tǒng)識別率可提升5% ~7%.隨著語音質(zhì)量(信噪比)的提高,小波降噪對識別率的改善越來越小,當(dāng)信噪比大于35 dB時,小波降噪系統(tǒng)識別率的改善并不明顯.圖3是利用表1中的實(shí)驗(yàn)數(shù)據(jù)(詞匯量為20)制成的小波降噪的識別率比較圖.
圖3 小波變換對系統(tǒng)影響比較
圖4 系統(tǒng)受詞匯量影響比較
2)基于遺傳算法的改進(jìn)HMM模型對系統(tǒng)語音識別率有較大改善,平均提高了4個百分點(diǎn),且由圖4可以看出改進(jìn)后的系統(tǒng)識別率受詞匯量大小影響不大.
3)改進(jìn)后的語音識別系統(tǒng),即系統(tǒng)Ⅳ在實(shí)驗(yàn)中表現(xiàn)最優(yōu),各種環(huán)境下其識別率都是最高的,基本達(dá)到了理論預(yù)期結(jié)果.
提出一種語音識別系統(tǒng)的改進(jìn)方法,通過小波變換和遺傳算法對傳統(tǒng)語音識別方法作了一定改進(jìn).改進(jìn)后的語音識別算法性能提升明顯,尤其是在惡劣噪聲環(huán)境下,該算法基本達(dá)到了設(shè)計目的和現(xiàn)實(shí)要求.所提出的方法綜合性能優(yōu)于單獨(dú)應(yīng)用HMM模型和小波變換與HMM模型結(jié)合的語音識別方法.
[1]劉么和.語音識別與控制應(yīng)用技術(shù)[M].北京:科學(xué)出版社,2008:1-35.
[2]Zhou Dexiang,Wang Xianrong.The improvement of HMM algorithm using wavelet dek-noising in speech recognition[C]//2010 3rd International Conference on Advanced Computer Theory and Engineering(Ⅳ),Chengdu:Int Assoc Comput Sci Inf Technol,2010:4438-4441 .
[3]García-Moral A I,Solera-Ure?a R,Peláez-Moreno C.Data balancing for efficient training of hybrid ANN/HMM automatic speech recognition system[J].IEEE Transactions on Audio,Speech and Language Processing,2011,19:468-481.
[4]Terashima R,Yoshimura T,Wakita T.Prediction method of speech recognition performance based on HMM-based speech synthesis technique[J].IEEJ Transactions on Electronics,Information and Systems,2010,130:557-564.
[5]Borgstrom B J,Alwan A.HMM-based reconstruction of unreliable spectrographic data for noise robust speech recognition[J].IEEE Transactions on Audio:Speech and Language Processing,2010,18:1612-1623.
[6]Hahm S J,Ohkawa Y I.Speech recognition under multiple noise environment based on multi-mixture HMM and weight optimization by the aspect model[J].IEICE Transactions on Information and Systems,2010,93(9):2407-2416.
[7]胡廣書.現(xiàn)代信號處理教程[M].北京:清華大學(xué)出版社,2004:397-398.
[8]Rabiner L R,Juang B H.Fundamentals of Speech Recognition[M].New Jersey:Prentice-Hall,1999:321-370.
[9]吳朝暉,楊瑩春著.說話人識別模型與方法[M].北京:清華大學(xué)出版社,2009:21-76.