亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

改進(jìn)的小波變換HMM語音識別算法*

2011-12-17 09:41:58洪淑月施曉鐘

浙江師范大學(xué)學(xué)報(自然科學(xué)版) 2011年4期

洪淑月，施曉鐘，徐皓

(1．浙江師范大學(xué)數(shù)理與信息工程學(xué)院，浙江金華 321004;2．浙江師范大學(xué) 行知學(xué)院，浙江金華321004)

0 引言

語音識別是一個多學(xué)科交叉的領(lǐng)域，它與聲學(xué)、語音學(xué)、語言學(xué)、數(shù)字信號處理理論、信息論、計算機(jī)科學(xué)等眾多學(xué)科緊密相連［1］．隨著人們對語音識別認(rèn)識的深入，人們對語音識別也提出了越來越高的要求．小波分析作為一種強(qiáng)有力的信號分析工具，近年來被廣泛地應(yīng)用于圖像處理和語音處理中，它是時間和頻率的局部變換，能有效地從信號中提取信息．通過小波變換，在信號的高頻域部分，可以取得較好的時間分辨率;在信號的低頻域部分，可以取得較好的頻率分辨率，這種特性使得小波特別適合于語音信號處理［2］．隱馬爾可夫模型(Hidden Markov Models:HMM)，作為語音信號的一種統(tǒng)計模型，目前正在語音處理各個領(lǐng)域中獲得廣泛的應(yīng)用［3-4］．語音識別系統(tǒng)的識別率十分依賴基于HMM模型的訓(xùn)練技術(shù)，然而經(jīng)典的訓(xùn)練算法(Baum-Welch算法)有一個致命的缺陷，即所得最終解依賴于初始值的選取，故只得局部最優(yōu)解，影響了系統(tǒng)的最終識別率，尤其高噪聲環(huán)境下語音識別進(jìn)展困難，必須尋找新的信號分析處理方法［5-6］．本文改進(jìn)思路，將進(jìn)化算法尋找最優(yōu)B初值與Baum-Welch算法相結(jié)合來訓(xùn)練HMM模型，使得整個語音識別系統(tǒng)的識別率大大提升．

1 小波去噪的原理

在實(shí)際運(yùn)用中，去除語音信號中的背景噪聲顯得尤為重要．小波變換是時間和頻率的局域變換，能夠有效地從信號中提取信息．它不但可以檢測到低信噪比信號中的邊緣信號，而且可以濾去噪聲從而恢復(fù)原信號．小波變換的語音降噪原理如下，令觀察信號為

W是正交陣，且Q=σ2uI，所以P=σ2uI．因此，可得到一個重要的結(jié)論:平穩(wěn)白噪聲的正交小波變換仍然是平穩(wěn)的白噪聲［7］．

由該結(jié)論可知，對于如同式(1)的加噪聲模型，經(jīng)正交小波變換后，最大程度地去除了s(n)的相關(guān)性，其能量將集中在少數(shù)小波系數(shù)上．小波變換具有一種“集中”的能力，能使信號和噪聲在不同尺度上所表現(xiàn)出的特征不同，對于信號函數(shù)，隨著尺度的增大，小波變換系數(shù)也增大;對于噪聲，其小波變換系數(shù)隨著尺度的增大而減?。x擇一個合適的閾值對小波系數(shù)進(jìn)行閾值處理，就可以達(dá)到濾除噪聲而保留有用信號的目的．

2 HMM的改進(jìn)

2．1HMM 模型

HMM模型作為語音信號的一種統(tǒng)計模型，今天正在語音處理各個領(lǐng)域中獲得廣泛的應(yīng)用．語音識別系統(tǒng)的原理圖1所示［8］．

HMM過程是一個雙重隨機(jī)過程:一重用于描述非平穩(wěn)信號的短時平穩(wěn)段的統(tǒng)計特征(信號的瞬態(tài)特征);另一重隨機(jī)過程描述了每個短時平穩(wěn)段如何轉(zhuǎn)變到下一個短時平穩(wěn)段，即短時統(tǒng)計特征的動態(tài)特性(隱含在觀察序列中)．人的言語過程本質(zhì)上也是一個雙重隨機(jī)過程，語音信號本身是一個可觀測的時變序列．可見，HMM合理地模仿了這一過程，是一種較為理想的語音信號模征參量．HMM模型通常表示成

2．2HMM的3個基本問題

圖1 HMM語音識別系統(tǒng)

這3個問題目前都已解決，通常情形下評估問題使用“前向-后向”算法解決，解碼問題使用Viterbi算法解決，訓(xùn)練問題使用Baum-Welch算法解決［9］．

2．3 利用遺傳算法改進(jìn)HMM

語音識別系統(tǒng)的識別率十分依賴基于HMM模型的訓(xùn)練技術(shù)，經(jīng)典的訓(xùn)練算法(Baum-Welch算法)有一個致命的缺陷，即所得最終解依賴于初始值的選取，故往往只得局部最優(yōu)解，影響了系統(tǒng)的最終識別率．改進(jìn)思路是將遺傳算法尋找最優(yōu)B初值與Baum-Welch算法相結(jié)合來訓(xùn)練HMM模型，使得整個語音識別系統(tǒng)的識別率大大提升．

進(jìn)化Baum-Welch算法的設(shè)計如下:

因此，A中只需5個參數(shù)形成染色體的一部分，即

所以在遺傳操作后還需對B部分作歸一化操作．

2)適應(yīng)函數(shù)．遺傳算法中，適應(yīng)函數(shù)作為區(qū)分個體優(yōu)劣的標(biāo)準(zhǔn)，需保證優(yōu)秀個體的適應(yīng)度比差的個體的適應(yīng)度高．這里個體的適應(yīng)度用各個訓(xùn)練樣本的對數(shù)似然概率表示，即

式(3)中:O(k)表示用于訓(xùn)練模型的第k個觀測序列;P(O(k)|λ)由Viterbi算法求出．

3)選擇策略．文中采用了基于排名的非線性選擇．在每一代中，將群體成員按適應(yīng)值從高到低依次排列，按照排名分配選擇概率，適應(yīng)值高的個體選擇概率也就相應(yīng)地高．

4)遺傳算子和控制參數(shù)．遺傳算子包含雜交算子和變異算子，它直接影響到算法的最終解．雜交算子相當(dāng)于一個局部搜索操作，它產(chǎn)生父代附近的2個子代，而變異算子則使得個體能夠跳出當(dāng)前的局部搜索區(qū)域，兩者的結(jié)合正好體現(xiàn)了進(jìn)化算法的精髓所在．實(shí)驗(yàn)中采用了3個單點(diǎn)雜交，一點(diǎn)對應(yīng)一個狀態(tài)．在個體中A部分隨機(jī)取一點(diǎn)，將2個父體該點(diǎn)的對應(yīng)值互換;再對每一狀態(tài)在B的兩部分中個體隨機(jī)選取一個點(diǎn)，將2個父體該點(diǎn)后的分量進(jìn)行互換，這樣就完成了雜交的操作．變異算子采用均勻性變異．實(shí)驗(yàn)中種群大小取40，雜交概率取0．7，變異概率取0．001．

5)終止策略．常用的終止準(zhǔn)則是預(yù)先設(shè)置最大進(jìn)化的代數(shù)或預(yù)先設(shè)置一個適應(yīng)值改善的門限值．對于前一種準(zhǔn)則，在進(jìn)化代數(shù)到達(dá)預(yù)置值時進(jìn)化終止．后一種情況下，在適應(yīng)值改善低于該門限值時進(jìn)化停止．本系統(tǒng)取最大進(jìn)化代數(shù)為100．

3 改進(jìn)型系統(tǒng)設(shè)計

基于小波變換和改進(jìn)型HMM的系統(tǒng)設(shè)計模型如圖2所示．

改進(jìn)后的系統(tǒng)在預(yù)處理之后加入小波變換，可以對瞬間突變的語音信號進(jìn)行檢測與分析，有效降低原始語音信號中的噪聲．小波降噪后進(jìn)行端點(diǎn)檢測，之后對語音信號進(jìn)行特征參數(shù)提取MFCC，然后進(jìn)行矢量量化和編碼，再將編碼得到的碼本使用改進(jìn)后的算法訓(xùn)練HMM，最后得到輸出結(jié)果．

圖2 改進(jìn)型系統(tǒng)設(shè)計框圖

4 實(shí)驗(yàn)結(jié)果分析

實(shí)驗(yàn)基于HMM對人體語音識別系統(tǒng)進(jìn)行．訓(xùn)練數(shù)據(jù)取自10人，在不同SNR(高斯白噪聲)下，詞匯量分別為10，20，30，40，50個，共600個實(shí)驗(yàn)樣本，其中300個樣本用于訓(xùn)練，另外300個用于檢測實(shí)驗(yàn)結(jié)果．時間長度為5～10 s，采樣頻率為8 kHz，A/D轉(zhuǎn)換精度為16 bit，并采用單聲道語音進(jìn)行識別測試．實(shí)驗(yàn)結(jié)果如表1所示．

表1 4種系統(tǒng)的識別率比較

表1中，系統(tǒng)Ⅰ為基于HMM的語音識別系統(tǒng);系統(tǒng)Ⅱ?yàn)榛谛〔ㄗ儞Q和HMM的語音識別系統(tǒng);系統(tǒng)Ⅲ為基于改進(jìn)HMM的語音識別系統(tǒng);系統(tǒng)Ⅳ為基于小波變換和改進(jìn)HMM的語音識別系統(tǒng)．因此，可得到以下一些結(jié)論:

1)在高噪聲環(huán)境下，小波降噪對語音系統(tǒng)識別率可提升5% ～7%．隨著語音質(zhì)量(信噪比)的提高，小波降噪對識別率的改善越來越小，當(dāng)信噪比大于35 dB時，小波降噪系統(tǒng)識別率的改善并不明顯．圖3是利用表1中的實(shí)驗(yàn)數(shù)據(jù)(詞匯量為20)制成的小波降噪的識別率比較圖．

圖3 小波變換對系統(tǒng)影響比較

圖4 系統(tǒng)受詞匯量影響比較

2)基于遺傳算法的改進(jìn)HMM模型對系統(tǒng)語音識別率有較大改善，平均提高了4個百分點(diǎn)，且由圖4可以看出改進(jìn)后的系統(tǒng)識別率受詞匯量大小影響不大．

3)改進(jìn)后的語音識別系統(tǒng)，即系統(tǒng)Ⅳ在實(shí)驗(yàn)中表現(xiàn)最優(yōu)，各種環(huán)境下其識別率都是最高的，基本達(dá)到了理論預(yù)期結(jié)果．

5 結(jié)語

提出一種語音識別系統(tǒng)的改進(jìn)方法，通過小波變換和遺傳算法對傳統(tǒng)語音識別方法作了一定改進(jìn)．改進(jìn)后的語音識別算法性能提升明顯，尤其是在惡劣噪聲環(huán)境下，該算法基本達(dá)到了設(shè)計目的和現(xiàn)實(shí)要求．所提出的方法綜合性能優(yōu)于單獨(dú)應(yīng)用HMM模型和小波變換與HMM模型結(jié)合的語音識別方法．

［1］劉么和．語音識別與控制應(yīng)用技術(shù)［M］．北京:科學(xué)出版社，2008:1-35．

［2］Zhou Dexiang，Wang Xianrong．The improvement of HMM algorithm using wavelet dek-noising in speech recognition［C］//2010 3rd International Conference on Advanced Computer Theory and Engineering(Ⅳ)，Chengdu:Int Assoc Comput Sci Inf Technol，2010:4438-4441 ．

［3］García-Moral A I，Solera-Ure?a R，Peláez-Moreno C．Data balancing for efficient training of hybrid ANN/HMM automatic speech recognition system［J］．IEEE Transactions on Audio，Speech and Language Processing，2011，19:468-481．

［4］Terashima R，Yoshimura T，Wakita T．Prediction method of speech recognition performance based on HMM-based speech synthesis technique［J］．IEEJ Transactions on Electronics，Information and Systems，2010，130:557-564．

［5］Borgstrom B J，Alwan A．HMM-based reconstruction of unreliable spectrographic data for noise robust speech recognition［J］．IEEE Transactions on Audio:Speech and Language Processing，2010，18:1612-1623．

［6］Hahm S J，Ohkawa Y I．Speech recognition under multiple noise environment based on multi-mixture HMM and weight optimization by the aspect model［J］．IEICE Transactions on Information and Systems，2010，93(9):2407-2416．

［7］胡廣書．現(xiàn)代信號處理教程［M］．北京:清華大學(xué)出版社，2004:397-398．

［8］Rabiner L R，Juang B H．Fundamentals of Speech Recognition［M］．New Jersey:Prentice-Hall，1999:321-370．

［9］吳朝暉，楊瑩春著．說話人識別模型與方法［M］．北京:清華大學(xué)出版社，2009:21-76．