◎胡巖松
一種改進(jìn)SCHMM/ANN的語音識別算法的提出
◎胡巖松
本文所采用的一種SCHMM/ANN模型,通過在ubuntu 14.04環(huán)境下搭建了用于語音識別的Kaldi系統(tǒng),編寫了兩種模型的訓(xùn)練及識別腳本。利用開源的語音庫THCHS-30對兩種模型進(jìn)行了驗證,得到了無噪聲環(huán)境下兩者的語音識別率。對兩種模型進(jìn)行了抗噪性能的分析,測試語音中加入高斯白噪聲對兩種模型進(jìn)行實驗測試。最后通過實驗數(shù)據(jù)說明了混合模型在噪聲環(huán)境下能夠取得較好的識別效果,并通過實驗證明了改進(jìn)的端點檢測算法在兩種模型的語音識別當(dāng)中都是有效的。
隱馬爾可夫模型的表示方法:
3)A= (aij)N×N:狀態(tài)轉(zhuǎn)移概率分布。aij表示當(dāng)前時刻狀態(tài)從si轉(zhuǎn)移到sj的概率。
4)B= (bjk)N×M:觀測值概率分布。bj(k)指的是當(dāng)前時刻模型狀態(tài)為Sj,觀測值的概率。
5)π,初始狀態(tài)概率矩陣。其中:
上面介紹的幾個參數(shù)可以用來描述一個完整的隱馬爾可夫模型,表示為λ=(N,M,A,Bπ)。通常N和M為固定值,HMM模型可簡單表示為:λ= (A,B,π)(2)
子空間高斯混合模型也有高斯混合模型相對應(yīng)的狀態(tài),但是子空間高斯混合模型并不是直接給出每一個狀態(tài)的參數(shù),而是通過一個相近的特征向量從全局高斯中映射而來。子空間高斯混合模型可以用全局高斯參數(shù)Mi,wi,和∑i,來描述:
在這里,x是特征向量,j是上下文相產(chǎn)的模型狀態(tài)。語音識別的模型狀態(tài)j是由I個高斯組成的混合高斯。參數(shù)uij,∑ij,wij通過vj,Mi,∑i和wi推導(dǎo)出來(這是一個簡化的描述)。我們使用術(shù)語“子空間”來表明高斯混合模型參數(shù)限制在整個空間的子空間范圍內(nèi)。我們注意到公式(5)的分母是有必要歸一化的。我們也注意到,如果我們不使用指數(shù)函數(shù),那么輔助函數(shù)中我們構(gòu)建的E-M將不能保證是凸函數(shù),這將導(dǎo)致我們在優(yōu)化的過程中遇到困難。如果我們要聲明單個權(quán)重wij作為模型的參數(shù),而不是使用這個公式來得到,模型的規(guī)模將會由我們認(rèn)為不好的權(quán)重所決定。這樣最大似然估計框架將不再是有效的,它將會導(dǎo)致零權(quán)重出現(xiàn)。
考慮到HMM和ANN各自的優(yōu)缺點,在這里我們考慮將兩者結(jié)合起來應(yīng)用到語音識別中,將兩者取長補(bǔ)短應(yīng)用到語音識別領(lǐng)域。在這里,我們將神經(jīng)網(wǎng)絡(luò)的輸出作為隱馬爾可夫模型的輸入信號,利用神經(jīng)網(wǎng)絡(luò)強(qiáng)大的描述能力來區(qū)分各種語音信號的特征,從而提高語音在同音字以及噪聲環(huán)境下的識別率。
本實驗在Kaldi語音識別系統(tǒng)中完成。實驗采用清華大學(xué)開源語音庫THCHS-30作為訓(xùn)練和測試的語音庫,THCHS-30主要包含四個組A,B,C和D。其中A,B和C組主要是語音識別的訓(xùn)練樣本。D組是語音識別的測試樣本,D組又分為四個部分,分別對應(yīng)四組測試結(jié)果。數(shù)據(jù)準(zhǔn)備及數(shù)據(jù)的特征提取的腳本文件過程中我們采用的是MFCC作為語音信號特征提取的參數(shù)。其中的echo函數(shù)用來顯示當(dāng)前語音識別過程的進(jìn)度。其中涉及到很多語音相關(guān)的腳本文件,這些腳本文件都是Kaldi語音識別系統(tǒng)為我們提供的用于語音識別相關(guān)操作的腳本文件。因為實驗需要訓(xùn)練大量的語音數(shù)據(jù),所以整個實驗的訓(xùn)練和識別過程很漫長。
從語音識別的結(jié)果的數(shù)據(jù)可以看出,在純凈語音環(huán)境下,HMM/DBN混合模型的WER為14.2 070,傳統(tǒng)HMM的語音識別系統(tǒng)的W ER為15.7070。從數(shù)據(jù)可以得出,在純凈的語音環(huán)境中HMM/DBN混合模型的識別效果只是略微優(yōu)于傳統(tǒng)的HMM模型,但兩個模型的WER差異并不大。在這種環(huán)境下進(jìn)行兩種模型的結(jié)合,并不能有效地改善語音的識別率,而且還會增加訓(xùn)練時間,增加了開發(fā)的成本。因為模型的結(jié)合重點是針對在噪聲環(huán)境下語音識別的情況,所以接下來我們繼續(xù)對單一模型和混合模型在噪聲環(huán)境下的語音識別進(jìn)行研究。
表1 加入高斯白噪聲兩種模型的WER
通過Matlab可以實現(xiàn)對測試語音信號加入高斯白噪聲。信噪比分比為5dB,10dB, 15dB, 20dB, 25dB, 30dB和35dB,得到的實驗結(jié)果如表1所示。為了更直觀地比較兩種模型在噪聲環(huán)境下的識別效果,可以看出,在高斯白噪聲環(huán)境下,混合模型的語音識別效果明顯優(yōu)于傳統(tǒng)模型的語音識別效果。實驗結(jié)果表明:基于隱馬爾可夫和人工神經(jīng)網(wǎng)絡(luò)混合的語音識別系統(tǒng)的抗噪性能明顯優(yōu)于傳統(tǒng)隱馬爾可夫模型的語音識別系統(tǒng)?;旌夏P屠昧薍MM強(qiáng)大的時序建模能力和ANN強(qiáng)大的描述能力,使得混合模型在一定噪聲環(huán)境下仍然具有較高的語音識別能力?;旌夏P酮毺氐目乖肼曅阅苁惯@種模型在應(yīng)用到產(chǎn)品的時候更有實際價值。
遼寧石化職業(yè)技術(shù)學(xué)院)