【摘要】針對現(xiàn)有簡單語音識別系統(tǒng)的識別率較低、識別速度較慢的問題,在對語音識別原理研究的基礎(chǔ)上,對DTW語音識別算法進(jìn)行了改進(jìn),使得簡單語音識別系統(tǒng)能夠準(zhǔn)確、快速的進(jìn)行識別。
【關(guān)鍵詞】語音識別信號處理DTW
一、引言
根據(jù)語音識別系統(tǒng)所使用的環(huán)境和平臺不同,語音識別技術(shù)朝著兩個(gè)方向發(fā)展:一個(gè)方向是大詞匯量的連續(xù)語音識別,該方向所處理的語音較為復(fù)雜;另一個(gè)方向就是向著中小詞匯量的孤立詞匯語音識別,該方向所處理的語音相對較為簡單,應(yīng)用范圍也有一定的限制,如玩具、語音導(dǎo)航等。雖然簡單語音識別系統(tǒng)對于能識別的詞匯量沒有太高的要求,但是目前的一些簡單語音識別系統(tǒng)的識別速度慢、識別率較低,導(dǎo)致用戶體驗(yàn)較差。
二、語音識別系統(tǒng)原理
語音識別在本質(zhì)上屬于模式識別的范疇,其系統(tǒng)結(jié)構(gòu)與模式識別具有相似之處:根據(jù)相關(guān)的識別算法對語音信號進(jìn)行特征參數(shù)的提取,然后先進(jìn)行學(xué)習(xí)后再對語音信號進(jìn)行識別。在學(xué)習(xí)階段,通過給出的訓(xùn)練數(shù)據(jù)建立起參考模板庫;在識別階段,將待識別語音信號的特征參數(shù)與參考模板庫中的參數(shù)進(jìn)行對比,得到與待識別語音信號最接近的模板,輸出該模板作為語音識別的結(jié)果。
三、簡單語音識別系統(tǒng)的改進(jìn)與實(shí)現(xiàn)
DTW在簡單語音識別中已經(jīng)可以達(dá)到較高的識別率,因此本文選擇DTW作為語音識別的模式匹配算法,并對端點(diǎn)檢測進(jìn)行一定的改進(jìn)來實(shí)現(xiàn)語音識別系統(tǒng)的設(shè)計(jì)。
3.1端點(diǎn)檢測的改進(jìn)
在進(jìn)行端點(diǎn)檢測前,為短時(shí)平均能量和短時(shí)過零率設(shè)定兩個(gè)門限值。在靜音段,當(dāng)短時(shí)平均能量或短時(shí)過零率大于低門限值,則開始準(zhǔn)備標(biāo)記語音起點(diǎn),由此進(jìn)入過渡段。但是在過渡段中并不能確定是否真正進(jìn)入語音段,當(dāng)短時(shí)平均能量和短時(shí)過零率都小于低門限值時(shí)認(rèn)為是噪音,并不記錄語音起點(diǎn),恢復(fù)為靜音段;當(dāng)短時(shí)平均能量或短時(shí)過零率大于高門限值,則認(rèn)為是真正的語音片段,將狀態(tài)進(jìn)入語音段。進(jìn)入語音段后還要記錄語音段持續(xù)時(shí)間,若該段時(shí)間較短則認(rèn)為是噪聲,繼續(xù)檢測后面的語音,如果滿足一定的時(shí)間長度則標(biāo)記語音起點(diǎn)并將其記錄為一段語音。
3.2DTW的改進(jìn)
DTW的核心思想是進(jìn)行動態(tài)規(guī)劃,從而解決了語音識別中的發(fā)音長度不一致的匹配問題。在進(jìn)行DTW時(shí),通過動態(tài)匹配找到一個(gè)最佳路徑,把語音信號的特征參數(shù)通過這條最佳路徑映射到參考模板庫中,這條最佳路徑要求語音信號和參考模板之間的累積距離最小。
經(jīng)典的DTW算法規(guī)定待識別語音信號和模板中信號的首尾必須完全一致,但是端點(diǎn)檢測確定的首尾與實(shí)際存在一定的誤差,造成識別率有所下降。為此,可以對DTW的端點(diǎn)的限制適當(dāng)放寬。即允許起點(diǎn)在(0,0)、(0,m)或者(n,0)上,終點(diǎn)在(N,M)、(N,J)或者(I,M)上。端點(diǎn)要求放寬后對端點(diǎn)檢測精度的要求就降低了,提高了識別的速度和精度。
雖然語音的速度不同,但是語序是確定不變的,因此路徑中每一點(diǎn)的斜率必然大于0。而為了防止過度搜素浪費(fèi)資源,可以對搜索路徑的斜率加以限制,由于語音信號的擴(kuò)壓是有限的,因此可以舍去那些向X軸或者Y軸過度傾斜的路徑。具體做法是:將搜索路徑中每個(gè)點(diǎn)的最大斜率設(shè)為2,最小斜率設(shè)為0.5,這樣就可以大大降低搜索范圍,減少了計(jì)算量,提高了識別速度。
另外,還可以在進(jìn)行相似度匹配時(shí)設(shè)定一個(gè)合理的閾值,如果計(jì)算出的某一部分的相似度與該閾值相差太遠(yuǎn),則立即認(rèn)為待識別語音與當(dāng)前模板不匹配,轉(zhuǎn)而進(jìn)入與下一個(gè)模板的相似度計(jì)算,這樣就可以減少大量的計(jì)算量,從而提高簡單語音識別的速度。
3.3實(shí)驗(yàn)及數(shù)據(jù)
在實(shí)驗(yàn)室較安靜的環(huán)境下對男女聲識別進(jìn)行了測試。發(fā)音內(nèi)容為0~9的數(shù)字,采樣率為24KHz,幀長20ms,幀移10ms,識別正確率達(dá)到了95%以上,原DTW算法的孤立字識別時(shí)間是6~7s,而采用本文改進(jìn)算法的識別時(shí)間減少到2~5s。因此,本文方法可以實(shí)現(xiàn)快速準(zhǔn)確的簡單語音識別。
四、結(jié)束語
采用本文方法可以有效提高端點(diǎn)檢測的精度、語音識別的正確率和識別速度,該方法完全滿足簡單語音識別系統(tǒng)的應(yīng)用。
參考文獻(xiàn)
[1]張振鋒.基于小詞匯量孤立詞語音識別系統(tǒng)的研究與設(shè)計(jì)[D].長安大學(xué),2007.
[2]劉建輝,盧珞先,黃濤.一種小詞匯量快速語音識別系統(tǒng)的實(shí)現(xiàn)[J].武漢理工大學(xué)學(xué)報(bào),2006(28).
[3]龔偉.小詞匯量孤立詞語音識別系統(tǒng)的DSP實(shí)現(xiàn)[J].低壓電器,2009(20).