摘 要:基于CHMM的語音識別系統(tǒng)識別率高,但卻占用系統(tǒng)資源較大,從而限制了其在資源受限的實際應用環(huán)境的有效實現(xiàn)。針對上述問題,給出特征參數(shù)選擇的理論依據(jù),彌補以往研究僅從實驗結果分析,缺少理論依據(jù)的不足;同時提出根據(jù)各特征參數(shù)對系統(tǒng)誤識率的影響程度來選擇特征參數(shù)的新方法。該方法能使系統(tǒng)在訓練,識別過程中的計算量和存儲量明顯減小,同時系統(tǒng)誤識率不會顯著改變。這為資源受限的語音識別系統(tǒng),提供新的思路和有效的特征參數(shù)選擇方法。
關鍵詞:語音識別;CHMM模型;特征參數(shù)選擇
中圖分類號:TP391.4 文獻標識碼:A
1 引言
在語音識別的三大算法中CHMM算法的高識別率是以大計算量和大存儲量為代價的,在基于嵌入式技術的語音識別系統(tǒng)或具有較強實時性要求的語音識別系統(tǒng)等特殊情況下,系統(tǒng)的資源和計算能力往往受到較大的限制,在保證一定識別率情況下減少識別算法對系統(tǒng)存儲與計算資源的需求,具有重要意義。而語音識別系統(tǒng)的性能與系統(tǒng)所采用的特征參數(shù)密切相關,這就為我們利用特征參數(shù)的選取來實現(xiàn)系統(tǒng)識別性能與計算資源需求之間的折衷處理成為可能。目前,有很多文獻做了各類特征參數(shù)對識別效果影響程度的研究工作,卻沒有討論同一種類參數(shù)分量的問題;則通過對相鄰分量的組合,用實驗結果說明了MFCC分量的相對重要性,但他們都僅用實驗結果加以說明,缺乏理論分析。
本文從CHMM模型的特點出發(fā):一方面從理論上給出了選擇特征參數(shù)的數(shù)學依據(jù),另一方面提出根據(jù)特征參數(shù)對系統(tǒng)誤識率的影響程度,選擇特征參數(shù)的方法。
2 基于CHMM模型特征參數(shù)選擇的理論分析
CHMM的Gauss概率密度函數(shù)的協(xié)方差矩陣本來應該是對稱的滿矩陣,為了降低對計算復雜度和存儲量的要求,一般簡化為對角矩陣。采用對角協(xié)方差陣使模型的參數(shù)減少,也有利于避免因訓練樣本不足而影響模型參數(shù)估計的可靠性。而且實驗結果表明,概率密度函數(shù)的個數(shù)較多且取對角協(xié)方差陣的方案優(yōu)于概率密度函數(shù)較少且取滿元協(xié)方差陣的方案。所以,實際中一般使用具有對角協(xié)方差陣的Gauss概率密度函數(shù)。CHMM計算
的特征矢量。通常,人們使用MFCC+AMFCC或LPCC+ALPCC作為特征矢量,即將MFCC、AMFCC、LPCC、ALPCC作為整體來處理。需要注意的是MFCC和LPCC雖然分別有其完整的物理意義,即Mel刻度聽覺參數(shù)的同態(tài)變換系數(shù)和聲道參數(shù),將他們的各個分量獨立考慮會破壞其物理意義的完整性,但在基于對角協(xié)方差陣的CHMM的模型中,各個分量相互獨立,從而使得我們可以根據(jù)各個分量的重要性來選擇分量,構成特征矢量以減少計算量。另一方面,由于舍去的是對誤識率影響較小的分量,所以系統(tǒng)的識別效果不會顯著改變,從而充分有效的利用了特征矢量的區(qū)分特性。在減少計算量的同時,保證了識別率。
3 CHMM算法計算量與存儲量的分析
3.1 MFCC、AMFCC求取
目前,在語音識別系統(tǒng)中,最常用就是具有較好抗噪性能的MFCC+AMFCC參數(shù)。其求取步驟為:1)對預處理后的每一幀語音信號先進行快速傅里葉變換以獲得頻譜分布信息2)然后將頻域信號通過一組三角濾波器,中心頻率在Mel刻度上均勻分布3)求出每個濾波器的輸出對數(shù)能量4)對其進行離散余弦變換得MFCC5)對MFCC求差分得AMFCC
3.2 計算量與存儲量的分析
設CHMM模型采用N個狀態(tài)、M階混合Gauss概率密度函數(shù)的Markov鏈;特征矢量維數(shù)為n;訓練數(shù)據(jù)為l遍語音數(shù)據(jù),為方便表示設每遍語音數(shù)據(jù)幀數(shù)為T,模型庫容量為R。訓練:①每次參數(shù)迭代前計算
數(shù)下降N*M*T*R*K次;模板庫中Gauss概率密度函數(shù)參數(shù)個數(shù)減少N*M*R*2*K個。
4 實驗及其結果分析
實驗數(shù)據(jù):6個女性發(fā)音,0~9十個數(shù)字,每個數(shù)字發(fā)音50次,其中30次用于建立CHMM模型;實驗模型選擇:采用六個狀態(tài)的從左到右的無跨越的4階混合Gauss概率密度函數(shù)的CHMM模型,端點檢測方法選擇經(jīng)典的雙門限方法。
實驗Ⅰ 在MFCC+AMFCC中去掉某一分量找到對誤識率影響較大的分量(見表1)。
實驗Ⅱ 在MFCC+AMFCC中去掉對誤識率影響小的分量,找到最佳(見表2)。
從實驗結果可以看出,在CHMM模型上采用MFCC1、MFCC2、MFCC4、MFCC5、MFCC7、MFCC8、MFCC10、MFCC11、△MFCCi(i≠11)組成19維的特征矢量,系統(tǒng)的誤識率僅上升2.75%,即系統(tǒng)的識別率仍有95.75%,可以滿足實際需要。而模板庫參數(shù)個數(shù)下降2400個;同時在訓練中N(U,σ2)的計算次數(shù)減少了41,834,880*K次(K為迭代次數(shù));匹配時N(u,σ2)的計算次數(shù)減少1200*T次(T為待識語音幀數(shù))。實驗結果表明:與常規(guī)的24維MFCC+△MFCC相比,選擇其中對識別率貢獻大的主要分量構成的低維特征矢量,系統(tǒng)在訓練、識別過程中N(u,σ2)的計算次數(shù)和模板庫參數(shù)個數(shù)明顯下降,而系統(tǒng)誤識率僅略微上升。
5 結論
針對實際應用中資源有限的語音識別系統(tǒng)對識別率及計算量的特殊要求,本文根據(jù)基于對角協(xié)方差陣的CHMM模型的特點,給出了特征參數(shù)選擇的理論依據(jù),彌補了以往研究僅從實驗結果分析,缺少理論依據(jù)的不足;同時提出根據(jù)各特征參數(shù)對系統(tǒng)誤識率的影響程度來選擇特征參數(shù)的新方法。通過保留對誤識率影響大的分量,舍去對誤識率影響小的分量,尋求次優(yōu)低維參數(shù)組合。使系統(tǒng)在降低特征矢量維數(shù)減少計算量的同時,保證了系統(tǒng)誤識率不會顯著上升,系統(tǒng)的識別效果保持相對穩(wěn)定。從而來滿足語音識別系統(tǒng)對計算量、存儲量等資源消耗指標和識別率的雙重要求。
此外,本文提出的基于CHMM的語音識別系統(tǒng)特征參數(shù)的選擇方法,不僅適用于同一類參數(shù)分量組合與系統(tǒng)誤識率的關系,而且適用于不同參數(shù)組合與系統(tǒng)誤識率的關系分析。所以,在實際應用中,人們可以打破傳統(tǒng)的取整體同一類參數(shù)的方法,根據(jù)對系統(tǒng)識別率與存儲量、計算量的要求,合理選擇的特征參數(shù)組合達以到目標。