戚龍
摘要:本課題基于非特定人語音識別的原理和過程,結合BP神經網絡的建模理論及特點,主要研究了BP神經網絡模型在語音模式識別中的應用問題。同時針對標準BP神經網絡訓練收斂速度慢及容易陷入局部最小的缺點,提出了Sigmoid學習率BP神經網絡訓練算法,并通過仿真計算,得出在非特定人語音識別應用方面Sigmoid學習率BP神經網絡算法的收斂速度要優(yōu)于標準BP神經網絡算法且識別率更高。
Abstract: Based on the principle and process of non-specific speech recognition, this paper focuses on the application of BP neural network model in speech pattern recognition, combined with the modeling theory and characteristics of BP neural network. At the same time, the Sigmoid learning rate BP neural network training algorithm is proposed for the training of BP neural network, and the Sigmoid learning rate BP neural network is obtained by simulating the non-specific speech recognition application. The convergence rate of the algorithm is better than that of the standard BP neural network algorithm and the recognition rate is higher.
關鍵詞:BP神經網絡;學習率;語音識別
Key words: BP neural network;learning rate;speech recognition
中圖分類號:TP183 文獻標識碼:A 文章編號:1006-4311(2017)33-0200-03
0 引言
市場上成熟的語音識別產品基本都是基于統(tǒng)計模式識別理論而開發(fā)的,但因人工神經網絡具有非線性、自適應性、魯棒性、自學習特性且易于硬件實現(xiàn)的優(yōu)點,以及具有強大的分類能力和輸入輸出映射能力,使其應用于語音模式識別領域將有很大的發(fā)展?jié)摿?,將人工神經網絡應用于語音識別,改進現(xiàn)有語音識別系統(tǒng)的性能,是當前語音識別研究的一個重要方向,具有重大的現(xiàn)實意義。
1 標準BP神經網絡
BP神經網絡是一種多層前饋神經網絡,該網絡的主要特點是信號前向傳遞,誤差反向傳導。在向前傳導中,輸入信號從輸入層經隱含層逐層處理,直至輸出層。每一層的神經元狀態(tài)只影響下一層神經元狀態(tài)。如果輸出層得不到期望輸出,則轉入反向傳播,根據(jù)預測誤差調整網絡權值和閾值,從而使BP神經網絡預測輸出不斷逼近期望輸出。BP神經網絡具有非線性無限逼近的特點。
BP神經網絡結構如圖1所示。
2 網絡收斂速度改進方法
BP神經網絡屬于有導師學習算法,根據(jù)期望輸出和實際網絡輸出之間誤差來調整神經元間連接的強度或權值。但是BP神經網絡標準學習算法在訓練時收斂速度較慢,且容易產生過學習現(xiàn)象,而學習率的大小對網絡收斂速度和訓練結果影響很大。如果學習率太小,則學習速度太慢;如果學習率太大,則容易產生過學習現(xiàn)象。本文在標準BP神經網絡算法的基礎上對其進行改進,主要是采用變學習率BP神經網絡算法,學習率使用Sigmoid函數(shù)并用迭代的方法求出,本文把該學習率定義為Sigmoid學習率,具體計算步驟如下。
對步驟4的改進算法如下,u為Sigmoid學習率:
對步驟5的改進算法如下:
3 將改進的BP神經網絡算法用于非特定人語音識別系統(tǒng)的設計
語音識別系統(tǒng)的設計有很多種方法,我們采用BP神經網絡模型進行語音識別系統(tǒng)的設計,首先要將待識別的語音信號輸入識別系統(tǒng),經過預處理后用數(shù)學方法提取語音特征信號,提取的語音特征信號可以看出是語音模式,然后將該語音模式歸一化處理,輸入BP神經網絡語音識別系統(tǒng)進行識別。而基于BP神經網絡的語音識別建模又分為BP神經網絡構建、BP神經網絡訓練和BP神經網絡分類三個步驟,具體語音識別系統(tǒng)流程如圖2所示。
首先我們根據(jù)系統(tǒng)輸入輸出數(shù)據(jù)特點構建BP神經網絡的結構,由于語音特征輸入信號有24維,待分類的語音特征信號有10個,所以BP神經網絡的結構為24-25-10,即輸入層設置24個節(jié)點,隱含層設置25個節(jié)點,輸出層設置10個節(jié)點。
然后我們選取10個命令詞的語音信號作為訓練數(shù)據(jù),根據(jù)倒譜系數(shù)法提取這10個命令詞的語音特征信號并存儲于數(shù)據(jù)庫文件中,這10個命令詞分別用1到10標識,提取出的語音信號分別存儲于數(shù)據(jù)庫文件中,每組數(shù)據(jù)25維,第1維為序號標識,后24維為語音特征信號。根據(jù)命令詞的序號分別設定不同命令詞語音信號的期望輸出,如序號為1時,期望輸出向量為[1,0,0,0,0,0,0,0,0,0],以此類推,序號為10時輸出向量為[0,0,0,0,0,0,0,0,0,1]。
隨機提取該命令詞的100組不同人的語音數(shù)據(jù)作為訓練樣本,并對訓練數(shù)據(jù)進行歸一化處理,然后將處理后的語音數(shù)據(jù)輸入系統(tǒng)之中,對改進的BP神經網絡語音識別系統(tǒng)進行訓練。并另外提取其他50組不同人的該命令詞的語音數(shù)據(jù)作為測試數(shù)據(jù),進行語音識別測試。
4 仿真實驗及結果分析
本節(jié)首先在相同命令詞語音信號訓練數(shù)據(jù)的基礎上,對標準BP神經網絡算法和改進的基于Sigmoid學習率BP神經網絡算法在收斂速度和訓練誤差方面進行比較,驗證了改進的基于Sigmoid學習率BP神經網絡算法在非特定人語音識別方向上的可行性。經大量計算表明本文提出的基于Sigmoid學習率BP神經網絡算法降低了對網絡隨機初始權值的依賴性,提高了模型訓練收斂速度。
圖3描述的是在初始權值和激勵函數(shù)相同的情況下,標準BP神經網絡算法和改進的基于Sigmoid學習率BP神經網絡算法訓練誤差和收斂速度結果的比較。其中上方藍色曲線表示標準BP神經網絡算法在訓練次數(shù)和訓練誤差二維坐標上生成的二維曲線,下方綠色曲線表示改進的基于Sigmoid學習率BP神經網絡算法在訓練次數(shù)和訓練誤差二維坐標上生成的二維曲線。分析圖3可以看出在訓練誤差相同的情況下基于Sigmoid學習率BP神經網絡算法的訓練次數(shù)要少于標準BP神經網絡算法訓練次數(shù),而在訓練次數(shù)相同的情況下,基于Sigmoid學習率BP神經網絡算法的訓練誤差要低于標準BP神經網絡算法的訓練誤差。隨著訓練次數(shù)逐漸增多,兩種算法的訓練誤差都呈現(xiàn)單調下降的趨勢,而基于Sigmoid學習率BP神經網絡算法訓練誤差曲線始終在標準BP神經網絡算法訓練誤差曲線下方。
5 結語
本文介紹了標準BP神經網絡模型和算法,并在此基礎上針對網絡訓練收斂速度慢及容易產生過學習現(xiàn)象提出了改進的基于Sigmoid學習率BP神經網絡算法,并將其應用于非特定人語音識別研究,實驗結果表明基于Sigmoid學習率BP神經網絡算法訓練收斂速度更快,識別誤差更小,識別率更高。
參考文獻:
[1]趙力語音信號處理[M].機械工業(yè)出版社,2009.
[2]MATLAB中文論壇.MATLAB神經網絡30個案例分析[M].北京航空航天大學出版社,2010.
[3]韓力群.人工神經網絡教程[M].北京郵電大學出版社,2006.
[4]高紅.BP神經網絡學習率的優(yōu)化方法[J].長春師范學院學報,2010.
[5]劉玄和,陳睿,彭偉,等.一種BP神經網絡學習率的優(yōu)化設計[J].湖北工業(yè)大學學報,2007,22(3):1-3.endprint