周春榮
摘 要:語音識別技術能夠實現(xiàn)人機對話,本文從神經(jīng)網(wǎng)絡角度出發(fā)對語音識別技術的應用及優(yōu)化進行探究。文章首先概述了神經(jīng)網(wǎng)絡及語音識別技術的相關理論;其次對語音識別系統(tǒng)基本結構設計進行了分析,主要包括語音信號處理、BP算法、BP網(wǎng)絡結構的設計以及學習樣本的選取;最后對人工神經(jīng)網(wǎng)絡語音識別的應用實例進行了論述,具體包括對于特定人的語音識別、對于非特定人的語音識別以及BP算法改進的進步一實驗三部分。
關鍵詞:神經(jīng)網(wǎng)絡;語音識別技術;應用實踐
中圖分類號:TN912.34 文獻標識碼:A 文章編號:1671-2064(2018)06-0018-02
在當前信息時代之下,人們對計算機的智化要求日漸提升,語音識別技術便是計算機智化的重要表現(xiàn)之一,各學者對語音識別技術的研究也相當多,并提出較多的識別方法,如模板匹配法、統(tǒng)計模式識別法等,這些方法存在一定的劣勢,本文從神經(jīng)網(wǎng)絡理論出發(fā)對語音識別技術進行探究,分析基于神經(jīng)網(wǎng)絡的語音識別系統(tǒng)的構建與應用實踐,以期為相關研究人員提供一定的參考。
1 神經(jīng)網(wǎng)絡及語音識別技術概述
1.1 神經(jīng)網(wǎng)絡
神經(jīng)網(wǎng)絡分為生物神經(jīng)網(wǎng)絡及人工神經(jīng)網(wǎng)絡,本文所探討的為人工神經(jīng)網(wǎng)絡(ANNs,Artificial Neural Networks)。人工神經(jīng)網(wǎng)絡是一種鏈接模型,依照生物神經(jīng)網(wǎng)絡的特征所構建的一種算法模型,其中最常用的一種模型為BP網(wǎng)絡模型,該種網(wǎng)絡模型能學習和存貯大量的輸入-輸出模式映射關系,可以解決大量復雜的問題。
1.2 語音識別技術
語音識別技術(ASR,Automatic Speech Recognition)即使計算機讀寫人類語音中的詞匯內容的一種方式,通常通過將人類語音中的詞匯內容轉化為二進制編碼或者是按鍵再或者是字符序列,使計算機能夠識別這些內容,從而實現(xiàn)人機交互。在當前全球化的背景下,實現(xiàn)人機交互,則能夠使語言不通的人相互交流,故而研究語音識別技術極為重要。
2 語音識別系統(tǒng)基本結構設計
經(jīng)理論分析及實踐研究,語音識別系統(tǒng)的基本結構應如圖1所示。
2.1 語音信號處理
語音信號處理質量直接影響著整個語音識別系統(tǒng)的質量,所以在語音信號預處理、時域分析、語音信號的斷電檢測及特征提取方面,必須要極為嚴謹。
(1)語音信號預處理及時域分析。對于語音信號的預處理,主要的步驟是采集語音,并將語音進行放大等增益控制,必要情況下可以采取反混疊濾波以及預加重等措施,以確保所收集的語音的質量。
(2)語音信號的端點檢測及特征提取。端點檢測主要的作用是對已經(jīng)進行預處理的語音信號的進一步檢測,因為簡單的預處理之后語音信號仍有一定的背景噪音,可能會對后續(xù)的語音檢測產生影響,所以需要通過語音信號進行起點檢測以及末尾檢測,并進行分幀,從而確保檢測結果質量。
2.2 BP算法
因為語音信號轉化為計算機可識別的信息時會存在一定的誤差,而這種誤差又具有不規(guī)律性,所以需要應用BP算法,通過推理及逆向推理來調整輸出層與輸入層權矩陣。BP算法主要分為兩個階段,分別是向前傳播階段以及向后傳播階段,其中向后傳播階段又被成為“誤差傳播階段”。
(1)向前傳播階段。該階段主要是確定輸出層的誤差。其具體算法為:
首先,判定隱含層的第i個神經(jīng)元的輸出,其輸出公式為:
其次,判定輸出層的低k個神經(jīng)元的輸出,其輸出公式為:
最后,結合具體的情況判定誤差函數(shù),其函數(shù)公式為:
(2)向后傳播階段。該階段主要是將輸出層的誤差沿著與輸入信號相反的方向逐漸傳遞到輸入端。這一階段主要的算法為:
首先,確定依據(jù)性能指標函數(shù)Ep,確定思路,具體為:
因為,故而若想使ω向著Ep減小方向移動時,△ω的取值在(-∞,0)之間,反之則應當?。?,+∞)。
其次,假設輸出層為r=2,得出公式:
再次,假設隱含層為r=1,再利用復合微分的相對規(guī)則,確定第j個隱層節(jié)點公式:
最后,得出誤差算法,其公式為:
2.3 BP網(wǎng)絡結構的設計
BP網(wǎng)絡結構設計中,通常需要考慮的有五個方面,確保這五個層面的合理性,則能夠確保語音識別的質量。
(1)網(wǎng)絡的層數(shù)。由以上公式可以看出一個線性輸出層與大于等于一個S型隱含層所構成的網(wǎng)絡,這一網(wǎng)絡中的數(shù)據(jù)與有理函數(shù)相似,所以可以用有理函數(shù)公式進行代替,在層數(shù)不斷增加的時候,誤差會極大的降低,但是網(wǎng)絡會更加復雜,故而需要進行判定,選擇最合理的網(wǎng)絡層數(shù)。
(2)隱含層的神經(jīng)元數(shù)。為使數(shù)據(jù)進一步精確,還可以依據(jù)具體的情況來增加隱含層的神經(jīng)元數(shù),從理論上來講,隱含層的神經(jīng)元數(shù)應當是越多越好。
(3)初始權值的選取。因為基于BP模型設計的系統(tǒng)結構并不是線性的,所以必須要合理確定初始權值,這樣方能確保每一個神經(jīng)元的權值可以在激活函數(shù)變化最大處進行調節(jié),使神經(jīng)元的輸出值與0盡可能的接近,通常情況下,初始值會在-1到1之間。
(4)學習速率。學習速率影響著系統(tǒng)的質量以及效率,如果學習速率比較小,那么系統(tǒng)訓練的時間便會加強,使效率降低,但是學習速率過大,則可能會影響到系統(tǒng)的穩(wěn)定性,從而使系統(tǒng)的質量受到影響,經(jīng)過大量的實踐,筆者認為學習速率的值應當在0.01到0.8之間,這樣方能在保障系統(tǒng)穩(wěn)定的基礎上確保其誤差值較小。
(5)期望誤差的選取。期望誤差的選擇應當依據(jù)具體的隱含層節(jié)點數(shù)確定,不過一般情況下是依靠調節(jié)隱含層節(jié)點以及調整學習時間兩種方式來確定。
2.4 學習樣本的選取
在確定了語音識別系統(tǒng)的整體結構之后,還應當選擇合適的樣本,以確保效果。通常情況下是選擇相對較佳的特定人的語音樣本進行基本分析,接著再選擇非特定人的語音樣本進行處理。
3 人工神經(jīng)網(wǎng)絡語音識別的應用實例
依據(jù)以上系統(tǒng),進行實踐,先確定特定人的語音識別,再確定非特定人的語音識別,最后應用BP算法進一步改進。
對于特定人的語音識別,主要是選擇某一個人的聲音,對其聲音樣本進行識別,通過調整神經(jīng)元數(shù)目進一步調整識別率。在實驗中,設計神經(jīng)元數(shù)為25、30、35、40時候,識別結果如表1所示。
接著對非特定人進行語音識別,所用的方法與對于特定人的語音識別方法一致,具體的測試數(shù)據(jù)如表2所示。
通過BP算法進行改進,最后的測試數(shù)據(jù)如表3所示。
由上可以得知,基于神經(jīng)網(wǎng)絡的語音識別系統(tǒng)在語音識別方向作用較大,且有巨大的潛力。
4 結語
本文是對基于神經(jīng)網(wǎng)絡的語音識別技術的應用進行的探究,文章在概述了神經(jīng)網(wǎng)絡及語音識別技術的相關理論之后對語音識別系統(tǒng)的建構及應用實踐進行探究,以期為相應研究人員提供一定的參考,同時拋磚引玉,希望有更多的學者參與其中進行探究,從而優(yōu)化語音識別技術,促進計算機的進一步智能化。
參考文獻
[1]朱錫祥.基于一維卷積神經(jīng)網(wǎng)絡的車載語音識別技術研究[D].安徽大學,2017.
[2]蔡偉建.人工神經(jīng)網(wǎng)絡理論在語音識別技術中的應用[A].2016:4.
[3]田麗.基于小波神經(jīng)網(wǎng)絡的語音識別的研究[D].大慶石油學院,2015.