盧林,王東
(1.黃岡職業(yè)技術(shù)學院,湖北 黃岡 438002;2.中汽研(天津)汽車工程研究院有限公司,天津 300300)
聲音識別技術(shù)中主要包含語音識別和環(huán)境聲音識別,語音識別的出現(xiàn)讓人類和機器的交流變得更加智能和便捷。環(huán)境聲音識別同樣也在各領(lǐng)域取得了廣泛的應(yīng)用。如基于機器聲音識別的故障診斷、基于道路交通聲音識別的輔助駕駛等。目前實現(xiàn)聲音識別的準備工作分別為特征參數(shù)的提取和構(gòu)建識別模型。近年來,為提高聲音識別準確率、識別速度,各種識別模型被提出,這項智能技術(shù)在不斷地更新進步。
在聲音識別領(lǐng)域,早期采用的是語音識別中孤立詞識別的方法,其原理是對一段輸入信號進行逐幀單獨識別,針對識別信號的長度各有不同的情況。上世紀60年代,日本學者Itakura首次動態(tài)時間規(guī)整(Dynamic Time Warping,DTW)算法應(yīng)用到語音識別領(lǐng)域[1]。在識別過程中,不能簡單的將輸入的聲音與模板直接比較,即使是同一種聲音,其信號在時間長度上也不會完全相同,直接比較會降低識別率,因此可對聲音信號進行時間規(guī)整,將待測聲音信號伸長或縮短,直到與參考模板的長度一致。DTW算法基于動態(tài)規(guī)劃(Dyna-mic Programming,DP)的思想,能夠?qū)⑤斎胄盘柕臅r長與模板的時長進行動態(tài)匹配,它也是聲音識別技術(shù)中出現(xiàn)較早的一種算法[2]。
實驗結(jié)果證明,將DTW算法應(yīng)用到語音識別領(lǐng)域在對孤立詞識別方面確實有著較好的識別效果,但其最明顯的缺點在于這種方法實現(xiàn)需要對大量路徑及這些路徑中的所有節(jié)點進行匹配計算,從而導(dǎo)致計算量極大,隨著聲音樣本量及樣本長度的增大,其識別時間甚至將達到難以接受的程度,因此,無法直接應(yīng)用于大、中樣本量聲音識別。同時,根據(jù)其優(yōu)缺點,這種方法主要是應(yīng)用于孤立詞的識別上,對大詞匯量的連續(xù)聲音識別上其效果不太理想,所以,HMM/GMM等混合高速模型應(yīng)運而生。
隱馬爾科夫模型(Hidden Markov Model,HMM)是目前聲音識別中使用最普遍的統(tǒng)計模型之一。它對時間序列結(jié)構(gòu)有著較強的建模能力,它不僅能描述不平穩(wěn)聲音信號的瞬態(tài)特征,還可以跟蹤隱含在觀測序列中的動態(tài)特征。HMM是一個雙內(nèi)嵌式隨機過程,一個隨機過程用來表示隱含狀態(tài)鏈之間的轉(zhuǎn)移,另一個隨機過程用來表示隱含狀態(tài)鏈和可見狀態(tài)鏈對應(yīng)的統(tǒng)計關(guān)系[3]。
HMM聲音識別的步驟是先對輸入的聲音信號應(yīng)用Baum-Welch算法訓練其特征參數(shù),從而使觀測序列對HMM模型的輸出概率最大化。同時應(yīng)用這種算法還可以為每個輸入的聲音信號建立HMM模型參數(shù),將所有聲音的HMM模型參數(shù)組合起來,得到系統(tǒng)HMM模板庫。然后使用Viterbi算法,將待測的聲音和模板庫進行模式匹配,搜索最優(yōu)狀態(tài)序列,并以最大后驗概率為準則獲得識別結(jié)果。
但是HMM模型更多的反應(yīng)類別間的相似性,忽略了類別的差異性,因此具有較弱的分類能力和決策能力,同時其自適應(yīng)性和抗噪性也較差。
高斯混合模型(Gaussian Mixture Model,GMM)使用高斯分布作為參數(shù)模型,精確地量化事物,它是一種將事物分解為若干的基于高斯概率密度函數(shù)形成的模型[4]。GMM用M個高斯分布的線性組合來刻畫矢量的特征數(shù)據(jù)分布。
在建模過程中,首先要初始化GMM算法,即初始化GMM模型中的協(xié)方差矩陣、均值矢量和權(quán)重,得到一個不準確的初始化高斯模型,然后通過運行迭代算法的次數(shù)來不斷縮小它的范圍,更新模型的參數(shù)值,直到收斂,最終訓練出模型的參數(shù)。GMM訓練中使用的迭代算法為最大期望算法(Expectation-Maximization algorithm,EM),EM算法可通過非完備數(shù)據(jù)集合來估計模型參數(shù),包含E-Step和MStep。其中,E-Step的功能是初始化模型,并根據(jù)給定的參數(shù)獲得似然度;M-Step的功能是重估參數(shù),利用最大似然準則使得似然度最大。重復(fù)迭代兩個步驟直到收斂,訓練出模型的參數(shù)。
GMM的優(yōu)點是僅使用少量參數(shù)就能較好地描述對象的特征,聲學模型較小,容易移植到嵌入式平臺。但GMM的局限是計算量較大,收斂速度較慢。對異常點較為敏感,如果其中一個數(shù)據(jù)不服從正態(tài)分布,聚類算法會出現(xiàn)偏差,同時對訓練數(shù)據(jù)量的要求較高。
支持向量機(Support Vector Machine,SVM)是一種基于統(tǒng)計原理開發(fā)的常用作分類器的淺層機器學習方法之一。在聲音識別中,它可以看作是一種分類器,可以將兩種或多種樣本準確地分開,并使經(jīng)驗風險和真實風險都盡可能地小。
SVM算法的基本思想是在不同類的數(shù)據(jù)集上尋找一個最優(yōu)決策超平面將不同類的樣本分開,并使其距離不同類的分類邊緣(平行超平面并過距離超平面最近的數(shù)據(jù)點)最大。當數(shù)據(jù)集線性可分或近似線性可分時,直接尋找最佳超平面,并使得錯分點最少。當數(shù)據(jù)集線性不可分時,SVM將樣本從原始空間映射到高維空間,使其在此空間內(nèi)線性可分,然后尋找最佳超平面將樣本集在此空間內(nèi)區(qū)分開[5]?;谶@種方法,其在解決小樣本、非線性及高維模式識別中表現(xiàn)出許多特有的優(yōu)勢。
SVM在中小樣本量訓練集分類問題上能夠得到比其它算法更優(yōu)的效果,且可以解決樣本維數(shù)很高的問題。但當特征數(shù)據(jù)為非線性問題時,SVM算法并沒有固定的解決方案,遇到這種情況時往往采用網(wǎng)格交叉驗證的思路來選擇最優(yōu)的核函數(shù)和其中的參數(shù)數(shù)值。此外在對大樣本數(shù)據(jù)進行訓練時其學習速度慢也是它的一個不足之處。
人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN)是自上世紀80年代以來人工智能領(lǐng)域興起的研究熱點,并迅速應(yīng)用在聲音識別、圖像識別、文本識別等領(lǐng)域。它的原理是基于生物學中神經(jīng)網(wǎng)絡(luò),在理解和抽象人腦神經(jīng)系統(tǒng)結(jié)構(gòu)和人腦神經(jīng)系統(tǒng)對外界信息反饋機制后,以網(wǎng)絡(luò)拓撲知識為理論基礎(chǔ),模擬人腦神經(jīng)網(wǎng)絡(luò)對外界信息處理機制的數(shù)學模型。ANN內(nèi)部模仿人腦神經(jīng)系統(tǒng),它由大量神經(jīng)元(節(jié)點)組成,每個節(jié)點表示一種特定的輸出函數(shù)(激活函數(shù)),然后通過節(jié)點之間不同方式的連接組成不同的網(wǎng)絡(luò),并對信息進行分布式并行處理,從而復(fù)現(xiàn)大腦神經(jīng)系統(tǒng)處理外部信號的功能。
基于ANN的聲音識別系統(tǒng)內(nèi)部除了包含神經(jīng)元,還具有訓練算法以及網(wǎng)絡(luò)結(jié)構(gòu)兩大要素。ANN采用了多種現(xiàn)代信息技術(shù)成果,如并行處理機制、非線性信息處理機制和信息分布存貯機制等,從而達到高效率處理數(shù)據(jù)和自適應(yīng)調(diào)節(jié)的功能,其中自適應(yīng)調(diào)節(jié)功能主要表現(xiàn)在訓練過程中可以不斷調(diào)整自身的參數(shù)權(quán)值和拓撲結(jié)構(gòu),以適應(yīng)環(huán)境和系統(tǒng)性能優(yōu)化的需求[6]。在聲音識別中使用的傳統(tǒng)神經(jīng)網(wǎng)絡(luò)有BP神經(jīng)網(wǎng)絡(luò)、基于RBF神經(jīng)網(wǎng)絡(luò)等。
神經(jīng)網(wǎng)絡(luò)方法具有聯(lián)想記憶功能和良好的容錯性、高并行性、良好的自適應(yīng)和自學習能力。然而,傳統(tǒng)神經(jīng)網(wǎng)絡(luò)也存在許多缺點,例如難以準確分析神經(jīng)網(wǎng)絡(luò)的各個指標、不適合解決必須得到正確答案的問題、體系結(jié)構(gòu)通用性差等問題。
HMM、GMM、SVM與淺層神經(jīng)網(wǎng)絡(luò)等,歸根結(jié)底都是屬于淺層機器學習模型,這些淺層結(jié)構(gòu)在處理內(nèi)部結(jié)構(gòu)不復(fù)雜,在解決約束不強的數(shù)據(jù)時通過提取相應(yīng)特征進行訓練可取得較好的效果,但是在聲音識別中若遇到信號本身結(jié)構(gòu)復(fù)雜的數(shù)據(jù)時,基于這些方法得到的訓練模型會存在數(shù)據(jù)表征能力不強的現(xiàn)象,最終的識別效果也會有所欠缺,這促使了深度學習(Deep-Learning)的誕生和其在聲音識別領(lǐng)域的快速發(fā)展。
深度學習的概念是由神經(jīng)網(wǎng)絡(luò)大師Hinton和其學生于2006年正式提出,基于深度學習的方法在ImageNet 圖像識別大賽中屢建戰(zhàn)功。不僅在圖像識別上,后來也被延伸應(yīng)用到聲音識別領(lǐng)域,現(xiàn)已成為國際研究的新熱點。從本質(zhì)上講,深度學習是建立一個具有多個隱藏層的機器學習架構(gòu)模型,通過大規(guī)模的數(shù)據(jù)訓練,提取更具代表性的特征。與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)限制網(wǎng)絡(luò)的層數(shù)不同,深度神經(jīng)網(wǎng)絡(luò)可根據(jù)設(shè)計者的要求,選擇任意的層數(shù)。
目前,在基于深度學習方法的聲音識別中,逐漸開發(fā)出循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)、卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)和深度置信網(wǎng)絡(luò)(Deep Belief Network,DBN)雙向長短期記憶(Bidirectional Long-Short Term Memory,LSTM)等。
深度神經(jīng)網(wǎng)絡(luò)根據(jù)其運行原理可以接受比傳統(tǒng)神經(jīng)網(wǎng)絡(luò)大很多的輸入數(shù)據(jù)維度,并且它可以自動學習數(shù)據(jù)的特征,在聲音識別中顯著縮短了特征提取的時間,同時伴隨著計算機GPU的發(fā)展,深度神經(jīng)網(wǎng)絡(luò)的訓練時間也不斷減少,極大地提高了聲音識別的效率。
深度神經(jīng)網(wǎng)絡(luò)是傳統(tǒng)神經(jīng)網(wǎng)絡(luò)技術(shù)的極大突破,同時在大數(shù)據(jù)時代也為聲音識別模型提供了一個新的發(fā)展方向。未來聲音識別模型主要以深度神經(jīng)網(wǎng)絡(luò)聲學模型為基礎(chǔ)進行更深入地研究與改進。
首先是對更深更復(fù)雜的深度神經(jīng)網(wǎng)絡(luò)的開發(fā)研究,雖然以目前的計算能力,在實際聲音識別中還不能取得很好的應(yīng)用,但這是推動深度神經(jīng)網(wǎng)絡(luò)進一步發(fā)展的必然趨勢。Deep-CNN是目前聲音識別模型領(lǐng)域最主要研究的一種模型,微軟、百度、IBM公司相繼推出了自己的Deep-CNN模型,推動著神經(jīng)網(wǎng)絡(luò)向更深層發(fā)展。
其次是混合模型的使用和改進,將不同模型結(jié)合使用,取長補短,達到更好的識別效果。已被應(yīng)用的混合模型有傳統(tǒng)的GMM-HMM模型,隨著ANN的提出,80年代晚期Morgan提出了基于ANN-HMM的混合模型。隨著近年來深度神經(jīng)網(wǎng)絡(luò)的飛速發(fā)展,基于DNN-HMM的混合模型成為了主流的算法。
最后是粗粒度建模技術(shù)的出現(xiàn)和發(fā)展,這是近期出現(xiàn)的一種新的聲學模型技術(shù),粗粒度建模技術(shù)可以極大加快聲音識別的解碼速度,解碼速度的提升使得應(yīng)用更深和更復(fù)雜的神經(jīng)網(wǎng)絡(luò)建立聲學模型成為可能,這是提高識別速度的尖端技術(shù)之一。
識別模型的建立是開展聲音識別工作中至關(guān)重要的一步,它直接關(guān)系到最終目標識別效率。識別模型從開始的動態(tài)時間規(guī)整,到隱馬爾科夫模型、高斯混合模型、人工神經(jīng)網(wǎng)絡(luò)等淺層模型的轉(zhuǎn)變,再到將深度神經(jīng)網(wǎng)絡(luò)強大的特征提取與分類能力應(yīng)用到聲音識別中。目前,基于深度神經(jīng)網(wǎng)絡(luò)的模型已經(jīng)成為了聲學建模的主流,并隨著計算機技術(shù)的發(fā)展而不斷進步。