居治華 劉罡 陳琦嵐 呂微 阮佳慧 武業(yè)皓
摘要:語(yǔ)音本身具有一定的上下文相關(guān)性,而傳統(tǒng)語(yǔ)音識(shí)別系統(tǒng)中的語(yǔ)言模型對(duì)歷史信息記憶能力不足,無(wú)法充分學(xué)習(xí)語(yǔ)音序列的相關(guān)性。為解決該問(wèn)題,提出一種基于反向卷積的雙向長(zhǎng)短時(shí)記憶(Bi-LSTM)網(wǎng)絡(luò)的語(yǔ)音識(shí)別方法,該模型在反向長(zhǎng)短時(shí)記憶單元通路末端增加了一個(gè)卷積層,再經(jīng)過(guò)兩個(gè)全連接層,最后通過(guò)分類器輸出識(shí)別結(jié)果。將該模型與目前主流的深度學(xué)習(xí)模型進(jìn)行實(shí)驗(yàn)對(duì)比,結(jié)果表明該模型能有效提高語(yǔ)音識(shí)別正確率。
關(guān)鍵詞:語(yǔ)音識(shí)別;雙向長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò);深度學(xué)習(xí)
DOI:10.11907/rjdk.173082
中圖分類號(hào):TP301
文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1672-7800(2018)007-0027-04
Abstract:Thespeechitselfhasacertaindegreeofcontextualrelevance.However,thelanguagemodelinthetraditionalspeechrecognitionsystemisnotcapableofrememberinghistoricalinformationandcannotsufficientlylearntherelevanceofthespeechsequence.Tosolvethisproblem,thispaperproposesaspeechrecognitionmethodbasedonreverseconvolutionaryBidirectionalLongShortTermMemory(Bi-LSTM)network.Themodeladdsaconvolutionlayertotheendofthememorycellpathinthereversedirection,andthenpassesthroughtwofullyconnectedlayers.Finally,therecognitionresultisoutputtedthroughtheclassifier.Comparedwiththecurrentmainstreamdepthlearningmodel,thismodelcaneffectivelyimprovethespeechrecognitionaccuracy.
KeyWords:speechrecognition;bidirectionallongshort-termmemoryneuralnetwork;depthlearning
0引言
語(yǔ)音識(shí)別是將一段語(yǔ)音信號(hào)轉(zhuǎn)換成對(duì)應(yīng)的文本信息或命令的技術(shù)。傳統(tǒng)的語(yǔ)音識(shí)別由信號(hào)處理及特征提取模塊、聲學(xué)模型、發(fā)音詞典、語(yǔ)言模型、解碼器所構(gòu)成,常用方法有:動(dòng)態(tài)時(shí)間規(guī)整(DynamicalTimeWarping,DTW)[1]、矢量量化(VectorQuantizization,VQ)[2]、隱馬爾科夫模型(HiddenMarkovModel,HMM)[3]等。
隨后發(fā)展的人工神經(jīng)網(wǎng)絡(luò)也被應(yīng)用于語(yǔ)音識(shí)別,但它與傳統(tǒng)語(yǔ)音識(shí)別方法不同,其本質(zhì)上是一個(gè)自適應(yīng)非線性動(dòng)力學(xué)系統(tǒng),一般由神經(jīng)元、訓(xùn)練算法及網(wǎng)絡(luò)結(jié)構(gòu)3大要素構(gòu)成。人工神經(jīng)網(wǎng)絡(luò)模型有反向傳播算法(BackPropagation,BP)[4]、最大熵法(LogisticsRegression,LR)[5]、Boosting算法[6]等。但這些都屬于淺層學(xué)習(xí)模型,例如,Boosting模型只有一層隱含層節(jié)點(diǎn),LR沒(méi)有隱含層節(jié)點(diǎn)。淺層人工神經(jīng)網(wǎng)絡(luò)模型存在著一些問(wèn)題,例如,不能很好地解釋語(yǔ)音信號(hào)的時(shí)間動(dòng)態(tài)特性;在訓(xùn)練學(xué)習(xí)網(wǎng)絡(luò)模型時(shí)容易過(guò)擬合;調(diào)整模型參數(shù)較難,需要不少技巧和經(jīng)驗(yàn)。隨著深度學(xué)習(xí)概念[7]的提出,不少深度學(xué)習(xí)模型也被應(yīng)用于語(yǔ)音識(shí)別中。深度學(xué)習(xí)是用多層非線性結(jié)構(gòu)將低層特征變換成更加抽象的高層特征,通過(guò)逐層學(xué)習(xí)和特征變換,保留本質(zhì)特征,從而提升分類或預(yù)測(cè)準(zhǔn)確性[8]。目前主流的深度學(xué)習(xí)模型有循環(huán)神經(jīng)網(wǎng)絡(luò)(RecurrentNeuralNetworks,RNN),其被應(yīng)用于語(yǔ)音識(shí)別的聲學(xué)建模[9],但簡(jiǎn)單的RNN存在梯度消失問(wèn)題,歷史信息記憶能力不強(qiáng)。為解決該問(wèn)題,研究人員提出基于長(zhǎng)短時(shí)記憶單元(LongShort-TermMemory,LSTM)的遞歸結(jié)構(gòu)[10],在此基礎(chǔ)上又提出雙向長(zhǎng)短時(shí)記憶(BidirectionalLongShort-TermMemory,Bi-LSTM)網(wǎng)絡(luò)[11]。相比于LSTM模型,應(yīng)用Bi-LSTM模型的語(yǔ)音識(shí)別正確率更高。
針對(duì)以上問(wèn)題,本文提出一種基于反向卷積的Bi-LSTM模型用于英文數(shù)字語(yǔ)音識(shí)別,該神經(jīng)網(wǎng)絡(luò)包含Bi-LSTM結(jié)構(gòu)、卷積層、全連接層與分類器。該模型不僅繼承了Bi-LSTM結(jié)構(gòu)可獲取語(yǔ)音特征序列上下文所含隱藏信息的能力,增加的卷積層還能提取出更抽象的語(yǔ)音特征向量,加速網(wǎng)絡(luò)計(jì)算過(guò)程。經(jīng)過(guò)本文實(shí)驗(yàn)驗(yàn)證,與常見的深度學(xué)習(xí)模型相比,基于反向卷積的Bi-LSTM模型語(yǔ)音識(shí)別正確率與之相當(dāng)或者更高。
1相關(guān)模型
1.1長(zhǎng)短時(shí)記憶單元
循環(huán)神經(jīng)網(wǎng)絡(luò)(RecurrentNeuralNetworks,RNN)不僅具有前向反饋神經(jīng)網(wǎng)絡(luò)神經(jīng)元信號(hào),能向上一層傳播,還能夠有效利用上一時(shí)刻隱含層單元輸出的數(shù)據(jù)[12]。但RNN網(wǎng)絡(luò)在梯度后向傳播過(guò)程中會(huì)產(chǎn)生“梯度消失”問(wèn)題,使網(wǎng)絡(luò)參數(shù)學(xué)習(xí)過(guò)程極為緩慢,即在實(shí)際中能獲取利用的歷史信息非常少。
為有效解決上述問(wèn)題,Hochreiter等提出長(zhǎng)短時(shí)記憶單元結(jié)構(gòu)(LongShort-TermMemory,LSTM)。LSTM是一種時(shí)間遞歸神經(jīng)網(wǎng)絡(luò),能選擇性地記憶歷史信息。研究人員在RNN模型基礎(chǔ)上對(duì)其作進(jìn)一步改進(jìn),即用如圖1所示的LSTM單元替換RNN網(wǎng)絡(luò)中的隱含層節(jié)點(diǎn),則形成LSTM網(wǎng)絡(luò)。
LSTM單元的記憶單元(MemoryCell,Cell)狀態(tài)受到3個(gè)門控制,即輸入門(inputgate)、遺忘門(forgetgate)、輸出門(outputgate)。輸入門將當(dāng)前數(shù)據(jù)選擇性地輸入到記憶單元;遺忘門調(diào)控歷史信息對(duì)當(dāng)前記憶單元狀態(tài)值的影響;輸出門用于選擇性輸出記憶單元狀態(tài)值。3個(gè)門和獨(dú)立記憶單元的設(shè)計(jì),使LSTM單元具有保存、讀取、重置及更新長(zhǎng)距離歷史信息作用。在時(shí)刻t,Cell的狀態(tài)通過(guò)以下步驟進(jìn)行更新:
1.2雙向長(zhǎng)短時(shí)記憶
LSTM缺點(diǎn)是只能利用出現(xiàn)在當(dāng)前節(jié)點(diǎn)之前的信息,而無(wú)法充分利用未來(lái)的信息。Bi-LSTM神經(jīng)網(wǎng)絡(luò)能解決上述問(wèn)題,如圖2所示,Bi-LSTM包括輸入層、前向傳遞層、后向傳遞層、輸出層。輸入層對(duì)應(yīng)于序列向量,其主要構(gòu)建了一個(gè)對(duì)齊的雙層模型,一層從右向左傳播,一層從左往右傳播;前向傳遞層節(jié)點(diǎn)連接輸入層節(jié)點(diǎn)和上一輸入的歷史狀態(tài);后向傳遞層節(jié)點(diǎn)同樣連接輸入層節(jié)點(diǎn)和同一層次上一時(shí)刻輸入的歷史狀態(tài)。其基本思想是利用兩個(gè)獨(dú)立的隱含層分別向前和向后捕獲上下文所含的隱藏特征信息,最后將兩個(gè)隱含層結(jié)果組成最終輸出。
2反向卷積Bi-LSTM模型
Bi-LSTM模型的結(jié)構(gòu)和性能優(yōu)異,但語(yǔ)音識(shí)別正確率有待進(jìn)一步提高。因此,本文對(duì)Bi-LSTM網(wǎng)絡(luò)模型進(jìn)行改進(jìn),整體結(jié)構(gòu)如圖3所示。第一部分是輸入層,輸入Mel頻率倒譜系數(shù)(MelFrequencyCepstrumCoefficient,MFCC)特征向量;第二部分是特征提取層,包含正向和反向LSTM結(jié)構(gòu),反向LSTM通路包含一個(gè)卷積層;第三部分是分類層,包含兩個(gè)全連接層、Softmax分類器。
Bi-LSTM層中包含一個(gè)正向LSTM和一個(gè)反向LSTM,正向LSTM用于捕獲語(yǔ)音特征向量上文信息,而反向LSTM捕獲語(yǔ)音特征向量下文信息,最后通過(guò)組合捕獲的語(yǔ)音上下文特征信息向量,獲取全局的上下文信息。一般以正向LSTM獲取的語(yǔ)音特征上文信息構(gòu)成的輸出為準(zhǔn),在反向LSTM末端加卷積層是為了避免反向LSTM單元獲取的語(yǔ)音特征下文信息對(duì)輸出過(guò)多干擾,因?yàn)榫矸e層能提取出參數(shù)更少的特征向量。
反向卷積的Bi-LSTM模型語(yǔ)音識(shí)別整體流程如下:①首先通過(guò)語(yǔ)音預(yù)處理、特征提取模塊,從語(yǔ)音中提取出MFCC特征向量,將MFCC特征向量同時(shí)輸入到正向LSTM層和反向LSTM層;②MFCC特征向量經(jīng)反向LSTM提取出與語(yǔ)音特征下文信息相關(guān)的參數(shù)向量,將其送入卷積層進(jìn)行卷積運(yùn)算;③將卷積層輸出的更為抽象的參數(shù)向量和正向LSTM層輸出的與語(yǔ)音特征上文相關(guān)的參數(shù)向量拼接成一個(gè)新的特征參數(shù)向量;④將新的特征參數(shù)向量送入兩個(gè)全連接層,達(dá)到參數(shù)優(yōu)化的效果;⑤將優(yōu)化后的特征向量送入Softmax分類器,分類識(shí)別后輸出分類標(biāo)簽和識(shí)別正確率。
3實(shí)驗(yàn)相關(guān)及結(jié)果分析
3.1實(shí)驗(yàn)環(huán)境、數(shù)據(jù)集及評(píng)價(jià)指標(biāo)
本實(shí)驗(yàn)所有模型全部使用NVIDIAGeForceGTX1080顯卡進(jìn)行訓(xùn)練。實(shí)驗(yàn)采用深度學(xué)習(xí)框架TensorFlow,其能對(duì)函數(shù)進(jìn)行自動(dòng)求導(dǎo)以及分布式計(jì)算,還用到一個(gè)名為tensorboard的可視化工具,啟動(dòng)后可通過(guò)網(wǎng)頁(yè)觀察模型結(jié)構(gòu)與訓(xùn)練過(guò)程中各參數(shù)的變化。
實(shí)驗(yàn)采用名為Spoken_Numbers的英文數(shù)字?jǐn)?shù)據(jù)集,該數(shù)據(jù)集分為訓(xùn)練集、測(cè)試集兩部分,分別由2400、450個(gè)wav格式的音頻文件組成,大小為470MB。音頻是由15人錄制的0~9英文數(shù)字語(yǔ)音。兩者統(tǒng)計(jì)信息如表1所示。
語(yǔ)音識(shí)別效果的評(píng)價(jià)指標(biāo)采用詞識(shí)別錯(cuò)誤率WER,為使識(shí)別出的詞序列與標(biāo)準(zhǔn)詞序列保持一致,需要進(jìn)行替換、刪除或者插入某些詞,插入詞(Insertions)、替換詞(Substitutions)和刪除詞(Deletions)3者個(gè)數(shù)總和除以標(biāo)準(zhǔn)的詞序列中詞個(gè)數(shù)(TotalWordinCorrectTranscript)的百分比,即為WER,其計(jì)算公式如下:
3.2參數(shù)設(shè)置
在Bi-LSTM層,將正向和反向LSTM的隱含層節(jié)點(diǎn)數(shù)都設(shè)置為128。經(jīng)過(guò)語(yǔ)音預(yù)處理并提取出80維MFCC特征向量后,將該特征向量同時(shí)送入正向和反向LSTM單元神經(jīng)網(wǎng)絡(luò)通路中。其中Bi-LSTM層能將語(yǔ)音的MFCC特征向量序列化,并提取出語(yǔ)音前后相關(guān)的特征信息;而卷積層中采用的卷積核進(jìn)行卷積運(yùn)算能在輸入信號(hào)的每個(gè)位置疊加單位響應(yīng),得到輸出信號(hào),即能使原語(yǔ)音信號(hào)特征增強(qiáng),降低噪音。訓(xùn)練中梯度下降函數(shù)采用批量梯度下降法,它使交叉熵?fù)p失函數(shù)的輸出值loss向當(dāng)前點(diǎn)對(duì)應(yīng)梯度的反方向不斷移動(dòng),從而降低loss。一次移動(dòng)距離是由學(xué)習(xí)速率控制的,設(shè)置為0.0015。實(shí)驗(yàn)對(duì)10個(gè)英文數(shù)字進(jìn)行分類識(shí)別,因此式(8)中的類別k值設(shè)置為10。
3.3結(jié)果分析
圖4-圖6分別為L(zhǎng)STM模型、Bi-LSTM模型和反向卷積的Bi-LSTM模型在tensorboard中產(chǎn)生的loss圖,其中橫坐標(biāo)step是訓(xùn)練代數(shù),縱坐標(biāo)loss是損失函數(shù)的輸出值。loss越高,表示預(yù)測(cè)值和目標(biāo)值差異性越大。三者對(duì)比來(lái)看,0~2000代階段,反向卷積的Bi-LSTM模型loss下降速率最大,即lossfunction收斂速度最快;到5000代時(shí),反向卷積Bi-LSTM模型的loss值最趨近0,即收斂效果最好。
3種模型的詞識(shí)別錯(cuò)誤率如表2所示,WER越小,表示語(yǔ)音識(shí)別系統(tǒng)識(shí)別率越高。訓(xùn)練時(shí),反向卷積Bi-LSTM模型的WER相較于單向LSTM降低了4.96%,相較于Bi-LSTM模型降低了0.37%;測(cè)試時(shí),反向卷積Bi-LSTM模型的WER相較于單向LSTM降低了612%,相較于Bi-LSTM模型降低了0.57%。實(shí)驗(yàn)結(jié)果表明,基于反向卷積的Bi-LSTM模型詞識(shí)別錯(cuò)誤率最低,有效提高了英文數(shù)字識(shí)別正確率。
4結(jié)語(yǔ)
本文通過(guò)對(duì)主流深度神經(jīng)網(wǎng)絡(luò)模型的研究,發(fā)現(xiàn)傳統(tǒng)模型都存在一些問(wèn)題,比如RNN模型存在梯度消失問(wèn)題,不能保留長(zhǎng)距離的歷史信息;LSTM模型僅在時(shí)序上處理序列,忽略了未來(lái)信息;應(yīng)用于英文語(yǔ)音識(shí)別系統(tǒng)的Bi-LSTM模型能解決上述問(wèn)題,其可以捕獲歷史信息,并充分獲取語(yǔ)音序列向量上下文相關(guān)性信息,但存在詞識(shí)別正確率不高、訓(xùn)練時(shí)間較長(zhǎng)的問(wèn)題。因此,本文提出一種基于反向卷積的Bi-LSTM模型,即在反向LSTM通路末端加入卷積層,從而優(yōu)化并減少語(yǔ)音特征參數(shù),縮短訓(xùn)練時(shí)間。實(shí)驗(yàn)結(jié)果表明,基于反向卷積的Bi-LSTM模型能相對(duì)提高英文數(shù)字語(yǔ)音識(shí)別正確率。
然而,本文針對(duì)反向卷積的Bi-LSTM模型僅經(jīng)過(guò)較小數(shù)據(jù)量的訓(xùn)練和測(cè)試,其中還有許多理論和應(yīng)用問(wèn)題需要繼續(xù)深入探討。實(shí)驗(yàn)中訓(xùn)練使用的語(yǔ)音數(shù)據(jù)集僅為英文數(shù)字,要想取得更好的識(shí)別效果,應(yīng)收集更多不同類型數(shù)據(jù)集作進(jìn)一步探索。
參考文獻(xiàn):
[1]呂釗.噪聲環(huán)境下的語(yǔ)音識(shí)別算法研究[D].合肥:安徽大學(xué),2011.
[2]魏艷娜.語(yǔ)音識(shí)別的矢量量化技術(shù)研究[D].邯鄲:河北工程大學(xué),2007.
[3]陳程.基于HMM的語(yǔ)音識(shí)別系統(tǒng)研究[D].長(zhǎng)沙:中南大學(xué),2008.
[4]陳碩.深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)在語(yǔ)音識(shí)別中的應(yīng)用研究[D].廣州:華南理工大學(xué),2013.
[5]周雅倩.最大熵方法及其在自然語(yǔ)言處理中的應(yīng)用[D].上海:復(fù)旦大學(xué),2005.
[6]SCHAPIRE,ROBERTE.Thestrengthofweaklearnability[J].Machinelearning,1990,5(2):197-227.
[7]HINTONGE,OSINDEROS,TEHYW.Afastlearningalgorithmfordeepbeliefnets[J].NeuralComputation,2006,18(7):1527-1554.
[8]DENGL.Anoverviewofdeep-structuredlearningforinformationprocessing[C].Xi′an:APSIPAASC,2011.
[9]GRAVESA,MOHAMEDA,HINTONG.Speechrecognitionwithdeeprecurrentneuralnetworks[C].InAcoustics,SpeechandSignalProcessing,2013IEEEInternationalConference,2013:6645-6649.
[10]HOCHREITERS,SCHMIDHUBERJ.Longshort-termmemory[J].NeuralComputation,1997,9(8):1735-1780.
[11]GRAVESA,SCHMIDHUBERJ.FramewisephonemeclassificationwithbidirectionalLSTMandotherneuralnetworkarchitectures[J].NeuralNetworks,2005,18(5):602-610.
[12]LEVYO,ZESCHT,DAGANI,etal.UKP-BIU:similarityandentailmentmetricsforstudentresponseanalysis[C].InSecondJointConferenceonLexicalandComputationalSemantics,2013:285-289.
(責(zé)任編輯:黃?。?/p>