陳雷,楊俊安,王龍,李晉徽
?
連續(xù)語(yǔ)音識(shí)別中基于Dropout修正線性深度置信網(wǎng)絡(luò)的聲學(xué)模型
陳雷1,2,楊俊安1,2,王龍1,2,李晉徽1,2
(1. 電子工程學(xué)院,安徽合肥230037;2. 電子制約技術(shù)安徽省重點(diǎn)實(shí)驗(yàn)室,安徽合肥230037)
大詞匯量連續(xù)語(yǔ)音識(shí)別系統(tǒng)中,為了增強(qiáng)現(xiàn)有聲學(xué)模型的表征能力、防止模型過(guò)擬合,提出一種基于遺失策略(Dropout)修正線性深度置信網(wǎng)絡(luò)的聲學(xué)模型構(gòu)建方法。該方法使用修正線性函數(shù)代替?zhèn)鹘y(tǒng)Logistic函數(shù)進(jìn)行深度置信網(wǎng)絡(luò)訓(xùn)練,修正線性函數(shù)更接近生物神經(jīng)網(wǎng)絡(luò)的工作方式,增強(qiáng)了模型的表征能力;同時(shí)引入Dropout策略對(duì)修正線性深度置信網(wǎng)絡(luò)進(jìn)行調(diào)整,避免節(jié)點(diǎn)之間的協(xié)同作用,防止網(wǎng)絡(luò)出現(xiàn)過(guò)擬合。文章利用公開語(yǔ)音數(shù)據(jù)集進(jìn)行了實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果證明了所提出的聲學(xué)模型構(gòu)建方法相對(duì)于傳統(tǒng)方法的優(yōu)越性。
連續(xù)語(yǔ)音識(shí)別;深度置信網(wǎng)絡(luò);修正線性;過(guò)擬合;Dropout
語(yǔ)音識(shí)別技術(shù)是指機(jī)器通過(guò)識(shí)別和理解把人類的語(yǔ)音信號(hào)轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的技術(shù)。大詞匯量連續(xù)語(yǔ)音識(shí)別(Large Vocabulary Continuous Speech Recognition,LVCSR)在公共安全、語(yǔ)音控制、可穿戴設(shè)備等領(lǐng)域有著廣泛的應(yīng)用,對(duì)連續(xù)語(yǔ)音識(shí)別展開深入研究對(duì)推動(dòng)整個(gè)語(yǔ)音識(shí)別產(chǎn)業(yè)發(fā)展有著非比尋常的意義。相比于孤立詞識(shí)別,連續(xù)語(yǔ)音識(shí)別系統(tǒng)更多地強(qiáng)調(diào)運(yùn)用語(yǔ)言學(xué)知識(shí),更加注重對(duì)上下文的關(guān)聯(lián)信息的分析,能夠有效地挖掘和利用語(yǔ)音數(shù)據(jù)的深層次信息。但是由于連續(xù)語(yǔ)音的發(fā)音更為隨意,更易受協(xié)同發(fā)音、發(fā)音習(xí)慣、信道噪聲的影響;訓(xùn)練過(guò)程中還需要考慮到切分(把輸入的語(yǔ)料切分以得到可以處理的較小的部分)和強(qiáng)制對(duì)齊(使得每一幀特征嚴(yán)格對(duì)應(yīng)到模型的各個(gè)音素上)等復(fù)雜技術(shù)。這使得連續(xù)語(yǔ)音識(shí)別的識(shí)別準(zhǔn)確率和魯棒性遠(yuǎn)不及孤立詞和特定人識(shí)別,同時(shí)也使連續(xù)語(yǔ)音識(shí)別成為語(yǔ)音識(shí)別領(lǐng)域極具挑戰(zhàn)性的研究課題[1]。
目前主流的語(yǔ)音識(shí)別系統(tǒng)主要由三部分組成:特征提取、聲學(xué)模型以及解碼[2]。特征提取的主要功能是從輸入的原始語(yǔ)音中提取出有利于后續(xù)識(shí)別的語(yǔ)音特征。聲學(xué)模型的主要作用是匹配輸入的語(yǔ)音特征,進(jìn)而識(shí)別出對(duì)應(yīng)的語(yǔ)音單元,作為L(zhǎng)VCSR系統(tǒng)中的核心模塊,聲學(xué)模型起到了底層支撐的作用,本文主要針對(duì)聲學(xué)模型模塊展開研究。
早期語(yǔ)音識(shí)別系統(tǒng)大多使用動(dòng)態(tài)時(shí)間規(guī)整方法進(jìn)行聲學(xué)模型構(gòu)建,這種方法消耗大量?jī)?nèi)存,計(jì)算量巨大;隨后高斯混合模型(Gaussian Mixture Models,GMM)與隱馬爾科夫模型(Hidden Markov Models, HMM)聯(lián)合構(gòu)成的GMM+HMM[3]在聲學(xué)模型中得到了廣泛的應(yīng)用,一度成為L(zhǎng)VCSR系統(tǒng)的標(biāo)準(zhǔn)配置。但是GMM+HMM仍然存在一些缺陷,包括表征能力不強(qiáng)、容易陷入局部最優(yōu)、未考慮上下文相關(guān)信息等。
近年來(lái),深度置信網(wǎng)絡(luò)(Deep Belief Network,DBN)的提出為建立更加有效的聲學(xué)模型提供了新的思路,它具有諸多優(yōu)點(diǎn):對(duì)語(yǔ)音數(shù)據(jù)的內(nèi)部結(jié)構(gòu)和概率密度函數(shù)要求不嚴(yán)格;可對(duì)較長(zhǎng)時(shí)間段的語(yǔ)音數(shù)據(jù)進(jìn)行處理;對(duì)不同說(shuō)話人的說(shuō)話方式、口音、噪聲等干擾的魯棒性更強(qiáng);在處理語(yǔ)音數(shù)據(jù)時(shí),具有更強(qiáng)的建模能力。于是相關(guān)學(xué)者將DBN引入聲學(xué)模型,構(gòu)建了DBN+HMM聲學(xué)模型[4],DBN的深層模型能夠模擬人腦神經(jīng)網(wǎng)絡(luò)的工作機(jī)理對(duì)語(yǔ)音數(shù)據(jù)進(jìn)行處理,同時(shí)能夠完美地與HMM上下文相關(guān)三音子模型結(jié)合。
DBN+HMM聲學(xué)模型表現(xiàn)出了諸多的優(yōu)越性,但是尋求表征更強(qiáng)的模型構(gòu)建方法始終是我們追尋的目標(biāo);同時(shí)當(dāng)前訓(xùn)練模型中存在著過(guò)擬合現(xiàn)象,特別是當(dāng)訓(xùn)練數(shù)據(jù)比較充足時(shí)過(guò)擬合現(xiàn)象尤為突出,這會(huì)嚴(yán)重影響模型的性能[5]。
相關(guān)學(xué)者已經(jīng)將修正線性函數(shù)和Dropout策略引入深度神經(jīng)網(wǎng)絡(luò)中,并取得了較好的成果。文獻(xiàn)[6]首先提出了Dropout策略,作者將Dropout策略應(yīng)用于前饋神經(jīng)網(wǎng)絡(luò)以防止過(guò)擬合,在圖像識(shí)別和英語(yǔ)語(yǔ)音數(shù)據(jù)集上的實(shí)驗(yàn)證明了該方法的有效性;文獻(xiàn)[5]在深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks, DNN)的基礎(chǔ)上引入修正線性函數(shù),該方法首先利用受限波爾茲曼機(jī)(Restricted Boltzmann Machine, RBM)進(jìn)行預(yù)訓(xùn)練,隨后使用貝葉斯方法對(duì)網(wǎng)絡(luò)進(jìn)行優(yōu)化,在此基礎(chǔ)上還結(jié)合了Dropout策略防止過(guò)擬合,文章的最后利用所提方法進(jìn)行圖像識(shí)別,取得了較好的識(shí)別性能;文獻(xiàn)[7]使用修正線性節(jié)點(diǎn)來(lái)改進(jìn)受限波爾茲曼機(jī),在圖像識(shí)別中取得了較好的性能;文獻(xiàn)[8]使用修正線性節(jié)點(diǎn)進(jìn)行稀疏自動(dòng)編碼機(jī)(Auto-Encoder,AE)的訓(xùn)練,在英語(yǔ)語(yǔ)音和圖像測(cè)試集上取得了較好的識(shí)別效果。
針對(duì)DBN+HMM聲學(xué)模型中存在的表征能力不強(qiáng)、過(guò)擬合的問(wèn)題,本文提出一種基于Dropout RDBN(Rectified Deep Belief Network,RDBN)+ HMM的聲學(xué)模型構(gòu)建方法,該方法首先使用修正線性函數(shù)代替?zhèn)鹘y(tǒng)的Logistic函數(shù)作為激活函數(shù)來(lái)進(jìn)行DBN訓(xùn)練,提高了模型的表征能力;同時(shí)引入Dropout策略避免模型的過(guò)擬合。最后利用Dropout RDBN+HMM聲學(xué)模型在公開數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明基于Dropout RDBN +HMM的聲學(xué)模型構(gòu)建方法相對(duì)于傳統(tǒng)方法更有效。
1.1 DBN基本理論
一個(gè)典型DBN的結(jié)構(gòu)圖如圖1所示。DBN雖然本質(zhì)上仍然是一種多層感知器神經(jīng)網(wǎng)絡(luò)(Multi-Layer Perceptron neural networks, MLP),但是與傳統(tǒng)的MLP構(gòu)建方式不同,它是由一系列受限波爾茲曼機(jī)疊加而成的[9-10]。
一個(gè)典型的RBM如圖2所示,它由兩層神經(jīng)元構(gòu)建而成的:一層是顯層神經(jīng)元(一般為伯努利型或高斯型),另一層為隱層神經(jīng)元(一般為伯努利型)。顯層神經(jīng)元和隱層神經(jīng)元相互連接,但是同一層神經(jīng)元相互之間沒(méi)有連接。由于伯努利-伯努利RBM采用的是二進(jìn)制方式,不能很好地對(duì)自然界的真實(shí)數(shù)據(jù)如語(yǔ)音進(jìn)行建模,因此在實(shí)際應(yīng)用中,一般采用高斯-伯努利RBM對(duì)語(yǔ)音進(jìn)行建模,一個(gè)高斯-伯努利RBM的能量函數(shù)可以表示為
(2)
(4)
(6)
(7)
1.2 基于DBN+HMM的聲學(xué)模型
基于DBN+HMM的聲學(xué)模型能夠?qū)ι舷挛南嚓P(guān)的多元音素進(jìn)行建模,從而得到對(duì)應(yīng)于每一個(gè)狀態(tài)的后驗(yàn)概率,由條件概率公式可以得到HMM狀態(tài)的輸出概率為:
圖3 DBN+HMM結(jié)構(gòu)示意圖
Fig.3 Schematic diagram of DBN+HMM
1.3 基于RDBN+HMM的聲學(xué)模型
傳統(tǒng)的網(wǎng)絡(luò)擁有相似的多重前饋網(wǎng)絡(luò)結(jié)構(gòu),這些隱含層通過(guò)Logistic函數(shù)執(zhí)行近似線性操作。Logistic函數(shù)能夠使用BP網(wǎng)絡(luò)對(duì)參數(shù)進(jìn)行較好的優(yōu)化,同時(shí)能夠挖掘數(shù)據(jù)的深層次非線性特征,因此一度被認(rèn)為是深度神經(jīng)網(wǎng)絡(luò)的重要組成部分。但是Logistic函數(shù)的一些問(wèn)題同樣不容忽視:(1) 當(dāng)概率較小時(shí),函數(shù)近似一種泊松分布,但是當(dāng)概率的取值逐漸趨近于1時(shí),方差再次變小,這是我們所不期望看到的;(2) 對(duì)于小數(shù)值的概率,總體輸入按概率以指數(shù)形式增長(zhǎng),相對(duì)于漸進(jìn)式單元魯棒性較差;(3) 在使用梯度下降法求取最優(yōu)解時(shí)會(huì)遇到梯度消失的問(wèn)題。因此尋求表征能力更強(qiáng)的模型便成為了進(jìn)一步研究的方向。圖4所示為L(zhǎng)ogistic 函數(shù)()和修正線性函數(shù)()。
(a) Logistic函數(shù)
(b) 修正線性函數(shù)
圖4 Logistic函數(shù)和修正線性函數(shù)
Fig.4 Logistic function and rectified function
由圖4可以看到Logistic函數(shù)更加平滑,同時(shí)有一個(gè)函數(shù)值上限。相比于傳統(tǒng)的Logistic函數(shù),修正線性函數(shù)能夠擁有更加出色的性能,本文總結(jié)了以下幾點(diǎn)原因:
(1) 修正線性的這種硬判決的形式更類似于人腦神經(jīng)網(wǎng)絡(luò)中神經(jīng)元信息傳遞方式,更加具有仿生學(xué)特性,這帶來(lái)了識(shí)別速度和準(zhǔn)確率的提升[12]。
從函數(shù)圖形上看,修正線性函數(shù)比Logistic函數(shù)更接近生物學(xué)的激活模型,如圖5所示[13]。
(2) 在使用BP算法對(duì)網(wǎng)絡(luò)進(jìn)行微調(diào)優(yōu)化時(shí),反向傳輸?shù)倪^(guò)程中使用簡(jiǎn)單的分段函數(shù)(修正線性函數(shù)的反函數(shù))進(jìn)行權(quán)重更新。
(3) 修正線性網(wǎng)絡(luò)的另一個(gè)優(yōu)勢(shì)是它進(jìn)行硬判決,即對(duì)于輸入為負(fù)數(shù)時(shí),輸出取值為零。這使得神經(jīng)網(wǎng)絡(luò)僅有一小部分處于激活狀態(tài),便達(dá)到了神經(jīng)網(wǎng)絡(luò)所追求的稀疏特性。
(4) 隨著的逐漸增大,修正線性的神經(jīng)單元輸出并不趨于飽和,這一特性是修正線性函數(shù)在深度結(jié)構(gòu)中取得優(yōu)異表現(xiàn)的重要原因——正是因?yàn)榫€性單元的引入,避免了梯度消失的問(wèn)題。
(5) 修正線性函數(shù)的引入使神經(jīng)網(wǎng)絡(luò)成為局部競(jìng)爭(zhēng)網(wǎng)絡(luò),局部競(jìng)爭(zhēng)網(wǎng)絡(luò)由許多子網(wǎng)絡(luò)構(gòu)成,而且子網(wǎng)絡(luò)之間的大量權(quán)重共享使網(wǎng)絡(luò)更容易訓(xùn)練。如果網(wǎng)絡(luò)中不存在子網(wǎng)絡(luò),訓(xùn)練一個(gè)由多個(gè)神經(jīng)網(wǎng)絡(luò)來(lái)完成簡(jiǎn)單任務(wù)將會(huì)非常困難:不僅需要全局門限機(jī)制,同時(shí)要對(duì)算法和目標(biāo)函數(shù)進(jìn)行修正以引入網(wǎng)絡(luò)之間的競(jìng)爭(zhēng)。在優(yōu)化的階段,子網(wǎng)絡(luò)在訓(xùn)練的初始階段使用較短的時(shí)間進(jìn)行組織,使相似的樣本擁有更多相同的參數(shù)。
圖6所示的Maxout函數(shù)為一種局部競(jìng)爭(zhēng)網(wǎng)絡(luò),可以想象自動(dòng)加入一個(gè)“隱隱含層”。通過(guò)這種同一層節(jié)點(diǎn)之間的競(jìng)爭(zhēng)作用,Maxout這種淺層神經(jīng)網(wǎng)絡(luò)取得了較好的識(shí)別性能,而本文的修正線性網(wǎng)絡(luò)則是通過(guò)隱層節(jié)點(diǎn)與0的競(jìng)爭(zhēng)作用達(dá)到了同樣的效果。
由于以上原因,基于修正線性函數(shù)打破了傳統(tǒng)的Logistic函數(shù)的壟斷,成為了神經(jīng)網(wǎng)絡(luò)訓(xùn)練的主流方法。相關(guān)學(xué)者通過(guò)在語(yǔ)音識(shí)別、圖像識(shí)別等領(lǐng)域的研究發(fā)現(xiàn)修正線性不僅能夠取得識(shí)別準(zhǔn)確率的提升,而且能夠更方便、快捷地完成訓(xùn)練和識(shí)別。
修正線性函數(shù)有多種形式,諸如softplus函數(shù)(見圖7)、過(guò)濾修正線性函數(shù)(Leaky Rectified Linear,LReL)、噪聲修正線性函數(shù)(Noisy Recti?ed Linear Unit,NReLU)等。本節(jié)首先對(duì)softplus函數(shù)進(jìn)行介紹。
(a) 修正線性函數(shù)
(b) Softplus函數(shù)
圖7 修正線性函數(shù)和Softplus函數(shù)效果對(duì)比圖
Fig.7 Rectified function and Softplus function
圖7(b)所示為Softplus函數(shù),作為修正線性函數(shù)的平滑版本,Softplus函數(shù)有許多出色性質(zhì),設(shè)同一層的單元有著相同的權(quán)重矩陣,偏置以固定的數(shù)值漸變。如果設(shè)置變化量為-0.5,-1.5,-2.5…那么總體的概率分布有一個(gè)很好的近似結(jié)果,如公式(9)所示:
所有單元的總體活躍度接近于修正線性函數(shù)的一個(gè)噪聲、整數(shù)、平滑的版本。盡管并不是指數(shù)函數(shù)族中的成員,但是仍然能夠使用共享的權(quán)重和遞變的偏置來(lái)構(gòu)建它的模型,這種方法并沒(méi)有引入額外的參數(shù),同時(shí)提供了一種更出色的模型訓(xùn)練方法。
隨著訓(xùn)練的深入進(jìn)行,發(fā)現(xiàn)如下問(wèn)題:首先,如果經(jīng)過(guò)修正線性調(diào)整在原非零位置重構(gòu)了一個(gè)零結(jié)點(diǎn),在進(jìn)行權(quán)重的反向傳導(dǎo)的過(guò)程中重構(gòu)結(jié)點(diǎn)無(wú)法進(jìn)行梯度的傳播,這使識(shí)別準(zhǔn)確率大打折扣,嚴(yán)重影響系統(tǒng)性能;其次,由于修正線性輸出無(wú)上限,權(quán)重傳輸不能應(yīng)用常規(guī)BP網(wǎng)絡(luò)所使用的方法進(jìn)行處理。為解決上述問(wèn)題,本文在DBN中引入噪聲項(xiàng),構(gòu)建噪聲修正線性結(jié)點(diǎn)(Noisy Recti?ed Linear Unit,NReLU)。
由此,訓(xùn)練過(guò)程中的公式(2)和公式(3)相應(yīng)的用公式(10)和公式(11)表示:
(11)
使用BP網(wǎng)絡(luò)進(jìn)行優(yōu)化的過(guò)程同樣使用修正線性函數(shù)進(jìn)行訓(xùn)練,不引入噪聲項(xiàng),以修正線性節(jié)點(diǎn)代替?zhèn)鹘y(tǒng)的二元節(jié)點(diǎn)進(jìn)行訓(xùn)練,在誤差反向傳導(dǎo)的過(guò)程中使用公式(12)進(jìn)行。
RDBN的訓(xùn)練流程如下:
(1) 參數(shù)初始化;
預(yù)訓(xùn)練:
(2) 使用公式(10)、(11)進(jìn)行修正線性RBM訓(xùn)練;
(3) 采用CD算法利用公式(5)~(7)調(diào)整權(quán)重和偏置;
(4) 逐層完成RBM訓(xùn)練,RBM初值調(diào)整完畢;
微調(diào):
(5) 將預(yù)訓(xùn)練的權(quán)值賦給相同網(wǎng)絡(luò)結(jié)構(gòu)的BP網(wǎng)絡(luò);
(6) 權(quán)重反向傳輸過(guò)程使用公式(12)進(jìn)行。
1.4 基于Dropout RDBN+HMM的聲學(xué)模型
1.3節(jié)構(gòu)建了RDBN+HMM的聲學(xué)模型,識(shí)別效果取得了一定提升,但并未達(dá)到預(yù)期。深入分析過(guò)后發(fā)現(xiàn),模型存在過(guò)擬合現(xiàn)象,特別是在RDBN中,修正線性函數(shù)的硬判決使網(wǎng)絡(luò)的過(guò)擬合現(xiàn)象更為突出。
將為了得到一致假設(shè)而使假設(shè)變得過(guò)度復(fù)雜這種現(xiàn)象為過(guò)擬合。在DBN中,當(dāng)訓(xùn)練樣本相對(duì)于模型參數(shù)來(lái)說(shuō)比較充裕的時(shí)候,可能產(chǎn)生的分類決策面不唯一的情況,需要多個(gè)結(jié)點(diǎn)協(xié)同對(duì)參數(shù)進(jìn)行表示,獨(dú)立的隱含層節(jié)點(diǎn)無(wú)法較好地對(duì)模型進(jìn)行表征。這種協(xié)同作用在訓(xùn)練集中表現(xiàn)較好、具有較高的分類正確率。但是在測(cè)試集中往往表現(xiàn)不佳,因?yàn)樵谟?xùn)練集上對(duì)網(wǎng)絡(luò)的調(diào)整使參數(shù)具有了協(xié)同作用,在測(cè)試集上卻無(wú)法進(jìn)行類似的調(diào)整。同時(shí),復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)不可避免地帶來(lái)訓(xùn)練速度的降低。
傳統(tǒng)解決過(guò)擬合問(wèn)題的主要方法為權(quán)值衰減,該方法每次迭代過(guò)程中加入一個(gè)與網(wǎng)絡(luò)權(quán)值總量相應(yīng)的懲罰項(xiàng),進(jìn)而保持權(quán)值較小,使學(xué)習(xí)過(guò)程向著復(fù)雜決策面的反方向進(jìn)行。這種方法對(duì)網(wǎng)絡(luò)的優(yōu)化調(diào)整作用效果有限。
本文考慮從網(wǎng)絡(luò)結(jié)構(gòu)的角度出發(fā)對(duì)網(wǎng)絡(luò)模型進(jìn)行調(diào)整,引入Dropout策略對(duì)模型結(jié)構(gòu)進(jìn)行調(diào)整,進(jìn)而防止過(guò)擬合。具體來(lái)說(shuō),Dropout中每一個(gè)結(jié)點(diǎn)隨機(jī)以一定的概率被置零,這樣網(wǎng)絡(luò)結(jié)點(diǎn)不能夠?qū)ζ渌Y(jié)點(diǎn)的即時(shí)狀態(tài)做出響應(yīng),權(quán)值的更新不再依賴于有固定關(guān)系的隱含結(jié)點(diǎn)的共同作用,阻止了某些結(jié)點(diǎn)僅僅在其他特定結(jié)點(diǎn)下發(fā)揮作用的情況。
從另一個(gè)角度來(lái)看,一個(gè)降低測(cè)試集上識(shí)別錯(cuò)誤率的方法是對(duì)大量不同的網(wǎng)絡(luò)進(jìn)行訓(xùn)練,然后對(duì)訓(xùn)練結(jié)果求取均值。標(biāo)準(zhǔn)的方法是訓(xùn)練很多不同的網(wǎng)絡(luò)結(jié)構(gòu),然后使用這些網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行數(shù)據(jù)的測(cè)試。但是這種方法無(wú)論在訓(xùn)練還是測(cè)試階段計(jì)算成本都十分可觀。隨機(jī)進(jìn)行Dropout使得在同一時(shí)間對(duì)大量的不同的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行訓(xùn)練成為可能。對(duì)于每一次輸入到網(wǎng)絡(luò)中的樣本,對(duì)應(yīng)的網(wǎng)絡(luò)結(jié)構(gòu)都有差異,但這些網(wǎng)絡(luò)結(jié)構(gòu)同時(shí)共享隱含層結(jié)點(diǎn)的權(quán)值,從而達(dá)到了求取均值的目的。
本文將Dropout策略引入RDBN+HMM中,提出了基于Dropout RDBN+HMM的聲學(xué)模型構(gòu)建方法。Dropout RDBN+HMM訓(xùn)練的總體思路是:在每個(gè)訓(xùn)練樣本訓(xùn)練時(shí),對(duì)于每一個(gè)隱含層的每一個(gè)結(jié)點(diǎn)來(lái)說(shuō),都按照一個(gè)固定的概率決定它是否激活,若某個(gè)結(jié)點(diǎn)不幸沒(méi)被激活,便視該結(jié)點(diǎn)的輸出值為0。相比于RDBN+HMM,引入Dropout后網(wǎng)絡(luò)結(jié)構(gòu)應(yīng)做如下調(diào)整:
(1) 訓(xùn)練階段:前饋網(wǎng)絡(luò)的部分權(quán)值的每一個(gè)隱含層結(jié)點(diǎn)的輸出值以一定的百分比隨機(jī)置零,這樣便完成了Dropout前饋網(wǎng)絡(luò)的構(gòu)建;
(2) 訓(xùn)練階段:由于前饋網(wǎng)絡(luò)中使用Dropout,在微調(diào)部分權(quán)重反向傳輸?shù)倪^(guò)程中要進(jìn)行相應(yīng)的調(diào)整,具體操作為網(wǎng)絡(luò)計(jì)算結(jié)點(diǎn)誤差時(shí)將誤差以一定的幾率置零;
(3) 測(cè)試階段:前饋網(wǎng)絡(luò)部分對(duì)于前饋網(wǎng)絡(luò)的處理與訓(xùn)練階段相同,以相同的百分比將權(quán)重置零。
2.1 數(shù)據(jù)集
本文采用的數(shù)據(jù)集分為兩部分:第一部分為普通話評(píng)測(cè)第四題數(shù)據(jù)集。訓(xùn)練集共包含語(yǔ)音76843句,共64.1小時(shí);測(cè)試集含3720句,共2.6小時(shí),兩個(gè)集共含2000多個(gè)說(shuō)話人。
第二部分?jǐn)?shù)據(jù)集會(huì)話主題開放,表達(dá)方式較為隨意、信道噪聲復(fù)雜,是中文連續(xù)語(yǔ)音識(shí)別難度較大的任務(wù)之一,其訓(xùn)練集和測(cè)試集如表1、2所示。
表1 訓(xùn)練集
表2 測(cè)試集
2.2 實(shí)驗(yàn)系統(tǒng)構(gòu)建
本文采用的語(yǔ)音識(shí)別基線系統(tǒng)為DBN+HMM音素識(shí)別系統(tǒng)。首先進(jìn)行濾波器組特征提取,隨后進(jìn)行聲道參數(shù)規(guī)整(Vocal Tract Length Normalization,VTLN VTLN),再進(jìn)行DBN訓(xùn)練,采用72維的濾波器組特征[14]作為單幀特征(靜態(tài)、一階、二階差分),考慮到4維音調(diào)特征,共79維,每一幀前后各擴(kuò)展5幀得到11幀的音素作為每一維的輸入。
濾波器組特征是對(duì)梅爾域倒譜系數(shù)特征(Mel Frequency Cepstral Coefficients, MFCC)特征的調(diào)整,圖8為MFCC特征提取流程。
進(jìn)行深入分析后發(fā)現(xiàn),從信息的豐富程度來(lái)看,MFCC是經(jīng)過(guò)了降維處理的,在降維過(guò)程中盡管只舍棄掉了離散余弦變換變換后一些不重要的維,但是這些維仍然包含一定的有用信息。因此,本文考慮采用降維之前的特征即經(jīng)過(guò)Filter Bank濾波器組以后的輸出替換MFCC用來(lái)訓(xùn)練DBN,F(xiàn)ilter Bank特征提取流程如圖9所示。
為了與MFCC盡可能相似,本文仍然使用了一階差分、二階差分和靜態(tài)特征拼接在一起,并且拼接上了4維的Pitch特征。最終的特征網(wǎng)絡(luò)變?yōu)?9*11-[2048-2048-2048-43]-3936。
本文使用文獻(xiàn)[15]給出的參數(shù)設(shè)置方法進(jìn)行參數(shù)調(diào)節(jié)。權(quán)重以均值為0、方差為0.01的高斯分布取值;預(yù)訓(xùn)練過(guò)程中設(shè)定訓(xùn)練周期為200;批大小(Batch Size)為1024;迭代次數(shù)為10次。Momentum被用來(lái)加速訓(xùn)練,初始選取為0.5,通過(guò)20次迭代線性增長(zhǎng)到0.9;L2正則懲罰因子為0.002;聲學(xué)模型規(guī)整因子為1.2。
2.3 實(shí)驗(yàn)結(jié)果及分析
本文設(shè)計(jì)了三組實(shí)驗(yàn)來(lái)驗(yàn)證本文所提出的聲學(xué)模型構(gòu)建方法的有效性,實(shí)驗(yàn)1在規(guī)模較小的PSC數(shù)據(jù)集上對(duì)RDBN+HMM的學(xué)習(xí)速率和權(quán)重衰減系數(shù)進(jìn)行調(diào)整;實(shí)驗(yàn)2對(duì)Dropout的置零率進(jìn)行調(diào)整;實(shí)驗(yàn)3在以上實(shí)驗(yàn)的基礎(chǔ)上對(duì)Dropout RDBN+HMM聲學(xué)模型性能進(jìn)行了驗(yàn)證。
本文使用詞錯(cuò)誤率(Word Error Rate, WER)作為評(píng)價(jià)標(biāo)準(zhǔn)。通過(guò)對(duì)比不同模型的WER對(duì)模型的性能進(jìn)行評(píng)估。
2.3.1 實(shí)驗(yàn)1
首先,本文對(duì)預(yù)訓(xùn)練的學(xué)習(xí)速率進(jìn)行了調(diào)整。具體實(shí)驗(yàn)結(jié)果如表3所示。
表3 預(yù)訓(xùn)練學(xué)習(xí)速率對(duì)詞錯(cuò)誤率的影響表
可見,當(dāng)學(xué)習(xí)速度較大時(shí),會(huì)導(dǎo)致整個(gè)訓(xùn)練過(guò)程不收斂,從而出現(xiàn)無(wú)法進(jìn)行訓(xùn)練的情況,而學(xué)習(xí)速度為0.0125時(shí)就出現(xiàn)了不收斂的現(xiàn)象。從表3結(jié)果來(lái)看,學(xué)習(xí)速度對(duì)整個(gè)預(yù)訓(xùn)練過(guò)程的影響較小,學(xué)習(xí)速度取在0.01時(shí)能夠取得最優(yōu)性能,在后續(xù)的訓(xùn)練中將學(xué)習(xí)速度統(tǒng)一設(shè)置為0.01。
隨后,本文進(jìn)行了權(quán)重衰減系數(shù)的調(diào)整,測(cè)試不同預(yù)訓(xùn)練權(quán)重衰減系數(shù)對(duì)識(shí)別性能的影響,具體實(shí)驗(yàn)結(jié)果如表4所示。
表4 不同權(quán)重衰減對(duì)詞錯(cuò)誤率的影響
權(quán)重衰減在每次迭代過(guò)程中以小因子降低每個(gè)權(quán)值,加入一個(gè)與網(wǎng)絡(luò)權(quán)值的總量相應(yīng)的懲罰項(xiàng),保持權(quán)值較小,從而使學(xué)習(xí)向著復(fù)雜決策面的反方向進(jìn)行,有效地防止過(guò)擬合。從表4識(shí)別結(jié)果可以看出,較小的權(quán)重衰減能夠從一定程度上防止過(guò)擬合,提升識(shí)別性能,但是當(dāng)權(quán)重衰減較大時(shí),網(wǎng)絡(luò)反而不能達(dá)到所需的精度,識(shí)別性能開始下降。權(quán)重衰減系數(shù)為0.0008能夠達(dá)到最優(yōu)的性能。因此,本文中采用0.0008的權(quán)重衰減系數(shù)。
2.3.2 實(shí)驗(yàn)2
在試驗(yàn)2中本文重點(diǎn)研究Dropout置零率對(duì)系統(tǒng)識(shí)別性能的影響,實(shí)驗(yàn)中置零率分別設(shè)置為0、0.1、0.2、0.3、0.4、0.5、0.6、0.7。在測(cè)試集2上測(cè)試的結(jié)果表5所示。
表5 不同置零率對(duì)詞錯(cuò)誤率的影響
通過(guò)實(shí)驗(yàn),Dropout的置零率在0.3時(shí)系統(tǒng)取得最優(yōu)效果,過(guò)高或過(guò)低的置零率都會(huì)帶來(lái)識(shí)別準(zhǔn)確率的下降,因此本文在后續(xù)實(shí)驗(yàn)中Dropout置零率統(tǒng)一設(shè)置為0.3。
2.3.3 實(shí)驗(yàn)3
在上述實(shí)驗(yàn)的基礎(chǔ)上,本實(shí)驗(yàn)針對(duì)本章所提出的基于Dropout RDBN+HMM聲學(xué)模型進(jìn)行實(shí)驗(yàn)驗(yàn)證,分別建立了傳統(tǒng)基于DBN+HMM的聲學(xué)模型、基于RDBN+HMM的聲學(xué)模型、基于Dropout DBN+HMM的聲學(xué)模型以及基于Dropout RDBN+HMM的聲學(xué)模型,在數(shù)據(jù)集2上對(duì)上述模型進(jìn)行驗(yàn)證,實(shí)驗(yàn)結(jié)果如表6所示。
表6 不同聲學(xué)模型的識(shí)別性能對(duì)比
通過(guò)實(shí)驗(yàn)發(fā)現(xiàn):①模型(1)和模型(2)實(shí)驗(yàn)結(jié)果表明,在不同的數(shù)據(jù)集上,基于RDBN+HMM的聲學(xué)模型相對(duì)于傳統(tǒng)的DBN+HMM的聲學(xué)模型均取得了效果的提升,符合實(shí)驗(yàn)預(yù)期,表明了基于RDBN+HMM的聲學(xué)模型是一種表征能力更強(qiáng)的聲學(xué)模型構(gòu)建方法;②模型(1)和模型(3)的實(shí)驗(yàn)結(jié)果表明:Dropout DBN+HMM相對(duì)于傳統(tǒng)的DBN+ HMM取得了一定的詞錯(cuò)誤率提升,Dropout策略能夠防止過(guò)擬合;③模型(4)有著最佳的實(shí)驗(yàn)結(jié)果,證明了Dropout策略能夠與修正線性網(wǎng)絡(luò)協(xié)同作用于DBN+HMM,這使得基于Dropout RDBN+HMM的聲學(xué)模型在擁有較強(qiáng)表征能力的同時(shí),能夠利用Dropout策略防止模型過(guò)擬合。
修正線性結(jié)點(diǎn)的硬判決有助于識(shí)別速度的提升,能夠抵消Dropout策略的引入給模型訓(xùn)練速度帶來(lái)的負(fù)面影響??紤]到模型訓(xùn)練過(guò)程中要引入切分、強(qiáng)制對(duì)齊等技術(shù)進(jìn)行分步訓(xùn)練,難以對(duì)模型訓(xùn)練時(shí)間進(jìn)行準(zhǔn)確把握,同時(shí)聲學(xué)模型訓(xùn)練過(guò)程的耗時(shí)對(duì)解碼識(shí)別過(guò)程影響不大,故未對(duì)訓(xùn)練速度做定量分析。
本文提出一種基于Dropout RDBN+HMM的聲學(xué)模型構(gòu)建方法。該方法使用修正線性函數(shù)代替?zhèn)鹘y(tǒng)的Logistic函數(shù)進(jìn)行DBN的訓(xùn)練,使用修正線性函數(shù)的硬判決對(duì)網(wǎng)絡(luò)進(jìn)行優(yōu)化,增強(qiáng)了模型的表征能力;同時(shí)引入Dropout策略對(duì)網(wǎng)絡(luò)模型進(jìn)行調(diào)整,防止訓(xùn)練過(guò)程中出現(xiàn)過(guò)擬合,促使系統(tǒng)構(gòu)成一個(gè)均值網(wǎng)絡(luò),提高了網(wǎng)絡(luò)的泛化能力。本文在聲道環(huán)境復(fù)雜、會(huì)話主題多樣的多個(gè)數(shù)據(jù)集中進(jìn)行了測(cè)試,新的聲學(xué)模型構(gòu)建方法相對(duì)于傳統(tǒng)方法取得了2.0%的詞錯(cuò)誤率提升,表明本文提出的基于Dropout RDBN+HMM的聲學(xué)模型構(gòu)建方法相對(duì)于傳統(tǒng)方法的優(yōu)越性。
[1] 鄭鐵然. 基于音節(jié)網(wǎng)格的漢語(yǔ)語(yǔ)音文檔檢索方法研究[D]. 哈爾濱: 哈爾濱工業(yè)大學(xué).2008.
[2] 韓紀(jì)慶, 張磊, 鄭鐵然. 語(yǔ)音信號(hào)處理[M]. 北京: 清華大學(xué)出版社. 2004.
[3] Torres-Carrasquillo P A, Singer E, Kohler M A., et al. Approaches to language identification using gaussian mixture models and shifted delta cepstral features [C]//Proc ICSLP. 2002: 33-36.
[4] Mohamed A, Dahl G, Hinton G. Acoustic modeling using deep belief networks [J]. IEEE Transactions on Audio, Speech, and Language Processing, 2012, 20(1): 14-22.
[5] Dahl G E, Sainath T N, Hinton G E. Improving deep neural networks for lvcsr using recti?ed linear units and dropout[C]//ICASSP, 2013.
[6] Hinton G, Srivastava N, Krizhevsky A, et al. Improving neural networks by preventing co-adaptation of feature detectors[J]. The Computing Research Repository, abs/1207.0580, 2012.
[7] Vinod Nair, Geo?rey G, Hinton. rectified linear units improve restricted boltzmann machines[C]//ICML-10.2010.
[8] Zeiler M D, Ranzato M, Monga R., et al. On Recti?ed Linear Units for Speech Processing[C]//ICASSP, 2013.
[9] Hinton G, Salakhutdinov R.. Reducing the dimensionality of data with neural networks [J]. Science. 2006, 313(5786): 504-507.
[10] Yu D, Seltzer M. Improved bottleneck features using pre-trained deep neural networks[C]//Proceedings of the International Speech Communication Association, 2011, Florence, Italy: 237-240.
[11] Yu D, Deng L, Dahl G E. Roles of pre training and fine-tuning in context-dependent dbn-hmms for real-world speech recognition[C]//NIPS 2010 Workshop on Deep Learning for Speech Recognition and Related Applications, 2009.
[12] Glorot X, Bordes A, Bengio Y. Deep sparse recti?er neural networks[C]//Proceedings of the Fourteenth International Conference on Artificial Intelligence and Statistics, 2011.
[13] Purves D, George J, Augustine, Fitzpatrick D, et al. Neuroscience [M]. 2nd, Sinauer Associates Inc, 2001. ISBN 087893-741-2.
[14] Chakroborty S, Roy A, Majumdar S, et al. Capturing complementary information via reversed filter bank and parallel implementation with mfcc for improved text-independent speaker identification[C]//Computing: Theory and Applications, 2007 ICCTA07 International Conference on: IEEE. 2007: 463-467
[15] Hinton G. A practical guide to training restricted boltzmann machines [R]. Technical Report 2010-003, Machine Learning Group, University of Toronto, Canada, 2010.
Acoustic model based on Dropout rectified deep belief network in large vocabulary continuous speech recognition system
CHEN Lei1, 2, YANG Jun-an1,2, WANG Long1, 2, LI Jin-hui1, 2
(1. Electronic Engineering Institute, Hefei 230037, Anhui, China;2. Key Laboratory of Electronic Restriction, Anhui Province, Hefei 230037, Anhui, China)
To improve representation ability of acoustic model and prevent over fitting in large vocabulary continuous speech recognition system, this article proposes a method of establishing the acoustic model based on Dropout rectified Deep Belief Network (DBN). This method uses rectified linear function instead of traditional Logistic function as the activation function for DBN training, and the rectified linear function that is closer to the working mode of biological neural network can improve acoustic representation ability of the model, simultaneously Dropout strategy is introduced to avoid the synergy between nodes and to prevent over fitting. The actual test certificate on public speech databases proves the superiority of the proposed method over the conventional one.
large vocabulary continuous speech recognition; deep belief network; rectified linear function; over fitting; Dropout
TP391
A
1000-3630(2016)-02-0146-09
10.16300/j.cnki.1000-3630.2016.02.0012
2015-03-08;
2015-04-17
國(guó)家自然科學(xué)基金資助項(xiàng)目(60872113)
陳雷(1990-), 男, 遼寧鐵嶺人, 碩士研究生, 研究方向?yàn)檎Z(yǔ)音識(shí)別和機(jī)器學(xué)習(xí)。
陳雷, E-mail: plory89@163.com