鄭文秀,趙峻毅,文心怡,姚引娣
(西安郵電大學(xué) 通信與信息工程學(xué)院,西安 710121)
近年來,隨著語音識別技術(shù)的迅速發(fā)展,特別是深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks,DNN)在大詞匯量連續(xù)語音識別中的成功應(yīng)用,使語音的識別正確率得到了很大的提升。語音識別系統(tǒng)一般包含特征提取、聲學(xué)模型和解碼識別3個部分[1]。特征提取是將原始數(shù)據(jù)中提取有利于后續(xù)過程中語音識別的部分特征,消除大量冗余信息,對這些特征進(jìn)行降維和去噪處理[2]。聲學(xué)模型訓(xùn)練利用特征和標(biāo)注訓(xùn)練模型來區(qū)分隱馬爾科夫模型(Hidden Markov Model,HMM)狀態(tài),包括高斯混合模型(Gaussian Mixture Model,GMM)、深度信念網(wǎng)絡(luò)(Deep Belief Networks,DBN)[3]、深度神經(jīng)網(wǎng)絡(luò)[4]和瓶頸-高斯混合模型(BottleNeck-GMM,BN-GMM)。
在DNN-HMM聲學(xué)模型之前,GMM-HMM聲學(xué)模型具有完善的理論知識體系,訓(xùn)練效率較高。傳統(tǒng)的語音識別聲學(xué)模型采用梅爾頻率倒譜系數(shù)(Mel-Frequency Cepstral Coefficient,MFCC)特征對GMM-HMM進(jìn)行建模。但是MFCC特征具有短時的特性,容易受到環(huán)境中噪聲的影響,魯棒性較差,忽略了連續(xù)幀之間的相關(guān)特性[5]。為利用GMM-HMM的性能優(yōu)勢,文獻(xiàn)[6-7]研究了一種具有狹窄中間層的瓶頸深度神經(jīng)網(wǎng)絡(luò),從神經(jīng)網(wǎng)絡(luò)的瓶頸層提取BN特征來代替MFCC特征,并應(yīng)用于GMM-HMM聲學(xué)模型訓(xùn)練,構(gòu)造出BN-GMM-HMM,實(shí)驗(yàn)結(jié)果表明,該模型與DNN-HMM聲學(xué)模型相比具有相當(dāng)?shù)淖R別能力。
本文將深度神經(jīng)網(wǎng)絡(luò)提取的語音長時相關(guān)性和緊湊性特征與傳統(tǒng)MFCC特征相結(jié)合,構(gòu)造一種新的復(fù)合特征參數(shù)流系統(tǒng)。該系統(tǒng)采用成熟的GMM-HMM聲學(xué)模型,并利用復(fù)合特征參數(shù)流進(jìn)行GMM-HMM模型的重構(gòu),以提升系統(tǒng)的識別率。
2007年,GREZL等人[8]提出瓶頸的概念并在連續(xù)語音識別中成功應(yīng)用。通過在BN-DBN引入瓶頸層減少了輸出特征的維度,降低了后續(xù)的運(yùn)算復(fù)雜度[9]。本文采用基于DNN模型的瓶頸聲學(xué)特征,其訓(xùn)練與其他應(yīng)用于語音識別的DNN訓(xùn)練程相似。輸入數(shù)據(jù)為39維(12維濾波器輸出值,1維對數(shù)能量和兩者的一階、二階差分)、幀長為25 ms、幀移為10 ms、11幀拼接的MFCC特征[10]。
本文采用的DNN由輸入層、5層隱層和輸出層構(gòu)成。相鄰的兩層神經(jīng)元之間相互連接,層內(nèi)神經(jīng)元不連接[11]?;贐N-DNN的語音特征提取可以分為以下2個主要步驟:
步驟1建立DNN。DNN的訓(xùn)練分成神經(jīng)網(wǎng)初始化和參數(shù)更新2個階段,即預(yù)訓(xùn)練(Pre-training)和微調(diào)(Fine-tuning),建立一個訓(xùn)練好的DNN[12]。
1)Pre-training階段:采用貪婪算法進(jìn)行非監(jiān)督的方法訓(xùn)練一個受限玻爾茲曼機(jī)(Restricted Boltzmann Machine,RBM),再通過從底向上的方式訓(xùn)練多個RBM,底層RBM的輸出值作為高層的輸入值,獲得一個DBN網(wǎng)絡(luò)。
本文RBM的能量函數(shù)為高斯-伯努利型,可表示為:
E(v,h;θ)=
(1)
其中,θ代表模型參數(shù),vi代表第i個顯層神經(jīng)元,hj代表第j個隱層神經(jīng)元,Wij代表第i個神經(jīng)元和第j個神經(jīng)元的連接權(quán)重,σi代表控制能量寬度的參數(shù),bi代表顯層神經(jīng)元的第i個偏置,aj代表隱層神經(jīng)元的第j個偏置。
利用梯度下降(Gradient Descent,GD)算法對RBM的對數(shù)似然概率logap(v,h;θ)進(jìn)行計算,其推導(dǎo)公式為:
(2)
(3)
(4)
(5)
2)Fine-tuning階段:在最后一個RBM處采取反向傳播(Back Propagation,BP)算法對整個神經(jīng)網(wǎng)自頂向下進(jìn)行有監(jiān)督地微調(diào)訓(xùn)練,完成DNN的建立。DNN的結(jié)構(gòu)如圖1所示。
圖1 DNN結(jié)構(gòu)Fig.1 Structure of DNN
步驟2訓(xùn)練好DNN后,將瓶頸層后面網(wǎng)絡(luò)移除,瓶頸層當(dāng)作輸出層獲取BN特征[9]。BN-DNN結(jié)構(gòu)如圖2所示。
圖2 BN-DNN結(jié)構(gòu)Fig.2 Structure of BN-DNN
從圖2可以看出[13],隱層3為瓶頸層,將提取的MFCC聲學(xué)特征作為輸入數(shù)據(jù)經(jīng)過顯層和隱層對網(wǎng)絡(luò)進(jìn)行無監(jiān)督預(yù)訓(xùn)練,并采取BP算法對整個神經(jīng)網(wǎng)由后往前進(jìn)行有監(jiān)督地微調(diào)訓(xùn)練,完成DNN的建立。訓(xùn)練好模型后,將隱層3之后的隱層4、隱層5及輸出層去除,并將瓶頸層作為輸出層。DNN具有強(qiáng)大的分類能力,可以從數(shù)據(jù)中學(xué)習(xí)更有利于特定分類任務(wù)的特征表示,因此提取出的語音瓶頸特征更有效。
復(fù)合特征是指傳統(tǒng)的短時特征和非短時差異特征復(fù)合后形成新的特征參數(shù)流。2010年,呂丹桔等人[14]提出將傳統(tǒng)的短時特征如MFCC/PLP特征與采用ANN技術(shù)提取具有差異特征的MLP復(fù)合構(gòu)成新的復(fù)合特征向量,利用構(gòu)造出的復(fù)合特征GMM-HMM聲學(xué)建模在漢語的聲學(xué)特征的識別率上比單特征有了明顯提高。2018年,周楠等人[15]在藏語的研究中進(jìn)行了瓶頸復(fù)合特征的相關(guān)實(shí)驗(yàn),結(jié)果表明,復(fù)合特征相比于單BN特征和DNN后驗(yàn)特征系統(tǒng),識別率有了明顯改善。本文采取DNN模型提取瓶頸特征與MFCC特征相結(jié)合構(gòu)造出一個新的復(fù)合特征參數(shù)。
復(fù)合特征提取步驟如下:
1)對語音的原始數(shù)據(jù)預(yù)處理得到MFCC特征。
2)訓(xùn)練基于最大似然準(zhǔn)則的GMM-HMM聲學(xué)模型,并通過區(qū)分性訓(xùn)練優(yōu)化GMM模型。
3)采用步驟2優(yōu)化好的GMM模型對訓(xùn)練標(biāo)注進(jìn)行強(qiáng)制對齊,獲取幀級標(biāo)注用于DNN訓(xùn)練。
4)通過Pre-training初始化前面得到的DNN網(wǎng)絡(luò)參數(shù),并根據(jù)交叉熵準(zhǔn)則Fine-tuning訓(xùn)練DNN網(wǎng)絡(luò)。
5)移除上一步驟得到的DNN網(wǎng)絡(luò)中瓶頸層之后的網(wǎng)絡(luò),將瓶頸層作為輸出層,獲取BN特征。
6)將上述步驟獲取的BN特征和MFCC特征進(jìn)行串接獲取復(fù)合特征。
復(fù)合特征的流程如圖3所示。
圖3 復(fù)合特征的訓(xùn)練流程Fig.3 Training procedure of compound features
本文采用三音素模型進(jìn)行訓(xùn)練。三音素模型采用A_B_C形式,B為當(dāng)前狀態(tài),A和C分別為前后狀態(tài),對三音素單元使用自左向右的無狀態(tài)間跨越的三狀態(tài)HMM,每個HMM拓?fù)浣Y(jié)構(gòu)前后都有一個開始狀態(tài)和一個結(jié)束狀態(tài)[17]。
基于最大似然準(zhǔn)則的GMM-HMM聲學(xué)模型,其輸入為39維特征,幀長為25 ms,幀移為10 ms,HMM中的每個狀態(tài)設(shè)置100個獨(dú)立的高斯分量。
由DNN作為特征提取模塊提取出BN特征并使用GMM-HMM進(jìn)行聲學(xué)建模所構(gòu)成的系統(tǒng)稱為級聯(lián)系統(tǒng)[18]。首先訓(xùn)練一個DNN-bottleneck神經(jīng)網(wǎng)絡(luò)提取瓶頸特征。輸入層神經(jīng)元數(shù)目=輸入特征的幀數(shù)×每幀的維數(shù),即輸入層節(jié)點(diǎn)429=39×11;隱層中的神經(jīng)元數(shù)目通常設(shè)置應(yīng)盡量大,使得它可以提升深度神經(jīng)網(wǎng)絡(luò)的性能,且除BN層以外,其他隱層的神經(jīng)元數(shù)目相等;瓶頸層的神經(jīng)元數(shù)目通常設(shè)置和特征的單幀維數(shù)一樣。因此,本文的BN-DNN的結(jié)構(gòu)表示為:429-[1 024-1 024-39-1 024-1 024]-429。最后,將得到的BN特征訓(xùn)練GMM-HMM模型,進(jìn)行識別解碼。
復(fù)合特征的GMM-HMM模型的訓(xùn)練采用提取的39維BN特征和39維傳統(tǒng)MFCC特征進(jìn)行串接,得到78維高維度復(fù)合特征,經(jīng)過主成分分析法(Principal Component Analysis,PCA)降維[19-20]后,獲得39維的復(fù)合特征,重復(fù)2.2節(jié)中復(fù)合特征提取步驟中的步驟2的訓(xùn)練方法,訓(xùn)練復(fù)合特征的GMM-HMM聲學(xué)模型并進(jìn)行識別解碼。復(fù)合特征的聲學(xué)模型建立過程如圖4所示。
圖4 復(fù)合特征的聲學(xué)模型建立過程Fig.4 Process of acoustic model establishing with compound features
實(shí)驗(yàn)過程如下:
1)數(shù)據(jù)集
本文采用TIMIT聲學(xué)-音素學(xué)連續(xù)語音語料庫來驗(yàn)證實(shí)驗(yàn)的有效性,共包含4.3 h的語音數(shù)據(jù)(其中包含1.1 h的NIST測試數(shù)據(jù))。數(shù)據(jù)集中訓(xùn)練集包含462個不同發(fā)音人朗讀的4 620個句子,測試集包含162個不同發(fā)音人朗讀的1 620個句子,且訓(xùn)練集與測試集沒有同一個說話人。
2)參數(shù)的設(shè)置
在Pre-training階段,所有的RBM使用CD算法配合小批量隨機(jī)梯度下降法進(jìn)行訓(xùn)練,每一個mini-batch的大小為128,沖量因子設(shè)置為0.9,不使用權(quán)重衰減,學(xué)習(xí)率訓(xùn)練200代RBM。在Fine-tuning階段,所有的參數(shù)設(shè)置和預(yù)訓(xùn)練階段相同。
3)評估標(biāo)準(zhǔn)
本文將詞錯誤率(Word Error Rate,WER)作為評估標(biāo)準(zhǔn)。WER的公式為:
(6)
其中,S為替換數(shù),D為刪除數(shù),I為插入數(shù),N為單詞數(shù)。
實(shí)驗(yàn)1隱層中神經(jīng)元個數(shù)的最優(yōu)設(shè)置
在實(shí)驗(yàn)1中,本文通過調(diào)整BN-DNN模型中隱層的神經(jīng)元個數(shù)確定最佳的網(wǎng)絡(luò)結(jié)構(gòu)配置。隱層依次設(shè)置為256、512、1 024、2 048這4種情況,每個隱層神經(jīng)元個數(shù)相同,且BN層神經(jīng)元數(shù)目臨時設(shè)置為39。不同神經(jīng)元個數(shù)的模型性能比較如表1所示。
表1 不同神經(jīng)元個數(shù)的復(fù)合特征聲學(xué)模型性能比較Table 1 Performance comparison of composund features acoustic models with different numbers of neurons %
從表1可以看出,在DNN為五層隱層的情況下,除瓶頸層神經(jīng)元數(shù)目為39外,其他隱層均為1 024時,新的復(fù)合特征建立的聲學(xué)模型效果達(dá)到最佳。從而驗(yàn)證在2.2節(jié)提出的深度神經(jīng)網(wǎng)絡(luò)模型中,隱層神經(jīng)元數(shù)目盡量大可以提升深度神經(jīng)網(wǎng)絡(luò),在神經(jīng)元數(shù)目達(dá)到1 024時,WER達(dá)到最小值13.75%,神經(jīng)元數(shù)目繼續(xù)增加,WER反而增加。所以,神經(jīng)元數(shù)目并不是越大越好,五層隱層效果最好的神經(jīng)元數(shù)目為1 024。
實(shí)驗(yàn)2BN層中神經(jīng)元個數(shù)的最優(yōu)設(shè)置
根據(jù)實(shí)驗(yàn)1確定隱層神經(jīng)元數(shù)目為1 024,改變BN層中神經(jīng)元的個數(shù),分別設(shè)置為20、30、39及40這4種情況來確定BN層為39個神經(jīng)元時是否為最優(yōu)參數(shù)。不同BN層的模型性能比較如表2所示。
表2 不同BN層的復(fù)合聲學(xué)模型性能比較Table 2 Performance comparison of composund acoustic models of different BN layers %
從表2可以看出,在BN層數(shù)改變的4種情況下,WER并沒有太大的改變,在最大差距數(shù)目為39時,比20降低了0.11%,在最小差距數(shù)目為39時,比30降低了0.06%,但驗(yàn)證了BN層神經(jīng)元數(shù)目為39時,根據(jù)新的復(fù)合特征建立的GMM-HMM聲學(xué)模型性能最好。
實(shí)驗(yàn)34種不同特征的聲學(xué)模型識別率的對比
MFCC特征、BN特征及新的復(fù)合特征進(jìn)行GMM-HMM聲學(xué)建模以及深度神經(jīng)網(wǎng)絡(luò)后驗(yàn)特征的識別結(jié)果對比如表3所示。
表3 不同模型識別的詞錯誤率Table 3 Word error rate recognized by different models %
從表3可以看出,與其他語音特征相比,基于深度神經(jīng)網(wǎng)絡(luò)的瓶頸特征與傳統(tǒng)MFCC特征的復(fù)合特征具有最佳的識別效果。相比單一的MFCC特征WER下降5.63%,與單一的瓶頸特征相比,深度神經(jīng)網(wǎng)絡(luò)后驗(yàn)特征具有相當(dāng)?shù)淖R別性能。而復(fù)合特征的識別效果相比于深度神經(jīng)網(wǎng)絡(luò)后驗(yàn)特征和單一瓶頸特征分別提高了3.56%和3.67%。這是因?yàn)楫?dāng)訓(xùn)練數(shù)據(jù)與測試數(shù)據(jù)相匹配時,使用BN特征相比于MFCC特征能獲得更低的錯誤率,但是當(dāng)訓(xùn)練數(shù)據(jù)與測試數(shù)據(jù)不匹配時,BN特征與MFCC特征復(fù)合才能獲得更好的識別率。
本文針對TIMIT語音數(shù)據(jù)集連續(xù)語音識別,將語音數(shù)據(jù)中提取到的MFCC特征作為輸入數(shù)據(jù),經(jīng)過最大似然準(zhǔn)則訓(xùn)練GMM-HMM聲學(xué)模型,并根據(jù)區(qū)分性訓(xùn)練優(yōu)化GMM模型。通過預(yù)訓(xùn)練初始化參數(shù)并根據(jù)交叉熵準(zhǔn)則微調(diào)訓(xùn)練DNN網(wǎng)絡(luò),移除訓(xùn)練好的DNN網(wǎng)絡(luò)瓶頸層之后的網(wǎng)絡(luò),從而獲取具有更強(qiáng)區(qū)分性的BN特征。將MFCC特征和BN特征進(jìn)行串接,建立復(fù)合特征的GMM-HMM聲學(xué)模型。實(shí)驗(yàn)結(jié)果表明,深度神經(jīng)網(wǎng)絡(luò)提取的BN特征在識別效果上比傳統(tǒng)的MFCC特征更具優(yōu)勢,兩者串接而成的復(fù)合特征的聲學(xué)模型在識別率上有了大幅提升,從而驗(yàn)證了本文聲學(xué)建模方法較優(yōu)的識別性能。下一步擬將不同的深度神經(jīng)網(wǎng)模型與傳統(tǒng)的MFCC特征進(jìn)行對比,構(gòu)建復(fù)合的聲學(xué)模型,以期獲得更好的識別率。