宋青松,田正鑫,孫文磊,吳小杰,安毅生
(長安大學(xué)信息工程學(xué)院,710064,西安)
?
用于孤立數(shù)字語音識別的一種組合降維方法
宋青松,田正鑫,孫文磊,吳小杰,安毅生
(長安大學(xué)信息工程學(xué)院,710064,西安)
針對孤立數(shù)字語音識別的噪聲魯棒性問題,提出了一個組合降維方法。該方法由梅爾頻率倒譜系數(shù)(MFCC)特征提取、線性降維、受限玻爾茲曼機(jī)(RBM)、Softmax分類器4個功能模塊依次組成;基于主成分分析(PCA)基本原理對MFCC特征向量實現(xiàn)了降維并且統(tǒng)一維度的目的;通過RBM對降維后的特征向量進(jìn)行學(xué)習(xí),改善了后端Softmax分類器的分類性能,RBM的預(yù)訓(xùn)練由對比散度算法完成,微調(diào)過程使用共軛梯度算法。采用TI-46孤立數(shù)字語音庫和NOISEX-92典型噪聲數(shù)據(jù)庫對方法進(jìn)行了測試,實驗結(jié)果表明,該方法可以獲得96.09%的正確識別率,相對于常規(guī)神經(jīng)網(wǎng)絡(luò)識別方法,噪聲魯棒性得到了提高。
語音識別;主成分分析;受限玻爾茲曼機(jī)
孤立數(shù)字語音識別有著廣闊的研究和應(yīng)用價值,諸如動態(tài)時間規(guī)整(dynamic time warping,DTW)、隱馬爾科夫(hidden markov model,HMM)、矢量量化(vector quantization,VQ)、主成分分析(principal component analysis,PCA)、人工神經(jīng)網(wǎng)絡(luò)(artificial neural network,ANN)等方法用于求解孤立數(shù)字語音識別問題[1-3]。DTW算法基于動態(tài)規(guī)劃的思想解決發(fā)音長短不一的模板匹配問題,但是存在運算量大、識別性能依賴端點檢測精度等不足。VQ算法基于聚類識別,運算量小但是最優(yōu)碼書較難得到。PCA算法可以實現(xiàn)數(shù)據(jù)降維,并且能夠統(tǒng)一數(shù)據(jù)維數(shù),但本質(zhì)上是一種基于最優(yōu)正交變換的線性降維方法,對于非線性問題難以得到滿意的結(jié)果。ANN算法特別是Hinton等提出的受限波爾茲曼機(jī)(restricted Boltzmann machine,RBM)及其快速學(xué)習(xí)算法,在模式識別與分類問題中表現(xiàn)出良好的非線性降維與特征表征能力,但是通常需要適當(dāng)?shù)奶卣鲄?shù)提取等預(yù)處理手段配合使用[4]。常用的數(shù)字語音信號特征通常是高維的,分類前需要對數(shù)據(jù)進(jìn)行降維處理。因此,為改善數(shù)字語音識別效果,本文基于PCA線性降維和RBM特征學(xué)習(xí)基本原理,提出了一種用于孤立數(shù)字語音識別的組合降維方法,待分類的數(shù)字語音信號依次經(jīng)過線性降維和RBM非線性特征表征處理,最終識別性能得到改善。
首先闡述組合降維識別方法涉及的線性降維、RBM、Softmax分類器等功能模塊,然后給出用于RBM預(yù)訓(xùn)練和微調(diào)的學(xué)習(xí)算法,最后在TI-46數(shù)據(jù)庫和NOISEX-92噪聲數(shù)據(jù)集上驗證了所提算法的先進(jìn)性。
1.1 功能模塊組成
組合降維識別方法由梅爾頻率倒譜系數(shù)(Mel-frequency cepstral coefficients,MFCC)特征提取、線性降維、RBM、Softmax分類器4個功能模塊組成,如圖1所示。首先提取MFCC及其一階差分作為原始語音信號的特征參數(shù),然后對MFCC進(jìn)行線性降維,再將降維后的特征參數(shù)輸入RBM進(jìn)行特征學(xué)習(xí),學(xué)習(xí)的結(jié)果作為后端Softmax分類器模塊的輸入,Softmax輸出分類結(jié)果。
圖1 組合降維語音信號識別方法的功能模塊
1.1.1 MFCC特征提取 MFCC[5]是將人耳的聽覺特性與語音產(chǎn)生機(jī)制相結(jié)合的一種特征參數(shù),在語音識別領(lǐng)域具有廣泛應(yīng)用。標(biāo)準(zhǔn)MFCC參數(shù)只反映語音參數(shù)的靜態(tài)特性,MFCC差分則反映語音參數(shù)的動態(tài)特性,在語音特征中加入表征語音動態(tài)特性的MFCC差分,通常能提高系統(tǒng)的識別性能。因此,本文提取標(biāo)準(zhǔn)MFCC及其一階差分共同作為待識別語音信號的特征參數(shù)。MFCC特征提取的結(jié)果是得到一個F行24列大小的特征向量矩陣T,F為當(dāng)前語音信號的幀數(shù)。
1.1.2 線性降維 MFCC特征提取結(jié)果存在兩個問題:一是每個語音信號由不同數(shù)量的幀組成,導(dǎo)致矩陣T大小不同;二是F取值大導(dǎo)致矩陣T過大,存在降維計算需要。因此,基于PCA基本原理對特征矩陣T作進(jìn)一步變換,實現(xiàn)其降維并且大小一致的目的。使用的方法是將T轉(zhuǎn)置,再與原矩陣T相乘,得到24×24的方陣S;求S的特征值并從大到小排序,取前兩個特征值對應(yīng)的特征向量并串接,得到一個48維的特征向量,作為線性降維后當(dāng)前語音信號的特征向量。
1.1.3 受限波爾茲曼機(jī) 降維后的特征向量輸入RBM模塊進(jìn)行特征學(xué)習(xí),學(xué)習(xí)結(jié)果輸出到后端Softmax分類器中。
RBM本質(zhì)上是通過無監(jiān)督學(xué)習(xí)最大可能地對輸入數(shù)據(jù)進(jìn)行特征表征。RBM由可見層和隱含層構(gòu)成,如圖2所示??梢妼佑梢唤M可見單元v構(gòu)成,用于輸入數(shù)據(jù);隱含層由另一組隱藏單元h構(gòu)成,用于輸出無監(jiān)督學(xué)習(xí)獲得的對輸入數(shù)據(jù)的特征表示。RBM的特點是層內(nèi)無連接,層間全連接。
圖2 RBM結(jié)構(gòu)示意圖[6]
1.1.4 Softmax分類器 采用Softmax分類器實現(xiàn)RBM輸出特征分類。記類標(biāo)y可以取r個不同的值,對于訓(xùn)練集{(x(1),y(1)),…,(x(m),y(m))},類標(biāo)簽為y(n)∈{1,2,…,r},r為分類數(shù)。對于給定的輸入x(n),用假設(shè)函數(shù)hλ(x(n))針對每一個類k估算出概率值p(y(n)=k|x(n)),k=1,…,r。hλ(x(n))輸出一個r維的列向量(和為1),每行表示為當(dāng)前類的概率。
定義假設(shè)函數(shù)hλ(x(n))[7]為
(1)
式中:λ1,λ2,…,λr是模型參數(shù)。將x(n)分為第k類的概率記為
(2)
對于樣本x(n),選擇概率p(y(n)=k|x(n);λ)值最大的對應(yīng)的類別k作為當(dāng)前樣本的分類標(biāo)簽,并與樣本本身的標(biāo)簽做比對,如果一致則分類正確,否則分類錯誤。
1.2 學(xué)習(xí)算法
組合降維識別方法的學(xué)習(xí)分為RBM預(yù)訓(xùn)練和微調(diào)兩部分。
1.2.1 RBM預(yù)訓(xùn)練 預(yù)訓(xùn)練的目的是對線性降維后的特征向量作無監(jiān)督學(xué)習(xí),以獲取更好的特征表征。鑒于可見層節(jié)點語音特征向量服從高斯分布的特點,使用高斯-伯努利RBM,定義能量函數(shù)[6]
(3)
式中:θ={ai,bj,wij}是RBM模型參數(shù);ai和bj分別是可見層節(jié)點i和隱含層節(jié)點j的偏置;wij是可見層節(jié)點i和隱含層節(jié)點j之間的連接權(quán)值。當(dāng)參數(shù)確定時,可以得到聯(lián)合概率分布
P(v,h;θ)=exp(-E(v,h;θ))/Z
(4)
(5)
RBM的模型參數(shù)使用最大似然準(zhǔn)則通過無監(jiān)督訓(xùn)練得到,訓(xùn)練的目標(biāo)函數(shù)為
(6)
對目標(biāo)函數(shù)求偏導(dǎo),可以得到權(quán)值的更新公式
Δwij=Edata(vihj)-Emodel(vihj)
(7)
式中:Edata(vihj)是訓(xùn)練集數(shù)據(jù)對應(yīng)的可見層和隱含層狀態(tài)的期望值;Emodel(vihj)是對所有可能的(v,h)的模型期望值。
Emodel(vihj)直接計算很困難,通常采用對比散度進(jìn)行近似計算[4]??梢妼訂卧臓顟B(tài)被設(shè)置為任取一個訓(xùn)練樣本,算法開始,通過一步吉布斯采樣獲得“重構(gòu)”的可見單元狀態(tài)〈vi〉recon,再用〈vi〉recon更新隱含層單元狀態(tài),得到〈hj〉recon。學(xué)習(xí)率ε大使收斂速度快,但過大會引起算法不穩(wěn)定,ε小可消除不穩(wěn)定,但會減慢收斂速度,為克服該矛盾,在更新參數(shù)時增加動量項c,使得本次參數(shù)修改的方向由上一次參數(shù)修改方向和本次的梯度方向一起決定,而不是完全由當(dāng)前樣本下的似然函數(shù)梯度方向決定。因此,各參數(shù)的更新準(zhǔn)則為
Δwij=cΔwij+ε(〈vihj〉data-〈vihj〉recon)
(8)
Δbi=cΔbi+ε(〈vi〉data-〈vi〉recon)
(9)
Δaj=cΔaj+ε(〈hj〉data-〈hj〉recon)
(10)
使用重構(gòu)誤差對RBM進(jìn)行評估。重構(gòu)誤差就是以訓(xùn)練數(shù)據(jù)作為初始狀態(tài),根據(jù)RBM的分布進(jìn)行一次吉布斯采樣所獲得的重構(gòu)樣本與原始樣本的差異。
1.2.2 微調(diào) RBM預(yù)訓(xùn)練完成之后,對RBM和Softmax進(jìn)行微調(diào)。為改善學(xué)習(xí)效率,在微調(diào)開始的前5次,只對Softmax分類器的模型參數(shù)進(jìn)行有監(jiān)督學(xué)習(xí),從第6次開始對RBM和Softmax的全部參數(shù)進(jìn)行學(xué)習(xí)。
代價函數(shù)定義為
J(λ)=
(11)
式中:1{·}是一個指示性函數(shù),當(dāng){·}中的值為真時,該函數(shù)值為1,否則為0。采用PRP共軛梯度算法求解minJ(λ)無約束最優(yōu)化問題[8]。
微調(diào)結(jié)束后得到RBM和Softmax最終的模型參數(shù)。給定任意的孤立數(shù)字語音信號,依次通過圖1所示的各個功能模塊,可以輸出分類結(jié)果。
2.1 實驗設(shè)計
組合降維識別方法的性能測試在TI-46數(shù)字語音數(shù)據(jù)庫上進(jìn)行,語音信號的采樣頻率為12.5 kHz,16 b量化。選擇3 000個樣本作為訓(xùn)練集,0~9共10個數(shù)字各300個樣本,選擇另外的1 000個樣本作為測試集,每個數(shù)字各100個[9]。
MFCC特征提取模塊中幀長取256,幀移為80,窗函數(shù)使用漢明窗。RBM預(yù)訓(xùn)練過程中,可見層輸入數(shù)據(jù)歸一化到(0,1)之間,連接權(quán)重初始化為正態(tài)分布N(0,0.01)隨機(jī)數(shù),可見層和隱含層的偏置均初始化為0。將數(shù)據(jù)集分成小批量進(jìn)行預(yù)訓(xùn)練,每個批量為50個。學(xué)習(xí)率ε為0.001,最大訓(xùn)練次數(shù)為50次,動量項c在前5次訓(xùn)練中取0.5,之后取0.9。微調(diào)過程PRP共軛梯度算法中線性搜索步長為3,微調(diào)次數(shù)為200次。
計算機(jī)配置為內(nèi)存4 GB、雙核i5、處理器2.67 GHz、GPU為 NVIDIA GT540。
設(shè)計一個3層前饋神經(jīng)網(wǎng)絡(luò)(feedforward neural network,FNN)取代圖1中RBM和Softmax分類器兩個功能模塊,采用相同的訓(xùn)練集和測試集,相同的MFCC特征提取模塊和線性降維模塊,訓(xùn)練采用經(jīng)典的誤差反向傳播算法作對比實驗。通過交叉驗證確定隱層神經(jīng)元數(shù)量為78的FNN對應(yīng)最佳識別性能,即FNN模型結(jié)構(gòu)取為48-78-10。記錄FNN識別結(jié)果,與本文方法結(jié)果作對比。
2.2 結(jié)果分析
本文方法與FNN方法各自獨立完成10次實驗,測試結(jié)果見表1。在無噪聲情形下,FNN方法正確識別率平均為93.07%,而本文方法為96.09%,優(yōu)于前者。圖3給出了無噪聲情形下本文方法和FNN方法針對0~9單個數(shù)字語音信號的正確識別率及其標(biāo)準(zhǔn)差,針對數(shù)字0、1、3、5、6、7、8、9,本文方法正確識別率均高于FNN方法,而且正確識別率的標(biāo)準(zhǔn)差均小于FNN的,表明無噪聲情形下本文方法與FNN方法相比,不僅正確識別率高而且性能更加平穩(wěn)。
圖3 本文方法與FNN方法針對10個孤立數(shù)字語音信號的性能測試結(jié)果
對測試集以20 dB的信噪比(signal-noise ratio,SNR)分別加入白噪聲、汽車噪聲、工廠噪聲及F16機(jī)艙噪聲等4類典型噪聲用于評價方法的噪聲魯棒性[10],結(jié)果見表1,FNN方法4類噪聲情形下正確識別率的平均結(jié)果由93.07%降低為91.44%,降低了1.63%,而本文方法的正確識別率從96.09%降低為95.08%,降低了1.01%,小于前者,表明有噪聲情形下本文方法性能下降慢于FNN,并且降低后本文方法的正確識別率為95.08%,仍然高于FNN的91.44%。
表1 本文方法與FNN方法正確識別率測試結(jié)果
(a)白噪聲情形
(b)汽車噪聲情形
(c)工廠噪聲情形
(d)F16機(jī)艙噪聲情形圖4 典型噪聲情形下本文方法與FNN方法性能測試結(jié)果
圖4給出了5~40 dB信噪比范圍內(nèi)本文方法和FNN方法在上述4類典型噪聲情形下正確識別率的測試結(jié)果。如圖4a~圖4c所示,白噪聲、汽車噪聲、工廠噪聲3種情形下,本文方法的正確識別率均高于FNN方法,而且前者的正確識別率標(biāo)準(zhǔn)差比后者要小,說明本文方法的性能更加平穩(wěn)。圖4d表明F16機(jī)艙噪聲情形下兩種方法在10~20 dB范圍內(nèi)的正確識別率無明顯差別,但是本文方法獲取的正確識別率標(biāo)準(zhǔn)差更小,性能更平穩(wěn)。
上述實驗結(jié)果表明,針對孤立數(shù)字語音識別問題,在有、無噪聲兩種情形下,本文方法均能夠獲得優(yōu)于FNN方法的正確識別率,具有一定的噪聲魯棒性,并且性能平穩(wěn)。
針對孤立數(shù)字語音識別問題,基于PCA線性降維和RBM特征學(xué)習(xí)基本原理,提出一種組合降維語音識別方法。該方法具有MFCC特征提取、線性降維、RBM特征自動表征等方法的綜合優(yōu)勢,特別地,基于PCA基本原理對MFCC特征向量實現(xiàn)了降維并且統(tǒng)一維度的目的,通過RBM非線性特征學(xué)習(xí),改善了后端Softmax分類器的分類性能。基于TI-46孤立數(shù)字語音庫和NOISEX-92典型噪聲數(shù)據(jù)庫的測試結(jié)果表明,本文方法能夠獲得優(yōu)于常規(guī)前饋神經(jīng)網(wǎng)絡(luò)的正確識別率,并且識別性能更平穩(wěn),具有改善的噪聲魯棒性。
[1] SCHAFER P B, JIN D Z. Noise-robust speech recognition through auditory feature detection and spike sequence decoding [J]. Neural Computation, 2014, 26(3): 523-556.
[2] SLOIN A, BURSHTEIN D. Support vector machine training for improved hidden Markov modeling [J]. IEEE Transactions on Signal Processing, 2008, 56(1): 172-188.
[3] TAKIGUCHI T, ARIKI Y. PCA-based speech enhancement for distorted speech recognition [J]. Journal of Multimedia, 2007, 2(5): 13-18.
[4] HINTON G E, SALAKHUTDINOV R R. Reducing the dimensionality of data with neural networks [J]. Science, 2006, 313(5786): 504-507.
[5] FANG Z, ZHANG G, SONG Z. Comparison of different implementations of MFCC [J]. Journal of Computer Science and Technology, 2001, 16(6): 582-589.
[6] 張春霞, 姬楠楠, 王冠偉. 受限波爾茲曼機(jī) [J]. 工程數(shù)學(xué)學(xué)報, 2015(2): 159-173. ZHANG Chunxia, JI Nannan, WANG Guanwei. Restricted Boltzmann machines [J]. Chinese Journal of Engineering Mathematics, 2015(2): 159-173.
[7] SALAKHUTDINOV R, HINTON G E. Replicated Softmax: an undirected topic model [C]∥Proceedings of the Advances in Neural Information Processing Systems. Cambridge, MA, USA: MIT Press, 2009: 1607-1614.
[8] 黃海, 林穗華. 一個PRP型共軛梯度法的收斂性 [J]. 西南大學(xué)學(xué)報: 自然科學(xué)版, 2012, 34(3): 28-31. HUANG Hai, LIN Suihua. Convergence of a PRP type conjugate gradient method [J]. Journal of Southwest University: Natural Science Edition, 2012, 34(3): 28-31.
[9] DODDINGTON G R, SCHALK T B. Speech recognition: turning theory to practice [J]. IEEE Spectrum, 1981, 18(9): 26-32.
[10]VARGA A, STEENEKEN H J M. Assessment for automatic speech recognition: II. NOISEX-92: a database and an experiment to study the effect of additive noise on speech recognition systems [J]. Speech Communication, 1993, 12(3): 247-251.
(編輯 武紅江)
Combined Dimension Reduction Method for Isolated Digital Speech Recognition
SONG Qingsong,TIAN Zhengxin,SUN Wenlei,WU Xiaojie,AN Yisheng
(School of Information Engineering, Chang’an University, Xi’an 710064, China)
A combined dimension reduction method is proposed to improve the noise-robustness in isolated digital speech recognition. The method consists of four functional modules in sequence: a Mel frequency cepstrum coefficient (MFCC) module for feature extraction, a linear dimension reduction module, a restricted Boltzmann machine (RBM) module, and a Softmax classifier module. The dimension of the MFCC feature vector is reduced and its dimensionality is unified based on the basic principle of the principal component analysis (PCA); the obtained reduced features are learned by RBM in order to improve the classification performance of the end Softmax classifier module. The pretraining of the RBM is completed by the contrastive divergence algorithm and the finetuning process is fulfilled by the conjugate gradient algorithm. The proposed method is verified on the TI-46 isolated digital speech corpus and the NOISEX-92 noise datasets. The experimental results and comparisons with the conventional feedforward neural network methods show that the proposed method achieves at a 96.09% recognition accuracy and obtains improved noise robustness.
speech recognition; principal component analysis; restricted Boltzmann machine
2015-11-30。 作者簡介:宋青松(1980—),男,副教授。 基金項目:國家自然科學(xué)基金資助項目(61201406);中國博士后科學(xué)基金資助項目(2013M531998);中央高校基本科研業(yè)務(wù)費專項資金資助項目(310824162022,310824162021)。
時間:2016-04-15
10.7652/xjtuxb201606007
TP301.6
A
0253-987X(2016)06-0042-05
網(wǎng)絡(luò)出版地址:http:∥www.cnki.net/kcms/detail/61.1069.T.20160415.1612.008.html