陳 樹(shù), 于海波
(江南大學(xué) 物聯(lián)網(wǎng)工程學(xué)院,江蘇 無(wú)錫 214122)
對(duì)于一個(gè)具體的語(yǔ)音識(shí)別系統(tǒng),會(huì)存在噪聲問(wèn)題(環(huán)境噪聲或者說(shuō)話人因素造成的噪聲),這種差異性信息,必然會(huì)帶入到建模的過(guò)程中。而在測(cè)試階段,這種差異性往往會(huì)發(fā)生變化,從而導(dǎo)致訓(xùn)練模型和識(shí)別數(shù)據(jù)的失配,進(jìn)而導(dǎo)致系統(tǒng)的誤識(shí)率提高[1]。
目前,使用最為廣泛的特征參數(shù)為線性預(yù)測(cè)倒譜系數(shù)(linear prediction cepstral coefficients,LPCC)和梅爾頻率倒譜系數(shù)(mel frequency cepstral coefficients,MFCC)[2],但是2種參數(shù)在噪聲環(huán)境下的識(shí)別性能較差,如何在噪聲環(huán)境中提取具有較高識(shí)別率的特征參數(shù)一直是研究熱點(diǎn)之一。2011年,Li Q首次提出了耳蝸倒譜系數(shù)(cochlear filter cepstral coefficient,CFCC)[3],在噪聲環(huán)境中的識(shí)別性能優(yōu)于MFCC參數(shù),但在低信噪比時(shí),識(shí)別率仍然出現(xiàn)了大幅下降且CFCC的特征區(qū)分能力不強(qiáng)。此外,國(guó)內(nèi)外的許多學(xué)者也提出了諸多對(duì)原有特征提取的優(yōu)化方法。文獻(xiàn)[4]將MFCC和線性預(yù)測(cè)編碼(linear predictive coding,LPC)結(jié)合后使用,取得了一定的抗噪聲效果,但是實(shí)時(shí)性較差;文獻(xiàn)[5]將LPC參數(shù)在梅爾頻率下進(jìn)行非線性變換,再進(jìn)行微分等操作,提高了二次特征提取的實(shí)時(shí)性,但識(shí)別精度無(wú)明顯提高;文獻(xiàn)[6]提出了一種針對(duì)MFCC特征參數(shù)的后處理算法,有效降低了噪聲對(duì)系統(tǒng)的影響;文獻(xiàn)[7]將語(yǔ)音幀的能量算子加入到CFCC參數(shù)中,文獻(xiàn)[8]將語(yǔ)音信號(hào)的相位信息與CFCC結(jié)合,并應(yīng)用于說(shuō)話人識(shí)別系統(tǒng),獲得了較好的魯棒性,但對(duì)語(yǔ)音識(shí)別系統(tǒng)的效果有限。
因此,為了進(jìn)一步提高在噪聲環(huán)境中的語(yǔ)音識(shí)別的識(shí)別率,本文分析了CFCC特征參數(shù),引入了一種后處理算法針對(duì)CFCC區(qū)分能力低的缺點(diǎn),對(duì)特征提取后的特征參數(shù)進(jìn)行線性變換,即通過(guò)一種改進(jìn)的線性判別分析(linear discriminant analysis,LDA)線性變換方法對(duì)語(yǔ)音特征參數(shù)進(jìn)行線性變換后,得到了更具有語(yǔ)音區(qū)分能力的特征,引入均值方差歸一化,對(duì)特征參數(shù)歸一化處理,進(jìn)一步降低噪聲對(duì)系統(tǒng)的干擾。實(shí)驗(yàn)結(jié)果表明:經(jīng)過(guò)本文算法提取的特征參數(shù)通過(guò)隱馬爾可夫模型(hidden Markov model,HMM)[9]進(jìn)行訓(xùn)練和識(shí)別,提高了在噪聲環(huán)境中語(yǔ)音識(shí)別率,取得了較好的效果。
CFCC是基于聽(tīng)覺(jué)變換的特征參數(shù),在噪聲環(huán)境下的識(shí)別性能優(yōu)于傳統(tǒng)的MFCC特征參數(shù),具有較好的抗噪聲和識(shí)別效果。CFCC特征參數(shù)的提取方法如圖1所示。
圖1 CFCC特征提取框圖
1)耳蝸濾波:Li Q[3]定義了耳蝸濾波器組模擬耳蝸基底膜的作用,濾波器對(duì)語(yǔ)音信號(hào)的處理稱(chēng)聽(tīng)覺(jué)變換其過(guò)程為[3]
(1)
式中f(t)為時(shí)域語(yǔ)音信號(hào);ψa,b(t)為耳蝸濾波函數(shù)
(2)
式中α,β均為大于0的實(shí)數(shù),經(jīng)驗(yàn)值為3和0.2,α和β決定了ψa,b(t)的頻域形狀和寬度;u(t)為單位階躍函數(shù);θ為初始相位;b為隨時(shí)間可變的實(shí)數(shù);a為尺度變量,由濾波器組的中心頻率fC和最低中心頻率fL決定
(3)
耳蝸濾波器的頻率響應(yīng)如圖2所示。
圖2 耳蝸濾波器的頻率響應(yīng)
2)毛細(xì)胞窗口:用于模擬耳蝸毛細(xì)胞將基底膜振動(dòng)轉(zhuǎn)換為聽(tīng)覺(jué)神經(jīng)信號(hào)的過(guò)程,可由式(4)~式(5)來(lái)表示
h(a,b)=[T(a,b)]2,?a,b
(4)
(5)
3)非線性響度變換:將毛細(xì)胞窗口的輸出由能量值轉(zhuǎn)化為感知響度
y(i,j)=[S(i,j)]1/3
(6)
4)離散余弦變換:進(jìn)行離散余弦變換(discrete cosine transform,DCT)得到最后的CFCC特征參數(shù)。
本文借鑒對(duì)MFCC參數(shù)改進(jìn)的方法,引入了一種改進(jìn)的LDA[10]的方法對(duì)CFCC參數(shù)進(jìn)行了改進(jìn),在降維的同時(shí)獲得了區(qū)分性更高的新特征。
HMM用于語(yǔ)音識(shí)別時(shí),對(duì)角形式的協(xié)方差矩陣是最佳的選擇,可以在有限的訓(xùn)練語(yǔ)料下,通過(guò)較少的模型參數(shù)得到較高的識(shí)別性能。經(jīng)過(guò)LDA變換的語(yǔ)音特征向量雖然已具有了很好的區(qū)分能力,但并不是對(duì)角形式,因此,本文使用最大似然線性變換(maximum likelihood linear transformation,MLLT)對(duì)LDA變換得到的協(xié)方差矩陣對(duì)角化。
LDA的轉(zhuǎn)換公式為
y=WTx
(7)
(8)
Sb計(jì)算如下
(9)
假設(shè)經(jīng)過(guò)LDA求取的矩陣為W,為經(jīng)MLLT變換后的協(xié)方差矩陣,有
(10)
式中N為訓(xùn)練語(yǔ)料的個(gè)數(shù);Nj為第j個(gè)樣本的語(yǔ)料個(gè)數(shù);θj為第j個(gè)樣本的協(xié)方差矩陣。
本文對(duì)經(jīng)過(guò)LDA和MLLT變換后的語(yǔ)音特征參數(shù)進(jìn)行歸一化處理,引入了倒譜均值方差歸一化[11](cepstral mean and variance normalization,CMVN)的方法,進(jìn)而提升語(yǔ)音識(shí)別系統(tǒng)的識(shí)別率。語(yǔ)音特征提取的步驟如下:
1)采用CFCC方法提取語(yǔ)音特征參數(shù)。
3)獲得對(duì)角矩陣,在步驟(2)轉(zhuǎn)化后的特征上進(jìn)行MLLT更新,產(chǎn)生對(duì)角矩陣。得到滿足HMM的矩陣。
4)利用CMVN對(duì)特征向量進(jìn)行歸一化處理,得到最終的語(yǔ)音特征參數(shù)。CMVM是將語(yǔ)音特征向量先經(jīng)過(guò)均值歸一化后再進(jìn)行方差歸一化處理,分別如式(11)和式(12)所示
(11)
(12)
式中μ為特征向量的均值;σ為標(biāo)準(zhǔn)差。
經(jīng)上述4個(gè)步驟得到的語(yǔ)音特征參數(shù)具有原CFCC特征參數(shù)幀間的信息,區(qū)分能力更強(qiáng),且特征維數(shù)和計(jì)算復(fù)雜度未增加,利用均值方差歸一化,降低了加性噪聲和卷積噪聲對(duì)語(yǔ)音信號(hào)的影響。
實(shí)驗(yàn)數(shù)據(jù)是從清華大學(xué)公開(kāi)語(yǔ)音數(shù)據(jù)庫(kù)中截取的語(yǔ)音數(shù)據(jù),語(yǔ)音信號(hào)采樣頻率為19 980 Hz,16 bit量化。截取后的語(yǔ)音庫(kù)共有114個(gè)說(shuō)話人(男性57人,女性57人),每人10條語(yǔ)音數(shù)據(jù)。實(shí)驗(yàn),采用104人的語(yǔ)音數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),10人為測(cè)試數(shù)據(jù)(其中5人為女性,5人為男性)。噪聲數(shù)據(jù)庫(kù)采用了NOISEX—92噪聲數(shù)據(jù)庫(kù)中的3種典型噪聲:white噪聲、pink噪聲和f16噪聲,將噪聲按不同信噪比分別添加到純凈語(yǔ)音中形成帶噪語(yǔ)音。整個(gè)語(yǔ)音識(shí)別系統(tǒng)采用卡內(nèi)基梅隆大學(xué)開(kāi)發(fā)的Sphinx開(kāi)源工具搭建,聲學(xué)模型為連續(xù)HMM,訓(xùn)練工具為Sphinxtrain,語(yǔ)言模型的訓(xùn)練工具為Cmucmltk。
仿真系統(tǒng)中對(duì)輸入系統(tǒng)的語(yǔ)音信號(hào)進(jìn)行了預(yù)加重,系數(shù)為0.97,按幀長(zhǎng)400個(gè)采樣點(diǎn)進(jìn)行分幀,幀移為160,使用漢明窗進(jìn)行加窗處理。語(yǔ)音的特征參數(shù)選取39維CFCC參數(shù),噪聲信噪比分別選擇-5,0,5,10,15 dB。
實(shí)驗(yàn)一將MFCC和CFCC 2種特征參數(shù)分別應(yīng)用于語(yǔ)音識(shí)別系統(tǒng)中,比較其在不同信噪比的噪聲中的系統(tǒng)識(shí)別正確率,然后將本文改進(jìn)的特征提取方法應(yīng)用于語(yǔ)音識(shí)別系統(tǒng)中,并對(duì)各個(gè)方法在不同信噪比噪聲中的性能進(jìn)行比較,實(shí)驗(yàn)結(jié)果如圖3所示。
圖3 不同測(cè)試條件下識(shí)別正確率對(duì)比
圖3(a)的數(shù)據(jù)表明:在信噪比較高(10 dB和15 dB)時(shí),3種特征參數(shù)均達(dá)到了95 %以上的識(shí)別率。但隨著信噪比的降低,使用MFCC參數(shù)的識(shí)別正確率急劇降低,在信噪比為-5 dB時(shí),識(shí)別正確率為19 %。而CFCC特征參數(shù)的識(shí)別率雖然也隨之降低,但相較于MFCC參數(shù)在各個(gè)信噪比的條件下,識(shí)別率均高于MFCC。利用本文提出的特征提取方法在各個(gè)信噪比條件下的識(shí)別正確率均優(yōu)于MFCC和CFCC參數(shù),在-5 dB條件下,達(dá)到了44 %。
同樣,由圖3(b)和圖3(c)可知,在pink噪聲和f16噪聲的環(huán)境下,MFCC參數(shù)在信噪比低于5 dB的條件下,識(shí)別正確率也出現(xiàn)急劇降低的情況,而CFCC參數(shù)和本文改進(jìn)的CFCC方法有較好的噪聲魯棒性,尤其在信噪比低于0 dB時(shí),本文方法的識(shí)別正確率遠(yuǎn)優(yōu)于MFCC和CFCC。在f16噪聲中,-5 dB的條件下,識(shí)別正確率仍達(dá)到了50 %。因此,本文方法在語(yǔ)音識(shí)別系統(tǒng)中對(duì)提高各種噪聲環(huán)境中的識(shí)別正確率均起到了一定的作用,具有較好的實(shí)用價(jià)值。
實(shí)驗(yàn)二研究了對(duì)特征參數(shù)進(jìn)行LDA轉(zhuǎn)換后的不同維度對(duì)系統(tǒng)識(shí)別性能的影響,修改LDA維數(shù),比較訓(xùn)練后模型的識(shí)別正確率數(shù)值變化,找出關(guān)聯(lián)。實(shí)驗(yàn)的聲學(xué)模型采用傳統(tǒng)的連續(xù)密度HMM,每個(gè)模型的狀態(tài)數(shù)3個(gè),均為高斯混合分布。實(shí)驗(yàn)以white噪聲0 dB時(shí)的實(shí)驗(yàn)數(shù)據(jù)為例,得到的實(shí)驗(yàn)結(jié)果如表1所示。
表1 0 dB下不同LDA維度系統(tǒng)識(shí)別正確率
由表1可知,在實(shí)際聲學(xué)模型訓(xùn)練時(shí),要根據(jù)訓(xùn)練數(shù)據(jù)找合適的維數(shù)值。而且對(duì)不同訓(xùn)練數(shù)據(jù)對(duì)狀態(tài)數(shù)不同的聲學(xué)模型,正確率改善效果也會(huì)不同。針對(duì)于本文采用的實(shí)驗(yàn)數(shù)據(jù),經(jīng)實(shí)驗(yàn)證明,最佳的LDA維度為29。
為了進(jìn)一步提高CFCC參數(shù)的抗噪性,提出了一種改進(jìn)的基于CFCC的特征提取方法。新的特征參數(shù)不僅降低了特征維度,并且提高了特征參數(shù)的區(qū)分能力,通過(guò)對(duì)語(yǔ)音數(shù)據(jù)庫(kù)構(gòu)建隱馬爾科夫模型,實(shí)現(xiàn)了一個(gè)完整的語(yǔ)音識(shí)別系統(tǒng)。實(shí)驗(yàn)結(jié)果表明:系統(tǒng)能夠減小不同噪聲不同信噪比條件下對(duì)系統(tǒng)識(shí)別正確率造成的較大影響。本文方法能提高語(yǔ)音識(shí)別系統(tǒng)的識(shí)別正確率,下一步將研究算法的實(shí)際應(yīng)用。
參考文獻(xiàn):
[1] 何勇軍,付茂國(guó),孫廣路.語(yǔ)音特征增強(qiáng)方法綜述[J].哈爾濱理工大學(xué)學(xué)報(bào),2014,19(2):19-25.
[2] Gupta K,Gupta D.An analysis on LPC,RASTA and MFCC techniques in automatic speech recognition system[C]∥2016 6th International Conference on Cloud System and Big Data Enginee-ring,IEEE,2016:493-497.
[3] Li Q,Huang Y.An auditory-based feature extraction algorithm for robust speaker identification under mismatched conditions[J].IEEE Transactions on Audio Speech & Language Processing,2011,19(6):1791-1801.
[4] Islam M Babul,Rahman Md Mahfuzur,Islam M Babul,et al.Performance evaluation of blind equalization for Mel-LPC-based speech recognition under different noisy conditions[J].Inter-national Journal of Computer Applications,2013,65(4):4-8.
[5] 羅 元,吳承軍,張 毅,等.Mel頻率下基于LPC的語(yǔ)音信號(hào)深度特征提取算法[J].重慶郵電大學(xué)學(xué)報(bào):自然科學(xué)版,2016,28(2):174-179.
[6] 張 毅,謝延義,羅 元,等.一種語(yǔ)音特征提取中Mel倒譜系數(shù)的后處理算法[J].智能系統(tǒng)學(xué)報(bào),2016,11(2):208-215.
[7] 李晶皎,安 冬,楊 丹,等.噪聲環(huán)境下說(shuō)話人識(shí)別的TEO-CFCC特征參數(shù)提取方法[J].計(jì)算機(jī)科學(xué),2012,39(12):195-197.
[8] 李作強(qiáng),高 勇.基于CFCC和相位信息的魯棒性說(shuō)話人辨識(shí)[J].計(jì)算機(jī)工程與應(yīng)用,2015,51(17):228-232.
[9] Karpagavalli S,Chandra E.Phoneme and word-based model for tamil speech recognition using GMM-HMM[C]∥2015 Inter-national Conference on Advanced Computing and Communication Systems,IEEE,2015:1-5.
[10] Haeb-Umbach R,Ney H.Linear discriminant analysis for improved large vocabulary continuous speech recognition[C]∥1992 IEEE International Conference on Acoustics,Speech,and Signal Processing,ICASSP’92,IEEE,1992:13-16.
[11] 肖云鵬,葉衛(wèi)平.基于特征參數(shù)歸一化的魯棒語(yǔ)音識(shí)別方法綜述[J].中文信息學(xué)報(bào),2010,24(5):106-116.