吳皓瑩 程 晶 范 凱
(武漢理工大學(xué)信息工程學(xué)院1) 武漢 430070) (湖北工業(yè)大學(xué)信息技術(shù)中心2) 武漢 430068)
語音識別技術(shù)廣泛應(yīng)用于信息論、人工智能、數(shù)字信號處理、語言聲學(xué)、模式識別、生物學(xué)、心理學(xué)和認(rèn)知科學(xué)等學(xué)科.其中語音特征提取是語音識別的關(guān)鍵技術(shù),研究特征提取對提高語音識別系統(tǒng)的識別率的正確率起著十分關(guān)鍵的作用,特征提取的目的是為了找出反映語音本質(zhì)特征的參數(shù),其基本思想是對經(jīng)過預(yù)處理后的語音信號,提取出具有代表意義且穩(wěn)定可靠的參數(shù)序列,濾除無關(guān)的冗余信息,為后面的訓(xùn)練和預(yù)測提供數(shù)據(jù),從而提高識別的精度和系統(tǒng)的性能.另外支持向量機是建立在統(tǒng)計學(xué)習(xí)理論的結(jié)構(gòu)風(fēng)險最小化原理基礎(chǔ)上,比起傳統(tǒng)的分類器,它可以很好地解決模型選擇與過學(xué)習(xí)問題,解決小樣本、非線性和高維數(shù)以及局部極小點等問題[1-4].本文以智能推車系統(tǒng)中人機交互和智能控制的應(yīng)用為背景,主要研究了語音信息的不同特征參數(shù)組合,支持向量機(SVM)中的不同模型的選取對語音識別率的影響,從而提高智能推車的人機交互性能.
基于SVM的語音識別系統(tǒng)的整體框圖見圖1.
圖1 語音識別整體框圖
線性預(yù)測分析是在語音產(chǎn)生的數(shù)字模型基礎(chǔ)上建立的,其基本思想是:每個語音信號采樣值都可以用若干個它過去的取樣值的加權(quán)線性組合來逼近.各加權(quán)系數(shù)應(yīng)使實際語音采樣值與線性預(yù)測采樣值之間的差值的平方和達(dá)到最小,即進行最小均方誤差的逼近[5].在線性組合中的加權(quán)系數(shù)稱為預(yù)測器系數(shù),即線性預(yù)測系數(shù)LPC.
式中:x(n)為實際采樣值;s(n)為實際采樣值與線性預(yù)測值之間的差值;ai為加權(quán)系數(shù),即LPC參數(shù).在使式(1)最小的條件下求解ai.
14階的線性預(yù)測信號語言信號的對比見圖2,圖中橫軸為1幀信號(30ms)的不同采樣點(采樣頻率為8kHz,采樣點數(shù)為240個).
圖2 原始信號波形與預(yù)測信號波形對比
由LPC推導(dǎo)LPCC,其中clpcc(n)為第n個LPCC系數(shù);clpc(n)為第n個LPC系數(shù).
使用線性預(yù)測倒譜可以提升參數(shù)的穩(wěn)定性,主要反映聲道響應(yīng),計算量小,易于實現(xiàn),但由于LPCC參數(shù)是通過線性逼近得到的,只是反映了說話人的聲道特征而沒有充分利用人耳的聽覺特性因此并不能很好的反映出人耳聽覺特性.
梅爾頻率倒譜系數(shù)是將人耳的聽覺感知特性和語音產(chǎn)生相結(jié)合的一種特征參數(shù),實際上人耳聽到的聲音的高低與聲音的頻率并不是成線性正比關(guān)系的.實驗表明:在頻率為1kHz以下時Mel與頻率成線性關(guān)系,高于1kHz時,Mel與頻率成對數(shù)關(guān)系.因此符合人的聽覺系統(tǒng)的頻率刻度劃分應(yīng)該在低頻部分具有較高的頻率分辨率,而在高頻部分具有較低的頻率分辨率.
Mel頻率與實際頻率的具體轉(zhuǎn)換關(guān)系式為
MFCC特征在靜態(tài)條件下能取得較高識別率,為了更好地消除語音幀之間的相關(guān)性,更好地逼近語音動態(tài)特征,提高語音識別率,在特征參數(shù)中引入動態(tài)參數(shù).語音的信息大多集中在低頻部分,外界環(huán)境噪聲很容易干擾高頻部分.梅爾倒譜參數(shù)將線性頻率轉(zhuǎn)化為非線性的Mel下的頻率,突出要識別的信息,強調(diào)語音的低頻信息,能夠有效的屏蔽噪聲的干擾.MFCC充分考慮了人耳的聽覺特性,因此具有良好的識別性能和抗噪能力[6-7].
在SVM中,核函數(shù)選擇、核參數(shù)選擇、懲罰參數(shù)的選擇統(tǒng)稱為模型選擇.SVM學(xué)習(xí)性能的好壞與核函數(shù)類型及其參數(shù)選擇有著直接的關(guān)系,選擇恰當(dāng)?shù)腟VM模型可以獲得更好的分類性能和泛化能力(推廣能力).核函數(shù)類型及核參數(shù)確定了映射空間的數(shù)據(jù)分布.核參數(shù)的變化會改變樣本特征子空間分布的復(fù)雜程度.對于使用不同的核函數(shù)類型及核參數(shù)得到的子空間中數(shù)據(jù)分布不同,其經(jīng)驗風(fēng)險隨VC維的變化不同,將導(dǎo)致在不同子空間得到的最優(yōu)SVM不同,因此需要對SVM核參數(shù)和誤差懲罰參數(shù)同時進行優(yōu)化.即除了在同一子空間中優(yōu)化懲罰參數(shù)c以獲得最優(yōu)SVM外,還要優(yōu)化核參數(shù)以獲得全局最優(yōu)SVM模型.
目前,對SVM的參數(shù)進行優(yōu)化并沒有公認(rèn)的最好的方法[8].現(xiàn)在使用較普遍的是網(wǎng)格搜索法.網(wǎng)格搜索法是一種最基本的參數(shù)優(yōu)化算法.其基本過程是在一定的空間范圍內(nèi)按照規(guī)定的步長對待搜索的參數(shù)進行劃分網(wǎng)格,然后遍歷網(wǎng)格內(nèi)所有點取值,并將每次取出的參數(shù)組帶入系統(tǒng)中驗證其性能,最終取出使系統(tǒng)性能達(dá)到最優(yōu)的參數(shù)組作為最優(yōu)參數(shù)組.這種方法的缺點是當(dāng)網(wǎng)格范圍大且步長小時尋優(yōu)過程需要很長時間,但其他方法操作復(fù)雜且易陷入局部最優(yōu)[9].
本文所采用的語音都是在實驗室環(huán)境下通過個人電腦聲卡錄制的.錄取了12個人的語音,6個男生,6個女生,每個人錄兩段語音樣本,每段40~60s,一段用于訓(xùn)練,一段用于測試.然后對訓(xùn)練和測試語音做預(yù)處理工作.預(yù)加重過程采用的傳遞函數(shù)為:H (z)=1-μz-1,預(yù)加重系數(shù)μ=0.9375.分幀加窗過程:幀長取240個采樣點(30ms),幀移取80個采樣點(10ms),加hamming窗.最后采用過零率和短時能量兩者配合采用雙門限的方法進行端點檢測.
經(jīng)預(yù)處理后的語音信號,本文提取不同的特征參數(shù).為研究不同的語音特征參數(shù)及特征參數(shù)的不同處理對語音識別效果的影響,采用支持向量機算法分別實驗數(shù)據(jù)分類,分析實驗分類結(jié)果.
1)語音識別中特征參數(shù)的對比實驗 不同階數(shù)LPCC和MFCC在語音識別中的識別率及所需時間.取LPCC和MFCC階數(shù)分別為12~16,利用SVM算法進行說話人識別,數(shù)據(jù)采集及分類過程所用時間見表1.
表1 不同維數(shù)MFCC和LPCC特征的識別率及時間
通過表1對比可以看出,相同維數(shù)下基于人耳聽覺的MFCC比基于聲道模型的LPCC的識別效果好,且整個訓(xùn)練測試過程所需時間更短.縱向?qū)Ρ瓤煽闯?,一定范圍?nèi)隨著維數(shù)的上升,說話人識別率有所增大,所花費的時間相差不大.但總體時間上隨維數(shù)的增大所花的時間增大,增加特征維數(shù)能有效提高識別性能.然而特征維數(shù)的增加,意味著需要更多的模型參數(shù)來描述說話人的特征分布,從而加大了時空復(fù)雜度.一般情況下,取維數(shù)為16.
2)針對不同特征組合在語音識別中的識別率 分析不同特征組合下,說話人的識別率.取MFCC和LPCC特征維數(shù)為16,分別取MFCC+ΔMFCC,LPCC+ΔLPCC,MFCC+ΔMFCC+E,LPCC+ΔLPCC+E,MFCC+ΔMFCC+LPCC+ΔLPCC+E 5種特征組合,實驗結(jié)果見表2.
表2 不同特征組合下的識別結(jié)果
對比表1~2可看出,加上對應(yīng)動態(tài)特征后的MFCC+ΔMFCC和LPCC+ΔLPCC比只反應(yīng)語音幀內(nèi)信息的靜態(tài)特征MFCC和LPCC的識別效果好,再加上短時能量E,識別效果又有所增加.MFCC+ΔMFCC+LPCC+ΔLPCC+E的識別效果最好,但由于其選擇的特征量多,計算量大,訓(xùn)練測試所需的時間長.針對說話人識別,MFCC+ΔMFCC+E能取得較好的識別效果且識別所需時間短.
3)語音識別中不同SVM核函數(shù)的仿真實驗
在SVM語音識別系統(tǒng)中,采用不同的核函數(shù)會直接影響SVM 的分類能力.使用 MFCC+ΔMFCC+E特征參數(shù),選取不同核函數(shù),實驗結(jié)果見表3.
表3 不同SVM核函數(shù)下的識別率和所用時間
觀察表3可以看出,使用不同的核函數(shù)SVM分類的效果不同,所需的時間也不同.對比可以看出,RBF核函數(shù)(徑向基)的分類效果最好,最適用于語音識別.對比所花費時間可看出,線性核函數(shù)所需時間最短,sigmoid核函數(shù)所需時間最長且識別效果最差,即核函數(shù)越簡單建模測試所需時間越短.
4)語音識別中不同SVM參數(shù)的仿真實驗為進一步提高識別率,本文對核參數(shù)(RBF核函數(shù)對應(yīng)gamma參數(shù)g)和懲罰參數(shù)C對識別率的影響做了對比實驗,實驗結(jié)果見表4.
表4 同一核函數(shù)不同參數(shù)下的識別率
觀察表4的實驗結(jié)果可以看出,語音識別中使用相同的核函數(shù)不同的參數(shù)SVM分類的效果不同.表中說話人識別率最大相差了9.1%,可見選取合適的參數(shù)進行SVM訓(xùn)練對識別結(jié)果來說具有重要的意義.
5)改進網(wǎng)格算法的仿真實驗 由上述實驗可知使用SVM算法時,能選取合適的參數(shù),對識別率有很大的提升.而3中介紹的網(wǎng)絡(luò)搜尋法,由于數(shù)據(jù)多,尋找范圍大,耗時長.作為網(wǎng)格搜索法的一種改進,可以設(shè)定:首先用一個步長為4的(C,g)組合,得到學(xué)習(xí)精度最高的C和g的值.然后在這2個值旁的一定范圍內(nèi)進行一次更細(xì)致的網(wǎng)格搜索.采用K 折交叉驗證(K-fold CV)對系統(tǒng)性能進行測試(一般取K=5).具體過程:將原始數(shù)據(jù)分成K份,每次測試時都采用其中K-1組數(shù)據(jù)作為訓(xùn)練集,另外的一組數(shù)據(jù)作為測試集,共進行K(K>=2)次測試,最后將這K 次測試得到的結(jié)果求平均值作為判斷此分類器性能的指標(biāo).K-CV 可以十分有效地解決欠學(xué)習(xí)和過學(xué)習(xí)問題,同時也使得測試結(jié)果更具有說服性.本文對于所有學(xué)習(xí)精度的估計,均采用K=5.C取2-6~26,g取2-5~25,對測試集和訓(xùn)練集分別用改進前后算法尋優(yōu)所花時間見表5.
表5 改進前后尋優(yōu)所需時間 ms
由表5可看出改進前后尋優(yōu)時間相差很多,改進前所花時間是改進后的19倍左右.改進后的尋優(yōu)算法能有效地提高語音識別系統(tǒng)性能.
通過仿真,驗證了在語音識別中使用MFCC+ΔMFCC+E特征組合的方法可以提高支持向量機的綜合識別性能;對SVM中核函數(shù)及參數(shù)的選取對識別率的影響進行了深入研究,仿真結(jié)果表明,選取RBF核函數(shù)及適當(dāng)?shù)南嚓P(guān)參數(shù)可以提高語音識別的正確率;另外采用改進的網(wǎng)格尋優(yōu)算法可以有效縮短識別時間,提高系統(tǒng)的實時性.今后可以將該語音識別方法進一步應(yīng)用到智能推車的人機交互模塊中,從而實現(xiàn)其人性化智能控制.
[1]XUE Hui,YANG Qiang,CHEN Songcan.SVM:Support vector machines,in The top ten algorithms in data mining[M].Boca Raton:CRC Press,2010.
[2]MALDONADO S,WEBER R,BASAK J.Simultaneous feature selection and classification using kernelpenalized support vector machines[J].Information Sciences,2011,181(1):115-128.
[3]VLADIMIR N V.The nature of statistical learning theory[D].New York:Springer,1999.
[4]ARUN K M,GOPAL M.Reduced one-against-all method formulticlass SVM classification[J].Expert Systems with Application,Acta Electronica Sinica,2010,38(7):1626-1633.
[5]吳艷艷.孤立詞語音識別的關(guān)鍵技術(shù)研究[D].青島:青島大學(xué),2012.
[6]張志霞.語音識別中的個人特征參數(shù)提取研究[D].廣州:中山大學(xué),2009.
[7]葉慶石,蔣佳.基于語音 MFCC特征的改進算法[J].武漢理工大學(xué)學(xué)報,2007:29(5):150-152.
[8]鄧乃楊,田英杰.支持向量機:理論、算法與拓展[M].北京:科學(xué)出版社,2009.
[9]劉新宇,黃德啟.基于SVM分類器的道路濕滑圖像分類方法研究[J].武漢理工大學(xué)學(xué)報:交通科學(xué)與工程版,2011:35(4):786-787.