1.說話人識別概述
說話人識別是指對一段語音進行處理,確定該段語音是誰所說,或者是否是某個人所說。根據(jù)識別系統(tǒng)的職能。由于在安全訪問控制,身份自動鑒別相關(guān)領(lǐng)域的現(xiàn)實意義以及現(xiàn)代設(shè)施的硬件支持,近年來說話人識別系統(tǒng)得到了社會以及各種企業(yè)的大量關(guān)注和研究,近年來,隨著Internet和計算機通信行業(yè)的迅猛發(fā)展,說話人確認系統(tǒng)正廣泛應(yīng)用到Internet的訪問控制,計算機認證和無線電話認證等領(lǐng)域。
通過組合MFCC和基音周期特征參數(shù)的方法,來提高系統(tǒng)的識別率,但是組合的特征參數(shù)缺少動態(tài)特性,在噪聲等外界干擾下,系統(tǒng)的識別率容易受到影響[1]。文獻2通過提取MFCC特征參數(shù)然后對其進行加權(quán),能夠提高系統(tǒng)識別率,但是仍然沒有使用動態(tài)特性,缺乏抗干擾性。文獻3提出了一種基于MFCC系數(shù)分析和仿生模式識別的語音識別方法,該方法旨在減少計算量并且提高識別率。雖然取得了一定的效果,但是仿生模式的識別方法僅適用于小詞匯量的語音識別中。
本文通過提取MFCC的一階差分特征參數(shù),并且與原參數(shù)進行組合,提高了特征參數(shù)的動態(tài)特性,使參數(shù)有更好的魯棒性和更強的抗噪能力,然后對參數(shù)加權(quán)可以使識別率得到進一步提高,最后采用矢量量化識別,該方法既減少了計算量,并且適用于更廣泛的語音識別中。
2、系統(tǒng)描述
本文說話人識別系統(tǒng)在對原始語音提取MFCC參數(shù)、MFCC一階差分參數(shù)并且對其進行矢量加權(quán)。說話人識別系統(tǒng)的框架,包括語音輸入、特征參數(shù)提取、模型建立以及相似度比較。說話人識別系統(tǒng)分為兩個部分:訓(xùn)練部分和識別部分。現(xiàn)階段主要研究的是特征提取部分、說話人識別模型建立部分。
2.1改進的MFCC特征參數(shù)
本文改進的MFCC參數(shù)的提取和計算過程如下,因為標準MFCC參數(shù)只反映語音參數(shù)的靜態(tài)特性,MFCC的差分參數(shù)反映的是動態(tài)特性,而人耳對語音的動態(tài)特性更加敏感,本文在MFCC的基礎(chǔ)上在最后計算一階差分倒譜系數(shù)反映語音動態(tài)的變化,然后與原有MFCC參數(shù)進行組合,得到新的24維的組合特征參數(shù)。
2.2 VQ識別過程
矢量量化(Vector Quantization,VQ)具有良好的分類特性,能夠通過對長時語音特征參數(shù)統(tǒng)計信息的量化來區(qū)分不同的說話人,并且可以減少數(shù)據(jù)量,使用該方法建立識別模型,能有效減少數(shù)據(jù)存儲量和計算量。
VQ的關(guān)鍵是設(shè)計一個矢量化分類器來對輸入的信息進行分類。在訓(xùn)練階段,采用LBG算法,由說話人語音的訓(xùn)練樣本序列,前面所述的12維MFCC參數(shù)和12維一階差分參數(shù)作為特征矢量,聚類生成不同碼字組成的碼書,每個說話人都對應(yīng)一個碼書,每個碼書具有M個碼字。這些碼書在特征空間的分布相互不重疊或者重疊但是有較好的區(qū)分度。
2.3特征參數(shù)加權(quán)
由于用矢量量化的方法僅僅得到說話人語音特征在特征空間的聚類中心,而忽略了特征參數(shù)矢量每一維分量對識別的貢獻大小,也就是說只描述了特征空間的形狀,而沒有顧忌具體參數(shù)分量對不同說話人的區(qū)分程度,因此這種模擬比較粗糙。通過對參數(shù)的加權(quán),可以增強說話人的區(qū)分程度,減少這種粗糙程度,因此本文對前文提取出的各特征參數(shù)矢量進行加權(quán)處理,改進的方法如下:令,其中a(t)表示第t維分量的加權(quán)系數(shù),P是特征矢量的維數(shù)。
3、實驗結(jié)果
實驗中采取錄音的方式來獲得聲音文件,總共有15個不同人聲音的wav文件,錄音采用12.5k采用率,16bit采樣精度,在普通實驗室環(huán)境下進行,錄音人員隨便讀任何文字,每個人讀不同的文字兩遍,一次用來作為訓(xùn)練數(shù)據(jù),一次用來作為測試數(shù)據(jù)。在參數(shù)提取時取幀長為256個采樣點,幀移是100個采樣點,提取12階MFCC和12階一階差分MFCC結(jié)合作為特征矢量,用LBG算法訓(xùn)練碼書。識別采用相同算法生成特征矢量,然后計算與碼本之間的距離,根據(jù)改進公式作為距離測度。
實驗結(jié)果中采用MFCC特征參數(shù),碼書大小為16時,識別率為66.71%,而采用加權(quán)MFCC時識別率稍有提升。當碼書大小升為64時,識別率達到87.32%。本文所改進的加權(quán)MFCC與一階差分MFCC參數(shù)的結(jié)合識別率達到了94.53%。
實驗結(jié)果表明,Mel頻率倒譜系數(shù)(MFCC)能很好的反應(yīng)說話人的個體特征,在不同碼書大小的環(huán)境下,對不同的參數(shù)進行加權(quán)以后提高了一些識別率,MFCC與一階差分MFCC參數(shù)(MFCC)的結(jié)合比單一MFCC特征參數(shù)識別率高出很多,尤其是在碼書比較小得時候提升效果更佳明顯。該系統(tǒng)VQ矢量技術(shù)的使用,有效減少了整個說話人識別系統(tǒng)在訓(xùn)練跟識別時的計算量。
4、總結(jié)
本文在MFCC基礎(chǔ)上,提取了一階差分MFCC,并將他們進行組合,有效的利用了靜態(tài)與動態(tài)的參數(shù)特征,然后通過加權(quán)的方法,提高識別效果。實驗證明矢量量化識別的方法能有效的減少該方法在識別過程中的計算量并且能保證足夠的識別精度。最后對不同特征參數(shù)在不同碼書的矢量識別下進行對比,證明了動靜態(tài)組合的特征參數(shù)優(yōu)于單一的特征參數(shù),加權(quán)處理的方法能夠進一步提高系統(tǒng)的識別率。
參考文獻
[1]孫水發(fā),朱建偉,劉曉麗?;贛FCC等組合特征的說話人識別模型[J]。三峽大學(xué)學(xué)報(自然科學(xué)版),2009,12(31)No.6.
[2]邵央,劉丙哲,李宗葛?;贛FCC和加權(quán)矢量量化的說話人識別系統(tǒng)。計算機工程與應(yīng)用,2002,05:128.
[3]王憲保,陳勇,湯麗平。結(jié)合MFCC分析和仿生模式識別的語音識別研究。計算機工程與應(yīng)用,2011,47(12).
[4]蔡蓮紅,黃德智,蔡銳?,F(xiàn)代語音技術(shù)基礎(chǔ)與應(yīng)用[M].北京:清華大學(xué)出版社,2003
[5]趙力。語音信號處理[M].北京:機械工業(yè)出版社,2003.
[6]周明義,周昆湘,余伶俐。一種基于VQ的說話人確認的閾值設(shè)計方法[J].計算機工程與應(yīng)用,2007,43(13):117-119.
[7]Sridevi V.Sarma.A Segment-based Speaker Verification System Using SUMMIT,MIT,1997
[8]Tanprasert C,Achariyakulporn V.Comparative study of GMM,DTW and ANN on ThaiSpeakeridentificationsys-tem.Proc.ICSLP,2000(Paper No.00718).