于 嫻,賀 松,彭亞雄,周 晚
(貴州大學(xué) 大數(shù)據(jù)與信息工程學(xué)院,貴州 貴陽 550025)
?
基于GMM模型的聲紋識別模式匹配研究*
于 嫻,賀 松,彭亞雄,周 晚
(貴州大學(xué) 大數(shù)據(jù)與信息工程學(xué)院,貴州 貴陽 550025)
模式匹配是聲紋識別的關(guān)鍵問題之一,為了提高識別正確率和識別效率,本文采用GMM模型建模,訓(xùn)練階段利用EM算法求取參數(shù)集,并通過MAP準(zhǔn)則實現(xiàn)模式識別。引入LBG算法求取起始參數(shù)值,并設(shè)計了基于3種方法的聯(lián)合判決門限決策。實驗結(jié)果表明 GMM模型利用平均值向量和協(xié)方差矩陣使它具有更好的模型能力,當(dāng)高斯混合數(shù)為32時識別率達到最高,聯(lián)合判決門限決策有效降低了誤識率與虛警率,并提高了識別效率。
聲紋識別 模式匹配 LBG 高斯混合模型
隨著信息時代的來臨,計算機、通信技術(shù)等高科技技術(shù)在我們的日常生活中隨處可見,讓我們的生活變得更加便捷與多彩,但隨之而來的問題也造成了很多人的困擾。各種卡片必須隨身攜帶,復(fù)雜繞口的密碼太難記憶,卡片丟失、密碼被盜也頻繁帶來安全隱患和財產(chǎn)損失。而生物識別是生物學(xué)和信息學(xué)等技術(shù)的結(jié)合,使得身份鑒定變得更加安全、方便且不需要記憶,幫我們解決了這一難題,它主要是通過運用生理和行為這種與生俱來的特征來實現(xiàn)身份的識別。
聲紋識別也屬于生物識別,它具有獲取方便、使用簡單、識別成本低、可遠程操作等優(yōu)勢,被廣泛地應(yīng)用于金融、證券、公安、軍隊、社保、醫(yī)療及其他民用安全認證等領(lǐng)域。當(dāng)前中國對聲紋識別的運用尚處起步階段,有很廣闊的發(fā)展前景。聲紋識別的主要過程有預(yù)處理、特征提取、模式匹配、識別判斷,本文主要對聲紋識別的模式匹配算法進行研究。
聲紋識別模式匹配方法有很多,如動態(tài)時間歸整(DTW)、人工神經(jīng)網(wǎng)絡(luò)(ANN)、隱馬爾可夫模型(HMM)、高斯混合模型(GMM)等,由于DTW精度難以對正導(dǎo)致識別率低,ANN訓(xùn)練時間較長,HMM訓(xùn)練計算量較大,本文選取當(dāng)前文本無關(guān)聲紋識別的主流技術(shù)高斯混合模型(Gaussian Mixture Model ,GMM)作為建模方法。通過GMM的離散組合,用均值和協(xié)方差矩陣來表示高斯函數(shù),從而得到GMM[1-2]。由于高斯混合模型GMM 對語音聲學(xué)特征分布有較好的擬合特性,基于最大似然決策的GMM 方法已經(jīng)成為說話人識別系統(tǒng)的主流方法[3]。它是高斯概率密度函數(shù)的延展,因此能夠很好地模擬各種形狀的密度公布。
1.1 參數(shù)訓(xùn)練
GMM中的參數(shù)是利用訓(xùn)練樣本{x1,x2,…,xm}通過計算p(x,z)的最大似然估計的方法得到,m為高斯混合密度的混合數(shù),z為隱含隨機變量。這種最大似然估計可以利用期望值最大化算法(Expectation MaXimization Algorithm ,EM),通過迭代得到[4]。其具體步驟如下:
p(x,z)的最大似然估計
(1)
(2)
式中,i=1,2,…,m,Qi(zi)為混合權(quán)值,且∑zQi(z)=1,Qi(z)≥0,μ(j)為均值矢量,Σ(j)為協(xié)方差矩陣,這里取為對角矩陣,w(j)為混合權(quán)重,且
(3)
圖1 GMM模型Fig.1 GMMdiagram
式(2)固定Σ(j),對μ(j)求導(dǎo)后等于0,可得
(4)
同理可得
(5)
EM算法的基本思想是把初始模型與新模型λ*,按照式(6)重復(fù)迭代,
(6)
直到它們滿足
(7)
時為止,這時的λ*為最優(yōu)值。
這就是EM迭代算法估計GMM參數(shù)的過程,通常情況下要得到一個穩(wěn)定的GMM需要經(jīng)過五到十次的迭代。
1.2 GMM模型識別
GMM的具體步驟是:在訓(xùn)練階段, 根據(jù)最大似然估計準(zhǔn)則從語音特征矢量中找出一個使得m個xi的平均概率最大的參數(shù)集λ;而在識別階段,則是根據(jù)最大后驗概率準(zhǔn)則(Maximum A Posterior ,MAP)[5],找出使識別語音概率最大的λi作為識別結(jié)果,則由貝葉斯理論,最大后驗概率可以寫成
(8)
又因為p(x)沒有先驗知識且為無條件概率,上式可化簡為求模型對數(shù)據(jù)的先驗概率,即
(9)
GMM之所以在聲紋識別中運用普遍是因為它是m個高斯函數(shù)的加權(quán)平均,能夠用一定量的高斯函數(shù)擬合任意語音的特征分布。
通過驗證,選取不同的起始參數(shù),會大大影響EM算法的識別率和迭代速度,因此,為了提高識別率,選取一個好的初始點是必不可少的。常用的求取初始點的算法有LBG算法、K-均值算法等,由于LBG算法壓縮比大且失真較小,而K-均值算法對數(shù)據(jù)集中的孤立點較為敏感,少量的孤立點數(shù)據(jù)就會嚴重影響到聚類結(jié)果,因此本文選取目前碼本訓(xùn)練性能比較好的LBG(LINE-BUZO-GRAY)算法[6]做為GMM訓(xùn)練中尋求初始點的方法。LBG算法步驟:
1)用訓(xùn)練向量的均值做為向量集的質(zhì)心,并將向量集按照式(10)所示的方法分裂成雙倍的數(shù)量。
(10)
其中,ο為向量集的質(zhì)心,ε=0.05,表示分裂參數(shù)。
2)測量每個訓(xùn)練向量的歐氏距離,找出與其距離最短的質(zhì)心οl,將向量分別與它們的οl分配到一個集合中去。
3)再用每個新集合的均值作為其新的質(zhì)心。
4)不斷執(zhí)行第2、3步直到前后兩次的訓(xùn)練向量與其οl的距離和的總體之差‖Jn-Jn-1‖小于臨界值Ω=0.01為止。
5)不斷執(zhí)行步驟1直到向量集達到我們所需的數(shù)量,它們的均值就是我們所需要的量化結(jié)果。
圖2 LBG算法流程Fig.2 LBG algorithm flow chart
目前大部分聲紋識別研究都局限在對某方法的有效性及對算法的局部改進上,這些方法都因為只側(cè)重于對某方面的研究而產(chǎn)生了片面性。實際上,語音具有各種各樣的特征,為了提高語音的識別率,本文使用聯(lián)合判決門限對語音做出識別判斷。既是先利用短時平均能量、短時平均過零率作為初步檢測,再用GMM作精確檢測的序貫識別[7]。聲紋識別可用兩個重要的參量來表示其識別性能,誤識率和虛警率。誤識率是指把待測語音中的偽冒者錯誤判定為與參考模板中某樣本相匹配的情況所占的比例;虛警率是指拒識待測語音中正確語音段的情況所占的比例[8]。而不同的判決門限可以調(diào)節(jié)誤識率和虛警率以達到相應(yīng)的識別要求。
1)短時平均能量定義為
(11)
(12)
不同的α值會產(chǎn)生不同的漢明窗,本文取α=0.46。
2)短時平均過零率為
(13)
取
(14)
用與1)相同的方法得到均值zμ,及高、低門限值zh、zl。
3)計算訓(xùn)練樣本與得到的GMM模型的相似程度,分別取最小和最大的作為高、低門限值sh、sl。
把上面3種方法分為兩級, 第1級由短時能量與過零率共用判決, 第2級由GMM模型最大后驗概率來完成,判決方法如圖3所示。
圖3 聯(lián)合判決門限決策Fig.3 Combined threshold decision
聯(lián)合判決門限不僅可以讓三種方法互補,且在第一部就可排除距離模板最偏遠的測試樣本,縮小了需GMM檢測的樣本范圍。且由于短時平均能量和過零率都已在預(yù)處理階段得到,無需在識別階段再重復(fù)計算,有效地降低了計算量。
實驗選用的是GMM的說話人識別系統(tǒng),語音采樣率為8 000Hz,幀長為20ms,語音參數(shù)為16維Mel頻率倒譜系數(shù)。實驗語料來自50人 (男女各25人) ,每人30條語音樣本, 每個樣本時間為2s。
4.1GMM模型識別結(jié)果
下圖為分別運用LBG算法及K-均值算法求取初始點的情況下,不同高斯混合數(shù)時GMM模型的識別結(jié)果對比。
圖4 GMM實驗結(jié)果Fig.4 Experiment results of GMM
從圖4可以看出,在其他條件相同的情況下,運用LBG算法求取初始點比運用K-均值算法具有更高的識別率。GMM模型的識別率會隨著高斯混合數(shù)的增大,先升高再降低,當(dāng)高斯混合數(shù)為32時識別率達到最高。
4.1 選擇不同門限對識別率的影響
下圖為分別以GMM模型低門限值(sl)、高門限值(sh)及聯(lián)合判決決策作為判決門限時的誤識率和虛警率柱狀圖。
圖5 不同判決門限時的誤識率和虛警率Fig.5 False positive rate and false alarm rate histogram of different decision threshold
根據(jù)實驗結(jié)果可知, 當(dāng)采用GMM模型作為判決門限時,隨著門限值的變化誤識率和虛警率成反比,這個矛盾在單一門限中是固然存在的,而通過使用聯(lián)合判決門限則使得誤識率和虛警率都被降低到對識別率影響最小的狀態(tài)。此外, 所有樣本中僅通過第一級識別就被拒絕的有38.3%,而由其造成的虛警率僅為0.3%,有效提高了識別效率。
本文提出了在使用LBG算法求取初始點的前提下,結(jié)合EM算法和MAP準(zhǔn)則完成聲紋識別的訓(xùn)練和識別過程,并在統(tǒng)一基準(zhǔn)條件下研究了不同的求取初始點的算法和高斯混合數(shù)對識別率的影響。優(yōu)化了判決門限的設(shè)定,從實驗結(jié)果來看,本文提出的聯(lián)合判決門限決策在沒有增加計算量的情況下有效地克服了傳統(tǒng)聲紋識別的識別性能矛盾,誤識率和虛警率明顯低于傳統(tǒng)的GMM模型識別方法,說明本文提出的方法是有效的,此聯(lián)合判決門限決策對基于其他方法的語音識別都具有參考價值。但必須指出的是雖然GMM模型的混合數(shù)越多,識別的結(jié)果就會越接近測試樣本的分布情況,但相對的,所花費訓(xùn)練和識別的時間也會隨之增加。且上述識別結(jié)果都是在實驗室良好的環(huán)境下取得的,在現(xiàn)實環(huán)境中,由于噪聲和信道的干擾,嚴重影響了識別率。在今后的工作中,將針對如何高效地提高GMM模型混合數(shù)和聲紋識別的魯棒性做進一步研究。
[1] SLEIT A, SERHAN S, and NEMIR L. A HistogramBasedSpeaker Identification Technique[C]//Internati-onal Conference on ICADIWT.Piscataway:IEEE Pr-ess,2008:384-388.
[2] 吳朝暉,楊瑩春.說話人識別模型與方法[M].北京:清華大學(xué)出版社,2009:26-31. WU Chao-hui, YANG Ying-chun. Speaker RecognitionModel and Method[M].Beijing: Tsinghua Univers-ity Press,2009:26-31.
[3] 王韻琪,俞一彪.自適應(yīng)高斯混合模型及說話人識別應(yīng)用[J].通信技術(shù),2014,47(7):738-739. WANG Yun-qi, YU Yi-biao. Adaptive Gaussian Mixture Model and Its Application in Speaker Recognition[J].Communications Technology,2014,47(7):738-739.
[4] DUDA R O,HART P E,STORK DG.Pattern Classific-ation[M].Second Edition.New York:Wiley Inters-cience,2000:108-112.
[5] GAUVAIN J,LEE C.Maximum a Posteriori Estimation for Multivariate Gaussian Mixture Observations of Markov Chains[J].Speech and Audio Processing,IEEE Transactions on,1994,2(2):291-298.
[6] YOSEPH L,Buzo A, GRAY R M.An Algorithm for Vec-tor Quantizer Design[J].IEEE Tran Commun,1980,28(1): 84-95.
[7] 王炳錫.語音編碼[M]. 西安: 西安電子科技大學(xué)出版社, 2002. WANG Bing-xi.Speech Coding[M].Xi'an: Xidian U-niversity Press,2002.
[8] 王秋雯.基于GMM-UBM的快速說話人識別方法[D].哈樂濱:哈爾濱工業(yè)大學(xué), 2011. WANG Qiu-wen. Rapid Speaker Recognition Based on GMM-UBM[D].Harbin:Harbin Institute of Tech-nology,2011.
YU Xian(1989-),female, graduate student, majoring in voiceprint recognition and speech signal processing.
賀 松(1974—),男,碩士,副教授,主要研究方向為信號處理;
HE Song(1974-),male,M.Sci., associate professor, mainly working at signal processing.
彭亞雄(1963—),男,副教授,主要研究方向為信號處理;
PENG Ya-xiong(1963-), male, associate professor, mainly working at signal processing.
周 晚(1987—),女,碩士,助講,主要研究方向為電子通信。
ZHOU Wan(1987-), female, M.Sci., assistant lecturer, mainly working at electronic communication.
Pattern Matching of Voiceprint Recognition based on GMM
YU Xian, HE Song, PENG Ya-xiong, ZHOU Wan
(College of Big Data & Information Engineering,Guizhou University, Guiyang Guizhou 550025, China)
Pattern matching is one of the key problems of voiceprint recognition. In order to improve the accuracy and efficiency of recognition, this paper adopts GMM modeling, applies the EM algorithm to calculate parameter set during the training stage, and achieves pattern recognition via MAP criterion. LBG algorithm is introduced to calculate the initial parameter values, and a combined threshold decision is designed based on 3 methods. Experiment results show that GMM, with mean vector and covariance matrix, enjoys better modeling capability, and reaches the highest recognition rate when the mixed number is 32. The combined threshold decision effectively reduces the false acceptation rate and false alarm rate, and meanwhile, it improves the efficiency of recognition.
voiceprint recognition; pattern matching; LBG; Gaussian mixture model
10.3969/j.issn.1002-0802.2015.01.020
2014-09-19;
2014-12-20 Received date:2014-09-19;Revised date:2014-12-20
用于社區(qū)司法矯正的聲紋識別系統(tǒng)研究項目(黔科合SY字[2013]3105號);貴州省中藥現(xiàn)代化科技產(chǎn)業(yè)研究開發(fā)專項(黔科合中藥字[2013]5066號);貴州省工程技術(shù)研究中心建設(shè)項目(黔科合G字[2014]4002號)
Foundation Item:The Research Program of Voiceprint Recognition System for Community Judicial Correction(Guizhou Branch of SY[2013]3105);The Special Research and Development of Guizhou TCM Modernization Scientific and Technological Industry(Guizhou Branch of TCM[2013]5066);The Construction Program of Guizhou Engineering Technology Research Center(Guizhou Branch of G[2014]4002)
TP391.4
A
1002-0802(2015)01-0097-05
于 嫻(1989—),女,碩士研究生,主要研究方向為聲紋識別、語音信號處理;