胡志隆,文 暢,謝 凱,賀建飚
(1.長(zhǎng)江大學(xué) a.電子信息學(xué)院; b.計(jì)算機(jī)科學(xué)學(xué)院,湖北 荊州 434023; 2.中南大學(xué) 信息科學(xué)與工程學(xué)院,長(zhǎng)沙 410083)
語(yǔ)音識(shí)別是一種生物識(shí)別技術(shù),獲取方法簡(jiǎn)單且成本低廉。相比于人臉識(shí)別、虹膜識(shí)別等技術(shù),語(yǔ)音識(shí)別使用者的接受程度更高,因此,其被廣泛應(yīng)用于醫(yī)療、社保、金融及公共場(chǎng)所的安全認(rèn)證等領(lǐng)域。而聲紋密碼識(shí)別作為文本相關(guān)的語(yǔ)音識(shí)別方法,用文本的上下文關(guān)系和話者聲道信息保護(hù)說話人的信息安全,與文本無關(guān)的語(yǔ)音識(shí)別方法相比,具有較高的安全性[1]。
目前,語(yǔ)音識(shí)別系統(tǒng)常采用高斯混合模型-通用背景模型(Gaussian Mixture Model-Universal Background Model,GMM-UBM),該算法應(yīng)用話者的聲道信息并通過全局背景模型解決訓(xùn)練樣本少的問題,在文本無關(guān)的語(yǔ)音識(shí)別中取得較好的識(shí)別效用。此外,隨著人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN)、支持向量機(jī)(Super Vector Machine,SVM)等機(jī)器學(xué)習(xí)方法的不斷成熟,也出現(xiàn)類似GMM-SVM的融合算法[2-6]。然而,GMM模型僅單一反映話者的聲道信息而忽略語(yǔ)音文本的上下文關(guān)系,因此不適用于聲紋密碼識(shí)別。同時(shí),ANN是一個(gè)高度非線性的大型網(wǎng)絡(luò),需要大量的訓(xùn)練樣本才能得到效果較好的模型,導(dǎo)致其難以應(yīng)用于實(shí)際。
針對(duì)上述方法的不足,本文提出一種隱馬爾科夫模型-通用背景模型(Hidden Markov Model-Universal Background Model,HMM-UBM)聯(lián)合相關(guān)向量機(jī)(Relevance Vector Machine,RVM)的聲紋密碼識(shí)別算法,該算法采用HMM-UBM模型,利用語(yǔ)音的文本信息及其話者的聲道信息進(jìn)行時(shí)序建模。同時(shí)針對(duì)HMM模型分類決策能力較差的問題,本文融合相關(guān)向量機(jī)作為分類器,做最后的判決決策。
指定文本的聲紋密碼識(shí)別系統(tǒng)主要流程包括語(yǔ)音信號(hào)的預(yù)處理、特征參數(shù)提取、特征建模和相似性度量等模塊,其中特征參數(shù)的選取及相似性度量的方法決定系統(tǒng)的識(shí)別效率[7]。本文針對(duì)傳統(tǒng)聲紋密碼識(shí)別系統(tǒng)中的相似性度量模塊進(jìn)行了改進(jìn),提出了基于HMM-UBM聯(lián)合改進(jìn)RVM的聲紋密碼識(shí)別算法,算法流程如圖1所示。首先對(duì)注冊(cè)語(yǔ)音、訓(xùn)練語(yǔ)音及待識(shí)別語(yǔ)音進(jìn)行預(yù)處理,包括分幀、加窗、預(yù)加重等;其次采用梅爾倒譜系數(shù)(Mel-Frequency Cepstral Coefficients,MFCC)對(duì)處理過的語(yǔ)音提取特征參數(shù);然后將其作為輸入序列,訓(xùn)練得到HMM-UBM模型后計(jì)算每位注冊(cè)說話人語(yǔ)音與訓(xùn)練語(yǔ)音的匹配得分,歸一化后組合成一個(gè)特征向量,將每位注冊(cè)說話人的特征向量提供給RVM訓(xùn)練,得到語(yǔ)音分類信息,即RVM分類器;最后對(duì)待識(shí)別語(yǔ)音采用同樣的方法得到其對(duì)應(yīng)的特征向量,輸入訓(xùn)練好的RVM模型進(jìn)行分類決策,并最終取得分類結(jié)果。
圖1 聲紋密碼識(shí)別算法流程
說話人識(shí)別系統(tǒng)中常用的GMM-UBM模型雖然擬合了說話人的聲音特性,但忽視了文本內(nèi)容對(duì)識(shí)別效果的影響,不適用于特定文本的聲紋密碼識(shí)別[8-10]。因此,本文采用HMM來對(duì)相關(guān)性進(jìn)行建模,同時(shí)采用全局高斯混合模型作為UBM來表達(dá)說話人聲道特征在訓(xùn)練樣本中的分布概率。模型構(gòu)建流程如圖2所示。
圖2 HMM-UBM模型構(gòu)建流程
與GMM-UBM模型相似,由于UBM的均值矢量利用率較高,因此自適應(yīng)時(shí)僅更新該參數(shù),更新過程如下:
1)設(shè)注冊(cè)話者的輸入特征矢量為{xi|i=1,2,…,t},計(jì)算其在所有訓(xùn)練樣本中的概率分布,若話者對(duì)應(yīng)第i個(gè)訓(xùn)練樣本,則其概率分布為:
(1)
其中,pi(xt)為第i個(gè)訓(xùn)練樣本的密度函數(shù),ωi為第i個(gè)訓(xùn)練樣本的權(quán)重系數(shù),Pr(i|xt)為第i個(gè)訓(xùn)練樣本的后驗(yàn)概率,表示在測(cè)試語(yǔ)音的特征矢量為xt的條件下,測(cè)試語(yǔ)音對(duì)應(yīng)第i個(gè)訓(xùn)練語(yǔ)音的概率。
2)利用Pr(i|xt)和均值向量進(jìn)行從分統(tǒng)計(jì),統(tǒng)計(jì)式為:
(2)
3)通過所有訓(xùn)練數(shù)據(jù)產(chǎn)生新的均值統(tǒng)計(jì)量,更新UBM第i個(gè)混合分量的均值矢量得到第i個(gè)分量的HMM-UBM模型,如式3所示。
(3)
RVM是一種基于貝葉斯稀疏核的分類算法。與SVM相比,RVM可以計(jì)算出樣本輸出的后驗(yàn)概率分布,更適用于多分類問題,并且其核函數(shù)不需要限定為對(duì)稱正定核,從而可以得到更加稀疏的解[11-15]。因此,本文選用其作為分類器,進(jìn)行最后的決策,得到更加準(zhǔn)確的識(shí)別結(jié)果。
ti=y(xi)+εn
(4)
其中,εn是均值為0、方差為σ2的噪聲,y(x)為RVM的分類模型,其定義為:
(5)
設(shè)目標(biāo){t|t=t1,t2,…,tN}獨(dú)立同分布,則整個(gè)訓(xùn)練樣本的似然函數(shù)可以表示為:
(6)
其中,t=(t1,t2,…,tN)T,ω=(ω0,ω1,…,ωN)T,φ為N×(N+1)矩陣,如式(7)所示。
(7)
假設(shè)式(6)中的ω和σ2采用最大似然估計(jì)求解,結(jié)果通常使權(quán)重參數(shù)ω中大部分元素不為0,從而導(dǎo)致過擬合。為了避免過學(xué)習(xí)的問題,RVM對(duì)每個(gè)權(quán)重參數(shù)加上先決條件:使其幾率是分布在0周圍的正態(tài)分布,如式(8)所示。
(8)
其中,α為N+1維超向量。
根據(jù)貝葉斯公式直接求得參數(shù)ω的后驗(yàn)分布:
p(ω|t,α,σ2)=(2π)-(N+1)/2|Σ|-1/N×
(9)
其中,μ=σ-2ΣφTt,Σ為協(xié)方差,Σ=(σ-2φTφ+A)-1,A=diag(α0,α1,…,αN),σ2(x)=(β)-1+φ(x)Σφ(x)。
對(duì)于一個(gè)給定的樣本x,最終其輸出的概率分布為:
(2π)-N/2·|σ2I+φA-1φT|-1/2
(10)
式(10)中的未知量為超參數(shù)α和β,則求解輸出概率分布的問題轉(zhuǎn)化為求解超參數(shù)α和β,本文通過最大化法來求解參數(shù),如式(11)所示。
(11)
通過最大化式(11),來更新α和β的值:
(12)
(13)
經(jīng)過多次學(xué)習(xí),大部分超參數(shù)αi會(huì)趨于無窮,而對(duì)應(yīng)的權(quán)重向量ωi=0,少部分權(quán)重向量不為0的訓(xùn)練樣本xi即為相關(guān)向量,通過相關(guān)向量得到其分類模型并作為最優(yōu)分類超平面,以對(duì)輸入的測(cè)試樣本進(jìn)行識(shí)別。
HMM算法具有較強(qiáng)的時(shí)序建模能力,處理連續(xù)動(dòng)態(tài)信號(hào)時(shí)表現(xiàn)優(yōu)異。但HMM是基于先驗(yàn)知識(shí)的統(tǒng)計(jì)學(xué)習(xí)方法,其分類決策能力較差。而RVM是基于貝葉斯稀疏核的回歸分類算法,具有較強(qiáng)的分類效果和泛化能力。本文提出HMM-UBM-RVM聲紋識(shí)別算法,將2種方法進(jìn)行融合,具有較強(qiáng)的時(shí)序建模能力和分類效果。
設(shè)訓(xùn)練樣本中包含n位說話人,每位說話人包含10條語(yǔ)音,對(duì)于第i位說話人,其特征序列分別為{i-voice0,i-voice1,…,i-voice9}。其中i-voice0為其注冊(cè)聲紋密碼,則該模型的實(shí)現(xiàn)流程如圖3所示。
圖3 HMM-UBM聯(lián)合RVM實(shí)現(xiàn)流程
聯(lián)合HMM-UBM與RVM算法實(shí)現(xiàn)流程如下:
1)錄制語(yǔ)音信號(hào)。對(duì)語(yǔ)音信號(hào)進(jìn)行預(yù)處理,消除干擾信息后提取其MFCC特征參數(shù)。
2)對(duì)每位說話人的語(yǔ)音建立HMM-UBM模型。
3)用式(14)計(jì)算訓(xùn)練樣本中每條注冊(cè)語(yǔ)音對(duì)其他語(yǔ)音的匹配得分:
Οt0-ik(Xt0)=logp(Xt0|λik)-logp(Xt0|λUBM)
(14)
其中,Xt0為訓(xùn)練樣本中第t位說話人注冊(cè)語(yǔ)音的HMM特征序列,λik為訓(xùn)練樣本中第i位說話人第k條語(yǔ)音的HMM-UBM特征序列,λUBM為背景模型的特征序列。
4)對(duì)匹配得分進(jìn)行歸一化:
(15)
5)將每條注冊(cè)語(yǔ)音歸一化數(shù)據(jù)組成超維向量V。例如,對(duì)于第t位說話人,其注冊(cè)語(yǔ)音的超維特征向量為Vt0={Scoret0-00,Scoret0-01,…,Scoret0-n9}。
6)將得分矢量輸入到RVM進(jìn)行學(xué)習(xí),直到RVM迭代次數(shù)到預(yù)設(shè)次數(shù)為止(本文取最大迭代次數(shù)為300次)。至此完成RVM分類器的訓(xùn)練階段,得到n×(n-1)/2個(gè)二分類的子RVM分類器。
7)對(duì)待識(shí)別的輸入語(yǔ)音信號(hào)進(jìn)行訓(xùn)練,得到HMM模型。用式(14)計(jì)算其得分,歸一化后組成待識(shí)別語(yǔ)音的特征向量VVP,VVP={Scorevp1,Scorevp2,…,Scorevpn}。
8)將待識(shí)別語(yǔ)音的特征向量VVP輸入到RVM,然后對(duì)該向量進(jìn)行非線性映射。為提高識(shí)別精度,本文采用“1V1”模型進(jìn)行多分類識(shí)別,如圖4所示。
圖4 RVM“1V1”分類模型
采用本文設(shè)計(jì)的聲紋密碼識(shí)別系統(tǒng)作為測(cè)試平臺(tái),系統(tǒng)運(yùn)行界面如圖5所示。
圖5 系統(tǒng)運(yùn)行界面
本文采用的數(shù)據(jù)庫(kù)是TIMIT語(yǔ)音庫(kù),包含來自美國(guó)8個(gè)主要方言地區(qū)的630個(gè)人,每個(gè)人包含10段3 s~6 s的語(yǔ)音。其中,2段為方言句子,每個(gè)人的方言句子內(nèi)容相同,其余語(yǔ)音內(nèi)容不同。
方言句1內(nèi)容為“She had your dark suit in greasy wash water all year”,方言句2內(nèi)容為“Don’t ask me to carry an oily rag like that”。
本文采用錯(cuò)誤接收概率(FA)和錯(cuò)誤拒絕概率(FR)評(píng)判聲紋密碼識(shí)別系統(tǒng)的性能,其表達(dá)式如式(16)和式(17)所示。
(16)
(17)
其中,nNRVC表示測(cè)試語(yǔ)音為非注冊(cè)語(yǔ)音時(shí),識(shí)別為注冊(cè)語(yǔ)音的概率,nNRVT表示采用非注冊(cè)語(yǔ)音作為測(cè)試語(yǔ)音的實(shí)驗(yàn)次數(shù),nRVW表示測(cè)試語(yǔ)音為注冊(cè)語(yǔ)音時(shí),識(shí)別錯(cuò)誤的概率(當(dāng)且僅當(dāng)測(cè)試語(yǔ)音與識(shí)別出的注冊(cè)語(yǔ)音內(nèi)容和對(duì)應(yīng)說話人均匹配時(shí),才認(rèn)為識(shí)別正確),nRVT表示采用注冊(cè)語(yǔ)音作為測(cè)試語(yǔ)音的實(shí)驗(yàn)次數(shù)。
通用背景模型的高斯混合數(shù)越大,說話人聲道特征分布概率越精確,但計(jì)算復(fù)雜度相應(yīng)增加。因此,本文針對(duì)這些參數(shù)做以下實(shí)驗(yàn)。
采用數(shù)據(jù)庫(kù)中不含噪的dr3部分語(yǔ)音,以其中每個(gè)人的方言句1作為注冊(cè)語(yǔ)料,以該語(yǔ)音庫(kù)全部6 300條語(yǔ)音作為訓(xùn)練集訓(xùn)練UBM模型。實(shí)驗(yàn)中HMM的狀態(tài)數(shù)及高斯混合度均取為4,UBM模型的高斯混合數(shù)分別?。?,16,32,64,128,256,512,1 024。
在測(cè)試時(shí),隨機(jī)選取dr3部分的1條語(yǔ)音作為測(cè)試語(yǔ)音進(jìn)行識(shí)別,重復(fù)實(shí)驗(yàn),取FA、FR均值。實(shí)驗(yàn)結(jié)果如圖6所示。
圖6 UBM高斯混合度對(duì)識(shí)別率的影響結(jié)果
測(cè)試結(jié)果表明,隨著通用背景模型的高斯混合度增高,錯(cuò)誤接收概率及錯(cuò)誤拒絕概率均有小幅度下降。當(dāng)混合度超過512時(shí),錯(cuò)誤接收概率小于1%,盡管錯(cuò)誤拒絕率仍有3%左右,但錯(cuò)誤拒絕對(duì)用戶信息安全影響較小。因此,取UBM模型的高斯混合度為512。
采用數(shù)據(jù)庫(kù)中不含噪的dr3部分語(yǔ)音,以其中每個(gè)人的方言句1作為注冊(cè)語(yǔ)料,以該語(yǔ)音庫(kù)全部6 300條語(yǔ)音作為訓(xùn)練集訓(xùn)練UBM模型。在實(shí)驗(yàn)中,RVM分類器核函數(shù)分別選多項(xiàng)式核、sigmoid核和高斯核,分別選取dr3語(yǔ)料中15位、30位、45位、60位說話人的注冊(cè)語(yǔ)音重復(fù)進(jìn)行識(shí)別率測(cè)試。實(shí)驗(yàn)結(jié)果如表1所示。
表1 RVM采用不同核函數(shù)對(duì)模型識(shí)別率的影響
從表1可以看出,隨著測(cè)試人數(shù)的增加,高斯核的測(cè)試精度明顯高于多項(xiàng)式核和sigmoid核。因此,RVM均采用高斯核作為核函數(shù)進(jìn)行分類決策。
本文所提出的聲紋密碼識(shí)別方法與常用于語(yǔ)音識(shí)別的GMM-UBM、GMM-SVM及HMM-UBM算法進(jìn)行對(duì)比,實(shí)驗(yàn)采用TIMIT語(yǔ)音庫(kù)中所有說話人的方言句1作為注冊(cè)語(yǔ)音,為對(duì)應(yīng)話者建立模型,采用全部6 300條語(yǔ)音作為訓(xùn)練集訓(xùn)練UBM模型,抽取每位話者的注冊(cè)語(yǔ)音及隨機(jī)兩條其他語(yǔ)音進(jìn)行識(shí)別,共測(cè)試630×3=1 890次,取識(shí)別正確率、FA及FR均值,實(shí)驗(yàn)結(jié)果如表2所示。
表2 不同算法的識(shí)別率比較 %
從表2可以看出,本文方法與GMM-UBM和GMM-SVM識(shí)別算法相比,大幅降低了識(shí)別算法的錯(cuò)誤接收概率和錯(cuò)誤拒絕概率??梢钥闯?針對(duì)文本相關(guān)的聲紋密碼識(shí)別,采用更具有時(shí)序建模能力的隱馬爾科夫模型-通用背景模型,該模型可反映聲紋的文本信息及話者的聲道信息。相比之下,GMM模型的GMM-UBM算法和GMM-SVM算法都忽視了文本信息,會(huì)將說話人的其他語(yǔ)音識(shí)別為其注冊(cè)語(yǔ)音,從而導(dǎo)致錯(cuò)誤接收概率較大,影響用戶信息安全。同時(shí),本文方法在HMM-UBM模型基礎(chǔ)上采用RVM作為分類器,回避了該模型分類決策能力弱的問題。
對(duì)測(cè)試語(yǔ)音進(jìn)行高斯白噪聲加噪處理,信噪比分別為0 dB、5 dB、10 dB、15 dB、20 dB、25 dB、30 dB。系統(tǒng)抗噪性能測(cè)試結(jié)果如圖7所示。
由圖7可以看出,本文算法在各信噪比環(huán)境下,識(shí)別率均優(yōu)于基于GMM-SVM和GMM-UBM識(shí)別算法。尤其在低信噪比環(huán)境下,其優(yōu)越性更加明顯。一方面是因?yàn)樵摲椒ú捎肏MM-UBM模型,兼顧語(yǔ)音的文本信息及話者的聲道信息,更適用于文本相關(guān)的聲紋密碼識(shí)別;另一方面,由于HMM是基于先驗(yàn)知識(shí)的統(tǒng)計(jì)學(xué)習(xí)方法,并不具備良好的分類能力,將其與相關(guān)向量機(jī)相融合,發(fā)揮HMM的時(shí)序建模能力和RVM的分類決策能力,能夠提高其抗噪性能識(shí)別精度。
本文方法用于模擬門禁系統(tǒng),實(shí)現(xiàn)聲紋密碼開鎖。實(shí)驗(yàn)采用實(shí)驗(yàn)室中20位說話人(12男,8女),每位說話人50條語(yǔ)音,語(yǔ)音內(nèi)容為8位0~9的隨機(jī)數(shù),取每位話者其中一條語(yǔ)音作為聲紋密碼,注冊(cè)其模型,以全部1 000條語(yǔ)音作為訓(xùn)練集,訓(xùn)練UBM模型。對(duì)每位說話人進(jìn)行測(cè)試,測(cè)試語(yǔ)音采用說話人現(xiàn)場(chǎng)說出5條對(duì)應(yīng)的注冊(cè)語(yǔ)音及5條對(duì)應(yīng)的非注冊(cè)語(yǔ)音,記錄正確開鎖率(說話人與密碼相匹配并開鎖成功及說話人與密碼不匹配并開鎖失敗2種情況視為正確開鎖)。以基于GMM-UBM、GMM-SVM和HMM-UBM算法的模擬門禁系統(tǒng)作為對(duì)比,采用同樣的方法進(jìn)行測(cè)試,對(duì)比結(jié)果如表3所示。
表3 算法應(yīng)用結(jié)果對(duì)比 %
聲紋密碼識(shí)別廣泛應(yīng)用于各種場(chǎng)所的安全認(rèn)證,而常用語(yǔ)音識(shí)別系統(tǒng)大多采用傳統(tǒng)的GMM-UBM模型及改進(jìn)算法。GMM模型雖能較好反映說話人的聲道信息,但忽視語(yǔ)音內(nèi)容對(duì)識(shí)別正確率的影響,不適用于固定文本的聲紋密碼識(shí)別。本文提出HMM-UBM聯(lián)合RVM的聲紋密碼識(shí)別算法,利用隱馬爾科夫模型的時(shí)序建模能力得到語(yǔ)音的文本信息,采用UBM模型解決訓(xùn)練樣本不足的問題,并通過相關(guān)向量機(jī)對(duì)測(cè)試語(yǔ)音進(jìn)行分類決策。實(shí)驗(yàn)結(jié)果表明,該算法在進(jìn)行文本相關(guān)的說話人識(shí)別時(shí),識(shí)別效果優(yōu)于GMM-UBM算法和GMM-SVM算法,具有較好的應(yīng)用價(jià)值。