文思進(jìn),高 勇
(四川大學(xué) 電子信息學(xué)院,四川 成都 610065)
在實(shí)際應(yīng)用中,說(shuō)話人確認(rèn)系統(tǒng)會(huì)因?yàn)椴杉O(shè)備干擾、環(huán)境噪聲以及說(shuō)話人情緒影響等造成性能急劇下降。特征提取是說(shuō)話人確認(rèn)系統(tǒng)中的關(guān)鍵步驟,合適的聲紋特征能有效地提升系統(tǒng)性能。
梅爾倒譜系數(shù)[1](MFCC)和基于Gammatone濾波器提取的GFCC特征參數(shù)[2-3]是目前說(shuō)話人確認(rèn)中最常見(jiàn)的魯棒性特征參數(shù)。上述2種參數(shù)已部分考慮人耳的聽(tīng)覺(jué)感知特性,在無(wú)噪聲污染環(huán)境下表現(xiàn)良好,但在低信噪比情況下性能嚴(yán)重下降。為解決該問(wèn)題,考慮利用能較好地模擬人耳聽(tīng)覺(jué)特性的Gammachirp濾波器[4]進(jìn)行特征提取。近年來(lái),Ben Abdallah[5],M Bouchamekh[6]等將Gammachirp濾波器應(yīng)用于說(shuō)話人辨認(rèn)系統(tǒng),取得了良好的識(shí)別效果。但鮮有利用該濾波器提取聽(tīng)覺(jué)特征參數(shù)并運(yùn)用到說(shuō)話人確認(rèn)系統(tǒng)中的研究。
本文通過(guò)Gammachirp濾波器組提取出一種魯棒性聽(tīng)覺(jué)特征參數(shù)GCFC,對(duì)其噪聲魯棒性進(jìn)行了分析;研究了不同噪聲環(huán)境下GCFC的系統(tǒng)確認(rèn)性能。實(shí)驗(yàn)表明,與單純的MFCC及GFCC特征參數(shù)相比,在低信噪比條件下,GCFC聽(tīng)覺(jué)特征參數(shù)更具噪聲魯棒性和適應(yīng)性,使得確認(rèn)系統(tǒng)準(zhǔn)確率有明顯的改善。
本文采用基于GMM-UBM[7]的說(shuō)話人確認(rèn)系統(tǒng),主要由3部分組成:通用背景模型(UBM)訓(xùn)練、說(shuō)話人模型自適應(yīng)以及說(shuō)話人確認(rèn)測(cè)試。
通用背景模型訓(xùn)練:按照一定的男女比例選取大量非目標(biāo)說(shuō)話人的純凈語(yǔ)音,進(jìn)行聲紋特征提取后利用最大期望算法(EM)進(jìn)行迭代訓(xùn)練,最后得到UBM模型。UBM模型本質(zhì)上為高斯混合模型,由目標(biāo)說(shuō)話人以外的大量說(shuō)話人組合并訓(xùn)練而成,代表了與目標(biāo)說(shuō)話人無(wú)關(guān)的特征分布。
說(shuō)話人模型自適應(yīng):將提取特征后的目標(biāo)說(shuō)話人訓(xùn)練語(yǔ)音在UBM模型上自適應(yīng)使用最大后驗(yàn)準(zhǔn)則(MAP)來(lái)得到目標(biāo)說(shuō)話人模型,即得到目標(biāo)說(shuō)話人的語(yǔ)音特征分布。
說(shuō)話人確認(rèn)測(cè)試:將每個(gè)說(shuō)話人的對(duì)數(shù)似然比得分經(jīng)過(guò)評(píng)分規(guī)整之后,和閾值進(jìn)行比較,并進(jìn)行判決。如果得分大于閾值,則判決測(cè)試語(yǔ)音為真實(shí)說(shuō)話人,小于閾值則判決為冒充說(shuō)話人。
美國(guó)國(guó)家標(biāo)準(zhǔn)及技術(shù)署(National Institute of Standard and Technology,NIST)在說(shuō)話人確認(rèn)測(cè)評(píng)中采用檢測(cè)錯(cuò)誤權(quán)衡(Detection Error Tradeoff,DET)曲線表示確認(rèn)系統(tǒng)錯(cuò)誤接受率(False Acceptance Rate,F(xiàn)AR)和錯(cuò)誤拒絕率(False Rejection Rate,F(xiàn)RR)之間的權(quán)衡關(guān)系[8],并以此來(lái)評(píng)價(jià)說(shuō)話人確認(rèn)系統(tǒng)的性能,反映系統(tǒng)整體識(shí)別能力。這是因?yàn)檎f(shuō)話人確認(rèn)中存在2類識(shí)別錯(cuò)誤:冒充人被接受的錯(cuò)誤和真實(shí)說(shuō)話人被拒絕的錯(cuò)誤,分別用FAR和FRR表示。二者定義如下:
(1)
(2)
此外,等錯(cuò)誤率(Equal Error Rate,EER)和檢測(cè)代價(jià)函數(shù)(Detection Cost Function,DCF)也是衡量說(shuō)話人確認(rèn)系統(tǒng)的重要指標(biāo)。其中,EER指FAR與FRR相等時(shí)所對(duì)應(yīng)的錯(cuò)誤概率。DCF指在固定判決門限前提下系統(tǒng)的檢測(cè)代價(jià),表達(dá)式定義如下:
DCF=CFAPnonFAR+CFRPtarFRR,
(3)
式中,CFA和CFR分別代表錯(cuò)誤接受和錯(cuò)誤拒絕的代價(jià)因子;Pnon和Ptar分別代表冒充說(shuō)話人和真實(shí)說(shuō)話人的先驗(yàn)概率。在NIST測(cè)評(píng)中,代價(jià)因子和先驗(yàn)概率是固定的:CFA=1,CFR=10,Ptar=0.01,Pnon=1-Ptar。由式(3)可知,通過(guò)改變判決門限可使檢測(cè)代價(jià)函數(shù)達(dá)到最小,此時(shí)形成了最小檢測(cè)代價(jià)(MinDCF)。MinDCF是NIST說(shuō)話人確認(rèn)測(cè)評(píng)中最常用的評(píng)價(jià)指標(biāo)之一。
Gammachirp濾波器屬于非線性濾波器的一種,在擬合人耳聽(tīng)覺(jué)特性上效果明顯,被看作是Gammatone濾波器的推廣和改進(jìn)。Gammachirp濾波器引入了耳蝸濾波器的非對(duì)稱性和強(qiáng)度依賴性特性,可以很好地模擬人耳耳蝸的頻率選擇性,其時(shí)域脈沖響應(yīng)表達(dá)式為[9]:
gc(t)=atn-1exp(-2πbERB(fr)t)·
exp(j2πfrt+jclnt+jcfφ)),t>0,
(4)
式中,a為振幅;φ為初始相位;n,b為描述gamma函數(shù)分布包絡(luò)的參數(shù),通常n取4,b取1.109;c為啁啾因子(Chirp Factor),會(huì)隨聲壓變化而變化;fr為漸近頻率;ERB(fr)代表中心頻率為fr的等效矩形帶寬(ERB)的值,可由式(5)得到:
ERB(fr)=24.7+0.108fr。
(5)
Gmmachirp函數(shù)的傅里葉變換推導(dǎo)如下:
(6)
(7)
(8)
Gc(f)=GT(f)·HA(f)。
(9)
因此,Gammachirp函數(shù)的幅度譜可表示為[10]:
(10)
式中,|HA(f)|=ecθ(f),當(dāng)啁啾因子c=0時(shí),|HA(f)|為單位階躍函數(shù),此時(shí)Gammachirp函數(shù)退化為Gammatone函數(shù);當(dāng)c>0時(shí),|HA(f)|表現(xiàn)為高通濾波器;而當(dāng)c<0時(shí),|HA(f)|表現(xiàn)為低通濾波器。
文獻(xiàn)[11]指出,Gammachirp濾波器組由Gammatone濾波器組、低通非對(duì)稱補(bǔ)償濾波器組以及高通非對(duì)稱補(bǔ)償濾波器組級(jí)聯(lián)而成,基本結(jié)構(gòu)如圖1所示。其中,能夠進(jìn)行聲壓估計(jì)的參數(shù)控制器控制了高通非對(duì)稱補(bǔ)償濾波器組的輸出。結(jié)合式(10)可知,Gammachirp濾波器可看作由Gammatone濾波器|GT(f)|與非對(duì)稱函數(shù)|HA(f)|共同作用產(chǎn)生。圖1中2個(gè)級(jí)聯(lián)的非對(duì)稱濾波器組則共同實(shí)現(xiàn)了非對(duì)稱函數(shù)|HA(f)|的功能。|HA(f)|即為ecθ(f),受啁啾因子c的影響。啁啾因子c與聲壓級(jí)Ps呈線性關(guān)系,具體如式(11)所示。通過(guò)Ps實(shí)時(shí)調(diào)整c值可實(shí)現(xiàn)Gammachirp濾波器組對(duì)信號(hào)的強(qiáng)度依賴性[12]。
c=3.38+0.107Ps。
(11)
圖1 Gammachirp濾波器組基本結(jié)構(gòu)
本文采用24個(gè)通道數(shù)的Gammachirp濾波器組擬合人耳聽(tīng)覺(jué)特點(diǎn),提取了基于Gammachirp濾波器的魯棒聽(tīng)覺(jué)特征參數(shù),特征參數(shù)記為GCFC。提取流程如圖2所示。
圖2 GCFC特征參數(shù)提取流程
圖2中,輸入語(yǔ)音信號(hào)經(jīng)過(guò)預(yù)加重、分幀、加窗以及端點(diǎn)檢測(cè)等預(yù)處理后,進(jìn)行快速傅里葉變換(FFT),將Gammachirp濾波器組的頻率響應(yīng)進(jìn)行等響度變換[13]后,再利用Gammachirp濾波器組對(duì)信號(hào)進(jìn)行子帶濾波,然后對(duì)每個(gè)濾波器的輸出做對(duì)數(shù)非線性壓縮,經(jīng)過(guò)相對(duì)譜濾波(RASTA)[14]和離散余弦變換(DCT),最后再經(jīng)過(guò)半升正弦函數(shù)倒譜提升以及倒譜均值減-倒譜方差歸一化(CMS-CVN)[15]處理,得到基于Gammachirp濾波器的GCFC聽(tīng)覺(jué)特征參數(shù)。
在特征參數(shù)GCFC的提取過(guò)程中,對(duì)Gammachirp濾波器的頻率響應(yīng)進(jìn)行等響度變換可模擬人耳對(duì)不同頻率所感受到的響度。對(duì)聽(tīng)覺(jué)特點(diǎn)的研究表明,耳蝸具有非線性特點(diǎn),反映了人耳在接收帶噪信號(hào)時(shí)的處理機(jī)制。非線性壓縮基于人耳的強(qiáng)度感知性,使得聽(tīng)覺(jué)模型能在最大限度上擬合人耳的強(qiáng)度感知性。因此,對(duì)每個(gè)濾波器的輸出做對(duì)數(shù)壓縮,以此來(lái)擬合人耳聽(tīng)覺(jué)模型處理語(yǔ)音信號(hào)的非線性特性;此外,為削弱傳輸信道對(duì)語(yǔ)音信號(hào)的影響,補(bǔ)償信道卷積噪聲在倒譜域產(chǎn)生的偏差,提高聽(tīng)覺(jué)特征參數(shù)的穩(wěn)健性,對(duì)信號(hào)進(jìn)行了RASTA濾波和CMS-CVN處理。
實(shí)驗(yàn)數(shù)據(jù)選自CCB數(shù)據(jù)庫(kù)中電話信道下的純凈語(yǔ)音,語(yǔ)音采樣率為8 kHz,16 bit,單聲道錄音。從中選取男女各60人,共計(jì)120人訓(xùn)練UBM模型。另外選取男女各20人,共計(jì)40人訓(xùn)練每個(gè)目標(biāo)說(shuō)話人的GMM模型,每人訓(xùn)練語(yǔ)音長(zhǎng)度為34 s,再取每人與文本無(wú)關(guān)的5條5 s語(yǔ)音進(jìn)行說(shuō)話人確認(rèn)測(cè)試。噪聲數(shù)據(jù)取自NOISEX-92噪聲數(shù)據(jù)庫(kù)[16],所有帶噪語(yǔ)音均在原有語(yǔ)音信號(hào)上疊加一定信噪比噪聲得到。
本文在仿真實(shí)驗(yàn)中對(duì)輸入系統(tǒng)的語(yǔ)音信號(hào)進(jìn)行了預(yù)加重,預(yù)加重系數(shù)為0.97,以幀長(zhǎng)256個(gè)采樣點(diǎn)進(jìn)行分幀,使用漢明窗進(jìn)行加窗處理。每幀語(yǔ)音提取48維GCFC參數(shù),并對(duì)系統(tǒng)最后得分采用測(cè)試規(guī)整(Test Norrmalization,Tnorm)[17]的評(píng)分規(guī)整方式。實(shí)驗(yàn)仿真系統(tǒng)基于GMM-UBM模型,模型混合數(shù)為512,目標(biāo)說(shuō)話人的高斯混合數(shù)與UBM相同。
實(shí)驗(yàn)1:為驗(yàn)證本文所提取的聽(tīng)覺(jué)特征參數(shù)GCFC在無(wú)噪聲污染條件下對(duì)說(shuō)話人確認(rèn)系統(tǒng)的有效性,采用40人(男女比例1∶1)的純凈語(yǔ)音進(jìn)行實(shí)驗(yàn)。分別使用24個(gè)通道數(shù)的Mel濾波器組、Gammatone濾波器組和Gammachirp濾波器組提取聽(tīng)覺(jué)特征參數(shù)MFCC、GFCC,GCFC,特征參數(shù)維度均為48維。實(shí)驗(yàn)結(jié)果如表1所列。
表1 無(wú)噪環(huán)境下不同特征參數(shù)的系統(tǒng)EER和MinDCF
噪聲類型特征參數(shù)EERMinDCFMFCC0.071 90.060 6cleanGFCC0.068 80.056 7GCFC0.065 00.054 9
從表1可知,在無(wú)噪聲條件下的說(shuō)話人確認(rèn)中,GCFC特征參數(shù)的系統(tǒng)確認(rèn)性能表現(xiàn)最好,EER和MinDCF均低于其余特征參數(shù)。與MFCC特征參數(shù)相比,EER降低了9.6%,計(jì)算過(guò)程如式(12)所示,MinDCF降低了9.4%;與GFCC特征參數(shù)相比,EER與MinDCF分別降低了5.5%和3.2%。由此可看出,純凈語(yǔ)音條件下,GCFC聽(tīng)覺(jué)特征參數(shù)在說(shuō)話人確認(rèn)系統(tǒng)中的應(yīng)用是可行有效的,可以滿足實(shí)際應(yīng)用場(chǎng)景的要求。
(12)
實(shí)驗(yàn)2:為測(cè)試噪聲環(huán)境下本文所提取的聽(tīng)覺(jué)特征參數(shù)GCFC在說(shuō)話人確認(rèn)系統(tǒng)中的抗噪能力,將實(shí)驗(yàn)1中提取的MFCC,GFCC,GCFC3個(gè)特征參數(shù)在同等噪聲條件下進(jìn)行實(shí)驗(yàn)。噪聲類型包括粉紅噪聲(Pink Noise)、白噪聲(White Noise)及f16座艙噪聲(f16 Cockpit Noise)。含噪語(yǔ)音的信噪比(SNR)為-10 dB,其余實(shí)驗(yàn)條件同實(shí)驗(yàn)1。實(shí)驗(yàn)結(jié)果如圖3~圖5以及表2所示。
圖3 pink噪聲(-10 dB)下的DET曲線
圖4 white噪聲(-10 dB)下的DET曲線
圖5 f16噪聲(-10 dB)下的DET曲線
表2 噪聲環(huán)境下(-10 dB)不同特征參數(shù)的系統(tǒng)EER和MinDCF
噪聲類型特征參數(shù)EERMinDCFMFCC0.425 90.410 5pink噪聲GFCC0.425 00.406 8GCFC0.267 50.265 8MFCC0.40490.3896white噪聲GFCC0.392 50.372 9GCFC0.375 50.362 4MFCC0.426 50.415 5f16噪聲GFCC0.436 20.422 8GCFC0.275 60.268 2
從圖3~圖5可知,特征參數(shù)GCFC的檢測(cè)錯(cuò)誤權(quán)衡(DET)曲線整體比特征參數(shù)MFCC和GFCC更優(yōu),錯(cuò)誤接受率(FAR)和錯(cuò)誤拒絕率(FRR)均更低、更接近坐標(biāo)軸,說(shuō)明系統(tǒng)的確認(rèn)性能更好。
從表2可知,與MFCC和GFCC兩種特征參數(shù)相比,本文提取的GCFC特征參數(shù)在不同噪聲環(huán)境下的EER和MinDCF均更低。在pink,white,f16三種噪聲環(huán)境下,GCFC特征參數(shù)的平均EER為0.306 2,平均MinDCF為0.298 8。與MFCC及GFCC兩種特征參數(shù)相比,平均EER分別降低了26.9%和26.7%;平均MinDCF分別降低了26.2%和25.4%。結(jié)果說(shuō)明基于Gammachirp濾波器提取的GCFC參數(shù)增強(qiáng)了噪聲環(huán)境下,尤其是低信噪比情況下說(shuō)話人確認(rèn)系統(tǒng)的魯棒性,能夠有效提高系統(tǒng)確認(rèn)準(zhǔn)確率。
Gammachirp濾波器在模擬人耳耳蝸基底膜特性方面表現(xiàn)良好,因此,本文將Gammachirp濾波器用于說(shuō)話人確認(rèn)系統(tǒng)的特征提取中,并在提取過(guò)程中應(yīng)用了等響度變換、RASTA濾波和倒譜均值減-倒譜均值歸一化(CMS-CVN)等技術(shù),得到GCFC聽(tīng)覺(jué)特征參數(shù)。本文先在無(wú)噪聲污染條件下進(jìn)行GCFC參數(shù)的有效性實(shí)驗(yàn),然后在不同噪聲的低信噪比環(huán)境下進(jìn)行GCFC參數(shù)的魯棒性實(shí)驗(yàn),并與MFCC和GFCC特征參數(shù)進(jìn)行了對(duì)比。實(shí)驗(yàn)結(jié)果表明,以GCFC參數(shù)為說(shuō)話人聽(tīng)覺(jué)特征的說(shuō)話人確認(rèn)系統(tǒng)整體性能更好,噪聲魯棒性更強(qiáng),在低信噪比環(huán)境下系統(tǒng)確認(rèn)準(zhǔn)確率更高,同時(shí)對(duì)于不同的噪聲環(huán)境也更具適應(yīng)性。