亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

GMM-UBM和SVM在說話人識別中的應(yīng)用①

2018-02-07 02:42:00趙云敏

計(jì)算機(jī)系統(tǒng)應(yīng)用 2018年1期

李薈,趙云敏

1(東北石油大學(xué) 計(jì)算機(jī)與信息技術(shù)學(xué)院,大慶 163318)2(大慶油田第一采油廠,大慶 163318)

1 引言

說話人識別是一項(xiàng)根據(jù)說話人的語音參數(shù)來區(qū)分說話人身份的技術(shù),廣泛地應(yīng)用于語音撥號、安全控制、電話銀行、司法鑒定、語音導(dǎo)航等方面[1].但在實(shí)際應(yīng)用中,系統(tǒng)的識別性能受到短語音、背景噪聲干擾、信號引起的信號畸變等多種因素的影響,其中短語音導(dǎo)致的訓(xùn)練數(shù)據(jù)不足是較為常見且較為突出的問題.GMM-UBM模型能夠有效地解決訓(xùn)練數(shù)據(jù)不充分的問題,但它導(dǎo)致的問題是系統(tǒng)魯棒性差,SVM利用幀特征向量在空間分布的高斯混合的均值進(jìn)行識別,能顯著提高系統(tǒng)的魯棒性能,而且SVM還能有效地解決小樣本、低維線性不可分等實(shí)際問題.但應(yīng)用SVM對說話人進(jìn)行識別,重點(diǎn)就是選擇合適的核函數(shù),為了提高性能,這里根據(jù)單核核函數(shù)的特性不同構(gòu)造了一種組合核函數(shù).因此,本文選用GMM-UBM為基線系統(tǒng)模型,在此基礎(chǔ)上應(yīng)用SVM組合核函數(shù)作為分類器進(jìn)行分類.

2 GMM-UBM基線系統(tǒng)模型

高斯混合模型(GMM)利用多個(gè)高斯分布的加權(quán)混合來描繪說話人的特征空間分布[2],因此,混合度越高,識別性能越好,當(dāng)然所需的訓(xùn)練語音也會(huì)越多.但在很多實(shí)際應(yīng)用中,有些訓(xùn)練語音比較短,這些有限的訓(xùn)練語音無法很好地代表說話人所有可能的發(fā)音情況,因此,訓(xùn)練得到的模型也無法很好地表征說話人的特征,這種情況使GMM識別的性能較差.

GMM-UBM模型能夠有效地解決GMM由于訓(xùn)練語音不足導(dǎo)致的問題.通用背景模型(UBM)是一個(gè)高階的GMM,通常能夠達(dá)到1024～4096個(gè)混合度.它由數(shù)百人、性別比例均衡、長時(shí)間的語音訓(xùn)練得到的模型,使得UBM基本包括了所有說話人的特征參數(shù).這樣,短的語音未覆蓋到的發(fā)音部分就可以用UBM中與說話人無關(guān)的特征分布近似描述,降低訓(xùn)練語音短帶來的影響,繼而提高系統(tǒng)識別性能.但GMM-UBM在說話人應(yīng)用中存在受信道影響較大的問題,使系統(tǒng)的魯棒性較差[3],鑒于此,這里用GMM-UBM為基線系統(tǒng)模型.

3 SVM

3.1 SVM原理

SVM是由Vapnik等人提出的基于統(tǒng)計(jì)學(xué)習(xí)理論和結(jié)構(gòu)風(fēng)險(xiǎn)最小化原理的一種分類算法[4].基本思想是將低維空間無法線性可分樣本映射到高維特征空間,并構(gòu)建一個(gè)最優(yōu)分類面以達(dá)到使兩類樣本正確分開,且類間間隔最大的結(jié)果.

其中x、w、b和分別表示輸入向量、權(quán)重系數(shù)、偏移量和特征映射.這樣可將式(1)表示成求解以下問題:

其中C和分別是懲罰因子和松弛變量.將以上問題應(yīng)用Lagrange轉(zhuǎn)化為對偶問題:

解式(4),其中大于零的解所對應(yīng)的樣本xi就稱為支持向量.在實(shí)際問題中,低維空間的向量集總是難以線性劃分,而通常的解決辦法就是將低維空間的向量集映射到高維空間以線性劃分,但導(dǎo)致的最大問題就是計(jì)算復(fù)雜度大大增加,引入核函數(shù)可以有效地解決這個(gè)問題.相應(yīng)的判別函數(shù)為:

3.2 SVM核函數(shù)

常見的核函數(shù)有:

① 線性內(nèi)積(Linear)核函數(shù):

② 高斯徑向基(Gaussian)核函數(shù):

③ 多項(xiàng)式(Polynomial)核函數(shù):

其中d是Polynomial核函數(shù)的冪指數(shù),C是一個(gè)常數(shù),實(shí)際應(yīng)用中一般令C=1[5].

④ 兩層神經(jīng)網(wǎng)絡(luò)(Sigmoid)核函數(shù):

其中v和分別是Sigmoid核函數(shù)的一個(gè)標(biāo)量及其位移參數(shù),Sigmoid核函數(shù)在實(shí)際應(yīng)用中并不多見,這里也不予考慮.

3.3 SVM核函數(shù)的特性

根據(jù)SVM核函數(shù)特性的不同,可分為局部性核函數(shù)和全局性核函數(shù).點(diǎn)為0.2時(shí),Gaussian核函數(shù)值在測試點(diǎn)0.2附近較大,離測試點(diǎn)較遠(yuǎn)時(shí),值會(huì)顯著下降,因此Gaussian核函數(shù)插值能力較強(qiáng),但泛化能力較差.

圖1 Gaussian核函數(shù)特征曲線圖

根據(jù)公式(8),當(dāng)測試點(diǎn)取0.2,可得圖2.可以看出,Polynomial核函數(shù)對測試點(diǎn)附近以及較遠(yuǎn)的數(shù)據(jù)都有影響,且相差不大,可見全局核函數(shù)具有較強(qiáng)的泛化能力,但局部學(xué)習(xí)能力較弱.

圖2 Polynomial核函數(shù)特征曲線圖

3.4 組合核函數(shù)的構(gòu)建

選擇的核函數(shù)是否合適直接影響著SVM的識別性能,鑒于Gaussian核函數(shù)較強(qiáng)的局部學(xué)習(xí)能力和Polynomial核函數(shù)較強(qiáng)的全局泛化能力,可將兩種核函數(shù)進(jìn)行線性組合,使其充分發(fā)揮各自單核的優(yōu)點(diǎn).

由核函數(shù)的構(gòu)成條件可知,兩個(gè)核函數(shù)的線性加權(quán),仍然滿足Mercer條件,組合后的核函數(shù)如公式(10)所示.

圖3 組合核函數(shù)特征曲線圖

3.5 SVM參數(shù)優(yōu)化方法

SVM核函數(shù)的參數(shù)優(yōu)化方法主要有網(wǎng)格搜索法、交叉驗(yàn)證法和蟻群算法、遺傳算法等智能算法.與其它算法相比,網(wǎng)格搜索法能實(shí)現(xiàn)并行操作,因此效率較高,但缺點(diǎn)是精度不高[6],多重網(wǎng)格搜索可以在一定程度上提高參數(shù)精度.鑒于組合核函數(shù)中參數(shù)較多,綜合考慮參數(shù)的精度與效率,這里選取多重網(wǎng)格搜索來優(yōu)化參數(shù).

網(wǎng)格搜索法的主要思路是先確定搜索范圍和步長,再按照確定的步長沿每個(gè)參數(shù)方向生成網(wǎng)格,得到的網(wǎng)格中的節(jié)點(diǎn)即構(gòu)成可能的參數(shù)組合.在上次網(wǎng)格尋優(yōu)最優(yōu)點(diǎn)的基礎(chǔ)上,減小搜索步長,并再次尋優(yōu),就是多重網(wǎng)格搜索.如要確定參數(shù)C與d,首先設(shè)定參數(shù)C的范圍為搜法步長為,參數(shù)d的范圍為搜法步長為,然后針對每對參數(shù)進(jìn)行訓(xùn)練.多重網(wǎng)格搜索法是完成一次網(wǎng)格搜索后得到一組最優(yōu)的參數(shù)組合附近一定范圍內(nèi)實(shí)現(xiàn)更為細(xì)致的一次網(wǎng)格搜索,以提高參數(shù)優(yōu)化的精度.

4 GMM-UBM和SVM組合核函數(shù)的說話人識別過程

圖4為運(yùn)用UBM-SVM組合核函數(shù)進(jìn)行說話人識別的框架圖,基于UBM的SVM組合核函數(shù)的識別過程從整體上包括訓(xùn)練和測試兩個(gè)階段.如圖4所示,一是訓(xùn)練階段,輸入訓(xùn)練語音信號,這些信號經(jīng)過預(yù)處理后形成信號幀,經(jīng)過特征提取后形成幀特征向量,它們是以GMM-UBM作為基線模型經(jīng)過參數(shù)自適應(yīng)后形成的定長超向量,這些超向量可以直接作為SVM組合核函數(shù)分類器的輸入,在此基礎(chǔ)上并進(jìn)行參數(shù)優(yōu)化,根據(jù)優(yōu)化后的特征參數(shù)就可以建立訓(xùn)練樣本模式庫.二是測試階段,輸入的測試語音信號同樣經(jīng)過預(yù)處理、特征提取、GMM-UBM為基線模型進(jìn)行自適應(yīng)、SVM組合核函數(shù)分類幾個(gè)過程,將得到的特征參數(shù)與訓(xùn)練過程得到的樣本模式庫里的所有參考模型進(jìn)行匹配,即可輸出判決結(jié)果.

圖4 基于GMM-UBM和SVM組合核函數(shù)的說話人模型識別

5 實(shí)驗(yàn)結(jié)果及分析

5.1 數(shù)據(jù)來源

本實(shí)驗(yàn)采用自建語音庫,正常情況下,選取400個(gè)說話人(200男200女)進(jìn)行錄音,時(shí)間為5-6分鐘/人.訓(xùn)練語音選取每個(gè)說話人錄音的前4分鐘,從400人中隨即選擇20人的后50 s作為測試語音,使訓(xùn)練語音與測試語音之間不重疊.對所得數(shù)據(jù)進(jìn)行處理,預(yù)加重系數(shù)為0.97,分析窗選用寬度為32 ms的漢明窗,幀長為25 ms,步長為10 ms,選取16維的MFCC系數(shù)以及其16維一階差分.自適應(yīng)方法選為EigenVoice,維數(shù)取為10,段間隔為5 s,這里自適應(yīng)時(shí)長取10 s.

5.2 性能評價(jià)指標(biāo)

識別率(正確識別率)是系統(tǒng)識別性能最為直觀的評價(jià)指標(biāo),但對于一個(gè)實(shí)際說話系統(tǒng)來說,錯(cuò)誤拒絕率FRR和錯(cuò)誤接受率FAR也是兩個(gè)重要的性能評價(jià)指標(biāo).

但以上兩個(gè)指標(biāo)互相矛盾,因此,綜合考慮兩個(gè)指標(biāo),一般采用二者相等時(shí)的錯(cuò)誤率作為衡量標(biāo)準(zhǔn),稱為等錯(cuò)誤率EER.這個(gè)值在一定程度上能夠反映系統(tǒng)的魯棒性.

因此本實(shí)驗(yàn)采用識別率和等錯(cuò)誤率兩個(gè)指標(biāo)作為評價(jià)模型分類性能的標(biāo)準(zhǔn),綜合評價(jià)系統(tǒng)識別的準(zhǔn)確率與魯棒性.

5.3 參數(shù)確定

5.4 實(shí)驗(yàn)結(jié)果及其分析

實(shí)驗(yàn)一.在混合度不同情況下,比較GMM與GMM-UBM基線系統(tǒng)的識別性能,實(shí)驗(yàn)結(jié)果見表1.

表1 不同混合度情況下GMM與GMM-UBM識別性能對比

實(shí)驗(yàn)結(jié)果表明,隨著混合度的增加,GMM與GMM-UBM的識別率與EER都有所改善.通常情況下GMM-UBM混合度都比較高,即使同為256和512的情況下,GMM-UBM的識別率也分別高于GMM 3.5%和4.7%,但GMM-UBM的EER不低,即使隨著混合度增加EER會(huì)下降,但系統(tǒng)復(fù)雜性會(huì)增加.

實(shí)驗(yàn)二.綜合考慮系統(tǒng)復(fù)雜性與識別性能要求,選取GMM-UBM混合數(shù)為1024,比較SVM選取不同核函數(shù)的識別性能.

由表2可知,引入SVM核函數(shù)后,Gaussian核、Polynomial核和組合核的識別性能都優(yōu)于GMM-UBM不引入SVM的基線系統(tǒng)模型.可見,引入SVM核函數(shù)不僅能提高系統(tǒng)的魯棒性,同時(shí)也能提高系統(tǒng)的識別率.另外,在以上核函數(shù)中,組合核函數(shù)的識別性能最好,它的識別率分別優(yōu)于Linear核、Gaussian核和Polynomial核10.6%、7.3%和5.4%,EER也優(yōu)于其它三個(gè)單核.

表2 不同SVM核函數(shù)識別性能對比

實(shí)驗(yàn)三.GMM-UBM混合數(shù)為1024,人工添加白噪聲,得到信噪比不同的語音,比較不同核函數(shù)的識別性能實(shí)驗(yàn)結(jié)果見圖5和圖6.

圖5 基于不同信噪比不同核SVM識別率對比

圖6 基于不同信噪比不同核SVM的EER對比

由圖5和圖6可知,所有SVM核函數(shù)的識別性能都隨著信噪比的減小而降低.但對于給定的某一信噪比來說,組合核函數(shù)的識別率要高其它核函數(shù),EER要低于其它核函數(shù),說明基于GMM-UBM基線系統(tǒng)的SVM組合核函數(shù)能夠提高系統(tǒng)的識別率與魯棒性.

實(shí)驗(yàn)四.假定20個(gè)說話人,選擇不同的高斯混合數(shù),比較SVM選取不同的核函數(shù)的訓(xùn)練時(shí)長.具體數(shù)據(jù)見表3.

表3 不同高斯混合數(shù)下,不同SVM核函數(shù)訓(xùn)練時(shí)間比較

由表3可知,在不同的高斯混合數(shù)情況下,組合核函數(shù)的運(yùn)行時(shí)間比Linear核平均多21%,比Gaussian核平均多10%,比Polynomial核平均多9%.因?yàn)榻M合核參數(shù)最多,其次是Gaussian核和Polynomial核,Linear核參數(shù)最少,運(yùn)行時(shí)間與參數(shù)基本成正比.組合核SVM的參數(shù)雖比Gaussian核和Polynomial核多,但運(yùn)行時(shí)間就多了10% 左右,主要原因有:一是參數(shù)優(yōu)化采用的是多重網(wǎng)格搜索法,這種方法的最大優(yōu)勢是可以同時(shí)搜索多個(gè)參數(shù),在一定程度上能減少參數(shù)搜索的時(shí)間.二是經(jīng)過自適應(yīng)后的超向量可以直接作為SVM的輸入,這樣可以實(shí)現(xiàn)整體語音序列上進(jìn)行分類,因此能夠降低運(yùn)算復(fù)雜度.綜合考慮識別率、等錯(cuò)誤率及運(yùn)行時(shí)間,組合核SVM是較理想的選擇.

6 結(jié)語

針對訓(xùn)練數(shù)據(jù)不充分問題,選取GMM-UBM為基準(zhǔn)系統(tǒng)模型,并應(yīng)用SVM對其參數(shù)進(jìn)行優(yōu)化,本文基于單核函數(shù)的特性,構(gòu)建具有良好的泛化能力與良好的學(xué)習(xí)能力的組合核函數(shù).在說話人識別的仿真實(shí)驗(yàn)中,組合核函數(shù)表現(xiàn)出明顯優(yōu)于其它單核SVM的良好性能.而且在信噪比不同、高斯混合數(shù)不同的情況下,表現(xiàn)依舊不俗.但由于組合核函數(shù)引入過多的參數(shù),增加了模型復(fù)雜度及系統(tǒng)運(yùn)算時(shí)間.模型參數(shù)自適應(yīng)方法能夠在一定程度上解決這個(gè)問題,在模型參數(shù)自適應(yīng)方法中基于特征音EV模型的變換方法由于能用少量的訓(xùn)練數(shù)據(jù)快速的調(diào)整模型以實(shí)現(xiàn)自適應(yīng)得到廣泛的應(yīng)用,在此基礎(chǔ)上再采用SVM組合核函數(shù)訓(xùn)練方法來彌補(bǔ)模型參數(shù)自適應(yīng)方法的局限性,能夠彌補(bǔ)參數(shù)設(shè)置過多的問題,但如何在保障識別正確率與系統(tǒng)魯棒性的基礎(chǔ)上減少參數(shù)設(shè)置依然是需要進(jìn)一步研究的問題.

1 王韻琪.自適應(yīng)高斯混合模型及說話人識別應(yīng)用.計(jì)算機(jī)系統(tǒng)應(yīng)用,2015,24(6):143–147.

2 翟玉杰.基于GMM-SVM說話人識別的信道算法研究[碩士學(xué)位論文].長春:吉林大學(xué),2015.

3 鮑煥軍,鄭方.GMM-UBM和SVM說話人辨認(rèn)系統(tǒng)及融合的分析.清華大學(xué)學(xué)報(bào)(自然科學(xué)版),2008,48(S1):693–698.

4 呂洪艷,劉芳.組合核函數(shù)SVM在說話人識別中的應(yīng)用.計(jì)算機(jī)系統(tǒng)應(yīng)用,2016,25(5):168–172.

5 栗志意,張衛(wèi)強(qiáng),何亮,等.基于核函數(shù)的IVEC-SVM說話人識別系統(tǒng)研究.自動(dòng)化學(xué)報(bào),2014,40(4):780–784.

6 劉群鋒.最優(yōu)化問題的幾種網(wǎng)格型算法[博士學(xué)位論文].長沙:湖南大學(xué),2011.