摘 要: 為了進(jìn)一步提升i?vector說話人識別模型的系統(tǒng)性能,探討了基于i?vector的說話人識別系統(tǒng)中訓(xùn)練時長、男女比例和高斯混合度對系統(tǒng)識別性能的影響。針對訓(xùn)練時長、男女比例和高斯混合度設(shè)置了一組實驗,結(jié)合目前最流行的語音識別工具Kaldi進(jìn)行驗證,得出i?vector說話人識別算法的最佳參數(shù),為以后的基于i?vector說話人識別算法研究提供數(shù)據(jù)依據(jù)。
關(guān)鍵詞: 說話人識別; i?vector; Kaldi; 訓(xùn)練時長
中圖分類號: TN911?34; TP391 文獻(xiàn)標(biāo)識碼: A 文章編號: 1004?373X(2016)14?0001?03
Research on training duration of speaker recognition algorithm based on i?vector
MA Ping, HUANG Hao, CHENG Luhong, YANG Mengmeng
(School of Information Science and Engineering, Xinjiang University, Urumqi 830046, China)
Abstract: In order to further enhance the system performance of speaker recognition model based on i?vector, the effect of the training time, the sex ratio and Gaussian mixture in the speaker recognition system based on i?vector on the performance of system identification is discussed in this paper. In this article, a set of experiments is set in allusion to the training time, the sex ratio and Gaussian mixture, and is verified in combination with the most popular voice recognition tool Kaldi. The best parameters of the speaker recognition algorithm based on i?vector were obtained, which provided a data basis for later research on the speaker recognition algorithm based on i?vector.
Keywords: speaker recognition; i?vector; Kaldi; training duration
0 引 言
說話人識別是指計算機(jī)通過對說話人語音信號進(jìn)行分析處理,進(jìn)而提取能反映特定說話人生理和行為的語音特征參數(shù)來自動識別說話人身份的技術(shù)。該技術(shù)已廣泛應(yīng)用于國家安全、司法鑒定、電話銀行、語音撥號等諸多領(lǐng)域。說話人識別根據(jù)識別目標(biāo)的不同,可分為說話人辨別和說話人確認(rèn)兩類,本文主要研究基于i?vector說話人辨認(rèn)模型來分析和測試語料時長、男女比例和高斯混合度之間的關(guān)系。
當(dāng)前由NIST組織的比較流行的國際說話人評測系統(tǒng),主要是建立在以混合高斯模型?通用背景模型(Gaussian Mixture Model?Universal Background Model,GMM?UBM)[1]的基礎(chǔ)上。隨后學(xué)者們在此基礎(chǔ)上進(jìn)行了改進(jìn),從而得出高斯混合模型超矢量?支持向量機(jī)(Gaussian Mixture Model Super?support Vector Machine,GSV?SVM)[2]、聯(lián)合因子分析(Joint Factor Analysis,JFA)[3]及i?vector(identity vector)[4]等說話人建模技術(shù),其中i?vector識別系統(tǒng)已成為當(dāng)今最前沿最有效的說話人識別技術(shù),其性能明顯優(yōu)于GSV?SVM和JFA這兩種識別系統(tǒng)。通過總結(jié)以往的研究成果發(fā)現(xiàn)在訓(xùn)練和提取i?vector時,對語料的時長、高斯混合度及男女比例不是太關(guān)注。但在實際的實驗中,提取i?vector特征的語料參數(shù)也非常重要,需要經(jīng)過多次測試比較,找到訓(xùn)練時長、混合度、男女比例和系統(tǒng)性能之間的關(guān)系,從而減少訓(xùn)練時間和工作量,為以后的研究提供一個基本的數(shù)據(jù)依據(jù)。
1 基于i?vector的說話人識別系統(tǒng)
1.1 i?vector基本原理
基于身份認(rèn)證矢量i?vector說話人辨別系統(tǒng)的基本思想是假設(shè)說話人信息以及信道信息同時處于高斯混合模型高維均值超矢量(Super Vector,SV)空間中,通過利用在這個超矢量空間中訓(xùn)練包括說話人信息和信道差異的全差異(Total Variability,TV)空間,將每個說話人語音數(shù)據(jù)的均值超矢量S分解為:
[S=m+Tω] (1)
式中:S代表高斯混合模型的高維均值超矢量;m代表與特定說話人信息和信道信息無關(guān)的一個超矢量;T為全差異空間,將高維的高斯混合模型均值超矢量在該子空間上進(jìn)行投影,得到低維的總體變化因子矢量[ω],[ω]是包含整段語音中的說話人信息和信道信息的一個全差異因子,即i?vector。其實現(xiàn)框圖如圖1所示。
基于GMM?UBM的說話人系統(tǒng)的通用背景模型(UBM)是由大量說話人的語料通過期望最大化(EM)[5]訓(xùn)練得到的,其代表著統(tǒng)計平均的說話人信息和信道信息,在此基礎(chǔ)上,將注冊語料通過最大后驗概率算法(MAP)[6]自適應(yīng)得到目標(biāo)說話人模型。
1.2 i?vector特征提取
對于給定的訓(xùn)練語音數(shù)據(jù)s,首先根據(jù)訓(xùn)練所得的UBM提取Baum?Welch統(tǒng)計量:
式中:[Ns[c]]和[fs[c]]為語音s特征參數(shù)(維度為D)對于混合度為C的UBM的零階和一階統(tǒng)計量;[γc(ot)]為觀察矢量[ot]對于給定UBM的第c個混合度的后驗概率的輸出;語音s所有混合度的一階統(tǒng)計量[fs=(f1s,f2s,…,f(c)s)]。為了便于計算,先對一階統(tǒng)計量和均值進(jìn)行歸一化[7]:
[fsc←fsc-Nscmc] (4)
[mc←0] (5)
然后再對一階統(tǒng)計量和全差異空間T用UBM的協(xié)方差進(jìn)行規(guī)整,假設(shè)UBM的協(xié)方差矩陣[Σ[c]]為對角正定矩陣,如下:
式中:[Σ-1/2[c]]是矩陣[Σ[c]]逆的Cholesky分解[8];T[c]為全差異空間T(維度為D×M)的子矩陣,[T=(T(1)′,T(2)′,…,T(c)′)]。根據(jù)估計出的統(tǒng)計量提取i?vector如下:
式中:[Ls]是一個M×M的矩陣;[ωs]為語音s的i?vector特征。在已知全差異空間T的前提下,就可以求出任何語音的i?vector特征,所以準(zhǔn)確估計全差異空間T是求i?vector的關(guān)鍵。
1.3 全差異空間T的構(gòu)建
全差異空間T包含了說話人信息和信道信息兩者在空間上的統(tǒng)計分布,可以通過大量的語音利用EM算法訓(xùn)練得到。首先初始化T,對s條訓(xùn)練語音數(shù)據(jù)計算以下變量:
式中:[fsc,Nsc,ωs]是由式(2)、式(3)、式(9)得到的。T的更新過程可以利用式(13)實現(xiàn):
[Tc=EcF-1c] (13)
1.4 余弦距離打分及系統(tǒng)性能評價
余弦距離打分實際上是一種對稱式的核函數(shù)分類器,也就是說目標(biāo)矢量與測試矢量交換后不影響打分結(jié)果。通過計算目標(biāo)說話人i?vector矢量[ωtar]和測試i?vector矢量[ωtst]的余弦距離分?jǐn)?shù)作為判決分?jǐn)?shù),再與閾值[θ]進(jìn)行比較,從而得到結(jié)果,如式(14)所示:
說話人識別系統(tǒng)中經(jīng)常采用識別率對系統(tǒng)性能進(jìn)行評價,其計算公式如下:
[ρ=正確識別個數(shù)總的識別數(shù)×100 %] (15)
2 實驗條件設(shè)置
本文在Linux操作系統(tǒng)服務(wù)器版Ubuntu 12.04.4下以Kaldi語音識別工具[9]為平臺進(jìn)行仿真。Kaldi作為當(dāng)前最新也是最流行的語音識別工具,它是由劍橋大學(xué)開發(fā)的一個開源工具包,由C++編寫而成且被Apache License v2.0進(jìn)行授權(quán)許可。仿真實驗采用微軟的語音庫MSRA。該語音庫包括了100個男性和100個女性說話人發(fā)聲的干凈單聲道語音,每人分別為150句,每條語音的長度大約在8~10 s,其數(shù)據(jù)采樣率為16 b/16 kHz。實驗中選男女各80人作為訓(xùn)練集,其余的男女各20人作為測試集。
本實驗的目的在于探討不同時長及混合度與i?vector識別系統(tǒng)性能之間的關(guān)系,因此在實驗中不考慮信道因素、噪聲因素對說話人識別系統(tǒng)的影響。在進(jìn)行語音特征提取時,選用預(yù)加重的系數(shù)是0.95,采用Hamming窗,幀移為10 ms,幀長為30 ms,并選用由Mermelstein和Davis提出的Mel倒譜系數(shù)(Mel Frequency Cepstrum Coefficient,MFCC)特征,MFCC特征維數(shù)為12,外加其一維能量以及一、二階差分和能量,所以MFCC的總維數(shù)為42。在進(jìn)行i?vector訓(xùn)練時,通過選擇訓(xùn)練語句的條數(shù)來設(shè)定時長,訓(xùn)練語句平均取自男女各80個說話人中,訓(xùn)練時長分別設(shè)定為1 600條,4 800條,8 000條,11 200條,14 400條,17 600條,20 800條,24 000條。為了更精確地討論高斯混合度和訓(xùn)練時長對i?vector的影響,將高斯混合度數(shù)分別設(shè)定為64,128,256,512,1 024,2 048。在此基礎(chǔ)上,實驗還設(shè)定了一組不同男女比例混合度對i?vector識別系統(tǒng)的影響,分別為女性說話人占總數(shù)的0%,20%,40%,60%,80%,100%。
3 實驗結(jié)果與分析
根據(jù)訓(xùn)練語句的多少,依次由少到多記為1~8,在測試階段,用男女各20個說話人的150條語句作為測試集進(jìn)行驗證,通過式(15)計算出不同時長和高斯混合度的識別率,實驗結(jié)果如表1所示。
從表1知,當(dāng)混合度在512維,訓(xùn)練語句在14 000左右時效果最好,因此固定時長和高斯混合度的維數(shù),通過調(diào)節(jié)男女混合比例來進(jìn)行測試,其結(jié)果見表2。
在訓(xùn)練時長和高斯混合度一定的情況下,男女混合的比例對i?vector說話人識別系統(tǒng)的性能也有較大的影響;從實驗的結(jié)果可以看出,當(dāng)女生的比例占所有總數(shù)的60%時,識別效果最優(yōu)。因此在今后的i?vector說話人識別系統(tǒng)中,要充分考慮語音數(shù)據(jù)的男女比例。
4 結(jié) 語
本文旨在通過設(shè)置不同的訓(xùn)練語音時長和高斯混合度的維數(shù)及男女比例,在基于i?vector的說話人識別系統(tǒng)上探討了三者對i?vector的影響,通過實驗發(fā)現(xiàn),高斯混合度和語音時長之間存在著對應(yīng)關(guān)系,為今后說話人識別研究提供了一個基本的數(shù)據(jù)依據(jù)。本實驗只是探討了單一信道的語音,沒有考慮信道和噪聲對系統(tǒng)的影響,在今后的說話人識別測試中,可以考慮以上兩個因素對系統(tǒng)性能的影響,討論在這兩種情況下,高斯混合度和語音時長及男女混合比例之間的關(guān)系。
注:本文通訊作者為黃浩。
參考文獻(xiàn)
[1] REYNOLDS D A, QUATIERI T F, DUNN R. Speaker verification using adapted gaussian mixture model [J]. Digital signal processing, 2000, 10(1/2/3): 19?41.
[2] CAMPBELL W M, STURIM D E, REYNOLDS D A. Support vector machines using GMM supervectors for speaker verification [J]. IEEE signal processing letters, 2006, 13(5): 308?311.
[3] KENNY P, OUELLET P, DEHAK N, et al. A study of interspeaker variability in speaker verification [J]. IEEE transactions on audio, speech and language processing, 2008, 16(5): 980?988.
[4] DEHAK N, KENNY P, OUELLET P, et al. Front?end factor analysis for speaker verification [J]. IEEE Transactions on audio, speech and language processing, 2011, 19(4): 788?798.
[5] GHAHRAMANI Z, HINTON G. The EM algorithm for mixtures of factor analyzers: CRG?TR?96?1 [R]. Toronto: Department of Computer Science, University of Toronto, 1966.
[6] GAUVAIN J L, LEE C H. Maximum a posterior estimation for multivariate Gaussian mixture observations of Markov chains [J]. IEEE transactions on speech and audio processing, 1994, 2( 2): 291?298.
(上接第3頁)
[7] GLEMBEK O, BURGET L, MAěJKA P, et al. Simplification and optimization of I?vector extraction [C]// Proceedings of IEEE International Conference on Acoustics,Speech and Signal Processing. Prague: IEEE, 2011: 4516?4519.
[8] SEEGER Matthias. Low rank updates for the cholesky decomposition [EB/OL]. [2010?12?04]. http://upseeger.epfl.ch/papers/cholupdate.pdf.
[9] POVEY D, GHOSHAL A, BOULIANNE G, et al. The Kaldi speech recognition toolkit [EB/OL]. [2013?02?03]. http: //blog.csdn.net/jiangyangbo/article/.
[10] 方昕,李輝,劉青松.利用i?vectors構(gòu)建區(qū)分性話者模型的話者確認(rèn)[J].小型微型計算機(jī)系統(tǒng),2014(3):685?688.
[11] 栗志意,張衛(wèi)強(qiáng),何亮,等.基于總體變化子空間自適應(yīng)的i?vector說話人識別系統(tǒng)研究[J].自動化學(xué)報,2014(8):1836?1840.