楊 彥 趙 力
(1. 江蘇鹽城工業(yè)職業(yè)技術學院汽車工程學院,鹽城,224005; 2. 東南大學信息科學與工程學院,南京,210096)
?
基于FVQMM的說話人識別方法*
楊 彥1趙 力2
(1. 江蘇鹽城工業(yè)職業(yè)技術學院汽車工程學院,鹽城,224005; 2. 東南大學信息科學與工程學院,南京,210096)
為了進一步提高基于高斯混合模型的與文本無關說話人識別系統(tǒng)的識別性能,本文針對高斯混合模型在建模時需要較多的訓練數(shù)據(jù)的缺陷,提出了一種新的應用于小樣本說話人識別系統(tǒng)的與文本無關說話人識別方法,該方法綜合考慮了模糊集理論、矢量量化和高斯混合模型的優(yōu)點,通過用模糊矢量量化誤差尺度取代傳統(tǒng)高斯混合模型的輸出概率函數(shù),減少了建模時對訓練數(shù)據(jù)量的要求,提高了模型精度和識別速度。同時由于模糊集理論起到了“數(shù)據(jù)整形”的作用,所以增強了目標說話人數(shù)據(jù)的相似性。實驗結果表明該方法針對小樣本數(shù)據(jù)的說話人識別系統(tǒng),識別性能優(yōu)于傳統(tǒng)的基于高斯混合模型的說話人識別系統(tǒng)。
說話人識別;模糊集理論;矢量量化;高斯混合模型
自動說話人識別(Automatic speaker recognition, ASR)很久以來就是一個既有吸引力又有相當困難的課題。說話人識別技術按其最終完成的任務可以分為兩類:自動說活人確認(Automatic speaker verification,ASV)和自動說話人辨認(Automatic speaker identification, ASI)。本質(zhì)上它們都是根據(jù)說話人所說的測試語句或關鍵詞,從中提取與說話人本人特征有關的信息,再與存儲的參考模型比較后做出正確的判斷[1]。另外,說話人識別按其被輸入的測試語音來分可以分為與文本有關的說話人識別和與文本無關的說話人識別,而與文本無關的說話人識別在今天無疑有著更廣泛的應用前景。
對于與文本無關的說話人識別,由于說話人的個性特征具有長時變動性,而且其發(fā)音常常與環(huán)境、說話人情緒和說話人健康有密切關系,并且實際過程中還可能引入背景噪聲等干擾,這些都是與文本無關說話人識別的識別率得不到進一步提高的主要因素。通常說話人識別的經(jīng)典方法是基于高斯混合模型(Gaussian mixed model, GMM)的識別方法,由于它作為統(tǒng)計模型能夠吸收由不同說話人引起的說話人個性特征的變化,可以得到較好的識別性能。但是由于GMM作為統(tǒng)計模型對模型訓練數(shù)據(jù)量有一定的依賴性,所以對于小樣本的與文本無關說話人識別系統(tǒng),要使GMM完全吸收由不同說話人引起的語音特征的變化去除話者差別非常困難,所以在實際應用中通常采用話者適應的方法使未知說話人的語音去適應已知標準說話人的語音模型。因此,近年來在說話人識別方法方面,基于高斯混合背景模型(Gaussian mixed model-universal background model, GMM-UBM)方法已成為主流的識別方法[2-3]。基于GMM超向量的支持向量機和因子分析方法[4-5]則代表GMM-UBM方法的新成果。盡管GMM-UBM方法作為目前主流的方法已得到共識,但同時一些局部的改進方法和針對不同應用的改進方法也非常有意義[6-10]。幾乎所有成功的語音信號處理方法都是基于統(tǒng)計的、概率的或信息理論的方法。其中較具代表性的方法有矢量量化法(Vector quantization, VQ)和隱馬爾可夫模型法(Hidden Markov modeling, HMM),而GMM是HMM中的一種。VQ方法是由Shore和Burton首先提出,并應用于特定人數(shù)碼識別[11],其主要優(yōu)點是無需時間規(guī)正或進行動態(tài)時間伸縮,同時對于模型訓練數(shù)據(jù)依賴較小。但是,該方法對于由話者差別引起的語音特征變化的模型優(yōu)化能力較弱。模糊集理論通過隸屬度函數(shù)引入不確定性思想[12],實現(xiàn)對硬聚類算法的有效擴展,可以較好地吸收特征參數(shù)的變化,起到“數(shù)據(jù)整形”的作用,對于由話者差別引起的語音特征的變化,模糊集理論可以較好地起到模型優(yōu)化的作用。模糊矢量量化采用模糊C均值聚類算法來實現(xiàn)矢量量化,在同樣碼本尺寸的情況下,通過模糊C均值聚類分析可以減少碼本的量化誤差,在實際應用中取得過較好的效果。
本文對于GMM在建模時需要較多的訓練數(shù)據(jù)的缺陷,針對小樣本的說話人識別系統(tǒng),提出了一種基于模糊矢量量化混合模型(Fuzzy VQ mixed model, FVQMM)與文本無關的說話人識別方法,它綜合考慮了VQ,GMM方法以及模糊集理論的優(yōu)點。通過用模糊矢量量化誤差尺度取代傳統(tǒng)高斯混合模型的輸出概率函數(shù),減少了建模時對訓練數(shù)據(jù)量的要求,提高了模型精度和識別速度。同時由于模糊集理論起到了“數(shù)據(jù)整形”的作用,所以增強了目標說話人數(shù)據(jù)的相似性。實驗結果表明該方法針對小樣本數(shù)據(jù)的說話人識別系統(tǒng),識別性能優(yōu)于傳統(tǒng)的基于高斯混合模型的說話人識別系統(tǒng)。
為了說明基于FVQMM的說話人識別方法,首先必須介紹一下傳統(tǒng)的基于GMM的說話人識別方法。GMM是M個成員的高斯概率密度的加權和,可以用下式表示
(1)
式中:x為D維隨機向量;bi(x) (i=1,2,…,M)為每個成員的高斯概率密度函數(shù);ai(i=1,2,…,M)是混合權值。完整的GMM可表示為λi={ai,μi,Σi}(i=1,2,…,M)。每個成員密度函數(shù)是一個D維變量的高斯分布函數(shù),形式如下
(2)
對于一個長度為T的測試語音時間序列X=(x1,x2,…,xT),其GMM似然概率可以寫作
(3)
或用對數(shù)域表示為
(4)
識別時運用貝葉斯定理,在N個未知話者的模型中,得到的似然概率最大的模型對應的話者即為識別結果
(5)
從式(1)可知,在基于GMM的說話人識別方法中,每一幀語音的得分值是通過每個成員的輸出概率函數(shù)計算出的輸出概率值。正確的輸出概率函數(shù)的估計需要一定數(shù)量的訓練數(shù)據(jù)訓練得到。在說話人識別系統(tǒng)中,用于各說話人GMM訓練的語料較少,給GMM的學習帶來一定困難。而本文提出的基于FVQMM的說話人識別方法中,每一幀語音的得分值是每個成員通過用FVQ誤差尺度取代傳統(tǒng)GMM的輸出概率函數(shù),利用矢量量化誤差值取代傳統(tǒng)GMM的輸出概率值得到的。即它的模型參數(shù)由混合權值和每個成員的碼本組成,對于某個類別的模型,每一幀語音的得分值就是該幀語音與每個成員碼本的量化誤差值的加權和。識別系統(tǒng)對每個類別都預備一個相應的模型,利用各成員的碼本逐幀計算輸入序列的量化誤差值,并計算所有輸入幀的累積誤差值。在N個未知話者的模型中,得到的累積量化誤差值最小的模型對應的話者即為識別結果。
最小累積誤差的計算可以通過維特比算法實現(xiàn)。其計算公式為
(6)
式中:x1,x2,…,xT表示輸入時間序列;ai(i=1,2,…,M)是混合權值;Ci表示與成員i相對應的碼本;d(xt,Ci) 表示xt和Ci間的距離, 該距離定義如下
(7)
可以通過維特比算法求取最小累積誤差距離
(8)
式中:g(t) 表示輸入時間部分序列x1,x2…,xt與模型間的最小累積距離;t=1,2,…,T;i=1,2,…,M。
對于一個給定的輸入時間序列,識別系統(tǒng)將利用各類別模型逐幀計算該序列的量化誤差值,得到最小累積量化誤差值的模型所對應的類別即為識別結果。式(7)采用最近鄰準則計算誤差,也可以采用其他誤差準則,如K最近鄰準則,即
(9)
式中dk表示xt和Ci中所有碼字的第k個最小距離。也可以采用概率形式
(10)
在訓練FVQMM之前,必須首先確定混合模型的成員數(shù)M,然后利用有效方法把訓練數(shù)據(jù)集對成員數(shù)M進行分段,再利用歸屬成員M的訓練數(shù)據(jù)集來訓練第M個成員的FVQ碼本。本文采用時間規(guī)整神經(jīng)網(wǎng)絡來分割訓練數(shù)據(jù)集。整個FVQMM模型參數(shù)估計過程可以描述如下。
(11)
(12)
時間規(guī)整網(wǎng)絡從語音信號的局部入手,依次合并具有最小幀距離的語音分析幀,合并過程有效地將語音過渡段融入各音素段,從而保證了最后的識別率不受說話人發(fā)音特點的影響,使得整個識別系統(tǒng)呈現(xiàn)出更強的魯棒性[13]。
(2)每個成員的混合權值等于一個成員劃分內(nèi)的特征矢量數(shù)與訓練數(shù)據(jù)集特征總數(shù)之比。
(3)每個成員的碼本由成員劃分內(nèi)的特征矢量通過模糊C均值聚類算法(Fuzzy c-means algorithm FCM)聚類算法得到。FCM聚類是在引入模糊C劃分后,對傳統(tǒng)K均值聚類算法的模糊推廣,它通過隸屬度函數(shù)引入不確定性思想,實現(xiàn)對硬聚類算法的有效擴展,在實際應用中取得了非常優(yōu)良的效果[14]。 首先定義FCM聚類算法目標函數(shù)為
(13)
(14)
FCM算法的收斂性在文獻[14]中給出了證明。在迭代計算聚類中心ak及隸屬度函數(shù)uk直到收斂后,由新的聚類中心組成重估后的新碼本。
實驗中采用的語音數(shù)據(jù)取自在實驗室環(huán)境下錄取10個人(5男、5女)的語音,其中每人對10,20,30,40 s左右時間長度的一段語音各說3遍作為訓練數(shù)據(jù),通過用這些數(shù)據(jù)進行訓練得到每個人的模型參數(shù)。另外每人對30個不同的字詞各說3遍共900個語音作為測試數(shù)據(jù)進行測試。
輸入語音信號經(jīng)12 kHz采樣,1-0.98z-1的預加重,窗長21.33 ms(256點),窗移10 ms的漢明窗后,進行14階線性預測編碼(Linear prediction coding,LPC)分析,然后從14階LPC系數(shù)中求出12階的倒譜系數(shù)和倒譜的12階線性回歸1次系數(shù),這些語音參數(shù)用于說話人識別實驗。實驗對FVQMM方法和GMM方法進行了比較,結果如表1和表2所示。
表1 GMM方法的說話人平均辨識率
表2 FVQMM方法的說話人平均辨識率(碼本尺寸為32)
從表1和表2中可以看出,雖然最優(yōu)結果出現(xiàn)在GMM,在訓練數(shù)據(jù)為40s ,成員函數(shù)總數(shù)為20時,識別率為96.5%。而FVQMM的最好結果為95%,沒有超過GMM的最好結果,但是,當訓練數(shù)據(jù)較少時,F(xiàn)VQMM的結果明顯好于GMM。而且,當訓練數(shù)據(jù)較少時成員函數(shù)混合總數(shù)為3,6和10時,GMM訓練會出現(xiàn)奇異陣,所以這是基于EM算法的GMM 方法存在的重大缺陷。為了找到最優(yōu)的FVQMM各成員碼本的碼本尺寸,在成員個數(shù)一定的條件下(即取最好識別結果的成員個數(shù)為16,見表2),測量不同的碼本尺寸的識別結果。實驗結果如表3所示。
表3 不同碼本尺寸時FVQMM方法的說話人平均辨識率
從表3可以發(fā)現(xiàn),碼本尺寸為16時識別結果比較好。這是因為在訓練數(shù)據(jù)有限的情況下,碼本分的太細反而會使代表碼字的誤差變大。從表1~3中可知,本文提出的FVQMM的識別性能一般優(yōu)于傳統(tǒng)的GMM,從而證明了這種新方法的有效性。
從另一個角度來分析,在一定的條件下,例如學習數(shù)據(jù)有限時,過多的模型參數(shù)往往不能得到好的學習精度。同時過多的模型參數(shù)也會給學習和識別增加運算成本,不利于實時的識別處理。為了分析比較提出的FVQMM和傳統(tǒng)的GMM的參數(shù)數(shù)量,表4計算了取得最好結果時各模型所具有的參數(shù)總數(shù)。表中L表示碼本尺寸,P=24表示語音特征矢量唯數(shù),M表示成員混合數(shù)。從表中可知FVQMM參數(shù)總數(shù)比GMM要少的多。所以,雖然FVQMM是傳統(tǒng)GMM的特殊形式,由于模型參數(shù)較少,在實驗中取得了較好的識別結果。另外,本文提出的方法在FVQMM參數(shù)估計中,通過FCM聚類分析進一步減少了碼本的量化誤差,提高了碼本的精度。
表4 各模型具有的參數(shù)總數(shù)
本文提出了基于FVQMM的說話人識別新方法,作為GMM的改進形式,它綜合考慮了VQ和GMM方法的優(yōu)點。該方法既可以彌補傳統(tǒng)VQ方法對于由說話人個性特征長時變動性等引起的語音特征的變化吸收能力較弱的缺點,又可以彌補傳統(tǒng)GMM 在建模時需要較多的訓練數(shù)據(jù)的缺點。由于其模型參數(shù)數(shù)量較傳統(tǒng)GMM少,模型學習對訓練數(shù)據(jù)量要求不高,所以具有學習收斂速度快、識別速度快、適于實時自適應學習和小樣本數(shù)據(jù)的說話人識別系統(tǒng)等特點。實驗證明該方法在模型訓練數(shù)據(jù)較少的情況下可以取得比傳統(tǒng)GMM和VQ 方法更好的識別性能。下一步的工作是實驗驗證FVQMM方法是否可以應用到現(xiàn)在主流的GMM-UBM說話人識別方法中,并通過主流的NIST評測來進行實驗驗證。
[1] 趙力.語音信號處理[M]. 北京:機械工業(yè)出版社:2009,236-253.
[2] Soonil K, Shrikanth N.Robust speaker identification based on selective use of feature vectors[J]. Pattern Recognition Letters, 2007 (28): 85-89.
[3] Dehak N, Dehak R, Kenny P.et al. Comparison between factor analysis and GMM support vector machines for speaker verification[C]// The Speaker and Language Recognition Workshop (Odyssey 2008). Stellenbosch, South Africa: ISCA Archive, 2008: 21-25.
[4] Campbell W M, Sturim D E, Reynolds D A, et al. SVM based speaker verification using a GMM supervector kernel and NAP variability compensation[C]// Acoustics, Speech and Signal Processing of ICASSP 2006, IEEE International Conference on. Toulouse, France: IEEE, 2006: 97-100.
[5] Yin Shou-Chun, Richard R, Patrick K, A joint factor analysis approach to progressive model adaptation in text-independent speaker verification[J]. IEEE Trans on Audio Speech and Language Processing, 2007, 15:1999-2110.
[6] 何勇軍, 孫廣路, 付茂國,等. 基于稀疏編碼的魯棒說話人識別 [J]. 數(shù)據(jù)采集與處理, 2014, 29(2):198-203.
He Yongjun, Sun Guanglu, Fu Maoguo, et al. Robust speaker recognition based on sparse coding [J]. Journal of Data Acquisition and Processing, 2014, 29(2):198-203.
[7] 花城, 李輝. 小訓練語料下基于均值超矢量聚類的說話人確認方法 [J]. 數(shù)據(jù)采集與處理, 2014, 29(2):238-242.
Hua Cheng, Li Hui. Speaker verification based on supervector clustering with poor corpus [J]. Journal of Data Acquisition and Processing, 2014, 29(2): 238-242.
[8] 王華朋, 楊軍, 許勇. 應用似然比框架的法庭說話人識別[J]. 數(shù)據(jù)采集與處理, 2013, 28(2):240-243.
Wang Huapeng, Yang Jun, Xu Yong. Forensic speaker recognition in likelihood ratio framework [J]. Journal of Data Acquisition and Processing, 2013, 28(2):240-243.
[9] 王敏, 趙鶴鳴, 張慶芳. 基于瞬時頻率估計和特征映射的漢語耳語音話者識別[J]. 數(shù)據(jù)采集與處理, 2011, 26(2):687-690.
Wang Min, Zhao Heming, Zhang Qingfang. Speaker identification with Chinese whispered speech based on instantaneous frequency estimation and feature mapping[J]. Journal of Data Acquisition and Processing, 2011, 26(2):687-690.
[10]奚吉, 趙力, 左加闊. 基于改進多核學習的語音情感識別算法[J]. 數(shù)據(jù)采集與處理, 2014, 29(5): 730-734.
Xi Ji, Zhao Li, Zuo Jiakuo. Speech emotion recognition based on modified multiple kernel learning algorithm [J]. Journal of Data Acquisition and Processing, 2014, 29(5): 730-734.
[11]Shore J E, Burton D K Discrete utterance speech recognition without time alignment[J]. IEEE Trans, 1983,29(4):473-491.
[12]李忠國, 侯杰, 王凱, 等. 模糊支持向量機在路面識別中的應用[J]. 數(shù)據(jù)采集與處理, 2014, 29(1): 146-151.
Li Zhongguo, Hou Jie, Wang Kai, et al. Application of fuzzy support vector machine on road type recognition[J]. Journal of Data Acquisition and Processing, 2014, 29(1): 146-151.
[13]Chen Sin Horng, Chen Wen Yuan. Generalized minimal distortion segmentation for ANN-based speech recognition[J].IEEE Trans on Speech and Audio Processing, 1995,3(2):141-145
[14]Bezdek J C. A convergence theorem for the fuzzy ISODATA clustering algorithms[J]. IEEE Trans,1990(2):1-8.
Speaker Recognition Based on FVQMM
Yang Yan1, Zhao Li2
(1.School of Automobile Engineering, Yancheng Institute of Industry Technology, Yancheng, 224005,China; 2.School of Information Science and Engineering, Southeast University, Nanjing, 210096, China)
In order to further improve the performance of speaker recognition system based on the GMM independent of text, a new speaker recognition method is applied to the speaker recognition system with small samples and text independent. Aiming at the large quantity demanded of training data during the modeling of the GMM, the advantages of the fuzzy-set theory, vector quantization and the GMM are considered. Then through replacing the output probability function in the traditional GMM with the error scale of the fuzzy VQ, the requirements of the training data amount are reduced while improving the accuracy and recognition speed of the model. Meanwhile as a result of the fuzzy-set theory playing a role of "plastic date", the similarity in the data of the target speakers is enhanced. Experimental results exhibit that the speaker recognition system of the method for the small sample data, achieves a superior recognition performance than the traditional speaker recognition system based on the GMM.
speaker recognition; fuzzy-set theory; vector quantization; Gaussian mixed model
國家自然科學基金(61273266)資助項目;教育部博士點專項基金(20110092130004)資助項目;2014年江蘇省青藍工程資助項目。
2014-11-09;
2015-11-05
TN912.34
A
楊彥(1974-),女,副教授,研究方向:信號處理,電子與通訊,E-mail:yfyangyan@126.com。
趙力(1958年-),男,教授,研究方向:信號處理。