陳業(yè)仙,張歆奕,毛杰
?
基于GMM-UBM的語言辨識算法研究
陳業(yè)仙,張歆奕,毛杰
(五邑大學 信息工程學院,廣東 江門 529020)
運用Matlab軟件,以自已建立的語音數(shù)據(jù)庫為基礎,對與文本無關的基于GMM-UBM的語言辨識系統(tǒng)進行了測試,獲得的平均識別率達74%,與傳統(tǒng)GMM算法的測試對比,基于GMM-UBM的語言辨識算法能更好地改善語言辨識系統(tǒng)的性能.
語言辨識;高斯混合-全局背景模型;期望最大化;貝葉斯自適應算法
隨著信息時代的快速發(fā)展,全球合作日趨頻繁,語言辨識技術(shù)越來越受到人們的關注. 語言辨識是計算機分析處理一個語音片斷并判別其所屬語言種類的過程[1],主要用在信息檢索和機器翻譯等領域,作為自動翻譯、自動轉(zhuǎn)換、多語種通信系統(tǒng)等的前端處理技術(shù)[2]. 本文提出了基于GMM-UBM的語言辨識算法,以期改善語言辨識系統(tǒng)的性能,獲得更好的識別率和系統(tǒng)移植性.
完整的混合高斯模型由參數(shù)均值向量、協(xié)方差矩陣和混合權(quán)重組成,即
本文用EM算法進行50次迭代實驗得到GMM,實驗結(jié)果如圖1所示. 由圖1可知:得到的似然函數(shù)是單調(diào)遞增的,且最后收斂.
圖1 EM算法訓練GMM得到的似然函數(shù)曲線
在語言辨識系統(tǒng)中,高斯混合-全局背景模型(GMM-UBM)是一個與語言無關的背景模型,它利用除目標語言外的所有訓練數(shù)據(jù)獲得一個語言UBM,基于GMM-UBM的語言辨識系統(tǒng)框圖見圖2[3].
圖2 基于GMM-UBM的語言辨識系統(tǒng)框圖
以網(wǎng)絡下載、光盤、磁帶及真實環(huán)境下錄制的數(shù)據(jù)自建語音數(shù)據(jù)庫并作為本文采用的實驗數(shù)據(jù).信號以8 kHz進行采樣,16 bit量化. 語音經(jīng)預加重后通過加窗得到語音幀,加窗選用256點(32 ms)的漢明窗,幀移為l6 ms并去除靜音幀和低能量幀,特征參數(shù)是提取12階的LPCC倒譜系數(shù). 訓練階段,用所有語種數(shù)據(jù)訓練得到UBM后,通過貝葉斯自適應算法快速獲得每種語言的GMM;識別階段,計算每段輸入語音的對數(shù)概率分數(shù),最終判別語言的種類.
訓練時,選取10位固定說話人,用中文和英文2種語言,建立中文GMM模型. 測試時進行開集、閉集實驗,閉集實驗數(shù)據(jù)是來自相同說話人的訓練與測試語音數(shù)據(jù),開集實驗數(shù)據(jù)是來自不同說話人的訓練與測試語音數(shù)據(jù),中文為目標語言,英文為闖入者語言,實驗內(nèi)容如下:
表1 2種模型10人雙語開集、閉集實驗結(jié)果對照
通過上述實驗得知:GMM-UBM的性能在語言辨識中比GMM性能更好. 在此基礎上,本文進行了更大規(guī)模的開集實驗,實驗結(jié)果如圖3、圖4所示.
圖3 中文GMM似然曲線圖
圖4 中文GMM-UBM似然曲線圖
表2 3種語言的開集實驗結(jié)果對照 %
由上述實驗可知:用于訓練的原始數(shù)據(jù)量越充分,系統(tǒng)的性能越好;GMM-UBM充分利用了GMM的優(yōu)點,反映了所有待識別語種的特征分布,涵蓋了更多語言的發(fā)音情況,且利用貝葉斯自適應算法能快速地分離出各種語言的GMM參數(shù),得到每種語種的模型. 與傳統(tǒng)的GMM方法相比,UBM方法的訓練和識別速度更快,識別率明顯高于GMM.
本文將GMM-UBM用于語言辨識系統(tǒng),獲得了平均正確率74%的識別效果,這說明GMM-UBM模型是語言辨識的一種有效方法.
[1] 趙力. 語音信號處理[M]. 北京:機械工業(yè)出版社,2003.
[2] 屈丹,王炳錫,魏鑫. 基于GMM-UBM模型的語言辨識研究[J]. 信息處理,2003, 19(1): 85-88.
[3] 姜洪臣,鄭榕,張樹武,等. 基于SDC特征GMM-UBM模型的自動語種識別[J]. 中文信息學報,2007, 21(1): 49-53.
[4] 王炳錫,屈丹,彭煊. 實用語音識別基礎[M]. 北京:國防工業(yè)出版社,2005.
[責任編輯:孫建平]
A Study of a Language Identification Algorithm Based on the GMM-UBM Model
CHENYe-xian,ZHANGXin-yi,MAOJie
Language identification technology is a very important part of the speech recognition technology. In this paper, based on the practical application and a self-established voice database, a language identification system based on the GMM-UBM model and independent of the speaker is studied and compared with the traditional GMM methods. Experiment results show that this algorithm can effectively improve the performance of the language identification system and achieve an average recognition rate of 74%.
language identification; GMM-UBM; EM; Bayesian adaptive algorithm
1006-7302(2010)03-0005-56
TP391.4
A
2009-05-20
陳業(yè)仙(1970—),女,廣東陽江人,實驗師,碩士,研究方向:語音信號處理,E-mail: chenyexian@126.com.