努爾麥麥提·尤魯瓦斯,張力文,吾守爾·斯拉木
(新疆大學(xué) 信息科學(xué)與工程學(xué)院,新疆 烏魯木齊 830046)
說(shuō)話人自適應(yīng)技術(shù)在維吾爾語(yǔ)語(yǔ)音識(shí)別中的應(yīng)用研究
努爾麥麥提·尤魯瓦斯,張力文,吾守爾·斯拉木
(新疆大學(xué) 信息科學(xué)與工程學(xué)院,新疆 烏魯木齊 830046)
該文針對(duì)維吾爾語(yǔ)說(shuō)話人之間的發(fā)音差異會(huì)在一定程度上影響維吾爾語(yǔ)語(yǔ)音識(shí)別系統(tǒng)的性能這一情況研究了說(shuō)話人自適應(yīng)技術(shù),將目前較為常用的MLLR和MAP以及MLLR和MAP相結(jié)合的自適應(yīng)方法應(yīng)用于維吾爾語(yǔ)連續(xù)語(yǔ)音識(shí)別的聲學(xué)模型訓(xùn)練中,并用這三種方法自適應(yīng)后的聲學(xué)模型分別在測(cè)試集上進(jìn)行識(shí)別實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明MLLR、MAP以及MAP+MLLR自適應(yīng)方法使基線識(shí)別系統(tǒng)的單詞錯(cuò)誤識(shí)別率分別降低了0.6%、2.34%和2.57%。
維吾爾語(yǔ);語(yǔ)音識(shí)別;說(shuō)話人自適應(yīng);MLLR;MAP
新疆是個(gè)多民族的地區(qū),其中維吾爾族占有45.2%的比例,擁有超過(guò)一千萬(wàn)的人口,因此研究維吾爾語(yǔ)的語(yǔ)音識(shí)別技術(shù)是新疆信息化建設(shè)的內(nèi)容之一,具有重大的研究意義。最近幾年新疆各學(xué)者對(duì)維吾爾語(yǔ)連續(xù)語(yǔ)音識(shí)別技術(shù)進(jìn)行了研究,并取得一些成果[1-2],但仍然處于起步階段,仍然存在很多問(wèn)題需要解決,其中就包括維吾爾語(yǔ)說(shuō)話人之間的發(fā)音差異給識(shí)別系統(tǒng)帶來(lái)的不利因素。在新疆,不同地區(qū)的維吾爾語(yǔ)說(shuō)話人之間的方言口音的差異,不同性別和年齡的說(shuō)話人之間的發(fā)音差異都較為嚴(yán)重地影響了維吾爾語(yǔ)連續(xù)語(yǔ)音識(shí)別系統(tǒng)的識(shí)別性能,而研究表明說(shuō)話人自適應(yīng)技術(shù)[3](Speaker Adaptation,SA)可以有效地降低說(shuō)話人發(fā)音差異給語(yǔ)音識(shí)別系統(tǒng)帶來(lái)的不良影響。
自適應(yīng)的目的就是利用語(yǔ)音識(shí)別系統(tǒng)使用者少量的訓(xùn)練語(yǔ)音,對(duì)聲學(xué)模型參數(shù)進(jìn)行調(diào)整,使得系統(tǒng)對(duì)使用者的識(shí)別性能有顯著的提高。目前國(guó)內(nèi)外均已對(duì)說(shuō)話人自適應(yīng)技術(shù)進(jìn)行了研究[3-6]并應(yīng)用于英語(yǔ)、漢語(yǔ)連續(xù)語(yǔ)音識(shí)別系統(tǒng)中,取得了不錯(cuò)的成效,而在維吾爾語(yǔ)語(yǔ)音識(shí)別領(lǐng)域該技術(shù)還未得到充分地應(yīng)用。
本文所做的工作包括: 對(duì)維吾爾語(yǔ)連續(xù)語(yǔ)音識(shí)別系統(tǒng)進(jìn)行了研究與搭建工作;研究了兩種常用的自適應(yīng)算法: 最大似然線性回歸算法(Maximum Likelihood Linear Regression,MLLR)[7]與最大后驗(yàn)概率算法(Maximum a posteriori,MAP)[8];最后將基于以上兩種算法的說(shuō)話人自適應(yīng)技術(shù)應(yīng)用于維吾爾語(yǔ)大詞匯量連續(xù)語(yǔ)音識(shí)別系統(tǒng)中,并對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行了分析。
1.1 連續(xù)語(yǔ)音識(shí)別基線系統(tǒng)框架
維吾爾語(yǔ)連續(xù)語(yǔ)音識(shí)別系統(tǒng)與其他語(yǔ)言連續(xù)語(yǔ)音識(shí)別系統(tǒng)一樣,實(shí)質(zhì)上屬于同一種模式識(shí)別,其系統(tǒng)的構(gòu)成如圖1 所示。系統(tǒng)主要由語(yǔ)音信號(hào)處理、聲學(xué)模型、語(yǔ)言模型、語(yǔ)音識(shí)別器四個(gè)部分組成。系統(tǒng)的主要任務(wù)是根據(jù)給定的一段語(yǔ)音序列在HMM狀態(tài)空間中找到最優(yōu)的狀態(tài)序列,從而找出這段語(yǔ)音所代表的最有可能的詞序列。
圖1 維吾爾語(yǔ)連續(xù)語(yǔ)音識(shí)別系統(tǒng)框架
1.2 聲學(xué)模型
本文對(duì)訓(xùn)練語(yǔ)音數(shù)據(jù)提取39 維MFCC 特征(幀長(zhǎng)25 ms,幀移10 ms),其中包括每一幀數(shù)據(jù)的12 維倒譜系數(shù)和能量及其一階和二階差分倒譜,并使用倒譜均值方差歸一化方法[9]進(jìn)行降噪處理。聲學(xué)模型采用基于上下文相關(guān)三音素綁定的HMM模型,每個(gè)模型用五個(gè)狀態(tài)表示,其中第一個(gè)狀態(tài)為開(kāi)始,第五個(gè)狀態(tài)為結(jié)束,每一個(gè)狀態(tài)都包含16個(gè)獨(dú)立的高斯混合分布。靜音模型采用五個(gè)狀態(tài)的HMM模型,停頓模型采用了三個(gè)狀態(tài)的HMM模型,模型中每個(gè)狀態(tài)包含24 個(gè)獨(dú)立的高斯混合分布。聲學(xué)模型利用HTK(Hidden Markov Model Toolkit)[10]工具訓(xùn)練。
1.3 語(yǔ)言模型
通過(guò)聲學(xué)模型得到的知識(shí)過(guò)于龐大,所以連續(xù)語(yǔ)音識(shí)別系統(tǒng)依賴于語(yǔ)言學(xué)知識(shí)。語(yǔ)言學(xué)知識(shí)在語(yǔ)音識(shí)別中的應(yīng)用不僅約束了搜索空間,而且提高了識(shí)別率,加快了搜索速度。目前常用的語(yǔ)言模型是最流行的統(tǒng)計(jì)N-Gram語(yǔ)言模型。本文根據(jù)文本語(yǔ)料庫(kù)(在實(shí)驗(yàn)部分具體介紹)采用SRILM(Stanford Research Institute Language Modeling toolkit)[11]語(yǔ)言模型訓(xùn)練工具建立了基于單詞的三元語(yǔ)言模型,OOV率是14.8%。
2.1 自適應(yīng)方式
按照訓(xùn)練語(yǔ)音獲取的方式不同,自適應(yīng)方式可以分為[12]: (1)批處理式: 用戶一次性錄入訓(xùn)練語(yǔ)音,然后進(jìn)行自適應(yīng)訓(xùn)練;(2)在線式: 訓(xùn)練語(yǔ)音數(shù)據(jù)是用戶使用時(shí)產(chǎn)生的,識(shí)別系統(tǒng)隨著新的語(yǔ)音數(shù)據(jù)的累積不斷地進(jìn)行自適應(yīng)。按照訓(xùn)練過(guò)程有無(wú)監(jiān)督,自適應(yīng)又可以分為[5]: (1)有監(jiān)督式自適應(yīng): 在進(jìn)行識(shí)別之前,訓(xùn)練語(yǔ)音數(shù)據(jù)的內(nèi)容對(duì)于系統(tǒng)是已知的;(2)無(wú)監(jiān)督式自適應(yīng): 即系統(tǒng)不知道目標(biāo)說(shuō)話人所說(shuō)的語(yǔ)音內(nèi)容,模型或參數(shù)的修正是通過(guò)識(shí)別系統(tǒng)的反饋來(lái)實(shí)現(xiàn)的。
在實(shí)際情況中,最佳的自適應(yīng)方式是使用者在使用系統(tǒng)之前采用批處理+有監(jiān)督,而在使用期間采用在線式+無(wú)監(jiān)督。這樣既保證了識(shí)別性能又體現(xiàn)出用戶友好性。而在本文中由于考慮到實(shí)驗(yàn)環(huán)境的限制僅采用批處理+有監(jiān)督的方式進(jìn)行實(shí)驗(yàn)。
2.2 基于MLLR的自適應(yīng)方法
最大似然線性回歸(MLLR)[5-7]是基于變換的自適應(yīng)算法,該算法利用自適應(yīng)數(shù)據(jù)計(jì)算出一組變換用于減小初始模型和自適應(yīng)數(shù)據(jù)之間的差距。由于混合高斯HMM模型的各高斯分量的均值和方差參數(shù)在連續(xù)語(yǔ)音識(shí)別系統(tǒng)中起著決定性作用,因此利用基于MLLR算法的自適應(yīng)方法估計(jì)出的一組線性變換對(duì)HMM模型參數(shù)進(jìn)行調(diào)整就可以達(dá)到自適應(yīng)目的。MLLR自適應(yīng)算法的流程如圖2所示。
圖2 MLLR自適應(yīng)流程圖
MLLR算法假設(shè)相近的語(yǔ)音空間共享相同的變換,因此劃分語(yǔ)音空間的準(zhǔn)則就是將相近的語(yǔ)音劃為一類。當(dāng)用于訓(xùn)練的語(yǔ)音數(shù)據(jù)較少時(shí),將所有語(yǔ)音劃分為一類,稱之為全局變換(Global Transformation);當(dāng)訓(xùn)練語(yǔ)音數(shù)據(jù)較多時(shí),對(duì)于混合高斯HMM來(lái)說(shuō),將會(huì)根據(jù)聲學(xué)模型的不同高斯分布分量的均值來(lái)進(jìn)行聚類,聚類方法很多,本文采用自適應(yīng)回歸分類樹(shù)的聚類方法。對(duì)聲學(xué)模型完成聚類之后MLLR算法利用自適應(yīng)數(shù)據(jù)對(duì)每一個(gè)類估計(jì)出一個(gè)線性變換矩陣,該變換矩陣可通過(guò)求解以下公式獲得[7,10]式(1)。
(1)
(2)
(3)
(4)
則公式(1)可等價(jià)表示為:
(5)
式(5)可以利用高斯消元法進(jìn)行求解,但是當(dāng)均值矢量的維數(shù)為n時(shí),式(5)中的系數(shù)矩陣大小為(n+n2)*(n+n2),那么求解所需要的計(jì)算量就會(huì)非常龐大,嚴(yán)重影響系統(tǒng)的實(shí)時(shí)性。因此在實(shí)際應(yīng)用中我們只考慮協(xié)方差矩陣為對(duì)角矩陣的情況,則變換矩陣W的第i行應(yīng)滿足:
(6)
其中:
(7)
(8)
其中σi是協(xié)方差矩陣對(duì)角線上第i個(gè)元素,則可以看出式(6)的計(jì)算量遠(yuǎn)比式(5)的小,可以更好地滿足系統(tǒng)的實(shí)時(shí)性。
2.3 基于MAP的自適應(yīng)方法
MAP算法[5,8]基于后驗(yàn)概率最大化的基本準(zhǔn)則[13-14],利用貝葉斯學(xué)習(xí)理論,將初始非特定人識(shí)別系統(tǒng)的先驗(yàn)信息與被適應(yīng)人的信息相結(jié)合實(shí)現(xiàn)自適應(yīng),因此利用該算法的自適應(yīng)技術(shù)也被稱為貝葉斯自適應(yīng)。在MAP自適應(yīng)過(guò)程中,識(shí)別系統(tǒng)中每一個(gè)高斯分布的均值都會(huì)被MAP算法重估一次,因此,MAP自適應(yīng)技術(shù)需要存儲(chǔ)一個(gè)新的自適應(yīng)后聲學(xué)模型。MAP算法的均值重估方式如式(9)所示[8,10]。
(9)
(10)
(11)
由上述幾個(gè)式子可以看出,如果Njm很小那么MAP算法估計(jì)的均值就會(huì)接近非特定人識(shí)別系統(tǒng)的均值,在MAP自適應(yīng)過(guò)程中,每個(gè)高斯分量的均值都會(huì)被MAP算法重估一次,因此MAP自適應(yīng)方法需要保存一個(gè)新的特定說(shuō)話人的聲學(xué)模型,這樣相比MLLR方法識(shí)別系統(tǒng)就會(huì)需要更多的存儲(chǔ)空間。
MAP自適應(yīng)方法由于考慮了先驗(yàn)信息有很好的漸進(jìn)性,隨著自適應(yīng)數(shù)據(jù)的逐步增加系統(tǒng)的識(shí)別性能也會(huì)隨之提高,但MAP算法收斂速度慢,所以該方法只能對(duì)有觀測(cè)數(shù)據(jù)的模型進(jìn)行自適應(yīng),無(wú)法處理沒(méi)有觀測(cè)值的模型。而MLLR自適應(yīng)方法通過(guò)一組線性變換來(lái)對(duì)初始模型進(jìn)行自適應(yīng),這種方法的優(yōu)點(diǎn)是比較簡(jiǎn)單,而且自適應(yīng)速度比較快,即使自適應(yīng)數(shù)據(jù)量較少,MLLR方法也可以獲得較理想的效果,但是MLLR算法沒(méi)有考慮到先驗(yàn)信息,因此該方法很難對(duì)模型有精確的估計(jì)。
2.4 采用說(shuō)話人自適應(yīng)技術(shù)的連續(xù)語(yǔ)音識(shí)別系統(tǒng)
通過(guò)對(duì)以上兩種主流的說(shuō)話人自適應(yīng)方法的研究可以發(fā)現(xiàn),所謂說(shuō)話人自適應(yīng)技術(shù)就是利用自適應(yīng)數(shù)據(jù)對(duì)語(yǔ)音識(shí)別中的聲學(xué)模型參數(shù)進(jìn)行重估,那么應(yīng)用該技術(shù)后的維吾爾語(yǔ)連續(xù)語(yǔ)音識(shí)別系統(tǒng)框架就從第一章中所介紹的擴(kuò)展為如圖3所示。
圖3 應(yīng)用自適應(yīng)技術(shù)的連續(xù)語(yǔ)音識(shí)別系統(tǒng)框架
3.1 實(shí)驗(yàn)配置
實(shí)驗(yàn)中聲學(xué)模型訓(xùn)練集采用的是16kHz采樣頻率,16bit 量化精度,單聲道,用PC在辦公室環(huán)境下錄制。訓(xùn)練語(yǔ)料包含356 個(gè)人(189女,167男)發(fā)聲的128 小時(shí)的50,000條語(yǔ)句。測(cè)試語(yǔ)音庫(kù)分別包含12個(gè)說(shuō)話人(6男,6女)發(fā)聲的大約1小時(shí)的測(cè)試集(480條語(yǔ)句,每人40句),自適應(yīng)數(shù)據(jù)包括測(cè)試集中12個(gè)說(shuō)話人的(6男,6女,每人100句)大約1200條語(yǔ)句的語(yǔ)音。頻譜特征觀察矢量為每幀39 維向量,包擴(kuò)12 階MFCC,歸一化對(duì)數(shù)能量,及其一階、二階差分?;€系統(tǒng)聲學(xué)模型使用MLE 準(zhǔn)則,利用隱馬爾可夫模型工具HTK[10]來(lái)訓(xùn)練。
實(shí)驗(yàn)中語(yǔ)言模型訓(xùn)練集采用共有1,335,000個(gè)句子和590,000個(gè)不重復(fù)單詞的維吾爾語(yǔ)文本語(yǔ)料庫(kù),內(nèi)容包含新聞、雜志、政府公文、各種理工科書(shū)籍等,選取60,000個(gè)高頻單詞作為識(shí)別發(fā)音詞典和語(yǔ)言模型建?;A(chǔ)單詞列表,采用SRILM[11]語(yǔ)言模型訓(xùn)練工具建立了基于單詞的3-Gram語(yǔ)言模型,語(yǔ)言模型因子和單詞插入懲罰值分別設(shè)置為20和-40。
3.2 MLLR自適應(yīng)過(guò)程
在使用MLE 準(zhǔn)則訓(xùn)練得到一個(gè)識(shí)別性能較好的基線模型后,在其基礎(chǔ)上進(jìn)行聲學(xué)模型自適應(yīng)優(yōu)化。使用HTK(Hidden Markov Model Toolkit)[10]工具集完成聲學(xué)模型MLLR的自適應(yīng)過(guò)程(如圖2所示),具體過(guò)程為: 第一步,對(duì)自適應(yīng)數(shù)據(jù)的單詞級(jí)別標(biāo)注文件進(jìn)行強(qiáng)制對(duì)齊生成新的音素級(jí)別的三音子綁定的標(biāo)注文件;第二步,利用自適應(yīng)回歸分類樹(shù)(葉子節(jié)點(diǎn)數(shù)設(shè)置為32個(gè))將基線系統(tǒng)聲學(xué)模型按照均值矢量進(jìn)行聚類;第三步,將基線聲學(xué)模型劃分為一類并利用自適應(yīng)數(shù)據(jù)為該類生成一個(gè)全局變換;第四步,將全局變換矩陣作為輸入變換矩陣,利用自適應(yīng)數(shù)據(jù)對(duì)自適應(yīng)回歸分類樹(shù)中的每一個(gè)類估計(jì)出一個(gè)新的線性變換矩陣;最后在進(jìn)行識(shí)別之前對(duì)每個(gè)分類中所包含的基線聲學(xué)模型均值矢量根據(jù)該類的變換矩陣進(jìn)行線性變換完成自適應(yīng)訓(xùn)練。
3.3 MAP自適應(yīng)過(guò)程
使用HTK工具集的HERest模塊根據(jù)自適應(yīng)數(shù)據(jù)對(duì)基線系統(tǒng)聲學(xué)模型參數(shù)進(jìn)行重估生成新的聲學(xué)模型,之后用自適應(yīng)后的聲學(xué)模型替換基線系統(tǒng)聲學(xué)模型進(jìn)行識(shí)別。
3.4 MAP和MLLR相結(jié)合自適應(yīng)過(guò)程
MAP和MLLR相結(jié)合做自適應(yīng)的過(guò)程就是將兩種自適應(yīng)過(guò)程進(jìn)行整合,即使用MLLR自適應(yīng)中生成的自適應(yīng)回歸樹(shù)變換對(duì)MAP自適應(yīng)后的聲學(xué)模型進(jìn)行變換,將最后優(yōu)化的聲學(xué)模型替換基線系統(tǒng)模型進(jìn)行識(shí)別測(cè)試。
3.5 實(shí)驗(yàn)結(jié)果與分析
實(shí)驗(yàn)大致分兩個(gè)步驟,實(shí)驗(yàn)一用來(lái)觀察自適應(yīng)的說(shuō)話人數(shù)量對(duì)識(shí)別性能的影響,實(shí)驗(yàn)二用來(lái)觀察不同自適應(yīng)方式隨著自適應(yīng)數(shù)據(jù)的增多對(duì)系統(tǒng)識(shí)別性能的影響。在實(shí)驗(yàn)一中分別選取不同的說(shuō)話人數(shù)量N的自適應(yīng)數(shù)據(jù)對(duì)基線系統(tǒng)的聲學(xué)模型進(jìn)行MLLR自適應(yīng),其中每個(gè)說(shuō)話人有40句自適應(yīng)數(shù)據(jù),再?gòu)臏y(cè)試集中挑選出相應(yīng)說(shuō)話人的語(yǔ)音數(shù)據(jù)進(jìn)行測(cè)試,也是每人40句,得到如表1的結(jié)果。
表1 不同自適應(yīng)說(shuō)話人數(shù)量的識(shí)別結(jié)果
從表1中可以看出,隨著自適應(yīng)說(shuō)話人數(shù)量的增多,單詞錯(cuò)誤率逐漸降低識(shí)別性能不斷提高,但當(dāng)說(shuō)話人數(shù)量超過(guò)10后,識(shí)別性能提高的幅度變得非常小,也就是說(shuō)系統(tǒng)識(shí)別性能在自適應(yīng)說(shuō)話人數(shù)量達(dá)到10左右就開(kāi)始趨于飽和。因此在實(shí)驗(yàn)二中我們固定自適應(yīng)說(shuō)話人的數(shù)量為10。
實(shí)驗(yàn)二中我們采用實(shí)驗(yàn)一中10個(gè)說(shuō)話人(5男5女)的錄音數(shù)據(jù)做自適應(yīng)和測(cè)試,測(cè)試集包括大約1小時(shí)的400句語(yǔ)音(每個(gè)說(shuō)話人40句),自適應(yīng)數(shù)據(jù)從每個(gè)說(shuō)話人40句語(yǔ)音開(kāi)始每次每人增加20句直到增加到100句為止,自適應(yīng)方式分別采用MLLR、MAP和MLLR+MAP。識(shí)別結(jié)果如表2所示。
表2 不同自適應(yīng)方式的識(shí)別結(jié)果
從表2的實(shí)驗(yàn)結(jié)果可以看出聲學(xué)模型經(jīng)過(guò)MLLR、MAP、MAP+MLLR三種方法的自適應(yīng)之后都比基線系統(tǒng)的識(shí)別性能有所提升,其中MAP自適應(yīng)方法隨著自適應(yīng)數(shù)據(jù)的增加識(shí)別性能有較明顯的提升,在自適應(yīng)數(shù)據(jù)為1000句時(shí)單詞誤識(shí)率最低相比于基線系統(tǒng)降低了2.34%,而采用MLLR自適應(yīng)方法時(shí)單詞錯(cuò)誤率并沒(méi)有隨著自適應(yīng)數(shù)據(jù)的增加有明顯的下降。這是因?yàn)镸AP算法考慮了先驗(yàn)信息從而有更好的漸進(jìn)性而MLLR算法沒(méi)有。最后當(dāng)使用兩種方法相結(jié)合做自適應(yīng)實(shí)驗(yàn)時(shí),系統(tǒng)的單詞錯(cuò)誤率又有進(jìn)一步的降低,相比基線系統(tǒng)降低了2.57%。
維吾爾語(yǔ)聲學(xué)模型分別采用MLLR、MAP、MLLR+MAP三種自適應(yīng)方法優(yōu)化后,使得維吾爾語(yǔ)大詞匯量連續(xù)語(yǔ)音識(shí)別基線系統(tǒng)的識(shí)別性能有所提升。但是總結(jié)全文仍然存在一些問(wèn)題: 1)單獨(dú)使用MLLR自適應(yīng)方法做自適應(yīng)時(shí)系統(tǒng)性能提升不如MAP方法明顯,主要原因可能是語(yǔ)音數(shù)據(jù)特征空間的劃分比較粗糙; 2)相對(duì)于漢語(yǔ)英語(yǔ)等大語(yǔ)種,目前實(shí)驗(yàn)室中用于訓(xùn)練和測(cè)試的維吾爾語(yǔ)語(yǔ)音數(shù)據(jù)規(guī)模還很小,需要進(jìn)一步收集擴(kuò)展; 3)本文實(shí)驗(yàn)采用的是批量式+有監(jiān)督的自適應(yīng)方式,這在實(shí)際應(yīng)用中并不具有用戶友好性,因此今后還會(huì)繼續(xù)深入研究維吾爾語(yǔ)語(yǔ)音識(shí)別的在線式和無(wú)監(jiān)督式的說(shuō)話人自適應(yīng)技術(shù)。相信如果在今后的研究中能夠解決以上幾個(gè)問(wèn)題,系統(tǒng)的識(shí)別性能會(huì)進(jìn)一步得到提升。
[1] 努爾麥麥提·尤魯瓦斯,吾守爾·斯拉木.面向大詞匯量的維吾爾語(yǔ)連續(xù)語(yǔ)音識(shí)別研究[J].計(jì)算機(jī)工程與應(yīng)用,2013,49(9): 115-119.
[2] 那斯?fàn)柦ね聽(tīng)栠d,吾守爾·斯拉木.基于隱馬爾可夫模型的維吾爾語(yǔ)連續(xù)語(yǔ)音識(shí)別系統(tǒng)[J].計(jì)算機(jī)應(yīng)用,2009,29(7): 2009-2012.
[3] C HLee,C HLin,B HJuang. A study on speaker adaptation of the parameters of continuous density hidden Markov models[J]. IEEE Trans.on Acoustic and Speech Signal Processing.1991,39 (4): 806-814.
[4] C J Leggetter. Improved acoustic modeling for HMMs using linear transformations[D]. Cambridge University,1995.
[5] 李虎生,劉加,劉潤(rùn)生語(yǔ)音識(shí)別說(shuō)話人自適應(yīng)研究現(xiàn)狀及發(fā)展趨勢(shì)[J].電子學(xué)報(bào),2003,31(1): 103-108.
[6] 羅駿,歐智堅(jiān),王作英.說(shuō)話人自適應(yīng)訓(xùn)練方法在連續(xù)語(yǔ)音識(shí)別中的應(yīng)用[J].中文信息學(xué)報(bào),2004,18(3): 61-65.
[7] C J Leggetter,P C Woodland.Maximum likelihood linear regression for speaker adaptation of continuous density hidden Markov models[J].Computer Speech and Language,1995,9 (2): 171-185.
[8] J L Gauvain,C HLee.Maximum a posteriori estimation for multivariate Gaussian observations[J]. IEEE Trans. on Speech and Audio Processing,1994,2 (2): 291-298.
[9] de la Torre A,Segura J C.Non-linear transformations of the feature space for robust speech recognition[C]//Proceedings of the ICASSP,2002: 401-404.
[10] Steve Young,etc.The HTK Book(for HTK Version 3.4)[R].Cambridge University Engineering Department.2006,12.
[11] A.Stolcke.SRILM-An Extensible Language Modeling Toolkit[C]//Proceedings of the Conference on Spoken Language Processing,2002,901-904.
[12] G Zavaliagkost,R Schwatz,J Makhoul. Batch,incremental,and instantaneous adaptation techniques for speech recognition[C]//Proceedings of the ICASSP.1995.
[13] 張金槐,唐雪梅. BAYES 方法[M]. 長(zhǎng)沙: 國(guó)防科技大學(xué)出版社,1993.
[14] R O Duda,P E Hart. Pattern Classification and Scene Analysis [M]. New York: John Wiley,1973.
Speaker Adaptation Technology in Uyghur Continuous Speech Recognition
Nurmemet Yolwas,ZHANG Liwen,Wushour Silamu
(College of Information Science and Engineering,Xinjiang University,Urumqi,Xinjiang 830046,China)
Researches show that pronunciation differences between the speakers can cause serious effects on the Uyghur speech recognition system. Focused on the speaker adaptation technology,this paper applies MLLR,MAP and MLLR+MAP methods to the training of acoustic models of Uyghur Continuous Speech Recognition system. Experimental results show that with the three speaker adaptation methods,the word error rate is reduced by 0.6%,2.34% and 2.57%,respectively.
Uyghur;speech recognition;speaker adaptation; MLLR; MAP
努爾麥麥提·尤魯瓦斯(1980—),講師,博士,主要研究領(lǐng)域?yàn)檎Z(yǔ)音信號(hào)處理。E?mail:y.nurmemet@gmail.com張力文(1991—),碩士研究生,主要研究領(lǐng)域?yàn)檎Z(yǔ)音識(shí)別。E?mail:lwzhang9161@gmail.com吾守爾·斯拉木(1942—),教授,博士生導(dǎo)師,主要研究領(lǐng)域?yàn)槎嗾Z(yǔ)種信息處理,智能化應(yīng)用研究。E?mail:wushour@xju.edu.cn
2014-04-21 定稿日期: 2014-09-04
國(guó)家自然科學(xué)基金 (61363064);新疆維吾爾自治區(qū)科技計(jì)劃項(xiàng)目(201312104);清華大學(xué)騰訊科技有限公司互聯(lián)網(wǎng)創(chuàng)新技術(shù)聯(lián)合實(shí)驗(yàn)室創(chuàng)新課題(2012-04)
1003-0077(2016)03-0079-06
TP391
A