亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

一種構(gòu)建自適應(yīng)蒙古語(yǔ)語(yǔ)音識(shí)別聲學(xué)模型的方法

2018-04-18 11:10:56馬志強(qiáng)李圖雅

計(jì)算機(jī)應(yīng)用與軟件 2018年2期

馬志強(qiáng)　李圖雅　閆　瑞　張　力

(內(nèi)蒙古工業(yè)大學(xué)信息工程學(xué)院　內(nèi)蒙古呼和浩特 010080)

0　引　言

大詞匯量連續(xù)的蒙古語(yǔ)語(yǔ)音識(shí)別系統(tǒng)是基于GMM-HMM(Gauss Mixture Model-Hidden Markov Model)模型實(shí)現(xiàn)的，在聲學(xué)模型的建模過(guò)程中，由于：(1) 非詞首音節(jié)短元音的出現(xiàn)位置不確定,導(dǎo)致很多詞有幾種讀音，在語(yǔ)料庫(kù)中出現(xiàn)了一詞有多種讀音的現(xiàn)象；(2) 對(duì)于不同人，由于發(fā)音人受方言、個(gè)人習(xí)慣、以及錄音環(huán)境等的影響，所讀音與蒙古語(yǔ)標(biāo)準(zhǔn)發(fā)音有差別。以上現(xiàn)象都使蒙古語(yǔ)語(yǔ)音識(shí)別正確率出現(xiàn)下降。

本文在GMM-HMM聲學(xué)模型的基礎(chǔ)上，結(jié)合最大似然線性回歸MLLR與最大后驗(yàn)概率MAP自適應(yīng)方法的優(yōu)點(diǎn)，給出了一種適合蒙古語(yǔ)語(yǔ)音識(shí)別進(jìn)行聲學(xué)模型自適應(yīng)建模的MLLR-MAP方法。核心思想是首先使用蒙古語(yǔ)小規(guī)模自適應(yīng)集對(duì)MLLR和MAP方法中的參數(shù)進(jìn)行估計(jì)計(jì)算；然后對(duì)已經(jīng)構(gòu)建的基線聲學(xué)模型順序按照MLLR和 MAP方法進(jìn)行重新建模，使得基線聲學(xué)模型更加逼近自適應(yīng)數(shù)據(jù)集；最后得到了一個(gè)具有自適應(yīng)集數(shù)據(jù)特征的蒙古語(yǔ)聲學(xué)模型。MLLR-MAP方法中的自適應(yīng)性的依賴程度由MLLR的轉(zhuǎn)移矩陣和MAP的依賴權(quán)重值決定，MLLR的轉(zhuǎn)移矩陣由自適應(yīng)數(shù)據(jù)集決定，而最優(yōu)值則需要通過(guò)實(shí)驗(yàn)進(jìn)行人工選擇得到。實(shí)驗(yàn)結(jié)果表明，在聲學(xué)模型總正確率、聲學(xué)模型錯(cuò)誤率、聲學(xué)模型準(zhǔn)確率和系統(tǒng)句識(shí)別錯(cuò)誤率、系統(tǒng)詞識(shí)別錯(cuò)誤率指標(biāo)上都明顯優(yōu)于其他方法。

1　相關(guān)工作

研究者對(duì)聲學(xué)模型的自適應(yīng)問(wèn)題主要在自適應(yīng)方法上做了研究,包括向量量化法、層次化譜聚類法、概率譜映射法和貝葉斯自適應(yīng)法等。其中，Woodland 等提出的MLLR方法和MAP方法[1]屬于貝葉斯自適應(yīng)法，適合連續(xù)密度GMM模型；MLLR方法可以使用少量的特定人的語(yǔ)音數(shù)據(jù)就可以快速地建立自適應(yīng)聲學(xué)模型；MAP方法則隨著特定人語(yǔ)音數(shù)據(jù)的增多, 原始的模型將被逐漸更新為適合特定人的聲學(xué)模型，但是會(huì)出現(xiàn)過(guò)擬合的現(xiàn)象。

1.1　最大似然線性回歸方法

(1)

式中：Ws是一個(gè)n×(n+1)矩陣[bTAT]T，A是一個(gè)n×n的矩陣，b是一個(gè)n維向量，ξs是擴(kuò)展的均值向量[1,uT]T(或[1,u1,…,ui,…,un]T)，ui是原始的均值，1是偏移量，n是特征維數(shù)[2-3]。

(2)

MLLR只考慮高斯模型中轉(zhuǎn)移矩陣的再估計(jì)，總概率可以通過(guò)各個(gè)狀態(tài)得到，所以，設(shè)S是所有狀態(tài)的集合，輔助函數(shù)擴(kuò)展為公式[4-5]:

(3)

因此，MLLR方法進(jìn)行聲學(xué)模型自適應(yīng)建模時(shí)，不隨自適應(yīng)數(shù)據(jù)集的增加而使語(yǔ)音識(shí)別率提高，當(dāng)自適應(yīng)數(shù)據(jù)集達(dá)到一定時(shí)，聲學(xué)模型的識(shí)別率不再提高。

1.2　最大后驗(yàn)概率方法

MAP方法對(duì)高斯模型參數(shù)的調(diào)整是通過(guò)先驗(yàn)信息求解最大后驗(yàn)概率方法的一種自適應(yīng)方法[6-7]。對(duì)于高斯分布均值的MAP重估的一般公式為:

(4)

MAP方法對(duì)蒙古語(yǔ)高斯混合聲學(xué)模型進(jìn)行重估時(shí)，聲學(xué)模型的自適應(yīng)性由MAP的依賴權(quán)重決定。依賴權(quán)重表示聲學(xué)模型的自適應(yīng)對(duì)先驗(yàn)信息的依賴程度，反映了先驗(yàn)信息與自適應(yīng)數(shù)據(jù)之間的相互平衡。然而，依賴權(quán)重是一個(gè)動(dòng)態(tài)變化的值，所以確定合適的依賴權(quán)重對(duì)提高基于GMM-HMM蒙古語(yǔ)聲學(xué)模型的自適應(yīng)性十分重要。

2　自適應(yīng)蒙古語(yǔ)聲學(xué)模型建模方法

由于蒙古語(yǔ)中含有豐富的詞干、詞綴，組合得到的蒙古語(yǔ)詞的個(gè)數(shù)非常多。因此，語(yǔ)料庫(kù)很難全覆蓋蒙古語(yǔ)語(yǔ)言中的全部詞語(yǔ)。所以，通過(guò)結(jié)合MLLR和MAP方法的優(yōu)點(diǎn)，給出了一種構(gòu)建自適應(yīng)蒙古語(yǔ)語(yǔ)音識(shí)別聲學(xué)模型的MLLR-MAP方法。

2.1　蒙古語(yǔ)語(yǔ)音的特點(diǎn)

蒙古語(yǔ)屬于阿爾泰語(yǔ)系，蒙古語(yǔ)的詞由詞干和詞綴構(gòu)成，一個(gè)詞干后面可以連接至少一個(gè)以上的詞綴。詞干和詞綴都有自己的發(fā)音，詞的發(fā)音是由詞干和詞綴結(jié)合發(fā)音的，一般情況下詞干和詞綴結(jié)合后發(fā)音不變。但是，在發(fā)音中也存在著以下特殊情況[8-9]。

(1) 詞綴與不同詞干結(jié)合后，讀音會(huì)出現(xiàn)音變現(xiàn)象，導(dǎo)致生成多種不同的讀音，因此，無(wú)法用一個(gè)固定的、靜態(tài)的詞典為所有的蒙古語(yǔ)詞進(jìn)行注音。

(2) 蒙古語(yǔ)中包含一定數(shù)量的多音節(jié)詞，因此，在詞干和詞綴之間，前一音節(jié)的元音同后面音節(jié)的元音存在著明顯的元音和諧現(xiàn)象。

(3) 蒙古語(yǔ)口語(yǔ)中發(fā)音時(shí)比較習(xí)慣使用重音，不合理的使用重音會(huì)使語(yǔ)流平淡，導(dǎo)致蒙古語(yǔ)的音節(jié)在口語(yǔ)語(yǔ)流中的變化較大，穩(wěn)定性差。

由于大多數(shù)詞干是與詞綴連接形成更長(zhǎng)的詞干，而詞干后接詞綴的規(guī)則無(wú)法直接應(yīng)用到蒙古語(yǔ)語(yǔ)音識(shí)別中。因此，針對(duì)上述提到的蒙古語(yǔ)構(gòu)詞音變問(wèn)題、元音和諧問(wèn)題和口語(yǔ)語(yǔ)流問(wèn)題，通過(guò)建立自適應(yīng)蒙古語(yǔ)聲學(xué)模型，提高蒙古語(yǔ)語(yǔ)音識(shí)別的正確率。

2.2　MLLR-MAP方法

蒙古語(yǔ)聲學(xué)模型建模采用M元加權(quán)的混合高斯模型，模型表示為公式：

(5)

(6)

在MLLR轉(zhuǎn)換中，Wk是使用蒙古語(yǔ)小規(guī)模自適應(yīng)集數(shù)據(jù)求解式(3)得到的。因此，MLLR模型中的所有參數(shù)只與訓(xùn)練數(shù)據(jù)相關(guān)。

然后對(duì)蒙古語(yǔ)的MLLR聲學(xué)模型進(jìn)行MAP自適應(yīng)處理，MAP自適應(yīng)處理過(guò)程修改為公式:

(7)

因此，蒙古語(yǔ)聲學(xué)模型的MLLR-MAP自適應(yīng)方法的核心是人工選取最優(yōu)的模型參數(shù)τk。

2.3　自適應(yīng)蒙古語(yǔ)聲學(xué)模型MLLR-MAP的訓(xùn)練

蒙古語(yǔ)聲學(xué)模型的MLLR-MAP訓(xùn)練過(guò)程主要包括：(1) 構(gòu)建基線蒙古語(yǔ)聲學(xué)模型；(2) 對(duì)小規(guī)模蒙古語(yǔ)自適應(yīng)集數(shù)據(jù)進(jìn)行MLLR模型參數(shù)估算，使用式(6)對(duì)基線蒙古語(yǔ)聲學(xué)模型進(jìn)行快速逼近，得到蒙古語(yǔ)MLLR聲學(xué)模型；(3) 再對(duì)小規(guī)模蒙古語(yǔ)自適應(yīng)集數(shù)據(jù)進(jìn)行MAP模型參數(shù)估算，把蒙古語(yǔ)MLLR聲學(xué)模型作為MAP的先驗(yàn)信息，通過(guò)式(7)構(gòu)建蒙古語(yǔ)MLLR-MAP聲學(xué)模型。蒙古語(yǔ)MLLR-MAP聲學(xué)模型的訓(xùn)練過(guò)程如圖1所示。

圖1　蒙古語(yǔ)MLLR-MAP聲學(xué)模型訓(xùn)練過(guò)程

具體的蒙古語(yǔ)MLLR-MAP聲學(xué)模型的訓(xùn)練步驟如下:

訓(xùn)練過(guò)程：蒙古語(yǔ)基線聲學(xué)模型作為自適應(yīng)的先驗(yàn)值，通過(guò)對(duì)小規(guī)模蒙古語(yǔ)自適應(yīng)集的統(tǒng)計(jì)計(jì)算，分別得到MLLR和MAP模型的參數(shù)，最后經(jīng)過(guò)MLLR、MAP轉(zhuǎn)換后得到了蒙古語(yǔ)MLLR-MAP聲學(xué)模型。

輸入：基線聲學(xué)模型，小規(guī)模蒙古語(yǔ)自適應(yīng)集

輸出：蒙古語(yǔ)MLLR-MAP聲學(xué)模型

步驟1：對(duì)自適應(yīng)訓(xùn)練集進(jìn)行MFCC特征提取，得到特征文件。

步驟2：累加觀察序列，得到自適應(yīng)集的統(tǒng)計(jì)信息。

步驟3：使用折半取值逐漸逼近的方法依次選取依賴權(quán)重τ值，對(duì)蒙古語(yǔ)基線聲學(xué)模型的均值、方差、混合權(quán)重、轉(zhuǎn)移矩陣做MAP自適應(yīng)，得到對(duì)應(yīng)τ值MAP自適應(yīng)的聲學(xué)模型識(shí)別率。

步驟4：對(duì)比對(duì)應(yīng)τ值MAP自適應(yīng)后的聲學(xué)模型識(shí)別率，選取聲學(xué)模型識(shí)別率最大者對(duì)應(yīng)的τ值。其中τ值的選取采用折半取值辦法，因此，需多次試探判斷是否大于基線聲學(xué)模型的識(shí)別率。

步驟5：對(duì)基線聲學(xué)模型的均值和其他參數(shù)進(jìn)行MLLR自適應(yīng)，得到MLLR自適應(yīng)轉(zhuǎn)移矩陣。

步驟6：通過(guò)轉(zhuǎn)移矩陣調(diào)整基線聲學(xué)模型的均值，得到MLLR自適應(yīng)后的均值，對(duì)應(yīng)的聲學(xué)模型為MLLR聲學(xué)模型。

步驟7：進(jìn)行最優(yōu)τ值MAP自適應(yīng)，得到最優(yōu)的MLLR-MAP聲學(xué)模型。

3　實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析

為驗(yàn)證MLLR-MAP方法在蒙古語(yǔ)語(yǔ)音識(shí)別聲學(xué)模型中的效果，搭建了基于Sphinx的蒙古語(yǔ)語(yǔ)音識(shí)別系統(tǒng)，分別進(jìn)行了τ值的選取和蒙古語(yǔ)MLLR-MAP聲學(xué)模型自適應(yīng)實(shí)驗(yàn)。

3.1　語(yǔ)料庫(kù)與評(píng)價(jià)指標(biāo)

蒙古語(yǔ)語(yǔ)料庫(kù)由訓(xùn)練集、自適應(yīng)集和測(cè)試集構(gòu)成，具體構(gòu)成見表1。

表1　語(yǔ)料庫(kù)構(gòu)成

訓(xùn)練集來(lái)源于蒙古語(yǔ)播音員的教學(xué)錄音，共310句，計(jì)39 MB，用于基線聲學(xué)模型的訓(xùn)練。自適應(yīng)集和測(cè)試集由普通的同一個(gè)蒙古族學(xué)生按照口語(yǔ)形式錄制，分別包含13和31個(gè)句子的錄音。

實(shí)驗(yàn)過(guò)程中使用聲學(xué)模型識(shí)別率對(duì)聲學(xué)模型進(jìn)行評(píng)價(jià)。聲學(xué)模型識(shí)別率評(píng)價(jià)指標(biāo)包括模型總正確率TPC、錯(cuò)誤率ERR和準(zhǔn)確率ACC。

總正確率指以句為單位，識(shí)別結(jié)果詞序列中正確的詞數(shù)所占的比例。不考慮插入錯(cuò)誤詞的情況，具體見公式：

TPC= (N-D-S)/N×100%

(8)

式中：N指參考詞序列(即每個(gè)句子正確的詞一級(jí)的序列)中詞的數(shù)目；D是識(shí)別結(jié)果詞序列中未識(shí)別的詞數(shù)；S是識(shí)別詞序列中替換錯(cuò)誤的詞數(shù)。

錯(cuò)誤率指識(shí)別結(jié)果詞序列中錯(cuò)誤詞所占的比例，錯(cuò)誤詞包括：插入錯(cuò)誤詞、未識(shí)別詞和替換錯(cuò)誤的詞。計(jì)算具體見公式：

ERR= (I+D+S)/N×100%

(9)

式中：I是插入錯(cuò)誤的詞數(shù)。

準(zhǔn)確率指在考慮插入錯(cuò)誤詞的情況下，識(shí)別結(jié)果詞序列中正確的詞數(shù)所占的比例。具體見公式：

ACC= (N-I-D-S)/N×100% = (1-ERR)×100%

(10)

通常準(zhǔn)確率的值小于總正確率的值，因?yàn)闇?zhǔn)確率考慮了插入錯(cuò)誤而總正確率沒有考慮。

3.2　值的選取

由于MLLR-MAP方法中τ值參數(shù)不能由自適應(yīng)訓(xùn)練數(shù)據(jù)唯一確定，需要人工選擇。因此，在基線聲學(xué)模型的基礎(chǔ)上，通過(guò)MAP自適應(yīng)選取識(shí)別率最高的τ值作為最終MAP時(shí)的τ值。當(dāng)τ的取值越大時(shí)，自適應(yīng)收斂速度就越快。根據(jù)Nickolay V.Shmyrev的結(jié)論[13]，τ值是一個(gè)在[1,100]區(qū)間的整型值。因此，在[1,100]范圍內(nèi)采用折半取值逐漸逼近的方法進(jìn)行蒙古語(yǔ)聲學(xué)模型建模實(shí)驗(yàn)，選取使聲學(xué)模型的識(shí)別正確率最優(yōu)的τ值。

實(shí)驗(yàn)中，按照τ值與蒙古語(yǔ)聲學(xué)模型正確率變化的情況，τ值的取值依次按照：50->1->100->4->75->38->13->31->19->22->28->23->24。對(duì)應(yīng)的τ值與聲學(xué)模型識(shí)別正確率的實(shí)驗(yàn)結(jié)果如圖2所示。實(shí)驗(yàn)結(jié)果表明，在[1,100]區(qū)間內(nèi)，隨著τ值的增加，聲學(xué)模型識(shí)別正確率的趨勢(shì)是先逐漸升高再逐漸降低，其中，在[22,31]區(qū)間識(shí)別正確率出現(xiàn)了小起伏的波動(dòng)，在τ<22時(shí)，識(shí)別正確率一直在上升，在τ>31時(shí)，識(shí)別正確率一直在下降，當(dāng)τ=22時(shí)，取得最高識(shí)別正確率70.76%。

圖2　聲學(xué)模型識(shí)別率

3.3　蒙古語(yǔ)MLLR-MAP聲學(xué)模型實(shí)驗(yàn)

為了對(duì)比MAP、MLLR、MAP-MLLR、以及MLLR-MAP方法對(duì)蒙古語(yǔ)聲學(xué)模型自適應(yīng)性能的影響，我們?cè)O(shè)計(jì)了8個(gè)蒙古語(yǔ)聲學(xué)模型自適應(yīng)建模實(shí)驗(yàn)。為了區(qū)分不同實(shí)驗(yàn)名稱，實(shí)驗(yàn)中使用建模方法名稱來(lái)定義實(shí)驗(yàn)名稱和蒙古語(yǔ)聲學(xué)模型名稱，具體定義如表2所示。

表2　聲學(xué)模型定義

實(shí)驗(yàn)中，都采用表1中列出的相同蒙古語(yǔ)語(yǔ)料庫(kù)。蒙古語(yǔ)語(yǔ)音特征采用梅爾頻率倒譜系數(shù)MFCC(Mel Frequency Cepstral Coefficents)，幀窗口長(zhǎng)度為25 ms，幀移10 ms。幀提取采用上下文結(jié)合的辦法，即在當(dāng)前幀前后各取5幀來(lái)表示當(dāng)前幀的上下文環(huán)境。聲學(xué)模型訓(xùn)練以三音素作為識(shí)別單元，采用Sphinxtrain-1.0.8工具中的Baum-Welch算法；解碼采用Pocketsphinx-1.0.8工具中的Viterbi算法。

實(shí)驗(yàn)中，自適應(yīng)集和測(cè)試集由不同比例的男女生發(fā)音的句子構(gòu)成，采用聲學(xué)模型評(píng)價(jià)指標(biāo)對(duì)8類實(shí)驗(yàn)進(jìn)行評(píng)價(jià)，具體實(shí)驗(yàn)結(jié)果數(shù)據(jù)統(tǒng)計(jì)如表3所示。

表3　聲學(xué)模型實(shí)驗(yàn)結(jié)果

相對(duì)于構(gòu)建的基線聲學(xué)模型，其他7種蒙古語(yǔ)聲學(xué)模型建模方法在不同男女比例的自適應(yīng)集和測(cè)試集上聲學(xué)模型的總正確率和錯(cuò)誤率上都有不同程度的提升，TPC提升率(TPC↑)=聲學(xué)模型的TPC-基線聲學(xué)模型的TPC，ERR下降率(ERR↓)=基線聲學(xué)模型的ERR-聲學(xué)模型的ERR。聲學(xué)模型的提升結(jié)果如表4所示。

表4　聲學(xué)模型提升對(duì)比

因此，7種構(gòu)建自適應(yīng)蒙古語(yǔ)聲學(xué)模型的建模方法在5種自適應(yīng)與測(cè)試數(shù)據(jù)集上的平均提升結(jié)果如圖3所示。

圖3　相對(duì)于基線聲學(xué)模型性能提升結(jié)果

實(shí)驗(yàn)結(jié)果表明，在使用相同的蒙古語(yǔ)語(yǔ)料庫(kù)和基線聲學(xué)模型的實(shí)驗(yàn)環(huán)境下，使用MLLR-MAP自適應(yīng)方法構(gòu)建的蒙古語(yǔ)聲學(xué)模型，無(wú)論是在τ=22最優(yōu)的情況下，還是在其他τ(例如τ=62)值的情況下，蒙古語(yǔ)聲學(xué)模型的識(shí)別率優(yōu)于其他自適應(yīng)的建模方法。并且在τ=22時(shí)，MLLR-MAP構(gòu)建的蒙古語(yǔ)語(yǔ)音聲學(xué)模型是最優(yōu)的。在平衡語(yǔ)料庫(kù)下，總正確率提升了14.54%，錯(cuò)誤率下降了17.52%。在所有的實(shí)驗(yàn)情況下，平均總正確率提升了17.27%，平均錯(cuò)誤率下降了18.15%。

4　結(jié)　語(yǔ)

(1) 通過(guò)結(jié)合MLLR和MAP兩種自適應(yīng)模型的

建模方法，給出了一種構(gòu)建自適應(yīng)蒙古語(yǔ)語(yǔ)音識(shí)別聲學(xué)模型的MLLR-MAP方法。

(2) 在τ值選取方面，為了選取合適的τ值，采取了折半取值逐漸逼近的方法，給出了蒙古語(yǔ)語(yǔ)音識(shí)別聲學(xué)模型MAP自適應(yīng)的參數(shù)τ值。

(3) 在自適應(yīng)聲學(xué)模型建模方法方面，把MLLR自適應(yīng)后的均值作為聲學(xué)模型MAP自適應(yīng)均值的輸入，有效均值的重估使得聲學(xué)模型識(shí)別率得到了進(jìn)一步的提高。

(4) 設(shè)計(jì)了8個(gè)自適應(yīng)建模實(shí)驗(yàn)，通過(guò)實(shí)驗(yàn)數(shù)據(jù)，充分對(duì)比了各種自適應(yīng)聲學(xué)模型的建模方法。實(shí)驗(yàn)結(jié)果表明，MLLR-MAP聲學(xué)模型自適應(yīng)性能在聲學(xué)模型識(shí)別率上明顯優(yōu)于其他模型，確定了MLLR-MAP方法比MAP-MLLR等其他方法在蒙古語(yǔ)語(yǔ)音識(shí)別上的有效性。因此，可以為其他少數(shù)民族語(yǔ)言語(yǔ)音識(shí)別聲學(xué)模型的自適應(yīng)性建模提供借鑒。

未來(lái)的工作中，需要對(duì)非平衡訓(xùn)練集在蒙古語(yǔ)語(yǔ)音識(shí)別聲學(xué)模型中的應(yīng)用展開研究，以及對(duì)MLLR自適應(yīng)中重估方差問(wèn)題的研究。

[1] Leggetter C J, Woodland P C. Maximum Likelihood Linear Regression for Speaker Adaptation of Continuous Density Hidden Markov Models[J]. Computer Speech & Language, 1995, 9(2):171-185.

[2] Gales M J F. Maximum Likelihood Linear Transformations for HMM-based Speech Recognition[J]. Computer Speech & Language, 1998, 12(12):75-98.

[3] Borsky M, Pollak P. Knowledge-based and Automated Clustering in MLLR Adaptation of Acoustic Models for LVCSR[C]// International Conference on Applied Electronics. 2012:33-36.

[4] Ramya T, Christina S L, Vijayalakshmi P, et al. Analysis on MAP and MLLR based Speaker Adaptation Techniques in Speech Recognition[C]//Circuit, Power and Computing Technologies (ICCPCT), 2014 International Conference on. IEEE, 2014: 1753-1758.

[5] Povey D, Woodland P C, Gales M J F. Discriminative map for acoustic model adaptation[C]// IEEE International Conference on Acoustics, Speech, and Signal Processing, 2003. Proceedings. IEEE, 2003:312-315.

[6] Mahiba S M, Christina S L, Vijayalakshmi P, et al. Analysis of Cross-Gender Adaptation Using MAP and MLLR in Speech Recognition Systems[C]//Recent Trends in Information Technology (ICRTIT), 2013 International Conference on. IEEE, 2013: 387-392.

[7] Lee C H, Gauvain J L. Speaker adaptation based on MAP estimation of HMM parameters[C]// IEEE International Conference on Acoustics, Speech, and Signal Processing: Speech Processing. IEEE Computer Society, 1993:558-561.

[8] 柯登峰, 徐波. 互聯(lián)網(wǎng)時(shí)代語(yǔ)音識(shí)別基本問(wèn)題[J]. 中國(guó)科學(xué), 2013, 43,(12):1578-1597.

[9] 豐洪才, 盧正鼎. 基于MAP和MLLR的綜合漸進(jìn)自適應(yīng)方法研究[J]. 計(jì)算機(jī)工程, 2005, 31(5):4-7.

[10] 飛龍, 高光來(lái), 閆學(xué)亮, 等. 基于分割識(shí)別的蒙古語(yǔ)語(yǔ)音關(guān)鍵詞檢測(cè)方法的研究[J]. 計(jì)算機(jī)科學(xué), 2013, 40(9): 208-211.

[11] CMU. Sphinx-4 Application Programmer’s Guide [EB]. http://cmusphinx.sourceforge.net/wiki/tutorialsphinx4/#source#source.

[12] CMU. Training Acoustic Model for CMU Sphinx [EB]. http://cmusphinx.sourceforge.net/wiki/tutorialam.

[13] CMU. Adaptation for Very Small Grammar [EB].https://sourceforge.net/p/cmusphinx/discussion/help/thread/fe169a87/?limit=25#6022.

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

一種構(gòu)建自適應(yīng)蒙古語(yǔ)語(yǔ)音識(shí)別聲學(xué)模型的方法

0 引 言

1 相關(guān)工作

1.1 最大似然線性回歸方法

1.2 最大后驗(yàn)概率方法

2 自適應(yīng)蒙古語(yǔ)聲學(xué)模型建模方法

2.1 蒙古語(yǔ)語(yǔ)音的特點(diǎn)

2.2 MLLR-MAP方法

2.3 自適應(yīng)蒙古語(yǔ)聲學(xué)模型MLLR-MAP的訓(xùn)練

3 實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析

3.1 語(yǔ)料庫(kù)與評(píng)價(jià)指標(biāo)

3.2 值的選取

3.3 蒙古語(yǔ)MLLR-MAP聲學(xué)模型實(shí)驗(yàn)

4 結(jié) 語(yǔ)