亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

普通話發(fā)音錯(cuò)誤自動(dòng)檢測技術(shù)

2010-10-15 01:38:08戴禮榮

中文信息學(xué)報(bào) 2010年2期

張峰,黃超,戴禮榮

(1.中國科學(xué)技術(shù)大學(xué)電子工程與信息科學(xué)系科大訊飛語音實(shí)驗(yàn)室,安徽合肥230027;2.微軟亞洲研究院,北京100080)

1 引言

近年來,計(jì)算機(jī)輔助語言學(xué)習(xí)(Computer Assistant Language Learning,CALL)獲得了越來越廣泛的關(guān)注。在計(jì)算機(jī)輔助語言學(xué)習(xí)系統(tǒng)中,給學(xué)習(xí)者提供一個(gè)整體說話水平評(píng)估是非常有幫助的。目前,這個(gè)方向已經(jīng)有了很多的研究[1-2]。除了話者的整體說話水平得分以外,提供一個(gè)更加詳細(xì)的具體的發(fā)音錯(cuò)誤反饋,對(duì)于學(xué)習(xí)者的語言學(xué)習(xí)有更大的幫助。因此,本文專注于提高普通話的字發(fā)音錯(cuò)誤自動(dòng)檢測系統(tǒng)的性能研究。

現(xiàn)在的發(fā)音錯(cuò)誤檢測方法的研究主要有兩大類。一類是基于語音學(xué)知識(shí)以及區(qū)分性特征的方法,例如Truong[3]利用時(shí)長、共振峰和基頻作為區(qū)分性的特征,Ito等[4]采用基于決策樹的多門限來檢測發(fā)音錯(cuò)誤;另一類是基于統(tǒng)計(jì)語音識(shí)別框架的發(fā)音檢錯(cuò)方法。在這兩類方法中,基于統(tǒng)計(jì)語音識(shí)別框架的檢測方法處于主流位置,本文采用此框架?；诖丝蚣艿暮芏嘌芯考杏谥眯哦葮?biāo)準(zhǔn)的設(shè)置,其中Franco[5]采用基于隱馬爾科夫模型(Hidden Markov Model,HMM)的后驗(yàn)概率得分和基于高斯模型的似然比得分來檢測錯(cuò)誤發(fā)音;Witt[2]采用了一種后驗(yàn)概率的變形方法——GOP(Goodness of Pronunciation)。

在基于統(tǒng)計(jì)語音識(shí)別框架的檢測方法中,除了研究更好的置信度度量外,通過改進(jìn)聲學(xué)模型的方法也是提高系統(tǒng)性能的有效途徑之一。最初用于自動(dòng)語音識(shí)別(Automatic Speech Recognition,ASR)系統(tǒng)的話者自適應(yīng)技術(shù)能很好的改進(jìn)ASR系統(tǒng)的聲學(xué)模型。此技術(shù)對(duì)于發(fā)音檢測也同樣適用。但是考慮到自動(dòng)語音識(shí)別和發(fā)音錯(cuò)誤自動(dòng)檢測系統(tǒng)的不同目的,本文采用了說話人自適應(yīng)訓(xùn)練(Speaker Adaptive Training,SAT)和選擇性最大似然線性回歸(Selective Maximum Likelihood Linear Regression,SMLLR)的說話人自適應(yīng)技術(shù),以適用于發(fā)音錯(cuò)誤自動(dòng)檢測問題。

雖然采用了以上的策略,發(fā)音錯(cuò)誤自動(dòng)檢測任務(wù)仍然是個(gè)巨大的挑戰(zhàn)。目前的發(fā)音錯(cuò)誤自動(dòng)檢測任務(wù)和與之類似的任務(wù)——說話人發(fā)音自動(dòng)評(píng)分任務(wù),兩者的性能差距非常大,而后者的性能已經(jīng)能接近專家的水平[1]。一個(gè)主要的原因就是,對(duì)于發(fā)音錯(cuò)誤自動(dòng)檢測任務(wù),一般僅通過一個(gè)字的發(fā)音數(shù)據(jù)來做判斷;而對(duì)于說話人發(fā)音自動(dòng)評(píng)分任務(wù),可以通過該說話人的很多個(gè)字的發(fā)音數(shù)據(jù)來生成一個(gè)得分。這提示我們?nèi)绻谡f話人的層次上檢測發(fā)音錯(cuò)誤,將有效提高檢測的性能。為此,本文引入了說話人歸一化的方法。

本文具體組織如下：第二節(jié)介紹系統(tǒng)采用的普通話字發(fā)音質(zhì)量打分方法;第三節(jié)介紹通過說話人自適應(yīng)的方法來提高系統(tǒng)的聲學(xué)統(tǒng)計(jì)模型的檢錯(cuò)性能;在第四節(jié)中,介紹了通過說話人歸一化的方法來改進(jìn)系統(tǒng)后端;第五節(jié)給出了各種方法的實(shí)驗(yàn)結(jié)果;最后是總結(jié)和展望。

2 普通話的發(fā)音質(zhì)量打分

2.1 音素的發(fā)音質(zhì)量打分

本文基于統(tǒng)計(jì)語音識(shí)別框架,采用HMM統(tǒng)計(jì)模型來表示每個(gè)音素的標(biāo)準(zhǔn)發(fā)音。為了獲得某個(gè)測試音素的發(fā)音質(zhì)量,很多研究表明對(duì)數(shù)后驗(yàn)概率(Log-Posterior Probability,LPP)是個(gè)很好的參數(shù)。由于說話人特性的不同和信道的變化會(huì)導(dǎo)致輸入信號(hào)的頻譜不匹配,而該參數(shù)受頻譜變化的影響較小,能更加集中的反映發(fā)音質(zhì)量。

在實(shí)際的應(yīng)用中,由于聲學(xué)得分的動(dòng)態(tài)范圍非常大,會(huì)導(dǎo)致 LPP值僅僅分布在幾個(gè)很窄的范圍內(nèi)。因此,需要把聲學(xué)得分做比例化處理,從而使得分具有可操作性。通過引入一個(gè)合適的比例化因子α,使得后驗(yàn)概率在0和1之間的分布更加均勻,經(jīng)過比例化的LPP值在本文中稱為比例化對(duì)數(shù)后驗(yàn)概率(Scaled Log-Posterior Probability,SLPP)。在一個(gè)基于HMM的語音識(shí)別器中,給定某個(gè)音素的觀察矢量O和它對(duì)應(yīng)的標(biāo)注qi,該音素的SLPP值可計(jì)算如下：

其中 L是維特比(Viterbi)解碼產(chǎn)生的網(wǎng)格(Lattice)中的路徑總數(shù),K是其中含有音素qi的路徑總數(shù),p(O|Ll)是網(wǎng)格中第l條路徑的似然比,p(O|)是網(wǎng)格中包含有qi的第k條路徑的似然比,p(qi)是音素qi的先驗(yàn)概率。

2.2 字的發(fā)音質(zhì)量打分

為了檢測普通話的字發(fā)音錯(cuò)誤,首先要獲得每個(gè)音素的SLPP值。然后,每個(gè)字的得分就可以用其音素的SLPP值來做加權(quán)平均。由于普通話每個(gè)字一般都由聲母和韻母組成,則字的發(fā)音質(zhì)量得分可用下式表示：

其中wi和w f是聲母 qi和韻母q f,的權(quán)重。

3 聲學(xué)模型的改進(jìn)方法

為了改進(jìn)發(fā)音錯(cuò)誤自動(dòng)檢測系統(tǒng)的性能,除了改進(jìn)打分方法外,提高聲學(xué)模型的性能也很重要。本部分提出了兩個(gè)策略來獲得更好的聲學(xué)模型。在模型訓(xùn)練的時(shí)候,引入基于受限最大似然線性回歸(Constrained Maximum Likelihood Linear Regression,CMLLR)的SAT方法來進(jìn)行說話人歸一化,減少由于訓(xùn)練數(shù)據(jù)說話人特性不同而帶來的對(duì)模型參數(shù)的不可靠估計(jì);在測試時(shí),引入最大似然線性回歸(Maximum Likelihood Linear Regression,MLLR)的技術(shù)來進(jìn)行說話人自適應(yīng),減少訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)的不匹配。由于自動(dòng)語音識(shí)別和發(fā)音錯(cuò)誤自動(dòng)檢測的目標(biāo)不一致,本文提出了選擇性最大似然線性回歸(SMLLR)技術(shù)。

【例4】（2018·福建中考·34）泡菜的制作工藝是我國悠久的食文化遺產(chǎn)之一。在制作泡菜過程中，應(yīng)控制亞硝酸鹽在一定濃度范圍內(nèi)，以免對(duì)人體產(chǎn)生危害。興趣小組研究不同濃度食醋對(duì)泡白菜中亞硝酸鹽含量的影響，具體做法是：稱取等量白菜4份，每份均加入等量7%鹽水、鮮姜和辣椒，再加入食醋，調(diào)節(jié)料液的食醋濃度分別為0、0.3%、0.6%、0.9%。重復(fù)做3次。從泡菜制作第1天開始，每天測定其亞硝酸鹽含量，測定10天，結(jié)果如圖2所示。

3.1 采用SAT進(jìn)行說話人歸一化

為了估計(jì)HMM模型的參數(shù),訓(xùn)練數(shù)據(jù)通常需要包含大量的說話人。由于說話人特性的不同,導(dǎo)致說話人之間聲學(xué)特性的變化,從而影響模型參數(shù),尤其是方差。這不僅是自動(dòng)語音識(shí)別系統(tǒng)產(chǎn)生錯(cuò)誤的主要原因之一,也大大影響了發(fā)音錯(cuò)誤自動(dòng)檢測系統(tǒng)的性能。在說話人無關(guān)模型的訓(xùn)練中,基于SAT的說話人歸一化方法已經(jīng)證明可以有效的減少由于不同說話人的特性引發(fā)的交疊。SAT的方法通過最大似然準(zhǔn)則進(jìn)行線性變換,目的在于分離兩個(gè)過程,一個(gè)是說話人相關(guān)變化,另一個(gè)是語音信號(hào)的音素相關(guān)變化。主要有兩種實(shí)現(xiàn)SAT的方法,一個(gè)是不受限的要最大似然線性回歸[6],其均值和方差不相關(guān);另一個(gè)是受限的CMLLR[7],其均值 μ和方差∑的變換矩陣 A′是一致的。CMLLR的通常形式如下：

其中b′是偏移值。考慮到運(yùn)算量和性能[8],在我們的系統(tǒng)中采用了基于CMLLR的SAT方法。

3.2 采用SMLLR進(jìn)行說話人自適應(yīng)

在訓(xùn)練的時(shí)候,使用SAT的方法可以獲得說話人方差更小的模型。而在測試的時(shí)候,由于測試數(shù)據(jù)的說話人相關(guān)和語音學(xué)相關(guān)的變化,使得必須使用說話人自適應(yīng)技術(shù)來消除這種不匹配。在自動(dòng)語音識(shí)別系統(tǒng)中,MLLR已經(jīng)證明是一種非常有效的方法來補(bǔ)償訓(xùn)練模型和測試數(shù)據(jù)的差異。對(duì)于發(fā)音錯(cuò)誤自動(dòng)檢測系統(tǒng),MLLR也是有效的。但是對(duì)這兩種系統(tǒng)使用MLLR技術(shù)有很大的不同。語音識(shí)別的目的是為了提高識(shí)別率,因此,語音識(shí)別中的說話人自適應(yīng)就需要盡可能的降低訓(xùn)練和測試數(shù)據(jù)的不匹配程度,無論它是由于說話人的特性還是由于說話人的錯(cuò)誤發(fā)音引起的。而發(fā)音錯(cuò)誤自動(dòng)檢測的目的是判斷發(fā)音正確與否,因此,說話人自適應(yīng)的目的就是為了減少由于說話人特性帶來的不匹配,而不是由于說話人發(fā)音錯(cuò)誤帶來的不匹配。這里我們采用兩個(gè)方法來實(shí)現(xiàn)這個(gè)目的。一個(gè)方法是在MLLR的時(shí)候利用一個(gè)全局變換矩陣,全局變換矩陣帶有更多的說話人特性和更少的音素相關(guān)的變化,除此以外,這個(gè)全局變換矩陣應(yīng)該盡可能少的用說話人錯(cuò)誤發(fā)音數(shù)據(jù)來產(chǎn)生。因此,本文提出用自動(dòng)挑選的發(fā)音水平高的數(shù)據(jù)來做MLLR自適應(yīng)。在獲得一個(gè)說話人的所有字的SLPP得分后,高分的字則被近似認(rèn)為是好的,發(fā)音錯(cuò)誤少的。在這些被挑選的字?jǐn)?shù)據(jù)上做MLLR自適應(yīng),我們稱為選擇性的MLLR(SMLLR),它可以有效的降低自適應(yīng)中錯(cuò)誤發(fā)音帶來的影響。

圖1表示了利用SAT和SMLLR來改進(jìn)聲學(xué)模型的方法。初始(步驟0),我們有一個(gè)性別相關(guān)(Gender Dependant,GD)的模型作為基線模型。在步驟1中,采用SAT的方法建立一個(gè)更加緊湊的GD+SAT的模型。步驟2,按照公式(2)對(duì)一個(gè)說話人的每個(gè)字計(jì)算其SLPP得分。步驟3,得分高的字被選中作為自適應(yīng)訓(xùn)練數(shù)據(jù)。步驟4中利用這些數(shù)據(jù)來做MLLR自適應(yīng)。在步驟5中,通過GD+SAT+SMLLR的模型和合適的門限選出錯(cuò)誤發(fā)音。

圖1 改進(jìn)聲學(xué)模型的流程圖

4 說話人得分歸一化的方法改進(jìn)系統(tǒng)后端

4.1 引入該方法的動(dòng)機(jī)

近年來,對(duì)發(fā)音錯(cuò)誤自動(dòng)檢測的任務(wù),已經(jīng)有很多研究,提出了很多方法。但是,發(fā)音錯(cuò)誤自動(dòng)檢測系統(tǒng)離實(shí)際應(yīng)用還有很大的差距,該任務(wù)目前仍然是個(gè)巨大的挑戰(zhàn)。同時(shí)我們發(fā)現(xiàn),說話人整體發(fā)音自動(dòng)評(píng)分任務(wù)與該任務(wù)非常類似,其目標(biāo)是通過一個(gè)說話人的幾十個(gè)甚至上百個(gè)字的發(fā)音,來給該說話人的發(fā)音水平評(píng)分。研究表明,此任務(wù)的性能已經(jīng)能接近專家的水平,可以達(dá)到實(shí)用[9]。兩者性能差距的一個(gè)主要原因就是,對(duì)于發(fā)音錯(cuò)誤自動(dòng)檢測任務(wù),我們僅通過一個(gè)字的數(shù)據(jù)來做判斷;而對(duì)于說話人整體發(fā)音自動(dòng)評(píng)分任務(wù),我們可以通過該說話人的很多的數(shù)據(jù)來生成一個(gè)得分。信息量的差距很大。這提示了我們可以在說話人的層次上檢測發(fā)音錯(cuò)誤。為此,本文引入了說話人歸一化的方法,將說話人整體發(fā)音得分作為一個(gè)新的判斷因素。

引入說話人整體發(fā)音得分除了可以提高信息量外,對(duì)于不同發(fā)音水平的說話人錯(cuò)誤發(fā)音,專家的評(píng)價(jià)標(biāo)準(zhǔn)也不一樣。對(duì)于整體水平高的說話人,專家要求更嚴(yán)格,而對(duì)于整體水平低的說話人,專家要求較放松。我們將40個(gè)測試說話人按照其發(fā)音水平從1到4依次分為4個(gè)等級(jí)(1為最好,4為最差),計(jì)算對(duì)每個(gè)等級(jí)的說話人,專家認(rèn)為的正確發(fā)音和錯(cuò)誤發(fā)音的SLPP得分均值和方差,結(jié)果如表1所示。

表1 不同等級(jí)說話人正確和錯(cuò)誤發(fā)音得分

從該表中可以發(fā)現(xiàn)發(fā)音最好的說話人的錯(cuò)誤發(fā)音得分甚至要好于發(fā)音最差的說話人的正確發(fā)音得分?？梢钥闯?對(duì)于不同發(fā)音水平的說話人,專家的評(píng)判標(biāo)準(zhǔn)也是不一致的。因此,引入說話人整體發(fā)音得分作為一個(gè)新的參數(shù)是必要的。

4.2 說話人得分歸一化方法

在本文的系統(tǒng)中,使用一個(gè)合適的門限來判斷正確和錯(cuò)誤的發(fā)音。由4.1可知,不同水平的說話人的判決門限應(yīng)該不一樣,因此,文中用說話人的整體得分來歸一化其每一個(gè)字的得分,如公式(5)所示：

式中的分子為一個(gè)字的原始得分,分母為說話人的得分,其中N為該說話人所說的字的個(gè)數(shù)。這里用的歸一化方法雖然還是一種很簡單的方法,但是后文的實(shí)驗(yàn)結(jié)果表明該方法的有效性。以后可以考慮采用更加復(fù)雜的方法。

5 實(shí)驗(yàn)配置與實(shí)驗(yàn)結(jié)果

5.1 實(shí)驗(yàn)數(shù)據(jù)

普通話水平測試(Putonghua Shuiping Ceshi,PSC)是中國官方測試說話人普通話發(fā)音水平的考試。我們?cè)O(shè)計(jì)的實(shí)驗(yàn)數(shù)據(jù)庫,與 PSC的標(biāo)準(zhǔn)相一致。

數(shù)據(jù)庫中有 140個(gè)本國說話人(70個(gè)男性,70個(gè)女性),其中100個(gè)(50個(gè)男性,50個(gè)女性)發(fā)音標(biāo)準(zhǔn)的說話人用來訓(xùn)練標(biāo)準(zhǔn)發(fā)音模型,其余的40個(gè)說話人的發(fā)音水平從很好到很差,作為測試數(shù)據(jù)。每個(gè)說話人說兩題,每題包含4個(gè)部分：100個(gè)單字,由100個(gè)單字組成的49個(gè)詞,一段閱讀以及一段主題演講。100個(gè)標(biāo)準(zhǔn)發(fā)音說話人的前兩個(gè)部分用來訓(xùn)練單音素(mono-phone)模型。剩下的40個(gè)說話人的第一部分作為測試數(shù)據(jù)進(jìn)行發(fā)音錯(cuò)誤檢測實(shí)驗(yàn)。

為了獲得錯(cuò)誤發(fā)音的參考,我們邀請(qǐng)了三位獲得國家認(rèn)證的PSC評(píng)分專家來為每個(gè)說話人的每個(gè)字的發(fā)音標(biāo)準(zhǔn)與否做標(biāo)注。任何一個(gè)字只要有一個(gè)專家認(rèn)為發(fā)音有缺陷或者發(fā)音錯(cuò)誤,我們就認(rèn)為該字發(fā)音錯(cuò)誤。實(shí)驗(yàn)中,我們共有來自40個(gè)說話人的8000個(gè)字,其中錯(cuò)誤發(fā)音有1746個(gè)。數(shù)據(jù)的專家一致性方面,兩個(gè)專家檢錯(cuò)一致的發(fā)音占總錯(cuò)誤發(fā)音的36%,三個(gè)專家檢錯(cuò)一致的發(fā)音占總錯(cuò)誤發(fā)音的13%。

5.2 聲學(xué)統(tǒng)計(jì)模型

我們知道,普通話是一種帶調(diào)語言,調(diào)對(duì)于普通話的發(fā)音很重要,例如方言發(fā)音者很容易發(fā)錯(cuò)調(diào)。研究表明,F0相關(guān)的特征能夠有效地提高調(diào)的識(shí)別率,但是F0不連續(xù)一直是個(gè)很大的問題。

最早由 Tokuda[10]提出的多空間分布(Multispace Distribution,MSD)方法,能夠有效地處理F0不連續(xù)的問題,提高帶調(diào)語言的識(shí)別率和檢測調(diào)型錯(cuò)誤[11]。因此,在我們的實(shí)驗(yàn)中采用了包含有184個(gè)單音素的MSD-HMM模型。聲學(xué)模型的特征由39維頻譜特征和5維F0特征組成。

5.3 實(shí)驗(yàn)結(jié)果

對(duì)于任何檢測任務(wù),都有兩種錯(cuò)誤類型。在發(fā)音錯(cuò)誤自動(dòng)檢測任務(wù)中,任何發(fā)音有缺陷或者有錯(cuò)誤的都是我們的檢測目標(biāo)。因此,我們定義了兩種度量標(biāo)準(zhǔn),正確率(Precision)和召回率(Recall)。通過設(shè)置不同的門限,一個(gè)目標(biāo)字就可以判斷為正確或錯(cuò)誤的發(fā)音。Precision為檢測出來的真正的錯(cuò)誤發(fā)音占檢測出來的錯(cuò)誤發(fā)音總數(shù)的比值;Recall為檢測出來的錯(cuò)誤發(fā)音占所有真正錯(cuò)誤發(fā)音數(shù)目的比值。后文中采用正確率—召回率曲線表示實(shí)驗(yàn)結(jié)果。

關(guān)于實(shí)驗(yàn)中聲母和韻母的權(quán)重問題,我們測試了平均加權(quán)、按時(shí)長加權(quán)和線性搜索最優(yōu)權(quán)重的方法。其中,線性搜索最優(yōu)權(quán)重的效果最好。通過測試集和開發(fā)集的驗(yàn)證,得出聲母和韻母的權(quán)重為1∶3較為合適。

5.3.1 SAT的性能

作為一種有效的說話人歸一化方法,基于CMLLR的SAT技術(shù)能夠獲得一個(gè)帶有更少說話人變更的標(biāo)準(zhǔn)模型,它在發(fā)音錯(cuò)誤自動(dòng)檢測任務(wù)中的性能如圖2所示?？梢钥吹?在中部和低部Recall區(qū)域,SAT可以提高系統(tǒng)的性能。

圖2 SAT方法的性能

5.3.2 SMLLR的性能

在訓(xùn)練時(shí)采用SAT能夠改進(jìn)聲學(xué)模型,在測試時(shí),MLLR的說話人自適應(yīng)技術(shù)能夠消除訓(xùn)練模型和測試數(shù)據(jù)的不匹配。實(shí)驗(yàn)中的M LLR采用了一個(gè)全局變換矩陣以反映說話人特性而忽略掉其發(fā)音變異。為了減少自適應(yīng)數(shù)據(jù)中錯(cuò)誤發(fā)音的影響,采用了SM LLR技術(shù)。其具體實(shí)現(xiàn)細(xì)節(jié)如圖1所示。

我們用5.3.1節(jié)中的SLPP得分較高的字作為自適應(yīng)訓(xùn)練數(shù)據(jù)。實(shí)驗(yàn)中,大約用每個(gè)說話人40%的字用來做自適應(yīng),這個(gè)值實(shí)際上可按照說話人的水平來動(dòng)態(tài)調(diào)整。SMLLR的性能如圖3所示,在低Recall區(qū)域,SMLLR能夠有效的增加Precision的值。從圖中可發(fā)現(xiàn),單純使用MLLR的性能沒有變好,因?yàn)樗矔?huì)消除錯(cuò)誤發(fā)音帶來的不匹配。

圖3 SMLLR方法的性能

5.3.3 后端說話人得分歸一化的性能

由于單個(gè)字的信息量過少和不同水平發(fā)音人評(píng)價(jià)等級(jí)不一致這兩個(gè)原因,我們引入了說話人整體打分的特征,并做了一個(gè)簡單的說話人得分歸一化處理,其效果如圖4所示?？梢钥闯?該方法極大地改進(jìn)了系統(tǒng)的性能。

圖4 后端說話人得分歸一化方法的性能

5.4 實(shí)驗(yàn)總結(jié)

以上所有實(shí)驗(yàn)的結(jié)果總結(jié)在表2中。由于我們認(rèn)為把正確發(fā)音誤判為錯(cuò)誤發(fā)音對(duì)用戶的影響會(huì)遠(yuǎn)遠(yuǎn)大于錯(cuò)誤發(fā)音沒有檢測出來的影響,所以,我們對(duì)正確率的值會(huì)更關(guān)注。因此,表中顯示了在相同召回率的情況下正確率的變化?？梢钥吹?我們提出的方法一步步地提高了發(fā)音錯(cuò)誤自動(dòng)檢測系統(tǒng)的性能。

表2 各種方法的性能總結(jié)

6 結(jié)論與展望

本文從兩個(gè)方面提出了改進(jìn)普通話的發(fā)音錯(cuò)誤自動(dòng)檢測系統(tǒng)性能的方法：一方面用SAT和SMLLR方法來提高系統(tǒng)聲學(xué)模型的性能;另一方面引入說話人整體發(fā)音質(zhì)量來做說話人歸一化,以提高后端性能。實(shí)驗(yàn)結(jié)果驗(yàn)證了這些方法的可靠性,召回率為30%時(shí),正確率從45.8%提升到了53.6%,召回率為10%時(shí),正確率從64.6%提升到了79.9%。雖然系統(tǒng)性能有了很大的提高,但是離實(shí)際使用還有差距,其原因除了算法方面外,專家標(biāo)注的一致性不高和錯(cuò)誤發(fā)音的樣本數(shù)不多也有影響。下一步考慮將更多的說話人信息融入到單個(gè)字的發(fā)音檢錯(cuò)里面去。

[1]Zheng,J.,Huang,C.,Chu,M.,Soong,F.K.,Ye,W.,Generalized Segment Posterior Probability for Automatic Mandarin Pronunciation Evaluation[C]//Proc.ICASSP,Hawaii,USA,2007：201-204.

[2]Witt,S.,M,Use of Speech recognition in Computer assisted Language Learning[D].PhD Thesis,University of Cambridge,1999.

[3]Truong,K.,Automatic Pronunciation Error Detection in Dutch as a Second Language：an Acoustic-Phonetic Approach[D].Master's thesis,Utrecht University,Netherlands,2004.

[4]Ito,A.,Lim,Y.,Suzuki,M.,Makino,S.,Pronunciation Error Detection Method based on Error Rule Clustering using a Decision Tree[C]//Proc.EuroSpeech,2005：173-176.

[5]Franco,H.,Neumeyer,L.,Kim,Y.,Ronen,O.,Bratt,H.,Automatic Detection of phone-level mispronunciation for language learning[C]//Proc.Eurospeech,1999,2,851-854.

[6]Anastasakos,T.,McDonough,J.,Schwartz,R.&Makhoul,J.A compact model for speaker-adaptive training[C]//Proc.ICSLP, Philadelphia,1996：1137-1140.

[7]Giuliani,D.,Gerosa,M.,Brugnara,F.,Improved automatic speech recognition through speaker normalization[J].computer speech and language,2006,20,107-123.

[8]Gales,M.J.F,Maximum likelihood linear transformations for HMM-based speech recognition[J],Computer Speech and Language,1998,12,75-98.

[9]魏思,劉慶升,胡郁,王仁華,普通話水平測試電子化系統(tǒng)[J],中文信息學(xué)報(bào),89-96,2006。

[10]Tokuda,K.,Masuko,T.,Miyazaki,N.,and Kobayashi,T.,Multi-space Probability Distribution HMM[J],IEICE Trans.Inf.&Syst.,E85-D(3)：pp.455-464,2002.

[11]Zhang,L.,Huang,C.,Chu,M.,Soong,F.K.Automatic detection of tonemispronunciation in Mandarin Chinese[C]//Proc.ISCSLP,LNAI 4272,Springer,2006：590-601.