亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

針對發(fā)音質量評測的聲學模型優(yōu)化算法

2013-04-23 12:25:46戴禮榮

中文信息學報 2013年1期

嚴可，魏思，戴禮榮

(1. 中國科學技術大學，安徽合肥 230027； 2. 科大訊飛股份有限公司，安徽合肥 230088)

1 引言

隨著計算機科學與信息科學的發(fā)展，計算機輔助學習系統(tǒng)(Computer Assisted Language Learning, CALL)走進千家萬戶，發(fā)揮著日益重要的作用。發(fā)音質量評測是計算機輔助學習的重要內容，它不僅能顯著提升口語學習效率，還可代替教師進行口語考試部分題型的評分，極大緩解了大規(guī)模機考實踐中教師評分任務繁重及費用居高不下的問題。目前，在文本相關的發(fā)音質量評測任務上，如朗讀、跟讀等，計算機已經(jīng)接近人工評分水平[1]，并在普通話水平測試、英語學習等任務上得到廣泛應用，但性能仍需改進。

本文研究屬于文本相關的評測，即考生按照指定文本發(fā)音，計算機根據(jù)發(fā)音質量反饋出分數(shù)。一般采用自動語音識別(Automatic Speech Recognition,ASR)技術，根據(jù)給定文本將語音切分到音素，在此基礎上計算能反映發(fā)音標準度和流暢度的評分特征，進而給出機器分。在常用的評分特征中，幀規(guī)整后驗概率[2-3]是目前公認的最能反映發(fā)音標準度的度量。另外，人們常用的GOP (Goodness of Pronunciation)算法[4-5]也是在幀規(guī)整后驗概率理論框架下的簡化。

聲學模型是幀規(guī)整后驗概率計算的重要依據(jù)。由于自動發(fā)音質量評測的研究源于語音識別，至今人們仍普遍采用語音識別技術進行聲學建模。但語音識別與發(fā)音質量評測有著顯著不同：語音識別需要包容非標準發(fā)音，因此采用標準發(fā)音和非標準發(fā)音混合訓練聲學模型，能使訓練與測試更加匹配，從而有效提升識別性能；而發(fā)音質量評測任務需嚴格鑒別標準發(fā)音與非標準發(fā)音，因此人們僅使用標準發(fā)音進行聲學建模。

起初，人們自然想到使用公認的最為標準的發(fā)音——第一語言學習者(L1)的標準發(fā)音進行聲學建模[2]。但隨后發(fā)現(xiàn)這種方式會給第二語言學習者(L2)相似的分數(shù)，無論其發(fā)音是否良好。顯然，這是由于L2與L1的發(fā)音風格差別很大導致。于是，人們提出采用良好的L2發(fā)音來進行聲學建模[6]。雖然這種建模方式在L2的學習任務上性能良好，隨后發(fā)現(xiàn)機器會給L1較低的分數(shù)。因為該建模方式認為良好的L2發(fā)音才是“標準模版”，而標準的L1發(fā)音與之相去甚遠。不難預見，若L1的標準發(fā)音和L2的良好均參與聲學模型訓練，系統(tǒng)必然會認為這兩種發(fā)音同樣標準(而顯然L1應更標準)，這種情況同樣令人尷尬。

如何將非標準發(fā)音融入聲學建模，人們進行了不懈努力。文獻[7]提出了“發(fā)音空間建?！彼枷?，將聲學模型分為“標準發(fā)音”、“中等發(fā)音”和“差等發(fā)音”；文獻[8]利用語音識別區(qū)分性訓練框架，同時使用正確發(fā)音和錯誤發(fā)音數(shù)據(jù)進行聲學模型優(yōu)化。雖然上述策略提升了系統(tǒng)檢錯性能，但上述方法應用于發(fā)音質量評測時，需要人工音素級分數(shù)，不僅標注量強度大，且標注質量無法保證。

本文提出一種全新的針對發(fā)音質量評測任務的聲學模型的優(yōu)化算法。該算法通過最小化訓練集機器分與人工分均方誤差準則，同時利用覆蓋各種發(fā)音的數(shù)據(jù)優(yōu)化聲學模型，從根本上解決了傳統(tǒng)方式建立的聲學模型對非標準發(fā)音視而不見的問題，且不需音素級人工標注。同時，聲學模型的優(yōu)化通過調整均值和方差進行，不改變模型結構，不會增加評測算法的時間復雜度。另外，該算法與評測常用的后驗概率理論緊密相聯(lián)，可與各種最新的研究成果融合。實驗在3 685份普通話水平現(xiàn)場考試數(shù)據(jù)集上進行(498份用于測試，3 187份用于訓練)，并研究該算法在最新的一些研究成果下的性能。實驗結果均表明該優(yōu)化算法得到的評測聲學模型相比傳統(tǒng)方法所得到的聲學模型均有著顯著的優(yōu)勢。

2 發(fā)音質量評測系統(tǒng)介紹

自動發(fā)音評測系統(tǒng)一般是在語音識別的基礎上，提取能描述發(fā)音質量的評分特征，再結合評分模型計算得到分數(shù)。常用的評分特征有幀規(guī)整后驗概率、語速、時長得分等。其中幀規(guī)整后驗概率是目前公認的最能反映考生發(fā)音標準度的評測指標；語速和時長得分等特征反映了發(fā)音的流暢度[2，9]。

令音素集共包含I個音素，對于其中第i個音素，采用隱馬爾可夫模型(HMM)描述其聲學特征，記為θi，則音素集可表示為θ={θi},i=1,2,…,I。對于一篇含有N個音素的朗讀文本，可表示為Text=(θid(0),θid(1),…,θid(N))，其中id(n)為文本中第n個音素的序號(下文用j表示，即j=id(n))。將文本與語音進行對齊(Forced Alignment)后，得到其對應的觀測矢量序列On和時(幀)長Tn。于是音素級發(fā)音標準度的度量——幀規(guī)整音素后驗概率(通常以對數(shù)形式表示)的計算如式(1)所示，其中Q為全音素概率空間[1]。

篇章級發(fā)音標準度為音素度量的平均，如式(2)所示:

語速(ROS)和時長分(Duration Score)是常用的描述發(fā)音流暢度的指標。其中語速的計算如式(3)所示。

時長得分的計算需要先在訓練集統(tǒng)計各不同音素時長的均值和標準差，記為{μi,σi}。于是，時長得分的計算如式(4)所示。

在得到上述評分特征后，最終機器分可通過如式(5)所示的線性評分模型得到，模型參數(shù)w,b通過在有人工評分標注的數(shù)據(jù)上訓練得到，其中x=(MR,ROS,Dur)T為評分特征。

評分模型也可采用非線性的形式[1,10]，但性能僅有小幅提升?？梢钥吹?，人工標注的數(shù)據(jù)僅參與只有少量參數(shù)的評分模型的訓練，其作用未得到充分發(fā)揮。

3 普通話水平測試系統(tǒng)中幀規(guī)整后驗概率策略的改進

普通話水平測試是L1的發(fā)音水平測試，由于L1普遍發(fā)音流暢，按大綱要求，發(fā)音標準度是其重點考察內容，因此幀規(guī)整后驗概率的性能直接決定了系統(tǒng)性能。近年來，如何使幀規(guī)整后驗概率能更好地描述考生發(fā)音標準度，人們進行了不懈努力。

3.1 基于語音識別技術的改進

該策略的主要思路是建立更精確且更易區(qū)分的聲學特征或者聲學模型。在聲學特征方面，文獻[11]利用HLDA去除聲學特征中冗余信息，提升了聲學特征的區(qū)分性；文獻[12]研究了在根據(jù)區(qū)分性思路提取的TANDEM特征，均取得了一定收益。在聲學模型方面，文獻[12-13]考察了區(qū)分性訓練[14]在發(fā)音質量評測任務上的應用，取得了一定的收益。

3.2 幀規(guī)整后驗概率的概率空間的改進

然而，式(1)所示的幀規(guī)整后驗概率不僅反映了考生的發(fā)音標準度，還反映了當前發(fā)音所對應的聲學模型與概率空間中聲學模型的混淆，從而嚴重影響了評分性能。于是文獻[10，15-16]通過優(yōu)化概率空間的方式，減少了混淆，已成為目前普通話水平測試的標準配置。實現(xiàn)方式如式(6)所示，其中Qi為音素集中第i個音素所對應的概率空間。

文獻[15]通過普通話水平考試現(xiàn)場數(shù)據(jù)的典型錯誤總結出概率空間，側重對發(fā)音錯誤(錯發(fā)成音素集中另一音素)的評測；文獻[10](第22-27頁)通過KLD聚類得到概率空間，側重對發(fā)音缺陷(發(fā)音不像音素集中任何音素)的評測。兩者性能相對于式(1)的全概率空間均有顯著的提升。

3.3 幀規(guī)整后驗概率的變換作為發(fā)音質量的度量

文獻[17]提出的“音素評分模型”可視為是音素相關的后驗概率變換，通過對人工分的學習使得不同音素的在變換后的幀規(guī)整后驗概率更好地反映發(fā)音標準度，如式(7)所示。

其中變換參數(shù){αi,βi},i=1,2,…,I在有人工評分的數(shù)據(jù)集上通過最小化機器分與人工分的均方誤差得到。同時，文獻[17]還提出了更接近評分員主觀評測準則的非線性sigmoid變換，但性能只有微弱提升。

4 針對發(fā)音質量評測的聲學模型優(yōu)化

本節(jié)將詳細介紹針對發(fā)音質量評測的聲學模型優(yōu)化算法。同時該算法與評測的幀規(guī)整后驗概率理論框架緊密相聯(lián)，可輕松與上節(jié)回顧的改進策略相融合，進一步提升系統(tǒng)性能。

4.1 數(shù)據(jù)庫的表示及與傳統(tǒng)建模方式的區(qū)別

令聲學模型訓練(聲學模型的優(yōu)化屬于聲學模型的訓練或聲學建模的過程)數(shù)據(jù)庫包含R段語料，對于其中第r(r=1,2,…,R)段語料，對應的觀測矢量為Or，參考文本為Wr，人工評分為sr，則數(shù)據(jù)庫可寫成如下形式：

可見，本文提出的建模方式與傳統(tǒng)的發(fā)音質量評測的建模方式差異顯著。首先，人工分及朗讀文本均是聲學模型優(yōu)化的重要依據(jù)；其次，標準發(fā)音、非標準發(fā)音、甚至錯誤發(fā)音均可參與聲學模型的優(yōu)化；同時算法不需要精細到音素級的人工評分，僅需要篇章級分數(shù)。

4.2 聲學模型優(yōu)化準則——最小化機器分與人工分均方誤差

注意ROS,Dur是根據(jù)語音識別結果提取的評分特征，與本文的聲學模型更新無直接關系。本文僅考慮如式(1)、式(2)所示的傳統(tǒng)的后驗概率策略和式(5)的線性融合方式，即假設機器分為式(2)所示的篇章級度量的線性變換，如式(11)所示。

其中a,b為線性回歸模型的參數(shù)，j=id(r,n)為第r段語料的文本中的第n個音素的序號(下同)。將式(1)和式(11)代入式(10)，于是目標函數(shù)如式(12)所示，參數(shù)a,b通過線性回歸得到。

4.3 聲學模型的參數(shù)優(yōu)化

聲學模型參數(shù)θ在固定a,b基礎上進行。將目標函數(shù)對第i個聲學模型的第s狀態(tài)第k個高斯(記為θisk)求偏導，有：

Aux(Or,n,θ)

(14)

輔助函數(shù)與原函數(shù)在原點相切[14]，簡化了式(13)的偏導計算。

(16)

將輔助函數(shù)S(θ,θ(0))按高斯合并同類項，如式(17)、(18)所示。

其中

(18)

為加以簡潔的描述，仿照文獻[20]引入統(tǒng)計量的概念，如式(19)所示。統(tǒng)計量可以直接根據(jù)更新前的模型θ(0)求得。

(19)

(21)

(22)

(23)

方差更新公式如式(25)所示，有興趣的讀者可參閱文獻[19-20]。

4.4 針對發(fā)音質量評測的詞圖定制及高斯后驗概率的計算

針對式(1)的幀規(guī)整后驗概率定制的針對發(fā)音質量評測的詞圖，如圖1所示，其中分子為參考文本的切分結果，分母為概率空間決定的解碼網(wǎng)絡?？梢娀趨⒖嘉谋镜暮篁灨怕士梢暈楦怕士臻g只含音素θj(其中j=id(r,n))時的基于概率空間的后驗概率。

圖1 針對發(fā)音質量的評測詞圖定制(以“中國”為例)

1) 支路幀規(guī)整后驗概率的計算

從圖2可知，所有支路起止幀均一致，因此支路后驗概率可簡化為類似于音素幀規(guī)整后驗概率的形式。對于序號為j的音素，支路后驗概率γj(ornt)的計算如式(26)所示。

(26)

可見，支路幀規(guī)整后驗概率的計算與評測的幀規(guī)整后驗概率策略緊密相聯(lián)。在計算得到支路幀規(guī)整后驗概率后，狀態(tài)及高斯級的后驗概率與語音識別一致，下面加以簡要介紹。

圖2 狀態(tài)級分母詞圖(以“zh”為例，圖中狀態(tài)指有效狀態(tài))注：對于音素zh，在t時刻時，狀態(tài)zh[2]的后驗概率為1，其他狀態(tài)(如zh[1]及zh[3])的后驗概率為0。

2) 狀態(tài)后驗概率的計算

本文利用維比算法(可推廣至前后項算法)進行狀態(tài)后驗概率的估計，如圖2所示。首先將分子和分母詞圖切分至狀態(tài)，再計算每幀的狀態(tài)后驗概率。

因此，對于給定支路i，狀態(tài)后驗概率可由式(28)得出

對特征Or,n進行解碼后，若支路i的第t幀的為狀態(tài)s則st(i,s,Or,n)=1，否則為0。

3) 高斯后驗概率的計算

在得到支路幀規(guī)整后驗概率及狀態(tài)后驗概率后，高斯后驗概率如式(29)、(30)所示：

4.5 針對發(fā)音質量評測聲學模型優(yōu)化流程及在計算機輔助學習系統(tǒng)中的應用

針對發(fā)音質量評測的聲學模型優(yōu)化流程如圖3所示，其包含聲學模型的更新的回歸系數(shù)的重訓。

另外，通過本文優(yōu)化算法得到的評測聲學模型不能用于語音識別。因此測試時需利用“語音識別聲學模型”(本文采用利用標準發(fā)音訓練得到的初始聲學模型進行語音識別)得到音素邊界，再利用針對評測優(yōu)化的聲學模型(記為“評測聲學模型”)計算幀規(guī)整后驗概率，如圖4所示。同時注意到評測聲學模型利用式(24)(25)調整均值和方差得到，因此與初始聲學模型拓撲完全結構一致，因此系統(tǒng)的時間復雜度不會增加，但空間復雜度會有所增加。

圖3 針對發(fā)音質量的評測聲學模型優(yōu)化流程圖

圖4 評測聲學模型在計算機輔助學習系統(tǒng)中的應用

5 數(shù)據(jù)庫介紹及系統(tǒng)評價指標

5.1 普通話水平考試介紹及實驗配置

普通話水平測試分為四個部分：單字朗讀(100個字，共計10分)，雙字詞朗讀(50個詞，共計20分)，篇章朗讀(400字短文，共計30分)和自由說話(限時3分鐘，共計40分)，本文只考察前三個部分的自動評測。

5.2 數(shù)據(jù)庫介紹

1) 標準發(fā)音數(shù)據(jù)集：該集合包含30余名具有普通話水平測試一甲水平(相當于專業(yè)播音員)的錄音數(shù)據(jù)，共計100小時[1]。

2) 普通話水平考試現(xiàn)場數(shù)據(jù)集：共包含3 685份來自全國十余省的普通話水平考試現(xiàn)場錄制的數(shù)據(jù)，考生發(fā)音水平參差不齊，每份數(shù)據(jù)有1～3名專業(yè)評分員的評分。本文將上述數(shù)據(jù)分為完全不交疊的訓練集(3 187份，參與針對評測的聲學模型優(yōu)化)和測試集(498份)。

5.3 實驗配置

本文實驗采用39維的MFCC_0_D_A_Z聲學特征，利用HTK工具對音素建立單音子(Mono-phone)隱馬爾可夫模型(HMM)。包括靜音模型(sil)、填充模型(filler)和短停模型(sp)在內一共67個HMM，其中聲母(包括零聲母)為3狀態(tài)，韻母5狀態(tài)。

實驗采用機器分與人工分的相關度及均方根誤差作為系統(tǒng)性能的評價指標，它們均反映了人機評分的一致程度。由于聲學模型的優(yōu)化不影響時長語速等評分特征的計算，因此后續(xù)實驗只考察幀規(guī)整后驗概率的性能。

6 實驗及結論

6.1 以語音識別的聲學模型作為初始模型的針對評測的聲學模型優(yōu)化實驗

最大似然估計(MLE)建模型方式簡單、計算高效，且不需要精細的時間標注，少量錯誤對模型性能影響微乎其微，因此在計算機輔助學習系統(tǒng)中得到了廣泛的應用。區(qū)分性訓練是近十年來推動語音識別飛速發(fā)展的重要思想，其中以D. Povey在2002年提出的最小化音素錯誤(minimum phone error, MPE)具有代表性，同時本文方法也是受MPE的思想啟發(fā)得到，因此實驗將對比本文方法及語音識別的MPE算法。在作者之前的工作中[14]，采用引入現(xiàn)場數(shù)據(jù)集進行聲學模型訓練會顯著降低系統(tǒng)的評分性能，因此本文實驗中的初始聲學模型均根據(jù)標準發(fā)音數(shù)據(jù)集訓練得到。

表1為分別采用MLE及MPE兩種聲學模型(由標準發(fā)音數(shù)據(jù)訓練得到)作為初始模型時的實驗結果；符號OPT為利用普通話水平考試現(xiàn)場數(shù)據(jù)，對初始模型進行的針對評測的聲學模型優(yōu)化，表中括號外的數(shù)字為相關度，括號內為均方根誤差。

可見，無論對于何種聲學模型，采用針對評測的聲學模型優(yōu)化均能顯著地提升聲學模型的評分性能。圖5為在MPE+DEM配置下，訓練集和測試集的收斂曲線，其中縱坐標為均方根誤差。圖中，“1A”代表第一次疊代時，僅更新聲學模型的性能；“1L”代表第一次更新聲學模型后，采用線性回歸更新回歸模型的性能，以此類推。

表1 以MLE和MPE聲學模型作為初始模型的針對評測的聲學模型優(yōu)化的性能

可見訓練集的均方誤差隨著疊代的進行而逐漸降低，證明了該方法有效性。在測試集上的性能略有波動，但總體上仍然朝著目標的方向前進。

6.2 在優(yōu)化概率空間下的針對評測的聲學模型優(yōu)化

基于優(yōu)化概率空間的聲學模型優(yōu)化的實現(xiàn)僅需要式(6)取代式(1)即可。實驗以MPE為初始模型(由標準發(fā)音數(shù)據(jù)訓練得到)，實驗結果如表2所示。

實驗表明，無論在何種概率空間下，本文所提出的方法均能使聲學模型的評分性能有著顯著的提升；并且優(yōu)化概率空間能進一步提升評測模型的性能。另外，值得注意的是在兩類優(yōu)化的概率空間下，由于概率空間音素個數(shù)遠小于全音素概率空間，因此聲學模型的訓練速度及收斂速度均會明顯提升。

6.3 基于音素相關的后驗概率變換的針對評測的聲學模型的優(yōu)化

本文作者提出的音素評分模型[17]可視為音素相關后驗概率變換(Phoneme-dependent posterior probability transformation，PPPT)，其進一步彌補了幀規(guī)整后驗概率與人主觀評分的差異。將式(7)代入式(13)，并經(jīng)類似推導后，可得其統(tǒng)計量計算如式(31)所示。

概率空間配置單字朗讀雙字詞朗讀篇章朗讀全音素概率空間MPE(基線)0.587(0.918)0.575(1.355)0.610(1.930)MPE+OPT0.654(0.861)0.670(1.230)0.714(1.681)KLD聚類的概率空間MPE(基線)0.652(0.856)0.682(1.205)0.667(1.795)MPE+OPT0.719(0.784)0.754(1.061)0.749(1.601)基于典型錯誤優(yōu)化的概率空間MPE(基線)0.701(0.801)0.705(1.168)0.700(1.832)MPE+OPT0.747(0.748)0.767(1.052)0.720(1.638)

注：表中括號外為相關度，括號內為均方根誤差

(31)

實驗結果如表3所示。

實驗表明，采用本文提出的針對評測的聲學模型優(yōu)化算法在各種配置下均有著顯著收益。同時，由于PPPT的優(yōu)化目標也是機器分與人工分的均方誤差，因此系統(tǒng)性能提升幅度會有所下降。

表3 基于音素相關后驗概率變換的評測的聲學模型優(yōu)化的實驗結果

注：表中括號外為相關度，括號內為均方根誤差

7 總結和展望

本文根據(jù)區(qū)分性訓練思想，結合發(fā)音質量評測目標，提出了針對發(fā)音質量評測的聲學模型的優(yōu)化算法。算法以優(yōu)化機器分與人工分均方根誤差為目標，同時利用標準發(fā)音和非標準發(fā)音數(shù)據(jù)對聲學模型進行優(yōu)化，從根本上解決了采用傳統(tǒng)的基于ASR的聲學建模方式難以避免的訓練與測試不匹配問題。實驗在傳統(tǒng)后驗概率和各種優(yōu)化配置上進行，系統(tǒng)性能均有顯著的提升。

在發(fā)音質量評測領域，說話人自適應是一種能顯著提升系統(tǒng)性能的手段[1，10]。然而，通常采用的MLE準則難以與最小化均方誤差準則相容。因此，如何得到說話人相關的評測聲學模型是下一步的工作重點。另外，基于ASR框架的聲學具有明確的物理意義，即聲學模型代表著標準發(fā)音模版，然而本文算法得到的聲學模型不具備明確的物理意義，限制了進一步優(yōu)化。因此，結合發(fā)音空間建模策略，建立有明確物理意義的評測聲學模型是重要的工作方向。

[1] R H Wang, Q F Liu, S Wei. Putonghua proficiency test and evaluation[J]. Advances in Chinese Spoken Language Processing. Springer Press, 2006, 407-429.

[2] H L Franco, L Neumeyer, Y Kim, et al. Automatic pronunciation scoring for language instruction[C]//Proceedings of ICASSP 1997, 1465-1468.

[3] L Neumeyer, H Franco, V Digalakis, et al. Automatic scoring of pronunciation quality[J]. Speech Communication, 2000, 30(2-3): 83-93.

[4] S M Witt, S J Young. Phone-level pronunciation scoring and assessment for interactive language learning[J]. Speech Communication 2000, 30(2-3): 95-108.

[5] S M Witt. Use of speech recognition in computer assisted language learning. A dissertation of doctor’s degree for Cambridge, 1999.

[6] T Cincarek, R Gruhn, C Hacker, et al. Automatic pronunciation scoring words and sentences independent from the non-native’s first language[J]. Computer Speech and Language, 2009, 23(1): 65-88.

[7] S Wei, G P Hu, Y Hu, et al. A new method for mispronunciation detection using Support Vector Machine based on Pronunciation Space Models[J]. Speech Communication, 2009, 55(10): 896-905.

[8] 張峰. 基于統(tǒng)計模式識別發(fā)音錯誤自動檢測的研究[D].中國科學技術大學博士畢業(yè)論文，2009年。

[9] C Cucchiarini, F D Wet, H Strik, et al. Automatic evaluation of Dutch pronunciation by using speech recognition technology[J]. ICSLP, 1998, 5: 1739-1742.

[10] 劉慶升.計算機輔助普通話發(fā)音評測關鍵技術研究[D].中國科學技術大學博士畢業(yè)論文，2009年。

[11] F. P. Ge, F. P. Pan, C. L. Liu, et al, An SVM-based mandarin pronunciation quality assessment system[J]. Advances in Intelligent and Soft Computing, 2009, 56: 255-265.

[12] 龔澍, 基于TANDEM的區(qū)分性訓練在語音評測中的應用研究[D].中國科學技術大學碩士畢業(yè)論文，2010年。

[13] D. Povey, P. Woodland. Minimum phone error and I-smoothing for improved discriminative training[C]//Proceedings of ICASSP 2002: 105-108.

[14] K Yan, S Gong. Pronunciation proficiency evaluation based on discriminatively refined acoustic Models[J]. International Journal of Information Technology and Computer Science, 2011, 3(2): 17-23.

[15] 魏思,胡郁,王仁華. 普通話水平測試電子化系統(tǒng)[J].中文信息學報，2006,20(6): 89-96.

[16] 劉慶升,魏思,胡郁,等. 基于語言學知識的發(fā)音質量評價算法改進[J].中文信息學報，2007,21(4):92-96.

[17] 嚴可, 戴禮榮. 基于音素評分模型的發(fā)音標準度評測研究[J].中文信息學報，2011,25(5):101-108.

[18] L R Bahl, P F Brown, P V Souza, et al. Maximum mutual information estimation of hidden Markov model parameters for speech recognition[C]//Proceedings of ICASSP, 1986: 49-52.

[19] A P Dempster, N M Laird, D B Rubin. Maximum likelihood from incomplete data via the EM algorithm[J]. Journal of the Royal Statistical Society, Series B (Methodological), 1997, 39(1): 1-38.

[20] R Schluter. Investigations on discriminative training criteria[D]. A dissertation for doctor’s degree, RWTH Aachen University, 2000.

[21] Y Normandin. Maximum mutual information estimation, and the speech recognition problem[D].A dissertation for doctor’s degree at McGill University, 1991.

[22] P Gopalakrishnan, D Kanevsky, A Nadas, et al. An inequality for rational functions with applications to some statistical estimation problems[J]. IEEE Transactions on Information Theory, 1991, 37(1): 107-113.