嚴 可,魏 思,戴禮榮
(1. 中國科學技術大學,安徽 合肥 230027; 2. 科大訊飛股份有限公司,安徽 合肥 230088)
隨著計算機科學與信息科學的發(fā)展,計算機輔助學習系統(tǒng)(Computer Assisted Language Learning, CALL)走進千家萬戶,發(fā)揮著日益重要的作用。發(fā)音質量評測是計算機輔助學習的重要內容,它不僅能顯著提升口語學習效率,還可代替教師進行口語考試部分題型的評分,極大緩解了大規(guī)模機考實踐中教師評分任務繁重及費用居高不下的問題。目前,在文本相關的發(fā)音質量評測任務上,如朗讀、跟讀等,計算機已經(jīng)接近人工評分水平[1],并在普通話水平測試、英語學習等任務上得到廣泛應用,但性能仍需改進。
本文研究屬于文本相關的評測,即考生按照指定文本發(fā)音,計算機根據(jù)發(fā)音質量反饋出分數(shù)。一般采用自動語音識別(Automatic Speech Recognition,ASR)技術,根據(jù)給定文本將語音切分到音素,在此基礎上計算能反映發(fā)音標準度和流暢度的評分特征,進而給出機器分。在常用的評分特征中,幀規(guī)整后驗概率[2-3]是目前公認的最能反映發(fā)音標準度的度量。另外,人們常用的GOP (Goodness of Pronunciation)算法[4-5]也是在幀規(guī)整后驗概率理論框架下的簡化。
聲學模型是幀規(guī)整后驗概率計算的重要依據(jù)。由于自動發(fā)音質量評測的研究源于語音識別,至今人們仍普遍采用語音識別技術進行聲學建模。但語音識別與發(fā)音質量評測有著顯著不同: 語音識別需要包容非標準發(fā)音,因此采用標準發(fā)音和非標準發(fā)音混合訓練聲學模型,能使訓練與測試更加匹配,從而有效提升識別性能;而發(fā)音質量評測任務需嚴格鑒別標準發(fā)音與非標準發(fā)音,因此人們僅使用標準發(fā)音進行聲學建模。
起初,人們自然想到使用公認的最為標準的發(fā)音——第一語言學習者(L1)的標準發(fā)音進行聲學建模[2]。但隨后發(fā)現(xiàn)這種方式會給第二語言學習者(L2)相似的分數(shù),無論其發(fā)音是否良好。顯然,這是由于L2與L1的發(fā)音風格差別很大導致。于是,人們提出采用良好的L2發(fā)音來進行聲學建模[6]。雖然這種建模方式在L2的學習任務上性能良好,隨后發(fā)現(xiàn)機器會給L1較低的分數(shù)。因為該建模方式認為良好的L2發(fā)音才是“標準模版”,而標準的L1發(fā)音與之相去甚遠。不難預見,若L1的標準發(fā)音和L2的良好均參與聲學模型訓練,系統(tǒng)必然會認為這兩種發(fā)音同樣標準(而顯然L1應更標準),這種情況同樣令人尷尬。
如何將非標準發(fā)音融入聲學建模,人們進行了不懈努力。文獻[7]提出了“發(fā)音空間建?!彼枷?,將聲學模型分為“標準發(fā)音”、“中等發(fā)音”和“差等發(fā)音”;文獻[8]利用語音識別區(qū)分性訓練框架,同時使用正確發(fā)音和錯誤發(fā)音數(shù)據(jù)進行聲學模型優(yōu)化。雖然上述策略提升了系統(tǒng)檢錯性能,但上述方法應用于發(fā)音質量評測時,需要人工音素級分數(shù),不僅標注量強度大,且標注質量無法保證。
本文提出一種全新的針對發(fā)音質量評測任務的聲學模型的優(yōu)化算法。該算法通過最小化訓練集機器分與人工分均方誤差準則,同時利用覆蓋各種發(fā)音的數(shù)據(jù)優(yōu)化聲學模型,從根本上解決了傳統(tǒng)方式建立的聲學模型對非標準發(fā)音視而不見的問題,且不需音素級人工標注。同時,聲學模型的優(yōu)化通過調整均值和方差進行,不改變模型結構,不會增加評測算法的時間復雜度。另外,該算法與評測常用的后驗概率理論緊密相聯(lián),可與各種最新的研究成果融合。實驗在3 685份普通話水平現(xiàn)場考試數(shù)據(jù)集上進行(498份用于測試,3 187份用于訓練),并研究該算法在最新的一些研究成果下的性能。實驗結果均表明該優(yōu)化算法得到的評測聲學模型相比傳統(tǒng)方法所得到的聲學模型均有著顯著的優(yōu)勢。
自動發(fā)音評測系統(tǒng)一般是在語音識別的基礎上,提取能描述發(fā)音質量的評分特征,再結合評分模型計算得到分數(shù)。常用的評分特征有幀規(guī)整后驗概率、語速、時長得分等。其中幀規(guī)整后驗概率是目前公認的最能反映考生發(fā)音標準度的評測指標;語速和時長得分等特征反映了發(fā)音的流暢度[2,9]。
令音素集共包含I個音素,對于其中第i個音素,采用隱馬爾可夫模型(HMM)描述其聲學特征,記為θi,則音素集可表示為θ={θi},i=1,2,…,I。對于一篇含有N個音素的朗讀文本,可表示為Text=(θid(0),θid(1),…,θid(N)),其中id(n)為文本中第n個音素的序號(下文用j表示,即j=id(n))。將文本與語音進行對齊(Forced Alignment)后,得到其對應的觀測矢量序列On和時(幀)長Tn。于是音素級發(fā)音標準度的度量——幀規(guī)整音素后驗概率(通常以對數(shù)形式表示)的計算如式(1)所示,其中Q為全音素概率空間[1]。
篇章級發(fā)音標準度為音素度量的平均,如式(2)所示:
語速(ROS)和時長分(Duration Score)是常用的描述發(fā)音流暢度的指標。其中語速的計算如式(3)所示。
時長得分的計算需要先在訓練集統(tǒng)計各不同音素時長的均值和標準差,記為{μi,σi}。于是,時長得分的計算如式(4)所示。
在得到上述評分特征后,最終機器分可通過如式(5)所示的線性評分模型得到,模型參數(shù)w,b通過在有人工評分標注的數(shù)據(jù)上訓練得到,其中x=(MR,ROS,Dur)T為評分特征。
評分模型也可采用非線性的形式[1,10],但性能僅有小幅提升??梢钥吹?,人工標注的數(shù)據(jù)僅參與只有少量參數(shù)的評分模型的訓練,其作用未得到充分發(fā)揮。
普通話水平測試是L1的發(fā)音水平測試,由于L1普遍發(fā)音流暢,按大綱要求,發(fā)音標準度是其重點考察內容,因此幀規(guī)整后驗概率的性能直接決定了系統(tǒng)性能。近年來,如何使幀規(guī)整后驗概率能更好地描述考生發(fā)音標準度,人們進行了不懈努力。
該策略的主要思路是建立更精確且更易區(qū)分的聲學特征或者聲學模型。在聲學特征方面,文獻[11]利用HLDA去除聲學特征中冗余信息,提升了聲學特征的區(qū)分性;文獻[12]研究了在根據(jù)區(qū)分性思路提取的TANDEM特征,均取得了一定收益。在聲學模型方面,文獻[12-13]考察了區(qū)分性訓練[14]在發(fā)音質量評測任務上的應用,取得了一定的收益。
然而,式(1)所示的幀規(guī)整后驗概率不僅反映了考生的發(fā)音標準度,還反映了當前發(fā)音所對應的聲學模型與概率空間中聲學模型的混淆,從而嚴重影響了評分性能。于是文獻[10,15-16]通過優(yōu)化概率空間的方式,減少了混淆,已成為目前普通話水平測試的標準配置。實現(xiàn)方式如式(6)所示,其中Qi為音素集中第i個音素所對應的概率空間。
文獻[15]通過普通話水平考試現(xiàn)場數(shù)據(jù)的典型錯誤總結出概率空間,側重對發(fā)音錯誤(錯發(fā)成音素集中另一音素)的評測;文獻[10](第22-27頁)通過KLD聚類得到概率空間,側重對發(fā)音缺陷(發(fā)音不像音素集中任何音素)的評測。兩者性能相對于式(1)的全概率空間均有顯著的提升。
文獻[17]提出的“音素評分模型”可視為是音素相關的后驗概率變換,通過對人工分的學習使得不同音素的在變換后的幀規(guī)整后驗概率更好地反映發(fā)音標準度,如式(7)所示。
其中變換參數(shù){αi,βi},i=1,2,…,I在有人工評分的數(shù)據(jù)集上通過最小化機器分與人工分的均方誤差得到。同時,文獻[17]還提出了更接近評分員主觀評測準則的非線性sigmoid變換,但性能只有微弱提升。
本節(jié)將詳細介紹針對發(fā)音質量評測的聲學模型優(yōu)化算法。同時該算法與評測的幀規(guī)整后驗概率理論框架緊密相聯(lián),可輕松與上節(jié)回顧的改進策略相融合,進一步提升系統(tǒng)性能。
令聲學模型訓練(聲學模型的優(yōu)化屬于聲學模型的訓練或聲學建模的過程)數(shù)據(jù)庫包含R段語料,對于其中第r(r=1,2,…,R)段語料,對應的觀測矢量為Or,參考文本為Wr,人工評分為sr,則數(shù)據(jù)庫可寫成如下形式:
可見,本文提出的建模方式與傳統(tǒng)的發(fā)音質量評測的建模方式差異顯著。首先,人工分及朗讀文本均是聲學模型優(yōu)化的重要依據(jù);其次,標準發(fā)音、非標準發(fā)音、甚至錯誤發(fā)音均可參與聲學模型的優(yōu)化;同時算法不需要精細到音素級的人工評分,僅需要篇章級分數(shù)。
注意ROS,Dur是根據(jù)語音識別結果提取的評分特征,與本文的聲學模型更新無直接關系。本文僅考慮如式(1)、式(2)所示的傳統(tǒng)的后驗概率策略和式(5)的線性融合方式,即假設機器分為式(2)所示的篇章級度量的線性變換,如式(11)所示。
其中a,b為線性回歸模型的參數(shù),j=id(r,n)為第r段語料的文本中的第n個音素的序號(下同)。將式(1)和式(11)代入式(10),于是目標函數(shù)如式(12)所示,參數(shù)a,b通過線性回歸得到。
聲學模型參數(shù)θ在固定a,b基礎上進行。將目標函數(shù)對第i個聲學模型的第s狀態(tài)第k個高斯(記為θisk)求偏導,有:
Aux(Or,n,θ)
(14)
輔助函數(shù)與原函數(shù)在原點相切[14],簡化了式(13)的偏導計算。
(16)
將輔助函數(shù)S(θ,θ(0))按高斯合并同類項,如式(17)、(18)所示。
其中
(18)
為加以簡潔的描述,仿照文獻[20]引入統(tǒng)計量的概念,如式(19)所示。統(tǒng)計量可以直接根據(jù)更新前的模型θ(0)求得。
(19)
(21)
(22)
(23)
方差更新公式如式(25)所示,有興趣的讀者可參閱文獻[19-20]。
針對式(1)的幀規(guī)整后驗概率定制的針對發(fā)音質量評測的詞圖,如圖1所示,其中分子為參考文本的切分結果,分母為概率空間決定的解碼網(wǎng)絡??梢娀趨⒖嘉谋镜暮篁灨怕士梢暈楦怕士臻g只含音素θj(其中j=id(r,n))時的基于概率空間的后驗概率。
圖1 針對發(fā)音質量的評測詞圖定制(以“中國”為例)
1) 支路幀規(guī)整后驗概率的計算
從圖2可知,所有支路起止幀均一致,因此支路后驗概率可簡化為類似于音素幀規(guī)整后驗概率的形式。對于序號為j的音素,支路后驗概率γj(ornt)的計算如式(26)所示。
(26)
可見,支路幀規(guī)整后驗概率的計算與評測的幀規(guī)整后驗概率策略緊密相聯(lián)。在計算得到支路幀規(guī)整后驗概率后,狀態(tài)及高斯級的后驗概率與語音識別一致,下面加以簡要介紹。
圖2 狀態(tài)級分母詞圖(以“zh”為例,圖中狀態(tài)指有效狀態(tài))注: 對于音素zh,在t時刻時,狀態(tài)zh[2]的后驗概率為1,其他狀態(tài)(如zh[1]及zh[3])的后驗概率為0。
2) 狀態(tài)后驗概率的計算
本文利用維比算法(可推廣至前后項算法)進行狀態(tài)后驗概率的估計,如圖2所示。首先將分子和分母詞圖切分至狀態(tài),再計算每幀的狀態(tài)后驗概率。
因此,對于給定支路i,狀態(tài)后驗概率可由式(28)得出
對特征Or,n進行解碼后,若支路i的第t幀的為狀態(tài)s則st(i,s,Or,n)=1,否則為0。
3) 高斯后驗概率的計算
在得到支路幀規(guī)整后驗概率及狀態(tài)后驗概率后,高斯后驗概率如式(29)、(30)所示:
針對發(fā)音質量評測的聲學模型優(yōu)化流程如圖3所示,其包含聲學模型的更新的回歸系數(shù)的重訓。
另外,通過本文優(yōu)化算法得到的評測聲學模型不能用于語音識別。因此測試時需利用“語音識別聲學模型”(本文采用利用標準發(fā)音訓練得到的初始聲學模型進行語音識別)得到音素邊界,再利用針對評測優(yōu)化的聲學模型(記為“評測聲學模型”)計算幀規(guī)整后驗概率,如圖4所示。同時注意到評測聲學模型利用式(24)(25)調整均值和方差得到,因此與初始聲學模型拓撲完全結構一致,因此系統(tǒng)的時間復雜度不會增加,但空間復雜度會有所增加。
圖3 針對發(fā)音質量的評測聲學模型優(yōu)化流程圖
圖4 評測聲學模型在計算機輔助學習系統(tǒng)中的應用
普通話水平測試分為四個部分: 單字朗讀(100個字,共計10分),雙字詞朗讀(50個詞,共計20分),篇章朗讀(400字短文,共計30分)和自由說話(限時3分鐘,共計40分),本文只考察前三個部分的自動評測。
1) 標準發(fā)音數(shù)據(jù)集: 該集合包含30余名具有普通話水平測試一甲水平(相當于專業(yè)播音員)的錄音數(shù)據(jù),共計100小時[1]。
2) 普通話水平考試現(xiàn)場數(shù)據(jù)集: 共包含3 685份來自全國十余省的普通話水平考試現(xiàn)場錄制的數(shù)據(jù),考生發(fā)音水平參差不齊,每份數(shù)據(jù)有1~3名專業(yè)評分員的評分。本文將上述數(shù)據(jù)分為完全不交疊的訓練集(3 187份,參與針對評測的聲學模型優(yōu)化)和測試集(498份)。
本文實驗采用39維的MFCC_0_D_A_Z聲學特征,利用HTK工具對音素建立單音子(Mono-phone)隱馬爾可夫模型(HMM)。包括靜音模型(sil)、填充模型(filler)和短停模型(sp)在內一共67個HMM,其中聲母(包括零聲母)為3狀態(tài),韻母5狀態(tài)。
實驗采用機器分與人工分的相關度及均方根誤差作為系統(tǒng)性能的評價指標,它們均反映了人機評分的一致程度。由于聲學模型的優(yōu)化不影響時長語速等評分特征的計算,因此后續(xù)實驗只考察幀規(guī)整后驗概率的性能。
最大似然估計(MLE)建模型方式簡單、 計算高效,且不需要精細的時間標注,少量錯誤對模型性能影響微乎其微,因此在計算機輔助學習系統(tǒng)中得到了廣泛的應用。區(qū)分性訓練是近十年來推動語音識別飛速發(fā)展的重要思想,其中以D. Povey在2002年提出的最小化音素錯誤(minimum phone error, MPE)具有代表性,同時本文方法也是受MPE的思想啟發(fā)得到,因此實驗將對比本文方法及語音識別的MPE算法。在作者之前的工作中[14],采用引入現(xiàn)場數(shù)據(jù)集進行聲學模型訓練會顯著降低系統(tǒng)的評分性能,因此本文實驗中的初始聲學模型均根據(jù)標準發(fā)音數(shù)據(jù)集訓練得到。
表1為分別采用MLE及MPE兩種聲學模型(由標準發(fā)音數(shù)據(jù)訓練得到)作為初始模型時的實驗結果;符號OPT為利用普通話水平考試現(xiàn)場數(shù)據(jù),對初始模型進行的針對評測的聲學模型優(yōu)化,表中括號外的數(shù)字為相關度,括號內為均方根誤差。
可見,無論對于何種聲學模型,采用針對評測的聲學模型優(yōu)化均能顯著地提升聲學模型的評分性能。圖5為在MPE+DEM配置下,訓練集和測試集的收斂曲線,其中縱坐標為均方根誤差。圖中,“1A”代表第一次疊代時,僅更新聲學模型的性能;“1L”代表第一次更新聲學模型后,采用線性回歸更新回歸模型的性能,以此類推。
表1 以MLE和MPE聲學模型作為初始模型的針對評測的聲學模型優(yōu)化的性能
可見訓練集的均方誤差隨著疊代的進行而逐漸降低,證明了該方法有效性。在測試集上的性能略有波動,但總體上仍然朝著目標的方向前進。
基于優(yōu)化概率空間的聲學模型優(yōu)化的實現(xiàn)僅需要式(6)取代式(1)即可。實驗以MPE為初始模型(由標準發(fā)音數(shù)據(jù)訓練得到),實驗結果如表2所示。
實驗表明,無論在何種概率空間下,本文所提出的方法均能使聲學模型的評分性能有著顯著的提升;并且優(yōu)化概率空間能進一步提升評測模型的性能。另外,值得注意的是在兩類優(yōu)化的概率空間下,由于概率空間音素個數(shù)遠小于全音素概率空間,因此聲學模型的訓練速度及收斂速度均會明顯提升。
本文作者提出的音素評分模型[17]可視為音素相關后驗概率變換(Phoneme-dependent posterior probability transformation,PPPT),其進一步彌補了幀規(guī)整后驗概率與人主觀評分的差異。將式(7)代入式(13),并經(jīng)類似推導后,可得其統(tǒng)計量計算如式(31)所示。
概率空間配置單字朗讀雙字詞朗讀篇章朗讀全音素概率空間MPE(基線)0.587(0.918)0.575(1.355)0.610(1.930)MPE+OPT0.654(0.861)0.670(1.230)0.714(1.681)KLD聚類的概率空間MPE(基線)0.652(0.856)0.682(1.205)0.667(1.795)MPE+OPT0.719(0.784)0.754(1.061)0.749(1.601)基于典型錯誤優(yōu)化的概率空間MPE(基線)0.701(0.801)0.705(1.168)0.700(1.832)MPE+OPT0.747(0.748)0.767(1.052)0.720(1.638)
注: 表中括號外為相關度,括號內為均方根誤差
(31)
實驗結果如表3所示。
實驗表明,采用本文提出的針對評測的聲學模型優(yōu)化算法在各種配置下均有著顯著收益。同時,由于PPPT的優(yōu)化目標也是機器分與人工分的均方誤差,因此系統(tǒng)性能提升幅度會有所下降。
表3 基于音素相關后驗概率變換的評測的聲學模型優(yōu)化的實驗結果
注: 表中括號外為相關度,括號內為均方根誤差
本文根據(jù)區(qū)分性訓練思想,結合發(fā)音質量評測目標,提出了針對發(fā)音質量評測的聲學模型的優(yōu)化算法。算法以優(yōu)化機器分與人工分均方根誤差為目標,同時利用標準發(fā)音和非標準發(fā)音數(shù)據(jù)對聲學模型進行優(yōu)化,從根本上解決了采用傳統(tǒng)的基于ASR的聲學建模方式難以避免的訓練與測試不匹配問題。實驗在傳統(tǒng)后驗概率和各種優(yōu)化配置上進行,系統(tǒng)性能均有顯著的提升。
在發(fā)音質量評測領域,說話人自適應是一種能顯著提升系統(tǒng)性能的手段[1,10]。然而,通常采用的MLE準則難以與最小化均方誤差準則相容。因此,如何得到說話人相關的評測聲學模型是下一步的工作重點。另外,基于ASR框架的聲學具有明確的物理意義,即聲學模型代表著標準發(fā)音模版,然而本文算法得到的聲學模型不具備明確的物理意義,限制了進一步優(yōu)化。因此,結合發(fā)音空間建模策略,建立有明確物理意義的評測聲學模型是重要的工作方向。
[1] R H Wang, Q F Liu, S Wei. Putonghua proficiency test and evaluation[J]. Advances in Chinese Spoken Language Processing. Springer Press, 2006, 407-429.
[2] H L Franco, L Neumeyer, Y Kim, et al. Automatic pronunciation scoring for language instruction[C]//Proceedings of ICASSP 1997, 1465-1468.
[3] L Neumeyer, H Franco, V Digalakis, et al. Automatic scoring of pronunciation quality[J]. Speech Communication, 2000, 30(2-3): 83-93.
[4] S M Witt, S J Young. Phone-level pronunciation scoring and assessment for interactive language learning[J]. Speech Communication 2000, 30(2-3): 95-108.
[5] S M Witt. Use of speech recognition in computer assisted language learning. A dissertation of doctor’s degree for Cambridge, 1999.
[6] T Cincarek, R Gruhn, C Hacker, et al. Automatic pronunciation scoring words and sentences independent from the non-native’s first language[J]. Computer Speech and Language, 2009, 23(1): 65-88.
[7] S Wei, G P Hu, Y Hu, et al. A new method for mispronunciation detection using Support Vector Machine based on Pronunciation Space Models[J]. Speech Communication, 2009, 55(10): 896-905.
[8] 張峰. 基于統(tǒng)計模式識別發(fā)音錯誤自動檢測的研究[D].中國科學技術大學博士畢業(yè)論文,2009年。
[9] C Cucchiarini, F D Wet, H Strik, et al. Automatic evaluation of Dutch pronunciation by using speech recognition technology[J]. ICSLP, 1998, 5: 1739-1742.
[10] 劉慶升.計算機輔助普通話發(fā)音評測關鍵技術研究[D].中國科學技術大學博士畢業(yè)論文,2009年。
[11] F. P. Ge, F. P. Pan, C. L. Liu, et al, An SVM-based mandarin pronunciation quality assessment system[J]. Advances in Intelligent and Soft Computing, 2009, 56: 255-265.
[12] 龔澍, 基于TANDEM的區(qū)分性訓練在語音評測中的應用研究[D].中國科學技術大學碩士畢業(yè)論文,2010年。
[13] D. Povey, P. Woodland. Minimum phone error and I-smoothing for improved discriminative training[C]//Proceedings of ICASSP 2002: 105-108.
[14] K Yan, S Gong. Pronunciation proficiency evaluation based on discriminatively refined acoustic Models[J]. International Journal of Information Technology and Computer Science, 2011, 3(2): 17-23.
[15] 魏思,胡郁,王仁華. 普通話水平測試電子化系統(tǒng)[J].中文信息學報,2006,20(6): 89-96.
[16] 劉慶升,魏思,胡郁,等. 基于語言學知識的發(fā)音質量評價算法改進[J].中文信息學報,2007,21(4):92-96.
[17] 嚴可, 戴禮榮. 基于音素評分模型的發(fā)音標準度評測研究[J].中文信息學報,2011,25(5):101-108.
[18] L R Bahl, P F Brown, P V Souza, et al. Maximum mutual information estimation of hidden Markov model parameters for speech recognition[C]//Proceedings of ICASSP, 1986: 49-52.
[19] A P Dempster, N M Laird, D B Rubin. Maximum likelihood from incomplete data via the EM algorithm[J]. Journal of the Royal Statistical Society, Series B (Methodological), 1997, 39(1): 1-38.
[20] R Schluter. Investigations on discriminative training criteria[D]. A dissertation for doctor’s degree, RWTH Aachen University, 2000.
[21] Y Normandin. Maximum mutual information estimation, and the speech recognition problem[D].A dissertation for doctor’s degree at McGill University, 1991.
[22] P Gopalakrishnan, D Kanevsky, A Nadas, et al. An inequality for rational functions with applications to some statistical estimation problems[J]. IEEE Transactions on Information Theory, 1991, 37(1): 107-113.