陳彩華
(湖南三一工業(yè)職業(yè)技術(shù)學(xué)院,湖南 長沙 410129)
計算機(jī)輔助普通話水平測試系統(tǒng)自試用以來,已經(jīng)在全國十多個省市推廣。應(yīng)用該系統(tǒng)不僅減少傳統(tǒng)人工現(xiàn)場評分帶來的人力、物力、財力成本,而且能較好地解決人工長時間工作所帶來的評分波動,實現(xiàn)評分的客觀公正。
現(xiàn)行系統(tǒng)屬于文本相關(guān)的評測,考生按照標(biāo)準(zhǔn)文本發(fā)音,計算機(jī)根據(jù)發(fā)音質(zhì)量反饋出分?jǐn)?shù)。實際推廣的普通話水平測試系統(tǒng)采用自動語音識別技術(shù),即采用目前公認(rèn)的最能反映標(biāo)準(zhǔn)度的基于隱馬爾科夫模型(HMM)的對數(shù)后概率算法,將考生的語音文本切分到音素,在音素基礎(chǔ)上計算出能夠反映考生發(fā)音標(biāo)準(zhǔn)度、流暢度的評分特征,再給出機(jī)器評分結(jié)果。HMM是一種基于統(tǒng)計的模型,各音素的發(fā)音分布描述只能依據(jù)高斯分布,各HMM之間易混淆,從而導(dǎo)致系統(tǒng)無法正確反映音段的發(fā)音質(zhì)量,這將嚴(yán)重影響系統(tǒng)的評分性能,但語音識別中的語言模型能夠較好地消除HMM混淆影響;因此,本文借鑒語音識別中的語言模型思想,將普通話發(fā)音的語言學(xué)知識引入到對數(shù)后驗算法中,從語言模型的角度來重構(gòu)對數(shù)后驗概率算法中的識別網(wǎng)絡(luò),消除概率空間中HMM的混淆影響,解決不同音素之間后驗概率的不可比性。
如何削弱概率空間對語音測試系統(tǒng)的影響,提高系統(tǒng)的評測性能,學(xué)者進(jìn)行了不懈努力。文獻(xiàn) [1]提出 “根據(jù)聲韻母時長比例調(diào)整后驗概率”,根據(jù)時長加重聲母的權(quán)重,改善聲韻母間的后驗概率不一致問題。文獻(xiàn) [2]提出音素混淆擴(kuò)展網(wǎng)絡(luò)的后驗概率計算方法。這些方法的思想類似,都通過特定的方法減少概率空間中的音素個數(shù),達(dá)到減少概率空間對評測任務(wù)影響的目的。
本文從目前已有的普通話水平測試自動評分系統(tǒng)出發(fā),在文獻(xiàn) [3]統(tǒng)計的4大類考生發(fā)音錯誤的基礎(chǔ)上,將絕大多數(shù)考生的發(fā)音錯誤規(guī)律引入到常用的后驗概率評價算法中,對算法的概率空間進(jìn)行優(yōu)化,并在500份普通話水平現(xiàn)場考試數(shù)據(jù)集上進(jìn)行實驗。實驗結(jié)果表明,基于考生發(fā)音錯誤的概率空間能有效降低概率空間帶來的混淆。
受語音識別技術(shù)的限制,現(xiàn)行的普通話水平測試系統(tǒng)只能對考生完全按事先指定的文本朗讀的題型進(jìn)行評測,屬于文本相關(guān)的語音評測。文本相關(guān)的發(fā)音質(zhì)量自動評測系統(tǒng)的流程如圖1所示。
圖1 文本相關(guān)發(fā)音質(zhì)量自動評測系統(tǒng)流程圖
預(yù)處理模塊接收考生語音和標(biāo)準(zhǔn)文本,得到語音的聲學(xué)特征和語音識別所需要的信息;語音識別模塊根據(jù)聲學(xué)模型進(jìn)行識別,輸出音素及其邊界;評分特征提取模塊根據(jù)識別結(jié)果,結(jié)合文本和聲學(xué)模型,提取可量化的描述發(fā)音標(biāo)準(zhǔn)度、流暢度、完整度等評分特征;評分計算模塊根據(jù)評分特征計算并輸出考生的機(jī)器評分。
普通話水平測試系統(tǒng)中的語音評測是基于對數(shù)后驗概率法的,即先在切分(forced alignment)[3]的音素邊界上按式(1)對單個音素進(jìn)行計算,然后對考生的整個語流按式(2)進(jìn)行規(guī)整,得到考生最終發(fā)音質(zhì)量評分。
(1)
(2)
式中:Oi是根據(jù)考生的待測語音所提取的聲學(xué)特征,即觀測數(shù)據(jù);di是Oi的時長(幀數(shù));M為后概率空間;P(Oi|qi)是音素qi的似然度;N是考生整個語流中的音素個數(shù)。
式(1)中分母的輸出反映考生真實發(fā)音的音素級識別結(jié)果。實際發(fā)音評測中,因無法運(yùn)用語言模型,因此由漢語聲韻母構(gòu)成一個音素循環(huán)識別全網(wǎng)絡(luò),如表1所示,再在全網(wǎng)絡(luò)中求各音素的最大似然度。
表1 漢語聲韻母列表
國內(nèi)參加普通話水平測試的考生大都以漢語為母語,發(fā)音質(zhì)量問題大都是受方言的影響產(chǎn)生的,有很強(qiáng)的規(guī)律性。普通話測試專家已經(jīng)系統(tǒng)總結(jié)了帶方言口音普通話的各種音段錯誤和缺陷的基本類型[4]。典型的聲母錯誤包括: 1)將舌尖后音(翹舌音)讀作舌尖前音(平舌音);2)將舌尖前音(平舌音)讀作舌尖后音(翹舌音);3)將舌尖中鼻音讀作舌尖中邊音; 4)將舌尖中邊音讀作舌尖中鼻音。典型的韻母錯誤包括: 1)將后半高不圓唇元音e讀作前中元音,或前半高元音; 2)忽略卷舌韻母er的卷舌; 3)舌尖前元音-i(前)沒有保持單元音狀態(tài),明顯向無元音的舌邊滑動; 4)舌尖后元音-i(后)沒有保持單元音的狀態(tài),明顯向無元音的舌邊滑動,同時含卷舌成分。
語音識別系統(tǒng)的目標(biāo)是要將不同人的發(fā)音差別盡可能模糊掉,還原發(fā)音者想要表達(dá)的原文,但是系統(tǒng)受語言模型限制。普通話發(fā)音質(zhì)量評價系統(tǒng)的目標(biāo)是要對不同考生的發(fā)音差別盡可能準(zhǔn)確地進(jìn)行判斷,并以此來評判考生發(fā)音的標(biāo)準(zhǔn)程度,因此,不能直接使用語音識別中的語言模型;但是系統(tǒng)可以借鑒語音識別中的語言模型思想,利用普通話測試中的語言學(xué)知識對算法的識別網(wǎng)絡(luò)進(jìn)行精簡,即利用上述普通話常見聲韻母發(fā)音錯誤情況來限制式(1)中對數(shù)分母的最大值計算范圍。修改后的計算公式為
(3)
式(3)用音素qj的常見發(fā)音錯誤類型的模型集合Ej代替原來的全體聲韻母模型集合M,即用語言學(xué)知識[3]指導(dǎo)的精簡網(wǎng)絡(luò)代替原來的全網(wǎng)絡(luò)。
精簡網(wǎng)絡(luò)[1]是普通話測試專家在常見的語音錯誤和語音缺陷的基礎(chǔ)上,進(jìn)一步實例化得到?!爸袊币辉~對應(yīng)的聲韻母識別網(wǎng)絡(luò)如表2所示。
表2 詞語“中國”的精簡識別網(wǎng)絡(luò)
普通話水平測試屬于文本相關(guān)的發(fā)音質(zhì)量評測,與語音識別中基于詞圖的后驗概率有所區(qū)別。語音識別部分主要采用基于文本的切分方法,將考生的發(fā)音與標(biāo)準(zhǔn)文本強(qiáng)行對齊,得到由切分路徑構(gòu)成的簡單識別網(wǎng)絡(luò),構(gòu)成式(1)的分子。式(1)的分母則為由精簡網(wǎng)絡(luò)決定的解碼網(wǎng)絡(luò)。以“中國”為例,對應(yīng)式(1)中的分子、分母識別網(wǎng)絡(luò)如圖2所示。
圖2 高斯后驗概率分子、分母識別網(wǎng)絡(luò)
(4)
式(1)中基于分子識別網(wǎng)絡(luò)的后驗概率的計算公式為
(5)
在得到弧后驗概率的計算結(jié)果后,狀態(tài)后驗概率、高斯后驗概率的計算基本與語音識別一致。由于在指定弧下,利用Viterbi方法[5-7]得到的狀態(tài)后驗概率僅有0,1這2種值,因此,本文利用Viterbi算法計算狀態(tài)后驗概率。
先將式(1)中分子、分母識別網(wǎng)絡(luò)中的每條弧切分至狀態(tài),再計算每幀的狀態(tài)后驗概率,如圖3所示。其中,ong[1]描述發(fā)音‘ong’的HMM的第1個有效狀態(tài),ong[2]、ong[3]分別為第2、第3有效狀態(tài)。由Viterbi算法切分的狀態(tài)結(jié)果可知,在t時刻,狀態(tài)ong[2]的后驗概率為1,狀態(tài)ong[1]、ong[3]的后驗概率為0。
圖3 Viterbi算法中的弧狀態(tài)后驗概率示意圖
(6)
利用概率空間中各HMM對待測語音的聲學(xué)特征Or,n進(jìn)行解碼。若弧i的第t幀狀態(tài)為s,則St(i,s,Or,n)=1,否則St(i,s,Or,n)=0。
在得到狀態(tài)后驗概率的計算結(jié)果后,指定狀態(tài)下的高斯后驗概率為當(dāng)前高斯的加權(quán)似然度占所有高斯的加權(quán)似然度之和的比例。
分母的高斯后驗概率計算公式為
(7)
分子的高斯后驗概率計算公式為
(8)
其中
基于優(yōu)化識別網(wǎng)絡(luò)的語音評測算法的實現(xiàn)流程如圖4所示。
圖4 優(yōu)化識別網(wǎng)絡(luò)語音評測算法流程
1)根據(jù)標(biāo)準(zhǔn)文本對考生語音進(jìn)行語音識別,得到音素級識別結(jié)果。
2)根據(jù)考生的朗讀文本將音素HMM模型拼接構(gòu)成強(qiáng)制匹配的分子識別網(wǎng)絡(luò),同時生成一個無語法模型限制的音素循環(huán)識別網(wǎng)絡(luò)。
3)按上述后驗概率計算公式對音素和整個語流進(jìn)行歸整,得到考生的發(fā)音質(zhì)量評價得分。
普通話水平測試系統(tǒng)評測單字朗讀、雙字詞朗讀以及篇章朗讀3部分。實驗主要采用英國劍橋大學(xué)的HTK工具包[8]作為研究測試平臺,采用39維MFCC_0_D_A_Z聲學(xué)特征作為訓(xùn)練參數(shù),采用上下文無關(guān)的聲韻母模型作為聲學(xué)模型,共計67個HMM,包括聲母、韻母、零聲母、靜音、短時停頓、填充模型,每種模型壓縮至平均16高斯。
隨著普通話水平智能測試的推廣,全國各地的語音數(shù)據(jù)在數(shù)量上都有了極大的擴(kuò)充。為保證實驗結(jié)果的普遍性,從全國各地普通話測試中心選擇有代表性的500份語音數(shù)據(jù),共計約83 h,涵蓋普通話水平測試大綱中的全部字、詞、短文,每份數(shù)據(jù)都有專家的精細(xì)評分。
由于機(jī)器評分與專家評分間的相關(guān)度體現(xiàn)了人機(jī)評分的一致程度,因此算法選擇人機(jī)相關(guān)度作為評價系統(tǒng)性能的指標(biāo)。人機(jī)相關(guān)度Corr計算公式為
(9)
實驗采用對比法,在全概率空間、典型錯誤概率空間分別考察后驗概率對評分性能的影響。具體實驗結(jié)果見表3。
表3 不同概率空間中后驗概率算法評分性能
本文從普通話發(fā)音的角度,針對對數(shù)后驗概率算法中各HMM模型之間混淆率較大的不足,借鑒語音識別中的語言模型思想,從普通話的語言知識出發(fā)對算法的識別網(wǎng)絡(luò)進(jìn)行簡化,進(jìn)一步優(yōu)化算法的概率空間,同時結(jié)合發(fā)音空間對后驗概率的計算進(jìn)行研究。實驗表明,概率空間的優(yōu)化不僅能夠提高系統(tǒng)評測模型的性能,同時由于概率空間音素個數(shù)遠(yuǎn)小于全音素概率空間,因此還能顯著減少原有算法的運(yùn)算量。
[1]WEI Si, LIU Qingsheng, HU Yu, et al. Automatic Mandarin Pronunciation Scoring for Native Learners with Dialect Accent [C] // Proceedings of Interspeech 2006. Pittsburgh, Pennsylvania: International Speech Communication Association, 2006: 1383-1386.
[2]Ge F P, Lu L, Yan Y H. Experimental Investigation of Mandarin Pronunciation Duality Assessment System[C] // International Symposium Computer Science and Society (ISCCS).Kota Kinabalu: [s.n.],2011:235-239.
[3]WANG Renhua, LIU Qingfeng, WEI Si. Putonghua Proficiency Test and Evaluation [M].[S.l.]:Advances in Chinese Spoken Language Processing,2006:407-429.
[4]宋欣橋.普通話水平測試員實用手冊[M].北京:商務(wù)印書館,2005:139-151.
[5]Liu Qingsheng, Si Wei, Yu Hu,et al. The Application of Phone Weight in Putonghua Pronunciation Quality Assessment [C]// The 5th International Symposium on Chinese Spoken Language Processing. Singapore :[s.n.],2006:603-608.
[6]Young S, Evermann G, Gales M. The Hidden Markov Model Toolkit [EB/OL]. (2005-10-20). http://htk.eng.cam.ac.uk/.
[7]Jang R. Audio Signal Processing and Recognition [EB/OL]. (2009-05-30). http://neural.cs.nthu.edu.tw/jang/books/audiSignalProcessing/.
[8] Young S , Kershaw D, Odell J , et al.The HTK Book :for HTK Version 3.0 [M]. Redmond :Microsoft Corporation, 2000:23-45.