胡君,景新幸,楊海燕
HU Jun,JING Xinxing, YANG Haiyan
桂林電子科技大學(xué) 信息與通信學(xué)院,廣西,桂林 541004
School of information and Communication, Guilin University of Electrical Technology, Guilin,Guangxi, 541004, China
漢語(yǔ)是世界上使用人數(shù)最多的語(yǔ)言,越來(lái)越多的國(guó)外人加入學(xué)習(xí)漢語(yǔ)的行列中。在漢語(yǔ)的學(xué)習(xí)過(guò)程中,ML2大都缺乏語(yǔ)言環(huán)境且容易受自身母語(yǔ)的影響,對(duì)漢語(yǔ)發(fā)音的掌握尤為困難。隨著計(jì)算機(jī)技術(shù)與自動(dòng)語(yǔ)音識(shí)別(Automatic Speech Recognition ,ASR)技術(shù)的引入與發(fā)展,計(jì)算機(jī)輔助語(yǔ)言教學(xué)(Computer assisted language learning,CALL)系統(tǒng)很好的解決發(fā)音訓(xùn)練問(wèn)題[1-3],可以隨時(shí)、隨地提供良好的漢語(yǔ)學(xué)習(xí)環(huán)境,實(shí)時(shí)對(duì)學(xué)習(xí)語(yǔ)音進(jìn)行評(píng)價(jià)同時(shí)給予錯(cuò)誤信息反饋。
發(fā)音評(píng)分作為計(jì)算機(jī)輔助漢語(yǔ)教學(xué)系統(tǒng)中的核心部分,解決學(xué)習(xí)者學(xué)習(xí)語(yǔ)音質(zhì)量評(píng)價(jià)的問(wèn)題,目前針對(duì)發(fā)音評(píng)分主要從主觀和客觀兩個(gè)角度進(jìn)行分析。主觀的角度主要是基于語(yǔ)音特征比較的評(píng)分方法,由學(xué)習(xí)語(yǔ)音與標(biāo)準(zhǔn)語(yǔ)音之間的特征參數(shù)距離來(lái)衡量學(xué)習(xí)語(yǔ)音的質(zhì)量,如文獻(xiàn)[2]采用動(dòng)態(tài)時(shí)間規(guī)整(Dynamic time warping,DTW)方法。此類方法的優(yōu)劣取決于標(biāo)準(zhǔn)語(yǔ)音的標(biāo)準(zhǔn)程度,同時(shí)缺少一定的客觀性;客觀的角度則是基于聲學(xué)模型的評(píng)分方法,如文獻(xiàn)[3]和文獻(xiàn)[4]采用基于隱馬爾可夫模型(Hidden Markov model,HMM)的后驗(yàn)概率的方法。這類方法是基于置信度概率大小的計(jì)算,算法復(fù)雜度高且計(jì)算量大,不利于系統(tǒng)擴(kuò)展。
本文針對(duì)ML2學(xué)習(xí)者研究基于計(jì)算機(jī)輔助漢語(yǔ)教學(xué)系統(tǒng)的發(fā)音評(píng)分方法,將發(fā)音評(píng)分分為發(fā)音效果與發(fā)音方式兩者的評(píng)分,從主觀和客觀兩個(gè)角度描述發(fā)音語(yǔ)音,引入雙語(yǔ)料語(yǔ)音庫(kù)減小系統(tǒng)受標(biāo)準(zhǔn)語(yǔ)音庫(kù)的影響。采用 BDTW方法進(jìn)行發(fā)音效果和發(fā)音方式相似度判斷。最后依據(jù)各部分評(píng)分結(jié)果得出最后的系統(tǒng)得分。
發(fā)音評(píng)分就是確定學(xué)習(xí)語(yǔ)音與標(biāo)準(zhǔn)語(yǔ)音之間的相似度大小,可以從發(fā)音效果和發(fā)音方式兩方面進(jìn)行比較。發(fā)音效果評(píng)分是比較學(xué)習(xí)語(yǔ)音與標(biāo)準(zhǔn)語(yǔ)音聽(tīng)覺(jué)上的相似度,而發(fā)音方式評(píng)分則側(cè)重于判斷發(fā)音方式的準(zhǔn)確程度。發(fā)音效果和發(fā)音方式是發(fā)音質(zhì)量?jī)蓚€(gè)不同的評(píng)價(jià)角度,在發(fā)音質(zhì)量中的影響程度隨著發(fā)音質(zhì)量不同而不同。
2.1.1 特征參數(shù)提取
語(yǔ)音特征參數(shù)可以表征語(yǔ)音的內(nèi)容特性,語(yǔ)音的比較即為語(yǔ)音特征參數(shù)的比較。語(yǔ)音發(fā)音效果可以采用梅爾倒譜參數(shù)(Mel Frequency Cepstral Coefficients,MFCC)、韻律參數(shù)和能量參數(shù)來(lái)表征。MFCC能充分利用人耳的聽(tīng)覺(jué)特性,具有很好的系統(tǒng)魯棒性【5】;漢語(yǔ)作為一門聲調(diào)語(yǔ)言,韻律在發(fā)音質(zhì)量中占有很大的比重,因此系統(tǒng)中韻律參數(shù)對(duì)于反應(yīng)學(xué)習(xí)者發(fā)音效果質(zhì)量有很重要的評(píng)價(jià)作用;基頻軌跡曲線可以很好的反應(yīng)語(yǔ)音聲調(diào)、韻律的變化;能量也可作為反映發(fā)音效果的重要參數(shù),因此本文提取MFCC、基頻軌跡曲線和能量作為發(fā)音效果特征參數(shù)。
2.1.2 BDTW評(píng)分算法
發(fā)音效果的評(píng)分關(guān)鍵是比較在發(fā)音聽(tīng)覺(jué)上與標(biāo)準(zhǔn)語(yǔ)音的相似度,基于DTW技術(shù)是用來(lái)尋找語(yǔ)音參數(shù)之間最近的匹配路徑,通過(guò)距離大小可以反映語(yǔ)音相似度大小。BDTW算法是在 DTW基礎(chǔ)上引入雙語(yǔ)種說(shuō)話人(Bilingual Speaker and Mandarin as a second language,B2)語(yǔ)音庫(kù)作為輔助參考標(biāo)準(zhǔn),將B2語(yǔ)音與標(biāo)準(zhǔn)語(yǔ)音之間的距離作為參考距離來(lái)衡量學(xué)習(xí)語(yǔ)音與標(biāo)準(zhǔn)語(yǔ)音之間的距離。在進(jìn)行學(xué)習(xí)語(yǔ)音評(píng)分之前需要進(jìn)行參考距離的距離訓(xùn)練。
B2語(yǔ)音庫(kù)是雙語(yǔ)種說(shuō)話人的良好到差各個(gè)等級(jí)發(fā)音,作為輔助參考標(biāo)準(zhǔn)可以消除一部分由于ML2母語(yǔ)影響造成的發(fā)音聽(tīng)覺(jué)上的差異,同時(shí)精細(xì)學(xué)習(xí)者的發(fā)音效果,提供更好的學(xué)習(xí)指導(dǎo)。非標(biāo)準(zhǔn)的B2語(yǔ)音還可用于評(píng)分映射模型訓(xùn)練。圖1示出了雙語(yǔ)音特征比較的評(píng)分算法流程。
2.1.3 MFCC特征比評(píng)分
系統(tǒng)在模型訓(xùn)練階段,首先收集母語(yǔ)為漢語(yǔ)的標(biāo)準(zhǔn)發(fā)音者(Learner with Mandarin as first language ,ML1)的發(fā)音作為標(biāo)準(zhǔn)語(yǔ)音庫(kù),提取標(biāo)準(zhǔn)語(yǔ)音庫(kù)MFCC參數(shù),假設(shè)標(biāo)準(zhǔn)語(yǔ)音庫(kù)中共含有L個(gè)語(yǔ)料的標(biāo)準(zhǔn)語(yǔ)音,每個(gè)ML1語(yǔ)音在B2語(yǔ)音庫(kù)中對(duì)應(yīng)N個(gè)B2標(biāo)準(zhǔn)語(yǔ)音,利用DTW分別求出ML1與之對(duì)應(yīng)的最短MFCC參數(shù)距離,構(gòu)成MFCC-ML1參考距離庫(kù),則ML1庫(kù)中某個(gè)語(yǔ)音的MFCC-ML1參考距離庫(kù)可以表示為:{DMl-B1, DMl-B2,…DMl-Bi…DMl-BN}。
發(fā)音評(píng)分階段提取學(xué)習(xí)語(yǔ)音的MFCC參數(shù),將學(xué)習(xí)語(yǔ)音與ML1標(biāo)準(zhǔn)語(yǔ)音的MFCC特征參數(shù)距離定義為學(xué)習(xí)距離 Dl-Ml。將學(xué)習(xí)距離與標(biāo)準(zhǔn)距離庫(kù)進(jìn)行匹配,尋找最小的特征距離作為最終評(píng)判距離Dfin,經(jīng)過(guò)評(píng)分機(jī)制的映射得到特征比得分。
MFCC特征比評(píng)分計(jì)算公式為:其中 a和 b為常數(shù),可以通過(guò)實(shí)驗(yàn)確定,min(DMli-Bij)為第i個(gè)發(fā)音的參考距離庫(kù)中最小距離,DMli-Bij為第i個(gè)發(fā)音參考距離庫(kù)中第j項(xiàng)距離值,i=1,2…L,j=1,2…N。dist表示歐式距離。
圖1 基于DTW的雙語(yǔ)音特征比較的評(píng)分算法流程圖
2.1.4 聲調(diào)、能量特征比評(píng)分
聲調(diào)、能量特征評(píng)分是基于基頻軌跡、能量曲線的相似度比較。在B2中尋找到與學(xué)習(xí)語(yǔ)音MFCC距離最小的語(yǔ)音后,提取該語(yǔ)音的基音周期及基頻軌跡曲線,并與學(xué)習(xí)語(yǔ)音的基音周期及基頻軌跡曲線進(jìn)行距離比較。這里的距離取歐氏距離,聲調(diào)、能量評(píng)分公式為:
其中a[ i]和b[ i]分別為匹配B2語(yǔ)音和學(xué)習(xí)語(yǔ)音的基頻軌跡曲線或者能量包絡(luò)曲線DTW路徑上各點(diǎn)值,C為計(jì)算系數(shù),由實(shí)驗(yàn)確定。
2.1.5 發(fā)音效果得分
發(fā)音效果得分由MFCC、聲調(diào)評(píng)分和能量參數(shù)評(píng)分三部分的線性加權(quán)得到。計(jì)算公式為:
其中wi(i=1,2,3)分別為 MFCC、聲調(diào)評(píng)分和能量參數(shù)權(quán)重,可以通過(guò)線性回歸的方法得到。Scorei(i=1,2,3)分別為 MFCC、聲調(diào)、能量得分。
ML2的發(fā)音傾向于清晰度低而且持續(xù)時(shí)間長(zhǎng),整體發(fā)音不飽滿,發(fā)音方式容易受母語(yǔ)影響,特別是對(duì)于漢語(yǔ)的第三聲、有無(wú)后鼻音、和有無(wú)翹舌音的發(fā)音掌握比較困難,而這三者又是漢語(yǔ)的特色所在。因此在進(jìn)行發(fā)音效果評(píng)分之前系統(tǒng)需要能夠判斷ML2學(xué)習(xí)者的第三聲、后鼻音、和翹舌音的三種發(fā)音方式的準(zhǔn)確程度。
2.2.1 特征參數(shù)
一般來(lái)說(shuō),第三聲與非三聲語(yǔ)音相比,能量和過(guò)零率相似,而三聲持續(xù)時(shí)間卻要大于非三聲;翹舌音的過(guò)零率要比非翹舌音的過(guò)零率大的多;后鼻音與非后鼻音整體能量相差不大,只是后鼻音能量在發(fā)音轉(zhuǎn)折前部分高而后部分低,而非后鼻音相反在發(fā)音前部分低而后部分能量較高,能量曲線可以很好的反應(yīng)這種特性。因此可以比較學(xué)習(xí)語(yǔ)音與標(biāo)準(zhǔn)語(yǔ)音的語(yǔ)音能量、過(guò)零率、發(fā)音持續(xù)時(shí)間三種特征參數(shù)來(lái)評(píng)價(jià)學(xué)習(xí)語(yǔ)音發(fā)音方式。
2.2.2 評(píng)分實(shí)現(xiàn)
將整個(gè)語(yǔ)音庫(kù)按發(fā)音方式進(jìn)行分類并進(jìn)行標(biāo)注,分為:三聲和非三聲集合 1、有鼻音和無(wú)鼻音的集合 2、有卷舌音和無(wú)卷舌音集合 3。分別提取集合中各語(yǔ)音的發(fā)音方式特征參數(shù),如集合1中提取發(fā)音持續(xù)時(shí)間、集合2中提取能量曲線、集合3中提取過(guò)零率。在學(xué)習(xí)語(yǔ)音識(shí)別后階段通過(guò)簡(jiǎn)單的決策樹來(lái)確定該學(xué)習(xí)語(yǔ)音比較的參數(shù),如圖2所示。運(yùn)用BDTW技術(shù)找到與標(biāo)準(zhǔn)語(yǔ)音的距離最相近的M個(gè)語(yǔ)音,計(jì)算學(xué)習(xí)語(yǔ)音與M個(gè)相近的標(biāo)準(zhǔn)語(yǔ)音的參數(shù)平均距離,由評(píng)分機(jī)制求出學(xué)習(xí)語(yǔ)音的發(fā)音方式得分。
發(fā)音方式評(píng)分的計(jì)算公式:
其中distc為學(xué)習(xí)語(yǔ)音與標(biāo)準(zhǔn)語(yǔ)音之間的歐式距離,M 由實(shí)驗(yàn)得出,dist為標(biāo)準(zhǔn)語(yǔ)音與學(xué)習(xí)語(yǔ)音之間的距離,distC為標(biāo)準(zhǔn)語(yǔ)音與學(xué)習(xí)語(yǔ)音之間的平均距離,λ為計(jì)算系數(shù),由實(shí)驗(yàn)得到。
學(xué)習(xí)語(yǔ)音的最終系統(tǒng)得分包含發(fā)音效果評(píng)分與發(fā)音方式評(píng)分兩部分,分別為兩部分設(shè)定閾值,動(dòng)態(tài)的為兩部分分配權(quán)值。在小于閾值情況下,發(fā)音方式評(píng)分權(quán)重大,發(fā)音效果評(píng)分權(quán)重低,相應(yīng)的大于閾值時(shí)發(fā)音效果評(píng)分的權(quán)重更高。即在發(fā)音方式小于閾值的情況下,認(rèn)為發(fā)音評(píng)分低主要來(lái)源于發(fā)音方式錯(cuò)誤而增加發(fā)音方式的權(quán)重以減少主觀上的錯(cuò)誤評(píng)分,反之則注重發(fā)音效果的評(píng)判。系統(tǒng)得分公式為:
圖2 決策樹判斷語(yǔ)音比較的發(fā)音方式參數(shù)
其中f1,f2為權(quán)重值,且f1>f2,由實(shí)驗(yàn)得到。Scoref,scorex分別為發(fā)音效果和發(fā)音方式閾值。
本實(shí)驗(yàn)實(shí)現(xiàn)的是母語(yǔ)為英語(yǔ)的學(xué)習(xí)者學(xué)習(xí)漢語(yǔ)的發(fā)音評(píng)分。實(shí)驗(yàn)中包含漢語(yǔ)標(biāo)準(zhǔn)語(yǔ)音庫(kù)、雙語(yǔ)種說(shuō)話人漢語(yǔ)語(yǔ)音庫(kù)及測(cè)試語(yǔ)音庫(kù)三種語(yǔ)音庫(kù)。標(biāo)準(zhǔn)語(yǔ)音庫(kù)來(lái)源于863標(biāo)準(zhǔn)語(yǔ)音庫(kù),雙語(yǔ)種說(shuō)話人漢語(yǔ)標(biāo)準(zhǔn)語(yǔ)音庫(kù)采用20名(其中10男性10女性)母語(yǔ)為英語(yǔ)的說(shuō)話人語(yǔ)音,說(shuō)話人每人說(shuō)50個(gè)字詞,由專家評(píng)分,評(píng)分為良好以上(70%)的說(shuō)話人語(yǔ)音作為B2標(biāo)準(zhǔn)語(yǔ)音庫(kù),測(cè)試語(yǔ)音自實(shí)驗(yàn)室收集的10名(5男5女)母語(yǔ)為英語(yǔ)的學(xué)生每人10個(gè)字詞的發(fā)音,每個(gè)字詞發(fā)音10遍,將系統(tǒng)得分與專家評(píng)分進(jìn)行對(duì)比,得到機(jī)器與人工評(píng)分的相關(guān)度。實(shí)驗(yàn)仿真均在Mtalab 7.0環(huán)境下進(jìn)行。
由于選擇庫(kù)標(biāo)準(zhǔn)時(shí)性別不同對(duì)于評(píng)分結(jié)果影響很大,因此需要建立性格相關(guān)的發(fā)音評(píng)分模型。建立男聲、女聲獨(dú)立的語(yǔ)音庫(kù),提取學(xué)習(xí)語(yǔ)音參數(shù)過(guò)程之前判斷學(xué)習(xí)者性別,調(diào)用相應(yīng)的標(biāo)準(zhǔn)語(yǔ)音庫(kù)。表1為某一個(gè)測(cè)試者10次發(fā)音“我們”學(xué)習(xí)語(yǔ)音的系統(tǒng)評(píng)分和人工評(píng)分結(jié)果。Scoref,scorex閾值分別取45和60,M取10。
表1可以看出,學(xué)習(xí)者在發(fā)音方式得分低的情況下,系統(tǒng)得分偏低,在發(fā)音方式得分增加的同時(shí),發(fā)音效果與系統(tǒng)得分提高,在發(fā)音方式穩(wěn)定的情況下,系統(tǒng)得分取決于發(fā)音效果得分,這與人工評(píng)分保持一致,也說(shuō)明了系統(tǒng)的有效性。
表1 學(xué)習(xí)者10次發(fā)音評(píng)分及人工評(píng)分
將本文基于發(fā)音效果和發(fā)音方式的BDTW特征比評(píng)分命名 Effect-Mode-BDTW方法,Effect-Mode-BDTW方法和其他評(píng)分算法與專家評(píng)分之間的相關(guān)性比較結(jié)果如表2所示。
Effect-Mode-BDTW方法較段時(shí)長(zhǎng)、對(duì)數(shù)釋然、GOP算法在相關(guān)度上有所提高,且實(shí)施方案簡(jiǎn)便、評(píng)分更為全面。而相對(duì)于類似方法的 MFCC-DTW 方法,更為突出漢語(yǔ)發(fā)音的特點(diǎn),對(duì)ML2學(xué)習(xí)者發(fā)音特性都有較好的學(xué)習(xí)評(píng)價(jià)。對(duì)于發(fā)音方式的評(píng)判目前只是包含三種易錯(cuò)的發(fā)音方式,在加入更多發(fā)音方式評(píng)判后系統(tǒng)性能更優(yōu)。
表2 算法之間的相關(guān)度比較
本文引入雙語(yǔ)種說(shuō)話人語(yǔ)音,將發(fā)音評(píng)分分為發(fā)音效果和發(fā)音方式兩部分,由特征參數(shù)的相似度評(píng)價(jià)語(yǔ)音的發(fā)音質(zhì)量。該方法簡(jiǎn)單有效,適用于ML2的漢語(yǔ)評(píng)分。不同母語(yǔ)的學(xué)習(xí)者發(fā)音方式不同,且發(fā)音方式本身具有多樣性,系統(tǒng)對(duì)表征發(fā)音方式的特征參數(shù)及其評(píng)分尚不完善,還需要提取更為有效的發(fā)音效果特征參數(shù)、建立更多更為精細(xì)的發(fā)音方式集合以提高發(fā)音評(píng)分準(zhǔn)確性。
[1]宋芳芳,宋曉麗,馬青玉.基于語(yǔ)音識(shí)別技術(shù)的英語(yǔ)口語(yǔ)自學(xué)系統(tǒng)評(píng)分機(jī)制的研究[J].Computer Kowledge and Technology 2009, 5(7):1726-1728.
[2]劉振安, 羅永釗.基于特征比較的語(yǔ)音評(píng)分方法研究[J].計(jì)算機(jī)應(yīng)用.2005,25(12):2928-2930.
[3]Chaohuang, Fengzhang, Frank K.soong .Improving automatic evaluation of Mandarin pronuncition with speaker adaptive training and MLLR speaker adaption[c].Chinese Spoken Language Processing,2008:1-4.
[4]Fengpei Ge,LiLu,YonghongYan.Experimental Invest-igation of Mandari Pronunciation Quality ssessment System[C].2011 International Symposium on Computer Science and Society, 2011:235-239.
[5]Tobias Cincarek, Rainer Gruhn,Christian Hacker.Automatic pronunciation scoring of words and sentences independent from the non-native’s first language[J].Computer Speech and Language, Volum-e23 Issue1, January 2009:65-88.
[6]Helme Strik, Khiet Truong, Febe de Wet,Cstia Cucchiarini.Comparing different approaches for automatic pronunciation error detection[J].Speech Communication, Volume 51 ,issue10,October 2009:845-852.[7]NEUMEYER L, FRANCO H, DIGALAK IS V, et al.Automatic Scoring of Pronunciation Quality[J].Spee-ch Communication,2000, 30(2):83- 93.
[8]WITT SM, YOUNG S J.Phone Level Pronunciat ion S coring and Assessment for Interact ive Language Learn ing[ J].Speech Communication, 2000, 30(2):95 - 108.