亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

一種改進的GOP算法在區(qū)分性訓練的應用*

2014-09-17 12:31:58熱米拉艾山江

通信技術 2014年5期

熱米拉·艾山江，黃浩

(新疆大學信息科學與工程學院，新疆烏魯木齊830046)

0 引言

隨著語音識別技術的不斷發(fā)展和完善，基于計算機輔助的語言學習成為語音信息處理技術研究領域的一個活躍的研究方向。計算機輔助語言學習的核心部分是自動發(fā)音檢錯系統(tǒng)，它的主要作用是通過計算機檢測說話人語音中的錯誤發(fā)音并對此進行改進，從而為學習者提供更有效的學習。自動發(fā)音錯誤檢測系統(tǒng)作為計算機輔助語言學習的核心部分，它的檢錯性能非常重要，而系統(tǒng)的檢錯性能依賴于經過正確訓練參數的聲學模型［1］，因此國內外很多研究人員在聲學模型的建模和訓練方面開展了很多研究。目前主流的聲學建模是基于HMM的聲學建模，而傳統(tǒng)的發(fā)音質量評估方法是基于后驗概率的GOP算法。

在發(fā)音檢錯系統(tǒng)的聲學模型參數［2］訓練上基于區(qū)分性原理的參數優(yōu)化方法從最近的的研究結果看表現出高效率性。區(qū)分性原理在語音識別研究領域中的應用已經取得了很大成功，常用的區(qū)分性訓練準則主要包括最小分類錯誤(MCE，Minimum Classification Error)［3］、最大互信息(MMI，Maximum Mutual Information)［4］以及近年來流行的最小音子錯誤(MPE，Minimum Phone Error)準則［5］。在這些區(qū)分性準則的指導下通過定義一個與識別率相一致的目標函數，優(yōu)化目標函數來直接提高識別率，成功的解決了傳統(tǒng)最大似然參數訓練方法的局限性［6］。因此研究人員將語音識別里提出的成功的區(qū)分性訓練方法擴展到發(fā)音檢錯系統(tǒng)的性能優(yōu)化方面。與語音識別不同的是在發(fā)音檢錯中，其性能包括正確率和檢出率，導致定義目標函數比較困難，因此從錯誤檢測度量的評估來處理這個問題［7］。根據上述思想，文中提出最大化F1值準則的算法?；谧畲蠡疐1值(MFC)的區(qū)分性訓練方法，將正確度標注的非母語語音數據庫上的發(fā)音錯誤檢測的F1值的最大化作為模型參數的訓練準則。通過Sigmoid函數平滑后的F1值函數作為目標函數，用弱意義輔助函數方法優(yōu)化目標函數，通過采用擴展的Baum－Welch算法來進行參數更新，獲得明顯的改進。

文中在最大化F1值的區(qū)分性訓練方法［8］的質量評估上提出一種先歸一化再求后驗概率的改進的GOP算，根據改進GOP算法給出了使用改進GOP算法最大F1準則的參數更新公式，發(fā)音檢錯實驗結果表明基于改進的GOP算法的最大F1值準則訓練較使用傳統(tǒng)的GOP算法能夠進一步提高檢錯F1值。

1 改進的GOP計算公式

傳統(tǒng)的GOP(Goodness of Pronunciation)算法屬于后驗概率的算法，它是針對漢語的聲母、韻母定義的音素，其主要方法是通過給出的某一語音段，計算其正確程度的定量得分的［9］。GOP得分計算公式［10］為:

式中，Or，n=1，…，r，…，R 表示為每條訓練語句的特

式中，κ是在區(qū)分性訓練中常用的用來減少模型概率動態(tài)范圍的比例因子，其取值范圍是0＜κ＜1。按照上述假設定義如下判別函數:

用改進的GOP算法定義語音段(r，n)的檢錯測度可以寫成:

式中，d(r，n)＜0 表示該語音段 Or，n被判定為錯誤發(fā)音，d(r，n)＜0表示被判定為正確的。τ是門限值，它可以由經驗值調整，也可以由訓練集統(tǒng)計訓練得到。

2 最大F1值準則目標函數

2．1 目標函數

根據最大化F1值區(qū)分性訓練方法。F1值是精確度和召回率的調和平均，其計算公式為:

式中，Precision為精確度，Recall為召回率，由于F1值函數對模型參數的不連續(xù)性，因此利用Sigmoid對F1值函數進行平滑，則得如下平滑后的F1值目標函數:

式中，NW是人工標注為錯誤的因素數目，Err(r，n)表示語音段(r，n)的人工標注結果。NSWW(λ)為平滑后的被人工和機器同時判定為錯誤發(fā)音的個數，是平滑后的機器判定為錯誤發(fā)音的個數。

2．2 目標函數的優(yōu)化

在MFC參數優(yōu)化采用構造弱意義輔助函數［11］的方法，根據弱意義輔助函數優(yōu)化原理，通過計算零階，一階，二階累積量從而對輔助函數的HMM高斯參數的均值與方差利用EBW迭代公式進行優(yōu)化。累積量的計算公式如下［12］:

式中，I(r，n)和 L(r，n)分別是語音段(r，n)的起始幀和結束幀;γMFCq是t時刻觀察矢量O(t)在狀態(tài)s中混合高斯m的后驗概率，通過強制對齊的起止時刻以及該語音段的觀察序列O(r，n)進行前后向計算得到，γMFCq是MFC參數訓練中的累積量。式(7)～式(9)中的的計算式把的計算公式的換成就可計算。

有上述模型參數可以看出，模型參數更新主要取決于MFC參數的計算。的計算公式為:

將式(6)中目標函數表達式代入上式，根據鏈式求導法則，分別計算上式中的的偏導數:

式中，根據傳統(tǒng)的GOP算法算出來的語音段(r，n)上音素q的后驗概率為γq(r，n):

根據文中提出來的改進的GOP算法計算γq(r，n)得:

使用改進的GOP算法優(yōu)化系統(tǒng)參數步驟如下:

1)初始化。

2)在訓練語段中的每個語音段(r，n)計算GOP值。

3)求使FMFC最大化的發(fā)音相關門限值τ的最優(yōu)值。

6)更新模型參數。

7)若未達到最優(yōu)值，返回步驟2)，繼續(xù)進行參數更新。

3 實驗與結果

3．1 數據庫和實驗配置

在文中通過漢語普通話發(fā)音錯誤檢測實驗來驗證所提方法的有效性。該實驗基于面向新疆大學在校進行預科語言學習的維吾爾族大學生的漢語發(fā)音錯誤檢測任務，普通話發(fā)音檢錯任務應當包括音素錯誤檢測和聲調錯誤檢測兩個部分?；€聲學模型訓練來自863漢語普通話語音數據庫(L1語音庫)中160個說話人(男女各80個人)的86 271條訓練語句。

區(qū)分性訓練在非母語說話人語音庫(L2)上進行。L2語音數據選自100名維吾爾族大學生的朗讀數據集。每名說話人朗讀2～3套文本材料，每套文本材料包括50個單音節(jié)字、25個雙音節(jié)詞以及20個短句。這些數據經過人工標注出發(fā)音錯誤。實驗過程中將這些數據分為L2訓練集(18 643句)、L2測試集(7 030句)。概率平衡因子根據經驗選取為κ=0．1，Sigmoid參數選取為q=10．0。

3．2 實驗結果

表1給出了在傳統(tǒng)的GOP算法和改進的GOP算法上所得的發(fā)音檢錯訓練集和測試集的目標函數FMFC和F1的值。

表1 目標函數FMFC和F1值Table 1 Objective function value FMFC and F1

表1中，在基線模型上使用傳統(tǒng)GOP算法和改進的GOP算法，在訓練集和測試集上的FMFC和F1值分別為0．369，0．395，0．365 和0．392。在 MFC 準則下的模型上使用傳統(tǒng)的GOP算法時，在訓練集和測試集上的 FMFC值，分別從0．369 上升到0．673，從0．365上升到0．452，而訓練集和測試集上的F1值分別從0．395 升高到0．719，從0．392 上升到0．479，可以看出在MFC上使用GOP算法時，訓練集和測試集上的FMFC和F1值大大的增大。我們再在MFC準則下的模型上使用改進的GOP算法時，在訓練集上FMFC和 F1值分別為0．665 和0．616，在測試集上FMFC和F1值分別為0．454和0．489。在使用傳統(tǒng)的GOP算法時在訓練集上的FMFC值為0．673時，在測試集上的F1值為0．479，而使用改進的GOP算法時，在訓練集上FMFC值為0．665時，在測試集上F1值為0．489，較傳統(tǒng)的方法提高了1%。由此可以看出利用改進的GOP算法時，訓練集上的目標函數值不用增很多就能得到較好的測試集上的F1值。

4 結語

文中首先介紹了傳統(tǒng)的發(fā)音質量評估方法GOP，然后在此基礎上得到了一種改進的GOP算法公式。改進的GOP算法把傳統(tǒng)的GOP算法的先求后驗概率再歸一化的模式改成先歸一化再求后驗概率。然后利用改進的GOP算法計算最大化F1值區(qū)分性訓練中的語音段(r，n)的新的檢錯測度和后驗概率，實驗結果表明，用改進的GOP算法得到的檢錯測度和后驗概率在MFC訓練上更有效率性，在訓練集上較低的目標函數值時在測試集上也能得到較好的的F1值，具有了較好的過訓練抑制性，從而達到了提高發(fā)音檢錯系統(tǒng)性能的提高。

［1］米日古力·阿布都熱素，艾克白爾·帕塔爾，艾斯卡爾·艾木都拉．基于電話語料的維吾爾連續(xù)音素識［J］．通信技術，2012，45(07):54－59．Mirigul Abdurusul，Akbar pattar，Askar Hamdulla．Telephone Speech Corpus－based Uyghur Continuous Phone Recognition．Communications Technology，2012，45(7):54－59．

［2］古力努爾·艾爾肯，艾斯卡爾·艾木都拉，地里木拉提·吐爾遜．維吾爾語四音節(jié)元音和諧詞的共振峰模式研究［J］．通信技術，2013，46(11):47－50．Gulnur Arkin，Askar Hamdulla，Dilmurat Tursun．Formant Features Analysis of Vowel Harmonious in Four－Syllabic UyghurWords． Communication Technology，2013，46(11):54－59．

［3］ POVEY D．Discriminative Training for Large Vocabulary Speech Recognition［D］．England:Cambridge University，2004．

［4］ NORMANDIN Y．Maximum Mutual Information Estimation of Hidden Markov Models［C］//Pro．Of Automatic Speech and Speaker Recognition．Holland:Kluwer Academic Publishers ，1996:57－81．

［5］ POVEY D ，WOODLAND P C．Minimum Phone Error and I－smoothing for Improved Discriminative Training［C］//Proc．of ICASSP．Orlando，USA:IEEE press，2002:105－108．

［6］張峰．基于統(tǒng)計模式識別的發(fā)音錯誤自動檢測的研究［D］．合肥:中國科學技術大學，2009:13－35．ZHANG Feng．A Study on Automatic Mispronunciation Detection based on Statistical Pattern Recognition［D］．He Fei:University of Science and Technology of China，2009，13－35．

［7］劉金鑫．區(qū)分性訓練在計算機輔助發(fā)音訓練系統(tǒng)中的應用［D］．天津:南開大學，2011:38－44．LIU Jin－xin．Application of Discriminative Training in Computer Assisted Pronunciation Training System［D］．Tian Jin:Nankai University，2011，38－44．

［8］ HUANG Hao，WANG Jian－ming，Abdureyimu Halidan．Maximum F1－Score Discriminative Training for Automatic Mispronunciation Dtection in Computer-Assisted Language Learning［R］．USA:ISCA，2012:815－818．

［9］竺博．區(qū)分性訓練和區(qū)分性自適應在自動語音識別聲學模型優(yōu)化中的應用［D］．合肥:中國科學技術大學，2009:16－28．ZHU Bo．Application of DT and DT Adaption Acoustic Model of ASR［D］．He Fei:University of Science and Technology of China，2009，16－28．

［10］ WITT S M，YOUNG S J．Phone－level Pronunciation Scoring and Assessment for Interactive Language Learning［J］．Speech Communication，2000，30(2－3):95－108．

［11］ POVEY D．DiscriminativeTraining for Large Vocabulary Speech Recognition［D］．England:University 0f Cambridge，2004:25－34．

［12］黃浩，王建明，哈力旦·阿不都熱依木，吾守爾·斯拉木．自動發(fā)音錯誤檢測中基于F1值最大化的聲學模型訓練方法［J］．聲學學報，2013，38(06):751－758．HUANG Hao，WANG Jian－ming，Abdureyimu Halidan，Silamu Wushour．Maximum F1－Score Discriminative Training for Automatic Mispronunciation Detection［J］．ACTA ACUSTICA，2013，38(6):751－758．