亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于GMM的算法在語音檢出系統(tǒng)中的應用研究

        2015-04-12 00:00:00喬立升等
        現(xiàn)代電子技術 2015年13期

        摘 要: 高斯混合模型(GMM)由于通過改變高斯的混合度,能夠逼近任意概率分布,所以在語音識別領域應用廣泛。對高斯混合模型的訓練,常見的訓練方法是最大似然估計(MLE),這種訓練方法能最大程度擬合所有樣本的分布,但沒有考慮模型之間的相互影響,導致識別過程會出現(xiàn)混淆情況;區(qū)分性模型訓練算法,適合應用于大數(shù)據(jù)量復雜組合類別的區(qū)分問題。這里提出采用的區(qū)分性模型訓練方法,其原則是最小化分類錯誤風險,通過更精確細致地刻畫不同模型之間的分類面,提升識別的效果。實驗結果表明,該訓練方法比最大似然估計的訓練方法在多類別語音檢出任務中具有更好的識別效果。

        關鍵詞: 高斯混合模型; 最大似然估計; 區(qū)分性模型訓練; 語音檢出

        中圖分類號: TN912.3?34 文獻標識碼: A 文章編號: 1004?373X(2015)13?0059?03

        Abstract: Gaussian mixture model (GMM) can approximate any probability distribution by changing Gaussian mixedness, so it is widely used in voice recognition domain. Maximum likelihood estimation (MLE) is a common training method for GMM training, which can fit the distribution of all samples to the greatest extent. The interplay between models isn′t considered in MLE, which leads to confusion appearing in recognition process. The discriminative model training algorithm is suitable for distinguishing the categories of large amount data complex combination. In this paper, application of the discrimination training algorithm is proposed, whose principle is to minimize the risk of classification errors. The recognition effect is improved through more precisely and meticulously describing classification facet between different models. The experimental results show that the training method has better recognition effect than maximum likelihood estimation in multi?class voice detection task.

        Keywords: GMM; MLE; discriminative model training; voice detection

        0 引 言

        語音識別技術飛速發(fā)展,各種語音檢出算法的提出如雨后春筍,但都是基于語音信號特征,或基于語音信號統(tǒng)計特性,或是基于信號特征與統(tǒng)計特性相結合的方法,各種算法各有優(yōu)劣,適用對象不同。綜合文獻[1?5]可知,基于短時能量和過零率的算法,適用于信噪比較高的場合,但難以區(qū)分清音和噪聲;基于自相關相似距離算法,總的來說與HMM算法的效果大致相同,但是對于結尾的判斷卻優(yōu)于HMM模型,這是因為語音大多以濁音結尾,此時自相關法的判斷精度較高,但對于清音開頭的語音,尤其是[s],[ks],[n]等音節(jié),自相關算法的檢測精度就不高;基于高斯混合模型(Gaussian Mixture Model,GMM)的算法,分類較細,提供了完整的基于數(shù)據(jù)的識別框架,具有良好的推廣性和擴展性。

        在GMM框架里,主要的問題是如何根據(jù)有限的數(shù)據(jù)產(chǎn)生對應的GMM模型,目前常見的訓練方法是采用最大似然估計(Maximum Likelihood Estimation,MLE),該方法基于MLE規(guī)則,最大程度擬合所有樣本的分布,模型參數(shù)不斷更新,直到觀察序列的概率提高到某些極限點。實際上,由于其沒有考慮聲學模型之間的相互影響,在訓練語料量比較大時,識別過程中會出現(xiàn)混淆情況。

        區(qū)分性的模型訓練算法,適合應用于大數(shù)據(jù)量復雜類別組合的區(qū)分問題[6]。本文提出采用的區(qū)分性模型訓練方法,其原則是最小化分類錯誤風險,將有限的模型描述能力更多用于容易錯的邊界樣本的區(qū)分,參數(shù)估計時不僅使得屬于該類別的訓練數(shù)據(jù)概率最大,同時還要使得不屬于該類別的訓練數(shù)據(jù)概率最小,通過更精確細致地刻畫不同模型之間的分類面,達到提升識別效果的目的。實驗結果表明,基于該算法的訓練方法比最大似然估計的訓練方法在多類別語音檢出任務中具有更好的識別效果。

        1 高斯混合模型描述

        GMM用于語音檢出[7],它直接對語音中各類數(shù)據(jù)特征的統(tǒng)計分布進行擬合。GMM可以看作是單狀態(tài)的HMM,GMM模型并不關注語音的時序過程,它只描述語音特征參數(shù)的靜態(tài)分布,不同類別語音特征的靜態(tài)分布不同,因此通過比較不同類數(shù)據(jù)的GMM模型,就可以區(qū)分不同的語音類別。在實際應用中,GMM高斯混合度要求比較高,一般要32個高斯函數(shù)或以上,甚至達到2 048個高斯函數(shù)。一個高斯混合模型的概率密度函數(shù)由多個高斯概率密度函數(shù)加權求和得到,如式(1)所示:

        [p(xλ)=i=1MωiNi(x)] (1)

        式中:[M]是高斯混合模型的混合度;[ωi]是每個高斯的權重;[x]是維數(shù)為[D]的觀測向量;[Ni(x)]是高斯分布概率密度函數(shù),[Ni(x)]可表示為:[Ni(x)=1(2π)D2Σi12exp-12(x-μi)TΣ-1i(x-μi) λ={ωi,μi,Σi}, i=1,2,…,M] (2)

        式中:[μi]為均值矢量;[Σi]為協(xié)方差矩陣。至此,整個高斯混合模型[λ]可由{[ωi,][μi,][Σi]}來描述。其中GMM的協(xié)方差矩陣[Σi]可以有多種形式,可以是每個高斯概率密度函數(shù)都有一個經(jīng)過訓練得到的協(xié)方差矩陣,也可以是某一類別語音的GMM模型的所有高斯概率密度函數(shù)共用同一個協(xié)方差矩陣,還可以是所有語音類別的GMM模型都共用同一個協(xié)方差矩陣。同時,協(xié)方差矩陣既可以是滿陣也可以是對角陣,但考慮到在模型的訓練過程中需要用到協(xié)方差矩陣的逆,而矩陣求逆往往是一個非常耗時的過程,所以協(xié)方差矩陣一般采用對角陣的形式。

        采用GMM作為語音聲學模型的原因如下:

        (1) 一個語音類別的聲學特征參數(shù)在特征空間的分布由該類別語音不同音的特征矢量的分布組成。對于語音檢出,可以認為GMM的各個高斯成分模擬了同一類別語音不同的未知音素的聲學特征,每個高斯成分描述了不同的音素分布。

        (2) 統(tǒng)計理論表明,用多個高斯概率密度函數(shù)的線性組合可以逼近任意分布,因此,GMM可以對任意的語音特征分布進行精確的描述。

        實際上,將GMM模型應用于語音檢出任務,用每個類別語音數(shù)據(jù)單獨訓練一個GMM模型,在測試時測試語音對所有的GMM模型求對數(shù)似然度函數(shù),得分高的模型就判斷為目標類別。同時,由于每個類別的數(shù)據(jù)可以積累較多,數(shù)據(jù)量可以得到保證,高斯數(shù)目一般較大,如128,由于這種特性,在語音檢出任務中這種方法的識別率一般較高。當然,在基于概率統(tǒng)計模型的識別算法中,不僅模型結構的選擇是否合適影響著最終的識別效果,模型參數(shù)的訓練估計是否準確同樣重要。模型訓練是指對模型參數(shù)進行估計,對于高斯混合模型而言,即是對[λ]進行估計。

        2 最大似然估計訓練方法

        對于高斯混合模型的訓練,目前最常見的訓練方法是采用MLE[7]。若給定訓練樣本為[X={x1,x2,…,xN},]則基于MLE的目標函數(shù)為:

        [obj=n=1Nlnp(xnλ)] (3)

        由于高斯混合模型中的權重是隱含變量,所以采用期望最大(Expectation Maximization,EM)算法,定義輔助函數(shù)如下:

        [Q(λ,λ)=n=1Ni=1Mγi(xn)lnp(xnλ)] (4)

        式中:[λ]是待估計參數(shù);[λ]是初始值或上次迭代結果;[γi(xn)=ωiNi(xn)j=1MωjNj(xn)]。通過求導,可得模型更新迭代公式如下:

        [ωi=1Nn=1Np(ixn,λ), μi=n=1Np(ixn,λ)xnn=1Np(ixn,λ)]

        [Σi=n=1Np(ixn,λ)xnxtnn=1Np(ixn,λ), p(ixn,λ)=ωiNi(xnλ)i=1MωiNi(xnλ)]

        在參數(shù)估計之前,用K均值算法初始化模型,模型參數(shù)通過反復替換[λ=λ]而提高。同時,為避免混亂,通過EM算法把整個訓練過程看作MLE方法,把單個重估過程看作MLE重估,進一步用MLE公式重估,直到滿足聚類規(guī)則的門限時終止,門限通常設置為觀察序列概率的對數(shù)的平均。通過最大似然估計訓練得到的模型參數(shù),能夠保證訓練數(shù)據(jù)在該模型上出現(xiàn)的概率最大,很好地表征了訓練樣本數(shù)據(jù)。但是MLE作為爬山算法,隨意選擇初始模型[λ,]即可導致局部最優(yōu),存在目標函數(shù)不能直接最大化的問題。然而在語音檢出中,識別分類問題至少牽涉到兩個類別,因此,采用最大似然準則訓練得到的模型,對于識別分類問題并不一定是最好的。

        3 區(qū)分性模型訓練方法

        最小化分類錯誤(MCE)風險原則的區(qū)分性模型訓練算法,參數(shù)估計時不僅使得屬于該類別的訓練數(shù)據(jù)概率最大,同時還要使得不屬于該類別的訓練數(shù)據(jù)概率最小。本文根據(jù)文獻[6]的MCE算法,考慮多類型語音檢出任務區(qū)分復雜等特點,結合EBW(Extended Baum,Welch)算法,定義和導出具體算法如下:

        假設訓練樣本數(shù)據(jù)為[X={x1,x2,…,xN},]樣本標識為[Y={y1,y2,…,yN},]其中[yn=1]表示屬于當前訓練的模型類別,[yn=0]表示屬于其他類別,定義區(qū)分性目標函數(shù)為:

        [obj=n=1Nynp(xnλ)-ln1+expp(xnλ)] (5)

        由于目標函數(shù)中隱含變量的影響,采用EBW算法,定義輔助目標函數(shù):

        [Q(λ,λ)=n=1Nyn-exp(p(xnλ))1+exp(p(xnλ))i=1Mγm(xnλ)lnωiNi(xnλ)+i=1MDmωmn=1Np(xnλ)lnp(xnλ)]

        式中[γm(xn|λ)=ωiNi(xnλ)i=1MωiNi(xnλ)。]

        令:

        [Γi(xn)=yn-exp(p(xnλ))1+exp(p(xnλ))γm(xnλ)]

        [Γi(1)=n=1NΓi(xn)]

        [Γi(x)=n=1NΓi(xn)xn]

        [Γi(x2)=n=1NΓi(xn)xnxtn]

        通過對輔助函數(shù)求導,可得模型參數(shù)更新公式如下:

        [ωi=Γi(1)+Diωii=1MΓi(1)+Di, μi=Γi(x)+DiωiμiΓi(1)+Diωi]

        [Σi=Γi(x2)-Γi(1)+Diωiμiμti+Diω2i(Σi+μiμti)Γi(1)+Diωi]

        最小化分類錯誤風險的區(qū)分性模型訓練算法,通過更精確細致地刻畫不同模型之間的分類面,達到提升識別效果的目的。

        4 語音檢出系統(tǒng)構成

        基于GMM的語音識別方法,其基本出發(fā)點是針對一般語音檢出方法中難以去除的非語音部分(如振鈴、彩鈴音等),考慮其特性類別以及通常語音的特性,然后分別進行建模,最后通過比對信號中每幀數(shù)據(jù)在每個模型上的相似度來判斷其類別。應用該方法的系統(tǒng)模塊圖如圖1所示。

        基于GMM模型的語音識別方法,從整體可分為以下幾個步驟:

        (1) 模型和特征選取

        該步驟是根據(jù)具體的應用環(huán)境,確定環(huán)境噪聲的類別,并選擇相應的訓練數(shù)據(jù)特征。例如對于電話信道而言,可以將環(huán)境噪聲分為彩鈴聲、振鈴聲、掛機噪聲、信道噪聲等。而特征的選取,一般采用分幀,提取每幀的13階MFCC特征即可。然后根據(jù)確定的噪聲類別標注訓練數(shù)據(jù),同時還需標注語音數(shù)據(jù),以訓練各種噪聲模型和語音模型。

        考慮到環(huán)境噪聲的種類較多,而實際關注的只是將語音和噪聲分開,因此,可以將語音部分標注為一類,將其他部分標注為非語音。由于非語音部分數(shù)據(jù)覆蓋范圍很廣,用一個GMM建模,模型的復雜度非常高,所以一個比較可行的方式是對非語音數(shù)據(jù)采用盲聚類的方式,生成多個類別,然后對每一個類再建立模型,這樣能夠有效地降低模型的復雜度(混合度)。根據(jù)實驗結果,GMM混合度為128較為理想。采用這種方式確定模型類別的話,可以有效地減少數(shù)據(jù)的標注工作量。

        對于上面確定模型類別和訓練數(shù)據(jù),記語音對應的模型設為[Mg],噪聲模型分別為[M1,M2,…,MN,]而相應的訓練數(shù)據(jù)表示為[Ds,D1,D2,…,DN]。

        (2) 模型訓練

        訓練數(shù)據(jù)和模型類別確定之后,就可以采用K?Means訓練,EM訓練或區(qū)分性的模型訓練相結合的方法來訓練模型。一般是利用前者估計GMM的初始值,然后利用后者進行迭代細化。

        (3) 模型判決

        該過程主要是對于信號中的每幀特征,計算它在各個GMM模型上的概率,選擇出現(xiàn)概率最大的GMM模型對應的類別作為判決結果。如果概率最大的模型對應語音信號,那么該幀就判斷為語音,否則判斷為非語音。

        (4) 判決結果后處理

        基于GMM模型,直接判斷會存在出錯的情況,因此需要對判決處理的結果進行后處理。本文所采用的后處理策略是,將當前幀左右相鄰的[L]幀作為一段,然后統(tǒng)計該段中出現(xiàn)語音幀和非語音幀的個數(shù)。如果語音幀和非語音幀的比例大于閾值[T,]則將當前幀判為語音幀,否則判為非語音幀。

        5 實驗及結論

        本文使用的聲學特征為經(jīng)過RASTA濾波[8]、求高階差分、去除靜寂段、均值倒譜減(CMS)[9]、高斯特征化[10]一系列處理后的MFCC特征。

        實驗共取錄音數(shù)據(jù)74條,945 MB,約22 h。其中經(jīng)標注后用于實驗驗證的數(shù)據(jù)有49條,475 MB。將這49條數(shù)據(jù)中的9條數(shù)據(jù)作為測試集合,83 MB,其中有161 273幀語音, 387 495幀非語音。對比表見表1。

        通過實驗結果對比分析可知,采用區(qū)分性算法的查準率比采用MLE算法的高8.12%,查全率略高1.77%。這充分說明,在相同的語音數(shù)據(jù)條件下,采用最小分類錯誤風險原則的區(qū)分性模型訓練方法后的語音識別效果明顯比采用最大似然估計的要好。但是,也必須認識到,由于采取的是基于GMM模型的算法,它不但要求有足夠的訓練數(shù)據(jù),同時要求訓練數(shù)據(jù)和測試數(shù)據(jù)要比較匹配,否則識別出來的結果就有可能和預期相差較大。

        參考文獻

        [1] 胡航.語音信號處理(修訂版)[M].哈爾濱:哈爾濱工業(yè)大學出版社,2002.

        [2] 張雄偉,陳亮,楊吉斌.現(xiàn)代語音處理技術及應用[M].北京:機械工業(yè)出版社,2003.

        [3] 夏敏磊.語音端點檢測技術研究[D].杭州:浙江大學,2005.

        [4] 朱杰,韋曉東.噪聲環(huán)境中基于HMM模型的語音信號端點檢測方法[J].上海交通大學學報,1998,22(10):14?16.

        [5] 謝霞,李宏,鄭俊.基于GMM的說話人辨認系統(tǒng)及其改進[J].電腦與信息技術,2006(2):48?51.

        [6] 劉聰.聲學模型區(qū)分性訓練及其在LVCSR系統(tǒng)的應用[D].合肥:中國科學技術大學,2010.

        [7] 劉鑫,王炳錫.基于GMM 的說話人分類自適應算法[J].信息工程大學學報,2001(4):35?37.

        [8] HERMANSKY H, MORGAN N, BAYYA A, et al. RASTA?PLP speech analysis technique [C]// Proceeding of 1992 IEEE International Conference on Acoustics, Speech, and Signal Processing. San Francisco: IEEE, 1992: 545?548.

        [9] FURUI S. Cepstral analysis technique for automatic speaker verification [J]. IEEE Transactions on Acoustics, Speech and Signal Processing, 1981, 29(2): 254?272.

        [10] XIANG B, CHAUDHARI U V, NAVRATIL J, et al. Short?time gaussianization for robust speaker verification [C]// Proceedings of 2002 IEEE International Conference on Acoustics, Speech, and Signal Processing. Orlando, USA: IEEE, 2002: 681?684.

        视频一区精品自拍| 乱人伦中文无码视频| 色久悠悠婷婷综合在线| 精品国产亚洲亚洲国产 | 77777亚洲午夜久久多喷| 日日噜噜夜夜狠狠va视频v| 无码国产69精品久久久久孕妇| 精品无码人妻一区二区三区品| 亚洲白白色无码在线观看| chinese国产在线视频| 国产精品又黄又爽又色| 极品尤物在线精品一区二区三区| 亚洲成av人片一区二区密柚| 国产成人精品一区二区不卡| 亚洲综合av在线在线播放| 天天狠天天透天干天天| 麻豆av一区二区天堂| 女同舌吻互慰一区二区| 色婷婷精品久久二区二区蜜臀av| 国产区精品一区二区不卡中文| 国产成人无码一区二区在线播放| 日本精品一区二区三区在线视频| 日本香蕉久久一区二区视频| 成人女同av免费观看| 日本一区二区三区经典视频| 日日碰日日摸日日澡视频播放| 99国产精品自在自在久久| 黄色视频在线免费观看| 国产在线成人精品| 99在线无码精品秘 人口| 中文字幕有码手机视频| 亚洲视频一区二区三区视频| 99精品国产丝袜在线拍国语| 亚洲av无码第一区二区三区 | 性欧美牲交xxxxx视频欧美| 精品欧美久久99久久久另类专区| 97人妻蜜臀中文字幕| 偷拍韩国美女洗澡一区二区三区| 国产又粗又猛又黄又爽无遮挡| 日韩欧美区| 美腿丝袜一区二区三区|