亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于本征音子說(shuō)話人子空間的說(shuō)話人自適應(yīng)算法

        2015-07-12 14:07:52丹張文林
        電子與信息學(xué)報(bào) 2015年6期
        關(guān)鍵詞:本征維數(shù)高斯

        屈 丹張文林

        (信息工程大學(xué)信息系統(tǒng)工程學(xué)院 鄭州 450000)

        基于本征音子說(shuō)話人子空間的說(shuō)話人自適應(yīng)算法

        屈 丹*張文林

        (信息工程大學(xué)信息系統(tǒng)工程學(xué)院 鄭州 450000)

        本征音子說(shuō)話人自適應(yīng)算法在自適應(yīng)數(shù)據(jù)量充足時(shí)可以取得很好的自適應(yīng)效果,但在自適應(yīng)數(shù)據(jù)量不足時(shí)會(huì)出現(xiàn)嚴(yán)重的過擬合現(xiàn)象。為此該文提出一種基于本征音子說(shuō)話人子空間的說(shuō)話人自適應(yīng)算法來(lái)克服這一問題。首先給出基于隱馬爾可夫模型-高斯混合模型(HMM-GMM)的語(yǔ)音識(shí)別系統(tǒng)中本征音子說(shuō)話人自適應(yīng)的基本原理。其次通過引入說(shuō)話人子空間對(duì)不同說(shuō)話人的本征音子矩陣間的相關(guān)性信息進(jìn)行建模;然后通過估計(jì)說(shuō)話人相關(guān)坐標(biāo)矢量得到一種新的本征音子說(shuō)話人子空間自適應(yīng)算法。最后將本征音子說(shuō)話人子空間自適應(yīng)算法與傳統(tǒng)說(shuō)話人子空間自適應(yīng)算法進(jìn)行了對(duì)比。基于微軟語(yǔ)料庫(kù)的漢語(yǔ)連續(xù)語(yǔ)音識(shí)別實(shí)驗(yàn)表明,與本征音子說(shuō)話人自適應(yīng)算法相比,該算法在自適應(yīng)數(shù)據(jù)量極少時(shí)能大幅提升性能,較好地克服過擬合現(xiàn)象。與本征音自適應(yīng)算法相比,該算法以較小的性能犧牲代價(jià)獲得了更低的空間復(fù)雜度而更具實(shí)用性。

        語(yǔ)音信號(hào)處理;說(shuō)話人自適應(yīng);本征音子;本征音子說(shuō)話人子空間;低秩約束;本征音

        1 引言

        連續(xù)語(yǔ)音識(shí)別系統(tǒng)中,訓(xùn)練數(shù)據(jù)與測(cè)試數(shù)據(jù)不匹配會(huì)造成系統(tǒng)性能的急劇下降。聲學(xué)模型自適應(yīng)技術(shù)就是根據(jù)少量的測(cè)試數(shù)據(jù)對(duì)聲學(xué)模型進(jìn)行調(diào)整,增加其與測(cè)試數(shù)據(jù)的匹配程度,從而提高系統(tǒng)的識(shí)別性能。造成訓(xùn)練與測(cè)試數(shù)據(jù)不匹配的因素包括說(shuō)話人、傳輸信道或說(shuō)話噪聲環(huán)境的不同,相應(yīng)的自適應(yīng)技術(shù)分別稱為“說(shuō)話人自適應(yīng)”[1]、“信道自適應(yīng)”[2]或“環(huán)境自適應(yīng)”[3]。說(shuō)話人自適應(yīng)技術(shù)的方法也可以應(yīng)用于信道自適應(yīng)或環(huán)境自適應(yīng)。說(shuō)話人自適應(yīng)通常包括特征層自適應(yīng)[4,5]和聲學(xué)模型自適應(yīng),因此,聲學(xué)模型的說(shuō)話人自適應(yīng)[1]是當(dāng)前語(yǔ)音識(shí)別系統(tǒng)一個(gè)必不可少的重要組成部分。

        聲學(xué)模型的說(shuō)話人自適應(yīng)就是利用少量的未知說(shuō)話人語(yǔ)料(自適應(yīng)語(yǔ)料),在最大似然或最大后驗(yàn)準(zhǔn)則下,將說(shuō)話人無(wú)關(guān)(Speaker-Independent, SI)聲學(xué)模型調(diào)整至說(shuō)話人相關(guān)(Speaker-Dependent, SD)聲學(xué)模型,使得語(yǔ)音識(shí)別系統(tǒng)更具說(shuō)話人針對(duì)性,從而提高系統(tǒng)的識(shí)別率。在隱馬爾可夫模型的連續(xù)語(yǔ)音識(shí)別系統(tǒng)框架下,主流的說(shuō)話人自適應(yīng)技術(shù)可分為三大類[1]:基于最大后驗(yàn)概率的方法、基于變換的自適應(yīng)方法和基于說(shuō)話人子空間的自適應(yīng)方法,分別以最大后驗(yàn)(Maximum A Posteriori, MAP)自適應(yīng)方法、最大似然線性回歸(Maximum Likelihood Linear Regression, MLLR)及本征音(Eigen Voice, EV)方法[6]及其拓展算法為代表。2004年,文獻(xiàn)[7]通過對(duì)SD聲學(xué)模型中各高斯混元均值矢量相對(duì)于SI聲學(xué)模型的變化量進(jìn)行子空間分析,得到一種新的子空間分析方法。該方法與說(shuō)話人子空間中的“本征音”相類似,因此稱該子空間的基矢量為“本征音子(Eigen Phone, EP)”,該空間為“音子變化子空間”。但文獻(xiàn)[7]提出的方法是一種“多說(shuō)話人”聲學(xué)建模技術(shù),只能得到訓(xùn)練集中說(shuō)話人相關(guān)的聲學(xué)模型,對(duì)于測(cè)試集中的未知說(shuō)話人沒有給出其聲學(xué)模型的自適應(yīng)方法。

        2011年,文獻(xiàn)[8]提出了一種基于本征音子的說(shuō)話人自適應(yīng)方法,克服了文獻(xiàn)[7]本征音子模型的不足,能夠?qū)y(cè)試集未知說(shuō)話人進(jìn)行自適應(yīng)。由于該方法對(duì)于每個(gè)未知說(shuō)話人需要估計(jì)一個(gè)擴(kuò)展的本征音子矩陣,其參數(shù)較多,在自適應(yīng)數(shù)據(jù)量較少時(shí),極易出現(xiàn)過擬合現(xiàn)象;即使對(duì)參數(shù)估計(jì)過程引入各種正則化方法,其自適應(yīng)效果仍達(dá)不到基于說(shuō)話人子空間的方法[9,10]。對(duì)于傳統(tǒng)MLLR說(shuō)話人自適應(yīng)方法,為了提高其在少量自適應(yīng)數(shù)據(jù)條件下的性能,有學(xué)者提出在訓(xùn)練階段尋找MLLR線性變換矩陣的一組基,在自適應(yīng)階段利用這組基估計(jì)新的變換矩陣的線性組合,從而減少待估參數(shù)數(shù)量。這種方法稱為“本征空間MLLR”自適應(yīng)方法[11?14]。該方法本質(zhì)上是將說(shuō)話人子空間的思想用于說(shuō)話人相關(guān)變換矩陣的估計(jì),對(duì)變換矩陣建立了一個(gè)說(shuō)話人子空間。

        為此,本文將上述思想引入本征音子說(shuō)話人自適應(yīng)方法中,提出了基于本征音子說(shuō)話人子空間的說(shuō)話人自適應(yīng)算法。新方法充分利用了擴(kuò)展的本征音子矩陣也是說(shuō)話人相關(guān)的這一特點(diǎn),對(duì)本征音子的說(shuō)話人子空間進(jìn)行建模。與本征音子自適應(yīng)方法相比,該方法在少量自適應(yīng)數(shù)據(jù)量下具有良好的性能,很大程度克服了過擬合現(xiàn)象。與說(shuō)話人子空間自適應(yīng)方法相比,新方法的子空間基矢量的維數(shù)大大降低,具有更低的空間復(fù)雜度。本文章節(jié)安排如下:第2節(jié)給出了本征音子說(shuō)話人自適應(yīng)方法;第3節(jié)討論基于本征音子說(shuō)話人子空間的自適應(yīng)方法的數(shù)學(xué)優(yōu)化算法及與說(shuō)話人子空間自適應(yīng)方法的比較;第4節(jié)給出了實(shí)驗(yàn)結(jié)果及分析;最后給出了本文的結(jié)論。

        2 本征音子說(shuō)話人自適應(yīng)算法

        2.1 音子變化子空間及本征音子

        本文僅討論基于隱馬爾可夫模型的連續(xù)語(yǔ)音識(shí)別系統(tǒng)的說(shuō)話人自適應(yīng)。假設(shè)在SI聲學(xué)模型中,共有M個(gè)高斯混元,特征矢量維數(shù)為D,訓(xùn)練集合中共有S個(gè)說(shuō)話人。令μm和分別為SI模型和第s個(gè)說(shuō)話人SD模型中第m個(gè)高斯混元的均值矢量。定義音子變化矢量為=?μm。在本征音子說(shuō)話人自適應(yīng)中,對(duì)于第s個(gè)說(shuō)話人,假設(shè){}位于一個(gè)說(shuō)話人相關(guān)的N(N<<M)維子空間Π(s)中,稱Π(s)為說(shuō)話人相關(guān)的“音子變化子空間”。設(shè)Π(s)的原點(diǎn)為,基矢量為{},稱}為第s個(gè)說(shuō)話人的本征音子(Eigen Phone, EP)。令第m個(gè)高斯混元對(duì)應(yīng)的坐標(biāo)矢量為ym=[ym1ym2… ymN]T,則在音子變化子空間中可以分解為其中,V(s)=[…]和s)=[V(s)]分別為第s個(gè)說(shuō)話人的本征音子矩陣和擴(kuò)展本征音子矩陣,其維數(shù)分別為D×N和D×(N+1);ym和=[1]T為高斯混元坐標(biāo)矢量和擴(kuò)展高斯混元坐標(biāo)矢量,其維數(shù)分別為N和N+1。在訓(xùn)練階段,通過對(duì)訓(xùn)練說(shuō)話人相關(guān)聲學(xué)模型的音子變化超矢量進(jìn)行主分量分析可以得到各高斯混元的坐標(biāo)矢量{ym}[8],即根據(jù)式(1),um可以分解為

        其中,

        在自適應(yīng)階段,假設(shè)未知說(shuō)話人自適應(yīng)數(shù)據(jù)的特征矢量序列為O={o(t)},根據(jù)最大似然準(zhǔn)則,估計(jì)說(shuō)話人相關(guān)本征音子矩陣V(s)。采用期望最大化(Expectation Maximization, EM)算法,優(yōu)化的目標(biāo)函數(shù)為

        2.2 本征音子的最大似然估計(jì)

        其中,γm(t )表示第t幀特征矢量屬于SI模型中第m個(gè)高斯混元的后驗(yàn)概率,給定自適應(yīng)數(shù)據(jù)的標(biāo)注,則可以通過Baum-Welch前后向算法[15]計(jì)算得到;Σm表示第m個(gè)高斯混元的協(xié)方差矩陣。將式(1)代入式(3),并令其對(duì)(s)的導(dǎo)數(shù)為0,可以得到(s)的求解公式[8]。然而文獻(xiàn)[8]給出的求解公式中涉及(N+1)D×(N+1)D維矩陣的逆,對(duì)于一個(gè)典型的連續(xù)語(yǔ)音識(shí)別系統(tǒng),當(dāng)音子變化子空間N較大時(shí)(≥100)時(shí),存儲(chǔ)及求逆計(jì)算都非常消耗內(nèi)存和計(jì)算時(shí)間。但傳統(tǒng)HMM-GMM的聲學(xué)模型中,Σm通常是一個(gè)對(duì)角陣,令其第d個(gè)對(duì)角線元素為σm,d,則目標(biāo)函數(shù)式(3)可以簡(jiǎn)化為

        其中,od(t )及μm,d分別為特征矢量o(t)及均值矢量μm的第d維元素,ν~(ds)T表示本征音子矩陣V~(s)的第d行。對(duì)式(4)進(jìn)行整理可得

        3 基于本征音子說(shuō)話人子空間的自適應(yīng)方法

        3.1 本征音子說(shuō)話人子空間

        其中,unvecD,N+1(·)表示矩陣化函數(shù),它將一個(gè)D×(N+1)維列矢量的元素依次按列排列成一個(gè)D×(N+1)維的矩陣。

        3.2 自適應(yīng)算法具體描述

        進(jìn)一步,定義矩陣Pm=[p1,mp2,m… pK,m],則式(9)等價(jià)為

        假設(shè)自適應(yīng)數(shù)據(jù)的特征矢量序列為O= [o1,o2,…,oT],根據(jù)最大似然準(zhǔn)則,采用期望最大(Expectation Maximization, EM)算法,由式(10),說(shuō)話人s'坐標(biāo)矢量x(s')的最大似然估計(jì)目標(biāo)函數(shù)可以寫為

        其中,矩陣A和矢量b的定義分別為

        其中,γm與sm分別為屬于第m個(gè)高斯混元的特征矢量的零階與一階統(tǒng)計(jì)量。

        3.3 與說(shuō)話人子空間自適應(yīng)方法的比較

        在基于說(shuō)話人子空間的自適應(yīng)方法中,其基本假設(shè)是說(shuō)話人超矢量μ(s)位于一個(gè)低維線性子空間ΓK中(K為子空間維數(shù),K<S)。設(shè)ΓK的一組基矢量為{e1,e2,…,eK},其中第k個(gè)基矢量ek中第m個(gè)高斯混元對(duì)應(yīng)的均值矢量為ek,m。設(shè)μ(s)在這組基下的坐標(biāo)矢量為x,稱x為說(shuō)話人因子;令EK,m=[e1,me2,m… eK,m],則μ可以分解為

        其中,SI模型的均值矢量μm可視為第m個(gè)高斯混元所在說(shuō)話人子空間的原點(diǎn)。根據(jù)訓(xùn)練數(shù)據(jù)得到說(shuō)話人子空間的基矢量,則在自適應(yīng)階段,只需要根據(jù)自適應(yīng)數(shù)據(jù)估計(jì)未知說(shuō)話人s'的說(shuō)話人因子,然后根據(jù)式(15)即可得到自適應(yīng)后各高斯混元的均值矢量。

        不難發(fā)現(xiàn),本征音子說(shuō)話人子空間的自適應(yīng)方法與說(shuō)話人子空間的自適應(yīng)方法非常類似。對(duì)比式(10)和式(15)可見,Pm相當(dāng)于第m個(gè)高斯混元對(duì)應(yīng)的本征音矩陣EK,m。在說(shuō)話人子空間自適應(yīng)方法中,說(shuō)話人子空間的基由一組說(shuō)話人超矢量構(gòu)成,其中每一個(gè)超矢量的維數(shù)為M×D;而基于本征音子說(shuō)話人子空間的自適應(yīng)方法中,說(shuō)話人子空間的基是由若干個(gè)擴(kuò)展本征音子矩陣構(gòu)成,其中每一個(gè)矩陣的維數(shù)為(N+1)×D。由于N?M,因此本文方法所需要的存儲(chǔ)空間要小得多。對(duì)于一個(gè)實(shí)際的大詞匯量連續(xù)語(yǔ)音識(shí)別系統(tǒng),M通常高達(dá)十萬(wàn)級(jí),而N往往只需數(shù)百左右,因此存儲(chǔ)空間的節(jié)省是非??捎^的。

        4 實(shí)驗(yàn)結(jié)果及分析

        為了驗(yàn)證本文算法的性能,采用微軟中文語(yǔ)料庫(kù)[16]針對(duì)HMM-GMM框架下的連續(xù)語(yǔ)音識(shí)別系統(tǒng)說(shuō)話人自適應(yīng)實(shí)驗(yàn)。訓(xùn)練集中包括100個(gè)男性說(shuō)話人,每人大約200句話,每句話時(shí)長(zhǎng)大約5 s,共有19688句話,總時(shí)長(zhǎng)為33 h。測(cè)試集中共有25個(gè)說(shuō)話人,每人20句話,每句話時(shí)長(zhǎng)也是大約5 s。

        聲學(xué)特征矢量采用13維的MFCC參數(shù)及其一階、二階差分,總的特征維數(shù)為39維。幀長(zhǎng)和幀移分別為25 ms和10 ms。實(shí)驗(yàn)中,借助語(yǔ)音開源工具箱HTK(Hidden Markov Toolkit)(版本3.4.1)[15]訓(xùn)練得到SI基線系統(tǒng)。首先訓(xùn)練單音子聲學(xué)模型,其中每個(gè)單音子對(duì)應(yīng)一個(gè)漢語(yǔ)有調(diào)音節(jié)。根據(jù)發(fā)音字典,對(duì)單音子進(jìn)行上下文擴(kuò)展,得到295180個(gè)跨詞的三音子有調(diào)音節(jié),其中95534個(gè)三音子在訓(xùn)練語(yǔ)料中得到覆蓋。每一個(gè)三音子用一個(gè)包含3個(gè)發(fā)射狀態(tài)的、自左向右無(wú)跨越的隱馬爾可夫模型進(jìn)行建模。采用基于決策樹的三音子狀態(tài)聚類后,系統(tǒng)中共有2392個(gè)不同的上下文相關(guān)狀態(tài)。最終訓(xùn)練得到的說(shuō)話人無(wú)關(guān)(SI)聲學(xué)模型中每個(gè)狀態(tài)含有8個(gè)高斯混元,因此聲學(xué)模型中的總的高斯混元數(shù)為19136個(gè)。

        在測(cè)試階段,使用HTK自帶的HVite工具作為解碼器,使用音節(jié)全連接的解碼網(wǎng)絡(luò),不采用任何語(yǔ)法模型。采用這種解碼網(wǎng)絡(luò)的語(yǔ)音識(shí)別系統(tǒng)對(duì)聲學(xué)模型的要求最高,可以充分展示聲學(xué)模型的識(shí)別性能。在原始測(cè)試集上,SI基線系統(tǒng)的平均有調(diào)音節(jié)正確識(shí)別率為53.04%(文獻(xiàn)[16]中結(jié)果為51.21%)。

        4.1 擴(kuò)展本征音子超矢量的說(shuō)話人子空間存在性實(shí)驗(yàn)

        本節(jié)通過對(duì)訓(xùn)練說(shuō)話人的擴(kuò)展本征音子超矢量進(jìn)行主分量分析來(lái)驗(yàn)證其說(shuō)話人子空間的存在性。根據(jù)訓(xùn)練說(shuō)話人的初始SD聲學(xué)模型,首先得到各高斯混元對(duì)應(yīng)的音子變化超矢量um(式(2)),每個(gè)音子變化超矢量的維數(shù)為S×D=100×39=3900,對(duì){um}進(jìn)行主分量分析,保留前100個(gè)最大的特征值對(duì)應(yīng)的特征矢量作為基矢量矩陣V(式(2))的列;根據(jù)基矢量矩陣V及音子變化超矢量的均值矢量u0(式(2)),得到100個(gè)訓(xùn)練說(shuō)話人的擴(kuò)展本征音子超矢量v~(s)(式(7)),每個(gè)擴(kuò)展本征音子超矢量的維數(shù)為D×(N+1)=39×(N+1);最后,對(duì){}再次進(jìn)行主分量分析,將其協(xié)方差矩陣的特征值從大到小排序,并計(jì)算各特征值的累積貢獻(xiàn)率。將音子變化子空間的維數(shù)N從25調(diào)整到250,各種參數(shù)設(shè)置下的特征值累積貢獻(xiàn)率變化曲線如圖1所示。率;而當(dāng)N=250時(shí),前31個(gè)特征值才能達(dá)到80%的累積貢獻(xiàn)率。

        圖1 擴(kuò)展本征音子超矢量協(xié)方差矩陣的特征值累積貢獻(xiàn)率變化曲線

        4.2 基于本征音子說(shuō)話人子空間的自適應(yīng)實(shí)驗(yàn)

        為了比較本文算法的性能,實(shí)驗(yàn)中,本文針對(duì)以下3種說(shuō)話人自適應(yīng)算法進(jìn)行對(duì)比實(shí)驗(yàn):

        (1)本征音(Eigen Voice, EV):基于主分量分析的本征音說(shuō)話人自適應(yīng)算法,本征音的個(gè)數(shù)K從20調(diào)整到100。

        (2)最大似然本征音子(EigenPhone based on Maximum Likelihood, EP-ML):基于最大似然估計(jì)的本征音子說(shuō)話人自適應(yīng)算法,在訓(xùn)練階段采用2.2節(jié)給出的主分量分析方法得到各高斯混元的坐標(biāo)矢量{ym},然后在測(cè)試階段采用3.3節(jié)最大似然估

        由圖1可見,在各種音子變化子空間維數(shù)(N)下,對(duì)訓(xùn)練說(shuō)話人擴(kuò)的展本征音子超矢量進(jìn)行主分量分析(Principal Component Analysis, PCA)后,前20至50個(gè)特征值即具有80%~90%的累積貢獻(xiàn)率,這表明擴(kuò)展本征音子超矢量空間中的確存在一個(gè)低維的說(shuō)話人子空間。此外從圖1還可看出,音子變化子空間維數(shù)(N)越小,說(shuō)話人子空間越明顯:當(dāng)N=25時(shí),前22個(gè)特征值具有80%的累積貢獻(xiàn)計(jì)準(zhǔn)則計(jì)算每個(gè)說(shuō)話人的擴(kuò)展本征音子矩陣;

        (3)本征音子說(shuō)話人子空間(EigenPhone based on Speaker Subspace, EP-SS):本文提出的基于本征音子說(shuō)話人子空間自適應(yīng)算法,其中說(shuō)話人子空間維數(shù)K從20調(diào)整到100。

        其中,(1)為經(jīng)典的說(shuō)話人子空間自適應(yīng)算法,(2)為原始的本征音子自適應(yīng)算法,(3)為本文提出的基于本征音子說(shuō)話人子空間的自適應(yīng)算法。在所有的本征音子自適應(yīng)算法實(shí)驗(yàn)中,本征音子的個(gè)數(shù)N均取為100。

        在訓(xùn)練階段,對(duì)每一個(gè)訓(xùn)練說(shuō)話人,利用其訓(xùn)練語(yǔ)料,采用MLLR+MAP自適應(yīng)方法得到其對(duì)應(yīng)的SD聲學(xué)模型及其對(duì)應(yīng)的說(shuō)話人超矢量。利用這100個(gè)訓(xùn)練說(shuō)話人超矢量,采用經(jīng)典的主分量分析方法得到100個(gè)本征音超矢量。其中,在MLLR+ MAP自適應(yīng)方法中,將回歸樹中的回歸類數(shù)分別設(shè)置為16, 32和64, MLLR變換矩陣分別設(shè)置為對(duì)角矩陣、分塊對(duì)角矩陣和滿陣,將MAP自適應(yīng)的先驗(yàn)權(quán)重從10調(diào)整到40。最終發(fā)現(xiàn)在所有自適應(yīng)數(shù)據(jù)量條件下,當(dāng)回歸類數(shù)為32、線性變換矩陣為分塊對(duì)角矩陣(每個(gè)子矩陣均為13×13維,分別對(duì)應(yīng)原始的美爾頻率倒譜系數(shù)(Mel Frequency Cepstral Coefficients, MFCC)及其一階和二階差分參數(shù))、先驗(yàn)權(quán)重為10時(shí),得到最佳的平均正確識(shí)別率。

        在測(cè)試階段,為了測(cè)試各方法在不同數(shù)據(jù)量下的自適應(yīng)性能,對(duì)于每一個(gè)說(shuō)話人,從其20句話中隨機(jī)選取1句話、2句話、4句話作為自適應(yīng)語(yǔ)料,從剩下的語(yǔ)料中隨機(jī)選取10句話作為測(cè)試語(yǔ)料。為了保證實(shí)驗(yàn)結(jié)果的可靠性,每種自適應(yīng)語(yǔ)料條件下,使用交叉驗(yàn)證的方法對(duì)每一個(gè)說(shuō)話人重復(fù)8次實(shí)驗(yàn),統(tǒng)計(jì)所有8詞實(shí)驗(yàn)測(cè)試語(yǔ)料上的平均結(jié)果作為系統(tǒng)性能指標(biāo),表1給出了各種說(shuō)話人自適應(yīng)算法的實(shí)驗(yàn)結(jié)果(為簡(jiǎn)潔起見,對(duì)于本征音自適應(yīng)算法,表中僅給出了其最佳結(jié)果)。其中黑體字所示為每種自適應(yīng)數(shù)據(jù)量條件下的最好實(shí)驗(yàn)結(jié)果,斜體字所示為相比基線SI系統(tǒng)平均正確識(shí)別率(53.04%)下降的實(shí)驗(yàn)結(jié)果。

        由表1中結(jié)果可見,隨著自適應(yīng)語(yǔ)料的增加,為了獲得最佳的自適應(yīng)性能,本征音自適應(yīng)算法中說(shuō)話人子空間的維數(shù)(K)也要相應(yīng)地增大。

        本文實(shí)驗(yàn)中,由于自適應(yīng)語(yǔ)料相對(duì)較少,本征音子的個(gè)數(shù)(N=100)相對(duì)較大,因此原始的本征音子自適應(yīng)方法(EP-ML)出現(xiàn)嚴(yán)重的過擬合現(xiàn)象,在1句話自適應(yīng)語(yǔ)料條件下其平均正識(shí)率(19.45%)甚至遠(yuǎn)低于自適應(yīng)前SI聲學(xué)模型的實(shí)驗(yàn)結(jié)果(53.04%)。

        對(duì)本征音子算法引入說(shuō)話人子空間后,EP-SS算法的自適應(yīng)性能得到明顯提升。在1句話與2句話,與EP-ML算法相比,其最佳平均正識(shí)率相對(duì)提高了187%與37%。同時(shí),隨著自適應(yīng)數(shù)據(jù)量的增加,為達(dá)到最佳平均正確識(shí)別率,說(shuō)話人子空間的維數(shù)也要相應(yīng)地增大,這一點(diǎn)與本征音自適應(yīng)算法的變化趨勢(shì)是一致的。實(shí)際應(yīng)用中應(yīng)根據(jù)實(shí)驗(yàn)確定最佳的說(shuō)話人子空間維數(shù),或利用數(shù)據(jù)擬合的方法得到說(shuō)話人子空間維數(shù)隨著自適應(yīng)語(yǔ)料數(shù)據(jù)量變化的經(jīng)驗(yàn)公式。

        表1 各種自適應(yīng)算法的正確識(shí)別率(%)

        將本征音子說(shuō)話人子空間自適應(yīng)算法(EP-SS)與本征音自適應(yīng)算法(EV)進(jìn)行比較,可以看出,在所有自適應(yīng)數(shù)據(jù)量下前者的平均正確識(shí)別率略低于后者,但已十分接近。這是由于前者的說(shuō)話人子空間是針對(duì)本征音子超矢量進(jìn)行構(gòu)建的,它只能得到說(shuō)話人相關(guān)高斯混元均值矢量的一個(gè)近似表達(dá);而后者的說(shuō)話人子空間是針對(duì)說(shuō)話人超矢量構(gòu)建的,它是說(shuō)話人相關(guān)高斯混元均值的原始表達(dá);因此,在訓(xùn)練本征音子超矢量時(shí),都會(huì)對(duì)原始高斯混元均值矢量的表示造成一定誤差。

        為了更好地比較兩種算法的性能時(shí),采用NIST公布的開源工具包SCTK1))ftp://jaguar.ncsl.nist.gov/pub/sctk-2.4.0-20091110-0958.tar.bz2進(jìn)行顯著性水平測(cè)試(Significance test)以檢驗(yàn)識(shí)別結(jié)果之間的差異在統(tǒng)計(jì)上是否顯著。3種顯著性測(cè)試(MP測(cè)試、SI測(cè)試及WI測(cè)試)結(jié)果均表明在5%的顯著性水平之下,在1句話與4句話自適應(yīng)語(yǔ)料時(shí),兩種方法的的最佳實(shí)驗(yàn)結(jié)果之間差異是不顯著的;而在2句話自適應(yīng)語(yǔ)料時(shí),本征音自適應(yīng)算法(EV)的MP測(cè)試相對(duì)更優(yōu)一些,而其它兩種測(cè)試顯示其差異也是不顯著的。這就說(shuō)明兩者的性能從統(tǒng)計(jì)上講幾乎是相同的。

        下面討論本文提出的EP-SS算法的時(shí)間復(fù)雜度和空間復(fù)雜度。首先分析一下時(shí)間復(fù)雜度,根據(jù)式(10)和式(15),在3.3節(jié)討論了本征音子說(shuō)話人子空間自適應(yīng)方法和本征音子自適應(yīng)算法的相似性。并且由式(12)可以看出,兩種方法的時(shí)間復(fù)雜度只與說(shuō)話人音子x(s')的維數(shù)K有關(guān),即對(duì)于相同的說(shuō)話人音子維數(shù),兩種方法的時(shí)間復(fù)雜度完全相同。即使兩種方法最佳的說(shuō)話人音子x(s')的維數(shù)K不同,從實(shí)驗(yàn)可知,二者相差不大,因此時(shí)間復(fù)雜度也相差不大。例如EP-SS方法當(dāng)K=40時(shí)與EV算法當(dāng)K =30進(jìn)行比較,從式(12)可知,由于只是一個(gè)K維的矩陣求逆和向量相乘,二者的時(shí)間復(fù)雜度差別可忽略。

        然而就空間復(fù)雜度而言,正如3.3節(jié)中的分析所指出,與原始的說(shuō)話人子空間自適應(yīng)方法相比,在基于本征音子說(shuō)話人子空間方法中,說(shuō)話人子空間的基矢量維數(shù)大大壓縮(從M×D維壓縮為N×D維),使得在實(shí)際應(yīng)用中針對(duì)大詞匯量連續(xù)語(yǔ)音識(shí)別的實(shí)現(xiàn)變得更為簡(jiǎn)單與現(xiàn)實(shí)。例如,在原始說(shuō)話人子空間自適應(yīng)方法中,當(dāng)訓(xùn)練語(yǔ)料達(dá)到百小時(shí)數(shù)量級(jí)時(shí),高斯混元數(shù)量(M)會(huì)達(dá)到十萬(wàn)級(jí),存儲(chǔ)200個(gè)說(shuō)話人超矢量將耗費(fèi)約幾G內(nèi)存(高斯混元數(shù)×特征維數(shù)×浮點(diǎn)數(shù)精度字節(jié)數(shù)×說(shuō)話人個(gè)數(shù)),耗費(fèi)了大量的內(nèi)存資源;而在基于本征音子的說(shuō)話人子空間方法中,由于N可以取為100左右即可,存儲(chǔ)200個(gè)說(shuō)話人超矢量只需幾M內(nèi)存,這種對(duì)內(nèi)存資源的節(jié)約是非??捎^的。因此,基于本征音子說(shuō)話人子空間的自適應(yīng)方法在犧牲少許性能的代價(jià)下,換來(lái)了說(shuō)話人子空間自適應(yīng)方法實(shí)用性的大幅提高。

        5 結(jié)束語(yǔ)

        本文提出了一種基于本征音子說(shuō)話人子空間的說(shuō)話人自適應(yīng)方法。本文在分析了本征音子說(shuō)話人自適應(yīng)算法基本原理的基礎(chǔ)上,利用了本征音子矩陣的說(shuō)話人相關(guān)特性定義了本征音子的說(shuō)話人子空間,并且通過對(duì)訓(xùn)練說(shuō)話人的擴(kuò)展本征音子超矢量進(jìn)行主分量分析來(lái)驗(yàn)證其說(shuō)話人子空間的存在性。然后詳細(xì)推導(dǎo)了本征音子說(shuō)話人子空間自適應(yīng)的具體算法,并且將該方法與已有的相關(guān)自適應(yīng)算法進(jìn)行比較。由于對(duì)本征音子的說(shuō)話人相關(guān)性建模,因此與本征音子自適應(yīng)算法相比,當(dāng)自適應(yīng)數(shù)據(jù)量較少(小于4句)時(shí),本征音子說(shuō)話人子空間的自適應(yīng)算法能夠大幅提高系統(tǒng)的識(shí)別性能,較好解決了本征音子自適應(yīng)算法由于自適應(yīng)數(shù)據(jù)不足帶來(lái)的過擬合問題。與本征音方法比較可以發(fā)現(xiàn),二者算法非常相似,但前者的說(shuō)話人子空間是針對(duì)本征音子超矢量構(gòu)建的,而后者說(shuō)話人子空間是針對(duì)說(shuō)話人超矢量構(gòu)建的,前者在犧牲少許性能的代價(jià)下,節(jié)省了大量的存儲(chǔ)空間,具有較小的空間復(fù)雜度而更具實(shí)用性。

        [1] Zhang Wen-lin, Zhang Wei-qiang, Li Bi-cheng, et al.. Bayesian speaker adaptation based on a new hierarchical probabilistic model[J]. IEEE Transactions on Audio, Speech and Language Processing, 2012, 20(7): 2002-2015.

        [2] Solomonoff A, Campbell W M, and Boardman I. Advances in channel compensation for SVM speaker recognition[C]. Proceedings of International Conference on Acoustics, Speech, and Signal Processing (ICASSP), Philadelphia, United States, 2005: 629-632.

        [3] Kumar D S P, Prasad N V, Joshi V, et al.. Modified spliceand its extension to non-stereo data for noise robust speech recognition[C]. Proceedings of IEEE Automatic Speech Recognition and Understanding Workshop(ASRU), Olomouc, Czech Republic, 2013: 174-179.

        [4] Ghalehjegh S H and Rose R C. Two-stage speaker adaptation in subspace Gaussian mixture models[C]. Proceedings of International Conference on Audio, Speech and Signal Processing(ICASSP), Florence, Italy, 2014: 6374-6378.

        [5] Wang Y Q and Gale M J F. Tandem system adaptation using multiple linear feature transforms[C]. Proceedings of International Conference on Audio, Speech and Signal Processing(ICASSP), Vancouver, Canada, 2013: 7932-7936. [6] Kenny P, Boulianne G, and Dumouchel P. Eigenvoice modeling with sparse training data[J]. IEEE Transactions on Speech and Audio Processing, 2005, 13(3): 345-354.

        [7] Kenny P, Boulianne G, Dumouchel P, et al.. Speaker adaptation using an eigenphone basis[J]. IEEE Transaction on Speech and Audio Processing, 2004, 12(6): 579-589.

        [8] Zhang Wen-lin, Zhang Wei-qiang, and Li Bi-cheng. Speaker adaptation based on speaker-dependent eigenphone estimation[C]. Proceedings of IEEE Automatic Speech Recognition and Understanding Workshop(ASRU), Hawaii, United States, 2011: 48-52.

        [9] 張文林, 張連海, 陳琦, 等. 語(yǔ)音識(shí)別中基于低秩約束的本征音子說(shuō)話人自適應(yīng)方法[J]. 電子與信息學(xué)報(bào), 2014, 36(4): 981-987.

        Zhang Wen-lin, Zhang Lian-hai, Chen Qi, et al.. Low-rank constraint eigenphone speaker adaptation method for speech recognition[J]. Journal of Electronics & Information Technology, 2014, 36(4): 981-987.

        [10] Zhang Wen-lin, Qu Dan, and Zhang Wei-qiang. Speaker adaptation based on sparse and low-rank eigenphone matrix estimation[C]. Proceedings of Annual Conference on International Speech Communication Association (INTERSPEECH), Singapore, 2014: 2972-2976.

        [11] Wang N, Lee S, Seide F, et al.. Rapid speaker adaptation using a priori knowledge by eigenspace analysis of MLLR parameters[C]. Proceedings of International Conference on Audio, Speech and Signal Processing(ICASSP), Salt Lake City, United States, 2001: 345-348.

        [12] Povey D and Yao K. A basis representation of constrained MLLR transforms for Robust adaptation[J]. Computer Speech and Language, 2012, 26(1): 35-51.

        [13] Miao Y, Metze F, and Waibel A. Learning discriminative basis coefficients for eigenspace MLLR unsupervised adaptation[C]. Proceedings of International Conference on Audio, Speech and Signal Processing(ICASSP), Vancouver, Canada, 2013: 7927-7931.

        [14] Saz O and Hain T. Using contextual information in joint factor eigenspace MLLR for speech recognition in diverse scenarios[C]. Proceedings of International Conference on Audio, Speech and Signal Processing(ICASSP), Florence, Italy, 2014: 6364-6368.

        [15] Young S, Evermann G, Gales M, et al.. The HTK book (for HTK version 3.4)[OL]. http://htk.eng.cam.ac.uk/docs/docs. shtml. 2009.

        [16] Chang E, Shi Y, Zhou J, et al.. Speech lab in a box: a Mandarin speech toolbox to jumpstart speech related research[C]. Proceedings of 7th European Conference on Speech Communication and Technology(Eurospeech), Aalborg, Denmark, 2001: 2799-2802.

        屈 丹: 女,1974年生,博士,副教授,研究方向?yàn)檎Z(yǔ)音處理與識(shí)別、機(jī)器學(xué)習(xí)、自然語(yǔ)言處理.

        張文林: 男,1982年生,博士,講師,研究方向?yàn)檎Z(yǔ)音處理與識(shí)別、機(jī)器學(xué)習(xí)、自然語(yǔ)言處理.

        Speaker Adaptation Method Based on Eigenphone Speaker Subspace for Speech Recognition

        Qu Dan Zhang Wen-lin
        (Institute of Information System Engineering, PLA Information Engineering University, Zhengzhou 450000, China)

        The eigenphone speaker adaptation method performs well when the amount of adaptation data is sufficient. However, it suffers from severe over-fitting when insufficient amount of adaptation data is provided. A speaker adaptation method based on eigenphone speaker subspace is proposed to overcome this problem. Firstly, a brief overview of the eigenphone speaker adaptation method is presented in case of Hidden Markov Model-Gaussian Mixture Model (HMM-GMM) based speech recognition system. Secondly, speaker subspace is introduced to model the inter-speaker correlation information among different speakers' eigenphones. Thirdly, a new speaker adaptation method based on eigenphone speaker subspace is derived from estimation of a speaker dependent coordinate vector for each speaker. Finally, a comparison between the new method and traditional speaker subspace based method is discussed in detail. Experimental results on a Mandarin Chinese continuous speech recognition task show that compared with original eigenphone speaker adaptation method, the performance of the eigenphone speaker subspace method can be improved significantly when insufficient amount of adaptation data is provided. Compared with eigenvoice method, eigenphone speaker subspace method can save a great amount of storage space only at the expense of minor performance degradation.

        Speech signal processing; Speaker adaptation; Eigenphone; Eigenphones' speaker subspace; Low-rank constraint; Eigenvoice

        TN912.34

        : A

        :1009-5896(2015)06-1350-07

        10.11999/JEIT141264

        2014-09-30收到,2014-12-29改回

        國(guó)家自然科學(xué)基金(61175017, 61302107和61403415)資助課題

        *通信作者:屈丹 qudanqudan@sina.com

        猜你喜歡
        本征維數(shù)高斯
        小高斯的大發(fā)現(xiàn)
        β-變換中一致丟番圖逼近問題的維數(shù)理論
        基于本征正交分解的水平軸風(fēng)力機(jī)非定常尾跡特性分析
        一類齊次Moran集的上盒維數(shù)
        KP和mKP可積系列的平方本征對(duì)稱和Miura變換
        天才數(shù)學(xué)家——高斯
        本征平方函數(shù)在變指數(shù)Herz及Herz-Hardy空間上的有界性
        關(guān)于齊次Moran集的packing維數(shù)結(jié)果
        涉及相變問題Julia集的Hausdorff維數(shù)
        有限域上高斯正規(guī)基的一個(gè)注記
        久久99国产亚洲高清| 黄片视频免费在线播放观看| 18禁免费无码无遮挡不卡网站| 欧美人做人爱a全程免费| 丰满少妇被猛男猛烈进入久久| 成年奭片免费观看视频天天看| 亚洲素人日韩av中文字幕| 国产人妖视频一区二区| 色婷婷一区二区三区四区成人网| 免费无遮挡禁18污污网站| 国产精品白浆一区二小说| 国产成人精品人人做人人爽| 亚洲av天堂一区二区| 日韩精品综合一本久道在线视频| 丰满人妻一区二区三区视频53| 97久久久久人妻精品专区| 日日噜噜夜夜狠狠久久av| 国内精品毛片av在线播放| 在厨房拨开内裤进入毛片| 激情综合色综合啪啪五月丁香| 精品人妻VA出轨中文字幕| 亚洲第一页综合av免费在线观看| 四季极品偷拍一区二区三区视频 | 国产情侣亚洲自拍第一页| 狠狠躁18三区二区一区| 玩弄少妇高潮ⅹxxxyw| 亚洲精品中文字幕观看| 亚洲精品综合一区二区| 国产午夜视频在线观看免费| 亚洲综合激情五月丁香六月| 国产欧美久久久另类精品| 日本高清不卡一区二区三区| 久久久中文字幕日韩精品| 久久久久久亚洲av成人无码国产 | 国产精品久免费的黄网站 | 欧美高清视频手机在在线| 小宝极品内射国产在线| 91华人在线| 网址视频在线成人亚洲| 亚洲av综合色区无码一区| 无码精品人妻一区二区三区人妻斩|