亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于最大似然線性回歸的隨機(jī)段模型說話人自適應(yīng)研究*

2014-09-13 12:43:43楊占磊劉文舉

計(jì)算機(jī)工程與科學(xué) 2014年8期

晁浩，楊占磊，劉文舉

(1.河南理工大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院，河南焦作 454000;2.中國科學(xué)院自動(dòng)化研究所模式識(shí)別國家重點(diǎn)實(shí)驗(yàn)室，北京100190)

晁浩1,2，楊占磊2，劉文舉2

提出了一種隨機(jī)段模型系統(tǒng)的說話人自適應(yīng)方法。根據(jù)隨機(jī)段模型的模型特性，將最大似然線性回歸方法引入到隨機(jī)段模型系統(tǒng)中。在“863-test”測(cè)試集上進(jìn)行的漢語連續(xù)語音識(shí)別實(shí)驗(yàn)顯示，在不同的解碼速度下，說話人自適應(yīng)后漢字錯(cuò)誤率均有明顯的下降。實(shí)驗(yàn)結(jié)果表明,最大似然線性回歸方法在隨機(jī)段模型系統(tǒng)中同樣能取得較好的效果。

語音識(shí)別；說話人自適應(yīng)；最大似然線性回歸；隨機(jī)段模型

1 引言

語音識(shí)別經(jīng)過幾十年的發(fā)展己經(jīng)取得了很大的進(jìn)展，在純凈語音條件下已經(jīng)達(dá)到了很高的識(shí)別率，但是當(dāng)訓(xùn)練環(huán)境和識(shí)別環(huán)境不匹配時(shí)，現(xiàn)有的識(shí)別系統(tǒng)的性能通常會(huì)嚴(yán)重下降，這是語音識(shí)別技術(shù)實(shí)用化的一個(gè)嚴(yán)重障礙。語音識(shí)別系統(tǒng)能在不同的條件下保持較高識(shí)別率的性質(zhì)被稱為穩(wěn)健性，影響穩(wěn)健性的因素很多，說話人的變化是影響穩(wěn)健性的一個(gè)重要因素。盡管說話人無關(guān)識(shí)別系統(tǒng)已經(jīng)取得了長足的進(jìn)步，但是這類系統(tǒng)的性能與針對(duì)特定說話人的識(shí)別系統(tǒng)間仍存在巨大的差異。大部分說話人無關(guān)SI(Speaker Independent)系統(tǒng)不能對(duì)所有的說話人表現(xiàn)如一，說話人年齡、性別、情緒、語言習(xí)慣的差異都可能帶來識(shí)別性能的嚴(yán)重下降，說話人相關(guān)SD(Speaker Dependent)系統(tǒng)可以達(dá)到更高的識(shí)別率，但是為得到說話人相關(guān)的碼本需要大量說話人的數(shù)據(jù)，這在實(shí)際中往往很難得到。說話人自適應(yīng)技術(shù)SA(Speaker Adaptation)則可以很好地解決這一問題。說話人自適應(yīng)技術(shù)利用少量的待識(shí)別的說話人數(shù)據(jù)自適應(yīng)說話人無關(guān)系統(tǒng)，使系統(tǒng)盡量體現(xiàn)待識(shí)別說話人的特性。相對(duì)于SI系統(tǒng)來說，SA可以提高系統(tǒng)的識(shí)別率，相對(duì)于SD系統(tǒng)來說，又不需要大量的說話人數(shù)據(jù)。因此，通過說話人自適應(yīng)的方式對(duì)聲學(xué)模型參數(shù)進(jìn)行優(yōu)化成為語音識(shí)別領(lǐng)域一重要的研究方向[1]。

隨機(jī)段模型SSM(Stochastic Segment Model)是針對(duì)隱馬爾科夫模型HMM(Hidden Markov Model)的缺陷而提出的一種替代模型[2,3]，由于其復(fù)雜度相對(duì)于HMM較高，最初只能用于孤立詞識(shí)別，對(duì)HMM系統(tǒng)的解碼結(jié)果進(jìn)行二次搜索等任務(wù)。經(jīng)過了十多年的不斷研究，段模型從開始只能用于二次解碼逐漸發(fā)展應(yīng)用到小詞匯量連續(xù)語音識(shí)別，最后成功地應(yīng)用到大詞匯量連續(xù)語音識(shí)別任務(wù)中[4,5]。為了使基于隨機(jī)段模型的語音識(shí)別系統(tǒng)的性能得到進(jìn)一步提升，從而能夠與最新的基于HMM的識(shí)別系統(tǒng)相比較，對(duì)段模型進(jìn)行說話人自適應(yīng)的優(yōu)化是十分必要的。

與傳統(tǒng)的最大后驗(yàn)概率自適應(yīng)方法MAP(Maximum A Posteriori)[6]相比，最大似然線性回歸MLLR(Maximum Likelihood Linear Regression)方法[7]只需要較少的自適應(yīng)訓(xùn)練數(shù)據(jù)就能得到較好的效果，是HMM系統(tǒng)常用的說話人自適應(yīng)方法。近年來，基于說話人空間的本征音EV(Eigen Voice)自適應(yīng)方法成了研究熱點(diǎn)[8～10]。該方法選取參考說話人(Reference Speaker)并從語料庫中抽取基向量，對(duì)于目標(biāo)說話人，其聲學(xué)模型參數(shù)就是上述基向量的線性組合。相對(duì)傳統(tǒng)的MAP和MLLR方法，這種方法能在只有極少自適應(yīng)數(shù)據(jù)的條件下取得很好的效果。

本文的主要研究目標(biāo)是將HMM系統(tǒng)常用的MLLR方法擴(kuò)展應(yīng)用到隨機(jī)段模型系統(tǒng)。與HMM以語音幀為基本解碼單元不同，SSM以語音段為基本建模單元和解碼單元，是對(duì)聲學(xué)特征序列描述更為精確的聲學(xué)模型。因此，基于HMM系統(tǒng)提出的MLLR方法不能直接用于隨機(jī)段模型，需要對(duì)MLLR方法進(jìn)行改進(jìn)，使其適應(yīng)于隨機(jī)段模型。

2 隨機(jī)段模型

(1)

(2)

其中,ri為隨機(jī)段模型α的第i個(gè)域模型。

3 基于隨機(jī)段模型的MLLR自適應(yīng)

MLLR方法是求得一組線性變換，通過這組變換，使自適應(yīng)數(shù)據(jù)的似然函數(shù)最大化。HMM系統(tǒng)中，MLLR方法待變換的參數(shù)一般是狀態(tài)層的GMM的均值；在隨機(jī)段模型中待變換的參數(shù)是域模型的均值向量。變換過程可以簡單地表示如下：

(3)

(4)

(5)

(6)

(7)

(8)

(9)

(10)

(11)

(12)

(13)

其中：

(14)

在協(xié)方差矩陣為對(duì)角矩陣的情況下，根據(jù)公式(13)可得：

(15)

4 實(shí)驗(yàn)及分析

4.1 實(shí)驗(yàn)設(shè)定與基線系統(tǒng)

實(shí)驗(yàn)所用的數(shù)據(jù)庫為國家863項(xiàng)目漢語廣播語音庫。使用全部的83位男性說話人的數(shù)據(jù)訓(xùn)練聲學(xué)模型，共48 373句，約55.6小時(shí)。使用6個(gè)男說話人數(shù)據(jù)做測(cè)試集，共240句話，約17.1分鐘。聲學(xué)特征包括12維梅爾頻率倒譜系數(shù)(MFCC)及一維標(biāo)準(zhǔn)化能量，以及它們的一階及二階差分，幀窗長為25.6 ms，幀移為10 ms。實(shí)驗(yàn)中采用的漢語普通話音素集包含24個(gè)聲母及37個(gè)韻母，每一個(gè)韻母含有五個(gè)聲調(diào)。去除訓(xùn)練庫中沒有出現(xiàn)的聲韻母，音素集中共包含191個(gè)基本音素。

隨機(jī)段模型的建模單元為聲韻母，采用背景相關(guān)的三音子結(jié)構(gòu)，每個(gè)段模型包含15個(gè)域模型和一個(gè)基于伽馬分布的時(shí)長模型。每個(gè)域模型由12個(gè)混合數(shù)的高斯混合模型模擬。域模型采用基于音素的決策樹進(jìn)行參數(shù)合并。三音子模型一共有202 984個(gè)，經(jīng)過參數(shù)綁定后實(shí)際上的物理模型數(shù)為24 180個(gè)，包含了7 983個(gè)共享的域模型。

為了與HMM系統(tǒng)進(jìn)行性能比較，我們將文獻(xiàn)[12]中搭建的基于HMM的解碼器作為HMM的基線系統(tǒng)。該系統(tǒng)同樣采用上下文相關(guān)的聲母/帶調(diào)韻母作為基本的建模單元，具體為三音子模型。HMM使用連續(xù)密度的從左到右的拓?fù)浣Y(jié)構(gòu)，包含5個(gè)狀態(tài)，其中3個(gè)為發(fā)射狀態(tài)。每個(gè)發(fā)射態(tài)的輸出概率用16個(gè)混合數(shù)的混合高斯模型建模。經(jīng)過參數(shù)綁定后，其物理模型個(gè)數(shù)為15 046個(gè)，包含了4 575個(gè)共享狀態(tài)。兩系統(tǒng)所用語言模型為二元語言模型，包含48 188個(gè)詞。兩系統(tǒng)具體參數(shù)如表1所示。

4.2 結(jié)果及分析

我們對(duì)六個(gè)不同的說話人分別進(jìn)行了自適應(yīng)

Table 1 Parameters of the HMM system and the SSM System表1 HMM系統(tǒng)和SSM系統(tǒng)的參數(shù)

的訓(xùn)練，每個(gè)說話人共有40句話的語料，分別利用每個(gè)說話人的前5、10、15、20句話作為自適應(yīng)語料來對(duì)聲學(xué)模型進(jìn)行有監(jiān)督和無監(jiān)督的訓(xùn)練，然后用后20句話作為測(cè)試語料。所用的數(shù)據(jù)都從863連續(xù)語音庫中選取。同時(shí)，我們通過設(shè)定剪枝閾值的方式來控制HMM和SSM的解碼速度，從解碼速度和識(shí)別精度兩方面比較分析SSM和HMM的性能。表2顯示了采用不同自適應(yīng)方法以及不同規(guī)模的自適應(yīng)數(shù)據(jù)后，隨機(jī)段模型系統(tǒng)在測(cè)試集上的識(shí)別結(jié)果?？梢钥闯鲭S著自適應(yīng)數(shù)據(jù)的增加，不管是采用無監(jiān)督MLLR方法還是有監(jiān)督MLLR方法，系統(tǒng)的誤識(shí)率持續(xù)下降，而有監(jiān)督MLLR方法的效果又明顯要優(yōu)于無監(jiān)督MLLR方法。

Table 2 Performance of SSM after adaptation表2 隨機(jī)段模型的自適應(yīng)

我們還對(duì)HMM和SSM自適應(yīng)前后的性能做了比較。圖1顯示了四個(gè)系統(tǒng)的漢字錯(cuò)誤率-實(shí)時(shí)因子曲線，以便同時(shí)考察系統(tǒng)解碼的精度和速度。其中SSM和HMM為自適應(yīng)前兩種模型的識(shí)別結(jié)果。由于SSM的模型與HMM相比更為復(fù)雜，而且SSM采用雙重解碼的形式，所以當(dāng)要求的解碼時(shí)間較短時(shí)，SSM的錯(cuò)誤率要高于HMM。例如，實(shí)時(shí)因子為0.58時(shí)，HMM的漢字錯(cuò)誤率為17.02%，而SSM為18.09%。而隨著解碼時(shí)間的增加，SSM能夠發(fā)揮其模型更精細(xì)的優(yōu)勢(shì)，和HMM之間識(shí)別精度的差距也逐漸縮小。當(dāng)解碼時(shí)間超過1.2倍的實(shí)時(shí)后，SSM的漢字錯(cuò)誤率已經(jīng)低于HMM。

圖1中SSM+MLLR為隨機(jī)段模型經(jīng)過MLLR自適應(yīng)后的結(jié)果，HMM+MLLR為隱馬爾科夫模型經(jīng)過MLLR自適應(yīng)后的結(jié)果。不管是SSM還是HMM，在解碼時(shí)間較短時(shí)MLLR自適應(yīng)對(duì)模型精度提升的程度較大。例如，實(shí)時(shí)因子為0.58時(shí)，HMM系統(tǒng)的漢字錯(cuò)誤率從17.02%下降到15.60%，錯(cuò)誤率相對(duì)下降了8.34%；而SSM的漢字錯(cuò)誤率從18.09%下降到16.48%，錯(cuò)誤率相對(duì)下降了8.90%。實(shí)時(shí)因子上升到1.58時(shí)，HMM系統(tǒng)的漢字錯(cuò)誤率從13.65%下降到12.71%，錯(cuò)誤率相對(duì)下降了6.89%；而SSM的漢字錯(cuò)誤率從13.07%下降到12.48%，錯(cuò)誤率相對(duì)下降了4.51%。解碼時(shí)間較長時(shí)，由于此時(shí)設(shè)定的剪枝閾值較低，保留的候選路徑數(shù)增大，所以經(jīng)過說話人自適應(yīng)優(yōu)化后的聲學(xué)模型能夠更好地發(fā)揮作用。而剪枝閾值設(shè)置較高時(shí)，解碼速度加快，但解碼時(shí)保留的候選路徑數(shù)降低，有可能將正確的路徑剪掉，這種情況下自適應(yīng)算法實(shí)際上并沒有起到應(yīng)有的作用，所以無論是HMM還是SSM，自適應(yīng)后識(shí)別精度提高得不明顯。

Figure 1 Performance comparison between HMM and SSM圖1 HMM和SSM自適應(yīng)前后的性能對(duì)比

另外，實(shí)時(shí)因子較大時(shí)，隨機(jī)段模型自適應(yīng)后與HMM相比性能提升程度稍低。原因可能是隨機(jī)段模型的SI系統(tǒng)的準(zhǔn)確率比HMM高，所以進(jìn)一步提高系統(tǒng)的準(zhǔn)確率要比HMM困難，說話人自適應(yīng)技術(shù)對(duì)SSM起到的作用沒有HMM大。盡管如此，實(shí)時(shí)因子大于1.2時(shí)自適應(yīng)后的SSM系統(tǒng)的誤識(shí)率仍然低于HMM系統(tǒng)。

5 結(jié)束語

本文根據(jù)隨機(jī)段模型本身的特點(diǎn)，將HMM系統(tǒng)常用的最大似然線性回歸說話人自適應(yīng)方法擴(kuò)展應(yīng)用到隨機(jī)段模型系統(tǒng)中。在863語料庫測(cè)試集上的實(shí)驗(yàn)中，自適應(yīng)后的SSM系統(tǒng)其識(shí)別精度在不同的解碼速度下都取得了明顯的提升。實(shí)驗(yàn)結(jié)果表明了MLLR說話人自適應(yīng)方法對(duì)SSM系統(tǒng)的有效性。

[1] Li Hu-sheng,Liu Jia,Liu Run-sheng.Technology of speaker adaptation in speech recogniton and its development trend[J]. Acta Electronica Sinica,2003,31(1):103-108. (in Chinese)

[2] Kimball O,Ostendorf M,Bechwati I.Context modeling with the stochastic segment model[J]. IEEE Transactions on Signal Processing,1992,40(6):1584-1587.

[3] Tang Yun, Liu Wen-Ju, Xu Bo, Mandarin digit string recognition based on segment model using posterior probability decoding[J]. Chinese Journal of Computers, 2006,29(4):635-642. (in Chinese)

[4] Tang Yun, Liu Wen-Ju, Zhang Hua. One-pass coarse-to-fine segmental speech decoding algorithm[C]∥Proc of ICASSP, 2006:441-444.

[5] Zhang Hua, Liu Wen-ju, Xu Bo. Research on adaptive step decoding in segment-based LVCSR[C]∥Proc of IEEE NLP-KE’07, 2007:463-467.

[6] Gauvain J L, Lee C H. Maximum a posteriori estimation for multivariate Gaussian observations[J]. IEEE Transactions on Speech and Audio Processing, 1994, 2(2):291-298.

[7] Leggetter C,Woodland P.Maximum likelihood linear regression for speaker adaptation of continuous density hidden markov models[J]. Computer Speech and Language, 1995, 9(2):171-185.

[8] Tang Yun, Rose R C. Rapid speaker adaptation using clustered maximum-likelihood linear basis with sparse training data[J]. IEEE Transactions on Audio, Speech & Language Processing, 2008, 16(3):607-616.

[9] Kuhn R, Junqua J C. Rapid speaker adaptation in eigenvoice space[J]. IEEE Transactions on Speech and Audio Processing, 2000, 8(6):695-707.

[10] Luo Jun, Ou Zhi-jian, Wang Zuo-ying. Eigenvoice-based MAP fast adaptation in correlation subspaces[J]. Journal of Tsinghua University (Science and Technology), 2005, 8(6):829-832. (in Chinese)

[11] Li C F, Siu M. Training for polynomial segment model using the expectation maximization algorithm[C]∥Proc of ICASSP, 2004:841-844.

[12] Yang Zhan-lei, Liu Wen-ju. A novel path extension framework using steady segment detection for mandarin speech recognition[C]∥Proc of INTERSPEECH, 2010:226-229.

附中文參考文獻(xiàn)：

[1] 李虎生，劉加，劉潤生. 語音識(shí)別說話人自適應(yīng)研究現(xiàn)狀及發(fā)展趨勢(shì)[J]. 電子學(xué)報(bào),2003,31(1):103-108.

[3] 唐赟,劉文舉,徐波. 基于后驗(yàn)概率解碼段模型的漢語語音數(shù)字串識(shí)別[J]. 計(jì)算機(jī)學(xué)報(bào), 2006, 29(4):635-642.

[10] 羅駿, 歐智堅(jiān), 王作英. 基于相關(guān)子空間本征音分析的MAP快速自適應(yīng)[J]. 清華大學(xué)學(xué)報(bào)(自然科學(xué)版)，2005, 44(6):829-832.

CHAOHao,born in 1981,PhD candidate,lecturer,his research interest includes speech recognition.

Researchofspeakeradaptationofstochasticsegmentmodelsusingmaximumlikelihoodlinearregression

CHAO Hao1,2,YANG Zhan-lei2,LIU Wen-ju2

(1.School of Computer Science and Technology,Henan Polytechnic University,Jiaozuo 454000；2.National Laboratory of Pattern Recognition,Institute of Automation,Chinese Academy of Sciences,Beijing 100190,China)

A speaker adaptation method of Stochastic Segment Model (SSM) is proposed. According to the SSM’s characteristics, the theory of Maximum Likelihood Linear Regression (MLLR) method is introduced into the SSM-based systems. Continuous Chinese speech recognition experiment on "863-test" test suite shows that the proposed method makes the error rate of Chinese characters decrease obviously under different decoding speeds. Experiment results indicate that the proposal can also improve the recognition performance on the SSM-based systems.

speech recognition;speaker adaptation;maximum likelihood linear regression;stochastic segment model

1007-130X(2014)08-1604-05

2012-12-19;

：2013-04-03

國家自然科學(xué)基金資助項(xiàng)目(91120303，90820303，90820011);國家973計(jì)劃資助項(xiàng)目(2004CB318105);國家863計(jì)劃資助項(xiàng)目(20060101Z4073，2006AA01Z194)

TP391.4

：A

10.3969/j.issn.1007-130X.2014.08.032

晁浩(1981-),男，河南鄢陵人，博士生，講師，研究方向?yàn)檎Z音識(shí)別。E-mail:chaohao@hpu.edu.cn

通信地址：454000 河南省焦作市河南理工大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院

Address:School of Computer Science and Technology,Henan Polytechnic University,Jiaozuo 454000,Henan,P.R.China