亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于語音結(jié)構(gòu)化模型的數(shù)字語音識(shí)別

        2012-11-30 03:18:52俞一彪
        關(guān)鍵詞:聲道聲學(xué)識(shí)別率

        姜 瑩,俞一彪

        (蘇州大學(xué) 電子信息學(xué)院,江蘇 蘇州215006)

        0 引 言

        目前非特定人語音識(shí)別已經(jīng)取得了很大進(jìn)展,但與特定人的語音識(shí)別系統(tǒng)相比還有很大的差距。影響系統(tǒng)性能的一個(gè)重要因素是說話人語音之間的聲學(xué)差異,包括不同說話人的性別、年齡、不同的聲道長度和形狀以及說話的風(fēng)格口音等對(duì)語音特征參數(shù)的影響。傳統(tǒng)的消除說話人之間的聲學(xué)差異通過對(duì)模型以及參數(shù)處理,如模型自適應(yīng)、說話人聚類方法等,以減少說話人之間的聲學(xué)差異。或者采集數(shù)量很大的說話人語音用于訓(xùn)練,讓訓(xùn)練語音覆蓋更為廣泛的語音空間,因此對(duì)語音訓(xùn)練量要求較高。

        事實(shí)上傳統(tǒng)的語音識(shí)別方法都是采用聲學(xué)特征來描述模型,無論采用模型補(bǔ)償方法還是歸一化方法,都無法解決說話人差異對(duì)識(shí)別系統(tǒng)性能的影響。最近,日本東京大學(xué)N.Minematsu教授從挖掘語音信號(hào)中具有相似語義特征的基本單元以及它們之間特征分布的內(nèi)在關(guān)系著手,通過運(yùn)用Bhattacharyya測(cè)度,提出了一種全局聲學(xué)結(jié)構(gòu)AUS,理論上可以證明這一結(jié)構(gòu)化描述對(duì)于說話人差異具有不變性[1],即可以從語音中提取對(duì)說話人差異具有魯棒性的結(jié)構(gòu)化特征AUS,它可以忽略說話人個(gè)性特征,只包含語義特征信息。該理論已被成功用于基于方言的說話人分類[2]、音素的切分[3]、語音評(píng)測(cè)系統(tǒng)[4]、語音轉(zhuǎn)換[5]、語音合成[6]、計(jì)算機(jī)輔助語言學(xué)習(xí)[7](computer aided language learning,CALL)系統(tǒng)以及日語元音串和詞的識(shí)別研究[8-9]。漢語數(shù)字發(fā)音也有其本身特點(diǎn),時(shí)長較短,且含有豐富的聲學(xué)音素,因此將AUS用于數(shù)字語音識(shí)別具有一定的實(shí)際意義。

        首先介紹語音結(jié)構(gòu)化模型的相關(guān)理論,并將其應(yīng)用于中文數(shù)字語音識(shí)別。實(shí)驗(yàn)測(cè)試了少量語料訓(xùn)練下,AUS方法和HMM方法在以下說話人差異情形下的識(shí)別情況:①采用聲道彎折方法模擬不同說話人之間的差異性;②20個(gè)實(shí)際說話人之間的差異性。實(shí)驗(yàn)結(jié)果表明,在少量語料訓(xùn)練下,該方法可以取得優(yōu)于HMM的性能,語音結(jié)構(gòu)化模型可以有效消除說話人之間的差異。

        1 語音結(jié)構(gòu)化模型及數(shù)字識(shí)別

        1.1 全局聲學(xué)結(jié)構(gòu)AUS

        全局聲學(xué)結(jié)構(gòu)AUS描述的是語音內(nèi)在的聲學(xué)特征結(jié)構(gòu)關(guān)系[10],如圖1所示。其中,結(jié)構(gòu)點(diǎn)表示語音中最小語義單元的聲學(xué)特征分布,構(gòu)成語義的基本單元,其大小并不是固定的,從漢語來講語義單元可以是單詞、音節(jié)、聲韻母或者是更為精細(xì)的音素等;而節(jié)點(diǎn)之間的連線表示語義單元聲學(xué)特征分布之間的關(guān)系,所有連線形成的網(wǎng)絡(luò)被定義為全局聲學(xué)結(jié)構(gòu)。

        圖1 語音的全局聲學(xué)結(jié)構(gòu)AUS

        全局聲學(xué)結(jié)構(gòu)AUS的基本語義單元是用聲學(xué)特征參數(shù)的統(tǒng)計(jì)分布描述的,而聲學(xué)特征參數(shù)不可避免地會(huì)受到說話人差異性影響而引起一定的變化。說話人差異性包括不同說話人具有不同的聲道形狀 (主要指聲道長度)和其個(gè)性特征[11]等。不同說話人聲道長度差異通常在頻域視為雙線性變換

        頻率彎折曲線如圖2所示。

        圖2 對(duì)應(yīng)不同聲道彎折因子α的頻率彎折曲線

        這里,ω和ω′分別表示變換前、后的角頻率,α為聲道彎折因子,α=0時(shí)變換前后的角頻率滿足線性關(guān)系,對(duì)應(yīng)聲道長度不進(jìn)行彎折處理。一般,有:-1<α<1,α的正負(fù)分別對(duì)應(yīng)聲道長度的縮短和增長[12],α絕對(duì)值的大小決定了聲道彎折程度的大小。這種頻域的非線性變換在倒譜域表現(xiàn)為一種線性映射。假設(shè)一說話人語音的倒譜域特征矢量為X,那么同一語音不同說話人的倒譜域特征矢量為AX。高斯混合模型 (Gaussian mixture model,GMM)用于說話人時(shí),對(duì)不同說話人的語音的短時(shí)譜特征矢量所具有的概率密度函數(shù)進(jìn)行建模[13],實(shí)現(xiàn)對(duì)說話人個(gè)性特征的建模。因此不同說話人之間個(gè)性特征差異可視作頻域的乘性失真,在倒譜域空間可以表示為疊加性失真B,那么失真后的說話人的倒譜特征矢量變?yōu)閄′=X+B。綜合最終的特征矢量變?yōu)閄′=AX+B。

        AUS中特征分布之間的關(guān)系,用衡量統(tǒng)計(jì)分布之間的Bhattacharyya距離測(cè)度來描述,以保證在說話人差異的干擾下倒譜特征參數(shù)分布之間的關(guān)系保持不變。Bhattacharyya距離是衡量兩個(gè)統(tǒng)計(jì)分布之間距離的一種測(cè)度。如下所示

        如果統(tǒng)計(jì)分布是高斯分布,則上式可以推導(dǎo)為

        設(shè)原始倒譜域特征矢量x,服從分布P(μ,σ),相同語音不同說話人的倒譜特征矢量為x′=Ax+b,服從的特征分布為P(μ′,σ′)。

        由于μ=E(x),σ=E(x-μ)(x-μ)T,μ′=E(x′)=E(Ax+b)=Aμ+b,σ′=E(x′)=E(x′-μ′) (x′-μ′)T=AσAT,那么有

        以上說明,我們可以從語音中提取對(duì)不同說話人和其個(gè)性特征具有魯棒性的結(jié)構(gòu)化特征,這種結(jié)構(gòu)化特征采用了語音內(nèi)部各個(gè)內(nèi)在特征統(tǒng)計(jì)分布的相對(duì)Bhattacharyya距離來表示,它是語音的一種有效的結(jié)構(gòu)性模型,這一模型不會(huì)受到不同說話人語音之間差異的影響。理論上不同說話人發(fā)相同語音盡管具有不同的聲學(xué)特征分布,但其AUS是保持不變的[14]。

        1.2 基于語音結(jié)構(gòu)化模型的數(shù)字識(shí)別

        AUS結(jié)構(gòu)化模型用于數(shù)字識(shí)別的整個(gè)過程如圖3所示,包括兩部分工作:①對(duì)訓(xùn)練數(shù)字語音建立全局聲學(xué)結(jié)構(gòu)AUS;②提取測(cè)試語音的AUS,與各數(shù)字的語音結(jié)構(gòu)模型匹配,進(jìn)行識(shí)別。

        圖3 基于AUS模型的數(shù)字識(shí)別流程

        對(duì)訓(xùn)練和測(cè)試語音建立全局聲學(xué)結(jié)構(gòu)時(shí),首先對(duì)數(shù)字語音提取倒譜特征參數(shù) (如MFCC參數(shù)),然后通過HMM訓(xùn)練提取內(nèi)在聲學(xué)特征分布,構(gòu)成一個(gè)自左向右的狀態(tài)序列分布。最后計(jì)算各個(gè)分布之間的Bhattacharyya距離形成AUS。數(shù)字AUS模型的描述可以采用一個(gè)M×M對(duì)角線元素值為零的二維對(duì)稱矩陣表達(dá),其中M代表基本語義單元數(shù),存放各語義單元特征分布之間的距離值。矩陣中各語義單元必須按序排列,第一個(gè)語義單元對(duì)應(yīng)第一行,第二個(gè)語義單元對(duì)應(yīng)第二行,并依次類推,表達(dá)各語義單元的相對(duì)時(shí)序關(guān)系。對(duì)訓(xùn)練語音建立AUS時(shí),訓(xùn)練語音可以是一遍或者多遍樣本數(shù)據(jù),而對(duì)于測(cè)試語音,僅由一遍測(cè)試語音樣本構(gòu)建其AUS。

        識(shí)別實(shí)際上是求兩個(gè)AUS之間的距離,如果把各個(gè)二維矩陣元素看作是二維空間點(diǎn)的話,那么兩個(gè)矩陣T和R之間的距離可以通過計(jì)算對(duì)應(yīng)點(diǎn)之間的歐幾里德距離進(jìn)行計(jì)算并匯總得到[15],即

        式中:N——計(jì)算的元素個(gè)數(shù),M——基本語義單元數(shù),BDij——語義單元i和j之間的Bhattacharyya距離值。

        首先,對(duì)各個(gè)數(shù)字 (假設(shè)N個(gè)數(shù)字)語音建立AUS,得到N個(gè)參考AUS結(jié)構(gòu)化模型,識(shí)別時(shí)提取測(cè)試語音的AUS,并與N個(gè)數(shù)字的AUS匹配,得到與各個(gè)數(shù)字的結(jié)構(gòu)匹配差值d1,d2,…di,dN。第i*個(gè)數(shù)字串即為最終識(shí)別結(jié)果

        其中1≤i≤N。

        2 實(shí)驗(yàn)分析

        實(shí)驗(yàn)中訓(xùn)練語音數(shù)據(jù)庫為SUDA-2008數(shù)據(jù)庫,均在普通實(shí)驗(yàn)室環(huán)境下用普通聲卡進(jìn)行錄音,采樣率為16KHz,量化精度為16位。參加實(shí)驗(yàn)的人數(shù)共有20人,其中10位男性說話人,10位女性說話人。每人錄制了3遍電話號(hào)碼中的11 個(gè) 數(shù) 字 的 發(fā) 音:0 (ling)、1 (yi)、2 (er)、3(san)、4(si)、5 (wu)、6 (1iu)、7 (qi)、8 (ba)、9(jiu)、1 (yao)。語音信號(hào)分幀處理,幀長25ms,幀移10ms,加漢明窗,預(yù)加重系數(shù)取0.97,參數(shù)采用17階MFCC參數(shù)。語音模型采用6個(gè)狀態(tài),每個(gè)狀態(tài)下單高斯分布HMM。AUS方法中同樣采用6個(gè)狀態(tài)的HMM,形成6×6的數(shù)字AUS模型。

        基于以上語音數(shù)據(jù),進(jìn)行兩組實(shí)驗(yàn),實(shí)驗(yàn)一:對(duì)訓(xùn)練集的語音進(jìn)行不同程度的聲道彎折以模擬更多 “不同說話人”的語音,并構(gòu)成測(cè)試集。實(shí)驗(yàn)二:來自非訓(xùn)練集的實(shí)際說話人語音構(gòu)成測(cè)試集。兩組實(shí)驗(yàn)均采用少量語料訓(xùn)練,分析AUS方法消除說話人差異性的性能,并與傳統(tǒng)的HMM方法比較。

        實(shí)驗(yàn)一:測(cè)試集作如下處理,對(duì)20個(gè)說話人的3遍語音采用 (1)進(jìn)行頻率的非線性變換,實(shí)現(xiàn)不同程度的聲道彎折,以模擬具有不同聲道長度的說話人語音。實(shí)驗(yàn)中彎折因子α?。?.4,-0.35,…,0,…,0.35,0.4,共17個(gè)彎折系數(shù),其中α=0表示聲道不做彎折處理,并以該 “說話人”的各個(gè)數(shù)字的1遍語音分別作為訓(xùn)練集,進(jìn)行Mel倒譜分析,訓(xùn)練HMM,建立AUS結(jié)構(gòu)化模型。其余16個(gè)彎折因子下,即16個(gè) “不同說話人”的語音構(gòu)成測(cè)試集,同樣訓(xùn)練HMM提取其AUS與各個(gè)數(shù)字的結(jié)構(gòu)化模型進(jìn)行匹配。實(shí)驗(yàn)統(tǒng)計(jì)20個(gè)說話人的語音數(shù)據(jù)的識(shí)別情況,其中每個(gè)彎折因子下660(=20×3×11)個(gè)識(shí)別數(shù)據(jù)。實(shí)驗(yàn)結(jié)果如圖4所示。

        圖4 不同彎折因子下的識(shí)別率

        由圖4可以看出:

        (1)聲道彎折因子α=0時(shí),該情況下測(cè)試語音來自訓(xùn)練語料集,AUS方法和HMM方法具有一致的性能。識(shí)別率都為100%。

        (2)在聲道彎折程度較小α=-0.05和α=0.05時(shí),由于說話人聲道長度差異性較小,AUS方法的識(shí)別率略高于HMM方法,AUS方法的優(yōu)越性并不明顯。

        (3)當(dāng)聲道彎折程度|α|>0.05時(shí),隨著聲道彎折程度的增加,不同說話人之間聲道長度差異增大,HMM方法下的識(shí)別率迅速下降,而AUS方法的識(shí)別率在不同彎折因子下仍能都保持在70%以上。在|α|>0.2的各個(gè)彎折因子下,AUS方法的識(shí)別率效果相當(dāng),并沒有隨著說話人差異的增加而導(dǎo)致識(shí)別率降低。可見,語音結(jié)構(gòu)化模型可以有效消除說話人之間的差異,提高系統(tǒng)的識(shí)別率。

        實(shí)驗(yàn)二:以來自非訓(xùn)練集的實(shí)際說話人語音構(gòu)成測(cè)試集,對(duì)20個(gè)說話人依次標(biāo)號(hào),其中1-10為男性說話人,11-20為女性說話人。以說話人1的各個(gè)數(shù)字的2遍語音作為訓(xùn)練集,進(jìn)行Mel倒譜分析,訓(xùn)練HMM,建立AUS結(jié)構(gòu)化模型。除說話人1外其余19個(gè)說話人每人3遍的語音,共627(=19×3×11)個(gè)測(cè)試語音構(gòu)成測(cè)試集做識(shí)別;同樣以說話人2的各個(gè)數(shù)字的3遍語音做訓(xùn)練集,除說話人2外其余19個(gè)說話人的語音構(gòu)成測(cè)試集,依次類推。實(shí)驗(yàn)分析以20個(gè)說話人語音依次作訓(xùn)練集時(shí),AUS方法和HMM方法的識(shí)別性能,實(shí)驗(yàn)結(jié)果如圖5所示。

        圖5 20個(gè)說話人語音依次作訓(xùn)練集時(shí)AUS方法和HMM方法的識(shí)別率

        由圖5可以看出:

        (1)AUS方法下的識(shí)別率大多高于HMM方法下的識(shí)別率,只有在說話人13和說話人15都為女性說話人時(shí),HMM方法的識(shí)別率高于AUS方法。在以說話人7作為訓(xùn)練模板時(shí),AUS方法達(dá)到最大的識(shí)別率65.12%??梢娫谳^少訓(xùn)練量的情況下,AUS方法能夠消除實(shí)際說話人之間的差異性,獲得比HMM更高的識(shí)別率。

        (2)實(shí)際上從實(shí)驗(yàn)一的結(jié)果可以看出,如果實(shí)際說話人差異不大,HMM方法和AUS方法的性能相當(dāng),所以在實(shí)驗(yàn)二中以個(gè)別說話人作為訓(xùn)練集時(shí),HMM方法的識(shí)別率高于AUS方法。因此少量語料且說話人差異較大時(shí),較HMM方法AUS方法能很好地體現(xiàn)其優(yōu)勢(shì)性。

        (3)由于不同說話人聲道長度的差異不一定能很好地符合頻域的非線性變換,且實(shí)際中說話人之間的差異性還受很多其它因素影響,如聲音的不穩(wěn)定性等。因此與實(shí)驗(yàn)一結(jié)果相比AUS在消除實(shí)際說話人差異性方面的效果不那么明顯。

        以上兩個(gè)實(shí)驗(yàn)表明,在少量語料訓(xùn)練下,AUS方法可以取得優(yōu)于HMM方法的性能。HMM方法在說話人語音特征差異下,即訓(xùn)練和測(cè)試語音特征空間相差較大時(shí),其識(shí)別性能迅速下降。而AUS方法能有效消除模擬說話人和實(shí)際說話人之間的差異,且較少的訓(xùn)練語料就可以達(dá)到較好的識(shí)別效果。

        3 結(jié)束語

        本文介紹了一種新穎、不同于傳統(tǒng)聲學(xué)特征來描述模型的語音識(shí)別方法—語音結(jié)構(gòu)化模型的識(shí)別方法。引出語音結(jié)構(gòu)化模型的相關(guān)理論,并運(yùn)用語音結(jié)構(gòu)化模型方法進(jìn)行數(shù)字語音識(shí)別。實(shí)驗(yàn)中比較了AUS方法和HMM方法在兩種情形下的識(shí)別率:①采用聲道彎折方法模擬不同聲道長度的說話人之間差異性;②實(shí)際說話人之間的差異性。實(shí)驗(yàn)結(jié)果表明,在少量語料訓(xùn)練下,AUS方法可以取得優(yōu)于HMM的性能,語音結(jié)構(gòu)化模型可以有效消除說話人之間的差異。但實(shí)際說話人之間的差異性除了聲道長度和個(gè)性特征差異外,還有其它因素的影響,此時(shí)AUS方法在消除差異性方面效果相對(duì)不那么明顯。

        [1]Nobuaki Minematsu.Mathematical evidence of the acoustic universal structure in speech [C].Japan:Proceedings of IEEE International Conference on Acoustics Speech and Signal Processing,2005:889-892.

        [2]MA Xuebin,Nobuaki Minematsu.Dialect-based speaker classification of Chinese using structural representation of pronunciation [C].Proc of Speech and Computer,2008:350-355.

        [3]YU Qiao,Shimomura N,Minematsu N.Unsupervised optimal phoneme segmentation:Objectives,algorithm and comparisons[C].IEEE International Conference on Acoustics Speech and Signal Processing,2008:3989-3992.

        [4]Daisuke Saito,YU Qioa,Nobuaki Minematsu,et al.Improvement of structure to speech conversion using iterative optimization [C].Proc of Speech and Computer,2009:174-179.

        [5]DAO Jianzeng,YU Yibiao.Voice conversion using structured Gaussian mixture model[C].Beijing:10th International Conference on Signal Processing,2010:541-544.

        [6]Saito D,Asakawa S,Minematsu N,et al.Structure to speech conversion-speech generation based on infant-like vocal imitation[C].9th Annual Conference of the International Speech Communication Association,2008:1837-1840.

        [7]Minematsu N,Asakawa S,Hirose K.Structural representation of the pronunciation and its use for CALL [C].Proc of IEEE Spoken Language Technology Workshop,2006:126-129.

        [8]Takao Murakami,Kazutaka Maruyama,Nobuaki Minematsu,et al.Japanese vowel recognition using external structure of speech [C].Proceedings of Automatic Speech Recognition and Understanding,2005:203-208.

        [9]YU Qiao,Nobuaki Minematsu,Keikichi Hirose.On invariant structural representation for speech recognition:theoretical validation and experimental improvement[C].10th Annual Conference of the International Speech Communication Association,2009:3055-3058.

        [10]Minematsu N,Satoshi Asakawa.Implementation of robust speech recognition by simulating infants’speech perception based on the invariant sound shape embedded in utterances[C].Proc of Speech and Computer,2009:35-40.

        [11]Nobuaki Minematsu.Yet another acoustic representation of speech sounds [C].Proceedings of International Conference on Acoustics Speech and Signal Processing,2004:585-588.

        [12]Michael Pitz,Sirko Molau,Ralf Schluter,et al.Vocal tract normalization equals linear transformation in cepstral space [J].IEEE Trans on Speech and Audio Processing,2005,13(5):930-944.

        [13]RUI Xianyi.Research on speaker identification in noisy environment[D].Suzhou:Soochow University,2005 (in Chinese).[芮賢義.噪聲環(huán)境下說話人識(shí)別研究 [D].蘇州:蘇州大學(xué),2005.]

        [14]Nobuaki Minematsu,Tazuko Nishimura,Katsuhiro Nishinari,et al.Theorem of the invariant structure and its derivation of speech gestalt[C].Proceedings of Speech Recognition and Audio Processing,2005:930-944.

        [15]Nobuaki Minematsu.Mathematical evidence of the acoustic universal structure in speech [C].Japan:Proceedings IEEE International Conference on Acoustics Speech and Signal Processing,2005:889-892.

        猜你喜歡
        聲道聲學(xué)識(shí)別率
        9.7.8聲道、造價(jià)250余萬 James極品影院賞析
        為發(fā)燒需求打造的11聲道后級(jí) Orisun(傲力聲)OA-S11
        愛的就是這股Hi-Fi味 Davis Acoustics(戴維斯聲學(xué))Balthus 70
        基于類圖像處理與向量化的大數(shù)據(jù)腳本攻擊智能檢測(cè)
        基于真耳分析的助聽器配戴者言語可懂度指數(shù)與言語識(shí)別率的關(guān)系
        Acoustical Treatment Primer:Diffusion談?wù)劼晫W(xué)處理中的“擴(kuò)散”
        Acoustical Treatment Primer:Absorption談?wù)劼晫W(xué)處理中的“吸聲”(二)
        Acoustical Treatment Primer:Absorption 談?wù)劼晫W(xué)處理中的“吸聲”
        實(shí)現(xiàn)從7.2到11.2聲道的飛躍 Onkyo(安橋)TX-RZ830
        提升高速公路MTC二次抓拍車牌識(shí)別率方案研究
        99久久久无码国产精品6| 日本一区二区三级免费| 久久中文字幕人妻淑女| 午夜精品久久久久久99热| 99热精品成人免费观看| 黑丝美女喷水在线观看| 福利视频一区二区三区| 亚洲av日韩av天堂一区二区三区 | 亚洲美腿丝袜综合一区| 久青青草视频手机在线免费观看| 男人天堂亚洲天堂av| 国产午夜精品一区二区| 欧美成人一级视频| 极品视频一区二区三区在线观看 | 欧美人牲交| 日韩无码无播放器视频| 日本黄色一区二区三区视频| 丁香婷婷在线成人播放视频| 男男啪啪激烈高潮cc漫画免费| 亚洲永久精品ww47永久入口| 午夜宅男成人影院香蕉狠狠爱| 国产成人精品无码片区在线观看 | 久久精品国产亚洲AV成人公司| 激情在线视频一区二区三区| 亚洲综合另类小说色区| 少妇无码一区二区三区| 91网红福利精品区一区二| 亚洲岛国一区二区三区| 国产乱子伦农村xxxx| 欧美日韩国产一区二区三区地区| 中文字幕日韩一区二区不卡| 又黄又爽又色视频| 男女性高爱潮免费观看| 中文字幕乱码中文乱码毛片| 人妻一区二区三区av| 日躁夜躁狠狠躁2001| 高h视频在线免费观看| 午夜男女靠比视频免费| 色噜噜av亚洲色一区二区| 中文字幕在线观看国产双飞高清| 久久综合伊人有码一区中文字幕|