亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種改進的DNN-HMM的語音識別方法?

        2019-07-25 07:20:16李云紅梁思程賈凱莉張秋銘琛王剛毅李禹萱
        應用聲學 2019年3期
        關鍵詞:音素錯誤率聲學

        李云紅 梁思程 賈凱莉 張秋銘 宋 鵬 何 琛王剛毅 李禹萱

        (1 西安工程大學電子信息學院 西安 710048)

        (2 國網(wǎng)西安供電公司 西安 710032)

        0 引言

        聲學模型作為語音識別系統(tǒng)的主要模型之一,利用一系列聲學特征完成建模訓練,能夠明確各聲學基元相關發(fā)音模式。目前廣泛應用的聲學建模研究主要圍繞高斯混合模型隱馬爾可夫模型(Gaussian mixture model-hidden Markov model,GMMHMM)[1]展開。胡政權等[2]提出了梅爾頻率倒譜系數(shù)(Mel-frequency cepstral coefficients,MFCC)參數(shù)提取的改進方法。趙濤濤等[3]提出了經(jīng)驗模態(tài)分解和加權Mel倒譜的語音共振峰提取算法。但是,隨著深度學習在詞識別率方面取得跨越性突破后,應用它建立聲學模型成為了研究人員關注的焦點[4?8]。

        2000年,深度學習領域的專家Hinton等[9]提出了限制玻爾茲曼機(Restricted Boltzmann machine,RBM),這種模型結構是可見層節(jié)點與隱藏層節(jié)點全部連接,相同層節(jié)點之間互相獨立。2006年,Hinton等提出了基于層疊的RBM算法,即深度置信網(wǎng)絡(Deep belief networks,DBN),表明了深層神經(jīng)網(wǎng)絡模型在特征提取以及模型表達方面具有優(yōu)異的表現(xiàn)。Mohamed等[10]首次使用DBN來取代傳統(tǒng)的GMM來為HMM狀態(tài)輸出特征分布建模,并成功搭建DBN-HMM聲學模型應用于一個單音素識別系統(tǒng),通過實驗表明在詞錯誤率方面下降到了20.3%。最近幾年,國內外專家學者在聲學特征方面進行深入研究,使得深度學習理論在語音識別領域再次有了進一步的發(fā)展。張勁松等[11]比較了幾種不同特征對識別率的影響,使用Mel濾波器組系數(shù)(Mel-scale filter bank,Fbank)作為聲學特征,具有更好的識別率。Kovacs等[12]更是在Fbank特征基礎上利用自回歸的方法來調整模型的魯棒性,取得了較好的識別結果。

        理論方面,經(jīng)過多年研究發(fā)展,深度學習理論與語音識別技術的結合[13?14]已然達到較為成熟的階段;應用方面,從最初的人工神經(jīng)網(wǎng)絡(Artif icial neural network,ANN)到現(xiàn)在的深層神經(jīng)網(wǎng)絡(Deep neural network,DNN),可以說神經(jīng)網(wǎng)絡已經(jīng)達到實際應用階段[15]。Salakhutdinov等[16]提出的深度玻爾茲曼機(Deep Boltzmann machine,DBM)以RBM為基礎,模型中單元各層均為無向連接,使模型處理不確定樣本的健壯性更強?;诖?,論文結合DBM,在Kaldi平臺上建立改進的DNN-HMM語音識別模型[17],經(jīng)語音識別庫TIMIT的測試實驗,取得了較好的語音識別結果。

        1 改進的DNN-HMM聲學模型

        圖1 模型結構Fig.1 Model structure

        DNN-HMM聲學模型是由DBN模型組成的深度神經(jīng)網(wǎng)絡,DBN模型隱藏層采用RBM組成的有向圖模型。而改進的DNN-HMM聲學模型由DBM模型和DBN模型混合而成。模型結構對比如圖1所示。DBM模型是由兩層RBM組成的無向圖模型,每層節(jié)點的采樣值均由兩層連接的節(jié)點共同計算。但是DBM模型訓練時間長度與它的層數(shù)和每層的節(jié)點數(shù)有關。DBN模型是由四層RBM組成的有向圖模型,在預訓練過程中,上層是輸出,下層是輸入。所有層訓練完畢后,由最上層開始向下進行有監(jiān)督微調。

        如圖1所示,DNN-HMM模型和改進的DNNHMM模型都有1個輸入層,4個隱藏層,1個輸出層。h1、h2、h3、h4分別對應4個隱藏層,W1、W2、W3、W4、W5分別對應層間的連接權重。模型相同層節(jié)點不連接,不同層節(jié)點之間全部連接。DNN-HMM模型輸入層、h1、h2、h3、h4之間是有向圖全連接的DBN模型。改進的DNN-HMM模型的輸入層、h1、h2之間是無向圖全連接的DBM模型,h2、h3、h4之間是有向圖全連接的DBN模型。固定長度的向量作為模型輸入,改進的DNN-HMM模型先由h1、h2訓練,h2作為DBM模型的輸出層,同時也是h3、h4的輸入,輸出是當前輸入信息的特征表示。

        RBM是基于能量的模型,可以捕獲變量的相關性。其定義為

        公式(1)表示每一個可視節(jié)點與隱藏節(jié)點之間構成的能量函數(shù)。其中,m是可視節(jié)點的個數(shù),n是隱藏節(jié)點的個數(shù),b、c是可視層和隱藏層的偏置。由于RBM目標函數(shù)要累加所有可視層和隱藏層節(jié)點取值的能量,其計算也面臨指數(shù)級的復雜度。因此,將計算能量累加轉換為求解概率的問題,即得到的v,h的聯(lián)合概率為

        通過公式(2)簡化能量函數(shù)的求解,使得求解的能量值最小。由統(tǒng)計學的一個理論,能量低發(fā)生的概率大,因此引入自由能量函數(shù)最大化聯(lián)合概率,公式如下:

        其中,Z是歸一化因子,故聯(lián)合概率可以表示為

        公式(5)中等號左邊是似然函數(shù)p(v),右邊第一項是整個網(wǎng)絡自由能量總和的負值。

        整個深度神經(jīng)網(wǎng)絡模型應用誤差反向傳播算法,讓目標函數(shù)獲得最優(yōu)值,從而達到訓練目的。針對深度神經(jīng)網(wǎng)絡進行訓練時,目標函數(shù)通常替換為交叉熵,在實際優(yōu)化階段,使用隨機梯度下降法來處理。換言之,對于多狀態(tài)分類問題中目標函數(shù)往往使用取負值的對數(shù)概率,如公式(6)所示:

        其中,sut是t時刻的狀態(tài),F(xiàn)CE為狀態(tài)標簽與預測狀態(tài)分布y(s)之間的交叉熵。目標函數(shù)與輸入aut(s)間的梯度可以記為

        公式(7)中δssut是克羅內克函數(shù),滿足:

        由公式(8),網(wǎng)絡參數(shù)的調整方法使用反向傳播算法。

        改進的DNN-HMM模型與DNN-HMM模型不同的是底層使用了DBM模型對輸入的語音信號進行了處理。DBM模型中每一個隱藏節(jié)點的狀態(tài)都由它直接連接的上下層節(jié)點共同計算決定,因此相比DNN-HMM模型可以對輸入的語音信號進行更好的降維,捕捉不同語音的特征。同時,高層采用DBN模型結構避免了DBN模型開始訓練時容易過擬合的現(xiàn)象,保持了良好的性能。

        2 Fbank特征

        在語音識別領域當中,使用對角協(xié)方差矩陣的GMM,將MFCC作為聲學特征一直是研究的常用手法。MFCC聲學特征的計算過程如圖2所示。

        圖2 MFCC計算流程圖Fig.2 MFCC flow chart

        如圖2所示,經(jīng)預處理和快速傅里葉變換(Fast Fourier transformation,FFT)得到語音信號各幀數(shù)據(jù)的頻譜參數(shù),通過一組N個三角帶濾波器構成的Mel頻率濾波器作卷積運算,然后對輸出的結果作對數(shù)運算,依次得到對數(shù)能量S(m)m=1,2,3,···,N,最后經(jīng)離散余弦變換(Discrete cosine transform,DCT),得到MFCC參數(shù),如公式(9)所示:

        其中,n代表MFCC聲學特征的個數(shù),Ci(n)是第i幀的第n個MFCC系數(shù),作為log對數(shù)能量模塊的輸出,M是Mel濾波器的個數(shù)。

        Fbank聲學特征省略了MFCC聲學特征提取過程的DCT模塊,將log對數(shù)能量模塊的輸出直接作為輸入語音的聲學特征。在三角濾波器組模塊,使用N個三角帶濾波器就可以得到N維相關性較高的Fbank特征。而經(jīng)過DCT計算提取的MFCC特征,將能量集中在低頻部分,具有更好的判別度。

        因此,使用GMM進行語音識別時,由于GMM忽略不同特征維度的相關性,MFCC特征更加適合。而基于深度神經(jīng)網(wǎng)絡的語音識別中,深度神經(jīng)網(wǎng)絡可以更好地利用Fbank特征相關性較高的特點,降低語音識別的詞錯誤率。另外,F(xiàn)bank聲學特征相比MFCC聲學特征,減小了聲學特征提取時的計算量,容易進行帶寬調節(jié),得到最佳帶寬的識別結果,從而進一步提高語音識別的正確率。

        3 實驗過程與結果分析

        3.1 實驗過程

        3.1.1 GMM-HMM聲學模型的建立

        (1)特征提取

        實現(xiàn)幀長25 ms、幀移10 ms、特征維度39維(12維輸出、1維對數(shù)能量及兩者一階、二階差分)的MFCC特征的提取,然后進行倒譜均值方差歸一化的處理。

        (2)訓練GMM-HMM模型

        在模型訓練過程中考慮將上下文相關的三音素融入聲學模型,并以此作為聲學基元進行模型訓練,最后將訓練后的模型輸出特征進行解碼。

        在Kaldi開發(fā)平臺中,三音素模型采用A_B_C結構形式,其中B為當前狀態(tài),A和C為上下文。訓練過程如表1所示。首先進行單音素模型訓練,并按照設置的次數(shù)對數(shù)據(jù)對齊,然后以單音素模型為輸入訓練上下文相關的三音素模型并實現(xiàn)數(shù)據(jù)對齊,接下來對特征使用線性區(qū)分分析(Linear discriminant analysis,LDA)和最大似然線性回歸(Maximum likelihood linear transform,MLLT)進行變換并訓練加入LDA和MLLT的三音素模型,最后進行說話人自適應訓練(Speaker adaptive training,SAT)得到LDA+MLLT+SAT的三音素模型,整個過程逐步實現(xiàn)了特征參數(shù)的優(yōu)化。

        表1 基礎模型訓練過程Table 1 Basic model training process

        最后對識別結果進行強制性對齊,獲得聚類后每個三音素的狀態(tài)號來作為深度神經(jīng)網(wǎng)絡訓練調諧時候的標簽信息,并以此作為訓練DNN模型和改進的DNN模型的基礎模型。

        3.1.2 深度神經(jīng)網(wǎng)絡聲學模型的建立

        (1)監(jiān)督信息的生成

        因為RBM模型訓練不適用不同長度的語音音素,論文通過強制對齊GMM-HMM基線系統(tǒng)識別結果,得到各聚類三音素狀態(tài),即模型DNN和改進模型DNN網(wǎng)絡調參過程中所需標簽信息。

        (2)特征提取過程

        在進行深度神經(jīng)網(wǎng)絡模型訓練時,使用基于MFCC與Fbank兩種不同的聲學特征完成訓練與解碼,同時變更Fbank特征下濾波器組數(shù)量,觀察不同濾波器組數(shù)量的Fbank特征對DNN和改進模型DNN網(wǎng)絡識別結果的影響。

        (3)網(wǎng)絡參數(shù)設定

        整個深度神經(jīng)網(wǎng)絡模型包含1個輸入層、4個隱藏層和1個輸出層,網(wǎng)絡輸入選擇超長幀(連續(xù)11幀組成),隱藏層共有1024個節(jié)點,輸出層共有1366個節(jié)點,各節(jié)點關聯(lián)各種音素標簽,輸出層用Softmax網(wǎng)絡作分類。

        另外,由于深度神經(jīng)網(wǎng)絡模型參數(shù)調諧過程中需要根據(jù)開發(fā)集和測試集識別率的對比控制迭代次數(shù)。故在訓練集中選取3000條語句作為開發(fā)集,選擇1000條語句構成測試集。

        (4)網(wǎng)絡訓練

        首先初始化參數(shù),設置RBM模型迭代20次。設置最小交叉熵為目標函數(shù),借此調整參數(shù)。通過開發(fā)集與測試集測試得到識別準確率與迭代次數(shù)關系如圖3所示。

        圖3 預測準確率與迭代次數(shù)變化Fig.3 Prediction accuracy and number of iterations

        (5)深度神經(jīng)網(wǎng)絡聲學模型

        結合深度神經(jīng)網(wǎng)絡輸出層節(jié)點的輸出值計算狀態(tài)輸出的后驗證概率,調用Kaldi中的nnetforward工具進行解碼識別。

        3.2 實驗結果

        根據(jù)上述步驟在Kaldi語音識別系統(tǒng)開發(fā)平臺上訓練單音素模型,并在此模型上優(yōu)化訓練三音素模型作為深度神經(jīng)網(wǎng)絡訓練的基礎模型。以訓練好的三音素基礎模型對分別使用MFCC特征和Fbank特征的模型進行訓練解碼。

        整個實驗中分別使用了濾波器組數(shù)目為8、19、30、41、52、70、81的Fbank特征對DNN-HMM模型和改進的DNN-HMM進行建模,F(xiàn)bank特征濾波器組數(shù)初始值設為8,實驗中首先對8組濾波器的Fbank特征進行訓練解碼,然后修改濾波器組數(shù)目進一步實驗分析,比較濾波器組數(shù)目對實驗結果的影響。

        一個音素的發(fā)音時間一般在9幀左右,拼接特征的選擇在9幀以上。實驗中,拼接特征選擇11幀,左右各5幀。根據(jù)Fbank特征濾波器組數(shù)目的不同,輸入層節(jié)點個數(shù)分別設置為88、209、330、451、572、770、891。經(jīng)訓練誤差的比較后,4個隱藏層節(jié)點個數(shù)選擇1024。輸出層1366個節(jié)點,關聯(lián)各種音素標簽。

        MFCC特征下GMM-HMM、DNN-HMM和改進的DNN-HMM聲學模型的句錯誤率與詞錯誤率如表2所示。改進的DNN-HMM聲學模型在不同F(xiàn)bank特征下的句錯誤率和詞錯誤率如表3所示,與DNN-HMM的識別率比較如圖4所示。

        表2 MFCC特征下聲學模型的識別率Table 2 Recognition rate of acoustic model under MFCC characteristics

        表3 改進的DNN-HMM在不同F(xiàn)bank特征下的識別率Table 3 Recognition rate of improved DNN-HMM under different Fbank features

        圖4 改進的DNN-HMM與DNN-HMM模型錯誤率比較Fig.4 Comparison of error rates between improved DNN-HMM and DNN-HMM models

        3.3 實驗分析

        (1)根據(jù)表2的結果可以確定,在MFCC聲學特征下,與傳統(tǒng)GMM-HMM方法、DNN-HMM方法相比較,改進的DNN-HMM聲學建模方法在句錯誤率與詞錯誤率方面均有下降,分別為22.37%和4.15%。這表明后者在聲學建模方面相比DNN模型、GMM模型對于復雜的語音數(shù)據(jù)有著更強的建模能力。

        (2)從表3可以看出,濾波器組數(shù)量不斷增多時,改進的DNN-HMM模型得到的句錯誤率與詞錯誤率呈現(xiàn)先降后增的趨勢。說明適當?shù)脑黾訛V波器組數(shù)量可以使識別結果更好,但是當增加到一定數(shù)量時結果反而會下降。論文實驗中,濾波器組數(shù)量為30時,句錯誤率與詞錯誤率達到最小值,分別為21.06%和3.12%。

        (3)從圖4可以看出,改進的DNN-HMM聲學模型比DNN-HMM聲學模型在不同濾波器組數(shù)量時句錯誤率與詞錯誤率均有所下降,其中在濾波器組數(shù)量為默認值時,句錯誤率下降了0.48%,詞錯誤率下降了0.82%。說明了在相同條件下,改進的DNN-HMM模型相比DNN-HMM模型有更強的建模能力。

        4 結論

        論文建立了改進的DNN-HMM聲學模型,使用TIMIT語音數(shù)據(jù)集,通過語音識別評價指標句錯誤率和詞錯誤率分析了不同F(xiàn)bank特征濾波組對改進的DNN-HMM聲學模型的影響,并與DNNHMM在相同實驗條件下進行了比較,證明了改進的DNN-HMM聲學模型和Fbank參數(shù)擁有更強建模能力。論文在改進DNN-HMM模型實驗過程中,發(fā)現(xiàn)模型前兩層的DBM無向圖模型可以有效去除噪音,而這也為論文后續(xù)的研究指明了一個方向。

        猜你喜歡
        音素錯誤率聲學
        限制性隨機試驗中選擇偏倚導致的一類錯誤率膨脹*
        新目標英語七年級(上)Starter Units 1-3 STEP BY STEP 隨堂通
        依托繪本課程,培養(yǎng)學生英語音素意識
        愛的就是這股Hi-Fi味 Davis Acoustics(戴維斯聲學)Balthus 70
        小學英語課堂中音素意識與自然拼讀整合訓練的探索
        Acoustical Treatment Primer:Diffusion談談聲學處理中的“擴散”
        Acoustical Treatment Primer:Absorption談談聲學處理中的“吸聲”(二)
        Acoustical Treatment Primer:Absorption 談談聲學處理中的“吸聲”
        ?不定冠詞a與an
        正視錯誤,尋求策略
        教師·中(2017年3期)2017-04-20 21:49:49
        男女一区视频在线观看| 人禽无码视频在线观看| 精品一区二区av天堂| 日本免费a一区二区三区| 成人性生交大片免费入口| 国产人妻精品无码av在线| 国产精品美女久久久久久2018| 韩国无码精品人妻一区二| 亚洲成av人片极品少妇| av国产传媒精品免费| 成人做爰69片免费看网站| 色二av手机版在线| 午夜精品久久99蜜桃| 性无码专区无码| 国产成人综合一区二区三区| 人妻少妇久久精品一区二区| 大量漂亮人妻被中出中文字幕| 最新国产精品久久精品| 狠狠色狠狠色综合| 视频一区中文字幕亚洲| 亚洲蜜臀av一区二区三区| 久久久国产精品黄毛片| 亚洲成人观看| 亚洲一区二区三区厕所偷拍| 久久久久久夜精品精品免费啦 | 不卡国产视频| 亚洲精品成人一区二区三区| 免费观看a级片| 精品国产黑色丝袜高跟鞋| 不打码在线观看一区二区三区视频| av在线免费观看大全| 人妻少妇精品无码专区动漫| 免费无遮挡无码视频在线观看| 亚洲小少妇一区二区三区| 国产无套乱子伦精彩是白视频 | 自拍视频在线观看成人| 91九色免费视频网站| 风韵饥渴少妇在线观看| 亚洲伦理一区二区三区| 亚洲精品98中文字幕| 鸭子tv国产在线永久播放|