亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度神經(jīng)網(wǎng)絡(luò)的蒙古語聲學(xué)模型建模研究

        2018-07-20 07:13:50馬志強李圖雅楊雙濤張力
        智能系統(tǒng)學(xué)報 2018年3期
        關(guān)鍵詞:蒙古語聲學(xué)語音

        馬志強,李圖雅,楊雙濤,張力

        (內(nèi)蒙古工業(yè)大學(xué) 數(shù)據(jù)科學(xué)與應(yīng)用學(xué)院,內(nèi)蒙古 呼和浩特 010080)

        典型的大詞匯量連續(xù)語音識別系統(tǒng)(large vocabulary continuous speech recognition,LVCSR)由特征提取、聲學(xué)模型、語言模型和解碼器等組成。聲學(xué)模型是語音識別系統(tǒng)的核心組成部分,基于GMM和HMM模型構(gòu)建的GMM-HMM聲學(xué)模型[1]一度是大詞匯量連續(xù)語音識別系統(tǒng)中應(yīng)用最廣的聲學(xué)模型。在GMM-HMM模型中,GMM模型對語音特征向量進(jìn)行概率建模,然后通過EM算法生成語音觀察特征的最大化概率,當(dāng)混合高斯分布數(shù)目足夠多時,GMM可以充分?jǐn)M合聲學(xué)特征的概率分布,HMM模型根據(jù)GMM擬合的觀察狀態(tài)生成語音的時序狀態(tài)[2-3]。當(dāng)采用GMM混合高斯模型的概率來描述語音數(shù)據(jù)分布時,GMM模型本質(zhì)上屬于淺層模型,并在擬合聲學(xué)特征分布時對特征之間進(jìn)行了獨立性的假設(shè),因此無法充分描述聲學(xué)特征的狀態(tài)空間分布;同時,GMM建模的特征維數(shù)一般是幾十維,不能充分描述聲學(xué)特征之間的相關(guān)性,模型表達(dá)能力有限。因此,在20世紀(jì)80年代利用神經(jīng)網(wǎng)絡(luò)和HMM模型構(gòu)建聲學(xué)模型的研究開始出現(xiàn),但是,當(dāng)時計算機(jī)計算能力不足且缺乏足夠的訓(xùn)練數(shù)據(jù),模型的效果不及GMM-HMM[4-5]。2010年微軟亞洲研究院的鄧力與Hinton小組針對大規(guī)模連續(xù)語音識別任務(wù)提出了CD-DBN-HMM的混合聲學(xué)模型框架[6],并進(jìn)行了相關(guān)實驗。實驗結(jié)果表明,相比GMM-HMM聲學(xué)模型,采用CD-DBN-HMM聲學(xué)模型使語音識別系統(tǒng)識別正確率提高了30%左右,CD-DBN-HMM混合聲學(xué)模型框架的提出徹底革新了語音識別原有的聲學(xué)模型框架。與傳統(tǒng)的高斯混合模型相比,深度神經(jīng)網(wǎng)絡(luò)屬于深度模型,能夠更好地表示復(fù)雜非線性函數(shù),更能捕捉語音特征向量之間的相關(guān)性,易于取得更好的建模效果[7-12]。蒙古語語音識別研究主要借鑒了英語、漢語以及其他少數(shù)民族語言,在語音識別研究上取得了成果,因此蒙古語聲學(xué)模型建模過程主要以GMM-HMM模型為基礎(chǔ)開展研究,也取得了一定的研究成果[13-16]。在特征學(xué)習(xí)方面DNN模型比GMM模型具有更大的優(yōu)勢,所以本文用DNN模型代替了GMM模型來完成蒙古語聲學(xué)模型建模任務(wù)。

        1 蒙古語聲學(xué)模型研究

        在語音識別領(lǐng)域內(nèi),DNN主要以兩種形式被應(yīng)用:直接作為聲學(xué)特征的提取模型,但是這種應(yīng)用方式仍需要借助GMM-HMM模型才能完成;將DNN與HMM隱馬爾科夫模型進(jìn)行結(jié)合,構(gòu)成混合模型結(jié)構(gòu),利用深度神經(jīng)網(wǎng)絡(luò)代替GMM高斯混合模型進(jìn)行聲學(xué)狀態(tài)輸出概率的計算[7-8]。與高斯混合模型相比,深度神經(jīng)網(wǎng)絡(luò)有著更強的學(xué)習(xí)能力和建模能力,能夠更好地捕捉聲學(xué)特征的內(nèi)在關(guān)系,有助于聲學(xué)模型性能的提升,所以本文通過使用深度神經(jīng)網(wǎng)絡(luò)模型對蒙古語聲學(xué)特征逐層提取,將分類與語音特征內(nèi)在結(jié)構(gòu)的學(xué)習(xí)進(jìn)行了緊密結(jié)合,有利于蒙古語語音識別系統(tǒng)正確率的提升。

        1.1 DNN-HMM蒙古語聲學(xué)模型

        DNN-HMM蒙古語聲學(xué)模型就是將深度神經(jīng)網(wǎng)絡(luò)技術(shù)應(yīng)用到蒙古語聲學(xué)模型中,用DNN深度神經(jīng)網(wǎng)絡(luò)代替GMM高斯混合模型,實現(xiàn)對蒙古語聲學(xué)狀態(tài)的后驗概率估算。在給定蒙古語聲學(xué)特征序列的情況下,首先用DNN模型估算當(dāng)前特征屬于HMM狀態(tài)的概率,然后用HMM模型描述蒙古語語音信號的動態(tài)變化,捕捉蒙古語語音信息的時序狀態(tài)信息。DNN-HMM蒙古語聲學(xué)模型結(jié)構(gòu)如圖1所示。

        圖1 DNN-HMM蒙古語聲學(xué)模型Fig. 1 The Mongolian acoustic model based on DNNHMM.

        在DNN-HMM蒙古語聲學(xué)模型中,DNN網(wǎng)絡(luò)是通過不斷地自下而上堆疊隱含層實現(xiàn)的。其中,S表示HMM模型中的隱含狀態(tài),A表示狀態(tài)轉(zhuǎn)移概率矩陣,L表示DNN深度神經(jīng)網(wǎng)絡(luò)的層數(shù)(隱含層為L-1層, L0層 為輸入層, LL層為輸出層,DNN網(wǎng)絡(luò)共包含L+1層),W表示層之間的連接矩陣。DNNHMM蒙古語聲學(xué)模型在進(jìn)行蒙古語語音識別過程建模前,需要對DNN神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。在完成DNN神經(jīng)網(wǎng)絡(luò)的訓(xùn)練后,對蒙古語聲學(xué)模型的建模過程與GMM-HMM模型一致。

        1.2 DNN網(wǎng)絡(luò)的訓(xùn)練

        蒙古語聲學(xué)模型中的DNN網(wǎng)絡(luò)的訓(xùn)練分為預(yù)訓(xùn)練和調(diào)優(yōu)兩個階段。DNN的預(yù)訓(xùn)練就是對深度神經(jīng)網(wǎng)絡(luò)的參數(shù)進(jìn)行初始化。通常,DNN深度神經(jīng)網(wǎng)絡(luò)的預(yù)訓(xùn)練方式分為生成式訓(xùn)練和判別式訓(xùn)練。逐層無監(jiān)督預(yù)訓(xùn)練算法就是使用無監(jiān)督學(xué)習(xí)方法對網(wǎng)絡(luò)的每一層進(jìn)行預(yù)訓(xùn)練,它屬于生成式訓(xùn)練算法[17]。在DNN-HMM蒙古語聲學(xué)模型預(yù)訓(xùn)練中,采用了逐層無監(jiān)督訓(xùn)練算法。

        DNN模型是一個多層次的神經(jīng)網(wǎng)絡(luò),逐層無監(jiān)督預(yù)訓(xùn)練算法是對DNN的每一層進(jìn)行訓(xùn)練,而且每次只訓(xùn)練其中一層,其他層參數(shù)保持原來初始化參數(shù)不變,訓(xùn)練時,對每一層的輸入和輸出誤差盡量減小,這樣就能夠保證每一層參數(shù)對于該層來說都是最優(yōu)的。接下來,將訓(xùn)練好的每一層的輸出數(shù)據(jù)作為下一層的輸入數(shù)據(jù),那么下一層輸入的數(shù)據(jù)就比直接訓(xùn)練時經(jīng)過多層神經(jīng)網(wǎng)絡(luò)輸入到下一層數(shù)據(jù)的誤差小得多,逐層無監(jiān)督預(yù)訓(xùn)練算法能夠保證每一層之間輸入輸出數(shù)據(jù)的誤差都相對較小。

        具體訓(xùn)練過程如圖2所示,訓(xùn)練算法見算法1。

        圖2 DNN-HMM蒙古語聲學(xué)模型預(yù)訓(xùn)練過程Fig. 2 The pre-training DNN-HMM process for Mongolian acoustic model.

        算法1 逐層無監(jiān)督預(yù)訓(xùn)練算法

        輸入 學(xué)習(xí)率α,最大迭代次數(shù)T,(需要訓(xùn)練的)層數(shù)L;各隱含層內(nèi)的隱單元個數(shù) N =n1,n2,···,nL;訓(xùn)練數(shù)據(jù)按mini-batch劃分后的序列 Xj,其中j =(1,2,···,Max),序列長度Max。

        輸出 鏈接權(quán)重 Wi, i =(1,2,···,L);偏執(zhí)向量bi,i=(0,1,···,L)。

        1)初始化輸入層的偏執(zhí)向量;

        2) For i in 1 to L do;

        3)初始化 Wi=0, bi=0;

        4) For t in 1 to T do;

        5) For j in 1 to Max do;

        6) mini-batch = Xj;

        7) DNNUpdate (mini-batch, α, Wi, bi, bi?1);

        8) End For;

        9) End For;

        10) End For;

        其中DNNUpdate算法采用經(jīng)典的對比散度算法 (contrastive divergence,CD-K),具體見文獻(xiàn)[7]。

        通過逐層無監(jiān)督預(yù)訓(xùn)練算法可以得到較好的神經(jīng)網(wǎng)絡(luò)初始化參數(shù),然后使用蒙古語標(biāo)注數(shù)據(jù)(即特征狀態(tài))通過BP(error back propagation)算法進(jìn)行有監(jiān)督的調(diào)優(yōu),最終得到可用于聲學(xué)狀態(tài)分類的DNN深度神經(jīng)網(wǎng)絡(luò)模型。有監(jiān)督的調(diào)優(yōu)算法采用隨機(jī)梯度下降算法進(jìn)行實現(xiàn),具體見算法2。

        算法2 隨機(jī)梯度下降算法

        輸入 訓(xùn)練集set,批量大小batch_size;學(xué)習(xí)率α,循環(huán)次數(shù)epoch。

        輸出 模型參數(shù)weight。

        1) weight←initWeight();

        2) For j in 0 to epoch do;

        3) batch←randomSelect(set, batch_size);

        4) weight←getWeightFromMaster();

        5) Δ W←miniGradient(batch, weight);

        6) weight←weight- α * Δ W;

        7) End for;

        1.3 蒙古語語音數(shù)據(jù)識別

        通過對DNN網(wǎng)絡(luò)的預(yù)訓(xùn)練和調(diào)優(yōu)后,可以利用DNN-HMM聲學(xué)模型對蒙古語語音數(shù)據(jù)進(jìn)行識別,具體的過程如下。

        首先,根據(jù)輸入的蒙古語聲學(xué)特征向量,計算DNN深度神經(jīng)網(wǎng)絡(luò)前L層的輸出,即

        式中: zα表示激勵向量, zα=Wαvα?1+bα且 zα∈ RNαX1;vα表 示 激 活 向 量 , vα∈ RNαX1;Wα表 示 權(quán) 重 矩 陣 ,α層的神經(jīng)節(jié)點個數(shù)且 Nα∈R; V0表示網(wǎng)絡(luò)的輸入特征, V0=o∈RN0X1。在DNN-HMM聲學(xué)模型中,輸入特征即為聲學(xué)特征向量。其中 N0=D表示輸入聲學(xué)特征向量的維度, f (·):RNαX1→ RNαX1表示激活函數(shù)對激勵向量的計算過程, f (·)表示激活函數(shù)。

        然后,利用L層的softmax分類層計算當(dāng)前特征關(guān)于全部聲學(xué)狀態(tài)的后驗概率,即當(dāng)前特征屬于各蒙古語聲學(xué)狀態(tài)的概率:

        在DNN-HMM蒙古語聲學(xué)模型中,DNN深度神經(jīng)網(wǎng)絡(luò)用于估計每個HMM狀態(tài)的后驗概率,所以DNN的輸出是按照HMM隱含狀態(tài)進(jìn)行分類輸出的,實質(zhì)上屬于多分類任務(wù),因此DNN的輸出層通常是softmax分類層。而且softmax分類層的神經(jīng)單元個數(shù)與HMM聲學(xué)模型中的隱含狀態(tài)個數(shù)相同。在式(2)中, i =1,2,···,C , 其中C 表示聲學(xué)模型的隱含狀態(tài)個數(shù),vi表 示softmax分類層第 i 個神經(jīng)單元的輸出,即輸入聲學(xué)特征向量O關(guān)于聲學(xué)模型第i個隱含狀態(tài)的后驗概率。得到隱含狀態(tài)的后驗概率后,利用維特比解碼算法進(jìn)行解碼得到最優(yōu)路徑。在直接解碼前需要根據(jù)貝葉斯公式,將各個狀態(tài)的后驗概率除以其自身的先驗概率,得到各狀態(tài)規(guī)整的似然值。隱含狀態(tài)的先驗概率計算較為簡單,僅通過計算各狀態(tài)對應(yīng)幀總數(shù)與全部聲學(xué)特征幀數(shù)的比值即可得到。

        2 蒙古語聲學(xué)模型的調(diào)優(yōu)訓(xùn)練

        由于DNN模型在調(diào)優(yōu)時需要對齊的語音幀標(biāo)注數(shù)據(jù),同時標(biāo)注數(shù)據(jù)質(zhì)量往往影響DNN模型的性能,因此,在DNN網(wǎng)絡(luò)調(diào)優(yōu)階段,通過使用已訓(xùn)練好的GMM-HMM蒙古語聲學(xué)模型生成對齊的蒙古語語音特征標(biāo)注數(shù)據(jù)。

        所以,DNN-HMM蒙古語聲學(xué)模型的訓(xùn)練過程為:首先訓(xùn)練GMM-HMM蒙古語聲學(xué)模型,得到對齊的蒙古語語音特征標(biāo)注數(shù)據(jù);然后在對齊語音特征數(shù)據(jù)的基礎(chǔ)上對深度神經(jīng)網(wǎng)絡(luò)(DNN)進(jìn)行訓(xùn)練和調(diào)優(yōu);最后根據(jù)得到的蒙古語語音觀察狀態(tài)再對隱馬爾科夫模型(HMM)進(jìn)行訓(xùn)練。具體見DNNHMM蒙古語聲學(xué)模型訓(xùn)練過程。

        DNN-HMM蒙古語聲學(xué)模型訓(xùn)練過程:

        輸入 蒙古語語料庫。

        輸出 DNN-HMM聲學(xué)模型。

        1)進(jìn)行GMM-HMM蒙古語聲學(xué)模型訓(xùn)練,得到一個最優(yōu)的GMM-HMM蒙古語語音識別系統(tǒng),用gmm-hmm表示。

        2)利用維特比解碼算法解析gmm-hmm,對gmmhmm蒙古語聲學(xué)模型中的每一個senone進(jìn)行標(biāo)號,得到senone_id。

        3)利用gmm-hmm蒙古語聲學(xué)模型,將聲學(xué)狀態(tài)tri-phone映射到相應(yīng)的senone_id。

        4)利用gmm-hmm蒙古語聲學(xué)模型初始化DNNHMM蒙古語聲學(xué)模型,主要是HMM隱馬爾科夫模型參數(shù)部分,最終得到dnn-hmm1模型。

        5)利用蒙古語聲學(xué)特征文件預(yù)訓(xùn)練DNN深度神經(jīng)網(wǎng)絡(luò),得到ptdnn。

        6)使用gmm-hmm蒙古語聲學(xué)模型,將蒙古語聲學(xué)特征數(shù)據(jù)進(jìn)行狀態(tài)級別的強制對齊,對齊結(jié)果為align-raw。

        7)將align-raw的物理狀態(tài)轉(zhuǎn)換成senone_id,得到幀級別對齊的訓(xùn)練數(shù)據(jù)align-frame。

        8)利用對齊數(shù)據(jù)align-data對ptdnn深度神經(jīng)網(wǎng)絡(luò)進(jìn)行有監(jiān)督地微調(diào),得到網(wǎng)絡(luò)模型dnn。

        9)根據(jù)最大似然算法,利用dnn重新估計dnnhmm1中HMM模型轉(zhuǎn)移概率得到的網(wǎng)絡(luò)模型,用dnn-hmm2表示。

        10)如果dnn和dnn-hmm2上測試集識別準(zhǔn)確率沒有提高,訓(xùn)練結(jié)束。否則,使用dnn-hmm2對訓(xùn)練數(shù)據(jù)再次進(jìn)行狀態(tài)級別對齊,執(zhí)行7)。

        在訓(xùn)練過程中,首先訓(xùn)練一個最優(yōu)的GMM-HMM蒙古語語音識別數(shù)據(jù)準(zhǔn)備系統(tǒng),目的是為DNN的監(jiān)督調(diào)優(yōu)服務(wù)。在訓(xùn)練GMM-HMM蒙古語聲學(xué)模型時,采用期望最大化算法進(jìn)行無監(jiān)督訓(xùn)練,避免了對標(biāo)注數(shù)據(jù)的要求;然后利用蒙古語聲學(xué)特征對深度神經(jīng)網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練;在深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練的第二階段(即有監(jiān)督調(diào)優(yōu)階段),利用已訓(xùn)練的GMMHMM蒙古語聲學(xué)模型進(jìn)行語音特征到狀態(tài)的強制對齊,得到標(biāo)注數(shù)據(jù);最后利用標(biāo)注數(shù)據(jù)對DNN深度神經(jīng)網(wǎng)絡(luò)進(jìn)行有監(jiān)督的調(diào)優(yōu)。DNN深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練完成以后,根據(jù)DNN-HMM在測試集上的識別結(jié)果決定其下一步流程。

        3 實驗與結(jié)果

        3.1 實驗方案設(shè)計

        為了驗證提出的DNN-HMM蒙古語聲學(xué)模型的有效性,設(shè)計了3組實驗。在實驗中,將未采用dropout技術(shù)的DNN-HMM聲學(xué)模型定義為DNNHMM,將采用dropout技術(shù)的DNN-HMM聲學(xué)模型定義為dropout-DNN-HMM。

        1)開展GMM-HMM、DNN-HMM蒙古語聲學(xué)模型建模實驗研究,主要觀察不同聲學(xué)建模單元對聲學(xué)模型的性能影響,以及對比不同類型聲學(xué)模型對語音識別系統(tǒng)的影響。

        2)通過構(gòu)建不同層數(shù)的深度網(wǎng)絡(luò)結(jié)構(gòu)的DNNHMM三音子蒙古語聲學(xué)模型,開展層數(shù)對蒙古語聲學(xué)模型,以及對過擬合現(xiàn)象影響的實驗研究。

        3)在構(gòu)建DNN-HMM三音子蒙古語聲學(xué)模型時,通過采用dropout技術(shù)開展dropout技術(shù)對DNNHMM三音子蒙古語聲學(xué)模型過擬合現(xiàn)象影響的實驗研究。

        3.2 數(shù)據(jù)集

        蒙古語語音識別的語料庫由310句蒙古語教學(xué)語音組成,共計2 291個蒙古語詞匯,命名為IMUT310語料庫。語料庫共由3部分組成:音頻文件、發(fā)音標(biāo)注以及相應(yīng)的蒙文文本。實驗中,將IMUT310語料庫劃分成訓(xùn)練集和測試集兩部分,其中訓(xùn)練集為287句,測試集為23句。實驗在Kaldi平臺上完成。Kaldi的具體實驗環(huán)境配置如表1所示。

        表1 實驗環(huán)境Table 1 Experimental environment

        實驗過程中,蒙古語聲學(xué)特征采用MFCC聲學(xué)特征表示,共有39維數(shù)據(jù),其中前13維特征由12個倒譜特征和1個能量系數(shù)組成,后面的兩個13維特征是對前面13維特征的一階差分和二階差分。在提取蒙古語MFFC特征時,幀窗口長度為25 ms,幀移10 ms。對訓(xùn)練集和測試集分別進(jìn)行特征提取,全部語音數(shù)據(jù)共生成119 960個MFCC特征,其中訓(xùn)練數(shù)據(jù)生成的特征為112 535個,測試數(shù)據(jù)生成的特征為7 425個。GMM-HMM聲學(xué)模型訓(xùn)練時,蒙古語語音MFCC特征采用39維數(shù)據(jù)進(jìn)行實驗。單音子DNN-HMM實驗時,蒙古語MFCC語音特征為13維(不包括一、二階差分特征)。三音子DNN-HMM實驗時,蒙古語MFCC的特征為39維。

        DNN網(wǎng)絡(luò)訓(xùn)練時,特征提取采用上下文結(jié)合的辦法,即在當(dāng)前幀前后各取5幀來表示當(dāng)前幀的上下文環(huán)境,因此,在實驗過程中,單音子DNN網(wǎng)絡(luò)的輸入節(jié)點數(shù)為143個(13×(5+1+5)),三音子DNN網(wǎng)絡(luò)的輸入節(jié)點數(shù)為429個(39×(5+1+5))。DNN網(wǎng)絡(luò)的輸出層節(jié)點為可觀察蒙古語語音音素個數(shù),根據(jù)語料庫標(biāo)注的標(biāo)準(zhǔn),輸出節(jié)點為27個;DNN網(wǎng)絡(luò)的隱含層節(jié)點數(shù)設(shè)定為1 024,調(diào)優(yōu)訓(xùn)練次數(shù)設(shè)定為60,初始學(xué)習(xí)率設(shè)定為0.015,最終學(xué)習(xí)率設(shè)定為0.002。

        3.3 實驗和結(jié)果

        為了驗證深度神經(jīng)網(wǎng)絡(luò)能夠更好地捕捉蒙古語語音的聲學(xué)特征,具備更好地建模能力。本文設(shè)計了4個實驗,分別是單音子GMM-HMM、三音子GMM-HMM、單音子DNN-HMM和三音子DNNHMM實驗。采用3.2中的實驗參數(shù)設(shè)置進(jìn)行了實驗,實驗結(jié)果數(shù)據(jù)見表2。

        表2 GMM-HMM與DNN-HMM蒙古語聲學(xué)模型實驗數(shù)據(jù)Table 2 The experimental data of Mongolian acoustic mode from GMM-HMM and DNN-HMM

        從圖3(a)中可以發(fā)現(xiàn),相對于單音子GMMHMM蒙古語聲學(xué)模型,單音子DNN-HMM蒙古語聲學(xué)模型在訓(xùn)練集上的詞錯誤率降低了8.84%,在測試集上的詞識別錯誤率降低了11.14%;但是,對于三音子模型來說,三音子DNN-HMM蒙古語聲學(xué)模型比三音子GMM-HMM蒙古語聲學(xué)模型在訓(xùn)練集上的詞錯誤率降低了1.33%,在測試集上的詞識別錯誤率降低了7.5%。由圖3(b)發(fā)現(xiàn),單音子模型在訓(xùn)練集上的句識別錯誤率降低了32.43%,在測試集上的句識別錯誤率降低了17.88%;對于三音子模型來說,三音子DNN-HMM蒙古語聲學(xué)模型比三音子GMM-HMM蒙古語聲學(xué)模型在訓(xùn)練集上的句識別錯誤率降低了19.3%,在測試集上的句識別錯誤率降低了13.63%。

        圖3 相對于GMM-HMM聲學(xué)模型的實驗對比結(jié)果Fig. 3 The experimental results are compared with the GMM-HMM acoustic model

        從以上分析可以得出:單音子DNN-HMM蒙古語聲學(xué)模型明顯優(yōu)于單音子GMM-HMM蒙古語聲學(xué)模型;對于三音子模型來說,三音子DNN-HMM蒙古語聲學(xué)模型比三音子GMM-HMM蒙古語聲學(xué)模型的識別率還要高。

        另外,為了研究隱含層層數(shù)、dropout技術(shù)[18-20]對DNN-HMM三音子蒙古語聲學(xué)模型的影響,本文以未采用dropout技術(shù)的4層三音子DNN-HMM蒙古語聲學(xué)模型為基準(zhǔn)實驗,分別進(jìn)行了關(guān)于隱含層層數(shù)以及dropout技術(shù)的對比實驗,實驗結(jié)果數(shù)據(jù)見表3。

        表3 三音子DNN-HMM聲學(xué)模型上dropout實驗Table 3 Dropout experiment on Triphone DNN-HMM acoustic model

        為了表示過擬合現(xiàn)象的程度,本文定義了一個模型的過擬合距離,在語音識別中,過擬合往往是通過訓(xùn)練集和測試集上的識別率來進(jìn)行判斷的,當(dāng)數(shù)據(jù)在訓(xùn)練集上的識別率很高,而在測試集上的識別率很低時,那么,就表示該模型有著嚴(yán)重的過擬合現(xiàn)象,我們用模型在測試集上的評價指標(biāo)和模型在訓(xùn)練集上的評價指標(biāo)的差值的絕對值來表示過擬合現(xiàn)象的程度,所以,將它的計算公式定義為

        從圖4深色部分中可以發(fā)現(xiàn),在未采用dropout技術(shù)訓(xùn)練得到的DNN-HMM蒙古語聲學(xué)模型中,當(dāng)隱含層網(wǎng)絡(luò)層數(shù)由4層增加至7層時,對詞識別的過擬合距離從21.17%增長到了54.81%;對句識別的過擬合距離從35.32%增長到了80.72%。由此可以看出,隨著隱含層網(wǎng)絡(luò)層數(shù)的增加,模型的過擬合距離越來越大,過擬合距離的變大說明DNN網(wǎng)絡(luò)構(gòu)建的蒙古語聲學(xué)模型已經(jīng)嚴(yán)重過擬合,那么,DNN-HMM的表現(xiàn)就會越來越差。

        圖4 dropout技術(shù)和隱含層層數(shù)對DNN-HMM模型過擬合距離的影響Fig. 4 Influence of dropout technique and hidden layers on the over - fitting distance of DNN-HMM model

        在圖4中,通過深淺兩種顏色的對比可以看出,采用dropout技術(shù)后,當(dāng)隱含層網(wǎng)絡(luò)層數(shù)由4層增加至7層時,對詞識別的過擬合距離分別是21.43%、21.91%、24.07%和25.48%。而未采用dropout技術(shù),對詞識別的過擬合距離分別是21.17%、21.91%、42.38%、54.81%。由此可知,采用dropout技術(shù)后的過擬合距離要比未采用dropout技術(shù)后的過擬合距離小,這一點,在對句識別的過擬合距離上同樣存在。所以,在加入了dropout技術(shù)后,有效地緩解了因隱含層數(shù)增加而導(dǎo)致的過擬合現(xiàn)象,從而提高了模型的識別性能。

        4 結(jié)束語

        在蒙古語語音識別聲學(xué)建模中,本文給出了DNN-HMM蒙古語聲學(xué)模型、無監(jiān)督與監(jiān)督算法相結(jié)合的蒙古語聲學(xué)模型的訓(xùn)練算法以及以GMMHMM為基礎(chǔ)的DNN-HMM蒙古語聲學(xué)模型的訓(xùn)練過程。在Kaldi實驗平臺上使用小規(guī)模的蒙古語語音語料庫IMUT310開展了實驗研究,實驗結(jié)果表明:1)在不同建模單元(單音子和三音子)下,DNN-HMM蒙古語聲學(xué)模型不論詞錯誤率還是句錯誤率都優(yōu)于GMM-HMM蒙古語聲學(xué)模型,具體表現(xiàn)為三音子DNN-HMM聲學(xué)模型比三音子GMM-HMM模型在測試集上的詞識別錯誤率降低了7.5%,句識別錯誤率降低了13.63%;2)在訓(xùn)練DNN-HMM三音子蒙古語聲學(xué)模型時,加入dropout技術(shù)可以有效避免隨著隱含層層數(shù)增加帶來的過擬合影響。

        猜你喜歡
        蒙古語聲學(xué)語音
        含有“心”一詞蒙古語復(fù)合詞的語義
        愛的就是這股Hi-Fi味 Davis Acoustics(戴維斯聲學(xué))Balthus 70
        土默特地方蒙古語地名再探
        魔力語音
        基于MATLAB的語音信號處理
        電子制作(2019年14期)2019-08-20 05:43:38
        基于MQ3與MP3的價廉物美的酒駕語音提醒器
        電子制作(2019年9期)2019-05-30 09:42:10
        Acoustical Treatment Primer:Diffusion談?wù)劼晫W(xué)處理中的“擴(kuò)散”
        Acoustical Treatment Primer:Absorption談?wù)劼晫W(xué)處理中的“吸聲”(二)
        對方正在輸入……
        小說界(2018年5期)2018-11-26 12:43:42
        Acoustical Treatment Primer:Absorption 談?wù)劼晫W(xué)處理中的“吸聲”
        国产内射爽爽大片视频社区在线| 黄色三级国产在线观看| 久久久国产熟女综合一区二区三区 | 亚洲天堂av大片暖暖| 久久狼精品一区二区三区| 激烈的性高湖波多野结衣| 午夜无码大尺度福利视频| 国内精品九九久久精品小草| 日韩av天堂一区二区| 高潮潮喷奶水飞溅视频无码| 亚洲av第一成肉网| 91精品国产无码在线观看| 亚洲精品第四页中文字幕| 亚洲欧美日韩精品久久| 日本动态120秒免费| 午夜天堂精品一区二区| 国产一区二区三区视频地址| 久久无码av一区二区三区| 日韩中文字幕中文有码| 西西少妇一区二区三区精品| 国产精品久久久免费精品| 48沈阳熟女高潮嗷嗷叫| 亚洲区日韩精品中文字幕| 91精品蜜桃熟女一区二区| 少妇被又大又粗又爽毛片久久黑人 | 免费a级毛片在线播放不收费| 中国一 片免费观看| 欧美在线观看www| 男女调情视频在线观看| 99热爱久久99热爱九九热爱| 青草热久精品视频在线观看| 丰满人妻无套内射视频| 精品无人区无码乱码毛片国产| 男女啪啪永久免费观看网站| 久久亚洲成a人片| 精品人妻码一区二区三区红楼视频| 九九久久自然熟的香蕉图片| 亚洲精品老司机在线观看| 大屁股流白浆一区二区 | 精品亚洲av一区二区| 国产电影无码午夜在线播放|