亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于TDNN-FSMN的蒙古語語音識別技術研究

        2018-10-19 03:13:32王勇和高光來
        中文信息學報 2018年9期
        關鍵詞:記憶實驗信息

        王勇和,飛 龍,高光來

        (內蒙古大學 計算機學院,內蒙古 呼和浩特 010021)

        0 引言

        語音是人類最自然、便捷的交流方式,而語音識別技術,就是讓機器能夠“聽懂”人類的語言并將語音信號轉化為對應的文本或命令?;诟咚够旌夏P汀[馬爾可夫模型(Gaussian Mixture Model-Hidden Markov Models,GMM-HMM)的語音識別框架在很長一段時間都是語音識別系統(tǒng)的主導框架,其核心就是用GMM對語音的觀察概率進行建模,而用HMM對語音的轉移概率進行建模[1]。近年來,深度神經網絡(Deep Neural Network,DNN)[2]的研究和應用極大地推動了語音識別的發(fā)展,相比傳統(tǒng)的基于GMM-HMM的語音識別系統(tǒng),其最大的改變是采用DNN替換GMM對語音的觀察概率進行建模來計算HMM狀態(tài)的后驗概率。根據文獻[3],基于DNN-HMM的聲學模型采用固定長度的輸入窗對語音的上下文特征進行建模,而語音是一種各幀之間具有很強相關性的復雜時變信號,所以這種方法不能充分利用語音的上下文時序信息。

        相比DNN,時延神經網絡(Time Delay Neural Network,TDNN)[4]同樣是一種前饋網絡架構,它對每個隱藏層的輸出都在時域進行擴展,即每個隱藏層接收到的輸入不僅是前一層在當前時刻的輸出,還有前一層在之前和之后的某些時刻的輸出。在文獻[5]中,通過選擇正確的時間步長和對隱藏層輸出進行降采樣,TDNN可以從輸入上下文中的所有時間步長提取足夠語音特征信息。因此,TDNN會參考前一層網絡的歷史輸出,可以對更長的歷史信息進行建模而不能對未來信息進行建模。Zhang等人[6-7]提出了一種更簡單的“記憶”存儲神經網絡結構,即前饋型序列記憶網絡(Feed-forward Sequential Memory Network,FSMN),已被證明在大詞匯量連續(xù)語音識別任務中具有比DNN和長短時記憶模塊(Long-Short Term Memory,LSTM)更好的性能。FSMN是在DNN隱藏層旁邊引入“記憶”模塊的多層前饋神經網絡模型。該“記憶”模塊用于臨時存儲固定大小的上下文信息作為短期記憶機制,能夠以時間序列學習長期依賴性信息。在本文中,TDNN融合FSMN的網絡結構被應用于蒙古語語音識別聲學模型。

        目前,在中國內蒙古自治區(qū)、蒙古國及周邊地區(qū)大約有600萬人將蒙古語作為第一或第二官方語言,但是蒙古語語音識別研究仍處于初始階段。高光來等[8]在2006年首次構建了蒙古語語音識別系統(tǒng),在文獻[9-10]中進一步對聲學模型進行優(yōu)化和設計。在文獻[11]中,飛龍等人提出了基于詞干的蒙古語語音關鍵詞檢測方法,并使用分割的方法在蒙古語大詞匯量連續(xù)語音識別中取得了較好的效果[12]。在文獻[13]中,張暉等人在蒙古語語音識別研究中引入了基于DNN的聲學模型,獲得了顯著的性能提升。最近,基于深度神經網絡的聲學模型廣泛應用于蒙古語語音識別中,如卷積神經網絡(Convolutional Neural Network,CNN)和長短時記憶模塊等,獲得比DNN更好的識別結果[14]。然而,與其他語言如中文和英文相比,蒙古語語音識別聲學模型仍有很大的優(yōu)化空間。

        為進一步提高蒙古語語音識別性能,本文首先將TDNN融合FSMN應用于蒙古語語音識別系統(tǒng)聲學模型,通過對長序列語音幀進行建模來充分挖掘上下文相關信息。其次,FSMN中“記憶”模塊用于存儲對判斷當前語音幀有用的歷史信息和未來信息,本文通過用“記憶”模塊中不同的歷史和未來語音幀信息長度對模型進行建模,分析其對蒙古語語音識別系統(tǒng)性能的影響。最后,研究了不同隱藏層數目和每個隱藏層節(jié)點數對融合的TDNN-FSMN模型性能的影響。

        1 基于TDNN-FSMN的蒙古語語音識別系統(tǒng)

        1.1 TDNN聲學模型

        TDNN是一種多層(通常三個以上)前饋神經網絡模型,傳統(tǒng)的前饋神經網絡每個隱藏層的輸入都是前一層網絡的輸出,而TDNN在網絡傳播的過程中對各個隱藏層的輸出也做了擴展,它將隱藏層的當前輸出與其前后若干時刻的輸出拼接在一起,作為下一個隱藏層的輸入。因此,TDNN每個隱藏層的輸入會參考前一層網絡的歷史輸出,可以對更長的歷史信息進行建模。

        傳統(tǒng)的TDNN每一個時間步長上,隱藏層的激活函數都會被計算一次。因此,在相鄰時間步長中,大量的上下文相同信息被重復計算,大大增加了神經網絡的訓練復雜度。而TDNN相鄰節(jié)點之間的變化可能很小,包含了大量的重復信息,因此可以每隔幾幀合并計算一次結果,從而加速訓練和解碼過程。在文獻[5]中,提出一種在TDNN訓練中采用降采樣技術來減小模型計算復雜度,通過選擇合適的時間步長來大幅減少運算量,同時不能使所有的歷史信息都可以被網絡學習到。圖1表示常規(guī)TDNN(實邊+虛邊)和降采樣TDNN(實邊)結構圖。傳統(tǒng)TDNN每個隱藏層的隱藏層單元(實邊+虛邊)都會被計算,而且相鄰時間步長會重復計算隱藏層單元。采用降采樣技術的TDNN在每個隱藏層只會計算一定時間間隔的隱藏層單元(實邊),不僅能夠對長時間依賴性的語音信號進行建模,而且模型復雜度較傳統(tǒng)TDNN有大幅度降低。

        1.2 FSMN聲學模型

        前饋型序列記憶網絡是一種含有多個隱藏層的前饋神經網絡。相比傳統(tǒng)的DNN結構,FSMN在其隱藏層旁邊增加了一個稱為“記憶塊”的模塊,這些“記憶塊”用于存儲語音序列中與當前幀相關的歷史關聯信息以及未來關聯信息。這些信息使得FSMN可以對語音序列中的長期相關性信息進行建模。圖2表示在隱藏層中添加兩個“記憶塊”的FSMN結構圖。

        給定序列w1=(x11,x12,…,x1N),X={x1,x2,…,xt},每個xt∈X表示時間t的輸入數據。相應的隱藏層輸出表示為H={h1,h2,…,ht}。圖2即為“記憶塊”的結構示意圖,當前語音幀ht及其前N1幀的輸出和后N2幀的輸出被計算到固定大小維度,并將其與當前隱藏層的輸出一起作為下一個隱藏層的輸入。

        圖1 TDNN結構圖

        圖2 FSMN模型

        圖3 “記憶塊”結構圖

        根據要使用的編碼方法,編碼系數a可以初始化為標量系數或向量系數。

        (1) 如果編碼系數a設置為標量,則FSMN稱為標量FSMN(簡稱sFSMN),如式(1)所示。

        (1)

        (2) 如果編碼系數a設置為向量,則FSMN稱為向量FSMN(簡稱vFSMN),如式(2)所示。

        (2)

        由于vFSMN具有更好的建模能力,因此在本文中采用了vFSMN,簡稱為FSMN。

        1.3 TDNN-FSMN聲學模型

        本文中,TDNN與FSMN相融合的神經網絡結構被應用于蒙古語語音識別系統(tǒng)的聲學模型。TDNN在網絡傳播過程中對各個隱藏層的輸出做了擴展,傳統(tǒng)前饋神經網絡每個隱藏層的輸入都是前一層網絡的輸出,TDNN則會參考前一層網絡的歷史輸出,能對更長的歷史信息進行建模,而且深層次的TDNN網絡結構可以更加有效地提取訓練數據中高層次信息的特征。雙向FSMN神經網絡結構在隱藏層旁增加了一個稱為“記憶塊”的模塊,用于存儲對判斷當前語音幀有用的歷史信息和未來信息。與循環(huán)網絡結構一樣,網絡傳播過程中可以學習到歷史信息和未來信息。不同的是,FSMN采用非循環(huán)的前饋結構,不需要像循環(huán)網絡結構那樣必須等待語音輸入結束才能對當前語音幀計算,其只需等待有限長度的未來語音幀輸入即可。本文結合TDNN與FSMN的優(yōu)點,將其融合應用于蒙古語語音識別聲學模型。

        如圖4所示,TDNN與FSMN交替融合,包含六個隱藏層。在TDNN隱藏層中,使用{-n,m}表示將當前幀的歷史第n幀、當前幀的未來第m幀和當前幀拼接在一起作為下個網絡層的輸入。假設t表示當前幀,在TDNN1(隱藏層1),將幀{t-2,t-1,t,t+1,t+2}拼接在一起作為下一個隱藏層的輸入。在TDNN2和TDNN3處,將幀{t-3,t+3}拼接在一起作為下一個隱藏層的輸入。因此,在網絡的最高層,至少可以學習到上下文相關的8幀歷史信息及8幀未來信息。

        圖4 TDNN-FSMN結構圖

        2 實驗設置

        2.1 實驗語料

        本文采用的蒙古語語音庫是由193個說話人錄制完成,其中采樣率設為16kHz,每采樣點進行16bit量化,聲道為單聲道。語音庫包含69 781句蒙古語朗讀語音數據,總時長大約有78h,每句話時長為5~10s。實驗中隨機選擇88%的語音數據作為訓練集,12%的語音數據作為測試集。發(fā)音詞典由38 107個單詞列表構成。對于語言模型,本文從蒙古語網站搜集大約8 500萬單詞的文本進行3-gram語言模型訓練。

        2.2 語音識別系統(tǒng)建立及評測

        本文基于Kaldi[15]語音識別開發(fā)平臺搭建了蒙古語語音識別系統(tǒng)。采用MFCC作為識別的特征參數。同時,對語音特征進行倒譜均值方差歸一化(Cepstrum Mean Variance Normalization,CMVN)使得帶噪語音特征參數的概率密度函數(Probability Density Function,PDF)更接近于純凈語音的概率密度函數,以減少訓練語料與測試語料環(huán)境的不匹配度。之后使用線性判別分析與最大似然線性變換結合(Linear Discriminant Analysis-Maximum Likelihood Linear Transform,LDA-MLLT)將歸一化后的上下文包含7幀(即±3)的高維特征進行區(qū)分性投影來降低特征向量維數至40維,保留具有分辨率的特征成分并使其集中在對角線上,以滿足對聲學模型在影響最小的情況下構建對角矩陣[16]。最后,使用基于特征空間最大似然線性回歸(feature space Maximum Likelihood Linear Regression,fMLLR)進行說話人自適應訓練,將fMLLR特征用于訓練DNN,TDNN,FSMN和TDNN-FSMN。

        傳統(tǒng)神經網絡進行非線性運算時通常采用Sigmoid,Tanh函數作為激活函數。然而,文獻[17]研究表明,修正線性單元(Rectified Linear Unit,ReLU)作為激活函數可以提高神經網絡的性能。在本文中,所有神經網絡的訓練都使用ReLU非線性激活函數。

        實驗中采用的評價指標為國際通用的WER計算方式,具體如式(3)所示。

        (3)

        式中,S代表替換錯誤詞數,D代表刪除錯誤詞數,I代表插入錯誤詞數,T為句子中的總詞數。WER結果越小,表示識別性能越好。

        3 實驗與分析

        3.1 不同神經網絡的比較實驗

        在DNN-HMM聲學模型訓練中,首先對GMM-HMM訓練得到的識別結果進行強制對齊,獲得上下文相關的三音素狀態(tài)作為聲學模型訓練的標簽信息,共計3 762個獨立的上下文相關狀態(tài),對應于DNN聲學模型的輸出維度。DNN的輸入為15幀固定上下文窗口(即±7),每幀提取40維MFCC特征,共計600維特征向量。實驗中DNN模型包含六個隱藏層,每個隱藏層節(jié)點數為2 048個。使用基于RBM預訓練方法逐層初始化DNN。小批量尺寸固定為256,初始和最終學習率參數分別設定為0.05和0.008。通過mini-batch隨機梯度下降算法進行迭代更新,mini-batch大小為256,學習率在最初幾次迭代中保持不變,當訓練的準確率在兩次迭代中沒有太大的變化時,將學習率減少并進行下次迭代。

        TDNN聲學模型包含六個隱藏層,每個隱藏層包含512個節(jié)點。其輸入為5幀固定上下文窗口(即±2),每幀提取40維MFCC特征,共計200維特征向量。六個隱藏層的配置為{0},{-1,1},{-1,1},{-3,3},{-3,3},{-6,3},其中{0}表示常規(guī)的非拼接隱藏層。初始和最終學習率分別設置為0.001和0.0001。

        FSMN聲學模型包含六個隱藏層,每個隱藏層為512個節(jié)點,其中前三個隱藏層包含“記憶”模塊,后三個隱藏層為常規(guī)隱藏層。實驗中同樣提取40維MFCC特征,由于FSMN的固有存儲機制,不需要連續(xù)太多的語音幀序列作為輸入,因此3幀固定上下文窗口(即±1),共計120維特征向量作為FSMN的輸入特征?!坝洃洝蹦K中包含5幀歷史信息和5幀未來信息。FSMN在訓練過程中被隨機初始化,不用任何預訓練方法。模型訓練過程中更新策略同DNN訓練參數設置保持一致。

        TDNN-FSMN包含六個隱藏層。第一個隱藏層為包含512個節(jié)點的TDNN,輸入特征為5幀固定上下文窗口(即±2),共計200維特征向量。第二、四和六隱藏層為包含512個節(jié)點的FSMN,“記憶”模塊中包含5幀歷史信息和5幀未來信息。第三和五隱藏層是TDNN,隱藏層配置信息為{-3,3},FSMN隱藏層輸出共記1 536個輸出狀態(tài)作為其輸入。

        表1顯示了在蒙古語語音數據集訓練的基于DNN,TDNN,FSMN和TDNN-FSMN聲學模型的識別結果。實驗中調節(jié)DNN模型為最優(yōu)性能,每個隱藏層包含2 048個節(jié)點,其他三種神經網絡結構隱藏層節(jié)點數設置為512。從實驗結果可以看出,TDNN-FSMN得到的識別性能明顯優(yōu)于最優(yōu)性能的基線DNN模型,WER從12.90%下降到12.00%,表明基于TDNN-FSMN的聲學模型在蒙古語語音識別中有顯著提升。

        表1 不同聲學模型對比實驗結果

        3.2 FSMN隱藏層不同結構的對比實驗

        本文對TDNN-FSMN中FSMN隱藏層“記憶”模塊中包含歷史信息和未來信息的幀數對蒙古語語音識別性能的影響進行了對比實驗。其中,TDNN-FSMN網絡結構包含六個隱藏層,每個隱藏層為512個節(jié)點。在實驗中,TDNN-FSMN_5h_5f表示“記憶”模塊中包含5幀歷史信息和5幀未來信息,TDNN-FSMN_5h_4f表示“記憶”模塊中包含5幀歷史信息和4幀未來信息。模型訓練過程中更新策略與基線實驗TDNN-FSMN訓練參數設置保持一致。

        表2 FSMN隱藏層不同結構對比實驗結果

        從表2的實驗結果可以看出,“記憶”模塊中包含5幀歷史信息和5幀未來信息,表現出的性能最優(yōu)。這是因為“記憶”模塊包含歷史信息幀和未來信息幀的數量增加,將使TDNN-FSMN在訓練過程中可以獲得更多固定長度的時間上下文關聯信息。而且,“記憶”模塊中包含相同數量幀時,包含較多數量的歷史信息幀比包含較多數量的未來信息幀表現得性能更優(yōu),表明上下文相關的歷史信息對網絡的性能更加有利。

        3.3 TDNN-FSMN不同結構的對比實驗

        在本實驗中,分別對TDNN-FSMN中包含隱藏層的個數和隱藏層的節(jié)點數進行對比實驗,其中FSMN隱藏層中“記憶”模塊包含5幀歷史信息和5幀未來信息。實驗中分別設置隱藏層個數為6、9和12,每個隱藏層分別包含256、512和1 024個節(jié)點。當隱藏層個數為6時,第2、4和5層為FSMN隱藏層;當隱藏層個數為9時,第3、6和9層為FSMN隱藏層;當隱藏層個數為12時,第4、8和12層為FSMN隱藏層。其余層均為TDNN隱藏層,其配置信息如表3所示,第一列表示隱藏層中使用到的降采樣節(jié)點配置信息,第二列表示每個隱藏層中使用第一列的信息。例如,6-1表示神經網絡包含6個隱藏層,第一個隱藏層為TDNN,降采樣使用的節(jié)點數為{-2,-1,0,1,2}。使用TDNN-FSMN-6L-256c表示包含6個隱藏層,每個隱藏層包含256個節(jié)點。

        表3 TDNN 隱藏層配置信息

        實驗結果如圖5所示,隨著隱藏層個數增加及隱藏層節(jié)點數增加,單詞錯誤率明顯降低。這是因為隨著層數和節(jié)點數的增加,將使TDNN-FSMN在訓練過程中可以獲得更多固定長度的時間上下文關聯信息。最終,TDNN融合FSMN的神經網絡結構在蒙古語語音識別聲學模型中比最優(yōu)的基線DNN模型有很大的性能提升。其中使用TDNN-FSMN-12L-1024c網絡結構得到的實驗結果最好,單詞錯誤率為10.03%,與基線DNN模型相比相對降低22.2%,表明TDNN-FSMN能有效提升蒙古語語音識別的性能。然而,TDNN-FSMN-6L-256c網絡結構識別準確率較基線DNN模型有所降低,由于參數規(guī)模降低,會使得TDNN-FSMN在訓練過程中無法學習到足夠的聲學信息進而降低了聲學模型的性能。

        4 總結

        本文首次將融合的TDNN-FSMN模型應用于蒙古語語音識別中,實驗結果表明,TDNN-FSMN可以獲得比DNN更好的性能。在不同結構FSMN隱藏層中,“記憶”模塊包含5幀歷史信息和5幀未來信息表現得性能最優(yōu),單詞錯誤率較基線DNN模型相對降低7.0%。此外,通過對TDNN-FSMN中包含隱藏層的個數和隱藏層的節(jié)點數進行對比實驗,發(fā)現隨著層數和節(jié)點數的增加,TDNN-FSMN的性能明顯提升,表明TDNN-FSMN在訓練過程中可以獲得更多固定長度的時間上下文關聯信息。最終,包含12個隱藏層且每個隱藏層包含1 024個節(jié)點得到的實驗結果最優(yōu),相比基線DNN模型,單詞錯誤率相對降低22.2%。最終蒙古語語音識別系統(tǒng)詞錯誤率達到了10.03%,表明基于TDNN-FSMN神經網絡結構能有效地提升蒙古語語音識別性能。

        猜你喜歡
        記憶實驗信息
        記一次有趣的實驗
        做個怪怪長實驗
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        記憶中的他們
        NO與NO2相互轉化實驗的改進
        實踐十號上的19項實驗
        太空探索(2016年5期)2016-07-12 15:17:55
        兒時的記憶(四)
        兒時的記憶(四)
        記憶翻新
        海外文摘(2016年4期)2016-04-15 22:28:55
        展會信息
        中外會展(2014年4期)2014-11-27 07:46:46
        色综合一本| 亚洲理论电影在线观看| 亚洲长腿丝袜中文字幕| 少妇高潮太爽了在线看| a级毛片免费观看在线播放| 日本高清色倩视频在线观看 | 双腿张开被9个黑人调教影片| 欧美在线日韩| 国产成人亚洲合色婷婷| 国产熟女盗摄一区二区警花91 | 91在线观看国产自拍| 蜜桃av噜噜一区二区三区9| 韩日午夜在线资源一区二区| 亚洲中文无码久久精品1| 国产精品高清亚洲精品| 日本一级特黄aa大片| 中文无码久久精品| 亚洲午夜福利精品久久| 99福利影院| 亚洲熟女av在线观看| 国产激情无码一区二区| 国产精品va在线播放我和闺蜜| 百合av一区二区三区| 国产精品一区二区三区成人| 最新欧美精品一区二区三区| 丰满爆乳在线播放| 天堂在线www中文| 国产精品一区二区AV不卡| 在线观看av不卡 一区二区三区| 久久久精品国产性黑人| 亚洲综合欧美在线一区在线播放 | 国产专区国产精品国产三级| 亚洲啪av永久无码精品放毛片| 毛片毛片免费看| 国产免费一区二区三区在线观看| 亚洲国产精品成人久久| 欧美极品美女| 国产三级国产精品国产专区| 少妇一级淫片中文字幕| 日本中文字幕一区二区高清在线| 国产欧美一区二区成人影院|