亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        低資源語音識別中融合多流特征的卷積神經網絡聲學建模方法

        2016-11-01 18:26:27秦楚雄張連海
        計算機應用 2016年9期
        關鍵詞:聲學語料基線

        秦楚雄 張連海

        摘要:

        針對卷積神經網絡(CNN)聲學建模參數(shù)在低資源訓練數(shù)據條件下的語音識別任務中存在訓練不充分的問題,提出一種利用多流特征提升低資源卷積神經網絡聲學模型性能的方法。首先,為了在低資源聲學建模過程中充分利用有限訓練數(shù)據中更多數(shù)量的聲學特征,先對訓練數(shù)據提取幾類不同的特征;其次,對每一類類特征分別構建卷積子網絡,形成一個并行結構,使得多特征數(shù)據在概率分布上得以規(guī)整;然后通過在并行卷積子網絡之上加入全連接層進行融合,從而得到一種新的卷積神經網絡聲學模型;最后,基于該聲學模型搭建低資源語音識別系統(tǒng)。實驗結果表明,并行卷積層子網絡可以將不同特征空間規(guī)整得更為相似,且該方法相對傳統(tǒng)多特征拼接方法和單特征CNN建模方法分別提升了3.27%和2.08%的識別率;當引入多語言訓練時,該方法依然適用,且識別率分別相對提升了573%和4.57%。

        關鍵詞:

        低資源語音識別;卷積神經網絡;特征規(guī)整;多流特征

        中圖分類號:

        TN912.34

        文獻標志碼:A

        Abstract:

        Aiming at solving the problem of insufficient training of Convolutional Neural Network (CNN) acoustic modeling parameters under the lowresource training data condition in speech recognition tasks, a method for improving CNN acoustic modeling performance in lowresource speech recognition was proposed by utilizing multistream features. Firstly, in order to make use of enough acoustic information of features from limited data to build acoustic model, multiple features of lowresource data were extracted from training data. Secondly, convolutional subnetworks were built for each type of features to form a parallel structure, and to regularize distributions of multiple features. Then, some fully connected layers were added above the parallel convolutional subnetworks to incorporate multistream features, and to form a new CNN acoustic model. Finally, a lowresource speech recognition system was built based on this acoustic model. Experimental results show that parallel convolutional subnetworks normalize different feature spaces more similar, and it gains 3.27% and 2.08% recognition accuracy improvement respectively compared with traditional multifeature splicing training approach and baseline CNN system. Furthermore, when multilingual training is introduced, the proposed method is still applicable, and the recognition accuracy is improved by 5.73% and 457% respectively.

        英文關鍵詞Key words:

        lowresource speech recognition; Convolutional Neural Network (CNN); feature normalization; multistream feature

        0引言

        隨著人們對于語音識別水平需求越來越多樣,語音識別對于聲學模型的要求越來越高。在低資源訓練數(shù)據條件下,訓練樣本數(shù)量有限,聲學模型參數(shù)訓練嚴重不足,淺層的高斯混合模型——隱馬爾可夫聲學模型(Gaussian Mixture ModelHidden Markov Model, GMMHMM)已經無法滿足建模要求。隨著深度學習(Deep Learning)技術的深入發(fā)展,人們陸續(xù)提出使用深層神經網絡(Deep Neural Network,DNN)、卷積神經網絡(Convolutional Neural Network,CNN)等模型取代傳統(tǒng)的GMM,它們可以有效地對數(shù)據進行更深層次的建模,在多種連續(xù)語音識別任務中[1-3]取得了更優(yōu)的識別效果。尤其是CNN,作為一種具有更為復雜的非線性變換能力的深層網絡結構,在近幾年來廣泛應用于語音識別中,并在連續(xù)語音識別任務中取得了顯著優(yōu)于DNN的識別率[3]。

        從模型訓練原理的角度來說,CNN的語音建模能力優(yōu)于高斯混合模型(Gaussian Mixture Model, GMM)和DNN,具體表現(xiàn)在如下幾點。

        首先,CNN具有局部感受性(locality),特征映射的每個節(jié)點是通過上一層局部頻帶的F個節(jié)點卷積計算得到的,這種方法帶來兩點優(yōu)勢:第一,利用干凈頻譜可計算出性能優(yōu)異的特征,僅有少量特征會受到噪聲成分的影響,因此模型的魯棒性得到提升;第二,局部卷積實際是對語音局部特性的一種增強,而網絡的較高層通過將每個頻帶計算值組合起來,起到了平均的作用,因此該方法綜合并且平衡了鄰近頻帶的語音信息。

        其次,CNN中的池化采樣處理減弱了語音中頻移的影響。由于不同說話人不同的聲道長度會引起語音信號的頻移,即使對于相同的說話人,也會產生較小的頻移現(xiàn)象[4]。當使用GMM或者DNN模型解決這類問題時,需要大幅增加高斯混元或者隱含層節(jié)點的數(shù)量,即使對DNN的隱含層采用池化降采樣以減少節(jié)點數(shù),全連接計算方式也很難緩解頻移問題。而在CNN中,由于相鄰位置卷積計算得到的特征值是池化為一組的,因此當輸入特征在頻率軸上有頻移時,這種差異得以最小化。

        最后,CNN中同一特征映射的權值共享性導致參數(shù)總量受限,由于低資源條件下訓練數(shù)據也是有限的,因此模型訓練的稀疏程度會得到一定程度的減弱,網絡參數(shù)訓練相對更加充分,性能也就得到了相對提升。

        雖然從模型訓練的角度分析,CNN有著比其他模型更大的優(yōu)勢,但是當受限于訓練數(shù)據量時,所得到的聲學模型依然存在嚴重的訓練不足問題。

        針對CNN在語音識別中的研究有很多,文獻[5-7]驗證了CNN在大規(guī)模連續(xù)語音識別任務中的優(yōu)越性;文獻[8]驗證了CNN在特征提取方面優(yōu)于DNN;而文獻[9]則通過大量實驗詳細地驗證了CNN聲學模型在低資源語音識別任務中優(yōu)于DNN聲學模型。CNN的局部卷積處理和池化采樣處理不僅可以從有限的特征中提取更為細致的分類信息,還可以有效去除一些干擾信息,這些對訓練數(shù)據有限的低資源聲學模型訓練過程尤為重要。

        在有限的訓練條件下,充分利用更多的特征進行建模是一種有效的方法,傳統(tǒng)的融合多特征的訓練方法是直接對多種特征進行拼接構成超矢量訓練數(shù)據,該方法適用于DNN模型,并不適用于CNN模型,因為當卷積核跨越特征拼接交界處時,計算所得結果毫無意義。

        為了在低資源條件下充分利用更多特征進行CNN聲學建模,本文提出一種可行的融合多特征的訓練方法。該方法充分利用不同表達形式的特征,通過并行子網絡對多流特征進行獨立的處理,最后使用全連接層對子網絡進行融合。通過多特征流數(shù)據對網絡的并行訓練,得到一種適合于低資源語音識別的CNN聲學模型。實驗結果表明,并行的卷積層能夠將分布差異較大的不同特征空間規(guī)整到分布更為相近的特征空間,以利于后續(xù)處理,從而增加了聲學模型的有效訓練數(shù)據,該方法在未明顯增加訓練參數(shù)的情況下,識別率不但優(yōu)于單特征識別系統(tǒng)的識別率,還優(yōu)于傳統(tǒng)的多特征拼接建模方法;其次,對每個子網絡均使用高資源語料進行共享式的輔助訓練時,系統(tǒng)的識別率得到進一步提升,驗證了模型的泛化性。

        1融合多流特征的CNN聲學模型

        CNN是標準神經網絡的一種變體網絡結構,不同于傳統(tǒng)神經網絡全連接層的結構,卷積神經網絡包含了卷積(convolution)處理和池化(pooling)處理。

        使用CNN對語音進行建模時,需要將輸入聲學特征組織成特征映射的形式,特征映射既可以是一維的也可以是二維的。根據文獻[9],通過提取特征的靜態(tài)、一階差分和二階差分三個分量形成初始的輸入特征映射。

        根據文獻[5,9],頻移不變性比時移不變性更為重要,因此本文采用沿頻率軸的一維卷積形式建立CNN卷積層,通過卷積核在特征映射上的移動實現(xiàn)對語音特征的卷積計算。如圖1所示,一個典型的CNN的卷積層通常包含卷積和池化采樣過程。

        在訓練數(shù)據有限的條件下,使用單一特征不足以訓練得到良好的網絡參數(shù),進而無法估計出較為準確的后驗概率。對此本文提出使用多種特征訓練CNN。由于不同語音聲學特征的提取原理、算法不盡相同,通過卷積計算等深度處理,能夠從多角度獲取不同表達形式的同類語音信息,即獲取到具有互補性表達形式的同類聲學信息,因此有利于聲學建模。

        1.1特征選擇與模型建立

        當前最經典、使用最廣泛的多特征訓練方法是將多類特征進行拼接,應用倒譜均值方差規(guī)整(Cepstral Mean and Variance Normalization, CMVN)技術對拼接特征預處理,然后對網絡進行訓練。該方法對于全連接層的DNN較為有效,然而當使用CNN建模時,卷積核跨越特征拼接交界計算所得結果毫無意義,因此常規(guī)的多特征訓練方法不適用。為了更為有效地利用多特征信息進行CNN聲學建模,提出一種基于并行式多特征訓練的網絡結構(如圖2)。首先使用多流特征進行獨立的、并行式的子網絡訓練,子網絡由卷積層構成,它們分別對不同特征進行深度處理,實現(xiàn)特征值規(guī)整;然后使用全連接層將多流子網絡的輸出匯聚在一起,使用三音子綁定狀態(tài)作為訓練目標,構成一個完整的聲學模型。

        在特征選擇時,考慮到底層聲學特征之間的互補性與相似性,為了使訓練更具有實際意義,本文使用四種特征。具體來說,針對40維濾波器組(filter banks, fbanks)特征、257維功率譜(spectrogram)特征、13維梅爾頻率倒譜系數(shù)(MelFrequency Cepstral Coefficient, MFCC)特征和3維的基音周期(pitch)特征制定不同的CNN多訓練方案。這些特征有的基于頻帶濾波計算,有的基于能量計算,還有的基于離散余弦變換(Discrete Cosine Transformation, DCT),表達形式較為不同,涵蓋長時信息與短時信息,特征空間差異較大。

        在特征輸入網絡前進行預處理時,首先對于維數(shù)較小的fbanks、MFCC、pitch等特征提取一階、二階差分分量并進行前后5幀的拼接,這樣輸入時的特征映射數(shù)量均為33個;對于維數(shù)較大的spectrogram特征,提取一階、二階差分分量,并只進行前后1幀的拼接,這樣該特征進行卷積時的輸入特征映射數(shù)量為9個。總之,對于維數(shù)小的特征,單幀的細節(jié)信息較少,幀間的局部相關性較大,拼接幀數(shù)也就設置大一些;對于維數(shù)大的特征,單幀細節(jié)信息豐富,卷積時幀間的局部相關性較小,因此將拼接幀數(shù)設置小一些。

        在模型構建時,對于并行網絡部分,將fbanks、MFCC、pitch等部分的子網絡均設置為 “卷積層池化采樣層卷積層”結構;對于spectrogram特征的子卷積網絡,由于spectrogram特征維數(shù)很大,因此當卷積映射的節(jié)點太多時,其輸出向量存在冗余,導致參數(shù)過多不利于訓練,因此對高維特征的子網絡部分再添加一個池化層進行降采樣處理,這樣一來,spectrogram特征子網絡結構為“卷積層池化采樣層卷積層池化采樣層”。

        1.2模型參數(shù)訓練

        為使CNN的訓練過程更容易描述,將1×F卷積核用F個權值表示。這樣每一層卷積計算可以用矩陣相乘形式表示,設第k流特征的第l個卷積層的權值描述矩陣為Wk,l,該矩陣由所有局部卷積權值矩陣構成,矩陣包含I×F行、J列,其中:F是一維卷積核所涵蓋節(jié)點數(shù)(構成一個頻帶);I是每個頻帶內對應輸入特征映射的數(shù)量;J為卷積計算得到下一層的特征映射的數(shù)量。整體權值矩陣如式(1)所示。

        1.3系統(tǒng)搭建方法

        為了驗證所提出模型的推廣性,本文不僅考慮單語言訓練的情況,還借助文獻[10]的思想,考慮多語言條件下(目標低資源+高資源輔助語言)中間層共享訓練的方案。融合多流特征的CNN聲學建模方法主要由以下幾個步驟構成:

        步驟1構建子網絡。

        對每類特征(只考慮特征種類,不考慮語言)建立相應的子網絡, fbanks、MFCC、pitch等部分的子網絡均設置為 “卷積層池化采樣層卷積層”結構;spectrogram特征子網絡結構為“卷積層池化采樣層卷積層池化采樣層”。

        步驟2構建完整的網絡。

        在并行子網絡之上串接兩個全連接層,然后按如下方法設置輸出層:

        1)對于低資源單語言的情況,利用MFCC特征訓練GMM,通過強制對齊(forcealignment),使用其中的三音子綁定狀態(tài)(senones)作為CNN的訓練目標;

        2)對于多語言的情況,對低資源語料和輔助訓練語料分別使用MFCC特征訓練隱馬爾可夫模型(Hidden Markov Model, GMM),通過強制對齊得到CNN的多輸出層。

        步驟3模型參數(shù)訓練。

        按照1.1節(jié)的特征選擇方案對每類特征進行預處理,組織成特征映射的形式,準備訓練。

        1)低資源單語言訓練時,對目標訓練集的每一幀語音提取所需的四種特征,將四種特征同時送入子網絡,按照1.2節(jié)所描述的方法進行參數(shù)訓練,各自的特征訓練對應的子網絡,全連接層則是共同訓練。

        2)多語言訓練時,對每種參與訓練的語言的每一幀提取所需的四種特征,每種特征的子網絡接受來自所有參與訓練的語言的數(shù)據。使用多語言特征共同訓練中間層參數(shù),方法同文獻[10-11],在此不作贅述。其中多語言同類特征獨立訓練對應的子網絡,每種語言特征訓練對應的輸出層參數(shù)。

        步驟4測試識別系統(tǒng)。

        通過訓練HMM,得到基于多特征訓練的CNN聲學模型,然后搭建識別系統(tǒng),使用低資源測試數(shù)據完成識別性能測試。

        2不同特征空間的相似性度量

        之所以對不同特征采用不同子網絡并行處理,而不是直接將所有特征拼接在一起,是因為不同聲學特征的分布差異大,總體分布不規(guī)則。由于不同類別的特征其維度不同,無法按傳統(tǒng)的歐氏距離進行直接比較。但是在網絡參數(shù)的訓練中,如果特征間的均值、方差相差較大,則訓練樣本之間的幅值相差較大,進而造成訓練時的誤差信號波動較大,不利于基于梯度下降的收斂;反之,若特征間的均值、方差越接近,則訓練效果越好。因此,本文定義向量間的平均維度間距作為衡量不同特征空間相似度的評價指標,該指標的計算類似于歐氏距離的計算。dμ(i, j)為平均維度間均值距離,它表示第i類和第j類輸入聲學特征均值矢量的差異。對于維度為1×Ni的第i類特征, fik(k=1,2,…,N1)表示該類特征第k維數(shù)據的均值,這樣第i類聲學特征中各維特征均值的向量fi=(fi1, fi2,…, fiNi);dσ2(i, j)為平均維度間方差距離,表示第i類和第j類輸入聲學特征方差矢量的差異,設vi表示第i類聲學特征各維度方差的向量,這樣vi=(vi1,vi2,…,viNi)。它們的計算如式(9)所示:

        由于一維卷積計算針對語音頻帶的局部信息進行處理,因此在網絡底層設置合適的卷積核可以將原本在分布上相差很大的多種特征映射規(guī)整到更為相似的特征空間內。使用Fi表示第一類特征在子網絡中前向傳遞后的激活元輸出的均值向量,同理有Fi=(Fi1,F(xiàn)i2,…,F(xiàn)iMi);用Dμ(i, j)表示第i類和第j類子網絡激活元輸出特征平均維度間均值距離;使用Vi表示第一類特征在子網絡中前向傳遞后的激活元輸出的均值向量, Vi=(Vi1,Vi2,…,ViMi),用Dσ2(i, j)表示第i類和第j類子網絡激活元輸出特征平均維度間方差距離。它們計算方法如式(10)所示:

        正是由于不同流特征所包含元素的幅值得到了相似性的規(guī)整,因此多特征訓練效果才優(yōu)于單特征訓練效果,本文在實驗部分也驗證了這一點。

        經過子網絡規(guī)整后的特征進入全連接層進行融合訓練時,CNN高層網絡部分的參數(shù)可接受更多有效訓練數(shù)據的訓練,因此所得聲學模型的性能優(yōu)于單特征訓練時的情況。訓練時,當誤差信號傳遞至并行網絡部分時,對應的誤差信號傳遞至對應的子網絡進行相互獨立的訓練,即子網絡的參數(shù)更新只與對應特征計算得到的梯度相關,串行的全連接層部分則由所有特征共同參與訓練。

        3實驗與分析

        3.1實驗語料與評價指標

        實驗采用Vystadial 2013 English data和Vystadial 2013 Czech data兩種語料。Vystadial 2013 English data(Vystadial_en)是一類開源的英語語料庫[12],全部時長41h,來源于人工信息服務系統(tǒng)的對話語音數(shù)據;Vystadial 2013 Czech data(Vystadial_cz)是開源的捷克語語料庫[13],全部時長15h,來源于:Call Friend電話服務的語音數(shù)據、Repeat After Me的語音數(shù)據和Public Transport Info的口語對話系統(tǒng)的語音數(shù)據。

        實驗評價指標有三個。

        第一個是識別性能指標,使用連續(xù)語音識別中的詞錯誤率(Word Error Rate,WER)來表示。設N為語料庫人工標注文本中詞(全部正確詞)的數(shù)量,W為解碼連續(xù)語音與人工標注作對比統(tǒng)計出的插入詞、刪除詞、替代詞的個數(shù),r表示WER,將r定義為兩者的比值,并化為百分率,如式(12)所示:

        分兩部分計算參數(shù)數(shù)量P:一部分為卷積層的參數(shù),一部分為全連接層和Softmax層參數(shù)。對于第一部分的權值與偏移量的計算,式中ci為該層一維卷積核所包含的節(jié)點數(shù),Ni表示該層特征映射的個數(shù);第二部分較為簡單,只需根據層間節(jié)點數(shù)即可計算得到全連接層參數(shù)數(shù)量。

        第三個評價指標為多特征間的平均特征維度差異,使用2.1節(jié)中定義的平均維度間均值距離和平均維度間方差距離兩個指標來衡量。

        3.2實驗工具與硬件條件

        實驗使用Kaldi工具包[14]進行數(shù)據準備、底層聲學特征和高層聲學特征的提取、語言模型的聲學模型的訓練與解碼。聲學模型訓練、解碼矩陣分解的過程基于12核3.07GHz Xeon CPU實現(xiàn),神經網絡的訓練則基于單核Quadro 600 GPU進行計算。

        3.3基線系統(tǒng)

        首先設定低資源語料環(huán)境,選取Vystadial_cz中的1h訓練語料作為訓練集,總共1504句話;再選取Vystadial_cz語料庫測試語音部分的30min左右的數(shù)據作為測試集,包含666句話,共3910個待識別詞。基于Vystadial_cz語料庫中全部訓練語料的標注文本構建發(fā)音字典并訓練二元語言模型(Bigram Language Model);輔助訓練語料為全部Vystadial_en訓練語料的一半(約19.7h)。

        為得到基線低資源單特征訓練的DNN與CNN聲學模型,首先訓練GMM聲學模型以獲取網絡訓練目標,對1h 的Vystadial_cz語料數(shù)據提取13維MFCC特征,訓練基于線性判別分析(Linear Discriminant Analysis, LDA)和最大似然線性變換(Maximum Likelihood Linear Transform, MLLT)的三音子GMM聲學模型(13維MFCC特征進行9幀拼接,LDA降到40維),該模型高斯混元數(shù)為19200個;然后利用特征空間最大似然線性回歸(featurespace Maximum Likelihood Linear Regression, fMLLR)技術進行說話人自適應訓練(Speaker Adaptive Training,SAT),從而構成LDA+MLLT+SAT的GMM聲學模型。通過對該模型強制對齊的方式,得到DNN和CNN的訓練目標。這樣,它們的Softmax層均含有915個節(jié)點。

        訓練基線DNN,將fbanks特征進行左右五幀的拼接,因此輸入層有440個節(jié)點,設置4個隱含層,每個隱含層節(jié)點均為1024個。訓練集和交叉驗證(crossvalidation)集各占訓練數(shù)據的90%和10%。對每個隱含層(包含BN層)進行20輪的受限玻爾茲曼機(Restricted Boltzmann Machine, RBM)預訓練,然后利用BP算法進行全局參數(shù)的微調,在訓練過程中,學習速率設置初始值為0.08,每當相鄰兩輪訓練的驗證誤差小于0.1%時就將學習速率衰減一半,當衰減之后相鄰兩輪的驗證誤差再次小于0.1%時訓練停止。此外minibatch尺寸設為256。

        訓練基線CNN,首先提取fbanks特征的一階、二階差分量,然后進行5幀的拼接,這樣輸入的特征映射節(jié)點共有1320個。網絡同樣設置4個中間計算層,其中包含底層的兩個卷積層和高層的兩個全連接層。全連接層的節(jié)點數(shù)為1024;對于第一個卷積層,設置卷積核尺寸為1×8,沿頻帶的卷積移動步長為1,設置卷積特征映射的數(shù)量為128(即卷積所得特征映射數(shù)量);對于第二個卷積層,設置卷積核尺寸為1×4,沿頻帶的卷積移動步長為1,設置卷積特征映射的數(shù)量為256。在第一個卷積層和第二個卷積層之間設置一個池化采樣層,池化采樣尺寸為3,移動步長也為3,這樣節(jié)點數(shù)降采樣為原節(jié)點數(shù)的三分之一。學習速率和minibatch設置同DNN基線系統(tǒng),網絡不進行預訓練。

        此外,訓練基于傳統(tǒng)多特征拼接方法的神經網絡作為對比的多特征基線系統(tǒng)。根據1.2節(jié)的分析,CNN不適用于多特征拼接的訓練方法,因此將該方法應用于DNN。為得到最優(yōu)結果,使用fbanks、spectrogram、MFCC、pitch等四種特征進行多特征拼接,實驗表明當fbanks、MFCC、pitch特征進行11幀拼接,spectrogram特征進行3幀拼接時可得最優(yōu)結果。拼接后對特征超矢量作CMVN,DNN訓練設置與基線DNN相同。

        表1前三行為基線系統(tǒng)實驗結果,可知在輸入相同、網絡結構相似的情況下,基于CNN聲學模型識別系統(tǒng)的詞錯誤率相對DNN聲學模型識別系統(tǒng)的詞錯誤率降低了272%(6276%→6105%),且參數(shù)數(shù)量降低約2169%(544×106→426×106);而傳統(tǒng)的多特征拼接訓練方法使得DNN識別系統(tǒng)詞錯誤率相對降低155%(6276%→6180%),但是參數(shù)規(guī)模增大很多。

        3.4基于多流特征訓練的實驗結果

        在多流特征訓練聲學模型的實驗中,根據1.2節(jié)圖2所描述的CNN網絡結構,引入3維pitch、13維MFCC以及257維spectrogram特征,訓練聲學模型搭建識別系統(tǒng)。設計五個實驗方案,每種實驗方案均在基線系統(tǒng)網絡的基礎上加入并行子網絡。

        方案一引入3維pitch特征與13維MFCC特征(11幀拼接,計算一階、二階差分量,下同),加入一個并行的全連接子網絡(與卷積子網絡作對比),包含兩層,節(jié)點數(shù)均為200,其余參數(shù)設置與基線CNN相同。

        方案二引入13維MFCC特征構建并行卷積層,結構為“卷積池化采樣卷積”,設置第一層和第二層的卷積核分別為1×5和1×2,卷積特征映射數(shù)量分別為64和128,卷積移動步長均為1,采樣尺寸為3,采樣移動步長為3,其余參數(shù)設置與基線CNN相同。

        方案三引入13維MFCC特征與3維pitch特征,將兩類特征視為同一流特征,構建共同的卷積層,訓練參數(shù)設置與方案二相同。

        方案四引入257維spectrogram特征(實驗表明該特征維數(shù)過大,當拼接幀數(shù)多時性能反而會降低,因此只進行3幀的拼接,計算一階、二階差分量),同樣對該特征設置兩個并行卷積層和一個采樣層,第一層和第二層的卷積核分別為1×9和1×3,卷積特征映射數(shù)量分別為8和16,卷積移動步長均為1,采樣尺寸為3,采樣移動步長為3,其余參數(shù)設置與基線CNN相同。

        方案五引入257維spectrogram特征、13維MFCC特征和3維pitch特征加號改成“和”?不知道后兩者是表示一組么還是?---作者表示無誤,對基線系統(tǒng)網絡添加兩個并行的卷積子網絡,其中spectrogram特征對應的子網絡與方案四相同,而13維MFCC+3維pitch特征對應的子網絡與方案三相同,其余參數(shù)設置與基線CNN相同。

        方案一到方案五的實驗結果如表1所示。比較方案一和方案三可知,全連接層對特征的規(guī)整變換效果不如卷積層;比較方案二、三、四、五,可知隨著特征流的增多,聲學模型性能越來越好,并且網絡的訓練參數(shù)并沒有顯著增多。當引入四種特征對CNN聲學模型進行改進時(即方案五)識別率最優(yōu),對比基線CNN系統(tǒng),以增加1972%(426×106→510×106)參數(shù)數(shù)量為代價換取了詞錯誤率208%(6105%→5978%)的相對降低,而且由于在低資源數(shù)據條件下進行訓練,因此CNN訓練時間并未明顯增加。對比基線多特征拼接DNN,不但識別詞錯誤率降低327%(6180%→5978%),而且還減少了2044%(641×106→510×106)的參數(shù)數(shù)量。

        再根據平均特征維度均值、方差距離的計算方法,對比各特征間的差異性,結果如表2。對比表中卷積前后的結果,發(fā)現(xiàn)卷積子網絡(CONV)有效降低了不同維度特征之間的均值、方差差異性,尤其每一維特征方差間差異得到極大降低。而特征元素幅值的差異性越小,特征分布越相似,因此該方法能有效起到規(guī)整特征空間的作用。對于低資源語音識別而言,該方法等效于增加有效訓練樣本,低資源聲學模型的訓練效果必然會得到提升。綜上所述,使用多特征構建并行子網絡的方法有利于提升低資源下CNN聲學模型訓練效果。

        3.5引入多語言訓練時多特征CNN模型的擴展實驗

        在該部分實驗中,引入高資源訓練語料進行多語言共享訓練,驗證該多特征訓練CNN模型對多語言訓練的擴展性。

        設計兩種實驗方案,方案六在基線CNN的基礎上引入約19.7h的英語輔助語料,網絡的中間層參數(shù)共享,且擁有兩個輸出層;方案七在方案五的基礎上引入同樣的英語輔助語料,

        不同語料的相同種特征混合在一起,送入同一個子網絡進行共享訓練。對于高資源英語語料部分的網絡的構造,首先對該部分訓練數(shù)據訓練基于LDA+MLLT+SAT的英語GMM聲學模型,然后通過模型強制對齊得到輸出層的訓練目標,這樣英語部分的CNN輸出層節(jié)點數(shù)為1031個。

        對比基線CNN與方案六,可以證明使用單特征時多語言訓練對CNN的有效性;對比方案五和方案七,說明基于多特征訓練結構的CNN在引入多語言訓練后得到了更大的識別性能增益。這些實驗都說明本文所提出的基于多特征的CNN聲學模型對于單語言、多語言訓練數(shù)據都適用,具有一定的泛化能力。此外,對比實驗方案五和方案六,發(fā)現(xiàn)多特征訓練與多語言訓練的結果相差無幾,更加說明子網絡對不同特征進行規(guī)整等效于增加了有效的訓練數(shù)據。

        綜上所述,方案七得到了最好的識別率,它的詞錯誤率相對基線DNN系統(tǒng)降低了717%(6276%→5826%),體現(xiàn)了CNN建模相對DNN建模的模型優(yōu)越性;將詞錯誤率相對基線CNN系統(tǒng)降低了457%(6105%→5826%),體現(xiàn)了多特征訓練相對于單特征訓練的優(yōu)越性;同時相對基線多特征拼接DNN系統(tǒng)的識別詞錯誤率和參數(shù)規(guī)模分別降低了573%(6180%→5826%)和390%(641×106→616×106),體現(xiàn)出本文多特征訓練方法相對于傳統(tǒng)特征拼接方法的優(yōu)越性。

        4結語

        本文針對低資源條件下的CNN聲學模型進行改進,從網絡結構入手,提出了一種可行的融合多流特征的訓練方法。為了充分利用低資源訓練數(shù)據的多種特征表達,在底層構建并行卷積子網絡,然后通過全連接的方式進行多特征流的融合,得到一種適用于CNN的多特征網絡結構。實驗表明,并行的子網絡對不同特征起到了特征空間規(guī)整的作用,該方法相對所有單特征基線系統(tǒng)的識別率實現(xiàn)了有效的提升,相對于傳統(tǒng)的多特征拼接融合訓練方法,不但有效提升了識別率,還降低了參數(shù)規(guī)模。實驗還表明,該方法對多語言共享訓練方式同樣適用,驗證了該模型具有一定的擴展性。

        參考文獻:

        [1]

        HINTON G, LI D, DONG Y, et al. Deep neural networks for acoustic modeling in speech recognition: the shared views of four research groups [J]. IEEE Signal Processing Magazine, 2012, 29(6): 82-97.

        [2]

        DAHL G E, YU D, DENG L, et al. Contextdependent pretrained deep neural networks for large vocabulary speech recognition [J]. IEEE Transactions on Audio, Speech and Language Processing, 2012, 20(1): 30-42

        [3]

        ABDELHAMID O, MOHAMED AR, JIANG H, et al. Applying convolutional neural networks concepts to hybrid NNHMM model for speech recognition [C]// ICASSP 2012: Proceedings of the 2012 IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway, NJ: IEEE, 2012: 4277-4280.

        [4]

        ABDELHAMID O, MOHAMED AR, JIANG H, et al. Convolutional neural networks for speech recognition [J]. IEEE Transactions on Audio, Speech, and Language Processing, 2014, 22(10): 1533-1545.

        [5]

        ABDELHAMID O, LI DENG, YU D. Exploring convolutional neural network structures and optimization techniques for speech recognition [C]// INTERSPEECH 2013: Proceedings of the International Speech Communication Association Annual Conference. Lyon, France: International Speech Communication Association, 2013: 3366-3370.

        ABDELHAMID O, DENG L, YU D. Exploring convolutional neural network structures and optimization techniques for speech recognition [EB/OL]. [20160105]. https://www.researchgate.net/publication/264859599_Exploring_Convolutional_Neural_Network_Structures_and_Optimization_Techniques_for_Speech_Recognition.

        [6]

        SAINATH T N, MOHAMED AR, KINGSBURY B, et al. Deep convolutional neural networks for LVCSR [C]// ICASSP 2013: Proceedings of the 2013 IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway, NJ: IEEE, 2013: 8614-8618.

        [7]

        SAINATH T N, MOHAMED AR, KINGSBURY B, et al. Improvements to deep convolutional neural networks for LVCSR [C]// ASRU 2013: Proceedings of the 2013 IEEE Workshop on Automatic Speech Recognition and Understanding. Piscataway, NJ: IEEE, 2013: 315-320.

        [8]

        MIAO Y J, METZE F. Improving languageuniversal feature extraction with deep maxout and convolutional neural networks [C]// INTERSPEECH 2014: Proceedings of the 2014 International Speech Communication Association Annual Conference. Singapore: International Speech Communication Association, 2013: 800-804.

        MIAO Y J, METZE F. Improving languageuniversal feature extraction with deep maxout and convolutional neural networks [EB/OL]. [20151122]. http://isl.anthropomatik.kit.edu/cmu-kit/downloads/Improving_Language-Universal_Feature_Extractions_with_Deep_Maxout_and_Convolutional_Neural_Networks.pdf.

        [9]

        CHAN W, LANE I. Deep convolutional neural networks for acoustic modeling in low resource languages [C]// ICASSP 2015: Proceedings of the 2015 IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway, NJ: IEEE, 2015: 2056-2060.

        [10]

        HUANG J T, LI J Y, YU D, et al. Cross language knowledge transfer using multilingual deep neural network with shared hidden layers [C]// ICASSP 2013: Proceedings of the 2013 IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway, NJ: IEEE, 2013: 7304-7308.

        [11]

        MIAO Y J, METZE F. Improving lowresource CDDNNHMM using dropout and multilingual DNN training [C]// INTERSPEECH 2013: Proceedings of the International Speech Communication Association Annual Conference. Lyon, France: International Speech Communication Association, 2013: 2237-2241.

        MIAO Y, METZE F. Improving lowresource CDDNNHMM using dropout and multilingual DNN training [EB/OL]. [20151122]. http://www.iscaspeech.org/archive/archive_papers/interspeech_2013/i13_2237.pdf.

        [12]

        KORVAS M, PLTEK O, DUEK O, et al. Vystadial 2013—English data [EB/OL]. [20151012]. https://lindat.mff.cuni.cz/repository/xmlui/handle/11858/00097C0000002346714.

        [13]

        KORVAS M, PLTEK O, DUEK O, et al. Vystadial 2013—Czech data [EB/OL]. [20151112]. https://lindat.mff.cuni.cz/repository/xmlui/handle/11858/00097C0000002346706?localeattribute=cs.

        [14]

        POVEY D, GHOSHAL A, BOULIANNE G, et al. The Kaldi speech recognition toolkit [C]// ASRU 2013: Proceedings of the IEEE Workshop on Automatic Speech Recognition and Understanding. Piscataway, NJ: IEEE, 2011: 1-4.

        POVEY D, GHOSHAL A, BOULIANNE G, et al. The Kaldi speech recognition toolkit [EB/OL]. [20151112]. https://www.researchgate.net/publication/228828379_The_Kaldi_speech_recognition_toolkit.

        猜你喜歡
        聲學語料基線
        適用于MAUV的變基線定位系統(tǒng)
        高技術通訊(2021年3期)2021-06-09 06:57:46
        航天技術與甚長基線陣的結合探索
        科學(2020年5期)2020-11-26 08:19:14
        愛的就是這股Hi-Fi味 Davis Acoustics(戴維斯聲學)Balthus 70
        Acoustical Treatment Primer:Diffusion談談聲學處理中的“擴散”
        Acoustical Treatment Primer:Absorption談談聲學處理中的“吸聲”(二)
        Acoustical Treatment Primer:Absorption 談談聲學處理中的“吸聲”
        基于語料調查的“連……都(也)……”出現(xiàn)的語義背景分析
        一種改進的干涉儀測向基線設計方法
        華語電影作為真實語料在翻譯教學中的應用
        《苗防備覽》中的湘西語料
        亚洲av有码在线天堂| 亚洲天堂成人av影院| 免费在线亚洲视频观看| 亚洲一区精品无码| 熟妇的荡欲色综合亚洲| 久久无码高潮喷水免费看| 456亚洲人成在线播放网站| 亚洲天堂免费av在线观看| 亚洲专区一区二区三区四区五区| av免费观看网站大全| 欧美精品无码一区二区三区| 亚洲日韩精品一区二区三区无码| 免费a级毛片无码| 日韩AV无码免费二三区| 久久99久久99精品免观看女同| 中文字幕无码免费久久| 五月激情在线观看视频| 无码伊人66久久大杳蕉网站谷歌| 狼人青草久久网伊人| 亚洲成人中文| 久久99中文字幕久久| 高清国产亚洲精品自在久久| 麻豆网神马久久人鬼片| 天天干成人网| 国产一区二区丰满熟女人妻| 日韩精品极品视频在线免费| 精品久久一区二区三区av制服| 偷看农村妇女牲交| 免费人成再在线观看网站| 国产黄片一区视频在线观看 | 亚洲中文乱码在线视频| 国产午夜视频在线观看.| 国产片精品av在线观看夜色| 国产精品免费大片| 麻豆AⅤ无码不卡| 国产成人精品三上悠亚久久| 精品人妻夜夜爽一区二区| 久久精品熟女亚洲av香蕉| 亚洲国产精品成人精品无码区在线 | 国产精品一区二区久久蜜桃| 国产亚洲一区二区在线观看|