亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        端到端的深度卷積神經(jīng)網(wǎng)絡(luò)語(yǔ)音識(shí)別

        2020-04-19 07:24:12劉娟宏黃鶴宇
        關(guān)鍵詞:結(jié)構(gòu)模型

        劉娟宏 胡 彧 黃鶴宇

        (太原理工大學(xué)物理與光電工程學(xué)院 山西 晉中 030600)

        0 引 言

        隨著深度學(xué)習(xí)(Deep Learning,DL)的發(fā)展,淺層的隱馬爾科夫-高斯混合模型(Hidden Markov Model-Gaussian Mixture Model,HMM-GMM)無(wú)法很好地處理海量的語(yǔ)音數(shù)據(jù),性能受到顯著影響,識(shí)別精度已經(jīng)不能滿足人們的要求[1]。深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks,DNN)[2]和HMM結(jié)合形成DNN-HMM,能夠進(jìn)一步加強(qiáng)語(yǔ)音幀與幀之間的聯(lián)系,在識(shí)別過(guò)程中取得不錯(cuò)的效果。但是DNN受限于網(wǎng)絡(luò)層數(shù),過(guò)多的網(wǎng)絡(luò)層數(shù)反而會(huì)降低識(shí)別效果。2014年,IBM的沃森研究中心Sainath通過(guò)實(shí)驗(yàn)證明,CNN相比于DNN具有更強(qiáng)的適應(yīng)能力。

        CNN具有數(shù)據(jù)平移不變性,能夠使網(wǎng)絡(luò)復(fù)雜程度降低,更便于訓(xùn)練。CNN被應(yīng)用于不同的語(yǔ)音識(shí)別任務(wù)之中。例如,Cai等[3]引入maxout激活函數(shù);梁玉龍等[4]提出將maxout和dropout算法應(yīng)用在CNN中,均取得不錯(cuò)的識(shí)別效果。CNN結(jié)構(gòu)的改進(jìn)和優(yōu)化也受到研究人員的關(guān)注[5-6]。

        隨著深度卷積神經(jīng)網(wǎng)絡(luò)(Deep Convolution Neural Network,DCNN)的發(fā)展,殘差網(wǎng)絡(luò)(ResNet)得以提出并在圖像處理領(lǐng)域獲得巨大成功[7-8]。殘差網(wǎng)絡(luò)結(jié)構(gòu)可以避免網(wǎng)絡(luò)層數(shù)加深導(dǎo)致的梯度爆炸現(xiàn)象。但是在語(yǔ)音識(shí)別領(lǐng)域,對(duì)殘差網(wǎng)絡(luò)的研究并不多見(jiàn)。Graves等[9]提出CTC結(jié)構(gòu),并將其與神經(jīng)網(wǎng)絡(luò)相結(jié)合。目前,CTC更多的被應(yīng)用在RNN以及LSTM[10-12]網(wǎng)絡(luò)中。但是RNN的計(jì)算代價(jià)比較高,會(huì)出現(xiàn)難以訓(xùn)練的情況。

        因此,本文將CTC應(yīng)用在卷積神經(jīng)網(wǎng)絡(luò)中,構(gòu)建端到端卷積神經(jīng)網(wǎng)絡(luò)(CTC-CNN)模型。此外,引入殘差塊結(jié)構(gòu),進(jìn)一步構(gòu)建一種新的端到端深度卷積神經(jīng)網(wǎng)絡(luò)(CTC-DCNN)模型。通過(guò)maxout函數(shù)對(duì)該模型進(jìn)行優(yōu)化,進(jìn)一步提高CTC-DCNN模型在語(yǔ)音中的識(shí)別準(zhǔn)確率。在TIMIT和Thchs-30數(shù)據(jù)庫(kù)下,驗(yàn)證得到本文提出的CTC-DCNN模型能夠獲得更低的詞錯(cuò)率。

        1 端到端卷積神經(jīng)網(wǎng)絡(luò)模型

        1.1 卷積神經(jīng)網(wǎng)絡(luò)模型

        CNN是第一個(gè)真正的多層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)的算法。它由輸入層、卷積層、池化層、全連接層以及輸出層構(gòu)成[13-14]。

        CNN卷積層具有權(quán)值共享、局部連接的特性。假設(shè)使用Wa(i)c(j)代表輸入第a個(gè)特征面上的第i個(gè)神經(jīng)元,輸出第c個(gè)特征面上的第j個(gè)神經(jīng)元之間的連接權(quán)值,則有:

        Wa(i)c(j)=Wa(i+1)c(j+1)=Wa(i+2)c(j+2)

        (1)

        CNN中,每一卷積層的輸出特征面唯一對(duì)應(yīng)池化層的一個(gè)輸出特征面。常用的激活函數(shù)為Sigmoid函數(shù)。通過(guò)池化操作,進(jìn)一步提取語(yǔ)音特征。常用的池化方法有均值池化和最大池化。經(jīng)過(guò)卷積池化,得到的特征進(jìn)入全連接層。全連接層內(nèi)的每一個(gè)神經(jīng)元都與之前層每一個(gè)神經(jīng)元相連,全連接層可以接收到之前層所有的局部信息。

        CNN的優(yōu)勢(shì)之一在于能夠通過(guò)權(quán)值共享有效減少模型的復(fù)雜程度,使得模型更容易被訓(xùn)練。

        1.2 端到端卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

        1.2.1鏈接時(shí)序分類技術(shù)

        在語(yǔ)音識(shí)別過(guò)程中,語(yǔ)音在訓(xùn)練時(shí)產(chǎn)生一個(gè)訓(xùn)練的真實(shí)值,與語(yǔ)音模型中的預(yù)測(cè)值比對(duì)。輸出層中損失函數(shù)(Loss function)就是用來(lái)估計(jì)預(yù)測(cè)值和真實(shí)值之間的不一致的程度。損失函數(shù)代表著所建立模型的魯棒性能,損失函數(shù)越小,模型的魯棒性能越好。

        CTC引入了空節(jié)點(diǎn)(blank),不需要完全對(duì)齊語(yǔ)音幀。將CTC應(yīng)用在本文語(yǔ)音識(shí)別系統(tǒng)中,作為softmax層的目標(biāo)函數(shù),CTC對(duì)輸入序列和輸出的目標(biāo)序列之間的似然度進(jìn)行優(yōu)化。

        CTC采用最大似然函數(shù),公式如下:

        (2)

        式中:

        L(x,z)=-lnp(z|x)

        (3)

        設(shè):

        (4)

        因此,可以定義CTC損失函數(shù)為:

        (5)

        式中:p(z|x)代表給定輸入x,輸出序列z的概率;s為訓(xùn)練集。當(dāng)給定輸入之后,CTC的作用就是從中找到概率最大的輸出序列。

        1.2.2CTC-CNN模型

        端到端結(jié)構(gòu),本質(zhì)上對(duì)語(yǔ)音序列進(jìn)行分類。CTC作為端到端結(jié)構(gòu)的一種方法,可以解決語(yǔ)音在識(shí)別過(guò)程中序列不對(duì)齊的情況。

        圖1為CTC-CNN模型結(jié)構(gòu)圖。輸入特征通過(guò)卷積層提取語(yǔ)音特征;池化層均采用最大池化的方法;Softmax層采用CTC損失函數(shù)。

        圖1 CTC-CNN模型

        2 端到端深度卷積神經(jīng)網(wǎng)絡(luò)模型

        CNN的卷積層和池化層交替連接,容易導(dǎo)致訓(xùn)練規(guī)模較大,不能夠進(jìn)行較深層的神經(jīng)網(wǎng)絡(luò)訓(xùn)練。而且卷積層和全連接層均有卷積結(jié)構(gòu),因此這兩層的激活函數(shù)直接決定了整個(gè)CNN網(wǎng)絡(luò)的性能。目前,卷積層常用Sigmoid激活函數(shù),全連接層采用ReLU激活函數(shù)。但是,Sigmoid收斂速度不夠快,存在梯度消失的現(xiàn)象以及過(guò)擬合的現(xiàn)象。ReLU函數(shù)會(huì)使某些參數(shù)得不到激活,產(chǎn)生死機(jī)現(xiàn)象。因此,本文提出將殘差結(jié)構(gòu)引入前文構(gòu)建的CTC-CNN中,設(shè)計(jì)一種新的6層的CTC-DCNN模型,并通過(guò)maxout進(jìn)行優(yōu)化,改善模型中的梯度消失現(xiàn)象,提高識(shí)別準(zhǔn)確率。

        2.1 CTC-DCNN模型

        本文提出了一個(gè)新的6層的CTC-DCNN模型作為語(yǔ)音識(shí)別系統(tǒng)的聲學(xué)模型,如圖2所示。

        圖2 CTC-DCNN模型

        2.2 maxout優(yōu)化CTC-DCNN

        2.2.1maxout激活函數(shù)

        maxout是一種簡(jiǎn)單的前饋神經(jīng)結(jié)構(gòu),采用的是maxout激活函數(shù),它是一種非線性變換函數(shù):

        (6)

        (7)

        式中:tT是輸入的特征向量;W…im是一個(gè)關(guān)于輸入和輸出節(jié)點(diǎn)的三維矩陣;bim是偏置量。

        (8)

        式(8)為maxout神經(jīng)元的梯度。maxout函數(shù)具有很強(qiáng)的擬合能力,當(dāng)一個(gè)神經(jīng)元得到它的若干個(gè)激活量時(shí),maxout函數(shù)下取其中最大輸出值的激活量為1,其余設(shè)置為0,也就是說(shuō),maxout給了一個(gè)恒定的梯度。

        maxout函數(shù)不僅能夠?qū)W習(xí)到隱藏單元彼此之間的相關(guān)性,還能夠?qū)W習(xí)到隱藏單元內(nèi)的激活函數(shù)。此外,在局部域內(nèi),maxout函數(shù)幾乎都是線性的,還具有良好的魯棒性。因此,將maxout應(yīng)用在CNN整個(gè)神經(jīng)網(wǎng)絡(luò)中作為激活函數(shù),可以有效改善神經(jīng)網(wǎng)絡(luò)中存在的梯度消失現(xiàn)象,從而提高語(yǔ)音的識(shí)別效果。

        2.2.2maxout優(yōu)化殘差結(jié)構(gòu)

        殘差塊結(jié)構(gòu)中,通過(guò)shortcut連接,能夠?qū)⒃嫉妮斎胫抵苯觽鬏數(shù)胶竺娴膶?,減少過(guò)深的卷積層數(shù)帶來(lái)的訓(xùn)練誤差。殘差塊中,通常采用的激活函數(shù)是ReLU函數(shù),本文提出通過(guò)maxout函數(shù)優(yōu)化殘差網(wǎng)絡(luò)中,改善原本激活函數(shù)可能存在的死機(jī)現(xiàn)象,具體改進(jìn)結(jié)構(gòu)如圖3所示。

        圖3 maxout優(yōu)化殘差結(jié)構(gòu)塊

        其中:X是a[l-1]層的輸入,經(jīng)過(guò)卷積和激活函數(shù)后輸出特征進(jìn)入a[l]層。這些層的表示如下:

        z[l]=W[l]a[l-1]+b[l]

        (9)

        a[l]=f(z[l])

        (10)

        z[l+1]=W[l+1]a[l]+b[l+1]

        (11)

        a[l+1]=f(z[l+1]+a[l-1])

        (12)

        式中:z[l]、z[l+1]為a[l-1]層和a[l]分別經(jīng)過(guò)卷積加權(quán)的特征;W[l]、W[l+1]為該層對(duì)應(yīng)的權(quán)重;b[l]、b[l+1]為偏置量;maxout函數(shù)用f(x)表示。將本層的加權(quán)和輸入激活函數(shù),得到本層的輸出為a[l]。在殘差網(wǎng)絡(luò)結(jié)構(gòu)中,第二個(gè)卷積層在激活函數(shù)計(jì)算的過(guò)程中,將第一層的原始輸入和本層的卷積核結(jié)果作為maxout的輸入,得到a[l+1]為經(jīng)過(guò)殘差處理后的特征。

        殘差塊通過(guò)添加shortcut,使得輸出發(fā)生變化,再經(jīng)過(guò)激活函數(shù)可以得到最終的輸出。殘差塊的存在,使得構(gòu)建較深層次的卷積神經(jīng)網(wǎng)絡(luò)成為可能。

        圖4為本文提出的CTC-DCNN語(yǔ)音識(shí)別系統(tǒng)。在該模型中,DCNN采用了殘差結(jié)構(gòu),能夠減輕訓(xùn)練過(guò)程中網(wǎng)絡(luò)層數(shù)較多引起的訓(xùn)練誤差。同時(shí),通過(guò)maxout對(duì)網(wǎng)絡(luò)進(jìn)一步優(yōu)化,改善梯度消失現(xiàn)象。

        圖4 CTC-DCNN識(shí)別系統(tǒng)

        3 實(shí)驗(yàn)結(jié)果與分析

        3.1 數(shù)據(jù)集和實(shí)驗(yàn)系統(tǒng)搭建

        本文選擇實(shí)驗(yàn)仿真平臺(tái)為:VMware虛擬機(jī)+ubuntu 16.04操作系統(tǒng)+tensorflow+spyder3。Python版本選擇2.7和3.5.2兩個(gè)版本,滿足測(cè)試過(guò)程中對(duì)語(yǔ)言版本的要求。

        為了驗(yàn)證本文提出的新的CTC-DCNN模型的性能,在英文語(yǔ)料庫(kù)TIMIT和中文語(yǔ)料庫(kù)Thchs-30下分別進(jìn)行實(shí)驗(yàn)。

        中文語(yǔ)音識(shí)別中,選取清華大學(xué)30小時(shí)中文語(yǔ)音庫(kù)(Thchs-30)作為語(yǔ)音識(shí)別的數(shù)據(jù)庫(kù)。Thchs-30數(shù)據(jù)庫(kù)中,訓(xùn)練集標(biāo)注為A、B、C組,每組250句語(yǔ)音,測(cè)試集為D組。

        英文語(yǔ)音識(shí)別系統(tǒng)中,選取TIMIT數(shù)據(jù)庫(kù)。TIMIT數(shù)據(jù)庫(kù)中462人的語(yǔ)音作為訓(xùn)練集,24人所講的192條語(yǔ)音作為核心測(cè)試集,各個(gè)說(shuō)話人之間無(wú)語(yǔ)音重疊,并搭建英文語(yǔ)音識(shí)別系統(tǒng)。

        在本文識(shí)別過(guò)程中,通過(guò)詞錯(cuò)率WER來(lái)表征語(yǔ)音識(shí)別效果。

        3.2 中文語(yǔ)音識(shí)別系統(tǒng)設(shè)計(jì)及實(shí)驗(yàn)

        3.2.1參數(shù)設(shè)計(jì)

        在中文語(yǔ)音識(shí)別系統(tǒng)中,首先對(duì)中文語(yǔ)音信號(hào)處理。相關(guān)參數(shù)為:語(yǔ)音信號(hào)經(jīng)過(guò)預(yù)處理和分幀加窗操作,設(shè)定幀長(zhǎng)為20,幀移為10,幀長(zhǎng)不足20的在其后補(bǔ)0。窗函數(shù)為漢明窗。進(jìn)行MFCC特征提取,得到39維語(yǔ)音特征。

        本文的聲學(xué)模型采用CTC-DCNN網(wǎng)絡(luò)。具體結(jié)構(gòu)為:DCNN采用6層的卷積層后連接池化層,再連接2層的全連接層,最后輸出。首先對(duì)中文語(yǔ)音信號(hào)和特征進(jìn)行降維,1×1的卷積層,卷積核大小為128,然后經(jīng)過(guò)激活后輸入3×3的卷積層,卷積核數(shù)目為128。C3層的參數(shù)設(shè)置為:卷積核大小為1×1,卷積器個(gè)數(shù)為256,步進(jìn)設(shè)置為1×1。C4層的參數(shù)設(shè)置為:卷積核大小為3×3,卷積器個(gè)數(shù)為256,步進(jìn)設(shè)置為1×1。C5層的參數(shù)設(shè)置為:卷積核大小為1×1,卷積器個(gè)數(shù)為512。C6層的參數(shù)設(shè)置為:卷積核大小為3×3,卷積器個(gè)數(shù)為512,步進(jìn)設(shè)置為1×1。之后輸入池化層,池化層采用3×3的最大池化方法。池化之后連接全連接層,為2層,每層有1 024個(gè)節(jié)點(diǎn)。輸出層為CTC損失函數(shù)。

        本文選擇參照的中文語(yǔ)音識(shí)別系統(tǒng)采用卷積神經(jīng)網(wǎng)絡(luò)聲學(xué)模型,結(jié)構(gòu)為:2層卷積層后連接池化層,得到的特征經(jīng)過(guò)2層全連接層進(jìn)入輸出層。CNN中,第一層卷積核大小為10×10,步進(jìn)為1×1。第二層為4×3,卷積核數(shù)目為256,步進(jìn)為1×1。卷積層后連接池化層,采用3×3的最大池化的方法。全連接層設(shè)置2層,節(jié)點(diǎn)數(shù)為1 024個(gè)。

        本文選擇的語(yǔ)言模型為N-gram模型。初始學(xué)習(xí)速率learning rate=0.001,迭代次數(shù)設(shè)定為16。

        3.2.2識(shí)別結(jié)果

        表1為不同聲學(xué)模型下中文語(yǔ)音識(shí)別系統(tǒng)錯(cuò)誤率??梢钥闯觯嗤牡螖?shù)下,CTC-DCNN模型的識(shí)別效果要優(yōu)于CTC-CNN模型和CNN模型。迭代次數(shù)為16次時(shí),本文提出的maxout優(yōu)化后的CTC-DCNN模型的詞錯(cuò)率為20.1%,相比于未優(yōu)化的CTC-DCNN降低了0.7%,比CTC-CNN模型降低3.5%。同時(shí),隨著迭代次數(shù)的增加,發(fā)現(xiàn)語(yǔ)音識(shí)別詞錯(cuò)率隨之降低。實(shí)驗(yàn)結(jié)果表明,本文提出的CTC-DCNN模型魯棒性更好。其中:maxout有效緩解了深度卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練過(guò)程中存在的梯度消失現(xiàn)象;CTC結(jié)構(gòu)加強(qiáng)了建模過(guò)程中語(yǔ)音分布關(guān)系,更接近真實(shí)情況下的語(yǔ)音識(shí)別過(guò)程,從而提高語(yǔ)音識(shí)別準(zhǔn)確率。

        表1 中文語(yǔ)音識(shí)別結(jié)果 %

        3.3 英文語(yǔ)音識(shí)別系統(tǒng)設(shè)計(jì)及實(shí)驗(yàn)

        3.3.1參數(shù)設(shè)計(jì)

        在英文語(yǔ)音識(shí)別系統(tǒng)中,將40維的梅爾域?yàn)V波帶系數(shù)作為語(yǔ)音特征輸入,同時(shí)選取上下文相關(guān)的5幀,構(gòu)成11幀長(zhǎng)時(shí)串聯(lián)特征。

        選擇CNN作為聲學(xué)模型,其結(jié)構(gòu)參數(shù)為:一層卷積層后連接池化層,全連接層最后輸出。其中,卷積層卷積核大小為9×9,數(shù)目為256。池化層采用最大池化方法,全連接層節(jié)點(diǎn)個(gè)數(shù)為1 024。輸出層為softmax層。

        3.3.2識(shí)別結(jié)果

        表2為不同聲學(xué)模型下英文語(yǔ)音識(shí)別結(jié)果??梢钥闯觯疚奶岢龅腃TC-DCNN模型相比其他聲學(xué)模型,詞錯(cuò)率最低,為17.4%。相比于CNN和CTC-CNN模型,準(zhǔn)確率提高了6.3%和2.8%。因此,CTC-DCNN模型能夠提高語(yǔ)音識(shí)別效果。

        表2 英文語(yǔ)音識(shí)別結(jié)果 %

        對(duì)比表1和表2,CTC-DCNN模型不僅在中文語(yǔ)音識(shí)別過(guò)程中表現(xiàn)良好,在英文語(yǔ)音識(shí)別中也有不錯(cuò)的表現(xiàn)。這是因?yàn)镃NN結(jié)構(gòu)在處理語(yǔ)音信號(hào)的過(guò)程中,能夠克服語(yǔ)音的多變性,將語(yǔ)音信號(hào)的時(shí)頻域當(dāng)做圖像進(jìn)行處理,有效提高語(yǔ)音識(shí)別效果。本文提出的CTC-DCNN模型,兼具CNN和CTC的優(yōu)勢(shì),在不同語(yǔ)言的語(yǔ)音識(shí)別過(guò)程中,詞錯(cuò)率均有所降低。

        在Thchs-30中文語(yǔ)音庫(kù)下,本文將CTC-CNN模型和CTC-DCNN模型在不同的迭代次數(shù)下的語(yǔ)音識(shí)別結(jié)果進(jìn)行了對(duì)比,如圖5所示。

        圖5 不同迭代次數(shù)下語(yǔ)音識(shí)別結(jié)果

        4 結(jié) 語(yǔ)

        本文提出了一種新的CTC-DCNN模型。在語(yǔ)音識(shí)別過(guò)程中,通過(guò)端到端和卷積神經(jīng)網(wǎng)絡(luò)構(gòu)建CTC-CNN模型,并引入殘差結(jié)構(gòu),設(shè)計(jì)深層的CTC-DCNN模型,通過(guò)maxout激活函數(shù)對(duì)模型進(jìn)行優(yōu)化。分別在TIMIT和Thchs-30數(shù)據(jù)庫(kù)下進(jìn)行實(shí)驗(yàn),結(jié)果表明本文提出的CTC-DCNN模型能夠有效提高語(yǔ)音識(shí)別準(zhǔn)確率。

        猜你喜歡
        結(jié)構(gòu)模型
        一半模型
        《形而上學(xué)》△卷的結(jié)構(gòu)和位置
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        論結(jié)構(gòu)
        新型平衡塊結(jié)構(gòu)的應(yīng)用
        模具制造(2019年3期)2019-06-06 02:10:54
        論《日出》的結(jié)構(gòu)
        3D打印中的模型分割與打包
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        創(chuàng)新治理結(jié)構(gòu)促進(jìn)中小企業(yè)持續(xù)成長(zhǎng)
        午夜免费观看国产视频| 日产乱码一二三区别免费l| 久久国产精品偷任你爽任你 | 欧洲熟妇色xxxx欧美老妇多毛网站| 成人xx免费无码| 国产成人亚洲合色婷婷| 亚洲天堂av中文字幕在线观看| 无码区a∨视频体验区30秒| 小12萝8禁在线喷水观看| 无码伊人66久久大杳蕉网站谷歌| 日产一区二区三区的精品| 国产人妻久久精品二区三区老狼| 三级全黄裸体| 秋霞午夜无码鲁丝片午夜精品| 熟女俱乐部五十路二区av| 一区二区三区国产97| 国产成人一区二区三区影院| 亚洲成aⅴ人片久青草影院 | 永久免费人禽av在线观看 | 中国杭州少妇xxxx做受| 一边做一边喷17p亚洲乱妇50p| 久久久久久久女国产乱让韩| 91在线区啪国自产网页| 国产尤物自拍视频在线观看| 人人做人人爽人人爱| 国产主播一区二区三区在线观看 | 国产福利小视频91| 久久精品熟女亚洲av麻豆永永 | 国产精品午夜波多野结衣性色| 少妇高潮精品正在线播放| 亚洲av综合色区无码专区桃色| 欧美孕妇xxxx做受欧美88| 亚洲AV无码成人精品区日韩密殿| 亚洲女同免费在线观看| 亚洲成av人的天堂在线观看| 亚洲网站地址一地址二| 久草国产手机视频在线观看| 青青草大香蕉视频在线观看| 中文成人无码精品久久久不卡| 日本a在线免费观看| 天涯成人国产亚洲精品一区av|