亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        復(fù)雜環(huán)境下基于自適應(yīng)深度神經(jīng)網(wǎng)絡(luò)的魯棒語(yǔ)音識(shí)別*

        2022-06-23 03:10:06張開(kāi)生趙小芬
        關(guān)鍵詞:特征模型

        張開(kāi)生,趙小芬

        (陜西科技大學(xué)電氣與控制工程學(xué)院,陜西 西安 710021)

        1 引言

        隨著人工智能的迅速發(fā)展,語(yǔ)音識(shí)別技術(shù)作為人機(jī)接口的關(guān)鍵技術(shù),受到國(guó)內(nèi)外學(xué)者的廣泛關(guān)注[1 - 4]。近年來(lái),深度神經(jīng)網(wǎng)絡(luò)DNN(Deep Neural Network)因其強(qiáng)大的建模能力逐漸發(fā)展為語(yǔ)音識(shí)別領(lǐng)域的主流模型[5]。相比于傳統(tǒng)的高斯混合-隱馬爾科夫模型GMM-HMM(Gaussian Mixture Model-Hidden Markov Model)[6],DNN在語(yǔ)音識(shí)別任務(wù)中具有顯著的優(yōu)勢(shì)。然而,在連續(xù)語(yǔ)音識(shí)別系統(tǒng)中,由于說(shuō)話人及環(huán)境噪聲具有多變性,造成訓(xùn)練數(shù)據(jù)與測(cè)試數(shù)據(jù)之間的不匹配,導(dǎo)致語(yǔ)音識(shí)別效果往往難以令人滿意[7]。針對(duì)這個(gè)問(wèn)題,自適應(yīng)技術(shù)應(yīng)運(yùn)而生,它被證明能有效減少說(shuō)話人差異及環(huán)境變化帶來(lái)的影響[8]。目前,主流自適應(yīng)技術(shù)主要分為基于最大后驗(yàn)概率MAP(Maxumum A Posteriori)準(zhǔn)則的自適應(yīng)方法、基于最大似然回歸MLLR(Maximum Likelihood Linear Regression)和基于說(shuō)話人聚類的方法[9]。其中,基于MAP的說(shuō)話人自適應(yīng)通常是假設(shè)說(shuō)話人相關(guān)SD(Speaker Dependent)模型的參數(shù)服從某種假定的先驗(yàn)分布。基于MLLR自適應(yīng)方法,通常是在最大似然準(zhǔn)則下,利用經(jīng)過(guò)變換后的說(shuō)話人無(wú)關(guān)SI(Speaker Independent)模型得到SD模型,雖然這種自適應(yīng)方式所需數(shù)據(jù)量相對(duì)較少,但是漸進(jìn)性能較差?;诒菊饕糇赃m應(yīng)方法是說(shuō)話人聚類的典型方法,該方法通過(guò)模型參數(shù)進(jìn)行主分量分析PCA(Principal Component Analysis)得到SD模型參數(shù)的一組基,在自適應(yīng)階段對(duì)得到的新的SD模型參數(shù)進(jìn)行限制,從而達(dá)到說(shuō)話人自適應(yīng)的目的。

        針對(duì)上述說(shuō)話人識(shí)別自適應(yīng)技術(shù),相關(guān)學(xué)者進(jìn)行了大量的研究,屈丹等[10]將本征音子說(shuō)話人空間說(shuō)話人自適應(yīng)算法用于克服自適應(yīng)數(shù)據(jù)量不足時(shí)引起的過(guò)擬合現(xiàn)象,使用高斯混合模型對(duì)本征音子說(shuō)話人進(jìn)行建模,在數(shù)據(jù)量極少的情況下,在一定程度上克服了過(guò)擬合的現(xiàn)象,提升了語(yǔ)音識(shí)別率。2018年,金超等[11]將i-vector向量作為說(shuō)話人輔助信息融入DNN聲學(xué)模型中,在特征空間中進(jìn)行說(shuō)話人自適應(yīng),將系統(tǒng)單詞錯(cuò)誤率降低了7.7%。2019年,婁英丹等[12]將MAP和MLLR 2種自適應(yīng)技術(shù)相結(jié)合,并將結(jié)合后的自適應(yīng)技術(shù)應(yīng)用于遠(yuǎn)場(chǎng)噪聲混響條件下的語(yǔ)音識(shí)別,在一定程度上降低了詞錯(cuò)誤率。

        結(jié)合上述語(yǔ)音識(shí)別自適應(yīng)技術(shù)的思路及優(yōu)缺點(diǎn),本文提出一種新的基于自適應(yīng)神經(jīng)網(wǎng)絡(luò)的語(yǔ)音識(shí)別算法,改進(jìn)自適應(yīng)準(zhǔn)則及特征空間,將說(shuō)話人身份信息i-vector向量及噪聲感知融入系統(tǒng)模型,并將其應(yīng)用到復(fù)雜環(huán)境下的語(yǔ)音識(shí)別,消除說(shuō)話人特征的差異性及環(huán)境噪聲變化的影響,通過(guò)提高模型訓(xùn)練數(shù)據(jù)集及測(cè)試數(shù)據(jù)集間的匹配度,進(jìn)一步提升語(yǔ)音識(shí)別率。

        2 基于DNN的聲學(xué)模型建立

        深度神經(jīng)網(wǎng)絡(luò)其本質(zhì)上是一個(gè)具有多個(gè)隱藏層的多層感知器MLP(MultiLayer Perceptron),包含輸入層、隱藏層和輸出層[13]。圖1所示為一個(gè)5層結(jié)構(gòu)DNN,最開(kāi)始的一層為輸入層,記為第0層,輸出層記為第L層。在第L層中,有:

        αl=f(Wlαl-1+βl),0

        (1)

        其中,αl∈RNl×1,Wl∈RNl×Nl-1,βl∈RNl×1,Nl∈R分別為激活向量、權(quán)重矩陣、偏差系數(shù)矩陣和一層神經(jīng)元的個(gè)數(shù)。f(·)為對(duì)激勵(lì)向量進(jìn)行計(jì)算的激活函數(shù),一般選用Sigmoid函數(shù),其表達(dá)式如式(2)所示:

        (2)

        tanh函數(shù)為Sigmoid函數(shù)的調(diào)節(jié)版本,二者建模能力相當(dāng),其表達(dá)式如式(3)所示:

        (3)

        Figure 1 Typical DNN structure 圖1 典型DNN結(jié)構(gòu)

        另外,還可以采用Relu、Maxout或者一些新興激活函數(shù)。在DNN的計(jì)算中,每一層的輸出都只受到前一層輸入的影響,假設(shè)一個(gè)特征向量記為γ,計(jì)算出從第1層到第L-1層的激活向量,并通過(guò)分類計(jì)算,得到最終的輸出結(jié)果,這個(gè)過(guò)程稱為前向計(jì)算。傳統(tǒng)的DNN分類函數(shù)一般選用Softmax函數(shù)來(lái)進(jìn)行特征的歸一化,其表達(dá)式如式(4)所示:

        (4)

        在進(jìn)行DNN參數(shù)訓(xùn)練的時(shí)候,常用的訓(xùn)練方法為誤差反向傳播方法BP(Back Propagation),將擁有一定隱藏層的DNN從一個(gè)輸入空間映射到輸出空間,其表示如式(5)所示:

        RI→RO

        (5)

        其中,R表示向量空間。

        在訓(xùn)練的過(guò)程中需要一定的訓(xùn)練準(zhǔn)則及學(xué)習(xí)算法。常用的訓(xùn)練準(zhǔn)則有均方誤差MSE(Mean Square Error)準(zhǔn)則和交叉熵CE(Cross Entropy)準(zhǔn)則。根據(jù)不同的應(yīng)用場(chǎng)景,訓(xùn)練準(zhǔn)則的選取也有差異,對(duì)于回歸任務(wù),一般采用MSE準(zhǔn)則,如式(6)所示:

        (6)

        其中,S={(om,ym)|1≤m

        (7)

        確定了訓(xùn)練準(zhǔn)則后,通過(guò)誤差反向傳播算法進(jìn)行學(xué)習(xí)。假設(shè)隱藏層采用的激活函數(shù)為Sigmoid函數(shù),誤差經(jīng)過(guò)i層回傳,此時(shí)第l層誤差的表達(dá)式如式(8)所示:

        (8)

        其中Q為損失函數(shù)。采用梯度下降算法更新參數(shù),迭代更新表達(dá)式如式(9)和式(10)所示:

        (9)

        (10)

        其中ξ為學(xué)習(xí)率,通常根據(jù)經(jīng)驗(yàn)獲得。進(jìn)而可求得網(wǎng)絡(luò)參數(shù)的梯度如(11)和式(12)所示:

        (11)

        (12)

        3 DNN聲學(xué)模型

        DNN系統(tǒng)通?;谟?xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)滿足一個(gè)相同的概率分布的假設(shè)條件,該特性類似于其它機(jī)器學(xué)習(xí)技術(shù)。然而在語(yǔ)音識(shí)別時(shí),由于說(shuō)話人和說(shuō)話環(huán)境通常處于一個(gè)多變的狀態(tài),這個(gè)假設(shè)通常難以滿足,導(dǎo)致訓(xùn)練數(shù)據(jù)與測(cè)試數(shù)據(jù)之間不匹配?;谠撛颍珼NN自適應(yīng)技術(shù)應(yīng)運(yùn)而生。不同于傳統(tǒng)混合高斯模型,DNN為鑒別性模型,應(yīng)用于二者的自適應(yīng)方式有所不同。通常DNN自適應(yīng)方式可歸結(jié)為線性變換、保守訓(xùn)練及子空間法[14],如圖2所示。

        Figure 2 Classification of DNN adaptive technology 圖2 DNN自適應(yīng)技術(shù)分類

        (13)

        其中N0為輸入層大小。其變換后的網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示,圖中方框中的部分為添加的線性隱藏層。

        Figure 3 DNN structure after linear changed圖3 線性變化后的DNN結(jié)構(gòu)

        線性變換法雖然取得了不錯(cuò)的自適應(yīng)效果,但是仍然無(wú)法突破DNN固有特性的限制,有學(xué)者提出通過(guò)調(diào)整所有參數(shù)來(lái)改善這種限制,但是該種方式被證實(shí)會(huì)破壞DNN之前學(xué)習(xí)到的信息。保守訓(xùn)練是解決該問(wèn)題的方式,一般采用L2正則項(xiàng)或者KL(Kullback-Leibler)距離正則項(xiàng)的方式對(duì)自適應(yīng)準(zhǔn)則進(jìn)行約束。另外一種DNN的自適應(yīng)方式為子空間方法,子空間法將說(shuō)話人特征信息映射到一個(gè)特定的子空間中,利用神經(jīng)網(wǎng)絡(luò)的權(quán)值或自適應(yīng)變換將其作為參數(shù)空間的一個(gè)數(shù)據(jù)點(diǎn),然后進(jìn)行自適應(yīng)網(wǎng)絡(luò)的構(gòu)建。主成分分析法、噪聲感知和張量基等都是這個(gè)領(lǐng)域中比較有前景的技術(shù)。

        3.1 改進(jìn)正則化自適應(yīng)準(zhǔn)則

        L2正則化通過(guò)添加懲罰項(xiàng)來(lái)約束自適應(yīng)準(zhǔn)則,假設(shè)自適應(yīng)模型W是由說(shuō)話人無(wú)關(guān)模型VS經(jīng)過(guò)一個(gè)自適應(yīng)準(zhǔn)則J(W,β;S)得到的,則:

        (14)

        其中,vec(VS-W)是矩陣VS-W中所有的列向量連接起來(lái)得到的向量。引入L2正則項(xiàng)約束,得到約束后的自適應(yīng)準(zhǔn)則,如式(15)所示:

        JL2(W,β;S)=J(W,β;S)+ηR2(VS,W)

        (15)

        其中,η為正則項(xiàng)參數(shù),通過(guò)L2正則項(xiàng)約束后,自適應(yīng)后的模型與說(shuō)話人無(wú)關(guān)模型之間參數(shù)的波動(dòng)范圍將得到有效限制。

        KL距離正則項(xiàng)的目的在于避免自適應(yīng)模型估計(jì)的senone后驗(yàn)概率與未自適應(yīng)模型估計(jì)的后驗(yàn)概率差距過(guò)大。KL距離可以良好地衡量概率間差異,與DNN輸出為概率分布特性相吻合。因此,將KL距離作為一個(gè)約束項(xiàng)添加到自適應(yīng)準(zhǔn)則中,去除模型無(wú)關(guān)項(xiàng)后,得到KL正則化優(yōu)化準(zhǔn)則,如式(16)所示:

        JKL(W,β;S)=(1-η)J(W,β;S)+

        ηRKL(VS,βS;W,β;S)

        (16)

        其中:

        RKL(VS,βS;W,β;S)=

        (17)

        其中,PS(i|om;VS,βS)為說(shuō)話人無(wú)關(guān)DNN中估計(jì)出的第m個(gè)觀測(cè)樣本屬于類別i的概率,P(i|om;W,β)為自適應(yīng)DNN第m個(gè)觀測(cè)樣本om屬于類別i的概率。概率可通過(guò)交叉熵準(zhǔn)則得到。為了充分結(jié)合L2正則項(xiàng)及KL正則項(xiàng)的優(yōu)點(diǎn),本文對(duì)正則化自適應(yīng)準(zhǔn)則進(jìn)行改進(jìn),突破傳統(tǒng)單一正則約束的限制,將二者進(jìn)行結(jié)合,提出加權(quán)平均正則化方法,得到新型正則化約束表達(dá)式,如式(18)所示:

        RKL(VS,βS;W,β;S)]}

        (18)

        其中,λ′為改進(jìn)后的正則化權(quán)重。

        3.2 特征子空間估計(jì)參數(shù)建模

        在改進(jìn)正則化自適應(yīng)準(zhǔn)則后,利用自適應(yīng)后的權(quán)值估計(jì)一個(gè)特定說(shuō)話人矩陣,記為FA∈Rm×n,該矩陣可被認(rèn)為是在m×n維說(shuō)話人子空間中的一個(gè)隨機(jī)變量的觀察值。假設(shè)n個(gè)說(shuō)話人的均值超矢量如式(19)所示:

        (19)

        則所有說(shuō)話人超矢量表示為f={τ(d)|d=1,2,…,n}構(gòu)成了一個(gè)說(shuō)話人子空間,然后對(duì)f進(jìn)行主分量分析,由PCA近似得到的特征向量線性組合來(lái)表示新的說(shuō)話人自適應(yīng)矩陣。在這個(gè)特征子空間中維數(shù)最大為n,主分量分析之后得到p個(gè)基矢量。為了突破傳統(tǒng)說(shuō)話人子空間只能在自適應(yīng)前確定的局限性,本文借鑒文獻(xiàn)[15]中的子空間動(dòng)態(tài)選擇方式,采用最大似然準(zhǔn)則代替?zhèn)鹘y(tǒng)加權(quán)系數(shù)的選擇方式[15],針對(duì)每個(gè)說(shuō)話人選擇最優(yōu)的子空間,得到說(shuō)話人的超矢量最大似然估計(jì)。

        3.3 改進(jìn)DNN輸出層分類激活函數(shù)

        前文提到,DNN在訓(xùn)練完畢后,通過(guò)輸出層得到最終的結(jié)果輸出,可以把這個(gè)輸出結(jié)果理解為概率,一般選用Softmax函數(shù)進(jìn)行歸一化處理,因此多分類之后的概率之和也為1。圖4所示為Softmax歸一化處理的過(guò)程。

        Figure 4 Softmax normalization process圖4 Softmax歸一化過(guò)程

        假設(shè)x0,x1,…,xn為若干個(gè)輸入語(yǔ)音特征,經(jīng)過(guò)Softmax函數(shù)之后得到若干個(gè)[0,1]的數(shù)字輸出,且P(x0)+P(x1)+…+P(xn)=1。Softmax函數(shù)表示如式(20)所示:

        (20)

        其中,q為訓(xùn)練數(shù)據(jù)所屬類別。Softmax降低了訓(xùn)練的難度,并且在一定程度上抑制了過(guò)擬合現(xiàn)象的發(fā)生,但是并未保證類內(nèi)緊湊、類間分離的特性。因此,僅僅使用限定的訓(xùn)練集顯得微不足道。由于Softmax損失采用cosine距離作為分類預(yù)測(cè)標(biāo)準(zhǔn),因此預(yù)測(cè)標(biāo)簽由各個(gè)類的角度相似性決定,因此本文引入文獻(xiàn)[16]中的L-Softmax方式進(jìn)一步優(yōu)化Softmax,從而使所學(xué)特性之間存在更大的角分離性[16]。優(yōu)化后的Softmax表達(dá)式如式(21)所示:

        LL-Softmax=

        (21)

        其中,Wyi表示全連接層W的yi列,xi表示第i個(gè)輸入。θj是Wj和xi之間的角度,θyi是Wyi與xi之間的角度。

        (22)

        經(jīng)過(guò)優(yōu)化之后的L-Softmax不僅有利于分類,并且保證了樣本類內(nèi)緊湊、類間分離的特性。另外,考慮到Softmax函數(shù)涉及指數(shù)運(yùn)算,在計(jì)算機(jī)上進(jìn)行運(yùn)算時(shí),可能會(huì)出現(xiàn)數(shù)據(jù)溢出導(dǎo)致結(jié)果異常的情況,因此對(duì)式(22)實(shí)行進(jìn)一步的改進(jìn),通過(guò)分子分母同乘一個(gè)常數(shù)的方式,既能限制數(shù)據(jù)帶寬又能保持結(jié)果不變。改進(jìn)后的Softmax函數(shù)記為L(zhǎng)C-Softmax函數(shù),其表達(dá)式如式(23)所示:

        LLC-Softmax=

        (23)

        其中H為常數(shù)。

        4 復(fù)雜環(huán)境下的DNN語(yǔ)音識(shí)別

        在搭建完整的模型框架之后,需要進(jìn)一步考慮說(shuō)話人及環(huán)境變化對(duì)系統(tǒng)產(chǎn)生的影響。在傳統(tǒng)的GMM-HMM系統(tǒng)中,采用聲道長(zhǎng)度歸一化VTLN(Vocal Tract Length Normalization)和特征空間最大似然回歸fMLLR(feature-space Maximum Likelihood Linear Regression)克服說(shuō)話人多樣性[17]帶來(lái)的問(wèn)題。fMLLR本質(zhì)上是作用在特征向量上的仿射變換,將其運(yùn)用在測(cè)試集上,輸入原始特征生成識(shí)別結(jié)果,利用識(shí)別結(jié)果估計(jì)fMLLR,變換后得到新的特征再進(jìn)行識(shí)別。為了克服環(huán)境變化,傳統(tǒng)的GMM系統(tǒng)通常采用向量泰勒級(jí)數(shù)VTS (Vector Taylor Series)、自適應(yīng)和最大似然線性回歸。然而由于DNN本質(zhì)上為生成鑒別式模型,傳統(tǒng)的克服說(shuō)話人及環(huán)境多樣性的方式需要進(jìn)一步擴(kuò)展。依據(jù)DNN特性,本文引入i-vector技術(shù)來(lái)克服說(shuō)話人差異信息對(duì)特征的影響,此過(guò)程不僅可以減少說(shuō)話人差異產(chǎn)生的影響,同時(shí)可將語(yǔ)義信息進(jìn)行保留。引入噪聲感知訓(xùn)練自動(dòng)學(xué)習(xí)帶噪語(yǔ)音與噪聲到狀態(tài)標(biāo)注的映射關(guān)系,在一定程度上可減輕環(huán)境變化對(duì)語(yǔ)音識(shí)別率的影響。

        4.1 i-vector技術(shù)分析及應(yīng)用

        i-vector技術(shù)的基本原理可以表述為:首先將描述說(shuō)話人最重要的特征信息進(jìn)行壓縮,然后將壓縮后的特征信息在一個(gè)低維固定長(zhǎng)度中表示出來(lái)。利用i-vector良好的區(qū)分說(shuō)話人信息的能力,去除語(yǔ)音特征中的說(shuō)話人信息,保留需要的語(yǔ)義信息。另外,i-vector構(gòu)建了一個(gè)獨(dú)立的變換子空間來(lái)對(duì)語(yǔ)音信號(hào)的變化進(jìn)行建模,其中語(yǔ)音信息包括說(shuō)話人信息及信道信息變換。其表達(dá)式如式(24)所示:

        Cs=k+Dws

        (24)

        其中,Cs為說(shuō)話人均值超矢量;k為UBM(Universal Background Model)超矢量,UBM表示一個(gè)通用的背景模型;D表示總體變化子空間矩陣,將均值超矢量映射到低維,得到低維矢量ws。關(guān)于i-vector的計(jì)算文獻(xiàn)[18,19]中有詳細(xì)描述。將i-vector向量融入DNN結(jié)構(gòu)中,如圖5所示,圖中w1,w2,…,wn為提取出的特定人i-vector,并且都相等。x1,x2,…,xn為說(shuō)話人每一幀輸入語(yǔ)音信息,然后將i-vector與原始輸入語(yǔ)音信息進(jìn)行拼接。如前所述,融合i-vector后的DNN結(jié)構(gòu)由于保留了需要的語(yǔ)義信息,因此對(duì)說(shuō)話人變化識(shí)別具有更強(qiáng)的魯棒性,在一定程度上降低了語(yǔ)音識(shí)別錯(cuò)誤率。

        Figure 5 DNN structure fused with i-vector 圖5 融合i-vector的DNN結(jié)構(gòu)

        4.2 噪聲感知訓(xùn)練

        前文提到,在傳統(tǒng)的基于GMM的聲學(xué)模型中,采用VTS、MLLR等方法可在一定程度上克服復(fù)雜多變環(huán)境的影響。在VTS方法中,自適應(yīng)語(yǔ)音識(shí)別器的高斯參數(shù)常用一個(gè)估計(jì)噪聲模型進(jìn)行自適應(yīng),假設(shè)帶噪語(yǔ)音信號(hào)表示為XN,純凈語(yǔ)音信號(hào)為Xc,噪聲信號(hào)表示為N,那么語(yǔ)音和噪聲之間的關(guān)系在對(duì)數(shù)頻域中可近似表示為:

        XN=Xc+log(1+exp(N-Xc))

        (25)

        在GMM系統(tǒng)中采用一階VTS來(lái)近似表示這個(gè)非線性關(guān)系,然而,DNN具有多層的非線性變換,可以對(duì)任意的非線性關(guān)系直接進(jìn)行建模。實(shí)際上我們關(guān)心的是帶噪語(yǔ)音信號(hào)及噪聲信號(hào)到純凈語(yǔ)音之間的非線性映射。通過(guò)噪聲估計(jì)帶噪語(yǔ)音信號(hào)與噪聲信號(hào)到純凈語(yǔ)音信號(hào)的映射關(guān)系,克服多變?cè)肼暛h(huán)境對(duì)識(shí)別系統(tǒng)產(chǎn)生的影響。

        5 實(shí)驗(yàn)結(jié)果及分析

        5.1 實(shí)驗(yàn)數(shù)據(jù)集及評(píng)估指標(biāo)

        為了驗(yàn)證本文算法的有效性,選取TIMIT和微軟語(yǔ)料庫(kù)作為實(shí)驗(yàn)數(shù)據(jù)來(lái)源。其中TIMIT為英文語(yǔ)料庫(kù),包含630個(gè)不同說(shuō)話人信息,為評(píng)價(jià)說(shuō)話人識(shí)別系統(tǒng)中最權(quán)威的語(yǔ)音數(shù)據(jù)庫(kù)[20]。本文選取430個(gè)說(shuō)話人語(yǔ)音組成訓(xùn)練集,選取40個(gè)說(shuō)話人語(yǔ)音組成測(cè)試集,并且訓(xùn)練集與測(cè)試集間無(wú)重疊。中文語(yǔ)料庫(kù)選擇微軟語(yǔ)料庫(kù),微軟語(yǔ)料庫(kù)是由微軟亞洲研究院在2001年發(fā)布的用于搭建、測(cè)試中文連續(xù)語(yǔ)音識(shí)別系統(tǒng)的中文語(yǔ)料庫(kù)。該語(yǔ)料庫(kù)的訓(xùn)練集包含100個(gè)男性說(shuō)話人信息,其中每個(gè)人說(shuō)話語(yǔ)音為200段,共19 688段,總時(shí)長(zhǎng)為33 h。說(shuō)話人籍貫遍布全國(guó)26個(gè)省,測(cè)試集為北京方言口音,采用漢語(yǔ)有調(diào)音節(jié)進(jìn)行標(biāo)注[21]。

        實(shí)驗(yàn)采用詞錯(cuò)率WER(Word Error Rate)作為算法的評(píng)價(jià)指標(biāo),其表達(dá)式如式(26)所示:

        (26)

        其中,SW為語(yǔ)音解碼時(shí),連續(xù)語(yǔ)音與人工標(biāo)注統(tǒng)計(jì)出的替換詞的個(gè)數(shù);DW為刪除詞的個(gè)數(shù);IW為插入詞的個(gè)數(shù);NW為語(yǔ)音庫(kù)中正確詞的總數(shù)量。該指標(biāo)數(shù)值越低,系統(tǒng)性能越高,語(yǔ)音識(shí)別率越高。

        5.2 實(shí)驗(yàn)環(huán)境及參數(shù)配置

        本文在Kaidi語(yǔ)音識(shí)別工具上進(jìn)行開(kāi)發(fā)和實(shí)驗(yàn)。首先搭建GMM-HMM模型,選取13維MFCC特征與其一階差分、二階差分共39維作為GMM-HMM的輸入量。針對(duì)淺層模型,如HMM、GMM等一般采用MFCC、LPCC等特征參數(shù),F(xiàn)BANK特征因其攜帶更多的特征信息,更加適合作為深層訓(xùn)練模型的特征參數(shù),因此DNN模型及本文自適應(yīng)DNN模型皆選取FBANK特征。一般來(lái)說(shuō),語(yǔ)音信號(hào)窗長(zhǎng)在10~30 ms認(rèn)為是穩(wěn)態(tài)的,即語(yǔ)音信號(hào)具有短時(shí)平穩(wěn)性,因此窗長(zhǎng)選擇一般在這個(gè)范圍即可,本文取窗長(zhǎng)為25 ms,幀移選取通常在5~15 ms,本文取其中間值10 ms作為幀移長(zhǎng)度。實(shí)驗(yàn)中整個(gè)DNN框架輸入層、隱藏層和輸出層的個(gè)數(shù)分別為1,5和1。其中隱藏層包含2 048個(gè)節(jié)點(diǎn),輸出層采用LC-Softmax進(jìn)行歸一化處理。另一方面,在對(duì)深度神經(jīng)網(wǎng)絡(luò)進(jìn)行參數(shù)調(diào)節(jié)的過(guò)程中,需要根據(jù)訓(xùn)練集與測(cè)試集識(shí)別率的比對(duì)來(lái)控制迭代次數(shù),參數(shù)初始化完畢后,對(duì)自適應(yīng)模型進(jìn)行迭代,訓(xùn)練集與測(cè)試集得到的語(yǔ)音識(shí)別率與迭代次數(shù)的關(guān)系如圖6所示。

        Figure 6 The relationship between the recognition rate and the number of iterations圖6 識(shí)別率與迭代次數(shù)關(guān)系

        5.3 對(duì)照實(shí)驗(yàn)及分析

        本文采用目前語(yǔ)音識(shí)別中常見(jiàn)的GMM-HMM及傳統(tǒng)DNN聲學(xué)模型作為對(duì)照組,與本文自適應(yīng)DNN模型進(jìn)行比較。在訓(xùn)練GMM-HMM時(shí),將上下文相關(guān)的三音素融入模型中,訓(xùn)練完畢后,將輸出特征進(jìn)行解碼。在采用自適應(yīng)DNN模型時(shí),為了保證在詞錯(cuò)誤率盡可能低的情況下訓(xùn)練時(shí)間也不至于過(guò)長(zhǎng),對(duì)DNN隱藏層數(shù)量及節(jié)點(diǎn)個(gè)數(shù)的選取進(jìn)行了若干組實(shí)驗(yàn)。隱藏層數(shù)對(duì)詞錯(cuò)誤率的影響如圖7所示。從圖7可以看出,隨著隱藏層數(shù)量的增加,單詞錯(cuò)誤率明顯降低,說(shuō)明在一定范圍內(nèi)增加隱藏層數(shù)可以提升語(yǔ)音的識(shí)別率。但是,當(dāng)隱藏層數(shù)量繼續(xù)增加的時(shí)候,錯(cuò)誤率又呈現(xiàn)上升的趨勢(shì),可見(jiàn)過(guò)多的隱藏層數(shù)會(huì)導(dǎo)致數(shù)據(jù)出現(xiàn)過(guò)擬合的現(xiàn)象,導(dǎo)致識(shí)別率降低。因此,本文選擇自適應(yīng)DNN聲學(xué)模型結(jié)構(gòu)中的隱藏層數(shù)為5。

        Figure 7 The influence of hidden layers on word error rate of the model圖7 隱藏層數(shù)對(duì)模型詞錯(cuò)誤率的影響

        為了確定隱藏層節(jié)點(diǎn)個(gè)數(shù),實(shí)驗(yàn)在5層隱藏層時(shí),分別對(duì)隱藏層節(jié)點(diǎn)個(gè)數(shù)為1 024,2 048和4 096進(jìn)行耗時(shí)和語(yǔ)音識(shí)別率的統(tǒng)計(jì),結(jié)果如圖8所示。由圖8可以看出,當(dāng)隱藏層節(jié)點(diǎn)個(gè)數(shù)增加時(shí),系統(tǒng)耗時(shí)和識(shí)別正確率均處于上升的趨勢(shì),但是當(dāng)節(jié)點(diǎn)數(shù)目大于2 048時(shí),實(shí)驗(yàn)耗時(shí)急劇增加,而識(shí)別正確率雖然呈現(xiàn)上升的趨勢(shì),但是上升幅度不大。綜合時(shí)間及識(shí)別性能等多種因素,本文選擇隱藏層節(jié)點(diǎn)個(gè)數(shù)為2 048,在保證識(shí)別性能的前提下,避免過(guò)多的時(shí)間消耗。

        Figure 8 The influence of the number of hidden nodes on the system model圖8 隱藏層節(jié)點(diǎn)數(shù)對(duì)系統(tǒng)模型的影響

        為了驗(yàn)證多噪聲下系統(tǒng)的語(yǔ)音識(shí)別性能,在進(jìn)行性能測(cè)試時(shí),引入NoiseX-92噪聲庫(kù)中的Babble、F16、Street和Factory 4種類型的噪聲作為背景噪聲。NoiseX-92噪聲庫(kù)是由英國(guó)感知技術(shù)研究院在實(shí)地測(cè)量所得到的噪聲數(shù)據(jù)庫(kù),能夠很好地模擬現(xiàn)實(shí)環(huán)境中的噪聲干擾。然后對(duì)不同聲學(xué)模型分別在4種噪聲下調(diào)節(jié)不同信噪比進(jìn)行多次對(duì)照實(shí)驗(yàn),表1和表2分別為在TIMIT英文語(yǔ)音數(shù)據(jù)集和微軟中文語(yǔ)音數(shù)據(jù)集上不同模型的詞錯(cuò)誤率統(tǒng)計(jì)。

        Table 1 Comparison of WER of different models on the TIMIT data set

        由表1和表2可以看出,2種數(shù)據(jù)集上,WER的變化趨勢(shì)基本一致。相對(duì)于GMM-HMM模型,深度神經(jīng)網(wǎng)絡(luò)模型以及本文自適應(yīng)深度神經(jīng)網(wǎng)絡(luò)模型的WER均呈現(xiàn)下降的趨勢(shì)。整體上看,無(wú)論是在TIMIT英文語(yǔ)音數(shù)據(jù)集還是微軟中文語(yǔ)音數(shù)據(jù)集,在多種背景噪聲下,WER隨著信噪比的增加而增大,說(shuō)明環(huán)境信噪比低會(huì)嚴(yán)重影響系統(tǒng)的語(yǔ)音識(shí)別率。高斯混合模型和傳統(tǒng)DNN模型,未考慮說(shuō)話人及環(huán)境噪聲變化引起的噪聲訓(xùn)練與測(cè)試數(shù)據(jù)不匹配,因此WER普遍偏高。將i-vector及噪聲感知融入DNN模型后,得到的模型能夠自適應(yīng)處理訓(xùn)練及測(cè)試數(shù)據(jù)之間不匹配的問(wèn)題,因此WER相對(duì)較小。對(duì)比可知,TIMIT數(shù)據(jù)集上,在Babble、F16、Street和Factory 4種噪聲下本文算法相較于GMM-HMM模型平均WER分別下降了3.818%,5.653%,5.257%和5.875%。相較于傳統(tǒng)DNN模型平均WER分別下降了1.030%,3.740%,3.798%和3.885%??梢钥闯鰺o(wú)論是在中文語(yǔ)音數(shù)據(jù)集還是英文語(yǔ)音數(shù)據(jù)集上,詞錯(cuò)誤率均有所下降,本文自適應(yīng)DNN模型的泛化性能及魯棒性相較于對(duì)比模型均有一定程度的提高。

        Table 2 Comparison of WER of different models on the Microsoft voice data set

        6 結(jié)束語(yǔ)

        本文提出了一種復(fù)雜環(huán)境下基于自適應(yīng)深度神經(jīng)網(wǎng)絡(luò)的語(yǔ)音識(shí)別。針對(duì)說(shuō)話人及環(huán)境多變性造成訓(xùn)練數(shù)據(jù)與測(cè)試數(shù)據(jù)不匹配造成的識(shí)別率低的問(wèn)題,改進(jìn)自適應(yīng)準(zhǔn)則并與特征空間相結(jié)合,提高數(shù)據(jù)的匹配度。通過(guò)對(duì)GMM-HMM及傳統(tǒng)DNN模型分別在多種背景噪聲下進(jìn)行對(duì)比實(shí)驗(yàn),結(jié)果表明本文自適應(yīng)DNN聲學(xué)模型在TIMIT中文語(yǔ)音數(shù)據(jù)集、微軟中文語(yǔ)音數(shù)據(jù)集上,平均WER分別下降了5.151%和3.113%,表明本文自適應(yīng)DNN模型擁有更強(qiáng)健的建模能力。

        猜你喜歡
        特征模型
        一半模型
        抓住特征巧觀察
        重要模型『一線三等角』
        新型冠狀病毒及其流行病學(xué)特征認(rèn)識(shí)
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        如何表達(dá)“特征”
        不忠誠(chéng)的四個(gè)特征
        抓住特征巧觀察
        3D打印中的模型分割與打包
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        99国产精品99久久久久久| 日本国产亚洲一区二区| 国产综合色在线精品| 国产男女猛烈视频在线观看| 国产爆乳无码一区二区在线| 日本成人在线不卡一区二区三区| 日本一二三四高清在线| 妇女bbbb插插插视频| 亚洲首页一区任你躁xxxxx| 中日无码精品一区二区三区| 亚洲经典三级| 99久久国产亚洲综合精品| 日本熟妇裸体视频在线| 狠狠cao日日橹夜夜十橹| 大肉大捧一进一出视频出来呀| 成人午夜免费无码视频在线观看| 色哟哟精品中文字幕乱码| 国产精品一区二区性色| 人妻精品动漫h无码网站| 福利视频一二区| 国产一区二区白浆在线观看| 亚洲精品电影院| 国产精品成人99一区无码| 色婷婷丁香综合激情| 少妇激情高潮视频网站| 久9re热视频这里只有精品| 亚洲av无码资源在线观看| 中文字幕亚洲精品码专区| 美女丝袜美腿玉足视频| 337p西西人体大胆瓣开下部| 精品 无码 国产观看| 亚洲女人天堂成人av在线| 真实的国产乱xxxx在线| 97精品伊人久久大香线蕉| 天堂岛国精品在线观看一区二区| 国产亚洲av成人噜噜噜他| 挺进朋友人妻雪白的身体韩国电影| 精品国产高清一区二区广区| 极品精品视频在线观看| 日韩av高清在线观看| 夜色阁亚洲一区二区三区|