亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        語(yǔ)音識(shí)別中神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的說(shuō)話人自適應(yīng)研究

        2018-04-18 11:07:47
        關(guān)鍵詞:特征信息模型

        金 超 龔 鋮 李 輝

        (中國(guó)科學(xué)技術(shù)大學(xué)信息科學(xué)技術(shù)學(xué)院 安徽 合肥 230027)

        0 引 言

        近年來(lái),深度神經(jīng)網(wǎng)絡(luò)DNN已經(jīng)在語(yǔ)音識(shí)別中取得了非常大的成功,在語(yǔ)音聲學(xué)模型建模中,基于隱馬爾可夫-深度神經(jīng)網(wǎng)絡(luò)HMM-DNN(Hidden Markov Model-Deep Neural Network)系統(tǒng)相對(duì)于傳統(tǒng)的隱馬爾可夫-高斯混合模型HMM-GMM(Hidden Markov Model-Gaussian Mixture Model)系統(tǒng)有更好的聲學(xué)區(qū)分性[1],在識(shí)別準(zhǔn)確率上有了明顯的提升。因此在大詞匯量連續(xù)語(yǔ)音識(shí)別上,DNN模型成為主流的聲學(xué)模型。

        然而DNN聲學(xué)模型中依然存在著和GMM聲學(xué)模型一樣的問(wèn)題,即目標(biāo)說(shuō)話人語(yǔ)音和訓(xùn)練數(shù)據(jù)的說(shuō)話人語(yǔ)音不匹配的問(wèn)題,當(dāng)系統(tǒng)識(shí)別一個(gè)沒(méi)有遇見(jiàn)過(guò)的說(shuō)話人語(yǔ)音時(shí),識(shí)別準(zhǔn)確率就會(huì)下降。對(duì)于GMM模型,說(shuō)話人自適應(yīng)SA技術(shù)已經(jīng)被證明能夠有效地減小說(shuō)話人差異帶來(lái)的性能下降[2-3]。它是利用少量的目標(biāo)說(shuō)話人數(shù)據(jù),即自適應(yīng)數(shù)據(jù)來(lái)修改說(shuō)話人無(wú)關(guān)SI(Speaker Independent)模型的參數(shù)或者是轉(zhuǎn)換目標(biāo)說(shuō)話人的特征來(lái)提高對(duì)目標(biāo)說(shuō)話人的建模精度。

        說(shuō)話人自適應(yīng)分為模型域和特征域自適應(yīng),在基于DNN聲學(xué)模型的模型域說(shuō)話人自適應(yīng)中最簡(jiǎn)單的方法是利用目標(biāo)說(shuō)話人的自適應(yīng)數(shù)據(jù)直接更新SI模型參數(shù)[4]。但是由于DNN模型的參數(shù)巨大,少量的自適應(yīng)數(shù)據(jù)容易出現(xiàn)過(guò)擬合問(wèn)題。另一方法是在已經(jīng)訓(xùn)練好的SI模型上插入線性變換層,在自適應(yīng)階段,對(duì)不同的說(shuō)話人只自適應(yīng)調(diào)整該線性變換層,文獻(xiàn)[5-7]分別提出了線性輸入網(wǎng)絡(luò)LIN(Linear Input Network)、線性隱藏層網(wǎng)絡(luò)LHN(Linear Hidden Network)、線性輸出網(wǎng)絡(luò)LON(Linear Output Network),實(shí)現(xiàn)分別對(duì)DNN網(wǎng)絡(luò)不同位置的線性變換層的自適應(yīng)調(diào)整。這些方法在一定程度上減小了過(guò)擬合的影響,但只是對(duì)某一層進(jìn)行自適應(yīng)調(diào)整,效果提升不夠明顯。文獻(xiàn)[8-10]的核心思想是在DNN模型的各個(gè)隱藏層上加入少量的自適應(yīng)參數(shù),在自適應(yīng)階段時(shí),能夠使用少量的數(shù)據(jù)達(dá)到全局自適應(yīng)參數(shù)調(diào)整,有很好的效果提升。在特征域上的說(shuō)話人自適應(yīng)中,文獻(xiàn)[11-12]提出通過(guò)一個(gè)單獨(dú)的小網(wǎng)絡(luò),加上i-vector輔助信息,將目標(biāo)說(shuō)話人特征映射到說(shuō)話人無(wú)關(guān)的空間,然后基于新的特征訓(xùn)練DNN聲學(xué)模型。這種方法在一定程度上提高了系統(tǒng)識(shí)別的準(zhǔn)確率,但是訓(xùn)練過(guò)程較為復(fù)雜,因?yàn)榇嬖趦蓚€(gè)網(wǎng)絡(luò)模型,需要兩個(gè)網(wǎng)絡(luò)之間來(lái)回訓(xùn)練,而且不穩(wěn)定,預(yù)測(cè)計(jì)算量較大。文獻(xiàn)[13-14]提出一種基于說(shuō)話人編碼SC(Speaker Code)的特征域說(shuō)話人自適應(yīng)方法。SC也表征說(shuō)話人差異信息,但是SC的獲取過(guò)程相比i-vector較為復(fù)雜,需要對(duì)自適應(yīng)數(shù)據(jù)在SI-DNN模型上先進(jìn)行解碼,獲取“真實(shí)標(biāo)注”,然后利用這些標(biāo)注更新得到目標(biāo)說(shuō)話人的SC。

        借鑒前面思路和優(yōu)缺點(diǎn),本文提出一種新的基于神經(jīng)網(wǎng)絡(luò)的說(shuō)話人自適應(yīng)方法。在初始的DNN模型上引入所有說(shuō)話人共享的自適應(yīng)層,按照語(yǔ)音幀的區(qū)分性目標(biāo)函數(shù),在整個(gè)訓(xùn)練集上進(jìn)行聯(lián)合訓(xùn)練,學(xué)習(xí)自適應(yīng)層的連接權(quán)值,使得通過(guò)自適應(yīng)層能將目標(biāo)說(shuō)話人i-vector信息逐層映射到DNN模型的特征中,實(shí)現(xiàn)去除特征中的說(shuō)話人差異信息,保留語(yǔ)義信息,減小說(shuō)話人差異帶來(lái)的識(shí)別率下降,實(shí)現(xiàn)系統(tǒng)性能提升。

        1 DNN聲學(xué)模型

        DNN的結(jié)構(gòu)如圖1所示,它實(shí)際上是一個(gè)層數(shù)較深的多層感知器MLP(Multilayer Perceptron),由輸入層、多個(gè)隱藏層、輸出層組成。圖中總共有L+1層神經(jīng)網(wǎng)絡(luò),第0層為輸入層,第L層為輸出層,每一層的輸出只受到前一層的輸入影響,這里ot表示t時(shí)刻的語(yǔ)音特征向量,通常需要左右擴(kuò)幀。

        圖1 神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)

        式(1)為前向計(jì)算表達(dá)式:

        (1)

        (2)

        對(duì)于隱藏層1≤i

        當(dāng)DNN被用作語(yǔ)音識(shí)別中聲學(xué)模型的時(shí)候,它的作用是區(qū)分每一幀語(yǔ)音特征到上下文相關(guān)的HMM狀態(tài),DNN訓(xùn)練時(shí)目標(biāo)函數(shù)采用負(fù)的交叉熵,訓(xùn)練的目標(biāo)是最小化如下的目標(biāo)函數(shù):

        (3)

        (4)

        假設(shè)DNN模型的隱藏層激活函數(shù)采用sigmoid,誤差回傳到第i層時(shí)的表達(dá)式如下:

        (5)

        這里,⊙為向量的內(nèi)積,由式(4)、式(5)的誤差可得到目標(biāo)函數(shù)對(duì)網(wǎng)絡(luò)參數(shù)的梯度:

        (6)

        (7)

        采用梯度下降算法更新網(wǎng)絡(luò)參數(shù),迭代更新公式如下:

        (8)

        (9)

        式中:α為學(xué)習(xí)率,需要根據(jù)實(shí)驗(yàn)確定其值。

        在解碼的時(shí)候,DNN輸出的是HMM狀態(tài)j的后驗(yàn)概率p(j|ot)。我們實(shí)際需要HMM狀態(tài)的觀察概率,即HMM狀態(tài)j下生成特征向量ot的概率p(ot|j),通過(guò)貝葉斯公式,有:

        (10)

        (11)

        2 I-Vector

        傳統(tǒng)的I-Vector作為表征說(shuō)話人差異的重要技術(shù)已經(jīng)在說(shuō)話人辨認(rèn)和說(shuō)話人確認(rèn)領(lǐng)域取得了成功的應(yīng)用。I-Vector方法與經(jīng)典的聯(lián)合因子分析JFA(Joint Factor Analysis)[16]建模方法相同,都是基于高斯混合模型-通用背景模型GMM-UBM(Gaussian Mixture Model-Universal Background Model),區(qū)別在于I-Vector方案是建立一個(gè)單獨(dú)的變化子空間來(lái)建模語(yǔ)音信號(hào)的不同變化,包括說(shuō)話人信息和信道信息變化,如下公式為其核心思想:

        Vs=m+Tws

        (12)

        式中:Vs表示說(shuō)話人s的GMM均值超矢量,m是UBM均值超矢量,用來(lái)表示與說(shuō)話人和信道無(wú)關(guān)的信息,T是一個(gè)總變化子空間矩陣,完成高維的GMM均值超矢量到低維空間的映射,生成低維的矢量ws,稱為身份認(rèn)證矢量identity vector,簡(jiǎn)稱I-Vector,具有話者區(qū)分性,并且服從標(biāo)準(zhǔn)正態(tài)分布。UBM和T的訓(xùn)練過(guò)程以及I-Vector的提取參見(jiàn)文獻(xiàn)[17]。

        因?yàn)镮-Vector具有很好的說(shuō)話人區(qū)分性,而語(yǔ)音特征中包含了說(shuō)話人信息,我們的目的是去掉語(yǔ)音特征中的說(shuō)話人信息,保留語(yǔ)義信息,使語(yǔ)音特征更加說(shuō)話人歸一化。所以我們使用I-Vector來(lái)輔助DNN進(jìn)行聲學(xué)建模,使其能夠應(yīng)對(duì)不同說(shuō)話人的語(yǔ)音。

        3 SA-DNN說(shuō)話人自適應(yīng)

        基于神經(jīng)網(wǎng)絡(luò)的說(shuō)話人自適應(yīng)模型結(jié)構(gòu)如圖2所示。在初始的DNN模型的前幾層中插入所有說(shuō)話人共享的自適應(yīng)層,如圖中的深色長(zhǎng)條所示。它對(duì)應(yīng)于目標(biāo)說(shuō)話人的身份信息I-Vector向量,對(duì)每個(gè)說(shuō)話人的語(yǔ)音進(jìn)行識(shí)別時(shí),分別提取其對(duì)應(yīng)的I-Vector,按照?qǐng)D2前向計(jì)算方式進(jìn)行解碼計(jì)算。

        圖2 SA-DNN網(wǎng)絡(luò)模型結(jié)構(gòu)

        本文中新的神經(jīng)網(wǎng)絡(luò)叫SA-DNN,在后續(xù)實(shí)驗(yàn)中會(huì)依次加入1到5層的自適應(yīng)層,研究其性能變化,SA-DNN網(wǎng)絡(luò)的前向計(jì)算公式如公式所示:

        (13)

        (14)

        式中:P為自適應(yīng)層數(shù),Vi為自適應(yīng)層的全連接矩陣,ws為目標(biāo)說(shuō)話人的I-Vector向量,其他參數(shù)和第1節(jié)的DNN模型相同。

        加入自適應(yīng)層的目的是通過(guò)嵌入I-Vector向量來(lái)逐層變換特征,去除特征中的說(shuō)話人信息,保留其語(yǔ)義信息,將說(shuō)話人相關(guān)特征變成說(shuō)話人無(wú)關(guān)特征。

        圖3為測(cè)試集中的一條語(yǔ)音特征,分別通過(guò)SA-DNN和DNN模型得到第二個(gè)隱藏層輸出,在經(jīng)過(guò)PCA降到2維的平面空間,兩圖中點(diǎn)的個(gè)數(shù)相同。因?yàn)檎Z(yǔ)音中主要包含有語(yǔ)義信息和說(shuō)話人信息,經(jīng)過(guò)PCA降到2維之后,x坐標(biāo)代表語(yǔ)義信息,y坐標(biāo)代表說(shuō)話人信息。由圖3可以看出(這里x坐標(biāo)和y坐標(biāo)單位尺度都相同),雖然在尺度上x坐標(biāo)和y坐標(biāo)都有相應(yīng)的減少,但是相對(duì)于右圖的圓形,左圖在y坐標(biāo)方向被顯示壓縮,像一個(gè)長(zhǎng)方形,表明SA-DNN模型能夠很明顯地減少特征中的說(shuō)話人信息,使得特征更加具有語(yǔ)義區(qū)分性。

        圖3 網(wǎng)絡(luò)特征的PCA降維

        進(jìn)行SA-DNN的訓(xùn)練時(shí),我們主要學(xué)習(xí)兩種類型參數(shù),第一個(gè)是普通的DNN權(quán)值,第二個(gè)是自適應(yīng)層權(quán)值,普通的DNN權(quán)值的更新公式如式(8)、式(9)所示,自適應(yīng)層的權(quán)值更新也是采用誤差反向傳播算法,自適應(yīng)層的梯度如下:

        (15)

        利用梯度下降算法更新自適應(yīng)層的權(quán)值參數(shù),更新公式如下:

        (16)

        由于梯度消失問(wèn)題的存在,造成對(duì)于深層的神經(jīng)網(wǎng)絡(luò),反向傳播的梯度(從輸出層到網(wǎng)絡(luò)的最初幾層)的幅度會(huì)急劇減小,所以用梯度下降法更新網(wǎng)絡(luò)權(quán)重時(shí),最初幾層的權(quán)重變化非常緩慢,以至于它們不能從樣本中進(jìn)行有效的學(xué)習(xí)。而且本文中自適應(yīng)層是插入DNN的最初幾層網(wǎng)絡(luò)中的,分布著更多的權(quán)重。

        針對(duì)這個(gè)問(wèn)題,可以對(duì)網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練,使用棧式降噪自編碼器SDA(Stacked Denoising Autoencoder)[18]分層預(yù)訓(xùn)練網(wǎng)絡(luò),得到一個(gè)較好的網(wǎng)絡(luò)初始值。最后利用BP算法來(lái)微調(diào)網(wǎng)絡(luò),SDA是由多層的DA組成,前一層DA的隱藏層輸出作為下一層DA的輸入,每個(gè)DA的輸入層和隱藏層對(duì)應(yīng)于DNN的相鄰兩層,如圖4所示。

        圖4 SDA預(yù)訓(xùn)練框圖

        SDA參數(shù)的獲取采用逐層貪婪訓(xùn)練,先利用訓(xùn)練集數(shù)據(jù)訓(xùn)練第一層DA,得到DNN的輸入層和第一個(gè)隱藏層之間的權(quán)值W1和偏置b1。接著將原始數(shù)據(jù)通過(guò)訓(xùn)練好的第一層DA得到隱藏層的輸出激活值,作為第二層DA的輸入。繼續(xù)訓(xùn)練第二層DA,得到DNN的第二個(gè)隱藏層和第三個(gè)隱藏層之間的權(quán)值W2和偏置b2。對(duì)后面各個(gè)層依次采用同樣的方式,即前一個(gè)DA隱藏層輸出作為后一層DA的輸入,訓(xùn)練每一層網(wǎng)絡(luò)時(shí),固定其他層參數(shù)不變,上述過(guò)程叫做預(yù)訓(xùn)練。

        對(duì)于本文的SA-DNN模型,我們將自適應(yīng)層的I-Vector和隱藏層輸出值拼接作為一層DA的輸入進(jìn)行訓(xùn)練,其他層還是按照正常的預(yù)訓(xùn)練方式進(jìn)行。

        4 實(shí)驗(yàn)結(jié)果與分析

        4.1 實(shí)驗(yàn)語(yǔ)料及系統(tǒng)評(píng)估指標(biāo)

        實(shí)驗(yàn)數(shù)據(jù)為標(biāo)準(zhǔn)的TEDLIUM數(shù)據(jù)集,是由LIUM團(tuán)隊(duì)(CMUSphinx開(kāi)源語(yǔ)音識(shí)別工具的貢獻(xiàn)者)制作,專門用于語(yǔ)音識(shí)別任務(wù)的開(kāi)放數(shù)據(jù)。語(yǔ)料庫(kù)中都是TED的演講音頻、相應(yīng)的標(biāo)注文本和發(fā)音字典,語(yǔ)料庫(kù)共分成訓(xùn)練集、發(fā)展集、測(cè)試集,其中訓(xùn)練集中包含了774個(gè)TED演講,一共118小時(shí),解碼是在發(fā)展集(包含8個(gè)演講音頻)和測(cè)試集(11個(gè)演講音頻)中進(jìn)行的。語(yǔ)料庫(kù)中每一個(gè)TED演講都是一個(gè)說(shuō)話人,所有解碼使用Cantab-TEDLIUM Release 1.1提供的3-gram語(yǔ)言模型。

        系統(tǒng)評(píng)價(jià)指標(biāo)為自動(dòng)語(yǔ)音識(shí)別中的單詞錯(cuò)誤率WER(Word Error Rate)。設(shè)N為語(yǔ)料庫(kù)測(cè)試集合中人工標(biāo)注的單詞總數(shù)(正確單詞數(shù)),標(biāo)注文本為T,解碼后產(chǎn)生解碼文本O,計(jì)算文本T和文本O的最小編輯距離,即得到插入詞個(gè)數(shù)I,刪除詞個(gè)數(shù)D,替換詞個(gè)數(shù)R,如式(17)為WER的計(jì)算公式:

        (17)

        4.2 實(shí)驗(yàn)工具

        實(shí)驗(yàn)的軟件環(huán)境為開(kāi)源的Kaldi語(yǔ)音識(shí)別系統(tǒng)[19]和PDNN框架[20],采用Kaldi進(jìn)行數(shù)據(jù)準(zhǔn)備、特征提取、HMM-GMM模型訓(xùn)練、語(yǔ)言模型集成、解碼網(wǎng)絡(luò)搭建。使用PDNN進(jìn)行神經(jīng)網(wǎng)絡(luò)聲學(xué)模型訓(xùn)練。

        4.3 DNN基線系統(tǒng)

        在進(jìn)行DNN模型訓(xùn)練之前,需要訓(xùn)練HMM-GMM模型,采用13維的美爾頻率倒譜系數(shù)MFCC(Mel-Frequency Cepstrum Cofficients)及其一階和二階差分,總共39維的MFCC特征。對(duì)每個(gè)說(shuō)話人的所有語(yǔ)音數(shù)據(jù),采用倒譜均值方差歸一化CMVN(Cepstrum Mean and Variance Normalization)對(duì)特征進(jìn)行預(yù)處理,訓(xùn)練三音素HMM-GMM系統(tǒng)。然后將39維的特征左右擴(kuò)4幀,經(jīng)過(guò)線性判別分析LDA(Linear Discriminant Analysis)變換降到40維的特征。接著在40維的特征上進(jìn)行最大似然線性變換MLLT(Maximum Likelihood Linear Transform),得到LDA+MLLT的HMM-GMM系統(tǒng)。最后再利用特征空間最大似然線性回歸fMLLR(Feature-space Maximum Likelihood Linear Regression)技術(shù)對(duì)39維的MFCC特征進(jìn)行歸一化處理[21]。使用新的fMLLR特征繼續(xù)優(yōu)化HMM-GMM系統(tǒng),從而構(gòu)成了LDA+MLLT+fMLLR的HMM-GMM語(yǔ)音識(shí)別系統(tǒng),這里HMM中共有4 082個(gè)上下文相關(guān)的HMM狀態(tài)數(shù)。

        通過(guò)上面訓(xùn)練得到較好的三音素HMM-GMM識(shí)別系統(tǒng),將訓(xùn)練數(shù)據(jù)在系統(tǒng)上進(jìn)行強(qiáng)制對(duì)齊,得到每一幀語(yǔ)音對(duì)應(yīng)的真實(shí)標(biāo)簽(上下文相關(guān)的HMM狀態(tài)ID)。此時(shí)用于有監(jiān)督的DNN模型訓(xùn)練,實(shí)驗(yàn)采用兩種特征進(jìn)行DNN模型訓(xùn)練,40維fbank特征(Filter Bank Feature)[22],按照每個(gè)說(shuō)話人進(jìn)行CMVN規(guī)整和上述生成的40維的fMLLR特征,特征左右擴(kuò)5幀,得到440維的DNN輸入,隱藏層有6層,每層的節(jié)點(diǎn)數(shù)為1 024個(gè),softmax層的節(jié)點(diǎn)數(shù)為上下文相關(guān)的HMM狀態(tài)數(shù)4 082個(gè)。此時(shí)DNN網(wǎng)絡(luò)結(jié)構(gòu)為440-1024-1024-1024-1024-1024-1024-4082,訓(xùn)練集和交叉驗(yàn)證集分別占訓(xùn)練數(shù)據(jù)的95%和5%。

        在進(jìn)行訓(xùn)練之前,先進(jìn)行SDA預(yù)訓(xùn)練,這里是對(duì)每個(gè)隱藏層進(jìn)行5輪SDA預(yù)訓(xùn)練。然后利用BP算法進(jìn)行全局微調(diào),在訓(xùn)練過(guò)程中初始的學(xué)習(xí)率設(shè)為0.08。當(dāng)兩輪訓(xùn)練之后驗(yàn)證集的誤差小于一定值時(shí),學(xué)習(xí)率減半,直到固定的減半次數(shù)。在不同的數(shù)據(jù)集合,根據(jù)實(shí)驗(yàn)確定這些學(xué)習(xí)參數(shù),表1為兩種特征的基線系統(tǒng)性能。

        表1 DNN基線系統(tǒng)的WER

        4.4 SA-DNN系統(tǒng)

        實(shí)驗(yàn)首先對(duì)訓(xùn)練集和測(cè)試集的每條句子提取I-Vector向量,這里通用背景模型UBM和總變化矩陣T在語(yǔ)料庫(kù)的整個(gè)訓(xùn)練集中訓(xùn)練得到,提取的I-Vector為100維,并且做過(guò)長(zhǎng)度規(guī)整。

        接著分別在DNN模型上加入1到5層自適應(yīng)層。表2為不同情況下的測(cè)試集WER指標(biāo)。

        表2 不同自適應(yīng)層數(shù)的測(cè)試集的WER %

        從表2可以看到,當(dāng)加入1、2層自適應(yīng)層時(shí),效果優(yōu)于基線系統(tǒng),但當(dāng)加到3、4、5層自適應(yīng)層之后,效果比基線系統(tǒng)還要差。原因是,訓(xùn)練數(shù)據(jù)不夠,只有100多個(gè)小時(shí),自適應(yīng)層越多時(shí),網(wǎng)絡(luò)參數(shù)越多,訓(xùn)練出現(xiàn)過(guò)擬合。在訓(xùn)練過(guò)程中自適應(yīng)層為3、4、5層時(shí),訓(xùn)練集和交叉驗(yàn)證集正確率相差較大,且驗(yàn)證集的正確率不高,下面在另一個(gè)較大的數(shù)據(jù)集上能夠驗(yàn)證這個(gè)解釋。

        4.5 Switchboard語(yǔ)料庫(kù)下的實(shí)驗(yàn)

        實(shí)驗(yàn)進(jìn)一步在Switchboard-I電話語(yǔ)料庫(kù)上開(kāi)展。訓(xùn)練集合包含309小時(shí)的Switchboard-I和20小時(shí)的Call Home English,總共1 540個(gè)不同說(shuō)話人,測(cè)試集為eval2000(Hub5’00),包含1 831條來(lái)自40個(gè)說(shuō)話人的語(yǔ)音,所有的解碼都使用了來(lái)自Switchboard-I的標(biāo)注文本訓(xùn)練的bigram語(yǔ)言模型。

        從表3可以看出,當(dāng)訓(xùn)練數(shù)據(jù)增大時(shí),自適應(yīng)層為3、4、5層時(shí),效果依然要好于基線系統(tǒng)。這表明在DNN模型上加入輔助信息是有利于提升系統(tǒng)性能,當(dāng)超過(guò)3層時(shí),效果會(huì)趨向于一個(gè)固定值,表明層數(shù)增加已經(jīng)無(wú)法提升系統(tǒng)性能。

        表3 Switchboard的不同自適應(yīng)層數(shù)的測(cè)試集的WER %

        圖5為兩種數(shù)據(jù)集下兩種特征在不同自適應(yīng)層數(shù)的測(cè)試集WER曲線圖。從圖中可以看出,fMLLR特征相比于fbank特征有更好的效果,當(dāng)自適應(yīng)層為2層時(shí),效果最好,2層的自適應(yīng)層已經(jīng)能夠?qū)⒄f(shuō)話人相關(guān)特征映射到說(shuō)話人無(wú)關(guān)空間,此時(shí)系統(tǒng)性能最優(yōu)。自適應(yīng)層數(shù)過(guò)多時(shí),會(huì)造成網(wǎng)絡(luò)中存在更多的冗余連接,會(huì)影響系統(tǒng)性能,超過(guò)2層之后,當(dāng)訓(xùn)練數(shù)據(jù)較小時(shí),訓(xùn)練的網(wǎng)絡(luò)容易出現(xiàn)過(guò)擬合,系統(tǒng)性能就會(huì)下降,甚至?xí)陀诨€系統(tǒng)。

        圖5 自適應(yīng)層數(shù)對(duì)錯(cuò)誤率曲線

        5 結(jié) 語(yǔ)

        本文提出了一種HMM-DNN框架下的快速說(shuō)話人自適應(yīng)的方法。通過(guò)在DNN模型上引入所有說(shuō)話人共享的自適應(yīng)層,結(jié)合說(shuō)話人I-Vector信息,能夠逐層去除特征中說(shuō)話人差異信息,保留待識(shí)別的語(yǔ)義信息,減小說(shuō)話人音素的影響,實(shí)現(xiàn)快速說(shuō)話人自適應(yīng),提高系統(tǒng)識(shí)別準(zhǔn)確率。

        這種結(jié)構(gòu)具有可擴(kuò)展性,接下來(lái)的工作會(huì)在遞歸神經(jīng)網(wǎng)絡(luò)RNN(Recurrent Neural Network)、卷積神經(jīng)網(wǎng)絡(luò)CNN(Convolution Neural Network)上應(yīng)用。

        [1] Hinton Geoffrey, Deng Li, Yu Dong, et al. Deep Neural Networks for Acoustic Modeling in Speech Recognition: The Shared Views of Four Research Groups[J]. IEEE Signal Processing Magazine, 2012, 29(6):82-97.

        [2] Leggetter C J, Woodland P C. Maximum likelihood linear regression for speaker adaptation of continuous density hidden Markov models[J]. Compute speech & language, 1995,9(2): 171-185.

        [3] Gales M J F. Maximum likelihood linear transformations for HMM-based speech recognition [J]. Computer Speech & Language, 1998, 12(2):75-98.

        [4] Yu D, Yao K, Su H, et al. KL-divergence regularized deep neural network adaptation for improved large vocabulary speech recognition[C]//Acoustics Speech and Signal Processing (ICASSP), 2013 IEEE International Conference on. IEEE, 2013: 7893-7897.

        [5] Seide F, Li G, Chen X, et al. Feature engineering in context-dependent deep neural networks for conversational speech transcription [C]//Automatic Speech Recognition and Understanding (ASRU) 2011 IEEE Workshop on. IEEE, 2011: 24-29.

        [6] Li B, Sim K C. Comparison of discriminative input and output transformations for speaker adaptation in the hybrid NN/HMM systems[C]//INTERSPEECH 2010, Conference of the International Speech Communication Association, Makuhari, Chiba, Japan, September. DBLP, 2010:526-529.

        [7] Yao K, Yu D, Seide F, et al. Adaptation of context-dependent deep neural networks for automatic speech recognition[C]//Spoken Language Technology Workshop (SLT), 2012 IEEE. IEEE, 2012: 366-369.

        [8] Samarakoon L, Sim K C. Factorized hidden layer adaptation for deep neural network based acoustic modeling[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2016, 24(12): 2241-2250.

        [9] Swietojanski P, Li J, Renals S. Learning hidden unit contributions for unsupervised acoustic model adaptation[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2016, 24(8): 1450-1463.

        [10] Huang Z, Siniscalchi S M, Lee C H. Bayesian Unsupervised Batch and Online Speaker Adaptation of Activation Function Parameters in Deep Models for Automatic Speech Recognition[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2017, 25(1): 64-75.

        [11] Miao Y, Zhang H, Metze F. Speaker adaptive training of deep neural network acoustic models using i-vectors[J]. IEEE/ACM Transactions on Audio Speech & Language Processing, 2015, 23(11):1938-1949.

        [12] Miao Y, Zhang H, Metze F. Towards Speaker Adaptive Training of Deep Neural Network Acoustic Models[C]//Proceedings of the Annual Conference of the International Speech Communication Association, 2014:2189-2193.

        [13] Xue S, Jiang H, Dai L, et al. Speaker adaptation of hybrid NN/HMM model for speech recognition based on singular value decomposition[J]. Journal of Signal Processing Systems, 2016, 82(2): 175-185.

        [14] Huang Z, Tang J, Xue S, et al. Speaker adaptation of RNN-BLSTM for speech recognition based on speaker code[C]//Acoustics, Speech and Signal Processing (ICASSP), 2016 IEEE International Conference on. IEEE, 2016: 5305-5309.

        [15] Alex Graves. Supervised Sequence Labelling with Recurrent Neural Networks[M]. Springer, 2012.

        [16] Glembek O, Burget L, Dehak N, et al. Comparison of scoring methods used in speaker recognition with joint factor analysis[C]//Acoustics, Speech and Signal Processing (ICASSP),2009. IEEE International Conference on. IEEE, 2009: 4057-4060.

        [17] 方昕,李輝,劉青松. 利用i-vectors構(gòu)建區(qū)分性話者模型的話者確認(rèn)[J].小型微型計(jì)算系統(tǒng),2014,35(3):685-688.

        [18] Vincent P, Larochelle H, Lajoie I, et al. Stacked Denoising Autoencoders: Learning Useful Representations in a Deep Network with a Local Denoising Criterion[J]. Journal of Machine Learning Research, 2010, 11(12):3371-3408.

        [19] Povey D, Ghoshal A, Boulianne G, et al. The Kaldi speech recognition toolkit[C]//IEEE 2011 workshop on automatic speech recognition and understanding. IEEE Signal Processing Society, 2011 (EPFL-CONF-192584).

        [20] Miao Yajie. Kaldi+ PDNN: building DNN-based ASR systems with Kaldi and PDNN[Z]. arXiv preprint arXiv:1401.6984, 2014.

        [21] Povey D, Saon G. Feature and model space speaker adaptation with full covariance Gaussians[C]//INTERSPEECH 2006—Icslp, Ninth International Conference on Spoken Language Processing, Pittsburgh, Pa, Usa, September. DBLP, 2006.

        [22] Sainath T N, Kingsbury B, Mohamed A, et al. Learning filter banks within a deep neural network framework [C]//Automatic Speech Recognition and Understanding (ASRU), 2013 IEEE Workshop on. IEEE, 2013: 297-302.

        猜你喜歡
        特征信息模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        如何表達(dá)“特征”
        不忠誠(chéng)的四個(gè)特征
        抓住特征巧觀察
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        3D打印中的模型分割與打包
        展會(huì)信息
        線性代數(shù)的應(yīng)用特征
        河南科技(2014年23期)2014-02-27 14:19:15
        蜜臀av一区二区三区免费观看| 日本精品一区二区三本中文| 欧美色综合高清视频在线| 亚洲AV日韩AV高潮喷潮无码| 成人国产一区二区三区av| av在线免费高清观看| 无码人妻精品一区二区三区9厂| 亚洲精品suv精品一区二区 | 久久狠狠爱亚洲综合影院| 无码国产精品一区二区vr老人| 国产美女在线一区二区三区| 国产真实乱XXXⅩ视频| 国产特黄1区2区3区4区| 亚洲男同免费视频网站| 国产精品办公室沙发| 人人爽人人爽人人爽人人片av| 区二区欧美性插b在线视频网站| 免费人成视频欧美| 国产suv精品一区二人妻| 偷看农村妇女牲交| 国产在线精品一区二区| 国产v精品成人免费视频400条| 成年男人午夜视频在线看| 国产91精品在线观看| 国产大屁股视频免费区| 欧美乱妇高清无乱码在线观看| 国产女在线| 手机AV片在线| 亚洲精品国产一区二区免费视频| 四川丰满妇女毛片四川话| 久久人人爽天天玩人人妻精品| 男女好痛好深好爽视频一区| 国产一区二区资源在线观看| 欧美熟妇另类久久久久久多毛 | 先锋影音av最新资源| 欧美一区波多野结衣第一页| 男女搞黄在线观看视频| 91精品久久久老熟女91精品| 国产成人精品999视频| 国内揄拍国内精品| 午夜不卡亚洲视频|