亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于改進(jìn)i-vector的說話人感知訓(xùn)練方法研究

2018-05-30 01:26:56梁玉龍邱澤宇

計(jì)算機(jī)工程 2018年5期

梁玉龍,屈丹,邱澤宇

(解放軍信息工程大學(xué) 信息系統(tǒng)工程學(xué)院,鄭州 450002)

0 概述

近年來,在連續(xù)語音識(shí)別應(yīng)用中存在一個(gè)難以忽視的問題,即由訓(xùn)練數(shù)據(jù)與測(cè)試數(shù)據(jù)間的說話人不匹配導(dǎo)致的系統(tǒng)性能下降。雖然基于深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)[1-5]的語音識(shí)別系統(tǒng)極大地提升了語音識(shí)別的性能,但在該類系統(tǒng)中仍然存在一個(gè)隱含假設(shè):訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)服從相同的概率分布,該假設(shè)在實(shí)際中很難滿足,主要原因是訓(xùn)練階段難以獲得與測(cè)試環(huán)境相匹配的數(shù)據(jù),或匹配數(shù)據(jù)較少,通常不能對(duì)應(yīng)用場(chǎng)景進(jìn)行全覆蓋,使得訓(xùn)練和測(cè)試的條件仍存在不匹配的問題。

可以使用說話人自適應(yīng)技術(shù)解決模型和測(cè)試間說話人不匹配的問題,對(duì)此,許多研究機(jī)構(gòu)已經(jīng)做了大量關(guān)于DNN自適應(yīng)方面的研究。這些方法中,文獻(xiàn)[6-12]中基于辨識(shí)向量(i-vector)的說話人感知訓(xùn)練方法備受青睞,其基本思想是將i-vector和原始輸入特征拼接后對(duì)DNN模型進(jìn)行訓(xùn)練,該方法操作簡(jiǎn)單且容易與其他自適應(yīng)方法兼容。上述文獻(xiàn)主要關(guān)注純凈語音條件下的基于i-vector的說話人感知訓(xùn)練方法,文獻(xiàn)[13-15]則研究噪聲條件下基于i-vector的自適應(yīng)方法,研究結(jié)果顯示基于i-vector的說話人感知訓(xùn)練方法同樣適用于噪聲條件。

雖然學(xué)者們針對(duì)基于i-vector的說話人感知訓(xùn)練做了大量研究,但由于在獲取i-vector的過程中常使用MFCC作為特征,MFCC雖然具有較好的表征能力和一定的魯棒性,但其低層特征表征能力有限,且在惡劣環(huán)境中的魯棒性欠佳,導(dǎo)致用其提取的i-vector表征能力受到影響。一些研究機(jī)構(gòu)試圖應(yīng)用其他魯棒性更強(qiáng)的特征代替MFCC特征來獲取性能更優(yōu)的i-vector,其中優(yōu)先考慮的是瓶頸(bottleneck)特征[16],該特征的表征能力和魯棒性均優(yōu)于MFCC,因此,其受到各研究機(jī)構(gòu)的普遍青睞,但由于在提取bottleneck特征時(shí),在DNN結(jié)構(gòu)中引入了bottleneck層,該策略降低了DNN的幀分類準(zhǔn)確率,使得系統(tǒng)的識(shí)別性能受到一定的影響。

針對(duì)上述問題,本文提出一種基于改進(jìn)i-vector的說話人感知訓(xùn)練方法,其主要特點(diǎn)是在獲取i-vector的過程中替換掉傳統(tǒng)特征MFCC。首先,訓(xùn)練一個(gè)與說話人無關(guān)的DNN模型;然后,應(yīng)用奇異值矩陣分解(Singular Value Matrix Decomposition,SVMD)算法對(duì)DNN某一隱層的權(quán)值矩陣進(jìn)行分解,用分解后的矩陣代替原始權(quán)值矩陣,并應(yīng)用該網(wǎng)絡(luò)提取低維特征;最后,應(yīng)用該特征完成i-vector提取器的訓(xùn)練與i-vector的提取,進(jìn)行說話人感知訓(xùn)練。

1 基于i-vector的說話人感知訓(xùn)練方法

將說話人信息輸入到DNN后,DNN能自動(dòng)利用說話人信息對(duì)網(wǎng)絡(luò)參數(shù)進(jìn)行調(diào)整,該方法稱為說話人感知訓(xùn)練[17]。

1.1 訓(xùn)練方法原理

說話人感知訓(xùn)練方法即從句子中估計(jì)說話人信息,然后將這些信息輸入到網(wǎng)絡(luò)中,通過DNN訓(xùn)練算法自動(dòng)理解如何利用這些說話人信息完成模型參數(shù)的調(diào)整。圖1所示為說話人感知訓(xùn)練過程示意圖,DNN的輸入包括聲學(xué)特征和說話人信息2個(gè)部分,其余部分與DNN模型相同。

圖1 基于i-vector的說話人感知訓(xùn)練過程

當(dāng)輸入特征不包含說話人信息時(shí),第一個(gè)隱層的激勵(lì)為:

v1=f(z1)=f(W1v0+b1)

(1)

其中,v0表示輸入聲學(xué)特征向量,W1表示權(quán)值矩陣,b1表示偏置向量,z1表示輸入聲學(xué)特征向量的線性變換。當(dāng)加入說話人信息后,式(1)變?yōu)?

(2)

說話人感知訓(xùn)練的優(yōu)點(diǎn)是其暗含、高效的自適應(yīng)過程。由式(2)可以看出,說話人感知訓(xùn)練算法無需單獨(dú)的自適應(yīng)步驟,其自適應(yīng)過程可以理解為對(duì)偏置項(xiàng)做的變換,該過程使得模型對(duì)不同的說話人都適用。如果能夠可靠地將說話人信息估計(jì)出來,則說話人感知訓(xùn)練將在DNN自適應(yīng)框架中具有優(yōu)勢(shì)。

1.2 i-vector原理

i-vector技術(shù)在說話人識(shí)別及說話人確認(rèn)中作為說話人信息矢量被廣泛應(yīng)用,該技術(shù)之所以有如此廣泛的應(yīng)用,原因主要有以下2點(diǎn):1) i-vector表示了說話人特征中最重要的信息,且其值是低維的;2) i-vector不僅可以用于GMM模型的自適應(yīng),也可以用于DNN模型的自適應(yīng)。因此,i-vector可以作為說話人自適應(yīng)的一個(gè)理想工具。下文介紹i-vector的計(jì)算推導(dǎo)過程[17]。

i-vector提取首先需要訓(xùn)練一個(gè)通用背景模型(Universal Background Model,UBM),UBM是一個(gè)由K個(gè)對(duì)角協(xié)方差高斯組成的高斯混合模型,用來描述整個(gè)數(shù)據(jù)空間的分布,該模型可以表示為:

(3)

(4)

其中,μk(s)表示第s個(gè)說話人從UBM自適應(yīng)得到的屬于第k個(gè)高斯分布的均值。進(jìn)一步假設(shè)自適應(yīng)后的說話人均值s與均值μk存在如下關(guān)系:

μk(s)=μk+Tkw(s),1≤k≤K

(5)

其中,Tk表示全變換空間矩陣,其包含M個(gè)基矢量,這些基矢量組成了高斯均值向量空間的一個(gè)子空間,該子空間包含整個(gè)均值向量空間最核心的部分,w(s)表示第s個(gè)說話人的i-vector。

i-vector是一個(gè)隱含變量,如果假設(shè)i-vector滿足均值為0、方差為單位方差的高斯分布,且每一幀都屬于某一固定的高斯分量,同時(shí)全變換空間矩陣T是已知的,則可以估計(jì)后驗(yàn)概率分布如下:

(6)

(7)

零階與一階統(tǒng)計(jì)量分別為:

(8)

(9)

其中,γtk(s)是第s個(gè)說話人的第t幀特征序列屬于第k個(gè)高斯分量的后驗(yàn)概率。i-vector可以看作是變量W在最大后驗(yàn)概率(MAP)下的點(diǎn)估計(jì):

(10)

由式(10)可以看出,i-vector就是后驗(yàn)分布的均值。

由于{Tk|1≤k≤K}是未知的,因此需要使用期望最大化(Expectation Maximization,EM)算法從特定說話人的聲學(xué)特征{xt(s)}中,根據(jù)最大似然(Maximum Likelihood,ML)準(zhǔn)則來進(jìn)行估計(jì)。其中,EM算法的E(Expectation)步驟的輔助函數(shù)為:

(11)

式(11)等價(jià)于:

(12)

將式(12)對(duì)Tk求導(dǎo)后可以得到EM算法的M(Maximization)步驟:

(13)

其中,式(14)與式(15)通過E步驟得到。

(14)

(15)

2 基于改進(jìn)i-vector的說話人感知訓(xùn)練方法

2.1 改進(jìn)的i-vector提取方法

傳統(tǒng)的i-vector提取方法用MFCC作為輸入特征,為使i-vector的魯棒性更強(qiáng),一些研究機(jī)構(gòu)利用bottleneck特征代替MFCC特征,實(shí)現(xiàn)i-vector提取器的訓(xùn)練與i-vector的提取。但在提取bottleneck特征時(shí),設(shè)置的DNN網(wǎng)絡(luò)bottleneck層節(jié)點(diǎn)數(shù)遠(yuǎn)小于其他隱層節(jié)點(diǎn)數(shù),導(dǎo)致系統(tǒng)的幀分類準(zhǔn)確率受到影響,為此,本文提出應(yīng)用基于SVD的低維特征提取方法得到低維特征,用其代替MFCC特征完成i-vector提取器的訓(xùn)練與i-vector的提取。

目前研究DNN模型的矩陣分解方法主要關(guān)注神經(jīng)網(wǎng)絡(luò)的參數(shù)減少,如文獻(xiàn)[18]提出的思想。這些方法分解DNN模型的權(quán)值,利用低秩分解或SVD減少神經(jīng)網(wǎng)絡(luò)無用參數(shù)的數(shù)量,但其重構(gòu)的神經(jīng)網(wǎng)絡(luò)在識(shí)別精度上沒有太大變化。基于SVD的低維特征提取方案如圖2所示,該方法使用SVD對(duì)某一隱層的權(quán)值矩陣進(jìn)行分解(該權(quán)值矩陣不包括偏移向量),將分解后得到的基矩陣代替原始矩陣,然后應(yīng)用新的網(wǎng)絡(luò)提取低維特征。

圖2 基于SVD的低維特征提取方法示意圖

采用基于SVD的低維特征提取方法的原因有2點(diǎn):

1)因?yàn)闊o法直接對(duì)隱層的線性輸出進(jìn)行變換,所以需要使用間接方法,在計(jì)算DNN隱層的線性輸出時(shí),層與層間的權(quán)值矩陣作用于每一幀特征,因此,可以將權(quán)值矩陣看作是一種具有一定的整體分布特性的廣義映射函數(shù)。

2)同一層的權(quán)值矩陣與偏置向量沒有整體性聯(lián)系,很難對(duì)偏移向量和權(quán)值矩陣同時(shí)進(jìn)行操作,因此,在該特征層不設(shè)置偏移向量。

用SVD算法對(duì)權(quán)值矩陣進(jìn)行分解的過程表示為:

(16)

其中,A為帶分解矩陣,U為一個(gè)m×m的U矩陣,矩陣U為一個(gè)m×n的對(duì)角矩陣且其對(duì)角線上的元素非負(fù),VT為V的轉(zhuǎn)置,S的對(duì)角線元素是矩陣A的奇異值,奇異值按降序排列,在這種情況下,對(duì)角矩陣S由A唯一確定。此時(shí)可以保存k個(gè)奇異值和A的近似矩陣Um×kNk×n。

2.2 訓(xùn)練方法步驟

獲取改進(jìn)的i-vector后,將得到的改進(jìn)i-vector與原始輸入特征進(jìn)行拼接,得到新的包含說話人信息的輸入特征后,利用該特征對(duì)模型進(jìn)行訓(xùn)練與識(shí)別?；诟倪M(jìn)i-vector的說話人感知訓(xùn)練方法過程如圖3所示。

圖3 基于改進(jìn)i-vector的說話人感知訓(xùn)練示意圖

該訓(xùn)練方法的主要步驟如下:

1)訓(xùn)練數(shù)據(jù)模型SI-DNN;

2)應(yīng)用SVD對(duì)最后一層隱層權(quán)值矩陣進(jìn)行分解,并用該結(jié)果代替原始權(quán)值矩陣;

3)應(yīng)用網(wǎng)絡(luò)提取新的低維特征;

4)應(yīng)用低維特征進(jìn)行i-vector的提取;

5)應(yīng)用改進(jìn)的i-vector進(jìn)行說話人感知訓(xùn)練。

3 實(shí)驗(yàn)結(jié)果與分析

3.1 語料庫簡(jiǎn)介

為驗(yàn)證本文所提特征的識(shí)別性能,采用如下2種語料庫進(jìn)行測(cè)試:

1)WSJ語料庫,國(guó)際通用的英文語料庫,數(shù)據(jù)由麥克風(fēng)在安靜環(huán)境下錄制得來。訓(xùn)練集包含WSJ 0和WSJ 1兩部分,共81.3 h。其中,WSJ 0包含84個(gè)說話人,共7 138句,總時(shí)長(zhǎng)為15.1 h,WSJ 1包含200個(gè)說話人,共30 278句,總時(shí)長(zhǎng)為66.2 h。測(cè)試集包括Eval 92和Dev 93兩部分。本文使用Dev 93作為測(cè)試集,該部分包含10個(gè)說話人,共503句,總時(shí)長(zhǎng)為65 min。

2)Vystadial 2013 Czech data(Vystadial_cz),開源的捷克語語料庫,總時(shí)長(zhǎng)約15 h,主要由3類數(shù)據(jù)組成:Call Friend電話服務(wù)語音數(shù)據(jù)、Repeat After Me語音數(shù)據(jù)和Public Transport Info口語對(duì)話系統(tǒng)語音數(shù)據(jù)。其中,訓(xùn)練數(shù)據(jù)集共22 567句,126 333個(gè)詞語,總時(shí)長(zhǎng)為15.25 h;測(cè)試集共2 000句,11 204個(gè)詞語,總時(shí)長(zhǎng)為1.22 h。

3.2 實(shí)驗(yàn)工具與評(píng)價(jià)指標(biāo)

3.2.1 實(shí)驗(yàn)工具

實(shí)驗(yàn)使用的工具包括2個(gè):開源工具包Kaldi和PDNN+Kaldi。Kaldi工具包主要實(shí)現(xiàn)數(shù)據(jù)準(zhǔn)備、特征提取、語言模型和聲學(xué)模型的訓(xùn)練與解碼。PDNN工具包主要實(shí)現(xiàn)DNN的搭建與訓(xùn)練。

3.2.2 評(píng)價(jià)指標(biāo)

連續(xù)語音識(shí)別的結(jié)果一般為詞序列,采用動(dòng)態(tài)規(guī)劃算法將識(shí)別結(jié)果與正確的標(biāo)注序列對(duì)齊后進(jìn)行比較,其中產(chǎn)生的錯(cuò)誤類型分為3類:插入錯(cuò)誤,刪除錯(cuò)誤,替代錯(cuò)誤。插入錯(cuò)誤是由于在2個(gè)相鄰的標(biāo)注間插入其他詞所引起,刪除錯(cuò)誤是由于在識(shí)別結(jié)果中找不到與某個(gè)標(biāo)注對(duì)應(yīng)的詞所引起,替代錯(cuò)誤是由于識(shí)別得到的詞與對(duì)應(yīng)的標(biāo)注不相符所引起。

假設(shè)某個(gè)測(cè)試集中標(biāo)注的總個(gè)數(shù)為N,插入錯(cuò)誤個(gè)數(shù)為I,刪除錯(cuò)誤個(gè)數(shù)為D,代替錯(cuò)誤個(gè)數(shù)為R,則詞錯(cuò)誤率(WER)的定義如下:

(17)

該評(píng)測(cè)指標(biāo)越低,表明系統(tǒng)的識(shí)別性能越好。

3.3 基線系統(tǒng)

本文采用的基線系統(tǒng)為基于i-vector的說話人感知訓(xùn)練模型,將其命名為DNN+i-vector模型,由于實(shí)驗(yàn)中需要比較基于SVD提取的低維特征與bottleneck特征的性能,且這2個(gè)模型的訓(xùn)練都基于GMM-HMM模型,因此本節(jié)將給出這3個(gè)模型的具體參數(shù)設(shè)置。

1)GMM-HMM+LDA+MLLT+SAT模型。輸入特征為13維的MFCC特征,訓(xùn)練三音子GMM聲學(xué)模型。首先,經(jīng)過線性區(qū)分性分析(Linear Discriminant Analysis,LDA)將9幀拼接的特征降到40維;然后,采用特征空間最大似然線性回歸(feature-space Maximum Likelihood Leaner Regression,fMLLR)進(jìn)行特征歸一化;最后,進(jìn)行說話人自適應(yīng)訓(xùn)練(Speaker Adaption Training,SAT)。對(duì)于WSJ語料庫和Vystadial_cz語料庫,采用的高斯混元數(shù)均為9 000。

2)DNN-HMM/DNN-HMM+i-vector模型。采用DNN對(duì)聚類后的三音子狀態(tài)的似然度進(jìn)行建模。以WSJ語料庫的DNN模型為例,該模型包括6個(gè)隱層,每個(gè)隱層包含1 024個(gè)節(jié)點(diǎn),激活函數(shù)為Sigmoid函數(shù)。輸入層包含11幀40維fbank特征,DNN的輸入節(jié)點(diǎn)為440個(gè),輸出層節(jié)點(diǎn)數(shù)為GMM-HMM+LDA+MLLT+SAT模型中綁定后的三音子狀態(tài)數(shù),有3 415個(gè)節(jié)點(diǎn)。用后向傳播(Back Propogation,BP)算法對(duì)DNN進(jìn)行訓(xùn)練,以DNN計(jì)算得到的預(yù)估計(jì)概率分布與實(shí)際概率分布間的交叉熵作為目標(biāo)函數(shù)。在BP算法中,隨機(jī)梯度下降法的mini-batch大小為256。BP過程所用的綁定狀態(tài)標(biāo)注由GMM-HMM+LDA+MLLT+SAT模型對(duì)訓(xùn)練集進(jìn)行強(qiáng)制對(duì)齊得到。使用受限玻爾茲曼機(jī)(Restricted Boltzmann Machines,RBMs)對(duì)DNN參數(shù)初始化。最終的網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)設(shè)置為“440-1024-1024-1024-1024-1024-1024-3415”。與WSJ語料庫參數(shù)設(shè)置相似,Vystadial_cz語料庫的網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)設(shè)置為:“440-1024-1024-1024-1024-2125”。對(duì)于DNN+i-vector模型,只有輸入需要拼接100維的i-vector,因此,其輸入變?yōu)?40,其余設(shè)置相同。

3)BNF+GMM-HMM+LDA+MLLT模型。首先,采用DNN模型進(jìn)行BNF提取,然后將BNF輸入到GMM-HMM+LDA+MLLT模型中,該模型由上述第一個(gè)模型GMM-HMM+LDA+MLLT+SAT中省略最后SAT訓(xùn)練所得。對(duì)于BNF提取網(wǎng)絡(luò)而言,輸入特征與DNN模型的輸入特征相同。經(jīng)過多次實(shí)驗(yàn)表明,對(duì)于WSJ語料庫,相應(yīng)的bottleneck DNN的網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)設(shè)置為“440-1024-1024-1024-1024-40-1024-3415”時(shí)性能最佳,對(duì)于Vystadial_cz語料庫,bottleneck DNN設(shè)置為“440-1024-1024-40-1024-2125”時(shí)bottleneck特征的性能最佳。2個(gè)語料庫使用的聲學(xué)模型均為GMM-HMM+LDA+MLLT。

DNN訓(xùn)練的學(xué)習(xí)速率初始值為0.08,當(dāng)相鄰2輪訓(xùn)練的誤差小于0.2%時(shí),學(xué)習(xí)速率減半,當(dāng)減半后相鄰2輪的誤差再次小于0.2%時(shí)訓(xùn)練停止(如果一直大于0.2%,則最多進(jìn)行8次學(xué)習(xí))。沖量值設(shè)為0.5,mini-batch尺寸設(shè)為256?；€系統(tǒng)詞錯(cuò)誤率如表1所示。

表1 基線系統(tǒng)詞錯(cuò)誤率 %

3.4 基于SVD的低維特征提取

基于SVD的低維特征提取步驟為:首先,初始化一個(gè)與說話人無關(guān)的DNN模型(SI-DNN);然后,對(duì)DNN基線系統(tǒng)某一層的權(quán)值矩陣應(yīng)用SVD算法做矩陣分解;最后,用分解后的基矩陣替換原始權(quán)值矩陣。

應(yīng)用該特征重新訓(xùn)練GMM-HMM+LDA+MLLT聲學(xué)模型并解碼。其中,影響識(shí)別性能的因素主要有2個(gè):1)對(duì)DNN的哪一層權(quán)值矩陣進(jìn)行分解;2)對(duì)權(quán)值矩陣分解多少維效果更優(yōu)。根據(jù)這2個(gè)因素,本文分別做實(shí)驗(yàn)進(jìn)行驗(yàn)證。實(shí)驗(yàn)結(jié)果如表2和表3所示。

表2 WSJ語料庫DNN-SVD 詞錯(cuò)誤率結(jié)果

表3 Vystadial_cz語料庫DNN-SVD詞錯(cuò)誤率結(jié)果

表2中“SVD-1”表示最后一層隱層的權(quán)值矩陣,“SVD-2”表示倒數(shù)第2層隱層的權(quán)值矩陣,詞錯(cuò)誤率表示由DNN+矩陣分解+GMM-HMM+LDA+MLLT組成的語音識(shí)別系統(tǒng)的詞錯(cuò)誤率。從表2的結(jié)果中可以看出,對(duì)于WSJ語料庫,當(dāng)使用SVD對(duì)最后一個(gè)隱層的權(quán)值矩陣做分解并取分解維數(shù)為40時(shí),效果最好。由表3的結(jié)果可以看出,對(duì)于Vystadial_cz語料庫,當(dāng)使用SVD對(duì)最后一層隱層的權(quán)值矩陣做分解并取分解維數(shù)為30時(shí),效果最好。

由上述結(jié)果可知,基于矩陣分解的方法克服了幀分類準(zhǔn)確率下降的問題,與基線系統(tǒng)BNF+GMM-HMM+LDA+MLLT相比,其WSJ語料庫的識(shí)別性能提升了1.52%,Vystadial_cz語料庫的識(shí)別性能提升了9.11%。由于矩陣分解的算法解決了低資源情況下的數(shù)據(jù)不充分訓(xùn)練問題,因此其在數(shù)據(jù)量較小的Vystadial_cz語料庫上的識(shí)別性能提升得更高,在數(shù)據(jù)量相對(duì)充足的WSJ語料庫上性能提升不明顯。

DNN通過每層的非線性變換將輸入特征變得越來越抽象,魯棒性也越來越強(qiáng),因此,理論上由最后一層得到的特征表征能力會(huì)優(yōu)于由倒數(shù)第2層得到的特征,在WSJ與Vystadial_cz語料庫中的實(shí)驗(yàn)結(jié)果也證明了這一點(diǎn)。本文分析認(rèn)為,分解尺寸的大小應(yīng)該與數(shù)據(jù)量的多少有關(guān),超出或少于某個(gè)范圍,會(huì)導(dǎo)致特征表征稀疏或特征表示不充分,進(jìn)而導(dǎo)致系統(tǒng)的識(shí)別性能下降。

3.5 基于改進(jìn)i-vector的說話人自適應(yīng)方法

基于改進(jìn)i-vector的說話人自適應(yīng)方法步驟為:首先,將SVD-BN特征代替原MFCC特征進(jìn)行i-vector提取器的訓(xùn)練與i-vector的提取,得到改進(jìn)后的i-vector;然后,將改進(jìn)的i-vector代替原始i-vector,與DNN的輸入特征進(jìn)行拼接后送入DNN進(jìn)行訓(xùn)練與識(shí)別。該方法所用模型的其余參數(shù)設(shè)置與基線DNN+i-vector模型相同。實(shí)驗(yàn)結(jié)果如表4所示。

表4 基于改進(jìn)i-vector的說話人感知訓(xùn)練識(shí)別結(jié)果 %

由表1、表4可以看出,在Vystadial_cz語料庫中,相對(duì)DNN-HMM語音識(shí)別系統(tǒng),本文方法識(shí)別性能提升了1.62%,相對(duì)原始基于i-vector的方法,本文方法識(shí)別性能提升了1.52%。在WSJ語料庫的實(shí)驗(yàn)中,上述性能分別提升了3.9%和1.48%。實(shí)驗(yàn)結(jié)果表明,改進(jìn)的i-vector在提取時(shí)應(yīng)用了基于SVD分解得到的低維特征,該特征克服了幀分類準(zhǔn)確率下降的問題,因此,其魯棒性與表征能力更優(yōu),使得到的i-vector包含更有用的說話人信息,最終使得整個(gè)識(shí)別系統(tǒng)的性能得到提升。

4 結(jié)束語

傳統(tǒng)的i-vector提取方法主要應(yīng)用MFCC作為輸入特征。由于MFCC的魯棒性與表征能力均較差,因此本文提出一種基于改進(jìn)i-vector的說話人自適應(yīng)方法,該方法在一定程度上克服了幀分類準(zhǔn)確率下降的問題,由其提取的特征表現(xiàn)出了較好的魯棒性。實(shí)驗(yàn)結(jié)果表明,相比原有基于i-vector的方法,該方法的系統(tǒng)識(shí)別性能較高。下一步將考慮應(yīng)用更優(yōu)的算法以獲取更有效的特征表征,使系統(tǒng)更魯棒、識(shí)別率更高。

[1] HINTON G,DENG L,YU D,et al.Deep neural networks for acoustic modeling in speech recognition:the shared views of four research groups[J].IEEE Signal Processing Magazine,2012,29(6):82-97.

[2] DAHL G E,YU D,DENG L,et al.Context-dependent pre-trained deep neural networks for large-vocabulary speech recognition[J].IEEE Transactions on Audio Speech and Language Processing,2012,20(1):30-42.

[3] 李傳朋,秦品樂,張晉京.基于深度卷積神經(jīng)網(wǎng)絡(luò)的圖像去噪研究[J].計(jì)算機(jī)工程,2017,43(3):253-260.

[4] 梁玉龍,屈丹,李真,等.基于卷積神經(jīng)網(wǎng)絡(luò)的維吾爾語語音識(shí)別[J].信息工程大學(xué)學(xué)報(bào),2017,18(1):44-50.

[5] 秦楚雄,張連海.低資源語音識(shí)別中融合多流特征的卷積神經(jīng)網(wǎng)絡(luò)聲學(xué)建模方法[J].計(jì)算機(jī)應(yīng)用,2016,36(9):2609-2615.

[6] LIAO H.Speaker adaptation of context dependent deep neural networks[C]//Proceedings of 2013 IEEE International Conference on Acoustics,Speech and Signal Processing.Washington D.C.,USA:IEEE Press,2013:7947-7951.

[7] SEIDE F,LI G,CHEN X,et al.Feature engineering in context-dependent deep neural networks for conversational speech transcription[C]//Proceedings of IEEE Workshop on Automatic Speech Recognition and Understanding.Washington D.C.,USA:IEEE Press,2011:24-29.

[8] YAO K,YU D,SEIDE F,et al.Adaptation of context-dependent deep neural networks for automatic speech recognition[C]//Proceedings of 2012 IEEE Workshop on Spoken Language Technology.Washington D.C.,USA:IEEE Press,2012:366-369.

[9] HAMID O A,JIANG H.Rapid and effective speaker adaptation of convolutional neural network based models for speech recognition[EB/OL].[2017-04-25].http://www.isca-speech.org/archive/archive_papers/interspeech_2013/i13_1248.pdf.

[10] SELTZER M,YU D,WANG Y.An investigation of deep neural networks for noise robust speech recognition[C]//Proceedings of 2013 IEEE International Conference on Acoustics,Speech and Signal Processing.Washington D.C.,USA:IEEE Press,2013:7398-7402.

[11] YOSHIOKA T,RAGNI A,GALES M J.Investigation of unsupervised adaptation of DNN acoustic models with filterbank input[C]//Proceedings of 2014 IEEE International Conference on Acoustics,Speech and Signal Processing.Washington D.C.,USA:IEEE Press,2014:6344-6348.

[12] DELCROIX M,KINOSHITA K,HORI T,et al.Context adaptive deep neural networks for fast acoustic model adaptation[C]//Proceedings of 2015 IEEE International Conference on Acoustics,Speech and Signal Processing.Washington D.C.,USA:IEEE Press,2015:5270-5274.

[13] KARANASOU P,WANG Y,GALES M J F,et al.Adaptation of deep neural network acoustic models using factorized i-vectors[EB/OL].[2017-04-20].http://www.isca-speech.org/archive/archive_papers/interspeech_2014/i14_2180.pdf.

[14] SENIOR A,MORENO I L.Improving DNN speaker independence with i-vector inputs[C]//Proceedings of 2014 IEEE International Conference on Acoustics,Speech and Signal Processing.Washington D.C.,USA:IEEE Press,2014:225-229.

[15] ROUVIER M,FAVRE B.Speaker adaptation of DNN-based ASR with i-vectors:does it actually adapt models to speakers?[EB/OL].[2017-04-20].http://pageperso.lif.univ-mrs.fr/～benoit.favre/papers/favre_interspeech 2014a.pdf.

[16] YU C,OGAWA A,DELCROIX M,et al.Robust i-vector extraction for neural network adaptation in noisy environment[EB/OL].[2017-04-15].http://www.isca-speech.org/archive/interspeech_2015/papers/i15_2854.pdf.

[17] SAON G,SOLTAU H,NAHAMOO D,et al.Speaker adaptation of neural network acoustic models using i-vectors[C]//Proceedings of 2013 IEEE Workshop on Automatic Speech Recognition and Understanding.Washington D.C.,USA:IEEE Press,2013:55-59.

[18] XUE S F,HAMID O A,JIANG H,et al.Fast adaptation of deep neural network based on discriminant codes for speech recognition[J].IEEE/ACM Transactions on Audio,Speech and Language Processing,2014,22(12):1713-1725.