陳 斌,牛 銅,張連海,屈 丹,李弼程
(1.解放軍信息工程大學(xué)信息系統(tǒng)工程學(xué)院,河南鄭州 450001;2.西南電子電信技術(shù)研究所上海分所,上海 200434)
不相關(guān)匹配追蹤的分段區(qū)分性特征變換方法
陳 斌1,2,牛 銅1,張連海1,屈 丹1,李弼程1
(1.解放軍信息工程大學(xué)信息系統(tǒng)工程學(xué)院,河南鄭州 450001;2.西南電子電信技術(shù)研究所上海分所,上海 200434)
為了提高基于分幀特征變換方法的穩(wěn)定性,提出了一種基于分段的區(qū)分性特征變換方法.該方法將特征變換當(dāng)成高維信號的稀疏逼近問題,采用狀態(tài)綁定的方法訓(xùn)練得到基于域劃分的線性變換矩陣(Region Dependent Linear Transform,RDLT)和基于最小音素錯誤準(zhǔn)則均值補(bǔ)償?shù)奶卣?mean-offset feature Minimum Phone Error,m-fMPE)變換矩陣,將兩者的特征變換矩陣構(gòu)成過完備的字典;采用強(qiáng)制對齊的方式對語音信號進(jìn)行分段,以似然度最大化作為目標(biāo)函數(shù),利用匹配追蹤算法對目標(biāo)函數(shù)迭代優(yōu)化,自動地確定各語音信號段中的變換矩陣及其系數(shù).為保證特征變換的穩(wěn)定性,在選擇變換矩陣過程中引入相關(guān)度測量,去除相關(guān)的特征基矢量.實驗結(jié)果表明,相比于傳統(tǒng)的RDLT方法,當(dāng)聲學(xué)模型分別采用最大似然和區(qū)分性準(zhǔn)則訓(xùn)練時,識別性能分別可以提高1.63%和2.23%.該方法同時能應(yīng)用于語音增強(qiáng)和模型區(qū)分性訓(xùn)練中.
特征變換;語音識別;區(qū)分性訓(xùn)練;語音增強(qiáng);匹配追蹤
目前,主流語音識別系統(tǒng)中常對識別特征進(jìn)行特征變換[1,2],以進(jìn)一步得到具有魯棒性和區(qū)分性的特征.其中,采用高斯混合模型(Gaussian Mixture Model,GMM)進(jìn)行聲學(xué)空間劃分的特征變換方法應(yīng)用較為廣泛,如基于最小音素錯誤準(zhǔn)則的特征變換(feature Minimum Phone Error,fMPE)[3]和基于域劃分的線性特征變換(Region Dependent Linear Transform,RDLT)[4~6].在此基礎(chǔ)上,陸續(xù)提出了結(jié)合高斯混元參數(shù)信息的均值補(bǔ)償(mean-offset)m-fMPE[7]方法和狀態(tài)綁定的(tied-state)RDLT[8]方法,并同時應(yīng)用于深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)[9,10]中,通過調(diào)整網(wǎng)絡(luò)權(quán)值進(jìn)行特征變換[11~13].
上述區(qū)分性特征變換方法中,訓(xùn)練階段均是采用一段有限長信號求取變換矩陣,而在測試階段卻是對每一幀信號進(jìn)行特征變換和補(bǔ)償,這易造成訓(xùn)練和識別間不匹配.另外,由于語音信號具有短時平穩(wěn)性,一幀信號往往較難得到穩(wěn)定的參數(shù)信息.
為了有效地解決不匹配問題,得到穩(wěn)定的解.在測試階段,本文同樣基于一段信號進(jìn)行特征變換,即根據(jù)信號段的統(tǒng)計量信息,在訓(xùn)練得到的變換矩陣集合中,自動地選擇特征變換矩陣.在這個過程中變換矩陣個數(shù)的選取是關(guān)鍵,當(dāng)選擇的變換矩陣較少時,將不能得到精確的變換參數(shù);而當(dāng)選擇的矩陣過多時,會使得特征參數(shù)的穩(wěn)健性不夠.由于一次求解過程擁有的數(shù)據(jù)量有限,所選擇的特征變換矩陣數(shù)相比于變換矩陣集合很小,是一個稀疏逼近問題.
本文將壓縮感知理論引入到區(qū)分性特征變換中,在對語音信號分段的基礎(chǔ)上,基于每一語音段求解其特征變換矩陣.先采用狀態(tài)綁定的方式訓(xùn)練得到變換矩陣,結(jié)合RDLT特征變換矩陣和均值補(bǔ)償fMPE偏移矢量構(gòu)成過完備字典,在特征域進(jìn)行特征變換相關(guān)參數(shù)的稀疏表示,利用匹配追蹤算法自動地確定變換矩陣個數(shù)及其系數(shù),得到最終的變換矩陣.為了保證變換矩陣的穩(wěn)定性,在變換矩陣的選取過程中要求特征基矢量間不相關(guān),并進(jìn)一步討論了不同分段方法對識別結(jié)果的影響.
本文先采用狀態(tài)綁定的方法得到RDLT變換矩陣和均值補(bǔ)償fMPE偏移矢量,組成變換矩陣和偏移矢量集合,在此基礎(chǔ)上結(jié)合壓縮感知方法,采用最大似然準(zhǔn)則進(jìn)行特征變換矩陣和偏移矢量的選取.
2.1 基于狀態(tài)綁定的特征變換矩陣
2.1.1 基于域劃分的特征變換矩陣
RDLT[5]利用全局的GMM模型將聲學(xué)空間分成多個域,每個高斯混元對應(yīng)一個域劃分,通過區(qū)分性訓(xùn)練得到一個變換矩陣集合,每個變換矩陣對應(yīng)于聲學(xué)空間中的一個域.用特征向量所屬域?qū)?yīng)的變換矩陣對其進(jìn)行變換,特征所屬的域由其在高斯混元的后驗概率所決定,最終特征變換式(1)所示:
(1)
2.1.2 基于最小音素錯誤準(zhǔn)則的特征變換
fMPE[3]方法將特征在高斯混元上的后驗概率組成一個新特征,將這個特征映射為一個偏移矢量,加在原始特征上.fMPE方法中每個域?qū)?yīng)一個偏移矢量,由于偏移矢量所含的信息量有限,常通過采用增大域的個數(shù)來保證其性能.而m-fMPE[7]通過加入所在域的高斯混元參數(shù)信息,進(jìn)而提高了每一個域中的信息量,m-fMPE其變換式(2)所示:
Fm-fMPE(o(t))=o(t)+Mht
(2)
其中,ht由后驗概率向量κt和均值補(bǔ)償向量δt組成,需要求取變換矩陣M.
ht=[ηκt,δt]T
(3)
Fm-fMPE(o(t))
(4)
其中,Ma和Mb分別為m-fMPE均值補(bǔ)償向量和后驗概率向量所對應(yīng)的變換矩陣,L是聲學(xué)空間的域劃分個數(shù).基于狀態(tài)綁定的RDLT和m-fMPE的求解過程相類似,只是求微分時針對的變量不同,以及確定迭代步長時有所差異,這里根據(jù)文獻(xiàn)[8]分別進(jìn)行求解.
2.2 基于分段區(qū)分性特征變換的一般形式
不同于傳統(tǒng)方法中先驗地設(shè)定所需變換矩陣的個數(shù),再根據(jù)后驗概率值的大小進(jìn)行選擇和加權(quán).這里先對語音信號進(jìn)行分段,對每一語音段根據(jù)其聲學(xué)統(tǒng)計量信息,利用最大似然準(zhǔn)則,采用一種可變變換矩陣個數(shù)的方式,得到區(qū)分性特征變換的一般表達(dá)式.
2.2.1 基于變換矩陣字典的特征變換
設(shè)經(jīng)過域劃分后總共有R個域,每一個域?qū)?yīng)的變換矩陣為Ai,語音信號被分成S段,其中第s個語音段的特征變換可以描述為式(5):
(5)
(6)
式中,T表示語音段s中含有的總幀數(shù),聲學(xué)模型采用隱馬爾可夫模型,共含有M個高斯混元,μm和Σm分別為第m個混元的均值矢量及協(xié)方差矩陣,γm(t)表示第t幀特征矢量屬于第m個高斯混元的后驗概率,可采用Baum-Welch前后向算法計算得到.
令似然度函數(shù)
ξt=[A1o(t),A2o(t),…,ARo(t)] =[O1(t),O2(t),…,OR(t)],
(7)
由式(7)可知,基于分段的區(qū)分性特征變換是一個典型的二次優(yōu)化問題,其求解方法為:對式(7)中的似然函數(shù)關(guān)于x求導(dǎo),并令導(dǎo)數(shù)等于0,C是與變量x無關(guān)的常數(shù)項,可得式(8):
(8)
其中,
(9)
(10)
2.2.2 聯(lián)合變換矩陣和偏移矢量字典的特征變換
(11)
可令ξc,t=[O1(t),O2(t),…,OR(t),b1,b2,…,bL],z=[x1,x2,…,xR,y1,y2,…,yL],則目標(biāo)函數(shù)可以轉(zhuǎn)換為式(12):
(12)
可得到解的類似表達(dá)形式(13):
(13)
由于本文構(gòu)造的字典具有一定的冗余性,在對每一語音段進(jìn)行特征變換時,相比于未知數(shù)所擁有的數(shù)據(jù)量很有限.在求解式(8)和(13)過程中,如何利用有限的數(shù)據(jù)從一個過完備的變換矩陣字典中,選取最佳的變換矩陣及其組合系數(shù)是本文的一個關(guān)鍵問題.壓縮感知中的匹配追蹤算法能較好地解決該問題,接下來將結(jié)合匹配追蹤算法求解目標(biāo)函數(shù).由于式(8)和(13)求解過程相類似,下文中將主要介紹式(8)的求解過程,類似可以得到式(13)的解.
借鑒正交匹配追蹤(Orthogonal Matching Pursuit,OMP)[16,17]的算法思想,與最小化逼近誤差作為目標(biāo)函數(shù)不同,本文要使得似然度最大化,將似然度的變化率定義為誤差,同時采用字典項間的相關(guān)性代替正交性,得到一種不相關(guān)的匹配追蹤算法.這里字典項為變換矩陣Ai,其選取過程體現(xiàn)在特征o(t)經(jīng)過矩陣Ai變換后的特征矢量Oi(t)上.同樣采用迭代的方式求解目標(biāo)函數(shù),每次迭代包含三個步驟:第一步從大字典中選取一個使得似然度提升量最大的字典項加入到支撐集中;第二步判斷所選的字典項是否與支撐集中的字典項相關(guān);第三步更新支撐集中字典項所對應(yīng)的系數(shù).接著給出每一步驟的推導(dǎo)和求解過程.
3.1 最大似然字典項選取
支撐集選取過程為每次加入一個新字典項,所加入的字典項需使得似然度的增量值最大.第一次選取時只需滿足似然度最大即可,此時xi=[g(i,i)]-1f(i),i=1,2,…,K,K為字典的大小.將xi代入目標(biāo)函數(shù)Q(x)中,得到特征經(jīng)過第i個變換矩陣后的似然度式(14):
(14)
根據(jù)Q1(xi)使之最大,確定第一個基矢量Or1(t)的序號r1為式(15):
(15)
接著,每次在已選的支撐集中加入一個變換矩陣字典項,根據(jù)其權(quán)重系數(shù)進(jìn)行加權(quán)組合特征變換,使得變換后的特征能獲得最大的似然度提升.假設(shè)第k次迭代后所得到的支撐集為Dk={O1(t),O2(t),…,Ok(t)},其對應(yīng)的加權(quán)系數(shù)為xk,構(gòu)成子空間Γk=span{O1(t),O2(t),…,Ok(t)}.在字典D剩下的變換矩陣中進(jìn)行第k+1次迭代,選取字典項Ol(t)∈DDk,其對應(yīng)的系數(shù)為xl,此時似然度目標(biāo)函數(shù)為式(16):
(16)
(17)
將[xk,xl]代入似然度目標(biāo)函數(shù)中,可得第k+1次迭代后似然度的提升量ΔQk+1(xl):
(18)
其中,Qk(xk)為第k次迭代后得到的似然度.為使得似然度提升量最大,則第k+1次所選擇的字典項Or(k+1)(t)其相應(yīng)的序號為式(19):
(19)
3.2 相關(guān)基矢量的去除
(20)
(21)
3.3 變換矩陣權(quán)重系數(shù)的更新
(22)
(23)
4.1 實驗設(shè)置
將本文分段區(qū)分性特征變換方法應(yīng)用到連續(xù)語音識別中.實驗語料采用中文微軟語料庫Speech Corpora(Version 1.0),其全部語料在安靜辦公室環(huán)境下錄制,采樣率為16kHz,16bit量化.訓(xùn)練集共有19688句,共454315個音節(jié),總時長約為33小時,測試集共500句,約為0.7小時,說話內(nèi)容來自新聞報紙,對中文音節(jié)全覆蓋.文中選擇聲韻母作為模型基元,零聲母(-a、-o、-e、-i、-u、-v),加上靜音(sil)以及常規(guī)的聲韻母,一共有69個模型基元,在此基礎(chǔ)上將模型基元擴(kuò)展為上下文相關(guān)的交叉詞三音子(cross-word tri-phone).基于HTK 3.4.1建立基線系統(tǒng),聲學(xué)模型采用3狀態(tài)的隱馬爾科夫模型,通過決策樹對三音子模型進(jìn)行狀態(tài)綁定,綁定后的模型有效狀態(tài)數(shù)為2843個.利用SRILM工具根據(jù)語料庫中自有的標(biāo)注文件訓(xùn)練得到語言模型.文中均采用有調(diào)音節(jié)的識別準(zhǔn)確率進(jìn)行識別性能的評估.
4.2 基于幀特征變換方法的識別性能
這里采用13維的MFCC特征聯(lián)合當(dāng)前幀及其前后各4幀共9幀,并采用MLLT+LDA作為初始的變換矩陣,進(jìn)行最大似然聲學(xué)模型的建立.特征變換中全局GMM模型是由聲學(xué)模型狀態(tài)中的高斯聚類得到,最終共有800個高斯.在此基礎(chǔ)上,分別得到了基于詞圖信息和基于狀態(tài)綁定的fMPE、m-fMPE、RDLT特征變換方法的識別性能,并進(jìn)一步討論了當(dāng)聲學(xué)模型分別采用最大似然和區(qū)分性訓(xùn)練(Boosted Maximum Mutual Information,BMMI)時,各種特征變換方法的識別性能,具體識別結(jié)果表1所示.
表1 不同特征變換方法的識別準(zhǔn)確率(%)
由表1中的識別結(jié)果可知,區(qū)分性特征變換方法的識別性能均較為明顯地優(yōu)于線性判別分析方法.基于詞圖信息和狀態(tài)綁定的fMPE方法得到的識別結(jié)果相當(dāng).為了保證fMPE的性能其所需的高斯混元數(shù)為12000個,所得到的特征變換矩陣為其他方法的15倍左右,這主要是因為其每一個域中所含有的參數(shù)和信息量較小,需要增大域的個數(shù)以保證信息量.由于它利用前后相關(guān)的后驗概率信息進(jìn)行特征變換,采用狀態(tài)綁定的方式會在一定程度上影響這種前后相關(guān)性的獲取.m-fMPE,RDLT采用狀態(tài)綁定的方式得到識別結(jié)果會優(yōu)于采用詞圖信息的方式.在特征變換的基礎(chǔ)上,對聲學(xué)模型區(qū)分性訓(xùn)練后識別性能得到進(jìn)一步提升,且基于狀態(tài)綁定的特征變換方法其優(yōu)勢更為明顯.這說明采用狀態(tài)綁定方法進(jìn)行特征變換時,可以有效地克服聲學(xué)模型對特征變換的影響,在求解優(yōu)化過程中側(cè)重于尋找區(qū)分性特征.
4.3 基于域劃分變換矩陣字典項的識別性能
首先基于變換矩陣A構(gòu)造字典,字典共有800個字典項,采用不相關(guān)匹配追蹤算法進(jìn)行特征變換.在這個過程中,語音信號的分段時長、匹配追蹤算法中的似然度增量閾值δ直接決定著變換矩陣的選取,進(jìn)而影響識別性能,因此分別討論了上述參數(shù)在不同設(shè)置條件下的識別性能,所選字典數(shù)的上限N=200.通常語音分段以幀級單元為基礎(chǔ),通過某種分段方式來構(gòu)造,常用的分段方式有兩種:一是固定長度分段,即按照指定的長度進(jìn)行分割;二是自適應(yīng)長度分段,即對語音信號按照某種關(guān)聯(lián)準(zhǔn)則進(jìn)行劃分,例如,采用強(qiáng)制對齊的方式進(jìn)行分段,這種分段考慮了語音特征空間內(nèi)在的關(guān)聯(lián)關(guān)系,是常用的分段對齊方法.這里將測試集強(qiáng)制對齊到前800個狀態(tài)中進(jìn)行分段,分段后語音分段時長均值為3.15s,方差為1.47,接著分別討論了兩種分段方式的識別性能.表2給出了不同分段時長、似然度增量閾值條件下,RDLT變換的連續(xù)語音識別率,其中加黑字體為除強(qiáng)制對齊外最好的識別結(jié)果,括號內(nèi)為稀疏度,其度量方式為零系數(shù)占所有系數(shù)的比例.
表2 不同分段時長、似然度增量閾值的識別準(zhǔn)確率及其稀疏度(%)
由表2的識別結(jié)果可知,在相同的似然度增量閾值δ下,當(dāng)數(shù)據(jù)分段較小時,稀疏度較大;隨著數(shù)據(jù)量的增大,所選擇的特征變換矩陣也會增多;在相同的數(shù)據(jù)分段長度下,δ值越大,稀疏度越大,所選擇的變換矩陣越少,此時主要選擇對識別性能影響較大的特征變換矩陣,這與前面的分析是相符的.稀疏度過大和過小都不能獲得最佳的識別性能.同時由表中的識別結(jié)果可知,對語音采用不同的分段方式識別結(jié)果會有較大的差異.在對語音采用固定長度的分段方法中,將語音分成2s一段的方式能得到最優(yōu)的識別結(jié)果,這主要是采用這一長度能得到相對穩(wěn)定的統(tǒng)計特性,得到的參數(shù)信息較為準(zhǔn)確.隨著分段長度的增大,識別性能反而會開始下降,這主要是因為當(dāng)數(shù)據(jù)分段過大時段內(nèi)的聲學(xué)性質(zhì)會有較大的差異,即使是數(shù)據(jù)較為充分也難以獲得較好的參數(shù)估計,來同時描述差異性較大的語音信號段,此時應(yīng)該將語音信號段進(jìn)一步細(xì)分,分別估計變換矩陣.采用強(qiáng)制對齊的分段方法能得到最高的識別性能,這主要是因為對齊到相同狀態(tài)的數(shù)據(jù)具有相類似的聲學(xué)特性,利用這些數(shù)據(jù)能估計得到穩(wěn)健的參數(shù)信息.
采用匹配追蹤算法還能根據(jù)所擁有的數(shù)據(jù)量大小,自適應(yīng)地確定變換基矢量的數(shù)量,有效地避免常用方法中需要對基矢量個數(shù)進(jìn)行經(jīng)驗設(shè)定.由于本文是一個凸優(yōu)化問題,初值的設(shè)置對識別結(jié)果的影響不大.匹配追蹤算法具有很高的運(yùn)算效率,這很適合于前端的特征變換,不會給識別系統(tǒng)中引入太多的耗時,減小對后端識別解碼的影響.由于識別算法是一個非線性過程,較難直接得到其理論的計算復(fù)雜度,通過分別定性地統(tǒng)計特征變換和整個識別算法的耗時,得知特征變換的耗時占整個識別算法耗時的1%以下,對整個識別算法的影響不大.
4.4 聯(lián)合變換矩陣和偏移矢量字典項的識別性能
由表1的實驗結(jié)果可知,m-fMPE和RDLT能得到相對較優(yōu)的識別性能,m-fMPE側(cè)重于偏移矢量的求解,而RDLT能得到更好的變換矩陣,兩者具有一定的互補(bǔ)性.由于匹配追蹤算法具有較高的運(yùn)算效率,接下來將兩者變換矩陣結(jié)合起來,構(gòu)造一個過完備字典,字典共有1600個字典項,采用強(qiáng)制對齊的方式進(jìn)行數(shù)據(jù)的分段,利用不相關(guān)匹配追蹤算法進(jìn)行變換矩陣的選取及其系數(shù)的確定,實驗結(jié)果表3所示,其中A是RDLT方法得到的變換矩陣,M是m-fMPE方法得到的變換矩陣,b是對矩陣M進(jìn)行分解后對應(yīng)的偏移矢量,括號內(nèi)為稀疏度.
表3 聯(lián)合不同變換矩陣和偏移矢量字典項的識別準(zhǔn)確率及其稀疏度(%)
字典項AMA+MA+bML7804(9035)7757(7546)7816(8587)7855(8738)BMMI8018791580438089
由表3的識別結(jié)果可知,當(dāng)只采用一組字典時,采用變換矩陣A能得到最好的性能,主要是由于變換矩陣A是矩陣M的一般化,其具有更強(qiáng)的描述能力,這同時說明在進(jìn)行特征變換時,變換矩陣比偏移矢量能更好地保證性能.結(jié)合變換矩陣和偏移矢量構(gòu)成過完備字典進(jìn)行特征變換,其得到的性能會優(yōu)于僅采用一組字典的方法,表明這兩組字典具有一定的互補(bǔ)性,選擇的變換矩陣和偏移矢量個數(shù)介于采用單組字典A和M之間.A+b的方法會好于A+M的方法,這主要是由于M矩陣中也含有變換矩陣,這與A中的變換矩陣會存在部分重復(fù),而使得這部分變換矩陣的權(quán)值過大,造成過分重視,降低識別性能.僅利用其偏移矢量b結(jié)合A構(gòu)造字典,能獲得最高的識別性能.在特征變換的基礎(chǔ)上,對聲學(xué)模型區(qū)分性訓(xùn)練均能進(jìn)一步提高識別性能.
本文提出了一種基于語音分段的區(qū)分性特征變換方法,在特征變換求解過程中,引入了壓縮感知中的稀疏逼近相關(guān)理論.通過采用狀態(tài)綁定的方式,求解變換矩陣和偏移矢量構(gòu)造過完備的字典.根據(jù)不相關(guān)匹配追蹤算法,將特征變換的似然度作為目標(biāo)函數(shù),在目標(biāo)函數(shù)的優(yōu)化過程中選擇最佳的特征變換矩陣及其組合系數(shù).實驗結(jié)果表明,相比于傳統(tǒng)基于幀的特征變換方法,本文方法能夠有效地提高識別性能,通過采用強(qiáng)制對齊的方式進(jìn)行語音分段能得到最好的識別性能.在特征變換的基礎(chǔ)上,進(jìn)行聲學(xué)模型的區(qū)分性訓(xùn)練能進(jìn)一步提升識別性能.后續(xù)的研究可以將本文方法應(yīng)用于其它特征變換方法中.
[1]Abbasian H,Nasersharif B,Akbari A,et al.Optimized linear discriminant analysis for extracting robust speech features[A].Proceedings of International Symposium Communication Control and Signal Processing[C].Julians,Malta:IEEE,2008.819-824.
[2]Nasersharif B,Akbari A.SNR-dependent compression of enhanced Mel sub-band energies for compensation of noise effects on MFCC features[J].Pattern Recognition Letters,2011,28 (11),1320-1326.
[3]Povey D,Kingsbury B,Mangu L,et al.fMPE:Discriminatively trained features for speech recognition[A].Proceedings of the International Conference on Audio,Speech and Signal Processing[C].Philadelphia,United States:IEEE,2005.961-964.
[4]Zhang B,Matsoukas S,Schwartz R.Discriminatively trained region dependent feature transforms for speech recognition[A].Proceedings of the International Conference on Audio,Speech and Signal Processing[C].Toulouse,France:IEEE,2006.313-316.
[5]Zhang B,Matsoukas S,Schwartz R.Recent progress on the discriminative region-dependent transform for speech feature extraction[A].Proceedings of the Annual Conference of International Speech Communication Association[C].Pittsburgh,United States:ISCA,2006.1495-1498.
[6]Takashi F,Osamu I,Masafumi N,et al.Regularized feature-space discriminative adaptation for robust ASR[A].Proceedings of the Annual Conference of International Speech Communication Association[C].Singapore:ISCA,2014.2185-2188.
[7]Povey D.Improvements to fMPE for discriminative training of features[A].Proceedings of the Annual Conference of International Speech Communication Association[C].Lisbon,Portugal:ISCA,2005.2977-2980.
[8]Yan Z J,Huo Q,Xu J,et al.Tied-state based discriminative training of context-expanded region-dependent feature transforms for LVCSR[A].Proceedings of the International Conference on Audio,Speech and Signal Processing[C].Vancouver,Canada:IEEE,2013.6940-6944.
[9]Deng L,Chen J S.Sequence classification using the high-level features extracted from deep neural networks[A].Proceedings of the International Conference on Audio,Speech and Signal Processing[C].Florence,Italy:IEEE,2014.6894-6898.
[10]Ling Z H,Kang S Y,Zen H,et al.Deep learning for acoustic modeling in parametric speech generation:a systematic review of existing techniques and future trends[J].IEEE Signal Processing Magazine,2015,32(3):35-52.
[11]George S,Brian K.Discriminative feature-space transforms using deep neural networks[A].Proceedings of the Annual Conference of International Speech Communication Association[C].Oregon,United States:ISCA,2012.
[12]Paulik M.Lattice-based training of bottleneck feature extraction neural networks[A].Proceedings of the Annual Conference of International Speech Communication Association[C].Lyon,France:ISCA,2013.89-93.
[13]Liu D Y,Wei S,Guo W,et al.Lattice based optimization of bottleneck feature extractor with linear transformation[A].Proceedings of the International Conference on Audio,Speech and Signal Processing[C].Florence,Italy:IEEE,2014.5617-5621.
[14]Kuhn R,Junqua J C,Nguyen P,et al.Rapid speaker adaptation in eigenvoice space[J].IEEE Transactions on Speech and Audio Processing,2000,8(6):695-707.
[15]Ghoshal A,Povey D,Agarwal M,et al.A novel estimation of feature-space MLLR for full-covariance models[A].Proceedings of International Conference on Acoustics,Speech and Signal Processing[C].Texas,USA:IEEE,2010.4310-4313.
[16]Mallat S G,Zhang Z.Matching pursuits with time-frequency dictionaries[J].IEEE Transactions on Signal Processing,1993,41(12):3397-3415.
[17]Tropp J A,Gilbert A C.Signal recovery from random measurement via orthogonal matching pursuit[J].IEEE Transactions on Information Theory,2007,53(12):4655-4666.
[18]Needell D,Vershynin R.Signal recovery from incomplete and inaccurate measurements via regularized orthogonal matching pursuit[J].IEEE Journal of Selected Topics Signal Processing,2009,4(2):310-316.
陳 斌 男,1987年生于江西萍鄉(xiāng).現(xiàn)為解放軍信息工程大學(xué)信息系統(tǒng)工程學(xué)院博士研究生,西南電子電信技術(shù)研究所上海分所工程師.主要研究方向為連續(xù)語音識別、區(qū)分性訓(xùn)練和機(jī)器學(xué)習(xí).
E-mail:chenbin873335@163.com
牛 銅 男,1982年生于河南鄭州.現(xiàn)為解放軍信息工程大學(xué)信息系統(tǒng)工程學(xué)院博士研究生.主要研究方向為語音識別和語音增強(qiáng).
E-mail:niutong0072@gmail.com
A Discriminative Segmental Feature Transform Method Based on Uncorrelated Matching Pursuit
CHEN Bin1,2,NIU Tong1,ZHANG Lian-hai1,QU Dan1,LI Bi-cheng1
(1.InstituteofInformationSystemEngineering,InformationEngineeringUniversity,Zhengzhou,Henan450001,China; 2.ShanghaiBranchofSouthwestElectronicsandTelecommunicationTechnologyResearchInstitute,Shanghai200434,China)
A discriminative segmental feature transform method is proposed to promote the stability of the frame based method.The feature transform is considered as the sparse high dimensional approximation problem.Firstly,a set of feature transform matrices are estimated by tied-state based training of RDLT (Region Dependent Linear Transform) and m-fMPE (mean-offset feature Minimum Phone Error),and the transform matrices are integrated into an over-complete dictionary.Then,the speech signal is segmented through force alignment.Finally,following the matching pursuit to optimize the likelihood objective function iteratively,the transform matrices of each segment are selected from the dictionary and the corresponding coefficients are automatic determined in the optimization process.Further,to guarantee the stability of the transform matrices,a correlation measurement is introduced to remove the correlated basis in the recurrence process.The experimental results show that,compared with the traditional RDLT method,when the acoustic model is trained with maximum likelihood and discriminative training criterion separately,the recognition performance can be improved by 1.63% and 2.23% respectively.The method can also be applied to speech enhancement and model discriminative training.
feature transform;speech recognition;discriminative training;speech enhancement;matching pursuit
2015-05-17;
2015-11-24;責(zé)任編輯:覃懷銀
國家自然科學(xué)基金(No.61175017,No.61403415);國家高技術(shù)研究發(fā)展計劃(863計劃)課題(No.2012AA011603)
TN912
A
0372-2112 (2016)12-2924-08
??學(xué)報URL:http://www.ejournal.org.cn
10.3969/j.issn.0372-2112.2016.12.016