李濤,曹輝,郭樂(lè)樂(lè)
?
深度神經(jīng)網(wǎng)絡(luò)的語(yǔ)音深度特征提取方法
李濤,曹輝,郭樂(lè)樂(lè)
(陜西師范大學(xué)物理學(xué)與信息技術(shù)學(xué)院,陜西西安 710100)
為了提升連續(xù)語(yǔ)音識(shí)別系統(tǒng)性能,將深度自編碼器神經(jīng)網(wǎng)絡(luò)應(yīng)用于語(yǔ)音信號(hào)特征提取。通過(guò)堆疊稀疏自編碼器組成深度自編碼器(Deep Auto-Encoding, DAE),經(jīng)過(guò)預(yù)訓(xùn)練和微調(diào)兩個(gè)步驟提取語(yǔ)音信號(hào)的本質(zhì)特征,使用與上下文相關(guān)的三音素模型,以音素錯(cuò)誤率大小為系統(tǒng)性能的評(píng)判標(biāo)準(zhǔn)。仿真結(jié)果表明相對(duì)于傳統(tǒng)梅爾頻率倒譜系數(shù)(Mel-Frequency Cepstral Coefficient, MFCC)特征以及優(yōu)化后的MFCC特征,基于深度自編碼器提取的深度特征更具優(yōu)越性。
語(yǔ)音識(shí)別;深度自編碼器;梅爾頻率倒譜系數(shù);
語(yǔ)音識(shí)別是人類與機(jī)器進(jìn)行語(yǔ)音交流,機(jī)器理解、識(shí)別人類的語(yǔ)音信號(hào)后將其轉(zhuǎn)換成對(duì)應(yīng)的文本或者命令的過(guò)程[1]。語(yǔ)音識(shí)別過(guò)程主要包括3個(gè)部分:語(yǔ)音特征的提取、建立聲學(xué)模型與解碼[2-3]。語(yǔ)音信號(hào)的特征提取在整個(gè)語(yǔ)音識(shí)別系統(tǒng)中至關(guān)重要,對(duì)這些特征進(jìn)行降維、去噪,準(zhǔn)確地提取出表示該語(yǔ)音本質(zhì)的特征參數(shù)將使得后面的分類識(shí)別更有效,識(shí)別率更高。目前表示語(yǔ)音信息主要用的是短時(shí)頻譜特征,比如梅爾頻率倒譜系數(shù)(Mel-Frequency Cepstral Coefficient,MFCC)、差分倒譜特征(Shifted Delta Cepstra, SDC)、感知線性預(yù)測(cè)特征(Perceptual Linear Predictive, PLP)等。但這些短時(shí)頻譜特征在實(shí)際的使用中都存在一些不足:以MFCC為例,每幀只包含20~30 ms語(yǔ)音,不但容易受到噪聲干擾,而且還會(huì)忽略語(yǔ)音信號(hào)的動(dòng)態(tài)特性和語(yǔ)音信號(hào)中所含有的類別信息,這些不足都會(huì)影響語(yǔ)音識(shí)別的準(zhǔn)確率[4]。
2006年Hinton等[5]提出基于深度信念網(wǎng)絡(luò)(Deep Believe Network, DBN)的非監(jiān)督貪心逐層訓(xùn)練算法,將深度學(xué)習(xí)算法應(yīng)用于訓(xùn)練多層神經(jīng)網(wǎng)絡(luò),它特殊的訓(xùn)練方式可以給神經(jīng)網(wǎng)絡(luò)提供較優(yōu)的初始權(quán)值與偏置,使得網(wǎng)絡(luò)能夠快速地收斂于合理的極值點(diǎn),有效避免了傳統(tǒng)多層感知器(Multi-Layer Perceptron, MLP)在增加隱含層的同時(shí)易陷入局部最優(yōu)解和需要大量有標(biāo)記數(shù)據(jù)的問(wèn)題。同時(shí)DBN的深度結(jié)構(gòu)被證明相對(duì)于原有的淺層建模方法能夠更好地對(duì)語(yǔ)音、圖像信號(hào)進(jìn)行建模。利用可以有效提升傳統(tǒng)語(yǔ)音識(shí)別系統(tǒng)性能的深度神經(jīng)網(wǎng)絡(luò)DBN來(lái)進(jìn)行語(yǔ)音識(shí)別[5],學(xué)習(xí)到了更能表征原始數(shù)據(jù)本質(zhì)的特征。隨后Hinton等[6-7]提出了自編碼器(Auto Encoder, AE)的深層結(jié)構(gòu):深度自編碼器(Deep Auto Encoder, DAE)。自編碼神經(jīng)網(wǎng)絡(luò)是一種網(wǎng)絡(luò)誤差函數(shù)定義與DBN不同的典型深度神經(jīng)網(wǎng)絡(luò)。當(dāng)隱含層節(jié)點(diǎn)的輸入、輸出呈線性關(guān)系,且訓(xùn)練網(wǎng)絡(luò)采用最小均方誤差(Least Mean Square Error, LMSE)準(zhǔn)則時(shí),整個(gè)編碼過(guò)程與主成分分析(Principle Component Analysis, PCA)等效。當(dāng)隱含層映射呈非線性映射時(shí),即為自動(dòng)編碼器。本文采用這種自編碼神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行語(yǔ)音信號(hào)特征的提取。
深度自編碼器是一種期望網(wǎng)絡(luò)得到的輸出為其原始輸入的特殊深度神經(jīng)網(wǎng)絡(luò)。由于令該網(wǎng)絡(luò)的輸出趨近與它的原始輸入,所以該網(wǎng)絡(luò)中間層的編碼完整地包含了原始數(shù)據(jù)的全部信息。但是是以一種不同的形式來(lái)對(duì)原始輸入數(shù)據(jù)進(jìn)行分解和重構(gòu),逐層學(xué)習(xí)了原始數(shù)據(jù)的多種表達(dá)。因此整個(gè)編碼過(guò)程可看作是對(duì)信號(hào)的分解重構(gòu)。將該網(wǎng)絡(luò)結(jié)構(gòu)用于特征壓縮時(shí),隱含層的神經(jīng)元個(gè)數(shù)少于輸入層神經(jīng)元個(gè)數(shù);把特征映射到高維空間時(shí),則隱含層神經(jīng)元個(gè)數(shù)多于輸入層神經(jīng)元個(gè)數(shù)。
自編碼器是使用了無(wú)監(jiān)督學(xué)習(xí)與反向傳播算法,并令目標(biāo)值趨近于輸入值的前向傳播神經(jīng)網(wǎng)絡(luò)。可對(duì)高維數(shù)據(jù)進(jìn)行降維,進(jìn)而得到低維的特征向量。設(shè)向量為輸入樣本,則隱含層、輸出層神經(jīng)元的激活情況計(jì)算公式為
在訓(xùn)練自動(dòng)編碼器時(shí),為了確保在處理數(shù)據(jù)過(guò)程中隱層神經(jīng)元只有少部分被激活,故而限制隱含層的神經(jīng)元被激活的數(shù)量,在損失函數(shù)中引入對(duì)激活隱層神經(jīng)元數(shù)目的約束項(xiàng),也就是實(shí)現(xiàn)對(duì)原始輸入數(shù)據(jù)的稀疏編碼,經(jīng)證明稀疏編碼能夠有效降低模型的識(shí)別錯(cuò)誤率[9]。損失函數(shù)為
的方法:上層的輸出參數(shù)作為下層的原始輸入?yún)?shù)依次訓(xùn)練整個(gè)網(wǎng)絡(luò);微調(diào)階段利用反向傳播算法調(diào)整所有層的參數(shù)。
常見(jiàn)的自編碼器含有一個(gè)隱含層,如圖1所示。文獻(xiàn)[10]將深度神經(jīng)網(wǎng)絡(luò)定義為隱含層層數(shù)超過(guò)一層的神經(jīng)網(wǎng)絡(luò)。在本文中構(gòu)建一個(gè)含有兩層隱含層的深度神經(jīng)網(wǎng)絡(luò)來(lái)提取語(yǔ)音信號(hào)的深度特征。網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
圖1 單隱含層神經(jīng)網(wǎng)絡(luò)
圖2 深度神經(jīng)網(wǎng)絡(luò)
因說(shuō)話人、說(shuō)話方式不同及噪聲等影響,可能使在實(shí)驗(yàn)環(huán)境下表現(xiàn)優(yōu)異的語(yǔ)音識(shí)別系統(tǒng)在實(shí)際應(yīng)用中的識(shí)別性能不穩(wěn)定。因此,使用改善系統(tǒng)的魯棒性和自適應(yīng)能力的方法來(lái)優(yōu)化聲學(xué)特征參數(shù),增強(qiáng)識(shí)別系統(tǒng)的抗干擾能力,使其性能更加穩(wěn)定,能夠應(yīng)對(duì)多種環(huán)境。目前常用解決方法是:為增強(qiáng)特征參數(shù)的適應(yīng)能力而對(duì)其進(jìn)行特征變換處理;或?yàn)樘岣咛卣鲄?shù)的魯棒性而對(duì)語(yǔ)音信號(hào)進(jìn)行增強(qiáng)、濾波、去噪等處理。
新型的審批模式推廣與應(yīng)用的必要的前提就是至上而下的重視和全面的科學(xué)指導(dǎo)與培訓(xùn),這是平臺(tái)運(yùn)用成功的關(guān)鍵和必要的基礎(chǔ)條件。
提取深度特征之前,先對(duì)提取的MFCC特征進(jìn)行特征變換,再作為深度自編碼器的原始輸入,進(jìn)而得到識(shí)別率更高的語(yǔ)音深度特征,對(duì)原始MFCC特征依次進(jìn)行線性判別分析、最大似然線性變換和最大似然線性回歸變換處理。
考慮到協(xié)同發(fā)音的影響,將已提取的39維MFCC特征向量(靜態(tài)、一階、二階差分)進(jìn)行前后5幀的拼接,得到39 ×11=429維的特征向量。對(duì)這429維特征向量進(jìn)行線性判別分析(Liner Discriminant Analysis, LDA)抽取分類信息,同時(shí)降低維度至40維從而得到LDA特征。然后對(duì)這40維LDA特征向量進(jìn)行最大似然線性變換(Maximum Likelihood Linear Transformation, MLLT)來(lái)去除相關(guān)性得到LDA+MLLT特征,最后對(duì)經(jīng)過(guò)去除相關(guān)性的40維LDA+MLLT特征在特征空間上進(jìn)行最大似然線性回歸(Feature-space Maximum Likelihood Linear Regression, fMLLR)說(shuō)話人自適應(yīng)訓(xùn)練,實(shí)現(xiàn)特征參數(shù)自適應(yīng),減小測(cè)試聲學(xué)特征與聲學(xué)模型參數(shù)之間的不匹配,得到了40維的LDA+MLLT+fMLLR特征。仿真結(jié)果表明,以上特征變換均能有效降低音素識(shí)別的錯(cuò)誤率。
深度自編碼器能夠更好地對(duì)語(yǔ)音信號(hào)中與音素相關(guān)的信息進(jìn)行逐層表征,基于深度自編碼器提取的語(yǔ)音深度特征過(guò)程,實(shí)質(zhì)上是一種非線性的特征變換和降維過(guò)程。利用神經(jīng)網(wǎng)絡(luò)的層次化提取信息過(guò)程來(lái)作為對(duì)原始輸入特征的非線性特征提取與轉(zhuǎn)換,使得特征維度與神經(jīng)網(wǎng)絡(luò)訓(xùn)練目標(biāo)尺度分離。相對(duì)網(wǎng)絡(luò)首層輸入層而言,隱層的神經(jīng)元個(gè)數(shù)要少得多,所以隱層在通過(guò)學(xué)習(xí)到原始輸入樣本的低維表示的同時(shí),還可以最大限度地包含與高維表示相同的信息。并且可以通過(guò)更精細(xì)的子音素類別來(lái)表示音素目標(biāo),最終由原始輸入向量經(jīng)過(guò)逐層映射得出對(duì)應(yīng)隱含層的輸出向量。由此就得到能夠最大限度地包含輸入向量信息的一個(gè)低維編碼,這使得輸出的深度特征具有比傳統(tǒng)底層聲學(xué)語(yǔ)音特征參數(shù)相近或更好的特性區(qū)分性,還帶有類別信息,加強(qiáng)了特征表示聲學(xué)單元的能力,得到更有效的特征表達(dá),進(jìn)而提高后期語(yǔ)音識(shí)別系統(tǒng)的性能。使用DAE提取深度特征的流程圖如圖3所示。
圖3 深度特征提取流程
本文使用的原始輸入特征是進(jìn)行前后5幀拼接的40維LDA+MLLT+fMLLR特征,形成40×11=440維的輸入特征向量,這11幀拼接的LDA+MLLT+fMLLR特征相對(duì)于傳統(tǒng)的單幀特征更具優(yōu)勢(shì)[11]:一個(gè)音素持續(xù)的時(shí)間大約在9幀左右,所以大約9幀的信息量就能夠包含一個(gè)完整的音素,同時(shí)也含有其他音素的部分信息,它可以提供單幀特征所體現(xiàn)不出的更細(xì)致更豐富的音素變化信息。
利用深度自編碼器神經(jīng)網(wǎng)絡(luò)進(jìn)行深度特征參數(shù)提取的步驟如下:
(1) 以11幀拼接LDA+MLLT+fMLLR特征作為輸入,經(jīng)訓(xùn)練得出第一層隱含層的網(wǎng)絡(luò)參數(shù),并以此計(jì)算第一層隱含層輸出;
(3) 繼續(xù)把上一層的輸出作為第三層的輸入,再用同樣的方法訓(xùn)練該層網(wǎng)絡(luò)的參數(shù),而后利用反向傳播算法微調(diào)所有層的參數(shù)。最后將輸出層輸出的深度特征參數(shù)作為最終音素識(shí)別系統(tǒng)的輸入。
以11幀拼接的LDA+MLLT+fMLLR特征作為原始輸入,經(jīng)過(guò)歸一化之后,所有輸入數(shù)據(jù)大小都在0~1之間。為保證實(shí)驗(yàn)的準(zhǔn)確性和客觀性,音素識(shí)別的基線系統(tǒng)選擇常用的混合隱馬爾科夫模型(Hidden Markov Model, HMM)+深度神經(jīng)網(wǎng)絡(luò)模型(Deep Neural Network, DNN)音素識(shí)別系統(tǒng)。
本文設(shè)計(jì)2個(gè)實(shí)驗(yàn)來(lái)驗(yàn)證深度特征的優(yōu)越性,用音素錯(cuò)誤率(Phoneme Error Rate, PER)作為評(píng)價(jià)特征有效性的標(biāo)準(zhǔn)。
3.2.1 最優(yōu)神經(jīng)網(wǎng)絡(luò)配置
隱層單元數(shù)與隱層數(shù)的選擇將影響后期識(shí)別的音素錯(cuò)誤率。若神經(jīng)元過(guò)少,學(xué)習(xí)的容量有限,網(wǎng)絡(luò)所獲取的解決問(wèn)題的信息不足,難以存儲(chǔ)訓(xùn)練樣本中蘊(yùn)含的所有規(guī)律。若神經(jīng)元過(guò)多就會(huì)增加網(wǎng)絡(luò)訓(xùn)練時(shí)間,還可能把樣本中非規(guī)律性的內(nèi)容存儲(chǔ)進(jìn)去,反而會(huì)降低泛化能力。通過(guò)改變隱層層數(shù)與每層神經(jīng)元個(gè)數(shù)來(lái)確定網(wǎng)絡(luò)最佳配置,設(shè)置隱層層數(shù)從1到3層變化,每個(gè)隱層所含神經(jīng)元個(gè)數(shù)以50的偶數(shù)倍增加,最多為400個(gè)。為降低計(jì)算量,減少訓(xùn)練時(shí)間,將每層隱含層的神經(jīng)元設(shè)置成相同個(gè)數(shù)。對(duì)比不同網(wǎng)絡(luò)結(jié)構(gòu)配置下音素識(shí)別率的變化,進(jìn)而選定最優(yōu)參數(shù)配置。圖4顯示了改變隱含層的層數(shù)與神經(jīng)元個(gè)數(shù)對(duì)最終音素識(shí)別錯(cuò)誤率的影響。
圖4 不同隱層層數(shù)與神經(jīng)元個(gè)數(shù)對(duì)音素識(shí)別錯(cuò)誤率的影響
從圖4可以看出,改變隱層層數(shù)和隱層神經(jīng)元個(gè)數(shù)對(duì)降低音素識(shí)別錯(cuò)誤率有一定影響,當(dāng)隱含層為兩層且隱含層神經(jīng)元為100時(shí)與隱含層為三層隱含神經(jīng)元為200時(shí)錯(cuò)誤率最小,并不是隱含層數(shù)與神經(jīng)元個(gè)數(shù)越多越好。當(dāng)隱層層數(shù)與隱層神經(jīng)元個(gè)數(shù)增加至一定數(shù)量時(shí),音素錯(cuò)誤率不會(huì)降低反而上升,同時(shí)由于計(jì)算參數(shù)的增加使得訓(xùn)練時(shí)間增長(zhǎng),為減少計(jì)算參數(shù)及訓(xùn)練時(shí)間,同時(shí)確保音素識(shí)別正確率,本文選擇建立含有兩個(gè)隱含層的深度神經(jīng)網(wǎng)絡(luò)。深度自編碼器的輸入神經(jīng)元個(gè)數(shù)即為輸入特征的維數(shù)440,每一隱含層神經(jīng)元個(gè)數(shù)為100,輸出層神經(jīng)元個(gè)數(shù)設(shè)置為40,則該深度自編碼器結(jié)構(gòu)可表示為440-[100-100]-40,“[ ]”中數(shù)字為隱層神經(jīng)元的個(gè)數(shù)。
3.2.2 特征有效性對(duì)比
將本文特征解碼的結(jié)果與以下四種特征解碼得出的音素錯(cuò)誤率進(jìn)行對(duì)比,結(jié)果如表1所示。作為對(duì)比的四種特征分別為:(1) 原始MFCC特征參數(shù);(2) LDA+MLLT特征:MFCC在三音素模型的基礎(chǔ)上進(jìn)行LDA+MLLT變換;(3) LDA+MLLT +fMLLR特征:在(2)的基礎(chǔ)上進(jìn)行基于特征空間的最大似然線性回歸(fMLLR)的說(shuō)話人自適應(yīng)訓(xùn)練;(4) bottleneck特征:以11幀拼接的MFCC特征作為原始輸入,建立含有五個(gè)隱含層的DBN網(wǎng)絡(luò),輸入輸出層神經(jīng)元個(gè)數(shù)為440,第四隱含層為瓶頸層且其神經(jīng)元個(gè)數(shù)為40,其余隱含層神經(jīng)元個(gè)數(shù)為1 024,提取出bottleneck特征。
由表1可知,與傳統(tǒng)特征以及特征變換后的優(yōu)化特征作為HMM+DNN系統(tǒng)的輸入相比,將深度特征作為系統(tǒng)原始輸入時(shí),系統(tǒng)的音素錯(cuò)誤率明顯下降,同時(shí)相對(duì)于使用DBN網(wǎng)絡(luò)提取bottleneck特征,其網(wǎng)絡(luò)參數(shù)的計(jì)算量和訓(xùn)練時(shí)長(zhǎng)較少。表1中的結(jié)果也證明了本文提取的深度特征的有效性。
表1 傳統(tǒng)特征與深度特征的音素錯(cuò)誤率對(duì)比
針對(duì)傳統(tǒng)語(yǔ)音特征的不足,本文對(duì)原始MFCC特征參數(shù)優(yōu)化之后,建立含有兩個(gè)隱層的深度自編碼器,將優(yōu)化后的MFCC參數(shù)作為其輸入,實(shí)現(xiàn)原始輸入的特征變換與降維,提取了可以更好地反應(yīng)語(yǔ)音本質(zhì)特征的深度特征參數(shù),作為HMM+DNN 系統(tǒng)的輸入。實(shí)驗(yàn)證明了本文特征的有效性。下一步研究將在本研究基礎(chǔ)上與DBN結(jié)合,提取更優(yōu)異的聲學(xué)特征,進(jìn)一步提高語(yǔ)音識(shí)別系統(tǒng)的性能。
[1] 韓紀(jì)慶, 張磊, 鄭鐵然. 語(yǔ)音信號(hào)處理[M]. 北京: 清華大學(xué)出版社, 2005.
HAN Jiqing, ZHANG Lei, ZHENG Tieran. Speech Signal Processing[M]. Beijing: Tsinghua University Press, 2005.
[2] 陳雷, 楊俊安, 王一, 等. LVCSR系統(tǒng)中一種基于區(qū)分性和自適應(yīng)瓶頸深度置信網(wǎng)絡(luò)的特征提取方法[J]. 信號(hào)處理, 2015, 31(3): 290 -298.
CHEN Lei, YANG Junan, WANG Yi, et al. A feature extraction method based on discriminative and adaptive bottleneck deep confidence network in LVCSR system[J]. Signal Processing, 2015, 31 (3): 290-298.
[3] SCHWARZ P. Phoneme Recognition Based on Long Temporal Context[EB/ OL]. [2013-07-10]. http://speech. Fit. Vutbr. cz/ software/Phoneme-recognizer-based-long-temporal-context.
[4] GREZL F, FOUSEK P. Optimizing bottleneck feature for LVCSR[C]//IEEE International Confe rence on Acoustics, Speech and Signal Processing, 2008: 4792-4732.
[5] HINTON G E, OSINDERO S, TEH Y W. A fast learning algorithm for deep belief nets[J]. Neural Computation, 2006, 18(7): 1527-1554.
[6] HINTON G E, SALAKHUTDINOV R R. Reducing the dimensionality of data with neural networks[J]. Science, 2006, 313(5786): 504-507.
[7] 孫志軍, 薛磊, 許陽(yáng)明, 等. 深度學(xué)習(xí)研究綜述[J]. 計(jì)算機(jī)應(yīng)用研究, 2012, 29(8): 2806-2810.
SUN Zhijun, XUE Lei, XU Yangming, et al. Review of deep learning research[J]. Journal of Computer Applications, 2012, 29 (8): 2806-2810.
[8] 張開(kāi)旭, 周昌樂(lè). 基于自動(dòng)編碼器的中文詞匯特征無(wú)監(jiān)督學(xué)習(xí)[J].中文信息學(xué)報(bào), 2013, 27(5): 1-7.
ZHANG Kaixu, ZHOU Changle. Unsupervised learning of Chinese vocabulary features based on automatic encoder[J]. Journal of Chinese Information Processing, 2013, 27(5): 1-7.
[9] COATES A, NG A Y, LEE H. An analysis of single- layer networks inunsupervised feature learnin[C]//Proc of International Conferenceon Artificial Intelligence and Statistics. 2011: 215-223.
[10] HINTON G E, DENG L, YU D, et al. Deep neural networks for acoustic modeling in speech recognition: the shared views of four research groups[J]. IEEE Signal Processing Magazine, 2012, 29(6): 82-97.
[11] SIVARAM G, HERMANSKY H. Sparse multilayer per-ceptron for phoneme recognition[J]. IEEE Transac-tions on Audio, Speech, and Language Processing, 2012, 20(1): 23-29.
Speech deep feature extraction method for deep neural network
LI Tao, CAO Hui,GUO Le-le
(School of Physics and Information Technology,Shaanxi Normal University,Xian,710100, Shaanxi, China)
In order to improve the performance of continuous speech recognition system, this paper applies the deep auto-encoder neural network to the speech signal feature extraction process. The deep auto-encoder is formed by stacking sparsely the auto-encoder. The neural networks based on deep learning introduce the greedy layer-wise learning algorithm by pre-training and fine-tuning. The context-dependent three-phoneme model is used in the continuous speech recognition system, and the phoneme error rate is taken as the criterion of system performance. The simulation results show that the deep auto-encoder based deep feature is more advantageous than the traditional MFCC features and optimized MFCC features.
speech recognition; Deep Auto-Encoding (DAE); Mel-Frequency Cepstral Coefficient (MFCC)
H107
A
1000-3630(2018)-04-0367-05
10.16300/j.cnki.1000-3630.2018.04.013
2017-08-04;
2017-10-18
國(guó)家自然科學(xué)基金資助(1202020368、11074159、11374199)。
李濤(1992-), 男, 新疆伊犁人, 碩士研究生, 研究方向?yàn)樾盘?hào)與信息處理。
曹輝,E-mail:caohui@snnu.edu.cn