亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        深度神經(jīng)網(wǎng)絡(luò)的語(yǔ)音深度特征提取方法

        2018-10-11 00:38:56李濤曹輝郭樂(lè)樂(lè)
        聲學(xué)技術(shù) 2018年4期
        關(guān)鍵詞:音素錯(cuò)誤率特征參數(shù)

        李濤,曹輝,郭樂(lè)樂(lè)

        ?

        深度神經(jīng)網(wǎng)絡(luò)的語(yǔ)音深度特征提取方法

        李濤,曹輝,郭樂(lè)樂(lè)

        (陜西師范大學(xué)物理學(xué)與信息技術(shù)學(xué)院,陜西西安 710100)

        為了提升連續(xù)語(yǔ)音識(shí)別系統(tǒng)性能,將深度自編碼器神經(jīng)網(wǎng)絡(luò)應(yīng)用于語(yǔ)音信號(hào)特征提取。通過(guò)堆疊稀疏自編碼器組成深度自編碼器(Deep Auto-Encoding, DAE),經(jīng)過(guò)預(yù)訓(xùn)練和微調(diào)兩個(gè)步驟提取語(yǔ)音信號(hào)的本質(zhì)特征,使用與上下文相關(guān)的三音素模型,以音素錯(cuò)誤率大小為系統(tǒng)性能的評(píng)判標(biāo)準(zhǔn)。仿真結(jié)果表明相對(duì)于傳統(tǒng)梅爾頻率倒譜系數(shù)(Mel-Frequency Cepstral Coefficient, MFCC)特征以及優(yōu)化后的MFCC特征,基于深度自編碼器提取的深度特征更具優(yōu)越性。

        語(yǔ)音識(shí)別;深度自編碼器;梅爾頻率倒譜系數(shù);

        0 引言

        語(yǔ)音識(shí)別是人類與機(jī)器進(jìn)行語(yǔ)音交流,機(jī)器理解、識(shí)別人類的語(yǔ)音信號(hào)后將其轉(zhuǎn)換成對(duì)應(yīng)的文本或者命令的過(guò)程[1]。語(yǔ)音識(shí)別過(guò)程主要包括3個(gè)部分:語(yǔ)音特征的提取、建立聲學(xué)模型與解碼[2-3]。語(yǔ)音信號(hào)的特征提取在整個(gè)語(yǔ)音識(shí)別系統(tǒng)中至關(guān)重要,對(duì)這些特征進(jìn)行降維、去噪,準(zhǔn)確地提取出表示該語(yǔ)音本質(zhì)的特征參數(shù)將使得后面的分類識(shí)別更有效,識(shí)別率更高。目前表示語(yǔ)音信息主要用的是短時(shí)頻譜特征,比如梅爾頻率倒譜系數(shù)(Mel-Frequency Cepstral Coefficient,MFCC)、差分倒譜特征(Shifted Delta Cepstra, SDC)、感知線性預(yù)測(cè)特征(Perceptual Linear Predictive, PLP)等。但這些短時(shí)頻譜特征在實(shí)際的使用中都存在一些不足:以MFCC為例,每幀只包含20~30 ms語(yǔ)音,不但容易受到噪聲干擾,而且還會(huì)忽略語(yǔ)音信號(hào)的動(dòng)態(tài)特性和語(yǔ)音信號(hào)中所含有的類別信息,這些不足都會(huì)影響語(yǔ)音識(shí)別的準(zhǔn)確率[4]。

        2006年Hinton等[5]提出基于深度信念網(wǎng)絡(luò)(Deep Believe Network, DBN)的非監(jiān)督貪心逐層訓(xùn)練算法,將深度學(xué)習(xí)算法應(yīng)用于訓(xùn)練多層神經(jīng)網(wǎng)絡(luò),它特殊的訓(xùn)練方式可以給神經(jīng)網(wǎng)絡(luò)提供較優(yōu)的初始權(quán)值與偏置,使得網(wǎng)絡(luò)能夠快速地收斂于合理的極值點(diǎn),有效避免了傳統(tǒng)多層感知器(Multi-Layer Perceptron, MLP)在增加隱含層的同時(shí)易陷入局部最優(yōu)解和需要大量有標(biāo)記數(shù)據(jù)的問(wèn)題。同時(shí)DBN的深度結(jié)構(gòu)被證明相對(duì)于原有的淺層建模方法能夠更好地對(duì)語(yǔ)音、圖像信號(hào)進(jìn)行建模。利用可以有效提升傳統(tǒng)語(yǔ)音識(shí)別系統(tǒng)性能的深度神經(jīng)網(wǎng)絡(luò)DBN來(lái)進(jìn)行語(yǔ)音識(shí)別[5],學(xué)習(xí)到了更能表征原始數(shù)據(jù)本質(zhì)的特征。隨后Hinton等[6-7]提出了自編碼器(Auto Encoder, AE)的深層結(jié)構(gòu):深度自編碼器(Deep Auto Encoder, DAE)。自編碼神經(jīng)網(wǎng)絡(luò)是一種網(wǎng)絡(luò)誤差函數(shù)定義與DBN不同的典型深度神經(jīng)網(wǎng)絡(luò)。當(dāng)隱含層節(jié)點(diǎn)的輸入、輸出呈線性關(guān)系,且訓(xùn)練網(wǎng)絡(luò)采用最小均方誤差(Least Mean Square Error, LMSE)準(zhǔn)則時(shí),整個(gè)編碼過(guò)程與主成分分析(Principle Component Analysis, PCA)等效。當(dāng)隱含層映射呈非線性映射時(shí),即為自動(dòng)編碼器。本文采用這種自編碼神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行語(yǔ)音信號(hào)特征的提取。

        1 深度自編碼器的工作原理

        深度自編碼器是一種期望網(wǎng)絡(luò)得到的輸出為其原始輸入的特殊深度神經(jīng)網(wǎng)絡(luò)。由于令該網(wǎng)絡(luò)的輸出趨近與它的原始輸入,所以該網(wǎng)絡(luò)中間層的編碼完整地包含了原始數(shù)據(jù)的全部信息。但是是以一種不同的形式來(lái)對(duì)原始輸入數(shù)據(jù)進(jìn)行分解和重構(gòu),逐層學(xué)習(xí)了原始數(shù)據(jù)的多種表達(dá)。因此整個(gè)編碼過(guò)程可看作是對(duì)信號(hào)的分解重構(gòu)。將該網(wǎng)絡(luò)結(jié)構(gòu)用于特征壓縮時(shí),隱含層的神經(jīng)元個(gè)數(shù)少于輸入層神經(jīng)元個(gè)數(shù);把特征映射到高維空間時(shí),則隱含層神經(jīng)元個(gè)數(shù)多于輸入層神經(jīng)元個(gè)數(shù)。

        自編碼器是使用了無(wú)監(jiān)督學(xué)習(xí)與反向傳播算法,并令目標(biāo)值趨近于輸入值的前向傳播神經(jīng)網(wǎng)絡(luò)。可對(duì)高維數(shù)據(jù)進(jìn)行降維,進(jìn)而得到低維的特征向量。設(shè)向量為輸入樣本,則隱含層、輸出層神經(jīng)元的激活情況計(jì)算公式為

        在訓(xùn)練自動(dòng)編碼器時(shí),為了確保在處理數(shù)據(jù)過(guò)程中隱層神經(jīng)元只有少部分被激活,故而限制隱含層的神經(jīng)元被激活的數(shù)量,在損失函數(shù)中引入對(duì)激活隱層神經(jīng)元數(shù)目的約束項(xiàng),也就是實(shí)現(xiàn)對(duì)原始輸入數(shù)據(jù)的稀疏編碼,經(jīng)證明稀疏編碼能夠有效降低模型的識(shí)別錯(cuò)誤率[9]。損失函數(shù)為

        的方法:上層的輸出參數(shù)作為下層的原始輸入?yún)?shù)依次訓(xùn)練整個(gè)網(wǎng)絡(luò);微調(diào)階段利用反向傳播算法調(diào)整所有層的參數(shù)。

        常見(jiàn)的自編碼器含有一個(gè)隱含層,如圖1所示。文獻(xiàn)[10]將深度神經(jīng)網(wǎng)絡(luò)定義為隱含層層數(shù)超過(guò)一層的神經(jīng)網(wǎng)絡(luò)。在本文中構(gòu)建一個(gè)含有兩層隱含層的深度神經(jīng)網(wǎng)絡(luò)來(lái)提取語(yǔ)音信號(hào)的深度特征。網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。

        圖1 單隱含層神經(jīng)網(wǎng)絡(luò)

        圖2 深度神經(jīng)網(wǎng)絡(luò)

        2 基于DAE模型的深度特征提取

        因說(shuō)話人、說(shuō)話方式不同及噪聲等影響,可能使在實(shí)驗(yàn)環(huán)境下表現(xiàn)優(yōu)異的語(yǔ)音識(shí)別系統(tǒng)在實(shí)際應(yīng)用中的識(shí)別性能不穩(wěn)定。因此,使用改善系統(tǒng)的魯棒性和自適應(yīng)能力的方法來(lái)優(yōu)化聲學(xué)特征參數(shù),增強(qiáng)識(shí)別系統(tǒng)的抗干擾能力,使其性能更加穩(wěn)定,能夠應(yīng)對(duì)多種環(huán)境。目前常用解決方法是:為增強(qiáng)特征參數(shù)的適應(yīng)能力而對(duì)其進(jìn)行特征變換處理;或?yàn)樘岣咛卣鲄?shù)的魯棒性而對(duì)語(yǔ)音信號(hào)進(jìn)行增強(qiáng)、濾波、去噪等處理。

        新型的審批模式推廣與應(yīng)用的必要的前提就是至上而下的重視和全面的科學(xué)指導(dǎo)與培訓(xùn),這是平臺(tái)運(yùn)用成功的關(guān)鍵和必要的基礎(chǔ)條件。

        提取深度特征之前,先對(duì)提取的MFCC特征進(jìn)行特征變換,再作為深度自編碼器的原始輸入,進(jìn)而得到識(shí)別率更高的語(yǔ)音深度特征,對(duì)原始MFCC特征依次進(jìn)行線性判別分析、最大似然線性變換和最大似然線性回歸變換處理。

        考慮到協(xié)同發(fā)音的影響,將已提取的39維MFCC特征向量(靜態(tài)、一階、二階差分)進(jìn)行前后5幀的拼接,得到39 ×11=429維的特征向量。對(duì)這429維特征向量進(jìn)行線性判別分析(Liner Discriminant Analysis, LDA)抽取分類信息,同時(shí)降低維度至40維從而得到LDA特征。然后對(duì)這40維LDA特征向量進(jìn)行最大似然線性變換(Maximum Likelihood Linear Transformation, MLLT)來(lái)去除相關(guān)性得到LDA+MLLT特征,最后對(duì)經(jīng)過(guò)去除相關(guān)性的40維LDA+MLLT特征在特征空間上進(jìn)行最大似然線性回歸(Feature-space Maximum Likelihood Linear Regression, fMLLR)說(shuō)話人自適應(yīng)訓(xùn)練,實(shí)現(xiàn)特征參數(shù)自適應(yīng),減小測(cè)試聲學(xué)特征與聲學(xué)模型參數(shù)之間的不匹配,得到了40維的LDA+MLLT+fMLLR特征。仿真結(jié)果表明,以上特征變換均能有效降低音素識(shí)別的錯(cuò)誤率。

        深度自編碼器能夠更好地對(duì)語(yǔ)音信號(hào)中與音素相關(guān)的信息進(jìn)行逐層表征,基于深度自編碼器提取的語(yǔ)音深度特征過(guò)程,實(shí)質(zhì)上是一種非線性的特征變換和降維過(guò)程。利用神經(jīng)網(wǎng)絡(luò)的層次化提取信息過(guò)程來(lái)作為對(duì)原始輸入特征的非線性特征提取與轉(zhuǎn)換,使得特征維度與神經(jīng)網(wǎng)絡(luò)訓(xùn)練目標(biāo)尺度分離。相對(duì)網(wǎng)絡(luò)首層輸入層而言,隱層的神經(jīng)元個(gè)數(shù)要少得多,所以隱層在通過(guò)學(xué)習(xí)到原始輸入樣本的低維表示的同時(shí),還可以最大限度地包含與高維表示相同的信息。并且可以通過(guò)更精細(xì)的子音素類別來(lái)表示音素目標(biāo),最終由原始輸入向量經(jīng)過(guò)逐層映射得出對(duì)應(yīng)隱含層的輸出向量。由此就得到能夠最大限度地包含輸入向量信息的一個(gè)低維編碼,這使得輸出的深度特征具有比傳統(tǒng)底層聲學(xué)語(yǔ)音特征參數(shù)相近或更好的特性區(qū)分性,還帶有類別信息,加強(qiáng)了特征表示聲學(xué)單元的能力,得到更有效的特征表達(dá),進(jìn)而提高后期語(yǔ)音識(shí)別系統(tǒng)的性能。使用DAE提取深度特征的流程圖如圖3所示。

        圖3 深度特征提取流程

        本文使用的原始輸入特征是進(jìn)行前后5幀拼接的40維LDA+MLLT+fMLLR特征,形成40×11=440維的輸入特征向量,這11幀拼接的LDA+MLLT+fMLLR特征相對(duì)于傳統(tǒng)的單幀特征更具優(yōu)勢(shì)[11]:一個(gè)音素持續(xù)的時(shí)間大約在9幀左右,所以大約9幀的信息量就能夠包含一個(gè)完整的音素,同時(shí)也含有其他音素的部分信息,它可以提供單幀特征所體現(xiàn)不出的更細(xì)致更豐富的音素變化信息。

        利用深度自編碼器神經(jīng)網(wǎng)絡(luò)進(jìn)行深度特征參數(shù)提取的步驟如下:

        (1) 以11幀拼接LDA+MLLT+fMLLR特征作為輸入,經(jīng)訓(xùn)練得出第一層隱含層的網(wǎng)絡(luò)參數(shù),并以此計(jì)算第一層隱含層輸出;

        (3) 繼續(xù)把上一層的輸出作為第三層的輸入,再用同樣的方法訓(xùn)練該層網(wǎng)絡(luò)的參數(shù),而后利用反向傳播算法微調(diào)所有層的參數(shù)。最后將輸出層輸出的深度特征參數(shù)作為最終音素識(shí)別系統(tǒng)的輸入。

        3 仿真結(jié)果與分析

        3.1 數(shù)據(jù)庫(kù)與仿真環(huán)境

        以11幀拼接的LDA+MLLT+fMLLR特征作為原始輸入,經(jīng)過(guò)歸一化之后,所有輸入數(shù)據(jù)大小都在0~1之間。為保證實(shí)驗(yàn)的準(zhǔn)確性和客觀性,音素識(shí)別的基線系統(tǒng)選擇常用的混合隱馬爾科夫模型(Hidden Markov Model, HMM)+深度神經(jīng)網(wǎng)絡(luò)模型(Deep Neural Network, DNN)音素識(shí)別系統(tǒng)。

        3.2 分析

        本文設(shè)計(jì)2個(gè)實(shí)驗(yàn)來(lái)驗(yàn)證深度特征的優(yōu)越性,用音素錯(cuò)誤率(Phoneme Error Rate, PER)作為評(píng)價(jià)特征有效性的標(biāo)準(zhǔn)。

        3.2.1 最優(yōu)神經(jīng)網(wǎng)絡(luò)配置

        隱層單元數(shù)與隱層數(shù)的選擇將影響后期識(shí)別的音素錯(cuò)誤率。若神經(jīng)元過(guò)少,學(xué)習(xí)的容量有限,網(wǎng)絡(luò)所獲取的解決問(wèn)題的信息不足,難以存儲(chǔ)訓(xùn)練樣本中蘊(yùn)含的所有規(guī)律。若神經(jīng)元過(guò)多就會(huì)增加網(wǎng)絡(luò)訓(xùn)練時(shí)間,還可能把樣本中非規(guī)律性的內(nèi)容存儲(chǔ)進(jìn)去,反而會(huì)降低泛化能力。通過(guò)改變隱層層數(shù)與每層神經(jīng)元個(gè)數(shù)來(lái)確定網(wǎng)絡(luò)最佳配置,設(shè)置隱層層數(shù)從1到3層變化,每個(gè)隱層所含神經(jīng)元個(gè)數(shù)以50的偶數(shù)倍增加,最多為400個(gè)。為降低計(jì)算量,減少訓(xùn)練時(shí)間,將每層隱含層的神經(jīng)元設(shè)置成相同個(gè)數(shù)。對(duì)比不同網(wǎng)絡(luò)結(jié)構(gòu)配置下音素識(shí)別率的變化,進(jìn)而選定最優(yōu)參數(shù)配置。圖4顯示了改變隱含層的層數(shù)與神經(jīng)元個(gè)數(shù)對(duì)最終音素識(shí)別錯(cuò)誤率的影響。

        圖4 不同隱層層數(shù)與神經(jīng)元個(gè)數(shù)對(duì)音素識(shí)別錯(cuò)誤率的影響

        從圖4可以看出,改變隱層層數(shù)和隱層神經(jīng)元個(gè)數(shù)對(duì)降低音素識(shí)別錯(cuò)誤率有一定影響,當(dāng)隱含層為兩層且隱含層神經(jīng)元為100時(shí)與隱含層為三層隱含神經(jīng)元為200時(shí)錯(cuò)誤率最小,并不是隱含層數(shù)與神經(jīng)元個(gè)數(shù)越多越好。當(dāng)隱層層數(shù)與隱層神經(jīng)元個(gè)數(shù)增加至一定數(shù)量時(shí),音素錯(cuò)誤率不會(huì)降低反而上升,同時(shí)由于計(jì)算參數(shù)的增加使得訓(xùn)練時(shí)間增長(zhǎng),為減少計(jì)算參數(shù)及訓(xùn)練時(shí)間,同時(shí)確保音素識(shí)別正確率,本文選擇建立含有兩個(gè)隱含層的深度神經(jīng)網(wǎng)絡(luò)。深度自編碼器的輸入神經(jīng)元個(gè)數(shù)即為輸入特征的維數(shù)440,每一隱含層神經(jīng)元個(gè)數(shù)為100,輸出層神經(jīng)元個(gè)數(shù)設(shè)置為40,則該深度自編碼器結(jié)構(gòu)可表示為440-[100-100]-40,“[ ]”中數(shù)字為隱層神經(jīng)元的個(gè)數(shù)。

        3.2.2 特征有效性對(duì)比

        將本文特征解碼的結(jié)果與以下四種特征解碼得出的音素錯(cuò)誤率進(jìn)行對(duì)比,結(jié)果如表1所示。作為對(duì)比的四種特征分別為:(1) 原始MFCC特征參數(shù);(2) LDA+MLLT特征:MFCC在三音素模型的基礎(chǔ)上進(jìn)行LDA+MLLT變換;(3) LDA+MLLT +fMLLR特征:在(2)的基礎(chǔ)上進(jìn)行基于特征空間的最大似然線性回歸(fMLLR)的說(shuō)話人自適應(yīng)訓(xùn)練;(4) bottleneck特征:以11幀拼接的MFCC特征作為原始輸入,建立含有五個(gè)隱含層的DBN網(wǎng)絡(luò),輸入輸出層神經(jīng)元個(gè)數(shù)為440,第四隱含層為瓶頸層且其神經(jīng)元個(gè)數(shù)為40,其余隱含層神經(jīng)元個(gè)數(shù)為1 024,提取出bottleneck特征。

        由表1可知,與傳統(tǒng)特征以及特征變換后的優(yōu)化特征作為HMM+DNN系統(tǒng)的輸入相比,將深度特征作為系統(tǒng)原始輸入時(shí),系統(tǒng)的音素錯(cuò)誤率明顯下降,同時(shí)相對(duì)于使用DBN網(wǎng)絡(luò)提取bottleneck特征,其網(wǎng)絡(luò)參數(shù)的計(jì)算量和訓(xùn)練時(shí)長(zhǎng)較少。表1中的結(jié)果也證明了本文提取的深度特征的有效性。

        表1 傳統(tǒng)特征與深度特征的音素錯(cuò)誤率對(duì)比

        4 結(jié)語(yǔ)

        針對(duì)傳統(tǒng)語(yǔ)音特征的不足,本文對(duì)原始MFCC特征參數(shù)優(yōu)化之后,建立含有兩個(gè)隱層的深度自編碼器,將優(yōu)化后的MFCC參數(shù)作為其輸入,實(shí)現(xiàn)原始輸入的特征變換與降維,提取了可以更好地反應(yīng)語(yǔ)音本質(zhì)特征的深度特征參數(shù),作為HMM+DNN 系統(tǒng)的輸入。實(shí)驗(yàn)證明了本文特征的有效性。下一步研究將在本研究基礎(chǔ)上與DBN結(jié)合,提取更優(yōu)異的聲學(xué)特征,進(jìn)一步提高語(yǔ)音識(shí)別系統(tǒng)的性能。

        [1] 韓紀(jì)慶, 張磊, 鄭鐵然. 語(yǔ)音信號(hào)處理[M]. 北京: 清華大學(xué)出版社, 2005.

        HAN Jiqing, ZHANG Lei, ZHENG Tieran. Speech Signal Processing[M]. Beijing: Tsinghua University Press, 2005.

        [2] 陳雷, 楊俊安, 王一, 等. LVCSR系統(tǒng)中一種基于區(qū)分性和自適應(yīng)瓶頸深度置信網(wǎng)絡(luò)的特征提取方法[J]. 信號(hào)處理, 2015, 31(3): 290 -298.

        CHEN Lei, YANG Junan, WANG Yi, et al. A feature extraction method based on discriminative and adaptive bottleneck deep confidence network in LVCSR system[J]. Signal Processing, 2015, 31 (3): 290-298.

        [3] SCHWARZ P. Phoneme Recognition Based on Long Temporal Context[EB/ OL]. [2013-07-10]. http://speech. Fit. Vutbr. cz/ software/Phoneme-recognizer-based-long-temporal-context.

        [4] GREZL F, FOUSEK P. Optimizing bottleneck feature for LVCSR[C]//IEEE International Confe rence on Acoustics, Speech and Signal Processing, 2008: 4792-4732.

        [5] HINTON G E, OSINDERO S, TEH Y W. A fast learning algorithm for deep belief nets[J]. Neural Computation, 2006, 18(7): 1527-1554.

        [6] HINTON G E, SALAKHUTDINOV R R. Reducing the dimensionality of data with neural networks[J]. Science, 2006, 313(5786): 504-507.

        [7] 孫志軍, 薛磊, 許陽(yáng)明, 等. 深度學(xué)習(xí)研究綜述[J]. 計(jì)算機(jī)應(yīng)用研究, 2012, 29(8): 2806-2810.

        SUN Zhijun, XUE Lei, XU Yangming, et al. Review of deep learning research[J]. Journal of Computer Applications, 2012, 29 (8): 2806-2810.

        [8] 張開(kāi)旭, 周昌樂(lè). 基于自動(dòng)編碼器的中文詞匯特征無(wú)監(jiān)督學(xué)習(xí)[J].中文信息學(xué)報(bào), 2013, 27(5): 1-7.

        ZHANG Kaixu, ZHOU Changle. Unsupervised learning of Chinese vocabulary features based on automatic encoder[J]. Journal of Chinese Information Processing, 2013, 27(5): 1-7.

        [9] COATES A, NG A Y, LEE H. An analysis of single- layer networks inunsupervised feature learnin[C]//Proc of International Conferenceon Artificial Intelligence and Statistics. 2011: 215-223.

        [10] HINTON G E, DENG L, YU D, et al. Deep neural networks for acoustic modeling in speech recognition: the shared views of four research groups[J]. IEEE Signal Processing Magazine, 2012, 29(6): 82-97.

        [11] SIVARAM G, HERMANSKY H. Sparse multilayer per-ceptron for phoneme recognition[J]. IEEE Transac-tions on Audio, Speech, and Language Processing, 2012, 20(1): 23-29.

        Speech deep feature extraction method for deep neural network

        LI Tao, CAO Hui,GUO Le-le

        (School of Physics and Information Technology,Shaanxi Normal University,Xian,710100, Shaanxi, China)

        In order to improve the performance of continuous speech recognition system, this paper applies the deep auto-encoder neural network to the speech signal feature extraction process. The deep auto-encoder is formed by stacking sparsely the auto-encoder. The neural networks based on deep learning introduce the greedy layer-wise learning algorithm by pre-training and fine-tuning. The context-dependent three-phoneme model is used in the continuous speech recognition system, and the phoneme error rate is taken as the criterion of system performance. The simulation results show that the deep auto-encoder based deep feature is more advantageous than the traditional MFCC features and optimized MFCC features.

        speech recognition; Deep Auto-Encoding (DAE); Mel-Frequency Cepstral Coefficient (MFCC)

        H107

        A

        1000-3630(2018)-04-0367-05

        10.16300/j.cnki.1000-3630.2018.04.013

        2017-08-04;

        2017-10-18

        國(guó)家自然科學(xué)基金資助(1202020368、11074159、11374199)。

        李濤(1992-), 男, 新疆伊犁人, 碩士研究生, 研究方向?yàn)樾盘?hào)與信息處理。

        曹輝,E-mail:caohui@snnu.edu.cn

        猜你喜歡
        音素錯(cuò)誤率特征參數(shù)
        限制性隨機(jī)試驗(yàn)中選擇偏倚導(dǎo)致的一類錯(cuò)誤率膨脹*
        新目標(biāo)英語(yǔ)七年級(jí)(上)Starter Units 1-3 STEP BY STEP 隨堂通
        故障診斷中信號(hào)特征參數(shù)擇取方法
        基于特征參數(shù)化的木工CAD/CAM系統(tǒng)
        依托繪本課程,培養(yǎng)學(xué)生英語(yǔ)音素意識(shí)
        小學(xué)英語(yǔ)課堂中音素意識(shí)與自然拼讀整合訓(xùn)練的探索
        ?不定冠詞a與an
        基于PSO-VMD的齒輪特征參數(shù)提取方法研究
        正視錯(cuò)誤,尋求策略
        教師·中(2017年3期)2017-04-20 21:49:49
        解析小學(xué)高段學(xué)生英語(yǔ)單詞抄寫作業(yè)錯(cuò)誤原因
        国产三级av在线播放| 日本高清中文字幕二区在线| 亚洲在中文字幕乱码熟女| 国产片在线一区二区三区| 精品午夜福利在线观看| 爆乳熟妇一区二区三区霸乳| 亚洲精品无码不卡av| 中文字幕精品一区二区精品| 免费国产a国产片高清网站| 奇米影视777撸吧| 在线亚洲午夜理论av大片| 日韩AV无码一区二区三| 日韩有码中文字幕第一页| 久久久国产熟女综合一区二区三区| 国产在线播放一区二区不卡| 亚洲av片在线观看| 亚洲av日韩av无码污污网站| 亚洲va欧美va国产综合| 偷拍熟女亚洲另类| 日本免费三级一区二区 | 一区二区三区国产高清视频| 免费超爽大片黄| 免费无码国产v片在线观看| 亚洲男人在线无码视频| 免费人成在线观看播放视频| 亚洲男同免费视频网站| 色窝窝亚洲av网在线观看| 免费观看又色又爽又黄的| 毛片无遮挡高清免费久久| 亚洲美女av二区在线观看| 激情文学婷婷六月开心久久| 国产精品无码v在线观看| 人妻中文无码久热丝袜| 欧美日韩区1区2区3区| 精品一区二区亚洲一二三区| 一区二区三区高清在线观看视频 | 色se在线中文字幕视频| 亚洲国产性夜夜综合另类| 又大又紧又粉嫩18p少妇 | 男女猛烈无遮挡免费视频| 国产精品污www一区二区三区|