亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于瓶頸復(fù)合特征的聲學(xué)模型建立方法

        2020-11-14 08:48:32鄭文秀趙峻毅文心怡姚引娣
        計算機(jī)工程 2020年11期
        關(guān)鍵詞:隱層數(shù)目瓶頸

        鄭文秀,趙峻毅,文心怡,姚引娣

        (西安郵電大學(xué) 通信與信息工程學(xué)院,西安 710121)

        0 概述

        近年來,隨著語音識別技術(shù)的迅速發(fā)展,特別是深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks,DNN)在大詞匯量連續(xù)語音識別中的成功應(yīng)用,使語音的識別正確率得到了很大的提升。語音識別系統(tǒng)一般包含特征提取、聲學(xué)模型和解碼識別3個部分[1]。特征提取是將原始數(shù)據(jù)中提取有利于后續(xù)過程中語音識別的部分特征,消除大量冗余信息,對這些特征進(jìn)行降維和去噪處理[2]。聲學(xué)模型訓(xùn)練利用特征和標(biāo)注訓(xùn)練模型來區(qū)分隱馬爾科夫模型(Hidden Markov Model,HMM)狀態(tài),包括高斯混合模型(Gaussian Mixture Model,GMM)、深度信念網(wǎng)絡(luò)(Deep Belief Networks,DBN)[3]、深度神經(jīng)網(wǎng)絡(luò)[4]和瓶頸-高斯混合模型(BottleNeck-GMM,BN-GMM)。

        在DNN-HMM聲學(xué)模型之前,GMM-HMM聲學(xué)模型具有完善的理論知識體系,訓(xùn)練效率較高。傳統(tǒng)的語音識別聲學(xué)模型采用梅爾頻率倒譜系數(shù)(Mel-Frequency Cepstral Coefficient,MFCC)特征對GMM-HMM進(jìn)行建模。但是MFCC特征具有短時的特性,容易受到環(huán)境中噪聲的影響,魯棒性較差,忽略了連續(xù)幀之間的相關(guān)特性[5]。為利用GMM-HMM的性能優(yōu)勢,文獻(xiàn)[6-7]研究了一種具有狹窄中間層的瓶頸深度神經(jīng)網(wǎng)絡(luò),從神經(jīng)網(wǎng)絡(luò)的瓶頸層提取BN特征來代替MFCC特征,并應(yīng)用于GMM-HMM聲學(xué)模型訓(xùn)練,構(gòu)造出BN-GMM-HMM,實(shí)驗(yàn)結(jié)果表明,該模型與DNN-HMM聲學(xué)模型相比具有相當(dāng)?shù)淖R別能力。

        本文將深度神經(jīng)網(wǎng)絡(luò)提取的語音長時相關(guān)性和緊湊性特征與傳統(tǒng)MFCC特征相結(jié)合,構(gòu)造一種新的復(fù)合特征參數(shù)流系統(tǒng)。該系統(tǒng)采用成熟的GMM-HMM聲學(xué)模型,并利用復(fù)合特征參數(shù)流進(jìn)行GMM-HMM模型的重構(gòu),以提升系統(tǒng)的識別率。

        1 聲學(xué)特征的提取

        1.1 基于深度神經(jīng)網(wǎng)絡(luò)的瓶頸特征提取

        2007年,GREZL等人[8]提出瓶頸的概念并在連續(xù)語音識別中成功應(yīng)用。通過在BN-DBN引入瓶頸層減少了輸出特征的維度,降低了后續(xù)的運(yùn)算復(fù)雜度[9]。本文采用基于DNN模型的瓶頸聲學(xué)特征,其訓(xùn)練與其他應(yīng)用于語音識別的DNN訓(xùn)練程相似。輸入數(shù)據(jù)為39維(12維濾波器輸出值,1維對數(shù)能量和兩者的一階、二階差分)、幀長為25 ms、幀移為10 ms、11幀拼接的MFCC特征[10]。

        本文采用的DNN由輸入層、5層隱層和輸出層構(gòu)成。相鄰的兩層神經(jīng)元之間相互連接,層內(nèi)神經(jīng)元不連接[11]?;贐N-DNN的語音特征提取可以分為以下2個主要步驟:

        步驟1建立DNN。DNN的訓(xùn)練分成神經(jīng)網(wǎng)初始化和參數(shù)更新2個階段,即預(yù)訓(xùn)練(Pre-training)和微調(diào)(Fine-tuning),建立一個訓(xùn)練好的DNN[12]。

        1)Pre-training階段:采用貪婪算法進(jìn)行非監(jiān)督的方法訓(xùn)練一個受限玻爾茲曼機(jī)(Restricted Boltzmann Machine,RBM),再通過從底向上的方式訓(xùn)練多個RBM,底層RBM的輸出值作為高層的輸入值,獲得一個DBN網(wǎng)絡(luò)。

        本文RBM的能量函數(shù)為高斯-伯努利型,可表示為:

        E(v,h;θ)=

        (1)

        其中,θ代表模型參數(shù),vi代表第i個顯層神經(jīng)元,hj代表第j個隱層神經(jīng)元,Wij代表第i個神經(jīng)元和第j個神經(jīng)元的連接權(quán)重,σi代表控制能量寬度的參數(shù),bi代表顯層神經(jīng)元的第i個偏置,aj代表隱層神經(jīng)元的第j個偏置。

        利用梯度下降(Gradient Descent,GD)算法對RBM的對數(shù)似然概率logap(v,h;θ)進(jìn)行計算,其推導(dǎo)公式為:

        (2)

        (3)

        (4)

        (5)

        2)Fine-tuning階段:在最后一個RBM處采取反向傳播(Back Propagation,BP)算法對整個神經(jīng)網(wǎng)自頂向下進(jìn)行有監(jiān)督地微調(diào)訓(xùn)練,完成DNN的建立。DNN的結(jié)構(gòu)如圖1所示。

        圖1 DNN結(jié)構(gòu)Fig.1 Structure of DNN

        步驟2訓(xùn)練好DNN后,將瓶頸層后面網(wǎng)絡(luò)移除,瓶頸層當(dāng)作輸出層獲取BN特征[9]。BN-DNN結(jié)構(gòu)如圖2所示。

        圖2 BN-DNN結(jié)構(gòu)Fig.2 Structure of BN-DNN

        從圖2可以看出[13],隱層3為瓶頸層,將提取的MFCC聲學(xué)特征作為輸入數(shù)據(jù)經(jīng)過顯層和隱層對網(wǎng)絡(luò)進(jìn)行無監(jiān)督預(yù)訓(xùn)練,并采取BP算法對整個神經(jīng)網(wǎng)由后往前進(jìn)行有監(jiān)督地微調(diào)訓(xùn)練,完成DNN的建立。訓(xùn)練好模型后,將隱層3之后的隱層4、隱層5及輸出層去除,并將瓶頸層作為輸出層。DNN具有強(qiáng)大的分類能力,可以從數(shù)據(jù)中學(xué)習(xí)更有利于特定分類任務(wù)的特征表示,因此提取出的語音瓶頸特征更有效。

        1.2 新復(fù)合特征的構(gòu)造

        復(fù)合特征是指傳統(tǒng)的短時特征和非短時差異特征復(fù)合后形成新的特征參數(shù)流。2010年,呂丹桔等人[14]提出將傳統(tǒng)的短時特征如MFCC/PLP特征與采用ANN技術(shù)提取具有差異特征的MLP復(fù)合構(gòu)成新的復(fù)合特征向量,利用構(gòu)造出的復(fù)合特征GMM-HMM聲學(xué)建模在漢語的聲學(xué)特征的識別率上比單特征有了明顯提高。2018年,周楠等人[15]在藏語的研究中進(jìn)行了瓶頸復(fù)合特征的相關(guān)實(shí)驗(yàn),結(jié)果表明,復(fù)合特征相比于單BN特征和DNN后驗(yàn)特征系統(tǒng),識別率有了明顯改善。本文采取DNN模型提取瓶頸特征與MFCC特征相結(jié)合構(gòu)造出一個新的復(fù)合特征參數(shù)。

        復(fù)合特征提取步驟如下:

        1)對語音的原始數(shù)據(jù)預(yù)處理得到MFCC特征。

        2)訓(xùn)練基于最大似然準(zhǔn)則的GMM-HMM聲學(xué)模型,并通過區(qū)分性訓(xùn)練優(yōu)化GMM模型。

        3)采用步驟2優(yōu)化好的GMM模型對訓(xùn)練標(biāo)注進(jìn)行強(qiáng)制對齊,獲取幀級標(biāo)注用于DNN訓(xùn)練。

        4)通過Pre-training初始化前面得到的DNN網(wǎng)絡(luò)參數(shù),并根據(jù)交叉熵準(zhǔn)則Fine-tuning訓(xùn)練DNN網(wǎng)絡(luò)。

        5)移除上一步驟得到的DNN網(wǎng)絡(luò)中瓶頸層之后的網(wǎng)絡(luò),將瓶頸層作為輸出層,獲取BN特征。

        6)將上述步驟獲取的BN特征和MFCC特征進(jìn)行串接獲取復(fù)合特征。

        復(fù)合特征的流程如圖3所示。

        圖3 復(fù)合特征的訓(xùn)練流程Fig.3 Training procedure of compound features

        2 仿真實(shí)驗(yàn)與結(jié)果分析

        2.1 GMM-HMM模型建立

        本文采用三音素模型進(jìn)行訓(xùn)練。三音素模型采用A_B_C形式,B為當(dāng)前狀態(tài),A和C分別為前后狀態(tài),對三音素單元使用自左向右的無狀態(tài)間跨越的三狀態(tài)HMM,每個HMM拓?fù)浣Y(jié)構(gòu)前后都有一個開始狀態(tài)和一個結(jié)束狀態(tài)[17]。

        基于最大似然準(zhǔn)則的GMM-HMM聲學(xué)模型,其輸入為39維特征,幀長為25 ms,幀移為10 ms,HMM中的每個狀態(tài)設(shè)置100個獨(dú)立的高斯分量。

        2.2 瓶頸特征的GMM-HMM模型建立

        由DNN作為特征提取模塊提取出BN特征并使用GMM-HMM進(jìn)行聲學(xué)建模所構(gòu)成的系統(tǒng)稱為級聯(lián)系統(tǒng)[18]。首先訓(xùn)練一個DNN-bottleneck神經(jīng)網(wǎng)絡(luò)提取瓶頸特征。輸入層神經(jīng)元數(shù)目=輸入特征的幀數(shù)×每幀的維數(shù),即輸入層節(jié)點(diǎn)429=39×11;隱層中的神經(jīng)元數(shù)目通常設(shè)置應(yīng)盡量大,使得它可以提升深度神經(jīng)網(wǎng)絡(luò)的性能,且除BN層以外,其他隱層的神經(jīng)元數(shù)目相等;瓶頸層的神經(jīng)元數(shù)目通常設(shè)置和特征的單幀維數(shù)一樣。因此,本文的BN-DNN的結(jié)構(gòu)表示為:429-[1 024-1 024-39-1 024-1 024]-429。最后,將得到的BN特征訓(xùn)練GMM-HMM模型,進(jìn)行識別解碼。

        2.3 復(fù)合特征的GMM-HMM模型建立

        復(fù)合特征的GMM-HMM模型的訓(xùn)練采用提取的39維BN特征和39維傳統(tǒng)MFCC特征進(jìn)行串接,得到78維高維度復(fù)合特征,經(jīng)過主成分分析法(Principal Component Analysis,PCA)降維[19-20]后,獲得39維的復(fù)合特征,重復(fù)2.2節(jié)中復(fù)合特征提取步驟中的步驟2的訓(xùn)練方法,訓(xùn)練復(fù)合特征的GMM-HMM聲學(xué)模型并進(jìn)行識別解碼。復(fù)合特征的聲學(xué)模型建立過程如圖4所示。

        圖4 復(fù)合特征的聲學(xué)模型建立過程Fig.4 Process of acoustic model establishing with compound features

        2.4 實(shí)驗(yàn)過程

        實(shí)驗(yàn)過程如下:

        1)數(shù)據(jù)集

        本文采用TIMIT聲學(xué)-音素學(xué)連續(xù)語音語料庫來驗(yàn)證實(shí)驗(yàn)的有效性,共包含4.3 h的語音數(shù)據(jù)(其中包含1.1 h的NIST測試數(shù)據(jù))。數(shù)據(jù)集中訓(xùn)練集包含462個不同發(fā)音人朗讀的4 620個句子,測試集包含162個不同發(fā)音人朗讀的1 620個句子,且訓(xùn)練集與測試集沒有同一個說話人。

        2)參數(shù)的設(shè)置

        在Pre-training階段,所有的RBM使用CD算法配合小批量隨機(jī)梯度下降法進(jìn)行訓(xùn)練,每一個mini-batch的大小為128,沖量因子設(shè)置為0.9,不使用權(quán)重衰減,學(xué)習(xí)率訓(xùn)練200代RBM。在Fine-tuning階段,所有的參數(shù)設(shè)置和預(yù)訓(xùn)練階段相同。

        3)評估標(biāo)準(zhǔn)

        本文將詞錯誤率(Word Error Rate,WER)作為評估標(biāo)準(zhǔn)。WER的公式為:

        (6)

        其中,S為替換數(shù),D為刪除數(shù),I為插入數(shù),N為單詞數(shù)。

        2.5 結(jié)果分析

        實(shí)驗(yàn)1隱層中神經(jīng)元個數(shù)的最優(yōu)設(shè)置

        在實(shí)驗(yàn)1中,本文通過調(diào)整BN-DNN模型中隱層的神經(jīng)元個數(shù)確定最佳的網(wǎng)絡(luò)結(jié)構(gòu)配置。隱層依次設(shè)置為256、512、1 024、2 048這4種情況,每個隱層神經(jīng)元個數(shù)相同,且BN層神經(jīng)元數(shù)目臨時設(shè)置為39。不同神經(jīng)元個數(shù)的模型性能比較如表1所示。

        表1 不同神經(jīng)元個數(shù)的復(fù)合特征聲學(xué)模型性能比較Table 1 Performance comparison of composund features acoustic models with different numbers of neurons %

        從表1可以看出,在DNN為五層隱層的情況下,除瓶頸層神經(jīng)元數(shù)目為39外,其他隱層均為1 024時,新的復(fù)合特征建立的聲學(xué)模型效果達(dá)到最佳。從而驗(yàn)證在2.2節(jié)提出的深度神經(jīng)網(wǎng)絡(luò)模型中,隱層神經(jīng)元數(shù)目盡量大可以提升深度神經(jīng)網(wǎng)絡(luò),在神經(jīng)元數(shù)目達(dá)到1 024時,WER達(dá)到最小值13.75%,神經(jīng)元數(shù)目繼續(xù)增加,WER反而增加。所以,神經(jīng)元數(shù)目并不是越大越好,五層隱層效果最好的神經(jīng)元數(shù)目為1 024。

        實(shí)驗(yàn)2BN層中神經(jīng)元個數(shù)的最優(yōu)設(shè)置

        根據(jù)實(shí)驗(yàn)1確定隱層神經(jīng)元數(shù)目為1 024,改變BN層中神經(jīng)元的個數(shù),分別設(shè)置為20、30、39及40這4種情況來確定BN層為39個神經(jīng)元時是否為最優(yōu)參數(shù)。不同BN層的模型性能比較如表2所示。

        表2 不同BN層的復(fù)合聲學(xué)模型性能比較Table 2 Performance comparison of composund acoustic models of different BN layers %

        從表2可以看出,在BN層數(shù)改變的4種情況下,WER并沒有太大的改變,在最大差距數(shù)目為39時,比20降低了0.11%,在最小差距數(shù)目為39時,比30降低了0.06%,但驗(yàn)證了BN層神經(jīng)元數(shù)目為39時,根據(jù)新的復(fù)合特征建立的GMM-HMM聲學(xué)模型性能最好。

        實(shí)驗(yàn)34種不同特征的聲學(xué)模型識別率的對比

        MFCC特征、BN特征及新的復(fù)合特征進(jìn)行GMM-HMM聲學(xué)建模以及深度神經(jīng)網(wǎng)絡(luò)后驗(yàn)特征的識別結(jié)果對比如表3所示。

        表3 不同模型識別的詞錯誤率Table 3 Word error rate recognized by different models %

        從表3可以看出,與其他語音特征相比,基于深度神經(jīng)網(wǎng)絡(luò)的瓶頸特征與傳統(tǒng)MFCC特征的復(fù)合特征具有最佳的識別效果。相比單一的MFCC特征WER下降5.63%,與單一的瓶頸特征相比,深度神經(jīng)網(wǎng)絡(luò)后驗(yàn)特征具有相當(dāng)?shù)淖R別性能。而復(fù)合特征的識別效果相比于深度神經(jīng)網(wǎng)絡(luò)后驗(yàn)特征和單一瓶頸特征分別提高了3.56%和3.67%。這是因?yàn)楫?dāng)訓(xùn)練數(shù)據(jù)與測試數(shù)據(jù)相匹配時,使用BN特征相比于MFCC特征能獲得更低的錯誤率,但是當(dāng)訓(xùn)練數(shù)據(jù)與測試數(shù)據(jù)不匹配時,BN特征與MFCC特征復(fù)合才能獲得更好的識別率。

        3 結(jié)束語

        本文針對TIMIT語音數(shù)據(jù)集連續(xù)語音識別,將語音數(shù)據(jù)中提取到的MFCC特征作為輸入數(shù)據(jù),經(jīng)過最大似然準(zhǔn)則訓(xùn)練GMM-HMM聲學(xué)模型,并根據(jù)區(qū)分性訓(xùn)練優(yōu)化GMM模型。通過預(yù)訓(xùn)練初始化參數(shù)并根據(jù)交叉熵準(zhǔn)則微調(diào)訓(xùn)練DNN網(wǎng)絡(luò),移除訓(xùn)練好的DNN網(wǎng)絡(luò)瓶頸層之后的網(wǎng)絡(luò),從而獲取具有更強(qiáng)區(qū)分性的BN特征。將MFCC特征和BN特征進(jìn)行串接,建立復(fù)合特征的GMM-HMM聲學(xué)模型。實(shí)驗(yàn)結(jié)果表明,深度神經(jīng)網(wǎng)絡(luò)提取的BN特征在識別效果上比傳統(tǒng)的MFCC特征更具優(yōu)勢,兩者串接而成的復(fù)合特征的聲學(xué)模型在識別率上有了大幅提升,從而驗(yàn)證了本文聲學(xué)建模方法較優(yōu)的識別性能。下一步擬將不同的深度神經(jīng)網(wǎng)模型與傳統(tǒng)的MFCC特征進(jìn)行對比,構(gòu)建復(fù)合的聲學(xué)模型,以期獲得更好的識別率。

        猜你喜歡
        隱層數(shù)目瓶頸
        有機(jī)物“同分異構(gòu)體”數(shù)目的判斷方法
        基于RDPSO結(jié)構(gòu)優(yōu)化的三隱層BP神經(jīng)網(wǎng)絡(luò)水質(zhì)預(yù)測模型及應(yīng)用
        人民珠江(2019年4期)2019-04-20 02:32:00
        突破霧霾治理的瓶頸
        《哲對寧諾爾》方劑數(shù)目統(tǒng)計研究
        牧場里的馬
        突破瓶頸 實(shí)現(xiàn)多贏
        如何渡過初創(chuàng)瓶頸期
        基于近似結(jié)構(gòu)風(fēng)險的ELM隱層節(jié)點(diǎn)數(shù)優(yōu)化
        最優(yōu)隱層BP神經(jīng)網(wǎng)絡(luò)的滾動軸承故障診斷
        BP神經(jīng)網(wǎng)絡(luò)隱層單元數(shù)確定方法
        比较有韵味的熟妇无码| 色中文字幕视频在线观看| 青青草久久久亚洲一区| 插上翅膀插上科学的翅膀飞| 日韩欧美亚洲综合久久影院ds| 国内少妇自拍区免费视频| 日本成熟妇人高潮aⅴ| 中文字幕一区二三区麻豆| 西西午夜无码大胆啪啪国模| 看曰本女人大战黑人视频| 亚洲精品宾馆在线精品酒店| 国产婷婷色综合av蜜臀av| 中文字幕天堂网| 国产精品三级1区2区3区| 国产成人一区二区三区| 男吃奶玩乳尖高潮视频| 天堂中文在线资源| 亚洲AV无码久久精品国产老人| 人人爽亚洲aⅴ人人爽av人人片| av黄色大片久久免费| 国产乱人偷精品人妻a片| 欧美极品美女| 91久国产在线观看| 亚洲女人的天堂网av| 欧美一区二区三区视频在线观看 | 91精品人妻一区二区三区蜜臀| 华人在线视频精品在线| 久久久老熟女一区二区三区| 国产真实露脸4p视频| 日本一区二区三区精品不卡| 国产一区二区三区 在线观看| 久久99国产综合精品| 色狠狠色狠狠综合一区| 成人国产自拍在线播放| 激情亚洲一区国产精品| 精品人妻av区乱码| 8888四色奇米在线观看| 日韩极品视频在线观看| 国产精品女直播一区二区| 久久av高潮av无码av喷吹| 无码伊人66久久大杳蕉网站谷歌|