亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        連續(xù)音素的改進(jìn)深信度網(wǎng)絡(luò)的識別算法?

        2019-04-02 08:47:58陰法明
        應(yīng)用聲學(xué) 2019年1期
        關(guān)鍵詞:散度音素隱層

        陰法明 趙 焱 趙 力

        (1南京信息職業(yè)技術(shù)學(xué)院通信學(xué)院 南京 210023)

        (2東南大學(xué)信息科學(xué)工程學(xué)院 南京 210096)

        0 引言

        音素識別指的是對給定的語音特征向量,估計語音標(biāo)簽序列的過程,在諸多語音識別系統(tǒng)中具有廣泛的應(yīng)用[1?2],如關(guān)鍵字識別、語言分類、說話人識別等。有效的音素識別是提高語音識別的關(guān)鍵。

        目前語音識別系統(tǒng)常用隱馬爾科夫模型(Hidden Markov models,HMM)來處理語音中的時域變量,用高斯混合模型(Gaussian mixture models,GMM)來確定每一個HMM狀態(tài)是如何對應(yīng)于一幀輸入語音參數(shù)[3]。但是這種方法還存在一些缺點(diǎn):在模擬數(shù)據(jù)空間中非線性樣本時,其統(tǒng)計無效。例如對球面上的點(diǎn)集進(jìn)行建模時,GMM就需要使用大量的對角高斯或協(xié)方差高斯[4]。此外這種方法的語音是通過調(diào)制動態(tài)系統(tǒng)中相對較少的參數(shù)產(chǎn)生的,這意味著它真實的底層結(jié)構(gòu)是用了一組低維數(shù)據(jù)來表示一幀包含了上百參數(shù)的語音。所以如果能充分挖掘幀中的信息,就有可能找到一種比GMM更好的方法來進(jìn)行語音建模。

        為克服上述缺點(diǎn),有學(xué)者提出將深度神經(jīng)網(wǎng)絡(luò)應(yīng)用于聲學(xué)建模中,用深信度網(wǎng)絡(luò)(Deep belief network,DBN)/隱馬爾科夫模型(DBN/HMM)結(jié)構(gòu)來提高最終的識別率[5?6]。Google與YouTube的相關(guān)實驗也表明DBN/HMM在語音識別效果上要遠(yuǎn)遠(yuǎn)優(yōu)于傳統(tǒng)的GMM/HMM[4]。而DBN是通過將多個受限玻爾茲曼機(jī)(Restricted Boltzmann machine,RBM)堆疊而成,所以RBM的訓(xùn)練成為整個結(jié)構(gòu)的關(guān)鍵。Hinton[7]在2010年提出了對比散度(Contrastive divergence,CD)用來訓(xùn)練RBM,之后又出現(xiàn)了持續(xù)對比散度(Persistent contrastive divergence,PCD)[8]。但是這兩種方法都是對單條馬爾可夫鏈進(jìn)行采樣,且在初始化數(shù)據(jù)上也較為粗糙,導(dǎo)致其在計算模型期望時存在較大誤差。

        為此本文在并行回火(Parallel tempering,PT)算法的基礎(chǔ)上,根據(jù)來自多條吉布斯鏈樣本的狀態(tài)能量,進(jìn)行等能量劃分,構(gòu)建多個能量環(huán),提高相鄰溫度鏈之間的交換率,進(jìn)而優(yōu)化RBM的訓(xùn)練,并將訓(xùn)練好的RBM堆疊成DBN進(jìn)行音素識別。在TIMIT語料庫上,由改進(jìn)的并行回火算法所獲得的識別率明顯高于對比散度類算法。

        1 受限玻爾茲曼機(jī)

        受限玻爾茲曼機(jī)(RBM)是一種特殊的馬爾科夫隨機(jī)域,一個RBM包含一個由隨機(jī)的隱層單元構(gòu)成的隱層和一個由隨機(jī)的可見單元構(gòu)成的顯層,其中隱層一般為伯努利分布,顯層一般是高斯分布或伯努利分布[9]。RBM可以表示成雙向圖,只有不同層之間的單元才會存在邊,同層單元之間都不會有邊連接,即層間全連接,層內(nèi)無連接。

        RBM是一種基于能量的模型,其可見矢量v和隱層矢量h的聯(lián)合配置能量由公式(1)給出。

        其中,vi是可見單元的二值狀態(tài),hj是隱層單元的二值狀態(tài),ai和bj分別是可見單元i和隱層單元j的偏置值,wij是鏈接權(quán)值。通過E可以定義可見單元和隱層單元狀態(tài)的聯(lián)合分布概率:

        因為RBM層內(nèi)無連接,所以隱層單元之間是獨(dú)立的,所以可見矢量v的概率是對隱層單元的求和。RBM中的權(quán)值更新算法依據(jù)梯度下降法[7]:

        式(4)表示由輸入數(shù)據(jù)所確定的期望?vihj?data與模型獲取的期望?vihj?model之間的差異。最終,可以得到RBM的權(quán)值每次更新的大小為

        2 改進(jìn)的RBM的訓(xùn)練算法

        對于RBM而言,由于隱層單元之間沒有連接,無偏樣本?vihj?data是很容易得到的,而且條件分布,給定一個可見矢量v,隱層單元hj的狀態(tài)為1的概率為

        同理可得給定一個隱層矢量h,可見單元vi的狀態(tài)為1的概率為

        無偏樣本?vihj?model的獲得是很困難的。傳統(tǒng)算法采用對比散度來近似計算該模型的期望,步驟總結(jié)如下:(1)初始化可見矢量v0;(2)采樣h0:p(h|v0);(3)采樣v1:p(v|h0);(4)采樣h1:p(h|v1);如此交替進(jìn)行采樣來訓(xùn)練RBM。由此可知,該算法的復(fù)雜度是指數(shù)級增加的。

        為解決RBM的訓(xùn)練效率問題,目前提出了對比散度(CD)、持續(xù)對比散度(PCD)和并行回火(PT)等方法[10]。對比散度是訓(xùn)練RBM的標(biāo)準(zhǔn)方法,它通過訓(xùn)練數(shù)據(jù)來初始化吉布斯鏈,然后交替執(zhí)行CD-1算法,所以實際上它并沒有依據(jù)模型分布來計算對數(shù)概率的梯度[7]。持續(xù)對比散度是通過對一條持續(xù)馬爾科夫鏈進(jìn)行吉布斯采樣來計算模型梯度,其初始吉布斯的狀態(tài)來源于前一次的更新參數(shù),而不是訓(xùn)練數(shù)據(jù)[8]。這兩種方法都僅使用單一的馬爾科夫鏈來計算?vihj?model,這會引起訓(xùn)練退化。尤其是對含有多個峰值的目標(biāo)分布,這種使用對比散度或持續(xù)對比散度的吉布斯采樣會容易陷入局部最優(yōu)。

        “回火”作為一種通用策略,它通過從1/t<1的模型中采樣來實現(xiàn)不同峰值之間的快速混合。本文使用并行回火采樣對RBM訓(xùn)練(RBM-PT),并行回火引入了增補(bǔ)吉布斯鏈,它能夠從漸進(jìn)平滑的原始分布中采樣[11?12]。RBM-PT在訓(xùn)練過程中,每個溫度對應(yīng)一條吉布斯鏈并使用并行回火的方法采樣。每條吉布斯鏈對應(yīng)一個不同的溫度ti,ti滿足1=t1< ···

        根據(jù)式(2),在不同的溫度下,并行回火RBM聯(lián)合概率為

        通過將式(1)的RBM參數(shù)θRBM={W,a,b}中的顯層單元與隱層單元之間的連接權(quán)重W乘以溫度β,整個模型的參數(shù)變?yōu)棣萊BM?PT={βW,a,b},對于偏置值a和b并沒有改變。此時,并行回火算法可與受限波爾茲曼機(jī)結(jié)合,改善訓(xùn)練效率。公式(8)中的參數(shù)t指“溫度”,該參數(shù)反映了基于能量模型的統(tǒng)計物理起源。當(dāng)溫度趨于0時,1/t則趨于無窮,此時的基于能量的模型是確定性的。反之,基于能量的模型成了均勻分布。

        并行回火蒙特卡羅算法包括兩個階段:

        (1)Metropolis-Hastings采樣[13]階段:根據(jù)已有的采樣值計算當(dāng)前溫度的下一個采樣點(diǎn),基本采樣計算公式為

        (2)交換:并行回火RBM模型的交換條件如下:

        其中,tγ與tγ?1是兩個相鄰的溫度,E(vγ,hγ)與E(vγ?1,hγ?1)是其對應(yīng)的隱層期望。如果滿足該條件,就把相鄰的溫度鏈下的采樣點(diǎn)交換,否則不交換。為了提高這種交換率,本文提出了如下改進(jìn)方法:由公式(10)可得,當(dāng)溫度固定時,交換率取決于兩個狀態(tài)能量之差,且差值越小交換的可能就越大。本文根據(jù)所有鏈的狀態(tài)能量,將狀態(tài)空間分為幾個等能量集合,促使當(dāng)前狀態(tài)向等能量集中的其他狀態(tài)轉(zhuǎn)移。具體算法如下:

        首先引入d+1個能量水平:

        理論上H1應(yīng)小于最小能量,但在本文中H1被設(shè)為最小能量,而Hd等于最大能量值。因為這樣也能包含模型中的所有狀態(tài)能量。H2,···,Hd?1通過均分(Hd?H1)獲得。

        其次根據(jù)這d+1個能量水平,要將N個馬爾可夫鏈劃分為多個能量環(huán),每個能量環(huán)Dj定義如下:

        接著在能量環(huán)內(nèi)執(zhí)行交換,而是否交換的依據(jù)類似于公式(10),不同的是此處的能量差應(yīng)為同一能量環(huán)內(nèi)的兩條鏈的能量差。實際中交換的次序是從高溫向低溫執(zhí)行的。此外由于在訓(xùn)練時RBM的參數(shù)是動態(tài)改變的,所以這些狀態(tài)能量也是動態(tài)的,實際操作中我們只要在訓(xùn)練RBM前設(shè)定好能量環(huán)的數(shù)量d即可。

        最后經(jīng)過多次循環(huán)采樣、交換,最終將t1=1溫度下的采樣值用于RBM預(yù)訓(xùn)練模型參數(shù)θ,并采用并行回火獲取的目標(biāo)采樣值可使RBM訓(xùn)練獲得較好的應(yīng)用效果。

        3 基于RBM的深信度網(wǎng)絡(luò)

        在訓(xùn)練好一個RBM后,其隱層單元狀態(tài)可以作為訓(xùn)練下一個RBM的數(shù)據(jù),所以該RBM能夠?qū)W習(xí)到第一個RBM隱層單元之間的依賴性。這一過程可以一直重復(fù)下去,直到產(chǎn)生所需要的非線性特征檢測器的層數(shù),層數(shù)越多統(tǒng)計數(shù)據(jù)結(jié)構(gòu)也就越復(fù)雜。將多個RBM堆疊起來就能產(chǎn)生一個多層生成模型——深信度網(wǎng)絡(luò)(DBN)。雖然單個RBM是間接模型,但由它產(chǎn)生的DBN是一個混合生成模型。DBN的最上面2層是無向鏈接,其他層是自頂向下的有向鏈接。獲得DBN之后,在其頂層之上,再增加一個softmax輸出層,輸出每種音素對應(yīng)的概率值。此時的網(wǎng)絡(luò)稱為DBN-DNN,如圖1所示。

        圖1 利用RBM堆疊產(chǎn)生用于音素識別的DBNFig.1 Stacking up RBMs to form DBN for phoneme recognition

        RBM的預(yù)訓(xùn)練僅僅為了使得DBN獲得一個較好的初始權(quán)重,避免訓(xùn)練時陷入局部最優(yōu)[14]。為了使得DBN能更好地應(yīng)用于音素識別,還需要針對目標(biāo)輸出進(jìn)行監(jiān)督訓(xùn)練。其輸出目標(biāo)為語音內(nèi)的中間幀所對應(yīng)的HMM狀態(tài)。訓(xùn)練的損失函數(shù)為交叉熵,通過方向傳播算法獲得網(wǎng)絡(luò)的最終權(quán)值。

        4 實驗結(jié)果分析

        4.1 實驗配置

        本文實驗在TIMIT語料庫上進(jìn)行,選擇462個說話人的3296個語句為訓(xùn)練集,選擇TIMIT的核心測試集(24個說話人的192個語句)作為測試集。語音信號使用Hamming窗處理,幀長25 ms,幀移10 ms,預(yù)加重系數(shù)為0.97。聲學(xué)特征參數(shù)使用13階梅爾頻率倒譜系數(shù)(Mel-frequency cepstrum coefficients,MFCC),以及其一階、二階差分系數(shù),最終使得每幀語音含有39維特征參數(shù)。RBM的訓(xùn)練使用8條吉布斯鏈。預(yù)訓(xùn)練時的學(xué)習(xí)率為0.001。監(jiān)督學(xué)習(xí)中的學(xué)習(xí)率為0.0001,以Adam為優(yōu)化器。

        4.2 參數(shù)性能分析實驗

        圖2 輸入幀數(shù)變化時的音素識別性能Fig.2 The phoneme recognition performance when the input frames numbers change

        圖2 給出了隱層單元數(shù)為1024時,隱層數(shù)與幀數(shù)對識別結(jié)果的影響。從圖2中可以看出,隨著隱層數(shù)量和輸入幀數(shù)的增加,識別性能有明顯改善。其中隱層數(shù)量的增加提高了網(wǎng)絡(luò)對非線性函數(shù)的擬合能力,而幀數(shù)的增加則代表了輸入上下文信息量的增加。當(dāng)DNN的隱層數(shù)為4、輸入幀數(shù)為15時,取得了最佳識別性能。說明隱層數(shù)量的增加并不會無限度地提高識別率,因為隨著層數(shù)的增加,會導(dǎo)致梯度消失等問題[15]。同樣輸入信息的增加也不會無限度地改善系統(tǒng)性能,一方面是因為時間跨度較大的兩幀語音數(shù)據(jù)之間的相關(guān)性較小,甚至有可能從一個音素所在時間蔓延到另一個音素時間,導(dǎo)致識別率下降;另一方面是當(dāng)網(wǎng)絡(luò)參數(shù)確定后,DNN對于這些特征的區(qū)分能力是有限的。如圖2中15幀語音與21幀語音所對應(yīng)的識別率曲線圖所示。

        圖3給出了輸入幀數(shù)固定為11幀,隱層單元數(shù)對識別結(jié)果的影響。從圖3中可以看出,當(dāng)隱層數(shù)固定時,增加隱層單元數(shù)可以提高音素識別性能。當(dāng)隱層單元數(shù)較少時,通過增加隱層數(shù)量能有效提高識別性能,但當(dāng)隱層數(shù)過多時,這種改善效果就顯得非常有限。這表明隱層單元數(shù)在一定程度上決定了網(wǎng)絡(luò)最終的識別率。實際中,過多的隱層單元數(shù)和隱層數(shù)會帶來龐大的時間開銷,而帶來的性能改善卻是有限的,所以往往需要折中考慮參數(shù)配置。

        圖3 隱層單元數(shù)不同時的音素識別性能Fig.3 Phoneme recognition performance with different number of hidden layer nodes

        4.3 不同訓(xùn)練算法的對比實驗

        上文中簡述了各種不同RBM的訓(xùn)練方法及各自的特點(diǎn),本實驗給出在隱層單元數(shù)為1024、輸入幀數(shù)為11幀時,不同訓(xùn)練算法的識別率對比結(jié)果。從圖4中可以看出,并行回火類算法的識別性能明顯優(yōu)于對比散度類算法。主要原因在于對比散度與持續(xù)對比散度僅使用一條馬爾可夫鏈進(jìn)行梯度估算,而并行回火類算法則依據(jù)從原始分布中采樣出的多條吉布斯鏈對公式(4)進(jìn)行計算,其精確度更高。而本文所提的方法的識別率比對比散度算法提高約4.5%,比原始的并行回火算法識別率高1%左右,因為通過等能量劃分后,相鄰溫度下的狀態(tài)交換率提高了,進(jìn)而提高了最終的識別率。由此說明在沒有增加計算量的情況下,本文對并行回火算法的改進(jìn)在音素識別應(yīng)用上是有效的。

        圖4 不同訓(xùn)練算法的音素識別性能Fig.4Phoneme recognition performance of different training algorithms

        5 結(jié)論

        本文首先研究分析了RBM的學(xué)習(xí)原理,在并行回火算法的基礎(chǔ)之上,根據(jù)模型分布所得的樣本能量,進(jìn)行等能量劃分,以提高相鄰溫度鏈之間的交換率,進(jìn)而提高模型期望的計算精度,訓(xùn)練出較好的RBM。然后將RBM組成DBN應(yīng)用于音素識別中,實驗表明,由該方法訓(xùn)練所得的RBM可以有效提高最終識別率。

        猜你喜歡
        散度音素隱層
        新目標(biāo)英語七年級(上)Starter Units 1-3 STEP BY STEP 隨堂通
        帶勢加權(quán)散度形式的Grushin型退化橢圓算子的Dirichlet特征值的上下界
        依托繪本課程,培養(yǎng)學(xué)生英語音素意識
        具有部分BMO系數(shù)的非散度型拋物方程的Lorentz估計
        小學(xué)英語課堂中音素意識與自然拼讀整合訓(xùn)練的探索
        基于RDPSO結(jié)構(gòu)優(yōu)化的三隱層BP神經(jīng)網(wǎng)絡(luò)水質(zhì)預(yù)測模型及應(yīng)用
        人民珠江(2019年4期)2019-04-20 02:32:00
        ?不定冠詞a與an
        H型群上一類散度形算子的特征值估計
        H?rmander 向量場上散度型拋物方程弱解的Orlicz估計
        基于近似結(jié)構(gòu)風(fēng)險的ELM隱層節(jié)點(diǎn)數(shù)優(yōu)化
        亚洲情精品中文字幕有码在线| 日本爽快片18禁免费看| 亚洲熟妇无码av不卡在线播放 | 少妇仑乱a毛片| 欧美激情在线不卡视频网站| 国产综合一区二区三区av| 91偷拍与自偷拍亚洲精品86| 国产熟女内射oooo| 免费国产交换配乱淫| 亚洲免费观看一区二区三区| 日本午夜剧场日本东京热| 精品国产av色一区二区深夜久久| 亚洲欧美日韩高清专区一区| 国产精品亚洲精品日产久久久| 亚洲黄色一级在线观看| 亚洲中文字幕成人无码| 久久香蕉成人免费大片| 一区二区三区在线观看视频免费| 日本最新一区二区三区视频观看| 欧洲女人性开放免费网站| 亚洲午夜无码久久yy6080| 亚洲av日韩av天堂久久不卡| 国产大屁股视频免费区| 国产大学生粉嫩无套流白浆| 乱色视频中文字幕在线看| 久久99精品综合国产女同| 乱色精品无码一区二区国产盗| 少妇高潮喷水久久久影院| 中文字幕国内一区二区| 亚洲综合色区一区二区三区| 特级婬片国产高清视频| 一本一道AⅤ无码中文字幕| 国产精品一区久久综合| 久热国产vs视频在线观看| 四虎在线播放免费永久视频| 激情偷拍视频一区二区| 国产国语亲子伦亲子| 国产精品久久久久久久久鸭| 日韩人妻中文字幕一区二区| 国产自拍高清在线观看| 一本大道久久东京热无码av|