亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        循環(huán)神經(jīng)網(wǎng)絡(luò)在端到端語(yǔ)音識(shí)別中的應(yīng)用*

        2019-12-04 03:27:14閻藝璇葛萬(wàn)成
        通信技術(shù) 2019年11期
        關(guān)鍵詞:音素集上雙向

        閻藝璇,葛萬(wàn)成

        (同濟(jì)大學(xué)中德學(xué)院,上海 200092)

        0 引 言

        語(yǔ)音技術(shù)逐漸改變著人們的生活和工作方式。在移動(dòng)設(shè)備、智能家居等方面,語(yǔ)音正在逐漸取代鼠標(biāo)鍵盤(pán)等傳統(tǒng)交互方式,極大地提升了人機(jī)交互的能力。語(yǔ)音識(shí)別是實(shí)現(xiàn)人機(jī)交互的關(guān)鍵技術(shù)。隨著人工智能技術(shù)的發(fā)展,語(yǔ)音識(shí)別系統(tǒng)更加精準(zhǔn)、強(qiáng)大,大詞匯量連續(xù)語(yǔ)言識(shí)別取得了突破性進(jìn)展。

        20世紀(jì)90年代,語(yǔ)音識(shí)別的主要進(jìn)展是引入了鑒別性訓(xùn)練標(biāo)準(zhǔn)和模型自適應(yīng)方法,基于最大后驗(yàn)概率和最大似然線性回歸,解決了HMM模型參數(shù)自適應(yīng)的問(wèn)題。2006年,Geoffrey Hinton等學(xué)者提出了深度置信網(wǎng)絡(luò)[1](Deep Belief Network,DBN),促進(jìn)了深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)在語(yǔ)音識(shí)別中的研究。目前,DNN由于性能上的優(yōu)勢(shì),已經(jīng)在語(yǔ)音識(shí)別領(lǐng)域占據(jù)了主導(dǎo)地位。DNN主要有兩類(lèi)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),分別是循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Networks,RNN)[2]和卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)[3]。RNN 特別是具有長(zhǎng)短期記憶(Long Short-term Memory,LSTM)[4]單元的網(wǎng)絡(luò),也開(kāi)始應(yīng)用于最先進(jìn)的語(yǔ)音識(shí)別中,并且探索了雙向與單向循環(huán)神經(jīng)網(wǎng)絡(luò)模型在語(yǔ)音識(shí)別中的應(yīng)用。

        本文基于TED-LIUM v2語(yǔ)料庫(kù)[5]建立不同結(jié)構(gòu)的循環(huán)神經(jīng)網(wǎng)絡(luò)來(lái)進(jìn)行端到端音素識(shí)別。第1節(jié)闡述了基于連接時(shí)序分類(lèi)(Connectionist Temporal Classification,CTC)的端到端語(yǔ)音識(shí)別方法;第,2節(jié)建立基于循環(huán)神經(jīng)網(wǎng)絡(luò)的模型;第3節(jié)則是循環(huán)神經(jīng)網(wǎng)絡(luò)基于TED-LIUM v2語(yǔ)料庫(kù)的仿真與分析結(jié)果;最后是本文的總結(jié)部分。

        1 基于連接時(shí)序分類(lèi)的端到端語(yǔ)音識(shí)別方法

        1.1 端到端語(yǔ)音識(shí)別方法

        端到端方法被引入自動(dòng)語(yǔ)音識(shí)別。在端到端語(yǔ)音識(shí)別模型中,不使用明確的語(yǔ)言模型、發(fā)音字典和HMM等,過(guò)程如圖1所示。模型被簡(jiǎn)化為特征提取、端到端模型及解碼器。使用CTC進(jìn)行端到端語(yǔ)音識(shí)別的一個(gè)優(yōu)點(diǎn),是它能接受輸入語(yǔ)音特征與輸出字符在序列長(zhǎng)度上的差異。

        圖1 端到端語(yǔ)音識(shí)別過(guò)程

        1.2 連接時(shí)序分類(lèi)

        CTC使用單個(gè)神經(jīng)網(wǎng)絡(luò)對(duì)序列進(jìn)行建模。網(wǎng)絡(luò)具有一個(gè)softmax輸出層,輸出定義了所有可能的標(biāo)簽序列與輸入序列的對(duì)齊方式的概率。CTC通過(guò)對(duì)所有可能的對(duì)齊概率求和來(lái)獲得輸出概率。

        CTC解碼的一種常見(jiàn)方法是前綴搜索解碼。該方法通過(guò)標(biāo)簽樹(shù)進(jìn)行最佳搜索,具體過(guò)程如下:令γ(Pn,t)為時(shí)間t時(shí)網(wǎng)絡(luò)輸出前綴P的概率,使得在t處輸出非空白標(biāo)簽;令γ(Pb,t)為時(shí)間t時(shí)使得輸出為空白標(biāo)簽的網(wǎng)絡(luò)輸出前綴P的概率;令集合Y=π∈A′t:F(π)=p。于是,有:

        因此,對(duì)于一個(gè)長(zhǎng)度為T(mén)的輸入序列x,p(p|x)=γ(Pn,t)+γ(Pb,t)。同樣地,令p(p…|x)為所有不為p的標(biāo)簽的累計(jì)概率,其中p為前綴:

        其中φ為空序列。給定足夠的時(shí)間,前綴搜索解碼總是能找到最可能的標(biāo)簽。

        2 基于循環(huán)神經(jīng)網(wǎng)絡(luò)的模型

        2.1 循環(huán)神經(jīng)網(wǎng)絡(luò)

        循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Networks,RNN)是一種神經(jīng)序列模型,擅長(zhǎng)處理序列到序列的問(wèn)題。理論上,RNN可以把整個(gè)先前輸入都映射到輸出。循環(huán)連接允許“記住”先前輸入,并將它保持網(wǎng)絡(luò)的內(nèi)部狀態(tài)來(lái)影響網(wǎng)絡(luò)的最終輸出。一個(gè)包含單個(gè)自連接隱層的簡(jiǎn)單RNN如圖2所示。

        圖2 包含單個(gè)自連接隱層的簡(jiǎn)單RNN

        雙向循環(huán)神經(jīng)網(wǎng)絡(luò)(Bi-directional Recurrent Neural Networks,BRNN)可以使用在特定時(shí)間幀內(nèi)過(guò)去和將來(lái)的可得所有輸入信息進(jìn)行訓(xùn)練。將一般RNN的狀態(tài)神經(jīng)元分成兩部分:一個(gè)為負(fù)責(zé)正時(shí)間方向(前向狀態(tài))部分,另一個(gè)負(fù)責(zé)逆時(shí)間方向(后向狀態(tài))部分。前后向狀態(tài)的輸出和輸入互相不連接,形成了如圖3所示的BRNN的一般結(jié)構(gòu),其中該BRNN在3個(gè)時(shí)間步中展開(kāi)。通過(guò)在同一網(wǎng)絡(luò)中同時(shí)處理兩個(gè)時(shí)間方向,可以直接使用當(dāng)前評(píng)估時(shí)間幀的過(guò)去和未來(lái)的輸入信息最小化目標(biāo)函數(shù),而不需要在一般單向RNN中所述的包括未來(lái)信息的延遲。

        圖3 雙向循環(huán)神經(jīng)網(wǎng)絡(luò)的一般結(jié)構(gòu)

        2.2 LSTM的結(jié)構(gòu)

        長(zhǎng)短期記憶(Long Short-term Memory,LSTM)是一種特殊的循環(huán)神經(jīng)網(wǎng)絡(luò)。具有一個(gè)單元的LSTM記憶模塊如圖4所示。LSTM網(wǎng)絡(luò)與一般RNN相同,只是隱層中的求和單元被記憶模塊所替代。

        圖4 具有單個(gè)單元的LSTM記憶塊

        由圖4可知,LSTM由一組循環(huán)連接的子網(wǎng)組成,這些子網(wǎng)被稱(chēng)為記憶模塊。LSTM的原始形式只包括輸入門(mén)和輸出門(mén)。遺忘門(mén)及窺視孔的權(quán)重被添加到LSTM的結(jié)構(gòu)中,從而得到了擴(kuò)展的LSTM。每個(gè)模塊包含一個(gè)或多個(gè)自連接記憶單元以及3個(gè)乘法單元——輸入門(mén)、輸出門(mén)及遺忘門(mén)。

        在雙向循環(huán)神經(jīng)網(wǎng)絡(luò)中使用LSTM作為網(wǎng)絡(luò)結(jié)構(gòu),就形成了雙向LSTM(Bidirectional Long Shortterm Memory,BLSTM)。BLSTM可以在兩個(gè)輸入方向上訪問(wèn)遠(yuǎn)程上下文。展開(kāi)的BLSTM層的結(jié)構(gòu)包括一個(gè)前向LSTM層和一個(gè)后向LSTM層,如圖5所示。前向?qū)虞敵鲂蛄衕t通過(guò)使用迭代從時(shí)間T-n到T-1的正序輸入計(jì)算得到,后向?qū)虞敵鲂蛄衕t通過(guò)使用從時(shí)間T-n到T-1的反向輸入計(jì)算得到。前向?qū)雍秃笙驅(qū)虞斎攵际褂脴?biāo)準(zhǔn)的LSTM更新公式計(jì)算得到。BLSTM層生成一個(gè)輸入向量YT,其中每個(gè)元素都使用式(4)計(jì)算得到:

        其中σ函數(shù)被用于連接兩個(gè)輸出序列。它可以是一個(gè)串聯(lián)函數(shù)、求和函數(shù)、平均函數(shù)或乘法函數(shù)。

        圖5 有3個(gè)連續(xù)時(shí)間步的BLSTM展開(kāi)結(jié)果

        3 仿真與實(shí)驗(yàn)結(jié)果

        3.1 不同結(jié)構(gòu)的循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)合CTC

        實(shí)驗(yàn)數(shù)據(jù)集使用TED-LIUM v2語(yǔ)料庫(kù)。實(shí)驗(yàn)中,將84 719條語(yǔ)音作為訓(xùn)練集,505條語(yǔ)音作為開(kāi)發(fā)集及1 144條語(yǔ)音作為測(cè)試集。用于評(píng)估音素識(shí)別中不同網(wǎng)絡(luò)結(jié)構(gòu)的性能指標(biāo),采用音素標(biāo)簽錯(cuò)誤率(Phoneme Error Rate,PER)。PER越小,語(yǔ)音識(shí)別性能越好。實(shí)驗(yàn)中,使用如下4種循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)結(jié)合CTC進(jìn)行端到端音素識(shí)別模型的建模:?jiǎn)蜗騌NN網(wǎng)絡(luò)(URNN),有4層隱層;雙向RNN網(wǎng)絡(luò)(BRNN),有3層雙向隱層,每層具有一個(gè)前向和后向?qū)樱粏蜗騆STM網(wǎng)絡(luò)(ULSTM),有4層LSTM隱層;雙向LSTM網(wǎng)絡(luò),有3層雙向LSTM隱層,每層具有一個(gè)前向和一個(gè)后向?qū)?。通過(guò)訓(xùn)練得到不同網(wǎng)絡(luò)結(jié)構(gòu)的學(xué)習(xí)曲線,如圖6所示。

        由圖6可知,BLSTM網(wǎng)絡(luò)除了訓(xùn)練周期需要的更少外,取得了相對(duì)更好的性能。開(kāi)發(fā)集上的學(xué)習(xí)曲線不穩(wěn)定,意味著隨著訓(xùn)練周期的增加,訓(xùn)練的網(wǎng)絡(luò)模型在開(kāi)發(fā)集上并沒(méi)有取得越來(lái)越好的性能。相對(duì)來(lái)說(shuō),BLSTM在開(kāi)發(fā)集上的PER的整體趨勢(shì)是下降的。

        表1總結(jié)了不同網(wǎng)絡(luò)結(jié)構(gòu)在訓(xùn)練集和測(cè)試集上最終的PER。雙向網(wǎng)絡(luò)即BLSTM和BRNN在訓(xùn)練集上的識(shí)別結(jié)果較好,然而比起單向網(wǎng)絡(luò),雙向網(wǎng)絡(luò)在測(cè)試集上的識(shí)別性能遠(yuǎn)遠(yuǎn)不如在訓(xùn)練集上的識(shí)別性能。這意味著雙向網(wǎng)絡(luò)存在過(guò)擬合問(wèn)題。與RNN相比,LSTM更容易過(guò)擬合。對(duì)于BLSTM,僅20個(gè)訓(xùn)練周期后,識(shí)別性能就會(huì)下降。從表1來(lái)看,BLSTM取得了這4種網(wǎng)絡(luò)結(jié)構(gòu)中最好的音素識(shí)別性能,其在訓(xùn)練集上的PER為33.8%,在測(cè)試集上的PER為41.3%。這可能是由于BLSTM能夠利用額外的上下文信息而不必必須記住之前的輸入。但是,BLSTM在訓(xùn)練集和測(cè)試集上的PER存在較大差異,意味著生成的模型存在過(guò)度擬合。

        圖6 不同結(jié)構(gòu)網(wǎng)絡(luò)在TED-LIUM v2開(kāi)發(fā)集和訓(xùn)練集上的學(xué)習(xí)曲線

        表1 不同結(jié)構(gòu)的循環(huán)神經(jīng)網(wǎng)絡(luò)在訓(xùn)練集和測(cè)試集上的PER

        3.2 采用dropout的雙向LSTM

        Dropout是指在深度學(xué)習(xí)網(wǎng)絡(luò)的訓(xùn)練過(guò)程中,將一些輸入層或者隱層節(jié)點(diǎn)的值置為0,防止節(jié)點(diǎn)之間的相互適應(yīng),有效防止大規(guī)模的神經(jīng)網(wǎng)絡(luò)的過(guò)擬合問(wèn)題。由3.1節(jié)可知,BLSTM模型存在過(guò)度擬合。因此,實(shí)驗(yàn)將狀態(tài)dropout應(yīng)用于BLSTM網(wǎng)絡(luò)訓(xùn)練。采用具有3個(gè)隱含層的BLSTM,每層都包括各有320個(gè)隱藏單元的前向?qū)雍秃笙驅(qū)?,將dropout率(dropout rate)設(shè)置為0.5、0.75、0.8,比較其對(duì)BLSTM-CTC在音素識(shí)別上性能的影響。

        從圖7可以得出,采用相同結(jié)構(gòu)但采用不同dropout率的BLSTM網(wǎng)絡(luò),在音素識(shí)別上的性能不同。采用dropout率為0.75的BLSTM網(wǎng)絡(luò)比采用dropout率為0.5和0.8的BLSTM網(wǎng)絡(luò)學(xué)習(xí)更快,且在訓(xùn)練集上取得了更好的PER。從圖7可以看出,在開(kāi)發(fā)集上的學(xué)習(xí)曲線雖然有波動(dòng),但總體趨勢(shì)趨于下降,且dropout率為0.75的BLSTM在開(kāi)發(fā)集上取得了最好的PER。

        圖7 采用不同dropout率的BLSTM在TED-LIUM v2開(kāi)發(fā)集和訓(xùn)練集上的學(xué)習(xí)曲線

        表2總結(jié)了采用不同dropout率的BLSTM在訓(xùn)練集和測(cè)試集上的PER。dropout率為0.5的BLSTM網(wǎng)絡(luò)學(xué)習(xí)最慢,且在測(cè)試集上的PER最大??赡艿脑蚴歉〉膁ropout率會(huì)減慢訓(xùn)練速度并導(dǎo)致欠擬合。因?yàn)閐ropout率的取值范圍在0和1之間,若已經(jīng)在過(guò)去很遠(yuǎn)的LSTM的求和單元乘以非常小的dropout率,那么它也將被有效地從求和單元中移除。這樣即使BLSTM具有長(zhǎng)期依賴(lài)性的學(xué)習(xí)能力,也無(wú)法在測(cè)試階段利用學(xué)習(xí)到的長(zhǎng)期依賴(lài)性。相較于dropout率為0.75的BLSTM網(wǎng)絡(luò),dropout率為0.8的BLSTM網(wǎng)絡(luò)在測(cè)試集上的PER略高。出現(xiàn)這種結(jié)果的可能原因是,當(dāng)dropout率較大時(shí),并不能對(duì)足夠多的單元進(jìn)行dropout,從而改善BLSTM的過(guò)擬合問(wèn)題。

        表2 采用不同dropout率的BLSTM在訓(xùn)練集和測(cè)試集上的PER

        4 結(jié) 語(yǔ)

        本文的研究工作初步探討了使用不同結(jié)構(gòu)的循環(huán)神經(jīng)網(wǎng)絡(luò)對(duì)語(yǔ)音識(shí)別中的聲學(xué)模型進(jìn)行建模。通過(guò)音素錯(cuò)誤率比較不同結(jié)構(gòu)的循環(huán)神經(jīng)網(wǎng)絡(luò)在音素識(shí)別任務(wù)上的性能,分析可能的原因。本文的主要結(jié)論是,基于TED-LIUM v2語(yǔ)料庫(kù)進(jìn)行訓(xùn)練時(shí),BLSTM作為一種循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),由于能夠訪問(wèn)更多上下文信息,因此在音素識(shí)別中具有更好的性能,而采用dropout進(jìn)行網(wǎng)絡(luò)訓(xùn)練能有效改善過(guò)擬合問(wèn)題,從而提高模型的泛化能力。

        猜你喜歡
        音素集上雙向
        新目標(biāo)英語(yǔ)七年級(jí)(上)Starter Units 1-3 STEP BY STEP 隨堂通
        雙向度的成長(zhǎng)與自我實(shí)現(xiàn)
        出版人(2022年11期)2022-11-15 04:30:18
        依托繪本課程,培養(yǎng)學(xué)生英語(yǔ)音素意識(shí)
        Cookie-Cutter集上的Gibbs測(cè)度
        鏈完備偏序集上廣義向量均衡問(wèn)題解映射的保序性
        小學(xué)英語(yǔ)課堂中音素意識(shí)與自然拼讀整合訓(xùn)練的探索
        ?不定冠詞a與an
        復(fù)扇形指標(biāo)集上的分布混沌
        一種軟開(kāi)關(guān)的交錯(cuò)并聯(lián)Buck/Boost雙向DC/DC變換器
        一種工作頻率可變的雙向DC-DC變換器
        国产美女在线精品免费观看网址 | 白丝美女扒开内露出内裤视频 | 亚洲丰满熟女一区二亚洲亚洲| 丰满少妇弄高潮了www| 人妻忍着娇喘被中进中出视频| 亚洲V在线激情| 日韩精品久久伊人中文字幕| 久久久国产精品| 无码国产精品一区二区高潮| 国产精品视频一区日韩丝袜| 亚洲av成人无网码天堂| 影音先锋久久久久av综合网成人| 国产福利一区二区三区在线观看 | 国产精品熟女一区二区三区| 亚洲成在人线av品善网好看| 久久综合第一页无码| 二区三区亚洲精品国产| 国产成年人毛片在线99| 欧美极品jizzhd欧美| 无码中文av有码中文av| 日本高清一区二区三区不卡| 欧美成人猛片aaaaaaa| 亚洲av久久无码精品九九| 人人爽亚洲aⅴ人人爽av人人片 | 亚洲第一女人av| 亚洲欧洲偷自拍图片区| 亚洲AV乱码毛片在线播放| 亚洲精品在线一区二区| 内射人妻少妇无码一本一道 | 欧洲vat一区二区三区| 四虎精品影视| 麻豆国产成人av高清在线| 国产色视频一区二区三区qq号| 亚洲精品无码不卡av| 欧美亚洲日韩国产人成在线播放| 三区中文字幕在线观看| 国产农村妇女毛片精品久久 | 青青草原亚洲在线视频| 末成年人av一区二区| 久久国产热这里只有精品| 大屁股少妇一区二区无码|