亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于LSTMP語(yǔ)音識(shí)別方法的研究與改進(jìn)

        2019-10-21 08:16:45孫由玉孫寶山盧陽(yáng)
        現(xiàn)代信息科技 2019年11期

        孫由玉 孫寶山 盧陽(yáng)

        摘? 要:當(dāng)前LSTMP是基于LSTM增加了Projection層,并將這個(gè)層連接到LSTM的輸入,通過(guò)循環(huán)連接投影層,對(duì)高維度的信息進(jìn)行降維,減小細(xì)胞單元的維度,從而減小相關(guān)參數(shù)矩陣的參數(shù)數(shù)目。但LSTMP網(wǎng)絡(luò)結(jié)構(gòu)的缺點(diǎn)在于Projection層的輸出需要完成兩個(gè)功能,既需要充當(dāng)歷史信息,又需要作為下一層的輸入。針對(duì)以上問(wèn)題,筆者提出了一種Re-dimension的方法,讓網(wǎng)絡(luò)自己選擇一部分參數(shù)作為歷史信息,并獲得了一定程度的提升。采用該方法后,能提高語(yǔ)音識(shí)別率相對(duì)4-5%左右。

        關(guān)鍵詞:長(zhǎng)短時(shí)記憶LSTM;降維;語(yǔ)音識(shí)別

        Abstract:Currently,LSTMP is based on LSTM,which adds a project layer and connects this layer to the input of LSTM. By circularly connecting the projection layer,it reduces the dimension of high-dimensional information,reduces the dimension of cell units,and thus reduces the number of parameters of the related parameter matrix. However,the disadvantage of LSTMP network structure is that the output of the Projection layer needs to complete two functions,which need to act as both historical information and input of the next layer. In view of the above problems,the author proposes a Re-dimension method,which allows the network to select some parameters as historical information,and has achieved a certain degree of improvement. With this method,the speech recognition rate can be improved by about 4-5%.

        Keywords:LSTM for long-term and short-term memory;dimensionality reduction;speech recognition

        0? 引? 言

        隨著移動(dòng)互聯(lián)網(wǎng)的興起,語(yǔ)音識(shí)別技術(shù)正在走進(jìn)人們的生活,這給人們的工作、學(xué)習(xí)和生活提供了一種快捷識(shí)別的方式。近年來(lái),基于深度全連接前饋神經(jīng)網(wǎng)絡(luò)的聲學(xué)模型已被證明是語(yǔ)音識(shí)別的成功范例。最近,將循環(huán)神經(jīng)網(wǎng)絡(luò)作為一種強(qiáng)大的模型進(jìn)行了探索,循環(huán)神經(jīng)網(wǎng)絡(luò)在不同的順序數(shù)據(jù)建模任務(wù)中取得了最先進(jìn)的性能,例如:手寫(xiě)字符識(shí)別,機(jī)器翻譯以及語(yǔ)音識(shí)別[1]。

        基于長(zhǎng)短期存儲(chǔ)器(Long Short-Term Memory,LSTM)的存儲(chǔ)器塊通過(guò)輸入門(mén)[2],輸出門(mén)、遺忘門(mén)和存儲(chǔ)器單元的集成來(lái)運(yùn)行。通過(guò)該LSTM,循環(huán)神經(jīng)網(wǎng)絡(luò)可以利用自學(xué)習(xí)機(jī)制用于遠(yuǎn)程時(shí)間上下文,這有助于改善語(yǔ)音識(shí)別中的噪聲魯棒性[3],其中較長(zhǎng)窗口內(nèi)的一部分幀被噪聲掩蔽。已經(jīng)實(shí)施LSTM網(wǎng)絡(luò)以在不同的語(yǔ)音識(shí)別任務(wù)中實(shí)現(xiàn)競(jìng)爭(zhēng)性能,提出了具有各種架構(gòu)的LSTM網(wǎng)絡(luò)的一些擴(kuò)展以改善語(yǔ)音識(shí)別性能。LSTM循環(huán)投影作為統(tǒng)一框架引入,通過(guò)添加基于LSTM單元輸出的循環(huán)信息的前饋層并進(jìn)一步將信息投影到輸出層。同時(shí),通過(guò)LSTM單元細(xì)胞之后或之前安排全連接前饋神經(jīng)網(wǎng)絡(luò)來(lái)調(diào)整LSTM結(jié)構(gòu)。LSTM架構(gòu)是一種非常特殊的循環(huán)神經(jīng)網(wǎng)絡(luò),用于對(duì)語(yǔ)音等順序數(shù)據(jù)進(jìn)行建模。它最近被廣泛用于大規(guī)模聲學(xué)模型估計(jì),并且比許多其他神經(jīng)網(wǎng)絡(luò)表現(xiàn)更好。但是由于LSTM的運(yùn)行速度很慢,所以有人提出了LSTMP網(wǎng)絡(luò)結(jié)構(gòu)。

        LSTMP是LSTM with recurrent projection layer的簡(jiǎn)稱(chēng),是在原有LSTM基礎(chǔ)之上增加了一個(gè)Projection層,并將這個(gè)層連接到LSTM的輸入,Projection層的加入是為了減少計(jì)算量,它的作用和全連接層很像,就是對(duì)輸出向量做一下壓縮,從而能把高維度的信息降維,減小細(xì)胞單元的維度,以減小相關(guān)參數(shù)矩陣的參數(shù)數(shù)目。但是Projection層的輸出需要完成兩個(gè)功能,既需要充當(dāng)歷史信息,又需要作為下一層的輸入。

        針對(duì)這種情況,本文提出了一種Re-dimension的方法,讓網(wǎng)絡(luò)自己選擇一部分參數(shù)作為歷史信息,并獲得了一定程度的提升。通過(guò)采用改進(jìn)的LSTMP方法,提高了LSTMP的性能,使語(yǔ)音識(shí)別率相對(duì)提高了4-5%左右。

        1? LSTM網(wǎng)絡(luò)

        LSTM(Long Short-Term Memory)長(zhǎng)短期記憶網(wǎng)絡(luò),是一種時(shí)間遞歸神經(jīng)網(wǎng)絡(luò)(RNN)[4],主要是為了解決長(zhǎng)序列訓(xùn)練過(guò)程中的梯度消失和梯度爆炸問(wèn)題。簡(jiǎn)單來(lái)說(shuō),就是相比普通的RNN,LSTM能夠在更長(zhǎng)的序列中有更好的表現(xiàn)。所有RNN都具有一種重復(fù)神經(jīng)網(wǎng)絡(luò)模塊的鏈?zhǔn)降男问?。在?biāo)準(zhǔn)的RNN中,這個(gè)重復(fù)的模塊只有一個(gè)非常簡(jiǎn)單的結(jié)構(gòu)即一個(gè)tanh層[5]。如圖1所示。

        LSTM與之不同的是其有四個(gè)神經(jīng)網(wǎng)絡(luò)層,并且以一種特殊的方式進(jìn)行交互。其關(guān)鍵就是細(xì)胞狀態(tài),并且精心設(shè)計(jì)了“門(mén)”結(jié)構(gòu)來(lái)控制細(xì)胞狀態(tài)。其內(nèi)部主要有三個(gè)階段:第一階段是由忘記門(mén)來(lái)決定丟棄什么樣的信息;第二階段是選擇何種新信息進(jìn)入細(xì)胞狀態(tài),稱(chēng)為選擇記憶階段;第三階段是決定輸出什么樣的值。四個(gè)神經(jīng)網(wǎng)絡(luò)層,如圖2所示。

        2? LSTMP網(wǎng)絡(luò)基本思想

        2.1? LSTMP基本結(jié)構(gòu)

        LSTMP結(jié)構(gòu)是在LSTM層之后具有一個(gè)單獨(dú)的線(xiàn)性投影層,并且該投影層產(chǎn)生循環(huán)連接。在實(shí)施中,使用暗視距節(jié)點(diǎn)選擇半隱藏單元來(lái)分配循環(huán)連接。LSTM中的Projection layer是為了減少計(jì)算量的,它的作用和全連接layer很像,就是對(duì)輸出向量做一下壓縮,從而能把高緯度的信息降維,減小cell unit的維度,從而減小相關(guān)參數(shù)矩陣的參數(shù)數(shù)目[6]。此時(shí)的網(wǎng)絡(luò)結(jié)構(gòu)表述如下。

        2.2? 改進(jìn)的LSTMP方法

        筆者在改進(jìn)長(zhǎng)短時(shí)記憶結(jié)構(gòu)的基礎(chǔ)上,又進(jìn)行了改進(jìn)。由于LSTMP網(wǎng)絡(luò)結(jié)構(gòu)在Projection層的輸出需要完成兩個(gè)功能,既需要充當(dāng)歷史信息,又需要作為下一層的輸入,對(duì)整體架構(gòu)的實(shí)現(xiàn)具有一定的復(fù)雜性[7]。因此,本文提出一種Re-dimension的方法,讓網(wǎng)絡(luò)

        自己選擇一部分參數(shù)作為歷史信息。這個(gè)過(guò)程就是dim range部分,如圖3所示。

        3? 實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析

        3.1? 實(shí)驗(yàn)工具

        本實(shí)驗(yàn)使用Kaldi語(yǔ)音識(shí)別工具包進(jìn)行實(shí)驗(yàn)[8]。Kaldi是一個(gè)免費(fèi)、開(kāi)源的非常強(qiáng)大的語(yǔ)音識(shí)別工具庫(kù),它提供基于有限狀態(tài)變換器(Finite-State Transducer,使用OpenFst)的語(yǔ)音識(shí)別系統(tǒng),以及詳細(xì)的文件和腳本用于構(gòu)建完整的識(shí)別系統(tǒng)。Kaldi包含的重要特性有:集成Finite State Transducer(編譯OpenFst工具箱,作為一個(gè)庫(kù));擴(kuò)展的線(xiàn)性代數(shù)支持;可擴(kuò)展設(shè)計(jì);開(kāi)源的license;完整的方法和周密的測(cè)試。

        3.2? 實(shí)驗(yàn)設(shè)計(jì)

        在本實(shí)驗(yàn)中,此網(wǎng)絡(luò)的輸入層大小為39,前后隱藏層各有128個(gè)塊,輸出層大小為40(39個(gè)音素加空白)。邏輯sigmoid函數(shù)在[0,1]范圍內(nèi)。輸入層完全連接到隱藏層,隱藏層完全連接到自身和輸出層。權(quán)重總數(shù)為183,080。

        此網(wǎng)絡(luò)的訓(xùn)練是通過(guò)梯度下降和每個(gè)訓(xùn)練樣本后的權(quán)重更新完成的。在所有情況下,學(xué)習(xí)率為10-4,動(dòng)量為0.9,權(quán)重在[-0.1,0.1]范圍內(nèi)隨機(jī)初始化,并且在訓(xùn)練期間,將標(biāo)準(zhǔn)差為0.6的高斯噪聲添加到輸入中以改善泛化。對(duì)于前綴搜索解碼,使用了0.9999的激活閾值。性能測(cè)量為目標(biāo)標(biāo)簽序列與系統(tǒng)給出的輸出標(biāo)簽序列之間的標(biāo)準(zhǔn)化編輯距離(標(biāo)簽錯(cuò)誤率LER)。

        3.3? 結(jié)果分析

        本實(shí)驗(yàn)在LSTMP的基礎(chǔ)上增加Re-dimension方法后,讓網(wǎng)絡(luò)自己選擇一部分參數(shù)作為歷史信息。經(jīng)過(guò)反復(fù)的訓(xùn)練,從表1中可以看出,網(wǎng)絡(luò)能更好地學(xué)習(xí)到歷史信息,同時(shí)也獲得一定程度的性能提升,如圖4所示。

        4? 結(jié)? 論

        本文通過(guò)深入研究LSTMP結(jié)構(gòu),提出一種Re-dimension方法,讓網(wǎng)絡(luò)自己選擇一部分參數(shù)作為歷史信息,采用基于改進(jìn)的LSTMP方法進(jìn)行實(shí)驗(yàn),使語(yǔ)音識(shí)別率相對(duì)提高了4-5%左右??梢?jiàn)該方法可以使網(wǎng)絡(luò)獲得一定的性能提升。

        參考文獻(xiàn):

        [1] 戴禮榮,張仕良,黃智穎.基于深度學(xué)習(xí)的語(yǔ)音識(shí)別技術(shù)現(xiàn)狀與展望 [J].數(shù)據(jù)采集與處理,2017,32(2):221-231.

        [2] 陳曉宇.基于數(shù)據(jù)驅(qū)動(dòng)的渦扇發(fā)動(dòng)機(jī)故障預(yù)測(cè)研究 [D].阜新:遼寧工程技術(shù)大學(xué),2018.

        [3] 李杰.基于深度學(xué)習(xí)的語(yǔ)音識(shí)別聲學(xué)模型建模方法研究 [D].北京:中國(guó)科學(xué)院大學(xué),2016.

        [4] 胡鑫,程玉柱,吳祎,等.長(zhǎng)短期記憶網(wǎng)絡(luò)的林火圖像分割方法 [J].中國(guó)農(nóng)機(jī)化學(xué)報(bào),2019,40(1):103-107.

        [5] 沈旭東.基于深度學(xué)習(xí)的時(shí)間序列算法綜述 [J].信息技術(shù)與信息化,2019(1):71-76.

        [6] Peddinti V,Wang Y,Povey D,et al. Low Latency Acoustic Modeling Using Temporal Convolution and LSTMs [J].IEEE Signal Processing Letters,2017(99):1.

        [7] Chan W,Jaitly N,Le Q,et al. Listen,attend and spell:A neural network for large vocabulary conversational speech recognition [C]// IEEE International Conference on Acoustics,Speech and Signal Processing. IEEE,2016:4960-4964.

        [8] R. Prabhavalkar,T. N. Sainath,et al. Minimum Word Error Rate Training for Attention-based Sequence-to-sequence Models [J].IEEE Conference on Acoustics,Speech,and Signal Processing(ICASSP),2018.

        作者簡(jiǎn)介:孫由玉(1995-),女,漢族,山東濱州人,碩士研究生,研究方向:自然語(yǔ)言處理;孫寶山(1978-),男,漢族,天津人,副教授,工學(xué)博士,研究方向:自然語(yǔ)言處理;盧陽(yáng)(1992-),女,漢族,天津人,碩士研究生,研究方向:自然語(yǔ)言處理。

        国产欧美亚洲另类第一页| 制服丝袜中文字幕在线| 中文成人无码精品久久久不卡| 久久国产偷| 日韩精品极品在线观看视频| 亚洲国产精品国自产拍性色| 久久精品国产亚洲av影院| 熟女俱乐部五十路二区av| 无码流畅无码福利午夜| 高清不卡日本v二区在线| 18禁黄网站禁片免费观看女女| a级黑人大硬长爽猛出猛进| а的天堂网最新版在线| 日本乱熟人妻中文字幕乱码69 | 亚洲日韩乱码中文无码蜜桃臀| 女同另类激情在线三区| 在线观看国产白浆一区三区| 久久天天躁狠狠躁夜夜躁2014| 中国精品久久精品三级| 中文字幕av久久激情亚洲精品 | 国产av剧情久久精品久久| 狠狠躁日日躁夜夜躁2020| 国产精品99久久精品爆乳| 久久91精品国产91久久麻豆| 手机在线看片国产人妻| 曰本无码人妻丰满熟妇啪啪| 含羞草亚洲AV无码久久精品| 激情在线视频一区二区三区| 国产亚洲精品美女久久久久| 亚洲熟女乱色综合亚洲图片| 亚洲情a成黄在线观看动漫尤物| 亚洲国产综合一区二区| 免费不卡无码av在线观看| 亚洲精品国产第一区二区尤物| 欧美日韩国产在线人成dvd| 亚洲国产成人久久精品一区| 日本怡春院一区二区三区| 亚洲AV无码精品色欲av| 中文字幕精品人妻丝袜| 日日拍夜夜嗷嗷叫国产| 欧美人与动人物牲交免费观看|