亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        學(xué)習(xí)長短時(shí)記憶網(wǎng)絡(luò)的緊密結(jié)構(gòu)

        2018-11-14 10:27:42戴禮榮張仕良
        關(guān)鍵詞:記憶模型

        陳 皇,戴禮榮,張仕良,黃 俊

        (中國科學(xué)技術(shù)大學(xué) 語音與語言信息處理國家工程實(shí)驗(yàn)室,合肥 230022)

        1 引 言

        深度學(xué)習(xí)(deep learning)在語音識別[1-3](speech recognition)領(lǐng)域發(fā)展迅速,特別是在音素識別(phoneme recognition)[1,2]與大詞匯連續(xù)語音識別(Large Vocabulary Continuous Speech Recognition,LVCSR)[3-7]任務(wù)上,深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks,DNN)和長短時(shí)記憶(Long Short Term Memory,LSTM)網(wǎng)絡(luò)取得了重大的突破. 盡管這些模型取得了優(yōu)異的識別性能,如何設(shè)計(jì)一個(gè)更加合理的網(wǎng)絡(luò)模型結(jié)構(gòu)卻沒有得到深入的研究.例如網(wǎng)絡(luò)模型的深度以及寬度,決定了網(wǎng)絡(luò)模型的參數(shù)量與計(jì)算復(fù)雜度.目前來看,這些超參數(shù)通常依靠謹(jǐn)慎的手動(dòng)設(shè)置來完成.

        為了實(shí)現(xiàn)突出的性能,在語音識別任務(wù)上,LSTM通常具有深且寬的模型結(jié)構(gòu),但是這也不可避免會帶來了巨大的參數(shù)量與計(jì)算量.例如,在基于Switchboard數(shù)據(jù)集的語音識別任務(wù)上,一個(gè)典型的LSTM網(wǎng)絡(luò)包括3個(gè)隱層(hidden layer)以及1個(gè)全連接(Full Connected,F(xiàn)C)層,每個(gè)隱層包括1024個(gè)記憶單元(memory cell),這帶來超過30M的模型參數(shù)量.在測試應(yīng)用中,巨大的參數(shù)量帶來了顯著的內(nèi)存占用與計(jì)算復(fù)雜度.這給在本地移動(dòng)設(shè)備運(yùn)行這些網(wǎng)絡(luò)模型造成了巨大的困難,因此目前通常是利用云端強(qiáng)大的服務(wù)器來進(jìn)行計(jì)算.

        如何決定網(wǎng)絡(luò)模型的結(jié)構(gòu),例如每個(gè)隱層的節(jié)點(diǎn)數(shù)或者記憶單元數(shù)量等,這一問題至今沒有得到廣泛的研究.目前,模型結(jié)構(gòu)主要通過驗(yàn)證實(shí)驗(yàn)或者研究者的經(jīng)驗(yàn)來進(jìn)行設(shè)定,這在很多場景下被證明是有效的,但是卻十分耗時(shí).神經(jīng)網(wǎng)絡(luò)模型存在極大程度上的參數(shù)冗余[8-11],這促使我們?nèi)嚎s網(wǎng)絡(luò)模型.在過去幾年,如何訓(xùn)練得到合適的網(wǎng)絡(luò)結(jié)構(gòu)取得了一定程度上的研究進(jìn)展,這其中主要有兩種思路:建設(shè)性方法與破壞性方法.

        從一個(gè)淺層網(wǎng)絡(luò)開始,建設(shè)性方法逐漸在網(wǎng)絡(luò)中增加額外的參數(shù).一個(gè)早期的方法[12]在預(yù)先訓(xùn)練好的網(wǎng)絡(luò)上增加節(jié)點(diǎn).最近,Simonyan等[13]提出了一種建設(shè)性方法,通過在一個(gè)初始的淺層網(wǎng)絡(luò)上增加新的隱層來構(gòu)造深層網(wǎng)絡(luò).但是,相比于深層網(wǎng)絡(luò),淺層網(wǎng)絡(luò)的表征性更弱一些,可能容易陷入局部最優(yōu)點(diǎn),因而淺層網(wǎng)絡(luò)可能會提供一個(gè)差的網(wǎng)絡(luò)初始化模型.

        相比于建設(shè)性方法,破壞性方法從一個(gè)大的初始網(wǎng)絡(luò)開始訓(xùn)練,其目標(biāo)是在保證網(wǎng)絡(luò)輸出盡可能不變的前提下減小網(wǎng)絡(luò)模型規(guī)模.這一想法[14]由LeCun等提出,基于這一想法的主要方法[15-17]包括分析單個(gè)參數(shù)或者神經(jīng)元的特性,然后移除那些對網(wǎng)絡(luò)輸出影響較小的參數(shù)或者神經(jīng)元.然而,分析一個(gè)大網(wǎng)絡(luò)模型中參數(shù)或者神經(jīng)元特性具有極高的計(jì)算代價(jià).

        其它破壞性方法[18,19]通過模擬一個(gè)已經(jīng)訓(xùn)練好的深層網(wǎng)絡(luò)的輸出來訓(xùn)練一個(gè)淺層或者窄網(wǎng)絡(luò),這可以在一定程度上減少初始大規(guī)模網(wǎng)絡(luò)的參數(shù)量.然而,這些方法要求我們預(yù)先訓(xùn)練好一個(gè)大規(guī)模網(wǎng)絡(luò).結(jié)合建設(shè)性方法與破壞性方法,Philipp等[20]提出一種自適應(yīng)網(wǎng)絡(luò)大小的框架以便自動(dòng)確定合適的網(wǎng)絡(luò)規(guī)模,其通過在訓(xùn)練過程中連續(xù)增加新單元的同時(shí)移除作用很小的單元來實(shí)現(xiàn).

        以上工作的目的是尋找更加緊密的網(wǎng)絡(luò)結(jié)構(gòu).本文提出一種自動(dòng)學(xué)習(xí)LSTM每個(gè)隱層中記憶單元數(shù)量以及投影層節(jié)點(diǎn)數(shù)的方法.特別是,我們的方法不需要一個(gè)已經(jīng)預(yù)先訓(xùn)練好的網(wǎng)絡(luò).而是在訓(xùn)練過程中,為隱層中的每個(gè)記憶單元或者節(jié)點(diǎn)學(xué)習(xí)移動(dòng)門(moving gate)信息,每個(gè)移動(dòng)門的值顯示相對應(yīng)記憶單元或者節(jié)點(diǎn)對于網(wǎng)絡(luò)的重要性,當(dāng)該值小于一個(gè)預(yù)設(shè)的門限值(例如0.42)時(shí),我們將忽略相對應(yīng)記憶單元或者節(jié)點(diǎn)的影響,并且從網(wǎng)絡(luò)中移除該記憶單元或者節(jié)點(diǎn).值得注意的是,我們在訓(xùn)練每過完一遍數(shù)據(jù)后移除不重要的記憶單元或者投影層節(jié)點(diǎn),這充分考慮整個(gè)數(shù)據(jù)集的特性,降低錯(cuò)誤裁剪的可能性.而不是在完全訓(xùn)練好一個(gè)網(wǎng)絡(luò)之后進(jìn)行裁剪與再訓(xùn)練,這減少了訓(xùn)練過程所需消耗的時(shí)間.該方法的主要優(yōu)點(diǎn)是不用謹(jǐn)慎地設(shè)置LSTM中每個(gè)隱層的記憶單元數(shù)量.利用我們提出的方法,只需要從一個(gè)合適的大規(guī)模網(wǎng)絡(luò)開始訓(xùn)練,在訓(xùn)練過程中可以逐漸學(xué)習(xí)到一個(gè)緊密的網(wǎng)絡(luò)結(jié)構(gòu),從而減少模型參數(shù)量以及計(jì)算復(fù)雜度.

        2 帶移動(dòng)門的LSTM

        2.1 LSTM

        傳統(tǒng)的遞歸神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)可以利用上下文信息對當(dāng)前時(shí)刻的輸入進(jìn)行建模,并得到相應(yīng)的輸出.然而在實(shí)際中發(fā)現(xiàn),RNN很難學(xué)習(xí)到長時(shí)依賴信息,這一現(xiàn)象被稱為梯度消失(vanishing gradient)問題.LSTM是目前為止解決這一問題最成功的方法[21,22].

        圖1 LSTM記憶單元

        如圖1所示為一個(gè)LSTM單元,該單元在扮演傳統(tǒng)RNN中隱層神經(jīng)元的角色.LSTM具有一個(gè)記憶單元(memory cell),用來存儲信息,與之相連的常數(shù)錯(cuò)誤傳送結(jié)構(gòu)(Constant Error Carousel,CEC)控制錯(cuò)誤信號在時(shí)域后向傳播(Back-Propagation Through Time,BPTT)時(shí)無衰減傳播.每個(gè)LSTM單元具有三個(gè)門:輸入門(input gate)、遺忘門(forget gate)與輸出門(output gate),通過輸入門與輸出門控制信息的流入與流出,通過遺忘門決定是否重置網(wǎng)絡(luò),這些門行為通過前一層的輸出、上一時(shí)刻的隱層輸出以及記憶單元信息共同控制.記憶單元與三個(gè)門之間的連接稱為窺孔連接(peephole connection),如圖虛線所示.

        下面以單層單向的LSTM為例,對其計(jì)算機(jī)制進(jìn)行簡要說明.LSTM網(wǎng)絡(luò)映射一個(gè)輸入序列x=(x1,x2,…,xT)到一個(gè)輸出序列y=(y1,y2,…,yT),利用下列等式計(jì)算從t=1時(shí)刻到T時(shí)刻網(wǎng)絡(luò)單元激活值:

        表1 不同移動(dòng)門的WER

        it=σ(Wixxt+Wirrt-1+Wicct-1+bi)

        (1)

        ft=σ(Wfxxt+Wfrrt-1+Wfcct-1+bf)

        (2)

        gt=g(Wcxxt+Wcrrt-1+bc)

        (3)

        ct=ft⊙ct-1+it⊙gt

        (4)

        ot=σ(Woxxt+Worrt-1+Wocct+bo)

        (5)

        mt=ot⊙h(ct)

        (6)

        rt=wrmmt

        (7)

        yt=φ(Wyrrt+by)

        (8)

        其中,輸入到LSTM層記憶單元、輸入門、遺忘門和輸出門的權(quán)值矩陣分別為Wcx,Wix,Wfx,Wox,上一時(shí)刻投影層[6]的輸出到這些單元的權(quán)值矩陣分別為Wcr,Wir,Wfr,Wor,這些單元的偏置向量分別為bc,bi,bf,bo.而Wic,Wfc,Woc為peephole權(quán)值連接矩陣,不過值得注意的是它們是對角矩陣.σ是激活函數(shù),i,f,o與c分別表示輸入門、遺忘門、輸出門以及記憶單元,m與r分別是隱層輸出和投影層輸出,Wrm是投影層轉(zhuǎn)換矩陣.⊙表示矢量間逐元素相乘,g與f都是激活函數(shù),通常是tanh,φ是網(wǎng)絡(luò)輸出層激活函數(shù),通常是softmax.

        2.2 移動(dòng)門

        對于LSTM來說,每個(gè)記憶單元或者節(jié)點(diǎn)對網(wǎng)絡(luò)模型的重要性有所不同,為了對網(wǎng)絡(luò)模型規(guī)模進(jìn)行壓縮,我們考慮將對網(wǎng)絡(luò)輸出貢獻(xiàn)較小的記憶單元或者節(jié)點(diǎn)移除,包括移除相對應(yīng)的權(quán)值連接.為了評價(jià)每個(gè)記憶單元的重要性,我們提出了移動(dòng)門,移動(dòng)門定義如下:

        mui=α·mii+β·it,mii=mui

        (9)

        muf=α·mif+β·ft,mif=muf

        (10)

        muo=α·mio+β·ot,mio=muo

        (11)

        其中,mui,muf,muo分別表示輸入門、遺忘門以及輸出門對應(yīng)的移動(dòng)門更新信息,mii,mif,mio表示移動(dòng)門初始化信息,初始化值設(shè)置為0,α與β都是超參數(shù),在我們的實(shí)驗(yàn)中,分別設(shè)置為0.9與0.1.

        表2 遺忘門WER

        如果同時(shí)利用兩個(gè)或者三個(gè)門來評價(jià)記憶單元的重要性,將結(jié)合公式(9,10,11),例如利用輸入門與輸出門時(shí),對應(yīng)的移動(dòng)門更新公式如下:

        muio=α·miio+β·(it+ot)/2,miio=muio

        (12)

        此外,為了評價(jià)投影層節(jié)點(diǎn)的重要性,類似評價(jià)記憶單元,引入對應(yīng)的移動(dòng)門信息mur,定義如下:

        mur=α·mir+β·|rt|,mir=mur

        (13)

        移動(dòng)門數(shù)值mu的大小表示對應(yīng)的記憶單元或者節(jié)點(diǎn)的重要性. 當(dāng)移動(dòng)門數(shù)值小于一個(gè)給定的門限值時(shí), 該移動(dòng)門對應(yīng)的記憶單元或者節(jié)點(diǎn)對網(wǎng)絡(luò)輸出的貢獻(xiàn)將被忽略, 且該記憶單元或者節(jié)點(diǎn)將從網(wǎng)絡(luò)中移除. 在訓(xùn)練過程中, 重復(fù)這一步驟將實(shí)現(xiàn)每個(gè)隱層中記憶單元數(shù)量與投影層節(jié)點(diǎn)數(shù)的自動(dòng)學(xué)習(xí).

        在網(wǎng)絡(luò)訓(xùn)練時(shí),前向過程中,我們計(jì)算網(wǎng)絡(luò)輸出以及按照公式(9,10,11,12,13)更新移動(dòng)門信息.例如,當(dāng)我們利用輸入門的移動(dòng)門信息來評價(jià)記憶單元的重要性時(shí),前向過程中,每一時(shí)刻計(jì)算得到it,就用利用公式(9)來更新對應(yīng)的mui.當(dāng)訓(xùn)練過完一遍數(shù)據(jù)后,此時(shí)若mui小于給定的門限,將移除對應(yīng)的記憶單元以及對應(yīng)的權(quán)值連接.而在每遍數(shù)據(jù)訓(xùn)練結(jié)束之前,只更新模型參數(shù)以及移動(dòng)門信息,不進(jìn)行記憶單元或者投影層節(jié)點(diǎn)剪枝.

        3 實(shí) 驗(yàn)

        3.1 數(shù)據(jù)和基線

        在我們的實(shí)驗(yàn)中使用的是Switchboard數(shù)據(jù)集, 包括309小時(shí)的數(shù)據(jù).按照Kaldi[23]的設(shè)置, 將整個(gè)訓(xùn)練集劃分為訓(xùn)練集與驗(yàn)證集. 以詞錯(cuò)誤率(Word Error Rate, WER)作為模型性能評價(jià)指標(biāo), 測試數(shù)據(jù)是標(biāo)準(zhǔn)的NIST 2000 Hub5e00測試集中的Switchboard部分, 其中包括1831個(gè)句子. 用于訓(xùn)練LSTM網(wǎng)絡(luò)模型的狀態(tài)對齊由混合高斯模型與隱馬爾可夫模型(Gaussian Mixture Model Hidden Markov Model, GMM-HMM)產(chǎn)生[3-5]. 在解碼過程中, 使用的三階語言模型(Language Model, LM)是由Switchboard數(shù)據(jù)中300萬個(gè)單詞以及Fisher數(shù)據(jù)第一部分中的1100萬個(gè)單詞生成.

        表3 移動(dòng)門性能

        關(guān)于基線系統(tǒng),我們使用隨機(jī)梯度下降(Stochastic Gradient Descent,SGD)算法來訓(xùn)練,30句話并行訓(xùn)練.基線網(wǎng)絡(luò)結(jié)構(gòu)包括3個(gè)LSTM層、1個(gè)全連接層以及1個(gè)softmax輸出層,每個(gè)LSTM層包括1024個(gè)記憶單元,每個(gè)LSTM層對應(yīng)的投影層[6]節(jié)點(diǎn)數(shù)為512,記為3lstm1024r512,這是一種在語音識別任務(wù)中常用的LSTM結(jié)構(gòu).網(wǎng)絡(luò)輸入的語音幀長為25ms,幀移為10ms,提取的特征為36維filter-bank (FBank)特征.LSTM網(wǎng)絡(luò)的輸入為108維Filter-Bank(FBank)特征,包括一階差分與二階差分.LSTM網(wǎng)絡(luò)隨機(jī)初始化,在訓(xùn)練過程中使用小批量隨機(jī)梯度下降法來優(yōu)化幀級交叉熵(Cross Entropy,CE)準(zhǔn)則.基線結(jié)果如表1所示,表中基線分別表示論文[4]中實(shí)驗(yàn)結(jié)果與我們基于Kaldi平臺搭建的基線系統(tǒng).

        3.2 實(shí)驗(yàn)結(jié)果與分析

        在所有的實(shí)驗(yàn)設(shè)置中,LSTM隨機(jī)初始化,然后使用后向傳播(Back Propagation, BP)算法來訓(xùn)練.在網(wǎng)絡(luò)訓(xùn)練過程中,引入移動(dòng)門來學(xué)習(xí)每個(gè)隱層中記憶單元的數(shù)量以及投影層節(jié)點(diǎn)個(gè)數(shù).

        首先,為了驗(yàn)證方法的可行性,在訓(xùn)練過程中,我們保持給定的門限不變.例如,利用遺忘門的移動(dòng)門信息時(shí),我們選取設(shè)定的門限為0.42.在每過完一遍數(shù)據(jù)后,此時(shí)若記憶單元對應(yīng)的移動(dòng)門信息小于給定的門限,將對該記憶單元進(jìn)行剪枝,實(shí)驗(yàn)結(jié)果如表1所示.表1中的移動(dòng)門表示分別依據(jù)LSTM中不同門的移動(dòng)門信息來進(jìn)行記憶單元的剪枝,例如i表示依據(jù)輸入門的移動(dòng)門信息來剪枝,而i,o表示依據(jù)輸入門以及輸出門的信息來進(jìn)行剪枝;網(wǎng)絡(luò)結(jié)構(gòu)表示LSTM訓(xùn)練結(jié)束時(shí)最終學(xué)習(xí)到的每個(gè)隱層的記憶單元數(shù)量,比如3lstm[874-856-575]r512表示LSTM中3個(gè)隱層的記憶單元數(shù)目分別為874,856,575,由于此處沒有對投影層進(jìn)行節(jié)點(diǎn)剪枝,每個(gè)投影層的節(jié)點(diǎn)數(shù)均為512.此外,為了對比依據(jù)不同移動(dòng)門信息進(jìn)行剪枝的性能表現(xiàn),我們通過適當(dāng)調(diào)整對應(yīng)的門限,以便最終學(xué)習(xí)到的網(wǎng)絡(luò)結(jié)構(gòu)擁有幾乎相同的記憶單元數(shù)量.

        從表1中的實(shí)驗(yàn)結(jié)果看,依據(jù)輸入門或者遺忘門的移動(dòng)門信息來進(jìn)行剪枝,可以有效的學(xué)習(xí)更加緊密的網(wǎng)絡(luò)結(jié)構(gòu),而且基本沒有帶來語音識別性能損失.此外,對比分別依據(jù)輸入門、遺忘門與輸出門來進(jìn)行剪枝的識別結(jié)果,可以發(fā)現(xiàn),依據(jù)遺忘門的信息有利于保證語音識別率,其次是輸入門,最后才是輸出門,這顯示LSTM三個(gè)門中遺忘門最重要[24],其次是輸入門,相比于遺忘門與輸入門,輸出門的重要性更低一些.

        為了更加有效的進(jìn)行記憶單元的剪枝,在網(wǎng)絡(luò)訓(xùn)練過程中,由零門限開始逐漸增加門限直至給定門限為止.例如,我們利用遺忘門的移動(dòng)門信息時(shí),初始門限為0,訓(xùn)練每過完一遍數(shù)據(jù)后門限增大0.084,當(dāng)增大到預(yù)設(shè)門限0.42后,保持門限值不變.這樣便于逐步剪枝,移除對網(wǎng)絡(luò)輸出貢獻(xiàn)可忽略的記憶單元,避免一次裁剪掉大量的記憶單元造成網(wǎng)絡(luò)訓(xùn)練不穩(wěn)定,有利于在訓(xùn)練中得到更加合理的網(wǎng)絡(luò)結(jié)構(gòu).從表1的實(shí)驗(yàn)結(jié)果看,依據(jù)遺忘門可以更加有效的確保語音識別率,此處就通過遺忘門的移動(dòng)門信息來進(jìn)行記憶單元的裁剪,相應(yīng)的實(shí)驗(yàn)結(jié)果如表2所示.

        從表2中實(shí)驗(yàn)結(jié)果看,單獨(dú)依據(jù)遺忘門的移動(dòng)門信息,總共可以移除40.5%的記憶單元,且沒有帶來性能損失,反而有一些性能提升.依據(jù)輸入門與遺忘門,移除了43.3%的記憶單元,僅僅帶了相對1.4%的性能下降.此外,依據(jù)輸入門、遺忘門與輸出門,移除了46.5%的記憶單元,性能下降僅0.7%.這表明了在訓(xùn)練過程中通過移動(dòng)門信息來進(jìn)行記憶單元數(shù)目的學(xué)習(xí)是有效的,不僅可以優(yōu)化網(wǎng)絡(luò)模型規(guī)模,而且有效地保證了語音識別性能.

        為了進(jìn)一步優(yōu)化網(wǎng)絡(luò)規(guī)模,在對每個(gè)隱層記憶單元剪枝的基礎(chǔ)上,再對投影層節(jié)點(diǎn)進(jìn)行剪枝,類似評價(jià)記憶單元的重要性,采用公式(12)來評價(jià)投影層每個(gè)節(jié)點(diǎn)的重要性,移除對網(wǎng)絡(luò)輸出貢獻(xiàn)較小的節(jié)點(diǎn).實(shí)驗(yàn)結(jié)果如表3所示,其中f_fixed表示依據(jù)遺忘門來剪枝,前面訓(xùn)練過程中裁剪掉的記憶單元或者節(jié)點(diǎn)將被直接移除,不參與后續(xù)訓(xùn)練過程;f_dynamic表示依據(jù)遺忘門來剪枝,但當(dāng)前面訓(xùn)練過程中剪掉的記憶單元或者節(jié)點(diǎn)的移動(dòng)門信息在后續(xù)訓(xùn)練過程中大于給定門限時(shí),將被激活且重新使用;f_init表示依據(jù)f_dynamic最終訓(xùn)練得到的網(wǎng)絡(luò)結(jié)構(gòu)來隨機(jī)初始化一個(gè)網(wǎng)絡(luò),然后訓(xùn)練;網(wǎng)絡(luò)結(jié)構(gòu)c1024r512表示該隱層中記憶單元數(shù)目為1024,對應(yīng)的投影層節(jié)點(diǎn)個(gè)數(shù)為512;參數(shù)量表示網(wǎng)絡(luò)中權(quán)值矩陣的參數(shù)個(gè)數(shù);乘法數(shù)表示網(wǎng)絡(luò)處理一個(gè)輸入幀所需的浮點(diǎn)數(shù)乘法次數(shù);訓(xùn)練時(shí)間表示每過一遍訓(xùn)練數(shù)據(jù)所需消耗的時(shí)間.

        從表3中結(jié)果,f_dynamic表明我們提出的移動(dòng)門不僅可以移除41.3%的模型參數(shù),而且相對應(yīng)的減少了41.3%的浮點(diǎn)數(shù)乘法計(jì)算次數(shù).更重要的是,沒有造成任何識別性能損失,反而帶來一些性能提升,而且訓(xùn)練時(shí)間僅僅多消耗了11.1%.對比f_fixed與f_dynamic的結(jié)果,在最終訓(xùn)練得到網(wǎng)絡(luò)模型參數(shù)相當(dāng)?shù)那疤嵯?,?dòng)態(tài)(f_dynamic)剪枝更加有利于保證語音識別性能無損,這主要因?yàn)橛?xùn)練過程中降低了錯(cuò)誤剪枝的概率.為了驗(yàn)證我們提出的方法可以得到更加合理的網(wǎng)絡(luò)結(jié)構(gòu),我們按照f_dynamic最終訓(xùn)練得到的模型,與基線一樣隨機(jī)初始化網(wǎng)絡(luò),再進(jìn)行SGD訓(xùn)練,得到f_init,實(shí)驗(yàn)結(jié)果表明我們提出的移動(dòng)門可以得到更好的識別性能,帶來相對2.1%的性能提升.

        4 結(jié) 語

        本文提出一種基于移動(dòng)門的方法來自動(dòng)學(xué)習(xí)長短時(shí)記憶網(wǎng)絡(luò)中記憶單元數(shù)量以及投影層節(jié)點(diǎn)數(shù).此方法移除了大量的記憶單元以及投影層節(jié)點(diǎn),壓縮了網(wǎng)絡(luò)規(guī)模,減少了浮點(diǎn)數(shù)乘法計(jì)算次數(shù),同時(shí)保證了網(wǎng)絡(luò)的性能基本不損失.這表明利用該方法來訓(xùn)練長短時(shí)記憶網(wǎng)絡(luò)可以得到更加合理且緊密的網(wǎng)絡(luò)結(jié)構(gòu).實(shí)驗(yàn)結(jié)果表明,我們提出的方法在保證性能無損的情況下移除了超過40%的參數(shù)量.在未來的工作中,我們計(jì)劃將提出的網(wǎng)絡(luò)模型壓縮方法應(yīng)用于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN).

        猜你喜歡
        記憶模型
        一半模型
        重要模型『一線三等角』
        夏天的記憶
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        記憶中的他們
        3D打印中的模型分割與打包
        端午記憶
        絲綢之路(2016年9期)2016-05-14 14:36:33
        兒時(shí)的記憶(四)
        兒時(shí)的記憶(四)
        記憶翻新
        海外文摘(2016年4期)2016-04-15 22:28:55
        最新国产精品亚洲二区| 国产亚洲精品aaaaaaa片| 熟妇人妻中文字幕无码老熟妇| 日本久久精品免费播放| 色婷婷六月天| 人人妻人人澡av| 中文日本强暴人妻另类视频| 国产熟妇疯狂4p交在线播放| 欧美人与动牲猛交xxxxbbbb| 老色鬼永久精品网站| 亚洲综合色视频在线免费观看| 无遮挡很爽很污很黄的女同| 国产精品∧v在线观看| 色八a级在线观看| 午夜一级成人| 都市激情亚洲综合一区| 国产精品久久久免费精品| 亚洲国产天堂一区二区三区| 久久精品国产丝袜| 国产精品三级自产拍av| 日韩精品人妻中文字幕有码在线| 一夲道无码人妻精品一区二区| 夜夜春精品视频| 亚洲天堂av在线免费看| 最近免费中文字幕中文高清6| 成人免费一区二区三区| 91亚洲人成手机在线观看| 亚洲国产日韩综合天堂| 国产裸体美女永久免费无遮挡| www国产精品内射熟女| 一区欧美在线动漫| 人妻中文久久人妻蜜桃| 在线看片免费人成视频电影| 男女真实有遮挡xx00动态图 | 少妇太爽了在线观看免费| 特黄做受又硬又粗又大视频小说 | 日韩精品久久久久久久电影蜜臀| 久久aⅴ无码一区二区三区| 好爽要高潮了在线观看| av在线观看一区二区三区| 国产成年女人特黄特色毛片免 |