亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

一種基于前饋序列記憶神經(jīng)網(wǎng)絡(luò)的改進(jìn)方法

2021-05-28 02:57:30梁翀劉迪浦正國張彬彬

山東農(nóng)業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版) 2021年2期

關(guān)鍵詞：聲學(xué)時(shí)序深層

梁翀,劉迪,浦正國,張彬彬

梁翀1,劉迪2,浦正國1*,張彬彬1

1. 安徽繼遠(yuǎn)軟件有限公司, 安徽合肥 230088 2. 國網(wǎng)信息通信產(chǎn)業(yè)集團(tuán)有限公司, 北京 102211

針對(duì)具有時(shí)序性的信號(hào)的分析和建模，主流的RNN、LSTM由于反饋連接的影響，在學(xué)習(xí)效率和穩(wěn)定上有所不足。本文基于標(biāo)準(zhǔn)的前饋神經(jīng)網(wǎng)絡(luò)，借鑒濾波器中的抽頭延遲線結(jié)構(gòu)，提出一種改進(jìn)的前饋序列記憶神經(jīng)網(wǎng)絡(luò)FSMN（cFSMN）和深層cFSMN（Deep-cFSMN），實(shí)現(xiàn)時(shí)序的音視頻信號(hào)快速建模，減少了反饋連接，具有更高的學(xué)習(xí)速率和更好的穩(wěn)定性。

前饋序列記憶神經(jīng)網(wǎng)絡(luò); 改進(jìn)方法

深度學(xué)習(xí)的發(fā)展推動(dòng)人工智能的興起，而深度學(xué)習(xí)的發(fā)展離不開神經(jīng)網(wǎng)絡(luò)[1,2]，其中應(yīng)用最廣泛的是前饋型神經(jīng)網(wǎng)絡(luò)[3,4]和卷積神經(jīng)網(wǎng)絡(luò)[5,6]。對(duì)非結(jié)構(gòu)化數(shù)據(jù)（文本、語音和視頻）這些時(shí)序性信號(hào)，如何有效地對(duì)這些時(shí)序信號(hào)的長時(shí)相關(guān)性進(jìn)行建模就顯得尤為重要。因此，先后出現(xiàn)循環(huán)神經(jīng)網(wǎng)絡(luò)RNN、前饋全連接神經(jīng)網(wǎng)絡(luò)FNN和LSTM等不同的神經(jīng)網(wǎng)絡(luò)。循環(huán)神經(jīng)網(wǎng)絡(luò)RNN[7]通過循環(huán)反饋機(jī)制，將學(xué)習(xí)到的歷史表達(dá)存儲(chǔ)在網(wǎng)絡(luò)的權(quán)重中，從而實(shí)現(xiàn)對(duì)時(shí)序信號(hào)進(jìn)行建模，而RNN由于其記憶存儲(chǔ)機(jī)制理論上可以實(shí)現(xiàn)任意長度的序列到另一個(gè)序列的映射[8]，由于其內(nèi)部的反饋連接，訓(xùn)練需要采用所謂的BPTT（Back-propagation through time）[9]，BPTT會(huì)導(dǎo)致RNN的計(jì)算復(fù)雜度很高，而且會(huì)導(dǎo)致梯度消失和梯度膨脹。長短時(shí)記憶單元（Long Short Term Memory, LSTM）[10,11]是一種增強(qiáng)型的RNN結(jié)構(gòu)，選擇學(xué)習(xí)的門來替代循環(huán)連接，從而可以確保訓(xùn)練過程中梯度的傳遞更加有效，并在序列建模[12]、機(jī)器翻譯[13]、語音識(shí)別[14]等任務(wù)上取得一定突破。雖然在時(shí)序信號(hào)的建模問題上，LSTM、RNN等神經(jīng)網(wǎng)絡(luò)取得一定的效果，但受制于反饋連接的影響，在學(xué)習(xí)效率和穩(wěn)定上有所不足，本文針對(duì)上述問題,基于標(biāo)準(zhǔn)的前饋神經(jīng)網(wǎng)絡(luò)，并模仿濾波器中的抽頭延遲線結(jié)構(gòu)，提出一種比LSTM、RNN學(xué)習(xí)效率高和穩(wěn)定的神經(jīng)網(wǎng)絡(luò)，快速對(duì)時(shí)序的音視頻信號(hào)建模，減去了反饋連接，并命名為前饋序列記憶神經(jīng)網(wǎng)絡(luò)（FSMN, Feed-forward Sequential Memory Network）。

1 改進(jìn)的FSMN網(wǎng)絡(luò)結(jié)構(gòu)

1.1 簡(jiǎn)潔的前饋序列記憶神經(jīng)網(wǎng)絡(luò)

在低維度的線性投影層上添加記憶模塊，減少額外參數(shù)數(shù)目，改進(jìn)標(biāo)準(zhǔn)的FSMN結(jié)構(gòu)，形成第層為cFSMN-layer的cFSMN（如圖1）。

進(jìn)一步簡(jiǎn)化模型的結(jié)構(gòu)，減少參數(shù)復(fù)雜度和計(jì)算量，如1圖所示，以cFSMN-layer中Memory Block的輸出當(dāng)做下一層的輸入，具體公式如下：

1.2 深層的前饋序列記憶神經(jīng)網(wǎng)絡(luò)

傳統(tǒng)的矩陣低秩分解多層的cFSMN，導(dǎo)致層數(shù)過多（4個(gè)cFSMN層以及2全連接層，最后的層數(shù)將達(dá)到12層），帶來梯度消失的問題，訓(xùn)練存在很大的不確定因素。引入跳轉(zhuǎn)鏈接（如圖2）的深層cFSMN結(jié)構(gòu)，實(shí)現(xiàn)低層記憶模塊的輸出向高層記憶模塊疊加，解決深層的cFSMN梯度消失的問題的同時(shí)不引入多余參數(shù)。

圖 1 cFSMN的網(wǎng)絡(luò)結(jié)構(gòu)示意圖

圖 2 基于快捷連接的深層cFSMN結(jié)構(gòu)框圖

從時(shí)序信號(hào)的特性（相連時(shí)刻信息相似），基于擴(kuò)張卷積的思路，引入步幅因子到記憶模塊。計(jì)算如下：

2 結(jié)果分析

本文改進(jìn)的神經(jīng)網(wǎng)絡(luò)是為了解決時(shí)序信號(hào)的建模效率低與不穩(wěn)定的問題,為了驗(yàn)證本文改進(jìn)算法在建模的訓(xùn)練效率與穩(wěn)定性方面優(yōu)勢(shì)。本文設(shè)計(jì)相同實(shí)驗(yàn)條件和相同評(píng)價(jià)標(biāo)準(zhǔn)要求下,針對(duì)語音識(shí)別聲學(xué)建模Switchboard (SWB)和Hsher (FSH)任務(wù)以及語言模型建模PTB和Wiki9任務(wù)等常見任務(wù),給出常見算法與本文改進(jìn)算法在詞錯(cuò)誤率（Word Error Rate,WER）評(píng)價(jià)指標(biāo)上的對(duì)比。

在相同的SWB數(shù)據(jù)庫上，對(duì)比不同聲學(xué)模型的迭代訓(xùn)練時(shí)間。以交叉熵（CE）準(zhǔn)則為判斷依據(jù)，在相同的硬件配置條件下訓(xùn)練，本文選擇單Nvidia Tesla K20 GPU。實(shí)驗(yàn)結(jié)果見表1，LSTM和FSMN等有效對(duì)長時(shí)相關(guān)進(jìn)行建模的模型訓(xùn)練效果更優(yōu)化，顯著提升DNN性能。前者耗時(shí)9.4 h，而BLSTM耗時(shí)長達(dá)23.7 h。這是由于兩種算法的并行代價(jià)資源不同，受限計(jì)算資源的配置，BLSTM只能16句話，而LSTM則可以達(dá)到64句。改進(jìn)的vFSMN的效果稍微優(yōu)于BLSTM。這是由于其結(jié)構(gòu)簡(jiǎn)單，耗時(shí)僅需要6.7 h，速度提升3倍較與BLSTM。然而vFSMN的參數(shù)復(fù)雜度比BLSTM小了一個(gè)量級(jí)，這一方面，cFSMN更優(yōu)，參數(shù)減少到74 MB，僅有BLSTM參數(shù)量40％。其耗時(shí)低到3.1 h，訓(xùn)練加速達(dá)到BLSTM的7倍多，且12.5％的詞錯(cuò)誤率，比BLSTM的0.9％有10倍多的提升。

表 1 不同聲學(xué)模型的訓(xùn)練模型參數(shù)量、訓(xùn)練時(shí)間和效果的對(duì)比

對(duì)比不同配置下的深層cFSMN的性能，引入表達(dá)式：216-×[2048-(_1,_2)]-×2048--8991表示模型，其中和的不同，表示cFSMN-layer和標(biāo)準(zhǔn)全連接層的數(shù)目的不同，而代表線性投影層節(jié)點(diǎn)數(shù)目。_1，_2分別代表向前和向后的濾波器階數(shù)。對(duì)于相同的值的模型可以用（,_1,_2）來區(qū)分模型。在表2中前兩次實(shí)驗(yàn)對(duì)比應(yīng)用式(3)的Memory Block編碼計(jì)算，設(shè)置較大步幅，實(shí)現(xiàn)更長遠(yuǎn)的上下文信息的檢測(cè)，得到更優(yōu)的性能。在后續(xù)實(shí)現(xiàn)增加cFSMN-layer層的數(shù)目，發(fā)現(xiàn)性能逐漸提高，添加跳轉(zhuǎn)連接，訓(xùn)練深層cFSMN（含有12個(gè)cFSMN-layer和2個(gè)全連接層），即Deep-cFSMN，基于Hub5e00數(shù)據(jù)集達(dá)到9.0％的詞錯(cuò)誤率。

表 2 不同配置跳轉(zhuǎn)連接訓(xùn)練深層cFSMN聲學(xué)模型的性能（基于FSH任務(wù)）

3 結(jié) 語

本文基于標(biāo)準(zhǔn)的FSMN，改進(jìn)出簡(jiǎn)潔結(jié)構(gòu)的FSMN（cFSMN）和深層cFSMN（Deep-cFSMN）.對(duì)于聲學(xué)模型訓(xùn)練（SWB）任務(wù)的實(shí)驗(yàn)，發(fā)現(xiàn)cFSMN的性能優(yōu)于BLSTM。且在FSH任務(wù)深層的cFSMN隨著隱層數(shù)目的遞増，模型性能提升越好，但復(fù)雜干擾情況（噪音、遠(yuǎn)場(chǎng)）下的識(shí)別性能還不穩(wěn)定的問題還有待解決。

[1] Lecun Y, Bengio Y, Hinton G. Deep learning [J]. Nature, 2015,521(7553):436-444

[2] Schmidhuber J. Deep learning in neural networks: an overview [J]. Neural Network, 2015,61:85-117

[3] Dahl GE, Yu D, Deng L,. Context-Dependent Pre-Trained Deep Neural Networks for Large-Vocabulary Speech Recognition [J]. IEEE Transactions on Audio, Speech and Language Processing, 2012,20(1):30-42

[4] Hinton G, Deng L, Yu D,. Deep Neural Networks for Acoustic Modeling in Speech Recognition: The Shared Views of Four Research Groups [J]. IEEE Signal Processing Magazine, 2012,29(6):82-97

[5] Krizhevsky A, Sutskever I, Hinton G. ImageNet Classification with Deep Convolutional Neural Networks [C]. NIPS. Curran Associates Inc. 2012

[6] 張晴晴,劉勇,王智超,等.卷積神經(jīng)網(wǎng)絡(luò)在語音識(shí)別中的應(yīng)用[J].網(wǎng)絡(luò)新媒體技術(shù),2014,3(6):39-42

[7] 王龍,楊俊安,陳雷,等.基于循環(huán)神經(jīng)網(wǎng)絡(luò)的漢語語言模型建模方法[J].聲學(xué)技術(shù),2015,34(5):431-436

[8] Meng FD, Lu ZD, Tu ZP,. Neural Transformation Machine: A New Architecture for Sequence-to-Sequence Learning [J]. Computer Science, 2015:1-13

[9] Werbos PJ. Backpropagation through time: what it does and how to do it [J]. Proc IEEE, 1990,78(10):1550-1560

[10] 金宸,李維華,姬晨,等.基于雙向LSTM神經(jīng)網(wǎng)絡(luò)模型的中文分詞[J].中文信息學(xué)報(bào),2018,32(2):29-37

[11] 張曉.基于LSTM神經(jīng)網(wǎng)絡(luò)的中文語義解析技術(shù)研究[D].南京:東南大學(xué),2017

[12] Graves A. Generating Sequences with Recurrent Neural Networks [J/OL]. arXiv:1308.0850 [cs.NE], 2013

[13] Cho K, Van Merrienboer B, Gulcehre C,Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation [J/OL]. arXiv:1308.0850 [cs.NE], 2014

[14]Sak H, Senior A, Beaufays F. Long Short-Term Memory Based Recurrent Neural Network Architectures for Large Vocabulary Speech Recognition [J/OL]. arXiv:1308.0850 [cs.NE], 2014:338-342

An Improved Method Based on Feedforward Sequence Memory Neural Network

LIANG Chong1, LIU Di2, PU Zheng-guo1*, ZHANG Bin-bin1

1.230088,2.102211,

For the analysis and modeling of sequential signals, the mainstream RNN and LSTM have some shortcomings in learning efficiency and stability due to the influence of feedback connection. Based on the standard feedforward neural network and the takeout delay line structure in the filter, this paper proposes an improved feedforward sequential memory neural network fsmn (cfsmn) and deep cfsmn (deep cfsmn) to achieve sequential sound. Video signal fast modeling reduces feedback connection, has higher learning speed and better stability.

Feedforward sequential memory network; improved method

TP183

1000-2324(2021)02-0313-03

10.3969/j.issn.1000-2324.2021.02.028

2019-01-05

2019-03-06

國家電網(wǎng)有限公司總部科技項(xiàng)目:基于機(jī)器學(xué)習(xí)的智能文檔自動(dòng)編制關(guān)鍵技術(shù)研究與應(yīng)用(No.52110418002X)

梁翀(1992-),男,碩士,工程師,主要從事電力行業(yè)信息化系統(tǒng)體系架構(gòu)設(shè)計(jì)、研發(fā)以及智能語音和圖像識(shí)別研究等工作. E-mail:liangchong@sgitg.sgcc.com.cn

Author for correspondence. E-mail:1144187870@qq.com

網(wǎng)絡(luò)首發(fā):http//www.cnki.net