吳明慧,侯凌燕,王 超
1.北京信息科技大學(xué) 計(jì)算機(jī)開(kāi)放系統(tǒng)實(shí)驗(yàn)室,北京100101
2.北京材料基因工程高精尖中心,北京100101
時(shí)間序列預(yù)測(cè)方法在目標(biāo)追蹤、天氣預(yù)報(bào)、市場(chǎng)分析和故障診斷領(lǐng)域中有廣泛的應(yīng)用。時(shí)間序列預(yù)測(cè)的目標(biāo)是尋找未來(lái)時(shí)刻序列的取值與其歷史觀測(cè)值及變量之間的關(guān)系[1-2]。深度學(xué)習(xí)(deep learning)通過(guò)建立深層神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)自動(dòng)特征提取,構(gòu)建數(shù)據(jù)在不同層級(jí)、維度下的關(guān)聯(lián),提高自變量對(duì)因變量的解釋程度[2-5]。
目前,用于時(shí)間序列預(yù)測(cè)的深度學(xué)習(xí)模型主要有循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)和長(zhǎng)短時(shí)神經(jīng)網(wǎng)絡(luò)(Long Short-Term Memory neural network,LSTM)[6]。基于時(shí)間(狀態(tài))的循環(huán)機(jī)制,RNN能將時(shí)間序列的上下文信息考慮在內(nèi),但在訓(xùn)練過(guò)程中存在梯度消失問(wèn)題(即梯度向量的分量在長(zhǎng)時(shí)序列上呈指數(shù)降低)[7-15]。Schmidhuber等人提出長(zhǎng)短時(shí)神經(jīng)網(wǎng)絡(luò),在RNN的基礎(chǔ)上設(shè)立細(xì)胞狀態(tài)保存歷史信息、設(shè)立輸入門更新細(xì)胞狀態(tài)、設(shè)立遺忘門清除無(wú)用歷史信息,從而分離了記憶模塊與數(shù)據(jù)輸入模塊,緩解了梯度消失問(wèn)題[3]。進(jìn)而,涌現(xiàn)出諸多基于LSTM模型在預(yù)測(cè)領(lǐng)域的應(yīng)用案例,例如Yuan等[15]對(duì)工業(yè)設(shè)備壽命的預(yù)測(cè)。然而,后續(xù)的研究發(fā)現(xiàn)梯度消失問(wèn)題在LSTM中仍然存在,尤其在工業(yè)環(huán)境中,時(shí)序數(shù)據(jù)往往由高采樣率的傳感器收集得到,隨采樣時(shí)間的增加,序列長(zhǎng)度不斷增長(zhǎng),在處理距離當(dāng)前時(shí)刻較遠(yuǎn)的序列信息時(shí)這個(gè)問(wèn)題更加明顯[16]。
為解決此問(wèn)題,Chorowski等人[17]提出在LSTM之后增加注意力機(jī)制,通過(guò)為隱層節(jié)點(diǎn)分配不同權(quán)重,使重要特征在長(zhǎng)序數(shù)據(jù)的學(xué)習(xí)過(guò)程中被保留。Wang[18]將CNN捕捉局部特征的能力與LSTM提取序列數(shù)據(jù)時(shí)序特征的能力相結(jié)合,構(gòu)建多特征提取模型。Li[19]在此基礎(chǔ)上引入注意力機(jī)制選取關(guān)鍵特征進(jìn)行學(xué)習(xí),進(jìn)一步降低預(yù)測(cè)誤差,然而序列長(zhǎng)度受限的關(guān)鍵在于LSTM,通過(guò)多特征疊加的方式并不能解決此問(wèn)題。Shi等人[20]提出ConvLSTM,將卷積整合到LSTM結(jié)構(gòu)中獲得時(shí)空特征的提取能力,使LSTM應(yīng)用擴(kuò)展到圖像領(lǐng)域。Conv-LSTM在短序列輸入時(shí)表現(xiàn)突出,但面對(duì)高維長(zhǎng)序數(shù)據(jù)輸入的特征提取能力不足。
基于單鏈結(jié)構(gòu)的LSTM僅能學(xué)習(xí)正向時(shí)序關(guān)系,BiLSTM的逆序雙鏈結(jié)構(gòu)可以對(duì)數(shù)據(jù)二次訓(xùn)練,這一特性使其可以學(xué)習(xí)序列正向和逆向的時(shí)序關(guān)系。Siami[21]驗(yàn)證了在預(yù)測(cè)準(zhǔn)確度上BiLSTM優(yōu)于LSTM。隨后,Ding[22]將CNN與BiLSTM組合,結(jié)果表明在預(yù)測(cè)誤差方面優(yōu)于LSTM、BiLSTM和CNN-LSTM,是目前預(yù)測(cè)精度最高的方案。Wang[23]和Jiang[24]等人分別嘗試在CNNBiLSTM組合上附加注意力機(jī)制用于特征選取,但預(yù)測(cè)效果并不穩(wěn)定。
綜上,在LSTM對(duì)歷史序列的記憶能力隨序列長(zhǎng)度增加而下降的問(wèn)題中,關(guān)注的重點(diǎn)在于引入其他模型或機(jī)制來(lái)提升特征提取能力[25-27],均未從LSTM鏈?zhǔn)浇Y(jié)構(gòu)信息傳導(dǎo)機(jī)理出發(fā)提升LSTM的記憶能力。鏈?zhǔn)浇Y(jié)構(gòu)的長(zhǎng)短時(shí)神經(jīng)網(wǎng)絡(luò)在梯度反向傳導(dǎo)時(shí),歷史時(shí)刻梯度的計(jì)算基于后續(xù)時(shí)刻的梯度值。這一機(jī)制使得在面對(duì)高采樣率、分布不均衡的數(shù)據(jù)時(shí),模型會(huì)弱化小比例數(shù)據(jù)的記憶能力。最終導(dǎo)致算法能夠接受的序列長(zhǎng)度有限,輸入序列達(dá)到一定長(zhǎng)度時(shí)預(yù)測(cè)精度會(huì)明顯降低。在此方面,本文提出提出在LSTM節(jié)點(diǎn)中構(gòu)建強(qiáng)化門實(shí)現(xiàn)對(duì)遺忘信息的提取,并與記憶信息按比例選取、融合、輸入記憶單元,增加學(xué)習(xí)過(guò)程中的梯度傳導(dǎo)能力,使網(wǎng)絡(luò)對(duì)相對(duì)較遠(yuǎn)的信息保持敏感以提升記憶能力。
RNN是一種隱層具有自連接關(guān)系的神經(jīng)網(wǎng)絡(luò),每個(gè)節(jié)點(diǎn)通過(guò)當(dāng)前時(shí)刻的狀態(tài)信息計(jì)算輸出,而當(dāng)前狀態(tài)由上一時(shí)刻的狀態(tài)和當(dāng)前時(shí)刻的輸入共同決定,從而實(shí)現(xiàn)時(shí)序數(shù)據(jù)的記憶。LSTM延續(xù)了RNN的鏈?zhǔn)絺鲗?dǎo)結(jié)構(gòu),并在RNN的基礎(chǔ)上增加了四種交互層(如圖1所示),input(輸入門)、forget(遺忘門)、output(輸出門)和cell(細(xì)胞狀態(tài)),以解決梯度消失問(wèn)題。每個(gè)LSTM節(jié)點(diǎn)包含三個(gè)輸入,即上一時(shí)刻的節(jié)點(diǎn)狀態(tài)、上一時(shí)刻的節(jié)點(diǎn)輸出和當(dāng)前時(shí)刻的輸入。LSTM特有的門結(jié)構(gòu)包含一個(gè)非線性激活函數(shù),決定了在節(jié)點(diǎn)之間傳遞的信息量。LSTM通過(guò)門結(jié)構(gòu)實(shí)現(xiàn)對(duì)歷史信息傳遞的控制[29]。
圖1 面向預(yù)測(cè)問(wèn)題的LSTM結(jié)構(gòu)Fig.1 LSTM structure for prediction problems
(1)遺忘門通過(guò)自循環(huán)權(quán)重控制前一個(gè)過(guò)程中狀態(tài)信息的保存。同時(shí)通過(guò)激活函數(shù)將遺忘門的值限制在0至1之間,控制細(xì)胞狀態(tài)以防止記憶飽和[15]。計(jì)算公式為:
其中,Wf為循環(huán)權(quán)重,Uf為輸入權(quán)重,bf為偏置,ht-1和xt分別為隱含層的輸出和輸入。
(2)輸入門由sigmoid激活函數(shù)實(shí)現(xiàn),輸入單元it按需提取輸入信息C?t以控制序列的輸入。計(jì)算公式為:
其中,Ui和Uc為輸入權(quán)重,Wi和Wc為循環(huán)權(quán)重,bi和bc為偏置。
(3)細(xì)胞狀態(tài)更新。細(xì)胞狀態(tài)Ct用來(lái)記錄當(dāng)前時(shí)刻LSTM神經(jīng)網(wǎng)絡(luò)的狀態(tài)。由Ct-1和遺忘門ft的乘積,和輸入門it和C?t的乘積兩部分組成。計(jì)算公式為:
其中,°為哈達(dá)瑪積[28]。
(4)輸出門將輸入的數(shù)據(jù)經(jīng)過(guò)隱藏層計(jì)算再通過(guò)激活函數(shù)壓縮到0至1進(jìn)行輸出。計(jì)算公式為:
其中,Wo和Uo分別為循環(huán)權(quán)重和輸入權(quán)重,bo為偏置。
(5)隱狀態(tài)通過(guò)輸出激活函數(shù)實(shí)現(xiàn)預(yù)測(cè)。設(shè)輸入序列X=(x0,x1,…,xt),預(yù) 測(cè) 結(jié) 果 用y?=( )y?0,y?1,…,y?t表示,計(jì)算公式為:
其中,wy為權(quán)重,by為偏置,φ代表LSTM的輸出激活函數(shù)。當(dāng)輸入序列(x0,x1,…,xt),LSTM模型會(huì)生成相應(yīng)的隱狀態(tài)(h0,h1,…,ht),隱狀態(tài)經(jīng)過(guò)數(shù)據(jù)激活函數(shù)φ轉(zhuǎn)換為預(yù)測(cè)值。
在數(shù)據(jù)持續(xù)輸入的過(guò)程中,會(huì)出現(xiàn)細(xì)胞狀態(tài)飽和現(xiàn)象(細(xì)胞狀態(tài)持續(xù)增長(zhǎng)導(dǎo)致模型停止記憶新信息),因此Schmidhuber引入遺忘門限制記憶傳遞的程度。但在序列長(zhǎng)度超過(guò)一定限度時(shí),遺忘門會(huì)導(dǎo)致歷史信息丟失。針對(duì)長(zhǎng)序列數(shù)據(jù)的記憶限制問(wèn)題,本文提出在LSTM節(jié)點(diǎn)中構(gòu)建強(qiáng)化門實(shí)現(xiàn)對(duì)遺忘信息Ct-1(f)的提取,并與記憶信息Ct-1(r)按比例選取、融合、輸入記憶單元,增加學(xué)習(xí)過(guò)程中的梯度傳導(dǎo)能力,使網(wǎng)絡(luò)對(duì)相對(duì)較遠(yuǎn)的信息保持敏感以提升記憶能力。
遺忘門控制上一時(shí)刻細(xì)胞狀態(tài)的傳遞,當(dāng)輸入序列超出模型接受的限度時(shí),遺忘門會(huì)過(guò)度發(fā)揮作用將重要信息(歷史信息)過(guò)濾。遺忘門的這一性質(zhì)導(dǎo)致LSTM面對(duì)長(zhǎng)序數(shù)據(jù)會(huì)遺忘歷史信息。強(qiáng)化門機(jī)制是在遺忘門的基礎(chǔ)上附加了記憶回收模塊,可在輸入長(zhǎng)序數(shù)據(jù)時(shí)回收部分遺忘的歷史信息。記憶強(qiáng)化結(jié)構(gòu)如圖2所示。
圖2 記憶增強(qiáng)LSTM模型結(jié)構(gòu)圖Fig.2 Structure of memory enhanced LSTM model
將遺忘信息Ct-1(f)的選取比例設(shè)定為W1,記憶信息Ct-1(r)的選取比例設(shè)為W2,引入強(qiáng)化門后記憶單元為:
其中,W3=W2-W1,通過(guò)對(duì)遺忘信息加權(quán),可使LSTM對(duì)遺忘信息保持一定程度的敏感性。將公式(4)展開(kāi)得:
公式(9)表明,將記憶狀態(tài)按照時(shí)間全部展開(kāi)后,第t個(gè)時(shí)刻的單元記憶Ct為第i步的輸入記憶C?i經(jīng)歷t-i+1次遺忘求和得到。通過(guò)加強(qiáng)每一時(shí)刻的輸入記憶C?t,可實(shí)現(xiàn)單元記憶Ct的增強(qiáng)。將公式(8)展開(kāi)如下:其中,ft由sigmoid函數(shù)實(shí)現(xiàn),其輸出結(jié)果在0~1。當(dāng)0 另一方面,LSTM長(zhǎng)期記憶的序列長(zhǎng)度與梯度值正向相關(guān),遞歸梯度計(jì)算是導(dǎo)致梯度消失的原因。LSTM結(jié)構(gòu)設(shè)計(jì)為通過(guò)Ct進(jìn)行長(zhǎng)期記憶,對(duì)進(jìn)行展開(kāi): 其中,function表示復(fù)合函數(shù)。在長(zhǎng)序數(shù)據(jù)(尤其是不均衡數(shù)據(jù)集)輸入的條件下,通常取值為0~1,function函數(shù)對(duì)其取值影響小于ft。對(duì)改進(jìn)模型梯度展開(kāi)得: 細(xì)胞狀態(tài)Ct通常在時(shí)間序列的學(xué)習(xí)過(guò)程中傾向于線性增長(zhǎng),在持續(xù)輸入的情況下,細(xì)胞狀態(tài)可能會(huì)無(wú)限增長(zhǎng),從而導(dǎo)致輸出門的飽和。輸出門飽和將使ht的導(dǎo)數(shù)消失,無(wú)法獲取輸入誤差,導(dǎo)致模型停止記憶,故遺忘門取值設(shè)置在0~1,以實(shí)現(xiàn)對(duì)單元記憶飽和度的控制[15]。因fnew_t輸出結(jié)果在0~1,記憶增強(qiáng)模型不會(huì)由于增加記憶信息而導(dǎo)致單元記憶飽和。 實(shí)驗(yàn)選取預(yù)測(cè)擬合曲線對(duì)比改進(jìn)模型(記憶增強(qiáng))S_LSTM與原LSTM模型的預(yù)測(cè)能力。隨后對(duì)比S_LSTM與多種LSTM模型的預(yù)測(cè)誤差隨輸入序列長(zhǎng)度的變化,以驗(yàn)證改進(jìn)模型的預(yù)測(cè)精度。之后評(píng)測(cè)參數(shù)W1對(duì)改進(jìn)模型S_LSTM預(yù)測(cè)誤差與訓(xùn)練時(shí)間的影響。最后對(duì)比S_LSTM與原LSTM模型訓(xùn)練時(shí)間與測(cè)試時(shí)間隨輸入序列增加的變化趨勢(shì),分析新參數(shù)伴隨的負(fù)面效果。 實(shí)驗(yàn)數(shù)據(jù)集取自某器件中的監(jiān)控?cái)?shù)據(jù),單個(gè)傳感器按照每20 ms一次的頻率記錄一次數(shù)值,將160個(gè)傳感器在同時(shí)刻記錄的數(shù)值集合記為一條數(shù)據(jù)。數(shù)據(jù)集包含某時(shí)刻起連續(xù)29 h采集的正常數(shù)據(jù)4 000 686條數(shù)據(jù),在0.3 h內(nèi)采集的故障數(shù)56 954條,數(shù)據(jù)集共有160個(gè)維度,每個(gè)維度表示相應(yīng)的傳感器監(jiān)測(cè)值。為平衡正負(fù)樣本,本實(shí)驗(yàn)將正常數(shù)據(jù)以20為間隔選取,將數(shù)據(jù)壓縮至200 000條,故障數(shù)據(jù)過(guò)濾掉空值過(guò)多的項(xiàng),總數(shù)據(jù)量共計(jì)245 463條。 在數(shù)據(jù)采集的過(guò)程中,數(shù)據(jù)集質(zhì)量會(huì)受環(huán)境因素干擾,采集數(shù)據(jù)的不正當(dāng)操作以及設(shè)備本身的問(wèn)題會(huì)導(dǎo)致采集的數(shù)據(jù)中存在異常。在訓(xùn)練前先對(duì)數(shù)據(jù)進(jìn)行預(yù)處理。 本文采用min-max歸一化是對(duì)原始數(shù)據(jù)的線性變換,變換公式如式(13): 其中,Maxvalue為數(shù)據(jù)中的最大值,Minvalue為數(shù)據(jù)中的最小值,Maxvalue-Minvalue為極差,xi為在數(shù)據(jù)集中所取的數(shù)據(jù),xi′為歸一化后數(shù)據(jù)的大小。 將傳感器編號(hào)18S記錄的指標(biāo)設(shè)為因變量18S,當(dāng)18S數(shù)值大于170時(shí)機(jī)器異常,其余指標(biāo)作為自變量,使用日前向鏈嵌套交叉驗(yàn)證方法,基于Keras框架搭建LSTM模型實(shí)現(xiàn)對(duì)故障特征參數(shù)18S的預(yù)測(cè)。訓(xùn)練集中因變量18S的數(shù)值如圖3所示,橫坐標(biāo)為數(shù)據(jù)量,縱坐標(biāo)表示數(shù)值,以此數(shù)據(jù)分布模擬實(shí)際場(chǎng)景中一個(gè)訓(xùn)練周期。 圖3 訓(xùn)練集因變量18S度量指標(biāo)Fig.3 18S metric of training set dependent variable 實(shí)驗(yàn)選取平均絕對(duì)誤差(Mean Absolute Error,MAE),均方根誤差(Root Mean Square Error,RMSE)作為模型預(yù)測(cè)結(jié)果的評(píng)估標(biāo)準(zhǔn)。RMSE是用于測(cè)量觀測(cè)值與實(shí)際值之間的偏差,對(duì)非常大或較小誤差的測(cè)量高度敏感。MAE與RMSE的計(jì)算如下: 圖4 展示了記憶增強(qiáng)模型(S_LSTM)與原模型的預(yù)測(cè)結(jié)果,橫坐標(biāo)表示數(shù)據(jù)量,縱坐標(biāo)表示參數(shù)數(shù)值。直線線條為測(cè)試集因變量18S的值,虛線線條(記憶增強(qiáng)模型)和星狀線條(原模型)為模型預(yù)測(cè)的因變量值。因變量在潛在故障時(shí)由93變?yōu)?63,發(fā)生故障時(shí)由163增長(zhǎng)超過(guò)170閾值。在正常時(shí)序區(qū)間,記憶增強(qiáng)模型的預(yù)測(cè)曲線比原LSTM模型的預(yù)測(cè)曲線更貼近于真實(shí)曲線。在故障時(shí)序區(qū),記憶增強(qiáng)模型的預(yù)測(cè)誤差為14.45,相對(duì)于原模型的預(yù)測(cè)誤差(22.51)減少35.8%。 圖4 預(yù)測(cè)結(jié)果對(duì)比Fig.4 Comparison of prediction results 圖5 給出記憶增強(qiáng)模型(S_LSTM)與其他LSTM模型在預(yù)測(cè)過(guò)程中的均方根誤差RMSE與平均絕對(duì)誤差MAE隨輸入序列長(zhǎng)度的變化趨勢(shì)對(duì)比,對(duì)比模型包括LSTM、Attention LSTM、ConvLSTM、BiLSTM、CNNLSTM、CNN-BiLSTM及Attention CNN-LSTM。由圖5(a)的RSME曲線可見(jiàn),隨輸入序列長(zhǎng)度逐漸增加,各模型的均方根誤差均呈持續(xù)增長(zhǎng)的趨勢(shì)。其中,S_LSTM的RSME曲線整體位于原模型的下方,該現(xiàn)象印證了改進(jìn)模型記憶能力高于原LSTM模型。而與其他模型的對(duì)比中,在0~60序列長(zhǎng)度內(nèi),模型組合以增強(qiáng)特征提取能力的表現(xiàn)更明顯,CNN-LSTM、BiLSTM、Attention CNN-LSTM與CNN-BiLSTM的預(yù)測(cè)誤差均小于S_LSTM。但是當(dāng)序列長(zhǎng)度增至100時(shí),僅CNN-BiLSTM的預(yù)測(cè)能力略優(yōu)于改進(jìn)模型。在100后,改進(jìn)模型的誤差曲線最低,這說(shuō)明在序列長(zhǎng)度超過(guò)60時(shí),附加其他模型特征提取能力的影響已經(jīng)逐漸弱于LSTM梯度傳導(dǎo)的影響。改進(jìn)模型面對(duì)長(zhǎng)序輸入的記憶能力高于其他LSTM模型。平均絕對(duì)誤差MAE(圖5(b))的變化趨勢(shì)與均方根誤差RMSE類似,但隨序列長(zhǎng)度增加,曲線斜率的變化更明顯。圖5(b)中,各模型的誤差曲線斜率均呈現(xiàn)先降低后增加的趨勢(shì)。這表明,當(dāng)輸入序列增加到一定程度(100)時(shí),模型已達(dá)到記憶上限。而S_LSTM曲線斜率上升的拐點(diǎn)晚于其他模型,這表明S_LSTM的記憶增強(qiáng)機(jī)制發(fā)揮作用,添加強(qiáng)化門機(jī)制可使LSTM記憶上限高于其他方法。 圖5 記憶增強(qiáng)模型與其他模型在預(yù)測(cè)誤差上比較Fig.5 Comparison of prediction error between memory enhancement model and other models 表1 展示了S_LSTM在不同W1參數(shù)取值下與預(yù)測(cè)精度較高的LSTM相關(guān)模型(CNN-LSTM、BiLSTM、Attention CNN-LSTM及CNN-BiLSTM)對(duì)比,對(duì)比預(yù)測(cè)誤差與總訓(xùn)練時(shí)間分析S_LSTM的性能。其中序列長(zhǎng)度設(shè)置為200,學(xué)習(xí)率為0.01,L2正則化系數(shù)為0.01,以0.1為間隔在0至1區(qū)間取值。當(dāng)W1取值為0.2及0.8時(shí)RMSE與MAE最小,分別為24.65與14.11,低于原LSTM(33.76與22.51)及其相關(guān)模型。表1中,W1取值從0.1至0.9運(yùn)行時(shí)間無(wú)明顯規(guī)律變化,但高于LSTM、CNN-LSTM、CNN-BiLSTM及Attention CNNLSTM??梢?jiàn),記憶增強(qiáng)模型的預(yù)測(cè)結(jié)果在RMSE、MAE方面均優(yōu)于其他LSTM相關(guān)模型,但訓(xùn)練時(shí)間相比LSTM、CNN-LSTM、CNN-BiLSTM及Attention CNNLSTM略微增長(zhǎng)。 表1 參數(shù)W1對(duì)模型的影響Table 1 Effect of parameter W1 on model 圖6 進(jìn)一步表現(xiàn)了記憶加強(qiáng)模型(S_LSTM)與原模型(LSTM)訓(xùn)練時(shí)間(圖6(a))與測(cè)試時(shí)間(圖6(b))隨輸入序列的變化(學(xué)習(xí)率為0.01,L2正則化系數(shù)為0.01)。記憶加強(qiáng)模型與原模型在序列長(zhǎng)度為1時(shí)訓(xùn)練時(shí)間接近,分別為14 s與11 s。隨著序列長(zhǎng)度的增長(zhǎng),兩模型的訓(xùn)練時(shí)間與測(cè)試時(shí)間均逐漸上升。記憶增強(qiáng)模型的平均訓(xùn)練時(shí)間為599.81 s,較原模型(509.57 s)增長(zhǎng)17.71%。記憶加強(qiáng)模型的訓(xùn)練時(shí)長(zhǎng)與輸入序列長(zhǎng)度的增長(zhǎng)基本呈線性關(guān)系,而原LSTM模型僅在序列長(zhǎng)度低于130區(qū)間內(nèi)表現(xiàn)為線性,之后則呈現(xiàn)急劇增加的趨勢(shì),表明模型的記憶能力與訓(xùn)練時(shí)間存在正向關(guān)系。當(dāng)序列長(zhǎng)度達(dá)到200時(shí),記憶加強(qiáng)模型和原LSTM模型已基本持平。測(cè)試時(shí)間方面,引入強(qiáng)化門機(jī)制增加參數(shù)計(jì)算量,導(dǎo)致記憶增強(qiáng)模型的測(cè)試時(shí)間整體略高于原模型。 圖6 記憶增強(qiáng)模型與原模型訓(xùn)練時(shí)間與測(cè)試時(shí)間Fig.6 Training time and test time of memory enhancement model and eriginal model 本文提出了一種面向預(yù)測(cè)的長(zhǎng)短時(shí)神經(jīng)網(wǎng)絡(luò)記憶增強(qiáng)機(jī)制,通過(guò)對(duì)神經(jīng)網(wǎng)絡(luò)的節(jié)點(diǎn)結(jié)構(gòu)修改,在遺忘門的基礎(chǔ)上增設(shè)強(qiáng)化門,由原模型只關(guān)注歷史信息的篩選(保留記憶部分),擴(kuò)展至對(duì)遺忘信息提供傳導(dǎo)通道并實(shí)現(xiàn)記憶調(diào)節(jié),增加學(xué)習(xí)過(guò)程中的梯度傳導(dǎo)能力從而增強(qiáng)了長(zhǎng)短時(shí)神經(jīng)網(wǎng)絡(luò)對(duì)歷史信息在傳遞過(guò)程中的提取能力。實(shí)驗(yàn)表明,改進(jìn)模型S_LSTM對(duì)長(zhǎng)序數(shù)據(jù)的預(yù)測(cè)精度高于其他LSTM模型。 本文提出的改進(jìn)方法在LSTM節(jié)點(diǎn)內(nèi)部實(shí)現(xiàn),引入新參數(shù)提升記憶能力的方式增加了學(xué)習(xí)的參數(shù)量,融合其他模型會(huì)帶來(lái)更大的訓(xùn)練成本。同時(shí)復(fù)雜的組合模型容易導(dǎo)致過(guò)擬合,需要加大正則系數(shù)。后期將從降低模型復(fù)雜度切入,可通過(guò)門控單元合并降低參數(shù)量,或引用卷積提取局部特征,以簡(jiǎn)化S_LSTM輸入的特征量,降低運(yùn)算復(fù)雜度。3 實(shí)驗(yàn)結(jié)果分析
3.1 數(shù)據(jù)集
3.2 數(shù)據(jù)預(yù)處理
3.3 模型搭建
3.4 評(píng)價(jià)指標(biāo)
3.5 結(jié)果分析
4 結(jié)語(yǔ)