亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于簡化型LSTM神經網絡的時間序列預測方法

        2021-05-26 01:14:00李文靜王瀟瀟
        北京工業(yè)大學學報 2021年5期
        關鍵詞:結構

        李文靜, 王瀟瀟

        (1.北京工業(yè)大學信息學部, 北京 100124; 2.計算智能與智能系統(tǒng)北京市重點實驗室, 北京 100124;3.智慧環(huán)保北京實驗室, 北京 100124; 4.北京人工智能研究院, 北京 100124)

        時間序列預測可以判斷事物發(fā)展趨勢,高效的預測模型可為應用決策提供有力依據(jù)[1]. 長短期記憶(long short-term memory, LSTM)神經網絡對時間序列預測具有顯著優(yōu)勢[2-4],已廣泛地應用于金融市場股票預測[5-7]、石油產量預測[8]、短時交通流預測[9]等領域,但標準LSTM神經網絡用于時間序列預測具有耗時長、復雜度高等問題[10-11]. 圍繞LSTM神經網絡結構設計,目前已有大量學者進行了研究.

        LSTM神經網絡在訓練過程中需要更新較多的參數(shù),增加了訓練時間[12],故對其內部結構進行刪減尤為重要. 一些研究者通過簡化LSTM神經網絡結構提出了多種基于標準LSTM神經網絡的簡化變體[13],如去除遺忘門[14]、耦合輸入門與遺忘門[15]、去除窺視孔連接[16]等. Greff等[13]對多種LSTM神經網絡簡化變體的效果進行了評價,實驗證明耦合輸入門與遺忘門、去除窺視孔連接的簡化變體可以在不顯著降低性能的情況下減少LSTM模型的參數(shù)數(shù)量和計算成本. Cho等[15]提出一種包括重置門與更新門2個門結構的門控循環(huán)單元(gated recurrent unit,GRU),實驗證明GRU可以達到與LSTM模型相當?shù)男Ч?,并且能夠很大程度上提高訓練效? Zhou等[17]提出只有一個門結構的最小門控單元(minimal gated unit,MGU),實驗證明MGU具有與GRU相當?shù)木?,但結構更簡單,參數(shù)更少,訓練速度更快. Oliver等[18]通過耦合輸入門與遺忘門以簡化LSTM模型,使用一個門結構同時控制遺忘和選擇記憶,該神經網絡與其他LSTM模型簡化變體相比能夠減少對歷史數(shù)據(jù)的依賴性,降低網絡的復雜度,在網絡性能不變的情況下縮短訓練時間[19]. 然而,以上介紹的LSTM簡化模型,仍需要更新和存儲較多的參數(shù),導致網絡計算冗余,訓練時間較長.

        針對以上問題,近幾年一些學者提出精簡門結構方程的方法,進一步減少訓練過程中需要更新的參數(shù),提高訓練速度. Lu等[20]通過精簡標準LSTM網絡門結構方程減少參數(shù)更新,提出3個模型并將其與標準LSTM網絡結構比較,實驗證明該模型在較少參數(shù)的情況下可獲得與標準LSTM模型相當?shù)男阅? Rahul等[21]通過減少重置門和更新門的參數(shù),提出GRU的3種變體,并對其性能進行了評估. 結果表明,這些變體的性能與GRU模型相當,同時降低了計算開銷. Joel等[22]介紹了MGU的3種模型變體,通過減少遺忘門動力方程中的參數(shù)數(shù)目,進一步簡化了設計,這3種模型變體顯示出與MGU模型相似的精度,同時使用較少的參數(shù)減少訓練時間. 根據(jù)以上分析,在減少門結構數(shù)量的基礎上精簡門結構參數(shù)能夠在保證網絡性能的前提下減少網絡的訓練時間.

        由于Oliver等[18]提出的LSTM簡化神經網絡具有較短訓練時間、較少參數(shù)數(shù)量等優(yōu)點,本文基于該網絡提出簡化型LSTM神經網絡,在耦合門結構的基礎上繼續(xù)對門結構方程中的參數(shù)進行簡化,可以更大程度上減少LSTM神經網絡在訓練過程中參數(shù)更新的數(shù)量,提高網絡的訓練速度. 通過2個基準數(shù)據(jù)集及污水處理過程出水生化需氧量(biochemical oxygen demand,BOD)質量濃度預測的實驗驗證,將其在3個時間序列數(shù)據(jù)集上與標準LSTM網絡及其他變體進行比較評價,結果說明本文提出的簡化型LSTM神經網絡在訓練時間減少的同時能夠達到較好的時間序列預測精度.

        1 標準LSTM神經網絡結構

        標準LSTM神經網絡結構包含一個狀態(tài)單元及3個門結構(輸入門、遺忘門、輸出門),其中狀態(tài)單元用于記錄當前時刻的狀態(tài),各門結構用于控制信息的遺忘或記憶. 本文介紹的LSTM模型的結構是去除窺視孔連接的標準LSTM模型[16],其內部結構圖如圖1所示. 標準LSTM模型的結構為

        (1)

        圖1 LSTM神經網絡內部結構詳細示意圖Fig.1 Detailed schematic diagram of the internal structure for LSTM neural network

        式中:xt為當前時刻輸入向量;ht為當前時刻輸出向量;zt、it、ft、ct、ot、ht分別為輸入信號、輸入門、遺忘門、狀態(tài)單元、輸出門、輸出信號;Wz、Wi、Wf、Wo分別為zt、it、ft、ot中的輸入權重矩陣;Uz、Ui、Uf、Uo分別為zt、it、ft、ot中的遞歸權重矩陣;bz、bi、bf、bo分別為zt、it、ft、ot中的偏置矩陣;σ為sigmoid激活函數(shù);g為tanh激活函數(shù);⊙表示矩陣點乘操作.

        對于只有一個重復隱含狀態(tài)的遞歸神經網絡(recurrent neural network, RNN)結構,若設定m為輸入向量的維度,n為隱含層單元的個數(shù),則每次迭代過程需要更新的參數(shù)個數(shù)為(mn+n2+n). 由于標準LSTM神經網絡存在3個門結構(輸入門it、遺忘門ft、輸出門ot)與輸入信號zt,由式(1)可知,標準LSTM神經網絡在每次迭代過程中需要更新的參數(shù)個數(shù)為4(mn+n2+n).

        2 簡化型LSTM神經網絡設計

        本文提出的簡化型LSTM神經網絡,首先通過耦合輸入門與遺忘門簡化標準LSTM神經網絡結構,其次對門結構方程中的參數(shù)進行精簡以進一步減少網絡參數(shù),從而提高網絡訓練速度.

        2.1 LSTM神經網絡門結構簡化設計

        本文通過耦合輸入門與遺忘門實現(xiàn)對標準LSTM神經網絡的門結構簡化,其結構由1個狀態(tài)單元及2個門結構組成(如圖2所示),具體介紹如下.

        圖2 簡化LSTM神經網絡內部結構Fig.2 Internal structure of the simplified LSTM neural network

        1) 輸入門:控制需要輸入到網絡中的信息,該結構與標準LSTM神經網絡相同,通過

        zt=σ(Wzxt+Uzht-1+bz)

        (2)

        it=σ(Wixt+Uiht-1+bi)

        (3)

        實現(xiàn).

        2) 狀態(tài)單元:狀態(tài)單元ct結合輸入信號zt與1-it控制的上一時刻的狀態(tài)單元ct-1,其更新公式為

        ct=(1-it)⊙ct-1+zt

        (4)

        由此可見,與標準LSTM神經網絡不同,式(4)由1-it代替遺忘門ft對上一時刻的狀態(tài)單元進行選擇性記憶,當it數(shù)值為0時,上一時刻的單元狀態(tài)全部記憶,當it數(shù)值為1時,上一時刻的單元狀態(tài)全部遺忘,從而實現(xiàn)了輸入門與遺忘門的耦合.

        3) 輸出門:控制當前時刻狀態(tài)單元信息ct的輸出程度,該結構與標準LSTM神經網絡輸出結構相同,通過

        ot=σ(Woxt+Uoht-1+bo)

        (5)

        ht=ot⊙g(ct)

        (6)

        實現(xiàn). 由此可見,輸出門ot控制神經網絡的最終輸出. 若ot數(shù)值為0,則當前時刻單元狀態(tài)ct全部不輸出,ht輸出值為0;若ot數(shù)值為1,則當前時刻單元狀態(tài)ct全部輸出.

        經過輸入門與遺忘門的耦合,LSTM網絡在簡化后由2個門結構組成,每次迭代過程需要更新的參數(shù)個數(shù)為3(mn+n2+n),與標準LSTM神經網絡結構相比減少了25%.

        2.2 LSTM神經網絡門結構參數(shù)精簡方法

        雖然耦合輸入門及遺忘門簡化了標準LSTM神經網絡的結構,然而在每次訓練過程中均需對輸入權重矩陣Wz、Wi、Wo進行更新,由此導致計算量較大,訓練時間較長. 針對該問題,本文通過簡化門結構方程的參數(shù)進一步對LSTM神經網絡結構進行精簡,在不損失精度的前提下縮短網絡的訓練時間.

        本文主要通過2種方法精簡門結構方程,包括:1) 去除輸入權重矩陣Wi、Wo;2) 去除輸入權重矩陣Wi、Wo與偏置矩陣bi、bo. 本文將經過以上2種形式簡化后的LSTM神經網絡分別簡稱為LSTM- 簡化型Ⅰ神經網絡和LSTM- 簡化型Ⅱ神經網絡,以下分別對這2種簡化型LSTM神經網絡進行介紹.

        1) LSTM- 簡化型Ⅰ神經網絡

        該簡化方法通過去除輸入門與輸出門中的輸入權重矩陣Wi、Wo進一步簡化LSTM神經網絡,由

        (7)

        構成.

        由此可見,與標準LSTM神經網絡的門結構控制信號不同之處為:該網絡門結構控制信號由t-1時刻輸出信號ht-1、遞歸權重矩陣及偏置矩陣2項組成,在每次迭代過程中該網絡需要更新的參數(shù)個數(shù)為3(mn+n2+n-2mn),降低了計算復雜度.

        2) LSTM- 簡化型Ⅱ神經網絡

        該簡化方法在去除輸入門與輸出門中輸入權重矩陣Wi、Wo的同時,將偏置矩陣bi、bo去除,由

        (8)

        構成.

        由此可見,與標準LSTM神經網絡的門結構控制信號不同之處為:該網絡門結構控制信號僅由t-1時刻輸出信號ht-1、遞歸權重矩陣1項組成,在每次迭代過程中該模型需要更新的參數(shù)個數(shù)為3(mn+n2+n-2mn-2n),進一步降低了LSTM神經網絡的計算復雜度.

        2.3 簡化型LSTM神經網絡學習算法

        本文采用梯度下降算法[23-24]對提出的簡化型LSTM神經網絡的參數(shù)進行學習,定義損失函數(shù)計算公式為

        (9)

        式中:hd,t為網絡在t時刻的期望輸出;ht為網絡在t時刻的實際輸出.

        下面以LSTM- 簡化型Ⅰ神經網絡為例,介紹參數(shù)更新過程.

        步驟1根據(jù)

        δht=δzt+1Uz+δit+1Ui+δot+1Uo

        (10)

        δzt=δht⊙ot⊙g′(ct)⊙it⊙z′t

        (11)

        δit=δht⊙ot⊙g′(ct)⊙zt⊙i′t

        (12)

        δot=δht⊙g(ct)⊙o′t

        (13)

        計算t時刻輸出值ht及輸入信號zt、it、ot的誤差項. 其中, 導數(shù)形式展開公式為

        g′(ct)=1-g(ct)2

        (14)

        z′t=zt(1-zt)

        (15)

        i′t=it(1-it)

        (16)

        o′t=ot(1-ot)

        (17)

        步驟2計算t時刻輸入權重矩陣、遞歸權重矩陣、偏置矩陣的更新值公式為

        δWz,t=δzt?xt

        (18)

        δUΩ,t=δΩt?ht-1

        (19)

        δbΩ,t=δΩt

        (20)

        式中:?為矩陣叉乘操作;Ω分別為{z,i,o}中的任意一個.

        步驟3根據(jù)

        Wz,t=Wz,t+1-η×δWz,t

        (21)

        UΩ,t=UΩ,t+1-η×δUΩ,t

        (22)

        bΩ,t=bΩ,t+1-η×δbΩ,t

        (23)

        計算t時刻更新后的輸入權重矩陣、遞歸權重矩陣、偏置矩陣. 式中η為學習率.

        步驟4計算訓練樣本的均方根誤差(root mean squared error, RMSE),如果訓練樣本的RMSE達到期望訓練樣本的RMSE或達到最大迭代次數(shù),則參數(shù)更新結束,否則返回步驟1.

        對于LSTM- 簡化型Ⅱ神經網絡,由于其門結構方程在LSTM- 簡化型Ⅰ神經網絡的基礎上進一步去除了偏置矩陣,其權重矩陣更新與LSTM- 簡化型Ⅰ神經網絡相同,如式(21)(22)所示.

        3 實驗結果和分析

        為了驗證所提出的簡化型LSTM神經網絡在時間序列預測上的有效性,本文采用RMSE評價模型的預測準確性[25-27],公式為

        (24)

        式中N為樣本個數(shù). 將其與標準LSTM神經網絡、只進行門結構簡化的LSTM神經網絡(簡稱LSTM- 變體Ⅰ)、僅去除輸入權重矩陣的LSTM神經網絡(簡稱LSTM- 變體Ⅱ)、僅去除輸入權重矩陣與偏置矩陣的LSTM神經網絡(簡稱LSTM- 變體Ⅲ)等多種LSTM模型的性能進行比較,在參數(shù)設置(包括LSTM模型狀態(tài)單元維度、學習率、期望訓練樣本的RMSE、迭代次數(shù))相同的情況下分別計算訓練和測試RMSE、訓練時間及所需更新參數(shù)個數(shù)等,所有實驗獨立運行20次并求取均值.

        3.1 時間序列基準數(shù)據(jù)集

        在本節(jié)中采用2個時間序列基準數(shù)據(jù)集(Lorenz時間序列、Mackey-Glass時間序列)評估簡化型LSTM神經網絡的性能.

        3.1.1 Lorenz時間序列預測

        Lorenz系統(tǒng)是一種大氣對流數(shù)學模型[28],它被廣泛地用作時間序列預測的基準實驗以評價模型的有效性. 其系統(tǒng)方程為

        (25)

        式中:x(t)、y(t)、z(t)為三維空間Lorenz系統(tǒng)的序列;a1、a2、a3為系統(tǒng)參數(shù),a1=10,a2=28,a3=8/3.

        圖3 LSTM- 簡化型Ⅰ對Lorenz時間序列預測的訓練過程及測試效果Fig.3 Training process and testing results for the simplified LSTM Ⅰ in Lorenz time series

        在本實驗中,生成5 000組Lorenz樣本,僅使用y維樣本y(t)進行時間序列預測. 前2 000組作為訓練樣本,后3 000組作為測試樣本. 以[y(t)y(t-1)y(t-2)]為輸入向量,預測y(t+1)的值. 設定狀態(tài)單元維度為8,學習率η為0.01,期望訓練樣本的RMSE為0.060 0,最大迭代次數(shù)為1 000次. 當訓練樣本的RMSE達到期望訓練樣本的RMSE或最大迭代次數(shù)時,停止參數(shù)更新.

        LSTM- 簡化型Ⅰ、Ⅱ的訓練過程RMSE曲線分別如圖3、4中的(a)所示. 從圖中可以看出,本文提出的簡化型LSTM神經網絡的訓練RMSE可以快速收斂. 其測試結果如圖3、4中的(b)(c)所示,可以看出其均可以達到較好的擬合效果.

        表1對比了不同模型的性能,可以看出,(LSTM- 變體Ⅰ)或(LSTM- 變體Ⅱ、Ⅲ)均可以減少更新參數(shù)個數(shù)并縮短訓練時間,但LSTM- 變體Ⅰ、Ⅱ的訓練時間短于LSTM- 變體Ⅲ,同時LSTM- 簡化型Ⅰ在需要更新的參數(shù)個數(shù)比LSTM- 變體Ⅲ較多的情況下訓練時間顯著縮短,均說明門結構精簡相對于簡化門結構方程對簡化LSTM神經網絡的效果更顯著. 通過實驗結果分析可以得出,本文提出的LSTM- 簡化型Ⅰ、Ⅱ神經網絡能夠在不顯著降低預測精度的情況下,進一步縮短訓練時間,減少LSTM神經網絡的計算復雜度,減少預測時間,更易對時間序列信息預測.

        3.1.2 Mackey-Glass時間序列預測

        Mackey-Glass時間序列預測問題已被公認為評估網絡性能的基準問題之一[29]. 時間序列預測由離散方程

        (26)

        產生. 式中:a=0.1,b=0.2,τ=17,x(0)=1.2.

        在本實驗中,選取樣本1 000組,其中前500組作為訓練樣本,后500組作為測試樣本. 以[x(t)x(t-6)x(t-12)x(t-18)]為輸入向量,預測

        圖4 LSTM- 簡化型Ⅱ對Lorenz時間序列預測的訓練過程及測試效果Fig.4 Training process and testing results for the simplified LSTM Ⅱ in Lorenz time series

        表1 Lorenz時間序列預測模型性能對比

        圖5 LSTM- 簡化型Ⅰ對Mackey-Glass時間序列預測的訓練過程及測試效果Fig.5 Training process and testing results for the simplified LSTMⅠ in Mackey-Glass time series

        x(t+6)的值. 設定狀態(tài)單元維度為10,學習率η為0.01,期望訓練RMSE為0.006 0,最大迭代次數(shù)為700次. 當訓練樣本的RMSE達到期望訓練樣本的RMSE或最大迭代次數(shù)時,停止參數(shù)更新.

        LSTM- 簡化型Ⅰ、Ⅱ的訓練過程分別如圖5、6中的(a)所示. 從圖中可以看出,訓練RMSE可以達到期望訓練RMSE. 測試結果、測試誤差分別如圖5、6中的(b)(c)所示,從圖中可以看出,本文提出的簡化型LSTM神經網絡的測試結果可以達到較好的擬合效果.

        從表2對不同模型進行比較的結果可以看出,3種LSTM變體(LSTM- 變體Ⅰ、Ⅱ、Ⅲ)通過對門結構精簡或簡化門結構方程的方式,均縮短了訓練時間,并且LSTM- 變體Ⅰ在需要更新的參數(shù)個數(shù)比LSTM- 變體Ⅱ、Ⅲ較多的情況下訓練時間縮短,同時LSTM- 簡化型Ⅰ、LSTM- 變體Ⅲ均可以減少更新參數(shù)個數(shù)并縮短訓練時間,但前者的訓練時間短于后者,說明門結構精簡相對于簡化門結構方程對簡化LSTM神經網絡的效果更顯著. 通過實驗結果分析,可以得出,本文提出的LSTM- 簡化型Ⅰ、Ⅱ神經網絡在不顯著降低預測精度的情況下進一步縮短訓練時間,在時間序列預測過程中達到對時間序列信息簡潔、快速預測的目的.

        圖6 LSTM- 簡化型Ⅱ對Mackey-Glass時間序列預測的訓練過程及測試效果Fig.6 Training process and testing results for the simplified LSTMⅡ in Mackey-Glass time series

        表2 Mackey-Glass時間序列預測模型性能對比

        3.2 污水處理中BOD預測

        圖7 LSTM- 簡化型Ⅰ對BOD質量濃度預測的訓練過程及測試效果Fig.7 Training process and testing results for the simplified LSTMⅠ in BOD mass concentration prediction

        BOD是污水處理中評價水質的重要指標之一,具有高度的非線性、大時變的特征,很難及時準確地預測其質量濃度[30]. 本文利用LSTM- 簡化型Ⅰ、Ⅱ神經網絡對污水處理過程中的BOD進行建模,選取前8時刻的BOD質量濃度作為輸入向量,下一時刻的BOD質量濃度作為輸出變量.

        選取北京市某污水廠的數(shù)據(jù)進行仿真,獲得357組按照時間順序進行排列的樣本,選取前250組作為訓練樣本,后107組作為測試樣本,將所有樣本歸一化至[-1,1]輸入模型,并將樣本反歸一化后輸出. 設定狀態(tài)單元維度為15,學習率η為0.01,期望訓練樣本的RMSE為0.060 0,最大迭代次數(shù)為2 000次. 當訓練樣本的RMSE達到期望訓練樣本的RMSE或最大迭代次數(shù)時,停止參數(shù)更新.

        LSTM- 簡化型Ⅰ、Ⅱ的訓練過程分別如圖7、8中的(a)所示. 從圖中可以看出,訓練樣本的RMSE能夠達到期望訓練樣本的RMSE. 其測試結果反歸一化后輸出并計算測試誤差,分別如圖7、8中的(b)(c)所示. 從圖中可以看出,簡化型LSTM神經網絡的測試結果均可以達到較好的擬合效果.

        圖8 LSTM- 簡化型Ⅱ對BOD質量濃度預測的訓練過程及測試效果Fig.8 Training process and testing results for the simplified LSTMⅡ in BOD mass concentration prediction

        從表3的對比結果可以看出,在達到期望訓練樣本的RMSE、停止參數(shù)更新的情況下,LSTM- 變體Ⅰ比LSTM- 變體Ⅱ、Ⅲ需要更新較多的參數(shù)個數(shù)但需要較短的訓練時間,同時LSTM- 簡化型Ⅰ在需要更新的參數(shù)個數(shù)與LSTM- 變體Ⅲ相同的情況下訓練時間顯著縮短,均說明門結構精簡對簡化LSTM神經網絡的效果更顯著. 通過實驗結果分析可以得出,本文提出的LSTM- 簡化型Ⅰ、Ⅱ神經網絡能夠在精度相當?shù)那闆r下進一步縮短訓練時間,對BOD質量濃度快速預測.

        表3 BOD質量濃度預測模型性能對比

        4 結論

        1) 簡化型LSTM神經網絡能夠在不顯著降低模型精度的情況下減少計算復雜度,縮短訓練時間.

        2) 基于簡化型LSTM神經網絡的時間序列預測方法能夠實現(xiàn)時間序列的高效預測.

        猜你喜歡
        結構
        DNA結構的發(fā)現(xiàn)
        《形而上學》△卷的結構和位置
        哲學評論(2021年2期)2021-08-22 01:53:34
        論結構
        中華詩詞(2019年7期)2019-11-25 01:43:04
        新型平衡塊結構的應用
        模具制造(2019年3期)2019-06-06 02:10:54
        循環(huán)結構謹防“死循環(huán)”
        論《日出》的結構
        縱向結構
        縱向結構
        我國社會結構的重建
        人間(2015年21期)2015-03-11 15:23:21
        創(chuàng)新治理結構促進中小企業(yè)持續(xù)成長
        久久中文字幕暴力一区| 国产99页| 国产高清丝袜美腿视频在线观看| 国产成人精品一区二区三区av| 国产精品无码素人福利不卡| 久久综合久久鬼色| 精品少妇爆乳无码aⅴ区| 日韩亚洲国产中文字幕| 久久精品国产成人午夜福利| 国产乱子伦农村叉叉叉| 国产乱人伦AV在线麻豆A| 国产成人自拍视频视频| 级毛片内射视频| www国产无套内射com| 欧美性爱一区二区三区无a| 精品国产三区在线观看| 777精品出轨人妻国产| 亚洲精品国产v片在线观看| 无码AV无码免费一区二区| 国产精品毛片极品久久| 日韩aⅴ人妻无码一区二区| 国产主播福利一区二区| 免费啪啪av人妻一区二区| 日本精品女优一区二区三区| 中国内射xxxx6981少妇| 精品国产一区二区三区亚洲人| 欧美成人三级一区二区在线观看| 亚洲蜜芽在线精品一区| 久久日本视频在线观看| 日本阿v片在线播放免费| av无码精品一区二区三区四区| 国产高潮流白浆免费观看不卡| 久久综合亚洲鲁鲁五月天| 成人试看120秒体验区| 18无码粉嫩小泬无套在线观看| 最新国产女主播福利在线观看| 东京热东京道日韩av| 色又黄又爽18禁免费网站现观看 | 亚洲综合视频一区二区| 午夜裸体性播放| 国产一区二区波多野结衣|