亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于殘差連接長短期記憶網(wǎng)絡的時間序列修復模型

        2021-01-21 03:23:36鄭楷洪陳子鵬葉純壯馬千里
        計算機應用 2021年1期
        關(guān)鍵詞:殘差建模變量

        錢 斌 ,鄭楷洪,陳子鵬,肖 勇,李 森,葉純壯,馬千里*

        (1.南方電網(wǎng)科學研究院有限責任公司,廣州 510663;2.華南理工大學計算機科學與工程學院,廣州 510006)

        0 引言

        時間序列在諸多領(lǐng)域都有著豐富的應用[1-3]。然而由于存在噪聲或傳感器故障等原因,現(xiàn)實時間序列不可避免地含有缺失值,這使得現(xiàn)有分析算法的推斷變得尤為困難[4-5]。因此,如何有效地對缺失數(shù)據(jù)進行修復具有重要的現(xiàn)實意義。

        傳統(tǒng)的時間序列缺失修復方法有均值替代、移動平均法、空間自回歸、多項式插補、線性插值等[6-8],但是,傳統(tǒng)的統(tǒng)計方法無法有效提煉缺失數(shù)據(jù)背后蘊藏的事件信息,這會對缺失修復效果造成一定影響。針對傳統(tǒng)缺失修復方法的不足,文獻[9]提出了基于T2橢圓圖的異常數(shù)據(jù)識別和基于最小二乘支持向量機的缺失修復方法,但該方法以社會經(jīng)濟指標可信為前提條件,無法從時間序列自身挖掘規(guī)律。文獻[10]提出了一種基于遺傳優(yōu)化算法的時間序列缺失修復方法,該方法考慮時間序列的歷史信息,借助遺傳算法優(yōu)化多重插補的參數(shù),尋找最優(yōu)的修復值;但該方法將時間序列視為線性序列,未考慮時間序列中的非線性,修復效果不佳。

        由于神經(jīng)網(wǎng)絡可以較好地建模數(shù)據(jù)中的非線性特性,可以將其應用于時間序列的缺失修復。文獻[11]提出了自適應BP 神經(jīng)網(wǎng)絡來修復缺失的時間序列,但該方法未對時間序列中的時序依賴關(guān)系進行有效的建模。因此,文獻[12-13]提出了基于長短期記憶(Long Short-Term Memory,LSTM)網(wǎng)絡[14]的缺失修復方法,可以有效建模時間序列的時序依賴信息;但這些方法需要對數(shù)據(jù)進行預處理,無法在含缺失值的情況下進行模型訓練,而且,不恰當?shù)念A處理方法會引入較大偏差,從而誤導模型的訓練過程,影響后續(xù)的缺失修復效果。

        針對以上問題,本文提出了基于殘差連接LSTM 網(wǎng)絡的時間序列修復模型,使用長短期記憶網(wǎng)絡對時間序列中的時序依賴關(guān)系以及非線性特性進行建模;并且,在長短期記憶網(wǎng)絡的基礎上,引入殘差連接[15-16],挖掘缺失數(shù)據(jù)和它們最近的非缺失數(shù)據(jù)的潛在關(guān)聯(lián)性,引入殘差連接的具體做法是構(gòu)建一種殘差和單元(Residual Sum Unit,RSU),可以有效聚合歷史信息。本文同時考慮了單變量輸入和多變量輸入的情況,并且,本文的方法無需對缺失數(shù)據(jù)進行預填補,可以直接在含缺失值的情況下進行模型訓練。實驗證明,與現(xiàn)有最先進的方法相比,基于殘差連接LSTM 網(wǎng)絡的時間序列修復模型可以取得較好的缺失修復效果。本文的主要貢獻如下:

        1)本文提出了基于殘差連接LSTM 網(wǎng)絡的時間序列修復模型,使用長短期記憶網(wǎng)絡對時間序列中的時序依賴和非線性特性進行建模,同時構(gòu)建殘差和單元聚合歷史信息,進一步提升缺失修復效果。

        2)通過在單變量和多變量數(shù)據(jù)集上定量和定性的實驗分析,本文提出的模型均取得比現(xiàn)有較先進方法更好的缺失值修復效果。此外,本文模型無需進行數(shù)據(jù)預填補,可以直接在含缺失值的情況下進行訓練。

        1 長短期記憶網(wǎng)絡

        長短期記憶網(wǎng)絡是循環(huán)神經(jīng)網(wǎng)絡的一種變體,能建模時序數(shù)據(jù)的時間依賴和非線性特性,是當下對時序數(shù)據(jù)建模的首選模型。長短期記憶網(wǎng)絡由記憶單元組成,通過輸入、輸出和遺忘門來決定流入流出記憶單元的信息多少。長短期記憶網(wǎng)絡記憶單元的結(jié)構(gòu)如圖1所示。

        圖1 中:xt是時間步t的輸入數(shù)據(jù),ht是時間步t長短期記憶網(wǎng)絡的隱藏狀態(tài),it、ft、ot分別是長短期記憶網(wǎng)絡的輸入門、遺忘門和輸出門,gt是當前加入的信息,ct是記憶單元的信息,σ表示sigmoid 激活函數(shù),?是逐元素的乘法,⊕是逐元素的加法。

        圖1 長短期記憶網(wǎng)絡記憶單元結(jié)構(gòu)Fig.1 Structure of memory unit of LSTM network

        給定長度為T的輸入序列x={x1,x2,…,xT},長短期記憶網(wǎng)絡可以將其編碼為一個隱藏狀態(tài)序列h={h1,h2,…,hT},其中,xt∈Rn,ht∈Rm,t=1,2,…,T。在時間步t,長短期記憶網(wǎng)絡的計算公式如下:

        其中:Wi、Wf、Wo、Wc是由可訓練參數(shù)組成的映射矩陣;bi、bf、bo、bc是偏置項。簡便起見,可以將一個長短期記憶網(wǎng)絡記為函數(shù)FLSTM,在長短期記憶網(wǎng)絡的前向傳播過程中,隱藏狀態(tài)的更新公式為:

        2 殘差連接LSTM網(wǎng)絡

        2.1 模型構(gòu)建

        本文中使用長短期記憶網(wǎng)絡來建模時間序列中的時序依賴和非線性特性,結(jié)合殘差連接進一步挖掘缺失數(shù)據(jù)與最近非缺失數(shù)據(jù)的潛在關(guān)聯(lián),提高網(wǎng)絡修復能力?;跉埐钸B接LSTM(ReSidual Imputation Long-Short Term Memory,RSILSTM)網(wǎng)絡的時間序列修復模型如圖2所示。

        圖2 RSI-LSTM模型結(jié)構(gòu)Fig.2 Structure of RSI-LSTM model

        首先,模型輸入是含缺失值的時間序列x={x1,x2,…,xT},其中,xt∈Rn(t=1,2,…,T)。接著,使用長短期記憶網(wǎng)絡,將輸入序列編碼為一個隱藏狀態(tài)序列h={h1,h2,…,hT},其中,ht∈Rm(t=1,2,…,T)。特別的,在時間步t,長短期記憶網(wǎng)絡可以將輸入xt,編碼為一個隱藏狀態(tài)ht。

        在長短期記憶網(wǎng)絡的基礎上,引入殘差連接的具體做法是構(gòu)建一種殘差和單元,用來聚合長短期記憶網(wǎng)絡的隱藏狀態(tài)和之前時刻的殘差信息,有利于挖掘缺失數(shù)據(jù)和它們最近的非缺失數(shù)據(jù)的潛在關(guān)聯(lián)性,提高網(wǎng)絡修復能力。在時間步t,殘差和rt的計算公式為:

        其中:rt∈Rm,ht是時間步t長短期記憶網(wǎng)絡的隱藏狀態(tài),Wr∈Rm×m是由可訓練參數(shù)組成的映射矩陣,Wrrt-1代表了之前時刻的殘差信息。

        2.2 模型訓練

        模型訓練的前向傳播分為兩種情況:近似過程和修復過程。如圖2 所示,虛線表示近似過程,實線表示修復過程。如果下一個時刻輸入值xt已知,則使用殘差和rt-1乘以一個映射矩陣Wout得到y(tǒng)t-1,用來近似下一時刻的輸入值xt,目的是利用序列中未缺失的值來指導網(wǎng)絡進行有效學習;如果下一個輸入值xt是缺失值,則用yt-1修復xt。計算公式為:

        其中,Wout∈Rn×m是由可訓練參數(shù)組成的映射矩陣,可以把殘差和rt-1映射到維度n,用于近似或修復當前時刻的輸入值xt。根據(jù)當前的輸入是否為缺失值,可以用一個統(tǒng)一的形式ut來表示當前的輸入值:

        其中:?是逐元素的乘法,⊕是逐元素的加法,I{xt}是逐元素的指示函數(shù),指示向量xt每個維度是否缺失。因此,如果xt已知,則作為網(wǎng)絡的輸入值;如果xt是缺失值,則使用yt-1修復xt,作為當前時刻網(wǎng)絡的輸入值。在長短期記憶網(wǎng)絡的前向傳播過程中,可以將隱藏狀態(tài)的更新公式重寫為:

        并且,在網(wǎng)絡訓練的反向傳播過程中,如果當前時刻的目標值缺失,則該時刻的損失不可定義。因此,時刻t損失函數(shù)的計算方式如下:

        其中,I{xt}是逐元素的指示函數(shù),指示向量xt每個維度是否缺失。如果定義上標k表示樣本集合的第k個樣本k=1,2,…,N,總的訓練損失函數(shù)為:

        其中:Lreg(||ω||)是對模型所有參數(shù)ω的二范數(shù)正則項;λ是常量,用來調(diào)節(jié)兩個損失函數(shù)的權(quán)重,在實驗中設為1E -4。

        2.3 算法流程

        1)對原始含缺失值的時間序列進行歸一化處理,將數(shù)據(jù)映射到[0,1]區(qū)間之內(nèi),得到含缺失值的時間序列x={x1,x2,…,xT},并按照7∶3的比例將樣本集劃分為訓練集和測試集。

        2)將時間序列x逐時刻輸入LSTM,在時間步t-1,LSTM將輸入xt-1編碼為隱藏狀態(tài)ht-1。

        3)在時間步t-1,根據(jù)LSTM 的隱藏狀態(tài)ht-1和前一時刻的殘差和rt-2,計算殘差和rt-1。

        4)如果下一個時刻輸入值xt已知,則使用殘差和rt-1乘以一個映射矩陣Wout得到y(tǒng)t-1,用來近似下一時刻的輸入值xt;如果下一個輸入值xt是缺失值,則用yt-1修復xt。

        5)使用隨時間反向傳播(BackPropagation Through Time,BPTT)算法[17]更新網(wǎng)絡參數(shù);并且,如果當前時刻的目標值缺失,則該時刻的損失不可定義,不計算該時刻的損失。

        6)網(wǎng)絡迭代直到收斂,最后,如果輸入值xt是缺失值,則可以使用上一時刻的預測值yt-1作為xt的修復值,將整條時間序列的缺失值修復完畢,即可得到完整的時間序列。

        3 實證分析

        3.1 數(shù)據(jù)來源

        本文采用2016年1月1日到2018年6月30日南方某省的區(qū)域日供電量數(shù)據(jù),供電量數(shù)據(jù)計量單位為天,因此每個區(qū)域有912 個時間點。隨機抽取10 個區(qū)域的序列數(shù)據(jù)作為樣本集,作為模型在單變量情況下的輸入。

        考慮到氣象因素對電力數(shù)據(jù)的影響,本文還采用了2012年1 月1 日到2014 年12 月31 日兩個地區(qū)的電力負荷數(shù)據(jù)。數(shù)據(jù)集來源于第九屆電工數(shù)學建模競賽A 題,除了地區(qū)電力負荷數(shù)據(jù),該數(shù)據(jù)集還提供每日的最高溫度、最低溫度、平均溫度、相對濕度和降雨量5 個氣象因素數(shù)據(jù)。本文分別抽取每日的6:00、12:00 和18:00 作為原始數(shù)據(jù),因此總的樣本集有6個,分別記為Electric1~Electric6,每個樣本集中包含1 096個時間點,每個時間點的數(shù)據(jù)為一個6 維的向量,包含電力負荷數(shù)據(jù)以及5 個氣象因素數(shù)據(jù),作為模型在多變量情況下的輸入。

        同時,本文還使用了兩個通用的時間序列數(shù)據(jù)集Libras和Character Trajectories,數(shù)據(jù)來源于UCI 庫[18],以進一步地進行多變量情況下的模型效果驗證。

        對于每一個數(shù)據(jù)集的時間序列,本文取前70%的序列作為訓練集,后30%作為測試集。接著,為了處理輸入不同量綱的問題,需要對原始的序列s={s1,s2,…,sT}進行歸一化:

        其中:xt∈Rn,st∈Rn(t=1,2,…,T),smax和smin分別表示時間序列的最大值和最小值。并且,對于現(xiàn)實缺失數(shù)據(jù),無法獲得對應的真實值來進行算法的性能評估。因此,在完整的時間序列的基礎上,以一定的缺失率構(gòu)造含有缺失值的數(shù)據(jù)。將缺失率設置為10%,讓完整的序列數(shù)據(jù)按10%的概率隨機缺失,構(gòu)造出含有缺失值的時間序列,作為模型的輸入;同時,缺失值對應的真實值將被用于評估修復算法的性能。

        3.2 算例設置

        本文同時考慮了單變量輸入和多變量輸入兩種情況。在單變量的情況中,使用南方某省的區(qū)域日供電量序列作為模型輸入。在多變量的情況中,使用了兩個地區(qū)的電力負荷數(shù)據(jù),結(jié)合氣象數(shù)據(jù)作為模型的多變量輸入;同時,本文還使用了兩個通用的時間序列數(shù)據(jù)集(http://archive.ics.uci.edu/ml)來輔助進行多變量情況下的模型效果驗證。本文采用均方誤差(Mean Squared Error,MSE)作為評價指標:

        其中:n代表序列中缺失值的數(shù)量分別代表第i個缺失值對應的真實值和修復值。

        對于區(qū)域日供電量數(shù)據(jù)集,模型的輸入是單變量的,因而將所提出模型(RSI-LSTM)與常用的單變量缺失修復方法進行對比,對比方法包括卡爾曼(Kalman)濾波[19]、線性插值(Interpolation)[20]、移動平均(Moving Average,MA)[21]和基線模型長短期記憶(LSTM)網(wǎng)絡。同時,也將所提出模型與兩種先進的缺失修復方法進行對比,分別是生成對抗填補網(wǎng)絡(Generative Adversarial Imputation Net,GAIN)[22]和雙向循環(huán)填補(Bidirectional Recurrent Imputation for Time Series,BRITS)[23]。表1是上述方法的數(shù)據(jù)缺失修復結(jié)果。

        從表1 中可以看出,RSI-LSTM 的修復性能優(yōu)于GAIN、BRITS[23]、Kalman濾波[19]、Interpolation[20]和MA[21],表現(xiàn)為均方誤差的總體降低,這說明了RSI-LSTM可以更好地建模時間序列的信息,修復缺失的時間序列。同時,RSI-LSTM 相比基線模型LSTM,修復誤差有一定的降低,進一步證明了引入殘差連接的有效性,因為引入殘差連接有利于挖掘缺失數(shù)據(jù)和它們最近的非缺失數(shù)據(jù)的潛在關(guān)聯(lián)性,提高網(wǎng)絡的缺失修復能力。

        表1 單變量數(shù)據(jù)集上修復誤差(MSE)對比Tab.1 Comparison of imputation error(MSE)on univariate time series datasets

        對于地區(qū)電力負荷數(shù)據(jù)集以及兩個時間序列數(shù)據(jù)集,輸入是多變量的。因此,本文將RSI-LSTM 與4 種近年來最先進的修復方法GAIN[22]、BRITS[23]、基于傅里葉的延遲k最近鄰算法(Fourier-based Laggedk-Nearest Neighbor,F(xiàn)Lk-NN)[24]以及動態(tài)缺失值的挖掘(Dynamics mining with missing values,DynaMMo)算法[25]進行了對比實驗,這些方法描述如下。

        1)GAIN。使用生成對抗網(wǎng)絡來進行缺失修復,并提出一種提示向量來輔助模型訓練,但訓練數(shù)據(jù)較少時訓練困難。

        2)BRITS。該方法使用雙向循環(huán)神經(jīng)網(wǎng)絡來進行時間序列的缺失值修復,但在連續(xù)缺失的情況下效果較差。

        3)FLk-NN。結(jié)合滯后的k最近鄰方法和傅立葉變換的集成方法,該方法較為復雜,需要大量的人工選擇的超參數(shù)。

        4)DynaMMo。該方法基于期望最大化方法和卡爾曼濾波。它在存在缺失值的情況下學習線性動力學系統(tǒng),并對缺失值進行估計。該方法假設時間序列具有潛在的線性動力學特性,然而時間序列更多地表現(xiàn)為非線性。

        表2 是上述模型的修復結(jié)果??梢钥闯觯琑SI-LSTM 的修復性能明顯優(yōu)于GAIN、BRITS、FLk-NN 以及DynaMMo,修復效果相比這幾種方法有較大的提升。通過與這4 種近年來最先進的方法作對比,RSI-LSTM 可以取得當前最好的結(jié)果;同時,相比基線模型LSTM,RSI-LSTM 的修復效果也有一定的提升,驗證了所提出模型的有效性。

        表2 多變量數(shù)據(jù)上修復誤差(MSE)對比Tab.2 Comparison of imputation error(MSE)on multivariate time series datasets

        更進一步地,本文隨機抽取其中1 個區(qū)域的電力負荷數(shù)據(jù)序列,使用上述各種多變量缺失修復方法對其進行修復,并計算數(shù)據(jù)序列中缺失時間點的修復值和真實值的絕對誤差,絕對誤差在0 附近波動,偏離0 越遠,說明誤差越大。結(jié)果如圖3所示。由圖3可以看出,對于電力負荷數(shù)據(jù)序列絕大多數(shù)的缺失時間點,RSI-LSTM 相比其他方法,可以取得更好的修復效果。具體地,本文模型的誤差曲線相較其他對比方法更為平滑,在0附近波動較小。

        為了能更直觀地展示缺失值修復效果,隨機抽取1 個區(qū)域的日供電量序列,畫出上述各種單變量缺失修復方法的修復結(jié)果(由于Interpolation 效果較差,在此不做可視化)。如圖4 所示,對于絕大多數(shù)的缺失時間點,RSI-LSTM 相比其他方法,可以取得較好的修復效果,修復值大多和原始的時間序列重合;而相比基線模型LSTM,RSI-LSTM 在峰值處可以取得較好的效果。因為殘差和單元可以更好地挖掘缺失數(shù)據(jù)和它們最近的非缺失數(shù)據(jù)的潛在關(guān)聯(lián)性,提高網(wǎng)絡的修復能力。

        圖3 不同模型的絕對誤差對比Fig.3 Absolute error comparison of different models

        圖4 不同模型的修復結(jié)果對比Fig.4 Imputation results comparison of different models

        4 結(jié)語

        1)RSI-LSTM 使用長短期記憶網(wǎng)絡對時間序列中的時間依賴和非線性特性進行建模,并且引入殘差連接,挖掘缺失數(shù)據(jù)和它們最近的非缺失數(shù)據(jù)的潛在關(guān)聯(lián)性;同時,該模型可以直接在含缺失值的情況下進行模型訓練。

        2)本文同時考慮了單變量輸入和多變量輸入兩種情況,實驗結(jié)果證明了該模型對時間序列缺失修復的有效性。

        3)目前RSI-LSTM 只是應用于時間序列的缺失值修復上,以后的研究工作中,將考慮將該模型擴展到含缺失數(shù)據(jù)的時間序列預測或分類等問題。

        猜你喜歡
        殘差建模變量
        基于雙向GRU與殘差擬合的車輛跟馳建模
        抓住不變量解題
        聯(lián)想等效,拓展建?!浴皫щ娦∏蛟诘刃鲋凶鰣A周運動”為例
        基于殘差學習的自適應無人機目標跟蹤算法
        也談分離變量
        基于遞歸殘差網(wǎng)絡的圖像超分辨率重建
        自動化學報(2019年6期)2019-07-23 01:18:32
        基于PSS/E的風電場建模與動態(tài)分析
        電子制作(2018年17期)2018-09-28 01:56:44
        不對稱半橋變換器的建模與仿真
        SL(3,3n)和SU(3,3n)的第一Cartan不變量
        平穩(wěn)自相關(guān)過程的殘差累積和控制圖
        河南科技(2015年8期)2015-03-11 16:23:52
        国产高潮视频在线观看| 风间由美中文字幕在线| 日本二区在线视频观看| 久久久亚洲精品蜜臀av| 中文字幕精品人妻丝袜| 亚洲av丰满熟妇在线播放| 怡红院a∨人人爰人人爽| 中文字幕无码专区一VA亚洲V专 | 精品午夜一区二区三区| 亚洲成人精品久久久国产精品| 一二三四区中文字幕在线| 无码不卡av东京热毛片| 亚洲制服无码一区二区三区| 亚洲综合有码中文字幕| 欧美日本精品一区二区三区| 伊人色综合视频一区二区三区 | 在线观看免费人成视频| 午夜a福利| 九九久久精品一区二区三区av | 麻豆果冻传媒在线观看| 国模无码视频专区一区| 中文字幕一区二区三区6| 精品露脸国产偷人在视频| 国产suv精品一区二区| 欧美成人a视频免费专区| 亚洲av产在线精品亚洲第三站| 又粗又黄又猛又爽大片免费| 国产精品美女| 国产一区亚洲一区二区| 国产精品日日做人人爱| 色视频www在线播放国产人成| 亚洲无线码一区在线观看 | 无码av天天av天天爽| 日日躁夜夜躁狠狠久久av | 在线观看国产自拍视频| 国内精品久久久久久99| 97久久久久人妻精品专区| 久久亚洲精品一区二区| 老鲁夜夜老鲁| 日本无遮挡吸乳呻吟视频| 亚洲精品白浆高清久久|