亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于改進(jìn)RNN的多變量時(shí)間序列缺失數(shù)據(jù)填充算法*

        2019-11-12 09:37:04孫曉麗宋曉祥
        關(guān)鍵詞:時(shí)刻變量狀態(tài)

        孫曉麗,郭 艷,李 寧,宋曉祥

        (中國(guó)人民解放軍陸軍工程大學(xué) 通信工程學(xué)院,江蘇 南京 210007)

        0 引言

        多元時(shí)間序列數(shù)據(jù)在醫(yī)療保健[1]、神經(jīng)科學(xué)[2]、語(yǔ)音識(shí)別[3]、金融營(yíng)銷[4-5]、氣象[6-7]、交通工程[8-9]等諸多應(yīng)用領(lǐng)域都有豐富的應(yīng)用。然而由于多種原因,如醫(yī)療事故、節(jié)約成本、異?,F(xiàn)象以及設(shè)備故障等,這些多變量時(shí)間序列不可避免地會(huì)存在部分缺失數(shù)據(jù)。缺失數(shù)據(jù)的存在會(huì)影響數(shù)據(jù)分析的精度、正確的模型建立,甚至?xí)?lái)災(zāi)難性的后果。因此,如何對(duì)缺失數(shù)據(jù)進(jìn)行準(zhǔn)確地填充已經(jīng)成為大數(shù)據(jù)研究領(lǐng)域的一個(gè)熱點(diǎn)。

        缺失數(shù)據(jù)的填充是數(shù)據(jù)得以進(jìn)一步開(kāi)發(fā)利用的關(guān)鍵。目前,專家學(xué)者在各個(gè)領(lǐng)域進(jìn)行了大量的研究工作,提出了許多有效的缺失數(shù)據(jù)填充算法[10]。處理時(shí)間序列數(shù)據(jù)中隨機(jī)信息缺失的標(biāo)準(zhǔn)方法有插值法[11-12]和填充法[13-15]。其中,插值法試圖通過(guò)利用單個(gè)序列中的時(shí)間關(guān)系來(lái)重建缺失數(shù)據(jù)。填充法則試圖通過(guò)利用多個(gè)數(shù)據(jù)序列來(lái)填充缺失數(shù)據(jù)。文獻(xiàn)[16]以靜態(tài)數(shù)據(jù)為研究背景,將模型約束為線性模型來(lái)填充缺失數(shù)據(jù)。然而,這種方法不能捕捉非線性和時(shí)間序列的特性。除此之外,包括自回歸移動(dòng)平均模型(Autoregressive Integrated Moving Model,ARIMA)[17]、季節(jié)性差分自回歸滑動(dòng)平均模型(Seasonal ARIMA,SARIMA)[18]等在內(nèi)的自回歸方法旨在將時(shí)間序列中的非平穩(wěn)部分進(jìn)行剔除,擬合出參數(shù)化的平穩(wěn)模型?;诰仃嚪纸獾姆椒ㄒ步?jīng)常[19]被用來(lái)解決缺失數(shù)據(jù)填充問(wèn)題,但是通常只適用于靜態(tài)數(shù)據(jù),并且需要較強(qiáng)的假設(shè)。

        遞歸神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)具有很好的性能,如強(qiáng)大的預(yù)測(cè)能力以及捕獲長(zhǎng)期時(shí)間依賴關(guān)系和可變長(zhǎng)度觀察的能力。近年來(lái),RNN,如LSTM[20]和門(mén)控遞歸單元(Gated Recurrent Unit,GRU)[21],在時(shí)間序列或序列數(shù)據(jù)的許多應(yīng)用中凸顯了至關(guān)重要的地位。文獻(xiàn)[22]提出了多向遞歸神經(jīng)網(wǎng)絡(luò)(Multi-directional Recurrent Neural Network,M-RNN)的方法,并利用雙向RNN來(lái)進(jìn)行數(shù)據(jù)填充,但是刪除了缺失變量之間的關(guān)系,將M-RNN的輸入值作為常數(shù)進(jìn)行處理,在網(wǎng)絡(luò)中得不到充分的更新。文獻(xiàn)[23]將深度神經(jīng)網(wǎng)絡(luò)的思想與卡爾曼濾波器相結(jié)合,提出了一種非線性狀態(tài)空間模型——深度卡爾曼濾波器。文獻(xiàn)[24]引入隨機(jī)遞歸神經(jīng)網(wǎng)絡(luò)(Stochastic Recurrent Neural Network,SRNN),將RNN與狀態(tài)空間模型相結(jié)合,形成隨機(jī)序列神經(jīng)生成模型。

        為了更好地解決多元時(shí)間序列的缺失數(shù)據(jù)問(wèn)題,本文提出了一種基于RNN的缺失數(shù)據(jù)填充算法。該算法通過(guò)利用RNN自身能夠捕捉長(zhǎng)期時(shí)間依賴關(guān)系以及預(yù)測(cè)能力的特性,在RNN的基礎(chǔ)上引入了衰減機(jī)制,從而使得改進(jìn)后的模型能夠充分利用觀測(cè)數(shù)據(jù)中的隱藏信息來(lái)提高數(shù)據(jù)填充的準(zhǔn)確率。而后,通過(guò)對(duì)現(xiàn)有的觀測(cè)數(shù)據(jù)進(jìn)行學(xué)習(xí),實(shí)現(xiàn)對(duì)缺失數(shù)據(jù)的填充,提高了數(shù)據(jù)填充的準(zhǔn)確率。本文以上海空氣質(zhì)量數(shù)據(jù)集以及AReM數(shù)據(jù)集為實(shí)驗(yàn)數(shù)據(jù),對(duì)所提算法進(jìn)行檢驗(yàn)。實(shí)驗(yàn)結(jié)果表明,與其他算法相比,在缺失率較低的情況下,所提算法的填充誤差更小,填充效果更優(yōu)。

        1 缺失數(shù)據(jù)表示

        假設(shè)一組含有N個(gè)變量、時(shí)間長(zhǎng)度為T(mén)的多元時(shí)間序列數(shù)據(jù)X表示為:X={x1,x2,…,xT}T∈T×N,對(duì)于t∈{1,2,…,T},xt表示為t時(shí)刻時(shí)所有變量的觀測(cè)值,即N,那么則表示為t時(shí)刻第n個(gè)變量的觀測(cè)值。設(shè)st為時(shí)間戳,即t時(shí)刻觀測(cè)到數(shù)據(jù)的時(shí)間。

        對(duì)于多元缺失數(shù)據(jù),給定每個(gè)時(shí)刻每個(gè)變量的觀測(cè)值一個(gè)缺失向量m∈{0,1},并且有:

        (1)

        (2)

        對(duì)缺失時(shí)間序列數(shù)據(jù)進(jìn)行以上處理,可以在原數(shù)據(jù)集的基礎(chǔ)上得到{X,M,Δ},其中:

        2 LSTM

        長(zhǎng)短時(shí)記憶(Long-Shokl-Term Memory,LSTM)網(wǎng)絡(luò)[20]是RNN的一種,能夠解決一般RNN存在的長(zhǎng)期依賴問(wèn)題,并且可以解決長(zhǎng)序列訓(xùn)練過(guò)程中出現(xiàn)的梯度爆炸和梯度消失的問(wèn)題,因而LSTM適用于處理、預(yù)測(cè)時(shí)間序列中時(shí)間間隔較長(zhǎng)的問(wèn)題。LSTM的結(jié)構(gòu)如圖1所示。

        圖1 LSTM結(jié)構(gòu)圖

        一個(gè)經(jīng)典的LSTM網(wǎng)絡(luò)由單元或者記憶塊組成,并且LSTM單元一般會(huì)有兩個(gè)輸出:?jiǎn)卧獱顟B(tài)C和隱藏狀態(tài)h,將其傳遞到下一個(gè)LSTM單元,因此LSTM有三個(gè)輸入:t-1時(shí)刻的單元狀態(tài)Ct-1、隱藏狀態(tài)ht-1以及t時(shí)刻的輸入xt,有兩個(gè)輸出:t時(shí)刻的單元狀態(tài)Ct、隱藏狀態(tài)ht。記憶塊通過(guò)三種門(mén)控制記憶隱藏狀態(tài)和前面時(shí)刻發(fā)生的時(shí)間,三種門(mén)分別為:遺忘門(mén)、輸入門(mén)和輸出門(mén)。

        LSTM的計(jì)算更新過(guò)程可以表示為:

        it=σ(Wxixt+Whiht-1+bi)

        (3)

        ft=σ(Wxfxt+Whfht-1+bf)

        (4)

        (5)

        (6)

        ot=σ(Wxoxt+Whoht-1+bo)

        (7)

        ht=ot⊙tanh(Ct)

        (8)

        若此時(shí)的LSTM單元為網(wǎng)絡(luò)中的最后一個(gè)單元,那么,網(wǎng)絡(luò)最終的輸出為:

        y=softmax(W⊙ht+b)

        (9)

        其中,softmax為激活函數(shù),W為權(quán)重矩陣,b為偏置矩陣。

        3 提出的模型

        3.1 γ-LSTM模型

        結(jié)合時(shí)間序列中缺失數(shù)據(jù)的填充過(guò)程進(jìn)行分析,會(huì)注意到,以往的RNN算法中,若缺失數(shù)據(jù)的丟失時(shí)間間隔過(guò)長(zhǎng),那么就導(dǎo)致缺失數(shù)據(jù)對(duì)當(dāng)前時(shí)刻的輸出影響隨著時(shí)間間隔的增加而有所減弱。因此,本文在RNN的基礎(chǔ)上引入了衰減機(jī)制,來(lái)捕獲輸入變量、隱藏變量與相應(yīng)缺失數(shù)據(jù)時(shí)間間隔的關(guān)系,并且衰減系數(shù)γ的值因變量而異。改進(jìn)后的RNN結(jié)構(gòu)如圖2所示,將其稱之為γ-LSTM。

        圖2 γ-LSTM結(jié)構(gòu)圖

        由圖2可以看出,γ-LSTM在LSTM的基礎(chǔ)上,使用時(shí)間衰減系數(shù)γt對(duì)LSTM單元的輸入進(jìn)行修正,并使用缺失向量mt對(duì)網(wǎng)絡(luò)的中間結(jié)果進(jìn)行一定的修正,使其更加充分地捕獲數(shù)據(jù)間的相關(guān)關(guān)系,定義γt為:

        γt=exp{-max (0,Wγδt+bγ)}

        (10)

        (11)

        (12)

        γ-LSTM對(duì)于輸入的xt做了相應(yīng)的處理,以其是否為缺失數(shù)據(jù)進(jìn)行數(shù)值的確定,且有:

        (13)

        (14)

        (15)

        此時(shí)γ-LSTM的計(jì)算過(guò)程表示為:

        (16)

        (17)

        (18)

        (19)

        (20)

        ht=ot⊙tanh(Ct)

        (21)

        3.2 γ-PLSTM模型

        由圖1的結(jié)構(gòu)圖可以看出,t時(shí)刻LSTM門(mén)的輸入包含兩部分:網(wǎng)絡(luò)輸入與t-1時(shí)刻網(wǎng)絡(luò)的輸出,若在t時(shí)刻時(shí)輸出門(mén)關(guān)閉(值接近0),那么t時(shí)刻網(wǎng)絡(luò)的輸出將為0,t+1時(shí)刻LSTM網(wǎng)絡(luò)的門(mén)將僅與網(wǎng)絡(luò)的輸入有關(guān)系,因此會(huì)導(dǎo)致歷史信息的缺失,從而影響最終的結(jié)果。因此,文獻(xiàn)[26]提出了一種LSTM的變體“貓眼”LSTM (Peephole LSTM,PLSTM),其在LSTM的基礎(chǔ)上增加了“貓眼”連接(圖3中的虛線部分),允許門(mén)查看細(xì)胞狀態(tài)。PLSTM模型的計(jì)算過(guò)程如下:

        圖3 PLSTM結(jié)構(gòu)圖

        (22)

        (23)

        (24)

        (25)

        (26)

        ht=ot⊙tanh (Ct)

        (27)

        LSTM中,單元狀態(tài)C用于存儲(chǔ)信息,有效地保持信息在多個(gè)時(shí)間步長(zhǎng)中的清晰度;隱藏狀態(tài)h用于上層輸出,并且捕獲單元狀態(tài)中與當(dāng)前時(shí)刻輸出密切相關(guān)的部分。而PLSTM通過(guò)“貓眼”連接,即便是在信息匱乏的情況下,也可以生成精確的時(shí)間間隔事件。

        為了更全面地解決缺失數(shù)據(jù)填充問(wèn)題,考慮數(shù)據(jù)缺失時(shí)間間隔對(duì)當(dāng)前時(shí)刻產(chǎn)生數(shù)據(jù)的影響,在PLSTM的基礎(chǔ)上,同樣引入衰減機(jī)制。引入衰減機(jī)制的PLSTM被稱為γ-PLSTM,模型的結(jié)構(gòu)如圖4所示。

        圖4 γ-PLSTM結(jié)構(gòu)圖

        對(duì)單元狀態(tài)C以及隱藏狀態(tài)h增加衰減處理,同樣地,衰減系數(shù)γt定義如公式(10),得到衰減處理后的結(jié)果見(jiàn)公式(11)、(12)。

        對(duì)網(wǎng)絡(luò)輸入x作相同的處理,見(jiàn)公式(13),此時(shí)模型的更新計(jì)算過(guò)程為:

        (28)

        (29)

        (30)

        (31)

        (32)

        ht=ot⊙tanh (Ct)

        (33)

        在缺失數(shù)據(jù)填充的模型中,在每個(gè)時(shí)間步長(zhǎng)內(nèi)都使用γ-PLSTM,并在其最后一個(gè)單元的輸出后增加一個(gè)softmax層和dropout層,最終輸出填充的缺失值。

        4 數(shù)據(jù)集及評(píng)價(jià)方法

        4.1 數(shù)據(jù)集

        全國(guó)空氣質(zhì)量數(shù)據(jù)集來(lái)源于全國(guó)城市空氣質(zhì)量實(shí)時(shí)發(fā)布平臺(tái),記錄了全國(guó)190個(gè)站點(diǎn)自2014年5月13日至2019年8月17日每天每個(gè)小時(shí)PM2.5、PM10、SO2、NO2、O3、CO含量以及分別對(duì)應(yīng)的24小時(shí)均值與AQI實(shí)時(shí)值。從中選取上海三個(gè)月的空氣質(zhì)量數(shù)據(jù)作為仿真數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。

        AReM數(shù)據(jù)集來(lái)源于UCI數(shù)據(jù)庫(kù),該數(shù)據(jù)集數(shù)據(jù)是由無(wú)線傳感器記錄而來(lái),實(shí)驗(yàn)者執(zhí)行特定動(dòng)作時(shí)被其身上所佩戴的傳感器所記錄,有6個(gè)屬性,大約5萬(wàn)條數(shù)據(jù)記錄,并且數(shù)據(jù)的分布具有一定的規(guī)律。從中選取1 000條記錄作為仿真數(shù)據(jù)進(jìn)行實(shí)驗(yàn)。

        4.2 評(píng)價(jià)方法

        為了更好地評(píng)價(jià)缺失值的填充效果,使用均方誤差(Mean-Squared Error,MSE)、平均相對(duì)誤差(Mean Relative Error,MRE)、均方根誤差(Root Mean Squared Error,RMSE)來(lái)計(jì)算輸出的缺失填充值與原數(shù)據(jù)之間的誤差,定義如下:

        (34)

        (35)

        (36)

        5 仿真

        本文選取上??諝赓|(zhì)量數(shù)據(jù)以及AReM數(shù)據(jù)集作為實(shí)驗(yàn)數(shù)據(jù),用以驗(yàn)證所提方法的有效性。實(shí)驗(yàn)中,首先對(duì)數(shù)據(jù)進(jìn)行歸一化處理,然后按照缺失率為10%、20%、30%、40%、50%從完整數(shù)據(jù)集中任意刪除對(duì)應(yīng)數(shù)量的數(shù)據(jù)。為了方便對(duì)數(shù)據(jù)進(jìn)行處理,針對(duì)不同的變量,都隨機(jī)刪除相同數(shù)量的數(shù)據(jù),每個(gè)變量的缺失率都與整個(gè)數(shù)據(jù)集的缺失率相同。

        歸一化過(guò)程表示為:

        (37)

        針對(duì)LSTM、γ-LSTM、PLSTM、γ-PLSTM模型,使用不同缺失率的上??諝赓|(zhì)量數(shù)據(jù)、AReM數(shù)據(jù)進(jìn)行檢驗(yàn),得到數(shù)據(jù)填充的效果如表1~表4所示。

        表1 空氣質(zhì)量數(shù)據(jù)集下四種算法的MSE(%)比較

        表2 空氣質(zhì)量數(shù)據(jù)集下四種算法的MRE比較

        表3 AReM數(shù)據(jù)集下四種算法的MSE(%)比較

        表4 AReM數(shù)據(jù)集下四種算法的MRE比較

        由表1~表4可以看出,四種算法都可以實(shí)現(xiàn)對(duì)缺失數(shù)據(jù)的填充,隨著缺失率的升高,填充數(shù)據(jù)的MSE、MRE誤差都隨之增大,偶爾出現(xiàn)波動(dòng),但并不影響大體規(guī)律。四種算法中,γ-PLSTM的填充效果較為顯著,填充數(shù)據(jù)的MSE、MRE誤差較其他三種?。辉谌笔瘦^低時(shí),PLSTM的填充效果優(yōu)于γ-LSTM,但隨著缺失率的升高,γ-LSTM的效果則有明顯改善且效果要優(yōu)于PLSTM,也證明了衰減機(jī)制的作用;PLSTM、γ-PLSTM的效果分別比LSTM、γ-LSTM的效果好,很好地說(shuō)明了在學(xué)習(xí)的過(guò)程中,對(duì)單元狀態(tài)進(jìn)行監(jiān)控,能夠更多更好地獲得歷史信息,從而更好地實(shí)現(xiàn)對(duì)缺失數(shù)據(jù)的填充。

        對(duì)所提算法與現(xiàn)有算法(稀疏貝葉斯學(xué)習(xí)(Sparse Bayesian Learning,SBL)、RNN)進(jìn)行對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如圖5、圖6所示。

        圖5 空氣質(zhì)量數(shù)據(jù)下不同算法填充效果比較

        圖6 AReM數(shù)據(jù)下不同算法填充效果比較

        通過(guò)圖5、圖6可以看出,四種算法都可以實(shí)現(xiàn)缺失數(shù)據(jù)的填充,但是填充的效果不盡相同。由實(shí)驗(yàn)結(jié)果可以看出,相對(duì)于其他三種算法而言,SBL算法適合處理精度要求不嚴(yán)格的缺失數(shù)據(jù),RNN算法的填充效果相較于SBL而言更優(yōu),而本文所提的γ-LSTM和γ-PLSTM算法則較RNN而言填充效果更好。不難看出,伴隨著缺失率的升高,四種算法的填充誤差有所增加,且SBL的誤差最大,γ-PLSTM的填充誤差最?。徽w而言,γ-LSTM的填充效果要優(yōu)于RNN。

        總體而言,通過(guò)SBL、RNN、γ-LSTM、γ-PLSTM四種算法的比較,可以清晰地發(fā)現(xiàn)所提兩種算法γ-LSTM、γ-PLSTM在缺失數(shù)據(jù)填充中的優(yōu)越性;通過(guò)LSTM、PLSTM與本文所提兩種算法的比較,體現(xiàn)出增加衰減機(jī)制的作用以及在缺失率相對(duì)較高情況下“貓眼”連接與衰減機(jī)制共同作用的有效性。

        6 結(jié)論

        本文提出了一種基于LSTM的缺失數(shù)據(jù)填充算法來(lái)解決多變量時(shí)間序列的缺失數(shù)據(jù)填充問(wèn)題。在LSTM的基礎(chǔ)上引入了衰減機(jī)制,通過(guò)學(xué)習(xí)時(shí)間間隔與網(wǎng)絡(luò)變量的關(guān)系,獲取更多隱藏的歷史信息,從而更好地完成缺失數(shù)據(jù)的填充;并對(duì)兩種不同的傳統(tǒng)LSTM進(jìn)行改進(jìn),從而得到了兩種不同的算法γ-LSTM和γ-PLSTM,通過(guò)實(shí)驗(yàn)比較,γ-PLSTM的性能要優(yōu)于γ-LSTM,說(shuō)明在缺失數(shù)據(jù)填充過(guò)程中,有“貓眼”連接的能夠查看細(xì)胞狀態(tài)的算法能夠獲得更多的隱藏信息,從而缺失數(shù)據(jù)的填充效果更為優(yōu)異。

        猜你喜歡
        時(shí)刻變量狀態(tài)
        冬“傲”時(shí)刻
        捕獵時(shí)刻
        抓住不變量解題
        也談分離變量
        狀態(tài)聯(lián)想
        生命的另一種狀態(tài)
        熱圖
        家庭百事通(2016年3期)2016-03-14 08:07:17
        堅(jiān)持是成功前的狀態(tài)
        山東青年(2016年3期)2016-02-28 14:25:52
        SL(3,3n)和SU(3,3n)的第一Cartan不變量
        街拍的歡樂(lè)時(shí)刻到來(lái)了
        亚洲日本精品一区二区三区 | 久久精品国产亚洲AV高清y w| 日本精品少妇一区二区| 欧美又大粗又爽又黄大片视频| 久久久www成人免费精品| 亚洲精品456| 成年人男女啪啪网站视频| 久久国产成人午夜av免费影院| 国产二级一片内射视频播放| 国产丰满老熟女重口对白| 无码中文字幕久久久久久| 亚洲成人激情深爱影院在线| 在线观看免费无码专区| 亚洲美免无码中文字幕在线| 亚洲a人片在线观看网址| 亚洲啪啪色婷婷一区二区| 久久久国产乱子伦精品| 精品久久久无码中文字幕| 国产亚洲视频在线观看播放| 中文字幕乱码亚洲一区二区三区| 内射人妻少妇无码一本一道| 亚洲国产无线乱码在线观看 | 在线视频一区二区观看| 大陆老熟女自拍自偷露脸| 亚洲av无码成人专区片在线观看| 在线观看av手机网址| 最新国产精品国产三级国产av| 中文人妻av久久人妻水蜜桃| 免费看久久妇女高潮a| 久久国产香蕉一区精品天美| 玖玖资源站亚洲最大的网站| 国产精品∧v在线观看| 亚洲综合在不卡在线国产另类| 91盗摄偷拍一区二区三区| 亚洲av无码成人网站在线观看| 超级碰碰色偷偷免费视频| 91麻豆国产香蕉久久精品| 一区二区三区国产偷拍| 一级r片内射视频播放免费 | 国产真实乱人偷精品人妻| 亚洲区精品久久一区二区三区女同|