劉頡羲 陳松燦
(模式分析與機(jī)器智能工業(yè)和信息化部重點(diǎn)實(shí)驗(yàn)室(南京航空航天大學(xué)) 南京 211106)
時間序列預(yù)測在科學(xué)和社會的各個領(lǐng)域起著重要的作用,例如對股票價格[1]、交通狀況[2]和天氣狀況[3-4]等的預(yù)測.然而這些任務(wù)的復(fù)雜性導(dǎo)致了預(yù)測的挑戰(zhàn)性,通常歸咎于時間序列的非平穩(wěn)性以及多個變量之間的動態(tài)依賴性等,并為此促發(fā)了一系列的研究.
一般而言,時間序列大致可被分為平穩(wěn)和非平穩(wěn)2類[5-6].給定同一時間序列的2個子序列xt1,xt2,…,xtk和xt1+τ,xt2+τ,…,xtk+τ,如果對任意τ,2個子序列的聯(lián)合統(tǒng)計分布相同,則稱該時間序列為平穩(wěn)序列.而事實(shí)上,現(xiàn)實(shí)中大部分時間序列難以滿足上述條件,因此形成了所謂的非平穩(wěn)時間序列.此類時間序列中,非平穩(wěn)多變量時間序列(NSMTS)存在相對廣泛,因此對于NSMTS的預(yù)測成為了重要和持續(xù)的研究主題[6-8].
現(xiàn)有時間序列預(yù)測的方法主要可分為基于深度學(xué)習(xí)和非深度學(xué)習(xí)兩大類[9].典型的非深度學(xué)習(xí)方法,如基于統(tǒng)計方法的指數(shù)加權(quán)滑動平均模型(EWMA)[10]和差分整合滑動平均自回歸模型(ARIMA)[9]等,在預(yù)測中通常存在幾個缺陷,例如無法應(yīng)對非平穩(wěn)序列或處理非平穩(wěn)序列時需要進(jìn)行平穩(wěn)化預(yù)處理;無法獲取并利用多個變量間的動態(tài)依賴性;不僅如此,這類方法效率較低,處理大數(shù)據(jù)時耗時較多.相反,基于深度學(xué)習(xí)的方法則能克服上述不足[9,11],因此,本文側(cè)重于當(dāng)前較為流行的深度學(xué)習(xí)方法.
深度學(xué)習(xí)方法尤其是基于神經(jīng)網(wǎng)絡(luò)(NNs)的方法已在時間序列預(yù)測中取得了相當(dāng)?shù)某尚?,其中前饋神?jīng)網(wǎng)絡(luò)(FNNs)[11]、模糊神經(jīng)網(wǎng)絡(luò)[12]、混合神經(jīng)網(wǎng)絡(luò)[8]以及循環(huán)神經(jīng)網(wǎng)絡(luò)(RNNs)[11]都已得到廣泛運(yùn)用.而RNNs由于其具有循環(huán)鏈狀結(jié)構(gòu)以及各變體門單元內(nèi)部的特殊結(jié)構(gòu),更加適合于處理各類時間序列.然而,早期的RNNs存在若干嚴(yán)重的缺陷,典型的如梯度消失和梯度爆炸問題[13-14].
梯度爆炸問題通過對梯度范數(shù)的嚴(yán)格約束可解決,而梯度消失問題相對復(fù)雜.最先用于解決該問題的方法是設(shè)計出新的長短期記憶(LSTM)[15]以替換循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中的RNN單元.該單元可以利用3個門(遺忘門、輸入門和輸出門)和內(nèi)部存儲器以控制梯度流動并更新單元內(nèi)部信息.同時基于LSTM的神經(jīng)網(wǎng)絡(luò)(LSTMs)可通過門控機(jī)制改善RNNs無法獲取長程依賴關(guān)系的問題[13],因此很長一段時期使用LSTM替換RNN單元是處理梯度消失問題的標(biāo)準(zhǔn)方法.雖然LSTMs在NSMTS預(yù)測問題上已獲得了state-of-the-art的結(jié)果[16],但該門單元并不完美.例如其內(nèi)部結(jié)構(gòu)非常復(fù)雜,但其中部分組件在訓(xùn)練中并沒有明顯意圖[17].因此,研究者進(jìn)一步對門單元結(jié)構(gòu)進(jìn)行合理簡化,其中門循環(huán)單元(GRU)[18]的表現(xiàn)非常突出,該門單元結(jié)構(gòu)中沒有單獨(dú)的內(nèi)部存儲器并且僅包含2個門(更新門和復(fù)位門).多數(shù)情況下,基于GRU的神經(jīng)網(wǎng)絡(luò)(GRUs)被證明與LSTMs的預(yù)測精度具有可比性[19]并因此成為序列預(yù)測中的一個可行的選擇.而最近提出的最小門單元(MGU)[20]更被簡化到了僅含單個遺忘門的結(jié)構(gòu),令人驚訝之處在于基于MGU的神經(jīng)網(wǎng)絡(luò)(MGUs)在部分序列分析和圖像處理方面仍顯示出了初步的優(yōu)勢.這源于已有的評估證據(jù),即遺忘門是這些門中的關(guān)鍵所在[14,17,21].既然MGUs具有更少的可調(diào)參數(shù),故而相對更易訓(xùn)練,為此我們也嘗試將其用于時間序列預(yù)測.
雖然已存在多種類型的門單元,然而目前仍無研究表明哪一種門單元最適合處理一個特定時間序列,為此在本文中加以彌補(bǔ).我們選用上述各門單元(LSTM,GRU和MGU)分別構(gòu)建了相應(yīng)的神經(jīng)網(wǎng)絡(luò)預(yù)測模型對NSMTS進(jìn)行預(yù)測.具體而言,實(shí)驗(yàn)中采用單層或多層神經(jīng)網(wǎng)絡(luò)預(yù)測模型評估這些門單元在5個NSMTS數(shù)據(jù)集上的預(yù)測性能.結(jié)果表明:沒有任何一類能始終保證性能上的占優(yōu).這啟發(fā)我們設(shè)計了一種混合門單元(MIXGU),它包含GRU和MGU[注]由于LSTM在一定條件下與GRU在預(yù)測性能上具有可比性[19,17,21],且LSTM與GRU和MGU間的傳遞狀態(tài)參數(shù)量不同,為了簡化模型,本文設(shè)計MIXGU中僅包含GRU和MGU.,并通過動態(tài)調(diào)整GRU和MGU的混合權(quán)重,發(fā)揮各門單元的優(yōu)勢以達(dá)成2個世界的最優(yōu).
本文的主要貢獻(xiàn)有3個方面:
1) 將MGU應(yīng)用于NSMTS預(yù)測中,并將其預(yù)測性能與LSTM和GRU進(jìn)行比較分析;
2) 提出了MIXGU,在訓(xùn)練過程中使得模型中的每一個單元動態(tài)地,自適應(yīng)地改變混合的各個門單元(GRU和MGU)的重要性權(quán)重.同時我們也證明了訓(xùn)練過程中確實(shí)存在重要性權(quán)重的動態(tài)變化;
3) 將MIXGU構(gòu)成的神經(jīng)網(wǎng)絡(luò)與每個單元僅含有一種門單元的典型神經(jīng)網(wǎng)絡(luò)進(jìn)行對比,并得出基于MIXGU的神經(jīng)網(wǎng)絡(luò)模型可以獲得更高的預(yù)測準(zhǔn)確率.
Fig. 1 N-layer Neural network model for prediction圖1 用于預(yù)測的N層神經(jīng)網(wǎng)絡(luò)模型
為了解決NSMTS預(yù)測,許多學(xué)者嘗試采用傳統(tǒng)的統(tǒng)計方法.其中,差分整合滑動平均自回歸模型(ARIMA)[9]由于其統(tǒng)計特性以及在模型選擇過程中使用了廣為人知的博克思-詹金斯(Box-Jenkins)法而廣泛運(yùn)用于金融領(lǐng)域.同時該模型適用于各種指數(shù)平滑技術(shù)[22],可以靈活地解決一系列,諸如自回歸(AR)、滑動平均(MA)以及自回歸滑動平均(ARMA)等模型能夠解決的問題.但是,ARIMA需要對非平穩(wěn)數(shù)據(jù)進(jìn)行平穩(wěn)化處理,這毫無疑問會影響預(yù)測精度和效率,同時該模型計算復(fù)雜度較高,因此無法較好地進(jìn)行NSMTS的預(yù)測.除此之外,自回歸模型(VAR)[9]通過將AR模型拓展成為多變量模型以解決多變量時間序列問題.然而,這種拓展忽略了輸出變量之間的依賴關(guān)系.不僅如此,VAR模型的容量在訓(xùn)練中隨著時間窗口的增大線性增長,隨著變量數(shù)量上升呈二次方增長,因此繼承的大模型容易出現(xiàn)過擬合問題并無法有效處理長程時間模式.
由于上述方法無法有效地解決NSMTS預(yù)測問題,研究人員進(jìn)一步通過建立機(jī)器學(xué)習(xí)模型來處理這類問題.例如,帶有時變參數(shù)的標(biāo)準(zhǔn)回歸模型[23]在處理多變量時間序列上有一些突破,該模型能夠使用不同損失函數(shù)和正則化項(xiàng)進(jìn)行建模,但是由于其無法獲取多個變量之間非線性關(guān)系,因此容易影響模型的預(yù)測精度.此外,非參數(shù)高斯模型(GP)[24]通過對連續(xù)函數(shù)域上的分布進(jìn)行建??梢垣@取序列中的動態(tài)模式,尤其是復(fù)雜的動態(tài)模式.但是該模型具有較高的計算復(fù)雜度,例如在實(shí)現(xiàn)過程中的核矩陣求逆過程會產(chǎn)生超過觀測值數(shù)量立方的復(fù)雜性.
本節(jié)中,我們首先定義NSMTS預(yù)測問題,然后介紹于滾動預(yù)測的神經(jīng)網(wǎng)絡(luò)模型.為了完整性,我們也詳細(xì)介紹本文預(yù)測模型中所使用的門單元結(jié)構(gòu)(LSTM,GRU以及MGU) 并詳細(xì)說明本文提出的新型MIXGU的門單元結(jié)構(gòu),最后,介紹了預(yù)測模型的目標(biāo)函數(shù)和優(yōu)化策略.
本文中,我們主要通過使用圖1所示的神經(jīng)網(wǎng)絡(luò)預(yù)測模型進(jìn)行簡單的多步滾動預(yù)測.具體來說,給定一系列已知時間序列Y=(y1,y2,…,yT),其中yt∈Rn,n是時間序列的維度.我們的目標(biāo)是預(yù)測yT+h,其中h表示預(yù)測范圍(horizon),代表當(dāng)前時間步向前的預(yù)測范圍,其取值范圍可以從幾秒到一年,通常根據(jù)時間序列數(shù)據(jù)集中環(huán)境設(shè)置需求進(jìn)行選擇.滾動預(yù)測表示當(dāng)我們預(yù)測yT+h+1時y1,y2,…,yT+1是已知的.我們將時間步T時輸入矩陣表示為XT=(y1,y2,…,yT)∈Rn×T.
圖1所示的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中,RNN Unit可由LSTM,GRU,MGU以及我們設(shè)計的MIXGU代替.隨后,我們將逐一介紹上述門單元結(jié)構(gòu).
本文中,W表示權(quán)重矩陣,b表示偏差向量,t表示時間序列中的第t個時間戳,xt表示RNN單元及其變體在時間t時的輸入,ht表示時刻t的系統(tǒng)隱狀態(tài),σ(z)表示邏輯Sigmoid函數(shù)σ(z)=1(1+exp(-z)),tanh是適用于輸入的每個元素的激活函數(shù),而符號⊙是表示2個向量之間逐個元素相乘.
Fig. 2 Data flow and operations in various typical gated RNN units圖2 各種典型的門控RNN單元中的數(shù)據(jù)流動和運(yùn)算
循環(huán)神經(jīng)網(wǎng)絡(luò)(RNNs)是前饋神經(jīng)網(wǎng)絡(luò)(FNNs)的擴(kuò)展,可以通過特殊的反饋回路存儲和利用過去的信息從而有效解決序列問題[25].一般而言,循環(huán)神經(jīng)網(wǎng)絡(luò)門單元(RNN)通過式(1)更新隱狀態(tài):
ht=f(ht-1,xt),
(1)
其中,f是一個非線性映射.定義f的常用方法為使用線性變換加上非線性激活函數(shù),
ht=tanh(W[ht-1,xt]+b).
(2)
這種單向RNN單元通常表示為SimpleRNN單元,其內(nèi)部結(jié)構(gòu)由圖2(a)所示.
不幸的是,SimpleRNN單元在時間序列預(yù)測中存在一系列問題,基于該單元的網(wǎng)絡(luò)在訓(xùn)練過程中存在梯度下降或梯度消失問題[13-14]以及該單元結(jié)構(gòu)無法獲取長程依賴關(guān)系.因此各類RNN單元的變體如,LSTM,GRU等,被設(shè)計以緩解上述問題.所以本文關(guān)注的是基于RNN單元變體(LSTM,GRU和MGU)的神經(jīng)網(wǎng)絡(luò)的性能.
2.2.1 LSTM
時間序列預(yù)測中,長程和短程依賴關(guān)系都十分重要,尤其對具有季節(jié)性周期變化或循環(huán)變化等特性的時間序列.然而,由于傳統(tǒng)的SimpleRNN單元結(jié)構(gòu)簡單,獲取長程依賴的能力較弱,當(dāng)長程的相關(guān)信息與當(dāng)前時間點(diǎn)之間的距離足夠大時,其無法獲取所需的遠(yuǎn)程信息[13].為了解決這一問題,如圖2(b)所示的具有特殊門控機(jī)制和內(nèi)部存儲器來控制信息流的LSTM[15]被設(shè)計出來.迄今為止,LSTM及其各類變體仍然在實(shí)際應(yīng)用中扮演主導(dǎo)角色,如利用ARIMA-LSTM混合模型進(jìn)行股票預(yù)測[26],利用改進(jìn)的卷積LSTM(ConvLSTM)進(jìn)行天氣預(yù)測[3]等都展現(xiàn)出了LSTM的優(yōu)勢.
LSTM門控機(jī)制中包含3個門,即遺忘門ft,輸入門it和輸出門ot和另外,結(jié)構(gòu)中還含有一個內(nèi)部存儲器ct.循環(huán)單位的隱狀態(tài)在時刻t計算為
(3)
這里,各個LSTM單元之間通過控制單元狀態(tài)ct和隱狀態(tài)ht進(jìn)行信息傳遞.
2.2.2 GRU
作為LSTM的常用變體,GRU[18]具有更簡化的結(jié)構(gòu).如圖2(c)所示,GRU將遺忘門ft和輸入門it組合成單個更新門zt,另外增加一個復(fù)位門rt并將內(nèi)部存儲器與隱狀態(tài)ht合并.GRU的更新規(guī)則為
(4)
實(shí)驗(yàn)表明,當(dāng)LSTM與GRU具有相同的參數(shù)量時[17],GRU的預(yù)測效果與LSTM具有可比性.在GRU網(wǎng)絡(luò)中,各單元間只對隱狀態(tài)ht進(jìn)行傳遞.
2.2.3 MGU
受GRU設(shè)計有效性的啟發(fā),如圖2(d)所示僅包含單門的最小門單元(MGU)[20]被設(shè)計出來進(jìn)一步有效簡化門單元結(jié)構(gòu).由于MGU在現(xiàn)有的計算機(jī)視覺和序列分析的應(yīng)用中展現(xiàn)出訓(xùn)練速度和結(jié)果準(zhǔn)確性的優(yōu)勢,我們希望將這一門單元引入時間序列預(yù)測,尤其是本文中的NSMTS預(yù)測.
在MGU結(jié)構(gòu)中,唯一門的選擇至關(guān)重要.通過分析LSTM各部分重要性的實(shí)驗(yàn),發(fā)現(xiàn)遺忘門ft最為重要且不可或缺[14,17,21].同時,從經(jīng)驗(yàn)角度分析,遺忘門能決定存儲或遺忘的信息,這對于解決長程依賴問題至關(guān)重要.而MGU正是在GRU基礎(chǔ)上,進(jìn)一步通過有效合并復(fù)位門rt和更新門zt作為遺忘門ft(rt=ft,?t).由此MGU隱單元狀態(tài)更新規(guī)則為
(5)
在MGU網(wǎng)絡(luò)中,各單元間只對隱狀態(tài)ht進(jìn)行傳遞.
2.2.4 MIXGU
(6)
經(jīng)過調(diào)節(jié)模塊后,我們將得到新的隱狀態(tài)ht作為下一個單元的輸入.
Fig. 3 Data flow and operations in MIXGU圖3 MIXGU模型中的數(shù)據(jù)流動和運(yùn)算
平方誤差是許多預(yù)測任務(wù)的默認(rèn)損失函數(shù),因此本文的也采用了相應(yīng)的優(yōu)化目標(biāo):
(7)
我們的優(yōu)化策略是將預(yù)測問題轉(zhuǎn)化為一個回歸任務(wù).假設(shè)輸入的已知時間序列為Yt=(y1,y2,…,yt),隨后定義一個可調(diào)節(jié)大小的窗口,將其大小記作q并將時刻t的輸入序列重新定義為Xt=(yt-q+1,yt-q+2,…,yt).最終優(yōu)化目標(biāo)即為特征-值對(Xt,Yt+h)的回歸任務(wù),進(jìn)而可由隨機(jī)梯度下降(SGD)或其變體進(jìn)行優(yōu)化求解[27].
我們分別使用基于4種不同的門單元(包括我們新提出的門單元)的神經(jīng)網(wǎng)絡(luò)預(yù)測模型對5個NSMTS數(shù)據(jù)集進(jìn)行了大量實(shí)驗(yàn).
本文使用3種度量標(biāo)準(zhǔn)來評估模型的預(yù)測性能.3種度量標(biāo)準(zhǔn)的定義:
1) 均方根誤差(RMSE)
(8)
2) 絕對平均誤差(MAE)
(9)
3) 決定系數(shù)(R2)
(10)
該實(shí)驗(yàn)中,我們使用了5個NSMTS數(shù)據(jù)集,其中4個為公開數(shù)據(jù)集,1個為保密數(shù)據(jù)集.
1) 光纖數(shù)據(jù)集.該數(shù)據(jù)集是光纖拉絲生產(chǎn)過程中的真實(shí)數(shù)據(jù)集,記作 “Optical”.其中包括30個有效特征,序列長度為259 202,采樣頻率為1秒/次.由于光纖拉絲過程中會因?yàn)閿嗔讯a(chǎn)生巨大的經(jīng)濟(jì)損失,因此光纖斷裂情況的預(yù)測十分重要.該數(shù)據(jù)集為保密數(shù)據(jù)集.
2) 3個股票數(shù)據(jù)集[注]3個股票數(shù)據(jù)集數(shù)據(jù)可在https://www.kaggle.com/rohan8594/stock-data獲取.該數(shù)據(jù)集是在Kaggle Datesets中的公開數(shù)據(jù),記作“BAC”,“C” 以及“GS”.每個數(shù)據(jù)集都包括每日的收盤價、開盤價、低價、高價和成交量,序列的長度為2 517,采樣頻率為1天/次.
3) 空氣狀況數(shù)據(jù)集[注]天氣狀況數(shù)據(jù)集可在https://raw.githubusercontent.com/jbrownlee/Datasets/master/pollution.csv獲取.我們將該數(shù)據(jù)集記作“Pollution”,其中包含7個有效特征,該序列長度為43 825,采樣頻率為1天/次.同時該數(shù)據(jù)集存在一些缺失,我們使用均值進(jìn)行代替.
上述數(shù)據(jù)集按時間順序分為訓(xùn)練集(60%)、驗(yàn)證集(20%)和測試集(20%).
我們的實(shí)驗(yàn)設(shè)定遵循了此類實(shí)驗(yàn)的一般方法,對于各神經(jīng)網(wǎng)絡(luò)調(diào)整深度和寬度(隱單元數(shù))以獲得最優(yōu)的預(yù)測效果[14,17,20-21].因此對各個門單元組成的神經(jīng)網(wǎng)絡(luò),我們在集合{32,64,96,128}中選擇隱單元數(shù),同時我們構(gòu)建了N層的神經(jīng)網(wǎng)絡(luò),其中網(wǎng)絡(luò)深度N的選擇范圍為{1,2,3},對應(yīng)了圖2中“N層”.每一個網(wǎng)絡(luò)都經(jīng)過100次迭代. 為了實(shí)驗(yàn)的完整性,我們還在各數(shù)據(jù)集上使用經(jīng)典統(tǒng)計方法ARIMA進(jìn)行實(shí)驗(yàn).
表1中我們固定預(yù)測模型在每個數(shù)據(jù)集上的網(wǎng)絡(luò)深度,通過調(diào)整隱單元數(shù)分別比較基于各門單元網(wǎng)絡(luò)的預(yù)測性能,而表2反之.
首先,我們試圖將MGU引入NSMTS序列預(yù)測問題中并通過實(shí)驗(yàn)驗(yàn)證這個模型是否能夠得到好的結(jié)果,并用圖2序列預(yù)測模型構(gòu)建MGUs并與LSTMs和GRUs在預(yù)測性能上作對比.表1、表2中,我們用粗體字表示除去MIXGU的實(shí)驗(yàn)結(jié)果后每個數(shù)據(jù)集上的最佳結(jié)果.我們發(fā)現(xiàn):
1) 5個數(shù)據(jù)集的最優(yōu)結(jié)果并不是由單一門單元組成的神經(jīng)網(wǎng)絡(luò)所得,如表1中數(shù)據(jù)集“BAC”的最優(yōu)結(jié)果由LSTMs神經(jīng)網(wǎng)絡(luò)獲得,而數(shù)據(jù)集“Optical”最優(yōu)結(jié)果是由MGUs神經(jīng)網(wǎng)絡(luò)取得;
2) MGU可用于時間序列預(yù)測,并可以獲得了與LSTM及GRU相當(dāng)?shù)念A(yù)測結(jié)果;
3) ARIMA的預(yù)測準(zhǔn)確性較差且實(shí)驗(yàn)中耗時較長,無法有效預(yù)測數(shù)據(jù)量較大的NSMTS序列.
隨后,我們將新設(shè)計的MIXGU引入預(yù)測問題并與上述由單一門單元構(gòu)成的預(yù)測模型進(jìn)行比較預(yù)測過程中發(fā)現(xiàn)確實(shí)存在對于門單元的動態(tài)選樣.這里,我們采用同樣的實(shí)驗(yàn)參數(shù)設(shè)置對MIXGU進(jìn)行實(shí)驗(yàn).表1和表2中灰色背景突出的實(shí)驗(yàn)結(jié)果是各數(shù)據(jù)集中的最佳.由實(shí)驗(yàn)結(jié)果,我們能得出:MIXGU網(wǎng)絡(luò)在5個數(shù)據(jù)集上都獲得了最佳的預(yù)測結(jié)果,因此該單元可確保預(yù)測的準(zhǔn)確性.此外,圖4(a)~(d)顯示了時間序列的真實(shí)值與預(yù)測值的對比.顯然各數(shù)據(jù)集中基于MIXGU的神經(jīng)網(wǎng)絡(luò)預(yù)測結(jié)果與真實(shí)值最接近,因此直觀上顯示出其預(yù)測精度更高.而圖4(e)~(f)則展示了在數(shù)據(jù)集“Optical”和 “Pollution”的學(xué)習(xí)曲線.
Table 1 Performance of ARIMA and MIXGUs, LSTMs, GRUs, MGUs Neural Network on Different Amount of Hidden Units表1 ARIMA和不同網(wǎng)絡(luò)隱單元數(shù)量下MIXGUs,LSTMs,GRUs和MGUs的模型性能
Note: The boldface represents the best experimental results for the LSTM, GRU and MGU, while the results with background color means they are optimal for all the four gated units included.
Table 2 Performance of MIXGUs, LSTMs, GRUs and MGUs Neural Network on Different Depth of Models表2 不同網(wǎng)絡(luò)深度下MIXGUs,LSTMs,GRUs和MGUs的模型性能
Note: The boldface represents the best experimental results for the LSTM, GRU and MGU, while the results with background color means they are optimal for all the four gated units included.
Fig. 4 The forecasting curve and learning curve for actual data versus MIXGU, LSTM, GRU and MGU models圖4 NSMTS的實(shí)際數(shù)據(jù)與MIXGU, LSTM, GRU和MGU模型的預(yù)測及學(xué)習(xí)曲線
Fig. 5 The dynamic changes between in SMIXGUt圖5 SMIXGUt中和的動態(tài)變化
本文首先將MGU用于NSMTS預(yù)測,實(shí)驗(yàn)證明了它達(dá)到了與LSTM和GRU相當(dāng)?shù)念A(yù)測精度.同時我們在實(shí)驗(yàn)中也發(fā)現(xiàn),沒有任何單一門單元在處理各NSMTS時間序列時始終能表現(xiàn)出最佳行為.為了緩和這一局面,我們設(shè)計了一種混合的MIXGU門單元,通過在訓(xùn)練中動態(tài)調(diào)整MGU和GRU的組合權(quán)重,達(dá)到了更優(yōu)性能的混合結(jié)構(gòu).預(yù)測實(shí)驗(yàn)驗(yàn)證了MIXGU網(wǎng)絡(luò)確實(shí)獲得了比由單一門單元構(gòu)建的神經(jīng)網(wǎng)絡(luò)更優(yōu)的性能,這一新型混合門單元也可望用于其他諸如視頻流預(yù)測.