劉杭,殷歆,陳杰,羅恒
(1.蘇州科技大學(xué) 電子與信息工程學(xué)院,江蘇 蘇州 215009;2.蘇州科技大學(xué)江蘇省建筑智慧節(jié)能重點(diǎn)實(shí)驗(yàn)室,江蘇蘇州 215009)
時(shí)間序列是在時(shí)間間隔不變的情況下收集到的連續(xù)時(shí)間點(diǎn)的數(shù)據(jù)集合。時(shí)間序列在工業(yè)生產(chǎn)[1]、市場(chǎng)營(yíng)銷[2]、社會(huì)經(jīng)濟(jì)[3]、環(huán)境監(jiān)測(cè)[4]等行業(yè)中普遍存在,通過發(fā)現(xiàn)蘊(yùn)含在時(shí)間序列中的潛在規(guī)律可獲得未來(lái)某個(gè)時(shí)刻的預(yù)測(cè)值,為決策者提供前沿性的意見,對(duì)輔助決策、優(yōu)化資源、提升工作效率等具有重要的意義[5]。傳統(tǒng)時(shí)間序列預(yù)測(cè)方法主要針對(duì)簡(jiǎn)單的時(shí)間序列預(yù)測(cè)問題,包括支持向量機(jī)(Support Vector Machines,SVM)[6]、馬爾可夫(Markov)[7]、高斯過程(Gaussian Process,GP)[4]等預(yù)測(cè)模型。在多維時(shí)序預(yù)測(cè)中,由于其時(shí)間特征適應(yīng)性差,因此很難捕捉潛在的特征依賴關(guān)系。
在深度學(xué)習(xí)中,循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)[8]在多維時(shí)序預(yù)測(cè)上應(yīng)用廣泛,但是RNN 訓(xùn)練時(shí)會(huì)出現(xiàn)梯度消失或梯度爆炸的現(xiàn)象,而長(zhǎng)短期記憶(Long Short-Term Memory,LSTM)網(wǎng)絡(luò)[9]的出現(xiàn)緩解了這一問題并在時(shí)序建模上取得了巨大成功。近期,多維時(shí)序預(yù)測(cè)分為兩種流行的深度學(xué)習(xí)體系結(jié)構(gòu):第一種是深度模型結(jié)構(gòu),將LSTM等作為內(nèi)部的單元組件[10-12],適用于不規(guī)則的趨勢(shì)多維時(shí)序建模[13-15];第二種以卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)為核心,通過增強(qiáng)卷積的感受野和特征提取能力獲得更強(qiáng)大的預(yù)測(cè)性能,適用于一般多維時(shí)序數(shù)據(jù)建模。文獻(xiàn)[16]提出的LSTNet 運(yùn)用CNN 和RNN 來(lái)提取變量間短期局部的依賴模式,并發(fā)現(xiàn)時(shí)間序列的長(zhǎng)期模式,最終提出一種先進(jìn)的時(shí)序預(yù)測(cè)模型。文獻(xiàn)[17]提出一種基于注意力機(jī)制的RNN 模型,使用一組濾波器來(lái)提取不變的時(shí)間模式,以一種新的注意力機(jī)制來(lái)選擇相關(guān)的時(shí)間序列,并使用其頻域信息進(jìn)行多維數(shù)據(jù)預(yù)測(cè)。文獻(xiàn)[18]提出一種基于自注意力機(jī)制的多維時(shí)序數(shù)據(jù)預(yù)測(cè)方法,利用并行卷積和注意力機(jī)制提取特征。目前流行的時(shí)間卷積網(wǎng)絡(luò)(Temporal Convolutional Network,TCN)[19]通過結(jié)合因果卷積、殘差卷積和膨脹卷積等使其在時(shí)序數(shù)據(jù)處理上性能更加優(yōu)越[20]。然而它們?nèi)匀淮嬖谝韵氯毕荩浩湟?,由于CNN 和LSTM 主要應(yīng)用在圖像和自然語(yǔ)言領(lǐng)域,在多維時(shí)間序列預(yù)測(cè)中仍然存在時(shí)間前后的潛在特征大量丟失的現(xiàn)象[19,21];其二,在實(shí)際的高維時(shí)間序列的應(yīng)用中,快速模糊預(yù)測(cè)一直具有重要的實(shí)用意義[22],但是上述深度模型卻無(wú)法適用于快速模糊預(yù)測(cè)。
為了解決上述問題,本文建立基于時(shí)間卷積網(wǎng)絡(luò)和自注意力機(jī)制(self-attention)的兩種混合網(wǎng)絡(luò)模型(TSANet 和TSANet-MF)。TSANet 在TCN 的基礎(chǔ)上結(jié)合了全局和局部卷積并行的self-attention結(jié)構(gòu),并使用并行的自回歸(Autoregressive,AR)模型以提升周期性特征的捕捉能力。TSANet-MF 使用TSANet 作為矩陣分解(Matrix Factorization,MF)算法[23-25]的時(shí)間正則化項(xiàng),將原始高維時(shí)間序列數(shù)據(jù)轉(zhuǎn)化為具有更多時(shí)序特征的低維時(shí)間序列數(shù)據(jù)。
多維時(shí)間序列由可能相關(guān)的多種時(shí)間序列組成,而某些特殊的時(shí)間序列會(huì)存在特征協(xié)變量。為研究一般多維時(shí)間序列的預(yù)測(cè)方法,在不使用協(xié)變量的情況下,利用歷史時(shí)間段中的現(xiàn)實(shí)數(shù)據(jù)來(lái)預(yù)測(cè)未來(lái)時(shí)間步中的時(shí)間序列值。
定義1將單維度的時(shí)間序列數(shù)據(jù)表示為X(i)=,其中,i∈{1,2,…,d},d為維度總數(shù),p為末尾的時(shí)間戳。
定義2將多維度的時(shí)間序列數(shù)據(jù)表示為X=(X(1),X(2),…,X(d))。
定義3多維度的時(shí)間序列預(yù)測(cè)可表示為在給定時(shí)間序列(X1,X2,…,XT)的基礎(chǔ)上預(yù)測(cè)XT+h,其中,T為時(shí)間戳,h為在時(shí)間戳T后的預(yù)測(cè)時(shí)間范圍,XT表示在所有維度中時(shí)間戳T范圍內(nèi)的數(shù)據(jù),如式(1)所示:
定義4在實(shí)際預(yù)測(cè)中,對(duì)于規(guī)定的多維時(shí)間序列X,以T為輸入窗口,采用滑動(dòng)預(yù)測(cè)方式,即在(X1+r,X2+r,…,XT+r)的基礎(chǔ)上預(yù)測(cè)XT+h+r(r∈R+),其中r為滑動(dòng)值。
雖然TCN 在多維時(shí)間序列處理上應(yīng)用廣泛,但由于TCN 仍存在感受野受限導(dǎo)致提取特征能力不足的問題,因此TSANet 設(shè)計(jì)全局和局部卷積結(jié)構(gòu)并行提取特征,然后使用self-attention 增強(qiáng)特征關(guān)聯(lián)程度。TSANet 將TCN 作為一個(gè)模塊與self-attention進(jìn)行并行組合,以此加強(qiáng)特征提取。由于TCN 和兩種卷積結(jié)構(gòu)都是非線性的特征提取,因此最后添加并行AR 模型[26]提取原始時(shí)序線性特征,以最大程度提取原始序列的周期性特征。TSANet 整體框架結(jié)構(gòu)如圖1所示,其中,為TCN 和selfattention 的輸出結(jié)果,為AR 模型的輸出結(jié)果,為TSANet 預(yù)測(cè)的輸出結(jié)果。
圖1 TSANet 框架Fig.1 Framework of the TSANet
全局和局部卷積可以提取短期和長(zhǎng)期的時(shí)序特征信息,具有更強(qiáng)大的特征提取能力,適用性更強(qiáng)。全局和局部卷積框架如圖2 所示。
圖2 全局和局部卷積框架Fig.2 Framework of the global and local convolution
在全局卷積中,輸入多維向量矩陣X后,對(duì)單維度為T×1 的時(shí)序數(shù)據(jù),使用T×1 大小的卷積核,對(duì)單維度的全局?jǐn)?shù)據(jù)做卷積操作,提取各個(gè)單維度下的時(shí)序變量的前后步長(zhǎng)信息。多維向量矩陣X經(jīng)過m個(gè)卷積核的計(jì)算后,生成d×m維度的向量矩陣,其每一行代表時(shí)間序列中各個(gè)單維度的卷積學(xué)習(xí)值,在全連接層的計(jì)算后,得到完整時(shí)序特征相鄰矩陣。經(jīng)過卷積后生成的中間矩陣如式(2)所示:
由于時(shí)序數(shù)據(jù)對(duì)短期序列的規(guī)律較為敏感,因此使用與全局相對(duì)應(yīng)的局部卷積,即對(duì)相鄰的短期時(shí)間段做卷積操作。使用S×1 大小的卷積核(S<T),對(duì)于輸入多維向量矩陣X,經(jīng)過一次卷積后得到的(T-1+S)×d維度的數(shù)據(jù)矩陣,再對(duì)每一個(gè)維度進(jìn)行一維最大池化(1D Max-Pooling)的操作,經(jīng)過計(jì)算后得到d×1 維度的向量矩陣。與全局卷積相對(duì)應(yīng),多維向量矩陣X經(jīng)過m個(gè)卷積核的計(jì)算后,生成d×m維度的向量矩陣。局部經(jīng)過卷積后利用LSTM 加強(qiáng)這種局部卷積前后的特征關(guān)聯(lián)性。經(jīng)過卷積后生成的中間矩陣如式(3)所示:
self-attention 的使用受到Transformer[27]和文獻(xiàn)[18]啟發(fā)。TSANet 的self-attention 結(jié)構(gòu)如圖3 所示。Transformer 是由編碼器與解碼器構(gòu)成的,編碼器和解碼器都是由n個(gè)相同層的堆棧組成。每一層都包含兩個(gè)子層,即多頭自注意力機(jī)制與全連接前饋神經(jīng)網(wǎng)絡(luò),并在每層連接前進(jìn)行層歸一化操作。TSANet 中的self-attention 使用Transformer 中的編碼器部分,調(diào)整全局卷積與局部卷積的輸出結(jié)構(gòu),將其作為編碼器的輸入,其編碼器與Transformer 的結(jié)構(gòu)相同,每個(gè)self-attention 結(jié)構(gòu)都具有n個(gè)相同的堆棧層。最終的輸出為全局卷積、局部卷積分別和selfattention 并行計(jì)算的結(jié)果。這種并行的self-attention利用多頭注意力機(jī)制處理經(jīng)過全局卷積和局部卷積輸出的時(shí)間序列特征結(jié)構(gòu),以及不同位置不同表示的子空間信息,具有更高的特征提取能力。
圖3 self-attention 結(jié)構(gòu)Fig.3 Structure of the self-attention
TSANet-MF 模型將d維的線性序列組X轉(zhuǎn)化成k維的基向量組M的線性組合(k?d),將TSANet 作為MF 算法的時(shí)間正則化項(xiàng),彌補(bǔ)MF 算法對(duì)于時(shí)序關(guān)系不敏感的問題,增強(qiáng)時(shí)序數(shù)據(jù)前后信息的依賴性。
TSANet-MF 模型分為訓(xùn)練和預(yù)測(cè)兩個(gè)過程,訓(xùn)練過程的目的是訓(xùn)練基向量組M和線性參數(shù)矩陣F,預(yù)測(cè)過程將訓(xùn)練好的低維時(shí)序基向量組M和線性參數(shù)矩陣F用于實(shí)現(xiàn)原始的高維時(shí)序數(shù)據(jù)X的快速模糊預(yù)測(cè)。
首先將原始高維數(shù)據(jù)按序列數(shù)據(jù)轉(zhuǎn)化成兩種向量矩陣的乘積,記為X=MF,其中,X為高維矩陣,F(xiàn)為d維參數(shù)矩陣,X為分解后的k維矩陣。高維數(shù)據(jù)的矩陣分解示意圖如圖4 所示,其中,t為訓(xùn)練集和驗(yàn)證集的總長(zhǎng)度,s為測(cè)試集的長(zhǎng)度。
圖4 高維時(shí)序數(shù)據(jù)矩陣分解Fig.4 Matrix factorization of high-dimensional time-series datas
在TSANet-MF 模型中,將參數(shù)矩陣M和F作為參數(shù)同步訓(xùn)練,在每次迭代(iteration)中的參數(shù)更新流程如算法1 所示:
在算法2 中:iinit、itrain、ivalid分別代表初始 化、訓(xùn) 練和驗(yàn)證的迭代周期。
TSANet-MF 將高維的時(shí)序數(shù)據(jù)轉(zhuǎn)化為低維的時(shí)序數(shù)據(jù)M后再重新訓(xùn)練TSANet 的參數(shù),損失函數(shù)如式(6)所示:
其中:Mtrain為低維數(shù)據(jù)M劃分的用于訓(xùn)練的數(shù)據(jù);TSAx(Mtrain)為使用TSANet 的Mtrain的預(yù)測(cè)數(shù)據(jù)。
最終在M測(cè)試集Mtest上得到的預(yù)測(cè)數(shù)據(jù)如式(7)所示:
其中:Mtest為測(cè)試數(shù)據(jù);TSAx(Mtest)為使用TSANet的Mtest的預(yù)測(cè)數(shù)據(jù);表示TSANet-MF 在測(cè)試集Xtest上的預(yù)測(cè)結(jié)果。
TSANet 模型中的TCN 和全局與局部卷積都是以卷積為核心的計(jì)算操作。根據(jù)TSANet 模型網(wǎng)絡(luò)結(jié)構(gòu),通過式(8)計(jì)算得到TSANet 在全局卷積中一次迭代下的卷積運(yùn)算的時(shí)間復(fù)雜度為O(mTd),在局部卷積中一次迭代下的卷積運(yùn)算的時(shí)間復(fù)雜度為O((T+S-1)dS),TCN 是利用CNN 的建模結(jié)構(gòu),其計(jì)算的時(shí)間復(fù)雜度和維度d同樣線性正相關(guān)。selfattention 的時(shí)間復(fù)雜度為O(n2d)[27],其中n為序列長(zhǎng)度。其余部分的時(shí)間復(fù)雜度較低,可忽略不計(jì)。因此,TSANet 在訓(xùn)練時(shí)的計(jì)算時(shí)間復(fù)雜度和數(shù)據(jù)的維度呈現(xiàn)線性正相關(guān)。TSANet 模型的卷積操作的空間復(fù)雜度分為參數(shù)量和特征圖兩部分,其中參數(shù)量和輸入的數(shù)據(jù)大小無(wú)關(guān),特征圖則與輸入的維度大小有直接關(guān)系,輸入維度越低,經(jīng)過卷積后的特征圖則越小??傮w而言,TSANet 模型的計(jì)算復(fù)雜度與數(shù)據(jù)維度線性正相關(guān),即訓(xùn)練時(shí)處理的數(shù)據(jù)維度越小,計(jì)算的復(fù)雜度越低。
其中:在特征圖和卷積核鄰邊相等的情況下,M表示單卷積下輸出的特征圖邊長(zhǎng);K表示單個(gè)卷積核的邊長(zhǎng);Cin和Cout分別表示卷積層輸入和輸出的通道數(shù)。
在TSANet-MF 模型的訓(xùn)練過程中,利用算法2訓(xùn)練參數(shù)F、M,以一次iteration 參數(shù)更新流程,即算法1 為例,TSANet 模型在用于時(shí)間正則化時(shí),訓(xùn)練的輸入為Mb,Mb維度較小,復(fù)雜度較低。其余的空間和時(shí)間復(fù)雜度來(lái)源于F、Mb的更新??臻g復(fù)雜度是F、Mb的參數(shù)量,其中,F(xiàn)為k×d的參數(shù)矩陣,Mb為s×T×k的參數(shù)矩陣。時(shí)間復(fù)雜度表示為運(yùn)算中F和M的計(jì)算量(FLOPs),分別為(2k-1)×T和(2×T-1)。TSANet 模型在預(yù)測(cè)過程中,利用M訓(xùn)練TSANet 的參數(shù),由于M的維度k遠(yuǎn)遠(yuǎn)小于原數(shù)據(jù)維度d,因此計(jì)算代價(jià)也遠(yuǎn)遠(yuǎn)小于高維數(shù)據(jù)訓(xùn)練的計(jì)算代價(jià)。
綜上,TSANet-MF 模型相對(duì)于TSANet 模型大幅度減少了訓(xùn)練過程中的時(shí)間和空間的復(fù)雜度,但是維度轉(zhuǎn)化的過程中由于時(shí)間序列特征缺失而無(wú)法達(dá)到相對(duì)準(zhǔn)確的預(yù)測(cè),因此TSANet-MF 模型可用于實(shí)現(xiàn)高維時(shí)間序列數(shù)據(jù)的快速模糊預(yù)測(cè)。
為了驗(yàn)證多維時(shí)間序列數(shù)據(jù)預(yù)測(cè)方法的通用性,需要選取不同領(lǐng)域和形式的時(shí)間序列樣本。因此,分別選取加州大學(xué)歐文分校(UCI)機(jī)器學(xué)習(xí)庫(kù)[28]中Electricity、Traffic、Solar、Exchange 等4 種原始數(shù)據(jù)集,詳細(xì)信息[16]如表1 所示。所有數(shù)據(jù)集劃分為訓(xùn)練集(60%)、驗(yàn)證集(20%)和測(cè)試集(20%)。
表1 數(shù)據(jù)集基本特征Table 1 Basic characteristics of datasets
基準(zhǔn)模型:TSANet 實(shí)驗(yàn)以深度學(xué)習(xí)中主流的多維時(shí)間序列模型TCN、LSTM-AR、LSTNet[16]和TPALSTM[17]作為基準(zhǔn)模型。TSANet-MF 實(shí)驗(yàn)以傳統(tǒng)的MF 模型[24]和TCN-MF 模型[25]作為基準(zhǔn)模型。
實(shí)驗(yàn)環(huán)境:TSANet 代碼全部由Python3.6 實(shí)現(xiàn),使用Pytorch 深度學(xué)習(xí)框架,利用Pytorch-Lightning庫(kù),快速搭建模型。實(shí)驗(yàn)運(yùn)行在CentOS Linux 上,GPU 環(huán)境為4×NVIDIA Tesla P100 16 GB。
數(shù)據(jù)指標(biāo):實(shí)驗(yàn)采用3 種評(píng)估指標(biāo),分別為平均絕對(duì)誤差(Mean Absolute Error,MAE)、均方根誤差(Root Mean Square Error,RMSE)和相對(duì)平方根誤差(Root Relative Squared Error,RRSE),這3 種指標(biāo)的值越小,則表示誤差越低。
訓(xùn)練和預(yù)測(cè)方法:訓(xùn)練之前使用最大最小歸一化處理,避免數(shù)據(jù)受尺度影響。實(shí)驗(yàn)采用滑動(dòng)窗口(Window)的預(yù)測(cè)方法,以Window 期內(nèi)的數(shù)據(jù)預(yù)測(cè)滑動(dòng)窗口期后時(shí)間范圍(Horizon)線的數(shù)據(jù)。
參數(shù)設(shè)置:由于深度學(xué)習(xí)的超參數(shù)與實(shí)驗(yàn)結(jié)果相關(guān),通過參考同類的深度學(xué)習(xí)模型參數(shù)設(shè)置相關(guān)參數(shù)范圍,再設(shè)定Early stop 以獲取訓(xùn)練過程中性能最優(yōu)的模型。模型參數(shù)范圍和調(diào)優(yōu)的具體參數(shù)設(shè)置如表2 所示。
表2 模型主要參數(shù)配置Table 2 Configuration of main parameters of the model
表3 為TSANet 和基準(zhǔn)模型在測(cè)試集上的評(píng)估結(jié)果,其中,H表示Horizon,取值范圍為{3,6,12},表示Electricity、Traffic 數(shù)據(jù)集的第3 小時(shí)~第12 小時(shí)、Solar 數(shù)據(jù)集的第30分鐘~第120 分鐘和Exchange 數(shù)據(jù)集的第3 天~第12 天的預(yù)測(cè)結(jié)果,粗體的數(shù)字表示模型對(duì)比的指標(biāo)最低。從實(shí)驗(yàn)結(jié)果可以看 出,TSANet 在4 種數(shù)據(jù)集中的Exchange、Electricity 和Traffic 3 種數(shù)據(jù)集上的MAE、RMSE 和RRSE 指標(biāo)相對(duì)最低,說明預(yù)測(cè)性能優(yōu)于其他基準(zhǔn)模型。特別地,在H=12 的Exchange 和Traffic 數(shù)據(jù)集的預(yù)測(cè)上,TSANet 比TCN 的RRSE 的預(yù)測(cè)精度提升了4.26%和22.87%,預(yù)測(cè)性能提升較高??傮w而言,TSANet 在一般多維時(shí)序數(shù)據(jù)的預(yù)測(cè)上具有一定的優(yōu)勢(shì)。在Solar 數(shù)據(jù)集上,TSANet 與基準(zhǔn)模型的預(yù)測(cè)指標(biāo)都很接近,預(yù)測(cè)性能提升不明顯,說明數(shù)據(jù)不具有良好的特征表現(xiàn)。具體來(lái)看,在Exchange 數(shù)據(jù)集 上,當(dāng)H分別為3、6 和12 時(shí),TSANet 的MAE、RMSE、RRSE 是逐漸增高的,說明數(shù)據(jù)特征按照時(shí)間分布非常明顯,對(duì)于近期的預(yù)測(cè)性能較好,符合時(shí)序特征的特點(diǎn)。對(duì)于Electricity 和Traffic 數(shù)據(jù)集,當(dāng)H分別為3、6 和12 時(shí),性能表現(xiàn)接近,說明時(shí)間序列分布具有明顯規(guī)律,TSANet 對(duì)于近期和遠(yuǎn)期的預(yù)測(cè)都能達(dá)到一定準(zhǔn)確度。
表3 不同數(shù)據(jù)集上5 種預(yù)測(cè)模型的預(yù)測(cè)結(jié)果Table 3 Prediction results of five prediction models on different data sets
通過TSANet中Global(全局卷積-self-attention)、Local(局部卷積-self-attention)、TCN 這3 個(gè)分模塊驗(yàn)證TSANet 的預(yù)測(cè)能力。由于在Solar 數(shù)據(jù)集上模型預(yù)測(cè)效果不明顯,因此實(shí)驗(yàn)使用Exchange、Traffic和Electricity 數(shù)據(jù)集。圖5 給出了TSANet 及其分模塊的預(yù)測(cè)結(jié)果。由圖5 可以看出:在Exchange 數(shù)據(jù)集實(shí)驗(yàn)中,當(dāng)H為3、6 和12 時(shí),Global 和Local模塊預(yù)測(cè)的MAE、RMSE 和RRSE 較高,TSANet 和TCN預(yù)測(cè)效果非常接近,其中TSANet 的3 種指標(biāo)相對(duì)較低,說明TSANet 預(yù)測(cè)性能超過分模塊的預(yù)測(cè)性能;在Traffic 數(shù)據(jù)集實(shí)驗(yàn)中,當(dāng)H為3 和12 時(shí),TSANet、TCN、Global 和Local 預(yù)測(cè)誤差是逐漸升高的,當(dāng)H為6 時(shí),Global 預(yù)測(cè)誤差最高,TSANet 預(yù)測(cè)誤差最低,其中TSANet 預(yù)測(cè)性能是最好的;在Electricity 數(shù)據(jù)集中,雖然所有模型的預(yù)測(cè)結(jié)果非常接近,但是TSANet 仍然是誤差最低的。上述結(jié)果表明,TSANet 訓(xùn)練穩(wěn)定且具有較好的預(yù)測(cè)性能。
圖5 Exchange、Traffic 和Electricity 數(shù)據(jù)集上TSANet 及其分模塊的預(yù)測(cè)結(jié)果Fig.5 Prediction results of TSANet and its sub-modules on the Exchange,Traffic and Electricity data sets
TSANet-MF 實(shí)驗(yàn)使用Electricity 和Traffic兩種高維數(shù)據(jù)集。在M維度k=64 時(shí),TSANet-MF、TCNMF 和MF 實(shí)驗(yàn)結(jié)果如表4 所示,其中粗體表示模型對(duì)比中最低的指標(biāo)。由表4 可以看出,MF 在所有數(shù)據(jù)集中的全部指標(biāo)都較高,則性能最差,TSANet-MF 的預(yù)測(cè)指標(biāo)略優(yōu)于TCN-MF 模型,整體性能最好。
表4 高維數(shù)據(jù)集上3 種模型的預(yù)測(cè)結(jié)果Table 4 Prediction results of three models on the high-dimensional data sets
表5 給出了H=3 時(shí)TSANet-MF、MF、TCN-MF和TSANet 在高維數(shù)據(jù)集上的總訓(xùn)練時(shí)間。由表5可以看出:TSANet-MF 在Electricity 和Traffic 數(shù)據(jù)集上的訓(xùn)練時(shí)間與TSANet 相比分別提升了86.9%、93.4%,說明TSANet-MF 在TSANet 的基礎(chǔ)上,訓(xùn)練效率大幅度提升;TSANet-MF 和MF、TCN-MF 模型的訓(xùn)練時(shí)間最高相差430 s,說明TSANet-MF 在高維時(shí)間序列上同樣具有非常高的預(yù)測(cè)效率。
表5 4 種模型的訓(xùn)練時(shí)間Table 5 Training time of four models 單位:s
一般而言,高維原始數(shù)據(jù)在矩陣分解時(shí),轉(zhuǎn)化的矩陣維度越低,預(yù)測(cè)準(zhǔn)確率越低,這是因?yàn)榫仃嚪纸馑惴ㄔ诜纸鈺r(shí)會(huì)失去原始時(shí)序數(shù)據(jù)的一些特征,分解維度越低,失去特征越多。為了驗(yàn)證M的維度對(duì)于預(yù)測(cè)性能的影響,實(shí)驗(yàn)在Electricity 和Traffic 數(shù)據(jù)集上對(duì)維度k為32 和64 時(shí)的TSANet-MF 進(jìn)行預(yù)測(cè)對(duì)比,如圖6 所示。由圖6 可以看出:在Electricity 數(shù)據(jù)集上,當(dāng)k=32時(shí),H取3、6、12 的MAE、RMSE 和RRSE 預(yù)測(cè)指標(biāo)明顯比k=64 時(shí)高,說明k=32 時(shí)數(shù)據(jù)預(yù)測(cè)的誤差很大;在Traffic數(shù)據(jù)集上,當(dāng)k=32時(shí),H取3、6、12的MAE、RMSE和RRSE 預(yù)測(cè)指標(biāo)比k=64 時(shí)略高,說明k=32 時(shí)的預(yù)測(cè)性能略差。雖然Electricity 和Traffic 數(shù)據(jù)集都是高維時(shí)序序列,但是Traffic數(shù)據(jù)集的維度遠(yuǎn)遠(yuǎn)高于Electricity數(shù)據(jù)集。在轉(zhuǎn)化為低維數(shù)據(jù)M時(shí),即當(dāng)k=64 時(shí),對(duì)于Traffic 數(shù)據(jù)集而言,已經(jīng)失去了大部分時(shí)序特征,因此在k=32 和k=64 的實(shí)驗(yàn)中,可以看出兩者的誤差非常大且非常接近。在兩個(gè)維度下的對(duì)比實(shí)驗(yàn)結(jié)果說明了高維時(shí)序數(shù)據(jù)矩陣分解的維度與預(yù)測(cè)準(zhǔn)確度的關(guān)系,即分解的維度越低,失去的特征越多,預(yù)測(cè)的誤差越大。
圖6 M 維度為32 和64 時(shí)高維數(shù)據(jù)集上的TSANet-MF 預(yù)測(cè)結(jié)果Fig.6 Prediction results of TSANet-MF on the high-dimensional data sets when the dimensions of M are 32 and 64
基于以上實(shí)驗(yàn)結(jié)果總結(jié)歸納TSANet 和TSANet-MF 具有以下優(yōu)勢(shì):1)TSANet 具有較高的預(yù)測(cè)準(zhǔn)確度,可以有效地應(yīng)用在一般多維時(shí)序數(shù)據(jù)預(yù)測(cè)中;2)TSANet 利用TCN、全局和局部卷積、selfattention 和AR 模型能夠最大程度地捕捉多維時(shí)序數(shù)據(jù)特征;3)TSANet-MF 可以將高維時(shí)序數(shù)據(jù)轉(zhuǎn)化為低維時(shí)序數(shù)據(jù)以提高預(yù)測(cè)效率;4)TSANet-MF 可以實(shí)現(xiàn)高維時(shí)序數(shù)據(jù)的快速模糊預(yù)測(cè),并且具有相對(duì)較高的預(yù)測(cè)性能。
本文建立基于TCN 和self-attention 的兩種混合網(wǎng)絡(luò)模型。TSANet 融合了線性和非線性的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),結(jié)合TCN、自注意力機(jī)制等提取不同數(shù)據(jù)周期性特征。TSANet-MF 是TSANet 的衍生模型,使用時(shí)間正則化項(xiàng)更準(zhǔn)確地進(jìn)行數(shù)據(jù)降維分解,從而實(shí)現(xiàn)高維時(shí)序數(shù)據(jù)快速模糊預(yù)測(cè)。實(shí)驗(yàn)結(jié)果表明,相比于基準(zhǔn)模型,TSANet 可以有效提升時(shí)間序列的預(yù)測(cè)精度,TSANet-MF 具有更高的訓(xùn)練效率。后續(xù)將繼續(xù)研究數(shù)據(jù)離散尺度較大情況下的高維時(shí)間序列預(yù)測(cè)方法,加強(qiáng)深度神經(jīng)網(wǎng)絡(luò)在時(shí)序預(yù)測(cè)中的可解釋性。