亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        SSMT:結合狀態(tài)空間模型和Transformer的時序預測算法

        2022-02-20 06:25:48劉立偉余紹俊
        無線互聯(lián)科技 2022年24期
        關鍵詞:集上架構狀態(tài)

        劉立偉,余紹俊

        (1.云南師范大學 信息學院,云南 昆明 650500;2.昆明學院 信息工程學院,云南 昆明 650214)

        0 引言

        時間序列數(shù)據(jù)的預測問題在現(xiàn)實生活中隨處可見,其中涉及語音識別、噪聲控制和對股票市場的研究等,而時間序列預測的目的就是通過對給定的時間序列觀測數(shù)據(jù)進行估計,得出未來某一個特殊時刻點的數(shù)值以及概率分布,其本質主要是根據(jù)前T個時間的觀察數(shù)據(jù)計算T+時間的序列值。這是風險管理與投資決策領域的一個關鍵任務,它在統(tǒng)計學、機器學習、數(shù)據(jù)挖掘、計量經濟學、運籌學等許多領域都發(fā)揮著重要作用。比如,預測特定產品的供給情況可以用來進行存貨控制、車輛調度和拓撲規(guī)劃,這對于供應鏈優(yōu)化至關重要。

        時間序列預測的傳統(tǒng)統(tǒng)計學模型有 ARIMA 模型、指數(shù)平滑方法等。在現(xiàn)代預測中,傳統(tǒng)模型不具備從類似的時間序列數(shù)據(jù)集中推斷出共享模式,從而導致了過多的計算任務和大量的人力需求。因此,深度學習以其提取高級特征的能力進入了人們的視野。

        關于時序預測的深度學習方法可以分為使用自回歸模型的迭代方法[1-3]或基于序列到序列模型的直接方法[4]。隨著注意力機制的發(fā)展[5],長期依賴性學習獲得許多改進,其中Transformer架構在多個自然語言處理應用中實現(xiàn)了最先進的性能[6-8]。因此,基于Transformer的模型架構獲得了越來越多的關注[3]。

        Transformer模型依靠注意力機制來映射輸入和輸出之間的全局依賴關系,從而擁有更強的并行化能力。遞歸模型固有的順序性阻礙了訓練的并行化,而在較長序列的研究中,由于內存的限制,并行化至關重要。Transformer使用的注意力機制使其成為時間序列預測的良好預選方法,因為它可以捕捉到長期和短期的依賴關系,并且不同的attention-heads可以學習到時間序列的不同方面。然而,機器學習方法容易出現(xiàn)過度擬合[9]。因此,較簡單的模型有可能在低數(shù)據(jù)狀態(tài)下做得更好,這在具有少量歷史觀測數(shù)據(jù)的預測問題中特別常見(例如季度性宏觀經濟預測)。

        最近深度學習的一個趨勢是開發(fā)混合模型,混合模型在各種應用中都顯示出比純統(tǒng)計或機器學習模型更好的性能[10-11]。混合方法將經過充分研究的統(tǒng)計學模型與深度學習結合在一起,即使用深度神經網(wǎng)絡在每個時間步驟生成傳統(tǒng)模型參數(shù)?;旌夏P屠孟闰炐畔樯窠浘W(wǎng)絡訓練提供信息,減少網(wǎng)絡的假設空間,提高泛化能力,因此對小數(shù)據(jù)集特別有用。因為在小數(shù)據(jù)集中,深度學習模型存在較大的過擬合風險。

        為了在小數(shù)據(jù)集上獲得更好的預測效果,本文在現(xiàn)有算法的基礎上,提出了狀態(tài)空間模型Transformer聯(lián)合的時間序列預測算法并命名為SSMT。具體貢獻如下:(1)充分運用狀態(tài)空間模型Transformer的優(yōu)勢設計了一個全新的時序預測算法,并在OMI realized library數(shù)據(jù)集中通過預測股票指數(shù)的波動展現(xiàn)了比現(xiàn)在最先進的基準更為優(yōu)秀的效果。(2)通過使用Transformer將數(shù)據(jù)特征映射為狀態(tài)空間模型的參數(shù),使算法具有更強的先驗信息,從而在小數(shù)據(jù)集上具有更好的效果。(3)針對在時序預測過程中,RNN網(wǎng)絡所存在的對長期依賴學習能力較差以及對內存約束導致速度下降等問題,充分展現(xiàn)了Transformer對長短期時間序列的學習和并行化計算能力。

        1 相關文獻

        1.1 時序預測研究

        由于時序預測的廣泛應用,人們提出了各種方法來解決預測問題。其中ARIMA[12]是最突出的模型之一。它的統(tǒng)計特性以及模型選擇過程中的Box-Jenkins方法[13]使其成為研究人員的第一個嘗試。然而,其采用的線性假設和有限的可擴展性使其不適合大規(guī)模的預測任務。此外,由于每個時間序列都是單獨擬合的,所以類似的時間序列之間的信息不能共享。為了解決這個問題,Temporal Regularized Matrix Factorization[14](TRMF)將相關的時間序列數(shù)據(jù)建模為一個矩陣,并將預測作為一個矩陣分解問題來處理。Effective bayesian modeling of groups[15]中提出了分層貝葉斯方法,從圖模型的角度在多個相關的時間序列中進行學習。

        深度神經網(wǎng)絡的出現(xiàn),使研究者可以使用它捕捉相關時間序列的共享信息,從而進行準確的預測。Deepar[2]通過編碼器-解碼器的方式對概率分布進行建模,使用堆疊的長短期記憶[16](Long Short-Term Memory, LSTM)層來生成一步到位的高斯概率分布的預測,將傳統(tǒng)的AR模型與RNN融合在一起。相反,Multi-horizon Quantile Recurrent Forecaster(MQ-RNN)使用循環(huán)神經網(wǎng)絡作為編碼器,多層感知器(MLPs)作為解碼器,以解決所謂的誤差積累問題,并且并行進行多步預測。Deep factors with gaussian processes中對每個時間序列使用局部高斯過程處理噪聲,同時使用全局RNN對共享模式進行建模。

        最近,基于Transformer架構的自注意力機制(self-attention)被用于序列建模,并取得了一定成果。ConvTrans[3]提出使用卷積層進行局部處理,并使用稀疏注意機制來增加預測期間的感受野的大小。Informer[17]提出了ProbSparse Self-Attention,減少了模型運算時的時間復雜度和空間復雜度,以解決長序列時間序列預測問題(Long sequence time-series forecasting, LSTF)中隨著時間序列長度的增加模型性能和預測準確性下降的問題。

        1.2 狀態(tài)空間模型

        狀態(tài)空間模型(State Space Models)通過隱藏狀態(tài)lt∈L對數(shù)據(jù)的時間結構進行建模,該隱藏狀態(tài)可以用來對序列中的水平、趨勢或季節(jié)性模式等組成部分進行編碼,并且在預測時應用于單個時間序列。一般的狀態(tài)空間模型通常包括一個狀態(tài)轉移方程和一個觀測模型,狀態(tài)轉移方程描述了隱藏狀態(tài)隨時間變化的規(guī)律,即p(lt|lt-1);觀測模型則描述了給定隱藏狀態(tài)下觀測值的條件概率分布,即p(zt|lt)。

        SSMT使用的是線性高斯狀態(tài)空間模型,其狀態(tài)轉移方程為

        lt=Ftlt-1+ωtεt,εt~N(0,1)

        (1)

        觀測模型為

        zt=Htlt+bt+υtt,εt~N(0,1)

        (2)

        其中Ft∈L×L是狀態(tài)轉移矩陣,是狀態(tài)轉移噪聲的強度,Ht∈1×L以及bt∈是觀測模型的權重和偏置,υt∈+是觀測噪聲的強度。初始狀態(tài)

        綜上所述,線性高斯狀態(tài)空間模型完全由以下參數(shù)決定

        Θt=(Ft,Ht,ωt,bt,υt,μ0,σ0),?t>0

        (3)

        1.3 Temporal Fusion Transformers時序預測算法

        Temporal Fusion Transformers(TFT)是一種基于注意力機制的網(wǎng)絡新架構[18],它將高性能的多步時間預測與對時間動態(tài)的可解釋性洞察力結合起來。為了學習不同尺度的時間關系,TFT使用循環(huán)層進行局部處理,使用可解釋的自注意力層進行長期依賴學習。TFT利用專門的組件來選擇相關的特征,并利用一系列的門控層來抑制不必要的組件,從而在廣泛的場景中實現(xiàn)高性能表現(xiàn)。在各種真實世界的數(shù)據(jù)集上,TFT都展示了比現(xiàn)有基準更為顯著的性能改進。

        為了獲得比最先進的基準更顯著的性能改進,TFT引入了多種新的想法,以使該架構與多步時間預測中常見的所有潛在輸入和時間關系保持一致,具體而言,包括(1)靜態(tài)協(xié)變量編碼器(static covariate encoders),該編碼器對靜態(tài)變量進行編碼,以供網(wǎng)絡的其他部分使用;(2) 貫穿始終的門控機制和樣本相關變量選擇,以最小化不相關輸入的貢獻;(3) 通過使用sequence-to-sequence層,可以局部處理已知和觀察到的輸入;(4) 通過在時間上的自注意力解碼器,以學習數(shù)據(jù)集中存在的長期依賴。這些專門組件的使用也促進了可解釋性,特別是幫助用戶在識別(i)預測問題的全局重要變量、(ii)持續(xù)的時間模式,和(iii)重要事件這3個方面。

        2 SSMT模型

        針對使用Transformer架構模型進行時間序列預測在數(shù)據(jù)量不足的小數(shù)據(jù)集上準確率下降的問題,本文提出能夠將狀態(tài)空間模型與Temporal Fusion Transformers(TFT)模型融合后進行聯(lián)合預測,網(wǎng)絡結構如圖1所示。在訓練過程中,網(wǎng)絡的輸入是特征X1到XT,通過TFT Encoder進行編碼,然后在TFT Decoder中和輸入的時不變特征XT+1到XT+T一起計算出高斯狀態(tài)空間模型的參數(shù)ΘT+1到ΘT+T,最后根據(jù)已知的觀測值ZT到ZT+T,使用公式(4)到公式(13),通過最大化似然函數(shù)來更新模型參數(shù)。在預測時,X1到XT經過TFT Encoder編碼,再結合時不變特征XT+1到XT+T經過已經學習到參數(shù)Φ的網(wǎng)絡輸出預測值的概率分布,再經過多次采樣輸出預測值。

        圖1 SSMT模型架構

        具體來說,預測可分為3個步驟。

        第一步先將時間序列數(shù)據(jù)通過TFT架構,從而將特征映射為狀態(tài)空間模型的參數(shù);

        第二步再使用狀態(tài)空間模型預測序列在每個時間步上取值的概率分布;

        第三步通過對預測的概率分布進行多次采樣生成對未來一段時間數(shù)據(jù)的預測。

        SSMT正是通過這種網(wǎng)絡結構使模型能在大量的序列和特征中學習到相似的模式。

        2.1 模型原理

        SSMT通過學習一個對于所有時間序列共享的網(wǎng)絡參數(shù),直接用TFT網(wǎng)絡計算高斯狀態(tài)空間模型參數(shù)Θt=TFT(xt)。得到Θt后,觀測值Z1:T即按照下面的公式分布。

        p(Z1:T|Θ1:T,Φ)=pss(Z1:T|Θ1:T)

        (4)

        其中Φ為模型學習到的參數(shù),pss表示線性狀態(tài)空間模型下的邊際似然函數(shù),由以下公式可得出。

        (5)

        根據(jù)卡爾曼濾波,又可得到

        (6)

        公式(6)中各參數(shù)推導關系如下

        (7)

        (8)

        (9)

        (10)

        (11)

        (12)

        Pt|t=Pt|t-1-KtHtPt|t-1

        (13)

        2.2 模型訓練

        模型參數(shù)Φ是通過最大化訓練范圍內數(shù)據(jù)ZT+1:T+T的對數(shù)似然函數(shù)來學習的,似然函數(shù)如公式(4)所示。例如,最大化對數(shù)似然:Φ*=argmaxΦZ(Φ),其中

        Z(Φ)=∑logp(ZT+1:T+T|X1:T+T,Φ)

        =∑logpss(ZT+1:T+T|ΘT+1:T+T)

        (14)

        將公式的結果看作一個損失函數(shù)(值可能為負),用來衡量給定X1:T+T的情況下由TFT生成的高斯狀態(tài)空間模型參數(shù)ΘT+1:T+T與真實觀測值ZZT+1:T+T之間的兼容性。這些參數(shù)可以通過卡爾曼濾波用標準似然計算得出,如公式(7)~(13),它主要包含了矩陣和矩陣,矩陣和向量之間的運算,因此可以使用pytorch神經網(wǎng)絡框架來進行對數(shù)似然函數(shù)的計算,并基于梯度下降對模型參數(shù)進行優(yōu)化。

        2.3 模型預測

        在模型進行網(wǎng)絡參數(shù)學習之后,就可以利用學習到的網(wǎng)絡參數(shù)進行預測了,即解決了如下問題。

        p(ZT+1:T+γ|Z1:T,X1:T+T;Φ)

        (15)

        對給定的時間序列進行概率預測。

        在訓練步驟中,模型利用時間序列ZT+1:T+T通過卡爾曼濾波計算p(lT+1:T+T|ZT+1:T+T)來獲得高斯狀態(tài)空間模型的參數(shù)ΘT+1:T+T,下一步在預測時,模型通過不斷自循環(huán)獲得ΘT+1:T+γ,計算出預測值的高斯分布參數(shù),然后利用蒙特卡洛方法多次重復采樣后取平均來得到預測的期望值。

        3 實驗與結果分析

        3.1 實驗環(huán)境

        本次實驗使用的軟件環(huán)境為linux,Python 3.8,Pytorch1.11.0。硬件配置為Intel(R) Xeon(R) CPU E5-2680 v4和 GeForce RTXTM3090 GPU。

        3.2 數(shù)據(jù)集

        本次實驗為了評估相比傳統(tǒng)Transformer架構模型在較小噪聲數(shù)據(jù)集上的性能,這里使用了一個小數(shù)據(jù)集對金融數(shù)據(jù)的波動率進行了預測。具體數(shù)據(jù)集為oxfordmanrealizedvolatilityindices,它包含了31個股票指數(shù)每天已實現(xiàn)的波動率值以及它們的每日收益。這些波動率和收益值是通過每一天盤中數(shù)據(jù)計算出來的。在本次實驗中,使用了過去一年(即252個工作日)的信息對下周(即5個工作日)的數(shù)據(jù)進行預測。

        3.3 訓練流程

        筆者首先將數(shù)據(jù)集中的時間序列分成了3部分:用于學習使用的訓練集,用于調整超參數(shù)的驗證集以及用于性能評估使用的測試集。超參數(shù)優(yōu)化時使用的參數(shù)范圍如下所示:

        (1)Hidden size - 40,80,120,160,240,320;

        (2)Dropout rate - 0.1,0.2,0.3,0.4,0.5;

        (3)Batch size - 32,64,128,256;

        (4)Learning rate - 0.0001~0.01;

        (5)Gradient clip - 0.01,0.1,1.0,100.0;

        (6)Num heads -1,4。

        最終得到的模型最佳參數(shù)配置如表1所示。

        3.4 實驗結果

        筆者將SSTM與多種時序預測模型進行了比較,其中第一類是使用直接方法生成未來預測的模型,包括:(1)具有全局環(huán)境變量的簡單sequence-to-sequence模型(Seq2Seq);(2)Multi-horizon Quantile Recurrent Forecaster模型(MQRNN)。第二類是使用迭代方法的模型,包括:(1)DeepAR模型[2];(2)同樣基于Transformer架構的ConvTrans模型[8]。實驗結果如表2—3所示。在這里,筆者使用了歸一量化損失作為評價指標(P50和P90風險),計算方法見公式(16)和(17)。

        (16)

        (17)

        表1 模型參數(shù)配置

        表2 各模型在數(shù)據(jù)集上的P50 losses

        表3 各模型在數(shù)據(jù)集上的P90 losses

        從表2和表3可以看出,在實驗所采用的數(shù)據(jù)集上,SSMT所展現(xiàn)的效果優(yōu)于其他所有基準模型。在P50分位數(shù)上,SSMT的損失相比第二小的TFT降低了15%;在P90分位數(shù)上,SSMT的損失相比TFT也降低了15%。

        4 結語

        文章提出了一個在時間序列預測任務中相比傳統(tǒng)Transformer架構對小數(shù)據(jù)集更加友好的算法——SSMT,它使用Transformer架構與傳統(tǒng)統(tǒng)計學公式聯(lián)合所得,結合了Transformer對于長期依賴的學習以及并行化能力,通過使用深度學習技術從相關時間序列中有效地學習了狀態(tài)空間模型的參數(shù),并使用狀態(tài)空間模型計算出模型輸出的概率分布從而采樣得出最終結果。通過在現(xiàn)實世界金融數(shù)據(jù)的波動率數(shù)據(jù)集上測試表明該模型能夠在小數(shù)據(jù)集的預測上取得更為準確的結果,也顯示出將一般Transformer架構與高斯狀態(tài)空間模型相結合的好處。

        猜你喜歡
        集上架構狀態(tài)
        基于FPGA的RNN硬件加速架構
        功能架構在電子電氣架構開發(fā)中的應用和實踐
        汽車工程(2021年12期)2021-03-08 02:34:30
        Cookie-Cutter集上的Gibbs測度
        鏈完備偏序集上廣義向量均衡問題解映射的保序性
        狀態(tài)聯(lián)想
        生命的另一種狀態(tài)
        復扇形指標集上的分布混沌
        LSN DCI EVPN VxLAN組網(wǎng)架構研究及實現(xiàn)
        電信科學(2017年6期)2017-07-01 15:45:17
        熱圖
        家庭百事通(2016年3期)2016-03-14 08:07:17
        堅持是成功前的狀態(tài)
        山東青年(2016年3期)2016-02-28 14:25:52
        亚洲中文字幕一区精品| 在线视频 亚洲精品| 麻豆久久久国内精品| 狼人精品剧情av在线观看| 午夜三级a三级三点在线观看| 日韩在线一区二区三区免费视频 | 国产自拍在线观看视频| 色偷偷亚洲第一成人综合网址| 综合久久给合久久狠狠狠97色 | 天堂草原电视剧在线观看图片高清| 天天躁日日操狠狠操欧美老妇 | 亚洲中文字幕无码av永久| 国产福利酱国产一区二区| 国产视频网站一区二区三区| 亚洲精品中文字幕一二| 狠狠摸狠狠澡| 永久免费无码av在线网站| 国产亚洲日韩AV在线播放不卡| 亚洲一区二区国产一区| 亚欧色一区w666天堂| 日本免费人成视频播放| 国产精品很黄很色很爽的网站| 精品无码av无码专区| 成人片黄网站色大片免费观看cn| 亚洲韩国在线| 一本色道久久综合亚洲精品不| 亚洲精品~无码抽插| 黑人巨大videos极度另类| 亚洲日本视频一区二区三区| 亚洲悠悠色综合中文字幕| 国产97色在线 | 日韩| 国产精品久久久久影视不卡| 中文字幕东京热一区二区人妻少妇| 大ji巴好深好爽又大又粗视频| 亚洲国产无线乱码在线观看| 激情五月婷婷六月俺也去| 日本一区二区三级在线观看| 老师脱了内裤让我进去| 国产成人香蕉久久久久| 日本成人精品在线播放| 男人靠女人免费视频网站|