亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        SSMT:結(jié)合狀態(tài)空間模型和Transformer的時序預(yù)測算法

        2022-02-20 06:25:48劉立偉余紹俊
        無線互聯(lián)科技 2022年24期
        關(guān)鍵詞:集上架構(gòu)狀態(tài)

        劉立偉,余紹俊

        (1.云南師范大學(xué) 信息學(xué)院,云南 昆明 650500;2.昆明學(xué)院 信息工程學(xué)院,云南 昆明 650214)

        0 引言

        時間序列數(shù)據(jù)的預(yù)測問題在現(xiàn)實生活中隨處可見,其中涉及語音識別、噪聲控制和對股票市場的研究等,而時間序列預(yù)測的目的就是通過對給定的時間序列觀測數(shù)據(jù)進行估計,得出未來某一個特殊時刻點的數(shù)值以及概率分布,其本質(zhì)主要是根據(jù)前T個時間的觀察數(shù)據(jù)計算T+時間的序列值。這是風(fēng)險管理與投資決策領(lǐng)域的一個關(guān)鍵任務(wù),它在統(tǒng)計學(xué)、機器學(xué)習(xí)、數(shù)據(jù)挖掘、計量經(jīng)濟學(xué)、運籌學(xué)等許多領(lǐng)域都發(fā)揮著重要作用。比如,預(yù)測特定產(chǎn)品的供給情況可以用來進行存貨控制、車輛調(diào)度和拓?fù)湟?guī)劃,這對于供應(yīng)鏈優(yōu)化至關(guān)重要。

        時間序列預(yù)測的傳統(tǒng)統(tǒng)計學(xué)模型有 ARIMA 模型、指數(shù)平滑方法等。在現(xiàn)代預(yù)測中,傳統(tǒng)模型不具備從類似的時間序列數(shù)據(jù)集中推斷出共享模式,從而導(dǎo)致了過多的計算任務(wù)和大量的人力需求。因此,深度學(xué)習(xí)以其提取高級特征的能力進入了人們的視野。

        關(guān)于時序預(yù)測的深度學(xué)習(xí)方法可以分為使用自回歸模型的迭代方法[1-3]或基于序列到序列模型的直接方法[4]。隨著注意力機制的發(fā)展[5],長期依賴性學(xué)習(xí)獲得許多改進,其中Transformer架構(gòu)在多個自然語言處理應(yīng)用中實現(xiàn)了最先進的性能[6-8]。因此,基于Transformer的模型架構(gòu)獲得了越來越多的關(guān)注[3]。

        Transformer模型依靠注意力機制來映射輸入和輸出之間的全局依賴關(guān)系,從而擁有更強的并行化能力。遞歸模型固有的順序性阻礙了訓(xùn)練的并行化,而在較長序列的研究中,由于內(nèi)存的限制,并行化至關(guān)重要。Transformer使用的注意力機制使其成為時間序列預(yù)測的良好預(yù)選方法,因為它可以捕捉到長期和短期的依賴關(guān)系,并且不同的attention-heads可以學(xué)習(xí)到時間序列的不同方面。然而,機器學(xué)習(xí)方法容易出現(xiàn)過度擬合[9]。因此,較簡單的模型有可能在低數(shù)據(jù)狀態(tài)下做得更好,這在具有少量歷史觀測數(shù)據(jù)的預(yù)測問題中特別常見(例如季度性宏觀經(jīng)濟預(yù)測)。

        最近深度學(xué)習(xí)的一個趨勢是開發(fā)混合模型,混合模型在各種應(yīng)用中都顯示出比純統(tǒng)計或機器學(xué)習(xí)模型更好的性能[10-11]。混合方法將經(jīng)過充分研究的統(tǒng)計學(xué)模型與深度學(xué)習(xí)結(jié)合在一起,即使用深度神經(jīng)網(wǎng)絡(luò)在每個時間步驟生成傳統(tǒng)模型參數(shù)。混合模型利用先驗信息為神經(jīng)網(wǎng)絡(luò)訓(xùn)練提供信息,減少網(wǎng)絡(luò)的假設(shè)空間,提高泛化能力,因此對小數(shù)據(jù)集特別有用。因為在小數(shù)據(jù)集中,深度學(xué)習(xí)模型存在較大的過擬合風(fēng)險。

        為了在小數(shù)據(jù)集上獲得更好的預(yù)測效果,本文在現(xiàn)有算法的基礎(chǔ)上,提出了狀態(tài)空間模型Transformer聯(lián)合的時間序列預(yù)測算法并命名為SSMT。具體貢獻如下:(1)充分運用狀態(tài)空間模型Transformer的優(yōu)勢設(shè)計了一個全新的時序預(yù)測算法,并在OMI realized library數(shù)據(jù)集中通過預(yù)測股票指數(shù)的波動展現(xiàn)了比現(xiàn)在最先進的基準(zhǔn)更為優(yōu)秀的效果。(2)通過使用Transformer將數(shù)據(jù)特征映射為狀態(tài)空間模型的參數(shù),使算法具有更強的先驗信息,從而在小數(shù)據(jù)集上具有更好的效果。(3)針對在時序預(yù)測過程中,RNN網(wǎng)絡(luò)所存在的對長期依賴學(xué)習(xí)能力較差以及對內(nèi)存約束導(dǎo)致速度下降等問題,充分展現(xiàn)了Transformer對長短期時間序列的學(xué)習(xí)和并行化計算能力。

        1 相關(guān)文獻

        1.1 時序預(yù)測研究

        由于時序預(yù)測的廣泛應(yīng)用,人們提出了各種方法來解決預(yù)測問題。其中ARIMA[12]是最突出的模型之一。它的統(tǒng)計特性以及模型選擇過程中的Box-Jenkins方法[13]使其成為研究人員的第一個嘗試。然而,其采用的線性假設(shè)和有限的可擴展性使其不適合大規(guī)模的預(yù)測任務(wù)。此外,由于每個時間序列都是單獨擬合的,所以類似的時間序列之間的信息不能共享。為了解決這個問題,Temporal Regularized Matrix Factorization[14](TRMF)將相關(guān)的時間序列數(shù)據(jù)建模為一個矩陣,并將預(yù)測作為一個矩陣分解問題來處理。Effective bayesian modeling of groups[15]中提出了分層貝葉斯方法,從圖模型的角度在多個相關(guān)的時間序列中進行學(xué)習(xí)。

        深度神經(jīng)網(wǎng)絡(luò)的出現(xiàn),使研究者可以使用它捕捉相關(guān)時間序列的共享信息,從而進行準(zhǔn)確的預(yù)測。Deepar[2]通過編碼器-解碼器的方式對概率分布進行建模,使用堆疊的長短期記憶[16](Long Short-Term Memory, LSTM)層來生成一步到位的高斯概率分布的預(yù)測,將傳統(tǒng)的AR模型與RNN融合在一起。相反,Multi-horizon Quantile Recurrent Forecaster(MQ-RNN)使用循環(huán)神經(jīng)網(wǎng)絡(luò)作為編碼器,多層感知器(MLPs)作為解碼器,以解決所謂的誤差積累問題,并且并行進行多步預(yù)測。Deep factors with gaussian processes中對每個時間序列使用局部高斯過程處理噪聲,同時使用全局RNN對共享模式進行建模。

        最近,基于Transformer架構(gòu)的自注意力機制(self-attention)被用于序列建模,并取得了一定成果。ConvTrans[3]提出使用卷積層進行局部處理,并使用稀疏注意機制來增加預(yù)測期間的感受野的大小。Informer[17]提出了ProbSparse Self-Attention,減少了模型運算時的時間復(fù)雜度和空間復(fù)雜度,以解決長序列時間序列預(yù)測問題(Long sequence time-series forecasting, LSTF)中隨著時間序列長度的增加模型性能和預(yù)測準(zhǔn)確性下降的問題。

        1.2 狀態(tài)空間模型

        狀態(tài)空間模型(State Space Models)通過隱藏狀態(tài)lt∈L對數(shù)據(jù)的時間結(jié)構(gòu)進行建模,該隱藏狀態(tài)可以用來對序列中的水平、趨勢或季節(jié)性模式等組成部分進行編碼,并且在預(yù)測時應(yīng)用于單個時間序列。一般的狀態(tài)空間模型通常包括一個狀態(tài)轉(zhuǎn)移方程和一個觀測模型,狀態(tài)轉(zhuǎn)移方程描述了隱藏狀態(tài)隨時間變化的規(guī)律,即p(lt|lt-1);觀測模型則描述了給定隱藏狀態(tài)下觀測值的條件概率分布,即p(zt|lt)。

        SSMT使用的是線性高斯?fàn)顟B(tài)空間模型,其狀態(tài)轉(zhuǎn)移方程為

        lt=Ftlt-1+ωtεt,εt~N(0,1)

        (1)

        觀測模型為

        zt=Htlt+bt+υtt,εt~N(0,1)

        (2)

        其中Ft∈L×L是狀態(tài)轉(zhuǎn)移矩陣,是狀態(tài)轉(zhuǎn)移噪聲的強度,Ht∈1×L以及bt∈是觀測模型的權(quán)重和偏置,υt∈+是觀測噪聲的強度。初始狀態(tài)

        綜上所述,線性高斯?fàn)顟B(tài)空間模型完全由以下參數(shù)決定

        Θt=(Ft,Ht,ωt,bt,υt,μ0,σ0),?t>0

        (3)

        1.3 Temporal Fusion Transformers時序預(yù)測算法

        Temporal Fusion Transformers(TFT)是一種基于注意力機制的網(wǎng)絡(luò)新架構(gòu)[18],它將高性能的多步時間預(yù)測與對時間動態(tài)的可解釋性洞察力結(jié)合起來。為了學(xué)習(xí)不同尺度的時間關(guān)系,TFT使用循環(huán)層進行局部處理,使用可解釋的自注意力層進行長期依賴學(xué)習(xí)。TFT利用專門的組件來選擇相關(guān)的特征,并利用一系列的門控層來抑制不必要的組件,從而在廣泛的場景中實現(xiàn)高性能表現(xiàn)。在各種真實世界的數(shù)據(jù)集上,TFT都展示了比現(xiàn)有基準(zhǔn)更為顯著的性能改進。

        為了獲得比最先進的基準(zhǔn)更顯著的性能改進,TFT引入了多種新的想法,以使該架構(gòu)與多步時間預(yù)測中常見的所有潛在輸入和時間關(guān)系保持一致,具體而言,包括(1)靜態(tài)協(xié)變量編碼器(static covariate encoders),該編碼器對靜態(tài)變量進行編碼,以供網(wǎng)絡(luò)的其他部分使用;(2) 貫穿始終的門控機制和樣本相關(guān)變量選擇,以最小化不相關(guān)輸入的貢獻;(3) 通過使用sequence-to-sequence層,可以局部處理已知和觀察到的輸入;(4) 通過在時間上的自注意力解碼器,以學(xué)習(xí)數(shù)據(jù)集中存在的長期依賴。這些專門組件的使用也促進了可解釋性,特別是幫助用戶在識別(i)預(yù)測問題的全局重要變量、(ii)持續(xù)的時間模式,和(iii)重要事件這3個方面。

        2 SSMT模型

        針對使用Transformer架構(gòu)模型進行時間序列預(yù)測在數(shù)據(jù)量不足的小數(shù)據(jù)集上準(zhǔn)確率下降的問題,本文提出能夠?qū)顟B(tài)空間模型與Temporal Fusion Transformers(TFT)模型融合后進行聯(lián)合預(yù)測,網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。在訓(xùn)練過程中,網(wǎng)絡(luò)的輸入是特征X1到XT,通過TFT Encoder進行編碼,然后在TFT Decoder中和輸入的時不變特征XT+1到XT+T一起計算出高斯?fàn)顟B(tài)空間模型的參數(shù)ΘT+1到ΘT+T,最后根據(jù)已知的觀測值ZT到ZT+T,使用公式(4)到公式(13),通過最大化似然函數(shù)來更新模型參數(shù)。在預(yù)測時,X1到XT經(jīng)過TFT Encoder編碼,再結(jié)合時不變特征XT+1到XT+T經(jīng)過已經(jīng)學(xué)習(xí)到參數(shù)Φ的網(wǎng)絡(luò)輸出預(yù)測值的概率分布,再經(jīng)過多次采樣輸出預(yù)測值。

        圖1 SSMT模型架構(gòu)

        具體來說,預(yù)測可分為3個步驟。

        第一步先將時間序列數(shù)據(jù)通過TFT架構(gòu),從而將特征映射為狀態(tài)空間模型的參數(shù);

        第二步再使用狀態(tài)空間模型預(yù)測序列在每個時間步上取值的概率分布;

        第三步通過對預(yù)測的概率分布進行多次采樣生成對未來一段時間數(shù)據(jù)的預(yù)測。

        SSMT正是通過這種網(wǎng)絡(luò)結(jié)構(gòu)使模型能在大量的序列和特征中學(xué)習(xí)到相似的模式。

        2.1 模型原理

        SSMT通過學(xué)習(xí)一個對于所有時間序列共享的網(wǎng)絡(luò)參數(shù),直接用TFT網(wǎng)絡(luò)計算高斯?fàn)顟B(tài)空間模型參數(shù)Θt=TFT(xt)。得到Θt后,觀測值Z1:T即按照下面的公式分布。

        p(Z1:T|Θ1:T,Φ)=pss(Z1:T|Θ1:T)

        (4)

        其中Φ為模型學(xué)習(xí)到的參數(shù),pss表示線性狀態(tài)空間模型下的邊際似然函數(shù),由以下公式可得出。

        (5)

        根據(jù)卡爾曼濾波,又可得到

        (6)

        公式(6)中各參數(shù)推導(dǎo)關(guān)系如下

        (7)

        (8)

        (9)

        (10)

        (11)

        (12)

        Pt|t=Pt|t-1-KtHtPt|t-1

        (13)

        2.2 模型訓(xùn)練

        模型參數(shù)Φ是通過最大化訓(xùn)練范圍內(nèi)數(shù)據(jù)ZT+1:T+T的對數(shù)似然函數(shù)來學(xué)習(xí)的,似然函數(shù)如公式(4)所示。例如,最大化對數(shù)似然:Φ*=argmaxΦZ(Φ),其中

        Z(Φ)=∑logp(ZT+1:T+T|X1:T+T,Φ)

        =∑logpss(ZT+1:T+T|ΘT+1:T+T)

        (14)

        將公式的結(jié)果看作一個損失函數(shù)(值可能為負(fù)),用來衡量給定X1:T+T的情況下由TFT生成的高斯?fàn)顟B(tài)空間模型參數(shù)ΘT+1:T+T與真實觀測值ZZT+1:T+T之間的兼容性。這些參數(shù)可以通過卡爾曼濾波用標(biāo)準(zhǔn)似然計算得出,如公式(7)~(13),它主要包含了矩陣和矩陣,矩陣和向量之間的運算,因此可以使用pytorch神經(jīng)網(wǎng)絡(luò)框架來進行對數(shù)似然函數(shù)的計算,并基于梯度下降對模型參數(shù)進行優(yōu)化。

        2.3 模型預(yù)測

        在模型進行網(wǎng)絡(luò)參數(shù)學(xué)習(xí)之后,就可以利用學(xué)習(xí)到的網(wǎng)絡(luò)參數(shù)進行預(yù)測了,即解決了如下問題。

        p(ZT+1:T+γ|Z1:T,X1:T+T;Φ)

        (15)

        對給定的時間序列進行概率預(yù)測。

        在訓(xùn)練步驟中,模型利用時間序列ZT+1:T+T通過卡爾曼濾波計算p(lT+1:T+T|ZT+1:T+T)來獲得高斯?fàn)顟B(tài)空間模型的參數(shù)ΘT+1:T+T,下一步在預(yù)測時,模型通過不斷自循環(huán)獲得ΘT+1:T+γ,計算出預(yù)測值的高斯分布參數(shù),然后利用蒙特卡洛方法多次重復(fù)采樣后取平均來得到預(yù)測的期望值。

        3 實驗與結(jié)果分析

        3.1 實驗環(huán)境

        本次實驗使用的軟件環(huán)境為linux,Python 3.8,Pytorch1.11.0。硬件配置為Intel(R) Xeon(R) CPU E5-2680 v4和 GeForce RTXTM3090 GPU。

        3.2 數(shù)據(jù)集

        本次實驗為了評估相比傳統(tǒng)Transformer架構(gòu)模型在較小噪聲數(shù)據(jù)集上的性能,這里使用了一個小數(shù)據(jù)集對金融數(shù)據(jù)的波動率進行了預(yù)測。具體數(shù)據(jù)集為oxfordmanrealizedvolatilityindices,它包含了31個股票指數(shù)每天已實現(xiàn)的波動率值以及它們的每日收益。這些波動率和收益值是通過每一天盤中數(shù)據(jù)計算出來的。在本次實驗中,使用了過去一年(即252個工作日)的信息對下周(即5個工作日)的數(shù)據(jù)進行預(yù)測。

        3.3 訓(xùn)練流程

        筆者首先將數(shù)據(jù)集中的時間序列分成了3部分:用于學(xué)習(xí)使用的訓(xùn)練集,用于調(diào)整超參數(shù)的驗證集以及用于性能評估使用的測試集。超參數(shù)優(yōu)化時使用的參數(shù)范圍如下所示:

        (1)Hidden size - 40,80,120,160,240,320;

        (2)Dropout rate - 0.1,0.2,0.3,0.4,0.5;

        (3)Batch size - 32,64,128,256;

        (4)Learning rate - 0.0001~0.01;

        (5)Gradient clip - 0.01,0.1,1.0,100.0;

        (6)Num heads -1,4。

        最終得到的模型最佳參數(shù)配置如表1所示。

        3.4 實驗結(jié)果

        筆者將SSTM與多種時序預(yù)測模型進行了比較,其中第一類是使用直接方法生成未來預(yù)測的模型,包括:(1)具有全局環(huán)境變量的簡單sequence-to-sequence模型(Seq2Seq);(2)Multi-horizon Quantile Recurrent Forecaster模型(MQRNN)。第二類是使用迭代方法的模型,包括:(1)DeepAR模型[2];(2)同樣基于Transformer架構(gòu)的ConvTrans模型[8]。實驗結(jié)果如表2—3所示。在這里,筆者使用了歸一量化損失作為評價指標(biāo)(P50和P90風(fēng)險),計算方法見公式(16)和(17)。

        (16)

        (17)

        表1 模型參數(shù)配置

        表2 各模型在數(shù)據(jù)集上的P50 losses

        表3 各模型在數(shù)據(jù)集上的P90 losses

        從表2和表3可以看出,在實驗所采用的數(shù)據(jù)集上,SSMT所展現(xiàn)的效果優(yōu)于其他所有基準(zhǔn)模型。在P50分位數(shù)上,SSMT的損失相比第二小的TFT降低了15%;在P90分位數(shù)上,SSMT的損失相比TFT也降低了15%。

        4 結(jié)語

        文章提出了一個在時間序列預(yù)測任務(wù)中相比傳統(tǒng)Transformer架構(gòu)對小數(shù)據(jù)集更加友好的算法——SSMT,它使用Transformer架構(gòu)與傳統(tǒng)統(tǒng)計學(xué)公式聯(lián)合所得,結(jié)合了Transformer對于長期依賴的學(xué)習(xí)以及并行化能力,通過使用深度學(xué)習(xí)技術(shù)從相關(guān)時間序列中有效地學(xué)習(xí)了狀態(tài)空間模型的參數(shù),并使用狀態(tài)空間模型計算出模型輸出的概率分布從而采樣得出最終結(jié)果。通過在現(xiàn)實世界金融數(shù)據(jù)的波動率數(shù)據(jù)集上測試表明該模型能夠在小數(shù)據(jù)集的預(yù)測上取得更為準(zhǔn)確的結(jié)果,也顯示出將一般Transformer架構(gòu)與高斯?fàn)顟B(tài)空間模型相結(jié)合的好處。

        猜你喜歡
        集上架構(gòu)狀態(tài)
        基于FPGA的RNN硬件加速架構(gòu)
        功能架構(gòu)在電子電氣架構(gòu)開發(fā)中的應(yīng)用和實踐
        汽車工程(2021年12期)2021-03-08 02:34:30
        Cookie-Cutter集上的Gibbs測度
        鏈完備偏序集上廣義向量均衡問題解映射的保序性
        狀態(tài)聯(lián)想
        生命的另一種狀態(tài)
        復(fù)扇形指標(biāo)集上的分布混沌
        LSN DCI EVPN VxLAN組網(wǎng)架構(gòu)研究及實現(xiàn)
        熱圖
        家庭百事通(2016年3期)2016-03-14 08:07:17
        堅持是成功前的狀態(tài)
        山東青年(2016年3期)2016-02-28 14:25:52
        日本老熟欧美老熟妇| 国产三级不卡一区不卡二区在线| 久久亚洲av成人无码电影| 国产免费人成视频在线观看| 视频一区欧美| 亚洲区福利视频免费看| 国产日产在线视频一区| 无码国产69精品久久久久孕妇| 欧美黑人又粗又大久久久| 人妻中文字幕一区二区二区| 成人av一区二区三区四区| 国模冰莲极品自慰人体| 亚洲精品久久无码av片软件 | 欧美大肥婆大肥bbbbb| 午夜a福利| 91羞射短视频在线观看 | 国产一毛片| 一区二区黄色素人黄色| 国产精品日日做人人爱| 熟妇的荡欲色综合亚洲| 春色成人在线一区av| 少妇被猛烈进入中文字幕| 肉色欧美久久久久久久免费看| 18级成人毛片免费观看| 男人的av天堂狠狠操| 亚洲国产精品成人av网| 亚洲男人av天堂午夜在| 亚洲色欲大片AAA无码| 国产日本精品一区二区免费| 少妇人妻中文字幕hd| 久久国产36精品色熟妇| 亚洲一区二区av偷偷| 亚洲精品中文字幕乱码影院| 三级特黄60分钟在线观看| 成人日韩av不卡在线观看| 日韩在线不卡一区三区av| 国产md视频一区二区三区| 免费在线视频一区| 国产黄色三级三级三级看三级| 欧美黑人又粗又大xxxx| 免费无码肉片在线观看|