亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于ARIMA和AT-LSTM組合模型的股票價(jià)格預(yù)測(cè)

        2022-05-31 15:26:24張怡
        電腦知識(shí)與技術(shù) 2022年11期

        摘要:ARIMA、LSTM等多種預(yù)測(cè)模型已在時(shí)間序列預(yù)測(cè)中得到應(yīng)用,預(yù)測(cè)精度參差不齊。ARIMA、LSTM以及ARIMA-LSTM組合模型的預(yù)測(cè)精度仍有提升空間。為L(zhǎng)STM引入注意力機(jī)制形成AT-LSTM模型,將ARIMA的預(yù)測(cè)殘差引入AT-LSTM,進(jìn)一步提高預(yù)測(cè)精度。利用不同的評(píng)估方法對(duì)混合模型進(jìn)行評(píng)估,實(shí)驗(yàn)結(jié)果表明ARIMA和AT-LSTM組合模型的誤差降低4倍,預(yù)測(cè)精度得到了提高。

        關(guān)鍵詞:時(shí)間序列預(yù)測(cè);ARIMA;LSTM;組合模型

        中圖分類(lèi)號(hào):TP391? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A

        文章編號(hào):1009-3044(2022)11-0118-04

        1? 引言

        在時(shí)間序列預(yù)測(cè)方面,最常見(jiàn)的便是ARIMA模型,ARIMA是在20世紀(jì)70年代由George Box和Gwilyn Jenkins提出的一種著名的時(shí)間序列預(yù)測(cè)方法,ARIMA模型是一種線(xiàn)性序列預(yù)測(cè)模型,受到輸入的時(shí)間序列特征的限制,在處理平穩(wěn)的時(shí)間序列上有很好的效果,但在處理非平穩(wěn)數(shù)據(jù)上,其預(yù)測(cè)結(jié)果存在很多噪聲,導(dǎo)致預(yù)測(cè)結(jié)果無(wú)法使用。

        在1997年Sepp Hochreiter 與 Jürgen Schmidhuber[1]聯(lián)合提出了LSTM模型,經(jīng)過(guò)了20多年發(fā)展,LSTM在語(yǔ)言識(shí)別、文本處理、機(jī)器翻譯、時(shí)間序列預(yù)測(cè)等方面得到了廣泛應(yīng)用。但LSTM也有其局限性,因?yàn)長(zhǎng)STM主要是隨著時(shí)間推移進(jìn)行順序處理,在面對(duì)很長(zhǎng)的序列時(shí)處理起來(lái)存在問(wèn)題。Dzmitry Bahdanau[2]在2105年提出注意力模型,并應(yīng)用在機(jī)器翻譯上,有效解決了LSTM在較長(zhǎng)序列處理上的問(wèn)題, Qin[3]使用基于雙階段注意力機(jī)制的RNN模型進(jìn)行了時(shí)間序列預(yù)測(cè),證實(shí)了注意力機(jī)制在時(shí)間序列預(yù)測(cè)方面的可行性。

        股票價(jià)格是一個(gè)動(dòng)態(tài)、非線(xiàn)性復(fù)雜系統(tǒng),具有突發(fā)性、隨機(jī)性和規(guī)律復(fù)雜性等特點(diǎn)[4]。僅使用ARIMA模型對(duì)股票價(jià)格進(jìn)行預(yù)測(cè)很顯然無(wú)法取得很好效果,Zhang[5]在2003年提出ARIMA與LSTM神經(jīng)網(wǎng)絡(luò)模型組成混合模型可大幅提高預(yù)測(cè)精度,他認(rèn)為以往傳統(tǒng)的預(yù)測(cè)模型,例如ARIMA,是一種線(xiàn)性模型,擅長(zhǎng)處理時(shí)間序列中的線(xiàn)性部分,LSTM神經(jīng)網(wǎng)絡(luò)模型是一直非線(xiàn)性模型,可以更好地處理時(shí)間序列中的非線(xiàn)性部分,ARIMA-LSTM混合模型便是這一思想的重要成果之一。

        本文將以中國(guó)石油、中國(guó)石化兩家公司近9年的當(dāng)日股票交易收盤(pán)價(jià)為數(shù)據(jù)集,使用引入注意力機(jī)制的ARIMA-LSTM模型進(jìn)行預(yù)測(cè),并將預(yù)測(cè)結(jié)果與ARIMA模型、LSTM模型的預(yù)測(cè)結(jié)果進(jìn)行對(duì)比。

        2 模型介紹

        2.1 ARIMA模型

        ARIMA模型,即差分整合移動(dòng)平均自回歸模型,是時(shí)間序列預(yù)測(cè)常用的一種模型。

        ARIMA(p,d,q),其中AR是自回歸,p為自回歸項(xiàng)數(shù);MA為移動(dòng)平均,q為移動(dòng)平均項(xiàng)數(shù);d為使非平穩(wěn)的時(shí)間序列變?yōu)槠椒€(wěn)的時(shí)間序列需要進(jìn)行的差分次數(shù)。

        ARIMA模型的表現(xiàn)形式為[5]:

        [yt=μ+i=1pγiyt-i+εt+i=1qθiεt-1]? ? ? ? ? ?(1)

        式中:[yt]—當(dāng)前值;

        [μ]—常數(shù)項(xiàng);

        [p]—自回歸的階數(shù);

        [q]—移動(dòng)平均的階數(shù);

        [εt]—隨機(jī)擾動(dòng)項(xiàng)序列;

        2.2 Augmented Dicky-Fuller(ADF)檢驗(yàn)

        在使用ARIMA模型時(shí)需要所輸入的時(shí)間序列是平穩(wěn)的,所以在輸入之前,需對(duì)時(shí)間序列進(jìn)行檢測(cè),ADF檢驗(yàn)是一種比較常用的統(tǒng)計(jì)檢測(cè)方法。

        在一個(gè)自回歸過(guò)程中:[yt=byt-1+a+εt],如果滯后項(xiàng)系數(shù)b=1,則稱(chēng)為單位根。通過(guò)ADF檢驗(yàn)判斷序列中是否存在單位根,若不存在單位根,則序列平穩(wěn);否則,序列不平穩(wěn)。

        通過(guò)差分之后ADF檢驗(yàn),可以判斷序列經(jīng)過(guò)幾次后形成平穩(wěn)的時(shí)間序列,從而得出差分次數(shù)d。

        2.3 LSTM模型

        1997年LSTM模型的提出很好地解決了RNN會(huì)出現(xiàn)梯度爆炸和消失的問(wèn)題,LSTM模型使用了若干特殊的“門(mén)”,分別為輸入門(mén)、輸出門(mén)和遺忘門(mén)。LSTM模型結(jié)構(gòu)如圖1所示。

        LSTM模型前向計(jì)算方法可表示為[1]:

        輸入門(mén):

        [it=σ(Wxixt+Whiht-1+WCiCt-1+bi)]? ? ? ? (2)

        遺忘門(mén):

        [ft=σ(Wxfxt+Whfht-1+WCfCt-1+bf)]? ? ? ? ? ? ? (3)

        細(xì)胞狀態(tài):

        [Ct=ft⊙Ct-1+it⊙tanh(WxCxt+WhCht-1+bC)]? ? ?(4)

        輸出門(mén):

        [Ot=σ(WxOxt+WhOht-1+WCOCt-1+bO)]? ? ? ?(5)

        隱藏層狀態(tài):

        [ht=Ot⊙tanh(Ct)]? ? ? ? ? ? ? ? ? ? ? (6)

        以上式中:[W]—門(mén)的權(quán)重向量;

        [b]—偏置量;

        [σ]—sigmoid激活函數(shù);

        [tanh]—雙曲正切激活函數(shù);

        2.4 AT-LSTM模型

        Qin認(rèn)為時(shí)序預(yù)測(cè)問(wèn)題可能會(huì)有眾多的外部變量,網(wǎng)絡(luò)可能無(wú)法精確地選擇相關(guān)變量。同時(shí),Qin受到一些人類(lèi)注意力的啟發(fā),認(rèn)為雙階段的注意力模型能很好地模擬人類(lèi)行為,并將這種雙階段注意力機(jī)制引入到RNN中,形成DA-RNN(Dual-Stage Attention-Based RNN) 模型[3]。

        整個(gè)模型可以分為兩部分,第一部分引入input attention mechanism對(duì)每一時(shí)刻的外部輸入自適應(yīng)性地提取相關(guān)性,結(jié)構(gòu)如圖2[3];第二部分引入temporal attention mechanism捕獲encoder的長(zhǎng)期時(shí)序依賴(lài)信息,結(jié)構(gòu)如圖3[3]。

        模型的輸入是[(x1,x2...xt)],每個(gè)x都是包含n個(gè)特征的向量,給定一個(gè)目標(biāo)序列[(y1,y2...yt-1)] ,通過(guò)[yt∧=F(y1,y2...yt-1,x1,x2...xt)],得到最終的預(yù)測(cè)值,相當(dāng)于用多變量來(lái)預(yù)測(cè)單變量。

        本文所使用的AT-LSTM使用DA-RNN的temporal attention? mechanism為seq2seq的decoder引入注意力機(jī)制,從而避免seq2seq因過(guò)長(zhǎng)序列導(dǎo)致性能下降。

        在temporal attention? mechanism中,需要將t時(shí)間之前的隱藏層狀態(tài)[dt-1]和LSTM單元的細(xì)胞狀態(tài)[C't-1]作為該層的輸入,通過(guò)計(jì)算得到:

        [lit=vTdtanh(Wd[dt-1;C't-1]+Udhi)] 1≤i≤T? ? ? ? ? ?(7)

        通過(guò) softmax 層,我們可以得到第 i 個(gè)decoder隱藏狀態(tài)[hi]和注意力權(quán)重[βit]。

        [βit=exp(lit)j=1Texp(ljt)]? ? ? ? ? (8)

        解碼器對(duì)所有的decoder的隱藏狀態(tài)按照權(quán)重求和得到帶有注意力的隱藏層狀態(tài)[Ct]。

        [Ct=k=1Tβkthk]? ? ? ? ? ? ? ?(9)

        將[[C1],[C2]...[Ct]]和目標(biāo)序列結(jié)合起來(lái)得到:

        [y~t-1=Wd[yt-1;Ct-1]+b~]? ? ? ? ?(10)

        利用新計(jì)算得到的[y~t-1],更新decoder的隱藏層狀態(tài)。

        [dt=LSTM(dt-1,y~t-1)]? ? ? ? ? ? ?(11)

        最終可以計(jì)算出T時(shí)刻的預(yù)測(cè)值

        [y~T=vTy(Wy[dT;CT]+bW)+bv]? ? ? ? ? ? ?(12)

        2.5 ARIMA和AT-LSTM組合模型

        組合模型由兩部分組成,第一部分為ARIMA模型,利用ARIMA模型對(duì)時(shí)間序列進(jìn)行初步預(yù)測(cè),生成預(yù)測(cè)結(jié)果[T1]和殘差序列[T2];第二部分為AT-LSTM模型,將第一部分生成的殘差序列[T1]作為AT-LSTM模型的輸入,利用AT-LSTM模型進(jìn)行處理和預(yù)測(cè),得到新的預(yù)測(cè)結(jié)果[T3],將兩次預(yù)測(cè)結(jié)果[T1]和[T3]相結(jié)合便得到ARIMA和AT-LSTM組合模型的預(yù)測(cè)結(jié)果。

        2.6 模型評(píng)估

        使用均方差(MSE)、均方根誤差(RMSE)、平均絕對(duì)誤差(MAE)和平均絕對(duì)百分比誤差(MAPE)對(duì)模型進(jìn)行評(píng)估。

        已知真實(shí)值序列[[y1,y2...yn]],運(yùn)行模型后得到預(yù)測(cè)值序列[[y∧1,y∧2...y∧n]]。

        對(duì)于MSE有:

        [MSE=1ni=1n(y∧i-yi)]? ? ? ? ? (13)

        誤差越大,MSE值越大,反之,模型的預(yù)測(cè)結(jié)果越精確。

        對(duì)于RMSE有:

        [RMSE=1ni=1n(y∧i-yi)]? ? ? z? ? ?(14)

        RMSE作為 MSE 的一種輔助評(píng)價(jià)方法,適用于某些預(yù)測(cè)值損失更大的情況。

        對(duì)于MAE有:

        [MAE=1ni=1n|y∧i-yi|]? ? ? ? ? ? ?(15)

        利用MAE來(lái)測(cè)量觀測(cè)值與真實(shí)值之間的絕對(duì)誤差的平均值。

        對(duì)于MAPE有:

        [MAPE=100%ni=1n|y∧i-yiyi|]? ? ? ? ? ? ?(16)

        3 實(shí)驗(yàn)

        3.1 原始數(shù)據(jù)描述

        對(duì)ARIMA模型,預(yù)先劃分訓(xùn)練集和驗(yàn)證集。在AT-LSTM模型中,通過(guò)設(shè)定windows_size,采用窗口滑動(dòng)的方式生成訓(xùn)練集和驗(yàn)證集。例如windows_size = 4,那么將前4個(gè)樣本數(shù)據(jù)作為訓(xùn)練集訓(xùn)練模型,并預(yù)測(cè)第5個(gè)值,而第5個(gè)樣本數(shù)據(jù)作為驗(yàn)證集對(duì)預(yù)測(cè)值進(jìn)行檢驗(yàn)。

        3.2 建立ARIMA模型及線(xiàn)性預(yù)測(cè)

        利用Augmented Dicky-Fuller(ADF)檢驗(yàn)對(duì)兩個(gè)原始數(shù)據(jù)集進(jìn)行檢驗(yàn),結(jié)果如下:

        由ADF檢驗(yàn)結(jié)果得,兩個(gè)數(shù)據(jù)集均需進(jìn)行差分,對(duì)一階差分進(jìn)行ADF檢驗(yàn),結(jié)果如下:

        從原始數(shù)據(jù)集一階差分ADF檢驗(yàn)結(jié)果可以得出,兩個(gè)數(shù)據(jù)集在一階差分后已平穩(wěn),無(wú)須再進(jìn)行拆分。

        通過(guò)繪制兩個(gè)數(shù)據(jù)集一階差分后的自相關(guān)(ACF)圖和偏自相關(guān)(PACF)圖確定ARIMA模型的自回歸的階數(shù)p和移動(dòng)平均的階數(shù)q的可能組合,再利用循環(huán)函數(shù),迭代嘗試不同組合AIC值,選取AIC值最小的組合。

        對(duì)中國(guó)石油數(shù)據(jù)集進(jìn)行預(yù)測(cè)使用ARIMA(5,1,0)模型,對(duì)中國(guó)石化數(shù)據(jù)集進(jìn)行預(yù)測(cè)使用ARIMA(1,1,3)模型。

        3.3 利用AT-LSTM進(jìn)行非線(xiàn)性預(yù)測(cè)

        通過(guò)ARIMA對(duì)數(shù)據(jù)集進(jìn)行線(xiàn)性預(yù)測(cè),生成了殘差序列,并將殘差序列作為非線(xiàn)性預(yù)測(cè)的輸入序列代入到AT-LSTM模型中。

        在AT-LSTM首輪訓(xùn)練和預(yù)測(cè)中,使用了以下可調(diào)參數(shù):

        實(shí)驗(yàn)只對(duì)收盤(pán)價(jià)進(jìn)行預(yù)測(cè),所以模型的輸入和輸出維度均為1,AT-LSTM的層數(shù)設(shè)置為了1層。初始學(xué)習(xí)率設(shè)置為0.001,并使用Adam算法在訓(xùn)練過(guò)程中對(duì)學(xué)習(xí)率進(jìn)行動(dòng)態(tài)調(diào)整。

        預(yù)測(cè)結(jié)果如圖所示。

        從預(yù)測(cè)結(jié)果圖片得出,兩組ARIMA和AT-LSTM組合模型對(duì)數(shù)據(jù)集的擬合程度很好。接下來(lái)通過(guò)設(shè)置不同可調(diào)參數(shù)的組合,利用MSE、RMSE、MAE和MAPE對(duì)模型進(jìn)行評(píng)估,并將ARIMA、LSTM和組合模型的評(píng)價(jià)結(jié)果進(jìn)行對(duì)比。結(jié)果如表格所示。

        從表5可以總結(jié)出window_size和hidden_size的變化對(duì)模型的預(yù)測(cè)精度影響較其他參數(shù)大。Window_size的變化直接影響到AT-LSTM模型訓(xùn)練集和驗(yàn)證集的大小,對(duì)AT-LSTM的訓(xùn)練產(chǎn)生影響。Hidden_size決定了AT-LSTM模型的復(fù)雜度,hidden_size越大,AT-LSTM模型越復(fù)雜。所以選擇更加合適的window_size和hidden_size將使得組合模型的預(yù)測(cè)精度進(jìn)一步提高。

        4 結(jié)束語(yǔ)

        實(shí)驗(yàn)結(jié)果表明,ARIMA和AT-LSTM組合模型較單個(gè)模型,預(yù)測(cè)誤差平均降低4倍。本次實(shí)驗(yàn)使用的數(shù)據(jù)集大小為千位級(jí),后續(xù)可嘗試使用更大數(shù)據(jù)集對(duì)模型進(jìn)行驗(yàn)證;本次實(shí)驗(yàn)僅僅只是對(duì)股票交易中的“收盤(pán)價(jià)”進(jìn)行了預(yù)測(cè),對(duì)股票交易記錄的其他維度進(jìn)行預(yù)測(cè)也具有價(jià)值。實(shí)驗(yàn)結(jié)果也表明單獨(dú)使用LSTM模型在某種情況預(yù)測(cè)精度比ARIMA和AT-LSTM組合模型更高,說(shuō)明該模型還有改進(jìn)空間,可以進(jìn)一步完善,并且該組合模型在股票交易以外的其他領(lǐng)域是否也具有較高的預(yù)測(cè)精度還有待考證。

        參考文獻(xiàn):

        [1] Hochreiter S,Schmidhuber J.Long short-term memory[J].Neural Computation,1997,9(8):1735-1780.

        [2] Bahdanau D,Cho K,Bengio Y.Neural machine translation by jointly learning to align and translate[EB/OL].2014:arXiv:1409.0473[cs.CL].https://arxiv.org/abs/1409.0473

        [3] Qin Y,Song D J,Chen H F,et al.A dual-stage attention-based recurrent neural network for time series prediction[C]//Proceedings of the Twenty-Sixth International Joint Conference on Artificial Intelligence.August 19-26,2017.Melbourne,Australia.California:International Joint Conferences on Artificial Intelligence Organization,2017.

        [4] 原云霄,王寶海.基于ARIMA模型對(duì)我國(guó)服務(wù)價(jià)格指數(shù)的預(yù)測(cè)[J].數(shù)學(xué)的實(shí)踐與認(rèn)識(shí),2018,48(7):130-137.

        [5] Zhang G P.Time series forecasting using a hybrid ARIMA and neural network model[J].Neurocomputing,2003,50:159-175.

        收稿日期:2021-01-24

        作者簡(jiǎn)介:張怡(1993—) ,男,湖北荊州人,學(xué)士,研究方向?yàn)閿?shù)據(jù)科學(xué)與工程。

        1精品啪国产在线观看免费牛牛| 欧美大屁股xxxx高潮喷水| 丰满人妻被黑人猛烈进入| 亚洲中文字幕在线第二页| 国产精品无码aⅴ嫩草| 忘忧草社区www日本高清| 中文字幕一区二区三区精华液| 久久久久久人妻一区二区三区 | 美腿丝袜在线一区二区| 国产高清一区二区三区四区色| 精品无人区无码乱码毛片国产 | 国模少妇一区二区三区| 日韩精品一区二区三区四区 | 99热高清亚洲无码| 岛国av一区二区三区| 亚洲av中文字字幕乱码| 中文字幕人成乱码中文| 国产三级av在线精品| 91久久国产香蕉熟女线看| 日本按摩偷拍在线观看| 亚洲色精品三区二区一区 | 极品少妇被猛的白浆直喷白浆| 国产精品ⅴ无码大片在线看| 内射少妇36p九色| 99这里只有精品| 亚洲另在线日韩综合色| 伊人久久大香线蕉综合av| 国产福利不卡视频在线| 日本视频一中文有码中文| 国产精品视频自拍在线| 永久黄网站免费视频性色| 人妻在线日韩免费视频| 国产av一区二区三区日韩| 日韩精品成人无码AV片| 久九九久视频精品网站| av网站免费观看入口| 亚洲成a人片在线观看无码专区| 中国少妇内射xxxx狠干| 国内精品久久久久久久久齐齐| 二区三区亚洲精品国产| 偷拍视频十八岁一区二区三区|