基于神經(jīng)網(wǎng)絡(luò)的股票預(yù)測模型

2019-12-17 05:44:42喬若羽

運(yùn)籌與管理 2019年10期

關(guān)鍵詞：模型

喬若羽

(中國科學(xué)技術(shù)大學(xué) 統(tǒng)計與金融系，安徽合肥 230026)

0 引言

股票市場是宏觀經(jīng)濟(jì)形勢的晴雨表和風(fēng)向標(biāo)，股票市場的走向可在一定程度上反映當(dāng)前的經(jīng)濟(jì)形勢，對股票市場的準(zhǔn)確預(yù)測有助于國家及時調(diào)整經(jīng)濟(jì)政策，維護(hù)市場穩(wěn)定，因此對股票市場的準(zhǔn)確預(yù)測意義重大。

但是股票預(yù)測的準(zhǔn)確性受到多種因素的限制。由于股票數(shù)據(jù)是隨機(jī)游走的金融時間序列， Fama 論證了金融時間序列的預(yù)測難點在于其存在的高噪音[1]。若用統(tǒng)計學(xué)模型預(yù)測金融時間序列，必須對數(shù)據(jù)進(jìn)行預(yù)處理，再輸入到模型中，而這樣會破壞數(shù)據(jù)的完整性和真實性。其次，股票數(shù)據(jù)是非線性且非平穩(wěn)的，Singh和Srivastava認(rèn)為股票數(shù)據(jù)的非線性和非平穩(wěn)性導(dǎo)致傳統(tǒng)的多元回歸以及線性回歸模型應(yīng)用受限，只有更高級的模型才可以準(zhǔn)確描述此類非線性的金融時間序列[2]。最后股票市場受到多種復(fù)雜且不確定的因素影響，如長期受到宏觀政策的影響，短期受到市場預(yù)期的影響，也會受到一些突發(fā)事件或國際事件的干擾，如2018年中美貿(mào)易戰(zhàn)對中國股市的影響巨大。

國內(nèi)外的學(xué)者嘗試過多種方法預(yù)測股票市場，Chulho Jung和Roy Boyd在1996年采用向量自回歸(VAR)模型、誤差修正模型(ECM)和卡爾曼濾波模型(KFM)對英國股市進(jìn)行預(yù)測[3]。

Wolfgang Bessler和Peter Lückoff利用貝葉斯向量自回歸模(Bvar)模型預(yù)測德國一些大型公司的投資組合回報，但是預(yù)測效果不佳[4]。

Adebiyi等人基于紐約證券交易所和尼日利亞證券交易所的股票數(shù)據(jù)嘗試運(yùn)用ARIMA模型預(yù)測股票價格，結(jié)果顯示該模型具有短期預(yù)測潛力[5]。但由于股票數(shù)據(jù)是非線性非平穩(wěn)的金融時間序列，并且影響股票價格的因素繁多復(fù)雜，傳統(tǒng)的統(tǒng)計方法和計量模型需要對輸入數(shù)據(jù)進(jìn)行預(yù)處理且數(shù)據(jù)量不能過多，導(dǎo)致預(yù)測效果并不理想。

近年來，深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)嶄露頭角，在目標(biāo)檢測[6]、圖像分類[7]、圖像分割[8]等多個領(lǐng)域取得了矚目的成就。神經(jīng)網(wǎng)絡(luò)預(yù)測解決了傳統(tǒng)預(yù)測方法難以解決的問題，為股票預(yù)測帶來了曙光[9]。神經(jīng)網(wǎng)絡(luò)是對人腦抽象和具象能力的人工模擬，具有強(qiáng)大的擬合與表達(dá)能力[10]。首先神經(jīng)網(wǎng)絡(luò)具有非線性映射能力，數(shù)學(xué)理論可證明神經(jīng)網(wǎng)絡(luò)可以無限逼近所有的非線性連續(xù)函數(shù)；其次神經(jīng)網(wǎng)絡(luò)具有自學(xué)習(xí)能力，神經(jīng)網(wǎng)絡(luò)在訓(xùn)練時會自動調(diào)節(jié)，找出輸入與輸出之間的內(nèi)在關(guān)系；最后神經(jīng)網(wǎng)絡(luò)具有一定的容錯能力，即使部分神經(jīng)元受損也不會對結(jié)果產(chǎn)生較大的影響。神經(jīng)網(wǎng)絡(luò)的這些能力可有效地解決股票數(shù)據(jù)的不確定、非線性、非平穩(wěn)等問題，多位學(xué)者的研究結(jié)果均顯示神經(jīng)網(wǎng)絡(luò)模型預(yù)測股票價格的能力要優(yōu)于傳統(tǒng)計量模型，從而驗證了神經(jīng)網(wǎng)絡(luò)在股票市場預(yù)測中的可行性。

Zhang等人研究發(fā)現(xiàn)神經(jīng)網(wǎng)絡(luò)模型預(yù)測非線性時間序列數(shù)據(jù)的準(zhǔn)確度遠(yuǎn)遠(yuǎn)高于ARIMA 模型[11]。Bayogly和Bahadir以不同的標(biāo)準(zhǔn)對貝葉斯估計和神經(jīng)網(wǎng)絡(luò)模型的預(yù)測效果進(jìn)行比較，結(jié)果表明神經(jīng)網(wǎng)絡(luò)模型的預(yù)測效果更好[12]。劉海玥和白艷萍建立了AR模型、RBF和GRNN神經(jīng)網(wǎng)絡(luò)模型，滾動預(yù)測上證指數(shù)的開盤價、收盤價、最高價和最低價并與實際價格對比和分析誤差，論證了三種模型的有效性，但是AR模型相對預(yù)測不穩(wěn)定，RBF和GRNN網(wǎng)絡(luò)訓(xùn)練速度很快且GRNN表現(xiàn)出了更優(yōu)秀的效果[13]。

本文基于深度學(xué)習(xí)算法，構(gòu)建了一系列用于股票市場預(yù)測的神經(jīng)網(wǎng)絡(luò)模型，包括基于多層感知機(jī)(Multi-Layer perceptrons，MLP)[14]、卷積神經(jīng)網(wǎng)絡(luò)(Convolution Neural Network， CNN)、遞歸神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network，RNN)[15]、長短期記憶網(wǎng)絡(luò)(Long Short-Term Memory，LSTM)[16]和門控神經(jīng)單元(Gated Recurrent Unit，GRU)[17]的模型。針對RNN、LSTM和GRU等網(wǎng)絡(luò)模型難以充分利用時間維度信息的問題，本文引入注意力機(jī)制(Attention Mechanism)[18]來區(qū)分不同時間維度信息對預(yù)測的重要程度，進(jìn)而提高了模型的預(yù)測精度。本文基于上證指數(shù)數(shù)據(jù)進(jìn)行了充分的實驗，論證了所構(gòu)建模型的有效性，并通過調(diào)控模型中的重要參數(shù)進(jìn)行了充分的對比實驗，探究不同的架構(gòu)對性能的影響。本文旨在為基于神經(jīng)網(wǎng)絡(luò)的股票預(yù)測模型給出合理的優(yōu)化方向。

1 基于神經(jīng)網(wǎng)絡(luò)的多種模型構(gòu)建

針對金融數(shù)據(jù)的格式和需要預(yù)測的指標(biāo)，本文使用神經(jīng)網(wǎng)絡(luò)中的不同模塊構(gòu)建了多個模型進(jìn)行比較分析。模塊包括全連接層(Fully-Connected Layer)、CNN、RNN以及RNN的兩種變體網(wǎng)絡(luò): LSTM和GRU。此外，本文考慮將注意力機(jī)制引入RNN、LSTM和GRU中，進(jìn)一步提升網(wǎng)絡(luò)模型的學(xué)習(xí)能力。由于需要處理的股票數(shù)據(jù)本身維度較低，本文的模型中未使用Batch Normalization(BN)[19]、LayerNormalization(LN)[20]等標(biāo)準(zhǔn)化手段來防止梯度消失、梯度爆炸問題和加快訓(xùn)練速度。

1.1 基于多層感知機(jī)的網(wǎng)絡(luò)模型

多層感知機(jī)(Multi-Layer perceptrons，MLP)由多層的全連接層構(gòu)成。層與層之間使用的非線性激活函數(shù)通常為Sigmoid、Tanh、線性整流函數(shù)(Rectified Linear Unit，ReLU)及ReLU的一系列變種如(LeakyReLU，PReLU，CReLU等等)。全連接層的運(yùn)算本質(zhì)是矩陣運(yùn)算，第i層全連接層的運(yùn)算模式可表示為:

xi+1=Wixi+bi

(1)

其中，Wi和bi分別表示第i層全連接層的權(quán)值和偏置項。

圖1 基于多層感知機(jī)的網(wǎng)絡(luò)模型

本節(jié)構(gòu)建了含有五層全連接層的網(wǎng)絡(luò)模型，如圖1所示，每層輸出元素逐漸遞減，分別為64、32、16、8 、1。全連接層由于參數(shù)量過大，且輸出與輸入的所有元素均有關(guān)系，很容易導(dǎo)致過擬合的發(fā)生。因此模型中每層之間加入了ReLU函數(shù)作為非線性激活單元來防止過擬合，增加非線性表達(dá)能力，具體表達(dá)形式如下:

(2)

Sigmoid函數(shù)和Tanh函數(shù)作為非線性激活函數(shù)在全連接層和卷積層中表現(xiàn)較差，收斂速度慢且易導(dǎo)致梯度消失現(xiàn)象。這兩種函數(shù)被廣泛應(yīng)用于遞歸神經(jīng)網(wǎng)絡(luò)中，具體表現(xiàn)形式為：

(3)

(4)

1.2 基于CNN的網(wǎng)絡(luò)模型

卷積神經(jīng)網(wǎng)絡(luò)CNN多用于圖像的各種處理任務(wù)，如目標(biāo)檢測、圖像分類、圖像分割等等，并展示了遠(yuǎn)遠(yuǎn)超出傳統(tǒng)方法的精度。由于圖片數(shù)據(jù)多具有局部相關(guān)性，某個像素點的值通常和它臨近像素點均有關(guān)聯(lián)，CNN能夠很好地挖掘局部特征相關(guān)性，相比于全連接層對全局特征的關(guān)注，能夠更好地提取出紋理信息和邊緣信息。

圖2 基于CNN的網(wǎng)絡(luò)模型

本節(jié)針對需要處理的時間序列金融數(shù)據(jù)構(gòu)建了基于CNN的網(wǎng)絡(luò)模型，如圖2所示?？紤]到金融數(shù)據(jù)除了具有時間維度之外，在每個具體時間下也有一系列描述特征的數(shù)據(jù)，稱為特征維度。該模型中，本文使用tn表示預(yù)測時需要參考的時間維度數(shù)，fn表示每一時間維度下的特征維度數(shù)。

金融數(shù)據(jù)首先被并行地輸入三個不同的卷積層中，卷積核大小分別為1×fn、fn×fn和tn×fn，對應(yīng)的特征圖(feature maps)數(shù)量均為64。三個卷積層的輸出維度分別為64×1×1、64×1×|tn-fn|和64×1×tn。卷積核尺寸這樣設(shè)置的原因在于，金融數(shù)據(jù)同一時間維度下的所有特征均用來描述該數(shù)據(jù)的特性，且與圖片數(shù)據(jù)的區(qū)別在于，這些特征具有較少的局部相關(guān)性。如果使用多用于圖像任務(wù)的方形尺寸卷積核如3×3、5×5等，只能提取較弱的局部信息，而且會部分丟失同一時間維度下的所有特征之間互相的關(guān)聯(lián)性?？紤]到這一點，本文構(gòu)建了三種不同的卷積核，分別用來提取不同尺度下的特征。1×fn、fn×fn和tn×fn的卷積核分別用于提取每一時間維度、fn個時間維度和所有參考的時間維度下所有特征之間的關(guān)聯(lián)信息，分別對應(yīng)于從小尺度到大尺度信息的提取。卷積層的輸出經(jīng)過ReLU函數(shù)后，經(jīng)過維度變換轉(zhuǎn)化為一維向量，以便于輸入到下一層全連接層。三個不同尺寸的全連接層分別用于處理三個不同維度的向量，輸出的值相加之后得到最終的預(yù)測值。

通常來說，多尺度的特征提取能夠提升網(wǎng)絡(luò)的性能，同時針對金融數(shù)據(jù)的特性，本文構(gòu)建了一個較為適合處理時間序列數(shù)據(jù)的基于CNN的模型，并在第2章實證分析中和方形尺寸卷積核的CNN模型進(jìn)行了對比。此外，本文也通過增加卷積層的數(shù)量探究模型性能的變化，并在實證分析中進(jìn)行了詳細(xì)論證。

1.3 基于RNN、LSTM和GRU的遞歸網(wǎng)絡(luò)模型

遞歸神經(jīng)網(wǎng)絡(luò)是一類由各單元鏈?zhǔn)竭B接而成的有向循環(huán)神經(jīng)網(wǎng)絡(luò)。通過各單元的連接，遞歸神經(jīng)網(wǎng)絡(luò)可以儲存神經(jīng)元當(dāng)前時刻的輸入和前一時刻的輸出關(guān)系，在處理時間序列數(shù)據(jù)上優(yōu)于其他類型的神經(jīng)網(wǎng)絡(luò)。

圖3 RNN、LSTM和GRU的單元

最早提出的RNN模型單元如圖3(a)所示，每一個RNN單元僅包含全連接層和一個tanh激活函數(shù)，用來學(xué)習(xí)當(dāng)前時刻輸入和輸出的函數(shù)關(guān)系。t時刻RNN單元的具體計算模式如下:

ht=tnah(whxxt+wthht-1+bh)

(5)

oi=g(w(t+1)hht+bo)

(6)

其中，w表示從各類輸入到輸出的全連接層權(quán)值，在不同的RNN單元內(nèi)共享權(quán)值。xt、ht和ot分別表示輸入序列、隱藏層序列和最終輸出序列，bh和bo分別表示兩次運(yùn)算中的偏置項。g函數(shù)根據(jù)任務(wù)的不同可以選取不同的函數(shù)，例如在分類任務(wù)中一般選擇softmax函數(shù)用于輸出最終分類結(jié)果。

RNN對于短期記憶效果很好，但是結(jié)構(gòu)較為簡單，難以勝任長期記憶任務(wù)，易導(dǎo)致結(jié)果失真，運(yùn)算效率低下。LSTM通過復(fù)雜的設(shè)計實現(xiàn)了長時記憶的任務(wù)，在時序處理任務(wù)中效果顯著。LSTM單元的具體結(jié)構(gòu)如圖3(b)所示，t時刻的具體計算模式為:

ft=sigm(wfxxt+wthht-1+bf)it=sigm(wixxt+wthht-1+bi)gt=tanh(wgxxt+wghht-1+bg)ct=ft×ct-1+it×gtot=sigm(woxxt+wohht-1+bo)

(7)

其中，ft表示遺忘門，決定有多少來自上一層的信息會被記錄。it表示輸入門，決定有多少輸入的信息會被使用。gt表示一個產(chǎn)生備選信息的來源，隨時用于更新新的單元狀態(tài)ct。由當(dāng)前的單元狀態(tài)ct和中間輸出ot共同決定最終輸出ht，并輸入到下一時刻LSTM單元中。LSTM通過構(gòu)建輸入門、遺忘門和輸出門來實現(xiàn)信息的長時傳遞，保證之前的信息能夠一直參與網(wǎng)絡(luò)訓(xùn)練。

基于LSTM有一些變種結(jié)構(gòu)，GRU結(jié)構(gòu)是其中一種，如是圖3(c)所示，t時刻的具體計算模式為:

rt=sigm(wrxxt+wrhht-1+br)zt=sigm(wzxxt+wzhht-1+bz)gt=tanh(wgxxt+wghht-1+bg)ht=(1-zt)×ht-1+zt×gt

(8)

其中，rt表示重置門，決定上一時刻的狀態(tài)對信息更新的貢獻(xiàn)比例。zt表示更新門，決定新的狀態(tài)gt更新到最終輸出ht的比例。和LSTM相比，GRU的特征在于缺少了產(chǎn)生備選信息的來源，同時不再限制當(dāng)前數(shù)據(jù)的輸入貢獻(xiàn)比例。GRU的結(jié)構(gòu)相較于LSTM更簡單，但在一些任務(wù)處理中表現(xiàn)更加出色。

本節(jié)在遞歸神經(jīng)網(wǎng)絡(luò)的前端和末端分別加入了一個全連接層用于改變數(shù)據(jù)輸出的維度，并控制遞歸神經(jīng)網(wǎng)絡(luò)中網(wǎng)絡(luò)單元的疊加數(shù)量和單元內(nèi)部神經(jīng)單元的數(shù)量，以此構(gòu)建出多個模型，并在第2章實證分析中詳細(xì)論述了不同參數(shù)對預(yù)測性能的影響。

1.4 基于注意力機(jī)制的遞歸網(wǎng)絡(luò)模型

上述遞歸神經(jīng)網(wǎng)絡(luò)處理時間序列數(shù)據(jù)的過程是一個馬爾科夫過程，t時刻的輸出只和t-1時刻有關(guān)。通常狀況下，遞歸神經(jīng)網(wǎng)絡(luò)的條件分布函數(shù)滿足等式:

P{X(t)≤x|X(tn)=xn,…,X(t1)=x1}=P{X(t)≤x|X(tn)=xn}

(9)

雖然遞歸神經(jīng)網(wǎng)絡(luò)可以傳遞t-1時刻之前的信息，并將其輸送到t時刻的信息中，但是這種隱式的更早信息的表示并不能很好地被網(wǎng)絡(luò)提取。尤其當(dāng)輸入序列很長的時候，模型難以學(xué)到合理的向量表示。注意力機(jī)制通過保留遞歸網(wǎng)絡(luò)中每個時間次序下的輸出，訓(xùn)練一個模型對這些輸出進(jìn)行選擇性的學(xué)習(xí)，并將輸出序列與之進(jìn)行關(guān)聯(lián)。

注意力機(jī)制的描述如圖4所示，具體的計算模式如下:

(10)

其中，vT和w均為需要學(xué)習(xí)的權(quán)值，at是通過softmax分類函數(shù)對ut進(jìn)行歸一化來計算概率，通過求得的概率at和ut的加權(quán)求和得到最終的輸出ct。注意力機(jī)制會對每一時序的輸出生成一個概率，通過概率來決定每一時刻的輸出對最終輸出所占有的貢獻(xiàn)。注意力機(jī)制本質(zhì)上是一種相似度的度量，當(dāng)前的輸入和目標(biāo)狀態(tài)越相似，那么當(dāng)前輸入所占的權(quán)重就會越大。通過加入注意力機(jī)制，可以打破傳統(tǒng)遞歸神經(jīng)網(wǎng)絡(luò)的馬爾科夫鏈，將輸出和所有參考的時序數(shù)據(jù)直接關(guān)聯(lián)，獲得更加準(zhǔn)確的輸出結(jié)果。

圖4 注意力機(jī)制

本節(jié)將注意力機(jī)制加入1.3節(jié)的遞歸網(wǎng)絡(luò)模型中，構(gòu)建了新型的預(yù)測模型，并在第2章實證分析中詳細(xì)論述了該機(jī)制對性能的影響。

2 實證分析

2.1 樣本選取和實驗設(shè)置

本文的實驗數(shù)據(jù)為1991年7月1日至2019年4月1日的上證指數(shù)，有效數(shù)據(jù)共計6771條，數(shù)據(jù)來源于wind。本實驗使用前6650條數(shù)據(jù)作為訓(xùn)練集，剩余121條數(shù)據(jù)作為測試集。數(shù)據(jù)指標(biāo)包含開盤價、收盤價、最高價、最低價、當(dāng)日成交量、漲跌幅和換手率共計七項指標(biāo)，對應(yīng)于模型中每一時間下特征維度。本文使用當(dāng)天所有七項指標(biāo)來預(yù)測明日收盤價。在模型訓(xùn)練中，本文采取過去N天的所有數(shù)據(jù)來預(yù)測第N+1天的數(shù)據(jù)，并使用均方根誤差(Root Mean Squared Error，RMSE)作為損失函數(shù)使其輸出結(jié)果不斷逼近真實數(shù)據(jù):

(11)

本實驗選取Tensorflow作為實驗平臺，實驗環(huán)境為配置GTX 1080Ti顯卡和32G內(nèi)存的電腦。模型初始學(xué)習(xí)率為0.0007，共計學(xué)習(xí)2000個輪次(一個輪次代表訓(xùn)練集中的所有樣本全部參與訓(xùn)練一次)。數(shù)據(jù)首先進(jìn)行預(yù)處理，減去每一特征維度下的均值再除以標(biāo)準(zhǔn)差，得到標(biāo)準(zhǔn)化的數(shù)據(jù)，然后將數(shù)據(jù)輸入模型中進(jìn)行訓(xùn)練。

2.2 基本模型驗證與對比

本節(jié)比較基于MLP的模型，基于CNN的模型，基于RNN、LSTM和GRU的模型和引入注意力機(jī)制的上述三種模型，共計八種神經(jīng)網(wǎng)絡(luò)模型。本節(jié)中基于CNN的模型為圖2所示的基本模型，六種遞歸網(wǎng)絡(luò)模型均只采用了一個遞歸網(wǎng)絡(luò)單元，單元內(nèi)部神經(jīng)元數(shù)量設(shè)為10。所使用的注意力機(jī)制中神經(jīng)元數(shù)量設(shè)置為10。本節(jié)中實驗使用前20天的數(shù)據(jù)來預(yù)測第21天的數(shù)據(jù)，即N=20。圖5為各模型在測試集121條數(shù)據(jù)樣本上的預(yù)測曲線圖。

圖5 八種模型下的預(yù)測曲線

預(yù)測曲線圖的橫坐標(biāo)為測試集121天的天數(shù)，縱坐標(biāo)為當(dāng)天的收盤價格，其中淺色的曲線為真實數(shù)據(jù)，深色的曲線為預(yù)測數(shù)據(jù)。本文使用平均誤差和相關(guān)系數(shù)作為衡量模型性能的指標(biāo)，分別用來預(yù)測整體偏差情況以及預(yù)測趨勢是否跟實際趨勢一致。其中，平均誤差計算方式為:

(12)

其中，x和x′表示真實值和預(yù)測值，Nt表示測試集中數(shù)據(jù)的數(shù)量，在本實驗中Nt=121,相關(guān)系數(shù)計算方式為:

(13)

其中，Corr(x,x′)表示真實值和預(yù)測值的協(xié)方差，Var(x)和Var(x′)分別表示真實值和預(yù)測值的方差。

可以看到，基于MLP的模型因為很難針對股票數(shù)據(jù)進(jìn)行優(yōu)化，在預(yù)測任務(wù)中表現(xiàn)最差; 而基于CNN的模型針對股票數(shù)據(jù)優(yōu)化之后，表現(xiàn)出遠(yuǎn)優(yōu)于MLP的性能，并能夠一定程度逼近遞歸神經(jīng)網(wǎng)絡(luò)的性能。在所構(gòu)造的六種遞歸神經(jīng)網(wǎng)絡(luò)模型中，基于注意力機(jī)制的GRU(Attention-Based GRU)模型表現(xiàn)出了最佳的性能，而普通的RNN結(jié)構(gòu)表現(xiàn)最差?？梢钥吹?，在第二行的四條曲線圖中，深色和淺色的線條幾乎完全重合，這表示模型的預(yù)測非常準(zhǔn)確。需要強(qiáng)調(diào)的是，加入注意力機(jī)制的模型和對應(yīng)的基礎(chǔ)模型相比，均有不同程度性能提升，這說明注意力機(jī)制確實有助于提高預(yù)測任務(wù)的模型精度。

2.3 探究基于CNN的模型性能與結(jié)構(gòu)的關(guān)系

本節(jié)通過調(diào)整基于CNN模型的結(jié)構(gòu)參數(shù)，探究這些重要的結(jié)構(gòu)參數(shù)對模型性能的影響。首先將圖2中的卷積核替換為圖像任務(wù)中經(jīng)常使用的方形卷積核，分別使用了2×2、3×3、4×4、5×5的卷積核，模型的預(yù)測曲線如圖7第一行所示。可以看到，2×2的卷積核表現(xiàn)最差，平均誤差高達(dá)1.6357%，遠(yuǎn)遠(yuǎn)高于其他三個卷積核。這是由于尺寸過小的卷積核對數(shù)據(jù)的全局信息提取更加困難，尤其是全局相關(guān)性顯著的股票數(shù)據(jù)。5×5的卷積核表現(xiàn)出了最佳的效果，可能是由于尺寸較大的卷積核能夠更豐富地提取到各特征維度之間的關(guān)聯(lián)信息。然而，上述的所有模型性能均無法和優(yōu)化后的CNN模型相比，這證明了該針對數(shù)據(jù)形式進(jìn)行的卷積核優(yōu)化方式的有效性。

圖6 加一層卷積塊的CNN模型

圖7 八種CNN模型下的預(yù)測曲線

同時，本節(jié)針對模型中卷積層的數(shù)量對性能的影響也進(jìn)行了評估。首先構(gòu)建一個如圖6的虛線框內(nèi)所示的卷積塊，所構(gòu)建卷積塊包含三條通路上獨立的全連接層和卷積層。在卷積塊中，首先將卷積層的輸出使用全連接層改變維度為tn×fn，然后變換其維度為原始數(shù)據(jù)的維度，之后將其輸入到優(yōu)化后的卷積核中。圖6所示模型比圖2的模型僅多出一個卷積塊，在首尾網(wǎng)絡(luò)層的中間無縫接入。本節(jié)對比了加入1、2、3、4個卷積塊的模型對性能的影響，如圖7第二行所示。可以看到，隨著卷積塊的增多，模型性能呈現(xiàn)出下降的趨勢。其原因主要有兩點: 一方面是股票的數(shù)據(jù)結(jié)構(gòu)較為簡單，復(fù)雜程度遠(yuǎn)遠(yuǎn)不及圖像數(shù)據(jù)，因此使用較為簡單的網(wǎng)絡(luò)結(jié)構(gòu)已經(jīng)可以逼近模型的上限，更復(fù)雜的網(wǎng)絡(luò)只會導(dǎo)致嚴(yán)重的過擬合，另一方面CNN并不適合處理時間序列任務(wù)。

2.4 探究遞歸神經(jīng)網(wǎng)絡(luò)模型性能與結(jié)構(gòu)的關(guān)系

本節(jié)通過修改六種遞歸網(wǎng)絡(luò)模型的結(jié)構(gòu)，分別探究遞歸神經(jīng)單元中神經(jīng)元數(shù)量和遞歸神經(jīng)單元堆疊的數(shù)量對模型性能的影響?？紤]到需要對比的模型數(shù)量過多，本節(jié)不再使用如節(jié)2.2、2.3所示的曲線圖來展示模型性能，而是利用統(tǒng)計直方圖來直觀地展示平均誤差的變化趨勢。直方圖的橫坐標(biāo)表示各類不同的模型，縱坐標(biāo)表示平均誤差。此外，本節(jié)使用了表格展示所有遞歸模型的相關(guān)系數(shù)。

首先，本節(jié)探討了遞歸神經(jīng)單元中神經(jīng)元數(shù)量對模型性能的影響。針對節(jié)2.2中的基礎(chǔ)模型，實驗將神經(jīng)單元中神經(jīng)元的數(shù)量分別改變?yōu)?0、50、100、200，相當(dāng)于增加了單元中全連接層的維度。實驗共統(tǒng)計了6種模型在不同神經(jīng)元數(shù)量下的表現(xiàn)性能，如圖8所示。

圖8 神經(jīng)元數(shù)量對性能的影響

可以看到，在RNN、LSTM、GRU三種模型中，整體趨勢表現(xiàn)為性能隨著神經(jīng)元數(shù)量的增加而降低，節(jié)2.2的基礎(chǔ)模型反而表現(xiàn)出了最佳性能。這是由于所用股票數(shù)據(jù)的特征維度只有7，在神經(jīng)元數(shù)量遠(yuǎn)遠(yuǎn)大于特征維度時，網(wǎng)絡(luò)很容易過擬合，而導(dǎo)致在測試集上性能變差。在神經(jīng)元數(shù)量與特征維度接近或相當(dāng)?shù)臅r候，網(wǎng)絡(luò)的表達(dá)能力剛好和數(shù)據(jù)集契合，此時才能達(dá)到網(wǎng)絡(luò)的最優(yōu)性能。

表1 神經(jīng)元數(shù)量對相關(guān)系數(shù)的影響

表1中展示的相關(guān)系數(shù)也表現(xiàn)出了和平均誤差相似的變化趨勢，其中A-表示基于注意力機(jī)制的模型。值得強(qiáng)調(diào)的是，GRU模型在高神經(jīng)元數(shù)量下性能表現(xiàn)明顯差于另外兩類神經(jīng)網(wǎng)絡(luò)，而LSTM模型展現(xiàn)出了最穩(wěn)定的性能。

而在基于注意力機(jī)制的三種模型中，可以看到，其性能變化趨勢較基礎(chǔ)模型非常穩(wěn)定，這是由注意力機(jī)制所帶來的增益，該機(jī)制可以充分地利用所參考的時間維度下的信息，其預(yù)測過程不是基礎(chǔ)的遞歸神經(jīng)網(wǎng)絡(luò)模型中簡單的馬爾科夫過程，故而對復(fù)雜的網(wǎng)絡(luò)有更強(qiáng)的適應(yīng)能力。值得注意的是，基于注意力機(jī)制的GRU模型在高神經(jīng)元數(shù)量下表現(xiàn)出了和基礎(chǔ)模型相似的高預(yù)測誤差，而LSTM模型展示出和基礎(chǔ)模型類似的魯棒性。

關(guān)于遞歸神經(jīng)單元堆疊的數(shù)量對性能的影響，本節(jié)也進(jìn)行了大量的對比實驗。實驗使用神經(jīng)元數(shù)量為10的遞歸神經(jīng)單元，針對六種遞歸網(wǎng)絡(luò)模型分別堆疊了2、3、4、5個神經(jīng)單元，模型性能展示如圖9所示。

可以看到，在RNN、LSTM、GRU三種基礎(chǔ)遞歸網(wǎng)絡(luò)模型中，堆疊兩到三個神經(jīng)單元取得了最優(yōu)性能，之后隨著神經(jīng)單元的增多，整體呈現(xiàn)性能變差的趨勢。在基于注意力機(jī)制的三個模型中，堆疊一到兩個神經(jīng)單元可以取得最優(yōu)性能，但是在單元數(shù)量增多后，預(yù)測性能依然會變差。值得一提的是，三種基于注意力機(jī)制的模型整體性能和穩(wěn)定性優(yōu)于基礎(chǔ)模型，這佐證了圖8中得出的結(jié)論: 注意力機(jī)制可以有效改善過擬合問題，提高模型的性能和穩(wěn)定性。表2展示了以上各模型的相關(guān)系數(shù)，其變化趨勢整體和平均誤差相似。

圖9 遞歸神經(jīng)單元數(shù)量對性能的影響

表2 遞歸神經(jīng)單元數(shù)量對相關(guān)系數(shù)的影響

對比圖8的實驗結(jié)果，2塊神經(jīng)元數(shù)量為10的遞歸神經(jīng)單元和1塊神經(jīng)元數(shù)量為20的神經(jīng)單元在性能表現(xiàn)上整體呈現(xiàn)出相反的改變趨勢，這說明改變堆疊的遞歸神經(jīng)單元數(shù)量和改變神經(jīng)單元中神經(jīng)元數(shù)量對性能的影響是不一致的。同時可以發(fā)現(xiàn)，即使堆疊神經(jīng)單元數(shù)量增多導(dǎo)致網(wǎng)絡(luò)過擬合和性能變差，其性能變差趨勢依然緩和于改變單元內(nèi)神經(jīng)元數(shù)量。該實驗對比結(jié)果表明，對網(wǎng)絡(luò)模型需求更復(fù)雜的結(jié)構(gòu)和更強(qiáng)大的擬合能力時，堆疊神經(jīng)單元數(shù)量的優(yōu)先級高于增加單元內(nèi)神經(jīng)元的數(shù)量。

2.5 探究網(wǎng)絡(luò)模型性能與參考時間維度N的關(guān)系

本節(jié)通過修改參考時間維度的長度來探索該因素對模型性能的影響。如節(jié)2.2描述，模型使用前20天的數(shù)據(jù)預(yù)測第21天的數(shù)據(jù)，2.3、2.4節(jié)中的模型遵循這一設(shè)置，取N=20。在本節(jié)中，實驗修改N的數(shù)值分別為10、30、40，并針對節(jié)2.2中的八種網(wǎng)絡(luò)模型進(jìn)行了性能評估，結(jié)果如圖10所示。因基于MLP的模型性能表現(xiàn)過差，對直方圖的繪制會產(chǎn)生影響，因此圖10并沒有繪制基于MLP的模型的結(jié)果。

圖10 參考時間維度對性能的影響

表3展示了各時間維度下模型的相關(guān)系數(shù)變化。可以看到，隨著參考時間維度的增加，模型性能呈下降趨勢。這是由于過早的時間數(shù)據(jù)對當(dāng)天數(shù)據(jù)的影響已經(jīng)微乎其微，若依然將其作為模型輸入，反而會對預(yù)測結(jié)果產(chǎn)生負(fù)面影響。值得注意的是，基于CNN的模型也表現(xiàn)出了這一趨勢，這說明針對股票數(shù)據(jù)進(jìn)行的CNN模型的優(yōu)化也對時間維度具有敏感性。

表3 參考時間維度對相關(guān)系數(shù)的影響

3 結(jié)論

本文選取了近28年上證指數(shù)的數(shù)據(jù)，分別構(gòu)造了基于MLP、CNN、RNN、LSTM、GRU的網(wǎng)絡(luò)模型進(jìn)行數(shù)據(jù)的預(yù)測。同時，為了克服基于RNN、LSTM、GRU等遞歸網(wǎng)絡(luò)模型的局限性，本文引入了注意力機(jī)制來增加模型性能和防止過擬合。針對構(gòu)造的八種網(wǎng)絡(luò)模型，本文通過修改模型參數(shù)，進(jìn)行了大量的對比實驗，旨在探索基于神經(jīng)網(wǎng)絡(luò)的股票預(yù)測模型合理的優(yōu)化方向。實驗結(jié)果表明，MLP和CNN并不適合處理時間序列任務(wù)，其性能和遞歸網(wǎng)絡(luò)模型差距較大。在需要對遞歸網(wǎng)絡(luò)模型進(jìn)行復(fù)雜設(shè)計以適應(yīng)龐大數(shù)據(jù)集時，優(yōu)先增加其單元數(shù)量而不是增加單元內(nèi)神經(jīng)元數(shù)量，可以有效防止過擬合且增加網(wǎng)絡(luò)性能。而注意力機(jī)制通過打破基礎(chǔ)遞歸網(wǎng)絡(luò)模型預(yù)測時的馬爾科夫過程，直接利用更早時期的數(shù)據(jù)，在提升網(wǎng)絡(luò)性能的同時可以有效防止過擬合帶來的性能下降，在時間序列預(yù)測任務(wù)中表現(xiàn)優(yōu)異。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放