劉瑜儒 周龍武 龐利
摘要:在量化金融領(lǐng)域中,如何對(duì)股票價(jià)格進(jìn)行準(zhǔn)確的預(yù)測(cè),成為當(dāng)前研究的重要問(wèn)題。LSTM網(wǎng)絡(luò)算法的出現(xiàn),較好地解決了股票價(jià)格預(yù)測(cè)的復(fù)雜序列化數(shù)據(jù)學(xué)習(xí)問(wèn)題。但是,當(dāng)前研究結(jié)果表明,若是單一采用LSTM算法仍然存在預(yù)測(cè)不平衡、局部極值不準(zhǔn)確等問(wèn)題。GA(遺傳算法)的解釋在當(dāng)前金融界中尚沒(méi)有一定準(zhǔn)確定論,但是其在解決調(diào)參問(wèn)題上有著突出效用。在構(gòu)建新型股票價(jià)格預(yù)測(cè)模型時(shí),首先可以采用LST神經(jīng)網(wǎng)絡(luò)算法對(duì)收盤價(jià)進(jìn)行預(yù)測(cè),然后采用GA遺傳算法保證模型預(yù)測(cè)的準(zhǔn)確性,通過(guò)辨別機(jī)制,最終獲取股票價(jià)格漲跌信號(hào)?;诖?,文章針對(duì)現(xiàn)有LSTM模型的原理及應(yīng)用進(jìn)行了綜合分析,并突出說(shuō)明了LSTM-GA在股票價(jià)格預(yù)測(cè)領(lǐng)域中的應(yīng)用。
關(guān)鍵詞:LSTM記憶神經(jīng)網(wǎng)絡(luò);GA遺傳算法;股票;價(jià)格漲跌預(yù)測(cè)模型
隨著金融市場(chǎng)的發(fā)展,股票價(jià)格的預(yù)測(cè)一直以來(lái)都受到人們的關(guān)注。然后,股票市場(chǎng)受到的因素較多,對(duì)其趨勢(shì)預(yù)測(cè)的波動(dòng)性較大,不僅預(yù)測(cè)算法較為復(fù)雜,還會(huì)受到現(xiàn)實(shí)情況的掣肘,從而導(dǎo)致預(yù)測(cè)結(jié)果不準(zhǔn)確。傳統(tǒng)股票價(jià)格預(yù)測(cè)技術(shù)大致可以分為技術(shù)預(yù)測(cè)和聚類預(yù)測(cè)兩種類型。本文主要是基于技術(shù)預(yù)測(cè)的基礎(chǔ)之上,探究當(dāng)前LSTM長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)在股票價(jià)格預(yù)測(cè)中的突出效用,然后充分采用ANN(人工神經(jīng)網(wǎng)絡(luò))、時(shí)間序列模型、SVM向量機(jī)以及技術(shù)預(yù)測(cè)中的隨機(jī)性算法來(lái)優(yōu)化股票價(jià)格漲跌預(yù)測(cè)模型。
隨著當(dāng)前智能化技術(shù)的深入,ANN(人工神經(jīng)網(wǎng)絡(luò))在處理復(fù)雜關(guān)系問(wèn)題上面,被證實(shí)了有著突出的作用,但是,由于受到網(wǎng)絡(luò)測(cè)試和人工速度的影響,計(jì)算效率較為緩慢。此外,由于ANN還存在陷入局部極小值、過(guò)渡擬合以及黑盒技術(shù)的缺點(diǎn),并不能直接被用于股票價(jià)格漲跌預(yù)測(cè)之中;SVM支持向量機(jī)的特征是在選擇過(guò)程中不能有效表現(xiàn)出最優(yōu)的個(gè)數(shù)特征,這將嚴(yán)重影響到股票價(jià)格漲跌模型系統(tǒng)的精準(zhǔn)度。當(dāng)?shù)聡?guó)Krauss教授將隨機(jī)森林算法融入到股票預(yù)測(cè)之中時(shí),股票價(jià)格漲跌模型取得了良好的效果。在Fischer等人的研究中,是將任何一種機(jī)器學(xué)習(xí)模型作為隨機(jī)算法的有力基準(zhǔn),充分采用了GARCH時(shí)間序列模型,并將之充分運(yùn)用到股票價(jià)格漲跌算法之中。其主要是假設(shè)時(shí)間序列值是呈現(xiàn)線性的生成過(guò)程,因此,具有一定的局限性。畢竟在股票市場(chǎng)之中,其漲跌特點(diǎn)不可能呈現(xiàn)線性增長(zhǎng),其價(jià)格的漲跌是與運(yùn)營(yíng)商的政治經(jīng)濟(jì)條件和戰(zhàn)略主張息息相關(guān)。因此,其中GARCH方法中假設(shè)金融時(shí)間序列將不能使用到LSTM長(zhǎng)期記憶神經(jīng)網(wǎng)絡(luò)之中,這也讓其時(shí)間序列算法更加復(fù)雜。Fischer等人再次通過(guò)LSTM 模型來(lái)針對(duì)每日股票數(shù)據(jù)集進(jìn)行預(yù)測(cè),并針對(duì)其收盤價(jià)格與開盤價(jià)格的分析,來(lái)預(yù)測(cè)其價(jià)格漲幅的規(guī)律。實(shí)驗(yàn)結(jié)果表明,采用LSTM結(jié)合SVM算法對(duì)股票價(jià)格漲跌得到預(yù)測(cè)準(zhǔn)確率一般處于51%~54%之間,這樣的算法雖然比隨機(jī)算法更加優(yōu)秀,但是,卻無(wú)法準(zhǔn)確地精算,依然受到局部極值的影響,計(jì)算出來(lái)的數(shù)值也存在精準(zhǔn)度不高的情況。而在后來(lái)研究者中,有部分研究者對(duì)整體模型參數(shù)進(jìn)行了調(diào)整,充分結(jié)合了多維度數(shù)據(jù)處理特征樣本。本文就是基于這樣的情況下,提出基于LSTM長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)的機(jī)器隨機(jī)算法來(lái)預(yù)測(cè)股票價(jià)格漲跌,并在此基礎(chǔ)上加入GA基因算法來(lái)加以改進(jìn),從而提升預(yù)測(cè)準(zhǔn)確性,充分彌補(bǔ)了采用LSTM網(wǎng)絡(luò)技術(shù)的不足。
一、LSTM長(zhǎng)短期神經(jīng)網(wǎng)絡(luò)技術(shù)的原理及應(yīng)用
LSTM網(wǎng)絡(luò)技術(shù)最早是由Hocketer等人提出來(lái)的,2000年,schmiduber等人對(duì)其技術(shù)進(jìn)行了改進(jìn)與提升,并提出了一種適用于連續(xù)性預(yù)測(cè)的遺忘門方法。Grave在之后的樹種也提出了對(duì)LSTM 的改進(jìn)方法,并解釋了相關(guān)的許多問(wèn)題,進(jìn)一步推動(dòng)了LSTM網(wǎng)絡(luò)在量化金融領(lǐng)域中的應(yīng)用。
神經(jīng)LSTM網(wǎng)絡(luò)的前身是循環(huán)神經(jīng)網(wǎng)絡(luò)。RNN(循環(huán)神經(jīng)網(wǎng)絡(luò))主要是通過(guò)內(nèi)部循環(huán)學(xué)習(xí)序列模式,在其中形成了多個(gè)網(wǎng)絡(luò)回路,能對(duì)其參數(shù)進(jìn)行自主學(xué)習(xí)和對(duì)權(quán)值進(jìn)行調(diào)整,從而能不斷傳遞相關(guān)信息,并通過(guò)反向傳播來(lái)增加鏈?zhǔn)揭?guī)則和數(shù)據(jù)分布。在反向傳播過(guò)程中,返回的數(shù)值將激活sigmoid和tanh函數(shù),當(dāng)其火花函數(shù)呈現(xiàn)最小值或者是梯度消失梯度爆炸等問(wèn)題的時(shí)候,將出現(xiàn)無(wú)法避免的數(shù)值丟失與預(yù)測(cè)問(wèn)。而LSTM網(wǎng)絡(luò)技術(shù)模型的應(yīng)用,就是為了有效避免這些問(wèn)題的發(fā)生。Hocker等人在充分研究之后,提出了儲(chǔ)存單元和數(shù)據(jù)庫(kù)的理念,從而讓返回的數(shù)值能進(jìn)行長(zhǎng)時(shí)間儲(chǔ)存,并對(duì)其信息進(jìn)行分析,剔除一些不必要的信息。
LSTM網(wǎng)絡(luò)技術(shù)是一種允許神經(jīng)元替換的方法。LSTM存儲(chǔ)單元的具體結(jié)構(gòu)如圖1所示。LSTM單元由一個(gè)存儲(chǔ)單元(Ct)和三個(gè)門組成,包括輸入門(it)、遺忘門(ft)和輸出門(ot)。這樣的數(shù)據(jù)表明,在時(shí)間t,χt表示輸出數(shù)據(jù)和ht隱藏位置時(shí),符號(hào)“×”表示向量的外積,而“+”符號(hào)表示疊加操作。
具體運(yùn)算公式如下:
ft=σ(Ufχt+Wfht-1+bf)
it=σ(Uiχt+Wiht-1+bi)
ut=tanh(Uuχt+Wuht-1+bu)
Ct=ft*ct-1+it*ut
Ot=σ(UOχt+Woht-1+bo)
ht=ot*tanh(ct)
在此公式中,W、U代表的是矩陣權(quán)重,而b代表的是偏移量,σ代表的sigmoid函數(shù),符號(hào)*代表的是向量外積。
遺忘門的計(jì)算就是將χt,ht-1,bf進(jìn)行權(quán)加和,然后再通過(guò)sigmoid函數(shù)得到ft(ft∈(0,1)),如式列ft=σ(Ufχt+Wfht-1+bf)。而其中ft表示的是上一個(gè)記憶細(xì)胞在(Ct-1)中需要被遺忘的信息權(quán)重。換句話說(shuō),就是通過(guò)遺忘門來(lái)對(duì)上一個(gè)記憶細(xì)胞中保留的信息量加以控制,同時(shí)運(yùn)用Ct=ft*ct-1+it*ut式子來(lái)計(jì)算。而其中輸出門中的(Ct)則決定了其可以接受到多少量級(jí)的記憶細(xì)胞信息,用it=σ(Uiχt+Wiht-1+bi)來(lái)進(jìn)行計(jì)算。最后將采用Ot=σ(UOχt+Woht-1+bo)輸出門來(lái)過(guò)濾(Ct)。待原來(lái)記憶細(xì)胞過(guò)濾完全之后,將通過(guò)ht=ot*tanh(ct)來(lái)獲得當(dāng)前ht的狀態(tài),最后進(jìn)行反向傳播,而LSTM模型就是由這些儲(chǔ)存塊相互計(jì)算而得出來(lái)的。