摘" "要:股票市場被視為一個國家實體經(jīng)濟的重要活動指標之一,它引導資金并將儲戶與投資者聯(lián)系起來,最終促進經(jīng)濟增長,股票的收益波動也逐漸成為眾多機構(gòu)投資者和散戶投資者最為關(guān)心的事情。從過往研究來看,計量經(jīng)濟學所具有的傳統(tǒng)模型并不能夠在長期過程中實現(xiàn)股價的預測?;诖?,創(chuàng)新性地從人工神經(jīng)網(wǎng)絡算法的支持向量機模型SVM和ARIMA-EGARCH模型出發(fā),選取上市公司A股中遠海特作為研究對象,利用python這一流行的編程工具來進行算法和模型的實現(xiàn),旨在比較新興的人工神經(jīng)網(wǎng)絡算法與傳統(tǒng)計量經(jīng)濟學模型在股票收益預測方面的優(yōu)劣,并提出相應的優(yōu)化改進建議。
關(guān)鍵詞:股票收益預測;人工神經(jīng)網(wǎng)絡算法;優(yōu)化改進
中圖分類號:F832.48" " " "文獻標志碼:A" " " 文章編號:1673-291X(2023)21-0084-03
一、研究背景
近年來,股票收益預測這一經(jīng)久不衰的話題越發(fā)火熱,但同時股票市場出現(xiàn)前所未有的波動,使得股票收益預測越發(fā)艱難?;趥鹘y(tǒng)計量經(jīng)濟學的諸多模型在情況日益復雜的當代雖然仍有其不可替代的一面,但不得不承認的是,其諸多模型已經(jīng)很難準確預測股價。而隨著人工智能技術(shù)的不斷發(fā)展,人工智能的諸多算法具有相當強的自主學習性,其在系統(tǒng)科學領(lǐng)域已開始嶄露頭角。本文引入了當前機器學習領(lǐng)域火熱的人工神經(jīng)網(wǎng)絡算法中的支持向量機模型,并將其與ARIMA-EGARCH模型進行比較,提出改進意見。
二、理論介紹
(一)ARIMA-EGARCH
ARIMA模型的建模過程可具體解析為四個步驟:第一,是將獲取的時間序列數(shù)據(jù)進行一次嚴謹?shù)钠椒€(wěn)性檢驗,如果得到的結(jié)果是非平穩(wěn)的,那么需要考慮通過差分化或者其他處理方式讓該時間序列數(shù)據(jù)趨于平穩(wěn),使其滿足平穩(wěn)的基本性條件。第二,確定模型,我們選擇某種統(tǒng)計量來描述選定的時間序列數(shù)據(jù)的特征并將該統(tǒng)計量完整地計算出來,結(jié)合BIC準則來進一步明確ARIMA模型的階數(shù)。第三,利用最小二乘法估計模型的參數(shù),合理性檢驗也是要進行的關(guān)鍵一步。最后,進行診斷分析,通過生成的模型對數(shù)據(jù)進行預測,并將實際數(shù)據(jù)與之進行對比。①
值得一提的是,為了消除異方差性,本次實驗在ARIMA模型后還聯(lián)立建立了EGARCH模型。
(二)SVM(人工神經(jīng)網(wǎng)絡算法)
支持向量機模型屬于人工神經(jīng)網(wǎng)絡算法中較為經(jīng)典的一種,常在系統(tǒng)科學領(lǐng)域看到關(guān)于SVM模型的身影。在系統(tǒng)科學領(lǐng)域,信號具有逆向傳播和正向傳播兩種傳播路徑,同樣地,誤差也有兩種相同的傳播路徑。在實際操作過程中,期望輸出和實際輸出往往會出現(xiàn)差異過大的情況,這通常意味著此時已經(jīng)進入了信號誤差反向傳播階段。在這一過程中,輸出誤差會反方向走一遍信號正向傳播的路徑,實驗者可由此監(jiān)測每一層中不同節(jié)點的顯示誤差的有關(guān)信號,依據(jù)此信號修改網(wǎng)絡的連接權(quán)值。反復進行以上操作,即信號反復進行正向傳播,誤差逆向反復進行逆向傳播,監(jiān)測到預先設定的閾值在網(wǎng)絡誤差之上的情形后或者預先設置的學習次數(shù)已經(jīng)完成或者超額完成時,這意味著可以停止以上操作。②
股票價格或者收益率序列數(shù)據(jù)由于受眾多人為因素的干擾,因此這種序列數(shù)據(jù)并非是線性的?;谶@一基本特點,結(jié)合人工神經(jīng)網(wǎng)絡算法處理非線性序列數(shù)據(jù)的獨特優(yōu)勢,考慮將人工神經(jīng)網(wǎng)絡算法引入到股票收益的預測之中。本文以上市公司A股中遠海特為例,結(jié)合人工神經(jīng)網(wǎng)絡算法,評測人工神經(jīng)網(wǎng)絡的預測能力。
三、實證過程
本次研究主要采用以下兩種處理方式處理數(shù)據(jù):剔除部分缺失值、缺失值均值補充。處理后的數(shù)據(jù)為中遠海特A股2014年7月23日至2021年10月29日的時間序列數(shù)據(jù),然后再將獲取的數(shù)據(jù)對數(shù)化,以便后續(xù)獲得收益率數(shù)據(jù)。
(一)ARIMA-EGARCH模型①
1.數(shù)據(jù)平穩(wěn)性判斷。從數(shù)據(jù)平穩(wěn)性條件來看,一個平穩(wěn)的時間序列數(shù)據(jù)在數(shù)據(jù)時序圖的表現(xiàn)往往是一個圍繞它的平均值不斷上下波動的具體過程;與此相反的是,非平穩(wěn)序列數(shù)據(jù)在圖形上的表現(xiàn)便是均值會隨著時間段的調(diào)整而上下波動(如持續(xù)上升或持續(xù)下降),即并沒有一個大致均值可供數(shù)據(jù)圍繞其上下波動?;谶@一理論原則,利用所獲數(shù)據(jù)做出數(shù)據(jù)時序圖,根據(jù)時序圖判斷,所得數(shù)據(jù)并不平穩(wěn)。
2.平穩(wěn)化結(jié)果。ADF檢驗常被用于檢測時間序列數(shù)據(jù)的平穩(wěn)性:如果ADF統(tǒng)計量小于ADF統(tǒng)計量的臨界值,這意味著可在既定顯著性水平下,拒絕原假設,即認為原時間序列數(shù)據(jù)存在單位根,由此可判斷原時間序列平穩(wěn)。本次在對既得時間序列數(shù)據(jù)的平穩(wěn)化過程中,經(jīng)過十六次試驗,確定了采用一階差分法平穩(wěn)化數(shù)據(jù)是最好的選擇,差分后的數(shù)據(jù)通過平穩(wěn)性檢驗。
3.ACF PACF圖判斷模型。根據(jù)python所繪出的自相關(guān)系數(shù)圖和偏自相關(guān)系數(shù)圖,由于不知道最優(yōu)模型的具體形態(tài),根據(jù)ACF圖和PACF圖可以暫定ARIMA(17,1,1)能夠最好表達該時間序列數(shù)據(jù),備選模型為:ARIMA(1,1,1,),ARIMA(2,1,1),ARIMA(3,1,1),ARIMA(4,1,1),ARIMA(5,1,1),……ARIMA(16,1,1)。
4.根據(jù)AIC最小準則,選取模型ARIMA(1,1,1)。
5.殘差檢驗。下面主要針對殘差進行正態(tài)性檢驗和自相關(guān)性檢驗。殘差滿足正態(tài)性,主要是為了殘差集中于某一個數(shù)值,如果該值與0很接近,則它實際服從的分布是正態(tài)分布,均值為0。從這一點出發(fā),可以斷定。
6.ARCH效應存在性檢驗。從ARCH 效應檢驗結(jié)果可以看出,F(xiàn)統(tǒng)計量和Obs*R-squared 統(tǒng)計量分別為223.5215和197.3857,相對應的概率都為0.000,都小于給定的三種置信水平,所以拒絕原假設,拒絕不存在自相關(guān)條件異方差的現(xiàn)象,這樣才具備了建立GARCH 模型的基礎。
表2" ARCH效應檢驗結(jié)果
7.ARIMA(1,1,1)-EGARCH(1,1)。分別檢驗GARCH(1,1),GARCH-M,TGARCH,EGARCH在t分布和GED分布下的結(jié)果,根據(jù)AIC及SC最小的原則,LL最大的原則,比較可得ARIMA(1,1,1)-EGARCH(1,1)在GED分布下可以較好的擬合。
8.預測。利用ARIMA(1,1,1)-EGARCH(1,1)模型預測的值和真實值短期來看問題不大,長期仍有一定的差距。②
圖1" ARIMA(1,1,1)-EGARCH(1,1)預測圖
(二)SVM(人工神經(jīng)網(wǎng)絡算法)
此算法以中遠海特的收盤價為處理對象。在具體數(shù)據(jù)方面,有4個在設置好的預測時段得到的收益率RDP5、RDP10、RDP15、RDP20,同時結(jié)合轉(zhuǎn)變后的收盤價EMA15,這五個變量組成了輸入向量。EMAn通過當天收盤價減去該天前n天的價格指數(shù)滑動平均值而獲得。輸出變量RDP是首先分別將當天與其后第5天的原始收盤價轉(zhuǎn)換為各自前3天的指數(shù)滑動平均值MEA3(i),然后再根據(jù)轉(zhuǎn)換的新值求收益率。
在支持向量機模型的基礎之上進行時間序列數(shù)據(jù)預測的第一步就應該合理選擇核函數(shù)的具體種類。在所處理數(shù)據(jù)性質(zhì)不太明朗的前提下,選用高斯核函數(shù)RBF是最優(yōu)的選擇,因為在大多數(shù)情況下,這種原則通常會讓實驗者獲得較為理想的結(jié)果,甚至所獲結(jié)果超出預期。因此本文采用了廣為人知的高斯函數(shù)作為核函數(shù)。
經(jīng)過訓練后,這個模型的均方誤差(MSE)為1.9618;平均絕對誤差(MAE)為1.0685。
最后,可以說該算法在這一股票的預測應用具有很強的適應性,所得到的結(jié)果同現(xiàn)實情況基本無二。
四、結(jié)束語
關(guān)于股票收益率的預測是一個古老的問題,不少學者都已對其進行過研究,但從來沒有一種方法可以完全預測股價的走勢,可見股價的預測是多么復雜。
本次研究表明,ARIMA-EGARCH模型對股價進行短期預測有不錯表現(xiàn),能夠為股市投資者提供些許幫助。但是ARIMA-EGARCH模型相比人工神經(jīng)網(wǎng)絡算法來說,無論從模型準度以及預測效果等方面,ARIMA-EGARCH模型都明顯劣于人工神經(jīng)網(wǎng)絡算法中的SVM模型。
并行協(xié)同處理能力并非在所有研究系統(tǒng)中都能實現(xiàn),但是這在客觀實際上的確構(gòu)成了人工神經(jīng)網(wǎng)絡的最大優(yōu)點,并且這種處理能力是大規(guī)模的,換句話說,這一算法可以承載以億計的數(shù)據(jù)量。同樣對應的,訓練集的構(gòu)架也需要大量數(shù)據(jù)。它的每一個神經(jīng)元具有并不復雜的結(jié)構(gòu),功能也相對單一并且簡單。然而,單一神經(jīng)元匯聚起來,達成一個完成的整體體態(tài)時,它擁有超越一般計量模型的數(shù)據(jù)處理能力。值得一提的是,由于它復雜的神經(jīng)網(wǎng)絡并非一環(huán)扣一環(huán),因此某個神經(jīng)節(jié)點出現(xiàn)問題對結(jié)果的影響微乎其微,這種龐大的容錯能力更是使這個算法脫穎而出,成為新興的研究方法之一。在這個網(wǎng)絡中,信息處理和信息儲存并不存在誰先誰后的爭執(zhí),它實現(xiàn)了兩種操作的并駕齊驅(qū),即同時進行信息的兩種操作,由此,整個網(wǎng)絡遍布著信息的存放和處理結(jié)果。值得一提的是,強大的容錯能力迫使網(wǎng)絡當中某些節(jié)點在操作失誤的情況下不幸被破壞時,信息存取的工作并不會因此而停下腳步。也就是說,系統(tǒng)的正常工作并不意味著系統(tǒng)是完美的,也有可能系統(tǒng)已經(jīng)遭到未知的某種破壞,只不過你并不能通過系統(tǒng)是否正常工作來判斷這一點。這對于非線性的股票收益率預測來說,無疑是解決了經(jīng)濟學家頭疼的一大難題。
誠然,系統(tǒng)可以遭受各種破壞不會影響系統(tǒng)的產(chǎn)出,但是訓練好的網(wǎng)絡并不能隨心所欲地進行更改。對于大部分網(wǎng)絡來說,信息存放的地點并非單一,信息是多點分布的,所以當這些網(wǎng)絡完成了學習任務后再讓它學習新的事物,原來訓練好的神經(jīng)元便會被破壞。換句話說,過去學過的事物便不復完整。
人工神經(jīng)網(wǎng)絡描述了所研究系統(tǒng)的非線性運動,它是非線性動力系統(tǒng)中極具代表性的典范,它繼承了非線性動力系統(tǒng)所有的共性,比如對于系統(tǒng)未來走向的無法預測、耗散性、高維性、不可逆性、廣泛連接性和自適應性等優(yōu)點,使得它在股票收益預測領(lǐng)域脫穎而出,較之ARIMA-EGARCH為代表的傳統(tǒng)計量模型具有較強的優(yōu)越性。
當然,這并不意味著全部否認傳統(tǒng)計量模型,只是在越發(fā)復雜的現(xiàn)實因素誘導下,傳統(tǒng)計量模型并未將現(xiàn)實因素全盤考慮在內(nèi),故其有一定的局限性。而人工神經(jīng)網(wǎng)絡算法也并非萬能,人工神經(jīng)網(wǎng)絡算法需要大量的數(shù)據(jù),處理過程之復雜遠勝于傳統(tǒng)計量模型。以上實證過程中,還可以引入波羅的海指數(shù)及原油期貨指數(shù)等影響因素以期獲取更多數(shù)據(jù),來優(yōu)化模型的主動學習能力,在此不過多贅述。
總的來說,在日益動蕩的A股市場,我們完全可以將人工神經(jīng)網(wǎng)絡算法結(jié)合傳統(tǒng)計量模型來進行股價及其風險的預測。
參考文獻:
[1]" "李方圓,張濤.基于HMM-XGBoost的股價預測[J].桂林航天工業(yè)學院學報,2021,26(4):484-488.
[2]" "李曉瑜.評“基于混合量子-經(jīng)典神經(jīng)網(wǎng)絡模型的股價預測”[J].電子科技大學學報,2022,51(1):1.
[3]" "徐晨萌,方華.運用ARMA模型對股價預測的實證研究[J].經(jīng)濟研究導刊,2019(31):77-82.
[4]" "馮旭日,崔潔.基于灰色Elman神經(jīng)網(wǎng)絡的股價預測[J].遼寧工程技術(shù)大學學報(社會科學版),2019,21(4):246-252.
[5]" "林升,綦科,魏楷聰,等.機器學習在股價預測中的研究綜述[J].經(jīng)濟師,2019(3):71-73.
[6]" "張曉婷,何朗,黃樟燦,等.基于MFR-GEP的高階常微分方程預測模型[J].計算機工程與應用,2019,55(21):247-253.
[7]" "楊春靜.基于時間序列模型的股價預測[J].西部皮革,2018,40(12):98-99.
[8]" "趙建喜,李雪飛,易丹輝,等.基于曲線段特征匹配的股價預測研究[J].數(shù)學的實踐與認識,2018,48(1):75-82.
[9]" "薛倩男,高岳林.基于PSO-BP神經(jīng)網(wǎng)絡股價預測模型研究[J].智富時代,2017(8):17.
[10]" "郭建峰,李玉,安東.基于LM遺傳神經(jīng)網(wǎng)絡的短期股價預測[J].計算機技術(shù)與發(fā)展,2017,27(1):152-155.
[責任編輯" "立" "夏]