劉 敏 侯俊華
(東華理工大學(xué) 經(jīng)濟(jì)與管理學(xué)院,江西 南昌 330000)
股票市場(chǎng)具有高回報(bào)、高風(fēng)險(xiǎn)的特性,驅(qū)使著人們對(duì)股票的波動(dòng)性進(jìn)行探究。[1]但是,很多因素如政治事件、社會(huì)活動(dòng)等都會(huì)影響股票價(jià)格的變化,預(yù)測(cè)股票走勢(shì)是一件極具挑戰(zhàn)性的工作。[2]近些年機(jī)器學(xué)習(xí)方法在股票預(yù)測(cè)方面取得了不錯(cuò)的進(jìn)展,相較于傳統(tǒng)方法顯示出了獨(dú)特的優(yōu)勢(shì)。[3]于卓熙基于主成分分析與廣義回歸神經(jīng)網(wǎng)絡(luò)進(jìn)行股票價(jià)格預(yù)測(cè),預(yù)測(cè)結(jié)果良好。[4]鄧烜堃利用DAE進(jìn)行降維,其模型大大降低了運(yùn)行時(shí)間。[5]劉恒等人將貝葉斯神經(jīng)網(wǎng)絡(luò)運(yùn)用到股票時(shí)間序列預(yù)測(cè)中。[6]丹文基于GARCH模型對(duì)股票指數(shù)的擬合與預(yù)測(cè)取得了較好的預(yù)測(cè)效果。[7]通過上述研究表明,機(jī)器學(xué)習(xí)方法在預(yù)測(cè)方面具有明顯的優(yōu)勢(shì),在股票價(jià)格預(yù)測(cè)及降維方面已有不少研究。然而,目前很少對(duì)股票成交量波動(dòng)進(jìn)行預(yù)測(cè)的研究。針對(duì)原油股票成交量,建立基于網(wǎng)格搜索算法(GS)優(yōu)化的差分整合移動(dòng)平均自回歸(GSARIMA),以期建立一種簡(jiǎn)單快速的股票成交量波動(dòng)預(yù)測(cè)模型。
ARIMA模型由Box與Jenkins于上世紀(jì)七十年代提出,是一種知名度很高的時(shí)間序列預(yù)測(cè)方法,也可簡(jiǎn)寫為ARIMA(p,d,q)。
其中:
采用2000年6月10號(hào)至2019年12月23號(hào)原油股票成交量的所有數(shù)據(jù)作為訓(xùn)練模型的數(shù)據(jù)集,共6000個(gè)樣本數(shù)據(jù)。選取2000年6月10號(hào)至2019年3月18號(hào)的數(shù)據(jù)作為訓(xùn)練集,另外2019年3月18號(hào)至2019年12月23號(hào)的數(shù)據(jù)作為測(cè)試集,基于網(wǎng)格搜索算法建立GS-ARIMA模型,將模型預(yù)測(cè)值與實(shí)際值對(duì)比驗(yàn)證模型的準(zhǔn)確性與可靠性。
應(yīng)用ARIMA模型對(duì)數(shù)據(jù)進(jìn)行分析與預(yù)測(cè)時(shí),要求序列是由一個(gè)平穩(wěn)隨機(jī)過程產(chǎn)生,在圖形上反映為所有的樣本點(diǎn)都圍繞著某一水平線上下隨機(jī)波動(dòng),因此使用ARIMA模型之前需先判定數(shù)據(jù)的平穩(wěn)性。對(duì)原油股票成交量的時(shí)間序列進(jìn)行ADF檢驗(yàn),原始序列的檢驗(yàn)結(jié)果如表1所示。
表1 原始數(shù)據(jù)ADF檢驗(yàn)結(jié)果
通過表1中的ADF檢驗(yàn)結(jié)果可得ADF值為-0.401838,明顯大于3個(gè)level臨界值,因此該時(shí)間序列顯然是一個(gè)非平穩(wěn)時(shí)間序列,必須采用差分處理才能進(jìn)行下一步的建模工作。
對(duì)一階差分后的時(shí)間序列開展平穩(wěn)性檢驗(yàn),ADF檢驗(yàn)結(jié)果如表2所示。經(jīng)過一階差分后,ADF值為-9.316945。其值小于3個(gè)level臨界值,可證明差分后的序列是平穩(wěn)的,并確定模型中d的值為1。同時(shí)白噪聲檢驗(yàn)結(jié)果的P值為1.01e-15<0.05,拒絕原假設(shè),確定該時(shí)間序列不屬于白噪聲序列。
表2 原始序列一階差分ADF檢驗(yàn)結(jié)果
基于AIC最小準(zhǔn)則,得到最優(yōu)值為AIC(6,5),并基于BIC準(zhǔn)則和網(wǎng)格搜索算法進(jìn)行超參數(shù)優(yōu)化得出p~(0~7)、q~(0~7)下 的AR(p)、MA(q)熱 力圖,如圖3所示。通過熱力圖展示和AIC(6,5)確定出模型參數(shù)p=6,q=5。以此確定GS-ARIMA(6,1,5)為原油股票成交量預(yù)測(cè)的最佳模型。
圖1 基于BIC 準(zhǔn)則的AR×MA熱力圖
對(duì)原油股票成交量預(yù)測(cè)之前需要進(jìn)行模型診斷,診斷結(jié)果如下圖2所示,從標(biāo)準(zhǔn)化殘差序列圖(左上圖)、殘差直方圖+概率密度圖(右上圖)、殘差QQ圖(左下圖)、殘差自相關(guān)圖(右下圖)進(jìn)行討論,判斷其模型信息是否提取充分。
圖2 模型診斷圖
隨著時(shí)間的推移(左上圖)的殘差沒有顯示任何明顯的季節(jié)性,初步斷定為是白噪聲,并通過右下角的自相關(guān)(即相關(guān)圖)證實(shí),表明時(shí)間序列殘差與其本身的滯后具有低相關(guān)性。在右上圖可以看出, KDE線(殘差概率密度線)分布與正態(tài)分布N(0,1)相似,均值近似為0,只是標(biāo)準(zhǔn)差有差異,這表明殘差符合良好的正態(tài)分布。同時(shí),左下角的QQ圖顯示,殘差的有序分布幾乎遵循采用N(0,1)的標(biāo)準(zhǔn)正態(tài)分布采樣的線性趨勢(shì)。
通過上述模型診斷分析,可采用GS-ARIMA(6,1,5)模型對(duì)原油股票成交量時(shí)間序列進(jìn)行建模并預(yù)測(cè)。
運(yùn)用GS-ARIMA(6,1,5)對(duì)2019年3月18號(hào)至2019年12月23號(hào)原油股票成交量進(jìn)行預(yù)測(cè),其預(yù)測(cè)結(jié)果如圖3所示。從圖3可以看出,預(yù)測(cè)值和觀測(cè)值的變化波動(dòng)具有較好的一致性,說明GS-ARIMA(6,1,5)模型取得了良好的預(yù)測(cè)效果。
圖3 ARIMA模型預(yù)測(cè)值與觀測(cè)值對(duì)比圖
取最后10個(gè)預(yù)測(cè)結(jié)果與觀測(cè)值進(jìn)行數(shù)據(jù)對(duì)比分析,分析結(jié)果如表3。從表3中分析結(jié)果可以看出,負(fù)值相對(duì)誤差較多說明所選預(yù)測(cè)結(jié)果比觀測(cè)值稍大。表中所列相對(duì)誤差幾乎都在2%~9%范圍內(nèi)波動(dòng),且GS-ARIMA(6,1,5)模型的決定系數(shù)R2值為0.920818,進(jìn)一步表明GS-ARIMA(6,1,5)模型預(yù)測(cè)原油股票成交量具有較好的預(yù)測(cè)效果。
表3 預(yù)測(cè)值與觀測(cè)值對(duì)比分析結(jié)果
以2000至2019年原油股票成交量為例,首先分析原油股票成交量數(shù)據(jù)特征,通過差分方法得到剔除波動(dòng)特性的平穩(wěn)序列,并基于網(wǎng)格搜索算法擬合出最優(yōu)模型GS-ARIMA(6,1,5)。利用該模型預(yù)測(cè)2019年3月18號(hào)至12月23號(hào)的原油股票成交量與真實(shí)觀測(cè)數(shù)據(jù)比對(duì),相對(duì)誤差大概率在2%~9%范圍內(nèi)波動(dòng),且所訓(xùn)練的GS-ARIMA(6,1,5)模型的決定系數(shù)R2為0.920818,表明應(yīng)用GS-ARIMA(6,1,5)模型預(yù)測(cè)未來(lái)原油股票成交量具有一定的參考價(jià)值。