趙力衡
摘要:隨著信息化技術(shù)的迅速發(fā)展,社會(huì)生活中產(chǎn)生的數(shù)據(jù)在近年來呈現(xiàn)出指數(shù)式的增長(zhǎng),這些數(shù)據(jù)也對(duì)當(dāng)前社會(huì)生產(chǎn)和生活產(chǎn)生了越來越重要的活動(dòng)。在股市中采取大數(shù)據(jù)建模的方法來分析未來股票走勢(shì)也越來越顯得重要。鑒于此,提出使用大數(shù)據(jù)中時(shí)間序列模型的方法來分析預(yù)測(cè)股票走勢(shì)。實(shí)驗(yàn)結(jié)果表明,所提方法能較準(zhǔn)確地反映出股票的走勢(shì),可作為股票分析的有效依據(jù)。
關(guān)鍵詞: 大數(shù)據(jù);Modeler;時(shí)間序列;預(yù)測(cè);股票
中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2018)07-0256-02
Abstract:With the rapid development of information technology in recent years, the data generated in social life grow exponentially. These data become more and more important for social production and life. The big data modeling approach on analyzing future trend of stock is also increasingly important in the stock market. Base on this, a kind of time series model in big data is proposed to forecast the stock trend. The experimental results show that the proposed method can reflect the stock trend, can be considerate as an effective way for stock analysis.
Key words:big data; modeler; time series; forecasting; stock
股市從產(chǎn)生到現(xiàn)在,規(guī)模越來越大,從歷年的交易中逐漸積累了大量的歷史數(shù)據(jù),如何有效使用這些歷史數(shù)據(jù)來分析越來越復(fù)雜的股市,從而促進(jìn)股市的健康發(fā)展并增加投資者的收益就變得越來越重要。本文使用大數(shù)據(jù)數(shù)據(jù)挖掘的方式,根據(jù)IBM歷年股票數(shù)據(jù),使用SPSS Modeler工具分析預(yù)測(cè)IBM股票在歷史數(shù)據(jù)之后一個(gè)月的走勢(shì)。用于預(yù)測(cè)的數(shù)據(jù)選用具有連續(xù)記錄,并且數(shù)據(jù)量足夠充足,能用于建立可靠預(yù)測(cè)模型。
本文使用的IBM歷史股票數(shù)據(jù)包括從1981-6-19到2013-7-21的全部交易日的數(shù)據(jù)①,包括每個(gè)交易日的開盤價(jià)、最低價(jià)、最高價(jià)、收盤價(jià)、成交量和成交額。數(shù)據(jù)格式如下:
預(yù)測(cè)模型將使用從1981-6-19到2013-7-21全部交易日的數(shù)據(jù)預(yù)測(cè)其后一個(gè)月(2013年6月22號(hào)~7月21號(hào))的IBM股票交易數(shù)據(jù),并將實(shí)際交易數(shù)據(jù)與預(yù)測(cè)數(shù)據(jù)作比較。
交易數(shù)據(jù)中最低價(jià)、最高價(jià)預(yù)測(cè)意義不大;開盤價(jià)和收盤價(jià)反映了股票走勢(shì),預(yù)測(cè)價(jià)值較大,但兩者意義相似,這里選擇收盤價(jià)作為預(yù)測(cè)數(shù)據(jù);成交量反映了市場(chǎng)對(duì)股票狀態(tài)的認(rèn)可度,也有較大的預(yù)測(cè)價(jià)值;成交額則由股票成交價(jià)格和交易量決定,在預(yù)測(cè)了收盤價(jià)和成交量后,成交額同時(shí)就已經(jīng)確定,因此這里不再預(yù)測(cè)成交額。因此本次建模預(yù)測(cè)數(shù)據(jù)為收盤價(jià)和成交量。
1 數(shù)據(jù)建模
1.1 數(shù)據(jù)分析
首先查看輸入數(shù)據(jù)的分布規(guī)律,可以看到數(shù)據(jù)按天的輸入分布如圖2所示:
從圖2中可以看出收盤價(jià)數(shù)據(jù)連續(xù),并且沒有大的游離值,數(shù)據(jù)總體呈上升分布,數(shù)據(jù)來源很好;成交量數(shù)據(jù)同樣連續(xù),少量游離值的出現(xiàn)顯示存在成交量突然增大的特殊情況,這也符合實(shí)際交易情況,同時(shí)成交量數(shù)據(jù)基本上保持了相對(duì)穩(wěn)定的數(shù)量。這些信息表明用于建模的數(shù)據(jù)連續(xù)有效,符合真實(shí)情況,適合用于建模統(tǒng)計(jì)。
1.2 股價(jià)預(yù)測(cè)
實(shí)際上,僅預(yù)測(cè)1個(gè)月的數(shù)據(jù)并不需要30多年的數(shù)據(jù),僅取最近幾年的數(shù)據(jù)建模即可,經(jīng)過比較,用11~13年的數(shù)據(jù)用于建模得到的預(yù)測(cè)數(shù)據(jù)與使用長(zhǎng)期數(shù)據(jù)建模的結(jié)果相近,并且不至于顯得數(shù)據(jù)冗余,得到的數(shù)據(jù)如圖3所示:
因此取IBM從2011年7月5號(hào)到2013年6月21號(hào)的股票數(shù)據(jù)用于建模,預(yù)測(cè)2013年6月22號(hào)~7月21號(hào)的股票走勢(shì)。
由于本次分析需要按照時(shí)間對(duì)股價(jià)進(jìn)行預(yù)測(cè),因此需要選擇支持時(shí)間軸分析的Time Series模型進(jìn)行建模。
在SPSS Modeler中選取Time Series節(jié)點(diǎn)進(jìn)行建模,經(jīng)測(cè)試選擇Exponential Smoothing,并選用Holts Linear trend模型得到的結(jié)果與當(dāng)前實(shí)際數(shù)據(jù)最為接近,因此用這種模型得到的預(yù)測(cè)數(shù)據(jù)最為可靠。設(shè)置模型如圖4所示:
這里預(yù)測(cè)的收盤價(jià)和成交量?jī)蓚€(gè)參數(shù),其中收盤價(jià)表現(xiàn)非?;钴S,最能反映交易數(shù)據(jù)的變化,而成交量相對(duì)比較固定,因此預(yù)測(cè)結(jié)果中以收盤價(jià)最為重要。本次建模主要分析收盤價(jià),最后再簡(jiǎn)單分析成交量。執(zhí)行結(jié)果如下:
從圖中可以看到,模型和實(shí)際數(shù)據(jù)非常接近,兩條線幾乎完全重合,表明模型很好的反映了數(shù)據(jù)的變化,因此采用這個(gè)模型的預(yù)測(cè)結(jié)果。
收盤價(jià)的預(yù)測(cè)日期從13年6月22號(hào)到7月21號(hào),圖中右側(cè)紅色微微上翹的短線段即是預(yù)測(cè)結(jié)果。從圖中來看,未來1個(gè)月的收盤價(jià)預(yù)計(jì)呈上升趨勢(shì),但上升幅度較小。因此預(yù)測(cè)未來1個(gè)月中股票收盤價(jià)會(huì)緩慢上升。實(shí)際交易數(shù)據(jù)中,股票價(jià)格會(huì)有一定的波動(dòng),不會(huì)像預(yù)測(cè)結(jié)果那樣穩(wěn)定。
1.3成交量預(yù)測(cè)
加入一個(gè)Time Plot節(jié)點(diǎn)到生成的建模節(jié)點(diǎn)后面,用于顯示成交量的預(yù)測(cè)模型。預(yù)測(cè)結(jié)果如下圖所示:
從圖6中可以看出成交量的預(yù)測(cè)模型也真實(shí)反映了實(shí)際成交量的變化,但預(yù)測(cè)模型總體在實(shí)際數(shù)據(jù)之上,分析可能是受到了游離數(shù)據(jù)的影響。圖中右邊緩慢向下的紅色短線段是對(duì)6月22號(hào)到7月21號(hào)的成交量的預(yù)測(cè)結(jié)果。
從圖上看,預(yù)測(cè)成交量在未來1個(gè)月中會(huì)呈略有減少的趨勢(shì)。
2 結(jié)束語
總的來說,本次預(yù)測(cè)未來1個(gè)月中IBM的股票收盤價(jià)有小幅度的上升,但成交量會(huì)有小幅的下滑。查看2013年6月22號(hào)到7月21號(hào)股價(jià)和成交量數(shù)據(jù)如下圖所示:
可以看到未來一個(gè)月內(nèi)目標(biāo)股價(jià)總體有小幅上升,而成交量總體略微減少,與預(yù)測(cè)結(jié)果相符。實(shí)驗(yàn)結(jié)果表明,所提方法能較準(zhǔn)確地反映出股票的走勢(shì),可作為股票分析的有效依據(jù)。
注釋:
①:數(shù)據(jù)來源www.nasdaq.com
參考文獻(xiàn):
[1] 張治斌. 基于SPSS Modeler的數(shù)據(jù)挖掘過程解析[J].數(shù)字技術(shù)與應(yīng)用, 2017(8).
[2] IBM. Preparing Data for Analysis (Data Audit) [EB/OL].https://www.ibm.com/support/knowledgecenter/zh/SS3RA7_17.0.0/clementine/example_telco_dataaudit.html
[3] 席偉. 基于MATLAB的一類生態(tài)數(shù)學(xué)模型的建模仿真[J].電腦知識(shí)與技術(shù),2016(9).