李?yuàn)^華,趙潤(rùn)林(.運(yùn)城學(xué)院計(jì)算機(jī)科學(xué)與技術(shù)系,山西 運(yùn)城044000;2.中國(guó)科學(xué)院大學(xué),北京0090)
一種基于時(shí)間序列分析的股票走勢(shì)預(yù)測(cè)模型
李?yuàn)^華1,2,趙潤(rùn)林1
(1.運(yùn)城學(xué)院計(jì)算機(jī)科學(xué)與技術(shù)系,山西 運(yùn)城044000;2.中國(guó)科學(xué)院大學(xué),北京100190)
在信息爆炸時(shí)代,在股市中積累的具有時(shí)間標(biāo)簽的股票交易數(shù)據(jù)越來越多,僅僅依靠傳統(tǒng)手工的股票數(shù)據(jù)分析辦法無法有效地獲取對(duì)投資者有價(jià)值的知識(shí)。為了能夠從海量股票歷史數(shù)據(jù)中更好地獲取對(duì)投資者有用的信息,高效地指導(dǎo)投資者投資,同時(shí),為股票市場(chǎng)管理提供有效的決策支持,在股票分析中引入數(shù)據(jù)挖掘技術(shù),提出一種基于時(shí)間序列的股票走勢(shì)預(yù)測(cè)模型,在真實(shí)股票數(shù)據(jù)集上的實(shí)驗(yàn)表明,該模型對(duì)股票走勢(shì)的預(yù)測(cè)具有較好的效果。
信息爆炸;數(shù)據(jù)挖掘;時(shí)間序列分析;股票預(yù)測(cè)
國(guó)家自然科學(xué)基金項(xiàng)目(No.61272480)
隨著信息技術(shù)的迅猛發(fā)展,各行業(yè)數(shù)據(jù)庫中存儲(chǔ)的具有時(shí)間標(biāo)簽的數(shù)據(jù)越來越多,這些數(shù)據(jù)隨著時(shí)間的推移規(guī)模越來越大,例如,醫(yī)院計(jì)算機(jī)系統(tǒng)中存放的關(guān)于病人的病情診斷、用藥等跟蹤信息;在股市中股票隨時(shí)間的交易數(shù)據(jù)等。如何從這些海量的時(shí)間標(biāo)簽數(shù)據(jù)中挖掘出實(shí)際有價(jià)值的知識(shí)或模式成為一項(xiàng)重要而富有挑戰(zhàn)性的研究課題,這就是所謂的時(shí)間序列挖掘數(shù)據(jù)挖掘問題[1]。
作為數(shù)據(jù)挖掘研究的一項(xiàng)復(fù)雜任務(wù),時(shí)間序列數(shù)據(jù)挖掘(Time series data mining)是指從海量的時(shí)間序列歷史數(shù)據(jù)中挖掘出事先未知、實(shí)際有用的信息或模式。時(shí)間序列數(shù)據(jù)挖掘在股票市場(chǎng)中的應(yīng)用上尚處于起步階段,隨著該方法在股票市場(chǎng)中的普及和重視,其必將在該領(lǐng)域獲得更加廣泛的應(yīng)用。同時(shí),這種智能化的技術(shù)分析手段不僅能夠幫助投資者規(guī)避風(fēng)險(xiǎn)、降低投資損失,而且也能夠使得股票市場(chǎng)的秩序更加條理井然[2]。
為了能夠有效地指導(dǎo)投資者投資股市和對(duì)股票市場(chǎng)管理提供高效的決策支持,本文將數(shù)據(jù)挖掘技術(shù)引入到了股票數(shù)據(jù)分析中,提出了一種基于時(shí)間序列分析的股票走勢(shì)預(yù)測(cè)模型,并在真實(shí)的股票交易數(shù)據(jù)集上對(duì)其預(yù)測(cè)效果進(jìn)行了驗(yàn)證。第2節(jié)簡(jiǎn)要地介紹了常用的時(shí)間序列預(yù)測(cè)方法,在此基礎(chǔ)上,第3節(jié)提出了一種基于時(shí)間序列的股票走勢(shì)預(yù)測(cè)模型,并在真實(shí)的股票交易數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)驗(yàn)證,預(yù)測(cè)效果良好。
時(shí)間序列預(yù)測(cè)方法是復(fù)雜時(shí)間序列數(shù)據(jù)分析中非常實(shí)用的一類預(yù)測(cè)方法。該類預(yù)測(cè)方法是以數(shù)學(xué)公式形式構(gòu)建的模型為基礎(chǔ),該模型符合時(shí)間序列特征,首先,它把時(shí)間序列數(shù)據(jù)集分為訓(xùn)練集和測(cè)試集兩部分,然后,在訓(xùn)練集上對(duì)構(gòu)建模型進(jìn)行有指導(dǎo)學(xué)習(xí),當(dāng)模型的預(yù)測(cè)精度達(dá)到能夠接受的程度時(shí),就可以用該模型來對(duì)未知的時(shí)間序列數(shù)據(jù)進(jìn)行預(yù)測(cè)和分析。從宏觀上來看,時(shí)間序列預(yù)測(cè)方法主要包括線性時(shí)間序列預(yù)測(cè)方法和非線性時(shí)間序列預(yù)測(cè)方法兩類,接下來,簡(jiǎn)要介紹兩種典型且常用的時(shí)間序列預(yù)測(cè)方法[3]。
(1)指數(shù)平滑預(yù)測(cè)法
指數(shù)平滑預(yù)測(cè)法是社會(huì)生產(chǎn)預(yù)測(cè)中最常用的一種預(yù)測(cè)方法,該方法以移動(dòng)平均法為基礎(chǔ),對(duì)不同時(shí)期的數(shù)值賦予不同的權(quán)重值,最近數(shù)據(jù)賦予的權(quán)值大,時(shí)間久遠(yuǎn)的數(shù)據(jù)賦予的權(quán)值小。根據(jù)以往的歷史時(shí)間序列數(shù)據(jù),該方法通過計(jì)算指數(shù)平滑值,采用合適的數(shù)學(xué)公式形式預(yù)測(cè)模型來對(duì)未來值進(jìn)行預(yù)測(cè)。在計(jì)算指數(shù)平滑值時(shí),依據(jù)平滑次數(shù)的差異,該方法可以分為一次指數(shù)平滑、二次指數(shù)平滑和多次指數(shù)平滑。在實(shí)踐中,一次指數(shù)平滑預(yù)測(cè)方法用的較頻繁,因此,下面重點(diǎn)介紹一次指數(shù)平滑預(yù)測(cè)法。
一次指數(shù)平滑預(yù)測(cè)法的基本思想是:通過計(jì)算當(dāng)前期實(shí)際值和當(dāng)前期預(yù)測(cè)值的加權(quán)平均數(shù)來對(duì)下一期進(jìn)行預(yù)測(cè),如公式(1)所示:
其中,x~m+1表示m+1期的預(yù)測(cè)值,xm、x~m分別表示m期的實(shí)際值和預(yù)測(cè)值,δ∈[0,1]表示平滑系數(shù),δ、(1-δ)分別表示m期實(shí)際值和預(yù)測(cè)值在下期的預(yù)測(cè)中所占的權(quán)重。該方法的預(yù)測(cè)精度,可以用誤差均方差來評(píng)估,如公式(2)所示:
其中,MSE表示誤差均方差,SSE表示誤差平方和,N表示誤差的個(gè)數(shù)。
指數(shù)平滑預(yù)測(cè)法是一種線性的時(shí)間序列預(yù)測(cè)方法,如果時(shí)間序列數(shù)據(jù)具有非線性的特點(diǎn),采用該方法的預(yù)測(cè)精度就不很理想,在這種情況下,采用非線性的時(shí)間序列預(yù)測(cè)方法更合適。
(2)ARMA預(yù)測(cè)法
ARMA預(yù)測(cè)方法是一種非線性時(shí)間序列預(yù)測(cè)方法。因?yàn)閷?shí)際社會(huì)中絕大多數(shù)的時(shí)間序列數(shù)據(jù)具有非線性的特征,所以這種方法在實(shí)踐中最為常用。該方法的基本思想是:首先,將非平穩(wěn)的時(shí)間序列數(shù)據(jù)通過若干次差分運(yùn)算變成平穩(wěn)的時(shí)間序列數(shù)據(jù),然后,用合適的數(shù)學(xué)模型來近似描述該序列,當(dāng)該模型能夠被接受后,就可以利用該模型根據(jù)時(shí)間序列的歷史數(shù)據(jù)值和現(xiàn)在值來預(yù)測(cè)未來值。ARMA預(yù)測(cè)方法由AR過程和MA過程兩部分組成。通常情況下,一個(gè)m階自回歸過程AR(m)可以用公式(3)表示:
其中,yt表示第t期的觀察值,wt是第t期的隨機(jī)擾動(dòng)項(xiàng)目,{θ1,θ2,…,θm}表示自回歸系數(shù)。一般來說,wt常被看作是一個(gè)n階的移動(dòng)平均過程 MA(n),如公式(4)所示:
其中,ηt表示第t期的誤差值,{β1,β2,…,βm}表示移動(dòng)平均系數(shù)。將公式(4)代入公式(3),可獲得ARMA (m,n)模型的表示形式,如公式(5)所示:
在實(shí)際的經(jīng)濟(jì)和工程系統(tǒng)中,時(shí)間序列數(shù)據(jù)總是或多或少涉及一些非線性因素,當(dāng)這些非線性因素影響較小或只對(duì)局部有較小影響時(shí),可以采用線性時(shí)間序列方法來進(jìn)行預(yù)測(cè),當(dāng)?shù)貌坏綕M意結(jié)果時(shí),就需要采用非線性時(shí)間序列方法來進(jìn)行預(yù)測(cè),才能獲得滿意的預(yù)測(cè)精度[4]。
針對(duì)股票投資的高風(fēng)險(xiǎn)和股票市場(chǎng)管理不規(guī)范的現(xiàn)狀,為幫助投資者規(guī)避風(fēng)險(xiǎn)進(jìn)行有效投資,進(jìn)一步為股票市場(chǎng)管理提供有益的決策支持,本文把數(shù)據(jù)挖掘技術(shù)引入到股票分析中,基于股票數(shù)據(jù)自身的特點(diǎn),提出了一種基于時(shí)間序列分析的股票走勢(shì)預(yù)測(cè)模型,如圖1所示,并在真實(shí)股票時(shí)間序列數(shù)據(jù)集上(即:2016 年5月北京利爾的股票日數(shù)據(jù))進(jìn)行了實(shí)驗(yàn)驗(yàn)證。
本文采用Clementine 12數(shù)據(jù)挖掘工具來構(gòu)建股票走勢(shì)預(yù)測(cè)模型[5],并在北京利爾股票日數(shù)據(jù)集上進(jìn)行了有效實(shí)驗(yàn)。該數(shù)據(jù)集包含5個(gè)與股票交易相關(guān)的數(shù)據(jù)特征,共20條記錄,如圖2所示。
在實(shí)驗(yàn)過程中,我們分別采用ARMA預(yù)測(cè)方法和指數(shù)平滑預(yù)測(cè)方法對(duì)北京利爾股票數(shù)據(jù)進(jìn)行了走勢(shì)預(yù)測(cè),圖3表示ARMA預(yù)測(cè)方法在實(shí)驗(yàn)數(shù)據(jù)集上的預(yù)測(cè)結(jié)果,圖4表示指數(shù)平滑預(yù)測(cè)方法在實(shí)驗(yàn)數(shù)據(jù)集上的預(yù)測(cè)結(jié)果。通過對(duì)圖3的分析,我們能夠發(fā)現(xiàn):不僅預(yù)測(cè)結(jié)果的精確數(shù)據(jù)與實(shí)際數(shù)據(jù)很相近,而且預(yù)測(cè)結(jié)果走勢(shì)圖和實(shí)際股票的走勢(shì)也基本吻合。與圖3的預(yù)測(cè)結(jié)果相比較,圖4的預(yù)測(cè)結(jié)果數(shù)據(jù)與實(shí)際數(shù)據(jù)相差較大,同時(shí),預(yù)測(cè)結(jié)果走勢(shì)圖與實(shí)際股票的走勢(shì)區(qū)別也很大。由此看來,ARMA預(yù)測(cè)方法對(duì)股票的預(yù)測(cè)效果要遠(yuǎn)遠(yuǎn)好于指數(shù)平滑預(yù)測(cè)方法,這也符合絕大多數(shù)時(shí)間序列股票數(shù)據(jù)具有非線性特征這一特性,這說明,與線性時(shí)間序列預(yù)測(cè)方法相比,非線性時(shí)間序列的預(yù)測(cè)方法在實(shí)際的股票市場(chǎng)預(yù)測(cè)中具有更好的預(yù)測(cè)效果。
圖1 基于時(shí)間序列分析的股票走勢(shì)預(yù)測(cè)模型
圖2 北京利爾的股票日數(shù)據(jù)集
圖3 ARMA方法對(duì)北京利爾股票走勢(shì)預(yù)測(cè)結(jié)果
圖4 指數(shù)平滑方法對(duì)北京利爾股票走勢(shì)預(yù)測(cè)結(jié)果
基于股票投資的高風(fēng)險(xiǎn)和股票市場(chǎng)管理不規(guī)范的現(xiàn)狀,本文從數(shù)據(jù)挖掘的角度提出了一種基于時(shí)間序列分析的股票走勢(shì)預(yù)測(cè)模型,在真實(shí)股票數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),預(yù)測(cè)效果較好,能夠在一定程度上幫助投資者規(guī)避投資風(fēng)險(xiǎn),同時(shí)還能夠?qū)善笔袌?chǎng)管理提供有效的決策支持,具有一定的實(shí)用價(jià)值。
[1]陳毅恒.時(shí)間序列與金融數(shù)據(jù)分析[M].北京∶中國(guó)統(tǒng)計(jì)出版社,2004.
[2]章勁松.金融時(shí)間序列分析的非線性方法研究[M].安徽∶中國(guó)科技大學(xué),2002.
[3]邵峰晶,于忠清.?dāng)?shù)據(jù)挖掘原理與算法[M].北京:科學(xué)出版社,2009.
[4]施然.淺談數(shù)據(jù)挖掘在證券分析中的應(yīng)用[J].價(jià)值工程,2011,10∶127-128.
[5]熊平.數(shù)據(jù)挖掘算法與Clementine實(shí)踐[M].北京:清華大學(xué)出版社,2011.
Information Explosion;Data Mining;Time Series Analysis;Stock Prediction
A Novel Stock Trend Prediction Model Based on Time Series Analysis
Li Feng-hua1,2,ZHAO Run-lin1
(1.Department of Computer Science and Technology,Yuncheng University,Yuncheng044000;2.University of Chinese Academy of Sciences,Beijing 100190)
In information explosion era,there are the massive stock exchange data being stored in the computer systems in stock market.However,the valuable knowledge for the investors is not obtained if there are only some traditional and manual analysis methods for stock data.It is very vital to find the potential and useful information for many investors from the massive stock data,which can instruct the investors and the stock market management decision effectively.Applies data mining technologies to stock analysis,proposes a novel stock trend prediction model based on time series analysis.Through the experiments on real stock exchange datasets,some empirical studies are shown to demonstrate the effectiveness of this model on the real stock exchange datasets.
1007-1423(2016)20-0014-04
10.3969/j.issn.1007-1423.2016.20.003
李?yuàn)^華(1977-),男,山西昔陽縣人,博士,講師,研究方向?yàn)閿?shù)據(jù)挖掘、社會(huì)計(jì)算和電子健康
趙潤(rùn)林(1960-),男,山西運(yùn)城人,本科,副教授,研究方向?yàn)橛?jì)算機(jī)系統(tǒng)結(jié)構(gòu)
2016-06-07
2016-07-05