張世玲
摘 要:伴隨著我國(guó)市場(chǎng)經(jīng)濟(jì)的發(fā)展與繁榮,股票已經(jīng)走進(jìn)了我們的各家各戶,成為了與大多數(shù)人息息相關(guān)的投資產(chǎn)品。因此,對(duì)于股票走勢(shì)的預(yù)測(cè)也成為越來(lái)越多的人所關(guān)注的問(wèn)題。本文對(duì)數(shù)據(jù)挖掘技術(shù)做了深入的研究,探討了時(shí)間序列法在股票趨勢(shì)的預(yù)測(cè)方面的具體應(yīng)用。目前,時(shí)間序列預(yù)測(cè)方法己經(jīng)成為預(yù)測(cè)法中比較成熟的一個(gè)理論體系。因此,可以對(duì)股票市場(chǎng)未來(lái)的走勢(shì)進(jìn)行相對(duì)成熟的預(yù)測(cè),并且為對(duì)股市的研究提供理論與技術(shù)的支撐,并為廣大股民提供相應(yīng)的選股建議。
關(guān)鍵詞:股票預(yù)測(cè);時(shí)間序列法;ARIMA模型
一、Clementine軟件的介紹
Clementine軟件是一款適用于商業(yè)用戶的高品質(zhì)數(shù)據(jù)挖掘的產(chǎn)品。該軟件具有豐富的數(shù)據(jù)挖掘方法,并且支持與數(shù)據(jù)庫(kù)之間的模型和數(shù)據(jù)的交換。同時(shí),該軟件也具有可視化操作的界面,操作方法簡(jiǎn)單易學(xué),結(jié)果分析直觀易懂,同時(shí)它的圖形功能也非常強(qiáng)大。
該軟件將一系列的數(shù)據(jù)處理程序或者技術(shù)整合成彼此之間相互獨(dú)立的模塊,例如將決策樹、時(shí)間序列、神經(jīng)網(wǎng)絡(luò)、聚類、回歸、關(guān)聯(lián)規(guī)則等多種數(shù)據(jù)挖掘技術(shù)集合在可視化圖形的界面中,因此對(duì)于那些不懂編程但又經(jīng)常需要進(jìn)行大量數(shù)據(jù)處理的用戶來(lái)說(shuō),它要比Excel更易用更高效,而且構(gòu)建的數(shù)據(jù)流一經(jīng)保存后可在下一個(gè)相似的任務(wù)中稍做修改就可使用。
本文主要采用時(shí)間序列數(shù)據(jù)挖掘模型進(jìn)行操作。在時(shí)間序列模型中包含著專家模型、指數(shù)平滑模型和ARIMA模型3種建模方法。本文會(huì)對(duì)這三種方法依次進(jìn)行建模,從而選出最優(yōu)的建模方法,得出最準(zhǔn)確預(yù)測(cè)。
二、國(guó)內(nèi)外研究現(xiàn)狀
劉瀅(2010年)分別運(yùn)用決策樹分類法,時(shí)間序列法和神經(jīng)網(wǎng)絡(luò)對(duì)股票的價(jià)格的預(yù)測(cè)進(jìn)行了實(shí)際的應(yīng)用,分析了各個(gè)方法的弊端和長(zhǎng)處。李衛(wèi)民(2004年)使用ARMA-廣義回歸神經(jīng)網(wǎng)絡(luò)技術(shù)對(duì)股票價(jià)格的走勢(shì)進(jìn)行了預(yù)測(cè),克服了單純的ARMA模型的弊端。王振興(2010年)建立了基于BP和RBF神經(jīng)網(wǎng)絡(luò)的神經(jīng)網(wǎng)絡(luò)模型和依據(jù)擬合誤差確定權(quán)數(shù)的組合神經(jīng)網(wǎng)絡(luò)模型,并且進(jìn)行了實(shí)證分析,最后表明組合神經(jīng)網(wǎng)絡(luò)模型在精度和穩(wěn)定性上都要比單神經(jīng)網(wǎng)絡(luò)模型高,具有更為廣闊的應(yīng)用前景。張煒(2013年)認(rèn)為粗糙集在解決股票預(yù)測(cè)等不確定性問(wèn)題上具有獨(dú)特的優(yōu)勢(shì)。
因此,對(duì)于股票各個(gè)方面的預(yù)測(cè),學(xué)者們已經(jīng)做了很多有價(jià)值的工作。同時(shí)也給我們提供了許多需要借鑒和學(xué)習(xí)的東西。但是由于股票市場(chǎng)的復(fù)雜不確定性就注定了之后的股票市場(chǎng)還有很多新的規(guī)律和規(guī)則等著我們?nèi)ヌ崛『屯诰颉?/p>
三、Clementine實(shí)證研究
(一)數(shù)據(jù)來(lái)源。本文選取滬深300成分股中的熱門股票中信證券(600030)股票2014年8月11日到2014年12月12日的收盤價(jià),共收集到84個(gè)數(shù)據(jù)樣本。通過(guò)對(duì)這84個(gè)數(shù)據(jù)的分析,來(lái)預(yù)測(cè)未來(lái)一個(gè)月內(nèi)中信證券股票價(jià)格的大致走勢(shì)。本文所有的數(shù)據(jù)均來(lái)自于新浪財(cái)經(jīng)。
(二)數(shù)據(jù)的預(yù)處理??紤]到在建模過(guò)程中股票市場(chǎng)在雙休日和節(jié)假日不開市的特殊性,我們收集到的數(shù)據(jù)在時(shí)間段上是不連續(xù)的,也就是說(shuō),在不開市的時(shí)間點(diǎn)上,數(shù)據(jù)是缺失的。所以為了方便利用模型來(lái)分析,我們通過(guò)利用最近點(diǎn)的平均值的填充辦法,來(lái)使得數(shù)據(jù)(收盤價(jià))在以天為時(shí)間的單位上能夠具有連續(xù)性。
(三)模型的選擇與建立。本文以中信證券2014年8月11日至2014年12月12日每日收盤價(jià)作為數(shù)據(jù)源,建立數(shù)據(jù)流。
因?yàn)閷?duì)股票研究的目的在于能夠在一定時(shí)間段內(nèi)對(duì)股票價(jià)格進(jìn)行較為準(zhǔn)確地預(yù)測(cè),所以在本次研究中,我們也要通過(guò)選擇較為合適的模型,對(duì)中信證券每日的收盤價(jià)進(jìn)行預(yù)測(cè)。因?yàn)轭A(yù)測(cè)的時(shí)間越長(zhǎng)所產(chǎn)生的誤差越大,尤其是對(duì)于股票價(jià)格這類數(shù)據(jù)的預(yù)測(cè),更無(wú)法長(zhǎng)時(shí)間較準(zhǔn)地預(yù)測(cè),所以我們本次只進(jìn)行短期的預(yù)測(cè)。
1、專家模型
以中信證券2014年8月11日至2014年12月12日每日收盤價(jià)作為數(shù)據(jù)源,利用Clementine軟件對(duì)這些數(shù)據(jù)進(jìn)行時(shí)間序列的專家建模。
在時(shí)間序列模塊里選擇專家模型。我們?cè)谀P偷倪x擇上選擇“Expert Modeler”,然后在“Criteria”選項(xiàng)中選擇“All models”?!按_定”后“執(zhí)行”,最后獲得專家建模得到的模型。
最后從結(jié)果可以看出專家建模器選擇的模型是ARIMA(1,1,0),所以接下來(lái)我們只進(jìn)行指數(shù)平滑模型的建模。
2、指數(shù)平滑模型
在指數(shù)平滑建模中仍以中信證券2014年8月11日至2014年12月12日每日收盤價(jià)作為數(shù)據(jù)源,利用Clementine軟件對(duì)這些數(shù)據(jù)進(jìn)行時(shí)間序列的指數(shù)平滑建模。
在時(shí)間序列模塊里選擇指數(shù)平滑模型。我們?cè)谀P偷倪x擇上選擇“Exponential Smoothing”,然后在“Criteria”選項(xiàng)中選擇“Holts liner trend”?!按_定”后“執(zhí)行”,最后獲得指數(shù)平滑模型。
3、模型的分析與比較
在模型模塊的參數(shù)界面查看模型參數(shù)。本文選取了兩個(gè)模型中部分較重要的參數(shù)匯總在表3-1中。
從表3-1中,尤其是Sig的值可以看出,專家建模的Sig值為0.312,而指數(shù)平滑建模的Sig值僅為0。然而,顯著性值(也就是Sig的值)小于0.05時(shí)表示殘差序列不是隨機(jī)的,也就是說(shuō)所觀測(cè)的序列中存在著模型無(wú)法解釋的某些結(jié)構(gòu)。從這方面看來(lái),指數(shù)平滑模型不能完整的解釋該時(shí)間序列。
四、結(jié)論
(一)預(yù)測(cè)結(jié)果分析。從表格中可以看出,中信證券的股票的價(jià)格前期以較大的幅度進(jìn)行增長(zhǎng),而后期以校幅度增長(zhǎng),但是從整體上來(lái)說(shuō),中信證券的股票價(jià)格呈上升趨勢(shì),股民可以放心購(gòu)買。
(二)模型選擇分析。首先,對(duì)于中國(guó)這種受經(jīng)濟(jì)政策、大盤走向等因素影響比較大的股市來(lái)說(shuō),研究股票的價(jià)格并不是所選用的數(shù)據(jù)越多越好,因?yàn)閿?shù)據(jù)多就代表者時(shí)間跨度大,過(guò)長(zhǎng)的時(shí)間跨度很難避免特殊因素的影響。所以,選擇合適的數(shù)據(jù)源更利于我們更好地建模。
其次,對(duì)中信證券近半年的日收盤價(jià)進(jìn)行建模所得出的最佳模型為ARIMA模型。
最后,需要說(shuō)明的是,Clementine軟件在數(shù)據(jù)挖掘方面有非常大的使用空間和發(fā)展前景,并可以很大程度上簡(jiǎn)化時(shí)間序列建模的過(guò)程。所以,在研究性學(xué)習(xí)的過(guò)程當(dāng)中,充分使用適當(dāng)?shù)姆治龉ぞ卟拍苡行У奶岣吖ぷ鞯男?。(作者單位:河北?jīng)貿(mào)大學(xué))
參考文獻(xiàn):
[1] 劉瀅,數(shù)據(jù)挖掘在股票預(yù)測(cè)中的應(yīng)用[D],長(zhǎng)春理工大學(xué),2010
[2] 李衛(wèi)民,ARMA-廣義回歸神經(jīng)網(wǎng)絡(luò)技術(shù)在股票預(yù)測(cè)中的應(yīng)用研究[D],山東科技大學(xué),2004
[3] 王振興,BP-RBF組合神經(jīng)網(wǎng)絡(luò)在股票預(yù)測(cè)中的應(yīng)用研究[D],蘭州商學(xué)院,2010
[4] 劉勁松,數(shù)據(jù)挖掘中的現(xiàn)代時(shí)間序列分析方法[J],信息技術(shù),2007(7):100-101
[5] 彭英,基于灰色理論的數(shù)據(jù)挖掘在股票分析中的應(yīng)用[D],長(zhǎng)沙理工大學(xué),2006
[6] 柳建芳,基于小波消噪的聚類模式挖掘在股票收益率預(yù)測(cè)中的應(yīng)用[D],武漢理工大學(xué),2010
[7] 張煒,基于遺傳算法的屬性約簡(jiǎn)方法在股票預(yù)測(cè)中的應(yīng)用研究[D],湖南,2013