閔 盈 盈
(1. 東北農(nóng)業(yè)大學 工程學院,哈爾濱 150001; 2. 哈爾濱商業(yè)大學,哈爾濱 150028)
信息技術(shù)的飛速發(fā)展以及廣泛應(yīng)用,使我們總在尋找數(shù)據(jù)統(tǒng)計或者數(shù)據(jù)處理的方法,從而產(chǎn)生了數(shù)據(jù)挖掘這一學科,數(shù)據(jù)挖掘可以應(yīng)用于任何類型的數(shù)據(jù)信息源,有的數(shù)據(jù)中含有時間的因素,而且時間之間還會存在有某種聯(lián)系,這樣的一些數(shù)據(jù)被稱為時間序列,時間序列目前在很多的領(lǐng)域都得到了應(yīng)用,時間序列模型也應(yīng)用于數(shù)據(jù)挖掘中,這種基于模型的時間序列數(shù)據(jù)挖掘具有很好的研究前景,目前的時間序列模型主要有隱馬爾可夫模型、隱半馬爾可夫模型、BOX-Jenkins回歸、ARIMA模型等方法[1-2].其中ARIMA模型是一種很重要的時間序列數(shù)據(jù)挖掘模型,但是這個模型往往只是對某個時間點進行研究,事實上一段時間往往影響未來的預(yù)測,所以改進ARIMA模型使其成為一段時間的預(yù)測模型有著重要的意義[3-5].
ARIMA(Auto Regressive Moving Average)模型是在1976年由Box和Jenkins等人提出,當時應(yīng)用這個序列模型僅僅是在經(jīng)濟和金融等領(lǐng)域.可以把模型ARIMA(p,d,q) 的通式寫成以下形式:
yt=φ1yt-1+φ2yt-2+…+φpyt-p+et-(θ1et-1+θ2et-2+…+θqet-q)
(1)
該模型分為前后兩個部分,φ1yt-1+φ2yt-2+…+φpyt-q這部分是自回歸方程,et-(θ1et-1+θ2et-2+…+θqet-q)這部分是誤差移動方程.
這樣式(1)就變?yōu)椋?/p>
利用這個模型會更加精確的給出預(yù)測值.
對于這個改進的ARIMA模型可以用圖1描述:
圖1 應(yīng)用ARIMA模型的流程圖
這個預(yù)測以當天股票價格和對未來一天的收益率為基礎(chǔ)來預(yù)測未來的股票價格,用Java語言實現(xiàn)了相關(guān)算法,運行環(huán)境為:Window XP.實際的股票價格序列使用了美國IT界的股票價格數(shù)據(jù)集.選取了2010年2月10日~2011年9月10日的數(shù)據(jù)來做試驗,用2011年9月13日~2012年10月1日的數(shù)據(jù)來做驗證.
本文對ARIMA模型更新前和更新后的誤差進行了比較,如圖2所示.
圖2 模型更新前后的對比
發(fā)現(xiàn)改良后的ARIMA模型誤差更小,說明改良后的ARIMA模型更優(yōu).對于股票的預(yù)測價格和實際價格也進行了比較,如圖3所示.
圖3 預(yù)測價格與實際價格對比
應(yīng)用跟心模型對股票的價格進行了預(yù)測,如圖4所示.
從以上圖形可以看出改進后的ARIMA模型與改進前的ARIMA模型具比較誤差更小,預(yù)測的股票價格也比較能夠反映實際的情況.能達到對于股票的基本預(yù)測,預(yù)測效果還好于改進前的ARIMA模型.
圖4 三只股票的預(yù)測價格
本文以時間序列的數(shù)據(jù)挖掘模型ARIMA模型為基礎(chǔ),為了完成更好的時間段上的預(yù)測,對ARIMA模型進行了改進,用改進的ARIMA模型對美國IT界的股票價格進行了預(yù)測,并比較了改進前后的ARIMA模型的誤差變化,發(fā)現(xiàn)改進后的ARIMA模型與改進前的ARIMA模型具比較誤差更小,預(yù)測的股票價格也比較能夠反映實際的情況,取得了較好的效果,但是ARIMA模型具有短時性不能進行長期的預(yù)測,這方面還有待進一步的研究.
參考文獻:
[1] 楊 明, 孫志揮, 宋余慶. 快速更新全局頻繁項集[J]. 軟件學報, 2004, 15(8): 189-1197.
[2] 易 彤, 徐寶文, 叉方君. 一種基于FP樹的挖掘關(guān)聯(lián)規(guī)則的增呈更新算法[J]. 計算機學報, 2004, 27(5): 704-710.
[3] FRANK M C, WALTER S. 數(shù)據(jù)結(jié)構(gòu)與抽象: Java語言版 [M]. 北京: 清華大學出版社, 2004.
[4] HAN W S, LEE J, PHAM M D,etal. iGraph: A framework for comparisons of disk based graph indexing techniques [J]. Association for Computing Machinery, 2010, 3(1): 449-459.
[5] 許 麗. MATLAB程序設(shè)計及應(yīng)用[M].北京: 清華大學出版社, 2011.
[6] 閔盈盈,吳 娟.基于時間序列的可燃物平均含水率日變化預(yù)測模型[J].哈爾濱商業(yè)大學學報:自然科學版,2013,29(6):678-681.