王浩,陳娟,姚宏亮,李俊照
合肥工業(yè)大學(xué)計(jì)算機(jī)與信息學(xué)院,合肥 230009
基于離群特征模式的股市波動(dòng)預(yù)測(cè)模型
王浩,陳娟,姚宏亮,李俊照
合肥工業(yè)大學(xué)計(jì)算機(jī)與信息學(xué)院,合肥 230009
隨著金融市場(chǎng)的逐步完善,投資理念的逐步深入,股票投資被越來越多的人所接受,但是證券市場(chǎng)是高風(fēng)險(xiǎn)與高收益并存的,因此,有效的預(yù)測(cè)方法對(duì)減少投資風(fēng)險(xiǎn)是很有必要的,關(guān)于證券市場(chǎng)的分析和預(yù)測(cè)也一致為人們所關(guān)注。對(duì)于股票市場(chǎng)的預(yù)測(cè)問題國內(nèi)外很多學(xué)者都做了有意義的探索,早期ARIMA技術(shù)應(yīng)用于時(shí)間序列預(yù)測(cè),但是ARIMA是線性預(yù)測(cè)的方法。隨著非線性科學(xué)的發(fā)展,人們提出了神經(jīng)網(wǎng)絡(luò)方法應(yīng)用在金融時(shí)間序列的分析和預(yù)測(cè)[1],相對(duì)于ARIMA模型神經(jīng)網(wǎng)絡(luò)模型有很大的優(yōu)勢(shì),然而神經(jīng)網(wǎng)絡(luò)方法有很多局限性,神經(jīng)網(wǎng)絡(luò)存在有很多參數(shù)如網(wǎng)絡(luò)大小、初始權(quán)重的選擇問題,而且可能存在過學(xué)習(xí)的現(xiàn)象,導(dǎo)致泛化能力很低,在訓(xùn)練過程中存在局部極小問題,且收斂速度慢。
支持向量機(jī)(Support Vector Machines,SVM)[2]已經(jīng)被認(rèn)為是先進(jìn)的回歸和分類的技術(shù)。最早是由Cortes和Vapnik于1995年提出,以統(tǒng)計(jì)學(xué)習(xí)理論為基礎(chǔ),其與傳統(tǒng)機(jī)器學(xué)習(xí)理論最大的不同在于,它服從結(jié)構(gòu)風(fēng)險(xiǎn)最小化原理而非經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化。SVM綜合考慮經(jīng)驗(yàn)風(fēng)險(xiǎn)與置信風(fēng)險(xiǎn),具有很好的泛化能力。支持向量機(jī)可以獲得全局最優(yōu),解決了其他的神經(jīng)網(wǎng)絡(luò)模型陷入局部最優(yōu)的問題,而且支持向量機(jī)還能解決過度擬合的問題,很多的實(shí)驗(yàn)結(jié)果也表明SVM算法優(yōu)于人工神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)[3]。
隨著上市公司越來越多,股票市場(chǎng)的規(guī)模也越來越大,由于一支股票會(huì)受到諸多因素的影響,信息量是很龐大的,而且存在冗余,如果不對(duì)這些信息進(jìn)行約減,會(huì)導(dǎo)致運(yùn)算量很大,增加運(yùn)算的時(shí)間。特征選擇[4]是從原始的輸入變量中挑選子集,選擇的子集能更好地表示原數(shù)據(jù)集的特征,提高預(yù)測(cè)的精度和有效性。人們一直都在尋找快速、準(zhǔn)確的約減算法,出現(xiàn)了很多關(guān)于特征選擇的算法,基于核主成分分析作為特征選擇預(yù)測(cè)股票價(jià)格[5],將粗糙集與SVM結(jié)合進(jìn)行特征選擇[6],GA遺傳算法進(jìn)行特征提取[7]等,但是這些算法有它們的局限性,沒有從整個(gè)網(wǎng)絡(luò)的角度考慮,目標(biāo)變量的馬爾可夫毯[8]與其他變量獨(dú)立,屏蔽其他變量的影響,能較好地保證信息的獨(dú)立性和完整性。
股市波動(dòng)是一種必然現(xiàn)象,但由于中國股市容易受到的政府政策的影響,波動(dòng)過于頻繁和劇烈,相比其他成熟市場(chǎng)存在更多的異常波動(dòng),頻繁且劇烈的波動(dòng)會(huì)使投資者難以做出正確的投資決策[9]。股市的政策指標(biāo)分為中長(zhǎng)期連續(xù)性政策和短期性的離散政策事件,分析不同的政策對(duì)股市的沖擊大小,結(jié)果表明連續(xù)性政策與我國股市之間存在正相關(guān)關(guān)系,但解釋程度較小,股市的波動(dòng)受短期性的政策時(shí)間影響較大,但政策事件對(duì)股市的沖擊力在逐步減弱,股票市場(chǎng)也趨于成熟。而股票市場(chǎng)也有其自身的變化趨勢(shì),我們通過描述股票走勢(shì)的指標(biāo)從微觀的角度去研究股票市場(chǎng)內(nèi)部的波動(dòng)現(xiàn)象,有很多學(xué)者分析技術(shù)指標(biāo)對(duì)股票走勢(shì)的影響[10-11],離群特征模式針對(duì)股票中背離特征,將特征進(jìn)行一定的組合提取,相比于其他的算法只是將特征作為模型的輸入向量要更加合理、有效。
一種融合離群特征模式的支持向量機(jī)模型通過馬爾可夫毯算法找出與目標(biāo)結(jié)點(diǎn)相關(guān)的股票,對(duì)相關(guān)股票建立支持向量機(jī)模型,實(shí)驗(yàn)發(fā)現(xiàn)建立的模型對(duì)股票的一般波動(dòng)預(yù)測(cè)效果比較好,對(duì)于異常波動(dòng)不能得到有效的預(yù)測(cè),進(jìn)一步通過股票的指標(biāo)特征與走勢(shì)背離的現(xiàn)象提取特征模式,通過時(shí)序滑動(dòng)窗口動(dòng)態(tài)捕捉背離指標(biāo),將離群特征模式作為先驗(yàn)知識(shí)[12]加入原SVM模型中,可以減小異常波動(dòng)帶來的誤差,提高模型的預(yù)測(cè)精度。
在給定的貝葉斯網(wǎng)絡(luò)中(Bayesian networks)[13]中一個(gè)變量的馬爾可夫毯時(shí),貝葉斯網(wǎng)絡(luò)中其他變量與該變量條件獨(dú)立,一個(gè)變量的馬爾可夫毯能屏蔽其他變量對(duì)該變量的影響。
定義1對(duì)貝葉斯網(wǎng)絡(luò)G=<V,E>和聯(lián)合概率密度P(V),如果G所表示的條件獨(dú)立性和P所表示的馬爾可夫條件一一對(duì)應(yīng),稱G和P是faithful。而在具有忠實(shí)性的因果概率網(wǎng)絡(luò)中,任何變量的馬爾可夫毯MB(T)是唯一存在的。
定義2 D-分離(D-separation)對(duì)于一個(gè)有向無環(huán)圖,有三個(gè)互不相交的結(jié)點(diǎn)子集A、B、C,若A中一個(gè)結(jié)點(diǎn)X與B中一個(gè)結(jié)點(diǎn)Y之間的一條通路不滿足以下兩個(gè)條件:
(1)每一個(gè)具有匯聚結(jié)點(diǎn)的箭頭的結(jié)點(diǎn)均在C中,或有一個(gè)子孫結(jié)點(diǎn)C中。
(2)其他所有結(jié)點(diǎn)都不在C中,稱結(jié)點(diǎn)X和結(jié)點(diǎn)Y被集合CD-分離;能D-分離結(jié)點(diǎn)X和結(jié)點(diǎn)Y的最小結(jié)點(diǎn)集稱為結(jié)點(diǎn)X和結(jié)點(diǎn)Y最小D-分離集。
定義3一個(gè)變量的馬爾可夫毯MB(T),是在給定集合時(shí),變量集V中所有其他結(jié)點(diǎn)與變量T條件獨(dú)立性最小的集合。在具有忠誠性的有向無環(huán)圖中每個(gè)結(jié)點(diǎn)T的馬爾可夫毯是由T的父結(jié)點(diǎn)、子結(jié)點(diǎn)、子結(jié)點(diǎn)的父結(jié)點(diǎn)組成。
圖1是一個(gè)貝葉斯網(wǎng)絡(luò),圖中所有結(jié)點(diǎn)均為結(jié)點(diǎn)X的馬爾可夫毯,U1、Um為X的父結(jié)點(diǎn),Y1、Ym為X的子結(jié)點(diǎn),Z1、Zm為X的子結(jié)點(diǎn)的父結(jié)點(diǎn),都是X結(jié)點(diǎn)的馬爾可夫毯。
圖1 貝葉斯網(wǎng)絡(luò)
支持向量機(jī)方法是建立在統(tǒng)計(jì)學(xué)習(xí)理論的VC維理論和結(jié)構(gòu)風(fēng)險(xiǎn)最小原理基礎(chǔ)上的,在模型的復(fù)雜性和學(xué)習(xí)能力之間尋求最佳的折衷來獲得更好的泛化能力。早期提出這個(gè)方法是為了解決模式識(shí)別分類問題,現(xiàn)在支持向量機(jī)已擴(kuò)展到解決回歸估計(jì),并在時(shí)間序列預(yù)測(cè),非線性建模和優(yōu)化控制等問題上都有很好的應(yīng)用。
支持向量機(jī)的基本思想是通過核函數(shù)將輸入的變量映射到高維空間中,在新的特征空間進(jìn)行線性回歸。給定訓(xùn)練樣本集(x1,y1),(x2,y2),…,(xl,yl),其中xi∈RN為N維特征向量,yi∈{-1,1}或yi∈{1,2,…,k};當(dāng)yi∈{-1,1}時(shí)為最簡(jiǎn)單的二分類,當(dāng)yi∈{1,2,…,k}為k分類問題。
在線性可分的情況下,存在一個(gè)超平面方程為w·x+b=0,對(duì)它進(jìn)行歸一化,線性可分的樣本集滿足yi((w·x)+b)-1≥0,i=1,2,…,l;分類間隔為2/||w||,要求最優(yōu)超平面就要是分類間隔最大,εi是松弛變量表示被錯(cuò)分的程度,C是懲罰因子,表示加載錯(cuò)分點(diǎn)上的懲罰。原始的求解問題就轉(zhuǎn)化為求解如下的凸二次規(guī)劃問題:
這是一個(gè)凸二次規(guī)劃問題可以求得全局最優(yōu)點(diǎn),用Lagrange乘子把它轉(zhuǎn)化成對(duì)偶形式來求解。得到最優(yōu)超平面決策函數(shù)
對(duì)于非線性SVM的情況,是根據(jù)核函數(shù)將樣本空間映射到高維的特征空間進(jìn)行線性劃分,為了避免高維特征中的復(fù)雜計(jì)算,支持向量機(jī)采用核函數(shù)K(xi·x)來代替高維空間中的內(nèi)積運(yùn)算。最優(yōu)超平面的決策函數(shù)變?yōu)椋?/p>
一般情況下股票價(jià)格變化可以看作為一種光滑、連續(xù)的過程,這時(shí)股票市場(chǎng)穩(wěn)定運(yùn)行,投資者與股票發(fā)行方都可以進(jìn)行正常的投資與經(jīng)營(yíng)活動(dòng),獲得各自的收益。但在一些特殊情況(如國家重大經(jīng)濟(jì)政策的調(diào)整,各股票相關(guān)行業(yè)中發(fā)生突發(fā)事件以及投資者心態(tài)出現(xiàn)劇烈變化等情況)下,股票價(jià)格的短期變化將有可能由連續(xù)變化轉(zhuǎn)化為跳躍式變化,這種由于宏觀政策引起突變性是很難預(yù)測(cè)到的。
在股市預(yù)測(cè)中這種突變帶來的尖峰點(diǎn)是造成誤差的很大原因,針對(duì)這一情況引入離群特征,所有事情發(fā)生都有其前兆,事后從宏觀方面看這種突變是具有可解釋的,在事件發(fā)生之前從微觀的角度可以發(fā)現(xiàn)某些端倪的。這種離群特征是股市微觀層面的一些指標(biāo),像成交量,換手率,包括一些K線指標(biāo),這些指標(biāo)是對(duì)股市的一種刻畫,當(dāng)兩者發(fā)生背離時(shí)預(yù)測(cè)走勢(shì)即將發(fā)生改變,根據(jù)特征背離的情況提取離群特征模式【14】。
3.1 離群特征模式定義
定義4(離群特征模式)股票指標(biāo)是運(yùn)用一些復(fù)雜的數(shù)學(xué)公式,用數(shù)據(jù)來論證股票趨向、買賣的分析方法的一種工具。背離有兩種情況,一種是指標(biāo)與走勢(shì)發(fā)生背離;一種是指標(biāo)之間發(fā)生背離。股票數(shù)據(jù)D={S1,S2,…,Sn},其中Si是第i支股票的數(shù)據(jù),Si={Yt,k1,k2,…,km},Yt記錄的是股票的收盤價(jià),k1,k2,…,km記錄股票的一些指標(biāo)包括成交量、MACD、KDJ等K線指標(biāo)。
(1)指標(biāo)k1,k2,…,km,收盤價(jià)為Yt,如果f(k1,k2,…,km)*Yt<0指標(biāo)組合與走勢(shì)發(fā)生背離,Yt+1=F(f(k1,k2,…,km),Y),后一天的走勢(shì)是指標(biāo)組合與前面走勢(shì)的一個(gè)函數(shù)。指標(biāo)與股票的走勢(shì)是相關(guān)的,如果兩者之間發(fā)生背離,說明走勢(shì)即將發(fā)生大的變化。
(2)指標(biāo)k1,k2,…,km,fi(k1,k2,…,km)*fj(k1,k2,…,km)<0,指標(biāo)之間發(fā)生背離,也是一種異常情況。
本文主要考慮的是指標(biāo)與走勢(shì)之間的背離關(guān)系,根據(jù)指標(biāo)與走勢(shì)的背離情況提取的指標(biāo)組合構(gòu)成一個(gè)模式,稱為離群特征模式。
3.2 離群特征模式提取
根據(jù)股票價(jià)格時(shí)序數(shù)據(jù)的K線指標(biāo)分析,根據(jù)走勢(shì)的異常波動(dòng)對(duì)K線指標(biāo)的背離情況進(jìn)行離群特征提取,提取了三種背離特征模式,并且用案例對(duì)提取的模式進(jìn)行了論證。
案例一(房地產(chǎn)板塊)2012年12月24日上漲0.8%,成交量明顯縮量,12月25日上漲4.24%;2012年12月4日上漲縮量,12月5日是長(zhǎng)陽,漲幅達(dá)3.03%。
案例二(上證指數(shù))2012年1月6日上漲0.7%,成交量縮量,1月7日上漲2.89%;2010年12月10日上漲1.07%成交量縮小,12月11日上漲2.88%。
定義6(MACD背離)在震蕩后期,觀察MACD指標(biāo)在震蕩期間正能量柱不斷縮短(負(fù)能量柱不斷增長(zhǎng)),觀察KDJ指標(biāo)也在下降,尤其是當(dāng)KDJ出現(xiàn)死叉,MACD指標(biāo)Mt,KDJ指標(biāo)Kt、Dt、Jt,當(dāng)Mt-Mt-1<0 AND((Kt-Dt)<εAND(Jt-Dt)<εAND(Jt-Kt)<ε)),說明后面已經(jīng)缺乏能量提供股價(jià)繼續(xù)上漲,股價(jià)下跌。
案例三(房地產(chǎn)板塊)2013年1月4日開始有連續(xù)5天的震蕩,在第五天上漲的時(shí)候能量柱還是在下降,指標(biāo)發(fā)生背離,KDJ指標(biāo)形成死叉,1月11日跌幅3.38%;2012年9月10日震蕩5天,第四天能量柱開始下降,KDJ形成死叉,第五天小幅上漲跟指標(biāo)發(fā)生背離,9月17日跌幅3.74%。
案例四(上證指數(shù))2012年8月7日由連續(xù)的小幅漲跌,第四天下跌但MACD能量柱繼續(xù)上漲,KDJ開始下跌,8月31日開始下跌;2011年7月14日開始小幅震蕩,第7天十字星形式的上漲,MACD繼續(xù)下跌,KDJ也一直在下跌,7月25日下跌2.96%。
突變的長(zhǎng)實(shí)體打破了之前的走勢(shì),影響后面的預(yù)測(cè),尤其是長(zhǎng)實(shí)體之后又出現(xiàn)長(zhǎng)實(shí)體(雙實(shí)體),之前建立的模型很難立即跟上這樣的變化趨勢(shì)進(jìn)行預(yù)測(cè),而且這種突變本身就帶有很多的信息,不是每次都可以及時(shí)捕捉到有效信息去預(yù)測(cè)變化,在出現(xiàn)突變之后捕捉有效的特征提取模式。
案例五(房地產(chǎn)板塊)2012年12月28日上漲2.76%,成交量是前一天的1.2倍,12月31日上漲2.18%;2012年6月6日上漲2.13%,成交量是前一天1.2倍,后面連續(xù)小幅上漲3天。
案列六(上證指數(shù))2012年9月27日上漲2.60%,成交量是前一天1.4倍,28日上漲1.45%;2012年2月8日上漲2.43%,成交量是前一天1.3倍,之后連續(xù)小幅上漲兩天。
本文提出一種融合離群特征模式的支持向量機(jī)算法,由于股票之間是相互關(guān)聯(lián)的,相互之間有信息傳遞,也會(huì)互相影響,在給定目標(biāo)變量的馬爾可夫毯的情況下,目標(biāo)變量和網(wǎng)絡(luò)中的其他變量是條件獨(dú)立的,從而能得到與目標(biāo)變量關(guān)聯(lián)性較強(qiáng)的局部變量集合,這種局部變量可以屏蔽其他變量的影響,保證信息的完整性;一支股票除了會(huì)受到其他股票的影響,自身的一些信息也有一定的意義,根據(jù)目標(biāo)變量的相關(guān)數(shù)據(jù)提取離群特征模式作為先驗(yàn)知識(shí)[15],用時(shí)序滑動(dòng)窗口捕捉離群特征,建立離群特征模型,可以有效地預(yù)測(cè)由背離引起的異常波動(dòng)。該算法從兩個(gè)角度出發(fā)進(jìn)行股票的預(yù)測(cè),將兩個(gè)模型融合在一起,能有效地提高預(yù)測(cè)精度。
4.1 馬爾可夫毯進(jìn)行特征選擇
在股票市場(chǎng)中各個(gè)股票相互之間是有關(guān)聯(lián)的,馬爾可夫毯算法可以屏蔽網(wǎng)絡(luò)中其他結(jié)點(diǎn)對(duì)目標(biāo)變量的影響。本文用的是HITON_PC/MB算法【16】,這個(gè)算法是當(dāng)前主要學(xué)習(xí)馬爾可夫毯的算法,首先啟發(fā)式搜索與目標(biāo)結(jié)點(diǎn)T關(guān)聯(lián)性最強(qiáng)的結(jié)點(diǎn),用條件獨(dú)立性測(cè)試得到目標(biāo)結(jié)點(diǎn)T的父結(jié)點(diǎn)和子結(jié)點(diǎn)的集合PC(T),再次調(diào)用算法,可以得到結(jié)點(diǎn)T父結(jié)點(diǎn)的父結(jié)點(diǎn),父結(jié)點(diǎn)的子結(jié)點(diǎn),子結(jié)點(diǎn)的父結(jié)點(diǎn),子結(jié)點(diǎn)的子結(jié)點(diǎn)集合PC(PC(T)),再根據(jù)條件依賴的性質(zhì)尋找配偶結(jié)點(diǎn),剔除與T不互為父子的結(jié)點(diǎn),從而獲得目標(biāo)結(jié)點(diǎn)T的馬爾可夫毯集合MB(T)。
4.2 建立離群特征模型
一支股票不僅受到其他相關(guān)股票的影響,股票自身反映走勢(shì)的指標(biāo)也會(huì)對(duì)股票走勢(shì)的預(yù)測(cè)帶來很多有價(jià)值的信息。離群特征模式中定義的三種背離模式,不是直接將這些特征作為輸入變量,而是對(duì)特征進(jìn)行一定的提取。上漲背離主要收集的特征是成交量與前一天成交量的差值,成交量與平均成交量的差值;MACD背離收集的指標(biāo)是股票漲跌與能量柱上下波動(dòng)趨勢(shì)的對(duì)比,計(jì)算背離的大小,以及KDJ的變化趨勢(shì),將這些特征k1,k2,…,km進(jìn)行特征組合后的特征變量f1(k1,k2,…,km),f2(k1,k2,…,km),…,fn(k1,k2,…,km)作為支持向量機(jī)的輸入變量,收益率U(i)為輸出變量,建立離群特征模型。
4.3 離群特征模式的引入
使用時(shí)序滑動(dòng)窗口捕捉離群特征,將離群特征模型預(yù)測(cè)的結(jié)果作為先驗(yàn)知識(shí)加入SVM模型中,在支持向量機(jī)公式中加入約束條件使預(yù)測(cè)結(jié)果在[U(i)+μ1,U(i)-μ2]范圍之間,μ1、μ2參數(shù)通過建立離群特征模型的誤差獲得。
類似標(biāo)準(zhǔn)的支持向量機(jī)算法,融合先驗(yàn)知識(shí)的支持向量機(jī)表示:
4.4 算法描述
輸入:股票價(jià)格數(shù)據(jù)集Data1,股票特征集Data2
輸出:預(yù)測(cè)股票收益率結(jié)果
步驟1用公式Ri(t)=ln(Ii(t)/Ii(t-1))將股票價(jià)格轉(zhuǎn)化為收益率。
步驟2用HITON_PC/MB算法獲得目標(biāo)變量T的馬爾可夫毯mb。
步驟3將目標(biāo)變量T以及馬爾可夫毯mb的收益率作為支持向量機(jī)的輸入變量,建立基本的支持向量機(jī)模型。
步驟4根據(jù)定義的離群特征模式對(duì)特征k1,k2,…,km進(jìn)行組合,將組合后的特征變量f1(k1,k2,…,km),f2(k1,k2,…,km),…,fn(k1,k2,…,km)作為支持向量機(jī)的輸入變量,建立離群特征模型,用訓(xùn)練數(shù)據(jù)建立的模型去預(yù)測(cè)訓(xùn)練數(shù)據(jù),求得平均誤差值為μ1、μ2的大小。
步驟5使用時(shí)序滑動(dòng)窗口捕捉離群特征,如果存在離群特征使用離群特征模型預(yù)測(cè),將預(yù)測(cè)結(jié)果作為原SVM模型的先驗(yàn)知識(shí),進(jìn)行條件約束。
步驟6預(yù)測(cè)結(jié)果評(píng)價(jià)。
5.1 本文數(shù)據(jù)來自大智慧軟件下載的上證行業(yè)板塊指數(shù)
第一組數(shù)據(jù)采用的是30個(gè)板塊自2008年12月24日至2012年7月10日交易日股票行業(yè)板塊每日收盤指數(shù),一共是860個(gè)數(shù)據(jù)。
表130 個(gè)板塊的名稱
5.2 用馬爾可夫毯進(jìn)行特征選擇
本文采用收盤指數(shù)的日對(duì)數(shù)收益率作為股市行業(yè)板塊的指標(biāo),日對(duì)數(shù)收益率是指當(dāng)日的收盤價(jià)格比上昨日的收盤價(jià)格的值取對(duì)數(shù),用Yt表示板塊i在日期t的收盤價(jià)格,Ri(t)=lnln(Yt/Yt-1)表示板塊t在日期t的日對(duì)數(shù)收益率。
以1號(hào)結(jié)點(diǎn)房地產(chǎn)板塊為目標(biāo)變量,馬爾可夫毯學(xué)習(xí)算法——HITON_PC/MB算法目標(biāo)變量的馬爾可夫毯,1號(hào)結(jié)點(diǎn)是(房地產(chǎn))的馬爾可夫毯是5(銀行)、15(旅游酒店)、19(建材)、25(工程建筑)、30(電力)。
圖2 結(jié)點(diǎn)1(房地產(chǎn)板塊)的馬爾可夫毯
5.3 對(duì)數(shù)據(jù)預(yù)處理
對(duì)于一個(gè)m維的樣本數(shù)據(jù),如果不同分量的數(shù)據(jù)在不同的數(shù)量級(jí)上,數(shù)量級(jí)大的分量就會(huì)掩蓋數(shù)量級(jí)小的分量的影響,所以對(duì)原始數(shù)據(jù)要進(jìn)行一定的處理。對(duì)與不同分量中那個(gè)每一個(gè)值都減去該分量的最小值,再除以該分量最大值與最小值之差。
5.4 模型參數(shù)的選擇
對(duì)于內(nèi)積核函數(shù)的選擇,目前最常用的主要有線性核函數(shù),多項(xiàng)式核函數(shù),高斯徑向基核函數(shù),但實(shí)驗(yàn)研究表明采用這三種不同核函數(shù)的SVM能得到性能相近的結(jié)果,且支持向量的分布差別不大。本文使用的核函數(shù)是最常用的徑向基核函數(shù)。本文采用交叉驗(yàn)證和網(wǎng)格搜索方法對(duì)參數(shù)C,g尋優(yōu),參數(shù)C是懲罰參數(shù),參數(shù)g是RBF可函數(shù)中的參數(shù)g,讓C、g在一定范圍內(nèi)取值,使用交叉驗(yàn)證的方法,最終取在訓(xùn)練集上誤差最小的參數(shù)值作為最優(yōu)參數(shù),過高的C會(huì)導(dǎo)致過學(xué)習(xí)現(xiàn)象的發(fā)生,搜索到的最小誤差所有的成對(duì)C、g中,選擇懲罰參數(shù)最小的C作為最佳的對(duì)象。
5.5 對(duì)比實(shí)驗(yàn)算法
關(guān)于對(duì)比實(shí)驗(yàn)算法部分使用兩個(gè)對(duì)比算法,一個(gè)使用標(biāo)準(zhǔn)的支持向量機(jī)算法,以成交量指標(biāo)作為算法的輸入向量;另一個(gè)使用BP神經(jīng)網(wǎng)絡(luò)算法。
5.6 評(píng)價(jià)標(biāo)準(zhǔn)
均方誤差:
N表示預(yù)測(cè)集的樣本個(gè)數(shù),y是真實(shí)值,y′是預(yù)測(cè)值,MSE,MAE用來表示預(yù)測(cè)值偏離實(shí)際值的大小,它的值越小表明偏離度越小,說明預(yù)測(cè)結(jié)果的精確度越高。
6.1 數(shù)據(jù)選擇
表2 收集數(shù)據(jù)分成四組進(jìn)行實(shí)驗(yàn)
6.2 離群特征模式SVM算法與以成交量作為輸入變量SVM對(duì)比
圖3 數(shù)據(jù)D-I進(jìn)行實(shí)驗(yàn)對(duì)比圖
圖4 數(shù)據(jù)D-II進(jìn)行實(shí)驗(yàn)對(duì)比圖
圖5 數(shù)據(jù)D-III進(jìn)行實(shí)驗(yàn)對(duì)比圖
圖6 數(shù)據(jù)D-IV進(jìn)行實(shí)驗(yàn)對(duì)比圖
6.3 離群特征模式SVM算法與BP神經(jīng)網(wǎng)絡(luò)對(duì)比
圖7 D-I數(shù)據(jù)進(jìn)行實(shí)驗(yàn)對(duì)比圖
圖8 D-II數(shù)據(jù)進(jìn)行實(shí)驗(yàn)對(duì)比圖
圖9 D-III數(shù)據(jù)進(jìn)行實(shí)驗(yàn)對(duì)比圖
6.4 結(jié)果分析
根據(jù)上面兩個(gè)對(duì)比算法分析的圖形可以看出,SFSVM算法對(duì)于一部分股票走勢(shì)的尖峰點(diǎn)有一定的預(yù)測(cè),在數(shù)據(jù)D-I中SFSVM算法對(duì)數(shù)據(jù)中第2,3,18點(diǎn)相對(duì)于對(duì)比算法有比較好的預(yù)測(cè)效果,第2,3點(diǎn)出現(xiàn)上漲背離,第2個(gè)點(diǎn)前一天的縮量上漲,第3個(gè)點(diǎn)前一天大幅上漲成交量上漲不明顯,第18個(gè)點(diǎn)出現(xiàn)MACD背離,前一天在下降但MACD指標(biāo)上升,KDJ指標(biāo)也在下降;在數(shù)據(jù)D-II中SFSVM算法對(duì)數(shù)據(jù)中第6,13,14,22點(diǎn)有比較好的預(yù)測(cè)效果,6,13,22這三個(gè)點(diǎn)都是前一天的上漲縮量,第14點(diǎn)是前一天大幅上漲成交量上漲不明顯;在數(shù)據(jù)D-III中SFSVM算法對(duì)數(shù)據(jù)中4,12,15,17,20這五個(gè)點(diǎn)有比較好的預(yù)測(cè)效果,第4個(gè)點(diǎn)是MACD背離,12,20這兩個(gè)點(diǎn)是大幅上漲成交量不明顯,15,17這兩個(gè)點(diǎn)上漲縮量;在數(shù)據(jù)D-IV中SFSVM算法對(duì)數(shù)據(jù)中1,2,5,6,30這5個(gè)點(diǎn)有比較好的預(yù)測(cè)結(jié)果,1,30是上漲縮量背離,第5點(diǎn)是MACD背離,2,6是大幅上漲出現(xiàn)背離。
表3 誤差結(jié)果
圖10 D-IV數(shù)據(jù)進(jìn)行實(shí)驗(yàn)對(duì)比圖
對(duì)這四段數(shù)據(jù)分別進(jìn)行預(yù)測(cè)結(jié)果分析,SFSVM算法對(duì)于大幅波動(dòng)的股票走勢(shì)預(yù)測(cè)有一定的效果,雖然SFSVM算法會(huì)在某些情況下判斷失誤造成誤差,但根據(jù)表3的誤差總體結(jié)果可以看出SFSVM在一定程度上優(yōu)于兩種比較算法,能有效減少誤差。
本文提出一種離群模式的支持向量機(jī)算法(SFSVM)用馬爾可夫毯進(jìn)行特征選擇,選擇出與目標(biāo)板塊相關(guān)的其他板塊,再根據(jù)股票的內(nèi)部指標(biāo)信息提取離群模式作為先驗(yàn)知識(shí),將不同的方面結(jié)合在一起提高整體的性能。從實(shí)驗(yàn)圖形中可以看出該算法對(duì)股市中的某些異常突變點(diǎn)是可以提前感知的,但由于中國股市受經(jīng)濟(jì)政策影響比較大,有些突變點(diǎn)很難預(yù)測(cè)的,預(yù)測(cè)的結(jié)果和實(shí)際也是有很大偏差的??傮w來說,根據(jù)實(shí)驗(yàn)分析,對(duì)比其他算法該算法,有更好的預(yù)測(cè)效果。
[1]Hill T,O’Connor M,Remus W.Neural network models for time series forecasts[J].Management Science,1996,42:1082-1092.
[2]Vapnik V.The nature of statistic learning theory[M].New York:Springer,1995.
[3]Tay F E H,Cao L.Application of support vector machines in financial time series forecasting[J].Omega:The International Journal of Management Science,2001,29:309-317.
[4]Tsamardinos,Aliferis C F.Towards principled feature selection:Relevancy,filters and wrappers[C]//Ninth International Workshop on Artificial Intelligence and Statistics(AI&Stats 2003),2003.
[5]Cao L J,Chua K S,Guan L K.Combining KPCA with support vector machine for time series forecasting[C]//Proceedings of IEEE International Conference on Computational Intelligence for Financial Engineering,2003:325-329.
[6]Zhang T,Sai Y,Yuan Z.Research of stock index futures prediction model based on rough set and support vector machine[C]//Proceedings of the IEEE International Conference on Granular Computing,Hangzhou,China,2008:797-800.
[7]Huang Shian-Chang,Wu Tung-Kuang.Integrating GA-based time-scale feature extractions with SVMs for stock index forecasting[J].Expert Systems with Applications,2008,35:2080-2088.
[8]Pearl J.Probabilistic Reasoning in Intelligent Systems[M]. [S.l.]:Morgan Kaufmann,1988.
[9]徐君華,李啟亞.宏觀政策對(duì)我國股市影響的實(shí)證研究[J].經(jīng)濟(jì)研究,2009(9):12-21.
[10]Wang Xiaoyun,Lin Limin.Short-term prediction of Shanghai composite index based on SVM[Z].2010.
[11]常冶衡,袁芳.基于技術(shù)分析指標(biāo)解析中國股市[J].中國證券期貨,2010(10).
[12]Lauer F,Bloch G.Incorporating prior knowledge in support vector machines for classification.A review[J].Neurecomputing,2008,71(7/9):1578-1594.
[13]Ronan D.Learning Bayesian networks:Approaches and issues[J].Knowledge Engineering Review,2011,26(2):99-157.
[14]薛安榮,姚林,鞠時(shí)光,等.離群點(diǎn)挖掘方法綜述[J].計(jì)算機(jī)科學(xué),2008,35(11):13-18.
[15]Lauer F,Bloch G.Incorporating prior knowledge in support vector machines for classification:A review[J].Neurocomputing,2008,71(7):1578-1594.
[16]Aliferis C F,Tsamardinos I,Statnikov A.HITON:A novel Markov blanket algorithm for optimal variable selection[C]// American Medical Informatics Association Annual Symposium,2003.
WANG Hao,CHEN Juan,YAO Hongliang,LI Junzhao
School of Computer and Information,Hefei University of Technology,Hefei 230009,China
Due to the stock price fluctuations have stronger mutation and easily influenced by outside factors,cause it’s difficult to predict stock price movements.A stock market volatility forecasting model based on characteristics of outliers pattern(SFSVM)is presented.Firstly,SFSVM algorithm utilizes Markov Blanket algorithm obtaining local network to shield the effects of other node to the target node;Secondly,analyzing the index of the target node to extract characteristic of outliers pattern from the general behavior;then SFSVM algorithm capture outlier features using sliding window,put characteristic of outliers pattern into original SVM model as a prior knowledge,this method can predict peak point and smooth effect of peak point on the predicted results,it also can improve forecasting model robustness.Experimental results, obtained by running on datasets taken from stock plate index,show that this method performs better than neural network algorithm and the standard SVM algorithm on stock trend projections.
characteristics of outliers model;Support Vector Machines(SVM);Markov Blanket;prior knowledge
由于股票價(jià)格波動(dòng)具有較強(qiáng)的突變性且易受外界因素影響,導(dǎo)致股票價(jià)格走勢(shì)難以預(yù)測(cè)。提出基于離群特征模式的股市波動(dòng)預(yù)測(cè)模型(SFSVM)。該算法首先利用馬爾可夫毯選取目標(biāo)結(jié)點(diǎn)的局部網(wǎng)絡(luò)結(jié)構(gòu),以屏蔽其他結(jié)點(diǎn)對(duì)目標(biāo)結(jié)點(diǎn)的影響;對(duì)目標(biāo)結(jié)點(diǎn)的指標(biāo)進(jìn)行分析,提取異于一般行為的離群特征模式;利用滑動(dòng)窗口捕捉離群特征,將離群特征模式作為先驗(yàn)知識(shí)加入原SVM模型,預(yù)測(cè)尖峰點(diǎn)并平滑尖峰點(diǎn)對(duì)于預(yù)測(cè)結(jié)果的影響,提高預(yù)測(cè)模型的穩(wěn)健性。在股票板塊數(shù)據(jù)上進(jìn)行實(shí)驗(yàn)結(jié)果證明,SFSVM算法相對(duì)于神經(jīng)網(wǎng)絡(luò)和標(biāo)準(zhǔn)的SVM算法,在股票的走勢(shì)預(yù)測(cè)方面有更好的預(yù)測(cè)效果。
離群特征模式;支持向量機(jī);馬爾可夫毯;先驗(yàn)知識(shí)
A
TP18
10.3778/j.issn.1002-8331.1305-0154
WANG Hao,CHEN Juan,YAO Hongliang,et al.Stock market volatility forecasting model based on characteristics of outliers pattern.Computer Engineering and Applications,2014,50(22):243-249.
國家自然科學(xué)基金(No.61175051,No.61070131,No.61175033)。
王浩(1962—),教授,中國計(jì)算機(jī)學(xué)會(huì)高級(jí)會(huì)員,研究方向:人工智能;陳娟(1989—),碩士,研究方向:人工智能和知識(shí)工程;姚宏亮(1972—),男,博士,副教授,計(jì)算機(jī)學(xué)會(huì)會(huì)員,研究方向:人工智能和知識(shí)工程;李俊照(1975—),博士研究生,講師,研究方向:機(jī)器學(xué)習(xí)與人工智能。
2013-05-14
2013-09-03
1002-8331(2014)22-0243-07
CNKI網(wǎng)絡(luò)優(yōu)先出版:2013-09-04.,http://www.cnki.net/kcms/detail/11.2127.TP.20130904.1344.017.html