葉建萍
【摘 要】論文總結(jié)了一種現(xiàn)今的高頻金融時(shí)間序列數(shù)據(jù)預(yù)測(cè)手段,這種方法是將預(yù)處理采集到的數(shù)據(jù)通過(guò)決策樹(shù)抽取不同特征的高頻金融時(shí)間序列,建立基于支持向量機(jī)的高頻金融時(shí)間序列預(yù)測(cè)模型,預(yù)測(cè)高頻金融時(shí)間序列。數(shù)據(jù)顯示,該方法使預(yù)測(cè)效率提高,同時(shí)也很精準(zhǔn)。
【Abstract】This paper summarizes a current prediction method of high frequency financial time series data. This method is to extract the high frequency financial time series with different characteristics from the data preprocessed and collected through the decision tree, and establish the prediction model of high frequency financial time series based on support vector machine to predict the high frequency financial time series. The data show that the method makes the prediction more efficient and accurate.
【關(guān)鍵詞】支持向量機(jī);高頻金融時(shí)間;預(yù)測(cè)
【Keywords】support vector machine; high frequency financial time; prediction
【中圖分類(lèi)號(hào)】TP183 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 【文獻(xiàn)標(biāo)志碼】A ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?【文章編號(hào)】1673-1069(2019)12-0079-02
1 引言
因?yàn)楝F(xiàn)在是金融全球化的社會(huì),國(guó)家的經(jīng)濟(jì)優(yōu)勢(shì)或多或少需要依靠金融行業(yè)的運(yùn)轉(zhuǎn)和質(zhì)量,但影響其創(chuàng)新水平和發(fā)展程度的關(guān)鍵原因即金融的信息化技術(shù)?,F(xiàn)在,高頻金融時(shí)間序列預(yù)測(cè)手段是大熱趨勢(shì),有不少學(xué)者開(kāi)始研究該問(wèn)題。通過(guò)預(yù)測(cè)高頻金融時(shí)間序列,本文總結(jié)出以回歸系數(shù)為基礎(chǔ)的高頻金融時(shí)間序列手段,對(duì)均值平穩(wěn)的距離噪聲不敏感[1]。但是,高頻金融時(shí)間序列預(yù)測(cè)手段還是有缺陷,不能一次性針對(duì)處理太多數(shù)據(jù),同時(shí)由于不同領(lǐng)域的高頻金融時(shí)間序列特征不同,所以不同測(cè)試數(shù)據(jù)需要先分清特征。
2 提取高頻金融時(shí)間序列數(shù)據(jù)的特征
現(xiàn)在部分高頻金融時(shí)間序列預(yù)測(cè)手段有缺陷,不能準(zhǔn)確指導(dǎo)現(xiàn)實(shí)中的研究。本文先是闡述了何謂高頻金融時(shí)間序列,利用研究實(shí)際數(shù)據(jù),總結(jié)出高頻金融時(shí)間序列的兩個(gè)關(guān)鍵特征,相似性與非平穩(wěn)性。另外,因?yàn)檫@些特征,正交小波變換,可用分型維估計(jì)。通過(guò)實(shí)證分析國(guó)內(nèi)金融市場(chǎng)的微觀結(jié)構(gòu),得出指數(shù)序列的分型維。實(shí)驗(yàn)對(duì)證券指數(shù)進(jìn)行高頻金融時(shí)間序列預(yù)測(cè),和神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)相比較的話,提高了金融數(shù)據(jù)高頻金融時(shí)間序列預(yù)測(cè)效率,減小了預(yù)測(cè)誤差。
2.1 構(gòu)造決策樹(shù)
建立決策樹(shù)其實(shí)是建立對(duì)象屬性與對(duì)象值間的映射,通過(guò)輸出決策樹(shù)指導(dǎo)決策。重點(diǎn)在于一組沒(méi)有規(guī)律可循的事例推理決策樹(shù)對(duì)形式的分類(lèi),通過(guò)自上而下,于決策樹(shù)的內(nèi)部比較屬性值,按照不同屬性判斷后得出決策樹(shù)的葉節(jié)點(diǎn)結(jié)論。現(xiàn)實(shí)中經(jīng)常用到?jīng)Q策樹(shù),其特征明顯,首先結(jié)構(gòu)與手段簡(jiǎn)單,很好明白;方法里準(zhǔn)備數(shù)據(jù)不復(fù)雜;學(xué)習(xí)時(shí),使用決策樹(shù)可以不訓(xùn)練不屬于數(shù)據(jù)的知識(shí);模型效率高,很短時(shí)間里分析規(guī)模很大的數(shù)據(jù)源;比較精準(zhǔn)。構(gòu)建決策樹(shù)其實(shí)就是選擇與分割樹(shù)的節(jié)點(diǎn),能夠知道,決策樹(shù)構(gòu)建算法本質(zhì)在于分割[2]。按照分割手段不同,可分成兩類(lèi):第一類(lèi)是最小GINI的指標(biāo),第二類(lèi)以信息論為基礎(chǔ)。因?yàn)榻鹑谛袠I(yè)很重視信息,本文通過(guò)信息論,針對(duì)離散屬性構(gòu)建決策樹(shù),解答為何缺失數(shù)據(jù)以及屬性值的范圍連續(xù)等問(wèn)題。
也就是說(shuō),ID3算法通過(guò)屬性計(jì)算有關(guān)的樣本熵值,采用里面最小的熵值或最大信息增益的屬性當(dāng)成下一結(jié)點(diǎn)的屬性,循環(huán)往復(fù),形成最終的決策樹(shù)。設(shè)訓(xùn)練數(shù)據(jù)集是D,里面有N個(gè)元素,按照不同取值,把D分成k個(gè)子集,記D1,D2,…,Dk,不同子集都是n1,n2,…,nk個(gè),同時(shí)k Σi=1 ni=N。那么定義數(shù)據(jù)集D里面的信息熵是Entropy(D)=k Σs=1nsNlog(2nsN)。
①需要注意,信息熵是0時(shí),即D中全部元素屬于同一子集,訓(xùn)練集D歸類(lèi)完畢。分類(lèi)時(shí)經(jīng)常k=2,訓(xùn)練集D有正例與反例兩類(lèi)。但I(xiàn)D3算法,習(xí)慣通過(guò)信息增益,評(píng)判一個(gè)已知屬性有沒(méi)有很好歸類(lèi)訓(xùn)練集。
②其中ETi表示訓(xùn)練集{ω|ω∈D,ω∈Ti }的信息熵,di,s =card{ω| ω∈D,ω∈Ti } ,A與D相比較的話,信息增益Gain(D,A),Entropy(D)降低的數(shù)量是Gain(D,A)=Entropy(D)-new_Entropy(D,A)。
Step 1:確定不同屬性的數(shù)值區(qū)間,分別設(shè)為集合S1,S2,S3,S4,S5,S6,S7,各自取值,按照不同定義,取值差異很小,定義(2000,2200)(2200,2400)(2400,2600)(2600,2800)(2800,3000)(3000,3200)為數(shù)值分類(lèi)區(qū)間,記不同屬性的區(qū)間為S11~S16,S21~S26,S31~S36,S41~S46, S71~S76。
Step 2:計(jì)算收盤(pán)價(jià)漲幅在區(qū)間 S71,S72,S73,S74,S75中,交易天數(shù)為11,56,64,50,50,14,記d1,d2,d3,d4,d5,共為243天,總天數(shù)為N。按照公式有上證指數(shù)集S的信息熵[3]。
Step 3:計(jì)算不同屬性的信息增益,統(tǒng)計(jì)每天開(kāi)盤(pán)價(jià)在區(qū)間S11,S12,S13,S14,S15,S16的交易天數(shù)分別是11,56,64,50,50,14,記為D1,D2,D3,D4,D5,D6,共245天;下一日收盤(pán)價(jià)屬于區(qū)間S71,S72,S73,S74,S75,S76 的天數(shù)分別是3,48,5,0,0,0,有上證指數(shù)集的信息熵。那么能夠計(jì)算開(kāi)盤(pán)價(jià)屬于區(qū)間S12,S13,S14,S15,S16 的信息熵:ES11=0.8454,ES13=0.5992,ES14=0.5661,ES15=0.5579,ES16=0.5917。
重復(fù)上面的三個(gè)步驟,得到的信息增益分別為1.7992、2.0572、1.8181、0.5882、0.6758。
2.2 基于決策樹(shù)信息增益的特征抽取
實(shí)驗(yàn)表明了ID3算法以信息增益為測(cè)試屬性的規(guī)范,樹(shù)節(jié)點(diǎn)的選擇策略。ID3的根節(jié)點(diǎn)是信息增益最大的屬性,和數(shù)據(jù)分類(lèi)貢獻(xiàn)呈正比關(guān)系,最有利于輔助決策,也最為關(guān)鍵。因?yàn)槌山涣俊⒊山活~的信息增益值最小,同時(shí)和其余的特征
屬性差距很大,去掉成交量與成交額。因?yàn)樽罡邇r(jià)的信息增益最大,可知對(duì)下一日收盤(pán)價(jià)影響最大的是前一天的最高價(jià)。
3 基于支持向量機(jī)的高頻金融時(shí)間序列預(yù)測(cè)模型
3.1 支持向量機(jī)
支持向量機(jī)最早由20世紀(jì)90年代提出,以統(tǒng)計(jì)學(xué)習(xí)理論為基礎(chǔ),是全新的機(jī)器學(xué)習(xí)方法。利用核函數(shù)非線性變換,將原始數(shù)據(jù)映射到高為特征空間,然后在里面通過(guò)結(jié)構(gòu)風(fēng)險(xiǎn)最小化,構(gòu)造線性決策函數(shù),把低維問(wèn)題變成簡(jiǎn)單的高維問(wèn)題。支持向量機(jī)中最方便的模型為最大間隔分類(lèi)器,用來(lái)解決特征空間里分類(lèi)線性數(shù)據(jù),提高支持向量機(jī)理論水平。本文通過(guò)支持向量回歸機(jī)應(yīng)用,逼近函數(shù)。給定訓(xùn)練數(shù)據(jù)集S={xi,yi} ni (xi是輸入向量,yi是輸出向量,n為訓(xùn)練數(shù)據(jù)集樣本總量),支持向量機(jī)通過(guò)公式逼近函數(shù)(fx)。
3.2 支持向量機(jī)估計(jì)與預(yù)測(cè)結(jié)果
本文采用上證指數(shù)共245個(gè)交易日數(shù)據(jù)為樣本,在前面十分之九的交易天數(shù)中作為訓(xùn)練樣本估計(jì)支持向量機(jī)的參數(shù),后面的十分之一交易天數(shù)是測(cè)試樣本,評(píng)價(jià)預(yù)測(cè)水平[4]。選擇特征屬性比較抽取與特征屬性。分別采用多項(xiàng)式核K(x,y)=(x*y+1)d和高斯RBF核K(x,y)=exp(-γ||x-y||2 )比較分析,取ε=0.1,C=1,通過(guò)R語(yǔ)言函數(shù)編程。取d=3,γ=1/nVal,其中nV是變量個(gè)數(shù)。不管在抽取特征屬性前還是在之后,高斯RBF核函數(shù)可以順利逼近原數(shù)據(jù),而后者雖然也能無(wú)限逼近,但不夠準(zhǔn)確,實(shí)驗(yàn)結(jié)果體現(xiàn)就算提高多項(xiàng)式次數(shù),也無(wú)法較好改善,所以對(duì)上證指數(shù)訓(xùn)練數(shù)據(jù)集而言,高斯RBF核函數(shù)是最適宜的。
4 結(jié)語(yǔ)
為驗(yàn)證本文方法,采用共245個(gè)交易日的指數(shù)試驗(yàn)。抽取結(jié)果體現(xiàn)出,指數(shù)抽取的特征屬性均是開(kāi)盤(pán)價(jià)、收盤(pán)價(jià)、最高價(jià)、最低價(jià)。表明這些指數(shù)對(duì)我國(guó)股票市場(chǎng)的綜合指向能力很相似,通過(guò)不同算法獲得不同指數(shù)值,反映出股票市場(chǎng)的變化情況。實(shí)驗(yàn)表示,抽取特征向量后RBF核支持向量機(jī)可以提高逼近能力與預(yù)測(cè)效果??隙吮疚奶岬降母哳l金融時(shí)間序列預(yù)測(cè)方法,通過(guò)決策樹(shù)提取特征屬性,以支持向量機(jī)的預(yù)測(cè)為基礎(chǔ),讓預(yù)測(cè)數(shù)據(jù)更精確,便于更好地分析與挖掘現(xiàn)實(shí)數(shù)據(jù)。
【參考文獻(xiàn)】
【1】熊正豐.金融高頻金融時(shí)間序列分形維估計(jì)的小波方法[J].系統(tǒng)工程理論與實(shí)踐,2018(12):48-53.
【2】辛治運(yùn),顧明.基于最小二乘支持向量機(jī)的復(fù)雜金融高頻金融時(shí)間序列預(yù)測(cè)[J].清華大學(xué)學(xué)報(bào):自然科學(xué)版,2018(7):1147-1149.
【3】黃超.基于特征分析的金融高頻金融時(shí)間序列挖掘若干關(guān)鍵問(wèn)題研究[D].上海:復(fù)旦大學(xué),2016.
【4】毛國(guó)君.數(shù)據(jù)挖掘原理與算法[M].北京:清華大學(xué)出版社,2007.