亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        混合多個SVR模型的金融時間序列預(yù)測

        2013-05-11 00:45:36陳鐘國
        微型電腦應(yīng)用 2013年3期
        關(guān)鍵詞:實驗模型

        陳鐘國

        0 引言

        金融時間序列預(yù)測是現(xiàn)代時間序列研究中最具挑戰(zhàn)性的課題。金融時間序列是復(fù)雜的非線性動態(tài)系統(tǒng),被認為是非平穩(wěn)的(non-stationary)、確定性混沌的(deterministic chaotic)并且含有大量噪聲[1]。非平穩(wěn)性說明其分布是時變的;確定性混沌的特性則說明它是短期可預(yù)測的;而噪聲高則意味著無法從金融市場過去的行為中獲取完整的信息,以全面揭示歷史價格與未來價格間的依賴關(guān)系,模型中不能包含的信息就被視為噪聲。

        以人工智能為基礎(chǔ)的預(yù)測方法,如人工神經(jīng)網(wǎng)絡(luò)(ANN)、支持向量回歸(SVR)等,屬于非線性的預(yù)測模型,符合金融時間序列的特性,逐漸得到人們的重視[2,3,6]。研究[3,5]表明,SVR的預(yù)測結(jié)果明顯優(yōu)于ANN。本研究將使用SVR建構(gòu)金融時間序列預(yù)測模型。

        SVR的精確性和泛化能力,很大程度上依賴于核心函數(shù)及超參數(shù)。本研究將采用粒子群優(yōu)化算法(PSO)來確定超參數(shù)及核函數(shù)的參數(shù)。

        由于金融時間序列具有非平穩(wěn)性等特征,其統(tǒng)計特性可能隨時間而發(fā)生變化。單一的SVR模型不能有效地揭示數(shù)據(jù)的非平穩(wěn)性,其預(yù)測精度容易出現(xiàn)波動。針對這一問題,本研究提出一種混合多個SVR模型的算法,選取訓(xùn)練數(shù)據(jù)的不同子集訓(xùn)練出多個SVR模型,預(yù)測時通過對多個SVR模型的預(yù)測結(jié)果加權(quán)求和而得到最終預(yù)測結(jié)果,各個SVR模型的權(quán)重根據(jù)其預(yù)測精度動態(tài)調(diào)整。通過選擇合適的子集,并采用合適的權(quán)重更新算法,可以盡量保證在某些模型預(yù)測精度出現(xiàn)波動時仍能找到預(yù)測精度較高的模型,降低因金融時間序列的非平穩(wěn)性而使預(yù)測精度降低的風(fēng)險。

        實驗表明,本文提出的算法,能有效地提高金融時間序列預(yù)測的準(zhǔn)確性。

        1 研究方法

        1.1 支持向量機(Support Vector Machine,SVM)

        SVM是Vapnik等學(xué)者在統(tǒng)計學(xué)習(xí)理論基礎(chǔ)上提出的分類方法,建立在VC維理論和結(jié)構(gòu)風(fēng)險最小化(SRM)準(zhǔn)則基礎(chǔ)上。與ANN相比,SVM具有小樣本學(xué)習(xí)、泛化能力強等特點,能有效地避免過度學(xué)習(xí)、局部極小點及“維數(shù)災(zāi)難”等問題。

        1.2 支持向量回歸(Support Vector Regression,SVR)

        SVR的主要概念與SVM相同,不同之處在于SVR是以回歸模型表示的。設(shè)訓(xùn)練樣本為{(xi,yi)}(i=1,2,…,n),輸入變量xi∈Rm是一個m維向量,輸出變量y∈R是一個連續(xù)值,n為樣本個數(shù)。SVR的目標(biāo)就是構(gòu)造如下的回歸函數(shù),公式(1)

        其中Φ(x)可將輸入變量非線性映射到高維空間,將原本非線性可解的問題轉(zhuǎn)換成在高維空間線性可解的問題。為確定上式中的系數(shù)w、b,可最小化,公式(2)

        其中,第一項為經(jīng)驗風(fēng)險(誤差),第二項為結(jié)構(gòu)風(fēng)險(用來預(yù)防發(fā)生過度學(xué)習(xí)問題);C為修正系數(shù)。經(jīng)驗風(fēng)險通過下式的ε-不敏感函數(shù)進行計算,公式(3)

        該函數(shù)定義了一個管狀區(qū)域,ε為管狀區(qū)域?qū)挾?,?dāng)預(yù)測值落在管狀區(qū)域內(nèi)時損失為零,預(yù)測值落在區(qū)域外時,其損失相當(dāng)于預(yù)測值與區(qū)域邊界的差。

        通過引入松弛變量(slack variables)ξ及ξ*,可將上述問題轉(zhuǎn)化成二次規(guī)劃問題,公式(4)

        該問題可通過拉格朗日乘子法求解,決策函數(shù)(decision function)有如下形式,公式(5)

        其中ai和ai*為拉格朗日乘子,滿足aiai*=0,ai≥0,ai*≥0,i=1,…,n,可通過下列最大化對偶函數(shù)(dual function)求得,公式(6)

        約束條件為:

        根據(jù)二次規(guī)劃問題的Karush-Kuhn-Tucker(KKK)條件,決策函數(shù)中僅有特定數(shù)量的系數(shù)(ai-ai*)非零。這些系數(shù)所對應(yīng)的數(shù)據(jù)點被稱為支持向量。決策函數(shù)只需要這些數(shù)據(jù)點即可確定。一般而言,ε越大,支持向量的個數(shù)越少,解的形式也就越稀疏,但在訓(xùn)練誤差越大。

        K(xi,xj)為核心函數(shù),K(xi,xj)=Φ(xi)*Φ(xj)。

        使用核心函數(shù),可以處理任意維度的特征空間,只需在特征空間進行內(nèi)積運算,不必顯式地將變量映射到高維空間。

        任何滿足Mercer條件的函數(shù)都可以當(dāng)作核心函數(shù)。典型的核心函數(shù)有多項式核心函數(shù)、徑向基函數(shù)(Radial basis function,RBF)等:

        核心函數(shù)的選擇至關(guān)重要,因為它間接定義了變量所映射到的高維特征空間的結(jié)構(gòu),從而影響解的復(fù)雜程度。RBF函數(shù)已被廣泛地應(yīng)用于基于SVR模型的金融時間序列的預(yù)測[2-3]。在本研究中也使用RBF核作為核心函數(shù),因為RBF核能夠?qū)崿F(xiàn)非線性映射,一般不會出現(xiàn)太大偏差,且僅需調(diào)整參數(shù)γ。

        1.3 SVR超參數(shù)及核心函數(shù)參數(shù)的選取

        SVR的泛化能力(預(yù)測精度)很大程度上依賴于SVR超參數(shù)和核心函數(shù)參數(shù)的選擇。選定RBF作為核心函數(shù)后,需要調(diào)整的參數(shù)為:修正系數(shù)(C)、管狀區(qū)域?qū)挾龋é牛?,RBF核的參數(shù)(γ)。

        (1)交叉驗證法

        參數(shù)選擇的基本思路是:通過嘗試不同的參數(shù)組合,比較其預(yù)測精度,選出預(yù)測精度最高的參數(shù)組合。

        交叉驗證法是衡量模型精度的一種常規(guī)方法。例如使用10折交叉驗證,就是將訓(xùn)練數(shù)據(jù)集分成10份,輪流將其中9份做訓(xùn)練1份做測試,10次的結(jié)果的均值作為對精度的估計。模型的精度通常用均方根誤差(RMSE)進行衡量,RMSE越小,精度越大,公式(7)

        其中,n為測試數(shù)據(jù)的個數(shù),pi為預(yù)測輸出,ai為實際輸出。

        (2)使用PSO算法確定參數(shù)

        為了確保SVR模型的預(yù)測精度以及減少計算量,本研究采用PSO算法確定上述參數(shù),PSO算法具有流程簡單、容易實現(xiàn)、無需復(fù)雜調(diào)整的優(yōu)點,比傳統(tǒng)的網(wǎng)格搜索具有更高性能。

        粒子的位置代表一種參數(shù)組合(C,ε,γ),使用該參數(shù)組合在訓(xùn)練數(shù)據(jù)上采用5折交叉驗證法得到RMSE,粒子的適應(yīng)度的計算公式為(8)

        實驗中,SVR參數(shù)選擇范圍為:C=[2,1000],ε=[0.001,0.2],γ=[0.0001,2];采用的PSO參數(shù)為:c1=1.9,c2=1.9,r1=1.2,r2=1.2,ωstart=0.8,ωend=0.2,tmax=50,粒子個數(shù)為20。

        使用上述參數(shù)運行PSO算法,當(dāng)達到最大迭代次數(shù)或所得解不再變化,就終止迭代。

        (3)其他方法

        由于本研究需要進行大量實驗(尤其是在研究SVR輸入?yún)?shù)、輸出參數(shù)的選擇的時候),為減少實驗時間,還考慮了其他選擇參數(shù)組合的方法。

        當(dāng)ε處于合理的范圍之內(nèi)時,ε的變動對SVR模型的影響不明顯[3],因此在部分實驗中取ε=0.001。

        實驗中發(fā)現(xiàn),當(dāng)γ不變時,C的變動對SVR模型的影響不明顯。為了進一步節(jié)省實驗時間,在部分實驗中選擇C=3σy,其中σy為訓(xùn)練數(shù)據(jù)集中輸出變量的標(biāo)準(zhǔn)差。

        1.4 SVR輸入向量、輸出變量的選擇

        時間序列包含一系列標(biāo)量數(shù)據(jù),因為一般認為時間序列的下一輸出與時間并不直接相關(guān),而與系統(tǒng)狀態(tài)有關(guān),所以必須選擇合適的輸入向量,以重構(gòu)狀態(tài)空間。重構(gòu)狀態(tài)空間的方式包括過嵌入法(over-embedding)、特性向量法(feature vector)。

        使用過嵌入法[5],必須選擇合適的維度m、時延d,在時刻i,輸入向量為{pi,pi-d,…,pi-(m-1)d},輸出變量為pi+d(pi為時刻i的價格)。對于金融時間序列,目前還沒有系統(tǒng)化的方法可以確定合適維度和時延。常規(guī)的方法,如互信息法[5]、偽鄰點法[5],由于金融時間序列噪聲比較高,效果并不理想。

        特性向量方法,指的是考慮當(dāng)前時間點往前的一個時間窗口,將其中的數(shù)據(jù)壓縮成幾個特性值,作為輸入向量。如果選擇的是合適的特性,輸入向量的維度往往小于過嵌入法。

        本研究采用的是特征向量法,特征的選擇參考了文獻[3]的方法。假設(shè)選定的輸入向量維度為m,時延為d。在每個時間點j,輸入向量為{RDP1,d,…,RDPm-1,d,EMA15},輸出變量為RDPd:

        其中p(j)為時間點j的價格。EMA15的計算方法為:當(dāng)前價格減去15日EMA(指數(shù)移動平均)價格。計算RDPd時必須先求得當(dāng)前以及d天后的3日EMA價格。用EMA平滑化數(shù)據(jù),可以提高模型的預(yù)測性能[3]。

        對于輸入向量維度和時延的選擇,采用的是窮舉法:嘗試各種維度和時延的組合,使用單一SVR模型的方法進行預(yù)測,計算預(yù)測誤差。由于這一過程相當(dāng)耗時,實驗中采用了采用1.3節(jié)第3小節(jié)中的方法確定C、ε,并將γ的選擇范圍限定為{0.001,0.005,0.01}。

        1.5 混合多個SVR模型的預(yù)測算法

        單一SVR模型的主要問題在于不能有效處理非平穩(wěn)的金融時間序列。某一SVR模型在各個時間段的預(yù)測誤差(用NMSE表示),如圖1所示:

        圖2 某一SVR模型在各個時間段的預(yù)測誤差

        從圖1可以看出,同一SVR模型在不同時間段的預(yù)測誤差可能出現(xiàn)較大波動,例如在時間段22處預(yù)測誤差驟增,這種情況通常表示當(dāng)前時間段的統(tǒng)計特性發(fā)生變化,已經(jīng)和訓(xùn)練數(shù)據(jù)的統(tǒng)計特性不一致。

        為了解決單一SVR模型的問題,我們選取訓(xùn)練數(shù)據(jù)的不同子集,從中訓(xùn)練出多個SVR模型,分別用這些模型進行預(yù)測,并分析了這些模型在各個時間段的預(yù)測誤差,部分模型的預(yù)測誤差,如圖2所示:

        圖2 多個SVR模型在各個時間段的預(yù)測誤差

        從圖2中可以看出,雖然存在所有模型的預(yù)測誤差同時驟增的情況(如時間段22處),但通常情況下,在某些模型誤差驟增時,其他模型的誤差仍然保持平穩(wěn)。根據(jù)這一規(guī)律,為了降低某些SVR模型誤差驟增所造成的影響,本研究提出一種混合多個SVR模型的算法,通過對多個SVR模型的預(yù)測結(jié)果進行加權(quán)求和而得到預(yù)測結(jié)果,公式(9)

        其中,K為模型的個數(shù),fi(x)為模型i的預(yù)測結(jié)果,wi為模型i的權(quán)重,f(x)為最終的預(yù)測結(jié)果。由于最終的預(yù)測結(jié)果綜合考慮不同模型的預(yù)測結(jié)果,在部分模型出現(xiàn)較大偏差時,如果其他模型的預(yù)測準(zhǔn)確性較高且權(quán)重足夠大,就能夠抵消誤差驟增所造成的影響。

        各個SVR模型的權(quán)重根據(jù)其上一輪的預(yù)測誤差動態(tài)調(diào)整:

        其中,K為模型的個數(shù),ei為模型i在上一輪的預(yù)測誤差(如:預(yù)測值與實際值之差的絕對值),為所有模型在上一輪的預(yù)測誤差的平均值。容易看出,上一輪預(yù)測精度較高的模型權(quán)重更高,式中取平方的目的主要是為了進一步增加其權(quán)重。由于金融時間序列有短期平穩(wěn)的特點,多數(shù)SVR模型的預(yù)測精度在短時間內(nèi)保持穩(wěn)定,所以這種更新權(quán)重方法能夠提高下一輪的預(yù)期預(yù)測精度。這里只根據(jù)上一輪的預(yù)測誤差調(diào)整權(quán)值,是為了及時降低誤差驟增的模型的權(quán)重從而抵消其影響。實驗也證實:如果考慮更早之前的預(yù)測誤差,預(yù)測精度并沒有得到提高。實驗中還發(fā)現(xiàn),如果只選取權(quán)重較高的約25%的模型進行預(yù)測,預(yù)測精度比使用全部模型更好。上述權(quán)重還需歸一化:

        為了盡量確保在某些模型的預(yù)測精度出現(xiàn)波動時仍能找到預(yù)測精度較高的模型,必須選取合適訓(xùn)練數(shù)據(jù)子集。本研究采用的方法是:分別將訓(xùn)練數(shù)據(jù)平均劃分為2、3、4、5、6、10個分區(qū),得到共30個分區(qū)。

        2 實驗

        2.1 數(shù)據(jù)集

        為驗證本文提出的算法,使用表1中所列的指數(shù)進行實驗,如表1所示:

        表1 所用指數(shù)及其代號

        數(shù)據(jù)從Yahoo Finance網(wǎng)站獲得,原始數(shù)據(jù)包括了每個交易日的開盤價、收盤價、最高價、最低價、交易量等,實驗中使用的是收盤價。數(shù)據(jù)集所跨越的歷史時期包含眾多重大的經(jīng)濟事件,應(yīng)該足以驗證本文所提出的混合多個SVR模型的算法在非平穩(wěn)的金融時間序列上的表現(xiàn)。

        2.2 數(shù)據(jù)預(yù)處理

        首先根據(jù)1.4節(jié)的方法計算每個時間點的輸入向量及輸出變量。實驗時采用維度m=5,時延d=5。

        超出±2倍標(biāo)準(zhǔn)差范圍的RDP值被當(dāng)作異常值,用與之相近的邊界值代替。

        由于RBF函數(shù)對所有特征采用相同處理,從而賦予各個特征相同的權(quán)值,數(shù)值范圍較大的特征比數(shù)值范圍較小的特征影響更大。為了平衡各個特征的影響,將輸入向量各維的數(shù)據(jù)歸一到[-1,1]。

        2.3 衡量指標(biāo)

        為了衡量模型的預(yù)測能力,采用衡量指標(biāo)包括:RMSE(root mean square error,均方根誤差)、NMSE(normalized mean squared error,歸一化均方誤差)、WDS(weighted directional symmetry,加權(quán)方向?qū)ΨQ性),公式(10)

        其中,n為測試數(shù)據(jù)個數(shù),pi為預(yù)測輸出,ai為實際輸出。

        RMSE、NMSE都衡量了模型的預(yù)測誤差,值越小,表示模型的預(yù)測精度更高。不同的是,NMSE將測試數(shù)據(jù)本身的方差考慮在內(nèi)。

        WDS不僅衡量預(yù)測誤差,還考慮方向準(zhǔn)確度。WDS越小,則表示模型越好。這一指標(biāo)對于市場交易者更有實際意義,因為交易者關(guān)心的往往是未來的價格的走勢而非具體價格。

        需要說明的是,計算WDS時,必須先將輸出變量轉(zhuǎn)換成價格。

        2.4 實驗方法

        對上述5個指數(shù)的數(shù)據(jù)進行預(yù)處理,將轉(zhuǎn)化后的數(shù)據(jù)集的前90%作為訓(xùn)練數(shù)據(jù),后10%作為測試數(shù)據(jù)。

        實驗中分別考察了單一SVR模型和混合多個SVR模型的算法(混合模型)的預(yù)測能力。

        單一SVR模型使用全部訓(xùn)練數(shù)據(jù)訓(xùn)練出一個SVR模型,并用該模型在測試數(shù)據(jù)上進行預(yù)測。

        混合模型先將選擇訓(xùn)練數(shù)據(jù)的不同子集,再在各個子集上進行訓(xùn)練,得到多個SVR模型,再利用前文描述的算法在測試數(shù)據(jù)上進行預(yù)測。

        訓(xùn)練時,使用PSO算法尋找在訓(xùn)練數(shù)據(jù)上交叉驗證誤差最小的SVR超參數(shù)及核心函數(shù)參數(shù)。

        2.5 實驗結(jié)果

        列出了各個指數(shù)上的實驗結(jié)果,如表2所示:

        表2 實驗結(jié)果

        同一結(jié)果,如圖3所示:

        圖3 實驗結(jié)果

        實驗結(jié)果顯示,與單一模型相比,混合模型的預(yù)測誤差(NMSE)降低了10%~30%,而WDS也降低了5%~25%。由此可見,混合模型的預(yù)測能力明顯優(yōu)于單一模型。

        為了分析模型的預(yù)測誤差隨時間變化的情況,將預(yù)測結(jié)果根據(jù)時間分為30個時間段,計算每個時間段的RMSE?;旌夏P团c模型中用到的各個SVR模型的預(yù)測誤差(RMSE),其中黑線表示混合模型,如圖4所示:

        圖4 混合模型預(yù)測誤差與其他模型的對比

        在各個時間段,混合模型的預(yù)測誤差基本上都低于其他模型。由此可見,混合模型確實能夠有效處理非平穩(wěn)的金融時間序列,在市場出現(xiàn)結(jié)構(gòu)性變動時仍能保持較高的預(yù)測準(zhǔn)確度。從圖4中可以看到,在各個時間段,當(dāng)某些模型的預(yù)測誤差驟增時,仍有其他模型的預(yù)測誤差保持穩(wěn)定,這說明所選擇的訓(xùn)練數(shù)據(jù)子集具有互補性,而權(quán)重的調(diào)整算法也較合理,能有效抵消非平穩(wěn)性的影響。

        但是,時間段22處的預(yù)測誤差仍然較大,這可能是因為選擇訓(xùn)練數(shù)據(jù)的子集的算法還有待改進,也有可能因為市場在該時間段的可預(yù)測性較低,在后續(xù)研究中將繼續(xù)研究這一問題。

        3 結(jié)語

        本文提出一種混合多個SVR模型的金融時間序列預(yù)測算法。在全球5大股指上的實驗表明,與單一SVR模型相比,該算法預(yù)測金融時間序列的能力有顯著提升。這種改進主要是由于算法考慮了時間金融序列的非平穩(wěn)性,采用不同的數(shù)據(jù)訓(xùn)練出多個SVR模型,通過合理調(diào)整各個模型的權(quán)重來抵消某些模型出現(xiàn)波動而造成的影響,從而提高整體的預(yù)測精度。

        后續(xù)研究中將進一步優(yōu)化算法,繼續(xù)分析SVR輸入向量的維度、時延對算法預(yù)測能力的影響,并將該算法應(yīng)用于其他非平穩(wěn)時間序列,考察算法的通用性。

        [1]Yaser S A M,Atiya A F.Introduction to financial forecasting[J].Applied Intelligence,1996.6:205 13.

        [2]Lu C J,Lee T S.Financial time series forecasting using independent component analysis and support vector regression[J].Decision Support Systems,2009.47(2):115-125.

        [3]Tay F E H,Cao L J.Application of support vector machines in financial time series forecasting[J].Omega,2001.9(4):309-317.

        [4]Kantz H,Schreiber T.Nonlinear time series analysis[M].2nd ed,Lundon:Cambridge University Press,2004.

        [5]Samsudin R,Shabri A,Saad P.A comparison of time series forecasting using support vector machine and artificial neural network model[J].Journal of Applied Sciences,2011.10:950-958

        [6]Hadavandi E,Shavandi H,Ghanbari A.Integration of genetic fuzzy systems and artificial neural networks for stock price forecasting[J].Knowledge-Based-Systems,2010.23(8):800-808.

        猜你喜歡
        實驗模型
        一半模型
        記一次有趣的實驗
        微型實驗里看“燃燒”
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        做個怪怪長實驗
        3D打印中的模型分割與打包
        NO與NO2相互轉(zhuǎn)化實驗的改進
        實踐十號上的19項實驗
        太空探索(2016年5期)2016-07-12 15:17:55
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        国产精品日本天堂| 女人被狂躁到高潮视频免费网站 | 亚洲av高清一区二区三区| 亚洲av无码国产精品色午夜字幕| 国产人妻熟女高跟丝袜| 国产丶欧美丶日本不卡视频| 无码人妻精品一区二区三区不卡 | 亚洲中文字幕高清av| 亚洲av无码乱码在线观看牲色| 丰满的少妇xxxxx青青青| 久久精品国产四虎| 人妻丝袜中文字幕久久| 日本高清一区在线你懂得| 国产饥渴的富婆一凶二区| 亚洲国产精品久久艾草| 亚洲国产长腿丝袜av天堂| 亚洲中文字幕无码中字| 亚洲夫妻性生活视频网站| 午夜亚洲精品视频在线| 337p人体粉嫩胞高清视频| 久久人人爽天天玩人人妻精品| 黑人巨大精品欧美在线观看| 中文字幕文字幕一区二区| 国产精品人人做人人爽人人添| 国产免费无码一区二区三区| 久久精品国产屋| 亚洲国产日韩一区二区三区四区| 狼狼综合久久久久综合网| 男人激烈吮乳吃奶视频免费 | 国产亚洲欧美另类第一页| 亚洲一区二区三区视频免费| 欧美成人家庭影院| 中文字幕av无码免费一区| 久久久久久久尹人综合网亚洲| 日韩人妻高清福利视频| 情av一区二区三区在线观看| 一区二区三区视频| 精品三级久久久久久久电影| 亚洲国产欲色有一二欲色| 国产无套一区二区三区久久| 美女网站免费福利视频|