文/鄧生財 陳卓
基于經(jīng)驗模態(tài)分解和徑向基函數(shù)網(wǎng)絡的匯率預測
文/鄧生財 陳卓
為提高非線性外匯交易的預測精度,本文提出了一種基于經(jīng)驗模態(tài)分解和徑向基函數(shù)網(wǎng)絡結合的預測方法,并通過絕對誤差、均方誤差和相關系數(shù)指標來評估提出模型的性能。首先對原始匯率數(shù)據(jù)進行經(jīng)驗模式分解,得到若干個平穩(wěn)的本征模態(tài)函數(shù)和一個殘差向量,然后用徑向基函數(shù)網(wǎng)絡分別對分解后的每個分量進行預測,最后對各分量預測進行求和,求和值作為預測結果。本論文以美元對人民幣交易案例為研究對象,實驗結果表明,與單一的徑向基函數(shù)網(wǎng)絡模型相比,基于經(jīng)驗模式分解和徑向基函數(shù)網(wǎng)絡結合的預測方法具有更高的預測精度。
外匯交易;匯率預測;經(jīng)驗模態(tài)分解;徑向基函數(shù)網(wǎng)絡
匯率的波動會對國內(nèi)的通貨膨脹[1]和進出口[2]等產(chǎn)生一定的影響。而利用歷史匯率數(shù)據(jù),構造相應的預測模型來預測未來的匯率變化,可以防患于未然。傳統(tǒng)的股票時間序列預測方法有指數(shù)平滑法[3]自回歸滑動平均模型[4]等。這些模型對線性時間序列的預測可獲得良好的效果,但在實際應用中,大多數(shù)的時間序列具有不穩(wěn)定和非線性等特征。為此,基于非線性特征的支持向量機[5]和神經(jīng)網(wǎng)絡預測模型[6]被相繼提出,并在股票預測方面取得了較好成果。由于股票受到各方面因素的影響,使序列變得復雜而難以預測,倘若單一地使用這些方法來進行股票時間序列的預測,會使訓練陷入局部最優(yōu),而難以達到滿意的效果,因此具有一定的局限性。為解決這個問題,本文提出了一種基于經(jīng)驗模態(tài)分(EMD)和徑向基函數(shù)網(wǎng)絡(RBF)結合的方法,來預測美元兌人民幣的匯率。該方法具有以下幾點優(yōu)勢:(1)因為時間序列具有不穩(wěn)定和非線性等特點,首先利用EMD方法對原始匯率數(shù)據(jù)進行處理,可以使得原始信號更平穩(wěn),降低外界噪音對預測的影響;(2)RBF神經(jīng)網(wǎng)絡訓練速度快,且具有全局最優(yōu)的特點,克服了BP神經(jīng)網(wǎng)絡陷入局部最優(yōu)的情況,從而獲得更高精度的預測結果;(3)本文還對實驗結果進行了最優(yōu)參數(shù)的挖掘與分析,以獲得最佳的預測結果。
本文的剩余部分組織如下:第2部分分別介紹了EMD和RBF網(wǎng)絡的理論并建立了EMD-RBF預測模型;第3部分進行了案例分析與參數(shù)挖掘;第4部分得出了實驗結論。
2.1 經(jīng)驗模態(tài)分解
經(jīng)驗模態(tài)分解方法[7]是黃鍔等人在1998年提出的一種新型自適應信號時頻處理方法,適用于非線性、非平穩(wěn)信號的分析處理。經(jīng)驗模態(tài)分解方法是依據(jù)數(shù)據(jù)自身的時間尺度特征來進行信號分解。該方法能使復雜信號分解為若干個本征模函數(shù)和一個殘差。所分解出來的各IMF分量包含了原信號的不同時間尺度的局部特征信號,殘差從某種程度上代表著原始信號的趨勢。分解出來的IMF必須滿足以下兩個條件:
(1)在全部時間序列觀測點中,極值點的個數(shù)必須要與零交叉點的個數(shù)相等或者最多相差一個。
(2)在任意一點上,由局部極大值形成的上包絡線和局部極小值形成的下包絡線求得的均值為零。
通常,大多數(shù)要分析的時間序列并不是IMF,往往包含一個或多個震蕩模式。因此,需要對數(shù)據(jù)進行EMD分解,以獲得IMF。EMD分解必須滿足以下三個條件:
(1)信號必須有兩個極值,一個極大值和一個極小值。
(2)通過極值之間的跨度確定特征時間尺度。
(3)如果數(shù)據(jù)沒有極值點但包含拐點,可以通過對它進行一次或多次微分來求得極值。
EMD分解原始信號,其實就是信號篩選的過程。原始信號通過EMD方法分解得到若干個IMF和一個殘差向量。信號篩選步驟如下所示:
第一步:繪制上、下包絡線。找到原始信號x(t)中的所有極大值點max和極小值點min,并利用三次樣條插值方法分別繪制出上、下包絡線。
第二步:計算上下包絡線對應各點的均值m1。
第三步:計算原始信號x(t)和均值m1的差值d1。
第四步:理論上d1應該是一個IMF,但大多數(shù)情況下d1不滿足IMF的特性,因此用d1替代原始信號,重復步驟1,2和3進行s次篩選,以分解出第一個IMF,用c1表示。
第五步:設置篩選停止條件。用標準方差SD來控制,其計算公式如下所示:
按照經(jīng)驗,SD一般取值在0.2到0.3之間。
第六步:計算剩余信號r1。
第七步:一般情況下,r1仍然還包含著多個內(nèi)在的震蕩模式,故把r1當成信號,繼續(xù)上述分解篩選過程,直到不能分解為止,其結果可表示為:
第八步:當滿足以下任意一個條件時,篩選過程會停止:
(1)當cn或rn小于預先設定的的值時,篩選過程停止。
(2)當余量rn是單調(diào)函數(shù)或者不能再提取出IMF時,篩選過程停止。
原始信號x(t)經(jīng)過n次篩選,分解出來了n個IMF和一個殘差,對原始信號重構有:
2.2 徑向基函數(shù)網(wǎng)絡
RBF是由Moondy等在20世紀80年代提出的一種具有單隱藏層的三層前饋網(wǎng)絡。它能以任意精度逼近任意非線性函數(shù),在一定程度上克服了BP神經(jīng)網(wǎng)絡學習速度慢,訓練時間長,參數(shù)調(diào)節(jié)多等缺點。由于RBF網(wǎng)絡具有能夠逼近任意的非線性函數(shù),處理系統(tǒng)內(nèi)的難以解析的規(guī)律性和良好的泛化能力等特點,所以在模式識別、經(jīng)濟預測等領域被廣泛應用。RBF網(wǎng)絡的分布函數(shù)為:
其中i表示輸入數(shù)據(jù),b表示偏置,m表示基函數(shù)個數(shù),即為隱藏層神經(jīng)元數(shù)目,w為連接權重,gi(.)為隱藏層第i個神經(jīng)元的徑向基函數(shù),為歐幾里得范數(shù),σ為基函數(shù)的擴展常數(shù),控制函數(shù)的徑向作用范圍。
2.3 EMD-RBF模型構建
構建的EMD-RBF模型,首先對原始匯率交易數(shù)據(jù)進行EMD變換,然后再使用RBF神經(jīng)網(wǎng)絡來訓練預測模型。具體的實驗步驟如下所示。
第一步:加載數(shù)據(jù)并對數(shù)據(jù)預處理,設數(shù)據(jù)長度為L。
第二步:對處理好的外匯數(shù)據(jù)進行EMD變換,分解出n個分量,分別是:(n-1)個IMF和1個殘差向量。
第三步:分別對每個IMF和殘差向量以時間窗口長度為k生成樣本。如第一個樣本為第1個數(shù)據(jù)到第k個數(shù)據(jù)作為輸入,第(k+1)個數(shù)據(jù)作為目標輸出;第二個樣本為第2個數(shù)據(jù)到第(k+1)個數(shù)據(jù)作為輸入,第(k+2)個數(shù)據(jù)作為目標輸出;以此類推,故每個分量都可生成(L-k)個樣本。
第四步:分別隨機選取每個分量的q個樣本作為訓練樣本來分別訓練每個RBF網(wǎng)絡,剩余的樣本作為測試樣本。
第五步:把測試樣本輸入對應訓練好的RBF網(wǎng)絡中,進行仿真預測,并對每個RBF網(wǎng)絡輸出的預測值求和,求和值作為最終預測值。
第六步:模型性能評價:為了驗證模型的可靠性,本文選擇平均絕對誤差(MAE)、均方誤差(MSE)作為模型性能的評價指標。它們的計算公式分別如下所示:
表1 不同時間窗的MAE、MSE和相關系數(shù)統(tǒng)計表
其中(i=1,2,3…51),n表示樣本的數(shù)量,xi表示第i個樣本真實輸出值,表示樣本真實值得均值,yi表示第i個的樣本的網(wǎng)絡預測輸出值,表示預測值的均值。計算出的MAE和MSE的值越小,則表明預測結果越準確,預測模型就越可靠。
在本小節(jié),以美元兌換人民幣為案例研究對象,對提出的模型進行性能評估。使用的數(shù)據(jù)為美元兌換人民幣的日匯率值,時間從2013年1月2日到2016年6月1日,共855個該數(shù)據(jù),其來源于http://fx.sauder.ubc.ca/data.html。
首先對交易數(shù)據(jù)進行EMD分解,分解結果如圖1所示,然后采用徑向基函數(shù)網(wǎng)絡來訓練。
由于在適當范圍內(nèi),不同樣本長度(即輸入神經(jīng)元的個數(shù))的選擇會對實驗結果產(chǎn)生重要的影響,并且徑向基函數(shù)的密度常數(shù)越大,網(wǎng)絡預測的性能也越好,因此選擇出最優(yōu)的參數(shù)組合就顯得尤為重要。所以,本文通過多次實驗來確定最合適的時間窗長度和最優(yōu)的密度常數(shù)參數(shù),并依據(jù)Eq.(9),Eq.(10),Eq.(11)來分析實驗結果和驗證模型的準確性與可靠性。
圖1 EMD分解結果
3.1 最優(yōu)時間窗長度
選擇不同時間窗長度的數(shù)據(jù)來訓練模型并預測下一次的匯率,會對預測模型的準確性產(chǎn)生重要的影響,這部分通過試探實驗,分別設定時間窗口長度為3、4、5、6、10這五個參數(shù),并分別計算它們的MAE、MSE和與原外匯序列的相關系數(shù)R,來確定最優(yōu)的時間窗口長度。
由表1知,當時間窗長度由3、4到5時,實驗所獲得的MAE和MSE在減小,這說明預測模型具有更準確的預測能力;當時當時間窗長度由5、6到10時,實驗所獲的MAE和MSE在增大,這表明,預測模型的準確性在下降。也由表1知,時間窗長度由3增加到5時,預測所得序列與真實序列的相關性呈現(xiàn)正相關的關系;由時間窗長度5增加到10時,預測序列與真實序列的相關性呈負相關關系。這再一次驗證了,當取時間窗長度為5時,可以獲得最佳的實驗效果。
3.2 最優(yōu)密度常數(shù)
這部分是在時間窗長度為5的情況下,通過計算單一RBF網(wǎng)絡預測模型和EMD-RBF預測模型這兩種模型分別在密度常數(shù)參數(shù)為2、3、4和5這四組常數(shù)下的MAE、MSE這兩個個指標來確定預測模型的最優(yōu)密度常數(shù)。
表2 不同密度常數(shù)的MAE與MSE統(tǒng)計表
由表2知,在密度常數(shù)為5時,RBF網(wǎng)絡預測所得的最小MAE為0.0072,最小MSE為0.0242。而EMD-RBF模型預測所得的最小MAE和最小MAE在密度常數(shù)為3時獲得,它們分別為0.0029和0.0013。故表明,單一的RBF網(wǎng)絡最優(yōu)密度常數(shù)為5,EMD-RBF預測模型最優(yōu)密度常數(shù)為3。
綜上所述,由于在各預測模型最優(yōu)參數(shù)設置下,EMD-RBF預測模型計算得到的MAE和MSE都是最小的,這表明,基于EMD-RBF的外匯匯率預測較單一的RBF網(wǎng)絡預測具有更穩(wěn)定和更可靠的特點。
本文提出了基于EMD-RBF預測模型方法來預測美元兌換人民幣的外匯時間序列,首先對數(shù)據(jù)進行EMD分解得到若6個IMF和1個殘差向量,然后把IMF和殘差分別輸入RBF網(wǎng)絡進行預測,最后對相應的每個預測結果求和作為預測值。通過美元兌人民幣的案例研究,可得出如下結論:(1)通過EMD-RBF模型預測,所獲得的最小MAE和MSE都小于單一使用RBF網(wǎng)絡預測所獲得的MAE和MSE;(2)基于EMD-RBF模型進行美元兌人民幣外匯時間序列的預測比基于RBF徑向基函數(shù)網(wǎng)絡進行外匯時間序列預測更高的準確性和可靠性。因此該預測模型在實際應用中具有一定的參考價值。本文只是對匯率進行單步預測,在以后的研究中,將對外匯數(shù)據(jù)進行多步預測的建模和驗證分析,以提高該預測模型的適用范圍。
(作者單位:重慶工商大學電子商務與供應鏈系統(tǒng)重慶市重點實驗室)
[1]王家瑋,孫華妤,門明. 人民幣匯率變動對通貨膨脹的影響——基于進口非競爭型投入產(chǎn)出表的分析[J]. 國際金融研究,2011(10),30~39.
[2]譚小芬,王雅琦,盧冰. 匯率波動、金融市場化與出口[J].金融研究,2016(3):15~30.
[3]徐建新,嚴勇,嚴復海. 指數(shù)平滑法在典型城市GDP預測中的應用[J]. 水利科技與經(jīng)濟,2008,14(17):551~554.
[4]楊一文,楊朝軍. 基于支持向量機的金融時間序列預測.系統(tǒng)管理學報,2005,14(2):176~181.
[5]楊娟麗,徐梅,王福林等. 基于BP神經(jīng)網(wǎng)絡的時間序列預測問題研究. 數(shù)學的認識與實踐. 2013,43(4):158~164.
[6]梁強,范英,魏一鳴. 基于小波分析的石油價格長期趨勢預測方法及其實證研究[J]. 中國管理科學,2005,13(1):30~36.
[7]HUANG N E,SHEN Z. The empirical mode decomposition and the Hilbert spectrum for nonlinear and non-stationary time series analysis [J]. Royal Society of London Proceedings Series A,1998(454):903~995.