王 暄,屈衛(wèi)軍
(新疆巴州水利水電勘測設(shè)計(jì)院,新疆 庫爾勒 841000)
基于最小二乘支持向量機(jī)的開都河徑流預(yù)測
王 暄,屈衛(wèi)軍
(新疆巴州水利水電勘測設(shè)計(jì)院,新疆 庫爾勒 841000)
簡述支持向量的回歸分析,支持向量機(jī)自回歸預(yù)測模型結(jié)構(gòu)及預(yù)測方法,利用開都河大山口水文站52 a的徑流資料,采用最小二乘支持向量機(jī)方法對徑流進(jìn)行模擬預(yù)測,并與BP神經(jīng)網(wǎng)絡(luò)方法進(jìn)行對比分析,其計(jì)算結(jié)果相對略好。
支持向量機(jī);徑流預(yù)測;BP神經(jīng)網(wǎng)絡(luò);開都河
河川徑流的中長期預(yù)報(bào)是水資源合理利用和優(yōu)化調(diào)度決策支持系統(tǒng)工作中的重要環(huán)節(jié),在防汛、抗旱、發(fā)揮水利設(shè)施的經(jīng)濟(jì)效益及流域水利規(guī)劃等方面都具有十分重要的作用。中長期徑流預(yù)報(bào)方法可分為傳統(tǒng)方法和新方法兩大類,前者主要有成因分析和水文統(tǒng)計(jì)方法,后者主要包括模糊分析、人工神經(jīng)網(wǎng)絡(luò)、灰色系統(tǒng)分析等方法。受天文因子、氣候因子、植被因子、地質(zhì)地貌因素和人類活動(dòng)的綜合作用,水文系統(tǒng)表現(xiàn)出高維性、非線性、隨機(jī)性、模糊性、混沌性等復(fù)雜特征,所以定量的機(jī)理分析是有限而困難的[1]。目前一種新的機(jī)器學(xué)習(xí)方法即支持向量機(jī) (Support Vector Machine,簡稱SVM)越來越多的運(yùn)用在回歸問題研究上,支持向量機(jī)通過某種函數(shù)可以實(shí)現(xiàn)到高維空間的非線性映射,適合解決非線性的回歸問題。徑流預(yù)測問題具有顯著的非線性特性,因此SVM方法很適合應(yīng)用于解決該問題。
SVM是在統(tǒng)計(jì)學(xué)習(xí)理論基礎(chǔ)上發(fā)展起來的一種新的機(jī)器學(xué)習(xí)方法。機(jī)器學(xué)習(xí)研究從觀測數(shù)據(jù)出發(fā)尋找規(guī)律,利用這些規(guī)律對未來數(shù)據(jù)或無法觀測數(shù)據(jù)進(jìn)行預(yù)測,其重要理論基礎(chǔ)之一是統(tǒng)計(jì)學(xué)。支持向量機(jī)又稱支持向量網(wǎng)絡(luò),具有理論完備、適應(yīng)性強(qiáng)、全局優(yōu)化、訓(xùn)練時(shí)間短、泛化性能好等優(yōu)點(diǎn)。最小二乘支持向量機(jī)(LS-SVM)是支持向量機(jī)的一種,它是將標(biāo)準(zhǔn)支持向量機(jī)算法中不等式約束轉(zhuǎn)化為等式約束而得到的[2-4]。
支持向量回歸是支持向量機(jī)用于回歸中的情況。SVM方法是從線性可分情況下的最優(yōu)分類面發(fā)展而來的。對于回歸模型,設(shè)給定的訓(xùn)練樣本為:
采用一個(gè)非線性映射φ把數(shù)據(jù)映射到一個(gè)高維特征空間,然后在高維特征空間進(jìn)行線性回歸,設(shè)回歸函數(shù)為:
高維空間優(yōu)化中的內(nèi)積運(yùn)算采用滿足 Mercer條件[5]的核函數(shù) k(x,y)代替,使得 k(x,y)=[φ(x),φ(y)],常見的滿足Mercer條件的核函數(shù)有:
(1)多項(xiàng)式核函數(shù):
(2)高斯徑向基函數(shù):
(3)Sigmoid函數(shù):
利用最小二乘支持向量機(jī),求得非線性回歸函數(shù)的表達(dá)式為:
式中:a為拉格朗日乘子;b為偏置值。
序列預(yù)測問題可以看成一個(gè)函數(shù)回歸的問題,回歸分析就是假定已知數(shù)據(jù)間存在某種不確定性的關(guān)系,而這種關(guān)系可以通過分析構(gòu)造某一函數(shù)來表達(dá),然后通過這一函數(shù)關(guān)系來進(jìn)行預(yù)測分析。
對于自回歸模型,可以假設(shè)訓(xùn)練樣本數(shù)為 n,根據(jù)嵌入維數(shù) m,輸入向量 Xi=[xi,xi+1,…,xi+m-1],i=1,2,…,n - (m-1)和輸出 Yi=xi+m,i=1,2,…,n- (m -1),建立模型:
預(yù)測階段輸入xn+1,根據(jù)上述模型得:
徑流預(yù)報(bào)是開都河大山口水庫進(jìn)行優(yōu)化調(diào)度的基礎(chǔ),若預(yù)報(bào)的信息可靠,調(diào)度適當(dāng),能比沒有預(yù)報(bào)調(diào)度取得明顯的經(jīng)濟(jì)效益。
1)數(shù)據(jù)預(yù)處理。為加速收斂速度,通常需對輸入數(shù)據(jù)進(jìn)行預(yù)處理。一般采用的預(yù)處理方法是將輸入數(shù)據(jù)0-1歸一化,即將輸入的數(shù)據(jù)進(jìn)行變換,使之位于(0,1)區(qū)間內(nèi),常采用的變換有線性函數(shù)和Sigmoid函數(shù)。本文采用線性化函數(shù)對輸入數(shù)據(jù)進(jìn)行預(yù)處理,具體函數(shù)表達(dá)如下:
式中:xmin為輸入數(shù)據(jù)中的最小值;xmax為輸入數(shù)據(jù)中的最大值;n表示訓(xùn)練樣本的總個(gè)數(shù)。
2)選擇滿足Mercer條件的核函數(shù) K(xi,xj)。對于一個(gè)特定的核函數(shù),給定的樣本中的任意一個(gè)樣本都有可能成為一個(gè)支持向量機(jī),但在此支持向量下觀察到的特征在其他核函數(shù)下并不保持,也就是說不同的核函數(shù)可能對應(yīng)不同的支持向量,所以核函數(shù)的選擇很重要。徑向機(jī)函數(shù)(Radial Basis Fuction,簡稱RBF)核函數(shù),只有一個(gè)參數(shù) σ,又由于核參數(shù)能夠反映模型選擇的復(fù)雜度,同時(shí)RBF核函數(shù)是一個(gè)普適函數(shù),通過參數(shù)的選擇,它可以適用于任意分布的樣本,綜上所述,本文選擇徑向基函數(shù):
作為核函數(shù)。
3)采用K.Pelckmans等人開發(fā)的LS-SVMlab1.5的應(yīng)用軟件作為核心軟件,在 MATLAB6.1中編程實(shí)現(xiàn)。
根據(jù)開都河大山口水文站1956~2007年52 a徑流資料,進(jìn)行預(yù)測分析。根據(jù)3年小周期現(xiàn)象[6],以 1956~2004年的時(shí)間序列每3 a一個(gè)訓(xùn)練樣本,對應(yīng)下3年的徑流量為輸出值。即以1956~2004年的數(shù)據(jù)為訓(xùn)練樣本,將2005~2007年的年徑流量作為預(yù)測模型的檢驗(yàn)。本文訓(xùn)練樣本n=49,預(yù)測樣本 m=3。采用上述最小二乘支持向量機(jī)方法進(jìn)行徑流預(yù)測計(jì)算,其模型檢驗(yàn)結(jié)果見表1所示。
表1 徑流量預(yù)測結(jié)果(LS-SVM方法)
為說明問題,在相同情況下,也采用BP神經(jīng)網(wǎng)絡(luò)方法進(jìn)行對比研究。同樣利用MATLAB6.1來實(shí)現(xiàn)計(jì)算過程。通過反復(fù)的試錯(cuò)和訓(xùn)練,得到如下BP模型結(jié)構(gòu):輸入節(jié)點(diǎn)數(shù)為3,隱含層節(jié)點(diǎn)數(shù)為5,輸出節(jié)點(diǎn)數(shù)為3,隱含層采用雙曲正切 S型(Tan-Sigmoid)傳輸函數(shù),線性(Purelin)傳輸函數(shù)作為輸出函數(shù),Levenberg-Marguardt函數(shù)作為訓(xùn)練函數(shù),計(jì)算結(jié)果見表2。
表2 徑流量預(yù)測結(jié)果(BP方法)
通過以上計(jì)算結(jié)果表明,無論采用最小二乘支持向量機(jī)方法還是神經(jīng)網(wǎng)絡(luò)方法都可以進(jìn)行徑流預(yù)報(bào),但就兩種方法計(jì)算結(jié)果的相對誤差結(jié)果分析,利用最小二成支向量機(jī)方法比神經(jīng)網(wǎng)絡(luò)方法的結(jié)果要略好。
盡管僅以三年的預(yù)測值并不能完全表明在進(jìn)行長期徑流預(yù)測時(shí)支持向量機(jī)方法優(yōu)于神經(jīng)網(wǎng)絡(luò)方法,但在計(jì)算過程中,最小二乘支持向量機(jī)方法的優(yōu)越性得到充分體現(xiàn):徑向機(jī)核函數(shù),只有一個(gè)參數(shù)σ,在試算調(diào)整過程中只要該方法的結(jié)構(gòu)確定了,計(jì)算結(jié)果也就確定了,而神經(jīng)網(wǎng)絡(luò)方法由于存在局部極小的現(xiàn)象,因此模擬結(jié)果并不唯一。
綜上可以得出,采用最小二乘支持向量機(jī)方法進(jìn)行徑流長期預(yù)報(bào)在理論上是可行的,相對而言該方法比神經(jīng)網(wǎng)絡(luò)方法計(jì)算效率高,而且克服了神經(jīng)網(wǎng)絡(luò)易陷于局部極小值的缺點(diǎn),下一步將對提高預(yù)測精度問題進(jìn)行深入研究。
[1]王文圣,丁晶,李躍清著,水文小波分析[M].北京:化學(xué)工業(yè)出版社.2005:142.
[2]宇纓,李清華.統(tǒng)計(jì)學(xué)習(xí)理論和支持向量機(jī)[J].沈陽大學(xué)學(xué)報(bào).2005,17(4):42 -47.
[3]佟春生.系統(tǒng)工程的理論與方法概論[M].北京:國防工業(yè)出版社.2005:165-172.
[4]林劍藝,程春田.支持向量機(jī)在中長期徑流預(yù)報(bào)中的應(yīng)用[J].水利學(xué)報(bào).2006,37(6):682 -686.
[5]邊肇棋,張學(xué)工.模式識別(第二版).北京:清華大學(xué)出版社.2000.
[6]徐國昌,董安詳.我國西部降水量的準(zhǔn) 2a周期[J].高原氣象.1982,1(2):11 -16.
Forecasting of Kaidu River Runoff Based on LS-SVM Model
WANG Xuan,QU Wei- Jun
(Bazhou Exploration Design Institute of Hydro-power and Water Resources,Kurle 841000,China)
The paper introduced the support vector regression analysis,expounded on support vector machine auto-regression model structure and prediction methods.The runoff data of 52 years were taken for runoff prediction by using least square and Support Vector Machine method(LS-SVM). A contrast analysis was made with the BP neural network method,which showed that the computed result was relatively better than the BP neural network method.
SVM,runoff forecasting,BP neural network and Kaidu River
P338+.9
A
1004-1184(2012)05-0090-02
2012-05-16
王暄(1976-)女,新疆庫爾勒人,工程師,主要從事水利工程規(guī)劃設(shè)計(jì)工作。