許云峰,馬春子,霍守亮,席北斗,錢光人*
1.上海大學環(huán)境與化學工程學院,上海 200444
2.中國環(huán)境科學研究院,北京 100012
以程海為例用支持向量機回歸算法預測葉綠素a濃度
許云峰1,馬春子1,霍守亮2,席北斗2,錢光人1*
1.上海大學環(huán)境與化學工程學院,上海 200444
2.中國環(huán)境科學研究院,北京 100012
應用支持向量機回歸(SVR)算法預測程海富營養(yǎng)化水體葉綠素 a(Chl-a)的濃度,用留一法交叉驗證(LOOCV)優(yōu)化SVR預測模型的參數(shù),并根據(jù)平均相對誤差(MRE),討論SVR預測模型的準確性。結果表明:用徑向基核函數(shù)構建的SVR預測模型預測結果最優(yōu);SVR預測模型的預測值和實測值具有很好的一致性,相關系數(shù)為0.938,MRE為12.30%。SVR預測模型的建模結果優(yōu)于人工神經網絡(BP-ANN)預測模型,說明SVR算法能夠準確預測 Chl-a濃度。
支持向量機回歸(SVR);葉綠素a;程海;徑向基核函數(shù)
水體富營養(yǎng)化已經成為我國大多數(shù)湖泊水質惡化的主要問題,其主要表現(xiàn)為溶解氧濃度降低、生物多樣性減少、水體葉綠素a(Chl-a)濃度升高,爆發(fā)水華等[1-3]。氮磷等營養(yǎng)物的過量輸入是導致水體富營養(yǎng)化的主要原因。因此,水體富營養(yǎng)化的早期預測很有必要[4]。
近幾十年來,三維模型[5]、SALMO 確定性模型[6]等多種模型被用于水體富營養(yǎng)化的預測,其中,人工神經網絡(BP-ANN)模型因其方法簡單和預測能力相對較好,被廣泛應用[7]。但是,BPANN模型在處理小樣本和多變量數(shù)據(jù)時容易產生過擬合現(xiàn)象[8],即可能產生很好的擬合效果卻得不到好的預測結果。
支持向量機回歸(SVR)算法[9-10]是以 Vapnik創(chuàng)立的統(tǒng)計學習理論為基礎建立的數(shù)據(jù)處理新算法。該方法從嚴格的數(shù)學理論出發(fā),論證和實現(xiàn)了在小樣本情況下最大限度地提高預報的可靠性,實際應用取得了令人滿意的研究成果。同時,該方法還能避免BP-ANN模型的過擬合現(xiàn)象,具有很好的泛化能力。目前,SVR算法已應用于化學合成[8]、材料優(yōu)化[8]、浮游植物種類預測[11]和藻類生長評價[12]等許多領域。
筆者以程海為例,運用SVR算法預測富營養(yǎng)化水體的Chl-a濃度。先對SVR預測模型的參數(shù)進行優(yōu)化,然后用SVR算法建立Chl-a濃度的預測模型,并與BP-ANN預測模型的結果進行比較。
通過調查分析,確定程海的主要水質指標:Chl-a濃度,μg/L;總氮(TN)濃度,mg/L;總磷(TP)濃度,mg/L;水溫(Tw),℃;透明度(SD),cm;電導率(γ),μS/cm;溶解氧(DO)濃度,mg/L;化學需氧量(CODCr),mg/L;高錳酸鹽指數(shù)(CODMn),mg/L。這些指標會對程海藻類的生長產生直接或間接的影響,進而影響水體中的 Chl-a 濃度[13-15]。程海的物理、化學指標數(shù)據(jù)來自1988—2008年云南省環(huán)境監(jiān)測站的常規(guī)監(jiān)測數(shù)據(jù),以及筆者的現(xiàn)場調查。
由于程海缺少1988—2005年的Chl-a濃度監(jiān)測數(shù)據(jù),因此需采用SVR和BP-ANN分別建立定量預測模型進行預測。
以 Chl-a 濃度為目標變量;SD,DO 濃度,CODCr,CODMn,γ,Tw,TN 濃度和 TP濃度等變量為影響因素,以37個樣本為訓練集,建立了SVR和BPANN預測模型。
SVR通過引入不敏感函數(shù)(ε)進行回歸分析,可以得到較好的回歸分析結果。將實際問題通過非線性映照映射到高維特征空間,并在高維特征空間構造線性回歸,從而取得在原始空間的非線性回歸效果[16]。
設樣本集為:(Y1,X1),…,(Yi,Xi),X ∈ Rn,Y∈R。回歸函數(shù)用下列線性方程表示:
式中,Y為目標函數(shù);Φi(X)為輸入向量的非線性映射集;wi和B為系數(shù)。各值的大小由最小化正規(guī)化風險函數(shù)R(C)來確定。R(C)可表示為:
為了確保最優(yōu)化問題有解,引入松弛變量ζi和,回歸預測模型可表示為:
約束于
根據(jù)優(yōu)化條件可以得到支持向量回歸機的對偶問題:
在一定約束條件下
最后,得到支持向量機的回歸估計公式[17-19]:
式中,K(Xi,Xj)為核函數(shù),其值為特征空間Φ(X)中兩個結果向量 Xi和 Xj的乘積,即 K(Xi,Xj)=Φ(Xi)Φ(Xj)。核函數(shù)的優(yōu)勢在于能在不知道Φ(X)具體變換形式的情況下,用低維空間數(shù)據(jù)輸入計算高維特征空間中的點積[20]。在實際應用中,常用的核函數(shù)有線性核函數(shù)、多項式核函數(shù)、徑向基核函數(shù)三種,具體形式如下。
線性核函數(shù):
多項式核函數(shù):
徑向基核函數(shù):
所有輸入模型的數(shù)據(jù)都進行標準化預處理。由于數(shù)據(jù)樣本較少,故采用留一法交叉驗證(LOOCV)[8]選擇SVR預測模型的參數(shù)。將n個樣本分成兩個不相關的子集,分別為訓練集(n-1個樣本)和預測集(1個樣本)。n個樣本輪留作為預測集,對另外n-1個樣本建立的訓練模型進行驗證,得到預測值與實際值之間的差別。用平均相對誤差(MRE)來評價模型預測能力的好壞:
式中,ei為第i個樣本的實際值;pi為第i個樣本的預測值;n為LOOCV的樣本總數(shù)。
圖1為C=10時,三種核函數(shù)的MRE隨ε的變化;圖2為ε=0.01時,三種核函數(shù)的MRE隨C的變化。由圖1和圖2可見,用徑向基核函數(shù)構建的SVR預測模型得到的平均相對誤差最小。說明徑向基核函數(shù)可以對程海的Chl-a濃度進行更好的定量預測。
圖1 C=10不敏感函數(shù)(ε)對應的MREFig.1 MRE in LOOCV versus the ε with C=10
圖2 ε=0.01平衡因子(C)對應的MREFig.2 MRE in LOOCV versus the C with ε=0.01
SVR預測模型預測能力的強弱與核函數(shù)的選擇有很大的關系,不同核函數(shù)對MRE的影響很大。同時,參數(shù)ε和C也非常重要,其不僅權衡最大空白與最小訓練誤差,也會影響訓練和預測結果,因此,參數(shù)ε和C應與核函數(shù)類型一起進行優(yōu)化。通常情況下,ε和C值在建模前是不確定的,其值大小取決于數(shù)據(jù)的類型。ε值過大,算法在擬合數(shù)據(jù)過程中會出現(xiàn)壓力不足現(xiàn)象;ε值過小,訓練數(shù)據(jù)集將會出現(xiàn)過擬合現(xiàn)象。而C的變化與ε基本相反[8]。
用徑向基核函數(shù)對程海的數(shù)據(jù)建立SVR預測模型,并采用網格法進行ε和C的參數(shù)優(yōu)化。圖3表示徑向基核函數(shù)MRE隨ε(步長為0.01)和C(C=1~10時步長為1;C=10~100,步長為10)的變化趨勢。從圖3可以看出,選用徑向基核函數(shù)建立SVR預測模型對應的平均相對誤差最低(C=10,ε =0.03,σ =1)。
圖3 徑向基核函數(shù)不同ε和C時對應的MREFig.3 MRE in LOOCV versus C and ε with RBF kernel function
根據(jù)2.1節(jié)得到的最優(yōu)核函數(shù)及最佳ε和C的組合,使用程海的水質指標(SD,DO濃度,CODCr,CODMn,γ,Tw,TN 濃度和 TP 濃度)建立了 Chl-a 濃度的最佳SVR預測模型。以37個樣本點作為訓練集對Chl-a濃度建立SVR預測模型,如圖4所示。
圖4 Chl-a濃度SVR建模結果Fig.4 The result of SVR model of Chl-a concentration
Chl-a濃度最佳SVR預測模型的回歸方程為:
式中,βi=表示支持向量的拉格朗日系數(shù)。根據(jù)式(13)可以得到Chl-a濃度的預測值,對預測值和實測值進行比較,相關系數(shù)為0.938。這表明SVR預測模型的預測值與實測值具有高度的一致性。
為了評價SVR預測模型的預測和泛化能力,將其與BP-ANN預測模型進行比較。應用三層(輸入層、隱含層和輸出層)BP-ANN模型建模,BPANN預測模型經過參數(shù)優(yōu)化,確定隱含層節(jié)點數(shù)為5。選擇Sigmoid函數(shù)為轉換函數(shù),預測誤差用MRE表示。圖5為用BP-ANN建立的Chl-a濃度預測模型。
由圖4和圖5可知,SVR對Chl-a濃度的建模結果與實際結果十分吻合,實測值和預測值的相關系數(shù)為0.938,通過公式計算得到MRE為12.30%。BP-ANN預測模型實測值和預測值的相關系數(shù)為0.933,通過公式計算得到 MRE為25.72%,高于SVR預測模型。因此得出,SVR預測模型的建模結果明顯好于BP-ANN預測模型,所以用SVR預測模型來預測程海的Chl-a濃度更加可靠。
圖5 Chl-a濃度BP-ANN建模結果Fig.5 The result of BP-ANN model of Chl-a concentration
(1)在參數(shù)優(yōu)化過程中,在合適的ε和C下選擇徑向基核函數(shù)建立SVR預測模型得到的結果平均相對誤差最小,說明徑向基核函數(shù)更適合對程海的復雜富營養(yǎng)化問題進行預測。
(2)用SVR建模的相關性系數(shù)為0.938,說明模型的預測值與程海的實測值具有高度的一致性,表明,程海的Chl-a濃度可以用SVR預測模型來定量預測。
(3)SVR預測模型的建模結果明顯好于BPANN預測模型,說明對于Chl-a濃度的預測,SVR算法具有更高的可靠性。
(4)根據(jù)建立的SVR預測模型,對收集的程海實測數(shù)據(jù)樣本的Chl-a濃度進行定量預測,所預測的Chl-a濃度可以為多元統(tǒng)計方法推測程海營養(yǎng)物基準參照狀態(tài)提供數(shù)據(jù)。
[1]PRETTY J N,MASON C F,NEDWELL D B,et al.Environmental costs of freshwater eutrophication in England and Wales[J].Environ Sci Technol,2002,37(2):201-208.
[2]DODDS W K,BOUSKA W W,EITZMANN J L,etal.Eutrophication of US freshwaters:analysis of potential economic damages[J].Environ Sci Technol,2008,43(1):12-19.
[3]XUE X,LANDIS A E.Eutrophication potentialoffood consumption patterns[J].Environ Sci Technol,2010,44(16):6450-6456.
[4]KARUL C,SOYUPAK S,ILESIZ A F,et al.Case studies on the use of neural networks in eutrophication modeling[J].Ecological Modelling,2000,134(2/3):145-152.
[5]MAO J,CHEN Q,CHEN Y.Three-dimensional eutrophication model and application to Taihu Lake,China[J].J Environ Sci,2008,20(3):278-284.
[6]WALTER M,RECKNAGEL F,CARPENTER C,et al.Predicting eutrophication effects in the Burrinjuck Reservoir(Australia)by means of the deterministic model SALMO and the recurrent neural network model ANNA[J].Ecological Modelling,2001,146(1/2/3):97-113.
[7]JIANG Y,XU Z,YIN H.Study on improved BP artificial neural networks in eutrophication assessment of China eastern lakes[J].J Hydrodynamics:B,2006,18(3,Suppl):528-532.
[8]LIU X,LU W C,JIN S L,et al.Support vector regression applied to materials optimization of sialon ceramics[J].Chemometrics Intelligent Laboratory Systems,2006,82(1/2):8-14.
[9]VAPNIK V N.A nature of statistical learning theory[M].New York:Springer Verlag,1995.
[10]VAPNIK V N.Statistical learning theory[M].USA:A Wiley-Interscience Publication,John Wiley and Sons Inc,1998.
[11]RIBEIRO R,TORGO L.A comparative study on predicting algae blooms in Douro River,Portugal[J].Ecological Modelling,2008,212(1/2):86-91.
[12]YAN Q,WANG G.Prediction model of alga's growth based on support vector regression[C]//2009 International Conference on Environmental Science and Information Application Technology:2.Wuhan:ESIAT,2009:673-675.
[13]侯延鵬.營養(yǎng)元素及光照、溫度對銅綠微囊藻生長、越冬及復蘇的影響研究[D].南昌:南昌大學,2008.
[14]王珂.不同環(huán)境條件下銅綠微囊藻和柵藻競爭能力的比較研究[D].南京:河海大學,2006.
[15]蒙萬輪.重慶郊區(qū)水庫水體富營養(yǎng)化試驗研究[D].重慶:重慶大學,2005.
[16]YANG S,LU W,CHEN N,et al.Support vector regression based QSPR for the prediction of some physicochemical properties of alkyl benzenes[J].J Molecular Structure:THEOCHEM,2005,719(1/2/3):119-127.
[17]GU T,LU W,BAO X,et al.Using support vector regression for the prediction of the band gap and melting point of binary and ternary compound semiconductors[J].Solid State Sciences,2006,8(2):129-136.
[18]CHALIMOURDA A, SCHOLKOPF B, SMOLA A J.Experimentally optimal ν in support vector regression for different noise models and parameter settings[J].Neural Networks,2004,17(1):127-141.
[19]RIAHI S,POURBASHEER E,GANJALI M R,et al.Support vector machine-based quantitative structure-activity relationship study of cholesteryl ester transfer protein inhibitors[J].Chemical Biology Drug Design,2009,73(5):558-571.
[20]王宏宇,糜仲春,梁曉艷,等.一種基于支持向量機回歸的推薦算法[J].中國科學院研究生院學報,2007,24(6):742-748.
Using Support Vector Regression Algorithm to Predict Chlorophyll-a Concentrations with Chenghai Lake for Example
XU Yun-feng1,MA Chun-zi1,HUO Shou-liang2,XI Bei-dou2,QIAN Guang-ren1
1.School of Environmental and Chemical Engineering,Shanghai University,Shanghai 200444,China
2.Chinese Research Academy of Environmental Sciences,Beijing 100012,China
The support vector regression(SVR)algorithm was used to predict the concentration of chlorophyll-a(Chl-a)of eutrophication water in Chenghai Lake,and the leave-one-out cross-validation(LOOCV)method was used to optimize the model parameters.Then the prediction accuracy of SVR model was discussed on the basis of the mean relative error(MRE).The results demonstrated that the SVR model built by radial basis kernel function(RBF)had the optimal predictive ability.The predicted values of SVR were in good consistency with the measured values of experiment.The correlation coefficient(R)and MRE of SVR model could reach 0.938 and 12.30%,respectively.It was found that the modeling results of SVR were better than that of back propagation artificial neural networks(BP-ANN),suggesting that SVR was a valuable tool for the prediction of Chl-a.
support vector regression(SVR);chlorophyll-a;Chenghai Lake;radial basis kernel function
X524
A
10.3969/j.issn.1674-991X.2012.03.031
1674-991X(2012)03-0207-05
2011-12-21
國家水體污染控制與治理科技重大專項(2009ZX07106-001)
許云峰(1971—),女,副教授,博士,主要從事水污染控制工程研究,yfxu@shu.edu.cn
*責任作者:錢光人(1960—),男,教授,博士,主要從事環(huán)境污染控制材料及廢棄物資源化的研究,grqian@shu.edu.cn