佘玉萍,陳淑清
(莆田學(xué)院 信息工程學(xué)院,福建 莆田 351100)
基于增強(qiáng)回歸樹的水藻預(yù)測(cè)分析
佘玉萍,陳淑清
(莆田學(xué)院 信息工程學(xué)院,福建 莆田 351100)
河流水質(zhì)的預(yù)測(cè)分析在保護(hù)河流水源和維護(hù)河流生態(tài)有著重要意義。由于基于多元線性回歸沒有處理數(shù)據(jù)缺失值的能力和決策樹模型無(wú)法有效處理水質(zhì)多變量的問題等原因,故兩者均達(dá)不到有效預(yù)測(cè)水質(zhì)影響因素的目標(biāo)。本文采用的增強(qiáng)回歸樹模型能夠處理缺失值和避免過度擬合問題,可以有效地對(duì)水質(zhì)的藻類進(jìn)行預(yù)測(cè)分析并得出綜合影響測(cè)試河流中綜合影響7種藻類繁殖的主要因素。實(shí)驗(yàn)分析結(jié)果表明,采用的增強(qiáng)回歸樹模型優(yōu)于多元線性回歸模型。
增強(qiáng)回歸樹(BRT);水質(zhì);預(yù)測(cè)分析
藻類的產(chǎn)生及其過度繁殖對(duì)河流生態(tài)環(huán)境的破壞是一個(gè)比較嚴(yán)重的問題,有害藻類不僅破壞河流中的生物,也在破壞水質(zhì),如果能夠監(jiān)測(cè)并在早期對(duì)藻類的繁殖進(jìn)行預(yù)測(cè)分析對(duì)提高河流水質(zhì)是非常重要的,針對(duì)這一問題的預(yù)測(cè)目標(biāo),本文以來(lái)自于ERUDIT[1]的水質(zhì)數(shù)據(jù)為例,該數(shù)據(jù)集有200個(gè)樣本,該樣本是一年時(shí)間內(nèi)在歐洲的幾條河流的不同河段和不同季節(jié)收集的數(shù)據(jù),對(duì)于每個(gè)水樣,測(cè)定了它們的不同化學(xué)性質(zhì)(3個(gè)名義變量和8個(gè)水質(zhì)指標(biāo))以及7種(變量a1~a7)有害海藻的存在頻率,其中數(shù)據(jù)的各變量名與含義如表1所示。
利用數(shù)學(xué)模型對(duì)水質(zhì)中藻類的繁殖進(jìn)行預(yù)測(cè)的研究國(guó)內(nèi)外已有先例,早在1968年加拿大湖泊專家Vollenweider[2]就提出了利用多個(gè)營(yíng)養(yǎng)指標(biāo)進(jìn)行水體營(yíng)養(yǎng)程度的預(yù)測(cè),近年來(lái)國(guó)內(nèi)學(xué)者也采用了不同的方法進(jìn)行預(yù)測(cè)研究,如李星[3]等人采用多元線性回歸預(yù)測(cè)水庫(kù)水的的藻類生長(zhǎng)潛力,姚志紅[4]等人的基于改進(jìn)遺傳算法的藻類神經(jīng)網(wǎng)絡(luò)識(shí)別以及黃浙豐[5]采用時(shí)序神經(jīng)網(wǎng)絡(luò)對(duì)多藻類進(jìn)行預(yù)測(cè)研究,近年來(lái),決策樹方法已多次被國(guó)內(nèi)外學(xué)者應(yīng)用到水質(zhì)相關(guān)的研究中,Chen[6]應(yīng)用決策樹和非線性統(tǒng)計(jì)回歸方法預(yù)測(cè)了荷蘭海岸線的葉綠素濃度的變化趨勢(shì),夏曉瑞等[7]采用決策樹的方法對(duì)太湖藍(lán)藻水華預(yù)警進(jìn)行了信息提取。
表1 樣本數(shù)據(jù)的變量及其含義
回歸樹是一種常用于預(yù)測(cè)模型的算法,它通過將大量數(shù)據(jù)有目的分類,從中找到一些有價(jià)值的、潛在的信息,具有良好的預(yù)測(cè)精度,模型的輸入與輸出關(guān)系明確,結(jié)果直觀且易于分析,統(tǒng)計(jì)學(xué)、數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)中的回歸樹訓(xùn)練,使用回歸樹作為預(yù)測(cè)模型來(lái)預(yù)測(cè)樣本的分類,目前,在水質(zhì)方面采用回歸樹進(jìn)行預(yù)測(cè)分析的文獻(xiàn)還不多見,尤其是使用增強(qiáng)回歸樹進(jìn)行預(yù)測(cè)的文獻(xiàn)就更少,因此,應(yīng)用增強(qiáng)回歸樹模型,對(duì)水質(zhì)中的藻類來(lái)進(jìn)行分析,可以彌補(bǔ)其他模型的局限性,為藻類的分析提供更好的預(yù)警支持。
增強(qiáng)回歸樹(BRT)[8-10]是基于分類回歸樹算法(CART)的一種自學(xué)習(xí)方法,該方法通過隨機(jī)選擇和自學(xué)習(xí)方法產(chǎn)生多重回歸樹,能夠提高模型的穩(wěn)定性和預(yù)測(cè)精度,在運(yùn)算過程中,多次隨機(jī)抽取一定量的數(shù)據(jù),分析自變量對(duì)因變量的影響程度,剩余數(shù)據(jù)用來(lái)對(duì)擬合結(jié)果進(jìn)行實(shí)驗(yàn),最后對(duì)生成的多重回歸取均值并輸出,目前,分類回歸樹已經(jīng)被應(yīng)用到物種分析[11],BRT方法提高了計(jì)算結(jié)果的穩(wěn)定性和精度,得出自變量對(duì)因變量的影響荷載,以及其他自變量取均值或不變的情況下,該自變量與因變量的相互關(guān)系,利用algae隨機(jī)取樣的200個(gè)樣點(diǎn)數(shù)據(jù),調(diào)用Elith編寫的BRT方程包進(jìn)行增強(qiáng)回歸樹分析[12]。
增強(qiáng)回歸樹的算法如下:
2)循環(huán)步驟①到步驟④,b=1,…..,B:
①計(jì)算剩下的
④得到新的回歸樹
3)輸出增強(qiáng)回歸樹
f^(x)=fB(x)
根據(jù)上述的增強(qiáng)回歸樹方法,依次對(duì)7種藻類進(jìn)行增強(qiáng)回歸樹模型的實(shí)驗(yàn)測(cè)試,分別得到7個(gè)增強(qiáng)回歸樹,其次,綜合考慮測(cè)試河流中的7個(gè)藻類同時(shí)形成的影響因素,建立了第8個(gè)增強(qiáng)回歸樹,由于篇幅關(guān)系,省略了獨(dú)立分析藻類a2~a7的影響因素的增強(qiáng)結(jié)構(gòu)圖,以下給出的分別是藻類a1的增強(qiáng)回歸樹結(jié)構(gòu)(如圖1所示)和a1~a7七種藻類的增強(qiáng)回歸樹(如圖2所示),并根據(jù)所有的增強(qiáng)回歸樹列出了對(duì)各種藻類的主要的3個(gè)影響因素,如表2所示。
圖1 藻類a1的增強(qiáng)回歸樹結(jié)構(gòu)
圖2 a1~a7的7種藻類的增強(qiáng)回歸樹結(jié)構(gòu)
表2 影響不同藻類的主要因素
根據(jù)增強(qiáng)回歸樹模型的實(shí)驗(yàn)數(shù)據(jù)可以得到以下結(jié)論:測(cè)試河段中的7種藻類的形成及其繁殖的主要影響因素不盡相同,所以要抑制測(cè)試河段中特定藻類形成及其過量繁殖,可以相應(yīng)提高其對(duì)應(yīng)的前3個(gè)主要影響因素的含量,上次實(shí)驗(yàn)數(shù)據(jù)還得出一個(gè)結(jié)論,除了藻類a7中河流的規(guī)模(size)對(duì)其有較重要的影響,且對(duì)藻類a3和a5也有影響,盡管不是主要的影響因素,而河流的流速(sPeed)和季節(jié)(season)均未出現(xiàn)在模型中,可見這兩個(gè)名義變量對(duì)被測(cè)試不同河段的流速和不同季節(jié)的7種藻類形成和繁殖均沒有影響。
在模型的評(píng)價(jià)實(shí)驗(yàn)中,選用典型的多元線性回歸模型與所采用的增強(qiáng)回歸樹模型進(jìn)行對(duì)比分析,并采用標(biāo)準(zhǔn)化的平均絕對(duì)誤差(NMSE)來(lái)評(píng)判不同模型,得到如圖3所示的交叉驗(yàn)證圖。
根據(jù)好的模型對(duì)應(yīng)較低的NMSE值,從輸出結(jié)果可以看出,除了藻類a7,增強(qiáng)回歸樹的不同版本之間(cv.rPart.v1,cv.rPart.v2和cv.rPart.v3)對(duì)其他6種藻類分析的差異在統(tǒng)計(jì)上不顯著,與多元線性回歸模型(cv.lm.v1)相比,大部分情況下,增強(qiáng)回歸樹模型有顯著的優(yōu)勢(shì),此外,從交叉驗(yàn)證的結(jié)果圖還可以得出,多元線性回歸和增強(qiáng)回歸樹模型均較難得到藻類a7的較好預(yù)測(cè),而其他藻類的估計(jì)結(jié)果則相對(duì)較好,藻類a1的估計(jì)結(jié)果最佳。
影響河流水質(zhì)的影響因素很多,本文利用增強(qiáng)回歸樹對(duì)被測(cè)試河流的數(shù)據(jù)集中7種藻類的8個(gè)水質(zhì)指標(biāo)和3個(gè)名義變量進(jìn)行了實(shí)驗(yàn)分析,BRT模型對(duì)河流中藻類的預(yù)測(cè)分析具有一定的參考價(jià)值,從實(shí)驗(yàn)結(jié)果上看,BRT模型直觀明了,根據(jù)樹形圖的結(jié)構(gòu)容易預(yù)測(cè)變量的影響程度;另一方面,本文采用的BRT模型對(duì)數(shù)據(jù)的要求較低,能處理缺失值,不排除對(duì)特定數(shù)據(jù)的缺失值的不同處理方法,也在一定程度上影響了模型的精度,本文對(duì)水藻的分析是以歐洲的幾條河流在一年時(shí)間內(nèi)不同河段和不同季節(jié)的水質(zhì)數(shù)據(jù)為基礎(chǔ),數(shù)據(jù)較粗糙,較適合分析同質(zhì)或者相似河流,但尚未考慮同時(shí)分析不同地理區(qū)域的不同質(zhì)河流之間的關(guān)系,當(dāng)然,針對(duì)不同河流的影響因素的不同,具體預(yù)測(cè)分析時(shí),建議采用不同的模型同時(shí)進(jìn)行分析,或者采用現(xiàn)有模型的組合模型進(jìn)行預(yù)測(cè)。
圖3 7種藻類關(guān)于多元線性回歸與增強(qiáng)回歸樹的交叉驗(yàn)證圖
[1] httP://www.erudit.org.[EB/OL](1998-03-06)[2015-02-20].
[2] VOLLENWEIDER R A.The Scientific Basis ofLake EutroPhication,with Particular Reference to PhosPhorus and Nitrogen as EutroPhication Factors[R].Pairs:Organisation for Economic CooPeration and DeveloPment,Technical RePort DAS/DSI/68.127.OECD,1968:159.
[3] 李星,何宇飛,楊艷玲,等.采用預(yù)測(cè)模型預(yù)測(cè)水庫(kù)水的藻類生長(zhǎng)潛力[J].哈爾濱商業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版),2008,24(1):36-39.
[4] 姚志紅,費(fèi)敏銳,孔海南,等.基于改進(jìn)遺傳算法的藻類神經(jīng)網(wǎng)絡(luò)識(shí)別[J].上海交通大學(xué)學(xué)報(bào),2007,41(11):1801-1805.
[5] 黃浙豐.基于時(shí)序神經(jīng)網(wǎng)絡(luò)的藻類水華預(yù)測(cè)模型研究-北京水系多藻類生態(tài)動(dòng)力學(xué)模型[D].杭州:浙江大學(xué),2011.
[6] Chen,Q.,Mynett,A.E.,Modelling Phaeocystis globosa Bloom in Dutch Coastal Waters by Decision Trees and Nonlinear Piecewise Regression[J].Ecological Modelling,2003,176:277-290.
[7] 夏曉瑞,韋玉春,徐寧,等.基于決策樹的Landsat TM/ETM+圖像中太湖藍(lán)藻水華信息提?。跩].湖泊科學(xué),2014,26(6):907-915.
[8] De'ath G.Boosted trees for ecologicalmodeling and Prediction[J].Ecology,2007,88(1):243-251.
[9] Elith J,Leathwick JR,Hastie T.A working guide to boosted regression trees[J].Journal of Animal Ecology,2008,77(4):802-813.
[10] Prasad A M,Iverson L R,Liaw A.Newer classification and regression tree techniques:bagging and random forests for ecological Prediction[J]. Ecosystems,2006,9(2):181-199.
[11] 曹銘昌,周廣勝,溫恩生.廣義模型及分類回歸樹在物種分布模擬中的應(yīng)用與比較[J].生態(tài)學(xué)報(bào),2005,25(8):2031-2040.
[12] Elith J,Leathwick JR,Hastie T.A working guide to boosted regression trees[J].Journal of Animal Ecology,2008:1-15.
責(zé)任編輯:吳旭云
Forecast and Analysis of Algae Based on Boosted Regression Tree
SHE YuPing,CHEN Shuqing
(School of Information and Engineering,Putian University,Putian 351100,China)
Forecast and analysis ofwater quality of rivers Play an imPortant role in the Protection ofwater sources and themaintenance of ecology.Because themultivariate linear regression can not dealwith themissing values and themodel of decision trees can not deal with multiPle variables ofwater data,the goal of forecasting the influencing factors ofwater quality can not be achieved effectively.In this PaPer,the boosted regression tree(BRT)model is used to solve the Problem of themissing values and avoid over fitting,which availably forecasts themain factors influencing the reProduction of seven algae of the tested rivers.ExPeriments indicate that BRT Performs better thanmultivariate linear regression.
boosted regression tree(BRT);water quality;forecast analysis
TP39
A
1009-3907(2015)06-0020-04
2015-03-13
福建省重點(diǎn)實(shí)驗(yàn)室開放課題(2014KL02)
佘玉萍(1982-),女,福建莆田人,講師,碩士,主要從事數(shù)據(jù)挖掘研究。