張成成,沈愛春,張曉晴,陳求穩(wěn),3,*
(1.中國科學(xué)院生態(tài)環(huán)境研究中心,北京 100085;2.太湖流域管理局水文水資源監(jiān)測局,無錫 214024;3.三峽大學(xué),宜昌 443002)
富營養(yǎng)化評價結(jié)果不僅可以客觀反映水環(huán)境的質(zhì)量和污染狀況,而且能為富營養(yǎng)化防治、管理和決策提供依據(jù)和指導(dǎo)。從本質(zhì)上講,富營養(yǎng)化評價是一個多指標分類問題,各指標與分類等級之間存在復(fù)雜、非線性和不確定的關(guān)系[1]。近年來,智能方法在富營養(yǎng)化評價方面獲得了大量應(yīng)用,如模糊評價法[2-4]、灰色理論評價法[5-6]、進化算法評價法[7-8]、人工神經(jīng)網(wǎng)絡(luò)評價法[9-10]等。這些方法對富營養(yǎng)化評價的發(fā)展起到了一定的促進作用,但在評價過程中尚存在不足[11]。其中,模糊評價法和灰色評價法在確定評價函數(shù)結(jié)構(gòu)和評價指標權(quán)重方面存在較大的主觀性,進化算法評價法主要用于對現(xiàn)有評價模型進行參數(shù)的優(yōu)化選取,而人工神經(jīng)網(wǎng)絡(luò)評價法存在固有的網(wǎng)絡(luò)結(jié)構(gòu)難以確定、容易陷入局部最優(yōu)以及無法保證模型泛化性等問題。支持向量機(Support Vector Machine,SVM)是一種基于統(tǒng)計學(xué)習(xí)理論的新型機器學(xué)習(xí)算法[12],比較適用于解決富營養(yǎng)化評價這類非線性多指標分類問題[13-15]。雖然它在建模過程和形式上與人工神經(jīng)網(wǎng)絡(luò)法相似,但理論基礎(chǔ)完全不同,且有效克服了人工神經(jīng)網(wǎng)絡(luò)法收斂性和泛化性的不足,具有較好的應(yīng)用前景。
目前,應(yīng)用支持向量機法進行太湖富營養(yǎng)化評價方面的研究尚比較少,本研究采用該方法建立了太湖的富營養(yǎng)化評價模型,并進行了實際應(yīng)用,以期為太湖的富營養(yǎng)化評價提供一種新的可選方法。
支持向量機(SVM)是Cortes和Vapnik于1995年首先提出的,它在解決小樣本、非線性及高維模式識別中表現(xiàn)出許多特有的優(yōu)勢,并能夠推廣應(yīng)用到函數(shù)擬合等其他機器學(xué)習(xí)問題中[16]。其基本思想是,利用核函數(shù)(Kernel Function)將低維空間中線性不可分的點映射成高維特征空間中線性可分的點,并通過劃分超平面,使所有的點到分類超平面的距離最大化。
所謂的支持向量,指的是高維空間中那些距離分類超平面最近的點對應(yīng)的低維空間點。它們來源于原始樣本,對分類超平面的位置起決定作用。換言之,就是它們支持起了分類超平面。
將向量從低維空間向高維空間映射,會使計算復(fù)雜度變大。為此,SVM中引入了核函數(shù),從而巧妙地避免了這個問題。核函數(shù)能接受兩個低維空間向量,計算出它們在高維空間中的內(nèi)積值。常用的核函數(shù)有:
線性核函數(shù)
多項式核函數(shù)
徑向基核函數(shù)(Radial Basis Function,簡稱RBF)
Sigmoid核函數(shù)
式中,K為核函數(shù);xi、xj為兩個低維空間列向量,在本研究中,代表兩組不同的樣本,且列向量中的每一個分量對應(yīng)一個輸入變量;d、γ和r為核參數(shù)。
由于RBF核函數(shù)能夠?qū)颖痉蔷€性地映射到更高維空間,且數(shù)值條件和參數(shù)數(shù)目相對較少,對模型選擇的復(fù)雜度影響較?。?3],一般都將其作為首選。確定核函數(shù)后,需對相應(yīng)參數(shù)進行優(yōu)化選取,通常采用基于交叉驗證思想的網(wǎng)格搜索法[17]。SVM的輸入和輸出,一般如圖1所示。
選取合適的評價標準,對于評價結(jié)果的合理性與客觀性至關(guān)重要。目前,我國廣泛使用的富營養(yǎng)評價方法有兩種,一是中國環(huán)境監(jiān)測總站于2001年底推薦使用的綜合營養(yǎng)狀態(tài)指數(shù)法(簡稱TLI法)[18],二是中國水利部《地表水資源質(zhì)量評價技術(shù)規(guī)程》(SL395—2007)中采用的線性插值評分法(簡稱SCO法)。在評價指標選取和營養(yǎng)類型劃分上,二者是一致的。本研究采用與SCO法對應(yīng)的湖庫富營養(yǎng)化程度評價標準(表1)。
圖1 支持向量機的輸入和輸出Fig.1 The inputs and outputs of SVM
表1 湖庫富營養(yǎng)化程度評價標準Table 1 The eutrophication evaluation standard of lakes and reservoirs
為了消除不同量級數(shù)據(jù)對評價結(jié)果的影響,按照公式5對表1中的評價指標和太湖實測數(shù)據(jù)進行了歸一化處理:
式中,X'為數(shù)據(jù)X歸一化后的值,Xmin、Xmax分別為表1中與X對應(yīng)的評價指標的最小值和最大值。
在經(jīng)過歸一化處理的每個區(qū)間范圍內(nèi)隨機生成100組樣本,以其中的60組作為訓(xùn)練樣本,剩余的40組作為驗證樣本。共獲得訓(xùn)練樣本540組,驗證樣本360組。將5種營養(yǎng)等級分別“標記”為{1,2,3,4,5},作為模型輸出的目標值。
研究中采用LIBSVM-3.16[19]軟件,對SVM分類算法進行了實現(xiàn)。首先,設(shè)置核函數(shù)為RBF,相應(yīng)參數(shù)為懲罰因子 c和核參數(shù) g(公式 3 中的 γ);然后,設(shè)置 c∈{2-10,2-9,…,210},g∈{2-10,2-9,…,210},對訓(xùn)練樣本進行5折交叉驗證,得到最佳參數(shù)為c=4,g=32;接著,按最佳參數(shù)取值,代入訓(xùn)練樣本進行訓(xùn)練,即可建立評價模型;最后,將驗證樣本代入評價模型,得到驗證準確率為100%(360/360)。
由《2012太湖健康狀況報告》可知,太湖通常被劃分為9個湖區(qū)(圖2),各湖區(qū)富營養(yǎng)化狀況不同。每年的夏季和秋季,為藍藻水華發(fā)生較為嚴重的時期。為使評價結(jié)果更具代表性,選取對太湖33個監(jiān)測點(圖2)2012年7—9月份的月監(jiān)測數(shù)據(jù)(共99組)進行營養(yǎng)狀況評價。研究所采用的數(shù)據(jù)通過合作從太湖流域管理局水文水資源監(jiān)測局獲得。
圖2 太湖分區(qū)及33個監(jiān)測點位置Fig.2 The partitions of Taihu Lake and the locations of 33 monitoring sites
分別運用SVM評價法和SCO評價法,對99組數(shù)據(jù)進行評價,得到33個監(jiān)測點7—9月的營養(yǎng)類型如圖3所示,評分值以及兩種方法的評價營養(yǎng)等級如表2所示。經(jīng)統(tǒng)計,兩種評價法的結(jié)果一致率為78.8%(其中,7月份為100%,8月份為60.6%,9月份為75.8%),其中不一致的個例均屬于相鄰營養(yǎng)等級。
通過對兩種方法的評價結(jié)果進行綜合可知,2012年7—9月份,太湖水體共出現(xiàn)3種營養(yǎng)類型,分別為中營養(yǎng)、輕度富營養(yǎng)和中度富營養(yǎng)。其中,中營養(yǎng)主要分布于東太湖,輕度富營養(yǎng)主要分布于湖心區(qū)和東部沿岸區(qū),中度富營養(yǎng)主要分布于西北部湖區(qū),這種水質(zhì)分布狀況與張曉晴等[20]的研究結(jié)果基本一致。太湖水體整體表現(xiàn)為輕度到中度富營養(yǎng)狀態(tài)。
圖3 SVM和SCO方法對太湖33個監(jiān)測點7—9月營養(yǎng)狀態(tài)的評價結(jié)果比較Fig.3 Comparison results of Taihu Lake's 33 monitoring sites from July to September evaluated by the two methods
表2 評分值以及兩種方法的評價營養(yǎng)等級Table 2 Scores and the evaluated eutrophication degrees of two methods
續(xù)表
在7月份的評價結(jié)果中,SVM法得出太湖大部分水域的營養(yǎng)類型為輕度富營養(yǎng),竺山湖為中度富營養(yǎng),東太湖為中營養(yǎng);SCO法得出的結(jié)果和SVM法結(jié)果一致。
在8月份的評價結(jié)果中,SVM法得出太湖大部分區(qū)域為輕富,竺山湖、梅梁湖為中富;SCO法評價結(jié)果顯示大部分區(qū)域為中富,和SVM結(jié)果差異較大。
在9月份的評價結(jié)果中,SVM法得出太湖大部分區(qū)域為輕富,竺山湖、梅梁湖為中富;SCO法評價結(jié)果顯示竺山湖、梅梁湖和少量西部湖區(qū)為中富,其余部分為輕富,總體上和SVM結(jié)果比較一致。
兩種方法評價結(jié)果存在不一致的原因主要如下:
(1)評價原理不同 在SCO評價法中,首先采用線性插值法將各評價指標濃度值轉(zhuǎn)換為相應(yīng)的評分值,然后計算評分值的均值,并按其所處的區(qū)間范圍判斷營養(yǎng)等級;而在SVM評價法中,首先通過在評價標準各區(qū)間范圍內(nèi),隨機生成若干訓(xùn)練樣本,然后利用SVM的分類算法,對樣本進行訓(xùn)練,獲得相應(yīng)的評價模型,最后利用模型對水體的營養(yǎng)類型進行評價。兩種方法評價原理的不同,會使評價結(jié)果產(chǎn)生差異。
(2)SVM評價法的建模過程存在隨機性 由于SVM法所用的訓(xùn)練樣本是隨機產(chǎn)生的,而不同的訓(xùn)練樣本,一般會得出不同的模型。這在一定程度上,也會對SVM評價模型的表現(xiàn)產(chǎn)生影響。
雖然兩種方法的評價結(jié)果一致率為78.8%,但以上的結(jié)果及其分析表明SVM評價法是有效的,能夠作為太湖富營養(yǎng)化狀態(tài)評價的一種可選的新方法。但由于SVM方法基于低維變量和小樣本數(shù)據(jù),具有更好的泛化性;同時核函數(shù)的引入,提高了模型收斂性。
本研究根據(jù)已有的湖庫富營養(yǎng)化程度評價標準,建立了太湖富營養(yǎng)化評價的支持向量機模型,然后分別運用該模型和線性插值評分法(SCO),對太湖2012年7—9月33個站點的99組水質(zhì)數(shù)據(jù)進行了評價。通過對評價結(jié)果的對比分析,得到以下結(jié)論:
(1)2012年7—9月份,太湖水體共出現(xiàn)3種營養(yǎng)類型,中營養(yǎng)主要分布于東太湖,輕度富營養(yǎng)主要分布于湖心區(qū)和東部沿岸區(qū),中度富營養(yǎng)主要分布于西北部湖區(qū),太湖水體整體表現(xiàn)為輕度到中度富營養(yǎng)狀態(tài)。
(2)本研究建立的支持向量機評價模型能夠有效應(yīng)用于太湖富營養(yǎng)化狀態(tài)評價。實際應(yīng)用表明兩種方法的評價結(jié)果一致率為78.8%,存在不一致的個例均屬于相鄰營養(yǎng)等級??紤]到兩種方法的評價原理不同,且建模過程存在隨機性,78.8%的一致率是可以接受的,說明運用支持向量機建立太湖富營養(yǎng)化評價模型是有效的,且具有更好的收斂性和泛化性。
[1]Wu M,Li ZY,Liu ZY,Li D P.Application of improved set pair analysis to assessment of lake eutrophication.Water Resources Protection,2009,25(2):5-9.
[2]Taheriyoun M,Karamouz M,Baghvand A.Development of an entropy-based fuzzy eutrophication index for reservoir water quality evaluation.Iranian Journal of Environmenal Health Science& Engineering,2010,7(1):1-14.
[3]Pappas J L.Phytoplankton assemblages,environmental influences and trophic status using canonical correspondence analysis,fuzzy relations,and linguistic translation.Ecological Informatics,2010,5(2):79-88.
[4]Zhang P,Huang Y L,Chen Y Y,Hu X L,Liu D F.Fuzzy mathematics for evaluation of eutrophication in Xiangxi Bay.Environmental Science&Technology,2012,35(6):173-179.
[5]Jiang L X,Yu SJ,Wei D B,Liu T,Zhang Z F.Grey situation decision method aplying to eutrophication evaluation for Lakes.Environmental Sciences and Management,2006,31(2):10-12.
[6]Hu L H,Pan A,Li T S,Li C Z,Wang Y H.Application of the grey clustering method to assessing the eutrophication of Shengzhong Reservoir.Journal of Agro-Environment Science,2008,27(6):2407-2412.
[7]Zou CW,Jin X C,Xiong J Q,Li Z Y.Evolutionary ant colony algorithm and its application in evaluating the eutrophic state of lake.Research of Environmental Sciences,2006,19(5):149-153.
[8]Dang Y,Li Z Y,Zou Y L.Lake eutrophic evaluation based on bee immune evolutionary algorithm.Journal of Anhui Agricultural Sciences,2010,38(16):8618-8619,8695.
[9]Lin G S,Huang X Y,Li J.Application of artificial neural network method on eutrophication assessment for Shenzhen Reservoirs.The Administration and Technique of Environmental Monitoring,2010,22(1):59-63.
[10]Cui D W.Applications of several neural network models to eutrophication evaluation of lakes and reservoirs.Water Resources Protection,2012,28(6):12-18.
[11]Zhang C L,F(xiàn)ang C,Huang W J.Comprehensive evaluation method of projection pursuit based on particle swarm optimization in lake Eutrophication.Journal of Anhui Agricultural Sciences,2010,38(27):14823-14825,14830.
[12]Vapnik V.The nature of statistical learning theory.New York:Springer Verlag,1995.
[13]Shi X,Xiong Q Y,Lei L N.A comparative study of eutrophication evaluation models based on SOM neural network and SVM.Journal of Chongqing University,2010,33(3):119-123.
[14]Yang D J,Wang R,Shen G.SVM and ANN applied to evaluation of lake eutrophication:A comparative study.Environmental Science&Technology,2012,35(1):173-177.
[15]Xu L,Wang JY,Zhang B,Li Z Y.A hybrid TS-SVM model for evaluation of lake eutrophication.Advanced Materials Research,2012,463-464:917-921.
[16]Liu X,Lu W.Study on the application of SVM in text classification.IT Education,2007,2:72-77.
[17]Hsu CW,Chang C C,Lin C J.A practical guide to support vector classification.http://www.csie.ntu.edu.tw/—cjlin/libsvm/index.html.
[18]Wang M C,Liu X Q,Zhang JH.Evaluate method and classification standard on lake entrophication.Environmental Monitoring in China,2002,18(5):47-49.
[19]Chang CC,Lin CJ.LIBSVM:a library for support vector machines.ACM Transactions on Intelligent Systems and Technology,2011,2(3):1-27.
[20]Zhang X Q,Chen Q W.Spatial-temporal characteristic of water quality in Lake Taihu and its relationship with algal bloom.Journal of Lake Sciences,2011,23(3):339-347.
參考文獻:
[1]鄔敏,李祚泳,劉智勇,李大鵬.一種改進的集對分析法在湖泊富營養(yǎng)化評價中的應(yīng)用.水資源保護,2009,25(2):5-9.
[4]張平,黃鈺鈴,陳媛媛,胡響鈴,劉德富.模糊數(shù)學(xué)在香溪河庫灣富營養(yǎng)化評價中的應(yīng)用.環(huán)境科學(xué)與技術(shù),2012,35(6):173-179.
[5]蔣利鑫,于蘇俊,魏代波,劉濤,張子峰.湖泊富營養(yǎng)化評價中的灰色局勢決策法.環(huán)境科學(xué)與管理,2006,31(2):10-12.
[6]胡麗慧,潘安,李鐵松,李成柱,王佑漢.灰色聚類法在升鐘水庫水體富營養(yǎng)化評價中的應(yīng)用.農(nóng)業(yè)環(huán)境科學(xué)學(xué)報,2008,27(6):2407-2412.
[7]鄒長武,金相燦,熊建秋,李祚泳.進化蟻群算法及其在湖泊富營養(yǎng)化評價中的應(yīng)用.環(huán)境科學(xué)研究,2006,19(5):149-153.
[8]黨媛,李祚泳,鄒艷玲.基于蜜蜂免疫進化算法的湖泊富營養(yǎng)化評價.安徽農(nóng)業(yè)科學(xué),2010,38(16):8618-8619,8695.
[9]林高松,黃曉英,李娟.人工神經(jīng)網(wǎng)絡(luò)在深圳市水庫富營養(yǎng)化評價中的應(yīng)用.環(huán)境監(jiān)測管理與技術(shù),2010,22(1):59-63.
[10]崔東文.幾種神經(jīng)網(wǎng)絡(luò)模型在湖庫富營養(yǎng)化程度評價中的應(yīng)用.水資源保護,2012,28(6):12-18.
[11]張春樂,方崇,黃偉軍.基于粒子群算法湖泊富營養(yǎng)化評價的投影尋蹤方法.安徽農(nóng)業(yè)科學(xué),2010,38(27):14823-14825,14830.
[13]石欣,熊慶宇,雷璐寧.SOM網(wǎng)絡(luò)與SVM在水質(zhì)富營養(yǎng)化評價中的對比.重慶大學(xué)學(xué)報,2010,33(3):119-123.
[14]楊道軍,王冉,沈剛.SVM與ANN在湖泊富營養(yǎng)化評價中的對比研究.環(huán)境科學(xué)與技術(shù),2012,35(1):173-177.
[16]劉霞,盧葦.SVM在文本分類中的應(yīng)用研究.計算機教育,2007,2:72-77.
[18]王明翠,劉雪芹,張建輝.湖泊富營養(yǎng)化評價方法及分級標準.中國環(huán)境監(jiān)測,2002,18(5):47-49.
[20]張曉晴,陳求穩(wěn).太湖水質(zhì)時空特性及其與藍藻水華的關(guān)系.湖泊科學(xué),2011,23(3):339-347.