郭美葉
(河北省張家口水文水資源勘測(cè)局,河北 張家口 075000)
水是人類(lèi)生存發(fā)展和維系生態(tài)系統(tǒng)正常運(yùn)轉(zhuǎn)的基質(zhì)[1],也是地球陸地表層生物、物理、化學(xué)能量與物質(zhì)遷移轉(zhuǎn)化最活躍的場(chǎng)所之一[2],水環(huán)境質(zhì)量對(duì)環(huán)境變化及人類(lèi)活動(dòng)的響應(yīng)十分敏感。在全球變化的背景下,水質(zhì)量受環(huán)境污染、氣候變化、水侵蝕、人類(lèi)不合理開(kāi)發(fā)利用的干擾愈來(lái)愈烈。水體質(zhì)量評(píng)價(jià)主要反映了水體的生物、化學(xué)、物理等綜合條件狀況,為水質(zhì)量的優(yōu)化管理提供依據(jù)。
隨著機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)等現(xiàn)代數(shù)據(jù)挖掘算法的應(yīng)用與推廣,就水環(huán)境質(zhì)量評(píng)價(jià)方法而言,逐漸由傳統(tǒng)的模糊隸屬度函數(shù)評(píng)價(jià)法轉(zhuǎn)化為模式識(shí)別法。學(xué)者對(duì)灰色GM模型、可拓分析、BP和RBF神經(jīng)網(wǎng)絡(luò)等評(píng)價(jià)方法進(jìn)行了嘗試,并取得一定成果[3-6]。但傳統(tǒng)評(píng)價(jià)方法注重回歸分析和時(shí)間序列模型分析,不能全面、科學(xué)地反映各項(xiàng)要素之間內(nèi)在機(jī)理,損失信息量較大,難以取得較好的評(píng)價(jià)效果,而神經(jīng)網(wǎng)絡(luò)方法又不能很好解決小樣本、非線(xiàn)性、高維數(shù)和局部極小等問(wèn)題[7]。支持向量機(jī)(Support Vector Machine,SVM)作為一種新的機(jī)器學(xué)習(xí)方法,避開(kāi)了從歸納到演繹的傳統(tǒng)過(guò)程,實(shí)現(xiàn)了從訓(xùn)練樣本到預(yù)報(bào)樣本的“轉(zhuǎn)導(dǎo)推理”[8],而且其采用的風(fēng)險(xiǎn)最小化準(zhǔn)則有效克服了神經(jīng)網(wǎng)絡(luò)的固有缺陷,已被很多學(xué)者運(yùn)用于圖像解譯、語(yǔ)音識(shí)別、文本分離,并取得了良好效果。據(jù)此,本研究嘗試運(yùn)用SVM分類(lèi)模型,以陜西省為例,對(duì)其水質(zhì)發(fā)展趨勢(shì)予以模擬與評(píng)價(jià),以期為陜西省土地生態(tài)規(guī)劃提供實(shí)踐經(jīng)驗(yàn)和理論依據(jù)。
洋河為桑干河支流之一,是北京官?gòu)d水庫(kù)重要水源。其貫穿張家口多個(gè)縣區(qū),流域跨度介于E113°50′~E116°30′,N39°30′~N42°10′。區(qū)域?qū)儆诘蜕较螂A地、盆地過(guò)渡區(qū),海拔在500~800 m之間,高程相差不大。由于地形抬升和盆地效應(yīng),在迎風(fēng)坡段降水較豐,多年均降水量為330~400 mm。洋河張家口段水源補(bǔ)給主要為降水和地下水,由于區(qū)域暖干化趨勢(shì)加劇,地表水域萎縮、水流活性下降。近年來(lái),隨著張家口城鎮(zhèn)化、工業(yè)化發(fā)展日趨深入,工業(yè)三廢、農(nóng)用污水、生活廢物排放增多,對(duì)地表徑流、地下水造成一定污染,當(dāng)前眉縣段渭河水質(zhì)質(zhì)量堪憂(yōu)。
為了便于全面掌握洋河張家口段水環(huán)境質(zhì)量概況,按照全局性、均勻性、一般性的布點(diǎn)原則,并且考慮河段附近的土地利用類(lèi)型、工業(yè)分布、支流狀況等,在河段干流上設(shè)置45個(gè)監(jiān)測(cè)面。監(jiān)測(cè)時(shí)間為2016年10月,在每個(gè)監(jiān)測(cè)點(diǎn)約10 m2的范圍進(jìn)行隨機(jī)采集3~5水體樣本,混合均勻后帶回實(shí)驗(yàn)室進(jìn)行化驗(yàn)分析,同時(shí)應(yīng)用GPS儀記錄樣點(diǎn)的經(jīng)緯度坐標(biāo)。監(jiān)測(cè)的指標(biāo)有溶解氮(DO)、高錳酸鉀指數(shù)(COD)、氨氮(NH4-N)、總磷(TP)、總氮(TN)。其中按照《水質(zhì)高錳酸鹽指數(shù)的測(cè)定》(GB/T 11892-1989)對(duì)各項(xiàng)指標(biāo)測(cè)定, DO以硫酸鉀濕氧化法測(cè)定,COD以草酸鈉法測(cè)定,氨氮(NH4-N)以納氏劑分光光度法,TP以碳酸氫鈉浸提—鉬銻抗比色法,總氮以半微量凱氏法測(cè)定[9]。
支持向量機(jī)(Support Vector Machine,SVM)是由Vapnik[10]提出的基于統(tǒng)計(jì)學(xué)習(xí)理論的一種新的機(jī)器學(xué)習(xí)方法,其利用某一種預(yù)先選擇的非線(xiàn)性映射將輸入向量映射到一個(gè)高維特征空間, 并在該高維特征空間構(gòu)造出最優(yōu)分類(lèi)超平面, 最后利用該超平面進(jìn)行擬合或分類(lèi)。SVM評(píng)價(jià)分析則是利用其回歸算法。對(duì)于樣本數(shù)據(jù)[xi,yi],其中i= 1,2 …,n,n為樣本數(shù)據(jù)總數(shù),xi∈Rn為樣本輸入,yi∈R為樣本輸出期望值。SVM的回歸函數(shù)描述如下:
f(x)=ω·φ(x)+b
(1)
φ∶Rn→G,ω∈G
對(duì)優(yōu)化目標(biāo)函數(shù)求極值:
(2)
式中:C為懲罰系數(shù);Remp(f)為損失函數(shù);設(shè)定ε不敏感函數(shù)為損失函數(shù),則ε定義如下:
Lε(d,y)=|f(xi)-yi|-ε
(3)
其中,|f(xi)-yi|>ε
(4)
s.t.yi-[ω·φ(xi)+b]≤ε+ξi
(5)
將上式帶入SVM回歸方程,即可得到相關(guān)樣本輸出值,即:
(6)
由于SVM理論只考慮高維特征空間的點(diǎn)積運(yùn)算K(xi,x)=φ(xi)·φ(x),不直接使用映射函數(shù),所以式(6)表達(dá)為:
式中:K(xi,x*)為核函數(shù)。
常用的核函數(shù)有:線(xiàn)性核函數(shù)、多項(xiàng)式核函數(shù)、RBF核函數(shù)和Sigmoid核函數(shù)等。
應(yīng)用支持向量機(jī)算法對(duì)16個(gè)監(jiān)測(cè)樣點(diǎn)的水質(zhì)進(jìn)行模式識(shí)別,其關(guān)鍵在于基于水體測(cè)定的單一指標(biāo)豐度與水質(zhì)等級(jí)之間的聯(lián)系構(gòu)造分類(lèi)規(guī)則,建模過(guò)程如下:
Steep1:依據(jù)地表水環(huán)境質(zhì)量分級(jí)標(biāo)準(zhǔn)(GB 3838-2002)[11]確定區(qū)域水體單一指標(biāo)與水體質(zhì)量的綜合評(píng)價(jià)分級(jí)準(zhǔn)則,見(jiàn)表1。由于該分級(jí)標(biāo)準(zhǔn)為國(guó)家標(biāo)準(zhǔn),因而具有廣闊的適用性和客觀性、規(guī)范性。另外,以DO、COD、NH、TP、TN等單一指標(biāo)組建的水體質(zhì)量評(píng)價(jià)體系代表了水體絕大部分性質(zhì),能夠較好地反映水體綜合質(zhì)量。
表1 地表水環(huán)境質(zhì)量的分級(jí)標(biāo)準(zhǔn)Table 1 The classification standard of five kinds of the evaluated soil nutrients
Steep 2:基于樣本地表水環(huán)境分級(jí)標(biāo)準(zhǔn)生成樣本數(shù)據(jù)與確定模型準(zhǔn)則。樣本數(shù)據(jù)的生成應(yīng)用runif函數(shù),在各等級(jí)區(qū)間進(jìn)行內(nèi)插,每個(gè)區(qū)間生存100組數(shù)據(jù),其中每一個(gè)等級(jí)內(nèi)均包含該等級(jí)內(nèi)水體單一指標(biāo)數(shù)據(jù)。各單一指標(biāo)如果隸屬于同一類(lèi)別,則表明該水質(zhì)也屬于這個(gè)級(jí)別,以此確定模型準(zhǔn)則,這是應(yīng)用支持向量機(jī)算法進(jìn)行水體質(zhì)量模式識(shí)別的主要內(nèi)涵。
Steep 3:模型參數(shù)優(yōu)化選擇。 客觀來(lái)講,模型參數(shù)對(duì)于模型的精度有著顯著影響,為了提供保證評(píng)價(jià)效果,對(duì)模型參數(shù)調(diào)優(yōu)是極有必要的。由于該SVM模型屬于非線(xiàn)性分類(lèi),需要確定懲罰因子cost和核參數(shù)gamma。根據(jù)訓(xùn)練誤差最小原則,選取最優(yōu)cost為16,最優(yōu)gamma為2,見(jiàn)圖1。
圖1 SVM模型表現(xiàn)與參數(shù)Fig.1 The performance and parameters of SVM
Rank一二三四五一1000000二0100000三0010000四0001000五000199
Steep 4:模型精度評(píng)價(jià)。表2中,對(duì)角線(xiàn)中數(shù)字為分類(lèi)正確的樣本數(shù),矩陣中其他數(shù)字為分類(lèi)錯(cuò)誤的樣本數(shù)。SVM算法內(nèi)含判別函數(shù),能夠直接顯示模型分類(lèi)精度的結(jié)果,SVM模型對(duì)各級(jí)水化學(xué)肥力的判別正確率為999.9%。綜合而言,SVM模型分類(lèi)精度較高,具有良好的模式識(shí)別能力,能夠用于對(duì)新的樣本數(shù)據(jù)進(jìn)行分類(lèi)評(píng)價(jià)。
Steep 5。將訓(xùn)練好的水質(zhì)評(píng)價(jià)模型對(duì)研究區(qū)16組水養(yǎng)分?jǐn)?shù)據(jù)進(jìn)行識(shí)別,以綜合評(píng)價(jià)研究區(qū)水化學(xué)質(zhì)量。
水體化學(xué)指標(biāo)描述性分析與相關(guān)性分析在SPSS19.0中進(jìn)行?;谥С窒蛄繖C(jī)模式識(shí)別的水體質(zhì)量評(píng)估模型的數(shù)據(jù)生成在R3.3.1中運(yùn)用runif函數(shù)完成,模型構(gòu)建與分類(lèi)識(shí)別R3.3.1軟件中Support vector machine包中進(jìn)行。此外,將SVM機(jī)器學(xué)習(xí)模型評(píng)價(jià)識(shí)別的洋河張家口段16個(gè)水樣點(diǎn)進(jìn)行分類(lèi)。
見(jiàn)表4。
表3 水化學(xué)指標(biāo)描述統(tǒng)計(jì)Table 3 Descriptive statistics of soil chemical indicators
表4 水體化學(xué)指標(biāo)相關(guān)性分析Table 4 The relationships between water chemical indicators
相關(guān)性分析能夠幫助我們推斷水體中各物質(zhì)之間遷移轉(zhuǎn)化機(jī)理及其來(lái)源是否相同。皮爾遜(Person)相關(guān)分析表明(表4),DO與COD、 DO與NH、 DO與TN、DO與TP呈正相關(guān)關(guān)系,并在0.01水平上(雙側(cè))達(dá)到極顯著程度,說(shuō)明它們的水污染源相近,可能由工農(nóng)業(yè)污染、生活排污產(chǎn)生。由于DO是COD的重要的物質(zhì)源,因此DO與COD之間的相關(guān)系數(shù)高達(dá)0.935。TN與DO在0.01水平上是反向關(guān)系,表明它們具有逆向分布特性,與營(yíng)養(yǎng)元素之間的化學(xué)過(guò)程有關(guān)。
應(yīng)用SVM的模式識(shí)別是在因變量的幾個(gè)分類(lèi)水平明確的條件下,依據(jù)多個(gè)自變量性質(zhì)表現(xiàn),通過(guò)判別每個(gè)自變量的類(lèi)別歸屬,進(jìn)而達(dá)到對(duì)因變量模式類(lèi)別區(qū)分的目的。本研究中,因變量為水體質(zhì)量,其具有(I、II、III、IV和V)5個(gè)類(lèi)別特征,自變量為DO、COD、NH、TP、TN。16個(gè)水體樣點(diǎn)評(píng)價(jià)結(jié)果見(jiàn)圖2。
圖2 16個(gè)水質(zhì)樣點(diǎn)評(píng)價(jià)結(jié)果Fig.2 The evaluation result of 16 water quality samples
由圖2可知,洋河張家口段水體質(zhì)量等級(jí)分布不均勻。16個(gè)監(jiān)測(cè)點(diǎn)中,2個(gè)點(diǎn)水質(zhì)屬于I等,5個(gè)點(diǎn)屬于II等,6個(gè)點(diǎn)屬于III等,3個(gè)點(diǎn)屬于1V等,0個(gè)點(diǎn)屬于V等??傮w來(lái)說(shuō),洋河張家口段水體質(zhì)量一般,仍須加強(qiáng)保護(hù)。
應(yīng)用指出向量機(jī)模式識(shí)別將水體質(zhì)量評(píng)價(jià)轉(zhuǎn)化模式識(shí)別問(wèn)題,支持向量機(jī)中的核函數(shù)能夠模擬各指標(biāo)與肥力量級(jí)間的多分類(lèi)非線(xiàn)性映射關(guān)系,經(jīng)過(guò)充分訓(xùn)練獲得水質(zhì)量級(jí)識(shí)別能力,不僅解決了線(xiàn)性不可分的問(wèn)題,還確保了評(píng)價(jià)結(jié)果的客觀性。在模型構(gòu)建中,機(jī)器學(xué)習(xí)模型維數(shù)擴(kuò)充靈活,能夠根據(jù)需要調(diào)節(jié)自身形態(tài)特征與屬性特征,因而具有廣闊的適用性。
研究經(jīng)驗(yàn)表明,基于中國(guó)地表水環(huán)境質(zhì)量分級(jí)標(biāo)準(zhǔn)與支持向量機(jī)分類(lèi)算法的水體質(zhì)量評(píng)價(jià)模型,訓(xùn)練精度高、運(yùn)算速率快,非線(xiàn)性識(shí)別能力好,能夠應(yīng)用于水體質(zhì)量評(píng)價(jià)的研究中。