姜 雪,盧文喜*,楊青春,趙海卿 (.吉林大學環(huán)境與資源學院,地下水資源與環(huán)境教育部重點實驗室,吉林長春 300;.沈陽地質礦產研究所,遼寧 沈陽 003)
應用支持向量機評價土壤環(huán)境質量
姜 雪1,盧文喜1*,楊青春1,趙海卿2(1.吉林大學環(huán)境與資源學院,地下水資源與環(huán)境教育部重點實驗室,吉林長春 130021;2.沈陽地質礦產研究所,遼寧 沈陽 110032)
基于野外采樣和室內分析相結合的方法,采用電感耦合等離子體質譜法(ICP-MS)對羊草溝煤礦研究區(qū)表層土壤樣品中的 Cd、Cr、Zn、Pb和Cu含量進行測定,應用非線性支持向量機模型中的分類支持向量機,選用sigmoid核函數,利用MATLAB編寫程序,進行土壤環(huán)境質量評價,并利用模糊綜合評判法對評價結果進行驗證.在此基礎上,運用對應分析方法對樣品和變量進行了關聯分析,進一步了解重金屬污染特征.評價結果表明,研究區(qū)土壤環(huán)境質量多為Ⅰ類,與模糊綜合評判法的相同率達到 91.67%,將支持向量機用于土壤環(huán)境質量評價是可行的.相比于傳統(tǒng)的評價方法,支持向量機采用結構風險最小化原則,將復雜的非線性問題轉化為線性問題,成功的解決了多分類、高維運算等問題.
支持向量機;土壤環(huán)境質量評價;重金屬;羊草溝煤礦
目前常用的土壤環(huán)境質量評價方法按性質可分為3大類:定性、定量和定性與定量相結合.其中定性方法包括定性模糊集、聚類分析法等;定量方法包括指數法、回歸分析法、概率法等;定性與定量相結合的方法包括模糊綜合評判法、層次分析法、相關分析法、多元統(tǒng)計法等[1-2].然而,在土壤環(huán)境質量評價過程中,評價因子與環(huán)境質量等級之間存在著復雜的非線性映射關系,上述方法并未很好地處理這種非線性映射關系,且在評價過程中需要人為給定各評價因子權重,從而使評價結果缺乏可靠性、客觀性和通用性[3].支持向量機(Support Vector Machine,SVM)模型通過用內積函數所定義的非線性變換將輸入空間變換到一個高維空間,在高維空間中尋找輸出變量和輸入變量之間的非線性關系[4],具備非線性模式識別的能力.目前 SVM 已廣泛應用于人臉圖像識別、手寫字識別、信號處理、語音識別、水質評價、文本分類、遙感圖像分析等領域[5-8].而將該法應用于土壤評價領域目前尚很少見.本文采用支持向量機方法來評價土壤環(huán)境質量,以羊草溝煤礦研究區(qū)為例,探討 SVM 建模過程和評價效果,旨在對 SVM 模型技術在土壤環(huán)境質量評價領域提供借鑒意義,同時討論羊草溝煤礦土壤環(huán)境現狀.
支持向量機(SVM)是基于統(tǒng)計學習理論發(fā)展而來,它針對有限樣本情況下模式識別中的一些根本性問題進行系統(tǒng)的理論研究.相比于傳統(tǒng)機器學習方法,支持向量機采用結構風險最小化準則,在最小化樣本點誤差的同時縮小模型泛化誤差的上界,從而提高了模型的泛化能力,在很大程度上解決了模型中的過學習、非線性、維數災難等問題[9].
SVM通過構建最優(yōu)分類超平面將各類樣本正確無誤地分開,同時使分類間隔最大,距最優(yōu)分類超平面最近的向量為“支持向量”(SV)[10].支持向量機可分為線性支持向量機和非線性支持向量機,在土壤環(huán)境質量評價過程中,評價因子與環(huán)境質量等級之間存在著復雜的非線性映射關系,因此本文主要介紹非線性支持向量機問題.
非線性問題可以通過非線性變換轉化為某個高維空間中的線性問題,在變換空間中尋求最優(yōu)分類超平面[11].這種變換可以通過核函數來實現.因為核函數 K ( xi,xj)對應某一變換空間的內積即 K (xi,xj)=ψ( xi)·ψ ( xj). K ( xi,xj)提供了避免“維數災難”問題的辦法.其基本思想如下:SVM 利用某種事先選擇的非線性映射φ,將輸入向量x映射到某個高維特征空間,然后在高維空間中求最優(yōu)分類超平面[12-14].
設樣本集為(xi, yi),i = 1,2,…,n ;y= { 1,-1 }是類別標號,超平面方程為:
在約束條件上加入一個松弛變量 ξi≥0,這時的最大間隔超平面稱為廣義最優(yōu)分類超平面[15-17].則約束條件變?yōu)?
對應的優(yōu)化問題轉變?yōu)?
式中:ω為權向量,b為偏置,iξ為松弛變量.C>0是控制懲罰程度的常數(懲罰因子),C越大,懲罰就越大.引入Lagrange乘子βα,有:
Lagrange函數L在鞍點處是關于ω,ξ,b的極小點,對ω,ξ,b分別求偏導,再整理L最終可以得到原問題的對偶問題:
則最優(yōu)判斷函數為:
常用的核函數有:線性核函數、多項式核函數、徑向基函數核函數和二層神經網絡核函數.
長春市羊草溝煤礦位于長春市東部,西距長春市18km,東距九臺市30km.屬吉林省九臺市東湖鎮(zhèn)所轄.地理坐標東經: 125°33′26.1″~ 125°36′17.2″,北緯:43°57′27.9″~43°58′51.9″,礦區(qū)面積 16km2.研究區(qū)土地類型主要為耕地,礦區(qū)氣候屬溫帶大陸性季風氣候,年平均降雨量為 597.7mm.腰站河為研究區(qū)內一條季節(jié)性河流,發(fā)源于礦區(qū)南部,向北流向礦區(qū)東部,礦區(qū)內流域面積 2.5km2.五一水庫是區(qū)內最大的地表水體,位于礦區(qū)西部,該水庫最小庫容265萬m3,最大庫容2443萬m3.
采用網格化均勻布點,將整個羊草溝煤礦研究區(qū)劃分成 1km×1km 的采樣單元格,采樣密度為1組/km2,采樣深度15cm,共采集24組樣品,土樣采集點分布見圖1.根據《土壤環(huán)境監(jiān)測技術規(guī)范》[18]要求,將運回的土壤樣品風干,過200目篩成制備樣.
測試方法:取過200目篩的樣品0.1000g于酸煮洗凈的 PTFE密罐中,依次加 3mL硝酸(68%,GR),1mL氫氟酸(40%, GR),1mL過氧化氫(30%,GR)混勻后加蓋密閉,在 180℃烘箱中加熱 48h.冷卻后于自動控溫電熱板上 100℃蒸至近干,趕走HF,加2mL 5% HNO3再加蓋密閉,于140℃烘箱中加熱3h,冷卻后,樣品轉移到干凈的50mL容量瓶中,稀釋定容,搖勻,用電感耦合等離子體質譜儀(ICP-MS, Aglient7500a, USA)進行重金屬元素測定[19].測定指標為 Cd、Cr、Zn、Pb和 Cu.評價指標即選擇實測的5種重金屬元素.
圖1 土樣采集點位置分布Fig.1 The location of soil sample points
從表 1中可以看出,研究區(qū)土壤環(huán)境質量與國家標準相比較好,但經過與研究區(qū)土壤背景值進行對比可知,研究區(qū)土壤中重金屬Zn、Pb元素含量的平均值均超過了土壤背景值,表明這 2種重金屬元素已經對該區(qū)的土壤造成了污染.煤矸石中各重金屬含量均超過研究區(qū)土壤背景值,Cr、Cu、Zn、Cd和 Pb含量分別為土壤背景值的 1.25、1.27、2.00、1.20、1.13倍,其中 Zn含量超背景值最多.
表1 重金屬含量統(tǒng)計結果Table 1 The statistical results of heavy metal contents
土壤中各種金屬含量的波動性不大.變異系數在0.07~0.17之間,變異強度弱-中等.
根據土壤環(huán)境質量分級標準[20](GB15618-1995),利用MATLAB中的Rand函數生成隨機樣本,即在土壤環(huán)境質量的3個等級內,各個指標可以在標準中劃分的取值范圍內任意取值,若土壤各評價指標的取值均在某一等級范圍內,則該土壤肯定符合該等級土壤環(huán)境質量標準[3].5種參評因子的分級標準如表2所示.
表2 五種參評因子的分級標準Table 2 The classification standard of five kinds of the evaluated factors
本文在小于土壤環(huán)境質量一級標準取值范圍內生成 200對訓練樣本,一級、二級標準之間生成200對,二級、三級標準之間生成200對,共隨機生成 600對訓練樣本.測試樣本即為實測的24組數據.模型構建步驟如下:
(1)數據歸一化、去噪.歸一化采用公式(7),將數據歸一化至[0,1]之間.
(2)確定 SVM 模型結構.5種重金屬元素(Cd、Cr、Zn、Pb、Cu)的含量作為輸入向量,土壤環(huán)境質量級別為輸出.
(3)確定核函數.分別將線性核函數、多項式核函數、徑向基函數核函數和二層神經網絡核函數這四種不同的核函數帶入模型進行對比試驗.根據試驗結果,本文選用二層神經網絡核函數最為合適,該核函數的表達方式為 K ( xi, xj)=tanh(γ(xi· xj)+ r ),γ >0
(4)確定參數.由于土壤環(huán)境質量等級評價屬于非線性分類,故采用 C-支持向量分類(C-SVC)模型,該模型需設定懲罰參數 C,在對訓練樣本進行訓練時,log2c設定-10到10之間,然后執(zhí)行交叉驗證參數尋優(yōu)程序,選取最優(yōu)參數 best c,作為懲罰參數.內核參數log2g設定-10到10之間,然后執(zhí)行程序,選取最優(yōu)內核參數best g.經訓練,最優(yōu)懲罰參數best c=1024,最優(yōu)內核參數best g=128.
(5)建立模型.利用MATLAB編寫程序,將所得到的最優(yōu)懲罰參數和最優(yōu)內核參數帶入模型,訓練隨機學習樣本,建立土壤環(huán)境質量評價模型,將24組測試樣本帶入評價模型,得到土壤環(huán)境質量評價結果.
2.4.1 SVM與傳統(tǒng)方法評價結果對比分析 相比于其他傳統(tǒng)方法,模糊綜合評判法在模型中引入隸屬度和各個評價因子的權重,能較準確刻畫環(huán)境質量客觀存在的狀況[21-22],故采用 SVM 評價的同時,又引進了模糊綜合評判法對研究區(qū)土壤環(huán)境質量進行評價,將 SVM 評價結果與模糊綜合評判法結果相比較(表3).
表3 SVM與模糊綜合評判法結果對比Table 3 The comparison between SVM and fuzzy comprehensive evaluation
據表3分析可知,SVM與模糊綜合評判法的評價結果相同率達到91.67%,研究區(qū)土壤環(huán)境質量多為Ⅰ類,評價結果表明,研究區(qū)土壤環(huán)境質量與國家標準相比較好,與調查訪問結果一致,符合實際情況.
以該區(qū)土壤背景值為評價標準,運用單因子污染指數法、內梅羅綜合污染指數法這兩種傳統(tǒng)方法進行了土壤環(huán)境質量評價.單因子污染指數法結果表明,各采樣點Cr和Cd污染程度均為未-輕度污染;Cu、Zn、Pb的污染程度均屬輕度.5種重金屬元素污染程度由強至弱依次為:Pb>Zn>Cu>Cr>Cd.內梅羅綜合污染指數評價結果顯示,21%的土樣點處于警戒線水平(土壤綜合污染指數在0.7~1.0之間),而79%的土樣點受到重金屬的輕度污染(土壤綜合污染指數在1.0~2.0之間).
單因子污染指數只能反映各污染物對環(huán)境的污染程度,不能給出土壤環(huán)境質量級別,而內梅羅綜合污染指數法突出重金屬含量最大的污染物對環(huán)境質量的影響,模糊綜合評判法可以有效解決模糊邊界問題,然而這幾種方法并沒有反映評價因子與環(huán)境質量等級之間復雜的非線性映射關系,而支持向量機模型通過用內積函數所定義的非線性變換將輸入空間變換到一個高維空間,在高維空間中尋找輸出變量和輸入變量之間的非線性關系[4],具備非線性模式識別的能力,成功的解決了多分類、影響因素復雜、高維運算等問題.因此,本文運用支持向量機模型評價土壤環(huán)境質量可行,評價結果可靠.
2.4.2 相關性分析 具有相同(似)起源的重金屬元素,其含量往往具有顯著的相關性,因此研究土壤中各重金屬含量間的相關性可以粗略地推斷重金屬的來源是否相同[23-24].本文運用 SPSS中的Pearson相關分析方法研究土壤中不同重金屬元素間、土壤重金屬含量與土壤pH值間的相關關系,相關性分析結果如表4所示.
表4 土壤的各測試指標相關性分析結果Table 4 The correlation analysis results of the tested index
由表4可知,Cu與Zn、Zn與Pb在0.01水平(雙側)上顯著相關,Cu與Pb在0.05水平(雙側)上顯著相關,說明它們的來源極為相似,推測污染源為煤矸石.
2.4.3 運用對應分析方法對樣品和變量進行關聯分析 對應分析方法可以從因子載荷圖上對樣品進行分類,而且能夠揭示每個分區(qū)的主要影響變量及依據;也可以對變量進行分類,提取出潛在的公因子,并揭示每個因子的含義[25-26].本文應用對應分析方法,對羊草溝煤礦研究區(qū)24個土樣點的5個測試指標進行研究.
從圖 2可見,24個樣品點被分為 4個區(qū).Ⅰ區(qū):Q2、Q3、Q6;Ⅱ區(qū):Q9、Q10、Q11、Q13、Q14、Q16、Q19、Q20、Q22、Q24;Ⅲ區(qū):Q5、Q7、Q8、Q18、Q21;Ⅳ區(qū):Q1、Q4、Q12、Q15、Q17.與Ⅰ區(qū)樣品關系較為密切的重金屬是Zn,該區(qū)附近有煤矸石堆積,而 Zn是煤矸石中重金屬含量超背景值最多的元素,說明該區(qū)主要受到煤矸石堆的影響;與Ⅱ區(qū)樣品關系較為密切的重金屬是Pb和Cd;與Ⅲ區(qū)和Ⅳ區(qū)樣品關系較為密切 的重金屬分別是Cr和Cu.
圖2 對應分析因子載荷平面投影Fig.2 Loading plane projection map of correspondence analysis factor
3.1 支持向量機模型評價方法與模糊綜合評判法的結果相同率達到91.67%,并且評價結果與野外調查訪問相符,說明將支持向量機應用于土壤環(huán)境質量評價是可行的.相較于模糊綜合評價及其他傳統(tǒng)的土壤環(huán)境質量評價方法,支持向量機采用結構風險最小化原則,將復雜的非線性問題轉化為線性問題,成功的解決了多分類、高維運算等問題.
3.2 SVM 評價結果表明,研究區(qū)土壤環(huán)境質量多為Ⅰ類,說明研究區(qū)土壤環(huán)境質量與國家標準相比較好.單因子污染指數評價結果表明,由于該區(qū)土壤背景值較低,大部分土樣中重金屬含量超過了土壤背景值,說明該區(qū)土壤已經受到了部分重金屬的污染.
3.3 Pearson相關分析結果表明,Cu與 Zn、Zn與Pb在0.01水平上顯著相關,Cu與Pb在0.05水平上顯著相關,說明它們的來源極為相似,推測污染源為煤矸石.
3.4 對應分析結果表明,研究區(qū)土壤樣品可分為 4個區(qū).與Ⅰ區(qū)樣品關系較為密切的重金屬是Zn,該區(qū)主要受到煤矸石堆的影響;與Ⅱ區(qū)樣品關系較為密切的重金屬是Pb和Cd;與Ⅲ區(qū)和Ⅳ區(qū)樣品關系較為密切的重金屬分別是Cr和Cu.
[1]蔣麗婷.河北省唐山市豐潤區(qū)土壤中重金屬分布及土壤質量評價 [D]. 北京:中國地質人學, 2006.
[2]余 濤.湖南洞庭湖地區(qū)土地質量地球化學評估 [D]. 北京:中國地質大學, 2006.
[3]楊忠平,盧文喜,龍玉橋.改進BP算法在城市土壤環(huán)境質量評價模型的應用 [J]. 重慶大學學報(自然科學版), 2010,32(2):99-103.
[4]于國強,張茂省,王根龍,等.支持向量機和BP神經網絡在泥石流平均流速預測模型中的比較與應用 [J]. 水利學報, 2012,S2:105-110.
[5]梁宏霞.支持向量機模型研究及應用 [D]. 沈陽:遼寧師范大學,2009.
[6]Yoon H, Jun S C, Hyun Y, et al. A comparative study of artificial neural networks and support vector machines for predicting groundwater levels in a coastal aquifer [J]. Journal of Hydrology,2011,396(1):128-138.
[7]周建國,張希剛.基于粗糙集與灰色SVM的中國CO2排放量預測 [J]. 中國環(huán)境科學, 2013,33(12):2157-2163.
[8]李祚泳,張正健.基于回歸支持向量機的指標規(guī)范值的水質評價模型 [J]. 中國環(huán)境科學, 2013,33(8):1502-1508.
[9]梁雪春,龔艷冰,肖 迪.一種多核加權支持向量機的水質預測方法 [J]. 東南大學學報:自然科學版, 2011,41(B9):14-17.
[10]Vapnik V N. The nature of statistical learning theory [M]. Berlin:Springer-Verlag, 1995.
[11]陳其松.智能優(yōu)化支持向量機預測算法及應用研究 [D]. 貴陽:貴州大學, 2009.
[12]Sun A, Lim E P, Liu Y. On strategies for imbalanced text classification using SVM: A comparative study [J]. Decision Support Systems, 2009,48(1):191-201.
[13]武國正.支持向量機在湖泊富營養(yǎng)化評價及水質預測中的應用研究 [D]. 呼和浩特:內蒙古農業(yè)大學, 2008.
[14]Wu K P, Wang S D. Choosing the kernel parameters for support vector machines by the inter-cluster distance in the feature space[J]. Pattern Recognition, 2009,42(5):710-717.
[15]Leng B, Qin Z, Li L. Support Vector Machine active learning for 3D model retrieval [J]. Journal of Zhejiang University Science A,2007,8(12):1953-1961.
[16]Harris T. Quantitative credit risk assessment using support vector machines: Broad versus Narrow default definitions [J]. Expert Systems with Applications, 2013,40(11):4404-4413.
[17]Baly R, Hajj H. Wafer Classification Using Support Vector Machines [J]. Semiconductor Manufacturing, IEEE Transactions on, 2012,25(3):373-383.
[18]HJ/T 166-2004 土壤環(huán)境監(jiān)測技術規(guī)范 [S].
[19]劉紅艷,周 燕,王鐵夫,等.ICP-MS法測土壤樣品中銅鉛的不確定度評定 [J]. 光譜學與光譜分析, 2011,31(4):1115-1118.
[20]GB/T 15618-1995 土壤環(huán)境質量標準 [S].
[21]Li W X, Zhang X X, Wu B, et al. A comparative analysis of environmental quality assessment methods for heavy metal-contaminated soils [J]. Pedosphere, 2008,18(3):344-352.
[22]梁 偉,張慧穎,朱孔來.基于模糊數學和灰色理論的城市生態(tài)環(huán)境競爭力評價 [J]. 中國環(huán)境科學, 2013,33(5):945-951.
[23]姚 峰,包安明,古麗·加帕爾,等.新疆準東煤田土壤重金屬來源與污染評價 [J]. 中國環(huán)境科學, 2013,33(10):1821-1828.
[24]魏 偉,王 麗,周 平,等.安徽銅陵地區(qū)河流生態(tài)系統(tǒng)健康的多指標評價 [J]. 中國環(huán)境科學, 2013,33(4):691-699.
[25]Benzecri J P. Statistical analysis as a tool to make patterns emerge from data [M]. New York:Academic Press, 1969:35-74.
[26]Edet A E, Merkel B J, Offiong O E. Trace element hydrochemical assessment of the Calabar Coastal Plain Aquifer, southeastern Nigeria using statistical methods [J]. Environmental Geology,2003,44(2):137-149.
Application of support vector machine in soil environmental quality assessment.
JIANG Xue1, LU Wen-xi1*, YANG Qing-chun1, ZHAO Hai-qing2(1.Key Laboratory of Groundwater Resources and Environment, Ministry of Education,College of Environment and Resources, Jilin University, Changchun 130021, China;2.Shenyang Institute of Geology and Mineral Resources, Shenyang 110032, China). China Environmental Science, 2014,34(5):1229~1235
This paper presented a study on the soil environment quality analysis with support vector machine method(SVM)at the Yang-cao-gou coal mine area (Jilin province, China). Incorporating field investigation and laboratory analysis, copper and lead in soil samples were measured by using inductively coupled plasma mass spectrometry(ICP-MS), the pollution characteristics of five soil heavy metals, Cd、Cr、Zn、Pb and Cu were analyzed. The nonlinear SVM classification model was employed to evaluate soil environmental quality by sigmoid kernel function programmed with MATLAB codes, and the validation process for the evaluation results was performed with fuzzy comprehensive evaluation method. Meanwhile corresponding analysis was applied to investigate the main pollution factor in each soil partition of the study area, considering the variable load size and the relationship between variables and sampling point partition. The results showed that soil environmental quality ranked almost in theⅠclass in the study area, SVM method obtained almost the same results compared with fuzzy comprehensive evaluation method with a similarity rate of 91.67%,demonstrating that the method (SVM)method is appropriate for soil environmental quality assessment. Compared with conventional assessment methods, SVM adopted the structural risk minimization principle, which resolved the problem of multi-classification, high dimensional algorithm through nonlinear to linear transfer.
support vector machine (SVM);soil environmental quality assessment;heavy metals;Yang-cao-gou coal mine area
X825
A
1000-6923(2014)05-1229-07
2013-09-23
中國地調局項目(1212011140027,12120114027401)
* 責任作者, 教授, luwenxi@jlu.edu.cn
姜 雪(1989-),女,吉林德惠人,吉林大學博士研究生,主要從事礦山環(huán)境地質、生態(tài)水文、地下水數值模擬與優(yōu)化管理等方面的研究.發(fā)表論文3篇.