駱術(shù)斌,徐 蕾
(吉林省水文水資源局,吉林 長(zhǎng)春 130022)
吉林省西部地區(qū)位于松嫩平原的西南部,東、南、西三面高,北部和中部較低,地形似簸箕狀。該區(qū)地域遼闊,土地面積為46 600 km2,行政區(qū)劃轄洮北區(qū)、寧江區(qū)、洮南市、大安市、通榆縣、鎮(zhèn)賚縣、扶余縣、前郭縣、乾安縣和長(zhǎng)嶺縣。覆蓋的水文地質(zhì)單元有中部高平原的一部分、低平原和洮兒河沖積扇。中部高平原為氣候半濕潤(rùn)地區(qū),隨著地下水徑流的變?nèi)?,含水層水交替作用也相?duì)滯緩,水化學(xué)蒸發(fā)濃縮作用逐漸增強(qiáng)。松拉河間地塊承壓水小區(qū)局部分布有重碳酸氯化物型水;低平原為氣候干旱、半干旱地區(qū),區(qū)內(nèi)有起伏不平的洼地,泡塘星羅棋布。潛水位埋藏淺,地下水滯流、閉流,地下水蒸發(fā)濃縮作用強(qiáng)烈。地下水化學(xué)類型由礦化度小于1.5 g/L的重碳酸型淡水,到霍林河、大布蘇泡、查干湖一帶我省地勢(shì)最低洼處的重碳酸氯化物型水,礦化度為1~3 g/L,屬微咸水;白城沖洪積扇形地位于干旱、半干旱氣候區(qū)。含水層以砂礫石、礫卵石為主,透水性好,含水較豐富。水質(zhì)較好,為礦化度小于0.5 g/L的重碳酸型淡水。扇形地的后緣及軸部,水交替能力極強(qiáng),水循環(huán)條件好,水化學(xué)類型為重碳酸鈣型淡水;扇形地前緣溢出帶受蒸發(fā)濃縮作用影響,可溶鹽含量升高,地下水化學(xué)類型以重碳酸鈣鈉型水為主。
支持向量機(jī)(SVM)則是建立在統(tǒng)計(jì)學(xué)理論的VC維理論和結(jié)構(gòu)風(fēng)險(xiǎn)最小原理理論基礎(chǔ)之上的算法。它能盡量提高學(xué)習(xí)機(jī)的泛化能力,即使是由有限訓(xùn)練樣本,在求解問(wèn)題時(shí)仍能得到較為滿意的解;它解決了在神經(jīng)網(wǎng)絡(luò)方法中無(wú)法避免的局部極值問(wèn)題,有效避免“過(guò)擬合”,泛化能力強(qiáng),在解決小樣本、非線性及高維模式識(shí)別問(wèn)題中表現(xiàn)出許多特有的優(yōu)勢(shì),使它成為一種優(yōu)秀的學(xué)習(xí)算法。
支持向量機(jī)進(jìn)行分類計(jì)算的原理是尋找一個(gè)滿足分類要求的最優(yōu)分類超平面,使得超平面在保證分類精度的同時(shí),能夠使超平面兩側(cè)的空白區(qū)域最大化。
SVM是從線性可分情況下的最優(yōu)分類面發(fā)展而來(lái)的,基本思想可用圖1的兩維情況說(shuō)明而具體的數(shù)學(xué)描述如下:
如圖1所示,設(shè)線性可分的樣本集有n個(gè)樣本(xi,yi),其中i=1,2,…,n,x∈Rd,y,x∈{-1,1}是類別符號(hào)。在高維空間中,將兩類樣本無(wú)錯(cuò)分開(kāi)的分類超平面H滿足:g(x)=ω·x-b=0,進(jìn)行歸一化,可以使所有樣本滿足|g(x)≥1|,所有樣本被無(wú)錯(cuò)誤分開(kāi)時(shí)應(yīng)滿足:
式中:ω——可調(diào)權(quán)向量;b——閾值。
此時(shí),H1和H2之上的點(diǎn)距分類線H的距離為,分類間隔為,要使分類間隔最大相當(dāng)于使‖ω‖2最小,這樣求解最優(yōu)超平面的問(wèn)題就可以表示成如下的約束優(yōu)化問(wèn)題
圖1 最優(yōu)分類線示意圖
滿足上述條件的分類面就叫最優(yōu)分類面,H1和H2之上的點(diǎn)共同支持了最優(yōu)分類面,就稱為支持向量,這也是支持向量機(jī)名字的由來(lái)。
利用了最小二乘支持向量機(jī)分類算法,即分類函數(shù)用最小二乘算法解出,因此稱為最小二乘支持向量機(jī)分類算法。
支持向量機(jī)只是一個(gè)二類分類算法,即它只能把數(shù)據(jù)分成兩類。而我們所進(jìn)行的地下水環(huán)境質(zhì)量評(píng)價(jià)的標(biāo)準(zhǔn)為五級(jí),因此必須要對(duì)標(biāo)準(zhǔn)的SVM算法進(jìn)行改進(jìn),來(lái)滿足多級(jí)別分類的要求。利用多層次的分類器來(lái)解決支持向量機(jī)的多級(jí)別分類問(wèn)題。
該分類器主要由5個(gè)SVM標(biāo)準(zhǔn)分類器串聯(lián),每個(gè)SVM標(biāo)準(zhǔn)分類器用來(lái)辨別地下水環(huán)境質(zhì)量所屬等級(jí)。在對(duì)數(shù)據(jù)進(jìn)行訓(xùn)練時(shí),將訓(xùn)練樣本集中水質(zhì)等級(jí)為Ⅰ的作為一類,其類別標(biāo)識(shí)為1,其余的為另一類,類別標(biāo)識(shí)為-1,訓(xùn)練分類器1。之后,選取訓(xùn)練樣本集中水質(zhì)等級(jí)Ⅱ作為一類,將其類別標(biāo)識(shí)為1,并將該類以外的其余樣本為另一類,標(biāo)識(shí)為-1,訓(xùn)練分類器2。按此方法,依次訓(xùn)練分類器3,4,5。在進(jìn)行地下水環(huán)境質(zhì)量評(píng)價(jià)時(shí),將水質(zhì)樣本輸入分類器1,若輸出為1,則評(píng)價(jià)測(cè)試結(jié)束,表明該地區(qū)的地下水水質(zhì)等級(jí)為Ⅰ級(jí),否則該指標(biāo)屬性值樣本將被自動(dòng)輸入到分類器2進(jìn)行判別。若決策函數(shù)輸出仍不為1,則該指標(biāo)屬性值樣本將依次自動(dòng)輸入到下一級(jí)分類器,繼續(xù)進(jìn)行識(shí)別分類,直到?jīng)Q策函數(shù)輸出為1,分類結(jié)束。這樣,基于多層次分類器的支持向量機(jī)算法就可以進(jìn)行多級(jí)別的分類計(jì)算。
在研究區(qū)選出90個(gè)采樣點(diǎn)中9個(gè)水質(zhì)指標(biāo):pH 值、總硬度、Cl-,SO42-、溶解性總固體、TFe、NO3-,NO2-,F(xiàn)-。地下水質(zhì)量分類指標(biāo)及標(biāo)準(zhǔn)依據(jù)國(guó)家技術(shù)監(jiān)督局批準(zhǔn)的(GB/T14848-93)《地下水質(zhì)量標(biāo)準(zhǔn)》。評(píng)價(jià)標(biāo)準(zhǔn)以及測(cè)試數(shù)據(jù)表1。
表1 地下水水質(zhì)評(píng)價(jià)分級(jí)標(biāo)準(zhǔn)表
由于支持向量機(jī)只接受-1~1之間的數(shù)值計(jì)算,因此首先將所有的等級(jí)標(biāo)準(zhǔn)值進(jìn)行歸一化處理,將換算到0~1之間。應(yīng)用以下公式對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理:
xij=(xij-xjmin)/(xjmax-xjmin)
最后將評(píng)價(jià)分級(jí)指標(biāo)作為訓(xùn)練樣本,具體的測(cè)試結(jié)果作為分類樣本,進(jìn)行了支持向量機(jī)的分類計(jì)算。
計(jì)算采用了交叉驗(yàn)證比較方法來(lái)選擇參數(shù)C和 σ2。首先確定懲罰因子參數(shù)集 Sc={c1,c2,…,cn}和核參數(shù)集 Sσ2={σ21,σ22,…,σ2n}。然后從參數(shù)集中選擇參數(shù)進(jìn)行組合,對(duì)最小二乘支持向量機(jī)進(jìn)行訓(xùn)練,選出最佳的參數(shù)組合作為支持向量機(jī)模型的最終參數(shù)。
最終經(jīng)過(guò)多次模型訓(xùn)練,當(dāng)C=500,σ21=σ22=0.1時(shí),參數(shù)為最佳組合,模型可以用來(lái)進(jìn)行分類計(jì)算。
將具體的水質(zhì)樣本數(shù)據(jù)帶入到訓(xùn)練好的模型中,可以得到利用支持向量機(jī)進(jìn)行水質(zhì)分類的結(jié)果。同時(shí),利用模糊綜合評(píng)判和神經(jīng)網(wǎng)絡(luò)兩種方法的評(píng)價(jià)結(jié)果進(jìn)行了對(duì)比分析。
結(jié)果表明3種綜合評(píng)價(jià)模型的計(jì)算結(jié)果基本一致,在計(jì)算過(guò)程中,支持向量機(jī)算法的計(jì)算步驟、訓(xùn)練速度以及計(jì)算效率明顯高于神經(jīng)網(wǎng)絡(luò)算法。
1)支持向量機(jī)算法是在統(tǒng)計(jì)學(xué)習(xí)理論的基礎(chǔ)上提出的一種先進(jìn)的算法,其本身具有的在統(tǒng)計(jì)樣本量較少的情況下獲得良好的統(tǒng)計(jì)規(guī)律和更好的泛化能力,非常適合綜合評(píng)價(jià)計(jì)算。而且經(jīng)過(guò)實(shí)證的研究,可以看出該方法的綜合評(píng)價(jià)結(jié)果正確,但計(jì)算難度不大。因此,改進(jìn)支持向量機(jī)算法在水資源研究的綜合評(píng)價(jià)計(jì)算中具有很好的發(fā)展和應(yīng)用前景。
2)根據(jù)1982年、2002年和本次的評(píng)價(jià)結(jié)果顯示,研究區(qū)有兩個(gè)水文地質(zhì)化學(xué)異常區(qū):氟異常區(qū)、鐵異常區(qū)。氟異常區(qū)分布于松嫩低平原的鎮(zhèn)賚、通榆、長(zhǎng)嶺、乾安等縣的部分地區(qū),特別是大布蘇泡等地淺層地下水中的氟含量超標(biāo),氟含量普遍超過(guò)1 mg/L,局部地區(qū)超過(guò)4 mg/L。鐵異常區(qū)位于松原市前郭、寧江、扶余的部分地區(qū)是鐵離子富集區(qū),鐵離子含量超過(guò)0.3 mg/L,局部地區(qū)鐵離子含量超過(guò)3.5 mg/L。地下水中總Fe超標(biāo),可能是由于天然狀態(tài)下巖石中鐵離子含量較高造成的。
3)通過(guò)對(duì)系列年水質(zhì)資料的分析,礦化度、總硬度和氨氮的動(dòng)態(tài)增幅較為明顯,而pH值的變化不大。地下水環(huán)境污染主要來(lái)自局部地區(qū)的點(diǎn)源和面源污染物的排泄。點(diǎn)源污染指來(lái)自生活污水和工業(yè)廢水的排放,非點(diǎn)源污染主要指由于暴雨徑流沖刷的地面污染物和灌溉排水等進(jìn)入地表水,進(jìn)而造成對(duì)地下水水質(zhì)污染。
[1]Chi-Wei HSU,Chih-Jen LIN.A comparison of methods for multiclass support vector machine[J].IEEE Transacatutions On Neural Networks.2002,13(2):415-425.
[2]Kaibo Duan,S.Sathiya Keerthi,Aun Neow Poo.Evaluation of simple performance measures for tuning SVM hyperparameters[J].Neurocomputing.2003,51:41-59.
[3]Md.Mahmudur Rahman,Bipin C.Desai,Prabir Bhattacharya.Medical image retrieval with probabilistic multiclass support vector machine classifiers and adaptive similarity fusion[J].Computerized Medical Imaging and Graphics.2008,32(2):95-108.
[4]王凱軍,曹劍峰,李升.多層次分類支持向量機(jī)在水質(zhì)評(píng)價(jià)中的應(yīng)用[J].水資源保護(hù).2009,37(9):1092-1096.
[5]賴永標(biāo),喬春生,劉開(kāi)云等.支持向量機(jī)在圍巖穩(wěn)定性分類中的應(yīng)用[J].水利學(xué)報(bào).2006,37(9):1092-1096.
[6]王煒,趙利飛,吳耿鋒等.地下水觀測(cè)數(shù)據(jù)擬合與預(yù)測(cè)的支持向量機(jī)方法[J].地震.2007,27(1):9-15.
[7]武晟,解建倉(cāng),汪志榮等.基于支持向量機(jī)的綠地徑流系數(shù)預(yù)測(cè)模型的建立[J].沈陽(yáng)農(nóng)業(yè)大學(xué)學(xué)報(bào).2007,38(1):102-105.
[8]盧敏,張展羽,馮寶平等.基于支持向量機(jī)的區(qū)域水安全預(yù)警模型及應(yīng)用[J].計(jì)算機(jī)工程.2006,32(5):44-46.
[9]徐紅敏,楊天行.基于支持向量機(jī)分類算法的湖泊水質(zhì)評(píng)價(jià)研究[J].吉林大學(xué)學(xué)報(bào),2006,36(4):570-573.
[10]徐勁力.支持向量機(jī)在水質(zhì)評(píng)價(jià)中的應(yīng)用[J].中國(guó)農(nóng)村水利水電,2007,3:7-9.