王小軍
(河西學(xué)院機電工程系,甘肅 張掖 734000)
基于PSO優(yōu)選參數(shù)的SVR水質(zhì)參數(shù)遙感反演模型
王小軍
(河西學(xué)院機電工程系,甘肅 張掖 734000)
為進一步提高多光譜圖像水質(zhì)反演的精度,提出了一種基于PSO優(yōu)選參數(shù)的SVR水質(zhì)參數(shù)遙感反演模型。該模型利用高分辨率多光譜遙感SPOT-5數(shù)據(jù)和水質(zhì)實地監(jiān)測數(shù)據(jù),采用CV估計模型推廣誤差,并使用PSO優(yōu)選SVR模型參數(shù),實現(xiàn)了模型參數(shù)的自動全局優(yōu)選,在訓(xùn)練好的SVR模型基礎(chǔ)之上對水質(zhì)進行反演。以渭河陜西段為例進行實證研究,實驗結(jié)果表明,所提出的水質(zhì)反演模型較常規(guī)的線性回歸模型有更高的反演精度,為內(nèi)陸河流環(huán)境遙感監(jiān)測提供了一種新方法。
高分辨遙感影像;粒子群優(yōu)化算法;支持向量回歸;參數(shù)優(yōu)選;水質(zhì)反演
當(dāng)今世界,水資源不足和污染構(gòu)成的水資源危機已成為一個國家經(jīng)濟和社會發(fā)展的主要制約因素。近年來我國的水資源狀況特別是水污染情況已越來越嚴(yán)重,水質(zhì)檢測是保證水安全的重要措施。常規(guī)的水質(zhì)監(jiān)測方法是人工取樣進行實時實地監(jiān)測,這種方法只能了解監(jiān)測斷面上的表面水質(zhì)狀況,但對于整個水體而言,這些測點數(shù)據(jù)只具有局部和典型的代表意義[1]。目前國內(nèi)主要針對長江[2-3]、珠江[4]、湘江[5]、漢江[6]、太湖[7-8]、千島湖[9]等較大面積水域進行水環(huán)境遙感監(jiān)測的研究,而針對內(nèi)陸河流采用SPOT數(shù)據(jù)進行定量遙感反演的研究目前還很少。因此,建立適當(dāng)?shù)哪P瓦M行連續(xù)、大范圍的水質(zhì)監(jiān)測,對于內(nèi)陸河流的遙感水質(zhì)定量監(jiān)測有著重要的現(xiàn)實意義。
遙感反演水質(zhì)是一個非線性的過程,影響因素較多,利用線性回歸來估計反演結(jié)果不精確。該文采用CV估計模型推廣誤差,并使用粒子群優(yōu)化算法(PSO)優(yōu)選支持向量機(SVR)模型參數(shù),將基于參數(shù)優(yōu)選的SVR回歸模型用于渭河陜西段水域部分水質(zhì)變量的遙感水質(zhì)反演。構(gòu)建基于SVR的各水質(zhì)變量多元反演模型,并將結(jié)果與傳統(tǒng)統(tǒng)計多元回歸得到的結(jié)果比較分析,最后將構(gòu)建好的SVR模型用于咸陽至耿鎮(zhèn)段整體水域反演,通過該段水域?qū)崪y數(shù)據(jù)與陜西環(huán)境質(zhì)量公報數(shù)據(jù)分析評價模型優(yōu)劣。
目前已有的相關(guān)性分析有多種方法,如積差相關(guān)、等級相關(guān)等。該文所采用的相關(guān)性分析方法為積差相關(guān),是英國統(tǒng)計學(xué)家皮爾遜于20世紀(jì)提出的一種計算兩變量之間線性相關(guān)的方法,因而又稱為皮爾遜相關(guān),也是目前較為常用的一種相關(guān)性分析方法。對13個水質(zhì)監(jiān)測點的4種水質(zhì)變量實測數(shù)據(jù)與10幅SPOT-5遙感影像上對應(yīng)時間和地點的遙感數(shù)據(jù)進行相關(guān)性分析。
通過表1結(jié)果分析,可見光波段的Band2、Band3以及近紅外波段Band1與水質(zhì)參數(shù)間的相關(guān)性較好,短波紅外波段Band4與整體水質(zhì)參數(shù)的相關(guān)性較差。就水質(zhì)參數(shù)而言,CODmn和COD與Band1、Band2、Band3的相關(guān)性比較好,具有明顯的光學(xué)特征,而DO與Band4,NH3-N與Band1、Band2也存在一定的相關(guān)性。
表1 采用大氣校正遙感數(shù)據(jù)與水質(zhì)變量的相關(guān)性
SVR核函數(shù)的定義為:設(shè)x是Rn的一個子集,稱定義在 x·x 上的函數(shù) K(x,x′)是核函數(shù),如果存在著從x到某個Hilbert空間H的映射Φ,使K(x,x′)=Φ(x)gΦ(x′),其中 g表示 H 中的內(nèi)積。核函數(shù)的選擇是SVR模型選擇的重要內(nèi)容。目前常用的核函數(shù)主要有多項式核函數(shù)、徑向基核函數(shù)、多層感知器核函數(shù)3類。在SVR回歸過程中,擇徑向基函數(shù)作為核函數(shù),所以需要確定的參數(shù)除了懲罰系數(shù)C、核參數(shù)σ2之外,還有不敏感損失函數(shù)的寬度ε。
對于SVR的參數(shù)優(yōu)選可以把它看作兩個步驟,第一是選擇一種評價方法評價SVR的精度優(yōu)劣,第二是選擇一種參數(shù)選擇方法并根據(jù)第一部的評價結(jié)果對參數(shù)進行優(yōu)選。
第一步針對SVR的結(jié)果評價方法有很多,目前常采用的方法有計算預(yù)測結(jié)果的平均絕對偏差(MAD)和計算預(yù)測結(jié)果的均方誤差(MSE),其計算公式如式(1)和式(2):
考慮到誤差結(jié)果的無偏性及SVR模型的推廣性,在樣本數(shù)目較少時,常采用CV方法來估算推廣誤差,以此判斷SVR反演精度的優(yōu)劣。
第二步需要調(diào)整(C,σ2,ε)3 個參數(shù),目前對于SVR參數(shù)的優(yōu)選可以采用的有效方法很少,一些研究人員根據(jù)具體的試驗數(shù)據(jù),提出可以通過梯度下降法、牛頓法等方法對參數(shù)進行選擇[10]。隨著人工智能的發(fā)展,針對此類優(yōu)選問題提出了新的方法,如粒子群算法等,此類算法能夠在復(fù)雜的搜索空間中快速尋求全局最優(yōu)解,目前已在優(yōu)化、機器學(xué)習(xí)和并行處理等領(lǐng)域得到越來越廣泛的應(yīng)用。因此該文在SVR的參數(shù)優(yōu)選上使用了PSO進行優(yōu)選。
PSO是由Kenney等[11]于1995年提出的一種全局優(yōu)化進化算法,其基本思想源于對鳥類捕食行為的模擬。PSO求解優(yōu)化問題時,將每個問題的解看做搜索空間中的一只鳥,稱之為粒子。所有的粒子都有一個由待優(yōu)化函數(shù)決定的適應(yīng)度值,每個粒子還有一個速度決定其飛翔的方向和距離,然后粒子們就追隨當(dāng)前的最優(yōu)粒子在解空間中搜索。PSO初始化一群隨機粒子(隨機解),然后通過迭代尋找最優(yōu)解。在每一次迭代中,粒子通過跟蹤兩個極值來更新自己:第一個極值是粒子本身所找到的最優(yōu)解,這個解稱為個體極值Pbest;另一個極值是整個種群目前找到的最優(yōu)解,這個極值是全局極值Gbest。
3.2.1 PSO的數(shù)學(xué)描述
PSO的數(shù)學(xué)描述為:設(shè)在一個D維搜索空間中,有m個粒子組成一個群體。其中第i個粒子的位置表示為向量 Xi=(xi1,xi2,…,xiD),i=1,2,…,m。將 xi帶入目標(biāo)函數(shù)可算出其適應(yīng)度值,根據(jù)適應(yīng)度值的大小就可以評價出該粒子的優(yōu)劣。第i個粒子的飛行速度表示為向量 Vi=(νi1,νi2,…,νiD),其搜索到的最優(yōu)位置為 pi=(pi1,pi2,…,piD),整個粒子群搜索到的最優(yōu)位置為 pg=(pg1,pg2,…,pgD)。找到這兩個最優(yōu)值時,每個粒子根據(jù)式(3)和式(4)來更新自己的速度和新位置:
W——慣性權(quán)重函數(shù),用來控制前面速度對當(dāng)前速度的影響;
c1和c2——加速因子,都是非負常數(shù);
r1和r2——[0,1]的隨機數(shù)。
3.2.2 各參數(shù)搜索區(qū)間
懲罰系數(shù)C用于控制模型復(fù)雜度和逼近精度的折中,C過大,對訓(xùn)練樣本數(shù)據(jù)的擬合程度越高,但泛化能力將降低;C過小,模型達不到很好的逼近精度。因此采取如下方法確定C的搜索區(qū)間(0,C1),取C1=max(ai)。Keerthi等[12]的研究表明,對于某一確定的足夠大的C,當(dāng)σ2→0時會發(fā)生嚴(yán)重的“過學(xué)習(xí)”現(xiàn)象,此時徑向基函數(shù)SVR能對訓(xùn)練樣本較好地擬合,但對測試樣本的泛化能力變得極差;當(dāng)σ2→∞時會發(fā)生嚴(yán)重的“欠學(xué)習(xí)”現(xiàn)象。實驗取σ2的搜索區(qū)間為:[min(‖xi-xj‖2×10-2),max(‖xi-xj‖2×102)]。在ε不敏感損失函數(shù)中,ε的大小表示置信區(qū)間的寬度,它反映了函數(shù)擬合的精度,起到了調(diào)和模型復(fù)雜度和逼近精度的作用。由于ε一般為一個非常小的正值,因此該文將ε的搜索區(qū)間設(shè)定為[0.000 1,0.15]。
3.2.3 PSO適應(yīng)度函數(shù)
適應(yīng)度函數(shù)的好壞是衡量進化算法優(yōu)劣的關(guān)鍵之一。在PSO-SVM算法中,每一個粒子代表SVM的一組參數(shù),粒子所對應(yīng)的適應(yīng)度是該組參數(shù)下算法的性能。選取計算預(yù)測結(jié)果的均方誤差(MSE)作為適應(yīng)度函數(shù),其形式如式(5):
SVR回歸模型在測試樣本集上的MSE值越小,則對應(yīng)適應(yīng)度值越大。
PSO-SVM算法如下:
(1)初始化粒子群(C,σ2,ε),設(shè)置粒子數(shù)、循環(huán)次數(shù)、W、C1和C2等。隨機生成各粒子的初始速度,將每個粒子的Pbest設(shè)置為當(dāng)前位置,將Gbest設(shè)置為群體中最好粒子的當(dāng)前位置。
(2)用訓(xùn)練集訓(xùn)練SVR,用式(5)的適應(yīng)度函數(shù)計算每一個粒子的適應(yīng)度值 F(C,σ2,ε),根據(jù)粒子的適應(yīng)度值更新Pi和Pg。若某粒子當(dāng)前適應(yīng)度優(yōu)于Pbest,則Pbest被當(dāng)前位置替換;若所有粒子的當(dāng)前最優(yōu)適應(yīng)值優(yōu)于Gbest,則Gbest被當(dāng)前最優(yōu)位置替換。
(3)按式(3)和式(4)對粒子的速度和位置進行優(yōu)化。
(4)如未達到算法結(jié)束條件,則返回(1);否則輸出最優(yōu)解,算法結(jié)束。
算法的終止條件是達到最大迭代次數(shù)Gmax或最優(yōu)解在一定迭代次數(shù)內(nèi)停滯不再變化。
該文采用的樣本數(shù)據(jù)共有13組,按照k-折交叉驗證的思想選擇k=4,即將13組數(shù)據(jù)分成4組,考慮到數(shù)據(jù)的大小不一致性,為了使每一組測試樣本和訓(xùn)練樣本的數(shù)據(jù)分布較為均勻,在k-折交叉驗證的4個分組上保證樣本獨立性的基礎(chǔ)上(即保證4個分組中的數(shù)據(jù)相互獨立),盡量使每一組訓(xùn)練樣本中的數(shù)據(jù)都能夠包含較大、中等及較小的數(shù)據(jù),而測試樣本也符合這種分布。每次選擇其中的1組作為測試樣本,選擇剩下的3組作為訓(xùn)練樣本。
以水質(zhì)實測數(shù)據(jù)和預(yù)處理后的遙感數(shù)據(jù)為樣本數(shù)據(jù),使用徑向基函數(shù)為核函數(shù)的SVR進行4類水質(zhì)變量的反演,并使用PSO優(yōu)選SVR模型參數(shù),構(gòu)建水質(zhì)變量多元反演模型。構(gòu)建的各水質(zhì)變量多元反演模型精度結(jié)果如表2所示。
表2 各水質(zhì)變量反演結(jié)果
由于對同一種水質(zhì)變量來說,當(dāng)選擇的樣本劃分不同(即訓(xùn)練樣本不同)時反演模型的精度是不同的,同時使用PSO對回歸模型優(yōu)選得到的模型參數(shù)也是不同的;而針對不同的水質(zhì)變量,回歸模型優(yōu)選得到的參數(shù)也不相同。表2采用MAD和可決相關(guān)系數(shù)R2來評價反演結(jié)果,給出了4種水質(zhì)參數(shù)所對應(yīng)的SVR的(C,σ2,ε)。從整體上來說在各水質(zhì)變量預(yù)測結(jié)果的評價上均能達到較好的反演精度。
根據(jù)以上的方法和實驗結(jié)果分析,將基于反演模型應(yīng)用于渭河陜西段水域的河流水質(zhì)監(jiān)測。通過對渭河陜西段水域咸陽至耿鎮(zhèn)段水域PSO優(yōu)選參數(shù)的SVR構(gòu)建的各水質(zhì)變量多元進行水質(zhì)變量反演,得到該段水域的水質(zhì)變量情況,進而可以根據(jù)國標(biāo)等級分析該流域水質(zhì)等級情況等信息。圖1將以CODmn為例使用PSO優(yōu)選參數(shù)后的SVR模型對咸陽至耿鎮(zhèn)段水域進行整體反演,并將反演后的結(jié)果根據(jù)CODmn濃度情況進行不同顏色的劃分。
從圖1可以看出,耿鎮(zhèn)區(qū)域的水域顏色主要為紅色,表明該水域CODmn濃度在3.5~4mg/L之間,濃度大小接近耿鎮(zhèn)監(jiān)測點實測數(shù)據(jù);而咸陽區(qū)域顏色主要為綠色,表明該水域CODmn濃度在4~6mg/L之間,濃度大小接近咸陽監(jiān)測點實測數(shù)據(jù)。此外,從圖1中還可以看出,在咸陽與耿鎮(zhèn)之間,特別是渭河咸陽段存在部分水域顏色為藍色,表明該水域的CODmn濃度在6~10mg/L之間,這與該地區(qū)工廠較多且工業(yè)廢水排放較多有關(guān)。
圖1 SVR模型對CODmn反演結(jié)果
水質(zhì)反演是一個不確定性問題,反演的結(jié)果在多大程度上是可靠的一直是水質(zhì)反演的研究難點。該文使用基于PSO優(yōu)選的SVR水質(zhì)參數(shù)遙感反演模型方法能夠在較高的精度上對渭河陜西段流域水質(zhì)變量進行反演,較常用的統(tǒng)計回歸方法具有明顯的優(yōu)勢。該方法為渭河陜西段水環(huán)境監(jiān)測提供了一種新的方法,同時也為內(nèi)陸河流水環(huán)境監(jiān)測提供了借鑒。實驗中的樣本數(shù)量還偏少,為了使反演的推廣性進一步提高,反演中應(yīng)盡量增加采樣點的個數(shù),以區(qū)分不同的季節(jié),做更多的時空分析及驗證。同時該文僅對4種水質(zhì)參數(shù)進行反演研究,應(yīng)該進一步研究其他水質(zhì)參數(shù)的反演。
[1]徐涵秋.環(huán)廈門海域水色變化的多光譜多時相遙感分析[J].環(huán)境科學(xué)學(xué)報,2006,26(7):1209-1217.
[2]陸家駒.長江南京江段水質(zhì)遙感分析[J].國土資源遙感,2002,16(3):33-36.
[3]童小華,謝 歡,仇雁翎,等.黃浦江上游水域的多光譜遙感水質(zhì)監(jiān)測與反演模型[J].武漢大學(xué)學(xué)報:信息科學(xué)版,2006,31(10):851-854.
[4]馬躍良,王云鵬,賈桂梅.珠江廣州河段水體污染的遙感監(jiān)測應(yīng)用研究[J].重慶環(huán)境科學(xué),2003,25(3):13-16.
[5]張 華,曾光明,李忠武,等.內(nèi)陸水環(huán)境污染監(jiān)測的多時相遙感信息模型[J].中國環(huán)境監(jiān)測,2005,21(5):63-68.
[6]鄭明福,張 力,楊 坤.基于遙感技術(shù)的漢江中下游河道變遷研究[J].人民長江,2007,38(10):52-53.
[7]佘豐寧,李旭文,蔡啟銘,等.水體葉綠素含量的遙感定量模型[J].湖泊科學(xué),1996,8(3):201-207.
[8]王學(xué)軍,馬 廷.應(yīng)用遙感技術(shù)監(jiān)測和評價太湖水質(zhì)狀況[J].環(huán)境科學(xué),2000(21):65-68.
[9]劉 英.千島湖水體水質(zhì)參數(shù)遙感及其估測模型研究[D].杭州:浙江大學(xué),2003.
[10]劉靖旭.支持向量回歸的模型選擇及應(yīng)用研究[D].北京:國防科學(xué)技術(shù)大學(xué),2006.
[11]Kennedy J,Eberhart R.Particle swarm op timization[C]∥Proc of IEEE International Conference on Neural Networks.Piscat-away:IEEE Press,1995.
[12]Keerthi S S,Lin C J.Asymptotic behaviors of support vectormachineswith gaussian kernel[J].NeuralComputation,2003(15):1667-1689.
Model for water quality remote retrieve based on support vector regression with parameters optimized by particle swarm optim ization algorithm
WANG Xiao-jun
(Department of Mechanic and Electronic,Hexi University,Zhangye 734000,China)
In order to improve the accuracy of the water quality retrievals of multi-spectral image,the author puts forward a model for water quality remote retrieve based on support vector regression with parameters optimized by particle swarm optimization algorithm.The model uses high-resolution multi-spectral remote SPOT-5 data and the water quality field data,uses CV to estimate the promote error and use PSO to optimize parameters of SVR model.It optimizes the model parameters globally,after the water quality is retrieved by the trained SVR.The proposed model is applied to the water quality retrievals of Weihe River in Shaanxi province.The results show that the developed model has more accuracy than the routine linear regression model.The paper provides a new approach for remote sensing monitoring of environment to inland rivers.
high-resolution remote sensing image;particle swarm optimization algorithms;support vector regression;parameter optimized;water quality retrievals
X832;TM930.12
A
1674-5124(2011)01-0066-04
2010-09-05;
2010-10-26
重慶市科技攻關(guān)重點項目(CSTC2009AB2231)
王小軍(1977-),男,甘肅張掖市人,講師,主要從事傳感器與自動檢測技術(shù)的研究。