樊廣利,曹紅業(yè),徐 晉
(1.西北大學 城市與環(huán)境學院,陜西 西安 710127; 2.西京學院 土木工程學院,陜西 西安 710123; 3.長安大學 地質(zhì)工程與測繪學院,陜西 西安 710064)
由于我國人口密度大和過度開采利用水資源,目前正面臨極為嚴重的水資源問題[1],并且內(nèi)陸湖泊水資源問題目前己經(jīng)成為全球性的問題,水質(zhì)監(jiān)測和預警是水質(zhì)評估和污染防治的主要依據(jù)[2-3]。傳統(tǒng)方法需要現(xiàn)場布設大量觀察站點,具有耗時、勞動強度大、成本高的缺點,并且由于傳統(tǒng)方法僅限于時間尺度和空間尺度,采集的數(shù)據(jù)只是部分河段的水質(zhì)數(shù)據(jù),只能以點帶面研究整體情況。對于內(nèi)陸湖泊這樣的大面積水域,傳統(tǒng)的野外采樣-實驗室分析方法難以達到大范圍、迅速、長時間序列的動態(tài)水質(zhì)監(jiān)測要求[4]。特別是對于太湖等水環(huán)境時空異質(zhì)性較強的水體,傳統(tǒng)方法的不足尤為突出。
由于遙感技術具有長期、實時和快速的水質(zhì)監(jiān)測的優(yōu)勢,甚至可以較為精確地探究傳統(tǒng)方法不可解釋的污染蔓延趨勢[5]?;谒w中不同材料成分的光譜反射率的差異,以及遠程傳感器接收的特征信息的差異,利用此技術可掌握大范圍水域中不同物質(zhì)組成的時空分布及長時間變化規(guī)律[6]。
葉綠素a濃度是反映水體藻類關鍵的生物指標[7-9]。然而目前對于水質(zhì)較為復雜的內(nèi)陸湖泊,建立適用性強、精確度高的水體葉綠素反演模型總是困難的。目前,主要有3種方法用于遙感監(jiān)測內(nèi)陸水域的葉綠素a濃度,即分析模型、經(jīng)驗模型和半經(jīng)驗或半分析模型[10-12]。
葉綠素a濃度的遙感反演是一個具有大量不確定性的非線性過程[13-14]。目前一些機器學習算法具有優(yōu)秀的非線性近似等優(yōu)點。被廣泛應用于模式識別、特征提取、信號處理和非線性預測等領域,在水質(zhì)遙感反演中具有一定的應用[15-22]。BP(back propagation)神經(jīng)網(wǎng)絡模型在水質(zhì)參數(shù)反演等領域已經(jīng)得到了很多應用,但是BP人工神經(jīng)網(wǎng)絡訓練速度慢,參數(shù)選擇困難,極容易陷入局部極值。極限學習機(extreme learning machine, ELM)是一種全新的單隱層前向神經(jīng)網(wǎng)絡方法的機器學習模型[23-24]。與傳統(tǒng)的BP模型相比,ELM模型算法克服了傳統(tǒng)模型訓練時間長和過擬合等問題。同時,ELM的良好泛化能力也在實踐中得到了驗證。
環(huán)境一號(HJ-1)是我國首顆用于環(huán)境監(jiān)測預警的遙感衛(wèi)星,為水體葉綠素a濃度反演提供了巨大便利。但是目前利用HJ-1進行內(nèi)陸水質(zhì)監(jiān)測的研究并不多,特別是水體葉綠素濃度遙感監(jiān)測方面的應用更是較少。為了驗證HJ-1衛(wèi)星應用于內(nèi)陸湖泊葉綠素a濃度預測的應用潛力,本文以內(nèi)陸典型湖泊——太湖為例,基于ELM模型和HJ-1A CCD傳感器進行太湖葉綠素a濃度的預測,并交叉對比傳統(tǒng)BP模型和支持向量機(support vector machine, SVM)模型。同時,將ELM模型應用于大氣校正后的HJ-1A影像上,獲取整個太湖湖面葉綠素a濃度的空間分布圖,并細致分析反演結果以驗證模型有效性。
太湖是我國第三大內(nèi)陸淡水湖泊,整個湖面的面積為2 427.8 km2,橫跨江浙兩省,相鄰較近的地市為無錫、湖州和蘇州等城市。本文選取太湖作為研究區(qū)域,主要考慮到:太湖水體的葉綠素含量很高并且變化較大,適合于反演模型的建立及驗證;另外太湖的污染狀況一直受到廣泛關注,是一直以來的研究熱點,并且積累了許多歷史數(shù)據(jù)可供參考。研究區(qū)太湖地理位置及采樣點分布見圖1。
圖1 研究區(qū)太湖地理位置及采樣點分布圖
HJ-1A衛(wèi)星于2008年9月6日發(fā)射升空。衛(wèi)星上搭載的傳感器包含可見光和近紅外光共4個波段,空間分辨率為30 m,成像寬度為360 km×360 km,可以4 d快速實現(xiàn)地球上同一位置的再次重訪。HJ-1A CCD傳感器參數(shù)及取值如表1所示。
分別于2016年7和10月組織人員對太湖水體進行了2次實地采樣,共采集了48個水樣樣本(采樣點分布見圖1),野外測量和記錄的參數(shù)包括采樣點經(jīng)緯度等信息,實驗室采用分光光度法測試和分析樣本葉綠素a濃度,各采樣點葉綠素a濃度見表2。將48個有效地面采集點數(shù)據(jù)進行隨機抽樣,分為訓練樣本數(shù)據(jù)和測試樣本數(shù)據(jù),其中38個數(shù)據(jù)用于建模,其余10個用于評定模型精度。
表1 HJ-1A CCD傳感器參數(shù)及取值
表2 太湖各采樣點葉綠素a濃度
由于本研究直接獲取的數(shù)據(jù)為幾何粗校正的HJ-1A CCD影像,因此需要進行必要的數(shù)據(jù)預處理工作,主要包括幾何精校正、輻射定標和大氣校正。
3.3.1 幾何精校正 在湖面周邊均勻選取明顯地面控制點,采用二次多項式模型進行幾何精校正(校正誤差低于1個像元)。以消除或減弱影像成像過程中產(chǎn)生的幾何畸變。影像的投影坐標采用UTM投影(通用橫軸墨卡托投影)及WGS-84坐標系。
3.3.2 輻射定標 衛(wèi)星地面接收站獲取的是無量綱的HJ-1A CCD影像DN值,然而進行水質(zhì)參數(shù)預測研究中使用的必須是絕對輻射亮度值。影像輻射定標的目的就是將DN值根據(jù)定標公式轉(zhuǎn)換為絕對輻射亮度值。
L(λ)=Gain·DN+Bias
(1)
式中:L(λ)為衛(wèi)星傳感器入瞳處的絕對輻射亮度值,W/(m2·sr·μm);DN為衛(wèi)星傳感器的觀測記錄值(無量綱),Gain和Bias分別為定標公式的兩個系數(shù),即增益值和偏移值。系數(shù)Gain和Bias的定標值如表3所示。
表3 HJ-1A CCD傳感器絕對輻射定標系數(shù)
3.3.3 大氣校正 由于大氣分子和氣溶膠散射等因素的影響,影像所反映的不是真實的地物信息,因此必須對影像進行大氣校正處理[25]。本文利用ENVI5.2的FLAASH模型完成大氣校正工作,獲取大氣校正后真實的反射率圖像。
假設訓練樣本由N個不同的隨機樣本(xi,ti)組成,其中:
xi=[xi1,xi2,…,xin]T(xi∈Rn)
(2)
ti=[ti1,ti2,…,tim]T(ti∈Rm)
(3)
(4)
(j=1,2,…,N)
式中:wi=[wi1,wi2,…,win]T為輸入節(jié)點與第i個隱層節(jié)點之間的權值;βi=[βi1,βi2,…,βim]T為連接第i個隱層節(jié)點與輸出節(jié)點之間的權值;wi·xj為權值wi與樣本xj的內(nèi)積;bi為第i個隱層節(jié)點的偏置值。
(5)
存在βi、wi和bi,得到:
(6)
也可以表示為如下矩陣形式:
Hβ=T
(7)
式中:H為網(wǎng)絡的隱層輸出矩陣,可表示為:
(8)
由于通常情況下,隱層節(jié)點數(shù)目遠遠小于訓練樣本數(shù)目,使得公式(6)的模型難以實現(xiàn),則在該模型中應加上誤差E,即:
Hβ=T+E
(9)
本文定義一個平方損失函數(shù)J,其表達式為:
J=∑(βjg(wi,bi,xj)-tj)
(10)
其矩陣形式可以表示為:
J=(Hβ-T)T(Hβ-T)
(11)
(12)
(13)
其中H*=(HTH)-1HT。
ELM算法通過如下步驟來進行網(wǎng)絡權值的維度估計與判定:
(2)模型可以根據(jù)步驟(1)隨機確定隱層節(jié)點參數(shù),即權重值w和隱層節(jié)點偏移值b;
(3)計算網(wǎng)絡模型隱層輸出矩陣H;
網(wǎng)絡輸出權重值通過直接求解線性方程組來獲得,這正是ELM算法簡單、快速和高效的原因。
建立用于遙感反演的神經(jīng)網(wǎng)絡模型首先確定反演的影響因素,然后確定網(wǎng)絡輸入層中神經(jīng)元的數(shù)量。ELM模型中的激勵函數(shù)主要包括Sigmodial函數(shù)、Sine函數(shù)、Hardlim函數(shù)、Triangular Basis函數(shù)和Radial Basis函數(shù)。為了更有效地確定模型參數(shù)并選擇激勵函數(shù),本文分別對上述5個函數(shù)進行了分析,并將隱含層節(jié)點的數(shù)量初始化為5,將循環(huán)增加至5次,比較分析了不同激勵函數(shù)和隱層節(jié)點數(shù)對水體葉綠素a反演的影響程度,其結果如圖2所示。
圖2 不同激勵函數(shù)和隱層節(jié)點數(shù)對水體葉綠素a反演的測試誤差
由圖2可知,在節(jié)點數(shù)為20之后,徑向基函數(shù)(radial basis)開始趨于穩(wěn)定,在節(jié)點數(shù)為10之后,Sigmodial函數(shù)和Sine函數(shù)開始穩(wěn)定,并且RMSE隨著隱層節(jié)點數(shù)量的增加,Hardlim和triangular basis函數(shù)的測試誤差波動較大。并且徑向基函數(shù)在節(jié)點數(shù)為20之后具有0.7×10-4或更小的測試誤差,與其他函數(shù)相比誤差最小。
本文選擇38個采樣點的HJ-1A CCD 波段比值B4/B3作為ELM模型的輸入層,葉綠素a濃度作為輸出層,構建預測模型,利用該構建模型對剩余10個驗證樣本進行預測,得到預測結果如圖3所示。預測值與實測值的擬合程度R2高達0.911 4,均方根誤差RMSE僅為1.327 0 μg/L。
為對比驗證ELM模型的反演精度,分別利用傳統(tǒng)BP神經(jīng)網(wǎng)絡和SVM模型進行葉綠素a濃度反演。BP模型相關參數(shù)參考相關文獻[26]設置:隱層節(jié)點個數(shù)為20,學習率設定為0.01,計算步數(shù)最大值設定為1 000次,最小均方誤差為10-8,網(wǎng)絡隱含層激活函數(shù)使用“Sigmoid”函數(shù),具體使用“l(fā)ogsig”函數(shù),訓練時使用“trainlm”函數(shù);SVM模型通過編寫SVMcgForRegress函數(shù)來查找模型的最佳參數(shù)。選取高斯函數(shù)作為其核函數(shù),核函數(shù)參數(shù)γ和回歸懲罰系數(shù)均為1,終止判據(jù)設置為0.001。
與ELM模型反演過程相似,選擇38個采樣點HJ-1A CCD 波段比值B4/B3作為模型的輸入層,葉綠素a濃度作為輸出層,構建預測模型。利用構建的模型分別對剩余10個驗證樣本進行預測,得到其預測結果如圖4、5所示。由圖4、5可知,BP模型的預測值與實測值的擬合度R2僅為0.366 3,均方根誤差RMSE為3.728 8 μg/L;SVM模型的擬合度略高于BP模型(R2=0.744 8),均方根誤差比BP模型略低(RMSE=2.132 4 μg/L)??傮w來看,SVM模型的預測精度略高于傳統(tǒng)BP神經(jīng)網(wǎng)絡模型的精度。
對3種模型葉綠素a濃度反演結果的相對誤差進行比較,如表4所示。由表4可見,ELM神經(jīng)網(wǎng)絡模型反演精度優(yōu)于BP和SVM模型,ELM反演結果的最大相對誤差為4.60%(序號4),而BP和SVM神經(jīng)網(wǎng)絡模型的最大相對誤差分別為19.04%和8.67%。另外,通過計算表明,ELM模型預測樣本的平均相對誤差MRE=2.65%,小于SVM和BP模型的平均相對誤差(BP和SVM模型的MRE值分別為6.59%和3.89%)。
不難得出如下結論,針對太湖區(qū)域葉綠素a濃度反演,ELM模型與BP和SVM模型相比較而言,其整體性能更優(yōu)。BP神經(jīng)網(wǎng)絡模型結構比ELM模型簡單,但預測精度不如ELM模型,BP模型算法的參數(shù)需要在運行過程中不斷調(diào)整。
圖3 ELM模型的驗證結果 圖4 BP模型的驗證結果 圖5 SVM模型的驗證結果
表4 3種模型Chl-a濃度反演結果的相對誤差比較
本文基于ELM模型結合HJ-1A CCD影像反演整個研究區(qū)域葉綠素a濃度,反演結果如圖6所示。圖6中綠色區(qū)域為葉綠素高濃度分布區(qū),藍色區(qū)域為葉綠素低濃度分布區(qū)。不難發(fā)現(xiàn),從空間分布上看,太湖的葉綠素a濃度分布不均,其總體上呈現(xiàn)從北向南遞減的趨勢,太湖的中南部湖區(qū)(圖6中深藍色區(qū)域)是全湖葉綠素濃度最低的區(qū)域,連片分布于太湖的中部和離岸較遠的南部區(qū)域,水面較為開闊。葉綠素a高濃度區(qū)域主要集中分布在竺山湖、梅梁湖和貢湖3個區(qū)域,濃度高于70 μg/L,最高的區(qū)域出現(xiàn)在梅梁灣的西入口、竺山灣西沿岸區(qū)、兩灣之間以及太湖西部的靠岸邊區(qū)域,三者的葉綠素a濃度甚至大于100 μg/L。根據(jù)湖泊水庫監(jiān)測標準,竺山湖和梅梁湖在葉綠素a濃度這一評價指標上太湖達到Ⅴ類水質(zhì)的標準。竺山灣和梅梁灣因為受人類活動以及外源性營養(yǎng)鹽的輸入等因素的影響成為太湖水華最嚴重的區(qū)域。東太湖(圖6中灰色部分)的葉綠素a濃度呈現(xiàn)較高的水平,可能是受該區(qū)域豐富的沉水植物和挺水植物所致,其反射光譜特征與藍藻極為相似,并不能準確表征該地區(qū)水體的葉綠素a濃度信息,但是反演的結果不能代表水體葉綠素濃度,因此本文根據(jù)相關研究對該區(qū)域進行了掩膜處理[27]。此外在湖的大部分邊緣區(qū)域即與陸地交接處,葉綠素a濃度也偏高,這一方面是由于水華易在岸邊帶堆積,另一方面與岸邊帶的蘆葦分布以及湖邊陸地植被干擾有關。
研究結果表明,應用遙感技術可以掌握大范圍的水質(zhì)指標動態(tài)變化,隨著國內(nèi)外遙感數(shù)據(jù)源的增多,遙感技術為太湖葉綠素a濃度進行長時間序列的監(jiān)測提供了便利。近年來,隨著太湖流域環(huán)境的不斷惡化,更應該加強太湖的水質(zhì)監(jiān)測,應用本文提出的遙感反演模型能夠大大提高水質(zhì)監(jiān)測效率。
圖6 太湖湖面葉綠素a濃度空間分布反演結果
(1)以內(nèi)陸典型湖泊-太湖為例,基于ELM模型和HJ-1A CCD傳感器進行太湖葉綠素a濃度的預測,并交叉對比了BP模型和SVM模型的反演結果。將ELM模型應用于大氣校正后的HJ-1A影像上,獲取整個太湖湖面葉綠素a濃度的空間分布圖。研究結果表明,與傳統(tǒng)的BP和SVM模型反演結果相比,ELM具有更高的預測精度。2016年夏季,太湖高濃度葉綠素a主要集中在梅梁灣的西入口、竺山灣西沿岸區(qū)、兩灣之間以及太湖西部的靠岸邊區(qū)域。
(2)為ELM模型在內(nèi)陸湖泊水質(zhì)遙感監(jiān)測方面的應用做了嘗試性探索研究,說明將ELM模型應用于湖泊水質(zhì)參數(shù)遙感監(jiān)測是可行的、有效的,后期的研究中再繼續(xù)獲取水體光譜和水質(zhì)參數(shù)等數(shù)據(jù),以期繼續(xù)提高水質(zhì)參數(shù)業(yè)務化遙感預測精度。
本文僅研究了太湖區(qū)域,為了進一步驗證該模型的廣泛性,下一步研究應將該模型應用于更加廣泛的區(qū)域,以期為內(nèi)陸湖泊水質(zhì)遙感監(jiān)測提供便利。