摘 要:內(nèi)陸湖庫(kù)水體是重要的水資源,利用遙感技術(shù)監(jiān)測(cè)水體濁度能夠快速掌握大范圍的水質(zhì)和水環(huán)境狀況。該文以Landsat遙感影像為主要數(shù)據(jù)源,以2017—2020年在吉林省采集的180個(gè)水體樣本的濁度數(shù)據(jù)為研究對(duì)象,以光譜波段為基礎(chǔ)特征變量,基于數(shù)學(xué)運(yùn)算構(gòu)建多種波段組合特征,提取并選擇最優(yōu)特征變量作為模型輸入,構(gòu)建極限梯度提升(XGBoost)和隨機(jī)森林(RF)機(jī)器學(xué)習(xí)模型對(duì)濁度值進(jìn)行估測(cè),通過(guò)對(duì)比分析預(yù)測(cè)結(jié)果,選擇最優(yōu)模型對(duì)吉林省典型湖庫(kù)水體濁度進(jìn)行反演。研究結(jié)果表明,以藍(lán)、綠、紅波段計(jì)算得到的波段差值組合和比值組合作為最優(yōu)特征變量,XGBoost的預(yù)測(cè)精度最高,決定系數(shù)R2和均方根誤差RMSE分別為0.84和0.54 NTU。利用XGBoost模型反演吉林省典型湖庫(kù)1985—2020年間每5年的水體濁度,分析其時(shí)空反演變化,為吉林省水環(huán)境治理與保護(hù)提供科學(xué)的技術(shù)支撐和決策支持。
關(guān)鍵詞:水體濁度;機(jī)器學(xué)習(xí);遙感反演;時(shí)空變化;Landsat影像數(shù)據(jù)
中圖分類號(hào):TP311 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):2095-2945(2024)34-0030-05
Abstract: Inland lakes and reservoirs are crucial water resources, and monitoring water turbidity using remote sensing technology can quickly grasp the water quality and environment over large areas. This study primarily uses Landsat remote sensing images as data sources, focusing on the turbidity data of 180 water samples collected in Jilin Province from 2017 to 2020. Based on spectral bands as fundamental characteristic variables, various band combinations were constructed through mathematical operations to extract and select optimal features for model input. Extreme Gradient Boosting (XGBoost) and Random Forest (RF) machine learning models were developed to estimate turbidity values. By comparing the prediction results, the optimal model was selected to invert the turbidity of typical lakes and reservoirs in Jilin Province. The research indicates that the band difference and ratio combinations calculated from blue, green, and red bands serve as the optimal feature variables, with XGBoost achieving the highest prediction accuracy, R2 and RMSE being 0.84 and 0.54 NTU, respectively. The XGBoost model was used to invert the water turbidity of typical lakes and reservoirs in Jilin Province every five years from 1985 to 2020, analyzing its temporal and spatial variation. This provides scientific technical support and decision-making assistance for water environment management and protection in Jilin Province.
Keywords: Turbidity; Machine learning; Remote sensing; spatial-temporal variation; Landsat image data
湖庫(kù)水體是我國(guó)主要的飲用水資源,在調(diào)節(jié)生態(tài)環(huán)境平衡,支撐工農(nóng)業(yè)生產(chǎn),提供人們生活保障等方面發(fā)揮積極的作用[1]。吉林省作為我國(guó)重要的糧食主產(chǎn)區(qū)和工業(yè)基地,為加快經(jīng)濟(jì)發(fā)展,振興東北老工業(yè)基地,工農(nóng)業(yè)及生活用水的需求量增加,導(dǎo)致水體面積發(fā)生較大變化,富營(yíng)養(yǎng)化現(xiàn)象頻發(fā),極大程度影響人類生存和自然資源的可持續(xù)發(fā)展。濁度作為水質(zhì)監(jiān)測(cè)的重要參數(shù)之一,能夠綜合反映水體中懸浮物對(duì)光線阻礙程度。通過(guò)監(jiān)測(cè)水體濁度,可以直接反映水體質(zhì)量情況,有助于及時(shí)發(fā)現(xiàn)并預(yù)警水體渾濁度較高地區(qū),科學(xué)有效地進(jìn)行水質(zhì)監(jiān)測(cè),對(duì)確保當(dāng)?shù)厮鷳B(tài)系統(tǒng)良性發(fā)展具有重要的意義[2]。
利用遙感技術(shù)監(jiān)測(cè)水體濁度已是廣泛應(yīng)用的技術(shù)手段[3]。通過(guò)衛(wèi)星獲取遙感數(shù)據(jù),提取地表水質(zhì)信息,反映水體濁度連續(xù)時(shí)空分布特征和變化情況,有效彌補(bǔ)了采用離散水面樣點(diǎn)分析與監(jiān)測(cè)的不足[4],眾多國(guó)內(nèi)外學(xué)者利用遙感影像來(lái)反演水體濁度進(jìn)行了不同程度的分析,Hossain等[5]利用Landsat 8衛(wèi)星影像和實(shí)地現(xiàn)場(chǎng)測(cè)量對(duì)美國(guó)的田納西河進(jìn)行水體濁度的反演;Ma等[6]利用Sentinel-2衛(wèi)星影像與實(shí)地實(shí)測(cè)水體數(shù)據(jù)繪制了東北區(qū)域典型湖泊濁度反演圖;晁明燦等[7]利用GF-1衛(wèi)星影像與浮標(biāo)監(jiān)測(cè)站濁度數(shù)據(jù)相結(jié)合,對(duì)2019年巢湖濁度進(jìn)行了時(shí)空分析。近年來(lái),應(yīng)用遙感數(shù)據(jù)估測(cè)水體濁度已經(jīng)成為研究熱點(diǎn),構(gòu)建濁度擬合模型用以準(zhǔn)確表達(dá)濁度與波段反射率間的關(guān)系是關(guān)鍵問(wèn)題。陳方方等[8]基于Sentinel-3影像利用支持向量機(jī)(SVM)算法構(gòu)建查干湖水質(zhì)高精度反演模型;Wang等[9]基于Landsat影像構(gòu)建半經(jīng)驗(yàn)?zāi)P瞳@取大慶地區(qū)數(shù)百個(gè)湖庫(kù)1984—2018年的濁度信息;Du等[10]基于Landsat影像構(gòu)建指數(shù)模型定量分析松嫩平原水域總懸浮物濃度的變化,并進(jìn)行了驅(qū)動(dòng)力分析;曹引等[11]基于GF-1影像與HJ-1影像構(gòu)建最小二乘模型對(duì)微山湖進(jìn)行了總懸浮物濃度和濁度監(jiān)測(cè)。
本文以Landsat遙感影像為主要數(shù)據(jù)源,以2017—2020年吉林省地區(qū)采集180個(gè)水體樣本的濁度數(shù)據(jù)為研究對(duì)象,選擇最優(yōu)遙感特征變量,構(gòu)建機(jī)器學(xué)習(xí)預(yù)測(cè)模型,通過(guò)對(duì)比預(yù)測(cè)精度,選擇最優(yōu)模型對(duì)吉林省典型湖庫(kù)查干湖和松花湖水體濁度在1985—2020年進(jìn)行反演,為區(qū)域水環(huán)境治理與保護(hù)提供科學(xué)的技術(shù)支持。
1 研究區(qū)與數(shù)據(jù)源
1.1 研究區(qū)概況
吉林省擁有豐富的湖泊資源,在生態(tài)環(huán)境中發(fā)揮著重要作用,本文以查干湖和松花湖作為主要研究湖泊,其中查干湖(124°03′~124°34′E,45°05′~45°30′N)位于吉林省松原市西部,是省內(nèi)最大的天然湖泊。湖泊面積達(dá)到350 km2,平均深度為2.52 m。年平均降水量為400~500 mm[8];松花湖(126°45′~127°38′E,43°07′~43°50′N)位于吉林省吉林市東部,流域面積達(dá)到42 500 km2,湖水平均面積為550 km2,氣候?qū)儆诒睖貛Т箨懶约撅L(fēng)氣候,全年平均氣溫為4.4 ℃,多年平均降水量為657 mm[12]。
1.2 數(shù)據(jù)源獲取
1.2.1 水體樣本數(shù)據(jù)測(cè)定
2017—2020年,在吉林省湖庫(kù)的典型湖泊共采集了180個(gè)水樣,每個(gè)湖泊的采樣點(diǎn)數(shù)量由湖泊面積決定。一般情況下,大湖泊(≥10 km2)設(shè)置8~15個(gè)采樣點(diǎn),小湖泊(<10 km2)設(shè)置3~8個(gè)采樣點(diǎn)[9],野外采樣日期為2017—2020年的4—10月,采樣期間天空晴朗無(wú)云,水面平靜,風(fēng)速較小。按照布設(shè)的樣點(diǎn)位置采水樣時(shí),在每個(gè)點(diǎn)位用采水器采集0~50 cm處的水體約2 L,采集水體樣本,利用GPS獲取點(diǎn)位坐標(biāo),記錄采集時(shí)間、點(diǎn)號(hào)、水面環(huán)境等信息。采集水樣置于車載保溫箱中冷藏,1~2 d內(nèi)運(yùn)送回實(shí)驗(yàn)室進(jìn)行分析測(cè)試。實(shí)驗(yàn)室測(cè)定時(shí),采用UV-2600紫外可見(jiàn)分光光度計(jì),室溫20 ℃左右,以過(guò)濾的純水作為參比,測(cè)定每個(gè)水樣的濁度。
1.2.2 Landsat遙感影像數(shù)據(jù)及預(yù)處理
Google Earth Engine(GEE)是目前應(yīng)用最廣的云計(jì)算平臺(tái),集科學(xué)分析、遙感數(shù)據(jù)處理、地理信息數(shù)據(jù)可視化于一體的綜合性平臺(tái)[13]。在GEE平臺(tái)上選擇影像日期與現(xiàn)場(chǎng)實(shí)地采樣日期相吻合(時(shí)間間隔7~15 d)的Landsat 7與Landsat 8遙感影像用于實(shí)測(cè)數(shù)據(jù)相關(guān)性分析及模型構(gòu)建。下載1985—2020年吉林省查干湖和松花湖影像數(shù)據(jù),以5年為間隔的Landsat TM/ETM+/OLI 影像用于后續(xù)時(shí)空變化分析。研究所用的遙感影像均為GEE網(wǎng)站中的Landsat Collection 2 Level-2數(shù)據(jù)產(chǎn)品,該數(shù)據(jù)產(chǎn)品是經(jīng)過(guò)輻射定標(biāo)、大氣校正和幾何粗校正的多光譜波段地表反射率數(shù)據(jù)。
2 研究方法
2.1 技術(shù)路線
利用歸一化差異水體指數(shù)(Normalized Difference Water Index,NDWI)技術(shù),將衛(wèi)星圖像精準(zhǔn)地劃分為水域和非水域區(qū)域。通過(guò)在水體感興趣區(qū)域(Region of Interest,ROI)提取NDWI值,利用最大類間方差算法(OTSU)確定閾值。值得注意的是,由于不同圖像的特性和條件可能存在差異,在實(shí)際處理過(guò)程中,對(duì)于閾值的設(shè)定需要根據(jù)具體情況進(jìn)行適當(dāng)?shù)恼{(diào)整和優(yōu)化,以確保分類結(jié)果的準(zhǔn)確性和可靠性,技術(shù)流程圖如圖1所示。
2.2 數(shù)據(jù)集構(gòu)建
由Kloiber等[14]的研究發(fā)現(xiàn),通過(guò)對(duì)光譜反射率數(shù)據(jù)和實(shí)測(cè)水質(zhì)參數(shù)進(jìn)行對(duì)數(shù)轉(zhuǎn)換,有助于提高對(duì)水體濁度的定量遙感結(jié)果精度,因此我們將原始波段反射率、波段反射率組合作為自變量,Ln(濁度值)作為因變量,構(gòu)建回歸模型。將180個(gè)實(shí)測(cè)數(shù)據(jù)樣本按照3∶1的比例隨機(jī)分配,使用135個(gè)建立模型,剩余45個(gè)樣本檢驗(yàn)?zāi)P途取S?xùn)練數(shù)據(jù)濁度范圍為1.402~182.596 NTU,驗(yàn)證數(shù)據(jù)中濁度范圍為1.043~153.919 NTU (表1)。
2.3 機(jī)器學(xué)習(xí)算法
RF模型基于Bagging方法,通過(guò)構(gòu)建多個(gè)獨(dú)立的決策樹(shù)并對(duì)其預(yù)測(cè)結(jié)果進(jìn)行平均或累加,減少單個(gè)決策樹(shù)的過(guò)擬合問(wèn)題;XGBoost模型基于Boosting方法,通過(guò)逐步構(gòu)建多個(gè)決策樹(shù),每棵新樹(shù)都針對(duì)前一棵樹(shù)的殘差進(jìn)行訓(xùn)練,最終將所有樹(shù)的結(jié)果累加作為最終預(yù)測(cè)。
本研究使用分類完成的訓(xùn)練集和驗(yàn)證集數(shù)據(jù),通過(guò)實(shí)驗(yàn)對(duì)模型參數(shù)進(jìn)行優(yōu)化,構(gòu)建了隨機(jī)森林,XGBoost模型以獲取湖泊濁度值,模型精度如圖2所示。采用3折交叉驗(yàn)證法,對(duì)模型的決策樹(shù)數(shù)量(n_estimators)、指定決策樹(shù)的最大深度(max_depth)、模型學(xué)習(xí)率(Learning_rate)和葉子節(jié)點(diǎn)最小的樣本權(quán)重和(min_child_weight)4個(gè)重要參數(shù)進(jìn)行網(wǎng)格參數(shù)調(diào)優(yōu),依據(jù)獲得的最高交叉驗(yàn)證精度,本文設(shè)定4個(gè)模型參數(shù)值分別為n_estimators=100、max_depth=5、Learning_rate=0.03,min_child_weight=2。
2.4 預(yù)測(cè)精度評(píng)價(jià)
模型精度由決定系數(shù)(R2)、均方根誤差(RMSE)和平均絕對(duì)百分比誤差(MAPE)決定。R2量化了因變量的變異中由自變量解釋的部分,RMSE和MAPE描述了預(yù)測(cè)值與實(shí)際值之間的總體誤差。這些指標(biāo)的定義如下
式中:yi和yi′為第i次觀測(cè)值和預(yù)測(cè)值;為平均觀測(cè)值;n為校準(zhǔn)和驗(yàn)證樣本的個(gè)數(shù)。
3 實(shí)驗(yàn)結(jié)果與分析
3.1 波譜反射率特征變量相關(guān)性分析
本文利用Landsat系列影像數(shù)據(jù)前6個(gè)波段進(jìn)行波段插值與波段比值組合,應(yīng)用SPSS進(jìn)行波段組合相關(guān)性分析,篩選出相關(guān)性較高的特征變量,得到相關(guān)性熱度圖,由圖3可知,選取相關(guān)性大于0.7的波段差值(B1-B2)、(B1-B3),波段比值(B2/B1)、(B3/B1)、(B1+B2)/(B2+B3)、B1/(B2+B3)作為模型的輸入變量。
3.2 機(jī)器學(xué)習(xí)模型構(gòu)建與精度評(píng)價(jià)
由圖2可知,兩機(jī)器學(xué)習(xí)模型在訓(xùn)練精度上的指標(biāo)展示出相似表現(xiàn),而XGBoost驗(yàn)證模型的R2最高為0.84,RMSE為0.54 NTU,小于RF模型的RMSE。此外,2個(gè)模型的MAPE相同,因此選擇XGBoost模型用于濁度反演,為了增加模型的豐富性,除了波段比值與波段插值組合作為輸入變量,將Landsat原始波段B1至B6波段也作為輸入變量,擬合湖庫(kù)濁度值。
3.3 查干湖濁度時(shí)空變化研究
圖4為1985—2020年查干湖年際濁度的時(shí)空格局,從1985年到2000年,湖泊的濁度呈先下降再上升趨勢(shì)。具體而言,1990年的平均濁度為44.21 NTU,2000年已增至67.88 NTU。這一變化反映出在此期間查干湖的水質(zhì)狀況有所下降。從2000年至2020年,湖泊水體濁度逐漸下降,但在2010年出現(xiàn)了輕微上升。
在空間格局上,查干湖表現(xiàn)出顯著的空間分布特性。湖泊在沿岸區(qū)域的水體濁度較高,湖心區(qū)域相對(duì)較低,這種特殊的空間格局在2000年的濁度反演圖像中表現(xiàn)得尤為明顯。觀察此時(shí)間范圍的數(shù)據(jù),查干湖的濁度分布在空間上呈現(xiàn)出從東南向西北逐漸上升的趨勢(shì)。
3.4 松花湖濁度時(shí)空變化研究
圖5呈現(xiàn)出松花湖的年際濁度整體下降的趨勢(shì),1985—1990年,濁度值下降至24.83 NTU。1990—2000年濁度值基本保持穩(wěn)定,波動(dòng)范圍在24.83~28.23 NTU。然而,2005年濁度值稍有上升至44.45 NTU,從2005—2020年,再次呈現(xiàn)明顯下降趨勢(shì)。這些數(shù)據(jù)表明,松花湖正在經(jīng)歷一個(gè)從渾濁逐漸向清澈轉(zhuǎn)變的關(guān)鍵時(shí)期。
從空間分布特征分析,松花湖的西北部水體相對(duì)清澈,而東南部的濁度較高。松花湖與查干湖在地理位置上存在顯著差異:松花湖坐落于群山之間,遠(yuǎn)離人類活動(dòng)的核心區(qū)域,因此受到的人為干預(yù)相對(duì)較小。
4 結(jié)論
本文利用野外實(shí)地采樣的水體濁度數(shù)據(jù)和衛(wèi)星影像數(shù)據(jù),建立了一個(gè)湖泊水體濁度擬合模型,繪制1985—2020年吉林省查干湖與松花湖濁度的時(shí)空格局。主要結(jié)論如下:利用藍(lán)光反射率(B1)、綠光反射率(B2)和紅光發(fā)射率(B3)進(jìn)行波段比值與差值組合作為自變量建立XGBoost機(jī)器學(xué)習(xí)模型更適合反演湖庫(kù)濁度??臻g格局上,查干湖與松花湖具有明顯不同的濁度分布特征。查干湖的濁度分布在空間上呈現(xiàn)出從東南向西北逐漸上升的趨勢(shì),松花湖的濁度空間分布與其相反。其分布特征的差異性可能是由地理位置與環(huán)境因素(高程不同、湖庫(kù)周圍土地利用情況不同)共同作用導(dǎo)致的。時(shí)間格局上,查干湖的濁度變化在1985—2020年期間表現(xiàn)為先上升后降低的趨勢(shì),在2005—2020年內(nèi)呈現(xiàn)逐漸下降的趨勢(shì)。利用實(shí)地野外采樣和遙感監(jiān)測(cè)的方式相結(jié)合,對(duì)于衛(wèi)星遙感在大規(guī)模、長(zhǎng)期湖庫(kù)水體濁度監(jiān)測(cè)中具有重要意義。
參考文獻(xiàn)
[1] 王紅梅.淺析湖庫(kù)型飲用水水源地環(huán)境保護(hù)工程措施[J].科學(xué)技術(shù)創(chuàng)新,2015(35):57.
[2] 李建鴻,黃昌春,查勇,等.長(zhǎng)江干流表層水體懸浮物的空間變化特征及遙感反演[J].環(huán)境科學(xué),2021,42(11):5239-5249.
[3] 徐國(guó)成,左少新,梁茜.遙感技術(shù)在水環(huán)境和大氣環(huán)境監(jiān)測(cè)中的應(yīng)用探討[J].江西化工,2018(4):12-13.
[4] 夏春林.長(zhǎng)江流域水體濁度的時(shí)空動(dòng)態(tài)變化影響因素研究[D].南京:南京信息工程大學(xué),2023.
[5] HOSSAIN A K M A, MATHIAS C, BLANTON R. Remote sensing of turbidity in the Tennessee River using Landsat 8 satellite[J]. Remote Sensing,2021,13(18):3785.
[6] MA Y, SONG K, WEN Z, et al. Remote sensing of turbidity for lakes in northeast China using Sentinel-2 images with machine learning algorithms[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2021(14):9132-9146.
[7] 晁明燦,趙強(qiáng),楊鐵利,等.基于GF-1影像的巢湖濁度遙感監(jiān)測(cè)及時(shí)空變化研究[J].大氣與環(huán)境光學(xué)學(xué)報(bào),2021,16(2):149-157.
[8] 陳方方,王強(qiáng),宋開(kāi)山,等.基于Sentinel-3OLCI的查干湖水質(zhì)參數(shù)定量反演[J].中國(guó)環(huán)境科學(xué),43(5):2450-2459.
[9] WANG X, SONG K, WEN Z, et al. Quantifying turbidity variation for lakes in Daqing of Northeast China using Landsat images from 1984 to 2018[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2021(14): 8884-8897.
[10] DU Y, SONG K, LIU G, et al. Quantifying total suspended matter (TSM) in waters using Landsat images during 1984-2018 across the Songnen Plain, Northeast China[J]. Journal of environmental management, 2020(262): 110334.
[11] 曹引,冶運(yùn)濤,趙紅莉,等.草型湖泊總懸浮物濃度和濁度遙感監(jiān)測(cè)[J].遙感學(xué)報(bào),2019,23(6):1253-1268.
[12] 丁洋,趙進(jìn)勇,張晶,等.松花湖水質(zhì)空間差異及富營(yíng)養(yǎng)化空間自相關(guān)分析[J].環(huán)境科學(xué),2021,42(5):2232-2239.
[13] 閆凱,陳慧敏,付東杰,等.遙感云計(jì)算平臺(tái)相關(guān)文獻(xiàn)計(jì)量可視化分析[J].遙感學(xué)報(bào),2022,26(2):310-323.
[14] KLOIBER S M, BREZONIK P L, OLMANSON L G, et al. A procedure for regional lake water clarity assessment using Landsat multispectral data[J]. Remote sensing of Environment, 2002,82(1):38-47.
基金項(xiàng)目:國(guó)家自然科學(xué)基金項(xiàng)目(42201433);吉林省教育廳科學(xué)技術(shù)研究項(xiàng)目(JJKH20210269KJ)
第一作者簡(jiǎn)介:李宗峻(1998-),男,碩士研究生。研究方向?yàn)橥聊舅?/p>
*通信作者:馬玥(1990-),女,博士,講師。研究方向?yàn)樗h(huán)境遙感。