徐夕博,呂明薈,王海會,周忠科,彭遠新,顏學文
(1. 北京師范大學 地理科學學部,北京 100875;2. 棗莊學院 旅游與資源環(huán)境學院,山東 棗莊 277160;3. 山東省地下水環(huán)境保護與修復工程技術研究中心,山東 濟南 250014;4. 山東省地質礦產(chǎn)勘查開發(fā)局 八〇一水文地質工程地質大隊,山東 濟南 250014)
土壤鹽分含量(Soil salt content,SSC)是土壤的一項重要的理化參數(shù),對于維持綠色植物的細胞物質交換具有重要作用。SSC 過高,會限制光合作用阻礙作物的正常生長,進而降低糧食產(chǎn)量,對地表生態(tài)系統(tǒng)和社會經(jīng)濟發(fā)展產(chǎn)生負面影響[1-2]。從全球范圍來看,約有40%的耕地土壤在鹽化作用脅迫下,表現(xiàn)出不同程度的土壤退化,土壤鹽化的治理和恢復工作已經(jīng)成為當務之急。而進行這一工作的關鍵前提則是,需要對治理區(qū)域內(nèi)的SSC 進行實時準確識別和監(jiān)測。
近年來,隨著現(xiàn)代遙感信息技術的發(fā)展,衛(wèi)星遙感影像因其覆蓋范圍大、時效性強和獲取成本低廉等特點,在資源環(huán)境監(jiān)測領域的應用優(yōu)勢更加明顯。盧 霞[3]、LIU 等[4]、WANG 等[5]和SRIVASTAVA等[6]在嚴格控制的實驗室條件下,基于土壤光譜定量分析技術,確定了SSC 在可見光及近紅外波長范圍內(nèi)(400~2 500 nm)的響應波段,并將其作為輸入自變量構建光譜估算模型,完成了SSC 的估算。馮娟等[7]、賈萍萍等[8]、曹雷等[9]、FAN 等[10]和MULLER等[11]進一步將衛(wèi)星影像波段反射率和地面實測SSC建立回歸聯(lián)系,完成區(qū)域尺度上的SSC估算制圖,為SSC在大范圍上的空間變異監(jiān)測提供了理論依據(jù)。
但是,土壤鹽分的電磁信號在產(chǎn)生、反射和傳遞過程中受到自然環(huán)境諸如大氣、水分和地表特征等多因素的影響,這為準確建立SSC 信息與衛(wèi)星接收到的反射率信號之間的映射關系增加了難度。因此,諸多學者[4,7,12-13]在進行SSC 估算模型構建時多采用以非線性擬合方式為基礎的機器學習方法,例如人工神經(jīng)網(wǎng)絡、支持向量機、極限學習機和隨機森林等。機器學習模型可以通過增加隱藏層結構、控制參數(shù)和決策樹數(shù)量等方式,實現(xiàn)光譜信號到土壤屬性含量的特征轉變,能夠提供相對較高的精度。但所得估算模型對真實地表環(huán)境的模擬過程中,因受到成土母質、人類活動和數(shù)據(jù)采集過程等因素作用下產(chǎn)生的特異性地理標簽數(shù)據(jù)的影響,會導致機器學習模型出現(xiàn)過擬合和局部極值等問題,限制模型性能的提升。針對這個問題,LIU 等[14]和BAO 等[15]通過隨機抽取、光譜特征、土壤類型和含量歐式距離劃分等方式選擇建模樣本集,減弱或避免特異性樣本數(shù)據(jù)的干擾,在保證驗證集精度的同時最大程度提升訓練集準確性。然而上述對特異樣本數(shù)據(jù)的識別均是基于土壤屬性的含量特征進行的,而地理樣本數(shù)據(jù)除具有描述性的含量特征值外,還具有顯著的空間位置特征信息[16-17]。地理學第一定律[18]表明,距離越近的地物間空間關聯(lián)性越強,而特異性數(shù)據(jù)則展現(xiàn)出顯著的非關聯(lián)性。因此,將空間位置信息引入用于評估數(shù)據(jù)樣本間空間關聯(lián)度和最佳訓練樣本集的建立,對于提升SSC 估算模型的計算效率和精度具有極大的潛力。本試驗以萊州灣南岸濱海平原地區(qū)為研究區(qū),系統(tǒng)采集95 處土壤樣點并獲取同期Sentinel-2 多光譜影像;進一步利用隨機森林變量重要度評估技術選擇土壤鹽分的響應波段,作為輸入自變量,將測得SSC作為因變量;最后建立基于空間關聯(lián)隨機森林算法的遙感估算模型,實現(xiàn)區(qū)域尺度上的SSC 遙感定量估算和數(shù)字制圖,以期為區(qū)域的鹽堿治理和資源環(huán)境優(yōu)化提供理論依據(jù)和技術支持。
研究區(qū)位于萊州灣南岸濱海平原地區(qū),介于118°44′22″E~118°53′20″E 和37°6′10″N~37°11′33″N,總面積約為87.3 km2(圖1)。研究區(qū)的氣候類型為典型的季風區(qū)溫帶大陸性氣候,受海洋環(huán)境影響明顯,干濕季分明。多年平均氣溫和降水量分別為12.7 ℃和608.5 mm,平均高潮位1.75 m。在地質構造上屬遼冀臺向斜第四系沉積層,地形則以平原為主,平坦開闊。小麥和玉米為主要的種植作物,部分近海區(qū)域以種植耐鹽抗逆境能力強的棉花為主。近些年來,研究區(qū)港口貿(mào)易繁榮,工農(nóng)業(yè)發(fā)展迅猛。地下水開采量隨之增加,引發(fā)海咸水倒灌,土壤表現(xiàn)出輕微的鹽堿化[19]。
圖1 研究區(qū)及采樣點Fig.1 The study area and sampling sites
在綜合考慮土地利用、地質地貌和交通可達性等因素的基礎之上,利用ArcGIS 10.2軟件中的數(shù)字底圖,初步完成95處土壤樣點的預設。在實際采樣過程中,在預設點周邊50 m 內(nèi),選取合適的區(qū)域進行土壤采集,采用手持式GPS 確定并記錄采樣點的真實地理坐標。在采樣時,土壤樣品的采集采用多點混合法,在樣點位置周邊10 m 范圍內(nèi),將土壤混合至1 kg 左右,裝入聚乙烯密封袋中進行保存并及時運送至實驗室開展分析測試[20]。土壤樣品的采集在裸土期(2019 年1 月7—11 日)內(nèi)完成。在實驗室內(nèi),首先去除土壤中明顯異質體,例如石塊、樹葉、草根、木棒等;接下來,土壤在實驗室內(nèi)(25 ℃)進行自然風干,研磨后過1 mm 篩,完成測試前的預處理;最后,采用質量法對土壤樣品的全鹽含量進行測定,即吸取一定量基質水浸出液,蒸干除去有機質后,烘干,稱量測得SSC[21]。
Sentinel-2B(哨兵二號)是歐空局在2017 年發(fā)射的一顆地球資源環(huán)境觀測衛(wèi)星,在晴朗少云的狀態(tài)下,哨兵衛(wèi)星可對全球實現(xiàn)5 d 頻次的重復觀測[22]。衛(wèi)星影像按照空間分辨率可分為3 類:10 m(B2、B3、B4 和B8)、20 m(B5、B6、B7、B8a、B11 和B12)和60 m(B1、B9和B10)。在美國地質調查局網(wǎng)站(https://glovis.usgs.gov)免費下載Sentinel-2B 影像一景(生成時間為2019年1月17日),天氣狀態(tài)為晴朗無云。對獲取的影像數(shù)據(jù)進行輻射校正、大氣校正和重采樣(10 m)3項預處理操作,具體在SNAP軟件(已安裝Sen2Cor 插件)中計算完成[23]。哨兵二號影像數(shù)據(jù)的B1、B9和B10設計用于氣溶膠和大氣特征的檢測,不參與SSC的反演計算過程[24]。
空間關聯(lián)隨機森林模型是以隨機森林算法[25]為基礎,在數(shù)據(jù)輸入側引入空間權重函數(shù)[26-27]對樣本數(shù)據(jù)的空間關聯(lián)度進行評估(公式1 和公式2),在厘清輸入樣本數(shù)據(jù)在局部空間上的關聯(lián)關系后,賦以權值,依據(jù)關聯(lián)度值大小形成最優(yōu)聚類,以此為樣本輸入完成估算模型訓練回歸的一種技術方法。模型構建及實現(xiàn)流程如圖2所示。
圖2 空間關聯(lián)隨機森林模型計算流程Fig.2 The calculation processes for the spatial random forest model
式中,(μi,vi)表示樣點i的經(jīng)緯度坐標,F(xiàn)i(φ)為樣點i位置處的空間權重高斯函數(shù),L和δ分別表示樣點i的SSC實測值和隨機誤差項。t值的大小表示樣本數(shù)據(jù)的空間關聯(lián)度的強弱,數(shù)值越小,樣本數(shù)據(jù)間空間關聯(lián)度越強,表現(xiàn)出的空間特異程度越低。
空間關聯(lián)隨機森林模型有4 個重要的參數(shù),分別為輸入變量的重要度值(Variable importance scores,VIS)、決策樹的數(shù)量(ntree)、分裂點變量的數(shù)量(mtry)和地理信息協(xié)同變量(Xj)。VIS值的大小表示輸入自變量對因變量影響程度的強弱,數(shù)值越大,自變量對SSC 的影響越大,相關性就越強。此外,為提升空間權重函數(shù)對樣本數(shù)據(jù)的屬性和空間信息的評估能力,Xj設置為典型且易獲取的5 種環(huán)境要素輔助信息,分別為高程、歸一化植被指數(shù)、土壤濕度指數(shù)、地表溫度和距海遠近。高程數(shù)據(jù)免費獲取自地理空間數(shù)據(jù)云網(wǎng)站(http://www.gscloud.cn/),歸一化植被指數(shù)、土壤濕度指數(shù)和地表溫度數(shù)據(jù)的獲取與采樣時間保持一致,具體求算方法參見文獻[28-29]。距海遠近為每個采樣點距離海洋的最近距離,在確定海洋邊界之后在ArcGIS 10.2 軟件的歐氏距離模型中完成計算。進一步的,決策樹類模型構建的核心思想是通過構建若干棵決策樹進行投票匯總最后得出結果,在決策樹的各個節(jié)點上,從M個特征中選取m個特征集用作預測變量,在節(jié)點的分裂過程中,逐次選取最優(yōu)的m個預測變量,最后進行結果匯總得出預測結果[30]。根據(jù)多次試驗結果,ntree和mtry在本研究中分別設置為800和3。模型的實現(xiàn)和計算在Python 3.8中編程完成。
獲取的95個土壤樣本隨機劃分為建模集(n=75)和驗證集(n=20),建模集樣本用于訓練遙感估算模型,而驗證集樣本用于估算模型的獨立驗證和評價。決定系數(shù)(Coefficient of determination,R2)和均方根誤差(Root mean square error,RMSE)通常作為評價模型精度的重要統(tǒng)計指標。R2用來評價自變量對因變量的信息解釋能力,估算得到的SSC 與實測值的差值為RMSE值。所以RMSE值越小,R2值就越大,估算模型的精度和穩(wěn)定性就越好[31]。
從表1 可以看出,樣品總集的SSC 在0.50~121.79 g/kg,均值為3.39 g/kg,覆蓋范圍較大且不均勻。變異系數(shù)用來評估數(shù)據(jù)的波動程度,3 個數(shù)據(jù)集的變異系數(shù)均較大,處于高度變異(>0.36),表明區(qū)域內(nèi)存在較多鹽分異常值[32]。建模集和驗證集的變異系數(shù)也相差較大,但是3個集合的中值均一致,說明特異值的存在并不是普遍現(xiàn)象。此外,樣本數(shù)據(jù)的空間變異會增加地表模擬模型的訓練難度,但是一定程度的數(shù)據(jù)變異性會對模型準確度提升產(chǎn)生積極影響,所以隨機抽取到的建模集和驗證集樣本用于SSC 的遙感建模估算是可靠的[33]。峰度和偏度用于描述數(shù)據(jù)分布的集中和雙尾特性,樣本總集的偏度值較大,表現(xiàn)出正偏,表明外部活動已經(jīng)干擾了成土之初土壤鹽分正態(tài)分布狀態(tài)。SSC的描述性統(tǒng)計特征所表現(xiàn)出的變異性一定程度上也反映了土壤鹽漬化的趨勢和狀態(tài)。萊州灣南岸濱海平原地區(qū)內(nèi)有大量海咸水賦存在淺層地表,在地下水過度開采、旱季蒸發(fā)強烈以及海咸水倒灌等因素影響下,致使表層SSC 在不斷增加,土壤肥力下降,隨之帶來一系列的土地環(huán)境退化問題,這也是不同土壤樣本集的鹽分含量分布存在偏移的潛在驅動因素[34]。
表1 SSC描述性統(tǒng)計特征Tab.1 The descriptive statistical characteristics of soil salt content
如圖3 所示,B11 的VIS 最高,B12、B2 和B8a 次之(VIS>10%),其余都比較小,因而B11、B12、B2 和B8a被選為敏感波段用作反演模型的輸入變量。土壤在鹽化過程中會產(chǎn)生NaCl、Na2SO4和CaCO3等化合物,這些化學物質與水在鍵態(tài)結構上的結合引發(fā)的振動,會產(chǎn)生特異性的光譜吸收峰特征[35]。例如,WANG等[36]指出波長2 200 nm附近是Na2SO4的光譜吸收峰,這與B12 波段的中心波長位置相一致。此外,KAHAER 等[37]在對新疆艾比湖流域土壤鹽分的光譜特征進行分析時發(fā)現(xiàn),SSC 的高度相關性波段均處在近紅外波段范圍之內(nèi),包括800~1 000 nm、1 300~1 400 nm、1 500~1 700 nm、1 800~1 900 nm 和2 000~2 100 nm。同樣地,SHRESTHA 等[38]在研究中也得出了衛(wèi)星影像的近紅外范圍內(nèi)波段是表層土壤鹽分高度敏感區(qū)。此外,在藍光波段(485 nm附近)的波段反射率與SSC 具有顯著的相關性[39],WANG 等[5]在進行SSC 光譜定量分析時也發(fā)現(xiàn),光譜范圍在500 nm 附近存在有SSC 的敏感特征波段。上述研究結果較好解釋了本研究對SSC的敏感波段VIS 評估結果。因此,將4 個波段(B11、B12、B2 和B8a)作為土壤鹽分的敏感光譜參數(shù),用作反演模型構建的輸入自變量。
圖3 哨兵影像各個波段的重要度值Fig.3 The variable importance scores(VIS)of various multispectral bands
將優(yōu)選得到的光譜波段作為輸入自變量,實測SSC 值為因變量,分別建立基于隨機森林和空間關聯(lián)隨機森林算法的SSC 遙感估算模型,結果如圖4所示??梢钥闯?,隨機森林模型的精度評價指標R2和RMSE分別為0.74 和0.59(圖4a),SSC 估算值和實測值出現(xiàn)較大偏差,偏差點較多,模型不能夠進行SSC 的準確估算,需要進一步提升。在圖4b 中,基于空間關聯(lián)隨機森林算法構建的SSC遙感估算模型的估算值和實測值數(shù)值比較接近,能夠基本保持在1∶1線附近,但隨著樣點實測值不斷變大,與估算值的偏差也開始增大。總的來看,利用隨機森林算法和多光譜影像波段無法實現(xiàn)對萊州灣濱海平原的SSC 的準確估算,而在采用空間關聯(lián)隨機森林算法構建模型時,則能夠較準確地對SSC 值進行遙感估算。
圖4 SSC估算值與實測值對比散點圖及驗證精度Fig.4 The scatter plots of the measured values versus estimated values of soil salt content and the validation accuracy
在不同的空間關聯(lián)度t值下,建立的空間關聯(lián)隨機森林模型的精度變化如圖5 所示??梢钥闯?,隨著t值的減小,對數(shù)據(jù)樣本間的空間關聯(lián)度要求增加,模型的精度逐步提升,當t值為1 時模型的性能最強。其后隨著t值的繼續(xù)降低,樣本總數(shù)量也進一步減少,模型得不到充分訓練,精度開始下降??傮w來看,空間關聯(lián)隨機森林模型的建立考慮了地理樣本數(shù)據(jù)的空間信息,提升了對SSC的估算精度,使模型在區(qū)域土壤信息制圖中的穩(wěn)健性得到增強。
圖5 不同t值下空間關聯(lián)隨機森林模型估算精度(n代表輸入樣本總數(shù))Fig.5 The accuracy of the spatial random forest model based on different t values(n is the number of the calculation samples)
為檢驗基于空間關聯(lián)隨機森林算法構建的遙感估算模型的穩(wěn)定性與可靠性,將得到的最優(yōu)估算模型應用至整個研究區(qū)進行SSC 的反演及空間制圖。反演的SSC 的空間分布如圖6 所示,整體來看,SSC 處于0.41~2.00 g/kg,SSC 的高值區(qū)(>50 g/kg)主要分布在研究區(qū)的西北部和東部部分地區(qū)。此外,研究區(qū)內(nèi)也存在大量塊狀分布的中度土壤鹽化區(qū)域,呈離散狀分布,主要分布于農(nóng)田之中,SSC 處在2~4 g/kg。參照相關土壤鹽化分級標準[40],研究區(qū)大部分屬于輕微水平的土壤鹽化區(qū)域(1 g/kg<SSC<2 g/kg),重度的土壤鹽化區(qū)域(SSC>6 g/kg)存在于西北部和東部部分地區(qū),但區(qū)域內(nèi)存在的離散狀分布 的 中 度 鹽 化 風 險(2 g/kg≤SSC<4 g/kg)應 引 起重視。
圖6 研究區(qū)SSC分布Fig.6 The spatial distribution of soil salt content of the study area
SSC分布主要受到微地貌、海水入侵、氣候因素的影響。研究區(qū)地處萊州灣南岸沿海地區(qū),區(qū)域淺層地下海咸水存量豐富,地表蒸發(fā)鹽分結晶后析出,鹽分晶體析出后在土壤表層聚集,造成部分區(qū)域SSC 不斷升高,在西北部和部分東部區(qū)域尤為顯著;同時,溫帶大陸性氣候在旱季表現(xiàn)出降水少且蒸發(fā)大的特點,在受到微地貌影響后,導致廣大田塊出現(xiàn)中度土壤鹽化的離散斑塊。
本試驗結果表明,空間關聯(lián)隨機森林模型在厘清區(qū)域地理環(huán)境中存在的樣本特異性和空間關聯(lián)性的同時,利用隨機森林方法建立起SSC 與影像波段反射率之間的回歸聯(lián)系,估算效果指標R2和RMSE達到0.86 和0.38,能夠較準確地完成區(qū)域尺度上SSC的遙感估算與數(shù)字制圖。傳統(tǒng)隨機森林算法通常假設樣本在空間上是獨立存在的,通過不斷改變決策樹的數(shù)量和節(jié)點數(shù)目擬合這種真實的地表環(huán)境過程,進而實現(xiàn)標簽值到特征值的信息轉換[41]。但很明顯,這種假設與真實的地理環(huán)境是存在一定偏差的,因此,直接將隨機森林模型應用至真實的環(huán)境會帶來一定誤差。另外,土壤屬性的含量特征與影像波段反射率之間有著確定的映射關系,但因受到大氣、水分和地表粗糙度等因素的影響使得這種對應關系異常復雜[42]。并且這種函數(shù)關系在不同的地理空間單元還存在顯著的差異,這種空間維度上的特殊性進一步增加了土壤屬性遙感估算與制圖模型的構建難度[1,14]。所以本研究在隨機森林算法中引入空間關聯(lián)函數(shù)模塊以判斷SSC數(shù)據(jù)樣本間的關聯(lián)度與異質度,聚類形成最優(yōu)的輸入樣本集,得到具有相對正態(tài)的數(shù)據(jù)集,使接下來的空間關聯(lián)隨機森林模型在訓練過程中可以減少決策樹和預測節(jié)點的選擇,有效提升運算效率和精度,模型的穩(wěn)健性得到增強。
本研究提出的基于空間關聯(lián)隨機森林算法的遙感估算模型,對于土壤環(huán)境情況復雜區(qū)域的SSC估算具有明顯的優(yōu)勢。試驗選擇的研究區(qū)地處海陸交接地帶,土壤的鹽化過程受到海洋和陸地氣候的共同作用,使得土壤鹽化的空間變異十分復雜。劉文全等[43]和蒙永輝等[44]通過在萊州灣濱海平原地區(qū)實地采集土壤樣品,運用傳統(tǒng)的地統(tǒng)計學和地理加權回歸等方法,研究了SSC 的空間變異性并繪制出土壤鹽分的空間分布圖,但此種方法的推廣應用受到經(jīng)費和時間的極大限制。張麗霞等[45]和曹文濤等[46]利用光譜定量分析技術和實測土壤高光譜數(shù)據(jù),采用多元回歸模型技術實現(xiàn)了萊州灣濱海平原地區(qū)局地尺度上的SSC的定量估算。但是在此特殊的景觀格局下,直接運用局地遙感估算模型進行SSC的區(qū)域制圖仍有局限。本研究提出的空間關聯(lián)隨機森林模型通過對輸入樣本集進行優(yōu)化選擇,使由此訓練得到的估算模型能夠較好地適應環(huán)境情況復雜區(qū)域SSC 的估算,并取得良好的空間估算精度,研究所得結果可為裸土期耕地SSC 的估算及空間分布監(jiān)測提供有效的方法支持。