王 飛,楊勝天,丁建麗,魏 陽,葛翔宇,梁 靜
?
環(huán)境敏感變量優(yōu)選及機器學習算法預測綠洲土壤鹽分
王 飛,楊勝天,丁建麗※,魏 陽,葛翔宇,梁 靜
(1. 新疆大學資源與環(huán)境科學學院智慧城市與環(huán)境建模自治區(qū)普通高校重點實驗室,烏魯木齊 830046; 2. 新疆大學綠洲生態(tài)教育部重點實驗室,烏魯木 齊 830046)
基于機器學習預測干旱區(qū)(如新疆)土壤鹽分的研究目前較少涉及且敏感變量的篩選還需深入探討。該研究比較5種機器學習算法(套索算法,The Least Absolute Shrinkage and Selection Operator-LASSO;多元自適應回歸樣條函數,Multiple Adaptive Regression Splines-MARS;分類與回歸樹,Classification and Regression Trees-CART;隨機森林,Random Forest-RF;隨機梯度增進算法,Stochastic Gradient Treeboost-SGT)在3個不同地理區(qū)域(奇臺綠洲,渭-庫綠洲和于田綠洲)的性能表現(xiàn);參與的變量被分為6組:波段,植被相關變量集,土壤相關變量集,數字高程模型(digital elevation model, DEM)衍生變量集,全變量組,優(yōu)選變量組(全變量組經過算法篩選后的變量集合)。通過算法篩選,以示不同研究區(qū)的鹽度敏感變量。同時借助以上述6組結果評判算法的性能。結果表明:綜合分析6個變量組的2和RMSE,預測精度排名如下:優(yōu)選變量組>植被指數變量組>土壤相關變量組>波段>DEM衍生變量組。由于結果不穩(wěn)定,全變量組未參與排名。在所有變量中,植被指數(EEVI,ENDVI,EVI2,CSRI,GDVI)和土壤鹽度指數(SIT,SI2和SAIO)與土壤鹽度相關性高于其他變量。綜合評價以上5種算法,Lasso和MARS的預測結果出現(xiàn)極端異常值,但其預測結果能基本呈現(xiàn)土壤鹽分空間分布格局。CART的結果能清晰分辨灌區(qū)和非灌區(qū)土壤鹽分的分布態(tài)勢,但二者內部并無太多變化且穩(wěn)定性較差。RF和SGT的結果顯示,二者在3個綠洲的土壤鹽分值域范圍和土壤鹽分空間分布格局相似,紋理信息相對其他3個算法更為豐富。更為重要的是,算法在各個地區(qū)的結果都較為穩(wěn)定。二者相比,SGT驗證精度相對最高,其次為RF。
土壤鹽分;遙感;機器學習;綠洲;Landsat OLI;數字高程模型;新疆
2014年,新疆的鹽漬化耕地占灌溉面積約為37.72%,比2006年高出6個百分點[1],嚴重制約當地的經濟發(fā)展和生態(tài)保護。許多學者利用地面采樣數據結合環(huán)境變量探討土壤鹽漬化與地理環(huán)境之間的關系,并建立相應的土壤鹽度預測模型評價其分布范圍和土壤鹽度嚴重狀況[2-8]。數據挖掘被定義為通過自動化或半自動化訓練并發(fā)掘大型電子數據集中存在的模式,進而基于此模式提取新數據中目標信息的過程[9]。目前,越來越多的機器學習算法被開發(fā)利用,但是基于該方法的土壤鹽堿化模擬預測研究尚處于前期階段。Taghizadeh-Mehrjardi等[10]基于分類和回歸樹(classification and regression trees, CART)分析環(huán)境變量與土壤鹽分之間的關系并建立相應模型預測待定深度和區(qū)域的土壤鹽漬化分布。該方法的優(yōu)勢在于不需要假定變量符合某種分布且能夠處理缺失數據。在Muller和Van Niekerk的研究中[11],使用CART建立圖像特征和土壤電導率之間的關系。Vermeulen和Van Niekerk將數字高程模型衍生因子作為機器學習算法(-最鄰近(K-NN),支持向量機(support vector machine,SVM),CART和隨機森林(random forest,RF))的輸入變量,預測研究區(qū)土壤鹽害影響的地區(qū)和范圍[12]。結果顯示,相比較而言,CART的精度最高。
縱觀目前土壤屬性制圖研究,多半采用統(tǒng)計學方式,原因在于機理性模型需要的參數過多,且應用的尺度太小,推廣至大尺度比較困難。土壤景觀模型是結合機理模型中的關鍵因素,同時有能借助統(tǒng)計學模型將其推廣至大尺度。但由于地理環(huán)境的差異性,即便是宏觀上相似的干旱區(qū),隨著自然環(huán)境的變化(地貌,母質,植被和水資源等),模型的通用性會受到考驗。為了能盡量準確地反演本地區(qū)的土壤鹽分空間分布特征,合適的變量尤為重要。所以本研究通過選擇新疆3個典型綠洲為研究靶區(qū),檢測哪些變量在干旱區(qū)識別鹽分含量方面具備較高的通用性。同時,目前未有研究涉及比較不同機器學習算法在干旱區(qū)多個綠洲灌區(qū)預測鹽分的性能。
綜上所述,本文的研究目的主要包括以下兩點。一是篩選出新疆典型綠洲(奇臺綠洲,渭干河-庫車河綠洲(以下簡稱渭-庫綠洲)和于田綠洲)地區(qū)土壤鹽度敏感性較高的變量。二是對比5種機器學習算法(套索算法-Least absolute shrinkage and selection operator,LASSO;多元自適應回歸樣條函數-Multivariate Adaptive Regression Splines, MARS;CART;RF,隨機梯度增進算法-Stochastic Gradient Treeboost-SGT)的實際表現(xiàn)并評選出適用于綠洲土壤鹽度反演的最優(yōu)算法。
奇臺綠洲(89°13′~91°22′E,43°25′~49°29′N)位于新疆天山山脈東段博格達山北麓。南部為山地,中部為沖積平原,北部為戈壁沙漠區(qū)。海拔范圍568~978 m。年平均降水量184.8 mm,年平均蒸發(fā)量2 141 mm,年平均氣溫約5.1~6.1 ℃。大部分降水發(fā)生在6-8月,年均降水量為176 mm。天然植被包括芨芨草((.)),駱駝刺(),鹽爪爪((.))鹽節(jié)木(()),豬毛菜()。奇臺綠洲鹽漬地面積11 090 hm2,占農業(yè)總面積的31%。
渭-庫綠洲(80°37′~83°59′E,41°06′~42°40′N)位于塔里木盆地西北部。該范圍包括新和、庫車和沙雅3個縣,總面積523.76×104hm2。海拔范圍892~1 100 m,由西北向東南遞減。該區(qū)氣候異常干旱,年平均降水量51.6 mm,年平均潛在蒸散量2 356 mm,年平均氣溫10.5~14.4 ℃。自然條件下植被覆蓋較低,優(yōu)勢植被群落包括蘆葦()檉柳(),駱駝刺(),花花柴(),鹽爪爪()等。灌區(qū)內鹽堿化面積達到50%以上,其中嚴重鹽堿化面積達30%。
于田綠洲(81°09′~82°51′E,35°14′~39°29′N)屬克里雅河流域。地處塔克拉瑪干沙漠南緣,昆侖山中部北坡,地勢南高北低,海拔1 180~5 460 m。多年平均降水量47.1 mm,年平均氣溫12.4 ℃和年平均潛在蒸散量為2498 mm。綠洲土壤母質以棕漠土為主。主要的植被有胡楊()、檉柳()、蘆葦()等。
本研究中3個綠洲所用的衛(wèi)星圖像均為Landsat OLI(奇臺綠洲,行列號為141/29,獲取時間為2016年8月29日;渭-庫綠洲,行列號為145/31,2014年9月14日,于田綠洲,行列號為145/34,獲取時間為2015年9月17日)。使用ENVI 5.3 中的FLAASH模型進行大氣糾正,并將數字信號轉化至反射率(0~1)。糾正后的反射率數據用于計算環(huán)境變量(指數)。
采樣點設計考慮了本地土壤類型,景觀特征,植被類型,地貌類型和交通可達性(圖1)。在野外樣品采集過程中,選取樣點(30 m×30 m)的土壤性質盡量相對一致,環(huán)境因素相似,異質性相對較小,每個樣點用五點梅花的方式取土,隨后將測試的數據進行平均作為本樣點的實際觀測值。奇臺綠洲的采樣深度為0~20 cm,樣本量為101個,采樣時間為2016年8月26日至9月1日。同樣的采樣方法應用于渭-庫綠洲,樣本數量189個,采樣深度同樣為0~20 cm,采樣時間為2016年9月26日至9月1日。于田地區(qū)則選擇了5種地類,代表本地不同的景觀類型。分別為克里雅河岸邊的農田及荒地;植被覆蓋度低的沙漠;河流末端的洪水沖積平原;農田的鹽堿化矮草地;綠洲內部的農田。共采集100個樣本,采樣深度為0~20 cm,采樣時間為2015年9月13日至9月21日。將采集的土壤樣品風干,研磨,并用2 mm篩網過濾。參照《土壤農業(yè)化學分析方法》[13],測定土壤中的八大離子(Ca2+,Mg2+,K+,Na+,CO32-,HCO3-,Cl-,SO42-),并用離子加和法計算土壤中的鹽分含量。
圖1 奇臺綠洲,渭-庫綠洲和于田綠洲樣點分布圖
在本研究中,基于SCORPAN公式選擇用于預測土壤鹽分預測的環(huán)境變量[14],涉及母質(Parent material, PM)、氣候(Climate)、生物(Organism)、地形(Relief)、土壤(Soil)等多個因素。具體指數參見表1。其中地形衍生變量集源于8個空間分辨率(因研究地區(qū)地形較為平坦):30,60,90,120,150,180,210和240 m。
表1 基于Landsat OLI和DEM衍生的環(huán)境變量
注:PM:母質;O:生物;S:土壤;T:時間;R:地形
Note: PM: Parent material; O:Organism; S: Soil; T:Time; R:Relief
本文選擇的算法都具備篩選變量的能力,但策略和方式各有不同。研究并沒有限定變量個數,而是通過不同算法內在的機制進行自適應選擇,以最大化算法的精度。
已有研究表明基于迭代刪除潛在不相關的預測變量,有利于減少不確定性,進而提高預測精度[24-25]。本研究中,參與的變量被分為5個基本組和1個最優(yōu)組:波段,植被相關變量集,土壤相關變量集,數字高程模型(digital elevation model, DEM)衍生變量集,全變量組。每個組根據迭代過程計算都會產生最優(yōu)變量集合。研究之所以把變量分組在于從多個角度(各組變量數目以及變量與土壤鹽之間的相關性各不同)考察算法的挖掘能力。變量優(yōu)選策略源于Svetnik等[24]和Heung等[25]的研究成果:
1)首先以Landsat OLI全波段為例,將其全部輸入機器學習算法。各個算法依據平均精確率減少(Mean decrease accuracy, MDA)法,將預測變量的重要性進行排序(值域范圍0~100,其中100代表相對最重要,0代表最不重要)。
2)重要性排名最后一位的預測變量會被刪除。剩余的變量進入下一輪排序,之后再刪除最后一位變量,依次類推。直到參與的變量只剩下最后兩位,循環(huán)結束。每次運算都會產生均方根誤差(root mean square error,RMSE)和2。最后根據RMSE和2判斷最優(yōu)變量數目,原則上以RMSE最小為最優(yōu)。
3)循環(huán)步驟1-2,直到遍歷所有變量組,得到每個變量集的最優(yōu)組合。
除MARS使用Matlab(2014)計算外,其他4種機器學習方法皆使用R語言實現(xiàn),分別為Lasso的“glmnet”[26],CART的“caret”[27],RF的“randomFForest”[28]和SGT的“gbm”[29]。根據文獻記載和本地試驗,調整合適的初始化參數,以輸出相對客觀的結果。
在建模之初,為了盡量減少因缺失重要變量而出現(xiàn)模型偏差,通常會選擇較多的自變量。然而,這可能會給建模過程帶來更多的不確定性,因此需要尋找最具有強解釋力的自變量集合。Lasso算法是一種集合嶺回歸和最小二乘法且能夠實現(xiàn)變量集合精簡的估計方法。該方法通過構造罰函數改進通用最小二乘法(OLS)技術,壓縮變量系數并設定一些系數為0,同時融合嶺回歸核心思想保留處理共線性數據的有偏估計。因此,Lasso同時實現(xiàn)變量選擇和回歸建模[30]。在Lasso中,需要設置3個參數,分別是損失函數(此研究中設置為最小二乘法),point值設為200和steps值設置為5000。
MARS是由Friedman提出,該方法通過樣條函數模擬復雜非線性關系,將其劃分為若干個區(qū)域,在每個特定區(qū)域由基函數回歸模型擬合。該方法是經典線性回歸,樣條函數和二元回歸的技術組合,且可自動模擬非線性變量之間的相互作用[31]。每個區(qū)間都會產生最為合適的基本函數(Basis function)。特定范圍內的基礎函數是獨立存在的,范圍內的初始和結束點稱為結(Knot)。結表示函數行為發(fā)生變化的重要結點。因此,Knot和Basis function對于在MARS中獲得最佳結果具有重要作用。MARS具備以下特點:1)處理復雜的非線性變量關系時,不需要假設預測變量和預報因子的線性關系、指數關系及正態(tài)假設;2)是一種泛化能力較強的專門針對高維數據的回歸方法,以“前向”和“后向”算法逐步篩選因子,具有較強的自適應性。根據Friedman的建議,Knot的初始值設為3,最大化基函數設為15。
CART采用一種二分遞歸分割的技術,將當前的樣本集分為兩個子樣本集,使得生成的的每個非葉子節(jié)點都有兩個分支?;舅枷霝椋阂皇腔谶f歸劃分將訓練樣本進行分割建樹,二是基于交叉驗證數據進行剪枝。該方法對于輸入變量分布不需要假設(即分布和獨立殘差),抽取規(guī)則簡便且易于理解,對于異常點的容錯能力好,面對存在缺失值、變量數多等問題時健壯性較高,具備一定數據噪聲的抑制能力而得以廣泛應用。此外,為了抑制噪聲,可以通過設置節(jié)決策樹深度來改進,最大深度被設置為5[27]。
隨機森林是將多棵樹集成的一種算法,它的基本單元是決策樹。該算法的優(yōu)勢在于具備非線性挖掘能力;數據分布不需要符合任何假設;同時處理等級和連續(xù)變量;防止過度擬合;有效抑制數據中存在噪聲;訓練速度快;定量描述變量的貢獻度;只需要率定少量參數。該算法僅需定義兩個參數[25]:終端節(jié)點樹(ntree值設置為1 000)和每個節(jié)點隨機選擇的變量的數量(由m定義,設定為自變量數目的1/3,平方根或者2*平方根)。后者經過重復的計算和比較,研究將其設置為2*平方根[25]。
SGT是回歸樹和Boosting的集成。Boosting的核心思想是:初始狀態(tài)下為每個訓練樣本賦予一樣的權重值,每次迭代訓練提高錯分樣本的權重,降低分對樣本的權重。在減少殘差梯度方向上不斷建立新的模型,直到誤差不再降低為止。迭代次之后,得到個弱分類器,最終通過權重加和的方式集合成強分類器[32]。該算法不需要變量的先驗假設,比傳統(tǒng)的廣義線性或加權模型提供更大的靈活性[32]。存在空間異質性和異常值時,SGT依然能獲得較高的預測精度。該算法需要設置以下三個參數:抽樣比例,樹的最大化子節(jié)點個數和每次生成的樹的數量。抽樣比例為1時,每次迭代的樣本集相同,小于1時,抽取的訓練樣本集都不同,有助于過擬合,這里設置為0.75[33]。樹的最大化子節(jié)點個數設定6[34]。每次生成的樹的數量設置為1 000。
交叉驗證對于人工智能,機器學習,模式識別,分類器等研究都具有很強的指導與驗證意義。其基本思想是把原始的數據(original dataset)分成為訓練集(train set)和驗證集(validation set or test set)。K-fold Cross Validation(記為K-CV)是交叉驗證中較為常用的方法。Taghizadeh-Mehrjardi 等[35]建議將設置為5,其優(yōu)勢在于計算所獲結果具備無偏估計和穩(wěn)定可靠的特征。同時,該驗證過程需要反復的迭代而不是單次的訓練-驗證。該驗證方法更適合規(guī)模較少的數據集。將訓練數據集隨機分為5個子集,其中4/5的觀測值用于模型訓練,1/5用于模型驗證。對于文中使用的5種算法(Lasso,MARS,CART,RF和SGT),其驗證過程重復10次,再求其平均值。研究使用平均方根誤差(RMSE)和決定系數(2)量化最終的精度。當模型的2值趨近于1和RMSE值向零遞減被認為逐步趨于最佳。
表2列出了3個綠洲野外樣品土壤鹽分統(tǒng)計特征。值域范圍與前人研究結果相近[36-38],側面驗證了本研究中樣本的代表性。奇臺綠洲變異系數(variable coefficient, VC)說明該地表層土壤鹽分含量屬于中度變異性。土壤鹽漬化分類標準:非鹽漬土壤(<7 g/kg),低鹽漬土壤(7~9 g/kg),中度鹽漬土壤(9~13 g/kg),重度鹽漬土(13~16 g/kg)和鹽漬土(>16 g/kg))[39]。渭-庫綠洲樣品統(tǒng)計結果顯示,約50%的樣本屬于非鹽化土壤,37.57%屬于極端鹽堿地,VC值等于1.23,表明該綠洲土壤含鹽量屬于強變異性。在于田綠洲,52%的樣品屬于鹽漬土類型,土壤鹽分呈中等變異性。
表2 奇臺綠洲,渭-庫綠洲和于田綠洲土壤鹽分統(tǒng)計特征
圖2顯示了3個綠洲土壤鹽分和遙感數據衍生變量之間的相關性。由于地理環(huán)境的差異性導致土壤鹽分與環(huán)境變量之間的相關性各有不同。通過初步對比得到以下結果:1)整體而言,植被指數對于3個綠洲土壤鹽度空間變異的指示作用位居首列,二者呈負相關性;4組變量相關性的平均絕對值:奇臺綠洲:植被指數變量組(=0.49),波段(=0.45),土壤相關指數變量組(=0.36),DEM衍生變量組(=0.08);渭-庫綠洲:植被指數變量組(=0.56),波段(=0.45),土壤相關指數變量組(=0.36),DEM衍生變量組(=0.08);于田綠洲:植被指數變量組(=0.48),波段(=0.38),DEM衍生變量組(=0.18),土壤相關指數變量組(=0.16)。2)基于DEM計算的衍生指數的解釋力相對薄弱,相關性顯著的變量其空間分辨率都較為粗糙。3個綠洲其氣候變化、土壤類型、母質、植被群落構成、農業(yè)管理方式、土地利用方式和強度各有不同,進而影響到水資源在空間上的分布方式。根據“鹽隨水來,鹽隨水走”的定律,土壤鹽度的空間變異性與環(huán)境之間的響應程度表現(xiàn)出一定的差異性。
圖2 研究區(qū)環(huán)境變量與土壤鹽度之間的相關性
綜合對比3個綠洲發(fā)現(xiàn)(表3),基于Landsat OLI衍生的變量中,ENDVI,EEVI,EVI2,GDVI,CSRI,EVI2,SAIO,SIT,SI2與土壤鹽分存在較為密切的關系,揭示上述指數在干旱區(qū)具備一定的通用性。植被指數ENDVI和EEVI首次應用于中國的黃河河口地區(qū),結果表明,與土壤鹽分呈顯著性相關(=?0.73,=113,土壤鹽分范圍為0.80~35.2 g/kg)[5]。EVI2和SAIO首次用于推斷干旱區(qū)土壤鹽分,結果表明在干旱區(qū)該指數具備一定的鹽分探測能力。在Allbed等的研究中,3個研究子區(qū)(位于沙特阿拉伯)的SIT與土壤鹽分的相關性分別為=0.51,0.67和0.78[8]。本研究中SIT與土壤鹽分的相關系數為0.58,在上述范圍內。SI2的值為0.50(<0.01),略高于Douaoui等(=0.44,ECe>4 dS/m;=0.33,ECe>8 dS/m)[2]與Allbed等[8](=0.35,<0.01)的研究結果。GDVI(該指數的形式為(b4-b3)/(b4+b3)),當=1,等于NDVI,當=2時,對土壤鹽度具有很好的預測能力(=20,=?0.87)[7],該指數在本研究中的值等于?0.63(=189)。CSRI是近年來新建的植被指數,最初應用于農業(yè)富集地區(qū)的土壤鹽分評價。該指數的制定是經驗性的,與任何植物生理性質無關,但與一般植物健康相關。Scudiero等[4]表明,CRSI與土壤鹽度呈線性關系,2=0.56(=267,來自22個農田),高于渭-庫綠洲,=?0.598(=189)。與奇臺綠洲和于田綠洲相比,CSRI的表現(xiàn)并不突出,部分原因是由于渭-庫車綠洲48%的樣品(屬于非鹽漬化,植被覆蓋度較高)來自農田,由此可見,CSRI可能更適合于植被密度較高的農田,但需要進一步驗證。
DEM優(yōu)選衍生變量組中篩選后的指數與本地水資源分布方式有關。觀察3個研究區(qū)的結果后發(fā)現(xiàn),奇臺綠洲DEM衍生變量最優(yōu)變量與水文有關的占多數。渭-庫車綠洲以河道和地形形態(tài)衍生變量為主,于田綠洲受水文和地形形態(tài)學衍生變量雙重影響。據奇臺綠洲田間調查,當地多數農作物廣泛采用漫灌方式(生長季節(jié)開始和收獲季結束尤為常見)。次生鹽漬化和水污染問題較為嚴重。張芳等[36]指出,奇臺綠洲海拔680 m以下緩坡區(qū)為鹽積區(qū),此結果與地形衍生變量組中SH,STH和MSP的出現(xiàn)相一致。在渭-庫綠洲,從1978年至今,為了應對人口增長和提升田間產能的需求,建成了大量的水利工程,平原水庫和灌溉渠道。該地鹽漬化地區(qū)的分布深受水資源再分配的影響。于田綠洲地區(qū)水文相關的地形變量占主導地位,其次是河道和地形衍生變量,這與樣點的位置(大部分靠近河流)和較高的樣點密度有關。因此,高分辨率的變量更敏感。
表3 基于5種機器學習篩選的奇臺綠洲,渭-庫綠洲和于田綠洲/的優(yōu)選變量集及各指數重要性(%)
圖3顯示了以SGT為例,變量選迭代過程和精度軌跡曲線。奇臺綠洲,當變量數量等于7(2=0.49,RMSE=11.65),12(2=0.49,RMSE=11.57)和16(2=0.49,RMSE=11.59)時,預測精度相似。然而,當變量按照重要性排序從7到16連續(xù)增加時,精度不會顯著提高??紤]到模型的穩(wěn)定性和不確定性,使用7個變量(即=7)被認為是合適的。在渭-庫綠洲,當變量的數量迭代到7和10時,這2種模型在該地的精度都比較高。因此,按照上述原則,7個變量被認為是最佳組合。于田綠洲的結果表明,當變量的數量從初始集迭代到最后2個指數時,精度最高,隨著變量的增加,精度單調遞減。
圖3 研究區(qū)基于SGT的變量迭代過程和精度軌跡(重要性排名第40的變量到最后2個)
將所有變量輸入算法后,與其余5個分組的結果相比,精度并沒有提升,但經過變量優(yōu)選后,解釋力顯著提高(表4)。對比5種算法,奇臺綠洲的精度提升范圍最大值為88%,渭-庫綠洲最小值為?8.3%,最大值為35%,于田綠洲最小值為?8.3%,最大值為58%。奇臺綠洲優(yōu)選變量集合的最大解析力2=0.49,渭-庫綠洲2=0.54,于田綠洲2=0.60。此外,研究發(fā)現(xiàn)優(yōu)選變量組的覆蓋類型(植被,地形和土壤相關變量)較為全面。以最大解釋力數據集為例,奇臺綠洲的前4個變量涉及植被(ENDVI),土壤(SI2)和地形(MSP 90 m);庫車綠洲最優(yōu)變量集涉及土壤相關(SAIO),植被(EVI2),與植被和土壤信息皆相關的B1和地形相關(VD180m)。于田綠洲最優(yōu)變量組合為EEVI和EVI2,前者中的波段幾乎覆蓋了Landsat OLI可見光,近紅外和中紅外,后者對于地物背景具備一定識別性[5]。
表4 基于不同變量數據集和機器學習算法的奇臺綠洲,渭-庫綠洲和于田綠洲土壤鹽度預測精度驗證
土壤鹽分預測的準確程度主要取決于變量對土壤鹽分的響應性,其次是算法的挖掘能力[4,6-7,10]。首先,觀察各綠洲5組變量的結果發(fā)現(xiàn),如果變量與土壤鹽分之間的相關性越強,預測與實測土壤鹽分之間的一致性越高。其次,機器學習算法涉及的變量個數較少時,驗證精度差異不明顯。當變量的數量增加后且與各土壤鹽分相關性較低時,如DEM衍生變量組,較其他模型而言,SGT和RF從復雜變化環(huán)境中挖掘有用信息的能力高于其他模型。全變量組使用變量迭代優(yōu)化后,各算法的精度都得以提升,其中各綠洲SGT預測精度最高且提升最為明顯,3個綠洲的表現(xiàn)較為一致,其次是RF。LASSO是基于相對最優(yōu)秀的變量建模,而MARS則考慮了非線性關系,采用分段擬合的方式,是線性和非線性的融合。SGT是不斷改進一棵樹,而RF則是取多棵樹的平均值,從結果上看SGT的建模方式相對更適合土壤鹽漬化-環(huán)境變量模型。此外,研究還針對目前機器學習中應用較廣的SVM和BP神經網絡與本文選擇的五種方法對比,結果顯示,3個綠洲中SVM和BP在5組數據對比中,2值較高,但是RMSE也較高。原因在于上述算法的學習策略中不提供變量重要性排序,無法進行迭代運算,以減少不確定性變量。
圖4展示了基于5種算法預測的土壤鹽度分布圖。奇臺綠洲南部以農田為主,整體土壤鹽分含量較低。向南隨著海拔高度的降低,地下水位上升,鹽漬化土地以面狀分布于綠洲荒漠交錯帶和點狀分布于灌區(qū)農田分布區(qū)。研究區(qū)北部半固定沙丘地帶,地下水位下降,土壤鹽漬化水平相對過渡帶而言有所減緩,但依然高于農田種植區(qū)。對比以上實地調查結果,基于SGT的預測結果更符合實際情況,其次是RF。CART的結果并未顯示出土壤鹽分的空間分布格局。LASSO的結果雖然能體現(xiàn)土壤鹽分的分布格局,但極端異常值分布較為明顯。MARS的結果顯示沙漠地區(qū)和農田的土壤鹽分存在趨同現(xiàn)象,不符合實際情況。渭-庫綠洲的鹽漬化土壤主要分布于灌區(qū)外圍的綠洲-荒漠交錯帶,灌區(qū)內部亦有出現(xiàn)(點狀)。對比5種算法,SGT和RF的預測結果更符合我們對該區(qū)鹽漬化土壤分布的認知。CART的預測結果二值化現(xiàn)象明顯,且土壤鹽分含量值域區(qū)間相近的地區(qū)其內部缺少紋理信息。LASSO和MARS的預測結果中出現(xiàn)極端異常值,但保留相對清晰的土壤鹽度分布格局信息。于田綠洲,鹽漬化土壤主要出現(xiàn)于灌區(qū)外圍的裸地以及河流兩側。5種算法的預測結果從格局分布上而言,都符合該調查事實,但SGT和RF的結果更接近實地情況。剩余3種算法都有負值出現(xiàn)。綜上所述,結合2和RMSE的結果,研究認為SGT的預測結果更符合實際情況,是干旱區(qū)土壤鹽分的首選算法,其次為RF。
圖4 基于LASSO, MARS, CART, RF和SGT預測的奇臺,渭-庫和于田綠洲土壤鹽度空間分布
為了對比本文研究結果與已有成果,本文檢索近些年使用Landsat數據模擬和驗證土壤鹽分相關研究,并總結如下:研究區(qū)包括伊拉克中部地區(qū),美國加利福尼亞州西部的圣華金河谷,中國北方內蒙古河套灌區(qū),黃河三角洲,阿爾及利亞,土耳其,新疆北部的瑪納斯綠洲,新疆南部的渭-庫綠洲等。采樣深度包括0~30 ,0~20,0~10 cm。2值等于0.874,0.483,0.78,0.45,0.65,0.93,0.92,0.44。研究方法包括線性和非線性模型。關鍵變量或者指數包括GDVI,EEVI,SI,NDVI,CRSI,SAVI等?;仡櫳鲜鲅芯?,由于取樣深度,敏感變量,研究法方法,驗證方法和研究區(qū)域的地理環(huán)境的差異,可以看出結果是多樣的。此外,基于機器學習的土壤鹽分預測在新疆3個研究區(qū)涉及較少。所以本文的研究結果是對機器學習對該領域的知識實踐和內容補充。
1)總體而言,根據2和RMSE,5個變量組的預測精度排名如下:優(yōu)選變量組>植被指數變量組>土壤相關變量組>波段>DEM衍生變量組。
2)研究發(fā)現(xiàn)以下變量對于本地鹽度變化具有較強的指引性和普適性:EEVI,ENDVI,EVI2,CSRI,GDVI,SIT,SI2,SAIO。
3)綜合對比3個綠洲的測試結果,基于回歸樹結構的機器學習(隨機梯度增進算法SGT和隨機森林RF)總體性能優(yōu)于分類與回歸樹CART,多元自適應回歸樣條函數MARS和套索算法LASSO。其中,SGT的預測精度相對最高(2=49,RMSE=11.65;2=0.54,RMSE=15.08;2=0.60,RMSE=11.67)。其次為RF(2=0.48,RMSE=12.02;2=0.46,RMSE=16.79;2=0.60,RMSE=12.38)?;谕寥利}漬化發(fā)生機理的復雜性,以及其與變量之間的非線性關系,更多呈現(xiàn)出的是弱關聯(lián)。如何將弱關系組合成魯棒性更好的模型正是RF和SGT的強項,而MARS和Lasso在這一方面稍顯不足。
[1] 田長彥,買文選,趙振勇. 新疆干旱區(qū)鹽堿地生態(tài)治理關鍵技術研究[J]. 生態(tài)學報,2016,36(22):7064-7068.
Tian Changyan, Mai Wenxuan, Zhao Zhenyong. Study on key technologies of ecological management of saline alkali land in arid area of Xinjiang[J]. Acta Ecologica Sinica, 2016, 36(22): 7064-7068. (in Chinese with English abstract)
[2] Douaoui AEK, Nicolas H, Walter C . Detecting salinity hazards within a semiarid context by means of combining soil and remote-sensing data[J]. Geoderma, 2006, 134(1): 217-230.
[3] Metternicht GI, Zinck JA. Remote sensing of soil salinity: Potentials and constraints[J]. Remote Sensing of Environment, 2003, 85(1): 1-20.
[4] Scudiero E, Skaggs T H, Corwin DL. Regional-scale soil salinity assessment using Landsat ETM+canopy reflectance[J]. Remote Sensing of Environment, 2015, 169: 335-343.
[5] 陳紅艷,趙庚星,陳敬春,等. 基于改進植被指數的黃河口區(qū)鹽漬土鹽分遙感反演[J]. 農業(yè)工程學報,2015,31(5):107-114.
Chen Hongyan, Zhao Gengxing, Chen Jingchun, et al. Remote sensing inversion of saline soil salinity based on modifiedvegetation index in estuary area of Yellow River[J]. Transactions of the Chinese Society of Agricultural Engineering(Transactions of the CSAE), 2015, 31(5): 107-114. (in Chinese with English abstract)
[6] Scudiero E, Skaggs TH, Corwin DL. Regional scale soil salinity evaluation using Landsat 7, western San Joaquin Valley, California, USA[J]. Geoderma Regional, 2014(2/3): 82-90.
[7] Wu W, Mhaimeed AS, Al-Shafie WM, et al. Mapping soil salinity changes using remote sensing in Central Iraq[J]. Geoderma Regional, 2014, 2-3: 21-31.
[8] Allbed A, Kumar L, Aldakheel YY. Assessing soil salinity using soil salinity and vegetation indices derived from IKONOS high-spatial resolution imageries: Applications in a date palm dominated region[J]. Geoderma, 2014, 230-231: 1-8.
[9] Witten IH, Frank E, Hall MA. Data Mining: Practical Machine Learning Tools and Techniques, Second Edition (Morgan Kaufmann Series in Data Management Systems)[M]. San Francisco: Morgan Kaufmann Publishers Inc. 2011: 206-207.
[10] Taghizadeh-Mehrjardi R, Minasny B, Sarmadian F, et al. Digital mapping of soil salinity in Ardakan region, central Iran[J]. Geoderma, 2014, 213: 15-28.
[11] Muller SJ, Van Niekerk A. Identification of WorldView-2 spectral and spatial factors in detecting salt accumulation in cultivated fields[J]. Geoderma, 2016, 273: 1-11.
[12] Vermeulen D, Van Niekerk A. Machine learning performance for predicting soil salinity using different combinations of geomorphometric covariates[J]. Geoderma, 2017, 299: 1-12.
[13] 魯如坤. 土壤農業(yè)化學分析方法[M]. 北京:中國農業(yè)科技出版社,1999.
[14] Mcbratney A B, Santos M L M, Minasny B. On digital soil mapping[J]. Geoderma, 2003, 117(1): 3-52.
[15] Wu W. The generalized difference vegetation index (GDVI) for dryland characterization[J]. Remote Sensing, 2014, 6(2): 1211-1233.
[16] Mondal P. Quantifying surface gradients with a 2-band Enhanced Vegetation Index (EVI2)[J]. Ecological Indicators, 2011, 11(3): 918-924.
[17] Tripathi NK, Brijesh KR. Spatial modelling of soil alkalinity in GIS environment using IRS data[C]. Kualalampur: Paper presented at the 18th Asian Conference in Remote Sensing, 1997.
[18] Abbas A, KhanS. Using remote sensing techniques for appraisal of irrigated soil salinity[C]. New Zealand: MODSIM 2007 International Congress on Modelling and Simulation, 2007.
[19] Boettinger J L, Ramsey R D, Bodily J M. Digital Soil Mapping with Limited Data [M].Dordrecht: Springer, 2008: 193-202.
[20] Nield SJ, Boettnger JL, Ramsey RD. Digital mapping gypsic and nitric soil areasvusing Landsat ETM data[J]. Soil Science Society of America Journal, 2007(71): 245-252.
[21] Yu R, Liu T, Xu Y, et al. Analysis of salinization dynamics by remote sensing in Hetao Irrigation District of North China[J]. Agricultural Water Management, 2010, 97(12): 1952-1960.
[22] Hardisky M S, Klemas V, Smart MR. The influence of soil salinity, growth form, and leaf moisture on the spectral radiance of Spartina Alterniflora canopies[J]. Photogrammetric Engineering and Remote Sensing, 1983, 48(1): 77-84.
[23] Ceccato P, Gobron N, FlasseS, et al. Designing a spectral index to estimate vegetation water content from remote sensing data: Part 1[J]. Remote Sensing of Environment, 2002, 82(2): 188-197.
[24] Svetnik V, Liaw A, Tong C, et al. Random forest:? A classification and regression tool for compound classification and QSAR modeling[J]. Journal of Chemical Information and Computer Sciences , 2003, 43(6): 1947-1958.
[25] Heung B, Bulmer CE, Schmidt MG. Predictive soil parent material mapping at a regional-scale: A Random Forest approach[J]. Geoderma, 2014, 214: 141-154.
[26] Friedman J, Hastie T, Tibshirani R. Regularization paths for generalized linear models via coordinate descent[J]. Journal of Statistical Software, 2010, 33(1): 1-22.
[27] Kuhn M, Leeuw JD., Zeileis A. Building predictive models inusing the caret package[J]. Journal of Statistical Software, 2008, 28(5): 1-26.
[28] Liaw A, Wiener M. Classification and Regression by randomForest. R News, 2002, 2: 18-22.
[29] Ridgeway G. gbm: generalized boosted regression models R package version 2.1.1, 2015. https://CRAN.R-project.org/package=gbm.
[30] Robert T. Regression Shrinkage and Selection via the Lasso[J]. Journal of the Royal Statistical Society: Series B Statistical Methodology, 2011, 73(3):273-282.
[31] Friedman JH. Multivariate Adaptive Regression Splines[J]. The Annals of Statistics, 1991, 19(1):1-67.
[32] Friedman JH. Stochastic gradient boosting[J]. Computational Statistics & Data Analysis, 2002, 38(4): 367-378.
[33] Angileri SE, Conoscenti C, Hochschild V, et al. Water erosion susceptibility mapping by applying Stochastic Gradient Treeboost to the Imera Meridionale River Basin (Sicily, Italy)[J]. Geomorphology, 2016, 262: 61-76.
[34] Schillaci C, Lombardo L, Saia S, et al. Modelling the topsoil carbon stock of agricultural lands with the stochastic gradient treeboost in a semi-arid Mediterranean region[J]. Geoderma, 2017, 286: 35-45.
[35] Taghizadeh-Mehrjardi R, Nabiollahi K, Kerry R. Digital mapping of soil organic carbon at multiple depths using different data mining techniques in Baneh region, Iran[J]. Geoderma, 2016, 266: 98-110.
[36] 張芳,熊黑鋼,田源,等. 區(qū)域尺度地形因素對奇臺綠洲土壤鹽漬化空間分布的影響[J]. 環(huán)境科學研究,2011,24(7):731-739.
Zhang Fang, Xiong Heigang, Tian Yuan, et al. Impacts of regional topographic factors on spatial distribution of soil salinization in Qitai oasis[J]. Research of Environmental Sciences, 2011, 24(7): 731-739. (in Chinese with English abstract)
[37] Gong L, Ran Q, He G, et al. A soil quality assessment under different land use types in Keriya river basin, Southern Xinjiang, China[J]. Soil & Tillage Research, 2015(146): 223-229.
[38] 張飛,塔西甫拉提·特依拜,丁建麗. 渭干河-庫車河三角洲綠洲土壤鹽漬化現(xiàn)狀特征及其與光譜的關系[J]. 環(huán)境科學研究,2009,22(2):227-235.
Zhang Fei, Tashpolat Tiyip, Ding Jianli. Relationships between soil salinization and spectra in the delta oasis of Weigan and Kuqa Rivers[J]. Research of Environmental Sciences, 2009, 22(2): 227-235. (in Chinese with English abstract)
[39] 新疆維吾爾自治區(qū)土壤普查辦公室. 新疆土壤[M]. 北京:科學出版社,1996:52.
Environmental sensitive variable optimization and machine learning algorithm using in soil salt prediction at oasis
Wang Fei, Yang Shengtian, Ding Jianli※, Wei Yang, Ge Xiangyu, Liang Jing
(1.,,,830046,; 2.,/,830046,)
The salt-affected cultivated land in Xinjiang accounts for about 37.72% of the irrigated area, which seriously restricts local economic development and ecological stability. In order to evaluate the distribution and severity of soil salinization, many scholars establish a corresponding soil salinity prediction model based on ground sampling data and environmental variables. The research on predicting soil salinity in arid areas (such as Xinjiang) based on machine learning is less involved. And the screening of sensitive variables needs to be further explored. Sensitive variables contribute to reduce the uncertainty of machine learning algorithms, and thus improve the prediction accuracy. The study aims to compare 1) Performance of five machine learning algorithms (The Least Absolute Shrinkage and Selection Operator-LASSO; multivariate adaptive regression spline function, Multiple Adaptive Regression Splines-MARS; Classification and Regression Tree, Classification and Regression Trees-CART; Random Forest, Random Forest-RF; Stochastic Gradient Treeboost-SGT) in three different geographic regions (Qitai oasis, Kuqa oasis and Yutian oasis); 2) The variables involved are divided into five groups: bands, vegetation-related variable dataset, soil-related variable dataset, digital elevation model (DEM) derived variable dataset, full variable group, optimized variables group(screening in full variable group by algorithm to show salinity-sensitive variables in different study areas). Then, the performance of the algorithm is judged by the results of each dataset. According to2and RMSE, the prediction accuracy of the five variable groups is ranked as follows: optimized variable group > vegetation index variable group > soil related variable group > bands > DEM derived variable group. Among all variables, vegetation index (EEVI, ENDVI, EVI2, CSRI, GDVI) and soil salinity index (SIT, SI2 and SAIO) are more correlated with soil salinity than other variables. When the number of variables involved is scarce, the difference in verification accuracy of each algorithm is not obvious. When the number of variables increases and the correlation with soil salinity is low, such as the DEM derived variable group, SGT and RF have higher ability to mine useful information from complex environments than other algorithms. Based on the algorithm selected, the prediction results of Lasso and MARS have extreme abnormal values, although they basically show the distribution of soil salinity. The results of CART showed that the distribution of soil salinity in irrigation and non-irrigation areas can be clearly distinguished, but there is not much change inside. The results of RF and SGT show that soil salinity range and spatial distribution of soil salinity in the three oases are similar, and the texture information is more abundant than the other three algorithms. More importantly, the results of this these 2 algorithms in each region are relatively stable. Among 5 algorithms, SGT verification accuracy is highest,followed by RF.
soil salt; remote senseing; machine learning; oasis; landsat OLI; digital elevation model; Xinjiang
王 飛,楊勝天,丁建麗,魏 陽,葛翔宇,梁 靜. 環(huán)境敏感變量優(yōu)選及機器學習算法預測綠洲土壤鹽分[J]. 農業(yè)工程學報,2018,34(22):102-110.doi:10.11975/j.issn.1002-6819.2018.22.013 http://www.tcsae.org
Wang Fei, Yang Shengtian, Ding Jianli, Wei Yang, Ge Xiangyu, Liang Jing. Environmental sensitive variable optimization and machine learning algorithm using in soil salt prediction at oasis[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2018, 34(22): 102-110. (in Chinese with English abstract) doi:10.11975/j.issn.1002-6819.2018.22.013 http://www.tcsae.org
2018-04-10
2018-09-12
國家自然科學基金聯(lián)合基金項目(U1603241),國家自然科學基金(41661046)、自治區(qū)科技支疆項目(201591101)、新疆大學博士啟動基金(BS150248)、新疆維吾爾自治區(qū)重點實驗室專項基金(2014KL005)、國家自然科學基金(新疆聯(lián)合基金本地優(yōu)秀青年人才培養(yǎng)專項(U1503302))
王 飛,博士,主要從事遙感應用研究。Email:volitation610@163.com
丁建麗,博士,教授,主要從事干旱區(qū)環(huán)境演變與遙感應用研究,Email:watarid@xju.edu.cn
10.11975/j.issn.1002-6819.2018.22.013
S153
A
1002-6819(2018)-22-0102-09