蔡海輝, 彭 杰, 柳維揚, 羅德芳, 王玉珍, 白建鐸, 白子金
(塔里木大學 植物科學學院, 新疆 阿拉爾 843300)
由于受農(nóng)業(yè)灌溉、蒸降比、地下水礦化度等因素影響[1],新疆土壤堿化狀況不容樂觀。2015年中國地質調(diào)查局資料表明,近40 a來,中國有近2.67×107hm2耕地土壤堿化狀況加劇,約占耕地面積的23%,土壤pH值上升了0.6左右。pH值是土壤酸堿化的重要評價指標,土壤堿性越強所對應的pH值越大,土壤越容易表現(xiàn)出板結、透氣性差等現(xiàn)象,從而降低植物根系對養(yǎng)分的吸收效率[2-4],影響植物的生長發(fā)育。為更好防治農(nóng)田土壤堿化,提高農(nóng)田作物產(chǎn)量、提升作物品質,需要對農(nóng)田中土壤pH值的分布狀況進行持續(xù)監(jiān)測。但傳統(tǒng)野外采樣并進行室內(nèi)化學分析的方法不能實時、快速獲取土壤pH值在農(nóng)田中的分布信息,隨著高光譜技術的不斷發(fā)展,可通過建立土壤pH值與土壤反射率反演模型實現(xiàn)土壤pH值信息的快速準確獲取[5],為農(nóng)田土壤改良、精準農(nóng)業(yè)發(fā)展提供技術支撐[6]。
目前國內(nèi)外學者在使用高光譜數(shù)據(jù)預測土壤屬性方面有大量研究成果,如李詩朦等[7]使用室內(nèi)光譜數(shù)據(jù)預測呼倫貝爾草原的電導率和pH值,使用支持向量機回歸建模R2大于0.90,RPD大于3.00,具有較好的預測能力;徐馳等[8]研究發(fā)現(xiàn)使用室內(nèi)高光譜數(shù)據(jù)反演內(nèi)蒙古河套灌區(qū)的地表土(0—5 cm)的pH值與含鹽量是可行的,模型預測效果良好,R2在0.95以上;Miles等[9]通過使用室內(nèi)光譜數(shù)據(jù)反演土壤中的速效磷與pH值后,認為未來光譜分析可能會取代傳統(tǒng)化學分析對土壤屬性信息進行獲取。雖然室內(nèi)光譜可以減少土壤水分、土壤質地和一些環(huán)境因素對光譜測量與土壤屬性預測精度的影響[7],但由于其對野外采集的土壤樣品進行預處理后才能測定土壤光譜反射率,需要耗費一定時間因而不能對土壤屬性進行快速實時監(jiān)測,因此一些學者對使用野外實測光譜數(shù)據(jù)預測土壤屬性也表現(xiàn)出了濃厚的興趣,如翟茂彤[10]、喬娟峰等[11]利用野外光譜數(shù)據(jù)成功反演了鄱陽湖和阜康地區(qū)的有機質含量;賈科利等[12]使用偏最小二乘回歸建立土壤pH值預測模型的擬合度R2達0.93,王凱龍等[13]建立的土壤pH值預測模型R2為0.90,RPD為2.65,他們使用野外實測光譜數(shù)據(jù)都較好預測了當?shù)赝寥赖膒H值。這些研究都證實了采用野外實測光譜預測土壤屬性是可行的。
數(shù)字土壤圖通常利用柵格的方式來詳盡表達土壤屬性的空間變化,是一種新興的、有效的表達土壤屬性空間信息的方法[14-15],如廖琪等[16]、Brian等等[17]使用克里格插值方法分別獲取了其研究區(qū)的土壤有機質、pH值空間分布圖,但利用田間原位高光譜數(shù)據(jù)反演土壤pH值并制圖的研究還較為少見。基于以上分析,本文以南疆阿拉爾市十二團棉田土壤為研究目標,通過野外原位間隔采集光譜數(shù)據(jù)、土壤樣品與室內(nèi)化學分析,結合偏最小二乘回歸、支持向量機回歸、隨機森林3種建模方法,篩選最優(yōu)模型反演研究區(qū)土壤pH值并使用普通克里格插值制作土壤pH值分布圖,為南疆土壤堿化研究與治理提供理論依據(jù)。
研究區(qū)位于新疆阿拉爾市十二團,其中心地理坐標為東經(jīng)81°19′05″,北緯40°29′20″,地處南疆中部,緊鄰塔克拉瑪干沙漠邊緣,位于塔里木河上游。年均降水量約為47 mm,年均蒸發(fā)量約為1 988 mm,年平均氣溫為10.8 ℃,年均日照時長約為2 700 h,屬典型的大陸性干旱氣候。研究區(qū)內(nèi)土壤以砂土和砂壤土為主,依靠膜下滴灌提供作物生育期內(nèi)所需水分,每年冬春季節(jié)都要進行大水漫灌。研究區(qū)地勢西高東低,灌溉入水口在地勢較高處。在阿拉爾市十二團選取能代表當?shù)毓芾硭角揖哂幸欢ǔ潭葔A化的棉田作為研究區(qū)。
土壤樣品采集于2018年11月3—4日,采樣點遠離路邊、地邊,采用網(wǎng)格布點法均勻分布于研究區(qū)內(nèi),樣點間隔為20 m,去除表面覆蓋的植物殘留物、石塊等影響光譜反射率的雜物后,采集較為平整、沒有明顯水分聚集的土壤表面光譜反射率信息。每行采集21個樣點原位高光譜數(shù)據(jù)并間隔采集0—20 cm深度的棉田土壤,在8 hm2面積內(nèi)采集11行共計231個樣點原位高光譜數(shù)據(jù)及其經(jīng)緯度信息,并同步采集其中116個樣點的土壤樣品,建立原位高光譜數(shù)據(jù)和土壤pH值的反演模型,并利用最優(yōu)反演模型預測未采集土壤樣品的115個樣點的pH值,結合實際測定的土壤pH值進行插值制作研究區(qū)土壤pH值分布圖。將采集所得土樣帶回實驗室風干研磨后過2 mm篩,使用土水比為1∶2.5土壤浸提液測定土壤pH值[18]。
使用美國SR-3500型地物光譜儀采集光譜數(shù)據(jù),其波長范圍為350~2 500 nm,在波長區(qū)間分別為350~1 000 nm,1 000~1 900 nm和1 900~2 500 nm時,光譜分辨率分別為3.5,10和7 nm,數(shù)據(jù)重采樣間隔為1 nm。使用具有內(nèi)置光源的光纖手柄采集土壤原位光譜數(shù)據(jù),將土壤表面的植物殘體、殘膜、石塊等雜物清除干凈后,儀器探頭緊貼地面測量,每個樣點重復測量10次,取其算術平均值作為該樣點原位光譜數(shù)據(jù)。每個樣點在測量前都要清理手柄的鏡面,每10個樣點進行1次白板校準。為了便于描述,將此方法采集的光譜數(shù)據(jù)簡稱為“原位數(shù)據(jù)”。根據(jù)國內(nèi)學者的研究成果去除噪聲較大的350~399 nm,2 401~2 500 nm波段[19-20],采用Savitzyk-Golay平滑濾波去除光譜噪聲后[21],使用Excel和The Unscrambler X 10.5.1軟件對原始反射率(R)進行倒數(shù)(1/R)、對數(shù)(lgR)、倒數(shù)對數(shù)lg(1/R)、面積歸一化(AN, area normalization)、峰值歸一化(MAN, maximum normalization)、多元散射校正(MSC, multiplicative scatter correction)、一階微分(FDR, first derivative)、二階微分(SDR, second derivative)等9種數(shù)據(jù)預處理。
將土壤pH值進行升序排列,取每3個相鄰樣本的中間樣本的集合為驗證集,其余三分之二為建模集,即78個樣本用于建模,38個樣本用于驗證。建模方法為偏最小二乘回歸(PLSR,partial least squares regression)、支持向量機回歸(SVMR, support vector regression)、隨機森林(RF, random forest)3種,其中PLSR與SVMR建模在The Unscrambler X 10.5.1軟件中實現(xiàn),RF建模在Rstudio中實現(xiàn)。
PLSR集中了主成分分析、典型相關分析、線性回歸分析的優(yōu)點,解決了數(shù)據(jù)間多重共線性、樣本數(shù)少于變量數(shù)的問題,因而成為了普遍使用的一種線性模型[22]。
SVMR方法是一種通過一個非線性映射,把樣本空間映射到一個高維的特征空間中,使得在樣本空間中的非線性可分問題轉化為在特征空間中的線性可分問題的機器學習算法[22]。SVMR方法的關鍵在于核函數(shù),結合相關文獻[23-24],本研究選取RBF函數(shù)為其核函數(shù),根據(jù)模型交叉驗證最優(yōu)效果及模型穩(wěn)定性確定懲罰系數(shù)C和Gamma的值。
RF是使用隨機方式建立一個具有許多且沒有關聯(lián)的決策樹的森林,從N個樣本中隨機選取n個樣本用于構建回歸樹,當有樣本輸入時都要經(jīng)過每棵分類決策樹決策分類,投票最多的一類作為最終分類結果,在進行回歸預測時,預測值為所有回歸樹輸出結果的平均值。根據(jù)模型穩(wěn)定性及較高預測效果,并經(jīng)多次建模驗證,確定決策樹個數(shù)及其余參數(shù)設置。
模型穩(wěn)定性及精度評價指標為決定系數(shù)(R2)、均方根誤差(RMSE)、相對分析誤差(RPD)。針對RPD而言,當RPD<1.5時模型無法對樣品進行預測,當1.5≤RPD<2.0時表明模型只能粗略估測樣品中高含量和低含量部分,當2.0≤RPD<2.5時表明模型具有較好的預測能力,當2.5≤RPD時模型具有很好的預測能力[21]。選擇R2和RPD大、RMSE小的模型作為最優(yōu)模型,進行進一步研究。
表1為建模集與驗證集土壤pH值數(shù)據(jù)統(tǒng)計特征,由表1可知,116個供試樣本pH值的最大值為8.09,最小值為7.48,平均值為7.77,標準差0.12,變異系數(shù)為1.54%,根據(jù)新疆土壤分析[25]中pH值分級標準,6.50≤pH<7.50為中性;7.50≤pH<8.50為堿性;pH值≥8.50為強堿性,變異系數(shù)是衡量數(shù)據(jù)間變異程度的統(tǒng)計量,其可以用于表示樣品的離散程度,當Cv<10%時為弱變異性;當10%≤Cv≤100%時為中等變異性;當100% 表1 建模集與驗證集土壤pH值數(shù)據(jù)統(tǒng)計 圖1為將116個土壤樣品的pH值升序排列均分為3類后(分別為7.48≤pH≤7.71,7.72≤pH≤7.82,7.83≤pH≤8.09)計算各類野外原位高光譜反射率數(shù)據(jù)平均值,所得到的土壤樣品反射率曲線。從圖1可以看出在400~988 nm波段內(nèi)不同pH值的土樣光譜反射率曲線差異較?。辉?89~2 400 nm波段范圍內(nèi),相同波長條件下土壤pH值越大所對應的光譜反射率也越大,說明在pH值為7.48~8.09范圍內(nèi)土壤的光譜反射率與土壤pH值呈正相關,即在一定pH值范圍內(nèi),在同一波長下隨著土壤pH值的增大,反射率也隨之增大;在1 450,1 940,2 200 nm附近存在3個明顯的特征吸收谷,參照相關學者研究結果,1 450和 940 nm是水分吸收谷[27-28],2 200 nm附近是用于判斷黏土礦物存在的特征谷[29],在這些吸收谷附近的土壤反射率明顯降低,研究區(qū)土壤反射率最大值為27.70%。土壤質地、土壤含水量、環(huán)境雜散光是導致土壤光譜反射率數(shù)據(jù)降低的主要影響因素[27],這些因素也將影響光譜數(shù)據(jù)的建模和驗證精度。 圖1 不同pH值范圍土樣反射率均值曲線 經(jīng)建模結果驗證,選擇建模及驗證效果較好的R,lgR,1/R,F(xiàn)DR,SDR 5種數(shù)據(jù)形式進行后續(xù)分析。圖2為在波長400~2 400 nm間,將土壤pH值與原位高光譜數(shù)據(jù)及其4種數(shù)據(jù)變換形式進行相關分析所得的相關系數(shù)曲線。由圖2可知土壤pH值與R,lgR在400~745 nm呈負相關關系,與1/R成正相關關系,而在746~2 400 nm波段則相反,R,lgR與土壤pH值的相關性系數(shù)曲線幾乎一致。R,lgR,1/R的最大相關系數(shù)均位于1 965 nm處,分別為0.25,0.24與-0.23,F(xiàn)DR,SDR的最大相關系數(shù)分別位于1 942 nm,636 nm處,分別為0.45,-0.43。土壤pH值與R,1/R,lgR,F(xiàn)DR,SDR的相關系數(shù)達顯著性的波段總數(shù)分別為421,395,420,819,670個, FDR,SDR變換可以大幅度提高土壤pH值與光譜數(shù)據(jù)相關性,但由于其與土壤pH值的相關性缺乏規(guī)律,需要對光譜進行較為詳細的分類,充分挖掘光譜信息才能取得好的建模及預測效果。原位高光譜數(shù)據(jù)經(jīng)倒數(shù)、對數(shù)轉換后對于改善光譜與土壤pH值相關性作用不大,對反射率進行一階微分、二階微分轉換可以明顯提高光譜與土壤pH值的相關性和相關系數(shù)達顯著性的波段總數(shù),其相關系數(shù)最大值為0.45比原始反射率提高了0.20左右,但相對于一階微分變換,二階微分的相關系數(shù)分布更為均勻,使用二階微分建??赡軙〉酶玫慕PЧ?。 圖2 土壤pH值和光譜反射率不同轉換形式的相關系數(shù) 以土壤pH值為因變量,所對應原位高光譜反射率數(shù)據(jù)為自變量,采用3種建模方法結合5種數(shù)據(jù)形式建立反演模型。建模集與驗證集pH值數(shù)據(jù)詳見表1。表2為建立的3種模型的精度對比統(tǒng)計。由表2可知,微分數(shù)據(jù)在支持向量機回歸建模,隨機森林建模中均取得了不錯的效果,但在偏最小二乘回歸建模時的建模和預測效果較差。相較于微分數(shù)據(jù),3種建模方法在使用反射率倒數(shù)、對數(shù)建模時的建模與驗證效果都不太理想。偏最小二乘回歸建模中反射率倒數(shù)的建模效果最好,建模集的R2為0.25,RMSE為0.11,驗證集R2為0.43,RMSE為0.09,RPD為1.26,支持向量機回歸建模中一階微分的建模效果最好,建模集R2為0.75,RMSE為0.08,驗證集R2為0.36,RMSE為0.09,RPD為1.22,但這兩者驗證集的R2和RPD值較小、RPD均小于1.4,無法對樣本進行預測。隨機森林中最優(yōu)反演模型的建模集R2為0.86,RMSE為0.04,驗證集R2為0.87,RMSE為0.04,RPD為2.53 (2.5≤RPD<3.0)模型具有極好的預測能力。相較于PLSR模型、SVMR模型,RF模型的精度,預測能力均最好,因此選擇RF模型為最優(yōu)模型,對未采樣的樣點進行反演與制圖研究。 表2 不同土壤pH值模型精度對比 基于對前文的分析,選取隨機森林模型作為反演模型,對只采集原位光譜信息而未采集土壤樣品的115個樣點進行反演并制作研究區(qū)土壤pH值分布圖。為進一步驗證田間原位光譜的建模精度,將未采集土壤樣品樣點的原位高光譜數(shù)據(jù)進行Savitzyk-Golay平滑和SDR數(shù)據(jù)處理后使用隨機森林模型進行反演土壤pH值??死锔癫逯凳堑亟y(tǒng)計學的主要內(nèi)容之一,同時也是估計未采樣位置屬性值的最優(yōu)無偏估計方法,是土壤屬性制圖中廣泛使用的一種插值方法。圖3為使用隨機森林模型模擬的土壤pH值數(shù)據(jù)和實測土壤pH值數(shù)據(jù)分別進行普通克里格插值得到的研究區(qū)土壤pH值插值圖。 圖3 研究區(qū)土壤pH值模型模擬插值與實測數(shù)據(jù)對比 由圖3可知,模型模擬的土壤pH值數(shù)據(jù)插值圖與實測土壤pH值數(shù)據(jù)插值圖中土壤pH值的分布特征高度吻合,都表現(xiàn)為土壤pH值在東西方向上總體呈現(xiàn)逐步減小趨勢,南北方向上呈現(xiàn)逐步增加趨勢。研究區(qū)內(nèi)土壤pH值分布狀態(tài)為高值部分呈片狀集中在研究區(qū)東部,低值部分成片集中在研究區(qū)的中西部,低值地帶和高值地帶間有較為明顯的緩沖帶,出現(xiàn)這種規(guī)律可能是因為研究區(qū)地勢西高東低,在進行冬灌、春灌洗去土壤鹽分時,使得土壤中交換性Na+隨水流原因被土壤膠體吸附導致東北區(qū)域土壤堿性增強,而表現(xiàn)出土壤pH值增加所造成的。研究區(qū)選取的是最接近當?shù)厣a(chǎn)管理水平的田塊,屬于輕微堿化,說明該地區(qū)土壤可能存在不同程度的堿化現(xiàn)象,因此研究該地區(qū)的土壤pH值的空間分布信息,對于精準改良當?shù)氐耐寥浪釅A度,提升作物產(chǎn)量有重要意義。對使用實測pH值與模型模擬pH值得到的插值圖進行預測誤差分析,結果見表3。預測誤差、均方根誤差、平均標準預測誤差越小說明預測效果越好,均方根預測誤差越接近于1越好[28]。由表3可知,實測pH值預測誤差與模擬pH值預測誤差相近,都達到了較好的插值效果,說明使用野外原位光譜預測土壤pH值是可行的。 表3 普通克里格插值預測土壤pH值誤差分析 土壤pH值是衡量土壤酸堿化程度最重要的指標之一,使用田間原位高光譜數(shù)據(jù)對土壤pH值進行反演并制作土壤pH值分布圖,可為土壤養(yǎng)分利用、實現(xiàn)精準農(nóng)業(yè)的實時快速檢測提供一定的科技支撐[15,30]。文中對不同數(shù)據(jù)轉換形式的光譜數(shù)據(jù)與土壤pH值的相關系數(shù)進行比較,結果表明反射率數(shù)據(jù)經(jīng)微分變換后與土壤pH值的相關性明顯提高,能為建立預測模型提供更多信息,這也與李陽等[19]、李詩朦等[7]、魏雨露等[31]研究結果一致。微分數(shù)據(jù)在SVMR,RF建模中都取得了不錯的結果也驗證了這一點,但微分數(shù)據(jù)會放大噪聲的干擾,同時也易引進無關因素進而影響建模精度[32],如張芳等[5]、彭杰等[33]使用微分數(shù)據(jù)建模的效果不如實測光譜。本文使用RF模型預測土壤pH值取得了較好的效果,同郭鵬等[34]、張振華等[35]研究結果一致。不少研究證實RF在噪聲較大、數(shù)據(jù)量少時仍能建立準確且可靠的模型,其具有處理定量和定性數(shù)據(jù)的能力,在數(shù)字土壤制圖中能夠發(fā)揮出巨大的潛力[36-37]。正是由于隨機森林具有較強的抗擬合能力及其對高維數(shù)據(jù)極強的處理能力[38],本文在使用其與原位高光譜數(shù)據(jù)的微分建立的反演模型時取得了不錯的結果。PLSR在處理線性回歸時有著獨特的優(yōu)勢同時還能解決數(shù)據(jù)間的多重共線性問題,但對于非線性數(shù)據(jù)的擬合能力較低,SVMR適用于小樣本的非線性數(shù)據(jù)建模,但當數(shù)據(jù)集的噪聲過大甚至是成為支持向量時使用SVMR預測可能會取得較差的結果[39],因原位高光譜數(shù)據(jù)量大且含有土壤水分信息與其他干擾因素,所以本文使用PLSR,SVMR建模效果不如RF模型。與室內(nèi)光譜反演土壤屬性數(shù)據(jù)相比,田間原位光譜可以節(jié)省室內(nèi)測定時間,得到更接近實際的土壤屬性數(shù)據(jù),實現(xiàn)土壤屬性的快速、實時檢測。原位光譜數(shù)據(jù)易受環(huán)境因素、土壤類型等因素影響,且土壤pH值在近紅外波段屬于間接預測,本文建立的預測模型精度不如李詩朦等[7]、魏雨露等[31]的高。建立的模型受地域、土壤類型等影響較大,在不同的地區(qū)應用需建立相應的原位光譜庫,進而為精準農(nóng)田的實現(xiàn)提供一定的技術支持。 本文采用隨機森林算法建立新疆阿拉爾市十二團研究區(qū)土壤pH值的原位高光譜反演模型并利用普通克里格插值方法制作研究區(qū)土壤pH值插值圖,著重討論了4不同數(shù)據(jù)預處理方式結合3種建模方法對于提高建模及驗證精度的幫助,確定了使用二階微分數(shù)據(jù)預處理后的隨機森林反演模型為最優(yōu)模型。 (1) 原位高光譜反射率數(shù)據(jù)與土壤pH值在746~2 400 nm波段呈正相關關系、400~745 nm波段呈負相關關系,在1 856~2 400 nm相關關系達顯著性水平,相關系數(shù)在1 965 nm處達最大值為0.25。 (2) 相較于偏最小二乘(PLSR)、支持向量機(SVMR)建模,使用5種數(shù)據(jù)形式進行隨機森林建模都能取得好的建模及驗證效果(RPD均大于2.00)。對于不同數(shù)據(jù)變換來說反射率數(shù)據(jù)經(jīng)一階、二階微分變換后使用支持向量機回歸(SVMR)、隨機森林(RF)建模都可以取得較好的建模效果,但支持向量機的模型驗證效果較差(R2為0.36,RPD為1.22,RPD小于1.40無法預測土壤pH值),隨機森林模型驗證效果較好R2達0.87,RPD達2.53,能極好的反演未采樣點的土壤pH值。 (3) 分別利用模型模擬數(shù)據(jù)和實測數(shù)據(jù)進行普通克里格插值制作研究區(qū)土壤pH值插值圖,模型模擬數(shù)據(jù)插值圖與實測數(shù)據(jù)插值圖中土壤pH值的分布特征相一致,說明田間原位高光譜測量手段可以實現(xiàn)土壤pH值空間分布信息的實時快速獲取,同時也能為農(nóng)田堿化防治提供一定依據(jù)。2.2 不同pH值的土壤光譜特征分析
2.3 土壤pH與土壤光譜數(shù)據(jù)相關分析
2.4 土壤pH值反演模型的建立與驗證
2.5 土壤pH值空間分布數(shù)字制圖
3 討 論
4 結 論