張 麗 郝夢潔 魯新新 郭又波 阿迪力·亞森 蔣青松
(塔里木大學信息工程學院,新疆 阿拉爾 843300)
隨著全球氣候變化研究的深入,圍繞全球氣候變化中土壤有機碳庫的研究受到普遍關注[1]。土壤有機碳(soil organic carbon,SOC),是指土壤中存在各種形式和狀態(tài)的碳化合物[2],包括動物、植物和微生物的遺骸以及降解和合成的產物。這是土壤中天然有機物的精細非生物形式的通用名稱。土壤有機碳作為土壤最重要的組成成分,是土壤質量的核心,是準確評價土壤肥力的重要依據,也是全球碳循環(huán)和氣候變化研究的一個重要內容,地球表面最大的碳庫是陸地土壤,陸地上的有機碳儲量約為1 550 Pg[3]。農田土壤具有比較高的固碳潛力,并且可以有效地減少大氣中二氧化碳(CO2)的濃度,其中有機碳的含量是判斷該土壤質量極其重要的指標之一,有機碳含量的減少不僅會導致農田生態(tài)的退化,而且還會降低農田的可持續(xù)利用性[4]。由于土地利用的變化,自19世紀以來,大氣中二氧化碳的大部分增加是由于將自然土壤轉化為永久性農業(yè)用地而導致的。農田上的土壤碳沉積直接影響大氣中碳沉積的源匯效應。在全球陸地生態(tài)系統(tǒng)的碳庫中,農業(yè)土壤碳存儲在很大程度上被人類破壞,并使得其可以進行短期的人為調控[5]?;哪貐^(qū)的發(fā)展和農業(yè)用地的耕作,導致養(yǎng)分的流失和土壤結構的破壞以及土壤中二氧化碳的降解。農業(yè)用地是大氣中溫室氣體積累的主要因素[6]。
高光譜技術具有高分辨率、多波段和圖譜合一的特點,由于其獨特的光譜特征而被廣泛用于農業(yè)、工業(yè)和醫(yī)學領域,可以說是未來遙感技術的最重要技術之一[7]。數十年來發(fā)展起來的高光譜技術,在研究土壤有機質方面做了大量的工作,為后續(xù)研究者提供了良好的借鑒。徐彬彬等[8]比較有機質去除前后土壤光譜反射率曲線的變化,發(fā)現(xiàn)可見光是監(jiān)測土壤有機質含量的重要波長范圍;于雷等[9]運用偏最小二乘回歸建立了土壤有機質含量的估算模型,CARS-SPAPLSR混合模型不僅簡單,且預測效果較好,該模型可以作為評估該地區(qū)土壤有機質的重要方法,對未來土壤近地傳感器設備的發(fā)展具有明確的方向性作用;郭斗斗等[10]利用25種光譜預處理方法,結合3種建模方法來構建不同的潮土有機質高光譜預測模型。偏最小二乘回歸模型結合最大值標準化預處理所建模型精度高、可靠性強,且建模過程數據運算更為簡便,是篩選出的最佳潮土有機質高光譜預測模型。新型的高光譜遙感技術在很大程度上彌補了傳統(tǒng)監(jiān)測的空白,并且由于其動態(tài)、快速、高效和宏觀經濟的優(yōu)勢,它逐漸取代了傳統(tǒng)的監(jiān)測方法,成為了區(qū)域監(jiān)測土地資源探測新方法[11];丁建軍等[12]詳細論證建模過程中建模組樣本數與驗證組樣本數的數量關系,分析得出基于PLSR的土壤有機碳預測模型最優(yōu)條件;李碩等[13]使用主成分回歸,偏負平方回歸和傳播神經網絡對基于可見-近紅外光譜數據的土壤氮進行預測,并比較三種建模方法以選擇最佳模型;盧艷麗等[14]對基于近紅外數據利用逐步回歸分析和主成分回歸分析建立了東北黑土有機碳回歸預測模型;Gimsauh等[15]研究發(fā)現(xiàn)土壤有機質含量與紅光波段的反射率具有較高的相關性。這些研究表明可以使用高光譜對有機碳進行監(jiān)測,但所有研究都是線性模型,不能很好地解決非線性問題。因此,在今后的研究中嘗試用非線性模型對土壤有機碳的預測是十分必要的。
南疆位于我國西北部,天山以南,地處于干旱、半干旱荒漠地區(qū),腐殖質的合成和有機碳的分解受到土壤水分的強烈影響[16]。南疆廣闊的土地資源是我國重要的農業(yè)地區(qū),4.27%的土地資源承載著95%以上的人口,隨著人口的增長,現(xiàn)有土地資源無法滿足經濟社會發(fā)展的需要,對進一步開發(fā)和利用土壤資源提出了新的要求[11]。如何合理開發(fā)并利用現(xiàn)有的土壤資源對于社會經濟可持續(xù)發(fā)展尤為重要。土壤肥力是合理開發(fā)利用土壤資源的重要參考依據,而土壤有機碳是評估土壤肥力的主要指標。因此,如何快速、有效地監(jiān)測土壤中有機碳的含量,為合理開發(fā)和利用土壤資源提供科學依據已成為南疆農業(yè)經濟的重要需求點[17-18]。傳統(tǒng)測定有機碳的方法雖然具有較高的準確性,但會花費較多的人力、物力和財力,難以快速的監(jiān)測到土壤中有機碳的動態(tài)變化趨勢,其測定結果通常具有滯后性,無法滿足實際應用的需求。隨著3S技術的快速發(fā)展,其作為一種重要的監(jiān)測工具,在土壤信息中的應用也日益廣泛[19]。作為遙感技術(RS)重要組成部分的高光譜技術以其快速、有效、經濟和環(huán)保等屬性被廣泛應用于有機碳含量的估算,為有機碳的定量研究提供了新方法[20-21]。Dematte等[22]、徐彬彬[23]、彭杰等[24-25]甚至發(fā)現(xiàn)無論在全波段還是在紫外、可見光和近紅外波段去除土壤有機質均可以提高土壤的反射率。研究表明:在600 nm附近的波段處,有機質與土壤光譜之間的弓曲呈現(xiàn)負相關關系[26];土壤有機質含量與反射率之間具有非線性和顯著負相關性[27]。當前對于土壤有機質的定量估算在空間尺度上主要限定于局域性研究,對于類似全球性的大尺度、全局性的研究工作,基于采樣的復雜性、時空的變異性、建模方法的穩(wěn)健性和模型精度的局限性等因素,致使相關報道鮮見。在現(xiàn)有的文獻中,有關南疆土壤有機碳定量估算的研究報道比較少見,且已有研究工作在估算精度方面有待進一步提高。鑒于以上分析,本文以新疆維吾爾自治區(qū)南疆地區(qū)的阿瓦提縣、溫宿縣、和田市、新和縣等四個地區(qū)的農田土壤為研究對象,運用Unscrambler 10.5對光譜數據做多項式平滑、歸一化、線性基線校正、標準正態(tài)變量變化、多項式平滑+歸一化等作變換處理,據此對光譜數據做相關性,并運用全波段數據利用偏最小二乘法以及主成分回歸法來構建土壤有機碳的估算模型,以期從5種預處理方法中,篩選出建模精度最佳的預處理方法,從而通過比較獲取較優(yōu)的有機碳預測模型,并將其應用于南疆農田土壤有機碳含量的定量評估與分析中。相關研究工作為簡便、快速、有效地監(jiān)測土壤有機碳的含量提供了重要依據與技術支持。
在新疆維吾爾自治區(qū)南疆地區(qū)阿瓦提縣(北緯39°31′~40°50′、東經 79°45′~81°05′)、溫宿縣(北緯 40°52′~42°15′、東經 79°28′~81°30′)、和田市(東經79°50′20″~79°56′40″、北緯36°59′50″~37°14′23″)、新和縣(東經80°55′~82°43′、北緯40°45′~41°45′)進行樣本采集,采樣區(qū)域分布圖如圖1所示。
采用網格采樣法在研究區(qū)域0~20 cm土層采集261份土樣,樣點的間隔大約100 m,以起始點為樣點中心,沿著東、西、南、北四個方位進行土樣的采集,每個方位的樣點幾乎在同一條水平線上,每個土樣的質量大約為2 kg[28]。將采集的土樣帶回室內,在實驗室風干,然后將一部分土樣經過細磨,過孔徑2 mm篩選處理,用于光譜測試;另一部分土樣細磨過孔徑2.5 mm篩選處理,用于理化性質分析。處理過的土樣均勻的混合后,分別按照其名稱裝在自封袋中[17]。經過測試,供試土樣的有機質統(tǒng)計數據如表1所示。
表1 供試土樣有機質數據統(tǒng)計
通過分析表1數據可知,四個樣區(qū)土樣的有機質含量有著明顯的差異,其中,溫宿地區(qū)土樣的有機質平均含量最高,新和地區(qū)有機質的平均含量最低;從有機質含量的變異系數來看,也是來于溫宿地區(qū)土樣的有機質變異系數最大,而來于新和地區(qū)有機質的變異系數最小。統(tǒng)計數據與實際情況吻合度較高。
使用美國ASD公司的Field Spec Pro FR光譜儀采集土壤光譜數據,其波長范圍在350~2 500 nm之間,在350~1 000 nm之間光譜采樣間隔為1.4 nm,光譜的分辨率為3 nm;1 000~2 500 nm的光譜采樣間隔為2 nm,光譜的分辨率為10 nm。光譜儀最終將在1 nm處對數據進行重新采樣[29]。光譜的測量在一個可以控制光照條件的暗室內進行,光源為50 W的鹵素燈,距土壤樣品表面不超過70 cm,天頂角為30°,將土壤樣品放在直徑10 cm和深2 cm的容器中,刮平表面。采用的探頭為25°視場角探頭,傳感器探頭位于土樣表面正上方15 cm處。在測試之前,需要進行白板校正。每個土壤樣品采集10條光譜曲線,并以算術平均值獲得了該土壤樣品的實際反射光譜數據[30]。光譜儀器在收集數據時容易受到環(huán)境影響,而且收集的數據通常包含很多噪聲。此外,光譜儀器還會收集大范圍波段的光譜數據。因此,對于模型需要的數據有必要進行異常數據剔除。因此,本文使用The-Unscrambler 10.5對光譜數據分別進行了以下變換處理:多項式平滑、歸一化、線性基線校正、標準正態(tài)變量變化、多項式平滑+歸一化等。
1.3.1 偏最小二乘法
偏最小二乘法不僅是一種基于多因變量與多自變量之間相關關系的回歸建模方法,也是一種新型的多元統(tǒng)計分析方法,該方法集成了相關性分析、主成分分析以及多元線性回歸技術的特點,能夠有效地解決多因變量對多自變量的回歸建模以及光譜波段間存在的多共重線性問題[12]。PLSR對樣本數量的要求較低,當樣本個數小于自變量個數時,PLSR也可以建立回歸模型。它與主成分分析法都可以提取數據的特征信息,它有一個“響應”矩陣,且它提取的成分不僅可以很好的概括自變量系統(tǒng)中的信息,還可以很好的解釋因變量,因此具有估測功能[31]。
1.3.2 主成分回歸法
主成分回歸法是回歸分析方法的一種,它不但可以解決自變量間存在的多重線性問題[32],在保留原有信息的基礎上還有降維的作用。它在1965年被馬西提出,其基本步驟如下:第一步:把自變量轉變?yōu)闃藴史?;第二步:求出標準分的主成分并去除特征根較小的主成分;第三步:對因變量與剩下的主成分做回歸;第四步:將回歸方程中的主成分換成標準分的線性組合,得到回歸方程。
將261個樣本按比例(2:1)分成建模集和預測集,即174個樣本用于建模,87個樣本用于模型預測,建模集與預測集有機碳數據見表2。建模方法主要采用基于偏最小二乘法以及主成分回歸。評價模型穩(wěn)定性和預測準確性的指標為R2、RMSE、RPD。其中RPD是量綱指標,其值越大,表明模型的預測能力越強,RPD劃分見Saeys[33]。模型的R2越大,RMSE越小,其預測精度就越高越穩(wěn)定。
表2 建模集與預測集有機碳數據統(tǒng)計
將土壤有機質含量與光譜原始數據以及經過多項式平滑、歸一化、線性基線校正、標準正態(tài)變量變化、多項式平滑+歸一化變換處理后做相關性分析,且做相關系數在0.01水平上的顯著性檢驗,如圖2所示。
農田土壤有機碳含量與原始數據、多項式平滑、線性基線校正只有正相關,原始數據與多項式平滑710~962 nm、1 258~1 392 nm、1 686~2 645 nm、3 621~3 999 nm波段的相關性通過0.01水平上的顯著性檢驗(圖2a、圖2c),且最大正相關系數位于1 686~2 645 nm波段,相關系數達到了0.502;線性基線校正只在1 686~2 645 nm、3 621~3 999 nm波段的相關性通過0.01水平上的顯著性檢驗(圖2e),最大正相關系數位于1 686~2 645 nm波段,相關系數達到了0.486;而光譜原始數據經過歸一化(圖2b)、多項式平滑+歸一化(圖2d)、標準正態(tài)變量變化(圖2f)變換后,不僅有正相關,還有負相關,這三種變換形式在1 756~2 041 nm、2 468~2 605 nm波段呈正相關,在1 033~1 210 nm、1 492~1 565 nm波段呈負相關,且在1 756~2041 nm、2 468~2 605 nm、1 033~1 210 nm、1 492~1 565 nm波段的相關性通過0.01水平上的顯著性檢驗(圖2b、圖2d、圖2f),最大正相關系數位于1 756~2 041 nm波段,相關系數達到了0.527,最大負相關系數位于1 033~1 210 nm波段,相關系數達到了-0.410。光譜原始數據經過歸一化(圖2b)、多項式平滑+歸一化(圖2d)、標準正態(tài)變量變化(圖2f)變換后所得到的光譜數值與土壤有機質含量相關系數與多項式平滑、線性基線校正變換后相比均有提高。原始數據、多項式平滑、線性基線校正與有機碳含量相關性的連續(xù)性較差,正相關和負相關的規(guī)律性較弱。而經過歸一化、多項式平滑+歸一化、標準正態(tài)變量變化處理后,有機碳含量的相關性看起來更簡單、更具連續(xù)性。
基于PLSR方法的有機碳估算模型中,預處理方法采用多項式平滑、歸一化、線性基線校正、標準正態(tài)變量變化、多項式平滑+歸一化,其中多項式平滑+歸一化的模型建模效果相對最好。表3給出無預處理和經預處理多項式平滑、歸一化、線性基線校正、標準正態(tài)變量變化、多項式平滑+歸一化的基于PLSR的有機碳估算結果精度。圖3給出基于多項式平滑+歸一化處理后的PLSR有機碳含量模型的估算結果散點圖。相比其他數據預處理的PLSR估測模型而言,經多項式平滑+歸一化的PLSR估算模型的精度更高、預測能力更好。
圖2 農田土壤有機碳含量與光譜變換形式的相關性曲線
表3 偏最小二乘法不同數據預處理方法的精度對比
從表3中可以看出,就PLSR模型而言,無預處理與5種預處理方法中建模集的R2C均高于交叉驗證集的R2V,而RMSEC則均低于對應的RMSEV。在無預處理與5種預處理方法中,基于多項式平滑+歸一化處理后的PLSR估測模型的決定系數R2C最高,為0.88;均方根誤差RMSEC值最低,為3.99?;跉w一化與多項式平滑+歸一化處理后的PLSR估測模型的R2v一樣,且基于歸一化的PLSR估測模型的RMSEv更低。研究表明,在反射率、多項式平滑、歸一化、線性基線校正、標準正態(tài)變量變化、多項式平滑+歸一化這無預處理與5種預處理方法中,經歸一化與多項式平滑+歸一化處理后的建模精度最高。據此表4給出基于歸一化與多項式平滑+歸一化處理后的PLSR預測結果精度。
表4 偏最小二乘法方法的歸一化與SG平滑+歸一化預測精度對比
由表4中可知,基于歸一化與多項式平滑+歸一化處理后的PLSR估測模型,多項式平滑+歸一化處理后的建模精度最高,其R2、RMSE、RPD分別為0.84、3.47 g·kg-1、2.63。為了驗證該模型經多項式平滑+歸一化后的精度與穩(wěn)定性,本文用建模之外的87個樣本對估算模型進行了驗證,驗證結果的預測值與實測值的散點圖如圖3所示。
圖3 基于多項式平滑+歸一化處理的PLSR有機碳含量模型的估算結果散點圖
由圖3可以看出,87個土壤樣本有機碳含量的PLSR模型預測值與實測值之間的R2為0.84,RMSE為3.47 g·kg-1,與PLSR模型在建模集(0.88和3.99)和交叉驗證集(0.82和4.91)的數值相差不多,該RMSE甚至比交叉驗證集的RMSE更低,說明PLSR模型的穩(wěn)定性較好,而RPD為2.63,根據Saeys等[33]的評價標準,說明該模型具有較好的預測能力。
基于PCR的有機碳估算模型中,預處理采用多項式平滑、歸一化、線性基線校正、標準正態(tài)變量變化、多項式平滑+歸一化,其中經過標準正態(tài)變量變化預處理的模型建模效果相對最好。表5給出無預處理和經預處理(多項式平滑、歸一化、線性基線校正、標準正態(tài)變量變化、多項式平滑+歸一化)后,采用PCR建模得到的結果精度。圖4給出基于標準正態(tài)變化變量處理后的PCR模型的估算結果散點圖。相比其他數據預處理的PCR估測模型而言,經標準正態(tài)變量變化處理后的PCR估算模型的精度更高、預測能力更好。
表5 主成分回歸方法不同數據預處理方法的精度對比
從表5中可以看出,就PCR模型而言,無預處理與5種預處理方法中建模集的R2C均高于交叉驗證集的R2V,而RMSEC則均低于對應的RMSEV。在5種預處理方法中,基于標準正態(tài)變量變化處理的PCR估測模型的決定系數R2C值最高,為0.83;均方根誤差RMSEC值最低,為4.71。研究表明,針對無預處理與5種預處理方法(多項式平滑、歸一化、線性基線校正、標準正態(tài)變量變化、多項式平滑+歸一化)而言,標準正態(tài)變量變化處理后的建模精度最高。
由表5中可知,在PCR建模所涉及的無預處理與5種預處理方法中,標準正態(tài)變量變化的建模精度最高,其R2、RMSE分別為0.83、4.71 g·kg-1,為了驗證該模型經標準正態(tài)變量變化處理后的精度與穩(wěn)定性,本文用建模之外的87個樣本對估算模型(PCR)進行了驗證。驗證結果的預測值與實測值的散點圖如圖4所示。
圖4 基于標準正態(tài)變量變化處理的PCR有機碳含量模型的估算結果散點圖
由圖4可以看出,87個土壤樣本有機碳含量的PCR模型預測值與實測值之間的R2為0.79,RMSE為3.9 g·kg-1,與PCR模型在建模集(0.83和4.71)和交叉驗證集(0.78和5.40)的數值相差不多,該RMSE甚至比交叉驗證集的RMSE更低,說明PCR模型的穩(wěn)定性較好,而RPD為2.30,根據Saeys等[33]的評價標準,說明該模型具有較好的預測能力。
表6給出PLSR與PCR方法在最優(yōu)預處理下的模型估算對比結果。從表6可看出,就有機碳含量的模型估算結果而言,數據在經預處理后,PLSR已經明顯優(yōu)于PCR。
表6 偏最小二乘法與主成分回歸法的有機碳高光譜估算模型結果對比
此外,在經預處理后,無論是PLSR還是PCR,模型精度較之預處理前都有顯著提升。研究結果表明:針對同樣的數據預處理方式,就PLSR與PCR方法比較而言,前者RMSEv的值更小,而R2v的值更大,同時RPD的值更高。因此,PLSR比PCR方法的建模精度更高、預測能力更好。由此可見,PLSR較PCR更適用于土壤有機碳含量的估算。
土壤有機碳的含量作為評價土壤肥力的重要依據,探索土壤有機碳快速、有效的監(jiān)測方法對土壤資源的合理開發(fā)和利用有重要的意義。本文對采集新疆維吾爾自治區(qū)阿瓦提、溫宿、和田、新和的261個農田土壤樣本,運用5種預處理方法,并結合偏最小二乘法以及主成分回歸法,來構建阿瓦提、溫宿、和田、新和農田土壤有機碳的估算模型。
研究結果表明:5種預處理方法中,基于多項式平滑+歸一化處理的偏最小二乘模型精度最高,其R2為0.84,RMSE為3.47 g·kg-1,RPD為 2.63;基于標準正態(tài)變量變化處理的主成分回歸模型精度也較高,其R2為0.79,RMSE為3.9 g·kg-1,RPD為2.30;根據Saeys等[33]的評價標準,這兩種模型都具有較好的預測能力,但前者因其R2更大,RMSE更小,同時RPD也更高,從而具有更好的預測效果。因此,針對相同的數據處理方式而言,PLSR較PCR方法更適用于土壤有機碳含量的估算。
盡管本文僅運用了5種數據預處理方法(多項式平滑、歸一化、線性基線校正、標準正態(tài)變量變化、多項式平滑+歸一)及兩種非線性模型偏最小二乘法和主成分回歸法,所得模型結果均比較理想,用于預測的效果較好。但因土壤有機碳含量的估算問題,基于問題本身的復雜性和模型預測精度的不確定性,隨著科技的進步和研究工作的深入,勢必會產生更多更優(yōu)的預測模型,期待更多相關領域的研究成果,用以豐富其理論知識和實踐應用。