陳奕云,齊天賜,黃穎菁,萬 遠,趙瑞瑛,8,亓 林,9,張 超,費 騰,3
?
土壤有機質(zhì)含量可見-近紅外光譜反演模型校正集優(yōu)選方法
陳奕云1,2,3,4,5,齊天賜1,6,黃穎菁1,萬 遠7※,趙瑞瑛1,8,亓 林1,9,張 超1,費 騰1,3
(1.武漢大學(xué)資源與環(huán)境科學(xué)學(xué)院,武漢 430079;2.土壤與農(nóng)業(yè)可持續(xù)發(fā)展國家重點實驗室,南京 210008;3.武漢大學(xué)蘇州研究院,蘇州 215123;4.武漢大學(xué)地球空間信息技術(shù)協(xié)同創(chuàng)新中心,武漢 430079;5.武漢大學(xué)教育部地理信息系統(tǒng)重點實驗室,武漢 430079;6.湖泊與環(huán)境國家重點實驗室(中國科學(xué)院南京地理與湖泊研究所),南京 210008;7.湖北師范大學(xué),城市與環(huán)境學(xué)院,黃石 435002;8.浙江大學(xué)農(nóng)業(yè)遙感與信息技術(shù)應(yīng)用研究所,杭州 310058;9.中國科學(xué)院地理科學(xué)與資源研究所,北京 100101)
土壤有機質(zhì)含量可見-近紅外光譜反演過程中校正集的構(gòu)建策略對模型的預(yù)測精度有重要影響。以江漢平原洪湖地區(qū)水稻土為研究對象,采用Kennard-Stone(KS)法,Rank-KS(RKS)和Sample set Partitioning based on joint X-Y distance(SPXY)法,構(gòu)建樣本數(shù)占總校正集不同比例的子校正集,通過偏最小二乘回歸,建立土壤有機質(zhì)含量的可見—近紅外光譜反演模型。結(jié)果表明:KS法無法提高模型預(yù)測精度,但可以在保證標準差與預(yù)測均方根誤差比(ratio of performance to standard deviation,RPD)>2.0的前提下減少30%的校正樣本;基于SPXY法的模型,當子校正集樣本比例為總校正集的50%時達到最佳的模型預(yù)測精度,RPD為2.557;RKS法能夠在保證預(yù)測精度的情況下(RPD>2.0),最多減少總校正集70%的樣本,對應(yīng)模型RPD為2.212。當校正集與驗證集的有機質(zhì)含量分布相近時,能夠以較少的建模樣本達到與總校正集相近甚至更高的模型預(yù)測精度,提升土壤有機質(zhì)光譜反演模型的實用性。
土壤;模型;有機質(zhì);可見-近紅外反射光譜;偏最小二乘回歸;校正集優(yōu)選
土壤有機碳庫是全球碳庫中最為活躍的碳庫,在全球碳循環(huán)研究和農(nóng)業(yè)生產(chǎn)實踐中具有重要地位[1]。獲取土壤有機質(zhì)(soil organic matter,SOM)空間分布信息,是研究土壤有機碳庫時空動態(tài)變化的基礎(chǔ)[2]。近年來,采用可見-近紅外光譜技術(shù)獲取土壤中有機質(zhì)等土壤組分含量信息已成為土壤遙感與地理信息科學(xué)領(lǐng)域的重要研究方向[3-5]。該方法相比傳統(tǒng)的化學(xué)分析方法具有操作簡單、快速、無污染、成本低等優(yōu)點,但仍存在模型預(yù)測精度相對較低、實用性不強等問題。
為進一步提高土壤有機質(zhì)光譜估算模型的預(yù)測精度和實用性,國內(nèi)外學(xué)者選取了不同研究區(qū)域、獲取不同類型的土壤樣本,從光譜波段與土壤有機質(zhì)的相關(guān)關(guān)系入手,嘗試了多種光譜預(yù)處理和回歸建模方法,取得了一定成果[6-8]。然而有關(guān)校正集構(gòu)建的研究開展較少。如何構(gòu)建“合適”的校正集,即挑選出足以揭示土壤光譜對土壤有機質(zhì)響應(yīng)關(guān)系的樣本組成校正集并用于回歸模型構(gòu)建[3],以及如何在保證一定模型預(yù)測精度的前提下降低建模成本是當前研究的重要方向[9-10]。
Liu等[11]研究發(fā)現(xiàn),含有多種土地利用類型土壤樣本組成的校正集所建立的回歸模型可以較好地預(yù)測其中某類用地土壤的有機質(zhì)含量,并且具有濃度代表性或光譜代表性的校正集所建模型有更好的預(yù)測精度。劉艷芳等[3]在對樣本集進行地類分層的基礎(chǔ)上結(jié)合濃度梯度法、Kennard-Stone(KS)法與C-KS法等方法構(gòu)建校正集,發(fā)現(xiàn)考慮多層次土壤信息代表性的校正集構(gòu)建方法能夠有效提高土壤有機質(zhì)光譜估算模型的適用性。因此,為了得到更加穩(wěn)健的模型,不但需要從光譜預(yù)處理和回歸建模方法入手,還需在構(gòu)建校正集的時候,盡可能綜合考慮土壤光譜、土壤組分含量信息乃至成土要素等可能影響土壤光譜與組分含量關(guān)系的各種因素及其變異,進而構(gòu)建具有多元代表性的校正集[3]。此外,當前少有研究關(guān)注校正集樣本量對模型預(yù)測精度的影響,“大樣本光譜庫對于局域土壤組分含量估算是否是必須的”這一問題近期亦引起一些學(xué)者的關(guān)注與討論[12-14]。通常在模型預(yù)測精度達到實用預(yù)期的前提下,更少的建模樣本意味著更低的建模成本。因此,在當前大樣本光譜庫建設(shè)與使用存在一定限制的背景下,開展校正集樣本量與模型預(yù)測精度關(guān)系的研究對于提升土壤組分可見-近紅外光譜模型實用性具有重要意義。
本文選取湖北省洪湖地區(qū)100份水稻土樣本作為研究對象,研究目標及內(nèi)容包括:1)光譜數(shù)據(jù)預(yù)處理后,構(gòu)建基于不同校正樣本挑選方法的26個子校正集,通過比較使用26個子校正集分別建立的估算土壤有機質(zhì)含量的PLSR模型及用驗證樣本對各個模型進行檢驗的結(jié)果,以確定預(yù)測精度最高的子校正集樣本比例與挑選策略。2)通過比較不同子校正集的土壤有機質(zhì)數(shù)據(jù)分布特征及與其對應(yīng)模型的預(yù)測結(jié)果,探究兩者的對應(yīng)關(guān)系,以期歸納得到預(yù)測效果較好的子校正集的共性,得出校正集優(yōu)化的一般原則,進而為減少土壤有機質(zhì)光譜估算模型建模成本,提高預(yù)測精度和實用性提供參考。
1.1 樣本采集與化學(xué)分析
研究所使用的100份水稻土樣本于2014年7月采集自洪湖市濱湖農(nóng)田地區(qū),樣點空間分布及研究區(qū)土地利用類型如圖1所示。采樣時,在每個采樣點約10 m2的范圍內(nèi)采集表層土壤樣本(0~15 cm)5份均勻混合在一起,取不少于500 g的土壤樣本裝入自封袋后帶回實驗室做進一步分析。使用手持GPS記錄采樣點地理坐標。取回的土壤樣本在實驗室內(nèi)進行自然風(fēng)干,研磨并過0.25 mm(60目)土壤篩后,最終得到用于量測反射光譜及有機質(zhì)含量的樣本。
參照《土壤有機碳的測定重鉻酸鉀氧化-分光光度法(HJ 615-2011)》測定土壤樣本有機碳含量,結(jié)果乘以van Bemmelen因數(shù)1.724[15]得到樣本土壤有機質(zhì)含量。
1.2 土壤樣本的實驗室光譜量測與預(yù)處理
采用美國Analytical Spectral Devices公司生產(chǎn)的FieldSpec 3地物光譜儀進行土壤樣本反射率光譜量測。該儀器波長范圍350~2 500 nm,輸出波段數(shù)2 151,重采樣間隔1 nm。在干燥的暗室環(huán)境中,將處理好的土壤樣本置于盛樣皿中,以鹵素?zé)魹槲ㄒ蝗肷涔庠?。光源入射?5°,距土壤樣本表面30 cm,光譜儀探頭接10°視場角鏡頭,位于土樣垂直上方15 cm處。土壤樣本光譜觀測幾何模擬了野外土壤光譜量測,同時避免野外觀測過程中由于太陽輻射、大氣水汽變化而產(chǎn)生的觀測不確定性。每個樣品量測10次反射率光譜后取算術(shù)平均,量測過程中每10份樣本進行1次標準白板校正。
對試驗量測得到的樣本反射率光譜進行預(yù)處理,去除隨機波動較大的邊緣光譜波段,保留400~2 450 nm波段,采用Savitzky-Golay平滑、對數(shù)變換、多元散射校正與均值中心化處理[15]。
1.3 模型建立與驗證
1.3.1 校正集與驗證集的構(gòu)建
采用箱型圖剔除有機質(zhì)含量異常的土壤樣本,使用主成分分析法剔除光譜異常的土壤樣本。以采集的100個土壤樣本進行異常樣本剔除后得到的97個樣本作為試驗樣本。
為了使驗證集具備一定的代表性和獨立性,本文根據(jù)濃度梯度法挑選出20個樣本組成驗證集,剩下的樣本作為總校正集,并使用KS法、Sample set Partitioning based on joint X-Y distance(SPXY)法與Rank-KS(RKS)法[10]按照10%、20%、…、90%的比例從中挑選樣本組成多個子校正集用于后續(xù)的回歸建模。其中因為樣本數(shù)量有限,無法使用RKS法挑選10%比例的樣本組成子校正集,因此略去。
1.3.2 建立偏最小二乘回歸模型
偏最小二乘回歸是1983年由Wold等[17]首次提出的一種多元統(tǒng)計數(shù)據(jù)分析方法,該方法適用于處理存在多重共線性的數(shù)據(jù),尤其在解決樣本容量小、解釋變量個數(shù)多、變量間存在多重相關(guān)性問題方面具有獨特的優(yōu)勢。本文采用舍一交叉驗證法(leave-one-out cross validation)確定最佳主因子數(shù)。
1.3.3 模型檢驗與評價指標
采用模型決定系數(shù)2、均方根誤差(root mean square error,RMSE)和標準差與預(yù)測均方根誤差比(ratio of performance to standard deviation,RPD)這3個指標來檢驗與評價模型的定標效果和預(yù)測能力。以上評價指標中,外部檢驗決定系數(shù)R2越大,預(yù)測均方根誤差(root mean square error of prediction, RMSEP)越小,說明模型預(yù)測效果越好。此外,一般認為當RPD<1.4時,模型較差無法對樣本進行預(yù)測;1.4≤RPD<2時,模型較好,可以用來進行SOM的粗略估算;2.0≤RPD<2.5代表模型質(zhì)量很好,可以用于SOM的定量預(yù)測;RPD≥2.5代表模型具有極好的預(yù)測能力[18]。
選取變量投影重要性(variable importance in the projection,VIP)評估波段變量對模型的重要性,VIP值大于1的波段變量較VIP值小于1的波段變量對SOM變異的解釋具有更加重要的作用[19]。
本文中土壤樣本的反射光譜與有機質(zhì)含量數(shù)據(jù)的預(yù)處理、偏最小二乘回歸及模型評價指標計算使用MathWorks公司的分析建模軟件MATLAB及基于MATLAB的PLS toolbox(Eigenvector Research公司,8.0版本)實現(xiàn);KS法、RS法與SPXY法的實現(xiàn)使用基于MATLAB的SPA_GUI完成[20-22]。
2.1 樣本集的統(tǒng)計特征
全部樣本、總校正集、驗證集以及不同方法構(gòu)建的子校正集SOM含量的統(tǒng)計特征如圖2、圖3與表1所示。
表1 土壤有機質(zhì)含量的描述性統(tǒng)計
全部97個樣本的土壤有機質(zhì)含量在16.70~53.63 g/kg之間,均值為34.00g/kg,與河南伊川縣城關(guān)鎮(zhèn)的水稻土有機質(zhì)含量(35.7 g/kg)相差不大,略低于四川省邛崍市回龍鎮(zhèn)柏楊村的水稻土的有機質(zhì)含量(41.8 g/kg)[23]。由圖2、圖3可知,KS法、RS法與SPXY法按照不同比例從總校正集中挑選出的子校正集樣本有機質(zhì)含量均值、中位數(shù)、標準差、偏度系數(shù)、峰度系數(shù)以及四分位距等統(tǒng)計指標存在差異,表明不同子校正集構(gòu)建策略會影響校正樣本有機質(zhì)含量分布特征。對于KS算法,當子校正集樣本比例為總校正集的20%和10%的時候,中位數(shù)與均值存在較大的偏離,前者的直方圖還呈現(xiàn)明顯的負偏(偏度系數(shù)sk=?0.53);對于SPXY算法,當子校正集樣本比例為10%時,直方圖呈現(xiàn)平峰的特征,四分位距也明顯大于其他子校正集。在回歸分析中,對于分布中間多兩端少的樣本集,常常導(dǎo)致模型預(yù)測結(jié)果偏離真實值而趨向于“均值化”[10],同樣若是樣本集分布呈較明顯的正偏或負偏也可能導(dǎo)致模型預(yù)測向著一個固定方向偏移。
2.2 基于反射率光譜的土壤有機質(zhì)含量估算模型
分別對基于不同校正集構(gòu)建策略得到的子校正集進行PLSR建模,各個子校正集最佳模型對應(yīng)的評價指標如表2所示。
表2 各子校正集PLSR模型結(jié)果
對于KS法構(gòu)建的子校正集,隨著樣本數(shù)目的減少,建模均方根誤差(root mean square error of calibration,RMSEC)不斷增加,R2穩(wěn)定在0.770左右,只有當樣本數(shù)少于總校正集的20%后才呈現(xiàn)出明顯的下降,表明KS法挑選出的子校正集所建模型對數(shù)據(jù)自身擬合效果良好且穩(wěn)定。使用基于KS法構(gòu)建的子校正集建立的偏最小二乘回歸模型對驗證集樣本SOM含量進行估算時發(fā)現(xiàn):當子校正集樣本數(shù)占總校正集比例高于60%的時候,各子校正集所建立的模型預(yù)測能力相當,模型質(zhì)量很好(RPD>2.0)。當比例低于60%的時候,隨著校正集樣本數(shù)的減少,RPD開始逐漸降低,表明KS法在校正樣本數(shù)量下降到一定比例后容易丟失對模型預(yù)測精度有明顯貢獻的樣本;當子校正集樣本數(shù)占總校正集的20%及以下時,RPD<1.4,已經(jīng)無法用于SOM含量的估算[18]。
對于SPXY法構(gòu)建的子校正集,其R2普遍高于KS法構(gòu)建的子校正集,除了子校正集SPXY30之外均在0.8以上,當子校正集樣本數(shù)為總校正集40%時(子校正集SPXY40),R2達到了最高的0.949,這表明綜合覆蓋光譜空間與理化性質(zhì)空間的校正集樣本挑選方法較僅均勻覆蓋光譜空間的校正集樣本挑選方法具有潛在的優(yōu)越性。在模型驗證方面,當子校正集樣本數(shù)占總校正集50%的時候(子校正集SPXY50),所建立的模型RPD達到最大值2.557,高于總校正集的2.184;當樣本數(shù)少于總校正集50%的時候,RPD開始下降。
對于RKS法構(gòu)建的子校正集,當樣本數(shù)減至總校正集70%及以下時,其R2穩(wěn)定在0.84以上,表明模型對建模數(shù)據(jù)的擬合效果良好。在模型驗證方面,使用RKS挑選的子校正集所建立的模型RPD值穩(wěn)定在2.1左右。當子校正集樣本數(shù)為總校正集30%的時候(子校正集RKS30),建立的模型表現(xiàn)出了最佳的預(yù)測效果,其RPD為2.212,R2為0.802,優(yōu)于KS30與SPXY30對應(yīng)的RPD與R2值。
由表2可知,KS法挑選子校正集的最優(yōu)挑選比例是70%(即子校正集KS70),對應(yīng)的RPD為2.097,盡管低于KS90和KS80的2.170和2.120,但可以在保證模型預(yù)測精度達到“很好”標準(RPD>2.0)的前提下,僅使用總校正集70%的樣本就可以達到與總校正集所建立模型相近的預(yù)測精度;SPXY法的最佳挑選比例是50%(SPXY50),在提高了模型預(yù)測精度的同時(RPD由2.184提升至2.557),相比總校正集減少了50%的建模樣本;RKS法挑選的子校正集所建模型雖然在預(yù)測精度上沒有顯著的提升,但是能夠在校正集樣本數(shù)較少的情況下保證模型預(yù)測精度與全樣本模型相當,就試驗結(jié)果來看最多可以減少最多70%的建模樣本,即僅需使用總校正集30%的樣本(RKS30)。
2.3 預(yù)測模型重要波段分析
對總校正集、KS50校正集、SPXY50校正集與RKS50校正集進行PLSR建模,并做出VIP曲線圖,如圖4所示。
綜合比較4個校正集對應(yīng)的VIP曲線可知,共同的重要波段主要為400~750、2 260、2 350~2 450 nm;KS50對應(yīng)曲線相較于其他3種曲線缺少了1 860和1 910 nm附近的重要波段;RKS50對應(yīng)曲線中2 350~2 450 nm波段的相對重要程度大于其他三者。其中,400~750 nm波段主要與有機質(zhì)和鐵氧化物相關(guān)[23-24],波段1 450、1 860、1 910 nm與土壤及礦物中水分有關(guān)[26],波段2 260與2 440 nm主要與羥基伸縮振動以及Al-OH和Mg-OH彎曲振動的合譜帶有關(guān)[26-29]。
結(jié)合VIP曲線可知,不同挑選方法構(gòu)建的子校正集PLSR模型都能較好地利用土壤有機質(zhì)、鐵氧化物以及土壤礦物的光譜響應(yīng)波段來描述或輔助描述土壤有機質(zhì)的變異。然而與總校正集構(gòu)建的模型相比,KS50所建模型表現(xiàn)為對土壤及礦物水分信息的壓抑;SPXY50所建模型表現(xiàn)為對土壤水分信息的增強和土壤礦物信息的壓抑;RKS50所建模型表現(xiàn)為對土壤礦物及水分信息的增強。
結(jié)合預(yù)測值與實測值的部分散點圖(圖5),有機質(zhì)含量分布特征(圖2、圖3)以及預(yù)測統(tǒng)計指標(表2)對研究結(jié)果進行進一步探討:
KS法構(gòu)建的子校正集所建模型部分預(yù)測值和實測值散點圖見圖5a~圖5b,隨著樣本數(shù)量的減少,預(yù)測值的分布趨于中間密集,導(dǎo)致模型預(yù)測結(jié)果的“均值化”現(xiàn)象越來越明顯。KS20與KS10均值與中位數(shù)偏離較遠(圖2),對比表2中的預(yù)測結(jié)果,其RPD均小于1.4,說明當子校正集樣本量小于30%時,使用KS法挑選出來的樣本很可能不夠具有代表性,導(dǎo)致模型預(yù)測精度明顯降低。KS法與SPXY和RKS法相比,優(yōu)點在于無需使用總校正集的SOM含量作為先驗信息,校正集樣本量的減少即意味著建模成本的降低。本研究中,KS法可以減少總校正集最多達70%的校正樣本(KS30的RPD>1.4,見表2)。
SPXY法構(gòu)建的子校正集所建的部分模型預(yù)測值和實測值散點圖見圖5c~圖5d,當子校正集樣本數(shù)目大于總樣本數(shù)的70%時,SPXY子校正集模型預(yù)測表現(xiàn)與KS子校正集相近(RPD在2.0~2.2之間);當子校正集樣本數(shù)目小于30%時,預(yù)測效果明顯下降,散點圖中各點呈散亂分布。且在圖5d中,有機質(zhì)含量較低與較高的樣本預(yù)測誤差較小,而中值區(qū)間的樣本誤差較大,很可能與對應(yīng)子校正集樣本呈現(xiàn)出的兩極樣本數(shù)與中間值樣本數(shù)相近有關(guān)(當子校正集樣本數(shù)目小于30%時,其峰度系數(shù)均在2.0以下;而當子校正集樣本數(shù)目大于30%時,其峰度系數(shù)均在2.0以上)。根據(jù)SPXY法距離度量的原理,越是靠近理化性質(zhì)空間兩端的樣本,其理化性質(zhì)空間距離就越大,也就更容易被選入校正集中。然而從模型構(gòu)建角度來說,中間的樣本也具有校正意義,所以當使用SPXY法選取樣本比例較小的時候,構(gòu)建的子校正集樣本有機質(zhì)含量趨于平峰分布,進而導(dǎo)致模型預(yù)測精度的下降,對于土壤有機質(zhì)含量這種普遍呈正態(tài)分布的土壤屬性影響更為明顯。
RKS法構(gòu)建的子校正集所建的部分模型預(yù)測值和實測值散點圖見圖5e~圖5f,結(jié)合表2可以發(fā)現(xiàn)隨著子校正集樣本數(shù)目的減少,模型預(yù)測結(jié)果擬合優(yōu)度保持穩(wěn)定且較好(RPD>2.0)。就散點的分布來看,在子校正集樣本數(shù)占總校正集樣本數(shù)60%以上(圖5e)時,RKS法與其他2種方法模型預(yù)測效果并無明顯差別,RPD均在2.0以上(表2)。但是當樣本數(shù)繼續(xù)減少,RKS各子校正集有機質(zhì)含量均值及中位數(shù)與驗證集相近,偏度系數(shù)接近于0或呈正偏(即偏度系數(shù)大于0,RKS20除外),而KS校正集樣本有機質(zhì)含量趨于負偏(即偏度系數(shù)小于0,KS10除外)、SPXY校正集樣本有機質(zhì)含量趨于平峰分布(圖2、圖3),RKS校正集模型的預(yù)測結(jié)果優(yōu)于另外2種,這說明近似于驗證集的校正集能夠帶來更加穩(wěn)定的模型。
綜合比較3種方法挑選的校正集所建模型預(yù)測結(jié)果,要提升線性模型預(yù)測精度,需要保證校正集樣本盡可能廣地覆蓋光譜空間[30-31],同時較近似于驗證集地分布在SOM含量濃度區(qū)間[11],如SPXY50及RKS50。
結(jié)合不同挑選方法50%子校正集所建模型的重要波段(圖4)及其預(yù)測結(jié)果(表2)可以看出,有機質(zhì)含量分布較為近似于驗證集的子校正集(圖2、圖3),可以保證建模過程中土壤有機質(zhì)與羥基的特征波段能夠在因變量解釋中占有較大比例。對比SPXY子校正集與RKS子校正集可知,雖然2 400 nm波段附近的土壤礦物信息對因變量解釋也有一定作用,但當其比例過大時可能對模型預(yù)測產(chǎn)生負面影響。
本文僅以77個土壤樣本作為總校正集,比較各百分比子校正集的不同,總樣本數(shù)略少,且每10%相差的樣本只有7個,因此可能存在某些特征樣本對模型的影響,特別是在小樣本量樣本集中表現(xiàn)尤為明顯,從而可能對試驗結(jié)果造成一定干擾。
KS法、SPXY法及RKS法均能在保證模型預(yù)測精度的前提下(例如RPD>2.0)降低建模成本即使用更少的校正樣本,同時由于加權(quán)效應(yīng)的影響,當校正集樣本有機質(zhì)含量分布與預(yù)測樣本集數(shù)據(jù)分布特征相近時(即相近的均值、中位數(shù)、偏度系數(shù)和峰度系數(shù)),所建立的模型能夠獲得更好的預(yù)測結(jié)果。
KS法挑選策略僅考慮樣本光譜特征,當樣本量過少的時候,校正集樣本有機質(zhì)含量分布多呈負偏,與驗證集差異較大,故需要較多的校正樣本,綜合考慮樣本量和預(yù)測精度的最佳挑選比例為70%,模型對應(yīng)RPD為2.097,R2為0.779,與全樣本模型預(yù)測精度相當。SPXY法挑選策略導(dǎo)致校正集樣本理化性質(zhì)分布呈雙峰,因此也需保證一定的樣本數(shù)目,其最佳挑選比例為50%,模型對應(yīng)RPD為2.557,R2為0.922,R2為0.848,優(yōu)于全樣本模型。RKS法保證了校正集樣本有機質(zhì)含量的均勻分布,更加適合線性模型,在樣本數(shù)目足夠的情況下各模型有著穩(wěn)定的表現(xiàn),本研究中的最佳挑選比例為30%,對應(yīng)模型的RPD為2.212,R2為0.872,R2為0.802,與全樣本模型預(yù)測精度相當,但是極大地降低了建模所需的樣本數(shù)量。
土壤反射率光譜是土壤內(nèi)在組分和外在成土要素的綜合體現(xiàn),未來研究可以在土壤光譜與組分含量信息的基礎(chǔ)上增加土地利用、景觀環(huán)境等其他可能影響土壤光譜與組分關(guān)系的輔助信息,提升校正集樣本的代表性,以提高土壤組分光譜反演模型的實用性。
[1] 潘根興,趙其國. 我國農(nóng)田土壤碳庫演變研究:全球變化和國家糧食安全[J]. 地球科學(xué)進展,2005,20(4):384-393.
Pan Genxing, Zhao Qiguo. Study on evolution of organic carbon stock in agricultural soils of China: Facing the challenge of global chance and food security[J]. Advances in Earth Science, 2005, 20(4): 384-393. (in Chinese with English abstract)
[2] Liu Yaolin, Guo Long, Jiang Qinghu, et al. Comparing geospatial techniques to predict SOC stocks[J]. Soil & Tillage Research, 2015, 148: 46-58.
[3] 劉艷芳,盧延年,郭龍,等. 基于地類分層的土壤有機質(zhì)光譜反演校正樣本集的構(gòu)建[J]. 土壤學(xué)報,2016,53(2):332-341.
Liu Yanfang, Lu Yannian, Guo Long, et al. Construction of calibration set based on the land use types in visible and near-infrared(VIS-NIR) model for soil organic matter estimation[J]. Acta Pedologica Sinica, 2016, 53(2): 332-341. (in Chinese with English abstract)
[4] Shi Tiezhu, Cui Lijuan, Wang Junjie, et al. Comparison of multivariate methods for estimating soil total nitrogen with visible/near-infrared spectroscopy[J]. Plant and Soil, 2013, 366(1/2): 363-375.
[5] Soriano-Disla J M, Janik L J, Viscarra Rossel R A, et al. The performance of visible, near-, and mid-infrared reflectance spectroscopy for prediction of soil physical chemical, and biological properties[J]. Applied Spectroscopy Reviews, 2014, 49(2): 139-186.
[6] Viscarra Rossel R A, Behrens T. Using data mining to model and interpret soil diffuse reflectance spectra[J]. Geoderma, 2010, 158(1/2): 46-54.
[7] Stevens A, Nocita M, Tóth G, et al. Prediction of soil organic carbon at the european scale by visible and near infraRed reflectance spectroscopy [J]. Plos One, 2013, 8(6): e66409.
[8] 陳奕云,漆錕,劉耀林,等. 顧及土壤濕度的土壤有機質(zhì)高光譜預(yù)測模型傳遞研究[J]. 光譜學(xué)與光譜分析,2015,35(6):1705-1708.
Chen Yiyun, Qi Kun, Liu Yaolin, et al. Transferability of hyperspectral model for estimating soil organic matter concerned with soil moisture[J]. Spectroscopy and Spectral Analysis, 2015, 35(6): 1705-1708. (in Chinese with English abstract)
[9] Kuang B, Mouazen A M, Influence of the number of samples on prediction error of visible and near infrared spectroscopy of selected soil properties at the farm scale[J]. European Journal of Soil Science, 2012, 63(3): 421-429.
[10] 劉偉,趙眾,袁洪福,等. 光譜多元分析校正集和驗證集樣本分布優(yōu)選方法研究[J]. 光譜學(xué)與光譜分析,2014,34(4):947-951.
Liu Wei, Zhao Zong, Yuan Hongfu, et al. An optimal selection method of sample of calibration set and validation set for spectral multivariate analysis[J]. Spectroscopy and Spectral Analysis, 2014, 34(4): 947-951. (in Chinese with English abstract)
[11] Liu Yaolin, Jiang Qinghu, Fei Teng, et al. Transferability of a visible and near-Infrared model for soil organic matter estimation in riparian landscapes[J]. Remote Sensing, 2014, 6(5): 4305-4322.
[12] Guerrero C, Wetterlind J, Stenberg B, et al. Do we really need large spectral libraries for local scale SOC assessment with NIR spectroscopy?[J]. Soil & Tillage Research, 2016, 155: 501-509.
[13] Guerrero C, Stenberg B, Wetterlind J, et al. Assessment of soil organic carbon at local scale with spiked NIR calibrations: effects of selection and extra-weighting on the spiking subset[J]. European Journal of Soil Science, 2014, 65(2): 248-263.
[14] 劉會增,石鐵柱,王俊杰,等.利用區(qū)域土壤光譜庫研究土壤有機碳反演模型傳遞性[J]. 武漢大學(xué)學(xué)報:信息科學(xué)版,2016,41(7):889-895.
Liu Huizeng, Shi Tiezhu, Wang Junjie, et al. Transferability of retrieval models for estimating soil organic carbon contents based on regional soil spectral libraries[J]. Geomatics and Information Science of Wuhan University, 2016, 41(7): 889-895. (in Chinese with English abstract)
[15] 曾志遠. 土壤肥力的衛(wèi)星遙感探測[J]. 土壤,1987(2):73-78,72.
[16] Rinnan A, van den Berg F, Engelsen S B. Review of the most common pre-processing techniques for near-infrared spectra[J]. Trac-Trends in Analytical Chemistry, 2009, 28(10): 1201-1222.
[17] Wold S, Albano C, Dunn WJ III, et al. Pattern recognition: Finding and using regularities in multivariate data[J]. Food Research and Data Analysis, 1983: 147-188.
[18] Chang C W, Laird D A, Mausbach M J, et al. Near-infrared reflectance spectroscopy–principal components regression analyses of soil properties[J]. Soil Science Society of America Journal, 2001, 65(2): 480-490.
[19] Chong I G, Jun C H. Performance of some variable selection methods when multicollinearity is present[J]. Chemometrics and Intelligent Laboratory Systems, 2005, 78(1/2): 103-112.
[20] Araújo M C U, Saldanha T C B, Galv?o R K H, et al. The successive projections algorithm for variable selection in spectroscopic multicomponent[J]. Chemometrics and Intelligent Laboratory Systems, 2001, 57(2): 65-73.
[21] Galv?oR K H, Araújo M C U, Fragoso W D, et al. A variable elimination method to improve the parsimony of MLR models using the successive projections algorithm[J]. Chemometrics and Intelligent Laboratory Systems, 2008, 92(1): 83-91.
[22] Galv?o R K H, Araújo M C U, Jose G E, et a1. A method for calibration and validation subset partitioning[J]. Talanta, 2005, 67: 736-740.
[23] 孫麗蓉,王旭剛,高翔. 有機質(zhì)和鐵氧化物對水稻土吸附Cd2+的貢獻[J]. 河南農(nóng)業(yè)科學(xué),2010(4):57-61.
Sun Lirong, Wang Xugang, Gao Xiang. Contribution of organic matter and iron oxides to adsorption of Cd2+on paddy soils[J]. Journal of Henan Agricultural Sciences, 2010(4): 57-61. (in Chinese with English abstract)
[24] Viscarra Rossel R A, Bui E N, de Caritat P, et al. Mapping iron oxides and the color of Australian soil using visible–near-infrared reflectance spectra[J]. Journal of Geophysical Research Atmospheres, 2010, 115(F5): F04031.
[25] Liu Yaolin, Chen Yiyun. Estimation of total iron content in floodplain soils using VNIR spectroscopy–a case study in the Le’an River floodplain, China[J]. International Journal of Remote Sensing, 2012, 33(18): 5954-5972.
[26] Viscarra Rossel R A, Walvoort D J J, McBratney A B, et al. Visible, near infrared, mid infrared or combined diffuse reflectance spectroscopy for simultaneous assessment of various soil properties[J]. Geoderma, 2006, 131(1/2): 59-75.
[27] Krishnan P, Alexander J D, Butler B J, et al. Reflectance technique for predicting soil organic matter[J]. Soil Science Society of America Journal, 1980, 44(6): 1282-1285.
[28] Bartholomeus H M. Schaepman M E, Kooistra L, et al. Spectral reflectance based indices for soil organic carbon quantification[J]. Geoderma, 2008, 145(2): 28-36.
[29] 紀文君,史舟,周清,等. 幾種不同類型土壤的VIS-NIR光譜特性及有機質(zhì)響應(yīng)波段[J].紅外與毫米波學(xué)報,2012,31(3):277-282.
Ji Wenjun, Shi Zhou, Zhou Qing, et al. VIS-NIR reflectance spectroscopy of the organic matter in several types of soils[J]. Journal of Infrared and Millimeter Waves, 2012, 31(3): 277-282. (in Chinese with English abstract)
[30] 盧延年,劉艷芳,陳奕云,等. 江漢平原土壤有機碳含量高光譜預(yù)測模型優(yōu)選[J]. 中國農(nóng)學(xué)通報,2014(26):127-133.
Lu Yannian, Liu Yanfang, Chen Yiyun, et al. Optimization of the hyperspectral prediction model of soil organic carbon contents of Jianghan Plain[J]. Chinese Agricultural Science Bulletin, 2014(26): 127-133. (in Chinese with English abstract)
[31] 于雷,洪永勝,耿雷,等. 基于偏最小二乘回歸的土壤有機質(zhì)含量高光譜估算[J]. 農(nóng)業(yè)工程學(xué)報,2015,31(14):103-109. Yu Lei, Hong Yongsheng, Geng Lei, et al. Hyperspectral estimation of soil organic matter content based on partial least squares regression[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2015, 31(14): 103-109. (in Chinese with English abstract)
Optimization method of calibration dataset for VIS-NIR spectral inversion model of soil organic matter content
Chen Yiyun1,2,3,4,5, Qi Tianci1,6, Huang Yingjing1, Wan Yuan7※, Zhao Ruiying1,8, Qi Lin1,9, Zhang Chao1, Fei Teng1,3
(1.,,430079,; 2.,210008,; 3.,,215123,; 4.,,430079,; 5.,,430079,; 6.,,,210008,; 7.,,435002,; 8.,,310058,; 9.,,100101,)
Soil organic matter (SOM) is not only an important indicator of soil fertility but also an important source and sink of the global carbon cycle. Therefore, it is essential to acquire the information of SOM for soil management. Visible and near-infrared (VIS-NIR) reflectance spectroscopy, known as a novel, rapid, accurate, environment-friendly and efficient approach compared with conventional laboratory analyses, has proven to be promising in the acquisition of various soil properties. Construction of a calibration set is key to the VIS-NIR quantitative analysis in building up a prediction model of high quality. The aim of this paper was to explore how the sample selection method and the number of samples may affect the accuracy of VIS-NIR models for SOM estimation. A total of 100 paddy soil samples (0-15 cm) were collected from the Honghu City, which is located in the Jianghan Plain, China. After air drying, grinding and sieving (0.25 mm), reflectance of these pretreated samples was measured with FieldSpec3 (Analytical Spectral Devices Inc., America). Three samples were neglected after outlier detections of spectra and SOM content. Out of the remaining 97 samples, 20 samples were selected by means of concentration gradient, which then formed the validation sample set. The remaining 77 samples formed the total calibration set. With SOM content or soil spectral information as inputs, 3 sample selection methods, namely Kennard-Stone (KS), sample set partitioning based on joint X-Y distance (SPXY) and Rank-KS, were used in the construction of calibration subsets with different proportions of the samples in total calibration set, such as 10% and 20%. Based on the different calibration subsets, partial least squares regression (PLSR) was used for model calibrations. Results showed that the calibration set selected by KS approach could not improve model predictive capability compared with the total calibration set. The KS approach, however, could reduce as many as 30% samples of the total calibration set while the ratio of performance to standard deviation (RPD) was retained above 2.0. The SPXY approach performed the best when 50% samples of the total calibration set were selected in the model calibration. The determination coefficient for calibration (R2) reached 0.922, the determination coefficient for prediction (R2) was 0.848, and the RPD reached 2.557. This was because the SPXY approach took into account both SOM content and soil spectra in the sample selection process. With only 30% samples of the total calibration set selected by the Rank-KS method, it had the lowest cost of calibration with satisfactory performance (R2=0.872,R2=0.802 and RPD=2.212). Overall, such results indicate that it is possible to reduce the number of calibration samples while retaining or even improving the predictive capacity of VIS-NIR models for SOM estimation. All the 3 calibration selection approaches have been proven to be useful for the improvement of model practicability.
soils; models; organic matter; visible and near-infrared reflectance spectrum; partial least squares regression; optimization of calibration set
10.11975/j.issn.1002-6819.2017.06.014
S151.9
A
1002-6819(2017)-06-0107-08
2016-09-30
2017-02-25
國家自然科學(xué)基金項目(41501444);蘇州市應(yīng)用基礎(chǔ)農(nóng)業(yè)項目(SYN201422, SYN201309)
陳奕云,男,福建泉州人,副教授,博士,主要從事土壤遙感與地理信息科學(xué)研究。武漢 武漢大學(xué)資源與環(huán)境科學(xué)學(xué)院,430079。Email:chenyy@whu.edu.cn
萬遠,男,湖北鄂州人,博士,主要從事土地管理與地理信息的研究。黃石 湖北師范大學(xué)城市與環(huán)境學(xué)院,435002。Email:wanyuan14@163.com