樊泳灼, 李新國
(1.新疆師范大學(xué)地理科學(xué)與旅游學(xué)院,新疆 烏魯木齊 830054;2.新疆干旱區(qū)湖泊環(huán)境與資源實驗室,新疆 烏魯木齊 830054)
土壤有機碳含量是耕地質(zhì)量、土地生產(chǎn)力水平的重要指標(biāo)[1-2]。湖濱綠洲是干旱區(qū)發(fā)展農(nóng)業(yè)的重要區(qū)域,干旱區(qū)綠洲土壤有機碳在全球生態(tài)環(huán)境及碳循環(huán)方面有重要作用,對綠洲農(nóng)業(yè)的發(fā)展有重要意義[3-4]。傳統(tǒng)的土壤有機碳含量測定方法是人工取樣后進行實驗室分析,費時費力且效率低下。近年來,隨著高光譜技術(shù)的發(fā)展,利用波長為350~2 500 nm的高光譜數(shù)據(jù)進行土壤有機碳含量準(zhǔn)確高效監(jiān)測已成為農(nóng)業(yè)遙感的新熱點[5-7]。
雖然高光譜數(shù)據(jù)豐富,但同時亦帶來了大量的冗余信息。因此,利用高光譜數(shù)據(jù)進行土壤屬性監(jiān)測的一個重要環(huán)節(jié)是特征光譜的篩選[8],即通過篩選對土壤屬性敏感的特征波段可有效減少光譜數(shù)據(jù)冗余,提高估算模型精度和運行效率。吳俊等[6]通過競爭性自適應(yīng)重加權(quán)采樣(CARS)算法篩選特征波段,再利用偏最小二乘回歸(PLSR)、支持向量機(SVM)、隨機森林(RF)、反向傳播神經(jīng)網(wǎng)絡(luò)(BPNN)等模型對江西省土壤有機碳含量進行了估算。唐海濤等[9]利用CARS算法篩選特征波段并結(jié)合隨機森林(RF)算法建立不同類型土壤有機質(zhì)含量估算模型。章海亮等[10]利用連續(xù)投影(SPA)算法篩選特征波段,并結(jié)合遺傳算法實現(xiàn)了土壤有機質(zhì)的監(jiān)測。Wang等[11]利用SPA算法提取特征波段并結(jié)合偏最小二乘回歸模型(PLSR)實現(xiàn)了黃灌區(qū)鹽堿地土壤含鹽量的估算,有效提高了估算值的決定系數(shù)(R2)和相對分析誤差(RPD)。Liu等[12]利用 CARS 方法篩選特征波段結(jié)合非線性模型RF估算靖邊縣土壤有機質(zhì)含量,估算精度較全波段建模取得了一定的提升。上述研究結(jié)果表明利用不同方法篩選特征波段輸入估算模型可以較好地減少數(shù)據(jù)冗余,優(yōu)化模型結(jié)構(gòu),提高模型的運行效率。另外,模型的選擇也會影響土壤有機碳含量的估算精度。吳俊等[6]利用高光譜估算江西省土壤有機碳含量的研究結(jié)果表明非線性模型RF相較于線性模型PLSR建模精度更高。Cheng等[13]基于CARS算法篩選的特征波段比較了極限學(xué)習(xí)機(ELM)、BP神經(jīng)網(wǎng)絡(luò)(BPNN)、支持向量機回歸(SVMR)和偏最小二乘回歸(PLSR)等模型估算土壤全氮含量的差異,結(jié)果表明利用ELM模型能獲得更好的精度。綜合上述研究結(jié)果,特征光譜的篩選和估算模型的選擇均會影響估算模型的精度和效率,且不同的土壤類型、監(jiān)測的土壤屬性指標(biāo)也會影響到特征光譜的篩選方案和估算模型的選擇。目前基于CARS、SPA、CARS-SPA算法進行特征光譜的篩選及利用非線性模型RF進行干旱區(qū)湖濱綠洲棕漠土有機碳含量的估算研究還鮮有報道。
本研究以新疆博斯騰湖湖濱綠洲棕漠土為研究對象,利用ASD FieldSpec3地物光譜儀采集棕漠土350~2 500 nm波長范圍的光譜反射率,以CARS、SPA和CARS-SPA 3種算法篩選土壤有機碳含量的特征波段,并利用隨機森林模型(RF)進行模型構(gòu)建,實現(xiàn)棕漠土有機碳含量的估算,為區(qū)域棕漠土有機碳含量的高效監(jiān)測提供參考。
博斯騰湖湖濱綠洲地處新疆焉耆盆地,隸屬于新疆博湖縣[14-15],位于41°45′~42°10′N,86°20′~86°50′E(圖1)。博斯騰湖湖濱綠洲是典型的人工綠洲和自然綠洲混合的湖濱綠洲,面積約為1 360.0 km2,年平均降水量約83.6 mm,年平均氣溫約8.0~8.6 ℃,光照充足,屬于大陸性荒漠氣候[14-15]。棕漠土是博斯騰湖湖濱綠洲的重要耕作土壤,占研究區(qū)土壤總面積的90%以上[14-15]。
圖1 研究區(qū)位置及采樣地分布
根據(jù)研究區(qū)的地形、植被及土地利用類型等因素,結(jié)合研究區(qū)的土壤調(diào)查現(xiàn)狀,2019年7月在常年耕作的棕漠土地塊上選取10個代表性樣地按照“S”型布設(shè)樣點并采集0~10.0 cm、10.1~20.0 cm、20.1~30.0 cm、30.1~40.0 cm、40.1~50.0 cm土層的土壤樣品,采樣時去除地表的植物根系及石塊等雜質(zhì),利用GPS記錄樣點經(jīng)緯度并記錄采樣點周圍環(huán)境,每個樣點運用四分法選取約200 g土樣裝袋標(biāo)號密封帶回實驗室,共采集50份棕漠土樣品。將棕漠土樣品進行自然風(fēng)干、研磨并過2 mm篩后封裝為2部分,一部分利用重鉻酸鉀容量法測定土壤有機碳含量,另一部分用于高光譜測定[9,14]。采用濃度梯度法對土壤樣本按照3∶1比例劃分訓(xùn)練集與驗證集[16],50份土壤樣品,將37份土壤樣品作為訓(xùn)練集用于建模,13份土壤樣品作為驗證集用于模型驗證。
使用ASD FieldSpec3地物光譜儀(美國ASD公司產(chǎn)品)選擇晴朗無風(fēng)天氣于室外測定棕漠土樣品的高光譜數(shù)據(jù),測定時間為北京時間12:00-14:00,每個樣品采集10條光譜數(shù)據(jù)以平均值為該樣品的最終光譜數(shù)據(jù)。剔除信噪比較低的2 430~2 500 nm波段及受水汽影響較大的1 300~1 450 nm波段和1 800~1 950 nm波段[14]。為提升光譜曲線信噪比,利用The Unscrambler軟件對光譜數(shù)據(jù)進行Savitzky-Golay(SG)濾波處理[6]??紤]到低階微分處理光譜數(shù)據(jù)可有效減少噪聲的干擾[17],因此再對SG濾波處理后數(shù)據(jù)進行一階微分變換,進而進行特征波段的篩選。
本研究采用競爭性自適應(yīng)重加權(quán)采樣算法(CARS)、連續(xù)投影算法(SPA)、競爭性自適應(yīng)重加權(quán)采樣-連續(xù)投影算法(CARS-SPA)3種算法篩選棕漠土有機碳含量特征光譜。研究中基于預(yù)處理后光譜數(shù)據(jù)及有機碳含量數(shù)據(jù),采用MATLAB軟件結(jié)合CARS、SPA、CARS-SPA等算法進行特征波段篩選[6,9]。
1.4.1 競爭性自適應(yīng)重加權(quán)采樣算法(CARS) CARS是一種結(jié)合蒙特卡洛采樣與偏最小二乘回歸(PLSR)的特征變量選擇方法,其關(guān)鍵在于利用指數(shù)衰減函數(shù)(Exponentially decreasing function)和自適應(yīng)重加權(quán)采樣法(Adaptive reweighted sampling)兩步驟對關(guān)鍵變量進行選擇。研究中,設(shè)置蒙特卡洛采樣次數(shù)為100,通過對不同波段組合的反復(fù)迭代,利用蒙特卡洛交叉驗證法篩選出交互驗證均方根誤差(RMSECV)最小的波段組合,即為最優(yōu)波段組合[6]。
1.4.2 連續(xù)投影算法(SPA) SPA是一種矢量空間共線性最小化的前向變量選擇算法,使用SPA算法可以壓縮光譜數(shù)據(jù)的數(shù)量,通過不斷的計算篩選出均方根誤差(RMSE)最小的最優(yōu)波段組合作為最后結(jié)果輸出,其在一定程度上可以消除光譜多重共線性和重疊干擾,從而提高模型的驗證效率與精度[14]。
1.4.3 CARS-SPA算法 CARS-SPA算法是利用SPA算法對CARS算法篩選后的特征波段進行二次篩選優(yōu)化,可以有效減少模型輸入的特征波段數(shù)目,減少數(shù)據(jù)冗余,提高模型的運行效率和精度。
隨機森林是一種基于決策樹的集成算法,其中每一棵決策樹都是從建模集中有放回的隨機取樣構(gòu)建的,最終估算結(jié)果由多數(shù)表決原則來決定,在進行擬合前,需要調(diào)節(jié)的參數(shù)為決策樹數(shù)量[18-19]。
分別以原始全波段、預(yù)處理后全波段及CARS、SPA、CARS-SPA 3種算法篩選的特征波段為自變量,棕漠土土壤有機碳含量為因變量,輸入隨機森林模型中進行估算,棕漠土有機碳含量估算模型構(gòu)建流程如圖2所示。研究中用決定系數(shù)(R2)、均方根誤差(RMSE)及相對分析誤差(RPD)3個指標(biāo)進行模擬精度評價。其中,決定系數(shù)(R2)和相對分析誤差(RPD)越大,均方根誤差(RMSE)越小[19],說明模型較為穩(wěn)定,估算性能較好。當(dāng)RPD<1.40時,說明模型估算性能較差;當(dāng)1.40≤RPD<2.00時,模型估算性能一般;當(dāng)RPD≥2.00 時,模型模擬性能較好[5]。
圖2 棕漠土有機碳含量高光譜估算流程圖
(1)
(2)
(3)
棕漠土不同樣本集有機碳含量的統(tǒng)計特征如表1所示。從表1可以看出,研究區(qū)棕漠土0~50.0 cm土層的有機碳含量總體變化范圍在1.40~40.92 g/kg,平均值為14.20 g/kg,標(biāo)準(zhǔn)差為7.89 g/kg。建模集和驗證集的平均值分別為15.16 g/kg、11.49 g/kg,總樣本集、建模集及驗證集土壤有機碳含量變異系數(shù)分別為55.54%、53.32%、59.89%,均處于中等變異水平,這表明研究區(qū)內(nèi)棕漠土有機碳含量具有一定的空間變異性,數(shù)據(jù)比較離散,這一特征有利于監(jiān)測技術(shù)的開展[20-21]。
表1 不同數(shù)據(jù)集棕漠土有機碳含量統(tǒng)計特征
SG濾波及其一階微分變換處理后的光譜曲線如圖3所示。從圖3A可知,SG濾波后的棕漠土光譜曲線整體變化趨勢基本一致,在 350~1 950 nm波段,光譜反射率隨波長升高而增強,在2 200 nm波段之后反射率逐漸減弱,在可見光波段光譜曲線上升速度較快,在短波近紅外及部分長波近紅外波段上升相對緩慢。圖3B是對SG濾波后的光譜曲線進行一階微分處理,可有效減少噪聲干擾。
A:SG濾波后的棕漠土光譜曲線;B:一階微分變換處理SG濾波后的棕漠土光譜曲線。
全波段經(jīng)過CARS、SPA、CARS-SPA 3種算法選擇特征波段過程及結(jié)果如圖4所示,從圖4中可以看出不同算法篩選特征波段結(jié)果存在差異。在CARS算法篩選特征波段的過程中,隨著運行次數(shù)的增加,篩選出的波段數(shù)量呈指數(shù)衰減趨勢,即早期快速衰減,后期變化平緩,而RMSECV波動較大,當(dāng)運行次數(shù)為40時,RMSECV達到最小值(3.47 g/kg)(圖4A)。由圖4B可知,在RMSECV最小時,CARS算法篩選的特征波段為122個。利用SPA算法進行特征波段篩選時,隨著變量(波段)數(shù)量的增加,交叉檢驗均方根誤差總體呈減少趨勢。當(dāng)篩選出11個特征波段時,RMSECV值達到最小值(2.63 g/kg)(圖4C),篩選出的特征波段分布如圖4D所示。與CARS算法相比,SPA算法更能有效地減少篩選出的特征波段數(shù)量,即CARS算法雖然能有效減少特征波段數(shù)量,但其篩選出的特征波段數(shù)量仍較多,這勢必會影響下一步的估算效率。因此,在CARS算法篩選出特征波段基礎(chǔ)上,進一步利用SPA算法進行再次篩選。與SPA算法相似,隨著特征波段數(shù)量的增加,CARS-SPA算法的交叉檢驗均方根誤差總體呈減少趨勢,當(dāng)篩選出10個特征波段時,RMSECV值達到最小值(2.96 g/kg)(圖4E)。篩選出的特征波段分布如圖4F所示。對比圖4D和圖4F,可以看出,SPA算法與CARS-SPA算法得到的特征波段數(shù)量雖然比較接近,但其對應(yīng)的波段卻有較大差異。
A:CARS算法篩選特征波段;B:CARS算法篩選的特征波段分布;C:SPA算法篩選特征波段;D:SPA算法篩選的特征波段分布;E:CARS-SPA算法篩選特征波段;F:CARS-SPA算法篩選的特征波段分布。
基于不同數(shù)據(jù)集輸入RF模型進行建模,得到的訓(xùn)練集回代檢驗結(jié)果和驗證集檢驗結(jié)果分別如圖5和圖6所示。利用原始全波段數(shù)據(jù)建模,訓(xùn)練集回代檢驗的R2和RMSE分別為0.59和5.06 g/kg(圖5A),而利用一階微分變換預(yù)處理后的全波段光譜數(shù)據(jù)進行建模后,訓(xùn)練集回代檢驗的R2和RMSE分別為0.79和3.50 g/kg(圖5B),模型精度有所提升。利用CARS、SPA、CARS-SPA 3種算法篩選的特征波段后,輸入RF模型進行建模,訓(xùn)練集的回代檢驗結(jié)果如圖5C、圖5D、圖5E所示。相比于預(yù)處理后的全波段數(shù)據(jù)建模,R2分別提高了0.11、0.10、0.11,RMSE分別降低了1.01 g/kg、0.87 g/kg、1.01g/kg。
R-ALL-RF:原始全波段數(shù)據(jù)輸入隨機森林模型;FD-ALL-RF:原始全波段數(shù)據(jù)經(jīng)一階微分變換預(yù)處理后輸入隨機森林模型;CARS-RF:競爭性自適應(yīng)重加權(quán)采樣算法篩選后的特征波段數(shù)據(jù)輸入隨機森林模型;SPA-RF:連續(xù)投影算法篩選后的特征波段數(shù)據(jù)輸入隨機森林模型;CARS-SPA-RF:競爭性自適應(yīng)重加權(quán)采樣算法篩選后的特征波段數(shù)據(jù)再經(jīng)連續(xù)投影算法篩選后輸入隨機森林模型。
R-ALL-RF:原始全波段數(shù)據(jù)輸入隨機森林模型;FD-ALL-RF:原始全波段數(shù)據(jù)經(jīng)一階微分變換預(yù)處理后輸入隨機森林模型;CARS-RF:競爭性自適應(yīng)重加權(quán)采樣算法篩選后的特征波段數(shù)據(jù)輸入隨機森林模型;SPA-RF:連續(xù)投影算法篩選后的特征波段數(shù)據(jù)輸入隨機森林模型;CARS-SPA-RF:競爭性自適應(yīng)重加權(quán)采樣算法篩選后的特征波段數(shù)據(jù)再經(jīng)連續(xù)投影算法篩選后輸入隨機森林模型。
利用原始全波段光譜數(shù)據(jù)建模,驗證集檢驗的R2、RMSE和RPD分別為0.45、5.51g/kg和1.35(圖6A)。由于RPD小于1.4,故構(gòu)建的模型對棕漠土有機碳含量估算效果較差,棕漠土有機碳含量的實測值和估算值在1∶1線附近較為分散。利用一階微分變換后的光譜數(shù)據(jù)進行建模后,驗證集檢驗的R2、RMSE和RPD分別為0.63、4.84 g/kg和1.65(圖6B)。這說明光譜經(jīng)過低階微分處理后不僅能降低噪聲干擾更能凸顯光譜特征,從而提升模型估算精度[17]。利用CARS算法篩選得到的特征波段數(shù)據(jù)進行建模,驗證集檢驗的R2、RMSE和RPD分別為0.75、3.53g/kg和1.99(圖6C)。由于RPD小于2.00,說明模型對研究區(qū)棕漠土有機碳含量的估算效果一般。而基于SPA算法和CARS-SPA算法篩選得到的特征光譜數(shù)據(jù)建模,驗證集檢驗的R2分別為0.82和0.85,RMSE分別為3.07g/kg和2.72g/kg,RPD分別為2.34和2.59(圖6D,圖6E)。由于通過這2種特征波段篩選算法,RPD均大于2,表明這2種算法篩選的波段輸入RF模型均能較好地估算棕漠土有機碳含量。對比兩者的檢驗指標(biāo),利用CARS-SPA算法篩選的特征波段構(gòu)建RF模型的效果最優(yōu)。
目前已有研究結(jié)果表明進行室內(nèi)土壤光譜測定可以降低周圍環(huán)境對光譜數(shù)據(jù)影響,但不能模擬采樣的室外自然環(huán)境,存在一定局限性[22]。本研究選擇在室外進行棕漠土光譜測定,可以更大程度模擬野外采樣的自然環(huán)境,實現(xiàn)對光譜數(shù)據(jù)的有效測定[23]。光譜數(shù)據(jù)經(jīng)過低階微分處理以后,可有效降低噪聲的干擾[17]。本研究利用全波段原始光譜數(shù)據(jù)建模后,驗證集檢驗的決定系數(shù)R2和RPD分別為0.45和1.35,而利用一階微分預(yù)處理后的全波段光譜數(shù)據(jù)后,分別提升為0.63和1.65,模型的估算精度有了很大提升,這與張娟娟等[20]、牛芳鵬等[14]研究結(jié)果基本一致。棕漠土的光譜曲線除水分吸收峰及噪聲影響外,整體趨勢較為平緩,這與砂姜黑土[20]及砂壤潮土[7]的光譜曲線趨勢大致相同。CARS、SPA、CARS-SPA 3種算法篩選出的棕漠土特征波段數(shù)分別是122個、11個、10個,即上述算法均能有效地降低有機碳估算模型的輸入波段數(shù)目,提高模型的運行速率,這一結(jié)論與鐘翔君等[7]、牛芳鵬等[14]、唐海濤等[9]研究結(jié)果基本一致。通過不同篩選算法篩選出的特征波段存在一定的差異,即不同算法篩選出的特征波段具有一定的不確定性。基于CARS算法篩選出的特征波段分布較為分散,在1 100~2 500 nm,主要是受到羰基、酰胺和羥基等基團分子振動的倍頻與合頻吸收影響[9];1 000 nm以下存在少量的特征波段,這可能是因為CARS采用交叉驗證篩選出的特征波段為RMSECV較小的最優(yōu)波段集而非相關(guān)性高的波段集。利用SPA對CARS篩選出的特征波段再次篩選后,篩選出的特征波段主要集中在近紅外波段760~2 500 nm,這與鐘翔君等[7]為預(yù)測砂壤潮土有機質(zhì)含量,利用CARS-SPA算法篩選出的特征波段分布結(jié)果有所差異,這可能是土壤類型不同導(dǎo)致的?,F(xiàn)有研究結(jié)果表明,使用非線性模型能取得更好的估算效果[6,9],本研究利用CARS-SPA算法篩選的特征波段結(jié)合非線性的隨機森林模型,驗證集檢驗的R2、RPD分別達到0.85和2.59,取得了較好的估算效果,即本研究篩選的特征波段及模型構(gòu)建方法適用于基于高光譜的湖濱綠洲棕漠土有機碳含量估算。
(1)博斯騰湖湖濱綠洲棕漠土0~50.0 cm土層有機碳含量變化范圍為1.40~40.92 g/kg,平均值為14.20g/kg,標(biāo)準(zhǔn)差7.89 g/kg,變異系數(shù)為55.54%,整體呈現(xiàn)中等變異水平。
(2)CARS、SPA、CARS-SPA 3種算法篩選出的特征波段數(shù)及分布有較大差異,基于CARS-SPA算法篩選出的特征波段主要集中在近紅外波段760~2 500 nm,且數(shù)目更少。
(3)基于CARS-SPA算法篩選出的特征波段構(gòu)建的RF模型在估算棕漠土有機碳含量時效果最好,驗證集R2為0.85,RMSE為2.72 g/kg,RPD為2.59。即利用該算法篩選特征變量可以減少冗余波段數(shù)據(jù)的干擾,提高模型估算精度和運行效率,實現(xiàn)研究區(qū)棕漠土有機碳含量的有效估算。