中圖分類(lèi)號(hào) S153.621 文獻(xiàn)標(biāo)識(shí)碼A 文章編號(hào) 1007-7731(2025)15-0089-05
DOI號(hào) 10.16377/j.cnki.issn1007-7731.2025.15.022
Influence of different spectral transformation forms on the accuracy of partial least squares estimation model of soil organic matter
ZENG Yuanwen FAN Wenwu
(Chongqing Geomatics and Remote Sensing Center, Chongqing 401147, China)
AbstractThisstudyused field-colectedsoil samplesas test subjectsto conduct experiments including soil organicmater (SOM) content determination,hyperspectral data acquisition,and preprocessing.Sixspectral transformationswereapplied to the preprocessd spectral data:absorption depth (Depth),firstderivativeof logreflectance (FD-lgR),second derivativeof log-reflectance (SD-lgR),secondderivativeof reflectance (SD-R),second derivative ofreciprocal reflectance (SD-1/R),andsecondderivativeof reciprocallog-reflectance (SD-1/lgR).Partial least squares regression (PLSR) models for SOM estimation were establishedunder diffrent spectral transformation forms to analyze thecorrelation between spectral transformationsand SOM content,as wellas their impacton model accuracy.Theresults showed thatall6transformations exhibited bands significantlycorrelated with SOMcontent,with FD-lgRhaving the highest numberofsignificantlycorrelatedbands (71).TheFD-lgRmodelachievedadetermination coefficient ( R2 )of 0.995,a root mean square error of calibration (RMSEC) of 0.O63,a cross-validation R2 of 0.775,and a relative percent difference (RPD)of 2.681,allof which were among the highest values acrossall transformations.The scater plot of predicted versus measured values indicated that theFD-lgR model's estimates were close to the actual values,with an R2 of 0.872. Overall, the regression model based on FD-lgR demonstrated high accuracy and good stability.These findings provide a reference for subsequent hyperspectral data preprocessing and estimation model construction for soil organic matter.
Keywordssoil organic matter; hyperspectral; spectral transformation; partial least squares regression
土壤有機(jī)質(zhì)(Soilorganicmatter,SOM)是土壤的重要組成部分,其含量是評(píng)價(jià)土壤肥力的重要指標(biāo);也是農(nóng)作物生長(zhǎng)的重要養(yǎng)分之一,對(duì)作物生長(zhǎng)有顯著影響。土壤有機(jī)質(zhì)常規(guī)調(diào)查采用現(xiàn)場(chǎng)取樣加室內(nèi)測(cè)試的方法,存在費(fèi)時(shí)、費(fèi)力和無(wú)法大面積鋪開(kāi)等問(wèn)題,因此,為快速、準(zhǔn)確和大范圍地獲取土壤有機(jī)質(zhì)含量信息,必須尋找新的技術(shù)方法來(lái)滿(mǎn)足現(xiàn)代精準(zhǔn)農(nóng)業(yè)的發(fā)展需求。光譜分析技術(shù)的發(fā)展,為上述問(wèn)題的解決提供了新的路徑。由于其速度快、成本低、無(wú)污染,以及可同時(shí)反演多種成分等特點(diǎn),已成為替代化學(xué)檢測(cè)的有效手段之一[1-2]。研究表明,土壤有機(jī)質(zhì)在可見(jiàn)光波段和近紅外波段展現(xiàn)出獨(dú)特的光譜特性,其含量是影響土壤光譜特性的核心要素[3]。陳頌超等4研究發(fā)現(xiàn),水稻土在可見(jiàn)光與近紅外波段和中紅外波段的光譜吸收特性與其有機(jī)質(zhì)含量有一定的相關(guān)性。鄔登巍等分析了不同母質(zhì)和土地利用類(lèi)型對(duì)土壤有機(jī)質(zhì)含量光譜預(yù)測(cè)模型精度的影響,并討論了該模型的適用性。
近年來(lái),除了對(duì)土壤有機(jī)質(zhì)本身的光譜特性進(jìn)行研究外,還對(duì)土壤光譜處理方式、土壤粒徑大小、土壤光譜數(shù)學(xué)變換形式和反演模型等對(duì)土壤有機(jī)質(zhì)估算的影響進(jìn)行了深入探究。劉效棟研究發(fā)現(xiàn),就王壤有機(jī)質(zhì)反演模型而言,偏最小二乘模型優(yōu)于多元線(xiàn)性回歸模型,其具有更好的精度和穩(wěn)定性。郄欣等將光譜數(shù)據(jù)進(jìn)行了4種變換,并分別構(gòu)建了SVR估算模型,結(jié)果顯示,基于倒數(shù)對(duì)數(shù)一階微分這種變換形式下的模型精度最高。
本文為研究不同光譜數(shù)學(xué)變換形式對(duì)土壤有機(jī)質(zhì)反演模型精度和穩(wěn)定性的影響,在前人研究的基礎(chǔ)上,對(duì)實(shí)驗(yàn)室內(nèi)采集到的原始光譜數(shù)據(jù)進(jìn)行吸收深度(Depth)提取、反射率對(duì)數(shù)的一階微分(FD-lgR)、反射率對(duì)數(shù)的二階微分( )反射率的二階微分(SD-R)、反射率倒數(shù)的二階微分(SD-1/R)和反射率對(duì)數(shù)的倒數(shù)的二階微分( ΦSD-1/lgR 共6種變換,分析變換之后的反射率值與土壤有機(jī)質(zhì)含量的相關(guān)性,并利用偏最小二乘回歸建立了土壤有機(jī)質(zhì)的預(yù)測(cè)模型,以篩選最優(yōu)的變換形式,為土壤光譜數(shù)據(jù)處理及土壤有機(jī)質(zhì)估算模型建立提供參考。
1材料與方法
1.1土壤樣本的制作與處理
共采集37個(gè)野外土壤樣本,將其自然風(fēng)干,然后研磨成 0.25mm 顆粒,利用重鉻酸鉀氧化一外加熱法測(cè)定土壤有機(jī)質(zhì)。具體的實(shí)驗(yàn)方法及步驟見(jiàn)《土壤農(nóng)化分析》8。研究區(qū)土壤有機(jī)質(zhì)含量在 0.98% }4.42% ,均值 2.31% ,變異系數(shù) 36.77% ,說(shuō)明研究區(qū)土壤有機(jī)質(zhì)含量屬中等程度的空間變異性。
1.2室內(nèi)光譜測(cè)量與預(yù)處理
1.2.1光譜測(cè)定 樣本室內(nèi)高光譜測(cè)量采用ASDFieldSpec3光譜儀,其光譜采集范圍為 350~ 2 500nm ,在 350~1000nm 區(qū)間內(nèi)采樣間隔為1.4nm,1 000~2 500nm 區(qū)間內(nèi)為 2nm 。土壤光譜測(cè)試的幾何條件設(shè)計(jì)如圖1所示,各幾何參數(shù)在實(shí)驗(yàn)過(guò)程中保持不變,為消除土樣反射光譜各方向異性的干擾,測(cè)量時(shí)測(cè)土樣4個(gè)方向的光譜曲線(xiàn),每個(gè)方向取5條,將各方向的光譜曲線(xiàn)算術(shù)平均后得到該土樣的反射光譜數(shù)據(jù)。
1.2.2光譜數(shù)據(jù)預(yù)處理 (1)光譜曲線(xiàn)的斷點(diǎn)校正。實(shí)驗(yàn)光譜儀是由3個(gè)子光譜儀組成,分別接收UV~VNIR 350~1100nm )、SWIR1( 1000~ 1800nm 和SWIR2 (1700~2500nm) 3個(gè)波段的光譜反射率值,在1000和 1800nm 附近會(huì)出現(xiàn)斷點(diǎn),本文利用光譜儀自帶軟件進(jìn)行斷點(diǎn)修正。2)光譜數(shù)據(jù)重采樣。為消除光譜儀原始數(shù)據(jù)在不同波段范圍內(nèi)的采樣間隔差異和光譜數(shù)據(jù)信息冗余問(wèn)題,對(duì)原始光譜數(shù)據(jù)進(jìn)行 10nm 重采樣,用 10nm 波長(zhǎng)范圍的原始數(shù)據(jù)進(jìn)行算術(shù)平均值計(jì)算,處理之后的光譜曲線(xiàn)仍保持了原光譜的形狀特征。(3)低信噪比波段及水吸收峰剔除。原始測(cè)得的光譜曲線(xiàn)在 1400.1900 和2400nm 等波段受水汽吸收的干擾作用較大,存在強(qiáng)烈的水吸收谷,因此,研究剔除了這些受水汽吸收影響嚴(yán)重的波段范圍,除此之外,還對(duì)信噪比較低的波段范圍進(jìn)行了剔除處理,具體的剔除范圍為 350~ 395nm,1 345~1 515nm,1 795~2025nm 和 2405~2500nm 。經(jīng)過(guò)波段剔除之后的土壤反射光譜曲線(xiàn)被分割成了3段。將3段光譜數(shù)據(jù)重新合并,即刪除沒(méi)有數(shù)據(jù)的波段范圍,經(jīng)過(guò)以上預(yù)處理之后最終剩下158個(gè)波段。光譜預(yù)處理前后曲線(xiàn)如圖2所示。
從圖中可以看出,光譜曲線(xiàn)整體呈上凸的拋物線(xiàn),在 405~1005nm 波段反射率值較低,但反射率值隨著波長(zhǎng)的增加迅速增大,在這個(gè)波段范圍內(nèi)光譜曲線(xiàn)較陡,特別是在 405~755nm ,在 1 010~ 2 365nm ,反射率值較大,但曲線(xiàn)較平緩。經(jīng)過(guò)波段剔除之后在 1 400nm 和 1900nm 處的水的吸收特征已經(jīng)不存在了,但是在 2 200nm 處的Al-OH的吸收特征比較明顯,說(shuō)明土壤中存在黏土礦物。
(A)(B)分別為原始光譜曲線(xiàn)和預(yù)處理后的光譜曲線(xiàn)。
1.2.3光譜曲線(xiàn)數(shù)學(xué)變換 對(duì)原始光譜進(jìn)行包括Depth、FD-lgR、SD- ?lgR 、SD-R、SD-1/R和SD-1/IgR共6種變換形式。一般用光譜差分來(lái)近似代替微分,計(jì)算如式(1)。
R′(λi)=[R(λi)-R(λi-1)]/2Δλ
式中, λi 為第 i 個(gè)波段的波長(zhǎng); R′(λi) 為波長(zhǎng) λi 處的一階微分光譜; R(λi),R(λi-1) 分別表示波長(zhǎng)λi,λi-1 處的反射光譜; 是波長(zhǎng) λi-1 到 λi 的間隔。二階微分的計(jì)算方法與此類(lèi)似。
1.3建模方法及評(píng)價(jià)指標(biāo)
1.3.1相關(guān)性分析 將土壤有機(jī)質(zhì)含量和土壤反射率數(shù)學(xué)變換形式進(jìn)行逐波段相關(guān)性分析,計(jì)算每個(gè)波段與土壤有機(jī)質(zhì)含量的相關(guān)系數(shù) r ,其計(jì)算如式(2)。
1.3.2偏最小二乘回歸建模 偏最小二乘回歸法解決了自變量間的多重共線(xiàn)性問(wèn)題,其利用因變量的變異信息來(lái)提取自變量中的有用信息,稱(chēng)為潛變量,從而達(dá)到提高模型的建模精度和預(yù)測(cè)能力的目的。在分析過(guò)程中,一般采用交叉檢驗(yàn)法來(lái)確定保證模型較好精度所需包含的成分個(gè)數(shù)。以土壤反射光譜的6種數(shù)學(xué)變形和對(duì)應(yīng)的有機(jī)質(zhì)含量數(shù)據(jù)作為回歸分析數(shù)據(jù),選出25個(gè)和12個(gè)樣本數(shù)據(jù)分別作為訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集。交叉檢驗(yàn)過(guò)程中采用\"Fullcrossvalidation\"
的方法來(lái)確定模型需包含的潛變量的個(gè)數(shù)和防止過(guò)度擬合。通過(guò)以下參數(shù)對(duì)回歸模型的精度和預(yù)測(cè)能力進(jìn)行評(píng)價(jià)。1)決定系數(shù) R2 ;包括建模決定系數(shù)、交叉檢驗(yàn)絕對(duì)系數(shù)和預(yù)測(cè)絕對(duì)系數(shù) (2) 均方根誤差RMSE;包括建模均方根誤差RMSEC、交叉檢驗(yàn)均方根誤差RMSECV和預(yù)測(cè)均方根誤差RMSEP。計(jì)算如式(3)~(5)。
式中, Ym 和 Yp 分別表示實(shí)測(cè)值和預(yù)測(cè)值, Nc Ncv.Np 分別表示建模、交叉檢驗(yàn)和預(yù)測(cè)樣本數(shù)。
(3)預(yù)測(cè)相對(duì)偏差 RPD 。當(dāng) RPDgt;2 時(shí),回歸模型具有極好的預(yù)測(cè)能力;當(dāng) 1.4 模型的決定系數(shù) R2 和預(yù)測(cè)相對(duì)偏差RPD越大,均方根誤差RMSEC、RMSECV和RMSEP越小,說(shuō)明模型的精度越高。
1.3.3模型精度分析 利用偏最小二乘模型的預(yù)測(cè)值和實(shí)測(cè)值分析其模型精度。
2 結(jié)果與分析
2.1 相關(guān)性分析
由表1可知,6種變換均有與有機(jī)質(zhì)含量顯著相關(guān)的波段存在。達(dá)到顯著相關(guān)性的波段大都集中在UV~VNIR波段范圍內(nèi),且最大相關(guān)波段主要分布在 475~600nm 波段( FD-lgR 除外)。變換形式FD-lgR 達(dá)到顯著相關(guān)性的波段數(shù)最多,為71,SD-1/R達(dá)到顯著相關(guān)性的波段數(shù)最少,為29;且相關(guān)系數(shù)的均值也是前者大于后者,說(shuō)明對(duì)數(shù)的一階微分比倒數(shù)的二階微分更為有效。
2.2偏最小二乘建模分析
由表2可知, FD-lgR 建模的 R2 最大,為0.995,RMSEC最小,為 0.063,SD-lgR 的 R2 和RMSEC分別為0.974和0.151,其他變換形式的建模精度稍微差一些,但是 R2 均大于0.720,總體來(lái)說(shuō)各個(gè)變換形式的建模精度均較好。交叉檢驗(yàn)階段,各個(gè)變換形式的 R2 出現(xiàn)了較大偏差, FD-lgR 的交叉檢驗(yàn) R2 最大,為0.775,RMSECV最小,為0.464;Depth次之,其中精度最差的是 SD-1/lgR 變換形式,其 R2 為0.395,其他變換形式的 R2 均在0.500以上。模型的預(yù)測(cè)精度檢驗(yàn)結(jié)果表明, FD-lgR 的預(yù)測(cè)精度最優(yōu), R2=0.872 RMSEP=0.216 ,其次是Depth,然后是SD-lgR, R2 最小的是SD-1/lgR;FD-lgR的RPD最大,為2.681,其次為Depth, RPD=2.08 ,說(shuō)明用這兩種變換形式建立的回歸模型具有較好的預(yù)測(cè)能力,除了SD-1/IgR(1.15)以外,其他變換形式的RPD均在1.4~2.0,說(shuō)明SD-1/lgR建立的回歸模型難以對(duì)有機(jī)質(zhì)含量進(jìn)行有效預(yù)測(cè)。
綜上,對(duì)反射率進(jìn)行對(duì)數(shù)變形,其在建模、檢驗(yàn)和預(yù)測(cè)階段的精度均有所提高,然而進(jìn)行反射率倒數(shù)變換使精度有所降低。綜合考慮各個(gè)階段的結(jié)果,以FD- ?lgR 建立的模型最優(yōu),其次是Depth,然后為 。Depth是在連續(xù)統(tǒng)去除的基礎(chǔ)上提取的,連續(xù)統(tǒng)去除后可以在光譜曲線(xiàn)中突顯出土壤樣本的特征吸收帶,使得吸收特征增強(qiáng),這可能是其建立模型精度較高的原因。
圖3顯示了各個(gè)變換形式在模型建立過(guò)程中RMSEC和RMSECV隨入選的潛變量數(shù)目的變化情況。由圖3可知,RMSEC在各個(gè)變換形式的模型建立過(guò)程中的變化規(guī)律較相似,均隨著模型人選潛變量數(shù)目的增多而減小,最后逐漸趨于0;但RMSECV變化情況存在明顯的差異,與其他變形相比,F(xiàn)D-lgR在建立偏最小二乘模型時(shí),能接納更多的潛變量,不容易出現(xiàn)過(guò)配。
(A)~(F)分別為FD- ?lgR 、Depth、SD- ?1/lgR 、SD-IgR、SD-R、SD-1/R。
圖3偏最小二乘建模過(guò)程中RMSE的變化
2.3估測(cè)模型精度分析
圖4顯示的是各個(gè)變換形式下建立模型的預(yù)測(cè)值和實(shí)測(cè)值的散點(diǎn)圖,當(dāng)數(shù)值點(diǎn)均勻地分布在1:1直線(xiàn)兩端的時(shí)候預(yù)測(cè)效果較優(yōu)。由圖4可知, SD-1/R 的樣點(diǎn)均勻分布在1:1直線(xiàn)兩側(cè),但是平均距離較大;其余各個(gè)變換形式對(duì)有機(jī)質(zhì)含量較小的樣本的預(yù)測(cè)值與實(shí)測(cè)值含量較大的樣本更為接近,表明模型對(duì)中、低有機(jī)質(zhì)含量具有較好的預(yù)測(cè)能力??偟膩?lái)說(shuō),反射率FD-lgR建立的模型精度最高,穩(wěn)定性最好。
3結(jié)論
本研究對(duì)野外采集的土壤樣本進(jìn)行了有機(jī)質(zhì)含量測(cè)定及室內(nèi)光譜曲線(xiàn)測(cè)量,并對(duì)光譜曲線(xiàn)進(jìn)行了Depth、FD- -lgR 、SD- ?lgR 、SD-R、SD-1/R 和SD-1/IgR共6種變換,分析了各種光譜變換形式與土壤有機(jī)質(zhì)含量的相關(guān)性,建立了土壤有機(jī)質(zhì)含量偏最小二乘回歸預(yù)測(cè)模型,分析模型的精度。結(jié)果表明,結(jié)果達(dá)到顯著相關(guān)性的波段大都集中在UV~VNIR波段范圍內(nèi),除FD- ?lgR 外,最大相關(guān)波段主要分布在475~600nm 波段范圍內(nèi);建模、交叉檢驗(yàn)和預(yù)測(cè)階段均是FD-lgR建立的回歸模型精度最高,穩(wěn)定性最好,其在建立偏最小二乘模型的時(shí)能接納更多的潛變量而不容易出現(xiàn)過(guò)配,本文為今后土壤光譜數(shù)據(jù)預(yù)處理及土壤有機(jī)質(zhì)光譜特性研究提供了參考。
參考文獻(xiàn)
[1]ANGELOPOULOUT,BALAFOUTISA,ZALIDISG,etal.From laboratory to proximal sensing spectroscopy forsoilorganic carbon estimation:areview[J].Sustainability,2020,12(2):443.
[2]李浩,于高,曹永研,等.利用CARS-CNN模型的土壤有機(jī)質(zhì)含量高光譜預(yù)測(cè)[J].光譜學(xué)與光譜分析,2024,44(8):2303-2309.
[3]尚天浩,毛鴻欣,張俊華,等.基于PCA敏感波段篩選與SVM建模的銀川平原土壤有機(jī)質(zhì)高光譜估算[J].生態(tài)學(xué)雜志,2021,40(12):4128-4136.
[4]陳頌超,彭杰,紀(jì)文君,等.水稻土可見(jiàn)-近紅外-中紅外光譜特性與有機(jī)質(zhì)預(yù)測(cè)研究[J].光譜學(xué)與光譜分析,2016,36(6):1712.
[5]郭登巍,張甘霖.母質(zhì)與土地利用類(lèi)型對(duì)土壤光譜反演模型的影響[J].土壤,2016,48(1):173-179.
[6]劉效棟.基于高光譜遙感的黃土高原丘陵溝壑區(qū)土壤有機(jī)質(zhì)含量估測(cè)模型研究[J].西部大開(kāi)發(fā)(土地開(kāi)發(fā)工程研究),2018,3(12):13-18.
[7]郄欣,齊雁冰,劉姣姣,等.基于室內(nèi)高光譜數(shù)據(jù)的多種類(lèi)型土壤有機(jī)質(zhì)估算模型比較[J]干旱地區(qū)農(nóng)業(yè)研究,2021,39(4):109-116,124.
[8]鮑士旦.土壤農(nóng)化分析[M].3版.北京:中國(guó)農(nóng)業(yè)出版社,2000.
[9]沈掌泉,王珂.用近紅外光譜預(yù)測(cè)土壤碳含量的研究[J].紅外與毫米波學(xué)報(bào),2010,29(1):32-37.
[10]CHANGCW,LAIRDDA,MAUSBACHMJ,etal.Near-infraredreflectancespectroscopyprincipalcomponents regression analysis ofsoil properties[J].Soil science society of America journal,20o1,65(2):480-490.
(責(zé)任編輯:胡立萍)