張 恒,梁太波,宋效東,江 鴻,郭文孟,戴華鑫,翟 振,馮長(zhǎng)春,張艷玲
(1. 中國(guó)煙草總公司鄭州煙草研究院,鄭州 450001; 2. 中國(guó)科學(xué)院南京土壤研究所,南京 210008; 3. 四川省煙草科學(xué)研究所,成都 610041)
【研究意義】土壤pH是評(píng)估土壤質(zhì)量的重要指標(biāo)[1]。土壤的物理、化學(xué)和生物特性均會(huì)受到土壤pH的影響[2],土壤pH不僅影響土壤礦物質(zhì)和其他養(yǎng)分的生物有效性,也影響微生物活動(dòng),改變土壤有機(jī)質(zhì)分解速度,進(jìn)而影響土壤養(yǎng)分釋放。因此,土壤pH的準(zhǔn)確測(cè)定對(duì)煙田土壤質(zhì)量監(jiān)測(cè)和土壤改良至關(guān)重要。傳統(tǒng)的土壤pH實(shí)驗(yàn)室測(cè)定方法費(fèi)時(shí)費(fèi)力,且易受測(cè)定條件的影響,難以滿足智慧農(nóng)業(yè)對(duì)田間管理的實(shí)時(shí)性需求[3]。高光譜遙感技術(shù)的發(fā)展為土壤成分快速檢測(cè)提供了新方法,高光譜技術(shù)因其快速、無損且可獲得被檢測(cè)物體較高精度的信息,目前已被廣泛用于定量估測(cè)土壤中的水分含量[4]、養(yǎng)分狀況[5-6]、有機(jī)質(zhì)(碳)含量[7-8]以及土壤重金屬[9-10]等土壤屬性信息。因此可通過構(gòu)建土壤pH高光譜定量估測(cè)模型實(shí)現(xiàn)土壤pH的準(zhǔn)確快速測(cè)定,為煙田土壤精準(zhǔn)施肥提供技術(shù)支撐。【前人研究進(jìn)展】近年來,國(guó)內(nèi)外學(xué)者在構(gòu)建土壤pH和高光譜反射率定量估測(cè)模型方面進(jìn)行了一些研究。如蔡海輝等[11]以棉田土壤為研究區(qū),分析9種單一預(yù)處方法處理后的光譜數(shù)據(jù)與pH的相關(guān)性,發(fā)現(xiàn)光譜全波段經(jīng)二階微分處理后結(jié)合隨機(jī)森林算法建模是估測(cè)棉田土壤pH的最佳模型;沈從旺等[12]以重慶涪陵區(qū)土壤為研究對(duì)象,利用相關(guān)分析法篩選特征波段構(gòu)建pH估測(cè)模型,發(fā)現(xiàn)支持向量機(jī)是估測(cè)水稻土pH的最佳建模方法,偏最小二乘回歸是估測(cè)紫色土pH的最佳建模方法;Ji等[13]以浙江省水稻田土壤為研究對(duì)象,結(jié)果發(fā)現(xiàn)原始光譜全波段經(jīng)Savitzky-Golay平滑處理后,使用偏最小二乘回歸建立的土壤pH估測(cè)模型效果較好;Yang等[1]以長(zhǎng)江中下游平原水稻土為研究對(duì)象,在4種建模方法下,對(duì)比了使用光譜全波段和遺傳算法篩選特征波段對(duì)構(gòu)建土壤pH估測(cè)模型的影響。前人選擇的研究區(qū)域多集中于單個(gè)縣(區(qū)),研究對(duì)象多局限于單一土壤類型,所取土壤樣品類型和空間分布差異較小,在更大區(qū)域尺度上運(yùn)用高光譜技術(shù)對(duì)土壤pH進(jìn)行建模估測(cè)的研究較少;且較多研究在估測(cè)不同地區(qū)土壤pH時(shí),多使用光譜全波段構(gòu)建土壤pH估測(cè)模型,關(guān)于主成分分析對(duì)光譜數(shù)據(jù)降維以及競(jìng)爭(zhēng)自適應(yīng)重加權(quán)采樣(Competitive adaptive reweighted sampling, CARS)算法在篩選土壤pH特征波段方面的研究鮮有報(bào)道。此外,由于高光譜成像技術(shù)可獲得被掃描樣品區(qū)域內(nèi)所有像素點(diǎn)的光譜數(shù)據(jù)[14],且能同時(shí)掃描分析多個(gè)樣品,所以高光譜成像技術(shù)比使用地物光譜儀基于點(diǎn)獲取的高光譜數(shù)據(jù)更快更準(zhǔn)確,然而到目前為止,利用高光譜成像技術(shù)估測(cè)煙田土壤pH的研究鮮見報(bào)道?!颈狙芯壳腥朦c(diǎn)】以我國(guó)四川省煙田土壤為研究對(duì)象,利用高光譜成像技術(shù)獲取土壤樣品的高光譜數(shù)據(jù),采用12種光譜預(yù)處理方法對(duì)原始光譜進(jìn)行處理,結(jié)合原始光譜全波段、主成分分析降維得到的特征光譜以及CARS篩選的特征波段,運(yùn)用4種建模方法分別構(gòu)建土壤pH估測(cè)模型?!緮M解決的關(guān)鍵問題】旨在探索區(qū)域尺度下運(yùn)用高光譜成像技術(shù)估測(cè)土壤pH的可行性,為四川省煙田土壤pH快速測(cè)定提供理論依據(jù)和方法參考。
2021年在四川省4個(gè)地區(qū)(涼山州、攀枝花、宜賓、瀘州)18個(gè)縣(區(qū)、縣級(jí)市)共采集土壤樣品296份,采樣點(diǎn)分布見圖1。具體采集方法:采用5點(diǎn)取樣法采集煙田0~20 cm耕層土壤樣品,四分法保留2 kg,在實(shí)驗(yàn)室土壤樣品風(fēng)干箱內(nèi)風(fēng)干,剔除雜物,研磨后過2 mm篩,分成兩部分,一部分用于土壤高光譜數(shù)據(jù)的采集,另一部分用于測(cè)定土壤pH。用于采集高光譜數(shù)據(jù)的土壤樣品,在采集前平攤于通風(fēng)條件良好的實(shí)驗(yàn)室內(nèi)72 h,以降低土壤水分對(duì)高光譜數(shù)據(jù)采集過程中的不利影響。土壤pH測(cè)定參照《土壤農(nóng)業(yè)化學(xué)分析方法》[15],采用水浸提電位法測(cè)定pH,水土比為2.5∶1.0。
圖1 采樣點(diǎn)分布Fig.1 Distribution of sampling points
高光譜圖像采集裝置主要包括消色差鏡頭(HSIA-OLE23)、可見—近紅外高光譜相機(jī)(GaiaField-V10E-AZ4)、電動(dòng)載物臺(tái)、計(jì)算機(jī)和Spec View圖像采集軟件等。光譜采集方法:將處理好的土壤樣品放置于直徑10 cm、深2.0 cm被黑布包裹的培養(yǎng)皿中,刮平土壤表面后放置在電動(dòng)載物臺(tái)上,通過操作電腦中的Spec View圖像采集軟件,使電動(dòng)載物臺(tái)以1.35 cm/s的速度帶動(dòng)土壤樣本進(jìn)入圖像采集箱內(nèi),在暗箱環(huán)境下完成對(duì)土壤樣品高光譜圖像的采集。光譜數(shù)據(jù)采集范圍為390~2561 nm。在390~1030 nm范圍內(nèi),光譜分辨率為2.6 nm,采集250個(gè)波段;在967~2561 nm范圍內(nèi),光譜分辨率為5.4 nm,采集288個(gè)波段。高光譜圖像采集后,需要對(duì)采集的高光譜圖像進(jìn)行黑白版校正,以消除儀器本身在采集過程中帶來的光譜噪聲。由公式(1)對(duì)原始高光譜圖像進(jìn)行校正。
(1)
式中,I0為采集的原始高光譜圖像,W為采集反射率為99%的標(biāo)準(zhǔn)校正白板獲取白板標(biāo)定圖像,B為采集反射率為0%的內(nèi)置黑板獲取黑板標(biāo)定圖像,I為校正后原始高光譜圖像。
對(duì)于每個(gè)土壤樣本校正后的高光譜圖像,選擇培養(yǎng)皿內(nèi)土壤樣本區(qū)域作為感興趣區(qū)域(Region of interest,ROI)。提取土壤樣本ROI內(nèi)所有像素點(diǎn)的光譜數(shù)據(jù),然后對(duì)ROI內(nèi)所有像素點(diǎn)的光譜反射率值進(jìn)行平均,以此生成平均光譜作為此樣品的原始高光譜反射率數(shù)據(jù)。
由于每段光譜數(shù)據(jù)的頭部和尾部均存在噪聲,因此每個(gè)土壤樣本只使用408~1007和1012~2500 nm的數(shù)據(jù)作為進(jìn)一步分析和建模的高光譜數(shù)據(jù)。采用最大最小歸一化(Max-min scaling, MMS)、多元散射校正(Multiplicative scatter correction, MSC)和標(biāo)準(zhǔn)正態(tài)分布(Standard normal variate, SNV)3種單一預(yù)處理方法對(duì)原始光譜(Reflectance,R)進(jìn)行預(yù)處理[16]。同時(shí)為比較不同組合光譜預(yù)處理方法對(duì)建模精度的影響,在一階導(dǎo)數(shù)(First derivative, D1)、Savitzky-Golay平滑(Savitzky-Golay smooth, SG)和趨勢(shì)校正(DT)基礎(chǔ)上,對(duì)光譜數(shù)據(jù)再分別進(jìn)行MMS、SNV和MSC預(yù)處理。
為減少高光譜數(shù)據(jù)的冗余,降低模型的復(fù)雜性和計(jì)算量。研究中使用CARS算法篩選特征波段和主成分分析(Principal component analysis,PCA)對(duì)光譜數(shù)據(jù)進(jìn)行降維處理。PCA主要通過某種線性投影將高維數(shù)據(jù)映射到低維的空間中,可將眾多具有相關(guān)性的指標(biāo)重新組合一組新的無相關(guān)的綜合指標(biāo)來代替,以達(dá)到對(duì)原始特征進(jìn)行降維的目的[17]。CARS是通過適應(yīng)重加權(quán)采樣和指數(shù)衰減函數(shù)篩選出偏最小二乘模型中回歸系數(shù)絕對(duì)值大的波段,去掉權(quán)重較小的波段,利用交互驗(yàn)證選出交互驗(yàn)證均方根誤差(Root mean square error of cross validation,RMSECV)最小時(shí)的波段子集,從而有效尋找出最優(yōu)變量組合。研究中CARS算法設(shè)置采樣次數(shù)為50次[18]。
采用偏最小二乘回歸、嶺回歸、核嶺回歸和支持向量機(jī)4種方法構(gòu)建土壤pH估測(cè)模型。偏最小二乘回歸(Partial least square regression,PLSR)是一種廣泛用于土壤高光譜定量分析的線性回歸模型[19],可有效降低自變量間多重共線性問題,避免模型過度擬合以及優(yōu)化模型估測(cè)的精度。嶺回歸(Ridge regression,RR)是常見包含懲罰項(xiàng)的線性學(xué)習(xí)算法,可減少線性回歸模型的方差[20]。核嶺回歸(Kernel ridge regression,KRR)是嶺回歸(線性最小二乘與L2范數(shù)正則化)與核函數(shù)結(jié)合起來的算法,不同的核函數(shù)會(huì)導(dǎo)致不同的空間函數(shù),研究中核嶺回歸使用高斯徑向基(RBF)為核函數(shù)進(jìn)行建模。支持向量機(jī)(Support vector machine,SVM)是基于統(tǒng)計(jì)學(xué)習(xí)理論的機(jī)器學(xué)習(xí)算法,通過核函數(shù)將數(shù)據(jù)轉(zhuǎn)換到高維特征空間中去,已被用于解決線性和非線性問題,研究中SVM使用高斯徑向基(RBF)核函數(shù)[21]。
建模過程中采用系統(tǒng)網(wǎng)格搜索方法對(duì)模型參數(shù)進(jìn)行優(yōu)化選擇,通過10折交叉驗(yàn)證,以建模集均方根誤差(Root mean square error of training set,RMSET)最小時(shí)確定最佳估測(cè)模型。
以決定系數(shù)(Coefficient of determination,R2)、建模集均方根誤差(RMSET)、驗(yàn)證集均方根誤差(Root mean square error of validation,RMSEV)、相對(duì)分析誤差(Residual prediction deviation,RPD)等參數(shù)對(duì)建立的pH估測(cè)模型性能進(jìn)行評(píng)估[22]。模型的均方根誤差越小,R2越接近1,表明模型的準(zhǔn)確性越高。當(dāng)RPD≥2時(shí),表明模型可以較準(zhǔn)確的對(duì)土壤pH進(jìn)行估測(cè);當(dāng)1.4≤RPD<2時(shí),表明模型可以粗略對(duì)土壤pH進(jìn)行估測(cè)。模型評(píng)估參數(shù)具體計(jì)算公式參考文獻(xiàn)[22]。
高光譜數(shù)據(jù)的采集和校正均使用 Spec View軟件完成;感興趣區(qū)選取、光譜數(shù)據(jù)提取、光譜數(shù)據(jù)預(yù)處理、特征波段篩選以及模型的建立均使用Python3.9軟件;使用Microsoft Excel 2016軟件制圖。
為保證建模集和驗(yàn)證集樣本中pH分布的均勻性,采用梯度質(zhì)量法[16]對(duì)土壤樣本集進(jìn)行劃分,首先將所有樣本按照土壤pH進(jìn)行升序排序,然后從小到大每隔3個(gè)樣品取1個(gè)作為驗(yàn)證集樣本,把所有樣本以3∶1的比例劃分為建模集和驗(yàn)證集,如表1所示。土壤總樣本中pH變化范圍為4.360~8.715,均值為6.299。建模集和驗(yàn)證集的描述統(tǒng)計(jì)特征相近,與總樣本各統(tǒng)計(jì)特征基本在同一水平,且驗(yàn)證集樣本pH分布范圍在建模集樣本pH分布范圍之內(nèi),說明驗(yàn)證集樣本在建模集中分布均勻。
表1 土壤樣本pH描述統(tǒng)計(jì)
將總樣本按照土壤pH大小升序排列,均分為6組后求每組對(duì)應(yīng)pH和光譜數(shù)據(jù)的平均值(圖2)。不同pH的土壤光譜反射率曲線雖各有不同,但變化趨勢(shì)較為相似。光譜反射率在400~800 nm可見光范圍內(nèi)迅速上升且光譜反射率值相對(duì)較小,在800~2500 nm范圍內(nèi)光譜反射率曲線波動(dòng)上升,在1400、1900和2200 nm處均存在明顯的水分吸收谷。此外,在600~2500 nm范圍內(nèi),不同pH的光譜反射率曲線差異明顯,土壤pH越高,土壤光譜反射率越低,這種差異的存在是后續(xù)運(yùn)用高光譜建立土壤pH估測(cè)模型的基礎(chǔ)。
圖2 不同pH土壤原始光譜反射率曲線Fig.2 Original spectral reflectance curves of soil with different pH
由表2~3可知,與使用原始光譜全波段建模相比,使用單一預(yù)處理或組合預(yù)處理方法處理后的光譜全波段,結(jié)合不同建模方法建立的土壤pH估測(cè)模型性能均有不同程度提升。其中使用PLSR方法建模時(shí),基于DT-MMS預(yù)處理方法使用全波段建立的土壤pH估測(cè)模型精度最高;分別使用SVM、RR以及KRR 3種建模方法時(shí),基于D1-SNV預(yù)處理方法使用光譜全波段建立的pH估測(cè)模型精度均最高。整體看,不同建模方法得到的土壤pH最優(yōu)估測(cè)模型,均使用光譜組合預(yù)處理方法處理后的光譜全波段,說明在相同建模方法下,選擇合適的光譜組合預(yù)處理方法對(duì)原始光譜進(jìn)行處理,有助于提高土壤pH估測(cè)模型的準(zhǔn)確度。原始光譜經(jīng)D1-SNV預(yù)處理方法處理后,結(jié)合4種建模方法建立的pH估測(cè)模型精度均較高,因此在后續(xù)分析中選擇D1-SNV對(duì)原始光譜進(jìn)行預(yù)處理,以降低數(shù)據(jù)噪聲,提高光譜數(shù)據(jù)有效性。
表2 基于光譜全波段的PLSR和SVM模型構(gòu)建及驗(yàn)證
表3 基于光譜全波段的RR和KRR模型構(gòu)建及驗(yàn)證
2.4.1 CARS算法篩選特征波段 利用CARS算法篩選D1-SNV預(yù)處理后的特征波段。由圖3-a可知,隨著運(yùn)算次數(shù)增加CARS算法篩選出的特征波段變量個(gè)數(shù)逐漸減少。經(jīng)過前10次的運(yùn)算,篩選的特征波段變量個(gè)數(shù)由504個(gè)降低至182,呈明顯降低趨勢(shì),隨后特征變量個(gè)數(shù)呈平穩(wěn)降低趨勢(shì)。由圖3-b可知,在0~50次運(yùn)算過程中RMSECV波動(dòng)變化明顯,在0~16運(yùn)算次數(shù)過程中RMSECV整體呈降低趨勢(shì),在16~50運(yùn)算次數(shù)過程中RMSECV呈明顯升高趨勢(shì),說明在16~50運(yùn)算次數(shù)過程中與土壤pH無關(guān)的噪聲信息增多。當(dāng)運(yùn)算次數(shù)為第16次時(shí),RMSECV最小,篩選的特征光譜波段組合最優(yōu)。結(jié)合圖3-a可知當(dāng)運(yùn)算次數(shù)為16時(shí),對(duì)應(yīng)的特征波段變量數(shù)目為93,其中有35個(gè)波段分布在可見光400~760 nm范圍內(nèi),有58個(gè)波段分布在近紅外800~2500 nm。
2.4.2 確定PCA最佳維度數(shù) 圖4顯示基于D1-SNV預(yù)處理方法,不同建模方法下模型評(píng)估參數(shù)RPD隨維度數(shù)(1~222)增長(zhǎng)的變化規(guī)律??梢娽槍?duì)不同建模方法,運(yùn)用PCA降維過程中得到的最佳維度數(shù)差異明顯。當(dāng)維度數(shù)為60時(shí),估測(cè)土壤pH的PLSR模型驗(yàn)證集RPD達(dá)最大值;當(dāng)維度數(shù)是180時(shí),土壤pH的SVM估測(cè)模型驗(yàn)證集PRD達(dá)最大值;當(dāng)維度數(shù)為最大值176時(shí),估測(cè)土壤pH的RR模型驗(yàn)證集PRD達(dá)最大值;當(dāng)維度數(shù)為最大值222時(shí),估測(cè)土壤pH的KRR模型驗(yàn)證集PRD達(dá)最大值。因此選擇60、180、176和222分別作為PLSR、SVM、RR和KRR 4種建模方法在后續(xù)構(gòu)建土壤pH估測(cè)模型過程中PCA降維的最佳維度數(shù)。
2.4.3 土壤pH估測(cè)模型的構(gòu)建 由表4可知,使用PLSR和RR方法建模時(shí),運(yùn)用CARS篩選特征波段建立的pH估測(cè)模型精度均較高,PLSR模型驗(yàn)證集R2、RMSEV和PRD分別為0.758、0.555和2.034;RR模型驗(yàn)證集R2、RMSEV和PRD分別為0.751、0.563和2.002;使用KRR和SVM方法建模時(shí),運(yùn)用全波段和PCA降維建立的土壤pH估測(cè)模型精度均較高,模型驗(yàn)證集的R2均大于0.750,RMSEV均小于0.570,RPD均大于2.0。
整體看,使用全波段建模情況下,土壤pH估測(cè)模型精度排序?yàn)镵RR>SVM>RR>PLSR,采用KRR模型估測(cè)效果最佳(RPD=2.105)。經(jīng)過CARS篩選特征波段后,pH估測(cè)模型精度排序?yàn)镻LSR>RR>KRR>SVM,采用CARS-PLSR模型估測(cè)效果最佳(RPD=2.034),RPD較全波段下的PLSR模型提升了0.29。經(jīng)過PCA對(duì)光譜全波段降維后,pH估測(cè)模型精度排序?yàn)镾VM>KRR>RR>PLSR,采用PCA-SVM模型估測(cè)效果最佳(RPD=2.040)??梢娫谌ǘ巍CA降維和CARS篩選特征波段建模情況下,得到的pH最優(yōu)估測(cè)模型精度相近。但由于CARS-PLSR模型入選變量數(shù)目較少、建模方法解釋性較強(qiáng)和模型精度較高,故在D1-SNV預(yù)處理方法下,結(jié)合CARS篩選特征波段使用PLSR方法建立的土壤pH估測(cè)模型(D1-SNV-CARS-PLSR)效果最佳。
構(gòu)建估測(cè)模型前對(duì)原始光譜進(jìn)行適當(dāng)?shù)念A(yù)處理,可明顯降低外界環(huán)境(溫度、濕度、光線等)和土壤自身(質(zhì)地、顆粒大小以及土壤類型等)對(duì)采集光譜數(shù)據(jù)產(chǎn)生的干擾,有助于提高模型的估測(cè)精度[3]。本研究發(fā)現(xiàn),原始光譜經(jīng)單一預(yù)處理或組合預(yù)處理后,建立的土壤pH估測(cè)模型精度均有所提升,且不同建模方法得到的估測(cè)土壤pH最佳模型,均使用的是光譜組合預(yù)處理方法。這與Lin等[23]研究結(jié)果一致,其研究表明基于組合預(yù)處理方法建立的土壤pH估測(cè)模型精度較高。同時(shí)研究還發(fā)現(xiàn)基于DT-MMS預(yù)處理后光譜全波段建立的土壤pH PLSR估測(cè)模型均方根誤差較小且精度較高,基于D1-SNV預(yù)處理后光譜全波段建立的土壤pH SVM、RR和KRR估測(cè)模型精度均較高。原因可能是:趨勢(shì)校正(DT)有效校正光譜數(shù)據(jù)中的傾斜和曲線漂移[24];最大最小歸一化(MMS)有效消除了尺度差異帶來的不良影響[25];一階導(dǎo)數(shù)(D1)對(duì)重疊光譜進(jìn)行拆分,增大了光譜曲線中波谷和波峰的特征[22];標(biāo)準(zhǔn)正態(tài)分布(SNV)有效降低了因顆粒分布不均或顆粒大小不同產(chǎn)生的散射影響[26];本研究將上述預(yù)處理方法組合起來使用,有效消除了原始光譜曲線中的曲線漂移和散射效應(yīng),增大了光譜數(shù)據(jù)的信噪比,從而顯著提高了模型估測(cè)土壤pH的準(zhǔn)確度和穩(wěn)定性。
圖3 CARS算法篩選特征波段Fig.3 Feature bands screened by CARS algorithm
n為PCA降維過程中的維度數(shù)。n is the number of dimensions in PCA dimension reduction.
表4 不同變量篩選方法的土壤pH估測(cè)模型構(gòu)建及驗(yàn)證
CARS算法是一種有效的特征波段篩選方法,主要通過逐步去除不重要變量和冗余,從全波段中篩選出用于建模的最優(yōu)特征波段變量集合。本研究中,與全光譜相比,CARS算法篩選出了93個(gè)土壤pH特征波段,占光譜全波段數(shù)目的18%左右,其中篩選的特征波段在可見光和近紅外區(qū)域內(nèi)均有分布,主要集中在近紅外波段800~2500 nm。與Wang等[9]研究結(jié)果相似,其研究發(fā)現(xiàn)CARS算法篩選土壤pH的特征波段主要在1903 nm以下的可見光和近紅外區(qū)域;與Vohland等[27]發(fā)現(xiàn)CARS算法篩選土壤pH特征波段只限于1915 nm以外的結(jié)果相悖。究其原因可能是由于光譜活性土壤成分(如有機(jī)質(zhì)和粘土)的協(xié)變性在不同區(qū)域土壤中存在顯著差異,導(dǎo)致在不同地區(qū)使用同一特征波段篩選方法篩選出的pH特征波段存在差異。
主成分分析是最常用的數(shù)據(jù)降維方法,可以保證在信息量盡量不丟失的情況下對(duì)高維高光譜數(shù)據(jù)進(jìn)行降維處理,以減少建模過程中的計(jì)算量和建模時(shí)間。研究中發(fā)現(xiàn)與使用光譜全波段建模相比,使用PCA對(duì)光譜降維后結(jié)合PLSR和RR建模方法建立的土壤pH估測(cè)模型性能有所提升,但提升程度并不顯著。應(yīng)該注意到運(yùn)用PCA對(duì)光譜降維建模雖然模型性能提升不明顯,但可以有效降低建模過程中的運(yùn)算量,提高模型的擬合效果[12]。此外,使用SVM和KRR 2種建模方法時(shí),基于光譜全波段建立的土壤pH估測(cè)模型較PCA 降維建模取得了更好的估測(cè)性能,造成這一結(jié)果的因素可能是由于PCA降維過程中雖然減少了用于建模的數(shù)據(jù)量,但也損失了部分重要光譜信息,導(dǎo)致所建土壤pH估測(cè)模型效果不理想[28],這一點(diǎn)在本研究中也得到了證實(shí),研究中基于PCA篩選特征波段運(yùn)用KRR方法建模時(shí),模型評(píng)估參數(shù)RPD隨維度數(shù)增長(zhǎng)而增加,但由于降維過程中最大維度數(shù)限制導(dǎo)致模型精度低于使用光譜全波段建立的KRR估測(cè)模型。
在4種建模方法中,無論使用光譜全波段還是PCA降維后的特征光譜,KRR和SVM 2種建模方法都取得了比PLSR和RR更好的估測(cè)準(zhǔn)確度。這可能是由于土壤pH與有機(jī)質(zhì)、粘土等光譜活性成分之間關(guān)系較密切,且主要存在內(nèi)在非線性關(guān)系[2],而偏最小二乘回歸和嶺回歸屬于線性模型,在解決非線性關(guān)系時(shí)存在一些不足,故導(dǎo)致模型精度相對(duì)偏低。但使用CARS算法篩選的特征波段建模時(shí),PLSR和RR 2種建模方法較KRR和SVM取得了更好的估測(cè)精度,可能是由于CARS算法主要通過偏最小二乘回歸模型從光譜全波段數(shù)據(jù)中篩選出光譜波段變量組合,故CARS篩選的特征波段與土壤pH之間主要存在線性關(guān)系。另外,通過對(duì)比分析發(fā)現(xiàn)基于D1-SNV預(yù)處理方法,使用CARS篩選特征波段建立的土壤pH PLSR估測(cè)模型精度較高且計(jì)算量較小,模型驗(yàn)證集R2、RMSEV和RPD分別為0.758、0.555和2.034,說明在區(qū)域尺度上運(yùn)用高光譜成像技術(shù)估測(cè)土壤pH具有可行性。但與蔡海輝等[11]在阿拉爾市對(duì)棉田土壤pH建立的最優(yōu)模型相比,本研究建立的最佳估測(cè)模型精度相對(duì)偏低,原因可能是由于本研究所選研究區(qū)域尺度較大,所取土壤樣品理化性質(zhì)和土壤類型復(fù)雜多樣,故導(dǎo)致建立的pH最佳估測(cè)模型精度偏低,但也應(yīng)該注意到本研究所建立的土壤pH估測(cè)模型適用區(qū)域較大。
因此,在未來運(yùn)用高光譜成像技術(shù)對(duì)土壤化學(xué)成分進(jìn)行估測(cè)研究時(shí),需要充分考慮土壤樣本自身的光譜特性和土壤類型,深入分析土壤化學(xué)成分與光譜數(shù)據(jù)間的內(nèi)在關(guān)系,加強(qiáng)對(duì)光譜數(shù)據(jù)預(yù)處理方法、特征波段篩選方法以及機(jī)器學(xué)習(xí)建模算法方面的研究[23],以提高高光譜估測(cè)土壤pH的準(zhǔn)確度。此外,雖然研究中建立的土壤pH估測(cè)模型精度相對(duì)不太高,但所建模型的適用區(qū)域較廣,模型的泛化能力較強(qiáng),可以有效地對(duì)四川省植煙土壤pH進(jìn)行估測(cè),是否對(duì)于其它省份或區(qū)域的植煙土壤具有普適性,還需要采集更多具有代表性的植煙土壤樣品對(duì)模型進(jìn)行完善。
(1)研究區(qū)域耕層土壤pH變化范圍為4.360~8.715,均值為6.299,變異系數(shù)為17.998%,土壤pH呈中等變異性。
(2)使用單一預(yù)處理或組合預(yù)處理方法處理后的光譜波段建模,有利于提高土壤pH估測(cè)模型的精度;其中原始光譜經(jīng)D1-SNV預(yù)處理方法處理后,結(jié)合4種建模方法建立的pH估測(cè)模型精度均較高。
(3)CARS算法篩選出了93個(gè)土壤pH特征波段,篩選的特征波段較均勻的分布在可見光和近紅外區(qū)域內(nèi),且多數(shù)集中在近紅外波段800~2500 nm。原始光譜經(jīng)D1-SNV預(yù)處理后,基于偏最小二乘回歸和嶺回歸兩種線性建模方法建模時(shí),使用PCA降維或光譜全波段建立的土壤pH估測(cè)模型精度均低于CARS篩選特征波段建立的估測(cè)模型;基于核嶺回歸和支持向量機(jī)兩種非線性建模方法建模時(shí),使用PCA降維或光譜全波段建立的土壤pH估測(cè)模型精度均高于CARS篩選特征波段建立的估測(cè)模型。綜合比較下D1-SNV-CARS-PLSR模型估測(cè)土壤pH的效果最好,模型建模集與驗(yàn)證集的R2分別為0.802和0.758,RMSET和RMSEV分別為0.504和0.555,驗(yàn)證集RPD為2.034。