胡國田, 尚會威, 譚瑞虹, 許翔虎, 潘偉東
1.西北農(nóng)林科技大學(xué)機械與電子工程學(xué)院,陜西 楊凌 712100 2.農(nóng)業(yè)農(nóng)村部農(nóng)業(yè)物聯(lián)網(wǎng)重點實驗室,陜西 楊凌 712100 3.陜西省農(nóng)業(yè)信息感知與智能服務(wù)重點實驗室,陜西 楊凌 712100
土壤有機質(zhì)(soil organic matter,SOM)是評價土壤肥力和養(yǎng)分的重要指標(biāo),是科學(xué)精準施肥需獲取的重要信息。準確獲取土壤有機質(zhì)含量是保持土壤肥力、維持良好耕地質(zhì)量的基礎(chǔ)。傳統(tǒng)的土壤有機質(zhì)含量測量方法雖然精度比較高,但是操作復(fù)雜、周期長、破壞性大、成本較高,不適合大面積測量。土壤可見-近紅外光譜曲線包含豐富的光譜信息,能夠綜合反映多種土壤信息。近年來,國內(nèi)外許多學(xué)者針對某一地區(qū)或某種土壤開展有機質(zhì)含量光譜預(yù)測研究,有機質(zhì)含量的光譜預(yù)測精度不斷提高[1-3],但在進行大范圍多類型土壤的有機質(zhì)含量預(yù)測時,不同類型土壤的光譜差異會影響預(yù)測精度。
對多類型土壤建立有機質(zhì)含量校正模型主要有兩種方法,即用大范圍多類型的土壤樣品建模和模型傳遞。Brown等[4]從全球五大洲采集4 184個獨立樣本對陽離子交換量、土壤有機碳、土壤無機碳、粘土含量、游離鐵含量等7種土壤屬性進行預(yù)測,證明了可見-近紅外光譜在全球土壤表征方面的基本可行性。Krishnan等[5]利用逐步多元線性回歸對美國伊利諾斯州4種類型土壤的光譜反射率數(shù)據(jù)分析,發(fā)現(xiàn)564和623 nm是有機質(zhì)的敏感波段。陳昊宇等[6]采用連續(xù)小波變換對多種土壤類型光譜數(shù)據(jù)進行預(yù)處理,提升光譜數(shù)據(jù)與有機質(zhì)含量之間的相關(guān)系數(shù),進而提高模型精度。紀文君等[7]提取了7組不同地區(qū)不同類型土壤樣品共同的有機質(zhì)響應(yīng)波段,為建立多類型土壤的有機質(zhì)含量校正模型提供參考。但若要采集全球所有類型土壤光譜并進行土壤有機質(zhì)含量預(yù)測并不可行,且模型精度也可能隨著土壤類型數(shù)量的增加而降低。針對某一土壤類型的光譜校正模型應(yīng)用到其他土壤類型的養(yǎng)分含量檢測精度顯著下降問題,模型傳遞提供了一種有效的解決方案。Padarian等[8]論證了模型傳遞的有效性,模型傳遞前后土壤有機碳、陽離子交換量、粘土含量和pH值的預(yù)測均方根誤差都降低了10%以上。Panchuk等[9]通過直接校正算法(DS)成功將一定波長范圍的杏仁糖近紅外光譜定量模型應(yīng)用于另一臺近紅外儀器。國內(nèi)外許多學(xué)者也嘗試使用其他模型傳遞算法如典型相關(guān)分析算法[10]、斜率截距校正法[11]等。
目前,大多數(shù)模型傳遞研究以不同儀器之間模型傳遞為主,主要在改良算法或開發(fā)新算法范疇內(nèi)進行,通常需要大量的樣品來使模型傳遞更加可靠[12]。這些算法在解決不同類型土壤之間的模型傳遞時具有局限性,難以適應(yīng)田間土壤養(yǎng)分含量的快速檢測需求。本研究探索在已有土壤類型的有機質(zhì)含量光譜預(yù)測模型基礎(chǔ)上,通過適當(dāng)增加另一土壤類型的樣品參與建模,優(yōu)化已有模型,提高已有模型對新土壤類型的有機質(zhì)含量檢測精度,為基于可見-近紅外光譜的農(nóng)田多類型土壤的有機質(zhì)含量實時檢測提供一種新的經(jīng)濟可行的模型傳遞方法,提高模型的普適性,為建立大面積小樣本的多類型土壤的有機質(zhì)含量校正模型提供參考。
主要土地資源區(qū)(major land resource areas, MLRAs)是美國農(nóng)業(yè)部定義的用來描述相似氣候、土壤和土地用途的區(qū)域,是依據(jù)土壤、氣候、水資源或土地利用的顯著地理特征進行劃分[13]。本研究土壤樣品采自N116B區(qū)和M107B區(qū),兩區(qū)的地理位置如圖1所示。
圖1 N116B區(qū)和M107B區(qū)在美國地圖上的位置
N116B區(qū)位于斯普林菲爾德平原,屬于亞熱帶常綠闊葉林氣候地帶,年降水集中,年均降水量為660~1 040 mm,年均氣溫8~13 ℃,牧場面積占比近50%。M107B區(qū)位于愛荷華州和密蘇里州中部的黃土丘陵,屬于溫帶草原氣候地帶,其年均降水量1 040~1 145 mm,年均氣溫13~15 ℃,該地區(qū)農(nóng)場較多,存在水土流失、土壤中有機物的枯竭和水質(zhì)差等資源問題。共采集了259份土壤樣品,其中M107B區(qū)土壤樣品89份,N116B區(qū)土壤樣品170份。所有土壤樣品的采樣深度均為0~15 cm。所有樣品用烤箱烘干后研磨,過2 mm孔篩,再分成兩份分別用于實驗室理化檢測和光譜掃描。土壤有機質(zhì)的理化檢測使用灼燒法,在密蘇里大學(xué)的土壤與植物檢測實驗室完成,理化檢測得到的源土壤M107B區(qū)和目標(biāo)土壤N116B區(qū)的土壤有機質(zhì)含量統(tǒng)計特征見表1。
表1 土壤有機質(zhì)含量理化分析結(jié)果統(tǒng)計
從研磨過篩的土壤樣品中取約15 cm3土壤裝入底部為玻璃的樣品杯中,搖晃樣品杯使較細顆粒土壤位于杯底,鹵素?zé)舻墓馔ㄟ^玻璃照射土壤樣品表面,反射光通過光纖傳輸?shù)焦庾V儀。光譜儀采用美國ASD公司的FieldSpec Pro FR光譜儀,該光譜儀由3個不同波段的獨立光譜儀組合而成,波段分別為350~1 100,1 000~1 900和1 700~2 500 nm,其總波長范圍是350~2 500 nm,光譜儀分辨率為3 nm(350~1 000 nm),10 nm(1 000~2 500 nm);采樣間隔為1.4 nm(350~1 000 nm),2 nm(1 000~2 500 nm);采樣輸出數(shù)據(jù)間隔為1 nm。計算機安裝光譜采集軟件FieldSpec RS3記錄土壤樣品的光譜數(shù)據(jù)。采集光譜時,F(xiàn)ieldSpec RS3的參數(shù)設(shè)置為:光譜平均數(shù)30次,白板掃描平均數(shù)50次,暗電流掃描平均數(shù)50次。暗電流掃描在每個掃描階段開始時進行,之后每30 min最少掃描1次。按0°,45°和90°放置樣品杯,采集各角度下的土壤樣品光譜。若3次所得反射光譜相似,取其平均值作為該土壤樣品的光譜數(shù)據(jù);若3次反射光譜中有1次獲得的光譜反射率與另外2次有顯著差異,則去除該次光譜掃描數(shù)據(jù),并以另外2次光譜反射率的均值作為該土壤樣品的光譜數(shù)據(jù)。每掃描5個土壤樣品后進行白板校正以消除參考光譜誤差。光譜掃描完成后去除所有土壤樣品的光譜曲線中光譜數(shù)據(jù)信噪比低的邊緣波段350~400和2 451~2 500 nm。光譜掃描在密蘇里大學(xué)校內(nèi)的美國農(nóng)業(yè)部農(nóng)業(yè)研究所完成。
圖2為源土壤M107B區(qū)和目標(biāo)土壤N116B區(qū)兩組土壤樣品的平均光譜反射率曲線。從401~2 450 nm全波段范圍的光譜反射率來看,兩個地區(qū)土壤的光譜曲線在1 400,1 900和2 200 nm附近都存在明顯的水分吸收谷。N116B區(qū)土壤類型主要為淋育土(Alfisols)、極育土(Ultisolor)和黑沃土(Mollisols),大部分土地用地為農(nóng)場和牧場,土壤的有機質(zhì)含量較高;M107B區(qū)土壤類型主要為黑沃土,存在水土流失、土壤中有機物耗竭等資源問題,土壤的有機質(zhì)含量較低;且M107B區(qū)表層土壤的顏色比N116B區(qū)的更深。故N116B區(qū)土壤有機質(zhì)含量高于M107B區(qū)(如表1所示),但N116B區(qū)土壤的光譜反射率卻比較高。
圖2 源土壤M107B區(qū)和目標(biāo)土壤N116B區(qū)的土壤反射率均值曲線
1.2.1 樣本集劃分
利用Kennard-Stone(KS)算法將M107B區(qū)89個土壤樣品按照3∶1的比例劃分為校正集和驗證集。隨機挑選出N116B區(qū)20個土壤樣品作為N116B區(qū)驗證集,本研究中后續(xù)對N116B區(qū)土壤有機質(zhì)含量進行預(yù)測,均是指對這20個驗證集土壤樣品進行預(yù)測;N116B區(qū)剩余150個土壤樣品隨機劃分成30組,每組包含5個土壤樣品,再根據(jù)實驗需要加入到M107B區(qū)樣品集中。
1.2.2 特征波長提取
去除光譜曲線中光譜數(shù)據(jù)信噪比低的邊緣波段350~400和2 451~2 500 nm后,采用窗口競爭性自適應(yīng)重加權(quán)采樣(window competitive adaptive reweighted sampling,WCARS)和連續(xù)投影算法(successive projections algorithm, SPA)進行波長選擇以提高預(yù)測精度,簡化模型[14]。WCARS結(jié)合“窗口”與CARS方法的優(yōu)勢,能有效增強特征波長變量選擇的準確性和穩(wěn)定性。SPA通過提取最低限度的冗余信息的波長組合,消除共線問題。因此,采用WCARS聯(lián)合SPA算法獲取較少的特征波長。將M107B區(qū)89個土壤樣品的光譜數(shù)據(jù)通過WCARS+SPA挑選后,確定544,728,1 486,1 830,1 895,2 285和2 450 nm等7個特征波長,并將這7個波長作為SOM特征波長。
最小二乘支持向量機(least squares support vector machines, LSSVM)建模時,如何對正則參數(shù)λ和核參數(shù)σ進行優(yōu)化是不可避免的問題。粒子群算法(particle swarm optimization, PSO)是一種通過更新速度和位置來不斷更新到參數(shù)最優(yōu)解的群體優(yōu)化智能算法,自提出以來被廣泛應(yīng)用[15]。本研究通過PSO優(yōu)化LSSVM,建立土壤有機質(zhì)含量校正模型。
以M107B區(qū)土壤樣品為源土壤,以N116B區(qū)土壤樣品為目標(biāo)土壤,從N116B區(qū)170個土壤樣品中隨機挑選出20個作為驗證集。將M107B區(qū)89個土壤樣品采用KS算法按照3∶1劃分校正集和驗證集,用WCARS+SPA提取SOM特征波長后,從3個方面進行實驗研究,研究流程如圖3所示。(1)通過PSO-LSSVM算法對M107B區(qū)66個校正集樣品建立有機質(zhì)含量校正模型,并用該區(qū)的驗證集驗證模型精度;(2)用M107B區(qū)89個土壤樣品,建立SOM含量的PSO-LSSVM校正模型,用該模型預(yù)測N116B區(qū)的20個驗證集土壤樣品的有機質(zhì)含量;(3)將N116B區(qū)剩余的150個土壤樣品隨機等分成30組,在由M107B區(qū)的89個土壤樣品組成的樣品集中,每次加入N116B區(qū)的1組5個土壤樣品組成新的樣品集,以新的樣品集為校正集建立校正模型,再用校正模型對N116B區(qū)20個驗證集樣品進行SOM含量預(yù)測,直至全部加入N116B區(qū)的30組土壤樣品。比較M107B區(qū)校正模型對M107B區(qū)及N116B區(qū)SOM含量預(yù)測精度,分析加入建模的N116B區(qū)土壤樣品數(shù)量與模型性能之間的關(guān)系。
圖3 實驗流程圖
以預(yù)測決定系數(shù)(coefficient of determination,R2)、預(yù)測均方根誤差(root mean square error of prediction, RMSEP)和預(yù)測相對分析誤差(ratio of standard deviation to RMSEP, RPD)對模型評價。
實驗(1)建立M107B區(qū)土壤有機質(zhì)PSO-LSSVM校正模型并預(yù)測驗證集土壤有機質(zhì)含量,結(jié)果如表2所示,預(yù)測R2=0.859,預(yù)測RPD=2.660,表明模型能有效預(yù)測M107B區(qū)內(nèi)部的土壤有機質(zhì)含量。實驗(2)以M107B區(qū)89個土壤樣品作為校正集建立土壤有機質(zhì)含量校正模型,對N116B區(qū)20個驗證集土壤樣品進行預(yù)測,結(jié)果如表2所示,其模型預(yù)測R2=0.562,預(yù)測RPD=0.952,表明M107B區(qū)的校正模型不能有效預(yù)測N116B區(qū)的土壤有機質(zhì)含量。實驗(1)和實驗(2)建模過程中均只使用M107B區(qū)土壤樣品,直接將M107B區(qū)土壤有機質(zhì)含量校正模型用于N116B區(qū)土壤樣品時模型預(yù)測精度顯著降低,預(yù)測決定系數(shù)R2降低了34.6%,預(yù)測相對分析誤差RPD降低了64.2%,模型傳遞失敗。
表2 實驗(1)和實驗(2)的模型性能
實驗(3)用M107B區(qū)土壤樣品建立有機質(zhì)含量校正模型時加入部分N116B區(qū)土壤校正集樣品,建立校正模型后預(yù)測N116B區(qū)的驗證集土壤有機質(zhì)含量。校正模型預(yù)測N116B區(qū)的驗證集土壤有機質(zhì)含量的R2,RMSEP和RPD值隨加入的N116B區(qū)土壤校正集樣品數(shù)量的變化結(jié)果如表3和圖4所示,表3中僅列出RPD值變化超過1%的實驗數(shù)據(jù)。隨著加入的N116B區(qū)土壤校正集樣品數(shù)量增加,校正模型的預(yù)測R2和RPD逐漸提高,RMSEP逐漸降低。當(dāng)加入樣品數(shù)量達到35時,校正模型的預(yù)測R2>0.80,RPD>2.0;當(dāng)加入樣品數(shù)量達到50以上,模型精度變化趨于平穩(wěn)。但是,在加入101—105號N116B區(qū)土壤校正集樣品后,校正模型預(yù)測R2發(fā)生了突變,這些樣本可能對N116B區(qū)土壤的預(yù)測精度有較大影響,因此需對101—105樣本進一步研究。
表3 實驗(3)模型性能
加入N116B區(qū)101—105號土壤校正集樣品后,模型精度出現(xiàn)突變(如圖4所示)。為了探明加入單個樣品對模型精度的影響,本節(jié)研究將101-110號目標(biāo)土壤樣品提取出來,每次只新增1個樣品到校正集中參與建模,即:第一次對M107B區(qū)89個土壤樣品和N116B區(qū)1—101號樣品組成新的校正集建立校正模型,第二次對M107B區(qū)89個土壤樣品和N116B區(qū)1—102號樣品組成新的校正集建立校正模型,以此類推,直到101—110號樣品全部參與建模。再對N116B區(qū)的20個驗證集樣品進行土壤有機含量預(yù)測,預(yù)測R2如圖5所示。結(jié)果表明:當(dāng)加入105號目標(biāo)土壤校正集樣品時模型R2由0.810提高到0.867。將105號樣品去除后重新建模,模型決定系數(shù)R2如圖5,模型R2不再提高,因此確定105號樣品引起模型R2發(fā)生突變。
圖4 加入不同數(shù)量的N116B區(qū)土壤樣品后的模型性能
圖5 加入105號樣品和不加入時的模型預(yù)測R2對比
為找出平穩(wěn)區(qū)影響模型R2值發(fā)生0.05以上突變的樣品的特征,本研究按照實驗(3)方法進行多次重復(fù)實驗,共提取出20個與105號樣品類似的能使模型R2值提高0.05以上的N116B區(qū)校正集土壤樣品,其有機質(zhì)含量及其特征波長的光譜反射率如表4所示。由于源土壤M107B區(qū)樣品的SOM平均濃度低于目標(biāo)土壤N116B區(qū)樣品的SOM平均濃度(如表1所示),且光譜反射率均值低于目標(biāo)土壤N116B區(qū)(如圖2所示),因此,造成校正模型預(yù)測R2值突然提高0.05的原因可能是N116B區(qū)這20個土壤樣品較M107B區(qū)土壤樣品的SOM濃度較高或光譜反射率較高。該20個樣品對模型傳遞精度影響較大,因此后續(xù)研究中,在加入N116B區(qū)土壤樣品建模時將這20個特殊樣品的優(yōu)先級提高,即先加入這20個特殊樣品,再把N116B區(qū)其余130個土壤校正集樣品隨機等分成26組,每次加入1組5個土壤樣品到M107B區(qū)土壤樣品集中作為新的樣品集,以新的樣品集為校正集建立校正模型,再用校正模型對N116B區(qū)20個驗證集土壤樣品進行有機質(zhì)含量預(yù)測,直至加入N116B區(qū)所有校正集土壤樣品。校正模型預(yù)測N116B區(qū)的驗證集土壤有機質(zhì)含量的R2,RMSEP和RPD值隨加入的N116B區(qū)土壤校正集樣品數(shù)量的變化結(jié)果如圖6所示,當(dāng)加入的N116B區(qū)土壤校正集樣品數(shù)量由5增加到45時,校正模型預(yù)測N116B區(qū)驗證集土壤有機質(zhì)含量的R2從0.690逐漸增加到0.800;當(dāng)加入的樣品數(shù)量達到45以后,校正模型預(yù)測R2在±0.015范圍內(nèi)波動,逐漸趨于穩(wěn)定,未出現(xiàn)模型精度突變情況。因此,在將M107B區(qū)土壤有機質(zhì)校正模型傳遞給N116B區(qū)時,應(yīng)優(yōu)先加入比M107B區(qū)土壤樣品的SOM濃度高或光譜反射率高的N116B區(qū)土壤樣品參與建模,以提高模型預(yù)測精度和避免模型傳遞時模型精度出現(xiàn)突變。
圖6 加入N116B區(qū)除特殊樣品外的130個土壤樣品的模型性能
表4 提高模型R2值0.05以上的N116B區(qū)土壤校正集樣品數(shù)據(jù)
基于可見-近紅外光譜建立M107B區(qū)的土壤有機質(zhì)含量校正模型,探索將M107B區(qū)土壤有機質(zhì)校正模型應(yīng)用到N116B區(qū)土壤有機質(zhì)含量預(yù)測的模型傳遞方法。研究結(jié)果表明,M107B區(qū)土壤有機質(zhì)的PSO-LSSVM校正模型R2=0.859,RMSEP=0.334%,RPD=2.660,可以有效預(yù)測M107B區(qū)土壤有機質(zhì)含量。用M107B區(qū)土壤有機質(zhì)校正模型預(yù)測N116B區(qū)的土壤驗證集樣品的有機質(zhì)含量和預(yù)測M107B區(qū)土壤驗證集樣品的有機質(zhì)含量相比,預(yù)測R2和預(yù)測RPD分別降低了34.6%和64.2%,且預(yù)測精度很低,不能有效預(yù)測N116B區(qū)土壤有機質(zhì)含量。將部分N116B區(qū)土壤樣品加入M107B區(qū)土壤樣品集后重新建模,模型對N116B區(qū)土壤的有機質(zhì)含量預(yù)測精度隨加入的N116B區(qū)土壤樣品數(shù)量增加逐漸提高。在加入樣品數(shù)量達到50后模型精度變化趨于穩(wěn)定,且模型預(yù)測R2>0.80,RPD>2.0,能有效預(yù)測土壤有機質(zhì)含量,成功實現(xiàn)M107B區(qū)模型預(yù)測N116B區(qū)土壤有機質(zhì)含量的模型傳遞。為提高模型傳遞時的預(yù)測精度,應(yīng)優(yōu)先加入比M107B區(qū)土壤樣品的SOM濃度高或光譜反射率高的N116B區(qū)土壤樣品參與建模。本文研究M107B區(qū)土壤有機質(zhì)含量校正模型預(yù)測N116B區(qū)土壤有機質(zhì)含量的建模方法,提出了一種新的基于可見-近紅外光譜的模型傳遞方法,為建立大面積小樣本的多類型土壤有機質(zhì)含量校正模型提供一種有效的解決方案,為提高大范圍多類型土壤的有機質(zhì)含量農(nóng)田在線光譜檢測的準確性、減少模型計算量、降低檢測成本提供一種實用方法。