彭海根,金 楹,詹莜國,陳雅瓊,封幸兵,錢發(fā)聰, 黃 果,黃天杰,李 杰*
(1.四川威斯派克科技有限公司,四川 成都 610041;2.云南省煙草公司昆明市公司,云南 昆明 650051; 3.中國煙草總公司云南省公司,云南 昆明 650011;4.昆明市煙草公司嵩明分公司, 云南 嵩明 651700)
土壤作為作物生長的基礎(chǔ),其氮素營養(yǎng)是決定作物產(chǎn)量和品質(zhì)的重要因素[1]。水解性氮是銨態(tài)氮、硝態(tài)氮、氨基酸、酰胺以及易水解蛋白質(zhì)的總和,是土壤氮素的重要組成部分,與土壤全氮相比,更能反映土壤近期氮素的供應(yīng)狀況[2],快速準確的測定土壤中水解性氮含量并配合有效的氮肥施肥方案是作物快速生長的關(guān)鍵技術(shù)環(huán)節(jié)。傳統(tǒng)土壤水解性氮的檢測方法主要有酸水解法、堿解擴散法和堿解蒸餾法[3]等,但這些方法檢測周期長、效率低,難以滿足土壤施肥方案時效性的要求。相較而言,近紅外光譜具有分析速度快、成本低、綠色無損、并能同時測定多種組分等優(yōu)點[4],被廣泛應(yīng)用于土壤組分含量的檢測[5-7]。
隨著現(xiàn)代近紅外光譜儀器硬件的發(fā)展,樣品光譜通常包含大量數(shù)據(jù)點,信息復(fù)雜,譜峰寬且共線性嚴重,同時土壤中包含的大量無機組分在近紅外譜區(qū)基本無吸收,需通過對其他組分的光譜響應(yīng)或與其他組分之間的相關(guān)性才能被檢測[8]。研究發(fā)現(xiàn)采用合適的波長變量篩選方法[9]可剔除不相關(guān)或非線性變量,從而簡化模型并得到預(yù)測能力更強、更穩(wěn)健的校正模型。因此,在建立土壤養(yǎng)分近紅外定量分析模型前,有必要對土壤光譜進行波長篩選。賈生堯等[10]采用遞歸變量選擇方法在預(yù)測過程中遞歸更新土壤全氮與有機質(zhì)的特征變量,并獲得了預(yù)測效果滿意的模型;劉燕德等[11]和于雷等[12]將競爭自適應(yīng)重加權(quán)采樣(CARS)變量篩選方法應(yīng)用于近紅外光譜檢測土壤組分,建立相應(yīng)組分的校正模型,取得了預(yù)期結(jié)果,但上述研究所采用的建模樣本較少且未針對特定地區(qū)建模。
本研究針對整個昆明地區(qū)不同類型的土壤,通過收集大量代表性樣品,以土壤中水解性氮為研究對象,結(jié)合CARS有效特征波長篩選方法和偏最小二乘(PLS)建模方法,建立了在特定地區(qū)范圍內(nèi)準確性和穩(wěn)健性更好的土壤組分近紅外數(shù)學(xué)模型,可為實現(xiàn)應(yīng)用近紅外光譜方法快速、高效、準確地測定昆明地區(qū)土壤水解性氮的含量提供依據(jù),也可為今后有效推進土壤平衡施肥提供重要數(shù)據(jù)支撐。
樣品取自不同地塊的表層土壤,分別屬于昆明市管轄的安寧、富民、晉寧、祿勸、石林、嵩明、尋甸和宜良8個區(qū)縣,共計963個。在制樣前,首先采用標準方法GB/T17296-2009[13]對土壤進行分類。為減小水分和粒徑對土壤光譜的影響,按照標準方法NY/T 1121.1-2006[14]對樣品依次進行攤鋪、清雜、風(fēng)干、研磨和過篩,過篩時確保除碎石外的全部樣品均通過20目篩網(wǎng),然后采用四分法將每份制備好的樣品分成兩部分并編號,其中一部分進行光譜數(shù)據(jù)采集,另外一部分按標準方法[15]酸水解法測定水解性氮的含量。
采用美國Galaxy公司生產(chǎn)的QuasIR3000傅里葉變換近紅外光譜儀采集土壤樣品光譜數(shù)據(jù),參數(shù)設(shè)置:采用積分球漫反射方式采集光譜,以儀器內(nèi)置背景作參比;光譜掃描范圍10 000~4 000 cm-1,其中樣品原始光譜共包含1 574個數(shù)據(jù)點數(shù);分辨率8 cm-1;光譜掃描次數(shù)為64次。
在建立近紅外定量模型前,將樣品分為校正集和驗證集,其中校正集用于擬合數(shù)據(jù),建立模型,驗證集不參與模型建立,用來評價所建模型的實際效果和預(yù)測誤差。采用Kennard-Stone(K-S)方法[16]按約1∶9的比例從全部樣品中挑選90個樣品作為驗證集,剩余873個樣品作為校正集,具體步驟如下:首先計算所有樣本兩兩間的歐氏距離,選擇距離最遠的2個樣本進入驗證集;然后計算剩余樣本與所選擇樣本的最短距離,把其中距離最大的樣本從未選中樣本集中移入驗證集;最后依次迭代運算,直至模型驗證集中的樣本數(shù)量達到指定數(shù)目。
樣品原始光譜除樣品自身信息外,往往還包含外界因素的干擾,需對光譜數(shù)據(jù)進行預(yù)處理。常用的光譜預(yù)處理方法[17]包括多元散射校正(Multiplicative scatter correction,MSC)、標準正態(tài)變換(Standard normal variate transformation,SNV)、導(dǎo)數(shù)、平滑處理和小波變換(Wavelet transform,WT)等,其中MSC和SNV可消除顆粒分布不均勻及顆粒大小產(chǎn)生的散射影響,在固體顆粒漫反射光譜中應(yīng)用較廣泛;導(dǎo)數(shù)處理既可以消除基線偏移,還可以起到一定的放大和分離重疊信息的作用,但由于噪聲信號也被放大,因此通常在導(dǎo)數(shù)之前需對光譜數(shù)據(jù)做平滑處理;原始光譜經(jīng)過導(dǎo)數(shù)處理后再進行WT去噪聲處理,可使光譜信噪比增大,從而提高分析精度。
CARS方法[18]模仿達爾文進化理論中的“適者生存”原則,每次通過使用重加權(quán)采樣(ARS)技術(shù)篩選出PLS模型中回歸系數(shù)絕對值大的波長點,去掉權(quán)重小的波長點,利用交叉驗證選出模型交叉驗證均方差值最低的子集,可有效選擇與所測性質(zhì)相關(guān)的最優(yōu)波長組合。其基本算法如下:假定光譜矩陣為X(m×n),m為樣本數(shù),n為變量數(shù),y(m×1)表示目標性質(zhì)向量,e為校正誤差,PLS校正模型可用下式表達:y=Xb+e,那么任一隱變量數(shù)下回歸系數(shù)向量b=[b1,b2,…,bn]。b中第i個元素的絕對值|b|(1≤i≤n)表示第i個波長點對y的貢獻,|bi|值越大則表示該變量越重要。為評價每個波長的重要性,定義權(quán)重Wi:
通過CARS法去掉的變量,其權(quán)重Wi均設(shè)為0。
①采用蒙特卡羅采樣法采樣N次,每次從樣品集中隨機抽取一定比例(通常為50%~80%)的樣品為校正集,分別建立PLS回歸模型,得到相應(yīng)的回歸系數(shù)。
②利用指數(shù)衰減函數(shù)(Exponential decreasing function,EDF)強行去掉|bi|值相對較小的波長點。
③通過N次ARS技術(shù)篩選出模型中回歸系數(shù)絕對值大的波長點,用每次產(chǎn)生的新變量子集建立PLS回歸模型,計算各模型的交互驗證標準偏差(RMSECV),選擇RMSECV值最小的子集,即為最優(yōu)變量子集。
采用PLS[19]建立校正模型,可很好地解決自變量間存在多重相關(guān)性和樣本數(shù)量小于波長數(shù)量的問題,同時,對系統(tǒng)解釋能力較強的綜合變量能夠被有效提取,從而排除無解釋能力的信息,對變量解釋能力增強。本文采用交互驗證和驗證集驗證相結(jié)合的方式,并以相關(guān)系數(shù)(R)、RMSECV和預(yù)測標準偏差(RMSEP)等評價參數(shù)綜合評價模型效果。其中R值越接近1,表明模型回歸(或預(yù)測)結(jié)果越好,Rcv和Rp分別表示模型交互驗證和外部驗證過程中的模型相關(guān)系數(shù)。對于同一批次樣本,RMSECV和RMSEP值越小說明模型交互驗證與驗證集驗證模型預(yù)測效果越好。應(yīng)用K-S方法挑選樣品,CARS方法篩選波長變量,PLS模型建立和預(yù)測以及圖表繪制均采用Matlab R2019a實現(xiàn)。
土壤樣品的分類結(jié)果見表1,種類涵蓋昆明地區(qū)的紅壤和水稻土2種主要土壤類型,同時又各自包含6種不同類型,具有代表意義。由于采用標準方法對土壤分類對研究人員的要求較高,因此為方便方法的推廣,將2種土壤樣品混合進行建模。
表1 樣品基本信息表Table 1 Basic information of samples
采用K-S方法劃分的水解性氮校正集與驗證集的參考值統(tǒng)計結(jié)果見表2,水解性氮的驗證集樣品參考值含量變化范圍包含在校正集變化范圍內(nèi),表明校正集樣品所建立的校正模型能較好地適用于驗證集樣品。
表2 樣品參考值統(tǒng)計結(jié)果Table 2 Statistical results of sample reference value
分別采用MSC、SNV、MSC+一階導(dǎo)數(shù)+平滑、SNV+一階導(dǎo)數(shù)+平滑和WT對土壤樣品原始光譜數(shù)據(jù)進行預(yù)處理,并采用全波段結(jié)合PLS方法建立校正模型(表3)。結(jié)果顯示,不同預(yù)處理方法獲得的模型剔除的異常樣品數(shù)量也不同;其水解性氮PLS模型的結(jié)果差異較大,但原始光譜經(jīng)WT預(yù)處理后模型的RMSECV最小,且Rcv最大,表明該模型效果最佳。因此,波長變量選擇和建模時均采用小波變換處理原始光譜圖,樣品原始光譜圖和經(jīng)WT變換后的光譜圖見圖1。圖1顯示,樣品原始光譜圖在經(jīng)過WT變換后,能夠有效地消除樣本光譜數(shù)據(jù)間的基線漂移、隨機噪聲等現(xiàn)象。
表3 不同預(yù)處理方法的模型計算結(jié)果Table 3 Calculation results of models with different pretreatment methods
采用CARS方法進行光譜變量篩選,反復(fù)迭代采樣次數(shù)并比較每個采樣次數(shù)的RMSECV值,直至找到最小RMSECV值所包含的最優(yōu)變量子集。圖2顯示了水解性氮進行50次CARS運行的變量選擇過程。由圖可見,CARS方法在選擇光譜變量的過程中,隨著采樣次數(shù)的增加,被選擇的波長變量數(shù)逐漸下降,下降趨勢由快變慢(圖2A),同時RMSECV曲線呈先緩慢下降至最低點后又逐漸上升的趨勢(圖2B)。同時發(fā)現(xiàn)有些變量回歸系數(shù)的絕對值不斷變大,而另一些變量回歸系數(shù)的絕對值卻不斷變小(圖2C),表明過程中先剔除了與水解性氮無關(guān)的波長變量,使RMSECV值下降,而后又剔除了與組分相關(guān)的波長變量,信息丟失導(dǎo)致RMSECV值增加。圖2中垂直星點標記的位置對應(yīng)整個變量篩選過程中RMSECV值最小,對應(yīng)的變量數(shù)為178個。
分別采用小波變換方法對原始光譜進行預(yù)處理,再采用CARS方法篩選出波長變量并結(jié)合PLS建模方法,建立水解性氮的定量校正模型,最后使用K-S方法挑選出來的驗證集驗證模型的預(yù)測誤差,結(jié)果見表4。對比表3~4的結(jié)果發(fā)現(xiàn),采用CARS方法對土壤樣品原始光譜進行波長變量篩選后的模型參數(shù)有所改善,即模型的RMSECV分別由31.63降至25.55,Rcv由0.78提升至0.84,表明CARS方法可有效篩選土壤相關(guān)波長變量,并剔除其他無關(guān)變量,從而改善模型結(jié)果,其中模型交互驗證過程的RMSECV和Rcv隨因子數(shù)變化的趨勢如圖3所示。另外,由于實驗所用土壤樣本數(shù)量大,難免會遇到參考值或光譜異常的樣本,本研究在模型擬合過程中剔除了39個異常樣本。為進一步驗證所建模型的效果,采用建立的模型預(yù)測挑選出的外部驗證樣品,并將模型預(yù)測值和參考值進行對比,得到模型的RMSEP為29.83,Rp為0.79,計算得參考值和預(yù)測值的平均相對偏差為12.50%。
表4 模型計算結(jié)果Table 4 Calculation results of models
圖3 水解性氮建模的RMSECV和Rcv隨因子數(shù)變化的趨勢圖Fig.3 A plot of RMSECV and Rcv versus factors for hydrolytic nitrogen
圖4 水解性氮校正集和驗證集的參考值與預(yù)測值散點圖Fig.4 Scatter plot of laboratory measured values versus model predicted values for calibration set and prediction set of hydrolytic nitrogen
模型校正集和驗證集的參考值與預(yù)測值擬合的散點圖見圖4。圖4顯示,模型驗證集樣品均勻分布在土壤水解性氮整個濃度范圍內(nèi),具有代表性,表明驗證集樣品的驗證結(jié)果能夠真實反映模型預(yù)測結(jié)果,且驗證集樣品的參考值和預(yù)測值偏差較小,平均相對偏差僅為12.50%,進一步表明采用CARS方法能有效篩選土壤相關(guān)波長變量,從而改善模型結(jié)果。
本研究采用CARS方法篩選土壤光譜波長變量,并建立水解性氮的PLS定量分析模型,研究結(jié)果顯示:①近紅外光譜技術(shù)結(jié)合CARS方法,在大量代表性樣品建模下,可有效建立昆明地區(qū)不同土壤類型的水解性氮含量的近紅外數(shù)學(xué)模型,模型RMSECV由31.63降至25.55,Rcv由0.78提升至0.84,模型外部驗證時的RMSEP和Rp分別是29.83和0.79,預(yù)測的平均相對偏差為12.5%;②在采取有效的波長變量篩選和建模方法的基礎(chǔ)上,應(yīng)用近紅外光譜技術(shù)快速測定土壤含量較低的組分時,同樣能取得較好的結(jié)果。本方法可推廣應(yīng)用于土壤其他組分的近紅外檢測。