黃招娣, 陳再良, 王 琛, 田 彭, 章海亮, 謝潮勇*, 劉雪梅
1. 華東交通大學基礎實驗與工程實踐中心, 江西 南昌 330013
2. 華東交通大學電氣與自動化工程學院, 江西 南昌 330013
3. 魯南技師學院交通工程系, 山東 臨沂 276000
4. 華東交通大學土木建筑學院, 江西 南昌 330013
土壤肥力通常由有機質(zhì)、 總氮、 速效磷、 速效鉀等含量決定。 土壤中有機質(zhì)由不同分解階段的動植物殘余物組成, 能夠增加土壤肥力與緩沖性, 還能夠有效減少農(nóng)藥和重金屬污染[1]。 土壤氮養(yǎng)分能夠促進植物的根、 莖、 葉的生長和發(fā)育, 是決定作物品質(zhì)的首要元素[2]。 土壤中磷和鉀可以增加作物抗寒、 抗旱、 抗病及抗倒伏能力。 對不同地區(qū)和類型的土壤的養(yǎng)分含量的檢測與調(diào)控, 有利于挖掘土壤潛質(zhì), 提升作物品質(zhì)和產(chǎn)量, 研究土壤肥力狀況對我國農(nóng)業(yè)發(fā)展具有重要意義。 我國自古就講究精耕細作, 快速獲取土壤養(yǎng)分含量信息是研究土壤肥力狀況的關鍵, 傳統(tǒng)的土壤分析方法步驟繁瑣、 耗時費力, 不利于精細農(nóng)業(yè)的發(fā)展[3]。
近紅外光譜技術憑借著快速、 便攜等突出優(yōu)勢在土壤肥力檢測方面展開了大量研究: Marta等[4]采用四種范圍光譜(350~700、 701~1 000、 1 001~2 500和350~2 500 nm)分析了葡萄園土壤的氮、 有機質(zhì)和粘土含量; Said等[5]比較了采用350~2 500 nm范圍的可見/近紅外光譜結合偏最小二乘回歸(PLSR)、 支持向量回歸(SVR)、 多元自適應回歸(MARS)三種模型對有機質(zhì)和粘土含量的評估的最佳方法; Xiao等[6]分析了在不同土壤粒徑下的光譜反射率規(guī)律, 研究了不同粒徑時光譜檢測氮精度的影響等。 經(jīng)過研究發(fā)現(xiàn), 研究學者更專注于可見/長波近紅外區(qū)域的光譜對土壤性質(zhì)的研究, 對于可見/短波近紅外光譜區(qū)域(325~1 075 nm)是否對土壤性質(zhì)也具有較好的響應機制的研究卻非常罕見。 不僅如此, 采用主成分分析(PCA)和偏最小二乘回歸(PLSR)對光譜數(shù)據(jù)降維后, 建立機器學習中典型的非線性模型的反向傳播神經(jīng)網(wǎng)絡(BPNN)[7]和最小二乘支持向量機(LS-SVM)[8]模型的相關研究存在研究精度不高等問題。 近紅外光譜結合數(shù)據(jù)融合的機器學習算法被驗證在光譜領域, 特別是土壤研究方面具有較大潛力。
本研究目的是分析土壤在可見/短波近紅外光譜區(qū)域是否具有良好的光譜響應機理, 同時建立Vis/SW-NIRs區(qū)域不同種類土壤有機質(zhì)、 總氮、 速效磷和速效鉀的預測模型。 比較了主成分回歸(PCR)、 偏最小二乘回歸(PLSR)、 反向傳播神經(jīng)網(wǎng)絡(BPNN)和最小二乘支持向量機(LS-SVM)對土壤性質(zhì)的測量精度。
研究區(qū)位于南緯24°29′—30°04′, 東經(jīng)113°34′—118°28′的中國江西省, 該地降雨量充沛, 環(huán)境污染少, 土壤資源富饒, 是我國農(nóng)業(yè)和林業(yè)大省, 十分適合研究土壤性質(zhì)。 通過調(diào)查, 該地的水稻土、 紅壤和棕壤是具有代表性的幾種土壤類型, 其中紅壤和水稻土是當?shù)刈罹咛厣耐寥李愋汀?紅壤因缺乏堿金屬而富含鐵、 鋁氧化物而呈現(xiàn)酸性紅色, 水稻土受人為因素及自然成土的雙重影響形成具有剖面特征的土壤, 棕壤通常具備較為豐富的有機物, 是肥沃的林業(yè)用土。 實驗選取了南昌市新建區(qū)和吉安市安福縣的四個村莊作為樣品獲取地點, 如圖1(a)所示。
通過2×2網(wǎng)格法確定如圖1(b)所示的兩個對角區(qū)作為采樣點, 采集10~30 cm深度的土壤用于研究[圖1(c)]。 采集過程中將采樣點的石子、 草根等雜質(zhì)剔除, 從兩個采樣點采集100 g土壤充分混合均勻裝袋, 并做好標記。 實驗采集了水稻土120份, 紅壤60份, 棕壤60份, 共240份樣品。
由于土壤粒徑大小、 含水量等會影響測量的光譜反射率, 因此將樣品充分研磨、 過篩, 然后放置在實驗室環(huán)境下自然烘干48 h, 風干后的樣品再經(jīng)過2 mm篩子過篩后均勻放置在容器內(nèi)。
測定土壤養(yǎng)分含量的理化值時, 采取化學方法。 測量土壤有機質(zhì)、 總氮、 速效磷和速效鉀的含量分別采取重鉻酸鉀氧化法、 杜馬斯干燒法、 比色法和醋酸銨浸提——火焰光度法。 測出樣品中含量如表1所示。
表1 土壤樣品中有機質(zhì)和總氮、 磷和鉀的含量
光譜測量儀為美國ASD手持式地物光譜儀, 覆蓋325~1 075 nm的波長范圍, 采樣間隔1 nm。 每個樣品均采集10次, 取平均值作為樣品光譜。
由于數(shù)據(jù)的采集會受到儀器、 環(huán)境和人為的影響, 所采集的光譜數(shù)據(jù)存在大量噪聲。 在數(shù)據(jù)處理過程中去除邊緣噪聲較大的波段(325~349和1 074~1 075 nm), 保留350~1 073 nm波段的光譜數(shù)據(jù)進行樣品建模分析。 為進一步提高光譜信噪比, 將每5個連續(xù)波長作一次平均, 采用卷積平滑結合一階導數(shù)處理。 采用S-G平滑對數(shù)據(jù)進行預處理, 可以明顯降低高頻噪聲、 基線偏移等噪聲干擾的影響, 提高光譜數(shù)據(jù)的平滑性。 通過導數(shù)預處理可以有效消除背景影響和基線漂移影響, 分辨重疊峰, 提高靈敏度。
主成分回歸(principal component regression, PCR)[9]和偏最小二乘回歸(partial least squares regression, PLSR)[10-11]是多元線性回歸中最為常用的兩種校正模型。 主成分分析的中心目的是將原變量降維, 使得新產(chǎn)生的變量盡可能表征原變量的數(shù)據(jù)特征。 采用偏最小二乘回歸提取的特征變量不僅能很好地概括原始變量的信息, 而且對因變量具有很強的解釋能力。
1.5.1 反向傳播神經(jīng)網(wǎng)絡
反向傳播神經(jīng)網(wǎng)絡(back propagation neural network, BPNN)[9]模型用到了一個標準的前饋網(wǎng)絡, 由一個輸入層, 一個隱含層和一個輸出層組成。 其中隱含層采用非線性Sigmoid函數(shù)作為激活函數(shù), 輸出層引用的是線性函數(shù)。 圖2是BP神經(jīng)網(wǎng)絡結構圖。
圖2 BP神經(jīng)網(wǎng)絡結構
1.5.2 最小二乘支持向量機
最小二乘支持向量機(least squares-support vector machine, LS-SVM)[11-12]是回歸計算與模式識別中一種強大的機器學習方法, 采用如式(1)所示的非線性徑向基核函數(shù), 可以有效處理多元校準中的線性和非線性問題。
(1)
1.5.3 模型評價指標
模型的評價指標包括決定系數(shù)(coefficient of determination,R2)、 預測均方根誤差(root mean square error, RMSE)和相對分析誤差(relative percent deviation, RPD)。 通常RMSE越小,R2越接近真值1, 模型性能越好、 精度越高。 RPD常被用于描述模型穩(wěn)定性, RPD計算公式如式(2)所示
(2)
當RPD<1.4時, 認為模型不可靠; 1.4
采集到的土壤樣品光譜原始反射曲線如圖3(a)所示。 從圖像可以看出, 整體光譜反射率隨著波長點增大而上升, 并在460、 740和900 nm等處存在較為明顯的光譜吸收特征。 這些特征與土壤顏色、 有機成分和粘土礦物之間存在聯(lián)系。 據(jù)報道, 460和680 nm左右可見光的吸收特征與460 nm的藍色區(qū)域和680 nm左右的紅色區(qū)域相關。 750~1 073 nm的近紅外區(qū)域已有大量實驗表明與有機分子中含氫基團的吸收區(qū)一致, 900 nm處的反射特征與C—H+C—H、 C—H+N—H的組合相關聯(lián)。 圖3(b)是經(jīng)過預處理后的光譜反射曲線。
圖3 光譜(a)原始反射曲線和通過(b)SG+1ST預處理反射曲線
PCA通常被稱為一種數(shù)據(jù)壓縮技術, 通過PCA得到的少量PC變量可以解釋大部分原始信息。 為了更加清晰地看出不同樣品的光譜差異, 用PCA得到的前三個PCs(累計貢獻度99.67%)進行了聚類分析, 如圖4(a, b, c)所示。 根據(jù)得分圖可知, 四種土壤樣品的光譜特征存在一定可區(qū)分度。 得分圖顯示不同樣品存在聚類疊加現(xiàn)象, 可以明顯看出樣品在二維空間內(nèi)相互可分。 PCA可以在一定程度上合理解釋不同土壤樣品的光譜特征差異。
圖4 前三個主成分得分的散點圖
通過PCA和PLSR獲得的主成分變量(PCs)和潛在因子(LVs)作為校正模型的輸入是減少模型運行時間、 提高校準模型魯棒性的有效辦法。 表2是通過PLSR模型的前9個LVs對土壤性質(zhì)的解釋方差, 這9個LVs幾乎能100%解釋原始數(shù)據(jù)。 將這9個LVs和PCA得到的前3個PCs作為后續(xù)校正模型輸入。 把采集的180個樣品按照2∶1(120∶60)劃分為建模集與預測集建立PCR和PLSR模型, 以及主成分變量(PCs)和潛在因子(LVs)作為校正模型輸入的BPNN和LS-SVM模型。
表2 通過PLSR模型解釋前9個LVs對土壤性質(zhì)的方差
圖5(a, b, c)和圖6是通過不同多元回歸模型得到有機質(zhì)、 總氮、 速效磷和速效鉀的R2、 RMSE和RPD。 所用到的模型評價指標中, RMSE被認為比R2和RPD更為重要, 這是由于RMSE直接關系模型預測誤差。 從高R2、 RPD和低RMSE可知LS-SVM-LVs是最優(yōu)模型。 此外, OM在四種理化值的預測效果中最為理想(R2=0.873 4, RMSE=2.92和RPD=2.56), N(R2=0.831 0, RMSE=16.499和RPD=2.43)、 P(R2=0.780 1, RMSE=4.977和RPD=2.13)和K(R2=0.735 4, RMSE=13.42和RPD=1.94)也有著較為不錯的預測效果。 Liu等[8]采用可見/短波近紅外在土壤肥力檢測中也做了相應的研究, 其研究結果表明: EWs-LS-SVM模型是最優(yōu)模型, OM的R2和RMSE是0.863 1和3.61, N的R2和RMSE是0.820 3和17.20, P的R2和RMSE是0.766 5和5.50, 以及K的R2和RMSE是0.727 3和15.08。 本次研究均提高了其R2, 降低了RMSE, 獲得了更好的模型預測效果。
圖5 (a)有機質(zhì)、 (b)總氮、 (c)速效磷和(d)速效鉀的R2和RMSE
圖6 有機質(zhì)、 總氮、 速效磷和速效鉀的相對分析誤差(RPD)
盡管P和K在短波可見/近紅外區(qū)域不具有直接的光譜響應, 但是通過實驗證明了短波可見/近紅外光譜能夠用于測量P和K, 可能是由于P和K與C—H—O—N鍵之間存在間接聯(lián)系。
通過PCA得到的PCs和PLSR得到的LVs作為模型輸入均使模型性能得到了優(yōu)化, 但BPNN模型的預測精度同LS-SVM模型相比不是最優(yōu)的模型, 但也得到了較好的預測結果。
通過比較PCR、 PLSR、 BPNN和LS-SVM方法對Vis/SW-NIRS對OM、 TN、 P、 K的預測精度, 可以得出以下結論:
(1)LS-SVM-LVs模型在所有土壤性能方面都優(yōu)于PCR、 PLSR、 BPNN-PCs、 BPNN-LVs和LS-SVM-PCs模型。
(2)LS-SVM-LVs模型對OM和N的預測精度最高, 這是在NIR區(qū)域具有光譜響應的特性。
(3)采用Vis/SW-NIRS測定土壤礦質(zhì)養(yǎng)分P和鉀, 具有不同的準確性, 這是由于光譜活性成分的共變。
根據(jù)本研究取得的結果, 建議采用LS-SVM-LVs分析作為預測土壤性質(zhì)(OM、 TN、 P和K)的最佳模型方法。 然而, 還需要進一步的研究來深入解釋在近紅外區(qū)域不具有直接光譜響應的土壤特性的測量。