冀榮華, 趙迎迎, 李民贊, 鄭立華*
1. 中國農(nóng)業(yè)大學(xué)煙臺研究院, 山東 煙臺 264670
2. 中國農(nóng)業(yè)大學(xué)現(xiàn)代精細(xì)農(nóng)業(yè)系統(tǒng)集成研究教育部重點(diǎn)實(shí)驗(yàn)室, 北京 100083
精準(zhǔn)獲取土壤中的氮含量是實(shí)施各類農(nóng)田水肥管理技術(shù)的基礎(chǔ)。 傳統(tǒng)土壤氮含量化學(xué)測定方法, 很難客觀、 全面地反映農(nóng)田土壤養(yǎng)分含量實(shí)際分布狀況。
利用光譜分析技術(shù)能夠快速、 高效檢測土壤氮含量[1]。 基于光譜的土壤氮含量預(yù)測相關(guān)研究主要集中在土壤光譜預(yù)處理、 特征波長選取和預(yù)測模型構(gòu)建三個方面。 研究表明, 對光譜數(shù)據(jù)進(jìn)行預(yù)處理可使模型精度得到顯著提高[3]。 周鵬等[4]提出利用灰度關(guān)聯(lián)方法進(jìn)行特征提取, 提高土壤氮含量預(yù)測精度。 Marcelo de Souza[5]針對多類型土壤構(gòu)建多元回歸模型進(jìn)行土壤有機(jī)碳測定。 Li等[6]發(fā)現(xiàn)LS-SVM和PLSR模型具有一定穩(wěn)定性。 Xu等[7]利用不同數(shù)據(jù)集建立土壤氮含量光譜預(yù)測模型, 發(fā)現(xiàn)模型泛化能力有待提高。 利用傳統(tǒng)方法構(gòu)建的預(yù)測模型泛化能力較弱, 原因在于數(shù)據(jù)量有限, 且模型非線性表達(dá)能力較弱。 深度學(xué)習(xí)在特征自動提取和優(yōu)秀的非線性表達(dá)方面的優(yōu)勢, 使研究人員開始探索將深度學(xué)習(xí)算法應(yīng)用于土壤養(yǎng)分預(yù)測[8]。 有研究設(shè)計五種深度不同的CNN, 發(fā)現(xiàn)7個卷積層的CNN網(wǎng)絡(luò)對土壤有機(jī)碳的預(yù)測能力最強(qiáng)。 Zhang等[9]利用端到端深度學(xué)習(xí)方法進(jìn)行土壤養(yǎng)分含量預(yù)測, 發(fā)現(xiàn)模型可以從原始數(shù)據(jù)中學(xué)習(xí)到更為有效的特征。 Ng等[10]討論訓(xùn)練樣本大小對深度學(xué)習(xí)模型精度影響。 Tsakiridis等[11]建立一維卷積神經(jīng)網(wǎng)絡(luò)(CNN), 引入自適應(yīng)糾錯機(jī)制改進(jìn)模型結(jié)構(gòu), 提高模型預(yù)測精度。 Wang等[12]利用公共土壤光譜數(shù)據(jù)集(LUCAS)通過對比分析發(fā)現(xiàn)深度學(xué)習(xí)方法比傳統(tǒng)的機(jī)器學(xué)習(xí)方法更有效、 實(shí)用。
深度學(xué)習(xí)模型在特征自動提取和非線性表達(dá)方面的優(yōu)勢使其在土壤氮含量預(yù)測性能方面表現(xiàn)出色。 但針對模型泛化能力方面的相關(guān)研究還有待加強(qiáng)。 本工作通過融合多種深度學(xué)習(xí)模型, 從模型結(jié)構(gòu)設(shè)計、 參數(shù)設(shè)置方面開展研究, 提高模型泛化能力。
首先利用公開數(shù)據(jù)集構(gòu)建土壤氮含量光譜預(yù)測模型, 再利用自采集數(shù)據(jù)集對模型遷移修訂。 其中公開數(shù)據(jù)集來自歐盟范圍內(nèi)開展的大型土壤數(shù)據(jù)集采集項目——土地利用及覆蓋面積框架調(diào)查(land use and cover area frame survey, LUCAS)。 LUCAS在2020年11月公布采自28個歐盟成員國的21 782個表土樣本(0~20 cm)的吸光光譜數(shù)據(jù)。 樣本采自農(nóng)田、 林地、 灌木地、 草地和荒地等地, 涵蓋灰化土、 棕壤、 荒漠土、 草炭土和栗鈣土等歐洲主要土壤類型。 土壤樣品經(jīng)過40 ℃風(fēng)干、 去除雜質(zhì)、 研磨和過篩(孔徑<2 mm)處理后, 利用FOSS XDS光譜分析儀對其正反向掃描各一次, 取兩次掃描結(jié)果平均值作為樣本的光譜數(shù)據(jù)。 光譜波長范圍400~2 500 nm, 間隔0.5 nm, 共4 200個波長。 采用改進(jìn)的凱氏定氮法測定樣品氮含量, 測定方法參見國際標(biāo)準(zhǔn)ISO 11261—1995。 自采集數(shù)據(jù)集在中國黑龍江省勝利農(nóng)場進(jìn)行土壤樣本采集及其吸光光譜和氮含量測定。 勝利農(nóng)場位于東經(jīng)133°45′, 北緯47°24′, 占地45萬畝, 土壤類型為草炭土和黑土。 在農(nóng)場隨機(jī)選取300個土壤采樣點(diǎn), 用方形土壤采樣器進(jìn)行土壤樣本采集。 在每個土壤采樣點(diǎn)垂直剖面深度為5, 10, 15和20 cm的位置處分別取2 cm厚度土壤樣品, 并混合裝入一個取樣袋, 作為該采樣點(diǎn)處的土壤樣品。 采用密閉避光包裝, 標(biāo)記, 帶回實(shí)驗(yàn)室。 將土樣烘干研磨后進(jìn)行20目過篩處理, 利用自動定氮儀測定含氮量, 測定方法參見農(nóng)業(yè)部標(biāo)準(zhǔn)NY/T1121.24—2012。 使用傅里葉變換近紅外光譜分析儀(FTS, MATRIX_I型, 布魯克公司, 德國)測定光譜。 光譜測量范圍為834~2 503 nm, 間隔0.5~4.8 nm, 每個樣本光譜測量3次, 每次掃描30 s, 取平均值作為最終結(jié)果。 每個土壤樣本測得1 037個波長吸光度光譜數(shù)據(jù)。
按3σ原則對數(shù)據(jù)進(jìn)行異常值檢測與處理。 LUCAS數(shù)據(jù)集共20 791個數(shù)據(jù)樣本, 黑龍江數(shù)據(jù)集共300個數(shù)據(jù)樣本。 LUCAS數(shù)據(jù)集中氮含量范圍為0~14.10 g·kg-1, 平均值2.39 g·kg-1; 黑龍江數(shù)據(jù)集的氮含量范圍為1~27.43 g·kg-1, 平均值9.52 g·kg-1。
為消除量綱對模型的影響, 對光譜數(shù)據(jù)和氮含量進(jìn)行歸一化處理, 計算公式如式(1)所示
(1)
式(1)中,x和y分別為歸一化前、 后數(shù)據(jù)值; min和max分別為樣本對同一波長的吸光度的最小(大)值或氮含量的最小(大)值。
以特征波長為模型輸入。 首先計算土壤樣本原始光譜、 一階微分光譜和二階微分光譜與氮含量的相關(guān)系數(shù)。 圖1(a)—(c)分別展示了自采集光譜數(shù)據(jù)相關(guān)分析結(jié)果。
圖1 自采集光譜及其微分與土壤氮含量的相關(guān)性
選取相關(guān)系數(shù)絕對值大于0.6的波段為強(qiáng)相關(guān)波段, 按兩數(shù)據(jù)集強(qiáng)相關(guān)波段的最大交集選出強(qiáng)相關(guān)波段, 統(tǒng)計結(jié)果如表1所示。
表1 光譜強(qiáng)相關(guān)波段
按照式(2)初步篩選出強(qiáng)相關(guān)波段作為敏感波段S。
S=(A′∪A″)∩A
(2)
式(2)中,A,A′和A″分別為利用原始光譜、 一階微分光譜和二階微分光譜篩選出的強(qiáng)相關(guān)波段。
按強(qiáng)相關(guān)波段和文獻(xiàn)中強(qiáng)相關(guān)波段[3-4]的最大交集篩選出四個波段作為特征波段, 選取180個波長(見表2)作為模型輸入。
表2 特征波段及模型輸入波長選擇
在保證模型精度的前提下, 降低模型復(fù)雜度, 利用自動編碼器對特征波長進(jìn)行降維處理。 自動編碼器由編碼和解碼兩部分組成, 結(jié)構(gòu)如圖2所示。
Design and Application of Remote Online Monitoring System for Transformer and Circuit Breaker CHEN Wenrui,CHEN Chuang,LIAO Xiaochun(132)
圖2 自動編碼器的基本結(jié)構(gòu)
其中編碼部分用于提取輸入數(shù)據(jù)特征; 解碼部分用于復(fù)現(xiàn)數(shù)據(jù)。
融合自動編碼器和卷積神經(jīng)網(wǎng)絡(luò)優(yōu)勢, 提出基于Encoder-CNN的土壤氮含量光譜預(yù)測模型。 模型以特征波長為輸入, 經(jīng)過自動編碼器進(jìn)行波長降維, 將編碼輸出作為卷積神經(jīng)網(wǎng)絡(luò)的輸入, 利用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行土壤氮含量預(yù)測。 卷積神經(jīng)網(wǎng)絡(luò)由卷積層、 池化層和全連接層組成, 網(wǎng)絡(luò)結(jié)構(gòu)示意如圖3所示。
圖3 CNN網(wǎng)絡(luò)結(jié)構(gòu)示意圖
網(wǎng)絡(luò)中加入批量歸一化用于約束數(shù)據(jù)分布, Dropout處理用于防止模型過擬合。
LUCAS數(shù)據(jù)集中, 訓(xùn)練集和測試集分別為18 711和2 080個樣本。 設(shè)置訓(xùn)練批次為256, 迭代次數(shù)為80, 損失函數(shù)為均方誤差, 激活函數(shù)為ReLU函數(shù)。 初始學(xué)習(xí)率為0.001, 每30 epoch(完整訓(xùn)練)下降為原來的1/10。 采用均方根誤差(RMSE)、 決定系數(shù)(R2)和相對分析誤差(RPD)評價模型性能, 計算公式如式(3)—式(5)
(3)
(4)
(5)
設(shè)計8種不同結(jié)構(gòu)自動編碼器用于土壤光譜數(shù)據(jù)降維。 自動編碼器復(fù)現(xiàn)效果好表明編碼輸出能夠有效表達(dá)輸入, 復(fù)現(xiàn)效果如表3所示。
表3 不同自動編碼器結(jié)構(gòu)下光譜復(fù)現(xiàn)結(jié)果
研究中發(fā)現(xiàn), 隱含層數(shù)越多復(fù)現(xiàn)效果越好。 選擇AutoEnc7編碼部分用于光譜數(shù)據(jù)降維。
表4 卷積層參數(shù)設(shè)置
模型利用相同數(shù)據(jù)集和參數(shù)(見1.5節(jié))訓(xùn)練和測試, 結(jié)果如表5所示。
可以看出, 針對網(wǎng)絡(luò)結(jié)構(gòu)1而言, 模型CNN-2預(yù)測性能、 擬合效果和可靠性均較模型CNN-1有所提升。R2提高0.03, RMSE降低約0.1 g·kg-1, RPD提高約0.4。 依據(jù)CNN-2設(shè)置, 增加兩個池化層形成網(wǎng)絡(luò)結(jié)構(gòu)2。 結(jié)構(gòu)2模型預(yù)測精度均在0.90以上, 即增加池化層可高模型性能。 對比CNN-3和CNN-4, 發(fā)現(xiàn)增加全連接層神經(jīng)元數(shù)量可改善模型性能。
利用自采集黑龍江黑土光譜數(shù)據(jù)集驗(yàn)證所建基于Encoder-CNN土壤氮含量光譜預(yù)測模型泛化能力, 結(jié)果如表5所示。 發(fā)現(xiàn)3個模型預(yù)測精度大于0.70, 即模型具有一定的泛化能力。 利用自采集數(shù)據(jù)集(270個樣本作為訓(xùn)練集, 30個樣本作為測試集)對模型CNN-3進(jìn)行遷移學(xué)習(xí)。 迭代次數(shù)從100變化到1 000, 步長設(shè)為100, 結(jié)果分別如圖4(a)—(c)所示。 觀察圖4(a)可以發(fā)現(xiàn), 當(dāng)模型迭代100次后, 預(yù)測精度可達(dá)到0.90以上。 當(dāng)?shù)?00次模型的預(yù)測精度可以達(dá)到0.98, 其預(yù)測效果如圖5所示。
表5 四種模型在不同數(shù)據(jù)集上的預(yù)測結(jié)果(RMSE單位: g·kg-1)
圖4 模型CNN-3評價指標(biāo)變化
圖5 模型黑龍江數(shù)據(jù)集上的預(yù)測效果(迭代900次)
結(jié)果表明, 基于Encoder-CNN的土壤氮含量光譜預(yù)測模型具有一定泛化能力。 模型通過小樣本數(shù)據(jù)遷移學(xué)習(xí), 即可適用于黑龍江黑土的氮含量預(yù)測, 精度較高。
快速檢測土壤氮含量是農(nóng)田水肥管理技術(shù)實(shí)施的重要基礎(chǔ)。 提出一種融合自動編碼器和卷積神經(jīng)網(wǎng)絡(luò)(Encoder-CNN)的土壤氮含量光譜預(yù)測模型。 探索網(wǎng)絡(luò)結(jié)構(gòu)及參數(shù)設(shè)置對模型性能的影響, 并利用自采集土壤光譜數(shù)據(jù)集對模型進(jìn)行泛化能力驗(yàn)證。 結(jié)論如下:
(1)自動編碼器實(shí)現(xiàn)光譜數(shù)據(jù)降維, 增加隱含層數(shù)會提升降維效果;
(2)網(wǎng)絡(luò)結(jié)構(gòu)和參數(shù)對基于Encoder-CNN土壤氮含量光譜預(yù)測模型性能影響較大。 1×1卷積核個數(shù)、 池化層數(shù)和全連接層神經(jīng)元個數(shù)等均可改變模型性能;
(3)利用樣本豐富且數(shù)據(jù)量大的LUCAS數(shù)據(jù)集訓(xùn)練模型, 具有一定泛化能力。 在不改變網(wǎng)絡(luò)結(jié)構(gòu), 僅需要少量樣本, 遷移模型, 即可獲得精度較高的模型。