張 伏, 王新月, 崔夏華, 禹 煌, 曹煒樺, 張亞坤, 熊 瑛, 付三玲
1. 河南科技大學農業(yè)裝備工程學院, 河南 洛陽 471003
2. 機械裝備先進制造河南省協(xié)同創(chuàng)新中心, 河南 洛陽 471003
3. 河南科技大學農學院/牡丹學院, 河南 洛陽 471023
4. 河南科技大學物理工程學院, 河南 洛陽 471023
玉米是我國重要的糧食作物之一, 黃淮海玉米生產區(qū)在我國糧食生產方面占有重要地位。 在玉米種植過程中選擇合適的玉米品種是實現(xiàn)高產的關鍵環(huán)節(jié)。 在農業(yè)實際生產中, 玉米品種很難通過肉眼觀察進行準確區(qū)分[1]。 因此, 對玉米品種的準確高效、 快速鑒別具有重要的研究意義和應用價值。
傳統(tǒng)種子鑒別包括人工鑒別、 田間種植鑒別、 電泳檢測、 生理和化學鑒定等方法, 鑒別過程冗雜且費時費力[2], 高光譜圖像無損檢測技術具有圖譜合一特點, 廣泛用于農作物種子品種、 品質、 活力等無損檢測研究[3-5]。 Huang等[6]基于高光譜圖像技術對玉米品種鑒別, 其SPA-(LS-SVM)模型準確率為90%; Xia等[7]基于高光譜圖譜特征對17個玉米品種鑒別, 其MLDA-(LS-SVM)模型準確率為99.13%; Chivasa等[8]基于多時相高光譜數(shù)據(jù)建立PLS-DA模型對25個玉米品種區(qū)分; Zhou等[9]基于高光譜圖像技術對玉米品種鑒別, 結合次區(qū)域投票建立的CNN模型效果較好; Sun等[10]基于高光譜圖像技術對大麥品種鑒別, 其SPA-KNN模型準確率為93.71%; Singh等[11]基于近紅外高光譜技術對大麥品種鑒別, 其CNN模型效果較好; 邵琦等[12]基于高光譜圖像技術對3個玉米品種鑒別, 其Boruta-RF模型準確率為78.3%; 吳翔等[13]基于近紅外高光譜技術對4個玉米品種鑒別, 其SPA-PLS-DA模型訓練集、 測試集準確率分別為78.5%、 70.8%; 黃敏等[14]基于高光譜圖像技術對9個玉米品種鑒別, 其PCA-BP模型準確率為94.44%; 黃敏等[15]基于高光譜圖像技術對小麥品種鑒別, 其SPA-MS-3DCNN模型準確率為96.72%; 吳永清等[16]基于高光譜圖像技術對小麥品種鑒別, 其CARS-LDA模型訓練集、 測試集準確率分別為91.8%、 86.0%; 張航等[5]基于高光譜圖像技術對3個小麥品種鑒別, 其PCA-SVM模型準確率為95%; 鄧小琴[17]等基于高光譜圖像技術對水稻品種鑒別, 其(MP-UVE-PLS)-PLSDA模型準確率為96%。
已有大量國內外學者開展農作物種子品種鑒別研究, 其中, 提取特征波長多采用SPA單一提取方法, 由于提取數(shù)目較少, 易出現(xiàn)部分有效信息缺失問題; 模型多采用LS-SVM, 只實現(xiàn)局部最優(yōu), 缺乏稀疏性且魯棒性較低。 基于此, 提出一種基于高光譜圖像技術的玉米品種快速無損鑒別方法, 8個品種玉米種子的高光譜數(shù)據(jù)經SG平滑和最大歸一化預處理后, 選用CARS、 SPA單一提取和CARS+SPA、 CARS-SPA組合篩選方法提取特征波長, 分別建立極限學習機模型對玉米品種鑒別, 以期獲得較佳鑒別效果, 為玉米及其他農作物種子品種鑒別提供新思路和新方法。
試驗所用玉米種子樣本均來自河南省洛陽市河南科技大學農學院的外觀完好且顏色相近的8個品種玉米種子, 分別標號為類別1、 2、 3、 4、 5、 6、 7、 8, 如圖1所示, 其中, 類別1、 7、 8為常規(guī)種子, 其他為雜交種子, 每個品種60粒, 共480粒玉米種子樣本。
圖1 玉米種子樣本
高光譜圖像采集系統(tǒng)主要包括高光譜成像儀(SPECIMFX17e, Specim, 芬蘭)、 自穩(wěn)定掃描平臺(SPECIMLabScanner 40×20 cm)、 2組150 W的鹵素燈陣列光源、 光纖、 暗箱和計算機等, 如圖2所示。 高光譜成像儀的掃描范圍是935.61~1 720.23 nm, 共224個光譜波段, 視場角為38°, 采樣間隔為3.5 nm, 光學分辨率為8 nm。 利用SPECIM配套的LumoScanner軟件獲取玉米種子高光譜圖像。 研究中數(shù)據(jù)處理軟件為ENVI5.3、 The Unscrambler X10.4、 Excel 2019、 Origin 2018、 Matlab 2016b。
圖2 高光譜圖像采集系統(tǒng)
為獲得穩(wěn)定的光譜數(shù)據(jù), 先將高光譜成像儀預熱30 min, 并設置曝光時間6.50 ms、 數(shù)據(jù)采集頻率50 Hz、 平臺移動速度25.11 mm·s-1、 高光譜相機鏡頭與自穩(wěn)定掃描平臺間距32 cm等參數(shù)。
在種子成熟階段胚芽儲存大量蛋白質、 脂肽等有機物供其生長和發(fā)育[18]。 因此, 采集樣本胚芽面圖像信息, 樣本整齊排列擺放在自穩(wěn)定掃描平臺上, 每次掃描一個樣本類別。
為避免雜光干擾, 圖像采集全程在暗箱中進行, 采集后通過LumoScanner軟件將采集的樣本高光譜圖像信息及黑板、 白板圖像信息導入計算機中, 用ENVI5.3軟件對高光譜圖像黑白校正, 校正公式如式(1)。
(1)
式(1)中,R表示樣本校正后圖像,I表示樣本原始圖像,IAN表示黑板圖像,IB表示白板圖像。
選取玉米種子胚芽部位大小為10 pixel×10 pixel的ROI區(qū)域, 如圖3所示, 將ROI區(qū)域的光譜信息導出得到每粒種子ROI區(qū)域的平均光譜值, 處理后得到935.6~1 700.0 nm波長范圍的平均光譜反射率曲線, 如圖4所示。 為提高光譜測量精度, 增強光譜信噪比, 剔除935.6~949.4 nm光譜信號噪聲較大的區(qū)域, 所以本試驗實際有效波長范圍是949.4~1 700.0 nm。 圖像采集過程中, 每隔10 min采集一次白板圖像信息重新進行校正, 以確保采集準確性。
圖3 選取ROI區(qū)域示意圖
圖4 原始平均光譜反射率曲線圖
競爭性自適應重加權算法(competitive adapative reweighted sampling, CARS)與連續(xù)投影算法(successive projections algorithm, SPA)可實現(xiàn)對原始數(shù)據(jù)降維處理; 極限學習機(extreme learning machine, ELM)用于定性分類和預測, 通過訓練單隱藏層前饋神經網(wǎng)絡, 隨機選取輸入層權重和隱藏層偏置, 輸出層權重通過最小化損失函數(shù)計算解析, 具有訓練參數(shù)少、 學習速度快、 泛化能力強等優(yōu)點。
光譜數(shù)據(jù)預處理后, 對其提取有效特征波長作為模型輸入變量, 8種不同類別種子作為輸出變量, 建立ELM品種鑒別模型, 通過鑒別準確率(Accuracy)對模型性能進行評價。
將480個樣本按照2∶1的比例隨機劃分為訓練集和測試集, 其中, 每個類別訓練集和測試集分別為40和20個, 八個類別訓練集和測試集分別為320和160個, 以此分析訓練集和測試集平均鑒別準確率(Accuracy)。
由于光譜數(shù)據(jù)除含被測樣本待測信息外, 易受雜散光、 噪聲等無關信息的干擾, 故在建立模型前對光譜數(shù)據(jù)預處理, 以減弱各種非目標因素對檢測信號的影響, 以期提高模型精度。 首先選擇平滑點數(shù)為3的SG平滑法(Savitzky-Golay smoothing)對ROI區(qū)域內光譜數(shù)據(jù)平滑去噪, 再采用最大歸一化法(maximum normalization, MN)將光譜數(shù)據(jù)映射到[0, 1]區(qū)間內, 消除由于量綱不同而引起的誤差。 所使用的數(shù)據(jù)處理軟件是The Unscrambler X 10.4, 預處理后的光譜平均反射率曲線圖, 如圖5所示。
圖5 預處理后的光譜平均反射率曲線圖
2.3.1 競爭性自適應重加權算法(CARS)優(yōu)選特征波長
設置蒙特卡洛采樣次數(shù)為50, 采用5折交叉驗證法提取特征波長, 如圖6所示。 圖6(a)表示CARS優(yōu)選特征波長變量數(shù)目隨采樣次數(shù)增加而減少, 在第23次采樣前, 優(yōu)選特征波長變量數(shù)目急劇下降, 第23次采樣后, 優(yōu)選特征波長變量數(shù)目緩慢下降, 說明CARS優(yōu)選特征波長是從粗選到細選的過程; 圖6(b)表示交叉驗證均方根誤差(RMSECV)隨采樣次數(shù)增加先緩慢減小后逐漸增大, 表明在第30次采樣后CARS出現(xiàn)了篩選過度的情況, 以至于剔除了含有有效信息的敏感波長變量, 導致模型預測精度下降, RMSECV值陡然增大; 圖6(c)表示在第23、 24次采樣時RMSECV值最小, 此時優(yōu)選出26個特征波長變量。
圖6 CARS算法提取特征波長過程
2.3.2 連續(xù)投影算法(SPA)優(yōu)選特征波長
設置優(yōu)選最大波長數(shù)目為20, 共優(yōu)選出10個波長變量, 如圖7所示。 由圖7(a), 隨變量個數(shù)增加, 均方根誤差(RMSE)整體呈現(xiàn)先急速下降后緩慢減小趨勢。 當變量數(shù)為10時, RMSE變化不再顯著, 此時RMSE為1.294 9。 由于變量過多會增加模型的運算量和復雜度, 因此選取10個變量作為最終特征變量數(shù)目。
圖7 SPA算法提取特征波長過程
2.3.3 組合篩選特征波長
為解決CARS和SPA單一篩選特征波長變量出現(xiàn)共線性等問題, 采用CARS+SPA組合篩選方法及CARS-SPA二次篩選方法, 不同提取特征波長方法結果對比如表1所示。
表1 不同提取特征波長方法結果
CARS-SPA二次篩選結果如圖8所示, 共優(yōu)選出18個特征波長變量, 分別是949.4、 952.8、 956.3、 1 039.5、 1 140.4、 1 168.4、 1 199.8、 1 220.8、 1 234.8、 1 319.1、 1 336.7、 1 375.5、 1 410.7、 1 435.5、 1 495.7、 1 573.8、 1 645.1和1 698.7 nm。
圖8 SPA算法二次提取特征波長過程
分別將全光譜波段共217個特征波長、 CARS算法提取的26個特征波長、 SPA算法提取的10個特征波長、 CARS和SPA算法組合提取的共34個特征波長、 CARS算法一次提取、 SPA算法二次篩選的18個特征波長作為輸入變量建立(SG+MN)-ELM、 (SG+MN)-CARS-ELM、 (SG+MN)-SPA-ELM、 (SG+MN)-(CARS+SPA)-ELM、 (SG+MN)-(CARS-SPA)-ELM模型, 訓練集和測試集平均鑒別準確率分別為96.56%和94.38%、 95.94%和94.38%、 83.75%和81.25%、 97.5%和95%、 98.13%和98.13%。 模型預測結果如表2所士, 單個類別準確率對比如圖9所示, 五種模型平均鑒別準確率對比如圖10所示。
表2 模型預測結果
圖9 品種鑒別準確率對比
圖10 模型平均準確率對比
根據(jù)圖10可知訓練集和測試集模型的鑒別精度排序是: 組合篩選>全波段>單一提取, 說明組合篩選特征波長避免了單一提取的弊端。 根據(jù)圖9, 類別7鑒別效果最佳, 類別5最差, 類別6次之。 推測類別5與類別2、 4、 6有內在本質聯(lián)系, 可能與其父系或母系相關。 而CARS-SPA組合篩選特征波長法恰好提升了雜交種子的鑒別精度, 其中, 類別5、 6效果最為顯著, 表明CARS-SPA組合篩選的特征波長更敏感, 能代表全波段光譜信息。
綜上, (SG+MN)-(CARS-SPA)-ELM較(SG+MN)-ELM、 (SG+MN)-CARS-ELM、 (SG+MN)-SPA-ELM、 (SG+MN)-(CARS+SPA)-ELM模型訓練集和測試集平均鑒別準確率分別提高了1.57%、 2.19%、 14.38%、 0.63%和3.75%、 3.75%、 16.88%、 3.13%, 結果表明(SG+MN)-(CARS-SPA)-ELM模型對玉米品種具有較好的鑒別效果, 組合篩選的特征波長較全波段及單一方法提取的更具代表性。
為鑒別優(yōu)良的玉米品種, 實現(xiàn)玉米高產, 對8個不同玉米品種進行了鑒別試驗和分析。
(1)利用SG+MN預處理方法對所采集的光譜數(shù)據(jù)平滑降噪并歸一化, 確定949.4~1 700.0 nm范圍的光譜波段信息為有效光譜;
(2)分別采用CARS、 SPA單一提取法和CARS+SPA、 CARS-SPA組合篩選法對SG+MN預處理后的樣本降維, 得到26、 10、 34、 18個特征波長變量;
(3)基于上述4種提取特征波長方法建立ELM定性鑒別模型, 并與全波段建模效果對比分析, 發(fā)現(xiàn)組合篩選法>全波段法>單一提取法。 其中, (CARS-SPA)-ELM模型效果最佳, 訓練集共320個樣本, 預測正確數(shù)目為314, 預測平均鑒別準確率為98.13%, 較ELM、 CARS-ELM、 SPA-ELM、 (CARS+SPA)-ELM分別提升了1.57%、 2.19%、 14.38%、 0.63%; 測試集共160個樣本, 預測正確數(shù)目為157, 預測平均鑒別準確率為98.13%, 較ELM、 CARS-ELM、 SPA-ELM、 (CARS+SPA)-ELM分別提升了3.75%、 3.75%、 16.88%、 3.13%。
結果表明, CARS-SPA組合篩選的特征波長較單一法及全波段法更敏感, 能代表全波段光譜信息, ELM定性模型有較好的鑒別性能, 可實現(xiàn)玉米種子快速準確鑒別, 該研究為玉米種子及其他農作物種子快速準確鑒別提供了新的思路和方法。