葉文超, 羅水洋, 李金豪, 李釗榮, 范志文, 徐海濤, 趙 靜,蘭玉彬, 2, 鄧海東*, 龍擁兵, 2, 3*
1. 華南農(nóng)業(yè)大學(xué)電子工程學(xué)院(人工智能學(xué)院), 國家精準(zhǔn)農(nóng)業(yè)航空施藥技術(shù)國際聯(lián)合研究中心, 廣東 廣州 510642
2. 嶺南現(xiàn)代農(nóng)業(yè)科學(xué)與技術(shù)廣東省實驗室, 廣東 廣州 510642
3. 農(nóng)業(yè)農(nóng)村部華南智慧農(nóng)業(yè)公共研發(fā)中心, 廣東 廣州 510520
水稻是我國主要糧食作物之一, 日益增長的糧食需求促進了雜交水稻技術(shù)的快速發(fā)展。 由于目前市場上的雜交水稻種子品種繁多, 質(zhì)量參差不齊, 其品質(zhì)將直接影響我國水稻產(chǎn)量[1-2], 如何有效的對雜交水稻種子進行品質(zhì)鑒定、 分級成為目前水稻產(chǎn)業(yè)領(lǐng)域急需解決的關(guān)鍵技術(shù)問題。 目前我國對于雜交水稻品種的分類沒有明確的檢測標(biāo)準(zhǔn), 農(nóng)業(yè)人員常通過目測等傳統(tǒng)方法進行識別, 而科研人員通常采用化學(xué)成分檢測等方法進行分類[3], 這些分類方法不僅費時費力、 分類精度低而且只能用于少量樣品檢測, 無法得到廣泛的應(yīng)用。 以多光譜及高光譜為代表的近紅外光譜技術(shù)作為一種檢測方法具有快速、 無損、 檢測精度高等特點[4-6], 在農(nóng)作物品質(zhì)檢測、 病蟲害早期診斷與識別、 農(nóng)田肥度檢測以及農(nóng)藥殘留等方面得到了廣泛的應(yīng)用[7-8]。 Zhang等利用高光譜成像技術(shù)結(jié)合判別分析模型對6類不同玉米種子的光譜信息進行分類鑒別, 其分類精度可達到98.89%[9]。 楊思成等采集5種不同稻谷種子高光譜圖像作為研究對象, 利用PCA方法選取特定波長下的圖像信息, 基于紋理特征和形態(tài)特征等圖像特征參數(shù)建立了ANN分類模型, 其分類正確率可達98%[10]。 Li等采集不同年齡段陳皮的近紅外光譜數(shù)據(jù), 利用主成分分析(PCA)結(jié)合不同光譜預(yù)處理方法構(gòu)建Fisher線性判別分類模型, 對不同年齡陳皮的分類精度可達100%[11]。 王承琨等利用Segnet與BIGD方法提取樹木的圖像信息與光譜信息, 并構(gòu)建基于SVM分類模型實現(xiàn)對樹木品種的分類, 其最高正確率可達98%[12]。
通過上述研究發(fā)現(xiàn), 基于光譜信息和圖像信息均可以構(gòu)建精度較高的分類模型, 然而對于外形相似度極高的雜交水稻種子的分類還鮮有報道[13-14]。 針對上述研究均采用單一特征(光譜或者圖像)來建立分類模型這一問題, 本論文結(jié)合基于光譜的1D-CNN和基于圖像的2D-CNN, 構(gòu)建圖譜融合的二分支卷積神經(jīng)網(wǎng)絡(luò)(2Branch-CNN)分類模型, 實現(xiàn)對雜交水稻種子的分類, 利用多特征融合來提高雜交水稻種子的分類精度。
采用的高光譜成像系統(tǒng)如圖1所示。 為了避免外部環(huán)境光對光譜測量的干擾, 整套光譜采集設(shè)備置于封閉的暗箱內(nèi)。 其中, 高光譜相機為四川雙利合普公司生產(chǎn)的近紅外高光譜相機(型號: GaiaField-N17E), 該相機內(nèi)置微型計算機, 通過外置推掃獲取樣品的高光譜圖像數(shù)據(jù)。 在光譜采集過程中, 高光譜相機的采集參數(shù)設(shè)定為: 單幀光譜圖像包含350×320像素, 光譜拍攝波長范圍為900~1 700 nm, 光譜采樣間隔為5 nm。
圖1 高光譜成像系統(tǒng)結(jié)構(gòu)示意圖
用于分類的雜交水稻種子樣品均為秈型三系雜交水稻, 具體包括: 荃兩優(yōu)0861(qly0861)、 優(yōu)華占(yhz)、 晶兩優(yōu)1212(jly1212)、 兩優(yōu)821(ly821)、 兩優(yōu)887(ly887)、 兩優(yōu)898(ly898)、 兩優(yōu)8601(ly8601)、 荃兩優(yōu)1606(qly1606)、 荃兩優(yōu)1822(qly1822)、 荃兩優(yōu)851(qly851)共10個品種。
為提高數(shù)據(jù)采集效率, 在采集圖像前, 將水稻種子按照55的陣列規(guī)則擺放在樣品臺上, 相鄰樣本間留有一定間隔, 以便在后期數(shù)據(jù)處理過程中能夠通過圖像分割的方法得到每個樣本的光譜信息。 實驗中, 每一品種雜交水稻種子的數(shù)量均為250粒, 總共獲取了2 500粒雜交水稻種子的高光譜圖像, 采集樣品的高光譜圖像如圖2所示。 針對某一特定波長高光譜圖像, 采用閾值分割法獲取水稻種子在圖像中對應(yīng)的像素區(qū)域(ROI區(qū)域)。 將選取的ROI區(qū)域映射到所有波長對應(yīng)的灰度圖, 然后計算每個波長ROI區(qū)域內(nèi)所有像素的反射率的平均值, 將計算得到的平均光譜定義為每粒雜交水稻種子的反射率光譜。
圖2 雜交水稻種子高光譜圖像
高光譜相機采集到的原始光譜數(shù)據(jù)不僅包含光源光譜特征, 而且包含微弱環(huán)境光及暗電流等噪聲, 無法真實反應(yīng)待測樣品的反射光譜。 在樣品測試之前, 分別采集了白板和黑板的反射光譜, 用以消除光源光譜特征、 微弱環(huán)境光及暗電流等噪聲對樣品光譜的影響, 其校正公式如式(1)
(1)
式(1)中,R為校正后的反射率,Iraw為原始光譜,Iwhite為白板反射譜,Iblack為黑板反射光譜。
對校正后的散射光譜進行預(yù)處理能夠進一步抑制背景噪聲等對光譜數(shù)據(jù)的影響, 并改善模型的分類精度。 采用Savitzky-Golay(SG)平滑算法[15]、 多元散射校正(MSC)[16]以及兩種算法結(jié)合(SG+MSC)三種預(yù)處理方法對光譜數(shù)據(jù)進行預(yù)處理。
對于特征波長下圖像數(shù)據(jù)集的構(gòu)建, 首先利用隨機森林(FR)算法對光譜數(shù)據(jù)中所有波長的重要性進行評分(variable importance measures, VTM), 然后按重要性評分來排序, 通過排序即可選取重要性最高的特征波長[17-20]。 波長重要性評分的計算方法如下:
(2)
式(2)中,k值表示類別,pmk為在節(jié)點m中類別k所占的比例, 也可以看作隨機從節(jié)點m中抽取兩個樣本, 其類別標(biāo)記不一致的概率。
(3)
式(3)中, Ginil和Ginir分別表示隨機森林節(jié)點m分支后兩個新節(jié)點的Gini指數(shù)。
(4)
假設(shè)該特征波長xj在隨機森林中共有n顆樹, 其最終的重要性評估計算公式為式(5)
(5)
最后, 將計算得的所有特征波長重要性評分做歸一化處理并排序。
對于水稻種子的近紅外光譜數(shù)據(jù)集, 采用一維卷積神經(jīng)網(wǎng)絡(luò)(1D-CNN)[21-22]構(gòu)建分類模型; 針對單波長圖像數(shù)據(jù)集和3波長偽彩色圖像數(shù)據(jù)集, 分別采用卷積神經(jīng)網(wǎng)絡(luò)VGG[23-24]和殘差網(wǎng)絡(luò)ResNet[25-26]構(gòu)建分類模型, 并比較兩者的分類精確度。 為進一步改善模型分類精度, 提出基于圖譜融合的分類模型, 將光譜維度與空間維度的特征進行融合, 構(gòu)建2Branch-CNN 分類模型(如圖3所示)。 該算法中, 1D-CNN用于提取光譜特征, 二維卷積神經(jīng)網(wǎng)絡(luò)(2D-CNN)用于提取空間維度特征, 最后將獲得的特征數(shù)據(jù)連接融合后送入分類器進行分類。 神經(jīng)網(wǎng)絡(luò)模型的損失函數(shù)均采用交叉熵?fù)p失函數(shù), 其函數(shù)計算公式為
圖3 二分支卷積神經(jīng)網(wǎng)絡(luò)模型
(6)
式(6)中,K為雜交水稻種子種類數(shù)量,y為標(biāo)簽,i指代的是類別的序號, 即當(dāng)類別為i時yi=1, 否則為yi=0; Out是卷積神經(jīng)網(wǎng)絡(luò)每個樣本的類別概率, 即類別為i的概率。
由于近紅外探測器在測量波長范圍的短波邊和長波邊響應(yīng)度不高, 容易受到背景噪聲的影響。 為此, 在數(shù)據(jù)預(yù)處理之前先截去背景噪聲影響明顯的波段, 剩下光譜數(shù)據(jù)的波長范圍為950.9~1 527.1 nm, 總共180個波長的光譜數(shù)據(jù), 10個品種的雜交水稻種子的平均反射光譜如圖4所示。 由圖4可知, 10類雜交水稻種子的光譜趨勢相同, 其波峰、 波谷位置基本一致, 但不同種類水稻種子間反射率大小不同, 這可能由于不同水稻種子的化學(xué)成分以及分子結(jié)構(gòu)差異所造成的。 在950.9~1 527.1 nm波長范圍, 包含多數(shù)有機物分子中含氫基團X—H(X為N、 O、 C、 S等)的光譜信息, 包括N—H基團(1 000及1 400~1 800 nm附近)以及C—H基團(1 050~1 200 nm附近; 1 300~1 500 nm附近)等光譜信息, 可有效反映不同品種間水稻種子光譜信息差異。 在分類過程中, 使用Sklearn庫中的隨機劃分方法將2 500粒雜交水稻種子的圖像數(shù)據(jù)與光譜數(shù)據(jù)按8∶1∶1的比例劃分為訓(xùn)練集、 驗證集和測試集, 即訓(xùn)練集樣本數(shù)量為2 000個, 驗證集樣本數(shù)量為250個, 測試集樣本數(shù)量為250個。
圖4 10種雜交水稻種子的平均光譜曲線
對校正過的散射光譜進行預(yù)處理能夠進一步抑制背景噪聲對光譜數(shù)據(jù)的影響, 并改善模型的分類精度。 用SG平滑, MSC和SG+MSC三種方法預(yù)處理后的光譜曲線如圖5(a—d)所示。 通過比較可以看出, SG平滑算法可以有效減少對采集的光譜數(shù)據(jù)中的隨機噪聲, 如圖5(b)所示。 利用MSC算法進行預(yù)處理可以消除散射對光譜的影響, 提高了光譜數(shù)據(jù)的信噪比, 此外, 通過圖5(c)可以看出MSC預(yù)處理方法能夠有效地抑制光譜基線漂移和背景噪聲干擾, 能提高光譜的分辨率。 通過圖5(d)可以看出, SG+MSC方法結(jié)合了SG和MSC的優(yōu)點, 在抑制背景噪聲影響和光譜數(shù)據(jù)信噪比等方面都有明顯的提升。
圖5 10種雜交水稻種子的原始光譜(a)和預(yù)處理后近紅外光譜(b)SG平滑預(yù)處理, (c)MSC預(yù)處理, (d)SG+MSC
2.2.1 不同預(yù)處理方法對1D-CNN模型分類效果的影響
表1為近紅外光譜數(shù)據(jù)經(jīng)不同預(yù)處理方法后采用1D-CNN模型進行分類的結(jié)果。 由表1可以看出, 未經(jīng)過預(yù)處理的原始光譜數(shù)據(jù)驗證集與測試集精度分別為70%與63%。 而采用MSC、 SG與SG+MSC 3種方法對原始光譜進行預(yù)處理之后, 1D-CNN模型的分類精度都獲得不同程度的提升。 其中采用SG平滑預(yù)處理后, 模型的分類效果最佳, 驗證集與測試集精度分別提升至95.4%和92.9%。 采用MSC預(yù)處理后, 1D-CNN模型的分類效果沒有明顯的改善, 進一步采用SG和MSC兩種算法同時對數(shù)據(jù)進行預(yù)處理, 模型驗證集和測試集的精度可增加到85.2%和78.4%, 但其結(jié)果仍低于單獨采用SG算法預(yù)處理后的精度。 因此利用MSC預(yù)處理方法對1D-CNN分類模型精度提高有限, 將采用SG算法對高光譜數(shù)據(jù)進行預(yù)處理。
表1 不同預(yù)處理方法下1D-CNN模型的分類精度
為了進一步探討其內(nèi)在機制, 采用基于T分布的隨機近鄰嵌入算法(T-distributed stochastic neighbor embedding, T-SNE)對不同預(yù)處理方法下的光譜數(shù)據(jù)集進行可視化降維, 結(jié)果如圖6(a—d)所示。 通過比較不同預(yù)處理方法下的T-SNE圖可以明顯看到, 采用SG平滑預(yù)處方法比MSC具有更好的區(qū)分度, 如圖6(b)和(c)所示。 而SG+MSC預(yù)處理方法的區(qū)分效果次之[見圖6(d)]。 該結(jié)果表明, 利用SG平滑預(yù)處理能夠有效的改善樣本的區(qū)分度, 而采用SG+MSC兩種預(yù)處理方法對數(shù)據(jù)集進行多次預(yù)處理并沒有獲得更優(yōu)的樣本區(qū)分度。
圖6 光譜數(shù)據(jù)的T-SNE可視化結(jié)果
2.2.2 基于波長重構(gòu)圖像數(shù)據(jù)集的分類
采用隨機森林(random forest, RF)特征選擇算法對180個特征波長的重要性評分進行排序, 只展示了重要性評分最高的9個特征波長, 其重要性評分排序如圖7所示。 為了比較特征波長個數(shù)對模型分類效果的影響, 選擇重要性評分最高的特征波長(950.9 nm)構(gòu)建單一特征波長下10種雜交水稻樣品的灰度圖像數(shù)據(jù)集以及選擇重要性評分最高的3個特征波長(950.9、 976.5、 966.9 nm)構(gòu)建3特征波長偽彩色圖像數(shù)據(jù)集。
圖7 重要性評分最高的9個特征波長
為了比較不同模型的分類效果, 分別采用VGG和ResNet模型對10種雜交水稻種子進行分類。 考慮到網(wǎng)絡(luò)層數(shù)對模型分類精度的影響, 還比較了上述兩種模型在不同網(wǎng)絡(luò)層數(shù)下的分類效果, 各種模型的分類結(jié)果如表2所示。 通過比較可以看出, 無論是基于單波長的灰度圖像數(shù)據(jù)集還是基于3波長的偽彩圖數(shù)據(jù)集, VGG模型的分類精確度都優(yōu)于ResNet模型。 相對于單波長灰度圖像數(shù)據(jù)集, 采用基于3波長重構(gòu)的偽彩圖像數(shù)據(jù)集來進行分類不僅具有更優(yōu)的分類效果, 還能有效地抑制分類模型的過擬合現(xiàn)象。 對于VGG模型, 網(wǎng)絡(luò)層數(shù)為11, 13, 16, 19時, 對于3波長重構(gòu)的偽彩圖像數(shù)據(jù)集的分類都能獲得較好的分類精度, 當(dāng)網(wǎng)絡(luò)層數(shù)為16時, VGG模型分類效果最佳, 驗證集與測試集的精度分別達到92.8%和92.8%。 而對于ResNet網(wǎng)絡(luò)模型, 為了避免過高的網(wǎng)絡(luò)層數(shù)對模型分類精度的影響, 只給出了該模型的最佳網(wǎng)絡(luò)層數(shù), 即網(wǎng)絡(luò)層數(shù)為18時的分類效果, 其驗證集與測試集的分類精度分別為89.2%和87.2%, 分類效果要低于VGG模型。
表2 基于圖像數(shù)據(jù)的分類模型分類精度
2.2.3 基于光譜與圖像數(shù)據(jù)融合的分類模型
通過上述基于特征波長重構(gòu)的圖像數(shù)據(jù)集的分類效果可以看出, 將多個特征進行(3個特征波長)融合能夠有效提高模型的分類精確度, 其內(nèi)在機制是多特征(3波長)相對于單一特征(單波長)而言能夠進一步提高樣本間的差異, 從根本上提升模型的分類效果。 為了進一步提高精度, 在基于3波長圖像數(shù)據(jù)集的基礎(chǔ)再融入光譜維數(shù)據(jù), 構(gòu)建基于圖譜融合的2Branch-CNN分類模型, 該模型的分類結(jié)果如表3所示。 為了獲得最優(yōu)的分類效果, 對圖像數(shù)據(jù)集分支網(wǎng)絡(luò), 分別采用了VGG模型和ResNet模型, 并調(diào)整了網(wǎng)絡(luò)層數(shù)。 通過表3可以看出, 無論是采用VGG模型還是ResNet模型, 利用圖譜融合后模型的分類效果都獲得了不同程度的提升。 對于VGG+1DCNN二分支網(wǎng)絡(luò)模型, 當(dāng)VGG模型的網(wǎng)絡(luò)層數(shù)增加到16層時, 二分支網(wǎng)絡(luò)獲得最優(yōu)分類結(jié)果, 其驗證集與測試集的分類精度為98%和96.7%。 相比于1D-CNN分類模型的最優(yōu)分類效果, 驗證集與測試集的分類精度分別提升了2.6%和3.8%; 相對于基于3波長重構(gòu)偽彩圖數(shù)據(jù)集的VGG模型的最佳分類精度, 驗證集與測試集分類精度分別提升了5.2%和3.9%。 而對于由ResNet+1DCNN構(gòu)成的二分支網(wǎng)絡(luò)-模型的分類精度能夠獲得更顯著的提升, 其驗證集與測試集的分類精度分別達到96.5%和94.7%, 相對于基于3波長重構(gòu)的圖像數(shù)據(jù)集的ResNet模型的最佳分類效果, 驗證集和測試集的分類精度分別提升7.3%和6.8%。
表3 基于光譜與圖像數(shù)據(jù)融合的2branch-CNN模型分類精度
以上討論了基于圖譜融合的分類模型對10種雜交水稻種子的整體分類效果。 而不同種類被錯誤分類的概率也是衡量分類模型有效性的重要指標(biāo), 為進一步驗證2branch-CNN分類模型對不同種類雜交水稻種子的分類效果, 本文構(gòu)建混淆矩陣(confusion matrix)對樣本的真實類別和預(yù)測結(jié)果進行驗證, 結(jié)果如圖8所示。 從圖8可以看出對于圖譜融合的2branch-CNN分類模型, 雜交水稻品種ly898、 qly1822的測試集分類精度相對較低, 分別93%和88%, 而對于其他水稻品種, 其驗證集和測試集的分類精度均可以達到95%以上。 該結(jié)果不僅再次表明光譜數(shù)據(jù)與圖像信息融合能夠進一步提高大部分種類雜交水稻種子間區(qū)分度, 進而提升模型的整體分類精度, 而且直接證明本論文提出的2Branch-CNN網(wǎng)絡(luò)具有更好的泛化能力與分類效果。
圖8 驗證集和測試集的混淆矩陣
在基于光譜數(shù)據(jù)集的1D-CNN和圖像數(shù)據(jù)集的2D-CNN的基礎(chǔ)上, 構(gòu)建基于光譜與圖像融合的2Branch-CNN模型。 研究結(jié)果表明, 通過光譜與圖像數(shù)據(jù)融合能夠有效提升模型的分類精度, 其驗證集和測試集的分類精度分別達到98%和96.7%, 與基于光譜數(shù)據(jù)集的1D-CNN相比, 驗證集和測試集的分類精度分別提高了2.6%和3.8%, 與基于圖像數(shù)據(jù)集的2D-CNN分類模型相比, 驗證集和測試集的分類精度分別提高了5.2%和3.9%。 本研究結(jié)果表明, 構(gòu)建圖譜信息融合的分類模型, 能夠有效提升對雜交水稻種子品種的分類精度, 該研究方法對農(nóng)業(yè)育種中的種子快速篩選及分級具有重要的參考價值。