海 妍,張 君,張東方,李玉超,劉景艷,范曉飛,索雪松
(1.河北農(nóng)業(yè)大學 機電工程學院,河北 保定 071001;2.河北農(nóng)業(yè)大學 園藝學院,河北 保定 071001)
種子發(fā)芽力是種子檢測中1 項重要指標。而種子發(fā)芽率屬于種子發(fā)芽力的1 種重要評判標準,因此種子發(fā)芽率檢測對農(nóng)業(yè)生產(chǎn)有著重要意義。茄子是我國很重要的蔬菜作物,種植區(qū)域廣,種子用量大[1]。目前,國內(nèi)外許多學者基于可見-近紅外光譜對種子質(zhì)量進行了快速檢測和研究。Wang YL 等將熱損傷和人工老化的種子與正常種子進行比較,并使用2 臺不同帶寬的光譜儀采集種子的光譜。通過競爭自適應重加權(quán)采樣選擇有效變量,建立了種子的鑒別模型。實驗結(jié)果證實了使用500~1 100 nm 或1 000~1 850 nm 的光譜范圍來區(qū)分種子活力的可行性[2]。Genze N 等使用轉(zhuǎn)移學習對不同具有區(qū)域建議的卷積神經(jīng)網(wǎng)絡(Convolutional Neural Networks,CNNs)進行訓練,以自動識別培養(yǎng)皿中的種子,并預測種子是否發(fā)芽[3]。馬佳佳等提出了1 種基于機器視覺的花生種子外觀品質(zhì)檢測與分類方法,利用支持向量機(Support Vector Machine,SVM)實現(xiàn)了花生種子的12 個類別分類[4]。祝保林對小桐子種子圖像進行圖像預處理與特征參數(shù)提取,利用結(jié)合粒子群算法的SVM 分類模型對小桐子種子實現(xiàn)了分類[5]。楊云紅等將CNN_SVM 模型與其他10 種混合模型進行比較,證明CNN_SVM模型在提高水稻種子圖像識別的正確率和縮短識別時間上面都具有很強的優(yōu)勢[6]。
本文利用多光譜成像技術(shù)采集茄子種子表型特征參數(shù),結(jié)合SVM、CNN 算法對茄子種子進行發(fā)芽率預測。以期為茄子種子發(fā)芽率的檢測提供1 種高效、快速和無損的檢測方法。
1.1 試驗材料
本文選用河北農(nóng)業(yè)大學蔬菜育種實驗室的茄子種子進行試驗,用種子培養(yǎng)箱對種子進行水培,以便后期觀察種子發(fā)芽狀態(tài)。將培養(yǎng)箱溫度設置為25 ℃,光照強度設置為800 lx,濕度設置為相對空氣濕度90%,培養(yǎng)環(huán)境符合茄子種子發(fā)芽的最適條件[7]。試驗共分為7 組進行,每組培養(yǎng)48 粒種子,每組種子如圖1 擺放以便進行圖像采集。將每一組種子進行編號記錄并采集原始種子圖像,然后將編號后的種子分別裝于培養(yǎng)袋中,放置培養(yǎng)箱中進行水培。茄子種子一般發(fā)芽周期為7 d 到14 d[8],分別在種子培養(yǎng)后第7 天至第14 天進行圖像采集,記錄茄子種子出芽情況。
圖1 圖像Fig. 1 Image
1.2 試驗設備
為了快速實現(xiàn)對茄子種子的外觀進行圖像采集并實現(xiàn)經(jīng)濟性的要求,本試驗搭建了如圖2 所示的多光譜成像系統(tǒng)。本系統(tǒng)的主體為五通道多光譜相機(FS3200T-10GE-NNC,JAI),其可以同時獲得RGB 圖像和2 個不同波段的近紅外圖像。此相機帶有3 個1/1.8 英寸CMOS 成像器,相機具有3.45 μm×3.45 μm 像素尺寸,支持近紅外通道。本相機的近紅外波段在700~1 000 nm 之間,該波段呈現(xiàn)的圖像可以很好地呈現(xiàn)種子的表型信息。本文利用此多光譜成像系統(tǒng)對336 個茄子種子樣品進行圖像采集(如圖1a,b,c 所示)。
圖2 系統(tǒng)結(jié)構(gòu)Fig. 2 System structure
1.3 圖像預處理
多光譜相機采集的圖像是由多個單通道的灰度圖像組成,每張灰度圖像都具備自身的光譜響應特性。首先對未經(jīng)處理的圖像(如3a 所示)進行分割,將單例種子對應編號分割開來。對單粒種子的RGB圖像進行灰度化預處理(如圖3b 所示),為了圖像中種子和背景的差異更明顯,消除圖像中的陰影和一些噪音點,實現(xiàn)穩(wěn)定的特征識別效果,方便圖像的分割處理[9]。然后將灰度圖像進行濾波處理,以蹭強圖像的質(zhì)量。圖像在經(jīng)過濾波處理后噪點減少,而且能夠較好地保留種子邊緣信息。最后為實現(xiàn)圖像二值化運用Otsu 閾值分割算法,取1 個最優(yōu)閾值處理圖像,將圖像中種子與背景分為前景與背景,以此實現(xiàn)有效地分割圖像[10]。通過圖像形態(tài)學處理,采用面積閾值可剔除誤分割區(qū)域,再結(jié)合孔洞填充算法,完成茄子種子與背景的分割,形成的二值圖像如圖3c 所示。針對樣本小帶來的泛化能力不足問題,由于茄子種子樣本擺放位置的隨機性,本試驗采用圖像旋轉(zhuǎn)(90°、180°、270°)對圖像進行擴增。
圖3 種子圖像Fig. 3 Seed image
1.4 數(shù)據(jù)處理
1.4.1 表型特征提取 利用圖像處理等相關方法對種子表型特征數(shù)據(jù)進行提取,分別對茄子種子圖像的形狀以及顏色特征進行了提取分析。分別提取了每一粒種子的面積、周長、長軸、短軸、當量直徑等形狀特征參數(shù),紅、綠、藍、色調(diào)、飽和度和明度等特征,取每一粒種子19 個變量的平均值作為表型信息特征值。
1.4.2 數(shù)據(jù)預處理 由于不同變量通常具有不同的單位,不同單位會使后續(xù)的實際分析處理發(fā)生困難,為了消除變量的量綱影響和變量本身的數(shù)值、差異大小的影響,故需要對數(shù)據(jù)進行標準化[11]。本文利用The Unscramble X 10.4對數(shù)據(jù)進行標準化處理,選用的處理方法為最大-最小標準化(公式1)。
式中Y是標準化結(jié)果,X是各變量算術(shù)平均值,Xmin是變量最小值,Xmax是變量最大值。
1.4.3 數(shù)據(jù)降維 主成分分析和連續(xù)投影算法。首先將光譜數(shù)據(jù)預處理,然后進行降維處理,使用主成分分析和連續(xù)投影算法處理光譜數(shù)據(jù),提取其中特征波段,可以使用少量的新的變量代替預處理后的變量,從而達到數(shù)據(jù)降維的目的。
連續(xù)投影算法(Successive Projections Algorithm,SPA)是1 種使矢量空間共線性最小化的前向變量選擇算法,其原理就是依據(jù)波長的長度進行變量篩選,即將波段信息通過數(shù)學變換在其他波長信息上進行投影,篩選出投影最大的波段信息作為特征波段選取下來[12]。它通過提取全部數(shù)據(jù)的幾個特征,以消除原始數(shù)據(jù)中多余的重復信息,對于特征數(shù)據(jù)的篩選有很好的效果[13]。本試驗利用SPA 提取了10 個特征變量,消除了原始數(shù)據(jù)中冗余信息,提取的變量能夠代替原始變量的大量信息。
主成分分析(Principal Component Analysis,PCA)是通過分析原始的所有變量,找到重復的變量將其刪去,建立更少的互不相關的新變量,這些新變量盡可能包括原有的信息,代替原始信息[14-15]。在很多時候,變量之間是有一定的相關關系的,當2 個變量之間有一定關系時,可以解釋為這2 個變量反映的信息有一定的重疊。為了降低數(shù)據(jù)復雜性,本試驗用SPSS對數(shù)據(jù)進行了主成分分析。
1.5 機器學習模型 SVM 是1 種線性分類器,用于處理2 類分類問題,依據(jù)SRM 原則構(gòu)建最優(yōu)分類超平面作為該分類器的判別面。通過核函數(shù)將樣本集投影到高維線性空間中,在該空間中隨機產(chǎn)生1個超平面并不斷移動對樣本集進行分類,直至不同類別的樣本點正好位于該超平面的兩側(cè),能對分類問題提供良好的泛化能力[16]。
CNN 模型一共有 24 層,其中分為輸入層、卷積層、批量歸一化層、激活層、池化層、全連接層和 Softmax 函數(shù)。其中卷積層是實現(xiàn)卷積神經(jīng)網(wǎng)絡特征提取功能的核心,相當于特征提取器,池化層能夠壓縮數(shù)據(jù)和參數(shù)的量,提取出圖像中的重要特征,進而壓縮圖片[17]。全連接層的輸入是將卷積層和池化層提取的特征進行加權(quán),將特征空間通過線性變換映射到樣本標記空間[18]。
本試驗中CNN 模型(如圖4 所示)的輸入層為像素大小是 50×50 的5 通道茄子種子圖像。
圖4 卷積神經(jīng)網(wǎng)絡模型Fig. 4 Convolutional neural network model
此網(wǎng)絡中一共有3 個卷積塊,每個卷積塊都有卷積層和激活層,卷積核大小統(tǒng)一設置為 3×3,卷積層采用零填充,激活層采用ReLU 激活函數(shù)[19]。最大池化層和 Softmax 函數(shù)都被應用在網(wǎng)絡中,最大池化層的優(yōu)點是能最大程度減輕過擬合[20]。經(jīng)過模型的調(diào)優(yōu),最大訓練輪數(shù)設定為50 次,學習率設為 0.000 1。
2.1 基于SVM 預測結(jié)果
基于多光譜圖像的一維數(shù)據(jù),本文采用2 種數(shù)據(jù)降維方法,建立了SVM 模型。采用sk_learn 將原始數(shù)據(jù)按7∶3 劃分為訓練集和測試集。
2.1.1 基于PCA 預處理預測結(jié)果 利用PCA 方法,本文以原始數(shù)據(jù)50%的綜合變量代表原始變量。此試驗選取10 個主成分,這10 個主成分能代表原始數(shù)據(jù)99%以上的信息,圖5 列出了經(jīng)PCA 提取的10 個主成分的貢獻率。表1 為此方法建立的SVM分類結(jié)果,訓練集準確率為76.79%,測試集準確率為70.71%。
表1 PCA+SVM 模型準確率Table 1 Accuracy of PCA+SVM model
圖5 主成分貢獻率Fig. 5 Principal component contribution rate
2.1.2 基于SPA 預處理預測結(jié)果 利用SPA 對原始數(shù)據(jù)進行降維處理,為了獲得模型的最優(yōu)效果,將算法的最小特征數(shù)設置為0,最大特征數(shù)設置為20。最終經(jīng)過模型的自動調(diào)優(yōu),提取10 個特征變量。所選取的特征變量用來建立SVM 分類模型,其訓練集準確率為74.68%,測試集準確率為71.71%。表2為經(jīng)SPA 降維后的SVM 模型結(jié)果。
表2 SPA+SVM 模型準確率Table 2 SPA+SVM model accuracy
2.2 基于CNN 預測結(jié)果
本試驗利用CNN 算法對茄子種子進行發(fā)芽率預測,運用CNN 模型訓練五通道原始多光譜圖像,從而探索無損預測種子發(fā)芽力的可行性。利用sk_learn 將336 個樣本照片隨機劃分為80%的訓練集和20%的驗證集,得到266 個訓練集,66 個驗證集。為因數(shù)據(jù)量帶來的模型泛化能力不足的問題,本試驗利用圖像旋轉(zhuǎn)將訓練集圖像進行擴增,最終得到1 064 個訓練樣本。此CNN 模型進行了10 600 次迭代,每50 次進行1 次驗證。最終CNN 模型的訓練集準確率為91.6%,驗證集準確率為84.3%,訓練過程中的準確率和損失率如圖6 所示:
圖6 CNN 模型訓練準確率和損失率Fig. 6 Training accuracy and Loss ratio of CNN model
本試驗利用多光譜圖像結(jié)合機器學習評估種子發(fā)芽率,實現(xiàn)了用機器代替人工對種子發(fā)芽與不發(fā)芽進行準確分類。本文對比了五通道多光譜圖像結(jié)合深度學習與種子的一維表型特征數(shù)據(jù)結(jié)合機器學習對種子發(fā)芽率的預測效果。首先提取種子5 個通道的平均灰度值、種子寬度、面積等19 個表型特征參數(shù),經(jīng)過標準化預處理后結(jié)合PCA 與SPA 進行降維分析,后采用SVM 建立發(fā)芽種子與不發(fā)芽種子的分類模型,2 種降維算法所建立的SVM 模型分類準確率均達到70%以上。其次采用CNN 模型建立了基于未經(jīng)處理原始種子的多光譜圖像的種子深度學習分類模型,模型訓練集準確率為91.6%,驗證集的準確率為84.3%。證明在種子發(fā)芽率的預測中,五通道多光譜圖像與深度學習結(jié)合的有效性,深度學習結(jié)合五通道多光譜圖像可以更快速、更高效地實現(xiàn)種子發(fā)芽率的預測。CNN 通過對種子原始圖像的特征提取要比人為進行種子表型特征的提取更加全面、更加具有代表性。本文通過機器學習結(jié)合多光譜成像技術(shù)實現(xiàn)了茄子種子發(fā)芽率的預測,可為茄子種子加工提供了1 種無損、高通量的研究方法。