孫孟研, 王 佳, 馬 睿, 代東南, 劉 起, 穆春華, 馬德新
(青島農(nóng)業(yè)大學(xué)1,青島 266109) (山東省農(nóng)業(yè)科學(xué)院玉米研究所2,濟(jì)南 250100)
玉米是主要的農(nóng)作物之一,也是工業(yè)生產(chǎn)中重要的原材料。近年來(lái),玉米育種技術(shù)快速發(fā)展,導(dǎo)致品種數(shù)量迅速增長(zhǎng),種子市場(chǎng)由于大量假冒偽劣種子的出現(xiàn)而混亂,因此,探索出一種識(shí)別效率高的品種識(shí)別方法十分必要。
隨著農(nóng)業(yè)信息化的發(fā)展,大量的計(jì)算機(jī)技術(shù)在農(nóng)業(yè)中得到了應(yīng)用。特別是神經(jīng)網(wǎng)絡(luò)概念提出后,深度學(xué)習(xí)由此開(kāi)始[1];隨后AlexNet取得重大突破,以超對(duì)手15.2%的優(yōu)勢(shì)獲得桂冠[2]。Yann等[3]進(jìn)一步明確了什么是深度學(xué)習(xí)并指出了深度學(xué)習(xí)的定義。與傳統(tǒng)的機(jī)器學(xué)習(xí)相比,深度學(xué)習(xí)能更有效地提取農(nóng)業(yè)領(lǐng)域圖像中的特征,識(shí)別效率也遠(yuǎn)高于傳統(tǒng)的機(jī)器學(xué)習(xí)方法。農(nóng)作物籽粒的品種識(shí)別是深度學(xué)習(xí)在農(nóng)業(yè)應(yīng)用領(lǐng)域中的一個(gè)重要方面[4-6]。Tu等[7]基于遷移學(xué)習(xí)VGG16對(duì)品種京科968進(jìn)行識(shí)別,最終在測(cè)試集上的準(zhǔn)確率能達(dá)到98%。王佳等[8]基于遷移學(xué)習(xí)選用5個(gè)網(wǎng)絡(luò)模型進(jìn)行測(cè)試,結(jié)果表明,ResNet的網(wǎng)絡(luò)性能最高,在雙面混合數(shù)據(jù)集上能達(dá)到99.91%。馬睿等[9]采用ResNet等4個(gè)網(wǎng)絡(luò)模型提出了基于遷移學(xué)習(xí)與CNN相結(jié)合的方法,對(duì)6個(gè)玉米品種的籽粒圖像進(jìn)行識(shí)別,結(jié)果表明,Xception的網(wǎng)絡(luò)性能最高,在胚乳面數(shù)據(jù)集上識(shí)別準(zhǔn)確率能達(dá)到95.55%。王玉亮[10]開(kāi)發(fā)了玉米種子品種識(shí)別系統(tǒng)并提出多對(duì)象輪廓提取算法,對(duì)4個(gè)玉米品種的數(shù)據(jù)集進(jìn)行測(cè)試,結(jié)果表明,該算法的最高準(zhǔn)確率能達(dá)到100%。劉林[11]提出了基于深度學(xué)習(xí)的玉米品種識(shí)別方法,制作了登海518等3個(gè)品種的數(shù)據(jù)集,利用深度學(xué)習(xí)框架搭建了基于遷移學(xué)習(xí)的VGG19等3個(gè)網(wǎng)絡(luò)模型,結(jié)果表明,3個(gè)網(wǎng)絡(luò)模型的識(shí)別準(zhǔn)確率均達(dá)到了99%。王佳等[12]以登海605品種為例,對(duì)VGG16采用不同的策略進(jìn)行微調(diào),結(jié)果表明,模型在3類數(shù)據(jù)集上的準(zhǔn)確率都能達(dá)到100%。徐巖等[13]選取登海518等3個(gè)品種建立數(shù)據(jù)集,基于Keras深度學(xué)習(xí)框架建模,結(jié)果表明,在3類玉米品種上的平均識(shí)別準(zhǔn)確率高達(dá)95.49%。呂夢(mèng)棋等[14]基于殘差網(wǎng)絡(luò)進(jìn)行建模,結(jié)果表明,優(yōu)化后的ResNet網(wǎng)絡(luò)模型對(duì)種子的識(shí)別準(zhǔn)確率最高能達(dá)到96.4%。
本研究采用相機(jī)采集了胚面和胚乳面的雙面混合圖像并建立起數(shù)據(jù)集,基于VGG16[15]并對(duì)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行輕量化處理,僅保留6個(gè)卷積層,6個(gè)池化層,并在第1個(gè)和第2個(gè)卷積層后面引入注意力機(jī)制——SE模塊,為了防止梯度爆炸或梯度消失以及減少過(guò)擬合發(fā)生的概率,在SE模塊后面加入BN層[16]。通過(guò)對(duì)VGG16進(jìn)行輕量化處理的方式建立起玉米籽粒品種識(shí)別模型,該方法簡(jiǎn)單高效、訓(xùn)練成本低且準(zhǔn)確率高,為玉米品種的快速識(shí)別和保護(hù)提供了參考。
VGG16卷積神經(jīng)網(wǎng)絡(luò)該模型結(jié)構(gòu)簡(jiǎn)單,主要由卷積層、池化層[17]等組成。與傳統(tǒng)機(jī)器學(xué)習(xí)算法不同,CNN能自動(dòng)學(xué)習(xí)到各層特征并應(yīng)用于圖像分類。卷積層的作用是在不改變圖像大小的情況下提取圖像中特征,主要實(shí)現(xiàn)降維處理和提取特征的目的。圖像在經(jīng)過(guò)卷積處理后,下一步進(jìn)行池化操作。通過(guò)重復(fù)堆疊卷積層和池化層來(lái)實(shí)現(xiàn)輸入數(shù)據(jù)的空間映射。而全連接層起的作用則是將前面各層提取到的特征進(jìn)行加權(quán)合并,以實(shí)現(xiàn)對(duì)玉米籽粒圖像的最終分類。
標(biāo)準(zhǔn)的卷積操作以channel為基本單元對(duì)圖進(jìn)行特征提取,但難以捕獲特征圖通道之間的關(guān)系信息。為了補(bǔ)充這部分信息,Hu等[18]提出了SE模塊。該模塊結(jié)構(gòu)簡(jiǎn)單,易于操作,能夠很容易地嵌入到現(xiàn)有的主流卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中。SE模塊主要是學(xué)習(xí)了channel之間的相關(guān)性,篩選出針對(duì)通道的注意力,提高網(wǎng)絡(luò)性能。
SE模塊可以實(shí)現(xiàn)注意力機(jī)制的原因一是采用全連接,二是相乘特征融合。一個(gè)SE模塊主要由Squeeze、Excitation兩部分組成,詳細(xì)結(jié)構(gòu)如圖1所示。W表示特征圖的寬,H表示特征圖的高,C表示channel的數(shù)量,輸入特征圖的大小為W×H×C。第一步操作為Squeeze[19]。使用全局平均池化進(jìn)行Squeeze操作將全局空間信息壓縮到信道描述符中。從形式上來(lái)說(shuō),統(tǒng)計(jì)量z∈RC是通過(guò)收縮U(每一層輸入通過(guò)卷積操作得到的輸出)的空間維度H×M所形成的,對(duì)于z的第c個(gè)元素進(jìn)行計(jì)算。
圖1 擠壓激勵(lì)模塊
為了利用squeeze操作中聚合的信息,在Squeeze操作后執(zhí)行Excitation[20]操作。為了限制模型的復(fù)雜性并幫助通用,excitation模塊會(huì)在非線性周圍形成一個(gè)由兩個(gè)完全連接層組成的瓶頸來(lái)參數(shù)化選通機(jī)制,即一個(gè)降維比為R的降維層,一個(gè)ReLU,然后是一個(gè)回到轉(zhuǎn)換輸出U的通道維數(shù)的升維層。特征向量Z輸入到excitation模塊中,進(jìn)行計(jì)算:
s=Fex(z,W)=σ[g(z,W)]=σ[W2δ(W1Z)]
(2)
VGG16的網(wǎng)絡(luò)模型較為簡(jiǎn)單,也具有很強(qiáng)的擬合能力,但是模型擁有的參數(shù)數(shù)量較多,這代表著必須具有足夠大的容量才能夠?qū)GG16進(jìn)行存儲(chǔ)和訓(xùn)練。較大的體積不僅不有利于在服務(wù)器上進(jìn)行部署,而且訓(xùn)練模型所需的較長(zhǎng)時(shí)間也加劇了調(diào)整模型超參數(shù)的困難程度。基于這些問(wèn)題,本文對(duì)VGG16原有的網(wǎng)絡(luò)模型進(jìn)行輕量化處理。處理后的模型由6個(gè)卷積層、6個(gè)池化層以及2個(gè)全連接層組成,并在第1個(gè)卷積和第2個(gè)卷積后面加入注意力機(jī)制——SE模塊,并在SE模塊后面加入了批量規(guī)范化層[21],新提出的網(wǎng)絡(luò)模型記為L(zhǎng)-SE-VGG,網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
圖2 L-SE-VGG網(wǎng)絡(luò)結(jié)構(gòu)圖
本文提出的L-SE-VGG與原有的VGG16相較,減少了卷積層的數(shù)目,使網(wǎng)絡(luò)結(jié)構(gòu)更加簡(jiǎn)潔,而且卷積層的減少也帶來(lái)了卷積核數(shù)量的減少。雖然精簡(jiǎn)網(wǎng)絡(luò)結(jié)構(gòu)后的L-SE-VGG提取到的特征數(shù)量相較于VGG16較少,但是對(duì)于樣本之間具有較小特征差異的玉米籽粒圖像所取得的識(shí)別效果較好。
選取5個(gè)品種的玉米籽粒進(jìn)行識(shí)別研究,在照片拍攝之前,先由人工從眾多玉米籽粒中挑出色澤度較好、外形飽滿且完整無(wú)缺的玉米種子,為拍攝工作做準(zhǔn)備。選用品種的詳細(xì)數(shù)量以及產(chǎn)地如表1所示。在實(shí)驗(yàn)室自然光照條件下使用EOS80D型相機(jī)拍攝在黑色植絨布上擺放好的玉米種子,詳細(xì)情況如圖3所示。
表1 玉米籽粒(雙面混合)數(shù)據(jù)集
圖3 多粒玉米籽粒圖像
本實(shí)驗(yàn)拍攝的是一張照片中含有多個(gè)玉米籽粒的圖片,但最終進(jìn)行品種識(shí)別的是單個(gè)玉米籽粒。因此需對(duì)圖像進(jìn)行處理。主要步驟包括對(duì)多籽粒圖像進(jìn)行二值化處理,再利用輪廓檢測(cè)算法提取單個(gè)玉米籽粒的輪廓;最終利用Python OpenCV 畫(huà)框切割算法提取單粒玉米圖像。圖像處理過(guò)程如圖4所示。
圖4 圖像處理過(guò)程圖
本實(shí)驗(yàn)基于Tensorflow平臺(tái),采用Keras深度學(xué)習(xí)框架,使用Jupyter在GoogLeColabotory平臺(tái)上搭建網(wǎng)絡(luò)模型。具體參數(shù)配置如表2所示。
表2 實(shí)驗(yàn)詳細(xì)超參數(shù)
針對(duì)樣本小帶來(lái)的模型泛化能力不足等問(wèn)題,采用隨機(jī)旋轉(zhuǎn),水平方向平移、翻轉(zhuǎn)等操作增加訓(xùn)練集的數(shù)量,經(jīng)過(guò)一系列操作后使現(xiàn)有的訓(xùn)練集數(shù)量是未進(jìn)行數(shù)據(jù)增強(qiáng)之前的7倍。對(duì)驗(yàn)證集和測(cè)試集只進(jìn)行歸一化操作,經(jīng)過(guò)數(shù)據(jù)增強(qiáng)操作后,能夠提高模型的準(zhǔn)確率,增強(qiáng)模型的識(shí)別能力。
采用召回率、準(zhǔn)確率、精確率、F1分?jǐn)?shù)和混淆矩陣作為模型性能評(píng)價(jià)指標(biāo)。
式中:TP為實(shí)際為正被預(yù)測(cè)為正的樣本數(shù)量;FP為實(shí)際為負(fù)但被預(yù)測(cè)為正的樣本數(shù)量;FN為實(shí)際為正但被預(yù)測(cè)為負(fù)的樣本數(shù)量;TN為實(shí)際為負(fù)被預(yù)測(cè)為負(fù)的樣本數(shù)量。
為了探究引入注意力模塊數(shù)量對(duì)模型準(zhǔn)確率的影響,本實(shí)驗(yàn)設(shè)計(jì)了一組消融實(shí)驗(yàn),SE模塊添加的位置均在卷積層后面。例如,SE×1代表在第1個(gè)卷積層后面添加SE模塊,SE×2代表在第1個(gè)和第2個(gè)卷積層后面分別添加SE模塊,以此類推。消融實(shí)驗(yàn)結(jié)果如表3所示。
表3 消融實(shí)驗(yàn)結(jié)果
由表3所示,SE模塊的數(shù)量對(duì)模型準(zhǔn)確率影響很大。在前2個(gè)卷積層后面加SE模塊時(shí),模型的準(zhǔn)確率高達(dá)98.86%,而如果在前4個(gè)卷積層后面加SE模塊的情況下,模型準(zhǔn)確率只有75%,遠(yuǎn)低于未預(yù)訓(xùn)練的VGG16和遷移學(xué)習(xí)VGG16的準(zhǔn)確率。通過(guò)消融實(shí)驗(yàn),本實(shí)驗(yàn)確定了只在前2個(gè)卷積引入SE模塊,這樣不僅能簡(jiǎn)化網(wǎng)絡(luò)架構(gòu),而且在減少模型計(jì)算參數(shù)數(shù)量的情況下提升了準(zhǔn)確率,節(jié)約了計(jì)算時(shí)間和成本。
使用測(cè)試數(shù)據(jù)集對(duì)L-SE-VGG模型進(jìn)行評(píng)估,圖5為L(zhǎng)-SE-VGG在測(cè)試數(shù)據(jù)集中對(duì)玉米籽粒品種識(shí)別的混淆矩陣。在KENUO品種上有1個(gè)識(shí)別錯(cuò)誤的圖像,被識(shí)別成了XJH;在TIEYAN品種上也有1個(gè)被識(shí)別錯(cuò)誤的圖像,也被錯(cuò)誤的識(shí)別成了XJH。這是因?yàn)镵ENUO和TIEYAN與XJH之間顏色非常接近,單憑肉眼很難去區(qū)分,而且這幾個(gè)品種之間的差異十分細(xì)微。L-SE-VGG在測(cè)試數(shù)據(jù)集上的其他評(píng)價(jià)指標(biāo)如表4所示。
圖5 L-SE-VGG混淆矩陣
表4 L-SE-VGG其他評(píng)價(jià)指標(biāo)
在測(cè)試數(shù)據(jù)集中,本研究所提出的L-SE-VGG對(duì)玉米籽粒品種的識(shí)別效果非常好。從單個(gè)品種的識(shí)別效果看出,該模型對(duì)5個(gè)玉米籽粒品種的識(shí)別準(zhǔn)確率高于98.87%,精準(zhǔn)率高于95.45%,召回率高于97.05%,F1分?jǐn)?shù)高于97.12%。以登海605和16DX531這2個(gè)品種為例,準(zhǔn)確率、精準(zhǔn)率、召回率、F1分?jǐn)?shù)均都達(dá)到100.00%。表明本研究提出的L-SE-VGG模型能夠非常精準(zhǔn)的識(shí)別測(cè)試集中的每個(gè)品種的玉米籽粒圖像,為農(nóng)業(yè)上的品種識(shí)別提供了很大的便利。
圖6描述了未預(yù)訓(xùn)練VGG、遷移學(xué)習(xí)TL-VGG、不加SE模塊L-VGG以及L-SE-VGG對(duì)雙面混合數(shù)據(jù)集進(jìn)行品種識(shí)別完成100輪的訓(xùn)練集上準(zhǔn)確率的變化。由圖6可知,未預(yù)訓(xùn)練VGG16模型準(zhǔn)確率不僅上升速度慢,而且收斂能力也較弱。而L-SE-VGG與不加SE模塊的L-VGG相比可明顯看出加SE模塊的L-SE-VGG在迭代10輪后就能達(dá)到接近90%的準(zhǔn)確率,收斂速度也明顯快于L-VGG,這證明了在經(jīng)過(guò)輕量化處理后的VGG16里加SE模塊的可行性。通過(guò)模型之間的對(duì)比,證明了本研究提出的L-SE-VGG模型能準(zhǔn)確提取到玉米籽粒圖像的特征并進(jìn)行高效品種識(shí)別。
圖6 不同模型的準(zhǔn)確率對(duì)比
為了進(jìn)一步評(píng)估本實(shí)驗(yàn)使用的模型,引入總體準(zhǔn)確率,Kappa系數(shù)和模型大小作為評(píng)價(jià)指標(biāo),評(píng)價(jià)結(jié)果如表5所示。
表5 不同模型定量評(píng)價(jià)結(jié)果
L-SE-VGG取得了最高總體準(zhǔn)確率和Kappa系數(shù),比VGG16準(zhǔn)確率增加4.54%,Kappa系數(shù)增加0.057 8,并優(yōu)于其他3種模型。對(duì)比未預(yù)訓(xùn)VGG16和遷移學(xué)習(xí)TL-VGG,L-SE-VGG模型大小明顯要小很多,與不加SE模塊的L-VGG相比只多了4MB,說(shuō)明L-SE-VGG在提高模型準(zhǔn)確率的同時(shí)并沒(méi)有顯著增加模型的大小,也代表了這個(gè)輕量化的L-SE-VGG模型適合在移動(dòng)端的部署。
因此,通過(guò)對(duì)不同模型在測(cè)試數(shù)據(jù)集上的綜合比較可知,本文提出的L-SE-VGG能準(zhǔn)確識(shí)別玉米籽粒品種,為玉米籽粒品種識(shí)別提供了一種客觀準(zhǔn)確,高效無(wú)損且適合移動(dòng)端部署的模型構(gòu)建方法。
3.4.1 不同玉米品種的可視化
通過(guò)對(duì)卷積層特征的直觀分析,有助于了解卷積神經(jīng)網(wǎng)絡(luò)輸入的轉(zhuǎn)化過(guò)程,理解卷積神經(jīng)網(wǎng)絡(luò)各個(gè)濾波器的含義。5個(gè)品種玉米種子特征在不同卷積層中的可視化如圖7所示。在第一層可以比較清晰地看到玉米籽粒的完整形態(tài)。隨著層數(shù)的加深,激活逐漸變得抽象起來(lái),這代表著層數(shù)越深,從特征圖里提取到的視覺(jué)內(nèi)容信息就越少,而能提取到玉米品種類別的信息就越多。
圖7 不同玉米品種的可視化
3.4.2 卷積層的視覺(jué)比較
卷積神經(jīng)網(wǎng)絡(luò)提取的特征是判別性的特征,可以忽略玉米種子圖像中不相關(guān)的背景,只提取關(guān)鍵的特征信息。通過(guò)可視化這些信息,可以清楚地知道網(wǎng)絡(luò)在訓(xùn)練過(guò)程中是怎樣“看待”輸入的圖像并識(shí)別有效內(nèi)容的。特征可視化對(duì)我們深入理解神經(jīng)網(wǎng)絡(luò)的特征學(xué)習(xí)機(jī)制起著非常重要的作用,它直觀清晰,細(xì)節(jié)豐富。通過(guò)比較L-SE-VGG16和VGG16的卷積層特征圖(如圖8所示),可以直觀的看出L-SE-VGG16提取的特征比VGG16更加復(fù)雜,傳統(tǒng)的VGG16提取的特征大多數(shù)為玉米種子的簡(jiǎn)單外部輪廓,而L-SE-VGG16不僅提取了更詳細(xì)的輪廓特征,還包含更多的依靠人肉眼難以辨別的細(xì)微的紋理特征,可以清楚地看到玉米種子的具體紋理,特征提取更深刻,細(xì)節(jié)更豐富。
圖8 卷積層的視覺(jué)比較
本研究對(duì)VGG16進(jìn)行輕量化處理,提出了卷積神經(jīng)網(wǎng)絡(luò)與注意力機(jī)制相結(jié)合的新的玉米籽粒品種識(shí)別模型L-SE-VGG。該模型對(duì)5個(gè)玉米品種籽粒圖像的平均識(shí)別準(zhǔn)確率和精確率分別為99.54%和99.09%,在登海605和16DX531這2個(gè)品種上的準(zhǔn)確率均達(dá)到了100%,除小金黃這一品種之外其他4個(gè)品種的精確率均為100%。與對(duì)比試驗(yàn)中未預(yù)訓(xùn)練VGG、遷移學(xué)習(xí)VGG以及不加SE模塊的L-VGG模型相比,L-SE-VGG在各項(xiàng)評(píng)價(jià)指標(biāo)上都具有很明顯的優(yōu)勢(shì)。
L-SE-VGG能夠?yàn)橛衩鬃蚜F贩N的識(shí)別提供更先進(jìn)的技術(shù)方案,為進(jìn)一步實(shí)現(xiàn)簡(jiǎn)單高效、精確無(wú)損的玉米籽粒品種識(shí)別提供參考。在今后的工作進(jìn)程中,準(zhǔn)備采集更多品種的玉米籽粒圖像來(lái)進(jìn)一步豐富現(xiàn)有的數(shù)據(jù)集,并對(duì)拍攝背景進(jìn)行改進(jìn),不再局限于黑色植絨布料,采集背景更加復(fù)雜多變的玉米籽粒圖像,為進(jìn)一步探索新的玉米籽粒品質(zhì)識(shí)別算法提供數(shù)量多且品種豐富的數(shù)據(jù)基礎(chǔ);并將繼續(xù)探索使用新的算法對(duì)模型進(jìn)行創(chuàng)新,用目標(biāo)檢測(cè)算法實(shí)現(xiàn)玉米的定位檢測(cè)與識(shí)別,將訓(xùn)練得到的模型部署在移動(dòng)端上應(yīng)用于實(shí)際場(chǎng)合。