趙威, 馬睿, 王佳, 郭宏杰, 許金普
(青島農(nóng)業(yè)大學(xué)動(dòng)漫與傳媒學(xué)院,山東 青島 266109)
玉米不僅是我國重要的糧食和經(jīng)濟(jì)作物,還是畜牧和水產(chǎn)養(yǎng)殖的飼料來源,同時(shí)也是重要的輕工業(yè)原料之一。近年來,假冒偽劣種子在市場的流通不但給農(nóng)民造成經(jīng)濟(jì)損失,而且給育種企業(yè)造成了不良影響。為保護(hù)玉米種質(zhì)資源的知識(shí)產(chǎn)權(quán)、維護(hù)種子市場秩序,急需開發(fā)玉米品種快速鑒別方法[1]。傳統(tǒng)的玉米品種檢測方法主要是人工鑒定[2]、遺傳學(xué)分析[3]和光譜掃描[4],這些方法存在成本高、耗時(shí)長、專業(yè)性強(qiáng)等問題。玉米果穗相較于籽粒具有更為豐富的表型,且不同品種間存在不同程度的特征差異。利用機(jī)器視覺和深度學(xué)習(xí)技術(shù)對(duì)果穗進(jìn)行識(shí)別,不但可以快速、有效地鑒別出假冒偽劣品種,還可以提高玉米果穗篩選的準(zhǔn)確性,節(jié)省勞動(dòng)力,因此,相關(guān)研究逐漸成為近年來的研究熱點(diǎn)。
傳統(tǒng)的機(jī)器學(xué)習(xí)利用已有的數(shù)據(jù)或以往的經(jīng)驗(yàn),需要在人工干預(yù)下才能做出決策和預(yù)測[5];而深度學(xué)習(xí)(deep learning,DL)是通過深層卷積網(wǎng)絡(luò)提取特征、無需通過人工設(shè)置特征提取的方法[6],具有高效、無損、客觀等優(yōu)點(diǎn)。馬睿等[7]提出了基于卷積神經(jīng)網(wǎng)絡(luò)的玉米品種識(shí)別算法,對(duì)6種玉米平均識(shí)別率達(dá)到92%以上。馮曉等[8]、劉林[9]均采用遷移學(xué)習(xí)構(gòu)建玉米籽粒圖像品種識(shí)別模型,使用小樣本玉米籽粒數(shù)據(jù)集進(jìn)行訓(xùn)練,均取得了較高的識(shí)別準(zhǔn)確率。Tu等[10]使用VGG16網(wǎng)絡(luò)進(jìn)行微調(diào)后的遷移學(xué)習(xí),對(duì)玉米籽粒圖像進(jìn)行識(shí)別和分類,最優(yōu)準(zhǔn)確率達(dá)99%以上。由此證明,遷移學(xué)習(xí)對(duì)小樣本數(shù)據(jù)具有較高的識(shí)別準(zhǔn)確率。胡艷俠[11]提出了采用大小、形狀、顏色和紋理四大特征組合的方法檢測識(shí)別玉米果穗品質(zhì)。但這些傳統(tǒng)的機(jī)器視覺技術(shù)對(duì)玉米果穗品種識(shí)別需人工提取特征。馬欽等[12]基于雙路卷積神經(jīng)網(wǎng)絡(luò)提供了一種玉米制種果穗篩分方法及裝置,可利用訓(xùn)練好的雙路卷積神經(jīng)網(wǎng)絡(luò)獲取玉米果穗圖像所對(duì)應(yīng)的玉米果穗種類。上述研究證明了深度學(xué)習(xí)技術(shù)運(yùn)用于玉米果穗分類識(shí)別的可行性。
目前,玉米品種分類識(shí)別主要基于玉米籽粒,而基于玉米果穗的品種分類識(shí)別研究相對(duì)較少。玉米果穗相較于玉米籽粒具有更加豐富的表型特征,因此,本文基于遷移學(xué)習(xí)技術(shù),在NASNetmobile[13]網(wǎng)絡(luò)模型的基礎(chǔ)上,通過設(shè)計(jì)全新的全連接層模塊構(gòu)建玉米果穗品種分類識(shí)別模型,并優(yōu)化模型的算法和學(xué)習(xí)率,以提高網(wǎng)絡(luò)模型訓(xùn)練階段的性能;同時(shí)利用數(shù)據(jù)增強(qiáng)和遷移學(xué)習(xí)技術(shù)解決樣本較少所帶來的問題,以期為玉米果穗的品種分類識(shí)別提供參考,同時(shí)為農(nóng)業(yè)種質(zhì)資源的保護(hù)和玉米產(chǎn)業(yè)健康發(fā)展提供保障。
玉米果穗圖像采集自山東省濰坊市密州種業(yè)有限公司的玉米留種果穗,共5個(gè)適合北方推廣的玉米組合,這5個(gè)組合的果穗憑人工目測難以區(qū)分。每個(gè)組合采集果穗100個(gè),每個(gè)果穗沿軸線旋轉(zhuǎn)180°后拍照2次,共計(jì)圖片1 000張。所有樣本均為健康、無損的玉米果穗,能較好地體現(xiàn)各玉米品種的果穗特征。
數(shù)據(jù)采集裝置如圖1所示。在實(shí)驗(yàn)室自然光照下采集玉米果穗圖像,以黑色絨布為背景,固定位置擺放玉米果穗,采用佳能EOS80D單反相機(jī)(1 800萬像素)進(jìn)行拍攝。
圖1 玉米果穗圖像采集裝置Fig.1 Image acquisition device for corn ear
通過旋轉(zhuǎn)、水平平移、垂直平移、錯(cuò)切、放縮、水平翻轉(zhuǎn)的方式對(duì)訓(xùn)練集進(jìn)行擴(kuò)增,從而避免了樣本集過小帶來的泛化能力差的問題,提高準(zhǔn)確性。對(duì)擴(kuò)增后的圖像依據(jù)玉米品種建立5個(gè)玉米果穗圖像數(shù)據(jù)集,將圖像按照7∶2∶1的比例劃分為訓(xùn)練集、驗(yàn)證集和測試集,具體情況詳見表1。
表1 玉米果穗數(shù)據(jù)集Table 1 Corn ear dataset
遷移學(xué)習(xí)通常使用ImageNet圖像數(shù)據(jù)集作為預(yù)訓(xùn)練數(shù)據(jù)集,訓(xùn)練好的權(quán)重和參數(shù)可直接遷移用于新的分類識(shí)別任務(wù)[14-15]。不同的網(wǎng)絡(luò)模型具有不同的特點(diǎn)[16]。選取NASNet-mobile、Xception[17]、ResNet50V2[18]、MobileNetV2[19]、DenseNet121[20]、VGG16[21]共6個(gè)網(wǎng)絡(luò)模型進(jìn)行對(duì)比,其中NASNetmobile模型的基線測試準(zhǔn)確率最高(表2),因此選取NASNet-mobile網(wǎng)絡(luò)用于后續(xù)分析。
表2 網(wǎng)絡(luò)模型基線測試準(zhǔn)確率Table 2 Baseline test accuracy of network models
將模型的全連接層模塊進(jìn)行設(shè)計(jì),保持卷積層不變,遷移已訓(xùn)練好的權(quán)重和參數(shù),從而組合成新的網(wǎng)絡(luò)模型,采用玉米果穗圖像訓(xùn)練新模型,具體流程如圖2所示。
圖2 基于CNN和參數(shù)遷移相結(jié)合的玉米果穗圖像識(shí)別流程Fig.2 Corn ear image recognition process based on CNN and parameter migration
NASNet網(wǎng)絡(luò)的構(gòu)建是新卷積單元之間的堆疊,其中卷積單元包括普通卷積單元(normal cell)和下采樣卷積單元(reduction cell)[13]。針對(duì)本文的小樣本數(shù)據(jù)集,以NASNet-mobile網(wǎng)絡(luò)模型為基礎(chǔ)進(jìn)行試驗(yàn)。網(wǎng)絡(luò)結(jié)構(gòu)(圖3)主要包括普通卷積單元、下采樣單元、全連接層模塊。普通卷積單元設(shè)置為重復(fù)4次,通過對(duì)2種單元進(jìn)行疊合完成網(wǎng)絡(luò)架構(gòu)。NASNet-mobile原始全連接層為特征映射的Softmax分類層,因此在遷移學(xué)習(xí)的基礎(chǔ)上修改全連接層(圖3中全連接層模塊),通過全連接層層數(shù)與全連接層維度的不同組合,探討其對(duì)模型性能的影響。
圖3 改進(jìn)全連接層的NASNet-mobile網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 Improving NASNet-mobile network structure of full connection layer
普通卷積單元的輸出特征圖和輸入特征圖尺寸相同;下采樣卷積單元的輸出特征圖對(duì)輸入特征圖進(jìn)行了1次降采樣,在Reduction Cell中,對(duì)使用輸入特征作為輸入的操作(卷積或者池化)默認(rèn)步長為2。修改后的全連接層模塊包括1個(gè)Flatten層和2個(gè)全連接層。其中Flatten層又稱平坦層,可把多維的輸入一維化;全連接層1與全連接層2均是維度為256的全連接層,每個(gè)全連接層后添加激活函數(shù)leaky_relu,該函數(shù)是在Relu激活函數(shù)的負(fù)半?yún)^(qū)間引入一個(gè)泄露(leaky)值,可使負(fù)軸的信息不會(huì)全部丟失。
采用Intel Core i7 12 700 Hz處理器,內(nèi)存16 Gb,顯卡為NVIDIA GeForce RTX 3080,顯存8 Gb,深度學(xué)習(xí)框架為TensorFlow 2.7.1,編程語言為Python 3.7.0。試驗(yàn)中全連接層激活函數(shù)選擇leaky_relu,失函數(shù)為categorical_crossentropy,學(xué)習(xí)率為0.000 1,迭代次數(shù)為120。選取Adagrad(Adaptive Gradient)、RMSporp(Root Mean Square prop)和Adam(Adaptive moment estimation)3種常見的算法進(jìn)行優(yōu)化試驗(yàn)。
為綜合評(píng)估模型性能,引入準(zhǔn)確率(accuracy)、精準(zhǔn)率(precision)、召回率(recall)、調(diào)和平均值(F1-score)等指標(biāo)對(duì)不同全連接層下模型的分類性能進(jìn)行量化。accuracy為所有被正確識(shí)別的樣本數(shù)占總樣本數(shù)的比例,它是一個(gè)常見且直觀的評(píng)價(jià)指標(biāo),但在樣本數(shù)量不平衡時(shí),其值更容易偏向數(shù)量較多的樣本。因此,本試驗(yàn)在構(gòu)建數(shù)據(jù)集時(shí),控制各數(shù)據(jù)集樣本量保持一致,避免出現(xiàn)上述問題。precision是衡量模型正確預(yù)測能力的指標(biāo),它代表了被正確預(yù)測的樣本數(shù)量占被預(yù)測成該類別總樣本數(shù)量的比重。recall又被稱為檢出率,它表示被正確預(yù)測的樣本數(shù)量占該類別總樣本數(shù)的比例。F1-score是結(jié)合precision和recall的綜合指標(biāo),其取值范圍是0~1,1代表模型的最優(yōu)輸出,0代表模型的最差輸出。各指標(biāo)計(jì)算公式如下。
式中,TP表示實(shí)際為正且被預(yù)測為正的樣本數(shù)量;FP表示實(shí)際為負(fù)但被預(yù)測為正的樣本數(shù)量;FN表示實(shí)際為正但被預(yù)測為負(fù)的樣本數(shù)量;TN為表示實(shí)際為負(fù)且被預(yù)測為負(fù)的樣本數(shù)量。
圖4為玉米果穗圖像預(yù)處理過程。對(duì)玉米果穗原始圖像(圖4A)進(jìn)行灰度化處理(圖4B);然后進(jìn)行閾值分割、二值化(圖4C)及雙邊濾波填充去噪、腐蝕膨脹修正邊緣等處理,去除圖像中的雜質(zhì);最后利用目標(biāo)區(qū)域與背景的灰度差異提取目標(biāo)果穗圖像(圖4D)。經(jīng)過處理后的圖像有效解決了顆粒、碎屑等噪聲的干擾,使模型能夠充分地提取玉米果穗圖像信息,提高了有效信息的檢測性,便于模型對(duì)特征的提取與學(xué)習(xí)。
圖4 玉米果穗圖像預(yù)處理Fig.4 Image preprocessing of corn ears
分析Adagrad、RMSporp和Adam優(yōu)化算法對(duì)模型訓(xùn)練階段的影響,結(jié)果如圖5所示。與RMSprop算法相比,使用Adam和Adagard算法顯著提升了模型的訓(xùn)練準(zhǔn)確率,且降低損失值;與Adagrad算法相比,Adam算法在模型訓(xùn)練階段準(zhǔn)確率和損失值的收斂速度更快,且振蕩幅度更小。故采用Adam算法作為玉米果穗品種分類識(shí)別研究的優(yōu)化算法,優(yōu)化模型的訓(xùn)練效果。
圖5 不同優(yōu)化算法下模型的訓(xùn)練曲線Fig.5 Training curves of models under different optimization algorithms
評(píng)估不同全連接層模塊下模型的性能,結(jié)果如表3所示。Bacth_size為32、全連接層層數(shù)為2層且維度為256時(shí),準(zhǔn)確率、精確率、召回率、調(diào)和平均值較其他參數(shù)分別提高3%~12%、2.79%~8.2%、2.9%~11.57%、3%~12%。由此表明,Bacth_size=32,全連接層層數(shù)為2層且維度為256時(shí),得到識(shí)別玉米果穗的最優(yōu)模型——NASNet-mobile-maize。
表3 不同全連接層模塊下模型性能評(píng)估Table 3 Model performance evaluation under different full connection layer modules
將調(diào)整了優(yōu)化算法和學(xué)習(xí)率的NASNet-mobile(NASNet-mobil-adjust)與NASNet-mobile-maize以及未調(diào)整的NASNet-mobile做對(duì)比,結(jié)果如圖6所示。NASNet-mobile-maize的訓(xùn)練和驗(yàn)證準(zhǔn)確率明顯高于NASNet-mobile和NASNet-mobil-adjust,且訓(xùn)練與驗(yàn)證曲線更為平滑,振蕩幅度更小,表明其訓(xùn)練效果更好;且NASNet-mobile-maize損失值的下降速度更快、更平滑,最終損失值也最低,說明其性能更強(qiáng)。
圖6 NASNet-mobile-maize訓(xùn)練與驗(yàn)證結(jié)果Fig.6 Results of NASNet-mobile-maize training and validation
NASNet-mobile-maize在不同品種玉米果穗識(shí)別任務(wù)中測試結(jié)果的評(píng)價(jià)指標(biāo)如表4所示?!\玉118’在測試時(shí)的精確率較低,說明容易與其他樣本混淆。‘薈玉18’在測試時(shí)的召回率較低,說明其樣本自身的特征不夠明顯;‘鐵研630’的所有指標(biāo)均為1.000 0,證明其具有明顯的品種特征,更易識(shí)別。
表4 NASNet-mobile-maize模型下不同品種玉米果穗測試結(jié)果的評(píng)價(jià)指標(biāo)Table 4 Evaluation indexes of ear test results of different varieties of maize under NASNet-mobile-maize model
圖7為NASNet-mobile-maize模型測試結(jié)果的混淆矩陣。該矩陣的每一行之和代表了該類樣本參與了模型測試的真實(shí)數(shù)量;每一列之和代表了被預(yù)測為該類樣本的樣本數(shù)量。其中,將某一類樣本預(yù)測為另一類別則被認(rèn)為是錯(cuò)誤識(shí)別;預(yù)測的樣本數(shù)量小于真實(shí)數(shù)量則被認(rèn)為產(chǎn)生了漏識(shí)別[22]。由圖7可知,‘錦玉118’產(chǎn)生了較多的錯(cuò)誤識(shí)別,其中‘薈玉18’和‘科諾58’各有2個(gè)樣本被識(shí)別為‘錦玉118’,說明這2個(gè)品種易與‘錦玉118’混淆?!浦Z58’有2個(gè)樣本漏識(shí)別,‘薈玉18’有1個(gè)樣本漏識(shí)別。5個(gè)品種的具體特征如圖8所示,其中黃色區(qū)域?yàn)槟P完P(guān)注的重點(diǎn)區(qū)域,第1層卷積主要關(guān)注了果穗的輪廓特征,但效果并不明顯,而最后1層卷積則精準(zhǔn)關(guān)注了果穗兩端的特征。
圖7 NASNet-mobile-maize測試結(jié)果的混淆矩陣Fig.7 Confusion matrix of NASNet-mobile-maize test results
圖8 5個(gè)玉米品種的特征Fig.8 Characteristics of 5 corn varieties
ROC(receiver operating characteristic curve)曲線又稱感受性曲線,最靠近曲線圖左上方的點(diǎn)為敏感性和特異性的臨界點(diǎn),曲線越接近左上角,該類數(shù)據(jù)的測試結(jié)果越好。分析NASNet-mobilemaize測試結(jié)果的ROC曲線,結(jié)果(圖9)表明,大部分類別的ROC曲線整體與臨界點(diǎn)接近,只有少部分樣本(如‘薈玉18’和‘科諾58’)假陽性率較高,分類效果稍差,‘鐵研630’的ROC曲線與臨界點(diǎn)重合,分類效果最佳。
圖9 NASNet-mobile-maize測試結(jié)果的ROC曲線Fig.9 ROC curve of NASNet-mobile-maize test result
傳統(tǒng)的玉米品種分類識(shí)別技術(shù)存在高時(shí)耗、高成本、專業(yè)性強(qiáng)、損傷率高等問題。為解決上述問題,本研究提出了一種基于NASNet-mobile網(wǎng)絡(luò)的玉米品種分類識(shí)別模型,與徐巖等[23]采用玉米籽粒進(jìn)行識(shí)別不同,本研究聚焦于表型特征更為豐富的玉米果穗,在此基礎(chǔ)上采用遷移學(xué)習(xí)有效解決了數(shù)據(jù)量小的問題,既節(jié)省了模型的訓(xùn)練時(shí)間,又增強(qiáng)了模型的泛化能力與魯棒性。
AdaGrad能夠?qū)γ總€(gè)不同的參數(shù)調(diào)整不同的學(xué)習(xí)率,但隨時(shí)間的增加,最終導(dǎo)致學(xué)習(xí)率收縮到太小無法進(jìn)行有效更新;RMSProp能夠克服AdaGrad梯度急劇減小的問題,但容易導(dǎo)致訓(xùn)練初期產(chǎn)生大幅度振蕩;Adam算法同時(shí)獲得了AdaGrad和RMSProp算法的優(yōu)點(diǎn)。本研究對(duì)不同的優(yōu)化算法經(jīng)過試驗(yàn)分析,表明Adam在玉米果穗識(shí)別任務(wù)中不僅提升了訓(xùn)練的速度,而且有效解決了訓(xùn)練振蕩幅度大的問題。
全連接層模型可以整合特征以及用于之后的分類,隨著全連接層層數(shù)或維度的增加,模型的非線性表達(dá)能力會(huì)得到一定提升[24]。本研究對(duì)全連接層進(jìn)行了全新設(shè)計(jì),實(shí)現(xiàn)了95%的測試準(zhǔn)確率,由此證明,增加一定數(shù)量的全連接層層數(shù)及其維度,可提升在玉米果穗識(shí)別分類中NASNetmobile模型的性能,最終建立基于玉米果穗圖像的品種分類識(shí)別模型——NASNet-mobile-maize。
本研究采用NASNet-mobile網(wǎng)絡(luò)進(jìn)行基于玉米果穗圖像的品種分類識(shí)別,具有高度可行性,為實(shí)現(xiàn)智慧育種和種質(zhì)資源保護(hù)研究提供了模型和算法參考。但文中對(duì)模型參數(shù)與全連接層調(diào)整仍存在一定局限性,因此,可進(jìn)一步采集不同種植區(qū)域及不同栽培條件下的樣本集種類和數(shù)量,深入研究該模型在智能手機(jī)端的應(yīng)用。