摘 要:種子分類識(shí)別技術(shù)的應(yīng)用潛力巨大,可以在種子生產(chǎn)、農(nóng)業(yè)科研、種植管理等領(lǐng)域發(fā)揮重要作用。通過采集不同品種的玉米種子圖像,并利用預(yù)處理和數(shù)據(jù)增強(qiáng)技術(shù)對(duì)數(shù)據(jù)集進(jìn)行處理,構(gòu)建了一個(gè)包含4種深度學(xué)習(xí)網(wǎng)絡(luò)模型的試驗(yàn)框架(MobileNetV3、VGG16、GoogLeNet及ShuffleNet),對(duì)比4種模型在訓(xùn)練和測(cè)試階段的表現(xiàn),評(píng)估其準(zhǔn)確率、損失值、訓(xùn)練時(shí)間,然后分析各個(gè)模型之間的差異。試驗(yàn)結(jié)果顯示:MobileNetV3深度學(xué)習(xí)網(wǎng)絡(luò)模型在玉米種子分類識(shí)別任務(wù)中表現(xiàn)出色,對(duì)玉米種子的識(shí)別精準(zhǔn)度達(dá)到了93.4%。相比其他3種模型,MobileNetV3深度學(xué)習(xí)網(wǎng)絡(luò)模型在準(zhǔn)確率和損失值方面展現(xiàn)出最佳性能,并且具有較快的收斂速度和穩(wěn)定的訓(xùn)練過程。
關(guān)鍵詞:玉米;品種識(shí)別;深度學(xué)習(xí)
中圖分類號(hào):TP183;TP391.9 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1674-7909-(2023)13-141-3
0 引言
玉米是我國(guó)重要的糧食作物之一,其種植面積大、分布范圍廣,在保證我國(guó)糧食供給、促進(jìn)經(jīng)濟(jì)發(fā)展、農(nóng)民增收、維護(hù)社會(huì)穩(wěn)定等方面具有重要作用。種子分類對(duì)于提高玉米產(chǎn)量和品質(zhì)具有重要意義,有助于促進(jìn)種子產(chǎn)業(yè)化發(fā)展和農(nóng)業(yè)生產(chǎn)優(yōu)化,助力農(nóng)業(yè)產(chǎn)業(yè)可持續(xù)發(fā)展。近年來,深度學(xué)習(xí)技術(shù)快速發(fā)展,其在圖像識(shí)別和分類領(lǐng)域應(yīng)用廣泛,如深度學(xué)習(xí)網(wǎng)絡(luò)模型[1-2]。深度學(xué)習(xí)網(wǎng)絡(luò)模型包括深度神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)等。
馬睿等[3]提出的基于卷積神經(jīng)網(wǎng)絡(luò)模型的Xception與胚乳數(shù)據(jù)集建模方法較優(yōu),測(cè)試集準(zhǔn)確率達(dá)到了92.78%。司海平等[4]提出一種基于特征融合的玉米品種圖像識(shí)別方法,通過VGG16和ResNet50兩種預(yù)訓(xùn)練網(wǎng)絡(luò)來獲取圖像的深度特征,試驗(yàn)結(jié)果表明對(duì)特征進(jìn)行融合相較于單一使用深度特征或傳統(tǒng)特征具有更高的識(shí)別準(zhǔn)確率。
此次研究旨在探索利用深度學(xué)習(xí)網(wǎng)絡(luò)模型對(duì)玉米種子進(jìn)行分類識(shí)別的可行性和效果。筆者采集不同品種的玉米種子圖像,并利用預(yù)處理和數(shù)據(jù)增強(qiáng)技術(shù)對(duì)數(shù)據(jù)集進(jìn)行處理,構(gòu)建了一個(gè)包含4種深度學(xué)習(xí)網(wǎng)絡(luò)模型的試驗(yàn)框架(MobileNetV3、VGG16、GoogLeNet和ShuffleNet),通過對(duì)比4種模型在訓(xùn)練和測(cè)試階段的表現(xiàn),評(píng)估其準(zhǔn)確率、損失值、訓(xùn)練時(shí)間,并分析各個(gè)模型之間的差異。
1 試驗(yàn)材料與預(yù)處理
1.1 數(shù)據(jù)采集
此次研究以小金黃、金色超人、甜糯黃玉米、甜妃4個(gè)玉米品種為研究對(duì)象。在選取玉米種子過程中采用人工選種法,挑選飽滿、無破損的玉米種子。其中,小金黃265粒、金色超人256粒、甜糯黃玉米172粒、甜妃166粒。將每種種子平鋪在黑色桌面上,使用iPhone 12手機(jī)固定在桌面14 cm高處,在實(shí)驗(yàn)室自然光情況下垂直對(duì)玉米種子進(jìn)行拍攝。
1.2 數(shù)據(jù)集的增強(qiáng)與劃分
為了提高深度學(xué)習(xí)網(wǎng)絡(luò)模型對(duì)玉米種子識(shí)別的準(zhǔn)確率,此次試驗(yàn)利用Python和Opencv將多粒玉米種子圖片區(qū)域分割成單粒玉米種子圖片。分割前,先對(duì)圖像進(jìn)行閾值分割和二值化、去除邊緣顆粒等處理。
針對(duì)樣本數(shù)據(jù)不足導(dǎo)致的深度學(xué)習(xí)網(wǎng)絡(luò)模型能力不足問題,為提高深度學(xué)習(xí)網(wǎng)絡(luò)模型的準(zhǔn)確度,此次研究采用隨機(jī)旋轉(zhuǎn)45°或-45°、增加噪聲、圖片池化、隨機(jī)變色等操作對(duì)玉米種子數(shù)據(jù)集進(jìn)行增強(qiáng),數(shù)據(jù)集圖片數(shù)量增加到原來的近4倍。從中隨機(jī)選取每種玉米種子的80%的圖像作為訓(xùn)練集,10%的圖像作為測(cè)試集、10%的圖像作為驗(yàn)證集,分別存放在對(duì)應(yīng)的子目錄中,如表1所示。
2 試驗(yàn)環(huán)境與模型原理
2.1 圖像識(shí)別模型
此次研究采用了MobileNetV3、VGG16、GoogLeNet、ShuffleNet等4種不同的卷積神經(jīng)網(wǎng)絡(luò)模型作為試驗(yàn)的訓(xùn)練模型對(duì)玉米種子進(jìn)行建模,分析各個(gè)網(wǎng)絡(luò)和數(shù)據(jù)建模之間的差異。
2.1.1 MobileNetV3
相比于MobileNetV2,MobileNetV3更新了倒殘差結(jié)構(gòu),加入了SE模塊并且更新了激活函數(shù),使用NAS搜索參數(shù),重新設(shè)計(jì)耗時(shí)層結(jié)構(gòu)。同時(shí),MobileNetV3仍保持輕量級(jí)特性,具有較小的模型尺寸和計(jì)算開銷,適用于計(jì)算資源受限的設(shè)備和應(yīng)用。MobileNetV3 Large較于V2版本檢測(cè)速度提升了25%,MobileNetV3 Small的準(zhǔn)確度提高了6.6%,有效提高了應(yīng)用在移動(dòng)端的圖像分類和檢測(cè)任務(wù)的精度。因此,MobileNetV3是一種高性能、可調(diào)節(jié)、輕量級(jí)的卷積神經(jīng)網(wǎng)絡(luò)模型。
2.1.2 VGG16
VGG16的突出特點(diǎn)是卷積層均采用相同的卷積核參數(shù),即每個(gè)卷積層的寬和高相同。VGG16卷積串聯(lián)比單獨(dú)使用一個(gè)較大的卷積核擁有更少的參數(shù),同時(shí)比單獨(dú)一個(gè)卷積層擁有更多的非線性變化,適應(yīng)更復(fù)雜的模式[5]。而卷積核串聯(lián)多次提取特征,比單一的卷積核提取的特征要細(xì)膩。Padding的步幅小于核的大小,可以覆蓋提取特征,也提高了特征的細(xì)膩度。
2.1.3 GoogLeNet
GoogLeNet是由Google團(tuán)隊(duì)提出的一種深度卷積神經(jīng)網(wǎng)絡(luò)架構(gòu),其主要原理是采用了Inception模塊來提取圖像特征[6]。網(wǎng)絡(luò)引入Inception結(jié)構(gòu)代替了單純的“卷積+激活函數(shù)”的傳統(tǒng)操作,實(shí)現(xiàn)了高效的特征提取和計(jì)算過程,并具有較好的參數(shù)效率和抗衰減性。網(wǎng)絡(luò)最后采用了average pooling來代替全連接層,使網(wǎng)絡(luò)參數(shù)得到了明顯降低,性能得到了提升。
2.1.4 ShuffleNet
ShuffleNet架構(gòu)中主要采用了兩種新操作:分組卷積(Pointwise Group Convolution)和通道重排(Channel Shuffle)。這兩種操作在保持模型精度的同時(shí)大大降低了計(jì)算量,實(shí)現(xiàn)了高效的特征提取和交互。分組卷積將輸入通道分組并進(jìn)行卷積操作,可減少計(jì)算復(fù)雜度;通道重排操作增加特征之間的交互,可提高特征表示的豐富性[7]。
2.2 超參數(shù)設(shè)置
采用Python編程語言,使用基于Torch的PyTorch深度學(xué)習(xí)框架,使用PyCharm作為集成開發(fā)環(huán)境編寫深度學(xué)習(xí)網(wǎng)絡(luò)模型,并在一臺(tái)搭載CPU為i7-12700H、GPU為RTX3060的筆記本電腦上進(jìn)行試驗(yàn)。各個(gè)深度學(xué)習(xí)網(wǎng)絡(luò)模型的參數(shù)均設(shè)置成學(xué)習(xí)率為0.001,一次訓(xùn)練所選取的樣本數(shù)(BatchSize)設(shè)置為16,訓(xùn)練輪數(shù)(Epoch)均為100輪,均采用隨機(jī)梯度下降算法(Stochastic Gradient Descent,SGD)作為優(yōu)化算法,并且輸出每輪訓(xùn)練所得到的損失值和玉米種子識(shí)別準(zhǔn)確率。
3 試驗(yàn)結(jié)果與分析
此試驗(yàn)分別使用4種不同的深度學(xué)習(xí)網(wǎng)絡(luò)模型對(duì)玉米種子進(jìn)行分類識(shí)別訓(xùn)練,其中MobileNetV3和ShuffleNet為輕量級(jí)網(wǎng)絡(luò)。對(duì)于玉米種子圖像分類的4種深度學(xué)習(xí)網(wǎng)絡(luò)模型,選擇平均識(shí)別準(zhǔn)確率、訓(xùn)練測(cè)試過程中損失函數(shù)的值及訓(xùn)練過程所需要的時(shí)間這3項(xiàng)指標(biāo)作為評(píng)價(jià)指標(biāo)。在經(jīng)過100輪的迭代訓(xùn)練之后,4種深度學(xué)習(xí)網(wǎng)絡(luò)模型對(duì)玉米種子分類識(shí)別的準(zhǔn)確率如表2所示。
試驗(yàn)發(fā)現(xiàn),在對(duì)玉米種子分類識(shí)別任務(wù)中,MobileNetV3深度學(xué)習(xí)網(wǎng)絡(luò)模型表現(xiàn)最為出色。與其他3種網(wǎng)絡(luò)模型相比,MobileNetV3深度學(xué)習(xí)網(wǎng)絡(luò)模型在準(zhǔn)確率和損失值方面表現(xiàn)出了最佳性能,網(wǎng)絡(luò)收斂速度最快,對(duì)玉米圖像的分類識(shí)別準(zhǔn)確率最高并且在100輪迭代訓(xùn)練中損失值波動(dòng)幅度最小。這可能歸因于MobileNetV3深度學(xué)習(xí)網(wǎng)絡(luò)模型在輕量級(jí)結(jié)構(gòu)的基礎(chǔ)上,引入了SE模塊和更新的激活函數(shù),以及通過NAS搜索參數(shù)進(jìn)行的優(yōu)化,從而提高了模型的性能。
對(duì)深度學(xué)習(xí)網(wǎng)絡(luò)模型的準(zhǔn)確率和損失值進(jìn)行計(jì)算,MobileNetV3深度學(xué)習(xí)網(wǎng)絡(luò)模型的準(zhǔn)確率曲線圖和損失值函數(shù)曲線圖如圖1所示。MobileNetV3深度學(xué)習(xí)網(wǎng)絡(luò)模型的損失函數(shù)曲線在10輪后趨于平穩(wěn),準(zhǔn)確率曲線在18輪后趨于穩(wěn)定。但是,其他3種深度學(xué)習(xí)網(wǎng)絡(luò)模型的準(zhǔn)確率和損失值在進(jìn)行35輪迭代訓(xùn)練后才趨于平緩。綜上對(duì)比,MobileNetV3深度學(xué)習(xí)網(wǎng)絡(luò)模型具有較高的識(shí)別精度。
在此次試驗(yàn)中,4種模型在訓(xùn)練過程中均出現(xiàn)了局部震蕩現(xiàn)象,但MobileNetV3深度學(xué)習(xí)網(wǎng)絡(luò)模型的震蕩幅度較小,在4種模型中表現(xiàn)最為穩(wěn)定。而ShuffleNet深度學(xué)習(xí)網(wǎng)絡(luò)模型出現(xiàn)局部震蕩次數(shù)較多且最為明顯。這可能與不同網(wǎng)絡(luò)結(jié)構(gòu)和參數(shù)設(shè)置之間的差異有關(guān),需要進(jìn)一步研究和調(diào)整。
MobileNetV3深度學(xué)習(xí)網(wǎng)絡(luò)模型的訓(xùn)練時(shí)間最短,平均每秒鐘可對(duì)3.6張圖片進(jìn)行訓(xùn)練;ShuffleNet深度學(xué)習(xí)網(wǎng)絡(luò)模型的訓(xùn)練時(shí)間最長(zhǎng),平均每秒鐘只能對(duì)1.6張圖片進(jìn)行訓(xùn)練。這與模型的復(fù)雜度和計(jì)算開銷有關(guān),輕量級(jí)模型在訓(xùn)練時(shí)間上具有一定的優(yōu)勢(shì)。
4 結(jié)論與討論
此次研究采用了4種深度學(xué)習(xí)網(wǎng)絡(luò)模型(MobileNetV3、ShuffleNet、GoogLeNet、VGG16)對(duì)玉米種子進(jìn)行分類識(shí)別,并對(duì)其性能進(jìn)行了評(píng)估和比較,其中MobileNetV3深度學(xué)習(xí)網(wǎng)絡(luò)模型的測(cè)試準(zhǔn)確率為93.4%。研究表明,MobileNetV3深度學(xué)習(xí)網(wǎng)絡(luò)模型在玉米種子分類識(shí)別任務(wù)中具有較高的準(zhǔn)確率、穩(wěn)定性和較短的訓(xùn)練時(shí)間。該試驗(yàn)結(jié)果對(duì)于玉米種子的自動(dòng)化分類和識(shí)別具有重要的應(yīng)用價(jià)值,并為進(jìn)一步優(yōu)化和改進(jìn)深度學(xué)習(xí)網(wǎng)絡(luò)模型在農(nóng)業(yè)領(lǐng)域的應(yīng)用提供了參考。然而,此次研究的數(shù)據(jù)集規(guī)模相對(duì)較小,對(duì)其他玉米品種和泛化能力的研究還需要進(jìn)一步擴(kuò)充和探索。
參考文獻(xiàn):
[1]KHAKI S,PHAM H,HAN Y,et al.Convolutional neural networks for image-based corn kernel detection and counting[J].Sensors(Basel),2020(9):2721.
[2]KHAKI S,PHAM H,HAN Y,et al.DeepCorn:a semi-supervised deep learning method for high-throughput image-based corn kernel counting and yield estimation[J].Knowledge-Based Systems,2021(12):106874.
[3]馬睿,王佳,趙威,等.基于卷積神經(jīng)網(wǎng)絡(luò)與遷移學(xué)習(xí)的玉米籽粒圖像分類識(shí)別[J/OL].中國(guó)糧油學(xué)報(bào):1-10[2023-05-31].http://kns.cnki.net/kcms/detail/11.2864.TS.20220803.1310.010.html.
[4]司海平,萬里,王云鵬,等.基于特征融合的玉米品種識(shí)別[J/OL].中國(guó)糧油學(xué)報(bào):1-12[2023-05-31].https://doi.org/10.20048/j.cnki.issn.1003-0174.000167.
[5]王嶸.基于深度學(xué)習(xí)的圖像搜索算法研究[J].計(jì)算機(jī)產(chǎn)品與流通,2018(11):150.
[6]惠苗.融合壓縮與激勵(lì)的GoogLeNet模型云檢測(cè)算法[J].榆林學(xué)院學(xué)報(bào),2023(2):68-72.
[7]畢鵬程,羅健欣,陳衛(wèi)衛(wèi).輕量化卷積神經(jīng)網(wǎng)絡(luò)技術(shù)研究[J].計(jì)算機(jī)工程與應(yīng)用,2019(16):25-35.
作者簡(jiǎn)介:張宇航(2000—),男,碩士生,研究方向:農(nóng)業(yè)工程與信息技術(shù);楊冬風(fēng)(1977—),女,博士,副教授,研究方向:模式識(shí)別在農(nóng)業(yè)中的應(yīng)用。