杜寶俠,唐 友*,辛 鵬,楊 牧
(1.吉林化工學(xué)院,吉林 吉林 132022;2.吉林農(nóng)業(yè)科技學(xué)院,吉林 吉林 132101;3.一汽東機(jī)工減振器有限公司,吉林 長春 130001)
我國是農(nóng)業(yè)大國,水果生產(chǎn)和消費(fèi)數(shù)量在世界上位居前列,在眾多水果中,蘋果的種植面積和產(chǎn)量均超過世界總量的50%,均居世界首位[1]。蘋果生產(chǎn)是我國農(nóng)業(yè)經(jīng)濟(jì)發(fā)展的重要支柱,但我國的大部分蘋果生產(chǎn)還處于傳統(tǒng)的農(nóng)業(yè)模式階段,在蘋果生產(chǎn)管理過程中需要耗費(fèi)大量的人力物力,這也導(dǎo)致了生產(chǎn)效率的低下和農(nóng)民收入水平的不穩(wěn)定。因此,推動(dòng)蘋果生產(chǎn)過程的自動(dòng)化、智能化發(fā)展具有重要意義。
近年來,現(xiàn)代農(nóng)業(yè)結(jié)合計(jì)算機(jī)視覺技術(shù)的各種智能設(shè)備在農(nóng)業(yè)生產(chǎn)中的應(yīng)用日益普及,并且成為農(nóng)業(yè)領(lǐng)域的研究熱點(diǎn)。這些智能設(shè)備的應(yīng)用極大地提高了農(nóng)業(yè)生產(chǎn)效率和精度,減少了對勞動(dòng)力和資源的依賴,并降低了農(nóng)業(yè)生產(chǎn)成本,促進(jìn)了農(nóng)業(yè)的可持續(xù)發(fā)展。具體到蘋果的生產(chǎn)方面,計(jì)算機(jī)視覺技術(shù)可以通過拍攝的圖片或視頻進(jìn)行產(chǎn)量預(yù)測、病蟲害識別,也可以通過圖像信息對蘋果果實(shí)進(jìn)行優(yōu)劣分級等,這些技術(shù)極大地推動(dòng)了蘋果生產(chǎn)管理的智能化發(fā)展。其中,利用目標(biāo)檢測技術(shù)對蘋果果實(shí)進(jìn)行識別和定位,從而幫助智能機(jī)器人實(shí)現(xiàn)自動(dòng)采摘是一個(gè)重要的研究方向。
在對蘋果的檢測方面,可以分為傳統(tǒng)算法和基于深度學(xué)習(xí)的算法兩類。傳統(tǒng)算法大多依賴于目標(biāo)的顏色、形狀等外部特征來區(qū)分目標(biāo)和背景[2],存在特征提取困難、模型泛化能力差、在環(huán)境變化時(shí)性能下降嚴(yán)重等問題。近年來,基于卷積神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)技術(shù)在目標(biāo)檢測領(lǐng)域取得了顯著的成功,相較于傳統(tǒng)的機(jī)器學(xué)習(xí)方法,基于深度學(xué)習(xí)的目標(biāo)檢測技術(shù)場景適應(yīng)性強(qiáng),精度更高。牟其松[3]簡化了YOLOv3的主干網(wǎng)絡(luò),并通過改進(jìn)損失函數(shù),提高了蘋果檢測的精度;張中華等[4]提出了一種基于優(yōu)化FCOS網(wǎng)絡(luò)的綠色蘋果檢測模型,通過改進(jìn)特征融合FPN提高了對綠色蘋果的檢測精度;Meili等[5]針對復(fù)雜環(huán)境下的小蘋果提出了一種平衡特征金字塔網(wǎng)絡(luò)BFP Net。上述研究通過對先進(jìn)目標(biāo)檢測算法進(jìn)行改進(jìn),增強(qiáng)其檢測蘋果的能力,但仍存在模型較復(fù)雜、檢測速度慢、不容易部署等問題。
在實(shí)際的果園場景中,要實(shí)現(xiàn)蘋果的實(shí)時(shí)檢測,不僅需要較好的檢測精度,對檢測的速度也有較高的要求。因此,本文以單階段目標(biāo)檢測算法中最先進(jìn)的YOLOv8模型為基礎(chǔ)并加以改進(jìn),來實(shí)現(xiàn)蘋果果實(shí)的自動(dòng)檢測。
YOLOv8是YOLO系列最新的模型,具有非常優(yōu)秀的檢測精度和速度。根據(jù)網(wǎng)絡(luò)的深度與特征圖的寬度大小,YOLOv8算法分為:YOLOv8-n、YOLOv8-s、YOLOv8-m、YOLOv8-l、和YOLOv8-x 5個(gè)版本。按照網(wǎng)絡(luò)結(jié)構(gòu)圖,YOLOv8可分為:Input、Backbone、Neck和Head 4部分。其中,Input輸入端負(fù)責(zé)將輸入圖片縮放到訓(xùn)練需要的尺寸,并包含縮放、改變圖片色調(diào)和Mosaic數(shù)據(jù)增強(qiáng)等數(shù)據(jù)增強(qiáng)操作;Backbone主干網(wǎng)絡(luò)用來進(jìn)行目標(biāo)特征的提取,由卷積模塊 Conv、C2f結(jié)構(gòu)和YOLOv5中使用的SPPF模塊構(gòu)成;Neck用來將不同維度的特征進(jìn)行加強(qiáng)融合,其結(jié)構(gòu)遵循特征金字塔(Feature Pyramid Network,FPN)和路徑聚合結(jié)構(gòu)(Path Aggregation Network,PAN),并刪除了YOLOv5上采樣階段的卷積操作;Head部分將加強(qiáng)后的特征進(jìn)行計(jì)算,最終得到不同目標(biāo)的置信度和位置??紤]到模型檢測的速度和精度,本次實(shí)驗(yàn)以檢測速度最快的YOLOv8-n為基線模型,并在此基礎(chǔ)上加以改進(jìn)。
數(shù)據(jù)增強(qiáng)是在不改變圖像重要信息的前提下,基于有限的數(shù)據(jù)生成更多同樣有效的數(shù)據(jù)的方法??梢詷O大地豐富訓(xùn)練數(shù)據(jù)的多樣性,從而使得訓(xùn)練后的模型具有更強(qiáng)的泛化能力。改變圖片的顏色和形狀是最基礎(chǔ)和常見的數(shù)據(jù)增強(qiáng)方式,在本研究中,使用隨機(jī)改變圖片的色調(diào)、飽和度、明亮度,同時(shí)對圖片進(jìn)行隨機(jī)縮放和平移這些傳統(tǒng)的數(shù)據(jù)增強(qiáng)方式。除了這些基礎(chǔ)的數(shù)據(jù)增強(qiáng)方式外,有些研究還提出了更高效的數(shù)據(jù)增強(qiáng)方式,如Mosaic等[6]。Mosaic數(shù)據(jù)增強(qiáng)方法的主要思想是將4張圖片隨機(jī)裁剪縮放,再拼接到一張圖上作為訓(xùn)練數(shù)據(jù)。在本次實(shí)驗(yàn)中使用傳統(tǒng)數(shù)據(jù)增強(qiáng)和Mosaic方法相結(jié)合的數(shù)據(jù)增強(qiáng)方式。
注意力機(jī)制可以賦予空間中不同通道或區(qū)域以不同的權(quán)重,從而幫助模型專注于更重要信息的提取。全局注意力機(jī)制(Global Attention Mechanism,GAM)[7],可以通過減少信息縮減和放大全局交互表示來提高深度神經(jīng)網(wǎng)絡(luò)的性能。該機(jī)制使用了通道-空間注意機(jī)制,在通道層面,GAM首先將輸入特征圖進(jìn)行維度轉(zhuǎn)換,接著輸入到MLP恢復(fù)原來的維度,最后通過Sigmoid輸出。在空間層面,GAM通過一系列的卷積處理再送入Sigmoid輸出,最終實(shí)現(xiàn)兩個(gè)層面注意力作用的疊加。GAM的整體模塊如圖1所示。
在YOLOv8模型的改進(jìn)方面,將GAM注意力添加在Neck和Head的連接部分,引入的GAM注意力模塊可以對通道和空間維度中的特征圖信息進(jìn)行自適應(yīng)學(xué)習(xí),并對特征進(jìn)行重新擬合和分配,幫助模型更聚焦于蘋果目標(biāo),提高了特征圖中小目標(biāo)的權(quán)重占比,從而加強(qiáng)了模型對其特征的訓(xùn)練。最終改進(jìn)的YOLOv8網(wǎng)絡(luò)模型如圖2所示。
本實(shí)驗(yàn)使用的數(shù)據(jù)集來源為https://aistudio.baidu.com/aistudio/datasetdetail/93304,圖像數(shù)量為287張。其中,訓(xùn)練集、驗(yàn)證集和測試集的圖像數(shù)量分別為273張、14張和10張。如圖3所示為數(shù)據(jù)集示例。
圖3 數(shù)據(jù)集示例
本文實(shí)驗(yàn)平臺使用Ubuntu 20.02操作系統(tǒng),CPU處理器為2個(gè) Intel(R) Xeon(R) Silver 4110,GPU為GeForce RTX 3090,顯存為24 GB。模型訓(xùn)練框架為Pytorch 1.12.0,具體訓(xùn)練參數(shù)設(shè)置如表1所示。
表1 訓(xùn)練參數(shù)
為驗(yàn)證改進(jìn)方法的有效性,使用P(Precision:精度)、R(Recall:召回率)、mAP0.5(MeanAveragePrecision:各類別在IOU=0.5下的AP平均值)和mAP0.5∶0.95(MeanAveragePrecision:各類別在不同IOU下的AP平均值)作為模型評價(jià)指標(biāo)。另外,TP(TruePositive)表示將正類預(yù)測為正類數(shù),FN(FalseNegative)表示將正類預(yù)測為負(fù)類數(shù),FP(FalsePositive)表示將負(fù)類預(yù)測為正類數(shù),TN(TrueNegative)表示將負(fù)類預(yù)測為負(fù)類數(shù)。對應(yīng)的評價(jià)指標(biāo)計(jì)算方法如下。
精度是衡量模型識別出的真實(shí)陽性樣本數(shù)占所有被模型識別為陽性樣本數(shù)的比例。精度越高,說明模型識別出的陽性樣本更準(zhǔn)確,具有更好的準(zhǔn)確性。
計(jì)算公式如下:
(1)
召回率是衡量模型識別出的真實(shí)陽性樣本數(shù)占所有真實(shí)樣本數(shù)的比例。召回率越高,說明模型能夠更準(zhǔn)確地識別出真實(shí)陽性樣本,具有更好的鑒別能力。計(jì)算公式如下:
(2)
AP的定義為P-R曲線下面的面積,AP值越高,模型的性能越好,mAP為各類別AP的平均值,可以通過下列公式得到:
(3)
(4)
為驗(yàn)證本文所用改進(jìn)方法的有效性,通過使用相同的訓(xùn)練參數(shù)設(shè)置在數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),改進(jìn)后的YOLOv8模型檢測精度和召回率明顯提高,具體的數(shù)值結(jié)果如表2所示,可以看出,通過添加GAM注意力機(jī)制,模型的性能得到了有效提高。和原模型相比,改進(jìn)后的YOLOv8模型mAP0.5提高了1.7%,mAP0.5∶0.95提高了2.2%。結(jié)果表明,改進(jìn)后的YOLOv8模型更能滿足對蘋果果實(shí)的檢測要求。
表2 評價(jià)指標(biāo)對比結(jié)果
為解決蘋果果實(shí)的智能檢測問題,提高智能設(shè)備對蘋果的檢測能力,本文使用先進(jìn)的YOLOv8目標(biāo)檢測模型并加以改進(jìn),通過使用多種數(shù)據(jù)增強(qiáng)方法,增加了模型的泛化能力。同時(shí)引入GAM注意力機(jī)制,提升模型聚焦蘋果的能力,并提高模型的檢測性能。最終的實(shí)驗(yàn)結(jié)果可知,改進(jìn)后的YOLOv8算法具有較高的檢測精度,在640×640大小的圖像輸入下,mAP0.5達(dá)到了0.958,比原模型提高了1.7%,更加適合部署到設(shè)備。未來的工作目標(biāo)是要豐富蘋果檢測場景,提升模型在復(fù)雜環(huán)境下的檢測效果。