Strawberry leaf disease detection method based on improved YOLOv8n
XIA Shunxing, NI Ming, LUO Youlu, HE Yinghao, ZHAO Taotao(Collegeof InformationEngineering,SichuanAgricultural University,Ya'an625O14,China)
Abstract:Inordertoimprovethedetectionabilityof targetdetectionmodelsforstrawberryleaf diseasesinorchard environment,thisstudyusedtheYOLOv8nmodelasthebaseline model,introducedthedynamicconvolution module toreplacethethirdconvolution layerof the backbone network and partoftheC2fmoduleof theneck network,introduced the GSConv and Slim-neck module toreplacetheconvolution layerand partof the C2f moduleof the neck network,and introduced the content-aware reassemblyof features (CARAFE)operator to replacethe nearestneighbor interpolation method in upsampling.An improved YOLOv8n model named YOLOv8n-DGC was proposed to improve thedetection accuracy of strawberyleaf diseases while maintaining the lightweightofthe model.Theresults showed that the meanaverage precisionwhen the intersection over union( IoU )threshold was 0.50 ( mAP50 ),the mean average precision when the IoU was between (20 0.50 and 0.95 ( mAP50:95 ),precision and recall rate of the improved model YOLOv8n-DGC for strawberry leaf disease detection were 2.5percentage points,1.5percentage points,.6percentage pointsand1.6percentagepoints higher thanthose of the baseline model,respectively. The model size and parameter quantity increased by 3.2% and 3.3% ,respectively, while the number of floating point of operations decreased by 8.6% . Compared with models such as Faster R-CNN,SSD, YOLOv5s,and YOLOv7-tiny,the YOLOv8n-DGC model beter achieved a balance between detectionaccuracyand ffi
Keywords:strawberry;leaf diseases;object detection;YOLOv8n;dynamic convolution;GSConv;CARAFE
草莓屬薔薇科漿果類(lèi)多年生草本植物,素有“水果皇后”的美稱(chēng)。草莓果實(shí)顏色艷麗,芳香多汁,且富含糖類(lèi)、氨基酸、維生素以及鈣、磷、鐵等多種營(yíng)養(yǎng)物質(zhì)[1-2],具有抗氧化、抗癌、抗炎等功能[3-4]。近年來(lái),中國(guó)草莓種植面積均較大,產(chǎn)量也較高[5]。草莓栽培過(guò)程中,病害是導(dǎo)致草莓產(chǎn)量減少、品質(zhì)下降的重要原因之一,及時(shí)并準(zhǔn)確識(shí)別病害類(lèi)型對(duì)草莓安全生產(chǎn)、果農(nóng)效益提高具有重要意義。
近年來(lái),隨著計(jì)算機(jī)技術(shù)和人工智能的發(fā)展,特別是深度學(xué)習(xí)技術(shù)的應(yīng)用,作物病害檢測(cè)技術(shù)得到了顯著的提升。深度學(xué)習(xí)是一種基于人工神經(jīng)網(wǎng)絡(luò)的機(jī)器學(xué)習(xí)方法,具有強(qiáng)大的特征提取和模式識(shí)別能力[]通過(guò)對(duì)大量數(shù)據(jù)的學(xué)習(xí),深度學(xué)習(xí)模型能夠自動(dòng)提取圖像中的復(fù)雜特征,實(shí)現(xiàn)高效、準(zhǔn)確的病害檢測(cè)。目前目標(biāo)檢測(cè)領(lǐng)域的深度學(xué)習(xí)方法主要分為兩類(lèi):一類(lèi)是以R-CNN[7]、FastR-CNN[8]、FasterR-CNN[9]為代表的兩階段檢測(cè)算法,該類(lèi)算法分兩步完成,首先生成候選目標(biāo)區(qū)域,然后對(duì)候選目標(biāo)區(qū)域進(jìn)行分類(lèi)和定位:另一類(lèi)是以YOLO系列算法[10-13] SSD 算法[14]為代表的單階段檢測(cè)算法,該類(lèi)算法同時(shí)進(jìn)行邊界框位置判斷和類(lèi)別分類(lèi)。相比較而言,單階段分類(lèi)算法簡(jiǎn)化了處理流程,因而具有更快的檢測(cè)速度。
由于YOLO算法在特征提取、識(shí)別實(shí)時(shí)性、泛化性等方面的優(yōu)勢(shì),目前,YOLO算法在作物病蟲(chóng)害識(shí)別及果實(shí)目標(biāo)檢測(cè)等領(lǐng)域得到了廣泛應(yīng)用。楊宇游等[15]在YOLOv5模型的主干網(wǎng)絡(luò)中引入BoTNet模塊,并用GIoU-NMS算法替換原來(lái)的非極大值抑制(NMS)算法,對(duì)YOLOv5模型進(jìn)行優(yōu)化,改進(jìn)后的模型對(duì)草莓病害的識(shí)別精確率和平均精度均值分別比原模型提升2.1個(gè)百分點(diǎn)和1.2個(gè)百分點(diǎn)。Li等[16]利用深度卷積和CSPNet結(jié)構(gòu),將YOLOv4模型優(yōu)化為DAC-YOLOv4模型,并用其進(jìn)行草莓葉片白粉病的檢測(cè),既提高了檢測(cè)效果,又實(shí)現(xiàn)了模型的輕量化。公徐路等[17]對(duì)YOLOv5模型進(jìn)行一系列的優(yōu)化,發(fā)現(xiàn)改進(jìn)后的模型對(duì)蘋(píng)果葉片小目標(biāo)病害檢測(cè)的平均精度均值和準(zhǔn)確率分別比原模型提高0.8個(gè)百分點(diǎn)和3.0個(gè)百分點(diǎn),而參數(shù)量和浮點(diǎn)計(jì)算量分別減少6.17MB和 13.8G 。時(shí)雷等[18]利用全維動(dòng)態(tài)卷積(ODConv)替換YOLOv8主干網(wǎng)絡(luò)中的標(biāo)準(zhǔn)卷積(Conv),利用EfficientRepGFPN特征融合網(wǎng)絡(luò)改進(jìn)原來(lái)的Neck網(wǎng)絡(luò),并采用EIoU損失函數(shù)替換CIoU損失函數(shù),提高了YOLOv8s模型對(duì)小麥小穗赤霉病識(shí)別的準(zhǔn)確率和效率。針對(duì)無(wú)人機(jī)采集的茶葉枯病圖像中病斑差異大、病斑和背景相似性高等問(wèn)題,胡根生等[]在YOLOv5s模型的基礎(chǔ)上,使用輕量型的M-Backbone作為骨干網(wǎng)絡(luò)設(shè)計(jì)了一個(gè)輕量型網(wǎng)絡(luò)LiTLBNet,其對(duì)茶葉枯病病斑的檢測(cè)精度與原模型接近,但模型大小僅為原YOLOv5s模型的 13.9% 。羅友璐等[20以YOLOv8模型為基準(zhǔn),利用空間深度轉(zhuǎn)換卷積替換原有的卷積模塊,引入多尺度空洞注意力機(jī)制,同時(shí)參考重參數(shù)化卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)對(duì)檢測(cè)頭進(jìn)行了改進(jìn),提出了一種蘋(píng)果葉片病害檢測(cè)的改進(jìn)算法,改進(jìn)后YOLOv8n模型對(duì)蘋(píng)果葉片病害檢測(cè)的平均精度均值 (mAP50 )和準(zhǔn)確率分別比原模型提高2.7個(gè)百分點(diǎn)和0.9個(gè)百分點(diǎn)。賀英豪等[2I]以YOLOv5模型為基準(zhǔn),利用Fo-cus-Maxpool模塊替換主干網(wǎng)絡(luò)中的下采樣卷積,利用focalloss和交叉熵函數(shù)的加權(quán)損失作為模型的分類(lèi)損失,提高了模型對(duì)高遮擋果園環(huán)境背景下季果實(shí)的識(shí)別精度。
針對(duì)草莓葉片病害檢測(cè)算法研究較少的現(xiàn)狀,本研究以性能穩(wěn)定、識(shí)別精確度和效率高的YOLOv8n模型為基準(zhǔn),結(jié)合草莓葉片病害特征,進(jìn)一步優(yōu)化相關(guān)模塊,以提高模型對(duì)草莓葉片病害檢測(cè)精度,降低模型運(yùn)算量,實(shí)現(xiàn)快速、準(zhǔn)確的草莓葉片病害檢測(cè),為果農(nóng)的精準(zhǔn)管理提供依據(jù)。
1材料與方法
1.1 數(shù)據(jù)集的構(gòu)建
本研究以草莓生產(chǎn)中常見(jiàn)的3種葉片病害葉焦病、葉斑病和白粉病為檢測(cè)目標(biāo)(圖1)。數(shù)據(jù)集來(lái)源為四川雅安草莓采摘園實(shí)地拍攝圖片、Kaggle平臺(tái)公開(kāi)數(shù)據(jù)集 Strawberrydisease data(http://www.kaggle.com)和百度圖片,共892張。為增強(qiáng)研究結(jié)果的可信度,數(shù)據(jù)集Strawberrydiseasedata及百度圖片均選擇自然果園環(huán)境下的草莓植株。為了防止數(shù)據(jù)集過(guò)少導(dǎo)致的訓(xùn)練結(jié)果過(guò)擬合,保持不同類(lèi)型病斑(標(biāo)簽)數(shù)量相對(duì)均衡,將篩選得到的圖片進(jìn)行添加隨機(jī)噪聲、亮度調(diào)節(jié)、旋轉(zhuǎn)、裁剪、平移、鏡像等數(shù)據(jù)增強(qiáng)處理,最終得到1371張圖片,按照 8:2 的比例劃分為訓(xùn)練集(1097張)和驗(yàn)證集(274張),葉焦病、葉斑病和白粉病標(biāo)簽數(shù)量分別為1907個(gè)、3290個(gè)和1762個(gè)。
1.2 YOLOv8n檢測(cè)模型及其改進(jìn)
YOLOv8n模型具有參數(shù)量少、檢測(cè)速度快、綜合性能良好等特點(diǎn),因此,本研究選擇YOLOv8n作為草莓葉片病害檢測(cè)的基準(zhǔn)模型。但考慮到草莓葉片病害病斑較小、不同病害病斑尺寸差異大等特征,研究中對(duì) ΥOLOv8n 模型進(jìn)行了適當(dāng)改進(jìn)。主要改進(jìn)體現(xiàn)在以下幾個(gè)方面:一是將YOLOv8n模型主干網(wǎng)絡(luò)(Backbone)和頸部網(wǎng)絡(luò)(Neck)的部分標(biāo)準(zhǔn)卷積替換為動(dòng)態(tài)卷積,提高模型的特征提取能力;二是引人輕量化卷積GSConv及Slim-neck設(shè)計(jì)范式重新設(shè)計(jì)Neck網(wǎng)絡(luò),在實(shí)現(xiàn)模型輕量化的同時(shí),提升模型推理速度和特征融合能力;三是將最近鄰插值上采樣算子替換為CARAFE算子,減少草莓病害小目標(biāo)導(dǎo)致的特征圖語(yǔ)義信息丟失,提高模型的檢測(cè)精度。YOLOv8n原模型和改進(jìn)后的模型YOLOv8n-DGC的結(jié)構(gòu)如圖2所示。
Backbone:主干網(wǎng)絡(luò); Neck :頸部網(wǎng)絡(luò); :頭部網(wǎng)絡(luò);Conv:卷積;C2f:特征融合模塊;DynamicConv:動(dòng)態(tài)卷積;SPPF:快速空間金字塔池化;C2f_Dynamiconv:引人動(dòng)態(tài)卷積的特征融合模塊;Concat:連接操作;Upsample:最近鄰上采樣;CARAFE:內(nèi)容感知特征重組上采樣算子;GSConv GSConv 卷積;VoV-GSCSP:跨階段部分網(wǎng)絡(luò)結(jié)構(gòu);Detect:檢測(cè)頭。
1.2.1 動(dòng)態(tài)卷積(Dynamic convolution)模塊在深度學(xué)習(xí)領(lǐng)域,標(biāo)準(zhǔn)卷積層是卷積神經(jīng)網(wǎng)絡(luò)(Convolu-tionalneuralnetwork,CNN)的基本構(gòu)建塊之一。標(biāo)準(zhǔn)卷積層通過(guò)固定的卷積核權(quán)重對(duì)輸入特征圖進(jìn)行卷積運(yùn)算,以提取特征。標(biāo)準(zhǔn)卷積層的操作是靜態(tài)的,即對(duì)于所有輸入數(shù)據(jù),卷積核權(quán)重保持不變(圖3a)。盡管標(biāo)準(zhǔn)卷積層在許多任務(wù)中表現(xiàn)出色,但在處理具有顯著變化特征的輸人時(shí),其靜態(tài)特性可能會(huì)限制模型的性能。因此針對(duì)草莓葉片病害染病程度差異較大、特征不明顯、背景復(fù)雜等問(wèn)題,本研究引人了動(dòng)態(tài)卷積[22]。動(dòng)態(tài)卷積能根據(jù)輸人特征動(dòng)態(tài)調(diào)整權(quán)重。這種動(dòng)態(tài)特性使卷積層能夠更好地捕捉不同輸入的特征。
卷積權(quán)重張量(Convolutionalweighttensor)是卷積神經(jīng)網(wǎng)絡(luò)中用于執(zhí)行卷積操作的參數(shù)集合,其定義了如何通過(guò)滑動(dòng)窗口的方式在輸入特征圖上進(jìn)行局部加權(quán)求和,以生成輸出特征圖。動(dòng)態(tài)卷積由多專(zhuān)家機(jī)制(Mixture of experts,MoE)實(shí)現(xiàn)(圖3b)。每個(gè)專(zhuān)家都有一個(gè)獨(dú)立的卷積權(quán)重張量,即獨(dú)立的卷積運(yùn)算。多專(zhuān)家機(jī)制能增強(qiáng)模型的特征提取能力,其定義為:
Y=X×W′
式中, W′ 表示通過(guò)動(dòng)態(tài)卷積機(jī)制生成的卷積權(quán)重張量; X 表示輸入特征圖; Y 表示輸出特征圖; Wi 表示第 i 個(gè)卷積權(quán)重張量; αi 代表對(duì)應(yīng)的動(dòng)態(tài)系數(shù),即專(zhuān)家的權(quán)重; M 為專(zhuān)家數(shù)量; × 表示卷積運(yùn)算,即得到卷積權(quán)重張量與動(dòng)態(tài)系數(shù)乘積之和后再與輸人特征進(jìn)行卷積[23]
對(duì)于每個(gè)輸入特征,路由網(wǎng)絡(luò)(Routingnet-work)會(huì)計(jì)算出一組路由權(quán)重(Routingweights),即動(dòng)態(tài)系數(shù)( α?α?α? ,這組系數(shù)與專(zhuān)家數(shù)量相同,每個(gè)系數(shù)對(duì)應(yīng)一個(gè)專(zhuān)家。然后,這些動(dòng)態(tài)系數(shù)被用來(lái)對(duì)專(zhuān)家的卷積權(quán)重張量進(jìn)行加權(quán),從而生成一個(gè)最終的、與輸人相關(guān)的卷積層。動(dòng)態(tài)系數(shù)的生成過(guò)程如式(2)所示。對(duì)于輸入的特征圖 X ,使用全局平均池化將信息融合成向量,然后使用具有softmax激活函數(shù)的多層感知器(MLP)模塊動(dòng)態(tài)生成動(dòng)態(tài)系數(shù):
通過(guò)將動(dòng)態(tài)卷積替換掉原Backbone網(wǎng)絡(luò)中的標(biāo)準(zhǔn)卷積操作,加強(qiáng)模型對(duì)不同檢測(cè)目標(biāo)的特征提取能力。
在動(dòng)態(tài)卷積的基礎(chǔ)上,進(jìn)一步設(shè)計(jì)了Bottleneck_DynamicConv和C2f_DynamicConv結(jié)構(gòu),如圖4所示。Neck網(wǎng)絡(luò)中部分C2f替換為C2f_DynamicConv,進(jìn)一步提升模型檢測(cè)性能。
1.2.2基于輕量級(jí)卷積GSConv的Neck網(wǎng)絡(luò)改進(jìn)為了平衡模型的計(jì)算復(fù)雜度,引入基于深度可分離卷積(Depthwise separable convolution,DSConv)[24]改進(jìn)的GSConv結(jié)構(gòu)及Slim-neck范式[25],其中Slim-neck設(shè)計(jì)范式的核心思想是利用模塊化、可組合的結(jié)構(gòu),靈活地設(shè)計(jì)和替換Neck網(wǎng)絡(luò)中的不同部分,從而在成本和性能之間找到最佳平衡。
深度可分離卷積可以減少參數(shù)量和浮點(diǎn)運(yùn)算,然而,深度可分離卷積的通道信息是彼此分離的,特征圖的空間壓縮和通道拓展將造成語(yǔ)義特征的丟失,尤其是在檢測(cè)目標(biāo)較小、模糊不清的情況下,以致模型特征提取能力大幅度下降,這將對(duì)目標(biāo)檢測(cè)的精度造成影響[26]。為更好地平衡計(jì)算復(fù)雜度和通道傳輸信息保留,研究中引入GSConv結(jié)構(gòu),如圖5所示。GSConv將標(biāo)準(zhǔn)卷積和深度可分離卷積生成的信息進(jìn)行Shuffle[27]操作,彼此充分混合和滲透,在不同的通道上均勻地交換局部特征信息。通過(guò)這個(gè)方法,既能減少模型參數(shù)和浮點(diǎn)運(yùn)算量,又能有效利用標(biāo)準(zhǔn)卷積的通道密集優(yōu)勢(shì),盡可能地保留小檢測(cè)目標(biāo)的語(yǔ)義信息。
input:輸人;output:輸出; C1 channels : C1 通道數(shù); C2 channels : C2 通道數(shù); C2/2 channels: C2/2 通道數(shù); Conv :卷積; DSConv :深度可分離卷積;Concat:連接操作;shuffle:混合; GSConv GSConv 卷積。
基于GSConv,引人GSbottleneck和VoV-GSCSP模塊,并根據(jù)Slim-neck范式,靈活使用GSConv和VoV-GSCSP替換原Neck網(wǎng)絡(luò)中的Conv和C2f結(jié)構(gòu),以達(dá)到最優(yōu)性能。GSbottleneck和VoV-GSCSP的結(jié)構(gòu)如圖6所示。
input:輸人;output:輸出; Conv :卷積; GSConv GSConv 卷積;Con-cat:連接操作;GSbottleneck:GS瓶頸網(wǎng)絡(luò); VoV -GSCSP:跨階段部分網(wǎng)絡(luò)結(jié)構(gòu)。
由于大量使用GSConv會(huì)顯著增加網(wǎng)絡(luò)層數(shù),導(dǎo)致推理時(shí)間顯著增加,因此根據(jù)Slim-neck設(shè)計(jì)思路,選擇只在Neck部分使用GSConv和VoV-GSCSP替換原有的Conv和部分C2f模塊,如圖7所示。1.2.3CARAFE上采樣算子 ΥOLOv8n 模型默認(rèn)使用最近鄰插值法實(shí)現(xiàn)特征上采樣操作,這種方法實(shí)現(xiàn)簡(jiǎn)單,計(jì)算速度快,但由于插值結(jié)果缺乏連續(xù)性,可能會(huì)造成圖像灰度上的不連續(xù),在灰度變化大的地方可能會(huì)出現(xiàn)明顯的鋸齒狀,尤其是像草莓白粉病這類(lèi)邊緣不明顯的病害,插值后的圖像會(huì)使得原本模糊的邊緣仍然難以區(qū)分,嚴(yán)重影響病害特征信息的提取。因此,引入內(nèi)容感知特征重組上采樣算子(CARAFE)[28]代替原有的最近鄰插值上采樣算子。
P3:P3輸出層;P4:P4輸出層;P5:P5輸出層; Neck :頸部網(wǎng)絡(luò); Head :頭部網(wǎng)絡(luò);C2f_DynamicConv:引入動(dòng)態(tài)卷積的特征融合模塊;Concat:連接操作;CARAFE:內(nèi)容感知特征重組上采樣算子; GSConv GSConv 卷積; VoV -GSCSP:跨階段部分網(wǎng)絡(luò)結(jié)構(gòu);Detect:檢測(cè)頭;slim-neck:slim-neck 模塊。
CARAFE上采樣算子實(shí)現(xiàn)過(guò)程如圖8所示:假設(shè)給定一個(gè)尺寸為 C×H×W 的特征圖 X ,CARAFE將 X 進(jìn)行通道壓縮,得到尺寸為 C×σH×σW(σ 為上采樣倍率)新的特征圖 X′ ,通過(guò)核預(yù)測(cè)模塊,為 X′ 的每個(gè)目標(biāo)位置生成一個(gè)重組卷積核,然后利用這個(gè)卷積核對(duì)輸人特征 X 進(jìn)行重組,從而生成上采樣后的特征圖。
由于重組過(guò)程考慮了更相關(guān)的局部信息,可以更有效地捕捉和整合特征圖中的語(yǔ)義信息,從而提升特征圖的語(yǔ)義表達(dá)能力。引入CARAFE算子,可以使模型在處理復(fù)雜場(chǎng)景草莓葉片病害時(shí),能夠更準(zhǔn)確地捕捉和表達(dá)圖像中的重要信息,提高模型的 精度。
X :輸人特征圖; X′ :重組特征圖; H :特征圖高; W :特征圖寬; c :通道數(shù); Cm :壓縮后的通道數(shù); σ :上采樣倍率; Kup :重組核大??; :重組卷積核 σ;xl :輸入特征圖位置; N :正方形區(qū)域。
為直觀展示CARAFE上采樣方法相較于傳統(tǒng)上采樣技術(shù)的優(yōu)勢(shì),本研究選取深度神經(jīng)網(wǎng)絡(luò)中生成的一張?zhí)卣鲌D,首先進(jìn)行4倍的下采樣處理,然后再進(jìn)行2倍最近鄰插值上采樣與2倍CARAFE上采樣處理,結(jié)果如圖9所示。從圖中可以看出,最近鄰插值上采樣結(jié)果在目標(biāo)邊緣處出現(xiàn)了較為明顯的鋸齒狀偽影,而CARAFE上采樣結(jié)果在目標(biāo)邊緣部分呈現(xiàn)出更加細(xì)膩和自然的過(guò)渡,這說(shuō)明CARAFE上采樣能較好保留圖像細(xì)節(jié)和邊緣信息。
1.3模型檢測(cè)性能比較
首先比較了Backbone網(wǎng)絡(luò)不同位置Conv替換為DynamicConv、Neck網(wǎng)絡(luò)中引人C2f_DynamicConv模塊后模型對(duì)草莓葉片病害的檢測(cè)性能;然后分析了YOLOv8n原模型和改進(jìn)模型YOLOv8n-DGC對(duì)草莓葉片病害檢測(cè)性能差異,并開(kāi)展消融試驗(yàn)。消融試驗(yàn)方案如表1所示。最后,進(jìn)一步比較了目前流行的目標(biāo)識(shí)別模型FasterR-CNN、SSD、YOLOv5s、YOLOv7-tiny、YOLOv8s、YOLOv10n 與 YOLOv8n-DGC對(duì)草莓葉片病害的檢測(cè)性能差異。
1.4模型訓(xùn)練與測(cè)試
1.4.1試驗(yàn)平臺(tái)及參數(shù)設(shè)置本研究所使用的操作系統(tǒng)為Windows10,中央處理器(CPU)型號(hào)為In-tel Corei9-10900K 3.70GHz ,GPU型號(hào)為NVIDIAQuadroRTX5000(16G顯存)。所用語(yǔ)言為Py-thon3.9.7,深度學(xué)習(xí)框架為Pytorch2.0.1,并行計(jì)算平臺(tái)為CUDA11.7。試驗(yàn)中,圖像分辨率設(shè)置為640×640 ,迭代次數(shù)500,批量大小8,采用隨機(jī)梯度下降算法(SGD)優(yōu)化器,動(dòng)量參數(shù)0.937,權(quán)重衰減速率 .000 5 。
1.4.2模型評(píng)價(jià)指標(biāo)選取平均精度均值(Mean av-erageprecision, mAP )、精確率(Precision, P )、召回率(Recall, R )、模型大小、參數(shù)量、浮點(diǎn)運(yùn)算次數(shù)(Float-ingpoint operations, FLOPs )作為評(píng)估模型性能的指標(biāo)。平均精度均值、精確率和召回率公式如下:
a;原始圖像;b:深度神經(jīng)網(wǎng)絡(luò)生成的特征圖;c:特征圖進(jìn)行4倍下采樣后得到特征圖;d:利用最近鄰插值方法進(jìn)行2倍上采樣后的結(jié)果;e:利用CARAFE方法進(jìn)行2倍上采樣后的結(jié)果。
圖9最近鄰插值上采樣和內(nèi)容感知特征重組上采樣(CARAFE)效果對(duì)比
Fig.9Comparison ofefect between nearest nighor interpolationupsamplingandcontent-awarereassemblyoffeatures (CARAFE)upsampling
式中, APi 為第 i 個(gè)類(lèi)別的平均精度,即精確率與召回率( ?PRΦ? 曲線中曲線與坐標(biāo)軸所圍成的圖形面積。 TP 為正確預(yù)測(cè)的真陽(yáng)性樣本; FP 為錯(cuò)誤預(yù)測(cè)的假陽(yáng)性樣本; FN 為漏檢的假陰性樣本; n 為分類(lèi)類(lèi)別數(shù)。
2 結(jié)果與分析
2.1模型Backbone網(wǎng)絡(luò)不同位置Conv替換為DynamicConv對(duì)檢測(cè)性能的影響
基準(zhǔn)模型Backbone網(wǎng)絡(luò)不同位置Conv替換為DynamicConv對(duì)草莓葉片病害檢測(cè)性能的影響如表2所示。從表中可以看出,主干網(wǎng)絡(luò)(Backbone)中第3個(gè)標(biāo)準(zhǔn)卷積(Conv)替換為動(dòng)態(tài)卷積的效果最好, mAP50,mAP50:95 、精確率和召回率分別為88.2%.58.2%.87.0% 和 83.5% ,且模型大小、參數(shù)量和浮點(diǎn)運(yùn)算量均最低。其原因可能在于,深度神經(jīng)網(wǎng)絡(luò)中,靠近輸人層的卷積層主要負(fù)責(zé)提取圖像中的邊緣、紋理等低級(jí)特征,而靠近輸出層的卷積層則更多地學(xué)習(xí)高級(jí)語(yǔ)義特征,負(fù)責(zé)更為復(fù)雜、抽象的圖像特征提取,且主要表現(xiàn)為語(yǔ)義信息[29]。第3個(gè)卷積層處于Backbone的中間部分,既能夠捕捉較為細(xì)節(jié)的局部特征,又能夠?qū)W習(xí)一定的全局特征,將該位置的Conv替換為DynamicConv,能充分發(fā)揮動(dòng)態(tài)卷積的自適應(yīng)調(diào)整能力,使得模型在局部特征和全局信息之間取得更好的平衡,從而提升檢測(cè)性能。
2.2 C2f_DynamicConv在Neck中的效果
C2f是YOLOv8中用于提取多層次特征的基礎(chǔ)模塊。該模塊通過(guò)分裂特征圖和跨層連接,有效地提高了網(wǎng)絡(luò)的表達(dá)能力,促進(jìn)了梯度信息流動(dòng)。將Neck 網(wǎng)絡(luò)中的部分C2f 替換為 C2f_DynamicConv,能在不同的層級(jí)和尺度上選擇更合適的卷積核,使得特征能夠在多個(gè)層次上得到優(yōu)化,增強(qiáng)了多尺度特征的融合能力,這有助于提高模型對(duì)不同尺度物體的檢測(cè)能力,進(jìn)一步提升模型的目標(biāo)檢測(cè)性能。將Neck網(wǎng)絡(luò)中的部分C2f替換為C2f_DynamicConv后,模型對(duì)草莓葉片病害的檢測(cè)性能的影響如表3所示。從表中可以看出,替換后,模型對(duì)草莓葉片病害檢測(cè)的 mAP50?mAP50:95 、精確率分別較替換前增加1.1個(gè)百分點(diǎn)、0.7個(gè)百分點(diǎn)和2.3個(gè)百分點(diǎn),模型大小和參數(shù)量略有增加,但模型浮點(diǎn)運(yùn)算量下降3.9% 。
2.3 消融試驗(yàn)
引入不同替換模塊對(duì)模型檢測(cè)性能影響的消融試驗(yàn)結(jié)果如表4所示。從表中可以看出,采用Dy-namicConv替換第3個(gè)Conv模塊和C2f_DynamicCo-nv替換Neck部分C2f的方案1后,模型對(duì)草莓葉片病害檢測(cè)的 mAP50?mAP50:95 、召回率分別比基準(zhǔn)模型提高0.8個(gè)百分點(diǎn)、0.5個(gè)百分點(diǎn)和1.3個(gè)百分點(diǎn),模型大小和參數(shù)量分別增加 6.3% 和 6.7% ,浮點(diǎn)運(yùn)算量減少 6.2% 。單獨(dú)利用GSConv卷積和Slim-neck模塊的方案2后,模型對(duì)草莓葉片病害檢測(cè)的 、召回率分別比基準(zhǔn)模型提高0.9個(gè)百分點(diǎn)、0.5個(gè)百分點(diǎn)和1.4個(gè)百分點(diǎn),模型大小、參數(shù)量及浮點(diǎn)運(yùn)算量分別減少 4.8%.6.7% 和6.2% ,這表明GSConv模塊對(duì)模型精度有一定的促進(jìn)作用,同時(shí)也帶來(lái)檢測(cè)效率的提高。單獨(dú)利用CARAFE算子進(jìn)行上采樣的方案3后,模型對(duì)草莓葉片病害檢測(cè)的 mAP50?mAP50:95 、召回率分別比基準(zhǔn)模型提高1.1個(gè)百分點(diǎn)、0.8個(gè)百分點(diǎn)和0.3個(gè)百分點(diǎn),模型大小、參數(shù)量及浮點(diǎn)運(yùn)算量分別增加4.8%.3.3% 和 3.7% ,說(shuō)明CARAFE算子的使用能減少草莓葉片病害細(xì)小病斑的特征信息丟失,確保特征信息的完整性,更有效地捕捉和整合特征圖中的語(yǔ)義信息。同時(shí)利用DynamicConv模塊和GSConv模塊進(jìn)行替換的方案4后,模型對(duì)草莓葉片病害檢測(cè)的 mAP50?mAP50:95 、精確率分別比基準(zhǔn)模型提高0.5個(gè)百分點(diǎn)、0.8個(gè)百分點(diǎn)和1.1個(gè)百分點(diǎn),模型大小和參數(shù)量無(wú)變化,浮點(diǎn)運(yùn)算量減少11.1% 。同時(shí)利用CARAFE與DynamicConv模塊替代后(方案5),模型對(duì)草莓葉片病害檢測(cè)的 mAP50 、mAP50:95 、召回率分別比基準(zhǔn)模型提高1.5個(gè)百分點(diǎn)
個(gè)百分點(diǎn)和1.0個(gè)百分點(diǎn),模型大小和參數(shù)量分別增加 11.1% 和 10.0% ,而浮點(diǎn)運(yùn)算量減少2.5% 。同時(shí)利用CARAFE與GSConv模塊替代后(方案6),模型對(duì)草莓葉片病害檢測(cè)的 mAP50 、mAP50:95 、召回率分別比基準(zhǔn)模型提高0.2個(gè)百分點(diǎn)
個(gè)百分點(diǎn)和1.0個(gè)百分點(diǎn),模型大小、參數(shù)量和浮點(diǎn)運(yùn)算量分別減少增加 1.6%.3.3% 和2.5% 。同時(shí)利用3個(gè)替換模塊的方案7,模型對(duì)草莓葉片病害檢測(cè)的 mAP50?mAP50:95 、精確率和召回率分別比基準(zhǔn)模型提高2.5個(gè)百分點(diǎn)、1.5個(gè)百分點(diǎn)、1.6個(gè)百分點(diǎn)和1.6個(gè)百分點(diǎn),模型大小和參數(shù)量分別增加 3.2% 和 3.3% ,而浮點(diǎn)運(yùn)算量減少8.6% ,效果最好。這說(shuō)明DynamicConv的使用能增強(qiáng)卷積層對(duì)局部和全局特征的提取能力,CARAFE的使用能確保上采樣過(guò)程中細(xì)節(jié)特征的完整性,模型在特征提取和融合上表現(xiàn)出更強(qiáng)的適應(yīng)性和準(zhǔn)確性,提高了模型的魯棒性,特別適合背景干擾較多、形態(tài)復(fù)雜的葉片病害檢測(cè)。
2.4YOLOv8n模型與改進(jìn)模型YOLOv8n-DGC 的檢測(cè)效果對(duì)比
改進(jìn)模型YOLOv8n-DGC和原模型YOLOv8n對(duì)草莓葉片病害檢測(cè)效果如圖10所示。從圖中可以看出,改進(jìn)后的模型能降低草莓葉片病害的漏檢率與錯(cuò)檢率,且病害識(shí)別置信度也有所提高。這說(shuō)明引人動(dòng)態(tài)卷積能加強(qiáng)模型對(duì)復(fù)雜背景和病害樣本中草莓葉片病害的特征提取和學(xué)習(xí)能力;引入GSConv能降低模型的參數(shù)量,提高模型的特征融合能力;利用CARAFE算子替換最近鄰插值法進(jìn)行上采樣,使得草莓葉片病害的特征信息更易被理解和表達(dá),從而使改進(jìn)后的模型識(shí)別效果優(yōu)于原模型。圖11為不同迭代次數(shù)下,YOLOv8nDGC模型和 $\Upsilon _ { ? } 0 \mathrm { L O v } 8 \mathrm { n }$ 模型對(duì)草莓葉片病害檢測(cè)的平均精度均值變化特征。從圖中可以看出,經(jīng)過(guò)幾十次訓(xùn)練迭代后,2個(gè)模型檢測(cè)的 mAP 開(kāi)始產(chǎn)生差距;迭代次數(shù)達(dá)500次時(shí),2個(gè)模型都趨于穩(wěn)定,且差距明顯。
2.5改進(jìn)YOLOv8n與其他模型的草莓葉片病害檢測(cè)性能比較
改進(jìn)YOLOv8n模型(YOLOv8n-DGC)與其他模型Faster R-CNN、SSD、 ΥOLOv5s 、YOLOv7-tiny、YOLOv8s、YOLOv10n等對(duì)草莓葉片病害檢測(cè)性能的比較結(jié)果如表5所示。從表中可以看出,F(xiàn)asterR-CNN和SSD模型對(duì)草莓葉片病害識(shí)別的平均精度均值( mAP50 )分別僅為 59.8% 和 58.2% ,且參數(shù)量和浮點(diǎn)運(yùn)算量巨大,不能滿足草莓葉片病害檢測(cè)的精度要求。YOLOv5s模型對(duì)的草莓葉片病害識(shí)別的平均精度均值( .mAP50 )較高,達(dá) 87.7% ,但參數(shù)量和浮點(diǎn)運(yùn)算量同樣較大,分別為YOLOv8n-DGC模型的2.26倍、2.14 倍。同樣,YOLOv7-tiny、YOLOv8s模型的參數(shù)量和浮點(diǎn)運(yùn)算量分別是YOLOv8n-DGC模型的1.94倍、3.58倍和1.76倍、3.84倍,且檢測(cè)的平均精度均值( (mAP50 )分別比 ΥOLOv8n -DGC模型低4.4個(gè)百分點(diǎn)和1.3個(gè)百分點(diǎn)。 YOLOv10n 模型的參數(shù)量低于YOLOv8n-DGC模型,但其檢測(cè)的精度均值( mAP50 )亦低3.5個(gè)百分點(diǎn)。上述結(jié)果說(shuō)明,改進(jìn)后的YOLOv8n-DGC模型綜合性能較優(yōu),即本研究提出的改進(jìn)算法在草莓葉片病害檢測(cè)中是有效的。
檢測(cè)框后的數(shù)字為置信度。
mAP50?mAP50:95 見(jiàn)表3注。
3結(jié)論
本研究以YOLOv8n模型為基準(zhǔn)模型,利用Dy-namicConv替換原模型Backbone網(wǎng)絡(luò)的第3個(gè)標(biāo)準(zhǔn)卷積(Conv),利用C2f_DynamicConv模塊替換Neck網(wǎng)絡(luò)的部分C2f模塊,根據(jù)Slim-neck 范式,引入GSConv和VoV-GSCSP重新設(shè)計(jì)Neck網(wǎng)絡(luò),增強(qiáng)Neck網(wǎng)絡(luò)的特征表達(dá)能力,并使用CARAFE算子替換最近鄰插值法進(jìn)行上采樣,擴(kuò)大上采樣過(guò)程的感受野,構(gòu)建了改進(jìn)的YOLOv8n模型——YOLOv8n-DGC,并用于果園環(huán)境下草莓葉片病害的檢測(cè)。改進(jìn)后的模型YOLOv8n-DGC對(duì)草莓葉片病害檢測(cè)的$m A P _ { 5 0 } \ 、 m A P _ { 5 0 : 9 5 }$ 、精確率和召回率分別比基準(zhǔn)模型提高2.5個(gè)百分點(diǎn)、1.5個(gè)百分點(diǎn)、1.6個(gè)百分點(diǎn)和1.6個(gè)百分點(diǎn),模型大小和參數(shù)量分別增加 3.2% 和3.3% ,而浮點(diǎn)運(yùn)算量減少 8.6% ,效果較好。與Fas-ter R-CNN、SSD、 ΥOLOv5s 、YOLOv7-tiny等模型相比,YOLOv8n-DGC模型更好地實(shí)現(xiàn)檢測(cè)精度與效率的平衡,更適合布置到輕量化的檢測(cè)設(shè)備或終端中。目前模型主要用于病害類(lèi)型的檢測(cè),而對(duì)病害感染程度的評(píng)估能力仍不足,未來(lái)的研究中可以通過(guò)引入多任務(wù)學(xué)習(xí)或其他相關(guān)方法,進(jìn)一步豐富模型的功能,實(shí)現(xiàn)病害類(lèi)型及感染程度的檢測(cè),為果農(nóng)提供更為準(zhǔn)確的病害診斷和管理建議。此外,還可以進(jìn)一步豐富數(shù)據(jù)集,提高模型的可信度,為果園的智慧化生產(chǎn)提供精準(zhǔn)的決策支持。
參考文獻(xiàn):
[1]曹丹,張明,王競(jìng),等.土壤改良劑對(duì)連作草莓生長(zhǎng)及品質(zhì)的影響[J].現(xiàn)代農(nóng)業(yè)科技,2024(3):52-55.
[2] 潘少香,劉雪梅,鄭曉冬,等.基于質(zhì)構(gòu)分析的鮮食草莓質(zhì)地感官品質(zhì)綜合評(píng)價(jià)[J].食品科技,2023,48(8):37-43.
[3] 唐歆玥,曹葉婷,鄧明益,等.檸檬醛對(duì)草莓貯藏期間品質(zhì)和抗氧化能力的影響[J].食品安全質(zhì)量檢測(cè)學(xué)報(bào),2024,15(2):131-140.
[4] 楊海艷,王洪玲,鐘國(guó)躍,等.草莓屬植物資源分布、化學(xué)成分、藥理活性研究進(jìn)展[J].中成藥,2022,44(2):510-518.
[5]聯(lián)合國(guó)糧食及農(nóng)業(yè)組織(FAO).糧農(nóng)組織統(tǒng)計(jì)數(shù)據(jù)庫(kù)—糧食和農(nóng)業(yè)數(shù)據(jù)[DB/OL].[2024-10-01].http://www.fao.org/faostat/zh/#Data/QCL.
[6] 劉玉娟,劉顏達(dá),閆振,等.注意力機(jī)制的混合卷積高光譜圖像分類(lèi)方法[J].光譜學(xué)與光譜分析,2024,44(10):2916-2922.
[7] GIRSHICKR,DONAHUEJ,DARRELLT,etal.Richfeaturehierarchies for accurate object detection and semantic segmentationternRecognition.Columbus,OH,USA:IEEE,2014:580-587.
[8]GIRSHICK R. Fast R-CNN[C]//IEEE. 2015 IEEE InternationalConference on Computer Vision(ICCV). Santiago,Chile:IEEE,2015:1440-1448.
[9]REN S Q,HE K M,GIRSHICK R,et al. Faster R-CNN:towardsreal-time object detection with region proposal networks[J]. IEEETransactions on Pattern Analysis and Machine Inteligence,2017,39(6):1137-1149.
[10]REDMON J,DIVVALA S,GIRSHICK R,etal. You only lookonce:unified,real-time object detection[C]//IEEE.2016 IEEEConference on Computer Vision and Pattrn Recognition.Las Ve-gas,NV,USA:IEEE,2016:779-788.
[11]REDMON J,F(xiàn)ARHADI A.YOLO9000: better,faster,stronger[C]//IEEE:2017 IEEE Conference on Computer Vision and Pat-ternRecognition.Honolulu,HI,USA:IEEE,2017:6517-6525.
[12]REDMON J,F(xiàn)ARHADI A. YOLOv3:an incremental improvement[EB/OL].(2018-04-08).htps://arxiv.org/abs/1804.02767v1.
[13]BOCHKOVSKIY A,WANG C Y,LIAO H M.YOLOv4:optimalspeed and accuracy of object detection[EB/OL].(2020-04-23).https://arxiv.org/abs/2004.10934v1.
[14]LIUW,ANGUELOV D,ERHAND,et al.SSD:single shotMultiBox detector[M]//ECCV.ComputerVision-ECCV 2016.Cham:Springer International Publishing,2016:21-37.
[15]楊宇游,潘文林.基于改進(jìn)YOLOv5的草莓病害檢測(cè)[J].云南民族大學(xué)學(xué)報(bào)(自然科學(xué)版),2024,33(5):624-629.
[16]LI Y,WANG JC,WU HR,et al. Detection of powdery mildewon strawberry leaves based on DAC-YOLOv4 model[J]. Computersand Electronics in Agriculture,2022,202:107418.
[17]公徐路,張淑娟.基于改進(jìn)YOLOv5s的蘋(píng)果葉片小目標(biāo)病害輕量化檢測(cè)方法[J].農(nóng)業(yè)工程學(xué)報(bào),2023,39(19):175-184.
[18]時(shí)雷,楊程凱,雷鏡楷,等.基于改進(jìn)YOLOv8s的小麥小穗赤霉病檢測(cè)研究[J].農(nóng)業(yè)機(jī)械學(xué)報(bào),2024,55(7):280-289.
[19]胡根生,謝一帆,鮑文霞,等.基于輕量型網(wǎng)絡(luò)的無(wú)人機(jī)遙感圖像中茶葉枯病檢測(cè)方法[J].農(nóng)業(yè)機(jī)械學(xué)報(bào),2024,55(4):165-175.
[20]羅友璐,潘勇浩,夏順興,等.基于改進(jìn)YOLOv8的蘋(píng)果葉病害輕量化檢測(cè)算法[J].智慧農(nóng)業(yè)(中英文),2024,6(5):128-138.
[21]賀英豪,唐德釗,倪銘,等.基于改進(jìn)YOLOv5對(duì)果園環(huán)境中李的識(shí)別[J].華中農(nóng)業(yè)大學(xué)學(xué)報(bào),2024,43(5):31-40.
[22]HANK,WANGYH,GUO JY,et al. ParameterNet:parametersare all you need for large-scale visual pretraining of mobile net-works[C]//IEEE.2024 IEEE/CVF Conference on Computer Vi-sion and Pattern Recognition.Seattle,WA,USA:IEEE,2024:15751-15761.
[23]涂智榮,凌海英,李幗,等.基于改進(jìn)YOLOv7-Tiny的輕量化百香果檢測(cè)方法[J].廣西師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2024,42(5) :79-90.
[24]CHOLLET F. Xception;deep learning with depthwise separableconvolutions[C]//IEEE:2O17 IEEE Conference on Computer Vi-sionandPattern Recognition.Honolulu,HI,USA:IEEE,2017:1800-1807.
[25]LIHL,LIJ,WEIHB,etal.Slim-neckbyGSConv:alight-weight-design forreal-timedetector architectures[J].Journal ofReal-Time Image Processing,2024,21(3):62.
[26]張佳承,韋錦,陳義時(shí).改進(jìn)YOLOv8的實(shí)時(shí)輕量化魯棒綠籬檢測(cè)算法[J/OL].計(jì)算機(jī)工程[2024-10-01].https://doi.org/10.19678/j.issn.1000-3428.0069524.
[27]ZHANGXY,ZHOUXY,LINMX,et al.ShuffleNet:an ex-tremelyeficientconvolutional neural network for mobile devices[C]//IEEE.2O18 IEEE/CVF Conference on Computer VisionandPatternRecognition.SaltLakeCity,UT,USA:IEEE,2018:6848-6856.
[28]WANGJQ,CHENK,XUR,etal.CARAFE:content-awareRe-AssemblyofFEatures[C]//IEEE.2O19IEEE/CVFInternationalConference on Computer Vision.Seoul,Korea(South):IEEE,2019:3007-3016.
[29]張順,龔怡宏,王進(jìn)軍.深度卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展及其在計(jì)算機(jī)視覺(jué)領(lǐng)域的應(yīng)用[J].計(jì)算機(jī)學(xué)報(bào),2019,42(3):453-482.
(責(zé)任編輯:石春林)