doi:10.15889/j.issn.1002-1302.2024.20.020
摘要:針對(duì)3~5葉期玉米田間伴生雜草目標(biāo)尺度小、玉米葉片遮擋嚴(yán)重、田間自然環(huán)境復(fù)雜等導(dǎo)致檢測(cè)精度不高的問題,提出了一種基于改進(jìn)YOLO v8n的玉米田間雜草檢測(cè)算法。首先下載涵蓋了黑麥草、芥菜、甘菊、藜麥等常見伴生雜草和玉米幼苗的圖像,對(duì)圖像進(jìn)行翻轉(zhuǎn)等數(shù)據(jù)增強(qiáng)方式增加樣本多樣性,提升模型識(shí)別和泛化能力。其次在YOLO v8n網(wǎng)絡(luò)基礎(chǔ)上,重新構(gòu)建了輕量級(jí)跨尺度特征融合網(wǎng)絡(luò),增強(qiáng)模型多尺度特征融合能力,并輸出一個(gè)針對(duì)小目標(biāo)雜草的預(yù)測(cè)層,提升網(wǎng)絡(luò)的檢測(cè)精度。最后,在4個(gè)目標(biāo)檢測(cè)頭前嵌入高效多尺度注意力機(jī)制EMA,使得檢測(cè)頭更加專注于目標(biāo)區(qū)域。試驗(yàn)結(jié)果表明,本模型的平均精度均值提升了2.4百分點(diǎn)、雜草的平均精度提升了5.1百分點(diǎn),模型內(nèi)存用量和參數(shù)量分別減小了22.6%和26.0%;本模型與SSD-MobileNet v2、Efficientdet-D0及YOLO系列目標(biāo)檢測(cè)模型相比,平均精度均值至少提升了1.8百分點(diǎn)、識(shí)別雜草的平均精度至少提升了4.6百分點(diǎn),并且模型內(nèi)存用量和參數(shù)量都處在較低水平。本研究提出的玉米田間雜草檢測(cè)模型在降低了模型內(nèi)存用量和參數(shù)量的同時(shí)提高了檢測(cè)精度,可為精準(zhǔn)除草設(shè)備提供技術(shù)支持。
關(guān)鍵詞:玉米田;雜草;目標(biāo)檢測(cè);YOLO v8n;EMA注意力機(jī)制
中圖分類號(hào):S126;TP391.41" 文獻(xiàn)標(biāo)志碼:A
文章編號(hào):1002-1302(2024)20-0165-08
收稿日期:2024-03-25
基金項(xiàng)目:國(guó)家自然科學(xué)基金(編號(hào):62203285);陜西省自然科學(xué)基礎(chǔ)研究計(jì)劃(編號(hào):2022JQ-181);西安市科技計(jì)劃(編號(hào):23NYGG0070)。
作者簡(jiǎn)介:亢" 潔(1973—),女,陜西渭南人,博士,副教授,碩士生導(dǎo)師,主要從事機(jī)器視覺、智慧農(nóng)業(yè)方面的研究。E-mail:kangjie@sust.edu.cn。
玉米是我國(guó)主要農(nóng)作物之一,隨著農(nóng)業(yè)生產(chǎn)的不斷發(fā)展,對(duì)玉米田間雜草進(jìn)行有效控制成為保障玉米產(chǎn)量和質(zhì)量的一項(xiàng)緊迫任務(wù)。雜草以其迅猛的生長(zhǎng)速度和玉米幼苗競(jìng)爭(zhēng)養(yǎng)分、水分,對(duì)玉米幼苗生長(zhǎng)造成了威脅。目前,玉米田間雜草的清除主要是以大面積噴灑除草劑為主,這種噴灑方式不區(qū)分作物與雜草,不但造成大量除草劑的浪費(fèi),而且還污染水源以及土壤,影響玉米幼苗生長(zhǎng)。為了減少農(nóng)藥浪費(fèi)、保護(hù)自然環(huán)境、保障作物生長(zhǎng),基于雜草檢測(cè)的精準(zhǔn)噴灑研究十分必要[1-5]。
在精準(zhǔn)噴灑的過程中,對(duì)于玉米幼苗以及雜草進(jìn)行準(zhǔn)確、快速檢測(cè)與識(shí)別是實(shí)現(xiàn)精準(zhǔn)噴灑的關(guān)鍵。傳統(tǒng)雜草自動(dòng)識(shí)別方法依賴手工設(shè)計(jì)特征,如形狀和紋理,再使用支持向量機(jī)或神經(jīng)網(wǎng)絡(luò)等機(jī)器學(xué)習(xí)模型分類。Deng等通過提取雜草圖像的顏色、形狀和紋理特征,并對(duì)其進(jìn)行歸一化處理以解決稻田中雜草單一特征識(shí)別精度低的問題;Bakhshipour等利用圖像濾波提取顏色和區(qū)域特征,然后對(duì)場(chǎng)景中每個(gè)目標(biāo)進(jìn)行標(biāo)記,提出一種基于區(qū)域的分類方法,包括敏感度、特異性、正預(yù)測(cè)值和負(fù)預(yù)測(cè)值;Wu等通過圖像處理計(jì)算紋理、形狀、顏色等特征來(lái)識(shí)別作物或雜草。盡管傳統(tǒng)雜草自動(dòng)識(shí)別方法在某些情況下表現(xiàn)不錯(cuò),但存在以下限制:特征設(shè)計(jì)復(fù)雜、通用性差、難以適應(yīng)新雜草種類和環(huán)境以及識(shí)別準(zhǔn)確度有限,特別是在需要高準(zhǔn)確度的田間噴灑作業(yè)中[6-9]。
隨著近年來(lái)深度學(xué)習(xí)方法不斷發(fā)展,深度學(xué)習(xí)算法被廣泛應(yīng)用,具有強(qiáng)大的特征學(xué)習(xí)能力,可以通過卷積神經(jīng)網(wǎng)絡(luò)(CNN)有效提取雜草的判別特征,避免了傳統(tǒng)特征提取方法的弊端。Potena等提出基于RGB+NIR圖像的多步視覺系統(tǒng),使用2種不同的CNN架構(gòu)對(duì)農(nóng)作物和雜草進(jìn)行分類。孫俊等在AlexNet模型的基礎(chǔ)上,構(gòu)建了一種空洞卷積與全局池化相結(jié)合的卷積神經(jīng)網(wǎng)絡(luò)模型,對(duì)不同種類的作物幼苗與雜草具有良好的檢測(cè)性能。李彧等提出了一種基于全卷積神經(jīng)網(wǎng)絡(luò)的玉米田間雜草識(shí)別算法,主要通過數(shù)據(jù)增強(qiáng)的方法擴(kuò)增數(shù)據(jù)集,提升模型的檢測(cè)性能。溫德圣等針對(duì)不同光照條件下雜草識(shí)別特征信息容易缺失的問題,提出了一種基于深度卷積神經(jīng)網(wǎng)絡(luò)的雜草識(shí)別方法,通過在卷積神經(jīng)網(wǎng)絡(luò)基礎(chǔ)上構(gòu)建Inceptionv3分類器,根據(jù)比對(duì)待檢測(cè)物體與標(biāo)準(zhǔn)對(duì)照物之間的差異性,給出識(shí)別結(jié)果??簼嵉忍岢隽艘环N多尺度融合模塊和特征增強(qiáng)的雜草檢測(cè)模型,利用不同的擴(kuò)張卷積來(lái)增大感受野,強(qiáng)化嵌入層的特征,提高模型識(shí)別性能[10-15]。
上述研究在檢測(cè)效果方面已經(jīng)取得了一定的成果,但仍有一些不足:未準(zhǔn)確地關(guān)注到玉米除草的最佳時(shí)期——玉米的3~5葉期。在這個(gè)階段,雜草的生長(zhǎng)速度通常會(huì)超過玉米,因此及時(shí)施藥可以有效地抑制雜草的生長(zhǎng),同時(shí)對(duì)玉米的影響也最小。與此同時(shí),在玉米3~5葉期田間雜草的目標(biāo)尺度較小,容易受到玉米葉片的遮擋以及復(fù)雜的田地環(huán)境的影響,這給提高檢測(cè)算法的精度帶來(lái)了極大困難。為了解決上述問題,本研究在標(biāo)準(zhǔn)YOLO v8n算法基礎(chǔ)上提出一種重新構(gòu)建特征融合網(wǎng)絡(luò)并嵌入注意力機(jī)制的玉米田間雜草檢測(cè)網(wǎng)絡(luò)。在包含小目標(biāo)雜草、復(fù)雜的田地環(huán)境、相互遮擋等情況下的玉米田間數(shù)據(jù)集中進(jìn)行驗(yàn)證,并與其他檢測(cè)算法做對(duì)比,驗(yàn)證了本研究方法的有效性。
1" 基于改進(jìn)YOLO v8n的玉米田間雜草檢測(cè)模型
YOLO v8n網(wǎng)絡(luò)由4部分組成:輸入端、骨干網(wǎng)絡(luò)、頸部、檢測(cè)頭部。在輸入端,圖像經(jīng)歷了鑲嵌數(shù)據(jù)增強(qiáng)、自適應(yīng)錨點(diǎn)計(jì)算和自適應(yīng)灰度填充等預(yù)處理步驟。骨干網(wǎng)絡(luò)由CBS模塊、C2f模塊和SPPF模塊組成。CBS模塊的主要結(jié)構(gòu)包含一個(gè)普通的2D卷積、批量歸一化和SiLU激活函數(shù)。C2f模塊由CBS模塊、瓶頸模塊和通道融合模塊Concat組成。頸部層由路徑聚合網(wǎng)絡(luò)(PANet)組成,采用自底向上和自頂向下的結(jié)構(gòu)對(duì)特征圖進(jìn)行特征融合。檢測(cè)頭部則采用了解耦頭部結(jié)構(gòu),使用2個(gè)獨(dú)立的分支分別負(fù)責(zé)對(duì)象分類和預(yù)測(cè)邊界框回歸。
YOLO v8n考慮了對(duì)象的多尺度性質(zhì),使用3個(gè)尺度檢測(cè)層來(lái)適應(yīng)不同尺度的對(duì)象。但是在頸部直接對(duì)特征圖進(jìn)行拼接,未能充分考慮目標(biāo)信息在特征圖之間的關(guān)系,尤其是對(duì)于小目標(biāo)雜草而言。小目標(biāo)雜草具有較低的分辨率,而簡(jiǎn)單的特征拼接無(wú)法有效地捕捉到這些目標(biāo)的細(xì)微特征,從而導(dǎo)致檢測(cè)性能下降。
為了解決上述問題,本研究提出了一種基于改進(jìn)YOLO v8n的玉米田地雜草檢測(cè)模型,結(jié)構(gòu)如圖1所示。檢測(cè)模型整體由4部分組成:主干網(wǎng)絡(luò)、輕量級(jí)跨尺度特征融合網(wǎng)絡(luò)(LCFN)、注意力機(jī)制層以及檢測(cè)頭。
主干網(wǎng)絡(luò):由CBS模塊、C2f模塊和SPPF模塊組成,用于提取多尺度特征圖,將主干網(wǎng)絡(luò)后4個(gè)階段的特征圖輸出到輕量級(jí)跨尺度特征融合網(wǎng)絡(luò)。
輕量級(jí)跨尺度特征融合網(wǎng)絡(luò)(LCFN):首先通過卷積對(duì)輸入的4個(gè)特征圖的通道數(shù)進(jìn)行調(diào)整,以減少網(wǎng)絡(luò)參數(shù)并實(shí)現(xiàn)信息的跨通道整合和交互。然后通過自底向上和自頂而下的網(wǎng)絡(luò)結(jié)構(gòu)實(shí)現(xiàn)特征融合,得到4個(gè)輸出特征圖。
注意力機(jī)制層:由4個(gè)標(biāo)準(zhǔn)的高效多尺度注意力(EMA)模塊組成,連接到輕量級(jí)跨尺度特征融合網(wǎng)絡(luò)的4個(gè)輸出特征圖后面,幫助網(wǎng)絡(luò)更加關(guān)注重點(diǎn)區(qū)域和特征中的細(xì)節(jié)。
檢測(cè)頭:經(jīng)過注意力機(jī)制層處理的特征圖在4個(gè)檢測(cè)頭進(jìn)行檢測(cè)。
1.1" 輕量級(jí)跨尺度特征融合網(wǎng)絡(luò)LCFN和小目標(biāo)預(yù)測(cè)層
3~5葉期玉米田間的雜草尺寸較小。淺層特征圖有更高的空間分辨率,能夠更好地捕獲圖像的細(xì)節(jié)信息,特別是小目標(biāo)和細(xì)微的目標(biāo)特征,因此特征融合網(wǎng)絡(luò)LCFN增加了淺層特征圖PIn2的輸入;1×1卷積用于調(diào)整主干網(wǎng)絡(luò)輸入特征圖的通道數(shù),實(shí)現(xiàn)跨通道的信息交互、降低計(jì)算復(fù)雜度并提高模型的表達(dá)能力;YOLO v8n原始網(wǎng)絡(luò)采用了Concat操作直接對(duì)2個(gè)特征圖按通道進(jìn)行拼接,但沒有充分關(guān)注特征圖中目標(biāo)信息之間的關(guān)系。通過應(yīng)用通道注意力和空間注意力對(duì)通道信息和空間位置進(jìn)行加權(quán),再用元素級(jí)乘法實(shí)現(xiàn)特征融合,結(jié)構(gòu)如圖2所示。
LCFN輸入的特征圖PIn2=[160×160×128]、PIn3=[80×80×256]、PIn4=[40×40×512]和PIn5=[20×20×1 024],經(jīng)過一個(gè)輸出通道數(shù)為256、卷積核大小為1×1的卷積后得到了PIn21、PIn31、PIn41、PIn51。
淺層特征PIn2具有較高的空間分辨率,能夠捕獲到圖像的細(xì)節(jié)信息。但是其通道數(shù)通常較少,表示的語(yǔ)義信息較少。通過增加深度,可以在保持空間分辨率的同時(shí),增加淺層特征的語(yǔ)義信息;中層特征PIn3經(jīng)過1×1卷積后雖然通道數(shù)并沒有改變,但是1×1卷積可以看作是在通道維度上的全連接層,使PIn3實(shí)現(xiàn)特征圖各個(gè)通道之間的信息交互;深層特征PIn4和PIn5具有較低的空間分辨率,但是深度
較大,包含了豐富的語(yǔ)義信息。然而,過大的深度可能會(huì)導(dǎo)致計(jì)算復(fù)雜度過高,而且不利于特征的可視化和理解。通過減少深度,可以在保持豐富語(yǔ)義信息的同時(shí),降低計(jì)算復(fù)雜度,提高模型的效率。
經(jīng)過卷積后得到的特征圖PIn21、PIn31、PIn41、PIn51,在LCFN當(dāng)中進(jìn)行特征融合,圖2中藍(lán)色圈表示的是自底向上的特征融合;綠色圈表示的是由頂而下的特征融合。自底向上的特征融合以PIn41和PIn51的融合為例,PIn51經(jīng)過上采樣后得到和PIn41具有相同尺寸的PIn511。對(duì)PIn41和PIn511應(yīng)用空間注意力和通道注意力后得到PIn411和PIn512,使得特征圖PIn411和PIn512可以集成局部空間信息和全局通道信息,公式如式(1)所示:
Q=c[s(PIn)]。(1)
式中:Q表示經(jīng)過空間注意力和通道注意力后輸出的特征圖,c和s分別表示通道注意力和空間注意力的權(quán)重。
PIn411和PIn512經(jīng)過1×1卷積后用元素級(jí)乘法合并得到連接后的特征圖PIn42。相比于Concat操作直接拼接特征圖,元素級(jí)乘法融合2個(gè)相同尺寸的特征圖并沒有增加特征圖的通道數(shù)。
將自底向上的特征融合中的上采樣替換成CBS模塊并在輸出后連接1個(gè)C2f模塊得到由頂而下的特征融合過程。特征融合過程中CBS和C2f模塊的輸出通道數(shù)都是256。
由頂而下的特征融合過程中得到了4個(gè)輸出特征圖,分別是POut2=[160×160×256]、POut3=[80×80×256]、POut4=[40×40×256]和POut5[20×20×256],其中POut2是增加的小目標(biāo)預(yù)測(cè)輸出,相對(duì)比原有的3個(gè)預(yù)測(cè)層,增加的POut2預(yù)測(cè)層增加了一定的參數(shù)量和占內(nèi)存空間,但其對(duì)小目標(biāo)雜草的檢測(cè)性能有一定程度提升。
1.2" 高效多尺度注意力EMA
在3~5葉期的玉米田地中,由于雜草尺寸較小且容易受到環(huán)境干擾的影響,對(duì)于細(xì)節(jié)特征的提取要求較為嚴(yán)格。在這種情況下,合理地運(yùn)用注意力機(jī)制可以為模型提供更加精細(xì)的定位和關(guān)注能力。通過注意力機(jī)制,模型可以將關(guān)注焦點(diǎn)集中在目標(biāo)區(qū)域,使模型能夠更準(zhǔn)確地識(shí)別和定位小尺寸的雜草。
EMA機(jī)制是由Ouyang等于2023年提出的,EMA的核心思想是激勵(lì)和調(diào)制機(jī)制。激勵(lì)機(jī)制通過計(jì)算輸入數(shù)據(jù)的內(nèi)積和參數(shù)來(lái)生成相似性矩陣。相似矩陣中的每個(gè)元素都表示輸入數(shù)據(jù)的一部分與參數(shù)之間的相似性,相似度越高,表示該部分更重要。調(diào)制機(jī)構(gòu)根據(jù)激勵(lì)機(jī)構(gòu)計(jì)算出的相似度矩陣調(diào)整每個(gè)部分的權(quán)重。EMA機(jī)制結(jié)構(gòu)如圖3所示[16]。
EMA機(jī)制有3個(gè)分支,首先將一個(gè)輸入特征圖X∈RC×H×W在通道方向上劃分為G個(gè)子特征,即 X=[X0,X1,…,XG-1]X∈RC×H×W。在分支1上將劃分的G個(gè)子特征圖與其他分支信息進(jìn)行融合;分支2采用二維平均池化對(duì)特征圖從高度和寬度2個(gè)方向進(jìn)行全局平均池化,公式如式(2)所示:
Zc=1H×W∑Hj∑WiXc(i,j)。(2)
式中:H和W表示特征圖的高度和寬度;Xc表示不同通道的特征張量。
分支3使用3×3卷積操作對(duì)特征圖進(jìn)行處理,有效地捕獲跨維度信息并與其他分支建立不同維度間的聯(lián)系。
EMA的3個(gè)分支整合了通道注意力和空間注意力的優(yōu)點(diǎn),同時(shí)捕獲全局通道依賴性和局部空間特征,在通道和空間維度之間獲取更加全面的特征。這使得它在小目標(biāo)、模糊目標(biāo)識(shí)別任務(wù)上具有更強(qiáng)大的應(yīng)對(duì)能力。
將EMA機(jī)制嵌入到目標(biāo)檢測(cè)網(wǎng)絡(luò)的設(shè)計(jì)如圖1所示,在4個(gè)目標(biāo)檢測(cè)頭前嵌入EMA注意力機(jī)制,
經(jīng)EMA處理的特征圖直接由檢測(cè)頭得到檢測(cè)結(jié)果,避免對(duì)EMA中目標(biāo)信息權(quán)重的影響。EMA機(jī)制將部分通道重塑為批量維度,避免了通道降維的情況,從而保留了每個(gè)通道的信息并降低了計(jì)算成本。所以嵌入4個(gè)注意力模塊對(duì)于網(wǎng)絡(luò)并沒有增加較多的參數(shù)量以及占內(nèi)存大小。
EMA機(jī)制動(dòng)態(tài)地調(diào)整了特征圖中目標(biāo)信息的權(quán)重,從而減少與模型無(wú)關(guān)信息的干擾,使得檢測(cè)頭更加專注于目標(biāo)區(qū)域。最終,小尺度目標(biāo)的特征更平衡地進(jìn)入檢測(cè)頭中,從而提高模型對(duì)較小的雜草的檢測(cè)精度。
2" 試驗(yàn)結(jié)果與分析
2.1" 試驗(yàn)設(shè)計(jì)
為了保障試驗(yàn)條件的一致性,本研究所有試驗(yàn)操作平臺(tái)均使用Ubuntu 20.04操作系統(tǒng)。在深度學(xué)習(xí)框架方面,采用了PyTorch 2.0.1版本。試驗(yàn)所用CPU為 Intel Xeon Platinum 8160T@2.10 GHz。同時(shí),為了進(jìn)行試驗(yàn)的深度學(xué)習(xí)計(jì)算,顯卡(GPU)為NVIDIA Tesla V100-16GB,其顯存容量為 16 GB。編程語(yǔ)言為Python。
試驗(yàn)參數(shù)的設(shè)定如下:初始學(xué)習(xí)率為0.001,采用隨機(jī)梯度下降法(SGD)來(lái)更新網(wǎng)絡(luò)參數(shù),學(xué)習(xí)動(dòng)量為0.935,權(quán)重衰減率為0.000 5。
本試驗(yàn)周期為2023年10月至2024年1月,試驗(yàn)地點(diǎn)為陜西科技大學(xué)(西安校區(qū))電氣與控制工程學(xué)院實(shí)驗(yàn)樓2B216實(shí)驗(yàn)室。
2.2" 圖像來(lái)源及處理
2.2.1" 圖像來(lái)源" 本研究使用來(lái)自于文獻(xiàn)[17]所提供的ACRE-Crop-Weed數(shù)據(jù)集。該數(shù)據(jù)集共500張圖像,涵蓋了黑麥草、芥菜、甘菊、藜麥等雜草和玉米幼苗,這些圖像的分辨率為2 046×1 080。部分圖像樣本如圖4所示,從圖4可以看出圖像具有以下特點(diǎn):玉米伴生雜草較小、玉米葉片遮擋雜草、自然光線下玉米和雜草陰影等復(fù)雜背景。雜草受多種干擾因素影響,與實(shí)際應(yīng)用的環(huán)境符合。
2.2.2" 圖像特征增強(qiáng)" 為增加試驗(yàn)數(shù)據(jù)集的多樣性,采用了圖像數(shù)據(jù)增強(qiáng)技術(shù),以擴(kuò)展數(shù)據(jù)規(guī)模、減少雜草識(shí)別模型對(duì)特定圖像屬性的依賴,減輕模型過擬合風(fēng)險(xiǎn),提高模型的穩(wěn)定性。對(duì)500張圖像以8 ∶1 ∶1的比例劃分為訓(xùn)練集、驗(yàn)證集、測(cè)試集。然后通過應(yīng)用常見的數(shù)據(jù)增強(qiáng)方法,如水平、垂直和鏡像翻轉(zhuǎn),提高數(shù)據(jù)多樣性。通過以上數(shù)據(jù)增強(qiáng)方法,數(shù)據(jù)集規(guī)模擴(kuò)展至2 000張圖像。這一系列操作旨在確保數(shù)據(jù)集的多樣性和模型的魯棒性。
2.2.3" 數(shù)據(jù)標(biāo)注" 采用圖像可視化標(biāo)注工具LabelImg對(duì)數(shù)據(jù)集中的圖像進(jìn)行標(biāo)注,以便識(shí)別玉米和雜草目標(biāo),并使用最小外接矩形框來(lái)確定它們的位置。標(biāo)注結(jié)果以標(biāo)準(zhǔn)的XML格式呈現(xiàn),其中包括圖像的路徑、尺寸(寬度和高度)、通道數(shù),以及有關(guān)玉米和雜草目標(biāo)的標(biāo)注框信息??偣泊嬖?種不同的標(biāo)簽類別:其中,玉米標(biāo)簽的數(shù)量為52 272個(gè),雜草標(biāo)簽的數(shù)量為309 504個(gè)。
2.3" 試驗(yàn)結(jié)果與分析
2.3.1" 評(píng)價(jià)指標(biāo)" 本研究采用平均精度(AP)、平均精度均值(mAP)、模型內(nèi)存用量和參數(shù)量對(duì)檢測(cè)模型的檢測(cè)效果進(jìn)行評(píng)估,平均精度由召回率(R)與準(zhǔn)確率(P)決定,是單個(gè)類別檢測(cè)性能結(jié)果的直觀標(biāo)準(zhǔn)。通過對(duì)準(zhǔn)確率與召回率曲線進(jìn)行積分計(jì)算得到曲線與坐標(biāo)軸構(gòu)成的面積即為平均精度,模型檢測(cè)效果越好,平均精度越高。在得到多個(gè)單一類別平均精度后,對(duì)其求平均值后得到平均精度均值。
2.3.2" 消融試驗(yàn)對(duì)比" 為了驗(yàn)證基于改進(jìn)YOLO v8n的玉米田間雜草檢測(cè)模型的有效性,將本研究模型(YOLO v8n+LCFN+P2+EMA)與標(biāo)準(zhǔn)YOLO v8n、YOLO v8n結(jié)合輕量級(jí)跨尺度特征融合網(wǎng)絡(luò)(YOLO v8n+LCFN)以及YOLO v8n結(jié)合輕量級(jí)跨尺度特征融合網(wǎng)絡(luò)并添加小目標(biāo)預(yù)測(cè)層(YOLO v8n+LCFN+P2)進(jìn)行消融試驗(yàn)。表1和圖5展示了不同改進(jìn)方法對(duì)網(wǎng)絡(luò)識(shí)別性能的影響。
從表1和圖5可知,LCFN作為特征融合網(wǎng)絡(luò)時(shí)模型的平均精度均值增長(zhǎng)了0.4百分點(diǎn),同時(shí)模型的內(nèi)存用量減小了32.3%、參數(shù)量減少了34.7%。這主要?dú)w結(jié)于LCFN網(wǎng)絡(luò)在特征融合時(shí)使用了空間注意力和通道注意力對(duì)特征圖的特征進(jìn)行加權(quán),最
后使用元素級(jí)乘法的方式進(jìn)行特征拼接,拼接后的特征圖通道數(shù)小于Concat操作,并且CBS模塊和C2f模塊的輸出通道數(shù)都是256,減少了模型的內(nèi)存用量大小和參數(shù)量。
當(dāng)采用在LCFN的基礎(chǔ)上通過輸入淺層特征圖PIn2以及添加小目標(biāo)預(yù)測(cè)層,模型的內(nèi)存用量和參數(shù)量雖然有一定上升,但是平均精度均值增長(zhǎng)了1.1百分點(diǎn),這主要?dú)w結(jié)于小目標(biāo)預(yù)測(cè)層具有更多小目標(biāo)細(xì)節(jié)信息。
將EMA模塊嵌入到檢測(cè)頭前,雖然模型占內(nèi)存有了一定增加,但是雜草的平均精度增長(zhǎng)了2百分點(diǎn),平均精度均值增長(zhǎng)了0.9百分點(diǎn)。最終,改進(jìn)后玉米田間雜草檢測(cè)模型的平均精度均值相較于YOLO v8n提高了2.4百分點(diǎn),模型內(nèi)存用量由 6.2 MB 減小到4.8 MB,減小了22.6%;模型參數(shù)量由3.00 M下降到2.22 M,減小了26%。
由以上分析可知,本研究提出的基于 YOLO v8n玉米田地雜草檢測(cè)模型在內(nèi)存用量和參數(shù)量都減小的情況下精度提升。
2.3.3" 引入不同注意力機(jī)制的檢測(cè)結(jié)果對(duì)比
為了進(jìn)一步驗(yàn)證EMA注意力機(jī)制的有效性,采用相同的訓(xùn)練集和測(cè)試集,將EMA注意力與其他常見注意力機(jī)制進(jìn)行對(duì)比,將本研究模型的注意力機(jī)制分別替換為CBAM注意力模塊、SimAM注意力模塊、CA注意力模塊、SE注意力模塊以及CPCA注意力模塊[18-23]進(jìn)行對(duì)比,對(duì)比試驗(yàn)結(jié)果如表2所示。
由表2可知,當(dāng)引入EMA注意力時(shí)模型的平均精度均值和雜草的平均精度最高并且參數(shù)量最少。所以本研究模型將EMA引入到注意力機(jī)制層。
2.3.4" 不同檢測(cè)模型性能對(duì)比分析
為了驗(yàn)證改進(jìn)雜草識(shí)別網(wǎng)絡(luò)在識(shí)別性能方面的優(yōu)勢(shì),更全面地評(píng)估此模型的性能,將本研究模型與SSD-MobileNet v2、Efficientdet-D0、YOLO v5n、YOLO v8n
及Ultralytics-YOLO v6檢測(cè)模型對(duì)比。均在同一搭建好的試驗(yàn)平臺(tái)進(jìn)行訓(xùn)練,并采用相同的訓(xùn)練集和測(cè)試集[24-25]。
由表3可知,本研究模型在數(shù)據(jù)集上的平均精度均值達(dá)到79.0%,在6個(gè)目標(biāo)檢測(cè)模型中最高,證明了本研究方法的有效性。
本研究模型的平均精度均值分別比 SSD-MobileNet v2、Efficientdet-D0、YOLO v5n、YOLO v8n、Ultralytics-YOLO v6高了30.5、22.8、11.1、2.4、1.8百分點(diǎn);本研究模型的內(nèi)存用量除大于Efficientdet-D0外,分別比 SSD-MobileNet v2、YOLO v5n、YOLO v8n、Ultralytics-YOLO v6減小了65.7%、9.4%、22.6%、38.5%;本研究模型的參數(shù)量除大于YOLO v5n外,分別比 SSD-MobileNet v2、Efficientdet-D0、YOLO v8n、Ultralytics-YOLO v6減小了 39.7%、42.0%、26.0%、47.5%。
為直觀地展示本研究模型對(duì)玉米田間雜草的檢測(cè)效果,將本研究模型與SSD-MobileNet v2、Efficientdet-D0、YOLO v5n、YOLO v8n和Ultralytics-YOLO v6在測(cè)試集中的檢測(cè)結(jié)果進(jìn)行對(duì)比分析。在陽(yáng)光斜向照射(第1組)和玉米葉片遮擋(第2組)2種情況下的檢測(cè)結(jié)果如圖6所示,所有的檢出目標(biāo)都用邊框標(biāo)記其位置,并顯示該目標(biāo)的所屬類別和置信度值。
從圖6可以看出,SSD-MobileNet v2和Efficientdet-D0模型在2組圖片中相比其他模型存在較多的漏檢,SSD-MobileNet v2在第1組中存在一個(gè)對(duì)于玉米幼苗的錯(cuò)檢(第1組中有2株玉米幼苗,而SSD-MobileNet v2檢測(cè)出3株),2個(gè)模型的檢測(cè)置信度都比較低。
YOLO v5n在2組圖片中的檢測(cè)置信度都較高,但是在第2組中存在漏檢(對(duì)比本研究模型可看出紅色檢測(cè)框中間有3株雜草沒有檢測(cè)到)。
YOLO v8n和Ultralytics-YOLO v6在2張圖片都有著不錯(cuò)的檢測(cè)效果,但是整體置信度仍低于本研究算法。以第2組中紅色檢測(cè)框左側(cè)雜草為例,在YOLO v8n、Ultralytics-YOLO v6和本研究模型中,本研究模型的置信度基本最高。
綜上所述,相比于其他模型,本研究提出的基于改進(jìn)YOLO v8n的玉米田間雜草檢測(cè)模型的檢測(cè)結(jié)果更符合實(shí)際要求,預(yù)測(cè)結(jié)果置信度值高,具有良好的泛化能力和魯棒性。
3" 結(jié)論
本研究針對(duì)3~5葉期玉米田間雜草具有目標(biāo)尺寸小,容易受玉米葉片遮擋以及復(fù)雜田間環(huán)境影響的特點(diǎn),重構(gòu)了YOLO v8n的特征融合網(wǎng)絡(luò),減小了模型的內(nèi)存用量和參數(shù)量,增加了一個(gè)小目標(biāo)預(yù)測(cè)層來(lái)增強(qiáng)對(duì)小目標(biāo)雜草的檢測(cè)能力。
為了增強(qiáng)玉米田間雜草檢測(cè)網(wǎng)絡(luò)的檢測(cè)精度,在每個(gè)檢測(cè)頭前嵌入了EMA注意力機(jī)制,增加的預(yù)測(cè)層一定程度上改善了網(wǎng)絡(luò)對(duì)于小目標(biāo)雜草的檢測(cè)能力,而注意力模塊動(dòng)態(tài)地調(diào)整了特征圖中目標(biāo)信息權(quán)重,從而減少與模型無(wú)關(guān)信息的干擾,使得檢測(cè)頭更加專注于目標(biāo)區(qū)域。改進(jìn)后模型對(duì)雜草的平均精度增加了5.1百分點(diǎn),內(nèi)存用量和參數(shù)量分別減小了22.6%和26.0%。
為了驗(yàn)證本研究玉米田間雜草檢測(cè)網(wǎng)絡(luò)的有效性,在同一數(shù)據(jù)集上與其他目標(biāo)檢測(cè)模型進(jìn)行對(duì)比試驗(yàn)。試驗(yàn)結(jié)果表明,本研究改進(jìn)的雜草檢測(cè)模型的平均精度均值分別比SSD-MobileNet v2、Efficientdet-D0、YOLO v5n、YOLO v8n、Ultralytics-YOLO v6高了30.5、22.8、11.1、2.4、1.8百分點(diǎn),并且參數(shù)量和模型占內(nèi)存空間也處于較低水平。
參考文獻(xiàn):
[1]劉莫塵,高甜甜,馬宗旭,等. 基于MSRCR-YOLO v4-tiny的田間玉米雜草檢測(cè)模型[J].農(nóng)業(yè)機(jī)械學(xué)報(bào),2022,53(2):246-255,335.
[2]王鵬飛. 基于深度學(xué)習(xí)的玉米田間雜草識(shí)別技術(shù)及應(yīng)用[D].泰安:山東農(nóng)業(yè)大學(xué),2019:75-81.
[3]Wang A,Zhang W,Wei X. A review on weed detection using ground-based machine vision and image processing techniques[J]. Computers and electronics in agriculture,2019,158:226-240.
[4]Liu B,Bruch R. Weed detection for selective spraying:a review[J]. Current Robotics Reports,2020,1(1):19-26.
[5]姜紅花,張傳銀,張" 昭,等. 基于Mask R-CNN的玉米田間雜草檢測(cè)方法[J].農(nóng)業(yè)機(jī)械學(xué)報(bào),2020,51(6):220-228,247.
[6]Radoglou-Grammatikis P,Sarigiannidis P,Lagkas T,et al. A compilation of UAV applications for precision agriculture[J]. Computer Networks,2020,172:107148.
[7]Deng X W,Qi L,Ma X,et al. Recognition of weeds at seedling stage in paddy fields using multi-feature fusion and deep belief networks[J]. Transactions of the Chinese Society of Agricultural Engineering,2018,34(14):165-172.
[8]Bakhshipour A,Jafari A. Evaluation of support vector machine and artificial neural networks in weed detection using shape features[J]. Computers and Electronics in Agriculture,2018,145:153-160.
[9]Wu Z,Chen Y,Zhao B,et al. Review of weed detection methods based on computer vision[J]. Sensors,2021,21(11):3647.
[10]Hasan A S M M,Sohel F,Diepeveen D,et al. A survey of deep learning techniques for weed detection from images[J]. Computers and Electronics in Agriculture,2021,184:106067.
[11]Potena C,Nardi D,Pretto A. Fast and accurate crop and weed identification with summarized train sets for precision agriculture[C]//Intelligent Autonomous Systems 14:Proceedings of the 14th International Conference IAS-14 14. Springer International Publishing,2017:105-121.
[12]孫" 俊,譚文軍,武小紅,等. 多通道深度可分離卷積模型實(shí)時(shí)識(shí)別復(fù)雜背景下甜菜與雜草[J]. 農(nóng)業(yè)工程學(xué)報(bào),2019,35(12):184-190.
[13]李" 彧,余心杰,郭俊先. 基于全卷積神經(jīng)網(wǎng)絡(luò)方法的玉米田間雜草識(shí)別[J]. 江蘇農(nóng)業(yè)科學(xué),2022,50(6):93-100.
[14]溫德圣,許" 燕,周建平,等. 自然光照影響下基于深度卷積神經(jīng)網(wǎng)絡(luò)和顏色遷移的雜草識(shí)別方法[J]. 中國(guó)科技論文,2020,15(3):287-292.
[15]亢" 潔,劉" 港,郭國(guó)法. 基于多尺度融合模塊和特征增強(qiáng)的雜草檢測(cè)方法[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào),2022,53(4):254-260.
[16]Ouyang D,He S,Zhang G,et al. Efficient multi-scale attention module with cross-spatial learning[C]//ICASSP 2023-2023 IEEE International Conference on Acoustics,Speech and Signal Processing (ICASSP). IEEE,2023:1-5.
[17]Bertoglio R,F(xiàn)ontana G,Matteucci M,et al. On the design of the agri-food competition for robot evaluation (acre)[C]//2021 IEEE International Conference on Autonomous Robot Systems and Competitions (ICARSC). IEEE,2021:161-166.
[18]Woo S,Park J,Lee J Y,et al. Cbam:Convolutional block attention module[C]//Proceedings of the European conference on computer vision (ECCV). 2018:3-19.
[19]Yang L,Zhang R Y,Li L,et al. Simam:A simple,parameter-free attention module for convolutional neural networks[C]//International conference on machine learning. PMLR,2021:11863-11874.
[20]Hou Q,Zhou D,F(xiàn)eng J. Coordinate attention for efficient mobile network design[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2021:13713-13722.
[21]Hu J,Shen L,Sun G. Squeeze-and-excitation networks[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2018:7132-7141.
[22]Huang H,Chen Z,Zou Y,et al. Channel prior convolutional attention for medical image segmentation[J]. arXiv preprint arXiv:2306.05196,2023.
[23]鮑" 浩,張" 艷. 基于注意力機(jī)制與改進(jìn)殘差模塊的豆葉病害識(shí)別[J]. 江蘇農(nóng)業(yè)科學(xué),2023,51(16):187-194.
[24]Cheng C. Real-time mask detection based on SSD-MobileNetv2[C]//2022 IEEE 5th International Conference on Automation,Electronics and Electrical Engineering (AUTEEE). IEEE,2022:761-767.
[25]Tan M,Pang R,Le Q V. Efficientdet:Scalable and efficient object detection[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2020:10781-10790.