doi:10.15889/j.issn.1002-1302.2024.20.025
摘要:實(shí)時(shí)監(jiān)測(cè)稻田害蟲(chóng)泛濫情況是預(yù)防水稻產(chǎn)量降低的重要手段之一。針對(duì)當(dāng)前的目標(biāo)檢測(cè)算法在實(shí)際稻田環(huán)境下檢測(cè)精度較低且模型計(jì)算量較大、難以實(shí)現(xiàn)實(shí)時(shí)檢測(cè)等問(wèn)題,提出一種基于YOLO v8的改進(jìn)的水稻害蟲(chóng)識(shí)別算法YOLO v8-SDPS。首先在主干網(wǎng)絡(luò)中用SD_Conv卷積替代標(biāo)準(zhǔn)卷積,重構(gòu)特征提取模塊,在降低參數(shù)量的同時(shí)盡可能保留害蟲(chóng)目標(biāo)的邊緣特征信息,提升對(duì)害蟲(chóng)目標(biāo)的特征提取能力;其次在頸部引入基于Slim-Neck范式的GSConv模塊和VoV-GSCSP模塊,在減少模型計(jì)算量的同時(shí)提升模型的檢測(cè)精度;最后在SPPF層前引入PSA注意力模塊,降低背景的噪聲干擾,使模型更加關(guān)注個(gè)體的空間位置信息。用本研究提出的算法在經(jīng)數(shù)據(jù)增強(qiáng)后的自建水稻害蟲(chóng)數(shù)據(jù)集上進(jìn)行試驗(yàn),結(jié)果表明,YOLO v8-SDPS獲得86.6%的平均檢測(cè)精度,相較于原始YOLO v8n模型提升4.1百分點(diǎn)。同時(shí)改進(jìn)后的模型參數(shù)量為2.62 M,計(jì)算量為7.5 GFLOPs,相較于基準(zhǔn)模型分別降低16.8%和15.7%,實(shí)現(xiàn)了模型輕量化和較高檢測(cè)精度的平衡。在害蟲(chóng)小且密集、背景干擾嚴(yán)重、光照強(qiáng)烈等復(fù)雜環(huán)境下,YOLO v8-SDPS均能較好地識(shí)別出目標(biāo)個(gè)體,有效地降低漏檢率和誤檢率,具有較好的魯棒性,可為稻田實(shí)時(shí)巡檢提供有效技術(shù)支持。
關(guān)鍵詞:目標(biāo)檢測(cè);水稻害蟲(chóng);深度學(xué)習(xí);YOLO v8;極化自注意力
中圖分類號(hào):S126;TP391.41" 文獻(xiàn)標(biāo)志碼:A
文章編號(hào):1002-1302(2024)20-0209-11
收稿日期:2024-04-09
基金項(xiàng)目:國(guó)家自然科學(xué)基金(編號(hào):62173049、62273060);湖北省教育廳科學(xué)研究計(jì)劃(編號(hào):D20211302)。
作者簡(jiǎn)介:李" 龍(2000—),男,湖北武漢人,碩士研究生,研究方向?yàn)樯疃葘W(xué)習(xí)與目標(biāo)檢測(cè)。E-mail:2022710628@yangtzeu.edu.cn。
通信作者:李夢(mèng)霞,博士,副教授,碩士生導(dǎo)師,研究方向?yàn)橛蜌馓镘浖_(kāi)發(fā)、最優(yōu)化理論與算法。E-mail:limengxia@yangtzeu.edu.cn。
水稻是我國(guó)主要的農(nóng)作物之一,種植面積約占糧食作物總種植面積的1/3[1]。我國(guó)水稻病蟲(chóng)草害種類繁多,農(nóng)藥用量居高不下,因此及時(shí)檢測(cè)稻田害蟲(chóng)不僅有利于預(yù)防蟲(chóng)害爆發(fā)而造成水稻產(chǎn)量降低,而且能避免農(nóng)藥使用過(guò)量而污染環(huán)境[2]。早期的害蟲(chóng)檢測(cè)主要依賴人工判斷,但是田間害蟲(chóng)情況復(fù)雜,對(duì)于農(nóng)業(yè)人員的專業(yè)水平要求較高,且人工檢測(cè)費(fèi)時(shí)費(fèi)力,存在較強(qiáng)的主觀性[3]。
隨著計(jì)算機(jī)視覺(jué)技術(shù)的不斷更新迭代,越來(lái)越多的學(xué)者將該技術(shù)與農(nóng)業(yè)生產(chǎn)結(jié)合起來(lái)。Zou等結(jié)合蟲(chóng)洞的顏色特征、形狀特征等設(shè)計(jì)出一種基于支持向量機(jī)(SVM)的分類器,用于判斷西蘭花幼苗圖像中的蟲(chóng)洞大小,進(jìn)而為精準(zhǔn)控制農(nóng)藥噴灑用量提供參考[4]。田冉等利用紅外傳感器和SVM圖像處理方法,在果樹(shù)害蟲(chóng)檢測(cè)上取得較好的結(jié)果[5-6]。上述基于機(jī)器學(xué)習(xí)的方法雖然取得一定的成果,但較為依賴人工手動(dòng)地設(shè)計(jì)特征,且實(shí)際農(nóng)田環(huán)境較為復(fù)雜,成像條件較為嚴(yán)苛,在實(shí)時(shí)監(jiān)測(cè)方面存在一定的不足[7-10]?;谏疃葘W(xué)習(xí)的方法近年來(lái)逐漸受到研究者的青睞,以卷積神經(jīng)網(wǎng)絡(luò)(CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)、Transformer等為代表的深度學(xué)習(xí)方法可對(duì)數(shù)據(jù)進(jìn)行無(wú)監(jiān)督學(xué)習(xí),并從大量的數(shù)據(jù)中自動(dòng)學(xué)習(xí)多種層次的特征信息,較傳統(tǒng)機(jī)器學(xué)習(xí)方法展現(xiàn)出更好的性能[11-16]。例如,佘顥等提出一種基于SSD網(wǎng)絡(luò)模型的水稻害蟲(chóng)識(shí)別方法,用特征金字塔模型替換SSD原有的多尺度特征圖,同時(shí)優(yōu)化激活函數(shù),使得模型對(duì)目標(biāo)的檢測(cè)精度得到提升,在自建數(shù)據(jù)集上取得79.3%的平均檢測(cè)精度[17]。范春全等針對(duì)數(shù)據(jù)集較小、害蟲(chóng)種類不足導(dǎo)致的模型識(shí)別精度下降問(wèn)題,構(gòu)建涵蓋16種水稻病蟲(chóng)害的近2萬(wàn)張水稻病蟲(chóng)害數(shù)據(jù)集,以ResNet50為主干網(wǎng)絡(luò)進(jìn)行試驗(yàn),驗(yàn)證模型的性能[18]。
上述研究雖然取得了一定的效果,但存在如下問(wèn)題:(1)真實(shí)稻田場(chǎng)景與實(shí)驗(yàn)室環(huán)境有較大差異,導(dǎo)致訓(xùn)練出來(lái)的模型泛化能力不強(qiáng);(2)實(shí)際稻田場(chǎng)景中害蟲(chóng)分布不均、尺度不一、背景噪聲較大,容易出現(xiàn)誤檢、漏檢等情況。針對(duì)上述問(wèn)題,本研究基于YOLO v8設(shè)計(jì)一種新的水稻害蟲(chóng)識(shí)別模型,以期為稻田害蟲(chóng)實(shí)時(shí)巡檢提供技術(shù)支撐。
1" 材料和方法
1.1" 數(shù)據(jù)來(lái)源
本試驗(yàn)所用數(shù)據(jù)集由2個(gè)部分組成,即IP102公開(kāi)數(shù)據(jù)集中的部分水稻害蟲(chóng)子集和從Roboflow網(wǎng)站(https://universe.roboflow.com)中獲取的水稻害蟲(chóng)圖像數(shù)據(jù)[19],其中IP102包含102種害蟲(chóng)的共計(jì)75 222張圖像數(shù)據(jù),本研究在上述2個(gè)數(shù)據(jù)集來(lái)源中綜合選取對(duì)水稻生產(chǎn)危害較大的6種水稻害蟲(chóng),即稻褐飛虱、黑尾葉蟬、稻縱卷葉螟、稻蝽、水稻二化螟、稻水蠅作為研究對(duì)象。
1.2" 數(shù)據(jù)預(yù)處理
將獲取的圖像分辨率統(tǒng)一調(diào)整為640像素×640像素,并保存為JPG格式,剔除其中質(zhì)量較差的圖像后采用Labelimg標(biāo)注工具進(jìn)行標(biāo)注,共計(jì)獲得 1 828 張圖像數(shù)據(jù),并按照7 ∶2 ∶1的比例將其劃分成訓(xùn)練集、驗(yàn)證集和測(cè)試集。部分圖像數(shù)據(jù)如圖1所示。
為提高模型在不同場(chǎng)景下的泛化能力和魯棒性,本研究對(duì)訓(xùn)練集中的數(shù)據(jù)進(jìn)行增強(qiáng),訓(xùn)練集圖像數(shù)據(jù)增強(qiáng)前后各類害蟲(chóng)圖像數(shù)量如表1所示。
增強(qiáng)方式:(1)以50%的概率在水平和豎直方向上進(jìn)行翻轉(zhuǎn);(2)調(diào)整亮度,隨機(jī)增強(qiáng)或降低25%的圖片亮度,以貼合實(shí)際稻田場(chǎng)景不同時(shí)間段的光照情景;(3)隨機(jī)加入2.5 px高斯模糊,模擬實(shí)時(shí)檢測(cè)中設(shè)備的抖動(dòng)情況。將3種圖像增強(qiáng)方法隨機(jī)組合,得到3 840張圖像數(shù)據(jù)。增強(qiáng)后的部分?jǐn)?shù)據(jù)集圖像如圖2所示。
1.3" 方法
1.3.1" 網(wǎng)絡(luò)模型
YOLO v8是Ultralytics于2023年1月發(fā)布的YOLO系列最新版本,融合了眾多的SOTA技術(shù),相較于先前的版本,在擴(kuò)展性方面有明顯提升,可用于目標(biāo)檢測(cè)、圖像分類、實(shí)例分割等多個(gè)領(lǐng)域[20-23]。相較于先前的YOLO v5,YOLO v8提出以新的C2f模塊替換原本的C3模塊,豐富了梯度流,同時(shí)使模型進(jìn)一步輕量化;在Head部分,YOLO v8采用目前主流的解耦頭結(jié)構(gòu)(decoupled-head),將分類和檢測(cè)頭分離開(kāi)來(lái), 同時(shí)遵循Anchor-Free思想,舍棄了先前使用的Anchor-Based[24]。在損失函數(shù)的計(jì)算上,YOLO v8采用了Task-Aligned Assigner正樣本分配策略,并引入了Distribution Focal Loss,用于目標(biāo)框的回歸損失計(jì)算,其結(jié)構(gòu)如圖3所示。
1.3.2" 改進(jìn)YOLO v8模型
本研究以YOLO v8n為基準(zhǔn)模型,提出改進(jìn)的YOLO v8-SDPS,主要改進(jìn)內(nèi)容如下:(1)保留主干網(wǎng)絡(luò)第1層的3×3卷積,當(dāng)圖像分辨率較大時(shí),利用大卷積核能更好地獲取全局特征,并同時(shí)將步長(zhǎng)縮短為1,以盡可能地保留特征圖的細(xì)粒度信息,另外將SPD-Conv模塊和深度可分離卷積(DSConv)相結(jié)合,重構(gòu)特征提取模塊,稱為SD_Conv,在降低參數(shù)量的同時(shí),提升模型對(duì)低分辨率下小目標(biāo)的提取能力;(2)遵循Slim-Neck范式的設(shè)計(jì)思想,引入GSConv和VoV-GSCSP模塊,分別替換頸部的卷積操作和CSP模塊,降低模型的復(fù)雜度,綜合考慮全局和局部特征信息,更好地捕捉節(jié)點(diǎn)的上下文信息;(3)在主干網(wǎng)絡(luò)的SPPF層前添加極化自注意力模塊PSA(polarized self-attention),抑制背景噪聲,使得網(wǎng)絡(luò)模型更加關(guān)注個(gè)體的空間坐標(biāo)信息。
改進(jìn)后的網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。
1.3.3" SD_Conv模塊
在實(shí)際害蟲(chóng)檢測(cè)任務(wù)中,害蟲(chóng)個(gè)體往往表現(xiàn)出小目標(biāo)的特點(diǎn),只占整張圖像的較小部分,在卷積操作中特征容易丟失,是造成模
型檢測(cè)性能降低的原因之一,而原始的YOLO系列對(duì)于此類小目標(biāo)的檢測(cè)并不友好,因此本研究在原始YOLO v8n的基礎(chǔ)上,在主干網(wǎng)絡(luò)中首先引入SPD_Conv模塊,以提升模型的特征提取能力[25]。
SPD_Conv模塊由2個(gè)部分構(gòu)成,分別為space-to-depth部分(SPD層)和non-strided convolution部分(Conv層)。SPD模塊會(huì)對(duì)輸入的特征圖先進(jìn)行下采樣,并保留通道維度中的信息。對(duì)于任何尺度為S×S×C1的中間特征圖X,SPD可將其切分為公式(1)至公式(3)的子特征序列,子圖fx,y由i+x和i+y按比例整除所有條目X(i+y)得到。因此,每個(gè)子圖按比例因子對(duì)X進(jìn)行下采樣。
f0,0=X[0:S:scale,0:S:scale],
f1,0=X[1:S:scale,0:S:scale],…,
fscale-1,0=X[scale-1;S:scale,0:S:scale];(1)
f0,1=X[0:S:scale,1:S:scale],f1,1,…,
fscale-1,1=X[scale-1:S:scale,1:S:scale];(2)
f0,scale-1=X[0:S:scale,scale-1:S:scale],f1,scale-1,…,
fscale-1,scale-1=X[scale-1:S:scale,scale-1:S:scale]。(3)
以scale為2時(shí)為例,模塊首先對(duì)大小為S×S×C1的特征圖X進(jìn)行下采樣操作,在特征圖橫向和縱向上每隔1個(gè)像素進(jìn)行跳躍采樣,得到4個(gè)寬高減半、通道數(shù)保持不變,即大小為S/2×S/2×C1的子特征圖f0,0、f1,0、f0,1、f1,1,接著將4個(gè)子特征圖在通道維度上依次進(jìn)行拼接,得到2倍下采樣中間特征圖X2。為盡可能保留所有的判別性特征信息,在SPD特征轉(zhuǎn)換層后對(duì)中間特征圖連接一個(gè)包含有C2個(gè)大小為1×1的卷積核的非跨步卷積層(stride=1,C2=scale2C1),有效減少細(xì)粒度信息的損失,此外使用1×1的卷積可以減少參數(shù)量、擴(kuò)大模型的感受野,SPD_Conv模塊示意如圖5所示。
考慮到SPD_Conv模塊在卷積過(guò)程中會(huì)造成通道維度成倍增加,進(jìn)而引起參數(shù)量的翻倍增長(zhǎng),不利于模型的輕量化實(shí)現(xiàn),本研究在SPD_Conv模塊后添加一層深度可分離卷積(DSConv)進(jìn)行跨通道信息融合,在保證卷積核學(xué)習(xí)能力的同時(shí)減少參數(shù)量,其結(jié)構(gòu)示意如圖6所示。
DSConv包含逐通道卷積和逐點(diǎn)卷積兩部分,在逐通道卷積中,首先對(duì)輸入特征圖的每個(gè)通道進(jìn)行分組卷積,得到中間特征圖,然后對(duì)中間特征圖用 1×1卷積核進(jìn)行卷積操作,對(duì)同一空間坐標(biāo)上不同層的信息進(jìn)行有效利用,以進(jìn)一步提取特征[26]。設(shè)輸入特征圖大小為W×H×C,卷積核大小為K×K,則標(biāo)準(zhǔn)卷積參數(shù)量(Convparams)、DSConv參數(shù)量(DSConvparams)及兩者參數(shù)量對(duì)比(Comparison)的計(jì)算公式分別為公式(4)、(5)、(6)。
Convparams=K×K×C×C;(4)
DSConvparams=K×K×1×C+1×1×C×C;(5)
Comparison=DSConvparamsConvparams=1C+1K2。(6)
由公式(6)可知,標(biāo)準(zhǔn)卷積的參數(shù)量是DSConv的C倍,在通道數(shù)較多的情況下,DSConv可以大幅減少模型的計(jì)算量,較好地解決了SPD層造成的通道數(shù)翻倍后參數(shù)量增加的問(wèn)題。
1.3.4" GSConv和VoV-GSCSP模塊
Li等在自動(dòng)
駕駛領(lǐng)域提出GSConv和Slim-Neck設(shè)計(jì)范式,在減輕模型負(fù)擔(dān)的同時(shí)實(shí)現(xiàn)更高的檢測(cè)器計(jì)算成本效益,保證了較好的模型大小與檢測(cè)精度的平衡[27]??紤]到本研究對(duì)害蟲(chóng)的檢測(cè),后續(xù)會(huì)部署到智能巡檢設(shè)備中實(shí)現(xiàn)實(shí)時(shí)檢測(cè),本研究在上述改進(jìn)的基礎(chǔ)上,在Neck部分引入GSConv,替換原始的標(biāo)準(zhǔn)卷積操作,引入基于Slim-Neck思想設(shè)計(jì)的跨級(jí)部分網(wǎng)絡(luò)模塊VoV-GSCSP,替換原始的CSP模塊,這在降低一定參數(shù)量的同時(shí),也能保證較好的精度。
GSConv模塊由標(biāo)準(zhǔn)卷積、深度可分離卷積和Shuffle混洗3個(gè)部分組成。該模塊將標(biāo)準(zhǔn)卷積得到的特征信息通過(guò)Shuffle混洗操作滲透到深度可分離卷積生成的特征信息中,有效減少多通道信息損失,同時(shí)降低計(jì)算成本。GSConv示意如圖7所示。
假定輸入圖像通道數(shù)為C1,經(jīng)過(guò)1次標(biāo)準(zhǔn)卷積得到的通道數(shù)為C2/2,再經(jīng)過(guò)1次深度可分離卷積操作,得到一個(gè)通道數(shù)仍為C2/2的輸出,將2次輸出進(jìn)行Concat拼接和Shuffle混洗,得到通道數(shù)為C2的輸出結(jié)果。在Backbone中,特征圖維度變化時(shí)會(huì)不可避免地?fù)p失部分特征信息,而GSConv嘗試保留這些信息,當(dāng)特征圖處理達(dá)到Neck部分時(shí),在寬高維度上已然最小,在通道維度上最大,冗余信息少,不用再進(jìn)行變換,因此本研究?jī)H在Neck部分用GSConv替換標(biāo)準(zhǔn)卷積,在減少參數(shù)量的同時(shí),實(shí)現(xiàn)更好的多尺度融合效果。GSConv的時(shí)間復(fù)雜度可以表示為式(7)。
TimeGSConv=OW×H×X1×X2×C22(C1+1)。(7)
其中,W、H表示輸入特征圖的寬、高;X1和X2表示卷積核的大??;C1和C2分別表示輸入特征圖的通道數(shù)和輸出特征圖的通道數(shù)。
遵循Slim-Neck的設(shè)計(jì)思想,本研究引入基于GSConv設(shè)計(jì)的瓶頸層GS bottleneck以及跨級(jí)部分網(wǎng)絡(luò)模塊VoV-GSCSP,并用VoV-GSCSP替換原有的CSP模塊,其示意如圖8所示。
1.3.5" PSA注意力
在目標(biāo)檢測(cè)任務(wù)中,準(zhǔn)確地提取個(gè)體的空間位置信息是至關(guān)重要的。對(duì)于包含害蟲(chóng)個(gè)體的數(shù)據(jù)圖像,稻葉、農(nóng)田等自然背景占比較大,在卷積等過(guò)程中這些無(wú)用背景同樣參與計(jì)算,產(chǎn)生較多的冗余信息,對(duì)害蟲(chóng)目標(biāo)的識(shí)別造成干擾。為提高空間信息的權(quán)重,降低背景噪聲的影響,本研究在主干提取網(wǎng)絡(luò)的SPPF層前嵌入了極化自注意力(polarized self-attention,PSA)機(jī)制模塊以解決該問(wèn)題[28]。
PSA極化自注意力機(jī)制來(lái)源于光學(xué)攝影中的極化濾波思想,即將某一方向上的特征完全折疊,同時(shí)在其正交方向上保證較低的信息壓縮損失。如圖9所示,PSA模塊由通道自注意力和空間自注意力2個(gè)部分構(gòu)成,計(jì)算方法見(jiàn)公式(8)、(9)。
在通道自注意力部分中,輸入的特征圖會(huì)首先經(jīng)過(guò)2次卷積操作轉(zhuǎn)換成通道被完全壓縮的特征Q(W×H×1)以及通道對(duì)半壓縮的特征V(W×H×C/2),其次對(duì)Q進(jìn)行降維轉(zhuǎn)置,并通過(guò)Softmax函數(shù)
對(duì)先前壓縮的空間特征信息賦予權(quán)重,對(duì)V進(jìn)一步執(zhí)行降維操作,將通過(guò)上述操作后得到的Q(WH×1×1)和V(WH×C/2)相乘,并將得到的結(jié)果進(jìn)行卷積和歸一化處理,然后通過(guò)Sigmoid函數(shù)計(jì)算即可獲得對(duì)應(yīng)的通道權(quán)重值。
Ch(X)=fsg[W(σ1(Wv(X)))×fsm(σ2(Wq(X)))]。(8)
fsm(X)=∑Npj=1exj∑Npm=1exmxj。(9)
其中,Ch(X)代表通道自注意力;fsg代表Sigmoid函數(shù);fsm代表softmax函數(shù);Wv、Wq、W代表卷積操作;σ1、σ2、σ3代表降/升維操作。
空間自注意力部分會(huì)接收來(lái)自通道自注意力部分的權(quán)重值,同樣經(jīng)過(guò)2次卷積,得到通道數(shù)減半的Q和V,Q經(jīng)過(guò)全局池化后,在空間維度上信息被完全壓縮,經(jīng)過(guò)同自注意力模塊中相同的操作后,與被降維后的V進(jìn)行相乘、升維、Sigmoid函數(shù)處理,得到對(duì)應(yīng)的空間權(quán)重值,將得到的通道和空間權(quán)重值進(jìn)行點(diǎn)乘加權(quán),即可得到特征輸出,計(jì)算方法見(jiàn)公式(10)、(11)。
Sp(X)=fsg[σ3(fsm(σ1(fgp(wq(X))))×σ2(Wv(X))];(10)
fgp=1H×W∑Hi=1∑Wj=1X(:,i,j)。(11)
其中,fgp代表全局池化操作。
1.4" 試驗(yàn)平臺(tái)及參數(shù)設(shè)置
軟件試驗(yàn)環(huán)境:64位Windows 10操作系統(tǒng),使用python 3.8版本進(jìn)行開(kāi)發(fā),開(kāi)發(fā)軟件為Pycharm2023專業(yè)版,深度學(xué)習(xí)框架為Pytorch 2.0.1,cuda版本為11.8;硬件配置:CPU為Intel Core i5-13400f,GPU使用NVIDIA GeForce RTX2060s,GPU顯存為8 GB。所有試驗(yàn)均在相同環(huán)境下進(jìn)行,試驗(yàn)時(shí)間為2024年1—3月,試驗(yàn)地點(diǎn)為湖北省荊州市長(zhǎng)江大學(xué)計(jì)算機(jī)科學(xué)學(xué)院。模型訓(xùn)練過(guò)程中的超參數(shù)設(shè)置如表2所示。
1.5" 評(píng)價(jià)指標(biāo)
為檢驗(yàn)本研究提出模型的優(yōu)越性,采用目標(biāo)檢測(cè)領(lǐng)域中公認(rèn)的精確率(precision,P)、召回率(recall,R)、平均精度均值(mean average precision,mAP)、浮點(diǎn)計(jì)算量(GFLOPs)作為評(píng)價(jià)指標(biāo)進(jìn)行優(yōu)越性評(píng)價(jià),計(jì)算公式分別為
P=NTPNTP+NFP×100%;(12)
R=NTPNTP+NFN×100%;(13)
AP=∫10P(R)dR;(14)
mAP=1n∑ni=1PAPi。(15)
本研究中,NTP(true postives)代表正確識(shí)別出害蟲(chóng)的數(shù)量;NFP代表(true postives)錯(cuò)誤識(shí)別的害蟲(chóng)數(shù)量;NFN(1 negatives)表示未檢測(cè)出的害蟲(chóng)數(shù)量;AP是P-R曲線對(duì)應(yīng)的積分,代表平均精度;n為類別數(shù)量,在本研究中n=6。
2" 結(jié)果與分析
2.1" 消融試驗(yàn)結(jié)果
為驗(yàn)證本研究改進(jìn)的有效性,在相同的試驗(yàn)環(huán)境和參數(shù)設(shè)定下,基于YOLO v8n進(jìn)行消融試驗(yàn),分析各部分改進(jìn)的有效性。記前文主干改進(jìn)為試驗(yàn)A、頸部改進(jìn)為試驗(yàn)B、添加注意力模塊為試驗(yàn)C,a~f 依次表示的本研究中的6類害蟲(chóng):稻褐飛虱、黑尾葉蟬、稻縱卷葉螟、稻蝽、二化螟、稻水蠅。
由表3可知,(1)在主干網(wǎng)絡(luò)中引入SD_Conv后,模型對(duì)6類害蟲(chóng)的識(shí)別精度分別提高6.4、2.3、2.4、1.6、3.3、4.0百分點(diǎn),說(shuō)明加入SPD模塊的特征提取網(wǎng)絡(luò)盡可能地保留了相對(duì)細(xì)小的特征信息,對(duì)于圖像數(shù)據(jù)中表現(xiàn)出小目標(biāo)特征的害蟲(chóng)具有更好的特征提取能力;(2)在頸部引入GSConv和 VoV-GSCSP 模塊后,雖然在mAP0.5上僅提升1.0百分點(diǎn),但計(jì)算量降低14.6%,滿足在算力較低的設(shè)備上部署的要求,同時(shí)證明在YOLO v8n中引入Slim-Neck范式具有可行性;(3)加入PSA注意力模塊后,模型的平均檢測(cè)精度提升2.8百分點(diǎn),說(shuō)明加入注意力模塊后的模型能夠更加關(guān)注個(gè)體的空間信息,有效降低背景噪聲的影響,提高模型的識(shí)別能力。此外,模型對(duì)于稻水蠅和稻褐飛虱的識(shí)別精度偏低,核驗(yàn)數(shù)據(jù)集后發(fā)現(xiàn),這2類害蟲(chóng)在不同生長(zhǎng)時(shí)期的外觀有一定差異,且存在部分生長(zhǎng)時(shí)期害蟲(chóng)特征不易區(qū)分的問(wèn)題,導(dǎo)致檢測(cè)結(jié)果偏低,后期會(huì)針對(duì)不同生長(zhǎng)時(shí)期的害蟲(chóng)進(jìn)行進(jìn)一步細(xì)分,使得模型有更好的檢測(cè)效果。
由表3和圖10可知,基于上述3種改進(jìn)的YOLO v8-SDPS相較于基準(zhǔn)模型計(jì)算量有所降低,mAP0.5提升4.1百分點(diǎn),準(zhǔn)確率和召回率均明顯提升,說(shuō)明YOLO v8-SDPS充分融合了各模塊改進(jìn)之后的優(yōu)勢(shì),實(shí)現(xiàn)了模型檢測(cè)性能與計(jì)算量的平衡,符合實(shí)際生產(chǎn)過(guò)程中的需求。
2.2" 對(duì)比試驗(yàn)
2.2.1" 注意力對(duì)比" 在模型中加入注意力模塊是研究者們常用的提升模型性能的方法,為驗(yàn)證本研究模型添加PSA注意力模塊的有效性,將PSA與SE、CA、ECA、CBAM等經(jīng)典注意力機(jī)制進(jìn)行對(duì)比,注意力添加位置保持一致,對(duì)比結(jié)果如圖11、表4所示,CA模塊對(duì)于模型精度略有提升(提升1.0百分點(diǎn)),CBAM模塊對(duì)于模型提升較為明顯(提升2.3百分點(diǎn)),但低于PSA,且模型收斂速度較慢,ECA模塊加快了模型的收斂速度,但對(duì)于精度的提升效果甚微,SE模塊對(duì)模型并未起到提升精度的作用。本研究采用的PSA注意力模塊不僅對(duì)于模型精度提升明顯(提升2.8百分點(diǎn)),并且模型在迭代60輪時(shí)接近收斂,均優(yōu)于其他注意力模塊,證明了本研究引入PSA模塊的優(yōu)越性。
2.2.2" 不同模型對(duì)比
在本研究建立的數(shù)據(jù)集上,對(duì)比分析YOLO v8-SDPS與當(dāng)前主流的目標(biāo)檢測(cè)算法,結(jié)果如表5所示。
由表5可知,雙階段檢測(cè)模型Faster R-CNN的檢測(cè)效果最差且運(yùn)算量最大。YOLO v8-SDPS相比于改進(jìn)前的基準(zhǔn)模型YOLO v8n降低了一定的計(jì)算量,精確率、召回率、mAP0.5均不同程度地優(yōu)于其他網(wǎng)絡(luò)模型,平均精度較YOLO系列中的YOLO X、YOLO v5s、YOLO v7-Tiny、YOLO v8n分別提高了6.4、3.9、5.2、4.1百分點(diǎn),而FPS雖然比改進(jìn)前有所降低,但與YOLO v7-Tiny相當(dāng),仍滿足實(shí)時(shí)性檢測(cè)需求,相較于其他模型
展現(xiàn)出更為突出的性能。
2.3" 目標(biāo)檢測(cè)結(jié)果及分析
本研究對(duì)基準(zhǔn)模型和改進(jìn)后的模型在尺度不一、部分遮擋、背景相似、目標(biāo)微小、強(qiáng)光照等不同條件下的檢測(cè)效果進(jìn)行可視化對(duì)比分析,以驗(yàn)證改進(jìn)后模型的性能效果,對(duì)比結(jié)果如圖12所示。由圖12可以看出,原始模型存在一定的漏檢、誤檢情況,將圖12-b圖左下角部分遮擋的稻褐飛虱未被識(shí)別到,將圖12-e圖的背景錯(cuò)誤識(shí)別為稻蝽,將圖 12-h 圖背景中的葉片識(shí)別成黑尾葉蟬等,說(shuō)明原始模型在特征提取階段丟失較多特征信息。而改
進(jìn)后的模型對(duì)于小目標(biāo)邊緣特征的提取更為充分,同時(shí)能有效降低背景噪聲的影響,使模型更關(guān)注個(gè)
體特征,在不同環(huán)境下依然能保持優(yōu)于基準(zhǔn)模型的檢測(cè)性能。
3" 結(jié)論與討論
針對(duì)現(xiàn)有水稻害蟲(chóng)識(shí)別方法準(zhǔn)確率較低、計(jì)算較為復(fù)雜以及缺乏檢測(cè)功能等問(wèn)題,本研究提出一種基于YOLO v8的改進(jìn)模型并命名為YOLO v8-SDPS,對(duì)6種常見(jiàn)且危害較大的水稻害蟲(chóng)進(jìn)行研究。該模型通過(guò)引入SD_Conv模塊替代標(biāo)準(zhǔn)卷積、引入基于Slim-Neck范式的GSConv和VoV-GSCSP模塊、添加PSA自注意力,降低參數(shù)量,同時(shí)提高模型的檢測(cè)性能。通過(guò)對(duì)比試驗(yàn)結(jié)果可知,本研究提出的改進(jìn)后的模型在自建水稻害蟲(chóng)數(shù)據(jù)集上的平均識(shí)別精度提升4.1百分點(diǎn),參數(shù)量、計(jì)算量分別降低了16.8%、15.7%,滿足部署在低能耗設(shè)備上的要求。這表明本研究取得較好的效果,證明改進(jìn)的有效性。本研究中的YOLO v8-SDPS模型不僅可以對(duì)水稻害蟲(chóng)進(jìn)行識(shí)別分類,而且可以對(duì)發(fā)生蟲(chóng)害的水稻進(jìn)行檢測(cè)定位。在實(shí)際生產(chǎn)中,可以幫助相關(guān)從事者及時(shí)、準(zhǔn)確定位稻田蟲(chóng)害發(fā)生的位置,從而采取相應(yīng)的防治措施。該模型亦可為農(nóng)業(yè)領(lǐng)域中相關(guān)農(nóng)作物的害蟲(chóng)識(shí)別防治提供一定的參考。
本研究針對(duì)現(xiàn)有的水稻害蟲(chóng)識(shí)別問(wèn)題提出的YOLO v8-SDPS模型取得了良好的試驗(yàn)效果,但仍存在部分害蟲(chóng)在不同生長(zhǎng)周期因外觀特征相似而識(shí)別精度較低的問(wèn)題。未來(lái)的研究將重點(diǎn)關(guān)注相似外觀特征的害蟲(chóng)識(shí)別問(wèn)題,通過(guò)擴(kuò)大數(shù)據(jù)集、細(xì)化標(biāo)簽標(biāo)注等方式,持續(xù)優(yōu)化模型在多種復(fù)雜情況下的識(shí)別能力,為農(nóng)業(yè)工作者提供準(zhǔn)確的害蟲(chóng)信息,促進(jìn)智慧農(nóng)業(yè)的發(fā)展。
參考文獻(xiàn):
[1]褚世海,李儒海,黃啟超,等. 湖北省水稻田農(nóng)藥使用現(xiàn)狀調(diào)查[J]. 中國(guó)植保導(dǎo)刊,2022,42(12):65-68.
[2]鐘朝軍,戴長(zhǎng)庚,毛向華. 水稻主要蟲(chóng)害綠色防控技術(shù)研究[J]. 耕作與栽培,2022,42(6):123-124.
[3]蔣心璐,陳天恩,王" 聰,等. 農(nóng)業(yè)害蟲(chóng)檢測(cè)的深度學(xué)習(xí)算法綜述[J]. 計(jì)算機(jī)工程與應(yīng)用,2023,59(6):30-44.
[4]Zou K L,Ge L Z,Zhou H,et al. Broccoli seedling pest damage degree evaluation based on machine learning combined with color and shape features[J]. Information Processing in Agriculture,2021,8(4):505-514.
[5]田" 冉,陳梅香,董大明,等. 紅外傳感器與機(jī)器視覺(jué)融合的果樹(shù)害蟲(chóng)識(shí)別及計(jì)數(shù)方法[J]. 農(nóng)業(yè)工程學(xué)報(bào),2016,32(20):195-201.
[6]Rustia D J A,Lin C E,Chung J Y,et al. Application of an image and environmental sensor network for automated greenhouse insect pest monitoring[J]. Journal of Asia-Pacific Entomology,2020,23(1):17-28.
[7]王春桃,梁煒健,郭慶文,等. 農(nóng)業(yè)害蟲(chóng)智能視覺(jué)檢測(cè)研究綜述[J]. 中國(guó)農(nóng)機(jī)化學(xué)報(bào),2023,44(7):207-213.
[8]溫艷蘭,陳友鵬,王克強(qiáng),等. 基于機(jī)器視覺(jué)的病蟲(chóng)害檢測(cè)綜述[J]. 中國(guó)糧油學(xué)報(bào),2022,37(10):271-279.
[9]Domingues T,Brando T,F(xiàn)erreira J C.Machine learning for detection and prediction of crop diseases and pests:a comprehensive survey[J]. Agriculture,2022,12(9):1350.
[10]Kasinathan T,Uyyala S R.Machine learning ensemble with image processing for pest identification and classification in field crops[J]. Neural Computing and Applications,2021,33(13):7491-7504.
[11]吳子煒,夏" 芳,陸林峰,等. 基于改進(jìn)YOLO v5的水稻主要害蟲(chóng)識(shí)別方法[J]. 江蘇農(nóng)業(yè)科學(xué),2023,51(21):218-224.
[12]溫艷蘭,陳友鵬,王克強(qiáng),等. 基于遷移學(xué)習(xí)和改進(jìn)殘差網(wǎng)絡(luò)的復(fù)雜背景下害蟲(chóng)圖像識(shí)別[J]. 江蘇農(nóng)業(yè)科學(xué),2023,51(8):171-177.
[13]Krizhevsky A,Sutskever I,Hinton G E. ImageNet classification with deep convolutional neural networks[J]. Communications of the ACM,2017,60(6):84-90.
[14]Xiao J Q,Zhou Z Y. Research progress of RNN language model[C]//2020 IEEE International Conference on Artificial Intelligence and Computer Applications(ICAICA).Dalian,China:IEEE,2020:1285-1288.
[15]Vaswani A,Shazeer N,Parmar N,et al. Attention is all you need[EB/OL]. (2017-06-12)[2024-04-01]. https://arxiv.org/abs/1706.03762.
[16]慕君林,馬" 博,王云飛,等. 基于深度學(xué)習(xí)的農(nóng)作物病蟲(chóng)害檢測(cè)算法綜述[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào),2023,54(增刊2):301-313.
[17]佘" 顥,吳" 伶,單魯泉. 基于SSD網(wǎng)絡(luò)模型改進(jìn)的水稻害蟲(chóng)識(shí)別方法[J]. 鄭州大學(xué)學(xué)報(bào)(理學(xué)版),2020,52(3):49-54.
[18]范春全,何彬彬. 基于遷移學(xué)習(xí)的水稻病蟲(chóng)害識(shí)別[J]. 中國(guó)農(nóng)業(yè)信息,2020,32(2):36-44.
[19]Wu X P,Zhan C,Lai Y K,et al. IP102:a large-scale benchmark dataset for insect pest recognition[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR).Long Beach,CA,USA:IEEE,2019:8779-8788.
[20]Redmon J,Divvala S,Girshick R,et al. You only look once:unified,real-time object detection[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Las Vegas,NV,USA:IEEE,2016:779-788.
[21]Redmon J,F(xiàn)arhadi A. YOLO9000:better,faster,stronger[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Honolulu,HI,USA:IEEE,2017:6517-6525.
[22]Redmon J,F(xiàn)arhadi A. YOLO v3:an incremental improvement[EB/OL]. (2018-04-08)[2023-12-16]. https://arxiv.org/abs/1804.02767v1.
[23]Thuan D. Evolution of Yolo algorithm and YOLO v5:the State-of-the-Art object detention algorithm[J/OL]. Oulu University of Applied Sciences,2021:1-61(2021-03-04)[2023-04-27]. https://urn.fi/URN:NBN:fi:amk-202103042892.
[24]Fu J,Liu J,Tian H J,et al. Dual attention network for scene segmentation[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR).Long Beach,CA,USA:IEEE,2019:3141-3149.
[25]Sunkara R,Luo T. No more strided convolutions or pooling:a new CNN building block for low-resolution images and Small objects[EB/OL]. (2022-08-07)[2023-11-13]. https://doi.org/10.48550/arXiv.2208.03641.
[26]毛遠(yuǎn)宏,賀占莊,劉露露. 目標(biāo)跟蹤中基于深度可分離卷積的剪枝方法[J]. 西安交通大學(xué)學(xué)報(bào),2021,55(1):52-59.
[27]Li H L,Li J,Wei H B,et al. Slim-neck by GSConv:a better design paradigm of detector architectures for autonomous vehicles[EB/OL]. (2022-06-06)[2023-11-01]. https://arxiv.org/abs/2206.02424v3.
[28]Liu H J,Liu F Q,F(xiàn)an X Y,et al. Polarized self-attention:towards high-quality pixel-wise mapping[J]. Neurocomputing,2022,506:158-167.