孫海燕,陳云博,封丁惟,王通,蔡興泉
基于注意力模型和輕量化YOLOv4的林業(yè)害蟲檢測(cè)方法
孫海燕,陳云博,封丁惟,王通,蔡興泉*
(北方工業(yè)大學(xué) 信息學(xué)院,北京 100144)(?通信作者電子郵箱xingquancai@126.com)
針對(duì)當(dāng)前林業(yè)害蟲檢測(cè)方法檢測(cè)速度慢、準(zhǔn)確率較低和存在漏檢誤檢等問題,提出一種基于注意力模型和輕量化YOLOv4的林業(yè)害蟲檢測(cè)方法。首先構(gòu)建數(shù)據(jù)集,使用幾何變換、隨機(jī)色彩抖動(dòng)和Mosaic數(shù)據(jù)增強(qiáng)技術(shù)對(duì)數(shù)據(jù)集進(jìn)行預(yù)處理;其次將YOLOv4的主干網(wǎng)絡(luò)替換為輕量化網(wǎng)絡(luò)MobileNetV3,并在改進(jìn)后的路徑聚合網(wǎng)絡(luò)(PANet)中添加卷積塊注意力模塊(CBAM),搭建改進(jìn)的輕量化YOLOv4網(wǎng)絡(luò)模型;然后引入Focal Loss優(yōu)化YOLOv4網(wǎng)絡(luò)模型的損失函數(shù);最后將預(yù)處理后的數(shù)據(jù)集輸入到改進(jìn)后的網(wǎng)絡(luò)模型中,輸出包含害蟲種類和位置信息的檢測(cè)結(jié)果。實(shí)驗(yàn)結(jié)果表明,該網(wǎng)絡(luò)的各項(xiàng)改進(jìn)點(diǎn)對(duì)模型的性能提升都有效;相較于原YOLOv4模型,新模型的檢測(cè)速度更快,平均精度均值(mAP)更高,并且能有效解決漏檢和誤檢問題。新模型優(yōu)于目前的主流網(wǎng)絡(luò)模型,能滿足林業(yè)害蟲實(shí)時(shí)檢測(cè)的精度和速度要求。
林業(yè)害蟲檢測(cè);輕量化網(wǎng)絡(luò);注意力模型;損失函數(shù)
當(dāng)前,林業(yè)病蟲害的威脅在逐年增加,很大程度上阻礙了林業(yè)的發(fā)展。林業(yè)是維護(hù)生態(tài)平衡的重要基礎(chǔ),我國(guó)經(jīng)濟(jì)的發(fā)展也離不開林業(yè)資源的支持。高效、準(zhǔn)確地檢測(cè)并判別出害蟲種類是害蟲測(cè)報(bào)和合理防治的重要前提。
傳統(tǒng)林業(yè)害蟲檢測(cè)方法主要有人工檢測(cè)法和誘捕法[1],這些方法依靠個(gè)人的專業(yè)經(jīng)驗(yàn)進(jìn)行辨別,效率較低,實(shí)時(shí)性較差,且主觀性較強(qiáng)。因此,本文主要研究高效自動(dòng)的林業(yè)害蟲識(shí)別檢測(cè)方法,在保證檢測(cè)精確度的基礎(chǔ)上,提升檢測(cè)速度,為林業(yè)蟲害的發(fā)生提供及時(shí)的預(yù)警。
為了實(shí)現(xiàn)高效的林業(yè)害蟲檢測(cè),已經(jīng)有一些學(xué)者開始研究智能化林業(yè)害蟲檢測(cè)方法,主要分為基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法和基于深度學(xué)習(xí)的方法。
基于傳統(tǒng)機(jī)器學(xué)習(xí)的林業(yè)害蟲檢測(cè)方法主要針對(duì)不同害蟲單獨(dú)設(shè)計(jì)并提取包括顏色、形狀、紋理等的害蟲圖像特征,然后送入訓(xùn)練好的分類器進(jìn)行分類[2];但是此類方法需要手工提取特征,特征提取過程繁瑣且存在害蟲特征設(shè)計(jì)的局限性。
隨著計(jì)算機(jī)視覺技術(shù)和深度學(xué)習(xí)的飛速發(fā)展,基于深度學(xué)習(xí)的林業(yè)害蟲檢測(cè)方法逐漸發(fā)展起來?;谏疃葘W(xué)習(xí)的方法避免了手工設(shè)計(jì)特征的繁瑣過程,能夠讓計(jì)算機(jī)自動(dòng)學(xué)習(xí)害蟲特征,具有速度快、精度高等優(yōu)點(diǎn),逐漸成為研究熱點(diǎn)。當(dāng)前,深度學(xué)習(xí)目標(biāo)檢測(cè)網(wǎng)絡(luò)主要分為兩大類,即單階段目標(biāo)檢測(cè)網(wǎng)絡(luò)和雙階段目標(biāo)檢測(cè)網(wǎng)絡(luò)。雙階段目標(biāo)檢測(cè)網(wǎng)絡(luò)代表性網(wǎng)絡(luò)模型有Fast?RCNN(Fast Region?based Convolutional Neural Network)[3]、Faster?RCNN(Faster Region? based Convolutional Neural Network)[4]、R?FCN(Region?based Fully Convolutional Network)[5]和特征金字塔網(wǎng)絡(luò)(Feature Pyramid Network, FPN)[6]。雙階段目標(biāo)檢測(cè)需要進(jìn)行兩步操作:首先用候選區(qū)域算法在輸入圖像中生成建議目標(biāo)候選區(qū)域,然后將所有的候選區(qū)域送入分類器進(jìn)行分類。雙階段目標(biāo)檢測(cè)算法的檢測(cè)精度較高但檢測(cè)速度較低。相比較而言,以YOLO(You Only Look Once)[7-10]和SSD(Single Shot multibox Detector)[11]為代表的單階段目標(biāo)檢測(cè)算法更注重檢測(cè)精度和速度的平衡,在人臉識(shí)別、自動(dòng)駕駛、醫(yī)療診斷和安防等領(lǐng)域得到了廣泛的應(yīng)用。因此,本文主要研究單階段目標(biāo)檢測(cè)方法。
苗海委等[12]提出了一種基于深度學(xué)習(xí)的粘蟲板儲(chǔ)糧害蟲圖像檢測(cè)算法,通過改進(jìn)SSD的目標(biāo)框回歸策略、損失函數(shù)和特征提取網(wǎng)絡(luò)結(jié)構(gòu),實(shí)現(xiàn)了放置在糧倉表面粘蟲板誘捕的六類害蟲的定位和識(shí)別;但是由于模型不夠輕量化,訓(xùn)練速度和檢測(cè)效率不高。候瑞環(huán)等[13]提出了一種基于YOLOv4?TIA的林業(yè)害蟲檢測(cè)方法,通過改進(jìn)YOLOv4模型結(jié)構(gòu)和優(yōu)化損失函數(shù),實(shí)現(xiàn)了對(duì)特定類別的林業(yè)昆蟲的檢測(cè);但是模型復(fù)雜度有所增加,檢測(cè)速度較慢。袁哲明等[14]提出了一種輕量化深度學(xué)習(xí)模型的田間昆蟲自動(dòng)識(shí)別與分類算法,通過對(duì)YOLOv3進(jìn)行一系列輕量化改進(jìn),實(shí)現(xiàn)了田間昆蟲自動(dòng)識(shí)別與分類;改進(jìn)后的模型參數(shù)量大大減小,但檢測(cè)精度沒有明顯提高,平均識(shí)別正確率只有70.98%。
李啟運(yùn)等[15]指出模型壓縮和輕量化模型設(shè)計(jì)是加速模型的重要手段,因此以SqueezeNet[16]、MobileNet[17-19]和ShuffleNet[20-21]為代表的輕量化網(wǎng)絡(luò)模型受到越來越多的關(guān)注和應(yīng)用。Han等[22]在2020年提出了GhostNet輕量級(jí)神經(jīng)網(wǎng)絡(luò)。為了減少計(jì)算量,Ghost模塊將原始的卷積層分成兩部分:先生成少量?jī)?nèi)在特征圖,然后通過一系列線性變換生成更多特征圖。MobileNetV3[19]集合了MobileNetV1[17]和MobileNetV2[18]的優(yōu)點(diǎn),并在它們的基礎(chǔ)上做了進(jìn)一步改進(jìn),大大減少了參數(shù)量,提升了速度且避免了精度損失。另外,在神經(jīng)網(wǎng)絡(luò)架構(gòu)中引入卷積塊注意力模塊(Convolutional Block Attention Module, CBAM)[23],能夠在不增加過多計(jì)算開銷的情況下,給網(wǎng)絡(luò)性能帶來實(shí)質(zhì)性的提升。受這些文獻(xiàn)研究的啟發(fā),本文主要研究基于注意力模型和輕量化YOLOv4的林業(yè)害蟲檢測(cè)方法。
針對(duì)當(dāng)前林業(yè)害蟲檢測(cè)方法模型參數(shù)量大、檢測(cè)速度慢、準(zhǔn)確率較低和存在漏檢誤檢等問題,本文主要研究基于注意力模型和輕量化YOLOv4的林業(yè)害蟲檢測(cè)方法。主要步驟包括:預(yù)處理數(shù)據(jù)、改進(jìn)YOLOv4網(wǎng)絡(luò)模型、引入Focal Loss優(yōu)化損失函數(shù)和利用YOLO?Head輸出檢測(cè)結(jié)果,詳細(xì)介紹如下。
為提升模型的性能,在提取圖像特征之前,需要對(duì)數(shù)據(jù)集進(jìn)行預(yù)處理。首先,收集林業(yè)害蟲圖像,構(gòu)建數(shù)據(jù)集;然后,對(duì)構(gòu)建的數(shù)據(jù)集圖像進(jìn)行幾何變換、隨機(jī)色彩抖動(dòng)和Mosaic處理,增強(qiáng)數(shù)據(jù)集;最后,劃分增強(qiáng)后的數(shù)據(jù)集,完成數(shù)據(jù)集的預(yù)處理。
2.1.1構(gòu)建數(shù)據(jù)集
本文以北京林業(yè)大學(xué)公開的林業(yè)害蟲數(shù)據(jù)集(https://aistudio.baidu.com/aistudio/datasetdetail/34213/0)為基礎(chǔ),該數(shù)據(jù)集出自百度飛槳與北京林業(yè)大學(xué)合作開發(fā)的AI識(shí)蟲比賽,共計(jì)2 183張圖像,全部為白色單一背景,包含7種類別的林業(yè)害蟲。在實(shí)際應(yīng)用場(chǎng)景中,林業(yè)害蟲所處的自然環(huán)境多為復(fù)雜背景。為了符合林業(yè)害蟲檢測(cè)的實(shí)際需求,本文以此數(shù)據(jù)集為基礎(chǔ),通過網(wǎng)絡(luò)爬取等方法,收集林業(yè)真實(shí)條件下、具有復(fù)雜背景的這7種害蟲圖像,進(jìn)一步擴(kuò)充數(shù)據(jù)集。最終,收集整理得到7種類別、共計(jì)3 233張圖像,每張圖像包含至少一種類別的害蟲。至此,數(shù)據(jù)集的構(gòu)建完成。每類害蟲樣本數(shù)量的統(tǒng)計(jì)結(jié)果如表1所示。
表1 每類害蟲樣本的數(shù)量統(tǒng)計(jì)
2.1.2幾何變換圖像
害蟲的種類與它在圖像中的位置、角度無關(guān),對(duì)圖像進(jìn)行翻轉(zhuǎn)或旋轉(zhuǎn)等幾何變換操作能夠有效擴(kuò)充數(shù)據(jù)集。本文采用在線增強(qiáng)方法,在輸入到網(wǎng)絡(luò)之前,對(duì)數(shù)據(jù)集中的圖像進(jìn)行隨機(jī)水平翻轉(zhuǎn)、垂直翻轉(zhuǎn)、順時(shí)針90°旋轉(zhuǎn)和逆時(shí)針90°旋轉(zhuǎn),得到四種數(shù)據(jù)增強(qiáng)后的圖像,如圖1所示。
2.1.3隨機(jī)色彩抖動(dòng)圖像
在實(shí)際自然環(huán)境中,由于拍攝環(huán)境和拍攝設(shè)備等客觀因素的影響,同種害蟲圖像可能會(huì)具有不同的色彩信息。為了降低客觀因素的干擾,本文使用隨機(jī)色彩抖動(dòng)的數(shù)據(jù)增強(qiáng)方法,得到具有不同色彩信息的害蟲圖像,增強(qiáng)模型的魯棒性,更符合實(shí)際應(yīng)用的需求。在圖像數(shù)據(jù)輸入到網(wǎng)絡(luò)之前,隨機(jī)抖動(dòng)圖像的飽和度、對(duì)比度和亮度,飽和度抖動(dòng)的范圍為50%,對(duì)比度抖動(dòng)的范圍為50%,亮度抖動(dòng)的范圍為20%。經(jīng)過隨機(jī)色彩抖動(dòng)處理,得到的三種數(shù)據(jù)增強(qiáng)后的圖像如圖2所示。
圖1 幾何變換增強(qiáng)的圖像示例
圖2 隨機(jī)色彩抖動(dòng)增強(qiáng)的圖像示例
2.1.4Mosaic數(shù)據(jù)增強(qiáng)
為了豐富數(shù)據(jù)集圖像的背景,本文采用Mosaic數(shù)據(jù)增強(qiáng)方法進(jìn)一步增強(qiáng)數(shù)據(jù)集。首先,隨機(jī)選取四幅圖像;然后,通過幾何變換、隨機(jī)色彩抖動(dòng)等方式增強(qiáng)四幅圖像;最后,將增強(qiáng)后的四張隨機(jī)裁剪,并拼接成為一張新的圖像。經(jīng)過Mosaic數(shù)據(jù)增強(qiáng)處理得到的圖像如圖3所示。
圖3 Mosaic數(shù)據(jù)增強(qiáng)圖像示例
至此,利用數(shù)據(jù)增強(qiáng)技術(shù)擴(kuò)充了本文構(gòu)建的數(shù)據(jù)集,按照8∶1∶1的比例將數(shù)據(jù)集劃分成訓(xùn)練集、驗(yàn)證集和測(cè)試集三個(gè)部分,為后續(xù)提取圖像特征做準(zhǔn)備。
預(yù)處理數(shù)據(jù)集后,需要搭建改進(jìn)的YOLOv4網(wǎng)絡(luò)模型以提取害蟲圖像中的特征。首先,搭建MobileNetV3網(wǎng)絡(luò)提取初步特征;然后,搭建空間金字塔池化結(jié)構(gòu)(Spatial Pyramid Pooling, SPP)和PANet提取深層特征,并進(jìn)行特征融合;接著,在PANet中添加CBAM,以得到包含更多關(guān)鍵信息的特征圖;最后,將得到的特征圖輸出,為后續(xù)害蟲種類和位置的檢測(cè)做準(zhǔn)備。
2.2.1搭建MobileNetV3網(wǎng)絡(luò)提取初步特征
為了降低參數(shù)量、提高模型的檢測(cè)速度,本文采用輕量化模型MobileNetV3替換CSPDarkent53作為YOLOv4網(wǎng)絡(luò)模型的主干網(wǎng)絡(luò),提取圖像的初步特征。MobileNetV3主要由CBH(Conv2D?BN?h?swis)卷積模塊和bneck(bottleneck)卷積模塊構(gòu)成,如圖4所示。
圖4 MobileNetV3網(wǎng)絡(luò)結(jié)構(gòu)
1)搭建CBH卷積模塊。首先,輸入尺寸為416×416×3的原圖像;然后,使用引入了h?swish激活函數(shù)的CBH模塊進(jìn)行卷積操作;最后,輸出尺寸為208×208×16的特征圖。h?swis激活函數(shù)如式(1)所示。
2)搭建bneck卷積模塊。首先,使用1×1的CBH提取特征;然后,使用3×3的深度可分離卷積塊進(jìn)行卷積操作;接著,添加SE模塊;最后,進(jìn)行1×1的卷積操作,調(diào)整通道。
3)輸出初步特征圖。本文去掉MobileNetV3模型最后階段的全連接層和Softmax層,輸出最后三層卷積得到的三個(gè)不同尺寸的特征圖,即52×52的特征圖fm1、26×26的特征圖fm2和13×13的特征圖fm3。
至此,利用MobileNetV3提取得到害蟲圖像的初步特征圖,縮小了模型體積,提升了特征提取能力,為后續(xù)提取深層特征做準(zhǔn)備。
2.2.2搭建SPP模塊和輕量化PANet提取深層特征
得到三個(gè)不同尺寸的初步特征圖后,需要進(jìn)一步提取深層特征并進(jìn)行特征融合,為后續(xù)檢測(cè)分類做準(zhǔn)備。首先,搭建SPP模塊,融合特征圖fm3的多尺度特征,得到特征圖fm3';然后,利用改進(jìn)的輕量化PANet進(jìn)行多次上采樣、下采樣和特征融合操作,得到特征圖fm1、fm2和fm3'的深層特征;最后,將得到的深層特征圖輸出。
1)搭建SPP模塊。為了有效緩解過擬合,本文利用SPP模塊提取多尺度融合特征。首先,對(duì)輸入的特征圖fm3進(jìn)行連續(xù)三次的卷積操作,提取特征;然后,進(jìn)行1×1、5×5、9×9和13×13四種尺度的最大池化處理,得到多尺度特征;接著,將四種尺度的特征圖進(jìn)行融合;最后,經(jīng)過三次卷積操作,輸出尺度為13×13的特征圖fm3'。SPP模塊的結(jié)構(gòu)如圖5所示。
圖5 SPP模塊結(jié)構(gòu)
2)搭建輕量化PANet。PANet中使用多個(gè)3×3的普通卷積操作,參數(shù)量極大,計(jì)算比較復(fù)雜。為了降低PANet的參數(shù)量,本文搭建輕量化PANet提取深層特征。首先,使用深度可分離卷積塊替換PANet中所有的普通卷積塊,得到輕量化PANet;然后,將特征圖fm1、fm2和fm3'輸入到改進(jìn)后的輕量化PANet;接著,進(jìn)行多次上采樣、下采樣和特征融合操作;最后,輸出三個(gè)不同尺寸的深層特征圖。
至此,經(jīng)過SPP模塊和輕量化PANet的提取,得到三種尺寸的害蟲圖像深層特征圖,有效緩解過擬合,擴(kuò)大網(wǎng)絡(luò)的感受野,提高網(wǎng)絡(luò)對(duì)大目標(biāo)的檢測(cè)效率和準(zhǔn)確率。
2.2.3添加CBAM
為了提升PANet提取關(guān)鍵信息的能力,本文在PANet中添加輕量級(jí)CBAM,得到包含更多關(guān)鍵信息的特征圖。CBAM結(jié)構(gòu)如圖6所示。添加CBAM的具體步驟如下:
至此,將CBAM添加到PANet中,輸出包含更多關(guān)鍵信息的特征圖,為后續(xù)害蟲種類和位置的檢測(cè)做準(zhǔn)備。添加CBAM后的PANet如圖7所示。
圖7 添加CBAM的PANet結(jié)構(gòu)
在添加CBAM并得到包含更多關(guān)鍵信息的特征圖之后,需要對(duì)其進(jìn)行回歸分類預(yù)測(cè),得到最終的檢測(cè)結(jié)果。本文首先優(yōu)化損失函數(shù),然后控制迭代計(jì)算,盡可能最小化損失值,最后利用YOLO-Head進(jìn)行檢測(cè),輸出包含害蟲種類和位置的檢測(cè)結(jié)果。
2.3.1優(yōu)化損失函數(shù)
由于林業(yè)害蟲所處的自然環(huán)境復(fù)雜多變,所拍攝的害蟲圖像背景往往也很復(fù)雜,害蟲形態(tài)各異,且會(huì)有遮擋等問題,導(dǎo)致負(fù)樣本數(shù)量過大,正負(fù)樣本的類別不均衡,因此,本文優(yōu)化損失函數(shù),控制迭代計(jì)算,提升模型檢測(cè)分類效果。具體步驟如下:
1)計(jì)算邊界框回歸損失、置信度損失和類別損失??刂芛OLOv4迭代計(jì)算的損失函數(shù)由三部分構(gòu)成,即邊界框回歸損失、置信度損失和類別損失,如式(6)所示。其中:YOLOv4使用CIoU(Complete?IoU)損失函數(shù)控制邊界框回歸損失計(jì)算,如式(7)所示;置信度損失如式(8)所示;類別損失如式(9)所示。
2)引入Focal Loss優(yōu)化損失函數(shù)。Focal Loss的計(jì)算如式(12)所示:
3)優(yōu)化損失函數(shù)。使用Focal Loss控制置信度損失,得到優(yōu)化后的損失函數(shù)如式(14)所示:
至此,完成損失函數(shù)的優(yōu)化,解決了正負(fù)樣本不平衡的問題,有效提高了本文方法的檢測(cè)效果。
2.3.2YOLO?Head輸出檢測(cè)結(jié)果
優(yōu)化損失函數(shù)后,需要根據(jù)輸出的預(yù)測(cè)結(jié)果與真實(shí)標(biāo)簽之間的誤差計(jì)算模型損失值,通過迭代訓(xùn)練確保損失值最小化。本文利用YOLO?Head檢測(cè)頭輸出害蟲的種類和位置信息。
最終,經(jīng)過數(shù)據(jù)集預(yù)處理、改進(jìn)的輕量化YOLOv4網(wǎng)絡(luò)提取特征、注意力模型加強(qiáng)關(guān)鍵信息和YOLO?Head回歸分類,實(shí)現(xiàn)高效的林業(yè)害蟲檢測(cè)。本文方法的完整網(wǎng)絡(luò)模型結(jié)構(gòu)如圖8所示。
圖8 本文方法的網(wǎng)絡(luò)模型結(jié)構(gòu)
為了驗(yàn)證本文方法的可行性和有效性,利用2.1.1節(jié)所述方法構(gòu)建的數(shù)據(jù)集與原YOLOv4模型進(jìn)行對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)在Intel Xeon Silver 4110 CPU @2.10 GHz處理器,32 GB內(nèi)存,NVIDIA GeForce RTX 2080Ti顯卡的環(huán)境下進(jìn)行,采用Windows 10操作系統(tǒng),開發(fā)語言為Python,利用的深度學(xué)習(xí)框架為Pytorch,開發(fā)環(huán)境為Pycharm 2019。
本文最終構(gòu)建的數(shù)據(jù)集包含7種常見林業(yè)害蟲,合計(jì)3 233張圖像樣本。在整理害蟲圖像時(shí),對(duì)害蟲進(jìn)行標(biāo)注,如圖9所示。
圖9 標(biāo)注害蟲圖像
為了評(píng)測(cè)模型的實(shí)時(shí)性,本文使用幀率,即每秒可預(yù)測(cè)圖像的幀數(shù)(Frames Per Second, FPS)作為衡量檢測(cè)速度的指標(biāo)。當(dāng)幀率大于25 FPS時(shí),人眼認(rèn)為是實(shí)時(shí)的。幀率越大,檢測(cè)速度越快。
在訓(xùn)練時(shí),首先輸入尺寸大小為416×416的害蟲圖像,設(shè)置訓(xùn)練批次大小為8,初始學(xué)習(xí)率為0.001;然后凍結(jié)主干網(wǎng)絡(luò),進(jìn)行50個(gè)輪次的預(yù)熱訓(xùn)練;最后,訓(xùn)練批次大小調(diào)整為8,學(xué)習(xí)率調(diào)整為0.000 1,將解凍后的整體網(wǎng)絡(luò)再訓(xùn)練50個(gè)輪次。經(jīng)過訓(xùn)練之后,繪制得到7種害蟲的PR曲線,如圖10所示。
圖10 7種害蟲的PR曲線圖
為了驗(yàn)證本文改進(jìn)的輕量化YOLOv4網(wǎng)絡(luò)模型的有效性,本文設(shè)計(jì)并實(shí)現(xiàn)了與原YOLOv4模型的客觀數(shù)據(jù)對(duì)比實(shí)驗(yàn)和可視化效果對(duì)比實(shí)驗(yàn)。
客觀數(shù)據(jù)對(duì)比實(shí)驗(yàn)結(jié)果如表2所示。由表2可以看出,在檢測(cè)精度上,與原YOLOv4模型相比,改進(jìn)后的模型的mAP提升了6.7個(gè)百分點(diǎn),最高AP達(dá)到99.7%;在檢測(cè)速度上,經(jīng)過本文一系列的輕量化改進(jìn),改進(jìn)后的模型檢測(cè)速度大幅提高,比原YOLOv4模型快一倍。綜合分析,本文改進(jìn)的模型提升了檢測(cè)精度,提高了檢測(cè)速度,更好地滿足了林業(yè)害蟲實(shí)時(shí)檢測(cè)的性能要求。
可視化效果對(duì)比實(shí)驗(yàn)結(jié)果如圖11所示,可以看出,在單一背景下或復(fù)雜背景下,原YOLOv4網(wǎng)絡(luò)模型在檢測(cè)時(shí)均存在漏檢、誤檢和錯(cuò)檢的問題,而本文方法模型能夠準(zhǔn)確和全面地檢測(cè)到圖像中的每一個(gè)害蟲,有效地解決了此問題,而且本文網(wǎng)絡(luò)模型對(duì)每種害蟲的檢測(cè)準(zhǔn)確率都要高于原YOLOv4網(wǎng)絡(luò)模型。
表2 本文模型與原YOLOv4模型的客觀數(shù)據(jù)對(duì)比
圖11 本文模型與原YOLOv4模型的可視化效果對(duì)比
綜上分析,本文改進(jìn)的輕量化YOLOv4網(wǎng)絡(luò)模型能夠有效地降低參數(shù)量,提升檢測(cè)精度,提高檢測(cè)速度,解決漏檢、誤檢和錯(cuò)檢的問題,提升了模型的綜合性能,能更好地滿足了林業(yè)害蟲實(shí)時(shí)檢測(cè)的性能要求。
為了驗(yàn)證本文的各項(xiàng)改進(jìn)均能有效提升網(wǎng)絡(luò)模型的性能,設(shè)計(jì)并實(shí)現(xiàn)了消融實(shí)驗(yàn)。消融實(shí)驗(yàn)包括使用MobileNetV3作為主干網(wǎng)絡(luò)、輕量化PANet、添加CBAM和引入Focal Loss?;诟鱾€(gè)改進(jìn)點(diǎn)的算法精度和速度對(duì)比情況如表3所示,其中:表示在網(wǎng)絡(luò)中添加該改進(jìn)點(diǎn)。
表3 消融實(shí)驗(yàn)的結(jié)果
由表3可以看出,對(duì)于MobileNetV3作為主干網(wǎng)絡(luò),可以犧牲一定的精度來提升模型的預(yù)測(cè)速度,模型精度雖然下降0.5個(gè)百分點(diǎn),但模型速度提升了18 FPS;在PANet中使用深度可分離卷積替代普通卷積來實(shí)現(xiàn)輕量化PANet后,模型精度不僅沒有降低,反而提高了0.8個(gè)百分點(diǎn),表明深度可分離卷積相較于普通卷積在特征提取和降低參數(shù)量上具有優(yōu)越性;添加CBAM后,模型僅在增加微量開銷的情況下,精度提高了3.2個(gè)百分點(diǎn),同時(shí),檢測(cè)速度幾乎不受影響,這說明CBAM能夠顯著增強(qiáng)網(wǎng)絡(luò)的特征提取能力,提高網(wǎng)絡(luò)的整體性能;在損失函數(shù)中引入Focal Loss函數(shù),降低了大量負(fù)樣本在訓(xùn)練中所占的權(quán)重,解決了正負(fù)樣本不平衡的問題,大幅提高了檢測(cè)準(zhǔn)確率,mAP較改進(jìn)前模型高了4個(gè)百分點(diǎn),檢測(cè)速度提高5 FPS。
最終,通過使用MobileNetV3替換原主干網(wǎng)絡(luò)、輕量化PANet、添加CBAM和引入Focal Loss,本文方法模型在林業(yè)害蟲數(shù)據(jù)集中的準(zhǔn)確率較改進(jìn)前的原YOLOv4模型提高了6.7個(gè)百分點(diǎn),檢測(cè)速度提高31 FPS,實(shí)現(xiàn)了網(wǎng)絡(luò)模型整體性能的提升。因此,消融實(shí)驗(yàn)中各項(xiàng)指標(biāo)的結(jié)果驗(yàn)證了本文網(wǎng)絡(luò)各項(xiàng)改進(jìn)點(diǎn)的有效性,對(duì)算法模型的性能提升都有一定的貢獻(xiàn)。
為了驗(yàn)證在PANet中添加CBAM能夠有效提高模型的精度,本文設(shè)計(jì)了添加不同注意力機(jī)制的對(duì)比實(shí)驗(yàn),結(jié)果如表4。從表4可以看出,不添加注意力模塊時(shí)檢測(cè)精度為87%,而在添加注意力模塊后檢測(cè)精度都有不同程度的提升。分析原因是數(shù)據(jù)集圖像會(huì)存在遮擋、光照變化和背景干擾等因素的影響,引入注意力機(jī)制可以使網(wǎng)絡(luò)關(guān)注重要信息,抑制背景噪聲,提高檢測(cè)能力。其中,添加CBAM時(shí)效果最優(yōu),mAP為90.2%。分析原因是,相較于SE和ECA只關(guān)注通道信息的綜合,CBAM匯總并綜合了空間和通道兩方面的注意力信息,從而能夠獲得更加全面和可靠的注意力信息,提高模型的檢測(cè)精度。而在提升模型檢測(cè)精度的同時(shí),注意力模塊因?yàn)槠漭p量的特征,僅極少地增加了網(wǎng)絡(luò)的參數(shù)量,整體的檢測(cè)速度也幾乎保持不變。因此,在PANet中融合CBAM能夠顯著提高網(wǎng)絡(luò)的特征提取能力,在不過多增加網(wǎng)絡(luò)負(fù)擔(dān)的情況下,大幅提高網(wǎng)絡(luò)的檢測(cè)準(zhǔn)確率和整體性能。
表4 不同注意力機(jī)制的對(duì)比
為了驗(yàn)證本文方法模型的有效性,使用本文訓(xùn)練集對(duì)Faster?RCNN、SSD、YOLOv5、文獻(xiàn)[13]模型及本文方法模型進(jìn)行網(wǎng)絡(luò)訓(xùn)練,使用測(cè)試集數(shù)據(jù)對(duì)它們的mAP和幀率進(jìn)行對(duì)比,結(jié)果如表5所示。由表5可以看出,本文方法模型取得了最高的精度93.7%和最高的檢測(cè)幀率56 FPS。
表5 本文模型與其他模型的對(duì)比
綜合分析,在檢測(cè)精度方面,本文通過引入注意力機(jī)制和改進(jìn)損失函數(shù)等來改進(jìn)YOLOv4,使得改進(jìn)后的模型具有更加優(yōu)越的特征提取能力和對(duì)抗正負(fù)樣本不平衡的能力,從而獲得檢測(cè)精度的大幅提高,相較于Faster?RCNN、SSD、YOLOv5和文獻(xiàn)[13]模型具有更強(qiáng)的檢測(cè)性能,更能滿足林業(yè)害蟲區(qū)域定位識(shí)別的需求。在檢測(cè)速度方面,本文模型經(jīng)過一系列輕量化改造,使得網(wǎng)絡(luò)計(jì)算負(fù)擔(dān)大大降低,檢測(cè)速度大大提升,明顯優(yōu)于兩階段目標(biāo)檢測(cè)的代表性模型Faster?RCNN,同時(shí)也比SSD和最新的YOLOv5更快。因此,本文模型能夠在具有復(fù)雜背景的林業(yè)數(shù)據(jù)集的情況下,保持較高的精度和較快的檢測(cè)速度,實(shí)現(xiàn)精度和速度的平衡。
針對(duì)當(dāng)前林業(yè)害蟲檢測(cè)方法存在模型參數(shù)量大、檢測(cè)速度慢、準(zhǔn)確率較低和漏檢、誤檢和錯(cuò)檢等問題,本文提出一種基于注意力模型和輕量化YOLOv4的林業(yè)害蟲檢測(cè)方法。實(shí)驗(yàn)結(jié)果表明,與原YOLOv4模型相比,無論是在單一背景還是復(fù)雜背景下,本文模型的最高檢測(cè)精度達(dá)到99.7%,檢測(cè)速度比原YOLOv4模型快了一倍。從可視化效果對(duì)比實(shí)驗(yàn)可以看出,本文模型解決了原YOLOv4模型存在的漏檢、誤檢和錯(cuò)檢問題,而且檢測(cè)準(zhǔn)確度更高。消融實(shí)驗(yàn)結(jié)果驗(yàn)證了本文網(wǎng)絡(luò)各項(xiàng)改進(jìn)點(diǎn)對(duì)算法模型的性能提升都有貢獻(xiàn).通過注意力機(jī)制對(duì)比實(shí)驗(yàn)驗(yàn)證了CBAM能夠明顯提高網(wǎng)絡(luò)的特征提取能力,在不過多增加網(wǎng)絡(luò)負(fù)擔(dān)的情況下,大幅提高網(wǎng)絡(luò)的檢測(cè)精度和整體性能。通過與其他主流網(wǎng)絡(luò)模型進(jìn)行對(duì)比實(shí)驗(yàn),本文方法模型具有最高的平均精度和檢測(cè)速度,驗(yàn)證了本文方法模型的有效性和適用性。下一階段工作將研究把本文方法模型部署到移動(dòng)端設(shè)備和嵌入式設(shè)備中,實(shí)際應(yīng)用到林業(yè)害蟲檢測(cè)場(chǎng)景中。
[1] 劉漢生. 陷阱式儲(chǔ)糧害蟲信息采集終端及其系統(tǒng)的研究與實(shí)現(xiàn)[D]. 北京:北京郵電大學(xué), 2018.(LIU H S. The research and implementation of the trap based information acquisition terminal and information system for stored grain pests[D]. Beijing: Beijing University of Posts and Telecommunications, 2018.)
[2] 竺樂慶,張大興,張真. 基于韋伯局部描述子和顏色直方圖的鱗翅目昆蟲翅圖像特征描述與種類識(shí)別[J]. 昆蟲學(xué)報(bào), 2015, 58(4): 419-426.(ZHU L Q, ZHANG D X, ZHANG Z. Feature description of lepidopteran insect wing images based on WLD and HoC and its application in species recognition[J]. Acta Entomologica Sinica, 2015, 58(4): 419-426.)
[3] GIRSHICK R. Fast R?CNN[C]// Proceedings of the 2015 IEEE International Conference on Computer Vision. Piscataway: IEEE, 2015: 1440-1448.
[4] REN S Q, HE K M, GIRSHICK R, et al. Faster R?CNN: towards real?time object detection with region proposal networks[C]// Proceedings of the 28th International Conference on Neural Information Processing Systems. Cambridge: MIT Press, 2015:91-99.
[5] DAI J F, LI Y, HE K M, et al. R?FCN: object detection via region?based fully convolutional networks[C]// Proceedings of the 30th International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2016: 379-387.
[6] LIN T Y, DOLLáR P, GIRSHICK R, et al. Feature pyramid networks for object detection[C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2017: 936-944.
[7] REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: unified, real?time object detection[C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2016: 779-788.
[8] REDMON J, FARHADI A. YOLO9000: better, faster, stronger[C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2017: 6517-6525.
[9] REDMON J, FARHADI A. YOLOv3: an incremental improvement[EB/OL]. (2018-04-08)[2021-12-10].https://arxiv.org/pdf/1804.02767.pdf.
[10] BOCHKOVSKIY A, WANG C Y, LIAO H Y M. YOLOv4: optimal speed and accuracy of object detection[EB/OL]. (2020-04-23)[2021-11-05].https://arxiv.org/pdf/2004.10934.pdf.
[11] LIU W, ANGUELOV D, ERHAN D, et al. SSD: single shot multiBox detector[C]// Proceedings of the 2016 European Conference on Computer Vision, LNCS 9905. Cham: Springer, 2016: 21-37.
[12] 苗海委,周慧玲. 基于深度學(xué)習(xí)的粘蟲板儲(chǔ)糧害蟲圖像檢測(cè)算法的研究[J]. 中國(guó)糧油學(xué)報(bào), 2019, 34(12): 93-99.(MIAO H W, ZHOU H L. Detection of stored?grain insects image on sticky board using deep learning[J]. Journal of the Chinese Cereals and Oils Association, 2019, 34(12): 93-99.)
[13] 候瑞環(huán),楊喜旺,王智超,等. 一種基于YOLOv4?TIA的林業(yè)害蟲實(shí)時(shí)檢測(cè)方法[J]. 計(jì)算機(jī)工程, 2022, 48(4): 255-261.(HOU R H, YANG X W, WANG Z C, et al. A real?time detection methods for forestry pests based on YOLOv4?TIA[J]. Computer Engineering, 2022, 48(4): 255-261.)
[14] 袁哲明,袁鴻杰,言雨璇,等. 基于深度學(xué)習(xí)的輕量化田間昆蟲識(shí)別及分類模型[J]. 吉林大學(xué)學(xué)報(bào)(工學(xué)版), 2021, 51(3): 1131-1139.(YUAN Z M, YUAN H J, YAN Y X, et al. Automatic recognition and classification of field insects based on lightweight deep learning model[J]. Journal of Jilin University (Engineering and Technology Edition), 2021, 51(3): 1131-1139.)
[15] 李啟運(yùn),紀(jì)慶革,洪賽丁. FastFace:實(shí)時(shí)魯棒的人臉檢測(cè)算法[J]. 中國(guó)圖象圖形學(xué)報(bào), 2019, 24(10): 1761-1771.(LI Q Y, JI Q G, HONG S D. FastFace: a real?time robust algorithm for face detection[J]. Journal of Image and Graphics, 2019, 24(10): 1761-1771.)
[16] IANDOLA F N, HAN S, MOSKEWICZ M W, et al. SqueezeNet: AlexNet?level accuracy with 50x fewer parameters and< 0.5 MB model size[EB/OL]. (2016-11-04)[2021-11-22].https://arxiv.org/pdf/1602.07360.pdf.
[17] HOWARD A G, ZHU M L, CHEN B, et al. MobileNets: efficient convolutional neural networks for mobile vision applications[EB/OL]. (2017-04-17)[2021-12-08].https://arxiv.org/pdf/1704.04861.pdf.
[18] SANDLER M, HOWARD A, ZHU M L, et al. MobileNetV2: inverted residuals and linear bottlenecks[C]// Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2018: 4510-4520.
[19] HOWARD A, SANDLER M, CHEN B, et al. Searching for MobileNetV3[C]// Proceedings of the 2019 IEEE/CVF International Conference on Computer Vision. Piscataway: IEEE, 2019: 1314-1324.
[20] ZHANG X Y, ZHOU X Y, LIN M X, et al. ShuffleNet: an extremely efficient convolutional neural network for mobile devices[C]// Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2018: 6848-6856.
[21] MA N N, ZHANG X Y, ZHENG H T, et al. ShuffleNet V2: practical guidelines for efficient CNN architecture design[C]// Proceedings of the 2018 European Conference on Computer Vision, LNCS 11218. Cham: Springer, 2018: 122-138.
[22] HAN K, WANG Y H, TIAN Q, et al. GhostNet: more features from cheap operations[C]// Proceedings of the 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2020: 1577-1586.
[23] WOO S, PARK J, LEE J Y, et al. CBAM: convolutional block attention module[C]// Proceedings of the 2018 European Conference on Computer Vision, LNCS 11211. Cham: Springer, 2018: 3-19.
Forest pest detection method based on attention model and lightweight YOLOv4
SUN Haiyan, CHEN Yunbo, FENG Dingwei, WANG Tong, CAI Xingquan*
(,,100144,)
Aiming at the problems of slow detection speed, low precision, missed detection and false detection of current forest pest detection methods, a forest pest detection method based on attention model and lightweight YOLOv4 was proposed. Firstly, a dataset was constructed and preprocessed by using geometric transformation, random color dithering and mosaic data augmentation techniques. Secondly, the backbone network of YOLOv4 was replaced with a lightweight network MobileNetV3, and the Convolutional Block Attention Module (CBAM) was added to the improved Path Aggregation Network (PANet) to build the improved lightweight YOLOv4 network. Thirdly, Focal Loss was introduced to optimize the loss function of the YOLOv4 network model. Finally, the preprocessed dataset was input into the improved network model, and the detection results containing pest species and location information were output. Experimental results show that all the improvements of the network contribute to the performance improvement of the model; compared with the original YOLOv4 model, the proposed model has faster detection speed and higher detection mean Average Precision (mAP), and effectively solves the problem of missed detection and false detection. The proposed new model is superior to the existing mainstream network models and can meet the precision and speed requirements of real?time detection of forest pests.
forest pest detection; lightweight network; attention model; loss function
This work is partially supported by Beijing Social Science Foundation of China (20YTB011).
SUN Haiyan, born in 1980, Ph. D., lecturer. Her research interests include virtual reality, deep learning.
CHEN Yunbo, born in 2001. Her research interests include virtual reality, deep learning.
FENG Dingwei, born in 1997, M. S. candidate. His research interests include virtual reality, deep learning.
WANG Tong, born in 1996, M. S. candidate. His research interests include virtual reality, deep learning.
CAI Xingquan, born in 1980, Ph. D., professor. His research interests include virtual reality, human?computer interaction, deep learning.
TP391.9
A
1001-9081(2022)11-3580-08
10.11772/j.issn.1001-9081.2021122164
2021?12?24;
2022?03?14;
2022?03?17。
北京市社會(huì)科學(xué)基金資助項(xiàng)目(20YTB011)。
孫海燕(1980—),女,山東濟(jì)寧人,講師,博士,主要研究方向:虛擬現(xiàn)實(shí)、深度學(xué)習(xí);陳云博(2001—),女,河南鄭州人,主要研究方向:虛擬現(xiàn)實(shí)、深度學(xué)習(xí);封丁惟(1997—),男,山東青島人,碩士研究生,主要研究方向:虛擬現(xiàn)實(shí)、深度學(xué)習(xí);王通(1996—),男,山西大同人,碩士研究生,主要研究方向:虛擬現(xiàn)實(shí)、深度學(xué)習(xí);蔡興泉(1980—),男,山東濟(jì)南人,教授,博士,CCF高級(jí)會(huì)員,主要研究方向:虛擬現(xiàn)實(shí)、人機(jī)互動(dòng)、深度學(xué)習(xí)。