摘要:傳統(tǒng)的Mask R-CNN網(wǎng)絡(luò)檢測(cè)目標(biāo)時(shí)會(huì)出現(xiàn)特征丟失和特征混淆的情況,且對(duì)于密集的小目標(biāo)容易出現(xiàn)漏檢、錯(cuò)檢等問題。針對(duì)這一問題,提出一種結(jié)合注意力機(jī)制和雙向特征融合的葉片病害檢測(cè)方法。首先,構(gòu)建數(shù)據(jù)集時(shí)給葉片圖片加入高斯噪聲斯和椒鹽噪聲兩種人工噪聲,模仿自然界的復(fù)雜噪聲,提升數(shù)據(jù)的多樣性;其次,結(jié)合PAFPN結(jié)構(gòu)與CBAM注意力機(jī)制,生成的CBAM-PAFPN結(jié)構(gòu),替代Mask R-CNN網(wǎng)絡(luò)FPN結(jié)構(gòu),優(yōu)化Mask R-CNN網(wǎng)絡(luò)的特征提取方式;最后,將原網(wǎng)絡(luò)NMS篩選候選框的方式替換為Soft-NMS。結(jié)果表明:對(duì)于無噪聲的數(shù)據(jù)集,mAP值提升0.46%,Recall值提升2.24%;平均錯(cuò)檢率為1.34%,降低3.28%,約為原網(wǎng)絡(luò)的1/4,平均漏檢率為0.12%,降低2.19%,約為原網(wǎng)絡(luò)的1/20。改進(jìn)后的網(wǎng)絡(luò)在檢測(cè)和定位精度上都有所提升,為有效檢測(cè)不同大小、不同密集度的葉片病害提供技術(shù)支持。
關(guān)鍵詞:葉片病害;CBAM;雙向特征融合;Mask R-CNN;NMS
中圖分類號(hào):TP391; S43" " " 文獻(xiàn)標(biāo)識(shí)碼:A" nbsp; " 文章編號(hào):2095?5553 (2024) 10?0281?08
Leaf disease detection method combining attention mechanism and
bidirectional feature fusion
Ma Xiaohui1, 2, Wang Ji1, 2, Qin Jiajun2, 3
(1. College of Electronic and Information Engineering, Guangdong Ocean University, Zhanjiang, 524088, China;
2. Guangdong Engineering and Technology Research Center of Intelligent Marine Sensor and Its Equipment, Zhanjiang,
524088, China; 3. College of Mathematics and Computer Science, Guangdong Ocean University, Zhanjiang, 524088, China)
Abstract: When the traditional Mask R-CNN network detects the target, feature loss and feature confusion will occur, and for the dense small target, it is easy to miss detection, 1 detection and other problems. In order to solve this problem, this paper proposes a leaf disease detection method combining attention mechanism and bidirectional feature fusion. Firstly, two kinds of artificial noises such as Gaussian noise and salt and pepper noise, were added to the leaf picture during the construction of the data set to imitate the complex noises in nature and improve the diversity of data. Secondly, combining the PAFPN structure with the CBAM attention mechanism, the CBAM-PAFPN structure is generated to replace the FPN structure of Mask R-CNN network and optimize the feature extraction mode of Mask R-CNN network. Finally, replace the original NMS filtering candidate box with Soft-NMS. The experimental results show that for the noiseless data set, mAP value increases by 0.46% and Recall value increases by 2.24%. The average error detection rate is 1.34%, a decrease of 3.28%, about 1/4 of the original network, the average missing detection rate is 0.12%, a decrease of 2.19%, about 1/20 of the original network. The improved network has increased the accuracy of detection and positioning, which provides technical support for the effective detection of leaf diseases of different sizes and densities.
Keywords: leaf disease; CBAM; bidirectional feature fusion; Mask R-CNN; NMS
0 引言
根據(jù)全國農(nóng)業(yè)技術(shù)推廣服務(wù)中心組織科研、教學(xué)和推廣單位專家等對(duì)全國病蟲害發(fā)生趨勢(shì)發(fā)出的預(yù)報(bào),多種重要的農(nóng)作物病蟲害呈重發(fā)態(tài)勢(shì),多種常見植物病害將對(duì)作物產(chǎn)區(qū)構(gòu)成威脅[1]。植物病害的產(chǎn)生會(huì)對(duì)食品安全造成災(zāi)難性的影響,導(dǎo)致農(nóng)作物的質(zhì)量和產(chǎn)量顯著下降,植物病害已成為限制農(nóng)業(yè)發(fā)展的主要問題之一[2]。葉片是植物的重要結(jié)構(gòu),也是植物病害高發(fā)的部位,因此,實(shí)現(xiàn)對(duì)葉片病害快速準(zhǔn)確的檢測(cè),是抑制作物病害和提升作物產(chǎn)量的重要措施。
傳統(tǒng)的植物病害診斷方法,多通過現(xiàn)場(chǎng)肉眼觀察病害的外形、輪廓、顏色等外觀信息,然后依賴經(jīng)驗(yàn)對(duì)病害種類進(jìn)行判斷[3]。受限于操作人員的專業(yè)知識(shí)和實(shí)踐經(jīng)驗(yàn),傳統(tǒng)的人工檢測(cè)方法存在代價(jià)大、效率低、準(zhǔn)確率低等缺點(diǎn)[4, 5]。深度學(xué)習(xí)中的卷積神經(jīng)網(wǎng)絡(luò)(CNN),具有目標(biāo)特征自動(dòng)提取功能,在目標(biāo)檢測(cè)與識(shí)別方面表現(xiàn)出強(qiáng)大的能力[6]。近年來,國內(nèi)外已有許多學(xué)者將深度卷積神經(jīng)網(wǎng)絡(luò)(DCNN)應(yīng)用到農(nóng)業(yè)領(lǐng)域,且取得了一定的成果[7]。Peng等[8]為了實(shí)現(xiàn)去除田間雜草時(shí)精準(zhǔn)施藥,提出了一種基于RetinaNet的WeedDet模型實(shí)現(xiàn)田間雜草的精準(zhǔn)檢測(cè);周品志等[9]針對(duì)在自然環(huán)境下對(duì)櫻桃不同生長(zhǎng)時(shí)期的狀態(tài)監(jiān)測(cè)受環(huán)境影響存在目標(biāo)識(shí)別困難、檢測(cè)準(zhǔn)確率低等問題,提出了一種基于CSPDarknet53改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)櫻桃分類檢測(cè)模型;孫俊等[10]為實(shí)現(xiàn)快速準(zhǔn)確地檢測(cè)重疊、遮擋等果園復(fù)雜環(huán)境下的蘋果果實(shí)目標(biāo),提出一種基于改進(jìn)RetinaNet的蘋果檢測(cè)網(wǎng)絡(luò);Pandian等[11]為了實(shí)現(xiàn)植物葉片疾病檢測(cè)高精度檢測(cè),提出了一種新的14層深度卷積神經(jīng)網(wǎng)絡(luò)(14-DCNN);Selvaraj等[12]為了及時(shí)發(fā)現(xiàn)香蕉的病蟲害,基于深度卷積神經(jīng)網(wǎng)絡(luò)和遷移學(xué)習(xí),開發(fā)了一個(gè)香蕉病蟲害檢測(cè)系統(tǒng);Jin等[13]提出了一種可以識(shí)別蔬菜作物,并將所有其他綠色物體分類為雜草的基于深度學(xué)習(xí)的雜草檢測(cè)方法;孫寶霞等[14]為實(shí)現(xiàn)柑橘的產(chǎn)量估計(jì)與生長(zhǎng)期品質(zhì)監(jiān)測(cè),對(duì)柑橘果園的生產(chǎn)智能化管理,利用YOLOv4深度學(xué)習(xí)模型對(duì)夜間自然環(huán)境下成熟柑橘進(jìn)行識(shí)別與表征缺陷檢測(cè);Liu等[15]為了探索自然環(huán)境下櫻桃甜果的快速檢測(cè)方法,采用最前沿的YOLOv4深度學(xué)習(xí)模型,檢測(cè)無遮擋、枝葉遮擋、果實(shí)重疊遮擋三種不同遮擋情況下的櫻桃果實(shí);Zhang等[16]為了在復(fù)雜場(chǎng)景下精確地判別大豆葉部病害特征,提出了一種多特征融合Faster R-CNN(MF3 R-CNN)模型;Lawal等[17]提出了一種準(zhǔn)確、快速的魯棒YOLOMuskmelon模型,解決復(fù)雜環(huán)境下水果檢測(cè)困難的問題。
從上述文獻(xiàn)可知,深度卷積神經(jīng)網(wǎng)絡(luò)在農(nóng)業(yè)領(lǐng)域表現(xiàn)優(yōu)異,但目前基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法,對(duì)密集小目標(biāo)的檢測(cè)仍是一大難題。本文利用深度學(xué)習(xí)方法快速、準(zhǔn)確、無損等特點(diǎn),針對(duì)部分葉片病害面積小、分布密集,易錯(cuò)檢漏檢等問題,以Mask R-CNN網(wǎng)絡(luò)[18]為基礎(chǔ),對(duì)Mask R-CNN網(wǎng)絡(luò)的特征提取方式和候選框篩選方式做出改進(jìn),提出優(yōu)化后的CBAM muti-Feature Mask R-CNN網(wǎng)絡(luò)模型,為葉片病害智能化檢測(cè)提供技術(shù)支持。
1 材料與方法
1.1 數(shù)據(jù)處理
1.1.1 數(shù)據(jù)集獲取與劃分
本研究所使用的數(shù)據(jù)集原圖取自PlantVillage公共數(shù)據(jù)集,經(jīng)過篩選,使用的葉片病害類型為蘋果黑斑?。╝pple?balckspot)、土豆晚疫?。╬otato?Lateblight)、葡萄輪斑?。╣rape?mealsles)數(shù)據(jù)集。其中蘋果黑斑病圖像597張,對(duì)應(yīng)病害實(shí)例3 731個(gè),土豆晚疫病607張,對(duì)應(yīng)的病害實(shí)例1 383個(gè),葡萄輪斑病268張,對(duì)應(yīng)的病害實(shí)例2 472個(gè),圖片的總數(shù)量為1 472張,病害實(shí)例總數(shù)量為7 586個(gè)。蘋果黑斑病圖像對(duì)應(yīng)含有的小目標(biāo)病害數(shù)量最多,分布較為密集,葡萄輪斑病對(duì)應(yīng)含有的中目標(biāo)病害數(shù)量最多,分布適中,土豆晚疫病對(duì)應(yīng)含有的大目標(biāo)病害數(shù)量最多,同一圖片上一般只有1~4處病害。在目標(biāo)檢測(cè)中,目標(biāo)的面積越小,訓(xùn)練和檢測(cè)難度越大,分布越密集則越容易出現(xiàn)漏檢錯(cuò)檢的情況,為了提升網(wǎng)絡(luò)的泛化性和魯棒性,故蘋果黑斑病的病害數(shù)量分配最多、葡萄輪斑病次之、土豆晚疫病最少。
為了模仿自然界中各種復(fù)雜噪聲,提高數(shù)據(jù)集的多樣性,本文對(duì)圖片數(shù)據(jù)的進(jìn)行了加噪處理,生成三種類型的數(shù)據(jù)集,分別為:沒加任何噪聲的數(shù)據(jù)集(Leaf disease data_base)、加高斯噪聲的數(shù)據(jù)集(Leaf disease data_gauss),加椒鹽噪聲的數(shù)據(jù)集(Leaf disease data_sp)。按8∶2的比例,將圖片數(shù)據(jù)劃分為訓(xùn)練集和測(cè)試集。表1為病害訓(xùn)練集和測(cè)試集的劃分情況。
1.1.2 高斯噪聲
高斯噪聲(gause_noise,gause)是指噪聲分布的概率密度函數(shù)服從高斯分布(正態(tài)分布)的一類噪聲,其產(chǎn)生的主要原因是相機(jī)在拍攝時(shí)視場(chǎng)較暗且亮度不均勻,同時(shí)相機(jī)長(zhǎng)時(shí)間工作使得溫度過高和電路元器件自身噪聲與互相影響也會(huì)產(chǎn)生高斯噪聲。高斯噪聲的概率密度函數(shù)如式(1)所示。
[P(z)=12πσe- (z-μ)22σ2] (1)
式中: z——像素值;
μ——高斯噪聲的平均值(期望);
σ——高斯噪聲的標(biāo)準(zhǔn)差;
[σ2]——高斯噪聲的方差。
通過調(diào)節(jié)高斯分布標(biāo)準(zhǔn)差σ的大小來控制添加噪聲程度,本文標(biāo)準(zhǔn)差σ設(shè)置為25,加了高斯噪聲的圖片如圖1所示。
1.1.3 椒鹽噪聲
椒鹽噪聲(salt_pepper_nosie,sp)隨機(jī)改變圖像中的像素值,是由相機(jī)成像、圖像傳輸、解碼處理等過程產(chǎn)生的黑白相間的亮暗點(diǎn)噪聲,圖像中的噪聲點(diǎn)隨機(jī)的撒上一些“鹽”粒和“黑椒”粒,因此被稱為椒鹽噪聲。椒噪聲指的是黑色的噪點(diǎn)(0,0,0),鹽噪聲指的是白色的噪點(diǎn)(255,255,255),通過設(shè)置amount參數(shù)來控制添加噪聲的比例,本研究的amount的大小設(shè)置為0.1,加了椒鹽噪聲的圖片如圖2所示。
1.1.4 數(shù)據(jù)標(biāo)注
使用Labelme圖像標(biāo)注工具[19]對(duì)圖片進(jìn)行標(biāo)注,標(biāo)注的規(guī)則有:(1)對(duì)模糊失真的圖片不予標(biāo)注。(2)葉片中出現(xiàn)但不屬于本研究的病害不予標(biāo)注。(3)同一張照片中的同一個(gè)類要用“_”加序號(hào)分開,例如同一張圖片中有兩個(gè)蘋果黑斑病病害,則在標(biāo)注時(shí),其類名分別是apple?blackspot_1和apple?blackspot_2。圖像標(biāo)注完成后,Labelme工具會(huì)生成相應(yīng)的.json文件,.json文件經(jīng)過轉(zhuǎn)換后可以生成Cv_mask,Label_viz.png,Cv_mask保存了標(biāo)注圖片的掩膜信息;Label_viz.png保存了標(biāo)注后分割的圖像。本文為增強(qiáng)圖像特征的表征能力,圖中不僅包含原圖片、掩膜信息,還添加了標(biāo)簽的信息,三種病害和其對(duì)應(yīng)的掩碼信息如圖3所示。
1.2 網(wǎng)絡(luò)模型
Mask R-CNN是一種常用的目標(biāo)檢測(cè)深度學(xué)習(xí)算法,傳統(tǒng)的Mask R-CNN網(wǎng)絡(luò)組成部分:(1)骨干特征網(wǎng)絡(luò)(Backbone),Backbone由ResNet101和特征金字塔(FPN)兩部分組成;(2)區(qū)域候選網(wǎng)絡(luò)(RPN);(3)興趣區(qū)域(ROI Align);(4)全連接層的三個(gè)分支:分類器和邊框回歸器、Mask掩碼分支,在該層可以得到網(wǎng)絡(luò)的輸出(邊界框、類別、掩膜)。
小目標(biāo)的檢測(cè)需要通過特征圖的淺層信息充分獲取小目標(biāo)的特征信息,而傳統(tǒng)的Mask R-CNN網(wǎng)絡(luò)檢測(cè)單向融合的方式無法將淺層信息傳遞至深層,容易出現(xiàn)特征丟失和特征混淆的情況,因此葉片病害面積較小、密集程度較高的情況下,容易出現(xiàn)漏檢錯(cuò)檢的問題。針對(duì)這一問題,在Mask R-CNN網(wǎng)絡(luò)的基礎(chǔ)上提出一種結(jié)合注意力機(jī)制與雙向特征融合的葉片病害檢測(cè)方法。該方法相對(duì)于傳統(tǒng)的Mask R-CNN做出的改進(jìn)有:(1)修改骨干特征網(wǎng)絡(luò)的特征融合方式,將原本簡(jiǎn)單的單向特征融合方式替換為雙向特征融合方式,即將原本的FPN替換為PAFPN(雙向特征融合金字塔);(2)為了提升網(wǎng)絡(luò)對(duì)特征圖局部信息的關(guān)注,在特征融合后引入CBAM注意力機(jī)制模塊,同時(shí)將CBAM模塊與PAFPN相結(jié)合,生成注意力雙向特征金字塔(CBAM-PAFPN)。(3)將Mask R-CNN原有的非極大抑制(Non?Maximum?Suppression,NMS),替換成柔性非極大抑制(Soft Non?Maximum?Suppression,Soft-NMS)[20],改變NMS過濾候選框的方式。改進(jìn)后的Mask R-CNN網(wǎng)絡(luò)模型如圖4所示。
1.2.1 注意力雙向特征金字塔
1) CBAM注意力機(jī)制。在特征提取的過程中,網(wǎng)絡(luò)不僅關(guān)注有用的病害目標(biāo)信息,還會(huì)關(guān)注無用的背景信息,會(huì)對(duì)檢測(cè)的效果有所影響,故通過增加CBAM(Convolutional Block Attention Module)[21]注意力機(jī)制模塊,提升網(wǎng)絡(luò)的特征圖局部信息的關(guān)注,使得網(wǎng)絡(luò)更關(guān)注病害目標(biāo)信息,減少對(duì)無用背景信息的關(guān)注,從而提升網(wǎng)絡(luò)對(duì)目標(biāo)特征的提取效果。CBAM注意力模塊由通道注意力模塊[22]與空間注意力模塊[23]順序執(zhí)行,如圖5所示。首先,進(jìn)行通道注意力模塊,經(jīng)過最大池化操作與平均池化操作,聚合空間信息并到達(dá)共享網(wǎng)絡(luò),對(duì)輸入特征圖空間維度進(jìn)行壓縮,之后進(jìn)行元素求和合并,生成通道注意力圖;其次,將得到的通道注意力圖與輸入特征圖加權(quán)得到空間注意力模塊的輸入特征圖,將特征圖通道維度進(jìn)行壓縮,既考慮最大池化操作,又考慮平均池化操作,將提取到的特征圖拼接為一個(gè)特征描述符,經(jīng)過一個(gè)卷積層和Sigmoid函數(shù),得到空間注意力圖,凸顯重點(diǎn)區(qū)域;最后將得到的空間注意力特征圖按位相乘,得到最終的輸出。
2) PAFPN。在卷積網(wǎng)絡(luò)中,深層的特征圖帶有更強(qiáng)的語義信息,較弱的位置信息,淺層的特征圖帶有更強(qiáng)的位置信息,較弱的語義信息,自頂向下的單向特征融合方式,可以將深層的語義信息傳遞至淺層,相比無特征融合的方式只增強(qiáng)了高層語義特征信息的表達(dá)能力,但無法傳遞淺層的位置信息。想要將淺層的位置信息傳遞至深層,需要在原有的FPN上增加了一個(gè)自底向上的特征融合過程,實(shí)現(xiàn)了雙向特征融合,形成新的特征金字塔即為PAFPN。自頂向下的融合過程采用了上采樣的方式,自底向上的融合過程采用了下采樣的方式,將上采樣和上采樣融合,可以實(shí)現(xiàn)語義信息和位置信息的融合,減少特征信息丟失的影響。
3) CBAM-PAFPN。將上述的PAFPN與CBAM注意力機(jī)制模塊相結(jié)合生成了注意力雙向特征金字塔結(jié)構(gòu)(CBAM-PAFPN),如圖6所示。CBAM-PAFPN結(jié)構(gòu)有自頂向下和自底向上兩條縱向的特征融合路徑,兩條特征融合路徑和CBAM注意力模塊通過橫向連接,實(shí)現(xiàn)特征信息的傳遞。
CBAM-PAFPN結(jié)構(gòu)獲取feature map的過程為:首先,對(duì)骨干特征網(wǎng)絡(luò)輸出的初步特征C1、C2、C3、C4、C5進(jìn)行自頂向下融合,將深層特征的語義信息傳遞至淺層,獲得特征P2、P3、P4、P5、P6;然后,對(duì)于自頂向下路徑輸出的特征P2、P3、P4、P5進(jìn)行自底向上融合,將淺層的位置信息傳遞至深層,獲得特征N2、N3、N4、N5;最后,對(duì)于自底向上路徑輸出的特征,使用CBAM注意力模塊進(jìn)行再一次的特征提取,從而獲得特征信息更豐富的feature map。(1)自頂向下融合過程(以特征圖P4的獲取過程為例):將特征圖C5進(jìn)行2倍上采樣獲得新特征圖與C4融合,融合過程中需要?dú)w一化操作和RELU函數(shù)的激活,獲得P4;(2)自頂向下融合過程(以特征圖N3的獲取過程為例):將特征圖N2進(jìn)行2倍降采樣后與特征圖P4融合,然后經(jīng)過歸一化操作和RELU函數(shù)的激活,獲得N3。
1.2.2 非極大抑制
在葉片病害較為密集時(shí),會(huì)出現(xiàn)兩個(gè)或兩個(gè)以上的目標(biāo)相鄰較近的情況,刷新檢測(cè)框時(shí),會(huì)出現(xiàn)其中一個(gè)置信度分?jǐn)?shù)較低的目標(biāo)的檢測(cè)框與置信度得分較高目標(biāo)的檢測(cè)框有重疊,且重疊率大于設(shè)定的閾值,那得分較低的目標(biāo)檢測(cè)框置信度得分被置零,其相鄰目標(biāo)的檢測(cè)框被誤刪,導(dǎo)致只檢測(cè)出一個(gè)目標(biāo),從而發(fā)生漏檢或錯(cuò)檢的情況,如圖7所示。
交并比是NMS操作中有一個(gè)重要的操作,交并比求得的值即為IoU,IoU是真實(shí)框和預(yù)測(cè)框交集和并集的比的大小。設(shè)真實(shí)框的面積為A,預(yù)測(cè)框的面積為B,將A與B的交集除以A與B的并集就獲得了IoU的大小,IoU的計(jì)算如式(2)所示。
[IoU=A?BA?B] (2)
NMS作為一種貪婪算法,其強(qiáng)制刪除與最高置信度得分的候選框相鄰的其他候選框,抑制了某些置信度分?jǐn)?shù)較低但定位精確的候選框,不適用于目標(biāo)過于密集的情況,本文引入Soft-NMS,以一種更緩和的方式對(duì)候選框進(jìn)行篩選。Soft-NMS在NMS的基礎(chǔ)上增加了線性函數(shù)和高斯函數(shù)兩種加權(quán)函數(shù),用于降低置信度分?jǐn)?shù)的影響,兩種函數(shù)的對(duì)應(yīng)的式分別如式(3)、式(4)所示。
[Si=Si" " " " " " " " " " " " "IoUlt;ThresholdSi1-IoU" " "IoU≥Threshold] (3)
[Si=Siexp-IoU2σ] (4)
Soft-NMS算法的具體步驟如下:(1)設(shè)置目標(biāo)候選框的閾值(Threshold)為0.5;(2)對(duì)候選框置信度分?jǐn)?shù)的集合列表中的置信度分?jǐn)?shù)降序排列,選擇置信度分?jǐn)?shù)最高的檢測(cè)框A′并保留,將其輸出候選框列表并從列表中刪除;(3)逐一計(jì)算檢測(cè)框A′與剩余框B′的IoU,若IoU值大于閾值,則去除B′(IoU值大于閾值說明B′與A′高度重合,可以認(rèn)定為一個(gè)候選框);(4)重復(fù)步驟2~步驟3,直至候選框列表為空。
2 試驗(yàn)與分析
2.1 試驗(yàn)流程
本文的試驗(yàn)流程如圖8所示。具體訓(xùn)練步驟如下:Step1,輸入一張圖片,進(jìn)行數(shù)據(jù)預(yù)處理(統(tǒng)一尺寸,歸一化等);Step2,將處理好的圖片傳入預(yù)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)ResNet101中,獲得初步特征C1、C2、C3、C4、C5;Step3,對(duì)初步特征C1、C2、C3、C4、C5進(jìn)行自頂向下融合,獲得特征P2、P3、P4、P5、P6;Step4,對(duì)特征P2-P5做自底向上融合,獲得特征N2-N5;Step5,對(duì)于PAFPN輸出的特征,使用CBAM注意力模塊進(jìn)行再一次的特征提取,獲得特征信息更豐富的feature map;Step6,區(qū)域候選框網(wǎng)絡(luò)RPN生成候選框(anchor box)計(jì)算候選框和真實(shí)框的IoU,設(shè)置IoU的上下閾值,IoU大于上閾值為正樣本,小于閾值為負(fù)樣本。從正、負(fù)樣本中各選取128個(gè)樣本進(jìn)行特征訓(xùn)練,調(diào)優(yōu)RPN網(wǎng)絡(luò)層參數(shù);Step7,對(duì)RPN輸出的候選框通過Soft-NMS進(jìn)行篩選;Step8,通過feature map中的每一點(diǎn)設(shè)定ROI,獲得多個(gè)ROI候選框;Step9,得到的ROI通過ROI Align池化為固定大小格式;Step10,對(duì)這些ROI進(jìn)行分類(N類別分類),BB回歸和Mask生成(在每一個(gè)ROI里面進(jìn)行FCN操作);Step11,對(duì)模型進(jìn)行評(píng)估,計(jì)算模型評(píng)價(jià)指標(biāo)。
2.2 試驗(yàn)環(huán)境
葉片病害檢測(cè)方法的過程包含葉片病害圖像增強(qiáng)、葉片病害樣本標(biāo)注、葉片病害檢測(cè)模型的改進(jìn)與訓(xùn)練、試驗(yàn)結(jié)果對(duì)比與分析4個(gè)階段。本文試驗(yàn)使用的深度學(xué)習(xí)框架為Pytorch1.8.0,開發(fā)語言為Python 3.8.5,開發(fā)工具為Anaconda+Pycharm+LabelMe。
2.3 網(wǎng)絡(luò)參數(shù)
由表2可知,CBAM Mask R-CNN相比起傳統(tǒng)的Mask R-CNN深度增加了10層,總參數(shù)量卻只增加了0.04 M,總運(yùn)算量只增加了0.06 GFLOPS;CBAM muti-Feature Mask R-CNN相比起傳統(tǒng)的Mask R-CNN深度增加了16層,網(wǎng)絡(luò)的參數(shù)增加了3.58 M,總運(yùn)算量增加了24.84 GFLOPS。改進(jìn)后的網(wǎng)絡(luò)由于層數(shù)的增加,訓(xùn)練時(shí)間都有所增加,CBAM Mask R-CNN相比傳統(tǒng)的Mask R-CNN訓(xùn)練時(shí)間增加了2 823 s;CBAM muti-Feature Mask R-CNN訓(xùn)練時(shí)間相比傳統(tǒng)的Mask R-CNN增加了5 281 s。
2.4 評(píng)價(jià)指標(biāo)
為了評(píng)價(jià)CBAM muti-Feature Mask R-CNN網(wǎng)絡(luò)模型的有效性,使用mAP值(平均精度均值)、Recall值(平均召回率)、FPS(每秒能處理的圖像數(shù)量)作為評(píng)價(jià)指標(biāo)。本文的mAP值為COCO數(shù)據(jù)集的評(píng)價(jià)指標(biāo),表示從0.5~0.95之間,每隔0.05設(shè)置一次IoU,對(duì)10個(gè)不同的IoU對(duì)應(yīng)的mAP取均值,計(jì)算如式(5)~式(7)所示。
[Recall=TPTP+FP] (5)
[AP=0RecallPrecision] (6)
[mAP=1Ci∈CAPi] (7)
式中: TP——預(yù)測(cè)為正樣本且實(shí)際為正樣本;
FP——預(yù)測(cè)為正樣本而實(shí)際為負(fù)樣本;
AP——某一類檢測(cè)的平均精度值,值為PR曲線下的面積;
Precision——精度;
mAP——衡量所有類別AP的平均值;
C——分類的類別數(shù),本文C為3。
將模型的漏檢率N、平均漏檢率AN、錯(cuò)檢率E和平均錯(cuò)檢率AE作為評(píng)價(jià)網(wǎng)絡(luò)檢測(cè)葉片病害小目標(biāo)能力的指標(biāo),計(jì)算如式(8)~式(11)所示。
[N=PiD×100%] (8)
[AN=i=13Pi3×D×100%] (9)
[E=FiD×100%] (10)
[AE=i=13Fi3×D×100%] (11)
式中: [Pi]——每種病害漏檢的個(gè)數(shù),i取值范圍為1~3;
[P1]——在Leaf disease data_base上的漏檢個(gè)數(shù);
[P2]——在Leaf disease data_gauss上漏檢的個(gè)數(shù);
[P3]——在Leaf disease data_sp上漏檢的個(gè)數(shù);
D——病害實(shí)例的總數(shù),本文D為274個(gè)。
Fi——每種病害錯(cuò)檢的個(gè)數(shù)。
2.5 結(jié)果分析
模型中設(shè)置的候選框大小不同時(shí),會(huì)產(chǎn)生三種AP值:AP(S)值(小目標(biāo)AP值)、AP(M)值(中目標(biāo)AP值)、AP(L)值(大目標(biāo)AP值),為了分析網(wǎng)絡(luò)模型對(duì)不同大小病害目標(biāo)的檢測(cè)效果,本文統(tǒng)計(jì)了不同網(wǎng)絡(luò)的三種AP值,結(jié)果見表3。其中,AP(S)(arealt;32×32):表示設(shè)置目標(biāo)檢測(cè)框的像素面積(area)小于32×32的AP值;AP(M)(32×32lt;arealt;96×96):表示目標(biāo)檢測(cè)框的像素面積大于32×32小于96×96的AP值;AP(L)(areagt;96×96):表示目標(biāo)檢測(cè)框的像素面積小于96×96的AP值。
由表3可知,傳統(tǒng)Mask R-CNN模型的AP值,設(shè)置的目標(biāo)檢測(cè)框越小時(shí),AP值越小,當(dāng)網(wǎng)絡(luò)模型增加CBAM注意力機(jī)制模塊時(shí),中目標(biāo)、大目標(biāo)的AP值得到了提升,分別提升了0.5%、0.57%,而小目標(biāo)AP值卻降低了5.14%。當(dāng)網(wǎng)絡(luò)模型的特征融合方式變?yōu)殡p向特征融合時(shí),減少了特征信息的丟失,增強(qiáng)了對(duì)特征的提取效果,極大程度上提升了對(duì)小目標(biāo)的識(shí)別精度,小目標(biāo)的AP值比較傳統(tǒng)網(wǎng)絡(luò)提升了25.66%,同時(shí)均衡了網(wǎng)絡(luò)模型對(duì)不同大小目標(biāo)的平均識(shí)別精度,AP(M)值、AP(L)值相比較傳統(tǒng)的網(wǎng)絡(luò)提升了0.7%、1.97%,與AP(S)值相差較小。
對(duì)比Mask R-CNN、CBAM Mask R-CNN、CBAM muti-Feature Mask R-CNN三種網(wǎng)絡(luò)在三種數(shù)據(jù)集上的評(píng)價(jià)指標(biāo),評(píng)價(jià)的結(jié)果見表4。由表4可知,同一網(wǎng)絡(luò)下不同的數(shù)據(jù)集,三種網(wǎng)絡(luò)處理兩種加入噪聲的數(shù)據(jù)集都比未加噪聲的數(shù)據(jù)集效果有所降低,對(duì)Mask R-CNN的高斯噪聲的影響較大,在Leaf disease data_gausss上的mAP值比在Leaf disease data_base、Leaf disease data_sp上分別降低了1.3%、0.97%;對(duì)于CBAM muti-Feature Mask R-CNN椒鹽噪聲的影響相對(duì)較大,在Leaf disease data_sp上的mAP值比在Leaf disease data_base、Leaf disease data_gauss上的分別降低了1.59%、0.26%;對(duì)于CBAM Mask R-CNN高斯噪聲和椒鹽噪聲對(duì)網(wǎng)絡(luò)的影響都較大,在Leaf disease data_gauss、Leaf disease data_sp上的mAP值相對(duì)disease data_base分別降低了1.33%、1.59%。
對(duì)比CBAM muti-Feature Mask R-CNN不同數(shù)據(jù)集上的評(píng)價(jià)指標(biāo),其在Leaf disease data_base、Leaf disease data_gauss上的mAP值都是最高的,分別是65.73%、64.40%,比Mask R-CNN分別提升了0.46%、0.03%,Recall值在三種數(shù)據(jù)集中都是最高,在Leaf disease data_base、Leaf disease data_gauss、Leaf disease data_sp上分別為72.26%、70.72%、70.60%,比Mask R-CNN分別提升了2.24%、0.37%、0.52%。使用CBAM muti-Feature Mask R-CNN模型對(duì)三種數(shù)據(jù)集的病害進(jìn)行測(cè)試,檢測(cè)的結(jié)果如圖9所示。
由表5可知,CBAM muti-Feature Mask R-CNN的漏檢、錯(cuò)檢情況相比原網(wǎng)絡(luò)明顯降低。只添加CBAM模塊的Mask R-CNN的平均漏檢率和平均錯(cuò)檢率相比Mask R-CNN都降低了近1/2;CBAM muti-Feature Mask R-CNN相比Mask R-CNN平均漏檢率降低約為其1/20,平均錯(cuò)檢率約為其1/4。改進(jìn)的網(wǎng)絡(luò)在降低漏檢和錯(cuò)檢結(jié)果方面效果顯著,尤其在是降低漏檢結(jié)果方面,CBAM muti-Feature Mask R-CNN的平均漏檢率幾乎接近0。
3 結(jié)論
以Mask R-CNN網(wǎng)絡(luò)模型為基礎(chǔ),結(jié)合PAFPN結(jié)構(gòu)與CBAM模塊,提出CBAM-PAFPN結(jié)構(gòu),替換原Mask R-CNN網(wǎng)絡(luò)中的FPN結(jié)構(gòu),并將原網(wǎng)絡(luò)中NMS模塊替換為Soft-NMS,得到更優(yōu)化的網(wǎng)絡(luò)CBAM muti-Feature Mask R-CNN,改進(jìn)后的網(wǎng)絡(luò)對(duì)葉片病害的檢測(cè)效果提升明顯。
1) 網(wǎng)絡(luò)模型在引入CBAM注意力機(jī)制模塊后,參數(shù)增加0.04 M,總運(yùn)算量增加0.06 GFLOPS,對(duì)比CBAM Mask R-CNN與原網(wǎng)絡(luò)的FPS值、平均漏檢率和平均錯(cuò)檢率,分別降低3.2/ms、1.09%、2.19%,結(jié)果表明CBAM Mask R-CNN網(wǎng)絡(luò)在增加極少參數(shù)量和計(jì)算量的條件下,很大程度提高網(wǎng)絡(luò)的性能。CBAM模塊的引入提升了網(wǎng)絡(luò)對(duì)局部信息的關(guān)注,促使計(jì)算資源更傾向于重點(diǎn)關(guān)注的目標(biāo)區(qū)域,加強(qiáng)感興趣的信息,抑制無用信息,增強(qiáng)網(wǎng)絡(luò)對(duì)目標(biāo)特征的提取效果。
2) 在特征融合階段用雙向特征融合的方式替代簡(jiǎn)單的單向特征融合方式,不僅使得淺層特征可以感受到深層的語義信息,還可以讓深層的特征感受到淺層豐富的位置信息,提升特征的融合效果,減少特征信息丟失的影響。對(duì)比CBAM muti-Feature Mask R-CNN與原網(wǎng)絡(luò)的AP(S)值、AP(M)值、AP(L)值分別提升25.66%、0.7%、1.97%,結(jié)果表明雙向特征融合的方式極大程度提升網(wǎng)絡(luò)的檢測(cè)性能和小目標(biāo)的檢測(cè)精度,均衡網(wǎng)絡(luò)對(duì)面積大小不同病害的檢測(cè)效果。
3) 對(duì)于病害過于密集的情況,將原有的NMS替換成Soft-NMS,改變NMS過濾候選框的方式。對(duì)比CBAM muti-Feature Mask R-CNN與原網(wǎng)絡(luò)的AN值和AE值,分別降低2.19%、3.28%。引入Soft-NMS可以有效降低傳統(tǒng)的Mask R-CNN漏檢、誤檢的概率,提高定位精度。
參 考 文 獻(xiàn)
[ 1 ] 謝澤奇, 張會(huì)敏. 基于深度學(xué)習(xí)算法的農(nóng)作物災(zāi)害預(yù)測(cè)研究[J]. 現(xiàn)代電子技術(shù), 2021, 44(4): 107-110.
[ 2 ] Chakraborty S, Devi M R, Bhattacharya P M, et al. Plant disease dynamics vis?a?vis conservation agriculture [J]. Europe, 2021, 58(4): 221-227.
[ 3 ] 徐勝勇, 彭程里, 陳可, 等. 基于扇環(huán)形區(qū)域圖像分割的小麥秸稈截面參數(shù)測(cè)量方法[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào), 2018, 49(4): 53-59.
Xu Shengyong, Peng Chengli, Chen Ke, et al. Measurement method of wheat stalks cross section parameters based on sector ring region image segmentation [J]. Transactions of the Chinese Society for Agricultural Machinery, 2018, 49(4): 53-59.
[ 4 ] 王云露, 吳杰芳, 蘭鵬, 等. 基于改進(jìn)Faster R-CNN的蘋果葉部病害識(shí)別方法[J]. 林業(yè)工程學(xué)報(bào), 2022, 7(1): 153-159.
[ 5 ] 史紅栩, 李修華, 李民贊, 等. 基于深度學(xué)習(xí)的香蕉病害遠(yuǎn)程診斷系統(tǒng)[J]. 華南農(nóng)業(yè)大學(xué)學(xué)報(bào), 2020, 41(6): 92-99.
[ 6 ] 張珂, 馮曉晗, 郭玉榮, 等. 圖像分類的深度卷積神經(jīng)網(wǎng)絡(luò)模型綜述[J]. 中國圖象圖形學(xué)報(bào), 2021, 26(10): 2305-2325.
[ 7 ] Harakannanavar S S, Rudagi J M, Puranikmath V I, et al. Plant leaf disease detection using computer vision and machine learning algorithms [J]. Global Transitions Proceedings, 2022, 3(1): 305-310.
[ 8 ] Peng H, Li Z, Zhou Z, et al. Weed detection in paddy field using an improved RetinaNet network [J]. Computers and Electronics in Agriculture, 2022, 199: 107179.
[ 9 ] 周品志, 裴悅琨, 魏冉, 等. 基于YOLOv4模型的果園櫻桃實(shí)時(shí)檢測(cè)研究[J]. 浙江農(nóng)業(yè)學(xué)報(bào), 2022, 34(11): 2522-2532.
[10] 孫俊, 錢磊, 朱偉棟, 等. 基于改進(jìn)RetinaNet的果園復(fù)雜環(huán)境下蘋果檢測(cè)[J]. 農(nóng)業(yè)工程學(xué)報(bào), 2022, 38(15): 314-322.
Sun Jun, Qian Lei, Zhu Weidong, et al. Apple detection in complex orchard environment based on improved RetinaNet [J]. Transactions of the Chinese Society of Agricultural Engineering, 2022, 38(15): 314-322.
[11] Pandian J A, Kumar V D, Geman O, et al. Plant disease detection using deep convolutional neural network [J]. Applied Sciences?Basel, 2022, 12(14): 114-123.
[12] Selvaraj M G, Vergara A, Ruiz H, et al. AI?powered banana diseases and pest detection [J]. Plant Methods, 2019, 15(1): 255-262.
[13] Jin X, Sun Y, Che J, et al. A novel deep learning?based method for detection of weeds in vegetables [J]. Pest Management Science, 2022, 78(5): 161-169.
[14] 孫寶霞, 梁翠曉, 劉凱, 等. 夜間環(huán)境下樹上柑橘表征缺陷深度學(xué)習(xí)檢測(cè)方法[J]. 林業(yè)工程學(xué)報(bào), 2021(6): 148-155.
[15] Liu T, Li D. Detection method for sweet cherry fruits based on YOLOv4 in the natural environment [J]. Asian Agricultural Research, 2022, 14(1): 66-76.
[16] Zhang K, Wu Q, Chen Y. Detecting soybean leaf disease from synthetic image using multi?feature fusion faster R-CNN [J]. Computers and Electronics in Agriculture, 2021, 18(3): 325-331.
[17] Lawal O M. YOLOMuskmelon: Quest for fruit detection speed and accuracy using deep learning [J]. IEEE Access, 2021, 9(2): 121-127.
[18] He K, Gkioxari G, Dollar P, et al. Mask R-CNN [J]. IEEE Transactions On Pattern Analysis and Machine Interlligence, 2020, 42(2): 386-397.
[19] Russell B C, Torralba A, Murphy K P, et al. Label me: A database and web?based tool for image annotation [J]. Interrional Journal of Computer Vision, 2008, 77(1-3): 157-173.
[20] 王鳳隨, 王啟勝, 陳金剛, 等. 基于注意力機(jī)制和Soft-NMS的改進(jìn)Faster R-CNN目標(biāo)檢測(cè)算法[J]. 激光與光電子學(xué)進(jìn)展, 2021, 58(24): 405-416.
[21] 曾偉輝, 唐欣, 胡根生, 等. 基于卷積塊注意力膠囊網(wǎng)絡(luò)的小樣本水稻害蟲識(shí)別[J]. 中國農(nóng)業(yè)大學(xué)學(xué)報(bào), 2022, 27(3): 63-74.
Zeng Weihui, Tang Xin, Hu Gensheng, et al. Rice pests recognition with small number of samples based on CBAM and capsule network [J]. Journal of China Agricultural University, 2022, 27(3): 63-74.
[22] Yang X, Zhang D, Wang Z, et al. Super?resolution reconstruction of terahertz images based on a deep?learning network with a residual channel attention mechanism [J]. Applied Optics, 2022, 61(12): 3363-3370.
[23] Wang A, Zhou H, Hu Y, et al. Endogenous spatial attention modulates the magnitude of the colavita visual dominance effect [J]. i-Perception, 2021, 12(4): 20416695211027186.