項(xiàng)新建, 王科宇, 丁 祎, 鄭永平, 胡萬里
(1.浙江科技學(xué)院自動(dòng)化與電氣工程學(xué)院,杭州 310023;2.正陽科技股份有限公司,浙江 永康 321300)
草莓是多年生草本植物,原產(chǎn)于南美,不僅鮮美多汁、營養(yǎng)豐富,具有很高的經(jīng)濟(jì)價(jià)值[1],已成為我國廣泛栽培的重要經(jīng)濟(jì)作物之一。至2021年,我國已擁有草莓播種面積139 970 ha,產(chǎn)量368.25 萬t,占全球的比重達(dá)37.23%,是全球最大的草莓生產(chǎn)與消費(fèi)國。
在長期實(shí)踐中發(fā)現(xiàn),由于草莓生長過程中,環(huán)境溫暖濕潤,植株矮小,莖、葉、果實(shí)接近地面等特點(diǎn),極易受到各種病蟲害。常見的病蟲害有草莓角斑病、草莓炭疽病、花枯病、葉斑病、草莓果實(shí)白粉病、草莓葉片白粉病和灰霉病等?;颐共∈窃跍厥液吐兜卦耘嘀芯毡楦腥镜牟『?,使草莓減產(chǎn)率達(dá)到20% ~30%,嚴(yán)重情況下可達(dá)50%以上。除此之外,還會(huì)引起采后草莓果實(shí)腐爛,造成草莓種植戶的巨大經(jīng)濟(jì)損失[2]。草莓病蟲害種類繁多,造成的經(jīng)濟(jì)損失大。對草莓生長過程中可能發(fā)生的病蟲害進(jìn)行精準(zhǔn)的識(shí)別與預(yù)防,對草莓生產(chǎn)具有十分重要的意義。
目前圖像識(shí)別與機(jī)器學(xué)習(xí)方法在病蟲害識(shí)別領(lǐng)域中廣泛應(yīng)用,能在一定程度上代替?zhèn)鹘y(tǒng)的肉眼識(shí)別,可提高病蟲害檢測的效率[3]。牛沖等[4]基于圖像灰度直方圖特征,選用支持向量機(jī)(Support Vector Machin,SVM)分類器對草莓病蟲害圖像進(jìn)行分類,分類正確率可達(dá)90%以上。Habib等[5]提出基于視覺技術(shù)的木瓜病害疾病檢測與分類,利用K-means 聚類算法和SVM建立模型分類,準(zhǔn)確率達(dá)95.2%。Prajapati 等[6]基于HSV顏色空間,通過用K-means聚類方法對水稻病害進(jìn)行分類,準(zhǔn)確率可達(dá)到96.71%。胡永強(qiáng)等[7]結(jié)合分類器學(xué)習(xí)以及稀疏思想,運(yùn)用AdaBoost 算法對顏色、形狀和紋理特征進(jìn)行特征融合,識(shí)別準(zhǔn)確率最高可達(dá)92.4%。以上均為基于圖像識(shí)別與機(jī)器學(xué)習(xí)方法的病蟲害識(shí)別方法,由于檢測目標(biāo)形狀、光照條件以及檢測背景的多樣性和復(fù)雜性,特征提取的魯棒性不夠理想。
隨著深度學(xué)習(xí)的快速發(fā)展,成為圖像識(shí)別領(lǐng)域又一新的技術(shù)手段,具有識(shí)別速度快、準(zhǔn)確率高等優(yōu)勢[8]。深度學(xué)習(xí)的植物病蟲害目標(biāo)識(shí)別方式,不僅能快速識(shí)別病蟲害的類別,還能準(zhǔn)確定位病斑、害蟲在圖像中的位置,進(jìn)一步促進(jìn)了智慧農(nóng)業(yè)的發(fā)展。深度學(xué)習(xí)的植物病蟲害目標(biāo)檢測算法主要以“你只看一次”[9](You only look once,YOLO)算法系列為核心的單階段算法[10]以及以區(qū)域卷積神經(jīng)網(wǎng)絡(luò)算法(Region-CNN,RCNN)[11]為核心的雙階段算法為主。
李頎等[12]提出基于改進(jìn)SSD 的果面缺陷冬棗實(shí)時(shí)檢測方法,對4 類冬棗的整體檢測精準(zhǔn)性達(dá)到91.89%。晁曉菲等[13]以YOLOv4 網(wǎng)絡(luò)為基礎(chǔ),經(jīng)過對主干網(wǎng)絡(luò)、頸部、邊界框損失函數(shù)等改造、創(chuàng)新,在對蘋果葉片病害的檢測中,檢測精確度達(dá)到88.2%。駱潤玫等[14]提出基于YOLOv5-C 目標(biāo)檢測網(wǎng)絡(luò)的復(fù)雜背景廣佛手病蟲害識(shí)別方法,檢測準(zhǔn)確率為93%,召回率為88.99%。宋中山等[15]在自然場景下柑橘葉片病害檢測和識(shí)別技術(shù),提出基于二值化的Faster RCNN 區(qū)域檢測神經(jīng)網(wǎng)絡(luò)模型,總平均準(zhǔn)確率為87.5%。殷獻(xiàn)博等[16]根據(jù)不同卷積層提取特征的特點(diǎn)與不同注意力機(jī)制的作用,提出基于多注意力機(jī)制改進(jìn)的YOLOX-Nano的柑橘梢期長勢智能識(shí)別模型,平均準(zhǔn)確率為88.07%。以上方法說明利用深度學(xué)習(xí)識(shí)別植物病蟲害具有可行性,并且可靠性高。
YOLO系列網(wǎng)絡(luò)是單階段算法中最為常見的一種目標(biāo)檢測模型,YOLOX-s 是其優(yōu)秀代表,具有檢測精度高、推理速度快等特點(diǎn)。自然環(huán)境下拍攝的草莓病蟲害圖像背景復(fù)雜,病蟲害種類多,且相互之間差異性較小,易造成病蟲害目標(biāo)的誤檢與漏檢。為提高草莓病蟲害的識(shí)別準(zhǔn)確率,本文提出了一種基于AMYOLOX(Attention Mechanism-YOLOX)的草莓病蟲害檢測算法,以YOLOX-s 算法作為基礎(chǔ)的網(wǎng)絡(luò)模型,進(jìn)行相關(guān)研究改進(jìn)。
(1)使網(wǎng)絡(luò)模型能更高效地學(xué)習(xí)和融合圖像的特征。通過多注意力機(jī)制引入來提升網(wǎng)絡(luò)的性能。結(jié)合不同的注意力機(jī)制模塊的不同的特點(diǎn),對網(wǎng)絡(luò)的不同地方進(jìn)行改進(jìn),使其到達(dá)模型性能的最大化。
(2)針對部分病蟲害較小,易導(dǎo)致病蟲害定位不準(zhǔn)確,引入CIoU損失函數(shù)作為邊界框回歸損失,不僅能提高目標(biāo)框回歸的穩(wěn)定性,還能使損失函數(shù)收斂速度更快。
(3)草莓病蟲害所處環(huán)境背景相對復(fù)雜,在訓(xùn)練階段,使用Mosaic 和Mixup 算法進(jìn)行數(shù)據(jù)增強(qiáng),豐富了檢測物體的背景,使得網(wǎng)絡(luò)面對復(fù)雜環(huán)境有更好的魯棒性。
YOLOX是一種高性能檢測器,YOLOX 創(chuàng)新在于使用Decoupled Head、SIMOTA 等方式,使其檢測性能達(dá)到了新的高度。該網(wǎng)絡(luò)共分為主干特征提取網(wǎng)絡(luò)(Backbone)、特征金字塔網(wǎng)絡(luò)(Neck)和目標(biāo)檢測頭(Head)。其中Backbone 網(wǎng)絡(luò)用于圖像特征的提取、Neck網(wǎng)絡(luò)用于多尺度特征的融合,Head 網(wǎng)絡(luò)進(jìn)行圖片的識(shí)別和定位。
Backbone 即主干特征提取網(wǎng)絡(luò),采用的是CSPDarknet網(wǎng)絡(luò),結(jié)構(gòu)如圖1 所示。
圖1 Backbone結(jié)構(gòu)
其中包含了神經(jīng)網(wǎng)絡(luò)組件(Conv BN SiLU,CBS)、Focus結(jié)構(gòu)、神經(jīng)網(wǎng)絡(luò)架構(gòu)(Cross Stage Partial,CSP)和空間金字塔池化(Spatial Pyramid Pooling,SPP)結(jié)構(gòu)。CBS結(jié)構(gòu)由Conv +BN +SiLU 組成;CSP 結(jié)構(gòu)借鑒了CSPNet的網(wǎng)絡(luò)結(jié)構(gòu),由卷積層和X個(gè)殘差組件拼接組成;Focus結(jié)構(gòu)如圖2 所示。
圖2 Focus結(jié)構(gòu)
具體操作是在一張圖片中每隔一個(gè)像素拿到一個(gè)值,獲得4 個(gè)獨(dú)立的特征層,將4 個(gè)獨(dú)立的特征層進(jìn)行堆疊,此時(shí)W、H信息就集中到了通道信息,輸入通道擴(kuò)充了4 倍;SPP 結(jié)構(gòu)如圖3 所示,其通過pooling 將不同尺度的特征融合到一起,實(shí)現(xiàn)數(shù)據(jù)的多尺度輸入。
圖3 SPP結(jié)構(gòu)
Neck 采用路徑聚合特征金字塔網(wǎng)絡(luò)(Path Aggregation Feature Pyramid Network,PAFPN)結(jié)構(gòu)進(jìn)行融合。通過上采樣方式進(jìn)行傳遞融合,通過下采樣融合方式得到預(yù)測的特征圖,輸出3 個(gè)特征層組成的元組結(jié)果。
Head采用分類和回歸分開處理,并在預(yù)測時(shí)再整合的策略。這種策略不僅能夠提高檢測性能,還可提升收斂速度。此外還采用了anchor free、Multi positives等方式,這些方式都能提升模型的速度、性能以及識(shí)別精度。
神經(jīng)網(wǎng)絡(luò)中,注意力機(jī)制的作用是能在眾多的輸入信息中,聚焦對當(dāng)前任務(wù)更為關(guān)鍵的信息。這與人類視覺注意力機(jī)制非常相似,通過掃描全局圖像,獲得重點(diǎn)信息,并對獲得的重點(diǎn)信息進(jìn)行重點(diǎn)關(guān)注,得到更多與檢測目標(biāo)相關(guān)的細(xì)節(jié),使任務(wù)處理的效率和準(zhǔn)確性提高,實(shí)現(xiàn)網(wǎng)絡(luò)性能的提升。面對自然環(huán)境中草莓病蟲害圖像背景復(fù)雜,病蟲害種類多,且相互之間差異較小,易造成病蟲害目標(biāo)的誤檢與漏檢,通過多注意力機(jī)制的引入能提升網(wǎng)絡(luò)的性能。不同的注意力機(jī)制有著不同的特點(diǎn),結(jié)合注意力機(jī)制的特點(diǎn),對網(wǎng)絡(luò)不同地方進(jìn)行改進(jìn),使其到達(dá)模型性能的最大化。本文將選用3 種注意力機(jī)制對網(wǎng)絡(luò)改進(jìn),分別使用坐標(biāo)注意力機(jī)制[17](Coordinate Attention,CA)對Focus 模塊進(jìn)行改進(jìn);通道注意力機(jī)制[18](Squeeze-and-excitation attention,SE)對SPP 模塊進(jìn)行改進(jìn);卷積塊注意機(jī)制[19](Convoluional Block Attention Module,CBAM)對PAFPN結(jié)構(gòu)進(jìn)行改進(jìn)。
(1)CA對Focus模塊進(jìn)行改進(jìn)。CA注意力機(jī)制是Hou 等[17]提出的一種新注意力機(jī)制。其結(jié)構(gòu)如圖4 所示。
圖4 CA結(jié)構(gòu)圖
CA注意力機(jī)制為避免2D全局池化引入,使得位置信息丟失,將通道注意力分解為2 個(gè)并行的一維特征編碼過程,分別沿2 個(gè)空間方向聚合特征,將生成的特征圖分別編碼,形成一對方向感知和位置敏感的特征圖,來提升對感興趣目標(biāo)的表示能力。
CA注意力機(jī)制的特點(diǎn)在于能獲取通道信息和方向相關(guān)的位置信息,能很好地定位和識(shí)別圖中的信息。Focus模塊是對輸入圖片進(jìn)行切片,不會(huì)有任何信息的丟失,只是將H、W(高、寬)信息集中到通道空間,使其輸入通道擴(kuò)充為原圖的4 倍,對圖中位置信息和特征信息就顯得十分重要。在Focus 模塊后添加CA 注意力機(jī)制,結(jié)構(gòu)如圖5 所示,能夠使其更好地對圖片信息進(jìn)行保存。
圖5 CA添加位置
(2)SE對SPP模塊進(jìn)行改進(jìn)。SE 注意力機(jī)制是由Hu等[18]提出的一種注意力機(jī)制,結(jié)構(gòu)如圖6 所示。
圖6 SE結(jié)構(gòu)圖
其包括1 個(gè)全局平均池化層,2 個(gè)全連接層和1個(gè)激活函數(shù)。輸入一張C×H×W(通道×高×寬)的特征圖,經(jīng)過一次的全局平均池化層,得到C×1 ×1的特征圖,再經(jīng)過用2 個(gè)全連接層和1 個(gè)激活函數(shù)進(jìn)行非線性處理得到C×1 ×1 的特征圖,將原始C×H×W的特征圖和C×1 ×1 的特征圖進(jìn)行全乘操作,得到不同通道重要性不一樣的特征圖。
SE注意力機(jī)制能將全局信息壓縮為通道權(quán)重,可很好地確定不同通道間的重要性,SPP 通過不同池化核大小的最大池化進(jìn)行特征提取,提高網(wǎng)絡(luò)的感受野,結(jié)合SE注意力機(jī)制的特點(diǎn)和SPP 模塊的作用,決定在SPP模塊后添加SE注意力機(jī)制,如圖7 所示。
圖7 SE添加位置
拼接后的通道將重新分配通道權(quán)重,確定通道重要性,能帶來更多有利于識(shí)別任務(wù)的特征通道的權(quán)重得以增加,其他特征通道的權(quán)重得以抑制,使得網(wǎng)絡(luò)模型更加關(guān)注目標(biāo)的特征信息,提高網(wǎng)絡(luò)模型的識(shí)別性能。
(3)CBAM 對PAFPN 結(jié)構(gòu)進(jìn)行改進(jìn)。CBAM 注意力機(jī)制是Woo等[19]提出的一種輕量而有效的注意力機(jī)制,如圖8 所示。
圖8 CBAM整體結(jié)構(gòu)
不同于傳統(tǒng)單模塊的注意力機(jī)制,僅使用通道注意力機(jī)制或者是僅使用空間注意力機(jī)制,它可在通道和空間維度上進(jìn)行作用。其包含2 種類型的注意力機(jī)制,分別是通道注意力模塊(Channel Attention Module,CAM)和空間注意力模塊(Spartial Attention Module,SAM)結(jié)構(gòu)分別如圖9 和圖10 所示。
圖9 通道注意力模塊
圖10 空間注意力模塊
CBAM注意力機(jī)制由輸入、通道注意力模塊、空間注意力模塊和輸出組成。先進(jìn)行通道注意力模塊的處理和空間注意力模塊的處理。具體步驟:當(dāng)一張大小為C×H×W中間特征圖F輸入CBAM 注意力模塊,通過通道注意力模塊生成一維通道注意力MC,將一維通道注意力MC與輸入的原始特征圖像F相乘,獲得通道注意力調(diào)整后的特征圖F',F(xiàn)'作為空間注意力模塊的輸入,通過空間注意力模塊生成二維空間注意力Ms,將二維空間注意力Ms與特征圖F'相乘得到CBAM注意力機(jī)制的最后輸出結(jié)果F″。
CBAM注意力機(jī)制沿著2 個(gè)獨(dú)立的維度完成通道信息和空間信息的融合,完成自適應(yīng)的特征優(yōu)化,PAFPN可將深層特征層具有的更強(qiáng)的語義信息傳遞到淺層特征層,還可將淺層特征層具有的更強(qiáng)的定位信息傳遞到深層特征層,有效加強(qiáng)網(wǎng)絡(luò)的特征融合能力,結(jié)合CBAM的特點(diǎn)和PAFPN的作用,將CBAM 加入PAFPN網(wǎng)絡(luò)之中,如圖11 所示,提升目標(biāo)特征的權(quán)重,讓網(wǎng)絡(luò)更加關(guān)注待檢測目標(biāo),以提高檢測效果,解決復(fù)雜環(huán)境背景下容易錯(cuò)漏檢。
圖11 CBAM添加位置
損失函數(shù)(Loss function)是編譯一個(gè)神經(jīng)網(wǎng)絡(luò)模型的要素之一,用來評(píng)價(jià)模型的預(yù)測值與其真實(shí)值差異的程度。YOLOX 中損失函數(shù)由Reg、Obj 和Cls 組成。其中Reg是特征點(diǎn)的回歸參數(shù)判斷、Obj 是特征點(diǎn)是否包含物體判斷、Cls 是特征點(diǎn)包含的物體的種類。損失函數(shù)
式中,Reg中的IoU損失函數(shù)[20]是包括預(yù)測框與真實(shí)框之間交集和并集的比值,即:
式中:A為檢測框;B為真實(shí)框。當(dāng)IoU 值越小,預(yù)測框和真實(shí)框的重疊程度越高。反之,則重疊程度越低。在草莓病蟲害預(yù)測中,因?yàn)椴糠植∠x害較小,可能會(huì)遇到預(yù)測框與真實(shí)框完全不重疊的狀態(tài),導(dǎo)致部分病蟲害的定位不準(zhǔn)確。針對IoU無法對預(yù)測框和真實(shí)框不重合的狀態(tài)以及IoU值無法反映預(yù)測框與真實(shí)框之間的距離問題。采用CIoU損失函數(shù)[21]作為邊界框回歸損失,CIoU是IoU的改進(jìn)版(見圖12),它考慮了目標(biāo)框回歸三要素(重疊面積、中心點(diǎn)距離和長寬比),不僅能提高目標(biāo)框回歸的穩(wěn)定性,還能使損失函數(shù)收斂速度更快,在優(yōu)化網(wǎng)絡(luò)誤差方面也顯得更加合理靈活,其中α作為協(xié)調(diào)比例參數(shù):
圖12 CIoU相關(guān)圖示
ν用于衡量框的長寬比一致性參數(shù):
式中:w、h分別為預(yù)測框的寬和高;wgt、hgt分別為目標(biāo)框的寬和高,CIoU計(jì)算方式:
式中:b、bgt分別為預(yù)測框和真實(shí)框的中心點(diǎn);ρ 為兩點(diǎn)歐式距離(即為圖12 中d);c為能夠同時(shí)包含兩框最小矩形封閉區(qū)域?qū)蔷€距離。
草莓病蟲害數(shù)據(jù)集使用的是由某計(jì)算機(jī)科學(xué)與工程系A(chǔ)I實(shí)驗(yàn)室的成員收集[22],該數(shù)據(jù)集包含了2 500張草莓疾病的圖像,7 種不同類型的病蟲害。病蟲害類別包括草莓角斑病、草莓炭疽病、花枯病、葉斑病、草莓果實(shí)白粉病、草莓葉片白粉病和灰霉病。數(shù)據(jù)從不同自然光照條件下的溫室中采集,以確保環(huán)境的多樣性。本文從中篩選部分圖像,并對部分不清晰的標(biāo)注進(jìn)行重新調(diào)整。由于數(shù)據(jù)集中各類病蟲害數(shù)量不均衡,為保證各種病蟲害的數(shù)量均衡,通過水平翻轉(zhuǎn)、等比例縮放、隨機(jī)裁剪與填充、隨機(jī)亮度和垂直翻轉(zhuǎn)等進(jìn)行數(shù)據(jù)擴(kuò)充。進(jìn)行預(yù)處理后的數(shù)據(jù)集共3 806 張,具體分類見表1,符合網(wǎng)絡(luò)訓(xùn)練需求。為保證數(shù)據(jù)集的獨(dú)立性,對數(shù)據(jù)集按照8∶1∶1的比例切分為訓(xùn)練集、驗(yàn)證集和測試集。
表1 數(shù)據(jù)集分類
試驗(yàn)是在Linux操作系統(tǒng)下,基于GPU、Pytorch和CUDA框架完成的,參數(shù)具體見表2。
表2 實(shí)驗(yàn)訓(xùn)練環(huán)境配置
(1)數(shù)據(jù)增強(qiáng)。Mosaic數(shù)據(jù)增強(qiáng)是一種對圖像進(jìn)行增強(qiáng)的方式,在后續(xù)深度學(xué)習(xí)算法中被廣泛使用的一種數(shù)據(jù)增強(qiáng)方法,能彌補(bǔ)訓(xùn)練數(shù)據(jù)集的不足。Mosaic數(shù)據(jù)增強(qiáng)是將4 張圖片進(jìn)行隨機(jī)裁剪,再拼接到一張圖上作為訓(xùn)練數(shù)據(jù),其效果如圖13 所示,其極大豐富了檢測物體的背景。該算法能夠較大程度提升模型的魯棒性。
圖13 Mosaic數(shù)據(jù)增強(qiáng)
Mixup數(shù)據(jù)增強(qiáng)是一種混類增強(qiáng)的算法,效果如圖14 所示,可將不同類之間的圖像進(jìn)行混合,擴(kuò)充訓(xùn)練數(shù)據(jù)集。假設(shè)batchx1是一個(gè)batch樣本,batchy1是該batch樣本對應(yīng)的標(biāo)簽;batchx2是一個(gè)batch 樣本,batchy2是該batch樣本對應(yīng)的標(biāo)簽,λ是由參數(shù)為α和β的貝塔分布計(jì)算出來的混合系數(shù),由此可得:
圖14 Mixup數(shù)據(jù)增強(qiáng)
(2)訓(xùn)練參數(shù)。本文在進(jìn)行模型訓(xùn)練時(shí),使用COCO進(jìn)行預(yù)訓(xùn)練數(shù)據(jù)集進(jìn)行遷移學(xué)習(xí)訓(xùn)練,以此來解決草莓病蟲害數(shù)據(jù)量不夠。在模型時(shí)輸入的圖片大小為640 ×640,采用sgd優(yōu)化器,學(xué)習(xí)率調(diào)整方式為余弦退火衰減,迭代次數(shù)共100,訓(xùn)練批次大小為32,學(xué)習(xí)率為0.001,采取凍結(jié)訓(xùn)練方法,以提高訓(xùn)練效率,加速收斂,前50 輪為凍結(jié)訓(xùn)練,后50 輪為解凍訓(xùn)練,其中訓(xùn)練的前50%用Mosaic和Mixup數(shù)據(jù)增強(qiáng)算法。在這樣訓(xùn)練策略下,不僅數(shù)據(jù)增強(qiáng)合成的圖像能增強(qiáng)模型對局部特征的學(xué)習(xí)能力,提高整個(gè)模型的泛化能力,數(shù)據(jù)集也能更專注原始圖片,使得模型能很好地學(xué)習(xí)到目標(biāo)的總體特征。
訓(xùn)練過程的loss曲線如圖15 所示,橫、縱坐標(biāo)分別為epoch和loss值。算法在起始階段損失函數(shù)下降較快;在20 個(gè)epoch 后,損失函數(shù)趨于平緩;在第50個(gè)epoch,損失函數(shù)呈斷崖式下跌,是因?yàn)楹?0 輪為解凍訓(xùn)練,模型的主干不被凍結(jié),特征提取網(wǎng)絡(luò)也得到訓(xùn)練;是因?yàn)殛P(guān)閉了Mosaic 數(shù)據(jù)增強(qiáng)和Mixup 數(shù)據(jù)增強(qiáng)引入真實(shí)的樣本,防止數(shù)據(jù)過度增強(qiáng),使網(wǎng)絡(luò)得到良好的訓(xùn)練。
圖15 Loss曲線
針對模型目標(biāo)檢測與分類任務(wù),本研究使用召回率(Recall)、準(zhǔn)確率(Precision)、平均準(zhǔn)確率(Average precision,AP)、平均精度均值(Mean of average precision,mAP)和F1分?jǐn)?shù)作為網(wǎng)絡(luò)模型的評(píng)價(jià)指標(biāo)。其公式如下:
式中:TP為正確檢測出的樣本數(shù)量;FP為誤檢的樣本數(shù)量;FN為漏檢的樣本數(shù)量;AP(i)為第i類病蟲害的AP值;NC為類別數(shù)量。
(1)消融實(shí)驗(yàn)。為更好地理解AM-YOLOX 算法中各改進(jìn)對檢測效果的影響,本研究進(jìn)行了一系列消融試驗(yàn)。在訓(xùn)練參數(shù)相同條件下,采用YOLOX-s作為基礎(chǔ)對比網(wǎng)絡(luò),消融實(shí)驗(yàn)結(jié)果見表3。
表3 消融試驗(yàn)結(jié)果
表3 中實(shí)驗(yàn)A為基礎(chǔ)的YOLOX-s網(wǎng)絡(luò)結(jié)構(gòu),實(shí)驗(yàn)E為在YOLOX-s基礎(chǔ)上融合3 種注意力機(jī)制,實(shí)驗(yàn)B、C、D相比較實(shí)驗(yàn)E 分別減少一種注意力機(jī)制。實(shí)驗(yàn)結(jié)果表明,實(shí)驗(yàn)B、C、D 均不如實(shí)驗(yàn)E,當(dāng)所有注意力全都加入時(shí),效果最好。相比于原始YOLOX-s 算法,mAP 提升1.97%,Precision 提升2.3%,Recall 提升0.7%。說明不同注意力機(jī)制,在網(wǎng)絡(luò)的不同位置,加入多種不同的注意力機(jī)制,能使網(wǎng)絡(luò)模型更高效地學(xué)習(xí)特征圖的特征。AM-YOLOX 在實(shí)驗(yàn)E 的基礎(chǔ)上采用CloU損失函數(shù)作為邊界回歸損失,相比于實(shí)驗(yàn)E中使用IOU 作為邊界框回歸損失,mAP 提升了0.57%,Precision 提升0.7%,Recall 提升0.8%,說明,采用CIoU損失函數(shù)作為邊界框回歸損失,能提高目標(biāo)框回歸的穩(wěn)定性。
通過消融實(shí)驗(yàn),再次證明了每個(gè)改進(jìn)策略均能提高網(wǎng)絡(luò)模型的性能。本文所提出的AM-YOLOX 網(wǎng)絡(luò)模型相比于原始的YOLOX-s網(wǎng)絡(luò)模型,具有更好的識(shí)別性能,mAP提高了2.54%,Precision提升3%,Recall提升1.5%,F(xiàn)1分?jǐn)?shù)提高了2.2。改進(jìn)前后各類具體AP值提升具體值如圖16 所示。(2)對比實(shí)驗(yàn)。為進(jìn)一步證明本文所提的AMYOLOX的有效性以及優(yōu)越性,在實(shí)驗(yàn)環(huán)境和模型參數(shù)設(shè)置不變的條件下,選擇目前目標(biāo)檢測領(lǐng)域主流方法SSD、Faster-RCNN、YOLOv3、YOLOv5-s 與本文方法進(jìn)行比較,以Precision、Recall、mAP、F1作為評(píng)價(jià)指標(biāo),結(jié)果見表4。
表4 對比試驗(yàn)結(jié)果
圖16 改進(jìn)后各類AP值
由表4 中數(shù)據(jù)可知,AM-YOLOX 的Precision、Recall、mAP、F1分?jǐn)?shù)為表中其他測試算法中最高。在檢測精度方面,AM-YOLOX 與同為單階段算法的SSD、YOLOV3、YOLOV5-s 算法相比,Precision 分別提升了4.8%、17%和14.9%,mAP 分別提升了4.36%、16.73%和14.74%,F(xiàn)1分?jǐn)?shù)分別提升了8.1、18.3 和11.8,而且與經(jīng)典兩階段目標(biāo)檢測算法Faster R-CNN相比較,Precision 提升了5.1%,mAP 提升了4.41%,F(xiàn)1分?jǐn)?shù)提升了6.8,算法性能展現(xiàn)出了較大的優(yōu)勢。自然環(huán)境下的草莓病蟲害,圖像背景復(fù)雜,病斑的面積較小,易產(chǎn)生漏檢。而AM-YOLOX 在召回率上,相比較于SSD、Faster-RCNN、YOLOv3、YOLOv5-s,分別提升了10%、7.8%、18.7%和9.3%,本文所提網(wǎng)絡(luò)模型綜合性能更優(yōu),更適合完成在自然環(huán)境下對草莓病蟲害的識(shí)別任務(wù)。
本文針對草莓病蟲害檢測任務(wù)提出了一種基于AM-YOLOX的算法架構(gòu)。為實(shí)現(xiàn)草莓病蟲害的精準(zhǔn)定位和識(shí)別,在網(wǎng)絡(luò)的不同位置加入不同注意力機(jī)制,并引入了CIoU邊框回歸損失函數(shù),在訓(xùn)練階段,使用Mosaic和Mixup算法進(jìn)行數(shù)據(jù)增強(qiáng),來應(yīng)對復(fù)雜環(huán)境背景,以獲得較好的魯棒性。實(shí)驗(yàn)結(jié)果表明,AMYOLOX模型相較于原模型以及其他主流算法,有著更高的分類置信度,更高的準(zhǔn)確率、召回率。該模型的檢測精度及定位精度更加優(yōu)異,能最大程度地避免病蟲害的誤檢和漏檢,滿足草莓病蟲害檢測的需求。
未來將考慮如何在保證較高準(zhǔn)確率前提下,進(jìn)一步提高推理速度,并將其部署在移動(dòng)端,構(gòu)建成為草莓蟲害識(shí)別系統(tǒng),促進(jìn)智慧農(nóng)業(yè)的發(fā)展。