亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于Swin Transformer和YOLOv8的玉米葉病害識(shí)別算法研究

2024-12-31 00:00:00朱雷朱勁松

天津農(nóng)業(yè)科學(xué) 2024年10期

摘" " 要：為了提高對(duì)玉米葉病蟲(chóng)害的準(zhǔn)確識(shí)別度，本文提出了一種結(jié)合Swin Transformer和YOLOv8網(wǎng)絡(luò)的改進(jìn)算法?；赮OLOv8網(wǎng)絡(luò)，算法引入了Focus和Depthwise Convolution等模塊，減少了計(jì)算量和參數(shù)，增加了感受野和特征通道，并提高了特征融合和傳輸能力。此外，算法還采用了Wise Intersection over Union（WIoU）損失函數(shù)來(lái)優(yōu)化網(wǎng)絡(luò)。結(jié)果表明，在自建的玉米葉病害數(shù)據(jù)集上，Swin Transformer-YOLO模型取得了優(yōu)異的表現(xiàn)，準(zhǔn)確率為91.5%，平均精度（mAP@0.5）為89.4%，顯著優(yōu)于其他檢測(cè)器。與主流算法（如YOLOv8、YOLOv7、YOLOv5和YOLOx）相比，Swin Transformer-YOLO模型在各項(xiàng)指標(biāo)上均表現(xiàn)出色，特別是在準(zhǔn)確率和平均精度方面。具體而言，Swin Transformer-YOLO模型的召回率為77.6%，mAP@0.5∶0.95值為71%，F(xiàn)1得分為0.84分。綜上所述，本研究為復(fù)雜環(huán)境下玉米葉病害的準(zhǔn)確識(shí)別提供了技術(shù)手段，并為小目標(biāo)檢測(cè)提供了新的見(jiàn)解。

關(guān)鍵詞：玉米葉病害識(shí)別；小目標(biāo)檢測(cè)；Swin Transformer；YOLOv8；模型優(yōu)化

中圖分類(lèi)號(hào)：S435.131; TP391.4" " " " 文獻(xiàn)標(biāo)識(shí)碼：A" " " " " DOI 編碼：10.3969/j.issn.1006-6500.2024.10.009

Research on Maize Leaf Disease Recognition Algorithm Based on Swin Transformer and YOLOv8

ZHU Lei， ZHU Jinsong

（School of Economics and Management， Yangtze University， Jingzhou， Hubei 434023， China）

Abstract： In order to improve the accuracy of identifying corn leaf disease pests， this paper proposed an improved algorithm that combines Swin Transformer and YOLOv8 network.Based on the YOLOv8 network， modules such as Focus and Depthwise Convolution were introduced to reduce computation and parameters， increase the receptive field and feature channels， and improve feature fusion and transmission capabilities. Additionally， the Wise Intersection over Union （WIoU） loss function was adopted to optimize the network.The experimental results showed that the Swin Transformer-YOLO model achieved excellent performance on the self-built corn leaf disease dataset， with an accuracy of 91.5% and a mean average precision （mAP@0.5） of 89.4%， significantly outperforming other detectors. Compared to mainstream algorithms （such as YOLOv8， YOLOv7， YOLOv5， and YOLOx）， the Swin Transformer-YOLO model excelled in all metrics， particularly in accuracy and mean average precision. Specifically， the Swin Transformer-YOLO model had a recall rate of 77.6%， an mAP@0.5∶0.95 of 71%， and an F1 score of 0.84.In summary， this study provides a technical means for the accurate identification of corn leaf diseases in complex environments and offered new insights for small target detection.

Key words： maize leaf disease recognition; small target detection; Swin Transformer; YOLOv8; model optimization

玉米作為全球重要的糧食作物之一，其產(chǎn)量和質(zhì)量直接影響著全球糧食安全。由于玉米種植環(huán)境的復(fù)雜性和病害種類(lèi)的多樣性，準(zhǔn)確識(shí)別玉米葉病害仍然是一個(gè)巨大的挑戰(zhàn)。目前，基于傳統(tǒng)圖像處理和機(jī)器學(xué)習(xí)的方法在提取玉米葉病害的細(xì)微特征和形態(tài)方面效果不佳[1]，導(dǎo)致識(shí)別準(zhǔn)確率和魯棒性較低。

近年來(lái)，許多研究致力于利用深度學(xué)習(xí)技術(shù)來(lái)提高植物病害檢測(cè)的準(zhǔn)確性。例如，基于卷積神經(jīng)網(wǎng)絡(luò)（CNN）的方法在圖像分類(lèi)和目標(biāo)檢測(cè)任務(wù)中取得了顯著進(jìn)展。然而，這些方法在處理小目標(biāo)檢測(cè)時(shí)仍然存在局限性，尤其是在復(fù)雜背景下，這些方法容易受到噪聲和背景干擾的影響，導(dǎo)致檢測(cè)精度下降[2]。Swin Transformer作為一種新興的視覺(jué)變換器，通過(guò)自注意力機(jī)制捕捉全局和局部上下文信息，展示了在圖像識(shí)別任務(wù)中的潛力[3]。此外，YOLO系列網(wǎng)絡(luò)（如YOLOv5、YOLOv7、YOLOv8）以其高效的目標(biāo)檢測(cè)能力廣泛應(yīng)用于各種場(chǎng)景，但在小目標(biāo)檢測(cè)方面仍有提升空間。

為了準(zhǔn)確識(shí)別玉米葉病害，本研究提出了一種基于Swin Transformer和YOLOv8的玉米葉病害小目標(biāo)檢測(cè)算法。該算法集成了Swin Transformer模塊和YOLOv8網(wǎng)絡(luò)，以提高小目標(biāo)檢測(cè)能力。Swin Transformer模塊基于自注意力機(jī)制提取視覺(jué)特征，捕捉小目標(biāo)的全局和局部上下文信息，以增強(qiáng)特征表示[4]。YOLOv8網(wǎng)絡(luò)是一種基于深度卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測(cè)器，具有高速度和高精度的特點(diǎn)[5]。在YOLOv8網(wǎng)絡(luò)的基礎(chǔ)上，本研究引入了Focus和Depthwise Convolution等模塊，以減少計(jì)算量和參數(shù)，增加感受野和特征通道，并改善特征融合和傳輸[6]。此外，本研究采用Wise Intersection over Union損失優(yōu)化網(wǎng)絡(luò)。

1 材料與方法

1.1 材料

1.1.1 數(shù)據(jù)集構(gòu)建玉米葉病害數(shù)據(jù)集構(gòu)建包括數(shù)據(jù)集收集、數(shù)據(jù)預(yù)處理和數(shù)據(jù)集生成3個(gè)步驟，具體數(shù)據(jù)集制作過(guò)程如圖1所示。首先，試驗(yàn)組人員使用HUAWEI nova10手機(jī)在湖北省宜昌市宜都市枝城鎮(zhèn)漫水橋村玉米地拍攝了3 752 張照片，涵蓋北葉枯萎?。?60張）、常見(jiàn)銹?。? 167張）、健康（1 137張）和彎孢霉葉斑?。?88張）4種類(lèi)型。然后，使用makesense在線標(biāo)注工具進(jìn)行標(biāo)注[7]，并導(dǎo)出為YOLO格式，為后續(xù)的數(shù)據(jù)分析和模型訓(xùn)練提供可靠基礎(chǔ)。

為了提高圖像數(shù)據(jù)的質(zhì)量和可用性，本研究采用數(shù)據(jù)清洗方法進(jìn)行預(yù)處理。由于拍攝的圖像常包含重復(fù)和模糊的圖像，本研究通過(guò)消除模糊圖像和使用結(jié)構(gòu)相似性（SSIM）方法去除重復(fù)圖像[8]，最終保留了400張清晰且獨(dú)特的圖像。在深度學(xué)習(xí)模型訓(xùn)練的過(guò)程中，通常會(huì)對(duì)圖像進(jìn)行縮放。為減小縮放對(duì)訓(xùn)練結(jié)果的影響，并保留病害特征的清晰信息[9]，本研究對(duì)圖像進(jìn)行了裁剪，將圖像按3∶3的縱橫比裁剪成9部分，裁剪后的圖像分辨率統(tǒng)一為901×506像素。

由于圖像采集存在數(shù)量有限、顏色不平衡和樣本分布不均等問(wèn)題，本研究使用數(shù)據(jù)增強(qiáng)技術(shù)擴(kuò)展數(shù)據(jù)集，以提高模型的泛化能力和魯棒性。另外，本研究應(yīng)用隨機(jī)拉伸[10]、亮度調(diào)整和鏡像操作等變換技術(shù)，增加數(shù)據(jù)集的多樣性和規(guī)模。通過(guò)這些方法，最終生成了更大規(guī)模和多樣性的圖像數(shù)據(jù)集。

1.1.2 試驗(yàn)環(huán)境配置本研究使用的操作系統(tǒng)是Windows 11，深度學(xué)習(xí)模型開(kāi)發(fā)框架為PyTorch。試驗(yàn)設(shè)置的具體信息見(jiàn)表1。在訓(xùn)練階段，本研究使用隨機(jī)梯度下降（SGD）算法進(jìn)行優(yōu)化[11]，初始學(xué)習(xí)率為0.01，動(dòng)量因子為0.937，權(quán)重衰減因子為0.000 5。將輸入圖像歸一化為640 × 640的大小，批量大小設(shè)置為8，并在300個(gè)時(shí)期內(nèi)進(jìn)行訓(xùn)練。

1.2 方法

1.2.1 模型結(jié)構(gòu)和算法描述為了解決玉米葉病害檢測(cè)和分類(lèi)的難題，本研究采用YOLOv8和Swin Transformer相結(jié)合的模型。該模型增強(qiáng)了特征融合能力，并引入了Focus[12]、Depthwise Convolution[13]、Spatial Pooling Pyramid[14]、C2[15]模塊，復(fù)雜背景下的小目標(biāo)檢測(cè)效果良好。網(wǎng)絡(luò)模型的整體結(jié)構(gòu)見(jiàn)圖2。

（1）YOLOv8 模型。YOLOv8是一種先進(jìn)的目標(biāo)檢測(cè)算法，結(jié)合了YOLOv5的改進(jìn)骨干網(wǎng)絡(luò)與C2f模塊，采用無(wú)錨模型和解耦頭獨(dú)立處理客觀性、分類(lèi)和回歸任務(wù)，YOLOv8神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖如圖3所示。該模型使用sigmoid函數(shù)獲取客觀性分?jǐn)?shù)，使用softmax函數(shù)獲取類(lèi)別概率，使用CIoU和DFL損失函數(shù)計(jì)算邊界框損失，使用binary交叉熵計(jì)算分類(lèi)損失，從而提高了檢測(cè)小目標(biāo)的性能[16]。此外，YOLOv8提供了YOLOv8-Seg語(yǔ)義分割模型，在保持高速度和高效率的同時(shí)，實(shí)現(xiàn)了最先進(jìn)的結(jié)果。

為解決微小物體不易檢測(cè)的難題，研究人員提出了多尺度特征提取和注意力機(jī)制等改進(jìn)方法[17]。多尺度特征提取通過(guò)引入不同尺度的特征圖來(lái)處理不同大小物體的信息，注意力機(jī)制通過(guò)關(guān)注重要特征且抑制不必要特征來(lái)提高小物體的檢測(cè)性能。

（2）Swin Transformer 模型。為了進(jìn)一步改進(jìn)YOLOv8并增強(qiáng)小目標(biāo)檢測(cè)性能，筆者引入Swin Transformer并增加特征融合，解決了上下文和語(yǔ)義信息不足的問(wèn)題，Swin Transformer模型網(wǎng)絡(luò)結(jié)構(gòu)圖如圖4所示。Swin Transformer通過(guò)自注意力機(jī)制在特征圖的不同區(qū)域建立全局依賴(lài)關(guān)系，有效捕獲上下文信息，并引入窗口注意機(jī)制降低計(jì)算復(fù)雜性[18]。筆者還添加了Focus with Deep Convolution DWconv 模塊，增強(qiáng)網(wǎng)絡(luò)捕獲上下文信息的能力，空間池化金字塔SPPCSPC和C2模塊提高了多尺度物體的檢測(cè)能力。結(jié)果表明，該網(wǎng)絡(luò)在復(fù)雜背景的小目標(biāo)檢測(cè)任務(wù)中表現(xiàn)優(yōu)異。

1.2.2 模塊描述表2展示了改進(jìn)的模型的詳細(xì)參數(shù)，包括層數(shù)、輸入源、重復(fù)次數(shù)、參數(shù)數(shù)量、模塊類(lèi)型和參數(shù)。

（1）C3STR 模塊。Swin Transformer模塊通過(guò)自注意力機(jī)制建立特征圖的全局依賴(lài)關(guān)系，增強(qiáng)小物體的語(yǔ)義信息和特征表示。該模塊包含Window多頭自注意力模塊、滑動(dòng)窗口多頭自注意力模塊和多層感知機(jī)構(gòu)，使用殘差連接進(jìn)行內(nèi)部連接。

（2）Focus、DWconv、SPPCSPC和C2模塊。SPPCSPC模塊：結(jié)合空間金字塔池化和通道空間金字塔卷積，高效捕獲不同尺度的特征信息。

DWconv模塊。支持對(duì)每個(gè)通道進(jìn)行單獨(dú)卷積，減少參數(shù)數(shù)量和計(jì)算量，增強(qiáng)模型表現(xiàn)力。

Focus模塊。通過(guò)輕量級(jí)卷積運(yùn)算，提高模型對(duì)重要特征區(qū)域的關(guān)注。

C2模塊。提取高級(jí)語(yǔ)義特征，增強(qiáng)模型性能。

（3）Wiou 損失函數(shù)。為解決YOLOv8收斂性不足的問(wèn)題，本研究提出結(jié)合Wise IOU的損失函數(shù)，優(yōu)先考慮預(yù)測(cè)幀和實(shí)際幀的交集[19]，提高模型的收斂和泛化能力。

1.2.3 模型評(píng)估指標(biāo) 在深度學(xué)習(xí)領(lǐng)域，網(wǎng)絡(luò)模型的有效性通過(guò)平均精度（mAP）和召回率（R）來(lái)評(píng)估。這些指標(biāo)的計(jì)算涉及交并比（IoU）、精度（P）和平均精度（AP）。

（1） IoU。交并比（IoU）用于評(píng)估檢測(cè)結(jié)果與實(shí)際標(biāo)簽的重疊程度，定義為交集面積與并集面積的比值。IoU 越高，檢測(cè)結(jié)果越準(zhǔn)確。公式如下：

IoU =（1）

式中，交集面積是指檢測(cè)結(jié)果與實(shí)際標(biāo)簽重疊的區(qū)域面積；并集面積是指檢測(cè)結(jié)果和實(shí)際標(biāo)簽的總面積（即兩者的并集）。

（2）精度和召回率。精度（P）是指準(zhǔn)確檢測(cè)到的物體占檢測(cè)到的物體總數(shù)的比例。召回率（R）是指正確檢測(cè)到的物體占陽(yáng)性樣本總數(shù)的比例。公式如下：

P=（2）

R=（3）

式中，TP 為真陽(yáng)性；FP 為假陽(yáng)性；FN 為假陰性。

（3）AP 和 mAP。平均精度（AP）是各個(gè)召回點(diǎn)的平均精度，表示精確召回（P-R）曲線下的面積。平均平均精度（mAP）是所有類(lèi)別的 AP 值的平均值。公式如下：

mAP=APi（4）

（4）FPS。每秒幀數(shù)（FPS）是計(jì)算機(jī)在處理圖像時(shí)每秒可以處理的幀數(shù)，用于衡量算法的效率和速度。更高的 FPS 值意味著算法能夠更快地處理圖像并提供響應(yīng)。

1.2.4 試驗(yàn)設(shè)計(jì) 為了驗(yàn)證每個(gè)模塊的有效性，筆者設(shè)計(jì)了多組對(duì)比試驗(yàn)和消融試驗(yàn)。對(duì)比試驗(yàn)包括使用不同組合的模塊進(jìn)行訓(xùn)練和測(cè)試，觀察其對(duì)模型性能的影響。消融試驗(yàn)則通過(guò)逐步移除或替換某些模塊，評(píng)估其對(duì)整體性能的貢獻(xiàn)。試驗(yàn)設(shè)置和數(shù)據(jù)處理流程如下：

（1）數(shù)據(jù)集劃分。將數(shù)據(jù)集按 8∶2 的比例劃分為訓(xùn)練集和測(cè)試集。

（2）數(shù)據(jù)預(yù)處理。對(duì)圖像進(jìn)行歸一化、裁剪和數(shù)據(jù)增強(qiáng)處理。

（3）模型訓(xùn)練。使用上述配置進(jìn)行模型訓(xùn)練，記錄每個(gè)時(shí)期的損失值和評(píng)估指標(biāo)。

（4）模型測(cè)試。在測(cè)試集上評(píng)估模型的性能，記錄mAP、精度、召回率和FPS等指標(biāo)。

（5）對(duì)比試驗(yàn)。使用不同組合的模塊（如僅使用 YOLOv8、僅使用 Swin Transformer、結(jié)合YOLOv8和Swin Transformer等）進(jìn)行訓(xùn)練和測(cè)試，比較各組合的性能差異。

（6）消融試驗(yàn)。逐步移除或替換某些模塊（如移除Focus模塊、替換DWconv模塊等），評(píng)估其對(duì)整體性能的影響。

（7）結(jié)果分析。分析對(duì)比試驗(yàn)和消融試驗(yàn)結(jié)果，確定各模塊對(duì)模型性能的貢獻(xiàn)，并總結(jié)最佳組合方案。

2 結(jié)果與分析

2.1 不同模型的檢測(cè)精度比較

為了評(píng)估所提出模型的有效性，筆者使用了玉米葉病害數(shù)據(jù)集進(jìn)行了廣泛的試驗(yàn)。評(píng)估包括對(duì)增強(qiáng)模型與各種成熟檢測(cè)模型的全面分析和比較，特別強(qiáng)調(diào)精確度、召回率和mAP指標(biāo)[20]。圖5展示了這些模型的mAP@0.5曲線。研究結(jié)果顯示，改進(jìn)模型的mAP@0.5值比最先進(jìn)的GOLD-YOLO模型高出3.02個(gè)百分點(diǎn)（表3）。該模型在所有目標(biāo)檢測(cè)指標(biāo)上均表現(xiàn)出顯著改進(jìn)，優(yōu)于以前的YOLO模型。具體而言，算法的準(zhǔn)確率為91.5%，召回率為77.6%，F(xiàn)1得分為0.84分。IoU值為0.5時(shí)，mAP值為89.4%；IoU值為0.5∶0.95時(shí)，mAP值為71%。研究結(jié)果表明，該模型在檢測(cè)精度方面取得了實(shí)質(zhì)性提高。因此，該模型可以準(zhǔn)確檢測(cè)玉米葉病害物體，具有廣闊的應(yīng)用前景。值得注意的是，YOLOv8s的參數(shù)為11.2 M，而該模型為199 M。盡管精度提高，但模型變得更加復(fù)雜，計(jì)算量顯著增加。

2.2 消融試驗(yàn)結(jié)果

2.2.1 WIoU的改進(jìn) 本研究將YOLOv8的原始損失函數(shù)優(yōu)化為WIoU，并進(jìn)行了對(duì)比試驗(yàn)。結(jié)果如表4所示，模型的召回率提高了0.5個(gè)百分點(diǎn)，準(zhǔn)確率提高了1.97個(gè)百分點(diǎn)。IoU值為0.5時(shí)，mAP值提高了2.3個(gè)百分點(diǎn)，F(xiàn)1分?jǐn)?shù)提高了0.01個(gè)百分點(diǎn)。

2.2.2 主流注意力機(jī)制的有效性筆者測(cè)試了其他主流注意力機(jī)制在小物體檢測(cè)方面的有效性，結(jié)果如表5所示。由于注意力機(jī)制在模型中表現(xiàn)不佳，筆者僅分析了在YOLOv8中添加注意力機(jī)制對(duì)玉米葉病害檢測(cè)的影響?？傮w而言，注意力機(jī)制對(duì)玉米葉病害目標(biāo)檢測(cè)的影響不顯著。這種不顯著的原因可能有以下幾點(diǎn)：首先，玉米葉病害數(shù)據(jù)集中的目標(biāo)可能較為復(fù)雜，并且背景干擾較多，導(dǎo)致注意力機(jī)制無(wú)法有效聚焦于關(guān)鍵特征。其次，引入注意力機(jī)制后，模型的復(fù)雜度和計(jì)算量顯著增加，可能導(dǎo)致模型在訓(xùn)練和推理過(guò)程中出現(xiàn)過(guò)擬合或計(jì)算瓶頸。最后，YOLOv8本身已經(jīng)具備較強(qiáng)的特征提取能力，引入的注意力機(jī)制未能顯著提升特征提取效果，反而增加了冗余信息。綜上所述，注意力機(jī)制對(duì)玉米葉病害的檢測(cè)效果并不顯著，需要進(jìn)一步優(yōu)化和調(diào)整。

2.2.3 各組件的有效性為了評(píng)估模型中各組件的有效性，筆者對(duì)Focus、C2、DW（深度卷積）、Swin Transformer和SPPCSPC模塊進(jìn)行了消融試驗(yàn)，使用準(zhǔn)確率、召回率、mAP@0.5、F1分?jǐn)?shù)和 FPS等指標(biāo)進(jìn)行性能評(píng)估，結(jié)果如表6所示。加入Swin Transformer模塊后，F(xiàn)PS從42.74略微下降到38.02，但mAP從88.8%提高到89.2%。用SPPCSPC替換SPPF模塊后，準(zhǔn)確率從92%略微下降到91.5%，但mAP提高0.2個(gè)百分點(diǎn)，F(xiàn)PS提高到60.98。

由圖6可以看出，模型在mAP和準(zhǔn)確率方面顯著優(yōu)于其他方法。盡管模型的復(fù)雜度和計(jì)算量有所增加，但檢測(cè)精度顯著提升。WIoU的改進(jìn)進(jìn)一步提高了模型的性能，而注意力機(jī)制對(duì)小物體的檢測(cè)效果并不顯著。消融試驗(yàn)表明，Swin Transformer和SPPCSPC模塊對(duì)模型性能的提升具有重要作用。

3 討論與結(jié)論

3.1 討論

3.1.1 理論分析（1）Swin Transformer 和 YOLOv8 結(jié)合的優(yōu)勢(shì)。將Swin Transformer與YOLOv8結(jié)合的主要優(yōu)勢(shì)在于二者在特征提取和目標(biāo)檢測(cè)方面的互補(bǔ)性。YOLOv8作為一種高效的目標(biāo)檢測(cè)算法，能夠快速處理圖像并檢測(cè)出目標(biāo)物體，但在處理小目標(biāo)和復(fù)雜背景時(shí)可能存在不足。Swin Transformer通過(guò)自注意力機(jī)制和窗口注意機(jī)制，能夠有效捕獲全局上下文信息和細(xì)節(jié)特征，彌補(bǔ)了YOLOv8在小目標(biāo)檢測(cè)方面的不足。

（2）創(chuàng)新之處。本研究的創(chuàng)新之處在于將Swin Transformer與YOLOv8結(jié)合，提出了一種新的特征融合方法，增強(qiáng)了模型在復(fù)雜背景和小目標(biāo)檢測(cè)任務(wù)中的性能，該模型在玉米葉病害檢測(cè)任務(wù)中表現(xiàn)出色，具有較高的檢測(cè)精度和魯棒性。具體創(chuàng)新點(diǎn)如下：

①通過(guò)自注意力機(jī)制和窗口注意機(jī)制，增強(qiáng)特征融合能力，捕獲更多上下文信息。

②多模塊結(jié)合。結(jié)合Focus、DWconv、SPPCSPC和C2模塊，提高模型對(duì)不同尺度目標(biāo)的檢測(cè)能力。

③ 改進(jìn)損失函數(shù)。提出結(jié)合Wise IOU的損失函數(shù)，提高模型的收斂和泛化能力。

3.1.2 結(jié)果分析在玉米葉病害檢測(cè)方面，研究人員需要解決幾個(gè)問(wèn)題。第一，由于玉米葉病害面積小，特征表示和提取困難。第二，密集的分布和遮擋使檢測(cè)更加困難。第三，復(fù)雜的照明條件影響能見(jiàn)度。第四，玉米葉子之間的形態(tài)相似性增加了區(qū)分難度。

許多關(guān)于玉米葉病害檢測(cè)的研究已將注意力機(jī)制納入其模型中。然而，本試驗(yàn)發(fā)現(xiàn)，各種注意力機(jī)制并沒(méi)有顯著提高檢測(cè)性能。原因可能有以下幾點(diǎn)：首先，玉米葉病害數(shù)據(jù)集中的目標(biāo)較為復(fù)雜，并且背景干擾較多，導(dǎo)致注意力機(jī)制無(wú)法有效聚焦于關(guān)鍵特征。其次，引入注意力機(jī)制后，模型的復(fù)雜度和計(jì)算量顯著增加，導(dǎo)致模型在訓(xùn)練和推理過(guò)程中出現(xiàn)過(guò)擬合或計(jì)算瓶頸。最后，YOLOv8本身已經(jīng)具備較強(qiáng)的特征提取能力，引入的注意力機(jī)制未能顯著提升特征提取效果，反而增加了冗余信息。

與YOLOv8相比，Swin Transformer與YOLOv8結(jié)合的模型具有更好的檢測(cè)準(zhǔn)確性、召回率和mAP，但檢測(cè)速度稍慢，這可能會(huì)限制部署。為了緩解這種情況，筆者通過(guò)將Swin Transformer與高效的Depthwise Convolution相結(jié)合來(lái)優(yōu)化模型設(shè)計(jì)，以減少計(jì)算量，同時(shí)保留空間信息。筆者還引入SPPCSPC模塊，以參數(shù)高效的方式增強(qiáng)多尺度特征融合，顯著提高了檢測(cè)速度。

近年來(lái)，有關(guān)小目標(biāo)檢測(cè)方面的研究取得了新進(jìn)展。Zheng等[21]通過(guò)添加微預(yù)測(cè)頭和注意力模塊來(lái)檢測(cè)作物芽。Hu等[22]探索了多模態(tài)融合在芽檢測(cè)中的應(yīng)用效果。

在實(shí)際部署方面，硬件的選擇是關(guān)鍵。緊湊的嵌入式設(shè)備將實(shí)現(xiàn)無(wú)人機(jī)的機(jī)載檢測(cè)，以實(shí)現(xiàn)自動(dòng)監(jiān)控。邊緣服務(wù)器通過(guò)在傳感設(shè)備附近設(shè)置計(jì)算來(lái)提供低延遲推理。該算法還可以集成到更大的農(nóng)業(yè)智能系統(tǒng)中，結(jié)合環(huán)境數(shù)據(jù)進(jìn)行精確管理。

綜上所述，本研究在解決無(wú)約束自然環(huán)境中玉米葉病害微小目標(biāo)檢測(cè)方面取得了重要進(jìn)展。筆者提出的模型提供了最先進(jìn)的精度，同時(shí)認(rèn)識(shí)到效率限制。另外，筆者通過(guò)架構(gòu)增強(qiáng)、補(bǔ)充數(shù)據(jù)源和實(shí)際部署優(yōu)化，確定了多個(gè)改進(jìn)方向。本研究提出的方法和分析為實(shí)現(xiàn)農(nóng)業(yè)自動(dòng)化視覺(jué)系統(tǒng)提供了寶貴的見(jiàn)解。

3.2 結(jié)論

本研究解決了農(nóng)業(yè)監(jiān)測(cè)中微小玉米葉病害不易檢測(cè)的難題。筆者提出的模型基于Transformer的注意力機(jī)制來(lái)增強(qiáng)特征表示，同時(shí)使用高效的卷積設(shè)計(jì)來(lái)保持合理的檢測(cè)速度，從而提供最先進(jìn)的精度。這表明該模型比以前的YOLO變體以及其他檢測(cè)模型有了實(shí)質(zhì)性的改進(jìn)。

盡管該模型實(shí)現(xiàn)了高精度，但還可以進(jìn)一步改進(jìn)。在高度封閉的條件下，該模型檢測(cè)玉米葉病害存在一定困難，并且將一些葉子錯(cuò)誤地歸類(lèi)為玉米葉病害。額外的上下文和形狀信息可能有助于克服這個(gè)問(wèn)題。集成多模態(tài)數(shù)據(jù)源（如紅外或深度圖像）也可以增強(qiáng)穩(wěn)健性。在優(yōu)化方面，神經(jīng)架構(gòu)搜索等技術(shù)可以幫助找到更適合這項(xiàng)任務(wù)的設(shè)計(jì)。特定于部署的優(yōu)化（如量化感知訓(xùn)練）可以減少計(jì)算需求。

未來(lái)的工作應(yīng)側(cè)重于進(jìn)一步壓縮模型設(shè)計(jì)，整合額外的形狀和上下文信息，并探索補(bǔ)充數(shù)據(jù)源。在系統(tǒng)方面，針對(duì)嵌入式部署的優(yōu)化可以幫助實(shí)現(xiàn)實(shí)用的無(wú)人機(jī)和邊緣計(jì)算解決方案。本研究在微小物體檢測(cè)方面取得了顯著進(jìn)展，所提出的方法、分析和方向?yàn)閷?shí)現(xiàn)農(nóng)業(yè)自動(dòng)化視覺(jué)奠定了基礎(chǔ)。

參考文獻(xiàn)：

[1] 沈萍，李想，楊寧，等.基于三重注意力的輕量級(jí)YOLOv8印刷電路板缺陷檢測(cè)算法[J].微電子學(xué)與計(jì)算機(jī)， 2024， 41（4）：20-30.

[2] 趙繼達(dá)，甄國(guó)涌，儲(chǔ)成群.基于YOLOv8的無(wú)人機(jī)圖像目標(biāo)檢測(cè)算法[J].計(jì)算機(jī)工程， 2024， 50（4）：113-120.

[3] 姚景麗，程光，萬(wàn)飛，等.改進(jìn)YOLOv8的輕量化軸承缺陷檢測(cè)算法[J].計(jì)算機(jī)工程與應(yīng)用， 2024.

[4] 崔克彬，焦靜頤.基于MCB-FAH-YOLOv8的鋼材表面缺陷檢測(cè)算法[J].圖學(xué)學(xué)報(bào)， 2024， 45（1）：112-125.

[5] 倪富陶，李倩，聶云靖，等.基于改進(jìn)YOLOv8的輕量化鋼筋端面檢測(cè)算法研究[J].太原理工大學(xué)學(xué)報(bào)， 2024（2）.

[6] 石洋宇，左景，謝承杰，等.多尺度融合與FMB改進(jìn)的YOLOv8異常行為檢測(cè)方法[J].計(jì)算機(jī)工程與應(yīng)用， 2024， 60（9）：101-110.

[7] 胡海寧，黃雷陽(yáng)，楊洪剛，等.改進(jìn)Yolov8n的輕量型蜂窩陶瓷缺陷檢測(cè)算法[J].激光與光電子學(xué)進(jìn)展， 2024， 61（22）.

[8] Ge Z， Liu S， Wang F， Li Z， Sun J. Yolox： Exceeding yolo series in 2021. arXiv preprint arXiv：210708430. 2021.

[9] Liu Z， Lin Y， Cao Y， Hu H， Wei Y， Zhang Z， et al. Swin transformer： Hierarchical vision transformer using shifted windows. In： Proceedings of the IEEE/CVF international conference on computer vision; 2021. p. 10012-10022.

[10] Woo S， Park J， Lee JY， Kweon IS. Cbam： Convolutional block attention module. In： Proceedings of the European conference on computer vision （ECCV）; 2018. p. 3-19.

[11] Liu S， Qi L， Qin H， Shi J， Jia J. Path aggregation network for instance segmentation. In： Proceedings of the IEEE conference on computer vision and pattern recognition; 2018. p. 8759-8768.

[12] 王澤宇，徐慧英，朱信忠，等.基于YOLOv8改進(jìn)的密集行人檢測(cè)算法：MER-YOLO[J].計(jì)算機(jī)工程與科學(xué)， 2024， 46（6）：1050-1062.

[13] 張姝瑾，許興時(shí)，鄧洪興，等.基于YOLO v8n-seg-FCA-BiFPN的奶牛身體分割方法[J].農(nóng)業(yè)機(jī)械學(xué)報(bào)， 2024， 55（3）：282-289.

[14] 梁秀英，賈學(xué)鎮(zhèn)，何磊，等.基于YOLO v8n-seg和改進(jìn)Strongsort的多目標(biāo)小鼠跟蹤方法[J].農(nóng)業(yè)機(jī)械學(xué)報(bào)， 2024， 55（2）：295-305.

[15] 周濤，王驥，麥仁貴.基于改進(jìn)YOLOv8的實(shí)時(shí)菠蘿成熟度目標(biāo)檢測(cè)方法[J].華中農(nóng)業(yè)大學(xué)學(xué)報(bào)， 2024（4）.

[16] Roy AM， Bhaduri J. DenseSPH-YOLOv5： An automated damage detection model based on DenseNet and Swin-Transformer prediction head-enabled YOLOv5 with attention mechanism. Advanced Engineering Informatics. 2023; 56：102007.

[17] Roy AM， Bhaduri J， Kumar T， Raj K. WilDect-YOLO： An efficient and robust computer vision-based accurate object localization model for automated endangered wildlife detection. Ecological Informatics. 2023; 75：101919.

[18] Wu D， Jiang S， Zhao E， Liu Y， Zhu H， Wang W， et al. Detection of Camellia oleifera fruit in complex scenes by using YOLOv7 and data augmentation. Applied Sciences. 2022; 12（22）：11318.

[19] Zhao Q， Yang L， Lyu N. A driver stress detection model via data augmentation based on deep convolutional recurrent neural network. Expert Systems with Applications. 2024; 238：122056.

[20] Li F， Zhang H， Xu H， Liu S， Zhang L， Ni LM， et al. Mask dino： Towards a unified transformer-based framework for object detection and segmentation. In： Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition; 2023. p. 3041-3050.

[21] Zheng Z， Hu Y， Qiao Y， Hu X， Huang Y. Real-time detection of winter jujubes based on improved YOLOX-nano network. Remote Sensing. 2022; 14（19）：4833.

[22] Hu J， Shen L， Sun G. Squeeze-and-excitation networks. In： Proceedings of the IEEE conference on computer vision and pattern recognition; 2018. p. 7132-7141.

天津農(nóng)業(yè)科學(xué)2024年10期

天津農(nóng)業(yè)科學(xué)的其它文章: 浙江景寧九龍地質(zhì)公園蕨類(lèi)植物區(qū)系研究; 不同有機(jī)替代處理對(duì)旱地麥田土壤微生物群落的影響; 農(nóng)業(yè)適度規(guī)模經(jīng)營(yíng)主體融資意愿及其影響因素研究; 天津市低碳農(nóng)業(yè)發(fā)展現(xiàn)狀、問(wèn)題與對(duì)策; 江西省生態(tài)系統(tǒng)服務(wù)價(jià)值時(shí)空演變及驅(qū)動(dòng)因素; 刀鱭MyoG基因克隆和組織表達(dá)分析