0 引言
小麥是我國的第二大主糧作物,主要分布在我國黃淮海地區(qū),常年播種面積2266.67萬 。然而,小麥籽粒在生長、收獲及儲存過程中易遭受多種病害侵襲,如赤霉病、黑胚病等。這些病害不僅會降低小麥產(chǎn)量,還可能產(chǎn)生毒素,威脅人畜健康。因此,及時對小麥籽粒病害進行有效地識別和防控至關重要。傳統(tǒng)的小麥籽粒病害識別方法主要依賴人工目視檢測,這種方法效率低、主觀性強且對檢測人員專業(yè)知識要求較高[2]。
隨著計算機視覺技術的飛速發(fā)展,基于深度學習的目標檢測算法在農(nóng)作物病害識別領域展現(xiàn)出巨大潛力。于錦龍等3通過引入一種輕量級的注意力模塊LCSA和改進MBConv結構,提出了一種基于EfficientNet-B0改進的輕量化小麥病害識別模型ML-EfficientNet,其識別準確度達到 95.71% 。白玉鵬等4通過對ViT-Base中的PatchEmbedding層進行結構優(yōu)化,提出一種基于改進VisionTransformer的小麥病害圖像識別算法,平均識別準確度達到96.81% ,識別效果較好。以上研究表明,深度學習算法在小麥籽粒病害識別中展現(xiàn)出廣闊的應用前景,但目前關于提高檢測速度和實時算法的研究仍然較少。
YOLO系列算法以其快速、高效的特點在目標檢測任務中得到了廣泛應用。然而,在小麥籽粒病害識別中,由于病害特征的復雜性和多樣性,傳統(tǒng)的YOLO算法仍存在一些問題,如對小目標的檢測精度不高、無法滿足實時檢測要求、容易出現(xiàn)漏檢和誤檢等。因此,基于YOLO11n標準網(wǎng)絡,提出一種基于改進YOLO11的小麥籽粒病害識別算法,以提升其在小麥籽粒病害識別中的性能。
1 YOL011模型
如圖1所示,YOLO11模型由主干、頸部、檢測頭三個基本組件組成。其中,主干由Conv、C3k2、SPPF、C2PSA等模塊組成,主要用于提取輸人圖像多個尺度特征圖。YOLOv11提出了一種更輕量、更高效的模塊C3k2,增強了特征提取的整體性能。同時,引入了空間注意力(C2PSA)模塊,與SPPF相結合,使模型能夠更加關注圖像中重要區(qū)域。頸部組件則保留了FPN+PAN結構,將C2f替換成C3k2組件,主要用于對不同尺度的特征進行融合。檢測頭部分沿用了YOLOv8的解耦頭,但是YOLO11在分類檢測頭上加入了兩個深度可分離卷積(DW-Conv),在不損失精度的同時大幅減少了計算量。針對回歸損失,引入DistributionFocalLoss與CIoU相結合的計算方式;針對分類損失,則使用Varifo-calLoss進行計算。
2 YOLO11模型改進
2.1主干網(wǎng)絡改進
ShuffleNetV2是輕量級卷積神經(jīng)網(wǎng)絡中的經(jīng)典模型,其主干結構設計旨在在低計算資源下實現(xiàn)高效的特征提取。為了有效提高模型識別的效率和精度,本文選擇將YOLO11的主干網(wǎng)絡替換成輕量級的ShuffleNetV2網(wǎng)絡。
ShuffleNetV2的整體架構以多階段的方式構建,每個階段包含多個重復的模塊。其主要由ChannelSplit(通道分割)和channelshuffle(通道混洗)兩大運算模塊組成。它們在保證高效率運算的同時,能夠使用更多的特征通道和更大的網(wǎng)絡容量,從而減少運算成本并提高檢測精度。Shuffle-NetV2網(wǎng)絡架構由ShuffleUnit(混洗單元)和下采樣模塊組成,具體結構分別如圖2和圖3所示。
在每個階段的起始,特征圖沿通道維度平均分成兩個分支。其中一個分支先進行 1×1 逐點卷積(PW),并將通道數(shù)擴展為原來的2倍;接著進行深度卷積(DW),在每個通道上獨立執(zhí)行卷積操作,以提取空間特征;最后再進行一次 1×1 逐點卷積,調整通道數(shù),以便與另一分支的特征進行融合。另一個分支直接進行恒等映射,兩個分支的輸出在通道維度上拼接,合并特征,隨后執(zhí)行通道混洗操作,以實現(xiàn)不同組特征間的相互流通。每個階段的第一個ShuffleUnit中,會執(zhí)行下采樣操作。具體而言,下采樣操作將恒等映射分支替換為一個步長為2的平均池化操作,以匹配另一分支下采樣后的尺寸,使網(wǎng)絡能夠提取到更抽象、更具代表性的特征。
2.2TripletAttention注意力
TripletAttention(三重注意力)是一種新型的注意力機制,旨在增強模型對特征的自適應關注能力,從而提升模型在各種視覺任務中的表現(xiàn)。其核心原理是通過多分支卷積和注意力計算,實現(xiàn)對特征的多維度關注。
TripletAttention實現(xiàn)的具體流程如圖4所示。圖4展示了多分支卷積處理輸人張量并合成三重注意力的過程。輸入特征圖首先被分別輸入三個不同的卷積層分支,每個分支通過卷積操作對輸入特征進行變換,生成不同的特征標志。隨后,對特征圖在空間維度上進行全局平均池化和全局最大池化操作,得到平均特征向量和最大特征向量。接著,將這兩個向量進行拼接,并通過多層感知機進行處理,生成注意力權重。最后,將注意力加權融合經(jīng)過拼接最終得到特征輸出圖。
為了提高模型對小麥籽粒復雜特征的提取能力,本文使用TripletAttention改進C2PSA結構,改進結構如圖5所示。
2.3 頸部網(wǎng)絡改進
頸部網(wǎng)絡在模型中具有承上啟下的作用,其主要功能是實現(xiàn)多尺度特征的融合。YOLO11雖然對多尺度的特征進行融合,但缺少對輪廓和缺陷形狀等低級特征的關注。因此,筆者引人了CCFM輕量級跨尺度特征融合模塊5,以便更加高效地融合不同尺度的特征,在提升模型對各類目標的檢測性能的同時,保持了較低的計算成本。
CCFM結構如圖6所示。在網(wǎng)絡前向傳播過程中,骨干網(wǎng)絡在不同層生成具有不同尺度的特征圖。CCFM模塊從這些層級收集相應的特征圖,每張?zhí)卣鲌D都攜帶了特定尺度下的圖像信息。由于不同尺度的特征圖在通道數(shù)和空間分辨率上存在差異,因此在融合之前需要進行特征對齊。通過特征調整層的 1×1 卷積操作,將所有輸入特征圖的通道數(shù)調整為統(tǒng)一的值。在特征對齊后,進入融合單元進行特征融合。以逐元素相加為例,將調整后的不同尺度特征圖對應位置的元素進行相加操作,從而使不同尺度的特征信息在空間位置上得以融合,小目標的細節(jié)信息和大目標的語義信息也得以結合。融合后的特征圖通過輸出層的卷積操作進一步精煉,使得特征圖能夠更好地表達不同尺度目標的綜合特征。
CCFM能夠高效融合不同尺度的特征,使模型對小目標、中目標和大目標均具有良好的檢測能力。因此,筆者借鑒CCFM的結構,對YOLO11的頸部網(wǎng)絡進行改進,改進后的結構如圖7所示。
3數(shù)據(jù)采集與處理
3.1 數(shù)據(jù)采集
本文使用的數(shù)據(jù)集來源于ZHAO等公布的數(shù)據(jù)集WGDB。該數(shù)據(jù)集包含1種健康小麥籽粒和3種缺陷小麥籽粒圖像,共計1846張圖像,7844個標注。3類缺陷分別為赤霉病、黑胚病和霉變,其具體特征和標簽如圖8所示。該數(shù)據(jù)集綜合考慮了光源、照明條件和圖像采集背景等因素,并通過隨機擺放的方式增強了數(shù)據(jù)的魯棒性,具有較好的示范性。
3.2 數(shù)據(jù)預處理
四種類型小麥籽粒的標簽見表1。使用1abe-limg軟件對小麥籽粒進行標注,然后將數(shù)據(jù)集以8:1:1的比例劃分訓練集、驗證集和測試集,得到1476張訓練集圖像、185張驗證集圖像和185張測試集圖像。
4實驗結果與分析
4.1 評估指標
本文采用平均精度 A P 值、平均精度均值 m A P )精確率 P 浮點運算次數(shù) G F L O P s 和 F P S 作為實驗結構評估指標,具體公式如下:
式中: T P 是被正確檢測出的小麥籽粒病害樣品的數(shù)量; F P 為檢測出的小麥籽粒非病害樣品數(shù)量;F N 為檢測錯誤的小麥籽粒病害數(shù)量; P 和 R 分別表示精確率和召回率; m A P 為平均精度均值, m A P 值越高,表明模型的檢測能力越強。 F P S 越高,表明模型檢測速度越快。GFLOPS越小,表明模型的計算復雜度越低。
4.2實驗結果與分析
4.2.1 模型精度分析
實驗設置輸入圖像尺寸為 640×640 ,模型迭代次數(shù)為200,批量大小為4,動量衰減設置為0.937。采用余弦退火學習率策略,權值衰減為0.0005,初始學習率為 0.01 。實驗得出模型的P-R曲線如圖9所示。預測結果表明,4種類別的小麥籽粒缺陷的平均精度均在 98% ,說明模型對小麥籽粒缺陷的識別效果顯著,具備較高的檢測精度。
4.2.2 模型對比
為了驗證改進后YOLO11算法的有效性,筆者將其與當前主流的目標檢測模型進行了對比實驗,包括Faster-RCNN(R50)、EfficientDet、YOLOv5、YOLOv8、YOLO11,結果如表2所示。
表2數(shù)據(jù)表明改進后的YOLO11模型在小麥籽粒病害的識別準確度上優(yōu)于其他對比模型,其 P 值和mAP值分別達到了 96.4% 和 98.8% ,相較于改進前分別提升了 0.5% 和 0.4% ;同時,參數(shù)量和計算復雜度分別下降了 38.4% 和 23.8% ,F(xiàn)PS達到了232.6。值得注意的是,改進后的模型在保證識別精度優(yōu)于Faster-RCNN的情況下,計算復雜度和參數(shù)量分別降低了 98% 和 99% ,為輕量化模型部署提供了可靠的技術支持。
4.2.3 檢測效果
為了更直觀地評估改進后的模型檢測性能,筆者在同一設備上對測試集進行實測,定性分析了改進YOLO11和YOLO11n的檢測性能,對比結果如圖10所示。
由圖10可以看出,改進后的YOLO11模型在識別小麥籽粒病害時,應對缺檢和誤檢的能力要優(yōu)于基線模型,識別準確率和精準度更高,呈現(xiàn)出較好的應用價值。
GradCAM熱力圖是一種用于解釋卷積神經(jīng)網(wǎng)絡(CNN)決策過程的可視化技術,有助于研究人員研究模型在檢測過程中關注的信息,方便進行調整。
為了進一步分析改進模型對小麥籽粒病害邊緣信息的理解,筆者利用熱力圖進行觀察,如圖11所示。在熱力圖中,紅色區(qū)域表示目標的位置和強度,強度越高表示對模型檢測結果的置信度越高。實驗結果表明,改進后的模型對目標具備完整的特征提取能力。
5結論
筆者基于YOLO11模型進行改進,選取包含小麥籽粒病害的公開數(shù)據(jù)集WGDB進行研究,實現(xiàn)了對小麥籽粒病害的精準快速識別。在主干結構上,使用ShuffleNetV2對主干網(wǎng)絡進行優(yōu)化,在低計算資源下實現(xiàn)高效的特征提取,有效提高模型識別的速度和精度。隨后,通過引入TripletAttention三重注意力機制改進C2PSA結構,在3個維度對小麥籽粒缺陷的特征進行提取,減少了背景干擾,增強了模型對小麥缺陷籽粒特征的自適應能力。在頸部結構方面,借鑒CCFM輕量級跨尺度特征融合模塊進行改進,以有效融合不同尺度的特征,使得模型對小目標、中目標和大目標都具有良好的檢測能力,最終實現(xiàn)更準確地識別和定位。
實驗結果表明,改進后的YOLO11模型較基準模型的參數(shù)量和計算復雜度分別下降了 38.4% 和23.8%,P 值和 m A P 值分別達到了 96.4% 和 98.8% 相較于改進前分別提升了 0.5% 和 0.4% 。同時,改進后的模型FPS達到了232.6,較原模型提高了10.4。這表明改進后的模型在優(yōu)化性能的同時,能夠保證識別精度和識別速度,減少計算開銷,為輕量化部署提供了可靠的技術支持。
參考文獻:
[1]徐萍,張正斌.功能營養(yǎng)彩色小麥產(chǎn)業(yè)化[J].中國農(nóng)村科技,2023(1):23-25.
[2]鄭增海.小麥病蟲害監(jiān)測預警系統(tǒng)技術研究[J].糧油與飼料科技,2024(4):66-68.
[3]于錦龍,于俊偉,張自豪,等.基于改進Ef-ficientNet的輕量化小麥不完善粒識別模型[J/OL]中國糧油學報,1-15[2024-10-08].https://doi.org/10.20048/j.cnki.issn.1003-0174.000948.
[4]白玉鵬,馮毅琨,李國厚,等.基于VisionTransformer的小麥病害圖像識別算法[J].中國農(nóng)機化學報,2024,45(2):267-274.
[5]ZHAO WY,LIUSY,LIXY,etal.Fast and accurate wheat grain quality detection basedon improved YOLOv5[J].Computers and Electron-icsinAgriculture,2022,202,107426.