摘要:針對除草機器人等智能農(nóng)業(yè)機械在復(fù)雜的農(nóng)田環(huán)境下工作時易受到雜草種類、光照多變以及葉片遮擋等因素影響,難以高效精準(zhǔn)地檢測作物和雜草位置的問題,提出一種基于改進YOLO v5s算法的農(nóng)田苗草目標(biāo)檢測方法,能夠?qū)Σ煌鞖?、位置和密度環(huán)境下的農(nóng)作物及其伴生雜草進行檢測。首先使用公開數(shù)據(jù)集并通過數(shù)據(jù)增強方法擴充數(shù)據(jù)構(gòu)建了新的苗草數(shù)據(jù)集,分析了苗草數(shù)據(jù)集的圖像特點后針對原YOLO v5算法模型的不足提出改進,結(jié)合協(xié)同注意力CA與感受野塊RFB模塊改進主干網(wǎng)絡(luò),在只添加少量參數(shù)的情況下提高模型檢測性能;然后選擇CARAFE的上采樣方式加強網(wǎng)絡(luò)提取特征能力;最后采取WIoU v3替換CIoU損失函數(shù),平衡錨框質(zhì)量并實現(xiàn)高精度定位。將改進后的YOLO v5網(wǎng)絡(luò)模型與各種常見的主流網(wǎng)絡(luò)在苗草數(shù)據(jù)集上依據(jù)目標(biāo)檢測算法評價指標(biāo)進行了試驗比較,結(jié)果顯示,改進后算法平均精度均值達到86.7%,比原始的YOLO v5s提高了2.9百分點,F(xiàn)PS達到60.4幀/s,在滿足算法實時性要求的同時明顯提升了檢測算法精度,驗證了改進算法的有效性,適用于除草機器人的雜草識別系統(tǒng)。
關(guān)鍵詞:苗草檢測;YOLO v5;協(xié)同注意力;空洞卷積;損失函數(shù)
中圖分類號:S126;TP391.41" 文獻標(biāo)志碼:A
文章編號:1002-1302(2024)13-0197-08
農(nóng)田雜草與農(nóng)作物爭奪養(yǎng)分、水分和生長空間,影響了農(nóng)作物正常生長,導(dǎo)致產(chǎn)量減少。由于農(nóng)田環(huán)境復(fù)雜、雜草群落更替等因素,農(nóng)田雜草難以得到有效治理[1]。如今農(nóng)田草害的防控主要依靠化學(xué)藥劑,但噴施方式往往是大面積的均勻噴灑,容易導(dǎo)致化學(xué)藥劑過量施用,從而給土壤、水源等環(huán)境帶來嚴(yán)重污染。而機械除草方面,株間機械除草容錯性較低,會給苗期作物帶來損傷風(fēng)險。因此需要高效精準(zhǔn)的雜草檢測,不僅可以用于除草劑靶向施藥以保護環(huán)境,也是研究自動化除草機器人的關(guān)鍵技術(shù)之一[2]。
基于機器學(xué)習(xí)的作物雜草目標(biāo)檢測識別,一般從顏色和形狀特點或根據(jù)作物分布方式和雜草集落特點判斷其所處位置特征[3]。但是雜草種類多、生長狀態(tài)多樣且天氣條件多變以及葉片遮擋等都會影響對雜草形態(tài)的識別,因此傳統(tǒng)農(nóng)作物雜草檢測方法普遍存在精度低、泛化能力有限、檢測速度慢等問題[4]。
隨著人工神經(jīng)網(wǎng)絡(luò)的發(fā)展成熟,深度學(xué)習(xí)方法相比于傳統(tǒng)機器學(xué)習(xí)圖像處理方法,能夠挖掘圖像更深層的信息,完成密集型數(shù)據(jù)計算任務(wù),處理復(fù)雜背景時應(yīng)用更具魯棒性,在實現(xiàn)農(nóng)田作物雜草精準(zhǔn)識別的任務(wù)上也頗見成效[5]。其中,YOLO(you only look once)是一種典型的目標(biāo)檢測算法,被眾多學(xué)者應(yīng)用于解決作物雜草檢測問題[6]。例如,權(quán)龍哲等為提高農(nóng)田背景目標(biāo)檢測的精度和效率制作特征豐富的數(shù)據(jù)集,減少YOLO v4網(wǎng)絡(luò)的輸出張量尺度以匹配玉米苗和雜草,試驗結(jié)果顯示改進后的YOLO v4網(wǎng)絡(luò)訓(xùn)練得到的檢測模型F1分?jǐn)?shù)為0.828,檢測時間縮短0.014 s[7];Zhang等提出了一種SE-YOLO v5x模型用于雜草作物分類和生菜田間定位,mAP達到97.1%[8],與YOLO v5x、SSD(single shot MultiBox detector)和Faster R-CNN等模型相比在雜草和生菜植物分類定位任務(wù)中展現(xiàn)出較優(yōu)異的表現(xiàn)[9-10]。張偉康等針對田間雜草分布復(fù)雜和種類繁多等問題,提出一種改進YOLO v5算法,檢測蔬菜位置來間接判別雜草分布的方法降低了雜草識別難度,對目標(biāo)蔬菜的mAP為95.7%,改進模型平均檢測1幅圖像的時間為11 ms,實時性較好[11]。
雖然上述改進方法能夠得到較高的準(zhǔn)確率,但雜草檢測需要在復(fù)雜環(huán)境下做到精準(zhǔn)識別以滿足除草機器人實時自動化除草的需求。苗草檢測的精確度影響著除草機器人的路徑規(guī)劃,因此結(jié)合深度學(xué)習(xí)方法解決作物與其伴生雜草的識別與定位問題,尤其是針對形態(tài)類似的苗草和分布不規(guī)律的雜草,還需要更深入的研究。
本研究將根據(jù)復(fù)雜農(nóng)田背景下農(nóng)作物與伴生雜草的特點,先對獲取的圖片數(shù)據(jù)集進行數(shù)據(jù)增強等預(yù)處理,然后基于YOLO v5s的檢測框架結(jié)合先進的特征提取網(wǎng)絡(luò),并不斷優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)及訓(xùn)練策略。以期通過改進的YOLO v5s檢測方法提高農(nóng)田復(fù)雜背景下作物與伴生雜草識別檢測的精度。
1 材料與方法
1.1 資料來源
田間環(huán)境復(fù)雜多變,地面雜草形態(tài)豐富,部分雜草和作物苗期形態(tài)十分相似,且圖像質(zhì)量易受光照強度等環(huán)境因素影響。針對上述田間復(fù)雜狀況,需要不同環(huán)境背景下的苗草圖像擬合特征制作豐富多樣的數(shù)據(jù)集。
本研究所用作物雜草數(shù)據(jù)集主要來源于Sudars等制作的公開的作物與雜草數(shù)據(jù)集[12],其中包含甜菜等6種糧食作物和藜等8種雜草共1 118幅圖像,分為作物(crop)和雜草(weed)2個類別,并用拍攝、網(wǎng)上收集等方法擴充數(shù)據(jù)集,增加數(shù)據(jù)集的多樣性并提升模型實際應(yīng)用的泛化能力。為了減少數(shù)據(jù)過擬合的可能性,通過隨機翻轉(zhuǎn)、隨機縮放、加入各類噪聲、局部裁剪等方法進行數(shù)據(jù)增強,再經(jīng)過人工篩選去掉質(zhì)量較差的圖片,最終得到1 500幅圖像(圖1),按8 ∶2的比例劃分為訓(xùn)練集和驗證集得到最終數(shù)據(jù)集。
1.2 處理方法
1.2.1 YOLO v5算法模型
YOLO v5目標(biāo)檢測網(wǎng)絡(luò)按網(wǎng)絡(luò)結(jié)構(gòu)的寬度和深度由小到大分成s、m、l、x這4個版本,本研究使用的是YOLO v5s的6.1版本。YOLO v5算法模型總共分為輸入端(Input)、主干網(wǎng)絡(luò)(Backbone)、頸部(Neck)和檢測端(Prediction)4個部分。Input讀入圖片,使用Mosaic圖像增強方法提升模型的擬合能力;Backbone使用高性能分類網(wǎng)絡(luò)CSPDarknet 53;Neck網(wǎng)絡(luò)連接Backbone和Prediction,進一步提升特征的多樣性及魯棒性;Prediction檢測頭分為3種檢測層檢測尺寸不一的目標(biāo)特征。YOLO v5開源工程全面且簡潔,在移動式設(shè)備上更容易部署,受到檢測界廣泛好評。
1.2.2 YOLO v5在農(nóng)田雜草檢測中的問題
雖然YOLO v5已經(jīng)具備了優(yōu)秀的檢測性能與速度,但應(yīng)用到本研究的苗草檢測場景任務(wù),仍存在下列幾個可以改進的地方。
(1)作物幼苗期目標(biāo)較小,YOLO v5一般通過淺層提取小目標(biāo)特征,當(dāng)圖像特征經(jīng)過主干網(wǎng)絡(luò)中的Bottleneck結(jié)構(gòu),大量卷積計算易造成小目標(biāo)信息丟失。
(2)在Backbone最后一層中拼接融合大小不一的特征圖獲取不同層次的特征信息,但信息沒有聯(lián)系全局,且沒考慮到圖像特征的冗余現(xiàn)象。
(3)一些田間圖像存在低光照、低對比度等情況,網(wǎng)絡(luò)無法從圖像中提取足夠的特征信息,尤其經(jīng)過上采樣操作會放大圖像噪聲,對苗草檢測定位精確性造成影響。
(4)網(wǎng)絡(luò)中使用的邊界框回歸損失函數(shù)CIoU(complete intersection over union)借助邊界框縱橫比信息判斷檢測框的置信度,但缺乏錨框?qū)挕⒏叩日鎸嵭畔?,難以評價2個類似錨框的優(yōu)劣,阻礙模型實現(xiàn)高精度定位。
1.3 YOLO v5改進方法
雜草檢測應(yīng)保證實時性以滿足自動化除草的需求,做到復(fù)雜環(huán)境下能夠有效分辨和精確檢測,檢測苗草的誤差大小影響到除草機器人等農(nóng)機的路徑規(guī)劃是否合理,既可保證農(nóng)田種植效益穩(wěn)定,也能減小農(nóng)業(yè)環(huán)境污染。因此本研究結(jié)合最新神經(jīng)網(wǎng)絡(luò)改進思路以及損失函數(shù)對于原YOLO v5s模型進行改進,改進后的YOLO v5s網(wǎng)絡(luò)模型結(jié)構(gòu)如圖2、圖3所示。
1.3.1 引入CA注意力機制
人眼一瞬間接收處理大批量信息時會陷入瓶頸,此時需要有目的性地關(guān)注一部分,同時忽略其他可見的信息,利用視覺信息資源,注意力機制(attention mechanism)正是借鑒了人類視覺集中關(guān)注部分信息的特點,當(dāng)算法部署的嵌入式設(shè)備計算能力有限時,將計算資源合理分配給更重要的任務(wù)。協(xié)同注意力(coordinate attention,簡稱CA)作為一種新型注意力機制[13],針對卷積網(wǎng)絡(luò)只能捕獲局部而非長期依賴信息的問題,將特征空間的位置信息添加到通道注意力中。因為位置信息對獲取目標(biāo)結(jié)構(gòu)十分關(guān)鍵,是對生成空間選擇性注意圖的關(guān)鍵。
CA注意力機制在通道注意力的基礎(chǔ)上劃分成2個一維特征,以捕捉圖像中的方向感知和位置敏感信息。通過傳遞前后文的依賴關(guān)系與編碼構(gòu)成的注意力特征圖用于聚合圖像特征,并通過加權(quán)重要通道和抑制不重要通道來提高特征表達能力,使模型能夠更好地感知圖像中的方向和位置信息并互相補充完成最終特征圖,其結(jié)構(gòu)如圖4所示。
CA注意力以較低的計算成本實現(xiàn)顯著的性能提升,應(yīng)用十分靈活,也無需考慮模塊嵌入到網(wǎng)絡(luò)中帶來的性能開銷。CA注意力機制的添加方式多樣,一般在網(wǎng)絡(luò)Backbone部分的空間金字塔快速池化層(spatial pyramid pooling-fast,簡稱SPPF)前添加,將位置信息融進通道注意力,增加特征提取圖片細(xì)節(jié)的能力。
針對農(nóng)田雜草的目標(biāo)檢測任務(wù)中一些苗期作物和雜草在圖像中只有小量像素,特征信息容易在深層卷積網(wǎng)絡(luò)中丟失,導(dǎo)致漏檢、錯檢的情況,本研究選擇在C3模塊內(nèi)部激活函數(shù)層之后添加CA注意力層,如圖5所示,此時保留的有效特征信息更多,能夠強化注意力機制對重要局部細(xì)節(jié)的感知力。
1.3.2 主干網(wǎng)絡(luò)改進
主干網(wǎng)絡(luò)最后的SPPF結(jié)構(gòu)作用是避免圖像失真與特征重復(fù)提取,本研究選擇使用感受野塊(receptive field block,簡稱RFB)替換原本的SPPF結(jié)構(gòu)[14]。RFB主要借鑒了Inception網(wǎng)絡(luò)的思想,通過多分支結(jié)構(gòu)和不同尺寸卷積核的卷積層構(gòu)建模塊,能夠增強網(wǎng)絡(luò)的特征提取能力。除此之外,RFB還利用了空洞卷積的特性,捕獲上下文信息,RFB結(jié)構(gòu)如圖6所示。
本研究模型使用RFB模塊替換SPPF模塊,在解決圖像歸一化時特征重復(fù)提取問題的同時提升了候選框的生成速度且節(jié)約計算成本,能夠有效增大感受野,在合理利用全局信息的同時保證效率。
1.3.3 引入CA注意力機制
Neck部分采用最近鄰插值的上采樣方式。上采樣核取決于像素點的空間位置,缺少特征圖的語義信息利用,可以看作是一種平均化的上采樣,而且感受野通常都很小。因此本研究將最近鄰插值替換為輕量級通用上采樣算子(content-aware reassembly feature enhancement,簡稱CARAFE)[15]。CARAFE分為預(yù)測部分和特征重組部分,如圖7所示。
在上采樣核預(yù)測部分,首先將輸入的特征圖(大小為H×W×C)的通道壓縮至Cm,捕獲更大范圍的感受野。再使用上采樣倍率為σ和上采樣尺寸為kup×kup的卷積操作,將通道數(shù)增加到σ2×k2up,生成的卷積核可以根據(jù)輸入特征圖的內(nèi)容自適應(yīng)調(diào)整,捕捉更準(zhǔn)確的上下文信息;之后在空間維度上展開通道并將所有卷積核softmax歸一化,確保其權(quán)重和為1。特征重組部分根據(jù)位置相似性重新分配局部區(qū)域,這是CARAFE方法的關(guān)鍵所在。將輸出特征圖各位置映射回輸入特征圖的結(jié)果與預(yù)測的上采樣核的空間維度展開結(jié)果進行點積運算,最終得到一個大小為σH×σW×C的新特征圖。
CARAFE在特征圖中引入通道注意力機制,通過前向傳遞學(xué)習(xí)局部采樣區(qū)域的大小和位置的自適應(yīng)性使得CARAFE能夠充分利用原始圖像中的紋理信息和上下文語義信息,實現(xiàn)了對紋理細(xì)節(jié)和語義信息的聯(lián)合建模。與一般的上采樣方式相比,CARAFE有著更大的感受野,能夠生成比原始低分辨率圖形更為具有信息豐富性的上采樣特征圖,使得下游任務(wù)可以利用到更加準(zhǔn)確多樣的特征。
1.3.4 損失函數(shù)改進
邊界框損失函數(shù)作為目標(biāo)檢測損失函數(shù)的重要組成部分,其良好定義可以為目標(biāo)檢測模型帶來顯著的性能提升。
LIoU=1-IoU。(1)
式中:IoU表示預(yù)測框與真實框的重疊程度;LIoU表示預(yù)測值和真實值之間的差異值損失,即損失值。
原網(wǎng)絡(luò)的Prediction部分采用CIoU函數(shù)作為邊界框損失函數(shù),如果檢測訓(xùn)練集中含有低質(zhì)量示例,一味地強化邊界框?qū)Φ唾|(zhì)量示例的回歸會危害模型檢測性能的提升。為了提高高質(zhì)量錨框(anchor box)的競爭力,減少低質(zhì)量樣本產(chǎn)生的有害梯度,選擇替換Wise-IoU v3(WIoU v3)損失函數(shù)[16]。
RWIoU=exp(x-xgt)2+(y-ygt)2(W2g-H2g)*;(2)
LWIoU v1=RWIoULIoU。(3)
式中:x表示錨框中心點橫坐標(biāo);y表示錨框中心點縱坐標(biāo);xgt表示目標(biāo)框中心點橫坐標(biāo);ygt表示目標(biāo)框中心點縱坐標(biāo);Wg表示錨框與目標(biāo)框的最小包圍框的寬;Hg表示最小包圍框的高;RWIoU表示綜合錨框和目標(biāo)框中心點連接的歸一化長度與最小包圍框的尺寸設(shè)置的懲罰項,RWIoU∈[1,e]時顯著放大普通質(zhì)量錨框的LIoU;LWIoU表示預(yù)測值和真實值之間的差異值損失,即損失值,LIoU∈[0,1]時顯著降低高質(zhì)量錨框的RWIoU,并在錨框與目標(biāo)框重合時重點關(guān)注中心點之間的距離。
為防止RWIoU產(chǎn)生阻礙收斂的梯度,將Wg和Hg從計算圖中分離出來(上標(biāo)*表示此操作)。因為它有效地消除了阻礙收斂的因素,所以沒有引入縱橫比這類新度量,錨框的離群度用L* IoU與LIoU的比值來表征:
β=L*IoULIoU∈[0,+∞);(4)
LWIoU v3=rLWIoU v1;(5)
r=βδαβ-δ。(6)
式中:β表示離群度;r表示梯度增益;α與δ為人為設(shè)定的超參數(shù)。LWIoU v3將會隨著離群度變化動態(tài)選擇梯度增益最大的時刻。
WIoU v3運用動態(tài)非單調(diào)聚焦機制,用離群度替代IoU對錨框進行質(zhì)量評估,并提供了明智的梯度增益(聚焦系數(shù))分配策略。錨框動態(tài)劃分質(zhì)量標(biāo)準(zhǔn)使得WIoU v3在每一個時刻都能做出最符合當(dāng)前情況的梯度增益分配策略,在降低高質(zhì)量錨框的競爭力的同時也減小了低質(zhì)量標(biāo)注示例產(chǎn)生的有害梯度信息,這使得WIoU v3可以聚焦于普通質(zhì)量的錨框,并提高了檢測器的整體性能。
1.4 試驗環(huán)境與方案設(shè)計
為驗證本研究改進算法的有效性,于2023年3—4月在浙江科技學(xué)院物流裝備實驗室自主搭建的服務(wù)器上進行試驗。試驗環(huán)境為Windows 64位操作系統(tǒng),NVIDIA GeForce RTX 3060顯卡,Intel Core i5-12400F處理器,在Pytorch 1.10.0、CUDA 11.7版本的深度學(xué)習(xí)環(huán)境下實現(xiàn)模型的搭建及訓(xùn)練工作。
試驗基本采用YOLO v5s的官方配置參數(shù),啟用mosaic數(shù)據(jù)增強方法[17],將輸入網(wǎng)絡(luò)圖像尺寸設(shè)置為640×640,訓(xùn)練樣本批次大?。╞atchsize)設(shè)置為32,測試樣本batchsize為1,模型迭代次數(shù)(epoch)設(shè)置為100,初始化學(xué)習(xí)率為0.01,學(xué)習(xí)率動量為0.937,使用隨機梯度下降(SGD)法優(yōu)化目標(biāo),訓(xùn)練過程中定位損失變化情況。
由圖8可以看出,損失曲線在訓(xùn)練早期(前20次)快速下降,隨著訓(xùn)練輪數(shù)增長,損失曲線緩慢下降,當(dāng)epoch達到80時算法回歸框函數(shù)損失基本達到穩(wěn)定,整個訓(xùn)練階段未出現(xiàn)明顯的過擬合現(xiàn)象。改進之后的YOLO v5s模型各損失曲線的下降速度均快于原始YOLO v5s模型,表明改進YOLO v5s的損耗曲線具有較低的損耗值。
如圖9所示,前30輪訓(xùn)練模型平均精度均值增長較快,當(dāng)模型迭代輪次達到80次時,模型逐漸收斂。相較于初始的YOLO v5s,本研究提出的改進模型迭代相同輪次時收斂更加快速,得到最終的平均精度均值更高。
為了評估不同改進部分對模型檢測性能的影響以及比較改進模型與主流實時檢測模型的性能,本研究設(shè)計了2組試驗。首先以YOLO v5s模型為基準(zhǔn),對比不同改進部分對網(wǎng)絡(luò)性能的影響,再將本研究提出的改進模型與主流檢測模型如SSD、Faster R-CNN等進行性能對比,以全面評估改進模型的性能。
1.5 評價指標(biāo)
目標(biāo)檢測中常用的評價指標(biāo)如下:判斷分類檢測精度使用平均精度均值(mean average precision,簡稱mAP),判斷網(wǎng)絡(luò)檢測速度采用每秒幀數(shù)(frames per second,簡稱FPS)作為標(biāo)準(zhǔn)。
(1)mAP用于評估目標(biāo)檢測模型整體性能的指標(biāo),將各類別的平均精度根據(jù)P-R曲線與坐標(biāo)軸面積計算得出后取平均值,衡量不同召回率下的檢測準(zhǔn)確性,mAP的數(shù)值越大代表檢測精度越高。
(2)FPS用于表示網(wǎng)絡(luò)檢測速度,通過檢測速度反映目標(biāo)檢測模型的性能,F(xiàn)PS數(shù)值越大則檢測速度越快。
2 結(jié)果與分析
2.1 消融試驗
本研究所提出的4種改進方法分別為C(融合CA注意力)、R(引入RFB模塊)、F(使用輕量級通用上采樣算子)、W(替換WIoU損失函數(shù)),因此將最終的改進模型取名為YOLO v5s-CRFW。
從以下2個角度設(shè)計消融試驗來驗證4種改進方法的有效性:(1)以原始YOLO v5s模型為基礎(chǔ),增加一種改進方法以驗證每種改進方法的改進效果;(2)以最終YOLO v5s-CRFW模型為基礎(chǔ),消除一種改進方法以驗證每種改進方法對最終算法的影響程度。
從表1中可以看出,以不同組合的方式添加本研究提出的4種改進方法(“√”表示引入該方法),相較于原始的YOLO v5s算法,在苗草檢測數(shù)據(jù)集上均實現(xiàn)了一定程度的檢測精度提升。分析數(shù)據(jù)可知,融合CA注意力機制提升了1.7百分點,改進主干網(wǎng)絡(luò)池化層加入RFB模塊后提升了1.6百分點,替換上采樣方式和損失函數(shù)分別提升了1.3百分點和0.6百分點的檢測精度。證明了4種改進方法間相輔相成,其中刪去替換RFB模塊的方法對完全體模型的影響明顯,檢測精度下降了1.2百分點。消融試驗有力證明了本研究所提4種改進方法的有效性。
2.2 主流目標(biāo)檢測模型性能對比
為了證明改進算法在苗草檢測任務(wù)中檢測性能的優(yōu)越性,將本研究提出的YOLO v5s-CRFW算法與主流的目標(biāo)檢測算法SSD、Faster R-CNN、YOLO v5s 以及YOLO v5s系列的其他改進模型進行了對比[18-20],對比試驗結(jié)果見表2。
由表2數(shù)據(jù)分析可知,YOLO v5s-CRFW模型的mAP@0.5為86.7%,是所有參與比較的模型中最好的,在保證高精度檢測的同時,檢測速度并未出現(xiàn)大幅度下降,與目前主流檢測模型Faster R-CNN相比FPS仍然具有一定優(yōu)勢,證明了YOLO v5s-CRFW模型對精確分辨農(nóng)田苗草的有效性。
2.3 不同環(huán)境背景模型識別效果對比
如圖10、圖11、圖12所示,針對農(nóng)田復(fù)雜場景下的檢測苗草任務(wù),給出不同環(huán)境背景下的苗草圖片時,YOLO v5s-CRFW算法模型的檢測結(jié)果均優(yōu)于原始YOLO v5s算法,較好地解決了由于光照條件、苗草相似、種植密度大、陰影遮擋等原因?qū)е旅绮輽z測結(jié)果存在的誤檢和漏檢問題,能夠更好地處理復(fù)雜田間真實環(huán)境下的不同場景條件中的作物雜草目標(biāo)檢測問題。
3 結(jié)論
本研究提出了一種基于改進YOLO v5s模型的農(nóng)田苗草檢測模型YOLO v5s-CRFW, 解決了在雜草種類繁多的復(fù)雜農(nóng)田背景下自動化除草裝備難以精準(zhǔn)識別農(nóng)作物與雜草的問題。YOLO v5s-CRFW將注意力機制CA與原YOLO v5網(wǎng)絡(luò)融合,使用RFB結(jié)構(gòu)改進池化層,將上采樣方式替換為CARAFE并使用WIoU損失函數(shù)替換原始的CIoU,改善了陰影、遮擋等情況下漏檢以及小目標(biāo)苗草識別效果差的問題。對改進后的最終模型進行消融試驗,證明了本研究提出的4種改進方法的有效性。
與目前主流及其他改進算法進行對比試驗,本研究方法mAP達到86.7%,相較于原始YOLO v5s在苗草檢測數(shù)據(jù)集上提高了2.9百分點的檢測精度,F(xiàn)PS達到60.4幀/s,基本上解決了農(nóng)田作物與伴生雜草識別和位置檢測問題,滿足嵌入式除草機器人在田間工作的精準(zhǔn)性和實時性要求,可為實現(xiàn)自動化農(nóng)機精準(zhǔn)施肥、施藥及除草提供技術(shù)支持。
參考文獻:
[1]李香菊. 近年我國農(nóng)田雜草防控中的突出問題與治理對策[J]. 植物保護,2018,44(5):77-84.
[2]胡 煉,劉海龍,何 杰,等. 智能除草機器人研究現(xiàn)狀與展望[J]. 華南農(nóng)業(yè)大學(xué)學(xué)報,2023,44(1):34-42.
[3]Coleman G,Salter W,Walsh M. OpenWeedLocator (OWL):an open-source,low-cost device for fallow weed detection[J]. Scientific Reports,2022,12:170.
[4]梁倍源. 機器視覺在農(nóng)業(yè)中的應(yīng)用:農(nóng)田雜草智能識別[J]. 中國果樹,2022(5):134.
[5]袁洪波,趙努東,程 曼. 基于圖像處理的田間雜草識別研究進展與展望[J]. 農(nóng)業(yè)機械學(xué)報,2020,51(增刊2):323-334.
[6]Redmon J,F(xiàn)arhadi A. YOLO v3: an incremental improvement[J]. arXiv,2018,1804: 2767.
[7]權(quán)龍哲,夏福霖,姜 偉,等. 基于YOLO v4卷積神經(jīng)網(wǎng)絡(luò)的農(nóng)田苗草識別研究[J]. 東北農(nóng)業(yè)大學(xué)學(xué)報,2021,52(7):89-98.
[8]Zhang J L,Su W H,Zhang H Y,et al." SE-YOLO v5x:an optimized model based on transfer learning and visual attention mechanism for identifying and localizing weeds and vegetables[J]. Agronomy,2022,12(9):2061.
[9]Liu W,Anguelov D,Erhan D,et al." SSD:single shot MultiBox detector[C]//Computer Vision -ECCV 2016.Cham:Springer International Publishing,2016:21-37.
[10]Ren S Q,He K M,Girshick R,et al." Faster R-CNN:towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,39(6):1137-1149.
[11]張偉康,孫 浩,陳鑫凱,等. 基于改進YOLO v5的智能除草機器人蔬菜苗田雜草檢測研究[J]. 圖學(xué)學(xué)報,2023,44(2):346-356.
[12]Sudars K,Jasko J,Namatevs I,et al." Dataset of annotated food crops and weed images for robotic computer vision control[J]. Data in Brief,2020,31:105833.
[13]Hou Q B,Zhou D Q,F(xiàn)eng J S. Coordinate attention for efficient mobile network design[C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).Nashville,TN,USA.IEEE,2021:13708-13717.
[14]Liu S T,Huang D,Wang Y H. Receptive field block net for accurate and fast object detection[C]//European Conference on Computer Vision.Cham:Springer,2018:404-419.
[15]Wang J Q,Chen K,Xu R,et al." CARAFE++:unified content-aware reassembly of features[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2022,44(9):4674-4687.
[16]Tong Z,Chen Y,Xu Z,et al."" Wise-IoU: bounding box regression loss with dynamic focusing mechanism[J]. arXiv,2023,2301:10051.
[17]Ge Z,Liu S T,Wang F,et al." YOLO x:exceeding YOLO series in 2021[J]. arXiv,2021:2107.08430.
[18]Woo S,Park J,Lee J Y,et al." CBAM:convolutional block attention module[C]//European Conference on Computer Vision.Cham:Springer,2018:3-19.
[19]Wu T H,Wang T W,Liu Y Q. Real-time vehicle and distance detection based on improved YOLO v5 network[C]//2021 3rd World Symposium on Artificial Intelligence (WSAI).Guangzhou,China.IEEE,2021:24-28.
[20]Wang Q L,Wu B G,Zhu P F,et al." ECA-net:efficient channel attention for deep convolutional neural networks[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).Seattle,WA,USA.IEEE,2020:11531-11539.