doi:10.15889/j.issn.1002-1302.2024.20.015
摘要:為在自然環(huán)境下準(zhǔn)確地識別和檢測香梨果實(shí),以YOLO v7為基礎(chǔ)網(wǎng)絡(luò)模型,針對果園中香梨果實(shí)、果葉、枝干之間相互遮擋問題,提出一種改進(jìn)的輕量化YOLO v7梨果目標(biāo)檢測方法。該方法將MobileNet v3引入YOLO v7 模型中作為其骨干特征提取網(wǎng)絡(luò),從而減少網(wǎng)絡(luò)的參數(shù)量,使其更容易部署在移動端和生產(chǎn)實(shí)際,在特征融合層引入?yún)f(xié)同注意力機(jī)制CA(coordinate attention)模塊,以提高網(wǎng)絡(luò)的特征表達(dá)能力,將原YOLO v7中的損失函數(shù)CIoU替換為SIoU,從而提高模型的檢測速度和性能。最后利用Grad-CAM 方法產(chǎn)生目標(biāo)檢測熱力圖,進(jìn)行特征可視化。結(jié)果表明,改進(jìn)的輕量化YOLO v7模型的平均精度均值(mAP)、精確率、召回率指標(biāo)分別為96.33%、94.36%、89.28%,檢測速度為87.71(幀/s),模型內(nèi)存占用量與原YOLO v7相比減少21.45 MB;其檢測平均精度均值(mAP) 與 Faster R-CNN、YOLO v3、MobileNet v3-YOLO v4、YOLO v5s、YOLO v7模型相比分別提高28.37、9.66、13.14、4.58、3.20百分點(diǎn)。研究表明,改進(jìn)的輕量化YOLO v7模型對成熟期香梨具有很好的目標(biāo)檢測效果和魯棒性,可為香梨自動化采摘提供有效的技術(shù)支持。
關(guān)鍵詞:目標(biāo)檢測;香梨;YOLO v7;輕量化;注意力機(jī)制
中圖分類號:S126;TP391.41" 文獻(xiàn)標(biāo)志碼:A
文章編號:1002-1302(2024)20-0121-08
收稿日期:2023-11-23
基金項(xiàng)目:新疆生產(chǎn)建設(shè)兵團(tuán)科技創(chuàng)新項(xiàng)目(編號:2021CB021)。
作者簡介:鄭文軒(1980—),男,河南南陽人,博士,教授,從事圖像分析、計(jì)算機(jī)視覺研究。E-mail:wenxuanzhengdx@163.com。
通信作者:楊" 瑛,博士,教授,從事農(nóng)業(yè)信息技術(shù)研究。E-mail:yangyingtlmdx@163.com.
香梨作為世界五大水果之一,由于其經(jīng)濟(jì)價(jià)值、營養(yǎng)保健價(jià)值高,可鮮食、加工增值等多種用途,深受廣大消費(fèi)者的喜愛。2022年我國梨產(chǎn)量超過1 800萬t,是果農(nóng)重要的經(jīng)濟(jì)來源之一。目前香梨的采摘方式主要是依靠農(nóng)民手工采摘,費(fèi)時(shí)費(fèi)力,效率低下,很難滿足作業(yè)周期短、采摘任務(wù)重、采摘需求急的現(xiàn)實(shí)要求[1]。在現(xiàn)代農(nóng)業(yè)生產(chǎn)中,農(nóng)業(yè)采摘越來越偏向機(jī)械化和智能化,越來越多的采摘機(jī)器人投入生產(chǎn)使用,并逐步代替人力勞動。但在自然環(huán)境下,天氣、光照以及水果果實(shí)大小,成簇狀生長,果實(shí)顏色與背景相近,果實(shí)和枝干之間相互遮擋等問題,大大增加了水果果實(shí)目標(biāo)檢測的難度。
隨著計(jì)算機(jī)算力的不斷提升,深度學(xué)習(xí)技術(shù)在目標(biāo)檢測領(lǐng)域有了巨大的優(yōu)勢[2]。與傳統(tǒng)的目標(biāo)檢測算法相比,深度卷積神經(jīng)網(wǎng)絡(luò)可以自動從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)多層次的特征,模型具有較強(qiáng)的泛化能力和更強(qiáng)的特征提取能力[3-4]。傅隆生等提出一種對多簇獼猴桃具有94.78%的識別準(zhǔn)確率的果實(shí)識別算法[5]。崔瀟等在2019年提出的桃子檢測模型,是以MTCNN(多任務(wù)卷積神經(jīng)網(wǎng)絡(luò)算法)為主干的一種網(wǎng)絡(luò),對成熟桃子的檢測準(zhǔn)確率達(dá)到89.3%[6]。He等提出SPP-Net網(wǎng)絡(luò),從之前的單一尺度輸入變?yōu)榱诵矢叩亩喑叨容斎耄?]。Ren等提出Faster-RCNN網(wǎng)絡(luò)去彌補(bǔ)目標(biāo)檢測速度慢的問題[8]。為了進(jìn)一步改善目標(biāo)檢測速度上的問題,Redmon等提出了速度更快的網(wǎng)絡(luò)模型YOLO,但方法存在檢測精度低的缺陷[9]。后續(xù)研究者陸續(xù)提出YOLO v2、YOLO v3、YOLO v4和YOLO v5等來改進(jìn)檢測精度低的問題,但這些網(wǎng)絡(luò)模型在小目標(biāo)的檢測上表現(xiàn)效果欠佳。隨著目標(biāo)檢測技術(shù)的不斷發(fā)展,Tian等提出了一種改進(jìn)的YOLO v3模型,用于在不同光照條件、復(fù)雜背景以及遮擋等情況下檢測不同成熟度的蘋果[10]。王立舒等提出一種改進(jìn) YOLO v4-Tiny的藍(lán)莓成熟度識別方法,該方法在遮擋與光照不均等復(fù)雜場景中平均精度很高[11]。周桂紅等在YOLO v4 主干特征提取網(wǎng)絡(luò)的ResBlock 模塊中加入SC-SE 注意力機(jī)制,并將" PA-Net 模塊中的部分卷積替換為深度可分離卷積,改進(jìn)后的 YOLO v4 網(wǎng)絡(luò)模型檢測成熟蘋果的平均精度達(dá)到97.27%[12]。Lyu等提出了一種輕量級的目標(biāo)檢測YOLO v5-CS 模型,在YOLO v5 網(wǎng)絡(luò)中加入了注意力模塊,自然環(huán)境中對綠色柑橘識別準(zhǔn)確率98.23%[13]。YOLO v7模型是一個(gè)具有檢測精度高、速度快、支持高分辨率圖像的目標(biāo)檢測模型,已被廣泛應(yīng)用到智慧農(nóng)業(yè)的各個(gè)領(lǐng)域。雖然,目前對水果檢測方面的研究已經(jīng)取得較好的成效,但是針對水果目標(biāo)檢測的檢測精度和速度還有待提高,在檢測距離較遠(yuǎn)及存在遮擋的目標(biāo)檢測時(shí)會出現(xiàn)漏檢和誤檢的問題。
針對以上問題, 本研究提出一種改進(jìn)的輕量化YOLO v7香梨目標(biāo)檢測模型。首先,在試驗(yàn)數(shù)據(jù)采集時(shí)針對現(xiàn)實(shí)生產(chǎn)中存在的果實(shí)采摘距離遠(yuǎn)近、光照、有無枝干或樹葉遮擋等問題進(jìn)行有針對性的圖像采集。然后,將YOLO v7的骨干特征提取網(wǎng)絡(luò)替換為輕量級的MobileNet v3骨干網(wǎng)絡(luò),大幅降低模型的參數(shù)量和計(jì)算量。在特征融合層引入CA注意力模塊來加強(qiáng)網(wǎng)絡(luò)的特征表達(dá)能力,提高相鄰果實(shí)和被枝葉遮擋果實(shí)的檢測精度,通過試驗(yàn)對比將原YOLO v7中的損失函數(shù)CIoU替換為SIoU,從而提高模型的檢測速度和精度等。
1" 材料與方法
1.1" 圖像數(shù)據(jù)采集
本試驗(yàn)開展于2023年8月,試驗(yàn)所用的香梨數(shù)據(jù)集拍攝于新疆塔里木大學(xué)園藝試驗(yàn)站新梨7號試驗(yàn)區(qū),研究對象為成熟期新梨7號香梨。采集圖像信息見表1,不同場景香梨圖像見圖1??紤]到智能機(jī)器人在對梨果采摘時(shí)會遇到采摘距離遠(yuǎn)近、光照強(qiáng)弱不均勻等問題,試驗(yàn)數(shù)據(jù)采集設(shè)計(jì)了遠(yuǎn)距(距離為50~100 cm)和近距(距離為10~30 cm)2種圖片拍攝模式,拍攝時(shí)間選擇在07:00—08:00、13:00—14:00、18:00—19:00等3個(gè)時(shí)間段,拍攝時(shí)期為8月15—30日,此時(shí)段為香梨成熟期但還未采摘。試驗(yàn)共采集香梨圖片2 586張,其中遠(yuǎn)距圖片為1 167張,近距圖片為1 419張。
1.2" 香梨圖像數(shù)據(jù)集制作
由于新梨7號香梨數(shù)據(jù)集的數(shù)據(jù)樣本量不足以讓模型在訓(xùn)練時(shí)達(dá)到很好的收斂狀態(tài),為改善網(wǎng)絡(luò)訓(xùn)練效果和提高模型的泛化能力,采用數(shù)據(jù)增強(qiáng)方法增加樣本數(shù)量,防止網(wǎng)絡(luò)因訓(xùn)練樣本不足導(dǎo)致過擬合問題。本研究采用水平翻轉(zhuǎn)、垂直翻轉(zhuǎn)、非等比例縮放、隨機(jī)平移、隨機(jī)裁剪和mosaic等數(shù)據(jù)增強(qiáng)方式隨機(jī)組合,對數(shù)據(jù)集進(jìn)行增廣。利用Labelimg標(biāo)注軟件對香梨數(shù)據(jù)集進(jìn)行人工標(biāo)注, 標(biāo)
注框選擇果實(shí)最小外接矩形,標(biāo)注后產(chǎn)生的標(biāo)注信息文件為xml類型文件,儲存了果實(shí)圖像文件名、標(biāo)注區(qū)域矩形框4個(gè)角的位置信息以及標(biāo)注種類等信息。圖像增廣后的圖片共4 316張,以7 ∶2 ∶1的比例劃分訓(xùn)練集(3 021張)、測試集(863張)、驗(yàn)證集(432張)進(jìn)行模型的訓(xùn)練和測試。
1.3" 試驗(yàn)環(huán)境配置
本研究使用Win 10操作系統(tǒng),顯卡型號為Nvidia GeForce RTX-3090,處理器型號為Intel CoreTMi7-12700KF 3.60 GHz,深度學(xué)習(xí)框架為PyTorch 2.0,編程平臺為PyCharm,編程語言為Python 3.8,所有對比算法均在相同環(huán)境下運(yùn)行。為提高網(wǎng)絡(luò)訓(xùn)練的效率,本試驗(yàn)采用凍結(jié)訓(xùn)練和解凍訓(xùn)練2種方法進(jìn)行。凍結(jié)骨干網(wǎng)絡(luò)訓(xùn)練時(shí)初始學(xué)習(xí)率設(shè)為0.01,Batchsize設(shè)為16,動量設(shè)為0.93;解凍之后的網(wǎng)絡(luò)訓(xùn)練學(xué)習(xí)率設(shè)為 0.01,Batchsize設(shè)為8,動量設(shè)為0.93,迭代次數(shù)為300次。
1.4" 模型評價(jià)指標(biāo)
本研究采用5個(gè)指標(biāo)評價(jià)目標(biāo)檢測模型的性能。在模型檢測精度方面,選用精確率(Precision,簡稱P)、召回率(Recall,簡稱R)和平均精度均值(mean Average Precision,簡稱mAP)作為評價(jià)指標(biāo);在模型檢測性能方面,選用檢測速度(detection speed)和模型內(nèi)存占用量作為評價(jià)指標(biāo),這些評價(jià)指標(biāo)的具體計(jì)算方法可見參考文獻(xiàn)[14-16]。
2" 研究方法
2.1" YOLO v7網(wǎng)絡(luò)結(jié)構(gòu)介紹
YOLO v7網(wǎng)絡(luò)結(jié)構(gòu)主要由主干網(wǎng)絡(luò)(Backbone)、特征融合網(wǎng)絡(luò)(FPN)和檢測頭(YOLO Head)等3個(gè)部分組成。在YOLO v7特征提取網(wǎng)絡(luò)中使用了多分支堆疊模塊(Multi_Concat_Block),如圖2所示,它是將多個(gè)卷積標(biāo)準(zhǔn)化激活函數(shù)進(jìn)行堆疊后進(jìn)行特征融合,從而提高準(zhǔn)確率。 同時(shí)使用創(chuàng)新的過渡模塊Transition_Block來進(jìn)行采樣,YOLO v7提出了重參數(shù)化卷積(RepConv)和動態(tài)標(biāo)簽分配等策略,使其在檢測精度和效率上取得了較好的效果。在原YOLO v7中使用的CIoU 損失函數(shù),只考慮了檢測框尺度的損失,沒有考慮預(yù)測框與真實(shí)框之間的不匹配,因此本研究使用SIoU 損失函數(shù)代替 CIoU 損失函數(shù),將方向尺度的損失考慮到模型訓(xùn)練中。
2.2" YOLO v7模型的主干網(wǎng)絡(luò)改進(jìn)
為了使改進(jìn)的YOLO v7模型更符合生產(chǎn)實(shí)際,試驗(yàn)使用MobileNet v3 骨干網(wǎng)絡(luò)作為YOLO v7模型的骨干網(wǎng)絡(luò)實(shí)現(xiàn)特征提取。MobileNet v3 網(wǎng)絡(luò)與傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)相比在準(zhǔn)確率小幅降低的前提下大大減少了模型參數(shù)量與運(yùn)算量[17],實(shí)現(xiàn)模型的輕量化,更有利用于部署在移動端,其網(wǎng)絡(luò)參數(shù)設(shè)計(jì)如表2所示。 MobileNet v3 綜合了MobileNet v1 和
MobileNet v2的特點(diǎn),其在主干網(wǎng)絡(luò)中加入了注意力機(jī)制 SE(squeezeand excitation networks)模塊[18],使用了深度可分離卷積(depthwise separable convolutions)和逆殘差結(jié)構(gòu)(the inverted residual with linear bottleneck)。同時(shí),使用H-Swish激活函數(shù)代替Swish激活函數(shù),減少運(yùn)算量,提高了模型性能。
2.3" 引入SE通道注意力機(jī)制和CA協(xié)同注意力機(jī)制
注意力機(jī)制是一種即插即用的模塊,引入注意力機(jī)制可以更有效地提取特征,進(jìn)而提升模型的檢測性能。在MobileNet v3主干網(wǎng)絡(luò)中加入SE注意力機(jī)制模塊,SE注意力機(jī)制模塊主要考慮的是通道注意力(channel attention),如圖3所示。在YOLO v7 特征融合層引入?yún)f(xié)同注意力機(jī)制CA(coordinate attention,)模塊[19],該注意力模塊不僅可以把通道注意力和空間注意力進(jìn)行有效的結(jié)合,更值得注意的是它同時(shí)在通道注意力中融入了位置信息,避免全局pooling-2D操作造成的位置信息丟失,將注意力分別放在寬度和高度2個(gè)維度上,有效利用輸入特征圖的空間坐標(biāo)信息,具體如圖4所示。
2.4" SIoU損失函數(shù)分析
YOLO v7 模型算法中,預(yù)測框回歸損失采用CIoU,但CIoU 并沒有考慮到預(yù)測框與真實(shí)框方向間的不匹配。這種方向的不匹配,可能導(dǎo)致收斂速度減慢且收斂效率低的問題。針對CIoU存在的問題, 本研究經(jīng)過試驗(yàn)對比, 采用SIoU損失函數(shù)替換
YOLO v7使用的CIoU 損失函數(shù)[20]。SIoU 損失函數(shù)主要優(yōu)點(diǎn)在于進(jìn)一步考慮了真實(shí)框和預(yù)測框之間的向量角度,重新定義相關(guān)損失函數(shù),SIoU 主要包含4個(gè)部分:角度損失(angle cost)、距離損失(distance cost)、形狀損失(shape cost)、IoU損失(IoU cost),圖5為SIoU 參數(shù)示意圖。
角度損失計(jì)算公式:
Λ=1-2·sin2arcsinchσ-π4
=cos2·arcsinchσ-π4。(1)
其中:
chσ=sin(α)。(2)
根據(jù)角度損失Λ公式,定義距離損失Δ計(jì)算公式如下:
Δ=∑t=x,y(1-e-γρt)=2-e-γρx-e-γρy;(3)
ρx=bgtcx-bcxcw2,ρy=bgtcy-bcych2,γ=2-Λ。(4)
形狀損失Ω定義如下:
Ω=∑t=w,h(1-ewt)θ=(1-eww)θ+(1-e-wh)θ。(5)
其中:
ww=|w-wgt|max(w,wgt),wh=|h-hgt|max(h,hgt)。(6)
式中:w、h、wgt、hgt分別表示預(yù)測框和真實(shí)框的寬和高。θ控制對形狀損失的關(guān)注程度,為避免過于關(guān)注形狀損失而降低對預(yù)測框的移動,θ參數(shù)范圍為[2,6]。
SIoU 損失的定義為:
LossSIoU=1-IoU+Δ+Ω2。(7)
3" 試驗(yàn)結(jié)果與分析
3.1" 改進(jìn)的YOLO v7模型消融試驗(yàn)結(jié)果
為驗(yàn)證改進(jìn)的YOLO v7模型的性能,本研究選用4組消融試驗(yàn)驗(yàn)證網(wǎng)絡(luò)模型的性能,分別為YOLO v7、在YOLO v7特征融合層加入CA注意力模塊、替換骨干網(wǎng)絡(luò)為MobileNet v3的YOLO v7模型和改進(jìn)的輕量化YOLO v7模型。選用平均精度均值(mAP)和檢測速度等2個(gè)評價(jià)指標(biāo),對驗(yàn)證集中的香梨圖像進(jìn)行評價(jià)。由表3可知,改進(jìn)后的YOLO v7模型的平均精度均值(mAP)和檢測速度均高于其他3組模型。
3.2" 香梨果實(shí)圖像檢測結(jié)果
圖6為不同距離、是否有遮擋、不同光照條件下YOLO v7和改進(jìn)的YOLO v7模型對香梨目標(biāo)檢測結(jié)果。
由圖6可知,無論是在近距離還是遠(yuǎn)距離,無遮擋順光和逆光的情況下(圖6-a、圖6-b、圖 6-d),YOLO v7模型和改進(jìn)的YOLO v7模型均可準(zhǔn)確檢測梨果,沒有漏檢和誤檢的情況,但是在有枝葉遮擋的情況下,YOLO v7的檢測效果(圖6-a、圖6-f)均出現(xiàn)了漏檢或誤檢的情況。而改進(jìn)的YOLO v7模型僅在光照不均勻且有相鄰梨果遮擋(圖6-c)和遠(yuǎn)距離有遮擋(圖6-e)的情況下出現(xiàn)個(gè)別香梨漏檢情況,整體檢測更加準(zhǔn)確。
由表4可知,改進(jìn)的YOLO v7模型的平均精度均值(mAP)、精確率和召回率在近景、遠(yuǎn)景2種場景下均高于YOLO v7模型,在測試近景數(shù)據(jù)集時(shí),改進(jìn)YOLO v7模型的平均精度均值(mAP)、精確率和召回率分別比YOLO v7高1.35、1.98、1.63百分點(diǎn);在測試遠(yuǎn)景數(shù)據(jù)集時(shí),改進(jìn)的YOLO v7模型的平均精度均值(mAP)、精確率和召回率分別比YOLO v7模型高1.49、0.12、1.68百分點(diǎn)。
3.3" 不同目標(biāo)檢測網(wǎng)絡(luò)模型對比結(jié)果分析
為定量比較不同模型的性能,將改進(jìn)的YOLO v7模型與Faster R-CNN、YOLO v3、MobileNet v3-YOLO v4、YOLO v5s 以及原YOLO v7模型在驗(yàn)證集上進(jìn)行性能比較。由表5可知,改進(jìn)的YOLO v7模型平均精度均值(mAP)、精確率、召回率分別為96.33%、94.36%、89.28%。其均值平均精度(mAP)與 Faster R-CNN、YOLO v3、MobileNet v3-YOLO v4、YOLO v5s以及原YOLO v7 模型相比分別提升28.37、9.66、13.14、4.58、3.20百分點(diǎn)。檢測速度為87.71 幀/s,模型內(nèi)存占用量與原YOLO v7 相比減少了21.45 MB。
3.4" 不同損失函數(shù)應(yīng)用于YOLO v7的性能比較
為分析不同損失函數(shù)的性能表現(xiàn),本研究將原YOLO v7中的損失函數(shù)CIoU分別替換為AlphaIoU、DIoU、SIoU[21-24],4種損失函數(shù)應(yīng)用于YOLO v7中的性能表現(xiàn)(表6)。使用4種損失函數(shù)訓(xùn)練模型的損失曲線, 由損失曲線圖(圖7)可以看出, DIoU損
失函數(shù)在第17~21個(gè)輪次時(shí)略有“波動”,但使用 AlphaIoU、DIoU、CIoU和SIoU這4種損失函數(shù)訓(xùn)練模型都可以快速收斂并維持在較低的損失值。
對比4種損失函數(shù)性能,SIoU與 AlphaIoU相比,其平均精度均值(mAP)、精確率和召回率分別提高1.60、1.10、1.96百分點(diǎn),訓(xùn)練時(shí)長縮短了0.72 h;使用SIoU與DIoU相比,其平均精度均值(mAP)、精確率和召回率分別提高 1.91、1.43、3.44百分點(diǎn),訓(xùn)練時(shí)長縮短了1.01 h;使用SIoU與CIoU相比,其平均精度均值(mAP)、精確率分別提高了0.32、0.89百分點(diǎn),召回率降低了0.69百分點(diǎn),訓(xùn)練時(shí)長縮短2.78 h。根據(jù)上述分析可知,使用SIoU損失函數(shù)進(jìn)行YOLO v7模型訓(xùn)練,檢測精度更高。
3.5" 檢測熱力圖分析
深度學(xué)習(xí)熱力圖可視化是一種直觀展示模型學(xué)習(xí)過程和結(jié)果的方法。通過使用熱力圖,可以更好地理解模型的內(nèi)部工作原理和模型對輸入數(shù)據(jù)的敏感程度,理解模型的關(guān)注區(qū)域。本研究利用Grad-CAM產(chǎn)生目標(biāo)檢測熱力圖[25]。由圖8可知,通過香梨圖像檢測熱力圖,可以看出改進(jìn)的 YOLO v7模型的目標(biāo)檢測熱力圖更貼近真實(shí)梨果區(qū)域。通過圖8-b、圖8-d、圖8-e、圖8-f圓形圈出的區(qū)域可以看出,原YOLO v7目標(biāo)檢測熱力值相對改進(jìn)的YOLO v7模型的目標(biāo)檢測熱力值更低,表現(xiàn)出漏檢現(xiàn)象。通過目標(biāo)檢測熱力圖可以看出,改進(jìn)的YOLO v7模型可以從弱語義的目標(biāo)中提取更強(qiáng)的目標(biāo)特征,有著較好的魯棒性和泛化能力[26]。
4" 結(jié)論
基于YOLO v7構(gòu)建了改進(jìn)的輕量化YOLO v7香梨目標(biāo)檢測模型, 實(shí)現(xiàn)了對自然環(huán)境下香梨的快
速準(zhǔn)確檢測。
該模型采用MobileNet v3骨干網(wǎng)絡(luò)替換YOLO v7原模型中的骨干網(wǎng)絡(luò),并在特征融合層引入 CA注意力機(jī)制,使用SIoU損失函數(shù)替換YOLO v7中使用的CIoU 損失函數(shù),從而提高梨果的目標(biāo)檢測精度。改進(jìn)的輕量化YOLO v7模型的平均精度均值(mAP)、精確率、召回率指標(biāo)分別為96.33%、94.36%、89.28%。檢測速度為87.71 幀/s,模型內(nèi)存占用量與原YOLO v7相比減少了21.45 MB。
為了驗(yàn)證改進(jìn)的輕量化YOLO v7模型的性能,本研究選用YOLO v7、YOLO v7+CA、MobileNet v3-YOLO v7和改進(jìn)的YOLO v7等4組網(wǎng)絡(luò)模型進(jìn)行消融試驗(yàn)。試驗(yàn)結(jié)果表明,改進(jìn)后的YOLO v7模型在檢測精度和檢測速度方面均優(yōu)于其他3 組模型。
通過與 Faster R-CNN、YOLO v3、MobileNet v3-YOLO v4、YOLO v5s 以及原YOLO v7模型進(jìn)行對比發(fā)現(xiàn),改進(jìn)后的YOLO v7模型在香梨驗(yàn)證集上取得了最優(yōu)的目標(biāo)檢測效果,其平均精度均值(mAP)分別提高28.37、9.66、13.14、4.58、3.20百分點(diǎn)。
參考文獻(xiàn):
[1]邵園園,王永賢,玄冠濤,等. 基于高光譜成像的肥城桃品質(zhì)可視化分析與成熟度檢測[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào),2020,51(8):344-350.
[2]宋懷波,尚鈺瑩,何東健. 果實(shí)目標(biāo)深度學(xué)習(xí)識別技術(shù)研究進(jìn)展[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào),2023,54(1):1-19.
[3]林景棟,吳欣怡,柴" 毅,等. 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化綜述 [J]. 自動化學(xué)報(bào),2020,46(1):24-37.
[4]He K M,Zhang X Y,Ren S Q,et al. Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition.Las Vegas:IEEE,2016:770-778.
[5]傅隆生,馮亞利,Tola E,et al. 基于卷積神經(jīng)網(wǎng)絡(luò)的田間多簇獼猴桃圖像識別方法[J]. 農(nóng)業(yè)工程學(xué)報(bào),2018,34(2):205-211.
[6]崔" 瀟,馬原東,倪照風(fēng),等. 基于深度學(xué)習(xí)的桃子檢測研究[J]. 貴州科學(xué),2019,37(2):82-86.
[7]He K M,Zhang X Y,Ren S Q,et al. Spatial pyramid pooling in deep convolutional networks for visual recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2015,37(9):1904-1916.
[8]Ren S Q,He K M,Girshick R,et al. Faster R-CNN:towards real-time object detection with region proposal networks[EB/OL]. (2015-06-04)[2023-11-20]. https://arxiv.org/abs/1506.01497v3.
[9]Redmon J,F(xiàn)arhadi A. YOLO v3:an incremental improvement[EB/OL]. (2018-04-08)[2023-11-20]. https://arxiv.org/abs/1804.02767v1.
[10]Tian Y N,Yang G D,Wang Z,et al. Apple detection during different growth stages in orchards using the improved YOLO v3 model[J]. Computers and Electronics in Agriculture,2019,157:417-426.
[11]王立舒,秦銘霞,雷潔雅,等. 基于改進(jìn)YOLO v4-Tiny的藍(lán)莓成熟度識別方法[J]. 農(nóng)業(yè)工程學(xué)報(bào),2021,37(18):170-178.
[12]周桂紅,馬" 帥,梁芳芳. 基于改進(jìn)YOLO v4模型的全景圖像蘋果識別[J]. 農(nóng)業(yè)工程學(xué)報(bào),2022,38(21):159-168.
[13]Lyu S L,Li R Y,Zhao Y W,et al. Green Citrus detection and counting in orchards based on YOLO v5-CS and AI edge system[J]. Sensors,2022,22(2):576.
[14]Singh B,Najibi M,Davis S. Efficient multi-scale training[EB/OL]. [2023-11-20]. https://arxiv.org/abs/1805.09300.
[15]Redmon J,Divvala S,Girshick R,et al. You only look once:unified,real-time object detection[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas,NV,USA:IEEE,2016:779-788.
[16]Redmon J,F(xiàn)arhadi A. YOLO 9000:better,faster,stronger[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu,HI:IEEE,2017:7263-7271.
[17]Jiang B R,Luo R X,Mao J Y,et al. Acquisition of localization confidence for accurate object detection[M]//Lecture Notes in Computer Science.Cham:Springer International Publishing,2018:816-832.
[18]彭心睿,潘" 晴,田妮莉. WCF-MobileNet v3:輕量型新冠肺炎 CXR 圖像識別網(wǎng)絡(luò)[J]. 計(jì)算機(jī)工程與應(yīng)用,2023,59(14):224-231.
[19]劉" 雪,沈長盈,呂學(xué)澤,等. 基于改進(jìn)MobileNet v3-Large的雞蛋新鮮度識別模型[J]. 農(nóng)業(yè)工程學(xué)報(bào),2022,38(17):196-204.
[20]林" 森,劉美怡,陶志勇. 采用注意力機(jī)制與改進(jìn)YOLO v5的水下珍品檢測[J]. 農(nóng)業(yè)工程學(xué)報(bào),2021,37(18):307-314.
[21]He J,Sarah E,Ma X,etal. Alpha-IoU:a family of power intersection over union losses" for boundingbox regression[C]//Proceedings of the Conference and Workshop on Neural Information Processing Systems.Long Beach,2021:1-10.
[22]Zheng Z H,Wang P,Liu W,et al. Distance-IoU loss:faster and better learning for bounding box regression[J]. Proceedings of the AAAI Conference on Artificial Intelligence,2020,34(7):12993-13000.
[23]Gevorgyan Z. SIoU loss:more powerful learning for bounding box regression[EB/OL]. (2022-05-25)[2023-11-20]. https://arxiv.org/abs/2205.12740.
[24]周紹發(fā),肖小玲,劉忠意,等. 改進(jìn)的基于YOLO v5s蘋果樹葉病害檢測[J]. 江蘇農(nóng)業(yè)科學(xué),2023,51(13):212-220.
[25]Danell J,Khan F. Adaptive color attributes" for" real-time visual tracking[C]//2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus,OH,USA:IEEE,2014:1090-1097.
[26]龍" 燕,楊智優(yōu),何夢菲. 基于改進(jìn) YOLO v7 的疏果期蘋果目標(biāo)檢測方法 [J]. 農(nóng)業(yè)工程學(xué)報(bào)2023,39(14):191-199.