周桂紅,馬 帥,梁芳芳
基于改進(jìn)YOLOv4模型的全景圖像蘋果識(shí)別
周桂紅,馬 帥,梁芳芳
(1. 河北農(nóng)業(yè)大學(xué)信息科學(xué)與技術(shù)學(xué)院,保定 071001;2. 河北省農(nóng)業(yè)大數(shù)據(jù)重點(diǎn)實(shí)驗(yàn)室,保定 071001)
蘋果果園由于密植栽培模式,果樹之間相互遮擋,導(dǎo)致蘋果果實(shí)識(shí)別效果差,并且普通的圖像采集方式存在圖像中果實(shí)重復(fù)采集的問題,使得果實(shí)計(jì)數(shù)不準(zhǔn)確。針對(duì)此類問題,該研究采用全景拍攝的方式采集蘋果果樹圖像,并提出了一種基于改進(jìn)YOLOv4和基于閾值的邊界框匹配合并算法的全景圖像蘋果識(shí)別方法。首先在YOLOv4主干特征提取網(wǎng)絡(luò)的Resblock模塊中加入scSE注意力機(jī)制,將PANet模塊中的部分卷積替換為深度可分離卷積,且增加深度可分離卷積的輸出通道數(shù),以增強(qiáng)特征提取能力,降低模型參數(shù)量與計(jì)算量。將全景圖像分割為子圖像,采用改進(jìn)的YOLOv4模型進(jìn)行識(shí)別,通過對(duì)比Faster R-CNN、CenterNet、YOLOv4系列算法和YOLOv5系列算法等不同網(wǎng)絡(luò)模型對(duì)全景圖像的蘋果識(shí)別效果,改進(jìn)后的YOLOv4網(wǎng)絡(luò)模型精確率達(dá)到96.19%,召回率達(dá)到了95.47%,平均精度達(dá)到97.27%,比原YOLOv4模型分別提高了1.07、2.59、2.02個(gè)百分點(diǎn)。采用基于閾值的邊界框匹配合并算法,將識(shí)別后子圖像的邊界框進(jìn)行匹配與合并,實(shí)現(xiàn)全景圖像的識(shí)別,合并后的結(jié)果其精確率達(dá)到96.17%,召回率達(dá)到95.63%,F(xiàn)1分?jǐn)?shù)達(dá)到0.96,平均精度達(dá)到95.06%,高于直接對(duì)全景圖像蘋果進(jìn)行識(shí)別的各評(píng)價(jià)指標(biāo)。該方法對(duì)自然條件下全景圖像的蘋果識(shí)別具有較好的識(shí)別效果。
圖像識(shí)別;YOLOv4;蘋果;scSE;深度可分離卷積;邊界框匹配合并
蘋果作為中國(guó)主要的消費(fèi)級(jí)水果,有著悠久的栽培歷史。蘋果的生產(chǎn)需要大量的人工作業(yè),而隨著城市化的發(fā)展,人工成本提高、作業(yè)效率低等問題為蘋果產(chǎn)業(yè)的發(fā)展帶來一定程度的影響[1]。隨著智慧農(nóng)業(yè)的提出,果園普遍采用現(xiàn)代化標(biāo)準(zhǔn)種植模式,以信息化、自動(dòng)化的技術(shù)對(duì)果園產(chǎn)業(yè)進(jìn)行升級(jí)的趨勢(shì)日益明顯[2-3]。對(duì)果樹果實(shí)的識(shí)別及計(jì)數(shù)成為實(shí)現(xiàn)智慧果園的關(guān)鍵性技術(shù)之一,精準(zhǔn)的識(shí)別可為自動(dòng)采摘提供技術(shù)基礎(chǔ),準(zhǔn)確的計(jì)數(shù)可為產(chǎn)量預(yù)測(cè)、果園管理決策、倉(cāng)庫(kù)分配以及營(yíng)銷策略提供資助。
目前,國(guó)內(nèi)外研究人員針對(duì)果樹果實(shí)的識(shí)別進(jìn)行了大量的研究,主要包括傳統(tǒng)圖像處理方法和基于卷積神經(jīng)網(wǎng)絡(luò)的方法等。傳統(tǒng)圖像處理方法主要通過果實(shí)的顏色、紋理和輪廓等特征信息對(duì)果實(shí)進(jìn)行形態(tài)學(xué)處理從而達(dá)到對(duì)果實(shí)識(shí)別的效果[4-5],但對(duì)于復(fù)雜環(huán)境圖像的識(shí)別準(zhǔn)確率較低。廖崴等[6]使用Otsu閾值分割法對(duì)蘋果圖像RGB顏色空間的像素值進(jìn)行分割,得到僅包含果實(shí)和葉片的圖像,通過隨機(jī)森林算法建立蘋果葉片模型,并利用霍夫變換檢測(cè)蘋果果實(shí)的輪廓,達(dá)到對(duì)蘋果識(shí)別的效果,其平均識(shí)別準(zhǔn)確率只有88%。卷積神經(jīng)網(wǎng)絡(luò)由于其較高的識(shí)別準(zhǔn)確率被廣泛地使用,以R-CNN算法衍生出的Mask R-CNN和Faster R-CNN等網(wǎng)絡(luò)模型,其識(shí)別過程分為定位和分類兩個(gè)階段,故稱為兩階段目標(biāo)檢測(cè)算法[7-8]。其中,將Faster R-CNN網(wǎng)絡(luò)應(yīng)用于果樹果實(shí)識(shí)別場(chǎng)景中的研究較多,對(duì)果實(shí)的檢測(cè)和識(shí)別效果較好[9-10]。閆建偉等[11]通過對(duì)Faster R-CNN網(wǎng)絡(luò)模型進(jìn)行改進(jìn),將其中ROI Pooling模塊替換為ROI Align模塊,對(duì)自然環(huán)境下不同形態(tài)的刺梨果實(shí)進(jìn)行識(shí)別,F(xiàn)1分?jǐn)?shù)最高達(dá)94.99%。Gao等[12]采用Faster R-CNN網(wǎng)絡(luò)模型對(duì)比不同主干特征提取網(wǎng)絡(luò)對(duì)蘋果果實(shí)識(shí)別的影響,使用VGG-16作為主干特征提取網(wǎng)絡(luò)的效果最好,mAP達(dá)到87.9%。而以YOLO系列算法為代表的單階段目標(biāo)檢測(cè)算法,以其較快的檢測(cè)速度和簡(jiǎn)單的算法流程也得到了越來越多的應(yīng)用,其主要以YOLOv3[13]、YOLOv4[14]等算法在果實(shí)識(shí)別領(lǐng)域表現(xiàn)優(yōu)異,在果實(shí)識(shí)別的場(chǎng)景中的也取得了較好的識(shí)別效果[15-19]。趙輝等[20]采用改進(jìn)YOLOv3網(wǎng)絡(luò)模型對(duì)不同場(chǎng)景下和不同成熟度的蘋果果實(shí)圖像進(jìn)行識(shí)別,其F1分?jǐn)?shù)為91.8%。Ji等[21]采用EfficientNet-B0作為YOLOv4的主干特征提取網(wǎng)絡(luò),對(duì)夜間環(huán)境下的蘋果果實(shí)進(jìn)行識(shí)別,其F1分?jǐn)?shù)達(dá)到90.35%,達(dá)到較好的識(shí)別效果。
目前,果樹果實(shí)識(shí)別通常以局部場(chǎng)景和簡(jiǎn)單場(chǎng)景的圖像識(shí)別為主,而對(duì)于國(guó)內(nèi)大部分果園,局部場(chǎng)景識(shí)別和簡(jiǎn)單場(chǎng)景的識(shí)別不能滿足精準(zhǔn)園藝的需求。本文旨在通過全景拍攝的方式,對(duì)自然環(huán)境下果園中連續(xù)多棵果樹的兩側(cè)全貌進(jìn)行圖像采集,并基于“分割—合并”的思想,以YOLOv4網(wǎng)絡(luò)模型算法對(duì)分割圖像進(jìn)行識(shí)別,并以一種基于閾值的邊界框匹配合并算法將識(shí)別后的結(jié)果進(jìn)行合并,提高對(duì)分辨率較大的圖像的識(shí)別精確率及召回率,達(dá)到對(duì)果實(shí)識(shí)別及計(jì)數(shù)的效果。
試驗(yàn)采用的蘋果果實(shí)圖像采集于河北省保定市順平縣,品種為富士,處于盛果期,果實(shí)顏色以紅色為主。果園以株距1.5 m、行距4 m的栽培模式。這種栽培模式對(duì)采集單棵果樹的圖像帶來了很大的困難,因此,本文以全景拍攝的方式對(duì)種植在一行的連續(xù)多棵果樹進(jìn)行拍攝,通過相機(jī)內(nèi)置的全景拍攝方式采集連續(xù)多棵果樹的單側(cè)全貌,全景拍攝方式如圖1所示。拍攝時(shí)天氣晴朗,以人工手持拍攝設(shè)備的方式進(jìn)行拍攝,相機(jī)距地面1.7 m,并在采集時(shí)使用穩(wěn)定設(shè)備(DJI OM 4 SE)保證全景圖像的拍攝質(zhì)量,以順光方向距果樹間隔約2 m進(jìn)行平行拍攝,使圖像能包含每棵樹的單側(cè)全貌。
圖1 蘋果果樹全景圖像采集示意圖
試驗(yàn)采集了包含71棵蘋果果樹的圖像,若采用對(duì)單棵果樹的東西兩側(cè)分別采集圖像的方法,則需采集142幅圖像,且圖像中重復(fù)信息過多。采用對(duì)蘋果果樹兩側(cè)分別拍攝全景圖像,能夠減少圖像中重復(fù)的信息,最終得到蘋果全景圖像共29幅。全景蘋果圖像的原始格式為JPG,圖像分辨率不固定。采集的果樹圖像樣本示例如圖2所示。
圖2 蘋果果樹全景圖像示例
本文對(duì)采集到的29幅蘋果全景圖像通過OpenCV庫(kù)函數(shù)進(jìn)行預(yù)處理操作。首先采取水平鏡像的方式進(jìn)行數(shù)據(jù)增強(qiáng),得到增強(qiáng)前后的圖像共58幅。由于每排果樹的數(shù)量不定,故采集的全景圖像分辨率并不固定,主要體現(xiàn)在圖像寬度的不同,而圖像識(shí)別網(wǎng)絡(luò)需要固定分辨率的輸入圖像,對(duì)不符合輸入分辨率的圖像需要進(jìn)行縮放操作,但縮放操作會(huì)導(dǎo)致圖像失真,對(duì)圖像中較難識(shí)別的目標(biāo)產(chǎn)生影響,從而降低識(shí)別效果。因此需保證圖像不失真的前提下,將圖像處理為相同的分辨率。YOLOv4神經(jīng)網(wǎng)絡(luò)模型以608×608像素的分辨率作為圖像的輸入,因此將58幅圖像進(jìn)行逐行逐列分割,將一副不定分辨率的全景圖像(全景圖像的分辨率均大于608×608像素),按次序分割為若干幅608×608像素的子圖像。若全景圖像的寬或高不是608的整倍數(shù),會(huì)導(dǎo)致圖像分割后仍有部分圖像不能分割為608×608像素的圖像,故在全景圖像的右側(cè)和下側(cè)添充純色像素條,使全景圖像的寬和高均為608的整倍數(shù)。本文添加的像素條顏色為RGB(0,0,0),即黑色的填充。
分割后的圖像按先行后列的方式進(jìn)行排序,并將序號(hào)標(biāo)注在子圖像的文件名中,用以標(biāo)識(shí)為同一幅圖像的子圖像,例如全景圖像“pic1.jpg”有30幅子圖像,則子圖像的名稱為“pic1_1.jpg”~“pic1_30.jpg”
本試驗(yàn)將預(yù)處理后的圖像進(jìn)行整理,最終得到608×608像素的圖像共4 698幅。使用labelImg對(duì)蘋果果樹全景圖像及其分割后的子圖像制作標(biāo)簽,并且保證子圖像中標(biāo)出的目標(biāo)與原全景圖像中所標(biāo)出的目標(biāo)相同,僅由于分割而在多張子圖像中將同一目標(biāo)重復(fù)標(biāo)記。全景圖像子圖像與其所屬的全景圖像有關(guān)聯(lián),因此,在試驗(yàn)過程中按照子圖像所屬全景圖像以9∶1的比例隨機(jī)劃分為訓(xùn)練驗(yàn)證集和測(cè)試集,最終得到訓(xùn)練驗(yàn)證集圖像4 080幅,測(cè)試集圖像618幅。將訓(xùn)練驗(yàn)證集的4 080幅圖像,以9∶1的比例隨機(jī)劃分為訓(xùn)練集和驗(yàn)證集。
本文所采集的蘋果全景圖像分辨率較大,而通過神經(jīng)網(wǎng)絡(luò)直接對(duì)分辨率較大的圖像進(jìn)行訓(xùn)練,通常會(huì)對(duì)分辨率進(jìn)行壓縮,這將導(dǎo)致圖像的失真和圖像中目標(biāo)信息的丟失,進(jìn)而導(dǎo)致目標(biāo)檢測(cè)召回率較低、識(shí)別效果較差的問題。因此,本文設(shè)計(jì)了“分割—合并”的方法,即將蘋果全景圖像分割為子圖像,采用神經(jīng)網(wǎng)絡(luò)模型先對(duì)子圖像進(jìn)行識(shí)別,然后將識(shí)別結(jié)果進(jìn)行合并,實(shí)現(xiàn)對(duì)全景圖像蘋果的識(shí)別。
神經(jīng)網(wǎng)絡(luò)模型能夠?qū)θ皥D像分割后的子圖像進(jìn)行有效的識(shí)別,但由于全景圖像中的某一個(gè)目標(biāo),在圖像分割時(shí)可能被分在多幅子圖像中,導(dǎo)致該目標(biāo)被重復(fù)識(shí)別,如圖3所示。圖3a展示的是最嚴(yán)重的一種情況,單個(gè)目標(biāo)被分到4幅子圖像中,目標(biāo)分散在每幅子圖像中的部分均被識(shí)別,導(dǎo)致單個(gè)目標(biāo)被識(shí)別了4次,無法正確表達(dá)全景圖像的識(shí)別結(jié)果,需要設(shè)計(jì)一種方法,將該目標(biāo)識(shí)別為一個(gè)完整的目標(biāo),如圖3b所示。因此本文提出了一種基于閾值的邊界框匹配合并算法,對(duì)子圖像識(shí)別結(jié)果合并時(shí)產(chǎn)生的錯(cuò)誤結(jié)果進(jìn)行修正。
圖3 單一目標(biāo)重復(fù)識(shí)別與正確識(shí)別示意圖
本文采用YOLOv4模型作為子圖像中蘋果識(shí)別的基礎(chǔ)模型。YOLOv4由主干特征提取網(wǎng)絡(luò)CSPDarknet-53[22]、空間池化金字塔模塊(Spatial Pyramid Pooling, SPP)[23]和路徑聚合網(wǎng)絡(luò)(Path Aggregation Network, PANet)三大部分構(gòu)成。首先通過CSPDarknet-53對(duì)輸入圖像提取特征,之后將其最后一層的輸出進(jìn)入SPP模塊,最后將其輸出與CSPDarknet-53的第5層和第6層的輸出進(jìn)入PANet模塊進(jìn)行特征的反復(fù)提取和融合。
YOLOv4網(wǎng)絡(luò)模型的網(wǎng)絡(luò)結(jié)構(gòu)較為復(fù)雜,參數(shù)量較大,且對(duì)小目標(biāo)的識(shí)別效果較差,而本文數(shù)據(jù)集中小目標(biāo)的數(shù)量占比較大。因此,為了進(jìn)一步提高模型的檢測(cè)能力,減少模型的參數(shù)量,本文引入scSE(Spatial and Channel ‘Squeeze & Excitation’)注意力機(jī)制[24]和深度可分離卷積[25]對(duì)YOLOv4模型進(jìn)行改進(jìn),改進(jìn)后的YOLOv4模型如圖4所示,其中“scSE Resblock×”為嵌入scSE注意力機(jī)制的Resblock模塊,代表“Res”殘差模塊的重復(fù)次數(shù),“Three Conv”、“Five Conv”、和“YOLO Head”模塊中分別嵌入了深度可分離卷積模塊。
注:k為池化核尺寸,n為“Res”殘差模塊的重復(fù)次數(shù)。
2.2.1 嵌入scSE注意力機(jī)制的Resblock模塊
scSE注意力機(jī)制是對(duì)壓縮和激發(fā)網(wǎng)絡(luò)(Squeeze and Excitation Networks, SENet)的一種改進(jìn),常用于語(yǔ)義分割模型,通過scSE注意力機(jī)制能夠?qū)π∧繕?biāo)進(jìn)行更加準(zhǔn)確的識(shí)別。其主要分為并聯(lián)的兩部分,對(duì)輸入特征圖進(jìn)行sSE模塊和cSE模塊,即對(duì)輸入特征圖分別進(jìn)行空間注意力的施加和通道注意力的施加。
為了使注意力機(jī)制能夠有效地對(duì)特征層中重要特征進(jìn)行關(guān)注,提高特征層的表征能力,本文對(duì)主干特征提取網(wǎng)絡(luò)CSPDarknet-53中第2、3、4、5個(gè)Resblock模塊引入注意力機(jī)制,將其中每個(gè)殘差結(jié)構(gòu)之后和特征圖連接操作之后分別施加scSE注意力機(jī)制,引入scSE注意力機(jī)制的Resblock模塊結(jié)構(gòu)如圖5所示。
圖5 嵌入scSE模塊的Resblock模塊結(jié)構(gòu)
2.2.2 深度可分離卷積模塊
深度可分離卷積將普通卷積操作分解為2個(gè)階段,首先對(duì)輸入特征圖進(jìn)行逐通道卷積,即采用一個(gè)通道數(shù)與輸入通道數(shù)相同的卷積核進(jìn)行卷積操作;之后進(jìn)行逐點(diǎn)卷積操作。深度可分離卷積能夠減少卷積操作的計(jì)算量和參數(shù)量,通過增加深度可分離卷積的輸出通道數(shù)能夠提高特征提取的效果。
為了減少YOLOv4模型的參數(shù)量,本文將YOLOv4模型中3次卷積模塊、5次卷積模塊以及YOLO輸出模塊中的部分卷積模塊替換為深度可分離卷積模塊,并且為了提高深度可分離卷積對(duì)特征提取的能力,將深度可分離卷積的輸出通道數(shù)改為原普通卷積輸出通道數(shù)的2倍。嵌入深度可分離卷積的3次卷積模塊、5次卷積模塊以及YOLO輸出模塊結(jié)構(gòu)如圖6所示。
圖6 部分嵌入深度可分離卷積的模塊結(jié)構(gòu)
如表1所示,引入scSE注意力機(jī)制和深度可分離卷積的YOLOv4模型,其參數(shù)量由原來的63 937 686降低為44 797 126,模型大小由243.90 MB降低為170.89 MB,比原YOLOv4模型降低了30%,有效減小了模型尺寸。
表1 網(wǎng)絡(luò)模型參數(shù)量對(duì)比
本研究采用邊界框匹配合并算法,將子圖像的蘋果識(shí)別結(jié)果進(jìn)行合并,對(duì)由于被分割在多幅子圖像中的蘋果目標(biāo)進(jìn)行合并,以得到更加準(zhǔn)確的全景蘋果圖像識(shí)別結(jié)果。
邊界框匹配合并算法首先將所有子圖識(shí)別結(jié)果的邊界框重新計(jì)算,以子圖所對(duì)應(yīng)全景圖像的左上角為原點(diǎn),以橫向?yàn)檩S、縱向?yàn)檩S,重新計(jì)算它的4個(gè)參數(shù)來描述其坐標(biāo),即min、min、max和min共4個(gè)值,表示邊界框的最小值、最小值、最大值以及最大值。以圖像左上角為原點(diǎn),橫向?yàn)檩S,縱向?yàn)檩S,則縱向分割線為于點(diǎn)1,2, …,x做垂直于軸的垂線,橫向分割線為于點(diǎn)1,2, …, y做垂直于軸的垂線,其中1,2, …,x與1,2, …, y為每個(gè)子圖的分辨率(本試驗(yàn)中為608)的整倍數(shù)。
為了更好地判斷兩邊界框是否能夠合并,本文采用3個(gè)閾值D1、D2和D3對(duì)兩邊界框之間的距離進(jìn)行判定,并按照如下步驟進(jìn)行邊界框匹配與合并。
1)將邊界框加入匹配集合。首先以縱向分割線為基準(zhǔn)進(jìn)行匹配,查找與第一條縱向分割線=1相鄰的第一個(gè)邊界框,即判斷該邊界框的min和max是否與1的距離小于閾值D1,若小于D1則加入待匹配集合(Match set)。
2)判斷兩邊界框是否可匹配。每有一個(gè)新的邊界框bbox_new加入Match set中時(shí),判斷該邊界框與Match set中的邊界框bbox_ms是否有匹配,即分別判斷bbox_new的min與bbox_ms的max的距離是否小于閾值D2,或者判斷bbox_new的max與bbox_ms的min的距離是否小于閾值D2,若滿足該條件,則進(jìn)行步驟3),若匹配失敗或不滿進(jìn)入步驟3)的條件,則重復(fù)步驟2),直至Match set中的邊界框均不能匹配,則將其加入Match set。重復(fù)步驟1直至無可加入的邊界框。
3)匹配兩邊界框合并為新的邊界框。將步驟2)中的2個(gè)可能匹配的邊界框再次進(jìn)行判斷,即分別判斷兩邊界框的min的距離和max的距離是否均小于閾值D3,若均小于D3則匹配成功,將兩邊界框移出Match set,并取兩邊界框的min最小值、min最小值、max最大值、max最大值形成新的min、min、max、max;若不小于閾值D3,則匹配失敗,將bbox_ms放回Match set并將bbox_new重復(fù)步驟2)中的匹配。
4)重復(fù)步驟1)~3),直至所有縱向分割線相關(guān)的邊界框均匹配完成。之后使用相同算法和閾值D1、D2、D3,判斷橫向分割線,直至橫向分割線相關(guān)的邊界框均匹配合并完成。
將關(guān)于縱向分割線匹配后的結(jié)果作為對(duì)橫向分割線匹配的輸入bbox,則關(guān)于橫向分割線進(jìn)行匹配的算法的步驟與上述步驟相同,只需將其中“min”和“min”相互替換、“max”和“max”相互替換,得到關(guān)于橫向分割線匹配合并的結(jié)果,完成邊界框匹配合并算法。
通過上述算法,能夠?qū)Ρ硎就粋€(gè)目標(biāo)的邊界框進(jìn)行合并,從而得到正確的識(shí)別結(jié)果,閾值D1、D2和D3的取值對(duì)最終的邊界框合并效果有著較大的影響,因此本文將通過試驗(yàn)來確定閾值D1、D2和D3的值,通過不同閾值D1、D2和D3的取值,判斷其對(duì)邊界框合并結(jié)果的影響,確定最優(yōu)的閾值D1、D2和D3,并采用基于最優(yōu)閾值D1、D2和D3的邊界框匹配合并算法對(duì)全景蘋果子圖像的識(shí)別結(jié)果進(jìn)行合并,得到全景圖像蘋果的識(shí)別結(jié)果,并與直接對(duì)全景圖像蘋果識(shí)別的結(jié)果進(jìn)行對(duì)比,驗(yàn)證基于該算法對(duì)全景圖像分割子圖像識(shí)別結(jié)果合并的效果。
2.4.1 試驗(yàn)平臺(tái)
本文試驗(yàn)的硬件為 Ubuntu 18.04操作系統(tǒng),硬件采用 Intel(R) Xeon(R) Gold 5220 @ 2.20 GHz處理器,GPU為 NVIDIA Quadro RTX 5000 16 GB。本文所使用的軟件環(huán)境為 Python 3.8,采用 Pytorch 1.7.1 框架,CUDA 版本為10.0。
2.4.2 訓(xùn)練參數(shù)
本文模型訓(xùn)練初始學(xué)習(xí)率設(shè)置為0.001,采用遷移學(xué)習(xí)的方法,使用COCO數(shù)據(jù)集預(yù)訓(xùn)練權(quán)重作為模型訓(xùn)練的初始權(quán)重。模型訓(xùn)練迭代次數(shù)共500次,其中前80次采用凍結(jié)主干特征提取網(wǎng)絡(luò)權(quán)重測(cè)策略進(jìn)行訓(xùn)練,對(duì)之后的訓(xùn)練采用全部權(quán)重進(jìn)行訓(xùn)練。
對(duì)于模型訓(xùn)練需要的9組先驗(yàn)框,本文采用K-means++聚類算法對(duì)數(shù)據(jù)集中的邊界框的寬和高進(jìn)行聚類,得到9個(gè)聚類中心,將聚類中心作為9組不同先驗(yàn)框的尺寸。
本文通過計(jì)算預(yù)測(cè)框與真實(shí)框的CIoU損失、置信度損失和預(yù)測(cè)框的類別損失,對(duì)網(wǎng)絡(luò)模型的訓(xùn)練效果進(jìn)行對(duì)比分析。其中置信度損失為計(jì)算預(yù)測(cè)結(jié)果置信度與1的對(duì)比,預(yù)測(cè)框類別損失為預(yù)測(cè)結(jié)果類別與真實(shí)類別的差距。
2.4.3 評(píng)價(jià)指標(biāo)
對(duì)于神經(jīng)網(wǎng)絡(luò)模型,通常采用以下4個(gè)指標(biāo)進(jìn)行評(píng)估:精確率(Precision,)、召回率(Recall,)、1分?jǐn)?shù)(1score,1)以及平均精度(Average Precision,AP)。對(duì)于模型的檢測(cè)結(jié)果,有4種不同的情況,即正確預(yù)測(cè)正樣本(True Positive, TP)、正確預(yù)測(cè)負(fù)樣本(True Negative, TN)、錯(cuò)誤預(yù)測(cè)負(fù)樣本(False Positive, FP)以及錯(cuò)誤預(yù)測(cè)正樣本(False Negative, FN),通過4種情況的數(shù)量用來計(jì)算精確率、召回率,從而得到其他的平價(jià)指標(biāo)。精確率、召回率、1分?jǐn)?shù)和AP值的計(jì)算式如式(1)到式(4)所示。
本文以置信度0.5作為評(píng)估閾值,選取精確率、召回率、1分?jǐn)?shù)以及平均精度等4個(gè)評(píng)價(jià)指標(biāo)對(duì)模型進(jìn)行評(píng)估。
3.1.1 訓(xùn)練損失值與訓(xùn)練過程
采用本文所提出的改進(jìn)YOLOv4模型,對(duì)訓(xùn)練集進(jìn)行訓(xùn)練,并將訓(xùn)練得出的模型對(duì)驗(yàn)證集進(jìn)行檢測(cè),各訓(xùn)練世代的訓(xùn)練集和驗(yàn)證集的Loss曲線與驗(yàn)證集訓(xùn)練過程如圖7所示。
由圖7中的訓(xùn)練過程中可以看出,當(dāng)?shù)螖?shù)達(dá)到300時(shí),驗(yàn)證集loss曲線趨于平緩,對(duì)驗(yàn)證集的各項(xiàng)評(píng)價(jià)指標(biāo)也逐漸穩(wěn)定。最終,驗(yàn)證集損失率在0.04附近波動(dòng),驗(yàn)證集AP值達(dá)到了93%以上,模型收斂。
圖7 改進(jìn)后的YOLOv4模型的訓(xùn)練過程
3.1.2 不同模型的性能評(píng)價(jià)
試驗(yàn)采用相同劃分策略的訓(xùn)練集對(duì)目前使用較為廣泛的目標(biāo)檢測(cè)網(wǎng)絡(luò)模型CenterNet[26]、Faster R-CNN、YOLOv4、YOLOv4-Lite[27]、YOLOv5-l和YOLOv5-x等以及本文所提出的改進(jìn)YOLOv4模型進(jìn)行訓(xùn)練,并分別對(duì)相同的測(cè)試集數(shù)據(jù)進(jìn)行測(cè)試,所得到的結(jié)果如表2所示。
由表2可以看出,F(xiàn)aster R-CNN模型占用空間較大,且精確率只有57.94%,識(shí)別效果較差。CenterNet模型的精確率和召回率較低,分別為93.55%和82.73%,低于YOLOv4與YOLOv5系列算法。YOLOv4-Lite模型所占空間較小,且檢測(cè)速度較快,但召回率只有88.73%。YOLOv5-l和YOLOv5-x模型的精確率較高,分別達(dá)到了95.48%和95.81%,但召回率低于YOLOv4接近4個(gè)百分點(diǎn)。而本文所提出的改進(jìn)YOLOv4模型,其檢測(cè)速度與YOLOv4模型相當(dāng),精確率為96.19%,召回率達(dá)到95.47%,AP值也達(dá)到了97.27%,相較于改進(jìn)前的YOLOv4模型分別提高了1.07、2.59、2.02個(gè)百分點(diǎn),1分?jǐn)?shù)達(dá)到0.96。改進(jìn)前后YOLOv4模型的識(shí)別效果如圖8所示。
由圖8a可以看出,采用改進(jìn)前的YOLOv4模型訓(xùn)練得到的模型對(duì)蘋果果實(shí)的識(shí)別存在漏識(shí)別的現(xiàn)象,主要體現(xiàn)于對(duì)于陰天、晴天等條件拍攝到的蘋果圖像中,遮擋較嚴(yán)重或者因?yàn)檫^曝導(dǎo)致的果實(shí)顏色出現(xiàn)偏差的果實(shí)目標(biāo),漏識(shí)別現(xiàn)象較為嚴(yán)重。通過本文改進(jìn)后的YOLOv4模型對(duì)相同圖像進(jìn)行檢測(cè),能夠?qū)ι鲜雎┳R(shí)別的果實(shí)進(jìn)行有效的檢測(cè)。
表2 不同模型對(duì)子圖像識(shí)別結(jié)果對(duì)比
注:圖中矩形框?yàn)樽R(shí)別結(jié)果邊界框。下同。
3.2.1 邊界框匹配算法中閾值的選定
采用本文所提出的基于閾值的邊界框匹配合并算法,對(duì)本文改進(jìn)YOLOv4模型的全景子圖像的識(shí)別結(jié)果合并為原全景圖像的識(shí)別結(jié)果,并與人工標(biāo)注的全景圖像數(shù)據(jù)集進(jìn)行對(duì)比。通過對(duì)邊界框匹配合并算法中閾值D1、D2和D3的值進(jìn)行采樣,以計(jì)算對(duì)全景圖像識(shí)別的精確率、召回率、AP值和F1分?jǐn)?shù)。邊界框匹配合并算法中閾值D1、D2和D3的取值,對(duì)合并全景子圖像的識(shí)別結(jié)果得到的全景圖像識(shí)別結(jié)果的影響如圖9所示,為了使結(jié)果圖更有可視性,本文對(duì)結(jié)果影響相同的閾值D1、D2和D3的值只保留了一種情況進(jìn)行繪制。
圖9 邊界框匹配合并算法中閾值D1、D2和D3對(duì)合并結(jié)果的影響分布
如圖9所示,邊界框匹配合并算法中閾值D1、D2和D3取值對(duì)F1分?jǐn)?shù)、召回率和精確率都有影響。由圖9a可以看出,閾值D1和D2越大,對(duì)圖像識(shí)別的召回率越小,閾值D3越大,對(duì)圖像識(shí)別的精確率越大,而圖9b和圖9c所示閾值D1、D2和D3對(duì)召回率及AP值的影響相似。通過基于不同閾值D1、D2和D3的邊界框匹配合并算法,對(duì)子圖像識(shí)別結(jié)果合并后的全景圖像識(shí)別結(jié)果評(píng)價(jià)指標(biāo)的分析,取精確率、召回率與AP值最高的一組閾值D1、D2和D3作為最優(yōu)的取值,分析得到最優(yōu)的閾值D1、D2和D3分別為3、1和45,故將其作為最終D1、D2和D3的值。
3.2.2 合并前后的對(duì)比
為了驗(yàn)證“分割—合并”的方法對(duì)全景圖像蘋果識(shí)別結(jié)果的效果,本文首先采用不同模型對(duì)蘋果全景圖像直接進(jìn)行訓(xùn)練和識(shí)別,結(jié)果如表3所示。
表3 各模型對(duì)蘋果全景圖像直接檢測(cè)的結(jié)果對(duì)比
由表3可知,直接對(duì)分辨率較大的蘋果全景圖像進(jìn)行識(shí)別,其中CenterNet模型的精確率達(dá)到87%以上,但召回率只有1.39%,表明未能識(shí)別出大部分的果實(shí)目標(biāo);YOLOv4-Lite模型的精確率只有35.33%,召回率不足30%,其識(shí)別效果較差。Faster R-CNN模型的識(shí)別精確率達(dá)到51%以上,而召回率只有16.48%,AP值也只有10.81%。YOLOv5-l及YOLOv5-x的模型精確率均達(dá)到50%以上,召回率均達(dá)到30%以上;YOLOv4模型的精確率達(dá)到64.21%,召回率達(dá)到43.51%,本文所提出的改進(jìn)YOLOv4模型精確率達(dá)到64.94%,召回率達(dá)到52.00%,但仍不能滿足對(duì)蘋果的有效識(shí)別。
通過上述分析可知,將蘋果全景圖像直接識(shí)別,會(huì)因?yàn)閴嚎s分辨率導(dǎo)致圖像的失真,各模型的識(shí)別效果較差,不能應(yīng)用于實(shí)際場(chǎng)景,因此本文采用邊界框匹配合并算法將分割后子圖像的識(shí)別結(jié)果進(jìn)行合并,其中閾值D1、D2和D3的值分別為3、1和45,各模型對(duì)子圖像的識(shí)別結(jié)果合并得到的全景圖像識(shí)別結(jié)果如表4所示。
由表4可知,相較于表2中直接對(duì)全景蘋果圖像直接訓(xùn)練并識(shí)別的結(jié)果,采用邊界框匹配合并算法對(duì)子圖像識(shí)別結(jié)果合并得到全景蘋果圖像的識(shí)別結(jié)果,其精確率、召回率和AP值均有明顯提升,表明該方法能夠有效地對(duì)分辨率較大全景蘋果圖像的果實(shí)進(jìn)行識(shí)別。其中Faster R-CNN由于其對(duì)子1圖像識(shí)別效果較差導(dǎo)致其合并后的結(jié)果仍然較差,而CenterNet和YOLOv5-x對(duì)子圖像識(shí)別結(jié)果合并后得結(jié)果其精確率分別只有84.37%和85.59%,遠(yuǎn)低于YOLOv4、YOLOv4-Lite和YOLOv5-l模型,而通過本文所提出的改進(jìn)YOLOv4模型對(duì)子圖像識(shí)別結(jié)果進(jìn)行合并后,其精確率達(dá)到96.17%,召回率達(dá)到95.63%,AP值達(dá)到95.06%,表明采用本文改進(jìn)后的YOLOv4模型配合邊界框匹配合并算法能夠有效識(shí)別出蘋果全景圖像中的果實(shí)目標(biāo)。采用邊界框匹配合并算法將測(cè)試集中分割后圖像的識(shí)別結(jié)果合并為全景圖像的識(shí)別結(jié)果,平均每幅全景圖像用時(shí)0.28 s。
表4 不同模型對(duì)子圖像識(shí)別結(jié)果合并后全景圖像識(shí)別結(jié)果對(duì)比
合并后的結(jié)果相較于模型直接對(duì)蘋果全景圖像識(shí)別的效果有較大的提升,原因在于子圖像的識(shí)別結(jié)果中,不會(huì)因?yàn)閴嚎s分辨率導(dǎo)致圖像失真,從而不會(huì)導(dǎo)致圖像中小目標(biāo)因分辨率壓縮嚴(yán)重而丟失目標(biāo),因此,該方法對(duì)圖像各個(gè)目標(biāo)的識(shí)別結(jié)果是較為準(zhǔn)確的,此時(shí)通過邊界框匹配合并算法將識(shí)別結(jié)果進(jìn)行整理,保留了完整的果實(shí)識(shí)別結(jié)果,從而達(dá)到較好的識(shí)別效果。采用邊界框匹配合并算法前后的合并效果示例如圖10所示。
圖10 合并前后效果對(duì)比
圖10a所示的合并前的圖像中,每個(gè)目標(biāo)均被分割線分割為2個(gè)目標(biāo),導(dǎo)致同一個(gè)目標(biāo)在分割線兩側(cè)出現(xiàn)了2個(gè)邊界框,表明該目標(biāo)被重復(fù)識(shí)別。圖10b所示的圖像為經(jīng)過邊界框匹配合并算法處理后,目標(biāo)被正確地識(shí)別為同一個(gè)目標(biāo),使合并后的目標(biāo)邊界框完整地包含了目標(biāo)。蘋果全景圖像的識(shí)別效果如圖11所示。
由圖11a所示的直接對(duì)全景蘋果圖像訓(xùn)練和識(shí)別的效果,可以看出大部分的蘋果果實(shí)目標(biāo)未被識(shí)別出,而圖11b所示的采用“分割-合并”的方法對(duì)全景圖像進(jìn)行識(shí)別,能夠識(shí)別出圖像中的大部分蘋果目標(biāo),但仍有小部分果實(shí)未被準(zhǔn)確識(shí)別,如小圖中方框所示,原因在于部分果實(shí)由于葉片遮擋嚴(yán)重或收光線陰影影響較大而較難識(shí)別,但大部分蘋果目標(biāo)被準(zhǔn)確地識(shí)別出來,表明本文方法能夠?qū)μO果圖像進(jìn)行有效的識(shí)別。
注:圖中小圖為果實(shí)漏識(shí)別情況示例。
綜合模型對(duì)全景圖像直接識(shí)別的結(jié)果,以及對(duì)子圖像識(shí)別結(jié)果進(jìn)行合并的效果,表明采用本文所提出的改進(jìn)YOLOv4模型對(duì)蘋果全景子圖像識(shí)別,并應(yīng)用基于閾值的邊界框匹配合并算法將識(shí)別結(jié)果合并,對(duì)全景蘋果圖像的識(shí)別效果較好。
1)本文引入scSE注意力機(jī)制和深度可分離卷積,對(duì)YOLOv4網(wǎng)絡(luò)模型進(jìn)行改進(jìn),對(duì)蘋果全景子圖像進(jìn)行識(shí)別。通過對(duì)不同目標(biāo)檢測(cè)網(wǎng)絡(luò)模型及本文所提出的改進(jìn)YOLOv4模型進(jìn)行測(cè)試,結(jié)果表明本文所提出的模型比其他模型效果要好,精確率、召回率和平均精度分別達(dá)到了96.19%、95.47%和97.27%,1分?jǐn)?shù)為0.96。
2)本文提出了一種基于閾值的邊界框匹配合并算法,將改進(jìn)YOLOv4模型對(duì)全景蘋果圖像子圖像的識(shí)別結(jié)果進(jìn)行合并,合并后蘋果全景圖像識(shí)別結(jié)果的精確率達(dá)到96.17%,召回率達(dá)到95.63%,平均精度達(dá)到95.06%,相比直接對(duì)全景圖像識(shí)別的效果有明顯提升,能夠較好地對(duì)分辨率較大的全景圖像蘋果進(jìn)行識(shí)別。
本文利用神經(jīng)網(wǎng)絡(luò)模型及基于閾值的邊界框匹配合并算法,滿足自然環(huán)境下的果樹果實(shí)圖像識(shí)別的要求。未來可通過開發(fā)應(yīng)用,將相機(jī)、手機(jī)等設(shè)備采集的蘋果全景圖像上傳至服務(wù)器端,通過服務(wù)器端部署本文的識(shí)別模型及算法對(duì)上傳的蘋果全景圖像進(jìn)行識(shí)別,將識(shí)別結(jié)果統(tǒng)計(jì)并進(jìn)行存儲(chǔ)與反饋。本研究有利于智慧果園的發(fā)展,為蘋果產(chǎn)量預(yù)測(cè)智能化提供了技術(shù)基礎(chǔ)。
[1] 王丹丹,宋懷波,何東健. 蘋果采摘機(jī)器人視覺系統(tǒng)研究進(jìn)展[J]. 農(nóng)業(yè)工程學(xué)報(bào),2017,33(10):59-69.
Wang Dandan, Song Huaibo, He Dongjian. Research advance on vision system of apple picking robot[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2017, 33(10): 59-69. (in Chinese with English abstract)
[2] Tian Y, Yang G, Wang Z, et al. Apple detection during different growth stages in orchards using the improved YOLO-V3 model[J]. Computers and Electronics in Agriculture, 2019, 157: 417-426.
[3] 楊福增,雷小燕,劉志杰,等. 基于CenterNet的密集場(chǎng)景下多蘋果目標(biāo)快速識(shí)別方法[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào),2022,53(2):265-273.
Yang Fuzeng, Lei Xiaoyan, Liu Zhijie, et al. Fast recognition method for multiple apple targets in dense scenes based on centerNet[J]. Transactions of the Chinese Society for Agricultural Engineering, 2022, 53(2): 265-273. (in Chinese with English abstract)
[4] Liu X, Zhao D, Jia W, et al. A detection method for apple fruits based on color and shape features[J]. IEEE Access, 2019, 7: 67923-67933.
[5] Bargoti S, Underwood J P. Image segmentation for fruit detection and yield estimation in apple orchards[J]. Journal of Field Robotics, 2017, 34(6): 1039-1060.
[6] 廖崴,鄭立華,李民贊,等.基于隨機(jī)森林算法的自然光照條件下綠色蘋果識(shí)別[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào),2017,48(S1):86-91.
Liao Wei, Zheng Lihua, Li Minzan, et al. Green apple recognition in natural illumination based on random forest algorithm[J]. Transactions of the Chinese Society of Agricultural Engineering, 2017, 48(S1): 86-91. (in Chinese with English abstract)
[7] He K, Gkioxari G, Dollár P, et al. Mask r-cnn[C]// Proceedings of the IEEE International Conference on Computer Vision (ICCV), Venice, Italy: IEEE, 2017: 2980-2988.
[8] Ren S, He K, Girshick R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2017, 39(6): 1137-1149.
[9] Fu L, Majeed Y, Zhang X, et al. Faster R–CNN–based apple detection in dense-foliage fruiting-wall trees using RGB and depth features for robotic harvesting[J]. Biosystems Engineering, 2020, 197: 245-256.
[10] 熊俊濤,劉振,湯林越,等. 自然環(huán)境下綠色柑橘視覺檢測(cè)技術(shù)研究[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào),2018,49(4):45-52.
Xiong Juntao, Liu Zhen, Tang Linyue, et al. Visual detection technology of green citrus under natural environment[J]. Transactions of the Chinese Society for Agricultural Engineering, 2018, 49(4): 45-52 (in Chinese with English abstract)
[11] 閆建偉,趙源,張樂偉,等. 改進(jìn)Faster-RCNN自然環(huán)境下識(shí)別刺梨果實(shí)[J]. 農(nóng)業(yè)工程學(xué)報(bào),2019,35(18):143-150.
Yan Jianwei, Zhao Yuan, Zhang Lewei, et al. Recognition of Rosa roxbunghii in natural environment based on improved Faster RCNN[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2019, 35(18): 143-150. (in Chinese with English abstract)
[12] Gao F, Fu L, Zhang X, et al. Multi-class fruit-on-plant detection for apple in SNAP system using Faster R-CNN[J]. Computers and Electronics in Agriculture, 2020, 176: 105634_1-105634_10.
[13] Redmon J, Farhadi A. YOLOv3:An incremental improvement[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington: IEEE Press, 2018: 1804-1823.
[14] Bochkovskiy A, Wang C Y, Liao H Y M. YOLOv4: optimal speed and accuracy of object detection[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington: IEEE Press, 2020: 102-123.
[15] Tian Y, Yang G, Wang Z, et al. Apple detection during different growth stages in orchards using the improved YOLO-V3 model[J]. Computers and Electronics in Agriculture, 2019, 157: 417-426.
[16] Mazzia V, Khaliq A, Salvetti F, et al. Real-time apple detection system using embedded systems with hardware accelerators: An edge AI application[J]. IEEE Access, 2020, 8: 9102-9114.
[17] 劉天真,滕桂法,苑迎春,等. 基于改進(jìn)YOLO v3的自然場(chǎng)景下冬棗果實(shí)識(shí)別方法[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào),2021,52(5):17-25.
Liu Tianzhen, Teng Guifa, Yuan Yingchun, et al. Winter jujube fruit recognition method based on improved YOLO v3 under natural scene[J]. Transactions of the Chinese Society for Agricultural Engineering, 2021, 52(5): 17-25. (in Chinese with English abstract)
[18] Li H, Li C, Li G, et al. A real-time table grape detection method based on improved YOLOv4-tiny network in complex background[J]. Biosystems Engineering, 2021, 212: 347-359.
[19] 高芳芳,武振超,索睿,等. 基于深度學(xué)習(xí)與目標(biāo)跟蹤的蘋果檢測(cè)與視頻計(jì)數(shù)方法[J]. 農(nóng)業(yè)工程學(xué)報(bào),2021,37(21):217-224.
Gao Fangfang, Wu Zhenchao, Suo Rui, et al. Apple detection and counting using real-time video based on deep learning and object tracking[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(21): 217-224.(in Chinese with English abstract)
[20] 趙輝,喬艷軍,王紅君,等. 基于改進(jìn)YOLOv3的果園復(fù)雜環(huán)境下蘋果果實(shí)識(shí)別[J]. 農(nóng)業(yè)工程學(xué)報(bào),2021,37(16):127-135.
Zhao Hui, Qiao Yanjun, Wang Hongjun, et al. Apple fruit recognition in complex orchard environment based on improved YOLOv3[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(16): 127-135. (in Chinese with English abstract)
[21] Ji W, Gao X, Xu B, et al. Apple target recognition method in complex environment based on improved YOLOv4[J]. Journal of Food Process Engineering, 2021, 44(11): e13866_1- e13866_13.
[22] Wang C Y, Liao H Y M, Wu Y H, et al. CSPNet: A new backbone that can enhance learning capability of CNN[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), Seattle: IEEE, 2020: 1571-1580.
[23] He K, Zhang X, Ren S, et al. Spatial pyramid pooling in deep convolutional networks for visual recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(9): 1904-1916.
[24] Roy A G, Navab N, Wachinger C. Concurrent spatial and channel ‘squeeze & excitation’in fully convolutional networks[C]//International conference on medical image computing and computer-assisted intervention. Springer, Granada, 2018: 421-429.
[25] Howard A G, Zhu M, Chen B , et al. MobileNets: Efficient convolutional neural networks for mobile vision applications[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Hawaii: IEEE, 2017, 17041712.
[26] Zhou X, Wang D, K R ?henbuhl P. Objects as points[EB/OL]. (2019-04-16) [2022-05-31]. https://arxiv.org/abs/1603.06937.
[27] Howard A, Sandler M, Chen B, et al. Searching for MobileNetV3[C]//2019 IEEE/CVF International Conference on Computer Vision (ICCV), New York: IEEE Press, 2019: 1314-1324.
Recognition of the apple in panoramic images based on improved YOLOv4 model
Zhou Guihong, Ma Shuai, Liang Fangfang
(1.,,071001,; 2.,071001,)
Yield forecasting is one of great significance for decision-making in the apple industry, including labor hiring, harvesting, and storage allocation. Traditional forecasting of apple yield relies mainly on the manual counting of some of the apple trees to estimate the yield of the entire apple orchard. The inaccurate prediction cannot fully meet the large-scale production in recent years. Therefore, it is a high demand for a more accurate and labor-saving way to forecast apple orchard yield. Artificial intelligence in smart orchards can be expected to combine with traditional orchards in the development of the apple industry. The accurate recognition of apples is one of the key technologies to achieve the intelligent yield estimation of apple orchards. However, the shading between apple trees has posed a great challenge to apple fruit identification at present, due to the dense cultivation mode in apple orchards. The repeated capture of apple fruit images can lead to inaccurate fruit counting in the image-collecting mode in each fruit tree. In this study, a panoramic image of apple recognition was proposed using an improved YOLOv4 and threshold-based bounding box matching and merging algorithm. Panoramic photography was used to collect the images of apple fruit trees. Firstly, the Spatial-Channel Sequeeze & Excitation (scSE) attention modules were added to the Resblock module of the backbone of YOLOv4. Some convolutions in the PANet module and YOLO Head module were replaced by the depthwise separable convolutions. The number of output feature channels of depthwise separable convolutions increased to enhance the feature extraction capability, but to reduce the number of model parameters and computation. The panoramic image was segmented intoseveral sub-images. The improved YOLOv4 model was selected to recognize the apples in the sub-images. A comparison was performed on the recognized data of different network models, such as the Faster R-CNN, CenterNet, YOLOv4, YOLOv4-Lite, YOLOv5-l, and YOLOv5-x for the panoramic images of apple trees. The improved YOLOv4 network model achieved a precision rate of 96.19%, a recall rate of 95.47%, and an AP value of 97.27, which were 1.07, 2.59, and 2.02 percentage points higher than the original YOLOv4 model. Secondly, the bounding boxes of the apples in the recognized sub-images were matched and merged by the threshold-based bounding box matching and merging, in order to realize the recognition of panoramic images. The validation experiments determined that the thresholds of 3, 1, and 45 were used for the D1, D2, and D3, respectively. A better performance was achieved in the precision rate of 96.17%, a recall rate of 95.63%, an1score of 0.96, and an AP value of 95.06%, which were higher than each evaluation index for the direct recognition of panoramic images of apples. As such, the panoramic image recognition was obtained to merge the sub-image recognition using the improved YOLOv4 model. The higher evaluation index and better recognition were achieved in the apple recognition of panoramic images under natural conditions. The finding can provide a new strategy to recognize apple fruits for the intelligent measurement of orchard yield.
image recognition; YOLOv4; apple; scSE; depthwise separable convolution; matching and merging of bounding box
10.11975/j.issn.1002-6819.2022.21.019
TP391.4
A
1002-6819(2022)-21-0159-10
周桂紅,馬帥,梁芳芳. 基于改進(jìn)YOLOv4模型的全景圖像蘋果識(shí)別[J]. 農(nóng)業(yè)工程學(xué)報(bào),2022,38(21):159-168.doi:10.11975/j.issn.1002-6819.2022.21.019 http://www.tcsae.org
Zhou Guihong, Ma Shuai, Liang Fangfang. Recognition of the apple in panoramic images based on improved YOLOv4 model [J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2022, 38(21): 159-168. (in Chinese with English abstract) doi:10.11975/j.issn.1002-6819.2022.21.019 http://www.tcsae.org
2022-05-31
2022-10-24
國(guó)家自然科學(xué)基金(62106065)
周桂紅,博士,教授,研究方向?yàn)槿斯ぶ悄?、圖像處理。Email:hebau_zgh@163.com