方夢(mèng)瑞,呂軍*,阮建云,邊磊,武傳宇,姚青
基于改進(jìn)YOLOv4-tiny的茶葉嫩芽檢測(cè)模型
方夢(mèng)瑞1,呂軍1*,阮建云2,邊磊2,武傳宇3,姚青1
1. 浙江理工大學(xué)信息學(xué)院,浙江 杭州 310018;2. 中國(guó)農(nóng)業(yè)科學(xué)院茶葉研究所,浙江 杭州 310008;3. 浙江理工大學(xué)機(jī)械與自動(dòng)控制學(xué)院,浙江 杭州 310018
精準(zhǔn)檢測(cè)茶葉嫩芽是茶葉機(jī)械智能采摘的重要前提。針對(duì)茶葉大小不一、遮擋造成的小尺度嫩芽特征顯著性弱、漏檢率高等問(wèn)題,提出一種基于改進(jìn)YOLOv4-tiny的茶葉嫩芽檢測(cè)模型。該模型在頸部網(wǎng)絡(luò)添加52×52的淺層特征層以提高YOLOv4-tiny網(wǎng)絡(luò)對(duì)小目標(biāo)嫩芽的關(guān)注度,通過(guò)引入卷積塊注意力機(jī)制(Convolutional block attention module,CBAM)以抑制背景噪聲,提高嫩芽特征的顯著性,采用雙向特征金字塔網(wǎng)絡(luò)(Bidirectional feature pyramid network,BiFPN)以融合不同尺度的特征信息,從而提出一個(gè)高性能輕量化的茶葉嫩芽檢測(cè)模型YOLOv4-tiny-Tea。對(duì)同一訓(xùn)練集與測(cè)試集進(jìn)行模型訓(xùn)練與性能測(cè)試,結(jié)果表明YOLOv4-tiny-Tea模型檢測(cè)精確率和召回率分別為97.77%和95.23%,相比改進(jìn)之前分別提高了5.58個(gè)百分點(diǎn)和23.14個(gè)百分點(diǎn)。消融試驗(yàn)驗(yàn)證了網(wǎng)絡(luò)結(jié)構(gòu)改進(jìn)對(duì)不同尺度嫩芽檢測(cè)的有效性,并將改進(jìn)后的YOLOv4-tiny-Tea模型與3種YOLO系列算法進(jìn)行對(duì)比,發(fā)現(xiàn)改進(jìn)后的YOLOv4-tiny-Tea模型F1值比YOLOv3、YOLOv4、YOLOv5l模型分別提高了12.11、11.66和6.76個(gè)百分點(diǎn),參數(shù)量?jī)H為3種網(wǎng)絡(luò)模型的13.57%、13.06%和35.05%。試驗(yàn)結(jié)果表明,YOLOv4-tiny-Tea模型能有效提高不同尺度下嫩芽檢測(cè)的精確率,大幅度減少小尺寸或遮擋嫩芽的漏檢情況,在保持輕量化計(jì)算成本的基礎(chǔ)上獲得較為明顯的檢測(cè)精度,能夠滿足農(nóng)業(yè)機(jī)器人的實(shí)時(shí)檢測(cè)和嵌入式開(kāi)發(fā)的需求,可以為茶葉嫩芽智能采摘方法提供參考。
茶葉;嫩芽檢測(cè);YOLOv4-tiny;注意力機(jī)制;雙向特征金字塔
機(jī)器視覺(jué)等技術(shù)已廣泛應(yīng)用于茶葉嫩芽檢測(cè)[1-2]、等級(jí)鑒定[3]、病蟲(chóng)害防治[4]和種類(lèi)識(shí)別[5]等。茶葉智能采摘是茶葉生產(chǎn)智能化、信息化和機(jī)械化的重要前提。相比傳統(tǒng)的人工采摘,機(jī)械采摘具有成本低、效率高等優(yōu)勢(shì),但機(jī)械采摘缺乏選擇性,嫩芽和老葉一刀切,無(wú)法保證嫩芽完整性,降低成茶品質(zhì)[6]。因此,需要準(zhǔn)確識(shí)別與定位茶葉嫩芽,以提高嫩芽采摘的準(zhǔn)確率和工作效率。
目前,茶葉嫩芽的檢測(cè)方法包括圖像分割定位方法[7]和深度學(xué)習(xí)方法[8]。圖像分割定位方法是根據(jù)茶葉嫩芽和老葉所呈現(xiàn)的顏色、紋理特征等差異,結(jié)合目標(biāo)定位算法實(shí)現(xiàn)茶葉嫩芽的識(shí)別和定位[9-11]。汪建[12]利用茶葉圖像的色調(diào)H和飽和度S分量圖進(jìn)行初步的嫩芽區(qū)域分割,然后結(jié)合顏色距離和邊緣距離進(jìn)行嫩芽區(qū)域的生長(zhǎng)合并,平均分割精確率為89.8%,平均分割速度為0.58幀·s-1。針對(duì)強(qiáng)光和不均勻光照下嫩芽與老葉顏色區(qū)分度低問(wèn)題,Zhang等[13]對(duì)藍(lán)分量進(jìn)行自適應(yīng)閾值處理后,結(jié)合綠分量獲得新的組合分量灰度圖,通過(guò)分段線性變換提高目標(biāo)與背景的對(duì)比度后,利用改進(jìn)的分水嶺算法提高嫩芽識(shí)別精度。以上方法的分割精度受嫩芽特征提取影響較大,模型的普適性和魯棒性較差。深度學(xué)習(xí)模型直接以茶葉圖像為輸入,大大減小了人工特征提取對(duì)嫩芽檢測(cè)的影響。王子鈺等[14]對(duì)比了圖像分割方法和基于SSD、YOLOv3的茶葉嫩芽檢測(cè)算法,發(fā)現(xiàn)基于YOLOv3的檢測(cè)精度和檢測(cè)速度更適合茶葉智能采摘的需求。以單個(gè)茶葉圖像為研究對(duì)象,孫肖肖等[15]去除了YOLOv3模型中的大尺度預(yù)測(cè)層,采用中尺度和小尺度進(jìn)行預(yù)測(cè),減少了模型的計(jì)算量,提高了檢測(cè)速度。Yang等[16]在YOLOv3下采樣部分添加殘差網(wǎng)絡(luò),并利用1×1的卷積運(yùn)算代替全連接,對(duì)驗(yàn)證集的平均檢測(cè)精度達(dá)90%以上。自然環(huán)境下茶葉姿態(tài)各異,且受光照影響較大,Li等[17]按照一芽一葉圖像中芽與葉是否有明顯的角度分離進(jìn)行分類(lèi)標(biāo)定,相比單一標(biāo)定的檢測(cè)結(jié)果,基于姿態(tài)分類(lèi)的YOLOv3模型檢測(cè)精度提高1.9個(gè)百分點(diǎn),召回率提高了40.3個(gè)百分點(diǎn)。呂軍等[18]采用區(qū)域亮度自適應(yīng)校正方法對(duì)高亮度圖像進(jìn)行預(yù)處理,以加強(qiáng)不同光照條件下嫩芽檢測(cè)模型的魯棒性。
在實(shí)際應(yīng)用場(chǎng)景中,采集的茶葉圖像背景較為復(fù)雜,嫩芽尺度不一、密集和遮擋等情況嚴(yán)重影響嫩芽檢測(cè)的精度和模型的普適性。Karunasena等[19]利用Cascade分類(lèi)器實(shí)現(xiàn)對(duì)0~10?mm、10~20?mm、20~30?mm、30~40?mm 4組不同長(zhǎng)度的嫩芽檢測(cè),平均檢測(cè)精度為55%,其中對(duì)小嫩芽(0~10?mm)檢測(cè)精度僅為30%。因此,需要研究對(duì)不同尺度嫩芽檢測(cè)具有高魯棒性的嫩芽檢測(cè)模型。本研究選用輕量級(jí)、易部署的茶葉嫩芽檢測(cè)模型,通過(guò)改進(jìn)網(wǎng)絡(luò)結(jié)構(gòu),以加強(qiáng)不同尺度下茶葉檢測(cè)的精度,為茶葉機(jī)械智能采摘提供理論依據(jù)。
春茶期間利用數(shù)碼相機(jī)采集自然生長(zhǎng)的茶樹(shù)新梢圖像,共6?580幅,圖像分辨率統(tǒng)一為1?600×1?200。拍攝時(shí)間為2020年和2021年的3月中旬至4月上旬,拍攝角度為30°~60°,拍攝距離為30~50?cm,拍攝地點(diǎn)為中國(guó)農(nóng)業(yè)科學(xué)院茶葉研究所嵊州茶葉綜合實(shí)驗(yàn)基地,茶樹(shù)品種為龍井43,2015年種植,單行條栽,茶樹(shù)長(zhǎng)勢(shì)良好。利用目標(biāo)標(biāo)注工具LabelImg對(duì)采集到的茶葉圖像中一芽一葉和一芽進(jìn)行人工標(biāo)記,標(biāo)記規(guī)范如圖1所示,并按照11∶1隨機(jī)劃分成訓(xùn)練集和測(cè)試集,數(shù)據(jù)集信息如表1所示。
為豐富樣本多樣性,模擬自然環(huán)境下茶葉生長(zhǎng)狀態(tài),采用水平鏡像和增強(qiáng)對(duì)比度的方法對(duì)訓(xùn)練集圖像進(jìn)行數(shù)據(jù)擴(kuò)增,擴(kuò)增后訓(xùn)練集嫩芽數(shù)量達(dá)217?500個(gè),茶葉圖像數(shù)據(jù)增強(qiáng)如圖2所示。
自然環(huán)境下茶葉嫩芽生長(zhǎng)密集,生長(zhǎng)狀態(tài)大小不一,重疊遮擋等造成嫩芽特征顯著性較弱,現(xiàn)有模型檢測(cè)結(jié)果中存在較多小目標(biāo)漏檢情況。目標(biāo)檢測(cè)模型的部署過(guò)于依賴設(shè)備的計(jì)算和存儲(chǔ)能力,需要在設(shè)備硬件限制條件下滿足實(shí)時(shí)檢測(cè)的需求[20]。為了提高算法的運(yùn)行效率,本研究選用了輕量化、易部署的YOLOv4-tiny[21]模型作為基準(zhǔn)網(wǎng)絡(luò)。引入卷積塊注意力機(jī)制和雙向特征金字塔結(jié)構(gòu)進(jìn)行多尺度預(yù)測(cè),提升模型對(duì)小尺度和遮擋目標(biāo)的檢測(cè)性能,并將改進(jìn)后的模型命名為YOLOv4-tiny-Tea。
表1 茶葉圖像數(shù)據(jù)集
Table1 Tea image dataset
圖2 茶葉圖像數(shù)據(jù)增強(qiáng)結(jié)果
1.2.1 YOLOv4-tiny基準(zhǔn)網(wǎng)絡(luò)結(jié)構(gòu)
YOLOv4-tiny網(wǎng)絡(luò)模型是YOLOv4的簡(jiǎn)潔版,屬于輕量化模型,在追求精度和速度之間的平衡方面表現(xiàn)良好。YOLOv4-tiny模型結(jié)構(gòu)主要包括以下內(nèi)容:(1)YOLOv4-tiny使用CSPDarknet53-tiny作為主干網(wǎng)絡(luò),該網(wǎng)絡(luò)主要由CBL和CSPBlock結(jié)構(gòu)組成。相比于YOLOv4中CBL和ResBlock組成的主干特征提取網(wǎng)絡(luò)CSPDarknet53,主要變化之一是將CBL中Mish[22]激活函數(shù)替換為L(zhǎng)eaky ReLU[23]激活函數(shù),減少模型的權(quán)重參數(shù),提高計(jì)算速度;其二是CSPBlock模塊除主干部分繼續(xù)進(jìn)行原ResBlock模塊中殘差結(jié)構(gòu)(RESn)的堆疊外,另一部分經(jīng)過(guò)少量處理直接將兩者結(jié)合,使得梯度流可以在兩條不同的路徑上傳播,增加了梯度信息的相關(guān)性差異。與ResBlock模塊相比,CSPBlock模塊在保持計(jì)算量不變的情況下,增強(qiáng)卷積網(wǎng)絡(luò)的學(xué)習(xí)能力,提高模型的檢測(cè)性能。(2)YOLOv4-tiny頸部網(wǎng)絡(luò)采用FPN結(jié)構(gòu),對(duì)26×26和13×13兩級(jí)有效特征層進(jìn)行自下向上的單向特征融合。(3)YOLOv4-tiny預(yù)測(cè)模塊使用k-means聚類(lèi)算法生成錨框,并引入CIOU[24]代替IOU計(jì)算邊界框定位損失,解決了真實(shí)框和預(yù)測(cè)框非重疊情形下梯度消失的問(wèn)題,使得邊界框的回歸更加穩(wěn)定。
1.2.2 基于注意力機(jī)制的多尺度預(yù)測(cè)
YOLOv4-tiny網(wǎng)絡(luò)只有中尺度(26×26)和小尺度(13×13)兩級(jí)預(yù)測(cè)層,在小目標(biāo)檢測(cè)時(shí)易出現(xiàn)較多漏檢情況,不適于尺度變化較大的茶葉嫩芽檢測(cè)[25]。本研究采用分而治之的檢測(cè)策略,在頸部網(wǎng)絡(luò)添加一級(jí)52×52的淺層有效特征層,以提高對(duì)小尺度嫩芽的特征提取能力,改善模型對(duì)茶葉嫩芽的多尺度檢測(cè)性能。
淺層特征層中含有小的感受野,有利于小尺度目標(biāo)的檢測(cè),但引入低維有效特征信息的同時(shí)也會(huì)產(chǎn)生大量的背景噪聲,影響模型的整體檢測(cè)精度。為了解決這個(gè)問(wèn)題,引入注意力機(jī)制增強(qiáng)有效特征信息,抑制背景噪聲。卷積塊注意力機(jī)制(Convolutional block attention module,CBAM)[26]是一種高效的注意力機(jī)制模塊,可以在不增加大量計(jì)算成本的同時(shí),簡(jiǎn)便靈活地嵌入到檢測(cè)網(wǎng)絡(luò)模型中,進(jìn)而提升卷積神經(jīng)網(wǎng)絡(luò)的特征表達(dá)能力。CBAM模塊是通道注意力機(jī)制和空間注意力機(jī)制的級(jí)聯(lián),具體結(jié)構(gòu)如圖3所示。通道注意力模塊中,采用最大池化和平均池化聚合原始特征圖的空間信息,生成兩個(gè)1×1通道特征圖,通道數(shù)為。將通道特征圖輸入含有多層感知器和一個(gè)隱藏層的共享網(wǎng)絡(luò),為了減少參數(shù)量,將隱藏層大小設(shè)置為1×1×/,其中是縮減率。將共享網(wǎng)絡(luò)輸出的兩個(gè)特征圖疊加并通過(guò)Sigmod函數(shù),然后乘以原始特征圖生成通道注意力特征圖??臻g注意力模塊中,對(duì)通道注意力圖采用最大池化和平均池化聚合通道信息,得到兩個(gè)××1特征圖,將兩個(gè)特征圖疊加后通過(guò)卷積層和Sigmod函數(shù)得到××1的空間注意力圖。最后,將通道注意力特征圖乘以空間注意力圖生成最終的卷積塊注意力特征圖。
1.2.3 引入BiFPN網(wǎng)絡(luò)結(jié)構(gòu)
原始YOLOv4-tiny網(wǎng)絡(luò)采用FPN結(jié)構(gòu)(圖4-a)進(jìn)行特征融合,雖然能夠豐富不同尺度特征圖的特征信息,但FPN受單向特征融合的限制,使得多尺度特征信息無(wú)法充分利用[27]。茶葉嫩芽分布密集,特征圖中易出現(xiàn)多個(gè)大小不同的目標(biāo)聚集,在不同尺度檢測(cè)的有效預(yù)測(cè)層中,當(dāng)前尺度的特征信息被標(biāo)記為正樣本,而其他預(yù)測(cè)層對(duì)應(yīng)的區(qū)域可能被視為背景,干擾模型的預(yù)測(cè)性能。針對(duì)FPN單向特征融合無(wú)法充分利用多層有效特征的問(wèn)題,引入路徑聚合網(wǎng)絡(luò)結(jié)構(gòu)(Path aggregation network,PANet)實(shí)現(xiàn)雙向網(wǎng)絡(luò)的特征融合,即在FPN結(jié)構(gòu)中添加了一層自頂向下的聚合路徑,使得多層尺度的特征信息充分融合。為了簡(jiǎn)化雙向網(wǎng)絡(luò)結(jié)構(gòu),提升特征融合的性能,移除PANet結(jié)構(gòu)中只有一條輸入邊而沒(méi)有特征融合的節(jié)點(diǎn),并在同一特征尺度上添加橫向連接線,形成雙向特征金字塔網(wǎng)絡(luò)(Bidirectional feature pyramid network,BiFPN)[28],在不增加計(jì)算成本的情況下融合更多的特征信息,緩解因網(wǎng)絡(luò)層級(jí)過(guò)多造成的特征信息丟失。PANet和BiFPN的網(wǎng)絡(luò)結(jié)構(gòu)如圖4-b、4-c所示。
1.2.4 改進(jìn)YOLOv4-tiny網(wǎng)絡(luò)結(jié)構(gòu)
為更好地平衡模型檢測(cè)速度和精度,保留了CSPDarknet53-tiny主干特征提取網(wǎng)絡(luò)和預(yù)測(cè)網(wǎng)絡(luò),并在此基礎(chǔ)上,在頸部網(wǎng)絡(luò)添加52×52的大尺度特征層,引入CBAM注意力機(jī)制和雙向特征金字塔結(jié)構(gòu)對(duì)原始的YOLOv4-tiny網(wǎng)絡(luò)進(jìn)行多尺度預(yù)測(cè)改進(jìn),改進(jìn)后的YOLOv4-tiny-Tea目標(biāo)檢測(cè)模型如圖5所示。首先,茶葉RGB圖像經(jīng)兩層CBL模塊完成對(duì)淺層特征信息的聚合,并將特征維度轉(zhuǎn)化為104×104×64。其次,通過(guò)三層CSPBlock結(jié)構(gòu)后得到52×52、26×26、13×13 3種不同尺度的有效特征層,采用CBL模塊對(duì)3種不同尺度的預(yù)測(cè)層進(jìn)行特征聚合,并通過(guò)CBAM注意力機(jī)制模塊增強(qiáng)目標(biāo)特征,抑制冗余的背景噪聲,利用BiFPN雙向特征金字塔提升不同尺度特征信息的融合性能。然后,得到了52×52×54、26×26×54、13×13×54 3個(gè)有效特征,其中54由類(lèi)別數(shù)與置信度之和,再與錨點(diǎn)數(shù)相乘而來(lái)。最后,利用預(yù)測(cè)模塊對(duì)有效特征進(jìn)行多尺度預(yù)測(cè)。
圖3 CBAM網(wǎng)絡(luò)結(jié)構(gòu)
圖4 3種特征金字塔結(jié)構(gòu)
圖5 YOLOv4-tiny-Tea茶葉嫩芽檢測(cè)模型
所有模型都運(yùn)行在相同的硬件環(huán)境下,CPU型號(hào)為Inter(R) Core(TM) i7-9700 CPU @3.00GHz,GPU型號(hào)為NVIDIA GTX2080Ti,加速環(huán)境為CUDA10.0 CUDNN7.6.2,操作系統(tǒng)為CentOS 7,在Pytroch和Keras深度學(xué)習(xí)框架下進(jìn)行模型的訓(xùn)練和測(cè)試。
不同領(lǐng)域圖像具有共性的底層特征,采用遷移學(xué)習(xí)網(wǎng)絡(luò)訓(xùn)練策略,利用卷積層共性特征知識(shí)遷移使學(xué)習(xí)更為穩(wěn)定[29]。在VOC大型基準(zhǔn)數(shù)據(jù)集[30]進(jìn)行訓(xùn)練,獲得初始收斂權(quán)重,并遷移到Y(jié)OLOv4-tiny-Tea網(wǎng)絡(luò)進(jìn)行參數(shù)初始化。相較于隨機(jī)初始化權(quán)重,使用遷移學(xué)習(xí)的方法可以加速模型收斂,提高模型的泛化能力。
為了評(píng)價(jià)茶葉嫩芽檢測(cè)模型YOLOv4-tiny-Tea的檢測(cè)性能,本研究采用了6種性能指標(biāo);精確率(Precision)、召回率(Recall)、F1值、模型大小(Model size)、檢測(cè)速度(Detection speed)和精確率-召回率曲線(Precision-Recall curve,PR),所有模型預(yù)測(cè)測(cè)試集樣本均基于置信度0.15。精確率和召回率計(jì)算見(jiàn)式(1)和(2),F(xiàn)1值為精確率和召回率的調(diào)和平均,計(jì)算見(jiàn)式(3)。模型大小是指存儲(chǔ)模型所需要的內(nèi)存空間,單位為Mb。檢測(cè)速度指每秒測(cè)試的圖像數(shù)量,單位為幀·s-1。
式中:表示嫩芽被正確預(yù)測(cè)為嫩芽的數(shù)量,表示非嫩芽被預(yù)測(cè)為嫩芽的數(shù)量,表示未檢測(cè)到嫩芽的數(shù)量,即嫩芽漏檢的數(shù)量。
采用YOLOv4-tiny的預(yù)訓(xùn)練模型,對(duì)YOLOv4-tiny-Tea模型進(jìn)行訓(xùn)練,訓(xùn)練損失及驗(yàn)證損失曲線如圖6所示。從圖中可以看出,訓(xùn)練和驗(yàn)證損失函數(shù)能較快下降并趨于穩(wěn)定,表明改進(jìn)模型的有效性和強(qiáng)學(xué)習(xí)性。迭代次數(shù)為40時(shí),訓(xùn)練和驗(yàn)證損失值較為接近并趨于收斂。訓(xùn)練損失值在第90次迭代時(shí)基本收斂,表明模型已經(jīng)達(dá)到飽和狀態(tài),此時(shí)模型的檢測(cè)性能達(dá)到最佳。結(jié)果表明本研究的試驗(yàn)設(shè)置是合理可行的。
在YOLOv4-tiny網(wǎng)絡(luò)結(jié)構(gòu)基礎(chǔ)上,在頸部網(wǎng)絡(luò)中增加52×52的淺層有效特征層(scale@3),以關(guān)注小尺度目標(biāo)特征,通過(guò)CBAM注意力機(jī)制降低背景干擾,引入BiFPN網(wǎng)絡(luò)結(jié)構(gòu)融合多尺度特征信息。為驗(yàn)證本研究提出的YOLOv4-tiny-Tea模型的有效性,設(shè)置了消融試驗(yàn)[31],即將YOLOv4-tiny-Tea茶葉嫩芽檢測(cè)模型中的改進(jìn)機(jī)制逐一刪除并在相同數(shù)據(jù)集進(jìn)行訓(xùn)練與測(cè)試,以驗(yàn)證改進(jìn)機(jī)制對(duì)嫩芽檢測(cè)模型是否具有積極意義,試驗(yàn)結(jié)果如表2所示。
YOLOv4-tiny網(wǎng)絡(luò)只有中尺度(26×26)和小尺度(13×13)兩種尺度的預(yù)測(cè)層,無(wú)法匹配小尺度嫩芽的檢測(cè)尺寸。為了提升模型對(duì)小目標(biāo)嫩芽檢測(cè)精度,本文提出添加一層(52×52)的淺層有效特征以關(guān)注小尺度嫩芽的有效特征。由表2可知,通過(guò)增加52×52有效特征層scale@3,模型檢測(cè)召回率提高了12.85個(gè)百分點(diǎn),F(xiàn)1值提高了6.88個(gè)百分點(diǎn),試驗(yàn)說(shuō)明淺層特征層的添加能夠有效減少模型對(duì)小目標(biāo)的漏檢。但模型嫩芽精確率略有降低,主要原因在于添加52×52有效特征層,提高小尺度嫩芽特征的同時(shí),帶來(lái)更多的背景噪聲干擾。
為了減少背景噪聲對(duì)模型的影響,提出在特征融合前添加CBAM注意力機(jī)制。由表2可知,相比未添加注意力機(jī)制的YOLOv4-tiny_scale@3模型,添加CBAM注意力機(jī)制的模型檢測(cè)精確率、召回率分別提高2.29個(gè)百分點(diǎn)和7.62個(gè)百分點(diǎn)。因此,添加注意力機(jī)制能夠增強(qiáng)不同尺度下嫩芽有效特征的顯著性,抑制背景噪聲,提升模型的檢測(cè)性能。
圖6 訓(xùn)練損失和驗(yàn)證損失曲線
表2 不同改進(jìn)機(jī)制對(duì)模型性能的影響
√√90.8484.9487.79123.5 √√√93.1392.5692.84114.9 √√√√97.7795.2396.4876.9
CBAM注意力機(jī)制和多尺度預(yù)測(cè)的引入,小目標(biāo)的尺度匹配問(wèn)題得到緩解,模型的檢測(cè)性能得到提升,但不同尺度的目標(biāo)密集分布時(shí),模型存在漏檢問(wèn)題。主要原因在于YOLOv4-tiny采用單向的上采樣特征融合FPN結(jié)構(gòu),小目標(biāo)檢測(cè)層中的負(fù)樣本區(qū)域可能在其他特征層中被預(yù)測(cè)為正樣本,各有效特征層中存在正負(fù)樣本沖突,使得多尺度特征信息不能得到充分的利用。由表2可知,較YOLOv4-tiny_scale@3_CBAM模型而言,引入BiFPN雙向特征金字塔結(jié)構(gòu)的YOLOv4-tiny_scale@3_CBAM_BiFPN模型,模型檢測(cè)精確率和召回率分別提高4.64個(gè)百分點(diǎn)和2.67個(gè)百分點(diǎn),F(xiàn)1值提高了3.64個(gè)百分點(diǎn)。BiFPN雙向特征金字塔結(jié)構(gòu)有效融合了不同層次的嫩芽特征,有效提高了模型對(duì)不同尺度嫩芽的檢測(cè)性能。
利用YOLOv4-tiny和YOLOv4-tiny-Tea模型對(duì)同一測(cè)試集茶葉圖像進(jìn)行測(cè)試,檢測(cè)結(jié)果如表2和圖7所示。通過(guò)測(cè)試結(jié)果圖可以看出,兩種目標(biāo)檢測(cè)模型對(duì)大尺度嫩芽和無(wú)遮擋嫩芽都具有較好的檢測(cè)效果,但YOLOv4-tiny模型對(duì)小尺度或遮擋嫩芽的檢測(cè)結(jié)果中存在較多的漏檢(藍(lán)色框標(biāo)注)和誤檢(橙色框標(biāo)注),如圖7-a、7-b。由表2可知,YOLOv4-tiny模型嫩芽檢測(cè)召回率僅為72.09%,說(shuō)明YOLOv4-tiny模型未有效學(xué)習(xí)小尺度嫩芽的特征。對(duì)生長(zhǎng)密集、狀態(tài)不一的茶葉嫩芽檢測(cè)而言,YOLOv4-tiny模型泛化性能較差。通過(guò)添加淺層特征層、引入注意力機(jī)制和BiFPN雙向特征金字塔結(jié)構(gòu),改進(jìn)后的YOLOv4-tiny-Tea模型對(duì)各尺度的嫩芽檢測(cè)表現(xiàn)出較優(yōu)性能,嫩芽檢測(cè)精確率和召回率分別為97.77%和95.23%,相較于YOLOv4-tiny模型,YOLOv4-tiny-Tea模型嫩芽檢測(cè)精度和召回率分別提高了5.58個(gè)百分點(diǎn)和23.14個(gè)百分點(diǎn)。由圖7-c、7-d可見(jiàn),YOLOv4-tiny-Tea模型對(duì)小尺度或密集遮擋的嫩芽檢測(cè)具有較好的檢測(cè)效果。由圖8所示兩個(gè)模型PR曲線可見(jiàn),YOLOv4-tiny-Tea模型PR曲線在YOLOv4-tiny的外側(cè),表明YOLOv4-tiny-Tea模型檢測(cè)的準(zhǔn)確率更高。
圖7 YOLOv4-tiny改進(jìn)前后模型的檢測(cè)效果圖
圖8 YOLOv4-tiny改進(jìn)前后模型的PR曲線
為了驗(yàn)證本研究提出的YOLOv4-tiny-Tea網(wǎng)絡(luò)對(duì)茶葉嫩芽檢測(cè)的優(yōu)越性,選取了YOLO系列目標(biāo)檢測(cè)算法進(jìn)行性能比較,其中包括YOLOv3[32]、YOLOv4[33]和YOLOv5l[34]。利用相同的數(shù)據(jù)集進(jìn)行模型訓(xùn)練和測(cè)試,試驗(yàn)相關(guān)參數(shù)保持一致,利用精確率、召回率、F1、模型大小和檢測(cè)速度對(duì)模型整體性能進(jìn)行評(píng)估,結(jié)果如表3所示。本研究提出的YOLOv4-tiny-Tea模型檢測(cè)精確率和召回率均高于其他目標(biāo)檢測(cè)算法,檢測(cè)精度和召回率分別為97.77%和95.23%,模型大小為31.9?Mb,檢測(cè)速度為76.9幀·s-1。對(duì)比其他模型中檢測(cè)精度最高的YOLOv5l模型,YOLOv4-tiny-Tea檢測(cè)精確率和召回率分別提高4.47個(gè)百分點(diǎn)和8.83個(gè)百分點(diǎn),檢測(cè)速度提高了7.9幀·s-1,模型大小僅占YOLOv5l的35.1%。因此,YOLOv4-tiny-Tea模型在檢測(cè)精度、檢測(cè)速度以及可移植性上更適用于茶葉嫩芽機(jī)械采摘的需求。
為了更加直觀展現(xiàn)本研究提出的YOLOv4-tiny-Tea模型的有效性,基于Grad-CAM[35]技術(shù)對(duì)茶葉嫩芽圖像進(jìn)行了類(lèi)激活圖可視化,對(duì)比結(jié)果如圖9所示。
從圖9可以看出,對(duì)于目標(biāo)尺度較大的嫩芽,YOLOv4-tiny和YOLOv4-tiny-Tea兩個(gè)模型都可以精確定位到目標(biāo)區(qū)域,但YOLOv4-tiny模型對(duì)目標(biāo)區(qū)域關(guān)注度較小。針對(duì)小尺度和遮擋目標(biāo),YOLOv4-tiny模型只能關(guān)注目標(biāo)部分區(qū)域或無(wú)法關(guān)注目標(biāo);YOLOv4-tiny-Tea模型可以較準(zhǔn)確地關(guān)注圖像中小目標(biāo)區(qū)域,且背景干擾較小。由此可見(jiàn),YOLOv4-tiny-Tea模型中改進(jìn)機(jī)制可以有效抑制背景噪聲,增強(qiáng)目標(biāo)特征,進(jìn)一步證明本研究提出的方法具有較強(qiáng)的注意力學(xué)習(xí)能力,提升模型對(duì)茶葉嫩芽的檢測(cè)性能。
圖9 不同模型的茶葉嫩芽圖像類(lèi)激活圖
表3 不同茶葉嫩芽檢測(cè)模型的檢測(cè)結(jié)果
以易于部署的輕量級(jí)YOLOv4-tiny茶葉嫩芽檢測(cè)模型為基準(zhǔn)網(wǎng)絡(luò),針對(duì)該模型對(duì)小尺度和遮擋嫩芽存在較多漏檢和誤檢情況,對(duì)YOLOv4-tiny網(wǎng)絡(luò)進(jìn)行改進(jìn),以提升模型對(duì)不同尺度嫩芽的有效檢測(cè)。最終完成改進(jìn)后的YOLOv4-tiny-Tea嫩芽檢測(cè)模型的搭建,并進(jìn)行了試驗(yàn)分析和評(píng)價(jià)。
在YOLOv4-tiny模型的頸部網(wǎng)絡(luò)中添加52×52的淺層特征層,以關(guān)注小目標(biāo)嫩芽的定位與特征提取,但提高小目標(biāo)顯著性的同時(shí)帶來(lái)較多的背景噪聲,引入CBAM注意力機(jī)制模塊抑制背景噪聲,以提高嫩芽特征提取的有效性。為緩解多尺度預(yù)測(cè)的不同尺度特征融合之間的沖突,利用BiFPN雙向特征金字塔結(jié)構(gòu)代替原始模型的FPN結(jié)構(gòu),實(shí)現(xiàn)不同尺度特征信息的充分融合。在YOLOv4-tiny網(wǎng)絡(luò)基礎(chǔ)上,通過(guò)添加52×52的淺層特征層、引入CBAM注意力機(jī)制和BiFPN雙向特征金字塔結(jié)構(gòu),建立了YOLOv4-tiny_scale@3_CBAM_BiFPN模型,并命名為YOLOv4-tiny-Tea網(wǎng)絡(luò)。
通過(guò)消融試驗(yàn)證明了YOLOv4-tiny-Tea嫩芽檢測(cè)模型中改進(jìn)機(jī)制的有效性。將改進(jìn)的目標(biāo)檢測(cè)模型YOLOv4-tiny-Tea與4種經(jīng)典的YOLO系列算法YOLOv3、YOLOv4、YOLOv4-tiny和YOLOv5l進(jìn)行了對(duì)比試驗(yàn)。結(jié)果表明,改進(jìn)后的YOLOv4-tiny-Tea模型具有最佳的整體檢測(cè)性能,嫩芽檢測(cè)精確率和召回率分別為97.77%和95.23%。相比YOLOv4-tiny目標(biāo)檢測(cè)模型,YOLOv4-tiny-Tea模型F1值提高了15.57個(gè)百分點(diǎn)。改進(jìn)的YOLOv4-tiny-Tea模型大小為31.9?Mb,便于部署在采茶機(jī)中,檢測(cè)速度為76.9幀·s-1,滿足實(shí)時(shí)采摘的需求。對(duì)自然環(huán)境下尺度變化大、生長(zhǎng)密集的茶葉嫩芽檢測(cè),本研究提出的目標(biāo)檢測(cè)算法表現(xiàn)出較強(qiáng)的魯棒性,模型易于部署,實(shí)現(xiàn)茶芽快速識(shí)別并引導(dǎo)采茶機(jī)精準(zhǔn)定位,為茶葉機(jī)械智能化采摘提供理論依據(jù)。
[1] 張浩, 陳勇, 汪巍, 等. 基于主動(dòng)計(jì)算機(jī)視覺(jué)的茶葉采摘定位技術(shù)[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào), 2014, 45(9): 61-65.
Zhang H, Chen Y, Wang W, et al. Positioning method for tea picking using active computer vision [J]. Transactions of the Chinese Society of Agricultural Machinery, 2014, 45(9): 61-65.
[2] Chen Y T, Chen S F. Localizing plucking points of tea leaves using deep convolutional neural networks [J]. Computers and Electronics in Agriculture, 2020, 171: 105298. doi: 10.1016/j.compag.2020.105298.
[3] 張金炎, 曹成茂, 李文寶, 等. 基于多特征融合的茶葉鮮葉等級(jí)識(shí)別的方法研究[J]. 安徽農(nóng)業(yè)大學(xué)學(xué)報(bào), 2021, 48(3): 480-487.
Zhang J Y, Cao C M, Li W B, et al. Study on the method of recognition of fresh leaf grade of tea based on multi-featured fusion [J]. Journal of Anhui Agricultural University, 2021, 48(3): 480-487.
[4] Yuwana R S, Fauziah F, Heryana A, et al. Data augmentation using adversarial networks for tea diseases detection [J]. Journal Elektronika dan Telekomunikasi, 2020, 20(1): 29-35.
[5] 劉自強(qiáng), 周鐵軍, 傅冬, 等. 基于顏色和形狀的鮮茶葉圖像特征提取及在茶樹(shù)品種識(shí)別中的應(yīng)用[J]. 江蘇農(nóng)業(yè)科學(xué), 2021, 49(12): 168-172.
Liu Z Q, Zhou T J, Fu D, et al. Study on image feature extraction of fresh tea based on color and shape and its application in tea variety recognition [J]. Jiangsu Agricultural Sciences, 2021, 49(12): 168-172.
[6] 毛騰躍, 張?chǎng)┚? 帖軍. 基于顯著性檢測(cè)和Grabcut算法的茶葉嫩芽圖像分割[J]. 中南民族大學(xué)學(xué)報(bào)(自然科學(xué)版), 2021, 40(1): 80-88.
Mao T Y, Zhang W J, Tie J. Image segmentation of tea buds based on salient object detection and Grabcut [J]. Journal of South-Central Minzu University (Natural Science Edition), 2021, 40(1): 80-88.
[7] 姜苗苗, 問(wèn)美倩, 周宇, 等. 基于顏色因子與圖像融合的茶葉嫩芽檢測(cè)方法[J]. 農(nóng)業(yè)裝備與車(chē)輛工程, 2020, 58(10): 44-47.
Jiang M M, Wen M Q, Zhou Y, et al. Tea bud detection method based on color factor and image fusion [J]. Agricultural Equipment & Vehicle Engineering, 2020, 58(10): 44-47.
[8] Wang T, Zhang K M, Zhang W, et al. Tea picking point detection and location based on Mask-RCNN [J]. Information Processing in Agriculture, 2021. doi: 10.1016/j.inpa.2021.12.004.
[9] Iswanto B H , Alma A . Texture histogram features for tea leaf identification using visible digital camera [J]. IOP Conference Series: Materials Science and Engineering, 2021, 1098(3): 1098-1104.
[10] 龍樟, 姜倩, 王健, 等. 茶葉嫩芽視覺(jué)識(shí)別與采摘點(diǎn)定位方法研究[J]. 傳感器與微系統(tǒng), 2022, 41(2): 39-41.
Long Z, Jiang Q, Wang J, et al. Research on method of tea flushes vision recognition and picking point localization [J]. Transducer and Microsystem Technologies, 2022, 41(2): 39-41.
[11] 吳雪梅, 張富貴, 呂敬堂. 基于圖像顏色信息的茶葉嫩葉識(shí)別方法研究[J]. 茶葉科學(xué), 2013, 33(6): 584-589.
Wu X M, Zhang F G, Lv J T. Research on recognition of tea tender leaf based on image color information [J]. Journal of Tea Science, 2013, 33(6): 584-589.
[12] 汪建.結(jié)合顏色和區(qū)域生長(zhǎng)的茶葉圖像分割算法研究[J]. 茶葉科學(xué), 2011, 31(1): 72-77.
Wang J. Segmentation algorithm of tea combined with the color and region growing [J]. Journal of Tea Science, 2011, 31(1): 72-77.
[13] Zhang L, Zou L, Wu C, et al. Method of famous tea sprout identification and segmentation based on improved watershed algorithm [J]. Computers and Electronics in Agriculture, 2021, 184(1): 106108. doi: 10.1016/j.compag.2021.106108.
[14] 王子鈺, 趙怡巍, 劉振宇.基于SSD算法的茶葉嫩芽檢測(cè)研究[J]. 微處理機(jī), 2020, 41(4): 42-48.
Wang Z Y, Zhao Y W, Liu Z Y. Research on tea buds detection based on SSD algorithm [J]. Microprocessors, 2020, 41(4): 42-48.
[15] 孫肖肖, 牟少敏, 許永玉, 等. 基于深度學(xué)習(xí)的復(fù)雜背景下茶葉嫩芽檢測(cè)算法[J]. 河北大學(xué)學(xué)報(bào)(自然科學(xué)版), 2019, 39(2): 211-216.
Sun X X, Mu S M, Xu Y Y, et al. Detection algorithm of tea tender buds under complex background based on deep learning [J]. Journal of Hebei University (Natural Science Edition), 2019, 39(2): 211-216.
[16] Yang H, Chen L, Chen M, et al. Tender tea shoots recognition and positioning for picking robot using improved YOLO-V3 model [J]. IEEE Access, 2019: 180998-181011.
[17] Li Y T, He L Y, Jia J M, et al. In-field tea shoot detection and 3D localization using an RGB-D camera [J]. Computers and Electronics in Agriculture, 2021, 185: 106149. doi: 10.1016/j.compag.2021.106149.
[18] 呂軍, 方夢(mèng)瑞, 姚青, 等. 基于區(qū)域亮度自適應(yīng)校正的茶葉嫩芽檢測(cè)模型[J]. 農(nóng)業(yè)工程學(xué)報(bào), 2021, 37(22): 278-285.
Lyu J, Fang M R, Yao Q, et al. Detection model for tea buds based on region brightness adaptive correction [J]. Transactions of the Chinese Society of Agricultural Engineering, 2021, 37(22): 278-285.
[19] Karunasena G, Priyankara H. Tea bud leaf identification by using machine learning and image processing techniques [J]. International Journal of Scientific & Engineering Research, 2020, 11(8): 624-628.
[20] Li X, Pan J, Xie F, et al. Fast and accurate green pepper detection in complex backgrounds via an improved Yolov4-tiny model [J]. Computers and Electronics in Agriculture, 2021, 191: 106503.
[21] Jiang Z, Zhao L, Li S, et al. Real-time object detection method based on improved YOLOv4-tiny [J]. arXiv preprint, 2020, arXiv: 2011.04244. doi: 10.48550/arXiv.2011.04244.
[22] Misra D. Mish: A self regularized non-monotonic activation function [J]. arXiv preprint, 2019, arXiv: 1908.08681. doi: 10.48550/arXiv.1908.08681.
[23] Glorot X, Bordes A, Bengio Y. Deep sparse rectifier neural networks [C]//Proceedings of the fourteenth international conference on artificial intelligence and statistics. JMLR Workshop and Conference Proceedings, 2011: 315-323.
[24] Zheng Z, Wang P, Liu W, et al. Distance-IoU loss: faster and better learning for bounding box regression [C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2020, 34(7): 12993-13000.
[25] Lin T Y, Dollar P, Girshick R, et al. Feature pyramid networks for object detection [C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2017: 2117-2125.
[26] Woo S, Park J, Lee J Y, et al. CBAM: convolutional block attention module [C]//Proceedings of the European conference on computer vision (ECCV). 2018: 3-19.
[27] Guo C, Fan B, Zhang Q, et al. AugFPN: improving multi-scale feature learning for object detection [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020: 12595-12604.
[28] Syazwany N S, Nam J H, Lee S C. MM-BiFPN: multi-modality fusion network with Bi-FPN for MRI brain tumor segmentation [J]. IEEE Access, 2021: 160708-160720.
[29] 王金鵬, 高凱, 姜洪喆, 等. 基于改進(jìn)的輕量化卷積神經(jīng)網(wǎng)絡(luò)火龍果檢測(cè)方法[J]. 農(nóng)業(yè)工程學(xué)報(bào), 2020, 36(20): 218-225.
Wang J P, Gao K, Jiang H Z, et al. Method for detecting dragon fruit based on improved lightweight convolutional neural network [J]. Transactions of the Chinese Society of Agricultural Engineering, 2020, 36(20): 218-225.
[30] Everingham M, Van Gool L, Williams C K I, et al. The pascal visual object classes challenge [J]. International Journal of Computer Vision, 2010, 88(2): 303-338.
[31] 林森, 劉美怡, 陶志勇. 采用注意力機(jī)制與改進(jìn)YOLOv5的水下珍品檢測(cè)[J]. 農(nóng)業(yè)工程學(xué)報(bào), 2021, 37(18): 307-314.
Lin S, Liu M Y, Tao Z Y. Detection of underwater treasures using attention mechanism and improved YOLOv5 [J]. Transactions of the Chinese Society of Agricultural Engineering, 2021, 37(18): 307-314.
[32] Redmon J, Farhadi A. YOLOv3: an incremental improvement [J]. arXiv preprint, 2018, arXiv: 1804.02767. doi.org/10.48550/arXiv.1804.02767.
[33] Bochkovskiy A, Wang C Y, Liao H Y M. Yolov4: optimal speed and accuracy of object detection [J]. arXiv preprint, 2020, arXiv: 2004.10934. doi: 10.48550/arXiv.2004.10934.
[34] Yap M H, Hachiuma R, Alavi A, et al. Deep learning in diabetic foot ulcers detection: a comprehensive evaluation [J]. Computers in Biology and Medicine, 2021, 135: 104596. doi: 10.1016/j.compbiomed.2021.104596.
[35] Selvaraju R R, Cogswell M, Das A, et al. Grad-cam: visual explanations from deep networks via gradient-based localization [C]//Proceedings of the IEEE International Conference on Computer Vision. 2017: 618-626.
Tea Buds Detection Model Using Improved YOLOv4-tiny
FANG Mengrui1, Lü Jun1*, RUAN Jianyun2, BIAN Lei2, WU Chuanyu3, YAO Qing1
1. School of Information Science and Technology, Zhejiang Sci-Tech University, Hangzhou 310018, China;2. Tea Research Institute, Chinese Academy of Agricultural Sciences, Hangzhou 310008, China;3. School of Mechanical Engineering and Automation, Zhejiang Sci-Tech University, Hangzhou 310018, China
Precise detection of tea buds is a prerequisite for intelligent mechanical picking of tea. Aiming at the problems of poor salience and high missed detection rate of small-scale buds caused by different sizes of tea leaves and the cover of other tea leaves, this paper proposed a kind of tea buds detection model based on improved YOLOv4-tiny. In this model, a 52×52 shallow feature layer was added in the neck network to promote the attention of YOLOv4-tiny network to small target buds. A convolutional block attention module (CBAM) was introduced to suppress the background noise and improve the salience of buds, and a bidirectional feature pyramid network (BiFPN) was used to integrate characteristic information of different scales, so as to propose the YOLOv4-tiny-Tea, a high performance light weight tea buds detection model. The results of model training and performance testing on the same training set and test set show that for the YOLOv4-tiny-Tea model, the detection precision and recall rate were 97.77% and 95.23% respectively, which were 5.58% and 23.14% higher than those before modification. An ablation experiment verified the effectiveness of the modified network structure in detecting different scales of buds, and a comparison of YOLOv4-tiny-Tea model with three YOLO algorithms found that the F1 value of YOLOv4-tiny-Tea model was 12.11%, 11.66% and 6.76% higher than F1 values of YOLOv3, YOLOv4 and YOLOv5l models respectively. The number of parameters in YOLOv4-tiny-Tea model was merely 13.57%, 13.06% and 35.05% of the three network models. The experimental results demonstrate that the method proposed in this paper effectively improved the detection precision of buds under different scales, greatly reduced the missed detection rate of buds for small size or under shading, and significantly bettered the detection precision based on a lightweight computation overhead. Therefore, the method can meet the needs of agricultural robots for real-time detection and embedded development, thus providing a reference for intelligent tea buds picking.
tea, tea buds detection, YOLOv4-tiny, attention mechanism, bidirectional feature pyramid
S571.1;Q126
A
1000-369X(2022)04-549-12
2022-05-09
2022-06-09
財(cái)政部和農(nóng)業(yè)農(nóng)村部:國(guó)家現(xiàn)代農(nóng)業(yè)產(chǎn)業(yè)技術(shù)體系(CARS-19)、浙江省領(lǐng)雁計(jì)劃項(xiàng)目(2022C02052)
方夢(mèng)瑞,男,碩士研究生,主要從事農(nóng)業(yè)智能信息研究,fmengrui@163.com。*通信作者:lv_jun@zstu.edu.cn