摘要:針對(duì)智能采茶機(jī)器人在茶葉嫩芽檢測(cè)過(guò)程中存在的準(zhǔn)確率低、計(jì)算量大、檢測(cè)魯棒性不足等問(wèn)題,提出一種基于改進(jìn)YOLO v8n網(wǎng)絡(luò)模型的茶葉嫩芽檢測(cè)算法YOLO v8-TD。該算法分別在不同天氣(晴天、陰天、雨后)及不同季節(jié)(春、秋)采用不同角度拍攝嫩芽圖像,構(gòu)建數(shù)據(jù)集,利用翻轉(zhuǎn)、旋轉(zhuǎn)、改變亮度、添加噪聲等操作來(lái)進(jìn)行數(shù)據(jù)增強(qiáng),以加強(qiáng)模型在實(shí)際環(huán)境中光照、角度不同的魯棒性。在算法結(jié)構(gòu)上,YOLO v8-TD對(duì)YOLO v8n模型的骨干網(wǎng)絡(luò)和頸部網(wǎng)絡(luò)進(jìn)行改進(jìn)。首先,在C2f模塊中引入了可擴(kuò)張殘差(DWR)注意力機(jī)制,用于增強(qiáng)特征提取能力,使模型能夠更準(zhǔn)確地識(shí)別出茶葉嫩芽的細(xì)微特征。其次,模型引入雙向特征金字塔網(wǎng)絡(luò)(BiFPN)結(jié)構(gòu),用于增強(qiáng)多尺度和通道間的上下文信息捕獲能力,減少信息冗余,使模型能夠在多種尺度下精確定位目標(biāo)。最后,借鑒VoV-GSCSP模塊的思想,改進(jìn)模型頸部網(wǎng)絡(luò),通過(guò)采用分組卷積和通道混洗技術(shù),降低模型的復(fù)雜度和計(jì)算量,提高算法的運(yùn)行效率。試驗(yàn)結(jié)果表明,原始模型在加入DWR可擴(kuò)張殘差注意力機(jī)制后,平均精度上升1.4百分點(diǎn),計(jì)算量減少0.1 GFLPs;疊加BiFPN結(jié)構(gòu)后,有效實(shí)現(xiàn)輕量化,計(jì)算量降為7.1 GFLPs減少了1 GFLPs,但平均精度降為95.4%;最后加入VoV-GSCSP模塊構(gòu)建成YOLO v8-TD,平均精度達(dá)到97.2%,計(jì)算量降至6.6 GFLPs,模型參數(shù)量相較原模型減少36.5%。與Faster-RCNN、SSD、RT-DETR、YOLO v3、YOLO v5和YOLO v8n模型相比,YOLO v8-TD在檢測(cè)精度和模型參數(shù)量大小方面做出了較好的平衡,進(jìn)而為采茶機(jī)器人輕量化部署提供了有效參考。
關(guān)鍵詞:茶葉;改進(jìn)YOLO v8;輕量化;高精度;嫩芽識(shí)別;注意力機(jī)制;BiFPN;采茶機(jī)器人
中圖分類(lèi)號(hào):TP183;S126;TP391.41
文獻(xiàn)標(biāo)志碼:A
文章編號(hào):1002-1302(2024)21-0229-08
收稿日期:2024-06-21
基金項(xiàng)目:中國(guó)高校產(chǎn)學(xué)研創(chuàng)新基金(編號(hào):2022IT182);湖南省教育科學(xué)規(guī)劃課題(編號(hào):XJK24BZY037)。
作者簡(jiǎn)介:宋 敏(1998—),男,湖南郴州人,碩士研究生,主要從事農(nóng)業(yè)工程與信息技術(shù)、計(jì)算機(jī)視覺(jué)研究。E-mail:206290978@qq.com。
通信作者:譚立新,教授,碩士生導(dǎo)師,主要從事機(jī)器人與智能系統(tǒng)、農(nóng)業(yè)信息技術(shù)研究。E-mail:594637823@qq.com。
在茶葉市場(chǎng)需求只增不減的行業(yè)趨勢(shì)下,茶葉采摘環(huán)節(jié)的勞動(dòng)力反而出現(xiàn)逐年衰退現(xiàn)象[1]。由于茶園場(chǎng)地基本上在農(nóng)村郊區(qū)地段,就近勞動(dòng)力老齡化嚴(yán)重,年輕人對(duì)采茶工作認(rèn)可度不高,異地勞動(dòng)力包吃住成本高以及茶葉采摘季節(jié)性強(qiáng),無(wú)法滿(mǎn)足長(zhǎng)期打工者的需求[2]。因而解決采茶勞動(dòng)力不足的需求迫在眉睫,自動(dòng)化機(jī)械采茶成為首選方案[3-4]。目前自動(dòng)化機(jī)械采茶主要針對(duì)的是大宗茶市場(chǎng),采摘方式主要為機(jī)器統(tǒng)一切割采集,其品質(zhì)無(wú)法供應(yīng)高端茶葉市場(chǎng)。高端茶葉市場(chǎng)中名優(yōu)茶的采摘要求都是單芽、1芽1葉、1芽2葉[5]。自動(dòng)化采茶機(jī)器面對(duì)名優(yōu)茶表現(xiàn)得束手無(wú)策,為實(shí)現(xiàn)與人工無(wú)差的采摘品質(zhì),需要機(jī)器學(xué)會(huì)對(duì)茶葉嫩芽的精準(zhǔn)識(shí)別定位,這也是實(shí)現(xiàn)智能化采茶的關(guān)鍵和前提。
茶葉嫩芽檢測(cè)方法主要分為傳統(tǒng)的圖像處理技術(shù)以及深度學(xué)習(xí)方法[6-7]。傳統(tǒng)的圖像處理方法基于灰度、顏色、紋理和形狀等特征,對(duì)圖像進(jìn)行區(qū)域分割和分析,以此分割出不同區(qū)域間的差異,將目標(biāo)突顯出來(lái)。姜苗苗等提出一種基于顏色因子與圖像融合的茶葉嫩芽圖像檢測(cè)算法分割出嫩芽[8]。陳妙婷等通過(guò)提取嫩芽像素點(diǎn)與背景像素點(diǎn)的RGB及(R-B)特征,并重組特征組,利用重組后的特征組分割構(gòu)建支持向量機(jī)SVM實(shí)現(xiàn)對(duì)名優(yōu)茶嫩芽圖像自動(dòng)分割[9]。呂軍等針對(duì)現(xiàn)有茶葉嫩芽圖像自動(dòng)檢測(cè)方法存在對(duì)光照變化的敏感這一特點(diǎn)提出一種基于區(qū)域亮度自適應(yīng)校正的茶葉嫩芽檢測(cè)模型[10]。許寶陽(yáng)等基于Faster-RCNN構(gòu)建深度學(xué)習(xí)網(wǎng)絡(luò)模型,從嫩芽數(shù)量、生長(zhǎng)姿態(tài)、不同采集數(shù)據(jù)角度以及不同光照條件等多種維度進(jìn)行嫩芽識(shí)別,在光線和角度變化較大場(chǎng)景下效果不佳[11-12]。王夢(mèng)妮等提出一種基于改進(jìn)YOLO v5s網(wǎng)絡(luò)模型的茶葉嫩芽檢測(cè)算法,該算法提高了改進(jìn)模型的復(fù)雜度,將小目標(biāo)特征作為研究重點(diǎn),并在小目標(biāo)檢測(cè)上頗有成效,然而在識(shí)別精度方面不足90%,依然還有很大的提升空間[13-14]。現(xiàn)有研究中使用的網(wǎng)絡(luò)模型參數(shù)較為復(fù)雜,計(jì)算量較大,難以在識(shí)別效率與準(zhǔn)確率之間達(dá)到有效平衡。模型計(jì)算量決定了對(duì)于設(shè)備成本的要求,而準(zhǔn)確率是決定模型能否實(shí)際應(yīng)用的關(guān)鍵指標(biāo)。
針對(duì)以上問(wèn)題,以茶葉嫩芽檢測(cè)識(shí)別作為研究目標(biāo),采用YOLO v8目標(biāo)檢測(cè)算法為基礎(chǔ),根據(jù)目前嫩芽檢測(cè)識(shí)別存在的問(wèn)題和缺陷進(jìn)行改進(jìn),進(jìn)而推進(jìn)茶葉智能采茶識(shí)別研究的進(jìn)展。本研究可為解決數(shù)據(jù)集構(gòu)建困難、茶葉嫩芽檢測(cè)精度不高以及現(xiàn)有檢測(cè)模型計(jì)算量大提出解決方案,為茶葉采摘機(jī)器人的研發(fā)提供支持。
1 試驗(yàn)數(shù)據(jù)
1.1 數(shù)據(jù)樣本采集
本研究的茶葉嫩芽圖像樣本由筆者所在的實(shí)驗(yàn)室團(tuán)隊(duì)2023年清明節(jié)前后以及秋季在湖南省長(zhǎng)沙市長(zhǎng)沙縣高橋鎮(zhèn)溪清茶園采集,采集設(shè)備為iPhone 13 pro以及Nikon D3100。圖像采集的對(duì)象為開(kāi)春的鮮嫩茶芽以及秋季茶芽目標(biāo),拍攝的圖像包含了斜45°俯拍、90°俯拍、強(qiáng)光照射、多目標(biāo)、遮光環(huán)境、雨后等類(lèi)型。最終確定合格的原始圖像 2 864 張(圖1)。
1.2 數(shù)據(jù)集制作
本次數(shù)據(jù)集標(biāo)簽采用LabelImg進(jìn)行茶葉嫩芽位置標(biāo)注,分為1芽1葉(leaf_1)和1芽2葉(leaf_2)2個(gè)標(biāo)簽。將標(biāo)簽的保存文件設(shè)置.txt格式以及制作了.txt標(biāo)簽轉(zhuǎn).xml標(biāo)簽的轉(zhuǎn)換工具,以便使用。為了進(jìn)一步提高模型的泛化能力,利用翻轉(zhuǎn)、旋轉(zhuǎn)、改變亮度、添加噪聲等操作來(lái)進(jìn)行數(shù)據(jù)增強(qiáng),以加強(qiáng)在實(shí)際環(huán)境中光照、角度不同的魯棒性。將數(shù)據(jù)集以7∶2∶1的比例隨機(jī)劃分為訓(xùn)練集、驗(yàn)證集、測(cè)試集。經(jīng)過(guò)增強(qiáng)得到的數(shù)據(jù)集結(jié)果如表1所示,增強(qiáng)效果如圖2所示。
2 嫩芽識(shí)別算法改進(jìn)
2.1 YOLO v8算法
YOLO屬于單階段目標(biāo)檢測(cè)網(wǎng)絡(luò)[15],主要的版本包括YOLO v3、YOLO v5、YOLO v7以及YOLO v8算法[16-19],選取其中最新的YOLO v8算法。YOLO v8包括YOLO v8n、YOLO v8s、YOLO v8m、YOLO v8l以及YOLO v8x等5個(gè)尺寸,網(wǎng)絡(luò)深度和網(wǎng)絡(luò)寬度和計(jì)算量依次增大。YOLO v8n的模型深度雖然最淺,但是依舊有著良好的檢測(cè)精度,相較于更深度的模型如YOLO v8s及以上版本的精度提升并不多,但模型體積卻大出好幾倍。結(jié)合茶葉采摘對(duì)于實(shí)時(shí)性高的要求,選擇模型復(fù)雜度最低的YOLO v8n模型加以改進(jìn),在提高檢測(cè)精度的同時(shí),保持輕量化。YOLO v8 網(wǎng)絡(luò)的訓(xùn)練過(guò)程包括數(shù)據(jù)預(yù)處理與數(shù)據(jù)增強(qiáng)、錨框自適應(yīng)計(jì)算、特征提取、特征融合和檢測(cè)頭的訓(xùn)練:(1)通過(guò)Mosaic數(shù)據(jù)增強(qiáng)技術(shù)對(duì)輸入圖像進(jìn)行隨機(jī)縮放、裁剪和拼接,增加訓(xùn)練數(shù)據(jù)的多樣性,提高模型對(duì)小目標(biāo)的檢測(cè)能力;(2)根據(jù)訓(xùn)練數(shù)據(jù)集的目標(biāo)大小和比例設(shè)置初始錨框,并在訓(xùn)練過(guò)程中通過(guò)預(yù)測(cè)框與真實(shí)框的比較,利用反向傳播算法自適應(yīng)調(diào)整錨框參數(shù);(3)通過(guò)深層卷積神經(jīng)網(wǎng)絡(luò)提取多尺度圖像特征,并利用特征金字塔網(wǎng)絡(luò)將不同尺度的特征進(jìn)行融合,增強(qiáng)特征表達(dá)的細(xì)粒度信息;(4)在檢測(cè)頭部分,分別對(duì)融合后的特征進(jìn)行分類(lèi)和邊界框回歸,計(jì)算分類(lèi)損失和定位損失,并通過(guò)反向傳播和優(yōu)化算法調(diào)整網(wǎng)絡(luò)權(quán)重;(5)通過(guò)非極大值抑制處理候選框,移除重復(fù)和冗余的框,輸出置信度最高的檢測(cè)結(jié)果。
2.2 骨干網(wǎng)絡(luò)優(yōu)化
近年來(lái),注意力機(jī)制已成為深度學(xué)習(xí)領(lǐng)域的一項(xiàng)革命性技術(shù),其核心理念在于優(yōu)化資源分配,確保神經(jīng)網(wǎng)絡(luò)在有限的計(jì)算能力下,能夠高效地聚焦于關(guān)鍵信息[20]。這一機(jī)制通過(guò)智能地篩選海量輸入數(shù)據(jù),實(shí)現(xiàn)快速定位高價(jià)值信息,極大地提升了模型在處理自然語(yǔ)言、圖像識(shí)別等復(fù)雜任務(wù)時(shí)的性能和效率。將原本骨干網(wǎng)絡(luò)中最后2個(gè)特征融合模塊融合擴(kuò)張式殘差注意力結(jié)構(gòu)DWR(dilation-wise residual),使用2步區(qū)域殘差化語(yǔ)義多尺度特征提取[21]。通過(guò)第1步區(qū)域形式特征映射進(jìn)行目標(biāo)感受野內(nèi)的語(yǔ)義形態(tài)濾波操作,使卷積在特征提取中扮演更簡(jiǎn)單的角色,從而提高效率。DWR模塊采用殘差結(jié)構(gòu)設(shè)計(jì)(圖3),部分設(shè)計(jì)1個(gè)三分支DWR模塊結(jié)構(gòu)。該模塊在設(shè)計(jì)上采用3個(gè)并行的卷積(dilated convolution,記作D-n,n表示擴(kuò)張率)分支(分別對(duì)應(yīng)不同的擴(kuò)張率),實(shí)現(xiàn)對(duì)高層特征的多尺度上下文信息提取。模塊內(nèi)部包含區(qū)域殘差化(region residualization,縮寫(xiě)為RR)和語(yǔ)義殘差化(semantic residualization,縮寫(xiě)為SR)2個(gè)步驟。在處理過(guò)程中,所有生成的不同尺度區(qū)域的特征圖會(huì)拼接(concatenate)起來(lái),進(jìn)行批量歸一化(BN),通過(guò)點(diǎn)卷積(point-wise convolution)整合特征形成最終的殘差,這些殘差隨后被添加回輸入的特征圖中,構(gòu)建出更全面的特征表示。
2.3 頸部網(wǎng)絡(luò)優(yōu)化
2.3.1 BiFPN優(yōu)化頸部網(wǎng)絡(luò)
在處理多尺度特征融合問(wèn)題時(shí),傳統(tǒng)的特征金字塔網(wǎng)絡(luò)FPN采取自上而下的方式融合來(lái)自不同層級(jí)的特征信息[22]。YOLO v8n采用的路徑聚合網(wǎng)絡(luò)PANet,PANet中的單節(jié)點(diǎn)能夠獲取的信息并不多,卻增加了模型的參數(shù),是一個(gè)弊大于利的操作[23]。本研究引入了一種改進(jìn)的網(wǎng)絡(luò)結(jié)構(gòu)BiFPN,其3種頸部網(wǎng)絡(luò)如圖4所示[24]。
BiFPN在FPN的基礎(chǔ)上引入了雙向信息流,并在特征金字塔的構(gòu)建過(guò)程中添加了一些額外操作。通過(guò)引入雙向信息流,BiFPN能夠更好地捕獲多尺度信息,提高特征的豐富性和穩(wěn)定性。此外,BiFPN中的額外操作進(jìn)一步增強(qiáng)特征的表達(dá)能力,使模型更具有適應(yīng)性和泛化能力。相較于其他特征融合網(wǎng)絡(luò),BiFPN的區(qū)別在于去除了只有1個(gè)輸入邊的節(jié)點(diǎn)。由于這些節(jié)點(diǎn)僅有單一輸入,無(wú)法實(shí)現(xiàn)特征融合,因此對(duì)特征網(wǎng)絡(luò)的貢獻(xiàn)較小,從而簡(jiǎn)化了雙向網(wǎng)絡(luò)。此外,它通過(guò)在同一層級(jí)上從輸入到輸出節(jié)點(diǎn)增加額外的邊,能夠在不顯著增加計(jì)算成本的情況下融合更多特征。最后,BiFPN不同于僅包含單條自頂向下和自底向上路徑的PANet,它將每個(gè)雙向路徑作為一個(gè)特征網(wǎng)絡(luò)層,并多次重復(fù)該層,以實(shí)現(xiàn)更高級(jí)別的特征融合。在BiFPN中,特征融合是通過(guò)加權(quán)和歸一化操作來(lái)實(shí)現(xiàn)的。假設(shè)在第i層輸入的特征為Xi,經(jīng)過(guò)特征融合后的輸出特征為Yi。特征融合過(guò)程表示為:
Yi=(∑N/j=0wj)Xij。(1)
式中:N是輸入特征的數(shù)量;wj是對(duì)應(yīng)的特征權(quán)重,滿(mǎn)足∑N/j=0wj=1。特征權(quán)重可以根據(jù)特征的重要性動(dòng)態(tài)調(diào)整或?qū)W習(xí)得到。
2.3.2 VoV-GSCSP優(yōu)化頸部網(wǎng)絡(luò)
考慮到采茶機(jī)器人在實(shí)際工作中的實(shí)時(shí)性要求,為了減少模型計(jì)算量,特引入Slim-neck中的VoV-GSCSP,利用一次性聚合的方法實(shí)現(xiàn)跨階段部分網(wǎng)絡(luò)模塊[25]。其中,GSConv主要通過(guò)使用2步卷積處理輸入特征圖,此步驟有效地降低了計(jì)算復(fù)雜度。然后,通過(guò)通道混洗操作,將由標(biāo)準(zhǔn)卷積(即通道密集型卷積)產(chǎn)生的特征信息均勻地分布到每個(gè)通道的特征信息中,實(shí)現(xiàn)信息的充分混合,增強(qiáng)通道間的互動(dòng)性,而這種混合是無(wú)附加計(jì)算成本的標(biāo)準(zhǔn)化操作。而由于茶葉圖像背景復(fù)雜等特性,將GSConv中的深度可分離卷積(depth-wise convolution)替換為標(biāo)準(zhǔn)卷積,用以學(xué)習(xí)嫩芽復(fù)雜的特征。最終得到的特征圖,即GSConv的輸出特征,通過(guò)混入標(biāo)準(zhǔn)卷積的信息,提升特征表示能力,使其在保持輕量化的同時(shí),接近于使用標(biāo)準(zhǔn)卷積所獲得的特征質(zhì)量,如圖5中GSConv所示。GSBottleneck是將一個(gè)輸入分為2條支流,分別經(jīng)過(guò)由2個(gè)GSConv處理和1個(gè)Conv在另一個(gè)支流處理的結(jié)構(gòu)拼接組成。最終構(gòu)建的 VoV-GSCSP 由輸入分流之后一邊支流進(jìn)行標(biāo)準(zhǔn)卷積處理之后交給GSBottleneck模塊處理,與另一條支流拼接形成(圖5)。
2.4 YOLO v8-TD模型構(gòu)建
本研究以YOLO v8n為基礎(chǔ)模型加以改進(jìn),以適應(yīng)移動(dòng)端以及嵌入式設(shè)備在實(shí)際茶園環(huán)境對(duì)于茶葉嫩芽的識(shí)別檢測(cè)?;谝陨显囼?yàn)論證,針對(duì)YOLO v8n的改進(jìn)如下:將骨干網(wǎng)絡(luò)(backbone)中第6層和第8層C2f模塊中添加DWR注意力機(jī)制,提高特征提取能力。在頸部網(wǎng)絡(luò)處理特征融合問(wèn)題上,將頸部端的PANet 換成 BiFPN,去除無(wú)效貢獻(xiàn)節(jié)點(diǎn),實(shí)現(xiàn)減少冗余計(jì)算,通過(guò)加權(quán)雙向特征金字塔網(wǎng)絡(luò)增強(qiáng)特征融合能力,從而提升識(shí)別效率與準(zhǔn)確率。最后采用VoV-GSCSP模塊改進(jìn)頸部網(wǎng)絡(luò)的C2f結(jié)構(gòu),用以進(jìn)一步降低計(jì)算量。改進(jìn)的YOLO v8-TD網(wǎng)絡(luò)結(jié)構(gòu)如圖6所示。
3 結(jié)果與分析
3.1 試驗(yàn)環(huán)境
本試驗(yàn)于2023年7月至2024年4月在湖南農(nóng)業(yè)大學(xué)研究生實(shí)驗(yàn)室進(jìn)行,試驗(yàn)環(huán)境配置為Intel Core i5-13400F處理器,該處理器主頻2.50 GHz,最高睿頻4.6 GHz,運(yùn)行內(nèi)存采用單根32 GB,模型訓(xùn)練主要使用GPU提供算力,配置為NVIDIA RTX 2060 6 GB版本,算法程序在Windows 11操作系統(tǒng)上運(yùn)行,模型主體架構(gòu)采用Pytorch 1.13.1框架進(jìn)行搭建,根據(jù)模型訓(xùn)練的結(jié)果進(jìn)行分析優(yōu)化改進(jìn)。將基準(zhǔn)YOLO v8n網(wǎng)絡(luò)模型和YOLO v8-TD模型使用測(cè)試集做試驗(yàn)對(duì)比。各個(gè)模型訓(xùn)練時(shí)的圖像數(shù)據(jù)集統(tǒng)一使用640像素×640像素的分辨率大小,使用SGD優(yōu)化器,學(xué)習(xí)率設(shè)置為0.01,批次大小設(shè)置為16,訓(xùn)練輪次為100。
3.2 評(píng)價(jià)指標(biāo)
試驗(yàn)結(jié)果采用準(zhǔn)確率(P)、召回率(R)、平均精度均值(mAP)來(lái)衡量模型預(yù)測(cè)的準(zhǔn)確度,計(jì)算公式如下:
P=TP/TP+FP×100%;(2)
R=TP/TP+FN×100%;(3)
AP=∫10P(R)dR;(4)
mAP=∑C/C=1AP(C)/C×100%。(5)
式中:TP表示模型正確地將正例預(yù)測(cè)為正例的數(shù)量;FP表示模型錯(cuò)誤地將負(fù)例預(yù)測(cè)為正例的數(shù)量;FN表示模型錯(cuò)誤地將正例預(yù)測(cè)為負(fù)例的數(shù)量;P表示準(zhǔn)確率,它用于衡量YOLO v8算法在識(shí)別茶葉嫩芽時(shí)的準(zhǔn)確性,在預(yù)測(cè)為茶葉嫩芽的樣本中真實(shí)茶葉嫩芽數(shù)量;R表示召回率,在所有實(shí)際為茶葉嫩芽的樣本中,YOLO v8算法正確識(shí)別為茶葉嫩芽樣本所占的比例,它用于衡量YOLO v8算法在識(shí)別茶葉嫩芽時(shí)的完整性,在算法中能夠找出實(shí)際為茶葉嫩芽的樣本數(shù)量;表示平均精度,在不同閾值下計(jì)算出精度的加權(quán)平均值,其中權(quán)重是相鄰2個(gè)閾值之間的精度差值,它用于評(píng)估不同閾值下 YOLO v8算法識(shí)別茶葉嫩芽的性能;表示多個(gè)類(lèi)別上計(jì)算出的平均精度的加權(quán)平均值,它用于評(píng)估多類(lèi)別分類(lèi)器的性能;C表示類(lèi)別數(shù)量,∑C/C=1AP(C)表示對(duì)所有類(lèi)別計(jì)算出的平均精度進(jìn)行求和,將茶葉嫩芽視為一個(gè)類(lèi)別,用來(lái)評(píng)估 YOLO v8算法在識(shí)別茶葉嫩芽這一類(lèi)別的性能。
3.3 試驗(yàn)?zāi)P徒Y(jié)果對(duì)比
在1 023張測(cè)試集上對(duì)比YOLO v8n網(wǎng)絡(luò)模型與改進(jìn)后的YOLO v8-TD模型的性能表現(xiàn),從密集目標(biāo)、前背景顏色相似、復(fù)雜背景以及雨后等4種場(chǎng)景中各隨機(jī)選擇1張嫩芽圖像進(jìn)行展示,結(jié)果如圖7所示。
通過(guò)圖7可以看出,在上述4種場(chǎng)景中,原YOLO v8模型對(duì)1芽2葉的漏檢率較高,且目標(biāo)置信度稍低。相比之下,YOLO v8-TD模型在檢測(cè)茶葉圖像時(shí)具有更高的置信度分?jǐn)?shù),并且識(shí)別出的嫩芽目標(biāo)數(shù)量更多。
通過(guò)圖8-a和圖8-b比較可以發(fā)現(xiàn),左側(cè)對(duì)于1芽1葉目標(biāo)的檢測(cè),在未加入DWR殘差注意力機(jī)制之前,熱力圖顯示特征提取溢出嫩芽邊界。改進(jìn)過(guò)的YOLO v8-TD特征提取則更專(zhuān)注于正確的特征區(qū)域。
3.4 消融試驗(yàn)性能對(duì)比
本研究通過(guò)消融試驗(yàn)以檢驗(yàn)不同優(yōu)化策略的有效性,試驗(yàn)結(jié)果如表2所示,C2f-DWR結(jié)構(gòu)提高了骨干網(wǎng)絡(luò)特征提取能力,準(zhǔn)確率提升了2.7百分點(diǎn),召回率提高了1.4百分點(diǎn),mAP提升了1.4百分點(diǎn),模型大小減少了0.1 MB。若在引入C2f-DWR結(jié)構(gòu)的基礎(chǔ)上,頸部添加BiFPN+VoV結(jié)構(gòu),在mAP下降不大的情況下,參數(shù)量降低36.5%。最終,改進(jìn)后的YOLO v8-TD模型,相比于原模型準(zhǔn)確率和mAP依然比原模型有所提升1.2、0.8百分點(diǎn)。從圖9模型曲線訓(xùn)練圖可以看出,添加DWR注意力機(jī)制后,相較原模型曲線有顯著提升,在加入雙向信息流傳遞后,參數(shù)量下降,再通過(guò)VoV-GSCSP模塊的處理保持計(jì)算量降低的同時(shí)彌補(bǔ)BiFPN帶來(lái)的mAP下降。
3.5 不同網(wǎng)絡(luò)模型試驗(yàn)對(duì)比
將基于YOLO v8n改進(jìn)的YOLO v8-TD與主流目標(biāo)檢測(cè)網(wǎng)絡(luò)模型如Faster-RCNN、SSD、YOLO v3、YOLO v5n、RT-DETR以及YOLO v8n進(jìn)行試驗(yàn)對(duì)比,結(jié)果如表3所示,YOLO v8-TD平均精度均值分別比Faster-RCNN、SSD、YOLO v5n、YOLO v8n高2.3、16.2、5.7、0.8百分點(diǎn),略低于YOLO v3網(wǎng)絡(luò)模型(0.7百分點(diǎn)),然而YOLO v3的模型大小相比于YOLO v8-TD卻達(dá)到了30.1倍。綜合來(lái)看,YOLO v8-TD兼顧了高精度以及輕量化的需要。
4 結(jié)論
為了能夠快速準(zhǔn)確低成本地解決茶葉采摘機(jī)器人對(duì)于茶葉嫩芽的識(shí)別問(wèn)題, 本研究提出一種改進(jìn)的茶葉嫩芽檢測(cè)算法YOLO v8-TD。根據(jù)茶葉的實(shí)際環(huán)境,自建了一個(gè)包含晴天、陰天、雨后3種天氣情況以及春秋2個(gè)季節(jié)的茶葉嫩芽數(shù)據(jù)集。本研究以原YOLO v8n模型為基礎(chǔ)進(jìn)行改進(jìn),使用擴(kuò)張式殘差注意力結(jié)構(gòu)DWR取代骨干網(wǎng)絡(luò)中第6層與第8層2個(gè)C2f,通過(guò)實(shí)現(xiàn)兩步區(qū)域殘差化-語(yǔ)義殘差化的高效多尺度特征提取,提高mAP。BiFPN雙向特征金字塔網(wǎng)絡(luò)替換PANet路徑聚合網(wǎng)絡(luò),實(shí)現(xiàn)輕量化模型參數(shù),并引入slim-neck中的VoV-GSCSP特征融合模塊實(shí)現(xiàn)保證參數(shù)量降低的同時(shí)兼顧mAP的提升。經(jīng)過(guò)與Faster-RCNN、SSD、RT-DETR、YOLO v3、YOLO v5n以及YOLO v8n模型進(jìn)行試驗(yàn)對(duì)比[26-27],結(jié)果表明,本研究提出的YOLO v8-TD茶葉嫩芽識(shí)別的平均精度均值、準(zhǔn)確率、召回率以及參數(shù)量等指標(biāo)中某些單一指標(biāo)略低于其他模型,但從綜合精度以及模型大小的來(lái)看,該模型對(duì)自然場(chǎng)景下的茶葉嫩芽檢測(cè)性能良好,可對(duì)名優(yōu)茶采摘機(jī)器人的研發(fā)提供參考,并在部署于移動(dòng)設(shè)備上具有優(yōu)勢(shì)。
參考文獻(xiàn):
[1] 馮小芯. 誰(shuí)在分羹3000億茶葉市場(chǎng)[N]. 第一財(cái)經(jīng)日?qǐng)?bào),2024-01-24(A09).
[2]趙婧赟,張 麥. 春茶采摘之憂(yōu),如何解?[N]. 紹興日?qǐng)?bào),2024-04-13(002).
[3]鄭 航,傅 童,薛向磊,等. 茶葉機(jī)械化采摘技術(shù)研究現(xiàn)狀與展望[J]. 中國(guó)農(nóng)機(jī)化學(xué)報(bào),2023,44(9):28-35.
[4]王小勇,湯丹丹. 茶葉采摘技術(shù)及采茶機(jī)械研究進(jìn)展[J]. 茶葉學(xué)報(bào),2022,63(4):275-282.
[5]劉明麗,彭 云,許艷艷,等. 我國(guó)名優(yōu)茶機(jī)采機(jī)制的研究現(xiàn)狀[J]. 食品工業(yè),2023,44(5):287-291.
[6]Zou Z X,Shi Z W,Guo Y H,et al. Object detection in 20 years:a survey[J]. Proceedings of the IEEE,2023,111(3):257-276.
[7]張 航,顏 佳. 語(yǔ)義分割和HSV色彩空間引導(dǎo)的低光照?qǐng)D像增強(qiáng)[J]. 中國(guó)圖象圖形學(xué)報(bào),2024,29(4):966-977.
[8]姜苗苗,問(wèn)美倩,周 宇,等. 基于顏色因子與圖像融合的茶葉嫩芽檢測(cè)方法[J]. 農(nóng)業(yè)裝備與車(chē)輛工程,2020,58(10):44-47.
[9]陳妙婷,楊廣蕾,秦鵬濤. 基于SVM的名優(yōu)茶嫩芽圖像自動(dòng)分割方法[J]. 現(xiàn)代信息科技,2021,5(2):89-92.
[10] 呂 軍,方夢(mèng)瑞,姚 青,等. 基于區(qū)域亮度自適應(yīng)校正的茶葉嫩芽檢測(cè)模型[J]. 農(nóng)業(yè)工程學(xué)報(bào),2021,37(22):278-285.
[11]許寶陽(yáng),高延峰. 基于Faster-RCNN深度學(xué)習(xí)的茶葉嫩芽多維度識(shí)別及其性能分析[J]. 農(nóng)業(yè)裝備與車(chē)輛工程,2023,61(2):19-24.
[12]Ren S Q,He K M,Girshick R,et al. Faster R-CNN:towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,39(6):1137-1149.
[13]王夢(mèng)妮,顧寄南,王化佳,等. 基于改進(jìn)YOLO v5s模型的茶葉嫩芽識(shí)別方法[J]. 農(nóng)業(yè)工程學(xué)報(bào),2023,39(12):150-157.
[14]樊 嶸,馬小陸. 面向帶鋼表面小目標(biāo)缺陷檢測(cè)的改進(jìn)YOLO v7算法[J]. 合肥工業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版),2024,47(3):303-308,316.
[15]Redmon J,Divvala S,Girshick R,et al. You only look once:unified,real-time object detection[C]//2016 IEEE Comference on Computer Vision amp; Pattern Recognition. Las Vegas:IEEE,2016:779-788.
[16]Redmon J,F(xiàn)arhadi A. YOLO v3:an incremental improvement[EB/OL]. (2018-04-08)[2024-04-20]. https://arxiv.org/abs/1804.02767.
[17]Jocher G. YOLO v5 release v6.0[EB/OL]. (2021-10-12)[2023-08-10]. https://github.com/ultralytics/YOLO v5/releases/tag/v6.0.
[18]Wang C Y,Bochkovskiy A,Liao H Y M. YOLO v7:trainable bag-of-freebies sets new state-of-the-art for real-time object detectors[C]//2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Vancouver:IEEE,2023:7464-7475.
[19]洪孔林,吳明暉,高 博,等. 基于改進(jìn)YOLO v7-tiny的茶葉嫩芽分級(jí)識(shí)別方法[J]. 茶葉科學(xué),2024,44(1):62-74.
[20]Bahdanau D,Cho K,Bengio Y. Neural machine translation by jointly learning to align and translate[EB/OL]. (2016-05-19)[2024-04-20]. https://www.arxiv.org/abs/1409.0473.
[21]Wei H R,Liu X,Xu S C,et al. DWRSeg:rethinking efficient acquisition of multi-scale contextual information for real-time semantic segmentation[EB/OL]. (2023-09-13)[2024-04-25]. https://arxiv.org/abs/2212.01173.
[22]Lin T Y,Dollar P,Girshick R,et al. Feature pyramid networks for object detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu:IEEE,2017:936-944.
[23]Liu S,Qi L,Qin H,et al. Path aggregation network for instance segmentation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition。 Salt Lake:IEEE,2018:8759-8768.
[24]Tan M X,Pang R M,le Quoc V. Le. EfficientDet:scalable and efficient object detection[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seatlle:IEEE,2020:10778-10787.
[25]Li H,Li J,Wei H,et al. Slim-neck by GSConv:a lightweight-design for real-time detector architectures[EB/OL]. (2022-08-17)[2024-04-25]. https://arxiv.org/abs/2206.02424.
[26]Liu W,Anguelov D,Erhan D,et al. SSD:single shot multiBox detector[M]//Bertino E. Lecture notes in computer science. Cham:Springer International Publishing,2016:21-37.
[27]Zhao Y A,Lyu W Y,Xu S L,et al. Detrs beat yolos on real-time object detection[C]//2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle:IEEE,2024:16965-16974.