中圖分類(lèi)號(hào):S238 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2095-5553(2025)07-0138-07
Abstract:Inordertoaccuratelyidentifythemainveinoftobacoleaf,realizemechanicalgraspingandreducetherateof grasping damage,animprovedlightweightobaccoleaf mainveinsrecognitionmodelbasedonYOLOv7—tinywasproposedFirstly, theoriginaltrunk featureextractionnetwork isreplacedbyamore lightweight MobileNetV3basedonYOLOv7—tinynetwork, thedefaulth-swishactivationfunctioninthemoduleisreplacedbyReLUactivationfunction.Then,thecommonconvolutionof theneckisreplacedbyalightweightGSConvandaSlim—Neckdesignisadoptedtoompressthechannelofthemodelandeliminate theredundantfeatureredundancyinordertolightenthenetworkstructure.Atlast,theSIoUlossfunctionwas introducedtoreduce thelossvalueofthemodelandenhancethefusionabilityof themodeltothemainveinoftobaco.Theresultsshowedthatthemap value of the improved model on the tobacco leaf dataset was 91.3% ,at a cost of only 1.6% loss,the parameter quantity was reduced by 51.1% compared with the original model,and the computational load was 4.3G ,only 32.6% of the original model (13.2G). Compared with YOLOv5—s ( 16.5G ,YOLOv6—n(11.4G),Yolox—s (26.8G),YOLOv8—n(8.7G),and YOLOv9—t (7.7G),allofthemwereimproved.Theimprovedmodelcanbedeployedinthemarginalequipmentwithscarcecomputing resources,which provides some technical support for the mechanized harvesting of tobacco leaves.
Keywords:tobacco leaf main veins;lightweight;mechanized harvesting;accurate identification;marginal deployment
0 引言
有重要影響。隨著勞動(dòng)力成本增長(zhǎng),煙葉生產(chǎn)正陷入缺少勞動(dòng)力的困難局面,以替代人力為目的的煙葉生產(chǎn)機(jī)械化是現(xiàn)代煙葉農(nóng)業(yè)發(fā)展的重要課題[1]。煙葉生煙葉是煙草工業(yè)的主要原料,對(duì)全球經(jīng)濟(jì)發(fā)展具產(chǎn)條件的復(fù)雜性,具體表現(xiàn)在煙田的不規(guī)整性以及煙葉的易損性,導(dǎo)致機(jī)械化收獲時(shí)難免對(duì)煙葉造成一定的損害。為更好地解決上述問(wèn)題,在煙葉生產(chǎn)機(jī)械上部署目標(biāo)檢測(cè)模型,對(duì)煙葉的抓取部位實(shí)現(xiàn)精準(zhǔn)抓取是降低煙葉破損率的有效措施之一,這要求對(duì)煙葉的主脈部位進(jìn)行準(zhǔn)確識(shí)別。近年來(lái),農(nóng)業(yè)領(lǐng)域應(yīng)用圖像識(shí)別已成為一種趨勢(shì),在煙葉的智能分級(jí)、品質(zhì)檢測(cè)和成熟度檢測(cè)環(huán)節(jié)上已被廣泛使用,大多數(shù)以煙葉顏色、形狀、紋理特征與機(jī)器學(xué)習(xí)相結(jié)合的方法實(shí)現(xiàn)[2-4]。隨著計(jì)算機(jī)視覺(jué)的不斷發(fā)展,計(jì)算機(jī)深度學(xué)習(xí)憑借高速度和高精確度,對(duì)煙葉分組和識(shí)別的研究越來(lái)越多,但仍存在復(fù)雜煙葉主脈分析過(guò)程自動(dòng)化低,在遮擋的情況下煙葉主脈難以被識(shí)別等問(wèn)題[5,6]。
農(nóng)業(yè)圖像識(shí)別的關(guān)鍵是尋找更強(qiáng)大的表征,只捕獲圖像中對(duì)于給定任務(wù)最顯著的屬性,從而提高模型的性能。YOLO是目前階段最有代表性的單階段檢測(cè)器,相比于R一CNN、FasterR一CNN等雙階段目標(biāo)檢測(cè)算法擁有更快的檢測(cè)速度[7,8],更適用于農(nóng)業(yè)工程領(lǐng)域[9]。2015年Redmon等[10]首次提出單階段目標(biāo)檢測(cè)的概念,將目標(biāo)檢測(cè)看作回歸問(wèn)題,大大提高了目標(biāo)檢測(cè)的效率,此后又依據(jù)FPN的思想,利用多尺度的特征圖來(lái)提高小物體檢測(cè)的精度,并在Backbone特征提取網(wǎng)絡(luò)中加人了殘差模塊,使模型提取到更深層次的特征[11-13]。YOLOv4[14]和YOLOv5[15]在框架上沒(méi)有大的改進(jìn),還是延續(xù)之前anchor-base的目標(biāo)檢測(cè)方法,并集成其他優(yōu)秀的模塊對(duì)模型進(jìn)行優(yōu)化,一定程度上降低了對(duì)訓(xùn)練設(shè)備的要求。此外,YOLOv7[16]專(zhuān)注于優(yōu)化訓(xùn)練過(guò)程,利用聚類(lèi)得到預(yù)測(cè)框參數(shù)并轉(zhuǎn)變?yōu)槎ㄎ荒繕?biāo)中心點(diǎn),在精度與anchor-base幾乎一致的前提下極大提高了訓(xùn)練效率。
與傳統(tǒng)圖像識(shí)別相比,基于深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的圖像識(shí)別模型在訓(xùn)練時(shí),通過(guò)卷積神經(jīng)網(wǎng)絡(luò)自主學(xué)習(xí)特征[7]。李尚平等[18]通過(guò)增加 BIFPN 特征融合和CA 注意力機(jī)制使YOLOv5實(shí)現(xiàn)蔗梢分叉點(diǎn)在復(fù)雜環(huán)境下的精準(zhǔn)識(shí)別。郭輝等[19將YOLOv5與空間定位結(jié)合起來(lái)對(duì)紅花的花冠進(jìn)行目標(biāo)檢測(cè)及空間定位,提高了紅花采摘機(jī)器人在田間的作業(yè)效率。對(duì)于目前檢測(cè)在移動(dòng)端的部署,黃家才等[20]將YOLOv4主干替換為GhostNet,并將Neck中的卷積全部替換為Ghost輕量卷積,降低了目標(biāo)檢測(cè)模型對(duì)硬件性能的需求。張楠楠等2]在YOLOv7的backbone和head之間加人CBAM注意力機(jī)制對(duì)棉葉進(jìn)行病蟲(chóng)害識(shí)別,改進(jìn)后模型的識(shí)別精度相比于YOLOv5提高了21個(gè)百分點(diǎn),對(duì)比原模型提高了4.9個(gè)百分點(diǎn)。楊佳昊等22構(gòu)建了一種輕量化模型的方法,將模型的主干替換成性能優(yōu)異的輕量級(jí)主干LCNN,通過(guò)微調(diào)及知識(shí)蒸餾來(lái)提高模型的精度,使模型精度達(dá)到改進(jìn)前的水平。王昱等23]基于YOLOv7—tiny加人無(wú)參數(shù)注意力機(jī)制SimAM,并用Focal一EIoU損失函數(shù)代替原來(lái)的CIoU損失函數(shù),實(shí)現(xiàn)了甜椒畸形果識(shí)別模型的小體量和高精度。
本文針對(duì)當(dāng)前目標(biāo)檢測(cè)模型參數(shù)量大、計(jì)算量高及被遮擋的煙葉主脈難識(shí)別這些問(wèn)題,提出一種基于改進(jìn)YOLOv7一tiny的輕量級(jí)煙葉主脈識(shí)別算法,為煙葉主脈的識(shí)別及部署在邊緣化設(shè)備上提供技術(shù)支撐。
1數(shù)據(jù)獲取與處理
1. 1 數(shù)據(jù)集獲取
所采集的煙葉來(lái)自湖南省寧鄉(xiāng)市某煙葉種植基地,人工采摘100片煙葉。將所摘取的煙葉隨機(jī)抽取 1~5 片進(jìn)行不規(guī)則堆疊擺放,用iPhonel4手機(jī)采集煙葉圖片。為使照片能更好地展現(xiàn)煙葉特征,將設(shè)備與煙葉處于同一豎直方向進(jìn)行采集。所得原始試驗(yàn)數(shù)據(jù)圖片300張,圖片的分辨率為4032像素 ×3024 像素。選取其中214張主脈特征較為明顯的圖片,利用Labelme軟件對(duì)煙葉的主脈進(jìn)行標(biāo)注,生成含有主脈位置信息的Json格式標(biāo)注文件。
1.2 實(shí)驗(yàn)數(shù)據(jù)處理
由于煙葉數(shù)據(jù)集拍攝于室內(nèi),為避免模型學(xué)習(xí)到與目標(biāo)無(wú)關(guān)的特征,提升模型的魯棒性,對(duì)煙葉數(shù)據(jù)集進(jìn)行亮度增強(qiáng)、圖像翻轉(zhuǎn)、隨機(jī)顏色、對(duì)比度增強(qiáng)及添加白高斯噪聲等數(shù)據(jù)增強(qiáng)操作。數(shù)據(jù)增強(qiáng)效果如圖1所示。
圖1數(shù)據(jù)增強(qiáng)效果Fig.1 Data enhancement
增強(qiáng)后數(shù)據(jù)集在原來(lái)的基礎(chǔ)上增長(zhǎng)了4倍,達(dá)到1070張,按照 8:2 的比例劃分為訓(xùn)練集(848張)和驗(yàn)證集(212張),數(shù)據(jù)集劃分情況如表1所示。
表1數(shù)據(jù)集劃分情況Tab.1Data set partitioning 張
1.3實(shí)驗(yàn)環(huán)境及訓(xùn)練參數(shù)設(shè)置
實(shí)驗(yàn)采用軟件環(huán)境為基于Windows10、Python3.11.4、PyTorch1.8.0搭建的深度學(xué)習(xí)框架,試驗(yàn)硬件環(huán)境(CPU)為Intel(R)Core(TM) i5-10400F@ 2.9Hz ,顯卡為NVIDIAGeForceGTX3060,操作系統(tǒng)為Windows1064bits。訓(xùn)練過(guò)程采用SGD(隨機(jī)梯度下降)算法,每次輸入訓(xùn)練的圖片數(shù)(batchsize)設(shè)為16,圖片大小為640像素 ×640 像素,CPU線(xiàn)程數(shù)(workers)設(shè)為2,訓(xùn)練300個(gè)輪次,初始學(xué)習(xí)率為0.01,訓(xùn)練過(guò)程中都開(kāi)啟模型自帶的mosaic(數(shù)據(jù)增強(qiáng))。訓(xùn)練完成后將best.pt(表現(xiàn)最好的權(quán)重文件)導(dǎo)入驗(yàn)證集進(jìn)行測(cè)試,置信度與 IoU 的閾值均設(shè)為0.5。該研究旨在訓(xùn)練出適合部署在邊緣化設(shè)備的煙葉主脈目標(biāo)檢測(cè)模型,考慮到邊緣化設(shè)備的計(jì)算資源不足,采用 mAP@0.5(IoU 為0.5時(shí)模型的平均精度均值)、F1 值、參數(shù)量(Parameters)、計(jì)算量 (FLOPs)4 個(gè)指標(biāo)來(lái)評(píng)估模型的性能。
2 基于改進(jìn)YOLOv7—tiny檢測(cè)模型
2.1 YOLOv7—tiny目標(biāo)檢測(cè)算法
YOLOv7作為自前市面上最先進(jìn)的實(shí)時(shí)自標(biāo)檢測(cè)器,在保留了其快速和高精度的同時(shí)又支持在移動(dòng)端GPU以及從邊緣到移動(dòng)端的GPU設(shè)備。相比于注重推理速度的YOLOx、YOLOv5,YOLOv7應(yīng)用了很多模塊和一些優(yōu)化方法,在僅增加訓(xùn)練成本的前提下提高了目標(biāo)檢測(cè)的準(zhǔn)確性。所改進(jìn)的YOLOv7—tiny模型是YOLOv7系列專(zhuān)門(mén)給低算力設(shè)備所打造的一種輕量化模型,該模型沿用了YOLOv7的大體框架,通過(guò)修改部分結(jié)構(gòu)來(lái)達(dá)到減少參數(shù)量的目的。與YOLOv7的ELAN結(jié)構(gòu)相比,YOLOv7一tiny的ELAN結(jié)構(gòu)通過(guò)減少卷積塊的數(shù)量來(lái)減少分支,并縮短了該結(jié)構(gòu)最長(zhǎng)的梯度;沒(méi)有使用SPPCSC的空間金字塔池化結(jié)構(gòu),而是采用多個(gè)最大值池化來(lái)獲取不同大小的感受野;YOLOv7—tiny在檢測(cè)頭部沒(méi)有采用RepConv(重參數(shù)化卷積)來(lái)合并多個(gè)計(jì)算模塊,而是采用普通卷積搭配LeakyReLU激活函數(shù)和CIoU損失函數(shù)。
2.2改進(jìn)MobileNetV3輕量級(jí)主干網(wǎng)絡(luò)
MobileNetV3是MobileNets模型系列中首個(gè)加人了網(wǎng)絡(luò)架構(gòu)搜索方法NAS的模型,其中包含的MobileNetV3—small是面向邊緣化的計(jì)算設(shè)備,符合低端計(jì)算資源的使用需求。相比于原始的YOLOv7—tiny的主干特征提取層,MobileNetV3減少了模型參數(shù)量的前提下保持了模型的表達(dá)能力。該主干首先用更加輕量的深度可分離卷積(DepthwiseSeparableConvolution)替代普通卷積,不同于傳統(tǒng)的普通卷積,深度可分離卷積將傳統(tǒng)的卷積運(yùn)算分兩步(DepthwiseConv和PointwiseConv)進(jìn)行,如圖2所示。在DepthwiseConv中,一個(gè)卷積核對(duì)應(yīng)一個(gè)通道,卷積核的數(shù)量與通道數(shù)相同;PointwiseConv將上一步得到的特征圖片在深度方向上進(jìn)行加權(quán),從而得到新的特征圖片,相同的輸人通過(guò)深度可分離卷積計(jì)算量?jī)H為原來(lái)的1/8。
圖2深度可分離卷積運(yùn)算Fig.2Depth separable convolution
MobileNetV3以residual結(jié)構(gòu)和bottleneck結(jié)構(gòu)為框架,使其內(nèi)部的每一個(gè)通道在高維特征空間下具備更強(qiáng)的非線(xiàn)性變換能力;其內(nèi)部集成SEAttention(注意力機(jī)制),如圖3和圖4所示,通過(guò)擠壓 (Fsq) 和激勵(lì) (Fex) 操作得到 1×1×C 的權(quán)重矩陣,從而對(duì)原特征進(jìn)行重構(gòu)以給予關(guān)鍵特征更高的權(quán)重。其中 X 為輸入的特征圖, 為Inception模塊處理后輸出的特征圖,
為 SE—Inception模塊處理后輸出的特征圖, H,W 為圖片高度和寬度, C 為通道數(shù)。
MobileNetV3的淺層使用ReLU激活函數(shù),深層使用 h -swish激活函數(shù),試驗(yàn)后發(fā)現(xiàn)該策略在煙葉數(shù)據(jù)集上的效果不符合預(yù)期。SiLU函數(shù)是ReLU函數(shù)的改進(jìn)版,具有無(wú)上界、有下界、非單調(diào)的特性,在淺層模型中的效果優(yōu)于ReLU。在改進(jìn)的模型架構(gòu)中,前三層使用SiLU激活函數(shù),在模型的后半段將 h? -swish替換為ReLU激活函數(shù),如圖5所示。
圖5改進(jìn)MobileNetV3結(jié)構(gòu)示意圖Fig.5Improved schematic of the MobileNetV3
2.3損失函數(shù)改進(jìn)
CIoU是在DIoU損失函數(shù)的基礎(chǔ)上考慮了預(yù)測(cè)框(Boundingbox)的長(zhǎng)寬比[24],進(jìn)一步提高了模型精度。這兩種損失函數(shù)反映的是縱橫比的差異,而不是寬高與真實(shí)框的實(shí)際尺寸差異,這種方式有時(shí)會(huì)阻礙檢測(cè)框相似性的有效優(yōu)化。針對(duì)這一問(wèn)題引人SIoU損失函數(shù),如圖6所示,該函數(shù)致力于優(yōu)化真實(shí)框和預(yù)測(cè)框的相似度,從而達(dá)到更好的訓(xùn)練效果。其中, B 和Bgt 點(diǎn)分別為預(yù)測(cè)框中心點(diǎn)和真實(shí)框中心點(diǎn)。 Cw 和Ch 分別為 B 和 Bgt 點(diǎn)的橫坐標(biāo)與縱坐標(biāo)之差, α 為兩點(diǎn)連線(xiàn)與水平線(xiàn)的夾角, σ 為兩點(diǎn)間的直線(xiàn)距離,(bcx,bcy) 為預(yù)測(cè)框中心坐標(biāo), (bcxgt,bcygt) 為真實(shí)框中心坐標(biāo), B 與 Bgt 的距離為真實(shí)框和預(yù)測(cè)框中心點(diǎn)距離。
角度損失 計(jì)算如式(1)所示。
距離損失 計(jì)算如式(3)所示。
γ=2-Λ
式中: t 求和索引;Y 調(diào)節(jié)權(quán)重;ρ 歸一化的差異程度; 1 一在 x 和 y 方向上歸一化的差異程度。
形狀損失 計(jì)算如式(6)所示。
式中: ωw?ωh 1 兩個(gè)邊界框?qū)挾群透叨鹊南鄬?duì)差異;w、wamp;t_ 預(yù)測(cè)和真實(shí)邊界框的寬度;h?hgt T 預(yù)測(cè)和真實(shí)邊界框的高度。
SIoU的總損失函數(shù)如式(8)所示。
將損失函數(shù)SIoU與CIoU、EIoU、Focal—CIoU損失函數(shù)進(jìn)行對(duì)比,對(duì)比試驗(yàn)結(jié)果如圖7所示。試驗(yàn)表明,不同的損失函數(shù)在煙葉數(shù)據(jù)集訓(xùn)練過(guò)程中有不同的影響,與其他3種損失函數(shù)相比,SIoU在煙葉數(shù)據(jù)集的訓(xùn)練任務(wù)中損失值最小,采用該損失函數(shù)使煙葉主脈識(shí)別模型有更好的準(zhǔn)確性和泛化能力。
2.4GSConv與范式設(shè)計(jì)在頸部的替換
在目標(biāo)檢測(cè)模型中,由主干網(wǎng)絡(luò)提取的特征通常會(huì)實(shí)現(xiàn)空間信息向通道信息的轉(zhuǎn)換,而這種轉(zhuǎn)換不可避免地會(huì)損失部分的語(yǔ)義信息。改進(jìn)GSConv比普通卷積更好地保留通道與通道間隱藏鏈接,從而損失較少的信息,考慮到該模塊有更長(zhǎng)的通道長(zhǎng)度,如果進(jìn)行全局替換顯然會(huì)增加模型的深度,從而增加計(jì)算資源,因此將該模塊在特征信息本就已通道化的頸部進(jìn)行替換。Slimneck模塊借鑒增強(qiáng)CNN學(xué)習(xí)能力如DensNet、VoVNet和CSPNet等網(wǎng)絡(luò)。使用一次性聚合方法來(lái)設(shè)計(jì)跨級(jí)部分網(wǎng)絡(luò)(GSCSP)模塊VoVGSCSP,如圖8所示。
圖8GSConv + Slimneck結(jié)構(gòu)示意圖
Fig.8Schematic diagram of the GSConv+Slimneck
由于存在煙葉主脈部分遮擋的情況,在頸部靈活地使用GSConv和VoVGSCSP,既降低了計(jì)算和網(wǎng)絡(luò)結(jié)構(gòu)的復(fù)雜性,又減少了背景特征對(duì)主脈識(shí)別造成的精度損失。與原來(lái)的網(wǎng)絡(luò)結(jié)構(gòu)CSP相比,該結(jié)構(gòu)的浮點(diǎn)計(jì)算量中 FLOPs )僅為之前的 84.38% ,改進(jìn)該模型后以少量精度的代價(jià)進(jìn)一步降低了模型的參數(shù)量和計(jì)算量,以降低計(jì)算成本。改進(jìn)后的整體網(wǎng)絡(luò)結(jié)構(gòu)如圖9所示。
3 結(jié)果與分析
3.1 改進(jìn)模型消融實(shí)驗(yàn)
為了更好地體現(xiàn)每個(gè)改進(jìn)的有效性,改進(jìn)的結(jié)果對(duì)比如表2所示。考慮到改進(jìn)前后模型大小的差異不適合用同一超參文件,改進(jìn)的模型均使用超參數(shù)hyp.scratch.tiny.yaml,其他均保持一致。由表2可知,首先在替換了MobileNetV3主干后,可以看到模型在損失1.6個(gè)精度的代價(jià)下減小 30.1% 參數(shù)量和
47.7% 的計(jì)算量。接著在頸部替換Slimneck結(jié)構(gòu)后,模型的參數(shù)量與計(jì)算量達(dá)到最小值,此時(shí)模型的精度僅為 87.3% ,相比于原模型下降了 5.6% 。為在不增加模型參數(shù)量的前提下提高模型的準(zhǔn)確性,更換SIoU損失函數(shù)后模型的精度上升2.5個(gè)百分點(diǎn)。最后對(duì)主干部分的激活函數(shù)進(jìn)行替換,在模型沒(méi)有付出代價(jià)的情況下精度提高1.5個(gè)百分點(diǎn),使該輕量化模型的精度達(dá)到部署要求。將改進(jìn)前后的算法在訓(xùn)練過(guò)程中的精度變化進(jìn)行對(duì)比,如圖10所示。
表2消融實(shí)驗(yàn)Tab.2Ablation experiments
3.2與其他經(jīng)典輕量化模型的對(duì)比
為綜合評(píng)估所提輕量化模型的性能,選取具有代表性的輕量化模型如YOLOv5—s、YOLOv6—n、YOLOx—s、YOLOv8—n、YOLOv9—t進(jìn)行對(duì)比實(shí)驗(yàn)。選擇參數(shù)量及運(yùn)算量來(lái)評(píng)價(jià)模型的輕量化程度,對(duì)比結(jié)果如表3所示??梢园l(fā)現(xiàn),改進(jìn)后的網(wǎng)絡(luò)模型參數(shù)量?jī)H次于YOLOv9一t,改進(jìn)后的模型在運(yùn)算量方面表現(xiàn)最好,僅為原模型 32.6% ,同為輕量化模型的YOLOx—s要比該模型復(fù)雜6倍有余。改進(jìn)后的模型憑借對(duì)通道信息的壓縮和網(wǎng)絡(luò)結(jié)構(gòu)的精簡(jiǎn)來(lái)減少模型的參數(shù)量,過(guò)大的模型體積很難完成在移動(dòng)終端設(shè)備和嵌人式設(shè)備的部署使用。綜上所述,改進(jìn)的模型綜合表現(xiàn)最好,在參數(shù)量和運(yùn)算量上都實(shí)現(xiàn)了輕量化,能夠有效滿(mǎn)足移動(dòng)端煙葉主脈的實(shí)時(shí)識(shí)別需求。
表3輕量化模型對(duì)比 Tab.3Lightweight model comparison
注:YOLOv7—tiny*為改進(jìn)后的模型。
3.3改進(jìn)前后模型的可視化熱力圖對(duì)比
為更直觀(guān)地體現(xiàn)輕量化模型后的性能,使用Grad—CAM得到模型的熱力圖,該工具能直接體現(xiàn)更改網(wǎng)絡(luò)結(jié)構(gòu)后模型的識(shí)別效果,圖11為改進(jìn)前后的模型熱力圖對(duì)比。可以看出,改進(jìn)后模型給予煙葉的主脈部位更大的權(quán)重,在主脈存在部分遮擋的情況下仍然能進(jìn)行準(zhǔn)確地識(shí)別,沒(méi)有因?yàn)閰?shù)量的降低而聚焦到錯(cuò)誤的信息,證明該輕量化網(wǎng)絡(luò)結(jié)構(gòu)的可用性。
圖11改進(jìn)前后模型熱力圖對(duì)比 Fig.11Thermodynamic diagram of models before andafterimprovement
4結(jié)論
1)針對(duì)煙葉主脈識(shí)別,提出一種基于改進(jìn)YOLOv7—tiny的輕量化模型,首先用更加輕量的MobileNetV3結(jié)構(gòu)替換掉原本的主干結(jié)構(gòu),同時(shí)將主干中的h-swish的激活函數(shù)更換為ReLU激活函數(shù),增強(qiáng)對(duì)煙葉主脈特征的提取能力;接著在模型的Neck部分替換普通卷積為GSConv并采用范式結(jié)構(gòu)設(shè)計(jì),對(duì)Neck結(jié)構(gòu)的通道進(jìn)行壓縮進(jìn)一步輕量化網(wǎng)絡(luò)結(jié)構(gòu);最后替換損失函數(shù)CIoU為SIoU,減小模型在預(yù)測(cè)層的損失值從而提升模型的精度。
2)試驗(yàn)結(jié)果表明,改進(jìn)后的模型參數(shù)量、計(jì)算量分別為原模型的 48.9%.32.6% ,而其精度僅下降1.6個(gè)百分點(diǎn)。改進(jìn)后的模型計(jì)算量與其他輕量化模型YOLOv5—s(16.5G)、YOLOv6—n(11.4 G)、YOLOx—s(26.8 G)YOLOv8—n(8.7 G)、YOLOv9—t(7.7G)相比均有所提升,適合在移動(dòng)端設(shè)備部署。
3)通過(guò)熱力圖可視化對(duì)比,發(fā)現(xiàn)改進(jìn)后的模型能準(zhǔn)確識(shí)別煙葉的主脈,證明該改進(jìn)方法具有一定的借鑒意義,為煙葉的機(jī)械化收獲提供一定的技術(shù)支持。
參考文獻(xiàn)
[1]趙翠萍,秦冠宇,張穎,等.基于扎根理論方法的煙葉生產(chǎn)全程機(jī)械化實(shí)現(xiàn)路徑分析[J].煙草科技,2023,56(5):33-41.Zhao Cuiping,Qin Guanyu, Zhang Ying,et al. Realizationpath analysis toachieve complete tobacco productionmechanization based on grounded theory [J]. TobaccoScienceamp;.Technology,2023,56(5): 33-41 :
[2]汪睿琪,張炳輝,顧鋼,等.基于YOLOv5 的鮮煙葉成熟度識(shí)別模型研究[J].中國(guó)煙草學(xué)報(bào),2023,29(2):46—55.WangRuiqi, ZhangBinghui,GuGang,etal.Recognition model of tobacco fresh leaf maturity based onYOLOv5[J].Acta Tabacaria Sinica,2023,29(2):46-55.
[3]茍園旻,閆建偉,張富貴,等.水果采摘機(jī)器人視覺(jué)系統(tǒng)與機(jī)械手研究進(jìn)展[J].計(jì)算機(jī)工程與應(yīng)用,2023,59(9):13—26.Gou Yuanmin,Yan Jianwei,ZhangFugui,et al. Researchprogress on vision systemand manipulator offruitpickingrobot[J].ComputerEngineering andApplications,2023,59(9):13-26.
[4]顧文娟,丁燦,蓋小雷,等.基于輕量化MobileViT深度學(xué)習(xí)模型的烤煙自動(dòng)分組方法[J].中國(guó)煙草科學(xué),2024,45(1):104—111,120.GuWenjuan, DingCan, GaiXiaolei,etal.Automatic grouping method of flue-cured tobacco basedon MobileViT [J].Chinese Tobacco Science,2024,45(1):104—111,120.
[5]朱波,胡朋,劉宇晨,等.基于CSS—CascadeMaskR-CNN的有遮擋多片煙葉部位識(shí)別[J].農(nóng)業(yè)工程學(xué)報(bào),2024,40(9):270—279.Zhu Bo,Hu Peng,Liu Yuchen,et al. Recognition of theposition for partially occluded multiple tobacco leaves basedon CSS—Cascade Mask R—CNN[J]. Transactions of theChinese Society of Agricultural Engineering,2O24,40(9):270—279.
[6]蘇帥林,甘博敏,龍杰,等.融合坐標(biāo)注意力與混聯(lián)采樣的煙葉主脈輕量級(jí)語(yǔ)義分割[J].計(jì)算機(jī)工程與應(yīng)用,2024,60(24):250-259.SuShuailin, Gan Bomin, Long Jie, etal.Lightweight semantic segmentation of tobacco main veinsfusing coordinate attention and dense connectivity [J].Computer Engineering and Applications,2024,60(24):250-259.
[7] Girshick R. Fast R—CNN [C]. Proceedings of the IEEEInternational Conference on Computer Vision, 2015:1440—1448.
[8] Ren S,He K,Girshick R, et al.Faster R—CNN:Towards real-timeobjectdetectionwith regionproposal networks [J]. Advances in NeuralInformation Processing Systems, 2015,28.
[9]張萬(wàn)枝,曾祥,劉樹(shù)峰,等.基于改進(jìn)YOLOv5s的馬鈴薯種薯芽眼檢測(cè)方法[J].農(nóng)業(yè)機(jī)械學(xué)報(bào),2023,54(9):260—269.Zhang Wanzhi, Zeng Xiang, LiuShufeng,et al.Detection method of potato seed bud eye based on improvedYOLOv5s [J]. Transactions of the Chinese Society forAgricultural Machinery,2023,54(9):260—269.
[10] Redmon J,Divvala S,Girshick R,et al. You only lookonce:Unified,real-timeobjectdetection[C].Proceedings of the IEEE Conference on ComputerVision and Pattern Recognition,2016:779—788.
[11] He K,Zhang X,Ren S,et al. Deep residual learningfor image recognition[C].Proceedings of the IEEEConference on Computer Vision and Pattern Recognition,2016:770-778.
[12]Redmon J,F(xiàn)arhadiA.YOLOv3:Anincrementalimprovement [J]. arXiv preprint arXiv:1804. 02767,2018.
[13]LinTY,DollárP,GirshickR,etal.Featurepyramid networks for object detection [C]. Proceedingsof the IEEE Conference on Computer Vision and PatternRecognition,2017:2117—2125.
[14] Bochkovskiy A,Wang C Y,Liao H Y M. YOLOv4:Optimal speed and accuracy of object detection [J].arXivpreprint arXiv:2004.10934,2020.
[15]Zhu X,Lyu S,WangX,et al.TPH—YOLOv5:ImprovedYOLOv5basedontransformerpredictionheadforobjectdetectionondrone-capturedscenarios[C].Proceedings of the IEEE/CVF International Conference onComputer Vision,2021: 2778-2788.
[16] Wang CY,Bochkovskiy A,Liao H Y M. YOLOv7:Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors[C]. Proceedings of the IEEE/CVFConference on Computer Vision and Pattern Recognition,2023:7464—7475.
[17]李柯泉,陳燕,劉佳晨,等.基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法綜述[J].計(jì)算機(jī)工程,2022,48(7):1—12.Li Kequan,Chen Yan,Liu Jiachen,et al. Survey of deeplearning-based object detection algorithms [J]. ComputerEngineering,2022,48(7):1—12.
「18]李尚平,卞俊析,李凱華,等.基于改進(jìn)YOLOv5s 的復(fù)2023,54(11):247—258.LiShangping, Bian Junxi, LiKaihua,etal.Identification and height localization of sugarcane tipbifurcation points in complex environments based onimproved YOLOv5s [J]. Transactions of the ChineseSociety for Agricultural Machinery,2023,54(11):247—258.
[19]郭輝,陳海洋,高國(guó)民,等.基于YOLOv5m的紅花花冠目標(biāo)檢測(cè)與空間定位方法[J].農(nóng)業(yè)機(jī)械學(xué)報(bào),2023,54(7): 272-281.Guo Hui, Chen Haiyang, Gao Guomin,etal.Safflower corolla object detection and spatialpositioning methodsbased on YOLOv5m [J].Transactions of the Chinese Society for AgriculturalMachinery,2023,54(7):272-281.
[20]黃家才,唐安,陳光明,等.基于Compact—YOLOv4的茶葉嫩芽移動(dòng)端識(shí)別方法[J].農(nóng)業(yè)機(jī)械學(xué)報(bào),2023,54(3):282-290.Huang Jiacai, Tang An,Chen Guangming,et al.Mobile recognition solution of tea budsbasedonCompact—YOLOv4 algorithm [J]. Transactions of theChinese Society for Agricultural Machinery,2023,54(3):282-290.
[21]張楠楠,張曉,白鐵成,等.基于CBAM—YOLOv7 的自然環(huán)境下棉葉病蟲(chóng)害識(shí)別方法[J].農(nóng)業(yè)機(jī)械學(xué)報(bào),2023,54(S1): 239-244.Zhang Nannan, Zhang Xiao, Bai Tiecheng, et al.Identificationmethodofcotton leaf pestsanddiseases in natural environment based on CBAM—YOLOv7[J]. Transactions of the Chinese Society forAgricultural Machinery,2023,54(S1): 239-244 !
[22]楊佳昊,左昊軒,黃祺成,等.基于YOLOv5s的作物葉片病害檢測(cè)模型輕量化方法[J].農(nóng)業(yè)機(jī)械學(xué)報(bào),2023,54(S1):222-229.Yang Jiahao,Zuo Haoxuan,Huang Qicheng, et al.Lightweight method for crop leaf disease detection modelbased on YOLOv5s [J].Transactions of the ChineseSociety for Agricultural Machinery,2023,54(S1):222-229.
[23]王昱,姚興智,李斌,等.基于改進(jìn)YOLOv7—tiny 的甜椒畸形果識(shí)別算法[J].農(nóng)業(yè)機(jī)械學(xué)報(bào),2023,54(11):236-246.Wang Yu,Yao Xingzhi,Li Bin,et al. Malformed sweetpepper fruit identification algorithm based on improvedYOLOv7—tiny [J]. Transactions of the Chinese Societyfor Agricultural Machinery,2023,54(11):236-246.
[24] Zheng Z,Wang P,Ren D,et al. Enhancing geometricfactors in model learning and inference for objectdetection and instancesegmentation [J].IEEETransactions on Cybernetics,2021,52(8):8574—8586.