摘 要:針對(duì)玉米雄穗檢測(cè)中速度較慢的問題,提出一種基于YOLOv5s 改進(jìn)的輕量化快速檢測(cè)算法———PSOS-YOLOv5s。所提算法在主干網(wǎng)絡(luò)中采用輕量級(jí)PP-LCNet 替換CSPDarknet53,采用2 種不同的深度可分離卷積與注意力機(jī)制的組合來構(gòu)成基本塊,降低模型復(fù)雜度并加快檢測(cè)速度;在預(yù)測(cè)部分采用SimOTA 標(biāo)簽匹配策略替換YOLOv5s 中的標(biāo)簽匹配策略,采用中心先驗(yàn)思想獲得精準(zhǔn)的先驗(yàn)知識(shí),提出動(dòng)態(tài)k 策略過濾冗余標(biāo)簽,提高模型對(duì)正樣本的快速選取能力;在預(yù)測(cè)部分采用SIOULoss 替換GIOU Loss,引入角度損失因子來降低回歸自由度、加快收斂速度、節(jié)省訓(xùn)練時(shí)間,重新定義懲罰指標(biāo),提高檢測(cè)精度。實(shí)驗(yàn)結(jié)果表明,在玉米雄穗數(shù)據(jù)集中,提出的改進(jìn)算法相比于YOLOv5s,模型參數(shù)量降低52. 86% ,模型的檢測(cè)精度提升0. 6% ,模型的檢測(cè)速度提升65. 5% 。改進(jìn)后的算法提升效果明顯,可以滿足大規(guī)模玉米雄穗快速檢測(cè)的要求。
關(guān)鍵詞:玉米雄穗檢測(cè);輕量化網(wǎng)絡(luò);標(biāo)簽匹配策略;損失函數(shù);YOLOv5
中圖分類號(hào):TP183 文獻(xiàn)標(biāo)志碼:A 開放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):
文章編號(hào):1003-3106(2024)06-1446-08
0 引言
玉米是雌雄同株的作物,可以進(jìn)行自花授粉,但是自花授粉不利于優(yōu)良種子的選育,因此,保證玉米的異花授粉,對(duì)育種以及產(chǎn)量提升有重要意義[1-3]。在異花授粉過程中,需要對(duì)雄穗進(jìn)行去除,傳統(tǒng)方法主要依靠人工識(shí)別去除,費(fèi)時(shí)費(fèi)力?,F(xiàn)代農(nóng)業(yè)對(duì)大規(guī)模、高通量分析的需求使得人工無法處理此類任務(wù)。計(jì)算機(jī)視覺技術(shù)在農(nóng)作物識(shí)別方面的應(yīng)用,為準(zhǔn)確識(shí)別玉米雄穗并高效科學(xué)地指導(dǎo)去雄作業(yè)提供了有效的技術(shù)手段。
目前,玉米雄穗的檢測(cè)主要分為基于機(jī)器視覺檢測(cè)方法和基于深度學(xué)習(xí)的目標(biāo)檢測(cè)方法。Lu 等[3]開發(fā)了基于分割和支持向量機(jī)(SupportVector Machine,SVM)的名為mTASSEL 的系統(tǒng)來檢測(cè)玉米雄穗,并以90. 38% 的準(zhǔn)確率識(shí)別出具有穗的潛在區(qū)域。Yu 等[4]在數(shù)據(jù)集MrMT 上提出了一種新穎的輕量級(jí)神經(jīng)網(wǎng)絡(luò)TasselLFANet,可以準(zhǔn)確有效地檢測(cè)和計(jì)數(shù)高時(shí)空?qǐng)D像序列中的玉米雄穗。
近年來,基于深度學(xué)習(xí)的圖像分類、目標(biāo)檢測(cè)等技術(shù)開始興起。兩階段的區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(R-CNN)系列模型[5]是目標(biāo)檢測(cè)中的里程碑之一。RCNN 的后續(xù)改進(jìn)包括Fast R-CNN[6]和FasterR-CNN[7],通過引入共享特征提取來提高檢測(cè)速度和準(zhǔn)確性。此外,還有備受關(guān)注的一階段模型SSD[8]模型和YOLO 系列模型。YOLO 模型是一種實(shí)時(shí)目標(biāo)檢測(cè)模型,YOLO[9] 的改進(jìn)版本包括YOLOv2、YOLOv3、YOLOv4、YOLOv7[10]等,通過改進(jìn)網(wǎng)絡(luò)結(jié)構(gòu)和使用更高分辨率的特征圖來提高檢測(cè)性能。Khaki 等[11]提出了一種基于YOLOv4 的計(jì)算機(jī)視覺方法來檢測(cè)麥穗。Buzzy 等[12]利用Tiny-YOLOv3 網(wǎng)絡(luò)準(zhǔn)確地檢測(cè)葉子的實(shí)時(shí)定位。YOLOv5 是YOLO 系列中成熟的算法,然而,直接應(yīng)用YOLOv5 進(jìn)行玉米雄穗檢測(cè)存在一些挑戰(zhàn):由于玉米雄穗在生長(zhǎng)過程中會(huì)產(chǎn)生遮擋和重疊現(xiàn)象,目標(biāo)之間存在遮擋問題,導(dǎo)致檢測(cè)困難。玉米雄穗一般比較細(xì)長(zhǎng),在生長(zhǎng)過程中可能會(huì)呈現(xiàn)不同的姿態(tài)和形狀,這些都會(huì)導(dǎo)致檢測(cè)不準(zhǔn)確。
為此,本文針對(duì)上述問題提出了一種基于YOLOv5s 的玉米雄穗檢測(cè)模型———PSOS-YOLOv5s,能夠快速、準(zhǔn)確地檢測(cè)出田中玉米雄穗的位置,而且參數(shù)量、每秒10 億次的浮點(diǎn)運(yùn)算數(shù)(GFLOPs)和模型復(fù)雜度較低。
1 材料和方法
1. 1 數(shù)據(jù)集
本研究選用的數(shù)據(jù)集為公開數(shù)據(jù)集MrMT[13],開發(fā)的一種自動(dòng)化地面觀測(cè)系統(tǒng)在中國(guó)山東省泰安市、河南省鄭州市和河北省衡水市的實(shí)驗(yàn)田每天9:00—16:00 每小時(shí)拍攝一張,包含從抽雄階段到開花階段的12 個(gè)獨(dú)立圖像序列。該數(shù)據(jù)集包含不同場(chǎng)景下的玉米雄穗圖像,如抽雄階段到開花階段的多個(gè)時(shí)間序列的圖像,以及來自不同地點(diǎn)的示例圖像。根據(jù)標(biāo)準(zhǔn)注釋范例,使用開源標(biāo)注工具labe-lImg 對(duì)每個(gè)玉米雄穗手動(dòng)進(jìn)行框級(jí)標(biāo)記,共標(biāo)注了96 434 個(gè)玉米雄穗。
1. 2 YOLOv5 目標(biāo)檢測(cè)算法
YOLOv5 是Ultralytics 團(tuán)隊(duì)于2020 年6 月提出的一種典型的單階段目標(biāo)檢測(cè)算法,將檢測(cè)任務(wù)轉(zhuǎn)化為端到端的回歸問題。根據(jù)網(wǎng)絡(luò)結(jié)構(gòu)的深度和寬度,YOLOv5 分為5 個(gè)版本:YOLOv5n、YOLOv5s、YOLOv5m、YOLOv5l 和YOLOv5x(n<s<m<l<x),其中n 模型參數(shù)量最小,x 模型參數(shù)量最大。為了實(shí)時(shí)檢測(cè)和易于部署,本文選擇YOLOv5s 網(wǎng)絡(luò)作為基礎(chǔ)模型。YOLOv5 網(wǎng)絡(luò)結(jié)構(gòu)如圖1 所示。
YOLOv5 的輸入組件如圖2 所示,由3 個(gè)模塊組成:馬賽克數(shù)據(jù)增強(qiáng)、自適應(yīng)錨框計(jì)算和自適應(yīng)圖像縮放。主干部分主要負(fù)責(zé)提取圖像不同層次的圖像特征,由CBS、C3 和SPPF 等模塊組成。CBS 層由卷積、批量歸一化和激活函數(shù)組成。C3 模塊包括3 個(gè)標(biāo)準(zhǔn)卷積層和多個(gè)瓶頸。SPPF 使用5×5 和1×1兩個(gè)池化核,可以增加感受野并輸入任意圖像長(zhǎng)寬比和尺寸。在YOLOv5 主干中使用CBS、SPPF 和C3 架構(gòu)時(shí)的潛在缺點(diǎn)包括計(jì)算復(fù)雜性和內(nèi)存使用量增加,導(dǎo)致檢測(cè)速度變慢和資源需求增加。因此,為了實(shí)現(xiàn)網(wǎng)絡(luò)模型的輕量化,本文采用PP-LCNet[14]作為主干網(wǎng)絡(luò)。
頸部特征融合網(wǎng)絡(luò)采用特征金字塔網(wǎng)絡(luò)(Feature Pyramid Network,FPN)[15]和路徑聚合網(wǎng)絡(luò)(Path Aggregation Network,PAN)[16]的結(jié)構(gòu)。使用GIOU 損失(Loss)函數(shù)作為邊界框損失函數(shù),解決邊界框不重疊的問題。對(duì)于GIOU Loss 函數(shù),當(dāng)2 個(gè)邊界框相交時(shí),水平和垂直方向的收斂速度都很慢。因此,本文選擇SIOU Loss 函數(shù)。
1. 3 PSOS-YOLOv5s
為了保證玉米雄穗檢測(cè)精度,同時(shí)盡量加快檢測(cè)速度,本文提出了一種輕量級(jí)網(wǎng)絡(luò)PSOS-YOLOv5s。
圖3 展示了PSOS-YOLOv5s 的整體結(jié)構(gòu),包括三部分:用于特征提取的主干網(wǎng)絡(luò)(backbone),用于特征融合的頸部(neck)以及用于位置和類別預(yù)測(cè)的預(yù)測(cè)頭(head)。為了減少模型參數(shù)量和GFLOPs,使用PP-LCNet 作為主干來提取特征。為了改善輕量級(jí)網(wǎng)絡(luò)PP-LCNet 帶來的精度損失,本研究將原來的標(biāo)簽匹配策略換成了SimOTA 標(biāo)簽匹配策略并且把GIOULoss 更換為SIOU Loss。SimOTA 可以將篩選樣本(anchor point)與真實(shí)框(gt)之間的匹配更加合理,SIOU Loss 考慮到了向量角度在回歸中的重要性。
1. 3. 1 基于PP-LCNet 的骨干網(wǎng)絡(luò)
PP-LCNet 是百度在2021 年提出的一種基于深度神經(jīng)網(wǎng)絡(luò)的數(shù)學(xué)內(nèi)核庫(kù)(MKLDNN)加速策略的輕量級(jí)中央處理器(CPU)網(wǎng)絡(luò),提高了輕量級(jí)模型在多個(gè)任務(wù)上的性能。圖4 展示了PP-LCNet 的基本模塊,其中Hswish 是激活函數(shù),SE 是注意力機(jī)制。
該模型使用深度可分離卷積(DepthSepConv)作為基本塊,其中不包含直連(shortcut),這樣就沒有拼接(concat)或逐元素相加(elementwise-add)等操作,這些操作不僅會(huì)降低模型的推理速度,而且無法提高小模型的精度。該模型將這些塊(block)堆疊成一個(gè)基礎(chǔ)網(wǎng)絡(luò),然后結(jié)合現(xiàn)有技術(shù)得到了PP-LC-Net。
本文的主干特征網(wǎng)絡(luò)不僅僅由PP-LCNet 網(wǎng)絡(luò)組成,將PP-LCNet 網(wǎng)絡(luò)全局平均池化層換為SPPF層,因此主干特征網(wǎng)絡(luò)由CBS、DepthSepConv 和SPPF 組成,激活函數(shù)的性能往往決定了網(wǎng)絡(luò)的性能,為了避免大量的指數(shù)操作,本文將DepthSepConv 基礎(chǔ)網(wǎng)絡(luò)中的激活函數(shù)由ReLU 換成H-Swish,性能得到了很大的提升,而推理時(shí)間幾乎沒有增加。SE 模塊自提出以來已被大量網(wǎng)絡(luò)使用,但在英特爾CPU上,SE 模塊會(huì)增加推理時(shí)間,因此不能在整個(gè)網(wǎng)絡(luò)中都使用。通過大量實(shí)驗(yàn)發(fā)現(xiàn)將SE 模塊用于網(wǎng)絡(luò)的末端時(shí),可以發(fā)揮更好的作用,因此本文只將SE模塊用在網(wǎng)絡(luò)尾端的block 中,獲得了更好的精度-速度的平衡。同時(shí)卷積核的大小也會(huì)影響網(wǎng)絡(luò)的性能。
M ixNet[17]中分析了不同大小的卷積核對(duì)網(wǎng)絡(luò)性能的影響,最終在網(wǎng)絡(luò)的同一層中使用不同大小的卷積核。但這種混合降低了網(wǎng)絡(luò)的推理速度,因此本文在同一層只使用一種大小的卷積核,并確保在低延遲和高精度的前提下才使用大卷積核。通過實(shí)驗(yàn)發(fā)現(xiàn),與使用SE 模塊位置一樣,只在網(wǎng)絡(luò)的尾部用5×5 卷積替換3 ×3 卷積獲得了和整個(gè)網(wǎng)絡(luò)都使用5×5 卷積相近的性能,因此最終只在網(wǎng)絡(luò)尾部才使用5×5 卷積。此外,該方法顯著降低了計(jì)算復(fù)雜度和參數(shù)數(shù)量,使其適合在硬件有限的設(shè)備上部署。
1. 3. 2 SimOTA
本文采用YOLOX[18]提出的SimOTA 標(biāo)簽匹配策略來替換YOLOv5s 中的標(biāo)簽匹配策略。
SimOTA 中的中心先驗(yàn)思想提供了更加精準(zhǔn)的先驗(yàn)知識(shí),提高了標(biāo)簽匹配的準(zhǔn)確性。OTA[19]中通過Sinkhorn-Knopp 算法解決最優(yōu)傳輸(OptimalTransport,OT)問題,但會(huì)帶來25% 的額外訓(xùn)練時(shí)間,所以將其簡(jiǎn)化為動(dòng)態(tài)k 策略,稱為SimOTA,以獲得近似解。與OTA 相比,SimOTA 運(yùn)算速度快、訓(xùn)練時(shí)間短,大大提高了模型的每秒傳輸幀數(shù)(FPS),而且避免了額外的參數(shù)優(yōu)化,并且提升了檢測(cè)精度。SimOTA 中心先驗(yàn)圖如圖5 所示,gt 代表真實(shí)物體的標(biāo)注框,限定區(qū)域也是中心先驗(yàn)區(qū)域。
在SimOTA 中,gi 和pj 之間的成本(cost)計(jì)算如下,其中gi 是任意真實(shí)框,pj 是任意預(yù)測(cè)框:
cij = Lclsij + λLregij , (1)
式中:λ 為平衡系數(shù),本文?。?;Lclsij 和Lregij 為gi 和pj之間的分類損失和回歸損失。對(duì)于一張圖上的所有anchor point 來說,整個(gè)匹配策略的代價(jià)是所有特征點(diǎn)與每一個(gè)gt 所產(chǎn)生的分類損失與回歸損失之和。
SimOTA 會(huì)篩選出優(yōu)質(zhì)的正樣本來匹配gt,從而減少這個(gè)匹配過程所產(chǎn)生的cost,首先SimOTA 進(jìn)行預(yù)篩選,gt 的中心區(qū)域更有可能篩選出優(yōu)質(zhì)的正樣本使得邊界回歸損失與分類損失較小,也就是匹配策略中的cost 較小。進(jìn)行預(yù)篩選之后,cost 會(huì)有顯著的下降,從而可以在這個(gè)限定區(qū)域內(nèi)進(jìn)行進(jìn)一步的篩選,從而獲得最后的anchor point。分別對(duì)限定區(qū)域中每一個(gè)anchor point 計(jì)算其相對(duì)于每一個(gè)gt的分類損失(cls Loss)、邊界框損失(reg Loss)。從而根據(jù)分cls_Loss、reg_Loss 獲?。悖铮螅?矩陣以及交并比(Intersection Over Union,IOU)矩陣,每一個(gè)gt 匹配到的anchor point 數(shù)量記為s,將這個(gè)數(shù)與10 對(duì)比,取其中的最小值,然后根據(jù)IOU 來取前s 個(gè)或者10 個(gè)anchor point。將所有與當(dāng)前gt 匹配的正樣本求IOU 后進(jìn)行求和并向下取整,得到的數(shù)即為動(dòng)態(tài)k。得到動(dòng)態(tài)k 后,選擇cost 較小的前動(dòng)態(tài)k 個(gè)樣本作為當(dāng)前匹配。如果同一正樣本被分配到不同的gt真值,則選擇cost 值較小的gt 真值負(fù)責(zé)預(yù)測(cè)。
此時(shí)得到所有的正樣本以及正樣本對(duì)應(yīng)的gt,那么剩下的anchor point 全部歸為負(fù)樣本。對(duì)篩選預(yù)測(cè)框進(jìn)行Loss 計(jì)算,要注意這里的reg Loss 和clsLoss 只針對(duì)目標(biāo)框和篩選出的正樣本預(yù)測(cè)框進(jìn)行計(jì)算,而obj Loss 還是針對(duì)所有的anchor point(包含所有的正樣本與負(fù)樣本),損失函數(shù)如下:
式中:Lcls 表示分類損失,Lreg 表示邊界框損失,Lobj 表示置信度損失,β 表示定位損失的平衡系數(shù),本文設(shè)置為5. 0;Npos 表示被分為正樣本的anchor point 數(shù)。
采用SimOTA 來進(jìn)行標(biāo)簽匹配可以將限定區(qū)域內(nèi)每一個(gè)anchor point 匹配到最合適的gt,大大提高了檢測(cè)的速度和精度。
1. 3. 3 SIOU 損失函數(shù)
YOLOv5 中的損失函數(shù)包括三部分:分類損失、邊界框損失和置信度損失。分類損失用來計(jì)算錨框與對(duì)應(yīng)的標(biāo)定分類是否正確,邊界框損失用來計(jì)算預(yù)測(cè)框與標(biāo)定框之間的誤差,置信度損失用來計(jì)算網(wǎng)絡(luò)的置信度。其中邊界框損失用GIOU Loss[20]來計(jì)算。
GIOU Loss 函數(shù)在IOU 的基礎(chǔ)上引入了預(yù)測(cè)框和真實(shí)框的最小外接矩形。假設(shè)bgt 為真實(shí)框,b 為預(yù)測(cè)的邊界框,C 為A 和B 的最小外接矩形,則GIOU Loss 計(jì)算公式如下:
GIOU = IOU -( C - (b ∪gt)/C ), (3)
LGIOU = 1 - GIOU。(4)
當(dāng)預(yù)測(cè)框和真實(shí)框完全重合時(shí)(預(yù)測(cè)框在真實(shí)框的內(nèi)部),如圖6 所示,IOU 和GIOU 的損失值都一樣,此時(shí)GIOU 退化為IOU,GIOU = IOU,最終還是無法區(qū)分預(yù)測(cè)框和真實(shí)框的位置關(guān)系,導(dǎo)致此時(shí)的邊界框回歸收斂很慢,檢測(cè)結(jié)果失準(zhǔn)。
為了解決上述問題,本文使用SIOU Loss[21]代替GIOU Loss。SIOU 函數(shù)引入了真實(shí)框和預(yù)測(cè)框之間的向量角度,重新定義了相關(guān)損失函數(shù),加快了網(wǎng)絡(luò)收斂的速度,提升了回歸精度。SIOU 損失函數(shù)具體包含四部分:角度損失(Angle cost)、距離損失(Distance cost)、形狀損失(Shape cost)和IOU 損失(IOU cost)。
角度損失定義為:
最后,SIOU Loss 函數(shù)定義為:
LSIOU = 1 - IOU +( Δ + Ω/2) 。(9)
SIOU Loss 考慮到了所需回歸之間的向量角度,引入角度損失因子來降低回歸自由度,加快了收斂速度,而且重新定義了懲罰指標(biāo),提高了訓(xùn)練的速度和推理的準(zhǔn)確性。
2 實(shí)驗(yàn)和結(jié)果
2. 1 實(shí)施細(xì)節(jié)
主要實(shí)驗(yàn)參數(shù)如下:本研究的訓(xùn)練數(shù)據(jù)集由從公開的MrMT 數(shù)據(jù)集中隨機(jī)選擇的1 120 張圖像組成。驗(yàn)證集和測(cè)試集分別為480 張和368 張。所有實(shí)驗(yàn)均在使用PyTorch 1. 10 和CUDA 11. 3 實(shí)現(xiàn)的深度學(xué)習(xí)框架上進(jìn)行,并在4 張具有40 GB 顯存的NVIDIA A100 GPU 上執(zhí)行。
為了反映模型的真實(shí)水平,本研究沒有選擇使用遷移學(xué)習(xí)。鑒于數(shù)據(jù)集中圖像的高分辨率,將大小調(diào)整為640 pixel×640 pixel。使用單周期學(xué)習(xí)率調(diào)度的方法從0. 01 開始調(diào)度學(xué)習(xí)率。訓(xùn)練使用動(dòng)量為0. 937 的隨機(jī)梯度下降(Stochastic Gradient Descent,SGD)優(yōu)化器進(jìn)行,batch size 設(shè)為128,持續(xù)300 個(gè)epoch。
2. 2 與其他目標(biāo)檢測(cè)模型的對(duì)比
2. 2. 1 評(píng)價(jià)指標(biāo)
在本研究中,改進(jìn)的YOLOv5s 模型與其他模型相比的評(píng)價(jià)指標(biāo)主要基于FPS、精度(Precision,P)、召回率(Recall,R)和平均精度均值(mean AveragePrecision,mAP)。TP、FP 和FN 分別是被模型預(yù)測(cè)為正類的正樣本數(shù)、被模型預(yù)測(cè)為正類的負(fù)樣本數(shù)和被模型預(yù)測(cè)為負(fù)類的正樣本數(shù)。此外,本研究還綜合考慮了模型參數(shù)、GFLOPs 以及權(quán)重大小。因?yàn)閿?shù)據(jù)中只有一個(gè)類別(玉米雄穗),所以n 為1。mAP@ 0. 5 表示IOU 閾值為0. 5 時(shí)的平均mAP。mAP @ 0. 5:0. 95 表示不同IOU 閾值下mAP 的平均值(從0. 5 到0. 95,步長(zhǎng)為0. 05)。各個(gè)評(píng)價(jià)指標(biāo)的計(jì)算公式如下:
2. 2. 2 消融實(shí)驗(yàn)
利用消融實(shí)驗(yàn)來評(píng)估網(wǎng)絡(luò)結(jié)構(gòu)變化的影響。進(jìn)行了4 組消融實(shí)驗(yàn),結(jié)果如表1 所示。在消融實(shí)驗(yàn)中,本文將PP-LCNet 骨干網(wǎng)絡(luò)縮寫為PP,將SimOTA 縮寫為SO,將SIOU Loss 函數(shù)縮寫為S,其中△ 代表替換相應(yīng)的模塊。從表1 可以看出,與YOLOv5s 相比,PP-YOLOv5s 的參數(shù)量、權(quán)重大小和GFLOPs 分別降低了52. 86% 、51. 64% 和61. 40% ,FPS 提高了40. 59% ,以上提升表明了以PP-LCNet為主干網(wǎng)絡(luò)提取特征實(shí)現(xiàn)了網(wǎng)絡(luò)的輕量化,提高了網(wǎng)絡(luò)檢測(cè)速度。與PP-YOLOv5s 相比而言,PPSO-YOLOv5s 的mAP 提高了0. 4% ,FPS 提升了18. 7,表明了本文采用的SimOTA 標(biāo)簽分配策略不僅提升了模型的檢測(cè)精度,還提升了一定的檢測(cè)速度。與PPSO-YOLOv5s 比較,PPSOS-YOLOv5s 的mAP 提升了0. 9% ,FPS 也有一定的提升,這也證實(shí)了SIOULoss 函數(shù)可以有效地提高檢測(cè)精度和速度。綜上所述,與原始YOLOv5s 模型相比,PPSOS-YOLOv5s 的參數(shù)量、模型權(quán)重和GFLOPs 分別降低了52. 86% 、51. 57% 和61. 40% ,而mAP 提升了0. 6% ,FPS 提升了65. 5% 。上述分析表明本文提出的改進(jìn)模型具有較理想的檢測(cè)精度和速度。
圖7 是IOU 閾值為0. 5 時(shí)的PR 曲線圖。藍(lán)色曲線與橫縱坐標(biāo)之間的面積表示該類別的平均精度(Average Precision,AP),面積越大,檢測(cè)效果越好??梢钥闯觯衩仔鬯氲模粒?值為97. 2% ,本文提出的模型能夠準(zhǔn)確地檢測(cè)出玉米田中的雄穗。
2. 2. 3 實(shí)驗(yàn)結(jié)果對(duì)比
為了與基于PP-LCNet 的主干進(jìn)行比較,本研究在網(wǎng)絡(luò)其余部分保持不變的基礎(chǔ)上用一些輕量級(jí)網(wǎng)絡(luò),例如MobileNetv3[22]、GhsotNet[23]和Efficient-Net[24]替換掉原來YOLOv5s 的主干。實(shí)驗(yàn)結(jié)果如表2 所示,與其他的輕量網(wǎng)絡(luò)相比,在保證精度的基礎(chǔ)上,PP-LCNet 顯著地降低了參數(shù)量和模型的復(fù)雜程度。與此同時(shí),模型的檢測(cè)速度提升較為理想。
為了驗(yàn)證將SIOU Loss 函數(shù)替換掉GIOU Loss 的有效性,本文將SIOU Loss 函數(shù)應(yīng)用于PSO-YOLOv5s模型中,并與CIOU、EIOU、WIOU 和GIOU 損失函數(shù)進(jìn)行比較。如表3 所示,SIOU Loss 達(dá)到了最大的mAP 和最快的檢測(cè)速度,驗(yàn)證了改進(jìn)的有效性。
為了探究提出的PSOS-YOLOv5s 模型在玉米雄穗數(shù)據(jù)集上的檢測(cè)精度、參數(shù)量、FPS 以及權(quán)重大?。?個(gè)評(píng)價(jià)指標(biāo),本文將其與YOLOv3、YOLOv7-tiny、TasselLFANet 以及YOLOv5s 四種模型進(jìn)行比較。通過表4 可以看出,除TasselLFANet 以外,本文提出的改進(jìn)模型的評(píng)價(jià)指標(biāo)表現(xiàn)最佳,雖然TasselLFANet 參數(shù)量和權(quán)重大小比本文提出的模型要小,但是本文改進(jìn)模型在檢測(cè)精度和FPS 上表現(xiàn)更佳。本文提出的改進(jìn)模型權(quán)重大小為6. 65 MB,參數(shù)數(shù)量?jī)H為3. 3 M,但是mAP@ 0. 5 達(dá)到了97. 2% ,FPS 高達(dá)128. 5。
PSOS-YOLOv5s 與其他4 個(gè)模型的mAP @ 0. 5對(duì)比曲線如圖8 所示,可以看出本文改進(jìn)網(wǎng)絡(luò)由于采用了SIOU Loss 損失函數(shù)和SimOTA 的標(biāo)簽匹配策略,收斂速度大大加快,雖然用更輕量化的網(wǎng)絡(luò)替換了主干網(wǎng)絡(luò),但mAP 值依然有提升。
圖9 展示了5 個(gè)模型的玉米穗檢測(cè)結(jié)果??梢钥闯?,本文提出的PSOS-YOLOv5s 模型,玉米雄穗檢測(cè)的置信度分別為0. 98 和0. 97,明顯高于其余4 個(gè)模型,充分展現(xiàn)了模型的優(yōu)異檢測(cè)性能。
3 結(jié)束語(yǔ)
本文提出了一種基于YOLOv5s 改進(jìn)的輕量化網(wǎng)絡(luò)模型———PSOS-YOLOv5s,在保證檢測(cè)精度的基礎(chǔ)上,可以顯著提升檢測(cè)速度。該模型利用輕量級(jí)網(wǎng)絡(luò)PP-LCNet 結(jié)構(gòu)作為提取特征的骨干網(wǎng)絡(luò),明顯降低了模型的參數(shù)量和復(fù)雜度。為了彌補(bǔ)輕量化主干造成的檢測(cè)精度下降,在檢測(cè)頭部分將標(biāo)簽匹配策略換為SimOTA 標(biāo)簽匹配策略,并且將邊界框回歸損失函數(shù)更換為更快、更準(zhǔn)確的SIOU Loss。根據(jù)消融和對(duì)比實(shí)驗(yàn)得出的結(jié)果,本文提出的模型在玉米雄穗數(shù)據(jù)集上實(shí)現(xiàn)了FPS 高達(dá)128. 5,提升了65. 5% 。參數(shù)量、模型權(quán)重和GFLOPs 分別降低了52. 86% 、51. 57% 和61. 40% ,而mAP 提升了0. 6% 。為以后大規(guī)模玉米雄穗快速檢測(cè)的實(shí)現(xiàn)提供了新的實(shí)用方法。
參考文獻(xiàn)
[1] GAGE J L,MILLER N D,SPALDING E P,et al. TIPS:ASystem for Automated Imagebased Phenotyping of MaizeTassels [J]. Plant Methods,2017,13:21.
[2] HUANG J X,G?MEZDANS J L,HUANG H,et al. Assimilation of Remote Sensing into Crop Growth Models:Current Status and Perspectives [J]. Agricultural andForest Meteorology,2019,276-277:107609.
[3] LU H,CAO Z G,XIAO Y,et al. Finegrained MaizeTassel Trait Characterization with Multiview Representations [J ]. Computers and Electronics in Agriculture,2015,118:143-158.
[4] YU Z H,YE J X,LI C N,et al. TasselLFANet:A NovelLightweight Multibranch Feature Aggregation Neural Network for Highthroughput Imagebased Maize Tassels Detection and Counting [J]. Frontiers in Plant Science,2023,14:1158940.
[5] GIRSHICK R,DONAHUE J,DARRELL T,et al. RichFeature Hierarchies for Accurate Object Detection and Semantic Segmentation[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Columbus:IEEE,2014:580-587.
[6] GIRSHICK R. Fast RCNN [C ]∥ Proceedings of theIEEE International Conference on Computer Vision. Santiago:IEEE,2015:1440-1448.
[7] REN S Q,HE K M,GIRSHICK R,et al. Faster RCNN:Towards Realtime Object Detection with Region ProposalNetworks [J]. IEEE Transactions on Pattern Analysis &Machine Intelligence,2017,39(6):1137-1149.
[8] LIU W,ANGUELOV D,ERHAN D,et al. SSD:SingleShot Multibox Detector [C]∥ European Conference onComputer Vision. Amsterdam:Springer,2016:21-37.
[9] REDMON J,DIVVALA S,GIRSHICK R,et al. You OnlyLook Once:Unified,Realtime Object Detection[C]∥Proceedings of the IEEE Conference on Computer Vision andPattern Recognition. Las Vegas:IEEE,2016:779-788.
[10] WANG C Y,BOCHKOVSKIY A,MARK H Y. YOLOv7:Trainable Bagoffreebies Sets New Stateoftheart forRealtime Object Detectors [C ]∥ Proceedings of theIEEE / CVF Conference on Computer Vision and PatternRecognition. Vancouver:IEEE,2023:7464-7475.
[11] KHAKI S,SAFAEI N,PHAM H,et al. WheatNet:ALightweight Convolutional Neural Network for Highthroughput Imagebased Wheat Head Detection andCounting [J]. Neurocomputing,2022,489:78-89.
[12] BUZZY M,THESMA V,DAVOODI M,et al. RealtimePlant Leaf Counting Using Deep Object DetectionNetworks[J]. Sensors,2020,20(23):6896.
[13] YU Z H,CAO Z G,WU X,et al. Automatic ImagebasedDetection Technology for Two Critical Growth Stages ofMaize:Emergence and Threeleaf Stage [J]. Agriculturaland Forest Meteorology,2013,174-175:65-84.
[14] CUI C,GAO T Q,WEI S Y,et al. PPLCNet:ALightweight CPU Convolutional Neural Network [EB /OL]. (2021 - 09 - 17)[2023 - 08 - 12]. https:∥ arxiv.org / abs / 2109. 15099.
[15] LIN T Y,DOLL?R P,GIRSHICK R,et al. FeaturePyramid Networks for Object Detection[C]∥Proceedingsof the IEEE Conference on Computer Vision and PatternRecognition. Honolulu:IEEE,2017:936-944.
[16] LIU S,QI L,QIN H F,et al. Path Aggregation Network forInstance Segmentation [C]∥ Proceedings of the IEEEConference on Computer Vision and Pattern Recognition.Salt Lake City:IEEE,2018:8759-8768.
[17] TAN M, LE Q V. MixConv: Mixed DepthwiseConvolutional Kernels [EB / OL]. (2019-07-22)[2023-08-12]. https:∥arxiv. org / abs / 1907. 09595.
[18] GE Z,LIU S T,WANG F,et al. YOLOX:ExceedingYOLO Series in 2021 [EB / OL]. (2021-07-18)[2023-08-12]. https:∥arxiv. org / abs / 2107. 08430.
[19] GE Z,LIU S T,LI Z M,et al. OTA:Optimal Transport Assignment for Object Detection [C]∥ Proceedings of theIEEE / CVF Conference on Computer Vision and PatternRecognition. Nashville:IEEE,2021:303-312.
[20] REZATOFIGHI H,TSOI N,GWAK J,et al. GeneralizedIntersection over Union:A Metric and a Loss for BoundingBox Regression[C]∥Proceedings of the IEEE / CVF Conference on Computer Vision and Pattern Recognition. LongBeach:IEEE,2019:658-666.
[21] GEVORGYAN Z. SIoU Loss:More Powerful Learning forBounding Box Regression [EB / OL]. (2022 - 08 - 25 )[2023-09-01]. https:∥arxiv. org / abs / 2205. 12740.
[22] HOWARD A,SANDLER M,CHEN B,et al. Searching forMobileNetV3[C]∥Proceedings of the IEEE / CVF International Conference on Computer Vision. Seoul:IEEE,2019:1314-1324.
[23] HAN K,WANG Y H,TIAN Q,et al. GhostNet:More Features from Cheap Operations [C]∥ Proceedings of theIEEE / CVF Conference on Computer Vision and PatternRecognition. Seattle:IEEE,2020:1577-1586.
[24] TAN M X,PANG R M,LE Q V. EfficientDet:Scalableand Efficient Object Detection[C]∥ Proceedings of theIEEE / CVF Conference on Computer Vision and PatternRecognition. Seattle:IEEE,2020:10778-10787.
作者簡(jiǎn)介
胡 陣 男,(1999—),碩士研究生。主要研究方向:目標(biāo)檢測(cè)、多源遙感數(shù)據(jù)融合。
馬宗軍 男,(1997—),碩士研究生。主要研究方向:控制工程。
黃傳寶 男,(1998—),碩士研究生。主要研究方向:計(jì)算機(jī)視覺、語(yǔ)音情感識(shí)別。
趙景波 男,(1971—),博士,教授。主要研究方向:機(jī)器人工程、計(jì)算機(jī)控制。
唐勇偉 男,(1991—),博士研究生,助理研究員。主要研究方向:工業(yè)物聯(lián)網(wǎng)、智能感知和控制等。
(*通信作者)郝鳳琦 男,(1979—),碩士,副研究員。主要研究方向:網(wǎng)絡(luò)協(xié)議、人工智能和嵌入式系統(tǒng)等。
基金項(xiàng)目:山東省科技型中小企業(yè)創(chuàng)新能力提升工程項(xiàng)目(2023TSGC0111,2023TSGC0587);青島市民生計(jì)劃(22-3-7-xdny-18-nsh);山東省重點(diǎn)研發(fā)計(jì)劃(軟科學(xué)項(xiàng)目)(2023RZA02017);山東省重大科技創(chuàng)新工程項(xiàng)目(2019JZZY020603)