摘要:
針對采摘機器人收獲技術中的識別技術受限于非結(jié)構(gòu)化環(huán)境中復雜背景干擾的問題,采用改進模型后處理的研究路線,提出一種改進YOLOv5算法。首先將果實目標的中心點距離、預測框?qū)捀邔嶋H差值與面積交并比三者共同考慮為損失項,提升預測框?qū)嶋H尺寸精度,再利用中心點距離作為懲罰項加權面積交并比得分,提升密集目標的識別能力,最后通過設置輔助訓練頭,提供更多的梯度信息以防止過擬合現(xiàn)象。通過多種損失函數(shù)損失值對比與模型改進精度對比試驗證明改進有效性,部署至機器人驗證可行性。結(jié)果表明,改進后的算法模型識別平均精度95.6%,召回率達到90.1%,相較于改進前全類精度提升0.4個百分點,召回率提升0.4個百分點,滿足采摘機器人識別需求。
關鍵詞:非結(jié)構(gòu)化;番茄果實;目標識別;損失函數(shù)優(yōu)化;YOLOv5算法
中圖分類號:TP249; TP391.4
文獻標識碼:A
文章編號:2095-5553 (2024) 04-0205-09
收稿日期:2023年9月25日" 修回日期:2023年11月26日
基金項目:江蘇省現(xiàn)代農(nóng)業(yè)機械裝備與技術示范推廣項目(NJ2022-02)
第一作者、通訊作者:張永宏,男,1974年生,山東莒南人,博士,教授;研究方向為方向模式識別與智能系統(tǒng)。E-mail: zyh@nuist.edu.cn
Target identification and detection for tomato harvesting robot in unstructured environments
Zhang Yonghong1, Li Yuchao1, Dong Tiantian1,Qin Xiayang1, Liu Yunping1, Cao Jingxing2
(1. School of Automation, Nanjing University of Information Science and Technology, Nanjing, 210044, China;
2. Wuxi SIASUN Robot amp; Automation Co, Ltd, Wuxi, 210000, China)
Abstract:
Aiming at the problem that the recognition technology of harvesting robots in crop picking was limited by complex background interference in unstructured environments, especially due to occlusion by foliage and the overlapping of fruits, resulting in lower accuracy in identification, an improved YOLOv5 algorithm was proposed based on the improved research approach involving post-processing of the model. Initially, the centroid distance of fruit targets, the actual difference in predicted box width and height, and the intersection-over-union of areas were collectively considered as loss terms. This was aimed at enhancing the accuracy of predicted box sizes. Furthermore, the centroid distance was utilized as a penalty term weighted by the intersection-over-union score to improve the recognition capability for densely clustered targets. Subsequently, auxiliary training heads were incorporated to provide additional gradient information, thereby preventing overfitting. Through comparative analysis of loss values using multiple loss functions and assessing the model improve mentaccuracy, the effectiveness of the enhancements was experimentally validated. Finally, the deployment onto the robot confirmed the feasibility of the proposed improvements. The results indicated that the improved algorithm model achieved an average accuracy of 95.6%, with a recall rate of 90.1%. Compared to the pre-improvement overall class accuracy, there was an increase of 0.4 percentage points in both accuracy and recall rate, meeting the recognition requirements for harvesting robots.
Keywords:
unstructured; tomato; target recognition; loss function optimization; improved YOLOv5
0 引言
非結(jié)構(gòu)化設施農(nóng)業(yè)采摘機器人是指適用于不同設施農(nóng)業(yè)場景下的采摘機器人。設施農(nóng)業(yè)生產(chǎn)環(huán)境相對整齊[1],不僅為農(nóng)作物提供良好的生長環(huán)境,也為采摘機器人提供穩(wěn)定的工作環(huán)境,這一定程度上降低采摘機器人的開發(fā)難度、增強機器人運行時的穩(wěn)定性[2, 3]。在早期作物識別試驗中,大多采用機器學習的方法[4]。利用數(shù)字圖像處理的方式,采用卷積進行濾波特征提取,使用支持向量機、BP神經(jīng)網(wǎng)絡等機器學習模型,實現(xiàn)特征的分類,從而達到識別的效果[5]。但由于圖像采集環(huán)境因素多變且特征向量選取存在多樣性,導致最終識別效果通用性與可移植能力較弱[6]。從20世紀中期開始,機器視覺不斷發(fā)展,從構(gòu)建三維向量到特征識別,從淺層神經(jīng)網(wǎng)絡到深度學習,人們逐漸拓寬機器視覺應用領域,提升農(nóng)業(yè)作物識別任務的精度[7-10]。
呂志遠等[11]通過先分類識別再進行目標檢測的級聯(lián)網(wǎng)絡,實現(xiàn)檢測小目標與密集型目標的任務,模型mAP達到92.35%,對比改進前YOLOX網(wǎng)絡提升2.38個百分點。李天華等[12]采用HSV色域分割方法,對成熟番茄識別精度達到94.77%,較改進前YOLOv4模型提升4.3個百分點。楊堅等[13]采用CBAM注意力模塊與YOLOv4-tiny骨干網(wǎng)絡結(jié)合,加強全局特征融合,識別平均精度達到97.9%,較YOLOv3提升30.9個百分點。何斌等[14]改進YOLOv5的損失函數(shù),通過使用交并比的目標位置損失函數(shù),識別夜間溫室番茄,綜合平均精度達到97.6%。朱智惟[15]通過對原始YOLOv5網(wǎng)絡結(jié)構(gòu)與NMS極大值抑制進行改進,增加跨層連接,更好地實現(xiàn)不同層級間特征融合,使識別精度達到97.62%,相較于改進前提升2.38%,抓取絕對誤差不超過±3 mm。
現(xiàn)有的機器視覺技術側(cè)重目標檢測中識別率與識別精度的提升,但對于攝像頭放置于機械手上的識別采摘實際應用而言,檢測算法更傾向于提升局部范圍內(nèi)當前目標檢測識別預選框的精度,即目標的坐標信息精度[16, 17]。在此需求下,應尋找一種面向提升局部畫面,確定目標坐標信息的高精度模型。
本文以番茄果實為研究對象,采用改進損失函數(shù)和極大抑制相結(jié)合的方法,提出一種基于YOLOv5的番茄采摘機器人的果實目標識別算法。通過融合中心點距離、預測框?qū)捀邔嶋H差值與面積交并比三類損失值,提升預測框?qū)嶋H尺寸精度;再引入中心點距離作為懲罰項加權面積交并比得分,提升小范圍內(nèi)密集目標下模型的極大值抑制能力;最后通過設置輔助分類頭,降低模型過擬合風險,提升預測框中心點坐標精度,為非結(jié)構(gòu)環(huán)境下果實自動化采摘提供可靠的視覺識別支持。
1 番茄機器人系統(tǒng)
1.1 采摘機器人系統(tǒng)結(jié)構(gòu)
番茄采摘系統(tǒng)的設計主要方法:(1)通過深度學習方法研究復雜環(huán)境下番茄檢測與識別。(2)通過深度相機確定番茄目標位置。(3)通過遠程監(jiān)控實時返回檢測畫面及監(jiān)測數(shù)據(jù)。(4)通過六自由度機械臂及末端執(zhí)行器完成采摘任務。針對上述需求,所設計的番茄識別定位采摘系統(tǒng)主要包括采摘機器人、深度相機,通信模塊,控制模塊,機械臂及末端執(zhí)行器,整體系統(tǒng)結(jié)構(gòu)如圖1所示。
采摘機器人移動平臺采用四輪差動復合機器人為載體,安裝避障傳感器和激光雷達,以滿足運動精度要求。移動平臺搭載六自由度機械臂完成果實采摘。深度相機采用Realsense D435i,由一對立體紅外傳感器、一個紅外激光發(fā)射器和一個彩色相機組成,其中RGB圖像最大幀分辨率為1920像素×1080像素,幀率30 FPS;深度圖像分辨率為1 280像素×720像素,最大幀率90 FPS,最小深度距離10 cm。本次采摘試驗兼顧深度信息與色彩信息,因此設置設備參數(shù)為分辨率1 280像素×720像素,幀率30 FPS。采摘機器人技術參數(shù)主要如表1所示。
整個系統(tǒng)通過深度攝像頭確定番茄位置坐標,移動機器人運動至合適位置,工控機計算機械臂各關節(jié)角度并控制運動,最后由末端執(zhí)行器完成番茄的采摘。同時通過遠程監(jiān)控實時返回攝像頭視頻輸出,完成對采摘過程的可視化監(jiān)控。攝像頭安裝如圖2所示,采摘機器人系統(tǒng)如圖3所示。
1.2 目標識別及定位算法
考慮到檢測需求的實時性和快速性,番茄識別基于YOLOv5算法[18]。YOLOv5網(wǎng)絡結(jié)構(gòu)分為3部分,用于提取圖像特征的骨干網(wǎng)絡、用于特征融合的特征金字塔和用于對金字塔特征檢測的目標檢測頭[19]。
YOLOv5使用CSPDarknet53作為其主干網(wǎng)絡[20],頭部采用卷積層和池化層,用于預測目標的類別、位置和置信度。與YOLOv4相比,YOLOv5的頭部網(wǎng)絡采用更大的感受野和更小的步幅,可以有效提高檢測的準確性。此外采用CIoU(Complete Intersection over Union)損失函數(shù),該函數(shù)不僅考慮目標框的位置和大小,還計算目標框的形狀影響,可以更準確地衡量檢測結(jié)果的好壞。與其他算法相比,YOLOv5具有速度快、精度高、模型輕量級等特點,適合于實時處理和輕量級部署的場景[21-23]。
2 改進YOLOv5算法原理和方法
針對在非結(jié)構(gòu)化場景中番茄生長狀態(tài)不一、枝葉遮擋等問題,本文主要從網(wǎng)絡模型后處理角度出發(fā),對YOLOv5算法進行針對性改進。
2.1 多因素損失優(yōu)化
EIoU[24](Efficient Intersection over Union)是一種改進的目標檢測損失函數(shù),是在原有的CIoU損失函數(shù)基礎上進一步優(yōu)化而來。EIoU損失函數(shù)在計算真實框GT(Ground Truth)與預測框BBox(Bounding Box)之間的差異時,即引入距離懲罰項,并且又直接考慮邊界框的寬高與其置信度的真實差異,避免縱橫比對模型相似性的有效優(yōu)化,從而更準確地評估預測框的位置和尺寸,原理如圖4所示,紅色部分為預測框,綠色為真實框,藍色為最小外接矩形。計算如式(1)所示。該損失函數(shù)包含重疊損失、中心距損失,寬高損失三部分。
LEIoU
=LIoU+Ldis+Lasp
=1-IoU+ρ2(b,bgt)c2+ρ2(w,wgt)C2w
(1)
式中:
LEIoU——EIoU損失值;
LIoU——
預測框與真實框面積交并比損失;
Ldis——
預測框與真實框中心點距離損失值;
Lasp——預測框與真實框方位損失;
IoU——面積交并比;
ρ(·)——預測框與真實框間歐式距離;
b、w、h——預測框的中心點和寬高;
bgt、wgt、hgt——真實框中心點和寬高;
c、Cw、Ch——
覆蓋預測框與真實框的最小外接框的對角線長度、寬度和高度。
在計算過程中,首先計算真實框與預測框之間的交集面積和并集面積之間的比值,再加入真實框和預選框中心點之間的歐氏距離作為懲罰項,最后考慮真實框和預選框之間的中心點位置關系計算損失值。因此在模型后續(xù)沿損失值減小方向優(yōu)化過程中,預測框?qū)⒅饾u與真實框面積重合,中心點距離縮小,形狀相同。
2.2 多目標重疊抑制
非極大值抑制NMS(Non-Maximum Suppression)是目標檢測中常用的一種后處理方法,用于去除與同一真實框匹配的冗余的預測框。傳統(tǒng)NMS方法采用不同預測框間面積交并比IoU(Intersection over Union)作為衡量兩個檢測結(jié)果重疊程度的指標,即當兩個檢測框的IoU大于某個閾值時,將得分較低的框去除。
然而,NMS極大值抑制過程中,若預測框中存在多個真實框目標,則該預測框和與不同目標真實框匹配的預測框間面積重疊值較大,正確的預測框可能會被NMS錯誤抑制。針對此問題,不僅需要考慮目標框之間的重疊情況,還需要考慮目標框之間的中心點距離,才可以更準確地選擇最終的檢測結(jié)果。因此,一組預測框中,與置信度最高的預測框中心點距離越近,則是冗余框的可能性越大,即引入相鄰框的中心距參數(shù),創(chuàng)建新的影響參數(shù)項,提高同一預選框多目標情況下的召回率。在計算過程中,首先按照置信度對所有檢測結(jié)果進行排序,從置信度最高的框開始,依次遍歷每個框,將每個預測框與置信度最大的框?qū)Ρ?,得分CDIoU小于一定閾值的框標記為冗余框,并從結(jié)果列表中刪除。將被保留下來的預測框作為新的種子框,繼續(xù)進行遍歷和刪除操作,直到處理完畢。這種將DIoU(Distance-IoU)的損失算法替換NMS中原有的IoU損失算法即為DIoU-NMS。數(shù)學模型如(2)式所示。
Si=
SiCDIoUlt;ε
0CDIoU≥ε
(2)
CDIoU=IoU-d2c12β
式中:
Si——遍歷的第i個預選框;
CDIoU——DIoU得分;
ε——去除閾值;
d——不同預測框的中心點距離;
c1——
覆蓋相鄰兩預測框最小外接矩形的對角線長度;
β——控制距離懲罰項的懲罰幅度。
這種方式在面對具有重疊目標的情況下,具有較好的效果,可以有效地減少誤判和漏檢,提高目標檢測的精度和魯棒性。如圖5所示,綠色框為置信度最大的預測框,藍色框為可能的冗余預測框,三種情況下冗余預測框與置信度最大的預測框面積交并比相同,無法通過IoU閾值去除三者中的冗余框,引入中心距項后,IoU得分排序為Bgt;Agt;C,這時再合理設置閾值即可去除冗余預測框C,AB則表示所預測的物體與綠色預選框預測的物體重合。
2.3 多輸出頭輔助
在網(wǎng)絡訓練過程中,為了讓中間層學到更多的信息,從而具有豐富的梯度信息,將網(wǎng)絡訓練得更好,提高模型的精度。本文選擇在頭部網(wǎng)絡的倒數(shù)第二次和倒數(shù)第三層添加輔助訓練頭。這些概率值可以用特定的損失函數(shù)來計算分類損失,并且可以在反向傳播中以一定的權重更新模型參數(shù)與主模型的損失函數(shù)共同訓練模型。另外,每個輔助頭對應一個不同的特征圖尺寸,并負責識別不同大小的物體。這樣輔助頭可以為模型提供更多的信息,增強模型對同幅畫面中大小不一的物體檢測準確性??偟膩碚f,輔助頭可以提高模型的精度,使得模型更好地適應不同的數(shù)據(jù)集和場景。
為了更好地介紹輔助頭技術路線,將原本的檢測頭稱為引導頭。引導頭導向標簽器是根據(jù)引導頭的預測結(jié)果與真實標簽進行損失計算,通過優(yōu)化生成軟標簽。由于標簽更能代表源數(shù)據(jù)與目標數(shù)據(jù)的相關性,此時生成的軟標簽將作為輔助頭和引導頭后續(xù)的目標訓練模型。此外,因為輔助頭學習能力低,為了避免丟失信息,在檢測任務中重點提升輔助頭的召回率,引導頭將從召回的結(jié)果中選擇高精度結(jié)果作為輸出結(jié)果。在此過程中,輔助頭和引導頭的權重比需要額外注意,本試驗設置成1∶0.25。其損失融合的數(shù)學模型如式(3)所示。
l=lp+λ×lr
(3)
式中:
l——軟標簽最終損失值;
λ——粗標簽權重系數(shù);
lp——細標簽損失值;
lr——粗標簽損失值。
根據(jù)改進方法,提高YOLOv5算法在實際應用中的魯棒性,更加適合于番茄生長狀態(tài)不一、枝葉遮擋等復雜場景下的目標檢測任務,改進后整體網(wǎng)絡模型如圖6所示。
3 試驗結(jié)果與分析
3.1 識別試驗準備
模型訓練的數(shù)據(jù)集采用不同遮擋程度、不同識別角度,不同成熟度的800張的番茄圖像集,使用Labelimg進行手動標注成YOLO所需txt格式的標簽,制作而成。之后將數(shù)據(jù)集中的圖像和標簽按照8∶2方式隨機劃分為訓練集和驗證集。
本試驗示意如圖7所示,采摘機器人依次經(jīng)過四個采摘點。擬抓取試驗場地如圖8所示,設置四株番茄樹采摘點,田間寬度1.8 m,作物生長高度0.8~1.5 m,每棵樹上包含遮擋程度不同的目標8~15顆,模擬如圖9所示的實際采摘效果。本試驗軟件環(huán)境采用python3.8版本、pytorch1.10.0深度學習框架,CUDA10.2版本。超參數(shù)設置為:預訓練權重使用yolov5s.pt;最大迭代次數(shù)100次;批次尺寸(batchsize)設置為16張;學習率為0.001。
由于在圖片讀取后,主干網(wǎng)絡經(jīng)過focus模塊及一個卷積操作后又通過4個C3模塊由淺到深逐層提取特征圖,每次特征提取操作將圖片寬高尺寸各減小原來的一半,最小圖像減少至原圖1/32,因此主干網(wǎng)絡輸入圖像尺寸應為32的整數(shù)倍,默認為640像素×640像素。通過長度寬度等比縮放再填充計算實現(xiàn),長度1 280像素×640像素/1 280像素=640像素,寬度720像素×640像素/1 280像素=360像素,之后寬度由360像素填充至640像素,形成640像素×640像素尺寸的圖片。
同時,為了驗證在不同定位精度損失函數(shù)下,損失值的收斂情況。本試驗同時對比CIoU(Complete Intersection over Union)[25]、SIoU(Scylla Intersection over Union)[26]、GIoU(Generalized Intersection over Union)[27]、EIoU(Efficient Intersection over Union)、Focal EIoU(Focal and Efficient Intersection over Union)、WIoU(Wise Intersection over Union)[28]六種損失函數(shù)在相同數(shù)據(jù)集上的情況,主要對比參數(shù)為損失值、收斂時間、召回率與全類平均精度。其中圖10損失值為整體回歸損失值,損失值內(nèi)容包括邊框回歸損失,類別損失與置信度損失,分別代表預測框定位精度與預測框分類精度。
Loss=Llocalization+LClass+Cprediction
式中:
Loss——總損失值;
Llocalization——定位損失;
LClass——類別損失;
Cprediction——精度損失。
召回率為被精準識別出的番茄與全部番茄的數(shù)量比,計算如式(4)所示。
R=TpTp+Fn
(4)
式中:
R——召回率;
Tp——
標簽為番茄的目標被識別成番茄是樣本數(shù)量;
Fn——
標簽為番茄的目標沒有別識別成番茄的樣本數(shù)量。
全類平均精度為模型不同類別上的精度進行綜合評估的指標,計算如式(5)所示。
mAP=1m∑m-1i=0
∑n-1j=1
(Rj+1-Rj)×
max[P(Rj+1),P(Rj)]i
(5)
P(R)=TpTp+Fp
式中:
Fp——
將背景識別為番茄的預測框數(shù)量;
P(R)——
在召回率為R的情況下的識別精度;
Rj——
為對召回率等距取n個插值中,第j個召回率的數(shù)值;
m——數(shù)據(jù)集類別數(shù)量。
3.2 模型訓練結(jié)果分析
將不同角度和遮擋程度的番茄按照有無遮擋和單果多果將數(shù)據(jù)集劃分四類,其模型訓練結(jié)果分別如圖11所示,當單果無遮擋時,識別置信度最高,當多果且有遮擋時,識別置信度最低,即多果有遮擋識別難度最高。
經(jīng)過YOLOv5s網(wǎng)絡模型訓練后,不同損失函數(shù)的損失值對比如圖11所示。由圖可得在整個迭代過程中損失值有小幅度波動,但總體仍呈下降趨勢,說明各類損失函數(shù)都可使模型收斂。在前20次迭代過程中,各類損失函數(shù)中損失值均下降迅速,損失值范圍減小至0.04以下。在后80次迭代過程中,各損失函數(shù)的損失值下降較為平緩,損失值均縮小至0.035以下。
具體來看,EIoU最初計算出的損失值最大,其次是GIoU,而SIoU、CIoU、FocusEIoU三者初始損失值大小相差無幾均為最小。后續(xù)迭代過程中EIoU損失值下降最多為0.071,CIoU損失值下降最少為0.04。綜上所述,EIoU在損失計算過程中考慮因素較多初始計算出的損失值最大,同時收斂性較強,損失下降差值最大。
本試驗采用檢測時間t;召回率Recall;全類平均精度mAP作為采用不同損失函數(shù)模型的主要的評價指標。其分別代表檢測單張圖像的平均耗時,實際目標中被認為是目標概率及被認為是目標中實際目標的概率。由表2可知,檢測速度最快為SIoU和FocusEIoU,均為每幅圖9.6 ms,檢測時間最慢的為CIoU,為每幅圖11.5 ms。精度最高為EIoU(95.6%)與CIoU、SIoU、GIoU、FocalEIoU、WIoU函數(shù)相比精度提升0.4、0.8、1.4、1、1.4個百分點。召回率最高為FocusEIoU,但是相較于EIoU其精度卻下降0.9個百分點。說明對于本試驗的數(shù)據(jù)集,雖然FocusEIoU讓精度最高的EIoU的檢測速度和召回率有一定提升,但代價卻是降低1個百分比。因此綜合各方面分析,采用EIoU時,運行速度較快且召回率也較高,識別精度最高,對于番茄數(shù)據(jù)目標預測率提高,最終使得精度提高。
之后對模型的極大值抑制方法進行改進添加輔助訓練頭機制,改進前后識別效果如圖12所示。
綠色邊框為識別正確的邊框,藍色為錯誤邊框,紅色為漏檢的邊框。在紅色邊框處,原本番茄的枝葉遮擋率過高或者果實重疊無法識別,在提取特征數(shù)量不變的情況下,通過添加輔助訓練頭和改進損失函數(shù)方式,增強模型的特征分類處理能力,從而提高識別精度。另外在藍色部分,其與周圍預選框交并比值很大,無法被極大值抑制。使用距離極大值抑制方法(DIoU-NMS)后,引入不同預選框的中心點距離作為懲罰項,降低藍色邊框得分后便可成功將其抑制。最后,對比改進前后綠色邊框,在改進后的邊框面積更小,更加貼合番茄輪廓,在返回番茄中心點坐標時精確度更高,更利于番茄的采摘。
由表3可知,對比改進前后模型的檢測指標可得:由于添加輔助頭訓練,單張圖像預測時間增加1.2 ms,召回率提升0.4個百分點,全類精度提升0.4個百分點。總體精度上升,模型擁有更好的魯棒性,改進后模型精度如圖13所示。
3.3 實際應用結(jié)果分析
為防止模型訓練過程中過擬合,先將訓練好的模型用于識別實驗室番茄,具體效果如圖14所示,針對訓練過程中提出的枝葉遮擋與果實重疊問題有較好地處理性。
圖15展示了采摘機器人試驗過程,上位機顯示抓取畫面如圖15(a)、圖15(b)所示,左上角顯示識別信息,左下角顯示機械臂抓取信息,右側(cè)顯示深度相機返回圖像信息。其中包含識別目標的三維坐標信息,具體坐標值再結(jié)合深度相機內(nèi)置矩陣和像素坐標計算得出,抓取效果如圖15(c)、圖15(d)所示。
3.4 結(jié)果誤差分析
根據(jù)試驗結(jié)果,在采摘過程中存在不完全抓取,抓取不牢的情況,圖16(a)表示抓取部位過少,果實彈出末端執(zhí)行器受力范圍,導致抓取失敗,圖16(b)所示雖可正常采摘但是果實受力點分布不均,導致采摘時果實破損。經(jīng)分析誤差產(chǎn)生首先來源于機械臂及運動部分采摘開始時,所處的初始位置,機械臂及深度相機坐標較原始坐標有偏差,使得識別結(jié)果坐標轉(zhuǎn)換為采摘坐標時出現(xiàn)偏移。其次算法部署時識別幀率不足,在抓取前由風吹等因素干擾果實識別位置時,抓取坐標實時更新性差。
4 結(jié)論
本文以非結(jié)構(gòu)化環(huán)境下番茄果實為研究對象,對番茄采摘機器人目標果實進行圖像識別,提出一種應用于番茄采摘機器人采摘技術的果實目標識別與檢測方法,解決非結(jié)構(gòu)環(huán)境下番茄果實目標識別精度低的問題,有效提高受枝葉遮擋,果實重疊等因素干擾的果實目標識別精度。
1) 針對番茄識別采摘存在的果實遮擋及識別定位不準的問題,本文提出改進YOLOv5識別算法,通過添加輔助訓練頭、改進損失函數(shù)與極大抑制方法,讓模型產(chǎn)生的預測框更加貼合番茄輪廓,解決成串番茄相互遮擋,預測框錯誤抑制的問題,提高番茄的位置信息精度。對比改進前后模型的性能指標,改進后的模型召回率Recall和全類精度mAP達到90.1%和95.6%,分別提升0.4和0.4個百分點,可以滿足抓取需求。
2) 對比多種不同損失函數(shù),采用EIoU損失情況的模型精度與速度綜合屬性最好,與采用CIoU損失的模型相比,檢測平均速度、召回率與全類平均精度三項指標均有明顯增強,提高采摘機器人在工作過程中的精度與速度。
3) 在實驗室進行模擬環(huán)境中機器人的采摘試驗,驗證改進模型能夠應用于采摘機器人并準確實現(xiàn)采摘功能的技術可實現(xiàn)性,突破設施環(huán)境中復雜情況下的部分條件制約,滿足番茄采摘機器人的采摘識別需求。
參 考 文 獻
[1] 賈玉琴. 甘肅省設施農(nóng)業(yè)和蔬菜產(chǎn)業(yè)的發(fā)展現(xiàn)狀、潛力與對策分析[J]. 中國瓜菜, 2023, 36(9): 144-150.
Jia Yuqin. Development status, potential and countermeasure analysis of facility agriculture and vegetable industry in Gansu [J]. China Cucurbits and Vegetables, 2023, 36(9): 144-150.
[2] 趙敬, 楊化偉, 劉光輝, 等. 我國果蔬采摘機器人技術發(fā)展現(xiàn)狀及展望[J]. 農(nóng)業(yè)裝備與車輛工程, 2023, 61(7): 23-28.
Zhao Jing, Yang Huawei, Liu Guanghui, et al. Development status and prospects of fruit and vegetable picking robots technology in China[J].Agricultural Equipment amp; Vehicle Engineering, 2023, 61(7): 23-28.
[3] 戴軍. 機器視覺技術在瓜菜檢測應用中的研究進展[J]. 中國瓜菜, 2023, 36(11): 1-9.
Dai Jun. Research progress of machine vision technology in the detection of cucurbits and vegetables [J]. China Cucurbits and Vegetables, 2023, 36(11): 1-9.
[4] 馮俊惠, 李志偉, 戎有麗, 等. 基于改進Hough圓變換算法的成熟番茄果實識別[J]. 中國農(nóng)機化學報, 2021, 42(4): 190-196.
Feng Junhui, Li Zhiwei, Rong Youli, et al. Identification of mature tomatoes based on an algorithm of modified circu-lar Hough transform [J]. Journal of Chinese Agricultural Mechanization, 2021, 42(4): 190-196.
[5] 金超杞, 梁喜鳳, 章艷, 等. 基于Matlab的番茄果實串檢測提?。跩]. 江蘇農(nóng)業(yè)科學, 2018, 46(8): 209-211.
Jin Chaoqi, Liang Xifeng, Zhang Yan, et al. Tomato fruit string detection and extraction based on Matlab [J] Jiangsu Agricultural Science, 2018, 46 (8): 209-211.
[6] 梁曉婷, 龐琦, 楊一, 等. 基于YOLOv4模型剪枝的番茄缺陷在線檢測[J]. 農(nóng)業(yè)工程學報, 2022, 38(6): 283-292.
Liang Xiaoting, Pang Qi, Yang Yi, et al. Online detection of tomato defects based on YOLOv4 model pruning [J]. Transactions of the Chinese Society of Agricultural Engineering, 2022, 38(6): 283-292.
[7] Bhagya C, Shyna A. An overview of deep learning based object detection techniques [C]. 2019 1st International Conference on Innovations in Information and Communication Technology (ICIICT). IEEE, 2019: 1-6.
[8] Jiao L, Zhang F, Liu F, et al. A survey of deep learning-based object detection[J]. IEEE access, 2019, 7: 128837-128868.
[9] Hary C, Mandala S. Object detection analysis study in images based on deep learning algorithm [C]. 2022 International Conference on Data Science and Its Applications (ICoDSA). IEEE, 2022: 226-231.
[10] Zhou Mingzhe. Research advanced in deep learning object detection [C]. 2022 IEEE Conference on Telecommunications, Optics and Computer Science (TOCS), Dalian, China, 2022: 1318-1322.
[11] 呂志遠, 張付杰, 魏曉明, 等. 采用組合增強的YOLOX-ViT協(xié)同識別溫室內(nèi)番茄花果[J]. 農(nóng)業(yè)工程學報, 2023, 39(4): 124-134.
Lü Zhiyuan, Zhang Fujie, Wei Xiaoming, et al. Synergistic recognition of tomato flowers and fruits in greenhouse using combination enhancement of YOLOX-ViT [J]. Transactions of the Chinese Society of Agricultural Engineering, 2023, 39(4): 124-134.
[12] 李天華, 孫萌, 丁小明, 等. 基于YOLO v4+HSV的成熟期番茄識別方法[J]. 農(nóng)業(yè)工程學報, 2021, 37(21): 183-190.
Li Tianhua, Sun Meng, Ding Xiaoming, et al. Tomato recognition method at the ripening stage based on YOLO v4 and HSV [J]. Transactions of the Chinese Society of Agricultural Engineering, 2021, 37(21): 183-190.
[13] 楊堅, 錢振, 張燕軍, 等. 采用改進YOLOv4-tiny的復雜環(huán)境下番茄實時識別[J]. 農(nóng)業(yè)工程學報, 2022, 38(9): 215-221.
Yang Jian, Qian Zhen, Zhang Yanjun, et al. Real-time recognition of tomatoes in complex environments based on improved YOLOv4-tiny [J]. Transactions of the Chinese Society of Agricultural Engineering, 2022, 38(9): 215-221.
[14] 何斌, 張亦博, 龔健林, 等. 基于改進YOLO v5的夜間溫室番茄果實快速識別[J]. 農(nóng)業(yè)機械學報, 2022, 53(5): 201-208.
He Bin, Zhang Yibo, Gong Jianlin, et al. Fast recognition of tomato fruit in greenhouse at night based on improved YOLO v5 [J]. Transactions of the Chinese Society for Agricultural Machinery, 2022, 53(5): 201-208.
[15] 朱智惟. 番茄采摘機器人果實識別與定位技術研究[D]. 合肥: 合肥工業(yè)大學, 2022.
Zhu Zhiwei. Tomato picking robot fruit recognition and positioning technology research [D]. Hefei: Hefei University of Technology, 2022.
[16] 王海楠, 弋景剛, 張秀花. 番茄采摘機器人識別與定位技術研究進展[J]. 中國農(nóng)機化學報, 2020, 41(5): 188-196.
Wang Hainan, Yi Jinggang, Zhang Xiuhua, et al. Research progress on recognition and localization technology of tomato picking robot [J]. Journal of Chinese Agricultural Mechanization, 2020, 41(5): 188-196.
[17] Han W, Hao W, Sun J, et al. Tomatoes maturity detection approach based on YOLOv5 and attention mechanisms [C]. 2022 IEEE 4th International Conference on Civil Aviation Safety and Information Technology (ICCASIT). IEEE, 2022: 1363-1371.
[18] 代國威, 樊景超, 胡林. 采用天氣增強與八度卷積改進YOLOv5的番茄檢測模型構(gòu)建[J]. 山東農(nóng)業(yè)科學, 2022, 54(11): 138-149.
Dai Guowei, Fan Jingchao, Hu Lin. Improved tomato detection model construction based on YOLOv5 using weather augmentation and octave convolution [J]. Shandong Agricultural Sciences, 2022, 54(11): 138-149.
[19] 郎松, 曹選, 張艷微, 等. 融合改進YOLOv5算法的圖像全站儀全自動測量方法[J]. 儀器儀表學報, 2022, 43(5): 120-127.
Lang Song, Cao Xuan, Zhang Yanwei, et al. Fully automated measurement method of image total station based on the improved YOLOv5 algorithm [J]. Chinese Journal of Scientific Instrument, 2022, 43(5): 120-127.
[20] 彭繼慎, 孫禮鑫, 王凱, 等. 基于模型壓縮的ED-YOLO電力巡檢無人機避障目標檢測算法[J]. 儀器儀表學報, 2021, 42(10): 161-170.
Peng Jishen, Sun Lixin, Wang Kai, et al. ED-YOLO power inspection UAV obstacle avoidance target detection algorithm based on model compression [J]. Chinese Journal of Scientific Instrument, 2021, 42(10): 161-170.
[21] Hao K, Chen G, Zhao L, et al. An insulator defect detection model in aerial images based on multiscale feature pyramid network [J]. IEEE Transactions on Instrumentation and Measurement, 2022, 71: 1-12.
[22] Khalfaoui A, Badri A, Mourabit I E L. Comparative study of YOLOv3 and YOLOv5’s performances for real-time person detection [C]. 2022 2nd International Conference on Innovative Research in Applied Science, Engineering and Technology (IRASET). IEEE, 2022: 1-5.
[23] Li B, Hou Y, Che W. Data augmentation approaches in natural language processing: A survey [J]. Ai Open, 2022, 3: 71-90.
[24] Zhang Y F, Ren W, Zhang Z, et al. Focal and efficient IOU loss for accurate bounding box regression [J]. Neurocomputing, 2022, 506: 146-157.
[25] Zheng Z, Wang P, Ren D, et al. Enhancing geometric factors in model learning and inference for object detection and instance segmentation [J]. IEEE Transactions on Cybernetics, 2021, 52(8): 8574-8586.
[26] Loss G Z S I U. More powerful learning for bounding box regression [J]. arXiv Preprint arXiv: 2205.12740, 2022.
[27] Rezatofighi H, Tsoi N, Gwak J Y, et al. Generalized intersection over union: A metric and a loss for bounding box regression [C]. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2019: 658-666.
[28] Tong Z, Chen Y, Xu Z, et al. Wise-IoU:bounding box regression loss with dynamic focusing mechanism. arXiv 2023[J]. arXiv preprint arXiv:2301.10051.