基于級(jí)聯(lián)視覺(jué)檢測(cè)的櫻桃番茄自動(dòng)采收系統(tǒng)設(shè)計(jì)與試驗(yàn)

2023-03-31 03:26:24李興旭陳雯柏王一群吳華瑞趙春江

農(nóng)業(yè)工程學(xué)報(bào) 2023年1期

李興旭，陳雯柏，王一群，楊順，吳華瑞，趙春江

李興旭1,2，陳雯柏1，王一群1，楊順3，吳華瑞2，趙春江2※

（1. 北京信息科技大學(xué)自動(dòng)化學(xué)院，北京 100192；2. 國(guó)家農(nóng)業(yè)信息化工程技術(shù)研究中心，北京 100097；3. 北京中科原動(dòng)力科技有限公司，北京 100085）

櫻桃番茄串生長(zhǎng)姿態(tài)多樣、果實(shí)成熟度不一，采摘機(jī)器人進(jìn)行“粒收”作業(yè)時(shí)，常面臨果梗干涉末端執(zhí)行器、成熟度判斷錯(cuò)誤等問(wèn)題，導(dǎo)致采摘效率低下、難以有效實(shí)現(xiàn)分級(jí)采收。針對(duì)上述問(wèn)題，該研究提出一種級(jí)聯(lián)視覺(jué)檢測(cè)流程，包括采收目標(biāo)檢測(cè)、目標(biāo)果實(shí)特性判別、果實(shí)與果梗位置關(guān)系判斷3個(gè)關(guān)鍵環(huán)節(jié)。首先根據(jù)農(nóng)藝要求按成熟度將番茄果實(shí)分為4個(gè)等級(jí)，引入YOLOv5目標(biāo)檢測(cè)模型對(duì)番茄串和番茄果實(shí)進(jìn)行檢測(cè)并輸出成熟度等級(jí)，實(shí)現(xiàn)分期采收。然后對(duì)果實(shí)與果梗的相對(duì)位置進(jìn)行判斷，利用MobileNetv3網(wǎng)絡(luò)模型對(duì)膨脹包圍盒進(jìn)行果實(shí)與果梗相對(duì)位置關(guān)系判斷，實(shí)現(xiàn)末端執(zhí)行器采摘位姿控制。日光溫室實(shí)際測(cè)試結(jié)果表明，本文提出的級(jí)聯(lián)檢測(cè)系統(tǒng)平均推理用時(shí)22 ms，在I（intersection over union）閾值為0.5的情況下，櫻桃番茄串與果實(shí)的平均檢測(cè)精度達(dá)到89.9%，滿(mǎn)足采摘機(jī)器人的視覺(jué)檢測(cè)精度和實(shí)時(shí)性要求，相比末端執(zhí)行器以固定角度靠近待采目標(biāo)的方法，本文方法采收效率提升28.7個(gè)百分點(diǎn)。研究結(jié)果可為各類(lèi)果蔬采摘機(jī)器人研究提供參考。

機(jī)器人；目標(biāo)檢測(cè)；日光溫室；櫻桃番茄；YOLOv5

0 引言

國(guó)內(nèi)鮮食果蔬采摘的人力成本逐年遞增[1-2]，推動(dòng)了采摘機(jī)器人的快速發(fā)展[3-5]。櫻桃番茄串中果實(shí)成熟時(shí)間并不一致，為追求鮮食品質(zhì)和經(jīng)濟(jì)收益，通常要求分期、分級(jí)采收成熟果實(shí)。為實(shí)現(xiàn)自動(dòng)化的櫻桃番茄分期采收，需要采摘機(jī)器人不僅能夠精準(zhǔn)識(shí)別、定位每一顆番茄[6]，還要求其能夠分析番茄成熟度[7]，同時(shí)規(guī)避果梗遮擋等，對(duì)機(jī)器人的視覺(jué)檢測(cè)系統(tǒng)提出了巨大挑戰(zhàn)。

采摘機(jī)器人的首要任務(wù)是學(xué)習(xí)農(nóng)作物的特征信息，發(fā)現(xiàn)環(huán)境中的目標(biāo)并完成定位[8-9]。機(jī)器視覺(jué)算法提供信息的準(zhǔn)確性、效率和豐富程度，影響著采摘機(jī)器人的決策系統(tǒng)設(shè)計(jì)和收獲效率[10-11]。JUN等[12]使用YOLOv3模型[13]檢測(cè)番茄，利用深度相機(jī)和機(jī)械臂完成了實(shí)驗(yàn)室條件下的番茄單果采收實(shí)驗(yàn)。張勤等[14-15]通過(guò)YOLOv4目標(biāo)檢測(cè)算法[16]識(shí)別番茄串和可采摘果梗的區(qū)域，利用深度、顏色等特征信息獲得串番茄果梗采摘點(diǎn)，完成了櫻桃番茄串采收試驗(yàn)。近年來(lái)，為實(shí)現(xiàn)分期采收，學(xué)者們對(duì)番茄成熟度視覺(jué)檢測(cè)方法展開(kāi)研究。WANG等[17]利用Otsu二值化算法和橢圓模板法自動(dòng)識(shí)別成熟番茄。李天華等[18]將YOLOv4和HSV相結(jié)合，以實(shí)現(xiàn)自然環(huán)境下成熟期番茄的準(zhǔn)確識(shí)別。BENAVIDES等[19]通過(guò)顏色識(shí)別與分割獲取果梗區(qū)域和番茄采摘點(diǎn)位置。單純通過(guò)顏色信息對(duì)果實(shí)進(jìn)行成熟度判斷，方法簡(jiǎn)便可行，但顏色閾值設(shè)定需要豐富的農(nóng)業(yè)先驗(yàn)知識(shí)且單一閾值通常難以應(yīng)對(duì)采摘現(xiàn)場(chǎng)復(fù)雜的光照條件。ZHANG等[20]研究了一種改進(jìn)的深度學(xué)習(xí)方法，通過(guò)少量訓(xùn)練數(shù)據(jù)即可完成對(duì)番茄成熟度判斷。AFONSO等[21]采用Mask R-CNN模型[22]檢測(cè)溫室內(nèi)成熟和未成熟番茄果實(shí)，準(zhǔn)確率分別達(dá)到95%和94%。龍潔花等[23]使用改進(jìn)的Mask R-CNN完成了溫室環(huán)境下不同成熟度番茄的分割，在溫室種植環(huán)境中具有較好的魯棒性，但Mask R-CNN模型尺寸大、實(shí)時(shí)性仍有提一定升空間。

收獲效率較低是采摘機(jī)器人難以邁向商業(yè)化的一個(gè)因素[24]。國(guó)內(nèi)外學(xué)者針對(duì)各類(lèi)番茄的視覺(jué)檢測(cè)方法、機(jī)器人采摘應(yīng)用做了大量研究，然而針對(duì)實(shí)際生產(chǎn)場(chǎng)景的果實(shí)成熟度快速區(qū)分相關(guān)研究較少，末端執(zhí)行器執(zhí)行單果采收時(shí)應(yīng)當(dāng)如何靠近待采目標(biāo)也鮮有研究。為更好地完成分期采收、進(jìn)一步提高串番茄粒收的采摘效率，本文提出一種級(jí)聯(lián)視覺(jué)檢測(cè)流程，包括采收目標(biāo)檢測(cè)、目標(biāo)果實(shí)特性判別、果實(shí)與果梗位置關(guān)系判斷環(huán)節(jié)，并搭建了適配實(shí)際生產(chǎn)場(chǎng)景的采摘機(jī)器人在日光溫室中對(duì)櫻桃番茄進(jìn)行自動(dòng)分期采收試驗(yàn)。

1 基于視覺(jué)引導(dǎo)的櫻桃番茄采摘流程

為實(shí)現(xiàn)分期采收、提高粒收作業(yè)效率，本文提出包括待采目標(biāo)檢測(cè)、目標(biāo)特性判別和果實(shí)果梗位置關(guān)系判斷的檢測(cè)流程，并設(shè)計(jì)相應(yīng)的基于視覺(jué)引導(dǎo)的采摘系統(tǒng)，技術(shù)流程如圖1所示。櫻桃番茄果實(shí)眾多，考慮到機(jī)器人檢測(cè)實(shí)時(shí)性要求，引入高效的YOLOv5檢測(cè)模型對(duì)櫻桃番茄果實(shí)進(jìn)行檢測(cè)，并輸出成熟度信息。根據(jù)成熟度、距離等條件完成待采目標(biāo)篩選后，引入MobileNetv3網(wǎng)絡(luò)模型進(jìn)行果實(shí)果梗位置關(guān)系進(jìn)行快速判斷，為采摘機(jī)器人選擇接近果實(shí)的方向提供依據(jù)。

圖1 基于級(jí)聯(lián)視覺(jué)檢測(cè)的櫻桃番茄自動(dòng)采收技術(shù)流程

2 樣本采集與數(shù)據(jù)集構(gòu)建

2.1 數(shù)據(jù)集樣本采集

訓(xùn)練集圖像采自北京海淀某日光溫室番茄培育園中國(guó)外某品牌代號(hào)“72-008”的櫻桃番茄品種。圖像采集設(shè)備為Intel Realsense D435i深度相機(jī)。將兩個(gè)相機(jī)固定于采摘機(jī)器人不同位置處，提供多種視野條件。機(jī)器人沿導(dǎo)軌勻速移動(dòng)，相機(jī)以固定頻率采集RGB圖像。數(shù)據(jù)集中部分圖像見(jiàn)圖2。

圖2 訓(xùn)練集中不同拍攝視角下的樣本示例

為實(shí)現(xiàn)番茄的檢測(cè)和成熟度快速輸出，參考農(nóng)藝要求將目標(biāo)分為番茄串和4種不同成熟度[25]的果實(shí)，分別為果實(shí)充分膨大但果皮為白綠色的綠熟期、果實(shí)頂端由白變紅的轉(zhuǎn)色期、果實(shí)超過(guò)四分之三面積為紅色或黃色的成熟期以及果實(shí)表皮完全變紅的完熟期，共5種目標(biāo)。不同顏色的標(biāo)注框所代表的目標(biāo)類(lèi)型如圖3所示。其中綠熟期和轉(zhuǎn)色期果實(shí)不是常規(guī)意義下的采摘目標(biāo)，只有成熟期和完熟期的果實(shí)需要被采摘。

圖3 目標(biāo)標(biāo)注和數(shù)據(jù)集構(gòu)建流程

2.2 櫻桃番茄檢測(cè)數(shù)據(jù)集構(gòu)建

2.2.1 目標(biāo)檢測(cè)數(shù)據(jù)集構(gòu)建

機(jī)器人受臂長(zhǎng)以及結(jié)構(gòu)限制，僅能采摘當(dāng)前位置兩側(cè)培養(yǎng)架上的番茄，無(wú)法“跨壟”采摘。生長(zhǎng)在其他培養(yǎng)架上的番茄，如圖4中虛線(xiàn)框中的部分所示，在標(biāo)注階段無(wú)需進(jìn)行標(biāo)注。經(jīng)過(guò)挑選和數(shù)據(jù)清洗，以1 320張圖像作為目標(biāo)檢測(cè)數(shù)據(jù)集，包括不含任何目標(biāo)的背景圖像50張，各類(lèi)目標(biāo)共計(jì)71 123個(gè)，平均單張圖片包含目標(biāo)56個(gè)。

圖4 標(biāo)注結(jié)果展示

2.2.2 果實(shí)果梗位置關(guān)系判斷數(shù)據(jù)集構(gòu)建

為提高采摘效率，引導(dǎo)末端執(zhí)行器以合適角度靠近待采目標(biāo)，需要建立一個(gè)果實(shí)果梗位置關(guān)系判斷數(shù)據(jù)集。利用目標(biāo)檢測(cè)數(shù)據(jù)集中已經(jīng)完成的果實(shí)標(biāo)注邊界框，將長(zhǎng)和寬均放大10%，使得目標(biāo)周?chē)?、果萼、果梗等利于判斷的關(guān)鍵信息納入框內(nèi)，如圖3中③所示。裁剪框內(nèi)圖像，構(gòu)建果實(shí)果梗位置關(guān)系分類(lèi)數(shù)據(jù)集。番茄生產(chǎn)中，工人會(huì)去作多余花序和幼果。經(jīng)過(guò)人工“疏花疏果”操作后的果實(shí)大多生長(zhǎng)于果梗兩側(cè)，極少數(shù)會(huì)成簇生長(zhǎng)。為簡(jiǎn)化后續(xù)試驗(yàn)，忽略特殊情況，將位置關(guān)系分為2類(lèi)：果實(shí)在果梗左側(cè)記為類(lèi)別0，如圖5a所示；果實(shí)在果梗右側(cè)的樣本記為類(lèi)別1，如圖5b所示。

圖5 果實(shí)果梗位置關(guān)系分類(lèi)數(shù)據(jù)集

3 級(jí)聯(lián)視覺(jué)檢測(cè)方法

3.1 番茄檢測(cè)與成熟度分析

從畫(huà)面中檢測(cè)并識(shí)別果實(shí)及其成熟度，是實(shí)現(xiàn)機(jī)器人自動(dòng)采摘的前提，也是影響采摘效率的重要環(huán)節(jié)，本文引入YOLOv5目標(biāo)檢測(cè)算法一次性快速輸出番茄串和果實(shí)的目標(biāo)檢測(cè)、成熟度水平信息。

3.1.1 基于YOLOv5番茄串和果實(shí)目標(biāo)檢測(cè)模型框架

YOLO（you only look once）系列目標(biāo)檢測(cè)模型是一種單階段檢測(cè)模型，相比Mask R-CNN等兩階段檢測(cè)網(wǎng)絡(luò)更加輕量、高效，在各類(lèi)采摘機(jī)器人上應(yīng)用廣泛[26-29]，易于部署與測(cè)試。YOLOv5目標(biāo)檢測(cè)模型系列，包括YOLOv5s、YOLOv5m、YOLOv5l等多個(gè)在深度、寬度有區(qū)分的模型，相比YOLOv3和YOLOV4等作做出了許多工程化應(yīng)用上的改進(jìn)，保證精度的同時(shí)，提高了推理速度。

YOLOv5模型可以分為主干網(wǎng)絡(luò)（Backbone）、頸部網(wǎng)絡(luò)（Neck）和檢測(cè)頭（Head）3個(gè)部分，如圖6。輸入主干網(wǎng)絡(luò)前，圖像被縮放至固定的640×640(像素)大小。主干網(wǎng)絡(luò)完成特征提取，待進(jìn)一步豐富特征并轉(zhuǎn)換之后，由檢測(cè)頭部分輸出80×80、40×40和20×20三種不同尺度的特征圖，在多個(gè)特征圖上進(jìn)行邊界框預(yù)測(cè)。經(jīng)過(guò)非極大值抑制部分（non-maximum suppression，NMS）完成對(duì)檢測(cè)框信息的合并、篩選，輸出預(yù)測(cè)框的中心點(diǎn)坐標(biāo)(,)、高寬(,)、類(lèi)別()、置信度(C)的預(yù)測(cè)結(jié)果。YOLOv5損失值由3個(gè)部分組成，分別為類(lèi)別損失、置信度損失、定位損失。

3.1.2 基于多任務(wù)學(xué)習(xí)的檢測(cè)方法改進(jìn)

多任務(wù)學(xué)習(xí)旨在利用不同任務(wù)之間的相似性，同時(shí)解決多個(gè)不同的任務(wù)。與之對(duì)應(yīng)的概念是單任務(wù)學(xué)習(xí)，即將復(fù)雜的系統(tǒng)或問(wèn)題分解為簡(jiǎn)單且獨(dú)立的子問(wèn)題并逐一解決。通常情況下，多任務(wù)學(xué)習(xí)相比單任務(wù)學(xué)習(xí)有著學(xué)習(xí)效率高、過(guò)擬合風(fēng)險(xiǎn)更小的優(yōu)勢(shì)。

YOLOv5模型對(duì)預(yù)測(cè)框位置、高寬、類(lèi)別的學(xué)習(xí)，屬于多任務(wù)學(xué)習(xí)。主干網(wǎng)絡(luò)對(duì)于目標(biāo)檢測(cè)任務(wù)所提取的輪廓、顏色、大小等特征與成熟度判斷任務(wù)所需的特征存在重合，為僅使用YOLOv5模型一次完成番茄的檢測(cè)和成熟度判斷提供了理論條件。不同成熟程度的番茄顏色、大小不同，按照各生長(zhǎng)階段特點(diǎn)和農(nóng)藝要求將果實(shí)進(jìn)行成熟度標(biāo)注，相比將所有果實(shí)均列為一類(lèi)目標(biāo)，前者類(lèi)內(nèi)差異較小、類(lèi)間差距大，有利于識(shí)別和降低過(guò)擬合風(fēng)險(xiǎn)。經(jīng)過(guò)此項(xiàng)改進(jìn)，YOLOv5模型能夠在檢測(cè)串與果實(shí)的同時(shí)，輸出果實(shí)的成熟度分級(jí)信息。

另外，采摘機(jī)器人僅能對(duì)所處軌道兩側(cè)的目標(biāo)進(jìn)行抓取，無(wú)法跨壟采摘，如圖7。完成番茄目標(biāo)檢測(cè)后，需要濾除生長(zhǎng)在其他培養(yǎng)架上的非目標(biāo)番茄。已知成熟果實(shí)可以近似看做赤道直徑和極直徑為2.5 cm左右的橢球體，培養(yǎng)架壟間距在1.55 m左右，培養(yǎng)架寬0.75 m左右。網(wǎng)絡(luò)模型輸入圖像分辨率為640×640（像素）條件下，根據(jù)相機(jī)針孔模型進(jìn)行計(jì)算和標(biāo)注結(jié)果統(tǒng)計(jì)，處于其他培養(yǎng)架上的櫻桃番茄單果目標(biāo)（無(wú)法采摘的目標(biāo)）在輸入畫(huà)面中的像素大小小于10×10（像素）。相機(jī)針孔模型描述如下式：

圖6 櫻桃番茄的級(jí)聯(lián)視覺(jué)檢測(cè)方法示意圖

式中（,）為目標(biāo)像素點(diǎn)在畫(huà)面中像素位置；（,,）為目標(biāo)像素點(diǎn)在相機(jī)坐標(biāo)系下的空間位置；為相機(jī)的內(nèi)參數(shù)矩陣。

對(duì)于這類(lèi)小目標(biāo)，即便使用80×80（像素）的大尺寸特征層（即感受野為8×8（像素））仍難以檢測(cè)。為減少網(wǎng)絡(luò)對(duì)這類(lèi)不必要的目標(biāo)計(jì)算，可以去掉網(wǎng)絡(luò)檢測(cè)頭尺寸為80×80（像素）及以上的特征層。在數(shù)據(jù)標(biāo)注階段，無(wú)需標(biāo)注畫(huà)面中不屬于當(dāng)前培養(yǎng)架上的非待采目標(biāo)，進(jìn)一步減少果實(shí)樣本類(lèi)內(nèi)差距的同時(shí)，節(jié)省大量標(biāo)注人力（如圖4中所示，畫(huà)面中不屬于機(jī)械臂工作空間內(nèi)的番茄（虛線(xiàn)區(qū)域內(nèi)）均未被標(biāo)注）。

圖7 采摘機(jī)器人工作空間示意圖

3.2 基于MobileNet的果實(shí)果梗位置關(guān)系判斷

櫻桃番茄串生長(zhǎng)狀態(tài)各異，面對(duì)采摘機(jī)器人的角度并不固定。采摘機(jī)器人末端執(zhí)行器以固定角度執(zhí)行采摘作業(yè)面臨因果實(shí)、果梗干涉導(dǎo)致采摘失敗或效率低的問(wèn)題。如圖8a，末端執(zhí)行器以垂直于培養(yǎng)架的固定角度執(zhí)行采摘任務(wù)，經(jīng)常與其他果實(shí)發(fā)生干涉，導(dǎo)致整串番茄發(fā)生偏移，需要多次采摘才能成功。在圖8b中，使用錯(cuò)誤的角度進(jìn)行采摘，待采果實(shí)與末端執(zhí)行器之間存在果梗遮擋，導(dǎo)致失敗。圖8c中，末端執(zhí)行器以合適的角度接近目標(biāo)，順利完成果實(shí)采摘。因此，在檢測(cè)階段應(yīng)當(dāng)獲取待采摘目標(biāo)的和果梗的位置關(guān)系，指導(dǎo)末端執(zhí)行器以選擇合適角度靠近待采目標(biāo)，以此提高采摘成功率、效率。

圖8 末端執(zhí)行器方向選擇及結(jié)果

谷歌MobileNet系列網(wǎng)絡(luò)作為輕量化網(wǎng)絡(luò)中的佼佼者，被廣泛應(yīng)用于工業(yè)界作為主干網(wǎng)絡(luò)分類(lèi)、檢測(cè)、語(yǔ)義分割等任務(wù)。MobileNetv3[30]于2019年發(fā)表，綜合了MobileNetv1[31]和MobileNetv2[32]的優(yōu)點(diǎn)，是利用NAS（Network architecture search）方法對(duì)網(wǎng)絡(luò)配置進(jìn)行調(diào)優(yōu)獲得的產(chǎn)物，保持精度的同時(shí)進(jìn)一步提升了速度，適合部署在采摘機(jī)器人上。在果實(shí)果梗位置關(guān)系數(shù)據(jù)集中訓(xùn)練MobileNetv3網(wǎng)絡(luò)，使之能夠?qū)麑?shí)相對(duì)果梗的位置做出判斷，為機(jī)械臂選擇接近目標(biāo)的角度提供依據(jù)（如圖6中果實(shí)果梗位置關(guān)系判斷環(huán)節(jié)所示）。

4 基于視覺(jué)引導(dǎo)的櫻桃番茄機(jī)器人采收方法

4.1 櫻桃番茄采摘機(jī)器人系統(tǒng)

為試驗(yàn)搭建的采摘機(jī)器人系統(tǒng)如圖9所示，該系統(tǒng)由移動(dòng)平臺(tái)、機(jī)械臂、末端執(zhí)行器、深度相機(jī)和控制器組成。機(jī)械臂采用針對(duì)溫室番茄種植設(shè)施高度定制的Z-Arm四軸協(xié)作機(jī)械臂，最大負(fù)載3.5 kg，重復(fù)定位精度±0.05 mm，相比六軸機(jī)械臂操作更為簡(jiǎn)便。末端執(zhí)行器采摘方式為負(fù)壓吸入，對(duì)視覺(jué)系統(tǒng)中產(chǎn)生的誤差有更好的容錯(cuò)性，采摘同時(shí)完成果實(shí)收集，存儲(chǔ)在移動(dòng)平臺(tái)后方的置物箱中。深度相機(jī)選擇Intel Realsense D435i RGB-D相機(jī)，該相機(jī)體積小巧、配套資源完備，在20～60 cm范圍內(nèi)能夠提供60幀/s的高精度深度信息?？刂破靼惭b在移動(dòng)平臺(tái)，采用的GPU為NVIDIA Geforce GTX 1050Ti，搭配顯示器用于實(shí)時(shí)關(guān)注檢測(cè)結(jié)果。

1.機(jī)械臂 2.深度相機(jī) 3.末端執(zhí)行器 4.運(yùn)動(dòng)底盤(pán) 5.控制器

4.2 目標(biāo)手眼轉(zhuǎn)換

獲得目標(biāo)在機(jī)械臂坐標(biāo)系下的位置后，驅(qū)動(dòng)機(jī)械臂攜帶末端執(zhí)行器接近目標(biāo)在空間中的位置，并執(zhí)行采摘?jiǎng)幼鳌?/p>

5 自動(dòng)采收系統(tǒng)性能試驗(yàn)

5.1 檢測(cè)模型訓(xùn)練及性能對(duì)比

1）網(wǎng)絡(luò)訓(xùn)練

按照8∶2的比例劃分櫻桃番茄數(shù)據(jù)集為訓(xùn)練集和測(cè)試集，將不同深度的YOLOv5系列模型及YOLOv3系列模型在數(shù)據(jù)集中進(jìn)行訓(xùn)練。考慮到不同深度、寬度網(wǎng)絡(luò)的參數(shù)量、浮點(diǎn)運(yùn)算次數(shù)（floating point operations, FLOPs）和占用顯存不同，為方便后續(xù)對(duì)比試驗(yàn)，統(tǒng)一設(shè)定批大小為32。根據(jù)網(wǎng)絡(luò)深度和參數(shù)量的不同設(shè)置初始學(xué)習(xí)率為0.01，動(dòng)量設(shè)置為0.937，懲罰項(xiàng)設(shè)置為0.000 5，迭代最大次數(shù)設(shè)置為600～700輪。訓(xùn)練期間各網(wǎng)絡(luò)模型損失變化曲線(xiàn)及均值平均精度m變化曲線(xiàn)如圖10a和圖10b所示。各模型在前200次迭代中m迅速增加，各項(xiàng)損失迅速減小。大約400次迭代之后，網(wǎng)絡(luò)各類(lèi)損失值、m趨于穩(wěn)定，此時(shí)認(rèn)為各網(wǎng)絡(luò)模型已完成收斂。

圖10 各網(wǎng)絡(luò)模型在訓(xùn)練集上損失和均值平均精度曲線(xiàn)

2）最優(yōu)模型選擇

為避免信息泄露對(duì)模型性能造成影響，拍攝50張獨(dú)立于訓(xùn)練數(shù)據(jù)集的圖像（包含各類(lèi)目標(biāo)共3 753個(gè)），作為獨(dú)立驗(yàn)證集用于檢驗(yàn)不同深度和類(lèi)型網(wǎng)絡(luò)模型的檢測(cè)性能，使用準(zhǔn)確率、召回率、均值平均精度和1得分量化結(jié)果。在Pytorch、TensorRT框架中加載各模型并運(yùn)行在GPU型號(hào)為NVIDIA 2060、GPU1050Ti的工控機(jī)中，測(cè)試各模型在硬件上的平均推理時(shí)間。

各網(wǎng)絡(luò)模型在驗(yàn)證集上的性能表現(xiàn)如表1所示。YOLOv5n在YOLOv5系列中網(wǎng)絡(luò)深度最小，在驗(yàn)證集中精度最差。在I閾值為0.5的情況下，YOLOv5n與YOLOv3-tiny與同屬于輕量化模型，在驗(yàn)證集中均值平均精度和1值與YOLOv3-tiny相比高2.23個(gè)百分點(diǎn)。從訓(xùn)練集上損失曲線(xiàn)圖10a中可以發(fā)現(xiàn)YOLOv3-tiny相比其他網(wǎng)絡(luò)損失值更高，意味著無(wú)法更深入地?cái)M合目標(biāo)數(shù)據(jù)，和驗(yàn)證集中該網(wǎng)絡(luò)效果最差的結(jié)果相吻合，精度過(guò)低無(wú)法被當(dāng)前采摘機(jī)器人應(yīng)用場(chǎng)景所接受。YOLOv3系列模型中精度表現(xiàn)最優(yōu)的YOLOv3-SPP模型[18]，在驗(yàn)證集中的表現(xiàn)處于YOLOv5s與YOLOv5m之間，但在所有被測(cè)模型之中推理速度最慢。

表1 各網(wǎng)絡(luò)在驗(yàn)證集的性能測(cè)試結(jié)果

隨著網(wǎng)絡(luò)深度的加深，網(wǎng)絡(luò)對(duì)目標(biāo)特征的提取能力和識(shí)別能力逐步上升，從網(wǎng)絡(luò)深度最淺的YOLOv5n到所試驗(yàn)的模型中網(wǎng)絡(luò)深度最深的YOLOv5l，均值平均精度和1值都在逐步上升。如I閾值為0.5與0.95情況下，YOLOv5s在驗(yàn)證集中的識(shí)別均值平均精度較YOLOv5n分別高4.85個(gè)和4.92個(gè)百分點(diǎn)。但從目前驗(yàn)證集中測(cè)試結(jié)果來(lái)看，網(wǎng)絡(luò)深度加深和性能提升并不是線(xiàn)性關(guān)系，客觀存在一個(gè)性能瓶頸。如YOLOv5l的計(jì)算量為YOLOv5m的2倍以上，但驗(yàn)證集中的精度表現(xiàn)差異較小，僅高0.24個(gè)百分點(diǎn)（I閾值為0.5）。推測(cè)是因?yàn)闄烟曳褑喂按繕?biāo)特征相對(duì)簡(jiǎn)單，并不需要過(guò)于復(fù)雜的主干網(wǎng)絡(luò)即可完成對(duì)目標(biāo)特征的提取。櫻桃番茄體積較小，遮擋嚴(yán)重的目標(biāo)很難被識(shí)別，也是導(dǎo)致模型檢測(cè)結(jié)果出現(xiàn)瓶頸的重要原因之一。

由此可以看出，在當(dāng)前場(chǎng)景YOLOv5s模型相比所提到的YOLO系列其他模型有著計(jì)算量更小、精度較高的綜合優(yōu)勢(shì)，滿(mǎn)足采摘機(jī)器人對(duì)實(shí)時(shí)性、精度的綜合需要，因此本文選擇YOLOv5s網(wǎng)絡(luò)模型作為后續(xù)研究和應(yīng)用的主要模型。

5.2 YOLOv5櫻桃番茄及成熟度檢測(cè)準(zhǔn)確率測(cè)試

目標(biāo)檢測(cè)試驗(yàn)在北京海淀某溫室日光櫻桃番茄園中進(jìn)行，采摘機(jī)器人在軌道上勻速移動(dòng)并對(duì)待采番茄進(jìn)行檢測(cè)。不同光照條件及不同形態(tài)櫻桃番茄檢測(cè)結(jié)果，如圖11所示。可以看出所得模型在常見(jiàn)光照條件及陽(yáng)光直射、白平衡變化等異常光照條件下對(duì)各目標(biāo)均有著良好的識(shí)別效果穩(wěn)定。同時(shí)，檢測(cè)結(jié)果中未包含處于機(jī)器人工作空間范圍外的無(wú)關(guān)目標(biāo)，起到了過(guò)濾、篩選的作用。

圖11 實(shí)際檢測(cè)結(jié)果展示

保留20幀采摘機(jī)器人工作時(shí)的輸入圖像，人工標(biāo)注、統(tǒng)計(jì)各類(lèi)目標(biāo)的數(shù)量及網(wǎng)絡(luò)模型預(yù)測(cè)正確率，結(jié)果記錄在表2。由表2可知，經(jīng)過(guò)調(diào)整后得到的YOLOv5s檢測(cè)模型，在實(shí)際場(chǎng)景中，對(duì)各成熟度番茄單果和串目標(biāo)均值平均精度達(dá)到89.9%，有著良好的識(shí)別效果，單幀推理時(shí)間11.5 ms左右（I閾值0.5，GPU 1050Ti，TensorRT7庫(kù)部署的情況下測(cè)得）。

表2 多任務(wù)學(xué)習(xí)思路下改進(jìn)后的檢測(cè)模型測(cè)試結(jié)果

表2表明，經(jīng)多任務(wù)學(xué)習(xí)思路改進(jìn)后的YOLOv5目標(biāo)檢測(cè)方法能夠完成櫻桃番茄的檢測(cè)、成熟度識(shí)別與非待采目標(biāo)過(guò)濾。此項(xiàng)改進(jìn)快捷且有效，在所需要的標(biāo)注量大幅減少、無(wú)需修改網(wǎng)絡(luò)結(jié)構(gòu)的情況下，模型檢測(cè)精度得以提升、并能輸出高準(zhǔn)確率的成熟分級(jí)信息，適合采摘機(jī)器人運(yùn)用。

5.3 MobileNetv3判斷果實(shí)果梗位置關(guān)系測(cè)試

在果實(shí)與果梗位置關(guān)系數(shù)據(jù)集中訓(xùn)練模型并測(cè)試網(wǎng)絡(luò)性能。用于判斷果實(shí)與果梗相對(duì)位置MobileNetv3分類(lèi)網(wǎng)絡(luò)損失和準(zhǔn)確率曲線(xiàn)，如圖12a和圖12b所示。迭代25輪后模型的損失值趨于穩(wěn)定，在驗(yàn)證集中模型準(zhǔn)確率處于85%附近。取精度為85%的模型作為在采摘機(jī)器人中實(shí)際部署的模型，判斷結(jié)果展示在圖13中。改進(jìn)YOLOv5和MobileNetV3級(jí)聯(lián)模型的單幀推理時(shí)間平均為22 ms（MobileNetV3的批處理大小為8，其他參數(shù)同5.2節(jié)）。其中，“L”代表果實(shí)在果梗左側(cè),末端執(zhí)行器應(yīng)當(dāng)從番茄串左側(cè)進(jìn)行果實(shí)采摘，“R”代表果實(shí)在果梗右側(cè)。

5.4 基于視覺(jué)引導(dǎo)的采摘對(duì)比實(shí)驗(yàn)

圖14中展示了機(jī)器人視角下番茄的幾種常見(jiàn)生長(zhǎng)姿態(tài)。圖14a，相機(jī)能夠直接觀察到每一粒果實(shí)、果梗、果蒂和果萼，定義為“正面面對(duì)（正對(duì)）”相機(jī)。圖14b和圖14c中僅能看見(jiàn)部分果梗、果萼，果實(shí)之間存在前后遮擋。圖14d，此時(shí)無(wú)法觀察到果梗、果萼、果蒂等部分，定義為“背面相對(duì)（背對(duì)）”。

圖12 MobileNetv3網(wǎng)絡(luò)訓(xùn)練中損失與準(zhǔn)確率曲線(xiàn)

圖13 果實(shí)與果梗位置關(guān)系判斷結(jié)果展示

在以往的研究中，完成對(duì)目標(biāo)位置的獲取后，機(jī)械臂攜帶末端執(zhí)行器以垂直培養(yǎng)槽的固定角度靠近果實(shí)，執(zhí)行采摘?jiǎng)幼?，完成采摘或進(jìn)行下一次嘗試（方法1）。為避免末端執(zhí)行器與果實(shí)發(fā)生摩擦、干涉，通過(guò)視覺(jué)方法獲取果實(shí)與果梗的位置關(guān)系后，選擇從左或從右，更大角度地靠近目標(biāo)（方法2）。

試驗(yàn)中，設(shè)定同樣的機(jī)械臂速度，約8 s完成一次“機(jī)械臂移動(dòng)-末端執(zhí)行器動(dòng)作-保持-機(jī)械臂收回”的流程，使用方法1與方法2分別嘗試采摘圖14中4種不同姿態(tài)的番茄，作為對(duì)比試驗(yàn)。如果一顆番茄嘗試采摘5次均未成功，則認(rèn)為存在無(wú)法采摘的目標(biāo)，其嘗試次數(shù)也將計(jì)入測(cè)試結(jié)果中。人工摘除這顆“無(wú)法采摘”的番茄，以便機(jī)器人繼續(xù)進(jìn)行測(cè)試。以采摘效率（采摘成功次數(shù)與動(dòng)作次數(shù)之比值）和是否存在無(wú)法采摘的目標(biāo)作為評(píng)價(jià)指標(biāo)，采摘結(jié)果如表3。

由表3可知，串姿態(tài)為“背對(duì)”情況的櫻桃番茄串相對(duì)容易被采摘，兩種視覺(jué)檢測(cè)引導(dǎo)采摘方法的采摘效率均在85%左右；串姿態(tài)為“完全側(cè)對(duì)”的櫻桃番茄串，方法1的采摘效率最低，僅有16.6%，主要是因?yàn)樘幱诖硪粋?cè)的果實(shí)因果梗阻擋末端執(zhí)行器無(wú)法采摘（情況類(lèi)似圖8b），嘗試次數(shù)過(guò)多導(dǎo)致。方法2因獲得果實(shí)與果梗的相對(duì)位置，能夠一定程度上繞開(kāi)果梗，從果梗對(duì)側(cè)方向完成采摘。對(duì)于串姿態(tài)為“正對(duì)”、“輕微側(cè)對(duì)”的櫻桃番茄串，方法1雖然能夠完成采摘，但因缺少目標(biāo)與果梗的位置關(guān)系，采摘過(guò)程中末端執(zhí)行器以固定角度多次干涉果梗或其他果實(shí)導(dǎo)致當(dāng)次采摘失敗，效率相比方法2更低。

圖14 機(jī)器人相機(jī)視角下櫻桃番茄串的不同姿態(tài)

表3 兩種視覺(jué)引導(dǎo)方式采摘結(jié)果對(duì)比

末端執(zhí)行器以固定角度執(zhí)行采摘，綜合效率為47.5%，平均單顆收獲時(shí)長(zhǎng)約為16.8 s；經(jīng)過(guò)判斷果梗與果實(shí)位置關(guān)系后選擇方向?qū)δ繕?biāo)進(jìn)行采摘，綜合效率為76.2%，平均單顆收獲時(shí)長(zhǎng)10.4 s，相比末端執(zhí)行器以固定角度采摘的方法，采摘效率高出28.7個(gè)百分點(diǎn)，平均單顆收獲用時(shí)少6.4 s，且不存在“無(wú)法采摘”的目標(biāo)。試驗(yàn)結(jié)果表明，本研究提出的基于級(jí)聯(lián)視覺(jué)檢測(cè)的番茄采收方法，在一定程度上減輕末端執(zhí)行器與櫻桃番茄串干涉的情況，提升了采摘效率，有效完成了分期采收。

6 結(jié) 論

本研究面向櫻桃番茄采摘機(jī)器人果實(shí)單顆采收的應(yīng)用場(chǎng)景，提出“采收目標(biāo)檢測(cè)-目標(biāo)果實(shí)成熟度判別-果實(shí)與果梗位置關(guān)系判斷”的級(jí)聯(lián)視覺(jué)檢測(cè)流程，并搭建機(jī)器人系統(tǒng)，在日光溫室場(chǎng)景中進(jìn)行檢測(cè)、采摘試驗(yàn)，主要結(jié)論如下：

1）基于多任務(wù)學(xué)習(xí)的思路，在數(shù)據(jù)標(biāo)注環(huán)節(jié)進(jìn)行改進(jìn)，對(duì)櫻桃番茄目標(biāo)按成熟度進(jìn)行了分類(lèi)標(biāo)注、不標(biāo)注畫(huà)面中屬于機(jī)器人工作空間外的櫻桃番茄目標(biāo)。相比常規(guī)方法，本方法有著無(wú)需修改檢測(cè)網(wǎng)絡(luò)結(jié)構(gòu)、所需標(biāo)注量大幅減少的優(yōu)勢(shì)。使用YOLOv5s作為檢測(cè)網(wǎng)絡(luò)測(cè)試模型，在該項(xiàng)改進(jìn)下，對(duì)綠熟期、轉(zhuǎn)色期、成熟期、完熟期的櫻桃番茄和櫻桃番茄串5類(lèi)目標(biāo)的均值平均精度（I閾值為0.5）值達(dá)到89.9%，實(shí)現(xiàn)了采摘機(jī)器人對(duì)櫻桃番茄的快速檢測(cè)、成熟度判斷，可為各類(lèi)基于果蔬成熟度水平進(jìn)行作業(yè)的采摘機(jī)器人提供參考。

2）針對(duì)采摘過(guò)程中，末端執(zhí)行器容易與櫻桃番茄串果梗產(chǎn)生干涉，導(dǎo)致采摘效率、收獲率低下的問(wèn)題，在機(jī)器人常規(guī)采摘流程中加入果實(shí)與果梗位置關(guān)系判斷環(huán)節(jié)。試驗(yàn)中，使用正確率為85%的MobileNetv3果實(shí)果梗位置關(guān)系判斷模型的情況下，采摘機(jī)器人采摘效率約為76.2%，相比機(jī)械臂以固定角度靠近目標(biāo)執(zhí)行采摘的方法采摘效率高出28.7個(gè)百分點(diǎn)，平均單顆采摘用時(shí)為10.4 s，滿(mǎn)足采摘機(jī)器人對(duì)提升抓取效率、分期采收效果的要求，具有一定實(shí)用價(jià)值。

[1] 朱光磊，裴新偉. 中國(guó)農(nóng)民規(guī)模問(wèn)題的不同判斷、認(rèn)知誤區(qū)與治理優(yōu)化[J]. 北京師范大學(xué)學(xué)報(bào)（社會(huì)科學(xué)版），2021，288(6)：127-138.

ZHU Guanglei, PEI Xinwei. The scale of chinese farmers : different judgments, cognitive misunderstandings and governance optimization[J]. Journal of Beijing Normal University (Social Sciences), 2021, 288(6): 127-138. (in Chinese with English abstract)

[2] 蔣和平，王克軍，楊東群. 我國(guó)鄉(xiāng)村振興面臨的農(nóng)村勞動(dòng)力斷代危機(jī)與解決的出路[J]. 江蘇大學(xué)學(xué)報(bào)（社會(huì)科學(xué)版），2019，21(1)：28-34.

JIANG Heping, WANG Kejun, YANG Dongqun. Labor crisi and solution in the revival of rural china[J]. Journal of Jiangsu University(Social Science Edition). 2019, 21(1): 28-34. (in Chinese with English abstract)

[3] 劉成良，貢亮，苑進(jìn)，等. 農(nóng)業(yè)機(jī)器人關(guān)鍵技術(shù)研究現(xiàn)狀與發(fā)展趨勢(shì)[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào)，2022，53(7): 1-22，55.

LIU Chengliang, GONG liang, YUAN Jin, et al. Current status and development trends of agriculture robots[J]. Transactions of the Chinese Society for Agricultural Machinery, 2022, 53(7): 1-22, 55. (in Chinese with English abstract)

[4] ZHOU H, WANG X, AU W, et al. Intelligent robots for fruit harvesting: Recent developments and future challenges[J]. Precision Agriculture, 2022, 23(5): 1856-1907.

[5] Kootstra G, WANG X, BLOK P M, et al. Selective harvesting robotics: Current research, trends, and future directions[J]. Current Robotics Reports, 2021, 2: 95-104.

[6] 王海楠，弋景剛，張秀花. 番茄采摘機(jī)器人識(shí)別與定位技術(shù)研究進(jìn)展[J]. 中國(guó)農(nóng)機(jī)化學(xué)報(bào)，2020，41(5)：188-196.

WANG Hainan, YI Jinggang, ZHANG Xiuhua. Research progress on recognition and localization technology of tomato picking robot[J]. Journal of Chinese Agricultural Mechanization, 2020, 41(5): 188-196. (in Chinese with English abstract)

[7] 伍鎣芮，張志勇，韓小平，等. 基于圖像處理技術(shù)的番茄成熟度檢測(cè)研究[J]. 農(nóng)業(yè)技術(shù)與裝備，2021，376(4)：50-51，54.

WU Yingrui, ZHANG Zhiyong, HAN Xiaoping, et al. Research on Tomato Maturity Detection Based on Image Processing Technology[J]. Agricultural Technology & Equipment, 2021, 376(4): 50-51, 54. (in Chinese with English abstract)

[8] 岳有軍，孫碧玉，王紅君，等. 基于級(jí)聯(lián)卷積神經(jīng)網(wǎng)絡(luò)的番茄果實(shí)目標(biāo)檢測(cè)[J]. 科學(xué)技術(shù)與工程，2021，21(6): 2387-2391.

YUE Youjun, SUN Biyu, WANG Hongjun, et al. Object detection of tomato fruit based on cascade RCNN[J]．Science Technology and Engineering, 2021, 21( 6): 2387-2391. (in Chinese with English abstract)

[9] TANG Y, CHEN M, WANG C, et al. Recognition and localization methods for vision-based fruit picking robots: A review[J]. Frontiers in Plant Science, 2020, 11: 510.

[10] 鄭太雄，江明哲，馮明馳. 基于視覺(jué)的采摘機(jī)器人目標(biāo)識(shí)別與定位方法研究綜述[J]. 儀器儀表學(xué)報(bào)，2021，42(9)：28-51.

ZHENG Taixiong, JIANG Mingzhe, FENG Mingchi. Vision based target recognition and location for picking robot: Areview[J]. Scientific Instrument, 2021, 42(9): 28-51. (in Chinese with English abstract)

[11] 李天華，孫萌，婁偉，等. 采摘機(jī)器人分割與識(shí)別算法的研究現(xiàn)狀[J]. 山東農(nóng)業(yè)科學(xué)，2021，53(10)：140-148.

LI Tianhua, SUN Meng, LOU Wei, et al. Research status of picking robot segmentation and recognition algorithms[J]. Shandong Agricultural Sciences, 2021, 53(10):140-148. (in Chinese with English abstract)

[12] JUN J, KIM J , SEOL J, et al. Towards an efficient tomato harvesting robot: 3D perception, manipulation, and end-effector[J]. IEEE Access, 2021, 9: 17631-17640.

[13] REDMON J, FARHADI A. YOLOv3: An incremental improvement[EB/OL]. arXiv preprint arXiv:1804.02767, 2018.

[14] 張勤，陳建敏，李彬，等. 基于RGB-D信息融合和目標(biāo)檢測(cè)的番茄串采摘點(diǎn)識(shí)別定位方法[J]. 農(nóng)業(yè)工程學(xué)報(bào)，2021，37(18)：143-152.

ZHANG Qin, CHEN Jianmin, LI Bin, et al. Method for recognizing and locating tomato cluster picking points based on RGB-D information fusion and target detection[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(18): 143-152. (in Chinese with English abstract)

[15] 張勤，劉豐溥，蔣先平，等. 番茄串收機(jī)械臂運(yùn)動(dòng)規(guī)劃方法與試驗(yàn)[J]. 農(nóng)業(yè)工程學(xué)報(bào)，2021，37(9)：149-156.

ZHANG Qin, LIU Fengpu, JIANG Xianping, et al. Motion planning method and experiments of tomato bunch harvesting manipulator[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(9): 149-156. (in Chinese with English abstract)

[16] BOCHKOVSKIY A, WANG C Y, LIAO H Y M. YOLOv4: Optimal speed and accuracy of object detection[EB/OL]. arXiv preprint arXiv: 2004.10934, 2020.

[17] WANG L L, ZHAO B, FAN J W, et al. Development of a tomato harvesting robot used in greenhouse[J]. International Journal of Agriculture and Biological Engineering, 2017, 10(4): 140-149.

[18] 李天華，孫萌，丁小明，等. 基于YOLO v4+HSV的成熟期番茄識(shí)別方法[J]. 農(nóng)業(yè)工程學(xué)報(bào)，2021，37(21)：183-190.

LI Tianhua, SUN Meng, DING Xiaoming, et al. Tomato recognition method at the ripening stage based on YOLO v4 and HSV[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(21): 183-190. (in Chinese with English abstract)

[19] BENAVIDES M, CANTóN-GARBíN M, SáNCHEZ- MOLINA J A, et al. Automatic tomato and peduncle location system based on computer vision for use in robotized harvesting[J]. Applied Sciences, 2020, 10(17): 5887-5908.

[20] ZHANG L, JIA J, GUI G, et al. Deep learning based improved classification system for designing tomato harvesting robot[J]. IEEE Access, 2018, 6: 67940-67950.

[21] AFONSO M, FONTEIJN H, FIORENTIN F S, et al. Tomato fruit detection and counting in greenhouses using deep Learning[J]. Frontiers in Plant Science, 2020, 11: 571299-571311.

[22] HE K M, GKIOXARI G, DOLLAR P, et al. Mask R-CNN[C]. Proceedings of 2017 Conference on Computer Vision (ICCV). Venice: IEEE, 2017: 2980-2988.

[23] 龍潔花，趙春江，林森，等. 改進(jìn)Mask R-CNN的溫室環(huán)境下不同成熟度番茄果實(shí)分割方法[J]. 農(nóng)業(yè)工程學(xué)報(bào)，2021，37(18)：100-108.

LONG Jiehua, ZHAO Chunjiang, LIN Sen, et al. Segmentation method of the tomato fruits with different maturities under greenhouse environment based on improved Mask R-CNN[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(18): 100-108. (in Chinese with English abstract)

[24] JIA W, ZHANG Y, LIAN J, et al. Apple harvesting robot under information technology: a review[J]. International Journal of Advanced Robotic Systems, 2020, 17(3): 1-16.

[25] 章永年，張任飛，孫曄，等. 局部按壓對(duì)不同成熟度番茄機(jī)械損傷的影響[J].農(nóng)業(yè)工程學(xué)報(bào)，2021，37(11)：292-298.

ZHANG Yongnian, ZHANG Renfei, SUN Guoxiang, et al. Effects of local compression on the mechanical damage of tomato with different maturity[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(11): 292-298. (in Chinese with English abstract)

[26] TANG Y, ZHOU H, WANG H, et al. Fruit detection and positioning technology for aC. Abel orchard based on improved YOLOv4-tiny model and binocular stereo vision[J]. Expert Systems with Applications, 2023, 211: 118573.

[27] 劉芳，劉玉坤，林森，，等. 基于改進(jìn)型YOLO的復(fù)雜環(huán)境下番茄果實(shí)快速識(shí)別方法[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào)，2020，51(6)：239-248.

LIU Fang, LIU Yukun, LIN Sen, et al. Fast recognition method for tomatoes under complex environments based on improved YOLO[J]. Transactions of the Chinese Society for Agricultural Machinery, 2020, 51(6): 239-248. (in Chinese with English abstract)

[28] 閆彬，樊攀，王美茸，等. 基于改進(jìn)YOLOv5m的采摘機(jī)器人蘋(píng)果采摘方式實(shí)時(shí)識(shí)別[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào)，2022，53(9)：28-38，59.

YAN Bin, FAN Pan, WANG Meirong, et al. Real-time Apple picking pattern recognition for picking robot based on improved YOLOv5m[J]. Transactions of the Chinese Society for Agricultural Machinery, 2022, 53(9): 28-38, 59.(in Chinese with English abstract)

[29] TIAN Y, YANG G, WANG Z, et al. Apple detection during different growth stages in orchards using the improved YOLO-V3 model[J]. Computers and Electronics in Agriculture, 2019, 157:417-426.

[30] HOWARD A, SANDLER M, CHU G, et al. Searching for mobilenetv3[C]. Proceedings of the IEEE/CVF International Conference on Computer Vision. Seoul, 2019: 1314-1324.

[31] HOWARD A G, ZHU M, CHEN B, et al. MobileNets: Efficient convolutional neural networks for mobile vision applications[C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Hawaii: IEEE, 2017: 1704-1712.

[32] SANDLER M, HOWARD A, ZHU M, et al. MobileNetV2: Inverted residuals and linear bottlenecks[C]. IEEE. IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Salt Lake City: IEEE, 2018: 4510- 4520.

Design and experiment of an automatic cherry tomato harvesting system based on cascade vision detection

LI Xingxu1,2, CHEN Wenbai1, WANG Yiqun1, YANG Shun3, WU Huarui2, ZHAO Chunjiang2※

(1.,,100192,; 2.,100097,; 3..,.,100085,)

Cherry tomatoes are a small variety of tomatoes with a shape size of not large than 2.5 cm and mostly grow in bunches. Furthermore, the bunches of cherry tomatoes also grow in variable postures. These growth conditions have posed a great challenge to the harvesting robot at a fixed angle. Once the robots automatically perform single-fruit harvesting operations, the stems can be found to usually interfere with the end-effectors, resulting in low picking efficiency. The reason may be that the picking robots cannot move towards commercialization. Particularly, not all fruits in a tomato bunch grow and ripen simultaneously. It is very necessary to pick the ripe fruits on time, in order to ensure a fresh taste with high economic profits. Therefore, a robotic vision system is highly required to rapidly and accurately identify fruit ripeness. In this study, a cascaded vision detection approach was proposed to harvest the single tomatoes from the robotic spikes. The processing procedure included three key aspects: the detection of the harvesting target, the determination of target maturity, and the fruit-stalk position relationship. Firstly, the YOLOv5 model of target detection was introduced to detect the tomato fruits and bunches. The tomato fruits were labelled into four categories using agronomic growing and harvesting requirements, including green, turning, ripe, and fully ripe fruit. It was totally difference from the simply classified ripeness than before. Among them, the ripe, and fully ripe fruit were targeted for robotic harvesting. The overlap of visual features was then fully considered for ripeness determination and target detection. The original YOLOv5 was improved for ripeness detection using multi-task learning. The robot was confined to only picking the tomatoes on both sides of the culture rack, due mainly to the structure of the greenhouse facility. The target detection was then filtered out for the targets beyond the execution range of the robot. The distance was also set as 1.55 m between the culture racks in this case. The region of interest (ROI) of the target fruit was then approximated as an ellipsoid with an equatorial diameter and a polar diameter of approximately 2.5 cm. The pinhole camera model was used to calculate the ROI picking range. Specifically, the tomatoes growing on the incubator outside the working range of the robot were mostly smaller than the 10 pixel×10 pixel region in the 640 pixel×640 pixel RGB image. At the same time, a large number of feature layers were cropped to choose the unlabeled targets in the annotation stage. As such, better performance was achieved to reduce the labor cost, particularly when filtering the targets without being captured. This end-to-end approach was required without post-processing. It was much more adaptable to real scenarios, compared with the traditional approach of filtering targets by the threshold setting. The field experiments show that the fruit stalk interfering with the end-effector was a major cause of robot picking failure or low efficiency. Correspondingly, the optimal angle was one of the most important parameters for the harvesting action. After the screening of targets to be picked, the target rectangle detection box was enlarged by 10% in length and width, in order to contain the peripheral information, such as pedicels and calyces. The expanded image block was then input into the Mobilenetv3 network model, in order to evaluate the relative position relationship between the target fruit and the fruit stalk. As such, the input was provided for the end-effector to change the picking position, and then choose the direction favorable for the fruit picking, in order to approach the fruit and then perform the action using the pose of the string. A harvesting robot system was also built consisting of a depth camera, a four-degree-of-freedom robot arm, a chassis, and a negative-pressure end-effector. The harvesting system was tested in the greenhouses at different times of the year, particularly for object detection, the prediction of the position relationship between fruit stalks, and fruit harvesting. The results showed that the average detection accuracy of cherry tomato bunches and fruits with different ripeness reached 89.9% with the Intersection over the union threshold of 0.5. The average inference time was 22 ms in the cascade detection system. Furthermore, the harvesting efficiency was improved by 28.7 percentage points, compared with targeting to be picked at a fixed angle. The average time was 10.4 s per fruit for harvesting fruits, indicating the better performance of the improved system. This finding can also provide a strong reference for fruit and vegetable harvesting robots.

robot; object detection; greenhouse; cherry tomato; YOLOv5

10.11975/j.issn.1002-6819.202210099

TP391.4

1002-6819(2023)-01-0136-10

李興旭，陳雯柏，王一群，等. 基于級(jí)聯(lián)視覺(jué)檢測(cè)的櫻桃番茄自動(dòng)采收系統(tǒng)設(shè)計(jì)與試驗(yàn)[J]. 農(nóng)業(yè)工程學(xué)報(bào)，2023，39(1)：136-145.doi：10.11975/j.issn.1002-6819.202210099 http://www.tcsae.org

LI Xingxu, CHEN Wenbai, WANG Yiqun, et al. Design and experiment of an automatic cherry tomato harvesting system based on cascade vision detection[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2023, 39(1): 136-145. (in Chinese with English abstract) doi：10.11975/j.issn.1002-6819.202210099 http://www.tcsae.org

2022-10-13

2022-12-26

財(cái)政部和農(nóng)業(yè)農(nóng)村部，國(guó)家現(xiàn)代農(nóng)業(yè)產(chǎn)業(yè)技術(shù)體系（CARS-23-D07）；科技創(chuàng)新2030“新一代人工智能”重大項(xiàng)目（2021ZD0113600）

李興旭，研究方向?yàn)橹悄苻r(nóng)業(yè)機(jī)器人。Email：lixx@nercita.org.cn

趙春江，研究員，研究方向?yàn)檗r(nóng)業(yè)信息技術(shù)與精準(zhǔn)農(nóng)業(yè)技術(shù)體系。Email：zhaocj@nercita.org.cn

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于級(jí)聯(lián)視覺(jué)檢測(cè)的櫻桃番茄自動(dòng)采收系統(tǒng)設(shè)計(jì)與試驗(yàn)

0 引 言

1 基于視覺(jué)引導(dǎo)的櫻桃番茄采摘流程

2 樣本采集與數(shù)據(jù)集構(gòu)建

2.1 數(shù)據(jù)集樣本采集

2.2 櫻桃番茄檢測(cè)數(shù)據(jù)集構(gòu)建

3 級(jí)聯(lián)視覺(jué)檢測(cè)方法

3.1 番茄檢測(cè)與成熟度分析

4 基于視覺(jué)引導(dǎo)的櫻桃番茄機(jī)器人采收方法

4.1 櫻桃番茄采摘機(jī)器人系統(tǒng)

4.2 目標(biāo)手眼轉(zhuǎn)換

5 自動(dòng)采收系統(tǒng)性能試驗(yàn)

5.1 檢測(cè)模型訓(xùn)練及性能對(duì)比

5.2 YOLOv5櫻桃番茄及成熟度檢測(cè)準(zhǔn)確率測(cè)試

5.3 MobileNetv3判斷果實(shí)果梗位置關(guān)系測(cè)試

5.4 基于視覺(jué)引導(dǎo)的采摘對(duì)比實(shí)驗(yàn)

6 結(jié) 論

0 引言