程佳兵 鄒湘軍 陳明猷 譚康裕 吳烽云
學(xué)術(shù)研究
多類復(fù)雜水果目標(biāo)的通用三維感知框架*
程佳兵1鄒湘軍2陳明猷2譚康裕1吳烽云2
(1.廣州南方學(xué)院電氣與計算機工程學(xué)院,廣東 廣州 510970 2.華南農(nóng)業(yè)大學(xué)工程學(xué)院,廣東 廣州 510642)
相比于理想的實驗室環(huán)境,在戶外果園采樣的水果圖像受更多復(fù)雜因素的干擾,如背景混雜、枝葉遮擋、光照不均和機械振動等,是制約視覺水果采摘機器人進一步發(fā)展和應(yīng)用的關(guān)鍵因素。為此,提出一種適應(yīng)于復(fù)雜采摘環(huán)境的通用三維感知框架。首先,構(gòu)建并標(biāo)定雙目視覺系統(tǒng);然后,借助深度目標(biāo)檢測網(wǎng)絡(luò)去除復(fù)雜背景并獲得水果所在的圖像區(qū)域;最后,對水果區(qū)域進行立體匹配和三角測量,得到水果的三維點云與空間位置。該框架不依賴任何人工設(shè)計,可提高機器人在戶外感知水果的準(zhǔn)確度和穩(wěn)定性,也可在不同的采摘任務(wù)中集成,為提高視覺水果采摘機器人感知的實用性提供有效的理論依據(jù)與技術(shù)支持。
采摘機器人;機器視覺;目標(biāo)檢測;立體匹配;三角測量
視覺系統(tǒng)可幫助水果采摘機器人識別和定位果實,進而控制末端執(zhí)行器自動采摘水果,是智能采摘機器人感知外界的重要模塊之一。
目前,大多數(shù)基于視覺的水果采摘系統(tǒng)僅實現(xiàn)目標(biāo)果實的識別、檢測等單個任務(wù)[1-6]。雖取得較好效果,但主要聚焦于對單一功能模塊的研究(如單獨針對圖像識別、三維重構(gòu)或采摘路徑規(guī)劃等),未能給出一整套綜合性的視覺感知流程。要實現(xiàn)水果采摘機器人的落地應(yīng)用,不但要考慮每一個功能模塊如何實現(xiàn),同時也要從整體層面考慮技術(shù)框架的實現(xiàn)。
目前,已有學(xué)者對視覺感知流程進行初步研究,如基于雙目立體視覺獲得目標(biāo)果實在圖像中的位置,并計算果實的三維空間坐標(biāo)[7-8]、基于深度相機和顏色幾何特征,快速定位和重構(gòu)水果結(jié)構(gòu)[9-11]、通過構(gòu)建機器人視覺系統(tǒng)實現(xiàn)完整的采摘流程[12-14]等。
隨著計算機性能的提升,依賴較大計算資源的深度學(xué)習(xí)方法被運用于水果三維感知領(lǐng)域,提高圖像識別準(zhǔn)確率,使采摘任務(wù)中的視覺感知流程更加穩(wěn)定和成熟。如結(jié)合卷積神經(jīng)網(wǎng)絡(luò)和支持向量機的圖像識別與三維定位方案[15]、基于改進的目標(biāo)檢測網(wǎng)絡(luò)對細小目標(biāo)果實三維定位方法[16]、基于語義分割和立體視覺的番石榴快速識別與機械臂避障方法[17-18]、基于深度學(xué)習(xí)方法與多機械臂協(xié)同的奇異果收獲機器人等[19]。
上述研究展示了視覺系統(tǒng)在水果采摘領(lǐng)域的成功應(yīng)用,具有重要的參考價值。然而,其中大部分視覺系統(tǒng)尚處于起步階段,所涉及的傳統(tǒng)方法依賴人工選取特征以及設(shè)定閾值,限制其在復(fù)雜采樣環(huán)境下的穩(wěn)定性和可靠性;而且上述研究大多針對單一水果目標(biāo),缺乏通用性和可移植性。為此,本文提出一種針對多類復(fù)雜水果目標(biāo)的通用三維感知框架,借助深度目標(biāo)檢測網(wǎng)絡(luò)的魯棒性提升立體視覺模塊的性能,為視覺水果采摘機器人的視覺感知提供一種穩(wěn)定、自適應(yīng)和實用的技術(shù)方案。
目標(biāo)檢測屬于二維圖像處理范疇,其作用是獲取水果在圖像中的區(qū)域。目標(biāo)檢測可去除非結(jié)構(gòu)化果園中的復(fù)雜背景,突出水果所在位置,為后續(xù)的立體視覺算法提供良好輸入,是立體視覺預(yù)處理環(huán)節(jié)。
本框架利用EfficientDet網(wǎng)絡(luò)實現(xiàn)水果目標(biāo)區(qū)域的精確檢測[20]。EfficientDet是目標(biāo)檢測領(lǐng)域新一代的高性能深度網(wǎng)絡(luò),其結(jié)構(gòu)如圖1所示。
圖1 EfficientDet網(wǎng)絡(luò)結(jié)構(gòu)示意圖
EfficientNet作為基礎(chǔ)網(wǎng)絡(luò),后續(xù)連接一個雙向特征金字塔網(wǎng)絡(luò)以提取多尺度特征[21]。EfficientDet網(wǎng)絡(luò)精簡了雙向特征金字塔網(wǎng)絡(luò),并采用跳躍鏈接和可學(xué)習(xí)權(quán)重,提高多特征融合的效率[22]。該網(wǎng)絡(luò)通過混合縮放方法自動確定自身的最優(yōu)規(guī)模,在低資源供給的條件下同時達到高速度和高精度,這在環(huán)境復(fù)雜且計算資源受限的果園采摘任務(wù)中尤為重要。
1.2.1雙目標(biāo)定與采樣
構(gòu)建雙目視覺系統(tǒng),對復(fù)雜非結(jié)構(gòu)化環(huán)境下的多種水果進行采樣,進而計算其空間形態(tài)和位置,為機器人采摘提供決策支持。
雙目標(biāo)定是立體視覺的前置工作,其目的是獲取三角測量所需的重投影矩陣以及實現(xiàn)外極線校準(zhǔn)。標(biāo)定過程使用C++接口的OpenCV4.1.1計算機視覺開源庫。相機標(biāo)定是機器視覺領(lǐng)域的常規(guī)操作,具體實現(xiàn)在此不贅述。標(biāo)定所得的雙目相機參數(shù)如表1所示。
表1 雙目視覺系統(tǒng)標(biāo)定參數(shù)
根據(jù)標(biāo)定參數(shù)進行外極線校準(zhǔn),可保證同一目標(biāo)在左右圖像上的投影滿足行對齊,這可降低后續(xù)雙目立體匹配的難度。校準(zhǔn)后的雙目圖像如圖2所示。任意從中選取A,B,C 3個特征點,可見行對齊的效果明顯。
圖2 外極線校準(zhǔn)后的雙目圖像
1.2.2立體匹配和三角測量
立體匹配的目的是獲取同一空間點在左右圖像中的視差。遍歷整張圖像并計算每一個像素對應(yīng)的視差后,可得到稠密視差圖。稠密視差圖中的每一個像素可通過三角測量原理轉(zhuǎn)化成現(xiàn)實世界的三維點:
通過雙目視覺系統(tǒng)實現(xiàn)三維感知的關(guān)鍵是得到準(zhǔn)確的視差圖。實際上,立體匹配的復(fù)雜性是制約雙目視覺系統(tǒng)性能的最重要因素之一。果園環(huán)境比結(jié)構(gòu)化環(huán)境存在更多的遮擋、噪聲和空間多義性,因此果園環(huán)境下的立體匹配面臨更大困難,通用性和穩(wěn)定性難以得到保證[23]。
本文借助深度目標(biāo)檢測網(wǎng)絡(luò)的魯棒性解決上述問題。水果稠密視差圖獲取過程如圖3所示。首先,利用EfficientDet網(wǎng)絡(luò)檢測左右圖像中的水果區(qū)域,根據(jù)區(qū)域信息去除復(fù)雜背景;然后,將只含水果的圖像作為立體匹配輸入,可得到準(zhǔn)確而簡潔的稠密視差圖,從而降低立體匹配的復(fù)雜度。該過程使用的立體匹配算法為經(jīng)典的半全局立體匹配算法[24]。
圖3 水果稠密視差圖獲取過程
除了水果本身,枝葉障礙物的空間信息也是采摘時需要考慮的因素。與匹配水果的過程相反,對只包含枝葉的背景部分進行立體匹配。相比于水果,采摘任務(wù)對枝葉障礙物的精度需求相對較低。為降低立體匹配計算資源的消耗,將該類圖像的長和寬下采樣為原來分辨率的一半(960×540)后,再進行立體匹配,最后將所得的視差圖通過二次線性插值復(fù)原到原分辨率(1920×1080),具體過程如圖4所示。
圖4 枝葉障礙稠密視差圖獲取過程
需要特別指出的是:圖3和圖4所展示的視差圖已被二值化,用以達到更佳的可視化效果。實際上,真正用于三角測量的原視差圖是漸變的灰色圖像,上面的每一個像素對應(yīng)不同的灰度值。
將圖3和圖4所述的2種稠密視差圖進行疊加,通過式(1)可計算包含枝葉障礙物在內(nèi)的高精度水果點云,如圖5所示。
由圖5可觀察到:點云中的水果結(jié)構(gòu)緊湊,表面厚實、光滑;背景點云雖可大致表征枝葉的空間位置,但表面相對粗糙,這是因為背景部分對應(yīng)的視差圖經(jīng)過下采樣后丟失了一定的細節(jié)信息。將水果與背景分開進行立體匹配的方法在保證計算效率的同時,實現(xiàn)視覺系統(tǒng)對采摘環(huán)境的整體和全方位感知。
圖5 三維點云示意圖
實驗包括目標(biāo)檢測網(wǎng)絡(luò)性能評估、三維點云精度評估2部分。通過計算所訓(xùn)練網(wǎng)絡(luò)的平均精度均值(mean Average Precision,mAP),定量分析所訓(xùn)練網(wǎng)絡(luò)在處理不同種類水果時的目標(biāo)檢測網(wǎng)絡(luò)性能;通過提取水果點云的特定幾何尺寸并將其與人工測量值對比,計算雙目視覺系統(tǒng)的測量誤差,以此反映視覺系統(tǒng)的三維感知性能。
實驗主要設(shè)備包括一體式雙目相機、三腳架、高精度棋盤格標(biāo)定板(精度為0.3 mm)、筆記本電腦、數(shù)顯游標(biāo)卡尺。相機型號為ZED2,分辨率為1920×1080,幀率為30 幀/s,曝光時間和增益均設(shè)為自動。筆記本電腦的CPU型號為Intel core i5-9400,GPU型號為Nvidia GTX 1660Ti 6 GB,內(nèi)存容量為16 GB ddr4,操作系統(tǒng)為windows 10 1803專業(yè)版。
樣本庫含有香蕉、菠蘿、木瓜和荔枝4類水果圖像,每類水果圖像的數(shù)量均為250張。樣本被隨機打亂后按照8:1:1的比例被劃分為訓(xùn)練集、驗證集和測試集,分別有800張、100張、100張。訓(xùn)練集用于訓(xùn)練網(wǎng)絡(luò),驗證集用于監(jiān)測模型的訓(xùn)練狀態(tài),測試集用于驗證模型的性能。模型通過Pytorch訓(xùn)練。訓(xùn)練完成后,對測試集進行前向傳播運算,得到水果目標(biāo)包圍框;然后,繪制每一類水果對應(yīng)的精度-召回率(P-R)曲線,并利用式(2)計算每類水果對應(yīng)的平均精度(average precision,AP)。
采用式(3)計算4類水果的:
式中,N= 4為類別數(shù);f()為第類對應(yīng)的P-R曲線。各類水果對應(yīng)的及總體樣本的如圖6所示。
圖6 4類水果的AP統(tǒng)計值
由圖6可知,4類水果的為92.75%。該數(shù)據(jù)表明,EfficifentDet網(wǎng)絡(luò)能夠適應(yīng)復(fù)雜的非結(jié)構(gòu)化果園場景,并快速準(zhǔn)確地完成水果目標(biāo)檢測任務(wù)。
利用本文提出的三維感知框架對果實及其附近的枝葉障礙物進行點云提取,并計算果實直徑的視覺測量誤差,從而評估視覺系統(tǒng)所生成點云的精度。視覺測量誤差計算公式為
因此,每1幀僅有1個視覺測量誤差數(shù)據(jù)。
以百香果、番石榴、柑橘3類水果為研究對象,每類水果采樣10幀,共獲得30個視覺測量誤差數(shù)據(jù)。獲取視覺測量值時,通過CloudCompareStereo軟件打開點云,直接測量點云中的水果直徑;獲取人工測量值時,通過精度為0.01 mm的數(shù)顯游標(biāo)卡尺現(xiàn)場測量水果直徑。用于測量的部分點云如圖7的右半側(cè)所示。
30幀水果樣本圖像對應(yīng)的視覺測量誤差樣本統(tǒng)計圖如圖8所示。其中,誤差樣本最大值為3.648 mm,平均值為2.037 mm,標(biāo)準(zhǔn)差為0.824 mm。視覺系統(tǒng)達到了水果采摘機器人在復(fù)雜環(huán)境下的三維感知要求[25]。
圖8 視覺測量誤差樣本統(tǒng)計圖
針對復(fù)雜的戶外果園采摘環(huán)境,本文提出一種通用三維感知框架,可得到水果及其附近的枝葉障礙物空間位置。該框架充分結(jié)合了深度網(wǎng)絡(luò)和立體視覺系統(tǒng)的優(yōu)勢,通過對多類水果的目標(biāo)檢測與點云提取實驗,驗證其穩(wěn)定性和有效性,有望在各類水果采摘機器中實現(xiàn)靈活集成。
本文還有一定的提升空間。首先,可通過部署更高分辨率的相機來提高背景點云的稠密程度;其次,可對已有的點云采用濾波算法,獲得更加緊湊和精確的目標(biāo)空間結(jié)構(gòu)。
[1] 王紅君,牟其松,岳有軍,等.基于YOLOv3的水果采摘通用檢測模型研究[J].中國科技論文,2021,16(3):336-342.
[2] 彭紅星,黃博,邵園園,等.自然環(huán)境下多類水果采摘目標(biāo)識別的通用改進SSD模型[J].農(nóng)業(yè)工程學(xué)報,2018,34(16):155- 162.
[3] 伍錫如,雪剛剛,劉英璇.基于深度學(xué)習(xí)的水果采摘機器人視覺識別系統(tǒng)設(shè)計[J].農(nóng)機化研究,2020,42(2):177-182,188.
[4] 熊俊濤,劉振,林睿,等.自然環(huán)境下樹上綠色芒果的無人機視覺檢測技術(shù)[J].農(nóng)業(yè)機械學(xué)報,2018,49(11):23-29.
[5] 熊俊濤,劉振,湯林越,等.自然環(huán)境下綠色柑橘視覺檢測技術(shù)研究[J].農(nóng)業(yè)機械學(xué)報,2018,49(4):45-52.
[6] 張帆.基于深度卷積神經(jīng)網(wǎng)絡(luò)的水果圖像識別算法研究[D]. 北京:中央民族大學(xué),2020.
[7] 杜梟雄,張鵬超,姚晉晉,等.基于雙目立體視覺的采摘機器人設(shè)計[J].機電信息,2018(36):145,147.
[8] XIONG J, HE Z, LIN R, et al. Visual positioning technology of picking robots for dynamic litchi clusters with disturbance[J]. Computers and Electronics in Agriculture, 2018,151:226-237.
[9]黃博.基于深度學(xué)習(xí)和RGB-D深度信息的水果識別與定位研究[D].廣州:華南農(nóng)業(yè)大學(xué),2018.
[10]吳剛.基于RGB-D相機的樹上水果識別方法研究[D].無錫:江南大學(xué),2020.
[11] 丁宇祺.果實自動化采摘的識別與定位方法研究[D].沈陽:沈陽工業(yè)大學(xué),2020.
[12] GE Y, XIONG Y, FROM P J. Symmetry-based 3D shape completion for fruit localisation for harvesting robots[J]. Biosystems Engineering, 2020,197:188-202.
[13]ARAD B, BALENDONCK J, BARTH R, et al. Developmentof a sweet pepper harvesting robot[J]. Journal of Field Robotics, 2020,37(6):1027-1039.
[14] WIBOWO T S, SULISTIJONO I A, RISNUMAWAN A. End-to-end coconut harvesting robot[C]//2016 International Electronics Symposium (IES). IEEE, 2016: 444-449.
[15] 董戈.基于深度學(xué)習(xí)和圖像處理的水果收獲機器人抓取系統(tǒng)[J].農(nóng)機化研究,2021,43(3):260-264.
[16] 楊平.基于深度學(xué)習(xí)的水果采摘定位算法的研究[D].哈爾濱:哈爾濱理工大學(xué),2020.
[17] LIN G, TANG Y, ZOU X, et al. Guava detection and pose estimation using a low-cost RGB-D sensor in the field[J]. Sensors, 2019,19(2):428.
[18] LI J, TANG Y, ZOU X, et al. Detection of fruit-bearing branches and localization of litchi clusters for vision-based harvesting robots[J]. IEEE Access, 2020,8:117746-117758.
[19] WILLIAMS H A, JONES M H, NEJATI M, et al. Robotic kiwifruit harvesting using machine vision, convolutional neural networks, and robotic arms[J]. Biosystems Engineering, 2019,181:140-156.
[20] TAN M, PANG R, LE Q V, et al. Efficientdet: Scalable and efficient object detection[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2020: 10781-10790.
[21] TAN M, LE Q. Efficientnet: Rethinking model scaling for convolutional neural networks[C]//International Conference on Machine Learning. PMLR, 2019: 6105-6114.
[22] LIU S, QI L, QIN H, et al. Path aggregation network for instance segmentation[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2018: 8759-8768.
[23] TANG Y, WANG C, LUO L, et al. Recognition and localization methods for vision-based fruit picking robots: a review[J]. Frontiers in Plant Science, 2020, 11: 510.
[24] HIRSCHMULLER H. Accurate and efficient stereo processing by semi-global matching and mutual information[C]//2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR'05). IEEE, 2005, 2: 807-814.
[25] CHEN M, TANG Y, ZOU X, et al. Three-dimensional perception of orchard banana central stock enhanced by adaptive multi-vision technology[J]. Computers and Electronics in Agriculture, 2020, 174: 105508.
General 3D Perception Framework for Multiple Types Complex Fruit Objects
Cheng Jiabing1Zou Xiangjun2Chen Mingyou2Tan Kangyu1Wu Fengyun2
(1. School of Electrical and Computer Engineering, Nanfang College, Guangzhou, 510970, China 2. College of Engineering, South China Agricultural University, Guangzhou 510642, China)
Compared with an ideal laboratory environment, fruit images sampled in an outdoor orchard are often disturbed by more noises, such as complex backgrounds, occlusion of branches and leaves, uneven illumination and mechanical vibration, etc., which have always been the main constraints on the further development of visual fruit picking robots. In response to this problem, a general three-dimensional perception framework adapted to the complex picking environment was developed. First, the binocular vision system was constructed and calibrated; then, the complex background was removed with the help of a robust deep object detection network to obtain the image area where the fruit is located; finally, the fruit area was conducted stereo matching operation and triangulated to obtain the spatial position of the fruits. The framework has fully combined the robustness of the deep neural network and the excellent perception ability of the stereo vision system. It does not rely on any artificially designed features and can improve the accuracy and stability of the robot's perception of outdoor fruits. This research provides an theoretical basis and technical support for improving the stability and practicability of the fruit picking robot.
picking robot; machine vision; object detection; stereo matching; triangulation
廣東省科技計劃項目(2019A050510035)
程佳兵,女,1994年生,碩士,主要研究方向:圖像處理、機器視覺。E-mail: chengjb@nfu.edu.cn
S225; TP391.41
A
1674-2605(2021)03-0003-06
10.3969/j.issn.1674-2605.2021.03.003