伍榮達,陳天賜,張世昂,朱立學
(仲愷農(nóng)業(yè)工程學院機電工程學院,廣州510225)
我國是世界水果消費和生產(chǎn)大國,傳統(tǒng)的水果和蔬菜收獲是一項勞動密集型任務,除了高昂的勞動力成本外,在惡劣的野外條件下接受重復性工作的熟練勞動力還增加了生產(chǎn)的不確定性。為了確保水果和蔬菜的產(chǎn)量和競爭力,需要從繁瑣的手動操作轉(zhuǎn)變?yōu)闄C械化連續(xù)自動收獲,提高效率并減少對收獲的勞動力依賴性。目前國內(nèi)外學者對多種水果采摘機器人進行了深入研究,并取得大量的科研成果,但也還存在不少問題。果蔬采摘機器人可以通過機器視覺和末端執(zhí)行器等技術對水果和蔬菜實現(xiàn)自主作業(yè),這將是降低果蔬采摘成本,提高農(nóng)民收入的重要途徑。
自20世紀90年以來,我國開始進行農(nóng)業(yè)機器人研究。果蔬采摘機器人主要分為4大部分,包括機械臂控制系統(tǒng)、視覺識別和定位系統(tǒng)、末端執(zhí)行控制系統(tǒng)和移動裝置系統(tǒng)。蘇州大學開發(fā)了一臺由五自由度機械臂、柔順抓取力控制的末端執(zhí)行器和機器人視覺伺服控制系統(tǒng)組成的蘋果采摘機器人,如圖1(a)所示。針對夜間的光線不足而導致采取的圖像存在著黑暗、模糊、細節(jié)不清的問題,Wei J等[1]提出了一種基于圖像增強引導濾波器的Retinex算法,該算法通過線性制導濾波器作為平滑運算函數(shù),來估計反射分量,利用不同的伽馬變換來調(diào)整照明元件和反射分量圖像,該算法提高了圖像增強效果,節(jié)省了處理時間,有助于提高機器人的精度和效率。此外,對蘋果振蕩導致識別率下降的問題,呂繼東等[2]提出了一種采摘機器人在果實振蕩狀況下的動態(tài)識別方法,解決由于果實振蕩影響采摘機器人識別定位時間,進而影響采摘速度和效率的問題。采用分割法和幀間差分法對振蕩果實進行動態(tài)區(qū)域標識,該算法可以使識別時間少于0.5 s。趙德安等[3]提出了一種全天候采摘機器人,其室內(nèi)環(huán)境采摘率為81.25%,采摘時間為7.81 s。青島悟牛公司研發(fā)了一款水果采摘機器人,如圖1(b)所示,通過深度學習框架,不斷進行優(yōu)化升級,目前可適應果園復雜的光線條件,對果實進行精準的識別定位與采摘。該采摘機器人可以在0.2 s的時間內(nèi)迅速完成1 m2范圍內(nèi)的蘋果識別,識別準確率達到93%以上。為了采摘模型能夠有效實現(xiàn)果實與果柄的分離,西北農(nóng)林大學的傅隆生[4]等基于獼猴桃采摘機器人,設計了一種從果實底部接近、旋轉(zhuǎn)包絡分離毗鄰果實并抓取的末端執(zhí)行器,如圖1(c)所示,采用末端執(zhí)行器向上旋轉(zhuǎn)方式分離果柄,該末端執(zhí)行器對毗鄰果實的分離成功率100%,采摘成功率在96.0%以上,單果平均耗時22 s。崔永杰等[5]基于圖像處理對自然環(huán)境中的獼猴桃進行識別和特征提取,利用不同顏色空間和Ostu法進行閾值分割,用Canny算子和Hough變換逐個識別果實信息。試驗結(jié)果表明:相互分離果實的識別率為96.9%,鄰接果實識別率為92.0%,被枝葉部分遮擋果實識別率為86.6%,重疊的果實識別率為81.6%。
圖1 國內(nèi)果蔬采摘機器人
以日本和歐美為代表的發(fā)達國家自20世紀80年代相繼開始研究采摘機器人。日本的近藤等[6]研制一種七自由度的番茄采摘機器人,如圖2(a)所示,此機器人主要由機械臂、末端執(zhí)行器、視覺系統(tǒng)和移動平臺組成。視覺系統(tǒng)主要通過彩色攝像機來搜索并判別成熟的番茄果實,再利用計算機視覺中的三角測量原理對目標進行空間定位。機器人進行采摘時,移動基座行走到指定的位置后,采集彩色圖像,然后利用視覺系統(tǒng)確定出番茄果實相對機械臂坐標系的位置,判斷番茄是否達到預定的收獲標準,若達到收獲標準,則控制機械手靠近并摘取果實。該機器人采摘成功率為70%左右,采摘時間為15 s。但是在番茄被葉莖遮擋時存在著無法成功識別的情況,這影響了機器人采摘效率。Shinsuke Yasuka?wa等[7]為了開發(fā)番茄采摘機器人,提出了利用紅外圖像和鏡面反射檢測果實的方法,其識別成功率為88.1%,但是當主莖遮擋番茄時,識別效果并不理想。挪威大學的Lars Grimstad設計了一種自動采摘草莓機器人,如圖2(b)所示,該機器人能夠在多隧道中連續(xù)摘草莓[8],其提出的一種新型障礙物分離算法,可以使用執(zhí)行器將周圍的樹葉、草莓和其他障礙物推開,從而收割成簇的草莓。針對光照變化影響,該團隊提出了改進的基于顏色對光強度的視覺系統(tǒng)。此外,該團隊還開發(fā)了一種具有優(yōu)化收割順序的低成本雙臂采摘系統(tǒng),提高了收割效率,降低了碰撞風險,采摘成功率在75%~100%之間,與單臂采摘機器人相比,其采摘速度有所提高,單臂采摘單個草莓時間為6.1 s,雙臂采摘僅需要4.6 s。佛羅里達大學的Harrell等[9]開發(fā)了一款柑橘采摘機器人。該機器人先使用貝葉斯分類器檢測柑橘并用超聲波測距傳感器測量柑橘深度值,再通過三自由度機械臂操控一個旋轉(zhuǎn)唇狀刀片分離果實與果枝,采摘成功率為75%,采摘時間為3~7 s。在外界干擾和采摘果實時產(chǎn)生的果樹振蕩的影響下,柑橘會發(fā)生運動,依靠控制器補償果實運動的控制方法容易受到測量噪聲的影響,為此,S S Mehta等[10]設計了一種基于圖像的視覺伺服控制系統(tǒng),如圖2(c)所示,在未知果實運動的情況下對目標果實進行控制器調(diào)節(jié),該方法基于Lyapunov的穩(wěn)定性分析,保證機器人最終對目標水果的均勻約束調(diào)節(jié)。為了驗證控制器的可行性,還將其移動120 mm以評估控制器的性能,實驗表明了該控制器可以穩(wěn)定地進行閉環(huán)控制,具有較好的抗干擾能力。
圖2 國外果蔬采摘機器人
視覺控制系統(tǒng)如今已經(jīng)廣泛應用在多個領域,例如,視覺識別定位技術可以幫助機器人識別出目標果實并確定其在空間中所處的位置;還可以使用視覺伺服技術控制機械臂精確到達目標作物,從而控制機器人采摘果實。計算機視覺識別定位算法的相關利用提高了復雜農(nóng)業(yè)環(huán)境中的目標識別和定位、3D重構等。
目標識別可以分為兩部分:圖像獲取和視覺處理。圖像獲取即利用相機將空間中的三維信息投影到二維圖像空間中,而視覺處理是通過算法對獲得的二維圖像進行信息提取,從而得到視覺反饋。
2.1.1 傳統(tǒng)的圖像特征識別
多數(shù)水果具有顯著的顏色和形狀特征,與背景形成鮮明對比,從而可以通過算法將目標果實與背景進行分割。在機器視覺技術中,圖像處理的重要部分是圖像分割算法。例如,在獼猴桃的識別上,崔永杰等[11]選用R-G顏色空間區(qū)分目標與背景,使用分割像素方法來評價分割效果,利用Ostu法進行閾值分割。實驗表明,相互分離果實識別率為96.9%,重疊果實識別率為86.6%,試驗結(jié)果表明,受重疊果實遮擋的影響,該區(qū)域的識別效果明顯降低。針對果實重疊問題,喬玉晶等[12]利用形態(tài)學梯度對果實邊緣粗化突出的方法,提高了在果實重疊情況下的圖像分割識別率。陳禮鵬等[13]提出了一種基于獼猴桃果萼圖像的多目標果實識別方法,可以較好地識別多個目標果實,為后續(xù)的機械臂的路徑規(guī)劃提供信息支持,但其準確率還有待提高,并且基于顏色特征對目標進行分割時,魯棒性低,對環(huán)境的變化敏感,尤其是在室外。因此,為了減輕光照變化的影響,Wang Z等[14]提出一種針對視覺系統(tǒng)變化光照的魯棒性水果的分割算法,該方法利用小波變換對物體表面的光照進行歸一化處理,再用Retinex算法對歸一化后的圖像進行高亮顯示,最后利用K-means聚類對圖像進行分割。實驗表明,該方法在不同的光照變化下具有較好的魯棒性并可以對不同顏色的水果進行精確的分割。
在圖像識別研究中,能反映目標外形并可以有效區(qū)分目標與背景之間的差異特征參數(shù)都能作為識別目標的特征,圖像形狀特征主要來自目標的幾何特征,針對不同形狀的果實有許多典型的特征提取算法。王玉翰[15]通過選取園方差、離散度、伸長度等作為形狀特征,可以有效地識別出番茄。王玉飛等[16]提出了基于形狀和紋理特征分析的識別方法,在研究中把圓形度、凹度和矩形度作為形狀特征參數(shù)對番茄進行識別實驗,正確識別率達90%以上,此方法雖然可以基于形狀紋理取得較好的識別效果,但是所采用的紋理特征不能較好得體現(xiàn)出果蔬紋理的差異性。為此,陶華偉等[17]提出一種顏色完全局部二值模式紋理特征提取算法,利用匹配得分融合算法將顏色和紋理特征相融合,采用最鄰近分類器實現(xiàn)果蔬農(nóng)產(chǎn)品分類,該方法對比與常規(guī)的特征紋理特征提取方法,其識別率提升了5%,識別時間減少了1.1 s。
2.1.2 基于深度學習的圖像識別
深度學習的概念源自于人工神經(jīng)網(wǎng)絡,深度學習就是通過采用多個特征層進行深度卷積,并從大量的數(shù)據(jù)中自動學習圖像特征,并將其擴展到實際場景,近年來由于深度學習發(fā)展迅速,很多學者將其應用到水果圖像識別中。例如,傳統(tǒng)的基于特征的估計方法會出現(xiàn)無法識別出良好特征的情況,或者特征識別和匹配的過程很慢。針對此問題,Ty Nguyen等[18]開發(fā)了一種無監(jiān)督的學習算法,用于訓練深度卷積神經(jīng)網(wǎng)絡(Deep Convolution?al Neural Network,D-CNN)來估計平面單應矩陣,實驗證明,基于無監(jiān)督的深度卷積神經(jīng)網(wǎng)絡在精度、速度和魯棒性上均優(yōu)于傳統(tǒng)的圖像特征識別方法。Fu等[19]使用Zeiler and Fergus network(ZFNet)的反向傳播和隨機梯度下降技術,對快速卷積神經(jīng)網(wǎng)絡(Faster Convolutional Neural Network,R-CNN)進行了端對端訓練,其檢測單獨獼猴桃的識別率為94.3%,被遮擋果實和重疊果實的識別分別為82.5%和85.6%,該模型處理圖像的時間很短,對光方差和樹葉遮擋具有較好的魯棒性。
由于運算能力和圖像處理能力的不足,早期的視覺控制系統(tǒng)大部分都是開環(huán)控制,即視覺系統(tǒng)獲取到目標的位姿,然后控制機器人運動。開環(huán)的視覺控制只使用于靜態(tài)物體的視覺伺服系統(tǒng),控制精度受傳感器分辨率、標定精度等因素的影響。為了克服開環(huán)系統(tǒng)控制的缺陷,J Hill[20]提出了視覺伺服反饋閉環(huán)控制,機器人視覺伺服系統(tǒng)使用視覺傳感器獲取圖像信息并反饋給控制器分析和處理,通過算法得出機器人的控制量,從而驅(qū)動機器人到達目標位姿,形成機器人閉環(huán)控制。視覺伺服涉及到多個領域的技術,包括控制理論、圖像處理、運動學、機器視覺等。根據(jù)反饋信息的類型,機器人視覺伺服研究主要可以分為兩種,分別介紹如下。
2.2.1 基于位置的視覺伺服控制
基于位置的視覺伺服(Position based visual servo?ing,PBVS)如圖3所示,通過直接對圖像進行處理后計算出目標相對于相機和機器人的位姿,即利用視覺數(shù)據(jù)來重建機器人的3D位姿,并且在笛卡爾空間生成運動誤差并映射到執(zhí)行器命令中去。當使用PBVS將圖像的2D數(shù)據(jù)映射到笛卡爾空間數(shù)據(jù)時,則必須要對相機的內(nèi)參外參進行標定。相機內(nèi)參取決于光學特性,即鏡頭和CCD傳感器特性,當其光學裝置是固定的時候,其內(nèi)參可以離線校準,一般采用張正友標定法[21]對相機內(nèi)參進行標定。而外參是相機坐標系相對于世界坐標系的相對姿態(tài),會隨著機器人或目標的移動而變化,因此,為了執(zhí)行動態(tài)的邊看邊動的跟蹤任務,外參的實時估計是必須的。Perspective-n-Point(PnP)算法可以確定姿態(tài),通過4個共平面點的PnP算法可以實現(xiàn)在線快速的姿態(tài)估計。M Palpacelli等[22]設計了一項用來評估姿態(tài)估計方法準確性的測試,先保持相機固定,利用精密測微臺,將光學目標沿每個軸移動7 mm,通過分析數(shù)據(jù)的平均值和標準差來進行評價,同時,通過3階貝塞爾曲線,可以確保位置和速度連續(xù)以及在終點處以垂直切線的方向到達。
圖3 PBVS(基于位置的視覺伺服系統(tǒng))
2.2.2基于圖像的視覺伺服控制
在基于圖像的視覺伺服系統(tǒng)(Image-based visual servoing,IBVS)如圖4所示,伺服誤差直接定義在圖像特征空間,通過驅(qū)動機器人沿著路徑移動,逐漸減小圖像坐標系中圖像特征點的當前位置與目標特征點之間的距離。PBVS需要基于系統(tǒng)標定實現(xiàn)的,在農(nóng)業(yè)領域中,其作業(yè)環(huán)境復雜多變,常常無法進行有效地標定,而IB?VS相比于PBVS省略了位姿估計的步驟,其誤差直接從圖像平面特征生成,控制操作是在圖像坐標系中執(zhí)行,不需要依賴復雜的標定技術?;趫D像的視覺伺服控制的關鍵問題就是對圖像雅可比矩陣的求解,其圖像特征是關于相機位姿的一個高度非線性化函數(shù)[23]。彭葉予光等[24]使用卡爾曼濾波器設計了一個在線估計關節(jié)-圖像雅可比矩陣的IBVS系統(tǒng),實現(xiàn)無標定技術下的機器人執(zhí)行器的高精度定位,實驗表明,該系統(tǒng)的定位精度為0.1像素。雖然IBVS克服了PBVS的控制精度受機器人運動學模型和內(nèi)外參數(shù)標定影響等問題,控制精度更高,但是圖像雅可比矩陣的求解是難點,因此該方法只能工作在小范圍區(qū)域內(nèi),此外,IBVS的控制精度跟圖像特征選取有關。為解決雅可比矩陣求解過程復雜的問題,陽建峰[25]提出一種基于遺傳算法優(yōu)化RBF神經(jīng)網(wǎng)絡的無標定視覺伺服控制方法,通過RBF神經(jīng)網(wǎng)絡算法的擬合逼近非線性映射能力,學習圖像特征變化與機器人位姿變化之間的視覺映射模型關系,利用遺傳算法對RBF神經(jīng)網(wǎng)絡進行參數(shù)優(yōu)化能夠提高訓練效率。仿真實驗表明,該方法相比于傳統(tǒng)的求解逆雅可比矩陣,省去了繁瑣的計算過程和奇異性問題,具有更快的收斂速度、誤差更小的控制效果。
圖4 IBVS(基于圖像的視覺伺服系統(tǒng))
不同種類的水果會有不同的形狀、果皮特性,末端采摘裝置不匹配將會導致采摘成功率、效率下降。傅隆生等[4]提出了一種面向機器人的自然生長條件下簇生獼猴桃果實的無損采摘方法,如圖5(a)所示,該方法從果實底部接近、旋轉(zhuǎn)包絡分離毗鄰果實并抓取的末端執(zhí)行器,采用末端執(zhí)行器向上旋轉(zhuǎn)方式分離果柄,有效解決了毗鄰果實分離和無損采摘的問題。楊慶華等[26]設計了一種基于氣動柔性驅(qū)動器的蘋果采摘末端執(zhí)行器,如圖5(b)所示,該設計以啟動柔性驅(qū)動器作為其彎曲關節(jié),用力學分析方法建立關節(jié)彎曲量及輸出力與其內(nèi)腔氣體壓力之間的數(shù)學關系,該方法能夠準確抓住蘋果,并具有很好的柔順性。成亮等[27]為實現(xiàn)水果采摘自適應性及通用性,基于欠驅(qū)動原理設計了一種能夠根據(jù)水果的形狀自動調(diào)整手指之間的相對位置,并能實現(xiàn)無損采摘的自適應多功能水果采摘裝置。為了在線估計機械臂末端抓取過程的目標位姿,樊紹巍等[28]提出了一種針對同步三指式末端執(zhí)行器的目標位姿估計方法,該方法在不引入視覺傳感器的情況下,如圖5(c)所示,通過接觸力信息進行位姿估計,在系統(tǒng)具有兩次或冗余接觸信息時,分別采用空間平面相交的方法和最小二乘法進行位姿估計,為主動規(guī)劃運動奠定基礎。
對于數(shù)量多且體積小的果實,采取上述抓取式的執(zhí)行器不僅效率低,且易損傷果實,為此Ya Xiong等[29]提出一種基于電纜驅(qū)動的非接觸式夾持器,如圖5(d)所示,該執(zhí)行器具有六根手指,可以形成閉合空間吞下目標果實,并推動其他果實遠離目標,通過切割莖來采摘草莓,該夾具還配有3個紅外傳感器,可以控制機械臂糾正誤差。此外,該執(zhí)行器可以一次性存儲多個草莓,減少機械臂的驅(qū)動時間。但是夾持器在草莓密集區(qū)域或遮擋區(qū)域中采摘時,其采摘成功率不高。
圖5 末端執(zhí)行器
(1)果蔬采摘機器人與工業(yè)機器人相比,其作業(yè)環(huán)境復雜多變,受天氣和生長環(huán)境影響明顯,盡管人工智能及其深度學習算法提高了目標識別率,但是視覺系統(tǒng)受光照影響和遮擋等干擾時仍然存在較大的識別誤差,如何提高識別率需要進一步的研究。開發(fā)多特征融合的圖像特征提取算法可以最大程度地利用視覺信息來分析各個特征之間的優(yōu)勢,實現(xiàn)有效的特征互補,以提高光照不均勻、目標被遮擋等情況下的識別率。
(2)果蔬采摘機器人的商用化意味著其必須能快速感知,快速計算并能快速響應環(huán)境的變化,但是目前采摘機器人的研究表明,用于快速采摘的機器人仍然遠遠沒有實現(xiàn),其主要原因是作物高密度的植被遮擋而存在復雜的感知環(huán)境和移動過程。基于強化學習的無標定視覺伺服控制,可以優(yōu)化動作選擇策略,能夠在高密度植被下不斷逼近最優(yōu)的運動路徑,縮短其動作探索時間,進而提高采摘的效率。
(3)果蔬采摘機器人要在經(jīng)濟上可行,研究重點應放在開發(fā)簡單的機械臂。當前的果蔬采摘機器人多數(shù)采用工業(yè)機械臂作為采摘驅(qū)動部分,對于采摘機器人而言,具有多個簡單軸操縱器的機器人比目前適應于工業(yè)的昂貴機械臂具有更快速、更高效和更低的成本,此類機械臂為開發(fā)適用于農(nóng)業(yè)的機器人奠定基礎。
(4)多數(shù)采摘機器人都是適用于某一種果蔬,這種采用專門的機械結(jié)構和控制程序的技術不利于采摘機器人功能的擴展。通過將采摘機器人的功能模塊化,可以更換不同自由度的機械部分或控制裝置以便適應不同類型果蔬的采摘。未來水果種植方式可以朝著規(guī)?;投喾N類的方向發(fā)展,因此,模塊化技術的采摘機器人將大幅度減少重復開發(fā)的費用與維護成本,提高采摘機器人的靈活性與適應性。