劉思幸,李 爽,繆 宏,柴 巖,陳???王 健,董佩璇
(1.揚(yáng)州大學(xué) 機(jī)械工程學(xué)院,江蘇 揚(yáng)州 225127;2.揚(yáng)州市蔣王都市農(nóng)業(yè)觀光園有限公司,江蘇 揚(yáng)州 225127;3.江蘇億科農(nóng)業(yè)裝備有限公司,江蘇 揚(yáng)州 225231)
識別不同形狀、尺寸和位姿的辣椒對人類而言十分簡單,對機(jī)器人來說卻是十分困難[1]。何嶼彤、李斌等[2]采用改進(jìn)YOLOv3的方法對豬臉進(jìn)行識別,平均精度均值比原模型高9.87%。畢松[3]等基于深度卷積神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)了對光照變化、亮度不均、前背景相似等自然環(huán)境下典型干擾因素具有良好魯棒性的柑橘視覺識別模型,識別平均精度均值達(dá)86.6%。李善軍[4]等針對柑橘表面檢測費(fèi)時(shí)費(fèi)力的問題,提出一種改進(jìn)SSD深度學(xué)習(xí)模型,可同時(shí)對多個(gè)柑橘進(jìn)行實(shí)時(shí)分類檢測。吳露露、馬旭[5]等根據(jù)病斑的形態(tài)特點(diǎn)提出一種基于邊緣檢測與改進(jìn)Hough變換的病斑目標(biāo)檢測方法,檢測圓擬合精度達(dá)87.01%,圓心定位誤差為4.44%。陳海燕[6]等針對自然環(huán)境下鼠兔毛色與背景顏色相似的問題,構(gòu)建一種局部紋理差異性算子LTDC來表征目標(biāo)和背景之間的細(xì)微差異,能實(shí)現(xiàn)高原鼠兔目標(biāo)的準(zhǔn)確定位。薛月菊[7]等針對豬舍晝夜交替光線變化、熱燈光照影響及仔豬與母豬粘連等問題,提出基于改進(jìn)Faster-R-CNN的哺乳母豬姿態(tài)識別算法,平均精度均值達(dá)93.25%。此外,還有眾多學(xué)者對不同大小、顏色和形狀的果實(shí)[8-10]以及不同姿態(tài)、距離的動物[11-13]進(jìn)行目標(biāo)檢測實(shí)驗(yàn)并獲得了良好效果。
本文采用YOLOv3模型對辣椒進(jìn)行精準(zhǔn)檢測,并對不同補(bǔ)光位置、枝葉遮擋和果實(shí)重疊場景做識別實(shí)驗(yàn)[14-16]。為了準(zhǔn)確獲取辣椒的空間三維坐標(biāo),構(gòu)建基于YOLOv3和realsense深度相機(jī)的識別定位系統(tǒng),旨在為采摘機(jī)器人對不同作業(yè)場景的理解以及控制模型建立提供理論參考。
樣本取自揚(yáng)州大學(xué)機(jī)械工程學(xué)院現(xiàn)代農(nóng)業(yè)裝備實(shí)驗(yàn)室,使用S-YUE晟悅相機(jī)采集正向光、頂光、背光和側(cè)光4種不同位置,以及果實(shí)重疊和枝葉遮擋的辣椒圖像,共2000張。數(shù)據(jù)集按7:2:1比例配置,即訓(xùn)練集1400張、測試集400張、驗(yàn)證集200張。對數(shù)據(jù)集進(jìn)行翻轉(zhuǎn)、增亮、變暗、加入椒鹽噪聲等操作,以增加模型魯棒性和泛化性。利用labelimg工具對數(shù)據(jù)進(jìn)行標(biāo)注,類型為PascalVOC,標(biāo)注類別為pepper。
YOLOv3網(wǎng)絡(luò)框架如圖1所示。其主干網(wǎng)絡(luò)修改為Darknet-53,內(nèi)部包含5個(gè)殘差塊,并采用跳躍式連接,緩解了神經(jīng)網(wǎng)絡(luò)中因深度增加帶來的梯度消失問題[17]。與傳統(tǒng)卷積網(wǎng)絡(luò)不同,YOLOv3利用步幅為2的卷積層代替池化層進(jìn)行下采樣,有效避免了低層級特征的損失。每一次卷積后分別進(jìn)行Batch Normalization正則化與Leaky ReLU操作。
圖1 YOLOv3網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.1 YOLOv3 network structure
網(wǎng)絡(luò)輸出結(jié)果分為(13,13,75),(26,26,75)和(52,52,75)等3種感受野。維度75可拆分為3×(20+1+4),3代表先驗(yàn)框個(gè)數(shù),20代表預(yù)測目標(biāo)類別數(shù),1代表先驗(yàn)框是否包含目標(biāo)的置信度,4代表先驗(yàn)框的4個(gè)微調(diào)參數(shù)bx、by、tx、ty。其數(shù)學(xué)表達(dá)式為
(1)
其中,tx、ty、Pw、Ph為網(wǎng)絡(luò)的輸出結(jié)果,bx、by分別為先驗(yàn)框中心的橫縱坐標(biāo)點(diǎn);bw、bh為先驗(yàn)框的寬和高;Cx、Cy為先驗(yàn)框中心點(diǎn)相對圖像原點(diǎn)的偏移量。圖2為先驗(yàn)框和預(yù)測框示意圖。
1.先驗(yàn)框 2.預(yù)測框圖2 預(yù)測框回歸示意圖Fig.2 Schematic diagram of prediction box regression
辣椒三維坐標(biāo)中的深度Z通過realsense相機(jī)的SDK函數(shù)獲得。利用MatLab對相機(jī)的內(nèi)外參作標(biāo)定,從而建立像素坐標(biāo)系到相機(jī)坐標(biāo)系的映射模型,標(biāo)定的平均誤差僅0.08,滿足精度需求。標(biāo)定結(jié)果如圖3和圖4所示。
The study outcome was to evaluate the compliance of the Hospital personnel with a FIT-based screening program by measuring the personnel participation rates.
圖3 標(biāo)定誤差直方圖Fig.3 Calibration error histogram
圖4 相機(jī)標(biāo)定結(jié)果Fig.4 Calibration results of camera
假設(shè)相機(jī)坐標(biāo)系中辣椒的空間位置Pc為(Xc,Yc,Zc),則像素坐標(biāo)系與之映射關(guān)系為
(2)
采摘經(jīng)常在傍晚、夜間或環(huán)境較暗的情況下進(jìn)行,故一般搭載補(bǔ)光系統(tǒng)。為了研究光照角度、枝葉遮擋和果實(shí)重疊對識別效果的影響,基于YOLOv3算法對正向光、側(cè)光、背光和頂光4種光照情況以及果實(shí)重疊和枝葉遮擋場景進(jìn)行識別實(shí)驗(yàn)。
1)算法環(huán)境搭建:實(shí)驗(yàn)采用的操作系統(tǒng)是Ubuntu20.04.2,CPU為酷睿i7,內(nèi)存16G。GPU為NVIDIA GEFORCE RTX3070顯存,cuda版本10.0.1,cudnn版本10.0.1,深度學(xué)習(xí)框架為pytorch1.2.0。
2)實(shí)驗(yàn)平臺搭建:將辣椒植株按株距330mm、壟距600mm和行距300mm布置于實(shí)驗(yàn)室土槽中,參數(shù)如表1所示[18]。模擬枝葉遮擋和果實(shí)重疊將辣椒模型粘貼在植株的坐果位置。光源分別按正向光、頂光、背光和側(cè)光位置擺設(shè)。其中,頂光光源在植株正上方1m處;側(cè)光的光源在植株左側(cè)或右側(cè)斜45°1m處;背光的光源在植株正后方偏上45°處,距離1m;正向光在辣椒正面1m處。實(shí)驗(yàn)過程如圖5所示。
表1 實(shí)驗(yàn)環(huán)境與田間參數(shù)Table 1 Experimental environment and field parameters
圖5 辣椒采摘不同場景識別實(shí)驗(yàn)流程圖Fig.5 Flow chart of different scene identification experiment for picking pepper
枝葉遮擋分為輕度遮擋、中度遮擋和重度遮擋。輕度遮擋即枝葉與果實(shí)遮擋面積為0~30%,中度遮擋即枝葉與果實(shí)之間的遮擋面積為30%~50%,重度遮擋即枝葉與果實(shí)之間的遮擋面積大于50%。
果實(shí)重疊分為輕微重疊、中度重疊和重度重疊。輕微重疊即果實(shí)與果實(shí)之間的重疊面積為0~30%,中度遮擋即果實(shí)與果實(shí)之間的遮擋面積為30%~50%,重度遮擋即果實(shí)與果實(shí)之間的遮擋面積大于50%。
采用精確率(P)、召回率(R)以及平均精度均值(mAP)作為模型的評價(jià)指標(biāo)。精確率用來評價(jià)識別的精確性,精確率越高模型的錯檢率越低;召回率用來評價(jià)識別的全面性,召回率越高模型的漏檢率越低。平均精度均值是指平均精度值(AP)在所有類別下的均值。評價(jià)指標(biāo)的計(jì)算公式為
(3)
(4)
(5)
(6)
式中TP-預(yù)測正確的正例;
FP-預(yù)測錯誤的正例;
FN-預(yù)測錯誤的反例;
TN-預(yù)測正確的反例;
C-目標(biāo)類別數(shù)。
圖6所示為模型訓(xùn)練結(jié)果。由圖6可知:召回率Recall在迭代300次時(shí)達(dá)0.98,平均精度均值mAP達(dá)0.95,精確率達(dá)0.854,滿足辣椒采摘識別精度需求。
圖6 模型訓(xùn)練結(jié)果Fig.6 Training results of the mode
表2為不同光照場景識別結(jié)果對比。由表2可知:識別成功率由高到低依次為正向光、頂光、側(cè)光和背光,分別為92%、88%、84%和78%。
表2 不同光照場景識別結(jié)果對比Table 2 Comparison of recognition results under different lighting conditions
圖7為不同光照場景識別效果。由圖7可知:不同補(bǔ)光位置下,辣椒的果實(shí)、葉子顏色變化明顯,陰影交錯復(fù)雜;在正向光場景下,辣椒葉子和果實(shí)顏色基本不變;側(cè)光場景下,辣椒顏色泛白,特征信息丟失較多,嚴(yán)重影響果實(shí)識別精度;頂光場景下,辣椒顏色和形狀特征丟失較少,但光線稍顯暗淡。由于光照集中在頂部葉片,使得前景和背景區(qū)別明顯,有利于辣椒的精準(zhǔn)識別。背光場景下,光線多從枝葉和辣椒之間穿透,模型輸入大量噪聲信息,且背光場景下葉片顏色更顯暗淡,背景信息更復(fù)雜,導(dǎo)致辣椒的特征更難提取。
圖7 不同光照場景識別結(jié)果Fig.7 Recognition results of different lighting scenes
枝葉遮擋和果實(shí)重疊識別結(jié)果對比如表3所示。由表3可以看出:輕度遮擋和輕度重疊場景下,辣椒識別成功率達(dá)96%,滿足采摘識別精度需求;枝葉遮擋錯檢率高于果實(shí)重疊,漏檢率低于果實(shí)重疊,識別成功率總體高于果實(shí)重疊。這是因?yàn)樽鰳?biāo)簽遇到枝葉遮擋時(shí),難免將枝葉部分框進(jìn)ground truth中,導(dǎo)致模型在訓(xùn)練時(shí)錯誤地將帶有枝葉的辣椒作為預(yù)測對象;而果實(shí)重疊場景識別成功率低是因?yàn)閅OLO模型識別小目標(biāo)和密集物體性能差。
表3 枝葉遮擋和果實(shí)重疊識別結(jié)果對比Table 3 Comparison of recognition results of branch and leaf occlusion and fruit overlap
不同遮擋程度識別結(jié)果如圖8所示,不同重疊程度識別結(jié)果如圖9所示。中度遮擋和中度重疊時(shí),模型錯檢數(shù)無明顯提升,兩者識別成功率分別為88%和86%。由圖8、圖9和表3可知:重度遮擋和重度重疊時(shí),兩者漏檢數(shù)明顯增多,枝葉遮擋的錯檢率明顯高于果實(shí)重疊。
圖8 不同遮擋程度識別結(jié)果Fig.8 Comparison of recognition results of branch and leaf occlusion
圖9 不同重疊程度識別結(jié)果Fig.9 Comparison of recognition results of fruit overlap
辣椒在相機(jī)坐標(biāo)系下的真實(shí)坐標(biāo)為(X,Y,Z),利用模型測得的坐標(biāo)為(X0,Y0,Z0),定位系統(tǒng)的測量誤差為ΔX、ΔY、ΔZ,則綜合定位誤差ΔE為
(7)
表4為辣椒三維坐標(biāo)識別結(jié)果。實(shí)驗(yàn)表明:基于YOLOv3和realsense深度相機(jī)的識別定位系統(tǒng)可實(shí)現(xiàn)辣椒的三維坐標(biāo)定位,綜合定位誤差最大只有0.024m,滿足采摘精度需求。
表4 辣椒中心點(diǎn)三維坐標(biāo)計(jì)算結(jié)果Table 4 Results of 3D coordinate of pepper center points
1)基于YOLOv3網(wǎng)絡(luò)模型搭建了辣椒識別系統(tǒng),包含軟件環(huán)境和硬件平臺。實(shí)驗(yàn)表明:召回率達(dá)0.98,平均精度均值達(dá)0.95,精確率達(dá)0.854,滿足辣椒采摘識別精度需求。
2)基于4種不同光照場景對YOLOv3模型識別效果做了對比,成功率由高到低依次為正向光、頂光、側(cè)光和背光。其中,正向光的識別成功率達(dá)92%,分別高于頂光、側(cè)光和背光4、8、14個(gè)百分點(diǎn)。
3)基于不同枝葉遮擋和果實(shí)重疊程度對模型識別效果做了對比實(shí)驗(yàn),結(jié)果表明:輕微遮擋或重疊時(shí)(遮擋或重疊面積小于30%),模型識別成功率幾乎不變,保持在96%左右;中度遮擋或重疊時(shí)(遮擋或重疊面積在30%~50%之間),模型的漏檢率有所上升,整體識別成功率達(dá)86%左右;重度遮擋或重疊時(shí)(遮擋或重疊面積大于50%),辣椒難以被識別,錯檢率和漏檢率皆明顯上升。
4)基于YOLOv3模型和realsense深度相機(jī)的識別定位系統(tǒng)可實(shí)現(xiàn)辣椒的三維坐標(biāo)定位,綜合定位誤差最大僅0.024m,滿足采摘機(jī)器人的精度需求。