亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        改進Mask R-CNN的溫室環(huán)境下不同成熟度番茄果實分割方法

        2021-11-24 09:59:12龍潔花趙春江郭文忠文朝武
        農業(yè)工程學報 2021年18期
        關鍵詞:特征模型

        龍潔花,趙春江,林 森,郭文忠,文朝武,張 宇

        ?農業(yè)信息與電氣技術?

        改進Mask R-CNN的溫室環(huán)境下不同成熟度番茄果實分割方法

        龍潔花1,2,趙春江1,2,林 森2※,郭文忠2,文朝武1,2,張 宇2

        (1. 上海海洋大學信息學院,上海 01306;2. 北京市農林科學院智能裝備技術研究中心,北京 00097)

        基于深度神經網絡的果實識別和分割是采摘機器人作業(yè)成功的關鍵步驟,但由于網絡參數(shù)多、計算量大,導致訓練時間長,當模型部署到采摘機器人上則存在運行速度慢,識別精度低等問題。針對這些問題,該研究提出了一種改進Mask R-CNN的溫室環(huán)境下不同成熟度番茄果實分割方法,采用跨階段局部網絡(Cross Stage Partial Network,CSPNet)與Mask R-CNN網絡中的殘差網絡(Residual Network,ResNet)進行融合,通過跨階段拆分與級聯(lián)策略,減少反向傳播過程中重復的特征信息,降低網絡計算量的同時提高準確率。在番茄果實測試集上進行試驗,結果表明以層數(shù)為50的跨階段局部殘差網絡(Cross Stage Partial ResNet50,CSP-ResNet50)為主干的改進Mask R-CNN模型對綠熟期、半熟期、成熟期番茄果實分割的平均精度均值為95.45%,F(xiàn)1分數(shù)為91.2%,單張圖像分割時間為0.658 s。該方法相比金字塔場景解析網絡(Pyramid Scene Parsing Network,PSPNet)、DeepLab v3+模型和以ResNet50為主干的Mask R-CNN模型平均精度均值分別提高了16.44、14.95和2.29個百分點,相比以ResNet50為主干的Mask R-CNN模型分割時間減少了1.98%。最后將以CSP- ResNet50為主干的改進Mask R-CNN模型部署到采摘機器人上,在大型玻璃溫室中開展不同成熟度番茄果實識別試驗,該模型識別正確率達到90%。該研究在溫室環(huán)境下對不同成熟度番茄果實具有較好的識別性能,可為番茄采摘機器人精準作業(yè)提供依據。

        圖像處理;機器視覺;模型;番茄;成熟度分割;Mask R-CNN;殘差網絡;跨階段局部網絡

        0 引 言

        番茄是全球栽培最為普遍的蔬菜之一,在歐美、中國和日本等國家大多采用設施栽培方式[1]。設施農業(yè)中番茄采摘主要依靠人工作業(yè),其勞動強度大、工作效率低[2]。番茄采摘機器人可節(jié)約勞動力、提升生產效率,對工廠化番茄種植具有重要意義。制約番茄采摘機器人執(zhí)行采摘的關鍵是番茄果實的識別、分割和定位[3]。由于識別果實的深度神經網絡參數(shù)多,計算量大,同時番茄果實所處為非結構化環(huán)境,光照復雜,果實之間存在密集分布、遮擋等因素[4],導致網絡識別精度低,運行速度慢。因此,亟需研究一種溫室環(huán)境下番茄果實識別與分割方法。

        近年來,國內外學者對果蔬的識別和分割開展了大量的研究,其中包括傳統(tǒng)分割方法和目前流行的基于深度學習的分割方法。傳統(tǒng)分割方法主要包括基于閾值的分割方法、基于區(qū)域生長的分割方法和基于邊緣檢測的分割方法等,用于從不同顏色空間中提取果蔬的外觀特征,包括顏色、紋理、形狀等。王春雷等[5]以根茬頂端切口為目標,提出一種基于遺傳算法和閾值濾噪的玉米根茬行分割方法,該方法分割玉米根茬行平均相對目標面積誤差率為24.68%,具有較好的分割準確率,但當行間秸稈也在根茬行上時,將被視為玉米根茬切口,易導致誤分割。孫建桐等[6]以串收番茄為研究對象,利用Canny邊緣檢測算法對圖像進行分割,獲得果實輪廓點,結果表明果實識別正確率為85.1%,該方法在一定程度上解決了多個果實粘連的分割問題,但是浪費了大量非果實粘連處的點。深度學習分割中語義分割和實例分割較為流行,語義分割實現(xiàn)像素級別的分類,而實例分割不僅要實現(xiàn)像素級別上的分類,還要在具體類別基礎上劃分出不同的實例個體。Peng等[7]采用DeepLab v3+模型對荔枝枝條進行分割,DeepLab v3+模型采用編碼和解碼結構減少網絡參數(shù)數(shù)量,同時使用空間金字塔池化提取語義像素位置信息,試驗結果表明,模型對荔枝枝條分割的平均交并比為76.5%,該模型只對類別分割,未對同一類別中不同實例進行劃分。Jia等[8]提出使用Mask R-CNN模型對果園中重疊綠色蘋果進行識別和分割,將殘差網絡與密集連接卷積網絡相結合作為骨干網絡提取特征,該方法對120幅圖像的蘋果檢測結果表明,平均檢測準確率為97.31%,但由于數(shù)據集太少,仍需增加樣本集和豐富樣本多樣性以更具說服力。Afonso等[9]使用RealSense相機拍攝溫室中番茄果實圖像,采用Mask R-CNN模型檢測成熟和未成熟番茄果實,試驗結果表明,使用ResNext101為主干的Mask R-CNN模型檢測成熟番茄和未成熟番茄準確率分別達到95%和94%,該方法雖準確率高,但試驗僅在番茄果實沒有遮擋情況下進行的,未考慮遮擋和重疊等環(huán)境因素。岳有軍等[10]提出一種改進型Mask R-CNN模型對蘋果進行檢測研究,該方法在原始Mask R-CNN網絡基礎上增加邊界加權損失函數(shù),使邊界檢測更加準確,訓練后的模型在驗證集下精度為92.62%,同時在不同果實數(shù)目、不同光照和識別綠色蘋果情況下,該模型具有較好的分割效果,但仍有待進一步優(yōu)化提高檢測精度。

        綜上,國內外學者針對果實分割做了大量研究,為進一步提高復雜環(huán)境下番茄果實識別率和網絡運行速度,本研究提出將跨階段局部網絡(Cross Stage Partial Network,CSPNet)引入Mask R-CNN網絡中對不同成熟度番茄果實進行識別和分割。將跨階段局部網絡與殘差網絡(Residual Network,ResNet)相融合,通過跨階段拆分與級聯(lián)策略,減少特征傳播過程中重復的信息,從而降低網絡計算量,提高網絡運行速度。最后將改進的Mask R-CNN模型部署到番茄采摘機器人上,對溫室環(huán)境下不同成熟度番茄果實進行識別試驗,為番茄采摘機器人精準作業(yè)提供參考。

        1 材料與方法

        1.1 樣本采集及預處理

        1.1.1 樣本采集

        本研究番茄果實數(shù)據采集于全國蔬菜質量標準中心(山東壽光,中國)的智慧農業(yè)科技園,試驗番茄品種為“意佰芬”,根據采摘需求將番茄果實成熟度定義為綠熟期、半熟期、成熟期[11],其中成熟期番茄為最佳采摘時期。采用三維(3D)工業(yè)相機圖漾(FM850-GI-E1,上海圖漾信息科技有限公司,中國)采集番茄樣本,相機分辨率為1 280×960像素,像素精度為4 mm,安裝在國家農業(yè)智能裝備工程技術研究中心(北京,中國)自主研發(fā)的番茄采摘機器人上,通過手動操作機器人進行樣本采集。為保證番茄果實樣本的多樣性,分別采集不同光照強度(正常光和弱光)、不同果實數(shù)量、不同遮擋程度的番茄果實樣本共1 000張(圖1),其中綠熟期圖片175張,半熟期圖片73張,成熟期圖片206張,包含多種成熟度果實的圖片546張。

        1.1.2 樣本增強

        為提高網絡訓練模型效果和模型泛化能力,采用數(shù)據增強方法增加番茄樣本數(shù)量[12],防止網絡因訓練樣本不足導致過擬合,其次采用數(shù)據增強方法模擬溫室實際環(huán)境中不同光照的樣本采集效果。本研究分別從綠熟期、半熟期、成熟期和包含多種成熟度的番茄樣本中選取50 張原始數(shù)據,共200 張,利用翻轉、調整圖像的亮度、對比度和顏色對番茄樣本進行數(shù)據增強(圖2)。數(shù)據增強的樣本共1 000張,與原番茄樣本合計共2 000 張,并按照15∶3∶2的比例將數(shù)據集劃分為訓練集(1 500張)、測試集(300張)、驗證集(200張)。

        1.2 番茄果實分割模型

        1.2.1 改進的Mask R-CNN網絡模型

        Mask R-CNN[13]是經典的實例分割網絡,在Faster R-CNN[14]基礎上添加了一個以全卷積網絡(Fully Convolutional Network,F(xiàn)CN)[15]為主的掩膜分支用于預測分割任務,與分類和回歸分支并行,使Mask R-CNN不僅可以檢測物體,還具有語義分割功能,實現(xiàn)檢測與分割于一體,同時引入興趣區(qū)域對齊層(Region of Interest Align layer,RoI Align)保證特征圖與輸入像素一一對應,以提高分割精度。Mask R-CNN采用殘差網絡(ResNet)[16]和特征金字塔網絡(Feature Pyramid Network,F(xiàn)PN)[17]作為主干網絡提取特征,殘差網絡在淺層網絡和深層網絡間以跳躍連接的方式將輸入直接與輸出相加,用于解決深度神經網絡中的梯度消失或梯度爆炸問題[18-19],但由于其網絡參數(shù)多、計算量大,導致網絡訓練時間長、運行速度慢。

        針對上述問題,本研究設計了一種跨階段局部殘差網絡(Cross Stage Partial Residual Network,CSP-ResNet),該網絡將跨階段局部網絡(CSPNet)[20]與Mask R-CNN中的殘差網絡相融合,將基礎層特征映射成2部分,通過跨階段拆分與級聯(lián)策略,有效解決了深度網絡重復學習梯度信息造成計算量大的問題,在降低了計算量的同時還提高了準確率。改進的Mask R-CNN網絡結構如圖3所示。

        主干網絡由層數(shù)為50的跨階段局部殘差網絡(Cross Stage Partial ResNet50,CSP-ResNet50)或層數(shù)為101的跨階段局部殘差網絡(Cross Stage Partial ResNet101,CSP-ResNet101)和特征金字塔網絡組成,跨階段局部殘差網絡提取輸入圖像的特征信息,通過卷積核大小為1×1的卷積層將特征傳入特征金字塔網絡中,特征金字塔網絡采用雙金字塔結構將底層特征和高層特征融合,提取跨階段局部殘差網絡中各個跨階段局部殘差模塊的特征,用于解決多尺度預測問題。主干網絡提取的特征傳入區(qū)域生成網絡(Region Proposal Network,RPN)中產生感興趣區(qū)域(Region of Interest,RoI),RPN分別采用卷積核大小為1×1的卷積層對RoI進行分類和回歸,生成候選區(qū)域,興趣區(qū)域對齊層將候選區(qū)域像素與主干網絡提取的特征圖一一對應,產生相同尺寸的特征,以提高掩膜準確率。網絡頭部由類別、邊界框和掩膜分支組成,類別分支采用全連接層和Softmax分類器對目標進行分類并輸出類別概率,邊界框分支采用全連接層和邊界框回歸對目標進行定位,掩膜分支采用全連接網絡實現(xiàn)像素到像素上的掩膜分割,掩膜損失值采用帶權交叉熵損失函數(shù)計算。改進的Mask R-CNN網絡相較于Mask R-CNN在跨階段局部殘差網絡和掩膜損失函數(shù)兩方面做了改進,具體實現(xiàn)如下:

        1)跨階段局部殘差網絡

        將跨階段局部網絡與Mask R-CNN的主干網絡中層數(shù)為50和101的殘差網絡融合,跨階段局部殘差網絡結構如圖4所示。輸入特征通過卷積核大小為7×7、通道數(shù)為64、步長為2的基礎層,再通過卷積核大小為3×3和步長為2的最大池化層后,通道數(shù)增加至原來的4倍,進入跨階段局部殘差模塊。跨階段局部殘差模塊由殘差塊和2個卷積層組成,每個殘差塊由3個卷積層組成,殘差塊之間以跳躍連接的方式將淺層網絡與深層網絡特征融合用于解決梯度消失或梯度爆炸問題,2個卷積層都使用1×1卷積核對特征圖進行降維,減少網絡參數(shù)。跨階段局部殘差模塊1中殘差塊步長都為1;跨階段局部殘差模塊2中殘差塊2的第1個殘差的第2個卷積步長為2,通道數(shù)增加至原來的2倍;跨階段局部殘差模塊3和跨階段局部殘差模塊4中殘差的步長變化與跨階段局部殘差模塊2相同。每個跨階段局部殘差模塊使用拆分與級聯(lián)策略將反向傳播過程中的梯度流截斷,防止不同層重復學習梯度信息,以減少網絡參數(shù)。網絡最后通過卷積核為1×1、通道數(shù)為1 000的卷積層將特征融合輸出。

        2)掩膜損失函數(shù)

        Mask R-CNN網絡經過特征區(qū)域篩選,網絡頭部對各特征圖進行分類、邊框和掩膜計算,網絡整體損失值為分類、邊框和掩膜三者損失值之和,其中掩膜損失值采用平均二值交叉熵損失函數(shù)(mask)計算如式(1)所示

        式中表示樣本總數(shù);(i)表示樣本的期望輸出,值為0或1;(i)表示樣本的實際輸出,即分割結果。

        掩膜分支處理感興趣區(qū)域(RoI)產生××(為實例類別個數(shù),=80,一般為14或28)的特征圖大小,在分辨率為×像素上有個二分類掩膜,每個像素點都應用了Sigmoid激活函數(shù),為每個類別都產生掩膜,即對于一個屬于第個類別的感興趣區(qū)域,mask僅考慮第個掩膜。在分割時,若第個類別像素數(shù)量小于背景像素數(shù)量時,平均二值交叉熵損失函數(shù)會導致樣本數(shù)較少的類別分割效果較差。

        本研究采集的番茄果實樣本中半熟期番茄數(shù)量少于綠熟期和成熟期,整體樣本存在不均衡的情況,在原交叉熵損失函數(shù)基礎上添加權重因子后的交叉熵損失函數(shù)(mask+weight)的計算如式(2)所示。

        1.2.2 對照組網絡

        對照組網絡分別為Mask R-CNN網絡、金字塔場景解析網絡(Pyramid Scene Parsing Network,PSPNet)[21]和DeepLab v3+網絡[22],本研究將改進的Mask R-CNN網絡與對照組各網絡分別對溫室環(huán)境下不同成熟度番茄圖像進行了分割。

        PSPNet和DeepLab v3+是經典的語義分割網絡,數(shù)據標注采用Labelme[23]工具,生成的標簽文件需轉換為灰度圖。PSPNet通過MobileNet[24]主干網絡和空洞卷積策略提取特征,特征經過金字塔池化模塊(Pyramid Pooling Module)得到融合的帶有全局信息的特征,將融合后的特征進行上采樣,最后通過一個卷積層輸出語義分割結果。DeepLab v3+以DeepLab v3為基礎,通過Xception-65[25]主干網絡提取特征,使用空間金字塔池化(Spatial Pyramid Pooling,SPP)[26]和編碼-解碼結構實現(xiàn)語義分割,空間金字塔池化在不同尺度特征層上進行池化操作獲取豐富的上下層信息,編碼-解碼結構采用大小為3×3的卷積核提取上下層信息,得到物體的空間信息,最后通過上采樣輸出預測結果。

        1.2.3 評價指標

        采用的性能評價指標主要包括準確率(Precision,,%)、召回率(Recall,,%)、平均精度(Average Precision,AP,%)、平均精度均值(Mean Average Precision,MAP,%)、F1分數(shù)(F1-score)、識別正確率(Recognition accuracy,Racc,%),各評價指標計算如式(3)~(8)所示

        式中TP表示模型預測為正的正樣本,F(xiàn)P表示模型預測為正的負樣本,F(xiàn)N表示模型預測為負的正樣本,TN表示模型預測為負的負樣本;AP是準確率在召回率上的積分,一般AP值越高,模型性能越好;MAP為每一類別的AP的平均值,其中為類別數(shù),本研究中=3;F1-score為準確率和召回率的調和平均值,取值范圍為[0,1],1代表模型輸出最好,0代表模型輸出最差;Racc為本研究模型部署到機器人上的識別正確率。

        模型運行速度評估指標采用模型分割單張圖片所耗費的平均時間(即平均分割時間,s)表示。

        1.3 試驗設計

        1.3.1 試驗環(huán)境

        本試驗主機操作系統(tǒng)為Ubuntu16.04,中央處理器為Intel? CoreTM i7-9800X CPU @ 3.8 GHz×16,運行內存為16 GB,顯卡為GeForce GTX 1080ti。神經網絡在Anaconda3虛擬環(huán)境下訓練,分別采用Tensorflow1.13.1和Keras2.2.4、Tensorflow1.14.0和Keras2.2.5深度學習框架以適應不同網絡訓練需求,配置安裝Python3.7編程環(huán)境、GPU并行計算架構Cuda10.0和深度神經網絡GPU加速庫Cudnn7.4。

        1.3.2 試驗參數(shù)

        1)改進的Mask R-CNN 和Mask R-CNN模型參數(shù)

        改進的Mask R-CNN和Mask R-CNN模型均采用MS COCO數(shù)據集的預訓練權重訓練,每個批次處理1 張圖片,圖片最大維度設置為768,最小維度設置為384,區(qū)域生成網絡(RPN)錨框大小分別為8×6、16×6、32×6、64×6和128×6,每張圖片訓練的RoI為100,每輪迭代次數(shù)為50,驗證次數(shù)為50,網絡頭部訓練學習率為0.001,整個網絡訓練初始學習率為0.001,每迭代100 次,學習率降低0.1,總迭代次數(shù)均設置為1 000,網絡權重衰減系數(shù)為0.000 1,動量為0.9。

        2)其他對照組模型參數(shù)

        本研究中其他對照組模型為PSPNet和 DeepLab v3+網絡,均采用PASCAL VOC(PASCAL Visual Object Classes)預訓練模型訓練。PSPNet和DeepLab v3+網絡訓練圖片分辨率大小設置為768像素×384 像素,總迭代次數(shù)為1 000,初始學習率為0.001,每迭代100次,學習率降低0.1,其余參數(shù)設置與文獻[21-22]中參數(shù)一致。

        1.3.3 對比試驗

        1)掩膜損失函數(shù)對比試驗

        改進的Mask R-CNN采用帶權交叉熵損失函數(shù)計算掩膜損失值,分別以CSP-ResNet50和CSP-ResNet101作為主干網絡訓練模型;Mask R-CNN采用平均二值交叉熵損失函數(shù)計算掩膜損失值,分別以ResNet50和ResNet101作為主干網絡訓練模型。通過對比訓練損失函數(shù)曲線的收斂程度確定最優(yōu)主干網絡。

        2)番茄果實分割模型對比試驗

        在掩膜損失函數(shù)試驗的基礎上,選出改進的Mask R-CNN和Mask R-CNN的最優(yōu)主干網絡,與基于MobileNet主干網絡的PSPNet、基于Xception-65主干網絡的DeepLab v3+在番茄果實測試集上進行對比試驗,比較不同模型的分割性能。

        2 結果與分析

        2.1 掩膜損失函數(shù)結果分析

        改進Mask R-CNN模型采用帶權交叉熵損失函數(shù)用于計算掩膜損失值,設置權重因子=[0.15, 0.7, 0.15],分別以CSP-ResNet50和CSP-ResNet101作為主干網絡訓練模型;Mask R-CNN采用平均二值交叉熵損失函數(shù)計算掩膜損失值,分別以ResNet50和ResNet101作為主干網絡訓練模型,不同主干網絡模型訓練的掩膜損失函數(shù)曲線如圖5所示。由圖5可知,4個主干網絡隨著迭代次數(shù)的增加,網絡掩膜損失值逐漸下降并趨于穩(wěn)定,且在迭代次數(shù)為0~200范圍內下降速度最快,當?shù)螖?shù)為800~1 000范圍時訓練掩膜損失值變化不大基本趨于穩(wěn)定,網絡達到收斂狀態(tài)。改進Mask R-CNN模型以CSP-ResNet50和CSP-ResNet101作為主干網絡的掩膜損失值分別為0.05和0.088,Mask R-CNN模型以ResNet50和ResNet101作為主干網絡的掩膜損失值分別為0.174和0.244,由此可知,改進的Mask R-CNN模型采用帶權交叉熵損失函數(shù)訓練,其掩膜損失值低于Mask R-CNN模型,泛化能力較強。

        為確定最優(yōu)主干網絡,分別對比這4個主干網絡模型在驗證集上的性能(表1)。CSP-ResNet50主干網絡參數(shù)量為24.28 M,模型訓練時間為10 h,相比ResNet50主干網絡參數(shù)量和模型訓練時間分別減少5%和16.67%,CSP-ResNet50為主干的改進Mask R-CNN的平均精度均值為94.31%,性能高于其他主干網絡模型。CSP-ResNet101主干網絡參數(shù)量為43.99 M,模型訓練時間為14 h,相比ResNet101主干網絡參數(shù)量和模型訓練時間分別減少1.25%和6.67%。CSP-ResNet101為主干的改進Mask R-CNN的平均精度均值為92.92%,與ResNet50為主干的Mask R-CNN模型的平均精度均值差異較小,僅差0.73個百分點,但ResNet50主干網絡參數(shù)量為25.56 M,模型訓練時間為12 h,考慮電腦配置和網絡性能等情況,選取CSP-ResNet50和ResNet50分別作為改進模型和Mask R-CNN的最優(yōu)主干網絡,用于番茄果實分割試驗。

        2.2 番茄果實分割模型性能結果分析

        在掩膜損失函數(shù)結果分析中分別確定了CSP-ResNet50為改進Mask R-CNN模型的最優(yōu)主干網絡和ResNet50為Mask R-CNN模型的最優(yōu)主干網絡,為進一步驗證本研究的以CSP-ResNet50為主干網絡的改進Mask R-CNN模型對溫室環(huán)境下不同成熟度番茄圖像分割的性能,將其與以ResNet50為主干網絡的Mask R-CNN模型,以MobileNet為主干網絡的PSPNet模型,以Xception-65為主干網絡的DeepLab v3+模型行分割比較。

        以CSP-ResNet50為主干的改進Mask R-CNN模型與其他模型在測試集上對不同成熟度番茄分割的試驗結果如表2所示。以CSP-ResNet50為主干的改進Mask R-CNN模型對比以ResNet50為主干的Mask R-CNN模型平均精度均值、準確率、召回率、F1分數(shù)分別提高2.29、1.29、2.16和2.01個百分點;其次,以CSP-ResNet50為主干的改進Mask R-CNN模型分割單張圖像時間為0.658 s,相比以ResNet50為主干的Mask R-CNN模型減少1.98%。試驗結果表明,本研究模型在殘差網絡中引入跨階段局部網絡,減少特征傳播過程中重復的梯度信息,相比殘差網絡能有效降低網絡計算量,提高網絡運行速度,網絡分割性能在一定程度上相比Mask R-CNN模型有明顯提升;以CSP-ResNet50為主干的改進Mask R-CNN模型對比PSPNet和DeepLab v3+模型對不同成熟度番茄果實分割的平均精度均值分別提高16.44和14.95個百分點,F(xiàn)1分數(shù)分別提高16.48和14.72個百分點,但本研究模型分割單張圖像時間相比PSPNet和DeepLab v3+模型分別增加14.83%和27.52%,主要是因為主干網絡CSP-ResNet50和ResNet50相比MobileNet、Xception-65網絡層數(shù)較深,訓練參數(shù)多且對硬件配置要求較高,導致模型運行速度相對較慢,綜合權衡平均精度均值和運行速度,以CSP-ResNet50為主干的改進的Mask R-CNN模型分割不同成熟度番茄果實更具魯棒性。

        表1 不同主干網絡模型在驗證集中的性能結果

        表2 不同分割模型在測試集中對不同成熟度番茄的分割性能

        不同分割方法在測試集上對溫室環(huán)境下不同成熟度番茄果實的分割效果如圖6所示。由圖6b和圖6c可知,PSPNet和DeepLab v3+模型分割效果較差,分割目標輪廓區(qū)域均出現(xiàn)重疊,圖6b中PSPNet模型在正常光和弱光環(huán)境下分別出現(xiàn)半熟期番茄誤分割為成熟期番茄現(xiàn)象和成熟期番茄誤分割為半熟期番茄現(xiàn)象,而圖6c中DeepLab v3+模型在弱光環(huán)境下出現(xiàn)綠熟期番茄誤分割為半熟期番茄和半熟期番茄誤分割為成熟期番茄現(xiàn)象,可見這2種模型受光照影響較大,尤其是弱光環(huán)境下,模型難以區(qū)分番茄顏色特征,出現(xiàn)誤分割現(xiàn)象。由圖6d和圖6e可知,以ResNet50為主干的Mask R-CNN模型和以CSP-ResNet50為主干的改進Mask R-CNN模型分割目標輪廓均清晰,但圖6d中以ResNet50為主干的Mask R-CNN模型將葉子背景誤分割為綠熟期番茄,因為弱光環(huán)境下綠熟期番茄顏色特征與背景相近[27],導致模型識別與分割精度下降,而圖6e中,以CSP-ResNet50為主干的改進Mask R-CNN模型無誤分割現(xiàn)象,能準確提取背景顏色和番茄果實顏色特征,且改進Mask R-CNN模型成功將遮擋嚴重的綠熟期番茄果實分割。綜上,以CSP-ResNet50為主干的改進Mask R-CNN模型在不同光照強度和遮擋環(huán)境下對不同成熟度番茄果實具有較好的分割性能。

        2.3 改進的Mask R-CNN模型驗證

        為驗證以CSP-ResNet50為主干的改進Mask R-CNN模型的實際分割效果,將其部署到番茄采摘機器人上,對溫室環(huán)境下不同成熟度番茄識別效果進行驗證。機器人平臺核心控制器配置為I7-7500 U、8 G運行內存、128 G固態(tài)硬盤。

        采摘機器人分別從不同光照強度、果實遮擋重疊程度等情況下每隔5 s拍攝1 張番茄果實圖像,模型平均每分割1張番茄圖像約0.88 s,隨機選取4 張樣例圖片對綠熟期、半熟期、成熟期番茄個數(shù)進行人工檢驗,分別為人工檢驗輕度遮擋的番茄果實數(shù)量和遮擋超過70%的番茄個數(shù),人工檢驗結果和改進的Mask R-CNN模型識別結果如表3所示。由表3可知,樣例3中人工檢驗輕度遮擋番茄數(shù)量和遮擋超過70%番茄數(shù)量總和為10個,模型識別番茄總數(shù)為9個,正確率達到90%;樣例4中模型識別番茄總數(shù)為11個,人工檢驗輕度遮擋番茄數(shù)量和遮擋超過70%番茄數(shù)量總和為13個,模型識別總數(shù)為人工檢驗總數(shù)的84.62%,其中人工檢驗輕度遮擋的半熟期番茄僅有3個,但模型識別半熟期為4個,是因為綠熟期番茄誤分割為半熟期番茄,導致模型分割正確率下降,除去誤分割數(shù)量,模型識別正確番茄數(shù)量為10個,正確率為76.92%;樣例1中模型對于遮擋超過70%的番茄果實未識別,識別番茄總數(shù)量與人工檢驗總數(shù)量有較大差距,正確率僅為66.67%,是因為番茄果實遮擋超過70%以上時像素少,特征不明顯,導致模型難以提取番茄顏色、形狀等特征,且遮擋嚴重時番茄果實表現(xiàn)為小目標,模型識別較為困難。其次,不同光照強度對算法分割性能也有影響,尤其是弱光環(huán)境下,會增加模型分割番茄難度,出現(xiàn)誤分割現(xiàn)象,導致準確率下降。對于此類問題,后續(xù)可以采用農藝農機結合方法來提高設施環(huán)境下模型識別正確率??傮w上,本研究在實際應用中具有適用性,可為溫室環(huán)境下采摘機器人精準采摘成熟期番茄奠定基礎。

        表3 改進的Mask R-CNN模型番茄識別與人工檢驗對比結果

        注:*表示出現(xiàn)誤分割現(xiàn)象,人工檢驗輕度遮擋的半熟期番茄僅有3個,而模型識別半熟期番茄為4個,這是因為模型將綠熟期番茄誤分割為半熟期番茄所致。

        Note: * indicates that the model has mis-segmentation. There are only 3 half ripe tomatoes with lightly shaded by manual inspection, but 4 half-ripe tomatoes identified by the model. This is because the model misclassifies green ripe tomatoes into half ripe tomatoes.

        3 結 論

        本研究提出了一種改進Mask R-CNN模型對溫室環(huán)境下不同成熟度番茄果實進行分割,并將改進的Mask R-CNN模型部署到番茄采摘機器人上進行識別驗證,結論如下。

        1)本研究在番茄果實測試集上的試驗結果表明,以CSP-ResNet50為主干的改進Mask R-CNN模型對番茄果實分割的準確率為95.25%,召回率為87.43%,F(xiàn)1分數(shù)為91.2%,平均精度均值為95.45%。本研究模型的平均精度均值相比金字塔場景解析網絡(Pyramid Scene Parsing Network,PSPNet)模型、DeepLab v3+模型、以ResNet50為主干的Mask R-CNN模型分別提高了16.44、14.95和2.29個百分點;本研究模型平均分割單張圖像的時間為0.658 s,相比以ResNet50為主干的Mask R-CNN模型平均分割單張圖像時間減少了1.98%。由于半熟期番茄是綠熟期番茄到成熟期番茄的一個過渡階段,顏色特征與綠熟期和成熟期些許相似,識別精度低于成熟期和綠熟期,但不影響后期采摘機器人采摘成熟期番茄。

        2)將以CSP-ResNet50為主干的改進Mask R-CNN模型部署到番茄采摘機器人上,在溫室環(huán)境下開展不同成熟度番茄果實識別論證試驗,并與人工檢驗進行對比。試驗結果表明,當番茄果實遮擋較低且未誤分割時,改進Mask R-CNN模型識別番茄數(shù)量與人工檢驗數(shù)量差距較小,正確率達到90%;當番茄果實遮擋嚴重、光照較弱時,模型識別準確率下降,針對此問題可在未來進一步研究。

        [1] 霍建勇. 中國番茄產業(yè)現(xiàn)狀及安全防范[J]. 蔬菜,2016(6):1-4.

        Huo Jianyong. Current status and safety precautions of Chinese tomato industry[J]. Vegetables, 2016(6):1-4. (in Chinese with English abstract)

        [2] 張振,王新龍,劉軍民,等. 現(xiàn)代果園作業(yè)平臺與試驗[J]. 農業(yè)工程,2019,9(6):106-111.

        Zhang Zhen, Wang Xinlong, Liu Junmin, et al. Modern orchard operating platform and experiment[J]. Agricultural Engineering, 2019, 9(6): 106-111. (in Chinese with English abstract)

        [3] 樊艷英,張自敏,陳冠萍,等. 視覺傳感器在采摘機器人目標果實識別系統(tǒng)中的應用[J]. 農機化研究,2019,41(5):210-214.

        Fan Yanying, Zhang Zimin, Chen Guanping, et al. Application of vision sensor in the target fruit recognition system of picking robot[J]. Journal of Agricultural Mechanization Research, 2019, 41(5): 210-214. (in Chinese with English abstract)

        [4] 劉芳,劉玉坤,林森,等. 基于改進型YOLO的復雜環(huán)境下番茄果實快速識別方法[J]. 農業(yè)機械學報,2020,51(6):229-237.

        Liu Fang, Liu Yukun, Lin Sen, et al. Fast recognition method for tomatoes under complex environments based on improved YOLO[J]. Transactions of the Chinese Society for Agricultural Machinery, 2020, 51(6): 229-237. (in Chinese with English abstract)

        [5] 王春雷,盧彩云,陳婉芝,等. 基于遺傳算法和閾值濾噪的玉米根茬行圖像分割[J]. 農業(yè)工程學報,2019,35(16):198-205.

        Wang Chunlei, Lu Caiyun, Chen Wanzhi, et al. Image segmentation of maize stubble row based on genetic algorithm and threshold filtering noise[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2019, 35(16): 198-205. (in Chinese with English abstract)

        [6] 孫建桐,孫意凡,趙然,等. 基于幾何形態(tài)學與迭代隨機圓的番茄識別方法[J]. 農業(yè)機械學報,2019,50(增刊1):22-26,61.

        Sun Jiantong, Sun Yifan, Zhao Ran, et al. Tomato recognition method based on iterative random circle and geometric morphology[J]. Transactions of the Chinese Society for Agricultural Machinery, 2019, 50(Supp. 1): 22-26, 61. (in Chinese with English abstract)

        [7] Peng H X, Xue C, Shao Y Y, et al. Semantic segmentation of litchi branches using DeepLab v3+ model[J]. IEEE Access, 2020, 8: 164546-164555.

        [8] Jia W K, Tian Y Y, Luo R, et al. Detection and segmentation of overlapped fruits based on optimized Mask R-CNN application in apple harvesting robot[J]. Computers and Electronics in Agriculture, 2020, 172: 1-7.

        [9] Afonso M, Fonteijn H, Fiorentin F S, et al. Tomato fruit detection and counting in greenhouses using deep learning[J]. Frontiers in Plant Science, 2020, 11: 571299-571310.

        [10] 岳有軍,田博凱,王紅君,等. 基于改進Mask R-CNN的復雜環(huán)境下蘋果檢測研究[J]. 中國農機化學報,2019,40(10):128-134.

        Yue Youjun, Tian Bokai, Wang Hongjun, et al. Research on apple detection in complex environment based on improved Mask R-CNN[J]. Journal of Chinese Agricultural Mechanization, 2019, 40(10): 128-134. (in Chinese with English abstract)

        [11] 張靖祺. 基于機器視覺溫室番茄成熟度檢測研究[D]. 泰安:山東農業(yè)大學,2019.

        Zhang Jingqi. Research on Maturity Detection of Greenhouse Tomato Based on Machine Vision[D]. Tai’an, Shandong Agricultural University, 2019. (in Chinese with English abstract)

        [12] 朱逢樂,鄭增威. 基于圖像和卷積神經網絡的蝴蝶蘭種苗生長勢評估[J]. 農業(yè)工程學報,2020,36(9):185-194.

        Zhu Fengle, Zheng Zengwei. Image-based assessment of growth vigor forseedlings using convolutional neural network[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2020, 36(9): 185-194. (in Chinese with English abstract)

        [13] He K M, Gkioxari G, Dollar P, et al. Mask R-CNN[C]//Proceedings of 2017 Conference on Computer Vision (ICCV), Venice: IEEE, 2017.

        [14] Ren S Q, He K M, Girshick R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149.

        [15] Long J, Shelhamer E, Darrell T. Fully convolutional networks for semantic segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(4): 640-651.

        [16] He K M, Zhang X Y, Ren S Q, et al. Deep residual Learning for image recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Las Vegas: IEEE, 2016.

        [17] Lin T Y, Dollar P, Girshick P, et al. Feature pyramid networks for object detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Honolulu: IEEE, 2017.

        [18] 王春山,周冀,吳華瑞,等. 改進Multi-scale ResNet的蔬菜葉部病害識別[J]. 農業(yè)工程學報,2020,36(20):209-217.

        Wang Chunshan, Zhou Ji, Wu Huarui, et al. Identification of vegetable leaf diseases based on improved Multi-scale ResNet[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2020, 36(20): 209-217. (in Chinese with English abstract)

        [19] 婁甜田,楊華,胡志偉. 基于深度卷積網絡的葡萄簇檢測與分割[J]. 山西農業(yè)大學學報:自然科學版,2020,40(5):109-119.

        Lou Tiantian, Yang Hua, Hu Zhiwei. Grape cluster detection and segmentation based on deep convolutional network[J]. Journal of Shanxi Agricultural University: Natural Science Edition, 2020, 40(5): 109-119. (in Chinese with English abstract)

        [20] Wang C Y, Liao H Y M, Wu Y H, et al. CSPNet: A new backbone that can enhance learning capability of CNN[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops, Seattle: IEEE, 2020.

        [21] Zhao H S, Shi J P, Qi X J, et al. Pyramid scene parsing network[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Honolulu: IEEE, 2017.

        [22] Chen L C, Zhu Y K, Papandreou G, et al. Encoder-decoder with atrous separable convolution for semantic image segmentation[C]//Proceedings of the European Conference on Computer Vision, Mountain View: ECCV, 2018.

        [23] Russell B C, Torralba A, Murphy K P, et al. LabelMe: A database and web-based tool for image annotation[J]. International Journal of Computer Vision, 2008, 77(1/2/3): 157-173.

        [24] Howard A G, Zhu M, Chen B, et al. MobileNets: Efficient convolutional neural networks for mobile vision applications[J/OL]. Computer Vision and Pattern Recognition, 2017, [2017-04-17]. https: //arxiv. org/abs/1704. 04861.

        [25] Chollet F. Xception: Deep learning with depthwise separable convolutions[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition, Honolulu: IEEE, 2017.

        [26] He K M, Zhang X Y, Ren S Q, et al. Spatial pyramid pooling in deep convolutional networks for visual recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2014, 37(9): 1904-1916.

        [27] 廖崴,鄭立華,李民贊,等. 基于隨機森林算法的自然光照條件下綠色蘋果識別[J]. 農業(yè)機械學報,2017,48(增刊1):86-91.

        Liao Wei, Zheng Lihua, Li Minzan, et al. Green apple recognition in natural illumination based on random Forest algorithm[J]. Transactions of the Chinese Society for Agricultural Machinery, 2017, 48(Supp. 1): 86-91. (in Chinese with English abstract)

        Segmentation method of the tomato fruits with different maturities under greenhouse environment based on improved Mask R-CNN

        Long Jiehua1,2, Zhao Chunjiang1,2, Lin Sen2※, Guo Wenzhong2, Wen Chaowu1,2, Zhang Yu2

        (1.,,201306,; 2.,,100097,)

        Fruit recognition and segmentation using deep neural networks have widely been contributed to the operation of picking robots in modern agriculture. However, the most current models present a low accuracy of recognition with a low running speed, due mainly to a large number of network parameters and calculations. In this study, a high-resolution segmentation was proposed for the different ripeness of tomatoes under a greenhouse environment using improved Mask R-CNN. Firstly, a Cross Stage Partial Network (CSPNet) was used to merge with Residual Network (ResNet) in the Mask R-CNN model. Cross-stage splitting and cascading strategies were contributed to reducing the repeated features in the backpropagation process for a higher accuracy rate, while reducing the number of network calculations. Secondly, the cross-entropy loss function with weight factor was utilized to calculate the mask loss for the better segmentation effect of the model, due to the imbalance of the whole sample. An experiment was also performed on the test sets of tomato fruits with three ripeness levels. The results showed that the improved Mask R-CNN model with CSP-ResNet50 as the backbone network presented the mean average precision of 95.45%, the precision of 95.25%, the recall of 87.43%, F1-score of 0.912, and average segmentation time was 0.658 s. Furthermore, the mean average precision increased by 16.44, 14.95, and 2.29 percentage points, respectively, compared with the Pyramid Scene Parsing Network (PSPNet), DeepLab v3+, and Mask R-CNN with ResNet50 as the backbone network. Nevertheless, the average segmentation time increased by 14.83% and 27.52%, respectively, compared with PSPNet and DeepLab v3+. More importantly, the average segmentation time of improved Mask R-CNN with CSP-ResNet50 as the backbone network was reduced by 1.98%, compared with Mask R-CNN with ResNet50 as the backbone network. Additionally, the new model performed well in the segmentation of green and half-ripe tomato fruits under different light intensities, especially under low light, compared with PSPNet and DeepLab v3+. Finally, the improved Mask R-CNN model with CSP-ResNet50 as the backbone network was deployed to the picking robot, in order to verify the recognition and segmentation effect on different ripeness of tomato fruits in large glass greenhouses. In a low overlap rate of tomato fruits, the model identified the number of tomato fruits consistent with manual detection, where the accuracy was more than 90%. When the occlusion or overlap rate of tomato fruits exceeded 70%, particularly when the target was far away, the accuracy of 66.67% was achieved in the improved Mask R-CNN model, indicating a large gap with manual detection. Only a few features with the blur pixels were attributed to the difficulty to extract the shape and color features of tomato fruits. In addition, low light also posed a great challenge on recognition difficulty. Correspondingly, it was more difficult to pick tomatoes for the picking robot, particularly a relatively low success rate of picking, as the overlap was more serious. Fortunately, the picking success rate improved greatly, as the occlusions reduced. Consequently, the integrated multiple technologies (such as image acquisition equipment, the performance of the model, the execution end design of robotic arm, and automatic mechanization) can widely be expected to effectively improve the picking rate of mature tomatoes under the complex environment of a specific greenhouse. The new model also demonstrated strong robustness and applicability for the precise operation of tomato-picking robots in various complex environments.

        image processing; machine vision; models; tomato; maturity segmentation; Mask R-CNN; residual network; cross stage partial network

        龍潔花,趙春江,林森,等. 改進Mask R-CNN的溫室環(huán)境下不同成熟度番茄果實分割方法[J]. 農業(yè)工程學報,2021,37(18):100-108.doi:10.11975/j.issn.1002-6819.2021.18.012 http://www.tcsae.org

        Long Jiehua, Zhao Chunjiang, Lin Sen, et al. Segmentation method of the tomato fruits with different maturities under greenhouse environment based on improved Mask R-CNN[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(18): 100-108. (in Chinese with English abstract) doi:10.11975/j.issn.1002-6819.2021.18.012 http://www.tcsae.org

        2020-11-15

        2021-07-26

        國家自然科學基金項目(31601794);北京市農林科學院青年基金(QNJJ202027);北京市重點研發(fā)計劃項目(D171100007617003);寧夏回族自治區(qū)重點研發(fā)計劃項目(2018BBF02024)

        龍潔花,研究方向為農業(yè)機器人和機器視覺。Email:seven060422@163.com

        林森,高級工程師,研究方向為農業(yè)智能裝備。Email:linseng@nercita.org.cn

        10.11975/j.issn.1002-6819.2021.18.012

        TP391.4

        A

        1002-6819(2021)-18-0100-09

        猜你喜歡
        特征模型
        一半模型
        抓住特征巧觀察
        重要模型『一線三等角』
        新型冠狀病毒及其流行病學特征認識
        重尾非線性自回歸模型自加權M-估計的漸近分布
        如何表達“特征”
        不忠誠的四個特征
        當代陜西(2019年10期)2019-06-03 10:12:04
        抓住特征巧觀察
        3D打印中的模型分割與打包
        FLUKA幾何模型到CAD幾何模型轉換方法初步研究
        丰满岳乱妇久久久| 黄片视频免费观看蜜桃| 大ji巴好深好爽又大又粗视频| 国产成人免费一区二区三区| 一本一道波多野结衣av中文| 性感人妻一区二区三区| 国产亚洲熟妇在线视频| 中文字幕被公侵犯的丰满人妻| 成人自拍一二在线观看| 久久久久av无码免费网| 少妇丰满大乳被男人揉捏视频| 日韩在线精品国产成人| 日本精品人妻在线观看| 中文字幕影片免费人妻少妇| 让少妇高潮无乱码高清在线观看| 99re6热在线精品视频播放6| 视频精品熟女一区二区三区| 国产精品白浆一区二区免费看| 亚洲av无码乱码在线观看裸奔 | 国产成人vr精品a视频| 午夜福利视频男同女同| 蜜桃国产精品视频网站| 无码熟妇人妻av影音先锋| 国精产品一区二区三区| 中文无码免费在线| 国产丝袜长腿美臀在线观看| 少妇被粗大的猛烈进出免费视频| 中文字幕第七页| 99国产精品欲av麻豆在线观看| 黄色av一区二区在线观看| 日本japanese少妇高清| 国产精品黑色丝袜在线播放| 中文字幕午夜精品一区二区三区| 好紧好爽免费午夜视频| 国产精品久久国产精麻豆99网站| 亚洲免费成年女性毛视频| 日韩乱码中文字幕在线| 亚洲aⅴ天堂av天堂无码麻豆| 在线观看av国产自拍| 日本不卡一区二区三区久久精品| 中国丰满人妻videoshd|