呂繼東, 王藝潔, 夏正旺, 馬正華
(常州大學(xué) 微電子與控制工程學(xué)院, 江蘇 常州 213164)
國內(nèi)經(jīng)濟(jì)的蓬勃發(fā)展,給人們提供了越來越多的就業(yè)機(jī)會,但是卻導(dǎo)致從事農(nóng)業(yè)領(lǐng)域的人員不斷減少,人工勞動成本的增加,給果樹種植業(yè)帶來很多不利的影響。因此,開發(fā)具有視覺功能的智能采摘機(jī)器人,有助于降低人工生產(chǎn)成本,提高勞動生產(chǎn)率,保證果實的適時采收,具有極大的應(yīng)用價值和現(xiàn)實意義[1-2]。
視覺系統(tǒng)是果蔬采摘機(jī)器人的重要組成部分[3],是保證果蔬采摘機(jī)器人在采摘任務(wù)過程中能夠快速識別和準(zhǔn)確定位目標(biāo)的關(guān)鍵子系統(tǒng)之一。劉繼展[4]詳細(xì)闡述了目前國內(nèi)外溫室采摘機(jī)器人視覺技術(shù)的發(fā)展現(xiàn)狀及遇到的困境,發(fā)現(xiàn)許多國家已經(jīng)研制出溫室環(huán)境采摘機(jī)器人,但是這些采摘機(jī)器人在非結(jié)構(gòu)化環(huán)境中采摘效果并不理想。項榮等[5]對采摘機(jī)器人中常用的目標(biāo)快速識別與定位方法進(jìn)行了總結(jié)分析,果蔬的識別定位受自然環(huán)境因素的影響很大,如光照變化、枝葉遮擋等,都是急需解決的關(guān)鍵難題。
與傳統(tǒng)的圖像目標(biāo)識別算法相比,人工神經(jīng)網(wǎng)絡(luò)在圖像識別領(lǐng)域中展現(xiàn)出了巨大的優(yōu)勢,并引起了研究人員的廣泛關(guān)注。例如,傅隆生等[6]使用LeNet網(wǎng)絡(luò)模型來進(jìn)行田間多簇獼猴桃的識別,相比于傳統(tǒng)的果實目標(biāo)識別方法,識別率提升了5.37%,表明卷積神經(jīng)網(wǎng)絡(luò)在田間果蔬識別方面具有巨大的優(yōu)勢。薛月菊等[7]采用改進(jìn)的帶密集連接Tiny-yolo-dense的YOLOv2網(wǎng)絡(luò)來實現(xiàn)特征的復(fù)用和融合,提高了檢測的精度。雖然至今還沒有完全理想的深度神經(jīng)檢測網(wǎng)絡(luò),但是在一定程度上表明它在果蔬目標(biāo)檢測領(lǐng)域具有廣泛的應(yīng)用前景[8-9]。
基于改進(jìn)的Mask R-CNN神經(jīng)網(wǎng)絡(luò)模型對不同光照角度下多種顏色蘋果的識別展開研究。Mask R-CNN網(wǎng)絡(luò)能夠同時對輸入圖像進(jìn)行目標(biāo)檢測與分割,比單獨進(jìn)行目標(biāo)檢測的網(wǎng)絡(luò)模型具有更高的識別性能。同時,在采集數(shù)據(jù)時綜合考慮蘋果目標(biāo)的生長階段、光線強(qiáng)度、光照角度等因素,構(gòu)建了一個具有廣泛代表性的數(shù)據(jù)集。
深度神經(jīng)網(wǎng)絡(luò)模型是一類可以從低級特征構(gòu)建出高級特征來學(xué)習(xí)特征層次結(jié)構(gòu)的多層網(wǎng)絡(luò)模型,通過對海量訓(xùn)練數(shù)據(jù)的周期迭代來學(xué)習(xí)更有用的特征,提升深度網(wǎng)絡(luò)模型的分類或預(yù)測的準(zhǔn)確性。因此,深度模型是手段,特征學(xué)習(xí)是目的。
文章的方法建立在Mask R-CNN[10]網(wǎng)絡(luò)架構(gòu)之上,它是Faster R-CNN在實例分割領(lǐng)域的擴(kuò)展,下面分別對這2種架構(gòu)進(jìn)行簡要的介紹。
Faster R-CNN的架構(gòu)主要分為3大部分:共享的卷積層-backbone、候選區(qū)域生成網(wǎng)絡(luò)-RPN(Region Proposal Network)和候選區(qū)域分類網(wǎng)絡(luò)-classifier,如圖1所示。輸入的圖片首先通過卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取,將得到的Feature maps送入RPN網(wǎng)絡(luò),RPN網(wǎng)絡(luò)生成待檢測區(qū)域(Regions of Interest, RoI),RoI Pooling Layer根據(jù)RPN網(wǎng)絡(luò)的輸出在Feature map上面選取每個RoI對應(yīng)的特征,并固定維度值。最后通過全連接層(FC Layer)對目標(biāo)框進(jìn)行分類,最后輸出物體的類別和位置。Faster R-CNN真正實現(xiàn)了端到端(end-to-end)的訓(xùn)練。
圖1 Faster R-CNN網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.1 Faster R-CNN network structure diagram
Mask R-CNN和Faster R-CNN最大的差別是多出1條掩碼分支,它在每個感興趣區(qū)域加上了1個用于預(yù)測分割掩碼的分層,稱為掩碼層(Mask Branch),該分支與目標(biāo)分類和檢測回歸的分支并行執(zhí)行。Mask R-CNN不僅能夠有效地檢測圖像中的目標(biāo),同時為每個實例生成一個高質(zhì)量的分割掩碼(Segmentation Mask),如圖2所示。與Faster R-CNN相比,掩碼層只是給整個系統(tǒng)增加了一小部分的計算量,但卻能同時得到目標(biāo)檢測和實例分割的結(jié)果。應(yīng)用到采摘機(jī)器人中,不僅可以識別出當(dāng)前圖像中的目標(biāo)果實,并且可以得到精確的位置信息,這是采摘機(jī)器人執(zhí)行采摘動作所需的關(guān)鍵信息參數(shù)。
圖2 用于實例分割的Mask R-CNN框架
Faster R-CNN中的RoI Pooling在運行過程中,存在著兩次量化,又稱為取整操作。這樣的操作會降低檢測目標(biāo)位置的準(zhǔn)確性,對單純的目標(biāo)分類影響不大,但是對于像素級圖像分割就會存在很多問題。因此,Mask R-CNN中使用RoI Align代替原先的RoI Pooling,它不再進(jìn)行直接的取整操作,而是保留經(jīng)過網(wǎng)絡(luò)層壓縮之后存在的浮點數(shù),并用雙線性插值算法取代Faster R-CNN中的第2次量化,這樣就可以得到更加精確的位置信息。
深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練離不開數(shù)據(jù)集的支撐,本次實驗采用的原始數(shù)據(jù)通過自行拍攝和網(wǎng)絡(luò)圖片爬蟲兩種方式獲得。數(shù)據(jù)集中包括順光、逆光、側(cè)光和LED照明4種不同光照情況下的紅色蘋果、黃色蘋果、紅綠相間的蘋果以及綠色蘋果等多種種類蘋果數(shù)據(jù),如圖3所示。
(a) 順光
(e) 紅色
數(shù)據(jù)集中包含不同光照條件下各種顏色蘋果圖片100幅,合計1 600張。為減少后續(xù)實驗運行時間,首先將1 600張原始圖片通過雙線性插值算法縮放為512×384像素,然后對圖像進(jìn)行人工標(biāo)注。本次實驗采用python版本的Labelme,為實現(xiàn)圖像分割操作,在標(biāo)注時采用“多邊形”選項進(jìn)行標(biāo)注,需完全擬合蘋果輪廓,屬于1個物體的蘋果目標(biāo)給予1個標(biāo)簽位。對所有種類的蘋果,只設(shè)置apple 1個標(biāo)簽。圖像標(biāo)注后,隨機(jī)選取不同光照和顏色共320張圖像作為測試集,其余1 280張圖像作為訓(xùn)練集用于網(wǎng)絡(luò)的訓(xùn)練。
由于光照條件的不確定因素,導(dǎo)致圖像采集時光照條件十分復(fù)雜,為了提高訓(xùn)練模型的泛化能力,對1 280張訓(xùn)練集圖片進(jìn)行了圖像亮度增強(qiáng)及減弱、色度增強(qiáng)及減弱、對比度增強(qiáng)及減弱、銳度增強(qiáng)及減弱8種處理。其中,圖像的亮度、色度和對比度均增強(qiáng)為原始圖像的1.5倍,銳度增強(qiáng)為原始圖像的3倍,亮度、色度、對比度和銳度分別減弱為原始圖像的50%,50%,50%和10%。此外,為了模擬設(shè)備在圖像采集過程中可能產(chǎn)生的噪聲,對原始圖像添加了方差為0.01的高斯噪聲。圖像擴(kuò)增后,原始標(biāo)注仍然有效。為了更好的檢測模型的擬合能力,同時更貼近真實的非結(jié)構(gòu)化作業(yè)環(huán)境,對320張測試集樣本采用不同的樣本增強(qiáng)策略,隨機(jī)組合顏色抖動、左右翻轉(zhuǎn)、隨機(jī)裁切以及隨機(jī)噪聲4種策略中的2種對每張圖進(jìn)行變換擴(kuò)充樣本,訓(xùn)練集與測試集之間無重疊。
Mask R-CNN的主干網(wǎng)絡(luò) (backbone)即特征提取網(wǎng)絡(luò),主要用于提取整個圖像上的特征,主干網(wǎng)絡(luò)性能的好壞會直接影響網(wǎng)絡(luò)后續(xù)的檢測與分割效果。Mask R-CNN的主干網(wǎng)絡(luò)有多種網(wǎng)絡(luò)結(jié)構(gòu)可以進(jìn)行選擇,深度殘差網(wǎng)絡(luò)(Residual Neural Network, ResNet)能很好的解決神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程的梯度消失問題。本次實驗選取常用的2種殘差網(wǎng)絡(luò)模型ResNet50和ResNet101[11]分別作為Mask R-CNN的主干網(wǎng)絡(luò)。
深度神經(jīng)網(wǎng)絡(luò)模型是一類可以從低級原始特征中自動學(xué)習(xí)抽象出高級語義特征的多層網(wǎng)絡(luò)模型。卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)[12]通過訓(xùn)練濾波器和局部鄰域池化操作交替作用于原始輸入數(shù)據(jù),其間會輸出一系列抽象、復(fù)雜的特征[13]。卷積層的主要作用是進(jìn)行特征提取,卷積層中的每個神經(jīng)元分別連接到上一層的局部感受野提取特征。卷積神經(jīng)網(wǎng)絡(luò)中卷積操作示意圖如圖4所示,中間紅色矩陣為3×3的卷積核,計算方式為卷積核對應(yīng)位置的數(shù)據(jù)與局部感受野對應(yīng)位置的數(shù)據(jù)進(jìn)行相乘求和操作。卷積核會在原始數(shù)據(jù)上執(zhí)行滑動窗口操作,大部分情況下,步長都設(shè)置為1。ResNet采用跳連的方式,去掉了CNN中常用的池化操作,是一種減輕網(wǎng)絡(luò)訓(xùn)練負(fù)擔(dān)的殘差學(xué)習(xí)框架,在一定程度上避免了網(wǎng)絡(luò)訓(xùn)練過程中的梯度彌散、梯度爆炸等問題。然而,本文的主要目標(biāo)是對輸入數(shù)據(jù)中的蘋果進(jìn)行識別,針對成簇的蘋果和比較密集的蘋果,ResNet可能會受限于神經(jīng)元感受野大小,對蘋果目標(biāo)的輪廓特征等并不能進(jìn)行有效的學(xué)習(xí),在網(wǎng)絡(luò)后續(xù)進(jìn)行像素級分割時會出現(xiàn)邊界混亂的情況(即距離特別近的一簇蘋果容易被識別為1個蘋果)。增大神經(jīng)元的感受野在深度學(xué)習(xí)中通常又是通過池化操作或增大卷積核尺寸來實現(xiàn), 但是在ResNet中執(zhí)行池化操作會造成信息的損失,增大卷積核尺寸又會增加訓(xùn)練參數(shù),兩者都不是特別有效的方式。所以文中采用Dilated Convolutions(膨脹卷積或叫空洞卷積)[14]對ResNet50和ResNet101的殘差學(xué)習(xí)模塊進(jìn)行改造,這樣既可以增大神經(jīng)元的感受野,還可以避免空間信息的丟失。膨脹卷積操作是在原始卷積操作的基礎(chǔ)上增加了一個膨脹系數(shù)r,能將卷積核擴(kuò)張到膨脹系數(shù)所約束的尺度中。單個神經(jīng)元在不同膨脹系數(shù)下的感受野如圖5所示。
圖4 卷積神經(jīng)網(wǎng)絡(luò)卷積操作Fig.4 Convolutional neural network convolution operation
(a) r=1
于是,可以得到有效卷積核的高和寬分別如式(1)、式(2)所示:
Ch=fh+(fh-1)×(r-1)
(1)
Cw=fw+(fw-1)×(r-1)
(2)
式中:fh為原卷積核的高;fw為原卷積核的寬。
本文將res2層b模塊中卷積核為3×3大小的卷積層改造為空洞卷積層,如圖6所示,采用的膨脹系數(shù)為{1,2,3}的排列[15],下文詳細(xì)討論分析網(wǎng)絡(luò)改進(jìn)前后的性能。
圖6 帶膨脹卷積的ResNet網(wǎng)絡(luò)模塊Fig.6 ResNet network module with dilated convolution
為了驗證文中所提方法在蘋果識別中的性能優(yōu)勢,需要同時考慮準(zhǔn)確率和召回率,故用F1值對網(wǎng)絡(luò)識別結(jié)果進(jìn)行評價。
(3)
(4)
(5)
式中:λpre為準(zhǔn)確率;λrec為召回率;TP為算法識別正確的蘋果區(qū)域的像素點個數(shù);FP為算法將背景區(qū)域像素點誤識別為蘋果的像素點個數(shù);FN為算法將蘋果區(qū)域的像素點誤分為背景的像素點個數(shù)。
Mask R-CNN的損失函數(shù)主要包括3部分,見式(6)。
L=Lcls+Lbox+LM
(6)
式中:Lcls和Lbox與Faster R-CNN中的相同,分別是利用全連接預(yù)測出的每個RoI所屬類別和最小外接矩形框的損失函數(shù);LM為Mask損失函數(shù)。
本文使用隨機(jī)梯度下降法對網(wǎng)絡(luò)以端到端的方式進(jìn)行訓(xùn)練,為了提高訓(xùn)練效率,使用在線難例挖掘(online hard example mining, OHEM)策略,網(wǎng)絡(luò)的初始學(xué)習(xí)率設(shè)置為0.001,權(quán)重衰減設(shè)置為0.000 1,動量因子設(shè)置為0.9。實驗在采用自己制作的數(shù)據(jù)集進(jìn)行訓(xùn)練前,分別將原始Mask R-CNN與改進(jìn)的Mask R-CNN網(wǎng)絡(luò)模型在COCO2017數(shù)據(jù)集上進(jìn)行了預(yù)訓(xùn)練。
實驗采用相同的訓(xùn)練集測試集對比分析對改進(jìn)前后的Mask R-CNN性能差異,并繪制2個網(wǎng)絡(luò)模型的loss曲線,如圖7所示。由圖7可以看出,改進(jìn)Mask R-CNN的收斂速度要比原始Mask R-CNN網(wǎng)絡(luò)快。當(dāng)?shù)芷谶_(dá)到5次時,改進(jìn)Mask R-CNN網(wǎng)絡(luò)基本趨于收斂,原始Mask R-CNN網(wǎng)絡(luò)模型則要迭代到27次左右,模型才趨于收斂。改進(jìn)Mask R-CNN的損失值最終趨近于0,要低于原始Mask R-CNN網(wǎng)絡(luò)。
圖7 改進(jìn)前后loss函數(shù)曲線圖Fig.7 Loss function curve before and afterimprovement
4種網(wǎng)絡(luò)模型訓(xùn)練過程的準(zhǔn)確率-召回率曲線如圖8所示。引入AUC(Area Under Curve)曲線下面積用于量化對比不同網(wǎng)絡(luò)模型的泛化性能。AUC值可以直觀的反映學(xué)習(xí)器性能的優(yōu)劣,由圖8可以看出,改進(jìn)前后的Mask R-CNN的AUC值均可達(dá)到了0.90以上,但改進(jìn)后的Mask R-CNN網(wǎng)絡(luò)算法的AUC值提高了0.05左右。
圖8 準(zhǔn)確率-召回率曲線Fig.8 Precision-recall curve
為了更好地對比不同網(wǎng)絡(luò)模型特征提取的差異,將特征提取的部分結(jié)果進(jìn)行可視化操作。由于高層特征圖的維度較低,顯示的特征較少,圖9給出了根據(jù)最終權(quán)重模型得到的輸入RoIAlign模塊的特征二值化可視化結(jié)果。每一行第1列為原圖,中間為可視化結(jié)果,右邊為識別結(jié)果。對比分析可以發(fā)現(xiàn),4種網(wǎng)絡(luò)模型都對蘋果的邊緣特征比較敏感,而改進(jìn)Mask R-CNN網(wǎng)絡(luò)模型提取的邊緣特征較原始Mask R-CNN亮度要亮。
(a) Mask R-CNN(ResNet50)
(c) Mask R-CNN(ResNet50+Dilation2)
為了驗證本文改進(jìn)Mask R-CNN算法模型對不同屬性蘋果目標(biāo)的識別性能,進(jìn)一步統(tǒng)計分析了5種不同網(wǎng)絡(luò)模型在測試集不同類型圖片上的識別結(jié)果。YOLO v3網(wǎng)絡(luò)因在目標(biāo)檢測領(lǐng)域具有較快的運行速度和較高的準(zhǔn)確率,許多科研工作者將其應(yīng)用于水果自動采摘領(lǐng)域。本文將原始Mask R-CNN算法和改進(jìn)Mask R-CNN算法與YOLO v3目標(biāo)檢測網(wǎng)絡(luò)進(jìn)行對比。
針對不同光照條件和不同顏色的蘋果,5種不同網(wǎng)絡(luò)模型的具體識別性能結(jié)果見表1和表2。
表1 不同網(wǎng)絡(luò)模型在不同光照角度下的識別性能
表2 不同網(wǎng)絡(luò)模型對不同顏色蘋果的識別性能
由表1和表2可知,基于Mask R-CNN框架的多種網(wǎng)絡(luò)模型在多種場景下的識別效果均優(yōu)于YOLO v3網(wǎng)絡(luò),這主要是因為Mask R-CNN網(wǎng)絡(luò)能夠同時對輸入的圖像進(jìn)行目標(biāo)檢測與分割操作,比單獨進(jìn)行目標(biāo)檢測的網(wǎng)絡(luò)模型具有更好的檢測效果。同時,容易發(fā)現(xiàn)5種網(wǎng)絡(luò)模型對順光和紅色蘋果的識別效果最好,對逆光和黃色的識別效果最差,這可能是因為紅色蘋果與綠葉等背景色差比較大,順光的情況下蘋果輪廓比較清晰;黃色蘋果因為顏色比較淡,在逆光的情況下色差不明顯等原因造成的。在識別速度方面,YOLO v3達(dá)到了每幀20.18 ms;對基于Mask R-CNN框架的網(wǎng)絡(luò)模型,主干網(wǎng)絡(luò)是ResNet101的網(wǎng)絡(luò)模型比對應(yīng)的ResNet50網(wǎng)絡(luò)模型檢測速度平均慢10 ms左右,膨脹改造后的網(wǎng)絡(luò)模型比對應(yīng)的Mask R-CNN網(wǎng)絡(luò)模型速度平均慢2 ms左右。在識別性能方面,膨脹卷積改造后的網(wǎng)絡(luò)模型要比原始的Mask R-CNN網(wǎng)絡(luò)模型F1高2%左右,說明膨脹卷積結(jié)構(gòu)有助于提升模型的識別性能。
不同類型蘋果在不同網(wǎng)絡(luò)模型結(jié)構(gòu)下的識別效果如圖10所示。圖10中,每一行最左邊的圖為待識別的原圖,第2張到第6張分別代表網(wǎng)絡(luò)模型YOLO v3, Mask R-CNN (ResNet50), Mask R-CNN (ResNet101), Mask R-CNN (Dilation+ResNet50)和Mask R-CNN (Dilation+ResNet101)的識別效果圖。從圖10可以看出,紅色蘋果與背景色差大,輪廓清晰,易識別;黃色、綠色蘋果顏色與背景色差小,識別難度有所增加;紅綠相間的蘋果識別難度介于兩者之間。此外,蘋果在順光、側(cè)光和LED燈等光照條件下紋理清楚,表面光照強(qiáng)度均勻,識別難度小;在逆光情況下,蘋果邊緣輪廓模糊,識別難度大。觀察逆光黃色蘋果的識別結(jié)果可以發(fā)現(xiàn),從識別數(shù)量上可以看到,Mask R-CNN (ResNet50)和Mask R-CNN (ResNet101)網(wǎng)絡(luò)模型均未識別出右上角的蘋果,改進(jìn)后的Mask R-CNN模型較好的識別出圖片中右上角的蘋果,這說明膨脹卷積有助于提取更加抽象有效的特征。
(a) 順光紅色蘋果
(b) 逆光黃色蘋果
(c) 側(cè)光紅綠相間蘋果
(d) LED照明綠色蘋果
小目標(biāo)檢測一直是深度學(xué)習(xí)領(lǐng)域亟待解決的一大難題。因為小目標(biāo)常常成簇聚集在一起,目前主流的目標(biāo)檢測模型難以進(jìn)行有效地分辨,常會出現(xiàn)漏識的情形。在蘋果采摘環(huán)節(jié),也存在著大小成簇目標(biāo)聚集的情況,攝像頭距離蘋果的遠(yuǎn)近不同,采集到的圖像中蘋果目標(biāo)大小也不相同,識別難度也全不相同。針對大小目標(biāo)的情形,由于本文神經(jīng)網(wǎng)絡(luò)模型輸入圖片的大小固定為512×384像素,根據(jù)圖片中待識別目標(biāo)距離的遠(yuǎn)近劃分大小目標(biāo)。分析發(fā)現(xiàn),距離較近的蘋果目標(biāo),表現(xiàn)出目標(biāo)數(shù)量少,尺寸大的特征,因此,根據(jù)圖片中蘋果數(shù)量的多少劃分大中小蘋果目標(biāo)。實驗中將測試集圖片共劃分成3個等級,大目標(biāo)(圖片中包含1~2個蘋果)、中等目標(biāo)(圖片中包含3~5個蘋果)、小目標(biāo)(圖片中蘋果數(shù)量超過5個),待識別蘋果數(shù)量越多,識別難度越大。5個不同的網(wǎng)絡(luò)模型具體識別性能對比如圖11所示。圖11中不同網(wǎng)絡(luò)編號對應(yīng)的不同網(wǎng)絡(luò)模型具體為:編號1對應(yīng)的網(wǎng)絡(luò)模型是YOLO v3;編號2對應(yīng)的網(wǎng)絡(luò)模型是主干網(wǎng)絡(luò)為ResNet50的Mask R-CNN網(wǎng)絡(luò);編號3對應(yīng)的是主干網(wǎng)絡(luò)為ResNet101的Mask R-CNN網(wǎng)絡(luò);編號4對應(yīng)的是主干網(wǎng)絡(luò)為ResNet50的膨脹卷積Mask R-CNN 網(wǎng)絡(luò)模型;編號5對應(yīng)的是主干網(wǎng)絡(luò)為ResNet101的膨脹卷積Mask R-CNN 網(wǎng)絡(luò)模型。
圖11 不同大小目標(biāo)識別性能結(jié)果Fig.11 Recognition results of large and small object
由圖12容易看出,5種不同網(wǎng)絡(luò)模型針對大目標(biāo)的識別效果都特別好,識別性能F1值都在0.95以上。在對小目標(biāo)進(jìn)行識別時,YOLO v3的識別性能只有0.84左右。針對小目標(biāo),識別性能最好的是5號網(wǎng)絡(luò),F(xiàn)1值接近0.95。4號網(wǎng)絡(luò)和5號網(wǎng)絡(luò)模型識別性能比較接近。5種網(wǎng)絡(luò)模型針對不同大小蘋果的識別效果如圖12所示。圖12中,每一行最左邊的圖為待識別的原圖,第2張到第6張分別代表編號為1~5網(wǎng)絡(luò)模型的識別效果圖。在識別結(jié)果中也可以看出,大目標(biāo)和中等目標(biāo)均未出現(xiàn)漏識的情況;觀察小目標(biāo)識別效果圖可以發(fā)現(xiàn),雖然紅色蘋果與背景色差大,由于蘋果遮擋嚴(yán)重,待識別目標(biāo)輪廓模糊等原因,使得許多蘋果出現(xiàn)了漏識;對比可以發(fā)現(xiàn),改進(jìn)的Mask R-CNN取得了最好的識別效果。
(a) 大目標(biāo)
(b) 中等目標(biāo)
(c) 小目標(biāo)
以自然場景下果園蘋果果實的識別為研究對象,研究結(jié)果發(fā)現(xiàn),與原始Mask R-CNN網(wǎng)絡(luò)相比,針對不同光照角度、不同顏色以及不同大小的蘋果,基于膨脹卷積改進(jìn)的Mask R-CNN網(wǎng)絡(luò)在多種情形下的識別性能均有提升。主干網(wǎng)絡(luò)為ResNet50或者ResNet101時,經(jīng)過膨脹卷積改進(jìn)過的Mask R-CNN網(wǎng)絡(luò)不僅收斂速度快,而且網(wǎng)絡(luò)的損失值也有所降低。這證明了本文的網(wǎng)絡(luò)模型優(yōu)化策略是可行的。采用包含膨脹卷積結(jié)構(gòu)的ResNet代替原始的特征提取網(wǎng)絡(luò)ResNet網(wǎng)絡(luò),不同光照角度、不同顏色蘋果的F1值提升2%左右,加快了模型的收斂速度。針對不同大小蘋果的識別,與經(jīng)典Mask R-CNN相比,改進(jìn)Mask R-CNN的識別效果與原始Mask R-CNN相比,改進(jìn)Mask R-CNN的F1值提升了4.93%。