王梁,侯義鋒,賀杰
(梧州學(xué)院廣西機(jī)器視覺與智能控制重點(diǎn)實(shí)驗(yàn)室,廣西梧州,543003)
由于油茶的營養(yǎng)價(jià)值豐富且具有保健防病的功能,因此被廣大消費(fèi)者喜愛,需求量也持續(xù)增加。據(jù)統(tǒng)計(jì),在油茶的生產(chǎn)作業(yè)中,收獲采摘約占整個(gè)作業(yè)量的40%~50%[1],機(jī)器人收獲技術(shù)在油茶采摘中得到了大規(guī)模的應(yīng)用,如何實(shí)現(xiàn)果實(shí)目標(biāo)精準(zhǔn)識別是機(jī)器人收獲技術(shù)中需要重點(diǎn)解決的問題。
自然場景中影響果實(shí)目標(biāo)識別精度的干擾因素主要分為環(huán)境因素和果實(shí)生長狀態(tài)因素。環(huán)境因素對目標(biāo)檢測的主要影響包括自然光的強(qiáng)度,莖葉的遮擋;果實(shí)生長狀態(tài)因素對目標(biāo)檢測的主要影響包括多果粘附的重疊、果實(shí)色澤度不均。
目前,水果目標(biāo)檢測的主要方法是基于結(jié)合機(jī)器視覺的機(jī)器學(xué)習(xí)算法。Zhao等[2-3]采用一種基于AdaBoost分類和顏色分析的算法進(jìn)行對溫室中的成熟番茄果實(shí)的目標(biāo)識別檢測,實(shí)現(xiàn)對成熟番茄果實(shí)的快速準(zhǔn)確識別;He等[4]提出了一種基于改進(jìn)的LDA分類器的綠色荔枝識別方法,有效的識別背景中的荔枝果實(shí);李揚(yáng)[5]提出一種K-means聚類算法與HSV顏色空間下閾值分割的柑橘圖像分割算法,實(shí)現(xiàn)了柑橘目標(biāo)的有效識別檢測。
上述傳統(tǒng)方法相比,深度神經(jīng)網(wǎng)絡(luò)(DNN)方法具有強(qiáng)大的特征提取能力和自主學(xué)習(xí)能力,已被廣泛用于作物目標(biāo)檢測。閆建偉等[6]結(jié)合刺梨果實(shí)的特點(diǎn),提出了一種基于改進(jìn)的Faster RCNN刺梨果實(shí)識別方法,實(shí)現(xiàn)自然環(huán)境下刺梨果實(shí)的快速準(zhǔn)確識別;Sun等[7]針對復(fù)雜背景、未成熟青番茄與植物顏色的高度相似性導(dǎo)致番茄識別有效率低的問題,提出了一種改進(jìn)的基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的番茄器官檢測方法,采用ResNet-50和K均值聚類方法改進(jìn)了Faster R-CNN 模型,實(shí)驗(yàn)結(jié)果平均精度(mAP)明顯的提高。
本文提出一種基于Mask-RCNN的自然場景下油茶果的果實(shí)目標(biāo)精確識別方法,先利用Mask R-CNN網(wǎng)絡(luò)進(jìn)行圖像分割,從像素級別的背景中提取對象區(qū)域,再求取果實(shí)對象mask的像素面積,求取界定閾值,依據(jù)閾值進(jìn)行果實(shí)目標(biāo)的識別,最后再根據(jù)mask圖像的形狀和邊緣特征進(jìn)行果實(shí)的輪廓擬合還原。
2019年10月7—14日在中國廣西壯族自治區(qū)桂林市資源縣文垌村油茶果農(nóng)場,分別在3號、5號、7號試驗(yàn)田進(jìn)行油茶果圖像的采集拍攝。利用Canon EOS 760D型號數(shù)碼照相機(jī),由人工采集白花油茶品種(出油率較紅花高)的成熟期油茶果的圖像信息(圖1)。采集照片時(shí)相機(jī)的拍攝距離范圍為0.5~1.5 m之間;光圈設(shè)置為F 5.6;焦距范圍為f=18~135 mm;曝光時(shí)間為1/250 s[8]。照片的保存尺寸格式為像素值。根據(jù)前述擬解決的關(guān)鍵問題,按照樹葉遮擋、果實(shí)重疊、不同背景、果實(shí)色度、光照等影響因素分為5個(gè)單因素樣本組采集圖像,每個(gè)圖像包含一個(gè)影響因素的特征,每組采集500張照片[9]。另外,再取一個(gè)多因素樣本組,每個(gè)圖像包含若干單因素的特征,數(shù)量為500張。
(a) 不同遮擋率下的果實(shí)圖像示例
(c) 不同果實(shí)色澤度的果實(shí)圖像示例
(d) 不同光照影響下的果實(shí)圖像示例
在單因素照片的采集過程中,樹葉遮擋的情況按照遮擋率采集10%以下、10%~30%、30%~50%共3類照片[10],果實(shí)重疊的情況按照重疊率采集10%以下、10%~30%、30%~50%以上共3類照片[11],并綜合考慮照片中有2個(gè)、3個(gè)以及3個(gè)以上果實(shí)的情況;背景的情況根據(jù)田間環(huán)境分為簡單、正常和復(fù)雜三類背景[12];顏色根據(jù)鮮艷程度分為淡紅(LR)、淺紅(HR)、深紅(DR)三類[13];光照程度的情況分別選取上午9~10時(shí),中午12~13時(shí),下午15~16時(shí)3個(gè)時(shí)段采集昏暗、正常、明亮三類照片[14]。多因素照片采集中,按照包含有2/3/4/5種單因素情況分類四類采集。
數(shù)據(jù)庫共選用有效圖像樣本3 000張,其中,1 800張用于建立訓(xùn)練模型集,1 200張用于驗(yàn)證模型集[15]。訓(xùn)練集又包含預(yù)訓(xùn)練集和優(yōu)化訓(xùn)練集。用于模型參數(shù)預(yù)訓(xùn)練的共有600張圖像樣本,每個(gè)單因素和多因素各選擇100張;用于模型參數(shù)優(yōu)化訓(xùn)練的共有1 200張圖像樣本,每個(gè)單因素和多因素各選擇200張。驗(yàn)證集的1 200個(gè)樣本包括了每個(gè)單因素和多因素各200張,并且與訓(xùn)練集的樣本相互獨(dú)立。
對于訓(xùn)練集圖像的標(biāo)記方法,首先,按比例將圖片大小統(tǒng)一調(diào)整為600像素×400像素,然后,利用labelme圖像標(biāo)注工具采用“多邊形標(biāo)注”方案標(biāo)注出油茶果目標(biāo)的所在區(qū)域,即為后續(xù)神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練集中待提取特征的預(yù)選區(qū)域。最后,根據(jù)分組類型,對每個(gè)組別的圖片進(jìn)行分類標(biāo)記,得到每張果實(shí)圖片的json文件,并利用python語言進(jìn)行文件轉(zhuǎn)化,將每個(gè)json文件分解成所標(biāo)記的原圖、灰度圖像、類別名、掩膜區(qū)域、被標(biāo)記區(qū)域的像素點(diǎn)位置等五個(gè)文件為提供給后續(xù)模型訓(xùn)練進(jìn)行調(diào)用,如圖2所示。
(a) 圖像樣本示例
(b) 掩膜樣本示例
Mask R-CNN通過在Faster R-CNN基礎(chǔ)上增加一個(gè)額外的掩膜分支來擴(kuò)展其目標(biāo)檢測框架,增加全連接層(RoIAlign)并重新定義ROI損失函數(shù),從而改進(jìn)得到的一種用于實(shí)例分割的深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)。如圖3所示,Mask R-CNN框架由3個(gè)階段組成:(1)主干網(wǎng)絡(luò)(ResNet),對輸入圖像進(jìn)行特征提取,生成特征圖(Feature Maps);(2)區(qū)域建議網(wǎng)絡(luò)(RPN),對主干網(wǎng)絡(luò)輸出的特征圖進(jìn)行處理進(jìn)一步生成感興趣區(qū)域(RoIs);(3)三分支結(jié)構(gòu),生成檢測目標(biāo)的類別、回歸框坐標(biāo)以及掩膜。本文選擇Mask R-CNN作為成熟油茶果目標(biāo)檢測網(wǎng)絡(luò)結(jié)構(gòu),解決傳統(tǒng)的圖像閾值分割方法難以有效處理自然環(huán)境下各種干擾因素對果實(shí)識別結(jié)果影響的技術(shù)問題[16-17]。
圖3 Mask R-CNN目標(biāo)檢測網(wǎng)絡(luò)結(jié)構(gòu)圖
主要模型算法分為以下5個(gè)部分。
1) 將所采集的果實(shí)圖像進(jìn)行卷積(CONV Layers)處理,使用ResNet卷積神經(jīng)網(wǎng)絡(luò)提取油茶果果實(shí)圖片的特征,采用殘差傳播,生成特征圖(Feature Maps)。
2) 采用RPN對所得到的特征圖進(jìn)行操作,產(chǎn)生ROIs,對每個(gè)候選區(qū)域進(jìn)行目標(biāo)框回歸操作生成目標(biāo)回歸框并得到類別可能性大小。RPN對不同尺度的特征圖進(jìn)行卷積,在每個(gè)位置生成3個(gè)錨點(diǎn)(anchor),其中針對class生成3×4個(gè)卷積核(果實(shí)顏色3類和背景)。在卷積層后連接兩個(gè)全鏈接層,完成每個(gè)像素的前景(目標(biāo))和后景(背景)的判別,以及果實(shí)目標(biāo)框的回歸修正。
3) 對每一個(gè)RPN得到的ROIs和特征圖,進(jìn)行RoIAlign操作,提取每個(gè)RoI對應(yīng)的特征并將特征的維度轉(zhuǎn)化成特定的值,將所有的特征全部輸入到全連接層進(jìn)行權(quán)值共享,得到所有RoI規(guī)整之后的特征圖。
4) 將規(guī)整后的特征圖分別導(dǎo)入Cls & Reg和Mask掩膜兩條通路。其中,Cls & Reg通路包含兩個(gè)支路,分別用于生成回歸框和預(yù)測類別;Mask掩膜通路,以像素到像素的方式來對分割掩膜進(jìn)行預(yù)測,該分支為卷積網(wǎng)絡(luò),用于生成Mask標(biāo)記。
5) 輸出三個(gè)輸出結(jié)果:目標(biāo)的類別、目標(biāo)的回歸框坐標(biāo)以及目標(biāo)的掩膜。
模型訓(xùn)練主要分為預(yù)訓(xùn)練、遷移學(xué)習(xí)訓(xùn)練和驗(yàn)證訓(xùn)練三個(gè)階段,如圖4所示。
首先,采用ResNet神經(jīng)網(wǎng)絡(luò)對預(yù)訓(xùn)練集樣本進(jìn)行預(yù)訓(xùn)練,獲得成熟果實(shí)特征提取器;然后,添加Mask分支和classifier分支,對優(yōu)化訓(xùn)練集樣本進(jìn)行網(wǎng)絡(luò)模型參數(shù)訓(xùn)練,經(jīng)多次迭代訓(xùn)練和遷移學(xué)習(xí)調(diào)整,得到優(yōu)化模型;最后,利用驗(yàn)證集樣本對模型進(jìn)行驗(yàn)證,并進(jìn)一步調(diào)整模型。模型訓(xùn)練過程需要控制loss函數(shù)的收斂過程和訓(xùn)練集的識別效果兩個(gè)關(guān)鍵環(huán)節(jié),以及迭代的步長與次數(shù)、學(xué)習(xí)率和置信度等關(guān)鍵參數(shù)。
圖4 Mask R-CNN目標(biāo)檢測網(wǎng)絡(luò)模型訓(xùn)練示意圖
具體訓(xùn)練步驟分為以下5個(gè)部分。
1) 加載預(yù)訓(xùn)練好的MS COCO模型參數(shù)。
2) 修改配置參數(shù)及分類參數(shù)。為了獲取更快速和準(zhǔn)確的訓(xùn)練結(jié)果,相關(guān)參數(shù)范圍按照下列原則設(shè)置:類別數(shù)設(shè)定為4,包括果實(shí)目標(biāo)類別3類和背景。圖片像素設(shè)定為640×960;每張圖片的ROI個(gè)數(shù)設(shè)定為100。學(xué)習(xí)率設(shè)定為10-4~10-2,每次訓(xùn)練的迭代步數(shù)epoch設(shè)定為50~200步,每次驗(yàn)證的迭代步數(shù)epoch設(shè)定為10~100步,迭代次數(shù)設(shè)定范圍為50~200步。置信度檢測設(shè)定為0.7~0.9;anchor大小設(shè)定為8×6,16×6,32×6,64×6,128×6等五類。
3) 基礎(chǔ)網(wǎng)絡(luò)層訓(xùn)練。在預(yù)訓(xùn)練階段,所取特征的卷積神經(jīng)網(wǎng)絡(luò)可以設(shè)置不同的數(shù)量級網(wǎng)絡(luò)層進(jìn)行果實(shí)特征提取,本研究首先導(dǎo)入預(yù)訓(xùn)練集樣本對ResNet 50、ResNet101和VGGNet三種不同的基礎(chǔ)網(wǎng)絡(luò)層進(jìn)行訓(xùn)練,通過對loss函數(shù)的收斂過程的判斷和比較分析,優(yōu)選出一種適用的基礎(chǔ)網(wǎng)絡(luò)層進(jìn)行后續(xù)特征提取。
4) 網(wǎng)絡(luò)模型優(yōu)化訓(xùn)練。調(diào)整并記錄網(wǎng)絡(luò)模型每次優(yōu)化所選取的迭代步長與次數(shù)、學(xué)習(xí)率、positiveIoU(置信度)等參數(shù),同時(shí)觀測并記錄模型的收斂下降速度和收斂程度。使用優(yōu)化訓(xùn)練集樣本進(jìn)行油茶果果實(shí)目標(biāo)檢測模型的參數(shù)調(diào)整和模型優(yōu)化,獲取識別后被標(biāo)記的果實(shí)目標(biāo)檢測圖像。評估優(yōu)化訓(xùn)練集果實(shí)目標(biāo)檢測的準(zhǔn)確率、漏檢率、誤檢率參數(shù)。
5) 網(wǎng)絡(luò)模型參數(shù)調(diào)整。重復(fù)步驟(4)至模型達(dá)到理想的結(jié)果。模型的參數(shù)確定為訓(xùn)練的迭代步數(shù)epoch設(shè)定范圍為100步,驗(yàn)證的迭代步數(shù)epoch設(shè)定范圍為50步,迭代次數(shù)設(shè)定范圍為100步;positiveIoU(置信度)設(shè)定為0.7;學(xué)習(xí)率設(shè)定為10-3。
基于Mask R-CNN的成熟油茶果目標(biāo)檢測算法的訓(xùn)練損失函數(shù)Lfinal描述為
Lfinal=L({pi},{ti})+(Lcls+Lreg+Lmask)
(1)
該算法的核心是通過多任務(wù)的損失函數(shù)來計(jì)算ROIs(感興趣區(qū)域)的輸出結(jié)果。在RPN層中定義損失函數(shù)
(2)
式中:λ——考慮分類與回歸兩個(gè)結(jié)果的權(quán)重值。
λ越大表示越重視回歸損失,λ越小表示越重視分類損失。
在ROI區(qū)域上添加Mask掩膜層,其中classifier分類網(wǎng)絡(luò)部分的損失函數(shù)
L=Lcls+Lreg+Lmask
(3)
Lcls為分類損失函數(shù),表征目標(biāo)的類別分類損失程度
(4)
式中:pi——候選區(qū)域含有目標(biāo)的概率計(jì)算值;
當(dāng)期望值與真實(shí)值越接近時(shí),此時(shí)損失函數(shù)最小。
Lreg為邊框回歸損失函數(shù),表征目標(biāo)的檢測框坐標(biāo)的損失程度,具體公式為
(5)
式中:ti——目標(biāo)檢測框的四個(gè)參數(shù)化構(gòu)成的坐標(biāo)向量計(jì)算值;
R——魯棒損失函數(shù)。
邊框回歸損失函數(shù)中四個(gè)坐標(biāo)參數(shù)化表示公式如式(6)所示。
(6)
其中,x,y,ω,h分別表示目標(biāo)檢測框的中心點(diǎn)坐標(biāo)和高寬,x,xa,x*分別表示目標(biāo)檢測框計(jì)算值、anchor框、目標(biāo)檢測框期望值的x坐標(biāo)(y,ω,h同理)。
R魯棒損失函數(shù)
(7)
Lmask掩膜損失函數(shù)
Lmask=[Km2]i
(8)
式中:m2——掩膜分支對每個(gè)ROIs(感興趣區(qū)域)產(chǎn)生的m×m大小的掩膜;
i——當(dāng)前ROIs(感興趣區(qū)域)的類別;
K——當(dāng)前圖片下果實(shí)的類別數(shù)目。
如圖5所示,表征了基于Mask R-CNN的目標(biāo)檢測算法的模型訓(xùn)練結(jié)果??梢钥闯觯麄€(gè)模型各階段loss函數(shù)均達(dá)到收斂,且損失值達(dá)到預(yù)定閾值0.3以下后無振蕩出現(xiàn),表明整體網(wǎng)絡(luò)模型訓(xùn)練已經(jīng)達(dá)到參數(shù)最優(yōu)。
圖5 神網(wǎng)絡(luò)模型各階段損失函數(shù)的 loss值收斂過程
該試驗(yàn)是在TensorFlow和Keras的深度學(xué)習(xí)開發(fā)框架下進(jìn)行的,采用Intel酷睿i7-7820X型號CPU,顯卡RX2080TI,主頻2.9 GHz,16 GB內(nèi)存,GPU為RTX2080Ti型號的硬件平臺。在實(shí)驗(yàn)過程中,共選擇了3 000張油茶果圖像進(jìn)行訓(xùn)練,其中80%為訓(xùn)練集,20%為驗(yàn)證集。為了驗(yàn)證訓(xùn)練模型的穩(wěn)定性和可靠性,選擇了1 800張油茶測試圖像進(jìn)行模型評估,檢測識別出油茶果圖像中果實(shí)目標(biāo),并且用目標(biāo)類別分?jǐn)?shù)、邊界框和實(shí)例分割模板進(jìn)行標(biāo)記。
重疊系數(shù)OC用于評估目標(biāo)檢測結(jié)果的準(zhǔn)確性。重疊系數(shù)表示在目標(biāo)邊界框中被正確檢測為目標(biāo)或背景的像素占實(shí)際目標(biāo)或背景像素的比率。
OC值越高,檢測性能越好。本文設(shè)定當(dāng)重疊系數(shù)為0.9以上,則認(rèn)為目標(biāo)檢測結(jié)果正確。如圖6所示,表示重疊系數(shù)為0.9以上正確檢測的目標(biāo)。其中,表1列出了目標(biāo)檢測模型對1 800個(gè)圖像樣本的識別結(jié)果混淆矩陣。
圖6 重疊系數(shù)為0.9以上正確檢測的目標(biāo)
表1 目標(biāo)檢測模型的識別結(jié)果混淆矩陣Tab. 1 Recognition result confusion matrix of target detection model
表1中,在第一行和第一列分別表示預(yù)測類別與實(shí)際類別,不同行列組成的數(shù)值表示預(yù)測類別與實(shí)際類別對應(yīng)關(guān)系的數(shù)量,如果預(yù)測類別與實(shí)際類別相同,則表示正確檢測;否則,表示錯(cuò)誤檢出。
基于Mask R-CNN的目標(biāo)檢測模型的檢測性能實(shí)例效果如圖7所示。其中,圖7(a)表示在不同類別LR、DR的果實(shí)正確檢測;圖7(b)表示在花葉遮擋影響下的果實(shí)正確檢測;圖7(c)表示在果實(shí)重疊影響下的果實(shí)正確檢測。
(a) 在不同類別LR、DR的果實(shí)正確檢測
(b) 花葉遮擋影響下的果實(shí)正確檢測
(c) 果實(shí)重疊影響下的果實(shí)正確檢測
在此試驗(yàn)過程中,采用精確率P和召回率R作為評估模型的目標(biāo)檢測性能的指標(biāo)。精確率表示在圖片中被正確分類檢測目標(biāo)占實(shí)際目標(biāo)的比率。召回率表示圖片中被識別出目標(biāo)占實(shí)際目標(biāo)的比率[18-19]。
表2列出了對于1 800張驗(yàn)證集圖像目標(biāo)檢測模型的詳細(xì)結(jié)果,可以看到,總體準(zhǔn)確性和召回率分別為89.42%和92.86%,表明油茶果識別精度較高。
表2 目標(biāo)檢測模型檢測結(jié)果的準(zhǔn)確性和召回率Tab. 2 Accuracy and recall of object detection model detection results
在圖像分割領(lǐng)域,MIoU是經(jīng)常用于評估圖像分割性能的重要指標(biāo)。對1 800張驗(yàn)證集圖像的分割結(jié)果表明,油茶果的MIoU可以達(dá)到89.85%,可以滿足油茶果實(shí)例分割的需要。油茶果圖像的分割實(shí)例如圖8所示。其中,圖8(a)表示在多果實(shí)重疊影響下的圖像分割;圖8(b) 表示在不同花葉遮擋比例影響下的圖像分割。
在對油茶果圖像進(jìn)行有效分割后,可以從Mask R-CNN生成的mask圖像的形狀和邊緣特征來實(shí)現(xiàn)果實(shí)的輪廓擬合還原。油茶果果實(shí)識別與輪廓擬合效果實(shí)例如圖9所示。
(a) 多果實(shí)重疊影響下的圖像分割
(b) 不同花葉遮擋比例影響下的圖像分割
圖9 油茶果圖像的果實(shí)識別與輪廓擬合
目標(biāo)識別精度采用三個(gè)元素指標(biāo),分別是TP:果實(shí)被正確檢測到的數(shù)目;FN:果實(shí)未被檢測到的數(shù)目;FP:被誤檢為果實(shí)的數(shù)目。
評估模型的目標(biāo)檢測性能的指標(biāo)分為以下3類。
(9)
(10)
(11)
式中:TPR——識別有效率;
FPR——誤檢率;
P——精確率。
進(jìn)一步,對驗(yàn)證組樣本集圖片的實(shí)驗(yàn)結(jié)果進(jìn)行分組統(tǒng)計(jì),分組原則與訓(xùn)練集相同,即分為花葉遮擋、果實(shí)重疊遮擋、果實(shí)成熟度色澤和光照影響4類單因素圖片集和無控制組??傮w圖片樣本分組統(tǒng)計(jì)的檢測結(jié)果如表3所示。
由表3可以看到,對各組單因素、多因素情況下的識別效果,TPR均在86%左右,P值均在90%左右;對于所有單因素組的果實(shí)目標(biāo)識別有效率(TPR)均高于92%,對于花葉遮擋、果實(shí)重疊、色澤度這三類單一因素干擾,F(xiàn)PR均能有效控制在10%左右,達(dá)到了較好的目標(biāo)檢測效果。因此,可以得出訓(xùn)練后的模型能夠準(zhǔn)確獲取圖像中果實(shí)目標(biāo)類別、目標(biāo)像素點(diǎn)坐標(biāo)以及目標(biāo)掩膜圖像,并且有效克服遮擋、重疊等干擾因素,進(jìn)行目標(biāo)特征提取和圖像分割。
表3 分組統(tǒng)計(jì)后驗(yàn)證組樣本集圖片的試驗(yàn)結(jié)果Tab. 3 Experimental results of the pictures of the sample set of the validation group after grouping statistics
本文以自然環(huán)境下的油茶果為研究對象,對圖像采集設(shè)備視野范圍內(nèi)的油茶果進(jìn)行圖像處理, 提出一種應(yīng)用于機(jī)器人收獲技術(shù)的果實(shí)目標(biāo)精確識別方法,解決自然環(huán)境下油茶果果實(shí)目標(biāo)識別精度低的問題,有效降低不同光照情況下葉片與花苞遮擋、果實(shí)重疊、果實(shí)色澤等因素干擾,提高目標(biāo)識別精度。研究工作主要包括兩個(gè)部分:提出一個(gè)用于深度學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練的樣本庫和一個(gè)基于Mask R-CNN的油茶果果實(shí)目標(biāo)精確識別方法。
1) 建立了一個(gè)包含3 400幅有效圖像的深度學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練樣本庫,該樣本庫由預(yù)訓(xùn)練集、優(yōu)化訓(xùn)練集和驗(yàn)證集組成,每個(gè)數(shù)據(jù)集包含4個(gè)單因素樣本組,分別為花葉遮擋、果實(shí)重疊、果實(shí)顏色和光照不均勻性;多因素樣本組,包含有2/3/4種單因素情況組合以及無控制樣本組。
2) 研究了一種可以自動檢測成熟和未成熟油茶果的Mask R-CNN模型,并從該模型輸出了油茶果的mask圖像。1 800張測試圖像的果實(shí)檢測結(jié)果表明,平均檢測精度,召回率和MIoU率分別為89.42%,92.86%和89.85%。經(jīng)過訓(xùn)練的模型對油茶果果實(shí)的圖像檢測,能夠有效降低圖像中的光強(qiáng)度變化,多果附著,重疊,遮擋和其他復(fù)雜的生長狀態(tài)對識別精度的影響。與傳統(tǒng)的果實(shí)檢測算法相比,該模型具有更好的通用性和穩(wěn)定性,能夠克服傳統(tǒng)機(jī)器視覺算法在油茶果果實(shí)檢測中準(zhǔn)確率低和魯棒性差的難題。
中國農(nóng)機(jī)化學(xué)報(bào)2022年12期