權(quán)龍哲,吳 冰,毛首人
(東北農(nóng)業(yè)大學(xué)工程學(xué)院,哈爾濱 150030)
雜草與作物競(jìng)爭(zhēng)空間、水、養(yǎng)分等資源,作物產(chǎn)量降低,作物生長(zhǎng)初期影響更嚴(yán)重[1-2]。目前,化學(xué)除草因其高效性而成為國(guó)內(nèi)外主要除草方式[3]。但化學(xué)除草大面積噴灑除草劑,造成環(huán)境污染。精準(zhǔn)對(duì)靶施藥可提高除草劑利用率,但確定田間雜草尺寸、形狀和生長(zhǎng)階段是實(shí)施難點(diǎn)[4]。不同葉齡雜草所需除草劑劑量不同[5-6]。因此,根據(jù)田間雜草分布和葉齡指導(dǎo)除草劑使用,是有效除草、保護(hù)生態(tài)重要手段。
減少除草劑使用前提是精準(zhǔn)識(shí)別雜草[7]。機(jī)器視覺(jué)在農(nóng)業(yè)領(lǐng)域應(yīng)用廣泛[8]。相關(guān)研究采用小波變換[9]、閾值分割[10]等方法區(qū)分農(nóng)作物和雜草,但普通分類(lèi)無(wú)法獲得雜草種類(lèi)和位置信息,在田間雜草與作物分布密集、光照不確定以及陰影等因素影響下作業(yè)效果不佳。近年,深度學(xué)習(xí)技術(shù)成為新興機(jī)器學(xué)習(xí)領(lǐng)域,其中深度卷積神經(jīng)網(wǎng)絡(luò)(Deep convolutional neural network,DCNN)是一類(lèi)深度學(xué)習(xí)方法,適合解決計(jì)算機(jī)視覺(jué)問(wèn)題,已應(yīng)用于農(nóng)業(yè)領(lǐng)域[11-12]。Ma 等提出SegNet 方法實(shí)現(xiàn)較高分類(lèi)精度,可有效對(duì)圖像中水稻、雜草和背景作像素分類(lèi),并獲取位置[13]。Abdalla 等采用卷積神經(jīng)網(wǎng)絡(luò)用于油菜田中雜草分割,獲得96%準(zhǔn)確率[14]。上述研究?jī)H獲得雜草位置和種類(lèi)信息,忽略葉齡,無(wú)法確定除草劑劑量。田間復(fù)雜環(huán)境下,植株之間重疊、光照不確定、土壤背景復(fù)雜多變[15],雜草位置和葉齡信息獲取存在難度。
DCNN模型雖能克服農(nóng)田復(fù)雜多變環(huán)境,但需大量數(shù)據(jù)集訓(xùn)練深度學(xué)習(xí)模型,提高模型精度[16]。數(shù)據(jù)增強(qiáng)也是圖像識(shí)別領(lǐng)域常用方法,Geethara?mani等使用9層深度卷積神經(jīng)網(wǎng)絡(luò)識(shí)別植物葉片疾病,并使用6種數(shù)據(jù)增強(qiáng)方法提高模型性能,獲得96.4%分類(lèi)精度[17]。可見(jiàn)數(shù)據(jù)增強(qiáng)是豐富訓(xùn)練樣本,提高模型精度重要方法。當(dāng)獲取數(shù)據(jù)時(shí),攝像頭拍攝角度影響數(shù)據(jù)集精度,Quan等實(shí)現(xiàn)在田間不同生長(zhǎng)周期和角度下幼苗檢測(cè),提出在攝像頭與豎直方向夾角為0情況下,檢測(cè)精度降低0.95%,可見(jiàn)不同角度數(shù)據(jù)采集,影響模型性能[16]。綜上,DCNN模型在處理田間復(fù)雜環(huán)境問(wèn)題上表現(xiàn)更好適應(yīng)性。
因此,本文提出基于Mask-R-CNN 農(nóng)田雜草實(shí)例分割與葉齡識(shí)別方法。首先構(gòu)建不同天氣和采集角度數(shù)據(jù)集,采用遷移學(xué)習(xí)方法提取Micro?soft COCO 數(shù)據(jù)集訓(xùn)練后權(quán)重,在此基礎(chǔ)上訓(xùn)練建立數(shù)據(jù)集。為提高雜草檢測(cè)精度,更換3個(gè)特征提取網(wǎng)絡(luò),設(shè)計(jì)多種區(qū)域建議框,將NMS 算法更換為Soft-NMS,RoIAlign 代替RoI Pooling,使目標(biāo)物體的邊界框更準(zhǔn)確,最終選擇7個(gè)評(píng)價(jià)指標(biāo)評(píng)估模型檢測(cè)結(jié)果和分割結(jié)果。
為分割田間雜草和玉米植株,需采集相關(guān)圖像,建立雜草和玉米圖像數(shù)據(jù)集。試驗(yàn)時(shí)間2020年5月20日~2020年6月20日,每隔2~5 d于黑龍江省哈爾濱市東北農(nóng)業(yè)大學(xué)向陽(yáng)試驗(yàn)示范基地采集數(shù)據(jù),采集設(shè)備為USB 數(shù)碼攝像機(jī)(CCD)(6-DZM-12,PHZL CO,LTD),最大分辨率為1 360×1 024像素,幀速度為30 s-1,并以JPG文件格式存儲(chǔ)。向陽(yáng)農(nóng)場(chǎng)是玉米、大豆、水稻主要種植區(qū)域。所采集樣本圖像為幼苗期玉米以及常見(jiàn)伴生雜草,包括稗草、龍葵、茴麻、刺菜、打碗花等。由于田間雜草數(shù)量在2~5葉期居多,所以采集5葉期之前田間植株數(shù)據(jù)。采集數(shù)據(jù)時(shí),將樣本種類(lèi)、葉齡、采集時(shí)間、采集天氣、采集溫度標(biāo)記在樣本數(shù)據(jù)中。拍攝方式如圖1所示。兩個(gè)攝像頭之間距離為L(zhǎng)=600 mm,攝像頭與支架距離為Ha=250 mm,支架與地面距離為Hb=650 mm,α為俯視圖角度,分別以俯視、30°斜視、45°斜視3個(gè)方向采集自然條件下生長(zhǎng)玉米和雜草圖像,如圖2所示。
如圖3 所示,采集圖像天氣條件包括:晴天、陰天、雨后,采集時(shí)間段為每日6:00~9:00,12:00~15:00,16:00~19:00。
圖1 圖像采集平臺(tái)Fig.1 Image acquisition platform
圖2 不同拍攝角度下數(shù)據(jù)圖像Fig.2 Data images under different shooting angles
圖3 不同天氣條件下數(shù)據(jù)圖像Fig.3 Data images under different weather conditions
在訓(xùn)練網(wǎng)絡(luò)時(shí),輸入圖像尺寸需與網(wǎng)絡(luò)輸入尺寸匹配,為不改變植物形態(tài),將圖像剪裁為1 024×1 024像素構(gòu)建DCNN數(shù)據(jù)集。為增加樣本多樣性,使數(shù)據(jù)集更具代表性,更準(zhǔn)確反映田間數(shù)據(jù)真實(shí)情況,提高模型訓(xùn)練精度,擴(kuò)大數(shù)據(jù)集并減少過(guò)度擬合,使DCNN對(duì)環(huán)境變化引起的光照具有魯棒性。通過(guò)數(shù)據(jù)增強(qiáng)法,對(duì)田間采集圖片隨機(jī)旋轉(zhuǎn)、水平翻轉(zhuǎn)、垂直翻轉(zhuǎn)、增亮10%、變暗10%加噪聲等6種操作,如圖4所示。
圖4 數(shù)據(jù)增強(qiáng)Fig.4 Data enhancement
采集圖像同時(shí)保留一些模糊、遮擋、不全圖像作為數(shù)據(jù)集負(fù)樣本。正負(fù)樣本共得到8 000 張圖片,按照8∶2 隨機(jī)選擇劃分為訓(xùn)練集和驗(yàn)證集。用VIA(VGG image annotator)標(biāo)注,通過(guò)不規(guī)則多邊形標(biāo)記雜草和玉米葉片。由于在實(shí)際環(huán)境下,圖片中植株數(shù)量不確定,存在包含多種、多株雜草情況,無(wú)法用圖片中掩膜葉片數(shù)量計(jì)算單株植物葉齡,所以用矩形框標(biāo)記單株植物最外層輪廓,計(jì)算矩形框內(nèi)掩膜葉片數(shù)量,即該植株葉齡。為減少計(jì)算量和計(jì)算時(shí)間,對(duì)矩形框不作掩膜。
Mask R-CNN是通過(guò)在目標(biāo)檢測(cè)算法Faster RCNN 框架后面添加掩膜分支作實(shí)例分割的模型,保證目標(biāo)檢測(cè)與分割并行。Mask R-CNN算法流程如圖5所示,輸出包含3個(gè)分支,目標(biāo)邊界框、分類(lèi)及分割掩膜。Mask R-CNN模型結(jié)構(gòu)由圖像特性提取層、區(qū)域建議網(wǎng)絡(luò)、ROIAlign 層以及輸出層4部分組成。
圖5 Mask R-CNN框架結(jié)構(gòu)Fig.5 Model structure of Mask R-CNN
其中,為更好檢測(cè)小目標(biāo),將感興趣區(qū)域池化(Region of interest pooling, pooling)更 改 為ROIAlign。采用Soft-NMS算法代替非極大值抑制法(NMS),提高雜草檢測(cè)精度。特征提取網(wǎng)絡(luò)從輸入圖像中提取特征圖,輸出特征圖被送至RPN 和ROIAlign以生成候選區(qū)域,候選區(qū)域一方面經(jīng)卷積層和全連接層預(yù)測(cè)目標(biāo)類(lèi)別和邊界框,另一方面經(jīng)FCN對(duì)目標(biāo)區(qū)域掩膜。最終完成目標(biāo)實(shí)例分割。
Mask R-CNN 可通過(guò)設(shè)計(jì)不同的權(quán)重層來(lái)建立深度卷積神經(jīng)網(wǎng)絡(luò)模型,目前深度學(xué)習(xí)網(wǎng)絡(luò)模型有 ResNet,MobileNet,AlexNet,GoogleNet,Deep?Mask,VGG 等。網(wǎng)絡(luò)層數(shù)越深,準(zhǔn)確性越高,但隨網(wǎng)絡(luò)層數(shù)加深,模型訓(xùn)練速度和檢測(cè)速度均降低。但殘差網(wǎng)絡(luò)不增加模型參數(shù),可有效降低訓(xùn)練退化問(wèn)題,同時(shí)提高模型收斂性。MobileNetv2是對(duì)MobileNet 作改進(jìn),且改進(jìn)ResNet 殘差結(jié)構(gòu),提出倒殘差塊及線性瓶頸層,網(wǎng)絡(luò)結(jié)構(gòu)相比Mo?bileNet 更深,網(wǎng)絡(luò)參數(shù)更少,可充分獲取雜草空間信息。本文采用ResNet-50、ResNet-101 和Mo?bileNetv2 結(jié)合FPN 作為特征提取網(wǎng)絡(luò)來(lái)提取雜草圖像多維特征。FPN是在目標(biāo)檢測(cè)過(guò)程中檢測(cè)不同尺度對(duì)象的模塊,有從上向下、從下向上路徑以及橫向連接3種連接方式。
RPN 是目標(biāo)檢測(cè)中滑動(dòng)窗口,而區(qū)域建議網(wǎng)絡(luò)則是由RPN 以滑動(dòng)窗口機(jī)制生成。RPN 的結(jié)構(gòu)如圖6 所示,RPN 是將2.1 節(jié)中提取的雜草卷積特征圖用作輸入,以固定窗口在特征圖全圖上滑動(dòng)生成的。但是本研究田間雜草尺寸不一,為提升小葉片檢測(cè)精度,本研究設(shè)計(jì)了32 × 32、64 ×64、128 × 128、256 × 256、512 × 512 等 5 種尺寸不同錨點(diǎn),長(zhǎng)寬比為 1∶1、1∶2、2∶1 共 3 種比例,共15 種錨點(diǎn),從中挑選最有可能存在目標(biāo)的區(qū)域,對(duì)該區(qū)域進(jìn)行檢測(cè)和分割。
每個(gè)錨點(diǎn)對(duì)應(yīng)一個(gè)預(yù)測(cè)框,根據(jù)預(yù)測(cè)框與真實(shí)框的交并比(Intersection over union error,IOU),選出正錨和負(fù)錨,傳統(tǒng)方法使用非極大值抑制法(Non-maximum suppression,NMS)消除冗余邊界框,選出合適預(yù)測(cè)框,NMS 方法對(duì)每個(gè)類(lèi)別得分大于閾值的邊界框分?jǐn)?shù)作排序,選擇最高分?jǐn)?shù)邊界框。但NMS 方法使用大量循環(huán),導(dǎo)致模型耗時(shí)較多。且在多株雜草互相遮擋時(shí),本屬于2棵雜草邊界框,其中得分低的被抑制,降低模型召回率(Recall),導(dǎo)致相鄰雜草出現(xiàn)漏檢,NMS公式為:
Soft-NMS 算法在NMS 算法基礎(chǔ)上改進(jìn),對(duì)于IOU大于閾值邊界框未將其直接刪除,而是采用得分衰減方式完成,其公式為:
式中,M-得分最高檢測(cè)框;bi-與M 相鄰檢測(cè)框;σ-超參數(shù)。
圖6 區(qū)域建議網(wǎng)絡(luò)結(jié)構(gòu)Fig.6 Structure of the regional proposal network
RoI Align是Mask R-CNN重要部分,為更好檢測(cè)小目標(biāo),將RoI Pooling 更改為RoIAlign。在RCNN、Fast R-CNN、Faster R-CNN 這些目標(biāo)檢測(cè)框架中均采用RoI Pooling將不同候選區(qū)域通過(guò)池化固定為確定尺寸特征圖,方便后續(xù)預(yù)選框回歸操作。但RoI Pooling在運(yùn)算過(guò)程中存在2次量化,導(dǎo)致得到的預(yù)選框和第一次回歸產(chǎn)生的預(yù)選框空間位置錯(cuò)位,影響模型精度,不適合本研究。為解決傳統(tǒng)RoI Pooling 帶來(lái)的問(wèn)題,本研究采用RoIAlign 代替?zhèn)鹘y(tǒng)RoI Pooling 方法,適合處理更小的目標(biāo)。RoIAlign取消量化操作,首先遍歷每個(gè)候選區(qū),同時(shí)保持浮點(diǎn)數(shù)不變,將候選區(qū)分割成k×k 個(gè)單元,在每個(gè)單元中計(jì)算固定的4 個(gè)坐標(biāo)值,用雙線性內(nèi)插方法計(jì)算出這4個(gè)位置的值,取消量化操作過(guò)程,利用最大池化方法將其匯總,然后調(diào)整每個(gè)候選區(qū)域尺寸滿足全卷積(Fully convolu?tional,F(xiàn)C)需求,最終將其發(fā)送到卷積層、全連接層和全卷積神經(jīng)網(wǎng)絡(luò)目標(biāo)分類(lèi)、邊界框和掩膜,提高模型檢測(cè)精度。RoIAlign為保證池化過(guò)程中像素對(duì)應(yīng)關(guān)系,采用反向傳播,其公式為:
式中,xi-池化前特征圖上像素點(diǎn);yrj-池化后第r個(gè)區(qū)域中第j個(gè)坐標(biāo)點(diǎn);i(r,j)-yrj對(duì)應(yīng)原圖像像素點(diǎn)坐標(biāo);Δh-橫坐標(biāo)梯度;Δω-縱坐標(biāo)梯度。
研究采用遷移學(xué)習(xí)方法引入Microsoft COCO 數(shù)據(jù)集預(yù)訓(xùn)練模型,提取該模型中訓(xùn)練好的權(quán)重作初始化設(shè)置,在此基礎(chǔ)上建立數(shù)據(jù)集作訓(xùn)練。Mi?crosoft COCO 數(shù)據(jù)集是在日常場(chǎng)景中獲取的圖像,用于目標(biāo)分類(lèi)和分割的訓(xùn)練和測(cè)試[18]。Microsoft COCO數(shù)據(jù)集包含超過(guò)91類(lèi)目標(biāo)[19]。通過(guò)遷移學(xué)習(xí)可減少訓(xùn)練成本和人力,提高模型效率。
本研究Mask R-CNN 模型在TensorFlow-GPU 1.14.0 和Keras 2.1.5 深度學(xué)習(xí)框架下展開(kāi)?;赪indows 10 64位(DirectX 12)版本操作系統(tǒng),六核英特爾Core i7-8700K@3.70 GHz 處理器,32 G 內(nèi)存以及由Nvidia GeForce(Santa Clara,CA,USA)制造開(kāi)發(fā)的GPU,顯卡為Nvidia GeForce RTX 2080 Ti,預(yù)訓(xùn)練網(wǎng)絡(luò)參數(shù)如表1所示。在訓(xùn)練時(shí)將權(quán)重衰減系數(shù)設(shè)置為0.0005,動(dòng)量因子為0.9,初始學(xué)習(xí)率為0.0001,訓(xùn)練每次迭代批處理量(BatchSize)為1。訓(xùn)練100輪,每輪1 000次。將標(biāo)記好數(shù)據(jù)集放在模型中訓(xùn)練,得到基于改進(jìn)的Mask R-CNN雜草分割訓(xùn)練模型。
表1 預(yù)訓(xùn)練網(wǎng)絡(luò)特征參數(shù)Table 1 Characteristic parameters of the pretraining network
評(píng)估目的是測(cè)試算法對(duì)農(nóng)田雜草和玉米植株葉片分割以獲取葉齡信息能力,為更好滿足多分類(lèi)不平衡問(wèn)題,采用7 個(gè)關(guān)鍵指標(biāo)評(píng)估,分別為:精度率(Precision)、召回率(Recall)、F1、IOU、平均精度(Average precision,AP)、平均精度均值(Mean average precision,mAP)和mIOU(Mean inter?section over union error),其計(jì)算公式為:
式中,TP-陽(yáng)性并被檢測(cè)為陽(yáng)性數(shù)量;FP-陰性并被檢測(cè)為陽(yáng)性數(shù)量;FN-陽(yáng)性并被檢測(cè)為陰性數(shù)量;F1-Precision 和Recall 度量函數(shù);N-圖像數(shù)量;Box(Pred)-預(yù)測(cè)框;Box(Truth)-真實(shí)框。
由于Mask R-CNN 包括目標(biāo)檢測(cè)和分割兩部分,對(duì)于目標(biāo)檢測(cè)部分,采用的評(píng)估指標(biāo)為:Preci?sion、Recall、F1、AP、AP50(當(dāng)IOU≥0.5時(shí)的AP50定義為AP50)。對(duì)于實(shí)例分割部分采用mIOU評(píng)估。
IOU 測(cè)量2個(gè)邊界框之間的重疊,計(jì)算雜草或玉米預(yù)測(cè)框和真實(shí)框之間重疊程度。IOU閾值設(shè)置為0.5,當(dāng)IOU≤0.5 為負(fù)錨,無(wú)需考慮,當(dāng)IOU≥0.5 為正錨。系統(tǒng)可識(shí)別正錨和其邊界框并將其匹配給地面實(shí)況框優(yōu)化模型RPN 輸出,錨與地面真實(shí)邊界框重疊最大值將被系統(tǒng)保留。AP50 是模型另一個(gè)指標(biāo),是多個(gè)類(lèi)別AP 平均值。對(duì)于處理目標(biāo)位置信息和類(lèi)別時(shí),具有優(yōu)良評(píng)估性能。
為更好驗(yàn)證改進(jìn)Mask R-CNN在雜草分割中性能,本文將改進(jìn)Mask R-CNN 與傳統(tǒng)Mask RCNN、DeepMask、MNC 方法在總測(cè)試集上作比較,對(duì)比結(jié)果如表2 所示,單樣本耗時(shí)中MNC 方法最短,DeepMask最長(zhǎng)。然而,從分割結(jié)果上看,改進(jìn) Mask R-CNN 方法F1值可達(dá)到 0.918,AP50 值可達(dá)到0.730,優(yōu)于傳統(tǒng)Mask R-CNN、DeepMask和MNC方法,可滿足實(shí)例分割應(yīng)用需求。
為提升雜草分割性能,修改原始Mask R-CNN區(qū)域建議網(wǎng)絡(luò),設(shè)計(jì) 32 × 32、64 × 64、128 ×128、256 × 256、512 × 512 共5 種不同錨點(diǎn),對(duì)比不同尺寸錨點(diǎn),完成錨點(diǎn)多尺度變換。從中挑選最可能存在目標(biāo)的區(qū)域,檢測(cè)和分割該區(qū)域,模型性能結(jié)果如表3所示。
對(duì)比3個(gè)特征提取網(wǎng)絡(luò)(ResNet50,ResNet101,Mobilenetv2)和不同錨點(diǎn)尺寸可發(fā)現(xiàn),各層錨點(diǎn)尺寸縮小1倍,即為(16,32,64,128,256)時(shí),3個(gè)特征提取網(wǎng)絡(luò)AP50分別為0.598、0.730、0.507。其中,ResNet-101 作為特征提取網(wǎng)絡(luò)的改進(jìn)Mask R-CNN 取得最高AP50 值。將錨點(diǎn)尺寸擴(kuò)大1 倍時(shí),3 個(gè)特征提取網(wǎng)絡(luò)檢測(cè)結(jié)果均最低。在選擇ResNet-101 作為特征提取網(wǎng)絡(luò)情況下,將錨點(diǎn)尺寸縮小1 倍的AP50 值比原始模型高3.4%,比錨點(diǎn)尺寸擴(kuò)大1倍時(shí)高27.8%。
表2 不同分割模型對(duì)比Table 2 Comparison of different segmentation models
表3 多尺度變換對(duì)比試驗(yàn)Table 3 Experimental comparison of multi-anchor scale transformation
為選擇更有效分割模型,本文將改進(jìn)Mask RCNN 模型更換 3 個(gè)特征提取網(wǎng)絡(luò)(ResNet-50、ResNet-101 和MobileNetv2)作比較,從中選擇在mIOU 和AP50 之間取得最佳平衡網(wǎng)絡(luò)。選用1 200張玉米和雜草圖像作測(cè)試比較,其中俯視、30°斜視、45°斜視各200張,晴天、陰天、雨后各200張。表4列出不同天氣條件下精度率,召回率,F(xiàn)1值。
如表4所示,以ResNet-101作為特征提取網(wǎng)絡(luò)改進(jìn)Mask R-CNN模型表現(xiàn)良好。陰天檢測(cè)效果好于晴天和雨后。陰天條件下,以ResNet-101 作為特征提取網(wǎng)絡(luò)的Mask R-CNN 的F1值為0.9407、AP50 值 為 0.7649,F(xiàn)1值 比 ResNet-50 和 Mobile?Netv2 分別高6.53%和13.43%,AP50 值比ResNet-50和MobileNetv2分別高14.97%和24.69%。表明采用ResNet-101 作為特征提取網(wǎng)絡(luò)的Mask R-CNN能夠滿足實(shí)例分割需求,可準(zhǔn)確分割玉米和雜草。在ResNet-101作為特征提取網(wǎng)絡(luò)的條件下,陰天的F1值比雨后和晴天分別高出1.99%和3.44%。AP50值比雨后和晴天分別高出2.63%和6.66%。
表4 不同天氣條件下檢測(cè)結(jié)果Table 4 Test results under different weather conditions
為明確模型對(duì)雜草、玉米植株和葉片錯(cuò)誤識(shí)別情況,作出真實(shí)標(biāo)簽與模型預(yù)測(cè)標(biāo)簽之間混淆矩陣。如圖7所示,混淆矩陣又稱(chēng)誤差矩陣,由m行m列矩陣組成,m代表類(lèi)別數(shù),在本研究中標(biāo)簽共有雜草、雜草葉子、玉米、玉米葉子4類(lèi),將其他類(lèi)別作背景,得到1 個(gè)5×5 方陣。該混淆矩陣對(duì)角線數(shù)值表示被正確識(shí)別情況,非對(duì)角線數(shù)值表示被錯(cuò)誤識(shí)別情況。
如圖7a 所示,晴天條件下,一部分玉米葉子和雜草被判斷為背景,主要原因是晴天時(shí)光照強(qiáng)度大,高強(qiáng)度光照射到植物和土壤表面發(fā)生反射,影響檢測(cè)結(jié)果。如圖7c 所示,雨后條件下存在一部分真實(shí)標(biāo)簽未被識(shí)別,如圖7b 所示,陰天分類(lèi)準(zhǔn)確率在3種天氣條件下最佳。
為獲得不同數(shù)據(jù)采集角度分割結(jié)果,使用俯視、30°斜視、45°斜視各測(cè)試200 張,不同拍攝角度下精度率、召回率、F1值見(jiàn)表5。
由表5可知,以ResNet-101作為特征提取網(wǎng)絡(luò)的Mask R-CNN深度學(xué)習(xí)模型仍表現(xiàn)良好性能。在以ResNet-101作為特征提取網(wǎng)絡(luò)條件下,30°斜視F1值為 0.9439、AP50 值為 0.7548,F(xiàn)1值比俯視和45°斜視分別高4.56%和1.60%,AP50 值比俯視和45°斜視分別高5.59%和3.17%。如圖7e 所示,30°斜視拍攝時(shí),對(duì)角線上識(shí)別正確標(biāo)簽數(shù)為1 444,在所有角度中分類(lèi)精度最高。
不同天氣和角度雜草分割結(jié)果如圖8所示,對(duì)于實(shí)例分割階段,評(píng)價(jià)指標(biāo)為mIOU(Mean intersec?tion over union error),mIOU 是評(píng)估分割結(jié)果重要指標(biāo)[20],常用于評(píng)估Mask R-CNN 模型分割性能。表6 為1 200 張含有雜草和玉米圖像測(cè)試結(jié)果。可見(jiàn)ResNet-101 在總測(cè)試集上mIOU 值為0.624,比ResNet-50高8.8%,比MobileNetv2高16.3%??梢?jiàn)以ResNet-101作為特征提取網(wǎng)絡(luò)改進(jìn)Mask R-CNN深度學(xué)習(xí)模型仍然表現(xiàn)良好性能。在以ResNet-101 作為特征提取網(wǎng)絡(luò)條件下,30°斜視和陰天mIOU 值分別為0.675 和0.663,為不同角度和天氣中最佳,分割效果較好。由圖8可知,玉米葉片識(shí)別效果好于雜草,因視野中玉米植株比雜草植株體積大且數(shù)量少。但是圖像中部分雜草體積較小,不利于獲得雜草全部葉片,對(duì)獲取雜草葉齡存在一定困難。
圖7 以ResNet-101作為特征提取網(wǎng)絡(luò)的Mask R-CNN模型混淆矩陣Fig.7 Confusion matrix of Mask R-CNN with ResNet-101 as the feature extraction network
表5 不同拍攝角度下檢測(cè)結(jié)果Table 5 Test results under different shooting angles
圖8 不同拍攝角度和天氣條件下分割結(jié)果Fig.8 Segmentation results under different shooting angles and weather conditions
表6 模型分割結(jié)果Table 6 Segmentation results of the model
葉齡是植物重要表型性狀,不同葉齡雜草所需除草劑劑量不同,獲取雜草準(zhǔn)確葉齡為精準(zhǔn)對(duì)靶除草提供技術(shù)支持,不同葉齡雜草和玉米分割結(jié)果見(jiàn)圖9,可見(jiàn)整株植物葉齡和每個(gè)葉片分割情況。
通過(guò)計(jì)算機(jī)計(jì)算所得葉齡值與采集數(shù)據(jù)時(shí)標(biāo)簽上葉齡值作比較得到葉齡識(shí)別準(zhǔn)確率。由表7可知,ResNet-101作為特征提取網(wǎng)絡(luò)的Mask R-CNN深度學(xué)習(xí)模型性能良好。在選擇ResNet-101 作為特征提取網(wǎng)絡(luò)情況下,30°斜視葉齡識(shí)別準(zhǔn)確率為0.915,比45°斜視和俯視分別高2.6%和4.2%,陰天葉齡識(shí)別準(zhǔn)確率為0.935,比雨后和晴天分別高2.1%和4.3%。
圖9 不同葉齡分割結(jié)果Fig.9 Segmentation results with different leaf ages
表7 葉齡識(shí)別準(zhǔn)確率Table 7 Accuracy of leaf age recognition
本研究以農(nóng)田雜草和玉米植株為研究對(duì)象,實(shí)現(xiàn)在田間復(fù)雜環(huán)境下識(shí)別獲取葉齡,分析不同天氣和拍攝角度對(duì)葉齡識(shí)別影響。改進(jìn)Mask RCNN 模型精度顯著提高,在錨點(diǎn)尺寸縮小1 倍時(shí)AP50值比原始模型高3.4%,與孔英會(huì)等研究結(jié)果一致,因本研究中雜草葉片尺寸較小,所以將錨點(diǎn)尺寸縮小一半檢測(cè)效果最為理想[21]。以ResNet-101 為特征提取網(wǎng)絡(luò)改進(jìn)的Mask R-CNN 表現(xiàn)最佳分割性能。本文方法單樣本耗時(shí)為568.3 ms,與姜紅花等研究結(jié)果在單樣本耗時(shí)上存在差距,主要是由于在分割之后需計(jì)算單株植物葉齡,而自然環(huán)境相對(duì)復(fù)雜,影響因素較多,導(dǎo)致計(jì)算時(shí)間增加[22]。
在以ResNet-101 作為特征提取網(wǎng)絡(luò)基礎(chǔ)上,陰天檢測(cè)精度高于晴天和雨后。原因是陰天時(shí)光照強(qiáng)度低,土壤反射太陽(yáng)光較少而晴天時(shí)光照強(qiáng)度大,發(fā)生大量反射。晴天時(shí)由于太陽(yáng)光直射,導(dǎo)致植株產(chǎn)生倒影,均影響檢測(cè)精度。30°斜視檢測(cè)精度高于45°斜視角度和俯視角度。主要原因是30°斜視拍攝時(shí),視野中玉米多為2~3 株,玉米苗和雜草大小適中。30°斜視角度包含俯視圖和側(cè)視圖雜草和玉米信息,有助于提高模型精度。45°斜視拍攝時(shí),視野中玉米和雜草體積較小,玉米多為3~4株,對(duì)于較小玉米和雜草識(shí)別較差。俯視時(shí)相比于其他2個(gè)角度精度較低,因30°和45°斜視均包含俯視圖和側(cè)視圖雜草和玉米信息,而俯視拍攝只包含1個(gè)角度雜草和玉米信息,導(dǎo)致模型精度降低。該模型在實(shí)際應(yīng)用中表現(xiàn)出良好分割性能,可適應(yīng)農(nóng)田復(fù)雜環(huán)境,但該研究?jī)H獲得雜草葉齡,無(wú)法獲取雜草種類(lèi),未來(lái)研究重點(diǎn)將放在評(píng)估涵蓋更大范圍雜草和作物品種圖像數(shù)據(jù)集上。
a.改進(jìn)后Mask R-CNN 模型精度顯著提高,以ResNet-101為特征提取網(wǎng)絡(luò)的改進(jìn)Mask R-CNN表現(xiàn)最佳的分割性能。本文方法的單樣本耗時(shí)為568.3 ms,滿足田間變量噴灑要求。
b.在以ResNet-101 作為特征提取網(wǎng)絡(luò)基礎(chǔ)上,陰天 AP50 和 mIOU 值分別為 0.7649 和 0.663。mIOU 值比晴天提高了7.9%,比雨后提高了4.5%;30°斜視 AP50 和 mIOU 值分別為 0.7548 和 0.675。mIOU 值比45°斜視角度提高6.2%,比俯視角度提高8.2%。
c.該模型在實(shí)際應(yīng)用中表現(xiàn)出良好分割性能,可適應(yīng)農(nóng)田復(fù)雜環(huán)境,對(duì)體積小雜草也具有良好分割效果。為后續(xù)智能對(duì)靶變量噴灑農(nóng)藥提供技術(shù)支持,可減少化學(xué)農(nóng)藥使用,對(duì)智能農(nóng)業(yè)發(fā)展和生態(tài)環(huán)境保護(hù)具有重要意義。