宋 彥 楊 帥 鄭子秋 寧井銘
(1.安徽農(nóng)業(yè)大學(xué)工學(xué)院,合肥 230036; 2.安徽省智能農(nóng)機(jī)裝備工程實(shí)驗(yàn)室,合肥 230036;3.茶樹(shù)生物學(xué)與資源利用國(guó)家重點(diǎn)實(shí)驗(yàn)室,合肥 230036)
目前我國(guó)名優(yōu)茶采摘仍以人工為主,在春茶加工季節(jié),需要大量的人力資源,成本高。而現(xiàn)有的采摘機(jī)械[1-3],嫩芽和老葉不加區(qū)分的“一刀切”,原料質(zhì)量得不到保證[4]。但隨著機(jī)器視覺(jué)技術(shù)的興起,為解決茶葉選擇性采摘問(wèn)題提供了一種新的途徑,茶芽的識(shí)別和可采摘區(qū)域定位則是實(shí)現(xiàn)選擇性自動(dòng)化采摘的前提。
早期的研究多基于圖像的閾值分割方法進(jìn)行茶芽的識(shí)別,如文獻(xiàn)[5-7]中采用單一色彩閾值或聯(lián)合色彩閾值的方法從圖像中識(shí)別茶芽目標(biāo)。然而,茶園環(huán)境具有非結(jié)構(gòu)特性,包括不受控制的光照、茶葉嫩芽和老葉之間的高度相似性等,在這些條件下,閾值分割法可能面臨魯棒性不足的問(wèn)題。
近年來(lái),卷積神經(jīng)網(wǎng)絡(luò)得益于較為優(yōu)秀的特征提取能力,對(duì)復(fù)雜背景的目標(biāo)定位表現(xiàn)出較好的魯棒性,受光照、背景影響較小。王琨等[8]、呂軍等[9]選取茶葉的部分顏色和形狀特征作為特征集,輸入卷積神經(jīng)網(wǎng)絡(luò)模型,通過(guò)訓(xùn)練最終使得模型能夠識(shí)別茶葉嫩芽。孫肖肖等[10]使用改進(jìn)的YOLO v3識(shí)別茶葉,經(jīng)測(cè)試平均準(zhǔn)確率達(dá)到了84.2%,召回率達(dá)到了82%。呂軍等[11]使用結(jié)合圖像預(yù)處理的改進(jìn)YOLO v5模型,解決由于茶園的光照變化茶芽難以準(zhǔn)確檢測(cè)的問(wèn)題。由前述可知,基于卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測(cè)技術(shù)為茶芽的識(shí)別提供了可行的技術(shù)途徑。
一旦圖像中的茶芽目標(biāo)被定位,準(zhǔn)確采摘的下一步就是分割可采摘點(diǎn)或可采摘區(qū)域。然而,由于采摘點(diǎn)區(qū)域不盡相同,形態(tài)大多不規(guī)則,而茶葉選擇性采摘又需要準(zhǔn)確的像素坐標(biāo),此時(shí)再使用目標(biāo)檢測(cè)不再合適。語(yǔ)義分割是機(jī)器視覺(jué)中的典型任務(wù),可用于像素級(jí)的對(duì)象檢測(cè),能夠準(zhǔn)確定位茶葉采摘點(diǎn)的區(qū)域。該方法已被應(yīng)用于需精準(zhǔn)定位目標(biāo)像素坐標(biāo)的相關(guān)農(nóng)業(yè)領(lǐng)域,如作物采摘。LI等[12]使用DeepLabv3+模型[13]分割龍眼果串的主果枝,分割結(jié)果的像素準(zhǔn)確率達(dá)到了94.52%。ZHU等[14]為自動(dòng)準(zhǔn)確地識(shí)別甜椒采摘區(qū)域,使用自建的全分辨率殘差網(wǎng)絡(luò)分割彩椒圖像,在測(cè)試集的像素準(zhǔn)確率達(dá)到了97.94%。YU等[15]使用Mask R-CNN模型分割草莓圖像中的可采摘區(qū)域,100幅測(cè)試圖像的檢測(cè)結(jié)果顯示,平均檢測(cè)準(zhǔn)確率為95.78%,召回率為95.41%,分割的平均區(qū)域重合度為89.85%。由于語(yǔ)義分割結(jié)果能精準(zhǔn)獲取采摘區(qū)域,極少包含無(wú)關(guān)信息,在采摘點(diǎn)定位領(lǐng)域,可以給予后續(xù)處理器有效的目標(biāo)信息,簡(jiǎn)化下一步需要數(shù)據(jù)過(guò)濾工作。但上述研究的試驗(yàn)環(huán)境,部分目標(biāo)與背景相似程度較小,如草莓果實(shí)與背景的顏色特征差異明顯;部分研究工作在室內(nèi)環(huán)境或?qū)嶒?yàn)室環(huán)境開(kāi)展,可能難以直接應(yīng)用于復(fù)雜的茶園環(huán)境。
本文針對(duì)茶芽采摘點(diǎn)分割時(shí)面臨的目標(biāo)尺度小、背景復(fù)雜等問(wèn)題,提出RMHSA-NeXt語(yǔ)義分割模型,其特點(diǎn)在于使用殘差多頭自注意力模塊和結(jié)合條形池化的ASPP[13]模塊,能夠提高對(duì)關(guān)鍵特征的關(guān)注程度,并降低對(duì)背景與目標(biāo)的干擾,達(dá)到準(zhǔn)確分割采摘點(diǎn)的目的,以期為自然環(huán)境下茶葉機(jī)械選擇性采摘提供可靠識(shí)別依據(jù)。
茶葉圖像數(shù)據(jù)采集于六安市金寨縣青山鎮(zhèn)抱兒村,采集時(shí)間為2022年4月上旬到10月下旬。圖像采集設(shè)備為STEREOLABS公司生產(chǎn)的ZED雙目相機(jī),為了使圖像數(shù)據(jù)更加貼合采茶機(jī)械的工作狀況,采用視頻錄制的模式,視頻分辨率為1 920像素×1 080像素。所有數(shù)據(jù)采集完成后通過(guò)STEREOLABS公司提供的視頻轉(zhuǎn)換軟件,將視頻數(shù)據(jù)逐幀轉(zhuǎn)換為圖像數(shù)據(jù),篩選后,得到原始數(shù)據(jù)集圖像數(shù)量為3 192幅。
為了開(kāi)展茶葉采摘點(diǎn)語(yǔ)義分割模型研究,首先采用目標(biāo)檢測(cè)模型對(duì)原始數(shù)據(jù)集做茶芽目標(biāo)檢測(cè),經(jīng)過(guò)對(duì)目標(biāo)檢測(cè)結(jié)果的篩選,最終采摘點(diǎn)數(shù)據(jù)集圖像數(shù)量為26 793幅,本文使用Labelme軟件標(biāo)注出茶葉可采摘區(qū)域,按照9∶1的比例將數(shù)據(jù)劃分為訓(xùn)練集和測(cè)試集。
分析采摘點(diǎn)數(shù)據(jù)集后,發(fā)現(xiàn)本文的分割目標(biāo)的特點(diǎn)在于:茶葉采摘點(diǎn)目標(biāo)較小(普遍尺度約100像素)、光照強(qiáng)度變化范圍大、采摘點(diǎn)的背景多為茶葉,紋理和色彩差距不明顯、采摘點(diǎn)形狀普遍為長(zhǎng)條形等,圖1 為茶葉目標(biāo)檢測(cè)與分割的場(chǎng)景分析圖。
圖1 茶葉目標(biāo)檢測(cè)與分割的場(chǎng)景分析
通用的語(yǔ)義分割模型由編碼器和解碼器構(gòu)成,編碼器進(jìn)行特征提取,解碼器利用反卷積或者上采樣運(yùn)算將編碼器輸出的低分辨率特征映射到高分辨率像素空間,得到密集的像素預(yù)測(cè)分類(lèi)[16]。為解決茶葉采摘點(diǎn)較小、光照變化范圍大、采摘點(diǎn)與老葉較為相似等問(wèn)題,本文使用編碼-解碼架構(gòu)設(shè)計(jì)提出了一種新的語(yǔ)義分割模型——RMHSA-NeXt,其網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。為了準(zhǔn)確分割茶芽采摘點(diǎn),該模型提出了以下方法:①在模型的編碼階段,采用ConvNeXt作為特征提取單元,其可以有效地篩除無(wú)用特征,增強(qiáng)有效特征的表達(dá),減少茶園環(huán)境中的光照變化和茶芽采摘點(diǎn)與背景相似度較大的影響。②提出殘差多頭自注意力模塊(Residual multi-head self-attention,RMHSA),其根據(jù)茶芽特征相關(guān)性為各特征分配權(quán)重,將模型注意力集中于茶葉采摘點(diǎn)目標(biāo),減少不相關(guān)的老葉背景的干擾,進(jìn)一步強(qiáng)化模型的特征提取能力。③設(shè)計(jì)結(jié)合條形池化的ASPP結(jié)構(gòu),由于茶芽采摘點(diǎn)多為長(zhǎng)條形,故將常用的正方形池化改變?yōu)闂l形池化,便于抑制背景干擾,且由于其內(nèi)部的多尺度融合機(jī)制,有望解決茶芽采摘點(diǎn)小、目標(biāo)特征信息不足的問(wèn)題。
圖2 RMHSA-NeXt語(yǔ)義分割模型
1.2.1特征提取網(wǎng)絡(luò)
近年來(lái),Swin Transformer[17]越來(lái)越多地被應(yīng)用于計(jì)算機(jī)視覺(jué)領(lǐng)域,并且展現(xiàn)了優(yōu)異的性能。ConvNeXt吸收Swin Transformer的優(yōu)點(diǎn),通過(guò)結(jié)合Swin Transformer的層結(jié)構(gòu)、倒置瓶頸和深度可分離卷積(Depthwise Convolution)等技巧,進(jìn)一步提高了模型的特征提取能力,因此,本文的語(yǔ)義分割模型使用ConvNeXt作為初始特征的提取單元。
圖3是ConvNeXt網(wǎng)絡(luò)結(jié)構(gòu)圖,其借鑒了ResNet的設(shè)計(jì)思想,在ResNet傳統(tǒng)結(jié)構(gòu)上,增加了下采樣方法,該網(wǎng)絡(luò)主要由ConvNeXt block組成。圖4是ConvNeXt block的結(jié)構(gòu)圖,首先將初始特征與提取后的特征相融合;其次在特征提取過(guò)程中使用深度可分離卷積,只在每個(gè)通道上進(jìn)行空間信息的交互,減少了參數(shù),同時(shí)激活函數(shù)使用GeLU,相較于ReLU更加平滑和連續(xù),也有更高的收斂幾率;而后使用層歸一化(Layer normalization),將這一中間層的神經(jīng)元參數(shù)進(jìn)行歸一化,對(duì)神經(jīng)網(wǎng)絡(luò)中隱藏層的輸入進(jìn)行歸一化,從而使得網(wǎng)絡(luò)更容易訓(xùn)練[18];最后使用Drop path隨機(jī)地將深度學(xué)習(xí)中的多分支結(jié)構(gòu)刪除,即讓某些神經(jīng)元失效,添加正則化能力,防止模型過(guò)擬合。
圖3 ConvNeXt網(wǎng)絡(luò)結(jié)構(gòu)圖
圖4 ConvNeXt block 網(wǎng)絡(luò)結(jié)構(gòu)圖
1.2.2殘差多頭自注意力模塊
注意力機(jī)制主要根據(jù)上下文內(nèi)容或像素間的相關(guān)性快速提取數(shù)據(jù)或者圖像中的重要特征。多頭自注意力模塊[19](Multi-head self-attention,MHSA)是多個(gè)自注意力模塊[20]平行堆疊而來(lái),其可以根據(jù)采摘點(diǎn)目標(biāo)相關(guān)性為各特征動(dòng)態(tài)地分配權(quán)重,將網(wǎng)絡(luò)注意力集中于茶葉采摘點(diǎn)目標(biāo),減少茶園中不相關(guān)背景的干擾,提高網(wǎng)絡(luò)特征提取性能。
本文基于殘差結(jié)構(gòu)和多頭自注意力機(jī)制,構(gòu)建了如圖5所示的 RMHSA 結(jié)構(gòu),其中多頭自注意力模塊代替了原本殘差結(jié)構(gòu)中的卷積模塊,同時(shí)使用兩次的跳連接,讓未被處理過(guò)的原始特征與被多頭自注意力模塊處理過(guò)的特征充分融合。在圖5中多頭自注意力機(jī)制部分是由多個(gè)自注意力機(jī)制平行計(jì)算,最后拼接而來(lái),自注意力機(jī)制作用在于減少了對(duì)外部信息的依賴(lài),更有利于捕捉茶芽采摘點(diǎn)數(shù)據(jù)或特征的內(nèi)部相關(guān)性,圖6展示了自注意力機(jī)制的結(jié)構(gòu)。
圖5 殘差多頭自注意力模塊結(jié)構(gòu)示意圖
圖6 自注意力機(jī)制結(jié)構(gòu)示意圖
模塊的輸出Z為基于查詢(xún)向量WQ、鍵向量WK、值向量WV的加權(quán)和,計(jì)算式為
Z=Softmax(WKWQ)WV+X
(1)
式中X——輸入特征
自注意力模塊的輸入通過(guò)線性變換得到WQ、WK、WV。其中WQ的目的是計(jì)算當(dāng)前位置與其他位置之間的相似度;WK用于計(jì)算當(dāng)前位置和與其他位置之間的相似度,在運(yùn)算過(guò)程中,WK通常會(huì)與WQ進(jìn)行矩陣乘法,得到每個(gè)位置向量的權(quán)值。而WV與WQ、WK計(jì)算出的權(quán)值矩陣進(jìn)行矩陣乘法,得到特征的加權(quán)平均結(jié)果。
1.2.3結(jié)合條形池化的ASPP
多尺度結(jié)構(gòu)可以通過(guò)不同尺度的特征提取,幫助網(wǎng)絡(luò)獲得不同感受野下的圖像信息,以增強(qiáng)模型對(duì)小目標(biāo)的感知能力。因此,多尺度信息捕獲能力對(duì)于解決茶葉采摘點(diǎn)圖像有效信息過(guò)少具有重要意義,本文選擇了ASPP結(jié)構(gòu)作為模型中的多尺度結(jié)構(gòu)。ASPP通常由1個(gè)1×1卷積、3個(gè)不同采樣率的3×3擴(kuò)張卷積和1個(gè)空間池化組成。在這種結(jié)構(gòu)中,通過(guò)設(shè)置不同的采樣率可以得到不同比例的特征圖。
由于初始ASPP中的空間池化的采樣窗口為正方形,而本文中的茶葉采摘區(qū)域大部分為長(zhǎng)條形,此時(shí)正方形窗口不可避免地會(huì)包含其他不相關(guān)區(qū)域的干擾信息。因此,本文采用了條形池化結(jié)構(gòu),由于長(zhǎng)條形采樣窗口采樣時(shí)會(huì)減少不相關(guān)信息的獲取,從而降低無(wú)關(guān)信息的干擾[21]。改進(jìn)后的ASPP結(jié)構(gòu)如圖7所示,而條形池化計(jì)算過(guò)程如圖8所示。
圖7 改進(jìn)后的ASPP結(jié)構(gòu)示意圖
圖8 條形池化示意圖
在條形池化時(shí),首先將輸入特征圖進(jìn)行水平和豎直條形池化后變?yōu)镠×1和1×W兩個(gè)特征圖,隨后經(jīng)過(guò)卷積核為3的一維卷積對(duì)2個(gè)特征圖分別沿著左右和上下進(jìn)行擴(kuò)容,擴(kuò)容后兩個(gè)特征圖尺寸相同,擴(kuò)容后的兩特征圖對(duì)應(yīng)相同位置求和得到H×W的特征圖,之后通過(guò)1×1的卷積與sigmoid處理后與原輸入圖對(duì)應(yīng)像素相乘得到了條狀池化輸出結(jié)果,在本文中H和W均為5。
1.2.4解碼部分
在編解碼結(jié)構(gòu)中,編碼器的作用是提取特征,而解碼器的作用是將經(jīng)過(guò)編碼器處理后的特征進(jìn)行采樣和映射,最終實(shí)現(xiàn)逐像素分類(lèi)。在本文模型中,首先會(huì)將從改進(jìn)ASPP中獲得的多尺度特征和從殘差多頭自注意力機(jī)制中獲得的特征進(jìn)行通道拼接,在此過(guò)程中,部分多尺度結(jié)構(gòu)會(huì)被上采樣以保證特征圖大小一致;而后會(huì)經(jīng)過(guò)一次1×1卷積和3×3處理,降低特征圖的維度,篩選特征;最后使用上采樣將圖像恢復(fù)到與輸入圖像一樣的大小,再使用Softmax函數(shù)進(jìn)行結(jié)果預(yù)測(cè),確定每一個(gè)特征圖的類(lèi)別。
計(jì)算機(jī)配置CPU型號(hào)為Intel Core i7-9700 CPU,GPU型號(hào)為NVIDIA GTX2080Ti,內(nèi)存為32 GB,1 TB固態(tài)硬盤(pán)。計(jì)算機(jī)操作系統(tǒng)為Ubuntu 20.04,配置PyTorch深度學(xué)習(xí)框架用于所有模型的訓(xùn)練和測(cè)試,模型評(píng)價(jià)等程序均在Python語(yǔ)言環(huán)境下編寫(xiě)。
本文語(yǔ)義分割模型采用準(zhǔn)確率、檢測(cè)速度、參數(shù)量等指標(biāo)進(jìn)行性能評(píng)價(jià)。準(zhǔn)確率是根據(jù)網(wǎng)絡(luò)模型預(yù)測(cè)圖像與人工標(biāo)注圖像之間的像素誤差計(jì)算得到,設(shè)語(yǔ)義類(lèi)別總數(shù)為k+1(k個(gè)目標(biāo)類(lèi)與1個(gè)背景類(lèi)),Pii表示屬于第i類(lèi)且被預(yù)測(cè)為第i類(lèi)的像素?cái)?shù),Pij表示屬于第i類(lèi)卻被預(yù)測(cè)為第j類(lèi)的像素?cái)?shù),在本文中k+1為2,即采摘區(qū)域和非采摘區(qū)域。
像素準(zhǔn)確率(Pixel accuracy,PA)為正確預(yù)測(cè)像素?cái)?shù)量與圖像像素總量的比值,計(jì)算公式為
(2)
平均區(qū)域重合度(Mean intersection over union,MIoU)為每類(lèi)預(yù)測(cè)像素?cái)?shù)量與真實(shí)像素?cái)?shù)量交集與并集比值,然后取所有類(lèi)別的平均值。平均區(qū)域重合度反映了預(yù)測(cè)結(jié)果與圖像真實(shí)結(jié)果的重合程度,是語(yǔ)義分割模型常采用的準(zhǔn)確率度量標(biāo)準(zhǔn),計(jì)算公式為
(3)
檢測(cè)速度(每秒檢測(cè)幀數(shù),FPS)用來(lái)表明每秒能檢測(cè)的數(shù)據(jù)幀數(shù),其數(shù)值越高表明訓(xùn)練好的模型檢測(cè)速度越快。
2.3.1消融實(shí)驗(yàn)
為測(cè)試本文所提出的語(yǔ)義分割算法的有效性,設(shè)計(jì)消融實(shí)驗(yàn)分析各功能模塊對(duì)模型性能的影響。構(gòu)建基礎(chǔ)模型,由ConvNeXt網(wǎng)絡(luò)和解碼部分組成。在基礎(chǔ)模型上逐步加入殘差多頭自注意力機(jī)制、改進(jìn)的ASPP等結(jié)構(gòu)構(gòu)成基礎(chǔ)模型+RMHSA、基礎(chǔ)模型+ASPP、基礎(chǔ)模型+改進(jìn)ASPP以及基礎(chǔ)模型+RMHSA+改進(jìn)ASPP模型等。通過(guò)像素準(zhǔn)確率、平均區(qū)域重合度、參數(shù)量和檢測(cè)速度對(duì)模型性能進(jìn)行分析,表1為測(cè)試集在上述5種模型的運(yùn)行結(jié)果。
表1 不同模型的分割結(jié)果
由表1可知,改進(jìn)ASPP通過(guò)聚合不同尺度的信息增強(qiáng)了模型的判別能力,模型的PA與MIoU相較于基礎(chǔ)模型也增加15.46%和16.54%,且由于采摘點(diǎn)目標(biāo)形狀均為長(zhǎng)條形,使用條形池化減少了不相關(guān)信息的獲取,提高了分割指標(biāo);對(duì)比基礎(chǔ)模型和增加RMHSA模型的結(jié)果發(fā)現(xiàn),增加RMHSA模型的PA與MIoU提升到57.14%、51.42%,表明增加RMHSA模型后,由于高效注意力機(jī)制的引入,模型更加傾向于尋找更有顯著性的特征,實(shí)現(xiàn)強(qiáng)化目標(biāo)、弱化背景的目的;對(duì)比基礎(chǔ)模型+RMHSA+改進(jìn)ASPP與基礎(chǔ)模型的結(jié)果發(fā)現(xiàn),相較于基礎(chǔ)模型,本文模型的PA和 MIoU增加35.74%和37.90%,相較于基礎(chǔ)模型+改進(jìn)ASPP與基礎(chǔ)模型+RMHSA,本文模型在準(zhǔn)確率上有了較大的提升,且在高效注意力機(jī)制以及針對(duì)性多尺度結(jié)構(gòu)的同時(shí)作用下,模型最大程度地保留了有效特征,保證了其向后傳播,減少無(wú)用信息的干擾,促使網(wǎng)絡(luò)更加關(guān)注目標(biāo)物體不同部位的細(xì)節(jié)特征,也提升了目標(biāo)區(qū)域的定位精度,有效組合不同尺度下的特征信息,提高分割精度。
在實(shí)時(shí)性方面,隨著功能模塊的加入,分割模型包含的參數(shù)不斷增加,檢測(cè)速度逐漸降低。其中,基礎(chǔ)模型的參數(shù)數(shù)量最小,檢測(cè)速度最快,RMHSA模塊的加入使基礎(chǔ)模型參數(shù)量增加25.35%,檢測(cè)速度降低12.99%;改進(jìn)ASPP模塊的增加使參數(shù)量增加34.9%,檢測(cè)速度降低22.80%?;谏鲜鰯?shù)據(jù)定性分析,可以得知改進(jìn)ASPP模塊對(duì)模型的運(yùn)行效率和計(jì)算開(kāi)銷(xiāo)影響最大,RHMSA模塊次之。
圖9為表1中5種類(lèi)別模型識(shí)別結(jié)果圖,針對(duì)于分割目標(biāo)的3個(gè)難點(diǎn):目標(biāo)較小、光照強(qiáng)度變化范圍大、背景復(fù)雜,本文選取7幅圖像展示。由圖9可知,基礎(chǔ)模型由于缺少多尺度結(jié)構(gòu)以及有效的注意力機(jī)制,7幅圖像均出現(xiàn)了較大面積的錯(cuò)檢和漏檢?;A(chǔ)模型+RMHSA雖然增加了高效的注意力機(jī)制,相較于基礎(chǔ)模型有較大的進(jìn)步,如圖9中的第1行和第5行,但由于網(wǎng)絡(luò)結(jié)構(gòu)中的多次下采樣,模型損失較多的有效特征,所以造成結(jié)果仍有較多的漏檢和錯(cuò)檢。而基礎(chǔ)模型+ASPP和基礎(chǔ)模型+改進(jìn)ASPP結(jié)果中,由于增加了多尺度結(jié)構(gòu),減少了下采樣的特征丟失,但是由于缺少高效的注意力機(jī)制的引導(dǎo),仍然效果不佳,如圖9中的第2、3、6、7行。而本文所提出的模型結(jié)合殘差多頭自注意力機(jī)制以及改進(jìn)的ASPP的優(yōu)點(diǎn),其識(shí)別結(jié)果相較于標(biāo)注圖像沒(méi)有明顯差距,沒(méi)有大面積的漏檢和錯(cuò)檢,證明使用這兩種結(jié)構(gòu)組合,可有效加強(qiáng)模型的茶芽采摘點(diǎn)的分割能力。
圖9 不同模型的語(yǔ)義分割結(jié)果
2.3.2不同語(yǔ)義分割模型性能對(duì)比
為驗(yàn)證本文所提出的模型具體性能情況,選擇HRNet V2[22]、EfficientUNet++[23]、DeeplabV3+[24]、BiSeNet V2[25]等模型與本文模型進(jìn)行對(duì)比測(cè)試,通過(guò)像素準(zhǔn)確率、區(qū)域重合度、檢測(cè)速度和參數(shù)數(shù)量等指標(biāo)對(duì)模型性能做出評(píng)價(jià)。表2為不同語(yǔ)義分割模型性能參數(shù)對(duì)比。
表2 不同網(wǎng)絡(luò)模型性能對(duì)比
由表2可以看出,在像素準(zhǔn)確率方面,本文模型的平均像素準(zhǔn)確率與平均區(qū)域重合度分別為75.20%、70.78%,比DeeplabV3+分別高7.28、5.36個(gè)百分點(diǎn);比EfficientUNet++分別高0.54、0.92個(gè)百分點(diǎn);比BiSeNet V2分別高9.85、6.87個(gè)百分點(diǎn),主要原因是本文模型引入的殘差多頭自注意力機(jī)制和條形池化的ASPP模塊能夠強(qiáng)化模型各階段判別特征的能力,聚合不同尺度池化區(qū)域獲取有效的全局上下文信息,增加模型對(duì)茶芽采摘點(diǎn)對(duì)象的分割精度;盡管DeeplabV3+也采用空洞卷積金字塔模塊聚合多尺度特征以提高分割準(zhǔn)確性,但由于數(shù)據(jù)集的特殊性,目標(biāo)形態(tài)均為長(zhǎng)條形,造成DeeplabV3+存在像素預(yù)測(cè)不一致性,因此在分割精度方面略低于本文模型。在實(shí)時(shí)性方面,本文采用ConvNeXt作為前置基礎(chǔ)網(wǎng)絡(luò)降低模型計(jì)算量,檢測(cè)速度達(dá)到8.97 f/s,為DeeplabV3+、EfficientUNet++、BiSeNet V2、HRNet V2模型的2.81、2.17、1.37、2.10倍。在參數(shù)量方面,本文模型為2.06×106,低于其他網(wǎng)絡(luò)模型。
在所有對(duì)比模型中,BiSeNet V2的特點(diǎn)是雙路同時(shí)計(jì)算,模型的設(shè)計(jì)過(guò)程中缺乏多個(gè)尺度的圖像特征交換,所以BiSeNet V2并不能很好地解決本文問(wèn)題;HRNet V2以及通過(guò)多次高分辨率特征淺層網(wǎng)絡(luò)與快速下采樣深度網(wǎng)絡(luò)融合,對(duì)于小目標(biāo)的識(shí)別有很好的效果,但是由于自身設(shè)計(jì)的原因,參數(shù)量約為本文模型的7倍,雖在識(shí)別精度上超過(guò)了本文模型,但是在識(shí)別速度上確實(shí)有所差距;而EfficientUNet++使用EfficientNet[26]作為每層的特征提取網(wǎng)絡(luò),同時(shí)使用U-Net[27]的結(jié)構(gòu)來(lái)構(gòu)建網(wǎng)絡(luò),U-Net結(jié)構(gòu)的特點(diǎn)是同時(shí)存在多層特征提取網(wǎng)絡(luò),各層之間通過(guò)下采樣和上采樣相互聯(lián)通,從各項(xiàng)指標(biāo)來(lái)看,雖然EfficientUNet++的精度指標(biāo)與RMHSA-NeXt相近,但是由于EfficientNet的參數(shù)量較高,造成整體的檢測(cè)速度不佳。綜合評(píng)價(jià)上述精度和速度指標(biāo)后,可得MHSA-NeXt模型可以實(shí)現(xiàn)精度與速度的均衡,具有良好的分割性能。
針對(duì)茶葉采摘點(diǎn)存在的目標(biāo)較小、光照強(qiáng)度變化范圍大和背景復(fù)雜問(wèn)題,選出了7幅圖像,圖10為5種模型對(duì)測(cè)試集的分割結(jié)果。
圖10 不同網(wǎng)絡(luò)模型語(yǔ)義分割結(jié)果對(duì)比
從圖10中可知,DeeplabV3+雖然在背景較為簡(jiǎn)單的場(chǎng)景如第2、7行分割效果與標(biāo)注結(jié)果覆蓋區(qū)域相似,但是在較為復(fù)雜的場(chǎng)景如第1、3、4、5行中,均有較大的誤差,尤其在第3行出現(xiàn)了較大面積的錯(cuò)檢,基于結(jié)果,本文認(rèn)為DeeplabV3+分割效果不佳的原因在于缺少高效的注意力機(jī)制和針對(duì)于茶葉采摘點(diǎn)特性的針對(duì)性設(shè)計(jì)。BiSeNet V2識(shí)別效果不佳,雖然在第6行沒(méi)有出現(xiàn)大面積漏檢,但是在第1、3行等都有較為明顯的誤差,說(shuō)明BiSeNet V2的雙路并行計(jì)算的方式并不能很好地解決目標(biāo)小、背景復(fù)雜、光照強(qiáng)度變化范圍大的問(wèn)題。HRNet V2的識(shí)別效果與本文模型識(shí)別效果也如表2所示,檢測(cè)結(jié)果與標(biāo)注差別較小,但其在PA和MIoU指標(biāo)上略高于RMHSA-NeXt,表明多次的高低層級(jí)特征融合能有效利用小目標(biāo)的圖像信息,但是由于層次堆疊過(guò)多模型的整體數(shù)據(jù)量較高,檢測(cè)速度較慢。從本文模型的識(shí)別結(jié)果來(lái)看,圖10中除了在第3行中出現(xiàn)部分漏檢,在其他目標(biāo)中識(shí)別結(jié)果與標(biāo)注圖像基本相差較小,其根據(jù)目標(biāo)的實(shí)際特點(diǎn),設(shè)計(jì)了殘差多頭自注意力模塊和結(jié)合條形池化的ASPP模塊,以較小的參數(shù)量,獲得了較好分割性能。
(1)本文模型在實(shí)際茶園場(chǎng)景下,檢測(cè)結(jié)果的像素準(zhǔn)確率達(dá)到75.20%,MIoU為70.78%,運(yùn)行速度達(dá)到8.97 f/s,解決了該場(chǎng)景下茶葉采摘點(diǎn)目標(biāo)較小、背景復(fù)雜、光照強(qiáng)度變化范圍大等困難,較好地完成了茶葉采摘點(diǎn)語(yǔ)義分割的任務(wù)。
(2)選擇HRNet V2、EfficientUNet++、DeeplabV3+、BiSeNet V2模型與本文模型進(jìn)行對(duì)比測(cè)試,通過(guò)比較像素準(zhǔn)確率、區(qū)域重合度、檢測(cè)速度、參數(shù)數(shù)量等指標(biāo),可以發(fā)現(xiàn)多次不同階段的高低層特征融合可以有效提取小目標(biāo)的顯著特征,但是檢測(cè)速度就會(huì)下降,而本文中提出的兩種特殊結(jié)構(gòu),以相對(duì)較少的參數(shù)量達(dá)到了較高的準(zhǔn)確率,平衡了模型的檢測(cè)速度與準(zhǔn)確率。