曾安,羅琳,潘丹,冼志恒,江旭,冼鈺倫,4,劉立程
(1. 廣東工業(yè)大學(xué)計(jì)算機(jī)學(xué)院,廣州 510006;2. 廣東技術(shù)師范大學(xué)電子與信息學(xué)院,廣州 510665;3. 廣州市卉通農(nóng)業(yè)科技有限公司,廣州 511450;4. 廣州市智卉光田農(nóng)業(yè)科技有限責(zé)任公司,廣州 511430;5. 廣東工業(yè)大學(xué)信息工程學(xué)院,廣州 510006)
植物表型是在植物生長發(fā)育過程中,受基因型與環(huán)境因素動(dòng)態(tài)作用形成的一組物理、生理和生化性狀,可用來直觀反映植物的生長狀況[1]。構(gòu)成植物表型性狀的植物器官通常包括根、葉、莖和果實(shí)等,其中葉器官構(gòu)成了大多數(shù)植物的主要性狀[2]。因此,為了獲取更詳細(xì)的器官水平或植物部位的信息,需要將植物分割成單個(gè)器官。成像技術(shù)具有無損檢測、高通量處理和多特征測量的優(yōu)勢,圖像傳感和分析技術(shù)的進(jìn)步為高通量表型分析提供了新的思路,也促進(jìn)了器官水平的高精度表型分析[3]。此前,基于二維圖像的計(jì)算機(jī)視覺、傳統(tǒng)機(jī)器學(xué)習(xí)和深度學(xué)習(xí)技術(shù)是解決植物分割問題的重要技術(shù)手段。然而,基于二維圖像的植物器官分割方法較難處理葉片之間的重疊和遮擋問題。
近年來基于三維點(diǎn)云的植物三維重建和器官分割逐步成為現(xiàn)代農(nóng)業(yè)信息技術(shù)研究的熱點(diǎn)問題[4]。ELNASHEF等[5]提出了一種基于張量(一階和二階)的分割算法,實(shí)現(xiàn)了植物點(diǎn)云的莖葉分割,并通過一種基于密度的空間聚類算法(density-based spatial clustering of applications with noise,DBSCAN)對單個(gè)葉片進(jìn)行分割。朱超等[6]針對當(dāng)前三維點(diǎn)云分割方法難以精確分割玉米植株頂部新葉的問題,提出了一種基于點(diǎn)云骨架和最優(yōu)傳輸距離的玉米點(diǎn)云莖葉分割方法。LIU等[7]基于多視圖立體(multi-view stereo,MVS)方法重建出油菜三維點(diǎn)云,擴(kuò)展了現(xiàn)有的歐幾里德距離和譜聚類算法,并使用迭代方法實(shí)現(xiàn)油菜點(diǎn)云器官的分割。林承達(dá)等[8]為實(shí)現(xiàn)田間作物群體點(diǎn)云數(shù)據(jù)中單個(gè)植株對象的完整提取與分割以完成作物個(gè)體表型參數(shù)的自動(dòng)測量,該研究提出一種田間作物柱體空間聚類分割方法。彭程等[9]基于機(jī)器人獲取的單株完整番茄點(diǎn)云,利用拉普拉斯收縮的骨架提取算法獲取植株骨架,對骨架進(jìn)行修正后分解為莖稈和葉片子骨架,實(shí)現(xiàn)莖稈葉柄分割;再通過基于區(qū)域生長的Mean Shift 聚類方法對葉片和葉柄進(jìn)行分割。然而,上述點(diǎn)云分割算法大多需要憑借經(jīng)驗(yàn)設(shè)置合理的閾值參數(shù),于是,它們的應(yīng)用會(huì)因分割過程中繁瑣費(fèi)力的參數(shù)調(diào)整而受到限制;同時(shí),在應(yīng)對空間結(jié)構(gòu)復(fù)雜的植物器官分割任務(wù)時(shí),它們依然面臨較大挑戰(zhàn)。
近年來,隨著深度學(xué)習(xí)技術(shù)的發(fā)展,基于深度學(xué)習(xí)的植物點(diǎn)云器官分割成為一項(xiàng)可行的前沿研究。目前的三維點(diǎn)云分割方法主要分為基于多視圖的方法[10-12],基于體素化的方法[13-14]和基于點(diǎn)的方法[15-17]。如NI等[12]基于Mask R-CNN 模型從二維圖像中分割出單個(gè)成熟的藍(lán)莓,并將實(shí)例掩碼投影到三維點(diǎn)云上以建立 2D-3D 對應(yīng)關(guān)系,實(shí)現(xiàn)分割單個(gè)藍(lán)莓點(diǎn)云以獲得漿果數(shù)量、單個(gè)漿果體積和漿果成熟度等性狀。然而多視圖的方法對投影角度和遮擋情況比較敏感,并且投影步驟會(huì)不可避免地會(huì)導(dǎo)致點(diǎn)云的幾何結(jié)構(gòu)信息損失。JIN等[14]基于不同生長階段的玉米植株激光雷達(dá)數(shù)據(jù),提出了一種基于體素的卷積神經(jīng)網(wǎng)絡(luò)(voxel-based convolutional neural network,VCNN)模型,用于玉米植株點(diǎn)云的莖葉分類和分割。此類體素化的方法通常將無序的原始點(diǎn)云進(jìn)行體素化,然后再使用標(biāo)準(zhǔn)的3D 卷積進(jìn)行體素級別的分割。而體素化步驟本身會(huì)引入離散化誤差和信息丟失,并且通常輸入高分辨率的體素網(wǎng)格也意味著高內(nèi)存資源和計(jì)算成本。基于點(diǎn)的方法直接操作不規(guī)則的點(diǎn)云數(shù)據(jù),能夠在點(diǎn)級別上進(jìn)行分類和分割。如GONG L[17]設(shè)計(jì)了Panicle-3D 網(wǎng)絡(luò)模型,利用制作的稻穗點(diǎn)云數(shù)據(jù)集進(jìn)行訓(xùn)練,實(shí)現(xiàn)稻穗和稻稈的分割。WU等[18]改進(jìn)了 PointNet 模型,用于在地面激光掃描數(shù)據(jù)中分離樹葉和木質(zhì)成分。
目前阻礙深度學(xué)習(xí)技術(shù)應(yīng)用于植物點(diǎn)云分割的主要因素包括3個(gè)方面:1)點(diǎn)云數(shù)據(jù)是非結(jié)構(gòu)化、不規(guī)則和無序的;2)缺乏有標(biāo)注的植物三維點(diǎn)云數(shù)據(jù)集,目前常見3D 點(diǎn)云分割數(shù)據(jù)集包括Stanford 大型室內(nèi)場景RGB-D數(shù)據(jù)集S3DIS[19],以及應(yīng)用于自動(dòng)駕駛的戶外大規(guī)模點(diǎn)云數(shù)據(jù)集KITTI[20];3)在點(diǎn)級別上難以同時(shí)實(shí)現(xiàn)植物器官語義分割和實(shí)例分割,無法有效分離出莖、葉器官和單片葉片。為了解決上述問題,該文首先搭建出一套低成本的多視角圖像采集平臺(tái),用來采集植株多個(gè)角度的二維圖像,結(jié)合運(yùn)動(dòng)恢復(fù)結(jié)構(gòu)(structure from motion,SFM)算法進(jìn)行三維重建[21]以構(gòu)造彩葉芋三維點(diǎn)云數(shù)據(jù)集?;诓嗜~芋點(diǎn)云數(shù)據(jù)集,該文提出了一種基于三維點(diǎn)云的植物多任務(wù)分割網(wǎng)絡(luò)(a multi-task segmentation network for plant on 3D point cloud,MT-SegNet)執(zhí)行兩項(xiàng)任務(wù):預(yù)測點(diǎn)的語義類別并將點(diǎn)嵌入到高維向量中,以便通過類似的嵌入將點(diǎn)聚類到相同實(shí)例中。在該網(wǎng)絡(luò)中,針對以往池化操作在聚合鄰域點(diǎn)特征時(shí)導(dǎo)致的信息丟失問題,該文設(shè)計(jì)出一種多頭注意力池化模塊(multihead attentive pooling module,MAPM),能自動(dòng)學(xué)習(xí)重要的鄰域點(diǎn)特征和捕捉到點(diǎn)之間的特征依賴關(guān)系。最后,使用多值條件隨機(jī)場(multi-value conditional random field,MV-CRF)模型結(jié)合語義標(biāo)簽和實(shí)例標(biāo)簽進(jìn)行多任務(wù)的聯(lián)合優(yōu)化,最終實(shí)現(xiàn)莖-葉的語義分割和葉的實(shí)例分割。
本研究以廣州市某花卉培養(yǎng)基地的175 株彩葉芋作為試驗(yàn)對象,每株彩葉芋的葉片數(shù)量為 3~7 片,葉片在莖上高度位置不一且葉片大小不均。為了獲取高精度的二維圖像,該文搭建了一個(gè)專門用于采集二維圖像數(shù)據(jù)的圖像采集平臺(tái),該平臺(tái)主要包括以下4個(gè)部分。該文利用Python 程序控制3個(gè)攝像頭進(jìn)行拍攝,每個(gè)攝像頭拍攝60 張二維圖像,全部保存為JPG 格式,都設(shè)置為相同的分辨率。該圖像采集平臺(tái)的組成如下所示:
1)框架:包括白色的背景板和在光線不足的時(shí)候進(jìn)行補(bǔ)光的LED 燈管設(shè)備;
2)支架:用來固定攝像頭的位置;
3)圓形轉(zhuǎn)盤:放置彩葉芋植株,讓植株隨著轉(zhuǎn)盤在特定的運(yùn)動(dòng)軌跡上旋轉(zhuǎn);
4)攝像頭:選用3個(gè)800 萬像素的攝像頭等間距地固定在支架上。為了保證平臺(tái)的穩(wěn)定性,整個(gè)拍攝過程都將攝像頭設(shè)置為自動(dòng)對焦模式,同時(shí)保證攝像頭各參數(shù)在拍攝過程中保持不變。
該文將得到的多張不同角度的二維圖像輸入三維建模軟件RealityCapture 中,使用運(yùn)動(dòng)恢復(fù)結(jié)構(gòu)(structure from motion,SFM)算法[22]和多視角立體集群算法(cluster multi view stereo,CMVS)算法[23]進(jìn)行三維重建。為了更好的可視化,進(jìn)行了網(wǎng)格和紋理處理。接著,使用顏色濾波去除標(biāo)簽紙、泥土等與植物部分無關(guān)的點(diǎn)。受環(huán)境因素、采集設(shè)備等的限制,點(diǎn)云數(shù)據(jù)不可避免地受到噪聲的干擾。造成點(diǎn)云噪聲的原因歸結(jié)為兩種:離群點(diǎn)和噪聲點(diǎn)[24]。噪聲主要分布于葉片的表面周圍,主要來源于葉片表面反光和相互遮擋等原因造成的特征點(diǎn)匹配錯(cuò)誤而產(chǎn)生的錯(cuò)誤點(diǎn)。為了去除噪聲,同時(shí)由于點(diǎn)云數(shù)據(jù)密度不規(guī)則需要平滑,對下采樣后的彩葉芋點(diǎn)云使用統(tǒng)計(jì)濾波去除點(diǎn)云中的噪聲。為了提高精度和計(jì)算效率,結(jié)合體素濾波對植物點(diǎn)云進(jìn)行降采樣以降低原始點(diǎn)云密度。最后,該文利用三維點(diǎn)云處理軟件CloudCompare[25]中的分割工具進(jìn)行人工標(biāo)注。其中,語義標(biāo)注是將點(diǎn)云中的每個(gè)點(diǎn)都標(biāo)注為葉(Leaf)、莖(Stem)或者非植物(NonPlant)這三類中的一類,而實(shí)例標(biāo)注是將不同葉片標(biāo)注為不同的實(shí)例。該文對通過上述方式獲得的點(diǎn)云數(shù)據(jù)進(jìn)行一系列旋轉(zhuǎn)、縮放和加入高斯噪聲等數(shù)據(jù)增強(qiáng)操作后,得到總共包含3 300個(gè)彩葉芋點(diǎn)云樣本的數(shù)據(jù)集,并將其按照2:1 的比例分為訓(xùn)練集和測試集。
該文方法屬于兩階段模型:首先通過重疊的3D 窗口掃描彩葉芋點(diǎn)云,將其分塊輸入植物點(diǎn)云多任務(wù)分割網(wǎng)絡(luò)MT-SegNet 中獲得每個(gè)點(diǎn)vj的語義預(yù)測和實(shí)例嵌入結(jié)果;作為后處理步驟,將MT-SegNet 中獲得的語義預(yù)測和實(shí)例嵌入結(jié)果同時(shí)輸入到MV-CRF 中結(jié)合語義標(biāo)簽和實(shí)例標(biāo)簽進(jìn)行聯(lián)合優(yōu)化,它引入對語義和目標(biāo)本身的約束,不斷調(diào)整目前的分割結(jié)果。
每個(gè)點(diǎn)云塊中的每個(gè)點(diǎn)由一個(gè)九維(9D)向量表示,包括xyz坐標(biāo)和rgb顏色信息,以及每個(gè)點(diǎn)相對于所在點(diǎn)云塊的位置坐標(biāo)分別將這些點(diǎn)云塊輸入網(wǎng)絡(luò)中用于模型訓(xùn)練,每個(gè)塊中的點(diǎn)云都將被網(wǎng)絡(luò)單獨(dú)分割,最后將從各個(gè)點(diǎn)云塊的語義預(yù)測結(jié)合起來得到一個(gè)完整的分割結(jié)果。如圖1 所示,MT-SegNet 采用帶有跳躍連接的編碼器-解碼器架構(gòu),可用來單獨(dú)作為一個(gè)語義分割網(wǎng)絡(luò)。它主要由3個(gè)模塊組成:多頭注意力池化模塊、下采樣模塊和上采樣模塊。輸入點(diǎn)云(N,D)首先經(jīng)過一個(gè)多層感知機(jī)(multilayer perceptron,MLP)層提取每個(gè)點(diǎn)的特征.該文設(shè)置點(diǎn)云的點(diǎn)數(shù)N為1 024,特征維度D為9。然后使用4個(gè)編碼層來減少點(diǎn)的數(shù)量,同時(shí)增加每個(gè)點(diǎn)的特征維度,其中每個(gè)編碼層都包含一個(gè)多頭注意力池化模塊和一個(gè)下采樣模塊。點(diǎn)云以四倍的速率下采樣,也就是每層后僅保留 25% 的點(diǎn),即(N→N/4→N/16→N/64→N/256),同時(shí)增加每個(gè)點(diǎn)的特征維數(shù),即(32→64→128→256→512)。之后,使用4個(gè)解碼層將點(diǎn)云的點(diǎn)數(shù)恢復(fù)為N,其中每個(gè)解碼層包括一個(gè)上采樣模塊和MLP 層,通過跳躍連接融合來自解碼器階段的高級特征和編碼器階段對應(yīng)尺度的低級特征。通過一個(gè)全連接(fully connected layers,F(xiàn)C)層后,MTSegNet 分成兩個(gè)不同的分支,分別執(zhí)行兩項(xiàng)任務(wù):預(yù)測3D 點(diǎn)的語義類別和將這些點(diǎn)嵌入到高維特征向量中,從而方便將這些點(diǎn)聚類為對象實(shí)例。最終網(wǎng)絡(luò)輸出N×C1和N×C2 的矩陣,其中C1 為類別數(shù),C2 為實(shí)例嵌入的維數(shù),分別設(shè)置為3 和32。
圖1 MT-SegNet 網(wǎng)絡(luò)架構(gòu)圖Fig.1 Architecture of a multi-task segmentation network for plant on 3D point cloud (MT-SegNet)
1.3.1 多頭注意力池化模塊
為避免使用最大池化、平均池化等操作而引起的鄰域特征信息丟失問題,該文引入多頭注意力池化模塊(multi-head attentive pooling module,MAPM)來自動(dòng)聚合鄰域點(diǎn)的特征,模塊結(jié)構(gòu)圖如圖2 所示。它能夠通過自動(dòng)學(xué)習(xí)的方式獲取到一組鄰域點(diǎn)特征的注意力分?jǐn)?shù),作為權(quán)重與每個(gè)點(diǎn)特征相乘再求和得到聚合特征。然后將加權(quán)得到的特征輸入殘差模塊進(jìn)一步提取深度的聚合特征,并采用多頭注意力機(jī)制聚合不同的注意力池化模塊(attentive pooling module,APM)提取到的特征信息,進(jìn)一步提高網(wǎng)絡(luò)的特征學(xué)習(xí)能力。
圖2 多頭注意力池化模塊MAPM 結(jié)構(gòu)圖Fig.2 Structure of the multi-head attentive pooling module (MAPM)
將全局特征Fi輸入殘差模塊進(jìn)一步提取深度聚合特征,其中殘差連接表示為MLP(x)+x,MLP 由兩個(gè)共享的MLP 層帶著BatchNorm(BN)歸一化層和ReLU 激活函數(shù)組合而成。最后將多個(gè)頭的輸出特征進(jìn)行拼接,式如(4)所示。式中m代表當(dāng)前的注意力頭部編號,M是注意力頭的個(gè)數(shù),本文設(shè)置為4。
1.3.2 下采樣模塊
1.3.3 上采樣模塊
本研究的所有試驗(yàn)均在AMD EPYC 7 302 16-Core Processor CPU、主頻3.00 GHz,NVIDIA GeForce RTX 3 090 GPU 的 64 位服務(wù)器上進(jìn)行,服務(wù)器運(yùn)行在Linux CentOS 8 系統(tǒng)下,運(yùn)算平臺(tái)為CUDA-Toolkit 11.1,采用Cudnn 8.0.5 作為網(wǎng)絡(luò)的GPU 加速庫,深度學(xué)習(xí)框架為Pytorch,版本為1.8.1。在試驗(yàn)中,網(wǎng)絡(luò)訓(xùn)練的批量大小batch size 全部設(shè)置為16,初始學(xué)習(xí)率設(shè)置為0.001,網(wǎng)絡(luò)模型的訓(xùn)練迭代次數(shù)epoch 設(shè)為50,每 20個(gè)epoch 學(xué)習(xí)率降低50%。訓(xùn)練過程采用基于動(dòng)量的隨機(jī)梯度下降優(yōu)化算法用于優(yōu)化網(wǎng)絡(luò),設(shè)置動(dòng)量為 0.9,權(quán)重衰減系數(shù)為 0.000 5。
MT-SegNet 分成兩個(gè)獨(dú)立的分支,分別執(zhí)行兩個(gè)任務(wù):預(yù)測3D 點(diǎn)的語義標(biāo)簽和創(chuàng)建點(diǎn)的實(shí)例嵌入,所以MT-SegNet 的損失是其兩個(gè)分支損失之和。
針對語義分割任務(wù),該文對所提出的植物分割網(wǎng)絡(luò)的性能在點(diǎn)級別進(jìn)行了評估。使用常用的語義類別的交并比(IoU)、準(zhǔn)確率(P)、召回率(R)和F1 分?jǐn)?shù)作為評估指標(biāo)。針對實(shí)例分割任務(wù),該文使用平均準(zhǔn)確率(mean precision,mP)、平均召回率(mean recall,mR)、平均實(shí)例覆蓋率(mean coverage,mC)和平均加權(quán)實(shí)例覆蓋率(mean weighted coverage,mWC)在實(shí)例級別和點(diǎn)級別上評估該任務(wù)。
該文基于構(gòu)建的彩葉芋點(diǎn)云數(shù)據(jù)集,在語義分割任務(wù)中評估了MT-SegNet 的獨(dú)立語義分割性能以及使用MV-CRF 進(jìn)行聯(lián)合優(yōu)化的分割性能,并與其他主流的深度學(xué)習(xí)點(diǎn)云分割網(wǎng)絡(luò)進(jìn)行了對比。其中PointNet[15]、PointNet++[16]、DGCNN[26]、PointWeb[27]只能進(jìn)行語義分割。JSIS3D[28]、ASIS[29]、JSNet[30]是雙功能的分割網(wǎng)絡(luò),可同時(shí)進(jìn)行語義分割和實(shí)例分割。該文對以上文獻(xiàn)算法實(shí)現(xiàn)后基于評估指標(biāo)在彩葉芋點(diǎn)云測試集上的語義分割結(jié)果進(jìn)行定量對比分析,對比方法結(jié)果如表1 所示。
表1 不同深度學(xué)習(xí)網(wǎng)絡(luò)語義分割性能的比較Table 1 Comparison of the semantic segmentation performance of proposed method with different deep learning networks %
從表中可以看出,該文提出的模型在IoU、P、R和F1 分?jǐn)?shù)平均值分別達(dá)到了84.54%、93.64%、91.39%、92.48%,在大多數(shù)情況下都實(shí)現(xiàn)了最佳的語義分割性能。與雙功能網(wǎng)絡(luò)ASIS、JSNet 相比,該文方法(MT-SegNet +MV-CRF)實(shí)現(xiàn)了多任務(wù)分割的同時(shí)保持了最佳的語義分割效果。另外,表1 的結(jié)果表明,在所有分割網(wǎng)絡(luò)中,莖的準(zhǔn)確率一般都低于其他兩種。這種現(xiàn)象可能有兩個(gè)原因:1)莖部的復(fù)雜空間結(jié)構(gòu)使其比葉子更難被分割;2)莖的點(diǎn)數(shù)遠(yuǎn)小于葉的點(diǎn)數(shù),每個(gè)預(yù)測錯(cuò)誤的點(diǎn)對莖的分割精度影響相對比較大。
葉的語義分割中,如何精確地定位莖和葉片之間的連接邊界是提高植物分割精度的關(guān)鍵。圖3 顯示了該文方法在不同的植物生長周期內(nèi)選擇的彩葉芋點(diǎn)云分割可視化結(jié)果。在彩葉芋點(diǎn)云3 號中,可見葉片與莖的連接處能夠定位出來,顯示出良好的分割結(jié)果。且它能靈敏的檢測到新長出來的小葉和即將凋謝的葉片并把它們分割出來,如圖3 所示,成功檢測出彩葉芋點(diǎn)云1、2 號中主莖中分叉處新長出的小葉和彩葉芋點(diǎn)云4 號中與盆混為一體的即將枯萎的葉片。
圖3 彩葉芋植株點(diǎn)云語義分割的可視化結(jié)果示例Fig.3 Example of visualization results for semantic segmentation of colored-leaf taro point clouds,
該文使用IoU 閾值為0.5 下的mP、mR、mC 和mWC來評估實(shí)例分割性能,將Mean-Shift 聚類算法應(yīng)用于MTSegNet 的實(shí)例嵌入方法稱為MT-SegNet+Mean-Shift,將使用多值條件隨機(jī)場模型進(jìn)行聯(lián)合優(yōu)化的方法稱為MTSegNet+MV-CRF。并與現(xiàn)有的雙功能深度學(xué)習(xí)網(wǎng)絡(luò)ASIS、JSNet 和JSIS3D 的分割結(jié)果進(jìn)行了定量比較,在彩葉芋點(diǎn)云測試數(shù)據(jù)集上的葉實(shí)例分割結(jié)果如表2 所示。
表2 本文網(wǎng)絡(luò)與其他網(wǎng)絡(luò)的實(shí)例分割性能比較Table 2 Comparison of the instance segmentation performance of proposed network with other networks %
試驗(yàn)結(jié)果表明,MT-SegNet 在內(nèi)的兩種模型在彩葉芋點(diǎn)云的葉實(shí)例分割中的定量衡量指標(biāo)都達(dá)到70%以上,在葉上面展示出了良好的實(shí)例分割性能。另外,MTSegNet+MV-CRF 方法的實(shí)例分割指標(biāo)值mP、mR 與MT-SegNet+Mean-Shift 方法相比提高了約3個(gè)百分點(diǎn),表明使用多值條件隨機(jī)場模型優(yōu)化能夠顯著提高實(shí)例分割的性能。葉實(shí)例分割的最大難點(diǎn)是葉的重疊問題,圖4 中展示了在葉片數(shù)較多且容易發(fā)生葉片之間的覆蓋重疊情況下,彩葉芋點(diǎn)云葉實(shí)例分割的可視化結(jié)果。雖然在莖、葉和重疊葉片的交界處仍然存在部分錯(cuò)誤分割的點(diǎn),但彩葉芋點(diǎn)云的全部葉片和莖都被幾乎完整地分割為單個(gè)實(shí)例,可見其在一些葉片覆蓋比較嚴(yán)重的彩葉芋點(diǎn)云植株中也能取得較好的分割效果。
圖4 彩葉芋植株點(diǎn)云實(shí)例分割的可視化結(jié)果示例Fig.4 Example of visualization results for instance segmentation of colored-leaved taro point clouds
該文設(shè)計(jì)了單獨(dú)的消融試驗(yàn)來驗(yàn)證MT-SegNet 中的模塊對植物分割任務(wù)的有效性,包括下采樣中的位置編碼模塊以及多頭注意力池化模塊和殘差模塊,試驗(yàn)結(jié)果如表3 和表4 所示。從表3 和表4 可以看出添加其中的任何一個(gè)模塊都會(huì)提高網(wǎng)絡(luò)的分割性能。
表3 彩葉芋點(diǎn)云語義分割的消融試驗(yàn)分析Table 3 Ablation experimental analysis of semantic segmentation of point clouds of colored-leaved taro plants %
表4 彩葉芋點(diǎn)云實(shí)例分割的消融試驗(yàn)分析Table 4 Ablation experimental analysis of instance segmentation of point clouds of colored-leaved taro plants %
從A2、A4 對比結(jié)果可見,其中添加多頭注意力池化模塊對網(wǎng)絡(luò)分割性能的提升比較明顯,其語義分割指標(biāo)IoU、P、R和F1 分?jǐn)?shù)的平均值分別都提高2個(gè)百分點(diǎn)左右,實(shí)例分割指標(biāo)mP、mR、mC 和mWC 值的增長幅度為5~9個(gè)百分點(diǎn)。多頭注意力池化模塊能根據(jù)學(xué)習(xí)到的注意力權(quán)重,捕捉到鄰域點(diǎn)之間的重要特征并進(jìn)行加權(quán)聚合得到全局特征,從而有效提升了語義分割和實(shí)例分割性能。從A1、A4 對比結(jié)果中可見,其次對MTSegNet 比較重要的是位置編碼模塊,該模塊對空間中三維點(diǎn)位置編碼,網(wǎng)絡(luò)能夠?qū)W習(xí)到植物點(diǎn)云的局部幾何結(jié)構(gòu)信息。從表中可以看出,語義分割指標(biāo)值IoU 提高1.37個(gè)百分點(diǎn),實(shí)例分割指標(biāo)mR 提高8個(gè)百分點(diǎn)左右。從A3、A4 結(jié)果中可見,當(dāng)添加殘差模塊時(shí),網(wǎng)絡(luò)的4個(gè)語義分割指標(biāo)的平均值都提高了1個(gè)百分點(diǎn)左右,實(shí)例分割指標(biāo)mC 和mWC 提高了4個(gè)百分點(diǎn)左右,對網(wǎng)絡(luò)的分割性能影響最小。
基于完整的MT-SegNet 網(wǎng)絡(luò)即A4 版本,該文研究了鄰域的設(shè)置用于確定每個(gè)中心點(diǎn)周圍的局部鄰域大小對網(wǎng)絡(luò)性能的影響。當(dāng)設(shè)置不同的鄰域K時(shí),該網(wǎng)絡(luò)的語義分割和實(shí)例分割評估指標(biāo)值的變化表5 所示。隨著局部鄰域K的增大,其語義分割指標(biāo)平均的IoU、P、R和F1 分?jǐn)?shù)以及實(shí)例分割指標(biāo)mP、mR、mC 和mWC 值先是提高,然后隨著波動(dòng)而下降,當(dāng)K設(shè)置為16 時(shí),語義分割和實(shí)例分割的精度均達(dá)到最高。當(dāng)鄰域設(shè)置較?。ㄈ鏚=4)時(shí),網(wǎng)絡(luò)可能無法捕獲足夠的上下文信息進(jìn)行預(yù)測,而當(dāng)鄰域設(shè)置過大(如K=64)時(shí),這其中可能包含一些距離中心點(diǎn)很遠(yuǎn)且相關(guān)性較低的點(diǎn),不可避免地在處理過程中引入過多的噪聲,導(dǎo)致計(jì)算成本升高且降低網(wǎng)絡(luò)的準(zhǔn)確率。
表5 不同鄰域K 設(shè)置下對MT-SegNet 網(wǎng)絡(luò)性能的定量分析Table 5 Quantitative analysis of MT-SegNet performance under different neighborhood K settings %
植物點(diǎn)云的器官分割在實(shí)現(xiàn)無損、高通量自動(dòng)化表型測量中具有重要意義。聚焦現(xiàn)代農(nóng)業(yè)應(yīng)用中植物器官分割存在的挑戰(zhàn)性問題,本文針對不同生長環(huán)境下培育的彩葉芋植株,首先搭建數(shù)據(jù)采集平臺(tái)獲得多角度的二維圖像,通過三維重建得到植株的三維點(diǎn)云。然后進(jìn)行點(diǎn)云預(yù)處理以生成干凈的彩葉芋三維點(diǎn)云數(shù)據(jù),并通過人工標(biāo)注、數(shù)據(jù)增強(qiáng)等步驟,最終獲得包含3 300個(gè)彩葉芋點(diǎn)云的數(shù)據(jù)集。然后,本文提出了一個(gè)雙功能的植物分割網(wǎng)絡(luò)MT-SegNet,其分為兩個(gè)分支,執(zhí)行兩項(xiàng)任務(wù):預(yù)測點(diǎn)的語義標(biāo)簽及將點(diǎn)嵌入到高維的特征向量中,從而便于將這些點(diǎn)聚類為實(shí)例。
在MT-SegNet 中,本文提出一種基于注意力機(jī)制的多頭注意力池化模塊,能自動(dòng)學(xué)習(xí)到重要的鄰域點(diǎn)特征和捕捉鄰域之間的特征依賴關(guān)系。它為每個(gè)鄰域點(diǎn)特征學(xué)習(xí)得到一個(gè)注意力權(quán)重,然后加權(quán)聚合得到有利于提高分割性能的全局特征。最后結(jié)合語義標(biāo)簽和實(shí)例標(biāo)簽,使用MV-CRF 進(jìn)行多任務(wù)的聯(lián)合優(yōu)化,最終實(shí)現(xiàn)彩葉芋三維點(diǎn)云的莖葉語義分割和葉的實(shí)例分割。在語義分割和實(shí)例分割任務(wù)中,本文方法的語義分割指標(biāo)平均的交并比、準(zhǔn)確率、召回率和F1 分?jǐn)?shù)分別達(dá)到84.54%、93.64%、91.39%、92.48%,實(shí)例分割指標(biāo)平均準(zhǔn)確率、平均召回率、平均實(shí)例覆蓋率和平均加權(quán)實(shí)例覆蓋率分別達(dá)到88.10%、78.44%、76.24%、76.93%。試驗(yàn)結(jié)果表明,與現(xiàn)有方法相比,本文方法在彩葉芋點(diǎn)云測試數(shù)據(jù)集上達(dá)到了最佳的分割性能。
此外,MT-SegNet 也有一定的局限性。網(wǎng)絡(luò)的性能與數(shù)據(jù)集的大小呈正相關(guān),與二維圖像的采集和標(biāo)注相比,現(xiàn)實(shí)中點(diǎn)云的采集和標(biāo)注耗時(shí)且容易出錯(cuò)。當(dāng)新葉被莖包裹時(shí),往往無法正確標(biāo)記類別,植物各個(gè)部分的邊緣標(biāo)記模糊也是造成分割錯(cuò)誤的原因之一。未來將重點(diǎn)關(guān)注以下方面,首先,使用不同的3D 成像和重建工具收集更高精度的植物三維點(diǎn)云數(shù)據(jù),并將更多的植物種類引入到數(shù)據(jù)集中。其次,為了降低數(shù)據(jù)標(biāo)注中的人工成本,可以考慮使用模擬器合成數(shù)據(jù)的方法來幫助增加植物三維點(diǎn)云數(shù)據(jù)進(jìn)行網(wǎng)絡(luò)訓(xùn)練。最后,設(shè)計(jì)出更適合處理3D 植物結(jié)構(gòu)的深度學(xué)習(xí)網(wǎng)絡(luò)模型以進(jìn)一步提升植物三維點(diǎn)云分割的效果和效率,滿足農(nóng)業(yè)應(yīng)用中特定場景的實(shí)時(shí)需求。