基于改進Deeplabv3+模型的果樹語義分割研究

2024-04-29 17:22:40黎遠江李云伍趙穎臺少瑜王克超

中國農(nóng)機化學(xué)報 2024年1期

黎遠江李云伍趙穎臺少瑜王克超

摘要：針對丘陵山區(qū)果園存在地形、光線、邊界干擾等環(huán)境因素對單株果樹難以精準識別分割的問題，提出一種改進的高精度Deeplabv3+語義分割網(wǎng)絡(luò)模型。首先，該模型以ResNet50為主干網(wǎng)絡(luò)提取特征，引入金字塔拆分注意力（PSA）機制，獲得更清晰的果樹輪廓邊界信息；繼而，將條紋池化（SP）模塊串聯(lián)到解碼部分，通過SP加強特征提取，分別沿水平和垂直維度獲取豐富的上下文信息，擴大感受野范圍并保證信息完整性和連續(xù)性。通過語義分割可得以下結(jié)論：在使用Labelme工具進行自主圖像標注的丘陵山區(qū)果樹樹冠圖像數(shù)據(jù)集中，果樹單株識別分割準確率PA為98.91%，果樹分割的平均交并比MIoU為74.94%，相較于PSPNet、UNet、FCN和Deeplabv3+，PA分別提高2.5%、1.88%、1.03%和1.85%，MIoU分別提高10.93%、8.19%、2.78%、5.73%，有較明顯的數(shù)據(jù)提升。該研究成果可為智能農(nóng)業(yè)裝備在果園對靶噴藥、長勢識別等精細化作業(yè)方面提供數(shù)據(jù)支撐。

關(guān)鍵詞：果樹；樹冠分割；Deeplabv3+；語義分割；條狀池化；注意力機制

中圖分類號：TP391.4： S126

文獻標識碼：A

Research on semantic segmentation of fruit trees based on improved Deeplabv3+ model

Abstract：

In order to solve the problem that it was difficult to accurately identify and segment individual fruit trees in hilly and mountainous orchards due to environmental factors such as terrain， light and boundary interference， an improved high-precision Deeplabv3+ semantic segmentation network model was proposed. Firstly， features were extracted from ResNet50 main trunk network， and pyramid splitting attention （PSA） mechanism was introduced to obtain clearer fruit tree contour boundary information. Then， the stripe pooling （SP） module was connected to the decoding part in series， and the feature extraction was enhanced by SP to obtain rich context information along the horizontal and vertical dimensions respectively， which expanded the range of sensitivity field and ensures the integrity and continuity of information. Through semantic segmentation， it could be concluded that in the tree crown image data set of fruit trees in hilly and mountainous areas with autonomous image annotation using Labelme tool， the identification and segmentation accuracy of individual fruit trees was 98.91%， and the average intersection ratio of fruit tree segmentation was 74.94%. Compared with PSPNet， UNet， FCN and Deeplabv3+， PA was increased by 2.5%， 1.88%， 1.03% and 1.85% respectively， while MIoU was increased by 10.93%， 8.19%， 2.78% and 5.73% respectively， there was obvious improvement data. The research results could provide data support for intelligent agricultural equipment in fine operations such as target spraying and growth identification in orchards.

Keywords：

fruit tree; crown segmentation; Deeplabv3+; semantic segmentation; strip pooling; attention mechanism

0 引言

丘陵山區(qū)占據(jù)我國陸地面積的67%，受限于丘陵山地道路狹小的特殊環(huán)境，制約了丘陵山區(qū)農(nóng)業(yè)現(xiàn)代化的發(fā)展［1］。在我國農(nóng)業(yè)種植產(chǎn)業(yè)中，水果種植位居前三，而丘陵山區(qū)氣候極適合水果的種植，因此，對丘陵山區(qū)果園的精準管理是建設(shè)現(xiàn)代化果園的必然趨勢。由于光照、環(huán)境等因素的影響，不同果樹之間存在差異性，基于視覺的方式對果樹進行分割識別，根據(jù)果樹的不同大小按照相應(yīng)的方式開展作業(yè)，在對靶噴霧、果樹長勢識別、藥量的高效利用、減少環(huán)境污染等方面具有重要意義［2］。

不同果樹的冠形、冠徑、果樹之間的株間距等復(fù)雜情況為果樹樹冠的快速準確識別帶來了一定的難度［3］。目前，國內(nèi)外對果樹的分割識別已經(jīng)做了很多研究。Csillik等［4］提出了一種由簡單線性迭代聚類算法派生的超像素進行分類細化的方法，對無人機拍攝的柑橘樹圖像進行識別檢測；張先潔等［5］基于線性迭代聚類超像素分割算法對果樹冠層進行分割，可對果樹樹冠與雜草的綠色區(qū)域進行分離。通過聚類算法能有效地對果樹進行分割，但對于圖像的高級語義信息提取不足，易受到環(huán)境因素的影響。基于深度學(xué)習(xí)的語義分割技術(shù)是被廣泛使用的一種應(yīng)用于復(fù)雜場景的解析方法［6］。王輝等［7］采用Mask R-CNN方法對單株柑橘樹樹冠實現(xiàn)了精準識別；韓蕊等［8］聯(lián)合VGG16和UNet網(wǎng)絡(luò)，使用VGG16獲得柑橘樹的最佳光譜特征后，利用UNet對柑橘樹冠進行分割；畢松等［9］使用Darknet19網(wǎng)絡(luò)作為特征提取模塊，加入遷移學(xué)習(xí)的方法避免過擬合問題，最后通過非極大值抑制算法來修正多重檢測；Liu等［10］使用ResNet152對自然狀態(tài)下的正常柑橘進行識別并獲得了較為良好的預(yù)測結(jié)果；黃彥曉等［11］在Faster R-CNN模型中將ResNet101作為基礎(chǔ)特征提取主干網(wǎng)絡(luò)，從而減少信息丟失的情況，通過利用殘差結(jié)構(gòu)避免了由于網(wǎng)絡(luò)深度加深而來的梯度消失的問題；Lin等［12］重構(gòu)了一種多尺度特征金字塔結(jié)構(gòu)，憑借自上而下的架構(gòu)，利用橫向連接，在所有尺度上構(gòu)建高級語義特征圖?；谏疃葘W(xué)習(xí)的語義分割方法，在果樹分割上有著較高的分割準確率，但是模型復(fù)雜度較高、推理速度較慢、缺乏空間信息，又會導(dǎo)致邊緣分割精度不足。Majeed等［13］利用Kinect獲取果樹樹冠的點云數(shù)據(jù)，從點云數(shù)據(jù)中提取深度和RGB信息，并采用SegNet網(wǎng)絡(luò)分割出具有共同外觀和特征的樹冠和枝干；Wu等［14］采用激光雷達獲取樹冠點云數(shù)據(jù)，將樹冠的層次結(jié)構(gòu)用等高線表示，以局部輪廓法對樹冠進行分割，該方法能夠有效地將樹冠以點云的方式進行識別，在體積測算方面具有較高的準確性，但是點云數(shù)據(jù)僅能保證樹冠信息的精確提取，在樹干部分尤其是樹干與雜草重合部分無法準確分割。

綜合以上研究表明，經(jīng)典的語義分割模型在對果樹信息提取時精度不高、模型參數(shù)量較大、推理速度慢，而現(xiàn)有改進模型中，對于雜草和樹干重疊、光線變化等復(fù)雜的場景分割存在誤差，精度較高的模型又帶來了計算復(fù)雜度，對于硬件要求較高。針對上述問題，本文設(shè)計了一種改進的Deeplabv3+高效語義分割模型，實現(xiàn)在復(fù)雜環(huán)境下的果樹樹冠精準分割，并對比不同算法在樹冠識別上精度的差異。

1 樣本采集

圖像采集設(shè)備選用Stereo Camera ZED雙目攝像頭，對樹冠進行左、右圖像的同步采集，保證其在真實世界的尺度。首先通過Matlab 2021a中的Stereo Camera Calibrator標定工具箱對雙目攝像頭進行標定計算，得到左、右目相機的焦距、中心點以及旋轉(zhuǎn)矩陣等內(nèi)外參數(shù)。采用1 920像素×1 080像素的圖像分辨率，以15 fps的幀率對柑橘園果樹進行圖像采集，所采集的柑橘樹樹齡在3～4年，果園機耕道寬約2～4 m，果樹之間的間隙約1～1.5 m，采集時樹高約1.5～2.3 m。重慶地區(qū)夏季草木較為茂盛，氣候適宜，采集的果樹樹冠圖像如圖1所示，為了保證采集數(shù)據(jù)的多樣性與適用性，同時能夠?qū)ι疃葘W(xué)習(xí)神經(jīng)網(wǎng)絡(luò)更加客觀地評估，選取不同氣候條件（晴天、陰雨天、多云）和客觀場景（背光、雜草遮擋）進行采集，對采集到的圖像進行篩選，保存圖像中較為清晰的果樹圖片。由于所采集到的圖像數(shù)據(jù)集圖片數(shù)量較少，而對于復(fù)雜多變的樹冠形狀、果園場景等難以完全覆蓋，圖像樣本也存在分布不均勻的現(xiàn)象。因此，通過幾何變換（旋轉(zhuǎn)、鏡像、翻轉(zhuǎn)）以及顏色變換（亮度、對比度、飽和度、銳化）等數(shù)據(jù)增強手段［1517］，使得圖像數(shù)據(jù)樣本更加豐富、均勻，有效地增強了模型的魯棒性，數(shù)據(jù)增強后的圖片如圖2所示。

數(shù)據(jù)增強后共計14 400張圖片，以8∶1∶1的比例進行劃分數(shù)據(jù)集，分別獲得訓(xùn)練集11 520張、驗證集1 440張和測試集1 440張，使用開源標注軟件Labelme對圖像進行標注，并將所拍攝的果樹圖像像素內(nèi)容分為Stock（樹干）、Crown（樹冠）以及Background（背景）3類，最后將Labelme標注得到的.json格式的文件通過OpenCV進行轉(zhuǎn)換獲得.png格式的標簽圖像。原圖與標簽圖像如圖3所示。

2 模型構(gòu)建與優(yōu)化

2.1 Deeplabv3+網(wǎng)絡(luò)模型

Deeplabv3+網(wǎng)絡(luò)由編碼器和解碼器兩部分組成，以Mobilenetv2作為主干網(wǎng)絡(luò)進行特征提取，主干網(wǎng)絡(luò)輸出兩個特征層，主特征層作為輸入進行編碼器，通過加強特征提取結(jié)構(gòu)進行信息提取，降維以后，輸出到解碼器；解碼器接收淺層特征并與特征圖進行融合，在編碼器中，Mobilenetv2使用了Inverted Resblock模塊，該模塊引入了卷積升維，并使用了深度可分離卷積，大幅度降低了模型的參數(shù)數(shù)量。在解碼器中，將空洞卷積后的有效特征層與上采樣的結(jié)果進行堆疊，獲得更準確地特征表達，有效地提高了目標邊緣的分割精度。以Mobilenetv2為主干網(wǎng)絡(luò)的Deeplabv3+語義分割模型主要是針對移動端的輕量化的網(wǎng)絡(luò)模型，減小了網(wǎng)絡(luò)的復(fù)雜度，但分割的精度較低；采用ASPP網(wǎng)絡(luò)進行加強特征提取，使用了不同采樣率的多個并行空洞卷積層，但會損失信息的連續(xù)性，大的膨脹系數(shù)的空洞卷積可能只對大物體的分割有效果；對于雜草遮擋、樹干細小等情況，對樹干的分割存在無法識別等現(xiàn)象，因此不適用果園復(fù)雜環(huán)境下精準的果樹語義分割［17］。針對上述問題，本文對語義分割網(wǎng)絡(luò)結(jié)構(gòu)進行改進，改進后的網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。

將主干網(wǎng)絡(luò)替換為ResNet50，通過引入殘差結(jié)構(gòu)，使得輸出特征層的內(nèi)容有一部分由前面的某一特征層線性提供，能夠有效地克服由于網(wǎng)絡(luò)深度加深而帶來的學(xué)習(xí)退化的問題，增強主干網(wǎng)絡(luò)提取果樹目標特征的能力；主干網(wǎng)絡(luò)輸出的深層網(wǎng)絡(luò)的特征層作為PSA模塊的輸入，對特征圖上的空間信息進行切分、提取，建立多通道注意力間的空間依賴，通過對多尺度通道注意力向量進行標定，以提高獲得果樹多尺度信息的能力；在解碼器部分，為更加準確地捕捉到果樹輪廓，將主干網(wǎng)絡(luò)輸出的淺層網(wǎng)絡(luò)的特征層輸入到SP模塊，利用水平和垂直的池化策略，使其能夠更高效的遠程捕獲上下文信息，將得到的池化特征層與原始輸入特征對應(yīng)元素相乘，獲得更細致的特征信息，并與編碼部分進行堆疊。

2.2 ResNet50模塊

在使用卷積進行特征提取時，隨著神經(jīng)網(wǎng)絡(luò)層數(shù)的加深，會出現(xiàn)網(wǎng)絡(luò)退化的問題，導(dǎo)致學(xué)習(xí)效率變低，參數(shù)更新很慢。針對這一問題，ResNet50在VGG19的基礎(chǔ)上，通過短路機制加入殘差單元，在每兩層卷積層中使用殘差學(xué)習(xí)，將特征圖的大小和網(wǎng)絡(luò)的復(fù)雜度有效的統(tǒng)一起來，如圖5所示。其中，x代表輸入特征層，F(xiàn)（x）為經(jīng)過線性變化并激活后的輸出，通過殘差連接，將輸出表述為輸入和輸出的一個非線性變換的線性疊加，打破了網(wǎng)絡(luò)的對稱性。

2.3 PSA模塊

使用空洞卷積可以獲得更大的感受野，不同空洞率的卷積，還可以捕捉到多尺度的上下文語義信息，具有很高的語義一致性，但犧牲了一定的空間信息，最終會出現(xiàn)預(yù)測結(jié)果較為粗糙的現(xiàn)象。PSA模塊是一種高效的通道注意力機制，其主要處理流程為：通過SPC（Split and Concat）模塊構(gòu)建多尺度特征，以SE方式得到通道級注意力向量以提取不同尺度特征，使用Softmax對得到的通道注意力向量進行重校正，最后將校正后的注意力向量作用于多尺度特征圖實現(xiàn)加強特征提取，獲得豐富的多尺度信息，并作為結(jié)果輸出。PSA的關(guān)鍵在于多尺度特征的提取，即SPC模塊，主要是特征的切分，如圖6所示，假定輸入為X，將輸入拆分為4部分，用［X0，X1，X2，X3］來表示，每個分割部分的通道數(shù)分別為3、5、7、9，使用多尺度卷積的方式提取不同尺度特征圖的空間信息，并將所提取到的特征通過維度進行拼接，得到融合后的特征圖

F=Cat（［X0，X1，X2，X3］）（1）

基于獲得的特征圖，對不同特征提取注意力權(quán)值

Zi=SEeight（Fi） i=0，1，2，3（2）

將注意力向量進行拼接，更好地實現(xiàn)注意力信息的交互以及跨維度信息的融合

對所得到的注意力權(quán)值進行歸一化處理，提高模型的收斂速度

最后將注意力權(quán)值與特征圖進行融合，輸出特征表示為

2.4 條紋池化結(jié)構(gòu)

在進行特征提取時，ResNet50在提取上下文信息時，由于感受野存在差異，對不同特征的判別能力不一致，規(guī)則的N×N空間池化處理長而窄的目標時會丟失部分語義信息，而對于不規(guī)則形狀的目標，不可避免地會將一些不相關(guān)的區(qū)域識別為目標像素，這在對樹冠輪廓提取時，會存在精度上的誤差。因此，為了提高果樹邊界的分割精確度，采用SP模塊，專注于沿水平和垂直空間維度對遠程上下文進行編碼，其數(shù)學(xué)表達式為

式中：

xi，j——輸入的二維張量；

yhi——對行中所有特征值進行平均；

yvj——對列中所有特征值進行平均；

H——輸入特征的高度；

W——輸入特征的寬度。

池化圖中的每個空間位置，給定水平和垂直的條帶池化核，在離散分布的區(qū)域之中更容易建立遠程的依賴關(guān)系，對得到的全局信息在水平和垂直方向上進行編碼，并通過這些編碼來平衡自身權(quán)重進行特征優(yōu)化，由此便能專注于捕獲果樹局部細節(jié)。SP模塊的網(wǎng)絡(luò)結(jié)構(gòu)如圖7所示。

從圖7可以看出，對輸入H×W的特征，分別使用SP方法（只在高或?qū)挼木S度上池化），在垂直方向上使用H×1得到1×W的特征圖，在水平方向上使用1×W得到H×1的特征圖，對特征圖進行擴張后得到兩個H×W大小的特征圖，將兩個特征圖融合相加，使用1×1的卷積與Sigmoid函數(shù)增強非線性，得到H×W大小的編碼權(quán)重，將獲得的權(quán)重與輸入特征進行融合得到最終的輸出。

3 結(jié)果與分析

3.1 環(huán)境搭建平臺

本文針對果園復(fù)雜環(huán)境所提出的改進Deeplabv3+網(wǎng)絡(luò)基于開源的PyTorch 3.8實現(xiàn)。試驗的系統(tǒng)環(huán)境為Windows10，CPU型號為Inter Core i7 10750H，16 GB內(nèi)存，GPU為GeForce RTX 2060，6 GB顯存，計算設(shè)備架構(gòu)為CUDA 11.3，神經(jīng)網(wǎng)絡(luò)加速庫版本為CUDNN 11.1。

3.2 網(wǎng)絡(luò)訓(xùn)練及參數(shù)設(shè)置

模型訓(xùn)練分為凍結(jié)階段和解凍階段，在凍結(jié)階段中，模型主干參數(shù)被凍結(jié)，僅對主干網(wǎng)絡(luò)以外的參數(shù)進行細微調(diào)整，以加快網(wǎng)絡(luò)的訓(xùn)練速度，也可防止訓(xùn)練初期的權(quán)值被破壞；在解凍階段中，網(wǎng)絡(luò)所有的參數(shù)都會發(fā)生改變。使用SGD優(yōu)化器，動量因子為0.9，為防止過擬合，權(quán)值衰減系數(shù)為10-4，batch_size設(shè)置為8，在凍結(jié)階段，初始學(xué)習(xí)率為5×10-4，解凍階段的初始學(xué)習(xí)率為5×10-4，訓(xùn)練過程中根據(jù)epoch的訓(xùn)練次數(shù)自適應(yīng)調(diào)整學(xué)習(xí)率，并將每個輪次的網(wǎng)絡(luò)模型權(quán)值都進行保存。訓(xùn)練集損失函數(shù)使用普通的交叉熵損失（Cross Entropy Loss），計算如式（8）所示。

此像素點的真值，若此像素點為果樹，則定義為1，否則為0。

使用Dice Loss作為驗證集的損失函數(shù)，Dice系數(shù)是一種集合相似度度量函數(shù)，通常用于計算兩個樣本的相似度，取值范圍在［0，1］［16］。計算公式如式（9）所示。

式中：

s——Dice系數(shù)，表示網(wǎng)絡(luò)預(yù)測結(jié)果和實際結(jié)果的重合度越大；

M、N——預(yù)測樹冠區(qū)域和真實樹冠區(qū)域的面積，即區(qū)域范圍內(nèi)像素點的個數(shù)。

因此，Dice系數(shù)越大越好，Loss數(shù)值越小越好，Dice Loss損失函數(shù)可表示為

Dice loss=1－Dice（10）

3.3 評價指標

語義分割模型采用像素準確率PA（Pixel Accuracy）和平均交并比MIoU（Mean Intersection over Union）作為測試集的評價標準。設(shè)語義分割的類別總數(shù)為k+1（包括背景在內(nèi)的類別總數(shù)），i是真實值，j是預(yù)測值，pii表示屬于類別i且被預(yù)測為i的像素數(shù)量，pij表示屬于類別i但被預(yù)測為j的像素數(shù)量。

1）? PA：預(yù)測正確類別的像素數(shù)量占圖像像素數(shù)量的比例。

2）? MIoU：預(yù)測像素數(shù)量和真實像素數(shù)量2個集合的交集與其并集的重合比例，并對所有類別取平均值。

3.4 不同骨干網(wǎng)絡(luò)性能對比分析

為提高對果樹樹冠分割的正確性，對Deeplabv3+模型的骨干特征提取網(wǎng)絡(luò)進行更換，在所采集的樹冠數(shù)據(jù)集上一共進行了4組對比試驗，分別測試不同骨干網(wǎng)絡(luò)在Deeplabv3+上的算法性能，并采用MIoU和參數(shù)量Parameters作為評價指標對不同骨干網(wǎng)絡(luò)的適配性進行評價，對比試驗數(shù)據(jù)如表1所示。

由表1可見，將特征提取網(wǎng)絡(luò)替換為ResNet50后，MIoU達到了74.94%，參數(shù)量為53.65 M。雖然試驗1中Mobilenetv2擁有更少的參數(shù)量，但MIoU比ResNet50少了5.73%；試驗2中使用Xception后，雖然MIoU高達75.43%，但其參數(shù)量遠遠高于ResNet50；試驗4的MIoU與ResNet50相差不大，但是ResNet50參數(shù)量更少。綜合考慮，ResNet50既能保證分割準確率，又能保證模型推理速度，將網(wǎng)絡(luò)部署在智能農(nóng)業(yè)裝備有更好的優(yōu)勢。

3.5 不同模塊消融分析

為評估各個改進模塊的有效性，利用控制變量法設(shè)計4組消融試驗，以MIoU和PA作為評價指標，構(gòu)建4組不同的神經(jīng)網(wǎng)絡(luò)，對比結(jié)果如表2所示。

從表2可以看出，對比試驗1和試驗2，使用Deeplabv3+網(wǎng)絡(luò)進行果樹樹冠分割，MIoU僅為69.21%，在加入SP模塊后，模型性能有較為明顯的提高，MIoU提升了1.65%，PA提升了0.92%，表明通過對不規(guī)則邊緣的加強特征提取能夠有效地提高分割精度；引入PSA模塊后，精度有明顯的提升，MIoU達到了72.45%，PA提升了1.38%，PSA能夠有效獲得多尺度信息，提高像素預(yù)測體系結(jié)構(gòu)性能；當同時加入PSA模塊和SP模塊時，模型性能得到大幅度提升，MIoU達到了74.94%，PA在原始模型的基礎(chǔ)上提高了1.85%。多尺度特征的加強提取能夠?qū)崿F(xiàn)輪廓的精確分割、聚合區(qū)域信息并獲取全局上下文特征，可以極大程度地提高語義分割的精確性，保證最終輸出結(jié)果的圖像質(zhì)量。

3.6 不同模型性能對比

為進一步驗證改進Deeplabv3+模型在對果樹樹冠語義信息提取的有效性，將其與UNet［18］、PSPNet［19］、Deeplabv3+［20］、FCN［21］等經(jīng)典的語義分割模型進行對比分析。通過MIoU、PA和單幅圖像處理時間Second等指標對模型性能做出評價。表3為不同語義分割模型性能參數(shù)對比。

由表3可以看出，本文模型的PA和MIoU分別為98.91%和74.94%，相比PSPNet分別提升2.5%和10.93%，PSPNet采用金字塔池化，只能處理較為簡單的場景，特征融合時容易丟失信息；相比UNet分別提升1.88%和8.19%，UNet雖然采用維度拼接的方式進行特征融合，但是對于細節(jié)的處理不夠完善；相比FCN分別提升1.03%和2.78%，F(xiàn)CN通過特征圖對應(yīng)像素值相加的方式來融合特征，雖然使用了跳躍連接改善了上采樣的粗糙程度，但對于邊界的分割仍然不夠準確；相比傳統(tǒng)的Deeplabv3+分別提升1.85%和5.73%。在雜草遮擋的情況下分割精度不足，通過引入的PSA機制和SP模塊，能夠有效地聚合不同區(qū)域的信息，產(chǎn)生高質(zhì)量的語義分割結(jié)果，并增強預(yù)測類別的一致性。而在圖像處理時間上，本文所采用的方法在單幅圖像處理的平均耗時為0.11 s，結(jié)合實際應(yīng)用場景，處理速度是可以滿足對果樹樹冠語義分割的要求。

由圖8可以看出，隨著訓(xùn)練輪次的不斷迭代，本文模型的收斂速度更快，在訓(xùn)練相同輪次的情況下，MIoU也比其他模型更高，隨著迭代次數(shù)的增加，本文模型能夠更快速地收斂并維持穩(wěn)定，沒有明顯的波動。

由圖9可以看出，本文所提出的模型能夠較為完整、準確、精細地對樹冠對象進行分割解析；PSPNet模型對邊界進行信息提取不足，存在果樹與背景邊界分割不連續(xù)、分割結(jié)果較為粗糙等情況，如圖9（c）所示，存在樹干識別不準確，在遮擋的情況下無法分割樹干，樹冠輪廓分割也不夠精細；UNet通過上采樣獲得大的特征圖，但是缺乏相應(yīng)特征圖的邊緣信息，因此對樹干部分的分割不夠準確，如圖9（d）所示，模型對于樹冠能較為準確地分割出輪廓形狀，但是在樹干部分，分割較為粗糙；Deeplabv3+模型采用ASPP模塊加強特征提取，能有效地對樹冠輪廓進行分割，如圖9（e）所示，但是對雜草遮擋的情況，對樹干無法進行準確識別；FCN模型沒有考慮到像素與像素之間的關(guān)聯(lián)關(guān)系，難以保存全部的空間信息，如圖9（f）所示，在陰雨天場景下，在樹干分叉時，無法進行準確的分割；而改進的Deeplabv3+模型在邊緣細節(jié)上分割效果更為精細，如圖9（g）所示，將標簽中未標注的樹冠實現(xiàn)了分割，表明了改進模型在果樹實例分割上的精確性和優(yōu)越性，對果樹的邊緣分割也更加平滑，在多場景的復(fù)雜情況下，改進模型仍具有魯棒性強、泛化性能好等特點。

4 結(jié)論

1）針對丘陵山區(qū)果樹語義分割存在準確率與分割效果低下等問題，提出了改進的Deeplabv3+模型，該模型將骨干特征提取網(wǎng)絡(luò)改為ResNet50，更豐富地提取圖像特征；將PSA模塊替換原始的ASPP模塊，有效地提高了獲取信息的能力；將SP模塊引入淺層特征，提高對樹冠邊緣的分割精度，更好地捕捉目標像素點。

2）? 所提出的改進Deeplabv3+網(wǎng)絡(luò)的語義分割模型，有效地解決了在雜草遮擋場景下無法對果樹進行準確分割的問題；實現(xiàn)了對果樹邊緣輪廓精準的分割；果樹分割MIoU為74.94%，PA為98.91%，在保證MIoU的同時兼顧了PA，與PSPNet、UNet、FCN、Deeplabv3+等傳統(tǒng)語義分割模型相比，MIoU分別提高了10.93%、8.19%、2.78%、5.73%，PA分別提高了2.5%、1.88%、1.03%和1.85%，結(jié)果表明，該模型具有更好的分割性與魯棒性，可為智能農(nóng)機的發(fā)展提供參考，也為現(xiàn)代化果園的檢測、識別等提供技術(shù)支撐與數(shù)據(jù)參考。

參考文獻

［1］鐘佳利. 丘陵山區(qū)農(nóng)業(yè)農(nóng)村現(xiàn)代化發(fā)展現(xiàn)狀評述及問題研究——以成都市簡陽市為例［J］. 四川農(nóng)業(yè)與農(nóng)機， 2021（4）： 51-52.

［2］劉愛民，封志明，徐麗明. 現(xiàn)代精準農(nóng)業(yè)及我國精準農(nóng)業(yè)的發(fā)展方向［J］. 中國農(nóng)業(yè)大學(xué)學(xué)報， 2000（2）： 20-25.

Liu Aimin， Feng Zhiming， Xu Liming. The modern precision agriculture and technological system ［J］. Journal of China Agricultural University， 2000（2）： 20-25.

［3］王永振，樊桂菊，張昊. 果園作業(yè)平臺的研究現(xiàn)狀及發(fā)展趨勢［J］. 中國果樹， 2018（1）： 105-108.

［4］ Csillik O， Cherbini J， Johnson R， et al. Identification of citrus trees from unmanned aerial vehicle imagery using convolutional neural networks ［J］. Drones， 2018， 2（4）： 39-45.

［5］張先潔，孫國祥，汪小旵，等. 基于超像素特征向量的果樹冠層分割方法［J］. 江蘇農(nóng)業(yè)學(xué)報， 2021， 37（3）： 724-730.

Zhang Xianjie， Sun Guoxiang， Wang Xiaochan， et al. Segmentation method of fruit tree canopy based on super pixel feature vector ［J］. Jiangsu Journal of Agricultural Sciences， 2021， 37（3）： 724-730.

［6］ Badrinarayanan V， Kendall A， Cipolla R. SegNet： A deep convolutional encoder-decoder architecture for image segmentation ［J］. IEEE Transactions on Pattern Analysis and Machine Intelligence， 2017， 39（12）： 2481-2495.

［7］王輝，韓娜娜，呂程序，等. 基于Mask R-CNN的單株柑橘樹冠識別與分割［J］. 農(nóng)業(yè)機械學(xué)報， 2021， 52（5）： 169-174.

Wang Hui， Han Nana， Lü Chengxu， et al. Recognition and segmentation of individual citrus tree crown based on Mask R-CNN ［J］. Transactions of the Chinese Society for Agricultural Machinery， 2021， 52（5）： 169-174.

［8］韓蕊，慕濤陽，趙偉，等. 基于無人機多光譜影像的柑橘樹冠分割方法研究［J］. 林業(yè)工程學(xué)報， 2021， 6（5）： 147-153.

Han Rui， Mu Taoyang， Zhao Wei， et al. Research on citrus canopy segmentation method based on UAV multispectral image ［J］. Journal of Forestry Engineering， 2021， 6（5）： 147-153.

［9］畢松，高峰，陳俊文，等. 基于深度卷積神經(jīng)網(wǎng)絡(luò)的柑橘目標識別方法［J］. 農(nóng)業(yè)機械學(xué)報， 2019， 50（5）： 181-186.

Bi Song， Gao Feng， Chen Junwen， et al. Detection method of citrus based on Deep Convolutional Neural Network ［J］. Transactions of the Chinese Society for Agricultural Machinery， 2019， 50（5）： 181-186.

［10］ Liu Y P， Yang C H， Ling H， et al. A visual system of citrus picking robot using convolutional neural networks ［C］. 2018 5th International Conference on Systems and Informatics （ICSAI）. IEEE， 2018， 344-349.

［11］黃彥曉，方陸明，黃思琪，等. 基于改進的Faster R-CNN模型的樹冠提取研究［J］. 林業(yè)資源管理， 2021（1）： 173-179.

Huang Yanxiao， Fang Luming， Huang Siqi， et al. Research on crown extraction based on improved Faster R-CNN model ［J］. Forest Resource Management， 2021（1）： 173-179.

［12］ Lin T Y， Dollár P， Girshick R， et al. Feature pyramid networks for object detection ［C］. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition， 2017： 2117-2125.

［13］ Majeed Y， Zhang J， Zhang X， et al. Apple tree trunk and branch segmentation for automatic trellis training using convolutional neural network based semantic segmentation ［J］. IFAC-PapersOnLine， 2018， 51（17）： 75-80.

［14］ Wu B， Yu B， Wu Q， et al. Individual tree crown delineation using localized contour tree method and airborne LiDAR data in coniferous forests ［J］. International Journal of Applied Earth Observation and Geoinformation， 2016， 52： 82-94.

［15］張磊，姜軍生，李昕昱，等. 基于快速卷積神經(jīng)網(wǎng)絡(luò)的果園果實檢測試驗研究［J］. 中國農(nóng)機化學(xué)報， 2020， 41（10）： 183-190， 210.

Zhang Lei， Jiang Junsheng， Li Xinyu， et al. Experimental research on orchard fruit detection based on fast convolutional neural network ［J］. Journal of Chinese Agricultural Mechanization， 2020， 41（10）： 183-190， 210.

［16］黃林生，邵松，盧憲菊，等. 基于卷積神經(jīng)網(wǎng)絡(luò)的生菜多光譜圖像分割與配準［J］. 農(nóng)業(yè)機械學(xué)報， 2021， 52（9）： 186-194.

Huang Linsheng， Shao Song， Lu Xianju， et al. Segmentation and registration of lettuce multispectral based on convolutional neural network ［J］. Transactions of the Chinese Society for Agricultural Machinery， 2021， 52（9）： 186-194.

［17］孟慶寬，楊曉霞，張漫，等. 基于語義分割的非結(jié)構(gòu)化田間道路場景識別［J］. 農(nóng)業(yè)工程學(xué)報， 2021， 37（22）： 152-160.

Meng Qingkuan， Yang Xiaoxia， Zhang Man， et al. Recognition of unstructured field road scene based on semantic segmentation model ［J］. Transactions of the Chinese Society of Agricultural Engineering， 2021， 37（22）： 152-160.

［18］ Ronneberger O， Fischer P， Brox T. U-Net： Convolutional networks for biomedical image segmentation ［C］. International Conference on Medical Image Computing and Computer-Assisted Intervention. Springer， Cham， 2015： 234-241.

［19］ Zhao H， Shi J， Qi X， et al. Pyramid scene parsing network ［C］. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition， 2017， 2881-2890.

［20］ Chen L C， Zhu Y， Papandreou G， et al. Encoder-decoder with atrous separable convolution for semantic image segmentation ［C］. Proceedings of the European Conference on Computer Vision （ECCV）， 2018： 801-818.

［21］ Long J， Shelhamer E， Darrell T. Fully convolutional networks for semantic segmentation ［C］. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition， 2015： 3431-3440.

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于改進Deeplabv3+模型的果樹語義分割研究