基于改進(jìn)RetinaNet的果園復(fù)雜環(huán)境下蘋果檢測

2022-11-13 07:38:00朱偉棟戴春霞武小紅

農(nóng)業(yè)工程學(xué)報 2022年15期

孫俊，錢磊，朱偉棟，周鑫，戴春霞，武小紅

孫俊，錢磊，朱偉棟，周鑫，戴春霞，武小紅

（江蘇大學(xué)電氣信息工程學(xué)院，鎮(zhèn)江 212013）

為了快速準(zhǔn)確地檢測重疊、遮擋等果園復(fù)雜環(huán)境下的蘋果果實目標(biāo)，該研究提出一種基于改進(jìn)RetinaNet的蘋果檢測網(wǎng)絡(luò)。首先，該網(wǎng)絡(luò)在傳統(tǒng)RetinaNet的骨干網(wǎng)絡(luò)ResNet50中嵌入Res2Net模塊，提高網(wǎng)絡(luò)對蘋果基礎(chǔ)特征的提取能力；其次，采用加權(quán)雙向特征金字塔網(wǎng)絡(luò)（Bi-directional Feature Pyramid Network，BiFPN）對不同尺度的特征進(jìn)行加權(quán)融合，提升對小目標(biāo)和遮擋目標(biāo)的召回率；最后，采用基于焦損失（Focal Loss）和高效交并比損失（Efficient Intersection over Union Loss，EIoU Loss）的聯(lián)合損失函數(shù)對網(wǎng)絡(luò)進(jìn)行優(yōu)化，提高網(wǎng)絡(luò)的檢測準(zhǔn)確率。試驗結(jié)果表明，改進(jìn)的網(wǎng)絡(luò)在測試集上對葉片遮擋、枝干/電線遮擋、果實遮擋和無遮擋的蘋果檢測精度分別為94.02%、86.74%、89.42%和94.84%，平均精度均值（mean Average Precision，mAP）達(dá)到91.26%，較傳統(tǒng)RetinaNet提升了5.02個百分點，檢測一張?zhí)O果圖像耗時42.72 ms。與Faster-RCNN和YOLOv4等主流目標(biāo)檢測網(wǎng)絡(luò)相比，改進(jìn)網(wǎng)絡(luò)具有優(yōu)異的檢測精度，同時可以滿足實時性的要求，為采摘機(jī)器人的采摘策略提供了參考。

圖像識別；采摘機(jī)器人；蘋果檢測；RetinaNet；BiFPN；EIoU；遮擋

0 引言

中國是蘋果生產(chǎn)和消費大國，2019年，中國蘋果產(chǎn)量達(dá)到4 242.54萬t，占全球的50%以上[1]。由于果園環(huán)境復(fù)雜，目前仍主要依靠人工采摘，存在生產(chǎn)效率低、成本高和勞動力不足等問題[2]。采摘機(jī)器人可以實現(xiàn)采摘工作的自動化，以蘋果采摘機(jī)器人代替人工采摘具有重要的現(xiàn)實意義和廣闊的應(yīng)用前景[3]?？焖贉?zhǔn)確的蘋果檢測系統(tǒng)是蘋果采摘機(jī)器人的關(guān)鍵，由于樹枝、葉片以及果實之間存在重疊和遮擋等諸多因素，增加了果園環(huán)境下蘋果果實的識別難度。因此，如何在果園環(huán)境下實現(xiàn)穩(wěn)健高效的蘋果檢測，對推進(jìn)蘋果采摘自動化起著決定性作用。

目前國內(nèi)外對于水果檢測方面的研究已經(jīng)取得了一定的進(jìn)展。廖崴等[4]利用基于R-B顏色特征的Otsu閾值分割方法，得到蘋果果實和葉片圖像，建立基于隨機(jī)森林的綠色蘋果識別模型，對蘋果果實的識別率達(dá)到88%，但是識別效果易受光照影響。Ji等[5]利用支持向量機(jī)（Support Vector Machine，SVM）對蘋果進(jìn)行分類識別，對套袋蘋果的識別率達(dá)到89%，但是識別速度較低，無法滿足實時性要求。傳統(tǒng)的蘋果識別方法依賴圖像預(yù)處理和人工設(shè)計特征，僅針對特定場景進(jìn)行研究，受環(huán)境的影響較大，魯棒性和泛化性不強(qiáng)，無法滿足采摘機(jī)器人在各種復(fù)雜情景下的實際工作需求[6-9]。近年來，隨著人工智能的快速發(fā)展，相比于傳統(tǒng)方法，基于深度卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測算法顯現(xiàn)出巨大的優(yōu)越性，深度卷積神經(jīng)網(wǎng)絡(luò)可以直接從大量樣本中學(xué)習(xí)到特定目標(biāo)的高維抽象特征，比人工提取的特征具有更強(qiáng)的魯棒性。目前，基于深度學(xué)習(xí)的目標(biāo)檢測算法主要分為兩大類，一類是基于區(qū)域建議的二階段檢測（two-stage detection）算法，代表性的算法有RCNN[10]、Fast RCNN[11]和Faster RCNN[12]，該類算法優(yōu)點是檢測精度較高，缺點是檢測速度較慢。李林升等[13]提出了基于Faster RCNN的蘋果目標(biāo)檢測模型，以自然光源下的蘋果圖像為研究對象，設(shè)置9個不同尺度的候選框，并增加1個滑動窗口，提高了模型定位精度，對蘋果的檢測準(zhǔn)確率達(dá)到97.6%。Sun等[14]提出了基于Faster RCNN的番茄關(guān)鍵器官的檢測模型，使用Resnet50代替vgg16特征提取網(wǎng)絡(luò)，并采用K-means聚類方法替代人工設(shè)置錨框尺寸，提高了檢測精度。Jia等[15]在Mask RCNN網(wǎng)絡(luò)的基礎(chǔ)上，將殘差網(wǎng)絡(luò)（ResNet）與密集卷積網(wǎng)絡(luò)（DenseNet）相結(jié)合，實現(xiàn)了對蘋果的精準(zhǔn)檢測。Chu等[16]通過在Mask RCNN上添加抑制分支，過濾掉骨干網(wǎng)絡(luò)學(xué)習(xí)到的非蘋果特征，提高了對蘋果的檢測精度，F(xiàn)1值達(dá)到0.905，并實現(xiàn)了較快的檢測速度。另一類是無區(qū)域建議網(wǎng)絡(luò)的單階段檢測（one-stage detection）算法，代表性算法有SSD[17]、YOLO[18-19]等，該類算法利用單一卷積神經(jīng)網(wǎng)絡(luò)直接通過整幅圖像預(yù)測目標(biāo)的位置及類別，因此檢測速度較快。趙德安等[20]通過改進(jìn)YOLOv3算法，調(diào)整預(yù)設(shè)錨框尺寸，提高復(fù)雜環(huán)境下蘋果的檢測精度，并保持較高的檢測速度。武星等[21]提出一種輕量型YOLOv3的蘋果檢測算法，設(shè)計同構(gòu)殘差塊串聯(lián)的特征提取網(wǎng)絡(luò)，不僅減少了模型的內(nèi)存占用，還提高了蘋果檢測精度。Tian等[22]用DenseNet方法處理YOLOv3 網(wǎng)絡(luò)中分辨率較低的特征層，YOLOv3-dense模型能有效地檢測重疊和遮擋條件下的蘋果目標(biāo)。彭紅星等[23]提出了一種改進(jìn)的SSD水果檢測算法，利用遷移學(xué)習(xí)和隨機(jī)梯度下降算法優(yōu)化模型，實現(xiàn)對自然環(huán)境下4種水果的精準(zhǔn)檢測。Ma等[24]提出了一種改進(jìn)的RetinaNet，采用MobileNetV3作為特征提取網(wǎng)絡(luò)，對特征金字塔網(wǎng)絡(luò)進(jìn)行了改進(jìn)，并利用K-means聚類算法優(yōu)化了錨框的大小，提高了網(wǎng)絡(luò)對蘋果的檢測精度和速度。王昱潭等[25]通過改進(jìn)SSD模型，采用DenseNet作為骨干網(wǎng)絡(luò)，用Inception模塊替換SSD模型的前3層，在不加載預(yù)訓(xùn)練模型的情況下，對靈武長棗的檢測精度達(dá)到了96.60%，并減少了模型的參數(shù)量。

上述研究僅僅把單一的水果作為識別對象，識別過程中未根據(jù)不同的遮擋情況對水果進(jìn)行細(xì)致區(qū)分，不利于采摘機(jī)器人制定采摘策略，若被樹枝或電線遮擋的水果被視作可采摘對象，可能會造成采摘機(jī)器人的末端抓手在采摘過程中，被樹枝或電線損壞。因此，本文以果園環(huán)境下蘋果為研究對象，根據(jù)蘋果的不同遮擋類型。對蘋果分類標(biāo)注，在傳統(tǒng)RetinaNet基礎(chǔ)上進(jìn)行網(wǎng)絡(luò)結(jié)構(gòu)改進(jìn)，并在蘋果數(shù)據(jù)集上訓(xùn)練，在測試集上驗證改進(jìn)網(wǎng)絡(luò)的有效性，改進(jìn)網(wǎng)絡(luò)對不同遮擋類型蘋果的檢測結(jié)果，可以為采摘機(jī)器人在現(xiàn)代果園內(nèi)機(jī)械化采摘提供理論依據(jù)。

１材料與方法

1.1 試驗數(shù)據(jù)來源

本文的蘋果圖像數(shù)據(jù)集包含A和B兩部分，數(shù)據(jù)集A用于模型訓(xùn)練和尋優(yōu)，該數(shù)據(jù)集從GitHub倉庫（https://github.com/fu3lab/Scifresh-apple-RGB-images-with-multi-class-label）下載獲取，蘋果圖像數(shù)據(jù)的采集背景為現(xiàn)代商業(yè)果園，共800張分辨率為1 920×1 080像素的蘋果圖像；數(shù)據(jù)集B用于驗證模型在不同果園場景下的泛化性能，該數(shù)據(jù)集采集時間為2022年7月8日，采集地點位于英國倫敦的Queens果園，采集設(shè)備為iPhone12，共120張?zhí)O果圖像，分辨率為4 032×3 024像素。

蘋果圖像標(biāo)注采用的工具是labelImg軟件，將圖像中蘋果標(biāo)注框的坐標(biāo)和標(biāo)簽信息保存至xml格式文件。由于果樹上的蘋果比較密集，存在多樣的遮擋情況，若采摘機(jī)器人對被果實遮擋的蘋果或被枝干/電線遮擋的蘋果進(jìn)行采摘，可能會破壞蘋果果實或?qū)е虏烧獧C(jī)器人的末端抓手損壞，造成經(jīng)濟(jì)損失。因此本文根據(jù)不同的遮擋情況，將蘋果目標(biāo)分成了4類進(jìn)行標(biāo)注，如圖1所示。第1類為葉片遮擋，表示蘋果只存在葉片遮擋；第2類為枝干/電線遮擋，表示蘋果被枝干/電線遮擋，無論是否同時被葉片或果實遮擋；第3類為果實遮擋，表示蘋果被果實遮擋，無論是否同時被葉片遮擋，但不被枝干/電線遮擋；第4類為無遮擋，表示無任何遮擋的蘋果目標(biāo)。檢測出不同遮擋類型的蘋果，可以為采摘機(jī)器人的采摘策略制定提供理論依據(jù)，比如對無遮擋和葉片遮擋的蘋果進(jìn)行優(yōu)先采摘，而被果實遮擋的蘋果可以在采摘完前端蘋果后再進(jìn)行采摘，被枝干/電線遮擋的蘋果則在當(dāng)前位置不考慮采摘。

圖1 四種遮擋類型的蘋果

1.2 圖像數(shù)據(jù)增強(qiáng)

深度學(xué)習(xí)的網(wǎng)絡(luò)訓(xùn)練通常需要大量的數(shù)據(jù)，較少的數(shù)據(jù)量容易引起網(wǎng)絡(luò)訓(xùn)練出現(xiàn)過擬合。本文利用數(shù)據(jù)增強(qiáng)來擴(kuò)大蘋果數(shù)據(jù)集樣本，以增強(qiáng)訓(xùn)練完模型的泛化能力和魯棒性。采取了水平翻轉(zhuǎn)、鏡像變換、圖像亮度調(diào)整和添加高斯噪聲等手段對數(shù)據(jù)集A實現(xiàn)了數(shù)據(jù)擴(kuò)充，同時對轉(zhuǎn)換后的圖像標(biāo)注文件進(jìn)行了相應(yīng)的變換，最后共獲得4 800張?zhí)O果圖像，在總樣本中隨機(jī)選取90%（4 320張）圖像作為訓(xùn)練集，再在訓(xùn)練集中隨機(jī)選取10%（432張）作為驗證集?？倶颖局惺Ｏ碌?0%（480張）作為測試集，用于評估最終模型的泛化能力。

1.3 果園復(fù)雜背景蘋果檢測模型的改進(jìn)

RetinaNet是Lin等[26]在2017年提出的單階段目標(biāo)檢測網(wǎng)絡(luò)。傳統(tǒng)RetinaNet網(wǎng)絡(luò)結(jié)構(gòu)主要由三個部分組成，殘差網(wǎng)絡(luò)（ResNet）[27]為其骨干特征提取網(wǎng)絡(luò)，特征金字塔網(wǎng)絡(luò)（Feature Pyramid Network，F(xiàn)PN）[28]為其頸部特征融合網(wǎng)絡(luò)，最后由2個全卷積子網(wǎng)絡(luò)（Fully Convolutional Network，F(xiàn)CN）[29]分別實現(xiàn)分類和回歸任務(wù)。RetinaNet使用Focal loss作為損失函數(shù)，減少易分類樣本的權(quán)重，增加難分類樣本的權(quán)重，解決目標(biāo)檢測任務(wù)中正負(fù)樣本不平衡導(dǎo)致的網(wǎng)絡(luò)朝著非理想方向優(yōu)化的問題。

由于果園環(huán)境下背景復(fù)雜，果實之間存在較多重疊和遮擋情況，暴露出的果實面積大小不同，傳統(tǒng)RetinaNet對小目標(biāo)果實、重疊遮擋果實的漏檢率較高。因此，本文在骨干特征提取網(wǎng)絡(luò)ResNet50中嵌入Res2Net[30]多尺度特征提取模塊，加強(qiáng)網(wǎng)絡(luò)的多尺度性能，并采用BiFPN[31]作為頸部特征融合網(wǎng)絡(luò)，對提取到的不同層級的特征圖進(jìn)行加權(quán)雙向跨尺度融合，提高網(wǎng)絡(luò)對不同大小和遮擋蘋果的檢測精度。改進(jìn)后的網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。

注：H，W為特征圖的高和寬；P3_in，P4_in，P5_in，P6_in，P7_in表示5個輸入層特征圖，大小分別為80×80×256，40×40×256，20×20×256，10×10×256，5×5×256；P4_td，P5_td，P6_td表示3個中間層特征圖，大小分別為40×40×256，20×20×256，10×10×256；P3_out，P4_out，P5_out，P6_out，P7_out表示5個輸出層特征圖，大小分別為80×80×256，40×40×256，20×20×256，10×10×256，5×5×256。

1.3.1 骨干特征提取網(wǎng)絡(luò)

基礎(chǔ)特征提取是目標(biāo)檢測任務(wù)的一個重要環(huán)節(jié)，Res2Net[30]模塊能夠提取不同感受野、多種尺度的特征，并且可以與多種結(jié)構(gòu)融合形成更強(qiáng)的骨干網(wǎng)絡(luò)，因此，本文在ResNet50中嵌入Res2Net模塊，以提高骨干網(wǎng)絡(luò)對多尺度特征的提取能力。Res2Net在瓶頸層（bottleneck）內(nèi)部構(gòu)建多通道殘差連接，用3個3×3卷積核替代單個3×3的卷積核。輸入特征經(jīng)過1×1卷積調(diào)整通道后在通道維度分為四組，分別記作1、2、3和4，每組特征的通道數(shù)分別為輸入特征通道數(shù)的1/4。1不進(jìn)行任何操作直接輸出為1；2經(jīng)過一個3×3卷積核后分為兩條支線，一條支線直接輸出為2，另一條與3融合作為第三組的輸入特征；以此類推得到第三、四組的輸出3、4。最后，4個輸出特征相加融合，并送入1×1卷積核進(jìn)行通道調(diào)整得到總輸出。Res2Net結(jié)構(gòu)如圖3所示。

輸入特征每經(jīng)過一個3×3卷積核，對應(yīng)輸出的感受野都會得到增加，最終Res2Net模塊的總輸出包含不同感受野大小的特征組合，不僅增加了網(wǎng)絡(luò)層的等效感受野，還可以在更細(xì)粒度級別表示多尺度特征，進(jìn)一步增強(qiáng)對重疊及遮擋情況下蘋果特征的提取能力。

1.3.2 加權(quán)雙向特征金字塔網(wǎng)絡(luò)（BiFPN）

RetinaNet在頸部采用了傳統(tǒng)的特征金字塔網(wǎng)絡(luò)，對低層高分辨率特征圖和高層強(qiáng)語義特征圖進(jìn)行跨尺度特征融合，然而融合過程僅采用自頂向下的單向路徑，且對不同層級的特征圖直接簡單相加，忽略了不同分辨率的特征圖對輸出貢獻(xiàn)度的不一致。

注：X表示輸入特征；x1、x2、x3、x4表示4個輸入的分組特征；y1、y2、y3、y4表示4個輸出的分組特征；Y表示輸出特征。

本文引入BiFPN[31]作為頸部網(wǎng)絡(luò)，它是一種加權(quán)的雙向特征金字塔網(wǎng)絡(luò)，BiFPN結(jié)構(gòu)如圖4所示。結(jié)構(gòu)上，去除了只有單個輸入的節(jié)點，因為只有一個輸入的節(jié)點，對網(wǎng)絡(luò)融合不同特征的貢獻(xiàn)小。在同一層級的輸入與輸出節(jié)點之間增加一條額外的支線，以類似殘差的方式使輸出獲得更豐富的特征信息。首先，自頂向下對P7_in進(jìn)行兩倍上采樣與P6_in加權(quán)融合，得到中間節(jié)點P6_td，以此類推依次得到P5_td和P4_td，P4_td兩倍上采樣與P3_in加權(quán)融合得到輸出P3_out；其次，自底向上P3_out通過兩倍下采樣與P4_in、P4_td加權(quán)融合得到P4_out，以此類推依次得到P5_out、P6_out；最后，P6_out兩倍下采樣與P7_in加權(quán)融合得到P7_out。

注：Conv為深度可分離卷積；3×3×256代表256個3×3的卷積核；1×1×256代表256個1×1的卷積核。

由于不同輸入特征具有不同的分辨率，對輸出的貢獻(xiàn)通常是不相等的，因此在特征融合過程中引入可學(xué)習(xí)的權(quán)值，并采用快速歸一化融合讓網(wǎng)絡(luò)快速學(xué)習(xí)不同輸入特征的重要性。

式中I為第個輸入特征，為輸出特征，w為對應(yīng)輸入的權(quán)重，每個w后面接Relu激活函數(shù)確保w≥0，=0.000 1以避免輸出數(shù)值不穩(wěn)定。為了進(jìn)一步提高效率，壓縮模型大小，特征融合過程中均采用深度可分離卷積，并在每次卷積后添加批歸一化和激活。

BiFPN將每個雙向（自頂向下&自底向上）路徑視為一個特征網(wǎng)絡(luò)層，本文通過試驗探究，在改進(jìn)網(wǎng)絡(luò)中對BiFPN進(jìn)行5次堆疊，實現(xiàn)了更深層高效的多尺度特征融合，P3_out～P7_out分別傳輸至頭部的分類網(wǎng)絡(luò)和回歸網(wǎng)絡(luò)。當(dāng)輸入圖像分辨率為640×640像素時，網(wǎng)絡(luò)在5×5、10×10、20×20、40×40和80×80這5個尺度的特征圖上分別進(jìn)行輸出預(yù)測，實現(xiàn)對果園內(nèi)不同大小和遮擋蘋果的準(zhǔn)確檢測。

1.3.3 損失函數(shù)改進(jìn)

本文的損失函數(shù)由兩部分組成，為分類損失L和回歸損失L，總體損失如式（2）所示，

Lcls

Lreg

（2）

在果園環(huán)境下蘋果圖像中，大部分區(qū)域是復(fù)雜的果園背景，蘋果目標(biāo)所占面積較小，因此為解決正負(fù)樣本區(qū)域嚴(yán)重失衡問題，本文仍然采用原網(wǎng)絡(luò)的Focal loss作為分類損失函數(shù)L，如式（3）所示。

Lcls

αt

(1-

)

ln(

) （3）

式中p表示預(yù)測蘋果類別的概率，α表示平衡因子，表示焦距參數(shù)。本研究中取α=0.25，=2。

回歸損失反映預(yù)測框與真實框的偏離程度，傳統(tǒng)RetinaNet采用Smooth L1回歸損失函數(shù)，獨立計算預(yù)測框4個偏移量（寬、高和中心點坐標(biāo)）的損失值，忽略了在相同的損失值時，預(yù)測框與真實框之間的重疊面積與相對位置并不唯一。因此，本文選擇EIoU Loss作為回歸損失函數(shù)L，該損失函數(shù)包含3個部分，分別為重疊損失IoU、中心距離損失L和邊長損失L，其定義如式（4）所示。

式中IoU為交并比，反映預(yù)測框與真實框的重疊情況；、b分別為預(yù)測框和真實框中心點坐標(biāo)；(·)為計算歐式距離；為預(yù)測框和真實框的最小包閉框的對角線長度；和w分別為預(yù)測框和真實框的寬；和h分別為預(yù)測框和真實框的高；D和D分別為預(yù)測框和真實框的最小包閉框的寬和高。

通過式（4）可以看出，EIoU Loss不僅關(guān)注預(yù)測框與真實框的重疊面積，還增加了中心距離損失作為懲罰項，并直接計算預(yù)測框與真實框之間的寬高損失。預(yù)測框與真實框在重疊、不相交或包含時，均能通過反向傳播使網(wǎng)絡(luò)訓(xùn)練快速準(zhǔn)確地收斂。

2 模型的訓(xùn)練與試驗

2.1 試驗環(huán)境與參數(shù)設(shè)置

本文試驗的操作平臺為臺式計算機(jī)，在Ubuntu18.04 LTS 64位系統(tǒng)環(huán)境下運行，采用能夠支持GPU加速和動態(tài)神經(jīng)網(wǎng)絡(luò)的Pytorch1.8版本的深度學(xué)習(xí)開源框架，配合CUDA10.1進(jìn)行模型搭建、訓(xùn)練與測試。計算機(jī)搭載的處理器為Intel Core i7-10700K @ 3.80GHz 十六核，內(nèi)存為32 GB，顯卡為RTX 3080，顯存為10 GB。

2.2 評價指標(biāo)

為了評價本文提出的果園環(huán)境下蘋果檢測模型的有效性，使用平均精度（Average Precision, AP）和平均精度均值（mean Average Precision, mAP）作為評價指標(biāo)。

式中表示準(zhǔn)確率，即預(yù)測框中檢測正確的比例；表示召回率，即正確檢測出的正樣本在所有正樣本中的比例；TP表示預(yù)測為正樣本且實際為正樣本；FP表示預(yù)測為正樣本而實際為負(fù)樣本；FN表示預(yù)測為負(fù)樣本而實際為正樣本。AP是評價某一類檢測的平均精度值，通過和可以繪制PR曲線，計算PR曲線下的面積得到某一類的AP。mAP是衡量所有類別AP的平均值，如式（7）所示。

式中表示某一類別，為所有類別的集合。

2.3 模型訓(xùn)練

為減小顯存壓力，模型訓(xùn)練時將輸入圖像分辨率統(tǒng)一設(shè)置為640×640像素，采用4個樣本作為一批，每迭代一批更新一次損失。為提高訓(xùn)練速度，本試驗?zāi)Ｐ陀?xùn)練使用遷移學(xué)習(xí)，將訓(xùn)練分為兩個階段，分別是凍結(jié)階段和解凍階段。訓(xùn)練前50期為凍結(jié)階段，特征提取網(wǎng)絡(luò)參數(shù)不發(fā)生改變，僅對網(wǎng)絡(luò)進(jìn)行微調(diào)，初始學(xué)習(xí)率設(shè)置為0.000 1，采用Adam優(yōu)化器，動量參數(shù)為0.9，若兩次迭代損失不減小，則將學(xué)習(xí)率更新為0.5倍。訓(xùn)練50期之后為解凍階段，網(wǎng)絡(luò)所有參數(shù)都會隨訓(xùn)練過程更新，初始學(xué)習(xí)率設(shè)置為0.000 01，學(xué)習(xí)率更新策略和前述保持一致。

模型共訓(xùn)練150期，已經(jīng)達(dá)到收斂，從訓(xùn)練日志得到損失值數(shù)據(jù)，繪制損失值曲線，如圖5所示。可看出模型在前40期迭代中迅速擬合，訓(xùn)練集損失值和驗證集損失值均快速變小，在80期迭代之后逐漸穩(wěn)定，只有稍許的振蕩，模型訓(xùn)練達(dá)到收斂。

圖5 損失值變化曲線

3 結(jié)果與分析

3.1 模型的性能試驗

在本文的試驗中，模型一共訓(xùn)練了150期，每期迭代輸出一個模型，由圖5可知，訓(xùn)練在80期后基本達(dá)到平穩(wěn)收斂，將穩(wěn)定后的模型選出。為了驗證模型的有效性，利用蘋果數(shù)據(jù)集對最終獲得的模型進(jìn)行測試，結(jié)果如表1所示。

表1 模型的檢測精度

由表1所知，模型在測試集上的平均精度均值達(dá)到91.26%，略低于在訓(xùn)練集和驗證集的檢測精度，結(jié)合圖5的損失變化曲線，模型并未欠擬合或過擬合，驗證了模型的有效性。但是，模型對測試集中枝干/電線遮擋蘋果的檢測精度較低，與訓(xùn)練集和驗證集的該類別的檢測精度相比，分別低了5.83和4.59個百分點，分析其原因是本試驗的蘋果數(shù)據(jù)集中枝干/電線遮擋蘋果的數(shù)量比其他類別的數(shù)量少很多，導(dǎo)致模型對測試集上該類別遮擋蘋果的泛化能力相對不足。

3.2 消融試驗

為驗證本文提出的各項改進(jìn)措施對果園環(huán)境下蘋果檢測效果的提升，本文將不同改進(jìn)程度的RetinaNet在測試集上進(jìn)行了對比試驗，對比試驗的結(jié)果如表2所示。

表2 不同改進(jìn)RetinaNet的檢測精度對比

由表2可知，相比于傳統(tǒng)RetinaNet，本文引入的不同改進(jìn)對果園環(huán)境下不同遮擋情況下的蘋果的檢測精度均起到了提升效果。當(dāng)僅在網(wǎng)絡(luò)的骨干部分引入Res2Net模塊時，增強(qiáng)了網(wǎng)絡(luò)的多尺度特征提取能力，對不同遮擋類型的蘋果檢測精度均得到提高。僅將網(wǎng)絡(luò)的頸部升級為BiFPN時，增進(jìn)了網(wǎng)絡(luò)不同層級間的特征高效融合，緩解了因網(wǎng)絡(luò)層級過多引起的小目標(biāo)特征信息丟失，對遮擋蘋果的檢測精度提升明顯。僅將網(wǎng)絡(luò)損失函數(shù)的回歸分支替換為EIoU Loss時，提高了預(yù)測框?qū)μO果目標(biāo)的回歸效率，網(wǎng)絡(luò)的檢測精度也得到一定提升。最終提出的改進(jìn)網(wǎng)絡(luò)對蘋果的檢測平均精度均值達(dá)到91.26%，相較于傳統(tǒng)RetinaNet提升了5.02個百分點。

比較改進(jìn)前后2種方法在測試集上對蘋果的檢測效果，部分測試結(jié)果如圖6所示。當(dāng)蘋果果實較大且無遮擋時，包含更多有效的蘋果信息，比較容易被網(wǎng)絡(luò)精準(zhǔn)檢測，傳統(tǒng)RetinaNet與改進(jìn)RetinaNet均能取得較好的檢測效果；而當(dāng)蘋果果實較小，或被樹葉、果實或枝干遮擋時，由于果實暴露面積小，包含的有效蘋果信息較少，檢測難度增大，傳統(tǒng)RetinaNet出現(xiàn)了漏檢的情況，圖中黑色圓圈標(biāo)記的為未檢測出的蘋果果實，而改進(jìn)網(wǎng)絡(luò)則不受影響，正確檢測出了所有果實目標(biāo)。

注：a1表示葉片遮擋；a2表示枝干/電線遮擋；a3表示果實遮擋；a4表示無遮擋；檢測框上方的數(shù)值表示檢測為蘋果的置信度；圓圈標(biāo)記為未檢測到的蘋果。

3.3 BiFPN不同堆疊次數(shù)的對比試驗

BiFPN允許多次堆疊，以增強(qiáng)對多尺度特征的融合能力，提高檢測精度。然而，隨著BiFPN堆疊次數(shù)的增加，網(wǎng)絡(luò)結(jié)構(gòu)也會變得更加復(fù)雜，導(dǎo)致檢測效率降低。為探究BiFPN堆疊次數(shù)對檢測精度和速度的影響，本文對改進(jìn)網(wǎng)絡(luò)中BiFPN分別進(jìn)行1～7次堆疊，并在蘋果數(shù)據(jù)集上訓(xùn)練和測試，比較檢測結(jié)果，如表3所示。最終，考慮檢測精度和檢測速度之間的平衡，選擇在改進(jìn)網(wǎng)絡(luò)中將BiFPN進(jìn)行5次堆疊，使網(wǎng)絡(luò)綜合性能達(dá)到最佳。

表3 BiFPN不同堆疊次數(shù)的測試

3.4 不同檢測網(wǎng)絡(luò)對比試驗

為了進(jìn)一步驗證改進(jìn)網(wǎng)絡(luò)的性能，本文將改進(jìn)RetinaNet與當(dāng)前的主流目標(biāo)檢測網(wǎng)絡(luò)Faster-RCNN 和YOLOv4在蘋果數(shù)據(jù)集上進(jìn)行對比試驗，得到的檢測結(jié)果如表4所示。

表4 不同網(wǎng)絡(luò)檢測結(jié)果對比

改進(jìn)RetinaNet的平均精度均值與Faster-RCNN和YOLOv4相比，分別提高了4.22和1.25個百分點。平均每張圖像的檢測速度比Faster-RCNN快了42.05 ms，比目前檢測速度較快的YOLOv4只慢了18.91 ms，當(dāng)前采摘機(jī)器人采摘水果平均耗時2 780 ms[32]，改進(jìn)網(wǎng)絡(luò)的檢測速度滿足實際需求。改進(jìn)RetinaNet的模型大小與Faster-RCNN和YOLOv4相比，分別減少了75.4%和47.5%。

3.5 在不同果園背景的泛化性測試

為了驗證本文提出的改進(jìn)RetinaNet在實際應(yīng)用中的檢測性能，將訓(xùn)練好的改進(jìn)模型在蘋果數(shù)據(jù)集B上進(jìn)行精度測試，模型對不同遮擋類型蘋果的檢測平均精度均值為90.41%，部分檢測結(jié)果如圖7所示。通過圖7可以看出，面對不同密集程度的蘋果，模型均能取得較好的檢測結(jié)果。結(jié)果表明本文提出的改進(jìn)網(wǎng)絡(luò)在不同的果園場景下具有較好的泛化性。

圖7 不同密集程度果實的檢測結(jié)果

4 結(jié) 論

本研究針對傳統(tǒng)方法在果園復(fù)雜環(huán)境下對果實檢測精度較低的問題，提出了一種基于改進(jìn)RetianNet的檢測網(wǎng)絡(luò)。本研究使用4 800張果園環(huán)境下包含多種遮擋類型的蘋果圖像作為試驗數(shù)據(jù)集，對改進(jìn)RetinaNet進(jìn)行訓(xùn)練和測試。試驗結(jié)果表明，本研究提出的改進(jìn)RetinaNet對果園環(huán)境下的蘋果能夠?qū)崿F(xiàn)準(zhǔn)確檢測，對葉片遮擋、枝干/電線遮擋、果實遮擋和無遮擋蘋果的檢測平均精度值分別為94.02%、86.74%、89.42%和94.84%，平均精度均值達(dá)到91.26%，優(yōu)于傳統(tǒng)RetinaNet、Faster-RCNN和YOLOv4；檢測每張?zhí)O果圖像平均耗時42.72 ms，優(yōu)于Faster-RCNN，稍慢于YOLOv4網(wǎng)絡(luò)，相較于采摘機(jī)器人每個水果2 780 ms的采摘周期，該速度滿足農(nóng)業(yè)應(yīng)用中采摘機(jī)器人的實時性要求。對不同遮擋類型蘋果的檢測結(jié)果也可以進(jìn)一步用于制定蘋果采摘順序，為采摘機(jī)器人的采摘策略提供理論依據(jù)。

[1] 郭雨，閆小歡. 中國鮮食蘋果國際競爭力及影響因素[J]. 北方園藝，2021(24)：155-162.

[2] 吳璞，薛彪，吳卓雅，等. 蘋果輔助采摘裝置的設(shè)計和制作[J]. 機(jī)械工程與自動化，2020(3)：107-108.

[3] 張鵬，張麗娜，劉鐸，等. 農(nóng)業(yè)機(jī)器人技術(shù)研究現(xiàn)狀[J]. 農(nóng)業(yè)工程，2019，9(10)：1-12.

[4] 廖崴，鄭立華，李民贊，等. 基于隨機(jī)森林算法的自然光照條件下綠色蘋果識別[J]. 農(nóng)業(yè)機(jī)械學(xué)報，2017，48(S1)：86-91.

Liao Wei, Zheng Lihua, Li Minzan, et al. Green apple identification under natural lighting conditions based on random forest algorithm[J]. Transactions of the Chinese Society for Agricultural Machinery, 2017, 48(S1): 86-91. (in Chinese with English abstract)

[5] Ji W, Zhao D, Cheng F, et al. Automatic recognition vision system guided for apple harvesting robot[J]. Computers & Electrical Engineering, 2012, 38(5): 1186-1195.

[6] Zhao C, Lee W S, He D. Immature green citrus detection based on colour feature and sum of absolute transformed difference (SATD) using colour images in the citrus grove[J]. Computers and Electronics in Agriculture, 2016, 124: 243-253.

[7] 馬翠花，張學(xué)平，李育濤，等. 基于顯著性檢測與改進(jìn)Hough變換方法識別未成熟番茄[J]. 農(nóng)業(yè)工程學(xué)報，2016，32(14)：219-226.

Ma Cuihua, Zhang Xueping, Li Yutao, et al. Identification of immature tomatoes based on saliency detection and improved Hough transform method [J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2016, 32(14): 219-226. (in Chinese with English abstract)

[8] 盧軍，桑農(nóng). 變化光照下樹上柑橘目標(biāo)檢測與遮擋輪廓恢復(fù)技術(shù)[J]. 農(nóng)業(yè)機(jī)械學(xué)報，2014，45(4)：76-81.

Lu Jun, Sang Nong. Detection of citrus targets and restoration of concealed contours in trees under changing light[J]. Transactions of the Chinese Society for Agricultural Machinery, 2014, 45(4): 76-81. (in Chinese with English abstract)

[9] Song P, Qi L, Qian X, et al. Detection of ships in inland river using high-resolution optical satellite imagery based on mixture of deformable part models[J]. Journal of Parallel and Distributed Computing, 2019, 132: 1-7.

[10] Girshick R, Donahua J, Darrell T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//IEEE Conference on Computer Vision & Pattern Recognition, Columbus, Ohio, USA, 2014: 570-578.

[11] Ross G. Fast R-CNN[J]. Computer Science, 2015, 9(1): 10-19.

[12] Ren S, He K, Girshick R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149.

[13] 李林升，曾平平. 改進(jìn)深度學(xué)習(xí)框架Faster-RCNN 的蘋果目標(biāo)檢測[J]. 機(jī)械設(shè)計與研究，2019，35(5)：24-27.

Li Linsheng, Zeng Pingping. Apple target detection based on improved Faster-RCNN framework of deep learning[J]. Machine Design & Research, 2019, 35(5): 24-27. (in Chinese with English abstract)

[14] Sun J, He X F, Ge X, et al. Detection of key organs in tomato based on deep migration learning in a complex background[J]. Agriculture-Basel, 2018, 8(12): 8196.

[15] Jia W, Tian Y, Luo R, et al. Detection and segmentation of overlapped fruits based on optimized mask R-CNN application in apple harvesting robot[J]. Computers and Electronics in Agriculture, 2020, 172: 1-7.

[16] Chu P Y, Li Z J, Lammers K, et al. Deep learning-based apple detection using a suppression mask R-CNN[J]. Pattern Recognition Letters, 2021, 147: 206-211.

[17] Liu W, Anguelov D, Erhan D, et al. SSD: Single Shot MultiBox Detector[C]//Proceedings of the 14th European Conference on Computervision. Berlin, Germany: Springer, 2016: 21-37.

[18] Redmon J, Divvala S, Girshick R, et al. You only look once: Unified, real-time object detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Las Vegas, USA, 2016: 779-788.

[19] Redmon J, Farhadi A. YOLO9000: Better, faster, stronger[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Honolulu, USA, 2017: 7263-7271.

[20] 趙德安，吳任迪，劉曉洋，等. 基于YOLO深度卷積神經(jīng)網(wǎng)絡(luò)的復(fù)雜背景下機(jī)器人采摘蘋果定位[J]. 農(nóng)業(yè)工程學(xué)報，2019，35(3)：164-173.

Zhao Dean, Wu Rendi, Liu Xiaoyang, et al. Apple positioning based on YOLO deep convolutional neural network for picking robot in complex background[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2019, 35(3): 164-173. (in Chinese with English abstract)

[21] 武星，齊澤宇，王龍軍，等. 基于輕量化YOLOv3 卷積神經(jīng)網(wǎng)絡(luò)的蘋果檢測方法[J]. 農(nóng)業(yè)機(jī)械學(xué)報，2020，51(8)： 17-25.

Wu Xing, Qi Zeyu, Wang Longjun, et al. Apple detection method based on light-YOLO V3 convolutional neural network[J]. Transactions of the Chinese Society for Agricultural Machinery, 2020, 51(8): 17-25. (in Chinese with English abstract)

[22] Tian Z, Shen C, Chen H, et al. FCOS: Fully convolutional one-stage object detection[C]//IEEE International Conference on Computer Vision (ICCV), South Korea, 2019: 9626-9635.

[23] 彭紅星，黃博，邵園園，等. 自然環(huán)境下多類水果采摘目標(biāo)識別的通用改進(jìn)SSD 模型[J]. 農(nóng)業(yè)工程學(xué)報，2018，34(16)：155-162.

Peng Hongxing, Huang Bo, Shao Yuanyuan, et al. General improved SSD model for picking object recognition of multiple fruits in natural environment[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2018, 34(16): 155-162. (in Chinese with English abstract)

[24] Ma Z, Li N Q. Improving Apple Detection Using RetinaNet[J]. Lecture Notes in Electrical Engineering, 2022, 813: 131-141.

[25] 王昱潭，薛君蕊. 改進(jìn)SSD的靈武長棗圖像輕量化目標(biāo)檢測方法[J]. 農(nóng)業(yè)工程學(xué)報，2021，37(19)：173-182.

Wang Yutan, Xue Junrui. Lingwu long jujube image lightweight object detection method based on improved SSD[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(19): 173-182. (in Chinese with English abstract)

[26] Lin T Y, Goyal P, Girshick R, et al. Focal loss for dense object detection[C]//Proceedings of the IEEE International Conference on Computer Vision, Venice, Italy, 2017: 2980-2988.

[27] He K M, Zhang X Y, Ren S Q, et al. Deep residual learning for image recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Las Vegas, USA, 2016: 770-778.

[28] Lin T Y, Dollár P, Girshick R, et al. Feature pyramid networks for object detection[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu, HI, USA: IEEE, 2017: 936-944.

[29] Long J, Shelhamer E, Darrell T. Fully convolutional networks for semantic segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(7): 640-651.

[30] Gao S H, Cheng M M, Zhao K, et al. Res2Net: A new multi-scale backbone architecture[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2021, 43(2): 652-662.

[31] Tan M, Pang R, Le Q V. EfficientDet: Scalable and efficient object detection[C]//IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2020: 10778-10787.

[32] Rui S, Gao F F, Zhou Z X, et al. Improved multi-classes kiwifruit detection in orchard to avoid collisions during robotic picking[J]. Computers and Electronics in Agriculture, 2021, 182: 106052.

Apple detection in complex orchard environment based on improved RetinaNet

Sun Jun, Qian Lei, Zhu Weidong, Zhou Xin, Dai Chunxia, Wu Xiaohong

(212013)

A fast and accurate detection is one of the most important prerequisites for the apple harvest robots. However, there are many factors that can make apple detection difficult in a real orchard scene, such as complex backgrounds, fruit overlap, and leaf/branch occlusion. In this study, a fast and stable network was proposed for apple detection using an improved RetinaNet. A picking strategy was also developed for the harvest robot. Specifically, once the apples occluded by branches/wires were regarded as the picking targets, the robot arm would be injured at the same time. Therefore, the apples were labeled with multiple classes, according to different types of occlusions. The Res2Net module was also embedded in the ResNet50, in order to improve the ability of the backbone network to extract the multi-scale features. Furthermore, the BiFPN instead of FPN was used as a feature fusion network in the neck of the network. A weight fusion of feature maps was also made at different scales for the apples with different sizes, thus improving the detection accuracy of the network. After that, a loss function was combined with the Focal loss and Efficient Intersection over Union (EIoU) loss. Among them, Focal loss was used for the classification loss function, further reducing the errors from the imbalance of positive and negative sample ratios. By contrast, the EIoU loss was used for the regression loss function of the bounding box, in order to maintain a fast and accurate regression. Particularly, there were some different relative positions in the prediction and the ground truth box, such as overlap, disjoint and inclusion. Finally, the classification and regression were carried out on the feature map of five scales to realize a better detection of apple. In addition, the original dataset consisted of 800 apple images with complex backgrounds of dense orchards. A data enhancement was conducted to promote the generalization ability of the model. The dataset was then expanded to 4 800 images after operations, such as rotating, adjusting brightness, and adding noise. There was also a balance between the detection accuracy and speed. A series of experimental statistics were obtained on the number of BiFPN stacks in the network. Specifically, the BiFPN was stacked five times in the improved RetinaNet. The ablation experiments showed that each improvement of the model enhanced the accuracy of the network for the apple detection, compared with the original. The average precision of the improved RetinaNet reached 94.02%, 86.74%, 89.42%, and 94.84% for the leaf occlusion, branch/wire occlusion, fruit occlusion, and no occlusion apples, respectively. The mean Average Precision (mAP) reached 91.26%, which was 5.02 percentage points higher than that of the traditional RetinaNet. The improved RetinaNet took only 42.72 ms to process an apple image on average. Correspondingly, each fruit picking cycle was 2 780 ms, indicating that the detection speed fully met the harsh requirement of the picking robot. Only when the apples were large or rarely occluded, both improved and traditional RetinaNet were used to accurately detect them. By contrast, the improved RetinaNet performed the best to detect all apple fruits, when the apples were under a complex environment in an orchard, such as the leaf-, fruit-, or branch/wire-occluded background. The reason was that the traditional RetinaNet often appeared to miss the detection in this case. Consequently, the best comprehensive performance was achieved to verify the effectiveness of the improvements, compared with the state-of-the-art detection network, such as the Faster RCNN and YOLOv4. Overall, all the apples in the different classes can be effectively detected for the apple harvest. The finding can greatly contribute to the picking strategy of the robot, further avoiding the potential damage by the branches and wires during harvesting.

image recognition; picking robot; apple detection; RetinaNet; BiFPN; EIoU; occlusion

10.11975/j.issn.1002-6819.2022.15.034

S126

1002-6819(2022)-15-0314-09

孫俊，錢磊，朱偉棟，等. 基于改進(jìn)RetinaNet的果園復(fù)雜環(huán)境下蘋果檢測[J]. 農(nóng)業(yè)工程學(xué)報，2022，38(15)：314-322.doi：10.11975/j.issn.1002-6819.2022.15.034 http://www.tcsae.org

Sun Jun, Qian Lei, Zhu Weidong, et al. Apple detection in complex orchard environment based on improved RetinaNet[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2022, 38(15): 314-322. (in Chinese with English abstract) doi：10.11975/j.issn.1002-6819.2022.15.034 http://www.tcsae.org

2022-03-09

2022-07-20

江蘇大學(xué)農(nóng)業(yè)裝備學(xué)部項目（NZXB20210210）；江蘇高校優(yōu)勢學(xué)科建設(shè)工程（三期）資助項目（PAPD-2018-87）

孫俊，博士，教授，博士生導(dǎo)師，研究方向為計算機(jī)技術(shù)在農(nóng)業(yè)工程中的應(yīng)用。Email：sun2000jun@ujs.edu.cn

中國農(nóng)業(yè)工程學(xué)會會員：孫?。‥041200652S）

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于改進(jìn)RetinaNet的果園復(fù)雜環(huán)境下蘋果檢測

0 引 言

１ 材料與方法

1.1 試驗數(shù)據(jù)來源

1.2 圖像數(shù)據(jù)增強(qiáng)

1.3 果園復(fù)雜背景蘋果檢測模型的改進(jìn)

2 模型的訓(xùn)練與試驗

2.1 試驗環(huán)境與參數(shù)設(shè)置

2.2 評價指標(biāo)

2.3 模型訓(xùn)練

3 結(jié)果與分析

3.1 模型的性能試驗

3.2 消融試驗

3.3 BiFPN不同堆疊次數(shù)的對比試驗

3.4 不同檢測網(wǎng)絡(luò)對比試驗

3.5 在不同果園背景的泛化性測試

4 結(jié) 論

0 引言

１材料與方法