改進(jìn)YOLOv5的蘋果花生長(zhǎng)狀態(tài)檢測(cè)方法

2022-03-02 08:32:06楊其晟李文寬楊曉峰岳琳茜李海芳

計(jì)算機(jī)工程與應(yīng)用 2022年4期

楊其晟，李文寬，楊曉峰，岳琳茜，李海芳

太原理工大學(xué) 信息與計(jì)算機(jī)學(xué)院，山西晉中030600

近幾年來我國(guó)經(jīng)濟(jì)林果產(chǎn)業(yè)飛速發(fā)展，蘋果作為最常見的經(jīng)濟(jì)林果之一，其規(guī)模與產(chǎn)量逐年增加，但目前經(jīng)濟(jì)林果的栽培質(zhì)量與技術(shù)仍然有待提高。在蘋果發(fā)育的整個(gè)物候期中，想要提高蘋果產(chǎn)量除了要做好土、肥、水管理和病蟲害防治外，花期管理在整個(gè)過程中也具有非常重要的地位，針對(duì)不同的花朵生長(zhǎng)狀態(tài)進(jìn)行人工干預(yù)可以有效提高坐果率和果實(shí)品質(zhì)。對(duì)于蘋果花朵生長(zhǎng)狀態(tài)的自動(dòng)檢測(cè)也成為一項(xiàng)具有重要價(jià)值的研究。

目前，國(guó)內(nèi)外對(duì)經(jīng)濟(jì)林果等農(nóng)作物的自動(dòng)觀測(cè)已經(jīng)展開了非常廣泛的研究，通過計(jì)算機(jī)視覺技術(shù)可以實(shí)現(xiàn)農(nóng)作物的自動(dòng)化觀測(cè)，從而提高對(duì)農(nóng)作物的管理效率。目前已經(jīng)有多種方法實(shí)現(xiàn)了對(duì)蘋果的自動(dòng)觀測(cè)，觀測(cè)的工作集中于對(duì)蘋果果實(shí)的檢測(cè)與產(chǎn)量估計(jì)，以及對(duì)蘋果物候期的檢測(cè)。但是，關(guān)于蘋果花期生長(zhǎng)狀態(tài)識(shí)別方面的研究目前還存在很多不足，當(dāng)前的已有成果只能單獨(dú)檢測(cè)全開的花朵而無法將各種生長(zhǎng)狀態(tài)的花朵進(jìn)行高精度的分類檢測(cè)?，F(xiàn)階段對(duì)農(nóng)作物花期的自動(dòng)觀測(cè)集中于圖像分割與目標(biāo)檢測(cè)的手段。鄧穎等[1]使用基于Mask R-CNN 的神經(jīng)網(wǎng)絡(luò)模型完成了花朵的識(shí)別和分割任務(wù)，所提出的柑橘花朵分割識(shí)別方法實(shí)現(xiàn)了對(duì)柑橘花朵目標(biāo)的高效檢測(cè)。Sharma 等[2]通過對(duì)花朵的形狀分析，使用HSV 色彩空間的圖像分割和圓形擬合算法計(jì)算出的圓心提出了一種花朵自動(dòng)分割與數(shù)量估算方法。劉雙喜等[3]通過分析花朵簇輪廓面積值特征，并將其作為聚類特征，建立花量的模糊聚類模型，實(shí)現(xiàn)蘋果的花朵數(shù)量估計(jì)。Dias 等[4]使用簡(jiǎn)單線性迭代聚類（simple linear iterative clustering，SLIC）和卷積神經(jīng)網(wǎng)絡(luò)（convolutional neural networks，CNN）結(jié)合的思想，提出一種對(duì)預(yù)訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行微調(diào)以使其對(duì)花朵敏感的花朵分割方法。鄭玉龍等[5]提出一種結(jié)合Adam及隨機(jī)梯度下降（stochastic gradient descent，SGD）的深度學(xué)習(xí)模型Resnet20，實(shí)現(xiàn)自然環(huán)境下的花朵識(shí)別。Wu等[6]在CSPDarknet53框架下構(gòu)建YOLOv4（you only look once version 4）模型，使用通道修剪算法對(duì)模型進(jìn)行了修剪，從而快速、準(zhǔn)確地檢測(cè)蘋果花。

總結(jié)以上方法，基于通用深度學(xué)習(xí)的模型雖然在蘋果花朵檢測(cè)這一領(lǐng)域做了大量研究，且對(duì)比傳統(tǒng)方法有效提升了檢測(cè)性能，但對(duì)蘋果花朵生長(zhǎng)狀態(tài)進(jìn)行高精度檢測(cè)方面的研究尚未取得有效成果。在現(xiàn)階段模型訓(xùn)練與推理時(shí)也會(huì)占用大量的計(jì)算資源，致使無法做到低成本的學(xué)習(xí)，也難以實(shí)現(xiàn)低成本、高精度的農(nóng)業(yè)自動(dòng)化管理。

在此現(xiàn)狀下，亟需一種針對(duì)蘋果花朵生長(zhǎng)狀態(tài)的一階段檢測(cè)方法，從而實(shí)現(xiàn)對(duì)復(fù)雜場(chǎng)景下蘋果花朵生長(zhǎng)狀態(tài)的檢測(cè)。因此，本文針對(duì)現(xiàn)存問題構(gòu)建了一個(gè)真實(shí)果園場(chǎng)景下的蘋果花期花朵圖像數(shù)據(jù)集，提出了一種改進(jìn)YOLOv5的蘋果花朵生長(zhǎng)狀態(tài)檢測(cè)方法，直接針對(duì)花朵區(qū)域，對(duì)花朵花蕾期、半開期、全開期、凋落期四種生長(zhǎng)狀態(tài)進(jìn)行識(shí)別，具有模型架構(gòu)簡(jiǎn)單、容易訓(xùn)練、收斂快的優(yōu)勢(shì)。該方法基于YOLOv5架構(gòu)，結(jié)合協(xié)同注意力機(jī)制（coordinate attention，CA）模塊[7]對(duì)主干網(wǎng)絡(luò)模塊進(jìn)行改進(jìn)和調(diào)整，減少模型參數(shù)并利用更多的淺層特征；設(shè)計(jì)多尺度檢測(cè)結(jié)構(gòu)，提高對(duì)于小目標(biāo)物體的檢測(cè)性能；融合基于分離的卷積運(yùn)算[8]重新設(shè)計(jì)特征融合網(wǎng)絡(luò)；使用CIoU（complete intersection over union）作為邊界框回歸的損失函數(shù)。實(shí)驗(yàn)表明，本文方法對(duì)小目標(biāo)檢測(cè)效果良好，可以應(yīng)對(duì)花朵半開與全開特征不明顯而導(dǎo)致的誤檢情況，并在精度上相比于基線方法都取得一定幅度提升。

1 YOLO目標(biāo)檢測(cè)模型

目前，基于深度學(xué)習(xí)的目標(biāo)檢測(cè)技術(shù)框架主要分為一階段與兩階段目標(biāo)檢測(cè)器兩大類。兩階段的檢測(cè)器首先生成可能包含目標(biāo)物體的候選區(qū)域，并從每個(gè)候選區(qū)域中提取特征，再對(duì)候選區(qū)域進(jìn)行進(jìn)一步的分類和校準(zhǔn)，從而得到最終的結(jié)果，如Faster R-CNN[9]、Cascade R-CNN[10]等。單階段檢測(cè)器可以直接對(duì)特征圖上每個(gè)位置的目標(biāo)進(jìn)行分類預(yù)測(cè)，具有更高的檢測(cè)效率，如RetinaNet[11]、SSD[12]、CenterNet[13]等。兩階段檢測(cè)器通常在數(shù)據(jù)集上具有更好的檢測(cè)性能，單階段檢測(cè)器在保障檢測(cè)精度的前提下具有更高的時(shí)間效率，對(duì)硬件設(shè)備的要求更低，在農(nóng)業(yè)自動(dòng)觀測(cè)領(lǐng)域具有更好的適用性。

1.1 YOLOv5架構(gòu)

YOLOv5 是由UitralyticsLLC 公司發(fā)布的一種單階段目標(biāo)檢測(cè)算法，YOLOv5相比YOLOv4[14]而言，在檢測(cè)平均精度降低不多的基礎(chǔ)上，具有均值權(quán)重文件更小、訓(xùn)練時(shí)間和推理速度更短的特點(diǎn)。YOLOv5 的網(wǎng)絡(luò)結(jié)構(gòu)分為輸入端、Backbone、Neck、Head四部分。

輸入端主要包括Mosaic 數(shù)據(jù)增強(qiáng)、圖片尺寸處理以及自適應(yīng)錨框計(jì)算三部分。Mosaic 數(shù)據(jù)增強(qiáng)將四張圖片進(jìn)行組合，達(dá)到豐富圖片背景的效果；圖片尺寸處理對(duì)不同長(zhǎng)寬的原始圖像自適應(yīng)地添加最少的黑邊，統(tǒng)一縮放為標(biāo)準(zhǔn)尺寸；自適應(yīng)錨框計(jì)算在初始錨框的基礎(chǔ)上，將輸出預(yù)測(cè)框與真實(shí)框進(jìn)行比對(duì)，計(jì)算差距后再反向更新，不斷迭代參數(shù)來獲取最合適的錨框值。

Backbone 主要包含了BottleneckCSP[15]和Focus 模塊。BottleneckCSP模塊在增強(qiáng)整個(gè)卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)性能的同時(shí)大幅減少了計(jì)算量；Focus 模塊對(duì)圖片進(jìn)行切片操作，將輸入通道擴(kuò)充為原來的4 倍，并經(jīng)過一次卷積得到下采樣特征圖，在實(shí)現(xiàn)下采樣的同時(shí)減少了計(jì)算量并提升了速度，具體操作如圖1所示。

圖1 Focus切片操作Fig.1 Focus slice operation

Neck 中采用了特征金字塔網(wǎng)絡(luò)（feature pyramid networks，F(xiàn)PN）[16]與路徑聚合網(wǎng)絡(luò)（path aggregation network，PAN）結(jié)合的結(jié)構(gòu)，將常規(guī)的FPN 層與自底向上的特征金字塔進(jìn)行結(jié)合，將所提取的語義特征與位置特征進(jìn)行融合，同時(shí)將主干層與檢測(cè)層進(jìn)行特征融合，使模型獲取更加豐富的特征信息。

Head 輸出一個(gè)向量，該向量具有目標(biāo)對(duì)象的類別概率、對(duì)象得分和該對(duì)象邊界框的位置。檢測(cè)網(wǎng)絡(luò)由三層檢測(cè)層組成，不同尺寸的特征圖用于檢測(cè)不同尺寸的目標(biāo)對(duì)象。每個(gè)檢測(cè)層輸出相應(yīng)的向量，最后生成原圖像中目標(biāo)的預(yù)測(cè)邊界框和類別并進(jìn)行標(biāo)記。整個(gè)YOLOv5模型結(jié)構(gòu)如圖2所示。

圖2 YOLOv5算法結(jié)構(gòu)Fig.2 YOLOv5 algorithm structure

1.2 YOLOv5在花朵生長(zhǎng)狀態(tài)檢測(cè)中的問題

盡管YOLOv5 已經(jīng)具有了良好的檢測(cè)性能和推理速度，但針對(duì)本文所解決問題，仍然存在以下缺陷：

（1）算法中主干網(wǎng)絡(luò)有較多的Bottleneck結(jié)構(gòu)，卷積操作中的卷積核包含大量參數(shù)，導(dǎo)致識(shí)別模型中含有大量參數(shù)，增加了模型的部署成本。由于花蕾期目標(biāo)較小，且小目標(biāo)的物體更依賴于淺層特征，故特征提取中通過大量的卷積之后容易對(duì)小目標(biāo)對(duì)象的特征提取造成一定的信息丟失。

（2）原始模型中分別利用8倍下采樣、16倍下采樣、32倍下采樣的特征圖作為特征層去檢測(cè)目標(biāo)，當(dāng)輸入圖像尺寸為640×640時(shí)，大小為80×80、40×40、20×20的檢測(cè)層可以用來分別檢測(cè)大小在8×8、16×16、32×32 以上的目標(biāo)，因此當(dāng)某一目標(biāo)在原輸入圖像中大小小于8×8時(shí)去檢測(cè)目標(biāo)將會(huì)變得困難。

（3）在路徑聚合網(wǎng)絡(luò)（path aggregation network，PANet）[17]中雖然將深層特征圖和淺層特征圖拼接來融合不同級(jí)別的特征信息，但其并未將更加底層的特征圖與高層特征圖進(jìn)行融合，且未考慮特征內(nèi)部的模式冗余。

（4）當(dāng)預(yù)測(cè)框在目標(biāo)框內(nèi)部且預(yù)測(cè)框大小一致時(shí)，邊界框回歸損失函數(shù)GIoU（generalized intersection over union）完全退化為IoU（intersection over union）損失函數(shù)，無法實(shí)現(xiàn)高精度的定位。

2 改進(jìn)的YOLOv5算法

針對(duì)YOLOv5 在花朵生長(zhǎng)狀態(tài)檢測(cè)中所存在的問題，本文對(duì)模型做出如下改進(jìn)來提升對(duì)花朵生長(zhǎng)狀態(tài)的檢測(cè)效果：（1）在主干網(wǎng)絡(luò)中引入?yún)f(xié)同注意力機(jī)制，在捕獲跨通道信息的同時(shí)，還能捕獲方向感知和位置感知信息，幫助模型更加精準(zhǔn)地定位和識(shí)別感興趣區(qū)域。對(duì)BottleneckCSP 結(jié)構(gòu)修改，并減少模塊數(shù)量來保留更多的淺層特征。（2）在原有網(wǎng)絡(luò)結(jié)構(gòu)三層檢測(cè)層的基礎(chǔ)上，添加小目標(biāo)檢測(cè)層，從而提高對(duì)小目標(biāo)物體的檢測(cè)性能。（3）將PANet 中更加底層的特征圖與高層特征圖進(jìn)行融合，且在PANet中使用基于分離的卷積運(yùn)算來消除同一層內(nèi)輸入特征圖中存在的冗余問題。（4）使用CIoU作為邊界框回歸的損失函數(shù)，解決預(yù)測(cè)框在目標(biāo)框內(nèi)部且預(yù)測(cè)框大小一致的情況，提高定位精度。

2.1 主干網(wǎng)絡(luò)優(yōu)化

2.1.1 優(yōu)化BottlenckCSP結(jié)構(gòu)

在原始模型主干網(wǎng)絡(luò)中，小目標(biāo)所具有的特征信息會(huì)隨著卷積操作而減少或者消失，從而增加了小目標(biāo)物體的檢測(cè)難度。針對(duì)上述問題，本文簡(jiǎn)化了主干網(wǎng)絡(luò)中的特征提取層，將原來主干網(wǎng)絡(luò)中BottleneckCSP 的模塊數(shù)量（×3，×9，×9，×3）變?yōu)椋ā?，×6，×6，×2）來提取更多的淺層特征信息；為了解決過多卷積核帶來參數(shù)量較大的問題，本文對(duì)BottleneckCSP的結(jié)構(gòu)進(jìn)行了改進(jìn)設(shè)計(jì)，刪除了原始模塊分支上的卷積層，并且將BottleneckCSP模塊的輸入特征映射與另一個(gè)分支的輸出特征圖直接連接，有效地減少了模塊中的參數(shù)數(shù)量。改進(jìn)的BottleneckCSP模塊稱為BCSP_1，其結(jié)構(gòu)如圖3所示。

圖3 BCSP_1結(jié)構(gòu)Fig.3 BCSP_1 structure

2.1.2 引入CA協(xié)同注意力機(jī)制

通常情況下通道注意力會(huì)給模型帶來比較顯著的性能提升，但它們通常會(huì)忽略位置信息。本文在SPP（spatial pyramid pooling）結(jié)構(gòu)[18]之后增加協(xié)同注意力機(jī)制（CA）將位置信息嵌入到通道注意力中，通過操作不僅能捕獲跨通道的信息，還能捕獲方向感知和位置感知信息，幫助模型更加精準(zhǔn)地定位和識(shí)別感興趣的目標(biāo)。CA注意力機(jī)制將通道注意力分解為兩個(gè)一維特征進(jìn)行編碼，沿著不同的空間方向，分別捕獲長(zhǎng)程依賴與精確的位置信息，編碼形成方向感知和位置敏感的注意力特征圖來互補(bǔ)地應(yīng)用到輸入特征圖，從而增強(qiáng)感興趣目標(biāo)的表示，其結(jié)構(gòu)如圖4所示。

圖4 協(xié)同注意力機(jī)制Fig.4 Coordinate attention mechanism

協(xié)同注意力機(jī)制通過精確的位置信息對(duì)通道關(guān)系和長(zhǎng)期依賴性進(jìn)行編碼，為了實(shí)現(xiàn)坐標(biāo)信息嵌入，首先通過全局平均池化分別對(duì)水平方向和垂直方向進(jìn)行分解，得到兩個(gè)一維特征編碼向量。操作對(duì)應(yīng)圖4 的XAvg Pool 和YAvg Pool 部分，通過操作解決了全局池化方法難以保存位置信息的缺陷。為了利用上述操作產(chǎn)生的信息表征，首先使用Concat級(jí)聯(lián)之前模塊生成的兩個(gè)特征圖，然后使用1×1 卷積變換函數(shù)F1對(duì)其進(jìn)行變換操作：

式中[?,?]為沿空間維數(shù)的拼接操作，δ為非線性激活函數(shù)，f為在水平方向和垂直方向的空間信息進(jìn)行編碼的中間特征映射。沿著空間維度將f分解為兩個(gè)張量f h∈RC/r×H和f w∈RC/r×W，其中r表示下采樣比例。利用兩個(gè)1×1 卷積變換Fh和Fw分別對(duì)f h和f w進(jìn)行變換，使之具有相同通道數(shù)的張量，結(jié)果如式（2）、式（3）所示：

這里σ是sigmoid激活函數(shù)。為了降低模型的復(fù)雜性和計(jì)算開銷，通常使用適當(dāng)?shù)目s減比r來減少f的通道數(shù)。然后對(duì)輸出gh和gw進(jìn)行擴(kuò)展，分別作為注意力權(quán)重。其最終輸出如式（4）所示：

2.2 多尺度檢測(cè)結(jié)構(gòu)

原有網(wǎng)絡(luò)結(jié)構(gòu)中采用三層尺度特征圖層檢測(cè)設(shè)計(jì)，對(duì)于640×640的輸入圖像尺度，分別利用8倍、16倍、32倍下采樣的特征圖作為特征層去檢測(cè)不同大小尺寸的目標(biāo)?；ɡ倨谒铏z測(cè)目標(biāo)通常較小，原有多尺度檢測(cè)結(jié)構(gòu)對(duì)此類目標(biāo)容易造成漏檢。因此，針對(duì)該問題改進(jìn)多尺度檢測(cè)結(jié)構(gòu)以降低小目標(biāo)誤檢率。

本文在原有網(wǎng)絡(luò)結(jié)構(gòu)上增加一個(gè)特征尺度。Conv模塊由Conv2d與批量歸一化（batch normalization，BN）層以及LeakyRelu激活函數(shù)構(gòu)成。其中，Conv2d卷積核為1×1，步長(zhǎng)為1；LeakyRelu 激活函數(shù)可以使網(wǎng)絡(luò)快速收斂，具有較高的計(jì)算效率，同時(shí)解決了傳統(tǒng)Relu激活函數(shù)在負(fù)區(qū)間導(dǎo)致神經(jīng)元不學(xué)習(xí)的問題；BN 層防止在訓(xùn)練過程中梯度消失或爆炸，加快訓(xùn)練速度。UpSample為上采樣模塊，經(jīng)過上采樣操作擴(kuò)大特征圖。Concat代表張量拼接操作，通過操作擴(kuò)充張量維度，完成特征融合。具體操作為：在第17層后，繼續(xù)對(duì)特征圖進(jìn)行上采樣等處理，使得特征圖繼續(xù)擴(kuò)大，同時(shí)在第21 層時(shí)，將獲取到的大小為160×160的特征圖與骨干網(wǎng)絡(luò)中第2層特征圖進(jìn)行張量拼接融合，獲取更大的特征圖便于小目標(biāo)物體的檢測(cè)。在第22層，即檢測(cè)層，增加小目標(biāo)檢測(cè)層，整個(gè)模型在改進(jìn)以后一共使用4層檢測(cè)層來進(jìn)行檢測(cè)，設(shè)計(jì)的4個(gè)檢測(cè)尺度同時(shí)利用了底層特征高分辨率和深層特征的高語義信息，且沒有顯著增加網(wǎng)絡(luò)復(fù)雜度。

2.3 融合基于拆分卷積的特征融合結(jié)構(gòu)

2.3.1 基于拆分的卷積運(yùn)算SPConv

在原有PANet中，同一層內(nèi)的輸入特征圖具有相似但不完全相同的特征冗余問題，但并不存在相同的兩個(gè)通道特征，因此無法直接刪除冗余通道特征。如圖5所示，右上角為輸入圖像，其余為部分輸入特征圖，其中有許多相似特征圖。因此，選擇一些具有代表性的特征圖來補(bǔ)充代表性信息，而剩余的只需要補(bǔ)充微小的不同細(xì)節(jié)信息即可。

圖5 部分特征圖可視化Fig.5 Partial feature map visualization

為了確定具有類似模式的特征圖是否冗余，可以在層與層之間采取一種基于拆分的卷積操作，即SPConv（split based convolutional）。它可以消除相似特征圖中的冗余且需要較少的計(jì)算量。

在SPConv中將輸入特征拆分為代表性部分與不確定部分，令X∈RL×h×w和Y∈RM×h×w分別表示輸入、輸出特征，其中L表示輸入通道個(gè)數(shù)，M表示輸出通道個(gè)數(shù)，W表示大小為k×k的卷積核，對(duì)應(yīng)的卷積計(jì)算可以描述為Y=WX+b。為簡(jiǎn)化表示，在后續(xù)介紹中忽略了偏置項(xiàng)b。卷積計(jì)算的矩陣表示為式（5），其中x表示L個(gè)輸入矩陣，y代表M個(gè)輸出矩陣，Wij代表M個(gè)k×k大小卷積核的參數(shù)。

基于拆分的卷積運(yùn)算將輸入通道按比例α拆分為兩部分：代表性部分用k×k卷積來提供內(nèi)在信息；冗余性部分用1×1 卷積來補(bǔ)充微小的隱藏細(xì)節(jié)。矩陣表示如式（6）所示，其中前半部分是代表性部分，后半部分是冗余性部分：

其中，y表示輸出矩陣，x表示αL個(gè)輸入矩陣，Wij表示代表性部分在αL個(gè)通道上3×3卷積核的參數(shù)，wij代表冗余性部分在(1-α)L個(gè)通道上1×1 卷積核的參數(shù)（本文中α取0.5）。由于劃分卷積之后的代表性部分可以代表不同的特征類別，可以將代表性的通道進(jìn)行劃分，每個(gè)部分代表一個(gè)主要的特征類別。其中在代表性通道上使用3×3的群組卷積來進(jìn)一步減少冗余信息，但是這樣的操作有可能削減了必要的通道連接，故在代表性通道中添加1×1 的點(diǎn)卷積操作來解決此信息的丟失問題。然后將得到的兩個(gè)特征進(jìn)行直接求和融合，得到一個(gè)額外的分?jǐn)?shù)，式（6）中代表性部分可以表示為式（7）。

其中，是第l組的逐分組卷積的參數(shù)，這里將αcl的代表性通道劃分為G組，每個(gè)組zl包括αcl/G個(gè)通道。通過前述操作得到了兩類特征，通過GAP 全局平均池化操作，生成通道級(jí)別的統(tǒng)計(jì)量S3、S1用于全局信息的嵌入，得到k個(gè)1×1 的特征圖；之后堆疊生成的S3與S1，并經(jīng)過一個(gè)全連接層，得到一個(gè)壓縮的特征向量z；然后將這個(gè)壓縮的單維度向量經(jīng)過Softmax層，重新分為兩個(gè)特征向量β、γ；之后分別與相應(yīng)的代表性部分和冗余性部分的特征向量進(jìn)行通道的相乘操作，再通過張量的相加得到最后的輸出特征。具體操作如圖6所示。

圖6 基于分離的卷積運(yùn)算Fig.6 Convolution based on separation

本文PANet中通過使用基于分離的卷積運(yùn)算SPConv，在減少參數(shù)量的同時(shí)有效消除各層特征圖之間的冗余，在降低模型冗余的同時(shí)加速模型推理速度。

2.3.2 特征融合結(jié)構(gòu)改進(jìn)

在卷積神經(jīng)網(wǎng)絡(luò)中，通過卷積核來提取圖像的特征圖，從而完成對(duì)圖像多角度的完備描述。低層特征具有更高的分辨率，目標(biāo)位置較為準(zhǔn)確，更能反映圖像的具體內(nèi)容，輪廓、邊緣、顏色、紋理和形狀特征等特征較為明顯；高層特征經(jīng)過多次卷積操作以后，具有更強(qiáng)的語義信息，能更好地表達(dá)人類所能夠理解的圖像信息，但其分辨率較低。通過對(duì)所構(gòu)建數(shù)據(jù)集中花朵圖像進(jìn)行分析，發(fā)現(xiàn)在大多數(shù)圖像中，需要識(shí)別的蘋果樹花朵目標(biāo)大部分都屬于中小尺寸情況。為了提高目標(biāo)檢測(cè)網(wǎng)絡(luò)的識(shí)別性能，可以將低層特征與高層特征進(jìn)行高效融合，使之在具有強(qiáng)語義信息的同時(shí)對(duì)細(xì)節(jié)仍有較強(qiáng)的感知力。

由于本研究中改進(jìn)的網(wǎng)絡(luò)架構(gòu)的第25層和第28層輸出特征圖為小型和中型對(duì)象目標(biāo)檢測(cè)層的輸入特征圖，為了提高花朵的檢測(cè)準(zhǔn)確率，彌補(bǔ)高層特征低分辨率造成的空間信息損失，通過融合多層來提升模型檢測(cè)性能。對(duì)原始體系結(jié)構(gòu)中輸入到小型和中型對(duì)象規(guī)模目標(biāo)檢測(cè)層的特征融合進(jìn)行了改進(jìn)，將原始模型中14與18層的特征融合改為12與26層，配合增加檢測(cè)層之后16 與23 層的特征融合操作，將下層感受野較大的特征提取層的輸出與目標(biāo)檢測(cè)層之前特征提取層的輸出融合。特征融合的操作使用Concat方法，Concat方法避免了Add 方法可能造成的信息丟失，而且不受特征圖的通道數(shù)量限制。通過在特征圖的通道進(jìn)行合并，使描述圖像本身的通道數(shù)增加，達(dá)到信息增廣的效果，使模型在檢測(cè)中小尺寸目標(biāo)物體時(shí)可以具有更好的檢測(cè)性能。具體網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)如圖7 所示。本文改進(jìn)的YOLOv5網(wǎng)絡(luò)結(jié)構(gòu)可以更好地適應(yīng)在果園復(fù)雜場(chǎng)景下對(duì)花朵的檢測(cè)，同時(shí)對(duì)于花蕾期小目標(biāo)的檢測(cè)準(zhǔn)確率有一定的提升。

圖7 改進(jìn)的YOLOv5算法結(jié)構(gòu)Fig.7 Improved YOLOv5 algorithm structure

2.4 改進(jìn)損失函數(shù)

YOLOv5 損失函數(shù)的定義如式（8）所示，其損失函數(shù)由三部分組成，分別為置信度損失lobj、分類損失lcls以及目標(biāo)框和預(yù)測(cè)框的位置損失lbox。

目標(biāo)置信度誤差lobj定義如式（9）所示：

目標(biāo)分類誤差lcls定義如式（10）所示：

目標(biāo)框位置誤差lbox使用GIoU 損失函數(shù)定義如式（11）所示：

在YOLOv5原始模型中使用GIoU_loss作為邊界框的回歸損失函數(shù)，在GIoU_loss 中增加了相交尺度的衡量方式，從而解決了IoU_loss中當(dāng)預(yù)測(cè)框和目標(biāo)框不相交，即IoU=0的時(shí)候損失函數(shù)不可導(dǎo)，從而導(dǎo)致IoU_loss無法優(yōu)化兩個(gè)框不相交的情況，同時(shí)也解決了當(dāng)兩個(gè)預(yù)測(cè)框大小相同，兩個(gè)IoU 也相同時(shí)IoU_loss 無法區(qū)分兩者相交的情況。但是GIoU_loss無法解決預(yù)測(cè)框在目標(biāo)框內(nèi)部且預(yù)測(cè)框大小一致的情況，因?yàn)檫@時(shí)預(yù)測(cè)框和目標(biāo)框的差集都是相同的，所以這三種狀態(tài)的GIoU 值也都是相同的，具體情況如圖8所示。

圖8 GIoU值相同的情況Fig.8 Same GIoU value

因此本文采用CIoU_loss作為目標(biāo)檢測(cè)任務(wù)的回歸損失函數(shù)，計(jì)算公式見式（12）。CIoU_loss 中考慮了預(yù)測(cè)框與目標(biāo)框之間的重疊面積和中心點(diǎn)距離，當(dāng)目標(biāo)框包裹預(yù)測(cè)框的時(shí)候，直接度量?jī)蓚€(gè)框的距離，從而考慮了邊界框中心點(diǎn)距離的信息與邊界框?qū)捀弑鹊某叨刃畔?，與此同時(shí)也考慮了預(yù)測(cè)框和目標(biāo)框的長(zhǎng)寬比，使邊界回歸結(jié)果更好。

其中，預(yù)測(cè)框中心點(diǎn)用b表示，目標(biāo)框中心點(diǎn)用bgt表示，ρ表示歐氏距離，c代表相交的預(yù)測(cè)框與目標(biāo)框之間所構(gòu)成外接最小矩形的對(duì)角線距離，α是一個(gè)權(quán)重系數(shù)，v代表長(zhǎng)寬比一致性的參數(shù)，計(jì)算公式如式（13）、（14）所示：

通過CIoU_loss解決了原始模型損失函數(shù)中預(yù)測(cè)框與目標(biāo)框在不同位置完全重疊時(shí)損失值一樣的問題，使模型在回歸框定位時(shí)更加精準(zhǔn)，提高模型的檢測(cè)性能。

3 實(shí)驗(yàn)

3.1 數(shù)據(jù)集

本文的數(shù)據(jù)來源于山西某農(nóng)田試驗(yàn)站，參考農(nóng)業(yè)氣象觀測(cè)規(guī)范，制定適宜本地的蘋果花期觀測(cè)標(biāo)準(zhǔn)，于2019年4月（花蕾期）開始，采集至2019年5月（凋落期）結(jié)束，使用3 888×5 184 像素分辨率的田間實(shí)時(shí)監(jiān)測(cè)設(shè)備在不同花期進(jìn)行圖像采集，采集時(shí)間段設(shè)定為每天8點(diǎn)—11 點(diǎn)、12 點(diǎn)—15 點(diǎn)、16 點(diǎn)—19 點(diǎn)，構(gòu)建了蘋果花期花朵不同生長(zhǎng)狀態(tài)的圖像數(shù)據(jù)集。數(shù)據(jù)集的部分樣本如圖9所示。

圖9 數(shù)據(jù)集部分樣本Fig.9 Data set sample

將采集的數(shù)據(jù)進(jìn)行篩選與整理，使用標(biāo)記軟件labelimg對(duì)采集到的圖片中的不同生長(zhǎng)狀態(tài)花朵圖像樣本進(jìn)行標(biāo)注，構(gòu)建蘋果花朵生長(zhǎng)狀態(tài)數(shù)據(jù)集，包括標(biāo)注花蕾3 301 個(gè)，半開狀態(tài)花朵1 227 個(gè)，全開狀態(tài)花朵4 193個(gè)，凋落狀態(tài)花朵1 241個(gè)。將標(biāo)注好的圖像標(biāo)注信息保存為.xml形式，內(nèi)容包括目標(biāo)物體的類別和目標(biāo)框的坐標(biāo)信息，數(shù)據(jù)標(biāo)注示例如圖10所示。

圖10 花朵生長(zhǎng)狀態(tài)標(biāo)注Fig.10 Example of data set annotation

圖11對(duì)數(shù)據(jù)集中目標(biāo)框大小的分布和目標(biāo)框的出現(xiàn)位置分布情況進(jìn)行了可視化。圖11（a）表示將原圖圖片分辨率大小正則化以后，目標(biāo)框的中心點(diǎn)在圖中的位置坐標(biāo)分布；圖11（b）表示目標(biāo)框的長(zhǎng)寬占圖片長(zhǎng)寬的比例。從兩圖可以看出，目標(biāo)框大小不均，小目標(biāo)數(shù)量大，目標(biāo)出現(xiàn)位置集中于圖片的中間。

圖11 數(shù)據(jù)集目標(biāo)框分布情況Fig.11 Data set target frame distribution

除此之外對(duì)圖像數(shù)據(jù)進(jìn)行Mosaic 數(shù)據(jù)增強(qiáng)，其原理為把4張訓(xùn)練圖片縮放拼成一張圖，具體結(jié)果如圖12所示。通過這樣的操作，使得原本較大的目標(biāo)在縮小大概50%之后變成較小的目標(biāo)，從而減少對(duì)大物體的過度響應(yīng)，增強(qiáng)模型檢測(cè)小目標(biāo)的能力，在一定程度上解決了數(shù)據(jù)集中的小目標(biāo)檢測(cè)問題。

圖12 Mosaic數(shù)據(jù)增強(qiáng)Fig.12 Mosaic data enhancement

3.2 實(shí)驗(yàn)環(huán)境與方案設(shè)計(jì)

本文實(shí)驗(yàn)環(huán)境為Ubuntu16.0464位操作系統(tǒng)，32 GB內(nèi)存，NVIDIA GeForce RTX2080Ti 顯卡，Intel?Xeon CPU E3-1231 v3@3.40 GHz 處理器，在Pytorch 1.7.1、CUDA10.2下實(shí)現(xiàn)模型的搭建及訓(xùn)練工作。

在網(wǎng)絡(luò)訓(xùn)練前，使用K-Means 算法對(duì)先驗(yàn)框尺寸進(jìn)行計(jì)算，初始錨框的參數(shù)設(shè)定為[17，21，34，40，45，65]、[68，95，70，58，92，130]、[114，89，124，173，156，227]、[170，123，231，187，231，290]，訓(xùn)練時(shí)，按照比例9∶1 使用腳本自動(dòng)隨機(jī)劃分訓(xùn)練集和測(cè)試集。通過在大型數(shù)據(jù)集COCO上訓(xùn)練得到預(yù)訓(xùn)練模型進(jìn)行權(quán)重初始化，使用SGD來優(yōu)化總體目標(biāo)，訓(xùn)練批次為16，學(xué)習(xí)率設(shè)置為0.01，模型迭代300次。本文設(shè)計(jì)圖片標(biāo)準(zhǔn)尺寸為640×640×3。訓(xùn)練完成后，分別將本文方法與SSD、YOLOv3、YOLOv4、Faster R-CNN 主流檢測(cè)模型進(jìn)行性能對(duì)比，分析本文方法性能。

3.3 模型評(píng)估

本文采用目標(biāo)檢測(cè)模型常用的三項(xiàng)評(píng)估指標(biāo)平均精度（average precision，AP）、平均精度均值（mean average precision，mAP）以及每秒傳輸幀數(shù)（frames per second，F(xiàn)PS）進(jìn)行模型評(píng)估。AP指PR（Precision-Recall）曲線下面積，mAP指每個(gè)類別AP的均值，計(jì)算公式見式（15）～（18）。模型推理速度通過在使用服務(wù)器NVIDIA GeForce RTX2080Ti 顯卡環(huán)境下，對(duì)實(shí)驗(yàn)圖片數(shù)據(jù)進(jìn)行檢測(cè)，對(duì)100張圖像的檢測(cè)時(shí)長(zhǎng)求均值得到。

3.4 實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析

本文共設(shè)計(jì)兩組實(shí)驗(yàn)，分別為不同改進(jìn)部分對(duì)模型檢測(cè)性能的影響與主流實(shí)時(shí)檢測(cè)模型性能對(duì)比。通過兩組實(shí)驗(yàn)，首先在YOLOv5架構(gòu)下分析本文不同改進(jìn)部分對(duì)網(wǎng)絡(luò)性能的影響，再通過本文方法與主流檢測(cè)網(wǎng)絡(luò)SSD、YOLOv3、YOLOv4、Faster R-CNN進(jìn)行性能對(duì)比，綜合分析本文方法性能。

本文方法訓(xùn)練過程中損失變化情況如圖13 所示。由圖可以看出，前期損失值下降較快，隨著訓(xùn)練輪數(shù)的增加，Loss曲線逐漸降低，趨于平穩(wěn)。當(dāng)Epoch達(dá)到250左右時(shí)算法損失降至穩(wěn)定，模型收斂，訓(xùn)練過程中未出現(xiàn)過擬合現(xiàn)象。

圖13 Loss曲線Fig.13 Loss curve

3.4.1 改進(jìn)方法對(duì)模型性能的影響

為了分析本文提出的改進(jìn)方法對(duì)YOLOv5 算法性能的影響，設(shè)計(jì)5組實(shí)驗(yàn)對(duì)不同的改進(jìn)部分進(jìn)行結(jié)果分析，每組實(shí)驗(yàn)使用相同的訓(xùn)練參數(shù)，不同方法對(duì)模型檢測(cè)性能所產(chǎn)生影響的結(jié)果如表1所示。其中，“√”代表在網(wǎng)絡(luò)模型中使用了對(duì)應(yīng)的改進(jìn)策略，“×”代表在網(wǎng)絡(luò)模型中未使用對(duì)應(yīng)的改進(jìn)策略。對(duì)表1進(jìn)行分析可見，改進(jìn)1在主干網(wǎng)絡(luò)中使用BCSP_1結(jié)構(gòu)替代原有BottleneckCSP且調(diào)整模塊數(shù)量以后，可以保證小目標(biāo)可以更好地利用淺層特征，且減少了模型參數(shù)數(shù)量，使得模型在原有基礎(chǔ)上mAP有較小提升，F(xiàn)PS有較大提升。改進(jìn)2在此基礎(chǔ)上引入CA機(jī)制，使模型將空間信息嵌入到通道注意力中，由于位置信息的加入，對(duì)于依賴位置信息的密集檢測(cè)任務(wù)具有更好的預(yù)測(cè)效果。改進(jìn)3 加入新的檢測(cè)尺度對(duì)特征進(jìn)行提取，從而產(chǎn)生更大的特征圖來預(yù)測(cè)更小的目標(biāo)，使原有結(jié)構(gòu)難以檢測(cè)的較小尺寸目標(biāo)可以檢出，有效提升mAP 達(dá)1.7 個(gè)百分點(diǎn)。改進(jìn)4 針對(duì)數(shù)據(jù)集中中小目標(biāo)較多的特點(diǎn)，使用新設(shè)計(jì)的特征融合結(jié)構(gòu)，將更加底層的特征圖與高層特征圖進(jìn)行融合，提高模型的特征提取能力，搭配基于分離的卷積運(yùn)算來解決特征圖的冗余問題，使模型mAP 得到提高。最后改進(jìn)5 引入CIoU 作為邊界框回歸的損失函數(shù)，解決在原有損失函數(shù)中目標(biāo)框與預(yù)測(cè)框重合情況下GIoU退化為IoU的問題，提高模型邊界框的定位精度。改進(jìn)后模型的mAP 值為0.922，比改進(jìn)前YOLOv5 的mAP 值高5.4個(gè)百分點(diǎn)，每秒傳輸幀數(shù)為93.21，與原始模型僅相差3.22，且在訓(xùn)練中需要更少的顯存。圖14為改進(jìn)前后檢測(cè)結(jié)果對(duì)比。

表1 不同改進(jìn)方法的實(shí)驗(yàn)結(jié)果Table 1 Experimental results of different improvement methods

圖14 改進(jìn)前后結(jié)果對(duì)比Fig.14 Comparison of results before and after improvement

3.4.2 主流目標(biāo)檢測(cè)模型性能對(duì)比

為了驗(yàn)證本文改進(jìn)算法的檢測(cè)性能，將本文所改進(jìn)的YOLOv5 算法與主流目標(biāo)檢測(cè)模型SSD、Faster RCNN、YOLOv3、YOLOv4對(duì)比，采用mAP和FPS兩項(xiàng)指標(biāo)對(duì)每種主流檢測(cè)算法進(jìn)行評(píng)估與對(duì)比，對(duì)比實(shí)驗(yàn)結(jié)果如表2 所示。由表2 分析可知，改進(jìn)的YOLOv5 算法mAP達(dá)到了0.922，較原始YOLOv5算法提高5.4個(gè)百分點(diǎn)。結(jié)合表中對(duì)于花蕾、半開、全開、凋落四類花朵生長(zhǎng)狀態(tài)的平均精度AP 進(jìn)行分析可得，本文方法在檢測(cè)小目標(biāo)物體，即花朵生長(zhǎng)狀態(tài)處于花蕾時(shí)的AP 值比原始YOLOv5 算法提高了約5.2 個(gè)百分點(diǎn)，相比其他主流目標(biāo)檢測(cè)網(wǎng)絡(luò)模型具有更好的檢測(cè)性能。通過特征融合結(jié)構(gòu)與多尺度檢測(cè)結(jié)構(gòu)的重新設(shè)計(jì)，使得檢測(cè)目標(biāo)為花朵半開時(shí)相比原有網(wǎng)絡(luò)模型AP值提高了約10.5個(gè)百分點(diǎn)，全開與凋落狀態(tài)花朵檢測(cè)所得實(shí)驗(yàn)AP 值也超越原有模型與主流目標(biāo)檢測(cè)模型。在保證高精度檢測(cè)的同時(shí)，模型的FPS 并未出現(xiàn)大幅度下降，檢測(cè)速度與主流模型相比仍然具有一定優(yōu)勢(shì)。

表2 主流目標(biāo)檢測(cè)模型性能對(duì)比Table 2 Performance comparison of mainstream target detection models

4 結(jié)束語

本文針對(duì)通用深度學(xué)習(xí)目標(biāo)檢測(cè)技術(shù)難以在復(fù)雜果園背景下對(duì)蘋果花朵不同生長(zhǎng)狀態(tài)進(jìn)行高精度檢測(cè)的問題，提出一種改進(jìn)YOLOv5的蘋果花朵生長(zhǎng)狀態(tài)檢測(cè)方法。該方法基于YOLOv5 網(wǎng)絡(luò)架構(gòu)，結(jié)合CA 注意力模塊與改進(jìn)的BSP_1模塊設(shè)計(jì)主干網(wǎng)絡(luò)提取特征；增加多尺度檢測(cè)結(jié)構(gòu)并融合基于分離的卷積運(yùn)算設(shè)計(jì)了高效的目標(biāo)提取網(wǎng)絡(luò)；使用CIoU 作為邊框回歸的損失函數(shù)，提高邊框回歸精度。實(shí)驗(yàn)表明，本文所提出的檢測(cè)方法能夠準(zhǔn)確、快速地檢測(cè)出不同生長(zhǎng)狀態(tài)下的花朵圖像。本文方法在NVIDIA RTX 2080Ti 測(cè)試條件下mAP 達(dá)到0.922，速度為93.21 frame/s，實(shí)現(xiàn)了高精度、高速率的檢測(cè)，性能高于通用目標(biāo)檢測(cè)模型，為蘋果花期管理提供了有益的幫助。下一步將在嵌入式設(shè)備上進(jìn)行模型的性能改進(jìn)，進(jìn)一步改進(jìn)網(wǎng)絡(luò)結(jié)構(gòu)，以實(shí)現(xiàn)移動(dòng)端實(shí)時(shí)花朵生長(zhǎng)狀態(tài)檢測(cè)。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放