亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于改進YOLO v5的輕量級果園蘋果檢測算法

2024-10-31 00:00:00朱齊齊陳西曲

江蘇農(nóng)業(yè)科學 2024年17期

摘要：為了解決蘋果采摘機器人識別算法中涉及到的復雜網(wǎng)絡架構及大量參數(shù)占用內(nèi)存巨大、計算需求龐大所導致的檢測模型反應緩慢等問題，提出一種改進YOLO v5模型的輕量級果園蘋果檢測算法。首先，使用帶有SE注意力機制的DepthSepConv模塊和改進的Fast-C3模塊對YOLO v5的Backbone網(wǎng)絡部分進行重組，保持較高的精確率的同時減小模型體積；其次，用改進的Fast-C3模塊替換整個Neck部分的C3模塊，提高模型的準確率；替換頸部網(wǎng)絡的普通卷積為Ghostconv，進一步降低模型的參數(shù)量與體積；最后，引入SIoU損失函數(shù)，使回歸精確率和收斂速度得到提高。試驗結果表明，該模型對蘋果檢測mAP為94.0%、模型計算量為8.4G FLOPs、體積僅為7.3 M。對比YOLO v5原模型，在mAP提高0.3百分點的情況下，計算量降低46.84%，模型體積縮減49.31%。于嵌入式平臺上進行應用測試，實時檢測速率達到了18.76 幀/s，約為原模型檢測速率的1.5倍。因此，優(yōu)化后的YOLO v5輕型模型不僅提升了識別準確性，并明顯減少了計算負載量與模型大小，使得它能在嵌入式設備上快速有效地捕捉并分析復雜果園場景下的蘋果信息。

關鍵詞：果園蘋果；YOLO v5s；輕量化；Fast-C3；SIoU；嵌入式設備

中圖分類號：TP391.41 文獻標志碼：A

文章編號：1002-1302（2024）17-0200-09

收稿日期：2024-06-26

基金項目：湖北省自然科學基金（編號：2019CFB813）。

作者簡介：朱齊齊（1996—），男，安徽阜陽人，碩士研究生，主要研究方向為嵌入式開發(fā)。E-mail：zqq13155642201@163.com。

通信作者：陳西曲，博士，教授，主要研究方向為紅外成像技術、電子信息處理技術、嵌入式技術、圖像處理技術。E-mail：cxqdhl@whpu.edu.cn。

蘋果作為一種營養(yǎng)豐富、投入高、產(chǎn)出高的水果，在我國具有重要的地位。然而，蘋果采摘幾乎完全依賴于人力手工方式進行，這大約占到全過程工作量的一半［1］，消耗了大量的時間和人力資源。因此，蘋果采摘機器人具有極大的研究價值。這種機器人主要是由視覺識別技術和機械手臂裝置構成［2］。快速識別、準確定位是現(xiàn)有采摘機器人普遍遇到的技術難題，也是采摘作業(yè)最關鍵的一環(huán)。因此，如何迅速且精確地辨識并定位果實，已經(jīng)成為自動采摘的核心研究內(nèi)容［3］。

多種因素會干擾成熟蘋果的智能辨識過程，例如：光線差異導致的顏色分布不均，采收時的日光強度、氣象與風向狀況，樹枝、葉子、果實的遮蔽作用等。這些采集過程中的現(xiàn)實干擾因素直接影響了模型的識別準確率，并可能導致錯誤分類或遺漏等情況發(fā)生。此外，嵌入式設備的算力有限，過于復雜的模型可能會降低其執(zhí)行效率，很難進行實際應用。如何既能保持高準確率，又能提升處理速率，是非結構化背景下蘋果鑒別的主要難題和研究重點［4］。

近些年，由于深度學習的持續(xù)發(fā)展，以高魯棒性和自我調(diào)整能力為顯著特征的卷積神經(jīng)網(wǎng)絡已成為蘋果識別算法的主要工具［5-7］。目前，用于蘋果識別的各種算法主要可劃分為兩大類別。一是以準確度為主導的類別，比如R-CNN［8］、Faster R-CNN［9-10］等，通過生成一系列目標候選框進行定位，然后對樣本進行分類。Gao等利用改進后的 Faster R-CNN網(wǎng)絡對枝葉遮擋問題嚴重的蘋果進行檢測，平均精確達到了87. 9%，且每幅圖像的平均檢測時間為0.241 s［11］。此類算法檢測速度慢，訓練時間長，不利于算力不足的嵌入式平臺。另一種類別的策略是把目標識別和預判分類同步執(zhí)行，使得其檢測效率更高，比如SSD［12］（single shot MultiBox detector）、YOLO［13］（you only look once）等。羅志聰?shù)忍岢鲆粋€以改良版的YOLO v5為基礎的百香果低功耗檢測模型（MbECA-v5），提升了檢測準確率，并明顯減少計算量及模型大小，使之能在嵌入式設備中實時有效地對繁雜果園場景下的百香果進行檢測［14］。張恩宇等利用SSD算法與U分量閾值分割法相結合，得到一種高精度識別算法［15］。汪穎等引入完全交并比非極大抑制算法和加權雙向特征金字塔網(wǎng)絡，得到一種用于復雜環(huán)境下的果蔬檢測YOLO v5算法，改進的YOLO v5算法的平均識別精確率達到92.5%，相比于原始YOLO v5算法提高3.5%，能夠在復雜情況下快速準確地識別果蔬［16］。此類算法雖然在精確率和速度方面取得了單方面的進展，但對于嵌入式平臺上的檢測速度和精確率沒有達到很好的平衡。

雖然高性能平臺展開的蘋果檢測算法已經(jīng)取得了不錯的進展，但在資源有限的嵌入式平臺上，檢測速度與檢測精確率的平衡須作更進一步的研究。本研究在真實果園環(huán)境中，以蘋果為檢測目標，針對算力有限的嵌入式設備，提出一種改進YOLO v5模型的輕量級果園蘋果檢測算法。該算法主要以Fast-C3模塊和深度可分離卷積相結合的方式將模型主干輕量化，減少計算量和提升檢測速度；并利用GhostConv替換neck網(wǎng)絡中的普通卷積，在不影響檢測精確率的前提下，使模型的參數(shù)量和計算量降低，檢測速度得到提升；引入新的激活函數(shù)SIoU來提高預測框的回歸精確率和收斂速度。在保證檢測準確率的前提下，實現(xiàn)模型的輕量化并可以在嵌入式平臺上部署，從而減少邊緣計算設備的使用，進一步滿足實時檢測的需求。

1 YOLO v5s算法

YOLO v5是一種單階段目標檢測算法［17］。圖1為YOLO v5s的網(wǎng)絡結構，一般由4個部分構成：輸入端、主干網(wǎng)絡（Backbone）、頸部（Neck）、預測端（Head）。

Mosaic數(shù)據(jù)增強、對果園蘋果圖片尺寸的自適應處理以及錨框計算優(yōu)化［18］，為輸入端提供了豐富的圖片信息，首先執(zhí)行隨機縮放、剪裁和排列，然后將其輸入到網(wǎng)絡中。

主干網(wǎng)絡（Backbone）主要實現(xiàn)對蘋果的特征進行提取，其中包含了Focus模塊、標準卷積（CBS）模塊、C3模塊、SPPF模塊。Focus模塊會把給定的水果圖片切成小塊，以獲取其特性的深度描述；CBS 是基于CSP架構進行改良的結果，由于過度使用梯度的副作用，導致算法復雜度過大且耗費大量資源，因此移除后續(xù)批次規(guī)范化的步驟與激活因子環(huán)節(jié)，進而降低運行成本。最后的 SPPF階段則負責整合來自各種大小果實的獨特屬性作為最終結果，這不僅提升了整體模型識別準確率，還增強了解析能力。

頸部（Neck）網(wǎng)絡的主要功能是整合蘋果的特性，其構建方式主要是基于路徑聚合網(wǎng)絡（PANet）［19］。通過自頂向下的方法，F(xiàn)PN［20］可以提高目標識別的效果；而PAN則采用自底向上的方式來獲取豐富且多樣的位置信息。最終，會在backbone中對各種層次的信息進行綜合處理，從而強化特征抽取的能力，使PANet網(wǎng)絡能夠承載更多的語義信息，并進一步加強定位的功能。

預測端（Head）包含3個層次，每個層次都對應著不同的特征圖尺寸，目的是為了識別大小各異的目標。每個Head會接收到不同的向量，從而依據(jù)這些向量來確定原始圖像中目標的預測框位置和類別信息。

2 Fast-YOLO v5網(wǎng)絡

針對YOLOv5s算法部署在嵌入式平臺上體積

大和檢測速率低的問題，提出的Fast-YOLO v5算法主要做了以下3個方面的改進。（1）對特征提取網(wǎng)絡（Backbone）的改進?；贔ast-Block、PConv改進原模型的C3模塊，得到新的輕量化模塊Fast-C3。利用Fast-C3模塊替換原網(wǎng)絡主干中的C3模塊，再引入DepthSepConv模塊替換主干中的所有Conv。其中，第8層的Fast-C3模塊也由DepthSepConv模塊替換。同時，在主干網(wǎng)絡的最后2個深度可分離卷積層引入SE通道注意力機制。更改后的主干網(wǎng)絡如表1 所示。（2）對于特征融合網(wǎng)絡（Neck）的改進。同樣使用Fast-C3模塊替換原有的C3模塊，為了提升實時性、降低復雜度，使得模型輕量化，使用GhostConv 代替普通卷積，使檢測精確率得到保證的情況下，進一步降低模型的參數(shù)量和計算量。（3）損失函數(shù)的改進。為了應對果園蘋果檢測數(shù)量大、目標小、位置密集的特點，在信息高度分布的區(qū)域中，CIoU往往忽略考慮預測框和地面實況框之間的定向差異，可能存在預測框具有較大自由度且與地面實況框的匹配收斂速度差的情況，這使得模型存在定位錯誤問題。因此，引入SIoU損失函數(shù)來代替CIoU損失函數(shù)。Fast-YOLO v5模型如圖2所示。

2.1 深度可分離卷積

MobileNet v1［21］提出了一種深度可分離卷積，它把普通的卷積操作分為2個部分：深度卷積和逐點卷積。深度卷積利用將卷積核轉為單通道的方式，逐點卷積利用對特征圖進行維數(shù)改變的方式，如此就可以大幅降低運算負擔。由圖3可見，設輸入特征圖寬、高分別為DW、DH，輸入通道為M，輸出通道為N，卷積核用DK表示，可得標準卷積參數(shù)量Ps、計算量Fs：

Ps=DK×DK×M×N；（1）

Fs=DK×DK×M×N×DW×DH。（2）

同理可得深度可分離卷積參數(shù)量Pd、計算量Fd（圖4）：

Pd=DK×DK×M+M×N；（3）

Fd=DK×DK×M×DW×DH+M×N×DW×DH。（4）

通過計算可得，深度可分離卷積的參數(shù)量和計算量與標準卷積的參數(shù)量和計算量的比值為1N+1D2K，當卷積核DK取3時，易知深度可分離卷積的參數(shù)量和計算量約降至原標準卷積的19～18，可大大減小模型的計算成本。

2.2 SE注意力機制

SE通道注意力機制［22］是針對卷積神經(jīng)網(wǎng)絡中信息特征的構造問題所提出的，SE組件可以通過通道的相互依存關系來增強特征響應，強化重要特征而弱化次要特征。它主要由壓縮、激勵2個部分組成，首先把輸入的特征圖的信息進行壓縮，然后將輸入的特征圖與其所學到的信息進行融合，得到最終的特征信息。SE模塊首先通過卷積操作生成特征U，然后進行全局平均池化，將特征層維度壓縮至1×1×C，再進行激勵操作，通過全連接層生成所需要的權重信息，最后將原特征U進行權重幅賦值得到最終的特征圖。

2.3 Fast-C3模塊

在CVPR2023最新發(fā)布的FasterNet論文中指出了實現(xiàn)更高FLOPs的重要性，不應為了更快的神經(jīng)網(wǎng)絡而減少FLOPs［23］。引入了一種簡單但快速且有效的卷積PConv，推出了FasterNet主干網(wǎng)絡，這種網(wǎng)絡在GPU、CPU、ARM處理器等多種設備上運行良好且普遍快速。借鑒其中的思想，設計基于Fast-Block、PConv的新的C3模塊：Fast-C3。

2.3.1 PConv

由于特征圖在不同通道之間具有高度相似性，造成大量冗余。而PConv可以同時減少計算冗余和內(nèi)存訪問，其工作原理如圖5所示。

此種方法只在輸入通道的一部分上應用常規(guī)Conv進行空間特征提取，并保持其余通道不變。對于連續(xù)或規(guī)則的內(nèi)存訪問，將第1個或最后1個連續(xù)的通道視為整個特征圖的代表進行計算。在不喪失一般性的情況下認為輸入和輸出特征圖具有相同數(shù)量的通道。因此，PConv的FLOPs為：

h×w×k2×c2p。（5）

對于典型的r＝1/4，PConv的FLOPs只有常規(guī)Conv的1/16。此外，PConv的內(nèi)存訪問量較小，即：

h×w×2cp+k2×c2p≈h×w×2cp。（6）

對于r＝1/4，其內(nèi)存訪問量僅為常規(guī)Conv的1/4。

2.3.2 Fast-Block結構

由圖6可見，每個Fast-Block塊有1個PConv層，后跟2個Conv 1×1層。它們共同顯示為倒置殘差塊，中間層具有擴展的通道數(shù)量，利用Shortcut以重用輸入特征。除了上述算子，標準化和激活層對于高性能神經(jīng)網(wǎng)絡也是不可或缺的。使用批次歸一化（BN）代替其他替代方法，其優(yōu)點是可以合并到其相鄰的Conv層中，從而更快地進行推斷，并且與其他層一樣有效。對于激活層，選擇ReLU用于Fast-Block變體，同時考慮了運行時間和有效性。

2.3.3 Fast-C3結構

借鑒FasterNet的思想將原先C3結構的BottleNeck層換為Fast-Block就得到了新的C3結構：Fast-C3（圖7）。

2.4 GhostConv

GhostConv的引入能夠替代特征融合網(wǎng)絡中的

Conv，這樣不僅能夠提高測量精確度，還能減小建模參量和運算量，從而提升測試速率。GhostConv能減少參數(shù)量和計算復雜度，其原因是放棄了部分普通卷積，利用線性變換的方式進行特征提取，能夠更好地利用特征之間的相關性和冗余性［24］。普通卷積Conv（圖8-a）用來獲取的特征層內(nèi)，其中有一些特征信息較為相似，通過消除這些冗余的特征信息可以減少計算量。首先，GhostConv利用標準的卷積來捕捉特征數(shù)據(jù)并生成通用特征圖像。接著，對

每個通道的通用特征圖像執(zhí)行線性操作以獲得具有相同通道數(shù)的新附加特征圖像（即Ghost特征圖像）。這個Ghost特征圖像代表多余的特征圖像量，可以通過簡單的線性轉換而得出，在極少干擾識別準確性的同時，明顯減少普通的卷積Conv的重復部分，從而實現(xiàn)減小計算難度的目標。最后，把基本特征圖像與Ghost特征圖像疊加起來形成最終結果。圖8-b為GhostConv的結構。

2.5 SIoU損失函數(shù)

YOLO v5 的損失函數(shù)為 CIoU，公式如下：

LCIoU=1-IoU+ρ2（b，bgt）（wc）2+（hc）2+αv；（7）

α=v（1-IoU）+v；（8）

v=4π2arctanwgthgt-arctanwh2。（9）

Y3JMx20LIfeMd0V5plkB8i+0Qc+sb3gJZ5oor0/fC20=

其中：預測框和真實框的寬、高分別由w、h和wgt、hgt表示，b、bgt則用來表示預測框、真實框的中心點，b、bgt的歐氏距離由ρ表示，wc、hc分別表示兩框的最小外接矩形的寬、高，IoU表示交并比。

在模型訓練時，已有方法匹配了兩框之間的IoU、中心點距離、寬高比等［16-18］，但是均沒有考慮不匹配的方向問題，從而導致收斂速度比較慢且效率較低；因為預測框可能在訓練過程中“徘徊”，最后生成更壞的模型。為克服現(xiàn)行邊界損失函數(shù)存在的缺陷，引入了新的SIou損失函數(shù)［25］，該函數(shù)是從預期和實際回歸之間的矢量視角出發(fā)，對角度懲罰進行了全新衡量，從而使得預測區(qū)域能夠迅速移動至與之最接近的軸上，之后僅需調(diào)整1個坐標（如x或y）即可完成回歸任務，這樣就大大降低了解決問題的自由度數(shù)量。

SIoU更加重視兩框之間的向量角度，以及對損失函數(shù)重新定義，包含了4個部分損失：角度損失（angle cost）、距離損失（distance cost）、形狀損失（shape cost）、IoU損失（IoU cost）。其中角度損失是為了解決兩框之間的隨機匹配問題，最大程度減少與距離有關的變量的影響。訓練時，首先模型試著將預測框靠近與真實框最近的軸方向，然后以相關軸為方向不斷靠近真實邊界框，如果α≤π/4，整個收斂過程將最小化α為首要目標，相反以最小化β為首要目標，計算公式如下：

β=π2-α；（10）

chσ=sinα；（11）

σ=（bgtcx-bcx）2+（bgtcy-bcy）2；（12）

ch=max（bgtcy-bcy）-min（bgtcy-bcy）。（13）

其中：sinα是直角三角形中的對邊比斜邊；σ代表著兩框中心點的距離；ch則是兩框中心點的高度差，代碼中直接使用勾股定理求得；bgtcx、bgtcy表示真實框中心坐標，bcx、bcy表示預測框中心坐標。

利用下列方法定義預測框與標注的真實邊界框的向量角度損失函數(shù)：

Λ=1-2×sin2arcsinchσ-π4=cos2×arcsinchσ-π4。

（14）

從angle cost考慮，重新定義其他3個部分的損失函數(shù)：

Δ=∑t=x，y（1-eγρt）=2-eγρt-eγρy；（15）

ρx=bgtcx-bcxcw2，ρy=bgtcy-bcych2；（16）

γ=2-Λ。（17）

其中：cw表示兩框最小外接矩形的寬，ch表示兩框最小外接矩形的高。

形狀損失（Shape cost）函數(shù)如下：

Ω=∑t=w，h（1-ewt）θ=（1-eww）θ+（1-ewh）θ；（18）

ww=|w-wgt|max（w，wgt）；（19）

wh=|h-hgt|max（h，hgt）。（20）

其中：w、h和wgt、hgt分別定義為預測框和真實框的寬、高；θ是對形狀損失的關注程度的控制，過分關注形狀損失會導致減少預測框的移動，使用遺傳算法計算出接近4，所以參數(shù)范圍設定為［2，6］。

最后，回歸損失函數(shù)為：

Lbox=1-IoU+Δ+Ω2。（21）

總損失函數(shù)為：

LSIoU=Wboxlbox+WclsLcls；（22）

其中：Lcls是FocalLoss，Wbox表示框的損失權重；Wcls表示類的損失權重。通過對angle懲罰成本的添加，并且后面的部分只需要1個坐標x或y的回歸，縮減了損失的總自由度，對模型訓練時的收斂過程有顯著提高。

3 結果與分析

3.1 試驗平臺與數(shù)據(jù)集

圖像采集使用蘋果手機在果園實景拍攝，圖片分辨率設定為1 280像素×960像素。在不同情況下收集到的圖像包含單個或多個單獨存在的蘋果圖像、被樹葉及枝干遮擋的圖像、相互重疊或者黑暗環(huán)境下的圖像等共計2 923幅，不同環(huán)境下的蘋果部分圖像如圖9所示。將從各種不同條件下取得的數(shù)據(jù)集合整理，以JPEG形式存儲起來備用。同時使用人工標注工具LableImg對采集到的蘋果圖像進行標注，獲取準確的蘋果位置數(shù)據(jù)。從減少復雜背景像素對檢測結果的影響角度考慮，標注時將蘋果的最小外接矩形框作為真實框（Ground truth），最終得到VOC格式的xml文件。蘋果名稱、尺寸、位置都包含在文件內(nèi)。最后，對以上標注好的數(shù)據(jù)集進行劃分，訓練集 ∶驗證集按照比例9 ∶1進行隨機分配。訓練集、驗證集分別含有圖像2 631、292幅。

此次試驗基于Windows 11系統(tǒng)+AutoDL遠程服務器租賃平臺進行pytorch深度學習框架搭建。測試條件設定為Python 3.8的版本、CUDA 11.2的多線程處理器和 Intel Xeon Platinum 8350C CPU@2.60 GHz的16個vCPU，總共擁有56 GB的內(nèi)存容量，配備了NVIDIA GeForce RTX 3090的圖形處理器，其顯存量達到了24 GB。

3.2 評價指標

試驗結果分析使用的評價標準是：精確率、平均精確率均值、模型計算量大小。精確率（P）、召回率（R）的計算方法如下：

P=TPTP+FP；（23）

R=TPTP+FN。（24）

其中：TP代表了正確識別正樣本的個數(shù)；FP表示負樣本誤判的的個數(shù)；FN正面樣本被誤認為是負面樣本的數(shù)量。通過選擇不同精確率與準確率的組合，可繪制出 PR曲線，所覆蓋的區(qū)域則被稱為AP，對每個測試類別的平均AP值就是mAP。性能評價指數(shù)AP（PAP）、 mAP（PmAP）計算方法如下：

PAP=∫10P（r）dr；（25）

PmQ1UABNc09k/s0mEr+s8hLw==AP=1n∑ni=1PAP，i。（26）

3.3 消融試驗

通過采用消融試驗的方式來驗證Fast-YOLO v5算法帶來的性能優(yōu)化，試驗結果如表2所示。首先對原始算法進行了各種性能測試。模型1為在原模型的基礎上優(yōu)化損失函數(shù)，將其替換為SIoU。模型2 是在改進損失函數(shù)的基礎上將網(wǎng)絡中所有的C3模塊換為Fast-C3模塊，試驗表明，在模型體積縮小17.36%、計算量降低20.25%的同時，mAP提高了1百分點。模型3是在模型2的基礎上，將Backbone中的普通卷積（Conv）換為深度可分離卷積（DepthSepConv），在幾乎不損失精度的情況下，進一步降低模型的計算量（降低了41.14%）和模型體積（縮減了36.11%）。模型4是將Backbone結構進一步調(diào)整，利用深度可分離卷積（DepthSepConv）替換主干第8層的Fast-C3結構，同時在最后2個深度可分離卷積層引入SE通道注意力機制。對比模型3，模型4的mAP沒有改變，但模型體積和計算量進一步降低；相較于原模型，模型4的體積縮減了43.06%，計算量降低了43.67%。最后，再利用GhostConv 替換Neck中的普通卷積（Conv）得到最終模型：Fast-YOLO v5。不僅召回率和mAP值均有部分提升外，模型體積大幅縮減了49.31%，模型計算量也降低了46.84%，充分證明所提出改進措施的有效性。

3.4 對比試驗

對使用優(yōu)化算法改良后的模型與Fast R-CNN、YOLO v5s、PP_LCNet-v5、EfficientNet-v5、GhostNet-v5、ShuffleNet-v5等6種不同類型的機器學習框架在Jetson TX2平臺上的表現(xiàn)進行比較，其結果如表3所示。

對YOLO v5s模型進行改動，將其主干網(wǎng)絡更換為PP_LCNet、EfficientNet-Lite、GhostNet、ShuffleNet v2等4種網(wǎng)絡，從而得到PP_LCNet-v5、Efficientlite-v5、GhostNet-v5、ShuffleNet-v5這4種輕量化模型。試驗結果表明，F(xiàn)ast-YOLO v5模型的平均精度達到了94.0%，是7種模型中的最高值。此外，F(xiàn)ast-YOLO v5的模型體積僅為7.3 MB，是所有對比模型體積中最小的，分別約為Fast R-CNN、YOLO v5s的1/15、1/2；就嵌入式設備上的實時檢測效率而言，F(xiàn)ast-YOLO v5明顯優(yōu)于其他6種模型。嵌入式平臺實時檢測速率為18.76幀/s，約為Fast R-CNN、YOLO v5s的35.4、1.5倍，對比試驗中其他輕量化模型也具有明顯優(yōu)勢。綜上所述，經(jīng)過改良的輕量級網(wǎng)絡Fast-YOLO v5在測試方面表現(xiàn)優(yōu)秀，并且在邊緣設備上的部署更加實時。

4 結論

針對復雜果園環(huán)境提出一種基于改進YOLO v5算法的果園蘋果檢測算法，該算法使用改進的 Fast-C3 模塊結合深度可分離卷積塊對YOLO v5s的特征提取網(wǎng)絡進行改良，并且引入GhostConv替換原模型中的普通卷積，使用SIoU損失函數(shù)代替CIoU。使精確率提升的同時讓模型的計算量和體積大幅度縮減，通過消融試驗分析驗證了算法的有效性。部署到嵌入式平臺上對果園復雜環(huán)境下蘋果實時檢測表明，改進的模型在檢測精度和檢測速度方面效果都要優(yōu)于原模型。綜上，F(xiàn)ast-YOLO v5模型在降低嵌入式設備運行內(nèi)存的同時，也兼顧了精確率和實時性，能夠滿足對果園蘋果圖像檢測的快速且精準需求，這為蘋果采摘機器人的視覺識別系統(tǒng)提供了技術和理論上的支持。

參考文獻：

［1］馮娟，劉剛，司永勝，等. 蘋果采摘機器人激光視覺系統(tǒng)的構建［J］. 農(nóng)業(yè)工程學報，2013，29（增刊1）：32-37.

［2］Lehnert C，Sa I，McCool C，et al. Sweet pepper pose detection and grasping for automated crop harvesting［C］//2016 IEEE International Conference on Robotics and Automation. Stockholm，Sweden.IEEE，2016：2428-2434.

［3］王丹丹，宋懷波，何東健. 蘋果采摘機器人視覺系統(tǒng)研究進展［J］. 農(nóng)業(yè)工程學報，2017，33（10）：59-69.

［4］王卓，王健，王梟雄，等. 基于改進YOLO v4的自然環(huán)境蘋果輕量級檢測方法［J］. 農(nóng)業(yè)機械學報，2022，53（8）：294-302.

［5］景亮，王瑞，劉慧，等. 基于雙目相機與改進YOLO v3算法的果園行人檢測與定位［J］. 農(nóng)業(yè)機械學報，2020，51（9）：34-39，25.

［6］何進榮，石延新，劉斌，等. 基于DXNet模型的富士蘋果外部品質(zhì)分級方法研究［J］. 農(nóng)業(yè)機械學報，2021，52（7）：379-385.

［7］薛勇，王立揚，張瑜，等. 基于GoogLeNet深度遷移學習的蘋果缺陷檢測方法［J］. 農(nóng)業(yè)機械學報，2020，51（7）：30-35.

［8］Turan M，Almalioglu Y，Araujo H，et al. Deep EndoVO：a recurrent convolutional neural network （RCNN） based visual odometry approach for endoscopic capsule robots［J］. Neurocomputing，2018，275：1861-1870.

［9］Ren Y，Zhu C R，Xiao S P. Object detection based on fast/faster RCNN employing fully convolutional architectures［J］. Mathematical Problems in Engineering，2018，2018：3598316.

［10］Sun X D，Wu P C，Hoi S C H. Face detection using deep learning：an improved faster RCNN approach［J］. Neurocomputing，2018，299：42-50.

［11］Gao F F，F(xiàn)u L S，Zhang X，et al. Multi-class fruit-on-plant detection for apple in SNAP system using Faster R-CNN［J］. Computers and Electronics in Agriculture，2020，176：105634.

［12］Yang J，He W Y，Zhang T L，et al. Research on subway pedestrian detection algorithms based on SSD model［J］. IET Intelligent Transport Systems，2020，14（11）：1491-1496.

［13］Redmon J，Divvala S，Girshick R，et al. You only look once：unified，real-time object detection［C］//2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas：IEEE，2016：779-788.

［14］羅志聰，李鵬博，宋飛宇，等. 嵌入式設備的輕量化百香果檢測模型［J］. 農(nóng)業(yè)機械學報，2022，53（11）：262-269，322.

［15］張恩宇，成云玲，胡廣銳，等. 基于SSD算法的自然條件下青蘋果識別［J］. 中國科技論文，2020，15（3）：274-281.

［16］汪穎，王峰，李瑋，等. 用于復雜環(huán)境下果蔬檢測的改進YOLO v5算法研究［J］. 中國農(nóng)機化學報，2023，44（1）：185-191.

［17］熊俊濤，韓詠林，王瀟，等. 基于YOLO v5-Lite的自然環(huán)境木瓜成熟度檢測方法［J］. 農(nóng)業(yè)機械學報，2023，54（6）：243-252.

［18］董麗君，曾志高，易勝秋，等. 基于YOLO v5的遙感圖像目標檢測［J］. 湖南工業(yè)大學學報，2022，36（3）：44-50.

［19］Liu S，Qi L，Qin H F，et al. Path aggregation network for instance segmentation［C］//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Salt Lake City：IEEE，2018：8759-8768.

［20］Lin T Y，Dollár P，Girshick R，et al. Feature pyramid networks for object detection［C］//2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu：IEEE，2017：936-944.

［21］Yao T，Zhang Q，Wu X Y，et al. Image recognition method of defective button battery base on improved MobileNetV1［C］//Wang Y，Li X，Peng Y.Chinese Conference on Image and Graphics Technologies.Singapore：Springer，2020：313-324.

［22］Hu J，Shen L，Sun G. Squeeze-and-excitation networks［C］//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Salt Lake City：IEEE，2018：7132-7141.

［23］Chen J R，Kao S H，He H，et al. Run，don’t walk：chasing higher FLOPS for faster neural networks［C］//2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Vancouver：IEEE，2023：12021-12031.

［24］Han K，Wang Y H，Tian Q，et al. GhostNet：more features from cheap operations［C］//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle：IEEE，2020：1580-1589.

［25］朱瑞鑫，楊福興. 運動場景下改進YOLO v5小目標檢測算法［J］. 計算機工程與應用，2023，59（10）：196-203.

江蘇農(nóng)業(yè)科學2024年17期

江蘇農(nóng)業(yè)科學的其它文章: 激活人才雙向流動賦能鄉(xiāng)村振興：農(nóng)業(yè)院校財審人才培育教學改革路徑探索; 江蘇省鄉(xiāng)村旅游重點村的類型、時空分布及影響因子; 威寧短柱油茶根圍叢枝菌根真菌多樣性調(diào)查; 連續(xù)多年減氮配施生物炭對土壤酶活性、微生物群落及花生產(chǎn)量的影響; 不同連作年限下糞肥還田量對土壤養(yǎng)分及微生物特性的影響; 輪耕方式與生物炭還田對土壤碳氮組分及小麥產(chǎn)量的影響