亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于改進(jìn)YOLOv5的自然環(huán)境下番茄果實檢測*

        2023-11-11 04:03:02胡奕帆趙賢林李佩娟趙辰雨陳光明
        中國農(nóng)機(jī)化學(xué)報 2023年10期
        關(guān)鍵詞:特征檢測模型

        胡奕帆,趙賢林,李佩娟,趙辰雨,陳光明

        (1.南京工程學(xué)院,南京市,211167; 2.南京農(nóng)業(yè)大學(xué),南京市,210031)

        0 引言

        我國各地普遍種植番茄,是世界番茄產(chǎn)量最大的國家[1]。但是,番茄采摘主要依靠人工進(jìn)行,采摘效率較低,無法保證采摘的質(zhì)量。同時隨著城鎮(zhèn)化進(jìn)程的不斷推進(jìn)農(nóng)村人口減少與人口老齡化,勞動力不足逐漸導(dǎo)致勞動力成本升高[2]。因此,研究番茄果實目標(biāo)檢測算法,提升農(nóng)業(yè)自動化、智能化水平,對于緩解人力資源不足,提高生產(chǎn)效率有著重大影響。

        隨著農(nóng)業(yè)自動化、智能化的發(fā)展,計算機(jī)視覺已經(jīng)被廣泛應(yīng)用于農(nóng)業(yè)機(jī)器人當(dāng)中,Liu等[3]基于YOLOv3網(wǎng)絡(luò)提出了一個密集的體系結(jié)構(gòu),可以更加精準(zhǔn)地匹配番茄,檢測準(zhǔn)確率為94.58%;劉芳等[4]為實現(xiàn)溫室環(huán)境下農(nóng)業(yè)采摘機(jī)器人對番茄果實的快速、精確識別,提出了一種改進(jìn)型多尺度YOLO算法(IMS-YOLO)檢測準(zhǔn)確率為96.36%,檢測時間為7.719 ms;周云成等[5]為提高番茄器官目標(biāo)識別的準(zhǔn)確率,提出一種基于RGB和灰度圖像輸入的雙卷積鏈Fast R-CNN番茄器官識別網(wǎng)絡(luò),雙卷積鏈Fast R-CNN識別網(wǎng)絡(luò)對果的識別平均準(zhǔn)確率最高為63.99%,特征檢測時間為320 ms。目標(biāo)檢測是計算機(jī)視覺的前提和關(guān)鍵,檢測的速度和精確度是考量算法的重要指標(biāo)。以上方法雖然比傳統(tǒng)的番茄果實目標(biāo)檢測方法提高了檢測性能,但是難以實現(xiàn)高精度、快速度和低成本等條件下智慧農(nóng)業(yè)的應(yīng)用。

        考慮到檢測性能和速度的需求,本文提出一種改進(jìn)YOLOv5s以檢測自然環(huán)境下番茄果實的方法,通過添加注意力機(jī)制、替換backbone(主干網(wǎng)絡(luò))等手段,提高番茄果實檢測的準(zhǔn)確率和實時性。

        1 算法與改進(jìn)

        1.1 目標(biāo)檢測算法

        目標(biāo)檢測算法作為計算機(jī)視覺的基礎(chǔ),能夠提供關(guān)鍵的場景信息。目前方法可以分為兩大類:(1)基于候選區(qū)域的方法,先生成可能的目標(biāo)區(qū)域,再對其進(jìn)行分類,如Faster R-CNN和Mask R-CNN,這類方法識別準(zhǔn)確,漏檢率低,但實時性較差。(2)基于回歸框的方法,直接預(yù)測目標(biāo)的位置和類別,如SSD[6]和YOLO[7],這類方法實時性強(qiáng),但識別準(zhǔn)確率和漏檢率較第一類稍差。在YOLO系列模型中,YOLOv4和YOLOv5的綜合性能較優(yōu)。尤其是YOLOv5的推理速度更快。

        1.2 YOLOv5算法

        YOLOv5通過模型設(shè)計和訓(xùn)練技巧的改進(jìn),達(dá)到了精度和速度的平衡,是目前廣泛使用的實時目標(biāo)檢測模型之一。數(shù)據(jù)增強(qiáng)可以通過增加訓(xùn)練樣本數(shù)量和豐富樣本多樣性來增強(qiáng)模型的泛化能力,避免過擬合。具體來說,一種方法是通過改變圖像的拍攝角度、光照條件、添加遮擋等來獲得更多不同的樣本。另一種方法是對現(xiàn)有樣本進(jìn)行裁剪、翻轉(zhuǎn)、平移、色域調(diào)整等圖像變換,制造更多樣化的訓(xùn)練數(shù)據(jù)。這兩種數(shù)據(jù)增強(qiáng)方法可以有效提升模型對不同情景和變化的適應(yīng)力。YOLOv5自帶了多種數(shù)據(jù)增強(qiáng)技術(shù),主要包括mosaic、cutout、mixup、圖像擾動、隨機(jī)縮放、隨機(jī)裁剪、隨機(jī)擦除等。這能產(chǎn)生更多樣化的訓(xùn)練數(shù)據(jù),增強(qiáng)模型的泛化能力。

        為了模型壓縮和加速,一種方法是替換網(wǎng)絡(luò)的backbone架構(gòu),通過移除網(wǎng)絡(luò)冗余信息來減小模型大小和計算量,另一種方法是引入注意力機(jī)制,它可以通過聚焦輸入信息的關(guān)鍵部分提升模型效率。注意力機(jī)制往往是一個較小的子網(wǎng)絡(luò)結(jié)構(gòu),可以很方便地集成到各種模型中,SEnet[8]通過對通道維度增加注意力機(jī)制,獲取每個特征通道的最佳權(quán)重值。CBAM[9]結(jié)合了空間和通道的注意力機(jī)制,取得更好的效果。Triplet Attention[10]在CBAM基礎(chǔ)上實現(xiàn)了跨維度交互,實現(xiàn)多維交互而不降低維度的重要性,因此消除了通道和權(quán)重之間的間接對應(yīng)。特征融合用于加強(qiáng)目標(biāo)檢測中對小物體檢測,因為卷積過程中,大物體的像素點(diǎn)多,小物體的像素點(diǎn)少,隨著卷積的深入,大物體的特征容易被保留,小物體的特征越往后越容易被忽略。BiFPN[5]相當(dāng)于給各個層賦予了不同權(quán)重去進(jìn)行融合,讓網(wǎng)絡(luò)更加關(guān)注重要的層次,而且還減少了一些不必要的層的結(jié)點(diǎn)連接。

        1.3 具體改進(jìn)方法

        本文提出了四個模塊來改進(jìn)YOLOv5:(1)數(shù)據(jù)增強(qiáng)模塊,使用mosaic、mixup[11]和cutout[12]等方式增強(qiáng)訓(xùn)練集;(2)backbone模塊,使用Ghostconv[13]來減少參數(shù)量,加速計算;(3)注意力模塊,在backbone中添加協(xié)同注意力機(jī)制(Coordinate Attention[14],CA),聚焦位置信息;(4)特征融合模塊,使用改進(jìn)的BiFPN[15]替換FPN,添加上下文信息,提高特征融合的效率。使用這四個模塊的改進(jìn),使得模型的檢測精度和速度都得到提升,改進(jìn)后的網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。

        1.3.1 數(shù)據(jù)增強(qiáng)模塊

        數(shù)據(jù)增強(qiáng)部分主要采用了mosaic、cutout和mixup三種方式。其中mosaic數(shù)據(jù)增強(qiáng)可以在不損失信息的前提下獲取二倍大小的特征圖。為了進(jìn)一步提高效果,本文在使用mosaic的同時,引入了cutout和mixup進(jìn)行組合的數(shù)據(jù)增強(qiáng)。圖2展示了mosaic增強(qiáng)的示例,圖3和圖4分別展示了cutout和mixup的增強(qiáng)效果,三種增強(qiáng)技術(shù)的組合,可以產(chǎn)生更豐富的訓(xùn)練樣本,提升模型的泛化能力。

        圖3 使用cutout增強(qiáng)

        圖4 使用mixup增強(qiáng)

        mixup是一種基于鄰域風(fēng)險最小化的增強(qiáng)技術(shù),其原理是在訓(xùn)練過程中,以一定比例混合兩個樣本的圖像數(shù)據(jù)和標(biāo)簽,從而構(gòu)造出新的虛擬訓(xùn)練樣本,這可以增強(qiáng)模型的泛化能力,并減少過擬合對錯誤標(biāo)簽的依賴。簡單來說就是將兩張圖像及其標(biāo)簽平均化為一個新數(shù)據(jù)。

        圖像混合公式如式(1)所示。

        x_mixup=α×x_i+(1-α)×x_j

        (1)

        式中:x_mixup——混合后的新圖像;

        x_i、x_j——兩張原始圖像;

        α——混合比例參數(shù)。

        標(biāo)簽混合公式如式(2)所示。

        y_mixup=α×y_i+(1-α)×y_j

        (2)

        式中:y_mixup——混合后的新標(biāo)簽;

        y_i、y_j——兩張原始圖像對應(yīng)的標(biāo)簽。

        mixup通過上述公式,以一定比例混合兩張圖像和標(biāo)簽,從而構(gòu)造出新的虛擬訓(xùn)練樣本。這種數(shù)據(jù)增廣技術(shù)可以提高模型的泛化能力,增強(qiáng)對未知數(shù)據(jù)的適應(yīng)性。

        cutout則是通過在圖像中隨機(jī)遮擋一塊區(qū)域,迫使模型學(xué)習(xí)整體特征而非依賴局部信息,以提高模型的魯棒性。cutout可以增強(qiáng)卷積網(wǎng)絡(luò)利用全局視覺上下文的能力。

        x_{cutout}=M⊙x+(1-M)⊙v

        (3)

        式中:x——原始圖像;

        x_{cutout}——遮擋后的圖像;

        M——與原始圖像x相同大小的遮擋Mask,被遮擋位置為0,其余位置為1;

        v——用于填充被遮擋部分的真實值,通常設(shè)置為0;

        ⊙——元素對應(yīng)位置的乘法操作。

        1.3.2 backbone改進(jìn)

        傳統(tǒng)的深度學(xué)習(xí)特征圖是通過卷積得到的,卷積完成后輸入下一個卷積層計算,這樣存在大量冗余參數(shù),提取到了大量無用的特征,消耗大量計算資源。如圖5與圖6所示,相比于YOLOv5的主干網(wǎng)絡(luò)CSPDarknet53中的傳統(tǒng)卷積,Ghostconv的計算成本更低,僅通過少量計算(cheap operations)就能生成大量特征圖的結(jié)構(gòu),并且可以適用在任何大型的CNN模型中。Ghostconv卷積部分將傳統(tǒng)卷積操作分為兩部分:第一步,使用少量卷積核進(jìn)行卷積操;第二步,使用3×3或5×5的卷積核進(jìn)行逐通道卷積操作,最終將第一部分作為一份恒等映射與第二部分進(jìn)行拼接。

        圖5 Ghost卷積

        圖6 Ghost模塊

        Ghost Bottleneck的作用和殘差塊的作用一樣,結(jié)構(gòu)也和殘差塊的結(jié)構(gòu)類似。如圖7所示,模塊部分有兩種結(jié)構(gòu),Stride=1,即當(dāng)不進(jìn)行下采樣時,直接進(jìn)行兩個Ghostconv操作;Stride=2,當(dāng)進(jìn)行下采樣時,增加一個Stride=2的深度卷積操作。將Ghostconv替換YOLOv5的主干網(wǎng)絡(luò)后可以降低網(wǎng)絡(luò)的計算成本,加速計算。

        圖7 Ghost瓶頸層

        1.3.3 注意力機(jī)制模塊

        注意力機(jī)制可以顯著提升模型性能,主要分為通道注意力和空間注意力,通道注意力如SENet可以明顯增強(qiáng)效果,但通常會忽略位置信息,而位置信息對生成空間注意圖非常重要,先前的CBAM模塊雖然引入空間信息編碼,但未建立通道和空間注意力之間的關(guān)聯(lián)。CA模塊(圖8)通過精確的位置信息對通道關(guān)系和長期依賴性進(jìn)行編碼,將通道注意力分解為兩個一維特征編碼過程,并分別沿兩個空間方向聚合特征。這樣,既可以沿一個方向捕獲遠(yuǎn)程依賴,又可以沿另一方向保留精確的位置信息。

        圖8 CA注意力機(jī)制結(jié)構(gòu)

        CA分兩個步驟:第一步是Coordinate Embedding,其目的是編碼每個位置的精確空間信息。具體做法是使用一維池化核對特征圖在高度和寬度上分別進(jìn)行池化,得到一對編碼后的一維向量。第二步是Coordinate Attention生成,它基于第一步的編碼結(jié)果,通過全連接網(wǎng)絡(luò)學(xué)習(xí)生成每個位置的注意力權(quán)重。這樣通過編碼精確的坐標(biāo)信息,CA模塊可以建??臻g依賴關(guān)系,從而產(chǎn)生有效的注意力增強(qiáng)。具體公式如式(4)、式(5)所示。

        h_c=δ[AvgPool1D(X;kernel_h)]

        (4)

        w_c=δ[AvgPool1D(X;kernel_w)]

        (5)

        式中:AvgPool1D——一維平均池化操作;

        X——原始特征;

        w_c——圖像的寬;

        h_c——圖像的高;

        kernel_h——特征圖高;

        kernel_w——特征圖高。

        將上述兩組編碼連接起來,輸入一個多層全連接網(wǎng)絡(luò),學(xué)習(xí)注意力權(quán)重

        f([h_c,w_c])=W2σ(W1[h_c,w_c])

        (6)

        式中:f——多層全連接網(wǎng)絡(luò);

        σ——激活函數(shù);

        W1、W2——權(quán)重矩陣。

        最終的CA注意力映射

        CA(X)=f([h_c,w_c])?X

        (7)

        其中?表示逐元素相乘,即對原特征X進(jìn)行加權(quán)。

        從效果上看,CA模塊相比SEnet、CBAM等注意力結(jié)構(gòu)有更優(yōu)秀的性能,因為CA通過精確的坐標(biāo)編碼增強(qiáng)了網(wǎng)絡(luò)對目標(biāo)的關(guān)注能力,這樣可以更好地提升模型的檢測性能,而計算量也比較低。總體來說,CA模塊設(shè)計精巧,既考慮了位置信息對注意力的重要性,又控制了計算復(fù)雜度,相比其他結(jié)構(gòu),CA可以產(chǎn)生更有針對性和高效的注意力機(jī)制來增強(qiáng)模型。

        1.3.4 特征融合

        深度學(xué)習(xí)中融合不同尺度特征是提高性能的關(guān)鍵,低層特征包括位置、細(xì)節(jié),高層特征具有更強(qiáng)的語義信息,通過將兩者結(jié)合可以改善模型效果。FPN屬于neck部分,用于構(gòu)建所有尺度的高級語義特征。如圖9所示,FPN結(jié)構(gòu)存在缺陷,如層與層之間存在語義鴻溝,直接融合會降低作用;下采樣過程中會損失高層特征;各層ROI獨(dú)立參與預(yù)測導(dǎo)致各層關(guān)聯(lián)性小。在YOLOv5的neck部分中使用FPN+PAN結(jié)構(gòu),FPN引入了一條自頂向下的通道來融合特征,PANet在FPN基礎(chǔ)上增加了一條自底向上的通道,NAS-FPN使用了不規(guī)則拓?fù)浣Y(jié)構(gòu),這需要消耗大量的計算資源。BiFPN使用了類似Resnet的結(jié)構(gòu)并且移除了邊緣節(jié)點(diǎn),然后將這兩層當(dāng)成一個模塊,重復(fù)調(diào)用來獲取更高層次的特征融合。使用softmax會帶來較大的GPU延遲,因此BiFPN使用了Fast normalized fusion來模擬Softmax-based fusion,由于未使用指數(shù)因此計算速度更快,公式如式(8)所示。

        (a) FPN

        (8)

        式中:wi——可學(xué)習(xí)的權(quán)重;

        O——特征融合輸出;

        Ii——輸入。

        其中wi≥0并且在每個wi≥0后應(yīng)用一個ReLu激活函數(shù)保證其大于0,ε=0.000 1來防止網(wǎng)絡(luò)不穩(wěn)定。

        2 試驗和結(jié)果分析

        2.1 數(shù)據(jù)集和試驗環(huán)境

        本文的數(shù)據(jù)集來源于自己制作的數(shù)據(jù)集,分為成熟的番茄和未成熟的番茄兩個類別。圖像分辨率為720像素×720像素,共830張照片。數(shù)據(jù)集以7∶3比例劃分訓(xùn)練集和驗證集,其中訓(xùn)練樣本為580張,驗證樣本為250張。本文試驗環(huán)境:Intel? Xeon Silver 4216 (64)內(nèi)存128 GB,顯卡為NVIDIA GeForce RTX 2080 Ti 12G×2,操作系統(tǒng)為Ubuntu20.04,在Pytorch 1.10.0下實現(xiàn)模型的搭建及試驗。

        訓(xùn)練參數(shù):將本文劃分好的數(shù)據(jù)集作為輸入,設(shè)置輸入為640×640,學(xué)習(xí)率設(shè)置為0.001,動量和權(quán)重衰減被設(shè)置為0.937和0.000 5。采用Adam優(yōu)化器對網(wǎng)絡(luò)參數(shù)進(jìn)行優(yōu)化。Batch_size設(shè)置為32。

        2.2 評價指標(biāo)

        目標(biāo)檢測常用的評價指標(biāo):準(zhǔn)確率(Precision,P)、召回率(Recall,R)、平均精度均值(mAP,mean Average Precision)、F1,計算公式如式(9)~式(12)所示。

        (9)

        (10)

        (11)

        (12)

        式中:TP——檢測模型識別為番茄果實成熟或不成熟且正確的數(shù)量;

        FP——檢測模型識別番茄果實成熟或不成熟但錯誤的數(shù)量;

        FN——檢測模型遺漏識別番茄果實的數(shù)量;

        AP——番茄果實檢測平均精度;

        N——模型檢測所有種類的數(shù)量。

        本文使用mAP@0.5、mAP和F1作為評價指標(biāo),來全面評估番茄檢測模型的性能,mAP@0.5聚焦不同檢測閾值下的精度,mAP給出不同類別的平均性能,F1綜合考慮精度和召回率。

        2.3 與主要目標(biāo)檢測算法性能對比

        為進(jìn)一步驗證本文提出算法的性能,與YOLOv3-spp、YOLOv5s+Mobilenet v3和YOLOv5s模型進(jìn)行對比試驗,試驗結(jié)果如表1所示。

        表1 不同模型在同一數(shù)據(jù)集的性能對比

        表2 不同數(shù)據(jù)增強(qiáng)比例對于YOLOv5s性能影響

        YOLOv5s+Mobilenet v3是將YOLOv5s的主干網(wǎng)絡(luò)由CSPDarknet替換完Mobilenet v3來縮減模型大小,速度達(dá)到了174 fps,但是mAP下降,本文相對于原始的YOLOv5模型mAP@0.5提高了4.2%,成熟番茄的識別率提高了1.9%,未成熟的番茄提高了0.5%,檢測速度為101 fps,滿足檢測要求。圖10為本文方法和YOLOv5s檢測結(jié)果對比??傮w而言,試驗驗證了所提方法在提高精度的同時,仍保持了較快的檢測速度。

        (a) YOLO v5s

        2.4 不同數(shù)據(jù)增強(qiáng)方式對比試驗

        由于自然環(huán)境中番茄遮擋情況較多,因此采用cutout數(shù)據(jù)增強(qiáng)。在使用mosaic時,試驗了mixup和cutout不同比例的組合效果。將兩者比例之和設(shè)為1,測試了0∶1、0.1∶0.9、0.3∶0.7、0.5∶0.5、0.7∶0.3、0.9∶0.1的值。結(jié)果表明,當(dāng)mixup為0.9比例、cutout為0.1比例時,mAP@0.5達(dá)到87.5%,F1為0.84,相較無增強(qiáng)分別提升了0.5%和0.02。該組合比例下模型精度最優(yōu)。

        2.5 消融試驗

        為分析各改進(jìn)對模型性能的影響,進(jìn)行了消融試驗。試驗詳情見表3,其中“√”表示該模塊被使用,“×”表示未使用。YOLOv5s-A使用Ghostconv獲得mAP@0.5提升但mAP下降。YOLOv5s-B在A基礎(chǔ)上改用BiFPN,mAP@0.5和mAP較原網(wǎng)絡(luò)均有提升。YOLOv5s-C在B基礎(chǔ)上添加CA模塊,mAP@0.5相比B提升0.4%,mAP提升2.4%。YOLOv5s-D在C基礎(chǔ)上加入mixup和cutout,mAP@0.5達(dá)到87.5%,提升0.6%。

        表3 消融試驗

        綜上,各模塊對檢測精度均有提升,特別是CA模塊和數(shù)據(jù)增強(qiáng)的聯(lián)合使用取得了最佳效果。

        3 結(jié)論

        1) 本文針對自然環(huán)境下的番茄檢測任務(wù),在YOLOv5s模型基礎(chǔ)上進(jìn)行了以下幾點(diǎn)改進(jìn):引入cutout數(shù)據(jù)增強(qiáng),緩解遮擋問題;使用Ghostconv降低模型冗余;添加CA注意力機(jī)制增強(qiáng)特征表達(dá);改用BiFPN進(jìn)行多尺度特征融合。

        2) 改進(jìn)后的模型mAP@0.5達(dá)到87.5%,檢測速度101 fps,精度和速度均滿足實際需求。與其他主流檢測算法比較,也顯示出計算效率和資源占用上的優(yōu)勢,更適合本研究的應(yīng)用場景。本研究為機(jī)器人番茄采摘與智能農(nóng)業(yè)提供了有效的檢測算法支持,具有推動作用。

        猜你喜歡
        特征檢測模型
        一半模型
        “不等式”檢測題
        “一元一次不等式”檢測題
        “一元一次不等式組”檢測題
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        如何表達(dá)“特征”
        不忠誠的四個特征
        抓住特征巧觀察
        3D打印中的模型分割與打包
        成人无码α片在线观看不卡| 国产亚洲精品视频在线| 亚洲黄色精品在线播放| 亚洲av无码成人精品国产| 四虎影视免费永久在线观看| 国产精品高清网站| 蜜臀av性久久久久蜜臀aⅴ| 女同啪啪免费网站www| 无遮挡十八禁在线视频国产制服网站| 日韩久久免费精品视频| 中国黄色一区二区三区四区| 猫咪av成人永久网站在线观看| 曰韩人妻无码一区二区三区综合部| 福利在线国产| 97国产精品麻豆性色| 日韩精品极品免费视频观看| 一区二区三区乱码在线 | 欧洲| 久久精品国产夜色| 熟女人妻中文字幕一区| 开心久久婷婷综合中文字幕| 成人aaa片一区国产精品| 麻豆亚洲av永久无码精品久久| 国农村精品国产自线拍| 三上悠亚免费一区二区在线| 青青手机在线视频观看| 精品国内日本一区二区| 蜜桃久久精品成人无码av| 中国大陆一级毛片| 久久精品成人一区二区三区蜜臀 | 国产精品久久久黄色片| 曰韩无码无遮挡a级毛片| 国产亚洲视频在线观看网址| 国产成人精品视频网站| 成人自拍一二在线观看| 久久9精品区-无套内射无码| 图图国产亚洲综合网站| 后入少妇免费在线观看| 女人张开腿让男人桶爽| 婷婷四房色播| 美女一区二区三区在线观看视频| 久久黄色精品内射胖女人|