亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于YOLOX的小麥穗旋轉(zhuǎn)目標(biāo)檢測(cè)

        2024-12-31 00:00:00張世豪董巒趙昀杰
        江蘇農(nóng)業(yè)科學(xué) 2024年20期
        關(guān)鍵詞:目標(biāo)檢測(cè)

        doi:10.15889/j.issn.1002-1302.2024.20.019

        摘要:小麥穗檢測(cè)對(duì)于農(nóng)業(yè)估產(chǎn)和育種研究具有重要意義,但由于小麥穗角度和姿態(tài)多變且存在遮擋和尺度變化等因素,給目標(biāo)檢測(cè)帶來(lái)較大困難,提出一種針對(duì)小麥穗旋轉(zhuǎn)目標(biāo)檢測(cè)的改進(jìn)方法YOLOX-RoC,該方法在YOLOX基礎(chǔ)上使用旋轉(zhuǎn)矩形框代替水平矩形框,更好地?cái)M合小麥穗的輪廓和方向,減少背景干擾和重疊區(qū)域,使模型更具靈活性,更準(zhǔn)確地捕捉小麥穗的特征;添加坐標(biāo)注意力模塊并采用KL散度損失函數(shù)代替交叉熵?fù)p失函數(shù),提高對(duì)旋轉(zhuǎn)目標(biāo)的感知能力并解決旋轉(zhuǎn)敏感度的誤差度量問(wèn)題,優(yōu)化旋轉(zhuǎn)目標(biāo)的定位精度。利用基于圖像合成的 Copy-Paste 數(shù)據(jù)增強(qiáng)方法,生成更多的訓(xùn)練樣本以提高模型對(duì)不同尺度、姿態(tài)和遮擋情況的泛化能力,提高模型的魯棒性。試驗(yàn)結(jié)果表明,YOLOX-RoC的AP比基準(zhǔn)模型提升2.4百分點(diǎn),針對(duì)小尺寸和被嚴(yán)重遮擋的小麥穗目標(biāo)可以更準(zhǔn)確地預(yù)測(cè)目標(biāo)邊界和角度,減少漏檢和誤檢。本研究為小麥穗目標(biāo)檢測(cè)提供了一種準(zhǔn)確和魯棒的解決方案,為小麥估產(chǎn)和育種的智能化奠定了技術(shù)基礎(chǔ)。

        關(guān)鍵詞:目標(biāo)檢測(cè);小麥穗;旋轉(zhuǎn)矩形框;YOLOX;坐標(biāo)注意力模塊;KL額度;損失函數(shù)

        中圖分類(lèi)號(hào):S126;TP391.41" 文獻(xiàn)標(biāo)志碼:A

        文章編號(hào):1002-1302(2024)20-0157-08

        收稿日期:2023-11-06

        基金項(xiàng)目:新疆維吾爾自治區(qū)重大科技專(zhuān)項(xiàng)(編號(hào):2022A02011)。

        作者簡(jiǎn)介:張世豪(1998—),男,山東臨沂人,碩士研究生,研究方向?yàn)樯疃葘W(xué)習(xí)與計(jì)算機(jī)視覺(jué)。E-mail:320203293@xjau.edu.cn。

        通信作者:董" 巒,博士,副教授,研究方向?yàn)樯疃葘W(xué)習(xí)與計(jì)算機(jī)視覺(jué)。E-mail:dl@xjau.edu.cn。

        小麥?zhǔn)鞘澜缟献钪匾募Z食作物之一[1],在全球糧食安全和經(jīng)濟(jì)發(fā)展中具有關(guān)鍵地位。小麥穗作為小麥植株的主要產(chǎn)量部位,其形態(tài)特征和生長(zhǎng)狀態(tài)對(duì)小麥產(chǎn)量和品質(zhì)具有重要影響。因此,準(zhǔn)確、快速且自動(dòng)化地檢測(cè)和分析小麥穗,對(duì)于提高小麥育種效率、優(yōu)化農(nóng)業(yè)管理、評(píng)估小麥產(chǎn)量等具有重要意義。

        小麥穗檢測(cè)是小麥穗表型分析的基礎(chǔ)和前提,涉及從復(fù)雜背景中提取小麥穗的位置、形狀、大小、方向等信息。這些信息可以用于計(jì)算小麥穗的數(shù)量、密度等信息,從而評(píng)估小麥的生長(zhǎng)狀況和產(chǎn)量潛力。同時(shí),檢測(cè)小麥穗也為后續(xù)的小麥穗識(shí)別、分類(lèi)、計(jì)數(shù)等任務(wù)提供有效的輸入。

        目前,檢測(cè)小麥穗主要依賴(lài)于基于深度學(xué)習(xí)的目標(biāo)檢測(cè)方法,如Faster R-CNN[2]、YOLO[3]、SSD[4]等。Hasan等使用RGB相機(jī)拍攝小麥穗圖片,采用Faster R-CNN深度學(xué)習(xí)網(wǎng)絡(luò)訓(xùn)練麥穗識(shí)別模型,使用相同的R-CNN架構(gòu),基于不同的訓(xùn)練和測(cè)試圖像數(shù)據(jù)集生成4個(gè)不同的模型,在不同的測(cè)試圖像集上檢測(cè)準(zhǔn)確率為88%~94%的[5]。He等提出基于改進(jìn)YOLO v4的小麥穗目標(biāo)檢測(cè)算法,適用于無(wú)人機(jī)在田間檢測(cè)小麥穗[6]。該方法在自然場(chǎng)景下,包括重疊、遮擋、光照變化、不同顏色和形狀等方面,都能保持出色的性能。劉航等將基于深度殘差網(wǎng)絡(luò)的密度回歸模型引入麥穗的計(jì)數(shù)領(lǐng)域,建立原始圖片與密度圖的對(duì)應(yīng)關(guān)系,以密度圖像素值總和確定圖像中麥穗數(shù)量,改進(jìn)后的ResNet-16模型實(shí)現(xiàn)了端到端的麥穗計(jì)數(shù),精度達(dá)到94%[7]。黃子琦提出一種麥穗檢測(cè)網(wǎng)絡(luò)PPYOLO-SE,該網(wǎng)絡(luò)在保證檢測(cè)速度的同時(shí)提高了模型對(duì)小麥麥穗特征的學(xué)習(xí)能力,實(shí)現(xiàn)較高的檢測(cè)精度和速度,構(gòu)建了基于深度回歸的小麥穗計(jì)數(shù)模型,使用Tassel Net V2+網(wǎng)絡(luò),在小麥大田數(shù)據(jù)集上訓(xùn)練,實(shí)現(xiàn)了大田圖像麥穗計(jì)數(shù)。經(jīng)過(guò)試驗(yàn)驗(yàn)證,該模型在大田麥穗數(shù)據(jù)集上的平均檢測(cè)精度達(dá)到了95.13%[8]。

        盡管上述方法在一定程度上提高了檢測(cè)效果,但仍存在以下問(wèn)題:首先,由于小麥穗的特殊形態(tài),采用傳統(tǒng)的水平矩形框表示其位置和形狀會(huì)導(dǎo)致空間冗余和遮擋問(wèn)題,降低檢測(cè)精度和效率。其次,小麥穗在不同生長(zhǎng)階段和拍攝角度下會(huì)呈現(xiàn)不同的方向,固定方向框的使用忽略了其方向信息,降低了檢測(cè)的可解釋性和實(shí)用性。最后,現(xiàn)有方法通常需要大量的標(biāo)注數(shù)據(jù)和計(jì)算資源,對(duì)于數(shù)據(jù)量有限或計(jì)算能力受限的場(chǎng)景,使用現(xiàn)有方法面臨數(shù)據(jù)不足或訓(xùn)練時(shí)間過(guò)長(zhǎng)的問(wèn)題。

        針對(duì)現(xiàn)有方法的局限性和小麥穗目標(biāo)檢測(cè)的需求,本研究提出了一種基于改進(jìn)YOLOX的小麥穗旋轉(zhuǎn)矩形框檢測(cè)方法。通過(guò)將YOLOX目標(biāo)檢測(cè)算法進(jìn)行優(yōu)化和改進(jìn),將傳統(tǒng)的矩形框替換為旋轉(zhuǎn)矩形框,以更好地適應(yīng)小麥穗的旋轉(zhuǎn)形態(tài),提高檢測(cè)的準(zhǔn)確性和魯棒性。同時(shí),采用Copy-Paste數(shù)據(jù)增強(qiáng)技術(shù),增強(qiáng)數(shù)據(jù)集的多樣性和豐富性,從而進(jìn)一步提升模型的性能。本研究在公開(kāi)的小麥穗目標(biāo)檢測(cè)數(shù)據(jù)集上進(jìn)行試驗(yàn),結(jié)果表明,所提出的YOLOX-RoC模型在檢測(cè)效率和靈活性方面優(yōu)于傳統(tǒng)的水平矩形框方法,并具有較大的改進(jìn)空間。本研究為農(nóng)業(yè)領(lǐng)域中的小麥穗檢測(cè)提供一種新的解決方案,促進(jìn)農(nóng)作物生產(chǎn)的智能化和高效化發(fā)展。同時(shí),本研究改進(jìn)方法也具有一定的通用性,可在其他旋轉(zhuǎn)目標(biāo)檢測(cè)任務(wù)中得到應(yīng)用。

        1" YOLOX模型簡(jiǎn)介

        YOLOX模型于2001年提出,與YOLO v5一樣都采用YOLO系列模型的設(shè)計(jì)思路[9],即將目標(biāo)檢測(cè)問(wèn)題轉(zhuǎn)化為單一的回歸問(wèn)題,并且都采用相似的檢測(cè)流程,但YOLOX的無(wú)錨框和高級(jí)標(biāo)簽分配策略等改進(jìn)使其特點(diǎn)鮮明。YOLOX模型的主干特征提取網(wǎng)絡(luò)有2種,分別來(lái)源于YOLO v3[10]和YOLO v5,本研究使用的YOLOX主干為YOLO v3中的DarkNet53,模型結(jié)構(gòu)見(jiàn)圖1。

        其中,CBL模塊是一個(gè)簡(jiǎn)單而有效的卷積層,由卷積(Conv)、批歸一化(BN)[11]和LeakyReLU激活函數(shù)[12]組成。CBL模塊可以在不改變特征圖的高度和寬度的情況下,提取特征并增加非線性,CBL模塊在YOLOX模型中被廣泛使用。

        ResN模塊由1個(gè)CBL模塊和多個(gè)殘差塊(ResUnit)組成,ResUnit模塊是一個(gè)典型的沙漏型殘差塊,它首先使用1個(gè)1×1卷積層將輸入通道數(shù)減半,接著使用1個(gè)3×3卷積層將輸出通道數(shù)恢復(fù)原來(lái)的大小,最后將2個(gè)卷積層的輸出與輸入相加得到最終結(jié)果。殘差塊的輸入和輸出通過(guò)相加實(shí)現(xiàn)特征圖的短路連接,從而增強(qiáng)網(wǎng)絡(luò)的表達(dá)能力和梯度傳播,因此可以有效地減少參數(shù)量和計(jì)算量,同時(shí)保持較高的性能 。

        SPP模塊在YOLO v3的SPP-Net模塊[13]的基礎(chǔ)上進(jìn)行改進(jìn),用于特征融合,它通過(guò)使用不同尺寸的最大池化層來(lái)提取多尺度的特征,然后將池化結(jié)果拼接起來(lái),形成一個(gè)更豐富和多尺度的特征表示[14]再送入CBL模塊。SPP模塊是一種輕量化、自適應(yīng)、高效的特征融合方法,可以有效地提升目標(biāo)檢測(cè)的性能。

        YOLOX的預(yù)測(cè)頭(Head)與前文所述YOLO v5的改進(jìn)的Decouple Head 類(lèi)似,它將原來(lái)的YOLO Head分解為2個(gè)獨(dú)立的分支,不再共享參數(shù),分別負(fù)責(zé)分類(lèi)和回歸。通過(guò)減少不同任務(wù)之間的耦合使收斂速度和檢測(cè)精度提高。

        2" YOLOX模型改進(jìn)

        2.1" 坐標(biāo)注意力模塊

        注意力機(jī)制是一種數(shù)據(jù)處理方法,它讓神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到對(duì)輸入的不同部分賦予的權(quán)重,從而突出相關(guān)的信息。在計(jì)算機(jī)視覺(jué)中,注意力機(jī)制的基本思想是讓模型學(xué)會(huì)專(zhuān)注,把注意力集中在重要的信息上而忽視不重要的信息。代表性的注意力機(jī)制設(shè)計(jì)有SE(squeeze-and-excitation)[15]、CBAM(convolutional block attention module)[16]等。

        坐標(biāo)注意力(coordinate attention,CA)[17]是一種高效的注意力機(jī)制,它可以為模型提供更好的特征表示能力。坐標(biāo)注意力模塊見(jiàn)圖2,它的主要思想是在水平方向和垂直方向上進(jìn)行平均池化,再進(jìn)行空間信息編碼,最后把空間信息通過(guò)在通道上加權(quán)的方式融合,可以有效地將空間坐標(biāo)信息整合到生成的注意力圖中,在保留位置信息的同時(shí),捕獲輸入特征圖沿不同空間方向的長(zhǎng)程依賴(lài)關(guān)系。

        相對(duì)于SE和CBAM,CA可以捕獲空間信息,提高定位和識(shí)別能力,SE忽略了空間信息,CBAM則會(huì)丟失位置信息和增加計(jì)算開(kāi)銷(xiāo);CA可以靈活地插入到移動(dòng)網(wǎng)絡(luò)中,幾乎沒(méi)有額外的計(jì)算開(kāi)銷(xiāo),SE和CBAM都需要增加額外的參數(shù)和計(jì)算量,影響移動(dòng)網(wǎng)絡(luò)的輕量級(jí)和高效性;CA可以作為預(yù)訓(xùn)練模型,為密集預(yù)測(cè)任務(wù)帶來(lái)顯著的性能提升。將CA融入到Y(jié)OLOX模型的小麥穗檢測(cè)模型,有望在小目標(biāo)檢測(cè)任務(wù)中獲得優(yōu)勢(shì)。CA允許模型根據(jù)位置信息分配注意力,提高對(duì)小目標(biāo)的感知能力。這將有助于更精確地定位和識(shí)別小麥穗,提升模型的檢測(cè)準(zhǔn)確性和魯棒性。

        2.2" 旋轉(zhuǎn)框預(yù)測(cè)頭

        YOLOX默認(rèn)的模型算法中只有水平矩形框的表示方法,這意味著它不能很好地檢測(cè)傾斜或旋轉(zhuǎn)的目標(biāo),因此需要設(shè)計(jì)旋轉(zhuǎn)矩形框的表示方法。旋轉(zhuǎn)矩形框的邊長(zhǎng)表示法是一種用于描述目標(biāo)檢測(cè)中的旋轉(zhuǎn)目標(biāo)的方法,它可以用5個(gè)參數(shù)來(lái)定義1個(gè)旋轉(zhuǎn)矩形框,分別是中心點(diǎn)坐標(biāo)、2條邊的長(zhǎng)度和旋轉(zhuǎn)角度。

        長(zhǎng)邊定義法如圖3所示,它使用(x,y,w,h,θ)來(lái)表示1個(gè)旋轉(zhuǎn)矩形框,其中(x,y)是中心點(diǎn)坐標(biāo),W和H分別是2條邊的長(zhǎng)度,θ是逆時(shí)針?lè)较虻介L(zhǎng)邊所成直線與x軸正方向夾角,規(guī)定θ∈-π2,π2。

        為了適應(yīng)旋轉(zhuǎn)目標(biāo)檢測(cè)的任務(wù),YOLOX的預(yù)測(cè)頭需要進(jìn)行一些改進(jìn)。除了原有的類(lèi)別分類(lèi)頭和邊界框回歸頭,還需要增加1個(gè)角度回歸頭,用于學(xué)習(xí)目標(biāo)的旋轉(zhuǎn)角度信息。修改后的預(yù)測(cè)頭的結(jié)構(gòu)見(jiàn)圖4。

        2.3" KL散度損失函數(shù)

        YOLOX的損失函數(shù)主要由3個(gè)部分組成:分類(lèi)損失、置信度損失、定位損失。其中,分類(lèi)損失和置信度損失采用的是二元交叉熵?fù)p失函數(shù),見(jiàn)式(1):

        BCELoss=-1N∑Ni=1yi×ln[σ(xi)]+(1-yi)×ln[1-σ(xi)]。(1)

        式中:σ(xi)為Sigmoid激活函數(shù);BCELoss為二元交叉熵?fù)p失函數(shù);N表示樣本數(shù)量。yi是第i個(gè)樣本的真實(shí)標(biāo)簽。

        在目標(biāo)檢測(cè)任務(wù)中,對(duì)于旋轉(zhuǎn)邊界框的角度參數(shù)進(jìn)行回歸時(shí),存在旋轉(zhuǎn)敏感度誤差問(wèn)題,這會(huì)導(dǎo)致模型訓(xùn)練不穩(wěn)定,從而影響檢測(cè)精度。為了解決這個(gè)問(wèn)題,本研究采用KL散度(kullback-leibler divergence,KLD)[18]作為損失函數(shù)進(jìn)行邊界框回歸損失的計(jì)算。KL散度是一種用于衡量2個(gè)概率分布之間差異的指標(biāo),可以將旋轉(zhuǎn)邊界框轉(zhuǎn)換為二維高斯分布,并計(jì)算高斯分布之間的相對(duì)熵,從而得到損失函數(shù)的值。通過(guò)使用KL散度作為損失函數(shù),可以有效地解決旋轉(zhuǎn)敏感度誤差問(wèn)題,并提高模型的訓(xùn)練穩(wěn)定性和檢測(cè)精度,KL散度如公式(2)所示。

        DKL(NP‖Mt)=12(up-ut)T∑-1t(up-ut)+12Tr(∑-1t∑p)+12ln|∑t||∑p|-1。(2)

        其中:(up-ut)T∑-1t(up-ut)、Tr(∑-1t∑p)和 ln|∑t||∑p| 分別如式(3)、(4)、(5)所示。

        (up-ut)T∑-1t(up-ut)=4(Δxcosθt+Δysinθt)2w2t+4(Δycosθt-Δxsinθt)2h2t; (3)

        Tr(∑-1t∑p)=h2pw2tsin2Δθ+w2ph2tsin2Δθ+h2ph2tcos2Δθ+w2pw2tcos2Δθ;(4)

        ln|∑t||∑p|=lnh2th2p+lnw2tw2p。(5)

        其中:Δx=xp-xt、Δy=yp-yt、Δθ=θp-θt分別是預(yù)測(cè)框和真實(shí)框之間的中心點(diǎn)坐標(biāo)和角度差值;u表示二元高斯分布的均值;∑表示協(xié)方差矩陣;p(預(yù)測(cè))和t(實(shí)際)區(qū)分2個(gè)獨(dú)立的高斯分布;∑-1t表示∑t的逆矩陣;Tr表示矩陣的跡;θ表示bonding box的旋轉(zhuǎn)角度;p和t區(qū)分預(yù)測(cè)和真實(shí)的2個(gè)box;h是高度;w是寬度。

        KL散度損失函數(shù)計(jì)算公式如式(6)所示,如果KL散度DKL(Np‖Nt)等于0,那么損失函數(shù)也為0;如果KL散度很大,損失函數(shù)為1,在KL散度上利用y=lnx函數(shù)來(lái)平滑損失函數(shù)。

        LKLD(Np‖Nt)=1-11+ln[DKL(Np‖Nt)]。(6)

        KL散度損失函數(shù)能夠根據(jù)目標(biāo)的尺度動(dòng)態(tài)調(diào)整權(quán)重,從而減少微小的角度誤差對(duì)檢測(cè)精度的影響,使得高精度的旋轉(zhuǎn)檢測(cè)成為可能[19]。

        3" 數(shù)據(jù)集

        3.1" 數(shù)據(jù)集制作

        本研究主要使用GWHD 2021(global wheat head detection 2021)數(shù)據(jù)集和WEDD(wheat ears detection dataset)數(shù)據(jù)集。

        GWHD2021數(shù)據(jù)集中的小麥穗圖片來(lái)自亞洲、歐洲、美洲、非洲、大洋洲的12個(gè)國(guó)家[20],拍攝于2015—2021年,包括6 500張圖片和275 000個(gè)小麥穗,分辨率為1 024像素×1 024像素,可以有效地避免因?yàn)辂溗胩卣鲉我换蛘叽硇圆蛔愣鴮?dǎo)致擬合到特定數(shù)據(jù)集,在實(shí)際小麥穗圖像檢測(cè)中效果較差的問(wèn)題。

        WEDD(wheat ears detection dataset)是Madec等提供的公開(kāi)數(shù)據(jù)集[21],包含236張6 000像素×4 000 像素的高分辨率小麥圖片,共有30 729個(gè)小麥麥穗。該數(shù)據(jù)采集于2017年6月在法國(guó)格雷烏萊班(43.7°N,5.8°E)的麥田表型平臺(tái),使用索尼 ILCE-6000 數(shù)碼相機(jī),并將相機(jī)固定在吊桿上距離地面2.9 m進(jìn)行拍攝。2個(gè)數(shù)據(jù)集圖片見(jiàn)圖5。

        目前公開(kāi)的小麥穗數(shù)據(jù)集圖片都是使用水平矩形框標(biāo)注的,這種標(biāo)注方式存在一定的局限性,例如無(wú)法準(zhǔn)確地描述小麥穗部的形狀和方向,容易造成標(biāo)注框之間的重疊等問(wèn)題。為了實(shí)現(xiàn)更精確的目標(biāo)檢測(cè),本研究選取公開(kāi)數(shù)據(jù)集中的部分圖片,使用旋轉(zhuǎn)矩形框進(jìn)行重新標(biāo)注。

        標(biāo)注1個(gè)旋轉(zhuǎn)矩形是比較困難的,因?yàn)樾D(zhuǎn)矩形的4個(gè)點(diǎn)是落于旋轉(zhuǎn)目標(biāo)的輪廓外邊,很難快速定位到4個(gè)點(diǎn)的位置并標(biāo)注1個(gè)比較符合預(yù)期的旋轉(zhuǎn)矩形,更多的是標(biāo)注1個(gè)比較扭曲的四邊形(圖6)。針對(duì)這種標(biāo)注耗時(shí)、費(fèi)力的情況,本研究使用了十字標(biāo)注法,將原本順時(shí)針標(biāo)注變?yōu)榻徊鏄?biāo)注,而這些交叉標(biāo)注的點(diǎn)都落于目標(biāo)上,將1條對(duì)角線作為基準(zhǔn)線,即目標(biāo)的朝向,另外2個(gè)點(diǎn)向這條基準(zhǔn)線做垂線,將“十”字標(biāo)注轉(zhuǎn)為旋轉(zhuǎn)矩形框,結(jié)果如圖6-b所示。

        旋轉(zhuǎn)矩形框圖片使用Labelme工具標(biāo)注,標(biāo)注示意圖見(jiàn)圖7,圖像標(biāo)注完成后劃分為訓(xùn)練集、驗(yàn)證集、測(cè)試集。訓(xùn)練集用于訓(xùn)練模型的參數(shù),使模型能夠擬合數(shù)據(jù)的特征和規(guī)律[22]。驗(yàn)證集用于調(diào)整模型的超參數(shù),如學(xué)習(xí)率、正則化系數(shù)等,以優(yōu)化模型的性能和泛化能力。測(cè)試集用于評(píng)估模型在未知數(shù)據(jù)上的表現(xiàn),檢驗(yàn)?zāi)P偷臏?zhǔn)確度和魯棒性。

        本研究對(duì)上述2個(gè)公開(kāi)數(shù)據(jù)集的圖片重新標(biāo)注旋轉(zhuǎn)矩形框標(biāo)簽,并用于比較水平矩形框的模型訓(xùn)練和檢測(cè)效果。所制作的數(shù)據(jù)集共包含408張圖片,其中386張的分辨率為1 024像素×1 024像素,來(lái)自GWHD2021數(shù)據(jù)集;另外22張的分辨率為6 000像素×4 000像素,來(lái)自WEDD數(shù)據(jù)集。這些圖片來(lái)源各不相同,具備一定的復(fù)雜度和多樣性,同時(shí)包含水平矩形框和旋轉(zhuǎn)矩形框2種標(biāo)簽。為了評(píng)估不同模型的性能,將這2個(gè)數(shù)據(jù)集按照8 ∶1 ∶1的比例劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。本研究基于這2個(gè)數(shù)據(jù)集,對(duì)YOLOX模型進(jìn)行了進(jìn)一步的研究和改進(jìn)。

        3.2" 數(shù)據(jù)增強(qiáng)

        由于本研究使用的旋轉(zhuǎn)矩形框數(shù)據(jù)集相比水平矩形框數(shù)據(jù)集少一些,因此可以進(jìn)一步使用數(shù)據(jù)增強(qiáng)方法擴(kuò)充數(shù)據(jù)集,以提高模型檢測(cè)效果。在使用更多的隨機(jī)平移、裁剪、Mosaic和Mixup數(shù)據(jù)增強(qiáng)

        方法的同時(shí),額外使用Copy-Paste方法[23],Copy-Paste是一種簡(jiǎn)單而有效的數(shù)據(jù)增強(qiáng)方法,它的基本思想是:從訓(xùn)練集中隨機(jī)選擇2幅圖像,從其中一張圖片中隨機(jī)選擇一個(gè)目標(biāo)子集,并將其復(fù)制粘貼到另一張圖片中的隨機(jī)位置,同時(shí)更新相應(yīng)的標(biāo)注框信息。這樣可以豐富數(shù)據(jù)中的場(chǎng)景和對(duì)象的組合,提高模型對(duì)不同尺度、姿態(tài)和遮擋的泛化能力,使用數(shù)據(jù)增強(qiáng)后的效果見(jiàn)圖8。

        4" 模型訓(xùn)練

        4.1" 試驗(yàn)配置與參數(shù)

        本試驗(yàn)全部在Linux環(huán)境下進(jìn)行,訓(xùn)練模型的操作系統(tǒng)為Ubuntu 18.04.6 LTS,圖形處理器為NVIDIA Tesla P100,計(jì)算機(jī)內(nèi)存和顯存均為16 GB,具體配置信息見(jiàn)表1。本研究訓(xùn)練YOLO v5模型采用的超參數(shù)設(shè)置見(jiàn)表2。

        4.2" 評(píng)價(jià)指標(biāo)

        Precision和Recall是2個(gè)常用的評(píng)價(jià)分類(lèi)模型性能的指標(biāo)。Precision(P)表示預(yù)測(cè)為正例的樣本中真正為正例的比例,也就是正確預(yù)測(cè)的正例占所有預(yù)測(cè)為正例的樣本的比例。

        在平面直角坐標(biāo)系中以Recall(R)值為橫軸,P值

        為縱軸,可以得到PR曲線,AP(average precision)是Precision-Recall曲線下的面積,可使用積分計(jì)算,如式(7)所示。AP綜合考慮P和R 2個(gè)指標(biāo),能夠更全面地評(píng)估模型的性能。

        5" 試驗(yàn)結(jié)果與分析

        試驗(yàn)結(jié)果見(jiàn)表3,其中YOLOX為基礎(chǔ)模型,YOLOX_CA為在此基礎(chǔ)上添加坐標(biāo)注意力模塊;YOLOX_Rotation為修改預(yù)測(cè)頭和損失函數(shù)后的旋轉(zhuǎn)矩形框檢測(cè)模型,YOLOX_Rotation_CA為該模型添加坐標(biāo)注意力模塊后的模型,并命名為YOLOX-RoC。

        添加坐標(biāo)注意力模塊后,YOLOX_CA和YOLOX_Rotation_CA(YOLOX-RoC)模型在AP0.5和AP0.5 ∶0.95 2個(gè)指標(biāo)上都有顯著的提升,分別達(dá)到了78.4%和41.9%,以及78.9%和43.9%。這說(shuō)明坐標(biāo)注意力模塊可以有效地增強(qiáng)特征表示能力,提高小麥穗檢測(cè)的準(zhǔn)確性。同時(shí),YOLOX-RoC模型相比于YOLOX_CA模型有更高的性能,這表明旋轉(zhuǎn)矩形框相比于水平矩形框更適合于小麥穗檢測(cè)任務(wù)。然而,值得注意的是, YOLOX-Rotation模型

        的算法復(fù)雜度也相對(duì)較高,比YOLOX模型更復(fù)雜。

        圖9展示了YOLOX_Rotation_CA(YOLOX-RoC)模型在檢測(cè)小麥穗時(shí)相對(duì)于其他模型的優(yōu)勢(shì)。首先,在遮擋較嚴(yán)重的圖像中,只有YOLOX-RoC模型可以正確識(shí)別出被遮擋的麥穗,并且使用旋轉(zhuǎn)矩形框更準(zhǔn)確地?cái)M合麥穗的輪廓(圖9-a)。其次,在圖像中較小的小麥穗目標(biāo)下,只有YOLOX-RoC模型可以辨別出這些較小且難以識(shí)別的小麥穗目標(biāo),并且使用坐標(biāo)注意力模塊可以更好地突出這些目標(biāo)區(qū)域(圖9-b)。最后,在圖像中存在多個(gè)不同方向和大小的小麥穗目標(biāo)時(shí),只有YOLOX-RoC模型可以準(zhǔn)確地檢測(cè)出所有的目標(biāo),并且使用旋轉(zhuǎn)矩形框和坐標(biāo)注意力模塊可以更好地表示目標(biāo)的位置、方向和大小(圖 9-c)。

        6" 結(jié)論

        本研究提出了一種新的旋轉(zhuǎn)目標(biāo)檢測(cè)方

        法——YOLOX-Rotation, 結(jié)合坐標(biāo)注意力模塊, 取得了顯著優(yōu)勢(shì)。相較于水平矩形框,旋轉(zhuǎn)矩形框在小麥穗檢測(cè)任務(wù)中更精確,提供更好的可視化效果,且在模型精度和靈活性上表現(xiàn)更好。本研究主要通過(guò)以下幾個(gè)關(guān)鍵改進(jìn)來(lái)實(shí)現(xiàn)這一進(jìn)展:(1)重新設(shè)計(jì)旋轉(zhuǎn)目標(biāo)的表示方法,修改YOLOX的預(yù)測(cè)頭,以更好地表示旋轉(zhuǎn)目標(biāo)的位置和姿態(tài),從而提高模型的性能;(2)采用KL散度損失函數(shù)來(lái)解決旋轉(zhuǎn)敏感度誤差,提高了訓(xùn)練穩(wěn)定性和檢測(cè)精度;(3)采用Copy-Paste數(shù)據(jù)增強(qiáng)方法,擴(kuò)充了訓(xùn)練樣本,增加了數(shù)據(jù)的多樣性和復(fù)雜性,提高了模型的泛化能力;(4)引入坐標(biāo)注意力模塊,以增強(qiáng)特征表示能力。這一模塊能更好地捕獲特征圖的依存關(guān)系,提高檢測(cè)效果。通過(guò)試驗(yàn)驗(yàn)證,改進(jìn)后的YOLOX-RoC模型AP值提升2.4百分點(diǎn),特別在小目標(biāo)和遮擋嚴(yán)重的情況下表現(xiàn)出色。

        綜上所述,本研究在旋轉(zhuǎn)目標(biāo)檢測(cè)領(lǐng)域取得了顯著的進(jìn)展,提出的YOLOX-RoC方法在檢測(cè)精度和泛化能力上表現(xiàn)出色,但仍然存在一些潛在的改進(jìn)空間。未來(lái)可以進(jìn)一步研究如何進(jìn)一步提高模型的魯棒性和效率,以及如何更好地適應(yīng)更復(fù)雜多樣化的場(chǎng)景,使其在實(shí)際應(yīng)用中具有更廣泛的價(jià)值和應(yīng)用前景。

        參考文獻(xiàn):

        [1]Zhao C J,Zhang Y,Du J J,et al. Crop phenomics:current status and perspectives[J]. Frontiers in Plant Science,2019,10:714.

        [2]Girshick R. Fast R-CNN[C]//2015 IEEE International Conference on Computer Vision. Santiago:IEEE,2015:1440-1448.

        [3]Redmon J,Divvala S,Girshick R,et al. You only look once:unified,real-time object detection[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition.Las Vegas:IEEE,2016:779-788.

        [4]Liu W,Anguelov D,Erhan D,et al. SSD:single shot MultiBox detector[M]//Lecture Notes in Computer Science.Cham:Springer International Publishing,2016:21-37.

        [5]Hasan M M,Chopin J P,Laga H,et al. Detection and analysis of wheat spikes using Convolutional Neural Networks[J]. Plant Methods,2018,14:100.

        [6]He M X,Hao P,Xin Y Z.A robust method for wheatear detection using UAV in natural scenes[J]. IEEE Access,2020,8:189043-189053.

        [7]劉" 航,劉" 濤,李世娟,等. 基于深度殘差網(wǎng)絡(luò)的麥穗回歸計(jì)數(shù)方法[J]. 中國(guó)農(nóng)業(yè)大學(xué)學(xué)報(bào),2021,26(6):170-179.

        [8]黃子琦. 基于深度學(xué)習(xí)麥穗識(shí)別的小麥估產(chǎn)研究[D]. 泰安:山東農(nóng)業(yè)大學(xué),2022:3-4.

        [9]Ge Z,Liu S,Wang F,et al. Yolox:Exceeding yolo series in 2021[EB/OL]. (2021-07-18)[2023-10-05]. https://arxiv.org/abs/2107.08430.

        [10]Redmon J,F(xiàn)arhadi A.YOLO v3:an incremental improvement[EB/OL]. (2018-04-08)[2023-10-05]. https://arxiv.org/abs/1804.02767v1.

        [11]Ioffe S,Szegedy C. Batch normalization:accelerating deep network training by reducing internal covariate shift[J]. 32nd International Conference on Machine Learning,2015,1:448-456.

        [12]Xu B,Wang N Y,Chen T Q,et al. Empirical evaluation of rectified activations in convolutional network[EB/OL]. (2015-11-27)[2023-10-05]. https://arxiv.org/abs/1505.00853v2.

        [13]He K M,Zhang X Y,Ren S Q,et al. Spatial pyramid pooling in deep convolutional networks for visual recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2015,37(9):1904-1916.

        [14]Huang Z C,Wang J L,F(xiàn)u X S,et al. DC-SPP-YOLO:dense connection and spatial pyramid pooling based YOLO for object detection[J]. Information Sciences,2020,522:241-258.

        [15]Hu J,Shen L,Sun G.Squeeze-and-excitation networks[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Salt Lake:IEEE,2018:7132-7141.

        [16]Woo S,Park J,Lee J Y,et al. CBAM:convolutional block attention module[M]//Lecture Notes in Computer Science.Cham:Springer International Publishing,2018:3-19.

        [17]Hou Q B,Zhou D Q,F(xiàn)eng J S.Coordinate attention for efficient mobile network design[C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Nashville:IEEE,2021:13708-13717.

        [18]Yang X,Yang X J,Yang J R,et al. Learning high-precision bounding box for rotated object detection via kullback-leibler divergence[EB/OL]. (2021-06-03)[2023-10-05]. https://arxiv.org/abs/2106.01883v5.

        [19]Zakaria Y,Mokhtar S A,Baraka H,et al. Improving small and cluttered object detection by incorporating instance level denoising into single-shot alignment network for remote sensing imagery[J]. IEEE Access,2022,10:51176-51190.

        [20]David E,Serouart M,Smith D,et al. Global Wheat Head Dataset 2021:more diversity to improve the benchmarking of wheat head localization methods[EB/OL]. (2021-06-03)[2023-10-05]. https://arxiv.org/abs/2105.07660v2.

        [21]Madec S,Jin X L,Lu H,et al. Ear density estimation from high resolution RGB imagery using deep learning technique[J]. Agricultural and Forest Meteorology,2019,264:225-234.

        [22]劉" 穎,劉紅燕,范九倫,等. 基于深度學(xué)習(xí)的小目標(biāo)檢測(cè)研究與應(yīng)用綜述[J]. 電子學(xué)報(bào),2020,48(3):590-601.

        [23]Ghiasi G,Cui Y,Srinivas A,et al. Simple copy-paste is a strong data augmentation method for instance segmentation[C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Nashville:IEEE,2021:2918-2928.

        猜你喜歡
        目標(biāo)檢測(cè)
        多視角目標(biāo)檢測(cè)與跟蹤技術(shù)的研究與實(shí)現(xiàn)
        視頻中目標(biāo)檢測(cè)算法研究
        軟件(2016年4期)2017-01-20 09:38:03
        行為識(shí)別中的人體運(yùn)動(dòng)目標(biāo)檢測(cè)方法
        移動(dòng)機(jī)器人圖像目標(biāo)識(shí)別
        基于視頻監(jiān)控的運(yùn)動(dòng)圖像檢測(cè)算法研究
        基于背景建模法的運(yùn)動(dòng)目標(biāo)檢測(cè)
        基于P3電位的目標(biāo)檢測(cè)研究
        科技視界(2016年4期)2016-02-22 13:09:19
        智能視頻技術(shù)在電力系統(tǒng)領(lǐng)域的應(yīng)用
        相關(guān)K分布雜波中擴(kuò)展目標(biāo)積累檢測(cè)性能分析
        基于連通域標(biāo)記的目標(biāo)檢測(cè)算法設(shè)計(jì)與實(shí)現(xiàn)
        日韩精品成人一区二区在线观看| 久久国产精品精品国产色婷婷| 国产在线无码制服丝袜无码| 国产美女69视频免费观看| 日本看片一区二区三区| 国产欧美成人| 91视频爱爱| 日本在线观看一区二区视频| 毛片在线播放亚洲免费中文网| 噜噜中文字幕一区二区| 极品尤物人妻堕落沉沦| 免费无码一区二区三区蜜桃| 亚洲V日韩V精品v无码专区小说| 无码中文日韩Av| av在线网站一区二区| 国产三级精品视频2021| 国产强被迫伦姧在线观看无码| 日韩精品久久无码中文字幕| 无码av无码天堂资源网| 在线观看视频一区| 精品人妻一区二区三区av| 91精品国产92久久久| 亚洲精品色午夜无码专区日韩| 永久免费无码av在线网站 | 久久99精品国产99久久| 无遮挡粉嫩小泬| 日韩视频午夜在线观看| 亚洲精品乱码久久久久久| 亚洲精品国产suv一区88| 国产精品无码精品久久久| 国产在线天堂av| 日韩人妻免费一区二区三区| 日本道色综合久久影院| 精品久久久久久久久久中文字幕| 久久久久久久国产精品电影| 狼人av在线免费观看| 99人中文字幕亚洲区三| 国内精品久久久久影院一蜜桃| 国产v视频| 午夜黄色一区二区不卡| 黑人大群体交免费视频|