亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于改進(jìn)的YOLOv8檢測(cè)網(wǎng)絡(luò)在無(wú)人機(jī)航拍圖像識(shí)別中的應(yīng)用

        2025-04-05 00:00:00冉險(xiǎn)生劉圣斌
        現(xiàn)代電子技術(shù) 2025年7期
        關(guān)鍵詞:小目標(biāo)目標(biāo)檢測(cè)注意力機(jī)制

        摘" 要: 針對(duì)現(xiàn)有無(wú)人機(jī)航拍圖像目標(biāo)檢測(cè)算法檢測(cè)精度較低、檢測(cè)小尺度車輛誤差較大等問(wèn)題,提出一種改進(jìn)YOLOv8的無(wú)人機(jī)車輛檢測(cè)算法Improve?YOLOv8。首先,在骨干網(wǎng)絡(luò)中的C2f卷積層引入可變形卷積模塊DCNv2,提高骨干網(wǎng)絡(luò)適應(yīng)不規(guī)則空間結(jié)構(gòu)的能力,增強(qiáng)模型對(duì)遮擋重疊小目標(biāo)的檢測(cè)能力;其次,借鑒Large Separable Kernel Attention的思想,提出具有長(zhǎng)程依賴性與自適應(yīng)能力的SPPF?LSKA模塊,有效減少背景對(duì)航拍圖像檢測(cè)的干擾;然后,通過(guò)引入DyHead檢測(cè)頭,融合尺度、空間和任務(wù)三種注意力機(jī)制提升模型檢測(cè)性能;最后,使用WIoUv3作為邊界框回歸損失,采用明智的梯度分配策略提高模型的定位能力。實(shí)驗(yàn)結(jié)果表明,在Mapsai數(shù)據(jù)集上Improve?YOLOv8相較于基準(zhǔn)模型,在準(zhǔn)確率、召回率、平均精度上分別提升了5.1%、6.1%和5.1%,表現(xiàn)出良好的檢測(cè)性能,具有實(shí)際應(yīng)用潛力。

        關(guān)鍵詞: 無(wú)人機(jī)航拍圖像; 小目標(biāo); YOLOv8; 目標(biāo)檢測(cè); 可變形卷積; 注意力機(jī)制

        中圖分類號(hào): TN911.73?34" " " " nbsp; " " " " " " " " "文獻(xiàn)標(biāo)識(shí)碼: A" " " " " " " " " " "文章編號(hào): 1004?373X(2025)07?0048?09

        Application of detection network based on improved YOLOv8

        in UAV aerial image recognition

        RAN Xiansheng, LIU Shengbin

        (School of Mechatronics and Vehicle Engineering, Chongqing Jiaotong University, Chongqing 400074, China)

        Abstract: In view of the low detection accuracy and large error in detecting small?scaled vehicles in the existing UAV aerial image object detection algorithms, a UAV vehicle detection algorithm based on the improved YOLOv8 is proposed, and it is named Improve?YOLOv8. Firstly, a deformable convolutional module DCNv2 is introduced into the C2f convolutional layer of the backbone network, so as to improve the ability of the backbone network to adapt to irregular space structure and enhance the ability of the model to detecting the occluded and overlapped small objects. Secondly, an SPPF?LSKA module with long?range dependence and adaptive ability is proposed on the basis of the idea of Large Separable Kernel Attention, which effectively reduces the background interference on aerial image detection. And then, by introducing DyHead detection head, the three attention mechanisms of scale, space and task are integrated to improve the model detection performance. Finally, WIoUv3 is used as a bounding box regression loss, and a wise gradient allocation strategy is adopted to improve the positioning ability of the model. The experimental results show that in comparison with the benchmark model, the accuracy rate, recall rate and average precision (AP) of the Improve?YOLOv8 are improved by 5.1%, 6.1% and 5.1% on the Mapsai dataset, respectively, showing good detection performance and practical application potential.

        Keywords: UAV aerial image; small object; YOLOv8; object detection; deformable convolution; attention mechanism

        0" 引" 言

        無(wú)人機(jī)是一種通過(guò)遠(yuǎn)程遙控設(shè)備或預(yù)設(shè)的程序進(jìn)行飛行控制的自主飛行器,具有體積小、操作簡(jiǎn)單、靈活性高等特點(diǎn)[1],在城市規(guī)劃、交通檢測(cè)、農(nóng)業(yè)檢測(cè)、軍事安防等領(lǐng)域發(fā)揮著不可替代的作用[2]。然而與自然場(chǎng)景相比,無(wú)人機(jī)由于飛行高度高、視野廣,導(dǎo)致拍攝圖像中小目標(biāo)比例高、背景復(fù)雜等問(wèn)題,增加了目標(biāo)檢測(cè)任務(wù)的難度。此外,無(wú)人機(jī)平臺(tái)資源有限,難以嵌入高計(jì)算和存儲(chǔ)要求的目標(biāo)檢測(cè)模型。為了解決這些問(wèn)題,國(guó)內(nèi)外學(xué)者展開(kāi)了一系列研究。

        文獻(xiàn)[3]提出一種高分辨率檢測(cè)網(wǎng)絡(luò)(HRDNet),利用多深度圖像金字塔網(wǎng)絡(luò)(MD?IPN)和多尺度特征金字塔網(wǎng)絡(luò)(MS?FPN)兩種特征融合方法,使網(wǎng)絡(luò)在圖像訓(xùn)練模式下提高了精度,降低了對(duì)硬件的苛刻要求。文獻(xiàn)[4]提出一種與注意力機(jī)制相結(jié)合的跨模態(tài)融合Transformer(CFT),使網(wǎng)絡(luò)能夠?qū)W⒂谌稚舷挛奶卣?,提高了航空?qǐng)D像多光譜目標(biāo)檢測(cè)的綜合性能。文獻(xiàn)[5]引入Transformer思想,利用線性變換結(jié)構(gòu)代替部分卷積結(jié)構(gòu),有效解決了檢測(cè)精度和計(jì)算代價(jià)之間的不平衡問(wèn)題。文獻(xiàn)[6]從數(shù)據(jù)增強(qiáng)的角度出發(fā),利用背景替換解決了無(wú)人機(jī)圖像中背景單調(diào)的問(wèn)題。文獻(xiàn)[7]使用YOLOv3作為基礎(chǔ)模型,引入ResNet單元并添加卷積操作來(lái)優(yōu)化骨干網(wǎng)絡(luò),以增強(qiáng)模型的感受野,降低無(wú)人機(jī)視角下小目標(biāo)檢測(cè)的泄漏率和誤檢率。文獻(xiàn)[8]提出一種基于特征融合和縮放的單次拍攝檢測(cè)器(FS?SSD),通過(guò)在反卷積模塊中增加一個(gè)額外的分支和平均池化來(lái)調(diào)整特征融合模塊,形成一個(gè)特殊的特征金字塔,將物體的空間關(guān)系與檢測(cè)任務(wù)相結(jié)合,提高檢測(cè)精度。

        目前大多數(shù)研究方法對(duì)于無(wú)人機(jī)航拍場(chǎng)景下的目標(biāo)檢測(cè)普遍存在精度不高的問(wèn)題,難以平衡模型精度與資源消耗之間的關(guān)系。針對(duì)上述問(wèn)題,本文提出一種基于無(wú)人機(jī)航拍圖像的目標(biāo)檢測(cè)模型Improve?YOLOv8。該模型不僅提高了目標(biāo)檢測(cè)的性能,而且不需要消耗太多的資源。本文的主要貢獻(xiàn)如下幾方面。

        1) 利用可變形卷積模塊(Deformable Convolution v2, DCNv2),增強(qiáng)特征圖中不規(guī)則形狀特征的提取能力,使骨干網(wǎng)絡(luò)更精準(zhǔn)地關(guān)注重要目標(biāo),從而提高模型對(duì)遮擋重疊目標(biāo)的檢測(cè)能力。

        2) 利用LSKA(Large Separable Kernel Attention,大內(nèi)核分離注意力)的思想,提出具有長(zhǎng)程依賴性和自適應(yīng)能力的SPPF?LSKA模塊,可以有效減少背景對(duì)于車輛檢測(cè)的干擾。

        3) 使用DyHead檢測(cè)頭,將尺度、空間和任務(wù)三種注意力機(jī)制結(jié)合統(tǒng)一,使模型更加專注小目標(biāo),提升無(wú)人機(jī)航拍圖像的檢測(cè)性能。

        4) 使用WIoUv3損失作為包圍盒回歸損失,結(jié)合動(dòng)態(tài)非單調(diào)聚焦機(jī)制,使檢測(cè)器考慮不同質(zhì)量的錨框以提高檢測(cè)任務(wù)的整體性能。

        1" YOLOv8算法原理

        YOLO模型在計(jì)算機(jī)視覺(jué)領(lǐng)域取得了巨大的成功,在此基礎(chǔ)上,研究人員對(duì)該方法進(jìn)行改進(jìn)和添加新的模塊,提出了許多經(jīng)典模型。YOLOv8是Ultralytics公司于2023年1月10日發(fā)布的算法。相比YOLO系列[9?12]之前的優(yōu)秀模型(如YOLOv5和YOLOv7),YOLOv8是一款先進(jìn)的尖端模型,可以提供更高的檢測(cè)精度和速度。

        1.1" 主干網(wǎng)絡(luò)

        YOLOv8使用修改后的CSPDarknet53[13]作為骨干網(wǎng)絡(luò),輸入特征被下采樣5次,依次獲得5個(gè)不同尺度的特征,原骨干網(wǎng)中的跨階段部分(CSP)模塊被C2f模塊取代,C2f模塊采用梯度分流連接,在保持輕量化的同時(shí),豐富特征提取網(wǎng)絡(luò)的信息流。CBS模塊對(duì)輸入信息執(zhí)行卷積運(yùn)算,然后進(jìn)行批量歸一化,最后使用SiLU激活信息流以獲得輸出結(jié)果。骨干網(wǎng)絡(luò)最后使用空間金字塔池化(SPPF)模塊將輸入的特征映射池化為固定大小的映射,用于自適應(yīng)大小的輸出。

        1.2" 頸部網(wǎng)絡(luò)

        受PANet[14]的啟發(fā),YOLOv8在頸部設(shè)計(jì)了PAN?FPN結(jié)構(gòu),在FPN的基礎(chǔ)上增加了PAN,實(shí)現(xiàn)自上而下的路徑增強(qiáng)。構(gòu)建了自頂向下和自底向上的網(wǎng)絡(luò)結(jié)構(gòu),通過(guò)特征實(shí)現(xiàn)了淺層位置信息和深層語(yǔ)義信息的互補(bǔ),實(shí)現(xiàn)了特征的多樣性和完備性。

        1.3" 頭部網(wǎng)絡(luò)

        YOLOv8的檢測(cè)部分采用了解耦頭部結(jié)構(gòu),該結(jié)構(gòu)通過(guò)兩個(gè)獨(dú)立的分支進(jìn)行對(duì)象分類和邊界框回歸預(yù)測(cè)。這兩項(xiàng)任務(wù)分別使用不同的損失函數(shù):分類任務(wù)采用二進(jìn)制交叉熵?fù)p失(BCE Loss),而邊界框回歸預(yù)測(cè)則采用分布焦損失(DFL)[15]和CIoU[16]。這種檢測(cè)結(jié)構(gòu)不僅提高了檢測(cè)精度,還加快了模型的收斂速度。YOLOv8是一種無(wú)錨點(diǎn)檢測(cè)模型,可以簡(jiǎn)潔地指定正、負(fù)樣本。它還通過(guò)使用Task?Aligned Assigner[17]來(lái)動(dòng)態(tài)分配樣本,從而增強(qiáng)了模型的檢測(cè)精度和魯棒性。

        2" 改進(jìn)的YOLOv8網(wǎng)絡(luò)模型

        YOLOv8是一種先進(jìn)的目標(biāo)檢測(cè)模型,使用3個(gè)尺度檢測(cè)層來(lái)適應(yīng)不同尺度的對(duì)象[18]。然而,針對(duì)無(wú)人機(jī)航拍獲取的圖像,存在背景復(fù)雜、小目標(biāo)比例高等問(wèn)題,導(dǎo)致YOLOv8檢測(cè)模型無(wú)法滿足無(wú)人機(jī)航拍場(chǎng)景下的目標(biāo)檢測(cè)需求[19]。針對(duì)這些問(wèn)題,本文以YOLOv8n為基礎(chǔ)模型,從多尺度特征、注意力機(jī)制和損失函數(shù)等方面對(duì)網(wǎng)絡(luò)模型進(jìn)行了優(yōu)化。改進(jìn)后的網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。

        2.1" 可變形卷積

        在CNN中,卷積單元投影具有固定區(qū)域的特征圖,并且池化層具有固定比例,這樣的網(wǎng)絡(luò)模塊導(dǎo)致CNN的幾何變換建模能力受到限制??勺冃尉矸e網(wǎng)絡(luò)(DCN)的出現(xiàn)解決了這個(gè)問(wèn)題,DCN在CNN的基礎(chǔ)上進(jìn)行改進(jìn),用可變形卷積和可變形RoI池化代替常見(jiàn)的卷積模塊和池化模塊,提高了幾何變換的建模能力。CNN卷積如圖2所示。

        可變形卷積在普通卷積的每個(gè)卷積采樣點(diǎn)上增加一個(gè)偏移量,其大小和位置可以根據(jù)幾何形狀識(shí)別物體的變形。在增加偏移量之后,可變形卷積層可以更好地適應(yīng)和捕獲更豐富的特征信息。

        DCN模塊結(jié)構(gòu)如圖3所示。DCN具有很強(qiáng)的幾何適應(yīng)性,可以學(xué)習(xí)更多關(guān)于目標(biāo)對(duì)象的有用信息。然而,變形卷積得到的特征會(huì)受到無(wú)關(guān)圖像內(nèi)容的影響。DCNv2通過(guò)增強(qiáng)其幾何建模能力和訓(xùn)練強(qiáng)度來(lái)改進(jìn)DCN,從而更準(zhǔn)確地提取目標(biāo)對(duì)象的特征信息。

        具體改進(jìn)分為兩部分:一是增加可變形卷積的整合,也就是說(shuō)增加訓(xùn)練強(qiáng)度;二是引入調(diào)制機(jī)制,在不同的采樣位置添加不同的調(diào)制量。DCNv2的卷積公式如下:

        [y(p)=k=1Kwk?x(p+pk+Δpk)?Δmk] (1)

        式中:[x]為輸入特征圖上[p]像素點(diǎn)的特征;[y(p)]為輸出特征圖上像素點(diǎn)[p]的特征;[wk]為學(xué)習(xí)權(quán)重;[pk]為預(yù)先指定偏移量;[Δpk]為像素點(diǎn)[k]的可學(xué)習(xí)偏移值;[Δmk]為像素點(diǎn)[k]的調(diào)制權(quán)重,取值范圍為[0,1]。

        通過(guò)引入可變形卷積,綜合卷積核權(quán)重以及偏移值,網(wǎng)絡(luò)模塊被賦予改變其樣本的空間分布和相對(duì)影響的能力,輸出關(guān)聯(lián)更多的目標(biāo)區(qū)域,因此本文將DCNv2 引入模型骨干網(wǎng)絡(luò)中最后一個(gè)特征圖提取層的C2f模塊的Bottleneck中,如圖4所示,將原Bottleneck中的卷積均替換為可變形卷積DCNv2,構(gòu)建Bottleneck_DCNv2,得到C2f_DCNv2模塊。

        2.2" SPPF?LSKA模塊

        LSKA是一種創(chuàng)新的大型可分離核注意力模塊,解決了大型卷積核在深度卷積層的計(jì)算和內(nèi)存中呈現(xiàn)二次增長(zhǎng)的問(wèn)題[20]。LSKA模塊的結(jié)構(gòu)如圖5所示。其中,[k]表示最大感受野,[d]表示擴(kuò)展率。

        在YOLOv8中采用SPPF特征金字塔結(jié)構(gòu),通過(guò)連續(xù)三次最大池化來(lái)減少計(jì)算量,卷積核統(tǒng)一為[5×5],最后將池化前和每次池化后的結(jié)果進(jìn)行融合,同時(shí)保證多尺度融合的效果,在MaxPool的層次上實(shí)現(xiàn)了局部特征和全局特征的融合。SPPF結(jié)構(gòu)在架構(gòu)中使用了LSKA,稱為SPPF?LSKA的特征金字塔結(jié)構(gòu),如圖6所示。SPPF?LSKA在激活函數(shù)的選擇上相比SPPF進(jìn)行了優(yōu)化,其中SPPF使用SiLU(Sigmoid Linear Unit)作為激活函數(shù),而SPPF?LSKA使用ReLU(Rectified Linear Unit),這一變化提高了各個(gè)模塊的速度,使得SPPF?LSKA相比SPPF更高效。此外,在連續(xù)三次最大池化后,還加入了具有5×5卷積核的LSKA注意力模塊。LSKA模塊通過(guò)結(jié)合局部和全局注意力機(jī)制,使模型能夠準(zhǔn)確地捕獲不同尺度下的重要特征信息,從而提高特征表示的質(zhì)量,以增強(qiáng)模型的性能。

        2.3" DyHead模塊

        傳統(tǒng)的目標(biāo)檢測(cè)方法通常需要處理物體定位和分類這兩個(gè)任務(wù),而這兩個(gè)任務(wù)的復(fù)雜性促進(jìn)了各種方法的發(fā)展。以往的研究主要集中在改進(jìn)不同的目標(biāo)檢測(cè)頭部,但很少有工作從統(tǒng)一的視角出發(fā)考慮問(wèn)題。DyHead通過(guò)在特征層次間、空間位置間以及輸出通道內(nèi)部分別應(yīng)用自注意力機(jī)制,有效地結(jié)合了尺度感知、空間感知和任務(wù)感知能力,使得目標(biāo)檢測(cè)頭部的表征能力得到顯著提高,且不增加計(jì)算開(kāi)銷,因此,本文在YOLOv8頭部網(wǎng)絡(luò)引入DyHead模塊[21]。

        DyHead模塊包含三種不同的注意力模塊,給定特征向量[F∈RC?S?L],將注意力函數(shù)轉(zhuǎn)換為三個(gè)連續(xù)的注意力模塊,每個(gè)注意力模塊只關(guān)注一個(gè)視角,計(jì)算公式如下所示:

        [W(F)=πCπSπL(F)?F?F?F] (2)

        式中:[F]代表一個(gè)輸出的三維張量[C×S×L];[πC]、[πS]、[πL]是分別應(yīng)用在[C]、[S]和[L]維度上的3個(gè)不同的注意力模塊。DyHead的每個(gè)注意力模塊的詳細(xì)實(shí)現(xiàn)如圖7所示。

        2.4" 改進(jìn)的損失函數(shù)

        WIoU可以分為基于注意力的v1,以及增加了聚焦系數(shù)的v2和v3三類。其中,WIoUv1引入了距離作為注意力的度量標(biāo)準(zhǔn)。當(dāng)目標(biāo)框與預(yù)測(cè)框在一定范圍內(nèi)重疊時(shí),減少幾何度量的懲罰使模型獲得更好的泛化能力。WIoUv1的計(jì)算公式如下所示:

        [LWIoUv1=RWIoU?LIoU] (3)

        [RWIoU=exp(bgtCx-bCx)2+(bgtCy-bCy)2Cw2+Ch2] (4)

        [LIoU=1-IoU] (5)

        通過(guò)構(gòu)造單調(diào)聚焦系數(shù)[L?IoU],將WIoUv2應(yīng)用于WIoUv1,有效降低了損失值中簡(jiǎn)單比例的權(quán)重。但考慮到在模型訓(xùn)練過(guò)程中,[L?IoU]隨著[LIoU]的減小而減小,導(dǎo)致收斂速度較慢,因此引入[LIoU]的平均值來(lái)歸一化[L?IoU]。WIoUv2的公式如式(6)所示:

        [LWIoUv2=L?IoU LIoUγ?LWIoUv1," " " γgt;0] (6)

        WIoUv3定義離群值[β]以衡量錨框的質(zhì)量,基于[β]構(gòu)建非單調(diào)焦點(diǎn)因子[γ],并將[γ]應(yīng)用于WIoUv1。小的[β]值表示高的錨框質(zhì)量,并且較小的[γ]被分配給它,從而降低了高質(zhì)量錨框在較大損失函數(shù)中的權(quán)重。較大的[β]值表示低質(zhì)量的錨框,并為其分配較小的梯度增益,從而減少低質(zhì)量的錨框生成的有害梯度。WIoUv3采用合理的梯度增益分配策略,動(dòng)態(tài)優(yōu)化損失中高質(zhì)量和低質(zhì)量錨框的權(quán)重,使模型聚焦于平均質(zhì)量樣本,提高了模型的整體性能。WIoUv3公式如下所示:

        [LWIoUv3=γ?LWIoUv1] (7)

        [γ=βδαβ-α] (8)

        [β=L?IoU LIoU∈[0,+∞)] (9)

        式中:[δ]和[α]是可以調(diào)整以擬合不同模型的超參數(shù)。

        通過(guò)比較以上幾種主流的損失函數(shù),最終引入了WIoUv3中的對(duì)象包圍盒回歸損失[22]。一方面,WIoUv3兼顧了EIoU和CIoU的一些優(yōu)點(diǎn),符合優(yōu)損函數(shù)的設(shè)計(jì)理念。另一方面,WIoUv3采用動(dòng)態(tài)非單調(diào)機(jī)制來(lái)評(píng)估錨框的質(zhì)量,使模型更加關(guān)注普通質(zhì)量的錨框,提高了模型定位對(duì)象的能力。對(duì)于無(wú)人機(jī)航拍場(chǎng)景中的目標(biāo)檢測(cè)任務(wù),小目標(biāo)的高比例增加了檢測(cè)難度,WIoUv3可以動(dòng)態(tài)優(yōu)化小目標(biāo)的損失權(quán)重,提高模型的檢測(cè)性能。

        3" 實(shí)驗(yàn)結(jié)果與分析

        3.1" 實(shí)驗(yàn)數(shù)據(jù)集

        Mapsai數(shù)據(jù)集是由Spoon Kutlery在2023年7月發(fā)布于Roboflow平臺(tái)的公開(kāi)汽車數(shù)據(jù)集。該數(shù)據(jù)集包含9 357張圖像。其中,8 085張圖像作為訓(xùn)練集,774張圖像作為驗(yàn)證集,398張圖像作為測(cè)試集。將檢測(cè)到的車輛分為9個(gè)類別:小型貨車、野營(yíng)車、汽車、摩托車、小型卡車、大型卡車、拖拉機(jī)、大型貨車和其他車輛。

        3.2" 實(shí)驗(yàn)環(huán)境及參數(shù)配置

        1) 實(shí)驗(yàn)環(huán)境設(shè)置

        本文實(shí)驗(yàn)的硬件環(huán)境:CPU為Intel酷睿i5?13400F十線十六線程、一張NVIDIA GeForce RTX 4060 Ti 16 GB顯卡和2根16 GB內(nèi)存條。操作系統(tǒng)為Windows 10的64位操作系統(tǒng),采用PyTorch 1.11作為深度學(xué)習(xí)框架,CUDA版本為12.3,Python版本為3.8。

        2) 實(shí)驗(yàn)參數(shù)設(shè)置

        在無(wú)人機(jī)航拍圖像識(shí)別訓(xùn)練時(shí),模型的具體參數(shù)設(shè)置如表1所示。

        3.3" 實(shí)驗(yàn)評(píng)價(jià)指標(biāo)

        實(shí)驗(yàn)采用準(zhǔn)確率([P])、召回率([R])、平均精度均值(mAP)、總浮點(diǎn)運(yùn)算量(GFLOPs)和每秒檢測(cè)幀數(shù)(FPS)作為模型性能的評(píng)價(jià)指標(biāo)。浮點(diǎn)運(yùn)算量反映模型的計(jì)算成本,而每秒檢測(cè)幀數(shù)指標(biāo)顯示了模型的運(yùn)行速度。準(zhǔn)確率和召回率用于評(píng)估模型檢測(cè)正類對(duì)象的能力;準(zhǔn)確率為正類中實(shí)際為正類的比例,而召回率則是實(shí)際正類被正確檢測(cè)出的比例。計(jì)算公式如下:

        [P=TPTP+FP] (10)

        [R=TPTP+FN] (11)

        式中:[TP]表示正確識(shí)別出類別的數(shù)量;[FP]表示錯(cuò)誤識(shí)別成其他類別的數(shù)量;[FN]表示未被識(shí)別出類別的數(shù)量。

        [AP=01PRdR] (12)

        [mAP=m=1MAPmM] (13)

        式中:[AP]值為[P]、[R]曲線下包圍的面積;[m=1MAPm]表示所有類別的[AP]值總和;[M]表示表示類別總數(shù)。

        [FPS=1 000t1+t2+t3] (14)

        式中:[t1]為圖像預(yù)處理時(shí)間;[t2]為圖像推理時(shí)間;[t3]為后處理時(shí)間。

        3.4" 消融實(shí)驗(yàn)結(jié)果與分析

        為了驗(yàn)證本文提出的改進(jìn)方法的有效性,使用Mapsai數(shù)據(jù)集對(duì)基準(zhǔn)模型YOLOv8n進(jìn)行了消融實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表2所示。其中[√]表示有加入該模塊,[×]表示沒(méi)有加入該模塊。

        通過(guò)表2的實(shí)驗(yàn)結(jié)果可知,加入C2f?DCNv2可以使模型準(zhǔn)確率、召回率和平均精度都有所提高,并且在不影響FPS的情況下降低了計(jì)算量,但提升效果不是很明顯。SPPF?LSKA模塊可以提高召回率和平均精度,但會(huì)增加計(jì)算量,且準(zhǔn)確率有所降低。引入DyHead檢測(cè)頭,統(tǒng)一多種注意力機(jī)制,召回率和平均精度都有明顯的提升,但在準(zhǔn)確度方面相對(duì)于原碼有所下降。引入WIoUv3損失函數(shù),使得模型更加關(guān)注共性質(zhì)量樣本,提高模型的定位能力,在不增加計(jì)算量和FPS的情況下,對(duì)模型準(zhǔn)確率、召回率和平均精度都有提升。最后將各個(gè)模塊結(jié)合起來(lái),使得模型的準(zhǔn)確率、召回率和平均精度分別提升了5.1%、6.1%和5.1%,并且FPS達(dá)到了88.2 f/s,仍然滿足實(shí)時(shí)檢測(cè)的需求,證明了改進(jìn)算法在無(wú)人機(jī)航拍圖像小目標(biāo)檢測(cè)中有很好的效果。

        3.5" 不同網(wǎng)絡(luò)對(duì)比實(shí)驗(yàn)結(jié)果與分析

        為了證明本文改進(jìn)算法模型的優(yōu)越性和有效性,將新提出的YOLOv8n算法和業(yè)內(nèi)具有影響力的模型進(jìn)行了對(duì)比,包括YOLOv7n、YOLOv6m、YOLOv5n、YOLOX?s、YOv3n、SSD、Faster?RCNN和RetinaNet。對(duì)比實(shí)驗(yàn)結(jié)果如表3所示。

        由對(duì)比實(shí)驗(yàn)結(jié)果可知,相較于同等規(guī)格的模型,本文改進(jìn)算法在準(zhǔn)確率、召回率、平均精度上均達(dá)到了最佳效果。與輕量級(jí)算法YOLOv5n相比,改進(jìn)算法有著更好的性能,而且計(jì)算量和檢測(cè)速度相差不大。改進(jìn)算法雖然相比原始的YOLOv8n算法FPS稍微降低,但是改進(jìn)算法相較于原始YOLOv8n的準(zhǔn)確率、召回率、平均精度均有提升,并且對(duì)比其他算法,結(jié)合各項(xiàng)指標(biāo)來(lái)看,改進(jìn)算法的綜合性能最好,顯現(xiàn)出改進(jìn)算法的明顯優(yōu)越性。

        為了直觀地展現(xiàn)本文改進(jìn)算法的檢測(cè)效果,使用Improve?YOLOv8和YOLOv8n進(jìn)行可視化對(duì)比實(shí)驗(yàn)。本文選擇了三種代表性場(chǎng)景,公共設(shè)施場(chǎng)所、城市道路、交通路口作為實(shí)驗(yàn)數(shù)據(jù)。這些場(chǎng)景包含大量不同的小對(duì)象,適合進(jìn)行推理實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如圖8所示,對(duì)比YOLOV8n,本文改進(jìn)算法Improve?YOLOv8明顯改善了漏檢和誤檢情況的發(fā)生,提高了無(wú)人機(jī)航拍圖像中小目標(biāo)的檢測(cè)精度。

        3.6" 改進(jìn)網(wǎng)絡(luò)在VisDrone2019數(shù)據(jù)集實(shí)現(xiàn)效果

        為了能充分驗(yàn)證本文改進(jìn)方法的適用性和魯棒性,在VisDrone2019數(shù)據(jù)集上進(jìn)行對(duì)比實(shí)驗(yàn)。

        VisDrone2019數(shù)據(jù)集是由天津大學(xué)的機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘?qū)嶒?yàn)室創(chuàng)建和發(fā)布的,主要用于推動(dòng)無(wú)人機(jī)視覺(jué)感知的研究進(jìn)展。由于VisDrone2019數(shù)據(jù)集中的目標(biāo)尺寸普遍較小,并且類別分布不均勻,這為算法的精確性和魯棒性帶來(lái)了額外的挑戰(zhàn)。因此,該數(shù)據(jù)集不僅適用于測(cè)試和改進(jìn)現(xiàn)有的計(jì)算機(jī)視覺(jué)算法,也是評(píng)估新算法在處理實(shí)際、復(fù)雜場(chǎng)景有效性的重要工具。算法改進(jìn)前后在VisDrone2019數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果如表4所示。

        由實(shí)驗(yàn)結(jié)果可知,改進(jìn)算法在VisDrone2019數(shù)據(jù)集上準(zhǔn)確率、召回率、平均精度分別提升了2.3%、4.3%和4.2%,表現(xiàn)出良好的檢測(cè)性能,說(shuō)明了本文改進(jìn)方法具有良好的適用性和魯棒性,具有實(shí)際應(yīng)用潛力。

        4" 結(jié)" 論

        針對(duì)無(wú)人機(jī)航拍場(chǎng)景目標(biāo)檢測(cè)任務(wù)中存在小目標(biāo)比例高、背景復(fù)雜、硬件資源有限等問(wèn)題,大多數(shù)現(xiàn)有模型的檢測(cè)精度較差,并且難以在檢測(cè)性能和資源消耗之間實(shí)現(xiàn)平衡,為了在考慮平臺(tái)資源消耗的同時(shí)優(yōu)化模型的檢測(cè)性能,本文在YOLOv8的基礎(chǔ)上提出了一種無(wú)人機(jī)航拍場(chǎng)景目標(biāo)檢測(cè)模型Improve?YOLOv8。首先,在頭部使用新的C2f?DCNv2,提高骨干網(wǎng)絡(luò)適應(yīng)不規(guī)則空間結(jié)構(gòu)的能力,增強(qiáng)模型對(duì)遮擋重疊小目標(biāo)的檢測(cè)能力;其次,利用具有長(zhǎng)程依賴性和自適應(yīng)能力的SPPF?LSKA模塊有效減少背景對(duì)于車輛檢測(cè)的干擾;此外,使用DyHead檢測(cè)頭將尺度、空間和任務(wù)三種注意力機(jī)制結(jié)合統(tǒng)一,使模型更加專注小目標(biāo);最后,引入WIoUv3損失函數(shù),該函數(shù)引入了動(dòng)態(tài)樣本分配策略,有效降低了模型對(duì)極端樣本的關(guān)注,提高了整體性能。在Mapsai數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果中,改進(jìn)后的Improve?YOLOv8算法對(duì)比YOLOv8n算法,在平均精度上提高了5.1%,表現(xiàn)出良好的檢測(cè)性能,驗(yàn)證了改進(jìn)算法的有效性。

        在未來(lái)任務(wù)中,將探討如何在保持模型準(zhǔn)確性的情況下加快推理速度。

        參考文獻(xiàn)

        [1] 袁成,董曉琳,朱超磊.2020年國(guó)外先進(jìn)軍用無(wú)人機(jī)技術(shù)發(fā)展綜述[J].飛航導(dǎo)彈,2021(1):17?24.

        [2] 江波,屈若錕,李彥冬,等.基于深度學(xué)習(xí)的無(wú)人機(jī)航拍目標(biāo)檢測(cè)研究綜述[J].航空學(xué)報(bào),2021,42(4):137?151.

        [3] LIU Z M, GAO G Y, SUN L, et al. HRDNet: High?resolution detection network for small objects [C]// Proceedings of the 2021 IEEE International Conference on Multimedia and Expo (ICME). New York: IEEE, 2021: 1?6.

        [4] FANG Q F, HAN D, WANG Z K. Cross?modality fusion transformer for multispectral object detection [EB/OL]. [2021?10?30]. https://api.semanticscholar.org/CorpusID:240354438.

        [5] LI Y, YUAN H, WANG Y, et al. GGT?YOLO: A novel object detection algorithm for drone?based maritime cruising [J]. Drones, 2022, 6: 335.

        [6] ZHOU H, MA A, NIU Y, et al. Small?object detection for UAV?based images using a distance metric method [J]. Drones, 2022, 6: 308.

        [7] LIU M J, WANG X H, ZHOU A J, et al. UAV?YOLO: Small object detection on unmanned aerial vehicle perspective [J]. Sensors, 2020, 20(8): 2238.

        [8] LIANG X, ZHANG J, ZHUO L, et al. Small object detection in unmanned aerial vehicle images using feature fusion and scaling?based single shot detector with spatial context analysis [J]. IEEE transactions on circuits and systems for video technology, 2020, 30(6): 1758?1770.

        [9] REDMON J, DIVVALA S K, GIRSHICK R B, et al. You only look once: Unified, real?time object detection [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2016: 779?788.

        [10] GE Z, LIU S T, WANG F, et al. YOLOX: Exceeding YOLO series in 2021 [EB/OL]. [2022?04?05]. https://arxiv.org/abs/2107.08430.

        [11] LI C Y, LI L L, JIANG H L, et al. YOLOv6: A single?stage object detection framework for industrial applications [EB/OL]. [2024?03?09]. https://doi.org/10.48550/arXiv.2209.02976.

        [12] WANG C Y, BOCHKOVSKIY A, LIAO H Y M. YOLOv7: Trainable bag?of?freebies sets new state?of?the?art for real?time object detectors [EB/OL]. [2023?09?30]. https://doi.org/10.48550/arXiv.2207.02696.

        [13] REDMON J, FARHADI A. YOLOv3: An incremental improvement [EB/OL]. [2018?08?13]. http://arxiv.org/abs/1804.02767.

        [14] LIU S, QI L, QIN H F, et al. Path aggregation network for instance segmentation [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2018: 8759?8768.

        [15] LI X, WANG W H, WU L J, et al. Generalized focal loss: Learning qualified and distributed bounding boxes for dense object detection [EB/OL]. [2022?04?07]. https://arxiv.org/abs/2006.04388.

        [16] ZHENG Z H, WANG P, LIU W, et al. Distance?IoU loss: Faster and better learning for bounding box regression [C]// Proceedings of the AAAI Conference on Artificial Intelligence. [S.l.]: AAAI, 2020: 12993?13000.

        [17] FENG C, ZHONG Y, GAO Y, et al. TOOD: Task?aligned one?stage object detection [C]// Proceedings of the 2021 IEEE International Conference on Computer Vision (ICCV). New York: IEEE, 2021: 3490?3499.

        [18] 程換新,喬慶元,駱曉玲,等.基于改進(jìn)YOLOv8的無(wú)人機(jī)航拍圖像目標(biāo)檢測(cè)算法[J].無(wú)線電工程,2024,54(4):871?881.

        [19] 史濤,崔杰,李松.優(yōu)化改進(jìn)YOLOv8實(shí)現(xiàn)實(shí)時(shí)無(wú)人機(jī)車輛檢測(cè)的算法[J].計(jì)算機(jī)工程與應(yīng)用,2024,60(9):79?89.

        [20] LAU K W, PO L M, REHMAN Y A U. Large separable kernel attention: Rethinking the large kernel attention design in CNN [EB/OL]. [2023?09?11]. https://doi.org/10.48550/arXiv.2309. 01439.

        [21] DAI X, CHEN Y, XIAO B, et al. Dynamic head: Unifying object detection heads with attentions [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2021: 7369?7378.

        [22] TONG Z J, CHEN Y H, XU Z W, et al. Wise?IoU: Bounding box regression loss with dynamic focusing mechanism [EB/OL]. [2023?01?26]. https://doi.org/10.48550/arXiv.2301.10051.

        [23] HU H, GU J Y, ZHANG Z, et al. Relation networks for object detection [C]// IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2018: 3588?3597.

        [24] ZHU X Z, HU H, LIN S, et al. Deformable ConvNets V2: More deformable, better results [C]// 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE, 2019: 9308?9316.

        [25] 韓強(qiáng).面向小目標(biāo)檢測(cè)的改進(jìn)YOLOv8算法研究[D].長(zhǎng)春:吉林大學(xué),2023.

        [26] DAI J F, QI H Z, XIONG Y W, et al. Deformable convolutional networks [C]// 2017 IEEE International Conference on Computer Vision (ICCV). New York: IEEE, 2017: 764?773.

        [27] 韓鎮(zhèn)洋,王先蘭.一種改進(jìn)YOLOv5的小目標(biāo)檢測(cè)算法[J].電子設(shè)計(jì)工程,2023,31(19):64?67.

        作者簡(jiǎn)介:冉險(xiǎn)生(1971—),男,重慶人,博士研究生,副教授,主要從事摩托車動(dòng)力學(xué)、計(jì)算機(jī)視覺(jué)研究。

        劉圣斌(1999—),男,江西贛州人,碩士研究生,主要從事機(jī)器視覺(jué)、圖像處理技術(shù)研究。

        收稿日期:2024?05?22" " " " " "修回日期:2024?06?13

        猜你喜歡
        小目標(biāo)目標(biāo)檢測(cè)注意力機(jī)制
        基于深度學(xué)習(xí)的問(wèn)題回答技術(shù)研究
        基于LSTM?Attention神經(jīng)網(wǎng)絡(luò)的文本特征提取方法
        基于注意力機(jī)制的雙向LSTM模型在中文商品評(píng)論情感分類中的研究
        軟件工程(2017年11期)2018-01-05 08:06:09
        InsunKBQA:一個(gè)基于知識(shí)庫(kù)的問(wèn)答系統(tǒng)
        視頻中目標(biāo)檢測(cè)算法研究
        軟件(2016年4期)2017-01-20 09:38:03
        行為識(shí)別中的人體運(yùn)動(dòng)目標(biāo)檢測(cè)方法
        刷爆朋友圈的“小目標(biāo)”真的有用嗎
        月入兩萬(wàn)元的家庭,如何制定理財(cái)“小目標(biāo)”
        移動(dòng)機(jī)器人圖像目標(biāo)識(shí)別
        田溯寧的安全“小目標(biāo)”
        国产精品女同二区五区九区 | 熟妇人妻中文av无码| 在线精品日韩一区二区三区| 成人精品国产亚洲av久久| 国产女同va一区二区三区| 国精产品一区一区三区有限公司杨 | 亚洲综合网在线观看首页| 区一区一日本高清视频在线观看 | 成人看片黄a免费看那个网址| 一本大道久久a久久综合| 日韩精品一区二区三区视频| 国产毛片av最新视频| 国产精品免费精品自在线观看| 国产色噜噜| 国产精品女人一区二区三区| 免费久久99精品国产| 国产亚洲精品bt天堂精选| 亚洲中文欧美日韩在线人| 国产成人av一区二区三| 国产成人精品免费久久久久 | 高潮毛片无遮挡高清视频播放| 日本丰满人妻xxxxxhd| 久久与欧美视频| 久久精品免费视频亚洲| 国产又爽又大又黄a片| 欧美性猛交xxxx乱大交蜜桃| 福利一区二区三区视频在线| av网站在线观看亚洲国产| 亚洲国产成人片在线观看无码 | 国产精品日韩av一区二区三区| 任我爽精品视频在线播放| 亚洲综合久久久| 国产一区二区av在线观看| 久久综合噜噜激激的五月天| 黄色视频免费在线观看| 国产精品国产自线拍免费| 免费在线国产不卡视频| 人人妻人人狠人人爽| 久久综合网天天 | 国产一区二区三区不卡在线播放 | 女人脱了内裤趴开腿让男躁|