摘" 要: 在無(wú)人機(jī)航拍圖像中,車輛目標(biāo)較小,尺度變化大,背景復(fù)雜且分布密集,導(dǎo)致精度過(guò)低的問(wèn)題。因此,提出一種基于改進(jìn)的YOLOv5的無(wú)人機(jī)航拍圖像車輛目標(biāo)檢測(cè)算法。增加小目標(biāo)檢測(cè)層,減少小目標(biāo)特征丟失,從而提高小目標(biāo)檢測(cè)精度;設(shè)計(jì)了一個(gè)名為DAC的新特征提取模塊,它融合了標(biāo)準(zhǔn)卷積、可變形卷積和通道空間注意力機(jī)制,旨在增強(qiáng)模型對(duì)車輛尺度變化的感知能力,并讓模型聚焦于復(fù)雜背景下的車輛目標(biāo);將損失函數(shù)更改為Focal?EIoU,以加速模型收斂速度,同時(shí)提高小目標(biāo)車輛的檢測(cè)精度。使用Soft?NMS代替YOLOv5中采用的非極大值抑制,從而改善目標(biāo)密集場(chǎng)景下的漏檢和誤檢情況。在VisDrone2019數(shù)據(jù)集上進(jìn)行了消融實(shí)驗(yàn)、對(duì)比實(shí)驗(yàn)和結(jié)果可視化。改進(jìn)后的模型平均精度(mAP)比基線模型提高了8.4%,參數(shù)量和GFLOPs僅增加了4.8%和3.79%,驗(yàn)證了改進(jìn)策略的有效性和優(yōu)越性。
關(guān)鍵詞: 無(wú)人機(jī)圖像; 車輛檢測(cè); 小目標(biāo)檢測(cè); 可變形卷積; 損失函數(shù); 非極大值抑制
中圖分類號(hào): TN911.73?34; TP391" " " " " " " " " 文獻(xiàn)標(biāo)識(shí)碼: A" " " " " " nbsp; " " "文章編號(hào): 1004?373X(2024)23?0138?09
Deformable ConvNets and attention based object detection algorithm
for vehicles in UAV aerial photography
LIANG Gang1, ZHAO Liangjun1, NING Feng2, XI Yubin1, HE Zhongliang1
(1. School of Computer Science and Engineering, Sichuan University of Science amp; Engineering, Yibin 644000, China;
2. School of Automation and Information Engineering, Sichuan University of Science amp; Engineering, Yibin 644000, China)
Abstract: In UAV aerial images, the vehicles (the objects) are small, the scale changes greatly, and the background is complex and distributed densely, which results in low accuracy. Therefore, an improved YOLOv5 based object detection algorithm for vehicles in UAV aerial images is proposed. A small object detection layer is added to reduce the feature loss of small objects, so as to improve the accuracy of small object detection. A new feature extraction module called DAC, which combines standard convolution, deformable ConvNet (DCN) and channel space attention mechanism, is designed, which aims to enhance the model′s perception of changes in vehicle scale and allow the model to focus on vehicles (the objects) under complex backgrounds. The loss function is changed to Focal?EIoU to speed up the convergence of the model and improve the detection accuracy of small vehicles (the objects). The Soft?NMS is used to replace the non?maximum suppression used in YOLOv5, so as to improve missed detections and 1 detections in scenarios with dense objects. Ablation experiments, comparison experiments and result visualization are conducted on the VisDrone2019 data set. The mean average precision (mAP) of the improved model is 8.4% higher than that of the baseline model, and its number of parameters and GFLOPs are only increased by 4.8% and 3.79%. The effectiveness and superiority of the improved strategy are verified.
Keywords: UAV image; vehicle detection; small object detection; DCN; loss function; non?maximum suppression
0" 引" 言
近年來(lái),無(wú)人機(jī)技術(shù)迅猛發(fā)展,其輕巧、快速、便捷的特點(diǎn)[1],常用于林業(yè)和農(nóng)作物檢測(cè)[2]、交通管理[3]、城市規(guī)劃[4]、市政管理[5]、輸電線路檢查[6]、搜救等領(lǐng)域[7]。無(wú)人機(jī)在交通監(jiān)測(cè)和管理方面的應(yīng)用主要集中在通過(guò)航拍提供實(shí)時(shí)交通信息,有助于管理者更好地了解交通流量、車輛分布以及交通擁堵情況[8]。目前,獲取車輛數(shù)據(jù)的常用手段包括感應(yīng)線圈、壓電式檢測(cè)器和地面攝像頭等傳感器設(shè)備。然而,這些設(shè)備成本高,安裝和維護(hù)困難,并且難以進(jìn)行靈活調(diào)整。相比之下,搭載傳感器的無(wú)人機(jī)航空平臺(tái)更加靈活和高效。
基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的目標(biāo)檢測(cè)方法不斷被提出,取得了優(yōu)異的檢測(cè)效果。根據(jù)輸入圖像的處理方式,有兩種類型的對(duì)象檢測(cè)方法:兩階段方法和一階段方法。Fast R?CNN[9]、Faster R?CNN[10]和Mask R?CNN[11]等為兩階段方法,這類方法具有較高的精度,但提取大量候選區(qū)域?qū)е绿幚硇实拖虑彝评硭俣容^慢;YOLO(You Only Look Once)[12]系列和SSD(Single Shot MultiBox Detector)[13]系列等為一階段方法,這類方法大幅降低了檢測(cè)時(shí)間,但精度方面可能受到一定的影響。
現(xiàn)有的檢測(cè)方法難以準(zhǔn)確定位和檢測(cè)無(wú)人機(jī)航拍圖像上的目標(biāo),還有很大的改進(jìn)空間。文獻(xiàn)[14]在YOLOv5l的基礎(chǔ)上做了一些改進(jìn),提出了使用非對(duì)稱卷積的三個(gè)特征提取模塊。它們分別被命名為非對(duì)稱ResNet(ASResNet)模塊、非對(duì)稱增強(qiáng)特征提?。ˋEFE)模塊和非對(duì)稱Res2Net(ASRes2Net)模塊,對(duì)YOLOv5主干中不同位置的殘差塊進(jìn)行了相應(yīng)的替換。在Focus之后增加了IECA模塊,并使用GSPP替代SPP模塊。此外,采用K?Means++算法獲得更準(zhǔn)確的anchor box,并采用新的EIoU?NMS方法提高模型的后處理能力。文獻(xiàn)[15]提出的UN?YOLOv5s算法可以很好地解決小目標(biāo)檢測(cè)的難題,采用更精準(zhǔn)的小目標(biāo)檢測(cè)(MASD)機(jī)制,大幅提高中小目標(biāo)的檢測(cè)精度,結(jié)合多尺度特征融合(MCF)路徑,融合圖像的語(yǔ)義信息和位置信息,提高中小目標(biāo)的檢測(cè)精度,引入新的卷積SimAM殘差(CSR)模塊,使網(wǎng)絡(luò)更加穩(wěn)定和集中。文獻(xiàn)[16]在YOLOv7算法上進(jìn)行了一些改進(jìn),去除第二個(gè)下采樣層和最深的檢測(cè)頭,以減少模型的感受野并保留細(xì)粒度的特征信息,引入DpSPPF模塊,利用級(jí)聯(lián)的小尺寸最大池化層和深度可分離卷積來(lái)更有效地提取不同尺度的特征信息,并對(duì)K?means算法進(jìn)行優(yōu)化,最后利用加權(quán)歸一化高斯Wasserstein距離(NWD)和交并化(IoU)作為正樣本分配和負(fù)樣本分配的指標(biāo)。
無(wú)人機(jī)拍攝交通道路圖像中的車輛目標(biāo)較小,尺度變化大,分布密集。容易出現(xiàn)錯(cuò)檢、漏檢情況,并且對(duì)于復(fù)雜背景下車輛目標(biāo)的特征信息提取能力不足,導(dǎo)致檢測(cè)精度較低。針對(duì)上述問(wèn)題,考慮到無(wú)人機(jī)圖像的特點(diǎn),提出了一種改進(jìn)YOLOv5的無(wú)人機(jī)航拍圖像車輛目標(biāo)檢測(cè)算法。改進(jìn)的工作如下。
1) 增加小目標(biāo)檢測(cè)層,引入P2檢測(cè)層以獲取更多小目標(biāo)的特征信息,能顯著提高小目標(biāo)車輛的檢測(cè)精度,并使用K?means聚類算法重新生成4組先驗(yàn)框。
2) 設(shè)計(jì)了DAC結(jié)構(gòu),即在C3模塊中用可變形卷積(Deformable ConvNet v2)[17]替換一個(gè)原有的標(biāo)準(zhǔn)卷積,并加入CBAM(Convolutional Block Attention Module)[18],以加強(qiáng)模型對(duì)不同車輛尺度變化的感知能力和聚焦于復(fù)雜背景下的車輛目標(biāo)。
3) 使用Focal?EIoU(Focal and Efficient IoU Loss)[19]作為模型的邊界框損失函數(shù),以加速模型收斂速度并提高檢測(cè)精度。
4) 將基線模型的非極大值抑制改為Soft?NMS[20],以改善在密集場(chǎng)景中容易出現(xiàn)的錯(cuò)檢和漏檢問(wèn)題。
1" 改進(jìn)YOLOv5算法
YOLOv5是目前比較主流的一階段檢測(cè)方法,它包含五個(gè)不同大小的模型,分別是:YOLOv5n、YOLOv5s、YOLOv5m、YOLOv5l、YOLOv5x。隨著模型深度的增加,檢測(cè)精度有所提升,但相應(yīng)檢測(cè)速度會(huì)下降。本文以YOLOv5s作為基線模型,增加小目標(biāo)檢測(cè)層、改進(jìn)骨干網(wǎng)絡(luò)和使用Focal?EIoU作為邊界框損失函數(shù),以及使用Soft?NMS代替NMS。改進(jìn)后的網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
1.1" 增加P2檢測(cè)層
無(wú)人機(jī)從空中拍攝的圖像中車輛目標(biāo)的像素較小,YOLOv5在Backbone部分進(jìn)行多次下采樣過(guò)程能獲得更多語(yǔ)義信息,但也丟失了大量的詳細(xì)特征信息,導(dǎo)致小目標(biāo)的檢測(cè)精度過(guò)低。為了增強(qiáng)對(duì)小目標(biāo)車輛的特征提取能力,本文在保持其他特征圖尺寸不變的情況下,在Neck部分添加了一個(gè)分辨率為160×160的P2小目標(biāo)檢測(cè)層,如圖1虛線框所示。該層有兩部分輸入,一部分是Backbone中的C3模塊進(jìn)行卷積后得到160×160的特征圖,另一部分是對(duì)原Neck中80×80的特征圖進(jìn)行卷積和上采樣操作后的160×160擴(kuò)展特征圖。通過(guò)C3模塊融合這兩部分特征圖,得到包含豐富位置信息的特征圖。P2、P3、P4、P5檢測(cè)層分別對(duì)應(yīng)了4倍、8倍、16倍、32倍下采樣的特征圖,而4倍特征圖的感受野較小,其特征圖中包含了大量小目標(biāo)的紋理特征和更多的細(xì)節(jié)信息,因此能最大程度保留小目標(biāo)的特征。
盡管新增的P2檢測(cè)層會(huì)增加網(wǎng)絡(luò)的參數(shù)和計(jì)算量,但為了增強(qiáng)對(duì)小目標(biāo)車輛的精確檢測(cè),這仍然是可以接受的。由于本文采用的數(shù)據(jù)集小目標(biāo)眾多,寬高比例較小,因此在訓(xùn)練之前利用K?means聚類算法生成了一組更匹配數(shù)據(jù)集的先驗(yàn)框,如表1所示。
1.2" DAC模塊設(shè)計(jì)
1.2.1" DCNv2模塊
在無(wú)人機(jī)圖像車輛目標(biāo)檢測(cè)中,車輛的尺度會(huì)隨著車輛的種類不同而變化,在特征提取階段僅僅使用標(biāo)準(zhǔn)卷積會(huì)導(dǎo)致目標(biāo)定位準(zhǔn)確性下降,容易產(chǎn)生誤檢。
為了彌補(bǔ)無(wú)人機(jī)視角下車輛目標(biāo)檢測(cè)網(wǎng)絡(luò)中標(biāo)準(zhǔn)卷積的不足,在特征提取階段引入了DCNv2。相較于標(biāo)準(zhǔn)卷積,DCNv2通過(guò)引入可學(xué)習(xí)的形變參數(shù),賦予了模型更強(qiáng)的感受野調(diào)整能力,使其能夠根據(jù)目標(biāo)的實(shí)際形狀和尺度動(dòng)態(tài)調(diào)整感受野,從而更靈活地捕捉各種車輛目標(biāo)的形狀特征,從而降低誤檢的風(fēng)險(xiǎn)。
可變形卷積(Deformable ConvNet, DCN)是一種改進(jìn)的卷積操作,其核心思想是引入偏移量來(lái)動(dòng)態(tài)調(diào)整卷積核的形狀,以更靈活地捕捉輸入特征的相關(guān)信息。DCNv2是DCN的進(jìn)一步改進(jìn)版本,通過(guò)學(xué)習(xí)偏移和加權(quán),提高了模型對(duì)無(wú)人機(jī)圖像中的車輛多尺度特征提取能力。DCNv2有兩個(gè)關(guān)鍵步驟:首先,通過(guò)卷積操作生成卷積核在輸入特征圖上沿[x]和[y]方向的采樣點(diǎn)偏移量;其次,利用輸入特征圖和計(jì)算得到的偏移量進(jìn)行雙線性插值,確定卷積核在輸入特征圖上的采樣點(diǎn)位置。其結(jié)構(gòu)如圖2所示。
DCNv2對(duì)網(wǎng)絡(luò)的參數(shù)量和計(jì)算復(fù)雜度沒(méi)有很明顯的影響,但在實(shí)際中大量使用可變形卷積會(huì)增加模型的訓(xùn)練時(shí)間。為了讓模型在高效性能和有效性之間取得平衡,本文僅將骨干網(wǎng)絡(luò)的C3瓶頸模塊(Bottleneck)中的3×3標(biāo)準(zhǔn)卷積替換成DCNv2。
1.2.2" CBAM模塊
無(wú)人機(jī)圖像車輛檢測(cè)任務(wù)中,無(wú)人機(jī)拍攝的角度較廣導(dǎo)致大量復(fù)雜背景的干擾,車輛目標(biāo)特征的表示變得不明顯。為了解決這一問(wèn)題,引入CBAM注意力機(jī)制,讓網(wǎng)絡(luò)更聚焦于所需檢測(cè)的目標(biāo)。該注意力由兩部分組成,即通道注意力模塊和空間注意力模塊,其結(jié)構(gòu)如圖3所示。
復(fù)雜背景中的目標(biāo)往往具有較低的信噪比和較弱的表現(xiàn)形式,使得它們難以被常規(guī)的特征提取方式捕捉到。CBAM通過(guò)對(duì)特征圖進(jìn)行通道注意力和空間注意力的加權(quán)處理,來(lái)提升網(wǎng)絡(luò)對(duì)重要特征的關(guān)注和提取能力。
1.2.3" DAC模塊
由于無(wú)人機(jī)圖像中車輛尺度的變化,且容易混雜在復(fù)雜背景中,DCNv2和CBAM的融合有助于提高模型對(duì)車輛目標(biāo)的檢測(cè)準(zhǔn)確性,減少漏檢和誤檢的風(fēng)險(xiǎn)。因此,將DCNv2和CBAM模塊一起融合到C3模型的Bottleneck中,形成新的瓶頸模塊(DACBottleneck)和DAC模塊,其結(jié)構(gòu)如圖4和圖5所示。
1.3" Focal?EIoU
YOLOv5采用的損失函數(shù)分為邊界框損失、置信度損失和分類損失函數(shù)。計(jì)算公式如式(1)所示:
[L=Lobj+Lcls+Lbbox] (1)
式中:[Lobj]是目標(biāo)的置信度損失函數(shù);[Lcls]是分類損失函數(shù);[Lbbox]是邊界框損失函數(shù)。
YOLOv5使用的邊界框損失函數(shù)通過(guò)CIoU損失函數(shù)來(lái)計(jì)算,其公式如下所示:
[LCIoU=1-IoU+ρ2(b,bgt)c2+v1-IoU+vv] (2)
[v=4π2arctanwgthgt-arctanwh2] (3)
式中:[b]、[bgt]分別表示預(yù)測(cè)框和真實(shí)框的中心點(diǎn);[ρ]代表計(jì)算兩個(gè)框中心點(diǎn)的歐氏距離;[c]表示兩個(gè)框的最小方框的對(duì)角線距離;[wgt]和[w]分別代表真實(shí)框和預(yù)測(cè)框的寬度;[hgt]和[h]分別代表真實(shí)框和預(yù)測(cè)框的高度。
從式(2)、式(3)中可知,CIoU綜合考慮了預(yù)測(cè)框與真實(shí)框的重疊面積、中心距離、寬高比三種要素,但它是通過(guò)[v]來(lái)反映預(yù)測(cè)框和真實(shí)框的寬高比,而不是計(jì)算兩者寬高的真實(shí)差異,所以有時(shí)會(huì)阻礙檢測(cè)框的回歸。因此,本文使用將預(yù)測(cè)框與真實(shí)框的歐氏距離平方作為懲罰項(xiàng)的Focal?EIoU邊界損失函數(shù)來(lái)代替CIoU,該損失函數(shù)由Focal和EIoU組合而成。EIoU的公式如式(4)~式(7)所示:
[LEIoU=LIoU+Ldis+Lasp] (4)
[LIoU=1-IoU] (5)
[Ldis=ρ2(b,bgt)c2] (6)
[Lasp=ρ2(w,wgt)C2w+ρ2(h,hgt)C2h] (7)
式中:[c]、[w]、[h]、[wgt]、[hgt]、[ρ]和CIoU損失函數(shù)的含義一致;[Cw]表示覆蓋預(yù)測(cè)框和真實(shí)框的最小外接框的寬;[Ch]為覆蓋預(yù)測(cè)框和真實(shí)框的最小外接框的高。從上述式子可以看出,EIoU通過(guò)減小預(yù)測(cè)框和真實(shí)框?qū)捀呱系牟町?,讓模型收斂速度更快且定位更?zhǔn)確,它將損失分為三部分:重疊程度損失[LIoU];中心的損失[Ldis];預(yù)測(cè)框與真實(shí)框邊長(zhǎng)損失[Lasp]。
在單張樣本圖像中,回歸誤差小的錨框數(shù)量明顯少于誤差大的錨框數(shù)量。由于質(zhì)量較差的錨框會(huì)導(dǎo)致較大的梯度,這直接影響了模型的訓(xùn)練效果。為了應(yīng)對(duì)這種不平衡情況,通過(guò)在EloU的基礎(chǔ)上引入Focal Loss,旨在將高質(zhì)量的錨框和低質(zhì)量的錨框在訓(xùn)練中分開(kāi),以更有效地處理不同質(zhì)量的目標(biāo)框。計(jì)算公式如式(8)所示:
[LFocal?EIoU=IoUγLEIoU] (8)
式中[γ]為抑制異常的超參數(shù)。Focal?EIoU減小了簡(jiǎn)單樣本的權(quán)重,讓模型更關(guān)注預(yù)測(cè)框和真實(shí)框重疊低的樣本,從而提高回歸的精度。
1.4" Soft?NMS
YOLOv5使用的NMS算法是直接根據(jù)置信度的大小來(lái)刪除得分低的預(yù)選框,保留置信度高的預(yù)選框,如式(9)所示:
[Si=0," "IoU(M,bi)≥NtKi," "IoU(M,bi)lt;Nt] (9)
式中:[Si]是算法算出的第[i]個(gè)檢測(cè)框得分;[Ki]是各個(gè)目標(biāo)的邊界框置信度得分;[Nt]是設(shè)置的閾值;[M]代表置信度最大的檢測(cè)框;[bi]代表第[i]個(gè)檢測(cè)框。由式(9)可知,通過(guò)[bi]和[M]的交并比進(jìn)行比較,如果大于閾值,則會(huì)直接刪除[bi]。
對(duì)于無(wú)人機(jī)航拍的圖像而言,會(huì)存在許多車輛目標(biāo)密集的場(chǎng)景,因?yàn)闊o(wú)人機(jī)拍攝視角較高、較廣,導(dǎo)致車輛目標(biāo)間的間距縮小使得密集的情況更為嚴(yán)重。傳統(tǒng)NMS通常只關(guān)注檢測(cè)框的重疊度,以及抑制與目標(biāo)檢測(cè)框重疊較高的非目標(biāo)檢測(cè)框,然而,在某些情況下,這些非目標(biāo)檢測(cè)框可能是另一個(gè)目標(biāo)的一部分,進(jìn)而導(dǎo)致目標(biāo)遺漏。此外,NMS會(huì)直接刪除置信度較低的檢測(cè)框,導(dǎo)致原本有效的單個(gè)目標(biāo)被忽略,從而引發(fā)誤檢和漏檢的問(wèn)題,尤其是小目標(biāo)。
本文用柔性非極大值抑制算法(Soft?NMS)替換原基線模型中的NMS,Soft?NMS算法與傳統(tǒng)NMS的不同之處在于,它在計(jì)算重疊程度時(shí)不是簡(jiǎn)單的二值化閾值,而是使用一種類似高斯函數(shù)的方式,將重疊程度轉(zhuǎn)化為一個(gè)在0~1之間的實(shí)數(shù),然后根據(jù)這個(gè)實(shí)數(shù)對(duì)所有預(yù)測(cè)框進(jìn)行排序。在抑制過(guò)程中,不再直接抑制與基準(zhǔn)框重疊度高的框,而是根據(jù)重疊程度計(jì)算一個(gè)權(quán)重,對(duì)所有預(yù)測(cè)框進(jìn)行加權(quán)求和,最終得到加權(quán)和最高的框。該方法能夠緩解目標(biāo)密集情況下檢測(cè)框處理方式不夠細(xì)膩導(dǎo)致的漏檢或誤檢的問(wèn)題。此外,在訓(xùn)練過(guò)程中采用NMS方法,僅在推理過(guò)程中使用Soft?NMS,這樣就不會(huì)增加模型的計(jì)算量。Soft?NMS的高斯加權(quán)方式如式(10)所示:
[S*i=Sie-IoU(M,bi)σ," " " "?bi?D] (10)
式中:[S*i]表示加權(quán)后的得分;[Si]表示第[i]個(gè)檢測(cè)框得分;[M]和[bi]與NMS式中的含義一致;[σ]表示標(biāo)準(zhǔn)差。
2" 實(shí)驗(yàn)與結(jié)果分析
2.1" 實(shí)驗(yàn)環(huán)境與數(shù)據(jù)集
如表2所示,給出了實(shí)驗(yàn)環(huán)境和實(shí)驗(yàn)中設(shè)置的一些統(tǒng)一的參數(shù)準(zhǔn)則。若文中沒(méi)有特殊的說(shuō)明,則默認(rèn)使用表中的參數(shù)設(shè)置。
本文使用由天津大學(xué)機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘?qū)嶒?yàn)室AiskYeye團(tuán)隊(duì)收集的VisDrone2019[21]數(shù)據(jù)集。VisDrone2019數(shù)據(jù)集包含288個(gè)視頻片段、261 908幀和10 209幅靜態(tài)圖像,大約有540 000個(gè)標(biāo)注信息。該數(shù)據(jù)集包含日常生活中的10個(gè)場(chǎng)景類別,分別為行人(pedestrian)、人(people)、自行車(bicycle)、汽車(car)、面包車(van)、卡車(truck)、三輪車(tricycle)、遮陽(yáng)篷三輪車(awning?tricycle)、公共汽車(bus)和摩托車(motor)。
由于本文應(yīng)用主要集中在交通監(jiān)測(cè)和管理方面,所以只提取了car、van、truck、bus四個(gè)主要出現(xiàn)在道路上的車輛類別進(jìn)行檢測(cè)。為了提升檢測(cè)效果,本文對(duì)數(shù)據(jù)集進(jìn)行了擴(kuò)充,應(yīng)用加噪聲、平移、裁剪等數(shù)據(jù)增廣的方式,具體效果如圖6所示,其中圖6a)為原圖,圖6b)~圖6f)為增強(qiáng)后的結(jié)果。最終形成的訓(xùn)練集包含8 635張圖片,驗(yàn)證集有2 160張圖片。
2.2" 評(píng)價(jià)指標(biāo)
本文使用了多個(gè)評(píng)價(jià)指標(biāo),包括精準(zhǔn)率(Precision)、召回率(Recall)、平均精度均值(mAP)、模型參數(shù)量(Params)、每秒檢測(cè)幀數(shù)(FPS)和浮點(diǎn)運(yùn)算次數(shù)(GFLOPs)。
精準(zhǔn)率(Precision)指預(yù)測(cè)為正樣本中實(shí)際正樣本的比例,公式如下:
[P=TPTP+FP] (11)
式中:TP為正確預(yù)測(cè)出正樣本的檢測(cè)框數(shù)量;FP為負(fù)樣本被預(yù)測(cè)成正類的數(shù)量。
召回率(Recall)代表正確預(yù)測(cè)的樣本數(shù)占總樣本數(shù)的比例,公式如下:
[R=TPTP+FN] (12)
式中FN為被預(yù)測(cè)成負(fù)類的正樣本數(shù)。
平均精度均值(mAP)為所有類別檢測(cè)精度的平均值,公式如下:
[AP=01PRdR] (13)
[mAP=1ni=1nAPi] (14)
式中:[n]為檢測(cè)類別的數(shù)量;AP為[PR]曲線下的面積。
2.3" 實(shí)驗(yàn)結(jié)果
2.3.1" 消融實(shí)驗(yàn)
為了驗(yàn)證本文提出的方法對(duì)無(wú)人機(jī)圖像中車輛目標(biāo)檢測(cè)的性能有效提高,以YOLOv5s作為基線模型進(jìn)行消融實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表3所示。其中:mAP@0.5是IoU為0.5時(shí)所有類別的平均檢測(cè)精度;mAP@0.5:0.95是IoU以0.05為步長(zhǎng),從0.5~0.95的全部平均檢測(cè)精度;FPS指的是模型每秒處理的圖片數(shù)量,用來(lái)衡量檢測(cè)速度;GFLOPs為網(wǎng)絡(luò)模型的浮點(diǎn)運(yùn)算次數(shù)。
通過(guò)分析表3的結(jié)果可以發(fā)現(xiàn),添加小目標(biāo)檢測(cè)層、DAC模塊、將損失函數(shù)替換為Focal?EIoU以及將NMS改為Soft?NMS都對(duì)檢測(cè)精度進(jìn)行了提升。在方法1中,引入小目標(biāo)檢測(cè)層,mAP@0.5提高了4.1%。由于增加了C3_1、上采樣、Conv、檢測(cè)頭等模塊,導(dǎo)致模型的參數(shù)量和計(jì)算量略有增加,但這能夠最大限度地保留小目標(biāo)車輛的位置信息,從而顯著提高了檢測(cè)精度。方法2中,在骨干網(wǎng)絡(luò)使用DAC模塊替換了基線模型三層的C3模塊,相對(duì)于基線模型,mAP@0.5提升了0.7%。這強(qiáng)化了在復(fù)雜背景下多尺度車輛細(xì)節(jié)信息的特征提取能力,從而提高了檢測(cè)精度,同時(shí)也帶來(lái)了一定的參數(shù)量增加。在方法3中替換了損失函數(shù),F(xiàn)ocal?EIoU以歐氏距離平方作為懲罰項(xiàng),不增加參數(shù)量和計(jì)算量的情況下,檢測(cè)精度提高了0.9%。相對(duì)于基線模型,檢測(cè)速度也有一定的提升。方法4是將方法1和方法3相結(jié)合,mAP@0.5相比于基線模型提升了4.5%。方法5是在方法4的基礎(chǔ)上使用了Focal?EIoU,檢測(cè)精度再次提高了0.4%。在方法6中,將方法5的非極大值抑制替換為Soft?NMS,相較于基線模型,mAP@0.5提高了8.4%,比起方法5,檢測(cè)精度提高了3.4%,雖然模型的參數(shù)量和計(jì)算量沒(méi)有增加,但是由于Soft?NMS的推理較慢,導(dǎo)致檢測(cè)速度降低。相比于精度的提升,檢測(cè)速度的下降在可接受范圍之內(nèi)。
綜上所述,實(shí)驗(yàn)結(jié)果表明,本文提出的每一個(gè)改進(jìn)都提升了模型的檢測(cè)性能,雖然一些改進(jìn)帶來(lái)了一定的參數(shù)量和計(jì)算量使得檢測(cè)速度降低,但檢測(cè)精度提升較大,也能滿足實(shí)時(shí)性檢測(cè)的需求。
2.3.2" 數(shù)據(jù)集中各類的實(shí)驗(yàn)結(jié)果
為了驗(yàn)證改進(jìn)方法在車輛目標(biāo)檢測(cè)中的效果,對(duì)改進(jìn)方法的每個(gè)類別進(jìn)行了精準(zhǔn)率、召回率和平均精度的評(píng)估,并將其與基線模型進(jìn)行了對(duì)比,結(jié)果如表4所示。
根據(jù)實(shí)驗(yàn)結(jié)果顯示,改進(jìn)后的模型在道路上對(duì)各類車輛的精準(zhǔn)率、召回率以及檢測(cè)精度都取得了顯著提升。具體而言,car、van、truck和bus的mAP分別達(dá)到了86.1%、68.1%、69.5%和77.6%,分別相較于基線模型提升了7.1%、8.4%、9.1%和9.1%。因此,改進(jìn)后的模型對(duì)于無(wú)人機(jī)航拍各類車輛目標(biāo)檢測(cè)表現(xiàn)出很好的適用性。
2.3.3" 損失函數(shù)對(duì)比實(shí)驗(yàn)
在基線模型中所使用的損失函數(shù)是CIoU,為了驗(yàn)證Focal?EIoU損失函數(shù)對(duì)無(wú)人機(jī)圖像中車輛精度具有更好的提升效果,使用不同損失函數(shù)進(jìn)行對(duì)比實(shí)驗(yàn),以mAP@0.5和mAP@0.5:0.95為評(píng)價(jià)指標(biāo)。
損失函數(shù)對(duì)比實(shí)驗(yàn)結(jié)果如表5所示。
由實(shí)驗(yàn)結(jié)果可知,F(xiàn)ocal?EIoU的mAP@0.5和mAP@0.5:0.95的值分別達(dá)到了67.8%和45.4%,相比其他損失函數(shù),F(xiàn)ocal?EIoU具有更好的性能表現(xiàn)和更快的收斂速度。
2.3.4" 對(duì)比實(shí)驗(yàn)
為了進(jìn)一步驗(yàn)證本文算法的性能優(yōu)勢(shì),選取了比較有代表性的目標(biāo)檢測(cè)算法Faster R?CNN、SSD、YOLO系列在VisDrone2019數(shù)據(jù)集上進(jìn)行對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表6所示。
通過(guò)表6可以分析出,本文改進(jìn)算法在平均精度、參數(shù)量、計(jì)算量相比其他算法都具有不錯(cuò)的優(yōu)勢(shì)。對(duì)比YOLO系列中最新的模型YOLOv8s,本文算法的mAP@0.5值提高了5.1%,參數(shù)減少了3.76×106,運(yùn)算次數(shù)減少了11.9 GFLOPs。與針對(duì)無(wú)人機(jī)圖像目標(biāo)檢測(cè)的THP?YOLOv5s算法相比,本文算法的mAP@0.5值提高了3.1%,參數(shù)量和運(yùn)算次數(shù)分別降低了2.12×106和8.7 GFLOPs,并且相對(duì)于二階段算法Faster R?CNN在精度和模型復(fù)雜度上都有顯著的優(yōu)勢(shì)。
2.3.5" 可視化分析
在VisDrone2019數(shù)據(jù)集中,本文選擇了在高空(小目標(biāo))、復(fù)雜背景和密集場(chǎng)景下具有代表性的圖像進(jìn)行檢測(cè),以更直觀地評(píng)估本文算法。不同場(chǎng)景下的檢測(cè)效果對(duì)比如圖7所示。
圖7a)展示了高空?qǐng)鼍暗臋z測(cè)對(duì)比圖,可以觀察到圖像中的車輛變得十分微小,且不同車輛的尺度變化較大。圖7b)展示了復(fù)雜場(chǎng)景下的檢測(cè)對(duì)比圖,由于無(wú)人機(jī)拍攝的圖像受到昏暗和部分光照的影響,導(dǎo)致圖像質(zhì)量較差。圖7c)展示了密集場(chǎng)景下的對(duì)比檢測(cè)圖,可以看到圖像中目標(biāo)之間相互重疊的情況十分嚴(yán)重。
從基線模型和改進(jìn)后模型的檢測(cè)對(duì)比圖來(lái)看,在圖7a)中,原始基線模型將路邊的欄桿誤檢為car類,并且將van類別錯(cuò)誤檢測(cè)為car類。在第二列的復(fù)雜場(chǎng)景中,原始基線模型將本應(yīng)為truck類的目標(biāo)誤檢為bus類。在圖7c)的密集場(chǎng)景中,基線模型產(chǎn)生了許多冗余的檢測(cè)框,尤其是在密集排列的車輛部分,而改進(jìn)后的模型為每個(gè)類別都分配了相應(yīng)的框。改進(jìn)后的算法與YOLOv5相比,在任何場(chǎng)景下都表現(xiàn)出更高的檢測(cè)精度,同時(shí)減少了漏檢和誤檢的現(xiàn)象發(fā)生。
3" 結(jié)" 語(yǔ)
本文研究并分析了無(wú)人機(jī)航拍圖像檢測(cè)方法的不足,根據(jù)無(wú)人機(jī)航拍圖像的特點(diǎn),在YOLOv5的基礎(chǔ)上進(jìn)行了改進(jìn),引入了一系列創(chuàng)新措施,包括增加小目標(biāo)檢測(cè)層、修改主干網(wǎng)絡(luò)、調(diào)整損失函數(shù)以及改進(jìn)非極大值抑制機(jī)制,旨在全面提升模型的檢測(cè)性能。通過(guò)在VisDrone2019數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),本文著重提取了道路上經(jīng)常出現(xiàn)的4個(gè)車輛類別,并對(duì)模型進(jìn)行了深入評(píng)估。
實(shí)驗(yàn)結(jié)果顯示改進(jìn)后的模型不僅在檢測(cè)精度方面取得顯著提升,而且總參數(shù)量和計(jì)算復(fù)雜度保持在合理水平的同時(shí)展現(xiàn)了出色的性能。
通過(guò)與其他先進(jìn)檢測(cè)模型進(jìn)行對(duì)比,驗(yàn)證了本文改進(jìn)方法的有效性。未來(lái),將持續(xù)專注于研究無(wú)人機(jī)航拍圖像中不同車輛目標(biāo)的獨(dú)特特征,并不斷提出更加精準(zhǔn)的優(yōu)化策略。在數(shù)據(jù)收集和標(biāo)注方面,以后將計(jì)劃擴(kuò)大涉及的類別目標(biāo),擴(kuò)展研究的應(yīng)用領(lǐng)域,以更全面地滿足多樣化場(chǎng)景和目標(biāo)類別的挑戰(zhàn),為未來(lái)無(wú)人機(jī)技術(shù)在各個(gè)實(shí)際應(yīng)用領(lǐng)域中的推廣提供堅(jiān)實(shí)的理論和實(shí)踐基礎(chǔ)。
注:本文通訊作者為趙良軍。
參考文獻(xiàn)
[1] LUO X D, WU Y Q, ZHAO L Y. YOLOD: A target detection method for UAV aerial imagery [J]. Remote sensing, 2022, 14(14): 3240.
[2] PEI H T, SUN Y Q, HUANG H, et al. Weed detection in maize fields by UAV images based on crop row preprocessing and improved YOLOv4 [J]. Agriculture, 2022, 12(7): 975.
[3] BYUN S, SHIN I K, MOON J, et al. Road traffic monitoring from UAV images using deep learning networks [J]. Remote sensing, 2021, 13(20): 4027.
[4] LAHOTI S, LAHOTI A, SAITO O. Application of unmanned aerial vehicle (UAV) for urban green space mapping in urbani?zing Indian cities [J]. Unmanned aerial vehicle: Applications in agriculture and environment, 2020(1): 177?188.
[5] BAIOCCHI V, NAPOLEONI Q, TESEI M, et al. UAV for monitoring the settlement of a landfill [J]. European journal of remote sensing, 2019, 52(3): 41?52.
[6] 聶晶鑫.基于改進(jìn)YOLOv5的鐵路接觸網(wǎng)絕緣子檢測(cè)方法[J].現(xiàn)代電子技術(shù),2024,47(2):31?36.
[7] DE OLIVEIRA D C, WEHRMEISTER M A. Using deep learning and low?cost RGB and thermal cameras to detect pedestrians in aerial images captured by multirotor UAV [J]. Sensors, 2018, 18(7): 2244.
[8] LIU X, ZHANG Z Y. A vision?based target detection, tracking, and positioning algorithm for unmanned aerial vehicle [EB/OL]. [2021?04?12]. https://onlinelibrary.wiley.com/doi/10.1155/2021/5565589.
[9] GIRSHICK R B. Fast R?CNN [C]// Proceedings of the IEEE International Conference on Computer Vision. New York: IEEE, 2015: 1440?1448.
[10] REN S Q, HE K M, GIRSHICK R B, et al. Faster R?CNN: Towards real?time object detection with region proposal networks [C]// Advances in Neural Information Processing Systems 28: Annual Conference on Neural Information Processing Systems 2015. [S.l.: s.n.], 2015: 91?99.
[11] HE K M, GKIOXARI G, DOLLáR P, et al. Mask R?CNN [EB/OL]. [2018?01?24]. https://arxiv.org/abs/1703.06870?file=1703.06870.
[12] JIANG P Y, ERGU D J, LIU F Y, et al. A review of Yolo algorithm developments [C]// Proceedings of the 8th International Conference on Information Technology and Quantitative Management. Amsterdam, Netherlands: Elsevier, 2021: 1066?1073.
[13] LIU W, ANGUELOV D, ERHAN D, et al. SSD: Single shot multibox detector [C]// Proceedings of 14th European Conference on Computer Vision. Heidelbrug: Springer, 2016: 21?37.
[14] LUO X D, WU Y Q, WANG F Y. Target detection method of UAV aerial imagery based on improved YOLOv5 [J]. Remote sensing, 2022, 14(19): 5063.
[15] GUO J, LIU X, BI L, et al. UN?YOLOv5s: A UAV?based aerial photography detection algorithm [J]. Sensors, 2023, 23(13): 5907.
[16] ZENG Y L, ZHANG T, HE W K, et al. YOLOv7?UAV: An unmanned aerial vehicle image object detection algorithm based on improved YOLOv7 [J]. Electronics, 2023, 12(14): 3141.
[17] ZHU X Z, HU H, LIN S, et al. Deformable ConvNets v2: More deformable, better results [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2018: 9300?9308.
[18] WOO S, PARK J, LEE J Y, et al. CBAM: Convolutional block attention module [EB/OL]. [2018?07?17]. https://arxiv.org/abs/1807.06521.
[19] ZHANG Y F, REN W Q, ZHANG Z, et al. Focal and efficient IoU loss for accurate bounding box regression [J]. Neurocomputing, 2022, 506: 146?157.
[20] CHEN F X, ZHANG L X, KANG S Y, et al. Soft?NMS?enabled YOLOv5 with SIoU for small water surface floater detection in UAV?captured images [J]. Sustainability, 2023, 15(14): 10751.
[21] ZHU P F, WEN L Y, DU D W, et al. Detection and tracking meet drones challenge [J]. IEEE transactions on pattern analysis and machine intelligence, 2021, 44(11): 7380?7399.
[22] ZHENG Z H, WANG P, LIU W, et al. Distance?IoU loss: Faster and better learning for bounding box regression [EB/OL]. [2019?11?19]. https://arxiv.org/abs/1911.08287.
[23] GEVORGYAN Z. SIoU loss: More powerful learning for boun?ding box regression [EB/OL]. [2022?05?30]. https://doi.org/10.48550/arXiv.2205.12740.
[24] TONG Z J, CHEN Y H, XU Z W, et al. Wise?IoU: Bounding box regression loss with dynamic focusing mechanism [EB/OL]. [2023?01?26]. https://doi.org/10.48550/arXiv.2301.10051.
作者簡(jiǎn)介:梁" 剛(1999—),男,四川廣元人,碩士研究生,研究方向?yàn)槟繕?biāo)檢測(cè)。
趙良軍(1980—),男,湖北京山人,博士研究生,研究方向?yàn)閳D像處理、衛(wèi)星遙感。
寧" 峰(2000—),男,四川德陽(yáng)人,碩士研究生,研究方向?yàn)槟繕?biāo)檢測(cè)。
席裕斌(1999—),男,陜西漢中人,碩士研究生,研究方向?yàn)檎Z(yǔ)義分割。
何中良(1995—),男,四川南充人,碩士研究生,研究方向?yàn)檎Z(yǔ)義分割。