摘" 要: 針對(duì)無(wú)人機(jī)視角下行人檢測(cè)中的挑戰(zhàn),如目標(biāo)尺寸小、分布密集,以及硬件平臺(tái)限制導(dǎo)致的模型準(zhǔn)確率低等問(wèn)題,提出一種多特征選擇機(jī)制融合的YOLOv8s改進(jìn)模型。首先,在YOLOv8s主干網(wǎng)絡(luò)中結(jié)合多尺度上下文信息聚合機(jī)制(MSCA)的優(yōu)點(diǎn),設(shè)計(jì)增強(qiáng)型卷積金字塔瓶頸(ECPB)模塊,增強(qiáng)主干網(wǎng)絡(luò)的特征提取能力;其次,利用大型可分離卷積模塊(LSKA)的思想優(yōu)化YOLOv8s空間金字塔池化層,提升不同特征層間的語(yǔ)義融合,捕獲更多目標(biāo)信息;最后,將YOLOv8s的頭部替換為新設(shè)計(jì)的任務(wù)動(dòng)態(tài)自適應(yīng)檢測(cè)頭(TADH),豐富分類和定位信息的交互,加強(qiáng)特征融合能力,提升模型的檢測(cè)效率和檢測(cè)準(zhǔn)確率。實(shí)驗(yàn)結(jié)果表明,改進(jìn)后的模型在自制數(shù)據(jù)集上mAP@0.5、mAP@0.5:0.95分別提升了1.9%、5.6%,模型參數(shù)量降低了10.5%,并且改進(jìn)后的模型檢測(cè)速度達(dá)到了140 f/s,能有效實(shí)現(xiàn)對(duì)無(wú)人機(jī)視角下行人檢測(cè)任務(wù)快速、準(zhǔn)確的檢測(cè)。同時(shí),在公共數(shù)據(jù)集(VisDrone2019數(shù)據(jù)集和CARPK數(shù)據(jù)集)上的測(cè)試也證明了該模型能夠適應(yīng)不同小目標(biāo)的檢測(cè),具有較好的泛化性能。
關(guān)鍵詞: 無(wú)人機(jī); 小目標(biāo)檢測(cè); YOLOv8s; 多特征選擇; 特征融合; 任務(wù)動(dòng)態(tài)對(duì)齊
中圖分類號(hào): TN911.73?34; TP391.4" " " " " " " " "文獻(xiàn)標(biāo)識(shí)碼: A" " " " nbsp; " " " " 文章編號(hào): 1004?373X(2024)19?0067?08
Improved YOLOv8s based pedestrian detection method in the perspective of UAV
CHEN Zhenyu1, JIA Mingbin2, ZHOU Luoyu1
(1. School of Electronic Information and Electrical Engineering, Yangtze University, Jingzhou 434023, China;
2. China Petroleum Logging Company Limited, Xi’an 710000, China)
Abstract: In the pedestrian detection with the unmanned aerial vehicle (UAV), the accuracy of the detection models is low due to small object sizes, dense object distributions and hardware limitations, so an improved YOLOv8s model fused with a multiple feature selection mechanism is proposed. An enhanced convolutional pyramid bottleneck (ECPB) module, integrating the advantages of multi?scale context aggregation (MSCA) mechanism, is designed within the YOLOv8s backbone network, so as to enhance the feature extraction capabilities of the backbone network. The spatial pyramid pooling layer of YOLOv8s is optimized with the concept of large separable kernel attention (LSKA), so as to improve the semantic fusion among different feature layers and capture more object information. The detection head of YOLOv8s is replaced with a newly designed task?adaptive detection head (TADH), so as to enrich the interaction between classification and localization information, strengthen the feature fusion capabilities, and enhance the model′s detection efficiency and detection accuracy. The experimental results show that the improved YOLOv8s model has achieved a 1.9% increase in mAP@0.5 and a 5.6% increase in mAP@0.5:0.95 on the self?made dataset, with a 10.5% reduction in model parameter size. Moreover, the improved model achieves a detection speed of 140 f/s, effectively enabling rapid and accurate detection of pedestrian tasks in the perspective of UAV. In addition, the test on public datasets (VisDrone2019 and CARPK datasets) demonstrates that the model is capable of detecting small objects of various types and possesses good generalization performance.
Keywords: UAV; small object detection; YOLOv8s; multiple feature selection; feature fusion; task dynamic alignment
0" 引" 言
隨著無(wú)人機(jī)技術(shù)的發(fā)展,無(wú)人機(jī)在軍事、農(nóng)業(yè)、交通等領(lǐng)域的應(yīng)用越來(lái)越廣泛。在實(shí)際應(yīng)用中,無(wú)人機(jī)需要對(duì)小目標(biāo)快速準(zhǔn)確的檢測(cè),由于無(wú)人機(jī)在飛行過(guò)程中的高速運(yùn)動(dòng)、光照變化以及拍攝視角的不確定性,小目標(biāo)檢測(cè)面臨諸多挑戰(zhàn)。
目前,YOLO系列模型由于性能較佳,已在其他領(lǐng)域的檢測(cè)任務(wù)中得到廣泛應(yīng)用。然而,在無(wú)人機(jī)視角下利用YOLO進(jìn)行目標(biāo)檢測(cè),既保證了檢測(cè)精度,又具有良好的實(shí)時(shí)性,仍是當(dāng)前研究的重點(diǎn)和挑戰(zhàn)。文獻(xiàn)[1]在主干和頸部引入SPD?Conv,避免了跨步卷積和池化的信息丟失。文獻(xiàn)[2]在YOLOv5中使用K?Means++對(duì)先驗(yàn)框的尺寸進(jìn)行優(yōu)化。文獻(xiàn)[3]通過(guò)在超分辨率方法中加入注意力機(jī)制以增強(qiáng)小目標(biāo)信息提取。文獻(xiàn)[4]引入BiFPN增強(qiáng)特征融合。文獻(xiàn)[5]采用結(jié)構(gòu)參數(shù)化和去除冗余信息的思想輕量化模型。文獻(xiàn)[6]提出了一種數(shù)據(jù)增強(qiáng)技術(shù),該技術(shù)與拉普拉斯金字塔和伽馬校正性方法配合使用,以增強(qiáng)模糊性圖像。文獻(xiàn)[7]引入歸一化Wasserstein距離(NWD),以提高模型對(duì)小目標(biāo)回歸框的精度。文獻(xiàn)[8]提出了SPDA?C3結(jié)構(gòu),用于減少信息丟失,同時(shí)側(cè)重于有用特征。文獻(xiàn)[9]提出了特征引導(dǎo)增強(qiáng)模塊,通過(guò)設(shè)計(jì)兩個(gè)非線性算子來(lái)引導(dǎo)訓(xùn)練時(shí)更多的區(qū)分特征。
盡管研究者們提出了許多的方法,但由于目標(biāo)遮擋、目標(biāo)稠密和目標(biāo)尺度變化,以及無(wú)人機(jī)硬件平臺(tái)的限制,難以做到高精度檢測(cè)與實(shí)時(shí)性的平衡。針對(duì)上述問(wèn)題,本文提出了一種基于YOLOv8s改進(jìn)的無(wú)人機(jī)行人檢測(cè)方法,以此來(lái)解決當(dāng)前行人檢測(cè)存在的精度低和耗時(shí)長(zhǎng)等問(wèn)題。
1" 材料及模型
1.1" 實(shí)驗(yàn)數(shù)據(jù)及處理
無(wú)人機(jī)航拍作業(yè)在湖北省荊州市開(kāi)展,涵蓋了校園、公園、廣場(chǎng)、街道、城墻、江灘等各種取樣場(chǎng)所,如圖1所示。實(shí)驗(yàn)數(shù)據(jù)共6 467張圖像,像素為2 048×1 536,圖像為JPG格式。為了消除圖像的相關(guān)性,使模型能夠更好的學(xué)習(xí),將數(shù)據(jù)集的圖像順序隨機(jī)打亂,再進(jìn)行數(shù)據(jù)集的劃分。本文數(shù)據(jù)集采用VOC2007格式進(jìn)行制作,借助標(biāo)注工具LabelImg對(duì)數(shù)據(jù)集進(jìn)行人工分類標(biāo)注。因?yàn)轫?xiàng)目的關(guān)注性,只標(biāo)注了person一類,按照8∶1∶1的比例拆分為訓(xùn)練集、驗(yàn)證集、測(cè)試集。
1.2" YOLOv8模型
YOLOv8模型可用于目標(biāo)檢測(cè)、圖像分類和實(shí)例分割任務(wù)。基于模型網(wǎng)絡(luò)深度和寬度的縮放系數(shù),提供了v8n、v8s、v8m、v8l、v8x五種尺度模型,用于滿足不同場(chǎng)景需求。目前,YOLOv8模型仍然在不斷更新中,綜合無(wú)人機(jī)設(shè)備的硬件條件、模型檢測(cè)精度、參數(shù)量和計(jì)算量的影響,本文選擇YOLOv8s作為基準(zhǔn)模型(8.1.9版本)。
YOLOv8s模型主要由主干網(wǎng)絡(luò)(Backbone)、頸部(Neck)、檢測(cè)頭(Head)三部分組成。Backbone負(fù)責(zé)從輸入圖像中提取特征,然后將特征層輸入到Neck中;Neck是連接Backbone和Head的部分,負(fù)責(zé)特征融合和處理,為后續(xù)任務(wù)提供更多信息,以便提高檢測(cè)的準(zhǔn)確性和效率;Head采用無(wú)錨解耦頭,不受固定大小和比例錨框的限制,比基于錨框的方法更為快速高效,泛化性更強(qiáng),同時(shí)包含了三個(gè)不同尺寸的檢測(cè)頭,用來(lái)在較短時(shí)間內(nèi)對(duì)不同大小的目標(biāo)物體進(jìn)行檢測(cè)。
2" 多特征選擇融合的YOLOv8s改進(jìn)模型
針對(duì)小目標(biāo)缺乏外觀信息和錯(cuò)綜復(fù)雜的場(chǎng)景,對(duì)原始模型YOLOv8s做出以下改進(jìn)。
1) 設(shè)計(jì)了通道并行多尺度(Channel?parallel Mixed?scale, CPMS)模塊,并嵌入到模型Backbone中的C2f(CSPLayer_2Conv),得到ECPB(Enhanced Convolutional Pyramid Bottleneck)模塊,由此增強(qiáng)主干網(wǎng)絡(luò)的特征提取能力。
2) 將LSKA(Large Separable Kernel Attention)融合到空間金字塔池化層(Spatial Pyramid Pooling Fast, SPPF)中,得到聚焦式空間金字塔池化融合(Attentive Spatial Pyramid Pooling Fusion, ASPPF)模塊,由此優(yōu)化跨層次特征的語(yǔ)義融合,捕獲更多目標(biāo)信息。
3) 設(shè)計(jì)了全新的TADH(Task?adaptive Detection Head)檢測(cè)頭,豐富分類和定位信息的交互,加強(qiáng)特征融合能力,提升模型的檢測(cè)效率和識(shí)別準(zhǔn)確率。
改進(jìn)后的YOLOv8s網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
2.1" 特征選擇型的ECPB模塊
CBAM[10]整合了通道和空間注意力,自動(dòng)調(diào)整通道間和特征圖中不同位置的重要性,但它在輸出特征的通道上強(qiáng)制執(zhí)行一致的空間注意力分布,造成信息丟失和不適應(yīng)性,同時(shí)會(huì)增加模型的計(jì)算復(fù)雜度。針對(duì)CBAM的不足,引入多尺度上下文信息聚合機(jī)制[11](Multi?scale Context Aggregation, MSCA),設(shè)計(jì)了CPMS特征選擇模塊。MSCA使用了多個(gè)不同大小的卷積核,用于提取不同尺度的信息,捕獲更豐富的多尺度特征,如圖3所示。CPMS模塊通過(guò)MSCA通道注意力的并行,以及空間注意力(Spatial Attention)串行,將有用的信息權(quán)重賦大,沒(méi)用的信息權(quán)重賦小,最后顯式地對(duì)MSCA增強(qiáng)后的特征和空間注意力權(quán)重進(jìn)行乘法融合,作用于最終輸出特征,提高模型對(duì)有用信息的關(guān)注程度,如圖4所示。
用CPMS改造主干中的C2f模塊,設(shè)計(jì)了ECPB。該模塊可以更好地提煉和增強(qiáng)輸入特征,提高下游任務(wù)的性能,如圖5、圖6所示。
ECPB模塊主要是將CPMS特征選擇模塊嵌入到C2f模塊中的Bottleneck,用于替換原模塊中的Bottleneck。在融合CPMS的瓶頸(CPMS?Bottleneck, CPMS?BN)中依然采用兩個(gè)卷積模塊,但在殘差連接前,使用CPMS模塊進(jìn)行特征選擇。YOLOv8s模型的Backbone負(fù)責(zé)特征提取,將原始模型Backbone中的C2f替換為ECPB,在原提取機(jī)制上既增加了不同感受野關(guān)注到的空間特征,又增加了通道賦權(quán),從空間和通道兩個(gè)維度增強(qiáng)模型Backbone的特征提取能力,有利于提高模型整體性能。同時(shí),因?yàn)镋CPB模塊大量使用了組卷積,在提升特征提取能力的同時(shí),也能減小模型體積。
2.2" 特征融合型的ASPPF模塊
SPPF通過(guò)對(duì)特征圖進(jìn)行不同尺寸的最大池化,提取和整合多尺度特征,生成固定長(zhǎng)度的輸出。
由于無(wú)人機(jī)檢測(cè)的行人具有不同的尺度,而LSKA[12]使用大尺度的卷積核來(lái)擴(kuò)展模型的感受野,特別強(qiáng)調(diào)對(duì)大尺度特征的捕捉。為了提高模型對(duì)行人關(guān)鍵特征的融合能力,引入LSKA模塊對(duì)SPPF進(jìn)行優(yōu)化,得到ASPPF,如圖7所示。首先將經(jīng)過(guò)多個(gè)池化層拼接后的特征圖輸入到一個(gè)11×11的LSKA卷積模塊。這個(gè)LSKA卷積模塊利用大尺寸的可分離卷積來(lái)捕捉長(zhǎng)距離的特征依賴關(guān)系,從而在更廣闊的感受野范圍內(nèi)提取特征。隨后,通過(guò)普通卷積對(duì)特征進(jìn)行整合,進(jìn)而調(diào)整Backbone輸出的特征向量的維度。ASPPF相比SPPF,不僅參數(shù)量增加較少,還能夠提取多尺度和多方向的特征來(lái)增強(qiáng)模型的抗旋轉(zhuǎn)和尺度變化能力,從而促進(jìn)模型在特征融合方面的性能。
2.3" 任務(wù)對(duì)齊動(dòng)態(tài)檢測(cè)頭(TADH)模塊
YOLOv8s的Head使用相互獨(dú)立的分類和定位分支,樣本分配策略都是和任務(wù)無(wú)關(guān)的,從而造成分類和定位任務(wù)之間缺乏信息交互,導(dǎo)致得分高的預(yù)測(cè)位置不準(zhǔn),位置準(zhǔn)的預(yù)測(cè)得分不高。同時(shí)分類和定位分離,模型計(jì)算相互獨(dú)立,會(huì)造成Head部分繁雜,計(jì)算量占用巨大。
基于上述不足,參照TOOD[13]和Dyhead[14]的思想,本文設(shè)計(jì)了一種全新的檢測(cè)頭TADH,如圖8所示。
TADH盡可能保證圖像特征在輸入到預(yù)測(cè)卷積之前,分類與定位兩個(gè)分支具有特征的交互。在TADH中先經(jīng)過(guò)兩個(gè)GN[15]歸一化的共享卷積層,再進(jìn)行通道連接,實(shí)現(xiàn)圖像特征的動(dòng)態(tài)交互。之后分為三條支路,上支路生成可變形卷積(Deformable Convolutional Network v2, DCNv2)的掩膜(mask)和偏移量(offset),提高網(wǎng)絡(luò)對(duì)復(fù)雜場(chǎng)景的適應(yīng)性和特征提取的準(zhǔn)確性。下支路依次使用1×1的Conv層、ReLU激活函數(shù)、3×3的Conv層、Sigmoid激活函數(shù),組成動(dòng)態(tài)特征選擇模塊,用交互特征去生成動(dòng)態(tài)特征選擇權(quán)重。中支路分為定位和分類,分別經(jīng)過(guò)任務(wù)拆解(Task Decomposition)模塊。在此之后,定位分支使用DCNv2和交互特征生成的mask和offset,通過(guò)卷積邊界框(Convolutional Bounding Box, Conv_Bbox)進(jìn)行目標(biāo)定位,同時(shí)為了應(yīng)對(duì)每個(gè)檢測(cè)頭所檢測(cè)的目標(biāo)尺度不一致的問(wèn)題,使用尺度層進(jìn)行尺度的縮放。分類分支使用動(dòng)態(tài)特征選擇權(quán)重與任務(wù)拆解后的特征進(jìn)行相乘,增加它們交互的能力,再通過(guò)卷積分類器(Convolutional Classifier, Conv_Cls)進(jìn)行目標(biāo)的分類。通過(guò)使用TADH檢測(cè)頭,可以大幅減少參數(shù)量,使模型更加輕便,同時(shí)還利用了定位和分類的交互特征,提高了模型檢測(cè)的精度。
3" 改進(jìn)模型實(shí)驗(yàn)結(jié)果與分析
3.1" 數(shù)據(jù)集及實(shí)驗(yàn)環(huán)境
為了驗(yàn)證本文方法的有效性和泛化性,實(shí)驗(yàn)使用數(shù)據(jù)集除自制數(shù)據(jù)集外,還使用了VisDrone2019[16]數(shù)據(jù)集和CARPK[17]數(shù)據(jù)集。VisDrone2019數(shù)據(jù)集由天津大學(xué)機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘?qū)嶒?yàn)室收集并發(fā)布,由6 471張訓(xùn)練集、548張驗(yàn)證集、1 610張測(cè)試集組成,共包含10類航拍檢測(cè)目標(biāo),包括行人、人、自行車、汽車、面包車、卡車、三輪車、遮陽(yáng)三輪車、公共汽車、摩托車。CARPK數(shù)據(jù)集由無(wú)人機(jī)低空拍攝,專注于單一類別的汽車檢測(cè),涵蓋了多個(gè)停車場(chǎng)景下的近90 000輛汽車圖像,包含989張訓(xùn)練集和459張測(cè)試集。
實(shí)驗(yàn)中GPU為NVIDIA GeForce RTX 12 GB,CPU為Intel[?] CoreTM i5?12490F CPU@3 GHz,深度學(xué)習(xí)PyTorch框架采用1.13.1+CU117,Python版本為3.9.0。具體實(shí)驗(yàn)環(huán)境參數(shù)設(shè)置如表1所示。
在本文的實(shí)驗(yàn)中,所有模型均接受尺寸為640×640像素的輸入圖像。為了確保訓(xùn)練的一致性,在相同的實(shí)驗(yàn)條件下,所有模型在三個(gè)數(shù)據(jù)集上均使用表1中的訓(xùn)練參數(shù),并進(jìn)行300個(gè)訓(xùn)練周期。為了優(yōu)化訓(xùn)練效率,本文引入了早停機(jī)制:當(dāng)模型在接近50個(gè)訓(xùn)練周期內(nèi)未能展現(xiàn)出性能上的提升時(shí),該機(jī)制將被觸發(fā),從而提前終止訓(xùn)練過(guò)程。
3.2" 實(shí)驗(yàn)評(píng)估標(biāo)準(zhǔn)
實(shí)驗(yàn)選用[P](Precision,準(zhǔn)確率)、[R](Recall,召回率)、AP(Average Precision,平均精度)、mAP(mean Average Precision,平均精度均值)來(lái)評(píng)估模型,并分別選取IoU為0.5和IoU為0.5~0.95區(qū)間時(shí)的mAP作為行人檢測(cè)的性能評(píng)價(jià)指標(biāo),數(shù)值越高表明模型的檢測(cè)效果越好,其中[P]、[R]、AP、mAP的計(jì)算如式(1)~式(4)所示。
[P=TPTP+FP] (1)
[R=TPTP+FN] (2)
[AP=01PRdR] (3)
[mAP=1Ni=1NAPi] (4)
式中:真陽(yáng)性(True Positive, TP)為行人被模型正確預(yù)測(cè)的數(shù)量;假陽(yáng)性(False Positive, FP)為非行人被模型預(yù)測(cè)為行人的數(shù)量;假陰性(False Negative, FN)為行人被模型預(yù)測(cè)為非行人的數(shù)量。由于本文的檢測(cè)任務(wù)中只有行人一個(gè)種類,所以AP和mAP相等。同時(shí),選擇參數(shù)量(Parameters)、模型大小(Modelsize)作為模型的量級(jí)評(píng)判標(biāo)準(zhǔn),數(shù)值越小說(shuō)明模型的復(fù)雜度越低。采用每秒幀數(shù)(Frames Per Second, FPS)作為模型的實(shí)時(shí)性評(píng)判標(biāo)準(zhǔn),數(shù)值越大說(shuō)明模型的實(shí)時(shí)性越強(qiáng)。
3.3" 改進(jìn)方法效果對(duì)比
3.3.1" 主干網(wǎng)絡(luò)改進(jìn)實(shí)驗(yàn)
YOLOv8s模型的主干網(wǎng)絡(luò)中共包含4個(gè)C2f模塊,為確定主干使用ECPB效果最佳的位置及個(gè)數(shù),現(xiàn)采用提出的ECPB模塊對(duì)主干的每個(gè)C2f模塊進(jìn)行替換,并測(cè)試改進(jìn)后模型的精度,結(jié)果如表2所示。由表2可知,引入ECPB模塊,模型mAP@0.5最高會(huì)提升1.3%,模型的體積也會(huì)得到優(yōu)化。
但過(guò)度使用ECPB模塊會(huì)導(dǎo)致模型結(jié)構(gòu)復(fù)雜,進(jìn)而增加計(jì)算負(fù)擔(dān),并造成模型體積的擴(kuò)張。過(guò)度復(fù)雜的模型易于出現(xiàn)過(guò)擬合現(xiàn)象,會(huì)削弱模型在實(shí)際應(yīng)用中的準(zhǔn)確性和可靠性。如表2所示,本文將YOLOv8s主干網(wǎng)絡(luò)中第1個(gè)C2f模塊替換為ECPB模塊,在網(wǎng)絡(luò)的初步階段實(shí)現(xiàn)對(duì)特征圖的自適應(yīng)調(diào)整,優(yōu)化對(duì)小目標(biāo)區(qū)域的關(guān)注度,從而在后續(xù)的特征提取和融合過(guò)程中,更加精準(zhǔn)地聚焦于這些關(guān)鍵區(qū)域,提升模型對(duì)小目標(biāo)的識(shí)別能力和準(zhǔn)確性,進(jìn)而增強(qiáng)整體的檢測(cè)性能。
3.3.2" 消融實(shí)驗(yàn)
對(duì)YOLOv8s模型進(jìn)行改進(jìn),并對(duì)每個(gè)改進(jìn)的結(jié)果進(jìn)行統(tǒng)計(jì)分析,結(jié)果如表3所示。在對(duì)YOLOv8s模型進(jìn)行改進(jìn)的過(guò)程中,分別采用了ECPB、ASPPF、TADH三種不同的優(yōu)化策略,并將改進(jìn)后的結(jié)果分別標(biāo)記為A、B、C。實(shí)驗(yàn)數(shù)據(jù)顯示,A、B、C方案顯著增強(qiáng)了模型在特征選擇和融合方面的能力,促成了[R]指標(biāo)0.026%、0.024%、0.029%的提升,實(shí)現(xiàn)了mAP@0.5指標(biāo)0.013%、0.014%、0.018%的提升,同時(shí)mAP@0.5:0.95指標(biāo)也分別提升了0.043%、0.042%、0.06%。很明顯,C方案的提升效果最好,這說(shuō)明頭部的特征融合(C方案)強(qiáng)于主干部分的特征融合(B方案)。但C方案的FPS相比于原模型下降了很多,不利于無(wú)人機(jī)的實(shí)時(shí)性檢測(cè)。而B(niǎo)方案雖然在性能提升上不如C方案,但FPS效果最好,這使得模型在無(wú)人機(jī)硬件上的應(yīng)用部署更為高效。將這三種改進(jìn)策略綜合應(yīng)用于模型中,得到實(shí)驗(yàn)結(jié)果D。與原始模型相比,D方案不僅在體積上減少了2.2 MB,而且[P]、[R]、mAP@0.5、mAP@0.5:0.95指標(biāo)分別提升了0.007%、0.027%、0.019%、0.056%,其FPS也得到了提升,這表明D方案在無(wú)人機(jī)視角的目標(biāo)檢測(cè)任務(wù)中具有更加出色的表現(xiàn),更適合此類的目標(biāo)檢測(cè)任務(wù)。
3.3.3" 不同目標(biāo)檢測(cè)算法的性能比較
為了全面評(píng)估改進(jìn)后的模型的檢測(cè)性能,本文將其與YOLOv3s[18]、YOLOv5s[19]、YOLOv6[20]等代表性模型進(jìn)行對(duì)比實(shí)驗(yàn),結(jié)果如表4所示。由實(shí)驗(yàn)結(jié)果可知,改進(jìn)后模型的mAP@0.5能夠達(dá)到94.2%,對(duì)比YOLOv3s提升1.4%,對(duì)比YOLOv5s提升3.8%,對(duì)比YOLOv6提升3.3%,對(duì)比YOLOv7?tiny提升8%,對(duì)比YOLOv8s提升1.9%。改進(jìn)后的模型在眾多指標(biāo)上都能夠超越其他模型,模型參數(shù)量更低,模型大小也能夠滿足移植性的需要,mAP@0.5:0.95也更高,說(shuō)明改進(jìn)后的模型對(duì)于不同的目標(biāo)尺寸、形狀和位置變化具有較好的適應(yīng)性,能夠有效地檢測(cè)到小目標(biāo)和邊界不明顯的目標(biāo)。因此,本文提出的改進(jìn)模型更適用于無(wú)人機(jī)視角的小目標(biāo)檢測(cè)任務(wù)。
3.3.4" 通用性對(duì)比實(shí)驗(yàn)
在VisDrone數(shù)據(jù)集上,用改進(jìn)后的模型與YOLOv8s進(jìn)行對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表5所示。
實(shí)驗(yàn)結(jié)果證明,本文所改進(jìn)后的模型不僅在自制數(shù)據(jù)集上表現(xiàn)出色,而且在其他無(wú)人機(jī)視角下的數(shù)據(jù)集上也展現(xiàn)出了顯著的效果。這一結(jié)果充分證明了改進(jìn)后模型的普適性和有效性,表明其在無(wú)人機(jī)視角圖像處理領(lǐng)域的廣泛應(yīng)用潛力。
在CARPK數(shù)據(jù)集上,用改進(jìn)后的模型與YOLOv8s進(jìn)行對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表6所示。
實(shí)驗(yàn)結(jié)果證明,本文改進(jìn)后的模型不僅適用于無(wú)人機(jī)視覺(jué)領(lǐng)域的行人檢測(cè)任務(wù),而且對(duì)于小目標(biāo)數(shù)據(jù)集,同樣能夠帶來(lái)顯著的性能提升。特別是在CARPK數(shù)據(jù)集上的應(yīng)用,盡管原始的YOLOv8s模型已經(jīng)展現(xiàn)出了較高的精度,但本文改進(jìn)后的模型依然能夠在此基礎(chǔ)上進(jìn)一步增強(qiáng)[P]、[R]、mAP@0.5和mAP@0.5:0.95等關(guān)鍵性能指標(biāo)。
3.3.5" 檢測(cè)結(jié)果可視化
圖9、圖10分別展示了本文改進(jìn)后的模型在無(wú)人機(jī)視角的行人檢測(cè)中對(duì)于稀疏和密集分布的行人、不同光照條件下的行人的檢測(cè)性能效果,以及改進(jìn)后的模型熱力圖。圖9a)~圖9c)、圖10a)~圖10c)是改進(jìn)后的模型檢測(cè)效果,圖9d)~圖9f)、圖10d)~圖10f)是改進(jìn)后的模型熱力圖。
效果圖表明,在行人密集的檢測(cè)場(chǎng)景中,改進(jìn)后的模型能夠以更高的準(zhǔn)確度識(shí)別并定位更多的行人。同樣,在行人稀疏的環(huán)境中,該模型也展現(xiàn)出了其優(yōu)越性,能夠有效地降低漏檢和誤檢的情況。
此外,改進(jìn)后的模型也展現(xiàn)了出色的光照適應(yīng)性。無(wú)論是在強(qiáng)光還是弱光環(huán)境下,本文模型都能夠有效地克服光照變化帶來(lái)的影響,確保行人檢測(cè)的穩(wěn)定性和準(zhǔn)確性。
熱力圖表明,無(wú)論是在行人密集還是稀疏的區(qū)域,模型可以清晰地區(qū)分和定位每一個(gè)獨(dú)立的行人,無(wú)論行人目標(biāo)大小,模型都能夠捕捉到微弱或隱蔽的目標(biāo)信號(hào),并將這些信息有效地呈現(xiàn)出來(lái),體現(xiàn)了模型對(duì)細(xì)節(jié)的高度敏感性和強(qiáng)大的行人檢測(cè)能力。
4" 結(jié)" 論
本文建立了無(wú)人機(jī)航拍圖像數(shù)據(jù)集,提出了一種無(wú)人機(jī)視角下高效檢測(cè)行人的方法。設(shè)計(jì)了ECPB特征選擇模塊,增強(qiáng)網(wǎng)絡(luò)的特征提取能力和自適應(yīng)泛化能力,降低模型的計(jì)算復(fù)雜度。通過(guò)ASPPF特征融合模塊來(lái)提升不同特征層間的語(yǔ)義融合。采用全新檢測(cè)頭TADH充分利用分類與定位特征的交互,提升模型的檢測(cè)效果。與主流目標(biāo)檢測(cè)模型和基準(zhǔn)模型相比,對(duì)于無(wú)人機(jī)行人檢測(cè),改進(jìn)后的模型在檢測(cè)精度方面更有優(yōu)勢(shì),能夠更好地完成復(fù)雜自然環(huán)境下的檢測(cè)任務(wù),更適應(yīng)多樣化的實(shí)際行人檢測(cè)場(chǎng)景,而且改進(jìn)后的模型參數(shù)量更少,以較小的計(jì)算成本實(shí)現(xiàn)了較高的性能。此外,該模型的檢測(cè)速度也達(dá)到了實(shí)時(shí)處理的要求,滿足快速響應(yīng)的需求。接下來(lái)將繼續(xù)優(yōu)化模型,進(jìn)一步提升其在小目標(biāo)檢測(cè)方面的精度。同時(shí),對(duì)模型進(jìn)行輕量化處理,以便能夠更好地嵌入到無(wú)人機(jī)設(shè)備中,促進(jìn)無(wú)人機(jī)視角行人檢測(cè)工作的高效進(jìn)行。
注:本文通訊作者為周籮魚(yú)。
參考文獻(xiàn)
[1] 譚亮,趙良軍,鄭莉萍,等.基于YOLOv5s?AntiUAV的反無(wú)人機(jī)目標(biāo)檢測(cè)算法研究[J].電光與控制,2024,31(5):40?45.
[2] 關(guān)玉明,王肖霞,楊風(fēng)暴,等.基于輕量級(jí)網(wǎng)絡(luò)的小目標(biāo)檢測(cè)算法[J].現(xiàn)代電子技術(shù),2024,47(1):44?50.
[3] 馬俊燕,常亞楠.MFE?YOLOX:無(wú)人機(jī)航拍下密集小目標(biāo)檢測(cè)算法[J].重慶郵電大學(xué)學(xué)報(bào)(自然科學(xué)版),2024,36(1):128?135.
[4] 于泳波,袁棟梁,孫振,等.基于YOLOv8s的城市背景煙火檢測(cè)算法[J/OL].無(wú)線電工程:1?10[2024?03?12].http://kns.cnki.net/kcms/detail/13.1097.TN.20240312.1344.010.html.
[5] 張峻祎,丁冰,丁潔.基于弱光環(huán)境的車輛識(shí)別研究[J].現(xiàn)代電子技術(shù),2024,47(7):17?24.
[6] GUPTA C, GILL N S, GULIA P. A novel finetuned YOLOv8 model for real?time underwater trash detection [J]. Journal of real?time image processing, 2024, 21(2): 48.
[7] QU J S, TANG Z B, ZHANG L, et al. Remote sensing small object detection network based on attention mechanism and multi?scale feature fusion [J]. Remote sensing, 2023, 15(11): 2728.
[8] SUN C Y, CHEN Y J, XIAO C, et al. YOLOv5s?DSD: An improved aerial image detection algorithm based on YOLOv5s [J]. Sensors, 2023, 23(15): 6905.
[9] HUANG S Q, REN S S, WU W, et al. Discriminative features enhancement for low?altitude UAV object detection [J]. Pattern recognition, 2024, 147: 110041.
[10] WOO S, PARK J, LEE J Y, et al. CBAM: Convolutional block attention module [C]// Proceedings of the European Conference on Computer Vision. Heidelberg, Germany: Springer, 2018: 3?19.
[11] GUO M H, LU C Z, HOU Q B, et al. SegNeXt: Rethinking convolutional attention design for semantic segmentation [C]// Advances in Neural Information Processing Systems 35: Annual Conference on Neural Information Processing Systems 2022. [S.l.: s.n.], 2022: 1140?1156.
[12] LAU K W, PO L M, REHMAN Y A U, et al. Large separable kernel attention: Rethinking the large kernel attention design in CNN [J]. Expert systems with applications, 2024, 236: 121352.
[13] FENG C J, ZHONG Y J, GAO Y, et al. TOOD: Task?aligned one?stage object detection [C]// 2021 IEEE/CVF International Conference on Computer Vision. New York: IEEE, 2021: 3490?3499.
[14] DAI X Y, CHEN Y P, XIAO B, et al. Dynamic head: Unifying object detection heads with attentions [C]// 2021 IEEE/CVF International Conference on Computer Vision. New York: IEEE, 2021: 7373?7382.
[15] TIAN Z, SHEN C H, CHEN H, et al. FCOS: Fully convolutional one?stage object detection [C]// 2019 IEEE/CVF International Conference on Computer Vision. New York: IEEE, 2019: 9626?9635.
[16] DU D W, ZHANG Y, WANG Z X, et al. VisDrone?DET2019: The vision meets drone object detection in image challenge results [C]// 2019 IEEE/CVF International Conference on Computer Vision. New York: IEEE, 2019: 213?226.
[17] HSIEH M R, LIN Y L, HSU W H, et al. Drone?based object counting by spatially regularized regional proposal network [C]// 2017 IEEE International Conference on Computer Vision. New York: IEEE, 2017: 4165?4173.
[18] REDMON J, FARHADI A. YOLOv3: An incremental improvement [EB/OL]. [2018?08?13]. http://arxiv.org/abs/1804.02767.
[19] JUNG H K, CHOI G S. Improved YOLOv5: Efficient object detection using drone images under various conditions [J]. Applied sciences, 2022, 12(14): 7255.
[20] LI C Y, LI L L, JIANG H L, et al. YOLOv6: A single?stage object detection framework for industrial applications [EB/OL]. [2024?03?19]. https://doi.org/10.48550/arXiv.2209.02976.
作者簡(jiǎn)介:陳振羽(2000—),男,湖北襄陽(yáng)人,碩士研究生,研究方向?yàn)樯疃葘W(xué)習(xí)與圖像處理、目標(biāo)檢測(cè)。
賈明賓(1984—),男,陜西西安人,碩士研究生,高級(jí)工程師,研究方向?yàn)樾盘?hào)智能處理。
周籮魚(yú)(1985—),男,湖南邵陽(yáng)人,博士研究生,副教授,碩士生導(dǎo)師,研究方向?yàn)橛?jì)算機(jī)視覺(jué)以及人工智能。
收稿日期:2024?06?01" " " " " "修回日期:2024?06?25
基金項(xiàng)目:國(guó)家自然科學(xué)基金項(xiàng)目(61901059)