摘 要:針對遙感圖像中背景復(fù)雜、目標(biāo)小而密集,導(dǎo)致現(xiàn)有目標(biāo)檢測算法對小目標(biāo)檢測效果不佳,容易出現(xiàn)誤檢和漏檢的問題,在YOLOv8n模型的基礎(chǔ)上引入HA注意力機(jī)制,提出了YOLOv8n-HA模型改善上述問題。具體地,文章在YOLOv8n每個檢測分支的瓶頸端嵌入HA注意力模塊。實(shí)驗(yàn)結(jié)果表明,YOLOv8n-HA模型在DOTAv1.5和Fiar1M子數(shù)據(jù)集上的mAP@0.5和mAP@0.5:0.95分別達(dá)到了0.797和0.597,相較于YOLOv8n模型分別提升了0.013和0.028。
關(guān)鍵詞:目標(biāo)檢測;YOLOv8n;HA混合注意力機(jī)制;遙感圖像;小目標(biāo)數(shù)據(jù);深度學(xué)習(xí)
中圖分類號:TP751.1 文獻(xiàn)標(biāo)識碼:A 文章編號:2095-1302(2025)08-00-06
0 引 言
遙感圖像目標(biāo)檢測是一項(xiàng)融合遙感技術(shù)與計(jì)算機(jī)視覺的檢測技術(shù),旨在定位和識別遙感圖像中的特定目標(biāo),直觀地觀察和分析被檢測目標(biāo)的大小、分布及類別信息,其應(yīng)用領(lǐng)域十分廣泛。根據(jù)2023年《中國地理信息產(chǎn)業(yè)發(fā)展報(bào)告》,截至2022年底,我國在軌工作的民用遙感衛(wèi)星數(shù)量達(dá)到了
294顆,其中商業(yè)遙感衛(wèi)星189顆,占比超過60%。隨著科學(xué)技術(shù)的不斷進(jìn)步,未來將有更多遙感衛(wèi)星用于地球觀測任務(wù)。面對如此龐大的數(shù)據(jù)資源,如何快速、有效地從遙感圖像中提取關(guān)鍵信息,成為遙感領(lǐng)域目標(biāo)檢測發(fā)展中亟待解決的問題。
2014年,文獻(xiàn)[1]首次將卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks, CNN)應(yīng)用于目標(biāo)檢測領(lǐng)域。在遙感圖像目標(biāo)檢測中,這種新型方法相較于傳統(tǒng)方法(如DPM[2])展現(xiàn)出更卓越的性能。CNN能夠?qū)崿F(xiàn)端到端的學(xué)習(xí)和自動化特征提取,減少了對手工設(shè)計(jì)特征的依賴,不僅能處理大規(guī)模數(shù)據(jù),還能保持較高的準(zhǔn)確性。以R-CNN(Region-based Convolutional Neural Network)[3]為代表的雙階段算法和以SSD(Single Shot Multibox Detector)[4]、YOLO(You Only Look Once)[5]為代表的單階段算法,是目前深度學(xué)習(xí)領(lǐng)域的主要目標(biāo)檢測算法。然而,現(xiàn)階段的目標(biāo)檢測算法在遙感圖像中仍存在不足,主要由于遙感圖像背景高度復(fù)雜、目標(biāo)尺度變化劇烈,且存在大量小而密集的目標(biāo),容易導(dǎo)致誤檢和漏檢。針對上述問題,本文以YOLOv8模型為基礎(chǔ),引入HA注意力機(jī)制,以提升模型對小目標(biāo)和密集目標(biāo)的檢測性能。本文的優(yōu)勢如下:
(1)提出了YOLOv8n-HA模型,通過將HA(Hybrid Attention)注意力機(jī)制與YOLOv8n結(jié)合,使模型能夠更好地聚焦于圖像中的關(guān)鍵信息,從而提升其對小目標(biāo)和密集目標(biāo)的表征能力。
(2)本文提出的模型在遙感圖像數(shù)據(jù)集上的mAP@0.5和mAP@0.5:0.95指標(biāo)分別達(dá)到了0.797和0.597,相較于YOLOv8n模型分別提升了0.013和0.028。
1 基于HA注意力機(jī)制的YOLOv8n模型
1.1 模型結(jié)構(gòu)
YOLOv8n模型由三部分組成,分別為骨干神經(jīng)網(wǎng)絡(luò)Backbone、瓶頸層Neck和檢測頭Head。
Backbone層作為模型的主干網(wǎng)絡(luò),負(fù)責(zé)從輸入圖像中提取特征。隨著卷積層數(shù)的增加,它能夠提取特征金字塔網(wǎng)絡(luò)(Feature Pyramid Networks, FPN)[6]中不同感受野的特征圖,從而將圖像轉(zhuǎn)化為具有豐富語義信息的特征。
Neck層作為中間層,主要負(fù)責(zé)融合來自Backbone層的特征,整體結(jié)構(gòu)結(jié)合了FPN和路徑聚合網(wǎng)絡(luò)[7](Path Aggregation Network, PANet)。FPN主要將上層特征(小尺寸、空間感較弱但語義信息豐富)融合到淺層網(wǎng)絡(luò)特征(空間感較強(qiáng)但語義信息較少)中;而PANet則旨在將淺層的高精度位置信息有效傳遞至深層特征中。
Head層與先前YOLO模型的耦合結(jié)構(gòu)(Coupled Head)不同,YOLOv8n的檢測頭采用了與YOLOx[8]相同的解耦合結(jié)構(gòu)(Decoupled Head),將分類和檢測任務(wù)分離。這種解耦設(shè)計(jì)不僅提高了模型的收斂速度,還能有效避免過擬合現(xiàn)象的發(fā)生。此外,YOLOv8n采用無錨點(diǎn)(Anchor-Free)機(jī)制,無需設(shè)置每層的錨點(diǎn)數(shù)量、尺度、長寬比等超參數(shù),只需對不同尺度特征圖的目標(biāo)中心點(diǎn)及寬高進(jìn)行回歸,從而顯著減少了計(jì)算量。
本文提出的基于HA注意力機(jī)制的YOLOv8n模型整體結(jié)構(gòu)如圖1所示。在Neck端嵌入HA模塊,該模塊中的HA注意力機(jī)制是一種混合注意力機(jī)制,結(jié)合了通道注意力機(jī)制和自注意力機(jī)制。其中,通道注意力機(jī)制用于識別更為重要的通道,而自注意力機(jī)制則專注于圖像的內(nèi)部信息,通過有效整合全局像素信息來提升模型的檢測能力。
1.2 損失函數(shù)
YOLOv8n的邊界框回歸損失函數(shù)采用CIoU(Complete Intersection over Union)。CIoU損失函數(shù)是在IoU[9]損失函數(shù)的基礎(chǔ)上改進(jìn)而來,不僅考慮了預(yù)測框與真實(shí)框中心點(diǎn)之間的距離,還引入了長寬比,從而幫助模型提升對被檢測目標(biāo)的定位準(zhǔn)確性。
相比于傳統(tǒng)的IoU損失函數(shù),CIoU會考慮邊界框中心的偏移和長寬比的變化,這使得模型在學(xué)習(xí)預(yù)測邊界框時能夠更加精確。
1.3 HA注意力模塊
注意力機(jī)制(Attention Mechanism)通過模擬人類的感知機(jī)制,對圖像重要的區(qū)域賦予更高的關(guān)注度,從而有效提升模型的效率和精度。本文參考了文獻(xiàn)[10]提出的結(jié)合混合注意力的變換器設(shè)計(jì),提出了HA注意力模塊,該模塊結(jié)構(gòu)如圖3所示。
HA模塊采用并聯(lián)方式結(jié)合通道注意力模塊 CAB(Channel Attention Block)和基于窗口的多頭自注意力模塊W-MSA(Window-based Multi-Head Self-Attention)。通過全局殘差連接,將淺層特征和深層特征進(jìn)行融合。
首先接收來自前一層的淺層特征信息X,接著對X進(jìn)行Layer Norm歸一化處理,然后利用CAB模塊和W-MSA模塊對被歸一化的特征信息進(jìn)行注意力提取,并與原始輸入的特征信息X進(jìn)行逐元素相加融合。
通道注意力模塊CAB包括兩部分,一部分由兩個標(biāo)準(zhǔn)卷積層和激活函數(shù)GELU(Gaussian Error Linear Unit)構(gòu)成,另一部分則由通道注意力模塊CA(Channel Attention)構(gòu)成。
基于窗口的多頭自注意力模塊(W-MSA)將輸入特征劃分為多個局部窗口,并在每個窗口內(nèi)計(jì)算自注意力,從而捕捉局部特征信息。
2 實(shí)驗(yàn)結(jié)果與分析
2.1 實(shí)驗(yàn)環(huán)境與參數(shù)設(shè)置
本文實(shí)驗(yàn)基于Pytorch框架完成,使用GTX1650(4G) GPU,實(shí)驗(yàn)設(shè)置epochs為100代,批量大小為4,初始學(xué)習(xí)率為0.01,衰減率為0.937,使用SGD優(yōu)化器,IOU閾值設(shè)置為0.5。
2.2 數(shù)據(jù)集的選擇和處理
本文從DOTAv1.5和Fair1M數(shù)據(jù)集中選取了763張遙感圖像,涵蓋14個類別,具體分布如圖4所示。從圖5中的樣本數(shù)量分布來看,小型車輛占比最高,其次是船只、大型車輛、港口和飛機(jī);而其他類別(如足球場、籃球場等)的樣本數(shù)量較少。可以看出,該數(shù)據(jù)集中小目標(biāo)樣本的占比最高。隨后,通過圖像切割方法生成了5 987張分辨率為
1 024×1 024的圖片,并按7∶2∶1的比例劃分為訓(xùn)練集、驗(yàn)證集和測試集,其中訓(xùn)練集包含4 192張圖片,驗(yàn)證集包含1 197張圖片,測試集包含598張圖片。樣本數(shù)量分布如圖5所示。
2.3 實(shí)驗(yàn)評價指標(biāo)
本實(shí)驗(yàn)選擇精確率(Precision)、召回率(Recall)、mAP@0.5和mAP@0.5:0.95作為評估指標(biāo)。其中,Precision表示預(yù)測為正的樣本中正確的樣本數(shù),Recall表示實(shí)際為正的樣本中正確預(yù)測的樣本數(shù)。以Recall為x軸,Precision為y軸,繪制出P-R曲線。平均精度(AP)在P-R曲線的基礎(chǔ)上,進(jìn)一步考慮了預(yù)測邊界框與真實(shí)邊界框之間的交并比(IoU)。平均精度AP的計(jì)算如下:
2.4 YOLOv8n-HA模型實(shí)驗(yàn)分析
2.4.1 模型實(shí)驗(yàn)對比
為了驗(yàn)證改進(jìn)模型的檢測性能,將改進(jìn)模型YOLOv8n-HA與YOLOv8n在數(shù)據(jù)集上進(jìn)行訓(xùn)練測試,各樣本的P-R曲線如圖6所示。
平均精度均值對比如圖7所示,可以看出,YOLOv8n-HA整體優(yōu)于YOLOv8n。
實(shí)驗(yàn)結(jié)果見表1,對比結(jié)果見表2。從表1可以看出,在Small vehicle樣本上,YOLOv8n-HA的mAP@0.5和mAP@0.5:0.95達(dá)到了0.678和0.409,相較于YOLOv8n的0.667和0.394,分別提升了0.011和0.015;單從指標(biāo)上看,提升最大的是Roundabouts,YOLOv8n-HA的mAP@0.5和mAP@0.5:0.95達(dá)到了0.902和0.820,相較于YOLOv8n的0.773和0.682,分別提升了0.129和0.138。由表2可以看出,YOLOv8n-HA的mAP@0.5和mAP@0.5:0.95達(dá)到了最高的0.797和0.597,相較于YOLOv8n的0.784和0.569,分別提升了0.013和0.028。
2.4.2 檢測效果可視化
YOLOv8n模型在訓(xùn)練時對許多小目標(biāo)存在漏檢現(xiàn)象,而添加了HA注意力機(jī)制的改進(jìn)模型YOLOv8n-HA則表現(xiàn)較好。這一點(diǎn)在兩個模型訓(xùn)練階段的混淆矩陣中也有所體現(xiàn),在面對同一個小目標(biāo)樣本Container crane時,YOLOv8n模型在訓(xùn)練時把大部分Container crane樣本視作了背景圖,比例高達(dá)0.93,而YOLOv8n-HA有所改善,把Container crane樣本視作背景圖的比例為0.67,提升約0.28,對比如圖8所示。
3 結(jié) 語
本文在YOLOv8n模型的基礎(chǔ)上引入了HA注意力機(jī)制,并在DOTAv1.5和Fair1M數(shù)據(jù)集的子集上進(jìn)行了實(shí)驗(yàn)。從實(shí)驗(yàn)結(jié)果上來看,在拍攝高度升高和檢測目標(biāo)體積較小的情況下,YOLOv8n模型在小目標(biāo)檢測上存在漏檢問題,而YOLOv8n-HA模型則顯著改善了這一問題。實(shí)驗(yàn)結(jié)果表明,YOLOv8n-HA模型在數(shù)據(jù)集上的mAP@0.5和mAP@0.5:0.95分別達(dá)到了0.797和0.597,較YOLOv8n模型分別提升了0.013和0.028。
參考文獻(xiàn)
[1] KIM Y. Convolutional neural networks for sentence classification [J]. Conference on empirical methods in natural language processing, 2014.
[2] FELZENSZWALB P F, GIRSHICK R B, MCALLESTER D, et al. Object detection with discriminatively trained part-based models [J]. IEEE transactions on pattern analysis and machine intelligence, 2010, 32(9): 1627-1645.
[3] GIRSHICK R. Fast R-CNN [C]// 2015 IEEE International Conference on Computer Vision (ICCV). Santiago, Chile: IEEE, 2015: 1440-1448.
[4] WEI L, DRAGOMIR A, DUMITRU E, et al. SSD: single shot multibox detector [J]. arXiv: 1512.02325 [cs.CV].
[5] REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once:" unified, real-time object detection [C]// Computer Vision amp; Pattern Recognition (CVPR). Las Vegas, NV, USA: IEEE, 2016: 779-788.
[6] LIN T Y, DOLLAR P, GIRSHICK R, et al. Feature pyramid networks for object detection [C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu, HI, USA: IEEE, 2017: 936-944.
[7] LIU S, QI L, QIN HF, et al. Path aggregation network for instance segmentation [C]// 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Salt Lake City, UT, USA: IEEE, 2018: 8759-8768.
[8] GE Z, LIU S, WANG F, et al. YOLOx: Exceeding YOLO Series in 2021 [J]. arXiv: 2107.08430 [cs.CV].
[9] YU J H, JIANG Y N, WANG Z Y, et al. UnitBox: an advanced object detection network [C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, NV, USA, 2016:516-524.
[10] CHEN X Y, WANG X T, ZHANG W L, et al. HAT: hybrid attention transformer for image restoration [J]. arXiv: 2309.05239 [cs.CV].