主題詞:自動駕駛目標(biāo)檢測注意力機制多尺度特征融合塵霧環(huán)境中圖分類號:U469.6;TP242.6 文獻標(biāo)志碼:A DOI: 10.19620/j.cnki.1000-3703.20240036
ImprovedYOLOv8n ObjectDetection AlgorithminDust andFogEnvironment
WangZiyu’,ZhangJiancheng2,LiuYuansheng2 (1.Scholof UrbanRail TransitandLogistics,Beijing Union University,Beijing1Oo101;2.Schoolof Robotics, Beijing Union University,Beijing100101)
【Abstract】To address the issues of missed detections,1 detections and lowaccuracy in detecting smalland distant objects underadverse conditions such as dustand haze,this paper proposestheEPM-YOLOv8object detection algorithm.The Eficient ChannelAtention (ECA)moduleisintegratedintotheC2f moduleof theYOLOv8nalgorithm,enablingthebackbone network to focus more effectivelyonshallowandsmallrobjectfeatures.Byadding anadditional detectionlayeranddesigning a multi-dimension feature fusion architecture,the model'sability to extracttarget featuresandits detectionaccuracyare significantlyimproved.Furthermore,alossfunctionbasedontheMinimumPointDistance IntersectionoverUnion(MPDIoU) is employedtoenhance theprecisionofboundingboxregresion.ExperimentalresultsdemonstratethattheEPM-YOLOv8model achieves a precision ratio of 83.6% and a detection accuracy of 76.8% ,exhibiting superior detection performance under challenging conditions such as haze and dust.
Key Words:Autonomous driving,Object detection,Attention mechanism,Multi-scale feature fusion,Dusty and foggy environment
【引用格式】王子鈺,張建成,劉元盛.改進YOLOv8n的塵霧環(huán)境下目標(biāo)檢測算法[J].汽車技術(shù),2025(6):1-7. WANGZY,ZHANGJC,LIUYS.ImprovedYOLOv8n Object DetectionAlgorithminDustandFog Environment[J]. Automobile Technology,2025(6): 1-7.
1前言
在塵霧環(huán)境中,圖像模糊、質(zhì)量下降導(dǎo)致有效特征提取困難,目標(biāo)檢測任務(wù)易出現(xiàn)精度降低、錯檢和漏檢等問題。因此,提高揚塵、霧霾等惡劣環(huán)境下的目標(biāo)檢測精度對于自動駕駛場景應(yīng)用至關(guān)重要。
為了解決復(fù)雜惡劣環(huán)境下的目標(biāo)檢測問題,Liu等提出圖像自適應(yīng)YOLO(Image-Adaptive YOLO,IA-YOLO),通過引入可微圖像處理模塊,并與YOLOv3聯(lián)合實現(xiàn)檢測。但該方法需要額外的圖像增強和復(fù)雜的參數(shù)調(diào)整,增加了計算復(fù)雜度與實時性壓力。Qiu等]基于圖像去霧和圖像增強提高了圖像質(zhì)量,但預(yù)處理階段存在噪聲,并且額外的處理步驟降低了實時檢測性能。郭迎等3構(gòu)建了一個結(jié)合卷積神經(jīng)網(wǎng)絡(luò)的圖像增強與目標(biāo)檢測的端到端網(wǎng)絡(luò),在跨域檢測中表現(xiàn)較好,但其計算復(fù)雜度較高,限制了應(yīng)用場景。
目前,塵霧環(huán)境目標(biāo)檢測任務(wù)的檢測精度有一定提升,但多依賴于去霧和圖像增強方法,且該方法對圖像背景要求較嚴(yán)苛,很難滿足實時性需求。因此,本文提出了EPM-YOLOv8的目標(biāo)檢測算法,通過引入高效通道注意力(EfficientChannelAttention,ECA)機制,設(shè)計多尺度特征融合算法,增強模型對不同目標(biāo)特征的表征能力。經(jīng)過消融試驗及對比試驗,證明本文方法的有效性。
2改進算法的網(wǎng)絡(luò)結(jié)構(gòu)
2.1 網(wǎng)絡(luò)整體架構(gòu)
為了提升塵霧環(huán)境下模型的目標(biāo)檢測性能,本文基于YOLOv8n改進的網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。其中,主干網(wǎng)絡(luò)中淺層部分的C2f模塊引入ECA注意力機制,形成C2f_ECA模塊,增強骨干網(wǎng)絡(luò)對淺層較小目標(biāo)特征的關(guān)注能力;通過增加目標(biāo)檢測層,并設(shè)計多尺度特征融合架構(gòu),提高網(wǎng)絡(luò)對不同尺度目標(biāo)的特征提取能力;采用最小點距離交并比(MinimumPointDistanceIntersectionoverUnion,MPDIoU)損失函數(shù)優(yōu)化目標(biāo)框回歸,提高檢測精度。
2.2 特征提取
YOLOv8模型主干網(wǎng)絡(luò)能夠獲取信息豐富的高階語義,但很難識別低分辨率塵霧圖像中目標(biāo)的位置信息。因此,通過將ECA注意力引入C2f模塊中,增強特征提取能力,C2f_ECA模塊結(jié)構(gòu)如圖2所示。
ECA為輕量注意力機制,不會增加模型復(fù)雜度。首先,對輸人特征圖 X∈RW×H×C 進行平均池化:
式中: W,H 分別為特征圖的寬度和高度, C 為通道數(shù), Xij 為輸人特征圖在通道的第 (i,j) 個像素點的值。
卷積核k根據(jù)輸入圖像的通道數(shù)自適應(yīng)決定,感受野隨著通道數(shù)變化進行自適應(yīng)調(diào)整。鑒于線性函數(shù)表征關(guān)系有限,網(wǎng)絡(luò)通道數(shù) c 通常為2的整次冪,所以 k 與C 間非線性映射關(guān)系為:
式中:l |odd|odd 為距點最近的奇數(shù), γ,b 分別為簡單線性映射的比例系數(shù)和常量。
通過Sigmoid函數(shù)進行歸一化處理,逐個通道特征加權(quán)求和,得到加權(quán)后特征圖 ,完成跨通道的信息交互。
由于塵霧環(huán)境中,圖像的特征信息所占像素點較少,所以在YOLOv8主干網(wǎng)絡(luò)中,第一層和第二層的C2f模塊的特征層加入ECA,提升獲取特征淺層信息的能力,進一步提高模型對于塵霧干擾的低質(zhì)量圖像檢測精度。C2fECA在非線性映射下,高維通道特征交互范圍更大,低維通道特征的交互作用較小。
2.3特征融合
在連續(xù)下采樣過程中,特征圖的分辨率逐漸降低,模糊小目標(biāo)的特征表征能力明顯減弱,導(dǎo)致檢測效果不佳。原始YOLOv8的路徑聚合網(wǎng)絡(luò)(PathAggregationNetwork,PANet采用自底向上和自頂向下路徑聚合進行多尺度特征融合,見圖3a,但自底向上特征融合階段的輸人特征缺少骨干中原始輸出特征映射。根據(jù)雙向特征金字塔網(wǎng)絡(luò)5(BidirectionalFeaturePyramidNetwork,BiFPN)的融合特點,見圖3b,使用交叉融合可以有效去除對特征融合未產(chǎn)生貢獻的節(jié)點,相同尺度下可融合更多特征,實現(xiàn)更高級別的特征融合。
由于檢測模型難以有效學(xué)習(xí)塵霧環(huán)境的目標(biāo)特征,僅在YOLOv8模型最后3個C2f模塊中添加特征檢測層,如圖4所示。通過在較淺的特征圖中添加一個額外的特征預(yù)測層,增強對淺層特征的利用,從而提升模型的特征提取能力和小目標(biāo)檢測性能。
對于受塵霧干擾的特征信息較少的目標(biāo)檢測問題,通過設(shè)計添加一個目標(biāo)檢測層來檢測目標(biāo)信息較淺的特征圖,并融合到特征融合網(wǎng)絡(luò)中。然而,僅在網(wǎng)絡(luò)中保留額外的淺層語義信息會導(dǎo)致深層語義信息一定程度的丟失,所以本研究在增加額外的特征預(yù)測層的基礎(chǔ)上,采用跨尺度連接的方法,在不增加計算成本的情況下融合更多的特征信息,進而提高網(wǎng)絡(luò)模型的目標(biāo)檢測性能。
2.4損失函數(shù)
YOLOv8將完整的交并比(CompleteIntersectionoverUnion,CIoU)損失作為邊界損失:
式中: ρ(b,bg),nIoU 分別為預(yù)測框和真實框間歐氏距離和交并比, c2 為預(yù)測框和真實框間最小外聯(lián)矩形框的對角線距離, σv 為正平衡參數(shù), ω,h 分別為圖像的寬度和高度。
CIoU損失雖然引入橫縱比,但未考慮相同橫縱比情況下,圖像的寬度、高度不同的情況,如圖5所示。因此,在密集物體檢測任務(wù)中,極易出現(xiàn)檢測框重復(fù)問題,從而影響檢測精度。
已知檢測框的左上角和右下角坐標(biāo),即可確定一個唯一的矩形。相較于CIoU損失函數(shù),MPDIoU損失函數(shù)將檢測框左上角、右下角坐標(biāo)間的距離與全局圖像對角線的比值作為相似性表示,如圖6所示。通過最小化預(yù)測邊界框與真實邊界框間的距離,優(yōu)化檢測框回歸問題,避免了忽略的相同橫縱比而寬度、高度不同的情況。MPDIoU損失函數(shù)可表示為:
式中: ?(x1A,y1A),(x2A,y2A) 分別為真值檢測框 A 的左上點和右下點坐標(biāo), ,(x1B,y1B),(x2B,y2B) 分別為預(yù)測檢測框 B 的左上點和右下點坐標(biāo), d1,d2 分別為檢測框的左上角坐標(biāo)間和右下角坐標(biāo)間的歐氏距離。
在目標(biāo)檢測任務(wù)中,MPDIoU損失函數(shù)不僅考慮到損失函數(shù)中的所有因子,同時可以簡化計算過程,保證了邊界框回歸的準(zhǔn)確性,降低了預(yù)測的邊界框的冗余性,解決了目標(biāo)檢測任務(wù)中,同一物體多個檢測框和密集物體檢測框重疊問題。
3試驗環(huán)境與結(jié)果分析
本文模型訓(xùn)練使用第13代英特爾酷睿i9-13900K處理器,圖像處理器為英偉達GeForceRTX3090,顯存容量為 48GB 。其中,模型的測試和推理統(tǒng)一使用單卡試驗。使用PyTorch深度學(xué)習(xí)框架,以Python作為編程語言。
為了進一步驗證本文提出模型的有效性及泛化性能,在擴充數(shù)據(jù)集的基礎(chǔ)上,對模型進行消融試驗及不同模型的對比試驗。
3.1數(shù)據(jù)集
由于傳統(tǒng)數(shù)據(jù)集的環(huán)境多為清晰的白天或夜間圖像,塵霧環(huán)境的數(shù)據(jù)較少,且傳統(tǒng)的大氣散射模型無法準(zhǔn)確模擬真實的霧霾和揚塵環(huán)境。
為此,通過將公開的真實世界任務(wù)驅(qū)動數(shù)據(jù)集(Real-world Task-driven TestingSet,RTTS)中真實霧霾天氣數(shù)據(jù)4417張、大霧城市景觀(FoggyCityscapes)數(shù)據(jù)集的合成圖像2965張、公開RB-DUST數(shù)據(jù)集的揚塵數(shù)據(jù)50張以及自采于鄂爾多斯東勝礦并經(jīng)過數(shù)據(jù)標(biāo)注的揚塵數(shù)據(jù)300張整合為試驗使用數(shù)據(jù)集。通過數(shù)據(jù)增強,擴充后數(shù)據(jù)可分為行人、汽車、自行車和摩托車4類檢測目標(biāo),共9767張。將數(shù)據(jù)以7:2:1劃分為訓(xùn)練集、測試集和驗證集,其中,RB-DUST數(shù)據(jù)集和自采數(shù)據(jù)集均加入驗證集。
3.2評價指標(biāo)
將精確度(Precision)P、召回率(Recall)R、平均精度(meanAveragePrecision, mAP 作為模型性能評價指標(biāo)。其中,精確度衡量模型預(yù)測的準(zhǔn)確性,表示被預(yù)測為正樣本的目標(biāo)中,實際為正樣本的比例;召回率評估模型對正樣本的檢出能力,表示實際正樣本中,被正確檢測出的比例;平均精度綜合評估模型在所有類別和不同閾值下的整體性能,反映模型對所有類別目標(biāo)的綜合檢測能力。各指標(biāo)的計算公式為:
式中: XTP 為被網(wǎng)絡(luò)模型正確檢測出來的目標(biāo)數(shù), XFP 為被網(wǎng)絡(luò)模型錯誤檢出的目標(biāo)數(shù), XFN 為未被網(wǎng)絡(luò)模型檢測出來的目標(biāo)數(shù), ∣c∣ 為分類數(shù), ,AAP 為單個目標(biāo)類別的平均精度。
在試驗平臺中,使用外接英特爾RealSenseD435i相機,結(jié)合機器人操作系統(tǒng)(RobotOperatingSystem,ROS)Noetic版本測試模型實時性,將幀率作為評價指標(biāo)。同時,將浮點運算次數(shù)(Floating-Point Operations,F(xiàn)LOPs)和參數(shù)量(Parameter)作為模型復(fù)雜度評價指標(biāo)。為了更準(zhǔn)確地評估模型的性能,經(jīng)過多次測試取平均值作為最終結(jié)果。
3.3試驗結(jié)果
3.3.1 消融試驗
為了驗證各模塊的合理性,以YOLOv8n為基線,對本文模型進行消融試驗,結(jié)果如表1所示,其中, mAP(?50 為所有類別中,閾值IoU為0.5時的平均精度,反映了模型在較低IoU中的目標(biāo)檢測能力。
由表1可知,由于ECA為輕量級的注意力機制,將C2f_ECA模塊替換原始模型中主干網(wǎng)絡(luò)的第1層、第2層的C2f模塊,在降低模型參數(shù)量的同時,有效提高了目標(biāo)檢測精度。由于在原有模型中增加了一個自標(biāo)檢測層,且為多尺度特征融合架構(gòu),所以計算量有所增加。檢測精度、檢測框查準(zhǔn)率分別提高了2.0和0.7百分點,表明改進后模型在精度和誤檢率控制方面取得了更優(yōu)的平衡,檢測性能得到了明顯改善,進一步證明了本文模型的有效性。
使用MPDIoU作為模型的損失函數(shù),在未增加模型參數(shù)量和計算量的基礎(chǔ)上,檢測性能與精度均有所提升,在驗證集中可視化效果如圖7所示。使用MPDIoU損失函數(shù)避免了多檢測框漏檢問題,進而提高了網(wǎng)絡(luò)的檢測效果。
通過消融試驗可知,本文模型在保證實時性的情況下,檢測框查準(zhǔn)率從 79.1% 提升至 83.6% ,檢測精度mAP@50 從 73.4% 提升至 76.8% ,各模塊均能夠有效提高目標(biāo)檢測性能,為實際應(yīng)用提供了一種兼顧實時性與可靠性的檢測解決方案。
3.3.2 對比試驗
為了驗證本文模型的有效性,對比YOLO系列算法及部分目標(biāo)檢測算法,結(jié)果如表2所示。同時,對檢測結(jié)果進行可視化分析,如圖8所示。
由檢測結(jié)果可知,本文方法在檢測性能上相對于其它算法的優(yōu)越性。與經(jīng)典單次多檢測框(SingleShotMultiBoxDetector,SSD)模型[12]、RetinaNet模型[13]和兩階段模型區(qū)域卷積神經(jīng)網(wǎng)絡(luò)[14](FastRegion-basedConvolutionalNeural Networks,F(xiàn)asterR-CNN)相比,YOLO系列模型在速度和精度之間達到了較好的平衡。
基于Transformer系列[15]最新模型RT-DETR(Real-TimeDetectionTransformer)[6通過取消傳統(tǒng)候選框生成和后處理步驟,簡化了檢測流程,但計算成本較高。雖然與本文模型的檢測精度接近,但RT-DETR的參數(shù)量和計算復(fù)雜度明顯高于本文模型,且實時性較差,在實際應(yīng)用場景中局限性較大。
相較于基線模型YOLOv8n,YOLOv8繼承了YOLOv5和YOLOv7的優(yōu)點[1],提升了檢測精度和速度,但對于小目標(biāo)的檢測,極易出現(xiàn)誤識別和漏檢問題。而本文模型對小目標(biāo)和模糊目標(biāo)的檢測精度明顯提升,幀率能夠達到155幀/s,符合實時性檢測要求;本文模型在參數(shù)量和計算浮點數(shù)顯著降低的情況下,檢測精度與YOLOv8s達到同等水平,同時具備更好的實時性優(yōu)勢。
綜合分析表明,本文模型在復(fù)雜環(huán)境的目標(biāo)檢測任務(wù)中,充分考慮了圖像模糊、小目標(biāo)特征需求,實現(xiàn)了檢測精度與運算效率的良好平衡;在同系列算法中,能夠保持較低的參數(shù)量和較高的浮點運算次數(shù),實現(xiàn)了檢測性能與運算復(fù)雜度間的平衡,展現(xiàn)了實際工程中的應(yīng)用潛力。
以YOLOv8n為基線,數(shù)據(jù)集中各類別目標(biāo)檢測結(jié)果如表3所示。本文模型對于行人檢測精度提升了
2.2% ,表明改進算法在小目標(biāo)和模糊目標(biāo)檢測方面更具優(yōu)勢;汽車檢測精度提高了 3% ,進一步優(yōu)化了對大目標(biāo)的識別性能;自行車檢測精度雖提升 3% ,但在復(fù)雜背景下表現(xiàn)更加穩(wěn)定;摩托車檢測精度提升幅度達到 5.4% ,改進算法對復(fù)雜目標(biāo)的辨識能力顯著增強。因此,本文模型通過改進特征提取和多尺度融合,增強了對復(fù)雜場景中多類別目標(biāo)的檢測能力,具有更高的實用價值。
4結(jié)束語
本文針對塵霧環(huán)境下的目標(biāo)檢測需求,提出了EPM-YOLOv8算法,增強了模型對復(fù)雜環(huán)境中目標(biāo)特征的學(xué)習(xí)能力,實現(xiàn)了更高效的自動檢測性能,有效簡化了檢測流程,提升了實時性和場景適用性,具有一定潛力。
未來,將針對揚塵、霧霾環(huán)境繼續(xù)擴充數(shù)據(jù)集,并探索遠紅外熱成像儀、毫米波雷達等多傳感器融合檢測,以目標(biāo)檢測準(zhǔn)確性和精確性,為自動駕駛車輛在塵霧惡劣環(huán)境下快速、準(zhǔn)確的目標(biāo)檢測任務(wù)提供新思路。
參考文獻
[1]LIUWY,RENGF,YURS,etal.Image-AdaptiveYOLO forObject Detectionin AdverseWeather Conditions[C/OL]// Proceedings of theAAAI Conferenceon Artificial Intelligence.Palo Alto,California,USA:AAAI,2022.
[2]QIUY S,LUYY,WANGYT,et al.IDOD-YOLOV7: Image-Dehazing YOLOV7 for Object Detection in LowLightFoggy Trafc Environments[J]. Sensors,2023,23(3).
[3]郭迎,梁睿琳,王潤民.基于CNN圖像增強的霧天跨域自 適應(yīng)目標(biāo)檢測[J].計算機工程與應(yīng)用,2023,59(16):187- 195. GUOY,LIANGRL,WANGRM.Cross-DomainAdaptive Object Detection Based on CNN Image Enhancement in Foggy Conditions[J]. Computer Engineering and Applications,2023,59(16): 187-195.
[4]WANGQL,WUBG,ZHUPF,et al.ECA-Net:Efficient Channel Attention for Deep Convolutional Neural Networks[C]/ 2020 IEEE/CVF Conference on Computer Visionand Pattern Recognition(CVPR). Seattle,WA,USA: IEEE,2020.
[5]TAN MX,PANGRM,LEQV.EfficientDet: Scalable and Efficient Object Detection[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Seattle,WA,USA:IEEE,2020.
[6]MA SL,XU Y.MPDIoU:A Loss for Efficient and Accurate Bounding Box Regression[EB/OL]. (2023-07-14) [2024-02- 02]. https://doi.org/10.48550/arXiv.2307.07662.
[7]LIBY,REN WQ,F(xiàn)U DP,et al.Benchmarking SingleImage Dehazing and Beyond[J]. IEEE Transactions on Image Processing,2018,28(1): 492-505.
[8] SAKARIDIS C,DAI D X, VAN G L. Semantic Foggy Scene Understanding with Synthetic Data[J]. International Journal of Computer Vision,2018,126: 973-992.
[9] BUCKEL P, OKSANEN T, DIETMUELLER T. RB-DuSt-A Reference-Based Dataset forVision-Based Dust Removal[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Vancouver,BC, Canada: IEEE,2023.
[10]REDMON J,F(xiàn)ARHADI A. YOLOv3:An Incremental Improvement[C]// Computer Visionand Pattern Recognition.Berlin/Heidelberg,Germany:Springer,2018, 1804:1-6.
[11]LI C Y,LI L L, JIANG HL, et al. YOLOv6: A Single-Stage ObjectDetection Framework for Industrial Applications[EB/ OL]. (2022-09-07)[2024-02-02]. https://doi.org/10.48550/ arXiv.2209.02976.
[12] LIU W,ANGUELOV D,ERHAND,et al. SSD: Single Shot MultiboxDetector[C]//ComputerVision-ECCV2016:14th European Conference.Amsterdam,The Netherlands: Springer International Publishing,2016.
[13] LIN T Y,GOYAL P,GIRSHICK R, et al. Focal Loss for Dense Object Detection[C]//Proceedings of the IEEE International Conference on Computer Vision.Venice, Italy: IEEE,2017.
[14] REN SQ,HE KM,GIRSHICKR,et al.Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2016,39(6): 1137-1149.
[15]CARIONN,MASSAF,SYNNAEVEG,etal.End-to-End Object Detection with Transformers[C]//European Conference on Computer Vision.Glasgow,UK: Springer International Publishing,2020.
[16]ZHAOYA,LVWY,XUSL,etal.DERTsBeatYOLOs onReal-Time Object Detection[C]// 2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).Seattle,WA,USA:IEEE,2024.
[17]WANGC Y,BOCHKOVSKIY A,LIAO HY. YOLOv7: Trainable Bag-of-FreebiesSetsNewState-of-the-Art for Real-TimeObjectDetectors[C]//2023 IEEE/CVFConference on Computer Vision and Pattern Recognition (CVPR). Vancouver,BC, Canada: IEEE,2023: 7464-7475. (責(zé)任編輯瑞秋) 修改稿收到日期為2024年2月2日。