亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

山地城市下基于YOLO的目標(biāo)檢測算法

2025-02-20 00:00:00郭躍強(qiáng)張春城陳彥林馬騰龍

專用汽車 2025年2期

摘要：在復(fù)雜道路場景下檢測圖像存在光照變化、遮擋、背景雜亂等問題，導(dǎo)致對場景里多目標(biāo)的檢測難度增大，尤其是在山地城市的道路場景下的檢測。為解決此類問題，提出了一種基于YOLO算法的目標(biāo)檢測模型YOLO-MIS（YOLO for Multi-target in Infrared Scene）。在典型山地城市數(shù)據(jù)集上的實驗結(jié)果表明：YOLO-MIS在滿足網(wǎng)絡(luò)模型輕量的情況下，與原模型相比其檢測精度提升了57%，實現(xiàn)了在復(fù)雜交通場景中對目標(biāo)的精確檢測。

關(guān)鍵詞：智能交通；復(fù)雜交通場景；目標(biāo)檢測；深度學(xué)習(xí)

中圖分類號：U495" 收稿日期：2024-11-13

DOI：1019999/jcnki1004-0226202502019

1 前言

在自動駕駛技術(shù)中，目標(biāo)檢測是極其重要的一部分，利用檢測算法可以有效對道路場景中的目標(biāo)進(jìn)行實時捕捉。精確地辨識并定位道路目標(biāo)能為行駛中的車輛提供實時的路況數(shù)據(jù)，輔助車輛進(jìn)行行車決策，從而確保行車安全。近年來，深度學(xué)習(xí)技術(shù)取得了顯著進(jìn)步，極大地增強(qiáng)了計算機(jī)視覺在行人及車輛識別方面的可行性。將深度學(xué)習(xí)驅(qū)動的目標(biāo)檢測算法融入行人車輛識別技術(shù)，對于自動駕駛汽車環(huán)境感知能力的提升及其研究應(yīng)用而言，具有深遠(yuǎn)的意義[1]。

用于目標(biāo)檢測的深度學(xué)習(xí)算法可分為兩大類[2]。第一類是建立在候選區(qū)域生成的基礎(chǔ)上（即兩階段方法），其工作流程分為兩大步驟：首先，通過算法的一個子網(wǎng)絡(luò)來產(chǎn)生一系列可能的候選區(qū)域框；接著，對這些候選框進(jìn)行細(xì)致的分類與精確定位。R-CNN[3]、Fast R-CNN[4]，以及Faster R-CNN[5]等，均屬于這一類方法的代表算法。另一類檢測方法是基于直接回歸的檢測（單階段法），這種方法省去了生成候選框的步驟，而是直接在最終的特征映射圖上產(chǎn)生候選邊界框，并同時進(jìn)行分類與定位處理。YOLO[6-9]系列算法和SSD[10]算法便是此類方法的典型代表。

兩階段算法參數(shù)較多、較為復(fù)雜，其通常具有較高的檢測水平，但對于有實時檢測需求的車輛來說，其檢測速度過慢；單階段算法的模型結(jié)構(gòu)相對簡單，檢測速度也更快，但其精度沒有雙階段算法高。

隨著近幾年的深度學(xué)習(xí)算法的發(fā)展，單階段目標(biāo)檢測算法在滿足實時檢測的基礎(chǔ)上，準(zhǔn)確率也接近雙階段算法的水平，這對于自動駕駛領(lǐng)域的研究仍有較高的研究意義。

因此，本文以單階段算法中的YOLOv5檢測網(wǎng)絡(luò)為基礎(chǔ)，做了以下改進(jìn)：

a.使用了輕量化RepViT結(jié)構(gòu)，提高模型對場景內(nèi)目標(biāo)關(guān)鍵特征的關(guān)注度，降低復(fù)雜背景信息的影響。

b.在特征融合網(wǎng)絡(luò)上添加高效多尺度注意力模塊（EMA），以增強(qiáng)模型在不同尺度下的檢測能力。

c.添加MemoryEfficientMish 激活函數(shù)，使不同層級間特征圖的信息充分融合。

d.將原有的損失函數(shù)改進(jìn)為Wise-IoU，使錨框的質(zhì)量得到改善，提高模型的整體性能。

2 改進(jìn)后的YOLO模型

圖1所示為優(yōu)化后的目標(biāo)檢測模型YOLO-MIS的網(wǎng)絡(luò)框架。首先，在Neck中替換高效的RepViTBlock主干網(wǎng)絡(luò)，極大地提升了模型在復(fù)雜場景下對目標(biāo)特征融合的能力；其次，對C3模塊引入EMA注意力機(jī)制，以多尺度的手段提取目標(biāo)特征，有效抑制場景中的特征不明顯、特征差異大的現(xiàn)象；最后，分別對激活函數(shù)和損失函數(shù)進(jìn)行調(diào)整，增強(qiáng)訓(xùn)練的平滑性。

21 新型輕量化RepViT結(jié)構(gòu)

在原模型中，YOLOv5通過在Neck網(wǎng)絡(luò)層中使用“FPN-PAN”的結(jié)構(gòu)，實現(xiàn)了精度的提升，但由于特征金字塔網(wǎng)絡(luò)結(jié)構(gòu)受限于單向信息傳遞的約束，使得模型變得冗余。因此，本文將輕量化RepViT[11]添加至Neck網(wǎng)絡(luò)中，對于復(fù)雜場景中同一類目標(biāo)變化大、特征信息差距大的情況，加入了RepViT結(jié)構(gòu)的網(wǎng)絡(luò)，整合了不同階段的目標(biāo)特征信息，增強(qiáng)了模型特征表達(dá)能力，進(jìn)一步增強(qiáng)了場景中對多個目標(biāo)的檢測能力。RepViT在MobileNetV3的基礎(chǔ)上，將DW卷積模塊提前，使通道混合器和令牌混合器分開，在推理期間又合并到一起。然后，引入了結(jié)構(gòu)重參數(shù)化技術(shù)來增強(qiáng)模型的訓(xùn)練學(xué)習(xí)，使模型獲得最大化的準(zhǔn)確性收益和最小化的延遲增量，消除了推斷期間的計算和內(nèi)存成本，大大提高了模型的整體性能。

22 高效多尺度EMA注意力機(jī)制

Efficient Multi-Scale Attention（EMA）注意力機(jī)制模塊[12] 模塊使用了一種跨空間學(xué)習(xí)策略，首先，把輸入的通道維度（c×h×w）重塑為批量維度（3×g×h×w），從而得到多個并行子網(wǎng)絡(luò)，接著在并行子網(wǎng)絡(luò)中構(gòu)建局部的跨通道交互連接，同時整合兩個并行子網(wǎng)絡(luò)的輸出特征，建立通道之間的短和長依賴關(guān)系，即在提高了目標(biāo)的特征表示的同時，避免了注意力機(jī)制進(jìn)行通道降維時的影響。EMA的網(wǎng)絡(luò)結(jié)構(gòu)圖如圖2所示，其中輸入維度為c×h×w。

23 基于動態(tài)非單調(diào)聚焦機(jī)制的WIOU

本文采用的WIOU_Loss（wise intersection over union loss）[13]很好地處理了預(yù)測框與目標(biāo)框之間方向一致性的問題，基于特殊的聚焦方法，使用了新的標(biāo)準(zhǔn)方法來評估錨框質(zhì)量，減少了對低質(zhì)量目標(biāo)的關(guān)注，避免了模型學(xué)習(xí)到不利梯度的影響，大大提升了預(yù)測框與目標(biāo)框之間的對應(yīng)關(guān)系，使得模型可以很好地處理目標(biāo)特征信息弱的問題。其公式如下：

式中，[x]、[y]為預(yù)測框的中心點橫縱坐標(biāo)；[w]和[h]分別為預(yù)測框的寬度和高度；[xgt]、[ygt]是真實框中心點的橫縱坐標(biāo)；[wgt]和[hgt]是真實框的寬度和高度；[Wg]和[Hg]為預(yù)測框與真實框區(qū)域構(gòu)成的最小封閉盒的寬度和高度；[Wi]和[Hi]為兩者重疊區(qū)域的寬度和高度；[LIOU]為[LIOU]（交并比損失）的滑動平均值；[r]作為一個梯度增益因子，通過調(diào)整其值可以加快或減慢模型的學(xué)習(xí)速度，并影響模型的穩(wěn)定性；[β]用于衡量樣本的離群程度，其數(shù)值越大，意味著樣本的質(zhì)量越低。

24 MEMish激活函數(shù)

Mish激活函數(shù)[14]在集成ReLU函數(shù)無上限且有下限特性的基礎(chǔ)上，還進(jìn)一步融合了平滑性和單調(diào)性的優(yōu)勢，這些特點使訓(xùn)練過程中梯度下降更加順暢，有助于加速模型的收斂，并提高檢測的精確度。MEMish（Memory Efficient Mish）是為了在模型中節(jié)省內(nèi)存而設(shè)計的改進(jìn)Mish激活函數(shù)，通過近似的方式來簡化計算，以降低計算復(fù)雜度，從而節(jié)省內(nèi)存。與原模型的SiLU函數(shù)相比，MEMish激活函數(shù)在分類的檢測準(zhǔn)確率上要更高，對于模型面對復(fù)雜場景的訓(xùn)練時，效果更加顯著。以下是SiLU函數(shù)與MEMish函數(shù)的數(shù)學(xué)表達(dá)式：

3 實驗結(jié)果與分析

31 實驗數(shù)據(jù)集和參數(shù)設(shè)置

為驗證本文改進(jìn)算法的有效性，本文使用采自云南昆明的數(shù)據(jù)集作為實驗數(shù)據(jù)集，該數(shù)據(jù)集包含各種復(fù)雜場景以及山地城市的典型場景，共包含1 886張圖像，涵蓋7種較廣泛的檢測類別，如車輛、行人、騎車人、動物、交通設(shè)施、障礙物和雜項，具體細(xì)分了35個標(biāo)簽。

表1為本文實驗的環(huán)境及訓(xùn)練的基本參數(shù)。針對場景的特性，在訓(xùn)練過程中采用如下參數(shù)進(jìn)行優(yōu)化：輸入圖像分辨率為460×460，使用SGD優(yōu)化器，學(xué)習(xí)率設(shè)為001，batch_size為16，啟用Mosaic數(shù)據(jù)增強(qiáng)技術(shù)，加載預(yù)訓(xùn)練模型訓(xùn)練200個epoch。

32 實驗評測指標(biāo)

為了對改進(jìn)后的模型進(jìn)行性能評估，需要從多方面出發(fā)考量，通常使用以下指標(biāo)進(jìn)行評估：Params用來衡量模型的大小，Params越小，占用的內(nèi)存就越??；AP表示單個類別的準(zhǔn)確率；mAP表示所有類別的AP平均值，mAP的值越高，模型的性能越強(qiáng)；FPS為幀率的簡稱，直接表示的是每秒鐘顯示的圖像幀數(shù)量，即模型處理圖片的速度。公式如下：

3.3 消融實驗

為了驗證改進(jìn)后的模型是否有效，進(jìn)行了一系列消融實驗，實驗結(jié)果如表2所示，“√”表示針對原始模型進(jìn)行的改進(jìn)點。以YOLOv5s作為基準(zhǔn)模型，并使用mAP、FPS等常用指標(biāo)作為評價指標(biāo)來評估實驗效果。

如表2所示，對于A組實驗，替換了輕量化的RepViT主干網(wǎng)絡(luò)，雖然模型的參數(shù)量和計算量略有增加，但是mAP相比于原始的算法提升了25 %，輕量化主干在參數(shù)量增加不大的前提下，使算法對復(fù)雜場景內(nèi)的檢測性能得到了較大的增強(qiáng)。對于B組實驗，在上一組實驗的基礎(chǔ)上，添加了EMA注意力機(jī)制，其mAP較上一組實驗提升了15%，EMA高效、多尺度的特點，使其具有捕捉通道間短和長依賴關(guān)系的特點。對于C組實驗，又添加了損失函數(shù)WIOU，相比上一組mAP提升了14%。對于D組實驗，進(jìn)行更換了Mish激活函數(shù)的實驗，mAP又提升了03%。整體實驗表明，改進(jìn)后的模型精度達(dá)到了較大的提升，參數(shù)略有增加，處理圖片的能力仍然滿足需求。

4 結(jié)語

針對在山地城市場景下存在的目標(biāo)檢測效率低的問題，本文提出了一種輕量化目標(biāo)檢測模型，即YOLO-MIS，在本文的研究中取用了35個類別共1 886張圖像進(jìn)行實驗，結(jié)果表明：a.YOLO-MIS與原始YOLOv5s相比，整體上得到較大改善，其表現(xiàn)在檢測精度、模型復(fù)雜度等方面，更適用于移動端；b.模型檢測精度、召回率、mAP均有不同程度的提升，最高精度可達(dá)995%，摩托車、嬰兒車、拖車、交通崗哨、花籃、路面散落物的檢測精度達(dá)到了90%以上；c.模型能夠很好地應(yīng)對場景中復(fù)雜背景、行人目標(biāo)密集以及小目標(biāo)行人的檢測任務(wù)，可以解決在小目標(biāo)場景、遮擋場景等復(fù)雜場景中多目標(biāo)識別檢測難的問題，在一定程度上可降低行車的車禍發(fā)生率。

參考文獻(xiàn)：

[1]段續(xù)庭，周宇康，田大新，等深度學(xué)習(xí)在自動駕駛領(lǐng)域應(yīng)用綜述[J]無人系統(tǒng)技術(shù)，2021，4（6）：1-27

[2]肖雨晴，楊慧敏目標(biāo)檢測算法在交通場景中應(yīng)用綜述[J]計算機(jī)工程與應(yīng)用，2021，57（6）：30-41

[3]Girshick R，Donahue J， Darrell T， et al Rich feature hierarchies for accurate object detection and semantic segmentation [C]//Proceedings of the IEEE conference on computer vision and pattern recognition，2014：580-587

[4]Girshick R Fast r-cnn[C]//Proceedings of the IEEE international conference on computer vision，2015：1440-1448

[5]Ren Shaoqing， He Kaiming， Girshick Ross，et al Faster R-CNN： towards real-time object detection with region proposal networks[J]IEEE transactions on pattern analysis and machine intelligence，2017，39（6）：102-110

[6]Redmon J， Divvala S， Girshick R， et al You only look once：Unified， real-time object detection[C] //Proceedings of the IEEE conference on computer vision and pattern recognition，2016：779-788

[7]Redmon J， Farhadi A YOLO9000： better， faster， stronger[C]//Proceedings of the IEEE conference on computer vision and pattern recognition，2017： 7263-7271

[8]Redmon J， Farhadi A Yolov3： An incremental improvement [J] arXiv preprint arXiv：180402767，2018

[9]Bochkovskiy A，Wang C Y，Liao H Y MYolov4：Optimal speed and accuracy of object detection[J]arXiv preprint arXiv：200410934， 2020

[10]Liu W， Anguelov D，Erhan D，et alSsd：Single shot multibox detector[C]//European conference on computer vision Springer，Cham，2016：21-37

[11]Wang A，Chen H，Lin Z，et alRepvit：Revisiting mobile cnn from vit perspective[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition，2024：15909-15920

[12]Ouyang D，He S，Zhang G，et alEfficient multi-scale attention module with cross-spatial learning[C]//ICASSP 2023-2023 IEEE International Conference on Acoustics，Speech and Signal Processing （ICASSP）IEEE，2023：1-5

[13]Tong Z，Chen Y，Xu Z，et alWise-IoU：bounding box regression loss with dynamic focusing mechanism[J]arxiv preprint arxiv：230110051，2023

[14]Su X，Zhang J，Ma Z，et alIdentification of Rare Wildlife in the Field Environment Based on the Improved YOLOv5 Model[J] Remote Sensing，2024，16（9）：1535

作者簡介：

郭躍強(qiáng)，男，1999年生，碩士研究生，研究方向為新能源汽車關(guān)鍵技術(shù)。