亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        山地城市下基于YOLO的目標(biāo)檢測算法

        2025-02-20 00:00:00郭躍強(qiáng)張春城陳彥林馬騰龍
        專用汽車 2025年2期
        關(guān)鍵詞:深度學(xué)習(xí)

        摘要:在復(fù)雜道路場景下檢測圖像存在光照變化、遮擋、背景雜亂等問題,導(dǎo)致對場景里多目標(biāo)的檢測難度增大,尤其是在山地城市的道路場景下的檢測。為解決此類問題,提出了一種基于YOLO算法的目標(biāo)檢測模型YOLO-MIS(YOLO for Multi-target in Infrared Scene)。在典型山地城市數(shù)據(jù)集上的實驗結(jié)果表明:YOLO-MIS在滿足網(wǎng)絡(luò)模型輕量的情況下,與原模型相比其檢測精度提升了57%,實現(xiàn)了在復(fù)雜交通場景中對目標(biāo)的精確檢測。

        關(guān)鍵詞:智能交通;復(fù)雜交通場景;目標(biāo)檢測;深度學(xué)習(xí)

        中圖分類號:U495" 收稿日期:2024-11-13

        DOI:1019999/jcnki1004-0226202502019

        1 前言

        在自動駕駛技術(shù)中,目標(biāo)檢測是極其重要的一部分,利用檢測算法可以有效對道路場景中的目標(biāo)進(jìn)行實時捕捉。精確地辨識并定位道路目標(biāo)能為行駛中的車輛提供實時的路況數(shù)據(jù),輔助車輛進(jìn)行行車決策,從而確保行車安全。近年來,深度學(xué)習(xí)技術(shù)取得了顯著進(jìn)步,極大地增強(qiáng)了計算機(jī)視覺在行人及車輛識別方面的可行性。將深度學(xué)習(xí)驅(qū)動的目標(biāo)檢測算法融入行人車輛識別技術(shù),對于自動駕駛汽車環(huán)境感知能力的提升及其研究應(yīng)用而言,具有深遠(yuǎn)的意義[1]。

        用于目標(biāo)檢測的深度學(xué)習(xí)算法可分為兩大類[2]。第一類是建立在候選區(qū)域生成的基礎(chǔ)上(即兩階段方法),其工作流程分為兩大步驟:首先,通過算法的一個子網(wǎng)絡(luò)來產(chǎn)生一系列可能的候選區(qū)域框;接著,對這些候選框進(jìn)行細(xì)致的分類與精確定位。R-CNN[3]、Fast R-CNN[4],以及Faster R-CNN[5]等,均屬于這一類方法的代表算法。另一類檢測方法是基于直接回歸的檢測(單階段法),這種方法省去了生成候選框的步驟,而是直接在最終的特征映射圖上產(chǎn)生候選邊界框,并同時進(jìn)行分類與定位處理。YOLO[6-9]系列算法和SSD[10]算法便是此類方法的典型代表。

        兩階段算法參數(shù)較多、較為復(fù)雜,其通常具有較高的檢測水平,但對于有實時檢測需求的車輛來說,其檢測速度過慢;單階段算法的模型結(jié)構(gòu)相對簡單,檢測速度也更快,但其精度沒有雙階段算法高。

        隨著近幾年的深度學(xué)習(xí)算法的發(fā)展,單階段目標(biāo)檢測算法在滿足實時檢測的基礎(chǔ)上,準(zhǔn)確率也接近雙階段算法的水平,這對于自動駕駛領(lǐng)域的研究仍有較高的研究意義。

        因此,本文以單階段算法中的YOLOv5檢測網(wǎng)絡(luò)為基礎(chǔ),做了以下改進(jìn):

        a.使用了輕量化RepViT結(jié)構(gòu),提高模型對場景內(nèi)目標(biāo)關(guān)鍵特征的關(guān)注度,降低復(fù)雜背景信息的影響。

        b.在特征融合網(wǎng)絡(luò)上添加高效多尺度注意力模塊(EMA),以增強(qiáng)模型在不同尺度下的檢測能力。

        c.添加MemoryEfficientMish 激活函數(shù),使不同層級間特征圖的信息充分融合。

        d.將原有的損失函數(shù)改進(jìn)為Wise-IoU,使錨框的質(zhì)量得到改善,提高模型的整體性能。

        2 改進(jìn)后的YOLO模型

        圖1所示為優(yōu)化后的目標(biāo)檢測模型YOLO-MIS的網(wǎng)絡(luò)框架。首先,在Neck中替換高效的RepViTBlock主干網(wǎng)絡(luò),極大地提升了模型在復(fù)雜場景下對目標(biāo)特征融合的能力;其次,對C3模塊引入EMA注意力機(jī)制,以多尺度的手段提取目標(biāo)特征,有效抑制場景中的特征不明顯、特征差異大的現(xiàn)象;最后,分別對激活函數(shù)和損失函數(shù)進(jìn)行調(diào)整,增強(qiáng)訓(xùn)練的平滑性。

        21 新型輕量化RepViT結(jié)構(gòu)

        在原模型中,YOLOv5通過在Neck網(wǎng)絡(luò)層中使用“FPN-PAN”的結(jié)構(gòu),實現(xiàn)了精度的提升,但由于特征金字塔網(wǎng)絡(luò)結(jié)構(gòu)受限于單向信息傳遞的約束,使得模型變得冗余。因此,本文將輕量化RepViT[11]添加至Neck網(wǎng)絡(luò)中,對于復(fù)雜場景中同一類目標(biāo)變化大、特征信息差距大的情況,加入了RepViT結(jié)構(gòu)的網(wǎng)絡(luò),整合了不同階段的目標(biāo)特征信息,增強(qiáng)了模型特征表達(dá)能力,進(jìn)一步增強(qiáng)了場景中對多個目標(biāo)的檢測能力。RepViT在MobileNetV3的基礎(chǔ)上,將DW卷積模塊提前,使通道混合器和令牌混合器分開,在推理期間又合并到一起。然后,引入了結(jié)構(gòu)重參數(shù)化技術(shù)來增強(qiáng)模型的訓(xùn)練學(xué)習(xí),使模型獲得最大化的準(zhǔn)確性收益和最小化的延遲增量,消除了推斷期間的計算和內(nèi)存成本,大大提高了模型的整體性能。

        22 高效多尺度EMA注意力機(jī)制

        Efficient Multi-Scale Attention(EMA)注意力機(jī)制模塊[12] 模塊使用了一種跨空間學(xué)習(xí)策略,首先,把輸入的通道維度(c×h×w)重塑為批量維度(3×g×h×w),從而得到多個并行子網(wǎng)絡(luò),接著在并行子網(wǎng)絡(luò)中構(gòu)建局部的跨通道交互連接,同時整合兩個并行子網(wǎng)絡(luò)的輸出特征,建立通道之間的短和長依賴關(guān)系,即在提高了目標(biāo)的特征表示的同時,避免了注意力機(jī)制進(jìn)行通道降維時的影響。EMA的網(wǎng)絡(luò)結(jié)構(gòu)圖如圖2所示,其中輸入維度為c×h×w。

        23 基于動態(tài)非單調(diào)聚焦機(jī)制的WIOU

        本文采用的WIOU_Loss(wise intersection over union loss)[13]很好地處理了預(yù)測框與目標(biāo)框之間方向一致性的問題,基于特殊的聚焦方法,使用了新的標(biāo)準(zhǔn)方法來評估錨框質(zhì)量,減少了對低質(zhì)量目標(biāo)的關(guān)注,避免了模型學(xué)習(xí)到不利梯度的影響,大大提升了預(yù)測框與目標(biāo)框之間的對應(yīng)關(guān)系,使得模型可以很好地處理目標(biāo)特征信息弱的問題。其公式如下:

        式中,[x]、[y]為預(yù)測框的中心點橫縱坐標(biāo);[w]和[h]分別為預(yù)測框的寬度和高度;[xgt]、[ygt]是真實框中心點的橫縱坐標(biāo);[wgt]和[hgt]是真實框的寬度和高度;[Wg]和[Hg]為預(yù)測框與真實框區(qū)域構(gòu)成的最小封閉盒的寬度和高度;[Wi]和[Hi]為兩者重疊區(qū)域的寬度和高度;[LIOU]為[LIOU](交并比損失)的滑動平均值;[r]作為一個梯度增益因子,通過調(diào)整其值可以加快或減慢模型的學(xué)習(xí)速度,并影響模型的穩(wěn)定性;[β]用于衡量樣本的離群程度,其數(shù)值越大,意味著樣本的質(zhì)量越低。

        24 MEMish激活函數(shù)

        Mish激活函數(shù)[14]在集成ReLU函數(shù)無上限且有下限特性的基礎(chǔ)上,還進(jìn)一步融合了平滑性和單調(diào)性的優(yōu)勢,這些特點使訓(xùn)練過程中梯度下降更加順暢,有助于加速模型的收斂,并提高檢測的精確度。MEMish(Memory Efficient Mish)是為了在模型中節(jié)省內(nèi)存而設(shè)計的改進(jìn)Mish激活函數(shù),通過近似的方式來簡化計算,以降低計算復(fù)雜度,從而節(jié)省內(nèi)存。與原模型的SiLU函數(shù)相比,MEMish激活函數(shù)在分類的檢測準(zhǔn)確率上要更高,對于模型面對復(fù)雜場景的訓(xùn)練時,效果更加顯著。以下是SiLU函數(shù)與MEMish函數(shù)的數(shù)學(xué)表達(dá)式:

        3 實驗結(jié)果與分析

        31 實驗數(shù)據(jù)集和參數(shù)設(shè)置

        為驗證本文改進(jìn)算法的有效性,本文使用采自云南昆明的數(shù)據(jù)集作為實驗數(shù)據(jù)集,該數(shù)據(jù)集包含各種復(fù)雜場景以及山地城市的典型場景,共包含1 886張圖像,涵蓋7種較廣泛的檢測類別,如車輛、行人、騎車人、動物、交通設(shè)施、障礙物和雜項,具體細(xì)分了35個標(biāo)簽。

        表1為本文實驗的環(huán)境及訓(xùn)練的基本參數(shù)。針對場景的特性,在訓(xùn)練過程中采用如下參數(shù)進(jìn)行優(yōu)化:輸入圖像分辨率為460×460,使用SGD優(yōu)化器,學(xué)習(xí)率設(shè)為001,batch_size為16,啟用Mosaic數(shù)據(jù)增強(qiáng)技術(shù),加載預(yù)訓(xùn)練模型訓(xùn)練200個epoch。

        32 實驗評測指標(biāo)

        為了對改進(jìn)后的模型進(jìn)行性能評估,需要從多方面出發(fā)考量,通常使用以下指標(biāo)進(jìn)行評估:Params用來衡量模型的大小,Params越小,占用的內(nèi)存就越??;AP表示單個類別的準(zhǔn)確率;mAP表示所有類別的AP平均值,mAP的值越高,模型的性能越強(qiáng);FPS為幀率的簡稱,直接表示的是每秒鐘顯示的圖像幀數(shù)量,即模型處理圖片的速度。公式如下:

        3.3 消融實驗

        為了驗證改進(jìn)后的模型是否有效,進(jìn)行了一系列消融實驗,實驗結(jié)果如表2所示,“√”表示針對原始模型進(jìn)行的改進(jìn)點。以YOLOv5s作為基準(zhǔn)模型,并使用mAP、FPS等常用指標(biāo)作為評價指標(biāo)來評估實驗效果。

        如表2所示,對于A組實驗,替換了輕量化的RepViT主干網(wǎng)絡(luò),雖然模型的參數(shù)量和計算量略有增加,但是mAP相比于原始的算法提升了25 %,輕量化主干在參數(shù)量增加不大的前提下,使算法對復(fù)雜場景內(nèi)的檢測性能得到了較大的增強(qiáng)。對于B組實驗,在上一組實驗的基礎(chǔ)上,添加了EMA注意力機(jī)制,其mAP較上一組實驗提升了15%,EMA高效、多尺度的特點,使其具有捕捉通道間短和長依賴關(guān)系的特點。對于C組實驗,又添加了損失函數(shù)WIOU,相比上一組mAP提升了14%。對于D組實驗,進(jìn)行更換了Mish激活函數(shù)的實驗,mAP又提升了03%。整體實驗表明,改進(jìn)后的模型精度達(dá)到了較大的提升,參數(shù)略有增加,處理圖片的能力仍然滿足需求。

        4 結(jié)語

        針對在山地城市場景下存在的目標(biāo)檢測效率低的問題,本文提出了一種輕量化目標(biāo)檢測模型,即YOLO-MIS,在本文的研究中取用了35個類別共1 886張圖像進(jìn)行實驗,結(jié)果表明:a.YOLO-MIS與原始YOLOv5s相比,整體上得到較大改善,其表現(xiàn)在檢測精度、模型復(fù)雜度等方面,更適用于移動端;b.模型檢測精度、召回率、mAP均有不同程度的提升,最高精度可達(dá)995%,摩托車、嬰兒車、拖車、交通崗哨、花籃、路面散落物的檢測精度達(dá)到了90%以上;c.模型能夠很好地應(yīng)對場景中復(fù)雜背景、行人目標(biāo)密集以及小目標(biāo)行人的檢測任務(wù),可以解決在小目標(biāo)場景、遮擋場景等復(fù)雜場景中多目標(biāo)識別檢測難的問題,在一定程度上可降低行車的車禍發(fā)生率。

        參考文獻(xiàn):

        [1]段續(xù)庭,周宇康,田大新,等深度學(xué)習(xí)在自動駕駛領(lǐng)域應(yīng)用綜述[J]無人系統(tǒng)技術(shù),2021,4(6):1-27

        [2]肖雨晴,楊慧敏目標(biāo)檢測算法在交通場景中應(yīng)用綜述[J]計算機(jī)工程與應(yīng)用,2021,57(6):30-41

        [3]Girshick R,Donahue J, Darrell T, et al Rich feature hierarchies for accurate object detection and semantic segmentation [C]//Proceedings of the IEEE conference on computer vision and pattern recognition,2014:580-587

        [4]Girshick R Fast r-cnn[C]//Proceedings of the IEEE international conference on computer vision,2015:1440-1448

        [5]Ren Shaoqing, He Kaiming, Girshick Ross,et al Faster R-CNN: towards real-time object detection with region proposal networks[J]IEEE transactions on pattern analysis and machine intelligence,2017,39(6):102-110

        [6]Redmon J, Divvala S, Girshick R, et al You only look once:Unified, real-time object detection[C] //Proceedings of the IEEE conference on computer vision and pattern recognition,2016:779-788

        [7]Redmon J, Farhadi A YOLO9000: better, faster, stronger[C]//Proceedings of the IEEE conference on computer vision and pattern recognition,2017: 7263-7271

        [8]Redmon J, Farhadi A Yolov3: An incremental improvement [J] arXiv preprint arXiv:180402767,2018

        [9]Bochkovskiy A,Wang C Y,Liao H Y MYolov4:Optimal speed and accuracy of object detection[J]arXiv preprint arXiv:200410934, 2020

        [10]Liu W, Anguelov D,Erhan D,et alSsd:Single shot multibox detector[C]//European conference on computer vision Springer,Cham,2016:21-37

        [11]Wang A,Chen H,Lin Z,et alRepvit:Revisiting mobile cnn from vit perspective[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition,2024:15909-15920

        [12]Ouyang D,He S,Zhang G,et alEfficient multi-scale attention module with cross-spatial learning[C]//ICASSP 2023-2023 IEEE International Conference on Acoustics,Speech and Signal Processing (ICASSP)IEEE,2023:1-5

        [13]Tong Z,Chen Y,Xu Z,et alWise-IoU:bounding box regression loss with dynamic focusing mechanism[J]arxiv preprint arxiv:230110051,2023

        [14]Su X,Zhang J,Ma Z,et alIdentification of Rare Wildlife in the Field Environment Based on the Improved YOLOv5 Model[J] Remote Sensing,2024,16(9):1535

        作者簡介:

        郭躍強(qiáng),男,1999年生,碩士研究生,研究方向為新能源汽車關(guān)鍵技術(shù)。

        猜你喜歡
        深度學(xué)習(xí)
        從合坐走向合學(xué):淺議新學(xué)習(xí)模式的構(gòu)建
        面向大數(shù)據(jù)遠(yuǎn)程開放實驗平臺構(gòu)建研究
        基于自動智能分類器的圖書館亂架圖書檢測
        搭建深度學(xué)習(xí)的三級階梯
        有體驗的學(xué)習(xí)才是有意義的學(xué)習(xí)
        電子商務(wù)中基于深度學(xué)習(xí)的虛假交易識別研究
        利用網(wǎng)絡(luò)技術(shù)促進(jìn)學(xué)生深度學(xué)習(xí)的幾大策略
        考試周刊(2016年94期)2016-12-12 12:15:04
        MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場域建構(gòu)
        大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
        深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
        一本之道加勒比在线观看| 国产青青草在线观看视频| 日本中文字幕婷婷在线| 日本少妇高潮喷水视频| 日本少妇高潮喷水xxxxxxx| 成人久久久久久久久久久| 欧美乱妇日本无乱码特黄大片| 一区二区免费电影| 色综合久久五月天久久久| 九九久久精品一区二区三区av| 嗯啊好爽高潮了在线观看| 99精品久久精品一区二区| 亚洲精品久久中文字幕| 欧美精品区| 九一成人AV无码一区二区三区| 免费的黄网站精品久久| 亚洲国产丝袜久久久精品一区二区| 特黄做受又硬又粗又大视频小说| 18成人片黄网站www| 国产乱子伦精品免费女| 性感人妻一区二区三区| 国产韩国一区二区三区| 中文字幕在线观看| 中国熟妇人妻xxxxx| 国产精品国产三级农村妇女| 成年毛片18成年毛片| 亚洲av日韩综合一区尤物| 国产大片黄在线观看| 欧美日韩精品一区二区在线视频| 久久精品国产亚洲片| 蜜桃视频在线免费视频| 国产精品久免费的黄网站| 国产精品黄在线观看免费软件| 日韩一区二区肥| 亚洲中文字幕有码av| 蜜桃视频在线观看网址| 在线涩涩免费观看国产精品| 国产精品视频一区国模私拍| 国产精品亚洲婷婷99久久精品 | av高潮一区二区三区| 天堂8在线新版官网|