亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于注意力機(jī)制的YOLOv5優(yōu)化模型

        2023-12-30 05:26:26潘燁新黃啟鵬
        關(guān)鍵詞:特征檢測(cè)模型

        潘燁新,黃啟鵬,韋 超,楊 哲

        (1.蘇州大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 蘇州 215006;2.省計(jì)算機(jī)信息處理技術(shù)重點(diǎn)實(shí)驗(yàn)室,江蘇 蘇州 215006)

        0 引 言

        目標(biāo)檢測(cè)是機(jī)器視覺領(lǐng)域重要的研究?jī)?nèi)容之一[1],目前主流的檢測(cè)模型分為單階段模型、雙階段模型以及基于Transformer解編碼結(jié)構(gòu)的模型[2]。雙階段算法先提取候選區(qū)域再進(jìn)行分類和回歸,如RCNN[3],Faster R-CNN[4]系列。這些方法在檢測(cè)精度上表現(xiàn)出色,但由于計(jì)算量較大,檢測(cè)速度較慢。單階段檢測(cè)算法無需提取候選區(qū)域, 2直接對(duì)每個(gè)特征圖進(jìn)行回歸預(yù)測(cè)。經(jīng)典的單階段檢測(cè)算法有YOLO[5],SSD[6],FCOS[7]等系列算法,YOLO因檢測(cè)速度快被廣泛應(yīng)用于工業(yè)和日常生活中。但由于YOLOv5使用的骨干網(wǎng)絡(luò)CSPDarknet-53[8]提取的特征圖尺寸較小、分辨率較低、像素感受野較大,導(dǎo)致小目標(biāo)的定位性能較差,因此整體性能仍存在一定的優(yōu)化空間。同時(shí)整個(gè)網(wǎng)絡(luò)中主要負(fù)責(zé)提取圖像特征的是C3模塊,分布在網(wǎng)絡(luò)的骨干和頸部中。在骨干部分,C3模塊可以為特征圖提取到大量的位置與細(xì)節(jié)信息,但語義信息提取的較少。當(dāng)特征圖前向傳播到頸部部分后,在特征金字塔網(wǎng)絡(luò)(FPN[9])與像素聚合網(wǎng)絡(luò)(PAN)框架的結(jié)合作用下,C3模塊主要負(fù)責(zé)紋理特征的提取,此時(shí)會(huì)獲得較為豐富的語義信息,但丟失了大量的位置與細(xì)節(jié)信息。導(dǎo)致網(wǎng)絡(luò)模型對(duì)于小物體及有遮擋目標(biāo)產(chǎn)生漏檢誤檢情況,性能下降。該文提出一種基于注意力機(jī)制的YOLOv5優(yōu)化模型。通過引入DRA(Dimension Related Attention,維度關(guān)聯(lián)注意力)模塊來解決C3模塊信息丟失問題,增強(qiáng)主干網(wǎng)絡(luò)提取圖像特征的能力;針對(duì)感受野大而導(dǎo)致的定位困難問題,引入新的定位計(jì)算損失函數(shù),在提高邊界框的定位精確度的同時(shí)優(yōu)化模型的推理速度,間接提升模型的性能。在通用數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,該方法提升了主干網(wǎng)絡(luò)的特征提取能力,降低了回歸參數(shù)的損失,從而提升了模型的整體性能。

        1 相關(guān)工作

        1.1 目標(biāo)檢測(cè)模型

        雙階段模型的代表RCNN開創(chuàng)性地使用深度學(xué)習(xí)模型進(jìn)行目標(biāo)檢測(cè)。但存在兩個(gè)問題:一是經(jīng)過縮放處理后會(huì)使一些圖片特征信息丟失,從而降低檢測(cè)的準(zhǔn)確性,不利于小目標(biāo)的檢測(cè);二是在訓(xùn)練和預(yù)測(cè)中,RCNN的速度都非常慢。Faster R-CNN提出了區(qū)域生成網(wǎng)絡(luò)(Region Proposal Networks,RPN)用于提升檢測(cè)框的生成速度,最終精度較高,但實(shí)時(shí)性與檢測(cè)小目標(biāo)的效果差。YOLO是單階段模型的起始作,不再生成候選區(qū)而是直接進(jìn)行分類和回歸。v1通過將圖像劃分成多個(gè)網(wǎng)格來生成候選框。相比于二階段模型,檢測(cè)速度有了很大提高,但精度相對(duì)較低,尤其在小目標(biāo)檢測(cè)方面。v2[10]改變了主干網(wǎng)絡(luò),相比v1模型在精度、速度和分類數(shù)量上都有了很大的改進(jìn),但由于每個(gè)網(wǎng)格只能預(yù)測(cè)一個(gè)物體,當(dāng)同一個(gè)網(wǎng)格內(nèi)包含多個(gè)物體時(shí)只能檢測(cè)到一個(gè),因此對(duì)小物體的識(shí)別效果仍然非常差。v3[11]中提出了基于錨框的思想,使得最后的特征圖上基于每個(gè)單元格都有三個(gè)不同的尺寸大小的錨框,進(jìn)而對(duì)錨框進(jìn)行分類與回歸。v4[8]針對(duì)預(yù)處理以及激活函數(shù)問題,分別引入了Mosaic數(shù)據(jù)增強(qiáng)手段以及Mish激活函數(shù)[12],使得網(wǎng)絡(luò)的收斂速度與精度進(jìn)一步提升,但仍然存在框定位不準(zhǔn)以及召回率低的問題。YOLOv5在對(duì)模型主干以及頸部的基礎(chǔ)改進(jìn)之外,更換了新的損失函數(shù)計(jì)算方法,同時(shí)優(yōu)化了一直存在的正負(fù)樣本分配問題。但對(duì)于整體而言,預(yù)測(cè)框的回歸精度與速度仍然較差。研究者們針對(duì)不同應(yīng)用場(chǎng)景和問題,提出了基于YOLOv5的一系列應(yīng)用優(yōu)化算法。張浩等人[13]提出的算法旨在提高無人機(jī)視角下密集小目標(biāo)的檢測(cè)精度,并保證實(shí)時(shí)性。李永軍等人[14]將紅外成像與v5模型相結(jié)合,解決動(dòng)態(tài)識(shí)別與密集目標(biāo)的問題。竇其龍[15]通過優(yōu)化深度學(xué)習(xí)網(wǎng)絡(luò)、重新設(shè)置錨點(diǎn)框大小和嵌入GDAL模塊,提高檢測(cè)速度和降低漏檢率。劉閃亮[16]則提出了注意力特征融合結(jié)構(gòu),進(jìn)一步提高模型對(duì)小目標(biāo)的檢測(cè)性能。田楓[17]提出了Cascade-YOLOv5,用于油田場(chǎng)景規(guī)范化著裝檢測(cè),來提高檢測(cè)性能。這些算法都是基于YOLOv5的改進(jìn)和優(yōu)化,以適應(yīng)不同領(lǐng)域和應(yīng)用需求。

        1.2 注意力機(jī)制

        在機(jī)器視覺領(lǐng)域,常使用的是軟注意力,對(duì)其按維度可劃分為通道注意力、空間注意力和自注意力。通道注意力旨在聯(lián)系不同特征圖,通過網(wǎng)絡(luò)訓(xùn)練獲取每個(gè)通道的重要度從而賦予不同權(quán)重最終強(qiáng)化重要特征,代表模型如SE-Net(Squeeze and Excitation)[18]??臻g注意力通過空間轉(zhuǎn)換和掩碼加權(quán)等方式增強(qiáng)興趣區(qū)域[19]的同時(shí)弱化背景區(qū)域。如輕量級(jí)注意力模塊CBAM[20]。自注意力旨在最大化利用特征自身的固有信息進(jìn)行交互。在Google提出的Transformer架構(gòu)中被實(shí)際應(yīng)用,何凱明等人將其應(yīng)用到CV領(lǐng)域,并提出了Non-Local模塊[21],通過自注意力機(jī)制有效地捕獲長(zhǎng)距離的特征依賴,實(shí)現(xiàn)全局上下文信息的建模。注意力機(jī)制模塊眾多,模型性能差異大,對(duì)比評(píng)估一些新型且有效的注意力機(jī)制模塊,并進(jìn)行一些創(chuàng)新改進(jìn),對(duì)提升復(fù)雜多尺度目標(biāo)的檢測(cè)性能是非常有意義的。

        2 改進(jìn)后的YOLOv5優(yōu)化模型

        2.1 DRA注意力機(jī)制

        DRA模塊在經(jīng)典的SE模塊上做出優(yōu)化,如公式1所示,它可以對(duì)網(wǎng)絡(luò)中任意的中間特征張量進(jìn)行轉(zhuǎn)化變換后輸出同樣尺寸的張量。DRA模塊結(jié)構(gòu)如圖1所示。

        圖1 DRA注意力機(jī)制

        X=[x1,x2,…,xc]∈RH×W×C→

        Y=[y1,y2,…,yc]∈RH×W×C

        (1)

        在原先同時(shí)關(guān)注空間和通道信息的基礎(chǔ)上,通過改變?nèi)殖鼗牟僮?保留通道間信息的同時(shí)考慮重要的空間信息。

        通道注意力常采用全局池化編碼全局空間信息,簡(jiǎn)而言之是全局信息被壓縮成了一個(gè)標(biāo)量,而壓縮完之后的標(biāo)量難以保留重要的空間信息。為解決此問題,DRA將全局池化操作改進(jìn)為兩個(gè)1維向量的編碼操作。

        為了獲取輸入圖像的高度與寬度上的注意力,并完成對(duì)精確位置信息的編碼,對(duì)于輸入特征圖,使用池化核(1,W)和(H,1)分別對(duì)高度和寬度的特征進(jìn)行平均池化,從而獲得兩個(gè)方向的特征圖,如式2和式3所示。

        (2)

        (3)

        對(duì)比全局池化的壓縮方式,這樣能夠允許注意力模塊捕捉單方向上的長(zhǎng)距離關(guān)系,同時(shí)保留另一個(gè)方向上的空間信息,幫助網(wǎng)絡(luò)模型更準(zhǔn)確地定位目標(biāo)。

        接著將獲得全局感受野的高度和寬度兩個(gè)方向的特征圖按通道維度拼接在一起,主要目的是方便之后進(jìn)行批量歸一化(Batch Normalization,BN)操作。將它們送入卷積核為1×1的共享卷積模塊Conv2D,將其維度降低為C/r,r為可設(shè)定的縮減因子,接著對(duì)其進(jìn)行BN處理,將得到的特征圖記為F1,最后送入Swish激活函數(shù)進(jìn)行非線性變換,將這種變換記為δ,即可得到尺寸為C/r×1×(W+H)的包含橫向和縱向空間信息的特征圖f,如公式4所示。

        f=δ(F1([Zh,Zw]))

        (4)

        隨后將f按照原來的高度和寬度進(jìn)行卷積核大小為1×1的卷積,分別得到通道數(shù)與原來一樣的兩個(gè)獨(dú)立的特征fh和fw,最后經(jīng)過Sigmoid激活函數(shù)后,分別得到特征圖在高度上的注意力權(quán)重gh和在寬度方向的注意力權(quán)重gw,如式5和式6所示。

        gh=σ(Fh(fh))

        (5)

        gw=σ(Fw(fw))

        (6)

        最后在原始特征圖上通過乘法加權(quán)計(jì)算,得到最終在寬度和高度方向上帶有注意力權(quán)重的特征圖,如式7所示。

        (7)

        2.2 注意力機(jī)制融合

        針對(duì)原模型對(duì)于特征表達(dá)能力的不足,不易識(shí)別難檢目標(biāo),以及由于只考慮通道信息而缺失方向相關(guān)信息帶來的定位不準(zhǔn)等問題,通過將DRA模塊插入到網(wǎng)絡(luò)模塊中解決。同時(shí)由于原模型的主干,頸部,檢測(cè)頭三層結(jié)構(gòu)會(huì)帶來結(jié)果的干擾性以及不確定性,該文分析了在三層結(jié)構(gòu)不同位置插入DRA模塊的效果。如圖2所示,分別在主干,頸部,預(yù)測(cè)頭中插入DRA模塊。對(duì)于主干部分,細(xì)分了DRA的插入位置。根據(jù)后續(xù)實(shí)驗(yàn)表1的數(shù)據(jù),最終確定選擇(b)方式插入到主干,將新的整體結(jié)構(gòu)命名為CDRA模塊,取代原模型主干中的C3模塊。CDRA模塊相比YOLO v5原先的C3模塊最大的改進(jìn)在于,每個(gè)權(quán)重都包含了通道間信息、橫向空間信息和縱向空間信息,能夠幫助主干網(wǎng)絡(luò)更準(zhǔn)確地定位目標(biāo)信息,增強(qiáng)識(shí)別能力。

        表1 不同位置的注意力機(jī)制融合結(jié)果對(duì)比 %

        (a)原C3結(jié)構(gòu) (b)插入主干C3最后一層 (c)插入主干C3的殘差模塊 (d)插入Neck部分 (e)插入Head部分

        將運(yùn)用維度關(guān)聯(lián)注意力機(jī)制融合的CDRA替換原C3模塊,經(jīng)過改進(jìn)后的YOLOv5s結(jié)構(gòu)如圖3所示。圖3中,YOLOv5s主要由主干網(wǎng)絡(luò)、頸部、預(yù)測(cè)頭部網(wǎng)絡(luò)三部分組成,主干部分的替換工作對(duì)改進(jìn)后的YOLOv5s性能提升起到?jīng)Q定性作用。

        2.3 損失函數(shù)

        目標(biāo)檢測(cè)模型的損失函數(shù)通常由三個(gè)部分構(gòu)成,分別為預(yù)測(cè)框的定位損失Lbox,置信度損失Lobj,分類損失Lcls,整體的網(wǎng)絡(luò)損失的計(jì)算如式8所示。

        L=Lbox+Lobj+Lcls

        (8)

        其中置信度損失和分類損失均采用交叉熵?fù)p失(Binary Cross Entropy Loss),公式如式9所示。

        (9)

        預(yù)測(cè)框的定位損失用來衡量當(dāng)前模型所給出的預(yù)測(cè)框與真實(shí)框之間位置上的誤差,具體會(huì)計(jì)算兩者的中心坐標(biāo)、高、寬等誤差。早期模型一般采用L1,L2,smooth L1來計(jì)算該損失,但其忽略了4個(gè)回歸參數(shù)之間的相關(guān)性。當(dāng)前常用的是交并比損失(Intersection over Union,IoU),IoU的計(jì)算公式如式10所示。

        (10)

        其中,B=(x,y,w,h)表示預(yù)測(cè)框的位置,Bgt=(xgt,ygt,wgt,hgt)表示真實(shí)框的位置。

        IoU損失的計(jì)算公式如式11所示。

        lossIoU=1-IoU

        (11)

        由公式可知兩個(gè)矩形框重合度越高,IoU越接近1,則損失越接近0。但采用IoU損失生效的情況僅在兩框之間有重疊的部分,對(duì)于非重疊的兩個(gè)框,IoU損失不會(huì)提供任何可供傳遞的梯度。

        YOLOv5原始模型中采用CIoU作為邊界框的定位損失函數(shù)。CIoU是在DIoU(Distance IoU)[22]的基礎(chǔ)上考慮了兩框的長(zhǎng)寬比而演化而來,但是仍然沒有考慮到真實(shí)框與預(yù)測(cè)框之間不匹配的方向。這種不足導(dǎo)致CIoU收斂速度較慢且效率較低。

        為了解決CIoU存在的問題,該文引入SIoU[23]用以改進(jìn),保留了原損失函數(shù)的全部性質(zhì),同時(shí)考慮方向框的角度回歸問題,重新定義了懲罰指標(biāo)。

        SIoU由四部分組成:角度損失Λ、距離損失Δ、形狀損失Ω以及交并比損失(IoU)。

        角度損失函數(shù)組件Λ,如式12所示。

        (12)

        其中,x是直角三角形中的對(duì)邊比斜邊,如圖4所示,α是兩框中心連線與預(yù)測(cè)框中心水平線的夾角。則x可由式13表示。

        圖4 損失函數(shù)組件示意圖

        (13)

        其中,ch為真實(shí)框和預(yù)測(cè)框中心點(diǎn)的高度差,σ為真實(shí)框和預(yù)測(cè)框中心點(diǎn)的距離,可由式14表示。

        (14)

        將式13帶入式12化簡(jiǎn)可得最終的角度損失計(jì)算公式,如式15。

        Λ=sin(2α)

        (15)

        定義角度損失后,考慮到當(dāng)出現(xiàn)同時(shí)存在一個(gè)角度很小但是很近,與一個(gè)角度很大但是很遠(yuǎn)的框的情況時(shí),近的框總是會(huì)被優(yōu)先選擇,所以直接使用角度損失不合理,還需要考慮距離與角度的互相關(guān)系。為了保證距離與角度的平衡,將角度損失同時(shí)考慮,重新定義了距離損失函數(shù),記為Δ,如式16所示。

        微庫(kù)侖綜合分析儀(江蘇江分,JF-WK-2000);輕油氯標(biāo)準(zhǔn)物質(zhì)(10mg·kg-1,江蘇江分);冰醋酸(優(yōu)級(jí)純,科密歐);二次蒸餾水或去離子水。工作時(shí)參數(shù)設(shè)置。見表1。

        (16)

        其中,ρx,ρy,γ定義如式17所示。

        (17)

        ρt是使用原始的距離損失的平方次冪來賦權(quán)重,說明距離的影響要大于角度的影響。

        形狀損失主要負(fù)責(zé)從長(zhǎng)寬角度評(píng)價(jià)預(yù)測(cè)框的回歸參數(shù)與真實(shí)框是否相似,記為Ω,如式18所示。

        (18)

        其中,ωw,ωh如式19所示。

        (19)

        θ用來控制整體對(duì)形狀損失的關(guān)注程度。

        綜合考慮上述3項(xiàng)以及默認(rèn)的IoU損失,就可以得到最后的預(yù)測(cè)框的定位損失函數(shù),如式20所示。

        (20)

        3 實(shí)驗(yàn)與分析

        3.1 實(shí)驗(yàn)環(huán)境

        實(shí)驗(yàn)環(huán)境配置:Window10操作系統(tǒng),32核Intel CPU,32 GB內(nèi)存,兩塊TELSA A100,40 GB存儲(chǔ)空間。深度學(xué)習(xí)框架為PyTorch1.10,圖形處理器驅(qū)動(dòng)為CUDA11.4和Cudnn8。訓(xùn)練過程中所使用的優(yōu)化器為Adam[24],初始學(xué)習(xí)率為0.01,動(dòng)量因子為0.937,權(quán)重衰減為0.000 25,批尺寸為32,總迭代次數(shù)設(shè)置為300。

        3.2 數(shù)據(jù)集及預(yù)處理

        使用Pascal VOC07+12訓(xùn)練集以及VOC07測(cè)試數(shù)據(jù)集來評(píng)估模型性能,包含20個(gè)類別的常見交通工具、家具和動(dòng)物等圖像,可用于目標(biāo)檢測(cè)任務(wù)。共包含8 281張訓(xùn)練圖像、8 333張驗(yàn)證圖像和4 952張測(cè)試圖像。同時(shí),在ImageNet數(shù)據(jù)集上對(duì)模型的主干網(wǎng)絡(luò)進(jìn)行了預(yù)訓(xùn)練,在訓(xùn)練過程中,使用Mosaic數(shù)據(jù)增強(qiáng)技術(shù)對(duì)前75%的訓(xùn)練周期進(jìn)行了處理。

        3.3 評(píng)估指標(biāo)

        使用檢測(cè)速度、檢測(cè)精度和損失函數(shù)收斂曲線等客觀指標(biāo)來評(píng)價(jià)模型的性能。其中,FPS是檢測(cè)速度的評(píng)價(jià)指標(biāo)。AP(Average Precision)是指在0~1范圍內(nèi)P(Precision,正確率)指標(biāo)對(duì)R(Recall,召回率)指標(biāo)的積分,即P-R曲線下面積,AP值越大,模型精度越高。mAP是平均精度均值,指的是每個(gè)目標(biāo)類別AP的均值。

        (21)

        (22)

        (23)

        (24)

        式中,TP表示正確識(shí)別的目標(biāo)數(shù)量,FP表示識(shí)別錯(cuò)誤的目標(biāo)數(shù)量,FN表示未被識(shí)別出目標(biāo)數(shù)量。如果IoU大于一定閾值,則檢測(cè)框被標(biāo)記為TP,否則為FP,如果檢測(cè)到真實(shí)目標(biāo)沒有匹配到對(duì)應(yīng)的預(yù)測(cè)框則標(biāo)記為FN。

        3.4 結(jié)果分析

        3.4.1 改進(jìn)模型的性能綜合分析

        如2.3節(jié)所述,該文嘗試將DRA模塊融合到網(wǎng)絡(luò)模塊的不同位置,并對(duì)相應(yīng)檢測(cè)結(jié)果展開對(duì)比。分別在原模型的主干,頸部,檢測(cè)頭中融入DRA模塊。特殊的對(duì)于backbone部分,更細(xì)化地對(duì)比了簡(jiǎn)單的拼接在尾部或是融入原本的C3模塊中的結(jié)果數(shù)據(jù)。實(shí)驗(yàn)結(jié)果如表1所示,將DRA模塊融入主干網(wǎng)絡(luò)中C3模塊的最后一層檢測(cè)效果最佳。YOLOv5網(wǎng)絡(luò)中提取特征的關(guān)鍵網(wǎng)絡(luò)在主干部分,其中隱含著易被網(wǎng)絡(luò)忽視掉的小目標(biāo)特征信息,而在加入DRA模塊后,對(duì)這部分的特征信息進(jìn)行了注意力重構(gòu),突出了重要信息,而在網(wǎng)絡(luò)更深的Neck以及Head部分,小目標(biāo)的特征信息被淹沒,語義信息較為粗糙,注意力模塊難以區(qū)分出空間以及通道特征,自然無法很好地對(duì)特征進(jìn)一步加強(qiáng)重構(gòu)。

        同時(shí),將文中對(duì)YOLOv5的注意力及結(jié)合方式與其他注意力機(jī)制做對(duì)比,對(duì)比結(jié)果如表2所示,SE[18]是經(jīng)典的注意力機(jī)制起源,CA[25]是坐標(biāo)注意力機(jī)制,CBAM[20]是經(jīng)典的空間通道注意力機(jī)制,ANG是一種輕量型的融合注意力機(jī)制方法模型??梢钥闯瞿P筒⒉贿m合簡(jiǎn)單地嵌套所有的注意力機(jī)制,當(dāng)融合SE后,模型的漏檢率不降反增,說明網(wǎng)絡(luò)對(duì)于深層信息還是沒有掌握能力,再看ANG模型,輕量化的同時(shí)也帶來了精度的大量犧牲,而傳統(tǒng)的CA,CBAM也都基本維持在原精度附近,說明對(duì)于網(wǎng)絡(luò)沒有實(shí)質(zhì)性的提升。

        表2 不同注意力機(jī)制融合對(duì)比結(jié)果 %

        為了分析不同的改進(jìn)策略對(duì)于模型最后的檢測(cè)性能的影響,設(shè)計(jì)了4組消融實(shí)驗(yàn),結(jié)果如表3所示,其中,“×”代表在網(wǎng)絡(luò)中未使用的改進(jìn)策略,“√”代表使用了改進(jìn)。改進(jìn)1在網(wǎng)絡(luò)中替換了損失函數(shù),解決了目標(biāo)框與預(yù)測(cè)框的角度問題,使模型收斂速度與定位精準(zhǔn)度提升;改進(jìn)2在網(wǎng)絡(luò)主干部分的C3模塊中融合了DRA注意力機(jī)制,使得權(quán)重中同時(shí)包含了通道信息,橫向以及縱向空間信息,mAP提升了4.0百分點(diǎn),FPS下降了12.8;改進(jìn)3將兩者同時(shí)融入網(wǎng)絡(luò)中,如前文所述,模型在更好地提取特征的同時(shí)加快了收斂速度,mAP最終提升了4.7百分點(diǎn),檢測(cè)速度則在改進(jìn)2的基礎(chǔ)上加速了5.2,僅與原模型相差7.6。

        表3 消融實(shí)驗(yàn)結(jié)果

        同時(shí)將消融實(shí)驗(yàn)的mAP@0.5曲線繪制在同一個(gè)坐標(biāo)系中,如圖5所示,改進(jìn)后的模型在迭代次數(shù)達(dá)到45時(shí)逐漸趨于穩(wěn)定。進(jìn)一步分析SIoU改進(jìn)的數(shù)據(jù)值曲線,與原始模型的曲線對(duì)比,以更高的收斂速度趨于穩(wěn)定,表明了SIoU損失函數(shù)的替換使得回歸目標(biāo)框能夠以更快的速度,更低的損失,精準(zhǔn)地定位到待檢測(cè)目標(biāo)。

        圖5 不同改進(jìn)策略的mAP@0.5對(duì)比

        3.4.2 模型對(duì)比實(shí)驗(yàn)

        同時(shí)將文中模型與其他模型對(duì)所有類別檢測(cè)精度進(jìn)行對(duì)比分析。Faster R-CNN[4]是二階段檢測(cè)模型的典型代表,SSD[6]是經(jīng)典單階段模型,v3[11]在精度和速度上有較好的均衡性能。v7[26]是當(dāng)前表現(xiàn)較為出色的檢測(cè)模型,而YOLOv5是文中改進(jìn)對(duì)象。表4為所比較模型在所有類別上的檢測(cè)平均精度對(duì)比,在所有20類上的檢測(cè)結(jié)果均優(yōu)于原v5s模型,平均精度均值為87.8%,同時(shí)與當(dāng)前較為優(yōu)秀的YOLOv7模型相比,20類中有16類的結(jié)果高于v7,同時(shí)最終的平均精度均值提升1.4百分點(diǎn)。

        表4 VOC上各類別平均精度結(jié)果

        為進(jìn)一步證實(shí)文中算法的有效性和優(yōu)越性,將文中算法模型與主流模型進(jìn)行對(duì)比。由表5中實(shí)驗(yàn)結(jié)果可得,文中算法模型在保持一定檢測(cè)速度的情況下,擁有更高的檢測(cè)精度。與傳統(tǒng)的雙階段算法Faster R-CNN[4]相比具有較大的檢測(cè)速度優(yōu)勢(shì),平均精度均值提升了14.6百分點(diǎn)。與YOLO系列算法相比,改進(jìn)模型比v3[11],v4[8],v5,v7[26]原始模型的檢測(cè)精度分別提高了10.6,15.1,4.7和1.7百分點(diǎn)。對(duì)于衡量難檢目標(biāo)以及小目標(biāo)檢測(cè)問題的閾值為0.5到0.95的平均精度均值(mAP@0.5:0.95),對(duì)比v5提升了4.5百分點(diǎn),對(duì)比v7提升了2.8百分點(diǎn)。而在檢測(cè)速度方面,文中模型雖比原始模型有所降低,但仍達(dá)到83.3 frame/s,完全可以滿足工業(yè)場(chǎng)景下的實(shí)時(shí)檢測(cè)要求(30 frame/s)。

        表5 不同模型的VOC數(shù)據(jù)集測(cè)試結(jié)果

        4 結(jié)束語

        YOLO系列目標(biāo)檢測(cè)算法是運(yùn)用較為廣泛的單階段目標(biāo)檢測(cè)算法之一。針對(duì)YOLOv5對(duì)難檢目標(biāo),包括小目標(biāo)和遮擋目標(biāo)等檢測(cè)精度不高的問題,提出了注意力機(jī)制融合的方法,將DRA模塊與v5網(wǎng)絡(luò)的主干部分進(jìn)行結(jié)合,以增強(qiáng)模型對(duì)于一些易漏信息的捕捉能力。同時(shí)使用了SIoU函數(shù)替換原損失函數(shù)中負(fù)責(zé)計(jì)算回歸參數(shù)的CIoU損失,提高了收斂速度和回歸精度,改善了遮擋等復(fù)雜情況下的漏檢以及小目標(biāo)物體識(shí)別差的問題。實(shí)驗(yàn)結(jié)果表明,改進(jìn)模型的平均精度超越了原YOLOv5網(wǎng)絡(luò)。雖然模型參數(shù)量稍有增加,但改進(jìn)模型的檢測(cè)速度仍符合工業(yè)需求的檢測(cè)速度。在后期研究中,還可以嘗試對(duì)于主干網(wǎng)絡(luò)中的卷積部分進(jìn)行替換,或是替換特征加強(qiáng)的Neck部分,進(jìn)一步提升模型對(duì)于難檢目標(biāo)的檢測(cè)精度。

        猜你喜歡
        特征檢測(cè)模型
        一半模型
        “不等式”檢測(cè)題
        “一元一次不等式”檢測(cè)題
        “一元一次不等式組”檢測(cè)題
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        如何表達(dá)“特征”
        不忠誠(chéng)的四個(gè)特征
        抓住特征巧觀察
        3D打印中的模型分割與打包
        伊人激情av一区二区三区| 久久精品国产亚洲av网站 | 一区二区三区在线视频观看| 香港aa三级久久三级| 亚洲av午夜一区二区三| 免费看av在线网站网址| 999久久久精品国产消防器材| 国产亚洲无码1024| 久久麻传媒亚洲av国产| 国内精品久久久人妻中文字幕| 免费男人下部进女人下部视频| 91精品国产闺蜜国产在线| 色视频日本一区二区三区| 亚洲女同系列在线观看| 精品久久久bbbb人妻| 精品性高朝久久久久久久| 日本一区免费喷水| 中文字幕乱码日本亚洲一区二区| 东京道一本热中文字幕| 免费可以在线看A∨网站| 国产成人永久在线播放| 白色橄榄树在线阅读免费| 久久精品国产91精品亚洲| 国产精品无码久久久久| 亚洲一区二区婷婷久久| 亚洲一本二区偷拍精品| 成人精品一区二区三区电影| 欧美成人免费全部| 日韩a∨精品日韩在线观看| 黄色av三级在线免费观看| 国产一区二区三区在线蜜桃| 亚洲中文字幕久久精品无码喷水| 国内精品伊人久久久久av| 天堂女人av一区二区| 粉嫩av最新在线高清观看| 亚洲av无码专区在线播放中文| 亚洲国产A∨无码影院| 国产伦奸在线播放免费| 亚洲日韩激情无码一区| 国产尤物AV尤物在线看| 国产一级一片内射视频在线|