亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

結(jié)合改進(jìn)注意力機(jī)制的YOLO目標(biāo)檢測(cè)算法

2023-07-17 08:51:11李杰

計(jì)算機(jī)時(shí)代 2023年7期

李杰

關(guān)鍵詞：YOLO；目標(biāo)檢測(cè)；多尺度卷積；注意力機(jī)制

0 引言

自從Hinton 提出利用神經(jīng)網(wǎng)絡(luò)對(duì)圖像數(shù)據(jù)中的高維特征進(jìn)行自主學(xué)習(xí)[1]以來(lái)，基于深度學(xué)習(xí)的目標(biāo)檢測(cè)已成為計(jì)算機(jī)視覺(jué)領(lǐng)域中一個(gè)重要的研究熱點(diǎn)[2]。目標(biāo)檢測(cè)的方法主要分為雙階段和單階段目標(biāo)檢測(cè)算法。雙階段目標(biāo)檢測(cè)算法，如Fast R-CNN[3]、Faster R-CNN[4]等，都是通過(guò)生成預(yù)選框再利用神經(jīng)網(wǎng)絡(luò)對(duì)候選框進(jìn)行分類(lèi)識(shí)別。單階段目標(biāo)檢測(cè)算法，如YOLO （you only look once） [5]、YOLO 9000[6]等，將目標(biāo)檢測(cè)問(wèn)題轉(zhuǎn)化為回歸問(wèn)題，由一個(gè)無(wú)分支的深度卷積網(wǎng)絡(luò)實(shí)現(xiàn)目標(biāo)的定位和分類(lèi)。單階段算法有著較高的檢測(cè)速率，但還存在檢測(cè)精度不足的問(wèn)題。

注意力機(jī)制是對(duì)特征圖進(jìn)行加權(quán)處理[7]，旨在突出強(qiáng)調(diào)目標(biāo)信息。Hu[8]等人通過(guò)卷積運(yùn)算學(xué)習(xí)各通道權(quán)重來(lái)自適應(yīng)地重新校準(zhǔn)通道特征響應(yīng)。Woo 等人提出一種混合注意力機(jī)制CBAM（convolutional blockattention module）[9]，將特征圖沿通道和空間兩個(gè)不同的維度順序地進(jìn)行自適應(yīng)特征細(xì)化。Sun 等人將ShuffleNet 結(jié)構(gòu)引入到Y(jié)OLOv4 中[10]，減少參數(shù)量的同時(shí)檢測(cè)精度和速度方面也有所提升；Fu 等人將CBAM注意力模塊添加到Y(jié)OLOv4-head 中[11]，對(duì)小目標(biāo)、重疊目標(biāo)具有更好的檢測(cè)效果。但上述研究還存在檢測(cè)精度不足或是沒(méi)有在大型公共數(shù)據(jù)集上進(jìn)行綜合性能測(cè)試。

為此，本文在YOLOv5s 的基礎(chǔ)上進(jìn)行了研究和改進(jìn)。①將多尺度卷積與注意力機(jī)制結(jié)合，提出一種改進(jìn)CBAM 注意力機(jī)制模塊，增大特征提取模塊的感受野；②將改進(jìn)CBAM 模塊引入YOLOv5s 網(wǎng)絡(luò)中，使用改進(jìn)后的注意力機(jī)制模塊進(jìn)行特征篩選，提高改進(jìn)檢測(cè)網(wǎng)絡(luò)準(zhǔn)確率。

1 YOLOv5s 和CBAM 算法

1.1 YOLOv5s 算法

本文在YOLOv5s網(wǎng)絡(luò)的基礎(chǔ)上進(jìn)行改進(jìn)。YOLOv5s的網(wǎng)絡(luò)結(jié)構(gòu)分為主干網(wǎng)絡(luò)部分Backbone、特征增強(qiáng)部分Neck 和預(yù)測(cè)部分Head，如圖1 所示。

網(wǎng)絡(luò)主干Backbone 主要由連續(xù)卷積模塊Conv 和利用劃分通道的思想構(gòu)建的C3 模塊。C3 模塊是由1×1 和3×3 卷積構(gòu)成，包含LeakyReLU 函數(shù)激活的BottleneckCSP 結(jié)構(gòu)。主干網(wǎng)絡(luò)末端還加入一個(gè)特征金字塔池化模塊SPP，使用多尺度的特征融合以獲取更多小目標(biāo)的有用信息從而提升算法對(duì)小目標(biāo)檢測(cè)的精確度。

特征增強(qiáng)Neck 部分采用了FPN[12]+PAN 結(jié)合的方式對(duì)特征進(jìn)行融合從而獲得更好的效果。PAN 包含了自上而下和自底向上兩條路徑上的特征融合，這也使網(wǎng)絡(luò)獲得更高的性能。

預(yù)測(cè)部分Head使用的是GIOU_Loss作為Boundingbox 的損失函數(shù)，并且在進(jìn)行非最大值抑制時(shí)引入加權(quán)因子，在Bounding box 回歸時(shí)平衡了正負(fù)樣本之間的差距。

1.2 CBAM 算法

注意力機(jī)制是一種能夠讓神經(jīng)網(wǎng)絡(luò)擁有能區(qū)分重點(diǎn)區(qū)域信息的能力，并對(duì)該區(qū)域投入更大的權(quán)重，突出和加強(qiáng)有用特征，抑制和忽略無(wú)關(guān)特征。由Woo等人提出的CBAM 算法是一種混合注意力機(jī)制。算法結(jié)構(gòu)如圖2 所示。

CBAM 注意力機(jī)制可分為兩個(gè)順序子模塊：通道注意模塊和空間注意模塊。結(jié)構(gòu)采取串聯(lián)形式。Woo等人已經(jīng)證明將通道注意子模塊放在空間注意子模塊之前會(huì)有更好的效果[9]，因此本文也使用相同的順序結(jié)構(gòu)。

2 引入多尺度卷積的改進(jìn)注意力機(jī)制

傳統(tǒng)混合域注意力機(jī)制CBAM，注意力子模塊會(huì)將特征圖直接進(jìn)行通道域和空間域的全局最大池化和全局平均池化。這樣做法雖然能夠簡(jiǎn)便的提取通道域和空間域的權(quán)重，但模塊對(duì)于特征圖中的信息的利用率低，從而影響檢測(cè)網(wǎng)絡(luò)的準(zhǔn)確性。

本文沿用傳統(tǒng)混合域注意力機(jī)制CBAM 的順序串聯(lián)結(jié)構(gòu)，并對(duì)其通道注意子模塊和空間注意子模塊進(jìn)行了改進(jìn)，構(gòu)建一種改進(jìn)CBAM 注意力機(jī)制模塊，下面描述每個(gè)改進(jìn)注意力子模塊的細(xì)節(jié)。

2.1 通道注意子模塊

將多尺度卷積引入到注意力機(jī)制中，基于便利性也為了減少網(wǎng)絡(luò)參數(shù)只使用3×3 的卷積，同時(shí)結(jié)構(gòu)中保留了一個(gè)沒(méi)有任何操作的路徑來(lái)增加網(wǎng)絡(luò)性能。此外，池化操作對(duì)于當(dāng)前卷積網(wǎng)絡(luò)的性能提升是必不可少的，因此添加一個(gè)并行池化路徑也具有好的效果[14]。為了避免池化層的輸出與卷積層的輸出合并會(huì)導(dǎo)致特征圖維度的增加，先使用1×1 卷積來(lái)約簡(jiǎn)計(jì)算，由于有共計(jì)四層的輸出，所以將原特征圖的通道數(shù)降為原來(lái)的1/4。

對(duì)于一個(gè)輸入特征圖F ∈ Rc × h × w，通道注意子模塊對(duì)原特征圖進(jìn)行兩路并行處理，第一部分進(jìn)行多尺度卷積操作生成新的特征圖*F ∈ Rc × h × w 再進(jìn)行最大池化和平均池化，第二部分不進(jìn)行任何操作直接進(jìn)行最大池化和平均池化，得到四個(gè)的通道注意力向量：{ } Fcmax ，F(xiàn) cavg ，*Fcmax ，*F cavg ∈ Rc × 1 × 1，分別表示平均池化特征和最大池化特征。利用一個(gè)共享的多層感知機(jī)（multi-layer perceptron， MLP）學(xué)習(xí)各通道信息的重要性，最后將四個(gè)通道注意力向量逐元素求和來(lái)合并再經(jīng)過(guò)Sigmoid 函數(shù)激活得到最終的通道注意權(quán)重Mc（F）。簡(jiǎn)而言之，通道注意力權(quán)重計(jì)算公式為：

2.2 空間注意子模塊

將通道注意的結(jié)果進(jìn)一步進(jìn)行空間權(quán)重的提取。空間注意子模塊對(duì)輸入特征圖F' ∈ Rc × h × w 也進(jìn)行與通道注意子模塊相同的兩路并行處理，第一部分使用相同的改進(jìn)多尺度卷積生成新的特征圖*F' ∈ Rc × h × w再沿通道軸應(yīng)用最大池化和平均池化，第二部分不進(jìn)行任何操作，直接應(yīng)用最大池化和平均池化，將得到4個(gè)的空間注意力矩陣：{F's }max ，F(xiàn) 'savg ，*F 'smax ，*F 'savg ∈ R1 × h × w，分別表示通道中的平均池化特征和最大池化特征，并將它們連接起來(lái)以生成有效的特征描述圖。在特征將通道權(quán)重Mc （F）與輸入F進(jìn)行對(duì)應(yīng)通道的加權(quán)，得到通道注意的結(jié)果。共享網(wǎng)絡(luò)MLP 是帶有一個(gè)隱藏層的多層感知器，為了減少參數(shù)量，隱藏層的大小設(shè)置為R（c/r） × h × w，其中r 是縮減率，本文中r 設(shè)為16。這樣兩層卷積在減少卷積參數(shù)量的同時(shí)也能夠?qū)Ω鱾€(gè)通道上的特征重要程度進(jìn)行學(xué)習(xí)。改進(jìn)通道注意模塊如圖3 所示。

2.3 改進(jìn)CBAM 注意力模塊

將兩個(gè)改進(jìn)子模塊順序串聯(lián)，先用改進(jìn)通道注意力子模塊校正，然后對(duì)結(jié)果在進(jìn)行空間注意力子模塊校正。整個(gè)改進(jìn)注意力過(guò)程可以用公式概括為：

相比CBAM 中只對(duì)原特征圖進(jìn)行最大池化和平均池化操作，在改進(jìn)CBAM 結(jié)構(gòu)中增加了使用卷積、拼接的多尺度卷積運(yùn)算來(lái)生成新的特征圖，兩路運(yùn)算并行處理。引入多尺度卷積能夠提升運(yùn)算所得的通道注意權(quán)重和空間注意權(quán)重的感受野，強(qiáng)調(diào)目標(biāo)信息同時(shí)過(guò)濾其他冗余信息。

3 結(jié)合改進(jìn)CBAM 的YOLOv5s 算法

在原始YOLOv5s 中，特征增強(qiáng)部分會(huì)對(duì)特征圖進(jìn)行反復(fù)融合，并且還會(huì)使用多個(gè)連續(xù)卷積運(yùn)算。這種做法雖然能夠使不同尺度的特征信息相互結(jié)合，但此過(guò)程也會(huì)產(chǎn)生大量冗余信息，降低網(wǎng)絡(luò)的檢測(cè)精度。同時(shí)對(duì)高維特征圖使用多個(gè)連續(xù)卷積運(yùn)算，增加網(wǎng)絡(luò)運(yùn)行的參數(shù)和計(jì)算量，也會(huì)影響網(wǎng)絡(luò)的檢測(cè)性能[13]。

在目標(biāo)檢測(cè)網(wǎng)絡(luò)中添加注意力機(jī)制，能夠顯著增強(qiáng)特征中的重要信息，對(duì)物體檢測(cè)有著重要的作用[7]。因此將改進(jìn)CBAM 引入到Y(jié)OLOv5s 中。在輸入預(yù)測(cè)部分進(jìn)行預(yù)測(cè)前，使用改進(jìn)后的注意力模塊對(duì)其進(jìn)行處理以提取到更全面、更重要的目標(biāo)信息，過(guò)濾其他冗余信息，增加檢測(cè)網(wǎng)絡(luò)的準(zhǔn)確率[15]。改進(jìn)后的YOLOv5s 網(wǎng)絡(luò)結(jié)構(gòu)如圖5 所示。

4 實(shí)驗(yàn)結(jié)果分析

4.1 數(shù)據(jù)集和網(wǎng)絡(luò)訓(xùn)練

為驗(yàn)證本文所提出的結(jié)合改進(jìn)注意力機(jī)制的YOLOv5s 目標(biāo)檢測(cè)網(wǎng)絡(luò)的性能，在PASCAL VOC 數(shù)據(jù)集上進(jìn)行了訓(xùn)練和驗(yàn)證。在本實(shí)驗(yàn)中，將圖片轉(zhuǎn)換為長(zhǎng)寬512 大小作為網(wǎng)絡(luò)輸入，選取VOC 2012 訓(xùn)練驗(yàn)證集及VOC 2007 訓(xùn)練驗(yàn)證集作為訓(xùn)練數(shù)據(jù)，將VOC 2007 訓(xùn)練驗(yàn)證集部分?jǐn)?shù)據(jù)作為驗(yàn)證集。

本文在TeslaV100 上進(jìn)行訓(xùn)練和測(cè)試模型。操作系統(tǒng)是Ubuntu18.04，開(kāi)發(fā)語(yǔ)言是Python，框架是PyTorch，訓(xùn)練采用了Amd 優(yōu)化器進(jìn)行參數(shù)優(yōu)化。在訓(xùn)練時(shí)使用遷移學(xué)習(xí)加載預(yù)訓(xùn)練模型。訓(xùn)練網(wǎng)絡(luò)時(shí)，網(wǎng)絡(luò)輸入大小為512×512 彩色圖像，batch_size 為64，初始學(xué)習(xí)率為0.0032，迭代總批次為200，權(quán)重衰減設(shè)置為0.00012. 學(xué)習(xí)率采用余弦退火衰減來(lái)保證模型更好的收斂。

4.2 結(jié)果與對(duì)比

將訓(xùn)練后的網(wǎng)絡(luò)在PASCAL VOC 測(cè)試集上進(jìn)行測(cè)試，在IOU 閾值為0.5 的情況下，繪制了召回率-精確度曲線圖，如圖6 所示。橫坐標(biāo)Recall 表示召回率，縱坐標(biāo)Precision 表示精度。改進(jìn)后的模型對(duì)各個(gè)類(lèi)別均有一定的檢測(cè)精度，并對(duì)數(shù)據(jù)集中所有類(lèi)別的平均準(zhǔn)確率（mAP）達(dá)到了76.1%。

4.2.1 改進(jìn)前后結(jié)果對(duì)比

為對(duì)比改進(jìn)后的檢測(cè)網(wǎng)絡(luò)的檢測(cè)效果。分別對(duì)YOLOv5s、YOLOv5s+CBAM、YOLOv5s+改進(jìn)CBAM三種模型在PASCAL VOC 測(cè)試集上的平均準(zhǔn)確率mAP 和其他性能指標(biāo)進(jìn)行了測(cè)試。如表1 所示，其中加粗?jǐn)?shù)值為三種模型中表現(xiàn)最優(yōu)值。

實(shí)驗(yàn)結(jié)果表明在兩種IOU閾值下，本文的YOLOv5s+改進(jìn)CBAM 模型相較于其他兩種模型在平均準(zhǔn)確率方面均有所提升。當(dāng)IOU 閾值為0.5 時(shí)，本文方法相較于原始YOLOv5s 模型的mAP 上升了0.9%，相較于YOLOv5s+CBAM 模型的mAP 上升了0.3%。當(dāng)IOU閾值在區(qū)間[0.5：0.95]時(shí)，本文方法較另外兩種模型分別提高了1.1%、0.4%。在檢測(cè)精度方面，YOLOv5s+改進(jìn)CBAM 模型精度為78.4%，為最優(yōu)值。在召回率方面較其他兩種模型低，但F1-score 均較其他兩種模型分別提高了1.2%、0.9%。

為了更直觀的發(fā)現(xiàn)改進(jìn)網(wǎng)絡(luò)檢測(cè)能力的提升，實(shí)驗(yàn)進(jìn)一步獲取了改進(jìn)前后的可視化測(cè)試結(jié)果，如圖7所示。

對(duì)比原始YOLOv5s 模型和本文的YOLOv5s+改進(jìn)CBAM 模型，改進(jìn)后的模型在復(fù)雜場(chǎng)景下能夠檢測(cè)出更多目標(biāo)。對(duì)于圖中未遮擋的目標(biāo)，改進(jìn)后的模型能有更高的置信度。盡管有遮擋部分的目標(biāo)較原始YOLOv5s 模型識(shí)別置信度有所下降，但改進(jìn)后的模型仍然能成功檢測(cè)出這些目標(biāo)，也進(jìn)一步證明了改進(jìn)后的模型有更好的檢測(cè)性能。

4.2.2 不同檢測(cè)算法對(duì)比

本文將改進(jìn)后的網(wǎng)絡(luò)與近年來(lái)其他目標(biāo)檢測(cè)網(wǎng)絡(luò)進(jìn)行比較，結(jié)果如表2 所示，表中加粗?jǐn)?shù)值為表現(xiàn)最優(yōu)值。

以ResNet-152 為骨干的PS-DK 網(wǎng)絡(luò)，由于使用了足夠大且深的骨干網(wǎng)絡(luò)，其檢測(cè)準(zhǔn)確率達(dá)到了79.5%，改進(jìn)后的網(wǎng)絡(luò)的準(zhǔn)確率較之低了3.4%，但改進(jìn)后的網(wǎng)絡(luò)參數(shù)量更少，僅為PS-DK 網(wǎng)絡(luò)參數(shù)的1/10。另外對(duì)于一些輕量化網(wǎng)絡(luò)，如EEEA-Net-C2 網(wǎng)絡(luò)，盡管參數(shù)量有所增加，但在檢測(cè)準(zhǔn)確率方面較之提高了4.4%。結(jié)果表明改進(jìn)后的檢測(cè)網(wǎng)絡(luò)在與近年來(lái)其他先進(jìn)的目標(biāo)檢測(cè)網(wǎng)絡(luò)對(duì)比中，也表現(xiàn)出較好的性能。

5 結(jié)束語(yǔ)

本文提出了一種改進(jìn)注意力機(jī)制模型，并將其引入到Y(jié)OLOv5s 目標(biāo)檢測(cè)網(wǎng)絡(luò)中，提高檢測(cè)網(wǎng)絡(luò)的準(zhǔn)確率。提出改進(jìn)CBAM 結(jié)構(gòu)，引入多尺度卷積增加特征感受野提升算法性能的效果。YOLOv5s 目標(biāo)檢測(cè)網(wǎng)絡(luò)在輸入預(yù)測(cè)部分前使用改進(jìn)注意力機(jī)制模塊，提高網(wǎng)絡(luò)檢測(cè)的準(zhǔn)確率。改進(jìn)后的網(wǎng)絡(luò)在VOC 數(shù)據(jù)集上的準(zhǔn)確率達(dá)到了76.1%，較原網(wǎng)絡(luò)整體準(zhǔn)確率提升了0.9%，F(xiàn)1-score 也獲得了1.2% 的提升，同時(shí)在近年來(lái)的目標(biāo)檢測(cè)網(wǎng)絡(luò)中表現(xiàn)出不錯(cuò)的性能。接下來(lái)還將繼續(xù)優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)，同時(shí)研究如何提升對(duì)有遮擋的目標(biāo)的檢測(cè)效果。