亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        結(jié)合改進(jìn)注意力機(jī)制的YOLO目標(biāo)檢測(cè)算法

        2023-07-17 08:51:11李杰
        計(jì)算機(jī)時(shí)代 2023年7期
        關(guān)鍵詞:注意力機(jī)制目標(biāo)檢測(cè)

        李杰

        關(guān)鍵詞:YOLO;目標(biāo)檢測(cè);多尺度卷積;注意力機(jī)制

        0 引言

        自從Hinton 提出利用神經(jīng)網(wǎng)絡(luò)對(duì)圖像數(shù)據(jù)中的高維特征進(jìn)行自主學(xué)習(xí)[1]以來(lái),基于深度學(xué)習(xí)的目標(biāo)檢測(cè)已成為計(jì)算機(jī)視覺(jué)領(lǐng)域中一個(gè)重要的研究熱點(diǎn)[2]。目標(biāo)檢測(cè)的方法主要分為雙階段和單階段目標(biāo)檢測(cè)算法。雙階段目標(biāo)檢測(cè)算法,如Fast R-CNN[3]、Faster R-CNN[4]等,都是通過(guò)生成預(yù)選框再利用神經(jīng)網(wǎng)絡(luò)對(duì)候選框進(jìn)行分類(lèi)識(shí)別。單階段目標(biāo)檢測(cè)算法,如YOLO (you only look once) [5]、YOLO 9000[6]等,將目標(biāo)檢測(cè)問(wèn)題轉(zhuǎn)化為回歸問(wèn)題,由一個(gè)無(wú)分支的深度卷積網(wǎng)絡(luò)實(shí)現(xiàn)目標(biāo)的定位和分類(lèi)。單階段算法有著較高的檢測(cè)速率,但還存在檢測(cè)精度不足的問(wèn)題。

        注意力機(jī)制是對(duì)特征圖進(jìn)行加權(quán)處理[7],旨在突出強(qiáng)調(diào)目標(biāo)信息。Hu[8]等人通過(guò)卷積運(yùn)算學(xué)習(xí)各通道權(quán)重來(lái)自適應(yīng)地重新校準(zhǔn)通道特征響應(yīng)。Woo 等人提出一種混合注意力機(jī)制CBAM(convolutional blockattention module)[9],將特征圖沿通道和空間兩個(gè)不同的維度順序地進(jìn)行自適應(yīng)特征細(xì)化。Sun 等人將ShuffleNet 結(jié)構(gòu)引入到Y(jié)OLOv4 中[10],減少參數(shù)量的同時(shí)檢測(cè)精度和速度方面也有所提升;Fu 等人將CBAM注意力模塊添加到Y(jié)OLOv4-head 中[11],對(duì)小目標(biāo)、重疊目標(biāo)具有更好的檢測(cè)效果。但上述研究還存在檢測(cè)精度不足或是沒(méi)有在大型公共數(shù)據(jù)集上進(jìn)行綜合性能測(cè)試。

        為此,本文在YOLOv5s 的基礎(chǔ)上進(jìn)行了研究和改進(jìn)。①將多尺度卷積與注意力機(jī)制結(jié)合,提出一種改進(jìn)CBAM 注意力機(jī)制模塊,增大特征提取模塊的感受野;②將改進(jìn)CBAM 模塊引入YOLOv5s 網(wǎng)絡(luò)中,使用改進(jìn)后的注意力機(jī)制模塊進(jìn)行特征篩選,提高改進(jìn)檢測(cè)網(wǎng)絡(luò)準(zhǔn)確率。

        1 YOLOv5s 和CBAM 算法

        1.1 YOLOv5s 算法

        本文在YOLOv5s網(wǎng)絡(luò)的基礎(chǔ)上進(jìn)行改進(jìn)。YOLOv5s的網(wǎng)絡(luò)結(jié)構(gòu)分為主干網(wǎng)絡(luò)部分Backbone、特征增強(qiáng)部分Neck 和預(yù)測(cè)部分Head,如圖1 所示。

        網(wǎng)絡(luò)主干Backbone 主要由連續(xù)卷積模塊Conv 和利用劃分通道的思想構(gòu)建的C3 模塊。C3 模塊是由1×1 和3×3 卷積構(gòu)成,包含LeakyReLU 函數(shù)激活的BottleneckCSP 結(jié)構(gòu)。主干網(wǎng)絡(luò)末端還加入一個(gè)特征金字塔池化模塊SPP,使用多尺度的特征融合以獲取更多小目標(biāo)的有用信息從而提升算法對(duì)小目標(biāo)檢測(cè)的精確度。

        特征增強(qiáng)Neck 部分采用了FPN[12]+PAN 結(jié)合的方式對(duì)特征進(jìn)行融合從而獲得更好的效果。PAN 包含了自上而下和自底向上兩條路徑上的特征融合,這也使網(wǎng)絡(luò)獲得更高的性能。

        預(yù)測(cè)部分Head使用的是GIOU_Loss作為Boundingbox 的損失函數(shù),并且在進(jìn)行非最大值抑制時(shí)引入加權(quán)因子,在Bounding box 回歸時(shí)平衡了正負(fù)樣本之間的差距。

        1.2 CBAM 算法

        注意力機(jī)制是一種能夠讓神經(jīng)網(wǎng)絡(luò)擁有能區(qū)分重點(diǎn)區(qū)域信息的能力,并對(duì)該區(qū)域投入更大的權(quán)重,突出和加強(qiáng)有用特征,抑制和忽略無(wú)關(guān)特征。由Woo等人提出的CBAM 算法是一種混合注意力機(jī)制。算法結(jié)構(gòu)如圖2 所示。

        CBAM 注意力機(jī)制可分為兩個(gè)順序子模塊:通道注意模塊和空間注意模塊。結(jié)構(gòu)采取串聯(lián)形式。Woo等人已經(jīng)證明將通道注意子模塊放在空間注意子模塊之前會(huì)有更好的效果[9],因此本文也使用相同的順序結(jié)構(gòu)。

        2 引入多尺度卷積的改進(jìn)注意力機(jī)制

        傳統(tǒng)混合域注意力機(jī)制CBAM,注意力子模塊會(huì)將特征圖直接進(jìn)行通道域和空間域的全局最大池化和全局平均池化。這樣做法雖然能夠簡(jiǎn)便的提取通道域和空間域的權(quán)重,但模塊對(duì)于特征圖中的信息的利用率低,從而影響檢測(cè)網(wǎng)絡(luò)的準(zhǔn)確性。

        本文沿用傳統(tǒng)混合域注意力機(jī)制CBAM 的順序串聯(lián)結(jié)構(gòu),并對(duì)其通道注意子模塊和空間注意子模塊進(jìn)行了改進(jìn),構(gòu)建一種改進(jìn)CBAM 注意力機(jī)制模塊,下面描述每個(gè)改進(jìn)注意力子模塊的細(xì)節(jié)。

        2.1 通道注意子模塊

        將多尺度卷積引入到注意力機(jī)制中,基于便利性也為了減少網(wǎng)絡(luò)參數(shù)只使用3×3 的卷積,同時(shí)結(jié)構(gòu)中保留了一個(gè)沒(méi)有任何操作的路徑來(lái)增加網(wǎng)絡(luò)性能。此外,池化操作對(duì)于當(dāng)前卷積網(wǎng)絡(luò)的性能提升是必不可少的,因此添加一個(gè)并行池化路徑也具有好的效果[14]。為了避免池化層的輸出與卷積層的輸出合并會(huì)導(dǎo)致特征圖維度的增加,先使用1×1 卷積來(lái)約簡(jiǎn)計(jì)算,由于有共計(jì)四層的輸出,所以將原特征圖的通道數(shù)降為原來(lái)的1/4。

        對(duì)于一個(gè)輸入特征圖F ∈ Rc × h × w,通道注意子模塊對(duì)原特征圖進(jìn)行兩路并行處理,第一部分進(jìn)行多尺度卷積操作生成新的特征圖*F ∈ Rc × h × w 再進(jìn)行最大池化和平均池化,第二部分不進(jìn)行任何操作直接進(jìn)行最大池化和平均池化,得到四個(gè)的通道注意力向量:{ } Fcmax ,F(xiàn) cavg ,*Fcmax ,*F cavg ∈ Rc × 1 × 1,分別表示平均池化特征和最大池化特征。利用一個(gè)共享的多層感知機(jī)(multi-layer perceptron, MLP) 學(xué)習(xí)各通道信息的重要性,最后將四個(gè)通道注意力向量逐元素求和來(lái)合并再經(jīng)過(guò)Sigmoid 函數(shù)激活得到最終的通道注意權(quán)重Mc(F)。簡(jiǎn)而言之,通道注意力權(quán)重計(jì)算公式為:

        2.2 空間注意子模塊

        將通道注意的結(jié)果進(jìn)一步進(jìn)行空間權(quán)重的提取。空間注意子模塊對(duì)輸入特征圖F' ∈ Rc × h × w 也進(jìn)行與通道注意子模塊相同的兩路并行處理,第一部分使用相同的改進(jìn)多尺度卷積生成新的特征圖*F' ∈ Rc × h × w再沿通道軸應(yīng)用最大池化和平均池化,第二部分不進(jìn)行任何操作,直接應(yīng)用最大池化和平均池化,將得到4個(gè)的空間注意力矩陣:{F's }max ,F(xiàn) 'savg ,*F 'smax ,*F 'savg ∈ R1 × h × w,分別表示通道中的平均池化特征和最大池化特征,并將它們連接起來(lái)以生成有效的特征描述圖。在特征將通道權(quán)重Mc (F)與輸入F進(jìn)行對(duì)應(yīng)通道的加權(quán),得到通道注意的結(jié)果。共享網(wǎng)絡(luò)MLP 是帶有一個(gè)隱藏層的多層感知器,為了減少參數(shù)量,隱藏層的大小設(shè)置為R(c/r) × h × w,其中r 是縮減率,本文中r 設(shè)為16。這樣兩層卷積在減少卷積參數(shù)量的同時(shí)也能夠?qū)Ω鱾€(gè)通道上的特征重要程度進(jìn)行學(xué)習(xí)。改進(jìn)通道注意模塊如圖3 所示。

        2.3 改進(jìn)CBAM 注意力模塊

        將兩個(gè)改進(jìn)子模塊順序串聯(lián),先用改進(jìn)通道注意力子模塊校正,然后對(duì)結(jié)果在進(jìn)行空間注意力子模塊校正。整個(gè)改進(jìn)注意力過(guò)程可以用公式概括為:

        相比CBAM 中只對(duì)原特征圖進(jìn)行最大池化和平均池化操作,在改進(jìn)CBAM 結(jié)構(gòu)中增加了使用卷積、拼接的多尺度卷積運(yùn)算來(lái)生成新的特征圖,兩路運(yùn)算并行處理。引入多尺度卷積能夠提升運(yùn)算所得的通道注意權(quán)重和空間注意權(quán)重的感受野,強(qiáng)調(diào)目標(biāo)信息同時(shí)過(guò)濾其他冗余信息。

        3 結(jié)合改進(jìn)CBAM 的YOLOv5s 算法

        在原始YOLOv5s 中,特征增強(qiáng)部分會(huì)對(duì)特征圖進(jìn)行反復(fù)融合, 并且還會(huì)使用多個(gè)連續(xù)卷積運(yùn)算。這種做法雖然能夠使不同尺度的特征信息相互結(jié)合,但此過(guò)程也會(huì)產(chǎn)生大量冗余信息,降低網(wǎng)絡(luò)的檢測(cè)精度。同時(shí)對(duì)高維特征圖使用多個(gè)連續(xù)卷積運(yùn)算,增加網(wǎng)絡(luò)運(yùn)行的參數(shù)和計(jì)算量,也會(huì)影響網(wǎng)絡(luò)的檢測(cè)性能[13]。

        在目標(biāo)檢測(cè)網(wǎng)絡(luò)中添加注意力機(jī)制,能夠顯著增強(qiáng)特征中的重要信息,對(duì)物體檢測(cè)有著重要的作用[7]。因此將改進(jìn)CBAM 引入到Y(jié)OLOv5s 中。在輸入預(yù)測(cè)部分進(jìn)行預(yù)測(cè)前,使用改進(jìn)后的注意力模塊對(duì)其進(jìn)行處理以提取到更全面、更重要的目標(biāo)信息,過(guò)濾其他冗余信息,增加檢測(cè)網(wǎng)絡(luò)的準(zhǔn)確率[15]。改進(jìn)后的YOLOv5s 網(wǎng)絡(luò)結(jié)構(gòu)如圖5 所示。

        4 實(shí)驗(yàn)結(jié)果分析

        4.1 數(shù)據(jù)集和網(wǎng)絡(luò)訓(xùn)練

        為驗(yàn)證本文所提出的結(jié)合改進(jìn)注意力機(jī)制的YOLOv5s 目標(biāo)檢測(cè)網(wǎng)絡(luò)的性能, 在PASCAL VOC 數(shù)據(jù)集上進(jìn)行了訓(xùn)練和驗(yàn)證。在本實(shí)驗(yàn)中,將圖片轉(zhuǎn)換為長(zhǎng)寬512 大小作為網(wǎng)絡(luò)輸入,選取VOC 2012 訓(xùn)練驗(yàn)證集及VOC 2007 訓(xùn)練驗(yàn)證集作為訓(xùn)練數(shù)據(jù),將VOC 2007 訓(xùn)練驗(yàn)證集部分?jǐn)?shù)據(jù)作為驗(yàn)證集。

        本文在TeslaV100 上進(jìn)行訓(xùn)練和測(cè)試模型。操作系統(tǒng)是Ubuntu18.04,開(kāi)發(fā)語(yǔ)言是Python,框架是PyTorch,訓(xùn)練采用了Amd 優(yōu)化器進(jìn)行參數(shù)優(yōu)化。在訓(xùn)練時(shí)使用遷移學(xué)習(xí)加載預(yù)訓(xùn)練模型。訓(xùn)練網(wǎng)絡(luò)時(shí),網(wǎng)絡(luò)輸入大小為512×512 彩色圖像,batch_size 為64,初始學(xué)習(xí)率為0.0032,迭代總批次為200,權(quán)重衰減設(shè)置為0.00012. 學(xué)習(xí)率采用余弦退火衰減來(lái)保證模型更好的收斂。

        4.2 結(jié)果與對(duì)比

        將訓(xùn)練后的網(wǎng)絡(luò)在PASCAL VOC 測(cè)試集上進(jìn)行測(cè)試,在IOU 閾值為0.5 的情況下,繪制了召回率-精確度曲線圖,如圖6 所示。橫坐標(biāo)Recall 表示召回率,縱坐標(biāo)Precision 表示精度。改進(jìn)后的模型對(duì)各個(gè)類(lèi)別均有一定的檢測(cè)精度,并對(duì)數(shù)據(jù)集中所有類(lèi)別的平均準(zhǔn)確率(mAP)達(dá)到了76.1%。

        4.2.1 改進(jìn)前后結(jié)果對(duì)比

        為對(duì)比改進(jìn)后的檢測(cè)網(wǎng)絡(luò)的檢測(cè)效果。分別對(duì)YOLOv5s、YOLOv5s+CBAM、YOLOv5s+改進(jìn)CBAM三種模型在PASCAL VOC 測(cè)試集上的平均準(zhǔn)確率mAP 和其他性能指標(biāo)進(jìn)行了測(cè)試。如表1 所示,其中加粗?jǐn)?shù)值為三種模型中表現(xiàn)最優(yōu)值。

        實(shí)驗(yàn)結(jié)果表明在兩種IOU閾值下,本文的YOLOv5s+改進(jìn)CBAM 模型相較于其他兩種模型在平均準(zhǔn)確率方面均有所提升。當(dāng)IOU 閾值為0.5 時(shí),本文方法相較于原始YOLOv5s 模型的mAP 上升了0.9%,相較于YOLOv5s+CBAM 模型的mAP 上升了0.3%。當(dāng)IOU閾值在區(qū)間[0.5:0.95]時(shí),本文方法較另外兩種模型分別提高了1.1%、0.4%。在檢測(cè)精度方面,YOLOv5s+改進(jìn)CBAM 模型精度為78.4%,為最優(yōu)值。在召回率方面較其他兩種模型低,但F1-score 均較其他兩種模型分別提高了1.2%、0.9%。

        為了更直觀的發(fā)現(xiàn)改進(jìn)網(wǎng)絡(luò)檢測(cè)能力的提升,實(shí)驗(yàn)進(jìn)一步獲取了改進(jìn)前后的可視化測(cè)試結(jié)果,如圖7所示。

        對(duì)比原始YOLOv5s 模型和本文的YOLOv5s+改進(jìn)CBAM 模型,改進(jìn)后的模型在復(fù)雜場(chǎng)景下能夠檢測(cè)出更多目標(biāo)。對(duì)于圖中未遮擋的目標(biāo),改進(jìn)后的模型能有更高的置信度。盡管有遮擋部分的目標(biāo)較原始YOLOv5s 模型識(shí)別置信度有所下降,但改進(jìn)后的模型仍然能成功檢測(cè)出這些目標(biāo),也進(jìn)一步證明了改進(jìn)后的模型有更好的檢測(cè)性能。

        4.2.2 不同檢測(cè)算法對(duì)比

        本文將改進(jìn)后的網(wǎng)絡(luò)與近年來(lái)其他目標(biāo)檢測(cè)網(wǎng)絡(luò)進(jìn)行比較,結(jié)果如表2 所示,表中加粗?jǐn)?shù)值為表現(xiàn)最優(yōu)值。

        以ResNet-152 為骨干的PS-DK 網(wǎng)絡(luò),由于使用了足夠大且深的骨干網(wǎng)絡(luò),其檢測(cè)準(zhǔn)確率達(dá)到了79.5%,改進(jìn)后的網(wǎng)絡(luò)的準(zhǔn)確率較之低了3.4%,但改進(jìn)后的網(wǎng)絡(luò)參數(shù)量更少,僅為PS-DK 網(wǎng)絡(luò)參數(shù)的1/10。另外對(duì)于一些輕量化網(wǎng)絡(luò),如EEEA-Net-C2 網(wǎng)絡(luò),盡管參數(shù)量有所增加,但在檢測(cè)準(zhǔn)確率方面較之提高了4.4%。結(jié)果表明改進(jìn)后的檢測(cè)網(wǎng)絡(luò)在與近年來(lái)其他先進(jìn)的目標(biāo)檢測(cè)網(wǎng)絡(luò)對(duì)比中,也表現(xiàn)出較好的性能。

        5 結(jié)束語(yǔ)

        本文提出了一種改進(jìn)注意力機(jī)制模型,并將其引入到Y(jié)OLOv5s 目標(biāo)檢測(cè)網(wǎng)絡(luò)中,提高檢測(cè)網(wǎng)絡(luò)的準(zhǔn)確率。提出改進(jìn)CBAM 結(jié)構(gòu),引入多尺度卷積增加特征感受野提升算法性能的效果。YOLOv5s 目標(biāo)檢測(cè)網(wǎng)絡(luò)在輸入預(yù)測(cè)部分前使用改進(jìn)注意力機(jī)制模塊,提高網(wǎng)絡(luò)檢測(cè)的準(zhǔn)確率。改進(jìn)后的網(wǎng)絡(luò)在VOC 數(shù)據(jù)集上的準(zhǔn)確率達(dá)到了76.1%,較原網(wǎng)絡(luò)整體準(zhǔn)確率提升了0.9%,F(xiàn)1-score 也獲得了1.2% 的提升,同時(shí)在近年來(lái)的目標(biāo)檢測(cè)網(wǎng)絡(luò)中表現(xiàn)出不錯(cuò)的性能。接下來(lái)還將繼續(xù)優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu),同時(shí)研究如何提升對(duì)有遮擋的目標(biāo)的檢測(cè)效果。

        猜你喜歡
        注意力機(jī)制目標(biāo)檢測(cè)
        面向短文本的網(wǎng)絡(luò)輿情話(huà)題
        基于自注意力與動(dòng)態(tài)路由的文本建模方法
        基于深度學(xué)習(xí)的問(wèn)題回答技術(shù)研究
        基于LSTM?Attention神經(jīng)網(wǎng)絡(luò)的文本特征提取方法
        基于注意力機(jī)制的雙向LSTM模型在中文商品評(píng)論情感分類(lèi)中的研究
        軟件工程(2017年11期)2018-01-05 08:06:09
        InsunKBQA:一個(gè)基于知識(shí)庫(kù)的問(wèn)答系統(tǒng)
        視頻中目標(biāo)檢測(cè)算法研究
        軟件(2016年4期)2017-01-20 09:38:03
        行為識(shí)別中的人體運(yùn)動(dòng)目標(biāo)檢測(cè)方法
        移動(dòng)機(jī)器人圖像目標(biāo)識(shí)別
        基于背景建模法的運(yùn)動(dòng)目標(biāo)檢測(cè)
        aⅴ色综合久久天堂av色综合| 精品人妻av一区二区三区不卡| 人妻精品久久中文字幕| 妇女自拍偷自拍亚洲精品| 成人影院羞羞的视频免费观看| 久久想要爱蜜臀av一区二区三区| 国语对白精品在线观看| 每日更新在线观看av| 国模丽丽啪啪一区二区| 厨房玩丰满人妻hd完整版视频| 91精品全国免费观看青青| 亚洲成av人在线观看无堂无码| 激情中文丁香激情综合| 在线免费午夜视频一区二区| 精品人妻一区二区三区不卡毛片| 亚洲男同免费视频网站| 精品国产品香蕉在线| 超碰97资源站| 国产欧美精品一区二区三区,| 国产国拍亚洲精品福利| 午夜国产在线精彩自拍视频| 成人影院视频在线免费观看| 在线观看视频播放| 亚洲日韩国产精品第一页一区| 午夜短无码| 最新日本免费一区二区三区| 国内精品亚洲成av人片| 亚洲av久久久噜噜噜噜| 国农村精品国产自线拍| 日本中文字幕av网址| 亚洲精品偷拍自综合网| 狠狠人妻久久久久久综合蜜桃| 成熟丰满熟妇高潮xxxxx视频| 97超级碰碰人妻中文字幕| 中文字幕亚洲精品码专区| 亚洲色图偷拍自拍在线| 极品嫩模大尺度av在线播放| 色avav色av爱avav亚洲色拍| 亚洲欧洲国产日产国码无码 | 无码成人一区二区| 亚洲妇女水蜜桃av网网站|