基于注意力機(jī)制和上下文信息的目標(biāo)檢測算法

2023-05-24 03:19:04張琳玉王復(fù)港何如瑾

計(jì)算機(jī)應(yīng)用 2023年5期

劉輝，張琳玉*，王復(fù)港，何如瑾

（1.重慶郵電大學(xué) 通信與信息工程學(xué)院，重慶 400065；2.重慶郵電大學(xué) 數(shù)智化通信新技術(shù)應(yīng)用研究中心，重慶 400065）

0 引言

近年來，在深度學(xué)習(xí)的推動(dòng)下，計(jì)算機(jī)視覺技術(shù)發(fā)展迅猛，目標(biāo)檢測作為該領(lǐng)域的重要研究方向之一，主要對圖像中的物體類別進(jìn)行標(biāo)識，有著廣泛的應(yīng)用場景。相較于傳統(tǒng)的檢測方法，現(xiàn)階段作為目標(biāo)檢測研究主要技術(shù)的卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Network，CNN）在特征提取能力和時(shí)間效率方面都具有顯著的優(yōu)勢。目前，目標(biāo)檢測算法主要包括雙階段和單階段兩類。前者以區(qū)域卷積神經(jīng)網(wǎng)絡(luò)（Region-Convolutional Neural Network，R-CNN）［1-2］為代表，后者主要包括YOLO（You Only Look Once）［3-5］和SSD（Single Shot multibox Detector）［6-7］。其中，YOLO 系列網(wǎng)絡(luò)憑借檢測速度快的特點(diǎn)，在遙感圖像檢測、移動(dòng)設(shè)備的物體檢測等實(shí)時(shí)檢測上應(yīng)用廣泛。

現(xiàn)階段目標(biāo)檢測算法在性能上已有很大突破，但隨著CNN 層數(shù)不斷加深，下采樣（subsampling）過程導(dǎo)致圖像分辨率不斷降低，算法結(jié)構(gòu)也逐漸復(fù)雜化。大多數(shù)算法在增強(qiáng)特征表達(dá)能力的同時(shí)容易忽略恢復(fù)圖像時(shí)所必需的細(xì)節(jié)信息，造成小目標(biāo)的漏檢和誤檢。針對上述問題，文獻(xiàn)［8］的方法通過早期添加殘差注意力機(jī)制實(shí)現(xiàn)小目標(biāo)的聚集，使目標(biāo)框定位到網(wǎng)絡(luò)感興趣的位置，抑制掉無用的信息，進(jìn)而減少背景信息中不必要的淺層信息，提升網(wǎng)絡(luò)的特征提取能力。文獻(xiàn)［9］中利用混合空洞卷積（Hybird Dilated Convolution，HDC）增大淺層網(wǎng)絡(luò)的感受野，使淺層網(wǎng)絡(luò)與深層網(wǎng)絡(luò)能夠更好地融合，從而提高小目標(biāo)檢測的精度。文獻(xiàn)［10］中提出了一種多級特征融合方法來引入上下文信息，并利用拼接模塊以及元素和模塊實(shí)例化該特征融合方法，提升了小目標(biāo)的識別精度。文獻(xiàn)［11］中采用多尺度注意力融合不同層次的小目標(biāo)特征信息，提升了小目標(biāo)檢測的準(zhǔn)確率。文獻(xiàn)［12］中利用Inception-SE（Inception-Squeeze-and-Excitation）結(jié) 構(gòu)使網(wǎng)絡(luò)更快收斂，多尺度特征圖充分融合，從而提升目標(biāo)檢測性能。文獻(xiàn)［13］中提出了一種基于注意力的特征交互方法，通過在常規(guī)特征提取器的每個(gè)模塊后添加一個(gè)小網(wǎng)絡(luò)來獲得注意力權(quán)重，減少沖突信息。文獻(xiàn)［14］中提出用不同尺寸大小的卷積核生成多尺度的特征圖，融合成具有全局信息的特征表達(dá)方式。這些算法在一定程度上提升了檢測的精度，但是沒有考慮到下采樣率過大導(dǎo)致小目標(biāo)丟失、計(jì)算量過大等問題，無法有效地進(jìn)一步提升檢測效果。

針對上述問題，本文基于YOLOv5［15-16］提出了一種基于注意力機(jī)制和上下文信息的目標(biāo)檢測算法（YOLOv5 object detection algorithms based on Attention mechanism and Context information，AC-YOLO）。首先考慮到下采樣率過大會導(dǎo)致小目標(biāo)部分信息丟失，在主干網(wǎng)絡(luò)中引入多尺度空洞卷積模塊，在保持分辨率的同時(shí)增大感受野以充分利用上下文信息；然后在通道注意力模塊中引入位置注意力，捕獲跨通道信息，加強(qiáng)感興趣區(qū)域的表示，從而優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)，提升小目標(biāo)的檢測性能；最后為了調(diào)整待檢測目標(biāo)的位置信息，減少目標(biāo)漏檢現(xiàn)象，引入 Soft-NMS（Soft-Non-Maximum Suppression）算法，避免非極大值抑制（Non-Maximum Suppression，NMS）算法直接刪除兩個(gè)重疊過多的候選框中較低置信度的候選框，對錨框置信度進(jìn)行優(yōu)化以提高模型的準(zhǔn)確率，在一般場景以及遙感圖像檢測中均具有較好的檢測效果。

1 相關(guān)工作

1.1 網(wǎng)絡(luò)結(jié)構(gòu)

YOLO 系列算法是一種單階段檢測方法，在訓(xùn)練過程中，采用S×S個(gè)網(wǎng)格劃分輸入圖像，然后用目標(biāo)所在的網(wǎng)格輸出預(yù)測邊框來完成預(yù)測。YOLOv5 結(jié)構(gòu)如圖1 所示，其中：na為預(yù)測框的數(shù)量，nc為預(yù)測類的數(shù)量。相較于其他YOLO模型，YOLOv5 采用跨階段局部網(wǎng)絡(luò)（Cross Stage Partial Network，CSPNet）［17］對特征提取部分和Neck 部分進(jìn)行了優(yōu)化，該結(jié)構(gòu)由復(fù)合卷積（Conv+BN+SiLU，CBS）模塊和殘差模塊組成，有利于降低計(jì)算量、增強(qiáng)網(wǎng)絡(luò)的學(xué)習(xí)能力。此外，YOLOv5 在骨干網(wǎng)絡(luò)前添加了Focus 模塊對圖片進(jìn)行切片操作，能夠在不造成特征信息丟失的情況下進(jìn)行下采樣，并增大其感受野。CBS 模塊由標(biāo)準(zhǔn)卷積層、批歸一化（Batch Normalization，BN）層和SiLU（Sigmoid weighted Liner Unit）激活函數(shù)層組成，該模塊可增強(qiáng)模型學(xué)習(xí)能力，獲得豐富的特征表達(dá)?？臻g金字塔池化（Spatial Pyramid Pooling，SPP）［18］模塊使用不同的窗口，可以同時(shí)獲得不同尺寸的特征，再進(jìn)行特征聚合，對于提升不同尺寸目標(biāo)的檢測精度起到了積極作用。而Neck 網(wǎng)絡(luò)部分借鑒了特征金字塔網(wǎng)絡(luò)（Feature Pyramid Network，F(xiàn)PNet）［19］和路徑聚合網(wǎng) 絡(luò)（Path Aggregation Network，PANet）［20］結(jié)構(gòu)，通過自底向上和自頂向下的路徑提高信息傳遞效率，可以提取到多樣化的特征，增強(qiáng)了模型的魯棒性；并且得益于強(qiáng)大的GPU 處理能力，采用PyTorch 深度學(xué)習(xí)框架，訓(xùn)練時(shí)間大幅減少，在現(xiàn)階段的目標(biāo)檢測任務(wù)中取得了不錯(cuò)的進(jìn)展。

圖1 YOLOv5網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 YOLOv5 network structure

1.2 感受野

增大感受野是提升目標(biāo)檢測性能的一種重要方法。在空洞卷積出現(xiàn)以前，大多數(shù)研究都是通過堆疊卷積層和引入池化操作來增大感受野，但增加卷積層會導(dǎo)致計(jì)算量增大，訓(xùn)練速度降低；池化操作會降低圖像分辨率，造成檢測過程中小目標(biāo)信息的丟失。而空洞卷積可以在不改變圖像尺寸大小的前提下獲得較大感受野，并能有效提取圖像細(xì)節(jié)信息。文獻(xiàn)［21］和文獻(xiàn)［22］分別提出了空洞殘差模塊以及空洞空間卷積池化金字塔，這兩種方法在特征融合時(shí)都采用了不同尺寸的空洞卷積，使網(wǎng)絡(luò)更好地從周圍像素中提取上下文信息，增大其感受野。與上述研究不同，本文采用多種不同空洞率的空洞卷積來捕獲多尺度特征信息，從而減少小目標(biāo)的信息丟失。

1.3 注意力機(jī)制

注意力機(jī)制能夠根據(jù)目標(biāo)的重要程度進(jìn)行權(quán)重分配，突出某些重要特征，從而有效捕獲上下文信息，在多個(gè)計(jì)算機(jī)視覺任務(wù)中都取得了不錯(cuò)的效果。文獻(xiàn)［23］中設(shè)計(jì)了通道注意力用于獲取通道間關(guān)聯(lián)，進(jìn)而有效地構(gòu)建通道間的相互依賴關(guān)系，提升網(wǎng)絡(luò)檢測的性能。隨后，卷積注意力機(jī)制模塊（Convolutional Block Attention Module，CBAM）［24］進(jìn)一步推廣了這一思想，將空間和通道兩個(gè)維度的特征以級聯(lián)的方式進(jìn)行連接來生成注意力圖，并將它與輸入特征圖相乘進(jìn)一步修正獲取到的特征。Hou 等［25］提出了一種新的坐標(biāo)注意力（Coordinate Attention，CA），考慮了位置信息對通道信息的影響，捕獲位置感知的信息，有助于模型更精準(zhǔn)地定位?；谏鲜鲅芯?，本文方法引入注意力機(jī)制旨在解決下采樣過程中小目標(biāo)漏檢造成的定位不精準(zhǔn)問題。

1.4 非極大值抑制算法

非極大值抑制（NMS）在大多目標(biāo)檢測算法中起著至關(guān)重要的作用。在目標(biāo)檢測過程中，NMS 不斷地將得分最高的邊框與其他邊框進(jìn)行交并比（Intersection over Union，IoU）操作，然后刪除IoU 值超過給定閾值的邊框，此過程會抑制掉大量得分低且重疊度較高的錨框，造成漏檢從而影響檢測精度。針對此問題，后續(xù)研究產(chǎn)生了一系列算法的改進(jìn)，如文獻(xiàn)［26］中提出了一種針對位置優(yōu)先級進(jìn)行NMS 過濾的方法，該方法在網(wǎng)絡(luò)中添加了IoU 預(yù)測分支，但容易增大計(jì)算量；文獻(xiàn)［27］中提出的加權(quán)法和方差加權(quán)求平均法用來優(yōu)化邊框的位置和置信度得分。與上述方法不同，本文主要對過濾候選框的方法進(jìn)行改進(jìn)，利用Soft-NMS［28］替換原始的將分?jǐn)?shù)設(shè)置為0 的NMS 算法，減少漏檢情況。

2 改進(jìn)的YOLOv5算法

2.1 多尺度空洞可分離卷積模塊

YOLOv5 算法使用CSPDarknet53 提取特征圖信息，在下采樣時(shí)，采用了3×3 大小的卷積核，并將步長設(shè)置為2，雖然在一定程度上增大了感受野，但是多次下采樣容易導(dǎo)致檢測過程中小尺寸目標(biāo)丟失，檢測結(jié)果不佳。因此，為保留更多的細(xì)節(jié)信息，本文將在原有模型上減少一次下采樣操作，以獲得原圖1/16 的特征圖分辨率，然后利用本文設(shè)計(jì)的空洞可分離卷積模塊（如圖2（c）所示）進(jìn)行密集特征提取。

圖2 不同類型模塊的比較Fig.2 Comparison of different types of modules

眾多研究表明，由于采樣稀疏，單一空洞率的空洞卷積得到的鄰近像素間缺乏依賴關(guān)系，會產(chǎn)生網(wǎng)格效應(yīng)［29］，即空洞率過大時(shí)，有些像素特征無法被提取到，造成關(guān)鍵信息的丟失；同時(shí)模塊中使用多個(gè)空洞卷積會增加計(jì)算量，不利于小目標(biāo)檢測。為避免上述問題，本文堆疊多個(gè)不同空洞率的空洞卷積以獲取多尺度的特征信息。此外，為輕量化網(wǎng)絡(luò)結(jié)構(gòu)，本文參考了一維非瓶頸卷積模塊（如圖2（a）所示）和Inception 基礎(chǔ)模塊（如圖2（b）所示）。圖2（a）采用了一個(gè)單分支結(jié)構(gòu)，利用分解卷積代替標(biāo)準(zhǔn)卷積，能減少模型參數(shù)量、加快訓(xùn)練，且該結(jié)構(gòu)能夠解決“大而密”的特征提取問題，有利于平衡檢測精度和速度；圖2（b）采用多分支結(jié)構(gòu)，使用不同卷積核進(jìn)行卷積運(yùn)算，提升了模型對不同尺度目標(biāo)的自適應(yīng)性。受以上思想的啟發(fā)，本文構(gòu)建了多尺度空洞可分離卷積模塊（Multiscale Dilated Separable Convolutional Module，MDSCM），在該模塊中，采用多分支結(jié)構(gòu)，在每個(gè)分支上均采用不同空洞率的空洞卷積，并且通過卷積分解實(shí)現(xiàn)高效計(jì)算。

MDSCM 采用不同空洞率的空洞卷積來擴(kuò)大感受野，提高網(wǎng)絡(luò)對于多尺度特征的提取，有效地獲取豐富的上下文特征信息。MDSCM 主要由5 個(gè)分支組成，其中一條支路為殘差結(jié)構(gòu)，只進(jìn)行1×1 卷積；另外4 條支路由4 個(gè)空洞率分別為1、2、3、5 的3×1 和1×3 可分離卷積串聯(lián)3×1 和1×3 空洞可分離卷積層組成，首先分別通過3×1 和1×3 可分離卷積獲取更高層的語義信息，隨后利用鋸齒狀的空洞率同時(shí)實(shí)現(xiàn)對大小目標(biāo)的特征提取，用不同空洞率的空洞卷積來關(guān)注遠(yuǎn)近距離信息，提高模型的自適應(yīng)能力。然而，模塊內(nèi)堆疊多個(gè)空洞卷積會增加參數(shù)量，因此，MDSCM 考慮了深度可分離卷積的優(yōu)勢，并將其與空洞卷積優(yōu)勢互補(bǔ)，使計(jì)算量大幅降低。如圖2（c）所示，圖2 中“DConv”為深度可分離卷積，rate 為空洞率。特別地，在使用拼接操作合并分支后，采用1×1 卷積層進(jìn)行多個(gè)分支間的特征融合，加強(qiáng)信息間的溝通，并將通道數(shù)降低到設(shè)定的大小，增強(qiáng)特征表達(dá)能力。

與圖2（a）和圖2（b）中模塊相比，改進(jìn)后的模塊通過堆疊不同空洞率的空洞可分離卷積來有效獲取特征圖的上下文信息，在增大感受野的同時(shí)降低計(jì)算量，加快了訓(xùn)練的進(jìn)程，增強(qiáng)了模型的特征表達(dá)能力，同時(shí)也提高了模塊的兼容性。

2.2 注意力模塊

結(jié)合1.3 節(jié)所述，本文利用CA 模塊將位置信息嵌入通道注意力中，可捕獲方向感知和位置感知的信息，改善通道注意力中位置信息缺失的問題，幫助模型獲取更加精準(zhǔn)定位的細(xì)節(jié)信息。同時(shí)充分考慮全局特征，在CA 模塊的基礎(chǔ)上引入了全局平均池化（Global Average Pooling，GAP）來獲取全局上下文信息，在不增加計(jì)算量的情況下有效減少背景中不必要的信息，加強(qiáng)感興趣區(qū)域的特征表達(dá)。

GCA（Global Coordinate Attention）是一種新型移動(dòng)網(wǎng)絡(luò)注意力機(jī)制，它不僅僅能夠捕獲跨通道信息，還能沿兩個(gè)方向聚合特征信息，靈活且輕便，可以很容易地插入經(jīng)典網(wǎng)絡(luò)中。GCA 結(jié)構(gòu)如圖3 所示。首先，對于輸入特征圖分別沿X、Y兩個(gè)方向進(jìn)行自適應(yīng)平均池化，以提取兩個(gè)空間方向上的權(quán)重信息；隨后將垂直和水平兩個(gè)方向上的輸入特征聚合為兩個(gè)獨(dú)立的方向感知特征映射，其中一個(gè)方向用來捕獲遠(yuǎn)程依賴關(guān)系，另一個(gè)用來實(shí)現(xiàn)對目標(biāo)的精準(zhǔn)定位，每個(gè)元素都能體現(xiàn)感興趣對象是否存在于相對應(yīng)的行和列中；最后再將X、Y方向上互補(bǔ)的特征信息應(yīng)用于輸入特征圖中，防止采樣過程中的信息丟失。這種結(jié)構(gòu)雖然能幫助定位到感興趣的目標(biāo)位置，但卻沒有很好地整合全局上下文信息。因此，本文引入一個(gè)全局平均池化來獲取全局信息，增強(qiáng)模型對信道間的敏感性，并使用上采樣（upsample）來匹配輸入圖像的分辨率；然后將X、Y方向上的特征信息與CA 分支的輸出相乘，產(chǎn)生被關(guān)注特征；最后，得到的特征圖再與原特征圖相加，減少細(xì)節(jié)信息的損失，從而幫助模型更好地識別目標(biāo)。如圖3所示。在該模塊中，將X和Y兩個(gè)方向平均池化以及全局平均池化所提取的特征重新融合來增強(qiáng)特征，并使用線性整流函數(shù)（Rectified Linear Unit，ReLU）和BN 層增強(qiáng)網(wǎng)絡(luò)的非線性能力。

圖3 GCA結(jié)構(gòu)Fig.3 Structure of GCA

2.3 Soft-NMS

傳統(tǒng)NMS 算法根據(jù)置信度的大小選擇最優(yōu)的預(yù)測值，然而置信度高的邊框不一定是最適合的框。一些特殊場景下的數(shù)據(jù)集往往包含大量密集圖像，例如遙感圖像中由于視角的上升導(dǎo)致小目標(biāo)間的距離變小，使得傳統(tǒng)的NMS 算法通過強(qiáng)制刪除一些重疊的有效檢測框，造成檢測過程中出現(xiàn)漏檢、誤檢現(xiàn)象。因此，本文在YOLOv5 目標(biāo)檢測網(wǎng)絡(luò)中引入Soft-NMS 替代傳統(tǒng)的NMS 算法，有效提升了檢測精度。

傳統(tǒng)的NMS 刪除了重復(fù)框的同時(shí)，也會誤將候選框中不同類物體得分較低的框刪除，導(dǎo)致召回率降低。NMS 計(jì)算公式如式（1）所示：

其中：Si為NMS 的計(jì)算結(jié)果；Ti為每個(gè)檢測物體邊框的得分；iou(A，Bi)表示A與Bi的交并比。NMS 設(shè)置了一個(gè)閾值Nt來決定是否應(yīng)該從置信度最高框A的鄰域中刪除或保留一些框：如果任意框Bi與置信度最高框A沒有出現(xiàn)重疊的目標(biāo)，那么在較低的檢測閾值下不會造成漏檢現(xiàn)象；但如果兩框重疊度較高，交并比大于一定的閾值Nt，則會因徹底刪除Bi而造成目標(biāo)的漏檢現(xiàn)象。與NMS 算法相比，Soft-NMS 逐步降低Bi得分而不是直接刪除，避免了由于刪除任意框而出現(xiàn)漏檢的情況，使性能得以提升，具體方法如式（2）所示：

函數(shù)（2）重新定義了邊框的得分，衰減了大于閾值Nt的檢測框分?jǐn)?shù)，優(yōu)化了NMS 算法。但考慮到線性的分?jǐn)?shù)重置并不連續(xù)，當(dāng)達(dá)到Nt的閾值時(shí)，邊框的得分會使檢測序列突變，顯著影響檢測效果。因此Soft-NMS 提出了高斯重置函數(shù)來解決檢測序列帶來的跳變問題，改進(jìn)方式如式（3）所示：

其中：σ為超參數(shù)，D為保存經(jīng)過Soft-NMS 抑制的建議框。

針對傳統(tǒng)的NMS 算法存在目標(biāo)漏檢問題，本文采用含高斯重置函數(shù)的Soft-NMS 算法替換原YOLOv5 中的NMS 算法，對錨框置信度進(jìn)行優(yōu)化，避免因強(qiáng)制刪除邊框而造成的目標(biāo)漏檢現(xiàn)象，可有效提高預(yù)測的精確度。

2.4 改進(jìn)后的YOLOv5網(wǎng)絡(luò)架構(gòu)

為降低小目標(biāo)的漏檢率，提升檢測精度，本文構(gòu)建了一種新型的基于注意力機(jī)制和上下文的目標(biāo)檢測算法ACYOLO。如圖4 所示，上采樣系數(shù)設(shè)置為2，Concat 為拼接操作，用于將深層和淺層維度的特征融合。假定給定一張大小為640×640 的圖像，4 次下采樣通過復(fù)合卷積模塊實(shí)現(xiàn)，通過下采樣可以獲得大小為40×40、80×80、160×160 的三種特征圖用于檢測，隨后對底層40×40 的特征圖進(jìn)行上采樣，分別得到80×80、160×160 的特征圖，并利用Concat 將它們與淺層網(wǎng)絡(luò)進(jìn)行同等尺寸大小的特征圖融合，增強(qiáng)多層次的語義信息。由于簡單的下采樣可能會濾除重要信息，相較于下采樣系數(shù)為5 的原始YOLOv5 網(wǎng)絡(luò)，本文采用4 倍下采樣，但同時(shí)會降低網(wǎng)絡(luò)對大目標(biāo)的特征提取能力，為此，本文在CSP1_3后采用一個(gè)MDSCM 替代下采樣。利用堆疊的空洞卷積在不改變圖片分辨率的情況下引入上下文特征信息，增大其感受野，增強(qiáng)其推理能力；并在MDSCM 中引入深度可分離卷積以降低參數(shù)量，提升檢測速度；為獲得足夠的細(xì)節(jié)特征信息，在堆疊模塊中引入了殘差連接，再由批歸一化和SiLU 激活函數(shù)作為整體輸出。為了進(jìn)一步減少背景信息，選擇聚焦位置，產(chǎn)生具有分辨率性的特征表示，在主干網(wǎng)絡(luò)引入GCA，捕獲跨通道信息，從而更好地定位到感興趣的目標(biāo)。最后，利用Soft-NMS 將兩個(gè)物體框中得分低的框削弱，解決物體的遮擋問題，提高召回率和模型的檢測精度。

圖4 AC-YOLO網(wǎng)絡(luò)結(jié)構(gòu)Fig.4 AC-YOLO network structure

3 實(shí)驗(yàn)與結(jié)果分析

3.1 數(shù)據(jù)集

為驗(yàn)證本文所提出的網(wǎng)絡(luò)模型的性能，引入2007 和2012 的PASCAL VOC 數(shù)據(jù)集［30］、DOTA 航拍圖像數(shù)據(jù)集［31］和DIOR 遙感數(shù)據(jù)集［32］進(jìn)行分析。PASCAL VOC 標(biāo)注的數(shù)據(jù)有20 類，包括人、鳥、飛機(jī)、自行車等，共有21 502 張圖像，其中測試集、訓(xùn)練集的劃分比例為1∶4。DOTA 是由武漢大學(xué)國家重點(diǎn)實(shí)驗(yàn)室和華中科技大學(xué)聯(lián)合構(gòu)建的一組航拍圖像數(shù)據(jù)集，標(biāo)注的數(shù)據(jù)有15 類，包括輪船、飛機(jī)、港口等，共有21 046 張圖像，187 452 個(gè)實(shí)例，其中測試集、訓(xùn)練集的劃分比例為1∶3。DIOR 數(shù)據(jù)集是由西北工業(yè)大學(xué)提出的一種光學(xué)遙感圖像數(shù)據(jù)集，標(biāo)注的數(shù)據(jù)有20 類，圖像多樣性豐富，主要為飛機(jī)、橋梁、煙囪、風(fēng)力發(fā)電機(jī)、高爾夫球場等，共有23 463 張圖像，其中測試集、訓(xùn)練集的劃分比例為1∶3。為了達(dá)到對比實(shí)驗(yàn)的效果，提高模型的泛化能力，滿足對不同場景下多尺度目標(biāo)的檢測要求，本文所選數(shù)據(jù)集中目標(biāo)尺寸大小不一，變化程度也不同。

3.2 實(shí)驗(yàn)配置

本文實(shí)驗(yàn)環(huán)境的配置如表1 所示。

表1 實(shí)驗(yàn)環(huán)境配置Tab.1 Experimental environment configuration

3.3 評價(jià)指標(biāo)

實(shí)驗(yàn)采用平均精度（Average Precision，AP）、平均精度均值（mean AP，mAP）、幀率即每秒傳輸幀數(shù)（Frames Per Second，F(xiàn)PS）評判目標(biāo)檢測的性能。

AP 由橫軸為召回率、縱軸為精準(zhǔn)率所構(gòu)成的P-R 曲線在一定范圍積分求得，計(jì)算公式如式（4）所示：

在目標(biāo)檢測中通常會對多目標(biāo)進(jìn)行檢測，那么對多個(gè)類別求平均AP 值，就得到了mAP 值，如式（5）所示：

FPS 是評價(jià)網(wǎng)絡(luò)檢測目標(biāo)時(shí)常用的速度指標(biāo)，值越大則圖像越流暢。

3.4 消融實(shí)驗(yàn)

在實(shí)驗(yàn)過程中均保持相同的超參數(shù)，以確保實(shí)驗(yàn)的公平比較。實(shí)驗(yàn)仍采用640×640 分辨率大小的圖像作為輸入，使用與原YOLOv5 一樣的數(shù)據(jù)增強(qiáng)方法。在PASCAL VOC 2007 和2012 數(shù)據(jù)集上分別進(jìn)行實(shí)驗(yàn)，驗(yàn)證所提模塊的有效性，結(jié)果如表2 所示。

表2 PASCAL VOC數(shù)據(jù)集上的消融實(shí)驗(yàn)結(jié)果Tab.2 Ablation experimental results on PASCAL VOC dataset

1）MDSCM 的有效性。為了進(jìn)一步加強(qiáng)多尺度特征信息的表達(dá)能力，本文在主干網(wǎng)絡(luò)YOLOv5 中加入了MDSCM，降低了下采樣率，保留了更多的空間細(xì)節(jié)信息。第一組實(shí)驗(yàn)對比了原YOLOv5 和YOLOv5+MDSCM 的檢測效果，由表2 可知后者的mAP 提升了0.90 個(gè)百分點(diǎn)，說明增強(qiáng)特征圖的感受野可以有效提高多尺度上下文信息的提取能力。

2）GCA 模塊的有效性。為了進(jìn)一步增強(qiáng)模型關(guān)注全局信息的能力，本文考慮了將CA 注意力模塊級聯(lián)一個(gè)全局平均池化模塊，增強(qiáng)網(wǎng)絡(luò)的特征學(xué)習(xí)能力。第二組實(shí)驗(yàn)對比了原YOLOv5 和YOLOv5+GCA 的檢測效果，由表2 可知后者的mAP 提升了2.30 個(gè)百分點(diǎn)，這是因?yàn)樵黾幼⒁饬C(jī)制可以捕獲跨通道信息，獲取空間位置間的依賴關(guān)系，有助于模型精確地定位，并抑制無用的信息。相較于CA 模塊，GCA 模塊以獲得一個(gè)更大的感受野，最終精度達(dá)到了81.40%；同時(shí)由于沒有增加額外的計(jì)算量，F(xiàn)PS 保持不變。

3）Soft-NMS 算法的有效性。為了降低模型的漏檢率，第三組實(shí)驗(yàn)對比了原YOLOv5 和YOLOv5+Soft-NMS，由表2 可知后者的mAP 提升了0.50 個(gè)百分點(diǎn)，檢測精度得到一定提升。這是由于傳統(tǒng)的NMS 刪除了重復(fù)框的同時(shí)，也會誤將不同類物體中得分較低的框刪除，造成漏檢現(xiàn)象。而Soft-NMS 算法減弱了相應(yīng)邊框的置信度，在一定程度上降低了漏檢率，有效地提升了檢測精度。

3.5 公共數(shù)據(jù)集上的比較

為驗(yàn)證本文提出的網(wǎng)絡(luò)結(jié)構(gòu)在不同數(shù)據(jù)集上的優(yōu)勢，從推理速度和檢測精度兩方面進(jìn)行對比，結(jié)果如表3～6 所示。

表3 不同網(wǎng)絡(luò)在PASCAL VOC數(shù)據(jù)集上的性能比較Tab.3 Performance comparison of different networks on PASCAL VOC dataset

由表3 可知，在相同數(shù)據(jù)集下，本文的AC-YOLO 算法在目標(biāo)檢測任務(wù)中的mAP 達(dá)到了82.80%，與Faster-RCNN、SSD、YOLOv3、Tiny-YOLOv3、YOLOv5 算法相比，分別提升了9.48、5.14、10.46、9.52、3.70 個(gè)百分點(diǎn)。相較于原YOLOv5算法，AC-YOLO 算法雖在檢測速度上有微小下降，但是檢測精度卻得到了較大提升，遠(yuǎn)遠(yuǎn)超過大多數(shù)檢測器，說明過大的下采樣率對小目標(biāo)的檢測并不友好。

表4 進(jìn)一步列出了部分網(wǎng)絡(luò)結(jié)構(gòu)在PASCAL VOC 數(shù)據(jù)集上的檢測精度，結(jié)果表明本文AC-YOLO 算法在20 個(gè)類別上的檢測精度超過了對比算法，說明融合注意力機(jī)制和上下文信息更利于多尺度有效特征的提取，有效地提升了網(wǎng)絡(luò)對各個(gè)類別的檢測能力。圖5 展示了在PASCAL VOC 數(shù)據(jù)集上可視化的結(jié)果。

圖5 PASCAL VOC數(shù)據(jù)集上的可視化檢測效果對比Fig.5 Visual detection effect comparison on PASCAL VOC dataset

表4 PASCAL VOC數(shù)據(jù)集上不同網(wǎng)絡(luò)結(jié)構(gòu)在各類別上的精度對比單位：%Tab.4 Comparison of precisions under different network structures on each category of PASCAL VOC dataset unit：%

為了驗(yàn)證改進(jìn)算法在遙感圖像應(yīng)用場景中的檢測效果，將AC-YOLO 算法在航拍圖像數(shù)據(jù)集DOTA 上進(jìn)行實(shí)驗(yàn)，結(jié)果如表5 所示。和其他一些優(yōu)秀的算法框架相比，AC-YOLO算法在DOTA 數(shù)據(jù)集上的mAP 達(dá)到了71.74%，相較于YOLOv5 算法提升了1.49 個(gè)百分點(diǎn)，并在大多類別上的檢測精度都高于其他算法。特別在Storage-tank、Helicopter、Bridge 等類別上的檢測精度提升明顯，說明本文算法對排列密集的小尺寸物體具有更好的檢測效果。從圖6 的可視化檢測結(jié)果也可以看出，AC-YOLO 可以檢測出原YOLOv5 中漏檢的飛機(jī)、儲油罐等小尺寸目標(biāo)，對于排列密集的目標(biāo)的檢測精度也高于YOLOv5；但對Harbor、Ground-track-field、Tennis-court 等背景化的物體檢測效果不佳，可能是由于遙感檢測場景下目標(biāo)與背景顏色相近且目標(biāo)形狀單一而導(dǎo)致誤判，造成檢測精度較低。綜合來看，本文的目標(biāo)檢測算法表現(xiàn)更優(yōu)。

圖6 DOTA數(shù)據(jù)集上的可視化檢測效果對比Fig.6 Visual detection effect comparison on DOTA dataset

表5 DOTA數(shù)據(jù)集上不同網(wǎng)絡(luò)結(jié)構(gòu)在各類別上的精度對比單位：%Tab.5 Comparison of precisions under different network structures on each category of DOTA dataset unit：%

表6 DIOR數(shù)據(jù)集上不同網(wǎng)絡(luò)結(jié)構(gòu)在各類別上的精度對比單位：%Tab.6 Comparison of precisionsunder different network structures on each category of DIOR dataset unit：%

此外，在DIOR 光學(xué)遙感數(shù)據(jù)集中，AC-YOLO 改進(jìn)算法的mAP 達(dá)到了77.11%，平均精度提升了2.48 個(gè)百分點(diǎn)，在Airplane、Vehicle、Bridge、Expressway-toll-station 等小物體的檢測精度上取得了不錯(cuò)的效果?？梢暬Y(jié)果如圖7 所示。AC-YOLO 在復(fù)雜環(huán)境背景下的檢測精度高于YOLOv5，尤其是在檢測Airplane 時(shí)，通過目標(biāo)周圍環(huán)境的信息來增強(qiáng)目標(biāo)特征，達(dá)到精準(zhǔn)定位，從而使檢測精度高達(dá)93.10%，遠(yuǎn)超YOLOv5，并在Vehicle 和Ship 上的檢測精度分別提升了4.50個(gè)百分點(diǎn)和6.70 個(gè)百分點(diǎn)，增強(qiáng)了小目標(biāo)的語義信息，更好地檢測出圖中的小尺寸目標(biāo)。以上實(shí)驗(yàn)結(jié)果表明，同YOLOv5 相比，改進(jìn)算法更適用于含有大量密集排列的小目標(biāo)的遙感圖像檢測。

圖7 DIOR數(shù)據(jù)集上的可視化檢測效果對比Fig.7 Visual detection effect comparison on DIOR dataset

4 結(jié)語

為有效結(jié)合上下文信息，獲取多尺度特征，本文提出了一種基于YOLOv5 的改進(jìn)算法AC-YOLO。針對原網(wǎng)絡(luò)中下采樣率過大造成小目標(biāo)信息丟失的問題，提出MDSCM 增大感受野，增強(qiáng)多尺度信息的提取，減少有效信息的丟失；針對數(shù)據(jù)集中目標(biāo)尺寸變化劇烈的問題，引入GCA 模塊，有效捕獲方向感知和位置感知的全局特征信息，幫助模型更精準(zhǔn)地定位，提升檢測精度；為解決目標(biāo)檢測中密集物體相鄰框造成的誤檢問題，利用Soft-NMS 算法計(jì)算錨框的置信度，降低模型的漏檢率。實(shí)驗(yàn)結(jié)果表明，優(yōu)化后的YOLOv5 算法在PASCAL VOC 數(shù)據(jù)集上表現(xiàn)良好，尤其對于遙感圖像中的小目標(biāo)、密集目標(biāo)等具有更好的檢測效果，并在DOTA 和DIOR兩個(gè)遙感圖像數(shù)據(jù)集上驗(yàn)證了本文模型的有效性和優(yōu)越性。之后的工作中，將繼續(xù)優(yōu)化檢測算法：一方面在保持精度的同時(shí)，降低模型的參數(shù)量以提升檢測速度；另一方面，繼續(xù)提升背景化特征信息的敏感度，達(dá)到較高的檢測精度。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放