亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

融合注意力機制的弱監(jiān)督迷彩偽裝目標檢測算法

2022-10-20 04:08:18權冀川梁新宇郭安文王中偉

網(wǎng)絡安全與數(shù)據(jù)管理 2022年9期

關鍵詞：注意力監(jiān)督特征

楊輝，權冀川，梁新宇，郭安文，王中偉

(1.陸軍工程大學指揮控制工程學院，江蘇南京 210007；2.中國人民解放軍 73658部隊)

0 引言

軍事上采用迷彩偽裝的目的是隱蔽自己、欺騙敵人、提高戰(zhàn)場生存能力。相對于通用的目標檢測任務，圖像中的迷彩偽裝目標與背景環(huán)境融合度較大，實現(xiàn)其目標檢測任務更加困難。

目前，對迷彩偽裝目標檢測研究的工作較少。傳統(tǒng)的檢測方法主要把迷彩偽裝目標看作是一種具有特殊紋理結構的目標，并針對這一特性設計相應算法提取迷彩紋理，從而實現(xiàn)迷彩偽裝目標的檢測。Bhajantri等人[1]將目標的迷彩偽裝紋理作為一類物體，然后對該類物體進行檢測。Sengottuvelan等人[2]通過圖像的結構信息，確定圖像中是否存在迷彩偽裝目標。Wu等人[3]根據(jù)目標在三維凸面上的灰度差異來檢測迷彩偽裝目標。盡管傳統(tǒng)方法可以實現(xiàn)對迷彩目標的檢測，但該類方法僅利用了圖像的淺層特征信息，其檢測效果相對較差。

近年來的研究工作主要是使用基于深度卷積神經(jīng)網(wǎng)絡的強監(jiān)督目標檢測算法完成迷彩偽裝目標的檢測任務。Deng等人[4]針對迷彩偽裝目標的特性，在RetinaNet[5]算法的基礎上嵌入了空間注意力和通道注意力模塊。同時，基于定位置信得分構建了新的預測框過濾算法，有效實現(xiàn)了對迷彩偽裝人員的檢測。Wang等人[6]以YOLO(You Only Look Once)v5算法為基礎，設計了一種針對迷彩偽裝目標的檢測算法，該算法在骨干網(wǎng)絡中加入了注意力機制，同時加入非對稱卷積模塊增強了目標的語義信息，從而提升了迷彩偽裝目標的檢測精度。雖然強監(jiān)督目標檢測算法比傳統(tǒng)方法的檢測效果有了很大的提升，但該類算法模型需要在大規(guī)模標注精度高的數(shù)據(jù)集上進行訓練，檢測結果嚴重依賴于數(shù)據(jù)集標注的精度。目前的數(shù)據(jù)集標注工作主要是靠人工完成，而人工標注在很大程度上容易受人的主觀因素影響，在軍事應用領域很難獲得大規(guī)模的且標注精度高的數(shù)據(jù)集。

在軍事領域，受保密等特殊條件限制，很難構建包含迷彩偽裝目標的大規(guī)模圖片數(shù)據(jù)集。并且，圖片中的迷彩偽裝目標與圖片背景的融合度較大，從本質上增加了目標檢測的難度。同時在人工標注時也很容易造成誤標或漏標，嚴重影響數(shù)據(jù)集的使用效果。若在小規(guī)模且標注精度低的數(shù)據(jù)集上訓練強監(jiān)督目標檢測算法，則訓練出來的模型對迷彩偽裝目標的檢測效果會很不理想。而弱監(jiān)督目標檢測算法可以很好地克服強監(jiān)督目標檢測算法的這一局限性。弱監(jiān)督目標檢測算法只需要帶有圖像級標簽（不需要標注出目標在圖像中的具體位置，只需要標明圖像中包含物體的類別）的數(shù)據(jù)集就能實現(xiàn)目標檢測，大幅降低了對數(shù)據(jù)集標注的要求。因此，弱監(jiān)督目標檢測算法比強監(jiān)督目標檢測算法具有更強的適應能力。

目前，基于類激活圖[7](Class Active Mapping，CAM)的模型是弱監(jiān)督目標檢測算法(Weakly Supervised Object Detection，WSOD)中最常用的模型之一。然而，基于CAM的模型最初是針對分類任務進行訓練的，其設計目標與檢測算法不一致。具體來說，分類任務更加關注來卷積神經(jīng)網(wǎng)絡(Convolutional Neural Networks，CNN)深層的具有語義意義的特征。相比之下，源自CNN淺層的特征包含的語義信息較少，但語義更加豐富。在細節(jié)上，淺層特征邊緣更清晰，失真更少。但由于以下兩個缺陷，淺層和深層特征的直接融合對于WSOD是無效的：(1)由于監(jiān)督信息不足，嵌入在淺層特征中的有意義的信息容易受到背景噪聲干擾；(2)在原始區(qū)域中只有最具有辨別力的區(qū)域被激活。

為了克服上述缺陷，本文采用了一種簡單但有效的淺層特征感知偽監(jiān)督目標定位[8](Shallow featureaware Pseudo supervised Object Localization，SPOL)算法來實現(xiàn)迷彩偽裝目標檢測任務。該算法最大限度地嵌入淺層的低級特征，生成的CAM區(qū)域更加廣泛和清晰，在公共數(shù)據(jù)集中取得了最好的結果，如表1所示。

表1 SPOL算法與其他主流算法在公共數(shù)據(jù)集上的實驗對比 (%)

然而迷彩偽裝目標與背景相似度大，導致SPOL算法在該類目標上的檢測精度較低。針對這一問題，本文分別融合了卷積塊注意力模塊(Convolutional Block Attention Module，CBAM)[12]和SE(Squeeze-and-Excitation)[13]注意力模塊，使模型更加關注迷彩偽裝目標所在的區(qū)域，以此提高模型提取特征的能力。實驗表明，加入CBAM模塊后，算法的檢測精度提高了4.29%；加入SE模塊后，算法的檢測精度提高了8.01%；同時加入CBAM模塊和SE模塊后，該指標提高了7.23%，從而驗證了本文算法在弱監(jiān)督迷彩偽裝目標檢測任務中的有效性。

1 SPOL算法結構

SPOL算法模型主要包括兩個階段，CAM生成和與類別無關的分割，其算法流程如圖1所示(輸入圖像首先進入CAM生成模塊(即MFF-Net1)獲得初始的CAM。然后使用高斯分布先驗獲得高斯增強的CAM。同時，將產(chǎn)生的偽標簽作為與類別無關的分割模塊(即MFF-Net2)的監(jiān)督)。在CAM生成階段，乘法特征融合網(wǎng)絡(Multiplicative Feature Fusion Net，MFF-Net)旨在聚合淺層和深層特征。與以往的融合方法不同，MFF-Net網(wǎng)絡中的特征以協(xié)同方式處理，即具有清晰背景的深層特征幫助抑制淺層的噪聲，而淺層具有豐富局部結構的特征使對象邊界更清晰。在與類別無關的分割階段，使用高斯先驗偽標簽(Gaussian Prior Pseudo Label，GPPL)模塊對初始的CAM進行細化，然后將其視為類不可知分割模塊訓練的偽標簽。具體來說，充分利用初始的整個CAM作為加權系數(shù)，通過所有坐標的均值和方差計算得到物體的權重。然后，可以生成具有均值和方差的高斯分布，稱為高斯先驗偽標簽。結合GPPL和原始CAM，可以得到改善的CAM。為了進一步細化這些區(qū)域，通過使用組合的GPPL和CAM作為偽標簽設計了一個與類別無關的分割模型，在訓練階段，具有不同大小的CAM響應區(qū)域將分別被二值化為前景和背景。同時，使用兩個預定義的閾值，其他部分將被忽略以避免訓練期間標簽的沖突。訓練結束后，與初始CAM相比，獲得的對象掩碼將更加完整。最后，邊界框提取器應用于對象掩碼以獲得最終的目標檢測結果。

圖1 SPOL算法流程

1.1 乘法特征融合

多尺度特征融合常用于強監(jiān)督的目標檢測[14]、語義分割[15]等任務。然而，這種策略對弱監(jiān)督目標檢測任務無效。因為來自淺層的特征包含太多的背景噪聲。如果沒有強有力的監(jiān)督，淺層的特征就會被背景噪聲所掩蓋，對最終的預測幾乎沒有效果。因此，該算法采用MFF-Net網(wǎng)絡結構(見圖2)濾除淺層特征的背景噪聲。首先以相同的分辨率(即H×W)對不同分支(即X、Y、Z)的特征進行采樣，然后通過逐元素乘法組合到后續(xù)的分類器中。

圖2 MFF-Net網(wǎng)絡結構

與以前的方法不同，MFF-Net網(wǎng)絡結構以協(xié)同方式處理淺層和深層特征，可以很好地利用淺層特征。為了詳細說明這一點，圖3介紹了四種具有不同監(jiān)督風格的方法。具體來說，圖3(a)是原始分類模型(例如VGG[16]和ResNet50[17])，其中只有最后一層被監(jiān)督。因為淺層特征遠離監(jiān)督并受到梯度消失問題的影響，圖3(b)顯示了深度監(jiān)督模型，其中深層和淺層特征都被直接監(jiān)督以驅動網(wǎng)絡學習更好的表示。但是由于感受野有限，淺層特征的語義較少并引入了更多的噪聲。因此，這種直接監(jiān)督對弱監(jiān)督目標檢測效果的幫助不大。與這些方法相比，特征融合提供了一種間接監(jiān)督的形式，即在監(jiān)督之前組合不同層的特征。

圖3 不同監(jiān)督方式

圖3(c)和方程(3)展示常用的加法融合策略。但是，它沒有考慮多尺度特征之間的相關性。如方程(4)所示，根據(jù)鏈式法則，在計算網(wǎng)絡權重的梯度之前，特征相加對每個分支的梯度是相同的常數(shù)，與其他分支沒有相關性。也就是說，當一個分支出錯時，不會影響其他分支。在這種情況下，網(wǎng)絡無法很好地學習每個分支，即使淺層特征是錯誤的，預測也是可以接受的。雖然它可以在測試階段提高模型的穩(wěn)定性，但在訓練階段卻降低了模型容量并增加了算法的訓練難度。與其他方法不同，在MFF-Net中，不同的分支通過乘法運算進行強耦合，如式(1)所示。式(2)說明了X分支的梯度不是恒定的，而是與Y和Z分支相關的。這三個分支在訓練過程中會相互影響。當一個分支未能捕捉到優(yōu)越的表示時，乘法機制會放大其錯誤，最終導致預測的錯誤。也就是說，MFF-Net為網(wǎng)絡訓練設置了強約束，其中每個分支都必須很好地學習表示。此外，在這種情況下，Y和Z依賴于X。當X得到更好的表示時，Y和Z將得到增強。因此，它們的融合可以產(chǎn)生更準確的預測。

1.2 基于乘法的通道注意力機制

卷積神經(jīng)網(wǎng)絡具有強大的特征提取能力，可以同時表示前景對象和非目標背景特征。淺層特征的某些部分是不必要的，可以視為噪聲，會嚴重干擾最終預測。因此，如圖4所示，在不同層的特征融合之前，采用通道注意力粗略地過濾掉噪聲通道。區(qū)別于一次只關注一層的傳統(tǒng)通道注意力方法，該算法設計了一個基于乘法的通道注意力(Multiplication based Channel Attention，MCA)模塊同時處理各個層。

圖4 MCA模塊

具體來說，對于輸入的特征圖X∈RH1×W1×C1、Y∈RH2×W2×C2和Z∈RH3×W3×C3，首先利用全局平均池化層分別實現(xiàn)X1∈R1×C1、Y1∈R1×C2和Z1∈R1×C3，然后利用3個平行的1×1 Conv層將X1、Y1和Z1分別轉移到具有相同維度R1×C′的X2、Y2和Z2。最后，利用逐元素乘法融合得到潛在的特征向量V=X2·Y2·Z2，V∈R1×C′。這種潛在的特征向量表示不同層的特征的相互耦合。因此，可以將通道注意力同時應用于多個層。在相反的方向上，潛在的特征向量通過Sigmoid激活函數(shù)反饋到原始維度，即X3∈R1×C3、Y3∈R1×C3和Z3∈R1×C3。基于X3、Y3、Z3，MCA模塊使用乘法運算實現(xiàn)對每個對應層的通道注意。

1.3 類不可知分割引導的弱監(jiān)督目標定位

由圖1可見，雖然MFF-Net1網(wǎng)絡結構已經(jīng)產(chǎn)生了最初的CAM，但它只關注最具辨別力的區(qū)域，還不足以提取準確的定位邊界框。為了解決這個問題，進一步提出了偽監(jiān)督類不可知分割模型，它利用了另一個MFF-Net2網(wǎng)絡結構。這個與類別無關的分割模型，丟棄了類別信息，只關注定位信息，即輸出僅代表前景或背景。該模型由偽標簽生成模塊和類別無關的分割模塊兩部分組成。

(1)分割偽標簽生成。首先，通過高斯先驗偽標簽(GPPL)模塊補充CAM。CAM上的每個點(x，y)都被視為一個樣本。位置(x，y)處的響應對應于其權重，通過該設置，計算所有樣本的x和y之間的均值(μx，μy)、方差和相關系數(shù)ρ。然后，利用這些參數(shù)生成二維高斯分布，如式(5)和式(6)，有助于定位物體重心并覆蓋較寬的物體區(qū)域。

然后將原始CAM與高斯增強的CAM集成在一起，采用元素最大值來獲得完整的預測。下一步，增強的CAM被進一步轉換為具有兩個預定義閾值的3個部分，即高置信度區(qū)域對應于前景，低響應區(qū)域對應于背景，沖突區(qū)域對應于低置信度區(qū)域。

(2)類不可知分割和邊界框提取。在獲得前景和背景偽分割標簽后，對類別無關的分割模型(即MFF-Net2)進行訓練。雖然只有一部分圖像具有像素級標簽，但分割模型可以捕獲類似的上下文并自動覆蓋前景。模型優(yōu)化好后，可以從類不可知分割的預測掩碼中提取邊界框。最終的預測結合了提取的邊界框和來自獨立分類器的分類預測。

1.4 損失方程

CAM的生成過程，除了應用分類損失外，還應用了附加損失。通過最后一個特征圖和融合的分類特征計算兩個損失，即Laux和Lcls，如圖2所示。這兩個損失都是使用交叉熵計算的。因此，聯(lián)合損失Lc=Lcls+Laux用于優(yōu)化MFF-Net1。對于類不可知分割，應用二元交叉熵損失來監(jiān)督分割模型，如式(7)所示。然而，除了沖突區(qū)域外，只考慮偽前景和背景區(qū)域。具體地，對于前景和背景，wij等于1，而對于那些沖突區(qū)域，wij設置為零。最終損失沖突區(qū)域被忽略以避免誤導網(wǎng)絡。

其中pij和gij分別是位置(i，j)處的預測概率和真實標簽。

2 改進的SPOL算法

由于迷彩偽裝目標與圖像背景融合度較大，SPOL算法的檢測精度相對較低。為了更進一步提高模型的檢測精度，本文在MFF-Net網(wǎng)絡模型中融入了注意力模塊，使模型更加注重迷彩偽裝目標所在的區(qū)域，以此增強模型提取特征的能力，得到包含偽裝目標更全面的CAM，進而提高模型的檢測精度。

2.1 融合CBAM模塊的SPOL算法

2.1.1 CBAM模塊

CBAM將通道注意力和空間注意力串聯(lián)起來，通過將通道注意力圖和空間注意力圖解耦以提高計算效率，并引入全局池化利用空間全局信息。模塊結構如圖5所示。

圖5 CBAM結構

CBAM模塊有兩個連續(xù)的子模塊，通道注意力和空間注意力。給定輸入的特征圖X∈RC×H×W，它依次推斷一維通道注意力向量sc∈RC和二維空間注意力圖ss∈RH×W。通道注意力子模塊采用兩種不同的池化操作來聚合全局信息。它有兩個并行分支，分別使用MaxPool和AvgPool操作：

式中GAPs(·)和GMPs(·)表示空間域中的全局平均池化和全局最大池化操作?？臻g注意力子模塊對特征的空間關系進行建模，是對通道注意力子模塊的補充。與通道注意力不同，它利用具有大內核的卷積層來生成注意力圖。

其中Conv(·)表示卷積運算，而GAPc(·)和GMPc(·)是通道域中的全局平均池化和全局最大池化操作。[·]表示通道上的串聯(lián)。整個注意力過程可以概括為：

CBAM模塊依次結合通道注意力和空間注意力，可以利用特征的空間和跨通道關系強調網(wǎng)絡關注什么以及關注哪里。即強調有用的通道以及增強信息豐富的本地區(qū)域。由于其輕量級設計，CBAM模塊可以無縫集成到任何CNN架構中，附加成本可以忽略不計。

2.1.2 融合CBAM模塊的MFF-Net網(wǎng)絡

原始的MFF-Net網(wǎng)絡模型采用ResNet50網(wǎng)絡提取特征。雖然該網(wǎng)絡具有很強的特征提取能力，但是相比于通用的目標，迷彩偽裝目標和背景融合度非常大。目標在圖像中不易識別，從而增大了網(wǎng)絡提取目標特征的難度。為了緩解這一問題帶來的影響，本文在ResNet50網(wǎng)絡中加入CBAM模塊，讓網(wǎng)絡更加注意迷彩偽裝目標所在的區(qū)域，以此增強網(wǎng)絡的特征提取能力，增加的具體位置如圖6所示。

圖6 融合CBAM模塊的ResNet50網(wǎng)絡結構

2.2 融合SE模塊的SPOL算法

2.2.1 SE模塊

SENet的核心是一個SE模塊，用于收集全局信息、捕獲通道關系和提高表示能力。SE模塊分為兩部分：擠壓模塊和激勵模塊，模塊結構如圖7所示。

圖7 SE模塊結構

擠壓模塊通過全局平均池化操作收集全局空間信息。激勵模塊使用全連接層和非線性層(ReLU和Sigmoid)捕獲通道關系并輸出注意力向量。然后，將輸入的特征向量與注意力向量中的相應元素相乘來縮放輸入特征的每個通道。一個以X為輸入和Y為輸出的擠壓和激勵塊Fse(帶有參數(shù)θ)可以表述為：

2.2.2 融合SE模塊的MFF-Net網(wǎng)絡

盡管在ResNet50網(wǎng)絡中融合CBAM模塊后，增強了網(wǎng)絡提取特征的能力，從而提升了算法的檢測效果，但僅在網(wǎng)絡的STAGE 0模塊后加入CBAM模塊，這導致后續(xù)的幾個模塊在進行特征提取操作時無法著重關注迷彩偽裝目標所在的區(qū)域。為了進一步利用注意力機制提高模型的檢測精度，本文在MFF-Net網(wǎng)絡模型的ResNet50中融入了SE模塊，加入的具體位置如圖8所示。

圖8 融合SE模塊的ResNet50網(wǎng)絡結構

2.3 融合CBAM模塊和SE模塊的SPOL算法

為進一步驗證融合注意力模塊后目標檢測算法的有效性，以及比較不同注意力模塊對不同尺度目標檢測效果的影響和作用，在上述研究的基礎上嘗試對兩種注意力模塊進行融合，改進形成的網(wǎng)絡結構如圖9所示。

圖9 融合CBAM模塊和SE模塊的ResNet50網(wǎng)絡結構

3 實驗分析

3.1 數(shù)據(jù)集

實驗采用的目標圖像來源于課題組自建數(shù)據(jù)集CSS[18]，該數(shù)據(jù)集包含雨林、叢林、雪地和山地4種野外環(huán)境下多類型的迷彩偽裝目標。從實際戰(zhàn)場偵察角度看，CSS數(shù)據(jù)集涵蓋了不同場景、不同天候、不同迷彩類型的多尺度偽裝目標，可以滿足多種迷彩偽裝目標檢測識別的實驗需求。為了滿足弱監(jiān)督迷彩偽裝目標檢測算法訓練和測試的要求，本文在CSS數(shù)據(jù)集的基礎上進行了篩選與重新標注，構建了一個適合弱監(jiān)督目標檢測算法的數(shù)據(jù)集。該數(shù)據(jù)集的訓練集由6 100張迷彩偽裝目標圖像組成，其中包括1 000張大目標圖像、2 100張中目標圖像以及3 000張小目標圖像。為了更好地驗證本文設計的算法的有效性，構建了兩個測試集用于算法的驗證：第一個測試集由350張迷彩偽裝目標圖像組成，只包含大目標和中目標的圖像；第二個測試集包括大目標、中目標、小目標三個子集，三個子集都由100張迷彩偽裝目標圖像組成。其中，將目標所占像素點與全圖像素點數(shù)量的百分比作為定義目標尺度的依據(jù)。小目標所占像素點與全圖像素點數(shù)量的比值小于或等于1%；中目標所占像素點與全圖像素點數(shù)量的比值在1%到3%之間；大目標所占像素點與全圖像素點數(shù)量的比值大于3%，圖10展示了不同尺度目標的圖像樣本。

圖10 多尺度目標圖像樣本

3.2 實驗環(huán)境

搭建實驗環(huán)境，使用的服務器操作系統(tǒng)為Ubuntu18.04，使用的應用軟件環(huán)境及工具包包含CUDA、Python3.8等，使用PyTorch深度學習框架進行實驗。實驗所用的硬件設備配置如表2所示，訓練算法模型時的重要參數(shù)設置如表3所示。

表2 實驗硬件環(huán)境配置

表3 訓練參數(shù)列表

3.3 評價指標

常用的弱監(jiān)督目標檢測評價指標有以下三種：

(1)Top-1定位精度(Top-1 Loc)：預測的物體類別必須和物體的真實類別相同，且預測邊界框與真實框的交并比的(Intersection-over-Union，IoU)數(shù)值超過50%，即預測邊界框與真實框的重合率超過50%的比例。

(2)Top-5定位精度(Top-5 Loc)：對于預測的物體類別，取可能性最高的5類，只要這5類中包含物體的真實類別，就算分類正確。同時，預測的邊界框與真實框的IoU數(shù)值超過50%的比例。

(3)GT-known定位精度(GT-known Loc)：預測邊界框與真實框的IoU數(shù)值超過50%的比例。

本文是在迷彩偽裝目標數(shù)據(jù)集上進行的對比實驗，該數(shù)據(jù)集只有單類物體，故采用Top-1 Loc和GT-known Loc作為目標檢測結果的評價標準。

3.4 改進算法的實驗結果

表4比較了改進算法與原始算法在弱監(jiān)督迷彩偽裝目標圖像數(shù)據(jù)集上的實驗結果，采用的是大、中尺度目標混合的驗證集。其中，CBAM-SPOL表示融合CBAM模塊的檢測算法，SE-SPOL表示融合SE模塊的檢測算法，CBAM-SE-SPOL表示同時融合了CBAM模塊和SE模塊的檢測算法。

表4 不同算法的實驗結果對比 (%)

由表4可見，融合注意力模塊后，算法的檢測精度比原始算法的檢測精度有比較明顯的提升。其中，加入CBAM模塊后，Top-1 Loc評價指標提高了4.29%；加入SE模塊后，該指標提高了8.01%。然而，同時加入CBAM模塊和SE模塊后，該指標提高了7.23%，僅比只加入CBAM模塊提高2.94%，而比只加入SE模塊時降低0.78%。主要原因是，同時融合CBAM模塊和SE模塊后，在模型訓練過程中，當輸入圖像通過CBAM模塊時，模型會選擇性地丟棄一些不重要的信息，導致后續(xù)的SE模塊局限于關注CBAM模塊保留的特征信息，從而在一定程度上降低了模型提取特征的能力。但總體來說，加入注意力模塊后的MFF-Net網(wǎng)絡比原始的MFF-Net網(wǎng)絡能夠提取到更多的有效特征，可增強算法對隱蔽性高的迷彩偽裝目標的檢測能力。

為了驗證注意力模塊對各種尺度迷彩偽裝目標檢測效果的影響，分別采用含有的大目標、中目標、小目標圖像的子驗證集對上述四種算法進行再次驗證，并使用Top-1 Loc作為實驗結果的評價指標，實驗結果如表5所示。

表5 不同算法對多尺度目標的檢測結果對比 (%)

從表5中看出，對于三種不同尺度的迷彩偽裝目標圖像，融合注意力模塊后的算法比原始SPOL算法的檢測效果都有明顯提升。綜合比較得出，SE-SPOL算法對大目標圖像的檢測效果最好，Top-1 Loc評價指標提高了18.18%；CBAM-SE-SPOL算法對中目標圖像的檢測效果有顯著的提升，評價指標比原始SPOL算法提高了23.21%；同時，CBAM-SESPOL算法對小目標圖像檢測效果的提升也很明顯，評價指標提高了6.90%。產(chǎn)生上述對比效果的主要原因是：(1)大目標在圖像中所占的像素點數(shù)量多，SE通道注意力本身對大目標的特征提取能力很強，而CBAM模塊和SE模塊的融合，反而會使模型丟失一些迷彩偽裝目標的特征信息，所以當數(shù)據(jù)集主要包含大目標圖像時，更適合用SE-SPOL算法進行檢測。(2)中目標和小目標在圖像中所占的像素點數(shù)量相對較少，先通過CBAM模塊使模型關注這兩類目標在圖像中的大致區(qū)域，然后利用SE模塊進一步加強模型對這些區(qū)域的特征提取能力，會顯著改善檢測效果；所以當數(shù)據(jù)集主要包含中目標或小目標時，更適合用CBAM-SE-SPOL算法進行檢測。(3)小目標在圖像中所占像素點數(shù)量太少，同時迷彩偽裝目標與圖像背景相似度較高，采用的圖像級標簽不含目標的位置信息，三點原因綜合起來會導致模型訓練時很難學習到小目標的特征。因此，雖然改進算法也能明顯改善對小目標的檢測效果，但檢測精度還有很大的提升空間。

3.5 目標檢測效果分析

圖11展示了原始算法與加入不同注意力模塊的改進算法生成的像素級偽標簽的比較結果。從圖中可以看出，加入注意力模塊后，改進算法生成的偽標簽圖像比SPOL算法更加清晰，覆蓋的目標像素點更多?？梢?，改進算法中的MFF-Net2網(wǎng)絡可以學習到更全面的目標信息，進而提升了模型的檢測精度。

圖11 偽標簽比較

圖12對比了改進算法和原始算法的檢測效果。從第1行到第3行分別為大目標圖像、中目標圖像以及小目標圖像。圖中，綠色方框表示目標的真實框，紅色方框表示算法的預測邊界框，紅色數(shù)值為目標檢測的IoU比值。對比可見，本文提出的改進算法模型對目標的預測邊界框更加準確，預測邊界框與真實框的IoU比值更大，說明預測結果與真實情況更加接近。其中，SE-SPOL算法對大目標的檢測效果最好，IoU比值最高；CBAM-SE-SPOL算法對中、小目標的檢測效果最好。

圖12 檢測效果比較

4 結論

本文以弱監(jiān)督目標定位任務中的SPOL算法為基礎，針對迷彩偽裝目標圖像這一類特殊場景，在算法中加入注意力模塊，加強模型對迷彩偽裝目標的特征提取能力。不同算法間的實驗結果對比表明：本文的算法比原始算法在檢測精度上得了到較大的提升。下一步的研究工作是針對實際場景中大量存在的模糊圖像，研究采用去模糊算法對圖像進行增強，以進一步提高模型的檢測精度。