付炳陽(yáng),曹鐵勇,鄭云飛,2,3,方 正,王 楊,王燁奎
1.陸軍工程大學(xué) 指揮控制工程學(xué)院,南京210007
2.陸軍炮兵防空兵學(xué)院南京校區(qū) 火力系,南京211100
3.安徽省偏振成像與探測(cè)重點(diǎn)實(shí)驗(yàn)室,合肥230031
偽裝目標(biāo)分割(camouflaged object segmentation,COS)是計(jì)算機(jī)視覺中極具挑戰(zhàn)性的任務(wù),其目的是從目標(biāo)與背景高度相似的環(huán)境中分割出偽裝物體[1]。由于偽裝目標(biāo)與周圍環(huán)境對(duì)比度較低,相比目標(biāo)與背景有明顯差異的常規(guī)分割任務(wù),偽裝目標(biāo)分割更加具有難度。
在早期的傳統(tǒng)方法中,研究人員將偽裝圖案視為特殊的紋理區(qū)域,針對(duì)顏色、紋理等底層特征,運(yùn)用三維凸算子、灰度共生矩陣、紋理描述符、數(shù)學(xué)形態(tài)學(xué)等方法對(duì)偽裝目標(biāo)進(jìn)行分割[2-6]。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,從圖像中提取的深度特征相比于傳統(tǒng)底層特征更加通用和有效。因此,研究人員開始利用深度卷積網(wǎng)絡(luò)(convolutional neural network,CNN)構(gòu)建偽裝目標(biāo)分割模型。Li等人通過(guò)圖像增強(qiáng)算法實(shí)現(xiàn)目標(biāo)與背景特征的區(qū)分,再利用區(qū)域建議網(wǎng)絡(luò)實(shí)現(xiàn)對(duì)特定目標(biāo)的精確定位[7]。Zheng 等人提出針對(duì)分割迷彩偽裝目標(biāo)的密集反卷積網(wǎng)絡(luò),并利用超像素優(yōu)化分割結(jié)果[8]。卓劉等人引入多尺度的殘差神經(jīng)網(wǎng)絡(luò)用于識(shí)別偽裝迷彩目標(biāo)[9]。Le 等人引入Anabranch Network 提高分割精度[10]。Fang 等人提出利用強(qiáng)語(yǔ)義膨脹網(wǎng)絡(luò)(strong semantic dilation network,SSDN)從卷積神經(jīng)網(wǎng)絡(luò)中提取偽裝目標(biāo)的語(yǔ)義信息[11]。Fan等人將偽裝目標(biāo)分割建模為搜索和識(shí)別兩個(gè)階段,搜索階段負(fù)責(zé)搜索隱蔽目標(biāo),識(shí)別階段采用聯(lián)級(jí)方式準(zhǔn)確地檢測(cè)出隱蔽目標(biāo)[1]。Yan等人結(jié)合實(shí)例分割和對(duì)抗攻擊來(lái)分割偽裝目標(biāo),提高分割精度[12]。Mei 等人設(shè)計(jì)出一種分心挖掘策略用于分心區(qū)域的發(fā)現(xiàn)和去除[13]。Zhai 等人將交互學(xué)習(xí)思想從規(guī)則網(wǎng)格空間推廣至圖域,在圖的聯(lián)合學(xué)習(xí)框架基礎(chǔ)上設(shè)計(jì)出交互式學(xué)習(xí)模型用于分割偽裝目標(biāo)以及真實(shí)邊緣[14]。
上述網(wǎng)絡(luò)模型在相對(duì)簡(jiǎn)單的場(chǎng)景中分割偽裝目標(biāo)已經(jīng)具有較好的效果,但面對(duì)目標(biāo)偏小且背景復(fù)雜的場(chǎng)景時(shí),模型分割性能顯著下降。模型效果下降原因包括當(dāng)前模型所提取的深度特征多尺度表達(dá)能力不足,無(wú)法發(fā)現(xiàn)圖片中尺寸較小且與背景高度相似的偽裝目標(biāo),導(dǎo)致模型產(chǎn)生漏檢情況。其次,模型使用的底層特征包含大量干擾信息,無(wú)法準(zhǔn)確提取出偽裝目標(biāo)邊緣細(xì)節(jié);深層特征經(jīng)過(guò)多次下采樣后分辨率大大降低,目標(biāo)細(xì)節(jié)信息也嚴(yán)重丟失。目前增強(qiáng)特征的常用方式為特征融合,但簡(jiǎn)單地融合深層特征與低層特征,將導(dǎo)致目標(biāo)信息淹沒在大量干擾信息中,無(wú)法準(zhǔn)確捕捉偽裝目標(biāo)位置信息以及邊緣細(xì)節(jié)。
針對(duì)上述問題,本文提出一種基于多級(jí)特征融合的偽裝目標(biāo)分割模型。模型分為編碼和解碼兩個(gè)階段:在編碼階段采用Res2Net-50作為主干網(wǎng)絡(luò)[15],構(gòu)建門控融合模塊(gated fusion module,GFM)對(duì)主干網(wǎng)絡(luò)提取的各級(jí)中間層特征進(jìn)行選擇性融合,過(guò)濾特征中包含的干擾信息,同時(shí)豐富特征的語(yǔ)義和細(xì)節(jié)信息;在解碼階段,利用自交互殘差模塊(self-interaction residual module,SIRM),解決模型對(duì)多尺度特征表達(dá)能力不足的問題。SIRM 將輸入特征轉(zhuǎn)換成不同通道數(shù)的高、低分辨率特征,再進(jìn)行充分融合,從而挖掘出更多有效的特征信息。最后,為增強(qiáng)損失函數(shù)對(duì)圖像中不同尺寸目標(biāo)的監(jiān)督效果,本文在訓(xùn)練階段采用Dice損失(Dice loss,DL)與交叉熵?fù)p失的聯(lián)合損失函數(shù),使模型能更精準(zhǔn)地分割偽裝目標(biāo)。本文方法在一個(gè)迷彩偽裝數(shù)據(jù)集CPD和三個(gè)自然偽裝數(shù)據(jù)集CHAMELEON、CAMO、COD10K 上與典型方法進(jìn)行對(duì)比實(shí)驗(yàn)。結(jié)果表明,在四個(gè)常用評(píng)價(jià)指標(biāo)上本文均優(yōu)于其他方法,由此證明本文方法在各類偽裝目標(biāo)分割任務(wù)上具備有效性。
如圖1 所示,本文分割模型基于全卷積架構(gòu)(fully convolutional networks,F(xiàn)CN)[16]。首先,采用Res2Net-50作為特征提取網(wǎng)絡(luò)[15]。對(duì)于Res2Net-50 輸出的不同尺度特征,一起輸入門控融合模塊(GFM)。GFM 運(yùn)用門控機(jī)制過(guò)濾掉各層特征中背景信息干擾,有選擇性地融合各級(jí)特征圖。然后,在解碼階段加入自交互殘差模塊(SIRM),挖掘出更多當(dāng)前特征的多尺度信息,增強(qiáng)偽裝目標(biāo)特征信息。最后,模型通過(guò)各級(jí)特征逐層聚合得出最終的偽裝目標(biāo)分割圖。
圖1 網(wǎng)絡(luò)結(jié)構(gòu)框架圖Fig.1 Network structure block diagram
在特征提取網(wǎng)絡(luò)中,不同深度的卷積層提取出不同表示水平的特征。其中,淺層特征圖分辨率高,且包含目標(biāo)的大量細(xì)節(jié)信息,但語(yǔ)義表達(dá)能力不強(qiáng);深層特征包含豐富的語(yǔ)義信息,但分辨率低且目標(biāo)細(xì)節(jié)信息較少[17-18]。如何結(jié)合各級(jí)特征的優(yōu)勢(shì)提取出具有高分辨率且豐富語(yǔ)義信息的特征圖是偽裝目標(biāo)分割模型構(gòu)建的關(guān)鍵。
本文將門控機(jī)制引入多級(jí)特征融合過(guò)程[19],提出門控融合模塊選擇性地融合各級(jí)特征。在深層特征語(yǔ)義信息的指導(dǎo)下,計(jì)算出各級(jí)特征對(duì)應(yīng)的門控矩陣以此區(qū)分特征中的有用信息與干擾信息。其中,門控系數(shù)的大小是多級(jí)融合中選擇特征的重要依據(jù)。各級(jí)特征中門控系數(shù)較大的部分被保留,門控系數(shù)較小的部分被其余各級(jí)特征對(duì)應(yīng)信息所補(bǔ)充。采用這種選擇性門控機(jī)制可以有效過(guò)濾各級(jí)特征中背景信息,從包含大量噪聲信息的原始特征圖中抽取目標(biāo)信息并將其聚合,增強(qiáng)不同分辨率特征的表示能力。
其中,每個(gè)門控系數(shù)Gl=sigmoid(wl?fl)由一個(gè)參數(shù)為wl∈的卷積層計(jì)算得出,門控總數(shù)為主干網(wǎng)絡(luò)提取出的特征圖數(shù)量。由上式可知,只有當(dāng)Gi(x,y)的數(shù)值較大并且Gl(x,y)的數(shù)值較小時(shí),Gl(x,y)對(duì)應(yīng)特征才選擇Gi(x,y)處特征信息進(jìn)行融合,補(bǔ)充特征信息。
圖2 門控融合模塊Fig.2 Gated fusion module
在不同深度的高分辨率特征和低分辨率特征之間進(jìn)行交互融合,可以豐富特征的尺度信息[20]?;谶@種思想,本文在解碼階段設(shè)計(jì)自交互殘差模塊(SIRM)。SIRM 通過(guò)當(dāng)前特征挖掘尺度信息,增強(qiáng)各級(jí)特征圖表達(dá)能力,便于模型分割出更加準(zhǔn)確的偽裝目標(biāo),整個(gè)過(guò)程的數(shù)學(xué)表達(dá)式為:
圖3 自交互殘差模塊Fig.3 Self interaction residual module
在偽裝目標(biāo)分割算法中,廣泛使用交叉熵函數(shù)作為損失函數(shù)。交叉熵函數(shù)獨(dú)立地計(jì)算每一個(gè)像素的損失,然后在整個(gè)批次中累積每個(gè)像素的損失。但這種方法忽略整體的結(jié)構(gòu),尤其針對(duì)偽裝目標(biāo)較小的圖片,目標(biāo)像素的損失會(huì)被背景像素稀釋。并且交叉熵?fù)p失函數(shù)是平等對(duì)待各區(qū)域像素點(diǎn),然而在實(shí)際情況中,偽裝目標(biāo)的邊緣給分割提供更多有價(jià)值的信息,應(yīng)給予目標(biāo)邊緣更多關(guān)注[21]。
本文將語(yǔ)義分割中常用的Dice 損失[22]引入偽裝目標(biāo)分割任務(wù),從區(qū)域整體的角度進(jìn)行模型學(xué)習(xí),彌補(bǔ)加權(quán)交叉熵?fù)p失的不足。同樣為體現(xiàn)像素之間的差異,每個(gè)像素點(diǎn)加不同的權(quán)重以強(qiáng)調(diào)它們?cè)诜指钸^(guò)程中不同的重要程度。加權(quán)Dice損失計(jì)算公式如下:
其中,p∈?H×W表示預(yù)測(cè)圖的每一個(gè)像素點(diǎn)的概率值,g∈{0,1}H×W表示人工標(biāo)注圖。αij表示偽裝圖像中每個(gè)像素點(diǎn)的權(quán)重,計(jì)算公式如下:上式中Aij表示像素(i,j)周圍的區(qū)域,γ為可以調(diào)節(jié)的權(quán)重系數(shù)。本方法可以找出與其周圍環(huán)境不同像素點(diǎn)給與更多關(guān)注。
基于上述分析,本文采用加權(quán)交叉熵(Lwbce)與加權(quán)Dice 損失(LwDL)聯(lián)合的方式來(lái)增強(qiáng)圖片中各尺度目標(biāo)的監(jiān)督效果。該聯(lián)合損失函數(shù)更多地關(guān)注偽裝目標(biāo)的邊緣部分,對(duì)于目標(biāo)尺度上的差異也不會(huì)造成計(jì)算損失的較大波動(dòng)。該總損失函數(shù)為:
其中λ1和λ2是平衡兩個(gè)損失貢獻(xiàn)的超參數(shù),具體取值分析見表1。
表1 參數(shù)λ1 和λ2 對(duì)算法的影響Table 1 Influence of parameters λ1 and λ2 on algorithm
本文在迷彩偽裝數(shù)據(jù)集和三個(gè)自然偽裝數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn):迷彩偽裝數(shù)據(jù)集CPD[11]、自然偽裝數(shù)據(jù)集CHAMELEON[23]、CAMO[10]以及COD10K[1]。迷彩偽裝數(shù)據(jù)集中包括26 種迷彩種類共計(jì)2 600 張迷彩偽裝目標(biāo)圖像(其中1 300 張用于訓(xùn)練,1 300 張用于測(cè)試),該數(shù)據(jù)集包含叢林、雨林、雪地、荒漠和開闊地等5種復(fù)雜背景,包括臥倒、站立、半蹲等多種姿態(tài)[11]。CHAMELEON包含76張通過(guò)互聯(lián)網(wǎng)收集的偽裝動(dòng)物圖片,以及相應(yīng)的人工標(biāo)注圖[23]。CAMO包含1 250張不同類別的偽裝圖像(其中1 000張用于訓(xùn)練,250張用于測(cè)試),涵蓋自然偽裝目標(biāo)和人工偽裝目標(biāo)并都有精細(xì)的標(biāo)簽標(biāo)注[10]。COD10K 是目前最大的基準(zhǔn)數(shù)據(jù)集,它包括5 個(gè)大類和69 個(gè)子類共計(jì)5 066 張偽裝圖片(其中3 040 張用于訓(xùn)練,2 026 張用于測(cè)試),該數(shù)據(jù)集通過(guò)多個(gè)攝影網(wǎng)站下載并進(jìn)行人工標(biāo)注[1]。本文在完成迷彩偽裝目標(biāo)分割時(shí),使用公開迷彩偽裝數(shù)據(jù)集的訓(xùn)練集與測(cè)試集進(jìn)行實(shí)驗(yàn)。在自然偽裝目標(biāo)分割實(shí)驗(yàn)中,本文實(shí)驗(yàn)仿照之前的工作,使用CAMO 和COD10K 的組合作為訓(xùn)練集(4 040張圖片),其余自然偽裝圖片作為測(cè)試集[1]。
本中使用結(jié)構(gòu)度量(Sα),自適應(yīng)E度量(E?),加權(quán)F度量()以及平均絕對(duì)誤差(MAE)作為評(píng)價(jià)指標(biāo)。其中結(jié)構(gòu)度量(Sα)著重評(píng)估預(yù)測(cè)圖的結(jié)構(gòu)信息,計(jì)算公式為:Sα=αSο+(1-α)Sr,這里Sο和Sr分別表示對(duì)象感知和區(qū)域感知的結(jié)構(gòu)相似性[24]。自適應(yīng)E 度量(E?)同時(shí)評(píng)估像素級(jí)匹配和圖像級(jí)統(tǒng)計(jì)信息,對(duì)結(jié)果圖的整體和局部的精度有較好的評(píng)價(jià)[25]。
加權(quán)F 度量()是一個(gè)綜合精確度和召回率的評(píng)估指標(biāo),計(jì)算公式為:
式中,β2是平衡參數(shù),Pω為加權(quán)準(zhǔn)確率,Rω為加權(quán)召回率。在測(cè)評(píng)中,β2設(shè)置為0.3以提高重要的準(zhǔn)確率比重[26]。
平均絕對(duì)誤差(MAE)用于計(jì)算預(yù)測(cè)圖和真值之間的像素差異,廣泛應(yīng)用于評(píng)價(jià)圖像分割結(jié)果,計(jì)算式為:
式中,h和w表示圖像的高度和寬度,P表示預(yù)測(cè)圖,G表示標(biāo)注圖。
本文通過(guò)實(shí)驗(yàn)分析出聯(lián)合損失函數(shù)中兩個(gè)參數(shù)λ1和λ2對(duì)算法性能的影響,并為選擇合適的參數(shù)提供依據(jù)。
語(yǔ)義分割中采用聯(lián)合損失函數(shù)時(shí),權(quán)重參數(shù)λ1和λ2一般都取值為1,因此本文在討論λ1和λ2比例時(shí),設(shè)置了八組參數(shù)均在1∶1 附近。實(shí)驗(yàn)中設(shè)置的八組參數(shù)在迷彩偽裝數(shù)據(jù)集CPD 上進(jìn)行定量評(píng)價(jià)。Sα、E?、和MAE的測(cè)試結(jié)果如表1所示。
根據(jù)表1,模型在不同的權(quán)重參數(shù)λ1和λ2下都有較好的表現(xiàn),但還是存在一定程度的差別。從表1整體來(lái)看,參數(shù)λ2偏大時(shí)效果較好,表明在聯(lián)合損失中適當(dāng)增大Dice 損失的權(quán)重對(duì)模型效果有一定提升。在表1列出的參數(shù)設(shè)置中,當(dāng)λ1=1 且λ2=2 時(shí),模型有最好的效果。在后續(xù)實(shí)驗(yàn)中,設(shè)置參數(shù)λ1=1 和λ2=2。
本文模型采用PyTorch框架實(shí)現(xiàn)。訓(xùn)練和測(cè)試均使用一臺(tái)6核電腦,配備Intel?Xeon?E5-2609 v3 1.9 GHz CPU 和NVIDIA GeForce RTX 2080Ti GPU(11 GB 內(nèi)存)。網(wǎng)絡(luò)主干參數(shù)由預(yù)先在ImageNet 上訓(xùn)練的Res2Net-50 模型初始化,其余參數(shù)由PyTorch 的默認(rèn)設(shè)置進(jìn)行初始化。使用動(dòng)量SGD優(yōu)化器,權(quán)重衰減為5E-4,初始學(xué)習(xí)率為1E-3,動(dòng)量為0.9。此外,批量大小設(shè)置為4,并通過(guò)因子為0.9 的poly 策略調(diào)整學(xué)習(xí)率,網(wǎng)絡(luò)訓(xùn)練40輪。訓(xùn)練圖像的大小統(tǒng)一調(diào)整為352×352。
實(shí)驗(yàn)中,將本文模型與近期的6種典型方法進(jìn)行比較,其中包括醫(yī)學(xué)圖像分割方法PraNet[27],顯著性目標(biāo)分割方法F3Net[21]、GCPANet[28]以及MINet[29],自然偽裝目標(biāo)分割方法SINet[1]以及PFNet[13]和軍事偽裝目標(biāo)分割方法SSDN[11]。為客觀公正地進(jìn)行對(duì)比,上述方法的預(yù)測(cè)圖都通過(guò)運(yùn)行官方開源代碼,在相同數(shù)據(jù)集訓(xùn)練模型生成。其中,輸入圖像大小、batch數(shù)量、學(xué)習(xí)率、權(quán)重衰減系數(shù)等訓(xùn)練參數(shù)與本文模型所做實(shí)驗(yàn)相同,此外,所有的預(yù)測(cè)圖都使用相同的代碼進(jìn)行評(píng)估。表2 報(bào)告本文與其他6 種典型方法在迷彩偽裝數(shù)據(jù)集CPD 上的定量結(jié)果。圖4展示出不同模型的目標(biāo)分割結(jié)果圖。
表2 本文方法與其他方法在迷彩偽裝數(shù)據(jù)集對(duì)比Table 2 Comparison between other and proposed methods on camouflaged people dataset
從表2可以發(fā)現(xiàn),本文的方法在各項(xiàng)標(biāo)準(zhǔn)評(píng)估指標(biāo)下都優(yōu)于其他比較模型,說(shuō)明本文方法較其他方法更適合軍事迷彩偽裝分割任務(wù)。圖4 也可以直觀看出本文方法能更好地在各種復(fù)雜環(huán)境下分割出多姿態(tài)小目標(biāo)偽裝人員。因此本文方法相比于其他方法更加充分利用圖片各層特征中的語(yǔ)義信息以及細(xì)節(jié)信息,在小目標(biāo)分割中生成更加精確和完整的偽裝物體預(yù)測(cè)圖,并且減少誤判和漏檢的情況。
圖4 CPD數(shù)據(jù)集上不同模型的視覺比較結(jié)果Fig.4 Visual comparison results based on different models on camouflaged people datasets
另一方面,為證明本文方法對(duì)于自然偽裝目標(biāo)分割任務(wù)同樣有效。本文方法與其他6個(gè)典型方法進(jìn)行比較,其中包括PraNet[27]、F3Net[21]、MINet[29]、CPD[30]、SINet[1]、PFNet[13]以及MGL[14]。同樣為客觀公正地進(jìn)行對(duì)比,上述所有模型采用官方提供的開源代碼,并設(shè)置同樣的訓(xùn)練參數(shù)。此外,所有的預(yù)測(cè)圖都使用相同的代碼進(jìn)行評(píng)估。表3報(bào)告本文方法與其他6種典型方法在3個(gè)自然偽裝數(shù)據(jù)集上的對(duì)比結(jié)果。可以發(fā)現(xiàn),本文的方法在所有4個(gè)標(biāo)準(zhǔn)評(píng)估指標(biāo)下都優(yōu)于所有其他方法。
表3 本文方法與其他方法在自然偽裝數(shù)據(jù)集上對(duì)比Table 3 Comparison between other and proposed methods on natural camouflage dataset
此外,圖5 展示本文方法與其他方法的比較結(jié)果??梢钥闯觯诟鞣N尺寸的自然偽裝目標(biāo)分割(小偽裝目標(biāo)(1)行和(2)行、大偽裝目標(biāo)(3)行和(4)行)中都生成更加精確和完整的偽裝目標(biāo)分割圖,并且具有清晰的邊界和連貫的細(xì)節(jié)。在分割目標(biāo)被物體遮擋((5)行和(6)行)情況下,該方法也可以成功地推斷出真實(shí)的偽裝物體區(qū)域。因此,本文方法相比于其他方法在復(fù)雜場(chǎng)景下的自然偽裝分割任務(wù)具有更好的表現(xiàn)。
圖5 自然偽裝數(shù)據(jù)集上不同方法的視覺比較Fig.5 Visual comparison results based on different models on natural camouflage dataset
本文方法與其他方法在實(shí)時(shí)性方面也進(jìn)行了對(duì)比。所有算法在相同的實(shí)驗(yàn)環(huán)境下(RTX 2080Ti顯卡)推理相同大小的測(cè)試圖片,對(duì)比結(jié)果如表4所示。本文方法對(duì)每張圖片的處理速度約為0.012 s左右,即幀率在單張GPU上的FPS約為83。根據(jù)表4可知,本文方法實(shí)時(shí)性方面明顯優(yōu)于其他方法。
表4 不同方法的實(shí)時(shí)性比較Table 4 Real time comparison of different methods
為驗(yàn)證每個(gè)提出模塊的有效性,本節(jié)對(duì)多級(jí)門控融合模塊(GFM)、自交互殘差模塊(SIRM)以及聯(lián)合加權(quán)損失函數(shù)進(jìn)行詳細(xì)的消融實(shí)驗(yàn)分析,結(jié)果報(bào)告在表5中。
表5 不同模塊的性能評(píng)價(jià)比較Table 5 Comparison of different approaches using different integration module
本文的基線模型是一個(gè)類似FCN 的網(wǎng)絡(luò),它使用橫向連接將最淺層的通道數(shù)量減少到32 個(gè),其他層的信道數(shù)量減少到64 個(gè),再逐層連接融合最終得出預(yù)測(cè)圖。對(duì)比實(shí)驗(yàn)是分別在基線模型上加入GFM 和SIRM進(jìn)行訓(xùn)練,并評(píng)估它們的性能,以驗(yàn)證這兩個(gè)關(guān)鍵模塊的有效性,結(jié)果如表5所示。
表5顯示,偽裝目標(biāo)分割任務(wù)中加入GFM或SIRM模塊都比基線模型在評(píng)價(jià)指標(biāo)上有顯著提升。面對(duì)軍事偽裝目標(biāo)分割任務(wù),本文采用公開迷彩偽裝數(shù)據(jù)集CPD作為數(shù)據(jù)集,進(jìn)行對(duì)比實(shí)驗(yàn)。該數(shù)據(jù)集中偽裝目標(biāo)普遍較小、形態(tài)多樣,背景環(huán)境復(fù)雜。多級(jí)門控融合模塊在深層特征圖的指導(dǎo)下對(duì)底層特征背景信息進(jìn)行過(guò)濾,增強(qiáng)各級(jí)特征圖的表達(dá)能力使得網(wǎng)絡(luò)模型比基礎(chǔ)模型的Sα、E?和分別提升2.9%、25%和17.8%,證明門控融合模塊能夠幫助模型更好地分割軍事偽裝目標(biāo);單獨(dú)引入SIRM增強(qiáng)特征多尺度表達(dá)能力,使得Sα、E?和分別提升2.5%、24.7%和17.3%,實(shí)驗(yàn)證明自交互融合模塊在軍事偽裝目標(biāo)分割任務(wù)中具備有效性。此外,GFM和SIRM同時(shí)放入模型中,分割性能較單獨(dú)引入有進(jìn)一步提高。但注意到幾種模型的MAE 差別不大,這是由于數(shù)據(jù)集中含有大量較小的或被障礙物所遮擋的目標(biāo)(即只包含偽裝人員部分身體的圖像,約占數(shù)據(jù)集60%),在這種情況下,無(wú)論是否正確檢測(cè),都不會(huì)引起MAE值的劇烈變化。
針對(duì)自然偽裝目標(biāo)分割任務(wù),本文采用COD10K作為數(shù)據(jù)集,進(jìn)行對(duì)比實(shí)驗(yàn)。結(jié)果顯示,單獨(dú)引入GFM的網(wǎng)絡(luò)結(jié)構(gòu)較基線模型結(jié)構(gòu)度量提高2%,自適應(yīng)E 度量提高3.6%,加權(quán)F 度量提高3.4%并且平均絕對(duì)誤差從0.043降低到0.039,證明門控融合模塊選擇性地融合多級(jí)特征對(duì)于提高偽裝目標(biāo)分割精度有一定幫助。加入SIRM 的網(wǎng)絡(luò)結(jié)構(gòu)較基線模型Sα、E?和分別提升1.6%、3.4%和2.98%并且平均絕對(duì)誤差從0.043 降低到0.039,證明SIRM深度挖掘出的多尺度信息可以有效提升模型分割性能。此外,GFM和SIRM的結(jié)合幫助模型進(jìn)一步提高模型分割性。
圖6 為各級(jí)特征經(jīng)過(guò)GFM 模塊后的可視化比較。第一行為Res2Net-50主干網(wǎng)絡(luò)提取的各級(jí)特征,第二行為多級(jí)融合后的各級(jí)特征。依次為輸入圖像從淺到深的中間層特征圖??梢郧宄匕l(fā)現(xiàn)淺層的提取特征和中偽裝目標(biāo)被背景信息嚴(yán)重干擾,經(jīng)過(guò)門控機(jī)制后特征圖中背景信息得到有效抑制,目標(biāo)細(xì)節(jié)信息更為明顯,底層特征圖可以清晰地分辨出目標(biāo)所在位置。門控融合過(guò)程中,只要存在某一特征圖能準(zhǔn)確描述偽裝目標(biāo)位置,其余各級(jí)特征選擇性融合后都可以發(fā)現(xiàn)目標(biāo)位置,并有效過(guò)濾各級(jí)特征中干擾信息。圖6 中第一行的特征圖f5突顯出偽裝目標(biāo)所在位置,因此其他各級(jí)特征在門控融合中都可以判斷出背景位置,對(duì)干擾信息加以過(guò)濾,增強(qiáng)各級(jí)特征表達(dá)能力。多級(jí)門控融合的前提是深層特征中包含較強(qiáng)語(yǔ)義信息,可以準(zhǔn)確尋找出目標(biāo)位置。但如果提取網(wǎng)絡(luò)中各級(jí)特征都無(wú)法定位出目標(biāo)位置,門控融合模塊就無(wú)法達(dá)到增強(qiáng)各級(jí)特征表達(dá)能力的效果。
圖6 經(jīng)過(guò)GFM后特征圖的可視化比較Fig.6 Visualization comparison of feature maps after GFM
圖7 為各級(jí)特征經(jīng)過(guò)SIRM 模塊后的可視化比較。第一行為多級(jí)融合后的各級(jí)特征,第二行為各級(jí)特征經(jīng)過(guò)SIRM 后所有特征的可視化結(jié)果。由圖F4和F5可視,深層特征經(jīng)過(guò)SIRM 后,可以挖掘出更多有用信和息。在淺層特征(F1、F2和F3)中偽裝目標(biāo)更加突顯,對(duì)模型準(zhǔn)確分割偽裝目標(biāo)起到較大幫助。
圖7 經(jīng)過(guò)SIRM后特征圖的可視化比較Fig.7 Visualization comparison of feature maps after SIRM
為分析本文中聯(lián)合損失函數(shù)的有效性,本文對(duì)基線模型以及單獨(dú)引入GFM、單獨(dú)引入SIRM 和同時(shí)包含GFM和SIRM的四種模型,在損失函數(shù)方面進(jìn)行對(duì)比實(shí)驗(yàn)。根據(jù)表5可知,采用聯(lián)合損失函數(shù)的模型較比不引入Dice損失的模型,在分割效果上都有所提高。證明加權(quán)Dice損失對(duì)目標(biāo)尺度不敏感以及更加關(guān)注優(yōu)化全局結(jié)構(gòu)的特點(diǎn),可以有效提高模型的分割精確度。在迷彩偽裝數(shù)據(jù)集CPD 上,基線模型中引入Dice 損失,E?和評(píng)價(jià)指標(biāo)分別提升6.6%和5.3%。并且在同時(shí)包含GFM和SIRM的改進(jìn)模型中,帶有加權(quán)Dice損失的模型在迷彩偽裝數(shù)據(jù)集CPD 上Sα、E?和三個(gè)標(biāo)準(zhǔn)評(píng)價(jià)指標(biāo)都有不同程度的提高。同樣在自然偽裝數(shù)據(jù)集COD10K上E?和分別提高3%和3.9%,MAE從0.038降低到0.034。視覺效果如圖8 所示,引入加權(quán)Dice 損失后模型對(duì)于目標(biāo)邊緣分割更加精細(xì),并且整體結(jié)構(gòu)更加完整。
圖8 各模塊的視覺比較Fig.8 Visual comparison results based on different module
本文提出一種基于多級(jí)特征融合的偽裝目標(biāo)分割方法。首先使用門控融合模塊有選擇性地融合多級(jí)特性,有效過(guò)濾背景信息干擾,然后利用自交互殘差模塊從GFM 輸出特征中提取更多尺度信息。最后,本文引入Dice損失增強(qiáng)損失函數(shù)對(duì)圖片中各尺寸目標(biāo)的監(jiān)督效果,提升偽裝目標(biāo)的準(zhǔn)確度。本文的方法在軍事迷彩偽裝數(shù)據(jù)集以及三種自然偽裝數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),在常用的四種評(píng)價(jià)指標(biāo)下優(yōu)于其他典型方法。在主觀視覺上,本文方法分割出的結(jié)果圖能更好地處理各種復(fù)雜情況的偽裝圖像,較好保留出偽裝目標(biāo)輪廓。實(shí)驗(yàn)證明,本文方法對(duì)偽裝目標(biāo)分割任務(wù)有更好的分割效果。
在未來(lái)的研究發(fā)展中,進(jìn)一步考慮融合傳統(tǒng)方法與深度學(xué)習(xí)相結(jié)合共同提取目標(biāo)特征信息,增強(qiáng)特征中目標(biāo)信息幫助模型更好發(fā)現(xiàn)偽裝目標(biāo)。