基于深度學(xué)習(xí)的偽裝目標(biāo)檢測綜述

2022-12-19 03:00:08史彩娟任弼娟王子雯閆巾瑋

計(jì)算機(jī)與生活 2022年12期

史彩娟，任弼娟，王子雯，閆巾瑋，石澤

1.華北理工大學(xué) 人工智能學(xué)院，河北唐山 063210

2.河北省工業(yè)智能感知重點(diǎn)實(shí)驗(yàn)室，河北唐山 063210

偽裝是自然界中廣泛存在的一種生物現(xiàn)象，它可以幫助自然界中的生物利用自身結(jié)構(gòu)和生理特征來融入周圍環(huán)境，從而躲避捕食者。除了自然界的生物偽裝，還存在人工偽裝，如軍事中的迷彩偽裝士兵以及藝術(shù)中的人體彩繪等。為了識(shí)別這些完美嵌入周圍環(huán)境中的偽裝生物和人工偽裝目標(biāo)，研究者們提出了許多偽裝目標(biāo)檢測（camouflaged object detection，COD）方法。然而，與其他任務(wù)（普通目標(biāo)檢測[1-3]、顯著性目標(biāo)檢測（salient object detection，SOD）[4-6]）相比，偽裝目標(biāo)在紋理、顏色、形狀等與背景高度相似，且其邊界與周圍環(huán)境的視覺辨識(shí)度極低，這導(dǎo)致檢測偽裝目標(biāo)更具挑戰(zhàn)性。圖1 展示了多種類型的偽裝目標(biāo)，其中（1）～（4）為自然偽裝，（5）和（6）為人工偽裝。具體來說，（1）為陸地類偽裝生物，（2）為水生類偽裝生物，（3）為飛行類偽裝生物，（4）為爬行類偽裝生物，（5）為偽裝士兵，（6）為人體彩繪偽裝目標(biāo)。

圖1 從4個(gè)COD數(shù)據(jù)集中選取的多種類型偽裝目標(biāo)Fig.1 Various types of camouflaged objects selected from 4 COD datasets

偽裝目標(biāo)檢測最早可以追溯到1998年[7]，Tankus等人提出的非邊緣感興趣區(qū)域機(jī)制對(duì)自然環(huán)境和作戰(zhàn)場景中的人工偽裝目標(biāo)進(jìn)行檢測。自此以后，研究者們利用人類識(shí)別目標(biāo)時(shí)的直接視覺特征，如顏色、紋理、光流等來描述偽裝目標(biāo)，提出了多種基于傳統(tǒng)特征提取的偽裝目標(biāo)檢測方法[8-13]。但是，傳統(tǒng)方法在面對(duì)前景和背景對(duì)比度極低的偽裝場景時(shí)，通常存在手工提取特征耗時(shí)、遷移性較差、檢測性能較低等問題。

近年，為了解決傳統(tǒng)方法存在的問題，研究者們將深度學(xué)習(xí)引入到偽裝目標(biāo)檢測領(lǐng)域并提出了多種基于深度學(xué)習(xí)的偽裝目標(biāo)檢測模型?；谏疃葘W(xué)習(xí)的偽裝目標(biāo)檢測方法以強(qiáng)大的特征提取能力和自主學(xué)習(xí)能力對(duì)偽裝目標(biāo)信息進(jìn)行建模，能夠提升偽裝目標(biāo)檢測的精度，同時(shí)還能增強(qiáng)偽裝目標(biāo)檢測模型的泛化性。然而現(xiàn)有的偽裝目標(biāo)檢測工作大多從模型結(jié)構(gòu)出發(fā)，旨在改善偽裝目標(biāo)檢測和分割的性能，而關(guān)于偽裝目標(biāo)檢測的發(fā)展現(xiàn)狀及發(fā)展前景分析較少。雖然Bi 等人[14]對(duì)偽裝目標(biāo)檢測方法進(jìn)行了梳理，但主要是對(duì)傳統(tǒng)的基于手工特征提取的方法進(jìn)行了分類梳理，對(duì)近年來基于深度學(xué)習(xí)的偽裝目標(biāo)檢測方法概述不全面且缺乏歸類分析。

因此，本文將對(duì)基于深度學(xué)習(xí)的偽裝目標(biāo)檢測算法進(jìn)行歸納總結(jié)。首先從五個(gè)角度對(duì)現(xiàn)有基于深度學(xué)習(xí)的COD 算法進(jìn)行了詳細(xì)分析；其次介紹了偽裝目標(biāo)檢測中常用的數(shù)據(jù)集和評(píng)估準(zhǔn)則；然后對(duì)基于深度學(xué)習(xí)的檢測方法進(jìn)行了性能比較；接著列舉了偽裝目標(biāo)檢測的應(yīng)用領(lǐng)域；最后分析了偽裝目標(biāo)檢測方法面臨的挑戰(zhàn)以及未來研究方向，為后續(xù)提出新的偽裝目標(biāo)檢測模型提供一定的技術(shù)思路和改進(jìn)方向。

1 基于深度學(xué)習(xí)的偽裝目標(biāo)檢測模型

近年，基于深度學(xué)習(xí)的偽裝目標(biāo)檢測成為當(dāng)前目標(biāo)檢測領(lǐng)域的一個(gè)研究熱點(diǎn)，越來越多基于深度學(xué)習(xí)的偽裝目標(biāo)檢測算法不斷被提出，檢測精度、時(shí)效性等均得到不斷提升。

現(xiàn)有的大部分基于深度學(xué)習(xí)的偽裝目標(biāo)檢測方法首先采用卷積神經(jīng)網(wǎng)絡(luò)（convolutional neural network，CNN），如VGG（visual geometry group）[15]、ResNet（residual neural network）[16]、Res2Net[17]等提取特征，然后采用由粗到細(xì)、多任務(wù)學(xué)習(xí)、置信感知學(xué)習(xí)、多源信息融合、Transformer 等不同策略來進(jìn)一步增強(qiáng)特征，進(jìn)而提升偽裝目標(biāo)檢測性能。

因此，本文從由粗到細(xì)策略、多任務(wù)學(xué)習(xí)策略、置信感知學(xué)習(xí)策略、多源信息融合策略和Transformer策略五個(gè)角度對(duì)現(xiàn)有基于深度學(xué)習(xí)的偽裝目標(biāo)檢測方法進(jìn)行深入分析。圖2 給出了現(xiàn)有基于深度學(xué)習(xí)的偽裝目標(biāo)檢測方法導(dǎo)圖，列出了現(xiàn)有基于五種不同策略的23種偽裝目標(biāo)檢測方法以及它們的主干網(wǎng)絡(luò)情況。下面對(duì)基于這五種策略的偽裝目標(biāo)檢測方法進(jìn)行詳細(xì)的分析。

圖2 基于深度學(xué)習(xí)的偽裝目標(biāo)檢測方法導(dǎo)圖Fig.2 Map of camouflaged object detection methods based on deep learning

1.1 基于由粗到細(xì)策略的偽裝目標(biāo)檢測

由粗到細(xì)策略是一種結(jié)合全局預(yù)測和局部細(xì)化的體系結(jié)構(gòu)，這種結(jié)構(gòu)可以將復(fù)雜目標(biāo)進(jìn)行解耦，先對(duì)整體區(qū)域進(jìn)行粗糙預(yù)測，再通過多種手段細(xì)化預(yù)測。根據(jù)細(xì)化手段的不同，現(xiàn)有的基于由粗到細(xì)策略的偽裝目標(biāo)檢測方法又可以分為三類：利用特征融合細(xì)化的偽裝目標(biāo)檢測方法、利用分心挖掘細(xì)化的偽裝目標(biāo)檢測方法和利用邊緣線索細(xì)化的偽裝目標(biāo)檢測方法。

1.1.1 利用特征融合細(xì)化的偽裝目標(biāo)檢測方法

利用特征融合進(jìn)行細(xì)化是指在初始提取特征后，采用密集連接、X 形連接或者以注意力引導(dǎo)等方式融合特征進(jìn)行細(xì)化，實(shí)現(xiàn)特征增強(qiáng)。Fan 等人[18]使用搜索注意力和部分解碼器組件（partial decoder component，PDC）[19]對(duì)粗糙區(qū)域進(jìn)行細(xì)化，PDC 的結(jié)構(gòu)如圖3（a）所示。但是，這種密集連接的特征融合方式可能會(huì)導(dǎo)致計(jì)算冗余。因此，Wang 等人[20]提出D2CNet，在PDC的基礎(chǔ)上引入整體注意、殘差注意機(jī)制來增強(qiáng)特征，并采用優(yōu)化后的U-Net[21]結(jié)構(gòu)融合對(duì)等層的局部信息進(jìn)行細(xì)化。但是該模型在產(chǎn)生最終預(yù)測時(shí)直接引入第三層特征而未作任何處理，可能會(huì)引入誤導(dǎo)信息。Zhuge 等人[22]針對(duì)多層特征利用不足的問題，提出CubeNet 模型，通過構(gòu)建一種X 形連接（見圖3（b））以多入多出的結(jié)構(gòu)進(jìn)行特征融合，充分考慮到每一層初始特征，但同時(shí)層層傳遞特征可能會(huì)積累冗余信息。

圖3 不同特征融合策略的示意圖Fig.3 Different feature fusion strategies

除了這三種構(gòu)建不同連接通路進(jìn)行特征融合的方式外，Sun 等人[23]利用注意力引導(dǎo)進(jìn)行特征融合。他們設(shè)計(jì)了C2F-Net（context-aware cross-level fusion network）模型，利用多尺度通道注意力引導(dǎo)來聚合跨層次特征，同時(shí)關(guān)注全局和局部信息，從而提升多尺度目標(biāo)檢測性能。但是，該方法在粗糙預(yù)測和細(xì)化階段都僅使用融合策略，這可能會(huì)使圖像中難以被檢測到的困難像素始終不被關(guān)注到。

利用特征融合進(jìn)行細(xì)化的偽裝目標(biāo)檢測方法優(yōu)點(diǎn)在于能夠在不增加額外線索的前提下充分利用多層特征中的有用信息。但是由于偽裝目標(biāo)與背景極為相似的部分區(qū)域僅通過特征融合策略難以被關(guān)注，使得模型的細(xì)化范圍存在一定局限性。

1.1.2 利用分心挖掘細(xì)化的偽裝目標(biāo)檢測方法

分心挖掘是指發(fā)現(xiàn)預(yù)測中前景或背景中的異質(zhì)干擾，并移除這些干擾以獲得目標(biāo)對(duì)象更純粹的特征表示。Mei等人[24]提出PFNet（positioning and focus network）模型，將更高層預(yù)測圖和取反后的預(yù)測圖分別與當(dāng)前層特征相乘并輸入到上下文探索塊中以發(fā)現(xiàn)假陽性和假陰性預(yù)測，接著分別使用逐元素減法和減法來抑制這兩種干擾，由于使用簡單的加減法，使得模型有著較快的推理速度，但是直接將當(dāng)前特征與預(yù)測先驗(yàn)直接相乘可能會(huì)導(dǎo)致特征混淆的問題。Fan等人[25]提出的SINetV2模型使用組反向注意力很好地解決了上述問題，它是將候選特征沿通道進(jìn)行分組后，在每組之間周期性地插入預(yù)測先驗(yàn)，以明確隔離二者的方式來緩解特征混淆和先驗(yàn)中積累的不準(zhǔn)確預(yù)測的問題。除此之外，SINetV2對(duì)PDC進(jìn)行改進(jìn)，設(shè)計(jì)了一種新的特征融合方式NCD（neighbor connection decoder）對(duì)相鄰層特征進(jìn)行融合，如圖3（c）所示。NCD 少而有效的連接方式不僅減少了計(jì)算冗余，并且特征只在相鄰層之間傳遞，進(jìn)一步緩解了不同尺度特征的不一致性。基于分心挖掘策略的COD方法優(yōu)勢在于模型通過簡單的加減法運(yùn)算來消除錯(cuò)誤預(yù)測的干擾，使得該策略下模型的參數(shù)量較少，運(yùn)行速度也較快，但是細(xì)化前需要增強(qiáng)對(duì)有用特征信息的提取。

1.1.3 利用邊緣線索細(xì)化的偽裝目標(biāo)檢測方法

前兩種類型的細(xì)化方法僅在上下文特征內(nèi)進(jìn)行增強(qiáng)，然而要獲取偽裝目標(biāo)的精細(xì)化結(jié)構(gòu)，邊緣線索是最直接的補(bǔ)充方式。因此，Qin等人[26]提出BASNet（boundary-aware segmentation network）模型，學(xué)習(xí)粗略預(yù)測圖和GT之間的殘差來對(duì)粗糙預(yù)測進(jìn)行細(xì)化，并設(shè)計(jì)了一種結(jié)合二進(jìn)制交叉熵?fù)p失[27]、結(jié)構(gòu)相似性損失[28]和IoU損失[29]的混合損失來隱式地引導(dǎo)網(wǎng)絡(luò)更加關(guān)注目標(biāo)邊界信息，因此BASNet能夠在不顯式提取邊界的情況下獲取精細(xì)的偽裝目標(biāo)邊界。不同于BASNet隱式關(guān)注邊緣的方法，Ji等人[30]提出ERRNet對(duì)低層特征相互加權(quán)以顯式監(jiān)督的方式獲取邊緣先驗(yàn)，并通過RRU（reversible re-calibration unit）單元（如圖3（d））與其他先驗(yàn)知識(shí)（語義先驗(yàn)、鄰居先驗(yàn)、全局先驗(yàn)）融合達(dá)到細(xì)化的目的，但是由于先驗(yàn)知識(shí)過多，可能使有價(jià)值的線索被淹沒。ERRNet的優(yōu)勢在于融合過程中使用了簡單的級(jí)聯(lián)和加減法運(yùn)算，使得模型達(dá)到了現(xiàn)有算法中最快的推理速度。Jia 等人[31]從設(shè)計(jì)邊緣標(biāo)簽的角度提出了SegMaR，利用文獻(xiàn)[32]設(shè)計(jì)的固定注釋和經(jīng)高斯運(yùn)算擴(kuò)展后的邊緣注釋以合并和相交的方式生成一種包含邊緣線索的判別掩碼，以此作為監(jiān)督來關(guān)注偽裝相關(guān)的邊緣信息。另外還設(shè)計(jì)了一種目標(biāo)放大和多階段訓(xùn)練的方式進(jìn)行迭代細(xì)化，但是迭代優(yōu)化終止條件缺乏理論依據(jù)，且多階段訓(xùn)練方式導(dǎo)致訓(xùn)練復(fù)雜且耗時(shí)。

利用邊緣線索進(jìn)行細(xì)化的方式通常能獲取比較精細(xì)的邊緣輪廓，但由于偽裝目標(biāo)的邊緣比較模糊（如圖1），導(dǎo)致使用邊緣監(jiān)督學(xué)習(xí)到的特征響應(yīng)包含噪聲，尤其是復(fù)雜場景下，因此用何種方式引入邊緣信息是該方法需要解決的一個(gè)重要問題。

1.2 基于多任務(wù)學(xué)習(xí)策略的偽裝目標(biāo)檢測

多任務(wù)學(xué)習(xí)策略通過引入常見的分類、定位等任務(wù)或者其他檢測任務(wù)來輔助二值分割主任務(wù)以提升偽裝目標(biāo)的檢測性能，通過多種任務(wù)的協(xié)同工作，以挖掘更加豐富的偽裝目標(biāo)信息。根據(jù)任務(wù)的不同，基于多任務(wù)學(xué)習(xí)策略的偽裝目標(biāo)檢測方法主要分為：基于分類+分割的偽裝目標(biāo)檢測方法、基于定位/排序+分割的偽裝目標(biāo)檢測方法、基于仿生攻擊+分割的偽裝目標(biāo)檢測方法、基于紋理檢測+分割的偽裝目標(biāo)檢測方法和基于邊緣檢測+分割任務(wù)的偽裝目標(biāo)檢測。

1.2.1 基于定位/排序+分割的偽裝目標(biāo)檢測方法

基于定位/排序+分割的偽裝目標(biāo)檢測方法是指在分割之前找到偽裝目標(biāo)所在位置，符合人類觀察偽裝目標(biāo)的步驟。Lv等人[32]提出使用LSR（localization，segmentation and ranking）來定位目標(biāo)并區(qū)分不同圖像中偽裝目標(biāo)的偽裝級(jí)別。針對(duì)定位任務(wù)，采用固定注釋作為監(jiān)督標(biāo)簽來檢測明顯區(qū)別于背景的偽裝目標(biāo)判別區(qū)域；分割任務(wù)將反向判別區(qū)域映射作為輸入來分割偽裝目標(biāo)的整個(gè)范圍；針對(duì)排序任務(wù)，構(gòu)建排序數(shù)據(jù)集用以將分割結(jié)果的每個(gè)像素按區(qū)分難易度進(jìn)行排序。LSR 是首次對(duì)偽裝程度進(jìn)行探索的算法，它能在分割偽裝目標(biāo)的同時(shí)，為觀察偽裝目標(biāo)的難易程度提供一定指引。

1.2.2 基于分類+分割的偽裝目標(biāo)檢測方法

基于分類+分割的偽裝目標(biāo)檢測方法是指在分割之前對(duì)圖像中的像素進(jìn)行分類以檢測是否有偽裝目標(biāo)的存在。Le 等人[33]提出的ANet（Anabranch network）引入分類流，采用三個(gè)全連接層和Softmax分類層輸出分類概率，并與分割流預(yù)測的偽裝映射相乘達(dá)到分割偽裝目標(biāo)的目的。ANet是使用分類和分割任務(wù)的早期嘗試，它使用分類任務(wù)讓模型聚焦于包含偽裝目標(biāo)的區(qū)域，為后續(xù)分割任務(wù)排除了非偽裝和背景的干擾。但由于偽裝圖像中一些非偽裝的顯著目標(biāo)極具迷惑性，分類流可能會(huì)產(chǎn)生錯(cuò)誤判斷導(dǎo)致分割失敗。

1.2.3 基于仿生攻擊+分割的偽裝目標(biāo)檢測方法

仿生攻擊是通過制造與原始圖像差異較大的圖像來改變場景視點(diǎn)以檢測偽裝目標(biāo)。Yan 等人[34]提出MirrorNet，通過引入分割翻轉(zhuǎn)圖像的仿生攻擊流來增強(qiáng)分割原始圖像的主流，并將仿生攻擊流的預(yù)測翻轉(zhuǎn)后與主流預(yù)測進(jìn)行融合得到最終的偽裝目標(biāo)預(yù)測。MirrorNet利用翻轉(zhuǎn)圖像作為補(bǔ)充進(jìn)行分割的過程本質(zhì)上是促使模型更加關(guān)注偽裝目標(biāo)的紋理和形狀特征，能在一定程度上增強(qiáng)模型的抗干擾能力。但是，圖像翻轉(zhuǎn)并不會(huì)改變低辨識(shí)度的紋理或者邊緣，因此，僅使用翻轉(zhuǎn)圖像作為補(bǔ)充得到的性能增益十分有限。

1.2.4 基于紋理檢測+分割的偽裝目標(biāo)檢測方法

上述利用計(jì)算機(jī)視覺中的分類、定位等來輔助分割的方法并未考慮到偽裝特征中紋理的重要性。如圖4 所示，偽裝目標(biāo)通常表現(xiàn)出邊緣模糊性，然而紋理特征具有的旋轉(zhuǎn)不變性以及抗噪能力強(qiáng)等特點(diǎn)，使得一些偽裝目標(biāo)檢測方法通過引入紋理感知任務(wù)來補(bǔ)充深度上下文信息?，F(xiàn)有基于紋理檢測+分割任務(wù)的主要不同點(diǎn)在于探索紋理信息的方式不同，有的從紋理信息的表示出發(fā)，設(shè)計(jì)獨(dú)特的紋理標(biāo)簽；有的則關(guān)注獲取紋理信息的方法，如矩陣方法、卷積方法等來探索提取紋理特征的有效性。

圖4 具有邊緣模糊性和紋理欺騙性的偽裝目標(biāo)Fig.4 Camouflaged objects with edge fuzziness and texture deception

Ren 等人[35]提出了TANet，通過計(jì)算每個(gè)位置特征響應(yīng)的協(xié)方差矩陣，以此來提取深度特征的紋理信息，同時(shí)設(shè)計(jì)親和力損失幫助分離偽裝目標(biāo)與背景之間的紋理。但是由于很大一部分偽裝目標(biāo)在紋理上與背景相似度仍然比較高（見圖4），而TANet的重點(diǎn)關(guān)注僅在紋理信息上，因此它所能獲得的檢測性能有限，而且使用卷積特征圖的協(xié)方差矩陣表征的紋理特征圖會(huì)損失位置信息。Zhu等人[36]則從紋理信息的表示出發(fā)，構(gòu)建了一種包含局部紋理、局部顯著性區(qū)域以及邊緣的紋理標(biāo)簽，并提出TINet（textureaware interactive guidance network）融合紋理信息與深度信息并以層間監(jiān)督的方式生成紋理預(yù)測。但該模型使用的紋理標(biāo)簽并未充分體現(xiàn)像素與周圍空間鄰域的灰度分布，而且由于偽裝圖像中強(qiáng)烈的背景干擾，TINet并不能挖掘到充足的紋理信息。Ji等人[37]提出的DGNet（deep gradient network）引入梯度信息很好地改善了TINet 中存在的問題。DGNet 構(gòu)建了對(duì)象級(jí)的梯度映射（見圖5[38]）來監(jiān)督紋理分支，相較于TINet中的紋理標(biāo)簽，梯度標(biāo)簽?zāi)鼙硎靖迂S富的紋理信息。同時(shí)，梯度值越高的地方意味著圖像能量的急劇變化，這也對(duì)應(yīng)著圖像的邊緣部分，因此DGNet 同時(shí)關(guān)注了紋理和邊緣信息，從而取得了良好檢測性能。但是引入梯度信息也存在一定問題，由于圖像梯度對(duì)鄰域像素值變化敏感，而圖像內(nèi)的噪聲，尤其是偽裝圖像中非邊緣區(qū)域及非偽裝的顯著區(qū)域同樣具有較高的梯度，這些噪聲在一定程度上對(duì)模型產(chǎn)生干擾。

圖5 DGNet中使用的四種監(jiān)督標(biāo)簽Fig.5 Four types of supervision labels widely used in DGNet

由于偽裝目標(biāo)的特殊性，基于紋理檢測來補(bǔ)充分割任務(wù)的方法通常能取得較好的檢測效果，但是由于一部分偽裝目標(biāo)存在紋理欺騙性（如圖4），而這種情況下僅靠紋理特征來檢測偽裝目標(biāo)是不夠的。因此在關(guān)注紋理信息的同時(shí)，也要考慮到局部顯著信息或者邊緣的重要性。

1.2.5 基于邊緣檢測+分割任務(wù)的偽裝目標(biāo)檢測

與利用邊緣線索進(jìn)行細(xì)化或者讓邊緣作為一小部分因素參與到模型中的方法不同，基于邊緣檢測+分割的任務(wù)是將邊緣檢測作為與分割并行的一大任務(wù)，通過明確建模邊緣并推理兩個(gè)任務(wù)的互補(bǔ)信息來檢測偽裝目標(biāo)。Zhai等人[38]引入圖卷積提出了MGL（mutual graph learning）來捕獲區(qū)域和邊緣，并使用邊緣壓縮圖推理模塊顯式合并邊緣信息以增強(qiáng)區(qū)域信息。MGL的有效性來源于使用類型化函數(shù)明確推理兩個(gè)任務(wù)的互補(bǔ)信息以捕獲語義信息和空間信息，但是每次提取的信息種類繁多，很難保證每次提取的信息都是有效的，而且基于圖推理的模型復(fù)雜度較高，使得模型運(yùn)行速度較慢，R-MGL（MGL中性能最好的一種變體）的運(yùn)行速度只有9.9 frame/s，是現(xiàn)有方法中運(yùn)行最慢的方法。

以上基于多任務(wù)學(xué)習(xí)策略的方法能充分利用不同任務(wù)的特殊性以及和主任務(wù)之間的互補(bǔ)性來輔助偽裝目標(biāo)檢測。但在實(shí)現(xiàn)的過程中，通常會(huì)忽略不同任務(wù)之間的固有差異造成的負(fù)面影響，導(dǎo)致偽裝目標(biāo)檢測的學(xué)習(xí)缺乏針對(duì)性，影響檢測性能。

1.3 基于置信感知學(xué)習(xí)策略的偽裝目標(biāo)檢測

置信感知學(xué)習(xí)旨在估計(jì)代表數(shù)據(jù)質(zhì)量的不確定性（任意不確定性）或?qū)φ鎸?shí)模型的感知不確定性（認(rèn)知不確定性）[39]。在完全監(jiān)督模型中，置信感知學(xué)習(xí)被用來測量預(yù)測與真實(shí)標(biāo)簽的高階不一致性，并且它已被證實(shí)能夠有效提升深層神經(jīng)網(wǎng)絡(luò)的魯棒性[40-41]。在偽裝目標(biāo)檢測任務(wù)中，一些工作引入置信感知學(xué)習(xí)策略，明確建模網(wǎng)絡(luò)預(yù)測的置信度來促進(jìn)模型學(xué)習(xí)圖像中的困難樣本，以此提升模型的魯棒性?，F(xiàn)有基于置信感知學(xué)習(xí)策略的偽裝目標(biāo)檢測方法的主要不同在于對(duì)模型不確定性的表示和建模過程。研究者們對(duì)于完全標(biāo)注偽裝目標(biāo)的困難帶來的不確定性、模型預(yù)測和真實(shí)標(biāo)簽之間的不一致性、不可區(qū)分的紋理或邊緣的不確定性等分別采用對(duì)抗訓(xùn)練策略、動(dòng)態(tài)監(jiān)督策略、正則化約束策略等進(jìn)行偽裝目標(biāo)檢測。

Li 等人[42]對(duì)完全標(biāo)注偽裝目標(biāo)時(shí)產(chǎn)生的不確定性，提出了JCSOD（joint salient object and camouflaged object detection）模型，使用全卷積判別器來估計(jì)預(yù)測結(jié)果的置信度，并采用對(duì)抗訓(xùn)練策略對(duì)置信度估計(jì)顯式建模。但是，由于JCSOD同時(shí)進(jìn)行顯著性目標(biāo)檢測，導(dǎo)致模型參數(shù)量巨大，比DGNet高出196.96 MB。Liu等人[43]提出的CANet模型，使用UNet結(jié)構(gòu)對(duì)預(yù)測和真實(shí)標(biāo)簽之間的不確定性進(jìn)行建模，利用預(yù)測圖和真實(shí)標(biāo)簽的L1距離以動(dòng)態(tài)監(jiān)督的方式生成置信度圖。它的優(yōu)勢在于能夠引導(dǎo)網(wǎng)絡(luò)重點(diǎn)學(xué)習(xí)預(yù)測不確定的區(qū)域，提升網(wǎng)絡(luò)的魯棒性能。但是，關(guān)注不確定性學(xué)習(xí)得到的特征通常響應(yīng)于偽裝目標(biāo)的稀疏邊緣，導(dǎo)致該模型在特征學(xué)習(xí)過程中容易引入噪聲。與前面顯式生成置信度圖的方式不同，Pang等人[44]對(duì)不可區(qū)分紋理和復(fù)雜背景干擾帶來的不確定性進(jìn)行建模，提出的Zoom-Net 在目標(biāo)檢測損失中加入正則化約束，增加對(duì)模糊預(yù)測的懲罰，來迫使模型關(guān)注不確定像素，這種方式以簡單的計(jì)算降低模糊背景帶來的干擾。除此之外，Zoom-Net 還致力于緩解多尺度目標(biāo)的檢測，但是它用多尺度圖像訓(xùn)練模型大大增加了內(nèi)存占用量和模型運(yùn)算量。

以上幾個(gè)模型對(duì)不確定性采用不同策略進(jìn)行建模來提升偽裝目標(biāo)的檢測性能，這種基于置信感知學(xué)習(xí)的方法為模型難以關(guān)注硬像素提供了很好的解決思路，能夠增強(qiáng)模型的魯棒性能，同時(shí)還能以估計(jì)置信度圖的方式為模型預(yù)測提供一定的可解釋性。但是這種從不確定性模型中學(xué)習(xí)到的特征通常響應(yīng)于偽裝目標(biāo)的稀疏邊緣或者難以區(qū)分區(qū)域，從而容易引入噪聲，降低模型的檢測能力。

1.4 基于多源信息融合策略的偽裝目標(biāo)檢測

前面所有模型僅采用RGB信息進(jìn)行偽裝目標(biāo)檢測，為了獲得更加豐富的偽裝目標(biāo)信息，一些研究者采用多源信息，如深度信息、頻域信息等來補(bǔ)充RGB信息，從而提升偽裝目標(biāo)檢測性能。

由于深度圖能夠提供豐富的空間信息，Zhang等人[45]首次利用現(xiàn)有的單目估計(jì)方法生成相應(yīng)的偽裝深度圖，并提出基于RGB-D 置信感知學(xué)習(xí)的雙分支框架DCNet（depth contribution exploration network）。由于引入了包含豐富空間信息的深度線索，DCNet整體取得了不錯(cuò)的性能。但它存在兩個(gè)問題：一是提取的深度信息不夠準(zhǔn)確，低質(zhì)量深度圖導(dǎo)致模型性能降低；二是RGB數(shù)據(jù)和深度數(shù)據(jù)結(jié)合時(shí)，DCNet沒有充分考慮兩種模態(tài)信息之間的互補(bǔ)性和差異性。

頻域處理有著簡單高效且參數(shù)設(shè)置少的特點(diǎn)，因此，有研究者利用頻域信息來增強(qiáng)偽裝特征。Zhong 等人[46]使用離線離散余弦變換和在線可學(xué)習(xí)增強(qiáng)的方式讓模型在頻域中學(xué)習(xí)更多統(tǒng)計(jì)信息，同時(shí)使用特征對(duì)齊的方式對(duì)兩種線索進(jìn)行融合，另外構(gòu)建了高階關(guān)系模塊借助頻域信息來促使模型區(qū)分偽裝和非偽裝的細(xì)微差異。得益于頻域信息的引入以及對(duì)所有頻帶系數(shù)的增強(qiáng)，該模型可以提取判別性信息提升偽裝目標(biāo)檢測性能。

由于多源信息的引入，使得偽裝目標(biāo)檢測性能優(yōu)于僅采用RGB 信息的檢測性能。但是，多源信息之間的表示、轉(zhuǎn)化、對(duì)齊以及融合等加大了偽裝目標(biāo)檢測模型的復(fù)雜度，甚至在多源信息處理不當(dāng)?shù)那闆r下降低模型檢測準(zhǔn)確度。因此在結(jié)合多源信息時(shí)，需要充分考慮多源信息之間的差異性影響。

1.5 基于Transformer的偽裝目標(biāo)檢測

近年，研究發(fā)現(xiàn)CNN 在特征提取過程中會(huì)損失結(jié)構(gòu)信息，而且CNN 的實(shí)際感受野遠(yuǎn)小于理論感受野[47]，因此基于CNN 的偽裝目標(biāo)檢測模型通常不能充分地捕獲全局上下文信息。2017年，Vaswani等人針對(duì)自然語言處理提出的Transformer[48]能夠利用自注意力捕獲長距離依賴關(guān)系，更好地捕獲全局信息。近年Transformer也被廣泛應(yīng)用到了視覺領(lǐng)域[49-50]，多種Transformer模型被提出，如用于分類的ViT（vision transformer）[51]和PVT（pyramid vision transformer）[52]，用于目標(biāo)檢測和分割的SETR（segmentation transformer）[53]、DETR（detection transformer）[54]和Swin Transformer[55]等。由于Transformer 在計(jì)算機(jī)視覺領(lǐng)域中的巨大潛力，研究者們也將其引入到了偽裝目標(biāo)檢測任務(wù)中。

Mao 等人[56]提出T2Net 模型，利用Swin Transformer作為主干網(wǎng)提取豐富的全局偽裝特征，并利用一種基于殘差注意力和密集金字塔池化的深度監(jiān)督結(jié)構(gòu)來緩解Swin Transformer 不直接提供空間監(jiān)督的問題。得益于Transformer強(qiáng)大的全局信息捕獲能力，T2Net的檢測精度優(yōu)于現(xiàn)有基于CNN的偽裝目標(biāo)檢測方法。但是T2Net 在將Transformer 引入到COD任務(wù)中時(shí)，主要緩解了Transformer 對(duì)空間信息建模效果較差的問題，并未充分考慮到提取局部特征能力的欠缺。不同于T2Net 直接使用Transformer 的主干網(wǎng)來提取特征的方法，Yang 等人[57]提出的UGTR（uncertainty-guided transformer reasoning）將CNN 和Transformer結(jié)合起來，利用概率表示模型學(xué)習(xí)Transformer框架下偽裝目標(biāo)的不確定性，使得模型能更多關(guān)注不確定區(qū)域。但它僅對(duì)不確定性建模，使得模型的不確定響應(yīng)區(qū)域總是分布在弱邊界和不可區(qū)分的紋理區(qū)域，學(xué)習(xí)過程中不可避免地會(huì)引入噪聲。

基于Transformer 的COD 模型可表征的特征空間比CNN 更加豐富，并且它在建模過程中不會(huì)丟失細(xì)粒度信息，因此Transformer 是比較適合類似COD這種迫切需要豐富全局上下文信息的任務(wù)。但是基于Transformer 的COD 模型也存在固有缺陷：一是模型預(yù)訓(xùn)練耗時(shí)耗數(shù)據(jù)，這是由全局自注意機(jī)制具有二次的時(shí)間和空間復(fù)雜度導(dǎo)致的；二是Transformer特征存在局部信息欠缺以及過度光滑的問題；三是在訓(xùn)練過程中，基于Transformer的模型對(duì)學(xué)習(xí)率、權(quán)重衰減等參數(shù)比較敏感。由于Transformer固有的利弊，基于Transformer 進(jìn)行偽裝目標(biāo)檢測還存在很大的研究空間。

1.6 不同類型偽裝目標(biāo)檢測方法比較

表1 給出了以上五種基于不同策略機(jī)制的偽裝目標(biāo)檢測的典型方法以及它們的優(yōu)缺點(diǎn)。

通過以上分析及表1可以看出，現(xiàn)有基于深度學(xué)習(xí)不同策略的偽裝目標(biāo)檢測方法各有優(yōu)劣。目前對(duì)于基于由粗到細(xì)策略和多任務(wù)學(xué)習(xí)策略的偽裝目標(biāo)檢測方法研究較多，但這兩種方法固有的缺陷使得研究者們逐步引入后三種學(xué)習(xí)策略。Transformer策略雖然能夠捕獲更加豐富的全局上下文，但是它不能有效應(yīng)對(duì)偽裝目標(biāo)的尺度變化，而且訓(xùn)練需要巨大的算力和時(shí)間，不能滿足實(shí)時(shí)性需求。多源信息融合策略能引入其他信息來補(bǔ)充RGB 信息，多種信息的有效結(jié)合能夠有效提升偽裝目標(biāo)的檢測性能。置信感知學(xué)習(xí)策略作為一種有效提升網(wǎng)絡(luò)魯棒性的手段，可以與其他策略結(jié)合起來，共同提高偽裝目標(biāo)檢測的性能。

表1 不同類型偽裝目標(biāo)檢測方法分析比較Table 1 Analysis and comparison of different types of camouflaged object detection methods

2 數(shù)據(jù)集和評(píng)估指標(biāo)

本部分介紹了偽裝目標(biāo)檢測常用的數(shù)據(jù)集和評(píng)估指標(biāo)。

2.1 數(shù)據(jù)集

由于檢測難度和偽裝目標(biāo)的特殊性，偽裝目標(biāo)檢測任務(wù)在最近幾年才開始得到廣泛關(guān)注，因此COD公開數(shù)據(jù)集僅有四個(gè)，具體信息如表2所示。

表2 四個(gè)偽裝目標(biāo)檢測數(shù)據(jù)集的主要信息Table 2 Main information of four camouflaged object detection datasets

CHAMELEON[19]數(shù)據(jù)集：是一個(gè)未經(jīng)同行評(píng)議的公開數(shù)據(jù)集，僅包含76張從網(wǎng)上以關(guān)鍵字“偽裝的動(dòng)物”收集匯總的圖像，它主要關(guān)注自然界的生物偽裝，即復(fù)雜背景中的偽裝動(dòng)物。該數(shù)據(jù)集通常用于驗(yàn)證偽裝目標(biāo)檢測模型的可用性。

CAMO[34]數(shù)據(jù)集：該數(shù)據(jù)集包含一個(gè)偽裝圖像數(shù)據(jù)集CAMO 和另一個(gè)非偽裝圖像數(shù)據(jù)集MS-COCO兩個(gè)子集。CAMO 和MS-COCO 各包括1 250 張圖像，其中1 000張用于訓(xùn)練，剩余250張用于測試。常用于偽裝任務(wù)的CAMO 數(shù)據(jù)集包括自然偽裝（偽裝動(dòng)物）和人工偽裝（人體彩繪及軍事中的迷彩偽裝），具有較大的識(shí)別難度，可用于驗(yàn)證偽裝模型的有效性。

COD10K[19]數(shù)據(jù)集：該數(shù)據(jù)集是目前規(guī)模最大的偽裝目標(biāo)數(shù)據(jù)集，共包含了5個(gè)超類和69個(gè)子類，共計(jì)10 000 張偽裝圖像（6 000 張用于訓(xùn)練，4 000 張用于測試）。該數(shù)據(jù)集的偽裝目標(biāo)類別包含有自然偽裝中的陸地、海洋、飛行、兩棲生物，目標(biāo)維度包括大、中、小三個(gè)維度，可以進(jìn)行模型訓(xùn)練和驗(yàn)證，目標(biāo)標(biāo)注包括類別、包圍盒、對(duì)象級(jí)/實(shí)例級(jí)以及摳圖級(jí)的注釋。該數(shù)據(jù)集極大地促進(jìn)了偽裝目標(biāo)檢測的發(fā)展。

NC4K[33]數(shù)據(jù)集：是目前最大的偽裝目標(biāo)測試集，它包含從互聯(lián)網(wǎng)上下載的4 121張偽裝圖像，其中偽裝目標(biāo)類別大部分為自然偽裝，也包含少量人工偽裝。

2.2 評(píng)估指標(biāo)

偽裝目標(biāo)檢測通常被定義為二值圖像分割任務(wù)，為了全面評(píng)估偽裝模型的精度和泛化能力，廣泛使用S度量、E度量、F度量和平均絕對(duì)誤差M來測試每個(gè)模型的生成預(yù)測圖。接下來將詳細(xì)介紹這幾種評(píng)價(jià)指標(biāo)。

S度量（Sα)[58]：用來評(píng)估預(yù)測圖和真值圖之間的結(jié)構(gòu)相似性，它包括兩個(gè)參數(shù)So和Sr，其中So計(jì)算目標(biāo)感知，Sr獲取區(qū)域觀測特征。S度量Sα可以被描述為：

其中，α和o是權(quán)重。

E度量（E?）[59]：通過比較預(yù)測圖和真值圖之間的差異來評(píng)估偽裝目標(biāo)檢測結(jié)果的整體和局部精度。E度量E?定義為：

其中，?是增強(qiáng)一致性矩陣，W和H分別代表輸入的寬度和高度，C和G分別表示預(yù)測圖和真值圖。

F度量（Fβ）[60]：用來計(jì)算精確率P和召回率R的關(guān)系，能夠計(jì)算出P和R之間的平均諧波測量值，并將其數(shù)值顯示出來。F度量Fβ定義為：

平均絕對(duì)誤差MAE（M）[61]：用來計(jì)算每個(gè)像素的平均絕對(duì)誤差，其定義式為：

其中，M值越小表示模型性能越好。

3 基于深度學(xué)習(xí)的偽裝目標(biāo)檢測方法性能比較

本章對(duì)現(xiàn)有的基于深度學(xué)習(xí)的偽裝目標(biāo)檢測方法進(jìn)行了性能比較，包括定量比較、視覺比較和模型效率分析，從比較結(jié)果能夠更為直觀地看出不同方法之間的性能差異。

3.1 定量比較

本節(jié)對(duì)上述基于深度學(xué)習(xí)的不同偽裝目標(biāo)檢測方法進(jìn)行了定量比較，采用S度量（Sα）、E度量的平均值（E?）、F度量的平均值（Fβ）以及平均絕對(duì)誤差MAE（M）作為評(píng)估準(zhǔn)則，在數(shù)據(jù)集CHAMELEON、CAMO、COD10K、NC4K 上分別進(jìn)行了實(shí)驗(yàn)，實(shí)驗(yàn)結(jié)果見表3。表中“1”“2”“3”“4”“5”分別代表“由粗到細(xì)策略”“多任務(wù)學(xué)習(xí)策略”“置信感知學(xué)習(xí)策略”“多源信息融合策略”和“Transformer策略”。

表3 基于深度學(xué)習(xí)的偽裝目標(biāo)檢測方法的定量比較Table 3 Quantitative comparison of camouflaged target detection methods based on deep learning

從表3可以看出：

（1）從整體表現(xiàn)來看，T2Net 在CAMO-Test、COD10K-Test 和NC4K 三個(gè)數(shù)據(jù)集的四個(gè)指標(biāo)上均達(dá)到了最佳性能，在CHAMELEON 數(shù)據(jù)集上達(dá)到了第二的性能。T2Net是基于Transformer的模型，它利用自注意捕獲長距離依賴關(guān)系的優(yōu)勢適合偽裝目標(biāo)檢測這種需要全面上下文信息的任務(wù)，而T2Net在四個(gè)偽裝數(shù)據(jù)集上的突出性能表明了Transformer應(yīng)用在偽裝目標(biāo)檢測任務(wù)的巨大潛力。性能排名第二的是Zoom-Net，它是基于置信感知學(xué)習(xí)策略的方法，能更加關(guān)注不確定像素的檢測，另外該模型的性能優(yōu)越性還受益于放大縮小策略對(duì)多尺度信息的獲取。性能排名第三和第四的是DCNet和FDNet（frequency domain network），這兩種是基于多源信息融合策略的方法，由于額外深度信息或頻域信息作為補(bǔ)充，這兩種算法表現(xiàn)出了較高的檢測精度。基于CNN且不引入其他源信息的算法中，DGNet達(dá)到了與Zoom-Net相抗衡的性能，尤其在CAMO數(shù)據(jù)集上。除了整體性能最好的以上五種方法外，BASNet在CHAMELEON數(shù)據(jù)集上達(dá)到了最佳性能，這得益于它使用的U-Net結(jié)構(gòu)以及混合損失，但它在偽裝類型更加全面而且數(shù)據(jù)量更大的另外三個(gè)數(shù)據(jù)集上并未達(dá)到突出的檢測性能。

（2）從不同策略的表現(xiàn)來看，表現(xiàn)最好的是基于Transformer策略和多源信息融合策略的偽裝目標(biāo)檢測方法，基于多任務(wù)學(xué)習(xí)策略和置信感知學(xué)習(xí)策略的方法在基于CNN且不引入多源信息的方法中表現(xiàn)最好，其次基于由粗到細(xì)策略中的SINetV2也表現(xiàn)出了較好的性能。不同策略均具有很高的研究價(jià)值，因此應(yīng)當(dāng)權(quán)衡不同策略的優(yōu)劣設(shè)計(jì)性能更加優(yōu)越的偽裝目標(biāo)檢測模型。

3.2 視覺比較

本節(jié)給出了13 種偽裝目標(biāo)檢測算法在7 種不同類型偽裝目標(biāo)下的視覺檢測結(jié)果，如圖6 所示，其中從左至右依次為：（1）大目標(biāo)；（2）小目標(biāo)；（3）多且小的目標(biāo)；（4）遮擋目標(biāo)；（5）重影目標(biāo)；（6）邊緣細(xì)節(jié)豐富的目標(biāo)；（7）人工偽裝中的人體彩繪目標(biāo)和軍事偽裝目標(biāo)。對(duì)于其他并未提供開放的源代碼或者結(jié)果預(yù)測圖的偽裝目標(biāo)檢測方法在此沒有比較。

圖6 基于深度學(xué)習(xí)的偽裝目標(biāo)檢測方法的視覺比較Fig.6 Visual comparison of deep learning-based camouflaged object detection methods

由圖6可以看出：

（1）從整體檢測效果來看，這些算法中基于Transformer 的T2Net，基于置信感知學(xué)習(xí)策略的Zoom-Net以及基于多任務(wù)學(xué)習(xí)的DGNet在多種挑戰(zhàn)場景下表現(xiàn)出了較好的檢測效果，尤其是對(duì)大目標(biāo)（1）、多目標(biāo)（3）和遮擋目標(biāo)（4）的檢測要優(yōu)于其他算法，檢測的目標(biāo)區(qū)域更加完整，輪廓也比較清晰?；诙嗳蝿?wù)學(xué)習(xí)的LSR在遮擋目標(biāo)和重影目標(biāo)中表現(xiàn)出了較好的檢測效果，它利用定位和排序任務(wù)對(duì)偽裝目標(biāo)的檢測起到了促進(jìn)作用?；谥眯鸥兄獙W(xué)習(xí)策略的JCSOD能比較完整地檢測大目標(biāo)并獲取豐富的邊緣細(xì)節(jié)，這是由于JCSOD聯(lián)合SOD數(shù)據(jù)并利用置信感知學(xué)習(xí)幫助模型排除非偽裝中顯著性區(qū)域的干擾?；谟纱值郊?xì)策略的SINetV2 檢測出了較為豐富的目標(biāo)信息，尤其是在復(fù)雜場景下（（4）（6）（7））的效果較好，這得益于鄰居連接的特征融合方式和組反向注意力的目標(biāo)細(xì)化手段。值得注意的是，BASNet 檢測的目標(biāo)雖然不夠完整，但是它檢測出的目標(biāo)邊界和輪廓都很精細(xì)，這主要?dú)w功于其設(shè)計(jì)的混合損失函數(shù)和類U-Net結(jié)構(gòu)的解碼器進(jìn)行的細(xì)化。

（2）從不同目標(biāo)的檢測效果來看，這些偽裝目標(biāo)檢測方法對(duì)簡單場景下的普通偽裝目標(biāo)具有較好的檢測性能，但是對(duì)挑戰(zhàn)場景下的偽裝目標(biāo)的檢測性能較差。如圖6所示，這些方法對(duì)小目標(biāo)、遮擋目標(biāo)、人工偽裝目標(biāo)中的檢測效果不佳。對(duì)于小目標(biāo)，不能準(zhǔn)確定位目標(biāo)位置；對(duì)于遮擋目標(biāo)，不能完整分離出目標(biāo)信息；對(duì)于人工偽裝目標(biāo)，檢測出來過多的無關(guān)信息。

通過定量分析和視覺分析可以看出，現(xiàn)有偽裝目標(biāo)檢測算法能夠取得較好的檢測精度，對(duì)偽裝這種極具挑戰(zhàn)性的目標(biāo)表現(xiàn)出了較好的分割結(jié)果。但是由于偽裝目標(biāo)的特殊性，現(xiàn)有算法的分割結(jié)果仍然存在邊緣模糊、定位不準(zhǔn)確等缺陷。

3.3 模型效率分析

本文在NVIDIA GeForce RTX 2080 上測試了13種COD方法（SINet[18]、C2F-Net[23]、PFNet[24]、SINetV2[25]、BASNet[26]、ERRNet[30]、SegMaR[31]、LSR[32]、DGNet[37]、MGL[38]、JCSOD[42]、Zoom-Net[44]、UGTR[57]）的模型參數(shù)量、乘法和累加運(yùn)算（multiply-accumulate operations，MACs）以及運(yùn)行速度，結(jié)果如圖7 所示。其中（a）是參數(shù)量和COD10K數(shù)據(jù)集上Sα的散點(diǎn)圖，點(diǎn)越大，代表參數(shù)量越大。

圖7 現(xiàn)有COD方法的效率分析Fig.7 Efficiency analysis of existing COD methods

從圖中可以看出，在精度和參數(shù)之間平衡較好的模型是Zoom-Net、DGNet 和UGTR。ERRNet 的運(yùn)行速度為57.8 frame/s，是比較方法中運(yùn)行速度最快的模型。DGNet 的參數(shù)量和MACs 分別為21.02 MB和2.76 GB，是所有方法中參數(shù)量和MACs 最少的模型，這是由于DGNet是出于輕量化設(shè)計(jì)的模型，它使用了輕量化的主干網(wǎng)以及張量分解和重組的融合方式。同時(shí)，JCSOD的參數(shù)量最高，為217.98 MB，這是由于JCSOD聯(lián)合了SOD任務(wù)。

4 偽裝目標(biāo)檢測的應(yīng)用

基于深度學(xué)習(xí)的偽裝目標(biāo)檢測作為計(jì)算機(jī)視覺領(lǐng)域中的新興任務(wù)，不僅可以進(jìn)一步補(bǔ)充完善目標(biāo)檢測技術(shù)，還有助于推動(dòng)醫(yī)學(xué)、工業(yè)、軍事、農(nóng)業(yè)、藝術(shù)等多個(gè)現(xiàn)實(shí)領(lǐng)域的智能化發(fā)展。下面對(duì)偽裝目標(biāo)檢測在不同領(lǐng)域的應(yīng)用進(jìn)行介紹。

（1）醫(yī)學(xué)領(lǐng)域。醫(yī)學(xué)成像在早期診斷中起著重要作用，然而早期病變區(qū)域與周圍組織有著高度的同質(zhì)性，如圖8 所示的息肉圖像和肺部感染圖像（圖像來源于文獻(xiàn)[62-63]），它們的邊界模糊，并且與周圍組織相似度極高，可以被視為一種偽裝目標(biāo)。因此偽裝目標(biāo)檢測可以應(yīng)用于醫(yī)學(xué)圖像分析，進(jìn)行息肉分割和肺部感染分割。

圖8 COD在醫(yī)學(xué)領(lǐng)域的應(yīng)用Fig.8 Applications of COD in medicine

（2）工業(yè)領(lǐng)域。在工業(yè)生產(chǎn)過程，需要對(duì)質(zhì)量低劣的產(chǎn)品（如木材、紡織品、瓷磚等）進(jìn)行篩選和剔除。然而如圖9 所示（圖像來源于文獻(xiàn)[64]），這些零件的缺陷通常在紋理等方面與其他部分對(duì)比度很低，而且邊界模糊，可以看作一種偽裝。因此，偽裝目標(biāo)檢測可以用于手工藝品或機(jī)械零件等物體表面的缺陷檢測。

圖9 COD在工業(yè)領(lǐng)域的應(yīng)用Fig.9 Applications of COD in industry

（3）農(nóng)業(yè)領(lǐng)域。農(nóng)業(yè)中的害蟲通常在顏色紋理等都與農(nóng)作物極為相似，因此偽裝目標(biāo)檢測可做害蟲檢測為整個(gè)環(huán)境中的蝗災(zāi)密度監(jiān)測提供統(tǒng)計(jì)數(shù)據(jù)。除此之外，果實(shí)早熟階段，為了監(jiān)控產(chǎn)量，也需要對(duì)果實(shí)進(jìn)行檢測，而果實(shí)早期常與綠葉極為相似，可視作偽裝目標(biāo)對(duì)其進(jìn)行檢測。圖10展示了蝗蟲檢測和番茄檢測（圖像來源于文獻(xiàn)[65-66]）。

圖10 COD在農(nóng)業(yè)領(lǐng)域的應(yīng)用Fig.10 Applications of COD in agriculture

（4）軍事領(lǐng)域。軍事中的迷彩偽裝是人工偽裝的主要組成部分，迷彩偽裝是在作戰(zhàn)環(huán)境中完美嵌入周圍環(huán)境中的人員、武器、裝備等。在作戰(zhàn)環(huán)境中，需要識(shí)別出隱藏的士兵和軍事設(shè)備，在確保他們安全的同時(shí)，提升我方軍隊(duì)的作戰(zhàn)能力。因此，偽裝目標(biāo)檢測在軍事領(lǐng)域中有著很大的應(yīng)用潛力。圖11展示了迷彩偽裝士兵（圖像來源于CAMO[33]）。

圖11 迷彩偽裝士兵檢測Fig.11 Camouflage soldier detection

（5）藝術(shù)領(lǐng)域。圖像的風(fēng)格遷移可以將自然風(fēng)景圖像與偽裝的目標(biāo)嵌在一起，如圖12所示（圖像來源于文獻(xiàn)[67]），這可以為偽裝目標(biāo)檢測提供更多的訓(xùn)練數(shù)據(jù)。

圖12 動(dòng)物嵌入在風(fēng)景圖像中Fig.12 Some animals embedded into landscape images

（6）其他領(lǐng)域。偽裝目標(biāo)檢測還可以用于透明物體的檢測、搜索引擎的完善、探測或保護(hù)野生動(dòng)物以及在野外或者自然災(zāi)害中進(jìn)行搜索救援活動(dòng)等。

5 總結(jié)及展望

5.1 偽裝目標(biāo)檢測存在的挑戰(zhàn)

本文從由粗到細(xì)、多任務(wù)學(xué)習(xí)、置信感知學(xué)習(xí)、多源信息融合以及Transformer五種策略角度對(duì)現(xiàn)有的基于深度學(xué)習(xí)的偽裝目標(biāo)檢測方法進(jìn)行了歸納總結(jié)，分析探討了不同模型的優(yōu)劣，給出了不同方法的定量分析、視覺比較和效率分析。盡管偽裝目標(biāo)檢測得到了越來越多的研究，性能不斷提升，但由于偽裝目標(biāo)本身極具挑戰(zhàn)性，現(xiàn)有基于深度學(xué)習(xí)的偽裝目標(biāo)檢測算法仍然存在著很多不足和挑戰(zhàn)。主要包括：

（1）復(fù)雜場景下檢測效果差。現(xiàn)有偽裝目標(biāo)檢測算法基本能實(shí)現(xiàn)簡單場景下的偽裝目標(biāo)檢測，然而，現(xiàn)實(shí)中的偽裝目標(biāo)通常處于背景雜亂、大面積遮擋、背景過于突出等復(fù)雜場景下，導(dǎo)致偽裝目標(biāo)的邊界混淆和形狀的非連續(xù)性。因此，針對(duì)復(fù)雜場景下的遮擋目標(biāo)、人工偽裝目標(biāo)等的偽裝目標(biāo)檢測仍具有很大的挑戰(zhàn)性。

（2）多尺度目標(biāo)檢測性能不佳。面對(duì)實(shí)際場景下的多種尺度偽裝目標(biāo)，現(xiàn)有的偽裝目標(biāo)檢測方法通常不能完整檢測出大目標(biāo)，無法準(zhǔn)確定位小目標(biāo)位置（將目標(biāo)錯(cuò)誤定位為背景比較突出的背景區(qū)域）等，導(dǎo)致對(duì)大目標(biāo)以及多且小的偽裝目標(biāo)檢測效果較差。

（3）實(shí)時(shí)性不足。目前僅有DGNet[37]是以輕量級(jí)的模型參數(shù)達(dá)到了較高的檢測精度，它在模型設(shè)計(jì)中使用更為輕量的主干網(wǎng)EfficientNet進(jìn)行初始特征提取，同時(shí)在特征融合過程中使用張量分解和重組的方式減少模型參數(shù)量。現(xiàn)有的一部分COD模型在設(shè)計(jì)中會(huì)考慮參數(shù)和精度的平衡，如SINet[18]使用非對(duì)稱卷積代替大核卷積來降低參數(shù)；PFNet[24]、SINetV2[25]和ERRNet[30]使用簡單的加減法進(jìn)行分心挖掘也能減少一定參數(shù)量和運(yùn)算量。但是這些方法都沒重點(diǎn)考慮輕量化設(shè)計(jì)，致使方法的參數(shù)量和運(yùn)算量依然很高，依然需要巨大的算力和時(shí)間，不能滿足實(shí)際應(yīng)用的實(shí)時(shí)性需求。

（4）有限條件下的偽裝目標(biāo)檢測研究較少。相比普通目標(biāo)或顯著性目標(biāo)，由于偽裝目標(biāo)背景復(fù)雜及邊界辨識(shí)度極低等挑戰(zhàn)，使得檢測偽裝目標(biāo)具有更大的難度，因此現(xiàn)有算法都以完全監(jiān)督的方式從帶有對(duì)象及標(biāo)簽的圖片中提取特征，試圖達(dá)到較為理想的檢測效果。然而，就目前為止，基于完全監(jiān)督的算法實(shí)現(xiàn)的檢測效果仍然非常有限（見圖6），另外由于現(xiàn)有少樣本學(xué)習(xí)、弱監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)、自監(jiān)督學(xué)習(xí)等性能還比較有限，導(dǎo)致適合實(shí)際場景的現(xiàn)實(shí)應(yīng)用需求下有限條件的偽裝目標(biāo)檢測研究較少。

（5）多模態(tài)偽裝目標(biāo)檢測研究較少。目前偽裝目標(biāo)檢測僅限于多源信息，如基于RGB-D的DCNet[45]、基于頻域的FDNet[46]和基于VCOD 的SLT-Net[68]等，而基于圖像、文本、音頻、視頻等多種模態(tài)的多模態(tài)偽裝目標(biāo)檢測研究還非常有限。

5.2 未來研究方向

針對(duì)上述偽裝目標(biāo)檢測中存在的不足和挑戰(zhàn)，下面分析列舉了基于深度學(xué)習(xí)的偽裝目標(biāo)檢測的未來研究方向。

（1）復(fù)雜背景下的多尺度偽裝目標(biāo)檢測方法研究。最大化模擬人類視覺識(shí)別偽裝目標(biāo)的理念，設(shè)計(jì)具有針對(duì)性的模型去推理和判斷復(fù)雜背景下的偽裝目標(biāo)；充分捕獲偽裝目標(biāo)的全局、局部信息和局部顯著性信息，提升多尺度偽裝目標(biāo)檢測性能。

（2）輕量化偽裝目標(biāo)檢測方法研究。充分利用現(xiàn)有的輕量化模型思想，如深度可分離卷積、小卷積代替大卷積、壓縮編碼、權(quán)值量化、權(quán)值共享、遷移學(xué)習(xí)/知識(shí)蒸餾、計(jì)算加速等，設(shè)計(jì)更加精細(xì)的能滿足實(shí)時(shí)性應(yīng)用需求偽裝目標(biāo)檢測模型，以在軍事作戰(zhàn)環(huán)境、搜索救援活動(dòng)等對(duì)實(shí)時(shí)性要求非常高的場景中進(jìn)行應(yīng)用。

（3）有限條件下的偽裝目標(biāo)檢測方法研究。在算法研究方面，利用少量注釋數(shù)據(jù)進(jìn)行少樣本訓(xùn)練以避免昂貴的注釋成本；使用聚類、降維、自編碼器等方式對(duì)無標(biāo)簽的偽裝數(shù)據(jù)進(jìn)行無監(jiān)督學(xué)習(xí)，以實(shí)現(xiàn)對(duì)偽裝目標(biāo)進(jìn)行分類等任務(wù)；使用樣本增強(qiáng)技術(shù)、對(duì)比任務(wù)等進(jìn)行自監(jiān)督學(xué)習(xí)來學(xué)習(xí)偽裝數(shù)據(jù)本身的特征；引入自學(xué)習(xí)、生成式方法及協(xié)同學(xué)習(xí)等方式進(jìn)行半監(jiān)督學(xué)習(xí)以利用未標(biāo)注數(shù)據(jù)提升模型學(xué)習(xí)性能。在實(shí)際應(yīng)用角度方面，可以根據(jù)不同領(lǐng)域的數(shù)據(jù)特點(diǎn)及應(yīng)用需求，進(jìn)行特定任務(wù)的數(shù)據(jù)收集并設(shè)計(jì)相應(yīng)的學(xué)習(xí)方式。

（4）多模態(tài)偽裝目標(biāo)檢測方法研究。單一的圖像模態(tài)對(duì)偽裝目標(biāo)檢測的性能還很有限，利用多源信息融合、多視圖學(xué)習(xí)、協(xié)同學(xué)習(xí)等方法將文本、圖像、音頻、視頻等多種模態(tài)相結(jié)合，利用多模態(tài)來提升偽裝目標(biāo)的檢測性能。

6 結(jié)束語

本文從由粗到細(xì)、多任務(wù)學(xué)習(xí)、置信感知學(xué)習(xí)、多源信息融合以及Transformer五種策略角度對(duì)現(xiàn)有的基于深度學(xué)習(xí)的偽裝目標(biāo)檢測方法進(jìn)行了分類綜述，比較了各類方法的優(yōu)缺點(diǎn)，在四個(gè)公共偽裝目標(biāo)數(shù)據(jù)集上對(duì)現(xiàn)有的基于深度學(xué)習(xí)的偽裝目標(biāo)檢測模型進(jìn)行了定量分析、視覺分析和效率分析，評(píng)估了不同模型的性能。此外，列舉了偽裝目標(biāo)檢測的應(yīng)用領(lǐng)域，討論了現(xiàn)有偽裝目標(biāo)檢測模型存在的不足和挑戰(zhàn)，并探討了偽裝目標(biāo)檢測的未來研究方向。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放