關(guān)鍵詞:偽裝目標(biāo)檢測;前景與背景信息;非局部注意力;特征交互;特征融合DOI:10.15938/j. jhust.2025.02.006中圖分類號:TP391.4 文獻標(biāo)志碼:A 文章編號:1007-2683(2025)02-0053-11
Abstract:Aiming atthe problem of incompletedetectionresultsand blurrededgedetailsincurrentcamouflagedobjectdetection (COD)methods,anovelForegroundand BackgroundInteractiveFusionNetwork(FBIFNet)wasproposed tofurtherimprovethe performanceofCODthroughjointexplorationofforegroundandbackgroundregions.FBFNetcontainsakeyBilateralInteractiveusion module(BIF),whichusesapairofcomplementaryatentionstoguidethenetwork tojointlyreasonaboutcamouflagedobjectsfrom bothforegroudandbackgrounddirectionsndalsoutilizesaninteractionstrategybasedonthebidirectionalatentionmechanismanda weighted fusionstrategytoleancomplementaryiformationbetweenforegroudandbackgroundIndition,anAtentionalCascaded Positioning module(ACP)isincluded,whichcanlocalizecamouflagedbjectsfromaglobalperspectiveandprovidemoreacurate foregroundandbackgroundguidanceforBIF.Withthetwoproposedmodules,F(xiàn)BIFNetcanmoreaccuratelydetectcamouflaged objects.Extensive experimentsonthree publicdatasets(CAMO,CODlOK,and NC4K)demonstrate thatthe proposednetwork outperforms state-of-the-art methods in related fields on four evaluation metrics.
Keywords:camouflagedbjectdetection;foregroundandbackgroundinformation;non-localatention;feature interaction;featur fusion
0 引言
偽裝是大自然中獵物為了躲避捕食者所進化出的獨特能力。近年來,旨在從相似環(huán)境中發(fā)現(xiàn)偽裝對象的偽裝目標(biāo)檢測任務(wù)越來越受到深度學(xué)習(xí)研究者的關(guān)注。一種有效的COD方法不僅在醫(yī)學(xué)(如息肉分割)農(nóng)業(yè)(如病蟲害檢測)、工業(yè)(如缺陷檢測[1-2])等方面有著重要的實際應(yīng)用價值,還能夠為一般的對象檢測任務(wù)提供新的解決思路。
在傳統(tǒng)工作中,研究者們就嘗試使用基于手工制作的低級特征從圖像中提取偽裝對象。然而,由于偽裝問題的復(fù)雜性,提取這些特征的代價高昂,且它們并不總是能發(fā)揮作用。最近,隨著深度學(xué)習(xí)技術(shù)的發(fā)展和大型基準數(shù)據(jù)集(如CAMO[3]、COD10K[4] 、CHAMELEON[5」和 NC4K[6] )的建立,各種精心設(shè)計的COD方法被不斷提出。其中,一些研究從仿生學(xué)角度入手,對自然界中的搜索-識別二階段捕食過程進行模擬。例如,2020 年Fan 等[4提出了一種搜索識別網(wǎng)絡(luò)SINet,該網(wǎng)絡(luò)首先生成一個粗略的偽裝對象定位,之后通過反轉(zhuǎn)注意力和分組學(xué)習(xí)的策略對對象的邊緣信息進行挖掘,生成精細預(yù)測。2023年Yan 等[7]開發(fā)了一種匹配-識別-細化網(wǎng)絡(luò)MRR-Net,能夠通過各種特征感受野來匹配不同大小和形狀的偽裝目標(biāo)候選區(qū)域,以自適應(yīng)地激活和識別偽裝對象相鄰區(qū)域。仿生學(xué)策略將生物學(xué)理論與圖像視覺研究相結(jié)合,取得了不錯的研究成果,但是目標(biāo)搜索過程中引入的大量特征可能會造成網(wǎng)絡(luò)的特征冗余。此后,一些研究者嘗試從多任務(wù)學(xué)習(xí)的角度人手,引人邊緣、紋理等任務(wù)來對COD進行引導(dǎo)。例如,2021年Zhai等提出了一種交互式的圖學(xué)習(xí)檢測方法MGL,將邊緣提取作為COD的輔助任務(wù),以對偽裝目標(biāo)進行聯(lián)合推理。2023年Zhu等將紋理提取任務(wù)與COD進行結(jié)合,提出了一種基于梯度監(jiān)督的新型框架DGNet,通過學(xué)習(xí)偽裝對象內(nèi)部豐富的梯度線索,緩解了單一任務(wù)中模糊邊界無法實現(xiàn)精確分割的不足。多任務(wù)學(xué)習(xí)策略能夠挖掘更加豐富的偽裝對象信息,但不同任務(wù)間的固有差異同樣阻礙了網(wǎng)絡(luò)性能的提升[10]。除此之外,一些研究則以多源信息為輸人。例如,2022 年P(guān)ang等[11]受人類視覺機制中放大和縮小行為的啟發(fā),提出了一種混合尺度三元組網(wǎng)絡(luò)ZoomNet,使用不同大小比例的圖像作為多源輸入,對偽裝對象的尺度變化行為進行了顯式建模。多源信息策略解決了單一信息源中對象信息缺失的不足,但是對其進行處理會大幅增加網(wǎng)絡(luò)的計算復(fù)雜度,這嚴重影響了推理速度。
通過對上述相關(guān)研究進行分析,本文發(fā)現(xiàn)現(xiàn)有COD策略的分析重點大多集中在可能存在偽裝對象的前景區(qū)域,在面對復(fù)雜的偽裝場景時(如低對比度、被遮擋、多目標(biāo)、邊界復(fù)雜),前景與背景間的高相似性視覺特征往往使得它們無法檢測出更完整的對象結(jié)構(gòu)或更準確的邊緣細節(jié)(如圖1所示的ZoomNet檢測效果)。但正如傳統(tǒng)目標(biāo)檢測方法[12-13]所表明的,圖像中的背景信息同樣能夠為提高檢測性能做出貢獻。近年來,對前景與背景區(qū)域同時進行關(guān)注的策略重新受到圖像視覺研究者的關(guān)注。2020年Li等[14]提出使用并行的注意力對圖像中的前景和背景區(qū)域進行互補感知。2021年 Zhang等[15通過一種雙邊關(guān)注機制,在探索前景的同時從背景中挖掘潛在的重要目標(biāo)。在具有挑戰(zhàn)的偽裝目標(biāo)檢測任務(wù)中,增強網(wǎng)絡(luò)對于背景信息的學(xué)習(xí)和分析能力尤為重要,這更有利于其發(fā)現(xiàn)隱藏在高相似度背景中的偽裝對象線索,并進一步對于前景和背景加以區(qū)分。因此,同時對前景與背景區(qū)域進行關(guān)注是解決COD挑戰(zhàn)的一個關(guān)鍵方案,而這在很大程度上被現(xiàn)有的偽裝目標(biāo)檢測方法忽略。
此外,本文還注意到,由于偽裝對象與背景環(huán)境間普遍缺乏分割所需的強對比度信息,隨著網(wǎng)絡(luò)的加深,深層神經(jīng)網(wǎng)絡(luò)的定位能力嚴重下降。這會導(dǎo)致最終的預(yù)測結(jié)果中出現(xiàn)欠分割與過度分割錯誤,在一定程度上同樣限制了COD性能的提升。
為了解決以上這些問題,本文提出了一個新穎的前景與背景交互融合網(wǎng)絡(luò)(FBIFNet)。所提出的FBIFNet能夠同時對偽裝圖像中的前景和背景區(qū)域進行關(guān)注,并學(xué)習(xí)兩者間的互補信息。具體而言,該網(wǎng)絡(luò)中包含了兩個關(guān)鍵模塊。首先,網(wǎng)絡(luò)使用注意力級聯(lián)定位模塊(ACP)從骨干網(wǎng)絡(luò)中聚合多層級特征。ACP通過非局部關(guān)注和級聯(lián)解碼的方式實現(xiàn),能夠有效捕獲跨層級間的多尺度上下文信息,并從全局角度推斷偽裝對象的初始位置。隨后,精心設(shè)計的雙邊交互融合模塊(BIF)被應(yīng)用于各層級特征上。所提出的BIF能夠從前景和背景兩個方向共同探索圖像中可能存在的偽裝對象。同時,利用交互策略與加權(quán)融合策略,BIF能夠有效發(fā)掘前景與背景中互補的對象信息并自適應(yīng)的對二者進行集成。通過這種雙向的聯(lián)合推理,所提出的FBIFNet能夠挖掘出圖像中更完整的偽裝對象線索,并對前景與背景間的不確定區(qū)域(也就是對象的邊緣細節(jié))進行更準確的檢測,
1 FBIFNet網(wǎng)絡(luò)模型
本節(jié)首先概述了前景與背景交互融合網(wǎng)絡(luò)的整體結(jié)構(gòu)。之后,提供了網(wǎng)絡(luò)所使用的兩個關(guān)鍵模塊的詳細信息。最后,給出了網(wǎng)絡(luò)的整體損失函數(shù)。
1.1 整體結(jié)構(gòu)
圖1為所提出網(wǎng)絡(luò)的總體結(jié)構(gòu)。對于給定的一張RGB圖像,網(wǎng)絡(luò)首先采用基于 ConvNeXt[16] 的全卷積骨干網(wǎng)絡(luò)在5個不同的層級(Stage)上提取其特征,記為 {fi,i∈1,2,3,4,5} 。之后,各層級特征被饋送到感受野模塊(receptive field block,RFB)[17]中進行多尺度擴展,其結(jié)構(gòu)如圖2所示。
本文中采用了與文[18]中相同的設(shè)置。具體來說,RFB中包含5個并行的分支,記為 {bk,k=1 2,3,4,5。在每個分支中,輸入特征首先通過 1×1 卷積降維到通道數(shù)大小為64。隨后, {bk,k=3,4 5分支中的特征會額外經(jīng)過兩個非對稱卷積和一個具有 2k-3 膨脹率的 3×3 卷積,以擴展感受野。其中,非對稱卷積核的大小分別為 (2k-3)×1 和1×(2k-3) 。個分支的輸出會在接下來進行級聯(lián),并在 3×3 卷積降維后與第一個分支的輸出相加。最終,相加的結(jié)果會被饋送到ReLU函數(shù)中進行激活,以形成多尺度豐富后的各層級特征,記為 {fRi,i∈1,2,3,4,5} 。經(jīng)過RFB后,網(wǎng)絡(luò)通過所提出的注意力級聯(lián)定位模塊(ACP)進一步對較深的3個層級特征進行細化聚合,以生成初步的潛在對象定位。最后,根據(jù)所獲得的多層級特征和對象定位,利用多個雙邊交互融合模塊(BIF)從圖像前景和背景區(qū)域中學(xué)習(xí)互補的對象信息,并自底向上逐步細化深層預(yù)測。所提出的FBIFNet總共生成6 個預(yù)測輸出,其中包含5個深層粗預(yù)測 {Pi,i∈2 ,3,4,5,6},和一個最終預(yù)測 P1 。所有的預(yù)測均在上采樣后由真實值 GT 進行監(jiān)督。
圖3顯示了在基準數(shù)據(jù)集上,使用FBIFNet進行偽裝目標(biāo)檢測的效果。該網(wǎng)絡(luò)能在各種挑戰(zhàn)性的場景(如低對比度、遮擋、多目標(biāo)、邊界形狀復(fù)雜)下準確檢測偽裝目標(biāo)。
1. 2 注意力級聯(lián)定位模塊
骨干網(wǎng)絡(luò)的深層特征中包含了豐富的語義信息和位置信息,在視覺任務(wù)中常被用于對目標(biāo)進行初始定位。但由于偽裝圖像中對象與背景間的高度相似性,這種定位能力大幅下降。正如文[19]所觀察到的,通過聚合較深層特征可以獲得更準確的目標(biāo)定位。遵循這種思想,本文設(shè)計了注意力交互定位模塊(ACP),利用多層次、多尺度的特征來獲得更有效的語義表示。圖4(a)顯示了其整體結(jié)構(gòu)。對于輸入的多層級特征,ACP首先通過逐元素相乘的方式來縮小相鄰層級特征間的差異。較深層特征 fR4 和 fR5 在經(jīng)過上采樣和卷積平滑處理后將分別與相鄰的淺層特征 fR3 和 fR4 相乘,相乘得到的特征會再與 fR3 和 fR4 進行級聯(lián)拼接,并使用卷積進行維度還原。以上操作可以被概括為
式中: C3(?) 表示卷積核大小為 3×3 的卷積層;Cat(·)表示級聯(lián)操作; Up↑(?) 表示上采樣操作; ⑧ 為逐元素相乘,得到的3個特征為 fRi',i=3,4,5} 。
之后,ACP使用注意力單元對特征 fRi 進行細化。如圖4(b)所示,注意力單元由非局部通道注意力[20]和非局部空間注意力[20]組成。在通道維度上,對于輸入的大小為 Rc×H×W 的特征,在對其重塑到大小為R c×N N=H×W 后,通過矩陣乘法和 Soft-max操作得到通道維度的注意力圖 Xc∈Rc×c 。在空間維度上則以通道注意力細化后的特征作為輸入,首先使用 1×1 卷積對其進行降維,之后將降維后的特征重塑到大小為 Rc′×N , C′=C/8 ,并通過矩陣乘法和Softmax操作得到空間維度的注意力圖 Xs (204號 ∈RN×N 。通過非局部的注意力單元,ACP 可以有效抑制無關(guān)噪聲干擾,并從全局角度增強特征的語義表示能力。最后,ACP通過逐步上采樣、卷積平滑和級聯(lián)的方式對注意力增強后的三個層級特征進行聚合,并使用 1×1 卷積降維到1維來得到輸出特征 F6 :
F6=C1(fR3′)
式中: C1(?) 表示卷積核大小為 1×1 的卷積層,At-ten(?) 表示注意力單元。特征 F6 將被用于生成網(wǎng)絡(luò)的深層粗預(yù)測 P6 ,并同時被輸入到第五層級的BIF中,來幫助其更準確的對前景和背景區(qū)域進行區(qū)分。
1.3 雙邊交互融合模塊
在探索偽裝對象時,如何同時關(guān)注圖像中的前景和背景區(qū)域,并學(xué)習(xí)兩者間的互補信息以進行更完整、準確的推理是本文研究的重點。受到[15的啟發(fā),本文設(shè)計了雙邊交互融合模塊(BIF)。如圖5所示,所提出的BIF采用雙分支結(jié)構(gòu)。對于RFB增強后的特征 fRi ,BIF首先通過一對互補的前景注意力(FA)和背景注意力(BA)來對其中的前景和背景區(qū)域進行粗略區(qū)分。具體來說,所使用的 FAi 為第 i +1 層的粗預(yù)測特征 Fi+1 上采樣后Sigmoid的結(jié)果,互補的 BAi 則是通過所有元素都為1的矩陣 E 減去Fi+1 上采樣后Sigmoid的結(jié)果得到:
fRi 在經(jīng)過 FAi 和 BAi 的加權(quán)后被送入到對應(yīng)的前景與背景分支中,并通過 3×3 卷積進行進一步的特征提取:
式中 ?//σ///////σ 和 fBi 分別表示卷積操作后的特征圖。
接下來,基于雙向注意力機制[21]的交互策略被添加到BIF中,以通過學(xué)習(xí)兩分支間空間相關(guān)性的方式,對前景與背景特征中的對象信息進行交互。經(jīng)過交互策略,BIF能夠?qū)W習(xí)到前景與背景特征間的長距離空間位置關(guān)系,并根據(jù)此對二者中的互補對象信息進行細化增強,以獲得更完整的偽裝對象線索。圖6顯示了其整體結(jié)構(gòu),對于輸入的特征fFi,fBi∈RC×H×W ,首先對其進行 1×1 卷積降維和重塑,以得到分別代表前景與背景特征的兩組鍵值對: (2號 VFi , VBi∈ (204號 Rc×N , C′=C/8,N=H×W 。其中,每組鍵都會被視為另一組鍵值的查詢。在 KFi 的轉(zhuǎn)置和 KBi 之間執(zhí)行矩陣乘法,并應(yīng)用Softmax生成分別作用于前景與背景特征的注意力權(quán)值:
式中: WFi?WBi∈RN×N ;T 表示轉(zhuǎn)置操作。 WFi 與 WBi 會分別通過矩陣相乘的方式對兩組值 VFi 和 VBi 進行加權(quán)。加權(quán)的結(jié)果將被重塑為輸人時的大小Rc×H×W ,并在經(jīng)過一個跳躍連接和 3×3 卷積后,生成交互細化的前景與背景特征 fFi' 和 fBi' :
式中:Reshape(·)表示重塑操作。注意,由于交互策略在特征分辨率增大時計算量呈指數(shù)倍增長,因此本文只在較深層的3個BIF中應(yīng)用它。
交互之后,BIF通過加權(quán)融合策略將雙分支中的對象信息有效的整合到一起[22]。融合時,首先對雙分支中的特征進行級聯(lián)并送人到兩個 3×3 卷積層中,以學(xué)習(xí)特征間的關(guān)系。其中,第2個卷積層僅包含2個卷積核。之后,對第2個卷積層輸出的兩個特征圖中的對應(yīng)元素進行Softmax處理,并將其
分解為兩個權(quán)重映射:
(8)式中: C(1,2)(?) 表示兩個 3×3 卷積層; WFFi 和 WFBi 分別表示融合時前景與背景特征所對應(yīng)的權(quán)重。因此,加權(quán)融合的結(jié)果 Fusei 可以表示為
Fusei=WFFi?fFi′+WFBi?fBi′
相比于簡單的特征融合操作無法捕捉多元特征間互補信息這一缺點,加權(quán)融合策略能夠讓網(wǎng)絡(luò)自適應(yīng)的決定空間中不同位置的特征的關(guān)注程度,以較少的噪聲獲得魯棒性更強的特征。最后,對特征 Fusei 進行卷積降維到1維,并將其與上采樣后的深層特征 Fi+1 相加,以得到BIF的最終出 Fi 。 Fi 將被用以生成更精細化的偽裝預(yù)測 Pi ,并同時傳遞到更淺層的BIF中進行更準確的前景與背景區(qū)分。
為了更直觀展現(xiàn)BIF的工作機制,本文在圖7中對第4個層級中BIF的特征進行了可視化處理。首先,對于多尺度增強后的骨干網(wǎng)絡(luò)側(cè)輸出(a),
BIF通過深層預(yù)測特征(b)生成分別對前景和背景進行關(guān)注的兩個特征分支(c,d)。在前景分支中,經(jīng)過一層卷積后(e),網(wǎng)絡(luò)開始對深層預(yù)測周圍的不確定性區(qū)域進行探索;而在背景分支中(f),網(wǎng)絡(luò)則專注于推理背景中可能存在的偽裝對象線索。接下來,兩個分支間通過交互策略學(xué)習(xí)互補信息。交互后的前景和背景特征 Ψ(g,h) 中的偽裝對象線索更加突出,且兩個分支都將更多的注意力轉(zhuǎn)移到了前景與背景間的不確定區(qū)域中,也就是偽裝對象的邊界上。之后,BIF對交互后的特征進行加權(quán)融合(i),使其在結(jié)合前景與背景間互補信息的同時有效的抑制了背景干擾。最后,使用融合得到的特征對深層特征進行細化,并得到最終輸出(j)。由此,較難分辨的原始特征經(jīng)過BIF的處理,轉(zhuǎn)換為了強對比度的對象特征來進行預(yù)測。5個BIF模塊的逐層推理,使得FBIFNet生成的檢測結(jié)果更完整、噪聲小、在邊緣細節(jié)上表現(xiàn)更好。
1.4 損失函數(shù)
遵循文「4的設(shè)計方案,本文使用加權(quán)二元交叉熵損失 ( LwBCE )和加權(quán)交并比損失( LwloU )來作為訓(xùn)練時的損失函數(shù)。其中, LwBCE 關(guān)注像素級差異,能夠獨立對圖像上每個像素的損失進行計算,而LwloU 則更關(guān)注全局結(jié)構(gòu),能夠?qū)W(wǎng)絡(luò)形成圖像級約束。此外,二者都能夠通過為圖像的中每個像素賦予不同的權(quán)重,讓網(wǎng)絡(luò)對難以預(yù)測的區(qū)域施加更多關(guān)注。這兩種損失的定義與文[23]中的定義相同,它們的有效性已在二分類的圖像分割任務(wù)中得到證明。所提出的FBIFNet共有6個輸出預(yù)測,其中1個來自ACP,5個來自BIF,它們均在上采樣后通過 GT 進行監(jiān)督。因此,總體損失 Ltotal 可以表示為
其中, GT 表示圖像中偽裝對象的真實值。
2 實驗設(shè)計
2.1 數(shù)據(jù)集
本文在3個廣泛使用的基準數(shù)據(jù)集上評估了所提出的方法: ①CAMO[3] 是首個正式用于偽裝目標(biāo)檢測的數(shù)據(jù)集,它由1250張圖像組成,其中1000張為訓(xùn)練圖像和250張為測試圖像。CAMO中涵蓋了自然偽裝與人工偽裝場景下的多種偽裝形式(如動物偽裝、迷彩偽裝和人體彩繪等),能夠為模型訓(xùn)練提供更豐富的數(shù)據(jù)支持。 ②COD10K[4] 是目前最具挑戰(zhàn)性且規(guī)模最大的偽裝目標(biāo)檢測數(shù)據(jù)集,共包含3040張訓(xùn)練圖像和2026張測試圖像。該數(shù)據(jù)集主要基于自然偽裝場景,涵蓋了包括飛行、水生、陸地和兩棲動物等共69個類別的偽裝對象。COD10K中的每張圖像均進行了實例級和對象級標(biāo)注,并提供了對象的類別與邊界框信息,促進了偽裝目標(biāo)檢測下對象定位、分割和邊緣檢測等多種任務(wù)的快速發(fā)展。 ③NC4K[6] 是目前最大的COD 測試數(shù)據(jù)集,包含4121張圖像,其中同樣囊括了自然偽裝與人工偽裝兩大類場景。該數(shù)據(jù)集通常不參與訓(xùn)練,主要用于評估模型的泛化性能。
參照之前的工作4],本文使用CAMO與COD10K中的訓(xùn)練圖像(4040張)作為訓(xùn)練集進行訓(xùn)練,并使用3個數(shù)據(jù)集中的測試圖像進行評估。另外,正如文[24]中所說明的,由于CHAME-LEON[5] 數(shù)據(jù)集的圖片數(shù)量過少,在其上的測試結(jié)果可能產(chǎn)生偏差,因此本文并不使用它。
2.2 評價指標(biāo)
本文使用4個廣泛流行的指標(biāo)來對所提出的網(wǎng)絡(luò)進行評估,分別為結(jié)構(gòu)測度S-measure(S)[25]、加權(quán)F-measure (F) [26]、平均絕對誤差 MAE(M) 和平均增強匹配標(biāo)準 E-measure (E)[27] 。其中,S-meas-ure主要用于測量預(yù)測圖與地面真值之間區(qū)域和對象感知結(jié)構(gòu)相似性;加權(quán) F -measure則是用于評價加權(quán)精度和加權(quán)召回率的綜合測度;MAE是預(yù)測圖與地面真實值之間的像素級平均絕對誤差值;
E-measure是基于人類視覺機制對預(yù)測結(jié)果的全局信息與局部像素細節(jié)準確性進行評估。評估時, s 、E 和 F 越大越好, M 越小越好。
2.3 實驗細節(jié)
FBIFNet通過Pytorch框架進行實現(xiàn)。在訓(xùn)練階段,輸入圖像被調(diào)整到分辨率大小為 384×384 ,batch_size被設(shè)置為32。本文使用Adam優(yōu)化器進行損失優(yōu)化,初始學(xué)習(xí)率為 1×10-4 ,每50個周期學(xué)習(xí)率乘0.1,共訓(xùn)練100個周期。所有的實驗都運行在NvidiaGeForce Tesla V100 GPU(32GB顯存)上。
3 實驗結(jié)果與分析
3.1 定量評估
本文將所提出的FBIFNet與相關(guān)領(lǐng)域中的10種先進方法在三個基準數(shù)據(jù)集上進行了比較。如表
1所示,各個指標(biāo)中最好的結(jié)果以加粗格式標(biāo)出,第二好的結(jié)果以下劃線標(biāo)出
與先進的COD方法相比,F(xiàn)BIFNet表現(xiàn)出了更好的偽裝目標(biāo)檢測性能。具體來說,在可見數(shù)據(jù)集CAMO與 COD1OK上,F(xiàn)BIFNet的加權(quán)F-measure(F) 分別較第二好的結(jié)果提升了 3.8% 和 2.1% ,平均絕對誤差 (M) 分別降低了 5.3% 和 6.9% ,在自然偽裝與人工偽裝相混合的場景下和單獨的自然偽裝場景中均取得了較大的性能提升。其次,在非可見數(shù)據(jù)集NC4K上,F(xiàn)BIFNet在4個評價指標(biāo)上分別相對于第二好的結(jié)果提升了 1%1.6%,3.8% 和12% ,展現(xiàn)出了更好的泛化性能。這主要得益于網(wǎng)絡(luò)中所使用的前景與背景共同關(guān)注策略,它增強了網(wǎng)絡(luò)在高相似性背景中發(fā)掘偽裝對象線索的能力,使其能夠更有效的對偽裝圖像中的前景與背景區(qū)域進行區(qū)分。
3.2 定性評估
圖8為所提出的方法與一些先進的方法的定性比較結(jié)果,可以直觀看出FBIFNet擁有更好的性能,這與定量評估的結(jié)果一致。具體來說,對于大型的偽裝對象(第1行),現(xiàn)有的方法并不能完整的檢測出偽裝目標(biāo),導(dǎo)致假陰性錯誤,而FBIFNet能夠檢測出更完整的偽裝物體。對于小目標(biāo)偽裝對象(第2~3 行),F(xiàn)BIFNet能夠精確的對小目標(biāo)和背景進行區(qū)分,而現(xiàn)有的方法則會產(chǎn)生大量的假陽性錯誤,或者無法檢測出小目標(biāo)。對于存在多個對象的情況(第3行),所提出的方法檢測出的偽裝對象個數(shù)更多。對于存在遮擋的對象(第4行),F(xiàn)BIFNet能夠檢測出更完整的對象而不被遮擋物所干擾。這主要得益于所提出的BIF模塊,它能夠捕獲到背景區(qū)域中難以發(fā)現(xiàn)的偽裝對象線索。另外,從總體來看,所提出方法的檢測結(jié)果的邊界清晰度更好,前景與背景間區(qū)分明確,尤其是對于低對比度且邊界結(jié)構(gòu)復(fù)雜的對象(第5\~6行),相比于其他方法,所提出網(wǎng)絡(luò)的細節(jié)還原度更好。以上這些具有挑戰(zhàn)性的案例進一步驗證了FBIFNet的有效性。
3.3 消融研究
本文對所提出的FBIFNet進行了消融研究,以驗證兩個所提出模塊的有效性。所有的消融實驗均使用與主實驗相同的實驗設(shè)置,并在最大的可見數(shù)據(jù)集COD10K與非可見數(shù)據(jù)集NC4K上進行評估。
1)注意力級聯(lián)定位模塊的有效性
本文首先評估了注意力級聯(lián)定位模塊對于模型的貢獻。消融實驗中,從完整的FBIFNet中保留BIF去除了ACP模塊,并直接使用第五層級中RFB模塊的輸出特征來對其進行代替,以生成BIF模塊所需的前景和背景注意力。如表2所示,由于ACP具有全局感受野和融合多尺度特征的優(yōu)勢,可以進行更好的偽裝對象定位,以獲得更好的COD性能。從圖9的定性評估結(jié)果中可以看出,當(dāng)去除ACP模塊時,深層網(wǎng)絡(luò)的粗定位能力下降,網(wǎng)絡(luò)預(yù)測時容易丟失物體信息或者引入額外的背景噪聲,造成欠分割或過度分割錯誤。這進一步驗證了所提出的ACP的有效性。
2)雙邊交互融合模塊的有效性
本文額外設(shè)計了五種配置不同的網(wǎng)絡(luò)變體以深入分析BIF中各機制所起到的作用。首先,從完整的FBIFNet中去除BIF,并使用簡單的卷積和上采樣融合進行代替,此時網(wǎng)絡(luò)的性能如表3(a)所示。之后,逐漸將BIF中的各種配置添加到網(wǎng)絡(luò)中。這些配置分別為前景注意力機制(FA)、背景注意力機制(BA)、交互策略(IS)和加權(quán)融合策略(WFS)。如表3(b)所示,相比于去除BIF,在添加FA后網(wǎng)絡(luò)的性能大幅提高。這得益于其能夠幫助網(wǎng)絡(luò)對可能存在偽裝對象的前景區(qū)域關(guān)注,減少背景區(qū)域中高相似性噪音的干擾。當(dāng)在此基礎(chǔ)上額外添加BA時,如表3(c)所示,網(wǎng)絡(luò)的性能再次提高。這是由于前景與背景的同時關(guān)注有助于網(wǎng)絡(luò)在聚焦前景的同時從背景噪聲中發(fā)掘更完整的偽裝對象信息。緊接著,分別向(c)中添加IS與WFS,以得到(d)和(e)??梢钥吹剑瑑煞N策略都能夠在一定程度上提升網(wǎng)絡(luò)的性能。這是因為IS能夠在交互時對前景與背景中互補的對象信息進行增強細化,而WFS則能夠?qū)η熬芭c背景特征進行自適應(yīng)的有效集成。
當(dāng)4種配置共同使用時,就形成BIF,此時網(wǎng)絡(luò)的性能達到最優(yōu)。這也反映在了圖10的定性評估結(jié)果中,當(dāng)使用完整BIF時,網(wǎng)絡(luò)能夠獲得更健壯的檢測結(jié)果。
3)注意力級聯(lián)定位模塊與雙邊交互融合模塊的整體有效性
如表4所示,本文綜合表2的第一行評估數(shù)據(jù)(不使用ACP)和表3的第一行評估數(shù)據(jù)(不使用BIF),以及從FBIFNet中將ACP與BIF均去除的評估數(shù)據(jù),得到了對兩個模塊單獨及共同作用的評估結(jié)果,這充分驗證了本文所提網(wǎng)絡(luò)結(jié)構(gòu)的整體有效性。
4 局限性
盡管本文的方法取得了令人滿意的COD性能,但其在一些非常具有挑戰(zhàn)性的檢測場景下仍存在不足。如圖11所示,這些場景中通常包含大量密集的邊緣拓撲結(jié)構(gòu)。本文的FBIFNet雖然避免了宏觀上的邊緣檢測模糊問題,但無法更精確地對密集性的邊緣結(jié)構(gòu)進行分割。此外,本文方法在推理時的每秒傳輸幀數(shù)(FPS)為41,雖滿足實時傳輸需求,但在網(wǎng)絡(luò)輕量化方面仍存在改進空間。
5結(jié)語
本文提出了一種新穎的前景與背景交互融合網(wǎng)絡(luò)以應(yīng)對COD中結(jié)果不完整、邊緣細節(jié)模糊的問題。得益于所使用的雙邊交互融合模塊,F(xiàn)BIFNet能夠從圖像的前景和背景中發(fā)掘更完整的對象信息,并在逐層細化的過程中獲得更準確的邊緣檢測結(jié)果。此外,為了克服COD任務(wù)中網(wǎng)絡(luò)深層定位能力嚴重下降的問題,F(xiàn)BIFNet中還引入了注意力級聯(lián)定位模塊。該模塊通過非局部注意力細化和相鄰層級聯(lián)解碼的方式實現(xiàn),能夠提供更準確的對象定位。在3個基準數(shù)據(jù)集上的大量試驗表明,所提出的FBIFNet具有比以往方法更優(yōu)秀的檢測性能。
在未來,本文考慮將超分辨率方法引入到所提出的網(wǎng)絡(luò)中,以增強其在提取細節(jié)紋理和密集邊緣結(jié)構(gòu)時的能力。同時,本文將在輕量化方面進行進一步研究,以平衡網(wǎng)絡(luò)的精度和推理速度,使FBIF-Net能夠適用于更多的應(yīng)用場景
參考文獻:
[1] 王海濤,高玉棟,侯建新,等.基于DCGAN的印刷缺陷檢測方法[J].哈爾濱理工大學(xué)學(xué)報,2021,26(6) :24.WANG Haitao,GAO Yudong,HOU Jianxin,et al.AMethod of Printing Defect Detection Based on DCGAN
nology,2021,26(6): 24.
[2]高偉,周宸,郭謀發(fā).基于改進YOLOv4及SR-GAN的 絕緣子缺陷辨識研究[J].電機與控制學(xué)報,2021,25 (11) :93. GAO Wei, ZHOU Chen,GUO Moufa. Insulator Defect Identification via Improved YOLOv4 and SR-GAN Algorithm[J]. Electric Machines and Control,2021,25 (11) : 93.
[3]LE TN,NGUYEN T V,NIE Z,et al. Anabranch Network for Camouflaged Object Segmentation[J]. Computer Vision and Image Understanding,2019,184 : 45.
[4]FAN D P, JI G P,SUN G,et al. Camouflaged Object Detection[C]//Proceedings of the IEEE Conference on Computer Vision and Patern Recognition.Piscataway, NJ,IEEE,2020: 2777.
[5]SKUROWSKI P,ABDULAMEER H, BLASZCZYK J,et al. Animal Camouflage Analysis: Chameleon Database [J].Unpublished Manuscript, 2018,2(6): 7.
[6]LV Y, ZHANG J,DAI Y,et al. Simultaneously Localize,Segment and Rank the Camouflaged Objects[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Piscataway, NJ, IEEE, 2021: 11591.
[7]YAN X,SUN M,HAN Y,et al. Camouflaged Object Segmentation Based on Matching-Recognition-Refinement Network[J]. IEEE Transactions on Neural Networks and Learning Systems, 2023.
[8]ZHAI Q,LI X, YANG F,et al. Mutual Graph Learning for Camouflaged Object Detection [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognitio.Piscataway,NJ, IEEE,2021: 12997.
[9]JI G P,F(xiàn)AN D P,CHOU Y C,et al. Deep Gradient Learning for Efficient Camouflaged Object Detection[J]. Machine Intelligence Research,2023,20(1) : 92.
[10]史彩娟,任弼娟,王子雯,等.基于深度學(xué)習(xí)的偽裝目 標(biāo)檢測綜述[J].計算機科學(xué)與探索,2022,16 (12) :2734. SHI Caijuan,REN Bijuan,WANG Ziwen, et al. Survey of Camouflaged Object Detection Based on Deep Learning [J]. Journal of Frontiers of Computer Science and Technology,2022,16(12) : 2734.
[11] PANG Y, ZHAO X, XIANG T Z, et al. Zoom in and Out: A Mixed-scale Triplet Network for Camouflaged Object Detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ,IEEE,2022: 2160.
[12]YANG C, ZHANG L,LU H,et al. Saliency Detection Via Graph-based Manifold Ranking[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ, IEEE,2013:3166.
[13]LIANG F,DUAN L,MA W,et al. Stereoscopic Saliency Model Using Contrast and Depth-guided-ba-ckground Prior[J].Neurocomputing,2018,275: 2227.
[14]LI J,PAN Z,LIU Q,et al. Complementarity-aware Attention Network for Salient Object Detection[J]. IEEE Transactions on Cybernetics,2020,52(2) : 873.
[15] ZHANG Z,LIN Z,XU J,et al. Bilateral Attention Network for RGB-D Salient Object Detection[J]. IEEE Transactions on Image Processing,2021, 30: 1949.
[16]LIU Z,MAO H,WUC Y,et al.A Convnet for the 2020s[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ, IEEE,2022:11976.
[17]LIU S,HUANG D. Receptive Field Block Net for Accurate and Fast Object Detection[C]//Proceedings of the Springer European Conference on Computer Vision. Berlin,Springer,2018:385.
[18]SUN Y,CHEN G, ZHOU T,et al. Context-aware Crosslevel Fusion Network for Camouflaged Object detection [J].ArXiv Preprint arXiv:2105.12555,2021.
[19] WU Z, SU L,HUANG Q. Cascaded Partial Deco-der for Fast and Accurate Salient Object Detection[C]//Proceedings of the IEEE Conference on Com-puter Vision and PatternRecognition. Piscataway,NJ, IEEE, 2019: 3907.
[20] MEI H, JI G P, WEI Z, et al. Camouflaged Object Segmentation with Distraction Mining[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ, IEEE,2021: 8772.
[21]LI J,MENG Y,WU Z,et al. Neufa:Neural Network Based End-to-end Forced Alignment with Bidirectional Attention Mechanism[C]//Proceedings of the IEEE International Conference on Acoustics,Speech and Signal Processing.Piscataway,NJ,IEEE,2022:8007.
[22] ZHANG Q, XIAO T,HUANG N,et al. Revisiting Feature Fusion for RGB-T Salient Object Detection[J]. IEEE Transactions on Circuits and Systems for Video Technology,2020,31(5):1804.
[Z5」 WEI J,WANG S,HUANG Q. F3Net :rusion,reedBack and Focus for Salient Object Detection[C]//Proceedings of the AAAI Conference on Artificial Intelligence.Menlo Park,2020,34(7):12321.
[24]LIU Z, ZHANG Z, TAN Y,et al. Boosting Camouflaged Object Detection with Dual-task Interactive Transformer [C]//Proceedings of the IEEE 2022 26th International Conference on Pattern Recognition. Piscataway, NJ, IEEE,2022:140.
[25]FAN D P,CHENG M M,LIU Y,et al. Structure-measure: A New Way to Evaluate Foreground Maps[ C]//Proceedings of the IEEE International Conference on Computer Vision.Piscataway,NJ,IEEE,2017:4548.
[26] MARGOLIN R, ZELNIK-MANOR L,TAL A. HoW to Evaluate Foreground Maps? [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ,IEEE,2014:248.
[27]FAN D P,GONG C,CAO Y,et al. Enhanced-alignment Measure for Binary Foreground Map Evaluation[J]. ArXiv Preprint arXiv:1805.10421,2018.
[28]ZHU H,LIP,XIE H,et al. I Can Find You!Boundaryguided Separated Attention Network for Camouflaged Object Detection[C]//Proceedings of the AAAI Conference on Artificial Intelligence.Menlo Park,AAAI,2022,36 (3): 3608.
[29] JIA Q,YAO S,LIU Y,et al. Segment,Magnify and Reiterate:Detecting Camouflaged Objects the Hard Way [C]//Proceedings of the IEEE Conference on Computer Vision and Patern Recognition. Piscataway,NJ,IEEE, 2022: 4713.
[30]LI X, YANG J,LI S,et al. Locate,Refine and Restore : A Progressive Enhancement Network for Camouflaged Object Detection[C]// Proceedings of the International Joint Conference on Artificial Intelligence. San Francisco,Morgan Kaufmann, 2023: 1116.
[31] XIAO J,CHEN T,HU X,et al. Boundary-guided Context-aware Network for Camouflaged object detection[ J]. NeuralComputingandApplications, 2023,35 (20) : 15075.
(編輯:溫澤宇)