亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        坐標(biāo)注意力特征金字塔的顯著性目標(biāo)檢測(cè)算法

        2023-01-17 09:31:40王劍哲
        計(jì)算機(jī)與生活 2023年1期
        關(guān)鍵詞:特征檢測(cè)信息

        王劍哲,吳 秦,2+

        1.江南大學(xué)人工智能與計(jì)算機(jī)學(xué)院,江蘇無錫214122

        2.江南大學(xué)江蘇省模式識(shí)別與計(jì)算智能工程實(shí)驗(yàn)室,江蘇無錫214122

        顯著性目標(biāo)檢測(cè)旨在模擬人的視覺特征分割出圖像中感興趣的目標(biāo)或區(qū)域。作為計(jì)算機(jī)視覺領(lǐng)域中一項(xiàng)重要的預(yù)處理操作,顯著性目標(biāo)檢測(cè)已被廣泛應(yīng)用于圖像分類[1]、語義分割[2]、目標(biāo)檢測(cè)[3]以及目標(biāo)跟蹤[4]等任務(wù)中。但由于目標(biāo)所在場(chǎng)景復(fù)雜,顯著性目標(biāo)檢測(cè)任務(wù)依然存在諸多挑戰(zhàn)。

        傳統(tǒng)的顯著性目標(biāo)檢測(cè)主要使用手工提取特征或啟發(fā)式先驗(yàn)方法來檢測(cè)圖像中的顯著性目標(biāo)[5]。這些方法往往是根據(jù)顏色或輪廓等低級(jí)特征來尋找目標(biāo),在單一場(chǎng)景下效果顯著,而在包含豐富背景信息的復(fù)雜場(chǎng)景下則極易產(chǎn)生誤判,無法生成高質(zhì)量的預(yù)測(cè)圖。近年來,卷積神經(jīng)網(wǎng)絡(luò)在特征提取上展現(xiàn)出巨大的優(yōu)勢(shì),隨著全卷積網(wǎng)絡(luò)(fully convolutional network,F(xiàn)CN)[6]在圖像分割領(lǐng)域取得的成功,現(xiàn)有的顯著性目標(biāo)檢測(cè)方法大多基于FCN且采用金字塔結(jié)構(gòu)來對(duì)特征進(jìn)行編解碼以增強(qiáng)感興趣目標(biāo)的表征能力。

        盡管特征金字塔的結(jié)構(gòu)能夠有效提取不同層次的特征,但其依然存在一些問題:首先,復(fù)雜場(chǎng)景中存在容易被誤判的背景噪聲,如圖1(1)至(3)中的標(biāo)志牌、影子等,由于其具有與顯著目標(biāo)相似的特征,在特征提取過程中極易發(fā)生誤判,對(duì)檢測(cè)精度和預(yù)測(cè)圖都會(huì)產(chǎn)生較大影響。其次,如圖1(4)至(6)所示,被檢測(cè)的顯著性目標(biāo)往往擁有復(fù)雜的形狀和輪廓,導(dǎo)致網(wǎng)絡(luò)難以精確地界定其邊界,而目標(biāo)邊界的檢測(cè)效果同樣影響最終的顯著圖質(zhì)量。

        圖1 顯著性目標(biāo)檢測(cè)問題的圖像示例Fig.1 Examples of problem in salient object detection

        為有效減少背景誤判且同時(shí)關(guān)注對(duì)顯著目標(biāo)邊界的預(yù)測(cè),本文提出一種特征金字塔結(jié)構(gòu)下的坐標(biāo)注意力顯著性目標(biāo)檢測(cè)網(wǎng)絡(luò)。金字塔結(jié)構(gòu)下的網(wǎng)絡(luò)將首先自底向上地提取不同層次的特征,并使用坐標(biāo)注意力模塊(coordinate attention module,CAM)調(diào)整蘊(yùn)含著高級(jí)語義信息的最深層網(wǎng)絡(luò)下的特征圖權(quán)重,進(jìn)一步鎖定顯著性目標(biāo),在突出關(guān)鍵特征的同時(shí)有效抑制了背景噪聲對(duì)顯著圖生成的干擾。在自頂向下的解碼過程中,加入特征細(xì)化模塊(feature refinement module,F(xiàn)RM)以融合不同層次下的不同尺度形態(tài)的特征,以防止逐層特征提取過程中丟失關(guān)鍵信息。此外,還提出邊界感知損失函數(shù)來使網(wǎng)絡(luò)提升對(duì)目標(biāo)邊界預(yù)測(cè)情況的關(guān)注度,進(jìn)一步修正顯著目標(biāo)的邊緣檢測(cè)情況,結(jié)合多層次監(jiān)督使得網(wǎng)絡(luò)能更好地界定目標(biāo)范圍,同時(shí)生成更高質(zhì)量的顯著圖。本文的主要貢獻(xiàn)如下:

        (1)提出坐標(biāo)注意力特征金字塔的顯著性目標(biāo)檢測(cè)網(wǎng)絡(luò),結(jié)合特征金字塔提取多層次特征的優(yōu)勢(shì)與坐標(biāo)注意力對(duì)深層次特征的挖掘能力,有效解決顯著目標(biāo)背景誤判問題。

        (2)提出特征細(xì)化模塊,保留特征的細(xì)節(jié)信息,實(shí)現(xiàn)不同層次特征的高效融合。

        (3)提出邊界感知損失,幫助網(wǎng)絡(luò)捕獲顯著目標(biāo)邊界信息,解決邊界模糊問題。

        (4)大量的實(shí)驗(yàn)數(shù)據(jù)表明了所提方法對(duì)提高顯著性目標(biāo)檢測(cè)精度的有效性,可視化的實(shí)驗(yàn)結(jié)果論證了所提模塊確實(shí)能有效解決背景誤判與邊界復(fù)雜問題。

        1 相關(guān)工作

        顯著性目標(biāo)檢測(cè)于1998 年被提出,主要分為基于手工提取特征的傳統(tǒng)方法和當(dāng)前基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)的方法。傳統(tǒng)顯著性目標(biāo)檢測(cè)方法主要依賴于對(duì)低級(jí)特征的利用,例如顏色對(duì)比、背景先驗(yàn)以及探索相似特征等?;诰矸e神經(jīng)網(wǎng)絡(luò)的顯著性目標(biāo)檢測(cè)方法則通過多個(gè)神經(jīng)元對(duì)圖像進(jìn)行學(xué)習(xí),提取了不同層次和形態(tài)的目標(biāo)特征,并探索了具有更深層含義的高級(jí)語義信息,取得了比傳統(tǒng)方法更準(zhǔn)確的檢測(cè)精度。自2015 年Long 等人[6]提出FCN 后,像素級(jí)的圖像分割任務(wù)得到進(jìn)一步發(fā)展。其中,Ronneberger 等人[7]與Badrinarayanan 等人[8]均采用編解碼結(jié)構(gòu)網(wǎng)絡(luò),并應(yīng)用于不同的分割領(lǐng)域。Zhang 等人[9]則將特征金字塔結(jié)構(gòu)應(yīng)用于顯著性目標(biāo)檢測(cè)中,進(jìn)一步整合了低級(jí)特征與高級(jí)語義信息,有效提高了檢測(cè)性能?,F(xiàn)有的工作通過特征融合、注意力機(jī)制以及邊界感知等方法有效提高了顯著性目標(biāo)檢測(cè)的精度,本章將對(duì)這些方法依次介紹。

        1.1 特征融合

        為了充分利用不同階段的特征形態(tài)又演變出諸多特征融合的方法,張守東等人[10]融合深度-手工特征與深層網(wǎng)絡(luò)特征,避免了模型過擬合問題,提高網(wǎng)絡(luò)性能。Liu 等人[11]則設(shè)計(jì)了金字塔池化模塊和全局指導(dǎo)模塊,并將其用于特征融合,以銳化顯著物體細(xì)節(jié),提高檢測(cè)精度。然而,這些方法采用的像素點(diǎn)相加的融合方式將導(dǎo)致不同層次下細(xì)節(jié)信息丟失。針對(duì)這一問題,本文提出的特征細(xì)化模塊將在融合不同層次特征時(shí),通過像素級(jí)相乘過濾背景噪聲,并采用像素級(jí)相加保留更多細(xì)節(jié)信息。

        1.2 注意力機(jī)制

        檢測(cè)方法中往往使用注意力機(jī)制幫助網(wǎng)絡(luò)進(jìn)一步聚焦關(guān)鍵特征,削弱無關(guān)信息權(quán)重,以提高網(wǎng)絡(luò)區(qū)分前背景的能力,這一模式也被廣泛應(yīng)用于分割領(lǐng)域。Hu等人[12]曾提出通道注意力模塊SENet(squeezeand-excitation networks)為不同通道的特征分配不同權(quán)重,以探尋通道之間的關(guān)系,有效放大關(guān)鍵信息。Woo等人[13]在通道注意力的基礎(chǔ)上加入空間注意力,設(shè)計(jì)了卷積塊注意力模塊(convolutional block attention module,CBAM)幫助網(wǎng)絡(luò)自適應(yīng)地在空間和通道維度上調(diào)節(jié)特征權(quán)重。Zhao 等人[14]則將CBAM 應(yīng)用于顯著性目標(biāo)檢測(cè)中,提升了預(yù)測(cè)精度。然而,這些注意力機(jī)制均僅能捕獲局部信息,缺少對(duì)全局信息的把控能力。本文將使用坐標(biāo)注意力(coordinate attention,CA)[15],分別從水平和垂直兩個(gè)空間方向聚集特征,在捕獲一個(gè)空間方向上長期依賴關(guān)系的同時(shí),保留另一空間方向上精確的位置信息,使網(wǎng)絡(luò)對(duì)目標(biāo)整體的結(jié)構(gòu)信息有一個(gè)更好的把握。同時(shí),坐標(biāo)注意力模塊將方向感知與位置敏感的注意力圖互補(bǔ)地應(yīng)用于顯著圖像,有效增強(qiáng)了顯著性區(qū)域特征的表征。

        1.3 邊界感知

        為有效改善邊界預(yù)測(cè),Zhou 等人[16]設(shè)計(jì)了邊界模塊用于學(xué)習(xí)目標(biāo)的邊界信息。Su 等人[17]同樣設(shè)計(jì)了針對(duì)邊界學(xué)習(xí)的分支,將生成的邊界與顯著圖結(jié)合以獲得最終的結(jié)果。這些模塊和分支均在一定程度上改善了目標(biāo)在邊界上的預(yù)測(cè),但是都將增加網(wǎng)絡(luò)的參數(shù)量和計(jì)算量,降低了網(wǎng)絡(luò)的效率。本文則針對(duì)復(fù)雜邊界設(shè)計(jì)了邊界感知損失函數(shù),通過引入邊界感知系數(shù)來賦予邊界像素點(diǎn)不同的權(quán)重,使網(wǎng)絡(luò)更適應(yīng)復(fù)雜邊界的同時(shí),提升網(wǎng)絡(luò)對(duì)邊界預(yù)測(cè)的關(guān)注度,以進(jìn)一步提高檢測(cè)精度和最終顯著圖的質(zhì)量。

        盡管特征融合、注意力機(jī)制、邊界感知等方法對(duì)提高顯著性目標(biāo)檢測(cè)性能起到了一定的作用。然而現(xiàn)有方法中依然存在特征融合的細(xì)節(jié)丟失、高性能注意力機(jī)制的應(yīng)用、邊界感知網(wǎng)絡(luò)的低效等問題。針對(duì)這些問題,本文的坐標(biāo)注意力特征金字塔模型,加入特征細(xì)化模塊、坐標(biāo)注意力模塊以及邊界感知損失,在對(duì)這些方法改進(jìn)的同時(shí),提高了顯著性目標(biāo)檢測(cè)的性能。

        2 坐標(biāo)注意力特征金字塔模型

        本文提出的坐標(biāo)注意力特征金字塔顯著性目標(biāo)檢測(cè)模型結(jié)構(gòu)如圖2 所示。整體為端到端的編解碼框架,其中編碼器使用特征金字塔提取不同深度層次特征,以辨識(shí)場(chǎng)景中多尺度顯著目標(biāo);坐標(biāo)注意力應(yīng)用于深層次特征,起到聚焦顯著目標(biāo)區(qū)域,抑制背景噪聲的作用,以生成高質(zhì)量的顯著圖;解碼器用于融合不同層次特征,以充分結(jié)合空間信息和通道信息。網(wǎng)絡(luò)具體的參數(shù)配置如表1 所示。

        表1 網(wǎng)絡(luò)參數(shù)Table 1 Network parameters

        圖2 坐標(biāo)注意力特征金字塔網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Architecture of coordinate attention feature pyramid network

        給定的輸入圖I首先通過由ResNet-50[18]前48 層組成的編碼器,生成不同層次的編碼圖Ei(i=1,2,3,4)。深層次編碼圖E4則通過坐標(biāo)注意力模塊CAM,以生成解碼圖D4。解碼器采用3 個(gè)特征細(xì)化模塊自頂向下地融合不同層的編碼圖Ei和解碼圖Di+1,輸出結(jié)合后的解碼圖Di與監(jiān)督圖Si(i=1,2,3,4)。其中監(jiān)督圖Si用于多層次監(jiān)督,網(wǎng)絡(luò)最終的預(yù)測(cè)結(jié)果P則由編碼圖D1經(jīng)過卷積、歸一化、ReLU 生成。

        后續(xù)將依次對(duì)組成網(wǎng)絡(luò)的關(guān)鍵模塊進(jìn)行詳細(xì)介紹,包括組成解碼器的特征細(xì)化模塊FRM,編解碼器中間的坐標(biāo)注意力模塊CAM 以及訓(xùn)練過程中所使用的邊界感知損失函數(shù)。

        2.1 特征細(xì)化模塊

        解碼器旨在逐層融合來自編碼器中不同層次的特征,達(dá)到空間信息與通道信息的有效結(jié)合。FCN方法采用像素相加的方式實(shí)現(xiàn)相鄰層次特征的融合。由于不同層次特征間差異,此舉往往造成融合中細(xì)節(jié)信息的丟失。考慮到殘差結(jié)構(gòu)能有效保留原特征圖中信息,本文設(shè)計(jì)了特征細(xì)化模塊以應(yīng)對(duì)特征融合中存在的細(xì)節(jié)丟失問題,其具體結(jié)構(gòu)如圖3所示。

        圖3 特征細(xì)化模塊結(jié)構(gòu)Fig.3 Architecture of feature refinement module

        特征細(xì)化模塊的輸入為特征圖Ei和上一層特征融合后所得的特征圖Di+1。其中Ei為編碼階段所得,其雖蘊(yùn)含豐富的低級(jí)特征卻同時(shí)存在大量背景噪聲。而Di+1則包含的是更高層次的語義特征,其有效過濾背景噪聲,卻缺失目標(biāo)的全局信息。

        特征細(xì)化模塊旨在有效融合不同層次的特征圖Ei和Di+1。其首先使用像素級(jí)相乘的方式將經(jīng)過卷積學(xué)習(xí)后的特征圖Ei和Di+1結(jié)合得到特征圖Xi,不僅充分融合顯著性目標(biāo)的低級(jí)特征和高級(jí)特征,而且有效過濾背景噪聲。再將中間特征圖Ni和Mi+1以像素級(jí)相加的方式與Xi結(jié)合,以防止有效信息丟失。特征細(xì)化模塊最終將輸出整合后的特征圖Di用于與下層低級(jí)特征進(jìn)一步進(jìn)行融合,同時(shí)輸出特征圖Si用于后續(xù)多層次監(jiān)督。

        2.2 坐標(biāo)注意力模塊

        基于特征金字塔的編解碼結(jié)構(gòu)通過融合不同層次特征實(shí)現(xiàn)顯著目標(biāo)的高效檢測(cè)。然而,對(duì)于圖像中易被誤判為顯著目標(biāo)的背景噪聲這一問題,特征金字塔并不能有效解決。而注意力機(jī)制則通過增加顯著區(qū)域賦予高的權(quán)重,幫助網(wǎng)絡(luò)更加關(guān)注顯著區(qū)域。相比僅采用全局池化捕獲局部信息而忽略了特征在平面上不同方向的呈現(xiàn)形式的卷積塊注意力模塊CBAM,坐標(biāo)注意力在捕獲通道信息的同時(shí),保留了對(duì)捕捉物體結(jié)構(gòu)和產(chǎn)生空間選擇性注意力圖至關(guān)重要的方向信息,同時(shí)還捕獲到長范圍依賴信息,有利于更好地定位和識(shí)別顯著性區(qū)域[16]。結(jié)合了坐標(biāo)注意力的特征金字塔結(jié)構(gòu)能夠有效解決背景誤判問題,生成高質(zhì)量的顯著圖。

        坐標(biāo)注意力模塊具體結(jié)構(gòu)如圖4 所示,其輸入為最深層的擁有最大感受野的特征編碼圖E4,在結(jié)合通道及方向信息調(diào)整E4中不同區(qū)域特征權(quán)重維度后輸出特征圖D4,以進(jìn)行進(jìn)一步解碼。整個(gè)過程中特征圖均保持寬高為8,通道數(shù)為2 048。對(duì)特征圖在不同方向和通道上的注意力圖的學(xué)習(xí)主要分為坐標(biāo)信息嵌入和坐標(biāo)注意力生成兩個(gè)步驟。

        圖4 坐標(biāo)注意力模塊結(jié)構(gòu)Fig.4 Architecture of coordinate attention module

        坐標(biāo)信息嵌入操作具體體現(xiàn)為采用尺寸為8×1和1×8 的全局池化操作,將特征圖分解為垂直與水平維度的特征編碼。其從垂直與水平方向編碼顯著圖,以保留特征空間結(jié)構(gòu)信息。其具體計(jì)算過程如式(1)和式(2)所示。

        其中,W和H為特征圖的寬和高。E4(i,j)為特征圖E4在(i,j)位置的值。得到的zh與zw為垂直與水平方向上所得的單向坐標(biāo)感知注意力圖,坐標(biāo)注意力生成操作則旨在編碼顯著圖的通道信息并重新調(diào)整顯著區(qū)域的權(quán)重。在顯著圖通道信息編碼過程中,首先將單向編碼特征圖zh和zw進(jìn)行級(jí)聯(lián)并通過1×1的卷積探尋通道間關(guān)系以對(duì)其進(jìn)行調(diào)整,其過程如式(3)。

        其中,F(xiàn)1×1為1×1 卷積,cat為級(jí)聯(lián)操作。f為所得的尺寸為1×16×64 的同時(shí)具備空間和通道維度重要特征探索能力的雙向通道注意力圖。隨后對(duì)特征圖f進(jìn)行切分并轉(zhuǎn)置成8×1×64 的fh和1×8×64的fw,結(jié)合1×1 卷積,最終生成一對(duì)方向感知和位置敏感的注意力圖gh和gw,其具體操作如式(4)和式(5)所示。

        在顯著區(qū)域權(quán)重分配中,gh和gw可以通過像素點(diǎn)相乘互補(bǔ)地應(yīng)用于特征圖E4,得到模塊輸出的坐標(biāo)注意力圖D4,以增強(qiáng)對(duì)顯著目標(biāo)的表征,計(jì)算過程如式(6)。

        2.3 邊界感知損失

        顯著性目標(biāo)檢測(cè)中常用交叉熵?fù)p失來監(jiān)督網(wǎng)絡(luò),其計(jì)算方式如式(7)所示。

        其中,Gij和Pij為真值圖G和預(yù)測(cè)圖P在位置(i,j)的值。Pr(Pij=l|φ)指的是給定所有參數(shù)φ的條件下,Pij=l的預(yù)測(cè)概率。函數(shù)t(Gij=l)如式(8)。

        然而,交叉熵計(jì)算單個(gè)像素點(diǎn)的損失值,給每個(gè)像素點(diǎn)賦予同樣的權(quán)重,未區(qū)分邊界點(diǎn)和其他點(diǎn)對(duì)于顯著目標(biāo)檢測(cè)的重要程度差異。為幫助網(wǎng)絡(luò)感知邊界,提升邊界預(yù)測(cè)能力,本文使用wij提高邊界像素點(diǎn)的損失值,具體如式(9)。

        其中,Aij指的是以(i,j)為中心、大小為31×31的區(qū)域。wij取值范圍為[0,1],wij取值越大,就意味著像素點(diǎn)(i,j)越接近邊界。通過將wij與交叉熵?fù)p失函數(shù)結(jié)合,得到能夠感知邊界像素的損失函數(shù)Lwbce,如式(10)。

        其中,μ和γ為用于調(diào)整邊界權(quán)重的超參數(shù)。Lwbce具有以下優(yōu)點(diǎn):(1)通過引入邊界感知因子wij,Lwbce獲得感知邊界像素點(diǎn)的能力。(2)通過引入邊界權(quán)重μ和γ,提升了網(wǎng)絡(luò)對(duì)于顯著目標(biāo)邊界預(yù)測(cè)的關(guān)注度,使得模型對(duì)不同復(fù)雜度的邊界信息擁有了更好的適應(yīng)和調(diào)整能力。

        此外,由于Lwbce計(jì)算的是單像素點(diǎn)的損失,其缺少對(duì)顯著圖像整體的感知能力,為了使網(wǎng)絡(luò)學(xué)習(xí)到顯著圖像的整體信息,使用式(11)定義的IoU 損失來監(jiān)督實(shí)例級(jí)的分割情況。

        基于以上討論,使用由式(12)定義的損失函數(shù)來指導(dǎo)監(jiān)督圖P的生成。

        此外,為了提升模型的學(xué)習(xí)能力,本文還將多層次監(jiān)督的特征圖Si納入損失函數(shù)中。其中,S1和S2為千層網(wǎng)絡(luò)輸出的特征圖,其中多為繁雜的低級(jí)特征,使用邊界像素?fù)p失Lwbce較為合理;S3和S4為高層網(wǎng)絡(luò)生成的、蘊(yùn)含著語義信息的高級(jí)特征,適合使用整體性損失LIoU。因此,最終的損失函數(shù)為定義在式(13)中的多層監(jiān)督損失,其中的P和Si為圖2 中模型的預(yù)測(cè)圖和監(jiān)督圖。

        3 實(shí)驗(yàn)和分析

        本章首先介紹使用的數(shù)據(jù)集與實(shí)驗(yàn)環(huán)境,然后介紹評(píng)估模型使用的評(píng)價(jià)指標(biāo),接著對(duì)網(wǎng)絡(luò)的參數(shù)設(shè)置和實(shí)現(xiàn)細(xì)節(jié)進(jìn)行說明,最后通過定性與定量的方式與當(dāng)前主流的顯著性目標(biāo)檢測(cè)方法進(jìn)行對(duì)比與分析。

        3.1 數(shù)據(jù)集

        為了驗(yàn)證模型的有效性,使用五個(gè)在顯著性目標(biāo)檢測(cè)領(lǐng)域常用的數(shù)據(jù)集來評(píng)估模型性能,分別為ECSSD[19]、PASCAL-S[20]、HKU-IS[21]、DUTS[22]和DUTOMRON[23]。ECSSD 包含1 000 張來自網(wǎng)絡(luò)的復(fù)雜場(chǎng)景的顯著圖像,且均有像素級(jí)標(biāo)注。PASCAL-S包含850 張不同的自然圖像,這些圖像來自PASCAL VOC2010[24]分割比賽。HKU-IS 包含4 447 張高質(zhì)量像素級(jí)顯著圖像,每張圖像中有多個(gè)顯著目標(biāo)區(qū)域。DUTS 是目前最大的顯著性目標(biāo)檢測(cè)數(shù)據(jù)集,來自ImageNetDET[25]和SUN[26]數(shù)據(jù)集,共包含15 572 張圖像,其中10 553 張作為訓(xùn)練集DUTS-TR,剩下的5 019 張作為測(cè)試集DUTS-TE。DUT-OMRON 包含5 168 張顯著圖像,這些圖像選自140 000 張自然圖像,每張都包含多個(gè)顯著目標(biāo)與復(fù)雜的背景信息。相比其他數(shù)據(jù)集,DUT-OMRON 更具有挑戰(zhàn)性,在顯著性目標(biāo)檢測(cè)領(lǐng)域有著更大的研究空間。

        3.2 評(píng)價(jià)指標(biāo)

        5 個(gè)評(píng)估指標(biāo)用于度量模型的性能,包括平均絕對(duì)誤差(mean absolute error,MAE)、準(zhǔn)確率-召回率(precision-recall,PR)曲線、F 值、結(jié)構(gòu)相似性度量(Smeasure)和E 值。

        MAE 用于評(píng)估預(yù)測(cè)圖和真值圖之間像素級(jí)平均誤差,其值越小,則說明誤差越小。其實(shí)現(xiàn)如式(14)。

        其中,P和G分別為預(yù)測(cè)圖和真值圖。

        PR 曲線用于刻畫準(zhǔn)確率與召回率之間的關(guān)系,通過一組0 到255 的閾值,計(jì)算預(yù)測(cè)圖與真值圖之間的準(zhǔn)確率和召回率,計(jì)算方式如式(15)。

        其中,Precision為準(zhǔn)確率,Recall為召回率。TP、FP、FN分別表示顯著區(qū)域預(yù)測(cè)為顯著區(qū)域、背景預(yù)測(cè)為顯著區(qū)域、顯著區(qū)域預(yù)測(cè)為背景的像素點(diǎn)數(shù)量。

        F 值為準(zhǔn)確率和召回率的加權(quán)調(diào)和平均,用于統(tǒng)合評(píng)估模型性能。其計(jì)算公式如式(16)。

        其中,β根據(jù)文獻(xiàn)[27]設(shè)置為0.3。

        S 值用于計(jì)算預(yù)測(cè)圖和真值圖間的結(jié)構(gòu)相似性,計(jì)算方法如式(17)。

        其中,Sr為基于區(qū)域的結(jié)構(gòu)相似性,So為基于目標(biāo)的結(jié)構(gòu)相似性。α根據(jù)經(jīng)驗(yàn)被設(shè)置為0.5。文獻(xiàn)[28]展示該指標(biāo)的具體細(xì)節(jié)。

        E 值同樣作為評(píng)估預(yù)測(cè)圖與真值圖的整體性指標(biāo),計(jì)算方法參考文獻(xiàn)[29]。

        3.3 實(shí)現(xiàn)細(xì)節(jié)

        模型使用DUTS 中具有10 553 張圖像的DUTSTR 作為訓(xùn)練集,DUTS-TE 和其他的數(shù)據(jù)集作為測(cè)試集用于評(píng)估模型性能。在數(shù)據(jù)增強(qiáng)階段,加入水平翻轉(zhuǎn)和隨機(jī)裁剪。ResNet-50 使用ImageNet 預(yù)訓(xùn)練模型。ResNet-50 初始學(xué)習(xí)率設(shè)置為0.005,其他部分設(shè)置為0.05。模型采用SGD 優(yōu)化器,最小學(xué)習(xí)率為0.000 5。Batchsize設(shè)置為32,訓(xùn)練輪數(shù)為64。

        3.4 實(shí)驗(yàn)結(jié)果對(duì)比分析

        將本文提出的坐標(biāo)注意力的特征金字塔網(wǎng)絡(luò)同當(dāng)前流行的其他基于深度學(xué)習(xí)的先進(jìn)方法進(jìn)行對(duì)比。對(duì)比的方法包括RAS[30]、R3Net[31]、TDBU[32]、AFNet[33]、PoolNet[11]、BANet[17]、CPR-R[34]、GCPA[35]、GateNet[36]、ITSD[16]、MINet[37]。為保證公平性,參與對(duì)比的方法使用相同的評(píng)估代碼。

        3.4.1 定量分析

        表2 和表3 展示本文方法與其他11 種方法在數(shù)據(jù)集ECSSD、PASCAL-S、DUTS、HKU-IS 和DUTOMRON 上不同評(píng)價(jià)指標(biāo)的對(duì)比結(jié)果。如表2 和表3所示,得益于特征金字塔對(duì)各層次特征的有效融合與坐標(biāo)注意力模塊對(duì)顯著區(qū)域的權(quán)重分配,本文的模型在整體上取得較好的成績。在數(shù)據(jù)集DUTS 和HKU-IS 上,本文方法在各項(xiàng)指標(biāo)上均超過其他方法。在數(shù)據(jù)集PASCAL-S 上,除了S 指標(biāo)比最好的方法GCPA[35]低0.003 外,其他指標(biāo)上均取得一定程度的領(lǐng)先。對(duì)于最具挑戰(zhàn)的數(shù)據(jù)集DUT-OMROM,模型在MAE 與F 指標(biāo)上同樣取得最好的結(jié)果,而在其他指標(biāo)上也與其他先進(jìn)的方法保持一致。圖5 展示本文方法和其他4 種方法的PR 曲線圖,本文方法同樣表現(xiàn)出更好的性能。

        表2 數(shù)據(jù)集ECSSD、PASCAL-S 和DUTS 上的定量對(duì)比Table 2 Quantitative comparison on datasets ECSSD,PASCAL-S and DUTS

        圖5 本文模型與其他先進(jìn)方法的PR 曲線Fig.5 PR curves of proposed model and other state-of-the-art methods

        表3 數(shù)據(jù)集HKU-IS 和DUT-OMRON 上的定量對(duì)比Table 3 Quantitative comparison on datasets HKU-IS and DUT-OMRON

        3.4.2 定性分析

        為了進(jìn)一步驗(yàn)證本文方法的性能,圖6 展示本文方法與其他方法的可視化對(duì)比結(jié)果。加入了特征細(xì)化模塊的特征金字塔網(wǎng)絡(luò)結(jié)構(gòu),能夠有效檢測(cè)不同尺度的顯著目標(biāo)。由圖6(1)至(3)可以看出,對(duì)復(fù)雜場(chǎng)景下不同大小的顯著目標(biāo),本文方法均能夠生成高質(zhì)量顯著圖。坐標(biāo)注意力模塊的加入,有助于網(wǎng)絡(luò)對(duì)顯著區(qū)域與背景噪聲的有效判斷。由圖6(4)至(6)可以看出,與昆蟲相鄰的花朵以及動(dòng)物的影子,都屬于背景中易被誤判的噪聲,而本文模型均能夠?qū)⑺鼈儏^(qū)別出來。得益于邊界感知損失幫助網(wǎng)絡(luò)對(duì)邊緣信息的學(xué)習(xí),網(wǎng)絡(luò)能夠更準(zhǔn)確地預(yù)測(cè)邊界像素點(diǎn)。由圖6(7)至(8)看出,相比其他缺少邊界感知的方法,本文模型生成的顯著圖具有更加清晰的邊界。

        圖6 本文方法與其他先進(jìn)方法的可視化對(duì)比Fig.6 Visual comparison of proposed model and other state-of-the-art methods

        3.5 消融實(shí)驗(yàn)

        3.5.1 所提內(nèi)容有效性驗(yàn)證

        為驗(yàn)證各個(gè)模塊的有效性,在數(shù)據(jù)集DUTS 和DUT-OMRON 上進(jìn)行相關(guān)的消融實(shí)驗(yàn)?;A(chǔ)網(wǎng)絡(luò)結(jié)構(gòu)包括ResNet-50 編碼器和3 個(gè)VGGBlock 組成的解碼器。之后用特征細(xì)化模塊FRM 代替VGGBlock,再依次加入多層特征監(jiān)督(multi-level supervision,MLS)和坐標(biāo)注意力模塊CAM。實(shí)驗(yàn)結(jié)果如表4 所示,可以看出,在使用特征細(xì)化模塊FRM 后,得益于細(xì)節(jié)保留能力,檢測(cè)性能有了顯著提升。DUTS 數(shù)據(jù)集中MAE 由0.040 降至0.036,DUT-OMRON 數(shù)據(jù)集MAE 也由0.062 降至0.055,其他指標(biāo)也有較為顯著的提升。隨后加入多層特征監(jiān)督MLS 以優(yōu)化訓(xùn)練過程,檢測(cè)精度F 值和結(jié)構(gòu)相似性指標(biāo)S 值有所提升。DUTS 數(shù)據(jù)集中F 值提高0.005,E 值提高0.004。DUT-OMRON 數(shù)據(jù)集中F 值提高0.008。在融入坐標(biāo)注意力模塊CAM 后,模型有效解決背景誤判問題,模型檢測(cè)效果進(jìn)一步提升。DUTS 數(shù)據(jù)集的MAE 降低0.002,F(xiàn) 值提高0.004。DUT-OMRON 數(shù)據(jù)集的MAE由0.055降低至0.053,F(xiàn)值由0.791提升至0.795。

        表4 不同模塊的消融實(shí)驗(yàn)Table 4 Ablation study for different modules

        為進(jìn)一步探索各個(gè)模塊的有效性,本小節(jié)進(jìn)行了可視化對(duì)比的消融實(shí)驗(yàn)。特征細(xì)化模塊在解碼過程中保留更多的細(xì)節(jié)信息,有助于生成更加清晰的顯著圖,而多層次監(jiān)督能夠在這一過程中起到優(yōu)化作用。圖7 展示了特征細(xì)化模塊FRM 和多層次監(jiān)督MLS 的可視化對(duì)比。可以看出,在加入FRM 與MLS后,預(yù)測(cè)圖的顯著區(qū)域更加準(zhǔn)確,也沒有模糊區(qū)域。監(jiān)督圖S1至監(jiān)督圖S4的顯著區(qū)域不斷精細(xì)的過程也反映了MLS 的有效性。

        圖7 特征細(xì)化模塊與多層次監(jiān)督的可視化對(duì)比Fig.7 Visual comparison of feature refinement module and multi-level supervision

        坐標(biāo)注意力模塊捕獲深層次的通道信息與長范圍空間信息,為顯著區(qū)域與非顯著區(qū)域分配不同權(quán)重,增強(qiáng)前景,抑制背景。圖8 展示了坐標(biāo)注意力模塊的可視化對(duì)比。在不加入坐標(biāo)注意力的情況下,網(wǎng)絡(luò)依然不能準(zhǔn)確區(qū)分易被誤判的背景噪聲,而加入坐標(biāo)注意力模塊后,模型則能夠?qū)@些噪聲有效判斷,解決背景誤判問題。

        圖8 坐標(biāo)注意力模塊的可視化對(duì)比Fig.8 Visual comparison of coordinate attention module

        3.5.2 損失函數(shù)對(duì)比

        為使網(wǎng)絡(luò)具有更好的性能,本小節(jié)對(duì)損失函數(shù)進(jìn)行消融實(shí)驗(yàn)。首先對(duì)式(10)中Lwbce中超參數(shù)γ和μ進(jìn)行調(diào)參。如表5 和表6 所示,當(dāng)γ和μ分別取2和5 時(shí),模型取得最好的性能。

        表5 超參數(shù)γ 消融實(shí)驗(yàn)Table 5 Ablation study for hyper-parameter γ

        表6 超參數(shù)μ 消融實(shí)驗(yàn)Table 6 Ablation study for hyper-parameter μ

        本小節(jié)將提出的邊界感知損失與式(7)中的交叉熵?fù)p失、式(11)中的IoU 損失以及兩者相加所得到的結(jié)果進(jìn)行對(duì)比。得益于邊界感知損失對(duì)邊界信息賦予更多的權(quán)重,網(wǎng)絡(luò)對(duì)邊界像素點(diǎn)的預(yù)測(cè)更加準(zhǔn)確。如表7 所示,相比使用Lbce+LIoU,邊界損失感知在各項(xiàng)評(píng)估指標(biāo)上有了更好的表現(xiàn),這也論證了邊界感知損失的有效性。圖9 展示了損失函數(shù)的可視化對(duì)比結(jié)果,在未使用邊界感知損失的情況下,模型會(huì)因?yàn)槟繕?biāo)邊界復(fù)雜而產(chǎn)生模糊的邊界,甚至將部分邊界像素點(diǎn)預(yù)測(cè)為背景。使用邊界損失后,這些像素點(diǎn)得到有效的預(yù)測(cè),顯著圖邊界也更加清晰準(zhǔn)確。這也論證了邊界感知損失的加入,更有助于網(wǎng)絡(luò)對(duì)邊界像素點(diǎn)的準(zhǔn)確判斷。

        表7 不同損失函數(shù)的消融實(shí)驗(yàn)Table 7 Ablation study for different loss functions

        圖9 損失函數(shù)的可視化對(duì)比Fig.9 Visual comparison of loss functions

        4 結(jié)束語

        本文提出了一種坐標(biāo)注意力的特征金字塔模型以解決顯著性目標(biāo)檢測(cè)中背景誤判和邊界復(fù)雜問題。設(shè)計(jì)特征細(xì)化模塊,使不同層特征的融合更加高效。通過坐標(biāo)注意力模塊,減少背景中易誤判的噪聲。為使網(wǎng)絡(luò)能夠更加關(guān)注邊界信息,生成具有清晰邊界的顯著圖像,本文設(shè)計(jì)邊界感知損失。在與其他先進(jìn)方法的實(shí)驗(yàn)對(duì)比中,所提出的模型具有更強(qiáng)的競爭力。未來的工作中,將考慮通過逐層收縮的方式,提高對(duì)相鄰特征節(jié)點(diǎn)的關(guān)注度,以便動(dòng)態(tài)更新不同層次特征權(quán)重。

        猜你喜歡
        特征檢測(cè)信息
        “不等式”檢測(cè)題
        “一元一次不等式”檢測(cè)題
        “一元一次不等式組”檢測(cè)題
        如何表達(dá)“特征”
        不忠誠的四個(gè)特征
        抓住特征巧觀察
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        小波變換在PCB缺陷檢測(cè)中的應(yīng)用
        展會(huì)信息
        線性代數(shù)的應(yīng)用特征
        河南科技(2014年23期)2014-02-27 14:19:15
        亚洲中文字幕精品久久吃奶| 免费一区二区三区女优视频| 狠狠丁香激情久久综合| 色欲人妻综合网| 高清午夜福利电影在线| 欧美日韩中文国产一区| 一区二区三区中文字幕在线播放 | 午夜福利麻豆国产精品 | 区三区久久精品水蜜桃av| 亚洲一级无码片一区二区三区| 色老板精品视频在线观看| 日韩经典午夜福利发布| 国产亚洲综合另类色专区| 黄色三级视频中文字幕| 狠狠色狠狠色综合日日92| 午夜成人精品福利网站在线观看| 特黄aaaaaaaaa毛片免费视频| 日本亚洲系列中文字幕| 粉嫩的18在线观看极品精品| 蜜桃在线播放免费一区二区三区| 妺妺窝人体色www看美女| 中文字幕乱码在线人妻| 久久久免费精品国产色夜| 久久久亚洲欧洲日产国码是AV| 亚洲日本中文字幕天天更新| 久久婷婷五月综合色丁香| 日韩一区二区av极品| 久久精品国产亚洲不卡| 亚洲国产成人AV人片久久网站| 丰满少妇大力进入av亚洲| aⅴ精品无码无卡在线观看| 天天躁夜夜躁狠狠躁婷婷| 日韩人妻免费视频一专区| av网站韩日在线观看免费| 日韩精品精品一区二区三区| 免费国产黄线在线播放| 一级免费毛片| 人妻无码久久一区二区三区免费| 日韩毛片无码永久免费看| 国产欧美日韩精品丝袜高跟鞋| 一区二区三区精品少妇|