王正文 宋慧慧 樊佳慶 劉青山
顯著性目標(biāo)檢測[1-5]能夠?qū)D像中在視覺上最與眾不同的對象或區(qū)域進(jìn)行檢測與識別.目前,顯著性目標(biāo)檢測已經(jīng)成功地作為許多計算機(jī)視覺領(lǐng)域任務(wù)的預(yù)處理過程,包括目標(biāo)跟蹤[6]、物體識別[7]、語義分割[8]等.
傳統(tǒng)方法[9-10]大多依靠顏色、紋理等手工特征或者啟發(fā)式先驗(yàn)來捕獲圖像局部細(xì)節(jié)和全局上/下文.Goferman 等[9]提出一種基于上/下文感知的方法,對目標(biāo)周圍的不同區(qū)域均進(jìn)行檢測,并最終基于四個心理學(xué)原理簡單生成了顯著性圖.Yan 等[10]設(shè)計了一個分層模型,能夠?qū)︼@著信息進(jìn)行層次分析,并將不同層次的輸出進(jìn)行組合得到最終結(jié)果.盡管上述算法取得了一定的成功,但是由于缺乏高級語義信息的參與,在復(fù)雜場景中檢測顯著物體的能力受到了很大限制.
近年來,卷積神經(jīng)網(wǎng)絡(luò)得到快速發(fā)展.例如文獻(xiàn)[11-13]的卷積神經(jīng)網(wǎng)絡(luò)所具備的金字塔結(jié)構(gòu),能夠在較淺層擁有豐富的低層邊緣細(xì)節(jié)特征,而較深層則包含了更多語義信息,更擅長定位顯著物體的確切位置.基于上述先驗(yàn),大量基于卷積神經(jīng)網(wǎng)絡(luò)的深度模型被相繼提出.Hou 等[11]對編碼過程中每個階段都引入了跳躍連接,對特征圖進(jìn)行多層次多角度的聚合連接,輸出精確的結(jié)果.Li 等[14]將粗紋理的顯著圖作為前景信息,將圖像邊界的超像素值作為背景信息,并將兩者結(jié)合,得到最終的結(jié)果.Qin 等[15]設(shè)計了一種嵌套的U 型結(jié)構(gòu),融合了不同感受野大小的特征,能夠捕捉更多的上/下文信息.在這些方法中,U 型結(jié)構(gòu)由于能夠通過在基礎(chǔ)的分類網(wǎng)絡(luò)上建立自上而下的路徑來構(gòu)建豐富的特征圖,而受到了最多的關(guān)注.
盡管上述方法相對于傳統(tǒng)方法已經(jīng)取得了很大進(jìn)步,但是還有很大改進(jìn)空間.首先,在U 型結(jié)構(gòu)的解碼過程中,高層語義信息逐漸傳遞到較淺層,雖然較淺層獲得了顯著物體的語義信息,但是位置信息同時也被稀釋,造成最終輸出的預(yù)測圖中并不是當(dāng)前圖像中最顯著部分,丟失了顯著物體準(zhǔn)確的空間定位;其次,低層特征擁有豐富的邊界信息,但是由于在網(wǎng)絡(luò)的較淺層,無法獲得較大感受野,此時如果只是簡單地融合高層特征與低層特征,是無法精確地捕捉圖片中顯著物體邊界的,尤其是小目標(biāo).因此,本文考慮在增大低層特征感受野,提高其表征力后,將其送入到高效的特征聚合模塊中,以此來細(xì)化顯著物體的邊緣.
針對上述問題,本文研究了如何在U 型結(jié)構(gòu)中通過高效的特征融合解決這些問題.本文主要貢獻(xiàn)包括以下3 個方面: 1)混合注意力模塊(Mixing attention module,MAM)對來自第5 個殘差層的特征利用注意力機(jī)制進(jìn)行顯著性增強(qiáng),得到更加關(guān)注顯著物體的語義特征,同時為了解決解碼過程中顯著物體位置信息被不斷稀釋的問題,將其作為整個解碼過程中的語義指導(dǎo),不斷指導(dǎo)解碼過程中的特征聚合,生成更加具體的顯著性圖.2)增大感受野模塊(Enlarged receptive field module,ERFM)可以對來自低層的特征進(jìn)行處理.低層特征的邊緣細(xì)節(jié)相當(dāng)豐富,但受限于感受野,無法獲得更加全局的信息.因此,考慮加入ERFM,可以在保留原有邊緣細(xì)節(jié)的同時,獲得更大的感受野,增強(qiáng)語義信息.3)多層次聚合模塊(Multi-level aggregation module,MLAM)是對來自經(jīng)過上述2 個模塊生成特征進(jìn)行高效聚合,以級聯(lián)方式不斷提取特征中的顯著部分,細(xì)化顯著物體的邊緣細(xì)節(jié),生成最終的顯著圖.具體結(jié)構(gòu)如圖1 所示.
圖1 網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.1 Network structure diagram
近年來,大量基于全卷積神經(jīng)網(wǎng)絡(luò)深度模型[16-17]被相繼提出,受益于全卷積神經(jīng)網(wǎng)絡(luò)強(qiáng)大的特征提取能力,基于深度學(xué)習(xí)的方法已經(jīng)在性能方面超越了大多數(shù)基于手工特征的傳統(tǒng)方法.文獻(xiàn)[18]詳細(xì)總結(jié)了傳統(tǒng)方法.本文主要討論基于深度學(xué)習(xí)的顯著性目標(biāo)檢測算法.
注意力機(jī)制具有很強(qiáng)的特征選擇能力,能夠?qū)⑻卣餍畔⑦M(jìn)行深度整合,使得網(wǎng)絡(luò)更加去關(guān)注所需的語義信息.根據(jù)加工域的不同,注意力機(jī)制可以分為空間域注意力和通道域注意力兩類,其中空間注意力模塊旨在捕獲特征圖中任意兩個空間位置之間的空間依賴性,通道注意力模塊旨在捕獲任意兩個通道之間的通道依賴性.因此,許多學(xué)者利用注意力機(jī)制進(jìn)行顯著性目標(biāo)檢測.Zhang 等[19]提出一種漸近注意力引導(dǎo)網(wǎng)絡(luò)的顯著性方法,在解碼階段,級聯(lián)多個注意力模塊漸近地生成最終結(jié)果.Zhao 等[20]考慮到不同層次的特征所具備的信息并不相同,因此,對來自不同層次的特征,分別設(shè)計了不同角度的注意力模塊,并對多個結(jié)果進(jìn)行融合,得到最終的結(jié)果.Chen 等[21]提出一種反向注意網(wǎng)絡(luò),將粗糙的預(yù)測圖反饋到中間特征層,希望網(wǎng)絡(luò)可以補(bǔ)全缺失的顯著部分.Wang 等[22]設(shè)計了一個金字塔注意力模塊,通過考慮多尺度注意力來增強(qiáng)顯著特征的表征力.上述方法都是對注意力機(jī)制的有效使用,本文方法需要生成更加關(guān)注顯著物體語義信息的高層特征,利用注意力機(jī)制可以取得很好效果.
大多數(shù)對特征進(jìn)行聚合的方法都是采用編碼-解碼的框架,其中編碼器用于提取多尺度特征,解碼器用于聚合特征以生成不同級別的上/下文信息.Wu 等[23]對深層特征進(jìn)行優(yōu)化,提高其表征力,并利用雙分支結(jié)構(gòu)對特征進(jìn)行聚合,生成細(xì)化后的結(jié)果.Deng 等[24]設(shè)計一種循環(huán)策略,不斷聚合來自不同層次的特征,對網(wǎng)絡(luò)進(jìn)行細(xì)化,增強(qiáng)顯著信息.Wang 等[25]提出一個特征打磨模塊,通過重復(fù)使用該模塊,對特征不斷細(xì)化,聚合來自不同層次的特征,得到最終結(jié)果.上述方法都探索了高效的特征聚合方法,雖然有一定效果,但是對于空間細(xì)節(jié)的捕捉仍然不夠,并且在解碼過程中,由于缺少高級語義的指導(dǎo),導(dǎo)致預(yù)測出的顯著物體位置出現(xiàn)了偏移.本文針對上述問題,設(shè)計了多層次聚合模塊,使其能夠在高級語義的指導(dǎo)下,精確地定位顯著物體,并且通過級聯(lián)多個、多層次聚合模塊,可以實(shí)現(xiàn)對邊緣細(xì)節(jié)的細(xì)化.
如圖1 所示,本文建立一個編碼-解碼結(jié)構(gòu).首先,選用ResNeXt101 作為特征提取器,提取圖片的各層特征;其次,利用MAM 生成一個全局語義特征,來引導(dǎo)解碼過程,通過上采樣、卷積和元素累加等操作,將全局語義融合到解碼器的各層特征中;接著,編碼過程中生成的各級特征通過ERFM 后,生成具備更多邊界信息的低層特征;最后,將各級特征一起送入MLAM 進(jìn)行特征的有效聚合,通過級聯(lián)方式生成最終的顯著性圖.
圖片送入網(wǎng)絡(luò)中,經(jīng)過編碼后,會生成一系列具備不同信息的特征.最高層的特征具備最強(qiáng)的語義表征能力,并且在解碼過程中,逐漸與低層特征進(jìn)行融合,最終得到顯著圖.但是,直接將這種語義信息進(jìn)行解碼融合,會造成許多顯著性細(xì)節(jié)的丟失,原因在于高層特征的不同通道和不同空間位置對顯著性計算的貢獻(xiàn)是不同的.具體地,不同通道對同一對象會有不同響應(yīng),而同一通道的不同空間位置也會包含不同的對象.受文獻(xiàn)[26]啟發(fā),本文設(shè)計了混合注意力模塊,該模塊分為通道注意力機(jī)制和空間注意力機(jī)制兩部分,用來捕捉不同通道和不同空間位置中最顯著的部分,利用這些最顯著的語義信息,對高層特征進(jìn)行有效增強(qiáng),得到更具魯棒性的全局語義特征.MAM 模塊結(jié)構(gòu)見圖2.
圖2 混合注意力模塊Fig.2 Mixing attention module
2.1.1 空間注意力機(jī)制
對于從殘差塊5 中提取的高層特征,首先,將其寬、高維度展開成一維向量并進(jìn)行轉(zhuǎn)置,得到二維矩陣X∈RHW×C,C是該特征的通道數(shù),H和W分別是高和寬,HW為高與寬相乘的數(shù)量.然后,經(jīng)過3 個并行的全連接層Wq、Wk和Wv對通道進(jìn)行降維,分別得到Q=XWq、K=XWk、V=XWv三個矩陣.接著,利用A=QKT得到相關(guān)性矩陣,其中,Aij代表Q中第i行與K中第j行的內(nèi)積,即兩個不同空間位置處向量的相關(guān)性.并且對相關(guān)性矩陣A的每一行利用Softmax 函數(shù)進(jìn)行歸一化,約束到(0,1)內(nèi).最后,將相關(guān)性矩陣A與V相乘,并且經(jīng)過一個全連接層Ws對通道維度進(jìn)行恢復(fù),得到空間顯著性增強(qiáng)后的特征圖XS=AV Ws,最終的特征表達(dá)式為:
2.1.2 通道注意力機(jī)制
通道維度的操作與上述類似,也是對殘差塊5提取的特征先沿著寬、高維度展開成一維向量并轉(zhuǎn)置,得到X∈RHW×C經(jīng)過三個全連接層,輸出Q=XWq,K=XWk,V=XWv.考慮到降維會帶來過多的信息損失,因此本文算法沒有對通道進(jìn)行降維.然后,通過B=KTQ得到相關(guān)性矩陣,其中Bij代表了K中第i列與Q中第j列的內(nèi)積,即兩個不同通道向量的相關(guān)性.同樣,需要對相關(guān)性矩陣B的每一列利用Softmax 函數(shù)進(jìn)行歸一化,約束到(0,1)內(nèi).最后,將V與B相乘且經(jīng)過一個全連接層Ws,得到通道顯著性增強(qiáng)后的特征圖XC=V BWs,最終的特征表達(dá)式為:
式中,Wq,Wk,Wv,Ws ∈RC×C.最后合并這兩個分支的輸出.考慮到殘差結(jié)構(gòu)的影響,本文將合并后的特征與輸入X進(jìn)行相加,生成最終特征圖Y ∈RHW×C:
式中,“⊕”表示元素級的特征圖相加.Y在經(jīng)過轉(zhuǎn)置并且將維度展開恢復(fù)后,送入到后續(xù)的模塊中.
低層特征的邊緣細(xì)節(jié)非常豐富,但由于下采樣的次數(shù)有限,感受野相對受限,無法捕捉全局的信息.在解碼過程中,如果僅僅是簡單利用低層特征,雖然邊緣的細(xì)節(jié)信息得到利用,但并沒有充分挖掘特征的空間細(xì)節(jié).受文獻(xiàn)[27]啟發(fā),本文設(shè)計如圖3所示的增大感受野模塊.低層特征經(jīng)過該模塊后,在保證邊緣細(xì)節(jié)不丟失的前提下,擴(kuò)大了感受野,具備了更多空間細(xì)節(jié).
圖3 增大感受野模塊Fig.3 Enlarged receptive field module
首先,對于特征M∈RC×H×W,設(shè)計四個并行分支 (li,i=1,2,3,4),其中l(wèi)1采用一個 1×1 卷積,剩下的三個分支均采用 3×3 卷積,并且對這三個分支設(shè)置不同的擴(kuò)張率.根據(jù)低層特征分辨率的不同設(shè)置不同的擴(kuò)張率: 對于分辨率較低的特征設(shè)置較小的擴(kuò)張率,對于分辨率較高的特征設(shè)置較大的擴(kuò)張率.本文最大的擴(kuò)張率設(shè)置為d=5,8,11,并隨著特征圖的縮小而不斷縮小(具體設(shè)置見第3.6 節(jié)).然后,對四個分支輸出進(jìn)行通道維度拼接,并利用一個 1×1 卷積得到融合后的特征.
在解碼過程中,高效利用每一層的特征尤為關(guān)鍵.以前的研究只對高層特征與低層特征進(jìn)行簡單的拼接融合,得到的結(jié)果非常粗糙.因此,本文設(shè)計了多層次聚合模塊,對來自不同層、不同空間尺度的特征進(jìn)行有效聚合.該模塊的輸入分為MAM 生成的語義特征H1,經(jīng)過ERFM 增強(qiáng)后的低層特征L和當(dāng)前進(jìn)行解碼的特征H2三個部分.圖4 是多層次聚合模塊示意圖.
圖4 多層次聚合模塊Fig.4 Multi-level aggregation module
整個聚合過程分為2 個階段: 第1 階段是語義特征對當(dāng)前解碼特征的指導(dǎo)融合.首先讓H1經(jīng)過兩個并行的 1×1 卷積,第1 個分支與H1在通道維度上進(jìn)行拼接融合后,與第2 個分支的結(jié)果相加完成第1 次融合,得到高層特征H:
式中,fconv(·)指卷積操作,fcat(·)指通道的拼接操作.第2 階段是第1 階段融合得到的高層特征H與經(jīng)過ERFM 增強(qiáng)后的低層特征L的聚合.此階段分為自下而上和自上而下兩個并行分支.自下而上是H向L的聚合,此階段L不變,H經(jīng)過一次上采樣和一個 1×1 卷積后與L進(jìn)行通道維度的拼接,得到聚合圖Xh→l:
式中,fup(·)指上采樣操作.自上而下是L向H的聚合,此階段H不變,L首先經(jīng)過一個并行的池化操作,其中最大池化可以提取特征中響應(yīng)值較大的信息即特征中所包含的顯著信息,平均池化可以得到特征的全局信息.經(jīng)過并行池化后,特征L具備更強(qiáng)的表征力,并且與H有相同的空間尺寸,此時將其與特征H在通道維度上進(jìn)行拼接,并利用1×1卷積完成融合.然后,對其進(jìn)行上采樣,得到最終的Xl→h:
式中,fmax(·)和favg(·)分別代表最大池化和平均池化操作.最后,對兩個分支得到的聚合特征也進(jìn)行一次聚合:
本文代碼是在Pytorch1.5.0 框架下完成,并且使用1 張GeForce GTX2080Ti GPU 進(jìn)行訓(xùn)練.訓(xùn)練數(shù)據(jù)使用DUTS[28]數(shù)據(jù)集中10553張圖片.使用Adam[29]優(yōu)化器進(jìn)行優(yōu)化,初始學(xué)習(xí)率設(shè)置為1×104,并且在每訓(xùn)練完成兩個周期后衰減一半,批量大小為8.使用ResNeXt101 作為特征提取器提取各層特征,并加載在ImageNet 上預(yù)訓(xùn)練的分類權(quán)重,作為初始權(quán)重.為了減少過擬合的影響,在訓(xùn)練階段,對圖片進(jìn)行了隨機(jī)翻轉(zhuǎn)和遮擋,并將圖片縮放到 3 20×320 像素后,將其隨機(jī)裁剪為288×288像素,輸入到網(wǎng)絡(luò)中進(jìn)行訓(xùn)練;測試階段,僅將圖片縮放到 2 88×288 像素后,輸入到網(wǎng)絡(luò)中進(jìn)行測試.
本文在6 個基準(zhǔn)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),包括DUTSTE[28]、DUT-OMRON[30]、ECSSD[31]、HKU-IS[32]、PASCAL-S[33]和SOD[34].其中,DUTS-TE 與訓(xùn)練集的10 553 張圖片同屬一個數(shù)據(jù)集,包含5 019 張測試圖片.DUT-OMRON 是最具有挑戰(zhàn)性的數(shù)據(jù)集,包含5 188 張圖片,該數(shù)據(jù)集的難點(diǎn)在于背景非常復(fù)雜,對網(wǎng)絡(luò)預(yù)測顯著目標(biāo)有很大干擾作用.ECSSD 相對簡單,由1 000 張圖片組成,其中顯著目標(biāo)形狀與外觀有很大差異.HKU-IS 包含4 447 張圖片,其中包含多個具有不同類別或外觀的顯著物體.PASCAL-S 包含850 張圖片,圖片中物體之間會出現(xiàn)很大程度的重疊.SOD 只有300 張圖片,但場景的復(fù)雜多變,帶來很大挑戰(zhàn).
本文使用平均絕對誤差(Mean absolute error,MAE)、Fβ(F-measure)和Sm(Structure measure)作為評價指標(biāo).
1)MAE 計算預(yù)測的顯著圖與真實(shí)標(biāo)簽之間的差異:
式中,P指預(yù)測的顯著圖,G指真實(shí)標(biāo)簽值.
2)Fβ是一種經(jīng)典且有效的測量指標(biāo),通過對查準(zhǔn)率(Precision)與查全率(Recall)設(shè)置不同的權(quán)重來計算:
式中,β2設(shè)置為0.3.
3)Sm用來考慮預(yù)測的顯著圖與真實(shí)標(biāo)簽之間的全局和局部的結(jié)構(gòu)相似性,該指標(biāo)的詳細(xì)介紹見文獻(xiàn)[35].
本文使用標(biāo)準(zhǔn)的二元交叉熵?fù)p失作為訓(xùn)練的損失函數(shù):
本文與最新10 種基于深度學(xué)習(xí)的方法進(jìn)行比較,包括U2Net[15]、PAGR[19]、RAS[21]、CPD[23]、DGRL[36]、MLMS[37]、PoolNet[38]、AFNet[39]、BASNet[40]和ITSD[41].為了指標(biāo)的公平性,所有指標(biāo)均在同一評測代碼下進(jìn)行評測,并且所有用于評測的顯著圖均從作者發(fā)布的模型中得出.
3.5.1 定量分析
表1、表2 和表3 分別列出了各算法的Fβ、MAE和Sm評價指標(biāo)結(jié)果.本文方法在3 項(xiàng)指標(biāo)中均表現(xiàn)優(yōu)異.由表1 和表3 可以看出,本文方法在指標(biāo)Fβ和Sm上大幅領(lǐng)先于其他方法,即便是次優(yōu)的ITSD算法,在較難的數(shù)據(jù)集DUT-OMRON 中,本文也在Fβ指標(biāo)上領(lǐng)先其0.003,Sm指標(biāo)領(lǐng)先其0.007.這主要得益于本文多層次聚合模塊能夠最大限度地保留顯著物體的空間信息和邊界細(xì)節(jié).對于表2 中MAE 指標(biāo),本文方法也僅在相對較難的3 個數(shù)據(jù)集上表現(xiàn)稍有不足,但與第1 名的差距是非常小的,基本保持在0.001~0.002 之間.圖5 是各方法的查準(zhǔn)率-查全率曲線圖,加粗實(shí)線是本文方法,由圖5可以看出,本文算法性能的優(yōu)越性.
表1 不同方法的 Fβ 指標(biāo)結(jié)果比較Table 1 Comparison of Fβ values of different models
表2 不同方法的MAE 指標(biāo)結(jié)果比較Table 2 Comparison of MAE values of different models
表3 不同方法的 指標(biāo)結(jié)果比較Sm SmTable 3 Comparison of values of different models
圖5 不同算法的查準(zhǔn)率-查全率曲線示意圖Fig.5 Comparison of precision-recall curves of different methods
3.5.2 定性分析
圖6 是本文方法與其他10 種方法的顯著性圖.由圖6 可以看出,本文方法對顯著信息的捕捉明顯更強(qiáng).在第1 行中,即便是指標(biāo)與本文最接近的ITSD 也將座椅當(dāng)作顯著物體,但是在人類的視覺效果上,明亮的燈與背景的區(qū)分度更大,本文方法因?yàn)橛腥终Z義指導(dǎo)特征聚合,可以捕捉到壁燈的顯著信息.在第2 行中,圍繩與人之間有很多交叉,即便是當(dāng)前性能較好的方法也并沒有將目標(biāo)完整地識別出來,而本文方法由于對低層特征進(jìn)行了感受野增強(qiáng),可以捕捉目標(biāo)周圍更多的上/下文信息,能夠?qū)⑷磕繕?biāo)識別出來,但同時也存在圍繩部分被識別為人的問題.綜上所述,本文算法對于復(fù)雜背景下的物體邊界并不能很好地細(xì)化.但對于背景較簡單的物體(如第5 行和最后1 行),本文均能很好地預(yù)測出邊界輪廓.
圖6 不同算法的顯著性圖Fig.6 Salient maps of different methods
表4 是在數(shù)據(jù)集ECSSD 上針對各模塊的消融實(shí)驗(yàn)結(jié)果: 1)混合注意力模塊.由表4 第3 行可知,當(dāng)缺少混合注意力模塊時,MAE 指標(biāo)上升了0.008,由此可見,利用該模塊生成的全局語義特征引導(dǎo)特征聚合,能夠大幅提升聚合性能;2)增大感受野模塊.由表4 第4 行可知,MAE 指標(biāo)上升了0.005,主要是因?yàn)槿鄙倭烁惺芤霸鰪?qiáng),沒有充分提取低層特征的空間上/下文信息,不利于細(xì)化邊界;3)多層次融合模塊.由表4 第2 行可知,當(dāng)用簡單的上采樣和相加操作代替該模塊時,MAE 上升了0.011,說明多層次融合模塊聚合方式非常高效.
表4 消融實(shí)驗(yàn)結(jié)果Table 4 Results of ablation experiment
表5 是對ERFM 模塊中,不同擴(kuò)張率設(shè)置的對比實(shí)驗(yàn)結(jié)果.表5 中不同設(shè)置組合從左向右依次對應(yīng)不同分辨率的特征圖(見圖3),即左邊第1 組擴(kuò)張率對應(yīng)分辨率最大的特征圖,最后1 組擴(kuò)張率對應(yīng)分辨率最小的特征圖.表5 的第4 行是本文方法的設(shè)置.由表5 第1 行可以看出,當(dāng)擴(kuò)張率全部設(shè)置為(1,3,5)時,與本文方法相比,MAE 上升了0.005,而隨著本文方法對分辨率較高的特征圖分配更大的擴(kuò)張率時,MAE 的指標(biāo)不斷降低.實(shí)驗(yàn)結(jié)果表明,在本文方法中,擴(kuò)張率的選擇是有效的.
表5 ERFM 模塊中,不同擴(kuò)張率設(shè)置的對比實(shí)驗(yàn)Table 5 Comparative experiment of different dilation rate configurations in ERFM
表6 是對MLAM 模塊第2 階段中,自上而下和自下而上兩個分支在數(shù)據(jù)集ECSSD 上的消融實(shí)驗(yàn)結(jié)果.由表6 第1 行可知,當(dāng)只使用自下而上分支時,相比兩個并行分支均使用時,MAE 上升了0.007;而只使用自上而下分支時,上升了0.006.由此可見,本文方法將兩個分支并行使用的方式是有效的,能夠?qū)扔兴嵘?
表6 MLAM 模塊中,兩個分支的消融實(shí)驗(yàn)Table 6 Ablation experiment of two branches in MLAM
表7 是對MAM 中,注意力模塊位置關(guān)系的消融實(shí)驗(yàn)結(jié)果.前2 行是將兩個模塊串聯(lián)并考慮其先后位置,第3 行是兩個模塊并行即本文方法.當(dāng)通道注意力位置在前時,與本文方法相比,MAE 上升了0.002;當(dāng)空間注意力位置在前時,MAE 上升了0.004.該實(shí)驗(yàn)結(jié)果驗(yàn)證了本文將兩個模塊設(shè)置成并行的有效性.
表7 MAM 模塊中,注意力模塊位置關(guān)系的消融實(shí)驗(yàn)Table 7 Ablation experiment on the position relationship of attention module in MAM
本文提出一種基于語義引導(dǎo)特征聚合的顯著性目標(biāo)檢測算法,主要包括混合注意力模塊、增大感受野模塊和多層次融合模塊3 個模塊.MAM 能夠生成更佳的語義特征,用來指導(dǎo)解碼過程中的特征融合,使得聚合的特征能夠更好地定位顯著物體;ERFM 能夠豐富低層特征所具備的上/下文信息,并將增強(qiáng)后的特征輸入到MLAM 中;MLAM 利用MAM 生成的語義信息,對當(dāng)前解碼的特征和ERFM 輸出的低層特征進(jìn)行指導(dǎo)融合,并最終以級聯(lián)方式逐步恢復(fù)邊界細(xì)節(jié),生成最終的顯著圖.本文與目前流行的10 種算法在6 個基準(zhǔn)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)比較,由可視化圖6 可以看出,本文算法能夠有效地保留顯著物體的空間位置信息,并且邊緣也得到了很好細(xì)化.實(shí)驗(yàn)結(jié)果也驗(yàn)證了本文算法具有領(lǐng)先性能.