基于深度學(xué)習(xí)的顯著性目標(biāo)檢測(cè)綜述

2021-02-05 18:10:36史彩娟張衛(wèi)明陳厚儒葛錄錄

計(jì)算機(jī)與生活 2021年2期

史彩娟，張衛(wèi)明，陳厚儒，葛錄錄

華北理工大學(xué)人工智能學(xué)院，河北唐山 063210

視覺顯著性是指模仿人類視覺系統(tǒng)快速檢測(cè)出視覺上最獨(dú)特的顯著性區(qū)域，即顯著場(chǎng)景，然后對(duì)該區(qū)域進(jìn)行感知和處理。顯著性目標(biāo)檢測(cè)（salient object detection，SOD）是指檢測(cè)顯著場(chǎng)景中最吸引注意力的物體。近年，顯著性目標(biāo)檢測(cè)得到了廣泛研究和應(yīng)用，如圖像分類[1-2]、語義分割[3-4]、超像素[5]、圖像檢索[6]、視覺跟蹤[7]、內(nèi)容感知圖像編輯[8]和機(jī)器人導(dǎo)航[9]等。

顯著性目標(biāo)檢測(cè)方法一般可以分為傳統(tǒng)顯著性目標(biāo)檢測(cè)方法和基于深度學(xué)習(xí)的顯著性目標(biāo)檢測(cè)方法。傳統(tǒng)顯著性目標(biāo)檢測(cè)方法主要是利用人類直觀感覺或者啟發(fā)式先驗(yàn)，如利用色度比較[10]、背景比較[11]和邊界點(diǎn)先驗(yàn)[12]等，通過人工提取特征來檢測(cè)目標(biāo)。然而，人工提取特征非常耗時(shí)。近年，深度學(xué)習(xí)的發(fā)展極大促進(jìn)了顯著目標(biāo)檢測(cè)研究，基于深度學(xué)習(xí)的顯著性目標(biāo)檢測(cè)方法不斷被提出。不同于傳統(tǒng)方法，基于深度學(xué)習(xí)的顯著性目標(biāo)檢測(cè)方法不需要人工提取特征，而是自動(dòng)學(xué)習(xí)得到多尺度特征；另外，檢測(cè)性能也有了很大提升，如檢測(cè)精度大幅提升，時(shí)效性越來越好，模型輕量級(jí)，單一網(wǎng)絡(luò)同時(shí)完成顯著性目標(biāo)的檢測(cè)和邊界定位等。但是，現(xiàn)有的基于深度學(xué)習(xí)的顯著性目標(biāo)檢測(cè)方法也還存在不足，如復(fù)雜背景下的顯著性目標(biāo)檢測(cè)性能有待進(jìn)一步提升，檢測(cè)的實(shí)時(shí)性有待提高，模型復(fù)雜度需要降低等。

近年，部分學(xué)者對(duì)基于深度學(xué)習(xí)的目標(biāo)檢測(cè)方法進(jìn)行了梳理總結(jié)[13-19]，但是對(duì)國內(nèi)外基于深度學(xué)習(xí)的顯著性目標(biāo)檢測(cè)算法的總結(jié)與分析非常有限。因此，本文將對(duì)基于深度學(xué)習(xí)的顯著性目標(biāo)檢測(cè)算法進(jìn)行總結(jié)分析。首先詳細(xì)闡述了基于深度學(xué)習(xí)的顯著性目標(biāo)檢測(cè)的不同方法；其次簡單介紹了常用數(shù)據(jù)集和評(píng)估準(zhǔn)則；接著對(duì)多個(gè)基于深度學(xué)習(xí)的顯著性目標(biāo)檢測(cè)方法進(jìn)行了性能比較；最后分析了現(xiàn)有基于深度學(xué)習(xí)的顯著性目標(biāo)檢測(cè)方法的不足及未來發(fā)展方向。

1 基于深度學(xué)習(xí)的顯著性目標(biāo)檢測(cè)方法

隨著深度學(xué)習(xí)的快速發(fā)展，基于深度學(xué)習(xí)的顯著性目標(biāo)檢測(cè)方法被廣泛提出，克服了傳統(tǒng)方法中人工提取特征耗時(shí)或者遷移性較差等問題。圖1 給出了近年來基于深度學(xué)習(xí)的顯著性目標(biāo)檢測(cè)的發(fā)展歷程及主要方法。本文分別從邊界/語義增強(qiáng)、全局/局部結(jié)合和輔助網(wǎng)絡(luò)三個(gè)不同的角度對(duì)現(xiàn)有的基于深度學(xué)習(xí)的顯著性目標(biāo)檢測(cè)方法進(jìn)行介紹。

1.1 基于邊界/語義增強(qiáng)的顯著性目標(biāo)檢測(cè)

研究發(fā)現(xiàn)，深度網(wǎng)絡(luò)VGG[20]（visual geometry group）和ResNet[21]（residual neural network）等提取的多層多尺度特征中低層特征包含良好的空間信息，可以定位邊界，而高層特征具有豐富的語義信息，可以定位顯著性目標(biāo)。因此，為了提高顯著性目標(biāo)檢測(cè)的性能，有的研究對(duì)低層特征進(jìn)行操作來增強(qiáng)邊界[22]，獲得更加清晰的顯著性目標(biāo)邊界；有的研究銳化高層特征來獲得豐富的語義信息，通過語義增強(qiáng)來更好地定位顯著性目標(biāo)[23]；還有一些研究對(duì)邊界和語義同時(shí)進(jìn)行增強(qiáng)[24]，以獲得更好的顯著性目標(biāo)檢測(cè)效果。因此，本節(jié)將從邊界增強(qiáng)、語義增強(qiáng)，邊界/語義增強(qiáng)三個(gè)角度對(duì)基于深度學(xué)習(xí)的顯著性目標(biāo)檢測(cè)方法進(jìn)行介紹。

1.1.1 基于邊界增強(qiáng)的顯著性目標(biāo)檢測(cè)方法

Fig.1 Development of salient object detection based on deep learning圖1 基于深度學(xué)習(xí)的顯著性目標(biāo)檢測(cè)的發(fā)展

邊界增強(qiáng)是指通過增強(qiáng)深度特征中的低層特征來獲得更多的邊界信息，從而更好地定位顯著目標(biāo)邊界。Tai 等人提出ELD（encoded low-level distance）算法[22]對(duì)顏色及其分布和濾波器響應(yīng)位置等低層特征的特征距離進(jìn)行編碼，生成低階距離圖以獲得邊界檢測(cè)效果；Wang 等人提出的KSR（kernelized subspace ranking）算法[25]構(gòu)建了一種基于核化的子空間排序模型來測(cè)量低層特征的兩兩距離，根據(jù)模型給出的建議分?jǐn)?shù)生成低層特征圖。以上兩種方法通過編碼低層特征距離來檢測(cè)邊界信息，定位顯著性目標(biāo)輪廓，但是輪廓邊界有時(shí)會(huì)模糊，導(dǎo)致部分邊界細(xì)節(jié)丟失，仿真結(jié)果如圖2（c）、（d）所示。為了進(jìn)一步提升顯著性目標(biāo)邊界檢測(cè)效果，一些研究通過引入相關(guān)操作來增強(qiáng)低層特征具有邊界信息。Li 等人提出的DCL（deep contrast learning）算法[26]采用分段空間池流模擬不連續(xù)的顯著性目標(biāo)邊界，解決顯著性目標(biāo)邊界模糊的問題。Hou 等人提出的DSS（deeply supervised salient）算法[27]是在HED（holistically-nested edge detection）體系結(jié)構(gòu)中引入了具有跳躍結(jié)構(gòu)的短連接，使每一層具有更加豐富的多尺度特征映射，從而獲得顯著性目標(biāo)的清晰邊界。DCL 和DSS 方法的仿真顯著圖如圖2（e）、（f）所示。從仿真結(jié)果可以看出，相較于直接編碼低層特征距離的算法，進(jìn)一步引入相關(guān)操作的方法獲得的顯著性目標(biāo)邊界更加清晰。但是，這些操作的引入容易引起顯著性目標(biāo)檢測(cè)不準(zhǔn)確，如圖2（e）、（f）第二行出現(xiàn)了不準(zhǔn)確的顯著性目標(biāo)（山）。

Fig.2 Saliency maps of methods based on boundary enhancement圖2 基于邊界增強(qiáng)方法的顯著圖

另外，還有一些研究直接對(duì)顯著性目標(biāo)的邊界進(jìn)行檢測(cè)。Hou 等人提出TBOS（three birds one stone）算法[28]，采用了一種通用架構(gòu)對(duì)顯著性目標(biāo)邊界進(jìn)行檢測(cè)，同時(shí)能夠完成骨架提取和目標(biāo)分割。Feng 等人提出的AFNet（attentive feedback network）算法[29]采用BEL（boundary-enhanced loss）邊界增強(qiáng)損失來獲得更精確的邊界，進(jìn)而實(shí)現(xiàn)對(duì)顯著性目標(biāo)，特別是凸起窄條紋的分割。Qin等人提出的BASNet（boundaryaware salient network）算法[30]將混合損耗用于邊界感知的顯著性目標(biāo)檢測(cè)，能夠準(zhǔn)確地預(yù)測(cè)出清晰的邊界結(jié)構(gòu)，以及有效地分割出顯著性目標(biāo)區(qū)域。以上三種直接提取顯著性目標(biāo)邊界的檢測(cè)算法的顯著圖如圖3（c）、（d）所示。從圖3 可以看出這類方法能夠提取清晰的顯著性目標(biāo)邊界，邊界細(xì)節(jié)相對(duì)較好，顯著性目標(biāo)的檢測(cè)準(zhǔn)確度較高（無關(guān)的顯著性目標(biāo)較少）。

Fig.3 Saliency maps of methods based on direct extraction of boundaries圖3 直接提取邊界方法的顯著圖

1.1.2 基于語義增強(qiáng)的顯著性目標(biāo)檢測(cè)方法

語義增強(qiáng)是指從高層特征中獲得豐富的語義信息，從而更好地定位顯著性目標(biāo)，使顯著性目標(biāo)更加突出。Dai等人提出的R-FCN（region-based fully convolutional networks）算法[23]通過全卷積網(wǎng)絡(luò)獲得高層語義特征以獲得具有通用性的顯著性圖。Wu 等人提出CPD（cascaded partial decoder）算法[31]，直接利用生成的顯著性圖細(xì)化骨干網(wǎng)的特征來提高高層特征的表示能力；另外，利用多尺度特征進(jìn)一步細(xì)化顯著性圖并糾正映射錯(cuò)誤。Liu等人提出的PoolNet算法[32]充分利用卷積神經(jīng)網(wǎng)絡(luò)的池操作，將金字塔池塊放在U 型結(jié)構(gòu)的最頂層來獲取豐富的語義信息。以上三種基于語義增強(qiáng)的顯著性目標(biāo)檢測(cè)方法的顯著圖如圖4（c）～（e）所示。這類方法可以準(zhǔn)確定位顯著性目標(biāo)的位置，但是由于僅針對(duì)高層特征所包含的語義進(jìn)行增強(qiáng)，有時(shí)會(huì)造成顯著性目標(biāo)邊界模糊或者多個(gè)顯著性目標(biāo)重合。

Fig.4 Saliency maps of methods based on semantic enhancement圖4 基于語義增強(qiáng)方法的顯著圖

為了獲得有效的顯著性目標(biāo)，一些研究通過引入注意力機(jī)制進(jìn)一步增強(qiáng)語義信息。Liu 等人提出的PiCANet（pixel-wise contextual attention network）算法[33]首先為每個(gè)像素生成注意力圖，然后有選擇地整合上下文信息來構(gòu)建有效特征，最后與U-Net 架構(gòu)結(jié)合生成顯著性圖。Chen 等人提出的RAS（reverse attention salient）算法[34]根據(jù)逆向注意提出了一個(gè)自上而下的邊訓(xùn)練邊輸出的剩余學(xué)習(xí)方式，實(shí)現(xiàn)對(duì)最深層語義信息的增強(qiáng)。基于注意力機(jī)制的語義增強(qiáng)顯著性目標(biāo)檢測(cè)算法的顯著圖如圖5（c）、（d）。引入注意力機(jī)制來有效提取語義信息，準(zhǔn)確定位顯著性目標(biāo)的位置。

Fig.5 Saliency maps of methods based on semantic enhancement with attention mechanism圖5 基于注意力機(jī)制的語義增強(qiáng)方法的顯著圖

1.1.3 基于邊界/語義增強(qiáng)的顯著性目標(biāo)檢測(cè)方法

通過前面兩類方法的分析可以看出，只進(jìn)行邊界增強(qiáng)容易造成顯著性目標(biāo)模糊，而只進(jìn)行語義增強(qiáng)則會(huì)引起顯著性目標(biāo)的邊界模糊。因此，為了克服二者的缺點(diǎn)，一些研究對(duì)邊界和語義同時(shí)進(jìn)行增強(qiáng)，同時(shí)獲得良好的顯著性目標(biāo)信息以及輪廓信息，從而提升顯著性目標(biāo)檢測(cè)性能。

Zhang 等人提出的Amulet 算法[24]將多層特征映射集到多個(gè)分辨率，獲得同時(shí)包含語義信息和邊緣細(xì)節(jié)的顯著性圖。Zhang 等人提出的BDMPM（bidirectional message passing model）算法[35]設(shè)計(jì)了一種門函數(shù)來控制消息的傳遞速率和雙向傳遞。雙向的消息傳遞結(jié)構(gòu)可以同時(shí)對(duì)語義信息和空間細(xì)節(jié)進(jìn)行編碼實(shí)現(xiàn)顯著性目標(biāo)檢測(cè)。以上兩種基于邊界/語義增強(qiáng)的顯著性目標(biāo)檢測(cè)算法的顯著圖如圖6（c）、（d）。這些方法既可以準(zhǔn)確定位顯著性目標(biāo)的位置，又可以獲得清晰的顯著性目標(biāo)邊界。主要是因?yàn)橥ㄟ^語義增強(qiáng)可以減小無效目標(biāo)的干擾，更好地定位顯著性目標(biāo)的位置；通過邊界增強(qiáng)可以獲得清晰的顯著性目標(biāo)邊界。

Fig.6 Saliency maps of methods based on boundaries/semantic enhancement圖6 基于邊界/語義增強(qiáng)方法的顯著圖

另外，還有一些研究采用金字塔結(jié)構(gòu)同時(shí)對(duì)高低層特征進(jìn)行處理，實(shí)現(xiàn)顯著性目標(biāo)邊界和語義的同時(shí)增強(qiáng)。Wang 等人提出的SRM（stagewise refinement model）算法[36]首先利用深度前饋網(wǎng)絡(luò)生成一個(gè)粗略的預(yù)測(cè)圖，然后將一個(gè)金字塔結(jié)構(gòu)應(yīng)用于不同區(qū)域得到更加精確的顯著性圖。Wang 等人提出的PAGE（pyramid attention edge）算法[37]設(shè)計(jì)了顯著性目標(biāo)檢測(cè)的基本金字塔注意結(jié)構(gòu)，能夠挖掘多尺度的深層顯著性信息，同時(shí)利用一個(gè)邊緣檢測(cè)模塊完成邊界提取。Zhao 等人提出的PFA（pyramid feature attention）法[38]將多層卷積特征分成高層特征和低層特征，首先對(duì)高層特征設(shè)計(jì)了一個(gè)上下文信息金字塔模塊（context-aware pyramid feature extraction，CPFE）來提取豐富的上下文語義信息，然后采用信道注意模塊（channel-wise attention，CA）來進(jìn)一步增強(qiáng)語義信息，從而更好地定位顯著性目標(biāo)區(qū)域；對(duì)于低層特征采用空間注意模塊（spacial attention，SA）來細(xì)化空間信息，更好地定位顯著性目標(biāo)的邊界；最后，將SA和CA 的輸出進(jìn)行有效融合來獲得更好的顯著性圖。基于金字塔的邊界/語義增強(qiáng)的顯著性目標(biāo)檢測(cè)算法的顯著圖如圖7（c）～（e）所示，可以看出PFA 算法性能優(yōu)于PAGE 算法和SRM 算法。

1.2 基于全局/局部結(jié)合的顯著性目標(biāo)檢測(cè)

研究發(fā)現(xiàn)全局信息（顏色、紋理、背景/前景等）包含顯著性目標(biāo)的位置信息，而局部信息可以增強(qiáng)顯著性目標(biāo)邊界。一些檢測(cè)方法采用遞歸操作、多分辨率操作和注意力機(jī)制等將全局/局部相結(jié)合以獲得更好的顯著性目標(biāo)檢測(cè)性能。

Fig.7 Saliency maps of methods based on boundaries/semantic enhancement with feature pyramid圖7 基于特征金字塔的邊界/語義增強(qiáng)方法的顯著圖

遞歸操作是指全局和局部操作交替進(jìn)行。Liu等人提出的DHSNet（deep hierarchical saliency network）[39]算法首先利用全局對(duì)比度、對(duì)象性和緊湊性等全局信息得到一個(gè)顯著性圖，然后采用層次遞歸卷積神經(jīng)網(wǎng)絡(luò)（hierarchical recurrent convolutional neural network，HRCNN）利用局部上下文信息對(duì)顯著性圖進(jìn)一步增強(qiáng)。Wang 等人提出的GRL 算法[40]采用遞歸方式利用加權(quán)響應(yīng)圖提取上下文信息定位顯著性目標(biāo)，然后對(duì)局部邊界進(jìn)行細(xì)化以獲得更加清晰的邊界。雖然遞歸方式取得了一定的效果，但是研究發(fā)現(xiàn)遞歸操作非常耗時(shí)耗力。另一種全局/局部相結(jié)合的顯著性目標(biāo)檢測(cè)方法是采用多分辨率特征來提升顯著性目標(biāo)檢測(cè)效果。Luo 等人提出的NLDF（non-local deep features）[41]算法利用卷積塊和反卷積設(shè)計(jì)了一種簡單的4×5 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，通過每一列提取并強(qiáng)化特定分辨率的局部特征，最后將局部和全局信息結(jié)合起來輸出。另外，還有一些研究在遞歸和多分辨率操作的基礎(chǔ)上添加了注意力機(jī)制，對(duì)提取的全局/局部信息進(jìn)一步強(qiáng)化，提升顯著性目標(biāo)檢測(cè)性能，如Zhang 等人提出的漸進(jìn)注意引導(dǎo)遞歸網(wǎng)絡(luò)PAGR（progressive attention guided recurrent）[42]?；谌?局部結(jié)合的顯著性目標(biāo)檢測(cè)方法的顯著圖如圖8（c）～（f）所示。在相同的VGG（visual geometry group）模型下，與DHS 算法相比，NLDF 和PAGR 算法能夠獲得更加清晰的顯著性圖，由于PAGR 算法引入了注意力機(jī)制，其性能最優(yōu)。

1.3 基于輔助網(wǎng)絡(luò)的顯著性目標(biāo)檢測(cè)

Fig.8 Saliency maps of methods based on global/local combination圖8 基于全局/局部結(jié)合方法的顯著圖

基于輔助網(wǎng)絡(luò)的顯著性目標(biāo)檢測(cè)是指采用其他領(lǐng)域已有模型作為輔助網(wǎng)絡(luò)來提升顯著性目標(biāo)檢測(cè)性能。Li 等人提出的MDF（multiscale deep features）算法[43]使用預(yù)先訓(xùn)練的圖像分類模型來產(chǎn)生分級(jí)的顯著性圖；Li 等人提出的C2S-Net（contour to contour salient network）算法[44]將深度輪廓檢測(cè)模型自動(dòng)轉(zhuǎn)換為顯著性目標(biāo)檢測(cè)模型；Zhang 等人提出的CapSal 算法[45]將字幕網(wǎng)絡(luò)（image captioning network，ICN）作為輔助語義任務(wù)來提高復(fù)雜場(chǎng)景中的顯著目標(biāo)檢測(cè)性能；Wu 等人提出的MLSLNet（mutual learning supervised learning network）算法[46]以一種交互方式讓顯著性目標(biāo)檢測(cè)和前景輪廓檢測(cè)交替進(jìn)行來得到顯著性圖。圖9 給出了基于輔助網(wǎng)絡(luò)的顯著性目標(biāo)檢測(cè)算法的顯著圖。

Fig.9 Saliency maps of methods based on auxiliary network圖9 基于輔助網(wǎng)絡(luò)方法的顯著圖

1.4 不同類型顯著性目標(biāo)檢測(cè)方法分析比較

表1 列出了以上三種類型顯著性目標(biāo)檢測(cè)方法的機(jī)制、優(yōu)點(diǎn)、缺點(diǎn)和適用場(chǎng)景。

通過以上分析及表1 可以看出，現(xiàn)有基于深度學(xué)習(xí)的顯著性目標(biāo)檢測(cè)方法邊界模糊的原因和相應(yīng)的解決方法可以歸納為以下幾類：（1）深度模型包含許多下采樣操作，上采樣后的特征難以恢復(fù)原有的空間信息，融合后引起邊界模糊。因此，為了減小下采樣操作引起的多尺度融合損失，引入一些特定操作，如PoolNet 算法中采用功能聚合模塊等。（2）針對(duì)不同因素對(duì)邊界檢測(cè)的影響，通過編碼低層特征距離來檢測(cè)邊界信息，定位顯著性目標(biāo)輪廓，如ELD 算法和KSR 算法；或者是設(shè)計(jì)新的損失函數(shù)，通過反向傳播調(diào)整模型參數(shù)，如AFNet算法和BASNet算法。（3）基礎(chǔ)模型簡易導(dǎo)致檢測(cè)的邊界模糊，可以通過多尺度操作增強(qiáng)原有的特征效果，如DSS 算法、SRM 算法和PAGE 算法等，或添加注意力機(jī)制來提取更有效的低層特征，如PFA 算法等。

Table 1 Analysis and comparison of different types of salient object detection methods表1 不同類型顯著性目標(biāo)檢測(cè)方法分析比較

另外，通過研究分析發(fā)現(xiàn)，基于深度學(xué)習(xí)的顯著性目標(biāo)檢測(cè)方法中常常引入注意力機(jī)制，大致可以分為三種：（1）時(shí)空域注意力，比較適合同時(shí)具有時(shí)序及空域特征的場(chǎng)景，通過遞歸神經(jīng)網(wǎng)絡(luò)（recurrent neural network，RNN）設(shè)計(jì)注意力機(jī)制，如PAGR 算法；（2）軟注意力，是一種確定性的注意力，可以直接通過網(wǎng)絡(luò)生成，它也是可微的，可以通過神經(jīng)網(wǎng)絡(luò)算出梯度，并且通過前向傳播和后向反饋來學(xué)習(xí)得到注意力的權(quán)重，如PFA 算法和RAS 算法；（3）硬注意力，從輸入信息中選擇重要的特征，如PiCANet 算法每個(gè)像素生成注意力圖，這種方式更高效和直接。

2 常用數(shù)據(jù)集及評(píng)估準(zhǔn)則

介紹基于深度學(xué)習(xí)的顯著性目標(biāo)檢測(cè)常用數(shù)據(jù)集以及評(píng)估準(zhǔn)則。

2.1 常用數(shù)據(jù)集

為了滿足不同的顯著性目標(biāo)檢測(cè)研究需求，多個(gè)顯著性目標(biāo)檢測(cè)數(shù)據(jù)集被提出，如MSRA數(shù)據(jù)集[47]、ASD 數(shù)據(jù)集[48]、SOD 數(shù)據(jù)集[49]、MSRA10K 數(shù)據(jù)集[10]、PASCAL-S 數(shù)據(jù)集[50]、DUTS 數(shù)據(jù)集[51]、SED 數(shù)據(jù)集[52]、ECSSD 數(shù)據(jù)集[53]、DUTO-OMRON 數(shù)據(jù)集[11]和HKU-IS數(shù)據(jù)集[43]。下面對(duì)基于深度學(xué)習(xí)的顯著性目標(biāo)檢測(cè)中常用的MSRA10K 數(shù)據(jù)集、HKU-IS 數(shù)據(jù)集、DUTS數(shù)據(jù)集、SOD 數(shù)據(jù)集、ECSSD 數(shù)據(jù)集、DUTO-OMRON數(shù)據(jù)集和PASCAL-S 數(shù)據(jù)集分別進(jìn)行介紹。

MSRA10K 數(shù)據(jù)集：也稱為THUS10K，2007 年由西安交通大學(xué)與微軟亞洲研究院的Liu 等人提出，只提供了邊界框級(jí)別的顯著性真值標(biāo)定，具有大規(guī)模和精確的注釋，常用來訓(xùn)練顯著性目標(biāo)檢測(cè)模型。

HKU-IS 數(shù)據(jù)集：包含4 447 個(gè)圖像，由香港大學(xué)的Li 等人在2015 年建立，該數(shù)據(jù)集中的圖像包含多個(gè)斷開連接的顯著性目標(biāo)，多目標(biāo)的邊界重合和色彩對(duì)比度較低。

DUTS 數(shù)據(jù)集：具有10 553 個(gè)訓(xùn)練圖像和5 019個(gè)測(cè)試圖像。所有訓(xùn)練圖像來自ImageNet DET[54]訓(xùn)練集，而測(cè)試圖像來自ImageNet DET 測(cè)試集和SUN[55]數(shù)據(jù)集。訓(xùn)練和測(cè)試集都包含非常重要的場(chǎng)景，用于顯著性目標(biāo)檢測(cè)。

SOD 數(shù)據(jù)集：包含300 張圖像，來自于伯克利分割數(shù)據(jù)集，每張圖像具有像素級(jí)注釋。大部分圖像包含多個(gè)顯著性目標(biāo)，并且目標(biāo)與背景的顏色對(duì)比度較低。

ECSSD 數(shù)據(jù)集：包含1 000 張圖像，2013 年由香港中文大學(xué)的Yan 等人構(gòu)建。ECSSD 數(shù)據(jù)集中的圖像具有復(fù)雜的結(jié)構(gòu)和背景。

DUTO-OMRON 數(shù)據(jù)集：包含5 168 個(gè)高質(zhì)量圖像，2013 年由大連理工大學(xué)的Yang 等人建立。該數(shù)據(jù)集中的圖像具有多個(gè)顯著性目標(biāo)，背景相對(duì)復(fù)雜。

PASCAL-S 數(shù)據(jù)集：2014 年由喬治亞理工學(xué)院的Li 等人建立，包括8 個(gè)類別。采用不同的顯著性標(biāo)記對(duì)來自PASCAL VOC[56]的850 張圖像修復(fù)后構(gòu)成。PASCAL-S 數(shù)據(jù)集用于評(píng)估具有復(fù)雜背景、多個(gè)目標(biāo)場(chǎng)景的模型性能。

2.2 常用評(píng)估準(zhǔn)則

本節(jié)介紹基于深度學(xué)習(xí)的顯著性目標(biāo)檢測(cè)中常用的評(píng)價(jià)準(zhǔn)則。

F-度量（Fβ）[48]。對(duì)精度和召回率進(jìn)行總體評(píng)估，通過加權(quán)計(jì)算可以得到Fβ，其計(jì)算公式為：

一般β2=0.3，F(xiàn)β值越大表明模型性能越好。

加權(quán)F-度量加權(quán)F-度量是F-度量的推廣，通過交替計(jì)算精度和召回率得到。加權(quán)F-度量為了解決鄰域信息的不同，為不同位置的不同誤差分配了不同的權(quán)重，其計(jì)算公式如下：

P-R 曲線。以Precision和Recall作為縱-橫軸坐標(biāo)的二維曲線，即查準(zhǔn)率-查全率曲線，選取不同閾值時(shí)對(duì)應(yīng)的精度和召回率繪制。P-R 曲線圍起來的面積是AP（average precision）值，AP值越高，模型性能越好。

平均絕對(duì)誤差（MAE）[58]。MAE計(jì)算公式如下：

其中，W和H分別表示圖像的寬和高。P(x,y)表示顯著性概率結(jié)果，Y(x,y)表示真值。MAE值越小表示模型越好。

3 基于深度學(xué)習(xí)的顯著性目標(biāo)檢測(cè)方法性能比較

3.1 定量比較

本節(jié)對(duì)三種類型基于深度學(xué)習(xí)的顯著性目標(biāo)檢測(cè)的不同算法分別進(jìn)行了定量比較，在數(shù)據(jù)集ECSSD、DUT-OMRON、HKU-IS 和DUTS-TE 上進(jìn)行了實(shí)驗(yàn)，采用F-度量（Fβ）和平均絕對(duì)誤差（MAE）作為評(píng)估準(zhǔn)則，結(jié)果見表2、表3 和表4。

從以上3 個(gè)表格可以看出：（1）基于VGG16 結(jié)構(gòu)，各模型性能由高到低依次為AFNet、MLSLNet、PFA 和PAGE，其中AFNet 和MLSLNet 側(cè)重于邊界信息，而PFA 和PAGE 側(cè)重于多尺度信息。由于PFA 利用了低層特征的空間信息使得其性能優(yōu)于PAGE，而AFNet著重對(duì)顯著性目標(biāo)的邊界（特別是凸起的窄條紋）進(jìn)行提取和增強(qiáng)，其性能在四種方法中達(dá)到了最優(yōu)。（2）基于ResNet 結(jié)構(gòu)，各模型性能由高到低依次為PoolNet、CPD 和BASNet。PoolNet 取得最佳性能主要得益于其在池化操作方面做出的改進(jìn)，以及采用功能聚合模塊實(shí)現(xiàn)不同尺度特征的無縫融合。

Table 2 Quantitative comparison of methods based on boundaries/semantic enhancement表2 基于邊界/語義增強(qiáng)方法的定量比較

Table 3 Quantitative comparison of methods based on global/local combination表3 基于全局/局部結(jié)合方法的定量比較

Table 4 Quantitative comparison of methods based on auxiliary networks表4 基于輔助網(wǎng)絡(luò)方法的定量比較

綜上所述，PoolNet 模型取得了優(yōu)于其他模型的顯著性目標(biāo)檢測(cè)性能。另外，也反映了基于ResNet結(jié)構(gòu)的模型優(yōu)于基于VGG16 結(jié)構(gòu)的模型。但是，由于VGG結(jié)構(gòu)相對(duì)簡單，仍然具有一定的研究及應(yīng)用價(jià)值。

3.2 P-R 曲線分析

圖10 到圖14 給出了基于深度學(xué)習(xí)的顯著性目標(biāo)檢測(cè)算法在5 個(gè)數(shù)據(jù)集DUT-OMRON、DUTS、ECSSD、HKU-IS 和PASCAL-S 上的P-R 曲線。

Fig.10 P-R curves on DUT-OMRON dataset圖10 DUT-OMRON 數(shù)據(jù)集上的P-R 曲線

Fig.11 P-R curves on DUTS dataset圖11 DUTS 數(shù)據(jù)集上的P-R 曲線

可以看出PoolNet 算法在5 個(gè)數(shù)據(jù)集上均取得了最佳性能，主要?dú)w因于其在池化方面做出的改進(jìn)及采用特征聚合模塊實(shí)現(xiàn)多尺度特征的無縫融合。

3.3 視覺比較

Fig.13 P-R curves on HKU-IS dataset圖13 HKU-IS 數(shù)據(jù)集上的P-R 曲線

Fig.14 P-R curves on PASCAL-S dataset圖14 PASCAL-S 數(shù)據(jù)集上的P-R 曲線

Fig.15 Visual comparison of different methods圖15 不同方法的視覺比較

圖15 給出了基于深度學(xué)習(xí)的不同顯著性目標(biāo)檢測(cè)算法的視覺比較，從中可以看出：（1）基于邊界/語義增強(qiáng)的顯著性目標(biāo)檢測(cè)算法中，性能由高到低的算法依次為PoolNet、CPD 和BASNet。其中，BASNet算法專注于邊界信息，能夠檢測(cè)出清晰的顯著性目標(biāo)邊界，在簡單的ECSSD 數(shù)據(jù)集和PASCAL-S 數(shù)據(jù)集中表現(xiàn)良好。但是，在相對(duì)復(fù)雜的DUT-OMRON等數(shù)據(jù)集中表現(xiàn)較差，這是因?yàn)槿狈ωS富的高層語義信息。CPD 算法專注于提取高層特征包含的語義信息，因此在DUT-OMRON 等數(shù)據(jù)集中的表現(xiàn)優(yōu)于BASNet算法。PoolNet算法性能最佳，是因?yàn)樵O(shè)計(jì)了池化金字塔從高層特征中提取了豐富的語義信息，同時(shí)設(shè)計(jì)了功能聚合模塊實(shí)現(xiàn)了多尺度特征的無縫融合。（2）基于全局/局部結(jié)合的顯著性目標(biāo)檢測(cè)的算法中，PAGR 算法取得了最佳性能，它在遞歸和多分辨率操作的基礎(chǔ)上添加了注意力機(jī)制，使產(chǎn)生的特征更加有效。（3）在基于輔助網(wǎng)絡(luò)的顯著性目標(biāo)檢測(cè)算法中，MLSLNet 性能較好，其遷移的前景輪廓檢測(cè)是有效的。（4）本文所提顯著性目標(biāo)檢測(cè)的算法中，PoolNet 算法取得了最好的性能，得益于算法中的池化金字塔和功能聚合模塊，獲取了豐富的語義信息，同時(shí)實(shí)現(xiàn)了多尺度特征的無縫融合。

4 基于深度學(xué)習(xí)的顯著性目標(biāo)檢測(cè)算法的不足與未來展望

近年，基于深度學(xué)習(xí)的顯著性目標(biāo)檢測(cè)方法從不同方面進(jìn)行了探索，如特征金字塔、池操作、注意力機(jī)制等，并取得了不錯(cuò)的性能。但是，現(xiàn)有方法也仍存在如下不足：

（1）現(xiàn)有顯著性目標(biāo)檢測(cè)算法主要針對(duì)背景簡單的圖像，而實(shí)際圖像一般均具有復(fù)雜背景，因此現(xiàn)有方法對(duì)復(fù)雜背景下的顯著性目標(biāo)檢測(cè)還有很大的局限。

（2）對(duì)于實(shí)際應(yīng)用場(chǎng)景，一般要求顯著性目標(biāo)檢測(cè)具有很好的實(shí)時(shí)性，但是現(xiàn)有方法主要是針對(duì)靜止圖像或者是計(jì)算復(fù)雜度比較大，導(dǎo)致實(shí)時(shí)性差。

（3）現(xiàn)有顯著性目標(biāo)檢測(cè)算法對(duì)大目標(biāo)的檢測(cè)效果較好，但是對(duì)實(shí)際應(yīng)用中的小目標(biāo)檢測(cè)性能較差，不能滿足實(shí)際應(yīng)用的需求。

（4）現(xiàn)有顯著性目標(biāo)檢測(cè)方法多采用矩形框定位顯著性目標(biāo)的位置，簡單方便，但是由于顯著性目標(biāo)的大小形狀各異，僅采用矩形框定位具有很大的局限性。

（5）現(xiàn)有顯著性目標(biāo)檢測(cè)方法一般采用完全監(jiān)督學(xué)習(xí)的方式訓(xùn)練模型，計(jì)算量和所需時(shí)間代價(jià)巨大，不滿足實(shí)際應(yīng)用環(huán)境和需求。

因此，為了克服現(xiàn)有方法的不足，未來基于深度學(xué)習(xí)的顯著性目標(biāo)檢測(cè)可以從以下五方面展開研究：

（1）針對(duì)復(fù)雜背景下顯著性目標(biāo)檢測(cè)性能較差的情況，設(shè)計(jì)適應(yīng)復(fù)雜背景（對(duì)背景敏感或者前景背景對(duì)比度低等）的顯著性目標(biāo)檢測(cè)模型，另外建立包含復(fù)雜背景的圖像數(shù)據(jù)集，為新模型的訓(xùn)練與評(píng)估做好準(zhǔn)備。

（2）為了滿足實(shí)際應(yīng)用中對(duì)實(shí)時(shí)性的需求，設(shè)計(jì)低復(fù)雜度、輕量級(jí)的顯著性目標(biāo)檢測(cè)模型是顯著性目標(biāo)檢測(cè)的一個(gè)研究熱點(diǎn)。目前主要有三種方式：第一是直接在網(wǎng)絡(luò)設(shè)計(jì)中對(duì)網(wǎng)絡(luò)輕量級(jí)化，如輕量化網(wǎng)絡(luò)模型SqueezeNet 在模型設(shè)計(jì)時(shí)規(guī)定了三種特有的設(shè)計(jì)原則，同時(shí)將不同的卷積封裝成卷積網(wǎng)絡(luò)模塊；第二是采用深度可分離卷積，對(duì)卷積進(jìn)行分離操作，然后在卷積層對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行歸約，如MobileNet網(wǎng)絡(luò)可以應(yīng)用于移動(dòng)端；第三是對(duì)網(wǎng)絡(luò)直接進(jìn)行壓縮與編碼，對(duì)網(wǎng)絡(luò)進(jìn)行剪裁，然后進(jìn)行權(quán)值量化共享，最后采用霍夫曼編碼降低存儲(chǔ)。

（3）在某些實(shí)際特定場(chǎng)景中目標(biāo)很小，如何對(duì)小目標(biāo)進(jìn)行有效檢測(cè)以滿足實(shí)際應(yīng)用的需求，成為了當(dāng)前急需解決的一個(gè)問題。因此，特定場(chǎng)景下小目標(biāo)檢測(cè)也是未來顯著性目標(biāo)檢測(cè)的一個(gè)研究方向，可以使用分辨率更高的卷積特征圖以及殘差模塊來增強(qiáng)對(duì)小目標(biāo)的檢測(cè)能力。

（4）針對(duì)顯著性目標(biāo)檢測(cè)方法采用矩形框定位顯著性目標(biāo)的局限性，可以采用不同的措施進(jìn)行不同尺度目標(biāo)定位。由于不同位置可能對(duì)應(yīng)著不同尺度或變形的物體，采用能夠?qū)Τ叨然蛘吒惺芤按笮∵M(jìn)行自適應(yīng)的可變形卷積來實(shí)現(xiàn)精確定位。另外，可以采用多點(diǎn)定位法完成顯著性目標(biāo)的位置定位。多點(diǎn)定位是指在顯著性目標(biāo)周圍選取幾個(gè)關(guān)鍵點(diǎn)，比如右上、左下、中心點(diǎn)和偏移量的測(cè)量。多點(diǎn)定位可以靈活地對(duì)顯著性目標(biāo)的輪廓完成定位，省時(shí)省力，不用像矩形框那樣，提前設(shè)計(jì)并預(yù)留多個(gè)矩形框的存儲(chǔ)。

（5）由于人為獲取標(biāo)簽費(fèi)時(shí)費(fèi)力，且不符合一些場(chǎng)景的實(shí)際情況，因此為了克服這些缺陷，采用無監(jiān)督或弱監(jiān)督學(xué)習(xí)進(jìn)行顯著性目標(biāo)檢測(cè)模型的研究和設(shè)計(jì)將是未來的必然發(fā)展方向。

5 結(jié)束語

本文對(duì)基于深度學(xué)習(xí)的顯著性目標(biāo)檢測(cè)方法進(jìn)行了綜述，通過對(duì)國內(nèi)外研究現(xiàn)狀的分析可知，基于深度學(xué)習(xí)的顯著性目標(biāo)檢測(cè)算法得到了廣泛研究，各種不同的方法被提出，但是檢測(cè)性能還需要進(jìn)一步提升，如檢測(cè)精度、速度、復(fù)雜背景、小目標(biāo)、弱監(jiān)督等。因此，能夠準(zhǔn)確、實(shí)時(shí)地對(duì)復(fù)雜背景下的小目標(biāo)進(jìn)行弱監(jiān)督顯著性檢測(cè)是未來基于深度學(xué)習(xí)的顯著性目標(biāo)檢測(cè)不斷追求的目標(biāo)。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放