亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度學(xué)習(xí)的顯著性目標(biāo)檢測(cè)綜述

        2021-02-05 18:10:36史彩娟張衛(wèi)明陳厚儒葛錄錄
        計(jì)算機(jī)與生活 2021年2期
        關(guān)鍵詞:語義深度特征

        史彩娟,張衛(wèi)明,陳厚儒,葛錄錄

        華北理工大學(xué)人工智能學(xué)院,河北唐山 063210

        視覺顯著性是指模仿人類視覺系統(tǒng)快速檢測(cè)出視覺上最獨(dú)特的顯著性區(qū)域,即顯著場(chǎng)景,然后對(duì)該區(qū)域進(jìn)行感知和處理。顯著性目標(biāo)檢測(cè)(salient object detection,SOD)是指檢測(cè)顯著場(chǎng)景中最吸引注意力的物體。近年,顯著性目標(biāo)檢測(cè)得到了廣泛研究和應(yīng)用,如圖像分類[1-2]、語義分割[3-4]、超像素[5]、圖像檢索[6]、視覺跟蹤[7]、內(nèi)容感知圖像編輯[8]和機(jī)器人導(dǎo)航[9]等。

        顯著性目標(biāo)檢測(cè)方法一般可以分為傳統(tǒng)顯著性目標(biāo)檢測(cè)方法和基于深度學(xué)習(xí)的顯著性目標(biāo)檢測(cè)方法。傳統(tǒng)顯著性目標(biāo)檢測(cè)方法主要是利用人類直觀感覺或者啟發(fā)式先驗(yàn),如利用色度比較[10]、背景比較[11]和邊界點(diǎn)先驗(yàn)[12]等,通過人工提取特征來檢測(cè)目標(biāo)。然而,人工提取特征非常耗時(shí)。近年,深度學(xué)習(xí)的發(fā)展極大促進(jìn)了顯著目標(biāo)檢測(cè)研究,基于深度學(xué)習(xí)的顯著性目標(biāo)檢測(cè)方法不斷被提出。不同于傳統(tǒng)方法,基于深度學(xué)習(xí)的顯著性目標(biāo)檢測(cè)方法不需要人工提取特征,而是自動(dòng)學(xué)習(xí)得到多尺度特征;另外,檢測(cè)性能也有了很大提升,如檢測(cè)精度大幅提升,時(shí)效性越來越好,模型輕量級(jí),單一網(wǎng)絡(luò)同時(shí)完成顯著性目標(biāo)的檢測(cè)和邊界定位等。但是,現(xiàn)有的基于深度學(xué)習(xí)的顯著性目標(biāo)檢測(cè)方法也還存在不足,如復(fù)雜背景下的顯著性目標(biāo)檢測(cè)性能有待進(jìn)一步提升,檢測(cè)的實(shí)時(shí)性有待提高,模型復(fù)雜度需要降低等。

        近年,部分學(xué)者對(duì)基于深度學(xué)習(xí)的目標(biāo)檢測(cè)方法進(jìn)行了梳理總結(jié)[13-19],但是對(duì)國內(nèi)外基于深度學(xué)習(xí)的顯著性目標(biāo)檢測(cè)算法的總結(jié)與分析非常有限。因此,本文將對(duì)基于深度學(xué)習(xí)的顯著性目標(biāo)檢測(cè)算法進(jìn)行總結(jié)分析。首先詳細(xì)闡述了基于深度學(xué)習(xí)的顯著性目標(biāo)檢測(cè)的不同方法;其次簡單介紹了常用數(shù)據(jù)集和評(píng)估準(zhǔn)則;接著對(duì)多個(gè)基于深度學(xué)習(xí)的顯著性目標(biāo)檢測(cè)方法進(jìn)行了性能比較;最后分析了現(xiàn)有基于深度學(xué)習(xí)的顯著性目標(biāo)檢測(cè)方法的不足及未來發(fā)展方向。

        1 基于深度學(xué)習(xí)的顯著性目標(biāo)檢測(cè)方法

        隨著深度學(xué)習(xí)的快速發(fā)展,基于深度學(xué)習(xí)的顯著性目標(biāo)檢測(cè)方法被廣泛提出,克服了傳統(tǒng)方法中人工提取特征耗時(shí)或者遷移性較差等問題。圖1 給出了近年來基于深度學(xué)習(xí)的顯著性目標(biāo)檢測(cè)的發(fā)展歷程及主要方法。本文分別從邊界/語義增強(qiáng)、全局/局部結(jié)合和輔助網(wǎng)絡(luò)三個(gè)不同的角度對(duì)現(xiàn)有的基于深度學(xué)習(xí)的顯著性目標(biāo)檢測(cè)方法進(jìn)行介紹。

        1.1 基于邊界/語義增強(qiáng)的顯著性目標(biāo)檢測(cè)

        研究發(fā)現(xiàn),深度網(wǎng)絡(luò)VGG[20](visual geometry group)和ResNet[21](residual neural network)等提取的多層多尺度特征中低層特征包含良好的空間信息,可以定位邊界,而高層特征具有豐富的語義信息,可以定位顯著性目標(biāo)。因此,為了提高顯著性目標(biāo)檢測(cè)的性能,有的研究對(duì)低層特征進(jìn)行操作來增強(qiáng)邊界[22],獲得更加清晰的顯著性目標(biāo)邊界;有的研究銳化高層特征來獲得豐富的語義信息,通過語義增強(qiáng)來更好地定位顯著性目標(biāo)[23];還有一些研究對(duì)邊界和語義同時(shí)進(jìn)行增強(qiáng)[24],以獲得更好的顯著性目標(biāo)檢測(cè)效果。因此,本節(jié)將從邊界增強(qiáng)、語義增強(qiáng),邊界/語義增強(qiáng)三個(gè)角度對(duì)基于深度學(xué)習(xí)的顯著性目標(biāo)檢測(cè)方法進(jìn)行介紹。

        1.1.1 基于邊界增強(qiáng)的顯著性目標(biāo)檢測(cè)方法

        Fig.1 Development of salient object detection based on deep learning圖1 基于深度學(xué)習(xí)的顯著性目標(biāo)檢測(cè)的發(fā)展

        邊界增強(qiáng)是指通過增強(qiáng)深度特征中的低層特征來獲得更多的邊界信息,從而更好地定位顯著目標(biāo)邊界。Tai 等人提出ELD(encoded low-level distance)算法[22]對(duì)顏色及其分布和濾波器響應(yīng)位置等低層特征的特征距離進(jìn)行編碼,生成低階距離圖以獲得邊界檢測(cè)效果;Wang 等人提出的KSR(kernelized subspace ranking)算法[25]構(gòu)建了一種基于核化的子空間排序模型來測(cè)量低層特征的兩兩距離,根據(jù)模型給出的建議分?jǐn)?shù)生成低層特征圖。以上兩種方法通過編碼低層特征距離來檢測(cè)邊界信息,定位顯著性目標(biāo)輪廓,但是輪廓邊界有時(shí)會(huì)模糊,導(dǎo)致部分邊界細(xì)節(jié)丟失,仿真結(jié)果如圖2(c)、(d)所示。為了進(jìn)一步提升顯著性目標(biāo)邊界檢測(cè)效果,一些研究通過引入相關(guān)操作來增強(qiáng)低層特征具有邊界信息。Li 等人提出的DCL(deep contrast learning)算法[26]采用分段空間池流模擬不連續(xù)的顯著性目標(biāo)邊界,解決顯著性目標(biāo)邊界模糊的問題。Hou 等人提出的DSS(deeply supervised salient)算法[27]是在HED(holistically-nested edge detection)體系結(jié)構(gòu)中引入了具有跳躍結(jié)構(gòu)的短連接,使每一層具有更加豐富的多尺度特征映射,從而獲得顯著性目標(biāo)的清晰邊界。DCL 和DSS 方法的仿真顯著圖如圖2(e)、(f)所示。從仿真結(jié)果可以看出,相較于直接編碼低層特征距離的算法,進(jìn)一步引入相關(guān)操作的方法獲得的顯著性目標(biāo)邊界更加清晰。但是,這些操作的引入容易引起顯著性目標(biāo)檢測(cè)不準(zhǔn)確,如圖2(e)、(f)第二行出現(xiàn)了不準(zhǔn)確的顯著性目標(biāo)(山)。

        Fig.2 Saliency maps of methods based on boundary enhancement圖2 基于邊界增強(qiáng)方法的顯著圖

        另外,還有一些研究直接對(duì)顯著性目標(biāo)的邊界進(jìn)行檢測(cè)。Hou 等人提出TBOS(three birds one stone)算法[28],采用了一種通用架構(gòu)對(duì)顯著性目標(biāo)邊界進(jìn)行檢測(cè),同時(shí)能夠完成骨架提取和目標(biāo)分割。Feng 等人提出的AFNet(attentive feedback network)算法[29]采用BEL(boundary-enhanced loss)邊界增強(qiáng)損失來獲得更精確的邊界,進(jìn)而實(shí)現(xiàn)對(duì)顯著性目標(biāo),特別是凸起窄條紋的分割。Qin等人提出的BASNet(boundaryaware salient network)算法[30]將混合損耗用于邊界感知的顯著性目標(biāo)檢測(cè),能夠準(zhǔn)確地預(yù)測(cè)出清晰的邊界結(jié)構(gòu),以及有效地分割出顯著性目標(biāo)區(qū)域。以上三種直接提取顯著性目標(biāo)邊界的檢測(cè)算法的顯著圖如圖3(c)、(d)所示。從圖3 可以看出這類方法能夠提取清晰的顯著性目標(biāo)邊界,邊界細(xì)節(jié)相對(duì)較好,顯著性目標(biāo)的檢測(cè)準(zhǔn)確度較高(無關(guān)的顯著性目標(biāo)較少)。

        Fig.3 Saliency maps of methods based on direct extraction of boundaries圖3 直接提取邊界方法的顯著圖

        1.1.2 基于語義增強(qiáng)的顯著性目標(biāo)檢測(cè)方法

        語義增強(qiáng)是指從高層特征中獲得豐富的語義信息,從而更好地定位顯著性目標(biāo),使顯著性目標(biāo)更加突出。Dai等人提出的R-FCN(region-based fully convolutional networks)算法[23]通過全卷積網(wǎng)絡(luò)獲得高層語義特征以獲得具有通用性的顯著性圖。Wu 等人提出CPD(cascaded partial decoder)算法[31],直接利用生成的顯著性圖細(xì)化骨干網(wǎng)的特征來提高高層特征的表示能力;另外,利用多尺度特征進(jìn)一步細(xì)化顯著性圖并糾正映射錯(cuò)誤。Liu等人提出的PoolNet算法[32]充分利用卷積神經(jīng)網(wǎng)絡(luò)的池操作,將金字塔池塊放在U 型結(jié)構(gòu)的最頂層來獲取豐富的語義信息。以上三種基于語義增強(qiáng)的顯著性目標(biāo)檢測(cè)方法的顯著圖如圖4(c)~(e)所示。這類方法可以準(zhǔn)確定位顯著性目標(biāo)的位置,但是由于僅針對(duì)高層特征所包含的語義進(jìn)行增強(qiáng),有時(shí)會(huì)造成顯著性目標(biāo)邊界模糊或者多個(gè)顯著性目標(biāo)重合。

        Fig.4 Saliency maps of methods based on semantic enhancement圖4 基于語義增強(qiáng)方法的顯著圖

        為了獲得有效的顯著性目標(biāo),一些研究通過引入注意力機(jī)制進(jìn)一步增強(qiáng)語義信息。Liu 等人提出的PiCANet(pixel-wise contextual attention network)算法[33]首先為每個(gè)像素生成注意力圖,然后有選擇地整合上下文信息來構(gòu)建有效特征,最后與U-Net 架構(gòu)結(jié)合生成顯著性圖。Chen 等人提出的RAS(reverse attention salient)算法[34]根據(jù)逆向注意提出了一個(gè)自上而下的邊訓(xùn)練邊輸出的剩余學(xué)習(xí)方式,實(shí)現(xiàn)對(duì)最深層語義信息的增強(qiáng)。基于注意力機(jī)制的語義增強(qiáng)顯著性目標(biāo)檢測(cè)算法的顯著圖如圖5(c)、(d)。引入注意力機(jī)制來有效提取語義信息,準(zhǔn)確定位顯著性目標(biāo)的位置。

        Fig.5 Saliency maps of methods based on semantic enhancement with attention mechanism圖5 基于注意力機(jī)制的語義增強(qiáng)方法的顯著圖

        1.1.3 基于邊界/語義增強(qiáng)的顯著性目標(biāo)檢測(cè)方法

        通過前面兩類方法的分析可以看出,只進(jìn)行邊界增強(qiáng)容易造成顯著性目標(biāo)模糊,而只進(jìn)行語義增強(qiáng)則會(huì)引起顯著性目標(biāo)的邊界模糊。因此,為了克服二者的缺點(diǎn),一些研究對(duì)邊界和語義同時(shí)進(jìn)行增強(qiáng),同時(shí)獲得良好的顯著性目標(biāo)信息以及輪廓信息,從而提升顯著性目標(biāo)檢測(cè)性能。

        Zhang 等人提出的Amulet 算法[24]將多層特征映射集到多個(gè)分辨率,獲得同時(shí)包含語義信息和邊緣細(xì)節(jié)的顯著性圖。Zhang 等人提出的BDMPM(bidirectional message passing model)算法[35]設(shè)計(jì)了一種門函數(shù)來控制消息的傳遞速率和雙向傳遞。雙向的消息傳遞結(jié)構(gòu)可以同時(shí)對(duì)語義信息和空間細(xì)節(jié)進(jìn)行編碼實(shí)現(xiàn)顯著性目標(biāo)檢測(cè)。以上兩種基于邊界/語義增強(qiáng)的顯著性目標(biāo)檢測(cè)算法的顯著圖如圖6(c)、(d)。這些方法既可以準(zhǔn)確定位顯著性目標(biāo)的位置,又可以獲得清晰的顯著性目標(biāo)邊界。主要是因?yàn)橥ㄟ^語義增強(qiáng)可以減小無效目標(biāo)的干擾,更好地定位顯著性目標(biāo)的位置;通過邊界增強(qiáng)可以獲得清晰的顯著性目標(biāo)邊界。

        Fig.6 Saliency maps of methods based on boundaries/semantic enhancement圖6 基于邊界/語義增強(qiáng)方法的顯著圖

        另外,還有一些研究采用金字塔結(jié)構(gòu)同時(shí)對(duì)高低層特征進(jìn)行處理,實(shí)現(xiàn)顯著性目標(biāo)邊界和語義的同時(shí)增強(qiáng)。Wang 等人提出的SRM(stagewise refinement model)算法[36]首先利用深度前饋網(wǎng)絡(luò)生成一個(gè)粗略的預(yù)測(cè)圖,然后將一個(gè)金字塔結(jié)構(gòu)應(yīng)用于不同區(qū)域得到更加精確的顯著性圖。Wang 等人提出的PAGE(pyramid attention edge)算法[37]設(shè)計(jì)了顯著性目標(biāo)檢測(cè)的基本金字塔注意結(jié)構(gòu),能夠挖掘多尺度的深層顯著性信息,同時(shí)利用一個(gè)邊緣檢測(cè)模塊完成邊界提取。Zhao 等人提出的PFA(pyramid feature attention)法[38]將多層卷積特征分成高層特征和低層特征,首先對(duì)高層特征設(shè)計(jì)了一個(gè)上下文信息金字塔模塊(context-aware pyramid feature extraction,CPFE)來提取豐富的上下文語義信息,然后采用信道注意模塊(channel-wise attention,CA)來進(jìn)一步增強(qiáng)語義信息,從而更好地定位顯著性目標(biāo)區(qū)域;對(duì)于低層特征采用空間注意模塊(spacial attention,SA)來細(xì)化空間信息,更好地定位顯著性目標(biāo)的邊界;最后,將SA和CA 的輸出進(jìn)行有效融合來獲得更好的顯著性圖。基于金字塔的邊界/語義增強(qiáng)的顯著性目標(biāo)檢測(cè)算法的顯著圖如圖7(c)~(e)所示,可以看出PFA 算法性能優(yōu)于PAGE 算法和SRM 算法。

        1.2 基于全局/局部結(jié)合的顯著性目標(biāo)檢測(cè)

        研究發(fā)現(xiàn)全局信息(顏色、紋理、背景/前景等)包含顯著性目標(biāo)的位置信息,而局部信息可以增強(qiáng)顯著性目標(biāo)邊界。一些檢測(cè)方法采用遞歸操作、多分辨率操作和注意力機(jī)制等將全局/局部相結(jié)合以獲得更好的顯著性目標(biāo)檢測(cè)性能。

        Fig.7 Saliency maps of methods based on boundaries/semantic enhancement with feature pyramid圖7 基于特征金字塔的邊界/語義增強(qiáng)方法的顯著圖

        遞歸操作是指全局和局部操作交替進(jìn)行。Liu等人提出的DHSNet(deep hierarchical saliency network)[39]算法首先利用全局對(duì)比度、對(duì)象性和緊湊性等全局信息得到一個(gè)顯著性圖,然后采用層次遞歸卷積神經(jīng)網(wǎng)絡(luò)(hierarchical recurrent convolutional neural network,HRCNN)利用局部上下文信息對(duì)顯著性圖進(jìn)一步增強(qiáng)。Wang 等人提出的GRL 算法[40]采用遞歸方式利用加權(quán)響應(yīng)圖提取上下文信息定位顯著性目標(biāo),然后對(duì)局部邊界進(jìn)行細(xì)化以獲得更加清晰的邊界。雖然遞歸方式取得了一定的效果,但是研究發(fā)現(xiàn)遞歸操作非常耗時(shí)耗力。另一種全局/局部相結(jié)合的顯著性目標(biāo)檢測(cè)方法是采用多分辨率特征來提升顯著性目標(biāo)檢測(cè)效果。Luo 等人提出的NLDF(non-local deep features)[41]算法利用卷積塊和反卷積設(shè)計(jì)了一種簡單的4×5 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),通過每一列提取并強(qiáng)化特定分辨率的局部特征,最后將局部和全局信息結(jié)合起來輸出。另外,還有一些研究在遞歸和多分辨率操作的基礎(chǔ)上添加了注意力機(jī)制,對(duì)提取的全局/局部信息進(jìn)一步強(qiáng)化,提升顯著性目標(biāo)檢測(cè)性能,如Zhang 等人提出的漸進(jìn)注意引導(dǎo)遞歸網(wǎng)絡(luò)PAGR(progressive attention guided recurrent)[42]?;谌?局部結(jié)合的顯著性目標(biāo)檢測(cè)方法的顯著圖如圖8(c)~(f)所示。在相同的VGG(visual geometry group)模型下,與DHS 算法相比,NLDF 和PAGR 算法能夠獲得更加清晰的顯著性圖,由于PAGR 算法引入了注意力機(jī)制,其性能最優(yōu)。

        1.3 基于輔助網(wǎng)絡(luò)的顯著性目標(biāo)檢測(cè)

        Fig.8 Saliency maps of methods based on global/local combination圖8 基于全局/局部結(jié)合方法的顯著圖

        基于輔助網(wǎng)絡(luò)的顯著性目標(biāo)檢測(cè)是指采用其他領(lǐng)域已有模型作為輔助網(wǎng)絡(luò)來提升顯著性目標(biāo)檢測(cè)性能。Li 等人提出的MDF(multiscale deep features)算法[43]使用預(yù)先訓(xùn)練的圖像分類模型來產(chǎn)生分級(jí)的顯著性圖;Li 等人提出的C2S-Net(contour to contour salient network)算法[44]將深度輪廓檢測(cè)模型自動(dòng)轉(zhuǎn)換為顯著性目標(biāo)檢測(cè)模型;Zhang 等人提出的CapSal 算法[45]將字幕網(wǎng)絡(luò)(image captioning network,ICN)作為輔助語義任務(wù)來提高復(fù)雜場(chǎng)景中的顯著目標(biāo)檢測(cè)性能;Wu 等人提出的MLSLNet(mutual learning supervised learning network)算法[46]以一種交互方式讓顯著性目標(biāo)檢測(cè)和前景輪廓檢測(cè)交替進(jìn)行來得到顯著性圖。圖9 給出了基于輔助網(wǎng)絡(luò)的顯著性目標(biāo)檢測(cè)算法的顯著圖。

        Fig.9 Saliency maps of methods based on auxiliary network圖9 基于輔助網(wǎng)絡(luò)方法的顯著圖

        1.4 不同類型顯著性目標(biāo)檢測(cè)方法分析比較

        表1 列出了以上三種類型顯著性目標(biāo)檢測(cè)方法的機(jī)制、優(yōu)點(diǎn)、缺點(diǎn)和適用場(chǎng)景。

        通過以上分析及表1 可以看出,現(xiàn)有基于深度學(xué)習(xí)的顯著性目標(biāo)檢測(cè)方法邊界模糊的原因和相應(yīng)的解決方法可以歸納為以下幾類:(1)深度模型包含許多下采樣操作,上采樣后的特征難以恢復(fù)原有的空間信息,融合后引起邊界模糊。因此,為了減小下采樣操作引起的多尺度融合損失,引入一些特定操作,如PoolNet 算法中采用功能聚合模塊等。(2)針對(duì)不同因素對(duì)邊界檢測(cè)的影響,通過編碼低層特征距離來檢測(cè)邊界信息,定位顯著性目標(biāo)輪廓,如ELD 算法和KSR 算法;或者是設(shè)計(jì)新的損失函數(shù),通過反向傳播調(diào)整模型參數(shù),如AFNet算法和BASNet算法。(3)基礎(chǔ)模型簡易導(dǎo)致檢測(cè)的邊界模糊,可以通過多尺度操作增強(qiáng)原有的特征效果,如DSS 算法、SRM 算法和PAGE 算法等,或添加注意力機(jī)制來提取更有效的低層特征,如PFA 算法等。

        Table 1 Analysis and comparison of different types of salient object detection methods表1 不同類型顯著性目標(biāo)檢測(cè)方法分析比較

        另外,通過研究分析發(fā)現(xiàn),基于深度學(xué)習(xí)的顯著性目標(biāo)檢測(cè)方法中常常引入注意力機(jī)制,大致可以分為三種:(1)時(shí)空域注意力,比較適合同時(shí)具有時(shí)序及空域特征的場(chǎng)景,通過遞歸神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)設(shè)計(jì)注意力機(jī)制,如PAGR 算法;(2)軟注意力,是一種確定性的注意力,可以直接通過網(wǎng)絡(luò)生成,它也是可微的,可以通過神經(jīng)網(wǎng)絡(luò)算出梯度,并且通過前向傳播和后向反饋來學(xué)習(xí)得到注意力的權(quán)重,如PFA 算法和RAS 算法;(3)硬注意力,從輸入信息中選擇重要的特征,如PiCANet 算法每個(gè)像素生成注意力圖,這種方式更高效和直接。

        2 常用數(shù)據(jù)集及評(píng)估準(zhǔn)則

        介紹基于深度學(xué)習(xí)的顯著性目標(biāo)檢測(cè)常用數(shù)據(jù)集以及評(píng)估準(zhǔn)則。

        2.1 常用數(shù)據(jù)集

        為了滿足不同的顯著性目標(biāo)檢測(cè)研究需求,多個(gè)顯著性目標(biāo)檢測(cè)數(shù)據(jù)集被提出,如MSRA數(shù)據(jù)集[47]、ASD 數(shù)據(jù)集[48]、SOD 數(shù)據(jù)集[49]、MSRA10K 數(shù)據(jù)集[10]、PASCAL-S 數(shù)據(jù)集[50]、DUTS 數(shù)據(jù)集[51]、SED 數(shù)據(jù)集[52]、ECSSD 數(shù)據(jù)集[53]、DUTO-OMRON 數(shù)據(jù)集[11]和HKU-IS數(shù)據(jù)集[43]。下面對(duì)基于深度學(xué)習(xí)的顯著性目標(biāo)檢測(cè)中常用的MSRA10K 數(shù)據(jù)集、HKU-IS 數(shù)據(jù)集、DUTS數(shù)據(jù)集、SOD 數(shù)據(jù)集、ECSSD 數(shù)據(jù)集、DUTO-OMRON數(shù)據(jù)集和PASCAL-S 數(shù)據(jù)集分別進(jìn)行介紹。

        MSRA10K 數(shù)據(jù)集:也稱為THUS10K,2007 年由西安交通大學(xué)與微軟亞洲研究院的Liu 等人提出,只提供了邊界框級(jí)別的顯著性真值標(biāo)定,具有大規(guī)模和精確的注釋,常用來訓(xùn)練顯著性目標(biāo)檢測(cè)模型。

        HKU-IS 數(shù)據(jù)集:包含4 447 個(gè)圖像,由香港大學(xué)的Li 等人在2015 年建立,該數(shù)據(jù)集中的圖像包含多個(gè)斷開連接的顯著性目標(biāo),多目標(biāo)的邊界重合和色彩對(duì)比度較低。

        DUTS 數(shù)據(jù)集:具有10 553 個(gè)訓(xùn)練圖像和5 019個(gè)測(cè)試圖像。所有訓(xùn)練圖像來自ImageNet DET[54]訓(xùn)練集,而測(cè)試圖像來自ImageNet DET 測(cè)試集和SUN[55]數(shù)據(jù)集。訓(xùn)練和測(cè)試集都包含非常重要的場(chǎng)景,用于顯著性目標(biāo)檢測(cè)。

        SOD 數(shù)據(jù)集:包含300 張圖像,來自于伯克利分割數(shù)據(jù)集,每張圖像具有像素級(jí)注釋。大部分圖像包含多個(gè)顯著性目標(biāo),并且目標(biāo)與背景的顏色對(duì)比度較低。

        ECSSD 數(shù)據(jù)集:包含1 000 張圖像,2013 年由香港中文大學(xué)的Yan 等人構(gòu)建。ECSSD 數(shù)據(jù)集中的圖像具有復(fù)雜的結(jié)構(gòu)和背景。

        DUTO-OMRON 數(shù)據(jù)集:包含5 168 個(gè)高質(zhì)量圖像,2013 年由大連理工大學(xué)的Yang 等人建立。該數(shù)據(jù)集中的圖像具有多個(gè)顯著性目標(biāo),背景相對(duì)復(fù)雜。

        PASCAL-S 數(shù)據(jù)集:2014 年由喬治亞理工學(xué)院的Li 等人建立,包括8 個(gè)類別。采用不同的顯著性標(biāo)記對(duì)來自PASCAL VOC[56]的850 張圖像修復(fù)后構(gòu)成。PASCAL-S 數(shù)據(jù)集用于評(píng)估具有復(fù)雜背景、多個(gè)目標(biāo)場(chǎng)景的模型性能。

        2.2 常用評(píng)估準(zhǔn)則

        本節(jié)介紹基于深度學(xué)習(xí)的顯著性目標(biāo)檢測(cè)中常用的評(píng)價(jià)準(zhǔn)則。

        F-度量(Fβ)[48]。對(duì)精度和召回率進(jìn)行總體評(píng)估,通過加權(quán)計(jì)算可以得到Fβ,其計(jì)算公式為:

        一般β2=0.3,F(xiàn)β值越大表明模型性能越好。

        加權(quán)F-度量加權(quán)F-度量是F-度量的推廣,通過交替計(jì)算精度和召回率得到。加權(quán)F-度量為了解決鄰域信息的不同,為不同位置的不同誤差分配了不同的權(quán)重,其計(jì)算公式如下:

        P-R 曲線。以Precision和Recall作為縱-橫軸坐標(biāo)的二維曲線,即查準(zhǔn)率-查全率曲線,選取不同閾值時(shí)對(duì)應(yīng)的精度和召回率繪制。P-R 曲線圍起來的面積是AP(average precision)值,AP值越高,模型性能越好。

        平均絕對(duì)誤差(MAE)[58]。MAE計(jì)算公式如下:

        其中,W和H分別表示圖像的寬和高。P(x,y)表示顯著性概率結(jié)果,Y(x,y)表示真值。MAE值越小表示模型越好。

        3 基于深度學(xué)習(xí)的顯著性目標(biāo)檢測(cè)方法性能比較

        3.1 定量比較

        本節(jié)對(duì)三種類型基于深度學(xué)習(xí)的顯著性目標(biāo)檢測(cè)的不同算法分別進(jìn)行了定量比較,在數(shù)據(jù)集ECSSD、DUT-OMRON、HKU-IS 和DUTS-TE 上進(jìn)行了實(shí)驗(yàn),采用F-度量(Fβ)和平均絕對(duì)誤差(MAE)作為評(píng)估準(zhǔn)則,結(jié)果見表2、表3 和表4。

        從以上3 個(gè)表格可以看出:(1)基于VGG16 結(jié)構(gòu),各模型性能由高到低依次為AFNet、MLSLNet、PFA 和PAGE,其中AFNet 和MLSLNet 側(cè)重于邊界信息,而PFA 和PAGE 側(cè)重于多尺度信息。由于PFA 利用了低層特征的空間信息使得其性能優(yōu)于PAGE,而AFNet著重對(duì)顯著性目標(biāo)的邊界(特別是凸起的窄條紋)進(jìn)行提取和增強(qiáng),其性能在四種方法中達(dá)到了最優(yōu)。(2)基于ResNet 結(jié)構(gòu),各模型性能由高到低依次為PoolNet、CPD 和BASNet。PoolNet 取得最佳性能主要得益于其在池化操作方面做出的改進(jìn),以及采用功能聚合模塊實(shí)現(xiàn)不同尺度特征的無縫融合。

        Table 2 Quantitative comparison of methods based on boundaries/semantic enhancement表2 基于邊界/語義增強(qiáng)方法的定量比較

        Table 3 Quantitative comparison of methods based on global/local combination表3 基于全局/局部結(jié)合方法的定量比較

        Table 4 Quantitative comparison of methods based on auxiliary networks表4 基于輔助網(wǎng)絡(luò)方法的定量比較

        綜上所述,PoolNet 模型取得了優(yōu)于其他模型的顯著性目標(biāo)檢測(cè)性能。另外,也反映了基于ResNet結(jié)構(gòu)的模型優(yōu)于基于VGG16 結(jié)構(gòu)的模型。但是,由于VGG結(jié)構(gòu)相對(duì)簡單,仍然具有一定的研究及應(yīng)用價(jià)值。

        3.2 P-R 曲線分析

        圖10 到圖14 給出了基于深度學(xué)習(xí)的顯著性目標(biāo)檢測(cè)算法在5 個(gè)數(shù)據(jù)集DUT-OMRON、DUTS、ECSSD、HKU-IS 和PASCAL-S 上的P-R 曲線。

        Fig.10 P-R curves on DUT-OMRON dataset圖10 DUT-OMRON 數(shù)據(jù)集上的P-R 曲線

        Fig.11 P-R curves on DUTS dataset圖11 DUTS 數(shù)據(jù)集上的P-R 曲線

        可以看出PoolNet 算法在5 個(gè)數(shù)據(jù)集上均取得了最佳性能,主要?dú)w因于其在池化方面做出的改進(jìn)及采用特征聚合模塊實(shí)現(xiàn)多尺度特征的無縫融合。

        3.3 視覺比較

        Fig.13 P-R curves on HKU-IS dataset圖13 HKU-IS 數(shù)據(jù)集上的P-R 曲線

        Fig.14 P-R curves on PASCAL-S dataset圖14 PASCAL-S 數(shù)據(jù)集上的P-R 曲線

        Fig.15 Visual comparison of different methods圖15 不同方法的視覺比較

        圖15 給出了基于深度學(xué)習(xí)的不同顯著性目標(biāo)檢測(cè)算法的視覺比較,從中可以看出:(1)基于邊界/語義增強(qiáng)的顯著性目標(biāo)檢測(cè)算法中,性能由高到低的算法依次為PoolNet、CPD 和BASNet。其中,BASNet算法專注于邊界信息,能夠檢測(cè)出清晰的顯著性目標(biāo)邊界,在簡單的ECSSD 數(shù)據(jù)集和PASCAL-S 數(shù)據(jù)集中表現(xiàn)良好。但是,在相對(duì)復(fù)雜的DUT-OMRON等數(shù)據(jù)集中表現(xiàn)較差,這是因?yàn)槿狈ωS富的高層語義信息。CPD 算法專注于提取高層特征包含的語義信息,因此在DUT-OMRON 等數(shù)據(jù)集中的表現(xiàn)優(yōu)于BASNet算法。PoolNet算法性能最佳,是因?yàn)樵O(shè)計(jì)了池化金字塔從高層特征中提取了豐富的語義信息,同時(shí)設(shè)計(jì)了功能聚合模塊實(shí)現(xiàn)了多尺度特征的無縫融合。(2)基于全局/局部結(jié)合的顯著性目標(biāo)檢測(cè)的算法中,PAGR 算法取得了最佳性能,它在遞歸和多分辨率操作的基礎(chǔ)上添加了注意力機(jī)制,使產(chǎn)生的特征更加有效。(3)在基于輔助網(wǎng)絡(luò)的顯著性目標(biāo)檢測(cè)算法中,MLSLNet 性能較好,其遷移的前景輪廓檢測(cè)是有效的。(4)本文所提顯著性目標(biāo)檢測(cè)的算法中,PoolNet 算法取得了最好的性能,得益于算法中的池化金字塔和功能聚合模塊,獲取了豐富的語義信息,同時(shí)實(shí)現(xiàn)了多尺度特征的無縫融合。

        4 基于深度學(xué)習(xí)的顯著性目標(biāo)檢測(cè)算法的不足與未來展望

        近年,基于深度學(xué)習(xí)的顯著性目標(biāo)檢測(cè)方法從不同方面進(jìn)行了探索,如特征金字塔、池操作、注意力機(jī)制等,并取得了不錯(cuò)的性能。但是,現(xiàn)有方法也仍存在如下不足:

        (1)現(xiàn)有顯著性目標(biāo)檢測(cè)算法主要針對(duì)背景簡單的圖像,而實(shí)際圖像一般均具有復(fù)雜背景,因此現(xiàn)有方法對(duì)復(fù)雜背景下的顯著性目標(biāo)檢測(cè)還有很大的局限。

        (2)對(duì)于實(shí)際應(yīng)用場(chǎng)景,一般要求顯著性目標(biāo)檢測(cè)具有很好的實(shí)時(shí)性,但是現(xiàn)有方法主要是針對(duì)靜止圖像或者是計(jì)算復(fù)雜度比較大,導(dǎo)致實(shí)時(shí)性差。

        (3)現(xiàn)有顯著性目標(biāo)檢測(cè)算法對(duì)大目標(biāo)的檢測(cè)效果較好,但是對(duì)實(shí)際應(yīng)用中的小目標(biāo)檢測(cè)性能較差,不能滿足實(shí)際應(yīng)用的需求。

        (4)現(xiàn)有顯著性目標(biāo)檢測(cè)方法多采用矩形框定位顯著性目標(biāo)的位置,簡單方便,但是由于顯著性目標(biāo)的大小形狀各異,僅采用矩形框定位具有很大的局限性。

        (5)現(xiàn)有顯著性目標(biāo)檢測(cè)方法一般采用完全監(jiān)督學(xué)習(xí)的方式訓(xùn)練模型,計(jì)算量和所需時(shí)間代價(jià)巨大,不滿足實(shí)際應(yīng)用環(huán)境和需求。

        因此,為了克服現(xiàn)有方法的不足,未來基于深度學(xué)習(xí)的顯著性目標(biāo)檢測(cè)可以從以下五方面展開研究:

        (1)針對(duì)復(fù)雜背景下顯著性目標(biāo)檢測(cè)性能較差的情況,設(shè)計(jì)適應(yīng)復(fù)雜背景(對(duì)背景敏感或者前景背景對(duì)比度低等)的顯著性目標(biāo)檢測(cè)模型,另外建立包含復(fù)雜背景的圖像數(shù)據(jù)集,為新模型的訓(xùn)練與評(píng)估做好準(zhǔn)備。

        (2)為了滿足實(shí)際應(yīng)用中對(duì)實(shí)時(shí)性的需求,設(shè)計(jì)低復(fù)雜度、輕量級(jí)的顯著性目標(biāo)檢測(cè)模型是顯著性目標(biāo)檢測(cè)的一個(gè)研究熱點(diǎn)。目前主要有三種方式:第一是直接在網(wǎng)絡(luò)設(shè)計(jì)中對(duì)網(wǎng)絡(luò)輕量級(jí)化,如輕量化網(wǎng)絡(luò)模型SqueezeNet 在模型設(shè)計(jì)時(shí)規(guī)定了三種特有的設(shè)計(jì)原則,同時(shí)將不同的卷積封裝成卷積網(wǎng)絡(luò)模塊;第二是采用深度可分離卷積,對(duì)卷積進(jìn)行分離操作,然后在卷積層對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行歸約,如MobileNet網(wǎng)絡(luò)可以應(yīng)用于移動(dòng)端;第三是對(duì)網(wǎng)絡(luò)直接進(jìn)行壓縮與編碼,對(duì)網(wǎng)絡(luò)進(jìn)行剪裁,然后進(jìn)行權(quán)值量化共享,最后采用霍夫曼編碼降低存儲(chǔ)。

        (3)在某些實(shí)際特定場(chǎng)景中目標(biāo)很小,如何對(duì)小目標(biāo)進(jìn)行有效檢測(cè)以滿足實(shí)際應(yīng)用的需求,成為了當(dāng)前急需解決的一個(gè)問題。因此,特定場(chǎng)景下小目標(biāo)檢測(cè)也是未來顯著性目標(biāo)檢測(cè)的一個(gè)研究方向,可以使用分辨率更高的卷積特征圖以及殘差模塊來增強(qiáng)對(duì)小目標(biāo)的檢測(cè)能力。

        (4)針對(duì)顯著性目標(biāo)檢測(cè)方法采用矩形框定位顯著性目標(biāo)的局限性,可以采用不同的措施進(jìn)行不同尺度目標(biāo)定位。由于不同位置可能對(duì)應(yīng)著不同尺度或變形的物體,采用能夠?qū)Τ叨然蛘吒惺芤按笮∵M(jìn)行自適應(yīng)的可變形卷積來實(shí)現(xiàn)精確定位。另外,可以采用多點(diǎn)定位法完成顯著性目標(biāo)的位置定位。多點(diǎn)定位是指在顯著性目標(biāo)周圍選取幾個(gè)關(guān)鍵點(diǎn),比如右上、左下、中心點(diǎn)和偏移量的測(cè)量。多點(diǎn)定位可以靈活地對(duì)顯著性目標(biāo)的輪廓完成定位,省時(shí)省力,不用像矩形框那樣,提前設(shè)計(jì)并預(yù)留多個(gè)矩形框的存儲(chǔ)。

        (5)由于人為獲取標(biāo)簽費(fèi)時(shí)費(fèi)力,且不符合一些場(chǎng)景的實(shí)際情況,因此為了克服這些缺陷,采用無監(jiān)督或弱監(jiān)督學(xué)習(xí)進(jìn)行顯著性目標(biāo)檢測(cè)模型的研究和設(shè)計(jì)將是未來的必然發(fā)展方向。

        5 結(jié)束語

        本文對(duì)基于深度學(xué)習(xí)的顯著性目標(biāo)檢測(cè)方法進(jìn)行了綜述,通過對(duì)國內(nèi)外研究現(xiàn)狀的分析可知,基于深度學(xué)習(xí)的顯著性目標(biāo)檢測(cè)算法得到了廣泛研究,各種不同的方法被提出,但是檢測(cè)性能還需要進(jìn)一步提升,如檢測(cè)精度、速度、復(fù)雜背景、小目標(biāo)、弱監(jiān)督等。因此,能夠準(zhǔn)確、實(shí)時(shí)地對(duì)復(fù)雜背景下的小目標(biāo)進(jìn)行弱監(jiān)督顯著性檢測(cè)是未來基于深度學(xué)習(xí)的顯著性目標(biāo)檢測(cè)不斷追求的目標(biāo)。

        猜你喜歡
        語義深度特征
        深度理解一元一次方程
        語言與語義
        如何表達(dá)“特征”
        不忠誠的四個(gè)特征
        深度觀察
        深度觀察
        深度觀察
        抓住特征巧觀察
        “上”與“下”語義的不對(duì)稱性及其認(rèn)知闡釋
        認(rèn)知范疇模糊與語義模糊
        在线日本高清日本免费| aaaaaa级特色特黄的毛片| 免费的毛片视频| 久久狠狠爱亚洲综合影院| av中文字幕一区人妻| 亚洲一区二区三区影院| 国产乱妇乱子在线视频| 亚洲国产成a人v在线观看| 精品国产亚洲av高清日韩专区| 丁香五月亚洲综合在线| 成人片黄网站色大片免费观看cn| 免费国产黄线在线播放| 一区二区三区成人av| 久久精品免费一区二区喷潮| 午夜精品久久久久久| 99久久超碰中文字幕伊人| 中文字幕人妻久久一区二区三区| 精品亚洲国产成人蜜臀av| 丰满人妻在公车被猛烈进入电影| 加勒比日本东京热1区| 青草草视频在线观看华人免费| 国内少妇毛片视频| 久久久久无码国产精品不卡| 亚洲精品美女久久久久网站| 日本一二三区免费在线| 午夜福利试看120秒体验区| 乱伦一区二| 五月激情在线观看视频| 国产精品永久在线观看| av人摸人人人澡人人超碰小说| 熟妇与小伙子露脸对白| 偷拍色图一区二区三区| 97人人模人人爽人人喊电影| 国产艳妇av在线出轨| 九一精品少妇一区二区三区 | 午夜一级成人| 日韩av在线免费观看不卡| 精品国产精品三级精品av网址| 精品国产乱码久久久软件下载| 亚洲成熟丰满熟妇高潮XXXXX | 日本饥渴人妻欲求不满|