亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于高斯差分特征網(wǎng)絡(luò)的顯著目標(biāo)檢測

        2021-03-18 13:45:10,2*
        計(jì)算機(jī)應(yīng)用 2021年3期
        關(guān)鍵詞:金字塔卷積顯著性

        ,2*

        (1.武漢科技大學(xué)信息科學(xué)與工程學(xué)院,武漢 430081;2.中冶南方連鑄技術(shù)工程有限責(zé)任公司,武漢 430223)

        0 引言

        顯著性檢測旨在從圖像中找出最吸引人類視覺注意的目標(biāo)或區(qū)域,其研究成果已被用在眾多計(jì)算機(jī)視覺任務(wù)中,例如目標(biāo)識(shí)別[1]、圖像分割[2]等。從1998 年Itti 等[3]的研究工作開始,計(jì)算機(jī)視覺領(lǐng)域的學(xué)者對于顯著性檢測模型的研究熱情持續(xù)至今??紤]到顯著區(qū)域在視覺表征上應(yīng)當(dāng)和周圍有明顯不同,一個(gè)很自然的想法是通過計(jì)算某個(gè)像素/區(qū)域與其周圍像素/區(qū)域之間的差異性,即中心-鄰域?qū)Ρ榷龋–enter-Surround Contrast,CSC)來計(jì)算區(qū)域的局部突出程度。該思路在相當(dāng)長一段時(shí)間內(nèi)是顯著性檢測領(lǐng)域的主要線索[3-5]。Itti等首次提出了一個(gè)可計(jì)算的視覺注意力模型,其通過在多尺度的高斯差分(Difference of Gaussian,DoG)特征(強(qiáng)度、顏色和梯度)空間中計(jì)算某一像素的CSC值,并以其局部最大響應(yīng)作為該像素的顯著值,為了描述方便,本文稱之為“DoG 金字塔特征整合模型”。考慮到尺度空間能夠較準(zhǔn)確地描述人眼在不同的距離上觀測物體的感知情況,利用多尺度DoG 空間可以很好地模仿人眼檢測目標(biāo)的局部突出特性。因此,Itti等提出的模型有一定的生理學(xué)基礎(chǔ),對后續(xù)模型研究設(shè)計(jì)具有指導(dǎo)性意義。以此模型結(jié)構(gòu)為基礎(chǔ),研究學(xué)者在多種特征空間以及不同的對比度測度上進(jìn)行了創(chuàng)新[5-7]。此外,也有研究針對CSC 計(jì)算中鄰域的選擇問題進(jìn)行了相關(guān)探討[8-10]。然而,上述方法均采用手工定義的低層次視覺特征,無法有效地對圖像中的上下文以及語義信息進(jìn)行理解,導(dǎo)致在目標(biāo)級別的顯著性檢測中難以取得滿意的性能。

        作為任務(wù)導(dǎo)向型學(xué)習(xí)方法,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)通常能夠根據(jù)具體任務(wù)從圖像中學(xué)習(xí)到具有多層級視覺表征能力的特征。近些年,隨著CNN 理論的快速發(fā)展,顯著目標(biāo)檢測的研究工作逐漸從傳統(tǒng)的、以人類經(jīng)驗(yàn)定義視覺特征和采用經(jīng)典線索的顯著目標(biāo)檢測模型設(shè)計(jì)遷移到以CNN 為基礎(chǔ)的模型設(shè)計(jì)中。得益于Long 等[11]在語義分割領(lǐng)域提出的全卷積神經(jīng)網(wǎng)絡(luò)(Fully Convolutional Network,F(xiàn)CN),考慮到顯著目標(biāo)檢測可以看作是一種特殊的分割任務(wù),基于FCN 的模型在顯著目標(biāo)檢測任務(wù)中得到了廣泛應(yīng)用。FCN 雖然能夠較好地保存空間信息,但由于深層特征通常缺乏圖像中的細(xì)節(jié)部分,從而導(dǎo)致檢測效果并不理想。為了解決這個(gè)問題,后來的研究提出了有效的多層特征融合結(jié)構(gòu)。Li等[12]提出了一種由完全卷積流和分段空間池流組成的架構(gòu)。完全卷積流可以直接從輸入圖像中得到像素級的顯著性圖,分段空間池流可以有效地提取各階段特征,將兩個(gè)分支架構(gòu)得到的特征圖相加融合后通過密集條件隨機(jī)場來進(jìn)一步優(yōu)化檢測結(jié)果。Chen 等[13]則將短接法[14]用于分割網(wǎng)絡(luò),同時(shí)使用殘差模塊來學(xué)習(xí)側(cè)輸出的特征,這種學(xué)習(xí)方法在保證檢測效果的前提下使模型更加輕量化。然而,短接法在融合不同特征層時(shí)會(huì)不可避免地引入噪聲,為了解決這個(gè)問題,研究學(xué)者提出循環(huán)細(xì)化的方法,通過逐步細(xì)化顯著圖以得到效果更好的顯著性檢測結(jié)果。例如,Wang等[15]提出一種多階段的循環(huán)細(xì)化方法,其思想在于使用網(wǎng)絡(luò)的低級特征來細(xì)化顯著性圖,通過不斷更新顯著目標(biāo)的邊界以實(shí)現(xiàn)高精度分割。

        在分割任務(wù)中,準(zhǔn)確理解圖像中上下文信息的語義關(guān)系通常需要網(wǎng)絡(luò)特征層具有較大的感受野。例如DeepLabv3+(encoder-decoder with atrous separable convolution for semantic image segmentation)[16]和 PSPNet(Pyramid Scene Parsing Network)[17]通過不同的金字塔池化過程以增大深層特征的語義表達(dá)能力。注意力模型則是解決該問題的另一種思路,其通過對像素的長距離空間信息進(jìn)行編碼以達(dá)到對目標(biāo)上下文的理解[18-19]。例如,Ren 等[20]提出的金字塔自注意力模型(Pyramid Self-Attention Module,PSAM)通過在特征金字塔之后加入自注意力模塊以獲得更加豐富的深層特征,同時(shí)也為整個(gè)網(wǎng)絡(luò)模型引入了更大的感受野。

        本文發(fā)現(xiàn)DoG金字塔特征整合模型作為一種早期廣泛使用的、基于注意力機(jī)制的顯著性模型卻在卷積神經(jīng)網(wǎng)絡(luò)中較少被使用。事實(shí)上已有少量方法在網(wǎng)絡(luò)構(gòu)造過程中部分使用了CSC線索。例如,Li等[21-22]串聯(lián)某個(gè)超像素和環(huán)繞它的超像素的深度特征以學(xué)習(xí)其顯著程度;然而,該方法并未明確計(jì)算中心超像素與其周圍超像素的特征差異。Wang等[23]將深度特征與手工特征進(jìn)行了融合,并在單個(gè)尺度上計(jì)算目標(biāo)級別的對比度。然而,手工特征通常在語義表達(dá)能力上弱于CNN特征。

        受上述問題的引導(dǎo)和啟發(fā),本文將DoG金字塔特征整合模型的基本結(jié)構(gòu)引入CNN,并提出了一個(gè)基于DoG 特征的顯著目標(biāo)檢測網(wǎng)絡(luò)。該網(wǎng)絡(luò)通過在多個(gè)尺度的深度特征上構(gòu)造DoG金字塔結(jié)構(gòu)以感知圖像中顯著目標(biāo)的局部突出特性,進(jìn)而用此差分特征對語義信息豐富的原始深度特征進(jìn)行加權(quán)選擇,最終實(shí)現(xiàn)對顯著目標(biāo)的準(zhǔn)確提取。將本文算法與六種最新的顯著目標(biāo)檢測算法在四個(gè)公用數(shù)據(jù)集上進(jìn)行對比,實(shí)驗(yàn)結(jié)果表明,本文所提出的網(wǎng)絡(luò)結(jié)構(gòu)在多項(xiàng)指標(biāo)上優(yōu)于其他算法。

        值得注意的是,Li 等[12]的方法也討論了利用對比度特征來獲取顯著區(qū)域,但是該方法通過將中心區(qū)域和周圍區(qū)域的特征連接起來以表征區(qū)域的突出特性,實(shí)際上并沒有顯式地計(jì)算區(qū)域的局部對比度。本文通過構(gòu)建DoG金字塔在多個(gè)尺度上計(jì)算中心與鄰域的特征差異來感知圖像的局部突出特征,最終實(shí)現(xiàn)對目標(biāo)的提取。

        綜上所述,本文的主要工作如下:

        1)傳統(tǒng)的DoG 特征金字塔整合模型具有生理學(xué)依據(jù)支撐,但受限于特征表達(dá)能力在復(fù)雜場景中,以及目標(biāo)級別的顯著性檢測任務(wù)中表現(xiàn)不佳。本文驗(yàn)證可知,基于DoG 的CNN特征同樣具有檢測顯著區(qū)域/目標(biāo)的局部突出特性的能力,且一定程度上解決了傳統(tǒng)手工定義特征難以有效表達(dá)上下文信息以及高級語義信息的問題。

        2)提出了一種基于DoG 特征的顯著目標(biāo)檢測網(wǎng)絡(luò)模型。首先,通過在主干網(wǎng)絡(luò)側(cè)面輸出的多尺度深度特征上構(gòu)造DoG 金字塔以得到具有突出顯著目標(biāo)能力的差分特征;然后,利用基于注意力機(jī)制的非局部模型將差分特征和主干網(wǎng)絡(luò)輸出的完備特征進(jìn)行融合以選擇后者中有效的部分用于計(jì)算最終的顯著圖。

        1 通用DoG金字塔特征整合模型解析

        在這一章,本文首先對常見的DoG 金字塔特征整合模型進(jìn)行簡要介紹,并給出DoG 金字塔中參數(shù)的計(jì)算方法。如圖1所示,對于一幅輸入圖像:

        1)首先提取人工定義的視覺特征,例如顏色、紋理、梯度等密集特征類型。

        2)對于每一種獨(dú)立類型的特征F在尺度空間中進(jìn)行表達(dá),即構(gòu)造多組高斯金字塔:

        其中:T為高斯金字塔的組數(shù);L為每組高斯金字塔中特征層數(shù);fdown(?)為降采樣操作函數(shù);N(0,σC(l))為均值為零、標(biāo)準(zhǔn)差為σC(l)的高斯核函數(shù)。即針對每一種特征構(gòu)造T組尺度,在每個(gè)尺度中包含L個(gè)經(jīng)過高斯平滑后的中心特征。

        并通過像素級的差分操作以獲得當(dāng)前層的注意力子圖,并累積所有注意力子圖作為最終的顯著圖像R。

        類似SIFT(Scale-Invariant Feature Transform)[24],DoG 金字塔中σC(l)的計(jì)算采用以下方式進(jìn)化:

        其中,σC(0)和σS(0)為進(jìn)化過程的起始種子參數(shù),且滿足條件σS(0)>σC(0),在實(shí)際計(jì)算時(shí)要預(yù)先確定。

        圖1 基于DoG金字塔特征的顯著性檢測模型Fig.1 Saliency detection model based on DoG pyramid features

        2 基于DGP的顯著目標(biāo)檢測網(wǎng)絡(luò)

        正如引言中所述,DoG 金字塔特征整合模型在傳統(tǒng)顯著性檢測中曾作為一種主流框架,但在目標(biāo)級別的顯著性檢測任務(wù)中性能有限。本文認(rèn)為其根本問題在于手工定義特征難以對大范圍上下文以及高層語義信息進(jìn)行有效編碼,而CNN特征則能較好地彌補(bǔ)這個(gè)不足。受此啟發(fā),本文提出了基于高斯差分金字塔(Difference of Gaussian Pyramid,DGP)的顯著目標(biāo)檢測模型。

        2.1 高斯差分金字塔模塊

        如圖2 所示的整體網(wǎng)絡(luò)結(jié)構(gòu)圖,DGP 模塊的輸入來自主干網(wǎng)絡(luò)側(cè)方引出的四個(gè)輸出,因此本文針對性地構(gòu)造了四個(gè)金字塔組,表示為O=圖3 給出了Ot的結(jié)構(gòu)圖,其使用一個(gè)3× 3的卷積層來調(diào)整輸入特征的通道數(shù),隨后將特征送入多層DoG計(jì)算模塊。以第l層為例,首先通過中心平滑層結(jié)構(gòu)計(jì)算中心高斯平滑特征,并以此作為輸入利用鄰域平滑層結(jié)構(gòu)計(jì)算鄰域高斯平滑特征。值得注意的是,由于卷積核的尺寸一般都是奇數(shù),即滿足(2Y-1)×(2Y-1),其中Y為正整數(shù),所以卷積核的高h(yuǎn)和寬w滿足h=w=2Y-1,同時(shí)由于高斯分布服從“3σ原則”,即隨機(jī)變量的取值分布在區(qū)間(μ-3σ,μ+3σ)內(nèi)的概率為0.997 3(μ、σ分別是高斯分布的均值和標(biāo)準(zhǔn)差)。所以為了讓數(shù)值最大可能地落入所確定的范圍內(nèi),就把模板范圍取值為6σ,同時(shí)為了兼顧卷積核尺寸為奇數(shù)的特點(diǎn),所以高斯核方差和對應(yīng)卷積核參數(shù)有如下關(guān)系:

        其中:h和w分別是標(biāo)準(zhǔn)差為σ的正態(tài)分布對應(yīng)的卷積核的高度和寬度;ceiling(?)和round(?)分別表示向上取整和四舍五入的操作??梢钥吹?,σ的進(jìn)化過程會(huì)導(dǎo)致卷積核尺寸的擴(kuò)大,進(jìn)而影響網(wǎng)絡(luò)訓(xùn)練和推理速度,因此,本文在中心平滑層和鄰域平滑層中采用兩個(gè)一維卷積來代替二維卷積操作,此操作不但不會(huì)改變卷積核的整體尺寸,同時(shí)還會(huì)降低卷積操作過程中的計(jì)算復(fù)雜度,這是因?yàn)樵趦蓚€(gè)維度相互獨(dú)立的條件下,二維高斯卷積核可以分離成兩個(gè)一維的高斯核,并且卷積操作的計(jì)算復(fù)雜度將明顯降低。另外如果使用二維高斯卷積,計(jì)算復(fù)雜度可以表示為(2Y0+1)次乘法和加法運(yùn)算,其中Y0是正整數(shù),轉(zhuǎn)換成兩個(gè)一維卷積之后,計(jì)算復(fù)雜度可以表示為2Y0次加法運(yùn)算和Y0+1 次乘法運(yùn)算[25]。圖4 給出了當(dāng)σC(0)和σS(0)分別取1.0 和1.7 時(shí),l=0 即第一層高斯平滑子模塊的內(nèi)部結(jié)構(gòu)。為了使參數(shù)始終維持高斯分布狀態(tài),本文在網(wǎng)絡(luò)訓(xùn)練的反向傳播過程中不更新其參數(shù)。特別地,本文在高斯平滑卷積后加入了兩個(gè)如圖5 所示的殘差卷積單元結(jié)構(gòu),其目的是對差分特征進(jìn)一步做非線性變換以增強(qiáng)其特征泛化能力,其中的BN(Batch Normalization)為批量歸一化層;ReLU(Rectified Linear Unit)和sigmoid為激活層,且后者同時(shí)將特征幅值歸一化到(0,1)。由于顯著目標(biāo)檢測相當(dāng)于對像素進(jìn)行二分類,所以在此結(jié)構(gòu)的輸出部分使用了sigmoid 函數(shù),同時(shí)為了防止由于梯度消失而導(dǎo)致的模型收斂停滯,也使用了多個(gè)ReLU 激活函數(shù)。最后,將Ot內(nèi)所有層的差分特征進(jìn)行逐像素相加,并通過通道注意力模塊[19]來選擇性地強(qiáng)調(diào)存在相互依賴的通道映射。

        圖2 網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Network structure

        圖3 高斯差分金字塔模塊結(jié)構(gòu)Fig.3 Difference of Gaussian Pyramid module structure

        圖4 高斯平滑模塊結(jié)構(gòu)Fig.4 Gaussian smoothing module structure

        圖5 殘差卷積單元結(jié)構(gòu)Fig.5 Residual convolution unit structure

        2.2 網(wǎng)絡(luò)整體介紹

        本文提出的網(wǎng)絡(luò)結(jié)構(gòu)如圖2 所示,其構(gòu)型是以ResNet-50[26]網(wǎng)絡(luò)作為骨架的U型結(jié)構(gòu)。考慮到分割任務(wù)需要兼顧圖像細(xì)節(jié)以及高層語義信息,因此選擇特征金字塔網(wǎng)絡(luò)(Feature Pyramid Network,F(xiàn)PN)[27]作為主干網(wǎng)絡(luò)框架來提取輸入圖像的特征。為了加強(qiáng)網(wǎng)絡(luò)對語義信息的有效抽象,在自上而下的路徑頂部引入金字塔池化模塊(Pyramid Pooling Module,PPM)[17]和鏈?zhǔn)綒埐畛鼗–hain Residual Pooling,CRP)[28]的并行結(jié)構(gòu),并與主干網(wǎng)絡(luò)中多尺度的側(cè)方輸出特征進(jìn)行融合作為DGP 模型的輸入特征,即可以類比式(1)中的獨(dú)立類型的特征F。融合后的特征依次經(jīng)過本文所提出的DGP模塊進(jìn)行差分運(yùn)算以獲取圖像中各個(gè)層次信息的局部突出特性,并最終通過注意力模塊AFNB[18]來選擇性地對主干網(wǎng)絡(luò)U 型結(jié)構(gòu)的頂層特征中的有效特征進(jìn)行融合,進(jìn)而送入分類層以獲得最終的檢測結(jié)果。

        3 實(shí)驗(yàn)與結(jié)果分析

        為了驗(yàn)證所提網(wǎng)絡(luò)模型的性能,本章中選取了6 個(gè)顯著性目標(biāo)檢測模型和本文所提出的模型在4 個(gè)公用數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)并進(jìn)行結(jié)果對比。同時(shí)為了驗(yàn)證所提出網(wǎng)絡(luò)模型中各個(gè)模塊對整體性能的影響和在整個(gè)網(wǎng)絡(luò)模型中所起到的作用,本文也進(jìn)行了多次消融實(shí)驗(yàn)。

        3.1 數(shù)據(jù)集介紹

        為了評估所提出的顯著性目標(biāo)檢測模型的性能,本文在DUT-OMRON[29]、DUTS-TE[30]、Pascal-S[31]和SOD[32]4 個(gè)公用數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。其中,DUT-OMRON 數(shù)據(jù)集包含了5 168張圖像,最大邊長為400 個(gè)像素,每張圖像中具有一個(gè)或多個(gè)顯著目標(biāo),且具有相對復(fù)雜的背景。DUTS 數(shù)據(jù)集包含了10 553 張訓(xùn)練圖像(DUTS-TR)和5 019 張測試圖像(DUTSTE),其中都包含了日常生活中非常重要的場景。Pascal-S 數(shù)據(jù)集共有來自PASCAL VOC 子集的850 張圖像。SOD 數(shù)據(jù)集對BSD 數(shù)據(jù)集中顯著對象進(jìn)行了重新標(biāo)注,共包含300 張圖像。

        3.2 評價(jià)標(biāo)準(zhǔn)

        按照本領(lǐng)域通用評估體系,本文使用平均絕對誤差(Mean Absolute Error,MAE)、F 度量值(F-measure)和精確率-召回率(Precision and Recall,PR)曲線三種評價(jià)標(biāo)準(zhǔn)來較全面地評估所提模型的性能。

        PR 曲線的繪制數(shù)據(jù)是通過使用一系列固定閾值對檢測結(jié)果進(jìn)行分割所獲得。具體來說,對于一幅具有8 位灰度范圍的結(jié)果圖像,使用所有可能的255 個(gè)分割閾值對圖像進(jìn)行分割,并記錄每次分割結(jié)果與人工標(biāo)注之間的差異性。該差異性通過精確率和召回率來量化,計(jì)算方式如式(7)、(8)所示:

        其中:TP(True Positive)、FP(False Positive)和FN(False Negative)分別表示正陽性、負(fù)陽性和負(fù)陰性。即針對預(yù)測值和真實(shí)值中的每個(gè)像素來說,TP表示預(yù)測值為1,真實(shí)值為1,即正樣本被預(yù)測為正;FP表示預(yù)測值為1,真實(shí)值為0,即負(fù)樣本被預(yù)測為正;FN表示預(yù)測值為0,真實(shí)值為1,即正樣本被預(yù)測為負(fù)。

        F 度量值表示在非負(fù)權(quán)值β下精確率和召回率的加權(quán)調(diào)和平均值,可以比較全面地反映所提算法的性能,計(jì)算方式如式(9)所示:

        其中:β是權(quán)重系數(shù),用于平衡精確率和召回率之間的權(quán)重,β2的取值一般為0.3[33]。

        平均絕對誤差表示預(yù)測值與真實(shí)值之間絕對誤差的平均值,可以反映預(yù)測值偏離實(shí)際值的具體程度,計(jì)算方式如式(10)所示:

        其中:D表示一幅圖像中像素點(diǎn)的總個(gè)數(shù);yi表示第i個(gè)像素點(diǎn)的預(yù)測值;y表示第i個(gè)像素點(diǎn)的真實(shí)值。

        3.3 網(wǎng)絡(luò)參數(shù)配置

        本文的模型在主干網(wǎng)絡(luò)中采用ResNet-50 來進(jìn)行圖像的特征提取,同時(shí)采用在ImageNet 數(shù)據(jù)集上預(yù)訓(xùn)練的結(jié)果來進(jìn)行主干網(wǎng)絡(luò)的初始化,其余網(wǎng)絡(luò)參數(shù)隨機(jī)初始化。式(3)、式(4)和式(5)中的L取值3,σC(0)和σS(0)分別取值1.0和1.7。損失函數(shù)選用二分類交叉熵?fù)p失函數(shù),網(wǎng)絡(luò)采用Adam 優(yōu)化器進(jìn)行訓(xùn)練,Batch size的值設(shè)為4,學(xué)習(xí)率初始化為0.000 1。

        3.4 結(jié)果分析

        將本文所提算法和近年來的部分優(yōu)秀顯著性目標(biāo)檢測算法進(jìn)行了定性和定量比較,對比算法包括NLDF(Non-Local Deep Features for salient object detection)[34]、DSS(Deeply Supervised Salient object detection with short connections)[35]、DGRL(Detect Globally,Refine Locally:a novel approach to saliency detection)[36]、PiCANet(learning Pixel-wise Contextual Attention Network for saliency detection)[37]、PAGE-Net(salient object detection with pyramid attention and salient edges)[38]、BASNet(Boundary-Aware Salient object detection)[39]。NLDF 是基于VGG16[40]模型提出的一個(gè)結(jié)合局部和全局特征的端到端神經(jīng)網(wǎng)絡(luò)。DSS 提出了一種有效的強(qiáng)監(jiān)督短接結(jié)構(gòu),可以連接深層特征圖和淺層特征圖,從而可以更好地定位顯著區(qū)域。DGRL 提出了一個(gè)新穎的RLN(Recurrent Localization Network)結(jié)構(gòu),以權(quán)重響應(yīng)圖的方式來利用上下文信息,使得顯著性目標(biāo)更加突出,同時(shí)也提出一個(gè)BRN(Boundary Refinement Network)來有效恢復(fù)圖像邊界。PiCANet 通過整合全局上下文信息和多尺度的局部上下文信息來提升顯著性檢測的性能。PAGE-Net 提出金字塔注意力模塊和顯著性邊緣檢測模塊用于聯(lián)合優(yōu)化顯著目標(biāo)檢測結(jié)果。BASNet 通過引入一個(gè)深度監(jiān)督的編解碼器和一個(gè)殘差優(yōu)化模塊,并引入了一個(gè)新的混合損失函數(shù)等方法提高了顯著性目標(biāo)檢測的性能。

        3.4.1 定性評價(jià)

        從圖6各個(gè)網(wǎng)絡(luò)得到的最終顯著圖可以看出,與其他六種算法相比,本文算法對復(fù)雜環(huán)境中小目標(biāo)的檢測更加準(zhǔn)確,例如對于第一幅圖像,其他算法都無法檢測出雪地里靠近右邊的汽車,但本文的算法則在一定程度上反映出了右邊汽車的大致輪廓。本文算法也能夠更好地分割出目標(biāo)的細(xì)節(jié)部分,例如對于第三幅圖像,僅本文的算法能夠成功分割出運(yùn)動(dòng)員手中的運(yùn)動(dòng)器械。同時(shí),在圖像背景較為復(fù)雜且與顯著目標(biāo)在顏色、紋理等方面有較大相似的情況下,本文的算法也能得到較好的結(jié)果,例如對于第五幅圖像,本文的算法在顯著目標(biāo)處于較大外界干擾的情況下,也能獲得與人工標(biāo)注最接近的結(jié)果。

        圖6 七種算法在四個(gè)公用數(shù)據(jù)集上部分圖像的檢測結(jié)果對比Fig.6 Detection results comparison of some images of seven algorithms on four public datasets

        3.4.2 定量評價(jià)

        表1 和圖7 給出了本文算法和其他六種算法在四個(gè)公用數(shù)據(jù)集上的定量評價(jià)結(jié)果,包括MAE、F-measure 和PR 曲線。從表1 可以看出,本文的算法在兩個(gè)常用評價(jià)指標(biāo)的比較中一致地優(yōu)于其他六種檢測算法。從圖6 給出的在四個(gè)公用數(shù)據(jù)集上的PR曲線可以看出,本文的算法也在至少85%的召回率范圍上取得了最高的精度,表明本文算法可以適應(yīng)絕大部分情況下的顯著性目標(biāo)檢測并能夠得到比較優(yōu)秀的結(jié)果。

        圖7 七種算法在四個(gè)公用數(shù)據(jù)集上的PR曲線Fig.7 PR curves of seven algorithms on four public datasets

        表1 七種算法在四個(gè)公用數(shù)據(jù)集上的定量比較Tab.1 Quantitative comparison of seven algorithms on four public datasets

        3.5 消融實(shí)驗(yàn)

        在本小節(jié),將通過多個(gè)消融實(shí)驗(yàn)來驗(yàn)證本文所提出的DGP模塊和其他部分結(jié)構(gòu)在顯著目標(biāo)檢測過程中所起到的作用和對最終結(jié)果的貢獻(xiàn)程度(以下陳述中,baseline 表示移除DGP模塊之后的網(wǎng)絡(luò)結(jié)構(gòu)),定量比較的結(jié)果如表2所示。

        表2 不同模塊的消融實(shí)驗(yàn)Tab.2 Ablation experiments of different modules

        1)當(dāng)網(wǎng)絡(luò)結(jié)構(gòu)為baseline 時(shí),由于缺少了DGP 模塊,整個(gè)模型缺少了構(gòu)建高斯差分金字塔的部分,也就無法計(jì)算中心特征圖和鄰域特征圖的差異。當(dāng)加入DGP 模塊之后,通過評估標(biāo)準(zhǔn)MAE 和F-measure 的數(shù)值可以發(fā)現(xiàn),網(wǎng)絡(luò)對顯著物體的檢測能力有了比較大的提升,尤其是在SOD 數(shù)據(jù)集上,F(xiàn) 度量值有5.91%的提升,平均絕對誤差則有19.67%的下降。值得注意的是,本文在該實(shí)驗(yàn)中移除了殘差卷積單元以更加直接地評估差分特征的功能。表2 中DGP*表示不包含殘差卷積單元的DGP模塊。

        2)在1)的基礎(chǔ)上,在DGP 模塊中加入殘差卷積單元之后,網(wǎng)絡(luò)的性能又有了一定的提升,主要原因是:DGP 模塊中的高斯核是線性核,無法解決較為復(fù)雜的問題,殘差卷積單元可以為DGP 提供非線性能力,可以更好解決顯著性檢測中的復(fù)雜問題。

        3)AFNB(Asymmetric Fusion Non-local Block)模塊采用“查詢-鍵值對”的方式融合差分特征和主干網(wǎng)絡(luò)的頂層特征,因此,很自然地具有兩種融合方式。本文認(rèn)為,主干網(wǎng)絡(luò)的頂層特征中包含了豐富的對顯著目標(biāo)檢測有效的各類信息,而差分特征主要顯式地描述了CSC信息。將差分特征作為“查詢”項(xiàng)可以強(qiáng)化主干網(wǎng)絡(luò)特征中關(guān)于CSC類信息的權(quán)重,同時(shí)也一定程度上保留了其他非CSC類的信息,實(shí)驗(yàn)結(jié)果如表2第4行所示。同時(shí),本文也嘗試將主干網(wǎng)絡(luò)頂層特征作為“查詢”項(xiàng),其結(jié)果如表2第3行所示。實(shí)驗(yàn)結(jié)果也可以看出,利用差分特征作為“查詢”項(xiàng)的設(shè)置下,除了在DUT-OMRON數(shù)據(jù)集的F度量值出現(xiàn)微小下降外,在其他數(shù)據(jù)集以及測度上均占優(yōu)勢。尤其是對Pascal-S 數(shù)據(jù)集,其平均絕對誤差有8%的下降。表2 中top-query 表示采用主干網(wǎng)絡(luò)的頂層特征作為“查詢”項(xiàng),DGPquery表示采用DGP模塊的輸出作為“查詢”項(xiàng)。

        4 結(jié)語

        本文提出了基于DoG金字塔的顯著目標(biāo)檢測網(wǎng)絡(luò)。該網(wǎng)絡(luò)利用特征金字塔來提取輸入圖像的特征,在自上而下路徑頂部引入金字塔池化模塊和鏈?zhǔn)綒埐畛鼗K的并行結(jié)構(gòu),以此來獲取圖像的高級語義信息。在網(wǎng)絡(luò)自上而下的各階段創(chuàng)新地引入DoG金字塔模塊來提升網(wǎng)絡(luò)對顯著物體的檢測能力。通過在四個(gè)公用數(shù)據(jù)集上與六種顯著性目標(biāo)檢測算法進(jìn)行比較,結(jié)果表明在平均絕對誤差、F 度量值和精確率-召回率曲線等定量評價(jià)指標(biāo)上,本文提出的算法具有更好的檢測準(zhǔn)確性,因此能夠有效提高顯著目標(biāo)檢測的能力。但是此算法的一個(gè)不足之處是對于異常大型的顯著目標(biāo)檢測效果不太理想,檢測能力還有待提升,可以作為進(jìn)一步的研究方向。

        猜你喜歡
        金字塔卷積顯著性
        “金字塔”
        A Study of the Pit-Aided Construction of Egyptian Pyramids
        基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        海上有座“金字塔”
        基于顯著性權(quán)重融合的圖像拼接算法
        電子制作(2019年24期)2019-02-23 13:22:26
        基于視覺顯著性的視頻差錯(cuò)掩蓋算法
        基于傅里葉域卷積表示的目標(biāo)跟蹤算法
        神秘金字塔
        童話世界(2017年11期)2017-05-17 05:28:25
        一種基于顯著性邊緣的運(yùn)動(dòng)模糊圖像復(fù)原方法
        囯产精品无码va一区二区| 成视频年人黄网站免费视频| 丰满少妇呻吟高潮经历| 亚洲精品永久在线观看| 女人扒开屁股爽桶30分钟| 欧美午夜a级精美理论片| av网站影片在线观看| 精品国产亚洲第一区二区三区| 67194熟妇人妻欧美日韩| 成人做爰69片免费看网站| 精品久久久久久国产潘金莲| 国产91会所女技师在线观看| 亚洲欧美中文字幕5发布| 精品乱码卡1卡2卡3免费开放| 黑人巨大亚洲一区二区久| av在线高清观看亚洲| √新版天堂资源在线资源| 国产人成精品综合欧美成人| 国产亚洲午夜高清国产拍精品不卡| 国产一区二区亚洲一区| 一边做一边说国语对白| 亚洲有码转帖| 久久久久亚洲AV无码专区一区| 日本最新视频一区二区| 亚洲国产精品一区二区www| 亚洲免费观看| 激,情四虎欧美视频图片| 国产传媒精品成人自拍| 三年片大全在线观看免费观看大全 | 中文字幕精品乱码一区| 久久亚洲精品中文字幕| 人禽伦免费交视频播放| 国产精品日本天堂| 日本在线观看一区二区三区视频| 国产实拍日韩精品av在线| 亚洲精品国产av天美传媒| 精品视频在线观看免费无码| 少妇我被躁爽到高潮在线影片| 东北少妇不戴套对白第一次| 人妻熟妇乱又伦精品视频app| 挑战亚洲美女视频网站|