沈啟金,龍觀潮,陳羽中,2
1(福州大學(xué) 數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院,福州 350105)2(空間數(shù)據(jù)挖掘與信息共享省部共建教育部重點(diǎn)實(shí)驗(yàn)室,福州 350105)
弱監(jiān)督的圖像顯著性檢測(cè)方法是在不完整的弱級(jí)別標(biāo)注基礎(chǔ)上進(jìn)行建模,然后通過泛化能力強(qiáng)大的網(wǎng)絡(luò)模型推斷出完整的顯著性目標(biāo)物體.相比于強(qiáng)監(jiān)督的圖像顯著性檢測(cè),弱監(jiān)督的圖像顯著性檢測(cè)沒有像素級(jí)標(biāo)注,在強(qiáng)監(jiān)督的圖像顯著性檢測(cè)中存在的邊緣結(jié)構(gòu)問題,在弱監(jiān)督情況下將變得更加明顯.此外,復(fù)雜背景下的顯著性物體的定位在弱監(jiān)督圖像顯著性檢測(cè)任務(wù)中也將變得更具挑戰(zhàn)性.
目前已經(jīng)被提出的弱監(jiān)督圖像顯著性檢測(cè)方法[1-5]主要依賴深度神經(jīng)網(wǎng)絡(luò)的特征提取能力,并且以類別標(biāo)簽進(jìn)行監(jiān)督訓(xùn)練,通過類別響應(yīng)機(jī)制得到一個(gè)局部的定位圖,從而推斷出完整的顯著性目標(biāo)物體.但是,由于局部的類別響應(yīng)圖缺少完整的細(xì)節(jié),它在背景復(fù)雜的場景中的定位能力顯得十分有限.另一方面,深度圖是對(duì)場景中各點(diǎn)與相機(jī)之間空間距離的表示,噪聲幅度較小的深度圖不僅能提供豐富的位置信息,還可以反映物體的結(jié)構(gòu)信息.雖然深度圖適合作為弱監(jiān)督圖像顯著性檢測(cè)的輔助信息,但是現(xiàn)有的基于彩色(RedGreenBlue,RGB)圖像的顯著性檢測(cè)方法并不適用于RGBD圖像顯著性檢測(cè)任務(wù).如Tang等人[6]利用凸包改進(jìn)傳統(tǒng)的流行排序顯著性檢測(cè)算法,Wu等人[7]利用元胞自動(dòng)機(jī)進(jìn)行圖像協(xié)同顯著性檢測(cè),以及Zhang等人[8]通過設(shè)計(jì)端到端的稠密注意力流網(wǎng)絡(luò)用于光學(xué)遙感圖像的顯著性檢測(cè),這些基于RGB圖像的顯著性檢測(cè)方法并不能夠直接地遷移到RGBD圖像顯著性檢測(cè)任務(wù)當(dāng)中.
在弱監(jiān)督的RGBD圖像顯著性檢測(cè)算法中,如何利用深度信息來推斷顯著目標(biāo)物體結(jié)構(gòu)是一個(gè)具有挑戰(zhàn)性的問題.一些弱監(jiān)督的RGB圖像顯著性檢測(cè)方法將傳統(tǒng)的無監(jiān)督圖像顯著性檢測(cè)算法生成的顯著性圖作為附加的監(jiān)督標(biāo)簽.然而,由于RGBD數(shù)據(jù)集通常具有復(fù)雜的背景,引入附加標(biāo)簽的同時(shí)也將引入額外的噪聲.如何過濾掉這些噪聲也是弱監(jiān)督的RGBD圖像顯著性檢測(cè)任務(wù)中的一個(gè)難題.本文提出了一種基于圖像分類的弱監(jiān)督RGBD圖像顯著性檢測(cè)方法以解決上述兩個(gè)問題.
由于強(qiáng)監(jiān)督的圖像顯著性檢測(cè)算法需要逐像素標(biāo)注的標(biāo)簽作為監(jiān)督信息,而采用人工進(jìn)行標(biāo)注的代價(jià)十分昂貴.因此,近些年有一些學(xué)者開始研究利用代價(jià)較低的標(biāo)簽,如使用圖像級(jí)標(biāo)注或者邊框標(biāo)注,進(jìn)行弱監(jiān)督的圖像顯著性檢測(cè)訓(xùn)練.Parthipan Siva等人[1]將顯著性檢測(cè)視為一個(gè)采樣問題,提出了一種基于邊框標(biāo)注的弱監(jiān)督圖像顯著性檢測(cè)方法,使得網(wǎng)絡(luò)可以從未標(biāo)記的圖像中學(xué)習(xí)潛在的顯著圖像塊.Wang等人[2]首次使用圖像級(jí)別標(biāo)注進(jìn)行顯著性檢測(cè),他們采用多任務(wù)的結(jié)構(gòu),將圖像顯著性檢測(cè)任務(wù)和圖像分類任務(wù)巧妙地結(jié)合在一起,在增強(qiáng)正確類別響應(yīng)的同時(shí)抑制不相干類別,從而實(shí)現(xiàn)弱監(jiān)督的顯著性檢測(cè).為了進(jìn)一步提升圖像級(jí)別的弱監(jiān)督顯著性檢測(cè)性能,解決Wang等人[2]在顯著性物體上檢測(cè)不夠全面的問題,Li等人[3]在弱監(jiān)督顯著性檢測(cè)中引入多尺度的思想,采用多流結(jié)構(gòu)對(duì)不同尺度的輸入圖像進(jìn)行處理以彌補(bǔ)局部響應(yīng)的不足.Zeng等人[4]認(rèn)為在圖像顯著性檢測(cè)中,僅依靠分類的類別標(biāo)注是不能夠完全消除類別的局部響應(yīng).因此,他們提出一種多源的弱監(jiān)督顯著性檢測(cè)框架.具體來說,他們的訓(xùn)練數(shù)據(jù)上不僅僅包含著圖像類別,還包含著圖像描述.其中,圖像類別可以引導(dǎo)網(wǎng)絡(luò)關(guān)注圖像的主要對(duì)象,而圖像描述則可使得網(wǎng)絡(luò)把握?qǐng)D像整體內(nèi)容,二者互補(bǔ)以得到較好的顯著圖.Zhang等人[5]巧妙地將邊緣檢測(cè)任務(wù)和顯著性檢測(cè)任務(wù)相結(jié)合,提出了一種基于涂鴉標(biāo)注的弱監(jiān)督圖像顯著性檢測(cè)的網(wǎng)絡(luò)結(jié)構(gòu),并且提出了對(duì)應(yīng)的數(shù)據(jù)集.他們通過輔助邊緣檢測(cè)任務(wù)來明確定位目標(biāo)邊緣,不斷迭代合并圖像上簡單的涂鴉式標(biāo)注,并將其作為監(jiān)督信息進(jìn)行模型訓(xùn)練,從而獲得精細(xì)的顯著圖檢測(cè)效果.Tan等人[9]僅使用圖像級(jí)標(biāo)簽,先通過第1階段得到前景推斷圖,再將前景推斷圖與第2階段得到的經(jīng)超像素處理后的原圖融合得到顯著性圖像.Zhao等人[10]提出了一種基于圖像語義的弱監(jiān)督顯著性物體檢測(cè)方法,利用魚網(wǎng)絡(luò)和注意力機(jī)制的組合模型,結(jié)合余弦相似度和誘導(dǎo)策略進(jìn)行網(wǎng)絡(luò)模型的訓(xùn)練.
根據(jù)模型對(duì)深度圖的使用方式,可以將RGBD圖像顯著性檢測(cè)方法分為隱式和顯式兩類.顯式方法直接將深度圖像信息和彩色圖像信息結(jié)合進(jìn)行顯著性檢測(cè),如Guo等人[11]提出一種基于進(jìn)化策略(Evolution Strategy,ES)的顯著性檢測(cè)方法,該方法將深度信息和顏色信息結(jié)合并利用元胞自動(dòng)機(jī)傳播顯著性得到最終的顯著圖.Chen等人[12]提出一種基于感知的互補(bǔ)融合模式,通過逐步合并融合深度圖和彩色圖的信息,實(shí)現(xiàn)RGBD跨模態(tài)信息的互補(bǔ).隱式方法直接使用左右視圖進(jìn)行顯著性檢測(cè).如Cho等人[13]提出一種三維圖像的顯著性檢測(cè)算法,利用對(duì)比度先驗(yàn)以彌補(bǔ)左右視差信息在顯著性檢測(cè)中不可靠的情景,使得模型更加魯棒.
根據(jù)模型的網(wǎng)絡(luò)架構(gòu)也可將RGBD圖像顯著性檢測(cè)的方法分成多種類型.其中,單支流模型[14]將深度圖和彩色圖拼成四通道圖后直接輸入網(wǎng)絡(luò),其優(yōu)點(diǎn)是操作方便且模型參數(shù)量小.但是這樣直接拼接的方式并沒有考慮到深度圖和彩色圖之間跨模態(tài)的差異,并且強(qiáng)烈依賴于深度卷積神經(jīng)網(wǎng)絡(luò)提取特征的能力.為進(jìn)一步融合跨模態(tài)信息,一些方法將深度圖和彩色圖分別輸入兩個(gè)模型,最后將兩支網(wǎng)絡(luò)預(yù)測(cè)的結(jié)果在后端進(jìn)行融合,形成后端融合模型[15].雖然深度圖和彩色圖之間的跨模態(tài)差異可以在后端融合模型中得到解決,但是并沒有讓二者的互補(bǔ)性得到充分的利用,因此沒有達(dá)到魯棒的效果.為了更有效地融合深度圖和彩色圖信息,Zhao等人[16]在多個(gè)尺度上將提取到的深度特征與顏色特征融合,使其多個(gè)尺度信息得到充分的交流,形成多層次融合模型,但這種方法的缺點(diǎn)是模型冗余且內(nèi)存消耗巨大.為解決模型參數(shù)量過大的問題,許多優(yōu)秀的工作被提出來.Li等人[17]通過觀察得出即使深度圖像直接經(jīng)過RGB圖像顯著性檢測(cè)的模型也可以得到一個(gè)不壞的結(jié)果.因此,他們通過設(shè)計(jì)一個(gè)孿生網(wǎng)絡(luò)來減小RGBD圖像顯著性算法的規(guī)模.此外,Wang等人[18]結(jié)合超像素算法,提出一種基于區(qū)域特征聚類的RGBD顯著性物體檢測(cè)算法.Xiang等人[19]提出了一種具有多尺度感知能力的上采樣融合模塊,通過融合多模態(tài)數(shù)據(jù)進(jìn)行RGBD顯著性物體檢測(cè).Fu等人[20]觀察到彩色圖和深度圖在區(qū)分顯著對(duì)象方面呈現(xiàn)一定共性,據(jù)此他們?cè)O(shè)計(jì)一個(gè)新的聯(lián)合學(xué)習(xí)和密集合作融合架構(gòu)進(jìn)行多模態(tài)數(shù)據(jù)的融合.
本小節(jié)將介紹本文基于圖像分類的弱監(jiān)督RGBD圖像顯著性檢測(cè)方法框架.如圖1所示,本文提出的框架主要由分類任務(wù)和基于RGBD圖像顯著性檢測(cè)任務(wù)這兩部分組成.其中,分類任務(wù)使用基于梯度的類別響應(yīng)(Grad Class Activation Map,Grad-CAM)[21]生成粗略的類別響應(yīng)定位圖(Class Activation Map,CAM).框架整體流程如下:
圖1 基于圖像分類的弱監(jiān)督RGBD顯著性檢測(cè)方法Fig.1 Weakly-supervised RGBD saliency detection based on image classification
首先,將彩色圖輸入分類任務(wù)模塊得到CAM,并將深度圖和彩色圖輸入傳統(tǒng)的基于中心暗通道的RGBD圖像顯著性檢測(cè)算法(Center-Dark Channel Prior,CDCP)[22]生成初始顯著圖.然后,使用深度圖對(duì)初始顯著圖和CAM進(jìn)行深度優(yōu)化生成偽標(biāo)簽.本文將在3.1節(jié)對(duì)這部分進(jìn)行詳細(xì)敘述.
其次,使用RGBD圖像顯著性檢測(cè)模型預(yù)測(cè)顯著性圖像.具體而言,該模型框架基于全卷積網(wǎng)絡(luò)(Fully Convolutional Networks,F(xiàn)CN)[23],在3.2節(jié)將對(duì)該模型框架展開進(jìn)一步的描述.
最后,使用帶有部分噪聲的偽標(biāo)簽來監(jiān)督訓(xùn)練本文引入的網(wǎng)絡(luò)模型.模型訓(xùn)練中的損失函數(shù)是本文所提出的由加權(quán)交叉熵?fù)p失和條件隨機(jī)場推理損失以及邊緣損失組成的混合損失,具體做法將3.3節(jié)中進(jìn)行相關(guān)的說明.
本文采用的是Grad-CAM框架,將彩色圖像輸入分類任務(wù)的模型之中得到相應(yīng)的類別響應(yīng)圖CAMmap.值得注意的是,本文方法僅僅使用了一個(gè)預(yù)訓(xùn)練的ResNet152[24]進(jìn)行分類任務(wù)生成類別響應(yīng)圖,未采用任何其他的人工標(biāo)注,并且分類任務(wù)的模型不參與網(wǎng)絡(luò)參數(shù)的更新.如圖1中基于梯度的類別響應(yīng)模塊的卷積層是加載ResNet152的模型參數(shù).本文將圖1中分類模型的特征圖集合定義為矩陣M(M∈H×W×N),其中H,W分別代表特征圖的高和寬,N代表通道數(shù).與普通的類別響應(yīng)機(jī)制CAM[25]一致,基于梯度的類別響應(yīng)機(jī)制Grad-CAM的響應(yīng)圖通過特征圖線性組合而成.不同的是,Grad-CAM的線性組合權(quán)重與分類概率在特征圖上的偏導(dǎo)有關(guān),具體公式化表達(dá)為:
(1)
(2)
(3)
本文的初始顯著圖是由Zhu等人[22]提出的基于中心暗通道先驗(yàn)的RGBD圖像顯著性檢測(cè)算法CDCP生成.該算法利用中心以及暗通道先驗(yàn)得到中心暗通道圖,然后將它們?nèi)诤喜?yōu)化生成最終的顯著圖Scdcp,即本文中的初始顯著圖.此算法屬于利用傳統(tǒng)手工特征進(jìn)行顯著性檢測(cè)的算法,因此不需要任何的人工標(biāo)注.
(4)
(5)
其中,α表示不小于1的超參數(shù),本文中α=1.4.同理Scdcp的優(yōu)化過程與CAMmap保持一致:
(6)
(7)
(8)
圖2中展示了本文生成的偽標(biāo)簽的結(jié)果示例圖,用來證明本文初始化偽標(biāo)簽的有效性.其中,圖2(a)表示彩色圖像,圖2(b)表示深度圖像,圖2(c)表示Scdcp圖像,圖2(d)表示公式(3)的CAMmap圖像,圖2(e)表示公式(8)的Ynoisy圖像,即優(yōu)化后的偽標(biāo)簽.從圖2的結(jié)果可以看出,經(jīng)過優(yōu)化后的偽標(biāo)簽相比于原始的CDCP生成的顯著性物體更加完整,雖然也會(huì) 引入多余的灰度噪聲,但是由于本文的算法將灰度值趨于0.5的區(qū)域視為不確定的區(qū)域,在訓(xùn)練過程中不計(jì)算該部分損失,因此對(duì)模型的影響并不大.
圖2 標(biāo)簽初始化示例圖Fig.2 Example images of label initialization
本文認(rèn)為在弱監(jiān)督RGBD圖像顯著性檢測(cè)中,訓(xùn)練的策略以及標(biāo)簽的生成相比于網(wǎng)絡(luò)結(jié)構(gòu)對(duì)檢測(cè)結(jié)果的影響更大.因此,本文沒有額外定義復(fù)雜的網(wǎng)絡(luò)模型,而是采用現(xiàn)有的比較成熟的FCN分割模型進(jìn)行RGBD顯著性檢測(cè),確保計(jì)算資源和訓(xùn)練時(shí)間的消耗抵得上精度的提升.在此基礎(chǔ)上,為了使FCN模型能夠適應(yīng)RGBD圖像的輸入,本文在FCN模型的輸入層之前加入一個(gè)卷積模塊.具體來說,該卷積模塊包含兩層3×3卷積層,使得彩色圖像和深度圖像在輸入FCN模型之前進(jìn)行初步的融合.
由于初始的輸入圖像的尺度較大,需要在更大的視野域上進(jìn)行融合.因此,本文首先將彩色圖像和深度圖像在通道上進(jìn)行拼接,并將拼接后的圖像再進(jìn)行兩次卷積,得到初步融合后的特征.然后,本文將初步融合后的特征輸入FCN網(wǎng)絡(luò)模型,并將最后一層的輸出改成1層,作為2分類形式的分割模型.最后將FCN模型的輸出經(jīng)過Sigmoid激活函數(shù),使得最終的輸出限制在0-1之間,從而獲得最終的顯著性圖Sfinal.
顯著性檢測(cè)任務(wù)本質(zhì)上是分類任務(wù),因此常使用交叉熵?fù)p失函數(shù).但是本文的偽標(biāo)簽中存在著灰度不確定區(qū)域,因此需要對(duì)原始的交叉熵?fù)p失函數(shù)進(jìn)行改造.首先介紹在顯著性檢測(cè)中原始的交叉熵?fù)p失函數(shù),偽標(biāo)簽Y在[i,j]的像素與預(yù)測(cè)標(biāo)簽S在[i,j]的像素的初始交叉熵?fù)p失Lbce表示為:
Lbce=-∑{Y[i,j]logS[i,j]+(1-Y[i,j])log(1-S[i,j])}
(9)
L′bce=|Y[i,j]-0.5|×Lbce
(10)
本文在每個(gè)像素上設(shè)置一個(gè)權(quán)重,限制每個(gè)像素上對(duì)損失的貢獻(xiàn)度,并且該權(quán)重的大小正比于偽標(biāo)簽Y上像素值與0.5灰度值的距離.其中,|·|表示絕對(duì)值算子.但是訓(xùn)練過程中僅僅依靠新的交叉熵?fù)p失函數(shù)是不充分的,該函數(shù)只能使得網(wǎng)絡(luò)逼近確定區(qū)域并進(jìn)行正確分類.因此,本文定義了另一個(gè)條件隨機(jī)場CRF推理損失函數(shù)使得網(wǎng)絡(luò)模型能夠通過其他區(qū)域推斷不確定區(qū)域.CRF是顯著性檢測(cè)任務(wù)中常用的后處理手段,用來優(yōu)化測(cè)試生成的顯著圖.不同的是,本文將其用在訓(xùn)練過程中,將其定義成一個(gè)損失函數(shù)Lcrf優(yōu)化本文的模型:
Lcrf=Lbce(Sfinal,CRF(Sfinal,Irgb))
(11)
其中,Irgb表示彩色圖像,Sfinal表示網(wǎng)絡(luò)輸出結(jié)果.具體來說,本文將網(wǎng)絡(luò)的輸出結(jié)果Sfinal進(jìn)行CRF推斷.然后,將推斷后的結(jié)果CRF(Sfinal,Irgb)與網(wǎng)絡(luò)模型的輸出結(jié)果Sfinal進(jìn)行交叉熵?fù)p失計(jì)算.值得注意的是,此處的交叉熵?fù)p失函數(shù)是公式(9),因?yàn)橛蒀RF推斷生成的標(biāo)簽并沒有設(shè)置不確定區(qū)域,僅僅是對(duì)網(wǎng)絡(luò)模型輸出結(jié)果的細(xì)化.
最后,本文通過邊緣損失函數(shù)對(duì)顯著性圖邊緣進(jìn)行優(yōu)化.由于生成的偽標(biāo)簽具有一定程度的噪聲,在這種標(biāo)簽上直接進(jìn)行邊緣檢測(cè)會(huì)使得邊緣更加雜亂,因此弱監(jiān)督圖像顯著性檢測(cè)的做法是在灰度圖上獲得全局的邊緣.
對(duì)于本文的圖像顯著性檢測(cè)任務(wù)來說,顯著性物體的外部輪廓邊緣是必要的,而其他部分的邊緣輪廓是冗余的,所以本文生成邊緣結(jié)構(gòu)標(biāo)簽的流程是:首先將本文預(yù)測(cè)的顯著圖進(jìn)行膨脹以及腐蝕.顯著圖膨脹結(jié)果圖與腐蝕結(jié)果圖對(duì)應(yīng)于圖3中的(e)和(f).然后,二者進(jìn)行減法操作得到顯著物體邊緣附近區(qū)域的定位掩碼圖(圖3中的(h))作用于最初的邊緣圖(圖3中的(c))上生成用來監(jiān)督的邊緣標(biāo)簽Yedge(圖3中的(i)).
圖3 邊緣損失示例圖Fig.3 Illustration for edge loss
因此,本文的邊緣損失函數(shù)定義為:
(12)
其中,ΔSfinal表示顯著圖的邊緣圖,對(duì)應(yīng)于圖3中的(g).最后,本文最終用于訓(xùn)練的混合損失函數(shù)為:
Lfinal=L′bce+Lcrf+L′edge
(13)
為了驗(yàn)證本文所提出的方法的有效性,本文使用NLPR數(shù)據(jù)集[27]、NJU2000數(shù)據(jù)集[28]、LFSD數(shù)據(jù)集[29]、STEREO數(shù)據(jù)集[30]和RGBD135數(shù)據(jù)集[31],并在各個(gè)數(shù)據(jù)集上與各種已有的RGBD圖像顯著性檢測(cè)方法進(jìn)行不同指標(biāo)對(duì)比,這些方法包括LHM[32]、CDB[33]、DESM[34]、GP[35]、CDCP[22]、ACSD[36]、SE[11].
本文實(shí)驗(yàn)?zāi)P突赑yTorch框架.為訓(xùn)練本文的RGBD顯著性檢測(cè)網(wǎng)絡(luò)模型,本文從NJU2000數(shù)據(jù)集中挑選1400張圖像當(dāng)作訓(xùn)練集,87張圖像當(dāng)成驗(yàn)證集,498張圖像當(dāng)成測(cè)試集.在訓(xùn)練過程中,將本文的網(wǎng)絡(luò)模型在單張Nvidia RTX 2080 GPU上訓(xùn)練,花費(fèi)4小時(shí)左右完成100輪訓(xùn)練.本文使用Adam優(yōu)化器[37]進(jìn)行網(wǎng)絡(luò)模型的迭代優(yōu)化,將學(xué)習(xí)率設(shè)置為10-4,批次大小設(shè)置為5.本文將所有的圖像重采樣到224×224大小,并且沒有進(jìn)行數(shù)據(jù)增強(qiáng)的操作.
為了評(píng)估本文所提出的方法的有效性,本文使用F-measure[38]、S-measure[39]、MAE[40]以及E-measure[41]這4種指標(biāo)來評(píng)價(jià)不同算法的實(shí)驗(yàn)性能.其中,平均絕對(duì)誤差MAE是Perazzi等人提出的作為圖像顯著性檢測(cè)算法的性能指標(biāo),它通過計(jì)算預(yù)測(cè)圖與真值標(biāo)簽圖在每個(gè)像素點(diǎn)上的絕對(duì)差值來衡量預(yù)測(cè)圖和真值標(biāo)簽圖的差異,MAE指標(biāo)數(shù)值越小越好,但是使用MAE并不能說明顯著性物體的邊緣問題.F-measure是一種被廣泛使用的圖像顯著性檢測(cè)評(píng)價(jià)指標(biāo),它從總體上衡量算法的分類性能,既考慮分類的正確率也考慮分類的召回率,而不像MAE那樣簡單地計(jì)算每個(gè)像素的絕對(duì)誤差.F-measure數(shù)值范圍為0-1,且數(shù)值越大越好.同時(shí),為了評(píng)價(jià)圖像顯著性檢測(cè)中的結(jié)構(gòu)相似度,本文引入S-measure指標(biāo)進(jìn)行圖像顯著性在邊緣檢測(cè)上的性能評(píng)估,S-measure的數(shù)值范圍也是0-1,且數(shù)值越大代表結(jié)構(gòu)越清晰.E-measure是Fan等人基于認(rèn)知視覺研究所提出的評(píng)價(jià)指標(biāo),這個(gè)指標(biāo)采集圖像整體的數(shù)據(jù)分布以及局部像素的匹配信息,指標(biāo)數(shù)值越大越好.
4.3.1 可視化結(jié)果對(duì)比
如圖4所示,本文展示了各種類型的例子來進(jìn)行可視化對(duì)比.具體來說,這些例子包含簡單的單目標(biāo)物體,多目標(biāo)小物體,深度噪聲物體,背景前景相似物體,以及室內(nèi)和室外的場景,以此來說明本文方法的魯棒性.
從整體上看,本文的方法與已有的RGBD圖像顯著性檢測(cè)方法相比,檢測(cè)到的顯著物體背景噪聲更少,并且本文的監(jiān)督偽標(biāo)簽是在CDCP所產(chǎn)生的顯著性圖基礎(chǔ)上生成的,但是在圖4中的各個(gè)檢測(cè)樣例上本文的方法表現(xiàn)得更優(yōu).
具體來說,在圖4第1行所給單目標(biāo)物體場景中,原始CDCP方法所產(chǎn)生的顯著圖中存在顯著性物體檢測(cè)不完整的問題,而本文方法能更完整且準(zhǔn)確地檢測(cè)出顯著性目標(biāo).同時(shí)本文方法能更全面地檢測(cè)多目標(biāo)場景中的顯著性物體,而LHM、CBD、GP、CDCP等方法在所給多目標(biāo)場景中存在檢測(cè)不全面的問題,如圖4第2行所示.圖4中第4行場景中的背景噪聲直接通過優(yōu)化方法是難以消除的,然而本文的方法在CDCP的基礎(chǔ)上能夠更好地過濾掉背景噪聲,得到結(jié)構(gòu)更加完整的顯著性檢測(cè)結(jié)果.相比于其他的方法,SE方法對(duì)于含有噪聲的深度圖的抗干擾性不夠,例如在圖4第3行中它會(huì)因?yàn)樯疃葓D的噪聲而使檢測(cè)到的顯著物體不夠全面,在圖4第5行中也會(huì)因?yàn)椴噬珗D部分區(qū)域顏色是背景色,導(dǎo)致最終的結(jié)果變成背景.反之本文的方法在抗干擾性上具有一定的優(yōu)越性,在深度圖的輔助下能更好地區(qū)分出前景與背景,例如圖4第3行中,在深度圖含有較多噪聲的場景中,本文方法能較為完整并且準(zhǔn)確地檢測(cè)出顯著性物體,而DESM、ACSD方法不容易將前景與背景分離.實(shí)驗(yàn)對(duì)比結(jié)果表明,本文的方法具有先進(jìn)的性能.
圖4 對(duì)比實(shí)驗(yàn)圖Fig.4 Contrast experiment examples
4.3.2 指標(biāo)性能對(duì)比
指標(biāo)性能對(duì)比實(shí)驗(yàn)的主要目的是測(cè)試所提出的方法在不同數(shù)據(jù)集上的實(shí)驗(yàn)性能.如表1所示,表中的行分別表示不同數(shù)據(jù)集以及在對(duì)應(yīng)數(shù)據(jù)集上測(cè)試的4種指標(biāo),列中的數(shù)值表示測(cè)得的具體指標(biāo)值,黑體表示最優(yōu)指標(biāo).
首先,通過觀察表中的指標(biāo)數(shù)據(jù)可以看出,本文所提出的方法具有優(yōu)秀的泛化性能與魯棒性,在RGBD135數(shù)據(jù)集上所測(cè)得實(shí)驗(yàn)指標(biāo)數(shù)據(jù)最佳.并且本文方法的指標(biāo)性能在所測(cè)試的數(shù)據(jù)集上均優(yōu)于原始的CDCP方法,表明本文提出的方法的有效性.具體來說,在所測(cè)試的4種指標(biāo)中,本文方法的實(shí)驗(yàn)性能在大部分情況下優(yōu)于所對(duì)比的RGBD圖像顯著性檢測(cè)方法,其中F-measure指標(biāo)性能與所測(cè)的最優(yōu)方法相比提升5.7%-11.4%.此外,MAE指標(biāo)也優(yōu)于所對(duì)比的其他方法,與所測(cè)的最優(yōu)方法相比提升2.6%-5.2%,實(shí)驗(yàn)結(jié)果表明本文方法在顯著圖檢測(cè)中的分類性能上優(yōu)于所對(duì)比的其他方法,因此檢測(cè)到的顯著性物體更全面且更準(zhǔn)確.
其次,本文S-measure指標(biāo)性能與所測(cè)的最優(yōu)方法相比提升2.1%-6.1%,表明本文所提出的方法相比于所對(duì)比的方法,能更好地檢測(cè)顯著性物體的邊緣,從而具有更好的目標(biāo)物體結(jié)構(gòu)相似性和區(qū)域結(jié)構(gòu)相似性,檢測(cè)到的顯著性物體也具有更完整的邊緣細(xì)節(jié).
最后,本文所提出的方法對(duì)E-measure指標(biāo)提升不明顯,在LFSD數(shù)據(jù)集上的實(shí)驗(yàn)性能未能超過SE方法,但是性能差距小于1%,在其他所測(cè)試的數(shù)據(jù)集中性能均超過SE方法,且仍優(yōu)于其他所對(duì)比的方法,表明本文所提出的方法在圖像整體的數(shù)據(jù)分布以及局部像素的匹配上優(yōu)化不明顯.
表1 對(duì)比實(shí)驗(yàn)表Table 1 Comparative experimental results
4.4.1 損失函數(shù)消融實(shí)驗(yàn)
為了證明本文引入的損失函數(shù)的有效性,本文在NLPR數(shù)據(jù)集上進(jìn)行相關(guān)的公平性消融實(shí)驗(yàn),消融實(shí)驗(yàn)所有的實(shí)驗(yàn)設(shè)置與對(duì)比實(shí)驗(yàn)保持一致.在消融實(shí)驗(yàn)中,本文證明CRF損失推理函數(shù)和邊緣損失函數(shù)在本文訓(xùn)練過程中存在的必要性.如表2所示,表中的行表示NLPR數(shù)據(jù)集上測(cè)試的4種指標(biāo),列中的數(shù)值表示測(cè)得的具體指標(biāo)值,黑體表示最優(yōu)指標(biāo),Lbce表示使用初始的交叉熵?fù)p失函數(shù),Lcrf/d表示去掉CRF損失推理函數(shù),Le/d表示去掉邊緣損失函數(shù),all表示所有的損失函數(shù)都存在.
表2 損失函數(shù)消融實(shí)驗(yàn)表Table 2 Loss function ablation results
從表2中的指標(biāo)數(shù)據(jù)上看,相比于初始的交叉熵?fù)p失函數(shù),CRF損失推理函數(shù)與邊緣損失函數(shù)的引入都有利于提高F-measure、S-measure和MAE指標(biāo)性能,去掉其中任意一個(gè)部分都會(huì)導(dǎo)致整體模型性能的退化.其中,引入CRF損失,F(xiàn)-measure、S-measure、E-measure、MAE指標(biāo)性能分別提升6.7%、3.1%、2%、1.6%.而引入邊緣損失函數(shù)會(huì)使F-measure、S-measure、E-measure、MAE指標(biāo)性能分別提升4.2%、4.1%、1.5%、1%.
在圖5中本文進(jìn)行了一個(gè)例子的可視化分析,圖5(a)表示彩色圖,圖5(b)表示深度圖,圖5(c)、(d)、(e)分別對(duì)應(yīng)著Lbce、Lcrf/d、Le/d,圖5(f)對(duì)應(yīng)著all.如圖5(c)所示,在使用初始的交叉熵?fù)p失的情況下,對(duì)不確定區(qū)域進(jìn)行損失的計(jì)算會(huì)帶來冗余的偽影.如圖5(d)所示,去掉CRF推理損失函數(shù)會(huì)導(dǎo)致檢測(cè)到的顯著性物體不夠全面,圖5(e)同樣也證明了本文邊緣損失函數(shù)在細(xì)節(jié)處理上的有效性,沒有邊緣損失函數(shù)的圖像明顯更加粗糙.
圖5 消融實(shí)驗(yàn)對(duì)比圖Fig.5 Comparison examples of ablation experiments
4.4.2 超參數(shù)消融實(shí)驗(yàn)
表3 超參數(shù)α消融實(shí)驗(yàn)表Table 3 Hyperparameter α ablation results
表4 超參數(shù)β消融實(shí)驗(yàn)表Table 4 Hyperparameter β ablation results
表5 超參數(shù)α、β消融實(shí)驗(yàn)表Table 5 Hyperparameter α、β ablation results
根據(jù)3.3節(jié)可知,由于生成的偽標(biāo)簽中存在著灰度不確定區(qū)域,本文的損失函數(shù)計(jì)算不直接依賴于生成的偽標(biāo)簽.因此,根據(jù)表5的實(shí)驗(yàn)結(jié)果,本文選取α/β=1.4/1.0、α/β=1.4/1.2這兩組超參數(shù)進(jìn)行模型訓(xùn)練,實(shí)驗(yàn)結(jié)果見表6,表中黑體表示最優(yōu)指標(biāo)值.
表6 超參數(shù)α、β測(cè)試實(shí)驗(yàn)表Table 6 Hyperparameter α、β test results
根據(jù)表6的實(shí)驗(yàn)結(jié)果,最終確定當(dāng)α取值為1.4,β取值為1.2時(shí),模型性能最佳.此外,結(jié)合表5與表6可以看出,當(dāng)α取值為1.4,β取值為1.2時(shí),訓(xùn)練后的網(wǎng)絡(luò)模型的F-measure、S-measure、E-measure、MAE指標(biāo)性能相較于生成的偽標(biāo)簽分別提升1.3%、1.4%、5.3%、2.2%,表明本文的RGBD顯著性檢測(cè)網(wǎng)絡(luò)模型是有效的.
本文針對(duì)在RGBD圖像顯著性檢測(cè)中標(biāo)簽昂貴的問題,設(shè)計(jì)了一個(gè)基于圖像分類的弱監(jiān)督RGBD圖像顯著性檢測(cè)框架.為了得到更完整的邊緣細(xì)節(jié)和顯著性物體結(jié)構(gòu),本文提出了基于深度優(yōu)化的標(biāo)簽生成策略以及定義了由加權(quán)交叉熵?fù)p失和條件隨機(jī)場推理損失以及邊緣損失組成的混合損失進(jìn)行網(wǎng)絡(luò)的訓(xùn)練.在各個(gè)數(shù)據(jù)集上,本文的方法優(yōu)于所對(duì)比的RGBD圖像顯著性檢測(cè)方法.但是本文方法離理想的強(qiáng)監(jiān)督算法仍有一定的差距,邊緣細(xì)節(jié)處理有所欠缺,將來工作可以考慮使用更多的傳統(tǒng)算法生成偽標(biāo)簽,或者考慮更魯棒的網(wǎng)絡(luò)模型.