左保川, 王一旭, 張 晴
(上海應(yīng)用技術(shù)大學(xué) 計(jì)算機(jī)科學(xué)與信息工程學(xué)院, 上海 201418)
顯著性物體檢測(cè)旨在模擬人類視覺注意機(jī)制,從雜亂的背景中定位和分割出最引人注意的區(qū)域或物體。近年來(lái),因其在計(jì)算機(jī)視覺領(lǐng)域的廣泛應(yīng)用而受到了極大的關(guān)注,其應(yīng)用包括視頻跟蹤[1]、圖像識(shí)別[2]以及內(nèi)容感知[3]、圖像裁剪[4]等。
自Itti等[5]提出顯著點(diǎn)預(yù)測(cè)和Liu等[6]提出顯著區(qū)域檢測(cè)方法以來(lái),研究人員提出了檢測(cè)具有精確物體輪廓信息的視覺顯著性算法來(lái)模擬圖像和視頻中的人類視覺注意機(jī)制。根據(jù)算法是否使用深度特征,可將顯著性物體檢測(cè)算法分為兩大類:使用手工選擇底層特征的傳統(tǒng)顯著性檢測(cè)方法和使用深度神經(jīng)網(wǎng)絡(luò)自動(dòng)學(xué)習(xí)有效特征的方法。傳統(tǒng)的顯著性對(duì)象檢測(cè)方法[7-10]采用啟發(fā)式先驗(yàn)和人工設(shè)計(jì)的圖像中低層特征進(jìn)行顯著性計(jì)算。雖然這些方法對(duì)于保持圖像結(jié)構(gòu)信息非常有用,然而,這些模型在面對(duì)復(fù)雜圖像時(shí)不能獲得令人滿意的預(yù)測(cè)結(jié)果,并且不太適用于實(shí)際應(yīng)用場(chǎng)景中的各種問題。例如,當(dāng)背景和顯著對(duì)象共具有相似屬性時(shí),很難識(shí)別出顯著對(duì)象(見圖1的第1行)。此外,當(dāng)有多個(gè)顯著物體時(shí),有時(shí)可能會(huì)檢測(cè)失敗(見圖1的第2行)。
圖1 不同算法的檢測(cè)結(jié)果比較
近年來(lái),全卷積神經(jīng)網(wǎng)絡(luò)(FCN)在計(jì)算機(jī)視覺任務(wù)中顯示出了強(qiáng)大的特征表示能力,并在許多密集標(biāo)記任務(wù)中獲得了驚人的結(jié)果,包括語(yǔ)義分割[11-12]、邊緣檢測(cè)[14-15]和姿態(tài)估計(jì)[13]等。受這些研究成果的啟發(fā),研究人員利用FCN從輸入圖像中自適應(yīng)地提取豐富語(yǔ)義信息的能力,并將其應(yīng)用于顯著物體檢測(cè)。這些基于FCN的顯著物體檢測(cè)模型[16-18]成功地彌補(bǔ)了人工選擇特征方法的不足,捕獲了顯著對(duì)象在雜亂背景下的語(yǔ)義信息,從而得到了更好的性能。然而,盡管使用語(yǔ)義信息的顯著性模型具有優(yōu)越性,但是圖像的低級(jí)和中級(jí)特征包含豐富的結(jié)構(gòu)細(xì)節(jié)信息,對(duì)于檢測(cè)顯著對(duì)象也十分重要。因此,如何在一個(gè)統(tǒng)一的深度學(xué)習(xí)框架中聚合多級(jí)顯著性線索以同時(shí)捕獲語(yǔ)義對(duì)象和細(xì)節(jié)信息是一個(gè)關(guān)鍵且具有挑戰(zhàn)性的問題。
本文提出了一種簡(jiǎn)單且有效的深度卷積神經(jīng)網(wǎng)絡(luò)模型用于顯著性物體檢測(cè),逐像素預(yù)測(cè)圖像的顯著性,并同時(shí)聚合網(wǎng)絡(luò)的多層次多尺度特征,以捕獲復(fù)雜圖像上的對(duì)象級(jí)信息和結(jié)構(gòu)細(xì)節(jié)特征。
(1) 提出了一種新的基于FCN的顯著性物體檢測(cè)網(wǎng)絡(luò)模型,該模型將整合圖像的多尺度多層次特征作為顯著性線索,完成圖像到圖像的逐像素點(diǎn)預(yù)測(cè),并在復(fù)雜圖像上學(xué)習(xí)有效且豐富的特征表示。
(2) 利用跳層結(jié)構(gòu)指導(dǎo)低層特征學(xué)習(xí)。借助網(wǎng)絡(luò)的深層卷積組得到的語(yǔ)義信息引導(dǎo)淺層組特征的學(xué)習(xí),使得淺層卷積組輸出的預(yù)測(cè)結(jié)果不僅具有結(jié)構(gòu)細(xì)節(jié)信息而且可以準(zhǔn)確定位顯著性物體。
(3) 所提出的模型在DUT-OMRON[9]、ECSSD[20]、HKU[21]、PASCALS[19]和SOD[34]基準(zhǔn)數(shù)據(jù)集上的定量和定性實(shí)驗(yàn)表明,所提算法就PR曲線、F-measure、weighted F-measure和MAE評(píng)價(jià)指標(biāo)均達(dá)到了較好性能。
視覺顯著性檢測(cè)方法可以大致分為兩大類:眼動(dòng)點(diǎn)預(yù)測(cè)和顯著性物體檢測(cè)。前者[5]主要用于預(yù)測(cè)眼球注視點(diǎn)的移動(dòng),而后者旨在從周圍環(huán)境中檢測(cè)和分割出完整的帶有明確邊界的顯著物體。本文主要關(guān)注基于深度學(xué)習(xí)的顯著物體檢測(cè)。
大多數(shù)顯著物體檢測(cè)方法通常通過(guò)局部或全局方式利用人工選擇的像素級(jí)或超像素級(jí)特征,例如顏色,紋理和方向,進(jìn)行顯著性計(jì)算。基于局部的方法使用每個(gè)像素或區(qū)域的獨(dú)特性或?qū)Ρ榷鹊葋?lái)捕獲局部突出的像素/區(qū)域,而基于全局的方法通過(guò)使用整個(gè)圖像的整體先驗(yàn)來(lái)估計(jì)每個(gè)像素或區(qū)域的顯著性。一些研究人員提出建立超像素的圖模型來(lái)隱式計(jì)算對(duì)比度[9,20],他們通過(guò)背景,中心和緊湊性先驗(yàn)等來(lái)計(jì)算顯著性。然而,主要依賴于人工選擇中低層特征的傳統(tǒng)方法無(wú)法描述圖像的語(yǔ)義特征,因此,它們無(wú)法在復(fù)雜圖像中檢測(cè)出顯著性對(duì)象。
最近,基于深度學(xué)習(xí)的方法,特別是卷積神經(jīng)網(wǎng)絡(luò)(CNN)已經(jīng)應(yīng)用于顯著物體檢測(cè)[36-37]并且較傳統(tǒng)的方法[38]取得了較大的性能提升。Wang等[23]提出一個(gè)深度神經(jīng)網(wǎng)絡(luò),首先計(jì)算局部上下文中每個(gè)像素的顯著性得分,然后用另一個(gè)網(wǎng)絡(luò)在全局視圖上重新評(píng)估每個(gè)對(duì)象的顯著性得分。Li等[21]通過(guò)在卷積神經(jīng)網(wǎng)絡(luò)中結(jié)合多尺度特征來(lái)預(yù)測(cè)每個(gè)超像素的顯著性得分。Zhao等[31]通過(guò)將全局和局部信息整合到基于深度學(xué)習(xí)的框架中來(lái)計(jì)算顯著性。雖然這些模型比傳統(tǒng)方案得到了更好的結(jié)果,但這些模型非常耗時(shí),因?yàn)樗鼈儗^(qū)域作為基本單元來(lái)訓(xùn)練深度神經(jīng)網(wǎng)絡(luò),并且網(wǎng)絡(luò)必須運(yùn)行多次來(lái)預(yù)測(cè)顯著性圖像中所有超像素的顯著性。
為了解決上述問題,研究人員傾向于采用類似FCN的網(wǎng)絡(luò)模型,以像素級(jí)的方式進(jìn)行顯著性物體檢測(cè)。一些研究人員建議使用特定的特征來(lái)進(jìn)行顯著性預(yù)測(cè)。例如,Lee等[25]建議編碼深層CNN的低級(jí)距離圖和高級(jí)語(yǔ)義特征。在文獻(xiàn)[36]中,提出了深度學(xué)習(xí)網(wǎng)絡(luò)共享分割和顯著性檢測(cè)任務(wù)的特征,并提出了一個(gè)圖Laplician正則化非線性回歸模型用于改進(jìn)。
與這些僅使用特定級(jí)別特征的方法不同,最新研究表明,因?yàn)樯顚犹卣靼瑢?duì)象的語(yǔ)義信息,而淺層特征包含豐富的細(xì)節(jié)信息,因此結(jié)合不同卷積層組輸出的多尺度多層次特征有助于進(jìn)一步提高顯著性預(yù)測(cè)的準(zhǔn)確性。
但是,如何有效地整合多級(jí)卷積特征仍然是個(gè)具有挑戰(zhàn)性的問題。一些研究人員為解決這一問題做了很多有價(jià)值的嘗試。Li等[27]結(jié)合了像素級(jí)全卷積分支和分段式空間池化分支,前者是一種多尺度全卷積網(wǎng)絡(luò),通過(guò)利用多尺度卷積層的視覺對(duì)比,生成具有原始輸入圖像的八分之一分辨率的顯著圖。Long等[11]引入跳層連接并將高級(jí)預(yù)測(cè)層添加到中間層以生成多分辨率的逐像素預(yù)測(cè)圖。Liu等[16]設(shè)計(jì)了一個(gè)兩步深度網(wǎng)絡(luò),其中一個(gè)網(wǎng)絡(luò)通過(guò)自動(dòng)學(xué)習(xí)各種全局結(jié)構(gòu)線索獲得粗略的全局預(yù)測(cè)圖,并采用另一個(gè)網(wǎng)絡(luò)通過(guò)整合本地上下文信息來(lái)進(jìn)一步重新確定顯著性圖的細(xì)節(jié)信息。
雖然基于深度學(xué)習(xí)的顯著物體檢測(cè)模型較傳統(tǒng)方法取得了明顯的進(jìn)步,但距離模型可以在雜亂背景下統(tǒng)一突出整個(gè)顯著物體并保留邊界的細(xì)節(jié)信息這一檢測(cè)目標(biāo)仍有很大的改進(jìn)余地。
本文提出的顯著性物體檢測(cè)模型主要包括兩個(gè)階段:(1)基于FCN的深層卷積網(wǎng)絡(luò),用于多級(jí)特征提取和整合; (2)顯著性更新。
為了設(shè)計(jì)一個(gè)類似與FCN的網(wǎng)絡(luò),使得它能夠計(jì)算圖像的局部和全局上下文信息,并包含各種分辨率圖的細(xì)節(jié)信息,本文提出了一個(gè)用于學(xué)習(xí)判別顯著特征的多尺度深度卷積神經(jīng)網(wǎng)絡(luò)(如圖2所示)。它由2部分組成:特征提取和融合模塊。
圖2 本文所提模型結(jié)構(gòu)
2.1.1 多層次特征提取模塊
所提模型采用VGG-16網(wǎng)絡(luò)[28](已在ImageNet數(shù)據(jù)集進(jìn)行圖像分類預(yù)訓(xùn)練)作為主干網(wǎng)絡(luò),并進(jìn)行一些修改以滿足要求。保留了13個(gè)卷積層,刪除了原來(lái)的第5個(gè)池化層和全連接層。因此,修改的VGG-16由5組卷積層組組成。為簡(jiǎn)單起見,我們將第5組卷積層中的第3個(gè)子層表示為Conv5_3,VGG-16中的其他卷積層也使用同樣方法進(jìn)行表示。對(duì)于尺寸為W×H的輸入圖像I,修改后的VGGNet產(chǎn)生5個(gè)特征圖fi,其空間分辨率通過(guò)步幅2的池化層依次降低。
對(duì)于從VGG-16中提取的每個(gè)特征圖fi,i∈{1,2,…,5},本文設(shè)計(jì)了一個(gè)密集連接的特征提取模塊Convi。受DenseNet[24]工作啟發(fā),該模塊采用一個(gè)簡(jiǎn)單的連接模式:為了保持前饋的特性,每一層都從前面的所有層獲得額外的輸入,并將自己的特征映射傳遞給所有后續(xù)層。圖3給出了該模塊的結(jié)構(gòu)示意圖。
圖3 特征提取模塊的細(xì)節(jié)
2.1.2 聚合模塊
從特征提取模塊獲得具有不同分辨率大小的5個(gè)特征圖。較深卷積層的特征圖可以準(zhǔn)確定位顯著性對(duì)象,而較淺卷積層生成的特征圖包含更多細(xì)節(jié)。為了幫助淺層特征圖包含更多的全局屬性,我們通過(guò)跳層結(jié)構(gòu)重新定義特征映射,即將深層的特征圖引入較淺層。在每個(gè)Unpool處理塊中,通過(guò)求和來(lái)組合特征。此外,還使用聚合模塊來(lái)組合不同的特征圖并最終得到一個(gè)融合后的顯著性預(yù)測(cè)圖。為了使具有不同分辨率的特征輸出圖具有相同大小以便進(jìn)行融合,我們使用去卷積層進(jìn)行上采樣。最后4個(gè)邊的去卷積層步幅分別設(shè)置為2、4、8和16。然后連接它們來(lái)以融合多尺度和多層次的各個(gè)特征。
為了提高網(wǎng)絡(luò)得到的顯著性預(yù)測(cè)圖的空間一致性并獲得更準(zhǔn)確的結(jié)果,我們?cè)谌诤虾蟮碾A段采用基于全連接的條件隨機(jī)場(chǎng)(CRF)[29]的像素顯著性以更新顯著性圖。該CRF模型解決了二值像素標(biāo)記問題,這類似于我們的顯著性預(yù)測(cè)任務(wù),該模型優(yōu)化以下能量函數(shù)進(jìn)行求解:
(1)
其中,L表示所有像素的二值標(biāo)簽分配。P(li)是具有標(biāo)簽li的像素xi的顯著性概率性。最初,P(1)=Si和P(0)=1-Si,其中Si是網(wǎng)絡(luò)得到的融合后的顯著圖S中的像素xi的顯著性值。θi,j(li,lj)定義如下:
(2)
該網(wǎng)絡(luò)基于公開的caffe庫(kù)[35],這是一個(gè)用于CNN訓(xùn)練和測(cè)試的開源框架。如上所述,我們選擇VGG-16作為預(yù)訓(xùn)練的主干模型。我們使用與文獻(xiàn)[8]中相同的訓(xùn)練方式。學(xué)習(xí)率設(shè)定為1e-9,動(dòng)量參數(shù)為0.9,加權(quán)衰減設(shè)定為 0.000 5。在訓(xùn)練階段,特征融合模塊中的權(quán)重都被初始化為0.2。本模型訓(xùn)練時(shí)未使用驗(yàn)證集,當(dāng)損失值收斂時(shí)訓(xùn)練結(jié)束。
我們?cè)?個(gè)公開的且廣泛使用的顯著物體檢測(cè)基準(zhǔn)數(shù)據(jù)集上進(jìn)行性能評(píng)估。 DUT-OMRON是從超過(guò) 140 000 張自然圖像庫(kù)中選擇獲取的,每張圖像都有1個(gè)或多個(gè)顯著物體和相對(duì)復(fù)雜的背景。作為復(fù)雜場(chǎng)景顯著性數(shù)據(jù)集(CSSD)的擴(kuò)展,通過(guò)整合來(lái)自2個(gè)公開可用數(shù)據(jù)集和因特網(wǎng)的圖像來(lái)獲得ECSSD數(shù)據(jù)集。HKU包含 4 447 張圖像,其中大部分都是低對(duì)比度和多個(gè)顯著物體。PASCAL-S由PASCAL VOC數(shù)據(jù)集生成,具有20個(gè)對(duì)象類別和復(fù)雜場(chǎng)景。SOD數(shù)據(jù)集中,圖像具有多個(gè)顯著對(duì)物體且背景較為雜亂。
本文采用常用的PR曲線、F-measure(Fβ)和weighted F-measure(ωFβ)以及平均絕對(duì)誤差(MAE)進(jìn)行算法性能評(píng)價(jià)的量化指標(biāo)。
根據(jù)從0到255的閾值,將顯著性特征圖二值化,并與真值圖進(jìn)行比較來(lái)計(jì)算準(zhǔn)確率和召回率。PR曲線顯示了在不同閾值下的顯著性圖的平均準(zhǔn)確率和召回率。
Fβ和ωFβ用于綜合考慮準(zhǔn)確率和召回率。
(3)
式中:β是衡量準(zhǔn)確率和召回率的平衡參數(shù),β2設(shè)為0.3。與Fβ類似,ωFβ用Precisionω和Recallω的加權(quán)調(diào)和平均值計(jì)算:
(4)
MAE用來(lái)評(píng)估顯著圖和真值圖之間的平均像素誤差。
(5)
式中:S表示最終顯著圖,G表示真值圖,h和w分別表示圖像的高度和寬度,i和j表示像素點(diǎn)的位置。
本文提出的方法與10種具有代表性的方法進(jìn)行了比較,包括UCF[33],MTDS[26],LEGS[23],MDF[21],KSR[30],DRFI[8],SMD[10],ELD[25],MC[31]和ELE[32]。為了比較的公平性,所有的比較算法的顯著性圖均使用作者提供的實(shí)現(xiàn)方法獲取或作者公開的顯著性預(yù)測(cè)圖。其中MC,UCF,ELD,MTDS,LEGS,MDF,KSR是基于深度學(xué)習(xí)的模型。
圖4和圖5顯示PR曲線和MAE分?jǐn)?shù)的比較結(jié)果。Fβ和ωFβ的比較結(jié)果用表1表示。依據(jù)Fβ,ωFβ和MAE值的比較,可以看到所提模型優(yōu)于所有其他方法,特別是在復(fù)雜數(shù)據(jù)集HKU和SOD上。對(duì)于PR曲線,我們的模型在4個(gè)數(shù)據(jù)集上也取得了良好的性能,僅比UCF模型在ECSSD和PASCAL-S上的表現(xiàn)略遜色一些。
圖4 不同方法在5個(gè)數(shù)據(jù)集中生成的顯著圖的PR曲線
表1 不同方法在DUT-OMRON, ECSSD, HKU, PASCAL-S和SOD數(shù)據(jù)集上生成的顯著圖的Fβ和ωFβ得分
圖5 不同的模型在5個(gè)數(shù)據(jù)集上生成的顯著圖的MAE得分
圖6展示了本文算法和各個(gè)比較算法的視覺對(duì)比結(jié)果??梢钥吹剑疚乃崮P筒粌H可以準(zhǔn)確地檢測(cè)和定位顯著性物體,還可以較好保留物體細(xì)節(jié)信息。所提算法可以較好地處理各種復(fù)雜圖像,包括顯著性小物體(第4排和第5排),雜亂背景下的顯著性物體(第1排和第6排),背景和前景物體具有相似的顏色屬性(第2排,第3排和第5排)等各種復(fù)雜情況。
圖6 不同模型的視覺對(duì)比結(jié)果
本文使用CRF方法更新網(wǎng)絡(luò)得到的顯著性圖,為了驗(yàn)證其有效性,使用Fβ,ωFβ和MAE指標(biāo)評(píng)價(jià)5種顯著性檢測(cè)算法在5個(gè)基準(zhǔn)數(shù)據(jù)集上的性能。評(píng)價(jià)結(jié)果用表2表示。由表2可知, CRF方法提高了進(jìn)一步提高了模型準(zhǔn)確性。
表2 使用(with)和不使用(w/o)CRF方法的Fβ、ωFβ和MAE比較
本文提出了一種簡(jiǎn)單且有效的基于全卷積網(wǎng)絡(luò)的逐像素預(yù)測(cè)的顯著物體檢測(cè)模型,該模型提取深度卷積網(wǎng)絡(luò)的多尺度和多層次特征,并通過(guò)密集連接模塊更好地利用了上下文的信息。同時(shí),利用深層特征富含的語(yǔ)義信息引導(dǎo)較淺層進(jìn)行更有效的特征學(xué)習(xí)。另外,采用融合層來(lái)組合這些豐富的特征以生成顯著圖。為了提高顯著性檢測(cè)結(jié)果的準(zhǔn)確性,引入了全連接的CRF方法以進(jìn)一步更新網(wǎng)絡(luò)得到的顯著性預(yù)測(cè)結(jié)果,使得最終得到的顯著性圖具有一致的內(nèi)部區(qū)域以及清晰的邊緣。實(shí)驗(yàn)結(jié)果表明,本文提出的方法在5個(gè)公開且流行的基準(zhǔn)數(shù)據(jù)集上實(shí)現(xiàn)了比10種具有代表性算法更好的顯著物體檢測(cè)性能。