陳小偉 張 裕* 林家駿 張 晴
1(上海應(yīng)用技術(shù)大學(xué) 上海 201418)2(華東理工大學(xué) 上海 200237)
顯著物體檢測的目的是模擬人的視覺感知,從雜亂背景中定位和分割出最引人注意的具有精確輪廓的物體。近年來,顯著性物體檢測作為一個預(yù)處理步驟被廣泛應(yīng)用于各種計算機視覺任務(wù),包括視頻跟蹤[1]、目標識別[2]和圖像編輯[3]等。
根據(jù)算法是否使用深度特征,可將顯著性物體檢測算法分為兩大類:基于手動選擇特征的傳統(tǒng)方法[4-5]和使用深度神經(jīng)網(wǎng)絡(luò)提取語義特征的方法[6-7]。傳統(tǒng)的顯著性檢測方法采用顏色、紋理、形狀等圖像中低層特征,并利用啟發(fā)式先驗條件(顏色對比度、邊界、物體級信息等)進行顯著性物體檢測計算。雖然基于傳統(tǒng)的方法在處理簡單場景圖像時取得了較好的檢測效果,但由于其無法提取圖像深層的語義特征,因此在面對復(fù)雜圖像時,檢測效果與人的視覺感知結(jié)果存在較大的差異。
近年來,卷積神經(jīng)網(wǎng)絡(luò)在計算機視覺任務(wù)中顯示出了其強大的特征表征和學(xué)習(xí)能力。受此啟發(fā),研究人員將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于顯著性檢測任務(wù)。一些基于卷積神經(jīng)網(wǎng)絡(luò)的顯著性檢測算法[6,8,22]利用了圖像的深度特征,取得了比傳統(tǒng)方法更好的檢測性能。隨著全卷積神經(jīng)網(wǎng)絡(luò)的興起,研究人員發(fā)現(xiàn),融入中低層特征的顯著性檢測模型[9-10,23-24]相比僅利用深度特征的方法更進一步提高了算法性能,因為中低層特征包含豐富的結(jié)構(gòu)和細節(jié)信息,對于勾勒出完整和精確的輪廓信息具有十分重要的作用。
盡管現(xiàn)有算法取得了令人矚目的成果,顯著性物體檢測領(lǐng)域仍具有如下問題需要解決:(1) 基于特征金字塔網(wǎng)絡(luò)(Feature pyramid network,FPN)[11]結(jié)構(gòu)的顯著檢測模型,將深度信息逐層傳遞給淺層,在傳遞過程中,深度信息必然有損失,不能全部傳遞給最淺層;(2) 自然場景中包含各種尺度的物體,而某一固定大小的卷積核只能處理固定尺寸的目標物體,因此如何在每一層次的特征中融合多尺度信息值得進一步研究。
本文提出一種簡單有效的基于全卷積神經(jīng)網(wǎng)絡(luò)的顯著性物體檢測模型,結(jié)合圖像的多層次特征,探索多尺度特征的表示和融合,并且將全局信息直接與每一層的特征進行融合,指導(dǎo)多層次特征的提取,從而提高模型的檢測性能。
本文工作主要貢獻如下:(1) 提出了一種新的全局信息引導(dǎo)的多尺度特征卷積神經(jīng)網(wǎng)絡(luò)用于顯著物體檢測,將全局信息直接與多層次局部特征相結(jié)合。該模型能更好利用全局信息,從而提高檢測性能。(2) 設(shè)計了多尺度卷積模塊,利用同一側(cè)輸出的不同尺度特征融合,提高網(wǎng)絡(luò)各層次特征的表達和學(xué)習(xí)能力。(3) 根據(jù)常用的評價指標,在ECSSD、DUT-OMRON、PASCAL-S和DUTS-TE數(shù)據(jù)上進行算法性能比較與分析,從而說明本文算法的有效性和魯棒性。
顯著性檢測方法可以分為基于眼動點的顯著性預(yù)測和具有精確物體輪廓信息的顯著性物體檢測,本文主要關(guān)注顯著性物體檢測。
大部分傳統(tǒng)的顯著性物體檢測方法先將圖像進行超像素分割,然后采用手動選擇圖像的中低層特征進行顯著性計算?;诰植康姆椒╗12]使用每個超像素的對比度或獨特性等先驗信息來捕獲局部顯著區(qū)域。而基于全局的方法[13-14]通過使用整個圖像的整體信息來計算每個超像素的顯著度。由于基于手動選擇特征的方法不能有效利用圖像蘊含的語義信息,因此無法從復(fù)雜圖像中精確檢測和分割顯著性物體。
近年來,基于卷積神經(jīng)網(wǎng)絡(luò)的顯著性物體檢測方法[19]明顯提高了檢測性能。Wang等[6]提出一個深度神經(jīng)網(wǎng)絡(luò),首先計算局部上下文中每個像素的顯著性得分,然后用另一個網(wǎng)絡(luò)在全局視圖上重新評估每個對象的顯著性得分。Li等[8]利用深度神經(jīng)網(wǎng)絡(luò)提取圖像的多尺度特征,通過融合這些特征計算顯著性值。Zhao等[15]通過整合全局和局部信息預(yù)測顯著性圖。然而,上述檢測方法將圖像區(qū)域視為基本的計算單元,網(wǎng)絡(luò)必須運行多次得到整個圖像的顯著性值。
為了解決該問題,研究人員引入全卷積網(wǎng)絡(luò),采用圖像到圖像的方式進行顯著性檢測[7]。利用全卷積網(wǎng)絡(luò)的各個側(cè)邊輸出的多層次特征,采用類似U-Net結(jié)構(gòu),進行顯著性檢測信息的編碼和解碼。網(wǎng)絡(luò)的低層側(cè)邊輸出的特征富含低層特征,但缺乏圖像的整體語義信息;而網(wǎng)絡(luò)的深層側(cè)邊輸出的特征含有豐富的語義信息,但缺乏圖像的結(jié)構(gòu)細節(jié)。因此,結(jié)合網(wǎng)絡(luò)的不同側(cè)邊輸出的多層次特征有助于進一步提高顯著性預(yù)測的準確性。
Luo等[16]通過一個多分辨的4×5網(wǎng)格結(jié)構(gòu)融合圖像的局部和全局信息,并采用Mumford-Shah函數(shù)進行邊界優(yōu)化。文獻[17]采用反注意力圖引導(dǎo)特征選擇。文獻[18]采用跳層連接方式將深層特征融入各淺層側(cè)輸出,從而進行顯著性計算。Zhang等[10]利用注意力機制,逐層引導(dǎo)各側(cè)邊輸出整合多層次特征。Zhang等[20]提出采用雙向信息傳遞模型整合多層次特征。
雖然這些基于深度學(xué)習(xí)的方法已經(jīng)取得了明顯的成效,但是仍有很大的進步空間,使其可以在復(fù)雜場景中均勻突出整個顯著目標并且準確判斷邊界,同時有效抑制背景噪聲。
為了一致高亮顯著區(qū)域,同時抑制無關(guān)背景噪聲,本文提出一種新的全局信息引導(dǎo)的多特征網(wǎng)絡(luò)(GCMF-Net)用于顯著物體檢測,探索利用全局信息引導(dǎo)多層次特征提取方法及多尺度特征的檢測和融合策略。
GCMF-Net的整體結(jié)構(gòu)如圖1所示,主要包含多尺度特征提升模塊(MFEM)和全局信息引導(dǎo)模塊(GCGM)。其中,全局信息引導(dǎo)模塊GCGM由空洞空間卷積池化金字塔(ASPP)模塊[30]和全局特征融合模塊(GFFM)構(gòu)成。本文使用基于VGG-16的全卷積網(wǎng)絡(luò)結(jié)構(gòu)作為主干網(wǎng)絡(luò)模型,采用PFN結(jié)構(gòu),以由粗至細的方式更新顯著性圖。利用主干網(wǎng)絡(luò)提取圖像的多層次特征;利用MFEM模塊提取不同層次的多尺度特征,并將這些特征進行融合;利用ASPP模塊獲取多尺度的全局語義特征;利用GFFM模塊融合不同層次的多尺度特征與全局特征,從而準確捕獲多層次多尺度的顯著區(qū)域特征。
圖1 GCMF-Net整體結(jié)構(gòu)
由于主干網(wǎng)絡(luò)的卷積層組采用固定大小的卷積核得到側(cè)邊輸出特征,因此各側(cè)邊輸出特征均對固定尺寸的顯著物體具有較好的響應(yīng)值。然而,自然場景中包含各種尺度的物體,多尺度特征檢測和融合模塊的研究可以提高模型處理多尺度目標的能力,從而提升整個網(wǎng)絡(luò)的顯著物體檢測性能。
圖2 MFEM結(jié)構(gòu)
本文利用空洞空間卷積池化金字塔ASPP模塊捕獲多尺度的全局語義信息,從而生成包含顯著物體位置的全局特征。實驗將ASPP的三個空洞卷積層膨脹分別率分別設(shè)置為4、6和8。
卷積神經(jīng)網(wǎng)絡(luò)產(chǎn)生的高層特征包含圖像豐富的語義信息,而卷積神經(jīng)網(wǎng)絡(luò)低層側(cè)邊輸出特征包含更多的顏色、紋理和形狀等中低層圖像特征,因此融合各個側(cè)邊輸出的不同層次特征,能提高整個網(wǎng)絡(luò)的特征表達和學(xué)習(xí)能力。
現(xiàn)有模型一般采用FPN結(jié)構(gòu),將高層語義特征逐漸與低層特征相融合,采用由粗到細的方式逐漸更新顯著性圖,提高檢測質(zhì)量。但是這種逐層更新的方式在一定程度上削弱了高層語義信息對低層特征提取和更新的引導(dǎo)作用。因此,本文提出將全局語義信息直接與各個側(cè)邊輸出的多尺度融合特征相結(jié)合,利用高層語義信息直接引導(dǎo)側(cè)邊輸出的中低層特征集中于有效目標區(qū)域的特征表征與學(xué)習(xí)。
在本文提出的全局特征融合模塊中,將側(cè)邊輸出、深層的顯著特征圖、ASPP模塊生成的全局語義特征圖進行維度方向的連接,再使用32維的3×3卷積核進行特征融合,可表示為:
(1)
為評價算法性能,在四個公開的基準數(shù)據(jù)集上進行了一系列定性和定量評價實驗。數(shù)據(jù)集包括ECSSD、DUT-OMRON、PASCAL-S和DUTS-TE,各數(shù)據(jù)集的圖像數(shù)如表1所示。
表1 基準數(shù)據(jù)集信息
本文采用常用的準確率-召回率(PR)曲線、F測度(Fβ)、平均F測度(avgFβ)、加權(quán)F測度(wFβ)和平均絕對誤差(MAE)作為算法性能評價的量化指標。
根據(jù)從0到255的閾值,將顯著圖二值化,并與真值圖進行比較來計算準確率和召回率。PR曲線顯示了在某一數(shù)據(jù)集上不同閾值下的顯著圖的平均準確率和召回率。
Fβ用于綜合考慮準確率和召回率:
(2)
式中:p和r分別代表準確率和召回率;β是衡量準確率和召回率的平衡參數(shù),與文獻[18]參數(shù)選取一致,本文實驗將β2設(shè)為0.3。
wFβ使用加權(quán)準確率pw和加權(quán)召回率rw進行計算:
(3)
MAE用來評價顯著圖和真值圖之間的平均像素誤差:
(4)
式中:S表示最終顯著圖;G表示真值圖;h和w分別表示圖像的高度和寬度,i和j表示像素點的位置。
所提模型的訓(xùn)練和測試是在具有Intel i7- 7700k CPU(4.2 GHz)、32 GB RAM和一塊英偉達GTX TITAN GPU的臺式計算機上,使用Python實現(xiàn)。
所提出的網(wǎng)絡(luò)基于公開的Pytorch框架。本文模型使用DUTS-TR作為訓(xùn)練集。DUTS-TR包含10 553幅訓(xùn)練圖像。為了提高模型的魯棒性,本文通過隨機水平翻轉(zhuǎn)進行訓(xùn)練集增強。所有的訓(xùn)練圖像的分辨率均320×320,每次只加載一個圖像。學(xué)習(xí)率設(shè)置為5e- 5,使用Adam作為優(yōu)化算子,權(quán)重衰減為5e- 4,一共訓(xùn)練25期。
為了進一步提高邊緣像素的檢測精度,使用CRF[29]對本文模型輸出的預(yù)測結(jié)果進行顯著圖優(yōu)化。
將本文方法與8種近三年發(fā)表的具有代表性的方法進行了比較,包括PAGR[10]、RAS[17]、BDMP[20]、R3Net[28]、RADF[25]、ASNet[26]、RFCN[7]和AFNet[27]。為了比較的公平性,所有對比算法的顯著圖均使用作者提供的實現(xiàn)方法獲取或作者公開的顯著預(yù)測圖。
3.4.1定量比較
本文提出的GCMF-Net模型與具有代表性的8種主流方法的PR曲線圖如圖3所示。由圖3可知,GCMF-Net在ECSSD、DUTS-TE和DUT-OMRON這3個基準數(shù)據(jù)集上,較現(xiàn)有的代表性算法具有競爭力,只在PASCAL-S數(shù)據(jù)集上略遜于ASNet和AFNet。
(a) ECSSD數(shù)據(jù)集
此外,GCMF-Net模型與8種主流方法在四個公開基準數(shù)據(jù)集上就Fβ、avgFβ、wFβ和MAE指標進行了定量比較,結(jié)果如表2和表3所示,“/”表示原文作者沒有提供該數(shù)據(jù)集上的顯著性圖。
由表2和表3可知:(1) GCMF-Net在PASCAL-S數(shù)據(jù)集上的avgFβ指標略遜于AFNet,而MAE指標位居第四;(2) GCMF-Net在ECSSD、DUT-OMRON和DUTS-TE數(shù)據(jù)上,均具有最佳表現(xiàn)。
表2 不同方法在ECSSD和DUT-OMRON基準數(shù)據(jù)集上的性能比較
表3 不同方法在PASCAL-S和DUTS-TE基準數(shù)據(jù)集上的性能比較
綜合本文方法在四個基準數(shù)據(jù)集上的PR曲線、Fβ、avgFβ、wFβ和MAE評價結(jié)果,GCMF-Net較近年的主流方法具有一定的優(yōu)越性。
續(xù)表3
3.4.2定性比較
圖4顯示了GCMF-Net模型與不同算法在四個公開數(shù)據(jù)集上生成顯著性圖的視覺比較。由圖4可知,本文提出的GCMF-Net方法在各種復(fù)雜場景(例如多目標、復(fù)雜背景、大目標、小目標、目標接觸邊界、復(fù)雜目標等)中表現(xiàn)良好,一致高亮了顯著區(qū)域,并有效抑制了背景噪聲。
(a) 輸入 (b) 真值 (c) PAGR (d) RAS (e) BAMP (f) R3Net (g) RADF (h) ASNet (i) RFCN (j) AFNet (k) 本文圖4 不同方法生成顯著圖的視覺比較
3.5.1不同側(cè)輸出的預(yù)測結(jié)果分析
本文對GCMF-Net模型的各個側(cè)邊得到的顯著性圖,在ECSSD基準數(shù)據(jù)集上的進行檢測性能比較,結(jié)果如表4所示??梢钥闯觯顪\層的側(cè)邊得到的顯著性圖性能最佳,這表明了所提模型采用由粗至細的逐層更新策略是有效的。
表4 不同側(cè)輸出的性能比較
續(xù)表4
3.5.2不同模塊性能分析
為了驗證本文方法的可靠性和有效性,從本文模型中分別移除不同的模塊和結(jié)構(gòu),并且測試這些新的網(wǎng)絡(luò)模型在ECSSD和PASCAL-S數(shù)據(jù)集上的檢測性能。
采用Fβ、avgFβ、wFβ和MAE對未采用CRF進行顯著圖優(yōu)化的結(jié)果進行評價,如表5所示,本文方法中的各個模塊能有效提高檢測性能。其中:Ourswo_MFEM表示移除多尺度特征提取的特征優(yōu)化模塊,Ourswo_GCGM表示移除整個全局信息引導(dǎo)模塊,Ourswo_GFFM表示保留全局信息引導(dǎo)模塊中的全局特征提取部分,移除全局特征與其他側(cè)輸出的局部特征進行融合部分,Ourswo_ASPP表示移除全局信息引導(dǎo)模塊中的全局特征提取部分。
表5 不同模塊的性能比較
本文提出了一種利用多尺度和多層次特征進行顯著性目標檢測的方法。針對主干網(wǎng)絡(luò)的每個側(cè)輸出進行多尺度特征的提取和融合;利用從最深層側(cè)輸出提取的全局語義特征引導(dǎo)側(cè)輸出的多尺度特征聚焦于主要區(qū)域的特征表達和學(xué)習(xí);采用類似于FPN的網(wǎng)絡(luò)結(jié)構(gòu),逐漸更新預(yù)測顯著性圖;采用深監(jiān)督方式進行網(wǎng)絡(luò)訓(xùn)練,從而得到預(yù)測顯著性圖。在測試階段,為了進一步獲得具有精確輪廓和均勻一致內(nèi)部區(qū)域的顯著物體檢測結(jié)果,使用基于全連接的CRF進行顯著性圖更新。在四個公開的基準數(shù)據(jù)集上的實驗結(jié)果表明,本文方法較8種近年發(fā)表的主流算法具有優(yōu)越性。未來研究將考慮引入顯著性物體的輪廓信息以獲得更清晰的目標邊界。