張衛(wèi)國(guó),馬靜瑞
(西安科技大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,陜西 西安 710054)
顯著性檢測(cè)旨在模擬人類(lèi)視覺(jué)系統(tǒng)的選擇性處理,識(shí)別圖像中最重要和最顯著的對(duì)象區(qū)域。作為預(yù)處理步驟,它可以有效地聚焦于與當(dāng)前任務(wù)相關(guān)的圖像區(qū)域,并且廣泛應(yīng)用于計(jì)算機(jī)視覺(jué)和圖像處理工作,如圖像分割[1]、圖像壓縮[2]以及目標(biāo)識(shí)別[3]等領(lǐng)域。目前,國(guó)內(nèi)外研究者提出了大量的顯著性檢測(cè)模型。主要分為自底向上目標(biāo)驅(qū)動(dòng)的模型[4,5]以及自頂向下任務(wù)驅(qū)動(dòng)的模型[6-8]。自底向上的顯著性檢測(cè)方法傾向于檢測(cè)圖像細(xì)節(jié)信息并且具有較低的計(jì)算復(fù)雜度,但很難專(zhuān)注于全局形狀信息。而自頂向下的顯著性檢測(cè)方法能夠提取全局信息,但忽略局部顯著性特征。為了更好地利用兩種方法的優(yōu)點(diǎn)并克服這兩個(gè)方面的不足,本文從自底向上及自頂向下兩種模型考慮,提出了一種結(jié)合局部特征和全局特征的方法,并且該方法有效地提高了顯著性檢測(cè)的準(zhǔn)確性。
本文提出了一種結(jié)合局部和全局特征的圖像顯著性檢測(cè)方法。該方法的實(shí)現(xiàn)框架可分為3個(gè)階段,如圖1所示。第一階段,為了保持顯著區(qū)域的完整性,避免尺度分割對(duì)顯著性結(jié)果的影響,將輸入圖像進(jìn)行多尺度分割。再考慮顏色特征以及紋理特征的互補(bǔ)性,通過(guò)局部對(duì)比度計(jì)算得到局部顯著圖。第二階段,以VGG16[9]網(wǎng)絡(luò)為基礎(chǔ)模型構(gòu)建全卷積神經(jīng)網(wǎng)絡(luò)(FCNN),進(jìn)行端到端的訓(xùn)練。通過(guò)訓(xùn)練好的模型,輸出全局顯著圖。第三階段,將前兩個(gè)階段生成的顯著圖進(jìn)行融合,得到最終的顯著圖。
為了更好地捕獲輸入圖像的結(jié)構(gòu)信息并提高圖像處理效率,對(duì)于任意輸入圖片,首先采用SLIC(simple linear iterative cluster)分割成4個(gè)尺度的超像素集,設(shè)定像素個(gè)數(shù)分別為100,150,200,250。對(duì)于每個(gè)尺度下的超像素集,均基于圖像中心先驗(yàn)、對(duì)象先驗(yàn)以及暗道先驗(yàn)[10]等信息,通過(guò)計(jì)算不同區(qū)域的RGB、CIELab、LBP這3種特征的歐式距離,得到每個(gè)區(qū)域的顯著值。即對(duì)于區(qū)域ri(i∈{1,2,…M})與邊緣bj(j∈{1,2,…Mb},Mb是邊緣超像素的個(gè)數(shù)),顯著性值可通過(guò)式(1)計(jì)算
圖1 顯著性檢測(cè)框架
(1)
其中,dF(ri,bj)是區(qū)域ri與邊緣區(qū)域bj在F所對(duì)應(yīng)特征下的歐式距離,F(xiàn)分別為RGB、CIELab及LBP特征。Ce(ri)是通過(guò)區(qū)域ri中心與圖像中心歸一化空間距離計(jì)算得到的中心先驗(yàn)權(quán)重。Dr(ri)的計(jì)算方法參考文獻(xiàn)[10]。Ob(ri)計(jì)算每個(gè)窗口被判定為顯著性目標(biāo)的概率值Ob(q),計(jì)算公式為
(2)
通過(guò)式(1)可以得到每個(gè)區(qū)域的顯著值,將該區(qū)域內(nèi)的所有像素設(shè)定為該值,并得到像素水平的顯著圖。采用圖割(graph cut)方法進(jìn)行優(yōu)化處理,得到初級(jí)顯著圖S0。對(duì)每個(gè)尺度上的初級(jí)顯著圖,表示為:{Ski},i=1,2,3,4進(jìn)行多尺度融合,得到最終的顯著圖Sl,計(jì)算公式為
(3)
FCNN是一種特殊的卷積神經(jīng)網(wǎng)絡(luò)模型。與CNN不同,F(xiàn)CNN使用卷積層而不是全連接層來(lái)實(shí)現(xiàn)像素級(jí)預(yù)測(cè),可以有效地捕獲圖像的語(yǔ)義信息。本文在VGG16網(wǎng)絡(luò)結(jié)構(gòu)的基礎(chǔ)上將全連接層替換成卷積層,構(gòu)建FCNN,其網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。該模型對(duì)不同級(jí)別(從低級(jí)別到高級(jí)別)的顯著性信息進(jìn)行編碼。前13層基于VGG16卷積網(wǎng)絡(luò),第14、15層各含有一個(gè)卷積層,同時(shí)引入Dropout層,對(duì)前13層的深度特征做進(jìn)一步抽象,以提高網(wǎng)絡(luò)的泛化能力。最后為了使輸出圖像具有與輸入圖像相同的尺寸并保留圖像的全局信息,使用一個(gè)卷積層和一個(gè)反卷積層來(lái)生成顯著圖(通過(guò)sigmoid函數(shù)歸一化為[0,1])。其中,前15層的每個(gè)卷積層都配備一個(gè)線(xiàn)性整流函數(shù)(ReLU)。
圖2 FCNN網(wǎng)絡(luò)結(jié)構(gòu)
本文FCNN模型是在Caffe toolbox[11]的基礎(chǔ)上實(shí)現(xiàn)的。實(shí)驗(yàn)中通過(guò)隨機(jī)梯度下降法(SGD)進(jìn)行網(wǎng)絡(luò)訓(xùn)練,實(shí)現(xiàn)逐像素的預(yù)測(cè)。訓(xùn)練過(guò)程中動(dòng)量設(shè)置為0.99,權(quán)重衰減系數(shù)設(shè)置為0.005,學(xué)習(xí)率為10-10。最后,通過(guò)訓(xùn)練好的FCNN輸出全局顯著圖Sg。
局部模型生成的顯著圖更趨向于圖像的細(xì)節(jié),而全局模型生成的顯著圖能夠比較完整的突出整個(gè)顯著性目標(biāo)。本文基于局部、全局顯著性檢測(cè)模型優(yōu)勢(shì)互補(bǔ)的特性,將局部和全局兩種顯著圖利用加和的方式結(jié)合起來(lái),使得最終顯著圖Sf結(jié)果更優(yōu),計(jì)算公式如下
(4)
為了評(píng)估所提方法的性能,本文在3個(gè)公開(kāi)的數(shù)據(jù)集上進(jìn)行一系列的定性和定量實(shí)驗(yàn)。這些數(shù)據(jù)集均含有像素集的真值標(biāo)注,分別為SED2[12]、ECSSD、PASCAL-S[13]。ECCSD數(shù)據(jù)集包含1000張具有來(lái)自互聯(lián)網(wǎng)的復(fù)雜場(chǎng)景的圖像。PASCAL-S數(shù)據(jù)集包含850張具有多個(gè)復(fù)雜對(duì)象和雜亂背景的自然圖像,可以說(shuō)是最具挑戰(zhàn)性的顯著性數(shù)據(jù)集之一。SED2共100張圖片,是一個(gè)含有多顯著性對(duì)象的數(shù)據(jù)集,通常在每個(gè)圖像中包含兩個(gè)顯著對(duì)象。
將本文方法與比較經(jīng)典的ITTI(IT)、RC[4]、LG[5]、DM[6]、LEGS[8]等方法進(jìn)行定性和定量比較。由于作者并未提供LEGS方法在SED2數(shù)據(jù)集上的檢測(cè)結(jié)果。因此,LEGS方法只在ECSSD、PASCAL-S數(shù)據(jù)集上進(jìn)行評(píng)測(cè)。
圖3顯示本文算法與其它算法生成的顯著圖的定性對(duì)比圖。第一列為測(cè)試集中的原圖,第二列為手工標(biāo)記的二元真值圖(ground truth,GT)。從圖中可以看出,前面5種方法生成的顯著圖有漏檢、對(duì)比度不明顯、不完整的情況,而本文算法能夠更加準(zhǔn)確均勻的突出前景,并且生成的顯著圖中背景噪聲較少,更接近人工標(biāo)記結(jié)果。此外,由于采用了LBP紋理特征,本文算法在背景雜亂和前景背景對(duì)比度比較低的情況下仍然可以很好地工作。
圖3 本文算法與現(xiàn)有5種算法生成的顯著圖對(duì)比
為了更進(jìn)一步驗(yàn)證本文算法的有效性,通過(guò)準(zhǔn)確率-召回率(P-R)曲線(xiàn)、AUC(area under roc curve)、F-measure以及平均測(cè)量誤差(MAE)4個(gè)指標(biāo)來(lái)評(píng)價(jià)算法的性能。P-R曲線(xiàn)顯示了不同閾值下顯著圖的平均準(zhǔn)確率和召回率。MAE表示顯著圖和人工標(biāo)注圖之間像素的平均精度誤差。F-measure用于評(píng)估準(zhǔn)確性和召回率,公式如下
(5)
為賦予Precision值更大的權(quán)重,在本文中設(shè)置η2=0.3。
本文算法與5種算法分別在SED2、ECSSD以及PASCAL-S這3個(gè)數(shù)據(jù)集上的PR曲線(xiàn)如圖4所示。由圖4可知:在相同的召回率下,本文算法在SED2以及PASCAL-S數(shù)據(jù)集上均保持最好的P-R曲線(xiàn),在ECSSD數(shù)據(jù)集上的P-R曲線(xiàn)較好。表1為不同算法的AUC值、F-measure值以及MAE值的對(duì)比結(jié)果。由表1可知:本文方法在SED2數(shù)據(jù)集上表現(xiàn)最好,獲得最大的AUC值、F-measure值以及最低MAE值,在ECSSD以及PASCAL-S數(shù)據(jù)集上表現(xiàn)較佳。這進(jìn)一步驗(yàn)證本文方法在3個(gè)復(fù)雜的數(shù)據(jù)集上均有較好的檢測(cè)能力及魯棒性。
圖4 不同算法在3個(gè)數(shù)據(jù)集上的P-R曲線(xiàn)對(duì)比
表1 不同算法在3個(gè)數(shù)據(jù)庫(kù)上的性能指標(biāo)對(duì)比
本文從局部特征和全局特征出發(fā),提出一種顯著性檢測(cè)方法。該方法通過(guò)構(gòu)建局部模型和全局模型,并采用線(xiàn)性融合策略,得到最終的顯著圖。其中,局部模型從底層特征以及局部對(duì)比度的角度考慮,生成局部顯著圖。全局模型通過(guò)FCN捕獲不同層次上的語(yǔ)義信息來(lái)預(yù)測(cè)全局顯著圖。3個(gè)公共數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本文方法在一定程度上得到了F-measure和MAE指標(biāo)的改進(jìn),優(yōu)于目前經(jīng)典的方法,驗(yàn)證了本文方法的有效性。
計(jì)算機(jī)工程與設(shè)計(jì)2020年6期