陳 蕾,吳建國(guó),劉政怡+
1.安徽大學(xué) 計(jì)算智能與信號(hào)處理教育部重點(diǎn)實(shí)驗(yàn)室,合肥 230601
2.安徽大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,合肥 230601
3.安徽大學(xué) 信息保障技術(shù)協(xié)同創(chuàng)新中心,合肥 230601
計(jì)算機(jī)視覺(jué)領(lǐng)域的圖像顯著性檢測(cè)工作越來(lái)越受到學(xué)者的關(guān)注和重視,它可以被廣泛應(yīng)用到眾多視覺(jué)任務(wù)中,如目標(biāo)識(shí)別[1]、圖像分割[2]、視頻跟蹤[3]以及目標(biāo)重定位[4]等。
顧名思義,顯著圖融合工作,即融合由N種圖像顯著性檢測(cè)方法生成的顯著圖以得到最終顯著圖。已有很多學(xué)者在該領(lǐng)域做過(guò)大量研究工作,并可以證明融合工作確實(shí)可以取得明顯成效。這些融合思路從不同的角度出發(fā),方法各異,值得總結(jié)和學(xué)習(xí)。
一些傳統(tǒng)的顯著圖融合方法大多僅是對(duì)多幅顯著圖進(jìn)行簡(jiǎn)單的線(xiàn)性加和平均或者是相乘取平均。這種融合方式將多種顯著圖同等對(duì)待,通常在實(shí)際中是不合理的。Jiang等人在文獻(xiàn)[5]中設(shè)計(jì)了質(zhì)量指標(biāo)來(lái)定量評(píng)估不同方法生成的顯著圖的優(yōu)劣,然后通過(guò)將該質(zhì)量指標(biāo)作為權(quán)重加權(quán)平均較優(yōu)顯著圖和濾除較差顯著圖來(lái)構(gòu)造融合框架。該方法通過(guò)計(jì)算顯著圖的質(zhì)量指標(biāo)作為融合權(quán)重,可以區(qū)別對(duì)待單個(gè)初始顯著圖,而不是簡(jiǎn)單地相加平均,這樣可以降低效果較差的顯著圖對(duì)整個(gè)融合結(jié)果的影響。在文獻(xiàn)[6]中,Cao等人提出了一種通用的可以自適應(yīng)地融合多種顯著性檢測(cè)結(jié)果的框架,通過(guò)計(jì)算多種顯著性檢測(cè)結(jié)果的自適應(yīng)權(quán)值,再用該權(quán)值對(duì)多幅顯著性結(jié)果進(jìn)行線(xiàn)性加權(quán)來(lái)實(shí)現(xiàn)融合過(guò)程。在文獻(xiàn)[7]中,Mai等人提出了一種基于條件隨機(jī)場(chǎng)(conditional random field,CRF)框架的數(shù)據(jù)驅(qū)動(dòng)的顯著性聚合方法來(lái)融合多幅顯著圖。該方法不僅考慮到不同顯著性方法之間的性能差異,而且模擬了相鄰像素之間的相互作用,使得融合效果明顯優(yōu)于單個(gè)初始顯著圖。然而,這種方法計(jì)算速度太慢。在文獻(xiàn)[8]中,Tao 等人對(duì)Dempster-Shafer(D-S)證據(jù)理論進(jìn)行改進(jìn),并首次將其應(yīng)用到顯著圖的融合工作上,該算法新穎創(chuàng)新,但運(yùn)行時(shí)間較長(zhǎng)。在文獻(xiàn)[9]中,Lu等人將初始的每一幅顯著性圖作為一層元胞自動(dòng)機(jī),并提出了基于貝葉斯理論的多層元胞自動(dòng)機(jī)用于融合多幅顯著性圖并得到一個(gè)更優(yōu)的結(jié)果,這種方法高效可行,但是其召回率較低。
為了更有效更全面地融合顯著圖,本文主要從兩個(gè)層面對(duì)顯著圖進(jìn)行融合,主要貢獻(xiàn)有以下三點(diǎn):
(1)對(duì)RGB-D圖像顯著圖進(jìn)行融合,即在融合顯著圖的過(guò)程中,利用深度圖進(jìn)行影響。
(2)分別在圖像級(jí)別和像素級(jí)別兩個(gè)層面上融合顯著圖。在圖像級(jí)別上,設(shè)計(jì)了一種簡(jiǎn)單且有效的RGB-D 顯著圖質(zhì)量評(píng)估的特征——分割質(zhì)量,并用該特征作為顯著圖的權(quán)重,在圖像級(jí)別上進(jìn)行線(xiàn)性融合。
(3)在像素級(jí)別上,考慮單個(gè)像素在不同顯著圖中的顯著值差異,針對(duì)單個(gè)像素計(jì)算其顯著相似性,將其作為該像素的權(quán)重,在像素級(jí)別上進(jìn)行融合。
本文算法流程圖如圖1所示。圖1(a)和圖1(b)分別為輸入的RGB圖像和深度圖像。本文首先對(duì)圖1(a)和圖1(b)分別使用四種RGB-D顯著性檢測(cè)方法:FP(fusion and propagation)[10]、GP(global priors)[11]、SE(saliency evolution)[12]、LBE(local background enclosure)[13],相應(yīng)地得出顯著圖圖1(c)、圖1(d)、圖1(e)、圖1(f),以此作為融合過(guò)程的初始顯著圖。其次,一方面分別對(duì)這四種初始顯著圖計(jì)算其質(zhì)量評(píng)估值——分割質(zhì)量值,并將其作為圖像級(jí)別線(xiàn)性融合的權(quán)重,得到圖像級(jí)別融合結(jié)果如圖1(g)所示。另一方面,針對(duì)單個(gè)像素在四種初始顯著圖之間的顯著性顯示差異,計(jì)算每個(gè)像素的顯著一致性,并將其作為像素級(jí)別線(xiàn)性融合的權(quán)重,得到像素級(jí)別融合結(jié)果如圖1(h)所示。最后,再將這兩個(gè)級(jí)別的結(jié)果按比例融合,得到最終融合結(jié)果圖1(i)。從圖1示例中吊燈的左下方小燈泡可以看出,像素級(jí)別的融合可以彌補(bǔ)圖像級(jí)別融合的細(xì)節(jié)缺失部分,促使整個(gè)融合過(guò)程優(yōu)勢(shì)互補(bǔ),得以生成最終較好的融合結(jié)果。圖1(j)為該示例的真值圖。
符號(hào)標(biāo)記:對(duì)于RGB圖像I,其對(duì)應(yīng)的深度圖為D,用n種RGB-D顯著性檢測(cè)算法生成n幅初始顯著圖,記為M1,M2,…,Mn。
為了解決圖像級(jí)別的顯著圖融合問(wèn)題,本文設(shè)計(jì)了一種RGB-D顯著圖像的質(zhì)量評(píng)估特征——分割質(zhì)量,用來(lái)衡量顯著圖中目標(biāo)和背景的分割準(zhǔn)確度。
對(duì)于第i張顯著圖Mi,首先計(jì)算該圖中所有像素的平均顯著值t,用該值作為閾值二值化Mi為顯著區(qū)域St和背景區(qū)域Bt,即:
其中,Mi(p)為顯著圖Mi中像素p的顯著值,值為1則表示像素p屬于顯著區(qū)域St,反之屬于背景區(qū)域Bt。
由文獻(xiàn)[14]可知,一個(gè)好的分割結(jié)果應(yīng)該呈現(xiàn)出區(qū)域內(nèi)相似性最大化而區(qū)域間相似性最小化,則顯著圖Mi的分割質(zhì)量特征定義如下:
其中,N(p)表示像素p的鄰居像素集合,在這里定義為p的八鄰域。Wpq為相鄰像素p和q之間的顏色和深度相似性。cp和cq分別為像素p和像素q的L*a*b*顏色值,dp和dq分別為像素p和像素q的深度值。||·||2為二范數(shù),計(jì)算像素之間顏色值的歐式距離。σ2=0.01為控制參數(shù)。
Fig.1 Algorithm flow chart圖1 算法流程圖
由于質(zhì)量較差的深度圖可能會(huì)影響像素之間的深度相似性的計(jì)算結(jié)果,故引入深度置信度λd[15]來(lái)衡量深度信息的質(zhì)量,定義為:
在該式中,md為整個(gè)深度圖的平均深度值,CV表示差異系數(shù),H為深度頻率熵,表示深度分布的隨機(jī)性。λd值越大則表明深度圖中的深度信息越可靠。
分析式(2)可知,分割質(zhì)量特征值越大表明當(dāng)前顯著圖的質(zhì)量越優(yōu)。
按照式(2)對(duì)每張顯著圖計(jì)算出其分割質(zhì)量,并用該特征值作為權(quán)重進(jìn)行線(xiàn)性加權(quán)融合,可得圖像級(jí)別的融合顯著圖Sal1:
其中,Norm(·)為歸一化函數(shù)。
為了獲取顯著圖中更為細(xì)節(jié)化的信息,本文考慮像素在不同顯著圖中的顯著一致性并提出像素級(jí)別的融合方法。對(duì)于像素p,其在初始顯著性圖M1,M2,…,Mn中的顯著值分別表示為M1(p),M2(p),…,Mn(p),定義像素p在任意兩張顯著圖像i和j中的顯著性差異為:
則n幅顯著圖對(duì)應(yīng)的像素p的相似矩陣如式(7)所示,分析可知,A具有對(duì)稱(chēng)性:
綜上可得,像素p在第i幅顯著圖與其他顯著圖的顯著值的一致性測(cè)度計(jì)算為:
用該值作為像素p在顯著圖i中的權(quán)重,可得像素級(jí)別的融合結(jié)果為Sal2:
最后,融合圖像級(jí)別的顯著圖和像素級(jí)別的顯著圖,可得最終的融合結(jié)果為:
為了平衡圖像級(jí)別的顯著圖和像素級(jí)別的顯著圖對(duì)最終融合結(jié)果的貢獻(xiàn)程度,且經(jīng)過(guò)實(shí)驗(yàn)證明,設(shè)置參數(shù)?1=0.6,?2=0.4可使得實(shí)驗(yàn)效果最優(yōu)。
本文顯著圖像融合算法的偽代碼如下:
算法圖像級(jí)別和像素級(jí)別的顯著圖像的融合
輸入:RGB圖像、深度圖像、N張初始顯著圖。
輸出:通過(guò)融合得到的最終的顯著圖像。
1.根據(jù)式(2)計(jì)算每張初始顯著圖的分割質(zhì)量值SQi;
2.根據(jù)式(5)在圖像級(jí)別上融合初始顯著圖,得到Sal1;
3.根據(jù)式(8)計(jì)算像素在初始顯著圖中的顯著值一致性;
4.根據(jù)式(9)在像素級(jí)別上融合初始顯著圖,得到Sal2;
5.根據(jù)式(10)融合Sal1和Sal2,得到最終的融合顯著圖。
實(shí)驗(yàn)在RGB-D1000[16]基準(zhǔn)數(shù)據(jù)集上,選定了4種經(jīng)典的RGB-D 顯著性檢測(cè)算法對(duì)其進(jìn)行顯著性檢測(cè),獲取初始顯著圖。選定的4種方法是FP[10]、GP[11]、SE[12]、LBE[13]。另外,將本文實(shí)驗(yàn)與4種先進(jìn)的顯著圖融合算法,就準(zhǔn)確率P(Precision)、召回率R(Recall)以及F-measure 這3個(gè)評(píng)估指標(biāo)通過(guò)繪制精度-召回(Precision-Recall,PR)曲線(xiàn)圖以及評(píng)估指標(biāo)直方圖作直觀對(duì)比。對(duì)比的4種顯著圖融合算法包括MSR(mean saliency in covered window-spatial distribution of saliency map ratio)[5]、SACS(self-adaptively co-saliency)[6]、MCA(multilayer cellular automata)[9]、WDSET (weighted DS evidence theory)[8]。
實(shí)驗(yàn)平臺(tái):所有程序均在IntelCorei7CPU2.00GHz、內(nèi)存4 GB的PC上實(shí)現(xiàn)。本文方法使用Matlab(R2016a),對(duì)比算法來(lái)自各引用論文作者提供的公開(kāi)代碼或?qū)嶒?yàn)結(jié)果集合。
跟很多現(xiàn)有研究工作一樣,本文使用PR 曲線(xiàn)和F-measure值對(duì)所有的算法進(jìn)行評(píng)估。
對(duì)于一張顯著圖,可以將其轉(zhuǎn)換為二進(jìn)制掩碼M,并通過(guò)比較M和真值圖(ground truth,GT)來(lái)計(jì)算精度和召回率。具體實(shí)現(xiàn)是將顯著圖量化至[0,255],然后為每5個(gè)值設(shè)置一個(gè)閾值。在該顯著圖中,如果當(dāng)前像素的顯著性值大于閾值,則指示該像素屬于前景,否則該像素屬于背景。在每個(gè)閾值上,計(jì)算出一對(duì)準(zhǔn)確率/召回值,并最終將其組合成一條精度召回(PR)曲線(xiàn)來(lái)描述算法在不同情況下的性能。準(zhǔn)確率和召回率可以通過(guò)以下公式計(jì)算:
通常,無(wú)論是準(zhǔn)確率還是召回率,都無(wú)法全面地評(píng)價(jià)顯著圖的質(zhì)量。本文采用F-measure 作為整體性能評(píng)價(jià),由文獻(xiàn)[17]可知,具體計(jì)算方法為:
如果β2被設(shè)置為1,則F-measure 的結(jié)果即為準(zhǔn)確率和召回率的調(diào)和均值。如果β2>1,則召回率將對(duì)F-measure 的結(jié)果影響更大。當(dāng)β2<1時(shí),則查全率對(duì)F-measure 結(jié)果的影響較大。正如大多數(shù)突出的目標(biāo)檢測(cè)工作所建議的那樣,為了控制準(zhǔn)確率和召回率的權(quán)值,將β2的值設(shè)為0.3。
圖2為4種初始圖像顯著性檢測(cè)算法及其融合結(jié)果對(duì)比圖。圖2(a)、圖2(b)分別為這4種初始圖像顯著性檢測(cè)算法及兩個(gè)級(jí)別上的融合結(jié)果的PR曲線(xiàn)圖和評(píng)估指標(biāo)直方圖。圖2(a)PR 曲線(xiàn)顯示,本文提出的基于圖像級(jí)別(stage1)和像素級(jí)別(stage2)的顯著圖融合算法明顯優(yōu)于初始的圖像顯著性檢測(cè)算法。圖2(b)所示為基于準(zhǔn)確率P(Precision)、召回率R(Recall)以及F-measure的3個(gè)指標(biāo)的評(píng)估結(jié)果。該評(píng)估直方圖表明在加入像素級(jí)別融合過(guò)程(stage2)后,最終融合結(jié)果(Proposed)的F-measure 值高于僅基于圖像級(jí)別的融合結(jié)果(stage1),驗(yàn)證了像素級(jí)別融合過(guò)程的有效性。
圖3為本文提出的融合算法與其他4種顯著圖像融合算法的對(duì)比結(jié)果。圖3(a)、圖3(b)分別為不同的顯著圖像融合算法的PR曲線(xiàn)圖和評(píng)估指標(biāo)直方圖。圖3(a)PR 曲線(xiàn)顯示,本文提出的基于兩個(gè)級(jí)別的融合算法整體優(yōu)于其他4種顯著圖像融合方法。圖3(b)所示為基于準(zhǔn)確率P(Precision)、召回率R(Recall)以及F-measure 的3個(gè)指標(biāo)的評(píng)估結(jié)果。該評(píng)估直方圖表明,本文算法F-measure 值低于MCA[9]融合算法,但皆高于其他算法。
圖4所示是本文提出的顯著圖像融合算法與其他顯著圖像融合算法的質(zhì)量對(duì)比實(shí)驗(yàn)的部分示例。本文算法與其他顯著圖像檢測(cè)算法相比,該算法不僅可以較好地凸顯圖像中的顯著目標(biāo)主體,而且顯著目標(biāo)的細(xì)節(jié)邊緣部分也能得到更細(xì)致的處理。
Fig.2 Comparison of initial saliency detection algorithms and fusion results圖2 初始顯著檢測(cè)算法及其融合結(jié)果對(duì)比
Fig.3 Experimental results of different algorithms for saliency map fusion圖3 不同顯著圖融合算法的實(shí)驗(yàn)結(jié)果
Fig.4 Quality contrast examples圖4 質(zhì)量對(duì)比示例
表1為本文方法與其他顯著圖像融合算法在數(shù)據(jù)集上整體的運(yùn)行時(shí)間對(duì)比結(jié)果。本文算法驗(yàn)證實(shí)驗(yàn)運(yùn)行整體時(shí)間為1 232.631 s,運(yùn)行時(shí)間相對(duì)偏高的原因是在圖像級(jí)別的顯著圖融合過(guò)程中增加了對(duì)深度信息Depth的計(jì)算。
Table 1 Comparision of average running time表1 平均運(yùn)行時(shí)間對(duì)比
本文在兩個(gè)層面上對(duì)RGB-D 顯著圖進(jìn)行融合,不僅量化計(jì)算了初始顯著模型之間的優(yōu)劣差異對(duì)最終融合結(jié)果的影響程度,還考慮了單個(gè)像素層面的顯著相似性。實(shí)驗(yàn)結(jié)果顯示本文所提出的融合方法得出的顯著圖明顯優(yōu)于初始顯著圖,且在與其他融合算法相比較時(shí),該方法也具有一定的優(yōu)勢(shì)。在未來(lái)的學(xué)習(xí)和研究中,可以進(jìn)一步考慮顯著圖中顯著目標(biāo)的特征,加入基于目標(biāo)級(jí)別的顯著圖像融合,由此可以更全面地進(jìn)行顯著圖像融合工作。