趙 強(qiáng),王愛平,劉政怡
1.安徽大學(xué) 計算智能與信號處理教育部重點實驗室,合肥230601
2.安徽大學(xué) 計算機(jī)科學(xué)與技術(shù)學(xué)院,合肥230601
3.安徽大學(xué) 信息保障技術(shù)協(xié)同創(chuàng)新中心,合肥230601
圖像顯著性檢測是檢測人類視覺中的明顯物體,是計算機(jī)視覺中關(guān)鍵的預(yù)處理階段。其通過關(guān)注顯著目標(biāo)以減少計算的工作量,被廣泛應(yīng)用在圖像分割[1]、圖像檢索[2]、機(jī)器人場景識別[3]等領(lǐng)域。
近年來RGB 圖像顯著性檢測方法發(fā)展迅速[4-5],這些方法使用不同的視覺線索檢測顯著圖,如顏色對比和邊緣。因為顏色信息對人類視覺感官系統(tǒng)有天然的吸引力,作為先驅(qū),Itti 等人[6]通過組合三個特征圖來呈現(xiàn)顯著圖,包括不同尺度的顏色、強(qiáng)度和方向;Achanta 等人[7]檢測的方法是通過每個像素顏色值的差值來計算的;在最近的工作中,文獻(xiàn)[8]通過底層特征與深度卷積特征融合得到顯著圖;文獻(xiàn)[9]利用深度卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)高級特征來解決顯著對象檢測問題并將低級特征結(jié)合到深層模型。以上算法都是針對2D圖像進(jìn)行處理,但顯著性檢測在3D視覺中也有切實的應(yīng)用場景。
隨著RGB-D圖像的出現(xiàn),深度信息逐漸被挖掘,人們利用顏色和深度信息自動定位人體感興趣的物體,降低了視覺分析的復(fù)雜性,并將其作為一個重要的預(yù)處理步驟。對于RGB-D 圖像顯著性檢測任務(wù),如何獲得具有判別性的深度特征是第一關(guān)鍵問題,早期作品主要集中在使用原始單維深度值或設(shè)計手工制作的功能。例如,文獻(xiàn)[10]將顏色特征和深度特征結(jié)合在一起;文獻(xiàn)[11]旨在確定包含深度線索的顯著區(qū)域;文獻(xiàn)[12]分別在圖像級別和像素級別兩個層面上融合顯著圖。雖然這些工作利用深度信息來改進(jìn)顯著性檢測,但受限于深度信息發(fā)展有限,它們?nèi)匀淮嬖谝恍┕餐娜毕莺途窒?,即深度信息被視為場景的獨立測量,并且不與相應(yīng)的低級特征線索相關(guān)聯(lián)。
考慮到背景信息,越來越多的研究人員開始利用圖像的邊界區(qū)域來計算顯著值,并取得了不錯的檢測效果。在文獻(xiàn)[13]中,顯著性檢測被表述為排序和檢索問題,背景查詢則利用的是邊界像素塊;在文獻(xiàn)[14]中,通過相關(guān)上下文計算區(qū)域的不相似性,實現(xiàn)局部對比度,該相關(guān)上下文被定義為一組基于外觀的相似區(qū)域;在文獻(xiàn)[15]中,顯著圖通過融合邊界信息和顏色特征來完成;在文獻(xiàn)[16]中,通過邊界先驗和自適應(yīng)區(qū)域合并的方法來檢測圖像中的顯著物體;在文獻(xiàn)[17]中,在計算背景查詢節(jié)點時,通過閾值去掉圖像邊界中的多余信息;這些模型都取得了不錯的效果,但存在一個共性問題,默認(rèn)邊界部分不包含顯著物體,在文獻(xiàn)[18]中,Zhu等人通過背景先驗及局部對比度加權(quán)來檢測顯著性,雖然考慮到顯著物體可能存在于邊界上,但置信度不高。基于上述幾種方法對圖像邊界信息處理存在的問題,本文提出了改進(jìn)的背景加權(quán)對比度。首先,通過邊界連通性的差異來計算背景性,然后利用超像素之間的相似性和背景概率加權(quán)來估計背景圖,這有效解決了物體可能存在于圖像邊界的問題。
受上述問題的啟發(fā),提出一種背景與前景相融合的RGB-D 圖像顯著性檢測模型,同時將深度信息應(yīng)用到不同特征線索中。本文主要貢獻(xiàn)如下:
(1)在RGB-D圖像中從背景和前景角度考慮,利用輔助的深度信息提高顯著目標(biāo)檢測的精度,利用深度信息進(jìn)行影響;
(2)在背景中,提出新的背景加權(quán)對比度,利用背景連通性、深度置信度得到背景種子,并與前景中結(jié)合多個低級特征得到的種子融合;
(3)在LFSD、NJU-400、NJU-2000 數(shù)據(jù)集上進(jìn)行實驗并與其他方法比較證明本文方法的杰出性。
圖1為算法的流程圖,RGB圖與Depth圖作為輸入進(jìn)行預(yù)處理階段,一并在背景與前景種子選擇中發(fā)揮作用,在背景種子選擇中利用邊界連通性來量化顯著區(qū)域與圖像邊界的連接程度,然后通過背景加權(quán)對比度得到背景種子,在前景階段利用多線索先驗選擇前景種子,再通過融合方法得到初始顯著圖,最后進(jìn)一步迭代傳播得到最終的顯著圖。
在計算機(jī)視覺中,深度圖信息多應(yīng)用于圖像分割、目標(biāo)檢測、圖片質(zhì)量評估等領(lǐng)域。然而,深度傳感器性能不足,從Kinect獲得的深度圖有一定的性能缺陷,所捕獲的深度圖像的深度缺失原因主要有兩方面,一是測量的范圍限制,另外一個原因是目標(biāo)背景被其目標(biāo)物體所遮擋,這樣就導(dǎo)致紅外發(fā)射器所投射的圖案無法照射在背景區(qū)域上,且背景區(qū)域可能被另一個方位的紅外攝像機(jī)捕獲。因此,采用文獻(xiàn)[19]提出的平滑深度鄰域(smooth depth neighborhood,SDN)來幫助恢復(fù)RGB-D 圖像的深度圖,這可以很好地捕獲對象的局部結(jié)構(gòu),保證支持中的像素來自像素深度值相似的同一對象,同時大大減輕了模糊深度不連續(xù)性偽影,SDN 形成平滑深度鄰域聯(lián)合雙邊濾波器(smooth depth neighborhood-joint bilateral filter,SDN-JBF)方法不僅填充深度圖中的孔并校準(zhǔn)RGB和深度圖像組,糾正未對準(zhǔn)的深度像素,平滑了圖像噪聲。平滑前后的深度圖比較如圖2(c)和圖2(d)所示,圖2(c)的飛機(jī)機(jī)頭部分在輪廓上不夠清晰,圖2(d)深度圖得到改善。
給定輸入的RGB 圖片,首先使用SLIC(simple linear iterative clustering)超像素分割方法[20]將圖片分割成超像素,以超像素為基本單位是因為超像素比像素單元有更快的處理速度,更高的分割效果,以及更少的噪聲影響。然后,構(gòu)造無向連接圖G=(V,E),其中V代表節(jié)點集合,對應(yīng)SLIC 分割方法產(chǎn)生的超像素,E是關(guān)聯(lián)矩陣相鄰節(jié)點加權(quán)的邊集,結(jié)合深度線索,定義特征向量fc=[c,r]T。
Fig.1 Algorithm framework of this paper圖1 本文的算法框架
Fig.2 Superpixel segmentation and depth map preprocessing圖2 超像素分割和深度圖預(yù)處理
其中,li、ai和bi分別代表RGB三通道中超像素i的顏色值。
其中,xi和yi代表超像素i的水平坐標(biāo)和垂直坐標(biāo),di代表超像素i的深度值。
基于觀察,顯著物體一般出現(xiàn)在圖像中心或附近,且顯著區(qū)域與圖像周圍區(qū)域在外觀上對比度很高,首先沿著圖像邊界計算邊界連通性。然而,邊界區(qū)域可能存在前景噪聲干擾,對顯著性檢測產(chǎn)生負(fù)面影響。因此,提出了一種基于圖像邊界信息的背景測量方法,去除前景中的干擾信息,然后從邊界超像素中選擇背景種子。根據(jù)經(jīng)驗,圖像中的背景和前景部分在空間布局上有所不同,也就是說,前景區(qū)域與圖像邊界的連接少于背景區(qū)域與邊界的連接,背景測量為顯著物體檢測提供有用的信息。在RGB-D圖像顯著性檢測工作中,深度對比度是主要特征,但是背景區(qū)域包含深度變化較大的區(qū)域,因此深度對比度提供的信息并不可靠?;诖颂岢霰尘凹訖?quán)對比度,同時融入深度信息,定義如下:
其中,mi,j代表兩個超像素mi和mj之間的相似性,σ2是控制相似性強(qiáng)度的參數(shù),λd是深度置信度[21],用于評價深度信息的質(zhì)量,定義為:
其中,md是整個深度圖的平均深度值,CV是差異系數(shù),H是深度頻率熵,表示深度分布的隨機(jī)性,λd越大,則深度圖中的信息越好。
其中,ηbndcon=1 表示控制前景物體與圖像邊界連通性的參數(shù),根據(jù)經(jīng)驗設(shè)置為1,且ηbndcon∈[0.5,2.5]時實驗效果對此參數(shù)不敏感。因為顯著目標(biāo)與圖像邊界連通性較小,故引入邊界連接[13],定義為:
式中,Lenbnd(i)代表邊界的長度,Area(i)代表超像素i的跨越面積。
背景概率加權(quán)和背景加權(quán)對比度是相輔相成的,因為它們分別表征背景和目標(biāo)區(qū)域。然而,兩者仍然相對嘈雜。將前景種子選擇的顯著圖與背景度量方法生成相對清晰的顯著圖融合,根據(jù)經(jīng)驗,顯著區(qū)域在空間域中具有緊密的擴(kuò)散,而背景區(qū)域的顏色在整個圖像上具有更大的擴(kuò)散。另外,深度值表現(xiàn)出有限的緊湊性,即顯著區(qū)域的深度值更可能在圖像中心附近集中分布?;谏鲜?,定義了顏色先驗、深度先驗、位置先驗三個線索來檢測顯著圖,并計算每個超像素的顯著值。
2.4.1 基于顏色和深度的先驗
顯著物體通常被背景區(qū)域包圍,且在整個圖像中,與顯著區(qū)域的顏色相比,背景區(qū)域的顏色在整個圖像中具有更大的擴(kuò)散性,即在圖像上表現(xiàn)出較大空間差異的顏色不大可能是顯著物體,使用下面方法計算超像素i的顏色方差:
同樣,超像素i的深度緊湊性定義如下:
其中,mi,j與式(4)相同,nj表示超像素j的像素數(shù),bj表示超像素j的質(zhì)心坐標(biāo),μi表示圖像的空間均值,p表示圖像中心的空間位置。
2.4.2 基于位置的先驗
圖像中心附近的物體對人們更具吸引力。因此,利用像素到圖像中心距離的高斯分布來計算位置先驗,定義為:
其中,θ代表位置高級先驗控制參數(shù)。
通過上述,基于顏色、深度和位置的顯著圖計算方法定義如下:
考慮到圖片中顯著物體位置的重要性,在本文的模型中引入了對象度量[22]Obj(i)來評估屬于對象的超像素i的概率。
多特征先驗的顯著性檢測方法是有效的,但是存在一些限制,當(dāng)顯著區(qū)域與背景相似時,可能會影響檢測偏差。但前景種子圖和背景種子圖在空間和結(jié)構(gòu)上有互補(bǔ)性,因此融合前景圖和背景圖以獲得令人滿意的初始顯著性圖,將融合方法定義如下:
其中,α是平衡背景圖與前景圖的系數(shù)。
雖然前面的工作獲得的初始顯著圖效果足夠好,但還是不能提供較完整顯著對象,因此進(jìn)一步優(yōu)化之前的工作,使顯著圖更加完善。在初始顯著圖的基礎(chǔ)上,利用元胞自動機(jī)[23]來迭代傳播顯著圖。其中,每個超像素在元胞自動機(jī)中表示一個單元,在每一次迭代中,當(dāng)前超像素顯著值以相鄰超像素特征相似性加權(quán)后的顯著值來決定超像素的傳播。因此,利用相鄰超像素i和j基于顏色和深度線索的特征度量:
基于式(12),每個超像素的顯著性值會隨著相鄰超像素的顯著值進(jìn)行迭代的傳播:
實驗中,m和n分別設(shè)為0.6和0.2,代表傳播穩(wěn)定性的參數(shù),用于相鄰超像素的加權(quán):
使用方程式(12)生成的顯著性映射Sini初始化顯著性傳播,傳播迭代次數(shù)設(shè)置為20。
在三個標(biāo)準(zhǔn)RGB-D數(shù)據(jù)集上評估所提出方法的性能:LFSD[24]、NJU-400[25]和NJU-2000[26]。這三個數(shù)據(jù)集都提供了手動標(biāo)記用于評估顯著物體的基本事實。采用三個標(biāo)準(zhǔn)來評估方法的性能,即(1)P-R(precision-recall)曲 線;(2)F-measure 值;(3)MAE(mean absolute error)。對于P-R曲線,使用0 到255之間的閾值對顯著圖進(jìn)行二值化,并將二進(jìn)制圖與真值圖GT(ground-truth)進(jìn)行比較來獲得P-R曲線,然后在P-R曲線上描繪所有顯著圖的平均精度和召回率,MAE是平均絕對誤差,用以計算顯著圖與真值之間的誤差。此外,還通過自適應(yīng)閾值對顯著圖進(jìn)行分割,使用F-measure作為評價顯著效果的評價標(biāo)準(zhǔn),F(xiàn)-measure定義如下:
其中,β2=0.3 代表控制查準(zhǔn)率和查全率的權(quán)值。查準(zhǔn)率(Precision)表示正確檢測的顯著物體與完全顯著物體的百分比。查全率(Recall)表示正確檢測顯著物體的完整度與完全顯著物體的百分比。
本實驗使用Matlab(R2014b)編寫,配置參數(shù)在Intel i5-7500CPU(3.4 GHz)和16 GB RAM 臺式機(jī)上進(jìn)行。將本文方法與四種最先進(jìn)的RGB圖像顯著性檢測方法MR[13]、LPS[27]、BSCA[28]、SMD[29],以及四種RGB-D圖像顯著性檢測方法LBE[30]、ACSD[26]、DCMC[21]和SE[31]進(jìn)行比較。
在實驗中,SLIC 超像素分割算法將圖片分割成N個超像素塊,初始分割數(shù)量設(shè)定為200個;σ2為控制相似性強(qiáng)度的參數(shù),設(shè)定為0.1,實驗性能表明接近于0.1 時,F(xiàn)-measure 值和MAE效果更好,高于0.1 或者低于0.1時數(shù)值呈現(xiàn)下降趨勢;θ2代表位置高級先驗控制參數(shù),因為是像素到圖像中心距離的高斯分布,且圖像中心坐標(biāo)為[0.5,0.5],因此把θ2設(shè)為0.25;α設(shè)為0.2,代表平衡背景圖與前景圖的系數(shù);m和n分別設(shè)為0.6和0.2,代表傳播穩(wěn)定性的參數(shù)。
3.3.1 LFSD數(shù)據(jù)集的評估
在LFSD 數(shù)據(jù)集上,與MR、BSCA、SMD、SE、DCMC五種顯著性檢測方法進(jìn)行對比。在主觀層面,圖3中有樹葉、卡通人物、扇子等物體,對于第三張圖片,MR、BSCA、SE方法檢測出來的結(jié)果,含有嘈雜的噪聲,SMD、DCMC方法無法有效地去除圖片中的多余信息,而本文的模型結(jié)果接近于真值圖,表現(xiàn)優(yōu)秀;對于最后一張圖,其他的幾種方法都會把顯著區(qū)域的外圍檢測成顯著目標(biāo),本文方法只檢測出顯著區(qū)域。
基于數(shù)據(jù)分析,圖4為本文方法與其他方法比較的P-R曲線,表1給出幾種方法的F-measure值、MAE值的比較,本文方法在P-R曲線和F-measure 兩個評價指標(biāo)上表現(xiàn)更好,且擁有更低的MAE值。
3.3.2 NJU-400數(shù)據(jù)集的評估
Fig.3 Comparison effect of six detection models on LFSD dataset圖3 六種檢測模型在LFSD數(shù)據(jù)集上的對比效果
Fig.4 P-R comparison curve of six detection models on LFSD dataset圖4 六種檢測模型在LFSD數(shù)據(jù)集上的P-R對比曲線
運(yùn)用所提出的模型在NJU-400 數(shù)據(jù)集上生成顯著圖,并與MR、LPS、BSCA、SMD、DCMC、SE六種顯著性檢測方法進(jìn)行比較?;谥饔^評價,圖5中顯示了部分顯著實驗圖,其中包含人、卡通人物、動物和汽車等。對于第五張圖片,LPS、BSCA 和SE 方法無法檢測出恐龍的輪廓,而MR、SMD和DCMC等方法雖然檢測出顯著區(qū)域輪廓,但檢測效果相當(dāng)嘈雜,圖片噪聲大,相反本文的結(jié)果基本令人滿意,提高了顯著性檢測的效果。
Table 1 F-measure andMAE scores on LFSD dataset表1 LFSD數(shù)據(jù)集上的F-measure、MAE 對比
基礎(chǔ)數(shù)據(jù)分析,圖6為本文方法與其他方法比較的P-R曲線,表2給出幾種方法的F-measure值、MAE值的比較。很明顯,本文方法不論是P-R曲線還是Fmeasure相比其他方法都表現(xiàn)出更好的性能,MAE值也顯著降低。
Fig.5 Comparison effect of seven detection models on NJU-400 dataset圖5 七種檢測模型在NJU-400數(shù)據(jù)集上的對比效果
Fig.6 P-R comparison curve of seven detection models on NJU-400 dataset圖6 七種檢測模型在NJU-400數(shù)據(jù)集上的P-R對比曲線
Table 2 F-measure andMAE scores on NJU-400 dataset表2 NJU-400數(shù)據(jù)集上的F-measure、MAE 對比
3.3.3 NJU-2000數(shù)據(jù)集的評估
Fig.7 Comparison effect of seven detection models on NJU-2000 dataset圖7 七種檢測模型在NJU-2000數(shù)據(jù)集上的對比效果
對于NJU-2000,同BSCA、SMD 兩種RGB 圖像顯著性檢測方法及ASCD、LBE、DCMC 和SE 四種RGB-D圖像顯著性檢測方法進(jìn)行比較。同樣基于主觀評價,圖7 顯示了部分顯著實驗圖,包含了人、物體、馬、自行車等圖片,其中BSCA 和SMD 兩種RGB方法檢測第九張圖片中的信箱時,圖像模糊,不能完整顯示出輪廓;對于四種RGB-D圖像檢測方法,結(jié)果顯示要么圖形顯示不完整,要么圖片背景干擾了顯著物體的形狀。在第三張圖片中,其他幾種方法檢測出來的人物受背景中其他人物的干擾過多,圖片混亂,只能檢測出人物的帽子,本文方法不僅能夠更好地檢測顯著物體本身,并且在圖像邊緣細(xì)節(jié)部分的處理也更突出,并且遠(yuǎn)遠(yuǎn)好于其他幾種方法。
基于數(shù)據(jù)分析,圖8為本文方法與其他方法比較的P-R曲線,表3給出幾種方法的F-measure值、MAE值的比較,本文方法在P-R曲線和F-measure 值上相比其他方法效果更好,MAE值也更低。
Fig.8 P-R comparison curve of seven detection models on NJU-2000 dataset圖8 七種檢測模型在NJU-2000數(shù)據(jù)集上的P-R對比曲線
Table 3 F-measure andMAE scores on NJU-2000 dataset表3 NJU-2000數(shù)據(jù)集上的F-measure、MAE 對比
在本節(jié)中,對算法模型中的前景、背景、融合及迭代傳播四個過程進(jìn)行定量分析。為了公平性,實驗的過程中只改變一個因素。通過圖9 和表4 觀察可得:(1)通過前景種子選擇(Proposed-Fore)所得的顯著圖在P-R曲線、F值上效果并不是最優(yōu),MAE值也偏高,需要進(jìn)一步的優(yōu)化。(2)在背景方面,(Proposed-Back)得到的顯著圖與前景顯著圖融合后得到的顯著圖(Proposed-Fus),在數(shù)據(jù)上分析可得,F(xiàn)值和P-R曲線得到提高,MAE值也得到降低。實驗證明,加入圖像邊界信息的背景測量方法在去除前景中的干擾信息時對檢測前景的顯著物體是有提升的。(3)融合后的顯著圖經(jīng)過迭代傳播(Proposed)在三個評價指標(biāo)上得到了進(jìn)一步的提升,效果也更令人滿意。
Fig.9 Comparative analysis of algorithm modelP-R curves on LFSD圖9 LFSD上的算法模型P-R曲線對比分析
Table 4 Comparison of algorithm modelF-measure andMAE on LFSD表4 LFSD上的算法模型F-measure、MAE 對比
本文將深度信息同時運(yùn)用到背景與前景中,這在一定程度上增加了算法的復(fù)雜度,通過時間復(fù)雜度對比之后發(fā)現(xiàn):本文算法較其他沒有引入深度信息的模型,在時間消耗上較長一些,在未來的工作中需要進(jìn)一步地優(yōu)化算法的復(fù)雜度,但在檢測效果方面,本文方法明顯優(yōu)于其他方法,并且檢測效果具備有效性,提高了準(zhǔn)確率。
本文提出了一種新穎的RGB-D圖像顯著性檢測方法,在深度信息的基礎(chǔ)上結(jié)合背景和前景兩方面考慮,兼顧背景種子和前景種子,將它們?nèi)诤系玫匠跏硷@著圖,加之迭代傳播,使得顯著性檢測的結(jié)果有更高的準(zhǔn)確度和召回率。并在LFSD、NJU-400 和NJU-2000 三個公開數(shù)據(jù)集上與八種方法進(jìn)行比較,實驗表明所提出的RGB-D圖像顯著性檢測模型的有效性和杰出性。在未來的RGB-D圖像顯著性檢測研究中,考慮在顯著圖中加入更深層次的特征,結(jié)合低級特征,以便進(jìn)一步拓展圖像顯著性檢測的研究。