吳乾紳
(1.中國科學院合肥物質科學研究院,安徽 合肥 230031; 2.中國科學技術大學,安徽 合肥 230026)
圖像的顯著性[1]概念是人類在研究視覺感知機制的過程中提出來的,可以理解為視覺場景中物體吸引人類注意力的程度。近年來,圖像顯著性檢測研究受到了廣泛關注,并在物體識別、圖像檢索等領域展現(xiàn)出廣闊的應用前景。早期的工作主要基于人工設計的視覺特征進行顯著性檢測,例如對比算法[1]以及多尺度顯著區(qū)域融合[2]等。近年來,深度學習被逐漸用于圖像顯著性檢測,并取得了良好的實驗效果[3]。隨著深度相機的普及,深度圖像(RGB-D圖像)的數(shù)據(jù)規(guī)模呈爆炸式增長,而且能克服二維圖像丟失深度信息的不足,因此利用深度信息提升視覺分析性能逐漸成為計算機視覺領域新的趨勢,吸引了研究人員的關注。在已有研究中,文獻[4]融合了深度信息來檢測圖像中的顯著目標,文獻[5]采用了一種進化策略檢測RGB-D圖像中的顯著區(qū)域。以上工作均局限于檢測單幅圖像的顯著性,難以用于檢測一組相關圖像的協(xié)同顯著性。
較之單幅圖像顯著性檢測,圖像協(xié)同顯著性檢測力求在一組內(nèi)容相關的圖片中發(fā)現(xiàn)共有的顯著目標。理論上,互相關聯(lián)的圖片組包含了更多信息,而且重復出現(xiàn)的目標有助于進一步理解圖像。對于RGB圖像,文獻[6]通過采用3個自下而上的顯著特征(對比特征、空間特征以及相似特征)進行特征聚類來獲得協(xié)同顯著圖。文獻[7]提出了一個基于多層分割的算法模型,該算法在粗分割的基礎上確定目標輪廓,然后通過細分割檢測區(qū)域間的相似性。文獻[8]通過基于圖模型的流行排序算法獲得協(xié)同顯著圖,但是僅使用單一圖模型必然會丟失部分信息。近年來,探索RGB-D圖像的協(xié)同顯著性也逐漸成為研究熱潮。與以往的前向檢測策略不同,文獻[9]設計了一個反饋迭代優(yōu)化模型來檢測協(xié)同顯著目標。文獻[10]通過特征匹配約束和顯著性標記傳播實現(xiàn)對RGB-D圖像的協(xié)同顯著性檢測。可以看到這些方法依賴于算法中所設計的自下而上的先驗特征,而且并沒有充分利用單幅圖像的顯著信息,因此在檢測效果上仍有很大的提升空間。
為了克服上述不足,本文提出了一種基于多視角信息融合的RGB-D圖像協(xié)同顯著性檢測算法。如圖1所示,考慮到單幅圖像的顯著圖包含了大量的圖像前景區(qū)域信息,本文首先采用深度學習網(wǎng)絡獲得效果良好的單幅RGB圖像的顯著圖。接著,提取圖像的多種類型特征建立多圖模型,采用流形排序算法初步檢測到協(xié)同顯著性目標。然后使用基于深度信息的顯著圖對初始的協(xié)同顯著圖進行優(yōu)化,最后使用秩約束算法將多種顯著信息進行融合,在進一步增強目標顯著性的同時降低了非顯著區(qū)域的影響。在標準數(shù)據(jù)集上的檢測結果證明了本文方法的優(yōu)越性能。
圖1 RGB-D圖像協(xié)同顯著性檢測平臺
(1)多圖模型
(1)
式中xg,j為節(jié)點xg,i的近鄰節(jié)點,g表示某一種圖像特征。采用多種類型的圖像特征建立多圖模型,其損失函數(shù)為:
(2)
(3)
采用迭代的方式對式(3)求解。分別對f以及β求導,有:
(4)
固定f求βg:
(5)
固定β可以求得f:
(6)
(2)協(xié)同顯著性檢測
(7)
其中t表示超像素, rep(·)為在Z個圖像中某一超像素被記為顯著目標的次數(shù)。通過該算法過程,不僅可以在單幅圖像顯著圖的基礎上增加未標記的協(xié)同顯著區(qū)域,而且抑制了非協(xié)同顯著區(qū)域。
對比因子類似于人類視覺系統(tǒng)的感受野,因此對比線索廣泛用于顯著性度量。對于圖像Ii的任一像素點ra,定義特征對比線索[12]為:
(8)
與RGB圖一樣,深度空間里唯一的距離信息也可以增強目標的顯著性。D(ra,rb)為像素ra和rb的深度信息差異,也可以看作是相對顯著程度,ω(ra,rb)是空間權重項,分別定義為:
(9)
其中,d(ra,rb)是像素ra和rb的歐式空間距離,α2為常數(shù)控制空間權重。在視覺注意機制中,人們更傾向于關注圖像的中心區(qū)域。因此引入空間偏置進行平滑:
(10)
式中第一項反映了中心偏置,la為像素坐標,N是高斯核函數(shù),θ為圖像中心,方差σ2為歸一化后的圖像半徑。第二項為深度信息偏置,定義為:
Φ(da)=(max{da}-da)γ/q
(11)
其中,q=max{da}-min{da},為深度圖中距離da最遠和最近的像素之間的距離,γ為平衡參數(shù)。借助于中心偏置,基于深度圖的顯著性檢測模型可以定義為:
WD(ra)=W(ra)·Ws(ra)
(12)
基于深度信息的顯著圖雖然包含了重要的顯著信息,但同時也要進一步去除非協(xié)同顯著的區(qū)域。考慮到單幅圖像的顯著圖S1基本包含了顯著區(qū)域,首先采用掩碼的方式大致剔除非前景區(qū)域,然后考慮如下的融合方法:如果協(xié)同顯著區(qū)域的顯著值較大則將其保留下來,否則應將其與基于深度信息的顯著圖進行線性擬合,即:
S3(ra)=
(13)
s.t.F=R+E
(14)
(15)
(16)
Cosal150數(shù)據(jù)集目前被廣泛用于RGB-D圖像協(xié)同顯著性檢測。實驗中,令α2=0.4,ηg=0.01,γ=5,ρ=0.5,δ=0.01,σ2=1,ψ=0.05。對于RGB圖像分別抽取顏色特征以及紋理特征,同時通過FCN[15]深度網(wǎng)絡抽取Conv1_2層特征和Conv5_3層特征,因此G=4。在實驗中經(jīng)過MAE測試令λ=1.2。在秩約束融合過程中,將S1、S2、S3以及通過LI G等[16]設計的深度學習模型獲得的單幅圖像顯著圖進行融合。為了定量比較試驗效果,采用準確率-召回率(Precision-Recall)曲線和平均絕對誤差(MAE)兩種評價規(guī)則。準確率與召回率曲線是通過改變顯著閾值判斷像素是否顯著獲得的。MAE是顯著圖和真實標注圖之間的平均絕對誤差,定義為:
(17)
其中,S(x,y)為算法預測的顯著圖,GT(x,y)為標注的真實顯著圖,W、H分別為圖像的寬度和高度。
將本文提出的算法與其他協(xié)同顯著性檢測方法做對比。對于RGB圖像,主要與模型CB[6]、HS[7]、SCS[11]進行對比。針對RGB-D圖像,主要與代表性的檢測模型MFM[10]、IC[9]進行對比。實驗結果如圖2以及表1所示??梢钥吹剑疚姆椒ㄔ赑R曲線上大幅領先其他方法。對于MAE,本文方法取得了最小值0.093,相比MFM下降了32.61%。
圖2 PR曲線對比
ModelCBHSSCSMFMICourMAE24.227.119.713.817.99.3
為了證明多圖模型以及深度信息的重要作用,對算法模型進行逐步分析。實驗結果如圖3及表2所示。從PR曲線可以看到在采用多圖模型后(MG),檢測結果與單圖模型[8](SG)相比有顯著提升,對應的MAE下降了30.00%。加入深度信息后(MG-D),PR曲線進一步提升,同時MAE相比MG下降了6.67%。進一步地,在采用秩約束算法融合顯著信息(our)后,PR曲線達到最優(yōu),MAE也獲得了最小值0.093,與MG-D相比繼續(xù)下降了5.10%。該分析實驗表明,深度信息在圖像協(xié)同顯著檢測中起到巨大作用,同時融合多種顯著信息能有效提升檢測效果。
圖3 模型內(nèi)部PR曲線分析
ModelSGMGMG-D ourMAE15.010.59.89.3
本文提出了一種基于多視角信息融合的RGB-D圖像協(xié)同顯著性檢測算法。該算法通過使用多種類型的圖像特征建立多圖模型,有效克服了單一圖模型在檢測過程中的信息丟失問題。實驗還表明融合深度信息能有效提升協(xié)同顯著性檢測效果。值得指出的是,本文提出的方法不僅適合RGB-D圖像協(xié)同顯著性檢測任務,也同樣適用于RGB圖像的協(xié)同顯著性檢測。接下來的工作將更好地融合深度特征以及采用深度學習方法進行RGB-D圖像的協(xié)同顯著性檢測。