張騰敏
DOI:10.16644/j.cnki.cn33-1094/tp.2021.11.002
摘? 要: 根據無監(jiān)督的自下向上的思想,提出一種新的圖像顯著性分割方法。提取圖像的顏色特征、局部能量特征和局部對比特征,并根據這些特征建立一個基于多特征的非凸Trace Lasso模型,通過求解此模型得到圖像的顯著性區(qū)域。不同于一般的稀疏表示方法,該方法使用矩陣奇異值的非凸函數作為約束,對圖像進行超像素分割,以每個超像素塊為單位進行目標函數的建立。既考慮了超像素塊的局部特征,又利用了全局特征,有效聯合了圖像的多個特征。實驗結果表明,該方法能夠準確地分割出圖像的顯著性區(qū)域。
關鍵詞: 多特征; 非凸Trace Lasso; 稀疏表示; 顯著性分割
中圖分類號:O241? ? ? ? ? 文獻標識碼:A? ? ?文章編號:1006-8228(2021)11-05-04
Research on non convex Trace Lasso method for image saliency segmentation
Zhang Tengmin
(Jinshan College of Fujian Agriculture and Forestry University, Fuzhou, Fujian 350002, China)
Abstract: According to the unsupervised bottom-up idea, a new image saliency segmentation method is proposed. The color features, local energy features and local contrast features of the image are extracted, and a non convex Trace Lasso model based on multi-feature is established according to these features. The salient region of the image is obtained by solving this model. Different from the general sparse representation method, this method uses the non convex function of matrix singular value as the constraint to segment the image, and establishes the objective function in units of each super-pixel block. It not only considers the local features of super-pixel blocks, but also uses the global features to effectively combine multiple features of the image. Experimental results show that this method can accurately segment the salient region of the image.
Key words: multi-feature; non convex Trace Lasso; sparse representation; saliency segmentation
0 引言
人們在觀察一幅圖像時,能夠引起人類視覺關注的目標或區(qū)域稱為顯著性目標或顯著性區(qū)域。例如圖1(a),當看到這幅圖像時,視覺對“路標”這一目標的關注度會明顯高于對背景區(qū)域的關注度,甚至會直接忽略背景,因此路標就是顯著性目標,其所在區(qū)域稱為顯著區(qū)域。
顯著性分割就是利用計算機根據人類視覺的注意機制來分割出一幅圖像中的顯著目標或顯著區(qū)域,并使其盡可能地與人類視覺行為相一致。圖1(b)即為圖1(a)的顯著圖。
圖像顯著性分割的方法主要分為兩大類,即:無監(jiān)督的自下向上的方法和有監(jiān)督的自上向下的方法。后者需要已知大量樣本的顯著性,且要利用已知樣本進行訓練,計算量較大。本文研究基于無監(jiān)督的自下向上方法。這類方法中,最早的工作是文獻[1]提出的非常有影響力的生物啟發(fā)模型。Itti等[2]在生物啟發(fā)模式基礎上提出機器人視覺定位研究方法,但是該方法只能分割出圖像中較少的一部分顯著性目標,并不能完全分割出圖像中完整的顯著性信息。Harel等[3]在2006年提出基于圖的視覺顯著性分割,該模型基本上能夠完全分割出圖像的顯著性信息,但分割結果受背景的干擾比較嚴重。Lin等[4]提出基于卷積神經網絡(CNN)的顯著性分割方法,該方法雖然有不錯的分割效果,但是計算復雜度較高。Shen等[5]提出基于低秩+稀疏分解的圖像表示模型,用稀疏部分檢測圖像的顯著性,但該方法只使用了圖像中的低水平特征,無法刻畫整幅圖像,并不能有效突出圖像的顯著性目標。
以上所提工作都是基于單個特征建立模型,這些分割結果顯示基于單特征的分割方法不能完全分割出圖像的顯著性區(qū)域,并且根據不同特征得出的分割結果存在很大差異。本文參考文獻[6]的思想提取圖像的多特征,對圖像進行超像素分割,然后以每個超像素塊為單位建立一種非凸的Trace lasso模型來融合這些多特征,既避免了單個特征分割所造成的誤差,又能緊密聯系局部特征與非局部特征。
1 顯著性分割的非凸Trace Lasso模型及其求解
1.1 相關工作
1.1.1 多特征提取
一幅自然圖像可以由多個特征來描述,例如人眼直觀看到的顏色特征、由圖像處理所得到的紋理特征和通過計算所得出的局部特征等?;趩蝹€特征的方法無法完全分割出圖像的顯著性目標,因此,本文采用基于多特征的方法來建立模型。本文提取的用于顯著性分割的三類圖像特征如下。
顏色特征:結合圖像的[R,G]和[B]的值及他們的直方圖提取圖像的6維顏色特征,設第[i]個像素點的[RGB]值為[(Ri,Gi,Bi)],那么該點所對應的特征向量為[Ri,Gi,Bi,H(Ri),H(Gi),H(Bi)],其中[HRi=-log (Pr(Ri))]([H(Gi)]和[H(Bi)]的計算同上),[Pr(?)]為顏色的估計概率。本文在計算像素特征時用100個矩,每個超像素塊內的特征為這個超像素塊內所有像素點顏色特征的平均值。
局部能量特征:方向可調濾波器分解提供了一個接近人類視覺過程的頻域分解,其運用的基本函數為來自不同尺度和不同方向的方向導數濾波器。本文運用三個尺度和四個方向的濾波器,每個像素點在對應的每個尺度和方向上都被分解為高頻部分和低頻部分,其中低頻部分用于下一個方向導數的分解,因此這個濾波過程產生了[3×4]維的特征向量,然后加上低頻部分,從而形成13維的局部能量特征。
局部對比特征:依文獻[2]的方法分別根據顏色特征、紋理特征和梯度對比特征計算三幅特征圖像,然后根據中心環(huán)繞差異計算每個像素點與圖像中心像素點的差距,進而提取出三幅顯著性圖像,分別提取這三幅顯著性圖像中每個像素點的像素值作為該點的顯著性值,形成三維的局部能量特征。設超像素塊個數為[n],那么以上三類特征分別可以由特征矩陣[X1]、[X2]、[X3]來表示。
1.1.2 Trace lasso和多任務模型
Lu等利用Trace Lasso[7]作為正則項,提出子空間學習模型如下:
其中[y]表示數據矩陣[X]的列向量,[w]為[y]在[X]下的表示,[?1]表示[l1]-范數,該范數用來刻畫數據中的稀疏噪聲,[XDiag(w)*]表示Trace Lasso,[λ]為平衡參數。由于Trace Lasso正則項利用了原始數據的信息,因此在子空間學習方面取得了良好的效果。
結合圖像的多個特征, Lang[6]等提出了顯著性分割的多任務稀疏模型:
其中[E=E1,E2,…,EK]是將[E1,E2,…,EK]按列排序得到的矩陣。文獻[6]通過求解上述模型得出最優(yōu)解[E*],并根據[E*]計算圖像的顯著性,進而分割出圖像的顯著性區(qū)域。
1.2 本文基于多特征的非凸Trace Lasso稀疏模型建立
Trace Lasso和多任務模型都是基于凸松弛進行模型建立和求解,但是往往非凸松弛在實際應用中能得到更好的性能。因此本文在Trace Lasso和多任務的基礎上,建立一個基于多特征的非凸Trace Lasso顯著性分割模型。首先對圖像進行超像素分割,然后以每個超像素塊為子空間來建立模型:
其中[Xi]代表不同類型的特征矩陣,[yji]代表圖像的第[j]個超像素塊的第[i]類特征,[e=ej1,…,ejK]表示稀疏噪聲,[gλ(σl(XiDiag(wji)))]是關于[XiDiag(wji)]奇異值的非凸函數,根據實驗效果本文選取SCAD作為模型中的非凸函數,即:
1.3 模型求解
本文采用方向交替迭代方法(ADM)來求解上述問題,引入輔助變量[Ji=XiDiagwji,i=1,…,K],將模型⑷轉為如下等價模型:
問題⑸的增廣拉格朗日函數為:
其中[Tj1,…,TjK]和[Y1,…,YK]是拉格朗日乘子,[μ]是懲罰參數。對⑹式進行交替極小化迭代求解。雖然ADM能很好地解決迭代問題,但是其只能用來解決凸問題,而[gλ(?)]是非凸的,因此[J]的更新迭代過程中出現了非凸問題,對于非凸問題[J]的求解,我們將問題[Ji]轉化為下列問題:
即為[J]的最終迭代公式。
通過求解模型⑶解出每個超像素塊所對應的病態(tài)殘差為[eji(i=1,2,3;j=1,2,…,n)],然后將[eji]按照[i]并聯,按照[j]串聯,得出融合了多個特征的顯著性矩陣。每個超像素塊[Pj]的顯著性值為[E]的第[j]列元素的平方和,即[S(Pj)=E(:,j)2]。
2 實驗結果及分析
2.1 主觀結果對比
為了凸顯本文方法的實驗效果,我們將實驗結果與先前的一些顯著性分割工作進行對比,實驗所用圖像數據庫為MSRA[8],根據多個實驗結果,本文最終設定參數[l]的值為3,g值為120,超像素塊個數為300。圖2為本文結果與其他方法的效果對比,從左到右依次為原圖、CBCD、ICIP、HSS、LW、LR、本文方法結果以及ground truth(二值圖)。通過對比發(fā)現,CBCD和ICIP方法的分割結果視覺感知比較低,LW的顯著結果混淆了背景和顯著性區(qū)域,HSS和LR的結果丟失了很多顯著信息,所以,這些方法都存在著自身的缺陷。本文的分割結果既可以明顯區(qū)分顯著性區(qū)域和背景區(qū)域,又可以有效突顯顯著性區(qū)域,跟標準二值圖像比較接近,在視覺效果上提升比較明顯。
2.2 客觀數據分析
在主觀分析的基礎上,本文同樣給出了CBCD、ICIP、HSS、LW、LR、HFT、CS和本文方法顯著性分割結果的客觀指標對比,如圖3所示,圖3給出了本文方法與上述方法實驗結果的ROC曲線圖,由各個結果的ROC曲線對比可以得出本文的實驗效果在數據指標上優(yōu)于其他方法,因此,本文方法的平均結果與數據庫的實驗真值(GT)最為接近。
3 結束語
本文提出基于多特征的非凸Trace Lasso模型來對圖像進行顯著性分割,首先,我們指出現有的稀疏模型RPCA、LRR等只能對單一類型特征進行處理,會丟失圖像的一些局部特征;其次,我們提出基于非凸Trace Lasso的稀疏模型,并且以每個超像素塊為單位來進行處理,充分考慮了圖像的多種特征以及局部特征與非局部特征的聯系。利用這個模型有效融合了圖像的多個特征,完成了自底向上的無監(jiān)督的圖像的顯著性分割。實驗結果證明了我們的方法是合理、有效的,并且能夠取得很好的視覺效果。
參考文獻(References):
[1] Koch C, Ullman S. Shifts in selective visual attention:
towards the underlying neural circuitry[M]//Matters of intelligence. Springer Netherlands,1987: 115-141
[2] Itti L, Koch C, Niebur E. A model of saliency-based visual
attention for rapid scene analysis[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence,1998.11:1254-1259
[3] Harel J, Koch C, Perona P. Graph-based visual saliency
[C]//Advances in neural information processing systems,2006:545-552
[4] Lin H S, Ding J J, Huang J Y. Graph Saliency Network:
Using Graph Convolution Network on Saliency Detection[C]// 2020 IEEE Asia Pacific Conference on Circuits and Systems (APCCAS). IEEE,2020:177-180
[5] Shen X, Wu Y. A unified approach to salient object
detection via low rank matrix recovery[C]//Computer Vision and Pattern Recognition (CVPR),2012 IEEE Conference on. IEEE,2012:853-860
[6] Lang C, Liu G, Yu J, et al. Saliency detection by multitask
sparsity pursuit[J]. Image Processing, IEEE Transactions on,2012.21(3):1327-1338
[7] Grave E, Obozinski G R, Bach F R. Trace lasso: a trace
norm regularization for correlated designs[C]//Advances in Neural Information Processing Systems,2011:2187-2195
[8] Liu T, Yuan Z, Sun J, et al. Learning to detect a salient
object[J]. Pattern Analysis and Machine Intelligence, IEEE Transactions on,2011.33(2):353-367