呂律
摘要:基于隨機(jī)游走的交互式圖像分割在計(jì)算相鄰像素相似度時(shí),僅考慮了顏色空間的差異。針對(duì)這一問(wèn)題,利用圖像中廣泛存在的對(duì)稱(chēng)結(jié)構(gòu),提出一種基于隨機(jī)森林進(jìn)行對(duì)稱(chēng)檢測(cè)的方法。通過(guò)基于相似邊的特征,將對(duì)稱(chēng)檢測(cè)轉(zhuǎn)化為結(jié)構(gòu)化標(biāo)簽問(wèn)題。在得到對(duì)稱(chēng)軸的基礎(chǔ)上,通過(guò)期望最大算法,建立對(duì)稱(chēng)軸與相鄰像素之間的關(guān)系,以提高交互式分割的精確度。實(shí)驗(yàn)表明,該方法不僅能有效地提取圖像中的對(duì)稱(chēng)軸,而且能得到較高精度的交互式分割結(jié)果。
關(guān)鍵詞:交互式圖像分割;隨機(jī)森林;隨機(jī)游走;對(duì)稱(chēng)檢測(cè);期望最大算法
中圖分類(lèi)號(hào):TP391.41? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2023)31-0014-04
開(kāi)放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID)
0 引言
圖像分割是圖像處理的基礎(chǔ)性問(wèn)題,是圖像理解的基石,可以被應(yīng)用于自動(dòng)駕駛系統(tǒng)中的街景識(shí)別與理解,無(wú)人機(jī)系統(tǒng)中的著陸點(diǎn)識(shí)別[1]。近幾年基于深度學(xué)習(xí)的語(yǔ)義分割(semantic segmentation) ,即對(duì)圖像中表達(dá)的語(yǔ)義(不同的物體)進(jìn)行分割,取得了很高的精確度[2]。但是對(duì)于下面2種情況,如果沒(méi)有人的交互,還是很難達(dá)到滿(mǎn)意的效果。1) 在背景比較雜亂的情況下,圖像中的物體有很多細(xì)小的枝節(jié)(如圖1中的鹿角);2) 需要將物體的不同部分進(jìn)一步劃分(如圖1的鹿頭和黑色的頸部劃分為同一個(gè)部分)。交互式圖像分割正是研究解決這一類(lèi)問(wèn)題的方法。
交互式圖像分割與圖像分割的區(qū)別在于,需要人在圖像中用不同顏色標(biāo)注出需要分開(kāi)的區(qū)域[3],如圖1中不同顏色的點(diǎn)(黃色和綠色點(diǎn)),下文稱(chēng)之為交互點(diǎn)。因?yàn)樯疃葘W(xué)習(xí)是一種端到端的學(xué)習(xí)方法,現(xiàn)有的深度學(xué)習(xí)方法還沒(méi)辦法處理交互點(diǎn)這種先驗(yàn)知識(shí)[4]?,F(xiàn)有文獻(xiàn)也沒(méi)有采用深度學(xué)習(xí)方法進(jìn)行交互式圖像分割,所以本文提出的是一種基于隨機(jī)游走(random walk) 的方法。
現(xiàn)有基于隨機(jī)游走的交互式圖像分割方法是一種非監(jiān)督的分割方法,根據(jù)圖像中相鄰像素的相似度計(jì)算轉(zhuǎn)移概率矩陣,當(dāng)隨機(jī)游走達(dá)到穩(wěn)定時(shí),得到圖像中的像素所對(duì)應(yīng)的人工標(biāo)注[1]。雖然圖像分割是一種非監(jiān)督的問(wèn)題,但是利用圖像中的對(duì)稱(chēng)結(jié)構(gòu),可以提高分割的效果。如圖1所示,人工標(biāo)注的點(diǎn),落在了對(duì)稱(chēng)區(qū)域(鹿角的主干,鹿的頸部),該區(qū)域可以作為人工標(biāo)注處理,與該區(qū)域相鄰點(diǎn)的相似度也應(yīng)該相應(yīng)提高。所以將人工交互點(diǎn)擴(kuò)展到這些交互點(diǎn)所在的對(duì)稱(chēng)區(qū)域,直觀上通過(guò)增加了交互點(diǎn)的數(shù)量,應(yīng)該能提高分割的精度?,F(xiàn)有的交互式圖像分割文獻(xiàn),并沒(méi)有利用圖像中的對(duì)稱(chēng)性進(jìn)行分割,于是本文提出一種基于對(duì)稱(chēng)區(qū)域改進(jìn)現(xiàn)有的隨機(jī)游走方法,并通過(guò)實(shí)驗(yàn)表明比現(xiàn)有方法的結(jié)果更好。
對(duì)稱(chēng)檢測(cè)在圖像處理中不是一個(gè)熱門(mén)的研究領(lǐng)域,相關(guān)的文獻(xiàn)比圖像分割要少得多[5]。這些研究的共同特點(diǎn)是提出不同的圖像特征,基于這些特征計(jì)算圖像中的對(duì)稱(chēng)軸。現(xiàn)有的數(shù)據(jù)集SYMMAX-300[5],數(shù)據(jù)量很小,不適合深度學(xué)習(xí)方法(關(guān)于利用深度學(xué)習(xí)方法處理交互式圖像分割和對(duì)稱(chēng)檢測(cè),本文在最后一節(jié)結(jié)束語(yǔ),作為未來(lái)的研究進(jìn)行討論)。通過(guò)仔細(xì)分析這些文獻(xiàn)中的圖像特征,可以發(fā)現(xiàn)現(xiàn)有方法并沒(méi)有考慮對(duì)稱(chēng)區(qū)域的邊界的相似性(如圖2(a) 邊ab與cd) 。本文提出的方法利用相似邊界等多種特征,改進(jìn)了隨機(jī)森林算法進(jìn)行對(duì)稱(chēng)檢測(cè),最后通過(guò)實(shí)驗(yàn)證明,比現(xiàn)有方法的結(jié)果更好。綜上所述本文的工作有以下2點(diǎn):1) 通過(guò)圖像中的相似邊等多種特征,改進(jìn)隨機(jī)森林算法得到對(duì)稱(chēng)軸;2) 利用對(duì)稱(chēng)區(qū)域,改進(jìn)隨機(jī)游走算法得到圖像的分割區(qū)域。
1 基于隨機(jī)森林的對(duì)稱(chēng)檢測(cè)
本節(jié)首先介紹現(xiàn)有的對(duì)稱(chēng)檢測(cè)方法,然后介紹本文改進(jìn)的對(duì)稱(chēng)檢測(cè)方法。
1.1 現(xiàn)有對(duì)稱(chēng)檢測(cè)方法
在現(xiàn)有關(guān)于對(duì)稱(chēng)檢測(cè)的文獻(xiàn)中,SYMMAX-300[5]是廣泛被使用的數(shù)據(jù)集。這些研究的共同特點(diǎn)是通過(guò)以下2步檢測(cè)圖像中的對(duì)稱(chēng)信息:1) 提取不同的圖像特征;2) 基于標(biāo)注了對(duì)稱(chēng)信息的數(shù)據(jù)集和1中提取的特征,通過(guò)不同的學(xué)習(xí)算法得到對(duì)稱(chēng)模型?,F(xiàn)有文獻(xiàn)中用的特征主要有:尺度不變特征變換(Scale-invariant feature transform,SIFT) 特征:圖形的顏色、材質(zhì)等特征。其中Tsogkas等人提出的一種專(zhuān)門(mén)針對(duì)對(duì)稱(chēng)問(wèn)題的直方圖特征[5],因?yàn)?.2節(jié)本文方法用到了這種特征,所以簡(jiǎn)要介紹一下。
以圖像中的點(diǎn)(x,y)為中心作邊長(zhǎng)為a的正方形區(qū)域,并分割成三個(gè)相鄰的面積相等的矩形,即矩形的邊長(zhǎng)為a和a/3。對(duì)于任意兩個(gè)矩形,可以定義相異度函數(shù)[DHi,j(x,y)](該相異度函數(shù)就是直方圖特征):
[DHi,j=12t(Ri(t)-Rj(t))2Ri(t)+Rj(t)]? ? ? ? ? ? (1)
其中,[i,j∈{1,2,3}]表示三個(gè)矩形的標(biāo)號(hào)。[Ri]、[Rj]分別表示矩形i和矩形j區(qū)間中的直方圖(histogram) ,t是直方圖中的分組數(shù),實(shí)驗(yàn)中t=64。
1.2 基于隨機(jī)森林的對(duì)稱(chēng)檢測(cè)
從前面對(duì)直方圖特征的介紹可以知道,因?yàn)橛?jì)算的是矩形區(qū)域,所以現(xiàn)有方法沒(méi)有考慮到對(duì)稱(chēng)區(qū)域的邊界是相似的(圖2(a) 中邊ab,cd,中間的實(shí)線(xiàn)是對(duì)稱(chēng)軸),并且相似邊到對(duì)稱(chēng)軸區(qū)域的顏色,材質(zhì)是相似的(圖2(a) 中區(qū)域abs2s1,區(qū)域cds2s1) 。本節(jié)方法的第1個(gè)貢獻(xiàn)是提出多種基于相似邊的特征。隨機(jī)森林是利用多種特征進(jìn)行分類(lèi)、回歸較好的方法[6],但是對(duì)稱(chēng)軸是1條曲線(xiàn)(圖2是示意圖,簡(jiǎn)化為直線(xiàn)),不是簡(jiǎn)單的分類(lèi)數(shù)值,或者回歸數(shù)值,本節(jié)方法的第2個(gè)貢獻(xiàn)是提出一種方法,改進(jìn)隨機(jī)森林,計(jì)算對(duì)稱(chēng)軸這種結(jié)構(gòu)化的目標(biāo)。
1) 基于相似邊的特征?,F(xiàn)有的數(shù)據(jù)集(SYMMAX-300) 只包含對(duì)稱(chēng)軸信息,如果人工提取對(duì)稱(chēng)軸相應(yīng)的相似邊數(shù)據(jù),不僅困難而且非常費(fèi)時(shí)。所以,本方法利用相似邊與對(duì)稱(chēng)軸的關(guān)系,去掉明顯不相似的邊,從而得到基于相似邊的特征。
圖2(a) (b) 是數(shù)據(jù)集中2種主要的對(duì)稱(chēng)模式,相似邊(ab,cd) 反轉(zhuǎn)對(duì)稱(chēng),相似邊(ef,gh) 平移對(duì)稱(chēng),對(duì)稱(chēng)軸窗口取8×8像素,所以對(duì)稱(chēng)軸都是弧度較小的曲線(xiàn)或者近似的直線(xiàn)。首先構(gòu)造候選區(qū)域,先通過(guò)現(xiàn)有邊緣檢測(cè)方法提取對(duì)稱(chēng)軸兩側(cè)的邊,下文稱(chēng)之為候選邊,分別連接候選邊的兩個(gè)端點(diǎn)得到兩條直線(xiàn)(ac,bd) ,對(duì)稱(chēng)軸至少要與其中1條相交。當(dāng)與兩條直線(xiàn)相交時(shí)(如圖2(a)) ,區(qū)域abs2s1和區(qū)域cds2s1是候選區(qū)域;當(dāng)只與1條直線(xiàn)相交時(shí)(如圖2(b) 中間實(shí)線(xiàn)是對(duì)稱(chēng)軸,虛線(xiàn)是延長(zhǎng)線(xiàn)),區(qū)域efs4s3和區(qū)域ghs4s3是候選區(qū)域。候選區(qū)域的面積是第一種特征。
過(guò)候選邊上一點(diǎn)(如圖2(a) 點(diǎn)k) 做垂直于對(duì)稱(chēng)軸的線(xiàn)段作為距離di(如圖2(a) kl) ,平均距離[d=i∈Edi/|E|]是第2種特征,其中,[i∈E]表示邊E上所有的點(diǎn),|E|表示邊上所有點(diǎn)的個(gè)數(shù)。
將候選邊所在窗口(8×8像素)中的邊自上而下掃描,每1行向左和向右擴(kuò)大1個(gè)像素,即將邊變粗,變粗后的邊的面積為S1和S2。該面積是第三種特征。
將不滿(mǎn)足下面三個(gè)條件的候選邊去掉,剩下的就是相似邊:
[|A1-A2|min{A1,A2}<20% ,? ? ? ?|d1-d2|min{d1,d2}<20% , ]
[max{S1?S2}min{S1,S2}>70%]? ?(2)
其中,A1、A2表示對(duì)稱(chēng)軸兩側(cè)候選區(qū)域的面積,d1、d2表示對(duì)稱(chēng)軸兩側(cè)候選區(qū)域的平均距離,[max{S1?S2}]表示S1、S2分別反轉(zhuǎn)和不反轉(zhuǎn)共4種情況下最大的相交的面積。
訓(xùn)練模型時(shí),對(duì)稱(chēng)軸是已知的。但是測(cè)試時(shí),對(duì)稱(chēng)軸是要計(jì)算的目標(biāo)未知。這時(shí)已知的是8×8像素區(qū)域,計(jì)算對(duì)稱(chēng)軸是否在這個(gè)區(qū)域。分別連接候選邊的2個(gè)端點(diǎn)構(gòu)造直線(xiàn)L1、L2,然后連接L1和L2的中點(diǎn),以這條線(xiàn)為對(duì)稱(chēng)軸,并通過(guò)(2) 式中3個(gè)條件得到相似邊。
通過(guò)(2) 式去掉不相似的候選邊后,剩下的候選邊即相似邊,該相似邊對(duì)應(yīng)的候選區(qū)域即為對(duì)稱(chēng)區(qū)域。連接相似邊的中點(diǎn)和對(duì)稱(chēng)軸上任一點(diǎn)的距離記為ds(如圖2(a) 中ms的距離),這是第4種特征。ds與水平線(xiàn)的夾角[α]是第5種特征。分別連接相似邊兩個(gè)端點(diǎn)和對(duì)稱(chēng)軸上任一點(diǎn)圍成的區(qū)域是第6種特征(如圖2(a) 中區(qū)域csd) 。基于第6種特征區(qū)域,可以得到相應(yīng)的顏色,材質(zhì)的直方圖特征(第7種特征),即[DHLi,j]、[DHai,j]、[DHbi,j]、[DHti,j] (其中L、a、b分別是CIELAB顏色空間中的L、a、b信息,t是材質(zhì))。材質(zhì)t的計(jì)算采用文獻(xiàn)[7]中的方法。
2) 計(jì)算對(duì)稱(chēng)軸。前面已經(jīng)介紹了對(duì)稱(chēng)軸(如圖2(a)) 所示是一條曲線(xiàn),既不是分類(lèi)數(shù)值,也不是回歸數(shù)值。通過(guò)分析對(duì)稱(chēng)軸數(shù)據(jù)集,可以發(fā)現(xiàn)非水平對(duì)稱(chēng)(如圖2(a) 所示)的情況下,每行只占1個(gè)像素值。水平對(duì)稱(chēng)是指對(duì)稱(chēng)軸是一條水平線(xiàn),這時(shí)每列只占一個(gè)像素。圖2(c) 將對(duì)稱(chēng)軸所在的8×8像素目標(biāo)區(qū)間按行分為8行,或者按列分為8列。所以計(jì)算對(duì)稱(chēng)軸相當(dāng)于在每一行(或者一列)8個(gè)像素中找出對(duì)稱(chēng)軸的那個(gè)像素,即分類(lèi)問(wèn)題。于是可以將對(duì)稱(chēng)軸所在區(qū)域(8×8像素)分為按行或者按列劃分兩種情況,每種情況根據(jù)不同的行(列)建立相應(yīng)的隨機(jī)森林模型。下面,首先給出按行或者按列進(jìn)行計(jì)算的判定條件。
訓(xùn)練時(shí),因?yàn)閷?duì)稱(chēng)軸是已知的,連接對(duì)稱(chēng)軸兩個(gè)端點(diǎn)所得直線(xiàn)與水平線(xiàn)的夾角[β],[β>20°]按行計(jì)算,否則按列計(jì)算。測(cè)試時(shí),因?yàn)閷?duì)稱(chēng)軸未知,連接相似邊兩個(gè)端點(diǎn)所得直線(xiàn)與水平線(xiàn)的夾角[γi],[i∈SEγi/|SE|>20°]按行計(jì)算,否則按列計(jì)算,其中[i∈SE]表示該對(duì)稱(chēng)軸對(duì)應(yīng)的所有相似邊,|SE|表示相似邊的個(gè)數(shù)。
對(duì)于第i行(或者第i列),針對(duì)不同行(列)構(gòu)造相應(yīng)的特征?;诘?、4、5、6、7種特征,構(gòu)造隨機(jī)森林中每一個(gè)節(jié)點(diǎn)的函數(shù):
[h(x,θj)=[f(x,k)<τ], θj=(k,τ),k=3,4,5,6,7f(x,3)=max{S1?S2}min{S1,S2}, f(x,4)=|ds1-ds2|min{ds1,ds2},f(x,5)=|α1-α2|min{α1,α2}, f(x,6)=|AS1-AS2|min{AS1,AS2},f(x,7)=DH*i,j, *=L,a,b,t]? ?(3)
其中,[.]是指示函數(shù),[τ]表示閾值,k對(duì)應(yīng)第幾種特征。訓(xùn)練決策樹(shù)時(shí),對(duì)于一個(gè)節(jié)點(diǎn)和訓(xùn)練集[Sj?X×Y],目標(biāo)是找到[h(x,θj)]中的[θj]能夠很好地將數(shù)據(jù)進(jìn)行劃分。數(shù)據(jù)劃分的標(biāo)準(zhǔn)是信息增益:
[Ij=H(Sj)-k∈{L,R}SkjSjH(Skj)]? ?(4)
其中,[SLj={(x,y)∈Sj|h(x,θj)=0}],[SRj=Sj\SLj],[H(S)=-ypylog(py)],py表示S中標(biāo)記為y的概率。通過(guò)最大化Ij可以計(jì)算出[θj] 。
2 基于隨機(jī)游走的交互式圖像分割
本節(jié)介紹利用前面得到的對(duì)稱(chēng)軸與相似邊,對(duì)傳統(tǒng)隨機(jī)游走模型進(jìn)行改進(jìn)。
Grady對(duì)于交互式圖像分割問(wèn)題,首先提出隨機(jī)游走算法[8]。他通過(guò)無(wú)向圖[G=(V,E)]對(duì)圖像進(jìn)行建模,其中節(jié)點(diǎn)[v∈V],邊[e∈E?V×V]。每一個(gè)節(jié)點(diǎn)[vi]代表圖像像素[xi],邊[eij]表示[vi]與其相鄰的8個(gè)節(jié)點(diǎn)[vj]構(gòu)成的邊,[wij]表示隨機(jī)游走通過(guò)邊[eij]的權(quán)值。
[wij=exp(-||Ii-Ij||2σ)]? ?(5)
其中,[Ii]和[Ij]分別表示節(jié)點(diǎn)[xi]和[xj]對(duì)應(yīng)于CIELAB顏色空間的值。實(shí)驗(yàn)中[σ]是控制參數(shù),令[σ=22]。D是對(duì)角矩陣,其中[Dii=di],[di=j~iwij]表示節(jié)點(diǎn)[vi]的度, [i~j]表示與[vi]相鄰的節(jié)點(diǎn)[vj]。因?yàn)樵诘?節(jié)計(jì)算得到對(duì)稱(chēng)軸和相似邊,當(dāng)交互點(diǎn)落在對(duì)稱(chēng)區(qū)域(圖2(a) 區(qū)域abdc) ,該區(qū)域的所有點(diǎn)被作為交互點(diǎn)處理(即具有相同的標(biāo)簽)。并將對(duì)稱(chēng)區(qū)域的面積(區(qū)域中的像素個(gè)數(shù))增大1倍,相應(yīng)區(qū)域記為V,區(qū)域V中節(jié)點(diǎn)[vi]到[vj]的權(quán)值計(jì)算如下:
1) 基于第1節(jié)計(jì)算的對(duì)稱(chēng)區(qū)域,得到的直方圖作為初始值,通過(guò)期望最大算法(Expectation maximization) [9]計(jì)算對(duì)稱(chēng)區(qū)域?qū)?yīng)的標(biāo)簽k的均值[μkt],方差[θkt]和先驗(yàn)概率[πkt],t是直方圖分組數(shù),實(shí)驗(yàn)中t=64。
2) 對(duì)于區(qū)域V中的每一個(gè)像素[Ii],對(duì)每一個(gè)分組t,計(jì)算:
[Jkit=-logπkt+0.5×(log|θkt|+Ii-μktθkt)]? ?(6)
其中,[|θkt|]是[θkt]的行列式的值。
3) 對(duì)于全部分組t,[mintJkit]表示同一k值下,取最小的[Jkit],[100-mintJkit]為了方便計(jì)算,[Ji=maxk{100-mintJkit}] ,[gij]表示節(jié)點(diǎn)[vi]到[vj]的權(quán)值:
[gij=exp(-||Ji-Jj||2σ)]? (7)
其中,G是對(duì)角矩陣,其中[Gii=gi],[gi=j~igij]。(7) 式與(6) 式相同,只是將I換成J,實(shí)驗(yàn)中令[σ=22]。
所以圖像中任意兩點(diǎn)i,j的轉(zhuǎn)移概率為
[q(i,j)=ci,當(dāng)i=j(1-ci)gijGi,當(dāng)j~i∈V(1-ci)wijDi,當(dāng)j~i?V0,其他情況]? ?(8)
其中,ci表示,當(dāng)i=j時(shí),當(dāng)前點(diǎn)轉(zhuǎn)移回自己的概率,參考文獻(xiàn)[10],實(shí)驗(yàn)中令ci=c=0.000 4。設(shè)隨機(jī)游走從第m個(gè)交互點(diǎn)[xlkm](其標(biāo)記為lk) 開(kāi)始,[rlkim]表示隨機(jī)游走達(dá)到穩(wěn)定態(tài)時(shí)停在xi的概率,
[rlkim=(1-ci)j~i∈VrgijGirlkjm+(1-ci)j~i?(Vr,V)wijDirlkjm+ciblkim]? (9)
其中,[blkim=[bi]N×1],當(dāng)[xi=xlkm],[bi=1],其他情況,[bi=0]。所以每個(gè)節(jié)點(diǎn)的標(biāo)簽實(shí)際是求(10) 式:
[Ri=argmaxlkrlki]? ?(10)
其中,[rlki=[rlkim]N×1],即每個(gè)節(jié)點(diǎn)對(duì)應(yīng)的標(biāo)記的最大值。
3 實(shí)驗(yàn)結(jié)果與分析
本節(jié)首先測(cè)試第1節(jié)中對(duì)稱(chēng)檢測(cè)算法,并與現(xiàn)有方法進(jìn)行比較;再測(cè)試本文所提出的交互式圖像分割算法,并與現(xiàn)有方法進(jìn)行比較。
3.1 對(duì)稱(chēng)檢測(cè)實(shí)驗(yàn)
本節(jié)對(duì)稱(chēng)檢測(cè)采用SYMMAX-300數(shù)據(jù)集[5],該數(shù)據(jù)集是在BSDS-300[7]的基礎(chǔ)上手工加上對(duì)稱(chēng)軸信息,并廣泛應(yīng)用于對(duì)稱(chēng)檢測(cè)中。測(cè)試的標(biāo)準(zhǔn)采用文獻(xiàn)[11]中的ODS(Optimal Dataset Scale) ,OIS(Optimal Image Scale) 和AP(Average Precision) 。ODS是對(duì)整個(gè)數(shù)據(jù)集的一個(gè)最優(yōu)尺度下的F值度量(F-Measure) 。OIS是對(duì)每一幅圖像在最優(yōu)尺度下的F值度量。F值度量計(jì)算如下:
[F值=2×正確率×召回率正確率+召回率]? (11)
其中,正確率=(計(jì)算得到的正確數(shù)目)/(計(jì)算得到的數(shù)目),召回率=(計(jì)算得到的正確數(shù)目)/(樣本的數(shù)目),AP是平均正確率。
本節(jié)將第1節(jié)中方法與文獻(xiàn)[5]和[12]進(jìn)行比較,見(jiàn)表1。其中第1節(jié)用到的直方圖特征就是文獻(xiàn)[5]提出的。只比較了兩種相關(guān)的方法的原因有兩個(gè):1) 現(xiàn)有對(duì)稱(chēng)檢測(cè)的文獻(xiàn)中,很多論文的結(jié)果是定性的,如圖3所示,從圖中比較結(jié)果,于是本文實(shí)現(xiàn)了文獻(xiàn)[5,12]的方法并進(jìn)行比較;2) 本文的目的是交互式圖像分割,有些對(duì)稱(chēng)信息如圖3(a) 人體和草裙上的人工標(biāo)注的對(duì)稱(chēng)軸對(duì)圖像分割作用不大,所以在交互式圖像分割實(shí)驗(yàn)部分與更多其他方法進(jìn)行比較,見(jiàn)表2。如表1所示,很明顯本文方法在3個(gè)標(biāo)準(zhǔn)比文獻(xiàn)[5]和 [12]都好。但是本方法3個(gè)標(biāo)準(zhǔn)的值還是比較低,原因如圖3所示。圖3(a) 是手工標(biāo)注作為測(cè)試的真實(shí)值,但是很明顯圖中人的背部,草裙中的分叉是否對(duì)稱(chēng)軸,是有爭(zhēng)議的,對(duì)圖像分割的作用不大,本方法并不計(jì)算這種分叉。圖3(b、c、d) 給出文獻(xiàn)[5]、[12]和本方法的實(shí)例。
圖3(b) 是采用文獻(xiàn)[5]方法,因?yàn)闆](méi)有考慮相似邊因素,很多邊界也被計(jì)算為對(duì)稱(chēng)軸,比如圖左上的塔除了中間的對(duì)稱(chēng)軸,還將左右兩條邊界也誤判為對(duì)稱(chēng)軸。圖3(c) 是采用文獻(xiàn)[12]方法,該方法基于一種可變形的圓盤(pán)(deformable discs) 來(lái)描述對(duì)稱(chēng)區(qū)域,但是圖3(c) 中右邊一些樹(shù)林也被認(rèn)為是對(duì)稱(chēng)結(jié)構(gòu)。圖3(d) 是本文方法,除了人物背部和草裙上有爭(zhēng)議的對(duì)稱(chēng)軸,本方法將湖水的一部分判斷為對(duì)稱(chēng)軸,雖然這可能不是對(duì)稱(chēng)軸,但是對(duì)于圖像分割是有意義的。
3.2 交互式圖像分割實(shí)驗(yàn)
交互式圖像分割實(shí)驗(yàn),采用的是GrabCut數(shù)據(jù)集[13],該數(shù)據(jù)集廣泛地應(yīng)用于交互式圖像分割中[3]。這里將本文方法與RW[8]、RWR[10]、LC[14]、LRW[15]、NsubRW[1]進(jìn)行比較,結(jié)果見(jiàn)表2。其中,RW、RWR、LC、LRW的結(jié)果摘自文獻(xiàn)[1],因?yàn)槲墨I(xiàn)[1]將文獻(xiàn)[8,10,14,15]的方法都實(shí)現(xiàn)了,而且文獻(xiàn)[1]發(fā)表在圖像處理的重要期刊IEEE TRANSACTIONS ON IMAGE PROCESSING。測(cè)試標(biāo)準(zhǔn)采用的是文獻(xiàn)[14]中的RI(Rand Index) ,GCE(Global Consistency Error) ,VoI(Variation of Information) 和錯(cuò)誤率。RI統(tǒng)計(jì)分割結(jié)果與手工標(biāo)注具有相同標(biāo)簽像素對(duì)的個(gè)數(shù),是一個(gè)比值,取值范圍[0,1],取值越大,分割效果越好。GCE計(jì)算分割結(jié)果與手工標(biāo)注,其中一個(gè)能否看作另一個(gè)細(xì)化后得到的程度,取值范圍[0,1],取值越小,分割效果越好。VoI計(jì)算分割結(jié)果和手工標(biāo)注之間的相對(duì)熵,取值越接近0,分割效果越好。錯(cuò)誤率就是被錯(cuò)誤標(biāo)注像素的百分?jǐn)?shù),取值越低,分割效果越好。
通過(guò)表2的比較,很明顯因?yàn)榧尤肓藢?duì)稱(chēng)軸信息,本文方法在4個(gè)標(biāo)準(zhǔn)都比現(xiàn)有方法要好。本文實(shí)現(xiàn)了RWR[10]和LRW[15]方法,圖4是分割實(shí)例。圖4(a) 是手工結(jié)果,圖4(b) 是LRW結(jié)果,圖4(c) 是RWR結(jié)果,圖4(d) 是本文方法。很明顯RWR和LRW,因?yàn)闆](méi)有考慮圖像中對(duì)稱(chēng)信息,將汽車(chē)周?chē)囊恍﹨^(qū)域也一起分割了。對(duì)比本文方法圖4(d) 和手工結(jié)果圖4(a) 可以發(fā)現(xiàn),只有汽車(chē)右下部分涉及輪胎的部分存在差異。
4 結(jié)論
本文通過(guò)計(jì)算圖像中的對(duì)稱(chēng)信息,改進(jìn)傳統(tǒng)基于隨機(jī)游走的交互式圖像分割方法,得到更精確的分割結(jié)果。本文對(duì)現(xiàn)有的對(duì)稱(chēng)檢測(cè)方法也進(jìn)行了改進(jìn),提出基于相似邊的特征,并提出一種通過(guò)隨機(jī)森林學(xué)習(xí)結(jié)構(gòu)化目標(biāo)的方法,實(shí)驗(yàn)證明該方法比現(xiàn)有方法得到更精確的對(duì)稱(chēng)軸。
未來(lái)的工作有2個(gè)方向:1) 因?yàn)閷?duì)稱(chēng)檢測(cè)的數(shù)據(jù)集比較小,改進(jìn)深度學(xué)習(xí)方法,使其能適用于數(shù)據(jù)集小的領(lǐng)域,這個(gè)也是深度學(xué)習(xí)一個(gè)研究方向;2) 因?yàn)榻换ナ綀D像分割,涉及交互點(diǎn)這種先驗(yàn)知識(shí),將先驗(yàn)知識(shí)融入深度學(xué)習(xí)方法,這個(gè)也是深度學(xué)習(xí)一個(gè)研究方向。
參考文獻(xiàn):
[1] BAMPIS C G,MARAGOS P,BOVIK A C.Graph-driven diffusion and random walk schemes for image segmentation[J].IEEE Transactions on Image Processing,2017,26(1):35-50.
(下轉(zhuǎn)第21頁(yè))
(上接第17頁(yè))
[2] PAPANDREOU G,CHEN L C,MURPHY K P,et al.Weakly-and semi-supervised learning of a deep convolutional network for semantic image segmentation[C]//2015 IEEE International Conference on Computer Vision (ICCV).IEEE,2016:1742-1750.
[3] SPINA T V,DE MIRANDA P A V,Xavier Falc?o A.Hybrid approaches for interactive image segmentation using the live markers paradigm[J].IEEE Transactions on Image Processing,2014,23(12):5756-5769.
[4] REZENDE D J,MOHAMED S,WIERSTRA D.Stochastic backpropagation and approximate inference in deep generative models[J].31st International Conference on Machine Learning,ICML 2014,2014,4:3057-3070.
[5] TSOGKAS S,KOKKINOS I.Learning-based symmetry detection in natural images[M].Computer Vision – ECCV 2012.Berlin,Heidelberg:Springer Berlin Heidelberg,2012:41-54.
[6] GEURTS P,ERNST D,WEHENKEL L.Extremely randomized trees[J].Machine Learning,2006,63(1):3-42.
[7] MARTIN D R,F(xiàn)OWLKES C C,MALIK J.Learning to detect natural image boundaries using local brightness,color,and texture cues[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2004,26(5):530-549.
[8] GRADY L.Random walks for image segmentation[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2006,28(11):1768-1783.
[9] BISHOP, CHRISTOPHER M.Pattern Recognition and Machine Learning[M].Springer New York,2006.
[10] KIM T H,LEE K M,LEE S U.Generative image segmentation using random walks with restart[M]//Lecture Notes in Computer Science.Berlin,Heidelberg:Springer Berlin Heidelberg,2008:264-275.
[11] ARBELAEZ P,MAIRE M,F(xiàn)OWLKES C,et al.From contours to regions:an empirical evaluation[C]//2009 IEEE Conference on Computer Vision and Pattern Recognition.IEEE,2009:2294-2301.
[12] LEE T S H,F(xiàn)IDLER S,DICKINSON S.Detecting curved symmetric parts using a deformable disc model[C]//2013 IEEE International Conference on Computer Vision.IEEE,2014:1753-1760.
[13] ROTHER C,KOLMOGOROV V,BLAKE A.“GrabCut”:interactive foreground extraction using iterated graph cuts[C]//SIGGRAPH '04:ACM SIGGRAPH 2004 Papers.New York:ACM,2004:309-314.
[14] CASACA W,NONATO L G,TAUBIN G.Laplacian coordinates for seeded image segmentation[C]//2014 IEEE Conference on Computer Vision and Pattern Recognition.IEEE,2014:384-391.
[15] SHEN J B,DU Y F,WANG W G,et al.Lazy random walks for superpixel segmentation[J].IEEE Transactions on Image Processing,2014,23(4):1451-1462.
【通聯(lián)編輯:唐一東】