左向梅 趙 振 茍婷婷
(中國(guó)飛行試驗(yàn)研究院 陜西 西安 710089)
基于交互式條件隨機(jī)場(chǎng)的RGB-D圖像語(yǔ)義分割
左向梅 趙 振 茍婷婷
(中國(guó)飛行試驗(yàn)研究院 陜西 西安 710089)
RGB-D圖像語(yǔ)義分割是場(chǎng)景識(shí)別與分析的基礎(chǔ)步驟,基于條件隨機(jī)場(chǎng)(CRF)的圖像分割方法不能有效應(yīng)用于復(fù)雜多變的現(xiàn)實(shí)場(chǎng)景,因此提出一種交互式條件隨機(jī)場(chǎng)的RGB-D圖像語(yǔ)義分割方法。首先利用中值濾波和形態(tài)重構(gòu)方法對(duì)Kinect相機(jī)拍攝的RGB-D圖像進(jìn)行預(yù)處理,降低圖像噪聲及數(shù)據(jù)缺失;其次,利用基于條件隨機(jī)場(chǎng)的分割方法對(duì)經(jīng)過預(yù)處理的圖像進(jìn)行自動(dòng)分割,得到粗略的分割結(jié)果;最后,用戶通過交互平臺(tái),將代表正確場(chǎng)景信息的標(biāo)簽反應(yīng)到條件隨機(jī)場(chǎng)模型中并進(jìn)行模型更新,改善分割結(jié)果。通過多組實(shí)驗(yàn)驗(yàn)證了該算法不僅滿足用戶對(duì)于復(fù)雜場(chǎng)景分割與識(shí)別的需求,而且用戶交互簡(jiǎn)單、方便、直觀。相較于傳統(tǒng)的基于條件隨機(jī)場(chǎng)分割方法,該方法得到較高的分割精度和較好的識(shí)別效果。
條件隨機(jī)場(chǎng) 語(yǔ)義分割 交互式 RGB-D圖像
隨著科技的發(fā)展,Kinect深度相機(jī)的出現(xiàn)解決了在激光掃描設(shè)備和深度相機(jī)系統(tǒng)中存在的實(shí)際困難,簡(jiǎn)單、廉價(jià)、方便的特性使它成為計(jì)算機(jī)視覺領(lǐng)域的研究熱點(diǎn)。Kinect相機(jī)獲取的RGB-D圖像[1]既包含了被拍攝物體的RGB圖像,也包含了深度信息,因其豐富的數(shù)據(jù)特點(diǎn)使得其廣泛應(yīng)用于圖像語(yǔ)義分析與理解的相關(guān)領(lǐng)域。
圖像語(yǔ)義分割[2]包含了傳統(tǒng)的圖像分割和目標(biāo)識(shí)別兩個(gè)任務(wù),其目的是將圖像分割成多個(gè)具有語(yǔ)義信息的塊,并識(shí)別出分割塊的類別,最終得到一幅含有語(yǔ)義標(biāo)注的圖像。目前存在的語(yǔ)義分割方法一般是通過構(gòu)建條件隨機(jī)場(chǎng)模型來完成圖像分割和識(shí)別兩個(gè)任務(wù)。條件隨機(jī)場(chǎng)模型[3]是一種基于無(wú)向圖的概率模型,用來對(duì)序列數(shù)據(jù)進(jìn)行標(biāo)記,具有很強(qiáng)的概率推理能力。其優(yōu)勢(shì)在于充分考慮了圖像中不同物體之間的位置關(guān)系,能夠?qū)ξ矬w類別有合理的推斷。但是現(xiàn)實(shí)場(chǎng)景復(fù)雜,純粹的依靠算法來完全自動(dòng)實(shí)現(xiàn)分割和識(shí)別并不能滿足要求。因此,用戶干涉的圖像分割技術(shù)成為新的研究熱點(diǎn)。
目前廣泛應(yīng)用的主要有基于圖割理論[4]、隨機(jī)游走[5]、圖匹配[6]等交互式分割方法。雖然它們理論依據(jù)不同,但是都具有相似的步驟思想。大體概括為:選取圖像中的某些區(qū)域進(jìn)行標(biāo)記,用標(biāo)記的像素根據(jù)制定的規(guī)則進(jìn)行訓(xùn)練,得到相關(guān)分類模型后對(duì)其他像素進(jìn)行標(biāo)記,完成圖像語(yǔ)義分割。這些算法相較于自動(dòng)分割方法雖然效果有所提高,但是依舊存在一些不足:對(duì)用戶輸入要求較高,用戶選擇的位置和數(shù)量都會(huì)影響分割結(jié)果,并且要不斷調(diào)整輸入,交互量較大;由于算法的限制,現(xiàn)有分割方法大多用于單一目標(biāo)分割中,對(duì)于多目標(biāo)分割問題,很難快速得到準(zhǔn)確的結(jié)果。
針對(duì)以上問題,本文提出了一種交互式RGB-D圖像語(yǔ)義分割方法,巧妙地將手動(dòng)操作融入到自動(dòng)分割過程中,加入少量的人工交互操作,卻很好地改善了分割精度,這是以前自動(dòng)方法所達(dá)不到的。
本文方法主要分為三個(gè)步驟:首先對(duì)Kinect相機(jī)獲得的RGB-D圖像進(jìn)行預(yù)處理,去除噪聲并改善像素缺失狀況;其次,利用基于條件隨機(jī)場(chǎng)的圖像分割方法對(duì)經(jīng)過預(yù)處理的圖像進(jìn)行初始分割,得到大體的分割結(jié)果,這樣有利于減少后續(xù)的交互工作量;最后,用戶通過交互平臺(tái),將反應(yīng)場(chǎng)景正確信息的標(biāo)簽傳遞到交互能量函數(shù)項(xiàng)中,并進(jìn)行模型更新,得到改善后的分割結(jié)果。圖1為本文方法流程圖。
圖1 基于交互式條件隨機(jī)場(chǎng)的圖像分割流程圖
1.1 圖像預(yù)處理
從Kinect得到的深度圖含有大量的噪聲,手動(dòng)拍攝時(shí)Kinect輕微晃動(dòng)以及場(chǎng)景中的光線干擾,都會(huì)增加圖像噪聲。而且深度估計(jì)算法還產(chǎn)生大量的稍縱即逝的人為干擾,尤其是靠近邊緣的區(qū)域。所以在提取圖像特征并進(jìn)行識(shí)別之前,必須進(jìn)行圖像去噪。為此,使用中值濾波器[7]對(duì)圖像進(jìn)行去噪。
深度圖像除了包含噪聲外,還會(huì)出現(xiàn)數(shù)據(jù)缺失的部分,這些區(qū)域從彩色相機(jī)是可見的,但沒有出現(xiàn)在深度圖像上。比如對(duì)黑色吸光物體或鏡面和低反射率表面,它們的深度沒能被估計(jì),出現(xiàn)了深度圖上的孔。因此本文使用形態(tài)學(xué)重構(gòu)方法[8]對(duì)其進(jìn)行修補(bǔ)。
使用中值濾波去噪和形態(tài)學(xué)重構(gòu)補(bǔ)洞后效果如圖2所示。
圖2 深度圖像預(yù)處理
1.2 圖像自動(dòng)分割
圖像進(jìn)行預(yù)處理之后,在進(jìn)行交互式分割之前,先使用基于條件隨機(jī)場(chǎng)的方法進(jìn)行自動(dòng)分割,這樣可以減少后續(xù)的交互工作量。條件隨機(jī)場(chǎng)[3]是由Lafferty等提出的一個(gè)基于統(tǒng)計(jì)序列分割和標(biāo)記的方法,是一個(gè)在給定輸入節(jié)點(diǎn)的前提下,計(jì)算輸出節(jié)點(diǎn)的條件概率的無(wú)向圖模型。
本文中條件隨機(jī)場(chǎng)能量函數(shù)E(y)測(cè)量了圖像中每個(gè)像素i對(duì)應(yīng)的可能標(biāo)簽yi的代價(jià)。yi可以取一組離散數(shù)據(jù)集{1,2,…,C},C代表類別數(shù)。能量函數(shù)由三項(xiàng)組成:(1)一元代價(jià)函數(shù)φ,依賴于像素位置i、局部描述符xi和學(xué)習(xí)的參數(shù)θ;(2)相鄰像素i和j的標(biāo)簽勢(shì)函數(shù)ψ(yi,yj);(3)相鄰兩像素點(diǎn)i和j之間的空間連續(xù)性η(i,j),它的形式依不同的圖像而有所不同。能量函數(shù)定義如下:
(1)
1.2.1 一元?jiǎng)莺瘮?shù)
本文中一元?jiǎng)莺瘮?shù)φ是由局部幾何模型和位置先驗(yàn)概率這兩部分組成:
(2)
1) 幾何模型
幾何模型P(yi|xi,θ)是用一系列D維的局部描述符xi訓(xùn)練而成。幾何模型的訓(xùn)練框架描述如下:
在給定從訓(xùn)練圖片中提取出來的描述符集合:X={xi:i=1,2,…,N}情況下,我們用大小為H(1000)的單隱藏層和C維的最大軟間隔輸出層來訓(xùn)練一個(gè)神經(jīng)網(wǎng)絡(luò),表示成P(yi|xi,θ)。它含有參數(shù)θ(大小為(D+1)×H和(H+1)×C的兩個(gè)權(quán)重矩陣),通過使用反向傳播和交叉熵?fù)p失函數(shù)學(xué)習(xí)而成。
經(jīng)過訓(xùn)練后,神經(jīng)網(wǎng)絡(luò)模型生成了P(yi|xi,θ)和描述符xi之間的映射。在使用條件隨機(jī)場(chǎng)模型之前,本文利用基于圖割的分割方法產(chǎn)生超像素{s1,s2,…,sk}[9],計(jì)算兩種不同的超像素點(diǎn)集合:僅用顏色圖像得到的SRGB和利用顏色與深度圖像共同生成的SRGBD。我們利用超像素來聚合一元?jiǎng)莺瘮?shù)產(chǎn)生的初步預(yù)測(cè)結(jié)果。然后,對(duì)于圖像的每個(gè)超像素sk,我們對(duì)所有落入該超像素的概率P(yi|xi,θ)求平均值,然后給在sk內(nèi)的每個(gè)像素點(diǎn)賦予計(jì)算出的均值類概率。
2) 位置先驗(yàn)概率
位置先驗(yàn)概率P(yi,i)有兩種不同的形式,第一種獲得了目標(biāo)的二維位置,類似于其他的語(yǔ)義分割方法。第二種是一種新穎的利用深度信息的三維位置先驗(yàn)概率。
1.2.2 標(biāo)簽勢(shì)函數(shù)
關(guān)于這一項(xiàng)我們選用相對(duì)簡(jiǎn)單的Potts 模型[10]:
(3)
使用簡(jiǎn)單的標(biāo)簽轉(zhuǎn)換模型使得我們能夠清楚地看到相對(duì)于條件隨機(jī)場(chǎng)中的其他兩個(gè)勢(shì)函數(shù)、深度值的好處。在實(shí)驗(yàn)中我們將d的值設(shè)為3。
1.2.3 空間轉(zhuǎn)換勢(shì)函數(shù)
空間轉(zhuǎn)換代價(jià)η(i,j)提供了一個(gè)機(jī)理來抑制或者鼓勵(lì)每個(gè)位置的標(biāo)簽轉(zhuǎn)換(獨(dú)立于建議的標(biāo)簽類)。我們用下面的勢(shì)函數(shù)形式表示:
η(i,j)=η0exp{-αmax(|I(i)-I(j)|-t,0)}
(4)
其中|I(i)-I(j)|表示在圖像中相鄰像素點(diǎn)i和j之間的梯度,t為一個(gè)閾值,而α和η0是尺度因子,η0=100。
1.3 交互式圖像分割
對(duì)圖像進(jìn)行自動(dòng)分割后,其分割結(jié)果并不是很好,因此,我們?cè)谏鲜瞿P椭性黾恿私换ツ芰亢瘮?shù)項(xiàng),將當(dāng)前場(chǎng)景的正確信息反應(yīng)到條件隨機(jī)場(chǎng)模型中并進(jìn)行模型更新,改善分割結(jié)果。我們的交互項(xiàng)是通過交互平臺(tái)由用戶對(duì)自動(dòng)分割結(jié)果中錯(cuò)誤的部分簡(jiǎn)單地畫幾筆實(shí)現(xiàn)的。模型更新能量函數(shù)如下所示:
(5)
這里E1(ci:xi)測(cè)量了像素i的在特征xi條件下標(biāo)簽為ci的概率,E2(ci:cj)測(cè)量了兩個(gè)相連像素標(biāo)簽的一致性。通過使用圖割方法[11]可以有效最小化模型更新能量函數(shù)。下面詳細(xì)描述我們能量函數(shù)各組成部分的含義和作用。
1.3.1 交互能量函數(shù)
能量函數(shù)E1(ci:xi)依據(jù)像素i的特征評(píng)價(jià)了它屬于某個(gè)物體標(biāo)簽的概率。它由兩項(xiàng)組成,來自于深度相機(jī)的顏色和深度信息的局部外觀和幾何模型:
(6)
(7)
(8)
這里d(x,ci)是當(dāng)前像素與對(duì)象類ci最近聚類中心的顏色值開方距離,ξ是一個(gè)比較小的數(shù),為了避免分母為0,一般取10e-6。
(9)
? 高度hi:像素i在平面擬合面上的投影到地面的距離
? 尺寸si:覆蓋該像素的平面擬合面的尺寸
? 方向θi:平面擬合面法向量與地面法向量夾角
(10)
能量項(xiàng)E2(ci,cj)用來約束鄰域像素標(biāo)簽的光滑性。我們用下式來計(jì)算該項(xiàng):
E2(ci,cj)=δ[ci≠cj]sim(fi,fj)
(11)
這里,fi=[r,g,b,d]T為像素i的顏色值和深度值的串聯(lián)。兩個(gè)像素之間的相似性由式(12)計(jì)算:
(12)
其中σ是像素特征間的平均距離。
1.3.2 模型更新
2.1 系統(tǒng)實(shí)現(xiàn)
本文系統(tǒng)采用C++開發(fā),所使用的開發(fā)環(huán)境是微軟的VisualStudio2010,鏈接的庫(kù)包括:微軟基礎(chǔ)類(MFC),開放圖像庫(kù)(OpenGL),開放計(jì)算機(jī)視覺庫(kù)(OpenCV)等。
系統(tǒng)界面如圖3所示,其中菜單欄包括文件、視圖、運(yùn)行、更新四項(xiàng)。左邊子窗口為標(biāo)簽面板和參數(shù)設(shè)置面板,中間為圖像顯示區(qū)域,右邊為渲染的深度數(shù)據(jù)顯示區(qū)。其中文件項(xiàng)完成對(duì)文件的讀取和保存;視圖項(xiàng)調(diào)整界面顯示內(nèi)容;運(yùn)行項(xiàng)包括對(duì)用戶標(biāo)簽、分割標(biāo)簽、模型存儲(chǔ)等操作;更新項(xiàng)可以重新加載數(shù)據(jù)。
圖3 系統(tǒng)軟件界面
2.2 實(shí)驗(yàn)結(jié)果
圖4展示了對(duì)我們拍攝的幾個(gè)場(chǎng)景中的部分圖像,使用交互式分割方法得到的結(jié)果,并與自動(dòng)分割結(jié)果進(jìn)行了對(duì)比。圖4(a)中的灰度條代表了不同類別的物體標(biāo)簽;圖4(b)-(g)為六組圖像分割結(jié)果,每一組從左到右依次為RGB圖像(包含人工交互筆畫)、對(duì)應(yīng)的深度圖像、自動(dòng)分割結(jié)果、交互式分割結(jié)果。從圖中可以看出,使用自動(dòng)分割方法雖然能達(dá)到大體分割結(jié)果,但對(duì)于一些物體還是出現(xiàn)了標(biāo)簽錯(cuò)誤的情況。比如自動(dòng)分割時(shí)圖4(b)中椅子背部分被錯(cuò)分為沙發(fā),圖4(d)中桌子部分被錯(cuò)分為柜子,沙發(fā)部分被錯(cuò)分為桌子。
使用我們的交互式分割方法,增加少量的人工交互操作后,可以很大程度上改善分割效果,得到用戶要求的分割精度。與其他交互式分割方法相比,不需要用戶預(yù)先進(jìn)行盲目的標(biāo)記,大大減少了工作量,從圖中可以看出每組圖像的交互不超過6筆。而且我們不是簡(jiǎn)單地進(jìn)行前景和背景單一分割,而是實(shí)現(xiàn)了多目標(biāo)分割,識(shí)別了圖像中多類物體。通過將自動(dòng)分割結(jié)果及交互式分割結(jié)果與真實(shí)標(biāo)簽圖像進(jìn)行誤差計(jì)算,如表1所示,可以看出,交互式分割結(jié)果準(zhǔn)確率明顯高于自動(dòng)分割結(jié)果。
表1 自動(dòng)分割與本文交互式分割準(zhǔn)確率對(duì)比
圖4 自動(dòng)與交互式圖像分割對(duì)比
除了對(duì)實(shí)驗(yàn)結(jié)果準(zhǔn)確率的分析,我們還對(duì)圖4中6組圖像分割過程中交互的次數(shù)及時(shí)間進(jìn)行了記錄,見表2所示。運(yùn)行該系統(tǒng)的計(jì)算機(jī)配置:Windows7 操作系統(tǒng),至強(qiáng)3.2GHz處理器,16GB內(nèi)存。從表2可以看出,每幅圖像第一次交互所需的筆畫數(shù)量最多,交互時(shí)間較長(zhǎng),隨后只需要較少的交互量就可以在短時(shí)間內(nèi)達(dá)到用戶期望的分割結(jié)果,本文中所使用的實(shí)驗(yàn)圖像最多只需要交互三次就能完成語(yǔ)義分割。
表2 本文交互式分割時(shí)間表
為了進(jìn)一步驗(yàn)證本文系統(tǒng)的性能,將我們的方法與基于圖割的交互式分割方法[14]及SIOX交互式分割方法[15]進(jìn)行對(duì)比,分割結(jié)果見圖5所示。圖5(a)、(b)為兩組實(shí)驗(yàn)圖像及結(jié)果,其中第一列為RGB圖像(包含人工交互筆畫),第二列為基于圖割的交互式分割結(jié)果,第三列為SIOX交互式分割結(jié)果,第四列為本文交互式分割結(jié)果。表3為圖5(a)、(b)兩組圖像的分割準(zhǔn)確率及時(shí)間。從圖5及表3可以看出,相比于其他兩種方法,在近似相同的時(shí)間消耗情況下,我們的方法能夠得到更好的分割結(jié)果,從而達(dá)到用戶對(duì)圖像的分割需求。
圖5 不同交互式分割方法對(duì)比結(jié)果
圖像標(biāo)號(hào)基于圖割的方法SIOX分割方法本文方法準(zhǔn)確率時(shí)間/s準(zhǔn)確率時(shí)間/s準(zhǔn)確率時(shí)間/s(a)90.91.193.71.097.21.1(b)89.81.372.51.096.81.2
上述實(shí)驗(yàn)是在假定人工交互給出的都是正確標(biāo)簽的情況下進(jìn)行的,所以外觀函數(shù)里的權(quán)重系數(shù)αp和幾何函數(shù)里的系數(shù)αg設(shè)定為較大的值,從而增加人工交互對(duì)分割結(jié)果的影響。但在實(shí)際操作中,難免會(huì)存在錯(cuò)誤的人工交互,通過減小權(quán)重系數(shù)αp和αg,可以降低人工交互對(duì)系統(tǒng)分割結(jié)果的影響。當(dāng)人為引入錯(cuò)誤的信息后,系統(tǒng)依然保留原有的判斷,從而提高系統(tǒng)的魯棒性。圖6為兩組實(shí)驗(yàn)結(jié)果,從圖6中可以看出,當(dāng)αp和αg設(shè)以較大的值(αp=0.6,αg=0.7),人工錯(cuò)誤地操作將桌子標(biāo)記為椅子,結(jié)果系統(tǒng)誤將桌子顯示為椅子,由此可以看出人工交互對(duì)系統(tǒng)的影響較大。考慮到人為錯(cuò)誤信息的引入,適當(dāng)降低αp和αg的值(αp=0.4,αg=0.5),圖中可以看出,盡管人為將桌子錯(cuò)誤標(biāo)記為椅子,但是由于人工操作對(duì)系統(tǒng)影響降低,系統(tǒng)自身判斷占據(jù)較大比重,所以依舊將桌子判斷為桌子,從而提高了系統(tǒng)的魯棒性。
圖6 兩組引入人工錯(cuò)誤信息后的實(shí)驗(yàn)結(jié)果對(duì)比圖
盡管通過降低權(quán)重系數(shù)αp和αg的值,可以減輕人為錯(cuò)誤信息引入后對(duì)系統(tǒng)系統(tǒng)性能的負(fù)面影響,但這是以削弱人工對(duì)系統(tǒng)的影響為代價(jià)。有時(shí)候系統(tǒng)本身判斷的確是錯(cuò)誤的,人工就需要多次的操作才能糾正系統(tǒng)自身的判斷失誤,不免帶來系統(tǒng)效率上的降低。因此,為了保證系統(tǒng)擁有較高的使用效率的同時(shí),對(duì)人為錯(cuò)誤信息擁有一定的處理能力,選取合適的權(quán)重系數(shù)αp和αg的值需要根據(jù)用戶不同的需求來決定。
本文提出了一種交互式的圖像分割和標(biāo)簽方法,提取RGB-D圖像的語(yǔ)義區(qū)域。當(dāng)對(duì)圖像進(jìn)行分割時(shí),首先使用基于條件隨機(jī)場(chǎng)模型的方法對(duì)圖像進(jìn)行初始分割,隨后通過少量人工交互,動(dòng)態(tài)地調(diào)整辨別型模型來反映當(dāng)前場(chǎng)景的信息,從而改善分割結(jié)果。依據(jù)我們的實(shí)踐,只需要簡(jiǎn)單的畫幾筆就能很好地提高分割精度,這對(duì)于自動(dòng)分割方法來說是很難達(dá)到的。而且,當(dāng)前的分割信息自動(dòng)地集成到我們學(xué)習(xí)的條件隨機(jī)場(chǎng)模型中,所以對(duì)于后續(xù)的圖像也能改善分割精度。雖然我們提出的交互式圖像分割方法能很好地提高分割精度,對(duì)用戶交互操作量也比較少,但是交互操作會(huì)影響分割速度,所以后續(xù)工作需要進(jìn)一步優(yōu)化能量函數(shù),在提高精度的同時(shí)不增加計(jì)算時(shí)間。
[1]ShaoL,HanJ,KohliP,etal.ComputervisionandmachinelearningwithRGB-Dsensors[M].Switzerland:SpringerInternationalPublishing, 2014: 3-26.
[2]KohliP,LadickL,TorrPH.Robusthigherorderpotentialsforenforcinglabelconsistency[J].InternationalJournalofComputerVision, 2009, 82(3): 302-324.
[3]LaffertyJD,McCallumA,PereiraFCN.Conditionalrandomfields:probabilisticmodelsforsegmentingandlabelingsequencedata[C]//ProceedingsoftheEighteenthInternationalConferenceonMachineLearning,Williamstown,MA,USA.SanFrancisco,CA,USA:MorganKaufmannPublishers, 2001: 282-289.
[4]BoykovYY,JollyMP.InteractivegraphcutsforoptimalboundaryandregionsegmentationofobjectsinN-Dimages[C]//ProceedingoftheEighthIEEEInternationalConferenceonComputerVision,Vancouver,BC,Canada, 2001: 105-112.
[5]GradyL.Randomwalksforimagesegmentation[J].IEEETransactionsonPatternAnalysisandMachineIntelligence, 2006, 28(11): 1768-1783.
[6]NomaA,GracianoABV,JrRMC,etal.Interactiveimagesegmentationbymatchingattributedrelationalgraphs[J].PatternRecognition, 2012, 45(3): 1159-1179.
[7]HwangH,HaddadRA.Adaptivemedianfilters:newalgorithmandresults[J].IEEETransactionsonImageProcessing, 1995, 4(4): 499-502.
[8] 文華. 基于數(shù)學(xué)形態(tài)學(xué)的圖像處理算法的研究[D]. 哈爾濱:哈爾濱工程大學(xué), 2007.
[9]BoykovY,Funka-LeaG.GraphcutsandefficientN-Dimagesegmentation[J].InternationalJournalofComputerVision, 2006, 70(2): 109-131.
[10]YuanJ,BaeE,TaiXC,etal.Acontinuousmax-flowapproachtoPottsmodel[C]//11thEuropeanConferenceonComputerVision,Heraklion,Crete,Greece.Springer, 2010: 379-392.
[11]BoykovY,VekslerO,ZabihR.Fastapproximateenergyminimizationviagraphcuts[J].IEEETransactionsonPatternAnalysisandMachineIntelligence, 2001, 23(11): 1222-1239.
[12]LiY,SunJ,TangCK,etal.Lazysnapping[J].ACMTransactionsonGraphics, 2004, 23(3): 303-308.
[13]ChumO,MatasJ.RandomizedRANSACwithT(d,d)test[C]//Proceedingsofthe13thBritishMachineVisionConference,Cardiff,UK, 2002: 448-457.
[14]RotherC,KolmogorovV,BlakeA. “GrabCut”:Interactiveforegroundextractionusingiteratedgraphcuts[J].ACMTransactionsonGraphics, 2004, 23(3): 309-314.
[15]FriedlandG,JantzK,RojasR.SIOX:simpleinteractiveobjectextractioninstillimages[C]//Proceedingsofthe2005IEEEInternationalSymposiumonMultimedia,Irvine,CA,USA, 2005: 253-260.
RGB-D IMAGE SEMANTIC SEGMENTATION METHOD BASED ONINTERACTIVE CONDITIONAL RANDOM FIELDS
Zuo Xiangmei Zhao Zhen Gou Tingting
(ChineseFlightTestEstablishment,Xi’an710089,Shaanxi,China)
RGB-D image semantic segmentation is the primary step of scene recognition and analysis, and the image segmentation method based on conditional random fields (CRF) cannot be applied in complex and volatile scenes, therefore an RGB-D image semantic segmentation method with interactive conditional random fields is proposed. Firstly, preprocess the depth and color images generated from Kinect with median filter and morphology reconstruction method, reducing the image noise and missing data. Secondly, automatically segment the preprocessed images with conditional random fields to obtain the rough segmentation. Finally, user takes the correct labels into the conditional random fields’ model to update the model through an interactive platform, which can improve the segmentation results. Compared with the traditional segmentation method based on conditional random fields, the proposed method can achieve better performance in scene understanding and analysis.
Conditional random fields Semantic segmentation Interactive RGB-D image
2015-07-09。左向梅,工程師,主研領(lǐng)域:模式識(shí)別與圖像處理。趙振,工程師。茍婷婷,碩士生。
TP391.41
A
10.3969/j.issn.1000-386x.2017.03.032