華 漫,李燕玲,林瑞春
(中國民航飛行學(xué)院 計(jì)算機(jī)學(xué)院,四川 廣漢 618307)
?
基于雙目立體視覺的場景分割方法
華漫,李燕玲,林瑞春
(中國民航飛行學(xué)院 計(jì)算機(jī)學(xué)院,四川廣漢618307)
摘要:提出一種基于雙目立體視覺的場景分割方法:首先根據(jù)雙目立體視覺系統(tǒng)提供的左右視圖進(jìn)行三維場景重構(gòu),得到場景的幾何深度圖,同時(shí)利用左視圖進(jìn)行RGB顏色空間到CIELab均勻顏色空間的轉(zhuǎn)換以得到顏色信息;然后將顏色與幾何信息構(gòu)造生成六維向量;最后再將六維向量給到聚類算法中進(jìn)行分割并對分割的偽影進(jìn)行消除,得到最終的分割結(jié)果。對Middlebury數(shù)據(jù)集樣本場景baby 2實(shí)驗(yàn)了6種立體視覺算法和3種聚類技術(shù)的不同組合進(jìn)行的場景分割,從實(shí)驗(yàn)結(jié)果來看,不同的組合應(yīng)用所提方法都比傳統(tǒng)方法具有更好的分割效果。
關(guān)鍵詞:場景分割;立體視覺;聚類;深度圖
1場景分割
場景分割是著名的圖像區(qū)域識(shí)別方法。除了應(yīng)用于圖像識(shí)別外,分割作為最基本的步驟,在許多其他計(jì)算機(jī)視覺任務(wù),如物體識(shí)別或立體視覺中也是急需解決的問題。比如,在電視和電影行業(yè)中,分割是從視頻中將前景與背景分離的重要方法,而在視頻中,存在類型多樣性和結(jié)構(gòu)復(fù)雜性等特點(diǎn),目前尚沒有一種通用而且有效的場景分割方法。但是近十幾年來,隨著因特網(wǎng)的快速發(fā)展,視頻的應(yīng)用越來越廣泛,對場景分割方法的研究也逐漸成為了熱點(diǎn)。
經(jīng)典的分割技術(shù)有許多不同的方法,但它們大都只是利用單一的從圖像場景幀中提取的信息來進(jìn)行分割[1]。因此,盡管經(jīng)過大量的努力,但對圖像進(jìn)行場景分割仍然缺乏強(qiáng)大的解決方案。經(jīng)典方法的局限性在于:圖像中包含的顏色信息并不足以去完全代表場景信息的組成。如圖1b所示。本文的目標(biāo)是將嬰兒從圖像中分割出來,但是當(dāng)嬰兒的膚色和世界地圖顏色相似的時(shí)候,采用經(jīng)典的基于顏色的分割方法無法將它們進(jìn)行分割,如圖中嬰兒手臂下面部分。此時(shí),利用基于幾何的深度信息可以將此問題克服,如圖1c所示。但與此同時(shí),又出現(xiàn)了另外的問題:當(dāng)深度相同而顏色不同的時(shí)候又無法分割,如圖中書籍和嬰兒的腳被關(guān)聯(lián)到相同的部分,由于其具有相似的深度,被分割在一起。因此,采用單一的基于顏色或者幾何的方法在很多時(shí)候是無法正確分割對象的,如圖1b和圖1c所示。由此,同時(shí)考慮顏色和幾何線索,就可以避免上述問題。以圖1為例,圖1c利用顏色和幾何形狀,雖然嬰兒的腳和圖書的幾何深度相同,但由于它們有相同的嬰兒的皮膚顏色,因此知道嬰兒的腳屬于“嬰兒”這個(gè)整體;圖1b中盡管嬰兒手臂下面地圖區(qū)域與嬰兒的膚色相同,但是它和嬰兒的幾何深度不同,就不屬于“嬰兒”這個(gè)整體。
立體視覺是計(jì)算機(jī)視覺領(lǐng)域的一個(gè)重要課題[2],特別是模擬人眼的雙目立體視覺技術(shù),近年來已經(jīng)做了相當(dāng)多的研究,技術(shù)比較成熟,能夠同時(shí)給出顏色和幾何深度信息,正好滿足前述圖像分割的需求。
當(dāng)前,立體視覺算法主要包括:以Fixed Window(FW)算法為基礎(chǔ)的局部算法[3]、以Adaptive Weights(AW)算法[4]為基礎(chǔ)的局部算法、對AW進(jìn)行改進(jìn)的Segment Support(SS)算法[5]、結(jié)合AW和FW算法的Fast Bilateral Stereo(FBS)算法[6]、Semi Global Matching(SGM)算法[7]、全局立體視覺Graph Cut(GC)算法[8]。
最近的場景分割技術(shù)是基于圖論、聚類技術(shù)和許多其他技術(shù)(如區(qū)域合并,水平集,分水嶺變換等)[9]。其中聚類技術(shù)應(yīng)用最為廣泛,本文將考慮采用3種聚類方法:K-means聚類[10]、Mean-shift 算法[11]、Spectral 聚類[12]。
采用雙目立體視覺技術(shù)獲得顏色和幾何信息后,利用該技術(shù)來進(jìn)行場景分割就變得更為有效。本文的組織如下:首先介紹本文分割方法的實(shí)施方案以及詳細(xì)步驟,再利用不同組合的立體視覺重建和分割算法,給出各種組合的實(shí)驗(yàn)結(jié)果,最后得出結(jié)論。
2本文方法實(shí)施方案及詳細(xì)步驟
2.1實(shí)施方案
如引言中的介紹,本文場景分割的目標(biāo)是通過利用雙目立體視覺系統(tǒng)提供的三維幾何和彩色信息來進(jìn)行場景分割。分割方法可分為4個(gè)主要步驟,從一個(gè)標(biāo)準(zhǔn)的雙目立體視覺系統(tǒng)所獲得的相同場景的兩個(gè)視圖(左視圖和右視圖)開始,每一步的詳細(xì)描述如下:
1)生成深度圖,進(jìn)行三維場景幾何重構(gòu);
2)構(gòu)建包含幾何和顏色信息的新場景,即構(gòu)建六維向量;
3)應(yīng)用基于顏色和幾何信息的聚類算法;
4)最后的細(xì)化階段,以消除由于噪聲或幾何提取中的錯(cuò)誤產(chǎn)生的偽影。
圖2給出了詳細(xì)的實(shí)施方案。該方案是一個(gè)總體框架,其中可以使用不同的立體視覺和分割算法。通過雙目視覺系統(tǒng),由左視圖提供顏色信息,左視圖加上右視圖進(jìn)行視覺三維幾何重建,從而得到幾何信息,再將顏色和幾何信息組成六維向量給到聚類算法中進(jìn)行分割并對分割的偽影進(jìn)行消除,得到最終的分割結(jié)果。
2.2詳細(xì)步驟
2.2.1三維幾何重構(gòu)
(1)
式中:Ks為整流后的雙目立體視覺系統(tǒng)的攝像機(jī)內(nèi)部參數(shù)矩陣(這里為左攝像機(jī)內(nèi)部參數(shù))。
如圖2所示,雙目立體視覺系統(tǒng)所獲得的成對圖像輸入到立體視覺算法中,得到幀場景點(diǎn)的深度信息。這里可以使用前言中提到的立體視覺算法中的任何一種。對于相同的圖像輸入,不同的立體視覺算法產(chǎn)生不同的深度圖,所產(chǎn)生的分割結(jié)果也可能就完全不同。圖3給出了不同立體視覺算法生成的深度圖之間的對比。
2.2.2六維特征向量構(gòu)造
上一步中得到的場景的幾何信息再結(jié)合顏色信息進(jìn)行分割比使用單一的幾何或顏色信息進(jìn)行分割的效果要好。要想將兩種信息結(jié)合以便同時(shí)利用它們,首先必須建立一個(gè)統(tǒng)一的包括顏色和三維幾何信息的表示方法。對于給定的場景S, 在使用立體視覺算法得到三維幾何信息后,這時(shí)不管是左視圖還是右視圖,它們所有的沒有被遮擋的幀場景點(diǎn)pi都能夠同時(shí)獲得顏色和幾何信息(pi∈S,i=1,z,…,n)。因此,這些點(diǎn)就可以被描述為包含顏色和幾何信息的六維向量,如式(2)所示
Vi=[L(pi),α(pi),b(pi),x(pi),y(pi),z(pi)]T
(2)
其中,前三個(gè)分量的代表顏色信息,后三個(gè)分量代表幾何信息。其中顏色分量的建立方法如下:將RGB顏色空間轉(zhuǎn)換到CIELab均勻顏色空間。均勻顏色空間的好處在于能夠確保點(diǎn)之間的歐氏距離接近不同顏色之間的感知差異,并允許在3個(gè)顏色通道進(jìn)行距離對比。
現(xiàn)在特征向量Vi還沒有被聚類,因?yàn)樗鼈兪怯刹煌再|(zhì)(顏色和幾何)和大小的數(shù)據(jù)構(gòu)成,而分割方法需要均勻的特征向量,而且向量分量必須屬于同一個(gè)域。此外,為了更好地操作,大多數(shù)的方法需要特征值在[0,1]范圍內(nèi)。綜上因素,每個(gè)場景點(diǎn)pi被其三維坐標(biāo)x(pi),y(pi),z(pi)以及顏色值L(pi),a(pi),b(pi)表示之后,本文方法需要對這些特征向量進(jìn)行歸一化處理。具體做法是:三維坐標(biāo)信息由z軸標(biāo)準(zhǔn)偏差σZ進(jìn)行歸一化,顏色信息由顏色空間L分量標(biāo)準(zhǔn)偏差σL進(jìn)行歸一化。顏色信息和幾何深度信息之間的權(quán)衡比由λ因子控制。最終,每個(gè)可見的場景點(diǎn)pi由六維向量Vi,i=1,…,N表示,如式(3)所定義
(3)
很明顯,從式(3)可以看出,高的λ值更著重于幾何信息,而較低的值則偏向于顏色信息.
2.2.3場景分割
如上節(jié)所述,在綜合考慮顏色和幾何信息后,本文用六維歸一化向量Vi,i=1,…,N來描述場景S。假設(shè)場景S由不同部分s(K),k = 1,…,K,組成,比如不同的物體或感興趣區(qū)域,分割就是尋找不同群體的點(diǎn)代表不同的對象。本文所提的分割方案可以歸結(jié)為:將各個(gè)場景點(diǎn)pi聚類到向量Vi,i=1,…,N以代表不同的對象,即通過使用引言中描述的任何聚類技術(shù),圖像各個(gè)部分就被關(guān)聯(lián)到某個(gè)具體的聚類。顯然,由于立體視覺算法的局限性,得到的深度圖可能含有偽影。采用不同的立體視覺算法和聚類技術(shù)的組合,將導(dǎo)致不同的分割結(jié)果,將在實(shí)驗(yàn)中給出分析。
場景分割的最后細(xì)化階段主要是為了減少分割偽影的產(chǎn)生。在細(xì)化階段中,常用的方法是尋找相關(guān)的分量并刪除大小低于某個(gè)預(yù)先定義閾值的分量。這就可以刪除由于圖像噪聲產(chǎn)生的偽影。
3實(shí)驗(yàn)和結(jié)果分析
為了驗(yàn)證本文方法的可行性性,采用立體視覺算法和聚類技術(shù)的不同組合對樣本場景進(jìn)行了實(shí)驗(yàn)。樣本場景來自于Middlebury數(shù)據(jù)集[13],該數(shù)據(jù)集提供Ground-truth視差圖以供使用。算法包括前言里提到的6中立體視覺算法及3種聚類技術(shù)。其中,由MATLAB實(shí)現(xiàn)聚類技術(shù)的執(zhí)行,用C語言編程實(shí)現(xiàn)部分立體視覺算法(FW,AW,SS,F(xiàn)BS),其余兩種GC和SGM算法的實(shí)現(xiàn)參考OpenCV網(wǎng)站實(shí)現(xiàn)方法[14]。
圖3展示了采用不同的立體視覺算法對包含Ground-truth視差圖的Baby2場景左右視圖進(jìn)行計(jì)算所得到的視差圖(深度圖),不同算法得到的結(jié)果有所不同。由圖3可以看出,所有的遮擋點(diǎn)都可以被立體視覺算法識(shí)別出來并用黑色表示,所以在后續(xù)聚類算法中可以不予考慮。每個(gè)聚類都有一種顏色表示,所以沒有被遮擋的點(diǎn)都用不同于黑色的聚類顏色來表示。
圖4顯示了Baby2圖像的最終分割結(jié)果。不同的行對應(yīng)于不同的分割算法,而列則對應(yīng)于立體視覺算法。從圖可以看出所用到的立體視覺和聚類算法在該場景都有很好的效果,比起圖1中采用單一的基于顏色或者幾何信息的算法都有明顯的改善(例如,對嬰兒腳的識(shí)別)。當(dāng)然,也可以從圖4看出,F(xiàn)W和GC算法會(huì)產(chǎn)生一些偽影(比如靠近手臂的地方)。顯然,不同算法產(chǎn)生的錯(cuò)誤幾何信息點(diǎn)的數(shù)量也有所不同,其中FW和AW算法有較大的區(qū)域丟失。在這個(gè)場景中表現(xiàn)最好的算法是SGM,但是差別不是很大。
實(shí)驗(yàn)的目的是評估最有效的立體視覺和聚類算法組合。本文采用像素誤分類百分比來進(jìn)行評估,該百分比是和Middlebury數(shù)據(jù)集提供的groundtruth視差圖對比得到。如前所述,在計(jì)算過程中無須考慮遮擋像素。所有立體視覺算法和聚類方法的18種組合產(chǎn)生的誤分類像素點(diǎn)百分比報(bào)告見表1。
由圖4可以看出,幾乎所有的場景分割,獲得的場景魯棒性和有效性遠(yuǎn)遠(yuǎn)好于單一基于顏色或幾何信息的場景分割(比如,使用k-means聚類進(jìn)行的場景分割)。根據(jù)分割效果的對比,得出結(jié)論:最有效的組合是SS和Spectral的組合,該組合得到的誤分類百分比最低。在速度方面,均值漂移聚類的速度比其他兩個(gè)算法要快些。在所有的聚類算法的MATLAB實(shí)現(xiàn)中,所需要的時(shí)間都不到7s,應(yīng)用于實(shí)時(shí)性不高的場合沒有問題。
表1分割效果對比表(單位:誤分類像素百分比)
最后,λ參數(shù)的設(shè)置也很重要。圖5描述了SS算法使用不同λ得到的分割結(jié)果。過高或者過低的λ值將導(dǎo)致圖1b和圖1c這樣的效果。
4結(jié)論
經(jīng)典的分割方法,即單獨(dú)采用顏色或幾何信息進(jìn)行分割效率不高。為此,本文介紹了一種融合幾何和顏色信息以獲得高質(zhì)量的場景分割的方法,該方法從雙目立體視覺系統(tǒng)獲得幾何形狀及顏色信息。依據(jù)本文方法,實(shí)驗(yàn)了6種立體視覺算法和3種聚類技術(shù)的不同組合進(jìn)行的場景分割。結(jié)果表明在各種組合中,SS的立體視覺算法結(jié)合Spectral聚類提供了最佳的性能。但這種配置比較耗時(shí),在實(shí)時(shí)性要求高的場景可以將其中SS算法用更快的FSD(FastSegmentation-Driven)算法[15]代替。本文場景分割方法所需要的采集系統(tǒng)是一個(gè)雙目立體視覺系統(tǒng),隨著越來越廣泛的使用及成本的降低,未來該系統(tǒng)必將更加便宜和流行。從實(shí)驗(yàn)結(jié)果來看,本文所提方法具有良好的分割效果。為了進(jìn)一步提高分割效果,下一步將致力于立體視覺算法的優(yōu)化研究。
參考文獻(xiàn):
[1]張辭, 馬麗. 基于改進(jìn)的GSA彩色圖像分割方法研究[J]. 電視技術(shù), 2014, 38(13):39-42.
[2]李桂苓, 潘榕, 許樹檀. 立體視覺與立體成像[J]. 電視技術(shù), 2012, 36(2):15-18.
[3]MCDONALDM.Box-filteringtechniques[J].Computergraphicsandimageprocessing, 1981, 17(1): 65-70.
[4]YOONKJ.Adaptivesupport-weightapproachforcorrespondencesearch[J].IEEEtransactionsonpatternanalysis&machineintelligence, 2006, 28(4):650-656.
[5]TOMBARIF,MATTOCCIAS,STEFANOLD.Segmentation-basedadaptivesupportforaccuratestereocorrespondence[M].BerlinHeidelberg:AdvancesinImageandVideoTechnology, 2007.
[6]MATTOCCIAS,GIARDINOS,GAMBINIA.AccurateandefficientcostaggregationstrategyforstereocorrespondencebasedonapproximatedJointbilateralfiltering[J].Lecturenotesincomputerscience, 2010(9):23-27.
[7]HIRSCHMULLERH.Stereovisioninstructuredenvironmentsbyconsistentsemi-globalmatching[C]//Proc.IEEEConferenceonComputerVisionandPatternRecognition.Washington:IEEEComputerSociety, 2006: 2386-2393.
[8]BOYKOVY,KOLMOGOROVV.Anexperimentalcomparisonofmincut/maxowalgorithmsforenergyminimizationinvision[J].IEEEtransactionsonpatternanalysis&machineintelligence, 2004, 26(9):1124-1137.
[9]SZELISKER.Computervision:algorithmsandapplications[J].Computervision, 2010:247-258.
[10]JAINAK,MURTYMN,F(xiàn)LYNNPJ.Dataclustering:areview[J].ACMcomputingsurveys, 1999, 31(2):S324-S325.
[11]COMANICIUD,MEERP.Meanshift:arobustapproachtowardfeaturespaceanalysis[J].IEEEtransactionsonpatternanalysis&machineintelligence, 2002, 24(5):603-619.
[12]FOWLKESC.SpectralgroupingusingtheNystrommethod[J].IEEEtransactionsonpatternanalysis&machineontelligence, 2004, 26(2):214-225.
[13]Middleburystereovisionwebsite[EB/OL].[2015-05-21].http://vision.middlebury.edu/stereo/.
[14]Opencv[EB/OL].[2015-05-21].http://opencv.willowgarage.com/wiki/.
[15]MATTOCCIAS,DE-MAEZTUL.Afastsegmentation-drivenalgorithmforaccuratestereocorrespondence[C]//InternationalConferenceon3DImaging(IC3D).Belgium:IEEEComputerSociety, 2011:1-6.
華漫(1976— ),副教授,主要研究方向?yàn)橛?jì)算機(jī)視覺、圖像處理;
李燕玲(1982— ),女,碩士,主要研究方向?yàn)槲⒎址匠獭?yōu)化算法;
林瑞春(1980— ),碩士,主要研究方向?yàn)橛?jì)算機(jī)視覺、圖像處理、機(jī)器人。
責(zé)任編輯:時(shí)雯
Scene segmentation approach based on binocular stereo vision
HUA Man,LI Yanling,LIN Ruichun
(SchoolofComputerScience,CivilAviationFlightUniversityofChina,SichuanGuanghan618307,China)
Key words:scene segmentation; stereo vision; clustering; depth map
Abstract:A scene segmentation approach based on binocular stereo vision is proposed. Firstly, an 3D scene is reconstructed based on the left and right view of binocular stereo vision system, and then the scene geometry depth maps were obtained. Meanwhile, RGB color space of the image from left view is converted to CIELAB uniform color space to obtain color information. After that, a 6D vector is constructed by both color and geometry information. Finally, the 6D vector is given to clustering algorithm to segment the scene and remove the artifacts, and at last the final segmentation results are obtained. The Middlebury data set sample scene baby 2 have been segmented with different combinations of stereo vision and clustering techniques.Experimental results show that the proposed method can obtain a better segmentation than the methods based on just color or just geometry.
基金項(xiàng)目:國家自然科學(xué)基金民航聯(lián)合基金項(xiàng)目(U1433130);民航局科技項(xiàng)目(20150215)
中圖分類號(hào):TN911
文獻(xiàn)標(biāo)志碼:B
DOI:10.16280/j.videoe.2016.01.006
作者簡介:
收稿日期:2015-07-15
文獻(xiàn)引用格式:華漫,李燕玲,林瑞春.基于雙目立體視覺的場景分割方法[J].電視技術(shù),2016,40(1):31-35.
HUA M,LI Y L,LIN R C. Scene segmentation approach based on binocular stereo vision [J].Video engineering,2016,40(1):31-35.