任艷楠 劉 琚,2 元 輝,2 顧凌晨
(1. 山東大學信息科學與工程學院,山東濟南 250100;2.山東大學蘇州研究院,江蘇蘇州 215021)
近年來,隨著三維視頻資源需求的快速增長,如何將已有的二維圖像重建為三維圖像顯得尤為重要[1,19-20]。重建三維圖像首先需要獲得場景的深度信息,因此,從二維圖像的結(jié)構(gòu)信息中推測出場景的深度信息是產(chǎn)生三維視頻的重要途徑。這些二維視頻普遍都沒有原始的深度數(shù)據(jù)或者三維信息。然而,人類視覺系統(tǒng)對于實際場景對象之間的距離遠近具有相對性的認知特點,通過分析場景圖片中各個對象的特點并結(jié)合深度因素信息,然后分配合適的深度數(shù)據(jù)以獲得場景的深度圖。這些深度數(shù)據(jù)雖然不精確,但在二維轉(zhuǎn)換為三維視頻圖像時,也可以有效呈現(xiàn)場景的三維效果。
當圖像具有一定的深度線索時,例如聚焦、去霧、線性透視和遮擋等,就可以從該圖像中估算出深度信息[2-5],但該研究只適應(yīng)于具有強烈深度因素的場景。有些深度估計算法先建立深度圖像和對應(yīng)彩色圖像的圖像庫,然后利用建模優(yōu)化算法獲得深度圖[6,7,9],此類型算法有了更為靈活的應(yīng)用空間。近年來,采用深度學習的算法[8]也可以產(chǎn)生不同室外場景結(jié)構(gòu)的深度圖,但這些算法都需要有較大的計算量。
在常見的室外人工場景視圖中,由于建筑設(shè)計時所具有的幾何特性及拍攝角度限制,圖像中的某些對象區(qū)域保留了非常明顯的幾何特征,依據(jù)這些幾何特征,也可以估算出場景的深度信息。D.Hoiem[10]指出,在忽略場景的細節(jié)時,圖像的整體會呈現(xiàn)出統(tǒng)一的幾何結(jié)構(gòu)。在文獻[11]中,作者將常見的視頻場景歸納為有限類型,并用一些典型的三維幾何結(jié)構(gòu)來代表一般場景。文獻[12]將室外三維場景結(jié)構(gòu)進一步描述為幾何場景分類問題,將常見的幾何場景歸納為12類,并設(shè)定了每種類型的標準深度分布圖。進一步,文獻[13]將這個標準深度分布圖作為初始深度圖,然后結(jié)合圖像分割術(shù)獲得了輸入圖像的深度圖。
大部分的室外場景包含天空、地面以及建筑物三個部分。從已經(jīng)獲得的深度圖來分析,天空區(qū)域距離最遠,其深度值可以視為一個恒定值;地面的深度則是由近及遠變化;而對于垂直于地面的建筑物,它們的深度值可以通過參考建筑物與地面交點的深度值獲得。由于天空、地面、建筑物這三者具有完全不同的深度特征,所以可以將此類圖像分割為三個不同的區(qū)域,每個區(qū)域內(nèi)部的深度值變化規(guī)律保持一致。
由此,本文提出了一種基于幾何復雜度的圖像分割和深度生成算法。首先定義4種場景類型,通過分析圖像的幾何結(jié)構(gòu),即用圖像中主要線段的角度統(tǒng)計分布直方圖,來判斷輸入圖像的場景類型;然后依據(jù)場景類型,將輸入的單幅圖像分割成有限的幾個區(qū)域,進而估計出場景的深度信息。
文獻[12]考慮到了人工建筑的幾何特性,忽略了場景中的人物等細節(jié)對象,提出了兩種深度輪廓模型,即橫坐標深度輪廓建模(Abscissa Depth Profile Model, ADPM)和縱坐標深度輪廓建模(Ordinate Depth Profile Model, ODPM),前者可以得到水平、左、右和中四種幾何結(jié)構(gòu),后者得到上、中、下三種結(jié)構(gòu)類型,綜合可以將場景幾何類型進一步細分為了12種。本文著重于研究室外人工建筑物場景,采用了ADPM的四種結(jié)構(gòu)類型,如圖1所示。
在圖1中,前兩行是場景實例,包含了天空、地面和人工建筑物。在這四種幾何類型中,天空和地面區(qū)域深度特征一致,幾何特性也一樣,而建筑物的幾何特征有所區(qū)別。從圖中可以看到,(a)列的建筑物處于地面的遠端,建筑物整體深度值恒定不變;(b)和(c)中的建筑物沿著地面向左或者向右延伸,此時建筑物整體的深度值跟隨著地面發(fā)生一致變化,(d)中建筑物的左右兩側(cè)分別沿著地面聚焦于中間區(qū)域,左右兩側(cè)的深度沿著地面向中間區(qū)域發(fā)生一致變化。由此可以看出,建筑物在場景中的幾何結(jié)構(gòu)特征決定了整個場景的幾何類型,因而在圖1的第三行的場景的幾何結(jié)構(gòu)圖中只顯示了建筑物的幾何特點。
一般來說,圖片中的人工建筑存在很多線段。眾多的線段會呈現(xiàn)出了不同的方向角度特點。因此,場景中主要線段的方向角度可以有效地體現(xiàn)出場景的幾何特性和深度特點。
(1)
由此,可以采用極坐標的形式給出圖像中線段的角度統(tǒng)計分布,如圖2所示。其中,第一行的圖像分別對應(yīng)了四種不同類型的幾何場景,第二行是每幅圖像中的線段角度統(tǒng)計分布圖, 其中藍色線為角度統(tǒng)計分布。
圖1 常見場景幾何結(jié)構(gòu)Fig.1 Geometric structures of main outdoor scenes
圖2 角度統(tǒng)計分布圖Fig.2 Angle statistical distribution maps
從圖2可以看出,具有第一類型特點的場景,圖中提取的線段主要是水平線,角度主要分布趨近于0°和179°;具有第二類型特點的場景,圖中提取的線段角度集中在[90°, 179°];相應(yīng)地,具有第三類型特點的場景,線段的角度分布主要集中在[0°, 90°];具有第四類型特點的場景,其線段的角度分布在上述兩個區(qū)間都有。由此可以看到,四種不同的深度類型圖所具有的線段角度統(tǒng)計分布也是不一樣的,因此可以有效地表現(xiàn)出圖像的場景結(jié)構(gòu)。
在確定了輸入圖像的幾何類型后,我們提出基于幾何復雜度的圖像分割,即依據(jù)圖像的幾何類型將輸入圖像分割成天空、建筑物和地面三個區(qū)域,每個區(qū)域具有一致的深度分布;然后再將這個結(jié)果應(yīng)用于深度生成算法中,結(jié)合標準的場景深度圖,進而獲得高質(zhì)量深度圖。
圖像分割技術(shù)指將目標圖像分割成一些子區(qū)域的算法。起初,圖像分割方法通常將圖像分成許多小的區(qū)域,區(qū)域內(nèi)的像素點包含相似的顏色特征,而區(qū)域間存在較大的顏色差異,代表算法有meanshift聚類[15],分水嶺算法[16],水平集[17]等;后來借助于半監(jiān)督方法[18]或者建模識別算法,這些分割的小區(qū)域通過區(qū)域融合技術(shù),被進一步有目地融合在一起,將輸入圖像分割成有限的幾個區(qū)域,每個區(qū)域代表了有實際意義的語義目標對象;與[18]相似,本文在確定了輸入圖像的幾何類型后,將這些分割的小區(qū)域進一步融合成三個大的區(qū)域,分別對應(yīng)天空、建筑物和地面三個部分,由此獲得基于幾何復雜度的圖像分割結(jié)果。具體的過程如圖3所示。
在應(yīng)用幾何復雜度的圖像分割時,首先采用meanshift算法將輸入圖像分割成許多小區(qū)域,并將所有的區(qū)域組成的集合定義為Sr,其中的第n個區(qū)域表示為rn∈Sr,n≤N,而N是輸入圖像所包含的小區(qū)域的總數(shù)目。
利用前面場景分類算法的結(jié)果,采用Hough方法產(chǎn)生的有效線段和圖像中的先驗知識,我們可以獲得一些區(qū)域的初始標記,即基于以下準則獲得初始標記圖。
圖3 系統(tǒng)流程圖Fig.3 Flowchart of the proposed system
1)由場景類型選取有效線段,將包含了該線段的區(qū)域被標記為建筑物區(qū)域;當圖像的場景結(jié)構(gòu)被判斷為類型1時,則主要提取角度趨近于水平的線段;屬于類型2時,則主要提取角度在[20°, 70°]的線段;屬于類型3時,則主要提取角度在[120°, 160°]的線段;屬于類型4時,提取角度在兩個區(qū)間的線段;一般來說,主要提取角度頻繁出現(xiàn)的線段;確定所需要的有效線段后,將線段端點所在的區(qū)域設(shè)定為“建筑物”;
2)依據(jù)以下先驗知識來標記出“天空”和“地面”區(qū)域,即圖像的上部一般都是天空,下部區(qū)域一般都是地面,所以設(shè)定圖像上部邊緣包含最多像點的區(qū)域標記為“天空”,設(shè)定圖像下部邊緣包含最多像點的區(qū)域標記為“地面”。
當融合不同的區(qū)域時,定義每個區(qū)域的RGB顏色空間的直方圖作為其特征向量。像點包含了RGB三個顏色分量,且其灰度值均在[0, 255]之間,將其統(tǒng)一量化為16個灰度等級,然后再將三個顏色分量連接起來,則將此三個顏色值融合為一個值,其范圍則為0~4096,并將其視為該像點的像素值。此時再計算該區(qū)域的像點直方圖向量作為該區(qū)間的特征向量。
對于未標定區(qū)域rj,其相鄰區(qū)域集定義為SNi。當其中的某個鄰域滿足如下公式(2)時,從SNi中得到與rj最為相似的rK,
(2)
其中ρ(rj,ri)為巴氏系數(shù)[21],vj和vi分別是rj和ri的特征向量,上標m代表了該特征向量的第m個分量。巴氏系數(shù)定義度量不同區(qū)域之間的距離,該系數(shù)值越大,說明兩者越相似。
然后再將rj和rK融合成一個新區(qū)域,重新計算該區(qū)域的特征向量,設(shè)置該區(qū)域的標記,并重新設(shè)置區(qū)域集以及區(qū)域的鄰域集,重復執(zhí)行該過程,一直到所有的區(qū)域被標記完畢,由此獲得最后的標記圖,結(jié)果如下圖4中所示。其中,第一行是四種類型的輸入圖像,第二行是它們所對應(yīng)的基于幾何復雜度的圖像分割結(jié)果,其中青綠色區(qū)域代表天空部分,黃色區(qū)域代表了圖像中的主要建筑物部分,而深藍色代表了地面區(qū)域。與輸入圖相比,基于幾何復雜度的分割算法將原圖像有效地分割為了三個區(qū)域,即天空、建筑物和地面。
在獲得了基于幾何復雜度的圖像分割結(jié)果后,根據(jù)每個區(qū)域的幾何特點來分配合適的深度值,進而獲得體現(xiàn)整體幾何特點的深度圖,定義為Dg。同時,考慮到圖像歸屬的幾何類型有著標準的場景深度圖,結(jié)合顏色分割結(jié)果,為每個小區(qū)域分配深度值,由此獲得體現(xiàn)細節(jié)的深度圖,定義為Dr,綜合兩者的結(jié)果生成最后的深度圖。
在輸入圖像被自動分割成天空、建筑物和地面三個區(qū)域,每個區(qū)域具有一致的深度分布;此時,設(shè)定標記為天空區(qū)域的深度值為固定深度值;標記地面區(qū)域,采取由近及遠的原則設(shè)定深度;對于標記為建筑物的區(qū)域,像點的深度值為在該像點具有同一列坐標的距離該像點最近的標記為地面的像點的深度值,由此獲得深度圖Dg。
在判斷出輸入圖像的幾何類型時,我們引用了4種ADPM幾何場景,其標準化深度圖如下圖5所示。
假設(shè)輸入圖像I屬于場景類型c,c∈{1,2,3,4},則其對應(yīng)的標準深度圖為Dc,用meanshift算法將輸入圖像分割成的每個區(qū)域rn∈Sr中,任一個像點pk∈rn,k≤N(rn),其中N(rn)是rn中的像素數(shù)目,則可根據(jù)公式(3)計算獲得rn中像素pk的深度值,也就是該區(qū)域中每個像素的深度值,由此可以得到保留細節(jié)的深度圖Dr;
(3)
綜合上述兩個深度圖Dr和Dg來獲得最后的深度圖D如下式(4)所示,并采用聯(lián)合濾波器平滑保留細節(jié)。
(4)
圖4 基于幾何復雜度的圖像分割Fig.4 Image segmentation based on geometric complex
圖5 標準深度圖Fig.5 Standard depth maps
圖6 基于幾何復雜度的圖像分割和深度生成Fig.6 Image segmentation and depth generation based on geometric complex
為說明提出算法的有效性,我們和算法[13]做了比較。兩種算法都是全自動深度估計算法,圖6中顯示了比較結(jié)果。其中,(a)列是輸入圖像,(b)列是圖像分割結(jié)果,(c)列是依據(jù)算法[13]獲得的深度圖,(d)列是本算法獲得的深度圖。在(b)列的圖像分割結(jié)果中,青綠色區(qū)域代表天空部分,黃色區(qū)域代表了圖像中的主要建筑物部分,而深藍色代表了地面區(qū)域。從(c)列和(d)列可以看到,算法[13]考慮了12個場景分類,雖保留了建筑物等紋理對象的深度細節(jié),但當該區(qū)域占有足夠大的圖像面積且位于深度一致變化區(qū)域,該假設(shè)會產(chǎn)生較大的誤差,且可能導致相鄰區(qū)域間的深度值變化不連續(xù)性,本算法保留深度圖足夠細節(jié),同時加強了圖像中相鄰區(qū)域的深度變化的連續(xù)性,獲得的深度圖質(zhì)量更高。
本文提出了一種應(yīng)用于室外場景的基于幾何復雜度的圖像分割和深度生成算法。文中關(guān)注的大部分室外場景主要包含天空、地面以及建筑物三個部分,具有各自不同的深度特點。首先,通過圖像中主要線段的角度統(tǒng)計分布將室外人工場景的幾何結(jié)構(gòu)規(guī)劃為四種類型;然后,利用meanshift分割算法將輸入圖像分割成許多小的區(qū)域,并依據(jù)場景幾何結(jié)構(gòu)類型將這些小的區(qū)域融合成為天空、人工建筑和地面三個大的區(qū)域,最后依據(jù)此分割結(jié)果得到圖像的幾何結(jié)構(gòu)深度圖。實驗結(jié)果表明與已有算法相比,提出的方法簡化了場景的分類過程;保留足夠細節(jié),同時加強了圖像中相鄰區(qū)域的深度變化的連續(xù)性,提高了深度圖的質(zhì)量。對于復雜的室外場景或者室內(nèi)場景,當可以提取主要線段的角度統(tǒng)計分布實現(xiàn)幾何結(jié)構(gòu)規(guī)劃時,亦可采用本算法實現(xiàn)相關(guān)場景的基于幾何復雜度的圖像分割并獲得有效的深度圖,否則無法適用于本算法。
[1] Fehn C. Depth-image-based rendering (DIBR), compression and transmission for a new approach on 3d-tv[J]. Proc. SPIE 5291,Stereoscopic Displays and Virtual Reality Systems XI. San Jose,CA,USA: SPIE,2004: 93-104.
[2] Guo G, Zhang N, Huo L, et al. 2d to 3d conversion based on edge defocus and segmentation[C]∥IEEE International Conf. on Acoustics, Speech and Signal Processing (ICASSP), Las Vegas, NV, USA, 2008: 2181-2184.
[3] He K, Sun J, Tang X. Single Image Haze Removal Using Dark Channel Prior[C]∥IEEE International Conf. on Computer Vision and Pattern Recognition (CVPR), Miami, FL, USA, 2009: 1956-1963.
[4] Palou G, Salembier P. Occlusion-based depth ordering on monocular images with binary partition tree[C]∥IEEE International Conf. on Acoustics, Speech and Signal Processing (ICASSP), Prague, Czech Republic, 2011:1993-1996.
[5] Palou G, Salembier P. From local occlusion cues to global monocular depth estimation[C]∥IEEE International Conf. on Acoustics, Speech and Signal Processing (ICASSP), Kyoto, Japan, 2012: 793-796.
[6] Saxena A, Sun M, Ng A Y. Make3D: learning 3D scene structure from a singlestill image[J]. IEEE Trans. on Pattern Analysis and Machine Intelligence, 2009, 31(5): 824- 840.
[7] Mohaghegh H, Karimi N, Reza Soroushmehr S M, et al. Single image depth estimation using joint local-global features[C]∥IEEE International Conf. on Pattern Recognition (ICPR), Cancun, Mexico, 2016:27-732.
[8] Mancini M, Costante G, Valigi P, et al. Toward domain independence for learning-based monocular depth estimation[J]. IEEE Robotics and Automation Letters, 2017, 2(3): 1778-1785.
[9] Martínez-Usó A, Latorre-Carmona P, Sotoca J M, et al. Depth estimation in integral imaging based on a maximum voting strategy[J]. Journal of Display Technology, 2016, 12(12):1715-1723.
[10] Hoiem D, Efros A A, Hebert M. Geometric context from a single image[C]∥IEEE International Conf. on Computer Vision (ICCV), Beijing, China, 2005:654- 661.
[11] Nedovic V, Smeulders A.W.M, Redert A, et al. Depth information by stage classification[C]∥IEEE International Conf. on Computer Vision (ICCV), Rio de Janeiro, Brazil, 2007:1- 8.
[12] Jung C, Kim C. Real-time estimation of 3D scene geometry from a single image[J]. Pattern Recognition, 2012, 45(9): 3256-3269.
[13] Lee H, Jung C, Kim C. Depth map estimation based on geometric scene categorization[C]∥IEEE The 19th Korea-Japan Joint Workshop on Frontiers of Computer Vision, Incheon, South Korea, 2013:170-173.
[14] Rafael C, Woods R E. Digital Image Processing[M]. 3rd ed. Prentice Hall, Upper Saddle River, 2008.
[15] Comaniciu D, Meer P. Mean shift: a robust approach toward feature space analysis[J]. IEEE Trans.on Pattern Analysis and Machine Intelligence, 2002, 24(5): 603- 619.
[16] Vincent L, Soille P. Watersheds in digital spaces: an efficient algorithm based on immersion simulations[J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 1991,13(6):583-598.
[17] Sumengen B. Variational image segmentation and curve evolution on natural images[D]. Barbara Santa: University of California, 2004.
[18] Ning J, Zhang L, Zhang D, et al. Interactive image segmentation by maximal similarity based region merging[J]. Pattern Recognition, 2010, 43:445- 456.
[19] 鄔芙瓊,安平,李賀建, 等. 實時3DV系統(tǒng)中面向虛擬視繪制的快速深度編碼[J]. 信號處理, 2012, 28(4):565-571.
Wu Fuqiong, An Ping, Li Hejian, et al. Fast Depth Coding for Virtual View Synthesis in Real Time 3DV System[J]. Signal Processing, 2012, 28(4):565-571.(in Chinese)
[20] 陳坤斌,劉海旭,李學明. 構(gòu)造全局背景的虛擬視點合成算法[J]. 信號處理,2013,29(10):1307-1314.
Chen Kunbin, Liu Haixu, Li Xueming. Virtual View Synthesis Using Generated Global Background[J]. Journal of Signal Processing, 2013, 29(10):1307-1314.(in Chinese)
[21] Kailath T. The divergence and Bhattacharyya distance measures in signal selection[J]. IEEE Transactions on Communications Technology, 1967, 15(1):52- 60.