王海菲,賈金原,謝 寧
?
復雜室內(nèi)圖像的滅點檢測與箱體重建方法*
王海菲,賈金原,謝寧+
同濟大學軟件學院,上海201804
ISSN 1673-9418 CODEN JKYTA8
Journal of Frontiers of Computer Science and Technology 1673-9418/2016/10(05)-0678-10
http://www.ceaj.org Tel: +86-10-89056056
* The National Natural Science Foundation of China under Grant No. 61272276 (國家自然科學基金); the Key Projects in the National Science & Technology Pillar Program During the Twelfth Five-Year Plan Period of China under Grant No. 2012BAC11B00-04-03(國家”十二五”計劃重大科技支撐項目); the Specialized Research Fund for the Doctoral Program of Higher Education of China under Grant No. 20130072110035 (高等學校博士學科點專項科研基金); the Key Scientific and Technological Projects of Jilin Province under Grant No. 20140204088GX (吉林省重點科技攻關課題); the Young Scholar Plan of Tongji University under Grant No. 2014KJ074 (同濟大學青年優(yōu)秀人才培養(yǎng)行動計劃).
Received 2015-11,Accepted 2016-01.
CNKI網(wǎng)絡優(yōu)先出版: 2016-01-04, http://www.cnki.net/kcms/detail/11.5602.TP.20160104.0953.006.htm l+ Corresponding author: E-mail: ningxie@#edu.cn
WANG Haifei, JIA Jinyuan, XIE Ning. Vanishing point detection and scene reconstruction of cluttered room. Journal of Frontiersof Computer Science and Technology, 2016, 10(5): 678-687.
摘要:近年來,隨著家居虛擬展示應用的推廣,針對圖像的室內(nèi)場景建模技術成為研究和應用的熱點。在圖像理解的基礎上,針對單張復雜室內(nèi)圖像提出了一套箱體建模方法。首先進行代表房間主軸方向的滅點檢測,并通過分析影響滅點檢測的因素,對滅點檢測算法提出相應的改進,從而顯著改善算法的執(zhí)行效率和準確性。然后對圖像的場景布局信息進行自動還原,并通過加入布局優(yōu)化步驟,提高布局還原結果的準確率。最后利用滅點得到相機的內(nèi)、外部參數(shù),并以此為基礎實現(xiàn)圖像到三維模型的轉換。實驗表明,單張復雜室內(nèi)圖像的箱體重建方法能夠快速地對圖像場景進行分析,并恢復場景的箱體布局,滿足虛擬重建的需要。
關鍵詞:家居虛擬展示;圖像理解;滅點檢測;三維重建;室內(nèi)場景箱體建模
隨著互聯(lián)網(wǎng)3D大數(shù)據(jù)的蓬勃發(fā)展,家居虛擬展示跨越了時空的局限,可以幫助用戶直觀、快速、全面地實現(xiàn)室內(nèi)設計方案的展示,因而被家居行業(yè)廣泛使用[1-2]?,F(xiàn)有的家居虛擬展示技術多采用單純的3D技術,雖然操作靈活,交互簡單,但場景的真實性表現(xiàn)差強人意,且三維家居模型的制作過程耗時,需要大量繁瑣的人工操作。
近年來,基于圖像的家居虛擬設計方法不斷涌現(xiàn),在一定程度上克服了純3D技術渲染速度慢,模型制作復雜等缺點,且素材豐富,獲取容易。然而圖像往往缺少一些關鍵的場景信息,如場景的深度信息、空間結構信息等,因此如何從圖像中還原三維場景信息成為關鍵。目前由于數(shù)據(jù)采集的局限性,現(xiàn)有的特定室內(nèi)場景多僅存單幅圖像,且圖像中包含豐富的物品,物品之間的相互遮擋會造成場景信息恢復困難。因此,針對單張復雜室內(nèi)圖像的場景三維信息還原與重建為本文的研究重點。
針對單張復雜室內(nèi)圖像的場景建模問題,本文在基于單張圖像的場景三維重建的基礎上,得到了一種速度更快,準確性更高的基于圖像理解的場景重建方法。在進行圖像重建之前,通過對復雜室內(nèi)圖像的分析,發(fā)現(xiàn)大多數(shù)場景中存在共同的特點,且這些特點對推測室內(nèi)場景布局起到重要的作用:(1)房間及其內(nèi)部物品均可以用立方體模型粗略表示(如圖1所示,黃線代表房間模型,綠線為物品模型);(2)房間存在許多平行于墻面的平面[3]。
Fig.1 An illustration of cuboid proxy in indoor image圖1 家居圖像中存在的立方體模型
本文基于滅點的場景重建方法(vanishing point based scene reconstruction,VPSR)可分為三步:首先,通過對圖像中物體輪廓的分析,得到代表場景特征的滅點信息。其次,根據(jù)滅點信息,推測出符合圖像內(nèi)容的場景布局信息。最后,將二維圖像場景還原到三維真實空間中。
本文的主要貢獻包括:
(1)分析影響滅點檢測算法的因素,并通過更改圖像邊緣檢測方法和滅點選擇策略,明顯提高了滅點檢測算法的效率和準確性。
(2)提出房間箱體模型優(yōu)化算法,在得到最終的場景布局信息之前,根據(jù)物品的立方體模型對房間的最優(yōu)模型做進一步優(yōu)化。
(3)將提出的場景重建方法運用到家居虛擬展示的應用中,用戶只需上傳圖像即可,具有簡單、方便等特點。
(1)基于多張圖像的場景三維重建
圖像的場景重建在計算機圖形學領域中一直都是研究熱點。在場景的三維重建中,通過獲取多張場景圖像可以得到全面的場景信息,從而進行準確的場景三維重建[4]。其難點在于如何處理從不同圖像中提取出的特征,將這些特征聯(lián)合并推測出場景信息。除此之外,還可通過特殊格式的場景圖像(如全景圖像、魚眼圖像)對場景進行重建[5-6]。
(2)基于單張圖像的場景三維重建
相對于多張圖像的場景重建,單張圖像的場景三維重建更加困難,其難點主要源于圖像處理中的不適定問題:深度信息缺失和物體間的相互遮擋。單張圖像無法確定三維重建所需要的精確相機參數(shù),并且無法提供物體被遮擋部分的信息,因此針對單張圖像進行精細的三維場景重建并不現(xiàn)實。
現(xiàn)有的針對單張圖像的建模方法在進行相機校準步驟時,主要依賴于滅點的檢測、用戶的深度標注或物體的對稱性等方式[7-10]。在計算相機參數(shù)的過程中,引入簡單幾何圖元可以對相機校準起到明顯的幫助作用,并獲得一種基于代理的三維重建[3,11-13]。TIP(tour into the picture)[14]就是一種經(jīng)典的基于箱體模型的圖像三維重建方法。它在相機參數(shù)計算過程中主要運用蜘蛛網(wǎng)格來確認場景中的透視關系,并通過蜘蛛網(wǎng)格中的關鍵點來構建三維場景。但TIP在重建過程中所需的場景關鍵信息都是由人手工給出的,并且對輸入的圖像要求很高。
給定一張包含豐富物品內(nèi)容的室內(nèi)家居圖像,若想讓計算機自動地獲取場景的關鍵信息是十分困難的。然而,人們卻可以從圖像中很快獲取房間的布局信息。這主要是由于人對圖像內(nèi)容的理解不僅局限于其中可見的物品,如床、沙發(fā)、墻等,通過這些物品信息可以推測出整個場景的空間結構。如果讓計算機也進行相同的檢測,需要先讓計算機理解圖像。
(3)圖像理解
通過圖像中的特征信息來合理地解釋輸入圖像,并進行圖像參數(shù)化的過程稱為圖像理解。目前,有許多與本文相關的工作都采用圖像理解的方法進行圖像的參數(shù)化,進而自動地還原出圖像的場景信息。Make3D[15]中,通過針對輸入圖像的超級像素的分析得到圖像場景的方向和深度信息,從而推測出場景的結構信息。Hoiem等人[16]通過分析顏色、紋理、位置和視角,提出了針對圖像區(qū)域進行分類標記的方法。在獲取圖像的區(qū)域標記后可以得到場景結構信息,但該方法不能進行遮擋情況下的場景深度估計。Hedau等人[3,13]將箱體模型和Hoiem的區(qū)域分類方法相結合,針對室內(nèi)圖像生成與之相符的房間模型。類似的還有Lee等人在文獻[12]中提出的方法,該方法將物品與房間之間的體積限制加入到房間模型的推測過程中,從而獲得更為精確的場景結構。
單張圖像的家居虛擬展示在算法速度、分析準確度、場景普適度上都有比較高的要求,目前的圖像分析及重建方法還無法完全滿足這些要求?,F(xiàn)有方法在算法效率和結果準確性方面還存在提升的空間,因此本文著力于對滅點檢測算法的效率和場景布局還原的結果進行研究,并提出了一套行之有效的箱體重建方法,具體流程見圖2。
Fig.2 Workflow of vanishing points based scene reconstruction of single image圖2 單張圖像基于滅點的場景重建算法流程圖
為了從單張圖像中提取出房間的布局信息,并生成與其符合的箱體模型,需要一種快速、準確的圖像場景參數(shù)化方式。在相機類型未知的情況下,可以假設所有圖像都是由針孔攝像機拍攝的,從而極大地簡化了圖像參數(shù)化問題。人造的真實空間中存在許多的平行線和正交線,并且這些平行線在二維圖像中的投影將相交于一點,該點稱為滅點。二維圖像平面上的滅點,在三維空間中代表這些平行線的方向,即代表房間三維主軸的方向。滅點所處的平面在圖像中會表現(xiàn)為一條直線,該直線就稱為滅線。如圖3所示,圖像的物體可以用立方體模型來代替,立方體的邊緣用藍色實線表示。二維圖像中,通過立方體平行邊緣的延長線(黃色虛線)將相交于滅點,并確定滅線(綠色虛線表示)。因此,對于人造場景圖像的理解和推測過程可以簡化為滅點檢測的過程。
Fig.3 Relationship between vanishing points and vanishing lines for a cubiod圖3 立方體在圖像中與滅點和滅線的關系
滅點檢測算法首先要進行圖像內(nèi)投影直線的檢測,之后根據(jù)投影線的結果判斷代表房間主軸方向的滅點在圖像平面中的坐標,最后以是否與滅點共線為標準將投影線分類。與所有檢測出的滅點都不共線的一類直線稱為冗余直線。由此可見,滅點檢測算法主要依賴于直線檢測的結果,且應盡量減少檢測出的冗余直線數(shù)量。
3.1投影線檢測
已知室內(nèi)場景圖像中包含許多種類的家居物品,如沙發(fā)、桌子、椅子等,且這些物品的擺放符合假設。因此,通過這些家居物品的輪廓線可以提取出多條平行于房間方向的直線,而這些直線將作為計算滅點的主要依據(jù)。由此可知,圖像邊緣檢測結果直接影響圖像中投影線的檢測,間接影響滅點檢測算法的效率和準確性。
Hedau等人[3]的滅點檢測算法中使用Canny算子進行邊緣檢測,常見的方法還有Sobel算子、Prew itt算子、LOG算子等。這些算法都是通過比較灰度圖像的像素梯度方向來確定邊緣,容易受噪聲的影響,從而導致檢測出過多的冗余直線。冗余直線對滅點的影響將會體現(xiàn)在兩個方面:(1)滅點計算的耗時隨著冗余直線的數(shù)量成指數(shù)增長;(2)冗余直線過多將會導致錯誤的滅點結果。因此,Hedau等人[3]在圖像輸入之前需要對圖像尺寸進行調(diào)整,使圖像中的主要輪廓信息得以凸顯,但依然無法有效減少冗余直線的數(shù)量。
本文采用基于結構化的邊緣檢測算法[17]取代Canny邊緣檢測,針對每個圖像塊中的結構化特點,通過結構化森林得到一個準確、快速的邊緣檢測器。該算法將RGB值和梯度值作為特征輸入,輸出一幅擁有強度值的邊緣圖像。強度值為0到1之間的任意數(shù)值,數(shù)值越高代表該邊緣越重要。結構化的邊緣檢測算法[17]可以有效減少檢測到冗余直線的數(shù)量,無需調(diào)整輸入圖像的尺寸,可以在短時間內(nèi)處理分辨率很高的圖像,又無須忽略細節(jié)信息。邊緣檢測結果中的邊緣強度值可以作為滅點選取的重要因素,運用到滅點投票的計算中。
3.2滅點投票策略
在已知代表邊緣重要性的強度值的前提下,本文對原有的滅點投票策略[3]進行了改進,將直線的強度值引入到投票計算公式中,更加明顯地區(qū)分好的和壞的候選點。對一條直線來說,它的重要性與其長度和強度成正比,與直線和候選點的夾角成反比。在投票過程中,直線越重要投出的票數(shù)就越高。本文使用L(l,i)表示一條直線,其中l(wèi)為直線的長度,i為直線的強度值。使用公式r(L,p)定義一條直線L對候選點p的投票分數(shù):
其中,α指候選點p與線段L中點的夾角(如圖4所示);σ為魯棒性閾值,設定為0.1;wj(j=1,2,3)為權重,設定w1= 0.4,w2= w3= 0.3。
Fig.4 An illustration of angle between a candidate point p and a line segment L圖4 滅點候選點p與線段L的角度關系示意圖
3.3滅點檢測算法
本文采用的滅點算法是運用滅點投票策略對被檢測到的投影線的交點進行選取,最終得到3個滅點,分別代表真實空間中3個相互正交的方向,即X軸、Y軸和Z軸。為了提高算法效率,滅點的選擇采用貪心策略取代RANSAC(random sample consensus)算法[7],直接選取擁有票數(shù)最高的候選點為第一滅點,并將于第一滅點共線的投影線歸為一類。之后,根據(jù)第一滅點的結果對所有候選點進行再次篩選,從而得到第二、三滅點與其對應的投影線集合,具體的算法過程如下:
步驟1讀入直線數(shù)據(jù)l,利用式(1)對所有直線兩兩相交得到的交點進行投票。
步驟2選擇當前擁有最大票數(shù)的候選點作為第一滅點V1,并將屬于V1的直線歸為集合L1。
步驟3對剩余的候選點進行篩選。
(1)計算剩余候選點到圖像中心的距離d,根據(jù)d的長度決定閾值T。當候選點之間的距離小于閾值T時,將其中一個候選點移除。
(2)選取剩余候選點與V1進行正交性檢測,即任意兩個候選點與V1之間形成的三角形的垂心能否在圖像范圍內(nèi),如不能則移除這組候選點。
步驟4再次使用式(1)對候選點進行投票,擁有票數(shù)最高的兩個點作為第二滅點V2和第三滅點V3,并將屬于V2和V3的直線歸為集合L2和L3。
在獲得代表場景方向的滅點信息后,進行場景布局信息的還原,分3個步驟進行:
(1)根據(jù)滅點信息生成固定數(shù)量的候選場景模型,并選擇出與圖像最為相符的模型作為初級場景模型。
(2)對圖像進行特征提取,分析并推測出圖像內(nèi)潛在物品的立方體模型。
(3)根據(jù)場景模型和物品模型之間的關系,對場景模型進行優(yōu)化,從而得到最終的三維場景布局。
4.1房間箱體模型的生成
本文使用箱體模型代替真實的場景模型,從而獲得場景的粗略估計。在生成房間箱體模型的過程中,最為核心的問題就是如何在遮擋的情況下確定箱體模型頂點在圖像上的投影點的位置。圖像中至多擁有箱體模型的5個可見面,分別為頂面、地面、后墻、左墻和右墻,且每個可見面在圖像中的投影都將看作一個多邊形。
Fig.5 An illustration of box projection and how to generate layout from vanishing points圖5 箱體模型投影示意圖
已知箱體模型的頂點,在圖像平面上對應的投影點與代表房間主軸方向的滅點之間存在嚴格的幾何約束。圖5(a)為箱體模型的投影示意圖,在三維空間中箱體模型的4個頂點用A、B、C、D表示,其對應二維圖像中的投影點分別為a、b、c、d。代表場景主軸方向的3個滅點記為Vi(i = 1,2,3)。在滅點已知的條件下,可知在圖像平面中:
(1)線段ab和cd應與滅點V1共線;
(2)線段ad和bc應與滅點V2共線;
(3)滅點V3在圖像四邊形區(qū)域abcd中。
為生成場景模型,選取兩個距離圖像較遠的滅點V1和V2,從兩個滅點向圖像發(fā)射固定數(shù)量的射線,文中取10。圖5(b)中,紅色和綠色線分別代表從兩個不同滅點發(fā)出的射線,并最終在圖像中相交,投影點a、b、c、d將從這些交點中選擇。四邊形區(qū)域abcd代表了后墻的范圍,剩余的墻面將由滅點V3與投影點的連線構成。
在生成候選點集的過程中,存在兩種發(fā)射射線方式:(1)依照圖像邊緣設定固定間隔值,再由滅點向圖像發(fā)射射線;(2)根據(jù)圖像中已有的投影線,使由滅點出發(fā)的射線經(jīng)過這些投影線。本文工作采用的是前者,其主要優(yōu)勢在于可以生成數(shù)量固定,候選點分布均勻的候選模型集合,使算法保持穩(wěn)定性,不易受到噪音影響。但這也意味著,很難從生成的候選點集中直接得到準確的投影點位置。因此,根據(jù)該步驟得到箱體模型為初級場景模型。投影點的選擇將使用Structured-SVM[18]訓練出的參數(shù)自動地進行。
4.2房間內(nèi)物品箱體模型的生成
從上文可知,得到的初級場景模型并不能保證一定符合圖像場景,因此需要對得到的場景模型做進一步的優(yōu)化。如果能從圖像中提取出一些較為重要的物品模型,并考慮場景內(nèi)房間布局和物品布局的體積關系,即物體模型必擺放在場景模型內(nèi)部,從而推測出更為合理的場景模型。
從單張圖片中提取出物體的三維模型是非常困難的,但本文通過圖像特征來搜尋圖像中的物品,并使用立方體模型來粗略表示物品,從而達到推測場景空間布局的目的。
本文使用兩種方法提取圖像中的特征: Hoiem等人[16]的圖像區(qū)域分類器和Lee等人[12]的線段掃描算法。Hoiem等人[16]的分類器可以將圖像分為不同的特征區(qū)域,從而幫助人們提取出場景內(nèi)的關鍵投影線。首先,將圖像分割成若干像素塊[19],每個像素塊粗略代表類似的可見物品。結合像素塊和場景模型,可以將圖像內(nèi)的像素歸類到不同墻面中。結果如圖6(c)所示,其中粉色的像素代表圖像中潛在的物品。Lee等人[12]的算法通過圖像中檢測到的滅點與投影線推測出平行于三維空間主軸的平面。已知某個滅點和一條與其共線的投影線段,該線段的端點沿著它與另一滅點的連線方向移動。在移動因另一條直線阻擋而停止后,將得到兩個新的端點,并與原端點組成一個平面。結果如圖6(d)所示,其中3種顏色分別表示平行于不同主軸方向的平面。
Fig.6 Generation workflow of cubiod proxy for indoor funiture圖6 物體模型生成圖流程
在得到兩種圖像特征后,通過對圖像特征數(shù)據(jù)的推測可以自動檢測出圖像中較為重要的物品,如椅子、桌子、柜子等。首先,通過平面特征的分析找到圖像中物品的立方體模型。對平面特征中屬于兩種不同方向的平面進行成對的檢測,取兩個平面上的3個角點,則可以判定是否這兩個平面能確定一個立方體的平面投影。對于可以組成立方體的每組平面,找到其最為合適的3個角點,并生成相應的立方體模型。之后,將得到的立方體模型與圖像的幾何特征相結合,從而得到篩選后的物體模型。對于每個立方體模型,計算其圖像投影內(nèi)所包含的潛在物體像素與投影內(nèi)像素的比率,并將比率較低的立方體模型移除。
在得到場景布局后,為生成對應的三維模型,需要進行圖像到三維模型的轉換,其關鍵步驟是計算圖像上的點對應的三維空間坐標。根據(jù)房間主軸方向和滅點的相關性,重新對相機的標記矩陣和旋轉矩陣進行推導,并根據(jù)箱體模型的特點設定:在世界坐標系下,底面和頂面平行于平面X=0,左墻和右墻平行于平面Y=0,后墻平行于平面Z=0,且相機到底面的高度為1。
假定空間中存在一點P,在世界坐標系下的齊次坐標記為Pw= (Xw,Yw,Zw,1)T,在圖像平面上對應的投影點的齊次坐標記為pi= (xi,yi,1)T。相機模型如圖7所示,C為投影中心,投影中心到圖像平面的垂線稱為攝像機的主軸Z,其交點為主心c= (xc,yc,1)T,投影中心C到主心c的距離為焦距f。由針孔模型可知三維空間坐標到圖像坐標的變換為:
pi=K[R|t]Pw(2)
其中,矩陣K為相機的標定矩陣;R和t分別為世界坐標系到相機坐標系的旋轉矩陣和平移向量。
Fig.7 Transformation model between world coordinate and camera coordinate圖7 世界坐標系與相機坐標系的轉換模型
(1)相機標定矩陣K
假定攝像機和像素都是理想狀態(tài),那么標定矩陣K可以直接由代表3組正交方向的滅點計算得到。Vj(j = 1,2,3)代表3個相互正交滅點,其在圖像平面的坐標記為vj= (xvj,yvj,1)T,在相機坐標系下的坐標記為Vj= (Xvj,Yvj,f)T,其中Xvj= xvj-xc,Yvj= yvj- yc??芍餍膒即為以滅點Vj(j = 1,2,3)為頂點的三角形的垂心,焦距f滿足關系XvjXvk+ YvjYvk+ f2= 0。
(2)旋轉矩陣R
已知滅點Vj(j = 1,2,3)代表世界坐標系中3個方向的無窮遠點,且這3個方向分別為世界坐標系中3個主軸的方向。記V為滅點方向在世界坐標系下的單位向量,V'為滅點方向在相機坐標系下的單位向量,R為從世界坐標系到相機坐標系變換的旋轉矩陣,則V'= RV,其中V為單位矩陣。由此可得R= V',其中V'= (V'1,V'2,V'3),V'j的計算公式為:
為驗證方法的有效性,本文對上述理論與算法進行性能測試。分別從Hedau等人[3]的圖像數(shù)據(jù)庫和部分互聯(lián)網(wǎng)圖像中(總計共500張),選擇分辨率不同,場景不同的圖像進行測試,部分實驗結果見圖8。實驗中計算機配置為: Intel Core Q9400處理器,4 GB內(nèi)存,NVIDIA GeForce GTX 460顯卡及64位W indows7系統(tǒng)。
在同等條件下,針對不同分辨率的圖像,對改進后的滅點檢測算法與Hedau等人[3]的滅點檢測算法進行測試,并對兩種算法在時間和冗余直線的數(shù)量上進行比較。
如圖9所示,隨著分辨率的增加,本文的滅點檢測算法在時間消耗上遠遠少于Hedau等人[3]的算法。圖10結果說明,結構化的邊緣檢測算法有效減少了檢測到的冗余直線的數(shù)量。實驗結果表明,經(jīng)過改進的滅點檢測不但可以快速處理分辨率很高的圖像,而且避免了由于冗余直線數(shù)量過多導致錯誤滅點檢測結果的最壞情況。
如表1所示,在像素錯誤率上本文算法結果低于Hedau等人[3]的算法,但正確率依然不高。出現(xiàn)錯誤的原因主要在于選取了錯誤的局部最優(yōu)箱體模型,或由于物品模型不準確影響房間模型優(yōu)化結果。通過圖8所示的場景布局還原結果可以看出,本文算法可以基本還原出圖像場景結果,并找到圖像內(nèi)物品的模型。
Table 1 Pixel error comparison between two algorithms表1 算法像素錯誤率的比較
本文將結構化的邊緣檢測方法引入到滅點檢測算法中,有效減少了冗余直線的數(shù)量,極大提高了滅點計算的效率和準確性。本文在還原場景布局的過程中,加入了模型優(yōu)化的步驟,從而顯著改善了圖像布局還原的結果。
Fig.8 Results of indoor scene layout restoration圖8 場景布局還原的部分實驗結果
Fig.9 Average computing time of vanishing points detection圖9 滅點檢測算法平均耗時
Fig.10 Number of redundant lines of line segments detection圖10 投影線檢測到的冗余直線的數(shù)量
實驗過程顯示,場景還原的結果還不夠準確,在未來研究中考慮將家居環(huán)境的語義分割引入到場景還原過程中以提高算法的運行結果。由于重建出來的場景真實度不高,將改進紋理的提取與映射方法。并且為實現(xiàn)圖像的家居虛擬編輯與設計,將針對圖像物品的立方體重建進行研究。
References:
[1] Zhang Bo, Xie Ning, Xu Hao, et al. Web3D CID: Web3D collaborative interior design based on transparent adaptation[C]//Proceedings of the 13th ACM SIGGRAPH International Conference on Virtual-Reality Continuum and its Applications in Industry, Shenzhen, China, Nov 30-Dec 2, 2014. New York, USA:ACM, 2014: 113-121.
[2] Houzz. Desgin home online[EB/OL]. [2015-08-03] http:// www.houzz.com.
[3] Hedau V, Hoiem D, Forsyth D. Recovering the spatial layout of cluttered rooms[C]//Proceedings of the 2009 IEEE 12th International Conference on Computer Vision, Kyoto, Japan, 2009. Piscataway, USA: IEEE, 2009: 1849-1856.
[4] Bao S Y, Furlan A, Li Feifei, et al. Understanding the 3D layout of a cluttered room from multiple images[C]//Proceedings of the 2014 IEEE Winter Conference on Applications of Computer Vision, Steamboat Springs, USA, Mar 24-26, 2014. Piscataway, USA: IEEE, 2014: 690-697.
[5] Yang Hao, Zhang Hui. Indoor structure understanding from single 360 cylindrical panoram ic image[C]//Proceedings of the 2013 International Conference on Computer-Aided Design and Computer Graphics, Guangzhou, China, Nov 16-18, 2013. Piscataway, USA: IEEE, 2013: 421-422.
[6] Jia Hanchao, Li Shigang. Estimating the structure of rooms from a single fisheye image[C]//Proceedings of the 2013 2nd IAPR Asian Conference on Pattern Recognition, Naha, Japan, Nov 5-8, 2013. Piscataway, USA: IEEE, 2013: 818-822. [7] Rother C. A new approach to vanishing point detection in architectural environments[J]. Image and Vision Computing, 2002, 20(9): 647-655.
[8] Zhang Jian, Kan Chen, Schw ing A G, et al. Estimating the 3D layout of indoor scenes and its clutter from depth sensors[C]//Proceedings of the 2013 IEEE International Conference on Computer Vision, Sydney, Australia, 2013. Piscataway, USA: IEEE, 2013: 1273-1280.
[9] Gupta A, Efros A A, Hebert M. Blocks world revisited: image understanding using qualitative geometry and mechanics[C]//LNCS 6314: Proceedings of the 11th European Conference on Computer Vision, Heraklion, Greece, Sep 5-11, 2010. Berlin, Heidelberg: Springer, 2010: 482-496.
[10] Chen Tao, Zhu Zhe, Sham ir A, et al. 3-Sweep: extracting editable objects from a single photo[J]. ACM Transactions on Graphics, 2013, 32(6): 195.
[11] Gupta A, Hebert M, Kanade T, et al. Estimating spatial layout of rooms using volumetric reasoning about objects and surfaces[C]//Advances in Neural Information Processing Systems 23: Proceedings of the 24th Annual Conference on Neural Information Processing Systems, Vancouver, Canada, Dec 6-9, 2010: 1288-1296.
[12] Lee D C, Hebert M, Kanade T. Geometric reasoning for single image structure recovery[C]//Proceedings of the 2009 IEEE Conference on Computer Vision and Pattern Recognition, M iami, USA, Jun 20-25, 2009. Piscataway, USA: IEEE, 2009: 2136-2143.
[13] Hedau V, Hoiem D, Forsyth D. Thinking inside the box: using appearance models and context based on room geometry [C]//LNCS 6316: Proceedings of the 11th European Conference on Computer Vision, Heraklion, Greece, Sep 5-11, 2010. Berlin, Heidelberg: Springer, 2010: 224-237.
[14] Kang H W, Pyo S H,Anjyo K, et al. Tour into the picture using a vanishing line and its extension to panoramic images[J]. Computer Graphics Forum, 2001, 20(3): 132-141.
[15] Saxena A, Sun M, Ng A Y. Make3D: learning 3D scene structure from a single still image[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2009, 31(5): 824-840.
[16] Hoiem D, Efros A A, Hebert M. Recovering surface layout from an image[J]. International Journal of Computer Vision, 2007, 75(1): 151-172.
[17] Dollár P, Zitnick C L. Structured forests for fast edge detection[C]//Proceedings of the 2013 IEEE International Conference on Computer Vision, Sydney, Australia, Dec 1-8, 2013. Piscataway, USA: IEEE, 2013: 1841-1848.
[18] Tsochantaridis I, Joachims T, Hofmann T, et al. Large margin methods for structured and interdependent output variables[J]. Journal of Machine Learning Research, 2005, 6: 1453-1484.
[19] Felzenszwalb P F, Huttenlocher D P. Efficient graph-based image segmentation[J]. International Journal of Computer Vision, 2004, 59(2): 167-181.
WANG Haifei was born in 1992. He is an M.S. candidate at Tongji University. His research interest is image-based virtual house.
王海菲(1992—),男,山東掖縣人,同濟大學軟件學院碩士研究生,主要研究領域為基于單張圖像的虛擬家居。
JIA Jinyuan was born in 1963. He received the Ph.D. degree from Hong Kong University of Science & Technology in 2004. Now he is a professor and Ph.D. supervisor at Tongji University, and the senior member of CCF. His research interests include Web graphics, virtual reality and 3D game engine, etc.
賈金原(1963—),男,山東樂陵人,2004年于香港科技大學獲得博士學位,現(xiàn)為同濟大學軟件學院教授、博士生導師,CCF高級會員,主要研究領域為Web Graphics,虛擬現(xiàn)實,游戲引擎等。發(fā)表過多篇SCI論文,承擔的主要科研項目有國家“十二五”計劃重大科技支撐項目子課題,國家自然科學基金面上項目等。
XIE Ning was born in 1983. He received the Ph.D. degree from Tokyo Institute of Technology in 2012. Now he is an assistant professor at Tongji University, and the member of CCF. His research interests include machine learning and application, digital media technology, computer image and graphics processing, etc.
謝寧(1983—),男,吉林長春人,2012年于東京工業(yè)大學獲得博士學位,現(xiàn)為同濟大學軟件學院助理教授,CCF會員,主要研究領域為機器學習及應用,數(shù)字媒體技術,圖形圖像處理等。
Vanishing Point Detection and Scene Reconstruction of Cluttered Room?
WANG Haifei, JIA Jinyuan, XIE Ning+
School of Software Engineering, Tongji University, Shanghai 201804, China
Key words:virtual house; image understanding; vanishing points detection; 3D reconstruction; box modeling of indoor scene
Abstract:Recently, the 3D reconstruction of indoor scene becomes a hot spot of research, as the popular of virtual house. Based on image understanding, this paper proposes an image-based box modeling method of 3D indoor scene reconstruction. Firstly, the vanishing points of indoor scene image are detected to represent the main axis of the room. With the analysis of algorithm?s influence factors, this paper improves the vanishing points detection algorithm to ensure efficiency and accuracy. Then, this paper recovers automatically the scene spatial layout information w ith the layout reasoning steps which significantly improve the result. Finally, the calculation of camera parameters is performed by using vanishing point, so the conversion from image scene to 3D model is implemented. The experiments demonstrate that the proposed method can quickly analyze the indoor scene images and detect the 3D layout for virtual scene reconstruction.
doi:10.3778/j.issn.1673-9418.1512046 E-mail: fcst@vip.163.com
文獻標志碼:A
中圖分類號:TP391.9