亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于模板替換的室內(nèi)場景建模方法研究

2020-05-21 07:55:40張肇軒王誠斌樸星霖王鵬杰尹寶才

圖學(xué)學(xué)報(bào) 2020年2期

張肇軒，王誠斌，楊鑫，樸星霖，王鵬杰，尹寶才

張肇軒1，王誠斌1，楊鑫1，樸星霖2，王鵬杰3，尹寶才1

(1. 大連理工大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院，遼寧大連 116024；2. 鵬城實(shí)驗(yàn)室，廣東深圳 518055；3.大連民族大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院，遼寧大連 116600)

當(dāng)前，室內(nèi)場景建模相關(guān)研究已經(jīng)取得很多進(jìn)展，特別是基于多視角融合的建?？蚣芘c基于單視角的建?？蚣艿奶岢?，增強(qiáng)了機(jī)器人的環(huán)境感知能力。但仍然存在以下不足：①基于多視角融合的建模方式預(yù)處理時(shí)間長，建模完成后需線下優(yōu)化過程，不能滿足特定條件下的建模需求；②基于單視角的建模算法輸出一般為體素，建模質(zhì)量較低，信息缺失嚴(yán)重，對于場景細(xì)節(jié)無法精確刻畫，難以滿足機(jī)器人交互的要求。特提出一種基于模板替換的室內(nèi)場景建模方法研究。首先，預(yù)處理由設(shè)備采集到的三維點(diǎn)云場景，分割出存在點(diǎn)云缺失的單個(gè)對象，并利用虛擬掃描技術(shù)采樣對象表面點(diǎn)并計(jì)算法向量與曲率。采用八叉樹網(wǎng)格結(jié)構(gòu)，將點(diǎn)云的法向量與曲率信息分別存入網(wǎng)格中，再利用卷積神經(jīng)網(wǎng)絡(luò)(CNN)提取高維特征向量，將其與數(shù)據(jù)庫中三維對象特征進(jìn)行歐氏距離比較，得到檢索序列。從序列中挑選出最相似的對象，利用迭代就近點(diǎn)(ICP)配準(zhǔn)方法，與掃描場景進(jìn)行配準(zhǔn)，完成場景優(yōu)化。對提出的網(wǎng)絡(luò)模型在2個(gè)基準(zhǔn)數(shù)據(jù)集上進(jìn)行測試并表現(xiàn)出良好的性能。

機(jī)器人；室內(nèi)場景建模；卷積神經(jīng)網(wǎng)絡(luò)；迭代就近點(diǎn)配準(zhǔn)；點(diǎn)云

三維模型的質(zhì)量優(yōu)劣對機(jī)器人交互、場景理解、無人駕駛等領(lǐng)域的研究有重要的影響。近些年隨著三維采集設(shè)備的更新及建模算法性能的提高，建模質(zhì)量有較大提高。但是，由于采集過程中一些客觀條件限制，如圖1所示，模型存在缺失、噪音的情況時(shí)有發(fā)生，模型的精度還不能達(dá)到要求。為解決這一問題，需要對掃描得到的模型進(jìn)行優(yōu)化。目前，解決該問題的方法主要有 2種：①模型補(bǔ)全，即利用缺失區(qū)域周圍的點(diǎn)云信息將殘缺部分?jǐn)M合；②模型替換，即在數(shù)據(jù)庫中尋找與掃描模型最為相似的模型，再將檢索出的數(shù)據(jù)庫模型與原掃描場景進(jìn)行配準(zhǔn)。本文采用模型替換的方法。深度學(xué)習(xí)技術(shù)的發(fā)展，為解決計(jì)算機(jī)視覺領(lǐng)域傳統(tǒng)問題提供了新的思路和方法。深度學(xué)習(xí)，特別是卷積神經(jīng)網(wǎng)絡(luò)在二維圖像領(lǐng)域表現(xiàn)出強(qiáng)大的學(xué)習(xí)與抽象能力，在許多與二維圖片相關(guān)的視覺任務(wù)(分割、識別)中表現(xiàn)出色。正是這種高性能的表現(xiàn)，使用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network，CNN)與三維對象進(jìn)行分析成為新的研究熱點(diǎn)。利用CNN對三維對象進(jìn)行分析與處理，得到更具一般化、信息更豐富、表示更加濃縮的三維對象特征，利用這些特征來解決三維領(lǐng)域一系列有挑戰(zhàn)性的工作。SU等[1]提出基于多視角CNN提取三維對象特征的方法，將三維對象多角度渲染為多張輪廓圖，利用CNN將其特征進(jìn)行融合，得到更加豐富的高維特征信息，用于分割與分類任務(wù)，但該方法較依賴于視角選擇的合理性。MATURANA和SCHERER[2]將三維數(shù)據(jù)0~1體素化以滿足卷積操作要求，通過體素化的方式可以直接在三維空間進(jìn)行卷積、下采樣操作，其網(wǎng)絡(luò)模型雖解決了三維數(shù)據(jù)稀疏性高、不規(guī)則的問題，但是分辨率較低，對于模型的細(xì)節(jié)不夠敏感。TATARCHENKO等[3]針對0~1體素分辨率不高的問題，采用八叉樹網(wǎng)格重新對數(shù)據(jù)進(jìn)行組織，以提高網(wǎng)絡(luò)處理數(shù)據(jù)的分辨率，但是該方法進(jìn)行卷積、下采樣操作需要消耗大量的時(shí)間，時(shí)間成本較高。CHARLES等[4]通過使用CNN提取了二維投影的特征信息，并將其融合至三維體素信息中，最終得到高維特征。SONG等[5]同樣使用了CNN對輸入的單張深度圖像進(jìn)行了特征提取、融合，從而恢復(fù)出完整的場景體素表達(dá)。本文提出的模型采用八叉樹網(wǎng)格對數(shù)據(jù)進(jìn)行重新組織，將點(diǎn)云的2個(gè)具有代表性的特征，法線方向與曲率存入網(wǎng)格之中，通過CNN的卷積與下采樣操作，將三維對象映射于高維向量空間，將模型相似度與高維空間中的點(diǎn)之間的距離相關(guān)聯(lián)，以達(dá)到模型檢索的目的，本文模型在ModelNet40[6]及ShapeNetCore55[7]基準(zhǔn)集上做測試，表現(xiàn)出良好的性能。本文方法采用的特征提取模型相較于基于多視角與基于體素的方法，多項(xiàng)測試指標(biāo)均有較大的提高，同時(shí)由于采用八叉樹的組織方式，網(wǎng)絡(luò)訓(xùn)練與測試時(shí)間大大縮短，時(shí)間成本進(jìn)一步減少。檢索出相似模型后，本文利用迭代就近點(diǎn)(iterative closest point, ICP)配準(zhǔn)[8]的方法，將模型與原場景進(jìn)行拼接與配準(zhǔn)，完成精細(xì)化建模任務(wù)。

1 預(yù)處理

本文采用DAI等[9]提出的單視角建?？蚣埽紫葘κ覂?nèi)場景進(jìn)行初次建模。該算法提出一種新穎的、實(shí)時(shí)的、端到端重建框架來完成建模任務(wù)，對原有的姿態(tài)估計(jì)與幀優(yōu)化策略進(jìn)行改進(jìn)，采用基于彩色圖與深度圖作為輸入的高效分層方法。但該算法受限于視角稀疏與自我遮擋等客觀條件，建模場景存在點(diǎn)云缺失的情況，如圖2所示。由于本文提出的建?？蚣茚槍蝹€(gè)目標(biāo)對象進(jìn)行數(shù)據(jù)庫中模型檢索、替換與配準(zhǔn)，故需對原始場景進(jìn)行分割以得到信息缺失的目標(biāo)對象。本文采用文獻(xiàn)[4]提出的點(diǎn)云分割算法得到目標(biāo)點(diǎn)云對象。

圖2 場景中存在信息缺失的目標(biāo)對象

該方法使用點(diǎn)對稱函數(shù)與目標(biāo)對稱網(wǎng)絡(luò)解決點(diǎn)云順序不固定與點(diǎn)云旋轉(zhuǎn)的難題，通過引入新的損失項(xiàng)來約束由于參數(shù)量大而導(dǎo)致的矩陣正交情況。最終，網(wǎng)絡(luò)使用多層感知機(jī)為每個(gè)點(diǎn)生成高維度特征向量，經(jīng)由非線性分類器處理，輸出每個(gè)點(diǎn)的分類向量，以完成對場景的分割。分割后目標(biāo)對象如圖3所示。

圖3 場景對象分割

2 三維模型體素化表達(dá)

為滿足CNN輸入的要求，需對分割完成后的目標(biāo)對象與數(shù)據(jù)庫中的模型進(jìn)行預(yù)處理以達(dá)到規(guī)則化的數(shù)據(jù)要求。預(yù)處理步驟如下：

步驟1.提取目標(biāo)對象表面法向量與曲率信息；

步驟2.使用八叉樹將點(diǎn)云對象網(wǎng)格化，并建立相應(yīng)的哈希索引表。

2.1 點(diǎn)云表面法向量與曲率

本文采用虛擬掃描技術(shù)對點(diǎn)云密集區(qū)域進(jìn)行采樣，選擇法向量方向變化最大的點(diǎn)作為采樣點(diǎn)的特征點(diǎn)，將該點(diǎn)的法向量與曲率信息作為點(diǎn)云區(qū)域的底層特征。同時(shí)將14個(gè)虛擬相機(jī)放置在點(diǎn)云截?cái)嗲蝮w中心位置，朝向不同的方向，并在每個(gè)方向發(fā)射出16 000束平行光線，當(dāng)光線與點(diǎn)云的表面相交時(shí)，即可將相交點(diǎn)視為對表面點(diǎn)的采樣。在采樣點(diǎn)周圍區(qū)域選取法向量變化最大的點(diǎn)作為該區(qū)域的特征點(diǎn)，并計(jì)算某點(diǎn)與其臨近點(diǎn)之間法向量夾角的算術(shù)平均值為

確定的法向量之后，取臨近個(gè)點(diǎn)的曲率并求平均值，作為的曲率信息，即

其中，C為個(gè)臨近點(diǎn)的曲率。

2.2 八叉樹結(jié)構(gòu)構(gòu)建

八叉樹具有自適應(yīng)尺寸的三維網(wǎng)格結(jié)構(gòu)，是二維的四叉樹結(jié)構(gòu)在三維空間的拓展，與傳統(tǒng)的體素網(wǎng)格相比，可以在相同分辨率下顯著減少對存儲的消耗。傳統(tǒng)的八叉樹結(jié)構(gòu)中每個(gè)節(jié)點(diǎn)均含有指向子節(jié)點(diǎn)的指針，從而使訪問某節(jié)點(diǎn)的時(shí)間與樹的深度呈線性比例關(guān)系，最終導(dǎo)致處理結(jié)點(diǎn)間的運(yùn)算需要大量的時(shí)間，尤其是在處理高分辨率對象的情況下。為此，本文采用WANG等[10]提出的較新的八叉樹生成算法解決上述問題。該算法建立多個(gè)哈希表，表中分別存儲八叉樹中結(jié)點(diǎn)位置與狀態(tài)信息，通過表中的鍵值可快速查找節(jié)點(diǎn)的父子節(jié)點(diǎn)與兄弟節(jié)點(diǎn)位置信息，大大的縮短卷積操作所需的時(shí)間。圖4為用一個(gè)二層的四叉樹結(jié)構(gòu)表示二維圖形。

本文在建?？蚣苤?，將場景中目標(biāo)對象與數(shù)據(jù)庫對象分別以八叉樹的形式進(jìn)行表達(dá)。首先將點(diǎn)云模型置于單位長度的正方體包圍盒中，并對其進(jìn)行廣度優(yōu)先遞歸操作。遞歸過程如下：當(dāng)遍歷至八叉樹的第層時(shí)，遞歸訪問所有包含模型邊界的節(jié)點(diǎn)，并將包含模型邊界的包圍盒進(jìn)行8等分作為該節(jié)點(diǎn)的+1層子節(jié)點(diǎn)，若某節(jié)點(diǎn)中不包含模型的任一部分時(shí)，停止對該節(jié)點(diǎn)的劃分操作。八叉樹創(chuàng)建完成后，為減少進(jìn)行卷積、下采樣等操作所需要的時(shí)間，本文借鑒WANG等[10]提出的算法，為八叉樹的每一層節(jié)點(diǎn)均建立多個(gè)哈希表，且存儲一層中所有樹節(jié)點(diǎn)的位置信息及標(biāo)記信息，進(jìn)而保證子節(jié)點(diǎn)可以通過訪問散哈希中的鍵值快速找到父節(jié)點(diǎn)與兄弟節(jié)點(diǎn)位置。

哈希表可按類型分為以下2類：

(1) 散列哈希表：表中的鍵值表示第層節(jié)點(diǎn)與其第–1層父節(jié)點(diǎn)的相對位置關(guān)系，并按照升序

排列存入向量中，求鍵值得到

其中，xyz為八叉樹體素空間的坐標(biāo)位置。

(2) 標(biāo)記哈希表：表中第[]位置的鍵值為，該層[]節(jié)點(diǎn)為層的第個(gè)非空節(jié)點(diǎn)，如節(jié)點(diǎn)為空則鍵值為0。使用標(biāo)記哈希表可快速的得到父節(jié)點(diǎn)的子節(jié)點(diǎn)，例如八叉樹的層結(jié)點(diǎn)的標(biāo)簽向量，對于索引為的非空節(jié)點(diǎn)，其第1個(gè)子節(jié)點(diǎn)的位置為=8×([]–1)，同時(shí)[,+1,…,+7]為第1個(gè)子節(jié)點(diǎn)的相鄰節(jié)點(diǎn)。

在哈希表中進(jìn)行卷積計(jì)算過程為

其中，Oijk為被卷積的相鄰節(jié)點(diǎn)；T(n)(·)為Oijk節(jié)點(diǎn)中存儲的n通道特征向量；為卷積層的權(quán)值，如果Oijk不存在，T(Oijk)設(shè)置為0。

3 特征提取網(wǎng)絡(luò)

特征提取網(wǎng)絡(luò)目標(biāo)為抽象出三維對象更加一般化的特征，將包含有法向量與曲率信息的八叉樹網(wǎng)格作為輸入，輸出高維特征向量作為檢索的依據(jù)。本文的網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示。

圖5 檢索網(wǎng)絡(luò)結(jié)構(gòu)

特征提取網(wǎng)絡(luò)的目標(biāo)在于將輸入點(diǎn)云模型映射為高維空間中的一個(gè)向量，為可分別輸入存儲曲率信息與法向量信息的八叉樹網(wǎng)格，首先對上述 2個(gè)網(wǎng)格進(jìn)行4次卷積與下采樣操作，從而得到 2個(gè)64維特征向量；然后，對2個(gè)特征進(jìn)行融合，并將其輸入至后續(xù)的特征提取網(wǎng)絡(luò)，經(jīng)過2次卷積與下采樣操作后，得到256維向量；最后，將256維特征向量輸入至全連接層，經(jīng)softmax操作后得到55維向量，此向量即為特征提取網(wǎng)絡(luò)的輸出結(jié)果。本文在卷積操作之后對數(shù)據(jù)進(jìn)行批標(biāo)準(zhǔn)化，從而可以消除數(shù)據(jù)分布對網(wǎng)絡(luò)訓(xùn)練的影響，同時(shí)在下采樣操作之前加入了非線性激活函數(shù)即為修正線性單元激活函數(shù)，從而提高了模型的表達(dá)能力。為防止過擬合的情況發(fā)生，本文在全連接層之后加入Dropout層。將卷積操作、批標(biāo)準(zhǔn)化、修正線性單元激活函數(shù)、下采樣操作合并為一個(gè)基本操作單元用Q表示，特征提取網(wǎng)絡(luò)中每一層的特征圖數(shù)目設(shè)定為2max(1,9–)，卷積層的卷積核設(shè)定為3。最終，淺層特征提取可表述為

訓(xùn)練特征提取網(wǎng)絡(luò)所使用的損失函數(shù)為交叉熵?fù)p失函數(shù)，即

其中，為期望的輸出；為神經(jīng)元實(shí)際輸出；()為權(quán)重衰減項(xiàng)。

4 ICP配準(zhǔn)

其中，和為旋轉(zhuǎn)平移矩陣，該算法能夠比較準(zhǔn)確地得到兩幀點(diǎn)云間的變換矩陣，為了克服其對于點(diǎn)云場景初始位置比較敏感的限制，特別是當(dāng)點(diǎn)云的初始變換矩陣選取得極不合理而導(dǎo)致陷入局部最優(yōu)點(diǎn)的問題。本文在預(yù)處理階段將掃描模型與數(shù)據(jù)庫模型正方向朝向一致，并通過將目標(biāo)對象與數(shù)據(jù)庫對象進(jìn)行配準(zhǔn)以獲取相應(yīng)的位姿參數(shù)，最終通過融合的方式完成場景建模的過程。

5 實(shí)驗(yàn)結(jié)果與實(shí)驗(yàn)分析

本文的特征提取網(wǎng)絡(luò)可應(yīng)用于三維對象分類與檢索任務(wù)中，本文在ModelNet40[6]數(shù)據(jù)集上進(jìn)行三維模型分類的實(shí)驗(yàn)以檢驗(yàn)網(wǎng)絡(luò)模型在分類任務(wù)上的表現(xiàn)，ModelNet40[6]數(shù)據(jù)集包含有40個(gè)大類，12 311個(gè)三維模型用于訓(xùn)練與測試。網(wǎng)絡(luò)在分類任務(wù)上性能表現(xiàn)及與其他模型對比實(shí)驗(yàn)結(jié)果見表1，其中的精確度計(jì)算如下

其中，f為網(wǎng)絡(luò)預(yù)測的三維對象標(biāo)簽信息；y為對象的真實(shí)標(biāo)簽信息；1(·)為符號函數(shù)為測試集合對象的總數(shù)目。

分析實(shí)驗(yàn)數(shù)據(jù)可知，本文提出的網(wǎng)絡(luò)模型在三維分類任務(wù)中的精確度優(yōu)于利用自編碼網(wǎng)絡(luò)進(jìn)行特征提取的3DShapeNet[6]，同樣與基于CNN但使用0~1體素網(wǎng)格的VoxNet[2]相比，精準(zhǔn)度有明顯提升，說明八叉樹結(jié)構(gòu)與法向量、曲率特征使得三維對象間更有區(qū)分度。與基于多視角特征融合的GIFT[11]方法相比，精準(zhǔn)度有明顯提高，說明本網(wǎng)絡(luò)結(jié)構(gòu)可以直接從三維點(diǎn)云學(xué)習(xí)到數(shù)據(jù)分布規(guī)律。與利用一系列濾波器提取體素的淺層特征的FPNN[12]相比，分類預(yù)測的精準(zhǔn)度較高，說明本文的特征提取網(wǎng)絡(luò)能得到更具有代表性的特征。

表1 三維對象分類實(shí)驗(yàn)精準(zhǔn)度統(tǒng)計(jì)表

為驗(yàn)證特征提取網(wǎng)絡(luò)在檢索任務(wù)中的表現(xiàn)，本文采用5個(gè)通用的指標(biāo)衡量網(wǎng)絡(luò)的性能。實(shí)驗(yàn)使用ShapeNetcore55[7]數(shù)據(jù)集作為實(shí)驗(yàn)數(shù)據(jù)，測試集中每個(gè)對象均作為查詢模型，整個(gè)測試集作為待檢索目標(biāo)集合。檢索實(shí)驗(yàn)中，對于生成的檢索序列中的每一個(gè)對象，為其設(shè)置一個(gè)狀態(tài)值，當(dāng)網(wǎng)絡(luò)對目標(biāo)模型預(yù)測的類標(biāo)簽與序列中的已知的類標(biāo)簽一致時(shí)，狀態(tài)值為1，反之狀態(tài)值為0，其準(zhǔn)確率與回歸率分別表示為

其中，t為在檢索序列中正值的數(shù)目；f為在檢索序列中與目標(biāo)模型類標(biāo)簽不一致的對象的數(shù)目；f為在該序列中沒有被檢索出的對象模型；t+f為數(shù)據(jù)集合中該類模型的總數(shù)。

準(zhǔn)確率和回歸率的計(jì)算并沒有什么必然的相關(guān)性關(guān)系，但是，在大規(guī)模數(shù)據(jù)集合中，這2個(gè)指標(biāo)往往是相互制約的。在實(shí)際中需要根據(jù)具體情況做出取舍，本實(shí)驗(yàn)引入F-Score綜合權(quán)衡這2個(gè)指標(biāo)，即

當(dāng)=1時(shí)，稱為F1-Score，此時(shí)精確率和回歸率權(quán)重相同，視為同等重要。

本實(shí)驗(yàn)引入平均精度均值指標(biāo)衡量檢索模型的性能，即

其中，為每個(gè)類的平均檢索精度；為需要預(yù)測類的總數(shù)，且的計(jì)算為

其中，precision為類中每一對象的精確度；N為每一類對象的總數(shù)。

本文利用歸一化折損累積增益NDCG指標(biāo)衡量得到檢索序列的相關(guān)度指標(biāo)，與檢索目標(biāo)相關(guān)度越高的對象在序列中排名靠前，且NDCG值越高，即

其中，為折扣累積獲得，即

其中，1為檢索序列中每一項(xiàng)的得分，分值與序列中每一項(xiàng)與檢索目標(biāo)對象類與子類標(biāo)簽是否一致有關(guān)，當(dāng)類和子類一致時(shí)計(jì)為2分，只有主類別相同，子類別不同的項(xiàng)計(jì)為1，完全不匹配的為0。本文體征提取網(wǎng)絡(luò)完成模型檢索實(shí)驗(yàn)后，利用檢索結(jié)果計(jì)算得到相應(yīng)的5個(gè)測試指標(biāo)結(jié)果，并與相應(yīng)的算法進(jìn)行了對比，實(shí)驗(yàn)結(jié)果見表2。

表2 三維模型檢索實(shí)驗(yàn)效果評估

實(shí)驗(yàn)結(jié)果表明，本文模型在檢測檢索性能的各項(xiàng)數(shù)據(jù)上均優(yōu)于基于多視角與0-1體素的方法，特別是NDCG指標(biāo)準(zhǔn)確率可達(dá)90%，表明檢索中備選對象的排名順序準(zhǔn)確度較高。與CM-CNN，Channel-Wise，ZFDR[13]等基于二維視角融合與逐通道進(jìn)行特征提取的算法相比，本實(shí)驗(yàn)的檢索準(zhǔn)確度更高。

在經(jīng)過特征提取網(wǎng)絡(luò)得到相應(yīng)的特征之后，待替換對象通過與數(shù)據(jù)庫模型進(jìn)行特征的匹配與檢索，得到最相似的模型集合，人為挑選出最相似的模型進(jìn)行下一步的配準(zhǔn)。首先將2個(gè)模型的正方向保持一致，然后通過最近點(diǎn)匹配算法不斷地進(jìn)行 2個(gè)點(diǎn)集的匹配以完成場景配準(zhǔn)任務(wù)，配準(zhǔn)結(jié)果如圖6所示，場景內(nèi)的椅子與桌子均被數(shù)據(jù)庫中最相似模型進(jìn)行替換。

圖6 場景建模結(jié)果圖

綜上所述，本文提出的基于模板替換的室內(nèi)場景建?？蚣?，利用數(shù)據(jù)庫中相似的三維模型替換信息缺失的目標(biāo)對象再經(jīng)過場景配準(zhǔn)完成場景建模任務(wù)。該框架對于場景中存在結(jié)構(gòu)損失嚴(yán)重，有大部分缺失的目標(biāo)對象時(shí)有較好的建模效果，原因在于基于模板替換的方式使用整體替換的方式進(jìn)行建模，只要特征提取網(wǎng)絡(luò)能得到較好的特征，并且能檢索出相似的模型，有利于得到較好的場景復(fù)原效果。所以當(dāng)場景中信息缺失較嚴(yán)重時(shí)，采用模板替換的建模方式往往有不錯(cuò)的效果。但是，當(dāng)要完成的任務(wù)需要比較精細(xì)化的建模效果時(shí)，且對于真實(shí)性要求較高或?qū)ξ恢眯畔⒈容^敏感時(shí)，基于模板替換的建模框架由于數(shù)據(jù)庫容量的限制會造成檢索出的模型與真實(shí)對象有較大的偏差。同時(shí)，由于本文使用場景配準(zhǔn)的方式進(jìn)行重建，配準(zhǔn)的誤差也將影響模型的質(zhì)量，當(dāng)配準(zhǔn)的誤差較大時(shí)，將導(dǎo)致三維對象的位置與位姿將有較大的偏差而不能滿足交互的要求。

6 結(jié)束語

三維建模是智能機(jī)器人導(dǎo)航與環(huán)境感知的重要技術(shù)前提，通過對場景進(jìn)行詳盡的描述與建模，機(jī)器人能通過這些信息進(jìn)行下一步交互。對不同應(yīng)用環(huán)境下進(jìn)行場景建模，進(jìn)而對場景進(jìn)行分析而做出準(zhǔn)確的場景評估，對精確評估場景狀況、有效提供下一步交互動(dòng)作具有重要意義。針對現(xiàn)存研究工作的不足，本文將重建結(jié)果的表現(xiàn)形式定位為點(diǎn)云，解決了傳統(tǒng)方法因輸出為體素導(dǎo)致的分辨率較低的問題，同時(shí)利用CNN對特征進(jìn)行提取，加速了模型匹配的進(jìn)程，從而可以在較短時(shí)間內(nèi)完成重建。

本文的主要工作為基于數(shù)據(jù)庫模板替換的方式對三維場景進(jìn)行重建。通過CNN提取目標(biāo)對象的高維度特征并依據(jù)特征相似度，在數(shù)據(jù)庫中檢索出最相似三維目標(biāo)模型，通過配準(zhǔn)的方式完成場景重建。

本文的創(chuàng)新點(diǎn)是利用數(shù)據(jù)驅(qū)動(dòng)的方式，以CNN提取更加具有抽象性、更加具有一般性的特征，利用此高維度特征作為檢索的依據(jù)，能在數(shù)據(jù)庫中檢索出更加相似的模型，完成重建。

本文的不足在于數(shù)據(jù)庫模板替換的方式雖然可將不可見部分進(jìn)行補(bǔ)全，但是受限于數(shù)據(jù)庫的容量限制，建模的細(xì)節(jié)往往與真實(shí)場景有較大差距。

[1] SU H, MAJI S, KALOGERAKIS E, et al. Multi-view convolutional neural networks for 3D shape recognition[C]//2015 IEEE International Conference on Computer Vision (ICCV). New York: IEEE Press, 2015: 945-953.

[2] MATURANA D, SCHERER S. VoxNet: a 3D convolutional neural network for real-time object recognition[C]//2015 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). New York: IEEE Press, 2015: 922-928.

[3] TATARCHENKO M, DOSOVITSKIY A, BROX T. Octree generating networks: efficient convolutional architectures for high-resolution 3D outputs[C]//2017 IEEE International Conference on Computer Vision (ICCV). New York: IEEE Press, 2017: 2088-2096.

[4] CHARLES R Q, SU H, MO K C, et al. PointNet: deep learning on point sets for 3D classification and segmentation[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2017: 652-660.

[5] SONG S R, YU F, ZENG A, et al. Semantic scene completion from a single depth image[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2017: 1746-1754.

[6] WU Z, SONG S R, KHOSLA A, et al. 3D ShapeNets: a deep representation for volumetric shapes[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2015: 1912-1920.

[7] CHANG A X, FUNKHOUSER T, GUIBAS L, et al. Shapenet: an information-rich 3D model repository[EB/OL]. (2015-12-09) [2019-08-15].https://arxiv.org/abs/1512.03012.

[8] RUSINKIEWICZ S, LEVOY M. Efficient variants of the ICP algorithm[C]//Proceedings 3rd International Conference on 3-D Digital Imaging and Modeling. New York: IEEE Press, 2001:145-152.

[9] DAI A, NIE?NER M, ZOLLH?FER M, et al. Bundlefusion: real-time globally consistent 3D reconstruction using on-the-fly surface reintegration[J]. ACM Transactions on Graphics (ToG), 2017, 36(3): 24-32.

[10] WANG P S, LIU Y, GUO Y X, et al. O-CNN: octree-based convolutional neural networks for 3D shape analysis[J]. ACM Transactions on Graphics (TOG), 2017: 36(4): 72-80.

[11] BAI S, BAI X, ZHOU Z C, et al. GIFT: a real-time and scalable 3D shape search engine[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2016: 5023-5032.

[12] LI Y, PIRK S, SU H, et al. Fpnn: field probing neural networks for 3D data[C]//Advances in Neural Information Processing Systems. New York: Curran Associates, 2016: 307-315.

[13] LI B, JOHAN H. 3D model retrieval using hybrid features and class information[J]. Multimedia Tools and Applications, 2013, 62(3): 821-846.

Indoor scene modeling method based on template replacement

ZHANG Zhao-xuan1, WANG Cheng-bin1, YANG Xin1, PIAO Xing-lin2, WANG Peng-jie3, YIN Bao-cai1

(1.School of Computer Science and Technology, Dalian University of Technology, Dalian Liaoning 116024, China;2. Peng Cheng Laboratory, Shenzhen Guangdong 518055, China;3. School of Computer Science and Engineering, Dalian Nationalities University, Dalian Liaoning 116600, China)

Nowadays, much progress has been made in the research of indoor scene modeling, especially the modeling frameworks based on multiple perspectives and single perspective, which has enhanced the robot’s environment perception. However, the following shortcomings still exist: ①The modeling method based on multiple perspectives requires a long pre-processing time, and the offline optimization process is required after the modeling is completed, which cannot meet the modeling requirements under specific conditions. ②The modeling algorithm based on single perspective is mainly output with voxels, so the modeling quality is low, and the information is missing seriously. The details of the scene cannot be accurately characterised, and it is difficult to meet the requirements of robot interaction. In view of the above deficiencies, this paper puts forward a method of indoor scene modeling based on template replacement. First, the three-dimensional point cloud scene is preprocessed to segment a single object with missing point cloud, and then the virtual scanning technology is used to sample the surface points of the object and calculate the corresponding normal vector and curvature. Next, the octree mesh is used to store the normal vector and the curvature information respectively. Furthermore, the high-dimensional feature vectors are extracted by the convolutional neural network (CNN), and the Euclidean distance is compared with the features of three-dimensional object in the database, so as to obtain the retrieval sequence. Finally, the most similar objects are selected from the sequence, and the iterative closest point (ICP) registration method is used to register with the scanning scene to complete the scene optimization. In this paper, the proposed network model is tested on two benchmark data sets and shows good performance.

robot; indoor scene modeling; convolutional neural network; iterative closest point registration; point cloud

TP 391

10.11996/JG.j.2095-302X.2020020270

2095-302X(2020)02-0270-07

2019-08-16；

2019-09-21

國家自然科學(xué)基金項(xiàng)目(91748104，61972067，61632006，U1811463，U1908214，61751203)；國家重點(diǎn)研發(fā)計(jì)劃項(xiàng)目(2018AAA0102003)

張肇軒(1994–)，男，吉林松原人，博士研究生。主要研究方向?yàn)橛?jì)算機(jī)視覺。E-mail：zhaoxuanzhang@mail.dlut.edu.cn

楊鑫(1984–)，男，吉林四平人，教授，博士，博士生導(dǎo)師。主要研究方向?yàn)橛?jì)算機(jī)圖形學(xué)。E-mail：xinyang@dlut.edu.cn