亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度學(xué)習(xí)的體素化模型生成方法綜述

        2020-03-18 06:03:44昶,薛
        關(guān)鍵詞:體素編碼利用

        劉 昶,薛 磊

        (沈陽(yáng)理工大學(xué) 信息科學(xué)與工程學(xué)院 沈陽(yáng)110159)

        三維模型生成是由2D圖像恢復(fù)3D物體的結(jié)構(gòu)信息、表面信息、甚至顏色信息的過(guò)程,是計(jì)算機(jī)視覺(jué)、計(jì)算機(jī)圖像學(xué)中重要的研究?jī)?nèi)容。近幾年,深度學(xué)習(xí)的出現(xiàn)推動(dòng)了三維數(shù)據(jù)的應(yīng)用與發(fā)展,配合5G互聯(lián)網(wǎng)技術(shù),使云端三維模型生成和云端可視化成為可能。三維體素化模型不僅能夠明確反映三維物體的空間結(jié)構(gòu)信息和幾何信息,而且能夠直接被三維卷積處理,是許多三維視覺(jué)任務(wù)中常用的數(shù)據(jù)表示形式。傳統(tǒng)的三維模型生成一般是利用已標(biāo)定相機(jī)拍攝目標(biāo)的多幅圖像,利用幾何約束進(jìn)行特征的立體匹配原理實(shí)現(xiàn),例如文獻(xiàn)[1]提出一種聲納圖像的三維重建方法,利用傳統(tǒng)的幾何映射關(guān)系建立一種多高度特征進(jìn)行分段分層搜索的重建方法,實(shí)現(xiàn)旋轉(zhuǎn)、平移參數(shù)已知情況下的三維重建。近年來(lái),隨著深度學(xué)習(xí)在計(jì)算機(jī)視覺(jué)領(lǐng)域的應(yīng)用,基于深度學(xué)習(xí)的三維體素模型生成方法的研究逐漸受到學(xué)者的關(guān)注,目前已經(jīng)有了一些成果。Wu Z R等提出將深度圖輸入深度信念網(wǎng)絡(luò)生成三維體素化模型,首次將三維體素化數(shù)據(jù)表示應(yīng)用于基于深度學(xué)習(xí)的三維目標(biāo)識(shí)別任務(wù)[2]。文獻(xiàn)[3-5]提出基于自編碼網(wǎng)絡(luò)的三維體素模型生成方法,通過(guò)編碼過(guò)程得到圖像的特征,該特征再由解碼網(wǎng)絡(luò)生成三維體素化模型。文獻(xiàn)[6-8]提出采用生成對(duì)抗的思想進(jìn)行三維模型生成,利用生成器生成三維模型,利用判別器判別生成特征的真假,通過(guò)訓(xùn)練不斷更新判別器和生成器的參數(shù),當(dāng)二者達(dá)到平衡時(shí),生成器能夠生成高精度三維體素化模型。但該網(wǎng)絡(luò)往往會(huì)因?yàn)橛?xùn)練時(shí)不穩(wěn)定導(dǎo)致生成結(jié)果不理想。Kar A等用一種投影的操作直接從圖像空間得到三維空間中的網(wǎng)格特征[9],再利用3D U-Net[10]正則化處理該特征,生成目標(biāo)物體的深度圖和體素模型。文獻(xiàn)[11-13]受到這種思想啟發(fā),也提出新的三維體素化模型生成方法,這些方法以構(gòu)建一種由2D圖像空間到三維體坐標(biāo)空間的映射為目標(biāo),通過(guò)一個(gè)后續(xù)的網(wǎng)絡(luò)精調(diào)得到三維模型。文獻(xiàn)[14-15]則提出利用間接的方法生成三維體素化模型,如在文獻(xiàn)[14]中,網(wǎng)絡(luò)首先生成2.5D草圖、深度圖等粗略的三維表示,再進(jìn)一步通過(guò)編碼-解碼網(wǎng)絡(luò)生成三維體素化模型。該類方法缺點(diǎn)是訓(xùn)練過(guò)程比較復(fù)雜,需要大量的微調(diào)操作。

        綜合目前的相關(guān)文獻(xiàn),基于深度學(xué)習(xí)的3D體素化模型生成技術(shù)主要包括以下三類:(1)基于特征表示學(xué)習(xí)的方法;(2)基于空間映射的方法;(3)基于協(xié)同學(xué)習(xí)的方法。本文將針對(duì)這三類技術(shù)的各自特點(diǎn)和優(yōu)勢(shì)分別進(jìn)行討論,并對(duì)三維模型生成研究中常用的三維數(shù)據(jù)集和評(píng)價(jià)標(biāo)準(zhǔn)進(jìn)行介紹,最后對(duì)該領(lǐng)域研究中的重要問(wèn)題和挑戰(zhàn)進(jìn)行總結(jié)和展望。

        1 基于特征表示學(xué)習(xí)的三維體素化模型生成

        基于特征表示學(xué)習(xí)的三維體素化模型生成的一般過(guò)程如圖1所示,首先提取圖像特征,然后利用解碼網(wǎng)絡(luò)將特征恢復(fù)成三維體素化模型。這類方法的共同特點(diǎn)是從特征處理的角度提高三維體素化模型生成的精度。

        Girdhar R等首次提出以學(xué)習(xí)可生成、可預(yù)測(cè)的3D模型特征為目標(biāo),用自編碼網(wǎng)絡(luò)和簡(jiǎn)單的二維特征提取網(wǎng)絡(luò)分別提取三維體素化模型和二維圖像的特征,通過(guò)構(gòu)建三維模型特征與二維圖像特征間的相似性損失,提高二維圖像特征的提取質(zhì)量,測(cè)試時(shí)只需將一幅圖像輸入網(wǎng)絡(luò)便可生成3D體素化模型[3]。受文獻(xiàn)[3]啟發(fā),Mandikal P等將該思想應(yīng)用到三維點(diǎn)云模型生成,通過(guò)獲取特征空間中特征的采樣生成新的三維模型[4]。張冀等提出利用多尺度特征提取網(wǎng)絡(luò)作為圖像特征提取部分,本質(zhì)上也是先獲得一種魯棒的圖像特征,然后通過(guò)遞歸神經(jīng)網(wǎng)絡(luò)將二維特征轉(zhuǎn)換為三維體素化模型,其主要?jiǎng)?chuàng)新點(diǎn)在于發(fā)現(xiàn)并驗(yàn)證了通過(guò)多尺度特征提取得到的融合特征表示,有利于提高三維模型生成精度[16]。張玉麒等利用Inception-ResNet模塊[17]以增強(qiáng)網(wǎng)絡(luò)特征提取能力,并采用多種網(wǎng)絡(luò)結(jié)構(gòu)提取多個(gè)特征,通過(guò)三維長(zhǎng)短期記憶網(wǎng)絡(luò)處理上一步得到的多個(gè)序列化特征,最終提高了單幅圖像的重建效果[18]。Wu J J等提出3DGAN,網(wǎng)絡(luò)中生成器相當(dāng)于解碼器,判別器相當(dāng)于一個(gè)編碼器,通過(guò)多次訓(xùn)練和更新網(wǎng)絡(luò)參數(shù),利用生成器可生成三維體素化模型;首次提出將生成對(duì)抗網(wǎng)絡(luò)拓展到三維,對(duì)后續(xù)工作具有啟發(fā)意義[6]。類似的基于生成對(duì)抗思想的三維模型生成方法還有PrGAN[7],生成器生成的三維模型投影得到輪廓圖,通過(guò)判別器約束該輪廓圖與真實(shí)輪廓圖的損失,提升了三維模型生成的精度。Smith E和Jiang L等提出構(gòu)建新的損失函數(shù)用于網(wǎng)絡(luò)訓(xùn)練,使中間特征的生成受到更強(qiáng)的約束,提升了生成三維模型生成的精度[8,19]。Yang Bo等首次提出利用二維特征提取網(wǎng)絡(luò)提取一組多視角圖像的特征,然后利用注意力機(jī)制對(duì)圖像特征進(jìn)行融合操作,降低融合后特征的冗余性。該操作使特征表示能力得到增強(qiáng),最終的三維模型生成精度與3D-R2-N2[20]相比提升明顯[13]。注意力機(jī)制在特征優(yōu)化方面有積極作用,但是卻需要合理精細(xì)地設(shè)計(jì)網(wǎng)絡(luò)結(jié)構(gòu),否則無(wú)法達(dá)到特征優(yōu)化的目標(biāo)。Grant E等提出通過(guò)空間卷積(Spatial Convolution)構(gòu)造編碼器學(xué)習(xí)一種三維圖形編碼特征(3D Graphics Code),該特征通過(guò)空間下采樣層和池化層分離出一個(gè)形狀編碼和一個(gè)轉(zhuǎn)換編碼,再分別通過(guò)兩路解碼網(wǎng)絡(luò)生成三維體素模型和重構(gòu)輸入圖像[21];該文提出的三維圖形編碼具有更強(qiáng)的表示能力,有助于三維體素模型生成。文獻(xiàn)[5]和文獻(xiàn)[22]分別將變分自編碼器結(jié)構(gòu)和跳躍連接應(yīng)用于三維模型生成的特征提取部分,從網(wǎng)絡(luò)結(jié)構(gòu)上優(yōu)化了特征提取的過(guò)程,最后形成的中間特征對(duì)三維模型生成起到了關(guān)鍵作用。Wu J J等提出一種間接的體素化模型生成方法,通過(guò)提取一副圖像的特征生成該圖像中目標(biāo)物體的2.5D草圖(輪廓圖、法線貼圖和深度圖),再通過(guò)另一個(gè)編碼-解碼網(wǎng)絡(luò)由得到的2.5D草圖生成目標(biāo)的三維體素化模型;該方法是一種比較有效的三維模型生成方法,在訓(xùn)練時(shí)通過(guò)多階段微調(diào)的方法獲得令人滿意的三維模型生成效果[15]。類似的方法還有文獻(xiàn)[23],對(duì)可見(jiàn)對(duì)象物體表面以及受視線遮擋的表面共同編碼得到一種對(duì)象坐標(biāo)空間映射圖(NOCS Map),再對(duì)NOCS 圖進(jìn)一步操作得到最終的三維體素化模型。文獻(xiàn)[15]和文獻(xiàn)[23]并未直接生成三維體素模型,而是通過(guò)生成中介表示作為過(guò)渡,最后通過(guò)精細(xì)化處理得到三維體素化模型。

        2 基于空間映射的三維體素化模型生成

        除了從基于特征表示的方法解決三維模型生成的問(wèn)題,研究人員還嘗試從多視角圖像的視差估計(jì)中尋找三維空間與二維圖像空間的映射,從而構(gòu)建二維圖像特征與三維體素網(wǎng)格空間之間轉(zhuǎn)化的橋梁,以提升三維模型生成效果。文獻(xiàn)[24]和文獻(xiàn)[25]分別提出一種多視角3D生成網(wǎng)絡(luò),基本思想是通過(guò)構(gòu)造和處理視差估計(jì)的Cost-Volume[26]生成深度圖,再由深度圖生成點(diǎn)云或體素等3D數(shù)據(jù)表示形式[27]。Tulsiani S等首先提出利用一種對(duì)稱性感知的方法提取特征,通過(guò)多個(gè)視角圖像特征預(yù)測(cè)置信度圖并進(jìn)行密集的逐像素三維坐標(biāo)預(yù)測(cè),再利用預(yù)測(cè)的三維坐標(biāo)將圖像特征提升到三維體素特征網(wǎng)格,并用置信度圖對(duì)每一特征網(wǎng)格加權(quán),聚合多個(gè)特征網(wǎng)格,最終通過(guò)一個(gè)精調(diào)網(wǎng)絡(luò)解碼生成3D體素化模型[28]。陳秋敏等利用三維的殘差網(wǎng)絡(luò)結(jié)構(gòu)從二維投影圖像集合中學(xué)習(xí)三維模型結(jié)構(gòu)的映射,訓(xùn)練時(shí)采用Lovasz-softmaxLoss[29]損失函數(shù)約束生成的三維體素化模型與真實(shí)模型的相似度,最終取得了比較好的三維模型生成效果[30]。

        值得一提的是,基于空間映射的方法大多需要尋找三維空間到二維圖像特征空間的聯(lián)系從而產(chǎn)生特征映射,這些映射的計(jì)算必須具有可微性,才能參與網(wǎng)絡(luò)端到端的訓(xùn)練。

        3 基于協(xié)同學(xué)習(xí)的三維體素化模型生成

        體素化模型在分辨率增加時(shí)會(huì)導(dǎo)致存儲(chǔ)容量以三次方的倍數(shù)增長(zhǎng),不僅會(huì)導(dǎo)致計(jì)算量的急速增加,也會(huì)受到硬件條件的限制,于是研究人員將注意力集中于對(duì)高分辨率三維體素化模型生成以及三維形狀補(bǔ)全任務(wù)的研究上[31-34]。一般的方法是從簡(jiǎn)化計(jì)算的角度考慮,如H?ne C等提出利用8叉樹的數(shù)據(jù)結(jié)構(gòu)表示體素,將傳統(tǒng)的二值化體素網(wǎng)格表示替換成內(nèi)、外、邊界三個(gè)要素表示的形式,用不平衡8叉樹葉節(jié)點(diǎn)存儲(chǔ)CNN提取過(guò)程的特征,在一定程度上節(jié)省了計(jì)算量[31]。更有潛力的方法是采用多個(gè)網(wǎng)絡(luò)相互輔助訓(xùn)練的多模態(tài)協(xié)同學(xué)習(xí)的思路研究高分辨率三維模型生成算法。

        圖2展示了文獻(xiàn)[32]采用的結(jié)合全局結(jié)構(gòu)推理和局部幾何精調(diào)的高分辨率三維模型生成方法。

        首先利用全局結(jié)構(gòu)推理分支從輸入體素模型對(duì)應(yīng)的深度圖中獲得原始體素模型的結(jié)構(gòu)信息;再用局部幾何精調(diào)分支直接提取三維體素模型的局部幾何信息;在訓(xùn)練時(shí)采用分階段訓(xùn)練的方式,用固定參數(shù)的全局結(jié)構(gòu)推理分支輔助局部幾何精調(diào)模塊,最終可以由形狀缺失的三維體素模型生成最高256×256×256分辨率的三維體素化模型。Dai A則提出用三維形狀分類網(wǎng)絡(luò)和三維自編碼網(wǎng)絡(luò)的編碼器分別提取語(yǔ)義特征信息和抽象的高維特征表示,然后將兩種信息融合并輸入解碼網(wǎng)絡(luò)生成高分辨率的三維體素模型[33]。文獻(xiàn)[31-33]中的方法都是通過(guò)較低分辨率或者形狀缺陷的三維體素化模型生成較高分辨率的體素化模型。而文獻(xiàn)[34]利用基于文獻(xiàn)[20]中長(zhǎng)短期記憶改進(jìn)的網(wǎng)絡(luò)編碼圖像特征,然后通過(guò)基于離散傅里葉變換的三維逆卷積網(wǎng)絡(luò)生成最高128×128×128分辨率大小的體素模型。

        4 評(píng)價(jià)標(biāo)準(zhǔn)與數(shù)據(jù)集

        4.1 評(píng)價(jià)標(biāo)準(zhǔn)

        目前,比較流行的生成模型評(píng)價(jià)指標(biāo)交并比(IoU,Intersection over Union)利用生成體素模型坐標(biāo)點(diǎn)集合與原始的三維模型坐標(biāo)點(diǎn)集合的交集與并集的比值來(lái)評(píng)價(jià)每一個(gè)生成模型的精度。由于網(wǎng)絡(luò)生成體素模型一般都是概率體素模型,即體素坐標(biāo)的每一點(diǎn)的值是概率,因此需要一個(gè)閾值t判定該點(diǎn)為實(shí)體還是空,因此這里IoU值依賴于t,IoU值越大,代表生成體素模型的精度越高。IoU具體計(jì)算公式為

        (1)

        式中:I(·)為指示函數(shù);t代表閾值;gt(i,j,k)代表輸入的真實(shí)體素模型在(i,j,k)的狀態(tài),取值0或1;p(i,j,k)代表網(wǎng)絡(luò)生成的體素模型在(i,j,k)處的取值,其值表示該位置為實(shí)體的概率。

        4.2 ShapeNet數(shù)據(jù)集

        ShapeNet[35]是目前最大的在線三維模型庫(kù),面向計(jì)算機(jī)圖形學(xué)、計(jì)算機(jī)視覺(jué)、機(jī)器人等相關(guān)學(xué)科的研究者。數(shù)據(jù)集包含兩個(gè)部分:一個(gè)是該數(shù)據(jù)集的子集(ShapeNetCore),該部分共包括55個(gè)類別,51300個(gè)三維模型;另外一個(gè)是ShapeNetSem,該部分?jǐn)?shù)據(jù)集涵蓋更廣泛的可達(dá)270個(gè)類別的三維模型,模型總數(shù)12000個(gè)。目前ShapeNet數(shù)據(jù)集是公認(rèn)的、被大多數(shù)模型生成算法用來(lái)檢驗(yàn)算法性能的數(shù)據(jù)集。數(shù)據(jù)集中每一個(gè)模型都被處理成體素模型和其對(duì)應(yīng)的二維視角圖像,用于訓(xùn)練和檢驗(yàn)算法性能,圖3展示了該數(shù)據(jù)集的部分樣例。

        在ShapeNet數(shù)據(jù)集上對(duì)目前比較典型的幾種3D體素模型生成算法Pix-Voxel-F[12]、Pix-Voxel-A[12]、Attsetts[13]、3D-R2-N2[20]進(jìn)行測(cè)試。測(cè)試中輸入的2D圖像的數(shù)量N分別為1、2、3時(shí),每種算法的平均IoU值如表1所示。從表1的分析可見(jiàn),當(dāng)輸入的視角圖像數(shù)量增加時(shí),重建效果都能得到提高,其中文獻(xiàn)[12]中的基于空間映射的方法Pix-Voxel-A領(lǐng)先于其他算法。

        表1 典型算法的性能對(duì)比(IoU)

        4.3 Pix3D數(shù)據(jù)集

        Pix3D[36]是一個(gè)自然場(chǎng)景的三維模型數(shù)據(jù)集,包含9個(gè)類別共395個(gè)模型,每個(gè)模型包含一組對(duì)應(yīng)的RGB圖像,并提供了該模型的投影圖像。該數(shù)據(jù)集包含豐富的標(biāo)注信息,例如精確的位姿注釋及與三維模型形狀對(duì)齊的輪廓圖像。

        4.4 NYU數(shù)據(jù)集

        三維場(chǎng)景數(shù)據(jù)集NYU[37]提供了1449個(gè)密集標(biāo)注過(guò)的RGB圖像與深度圖像對(duì),包含了臥室、廚房、自習(xí)室、咖啡廳等多個(gè)室內(nèi)場(chǎng)景,還包括了464個(gè)不同城市建筑物的三維場(chǎng)景數(shù)據(jù),并且每個(gè)樣本都按照類別進(jìn)行了標(biāo)注,用于三維場(chǎng)景重建任務(wù)。該數(shù)據(jù)集還提供了原始的由Kinect拍攝的RGB和Depth的數(shù)據(jù),并提供了進(jìn)行測(cè)試評(píng)價(jià)的工具箱。

        5 結(jié)束語(yǔ)

        對(duì)基于深度學(xué)習(xí)的三維體素化模型生成方法的研究現(xiàn)狀進(jìn)行了綜述,根據(jù)三維模型生成方法的技術(shù)特點(diǎn)對(duì)其進(jìn)行分類,并詳細(xì)分析了典型方法的思想和特點(diǎn),介紹了目前流行的數(shù)據(jù)集和評(píng)價(jià)指標(biāo)。目前基于深度學(xué)習(xí)的三維模型生成方法研究仍存在一些挑戰(zhàn)性問(wèn)題:一是針對(duì)自然場(chǎng)景下目標(biāo)物體的三維模型生成缺乏有效的方法;二是對(duì)高分辨率的三維模型生成沒(méi)有較好的解決方案。目前基于深度學(xué)習(xí)的三維模型生成方法基本上還都是單純使用深度網(wǎng)絡(luò)技術(shù),未來(lái)研究可以考慮從另外兩個(gè)方向開展:一是與計(jì)算機(jī)圖形學(xué)的相關(guān)理論和方法相結(jié)合,通過(guò)分析物體特點(diǎn),從結(jié)構(gòu)感知和形狀感知的角度設(shè)計(jì)三維模型生成網(wǎng)絡(luò);二是與傳統(tǒng)三維重建算法相結(jié)合,將空間特征匹配、光束平差法等思想融入到網(wǎng)絡(luò)結(jié)構(gòu)的訓(xùn)練中,使設(shè)計(jì)出的生成網(wǎng)絡(luò)更具可解釋性。

        猜你喜歡
        體素編碼利用
        基于超體素聚合的流式細(xì)胞術(shù)自動(dòng)門控方法
        基于多級(jí)細(xì)分的彩色模型表面體素化算法
        利用min{a,b}的積分表示解決一類絕對(duì)值不等式
        基于SAR-SIFT和快速稀疏編碼的合成孔徑雷達(dá)圖像配準(zhǔn)
        《全元詩(shī)》未編碼疑難字考辨十五則
        利用一半進(jìn)行移多補(bǔ)少
        運(yùn)用邊界狀態(tài)約束的表面體素加密細(xì)分算法
        子帶編碼在圖像壓縮編碼中的應(yīng)用
        電子制作(2019年22期)2020-01-14 03:16:24
        基于體素格尺度不變特征變換的快速點(diǎn)云配準(zhǔn)方法
        Genome and healthcare
        男人进去女人爽免费视频| 亚洲激情一区二区三区视频| 激情五月天色婷婷久久| 亚洲日韩小电影在线观看| 品色永久免费| 久久精品免视看国产明星| 中文字幕一区二区三区在线看一区 | 五十路熟女一区二区三区| 欧美h久免费女| 国产成人av三级在线观看韩国| 一二区成人影院电影网| 国产精品久久久久久久久鸭| 麻豆AV无码久久精品蜜桃久久| 一区二区三区乱码专区| 宅男66lu国产在线观看| 欧美性猛交xxxx乱大交蜜桃| 色老汉亚洲av影院天天精品| 不卡av网站一区二区三区| 国产亚洲欧美精品久久久| 免费成人福利视频| 中文字幕av一区二区三区诱惑| 精品无码国产一区二区三区麻豆| 真实单亲乱l仑对白视频| 99re6久精品国产首页| 亚洲丝袜美腿精品视频| 岛国av无码免费无禁网站| 亚洲av色先锋资源电影网站 | 亚洲少妇一区二区三区老| 欧美老熟妇乱子| 九九九精品成人免费视频小说| 亚洲最大av免费观看| 99久久国内精品成人免费| 国产成人亚洲精品青草天美| 亚洲国产精品久久久久秋霞1 | 在熟睡夫面前侵犯我在线播放| 日中文字幕在线| 亚洲一区二区三区码精品色| 无码乱肉视频免费大全合集| 国产山东熟女48嗷嗷叫| 精品理论一区二区三区| 国产av久久在线观看|