亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        3D場景表征—神經(jīng)輻射場(NeRF)近期成果綜述

        2022-12-26 09:57:32朱方
        關(guān)鍵詞:語義深度研究

        朱方

        (1.中興通訊微電子研究院,深圳 518057;2.移動(dòng)通訊與移動(dòng)多媒體國家重點(diǎn)實(shí)驗(yàn)室,深圳 518055)

        1 引言

        自然場景的3D空間建模,以及基于空間建模先驗(yàn)的場景內(nèi)容重現(xiàn)一直是信息技術(shù)圍繞人類交互體驗(yàn)的重要努力方向。如圖1所示,從1920年第一個(gè)數(shù)字圖像完成對1866年的跨大西洋電報(bào)電纜在紐芬蘭登陸場景的記錄,到結(jié)合計(jì)算機(jī)圖形學(xué)的構(gòu)建和基于物理渲染營造逼真呈現(xiàn),再到結(jié)合成像的投影幾何去完成空間場景的幾何建模,研究者一直嘗試將自然真實(shí)場景轉(zhuǎn)化為有效的數(shù)字資產(chǎn)。同時(shí)對于場景的3D建模和高逼真呈現(xiàn)與再編輯能力也是元宇宙和增強(qiáng)現(xiàn)實(shí)等構(gòu)建數(shù)字和現(xiàn)實(shí)世界紐帶技術(shù)的核心基礎(chǔ)。

        圖1 自然場景的建模和重現(xiàn)發(fā)展歷程

        當(dāng)前,隨著深度學(xué)習(xí)驅(qū)動(dòng)的信息技術(shù)快速發(fā)展,作為建模和內(nèi)容重現(xiàn)的核心—3D場景表征相關(guān)技術(shù)(從點(diǎn)云,網(wǎng)格,體素,隱函數(shù)以及神經(jīng)隱函數(shù)等)得到了澎湃發(fā)展,特別是當(dāng)前神經(jīng)輻射場相關(guān)技術(shù)(NeRF:Neural Radiance Fields)的興起,為基于有限觀測自由地生成虛擬視點(diǎn)內(nèi)容,以及基于空間和時(shí)間維度的體積顯示重采樣提供了豐富應(yīng)用基石。

        為了更加透徹的了解基于深度神經(jīng)網(wǎng)絡(luò)技術(shù)加持下,3D場景表征相關(guān)技術(shù)的發(fā)展,特別是作為神經(jīng)隱式表征一個(gè)突出代表的NeRF技術(shù)的應(yīng)用潛力和內(nèi)在關(guān)鍵機(jī)理,本文對近期相關(guān)研究成果進(jìn)行了深入的回顧和研究。

        本文首先總結(jié)了不同3D 場景表征技術(shù)的應(yīng)用背景,并回顧了近期針對不同表征技術(shù)基于深度學(xué)習(xí)處理所取得的進(jìn)展,由此引出了隱表面和神經(jīng)隱式表征這些有著巨大發(fā)展?jié)摿Φ谋碚骷夹g(shù);其次,對于神經(jīng)隱函數(shù)中的特別具有代表性的NeRF 技術(shù),就其近期發(fā)展和延伸研究展開了廣泛的探討,包括其空間和光照可編輯性方面的研究,以及針對動(dòng)態(tài)場景和時(shí)序輸入場景建模的發(fā)展,和如何加速其內(nèi)容生成以方便實(shí)際部署方面的進(jìn)展。

        然后通過針對近期NeRF涉及場景構(gòu)建及其交叉領(lǐng)域相關(guān)研究的深入分析,本文揭示了顯性三維空間和語義信息對于NeRF的神經(jīng)高維隱空間訓(xùn)練構(gòu)建的重要價(jià)值。同時(shí)結(jié)合近期基于圖像的NeRF的有意義的成果,和對當(dāng)前單幀圖像顯性3D空間信息感知的挑戰(zhàn)分析,揭示了NeRF這種基于輸入信息連續(xù)高維建模能力為3D場景魯棒表征和自適應(yīng)擴(kuò)展帶來的優(yōu)勢。

        最后本文對相關(guān)論述進(jìn)行了總結(jié),并進(jìn)一步呼吁越來越多的后期3D空間多媒體研究以這種“記憶和重現(xiàn)能力”方式向前推進(jìn)。

        2 3D場景表征相關(guān)技術(shù)

        現(xiàn)實(shí)場景3D 建模和內(nèi)容重現(xiàn)的核心—場景表征技術(shù)一直是研究者的重點(diǎn)關(guān)注領(lǐng)域,常用的包括了計(jì)算機(jī)圖形學(xué)日常使用的網(wǎng)格技術(shù),計(jì)算機(jī)視覺3D 重建傳統(tǒng)使用的點(diǎn)云技術(shù),和沉浸式3D 多媒體常規(guī)使用的3D 體積表征(體素網(wǎng)格)技術(shù)[1]等。以上三種表征技術(shù)以不同的方式離散了輸出空間。為了獲得更好的空間表征,包括表征量的連續(xù)性和多尺度自適應(yīng)性,以隱性表面為代表的隱式表征技術(shù)逐步獲得更多研究者的關(guān)注[2,3]。特別是近期作為基于神經(jīng)網(wǎng)絡(luò)技術(shù)有機(jī)延伸的神經(jīng)隱式表征技術(shù),成為當(dāng)前研究的熱點(diǎn)并獲得了廣泛的探討,如文獻(xiàn)[4?6]。

        表1 總結(jié)了當(dāng)前主流5種表征類別(點(diǎn)云,網(wǎng)格,體素,隱式表面以及隱式神經(jīng)(空間)表征)及其局限性。這也是研究者積極尋求突破的重要方向[7?21]。本章節(jié)后續(xù)部分將就相應(yīng)方向近期基于深度學(xué)習(xí)取得的研究進(jìn)展進(jìn)行闡述。并鑒于這些成果揭示空間表面隱式表征以及基于深度神經(jīng)網(wǎng)絡(luò)的延伸(神經(jīng)隱式(空間)表征)對于場景三維空間感知建模和基于先驗(yàn)的內(nèi)容重現(xiàn)發(fā)展帶來的機(jī)遇。

        表1 3D場景表征相關(guān)技術(shù)

        總體而言,近期探索大體可以分成三個(gè)主要演進(jìn)方向:

        (1)解決不規(guī)則離散歐式空間數(shù)值的處理問題

        在傳統(tǒng)的三種常規(guī)表征中,如表1所示,網(wǎng)格和點(diǎn)集體現(xiàn)了實(shí)景采集數(shù)字化應(yīng)用場景當(dāng)前面臨的挑戰(zhàn),即空間幾何表現(xiàn)(具備清晰的拓?fù)潢P(guān)系和連續(xù)的空間占用表示)和感知工程實(shí)踐(零散的確定性空間采樣點(diǎn))之間的差距。同時(shí)對于結(jié)合歐式距離和局部結(jié)構(gòu)特征的拓?fù)湫蕴崛?,深度學(xué)習(xí)網(wǎng)絡(luò)(如卷積神經(jīng)網(wǎng)絡(luò)(CNN))可以提供較好地多層次特征提取能力,但是往往面臨如下問題。即直接操作于原始數(shù)據(jù)(網(wǎng)格和點(diǎn)云),其歐式空間表示的不規(guī)則性嚴(yán)重阻礙了直接開展傳統(tǒng)的深度學(xué)習(xí)技術(shù)。在歐式空間下3D 網(wǎng)格規(guī)則化表示的體素網(wǎng)格,由于其空間表示規(guī)則化,成為傳統(tǒng)卷積網(wǎng)絡(luò)技術(shù)在三維空間下的直接擴(kuò)展。然而,細(xì)粒度的幾何信息最終會(huì)在3D 網(wǎng)格量化中丟失,而且其可伸縮性也會(huì)受到高計(jì)算和內(nèi)存成本的阻礙。

        這一問題引發(fā)了兩方面的努力,包括a)既維護(hù)基于體積表征的良好準(zhǔn)確性,同時(shí)大幅降低處理計(jì)算復(fù)雜度,如近期文獻(xiàn)中分別引入了自適應(yīng)分辨率體積映射[7]和稀疏卷積網(wǎng)絡(luò)[8]。前者利用空間八叉樹數(shù)據(jù)結(jié)構(gòu)對輸出空間分層分解,而后者利用三維點(diǎn)云數(shù)據(jù)的固有稀疏性,通過只在輸入數(shù)據(jù)的非空位置上保留和執(zhí)行卷積來降低計(jì)算成本。另一方面,b)引入可以適應(yīng)非歐臨域關(guān)系或者基于流形的新型卷積計(jì)算方法也成為一個(gè)積極探索的方向,如球形分形卷積(SFC:Spherical Fractal Convolution)[9]、位 置 自 適 應(yīng) 卷 積(PAC:Position Adaptive Convolution)[10]和點(diǎn)流算法(PointFlow)[11]以及基于細(xì)分結(jié)構(gòu)的網(wǎng)格卷積網(wǎng)絡(luò)算法(SBMC:Subdivision?Based Mesh Convolution)[12]。

        對于缺乏拓?fù)湫缘狞c(diǎn)云表征數(shù)據(jù),SFC 方法將三維空間點(diǎn)映射到一個(gè)由基于分形的規(guī)則二十面晶格體創(chuàng)建的離散球體上,然后基于此球體構(gòu)建具有多層次尺度的卷積神經(jīng)網(wǎng)絡(luò)。而PAC 方法通過基于由基本權(quán)重矩陣構(gòu)建的模板庫構(gòu)造動(dòng)態(tài)卷積核來模擬三維點(diǎn)云的復(fù)雜空間變化和幾何結(jié)構(gòu)。其中卷積核對應(yīng)的基本權(quán)重矩陣的組合系數(shù)由多層感知器(MLP)從相對點(diǎn)位置自適應(yīng)學(xué)習(xí)。和以上基于流形映射以及動(dòng)態(tài)組合來契合CNN 的特性不同,PointFlow 方法采用比較新穎的圖數(shù)據(jù)表示來表征原始空間數(shù)據(jù),以應(yīng)對數(shù)據(jù)原始空間表達(dá)存在的不規(guī)則性。結(jié)合這種圖表示,PointFlow 算法采用了全新的神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)框架,動(dòng)態(tài)圖卷積網(wǎng)絡(luò)(DGCNN:Dynamic Graph CNN),來改進(jìn)相鄰位置之間的特征聚合計(jì)算。這種網(wǎng)絡(luò)框架的徹底革新使得可以從空間數(shù)據(jù)點(diǎn)的各個(gè)空間角度分析其臨近點(diǎn)來迭代優(yōu)化本地三維空間特征的預(yù)測。

        而對于本身具備拓?fù)湫畔⒌木W(wǎng)格表征數(shù)據(jù),SBMC 方法通過將輸入網(wǎng)格進(jìn)行重網(wǎng)格化,將原本任意連接的局部網(wǎng)格構(gòu)建為保持特定細(xì)分循環(huán)序列連接的網(wǎng)格模式。這種特定循環(huán)特質(zhì)意味著一種類似于照片中像素的規(guī)則結(jié)構(gòu),方便了CNN 對局部臨域規(guī)則性的要求。

        (2)解決自然場景真實(shí)連續(xù)性信號(hào)多尺度自適應(yīng)表征的問題

        雖然前文例舉的相關(guān)研究,為將點(diǎn)集和網(wǎng)格引入基于深度網(wǎng)絡(luò)學(xué)習(xí)框架,以及緩解基于體素表征的計(jì)算成本提供了很大的便利,但原始離散化數(shù)據(jù)(點(diǎn)集和網(wǎng)格)和基于原始數(shù)據(jù)的離散化(體素)仍然會(huì)限制多尺度密集輸出空間的表達(dá),也可能存在量化誤差積累(如采用文獻(xiàn)[7]中八叉樹層次化表示體積表征計(jì)算引發(fā)的離散量化誤差)。而且高質(zhì)量的交互空間三維幾何表示,需要能夠描述足夠精細(xì)的連續(xù)空間占用,并在較少存儲(chǔ)要求下包含多尺度信息。也正是因此,隱式表面(Implicit surface)相關(guān)技術(shù)吸引了相關(guān)研究者的關(guān)注。

        使用隱式表面進(jìn)行空間幾何表征可以追溯到文獻(xiàn)[13],其通過將帶符號(hào)距離函數(shù)(SDF:Signed Dis‐tance Function)數(shù)值存儲(chǔ)在一組描述被占據(jù)表面的體素中。雖然這樣隱函數(shù)描述的表面是連續(xù)的,但輸入空間簡單離散化會(huì)引入表面質(zhì)量缺陷,如文獻(xiàn)[14]中所述。為了克服這一缺點(diǎn),后續(xù)的研究[15,16]采用高斯過程對映射進(jìn)行建模,將離散輸入轉(zhuǎn)化為數(shù)據(jù)先驗(yàn)問題,并增量地執(zhí)行貝葉斯映射更新優(yōu)化。

        近期,隨著深度神經(jīng)網(wǎng)絡(luò)所展現(xiàn)的強(qiáng)大數(shù)據(jù)驅(qū)動(dòng)學(xué)習(xí)能力,利用深度學(xué)習(xí)融入相關(guān)數(shù)據(jù)先驗(yàn)的問題解決引發(fā)了神經(jīng)隱式(空間)表征(INR:Implicit Neural Representation)研究熱潮[4?6],包括了非線性擬合[17]和元學(xué)習(xí)[18]等方面的研究嘗試。其中比較經(jīng)典的文獻(xiàn)為近期的空間占用預(yù)測網(wǎng)絡(luò)(Occupancy Networks)[4]和隱式移動(dòng)最小二乘曲面算法(IMLS:Implicit mov‐ing least?squares surface)[19]。其中空間占用預(yù)測網(wǎng)絡(luò)使用深度神經(jīng)網(wǎng)絡(luò)分類器隱式地將三維空間表面表征為連續(xù)決策邊界。這樣利用神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的連續(xù)決策邊界不僅可以在固定的離散3D 位置(如已有體素表示)推理空間表面占用率,而且在任何可能的空間3D 點(diǎn)(p∈R3)都可以實(shí)現(xiàn)占用率推理。因此這種創(chuàng)新方法可以在極小內(nèi)存空間占用(學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)權(quán)重)并在無限輸入分辨率下輸出3D空間表面描述。

        而IMLS方法則進(jìn)一步體現(xiàn)了INR的優(yōu)點(diǎn)。首先其和空間占用預(yù)測網(wǎng)絡(luò)類似,即利用一個(gè)內(nèi)嵌參數(shù)的神經(jīng)網(wǎng)絡(luò)的零水平集表述三維空間中的一個(gè)曲面。如前文所述,參數(shù)化信號(hào)所需的內(nèi)存與輸入空間分辨率無關(guān)。同時(shí)IMLS方法還拓展定義了所表征曲面所在的空間維度,即可以表示高維空間中的一個(gè)流形(超曲面)。這樣INR 即可不同于傳統(tǒng)空間表征(點(diǎn)云、網(wǎng)格和體素)僅僅局限于空間占用或空間表面的表征,其還可以作為融合其他高維特性的重要表達(dá)。近期研究概率局部隱式體素(PLIVox: Probabilistic Local Implicit Voxel)[20]就是一個(gè)極好的例證。其不僅捕獲場景空間幾何描述,還通過單一深度神經(jīng)網(wǎng)絡(luò)捕獲空間占用描述的不確定性屬性。最近諸多的研究,如文獻(xiàn)[21],也不斷地證明了INR 源自深度神經(jīng)網(wǎng)絡(luò)的靈活性和良好的表達(dá)能力。其中特別需要強(qiáng)調(diào)的是其對可高維關(guān)聯(lián)良好的歸納偏置以及隱式的正則化屬性。

        (3)解決多影響因素融合的光學(xué)被動(dòng)采樣信號(hào)的顯式分離問題,如位置、角度、環(huán)境、材質(zhì)和局部空間特征

        如以上章節(jié)所述,常規(guī)INR 使用離散空間點(diǎn)集作為輸入對光滑連續(xù)空間曲面進(jìn)行建模,可以為下游任務(wù)結(jié)合點(diǎn)集輸入的靈活性和隱式曲面輸出質(zhì)量優(yōu)異的特性。但是如果進(jìn)一步提升自然場景空間表述的完整性和連續(xù)性,離散空間點(diǎn)集(對空間點(diǎn)可信感知)輸入成為進(jìn)一步制約。

        光學(xué)被動(dòng)采樣的空間采集完備性(僅僅受限于采集傳感器精度)一般遠(yuǎn)遠(yuǎn)大于主動(dòng)檢測。但光學(xué)被動(dòng)感知的后續(xù)運(yùn)用,如傳統(tǒng)的多視角立體幾何稠密重建,一直受限于光學(xué)被動(dòng)采樣結(jié)果的多影響因素融合,如照明、相機(jī)參數(shù)、采集姿態(tài)和對象外觀等。近期由有限觀測自由生成虛擬視點(diǎn)內(nèi)容驅(qū)動(dòng)的INR 升級,神經(jīng)輻射場(NeRF:Neural Radiance Fields)[22]為消除以上局限性開辟了新的機(jī)遇。和常規(guī)INR 的零水平集表征不同,基于NeRF 的一個(gè)空間場景被表示為一個(gè)輸入為5D 向量的函數(shù),用一個(gè)多層感知器(MLP)神經(jīng)網(wǎng)絡(luò)隱式表達(dá),其輸入包括視圖采集射線的角度和場景中射線上的特定3D 位置,其輸出包括了3D 位置對應(yīng)的顏色和空間體積密度。其公式如式1 所示,詳細(xì)注解和計(jì)算過程可以參照文獻(xiàn)[22]。

        對于一個(gè)已知場景和觀測角度,F(xiàn)θ對應(yīng)的視圖可視內(nèi)容需要依賴數(shù)值積分方法來近似一個(gè)真實(shí)的體積渲染過程,如下式所示。

        基于以上表征模型和可視內(nèi)容生成模型(NeRF的核心構(gòu)成),3D 空間場景可以結(jié)合許多已知姿態(tài)的視圖圖像進(jìn)行訓(xùn)練,對應(yīng)場景體積表示(包含光照和對象外觀等隱變量)存儲(chǔ)為MLP的權(quán)值。

        NeRF 自2020年進(jìn)入研究者視野,成為近期的一個(gè)重要技術(shù)方向,也為基于深度學(xué)習(xí)有機(jī)融合已有計(jì)算機(jī)圖形學(xué)和計(jì)算機(jī)視覺的典型機(jī)理開辟了廣闊的機(jī)遇。

        3 神經(jīng)隱式表征?NeRF近期發(fā)展

        發(fā)展之初的NeRF伴隨著如下問題,諸如:無論是訓(xùn)練(小時(shí)級)和渲染(幾百毫秒)都很慢;只對靜態(tài)場景表征;一個(gè)訓(xùn)練所得場景表征無法拆解和知識(shí)轉(zhuǎn)移到類似場景/對象。這些問題的提出也體現(xiàn)了研究者和業(yè)界對NeRF 表征對后續(xù)應(yīng)用的期望:包括快速可部署性,和基于時(shí)序動(dòng)態(tài)可變形場景內(nèi)容建模以及后期結(jié)果基于環(huán)境和空間的可編輯性。針對這些訴求,近期眾多的 NeRF 研究成果[23?48]涌現(xiàn),主要?dú)w納為如下幾個(gè)方向的開拓和嘗試:

        (1)針對可變形對象的建模

        這個(gè)方向主要針對動(dòng)態(tài)對象建模。這里的動(dòng)態(tài)主要指時(shí)變觀測下場景中對象外觀存在非剛性形變,但同時(shí)這種形變存在很強(qiáng)隱變量約束。近期可變形對象研究方向的成果主要聚焦在人體的體積動(dòng)畫模型表征構(gòu)建和相關(guān)自由視角合成方面。典型成果包括了基于像素對齊的人物化身體積動(dòng)畫建模研究(PVA:Pixel?aligned Volumetric Avatars)[23],姿態(tài)可控的人物化身自由視角影像合成研究(Neural Actor)[24],和用于動(dòng)態(tài)人物化身的動(dòng)畫神經(jīng)輻射場研究(AN‐eRF:Animatable Neural Radiance Fields)[25]。相關(guān)的包括了聚焦人臉面部化身4D 動(dòng)畫重建應(yīng)用的動(dòng)態(tài)神經(jīng)輻射場研究(D?NReF?Face)[26],以及可以兼具場景和人物化身4D 動(dòng)畫處理能力的動(dòng)態(tài)神經(jīng)輻射場研究(D?NeRF)[27]和顯式構(gòu)建神經(jīng)輻射場拓?fù)淇勺兏呔S表示的研究(Hyper?NeRF)[28]。

        其中對可變形對象神經(jīng)輻射場建模的一個(gè)基本思路往往是將一個(gè)動(dòng)態(tài)神經(jīng)輻射場(對應(yīng)非剛性變形場景)分解為一組變形場和一個(gè)標(biāo)準(zhǔn)的靜態(tài)神經(jīng)輻射場。其中變形場負(fù)責(zé)將被觀測變形空間點(diǎn)映射到標(biāo)準(zhǔn)空間,從而使它們能夠從圖像視圖序列中學(xué)習(xí)動(dòng)態(tài)可變形場景。比較典型的如D?NeRF 和Hyper?NeRF,其主架構(gòu)中都啟用了不同的變形網(wǎng)絡(luò)架構(gòu)將動(dòng)態(tài)場景中變形后的空間點(diǎn)映射到后續(xù)靜態(tài)神經(jīng)輻射場所包含的一個(gè)標(biāo)準(zhǔn)空間。所不同的是映射計(jì)算過程不同。其中D?NeRF 直接將變形估計(jì)為3 維空間位移推斷,而Hyper?NeRF 則在變形網(wǎng)絡(luò)基礎(chǔ)上并行一個(gè)高維輔助函數(shù)的切片推斷網(wǎng)絡(luò),通過提升原有映射空間到一個(gè)高維變形場模擬(額外維度為環(huán)境維度)實(shí)現(xiàn)了對一系列拓?fù)渥兓男螤罱?,并?qiáng)化了拓?fù)淇勺冎邪纳舷挛囊恢滦?。在時(shí)間和空間維度下的場景插值測試中,Hyper?NeRF 方法都保持了很高的場景設(shè)定一致性和視覺合理性。

        同時(shí)對于聚焦人物化身體積動(dòng)畫的研究,如Neu‐ral Actor 和ANeRF,往往會(huì)強(qiáng)化添加與人的形體相關(guān)的特定約束。如ANeRF 采用了基于骨架驅(qū)動(dòng)的變形預(yù)測,利用可觀測三維人體骨架分析賦能隨后的權(quán)重混合計(jì)算,進(jìn)而推動(dòng)觀察變形空間到標(biāo)準(zhǔn)空間準(zhǔn)確映射。而Neural Actor 則是利用結(jié)合形狀參數(shù)和姿勢參數(shù)的人體編碼模型(SMPL:Skinned Multi?Person Lin‐ear Model)作為代理,并結(jié)合變形空間點(diǎn)周圍紋理特征分析推動(dòng)相關(guān)準(zhǔn)確映射展開。

        (2)針對連續(xù)時(shí)序內(nèi)容的建模

        和之前的側(cè)重點(diǎn)不同,這個(gè)方向主要針對基于時(shí)空聯(lián)系的場景表征建模。通過同時(shí)構(gòu)建時(shí)空兩個(gè)維度的建模表征,研究者后期就可以方便開展基于場景視頻記錄的時(shí)間插值、視點(diǎn)插值以及混合插值的應(yīng)用探索。相關(guān)領(lǐng)域典型成果包括針對動(dòng)態(tài)場景時(shí)空視圖自由合成的場景流場算法(NSFF:Neural Scene Flow Fields)[29],時(shí) 空 輻 照 度 場 算 法(STNIF:Space?time Neural Irradiance Fields)[30],動(dòng)態(tài)視點(diǎn)合成算法(DVS:Dynamic View Synthesis from Dynamic Monocular Video)[31]和側(cè)重于人體動(dòng)態(tài)時(shí)空新視角合成的隱式神經(jīng)人體表征研究(Neural Body)[32]。和Neural Body 方法側(cè)重于連續(xù)時(shí)刻稀疏多視圖同步輸入構(gòu)建時(shí)空模型不同,NSFF 等其他方法都側(cè)重于單一視圖的視頻輸入,既在任何時(shí)間點(diǎn)只包含對場景的一個(gè)觀察結(jié)果。基于顯性時(shí)空聯(lián)系的場景表征建模方法,如具有代表性的NSFF 和DVS 方法,都將動(dòng)態(tài)時(shí)變空間場景建模為場景元素的外觀、空間幾何屬性和其三維場景中運(yùn)動(dòng)的時(shí)變連續(xù)函數(shù)表示。特別是NSFF 通過明確地將時(shí)間納入場景函數(shù)表征變量域內(nèi),將場景元素三維運(yùn)動(dòng)建模為密集的場景流場,并同時(shí)將正向和反向場景流都顯式建模為密集的三維向量場來準(zhǔn)確建模場景中元素三維運(yùn)動(dòng)。同時(shí)針對視頻內(nèi)動(dòng)態(tài)空間場景元素涉及的采樣特點(diǎn):即運(yùn)動(dòng)元素通常會(huì)經(jīng)歷較大形變,無法可靠地推斷出在較大時(shí)間間隙上的空間對應(yīng)關(guān)系,而靜態(tài)元素則能保持準(zhǔn)確的對應(yīng)關(guān)系,可利用框架下所有的可共視觀察樣本強(qiáng)化靜態(tài)元素的表征構(gòu)建。NSFF 和DVS 都采用基于以上機(jī)理的區(qū)域分別處理和再合成的處理策略。當(dāng)前的研究取得了不錯(cuò)的進(jìn)展,但在應(yīng)對更加挑戰(zhàn)的野外場景,如包括復(fù)雜薄結(jié)構(gòu)和包含復(fù)雜運(yùn)動(dòng)程度等,還存在不足。

        (3)表征建模的環(huán)境光照分離和編輯

        這個(gè)方向主要針對場景元素建模的外觀分量中光照隱變量的分解和重計(jì)算,包括了如何消除建模過程中不規(guī)則光照的影響,以及準(zhǔn)確捕獲新穎視角下的光照效果和重新構(gòu)建場景中的光照效果。近期典型文獻(xiàn)包括了基于不受約束環(huán)境下采樣照片集合構(gòu)建神經(jīng)輻射場的算法(NeRF?W)[33], 對形狀和反射率隱變量進(jìn)行因子分解的算法(NeRFactor)[34]和NeRD[35],以及用于視圖和光照重新合成的神經(jīng)反射和可見場算法(NeRV)[36]。其中 NeRF?W 是 NeRF 的第一批后續(xù)工作之一,針對NeRF 依賴光照保持不變的輸入視圖集合的缺陷,其運(yùn)用生成式隱變量優(yōu)化框架(GLO:Generative Latent Optimization),優(yōu)化出每個(gè)輸入圖像的外觀嵌入向量(apperance embedding),并以此學(xué)習(xí)到整個(gè)輸入照片數(shù)據(jù)集中的共享外觀表示。這使得相片相關(guān)的外觀和光照變化解耦,并可以顯式地建模。這種光照分離讓NeRF?W 在光照環(huán)境變化的場景下有很大的靈活性和魯棒性,可以從較少環(huán)境約束的多視圖集合中穩(wěn)健地完成場景神經(jīng)表征學(xué)習(xí)。為了更好實(shí)現(xiàn)NeRF輻射場隱函數(shù)空間對應(yīng)隱空間變量(光照,法線,漫反射,空間表面表征)的分解,后續(xù)相關(guān)的研究都引入了類似式3 的輻射合成計(jì)算模型,如NeRFactor 和NeRV 算法。這也借鑒了計(jì)算機(jī)圖形學(xué)高逼真渲染的計(jì)算機(jī)理。

        其中s表示圍繞場景的球形環(huán)境圖,Lvis表示場景可視性因素,Dill表示直接光照因素,Iill表示間接光照因素,BRDF為雙向反射分布函數(shù),ω為入射角度。

        整個(gè)分解過程/網(wǎng)絡(luò)框架也遵循利用多個(gè)獨(dú)立MLP對相應(yīng)隱空間變量進(jìn)行建模原則,包括對應(yīng)表面法線、表面材質(zhì)參數(shù)、體積密度、場景對于外部環(huán)境在任何方向的可見性等。即整個(gè)框架為借助于將標(biāo)準(zhǔn)NeRF 表征(獨(dú)立MLP)輸出到后續(xù)的多個(gè)MLP 之中,并利用這些MLP完成對應(yīng)隱空間變量的因式分解。

        為了有效訓(xùn)練對應(yīng)空間表征的隱函數(shù)參數(shù)(MLP網(wǎng)絡(luò)的權(quán)重),整個(gè)訓(xùn)練過程,如NeRFactor,采用了分步開展的流程。在其余MLP 被固定的情況下,先訓(xùn)練好標(biāo)準(zhǔn)NeRF MLP,同時(shí)利用真實(shí)測量值訓(xùn)練隱變量空間進(jìn)而獲得BRDF 先驗(yàn)?zāi)P?。然后將NeRF 初始估計(jì)完成的體積密度提取成空間表面表征(結(jié)合法線和可視性)并聯(lián)合優(yōu)化,再最終實(shí)現(xiàn)結(jié)合反照率(Al‐bedo)和反射系數(shù)特征(BRDF latent code)以及光照環(huán)境(Light)的聯(lián)合模型訓(xùn)練和全局優(yōu)化。

        以上處理使得相應(yīng)研究算法,如NeRFactor,能夠基于一系列不同位置的圖片估算出物體形狀和光場信息,并能在任意光照條件下,都可以從新的視點(diǎn)完成體場景空間的準(zhǔn)確呈現(xiàn)。

        (4)基于空間的表征建??删庉嬓?/p>

        這個(gè)方向主要針對多物體組成的大型場景的結(jié)構(gòu)化表征,包括了如何將多物體組合成一個(gè)完整可體積渲染場景,以及場景內(nèi)容再編輯方面的研究。其也對應(yīng)可控圖像合成任務(wù)。換言之,表征建??删庉嬓灾塾谏尚碌膱D像和控制將要出現(xiàn)的內(nèi)容、對象及其位置和方向、背景等。近期典型文獻(xiàn)包括了針對可編輯場景表示的可組合生成特征算法(GIRAFFE:Compositional Generative Neural Feature Fields)[37],可組合場景對象算法(ObjectNeRF)[38],以及涉及動(dòng)態(tài)場景構(gòu)建的場景圖算法(Neural Scene Graphs)[39], 和可編輯條件輻射場算法(EditNeRF)[40]。其中GIRAFFE為國際計(jì)算機(jī)視覺與模式識(shí)別會(huì)議(CVPR)2021的最佳論文。

        空間表征建模的結(jié)構(gòu)化對應(yīng)著3D 體積表征和3D 對象以及3D 特征的關(guān)聯(lián)構(gòu)建過程(訓(xùn)練),同時(shí)可控圖像合成也覆蓋了結(jié)合特征空間的3D 體渲染內(nèi)容生成過程。早期工作生成輻射場(GRAF:Generative Radiance Fields)[41]開創(chuàng)性的引入了生成框架(GAN),和NeRF 訓(xùn)練以及體渲染過程融合,實(shí)現(xiàn)了局限于單物體場景的高分辨率可控圖像合成。GIRAFFE 和EditNeRF方法多受其啟發(fā)。

        同時(shí),為了進(jìn)一步深入多物體大型場景,即需要從背景中分離出一個(gè)或多個(gè)物體以及能夠表達(dá)單個(gè)物體的形狀和外觀,GIRAFFE 突破性地將場景表示為可組合的神經(jīng)特征場。其將不同物體從場景中分解出來,并引入了對應(yīng)仿射變換來表示每個(gè)物體,從而可以對場景中單個(gè)物體的姿態(tài)、形狀和外觀進(jìn)行控制。在后續(xù)處理中,GIRAFFE 通過使用以對象為中心的NeRF 模型輸出特征向量而不是顏色來支持組合,并通過平均來開展組合計(jì)算,并最終通過神經(jīng)渲染將2D特征向量圖轉(zhuǎn)化成高分辨率彩色可視圖像。

        (5)更快的可視視圖內(nèi)容生成推理

        伴隨著以上NeRF內(nèi)容適應(yīng)性和應(yīng)用擴(kuò)展性的研究,眾多研究者也就快速生成顯示內(nèi)容(神經(jīng)輻射場渲染)展開了大量探索工作。其中極具代表性的包括:起始于2020年的稀疏體素場算法SVF(Sparse Voxel Fields)[42],和 2021年涌現(xiàn)出的快速高保真輻射場渲染相關(guān)研究:FastNeRF[43],SNeRG(Sparse Neural Radiance Grid)[44],和 PlenOctrees(plenoptic oc‐trees)[45]。

        以上研究成果都圍繞上文公式2所描述的依賴數(shù)值積分方法近似一個(gè)體積渲染過程。參照公式2和文獻(xiàn)[22]相關(guān)描述,其中沿?cái)z像機(jī)射線與場景空間幾何表征的精確交叉查詢,以及在場景描述精度上(對應(yīng)網(wǎng)絡(luò)容量)沿射線進(jìn)行的體積積分都引發(fā)了較大計(jì)算負(fù)荷。針對相關(guān)空間內(nèi)數(shù)據(jù)的稀疏性,展開高效檢索,如采用空間八叉樹(Octrees)的數(shù)據(jù)組織結(jié)構(gòu),成為很多方法共同的考量,如NSVF 和PlenOctrees方法。

        同時(shí)就其初始的端到端計(jì)算過程,F(xiàn)astNeRF將原有過程拆解成2個(gè)步驟(位置相關(guān)和角度相關(guān))。其中位置相關(guān)計(jì)算結(jié)果為包含深度信息的輻射度貼圖,可以緩存下來供后期使用,而不用反復(fù)計(jì)算。SNeRG則更進(jìn)一步,首先將輻射度計(jì)算按影響因素分解(如空間表面,漫反射和反射)。這些因素針對NeRF的輸入(位置和射線角度)具有不同的可復(fù)用計(jì)算程度,如漫反射對于特定空間位置和領(lǐng)域就比較一致,而反射和空間表面特性有關(guān),可以通過結(jié)構(gòu)特征提取構(gòu)建組合模板。進(jìn)而,SNeRG將整個(gè)計(jì)算過程有機(jī)的區(qū)分和預(yù)計(jì)算,將一個(gè)端到端的計(jì)算過程轉(zhuǎn)化為一個(gè)高效的查詢和簡單組合計(jì)算過程,如同計(jì)算機(jī)圖形學(xué)常用的烘培技術(shù)。

        除了將整個(gè)空間表征作為一個(gè)整體,參照式2 進(jìn)行流程優(yōu)化,2021年也有很多研究者試圖從輻射場體積表征數(shù)據(jù)分解的角度,探索加速可能性。這類研究以成果(DeRF)[46]和(KiloNeRF)[47]為代表。其中特別是KiloNeRF 探討了利用眾多微小MLP 替換原有MLP(NeRF空間表征隱函數(shù)權(quán)重)的神經(jīng)輻射場加速創(chuàng)新的可行性,并在沒有產(chǎn)生較高存儲(chǔ)成本前提下,與原始的NeRF模型相比取得了三個(gè)數(shù)量級的渲染速度提升。

        4 顯性空間語義對NeRF的重要性

        上文將近期NeRF 諸多發(fā)展方向進(jìn)行了詳細(xì)闡述。同時(shí)也使得我們對基于NeRF體系的神經(jīng)隱式空間表征模型特點(diǎn)有了一定認(rèn)識(shí)。本節(jié)將結(jié)合近期如何更快完成表征參數(shù)空間訓(xùn)練的研究,即相應(yīng)場景構(gòu)建分析,以及包含顯性使用空間和語義的NeRF 相關(guān)交叉研究來揭示顯性空間和語義信息及其預(yù)測對NeRF的重要性。

        (1)高效表征的參數(shù)空間訓(xùn)練研究

        在構(gòu)建NeRF體積空間表征時(shí),如前文所述,我們需要大量已知采集方向和位置的視圖圖像反復(fù)使用輻射場體積渲染,來訓(xùn)練對應(yīng)MLP網(wǎng)絡(luò)權(quán)重。

        如何高效(利用少量稀疏輸入以及高速訓(xùn)練)實(shí)現(xiàn)權(quán)重訓(xùn)練和最終結(jié)果的核心影響因素是什么是本節(jié)希望解析的要點(diǎn)。以下我們就兩個(gè)方向的近期研究展開回溯:

        首先是如何基于稀疏視圖(單個(gè)或幾個(gè)視圖圖像)來實(shí)現(xiàn)NeRF 的MLP 網(wǎng)絡(luò)訓(xùn)練。這方面可以借鑒的典型論文包括:隱性構(gòu)建統(tǒng)一空間幾何先驗(yàn)的神經(jīng)輻射場訓(xùn)練研究(pixelNeRF)[48], 顯性構(gòu)建統(tǒng)一空間幾何先驗(yàn)的神經(jīng)輻射場訓(xùn)練研究(SRF:Stereo Radi‐ance Fields)[49], 和神經(jīng)輻射場正則化的研究(RegN‐eRF)[50],以及 360 度無邊界場景無歧義神經(jīng)輻射場訓(xùn)練的研究(Mip?NeRF 360)[51]。

        初始構(gòu)建神經(jīng)輻射場的方法是獨(dú)立地優(yōu)化對每個(gè)視圖場景的表示,其中視圖場景的生成依賴于輸入射線的位置和方向。從前文對加速體積渲染的相關(guān)成果闡述中(如SNeRG 方法),我們可以發(fā)現(xiàn)其場景內(nèi)部的空間結(jié)構(gòu)也是一個(gè)重要的隱變量,并具備一定的共視一致性和外觀決定性。

        pixelNeRF 方法就引入了一種完全卷積架構(gòu),對視圖圖像輸入序列進(jìn)行跨多個(gè)場景的統(tǒng)一學(xué)習(xí)訓(xùn)練,以學(xué)習(xí)場景中的空間先驗(yàn)。而SRF 方法更是直接借鑒計(jì)算機(jī)視覺的立體幾何重建機(jī)理,即組合圖像對可以構(gòu)建基于幾何一致性的顯性外觀匹配關(guān)系,同時(shí)表面空間占用信息(空間結(jié)構(gòu))會(huì)導(dǎo)致對應(yīng)外觀有明顯可區(qū)分性。SRF 方法對于輸入的參考視圖集合基于場景中空間點(diǎn)對應(yīng)視圖投影位置提取CNN 特征并結(jié)合學(xué)習(xí)到的相似度函數(shù)構(gòu)建對應(yīng)匹配。然后用深度神經(jīng)網(wǎng)絡(luò)計(jì)算聚合的立體特征和對應(yīng)編碼。這個(gè)立體特征空間也對應(yīng)了其神經(jīng)隱式空間表征,其編碼對應(yīng)了顯性外觀顏色和空間密度,通過輻射場解碼網(wǎng)絡(luò)完成對應(yīng)推理計(jì)算。

        雖然不管是運(yùn)用隱性或顯性的場景空間幾何先驗(yàn)都可以有效降低原始訓(xùn)練對輸入樣本數(shù)量上的需求,但過于稀疏的輸入視圖數(shù)據(jù)仍然會(huì)導(dǎo)致場景空間輻射場估計(jì)的誤差,并最終導(dǎo)致新穎視點(diǎn)視圖合成輸出的偽影。RegNeRF方法針對這種情況,設(shè)計(jì)了一套正則化機(jī)制來規(guī)范化未觀察到的視點(diǎn)顏色。其核心思想就包括了外觀正則化和空間幾何正則化兩個(gè)部分。其空間幾何正則化過程通過設(shè)計(jì)重建損失優(yōu)化項(xiàng),即對渲染圖形片段的深度強(qiáng)制執(zhí)行平滑性損失,并通過在訓(xùn)練過程中對射線采樣空間進(jìn)行退火,進(jìn)而提升了過于稀疏的輸入導(dǎo)致的質(zhì)量下降問題。除了以上視點(diǎn)聚焦的中心場景及其對象,在360 全景自由視點(diǎn)構(gòu)建時(shí),其360 度背景也會(huì)呈現(xiàn)稀疏輸入且場景無邊界的特點(diǎn)。近期論文Mip?NeRF 360 亦和RegN‐eRF 方法相似的構(gòu)建了空間幾何失真正則化器(基于不同場景參數(shù)化形式)。通過此正則化器,場景空間幾何屬性訓(xùn)練結(jié)果可以更有效地糾正懸浮物和背景坍塌等缺陷。

        其次,我們在保證最終新穎視點(diǎn)視圖質(zhì)量的前提下,聚焦場景表征的快速構(gòu)建方法,并嘗試對相關(guān)核心要素進(jìn)行剖析。

        這個(gè)領(lǐng)域相關(guān)核心力作包括兩方面的探索,第一類當(dāng)屬如何對MLP 構(gòu)建的權(quán)重空間進(jìn)行分解和并行構(gòu)建方面的研究。這個(gè)方面前文已有初步涉及,如KiloNeRF 方法,但最具代表性的文獻(xiàn)為近期英偉達(dá)研究團(tuán)隊(duì)的Instant NeRF/Instant Neural Graphics Primitives[52]和谷歌研究團(tuán)隊(duì)的 Block NeRF[53]。

        其中Instant NeRF相關(guān)研究區(qū)別于之前的權(quán)重空間分離(KiloNeRF)和檢索方法(NSVF)最突出的是體積渲染和檢索所依賴體積空間索引通過特征可學(xué)習(xí)的參數(shù)編碼,即不僅公式1 的映射函數(shù)用學(xué)習(xí)驅(qū)動(dòng)的隱式特征表征(MLP),而且公式2 的組織方式也用學(xué)習(xí)驅(qū)動(dòng)的特征向量協(xié)助構(gòu)建。其網(wǎng)絡(luò)框架轉(zhuǎn)化為以MLP為核心,由包含特征向量組成的多分辨率哈希表增強(qiáng)的參數(shù)編碼框架。由于引入此種位置參數(shù)編碼機(jī)制和巧妙設(shè)計(jì)了低計(jì)算復(fù)雜度的哈希算法,Instant NeRF 的訓(xùn)練學(xué)習(xí)完成時(shí)間縮小到了秒級。這種通過輸入?yún)?shù)特征空間引發(fā)計(jì)算簡化提升效率,也在一定程度上體現(xiàn)了背后空間和語義信息的重要性。

        第二類是關(guān)于結(jié)合輻射顯示計(jì)算機(jī)理更新隱式參數(shù)表征的物理意義方面的研究,如基于基函數(shù)隱式組合擴(kuò)展的多平面圖像(MPI)場景表征的研究(NeX)[54],以及依據(jù)輻射場和光場的關(guān)聯(lián)性,探討光場神經(jīng)隱式表征(LFN:Light Field Networks)的研究,如近期麻省理工團(tuán)隊(duì)的研究成果[55]和卡內(nèi)基梅隆的團(tuán)隊(duì)相關(guān)研究成果[56]。

        其中NeX 采用了混合隱顯式建模策略,即和NeRF 原始采用隱式空間幾何表征對比,其利用了MPI 這種顯示的空間幾何表征作為基礎(chǔ),但吸取了NeRF 對于視角依賴隱式表征的優(yōu)勢。這樣的有機(jī)混合不但加速了相應(yīng)的生成速度(有點(diǎn)和FastNeRF 相似),而且使得相比于原始NeRF對于更具挑戰(zhàn)性的場景視覺效果(比如CD上的彩虹反射)取得了更一致和逼真的效果。

        而LFN 相關(guān)研究則揭示了光場和輻射場對于視圖合成和場景建模的優(yōu)缺點(diǎn)。其中光場可以表示沿光線的輻射合成,其渲染過程比較輻射場計(jì)算(多次計(jì)算完成一條射線的近似體積積分)簡單。但其對空間幾何場景的映射方式(沿可觀測射線),由于并不直接對應(yīng)空間占用的顯性信息(三維世界坐標(biāo)),導(dǎo)致其不是直接保證多視圖的一致性。而相反,基于3 維世界坐標(biāo)系的NeRF通過射線和空間的匹配計(jì)算可以確保多視圖的一致性。也基于此NeRF可以直接通過最小化已知相機(jī)姿態(tài)下的真實(shí)視圖與對應(yīng)基于表征重建之間的差異來充分優(yōu)化。為此,麻省理工的研究者和卡內(nèi)基梅隆的研究者都通過引入元計(jì)算(Meta Learning)來學(xué)習(xí)LFN的空間先驗(yàn)信息,既三維場景的空間分布。并基于此,相關(guān)LFN 研究在生成質(zhì)量和NeRF 齊平的情況下,實(shí)現(xiàn)了表征緊湊和生成迅速的目標(biāo)。

        (2)顯性空間和語義結(jié)合的NeRF交叉研究

        本節(jié),我們將就包含顯性使用空間和語義的NeRF 相關(guān)交叉研究展開探討,相關(guān)研究可以歸納為三個(gè)主要類型:

        第一類相關(guān)研究借助于顯性使用多視圖的一致性信息,提升NeRF 的訓(xùn)練和顯示計(jì)算的魯棒性和準(zhǔn)確性。典型研究包括借助多視圖立體幾何計(jì)算優(yōu)化神經(jīng)輻射場的成果,如 MVSNeRF[57],NerfingMVS[58],和BARF[59]。此類研究或者提高了稀疏輸入的魯棒性,如MVSNeRF,或消除了NeRF 構(gòu)建過程可能存在的幾何形狀與生成內(nèi)容的不匹配模糊,如NerfingM‐VS,或提升了NeRF 訓(xùn)練過程對相機(jī)姿勢缺失的魯棒性。

        其中MVSNeRF 運(yùn)用3D CNN,基于多視圖多深度平面掃描計(jì)算,構(gòu)建了由體素神經(jīng)特征組成的神經(jīng)編碼空間,進(jìn)而獲得了可微分學(xué)習(xí)的場景空間幾何顯式表達(dá),并將其與體積渲染相結(jié)合。而NerfingMVS則利用運(yùn)動(dòng)結(jié)構(gòu)恢復(fù)(SFM:Structure from motion)對每個(gè)視圖輸入的單幀稠密深度估計(jì)進(jìn)行微調(diào),進(jìn)而通過優(yōu)化的視圖深度先驗(yàn)來監(jiān)測和優(yōu)化NeRF體積渲染的采樣過程。BARF則是聚焦位置編碼(NeRF構(gòu)建過程的核心)局限性:即沒有位置編碼在重建中缺乏保真度,而完全位置編碼容易導(dǎo)致空間注冊次優(yōu)。通過建立與經(jīng)典圖像對齊理論的聯(lián)系,BARF 構(gòu)建了從粗到細(xì)的NeRF 配準(zhǔn)流程,實(shí)現(xiàn)了三維神經(jīng)表示和相機(jī)幀注冊問題的聯(lián)合學(xué)習(xí)。

        除了以上經(jīng)典成果,近期研究 Point?NeRF[60]則更是將空間先驗(yàn)索引構(gòu)建和引導(dǎo)NeRF訓(xùn)練優(yōu)化推到了一個(gè)新的高度。其利用基于成本空間的3DCNN 基于多視圖空間一致性生成視圖稠密深度估計(jì),并利用2DCNN 生成平面片段特征。其中特征矢量和顯性空間占用的點(diǎn)集合并構(gòu)成初始神經(jīng)點(diǎn)云(每個(gè)點(diǎn)都有一個(gè)空間位置、一個(gè)置信度和反投影的圖像特征)。然后其利用三維點(diǎn)云顯性空間信息索引構(gòu)建基于空間點(diǎn)臨域圖像特征矢量的隱性輻射場(由MLP 構(gòu)建隱性表征參數(shù))。由于神經(jīng)點(diǎn)云可以借助顯性空間信息,使得其構(gòu)建過程可以利用通常點(diǎn)云處理工具實(shí)現(xiàn)點(diǎn)云的剪枝和補(bǔ)全以提高質(zhì)量。同時(shí)基于此神經(jīng)點(diǎn)云,以及由此構(gòu)建的局部點(diǎn)特征輸入,MLP 更容易優(yōu)化,這一點(diǎn)可以借鑒上文提到的方法KiloNeRF。以上顯性的空間信息構(gòu)建和利用使得Point?NeRF 相較于初始的NeRF在構(gòu)建速度和生成視覺質(zhì)量方面都有較大的提升。

        第二類相關(guān)研究直接利用顯性深度信息提升NeRF 的相關(guān)訓(xùn)練和可視化內(nèi)容生成。這類研究包括了近期利用單視圖稠密深度信息預(yù)測網(wǎng)絡(luò)輔助實(shí)時(shí)繪制視點(diǎn)視圖的研究(DONeRF)[61],和稀疏輸入訓(xùn)練的研究(DS?NeRF)[62],以及結(jié)合連續(xù)主動(dòng)深度檢測信息實(shí)現(xiàn)動(dòng)態(tài)場景視圖生成的研究(T?RF)[63]。

        其中DONeRF 的原理基于當(dāng)樣本采樣積聚在場景空間表面周圍時(shí),視圖渲染中每個(gè)視圖射線計(jì)算所需的樣本數(shù)量可以顯著減少。DS?NeRF 則是揭示了稠密的深度信息(空間幾何信息)提供了整個(gè)視圖重建基于像素級的空間和顏色反向傳播優(yōu)化的途徑,這一點(diǎn)在Point?NeRF方法中也有明顯的體現(xiàn)。

        而T?RF方法則創(chuàng)新性的探討了結(jié)合主動(dòng)深度檢測結(jié)果指導(dǎo)動(dòng)態(tài)NeRF構(gòu)建的意義和局限性。其基于飛行時(shí)間(ToF)相機(jī)測量數(shù)據(jù)的NeRF建模,和僅使用彩色攝像頭相比,減少了場景建模所需的圖像數(shù)量。同時(shí)也進(jìn)一步驗(yàn)證了直接編碼有關(guān)場景空間幾何信息令基于單視圖的動(dòng)態(tài)NeRF建模更容易處理。

        第三類相關(guān)研究主要聚焦語義信息和NeRF隱性表征的互動(dòng),包括基于語義一致性稀疏輸入訓(xùn)練的研究(DietNeRF)[64], 和通過語義信息嵌入將 NeRF 隱空間維度提升的研究(Semantic?NeRF: Semantic Neural Radiance Fields)[65], 以及直接由語義圖生成 NeRF 表征的嘗試(Sem2NeRF)[66]。

        其中DietNeRF 和之前基于多視圖一致性研究相比,提出了高層語義一致性的思路,提升了多視圖一致性的應(yīng)用層面。而Semantic?NeRF 相比于前文高維NeRF 表示研究的Hyper—NeRF 方法,強(qiáng)化了語義背后對于外觀和幾何形狀的表征,這也被Sem2NeRF 研究進(jìn)一步揭示。同時(shí)Semantic?NeRF 利用自然場景空間臨域固有(由幾何空間信息決定)的一致性和平滑性,強(qiáng)化了稀疏語義標(biāo)簽的空間有效傳播。這為諸多視覺語義空間感知的相關(guān)應(yīng)用,如新穎的語義視圖合成、標(biāo)簽去噪、超分辨率、標(biāo)簽插值和多視圖語義標(biāo)簽融合,提供了一種高效和魯棒的方法。

        5 單視圖場景感知融合NeRF的機(jī)遇

        在上一章節(jié)中,我們可以清晰捕捉到顯性場景空間和語義信息是有效提升神經(jīng)隱式表征的核心環(huán)節(jié)。同時(shí)在當(dāng)前3D 空間場景感知研究領(lǐng)域,也如文獻(xiàn)[67]所述,單視圖空間感知(稠密深度估計(jì))然后融合通常比直接多視圖配置具有更高的魯棒性。

        由于基于神經(jīng)網(wǎng)絡(luò)的單視圖3D 場景感知,其早于NeRF的出現(xiàn)已經(jīng)經(jīng)歷了一定的發(fā)展階段。本章我們將從其近期發(fā)展和面臨的挑戰(zhàn)入手,和NeRF 相關(guān)研究展現(xiàn)的裨益,探討融合NeRF的單視圖3D場景感知面臨的機(jī)遇。

        (1)當(dāng)前單視圖3D場景空間和語義感知的挑戰(zhàn)

        單視圖3D 場景空間和語義是基于神經(jīng)網(wǎng)絡(luò)計(jì)算的三維重建和場景理解處理框架的一種重要領(lǐng)域,其具備潛質(zhì)可以避免現(xiàn)有基于有源深度傳感器密集測量的諸多缺點(diǎn),包括操作范圍有限、空間分辨率低、傳感器多源和多徑干擾和功耗過高等。

        近期很多新穎的研究成果展示了基于神經(jīng)網(wǎng)絡(luò)的單視圖圖像稠密深度感知的潛力。其主要圍繞2個(gè)主題展開:

        a)提高單視圖稠密深度預(yù)測的性能

        近期典型研究成果對性能方面的追求包括了對單視圖場景結(jié)合高分辨率輸入提升預(yù)測精度的探索(MergNet)[68], 通過輔助可信度信息提升準(zhǔn)確性的探索(Neural RGB?D)[69], 和結(jié)合圖像中的結(jié)構(gòu)信息和紋理信息解耦,降低基于深度學(xué)習(xí)的被動(dòng)感知紋理依賴性的探索(S2R?DepthNet)[70],以及輕量化應(yīng)用網(wǎng)絡(luò)架構(gòu)的探索(FuSaNet)[71]。

        其中,對于單視圖每像素深度估計(jì)存在的挑戰(zhàn),即由于給定網(wǎng)絡(luò)模型容量和接收域大小限制引發(fā)的準(zhǔn)確性缺失。Neural RGB?D將基于單張圖像的一次深度值估計(jì)轉(zhuǎn)變?yōu)閱未紊疃戎档母怕史植己篁?yàn),并利用多次估計(jì)基于時(shí)間聚合優(yōu)化(通過貝葉斯濾波框架)來提高準(zhǔn)確性。而MergNet 對這個(gè)問題的解決則通過利用圖像的近似邊緣圖(對RGB 梯度進(jìn)行閾值處理獲得)構(gòu)建結(jié)構(gòu)一致性傳遞的重要線索,將單次網(wǎng)絡(luò)推理對應(yīng)的不同圖像分塊的不同分辨率估計(jì)進(jìn)行合并,來構(gòu)建一個(gè)具有一致整體結(jié)構(gòu)高頻細(xì)節(jié)的高分辨率估計(jì)。FuSaNet則是通過對應(yīng)視圖顯著點(diǎn)的提取和對應(yīng)空間信息來規(guī)范化深度預(yù)測結(jié)果來提升對應(yīng)網(wǎng)絡(luò)模型有效容量。

        和之前挖掘網(wǎng)絡(luò)容量,利用全局結(jié)構(gòu)一致性和時(shí)間一致性規(guī)范預(yù)測輸出結(jié)果提升質(zhì)量不同,S2R?Dep‐thNet 則針對深度預(yù)測訓(xùn)練中深度網(wǎng)絡(luò)比較聚焦紋理特征的提取,對結(jié)構(gòu)特征關(guān)注不夠的缺點(diǎn),提取深度相關(guān)結(jié)構(gòu)信息強(qiáng)化網(wǎng)絡(luò)對深度預(yù)測的準(zhǔn)確性和網(wǎng)絡(luò)泛化能力。這一研究也揭示了當(dāng)前很多方法過分關(guān)注紋理信息,也會(huì)導(dǎo)致深度信息的數(shù)據(jù)領(lǐng)域存在場景依賴,加重了網(wǎng)絡(luò)容量負(fù)荷。同時(shí)現(xiàn)實(shí)場景下紋理信息容易受光照、噪音和運(yùn)動(dòng)模糊等因素的干擾,結(jié)構(gòu)信息往往更加重要。同時(shí),這也體現(xiàn)出當(dāng)前階段的稠密深度預(yù)測依然存在很大的提升空間。

        b)提升單視圖深度預(yù)測的自監(jiān)督學(xué)習(xí)能力

        自監(jiān)督單視圖深度預(yù)測是實(shí)際部署相關(guān)感知能力非常重要的環(huán)節(jié)。而且單視圖深度估計(jì)的自監(jiān)督方法本質(zhì)上是利用三維場景中對象在投影成像后結(jié)合空間結(jié)構(gòu)信息和相機(jī)位姿存在的光度一致性,基于內(nèi)在幾何關(guān)系(主要是多視圖一致性)監(jiān)督網(wǎng)絡(luò)對深度信息/相機(jī)位姿估計(jì)的學(xué)習(xí)。其中配合自監(jiān)督訓(xùn)練過程,構(gòu)建最小重構(gòu)誤差的規(guī)范項(xiàng),和提升重構(gòu)光度計(jì)算的準(zhǔn)確性,以及有效搜尋對應(yīng)光度匹配就顯得尤其重要。

        在這方面探索的典型成果包括了近期的成果基線MonoDepth2[72]和對目標(biāo)細(xì)節(jié)更好特征封裝的PackNet[73],以及同時(shí)應(yīng)對剛性和非剛性部件的 Non‐Rigid?DepthNet[74]。其中 MonoDepth2 方法引入了在輸入/目標(biāo)圖像之間對邊緣敏感的平滑度損失規(guī)范項(xiàng),鼓勵(lì)模型學(xué)習(xí)到尖銳邊緣并有效抑制噪聲。而PackNet 方法則添加了對相機(jī)位姿平移分量的約束,避免了之前方法存在的尺度不清晰的問題。同時(shí)PackNet 使用3D 卷積替換了傳統(tǒng)使用的pooling 和線性upsample操作,從而使得圖片中的目標(biāo)細(xì)節(jié)能夠更好的保留下來,提升了重構(gòu)光度計(jì)算的準(zhǔn)確性。Non‐Rigid?DepthNet 方法則通過針對像素構(gòu)建運(yùn)動(dòng)內(nèi)嵌隱變量,并利用結(jié)合光流計(jì)算的結(jié)構(gòu)邊緣提取來提取有效匹配。同時(shí)其通過在CNN 訓(xùn)練中盡可能利用剛性變換先驗(yàn)作為監(jiān)督,對非剛性單目深度實(shí)現(xiàn)了有效無監(jiān)督學(xué)習(xí)。

        從以上研究結(jié)果可以看到像素級甚至亞像素級的結(jié)構(gòu)細(xì)節(jié)提取,以及與噪音區(qū)別的準(zhǔn)確光度計(jì)算都將為后期相關(guān)研究提供重要的提升空間。

        同時(shí)針對單視圖3D 場景空間和語義聯(lián)合感知方面,聚焦核心挑戰(zhàn),即如何提升顯性融合和輔助同步語義理解,很多研究也做了積極嘗試。其中就包括近期經(jīng)典研究,單目三維空間語義場景完全感知(Mono‐Scene)[75]。針對挑戰(zhàn),MonoScene 方法提出從單個(gè)RGB 圖像中通過對特征進(jìn)行視線投影計(jì)算(FLoSP:Features Line of Sight Projection),即由光學(xué)投影啟發(fā)的二維?三維特征轉(zhuǎn)換,構(gòu)建了一種圖像三維特征體素空間計(jì)算范式。其中體素特征通過反投影圖像坐標(biāo)臨近的多尺度特征構(gòu)建。同時(shí)這種計(jì)算范式為后繼基于3D 卷積的空間上下文關(guān)系先驗(yàn)挖掘提供了一種獨(dú)特的損失函數(shù)約束基礎(chǔ),即視錐空間和投影平面語義一致性損失。

        通過文獻(xiàn)自身的結(jié)果分析,可以看到基于圖像的稠密語義提取往往是不穩(wěn)定的,容易受到視點(diǎn)焦平面,光照環(huán)境和環(huán)境噪音的諸多影響。前文中的研究Semantic?NeRF 中提示的NeRF 語義固有多視圖一致性和平滑性使非常嘈雜環(huán)境下稀疏可信采集信息能有效傳播也給我們提供了不小的想象空間。

        (2)融合NeRF的單幀圖像空間語義探索的機(jī)遇

        近期融合NeRF的單幀圖像空間語義探索已經(jīng)引發(fā)研究社區(qū)的興趣,初步涌現(xiàn)的研究成果包括了最近的為新穎視圖合成應(yīng)用結(jié)合NeRF的連續(xù)深度MPI研究(MINE:Continuous Depth MPI with NeRF)[76]。

        其中MINE的研究,在一個(gè)單一圖像輸入基礎(chǔ)上,通過引入神經(jīng)輻射場思想構(gòu)建了一個(gè)可表達(dá)連續(xù)深度的多平面圖像(MPI:Multiple Image)擴(kuò)展三維空間表達(dá)方式。在弱監(jiān)督的系統(tǒng)設(shè)置下,MINE 在單目深度估計(jì)任務(wù)上取得了大幅超越其他弱監(jiān)督設(shè)置方法的性能,甚至非常接近全監(jiān)督設(shè)置最先進(jìn)的方法性能。

        同時(shí)基于單張圖片的NeRF 構(gòu)建進(jìn)展,如用于圖像超分應(yīng)用的,基于局部隱式圖像函數(shù)(LIIF:Local Implicit Image Function)學(xué)習(xí)的連續(xù)圖像表示研究[77],為后續(xù)基于圖像的自適應(yīng)多尺度空間理解,提供了高度結(jié)構(gòu)一致性的新解決線索。其中LIIF 的相關(guān)研究受隱式神經(jīng)表征的啟發(fā),通過自監(jiān)督方式在圖像超分任務(wù)上訓(xùn)練了一個(gè)提取特征編碼器網(wǎng)絡(luò)和圖像表征,局部隱式圖像函數(shù)(LIIF)。所學(xué)習(xí)的連續(xù)表達(dá)因坐標(biāo)連續(xù)性,能夠表示成任意分辨率形式,甚至對自然圖像和復(fù)雜圖像可進(jìn)行30倍放大插值。

        近期基于NeRF,對于高噪音低照度輸入圖像的單視圖場景構(gòu)建和后繼動(dòng)態(tài)光度的高質(zhì)量高精度合成的研究(RAWNeRF:NeRF in the Dark)[78],也為相關(guān)基于圖像的空間及語義理解的實(shí)際落地應(yīng)用提供了一定新穎的思路。其中RAWNeRF 初始需要應(yīng)對輸入為基于受損相機(jī)信號(hào)采集管道的低動(dòng)態(tài)范圍(LDR)原始傳感器數(shù)據(jù),其伴隨著噪音扭曲和細(xì)節(jié)平滑等質(zhì)量問題,且信號(hào)采集在高噪音低照度環(huán)境下。為了應(yīng)對這一挑戰(zhàn),RAWNeRF 在訓(xùn)練流程中結(jié)合這種原始傳感器數(shù)據(jù)(保留了場景的全動(dòng)態(tài)范圍信息),并采用了由高動(dòng)態(tài)范圍(HDR)新穎視圖合成驅(qū)動(dòng)的網(wǎng)絡(luò)學(xué)習(xí)。研究結(jié)果發(fā)現(xiàn)RAWNeRF 網(wǎng)絡(luò)體現(xiàn)的基于積累噪音輸入優(yōu)化的場景信號(hào)保留能力要超過原始學(xué)習(xí)流程上采用專用去噪器所產(chǎn)生的效果,可以應(yīng)對接近黑暗的學(xué)習(xí)場景。同時(shí)建模完成的NeRF甚至具備了操縱對焦、曝光和色調(diào)映射能力。

        6 總結(jié)

        現(xiàn)實(shí)場景3D 建模和內(nèi)容重現(xiàn)的核心—場景表征技術(shù)一直是研究者重點(diǎn)關(guān)注的領(lǐng)域。伴隨著對3D 虛擬場景、真實(shí)場景以及虛實(shí)融合場景的構(gòu)建/呈現(xiàn)/編輯的不斷嘗試,3D 場景表征技術(shù)涵蓋了從計(jì)算機(jī)圖形學(xué)日常使用的網(wǎng)格技術(shù),以及計(jì)算機(jī)視覺3D 重建傳統(tǒng)使用的點(diǎn)云技術(shù),和沉浸式3D 多媒體常規(guī)使用的3D體素網(wǎng)格技術(shù)等。

        為了實(shí)現(xiàn)對已觀測采樣的自然場景3D 內(nèi)容更自由和智能地呈現(xiàn)與再編輯,研究者對于有限采樣下獲得更高效的空間表征(隱式表面技術(shù)等)以及基于已建表征如何快速生成高逼真度的可視內(nèi)容展開了積極探索,特別是在當(dāng)前快速發(fā)展的深度神經(jīng)網(wǎng)絡(luò)技術(shù)加持下。在這個(gè)背景下,能基于低存儲(chǔ)空間實(shí)現(xiàn)空間連續(xù)性表征和基于體積渲染實(shí)現(xiàn)高質(zhì)量內(nèi)容生成的神經(jīng)輻射場(NeRF)技術(shù)及其延申研究獲得了眾多研究者的關(guān)注。

        本文針對NeRF 相關(guān)3D 場景表征近期研究進(jìn)行了回顧,包括:a)NeRF 近期針對空間和光照的編輯方法;b)基于時(shí)序輸入的表征構(gòu)建方法;c)基于動(dòng)態(tài)內(nèi)容的表征構(gòu)建方法;c)基于表征的可視內(nèi)容快速生成方法。這些不斷涌現(xiàn)的優(yōu)秀成果,也一定會(huì)激發(fā)研究者對NeRF構(gòu)建和生成核心影響要素的渴求。為了揭示這一奧秘,本文結(jié)合對近期如何更快完成表征參數(shù)空間訓(xùn)練的研究,和包含顯性使用空間和語義的NeRF 相關(guān)交叉研究的回顧,揭示了顯性空間和語義信息及其預(yù)測對NeRF的核心重要性。

        最后,結(jié)合近期顯性空間和語義挖掘中的重要發(fā)展方向,單視圖深度估計(jì),面臨的挑戰(zhàn)和神經(jīng)輻射場相關(guān)研究展現(xiàn)的裨益,揭示了基于神經(jīng)輻射場對場景三維空間感知建模和基于先驗(yàn)的內(nèi)容重現(xiàn)發(fā)展帶來的機(jī)遇。本文專注于基于神經(jīng)網(wǎng)絡(luò)的3D 空間場景高維表征,特別是NeRF的研究,并進(jìn)一步呼吁越來越多的后期3D 空間多媒體研究以這種“記憶和重現(xiàn)能力”方式向前推進(jìn)。

        猜你喜歡
        語義深度研究
        FMS與YBT相關(guān)性的實(shí)證研究
        遼代千人邑研究述論
        深度理解一元一次方程
        語言與語義
        視錯(cuò)覺在平面設(shè)計(jì)中的應(yīng)用與研究
        科技傳播(2019年22期)2020-01-14 03:06:54
        EMA伺服控制系統(tǒng)研究
        深度觀察
        深度觀察
        深度觀察
        “上”與“下”語義的不對稱性及其認(rèn)知闡釋
        免费视频无打码一区二区三区| 久久精品国产亚洲Av无码偷窍| 国产乱码一区二区三区精品| 正在播放强揉爆乳女教师| 内射精品无码中文字幕| 亚洲天堂av免费在线看| 一区二区亚洲熟女偷拍| www婷婷av久久久影片| 成人麻豆日韩在无码视频| 午夜理论片yy6080私人影院| av无码久久久久久不卡网站| 国产精品成人av电影不卡| 久久综合伊人有码一区中文字幕| 美女人妻中出日本人妻| 国产成人精品久久一区二区三区 | 国产精品久久久久久久久KTV| 区无码字幕中文色| av手机免费在线观看高潮| 精品无码一区二区三区小说| 成人在线免费视频亚洲| 丰满人妻AV无码一区二区三区| 免费在线观看视频专区| 一道本久久综合久久鬼色| 欧洲熟妇色xxxx欧美老妇多毛| 亚洲人成网站在线播放观看| 亚洲一区二区三区久久久| 极品嫩模大尺度av在线播放| 在线不卡av片免费观看| av天堂精品久久久久| 国成成人av一区二区三区| 国产精品久久久久一区二区三区 | 无码av一区二区大桥久未| 国外亚洲成av人片在线观看| 伊人婷婷色香五月综合缴激情| 亚洲日本中文字幕乱码| 在线免费观看黄色国产强暴av | 久久久久久久性潮| 熟女白浆精品一区二区| 久草视频在线手机免费看| 日日碰狠狠添天天爽无码| 日韩五十路|