基于神經(jīng)輻射場的視點合成算法綜述

2021-07-06 11:58:28常遠(yuǎn)，蓋孟

圖學(xué)學(xué)報 2021年3期

常遠(yuǎn)，蓋孟

常遠(yuǎn)1,2，蓋孟1,2

(1. 北京大學(xué)信息科學(xué)技術(shù)學(xué)院，北京 100871；2. 北京大學(xué)北京市虛擬仿真與可視化工程研究中心，北京 100871)

基于圖像的視點合成技術(shù)在計算機圖形學(xué)與計算機視覺領(lǐng)域均有廣泛的應(yīng)用，如何利用輸入圖像的信息對三維模型或者場景進(jìn)行表達(dá)是其中的關(guān)鍵問題。最近，隨著神經(jīng)輻射場這一表示方式的提出，大量基于此表示方法的研究工作對該方法進(jìn)行了進(jìn)一步優(yōu)化和擴展，在準(zhǔn)確性、高效性等方面取得了良好的成果。該類研究工作可以根據(jù)研究目的大致分為兩大類：對神經(jīng)輻射場算法本身的分析以及優(yōu)化，和基于神經(jīng)輻射場框架的擴展及延伸。第一類研究工作對神經(jīng)輻射場這一表示方法的理論性質(zhì)和不足進(jìn)行了分析，并提出了優(yōu)化的策略，包括對合成精度的優(yōu)化、對繪制效率的優(yōu)化以及對模型泛用性的優(yōu)化。第二類研究工作則以神經(jīng)輻射場的框架為基礎(chǔ)，對算法進(jìn)行了擴展和延伸，使其能夠解決更加復(fù)雜的問題，包括無約束拍攝條件下的視點合成、可進(jìn)行重光照的視點合成以及對于動態(tài)場景的視點合成。在介紹了神經(jīng)輻射場模型提出的背景之后，對以其為基礎(chǔ)的其他相關(guān)工作按照上述分類進(jìn)行了討論和分析，最后總結(jié)了神經(jīng)輻射場方法面對的挑戰(zhàn)和對未來的展望。

基于圖像的繪制；視點合成；神經(jīng)輻射場；神經(jīng)渲染；深度學(xué)習(xí)

基于圖像的視點合成是計算機圖形學(xué)與計算機視覺領(lǐng)域共同關(guān)注的重要問題。具體來說，基于圖像的視點合成即為利用已知拍攝視點的若干圖像作為輸入，對這些圖像所拍攝的三維物體或者場景進(jìn)行幾何、外觀、光照等性質(zhì)的表達(dá)，從而可以對其他未拍攝到的視點的圖像進(jìn)行合成，最終得到具有高真實感的繪制結(jié)果。相比傳統(tǒng)的三維重建結(jié)合圖形繪制的流程，此類方法能夠得到照片級別真實感的合成結(jié)果。

多年來，研究者們針對該問題進(jìn)行了大量的探索，獲得了許多有價值的研究成果[1]。早期的方法一般采用“拼圖”的形式實現(xiàn)此目的[2-4]，但這類方法對于拍攝條件的限制較高，同時能夠合成的視點也非常有限。后來研究者們開始嘗試從輸入圖像中提取場景的三維信息，并以提取出的三維結(jié)構(gòu)信息作為輔助，實現(xiàn)對不同視點的繪制，提高了自由視點合成的效果[5-7]。近些年來隨著深度學(xué)習(xí)技術(shù)的飛速發(fā)展，許多基于深度學(xué)習(xí)的方法也被提出[8-10]，通過數(shù)據(jù)驅(qū)動的方式，進(jìn)一步提高了視點合成的準(zhǔn)確性和真實感。

最近，隨著神經(jīng)渲染技術(shù)的興起，類似方法也被擴展到了視點合成的領(lǐng)域中。文獻(xiàn)[11]提出了使用神經(jīng)輻射場表示三維場景或模型，并結(jié)合體繪制方法，將此表示方式成功地應(yīng)用到了視點合成領(lǐng)域，取得了高質(zhì)量的合成結(jié)果。這一研究成果獲得了研究者們廣泛的關(guān)注，并且引領(lǐng)了接下來的一系列針對該方法進(jìn)行分析、優(yōu)化、擴展的研究工作。其中，有些工作對神經(jīng)輻射場的繪制效率和精度進(jìn)行了優(yōu)化提高[12-13]，有些工作則是在可移植性上進(jìn)行了探索[14-15]，另外還有一些工作對該表示方法進(jìn)行了擴展，以解決更加復(fù)雜的問題[16-17]。本文對以上基于神經(jīng)輻射場的最新研究工作進(jìn)行綜述，對各種不同類型工作進(jìn)行了介紹，也對各類方法的特點以及不足等進(jìn)行分析和總結(jié)。

1 神經(jīng)輻射場的提出

神經(jīng)輻射場的提出得益于神經(jīng)渲染領(lǐng)域取得的迅猛發(fā)展。該類技術(shù)可以將神經(jīng)網(wǎng)絡(luò)作為隱函數(shù)對三維模型進(jìn)行表示，以達(dá)到不同的應(yīng)用目的，如圖像生成、視角生成以及重新光照等等。本節(jié)首先對采用神經(jīng)網(wǎng)絡(luò)作為場景幾何的隱式表達(dá)的方法進(jìn)行總結(jié)與介紹，以此引入神經(jīng)輻射場的提出。

占位網(wǎng)絡(luò)是一種典型的利用神經(jīng)網(wǎng)絡(luò)隱式表達(dá)三維幾何的方法[18-19]。這種方法用神經(jīng)網(wǎng)絡(luò)對空間中每個點的二值占位情況進(jìn)行預(yù)測，即對三維空間訓(xùn)練一個二分類網(wǎng)絡(luò)，如圖1所示。該方法的提出，主要意義在于使用連續(xù)函數(shù)對三維空間進(jìn)行表達(dá)，相比于過去使用體素、網(wǎng)格等表達(dá)方式，可以在不增加任何空間存儲的情況下描述各種復(fù)雜的幾何形狀。

圖1 占位網(wǎng)絡(luò)對空間進(jìn)行二分類[18]

除了直接把空間按照是否存在模型劃分為兩類情況之外，還有一類隱式的表示方法是通過回歸一個有符號的距離函數(shù)SDF對三維模型進(jìn)行表示[20-21]。這類表示方式能夠連續(xù)地對三維模型進(jìn)行表示，即使是具有復(fù)雜拓?fù)涞哪Ｐ鸵材軌蜻M(jìn)行建模，如圖2所示。

圖2 用有符號距離函數(shù)來表示三維模型((a)用有符號距離函數(shù)隱式表示曲面；(b)有符號距離函數(shù)的二維剖面；(c)利用有符號距離函數(shù)繪制得到的三維曲面)[20]

以SDF方法為基礎(chǔ)，研究者們對這類方法進(jìn)一步進(jìn)行了完善，將其應(yīng)用到了對具有高度細(xì)節(jié)的模型表示中。例如，像素對齊隱式函數(shù)方法(pixel-aligned implicit function，PIFu)[21]通過將空間點投影到與像素對齊的特征空間，隱式地學(xué)習(xí)三維模型當(dāng)中的細(xì)節(jié)，從而實現(xiàn)了對穿衣人體模型的高分辨率重建。

但上述方法往往要求已知的三維形狀作為監(jiān)督信息，而在許多應(yīng)用中，人們無法輕易地獲取到三維形狀的真值。所以接下來的一系列工作開始嘗試放寬這一條件，直接使用圖像作為監(jiān)督。為此，一些研究工作提出了可微的繪制技術(shù)，從而將繪制步驟加入到神經(jīng)網(wǎng)絡(luò)中，以實現(xiàn)由繪制圖像的誤差直接對網(wǎng)絡(luò)進(jìn)行訓(xùn)練。文獻(xiàn)[22]采用占位網(wǎng)絡(luò)作為表達(dá)三維模型幾何的表示結(jié)構(gòu)，并采用數(shù)值方法尋找每條光線與模型表面的交點。每個光線交點都作為神經(jīng)網(wǎng)絡(luò)的輸入預(yù)測該點的顏色值。文獻(xiàn)[23]則采用為每個三維空間坐標(biāo)預(yù)測對應(yīng)的顏色和特征向量，并提出了一個由循環(huán)神經(jīng)網(wǎng)絡(luò)組成的可微的繪制函數(shù)用于決定哪里存在著物體表面。然而，這些方法始終受限于處理僅具有低復(fù)雜度的幾何結(jié)構(gòu)的簡單形狀，導(dǎo)致過度平滑的繪制結(jié)果。

由于體繪制過程本身是可微的，所以可以加入到上述神經(jīng)網(wǎng)絡(luò)的訓(xùn)練，從而實現(xiàn)僅用圖像的顏色值作為監(jiān)督的訓(xùn)練過程。

圖3 神經(jīng)輻射場算法流程[11]

此外，為了避免合成圖像中高頻信息的丟失，NeRF還將輸入變量首先進(jìn)行了位置編碼[25]，將其映射到其傅里葉特征。實驗表明，這一映射能夠有效地解決高頻信息難以擬合的問題。

表1展示了NeRF與早期基于神經(jīng)網(wǎng)絡(luò)的其他方法在2個數(shù)據(jù)集[11,26]上的量化對比結(jié)果。由表1可以看出，使用連續(xù)函數(shù)對場景進(jìn)行表示的NeRF方法得到了更加高質(zhì)量的視點合成結(jié)果。

表1 NeRF與早期基于神經(jīng)網(wǎng)絡(luò)方法的量化對比

2 關(guān)于神經(jīng)輻射場的分析及優(yōu)化

基于神經(jīng)輻射場的方法NeRF提出之后，由于其結(jié)構(gòu)簡單、合成精度高的特點，迅速引起了研究者們的注意。部分研究工作開始對NeRF取得良好結(jié)果的原因進(jìn)行理論和實驗分析，同時，部分研究工作也開始針對NeRF存在的問題進(jìn)行了優(yōu)化和提升。

文獻(xiàn)[28]對NeRF方法中的位置編碼操作進(jìn)行了更加深入的研究，以神經(jīng)正切核理論[29]作為工具，從理論上論證了標(biāo)準(zhǔn)的多層感知機是難以對高頻信息進(jìn)行學(xué)習(xí)的。同時，其也通過不同應(yīng)用場景下的實驗結(jié)果驗證了這一現(xiàn)象。為了解決這一問題，該方法提出將原始輸入變量映射至傅里葉特征空間可以將有效的神經(jīng)正切核變換為可調(diào)帶寬的靜態(tài)核，并且可以大幅地提升多層感知機處理計算機圖形學(xué)和計算機視覺領(lǐng)域中低維回歸問題的能力。如圖4所示，在加入位置編碼之后，對高頻信息的擬合有了顯著的提升。

圖4 加入位置編碼的效果((a)多層感知機網(wǎng)絡(luò)示例；(b)圖像回歸任務(wù)；(c)三維形狀回歸任務(wù)；(d)核磁共振成像任務(wù)；(e)逆向繪制任務(wù))[28]

文獻(xiàn)[13]則對NeRF中理論上存在的歧義性進(jìn)行了分析，并對采樣過程進(jìn)行了優(yōu)化，使其能夠適應(yīng)無邊界場景的視點合成。在NeRF中，為了對物體的外觀顏色隨觀察角度變化而變化這一性質(zhì)進(jìn)行建模，其理論上實際出現(xiàn)了幾何與顏色的歧義。具體來說，對于一個已知的場景或者模型，即使是一個完全錯誤的幾何估計，也總存在一個合適的輻射場使得該輻射場與該錯誤的幾何能夠完美地對輸入圖像進(jìn)行擬合。如圖5所示，僅用一個球面模型代替正確的幾何結(jié)構(gòu)，只要對應(yīng)的輻射場足夠的精細(xì)，滿足每條光線與球面相交的點沿光線方向發(fā)出的顏色為對應(yīng)像素的顏色，即可使得預(yù)測的圖像與輸入圖像完全吻合。然而由于對幾何的錯誤估計，該神經(jīng)輻射場在視點偏離輸入視點時就會造成較大的畸變，從而無法用于正確的視點合成。而NeRF在實際實驗中并沒有出現(xiàn)上述嚴(yán)重的歧義現(xiàn)象，是因為對于一個有限大小的多層感知機，其表示的函數(shù)具有較高的平滑性，一般難以表達(dá)出錯誤的幾何所需要的非常高頻的輻射場函數(shù)，從而避免了這個問題。

圖5 顏色和幾何的歧義性[13]

除此之外，該文獻(xiàn)還對光線采樣過程進(jìn)行了優(yōu)化，通過在單位球的內(nèi)外部分別采用不同的參數(shù)化方法，實現(xiàn)了對無邊界場景的有效采樣，完善了NeRF對無邊界場景的處理能力。優(yōu)化過后的采樣過程如圖6所示。

圖6 球面內(nèi)外不同參數(shù)化[13]

表2展示了該方法在無邊界場景數(shù)據(jù)集[30]上與原始NeRF方法的對比結(jié)果。可以看出，該方法有效地提升了網(wǎng)絡(luò)對于無邊界場景的表達(dá)能力，可以得到更準(zhǔn)確的視點合成結(jié)果。

表2 文獻(xiàn)[13]與NeRF在無邊界場景上的量化對比

還有一類重要的研究工作則以繪制效率為出發(fā)點提出了優(yōu)化策略[12,31-32]。如上文所述，通過神經(jīng)輻射場繪制圖像中的像素需要在其發(fā)出的光線上進(jìn)行采樣，并且對于每一個采樣點，都需調(diào)用一次神經(jīng)網(wǎng)絡(luò)以得到對應(yīng)的體密度和顏色值預(yù)測。這使得NeRF不僅在訓(xùn)練時需要消耗較多時間，在對新視點進(jìn)行預(yù)測時同樣需要消耗較多的時間。為此，文獻(xiàn)[12]提出了一種新的場景表達(dá)方式：神經(jīng)稀疏體素場(neural sparse voxel fields，NSVF)，將空間進(jìn)行稀疏的體素劃分，并把輻射場定義在每個體素內(nèi)部從而描述該局部空間的性質(zhì)。在構(gòu)造體素八叉樹結(jié)構(gòu)之后，就可以在繪制時跳過那些不存在任何內(nèi)容的體素，從而大大提升繪制的速度?；谠撓∈梵w素結(jié)構(gòu)的采樣方式如圖7所示。

圖7 不同的采樣方式((a)均勻采樣；(b)重要區(qū)域采樣； (c)稀疏體素采樣)[12]

還有部分研究者們對該模型的泛用性進(jìn)行了研究和優(yōu)化[14-15,33]。傳統(tǒng)的NeRF模型要求對每一個場景都要獨立的進(jìn)行訓(xùn)練，同時也需要較多的進(jìn)行過相機標(biāo)定的輸入圖像用于訓(xùn)練，這使得使用時的時間開銷較大，大大降低了該模型的泛用能力。文獻(xiàn)[14]首先利用卷積網(wǎng)絡(luò)對圖像進(jìn)行特征提取，然后將提取到底特征加入到NeRF網(wǎng)絡(luò)的輸入中，以學(xué)習(xí)到場景的先驗，如式(3)所示

優(yōu)化之后的模型能夠有效地學(xué)習(xí)到場景的先驗知識，從而能夠在一次訓(xùn)練過后，對于新的場景，僅通過少量的輸入圖像即可對未知視點進(jìn)行預(yù)測。

另一種提高NeRF泛用性的方法則是利用元學(xué)習(xí)的思路。文獻(xiàn)[15]利用標(biāo)準(zhǔn)的元學(xué)習(xí)算法對NeRF網(wǎng)絡(luò)的初始參數(shù)進(jìn)行學(xué)習(xí)，如圖8所示。該研究表明，使用學(xué)習(xí)得到網(wǎng)絡(luò)初始參數(shù)相比使用傳統(tǒng)的參數(shù)初始化方法能夠得到更快的收斂速度，同時這些學(xué)習(xí)到的初始參數(shù)值可以有效地作為場景的先驗知識，使得當(dāng)輸入圖像有限時，也能得到良好的合成結(jié)果。實際上，該方法不僅限于視點合成問題，對于用全連接神經(jīng)網(wǎng)絡(luò)表示信號的各種應(yīng)用均可適用。

圖8 學(xué)習(xí)得到的初始參數(shù)能夠加快收斂速度也具有更好的泛用性[15]

3 對于神經(jīng)輻射場的擴展及延伸

除了對NeRF方法本身進(jìn)行分析和優(yōu)化之外，還有許多的研究工作對該方法進(jìn)行了擴展和延伸，將其擴展到了更加多樣、復(fù)雜的應(yīng)用場景中。

3.1 基于無約束圖像的視點合成

為了能夠利用互聯(lián)網(wǎng)上采集到的同一場景的多視角照片進(jìn)行自由視點的合成，文獻(xiàn)[34]將NeRF擴展到了無約束拍攝條件下的視點合成，提出了無約束條件下的神經(jīng)輻射場算法(NeRF in the wild，NeRF-W)。對于某些名勝景點，互聯(lián)網(wǎng)上能夠找到大量的游客拍攝的照片，如何通過這些照片對場景構(gòu)建合適的表示結(jié)構(gòu)，實現(xiàn)自由視點的漫游是一個非常有價值也具有挑戰(zhàn)性的問題。由于照片的拍攝時間、天氣、光照等條件可能存在著巨大的差異，同時還常常會有游客等前景出現(xiàn)在不同的照片中，使得傳統(tǒng)的NeRF無法對這種情況構(gòu)建出正確的神經(jīng)輻射場。在這種條件下，即使是同一個位置、同一個角度，也可能對應(yīng)著完全不同的拍攝圖像。針對這一特點，該方法為每張輸入圖像進(jìn)行外觀編碼[35]，用于隱式地表示每幅輸入圖像所蘊含的拍攝條件。在加入這一編碼操作之后，NeRF-W可以準(zhǔn)確地學(xué)習(xí)到場景的幾何結(jié)構(gòu)，并可以對不同的輸入圖像的光照條件進(jìn)行編碼和解碼。除此之外，為了處理不同照片中存在不同的前景等臨時物體，NeRF-W將場景建模為各輸入圖像間共享的元素以及依賴于各輸入圖像的元素。這使得模型可以對場景中保持靜態(tài)的內(nèi)容與臨時物體進(jìn)行有效的區(qū)分，從而使得在合成新視點時，能夠避免由于行人、車輛等臨時前景所帶來的視覺瑕疵。圖9展示了NeRF-W處理互聯(lián)網(wǎng)無約束拍攝圖像的結(jié)果。

圖9 通過互聯(lián)網(wǎng)收集圖像進(jìn)行視點繪制[34]

3.2 基于神經(jīng)輻射場的重光照技術(shù)

另一類重要的擴展應(yīng)用為將神經(jīng)輻射場進(jìn)行增強使其能夠表達(dá)不同的光照條件[36-38]。3.1節(jié)中介紹的NeRF-W雖然已經(jīng)能夠基于不同的光照條件下拍攝的圖像進(jìn)行圖像合成，并且可以對合成的視點平滑地調(diào)整光照條件，但其只是隱式地對光照性質(zhì)進(jìn)行了描述，并不能顯式地調(diào)整光照的各種物理量。

文獻(xiàn)[37]提出了一種叫做神經(jīng)反射場的表示方式，在NeRF能夠?qū)w密度信息進(jìn)行編碼的基礎(chǔ)上，對空間中每一點的局部光照模型也進(jìn)行了編碼，包括法向和反射性質(zhì)，如圖10所示。該方法將這一表示模型與基于物理的可微光線步進(jìn)算法進(jìn)行結(jié)合，可以繪制出任意視點、任意光照條件下的圖像。

然而，這種直接的方法局限于某些受限的光照設(shè)置，要求所有的輸入圖像都繪制于同一個單個的點光源。對此，文獻(xiàn)[36]提出了神經(jīng)輻射及可見性場(neural reflectance and visibility fields，NeRV)進(jìn)行改進(jìn)，改進(jìn)的方式是使用一個額外的多層感知機學(xué)習(xí)空間中的可見性場，用于描述每一個點的可見性。在這種情況下，該神經(jīng)網(wǎng)絡(luò)的輸入為空間中的三維位置坐標(biāo)，輸出則為：體密度、表面法向、材質(zhì)參數(shù)、沿任意方向距離第一個相交表面的距離、沿任意方向?qū)ν獠凯h(huán)境的可見性。增加了可見性表達(dá)之后，該模型降低了體繪制的時間復(fù)雜度，從而可以描述更加復(fù)雜的光照所產(chǎn)生的效果，如圖11所示。

圖10 神經(jīng)反射場算法流程概覽[37]

圖11 神經(jīng)可見性場降低了時間復(fù)雜度[36]

表3展示了在不同光照條件下上述2種方法在合成場景數(shù)據(jù)集上的量化對比結(jié)果。其中，“Single Point” 表示光照為隨機分布的單一的白色點光源的光照條件?！癆mbient+Point”表示單一點光源和一個暗灰色環(huán)境圖的光照條件。可以看出，在簡單的單一點光源條件下，2種方法并無顯著差異，但是在復(fù)雜的光照條件下，NeRV具有明顯的優(yōu)勢。

表3 文獻(xiàn)[37]與NeRV在不同光照條件下的量化對比

3.3 基于神經(jīng)輻射場的動態(tài)場景視點合成

由NeRF的原理可知，其本質(zhì)上是依賴于多視圖之間的幾何一致性。然而，當(dāng)場景中存在動態(tài)物體時，這種一致性便不再存在，導(dǎo)致NeRF無法對存在動態(tài)物體的場景進(jìn)行表達(dá)。所以，另一類重要的研究方向即為將NeRF擴展到對于動態(tài)場景的表達(dá)。

動態(tài)場景的視點合成問題指的是輸入一段視頻，視頻的拍攝過程中不僅相機發(fā)生移動，場景中的物體也存在運動。目標(biāo)是通過這段視頻合成得到任意時刻任意視點的圖像。最直接的方法是將時間變量直接作為額外的輸入加入到NeRF的訓(xùn)練中。但是，由于每個時刻，該場景中的每一點都只被一個視角觀察到，所以理論上有無數(shù)種幾何變化都可以符合輸入視頻中的觀察。為此，一種直接的解決方式是利用現(xiàn)有的動態(tài)視頻深度估計算法對每一幀的深度進(jìn)行估計，以此對神經(jīng)輻射場的優(yōu)化進(jìn)行約束[39]。這種方法由于需要顯式的深度圖進(jìn)行約束，所以要首先訓(xùn)練得到動態(tài)場景深度估計的網(wǎng)絡(luò)[40]，并且其結(jié)果依賴于深度圖估計的準(zhǔn)確性。

另一種解決思路則是利用場景流的約束。文獻(xiàn)[16]設(shè)計了神經(jīng)場景流場用于動態(tài)場景的表達(dá)。具體來說，該網(wǎng)絡(luò)在NeRF基礎(chǔ)上加入時間變量作為額外輸入，并且輸出的變量也在傳統(tǒng)NeRF的基礎(chǔ)上增加了對相鄰時刻場景流的預(yù)測。其中，該方法對預(yù)測的場景流進(jìn)行了一致性的約束，以約束整體的優(yōu)化過程。該約束要求相鄰時刻的正向、反向場景流是一致的。圖12展示了利用預(yù)測的場景流對圖像進(jìn)行形變的過程。

圖12 利用場景流進(jìn)行形變[11]

此外，文獻(xiàn)[17]提出了一種可形變的神經(jīng)輻射場(Deformable neural radiance fields，D-NeRF)對存在動態(tài)物體的場景進(jìn)行表示。該方法的基本框架與NeRF-W模型類似，對每個輸入圖像進(jìn)行外觀編碼，以調(diào)整圖像之間的外觀變化，例如曝光度、白平衡等。在此基礎(chǔ)上，該方法用多層感知機表示一個空間坐標(biāo)到正則空間坐標(biāo)的變換，同時將場景每個時刻的狀態(tài)編碼為一個隱式的向量。通過對場景中的形變進(jìn)行描述，該方法大大地提高了對于存在動態(tài)物體場景進(jìn)行視點合成的魯棒性。圖13展示了該方法的網(wǎng)絡(luò)結(jié)構(gòu)。

圖13 D-NeRF的網(wǎng)絡(luò)結(jié)構(gòu)[17]

4 總結(jié)

得益于可微繪制技術(shù)的發(fā)展，基于體繪制的神經(jīng)渲染方法在近年來取得了飛快的發(fā)展，也促進(jìn)了基于神經(jīng)輻射場的視點合成算法的飛速發(fā)展。神經(jīng)輻射場方法的提出具有2個重要的意義。首先，該方法可以獲得高質(zhì)量的視點合成結(jié)果。并且，不同于之前的算法采用離散的體素網(wǎng)格等結(jié)構(gòu)對場景幾何進(jìn)行描述，該方法利用神經(jīng)網(wǎng)絡(luò)強大的表示能里，使用神經(jīng)網(wǎng)絡(luò)作為連續(xù)的隱函數(shù)對三維場景的幾何和顏色性質(zhì)進(jìn)行表示。這使得該表示模型不會隨著場景中幾何分辨率的提高而顯著變大。第二，該表示方法為研究者們提供了一種新的研究思路，促進(jìn)了后續(xù)基于此表示模型的各種方法的蓬勃發(fā)展。

本文首先以用神經(jīng)網(wǎng)絡(luò)作為隱函數(shù)表達(dá)三維模型的早期方法作為背景，引入了神經(jīng)輻射場方法的提出，也對該方法的理論模型進(jìn)行了簡單的介紹。然后將基于該模型的相關(guān)工作分為2類進(jìn)行了總結(jié)和分析：

第一類方法為對傳統(tǒng)神經(jīng)輻射場方法的理論分析和性能優(yōu)化。這類研究工作對神經(jīng)輻射場方法的效率、精度、理論依據(jù)等方面進(jìn)行了深入的探討，也對算法本身的性能進(jìn)行了優(yōu)化提升。其中包括對模型表示能力的優(yōu)化、對繪制效率的優(yōu)化以及針對模型泛用性的優(yōu)化。

第二類方法則為基于神經(jīng)輻射場方法的推廣和延伸。這類研究工作不再局限于原始方法所著眼的傳統(tǒng)靜態(tài)場景視點合成問題，而是以神經(jīng)輻射場的思路為基礎(chǔ)，為其他的復(fù)雜應(yīng)用場景設(shè)計新的解決方案。有些方法將其推廣至利用無約束的互聯(lián)網(wǎng)圖像進(jìn)行視點合成，有些則將其推廣至4維的動態(tài)場景的視點合成問題，還有一些方法則擴展了模型的表示能力，使其能夠?qū)鼍肮庹者M(jìn)行顯式表達(dá)，從而能夠?qū)铣傻囊朁c進(jìn)行重光照。

基于圖像的視點合成問題在近20余年始終是計算機圖形學(xué)和計算機視覺領(lǐng)域的重要問題，對此，研究者們也已經(jīng)進(jìn)行了相當(dāng)深入的研究。其中，如何從圖像中提取場景的幾何、外觀、光照等信息是視點合成技術(shù)的關(guān)鍵問題，也是其難點和挑戰(zhàn)。早期的方法受困于無法對場景的幾何進(jìn)行準(zhǔn)確估計，使得僅能在苛刻的應(yīng)用條件下進(jìn)行視點合成。隨著多視圖立體幾何的發(fā)展，研究者們利用對場景幾何的重建結(jié)果，大大提升了合成視點的魯棒性和準(zhǔn)確性。然而，由于幾何的重建誤差以及并沒有考慮到場景幾何與外觀的一致性問題，視點合成的質(zhì)量仍然有所不足。近年來，研究者們考慮同時對場景的幾何與外觀信息進(jìn)行估計，使得視點合成技術(shù)得到了顯著的進(jìn)步。深度學(xué)習(xí)的發(fā)展也深刻地影響到了這一領(lǐng)域。但是，由于這些方法均采用離散的方式來對三維空間進(jìn)行描述，其合成質(zhì)量受限于空間劃分的粒度，這使得空間復(fù)雜度成了對于合成視點質(zhì)量的一個重要制約因素。同時，采用多平面劃分的方式，其對于場景中存在斜面的表示能力也存在著先天的劣勢。神經(jīng)輻射場方法利用了神經(jīng)網(wǎng)絡(luò)強大的表達(dá)能力，構(gòu)造了一種連續(xù)的幾何與外觀表示方法來解決上述問題，在合成質(zhì)量方面取得了顯著的提升。神經(jīng)輻射場方法提出至今僅僅一年左右的時間，基于該模型的相關(guān)研究工作已經(jīng)得到了如此快速的發(fā)展，這體現(xiàn)出了這一模型具有強大的表示能力以及優(yōu)秀的擴展性。而這一表示模型在其他應(yīng)用領(lǐng)域的延伸將是重要的研究方向，例如基于神經(jīng)輻射場的場景編輯、模型生成等等。同時，這類方法也存在著缺點與不足。首先，通過隱函數(shù)表示三維空間的方式需要在繪制時對空間中的每一個點都調(diào)用該隱函數(shù)一次，這相比于離散的表示方式大大地增加了時間開銷，使得實時繪制難以實現(xiàn)。另外，該類方法的另一缺點為缺乏可解釋性。采用體素或網(wǎng)格的離散表示形式的方法具有較高的解釋性，能夠?qū)铣山Y(jié)果中出現(xiàn)失敗或瑕疵的原因進(jìn)行分析。而基于神經(jīng)輻射場模型的方法將三維場景編碼為神經(jīng)網(wǎng)絡(luò)的參數(shù)，難以從圖形理論上分析該方法成功或者失敗的具體原因。對該類方法的可解釋性進(jìn)行提升也將是未來重要的研究方向之一。本文通過對現(xiàn)有的工作進(jìn)行分類總結(jié)，希望能對研究者們的研究工作起到參考和啟發(fā)作用。

[1] CHANG Y, WANG GP. A review on image-based rendering[J]. Virtual Reality & Intelligent Hardware, 2019,1(1): 39-54.

[2] SHUM H-Y, HE LW. Rendering with concentric mosaics[C]//The 26th Annual Conference on Computer Graphics and Interactive Techniques. New York: ACM Press. 1999: 299-306.

[3] DEBEVEC P, DOWNING G, BOLAS M, et al. Spherical light field environment capture for virtual reality using a motorized pan/tilt head and offset camera[EB/OL]. [2021-01-20]. http://dx. doc.org/10.1145/2787626.2787648.

[4] SZELISKI R, SHUM HY, Creating full view panoramic image mosaics and environment maps[C]//The 24th Annual Conference on Computer Graphics and Interactive Techniques. New York: ACM Press, 1997: 251–258.

[5] CHAURASIA G, DUCHêNE S, SORKINE-HORNUNG O, et al. Depth synthesis and local warps for plausible image-based navigation[J]. ACM Transaction on Graphics, 2013, 32(3): 30:1-30:12.

[6] HEDMAN P, KOPF J. Instant 3D photography[J]. ACM Transaction on Graphics, 2018, 37(4): 10:1-10:12.

[7] PENNER E, ZHANG L. Soft 3D reconstruction for view synthesis[J]. ACM Transaction on Graphics, 2017, 36(6): 235:1-235:11.

[8] HEDMAN P, PHILIP J, PRICE T, et al., Deep blending for free-viewpoint image-based rendering[J]. ACM Transaction on. Graphics, 2018, 37(6): 257:1-257:15.

[9] MILDENHALL B, SRINIVASAN PP, ORTIZ-CAYON R, et al. Local light field fusion: practical view synthesis with prescriptive sampling guidelines[J]. ACM Transaction on Graphics, 2019, 38(4): 29:1-29:14.

[10] CHOI I, GALLO O, TROCCOLI A J, et al. Extreme view synthesis[C]//2019 IEEE/CVF International Conference on Computer Vision. New York: IEEE Press, 2019: 7780-7789.

[11] MILDENHALL B, SRINIVASAN PP, TANCIK M, et al. NeRF: representing scenes as neural radiance fields for view synthesis[C]//2020 European Conference on Computer Vision. Heidelberg: Springer, 2020: 405-421.

[12] LIU L J, GU J T, LIN K Z, et al. Neural sparse voxel fields[C]//2020 Advances in Neural Information Processing Systems. Virtual: Curran Associates Inc, 2020: 15651-15663

[13] ZHANG K, RIEGLER G, SNAVELY N, et al. Nerf++: analyzing and improving neural radiance fields[EB/OL]. [2021-01-11]. https://arxiv.org/abs/2010.07492v2.

[14] YU A, YE V, TANCIK M, et alpixelNeRF: neural radiance fields from one or few images[EB/OL]. [2021-02-01]. https://arxiv.org/abs/2012.02190v1.

[15] TANCIK M, MILDENHALL B, WANG T, et al.Learned initializations for optimizing coordinate-based neural representations[EB/OL]. [2021-01-15]. https://arxiv.org/abs/2012. 02189v2.

[16] LI Z Q, NIKLAUS S, SNAVELY N, et al. Neural scene flow fields for space-time view synthesis of dynamic scenes[EB/OL]. [2021-02-15]. https://arxiv.org/abs/2011. 13084v1.

[17] PARK K, SINHA U, BARRON J T, et al. Deformable neural radiance fields[EB/OL]. [2021-01-29]. https://arxiv.org/abs/ 2011.12948.

[18] MESCHEDER L, OECHSLE M, NIEMEYER M, et al. Occupancy networks: learning 3D reconstruction in function space[C]//2019 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2019: 4455-4465.

[19] CHEN Z Q, ZHANG H.Learning implicit fields for generative shape modeling[C]//2019 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2019: 5932-5941.

[20] PARK J J, FLORENCE P, STRAUB J,NEWCOMBE R, et al. DeepSDF: learning continuous signed distance functions for shape representation[C]//2019 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2019: 165-174.

[21] SAITO S, HUANG Z, NATSUME R, et al. Pifu: pixel-aligned implicit function for high-resolution clothed human digitization[C]//2019 IEEE/CVF International Conference on Computer Vision. New York: IEEE Press, 2019: 2304-2314.

[22] NIEMEYER M, MESCHEDER L, OECHSLE M, et al. Differentiable volumetric rendering: learning implicit 3d representations without 3D supervision[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2020: 3501-3512.

[23] SITZMANN V, ZOLLH?FER M, WETZSTEIN G.cene representation networks: Continuous 3d-structure-aware neural scene representations[EB/OL]. [2021-01-18]. https://arxiv.org/abs/1906.01618?context=cs.

[24] KAJIYA JT, VON HERZEN BP. Ray tracing volume densities[J]. Computer Graphics, 1984, 18(3): 165-174.

[25] VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[C]//The 31st International Conference on Neural Information Processing Systems. New York: ACM Press, 2017: 6000-6010.

[26] SITZMANN V, THIES J, HEIDE F, et al. Deepvoxels: learning persistent 3D feature embeddings[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition.New York: IEEE Press, 2019: 2432-2441.

[27] LOMBARDI S, SIMON T, SARAGIH J, et al., Neural volumes: learning dynamic renderable volumes from images[J]. ACM Transaction on Graphics, 2019, 38(4): 65:1-65:14.

[28] TANCIK M, SRINIVASAN P P, BEN MILDENHALL B, et al. Fourier features let networks learn high frequency functions in low dimensional domains[EB/OL]. [2021-01-09]. https://arxiv. org/abs/2006.10739.

[29] JACOT A, GABRIEL F, HONGLER C. Neural tangent kernel: convergence and generalization in neural networks[C]//The 32nd International Conference on Neural Information Processing Systems. New York: ACM Press, 2018: 8580-8589.

[30] KNAPITSCH A, PARK J, ZHOU QY, et al. Tanks and temples: benchmarking large-scale scene reconstruction[J]. ACM Transactions on Graphics (ToG), 2017, 36(4): 1-13.

[31] LINDELLD B, MARTEL J N P, WETZSTEIN G. Automatic integration for fast neural volume rendering[EB/OL]. [2021-02-03]. https://arxiv.org/abs/2012.01714.

[32] NEFF T, STADLBAUER P,PARGER M, et al. DONeRF: towards real-time rendering of neural radiance fields using depth oracle networks[EB/OL]. [2021-01-28]. https://arxiv.org/ abs/2103.03231.

[33] TREVITHICK A, YANG B.GRF: learning a general radiance field for 3D scene representation and rendering[EB/OL]. [2021-02-10]. https://arxiv.org/abs/2010.04595.

[34] MARTIN-BRUALLA R, RADWAN N, SAJJADI MS, et al., Nerf in the wild: neural radiance fields for unconstrained photo collections[EB/OL][2021-01-30]. https://arxiv.org/abs/2008.02268.

[35] BOJANOWSKI P, JOULIN A, LOPEZ-PAS D, et al.Optimizing the latent space of generative networks[C]//The 35th International Conference on Machine Learning.Princeton: International Machine Learning Society(IMLS), 2018:599-608.

[36] SRINIVASAN P P, DENG B Y,ZHANG X M, et al. NeRV: neural reflectance and visibility fields for relighting and view synthesis[EB/OL]. [2021-01-02]. https://arxiv.org/abs/2012.03927.

[37] BI S, XU Z X, SRINIVASAN P, et al., Neural reflectance fields for appearance acquisition[EB/OL]. [2021-01-19]. https://arxiv.org/abs/2008.03824v2.

[38] BOSS M, BRAUN R, JAMPANI V, et al. NeRD: neural reflectance decomposition from image collections[EB/OL]. [2021-02-04]. https://arxiv.org/abs/2012.03918.

[39] XIAN W Q, HUANG J B, KOPF J, et al. Space-time neural irradiance fields for free-viewpoint video[EB/OL]. [2021-02-03]. https://arxiv.org/abs/2011.12950.

[40] LUO X, HUANG J B, SZELISKI R, et al. Consistent video depth estimation[J]. ACM Transactions on Graphics (TOG), 2020, 39(4): 71:1-71:13.

A review on neural radiance fields based view synthesis

CHANG Yuan1,2, GAI Meng1,2

(1. School of Electronics Engineering and Computer Science, Peking University, Beijing 100871, China;2. Beijing Engineering Technology Research Center for Virtual Simulation and Visualization, Peking University, Beijing 100871, China)

Image-based view synthesis techniques are widely applied to both computer graphics and computer vision. One of the key issues is how to use the information from the input image to represent a 3D model or scene. Recently, with the proposal of neural radiance fields (NeRF), a large number of research works based on this representation have further enhanced and extended the method, and achieved the expected accuracy and efficiency. This type of research can be broadly classified into two categories by purposes: the analysis and improvement of NeRF itself, and the extensions based on the NeRF framework. Methods of the first category have analyzed the theoretical properties and shortcomings of the NeRF representation and proposed some strategies for performance improvement, including the synthesis accuracy, rendering efficiency, and model generalizability. The second type of works are based on the NeRF framework and have extended the algorithm to solve more complex problems, including view synthesis using unconstrained images, view synthesis with relighting, and view synthesis for dynamic scenes. After outlining the background of the proposal of NeRF, other related works based on it were discussed and analyzed in this paper according to the classification mentioned above. Finally, the challenges and prospects were presented concerning the development of NeRF-based approaches.

image-based rendering; view synthesis; neural radiance fields; neural rendering; deep learning

TP 391

10.11996/JG.j.2095-302X.2021030376

2095-302X(2021)03-0376-09

2021-03-15；

2021-04-19

15 March，2021；

19 April，2021

北大百度基金資助項目(2019BD007)

PKU-Baidu Fund (2019BD007)

常遠(yuǎn)(1995-)，男，河北邯鄲人，博士研究生。主要研究方向為計算機圖形學(xué)與計算機視覺。E-mail：changyuan@pku.edu.cn

CHANG Yuan (1995-), male, PhD candidate. His main research interests cover computer graphics and computer vision.E-mail: changyuan@pku.edu.cn

蓋孟(1988-)，男，山東萊陽人，助理研究員，博士。主要研究方向為計算機圖形學(xué)、虛擬仿真等。E-mail：gm@pku.org.cn

GAI Meng (1988-), male, research associate, Ph.D. His main research interests cover computer graphics, virtual reality and simulation, etc. E-mail: gm@pku.org.cn

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于神經(jīng)輻射場的視點合成算法綜述

1 神經(jīng)輻射場的提出

2 關(guān)于神經(jīng)輻射場的分析及優(yōu)化

3 對于神經(jīng)輻射場的擴展及延伸

3.1 基于無約束圖像的視點合成

3.2 基于神經(jīng)輻射場的重光照技術(shù)

3.3 基于神經(jīng)輻射場的動態(tài)場景視點合成

4 總 結(jié)

4 總結(jié)