摘要:針對現有基于三維表面重建的圖像重照明方法存在紋理噪點、重照明質量不足及特征空間利用率低等問題,文章提出一種基于單張量輻射場的數字服裝重照明方法。該方法首先利用球面高斯函數和多層感知機,分別模擬環(huán)境直射光和服裝表面間的間接反射光,以構建一個精準的入射光場;接著通過引入梯度引導平滑策略,優(yōu)化從特征空間中提取雙向反射分布函數模型參數的過程。最后,利用簡化的反射率方程,結合入射光場、雙向反射分布模型及特征空間,成功地渲染出高質量的服裝重照明圖像。實驗結果表明,該方法有效地減少了服裝紋理噪點,顯著降低了服裝重照明的失真現象。相較于先進方法,該方法在生成服裝新視角圖像方面,各項評估指標的平均提升約9.922%;在服裝重照明結果方面,各項評估指標的平均提升約4.549%。
關鍵詞:單張量輻射場;特征空間;服裝重照明;3D維重建;圖像生成;雙向反射分布函數
中圖分類號:TS101.8
文獻標志碼:A
文章編號:10017003(2025)01008509
DOI:10.3969 j.issn.1001-7003.2025.01.010
基金項目:浙江省“尖兵” “領雁”研發(fā)攻關計劃項目(2023C01224);浙江省科技計劃重大科創(chuàng)平臺項目(2024SJCZX0026)
作者簡介:陳鑫磊(1999),男,碩士研究生,研究方向為智能數字化服裝處理。通信作者:鄭軍紅,講師,博士,zjhist@zstu.edu.cn。
服裝作為時尚元素的核心載體,不僅反映了時尚的潮流,更展示了人們對于個性和自我表達的內在渴望。隨著生活品質的提升,人們對于穿著美感的要求日益精細。如在試穿服裝前,人們往往需要了解服裝在各種不同場合和光照條件下的呈現效果,并能從不同視角進行審視,以便作出更全面的評估。因此,如何讓用戶便捷且真實地預覽服裝在各種光照下的外觀,即數字服裝的重照明(relighting)[1-2]效果展示,是一個重要課題。傳統(tǒng)的圖像重照明方法[3-4]主要聚焦于對二維圖像的處理。如文獻[3]利用采樣網絡從輸入圖像中合成場景外觀,并通過深層的重照明卷積神經網絡對輸入光照和圖像進行編解碼,從而得出原始圖像的重照明效果。而文獻[4]則采用輸入的RGB與深度圖像,通過解碼網絡獲取物體的反照率、法向圖等物理特性,再利用神經網絡對物體表面的雙向反射分布函數(BRDF)進行建模,最后經過合成網絡得出重照明的結果。然而,這些傳統(tǒng)方法在處理多視角的重照明任務時,由于其輸入的二維圖像缺乏三維信息,一般難以達到理想的效果。為克服這一局限,引入包含三維信息的網絡模型顯得尤為重要,而神經輻射場(Nerf)[5]相關技術則較好地滿足這一需求。它利用一系列由同步相機拍攝的目標物體或場景圖像來構建輻射場,并采用多層感知機(MLP)、體素網格[6-7]、多張量場[8]等方式來表示目標對象或場景,將剛體視為空間中相互遮擋的光源(即發(fā)射和吸收光的粒子),從而對整個空間進行優(yōu)化。此外,張量輻射場[9](TensoRF)作為一種基于多張量場表示的輻射場模型,通過張量分解算法將高維張量分解為多個低維張量,不僅顯著提升了模型的收斂速度,還能在其構建的場景特征空間中更準確地解碼出目標對象的紋理、深度、法向量等特征。
近年來,眾多研究以神經輻射場模型為基石,結合先進的神經網絡和光照模型,實現了對簡單場景進行多視角重照明的任務。Srinivasan等[10]就做了反射率方程與Nerf模型相結合的工作,其打破了閃光燈假設,并優(yōu)化了環(huán)境照明建模:它考慮了單反射間接照明,并引入了可見度的概念來表示能夠反射光的能量粒子的比例,從而提高了反射率方程的靈活性。Zhang等[11]采用兩階段策略,解耦了Nerf中的幾何建模和顏色渲染:首先利用Nerf重建目標對象或場景的幾何體,然后使用多個多層感知機來回歸BRDF結果和重照明結果。此外,文獻 [12-13]等方法更進一步地利用了球面高斯,這種更接近真實物理世界的球面逼近方式。通過將環(huán)境貼圖數據映射到球面,這些方法更好地捕捉了環(huán)境中的光照和反射特性。然而,目前的研究主要應用于無邊界的大場景或一些具有高光弧面的剛性物體,如頭骨、玻璃球等。當其應用于三維服裝數據時,會面臨一些問題:首先是紋理噪點問題。由于服裝表面通常帶有復雜的紋理,使用Nerf作為基礎的特征空間構建模型往往無法精確地從圖像中提取服裝的紋理信息,從而導致重照明結果中紋理的缺失。其次是重照明失真問題。服裝作為柔性物體,與剛性物體在光照模型的適配上存在差異。直接使用多個球面高斯或神經網絡來建立準確的光照模型是比較困難的,因而現有的光場模型容易導致服裝重照明結果的光照亮度失真。
為了解決上述問題,本文提出了一種基于特征空間的服裝重照明方法。針對重照明結果紋理失真問題,本文改進了文獻[9]中的張量輻射場模型,并利用其構建數字服裝的特征空間。這提升了特征空間從圖像中獲取紋理特征的能力,并有效地減少了紋理噪點。同時,為解決重照明失真問題,本文構建了一個更適合服裝模型的入射光場。此外,在BRDF模型的訓練過程中,本文引入了梯度引導平滑項,從而能夠回歸出更加準確的服裝表面粗糙度和反照率。這使得本文的模型能夠渲染出更加接近真實樣本的重照明結果。
1 服裝重照明方法
本文所構建的服裝重照明方法通過反射率渲染方程進行計算,其輸入由三個核心部分組成,即服裝表面幾何、環(huán)境光照信息及服裝材質特性。各個部分的計算模型概述如下:
首先,需要提取服裝表面的幾何信息,該信息可以通過重建服裝表面法線獲取。為此,本文將服裝表面的特征數據輸入到法線解碼網絡(NMLP)中,以精確提取出服裝表面的法向場。其次,為模擬真實的環(huán)境光照,本文構建了一個多因素入射光場模型,融合了球面高斯、間接光照及直射光、間接光的接收率,從而能夠高度逼真地再現真實環(huán)境中的復雜光照條件。最后,為刻畫服裝的材質特性,本文對雙向反射分布函數(BRDF)的參數進行估計,嵌入了一個參數解碼網絡(BMLP),它能夠從服裝的表面特征中精確地提取出反照率、粗糙度等關鍵的BRDF參數。此外,本文還引入了梯度引導平滑項(GGS),以進一步約束和優(yōu)化BRDF參數的回歸過程。
重照明方法的輸入包括不同的相機視角、相應相機視角下的法向圖、無背景的服裝圖像、含背景的服裝圖像,以及相應背景的環(huán)境貼圖。單張量輻射場模塊輸出無背景的服裝圖像像素顏色值,重照明模塊則輸出含背景的服裝圖像像素顏色值。整個重照明方法的流程如圖1所示,其中包含四個神經網絡,分別為CMLP、SCMLP、BMLP、NMLP的四個4×128的多層感知機(MLP)。在后續(xù)的研究中,本文將詳細闡述服裝重照明方法的具體實現細節(jié),以展現其完整的技術框架與流程。
1.1 單張量輻射場
本文在重照明方法中,首先對文獻[9]的模型進行優(yōu)化,構建了一個能夠更加準確地提取重照明模型參數的單張量輻射場。
原模型[9]采用體密度張量場和顏色張量場分別存儲三維場景的體密度和顏色特征,并使用了VM張量分解技術,在快速重建三維場景的同時保證了場景的細節(jié)質量。然而,要在其基礎上添加重照明模塊,則需要額外使用一個BRDF參數特征張量場。這種做法相當于完全解耦了三維場景的幾何、外觀與材質信息,從而丟失了場景屬性之間的潛在關聯。因此,假如直接使用這個方法作為重照明方法基礎模型,雖然在模型訓練速度上會有所提升,但重照明質量并不優(yōu)于使用傳統(tǒng)Nerf作為基礎模型的重照明方法。本文將服裝模型的體密度、顏色和BRDF參數特征融合為混合特征,并統(tǒng)一存儲于單個張量場中。這一改進不僅進一步加速了模型的收斂速度,同時也提升了重照明結果的質量。本文在下文的消融實驗也展示了使用單張量與多張量在重照明結果質量上的區(qū)別。
設服裝模型的某個表面點坐標為X(x,y,z),則該點處的服裝表面特征F就可表示為G(X)。F具體表達式為:
F=∑Rr=1vXr(x)MYZr(y,z)bXr(x)+vYr(y)
MXZr(x,z)bYr(y)+vZr(z)MXYr(x,y)bZr(z)(1)
式中:R是設定的張量分解量,在實驗中設為16;vXr、 MYZr分別代表第r個對應X、 Y和Z坐標軸上的特征分量權重向量和矩陣因子;服裝模型在表面點X處的特征向量即為48個分量特征的總和。
本文將特征向量的第一個元素定義為表面點的體密度特征值,記為F[0];而剩余的元素則構成服裝的特征向量,記為F(1,l),其中l(wèi)表示服裝特征向量長度,實驗中設為28。
單張量輻射場通過相機視角及其相應視角下的無背景服裝圖片進行訓練。其目標函數為:
lossst=C(ray)-Cgt22(2)
式中:C(ray)為文獻[5]中的體渲染公式計算出的像素顏色值,Cgt則是真實的像素顏色值。
通過逐像素最小化該目標函數,可以優(yōu)化式(1)中每個張量分解量的特征分量權重向量和矩陣因子,最終得到一個包含體密度值和服裝顏色特征的服裝特征空間。詳細的張量輻射場訓練流程可以參考文獻 [9]。
單張量輻射場首先會進行20 000次迭代,以獲得一個基本的服裝特征空間。需要注意的是,此時特征空間內的特征僅包含服裝的外觀特征,只能解碼出服裝的顏色值和體密度值。隨后,重照明模塊將進一步訓練該特征空間,使其中的特征轉化為混合特征。
1.2 法向預測網絡
表面法向場是指垂直于給定表面上每個點的矢量。這些信息被存儲在法向圖中,使得在渲染時能夠模擬出更加逼真的細節(jié)。在法向圖中,每個像素的顏色值對應于表面在該點的法線方向。具體講,法向圖利用RGB顏色空間表示法向在空間坐標軸上的各個分量。
將前文提及的服裝特征向量F(1,l)輸入到法線解碼網絡(NMLP)中進行解碼,從而獲取服裝表面的法向量。這一過程可以用下式來表示:
n=NMLP(F(1,l))(3)
對于每一個觀察視角,該模塊都可以生成相應的服裝表面法向圖。這些貼圖將作為后續(xù)渲染方程中的幾何信息輸入,為渲染過程提供關鍵數據。
該模塊需要數據集中某視角下的真實法向圖進行訓練,.輸入為服裝表面點處的特征向量F(1,l),輸出為處的法線向量預測值,其目標函數為:
lossn=n-ngt22(4)
式中:n為式(2)中由NMLP解碼得到的表面法向預測值;ngt真實法向值,通過對法向圖逐像素最小化該目標函數,可以優(yōu)化NMLP中的神經元權重。
1.3 多因素入射光場構建
本文在前文所述的單張量輻射場基礎上,構建了一個多因素入射光場模型。該模型的主要目的是為反射率渲染方程提供可靠的環(huán)境光輸入信息。
先前的重照明方法,如文獻[12]和文獻[13],在考慮服裝表面某一微分點(即在某視角下服裝圖像的一個像素點)的入射光時,通常考慮環(huán)境直射光及物體之間的反射光(即默認存在多個物體,能夠互相反射光線[14])。這種方法在重照明多物體場景時能夠提供更加準確的效果,但往往以高昂的計算量為代價。
本文的重照明方法則針對單一服裝的重照明。鑒于大多數常見的服裝材質(如棉、聚酯纖維等)反光特性較弱,因而僅考慮服裝自身表面點之間的間接反射光。為了減少計算量,僅使用一個多層感知機來近似計算該值。此外,本文的方法還額外增加了直射光和間接光接收率,以增加入射光場的靈活性,從而減少簡化間接反射光計算所帶來的重照明失真問題。
綜上所述,入射光場將包含三個關鍵因素:首先是來自服裝所處環(huán)境的直射光;其次是從服裝其他表面點間接反射到該點的光線;最后是該點對直射光及間接光的接收率。
入射光場的示意如圖2所示。圖中,虛線箭頭部分代表間接反射光,其充分考慮了從服裝的其他表面點反射到目標點的光線。而服裝表面點的最終顏色值,則是由間接反射光和直接光照(實線箭頭部分)共同決定。使得本文的入射光場更加貼近現實情況,從而能夠生成更為逼真的重照明圖像結果。
由于服裝表面間接反射光的精確計算頗具挑戰(zhàn),本文采用一種近似方法。將前文所述的服裝特征向量輸入間接光解碼網絡(SCMLP)中,通過解碼得到的服裝表面基色近似模擬服裝表面的間接反射光。這一過程可以用下式來表示:
Lind(X,ωi)=SCMLP(F(1,l))(5)
某視角下的間接反射光可視化效果如圖3(c)所示。
本文采用128個球面高斯函數對環(huán)境中的直射光進行擬合,并將此擬合結果記為:
Ld(ωi)=∑128k=1SG(ωi;ξk,λk,μk)(6)
式中:ωi表示用戶輸入的視角方向,而球面高斯函數的參數則包括振幅ξk、標準差λk和中心位置μk。這些參數共同決定了光照的強度和分布。
通過球面高斯擬合出的環(huán)境光效果如圖3(b)所示。
直射光及間接光接收率實際上是一個權重值,以提升入射光場的靈活性。本文利用文獻[5]中體渲染公式的不透明度部分近似計算直射光接收率,該值會在每輪單張量輻射場訓練時計算得出,重復使用以減少模型運算量。使用一個球面高斯近似計算間接光接收率。綜合上述因素,服裝模型表面的最終入射光可以表示為:
Ltol(X,ωi)=Ld(ωi)Td(X,ωi)+Lind(X,ωi)Tind(ωi)Tind(ωi) = SG(ωi;ξj,λj,μj)(7)
式中:Td(X,ωi)代表的是文獻[5]中提出的不透明度計算結果,用于近似直射光接收率;Tind(ωi)表示間接光的接收率;而Ld(ωi)和Lind(X^,ωi)分別代表通過式(3)模擬的環(huán)境直射光和通過式(4)模擬的服裝表面反射的間接光。
1.4 BRDF模型的參數估計與優(yōu)化
基于前文構建的入射光場可以計算出服裝模型上每一個微分點的入射光集合,現介紹重照明模型的雙向反射分布模型(BRDF)參數估計模塊。該模型可表示服裝表面的材質信息,其功能主要是根據入射光集合來計算反射光的強度。
該模塊主要包含一個BRDF參數解碼網絡(BMLP),以及用于提升網絡參數回歸能力的梯度引導平滑項。其中BMLP的輸入為前文提到的服裝表面特征,輸出為服裝表面點的反照率及粗糙度,這一過程記作:
[s,Rn]=BMLP(F(1,l))(8)
式中:BMLP的輸出包含4個通道,其中前三個通道代表反照率(albedo),而最后一個通道則代表粗糙度(roughness);這兩個參數用于輸入到后續(xù)的BRDF模型公式中計算。
直接使用多層感知機擬合服裝表面點的反照率及粗糙度,可能導致網絡輸入的特征僅有細微空間上的差異時,反照率和粗糙度結果卻發(fā)生急劇的變化。為了抑制這種不合理的變化本文引入梯度引導平滑項,通過懲罰大的反照率和粗糙度梯度,鼓勵生成平滑的圖像。約束公式如下:ls=1Pn∑P∈Id(式中:Pn表示在某視角圖片Id上所采樣的像素個數;而分別代表在像素坐標XP處的反照率和粗糙度的梯度,這些梯度信息可以通過反向傳播算法解析得到;另外表示法向圖在點XP的梯度,這個信息可以直接從本文1.2中的法線擬合網絡中獲取。
式(9)啟發(fā)于傳統(tǒng)圖像處理中的雙邊濾波平滑算法[15-16],文獻[15]中使用像素灰度值梯度的負指數函數來平滑金屬度梯度和粗糙度梯度,進而平滑金屬度值與粗糙度值,從而使得最終渲染出重照明對象具有更加真實的金屬光澤。鑒于本文方法針對的是數字服裝,默認重照明對象為非金屬材質,因此將BRDF中的金屬度參數設定為接近0的值。此外,本文采用法向圖梯度的負指數函數e-來平滑反照率梯度和粗糙度梯度。相比于圖像灰度值,法向圖包含了更精確的幾何形狀和細節(jié)信息,其梯度變化能夠更準確地反映服裝表面的細微變化,從而更加精確地對過大的反照率梯度和粗糙度梯度進行懲罰,進而優(yōu)化反照率及粗糙度結果急劇變化的現象,使得渲染出的服裝重照明圖像的紋理及外觀更加平滑而且真實。
在本文2.3中的消融實驗也展示了使用梯度引導平滑策略前后粗糙度的可視化對比。與之前相關研究類似,本文采用簡化的Disney原則[17]的BRDF模型,其公式表示為:
bf(ω0,ωi,s,Rn)=Fr(ω0,h,s)G(ωi,ω0,n,Rn)D(h)4(n·ω0)(n·ωi)(10)
式中:正態(tài)分布項D,其揭示了表面微觀結構如何影響反射光線的分布;菲涅爾項Fr,其反映了光線在表面發(fā)生反射時的強度變化;幾何項,其G描繪了光線與表面之間的幾何關系對光照強度的影響。各項的具體實現可以參考文獻[12]與文獻[13]中的實現方式。
1.5 反射率渲染方程及重照明方法目標函數
結合前文所構建的入射光場和BRDF模型,再應用反射率方程,可以渲染出帶有環(huán)境光屬性的服裝顏色值,相關公式如下:
L(X,ω0)=2πLnum∑i∈SLbf(X,ω0,ωi)Ltol(X,ωi)(n·ωi)(11)
式中:X表示服裝模型表面點的三維坐標向量,ω0表示視角方向,SL表示入射光集合,Lnum表示入射光的數量。
式(11)將服裝在點X處的顏色視為多道入射光在該點微平面上ω0視角下反射光的分量之和。通過結合本文前面部分提到的法線信息n、環(huán)境光照信息Ltol及表面材質信息bf,可以計算出該點的顏色。通過逐像素最小化這個計算值與真實服裝表面點顏色的損失,可以優(yōu)化特征空間和解碼網絡。在本文中,服裝模型的特征空間受到反射率方程渲染損失、單張量輻射場目標函數、法線目標函數及梯度平滑項共同約束和優(yōu)化。因此,總目標函數可以表示為:
ltol=λ1L(X,ω0)-Cgt22+λ2C(ray)-Cgt22+λ3n-ngt22+λ4ls(12)
式中:L(X,ω0)-Cgt22表示反射率方程渲染結果與對應點真實像素值之間的損失,即為方法重照明部分的目標函數;C(ray)-Cgt22為1.1中單張量輻射場的損失;n-ngt22為1.2中法向網絡的目標函數,ls表示式(10)中梯度引導平滑項的結果;而 λ1~λ4是自定義的損失權重。
需要注意的是,在達到一定的迭代次數之前(即在獲得場景曲面之前,本文實驗中設置為20 000次),λ1的值被設置為零。當迭代次數達到指定值后,λ2在隨后的迭代過程中會逐漸減小。
2 實驗結果
2.1 實驗數據集及評估指標
本文對三個多視角服裝數據集進行了實驗。針對每個數據集,本文都進行了重新渲染,以新的視角生成了圖像、重照明結果和法向圖。這些多視角服裝數據集通過使用Blender對三個三維服裝模型進行渲染生成,同時確保了相機位姿與文獻[5]中提及的數據集位姿一致。在每個數據集中,本文均渲染了300個不同視角下的圖像,這些圖像具有各種環(huán)境照明條件,分辨率為800×800像素,并附帶相應視角下的法向圖。為了評估方法的性能,本文將數據集劃分為訓練集(包含200個樣本)、測試集(70個樣本)和驗證集(30個樣本)。本文與先進的重照明方法進行了實驗結果比較,并確保在相同的相機位姿和評估指標下進行,如表1所示。
為了全面評估該方法在新視圖合成和重渲染結果性能,本文采用了四種廣泛認可的評估指標:
1)峰值信噪比(PSNR):通過計算信號的峰值與噪聲的比值來量化圖像或視頻的失真程度。
2)結構相似性指數(SSIM[18]):通過比較原始圖像和重建圖像之間的三個關鍵組成部分(亮度、對比度和結構)計算。
3)感知上的圖像相似性(LPIPS[19]):這是一個衡量圖像之間感知相似性的指標。與PSNR和SSIM不同,LPIPS更加注重人類視覺系統(tǒng)對圖像的感知和認知。
4)平均絕對誤差(MAE):此指標用于衡量實際觀測值與預測值之間的平均絕對差異程度。本文使用它來衡量方法生成的法向圖的準確度,通過這些綜合評估指標,能夠更全面、更客觀地評價方法的性能。
2.2 實驗結果分析
為了驗證本文所提方法的有效性,本文與文獻[12]和文獻[13]中介紹的兩種基于三維重建表面的重照明方法進行了對比,可視化對比結果如圖4所示。由圖4可以明顯看出,文獻[12]的服裝重照明結果存在較多的紋理噪點,并且環(huán)境光部分失真較為嚴重。這主要是因為該方法采用神經符號向量場(SDF)擬合服裝表面,而SDF高度依賴于準確的法線信息。法線信息的缺失導致了服裝表面重建的不準確和不平滑,進而引發(fā)重照明的失真。相比之下,文獻[13]在減少紋理噪點和重照明失真方面有所改進,但服裝表面仍略顯不平滑。這源于其BRDF參數擬合得不夠精確,從而影響反射率方程渲染結果的準確性。
而本文所提出的方法,得益于張量輻射場出色的表面重建能力及梯度平滑策略的有效性,不僅幾乎消除了紋理噪點,還能準確渲染出更接近真實樣本的不同環(huán)境光下的服裝圖像。結合圖4和表1可以看出,無論是服裝紋理細節(jié)還是整體光照準確度,本文方法都明顯優(yōu)于前兩種方法。
為了更定量地評估不同方法生成的服裝重照明結果質量,以及本文增加的重照明模塊對原輻射場方法特征空間的影響,本文展示了服裝幾何表面法線估計、新視角合成,以及重新照明的定量比較結果(表1)。與最先進的基于隱式表面重建的重照明技術相比,本文方法在服裝數據集中的表面法線生成質量提升了約20.600%,這得益于張量輻射場對場景幾何表面的精確構建。同時,服裝重照明圖像質量也提升了約9.922%,這主要歸功于梯度引導平滑策略使神經網絡能夠擬合出更準確平滑的BRDF參數,結合更準確的法線生成,從而渲染出更真實的重照明圖像。盡管本文將服裝表面顏色特征、體密度特征及物理屬性特征整合在同一個特征空間中,可能在一定程度上干擾了原方法的外觀特征,導致服裝新視角生成圖像的質量相較于文獻[9]中的方法略有降低,但與可重照明的方法相比,本文方法在新視角生成圖像的質量上仍提升了約4.549%。
2.3 消融實驗
為了進一步驗證本文方法的有效性,本文在PRINCESSDRESS數據集上開展了消融實驗。該數據集為一件帶有復雜紋理的公主裙的多視角數據集,其數據集結構與2.1中提到的結構一致,共300個根據相機視角劃分的文件夾,每個文件夾中包含相應視角下的服裝無背景圖像、含背景圖像、法向圖與對應相機位姿數據,其由三維公主裙服裝模型通過Blender渲染生成,由于其領口帶有較為復雜的紋理結構,且裙擺和袖口帶有大量褶皺,對其進行重照明更有難度,因而使用不同方法渲染出的結果差異性較大,所以選擇該數據集進行重照明消融實驗。這些實驗旨在探究本文提出的梯度引導平滑策略及使用不同特征空間存儲服裝特征對實驗結果的影響,相關實驗結果如表2、表3所示。
由表2可以看出,采用額外多個特征空間來存儲服裝特征(即服裝由密度特征空間、顏色特征空間和BRDF參數特征空間共同建模,記作A.M.F tensor)并未能提高服裝圖像的生成質量,反而增加了訓練時間。而使用額外單個特征空間存儲服裝特征(即服裝由體密度特征空間和外觀特征空間建模,記作A.S.F tensor)雖然可以略微提升服裝新視角的生成質量,但提升幅度非常有限,僅為0.476%,且這種提升是以模型訓練時間增加近一倍為代價的。
相比之下,本文所采用的方法更為高效和有效。本文僅使用單個特征空間來存儲服裝特征,并通過多個MLP解碼得到用于渲染公式的參數。這種方法不僅縮短了模型的訓練時間,而且使服裝重照明生成圖像的質量相較于另外兩種方法提升了近9.922%。這一顯著提升的原因在于服裝模型的體密度特征、顏色特征和BRDF參數特征之間存在潛在的相關性。通過避免解耦這些特征空間,本文方法能夠更好地學習到這種潛在的相關性,從而提升服裝圖像的渲染質量。此外,表2還加入了以Nerf作為基礎模型(Nerf AS B.M)的實驗結果。結果顯示,直接使用多張量輻射場進行重照明雖然在訓練速度上有所提升,但重照明結果的質量與以NeRF作為基礎模型的結果相差不大。因此,本文對張量輻射場的改進是有效的。
表3展示了使用不同方法進行服裝圖像渲染的實驗結果對比,包括純球面高斯直射光(DL)、直射光結合高斯擬合間接光(DL+SGID)、直射光結合多層感知機擬合間接光(DL+MLPID)、直射光加高斯擬合間接光再結合直射光接受率(DL+SGID+Vis),以及直射光加多層感知機擬合間接光再結合直射光與間接光接收率(DL+MLPID+Vis)。實驗結果顯示,采用直射光與間接光相結合,并輔以直射光接收率的入射光場策略,在服裝圖像渲染上取得了顯著效果。相較于不使用直射光接收率及不使用間接光的方法,圖像生成質量分別提升了9.948%和12.206%。在間接光的處理方式上,雖然在不加入直射光接收率的情況下,使用多層感知機(MLP)擬合間接光相較于球面高斯擬合方法下降了3.1614%,但在結合了直射光接收率后,MLP方法的圖像質量反而提升了4.082%。
這些實驗結果清晰地表明,間接反射光直射光接收率對于增強入射光場模擬的真實性至關重要。同時,MLP網絡在使用直射光接收率的條件下能更有效地模擬和渲染復雜的間接光效果。
由表4可知,使用不同方法進行服裝圖像渲染的實驗結果對比,包括梯度下降(GD)、梯度下降結合相對平滑損失項(GD+RSL),以及梯度下降結合本文提出的梯度引導平滑項(GD+GGS)。實驗結果顯示,相較于傳統(tǒng)的相對平滑損失方法,本文的梯度引導平滑策略在服裝新視角生成圖像質量上提升了約4.583%,在服裝重照明圖像生成質量上提升了約6.096%。
本文對比了使用相對平滑損失和本文方法回歸服裝粗糙度的差異,如圖5所示。由圖5可以清晰地看到,本文方法回歸出的粗糙度比傳統(tǒng)方法更為平滑,且避免了將服裝的紋理細節(jié)錯誤地訓練到粗糙度中。這一點在服裝衣領部分的粗糙度上尤為明顯,因為服裝紋理本應由服裝模型表面顏色決定,此部分的粗糙度不應產生突變。本研究引入的平滑策略有效改善了這一現象,進一步驗證了本文方法的有效性。
3 結 論
本文提出了一種基于單張量輻射場的三維數字服裝重照明方法。該方法基于單張量輻射場方法,在其重建的特征空間基礎之上增加了重照明模塊。該方法結合了法線預測網絡、多因素的入射光場、遵循Disney準則的BRDF模型及簡化的反射率方程,使其能夠實現任意視角下的服裝重照明。
實驗結果顯示,本文的服裝重照明方法有效利用了單張量輻射場的特征空間,顯著提高了運行效率。同時,通過引 入梯度平滑損失策略,BRDF參數的提取準確度也得到了顯著提升。這一方法不僅有效解決了服裝數據集中常見的紋理噪點問題,還提升了重照明的精確度。與當前先進方法相比,本文的方法在生成服裝新視角圖像的各項評估指標上平均提升了約9.922%,在服裝重照明結果的評估指標上更是取得了平均約4.549%的顯著提升,從而驗證了本文方法的有效性。
參考文獻:
[1]HABER T, FUCHS C, BEKAER P, et al. Relighting objects from image collections[C]" 2009 IEEE Conference on Computer Vision and Pattern Recognition. Miami Florida: IEEE, 2009.
[2]CHEN Z, CHEN A P, ZHANG G L, et al. A neural rendering framework for free-viewpoint relighting[C]" Proceedings of the IEEE CVF Conference on Computer Vision and Pattern Recognition. Seattle: IEEE, 2020.
[3]XU Z X, SUNKAVALLI K, HADAP S, et al. Deep image-based relighting from optimal sparse samples[J]. ACM Transactions on Graphics, 2018, 37(4): 1-13.
[4]QIU D, ZENG J, KE Z H, et al. Towards geometry guided neural relighting with flash photography[C]" 2020 International Conference on 3D Vision (3DV). London: IEEE, 2020.
[5]MILDENHALL B, SRINIVASAN P P, TANCIK M, et al. Nerf: Representing scenes as neural radiance fields for view synthesis[J]. Communications of the ACM, 2021, 65(1): 99-106.
[6]SUN C, SUN M, CHEN H T. Direct voxel grid optimization: Super-fast convergence for radiance fields reconstruction[C]" Proceedings of the IEEE CVF Conference on Computer Vision and Pattern Recognition. New Orleans: IEEE, 2022.
[7]YU A, LI R L, TANCIK M, et al. Plenoctrees for real-time rendering of neural radiance fields[C]" Proceedings of the IEEE CVF International Conference on Computer Vision. Montreal: IEEE, 2021.
[8]JIN H A, LIU I, XU P J, et al. Tensoir: Tensorial inverse rendering[C]" Proceedings of the IEEE CVF Conference on Computer Vision and Pattern Recognition. Vancouver: IEEE, 2023.
[9]CHEN A P, XU Z X, GEIGER A, et al. Tensorf: Tensorial radiance fields[C]" European Conference on Computer Vision. Cham: Springer Nature Switzerland, 2022.
[10]SRINIVASAN P P, DENG B Y, ZHANG X M, et al. Nerv: Neural reflectance and visibility fields for relighting and view synthesis[C]" Proceedings of the IEEE CVF Conference on Computer Vision and Pattern Recognition. Nashville: IEEE, 2021.
[11]ZHANG X M, SRINIVASAN P P, DENG B Y, et al. Nerfactor: Neural factorization of shape and reflectance under an unknown illumination[J]. ACM Transactions on Graphics, 2021, 40(6): 1-18.
[12]ZHANG K, LUAN F J, WANG Q Q, et al. Physg: Inverse rendering with spherical gaussians for physics-based material editing and relighting[C]" Proceedings of the IEEE CVF Conference on Computer Vision and Pattern Recognition. Nashvill: IEEE, 2021.
[13]ZHANG Y Q, SUN J M, HE X Y, et al. Modeling indirect illumination for inverse rendering[C]" Proceedings of the IEEE CVF Conference on Computer Vision and Pattern Recognition. New Orleans: IEEE, 2022.
[14]KAJIYA J T. The rendering equation[C]" Proceedings of the 13th Annual Conference on Computer Graphics and Interactive Techniques. New York: ACM, 1986.
[15]YAO Y, ZHANG J Y, LIU J B, et al. Neilf: Neural incident light field for physically-based material estimation[C]" European Conference on Computer Vision. Cham: Springer Nature Switzerland, 2022.
[16]TOMASI C, MANDUCHI R. Bilateral filtering for gray and color images[C]" Sixth International Conference on Computer Vision (IEEE Cat. No. 98CH36271). Bombay: IEEE, 1998.
[17]BURLEY B, STUDIOS W D A. Physically-based shading at disney[C]" Acm Siggraph. New York: ACM, 2012.
[18]WANG Z, BOVIK A C, SHEIKH H R, et al. Image quality assessment: From error visibility to structural similarity[J]. IEEE Transactions on Image Processing, 2004, 13(4): 600-612.
[19]ZHANG R, ISOLA P, EFROS A A, et al. The unreasonable effectiveness of deep features as a perceptual metric[C]" Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City: CVPR, 2018: 586-595.
A relighting method of digital garments based on a single tensor radiance field
CHEN Xinlei1, ZHENG Junhong1, JIN Yao1,2, HE Lili1,2
(1.School of Computer Science and Technology, Zhejiang Sci-Tech University, Hangzhou 310018, China;
2.Zhejiang Provincial Innovation Center of Advanced Textile Technology (Jianhu Laboratory), Shaoxing 310020, China)
Abstract:The technology of garment relighting carries substantial research significance in the domains of online garment sales, virtual fitting, and personalized customization. Moreover, relighting methods based on implicit 3D models have garnered considerable attention in the fields of computer vision and computer graphics. However, existing scene relighting techniques face inherent challenges when applied to garment datasets, such as texture noise and relighting distortion. To address these shortcomings, this paper proposes an innovative garment relighting method that operates in the feature tensor, to effectively mitigate these issues.
The relighting process involves incorporating the relighting component into the tensorial radiance fields to jointly optimize the feature space. To simulate the direct ambient light and the indirect light reflected between garment surfaces, Spherical Gauss and MLP techniques are employed to construct an incident light field. Additionally, a gradient-guided smoothing strategy is utilized to optimize the extraction of parameters from the bidirectional reflectance distribution function model, which are derived from the feature tensor. Finally, the garment relighting image is rendered by combining the incident light field, the bidirectional reflection distribution model, and the feature tensor using the simplified reflectivity equation.
This article presents experimental results on three garment datasets, comparing them with advanced methods such as Physg and InvRender. The results demonstrate that our method achieves an average improvement of about 4.549% in generating garment images from novel view and approximately 9.922% in generating garment images under relighting conditions, as evaluated using three indicators. The article visually demonstrates the effectiveness of our proposed method in reducing texture noise and reillumination distortion. Ablation experiments are also conducted, examining the impact of gradient-guided smoothing strategies and the use of single or multiple addition feature tensor for garment feature storage. The article shows that using multiple addition feature tensor does not enhance the quality of garment image generation but increases the training time. By comparison, using addition single feature tensor achieves a minimal improvement of only 0327% but significantly increases the training time. Our method, which employs a single feature tensor, significantly shortens training time and improves the quality of garment relighting images by approximately 8.870% compared to the other models. The article compares the experimental results of different lighting strategies (DL, DL+SGID, DL+MLPID, DL+SGID+Vis, and DL+MLPID+Vis) in garment image rendering. The results indicate that the combination of indirect light, direct light, and visibility achieves the best generation outcomes. The article compares experimental results obtained by employing different gradient descent strategies (GD, GD+RSL, and GD+GGS) in garment image rendering. The results indicate that our proposed gradient-guided smoothing strategy enhances the quality novel view garment images by approximately 4.583% and relighting garment images by about 6.096% compared to traditional relative smoothing loss methods.
This paper introduces a garment relighting model based on Tensorf for 3D garment relighting. The relighting module is integrated into Tensorf, which encompasses the incident light field combined with indirect light, the BRDF model based on the Disney principle, and the simplified reflectance equation. As a result, garment relighting from any perspective is achieved. The experimental results demonstrate that the proposed garment relighting model effectively leverages the feature tensor from Tensorf. The introduction of gradient smoothing loss contributes to the improved accuracy of BRDF parameters, reduces texture noise commonly encountered in existing methods applied to garment datasets, and enhances the accuracy of relighting. The evaluation indexes indicate that the model produces superior results compared to existing advanced methods for generating novel view images and relighting outcomes. However, it is worth noting that the surface reconstruction in this method relies on the tensor radiation field, which may result in rendering points with low effectiveness, leading to errors in the reconstruction of hollow areas on the surface. Future work will address this issue accordingly.
Key words:
single tensor radiance field; feature space; garment relighting; 3D reconstruction; image generation; bidirectional reflectance distribution function