關(guān)鍵詞:光度立體;深度學(xué)習(xí);自注意力;殘差網(wǎng)絡(luò)
中圖分類號:TP389.1 文獻標志碼:A
0 引言(Introduction)
光度立體作為逆渲染鄰域的一個分支,一直是計算機圖形學(xué)中重要的研究方向,它廣泛地應(yīng)用于虛擬現(xiàn)實、視頻游戲及影視制作等行業(yè)[1]。光度立體通過圖像與光照之間的聯(lián)系,推斷出物體表面的法向信息。未標定的光度立體(Uncalibrated Photometric Stereo)是光度立體的一個重要的研究方向,旨在解決實際場景中,當相機和光源參數(shù)未精確標定時,如何準確推斷物體表面法線的問題。在未標定的光度立體方法中,算法不要求事先知道相機和光源的內(nèi)部參數(shù),而是試圖通過觀察物體表面在不同光照條件下的亮度變化,還原物體的三維信息。這使得未標定的光度立體更具實用性,在現(xiàn)實應(yīng)用中,準確地獲得標定參數(shù)頗具挑戰(zhàn),甚至有時并不現(xiàn)實。通過解決未標定的問題,實現(xiàn)從實際圖像中更加靈活地獲取實用的三維幾何信息。
本文設(shè)計了一個基于自注意力和多重最大池化的未標定光度立體算法模型。在估計光照信息階段,通過在網(wǎng)絡(luò)中加入自注意力模塊,幫助網(wǎng)絡(luò)能學(xué)習(xí)到長距離特征之間的聯(lián)系,從而提升其感知能力。在法線估計階段,本研究設(shè)計了一個多重特征提取和融合網(wǎng)絡(luò),通過對不同深度特征的有效融合,提升網(wǎng)絡(luò)對多圖像輸入時的魯棒性。
1 相關(guān)工作(Related work)
在傳統(tǒng)的光度立體方法中[2],通常會假設(shè)物體的表面是基于朗伯反射模型(Lambertian Shading),這是一種理想的光照模型,然而現(xiàn)實中鮮有物體能完全符合其假設(shè)。后續(xù)提出的非朗伯模型光度立體方法更貼近現(xiàn)實物體表面特性,這些方法雖然更適用于現(xiàn)實的物體表面,但是均屬于傳統(tǒng)的計算方法,因此在可擴展性和使用效率上受到了限制。近年來,深度學(xué)習(xí)在計算機圖形學(xué)與計算機視覺領(lǐng)域的應(yīng)用為光度立體研究提供了新的思路和路徑。
1.1 標定的光度立體方法
在深度學(xué)習(xí)中,標定的光度立體方法通常需要將光照信息作為網(wǎng)絡(luò)訓(xùn)練的先驗知識。CHEN 等[3]設(shè)計了PS-FCN(Photometric Stereo Fully Convolutional Network)網(wǎng)絡(luò)用于估計表面法線,該方法將多張輸入圖片和其光照信息一起輸入網(wǎng)絡(luò)中,并使用一個最大池化層融合多張圖片的共同特征,同時他們也提出了一個名為LCNet(Lighting Calibration Network)的網(wǎng)絡(luò)用于估計光照的強度和方向。JU等[4]設(shè)計了一個多尺度的特征融合模塊,該模塊可以對高分辨率和深度的特征進行提取,將不同輸入的同一層次特征分別疊加并輸入下一層級的網(wǎng)絡(luò)中,并利用多個最大池化層融合結(jié)果,同時他們還設(shè)計了一個卷積模塊用于提高法線推斷的準確度。雖然這些方法可以很好地估計法線,但是需要先驗的光源信息,因此其實用性受到了限制。
1.2 未標定的光度立體方法
未標定的光度立體方法一般只使用圖像信息而不依賴具體的光照條件來估計物體法線信息。CHEN等[5]提出一個名為SDPS-Net(Selfcalibrating Deep Photometric Stereo Network)的網(wǎng)絡(luò)結(jié)構(gòu),其采用分段的方式分別估計光照和法線信息。LI等[6]提出了一種可以在常規(guī)光照作用下聯(lián)合優(yōu)化幾何物體形狀、光方向和光強度的方法。TIWARI等[7]提出了一個深度學(xué)習(xí)框架,分別將光照估計、圖片重照明及表面法線估計3個任務(wù)結(jié)合,通過輸入單張照片,該網(wǎng)絡(luò)可以提取圖片的全局和局部特征,并使用聯(lián)合訓(xùn)練提高網(wǎng)絡(luò)的效果。CHEN等[8]提出了一個名為GCNet(Guided Calibration Network)的網(wǎng)絡(luò)結(jié)構(gòu),分別設(shè)計了一個光照估計網(wǎng)絡(luò)和法線估計網(wǎng)絡(luò),采用獨立和聯(lián)合訓(xùn)練的方式分別優(yōu)化網(wǎng)絡(luò)的參數(shù)。
2 光度立體網(wǎng)絡(luò)模型(The photometric stereonetwork model)
本文的網(wǎng)絡(luò)結(jié)構(gòu)由兩個部分組成,分別是光照估計網(wǎng)絡(luò)和法線恢復(fù)網(wǎng)絡(luò)。網(wǎng)絡(luò)結(jié)構(gòu)的整體組合方式借鑒了CHEN等[8]的方法(圖1),分別使用了兩個光照估計網(wǎng)絡(luò)和一個法線恢復(fù)網(wǎng)絡(luò)。網(wǎng)絡(luò)的輸入是若干張不同光源作用的目標圖像和物體遮罩圖,將遮罩圖和一張目標圖像組合作為一組輸入。通過利用不同光照下的圖像,可以為網(wǎng)絡(luò)提供充足的信息,實現(xiàn)光源和法向的準確估計。本文模型的訓(xùn)練流程如下:首先,使用第一個光照估計網(wǎng)絡(luò)對輸入圖片的光源信息進行初步的預(yù)測;其次,法線恢復(fù)網(wǎng)絡(luò)根據(jù)初步預(yù)測的光源信息和輸入圖片恢復(fù)圖片的法線信息;最后,第二個光照估計網(wǎng)絡(luò)總結(jié)已有的信息,進而恢復(fù)更準確的光照方向和光照強度。
2.1 光照估計網(wǎng)絡(luò)
光照估計網(wǎng)絡(luò)結(jié)構(gòu)示意圖如圖2所示。對于輸入的圖片,首先,經(jīng)過了7個卷積層和一個自注意力模塊,每個卷積層后都加入了批歸一化層和Leaky Relu激活函數(shù),用于提高網(wǎng)絡(luò)的性能、穩(wěn)定性及泛化能力。其中,每個卷積核的大小都是3×3,采用步長為1和步長為2的卷積核交替對特征進行提取。其次,通過一個最大池化層將來自不同輸入的特征進行融合,并拼接到各自原來的輸入中。最后,通過4個卷積層、1個自注意力模塊和2個全連接層,分別對光照方向和光照強度進行估計。其中,自注意力模塊的設(shè)計借鑒了ZHANG等[9]的方法。
2.2 法線恢復(fù)網(wǎng)絡(luò)
本文設(shè)計的法線恢復(fù)網(wǎng)絡(luò)結(jié)構(gòu)示意圖如圖3所示,它將圖片和光源等信息作為輸入條件,因為要對多個不同輸入進行特征提取,所以該網(wǎng)絡(luò)整體上采用并行計算的方式。法線恢復(fù)網(wǎng)絡(luò)的前半部分總共有3組卷積層,由殘差模塊和最大池化層組成特征提取模塊,每個卷積層都包含了批歸一化層和LeakyRelu激活函數(shù),使得非線性變換的結(jié)果更容易被學(xué)習(xí)。第一組的特征提取模塊的卷積層的卷積核大小為3×3,步長為1,主要是為了提取淺層特征。后兩組的卷積層的卷積核大小為3×3,步長為2,通過將步長設(shè)置為2,可以提升卷積核的感受野,并壓縮提取后特征圖的大小,從而起到減少計算量和避免過擬合的作用。
法線恢復(fù)網(wǎng)絡(luò)的后半部分通過一個上采樣層、卷積層及最大池化層,將所有輸入的特征融合后進行綜合性的卷積操作,其中上采樣層采用反卷積的結(jié)構(gòu)可以學(xué)習(xí)到更多的參數(shù)。將融合后的特征通過多個卷積和一個上采樣層后,再通過L2激活函數(shù)將結(jié)果映射到真實的法向分布空間。
本文設(shè)計的殘差模塊結(jié)構(gòu)示意圖如圖4所示,輸入特征經(jīng)過一個卷積核大小為3×3,步長為1的卷積層,再依次經(jīng)過批歸一化層、Leaky Relu激活函數(shù)、卷積層及批歸一化層后,通過跳躍連接,將最初的輸入和經(jīng)過卷積后的輸出合并后,通過Leaky Relu激活函數(shù)進行非線性變換映射。通過引入跳躍連接,使得殘差模塊不再直接學(xué)習(xí)輸入到輸出的映射,而是學(xué)習(xí)輸入到輸出的殘差關(guān)系,從而更利于模型的學(xué)習(xí),并減少過擬合和梯度消失等問題。
3 實驗結(jié)果與分析(Experimental results andanalysis)
3.1 數(shù)據(jù)集
本文訓(xùn)練所使用的數(shù)據(jù)集來自CHEN等[10]提出的合成數(shù)據(jù)集,該數(shù)據(jù)集包含了blobby shape和sculpture shape兩個部分,其中blobby shape數(shù)據(jù)集包含25 920個樣本,sculptureshape數(shù)據(jù)集包含59 292個樣本,總共85 212個樣本。在訓(xùn)練過程中按照99∶1的比例劃分訓(xùn)練集和驗證集,并運用介于[-0.02,0.02]的噪聲對樣本進行數(shù)據(jù)增強,從而增強模型的泛化能力和魯棒性。
3.2 實驗環(huán)境
本文的實驗環(huán)境在Windows11系統(tǒng)下進行,使用的GPU為RTX4080-16GB,CPU為AMD 5600X。本文使用PyTorch1.13.1作為訓(xùn)練用的框架,Python版本為3.8,使用Adam優(yōu)化器,在訓(xùn)練過程中根據(jù)模型的特點動態(tài)調(diào)整了學(xué)習(xí)率和批量大?。˙atchSize),從而加快模型的擬合速度。
3.3 結(jié)果分析
本文首先對光照估計網(wǎng)絡(luò)的效果進行結(jié)果分析。使用DiLiGenT[11]作為測試用的數(shù)據(jù)集,該測試數(shù)據(jù)集總共有10個不同類型的樣本,每個樣本各包含96份光度圖和法向信息圖。在評價光照方向和法向時,使用平均角度誤差(Mean AngularError,MAE)作為評價標準。在評價光照強度時,使用尺度恒定相對誤差作為評價標準。
本文分別選擇PF14[12]、LCNet和GCNet作為光照結(jié)果的比較對象,比較結(jié)果如表1所示,其中最好的數(shù)值以粗體形式標出。從表1中的數(shù)據(jù)可以發(fā)現(xiàn),本文方法在光源法向的平均角度上有更低的誤差,而光源強度也與表現(xiàn)最好的GCNet十分接近。
本文選取了部分光照分布效果對比圖,這些樣本均來自DiLiGenT數(shù)據(jù)集,如圖5所示,在Buddha、Cat和Cow三個樣本上,本文方法模擬的光照分布效果與真實光照分布更加接近,這從側(cè)面印證了本文方法對提升光照分布的正面作用。
在分析對比法向網(wǎng)絡(luò)的效果時,本文選取了目前效果最好的非標定光度立體方法作為對比對象,包括PF14(A RobustSolution to Uncalibrated Photometric Stereo Via Local DiffuseReflectance Maxima)[12]、LC18[13]、SDPS-Net[5]、KS21(InverseRendering for Photometric Stereo)[14]和SK22(Neural ArchitectureSearch for Uncalibrated Deep Photometric Stereo)[15]。除此之外,本文還將GCNet[8]的光照預(yù)測結(jié)果作為PS-FCN[10]的輸入,將兩者組合作為其中一個對比對象。DiLiGenT數(shù)據(jù)集的法線的平均角度誤差對比結(jié)果如表2所示,本文方法在平均角度誤差上取得了更好的表現(xiàn),說明本文對法線恢復(fù)網(wǎng)絡(luò)功能設(shè)計的有效性。
4 結(jié)論(Conclusion)
本文提出了一種基于深度學(xué)習(xí)和殘差網(wǎng)絡(luò)的光度立體方法。該方法采用分段的方式分別對輸入圖像的光源信息和法線進行估計,通過結(jié)合使用多重池化和殘差網(wǎng)絡(luò)的方式,提升了網(wǎng)絡(luò)的擬合性能。在光源估計網(wǎng)絡(luò)中,通過在特征融合前后加入自注意力模塊使得網(wǎng)絡(luò)可以學(xué)習(xí)到長距離的像素特征關(guān)系,從而提高網(wǎng)絡(luò)對圖像分解與信息的利用能力。在法線恢復(fù)網(wǎng)絡(luò)中,通過設(shè)計由淺入深的特征融合層,使得網(wǎng)絡(luò)可以更充分融合多圖像輸入的信息,同時在卷積過程中使用殘差塊的方式,可以加快網(wǎng)絡(luò)反向傳播的進程,從而提高特征的利用效率。
本文提出的基于深度學(xué)習(xí)和殘差網(wǎng)絡(luò)的光度立體方法雖然有助于提升對光源和法線估計的準確度,但是該方法存在一定的局限性,究其原因是本文方法采用先估計光照后估計法向的方式,這種分段式的網(wǎng)絡(luò)設(shè)計雖然可以顯著減少模型訓(xùn)練和擬合所需的時間,但是估計法線依賴估計光源的準確度,所以不可避免地存在誤差。為了更好地解決這一問題,可以引入更多約束的方式,例如將輸入圖像分解為更全面的材質(zhì)屬性,將這些材質(zhì)屬性綜合的渲染結(jié)果作為訓(xùn)練網(wǎng)絡(luò)的約束方式,從而減小誤差,提升準確度,但也會擴大模型的規(guī)模,因此需要做好兼顧與平衡。
作者簡介:
方明權(quán)(1997-),男,碩士生。研究領(lǐng)域:計算機圖形學(xué),深度學(xué)習(xí)。
宋 瀅(1981-),女,博士,副教授。研究領(lǐng)域:計算機圖形學(xué)。