文/李吉,黃羽嘉,陳嘉豪
傳統(tǒng)的蒙特卡洛渲染只有在采樣數(shù)無限大時,才能得出無偏的渲染圖像。因此,利用神經(jīng)網(wǎng)絡(luò)對低采樣率的渲染圖像進行降噪處理成為應(yīng)用最普遍的研究方案之一。但就目前來看,該研究方案仍存在難以重構(gòu)圖像高頻細節(jié)等不足。為此,本文提出GAN(循環(huán)神經(jīng)網(wǎng)絡(luò))與RNN(生成對抗網(wǎng)絡(luò))的新型組合結(jié)構(gòu),其不僅包含用于高效提取輔助特征的注意力機制,還包含由粗糙到細致地對圖像進行降噪處理的兩階段順序算法。經(jīng)驗證,與現(xiàn)有降噪模型相比,本文所提出的模型和操作方法能夠保留更多圖像高頻細節(jié),并在增強網(wǎng)絡(luò)魯棒性的同時,維持圖像序列幀在時域上的穩(wěn)定性。
蒙特卡洛渲染是一種光線追蹤算法,其通常采用蒙特卡洛積分法來計算每個像素的顏色值,進而基于計算結(jié)果在對應(yīng)設(shè)備上繪制出逼真圖像。然而,蒙特卡洛積分法在使用過程中也有可能導(dǎo)致渲染結(jié)果產(chǎn)生方差,這種方差在視覺上表現(xiàn)為噪聲。雖然可以通過提高采樣率來降低此類噪聲,但該補救措施通常會耗費較長時間?,F(xiàn)階段,技術(shù)人員也可以利用神經(jīng)網(wǎng)絡(luò)直接對低采樣率的圖像進行降噪處理。但目前該技術(shù)尚不夠成熟,對于圖像中的高頻細節(jié),該技術(shù)仍然難以進行重構(gòu)、降噪處理,降噪結(jié)果通常存在細節(jié)模糊或者過度平滑等問題。另外,此前開展的大部分研究僅能對單張圖像的空域進行降噪,多張圖像的序列幀在降噪過程中普遍出現(xiàn)幀間閃爍跳動等問題,時域穩(wěn)定性難以得到保證。
為此,本文提出一種基于循環(huán)生成對抗網(wǎng)絡(luò)的降噪模型(RAMCD)。該模型可以從空域和時域兩個角度逐步對圖像進行降噪處理,在減少噪聲的同時,還能保證幀間穩(wěn)定性。簡而言之,本文的主要研究成果可概括為以下三點:(1)采用兩階段順序算法逐步對圖像進行空域降噪和時域降噪處理,使圖像生成品質(zhì)由粗糙升級為細致,同時重構(gòu)出更多細節(jié);(2)采用注意力機制強化了輔助特征提取信息對網(wǎng)絡(luò)的影響,并進一步提高網(wǎng)絡(luò)對細節(jié)信息的重構(gòu)能力;(3)構(gòu)建GAN與RNN 相結(jié)合的網(wǎng)絡(luò)結(jié)構(gòu),同時采用空域和時域損失函數(shù),增強網(wǎng)絡(luò)魯棒性、,維持幀間穩(wěn)定性。
目前,深度學(xué)習(xí)和蒙特卡洛渲染已經(jīng)在各自的領(lǐng)域得到廣泛研究。因此,本文不再針對這兩個問題進行全面闡述。下文主要側(cè)重于圖像空域和時域的深度學(xué)習(xí)降噪方法,討論與本文所提出的網(wǎng)絡(luò)模型密切相關(guān)的GAN 和RNN,并關(guān)注輔助特征引導(dǎo)降噪和光路分解的有效性。
空域圖像降噪方法的操作原理是,針對像素間的距離建立某種模型,并通過搜索與像素結(jié)構(gòu)相似的像素值來恢復(fù)圖像損失像素。在深度學(xué)習(xí)圖像空域降噪過程中,GAN 利用生成器和判別器之間的相互博弈,在圖像生成、圖像降噪等領(lǐng)域表現(xiàn)突出。例如,KPCN(經(jīng)典降噪網(wǎng)絡(luò)之一)[1]便是基于簡單的CNN(卷積神經(jīng)網(wǎng)絡(luò))對光路進行分解,并將全局光照分解為鏡面反射與漫反射分支,進而從不同的光照角度對圖像進行降噪處理的。此外,由于輔助特征基本包含了場景中的所有信息,部分研究者便將其與噪聲圖像一同輸入網(wǎng)絡(luò)中,旨在進一步豐富網(wǎng)絡(luò)訓(xùn)練內(nèi)容。但截至目前,已有研究只能實現(xiàn)單幀圖像的降噪處理,無法保持時域穩(wěn)定性。
在眾多針對單幀圖像降噪的研究中,也有一部分研究者將注意力放在增強蒙特卡洛渲染降噪時域穩(wěn)定性上,以有效避免動畫和交互式等應(yīng)用的序列幀出現(xiàn)嚴重的閃爍偽影現(xiàn)象。同時,RAE 網(wǎng)絡(luò)(經(jīng)典降噪網(wǎng)絡(luò)之一)利用RNN[2]框架,在考慮時間一致性的前提下,從時域角度對圖像進行降噪處理,并有效降低了幀間閃爍跳動的發(fā)生頻率。然而,目前上述操作方法仍難以重建圖像高頻細節(jié),且容易出現(xiàn)模糊、偽影等情況。
本文提出一種基于循環(huán)生成對抗網(wǎng)絡(luò)的降噪模型,如圖1所示。在該模型中,網(wǎng)絡(luò)分兩個階段逐步對圖像進行空域降噪和時域降噪處理,圖像生成質(zhì)量實現(xiàn)了由粗糙到細致的提升,重構(gòu)細節(jié)明顯增多。同時,為有效減少高頻信息處的噪聲,重構(gòu)出更多細節(jié),第一階段的空域降噪處理采用光路分解的方式,將渲染分為高頻信息的鏡面反射與低頻信息的漫反射兩個部分。隨后,兩個輕量級空間降噪網(wǎng)絡(luò)將分別對圖像進行降噪處理,以確保網(wǎng)絡(luò)專注處理不同頻度的信息,并最終得到初步的空域降噪結(jié)果。在第二階段的時域降噪處理過程中,由GAN 與RNN 結(jié)合而成的網(wǎng)絡(luò)結(jié)構(gòu),將利用RNN 隱藏層之間的交流特性有效開展時域降噪處理。同時,在GAN 學(xué)習(xí)真實樣本的數(shù)據(jù)分布特性后,其生成結(jié)果在視覺上將更加真實。而鑒別器的使用,則能進一步增強網(wǎng)絡(luò)的魯棒性。由于采用編碼網(wǎng)絡(luò)提取的輔助特征包含渲染圖像的大量信息,因此,該模型采用注意力機制將提取到的輔助特征信息分別輸入網(wǎng)絡(luò)的不同層中,并通過加入時域損失函數(shù)與空域損失函數(shù),實現(xiàn)了時間維度上的降噪處理,在維持幀間穩(wěn)定性的同時,為空域降噪提供便利。
空域降噪網(wǎng)絡(luò)主要包含兩個輕量級空間降噪網(wǎng)絡(luò),其采用U-Net網(wǎng)絡(luò)結(jié)構(gòu),通過光路分解的方式,分別輸入鏡面反射與漫反射的噪聲圖像,并將輔助特征一同作為兩個網(wǎng)絡(luò)輸入,從而為網(wǎng)絡(luò)降噪提供額外的場景信息。由于網(wǎng)絡(luò)參數(shù)較小,每幀圖像只需要12ms就能完成初步降噪處理。
時域降噪網(wǎng)絡(luò)中的降噪網(wǎng)絡(luò)模塊主要由卷積層和Leaky Relu(激活函數(shù))層堆疊而成。該模塊將多個降噪網(wǎng)絡(luò)模塊相鏈接以增加網(wǎng)絡(luò)層數(shù),同時采用類似U-Net的網(wǎng)絡(luò)結(jié)構(gòu)對不同輔助特征加以融合。整個時域降噪網(wǎng)絡(luò)以RNN 與GAN 相結(jié)合網(wǎng)絡(luò)結(jié)構(gòu)為主,充分利用GAN 學(xué)習(xí)真實數(shù)據(jù)的分布特性以及RNN 結(jié)構(gòu)隱藏層之間的交流特性來建立幀間關(guān)聯(lián)性,并對圖像進行時域降噪處理。類似U-Net 的網(wǎng)絡(luò)結(jié)構(gòu)能夠?qū)⑶安糠志W(wǎng)絡(luò)層的輸出特征傳輸至后部分網(wǎng)絡(luò)層中。因此,該模塊只需要對前部分網(wǎng)絡(luò)層使用循環(huán)結(jié)構(gòu),將每一層網(wǎng)絡(luò)的輸出特征傳輸至下一輪訓(xùn)練,就能達到幀間交流的效果。
在降噪模型中采用注意力機制的目的是,將提取到的輔助特征信息分別輸送至不同降噪網(wǎng)絡(luò)模塊,以減少網(wǎng)絡(luò)參數(shù)總量,提高模型運行速度。由于時域降噪網(wǎng)絡(luò)中,類似U-Net的網(wǎng)絡(luò)結(jié)構(gòu)能夠?qū)⑶安糠志W(wǎng)絡(luò)層的輸出特征傳輸至后部分網(wǎng)絡(luò)層中,注意力機制只需要在前部分降噪網(wǎng)絡(luò)模塊中輸入提取到的輔助特征信息即可。
降噪模型的訓(xùn)練需要大量的數(shù)據(jù)集作為支撐。為確保數(shù)據(jù)集數(shù)量充足并且具有多樣性,本文選用大規(guī)模三維虛擬室內(nèi)場景作為渲染場景,并進行數(shù)據(jù)集采集。這些場景通常光照充足,表面材質(zhì)、幾何形狀各異,具有一定的代表性。
本文中,數(shù)據(jù)集的搭建是基于DXR 的蒙特卡洛路徑跟蹤方法完成的,最終共產(chǎn)生6480張數(shù)據(jù)集圖像。其中,4380張圖像用于降噪模型的訓(xùn)練,2100張圖像用于降噪模型的測試;所有圖像的分辨率均為512×512像素,目標圖像的采樣率為100%,鏡面反射噪聲圖像與漫反射噪聲圖像的SPP值為4;輔助特征直接從G-Buffer渲染引擎中獲取,并且包含法線圖、深度圖、反照率、粗糙度等信息。此外,為了降低走樣對圖像生成效果的影響,所有數(shù)據(jù)均進行隨機相機抖動反走樣處理。
為了確保實驗結(jié)果的科學(xué)性,本文將降噪模型與幾個經(jīng)典降噪網(wǎng)絡(luò)進行對比,如KPCN、Pix2Pix、RAE、RAMCD等(見圖2)。由圖2可知,本文設(shè)計的降噪模型的算法的客觀指標明顯優(yōu)于對照降噪網(wǎng)絡(luò)的指數(shù),并且能夠重構(gòu)出更多的細節(jié)信息。同時,參考結(jié)構(gòu)相似性指數(shù)SSIM、峰值信噪比PSNR來綜合評估圖像降噪質(zhì)量,時空縮減參考熵差ST-RRED以評估時間一致性。其中,SSIM與PSNR的值越高,則表示圖像降噪結(jié)果越接近真實;ST-RRED的值越低,則表示圖像幀間穩(wěn)定性越好。
綜上所述,本文設(shè)計的降噪處理模型采用兩階段順序算法,分別從空域和時域兩個角度對圖像進行降噪處理,成功重構(gòu)出更細致的降噪圖像。更重要的是,該模型可以利用光照分解和注意力機制,有效提高圖像輔助特征信息的利用率,更好地維持時域穩(wěn)定性。同時,該模型還能依托GAN與RNN結(jié)合的網(wǎng)絡(luò)結(jié)構(gòu),幫助樣本學(xué)習(xí)真實的數(shù)據(jù)分布特征。根據(jù)實驗結(jié)果,與現(xiàn)有降噪方法相比,該模型的精度可提升6%~20%。接下來,筆者將繼續(xù)優(yōu)化該模型的網(wǎng)絡(luò)結(jié)構(gòu),并重點針對場景陰影展開實驗,以期重構(gòu)出更細膩的全局光照結(jié)果。