在生成高質(zhì)量圖像方面,生成對(duì)抗網(wǎng)絡(luò)(GAN)在近幾年取得了令人印象深刻的進(jìn)展。
這些進(jìn)步大多集中在生成器的輸出空間和給定的數(shù)據(jù)集設(shè)置相同方面,這些輸出通常是圖像,有時(shí)也是3D卷形式。
而最新的研究主要體現(xiàn)在生成與現(xiàn)有的訓(xùn)練數(shù)據(jù)不同的新輸出上。這包括為一類對(duì)象生成3D幾何圖形和相應(yīng)的紋理的方法,給定的數(shù)據(jù)集只包含廣泛可用的單視圖圖像。沒有使用多視圖圖像或3D幾何圖形來(lái)監(jiān)督3D感知生成對(duì)抗網(wǎng)絡(luò)的訓(xùn)練。
為了從這種有限的監(jiān)督形式中學(xué)習(xí)3D幾何圖形,之前的研究通常會(huì)結(jié)合三維感知?dú)w納偏差,如三維體素網(wǎng)格或使用渲染引擎的隱式表示。
然而,提高這些方法的結(jié)果質(zhì)量仍然具有挑戰(zhàn)性:3D感知的歸納偏差通常是內(nèi)存密集型的顯式或隱式3D卷,并且渲染通常需要計(jì)算。此外,從2D生成對(duì)抗網(wǎng)絡(luò)中獲得的經(jīng)驗(yàn)教訓(xùn)往往不能直接轉(zhuǎn)移,因?yàn)樯善鞯妮敵錾踔疗湔麄€(gè)結(jié)構(gòu)都必須進(jìn)行調(diào)整。
這就提出了一個(gè)問題:讓現(xiàn)有的2D生成對(duì)抗網(wǎng)絡(luò)3D感知,需要真正做些什么?
為了回答這個(gè)問題,本次蘋果聯(lián)合學(xué)界希望以最少方式修改現(xiàn)有的2D生成對(duì)抗網(wǎng)絡(luò),并建立一個(gè)有效的推理和訓(xùn)練程序。
3D感知生成多平面圖像的概述
近日,相關(guān)論文以《生成多平面圖像:制作一個(gè)2DGAN3D感知》為題提交在arXiv上。
首先對(duì)生成對(duì)抗網(wǎng)絡(luò)的概念做一簡(jiǎn)單介紹。據(jù)維基百科了解,“生成對(duì)抗網(wǎng)絡(luò) 是一類機(jī)器學(xué)習(xí)框架,由生成器和鑒別器兩個(gè)神經(jīng)網(wǎng)絡(luò)在游戲中相互競(jìng)爭(zhēng),鑒別器對(duì)生成器產(chǎn)生的欺騙樣本進(jìn)行檢測(cè),使用零和博弈的形式,其中一個(gè)代理的收益是另一個(gè)代理的損失。這一對(duì)抗性概念最初被認(rèn)為是無(wú)監(jiān)督學(xué)習(xí)生成模型的一種形式,但它也被證實(shí)對(duì)半監(jiān)督學(xué)習(xí)、完全監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)有用?!?/p>
本次研究人員選擇了一種被廣泛使用的高清圖像合成方法StyleGANv2。對(duì)此,研究者在論文中表示:“StyleGANv2有一個(gè)額外的好處,即許多訓(xùn)練檢查點(diǎn)都是公開可用的。”
StyleGANv2發(fā)布于2020年,是StyleGAN(2018年12月推出)的升級(jí)版。StyleGAN主要體現(xiàn)人臉屬性,像臉型的表情、朝向、膚色、光照等多方面容貌姿態(tài)信息。
通過(guò)輸入不同參數(shù),可以使StyleGAN生成精細(xì)程度不同的各種人臉“Style”。另外,該模型也可以生成動(dòng)物、汽車等圖像。值得一提的是,由于StyleGAN可以對(duì)生成的圖像進(jìn)行細(xì)致調(diào)整,從而更容易生成足夠真實(shí)的假圖像。該技術(shù)的一些潛在有害用途一直存在爭(zhēng)議。
在三個(gè)數(shù)據(jù)集(FFHQ、AFHQv2和MetFaces)上,使用最小的更改集進(jìn)行2D Gan 3D感知
回到一開始提出的問題,讓現(xiàn)有的2D生成對(duì)抗網(wǎng)絡(luò)3D感知需要什么?
本次研究團(tuán)隊(duì)在論文中表示:“只有兩個(gè)修改是絕對(duì)必要的:1.一個(gè)多平面圖像樣式生成器分支,它生成一組基于其深度的Alpha映射。2.一個(gè)姿勢(shì)調(diào)節(jié)的鑒別器。更具體地說(shuō),我們?yōu)镾tyleGANv2開發(fā)了一個(gè)新的生成器分支,它會(huì)產(chǎn)生一組類似于一個(gè)多平面圖像的正面平行的Alpha映射。這是第一個(gè)證明一個(gè)多平面圖像可以作為無(wú)條件的3D感知生成模型的場(chǎng)景表示的研究?!?/p>
據(jù)了解,區(qū)別于生成器和鑒別器一同調(diào)整的情況,新分支是從零進(jìn)行訓(xùn)練,并且,結(jié)合Alpha映射與一個(gè)多平面圖像渲染中的單一圖像輸出,還可得到多種視圖的3D感知生成。
雖然Alpha映射遮擋的解決還存在一定限制,但其地圖數(shù)量和渲染都比較有優(yōu)勢(shì),甚至在訓(xùn)練和推理方便也有差別,可緩解記憶問題。
“我們將這種生成輸出的方法稱作‘生成多平面圖像’?!毖芯咳藛T在論文中表示。他們還提到,雖然這兩種調(diào)整在事后看起來(lái)很直觀,但令人驚訝的是,一個(gè)具有基于其深度的平面和使用相機(jī)姿態(tài)信息的Alpha地圖,對(duì)3D感知的歸納偏差是足夠的。
最終的Alpha映射是通過(guò)累積所有由單個(gè)卷積層生成的中間結(jié)果來(lái)獲得的
另外,即便修改Alpha映射的另一個(gè)歸納偏差有效,但對(duì)獲得3D感知并不是必要的。
總的來(lái)說(shuō),本次研究團(tuán)隊(duì)的貢獻(xiàn)主要體現(xiàn)在兩方面:1.使用標(biāo)準(zhǔn)單視圖2D圖像數(shù)據(jù)集,訓(xùn)練類似一個(gè)多平面圖像的3D感知生成模型;2.在深度上的Alpha平面或一個(gè)可學(xué)習(xí)的令牌和相機(jī)姿態(tài)上的鑒別器,足以使2D生成對(duì)抗網(wǎng)絡(luò)轉(zhuǎn)向3D感知。
此外,團(tuán)隊(duì)還研究了在三個(gè)高分辨率數(shù)據(jù)集(FFHQ、AFHQv2和MetFaces)上編碼3D感知?dú)w納偏差的方法。同時(shí)也對(duì)其他信息提供了改進(jìn),但這些對(duì)3D感知并不是嚴(yán)格必要的。
最后,研究人員希望‘生成多平面圖像’的簡(jiǎn)單性,能對(duì)解決遮擋推理等工作的限制提供幫助。