魏富強,古蘭拜爾·吐爾洪,買日旦·吾守爾
新疆大學(xué) 信息科學(xué)與工程學(xué)院,烏魯木齊 830046
伴隨著信息技術(shù)的革新、硬件設(shè)備的算力不斷更替,人工智能在信息化社會蓬勃發(fā)展,以生成模型[1]為代表的機器學(xué)習(xí)領(lǐng)域,持續(xù)受到研究者關(guān)注。它被廣泛應(yīng)用于計算機視覺方向,如圖像生成[2-4]、視頻生成[5-7]等任務(wù);以信息隱寫[8-9]、文本生成[10]等任務(wù)為代表的自然語言處理方向;音頻領(lǐng)域的語音合成[11]等方向,并且在這些任務(wù)中,生成模型均表現(xiàn)出了與其他模型相比驚人的效果。
相比其他生成模型,2014年由Goodfellow等人[12]首次提出的生成對抗網(wǎng)絡(luò)模型在生成圖像數(shù)據(jù)方面的表現(xiàn)令研究者驚異,目前它在計算機視覺、醫(yī)學(xué)、自然語言處理等領(lǐng)域的研究一直保持著活躍狀態(tài)。此外,生成對抗網(wǎng)絡(luò)模型的研究工作主要集中在以下兩個方面:一是聚焦于理論線索嘗試提高生成對抗網(wǎng)絡(luò)的穩(wěn)定性和解決它的訓(xùn)練問題[13-17],或考慮從不同的角度如信息論[18-19]和模型效率[20-22]等方面豐富其結(jié)構(gòu);二是關(guān)注于生成對抗網(wǎng)絡(luò)在不同應(yīng)用領(lǐng)域內(nèi)的變體結(jié)構(gòu)和應(yīng)用場景[13,23-24]。除了圖像合成,生成對抗網(wǎng)絡(luò)還在其他方向成功應(yīng)用,如圖像的超分辨率[25]、圖像描述[26]、圖像修復(fù)[27]、文本到圖像的翻譯[28]、語義分割[29]、目標(biāo)檢測[30-31]、生成性對抗攻擊[32]、機器翻譯[33]、圖像融合[34-37]及去噪[38]?;谝陨险撌觯到y(tǒng)地在理論和應(yīng)用層面研究生成模型具有重要的意義。
本文首先介紹了生成式模型的基本原理,闡述了生成對抗網(wǎng)絡(luò)的理論支撐。其次介紹了評價生成式網(wǎng)絡(luò)的各項指標(biāo),說明了它們之間的區(qū)別與聯(lián)系。緊接著討論了生成對抗網(wǎng)絡(luò)在圖像和其他領(lǐng)域方面的熱點應(yīng)用研究進展,并指出了研究生成對抗網(wǎng)絡(luò)的挑戰(zhàn)及潛在的突破口,最后對論文進行了概括總結(jié)。
基于數(shù)學(xué)表達形式區(qū)分,最大似然原理是生成模型實現(xiàn)建模的數(shù)學(xué)基礎(chǔ)。根據(jù)其似然的表示特點可以分為基于顯式密度估計和隱式密度估計的方法?;陲@式密度估計的生成模型,其難點在于找到可以全面表達所有生成數(shù)據(jù)復(fù)雜度的模型,通過改變似然結(jié)構(gòu)表達式的形式,使用梯度優(yōu)化方法使模型密度函數(shù)的定義融入似然結(jié)構(gòu)的表達式達到最優(yōu),計算方式在形式上分為精確計算和近似估計兩種。基于隱式的密度估計的生成模型,重點在于通過定義的隱變量來確定擬合的模型,相比顯式密度估計方法不需要計算密度函數(shù)。
基于以上內(nèi)容的介紹,以最大似然原理為理論基礎(chǔ)的生成模型大家族分類及各分類下所具有的代表性模型結(jié)構(gòu),如圖1所示。
GAN[12]是另一種基于直接方式的隱式密度生成模型,它的結(jié)構(gòu)圖和處理過程如圖2 所示,其中關(guān)鍵結(jié)構(gòu)為生成器G和判別器D:G負(fù)責(zé)從輸入數(shù)據(jù)的噪聲分布中隨機采樣,學(xué)習(xí)其分布生成盡可能“真”的假樣本來欺騙D;而D則負(fù)責(zé)對G生成的樣本,結(jié)合真實數(shù)據(jù)進行識別并判斷真?zhèn)危≧eal或者Fake,記為R和F)。
圖2 生成對抗網(wǎng)絡(luò)模型Fig.2 Model of Generative Adversarial Network(GAN)
GAN的值函數(shù)V(G,D)為:
其中,值函數(shù)的優(yōu)化目標(biāo)為最大化G的參數(shù)ω和最小化G的參數(shù)θ。判別器的目的是讓公式(1)最大,即公式中的第一項和第二項都要最大。第一項最大的意思是Dω(x)->1,真樣本為真的概率接近1;而第二項最大的話,需要Dω(Gθ(z))->0,假樣本為真的概率為0;相反,生成器的目的是讓公式最小,其第一項和第二項都要小,即Dω(x)->0,Dω(Gθ(z))->1,這要求真樣本為真的概率小,假樣本為真的概率接近1,此時,生成的樣本就可以假亂真。
由公式(1)可知,生成對抗網(wǎng)絡(luò)是從噪聲中采樣一次就生成一個樣本,非Markov chain形式串行方式生成樣本,且不需要計算變分下界可直接生成。這使得生成的樣本質(zhì)量比其他的生成模型好。但生成對抗網(wǎng)絡(luò)也引入了新的挑戰(zhàn):生成過程中的內(nèi)在表現(xiàn)方式無法展示和不可控因素較多;訓(xùn)練過程中的不穩(wěn)定性;以及如何客觀地評價生成模型。
對GAN 模型理論的溯源討論之后,如何評價模型性能的衡量指標(biāo)是值得關(guān)注的,文章接下來詳細(xì)概述了模型評價指標(biāo),并分析了生成對抗網(wǎng)絡(luò)在生成數(shù)據(jù)方面的研究進展及GAN 改進的經(jīng)典變體,其次列舉了熱點應(yīng)用領(lǐng)域,最后展望了末來研究的潛在突破口。
鑒于定性評估的內(nèi)在缺陷,尋找合適的定量評估來提高模型性能變得尤為重要,它們應(yīng)該盡可能考慮以下的要求:
(1)質(zhì)量可評價性。對生成樣本清晰度高、視覺感知較好等圖像質(zhì)量問題可以評價,即對能夠評價生成質(zhì)量優(yōu)劣的模型給予高分。
(2)多樣性??梢栽u價GAN各種失衡影響因素,如過擬合、模式缺失、模式崩潰、簡單記憶等現(xiàn)象,即對生成具有多樣性樣本的模型應(yīng)給予高分。
(3)可控性。針對連續(xù)性質(zhì)的隱空間,其中若對于GAN 的隱變量z具有明顯的含義指向,樣本的生成結(jié)果就可控制z的變化得到,即對隱變量處理更好的模型應(yīng)給予高分。
(4)有界性。即對評價指標(biāo)的數(shù)值作范圍界定,給出其上下界。
(5)一致性。即評價指標(biāo)的結(jié)果與人類感知的判定結(jié)果相似或一致。
(6)低差異性。即評價指標(biāo)對圖像變換前后語義信息未改變的數(shù)據(jù),評價差別應(yīng)足夠小。
(7)輕量性。即評價指標(biāo)的設(shè)計過程中減少樣本的參與,以少樣本低計算復(fù)雜度為目標(biāo)。
由于實際應(yīng)用場景的復(fù)雜性,以上要求不可能同時滿足,但參考上述要求所設(shè)計的各個GAN 評估指標(biāo)之間既有聯(lián)系也有區(qū)別,還有其自身的優(yōu)缺點不可忽視,本文以下內(nèi)容對GAN 模型的評價指標(biāo)進行了全面詳述。
對GAN生成圖像的質(zhì)量優(yōu)劣評價是基于人類的主觀意識,故計算機由于其局限性無法像人一樣清晰辨別生成圖片的好壞。在客觀評價時,常把不符合目標(biāo)預(yù)期的圖片和線條足夠明晰但感知異常的圖片均視為低質(zhì)量生成樣本,故需要設(shè)計量化指標(biāo)來統(tǒng)一衡量標(biāo)準(zhǔn)。
2.1.1 Inception分?jǐn)?shù)
Inception 分?jǐn)?shù)(Inception Score,IS)指標(biāo)是GAN 模型生成圖像常用的評價標(biāo)準(zhǔn)之一,采用熵的形式體現(xiàn)了量化的概念。生成圖片的多樣性越好,表現(xiàn)在類別分布上會趨向均勻分布,此特性也是IS考慮的問題之一。多樣性的描述與熵的大小成正比關(guān)系,即相對于類別熵的取值越大多樣性越好,反之亦然。針對多樣性和圖像質(zhì)量都需要考慮的場景,以互信息特性設(shè)計GAN 評價指標(biāo)。為簡化計算添加了指數(shù)項,最終IS數(shù)學(xué)表達形式被定義為:
2.1.2 IS的缺陷
IS作為生成對抗網(wǎng)絡(luò)模型主流的評價指標(biāo),在圖像生成方面已具備成熟的評價機制,但也存在一些不可忽視的問題和缺陷,如下所述:
(1)對GAN過擬合狀態(tài)無法檢測。
(2)對數(shù)據(jù)集ImageNet的圖像獨具青睞。
(3)對崩潰問題無法檢測。
(4)忽略了真實數(shù)據(jù)集的分布。
(5)是一種偽度量。
上述內(nèi)容分析了IS指標(biāo)的優(yōu)劣情況,其缺陷方面的問題限制了其通用性,故以下內(nèi)容介紹了IS幾種改進形式的指標(biāo),繼承其優(yōu)點改進其缺點,促進了IS指標(biāo)的推廣與應(yīng)用。
2.1.3 修正的Inception分?jǐn)?shù)
修正的Inception 分?jǐn)?shù)(Modifified Inception Score,M-IS)也是IS的改進版本之一,它重點關(guān)注了評價多樣性問題中產(chǎn)生的類內(nèi)模式崩潰問題。M-IS對于同一類樣本的標(biāo)簽引入了交叉熵進行計算,將類內(nèi)交叉熵融入IS可得M-IS,即:
M-IS的關(guān)注點集中在GAN模型生成質(zhì)量和類內(nèi)多樣性。M-IS得分與GAN生成性能成正相關(guān)。
2.1.4 激活最大化分?jǐn)?shù)(AMS)
激活最大化分?jǐn)?shù)(Activation Maximization Score,AMS)關(guān)注了IS 評價指標(biāo)在數(shù)據(jù)類別分布不均勻時的不合理性,通過引入訓(xùn)練數(shù)據(jù)集和生成數(shù)據(jù)集的差異度量參數(shù)來改善此問題。AMS的表達式為:
顯然,AMS分?jǐn)?shù)與生成性能之間存在反比關(guān)系,即GAN生成性能越差A(yù)MS的得分越大,反之亦然。
Mode分?jǐn)?shù)(Mode Score,MS)主要解決IS缺陷之一即忽視了訓(xùn)練數(shù)據(jù)集的標(biāo)簽信息,并在關(guān)注此條件時滿足IS的計算要求。MS定義為:
與IS的定義式相比較,MS不僅在生成數(shù)據(jù)上進行了計算,而且在訓(xùn)練數(shù)據(jù)集上也參與了計算。
Fréchet Inception Distance(FID)計算了真實樣本與生成樣本在特征空間高斯分布的弗雷歇距離,此距離則代表了FID的值:
FID的數(shù)值決定了兩個高斯分布之間的親疏關(guān)系,并與GAN生成性能成反比,即FID數(shù)值越大,另個分布關(guān)系越疏遠(yuǎn),GAN性能越差,反之亦然。
如圖3 是在同一數(shù)據(jù)集ImageNet 上IS 與FID 兩種指標(biāo)的實驗得分情況,其中圖像尺寸都為128×128。
圖3 同一數(shù)據(jù)集不同指標(biāo)定量得分情況Fig.3 Quantitative scores of different indicators in the same dataset
在各種應(yīng)用中,噪聲魯棒性較好以及生成圖像評價分?jǐn)?shù)符合人類感知兩個特點是FID 相比其他標(biāo)準(zhǔn)的顯著區(qū)別,另外計算復(fù)雜度也較低,但其高斯分布的簡化假設(shè)是其理論上的不足之處。
最大均值差異(Maximum Mean Discrepancy,MMD)是在希爾伯特空間度量兩個分布差異的一種方法,其常被應(yīng)用于遷移學(xué)習(xí)。相比FID的設(shè)計思路,將求解弗雷歇距離的方法替換為MMD方法,兩個分布產(chǎn)生的距離即可作為GAN的評價指標(biāo)。在這里MMD距離與GAN生成性能成反比,即距離越大生成性能越差,其訓(xùn)練數(shù)據(jù)集和生成數(shù)據(jù)非分布越疏遠(yuǎn)。
Wasserstein 距離(Wasserstein Distance)將GAN 評價指標(biāo)的距離表示更換為Wasserstein距離形式,其距離值也與GAN 性能成反比,與FID 的距離衡量結(jié)果類似。Wasserstein 距離評價指標(biāo)優(yōu)點是可對模型的簡單記憶與模式奔潰問題進行識別,而且計算速度很快;缺點是因為訓(xùn)練過程過度依賴判別器和訓(xùn)練數(shù)據(jù)集,限制了其只能應(yīng)用在特定訓(xùn)練集訓(xùn)練的GAN場景。
1-最近鄰分類器(1-Nearest Neighbor classifier,1-NN)的具體實現(xiàn)為:利用比較思維,期望計算出訓(xùn)練數(shù)據(jù)集與生成數(shù)據(jù)集的概率分布進行比較。若二者結(jié)果相等則GAN生成性能優(yōu)越,若差異較大則性能較差,此類方法通常采用準(zhǔn)確率來作為評價指標(biāo)。
如圖4 所示,展示了任意測試樣本在1-NN 上的正確率變化,差異越大正確率越高,即可反映GAN 生成性能。
圖4 總正確率對比Fig.4 Comparison of total accuracy
對于GANtrain和GANtest方法,它的設(shè)計思路是:計算給定的準(zhǔn)確率并進行對比分析,從而評價能夠生成多類樣本GAN 的性能。定義:GANbase 代表驗證集上計算的準(zhǔn)確率值,此時分類器在訓(xùn)練集上訓(xùn)練;GANtrain代表驗證集上計算的準(zhǔn)確率值,此時分類器在生成集上訓(xùn)練;GANtest 代表生成集上計算的準(zhǔn)確率值,此時分類器在訓(xùn)練集上訓(xùn)練。
在理想情況下,GANbase和GANtest的數(shù)值應(yīng)該趨于一致,但出現(xiàn)以下幾種情況時,說明GAN模型出現(xiàn)了異常:若GANtest 過高,則可能GAN 產(chǎn)生了過擬合、簡單記憶的問題;若GANtest過低,則可能GAN數(shù)據(jù)集分布欠佳,圖像質(zhì)量較差。
歸一化相對鑒別分?jǐn)?shù)(Normalized Relative Discriminative Score,NRDS),此方法設(shè)計思路是:根據(jù)實踐經(jīng)驗的分類器特性,若有足夠多的epoch,則可以得到一個能夠?qū)⒂?xùn)練集和生成集兩類樣本完全區(qū)分開的分類器C,分類結(jié)果用1和0分別表示訓(xùn)練集的樣本和GAN生成的樣本,此類方法的實質(zhì)是把握分類器的epoch次數(shù),通過觀察具體的epoch 變化就可衡量GAN 的生成性能。如圖5所示描述了單個epoch的訓(xùn)練邏輯。
圖5 單個epoch訓(xùn)練示意圖Fig.5 Schematic diagram of single epoch training
針對圖像質(zhì)量的量化方法,相比IS 等指標(biāo)區(qū)別明顯,該類評價指標(biāo)更關(guān)注圖像本身的質(zhì)量,而非借助已訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)等方法來確定模型生成表現(xiàn)能力。
2.9.1 結(jié)構(gòu)相似性(SSIM)
結(jié)構(gòu)相似性(Structural SIMilarity,SSIM)的設(shè)計思路是關(guān)注圖像的3 個特征:亮度l(x,y)、對比度c(x,y)、結(jié)構(gòu)s(x,y)。從兩幅圖像相似度的角度思考,圖像樣本x與y之間通過以上3點特征進行比較衡量,以此來確定評價指標(biāo)SSIM。王曙燕等人[39]在驗證生成對抗樣本模型的性能時,以SSIM指標(biāo)計算,驗證了圖像多樣性與SSIM指標(biāo)的關(guān)系??梢来卧趫D像上取N×N大小的以x或y為中心的圖像塊,計算3個參數(shù)并求解:
2.9.2 峰值信噪比(PSNR)
峰值信噪比(Peak Signal-to-Noise Ratio,PSNR)作為評價圖像質(zhì)量的客觀標(biāo)準(zhǔn)指標(biāo)之一,通過對不同PSNR值的對比來評價條件生成對抗網(wǎng)絡(luò)的性能。若為彩色圖像有兩種計算方法:一是計算RGB 三通道的PSNR然后取均值;二為計算三通道MSE并除以3,再計算PSNR。綜上述所,顯然PSNR 的值與兩張圖像差異成反比,即PSNR越小,圖像之間的差異越大,則生成性能越差進而影響生成圖像質(zhì)量較差。彭晏飛等人[40]利用SSIM和PSNR評價方法,實現(xiàn)了基于GAN的單圖像超分辨率重建法。
2.9.3 銳度差異(SD)
銳度差異(Sharpness Difference,SD)和PSNR 指標(biāo)具有相似的計算方式,但其更關(guān)注銳度信息的差異。首先計算其銳度誤差,然后計算SD為:其中,符號的定義與PSNR 的數(shù)學(xué)表述一致。顯然,SD值也與生成圖像的質(zhì)量成負(fù)相關(guān),即SD 值越大圖像之間的銳度差別越小。
鑒于GAN 的初始設(shè)計架構(gòu),以上評價方法都將生成器視為黑盒子,即未將設(shè)計視角聚焦于生成器的概率密度函數(shù)。平均對數(shù)似然方法的提出解決了該問題,它的步驟為:假設(shè)概率密度函數(shù)pg的表達式關(guān)系存在,則評價指標(biāo)的設(shè)計思路可為:計算訓(xùn)練集的樣本在pg下的對數(shù)似然函數(shù),原理等價于KL散度,但采用對數(shù)似然函數(shù)形式更加簡單。
但大量實踐經(jīng)驗表明其評價效果欠佳,尤其在遇到高維分布的情況時,非參數(shù)對概率密度函數(shù)的估計存在誤差。另外,對數(shù)似然函數(shù)與樣本的質(zhì)量依賴關(guān)系較差,即可能會出現(xiàn)GAN給出對數(shù)似然值很高,但樣本質(zhì)量依舊很差的情況。
基于以上論述可以看到,不同的指標(biāo)側(cè)重評價GAN 模型的關(guān)注點各異。針對實際應(yīng)用中豐富的場景,應(yīng)該盡可能在保持模型性能的前提下,多樣化地設(shè)計評價指標(biāo)。
大數(shù)據(jù)賦能深度學(xué)習(xí)算法使其實現(xiàn)了快速發(fā)展,目前最先進的GAN 能夠生成不同類別的高保真自然圖像[41],且經(jīng)過適當(dāng)?shù)挠?xùn)練,它能夠從標(biāo)準(zhǔn)數(shù)據(jù)分布中合成語義上有意義的數(shù)據(jù)。Huang等人[42]和Goodfellow等人[43]討論并對比了GAN模型及其變體在生成樣本方面的重要性,Creswell等人[44]對GAN的評估方法和訓(xùn)練問題進行了調(diào)查總結(jié)。這些通用的圖像生成調(diào)查報告,討論了GAN 的一般內(nèi)容,沒有考慮每個模型的構(gòu)造細(xì)節(jié)及優(yōu)缺點。表1整理了近幾年發(fā)表的一些GAN不同應(yīng)用綜述文章[45-58]。值得一提的是,GAN 自身伴隨著3 個重要的挑戰(zhàn)問題[54]待解決。
表1 近年來不同GAN應(yīng)用的綜述總結(jié)Table 1 Summary of GAN surveys for different applications in recent years
(1)模式崩塌:關(guān)注并不局限于達到平衡的過程。GAN 最常見的故障之一是便是模式崩潰,當(dāng)G將各種不同的輸入映射到相同的輸出時,就會發(fā)生這種情況。
(2)梯度消失:一個訓(xùn)練良好的D將損失函數(shù)壓縮到0,因此,梯度近似為0,這將向G提供少量的反饋,導(dǎo)致學(xué)習(xí)放緩或完全停止。同樣,不準(zhǔn)確的D會產(chǎn)生錯誤的反饋,從而誤導(dǎo)G。
(3)收斂性:盡管理論上已經(jīng)證明了全局納什均衡的存在,但要達到這個均衡并非易事。GAN 經(jīng)常會產(chǎn)生振蕩或循環(huán)行為,并傾向于收斂到局部納什均衡,這在主觀上可能遠(yuǎn)離全局均衡。
文獻[44,59]表明,目前關(guān)于GAN 結(jié)構(gòu)和性能的綜述論文很少,其他的研究工作主要集中在不同類型GANs架構(gòu)的性能驗證上。由于基準(zhǔn)數(shù)據(jù)集不能很好地反映多樣性,這些工作對于GAN 的綜合論述是有限的。因此,研究任務(wù)多集中在生成圖像質(zhì)量的評價上,而這種結(jié)果導(dǎo)向也會降低GAN生成不同圖像的有效性。
基于以上觀察,首先介紹了GAN 的發(fā)展體系來解決它的3 個挑戰(zhàn)問題,并回顧了GAN 相關(guān)網(wǎng)絡(luò)結(jié)構(gòu)在合成圖像的生成和識別方面的技術(shù)。其次,重點討論了GAN的各種應(yīng)用,包括圖像轉(zhuǎn)換、圖像生成、視頻生成、文本生成、圖像超分辨率及其他領(lǐng)域等內(nèi)容。
針對各種應(yīng)用需求而誕生的不同GAN 變體,衍化改進的方向主要是基于結(jié)構(gòu)作出的改變和設(shè)計不同的損失函數(shù)。
為了設(shè)計GAN的初代架構(gòu),G和D[12]都使用了全連接(Fully Connected,F(xiàn)C)神經(jīng)網(wǎng)絡(luò),基于Toronto Face Dataset、MNIST[60]和CIFAR-10[61]數(shù)據(jù)集來生成假圖像。Chen 等人[62]提出了一種基于FC 層而建模的GAN框架,該框架僅在少數(shù)幾組數(shù)據(jù)分布上表現(xiàn)出高性能。從基于FC 的建模思想到基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的建模思想,實驗證明后者更加適合處理圖像類數(shù)據(jù),但會引入額外的計算復(fù)雜度問題,主要原因有5 個:不收斂;梯度減??;生成器和鑒別器不平衡;模式坍塌;超參數(shù)選擇。
其中一種解決方案是引入對抗網(wǎng)絡(luò)的拉普拉斯金字塔方法[63],在模型中將真實的圖像轉(zhuǎn)換為多尺度的金字塔式分層圖像,訓(xùn)練卷積GAN 生成多尺度多層次的特征圖,并將所有特征圖結(jié)合到最終的特征圖以此來降低計算難度。在文獻[13]中提出的深度卷積GAN 模型能夠平滑生成器與鑒別器的訓(xùn)練過程,為提高穩(wěn)定性做了一定貢獻。對于3D合成數(shù)據(jù)的生成,Wu等人[64]提出使用自動編碼器和內(nèi)容信息直接從2D 輸入圖像重建3D 目標(biāo)的架構(gòu),但這種方法存在很高的計算成本問題。
接著,便是文獻[65]所提出的CGAN來解決圖像到圖像的翻譯問題,這種方法不僅學(xué)習(xí)了輸入圖像到輸出圖像的映射,還采用了損失函數(shù)來訓(xùn)練這種映射。與其他GAN架構(gòu)[66-67,20]相比,條件GAN在多模態(tài)數(shù)據(jù)上有顯著的性能。
另一方面,InfoGAN使用了一小部分潛在變量之間的互信息來獲取語義信息的結(jié)構(gòu),該模型可以應(yīng)用于以一種無監(jiān)督的方式確定不同的對象。Odena等人[68]提出了架構(gòu)類似InfoGAN 的分類器ACGAN,損失函數(shù)的優(yōu)化提高了其分類的性能。在文獻[69]中,提出了一種使用BAGAN的數(shù)據(jù)增強框架,在隱空間中應(yīng)用類條件作用來運行面向目標(biāo)類的生成過程。BAGAN 的結(jié)構(gòu)與InfoGAN和ACGAN相似,但BAGAN只產(chǎn)生一個輸出,InfoGAN和ACGAN有兩種輸出。
在文獻[70]中,提出了DCGAN模型,其優(yōu)勢來自于作為條件變量的語義布局和場景屬性。這種方法能夠在不同的情況下產(chǎn)生真實的圖像,具有清晰的對象邊緣。吳春梅等人[71]利用了DCGAN的優(yōu)勢并結(jié)合了沙漏網(wǎng)絡(luò),實現(xiàn)了有效的人體姿態(tài)識別。在文獻[72]中,建議將自動編碼器網(wǎng)絡(luò)(auto-encoder)與GAN[12]相結(jié)合,整合兩模型的優(yōu)點:GAN 可以產(chǎn)生清晰的圖像但會損失部分特征,而auto-encoder 生成的圖像模糊但模型有效且準(zhǔn)確。
接下來介紹的便是漸進式GAN 和輔助分類器GAN,前者主要用來解決訓(xùn)練穩(wěn)定性的問題,后者主要用來解決模式坍塌問題,各自分類的領(lǐng)域都有不少佳作。漸進GAN 擴展了標(biāo)準(zhǔn)網(wǎng)絡(luò)結(jié)構(gòu),其思想是從漸進神經(jīng)網(wǎng)絡(luò)中提取[73]。此類模型性能表現(xiàn)良好,可以廣泛應(yīng)用于提取復(fù)雜的特征是漸進網(wǎng)絡(luò)的特點,在訓(xùn)練過程中逐漸增加D與G,所有的變量都可以參與訓(xùn)練,這種漸進式的策略幫助網(wǎng)絡(luò)取得了穩(wěn)定的學(xué)習(xí)率。最近,文獻[74-75]中的GAN 結(jié)構(gòu)采用了這種訓(xùn)練策略,來提高其模型的整體表現(xiàn)能力。
為了提高GAN 的半監(jiān)督學(xué)習(xí)性能,文獻[68,76]提出在鑒別器中增加一個額外的精確輔助分類器。實驗結(jié)果表明,輔助分類器GAN 能夠生成更清晰對象邊緣的圖像,并能較好地處理模式坍塌問題,且?guī)в休o助分類器的GAN在諸如圖像到圖像轉(zhuǎn)換[68]和文本到圖像合成等應(yīng)用中具有顯著的性能。
在對抗域適應(yīng)研究領(lǐng)域,非配對圖像到圖像的轉(zhuǎn)換模型最近在不同的域適應(yīng)任務(wù)上都有很好的性能。圖6展示了CycleGAN 和DCGAN[13]基于訓(xùn)練損失的實驗性能。最近,有一種針對非配對圖像的新模型CoGAN,提出使用兩個共享權(quán)重生成器來產(chǎn)生帶有隨機噪聲的兩個域的圖像。所有這些模型在大量的圖像到圖像轉(zhuǎn)換任務(wù)中都有令人信服的視覺結(jié)果,但是,大范圍域的變化可能會降低這些方法生成大規(guī)模訓(xùn)練數(shù)據(jù)的能力。表2 總結(jié)了最經(jīng)典的十多種基于GAN 改進、衍化的模型,并整理對比了其改進點、優(yōu)缺點與各自的使用場景。
表2 經(jīng)典GAN改進模型的總結(jié)與對比Table 2 Summary and comparison of classical improved GAN models
圖6 CycleGAN和DCGAN模型在flickr數(shù)據(jù)集上基于各自訓(xùn)練損失的性能評估Fig.6 Performance evaluation of CycleGAN and DCGAN models based on their respective training losses on flickr dataset
3.2.1 圖像轉(zhuǎn)換
大多數(shù)計算機視覺問題可以視為圖像到圖像的轉(zhuǎn)換問題,即從一個域映射到另一個不同域的圖像。圖7展示了貓及其姿態(tài)轉(zhuǎn)換為其他物種的結(jié)果。
圖7 貓到其他物種的轉(zhuǎn)換結(jié)果Fig.7 Cat to other species translation results
圖像到圖像的轉(zhuǎn)換還類似于風(fēng)格轉(zhuǎn)換[77],作為輸入的是一幅風(fēng)格圖像和一幅內(nèi)容圖像,而模型輸出的是一個包含內(nèi)容和風(fēng)格的圖像,它不僅傳遞圖像的樣式,還控制了目標(biāo)對象的特征。
圖像到圖像的轉(zhuǎn)換問題可分為監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)兩種。在監(jiān)督方法中,不同領(lǐng)域的成對圖像[65]可以使用。在無監(jiān)督模型中,只有兩組分離的圖像,一組由一個域的圖像組成,另一組由其他不同域的圖像組成,沒有成對的樣本來表示一幅圖像如何轉(zhuǎn)換成不同域的對應(yīng)圖像。
3.2.2 圖像生成
本節(jié)主要討論生成對抗網(wǎng)絡(luò)在圖像生成任務(wù)中的3個應(yīng)用領(lǐng)域:醫(yī)學(xué)成像、三維重構(gòu)、圖像融合。而對此類任務(wù)中合成數(shù)據(jù)的方法具有以下要求:(1)有效。產(chǎn)生有意義的和充分的數(shù)據(jù)樣本。(2)可感知任務(wù)。創(chuàng)建有助于目標(biāo)網(wǎng)絡(luò)更好性能的樣本。(3)現(xiàn)實的。產(chǎn)生有助于最小化領(lǐng)域差距和增強泛化的現(xiàn)實樣本。圖8 展示了BEGAN、CGAN、LSGAN、StarGAN、DA-GAN模型在MNIST、FashionMNIST、CelebA、CIFAR-10 圖像數(shù)據(jù)集上樣本生成的實驗結(jié)果。
圖8 不同GAN模型在不同圖像數(shù)據(jù)集上樣本生成結(jié)果Fig.8 Different GAN models generate sample results on different image datasets
(1)醫(yī)學(xué)成像
一般來說,在醫(yī)學(xué)成像中使用GAN有兩種方法:第一種集中在生成階段,這有助于實現(xiàn)訓(xùn)練數(shù)據(jù)的基本結(jié)構(gòu),以創(chuàng)建真實的圖像,使得GAN能夠更好地處理數(shù)據(jù)稀缺性和患者隱私問題[78-82]。第二種集中在判別階段,其中判別器可以被認(rèn)為是未處理圖像的先驗學(xué)習(xí),因此可以作為偽生成圖像的檢測器。
生成階段:Sandfort等人[83]提出了一種基于CycleGAN的數(shù)據(jù)增強模型,以提高CT 分割中的泛化性。Han 等人[84]提出了一種基于GAN 的兩階段無監(jiān)督異常檢測MRI 掃描方法。在文獻[85]中,通過將創(chuàng)建的合成MR圖像與真實圖像進行比較,討論了兩種無監(jiān)督GAN 模型(CycleGAN和UNIT)的表現(xiàn)結(jié)果。
判別階段:Tang等人[86]提出了一種基于疊加生成對抗網(wǎng)絡(luò)的CT圖像分割方法,網(wǎng)絡(luò)第一層減少CT圖像中的噪聲,第二層創(chuàng)建具有增強邊界的更高分辨率圖像。在文獻[87]中,提出了一種基于無監(jiān)督學(xué)習(xí)的GAN 方法,能夠識別異常圖像。該模型包含了新數(shù)據(jù)到GAN潛在空間的快速映射技術(shù),且這種映射是基于一個訓(xùn)練效果良好的編碼器。Dou等人[88]提出了用于MRI和CT的GAN,通過以無監(jiān)督方式支持源域和目標(biāo)域的特征空間來處理高效的域轉(zhuǎn)移。
(2)三維重構(gòu)
GAN 在三維空間上對物體的立體形狀補全或重構(gòu),是對三維重構(gòu)技術(shù)的完善和擴展。Wang 等人[27]提出了一種混合結(jié)構(gòu),使用遞歸卷積網(wǎng)絡(luò)(LRCN)的3D-ED-GAN模型。圖9展示了3D-ED-GAN通過LRCN時的低分辨率形狀完成或重建結(jié)果。Wu等人[64]提出了3D-VAE-GAN模型,該模型利用體積卷積網(wǎng)絡(luò)和生成對抗網(wǎng)絡(luò)最新的研究理論從概率空間生成3D對象。在文獻[89]中,介紹了一種新的GAN訓(xùn)練模型來實現(xiàn)物體詳細(xì)的三維形狀。該模型采用帶梯度懲罰的Wasserstein歸一化訓(xùn)練,提高了圖像的真實感,這種架構(gòu)甚至可以從2D圖像中重建3D形狀并完成形狀補全。
圖9 現(xiàn)實世界物品掃描的3D形狀完成效果Fig.9 3D completion results on real-world scans
Yang 等人[90]提出了一種3D-RecGAN 模型,該模型從一個隨機深度視圖重建指定對象的完整三維結(jié)構(gòu)。在文獻[91]中,提出了一種迭代的GAN 模型,它根據(jù)物體的幾何形狀和外觀,迭代地將輸入圖像轉(zhuǎn)換為輸出圖像。Hermoza和Siiran[92]在GAN結(jié)構(gòu)上提出了一種編碼器-解碼器3D 深度神經(jīng)網(wǎng)絡(luò),結(jié)合了兩個目標(biāo)損失:用于3D 物體重建的損失和改進的Wasserstein GAN 損失。文獻[68]提出了用于語義部件編輯、形狀類比和形狀插值以及三維物體形狀補全的代數(shù)操作和深度自動編碼器GAN(AE-EMD)。
(3)圖像融合
從一組輸入圖像中生成新圖像的技術(shù)是GAN架構(gòu)系統(tǒng)中一個有趣的研究領(lǐng)域,該技術(shù)被稱為圖像融合。在文獻[36]中,提出了一個基于GAN 的框架,稱為FusionGAN,它通過控制兩個輸入圖像來生成融合圖像。實驗證明,融合方法能夠改變輸入圖像的形狀和特征,生成新的圖像,同時保留輸入圖像的主要內(nèi)容。Zhan等人[35]提出了一種新的融合方法SF-GAN,將前景物體和背景圖像合成真實圖像,通過一系列的實驗證明了該模型的有效性。此外,想關(guān)文獻[34,37,93-94]還提出了幾種使用GAN 體系結(jié)構(gòu)的方法,以便將輸入轉(zhuǎn)換為所需的形狀,并提高融合性能。
3.2.3 視頻生成
視頻可通過逐幀分解理解為多張圖片的組合,故而在GAN 生成圖像的基礎(chǔ)上,實現(xiàn)視頻的生成和預(yù)測[89]。視頻一般而言是由相對靜止的背景色和動態(tài)的物體運動組成的,VGAN[6]考慮了這一點,使用雙流生成器以3D CNN 的移動前景生成器預(yù)測下一幀,而使用2D CNN 的靜態(tài)背景生成器使背景保持靜止。Pose-GAN[7]采用混合VAE 和GAN 方法,它使用VAE 方法在當(dāng)前的物體姿態(tài)和過去姿態(tài)隱藏的表示來估計未來的物體運動。
基于視頻的GAN 不僅需要考慮空間建模,還需要考慮時間建模,即視頻序列中每個相鄰幀之間的運動。MoCoGAN[5]被提出以無監(jiān)督的方式學(xué)習(xí)運動和內(nèi)容,它將圖像的潛在空間劃分為內(nèi)容空間和運動空間。DVD-GAN[95]能夠基于BigGAN 架構(gòu)生成更長、更高分辨率的視頻,同時引入可擴展的、視頻專用的生成器和鑒別器架構(gòu)。
3.2.4 圖像修復(fù)
圖像補全是一種傳統(tǒng)的圖像修復(fù)處理任務(wù),其目的是填補圖像中內(nèi)容缺失或被遮蓋的部分,在目前的生產(chǎn)生活環(huán)境中此類任務(wù)得到廣泛的現(xiàn)實應(yīng)用。大多數(shù)補全方法[96]都是基于低級線索,從圖像的鄰近區(qū)域中尋找小塊,并創(chuàng)建與小塊相似的合成內(nèi)容。王海涌等人[97]借助此原理,實現(xiàn)了局部遮擋情況下的人臉表情識別,識別效率較高。與現(xiàn)有的尋找補全塊進行合成的模型不同,文獻[98]提出的模型基于CNN 生成缺失區(qū)域的內(nèi)容。該算法采用重構(gòu)損失函數(shù)、兩個對抗性損失函數(shù)和一個語義解析損失函數(shù)進行訓(xùn)練,以保證像素質(zhì)量和局部-全局內(nèi)容的穩(wěn)定性。
在文獻[99]中,為了完成圖像補全,引入了融合塊來生成靈活的Alpha 合成圖,用于組合已知和未知區(qū)域。融合塊不僅提供了恢復(fù)和現(xiàn)有內(nèi)容之間的平滑融合,而且提供了一個注意力機制,使網(wǎng)絡(luò)更多地關(guān)注未知像素。然而,該模型在CelebA數(shù)據(jù)集上表現(xiàn)良好,但在高分辨率圖像上表現(xiàn)不佳然而,如圖10所示。
圖10 圖像補全應(yīng)用的生成效果Fig.10 Generating effect of image completion application
3.2.5 文本生成
GAN 在圖像上的性能表現(xiàn),讓眾多研究者在文本生成領(lǐng)域也提出了基于GAN 的一些模型。SeqGAN 與強化學(xué)習(xí)結(jié)合,避免了一般GAN 模型不能生成離散序列,且可在生成離散數(shù)據(jù)時能夠返回模型的梯度值,此類方法可用于生成語音數(shù)據(jù)、機器翻譯等場景。研究提出的MaskGAN[100]模型,引入了Actor-Critic 架構(gòu),可根據(jù)上下文內(nèi)容填補缺失的文本信息。
除了圖像生成文本的應(yīng)用,StackGAN[28]可實現(xiàn)通過輸入文本信息來產(chǎn)生相應(yīng)的文本所描述的圖像且圖像具有高分辨率,此模型實現(xiàn)了文本與圖像的交互生成。此外CookGAN從圖像因果鏈的角度實現(xiàn)了基于文本生成圖像菜單的方法,而TiVGAN則實現(xiàn)了通過文本來產(chǎn)生連續(xù)性視頻序列的構(gòu)想。
3.2.6 圖像超分辨率
圖像超分辨率技術(shù)主要解決將低分辨率的圖像在不失真的前提下轉(zhuǎn)變?yōu)楦叻直媛实膯栴},且需要在準(zhǔn)確性和速度方面保持優(yōu)越性能,此外超分辨率技術(shù)可解決例如醫(yī)學(xué)診斷、視頻監(jiān)控、衛(wèi)星遙感等場景的部分行業(yè)痛點問題,應(yīng)用此技術(shù)產(chǎn)生的社會實際價值不可估量。文獻[101]概括了基于深度學(xué)習(xí)的圖像超分辨技術(shù),并將其分為有監(jiān)督、無監(jiān)督、特定應(yīng)用領(lǐng)域3種類型,提供了系統(tǒng)性的超分辨理論與實踐方法。文獻[25]提出的SR-GAN模型將參數(shù)化的殘差網(wǎng)絡(luò)代替生成器,而判別器則選用了VGG 網(wǎng)絡(luò),其損失函數(shù)通過內(nèi)容損失和對抗損失的加權(quán)組合,相比其他深度卷積網(wǎng)絡(luò)等模型在超分辨精度和速度上得到了改進,將圖像紋理細(xì)節(jié)的學(xué)習(xí)表征較好,故而在超分辨領(lǐng)域取得了不俗的效果。
3.2.7 其他領(lǐng)域
CaloGAN和LAGAN被應(yīng)用于物理學(xué),試圖生成粒子圖像來代表能量分布。Shin等人[102]將GAN框架擴展到持續(xù)學(xué)習(xí),使其通過一個稱為深度生成重放的GAN框架解決了學(xué)習(xí)遺忘問題。文獻[103]提出了一個能夠用于破譯密碼的框架,使GAN 能應(yīng)用于密碼破譯。除以上領(lǐng)域,生成對抗網(wǎng)絡(luò)還在其他方向成功應(yīng)用,如:域適應(yīng)、序列生成、半監(jiān)督學(xué)習(xí)、語義分割、對抗攻擊、機器翻譯、自動駕駛等。
生成對抗網(wǎng)絡(luò)在如今的學(xué)術(shù)與工業(yè)界研究不斷升溫,集中在圖像生成領(lǐng)域的研究也是如火如荼,出現(xiàn)了各種各樣的GAN 模型。但在應(yīng)用過程中它所面臨的3個挑戰(zhàn)[61]:模型坍塌、梯度消失及全局收斂問題也逐漸表現(xiàn)出來。
首先,值得關(guān)注GAN 研究領(lǐng)域的重點問題之一圖像生成質(zhì)量與多樣性,盡管現(xiàn)有的技術(shù)可以實現(xiàn)圖像高質(zhì)量生成,但伴隨著以上挑戰(zhàn)的不斷重現(xiàn),在生成圖像多樣性的技術(shù)發(fā)展上卻展現(xiàn)出較多的困境,其受限于圖像的大小及尺寸、模型的結(jié)構(gòu)設(shè)計及復(fù)雜度等因素。其次,需要討論的是為追求產(chǎn)生高質(zhì)量和多樣性皆佳的圖像而出現(xiàn)的模型訓(xùn)練效率低下問題,一般而言模型性能和訓(xùn)練效率正相關(guān),即效果越好的模型訓(xùn)練時間就會越長。此外,在主觀和客觀評價標(biāo)準(zhǔn)上未形成通用且成熟的GAN 模型評價體系,導(dǎo)致在應(yīng)用場景數(shù)據(jù)集上表現(xiàn)良好而遷移至其他領(lǐng)域時出現(xiàn)不適用的情況。
通過對生成對抗網(wǎng)絡(luò)的熱點應(yīng)用的歸納及對現(xiàn)有GAN 網(wǎng)絡(luò)因其自身缺陷所導(dǎo)致的發(fā)展問題討論梳理,未來研究生成對抗網(wǎng)絡(luò)的潛在突破口應(yīng)主要集中在以下幾個方面。
理論研究的目的主要是解決GAN模型的自身缺陷問題,但現(xiàn)有的方法都以調(diào)整訓(xùn)練參數(shù)和修正訓(xùn)練過程為主,而對GAN 自身缺陷的理論探索還不夠深入。因此,關(guān)注對基礎(chǔ)算法的結(jié)構(gòu)設(shè)計和以應(yīng)用目標(biāo)為導(dǎo)向的損失函數(shù)設(shè)計等角度進行理論突破。如可關(guān)注對傳統(tǒng)結(jié)構(gòu)的變體CGAN等網(wǎng)絡(luò)結(jié)合現(xiàn)有算法的優(yōu)勢,對模型的架構(gòu)進行改進,并設(shè)計出通用且合理的約束條件,可保證在模型穩(wěn)定情況下,關(guān)注在保持圖像生成質(zhì)量和多樣性具佳的損失函數(shù)設(shè)計。
相比機器學(xué)習(xí),深度學(xué)習(xí)由于其模型復(fù)雜度成量級增長,訓(xùn)練和計算過程“隱蔽”且無法溯源,使得研究模型的內(nèi)部工作機制變得尤為重要。使用合適的工具,實現(xiàn)模型內(nèi)部信息流工作機理的透明化研究,可以從根源上發(fā)現(xiàn)影響模型穩(wěn)定性和訓(xùn)練過程的問題,然后對其分析解決以此突破模型的性能瓶頸。尤其對于解決GAN模型是如何生成圖像的表征問題及生成器與鑒別器達到全局收斂的可視化問題迫在眉睫。此外,生成網(wǎng)絡(luò)的可控性問題也尚沒有完全攻克,只取得了特定場景的實驗效果而未能達到控制效果的不同場景通用性。
在圖像生成領(lǐng)域的模型評價方法中,雖然對常見的評價尺度作了一定的介紹,但如何綜合且客觀地評價不同的模型,仍然沒有一個準(zhǔn)確嚴(yán)謹(jǐn)?shù)亩ㄕ?。因此,在未來的研究工作中,借助神?jīng)網(wǎng)絡(luò)強大的擬合能力是否可以設(shè)計根據(jù)場景來定義評價標(biāo)準(zhǔn)的搜索空間,并設(shè)計合適的搜索策略,在綜合且恰當(dāng)?shù)脑u價指標(biāo)下自動找到該場景適用的最佳模型。實現(xiàn)這一方法,不免會持續(xù)關(guān)注生成對抗網(wǎng)絡(luò)的科學(xué)性評價標(biāo)準(zhǔn),此方向仍有巨大的突破潛力及研究價值。
以生成方法為理論基礎(chǔ)的GAN 模型,本身具有很強的可擴展性,在研究過程中可以考慮引入其他學(xué)科理論知識來提升模型的表現(xiàn)能力,如信息論、生物科學(xué)、認(rèn)知科學(xué)等的理論融合。
模型的泛化能力、魯棒性是GAN 可移植于不同場景的重要參考指標(biāo),關(guān)注二者可將其擴展到其他領(lǐng)域來挖掘更加有價值的應(yīng)用場景。因此,結(jié)合應(yīng)用領(lǐng)域的知識,拓展其豐富的應(yīng)用場景也將是未來的研究熱點之一。
總的來說,生成對抗網(wǎng)絡(luò)在理論和應(yīng)用方面具有重要的研究意義,是一個具有挑戰(zhàn)性的研究問題。
本文首先依托極大似然原理介紹了生成模型,并討論了似然理論框架下的生成對抗網(wǎng)絡(luò)。其次,重點介紹了生成對抗網(wǎng)絡(luò)的各種評價標(biāo)準(zhǔn),分析了之間的聯(lián)系與區(qū)別,并介紹了GAN模型在數(shù)據(jù)生成方面的熱點應(yīng)用,包括:圖像轉(zhuǎn)換、圖像生成、視頻生成、圖像修復(fù)、文本生成、圖像超分辨率等。然后對生成對抗網(wǎng)絡(luò)潛在的研究突破口進行了梳理,即GAN 的理論探索、內(nèi)部機理、評價方法、領(lǐng)域擴展等,最后對全文進行了概括總結(jié)。