王萬(wàn)良,李卓蓉
?
生成式對(duì)抗網(wǎng)絡(luò)研究進(jìn)展
王萬(wàn)良,李卓蓉
(浙江工業(yè)大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,浙江 杭州 310024)
生成式對(duì)抗網(wǎng)絡(luò)(GAN, generative adversarial network)對(duì)生成式模型的發(fā)展具有深遠(yuǎn)意義,自提出后立刻受到人工智能學(xué)術(shù)界和工業(yè)界的廣泛研究與高度關(guān)注,隨著深度學(xué)習(xí)的技術(shù)發(fā)展,生成式對(duì)抗模型在理論和應(yīng)用上得到不斷推進(jìn)。首先,闡述生成對(duì)抗模型的研究背景與意義,然后,詳細(xì)論述生成式對(duì)抗網(wǎng)絡(luò)在建模、架構(gòu)、訓(xùn)練和性能評(píng)估方面的研究進(jìn)展及其具體應(yīng)用現(xiàn)狀,最后,進(jìn)行分析與總結(jié),指出生成式對(duì)抗網(wǎng)絡(luò)研究中亟待解決的問(wèn)題以及未來(lái)的研究方向。
深度學(xué)習(xí);生成式對(duì)抗網(wǎng)絡(luò);卷積神經(jīng)網(wǎng)絡(luò);自動(dòng)編碼器;對(duì)抗訓(xùn)練
近年來(lái),深度學(xué)習(xí)在計(jì)算機(jī)視覺(jué)[1,2]、自然語(yǔ)言處理[3,4]、語(yǔ)音[5]等多個(gè)應(yīng)用領(lǐng)域中都取得了突破性進(jìn)展,其動(dòng)機(jī)在于建立能夠模擬人類(lèi)大腦神經(jīng)連接結(jié)構(gòu)的模型,在處理圖像、文本和聲音等高維信號(hào)時(shí),通過(guò)組合低層特征形成更加抽象的高層表示、屬性類(lèi)別或特征,進(jìn)而對(duì)數(shù)據(jù)進(jìn)行層次化表達(dá)[6~8]。深度學(xué)習(xí)的模型可大致分為判別式模型和生成式模型,目前,深度學(xué)習(xí)取得的成果主要集中在判別式模型,即將一個(gè)高維的感官輸入映射為一個(gè)類(lèi)別標(biāo)簽[9,10],這些成果主要?dú)w功于反向傳播(BP, back propagation)算法[11]和Dropout算法[12,13]對(duì)模型的訓(xùn)練。著名物理學(xué)家Richard指出,要想真正理解一樣?xùn)|西,我們必須能夠把它創(chuàng)造出來(lái)。因此,要想令機(jī)器理解現(xiàn)實(shí)世界,并基于此進(jìn)行推理與創(chuàng)造,從而實(shí)現(xiàn)真正的人工智能,必須使機(jī)器能夠通過(guò)觀測(cè)現(xiàn)實(shí)世界的樣本,學(xué)習(xí)其內(nèi)在統(tǒng)計(jì)規(guī)律,并基于此生成類(lèi)似樣本,這種能夠反映數(shù)據(jù)內(nèi)在概率分布規(guī)律并生成全新數(shù)據(jù)的模型為生成式模型。
然而,相對(duì)判別式模型來(lái)說(shuō),生成式模型的研究進(jìn)展較為緩慢,究其原因主要是較高的計(jì)算復(fù)雜度。典型的生成式模型往往涉及最大似然估計(jì)、馬爾可夫鏈方法、近似法等[14]。受限玻爾茲曼機(jī)(RBM, restricted Boltzmann machine)[15]及其擴(kuò)展模型(如深度置信網(wǎng)絡(luò)[16]、深度玻爾茲曼機(jī)[17])采用最大似然估計(jì)法,即令該參數(shù)下模型所表示的分布盡可能擬合訓(xùn)練數(shù)據(jù)的經(jīng)驗(yàn)分布。最直接的方法是利用梯度上升法求得對(duì)數(shù)似然函數(shù)最大值,但由于樣本分布未知且包含歸一化函數(shù)(也稱(chēng)配分函數(shù))而無(wú)法給出參數(shù)梯度的解析解,替代方法是基于采樣構(gòu)建以數(shù)據(jù)分布為平穩(wěn)分布的馬爾可夫鏈,以獲得滿(mǎn)足數(shù)據(jù)分布的樣本,然后利用蒙特卡羅迭代對(duì)梯度進(jìn)行近似,這種方法計(jì)算復(fù)雜。變分自編碼器(VAE, variational autoencoder)[18]采用近似法,其性能優(yōu)劣取決于近似分布的好壞,而該近似分布的假設(shè)需要一定的先驗(yàn)知識(shí),此外,由于受變分類(lèi)方法的局限,VAE對(duì)概率分布的估計(jì)是有偏的,在學(xué)習(xí)過(guò)程中對(duì)目標(biāo)函數(shù)下界而不是目標(biāo)函數(shù)進(jìn)行逼近。PixelRNN[19]是自回歸模型的一種,將圖像生成問(wèn)題轉(zhuǎn)化為像素序列預(yù)測(cè)學(xué)習(xí)問(wèn)題,假設(shè)每個(gè)像素的取值只依賴(lài)于空間中某種意義的近鄰,通過(guò)給定的像素對(duì)每個(gè)像素的條件分布進(jìn)行建模,采樣效率較低。上述生成式模型的復(fù)雜訓(xùn)練使之只能生成MNIST[20]和CIFAR-10[21]等簡(jiǎn)單數(shù)據(jù)集的圖片,并不適用于較大尺度的復(fù)雜圖像。
生成式模型是一個(gè)極具挑戰(zhàn)的機(jī)器學(xué)習(xí)問(wèn)題,主要體現(xiàn)在以下2點(diǎn)。首先,對(duì)真實(shí)世界進(jìn)行建模需要大量先驗(yàn)知識(shí),建模的好壞直接影響生成式模型的性能;其次,真實(shí)世界的數(shù)據(jù)往往非常復(fù)雜,擬合模型所需計(jì)算量往往非常龐大,甚至難以承受。針對(duì)上述兩大困難,Goodfellow等[22]提出一種新型生成式模型——生成式對(duì)抗網(wǎng)絡(luò)(GAN, generative adversarial network),開(kāi)創(chuàng)性地使用對(duì)抗訓(xùn)練機(jī)制對(duì)2個(gè)神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,并可使用隨機(jī)梯度下降(SGD, stochastic gradient descent)實(shí)現(xiàn)優(yōu)化。這避免了反復(fù)應(yīng)用馬爾可夫鏈學(xué)習(xí)機(jī)制帶來(lái)的配分函數(shù)計(jì)算,不需變分下限也不需近似推斷,從而大大提高了應(yīng)用效率[23]。盡管GAN從提出至今不過(guò)兩年半時(shí)間,但關(guān)注和研究熱度急速上升,并已從學(xué)術(shù)界延伸至工業(yè)界,Google、OpenAI、Facebook和Twitter等知名人工智能企業(yè)紛紛投入大量精力研究和拓展GAN的應(yīng)用[24~27]。目前,GAN已成功應(yīng)用于圖像生成[28~30]和視頻生成[31,32]領(lǐng)域,此外,若干研究工作[33~35]已成功將GAN應(yīng)用在強(qiáng)化學(xué)習(xí)中。
本文論述了GAN在建模、架構(gòu)、訓(xùn)練和性能評(píng)估方面的最新研究進(jìn)展及其具體應(yīng)用現(xiàn)狀,最后進(jìn)行分析與總結(jié),指出生成式對(duì)抗網(wǎng)絡(luò)研究中亟待解決的問(wèn)題。
受博弈論中二元零和博弈的啟發(fā),GAN的框架中包含一對(duì)相互對(duì)抗的模型:判別器和生成器。判別器的目的是正確區(qū)分真實(shí)數(shù)據(jù)和生成數(shù)據(jù),從而最大化判別準(zhǔn)確率;生成器則是盡可能逼近真實(shí)數(shù)據(jù)的潛在分布。為了在博弈中勝出,二者需不斷提高各自的判別能力和生成能力,優(yōu)化的目標(biāo)就是尋找二者間的納什均衡。GAN示意[36]如圖1所示,生成器(點(diǎn)劃線框內(nèi)的多層感知機(jī))的輸入是一個(gè)來(lái)自常見(jiàn)概率分布的隨機(jī)噪聲矢量,輸出是計(jì)算機(jī)生成的偽數(shù)據(jù);判別器(虛線框內(nèi)的多層感知機(jī))的輸入是圖片(可能采樣于真實(shí)數(shù)據(jù),也可能采樣于生成數(shù)據(jù)),輸出是一個(gè)標(biāo)量,用來(lái)代表是真實(shí)圖片的概率,即當(dāng)判別器認(rèn)為是真實(shí)圖片時(shí)輸出1,反之輸出0[22]。判別器和生成器不斷優(yōu)化,當(dāng)判別器無(wú)法正確區(qū)分?jǐn)?shù)據(jù)來(lái)源時(shí),可以認(rèn)為生成器捕捉到真實(shí)數(shù)據(jù)樣本的分布。
1) 極大極小博弈
生成器和判別器可以是任意可微函數(shù),因此,可以利用隨機(jī)梯度下降法(SGD)進(jìn)行優(yōu)化,而采用SGD的前提是建立一個(gè)目標(biāo)函數(shù)來(lái)判斷和監(jiān)視學(xué)習(xí)的效果。由于判別器是一個(gè)二分類(lèi)模型,因此,可用交叉熵表示其目標(biāo)函數(shù),即
其中,E是求期望,G和D分別表示生成器與判別器的可微函數(shù),x是真實(shí)數(shù)據(jù)樣本,z是隨機(jī)噪聲矢量,G(z)是判別器的生成數(shù)據(jù)。式(1)第一項(xiàng)表示D判斷出x是真實(shí)數(shù)據(jù)的情況,第二項(xiàng)則表示D判別出數(shù)據(jù)是由生成器G將噪聲矢量z映射而成的生成數(shù)據(jù)。由于G與D進(jìn)行二元零和博弈,因此,生成器G的目標(biāo)函數(shù)。因此,GAN的優(yōu)化問(wèn)題可描述為如下極大極小博弈問(wèn)題。
由于在訓(xùn)練初期缺乏足夠訓(xùn)練,所生成的數(shù)據(jù)不夠逼真,因此,很容易就能將生成數(shù)據(jù)與真實(shí)數(shù)據(jù)區(qū)分開(kāi)來(lái),導(dǎo)致得不到足夠梯度。因此,文獻(xiàn)[22]提出,通過(guò)最大化log(())而不是最小化log(1?(())來(lái)訓(xùn)練是一個(gè)更好的策略。
2) 非飽和博弈
為了解決生成器的弱梯度問(wèn)題,除了采用文獻(xiàn)[22]的方法外,還可以把極大極小博弈替換成非飽和博弈,即
換言之,用自己的偽裝能力來(lái)表示自己的目標(biāo)函數(shù),而不是簡(jiǎn)單直接地取()的相反數(shù)。從而均衡不再完全由價(jià)值函數(shù)min max(,)決定,即使準(zhǔn)確地拒絕了所有生成樣本,仍可以繼續(xù)學(xué)習(xí)。
Goodfellow等[22]從博弈論的角度闡釋了GAN的思想,即GAN的訓(xùn)練目標(biāo)是使生成器與判別器達(dá)到納什均衡,此時(shí),生成模型產(chǎn)生的數(shù)據(jù)分布完全擬合真實(shí)數(shù)據(jù)分布。若從信息論角度理解,GAN所最小化的實(shí)際上是真實(shí)數(shù)據(jù)分布和生成分布之間的Jensen-Shannon散度。Goodfellow[37]認(rèn)為Kullback-Leibler散度比Jensen-Shannon散度更適用于GAN的目標(biāo)函數(shù)構(gòu)建,S?nderby等[38]和Kim等[39]基于Kullback-Leibler散度對(duì)GAN進(jìn)行建模,通過(guò)最小化兩者之間的交叉熵進(jìn)行訓(xùn)練。文獻(xiàn)[40]對(duì)此進(jìn)行拓展,提出的-GAN將基于Jensen- Shannon散度的GAN建模泛化為基于-散度的優(yōu)化目標(biāo),從而將Kullback-Leibler等經(jīng)典散度度量也包含在-散度中。
在生成器和判別器的網(wǎng)絡(luò)結(jié)構(gòu)方面,樸素生成式對(duì)抗網(wǎng)絡(luò)[22]通過(guò)多層感知機(jī)(MLP, multi-layer perceptron)來(lái)實(shí)現(xiàn)。由于卷積神經(jīng)網(wǎng)絡(luò)(CNN, convolutional neural network)較MLP有更好的抽象能力,DCGAN[28]將樸素生成式對(duì)抗網(wǎng)絡(luò)的MLP結(jié)構(gòu)替換為CNN結(jié)構(gòu),考慮到傳統(tǒng)CNN所包含的池化層并不可微,DCGAN用步進(jìn)卷積網(wǎng)絡(luò)(strided convolution)及其轉(zhuǎn)置結(jié)構(gòu)分別實(shí)現(xiàn)判別器和生成器,用于訓(xùn)練過(guò)程的空間降采樣和升采樣。該研究工作提出了GAN架構(gòu)下的一種具體且有效的實(shí)現(xiàn)方式和經(jīng)驗(yàn)指導(dǎo),成為后續(xù)許多理論研究和應(yīng)用研究的基礎(chǔ)。另外,樸素GAN的定義域?yàn)閷?shí)數(shù)且生成器和判別器均可微,這樣設(shè)計(jì)是為了根據(jù)的梯度信息對(duì)生成數(shù)據(jù)進(jìn)行微調(diào),從而提高生成數(shù)據(jù)質(zhì)量。然而,當(dāng)數(shù)據(jù)是離散時(shí)此方式并不可行,這也是在自然語(yǔ)言處理中應(yīng)用生成對(duì)抗網(wǎng)絡(luò)的主要障礙。為了生成離散序列,TextGAN[41]和SeqGAN[42]等模型往往通過(guò)循環(huán)神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)判別器,通過(guò)CNN實(shí)現(xiàn)生成器。
GAN的最大優(yōu)點(diǎn)體現(xiàn)在其對(duì)抗訓(xùn)練方式通過(guò)對(duì)()直接采樣來(lái)逼近真實(shí)樣本,利用反向傳播即可獲得梯度而不需復(fù)雜的馬爾可夫鏈和推斷過(guò)程,從而大大簡(jiǎn)化了計(jì)算。然而,文獻(xiàn)[22]使用作為先驗(yàn),但生成式模型如何利用這個(gè)先驗(yàn)卻是無(wú)法控制的。換言之,GAN的學(xué)習(xí)模式過(guò)于自由而導(dǎo)致GAN的訓(xùn)練過(guò)程和結(jié)果都不可控。為了提高GAN的穩(wěn)定性,Mirza等[43]提出條件生成式對(duì)抗網(wǎng)絡(luò)(cGAN, conditional GAN),將條件變量作為模型的附加信息以約束生成過(guò)程,這種條件變量可以是類(lèi)別標(biāo)簽甚至還可以是不同模態(tài)的數(shù)據(jù)。GAN的架構(gòu)如圖2所示。圖2(a)是cGAN的概念圖,可以看出,cGAN在樸素GAN的基礎(chǔ)上將條件變量與同時(shí)輸入生成器中,在判別器中,真實(shí)樣本和條件變量同時(shí)作為判別函數(shù)的輸入。因此,cGAN的目標(biāo)函數(shù)在樸素GAN的基礎(chǔ)上進(jìn)一步改寫(xiě)為
cGAN需要同時(shí)對(duì)和條件變量進(jìn)行采樣,其中,對(duì)隨機(jī)噪聲采樣是簡(jiǎn)單的,但生成條件變量則需多加考慮。最常見(jiàn)的一種方法是直接從訓(xùn)練數(shù)據(jù)中獲取條件變量,例如,文獻(xiàn)[43]的條件變量采用的是類(lèi)別標(biāo)簽,其同時(shí)作為生成器和判別器的附加輸入層。然而,這種情況下生成器可能會(huì)記住這些訓(xùn)練樣本從而達(dá)到虛假的最優(yōu)。針對(duì)這個(gè)問(wèn)題,Gauthier[44]提出在訓(xùn)練過(guò)程中基于訓(xùn)練樣本的條件變量值構(gòu)造核密度估計(jì)(也稱(chēng)為帕爾森窗口估計(jì)),對(duì)條件變量進(jìn)行隨機(jī)采樣。文獻(xiàn)[43]和文獻(xiàn)[44]都是以類(lèi)別標(biāo)簽作為條件變量,與之不同, LAPGAN[45]和GRAN[32]的條件變量是上一級(jí)所生成的圖片,利用前一步得到的生成結(jié)果進(jìn)行訓(xùn)練,相當(dāng)于將復(fù)雜分布的建模問(wèn)題轉(zhuǎn)化為一系列簡(jiǎn)單子問(wèn)題,從而問(wèn)題得以大大簡(jiǎn)化。金字塔中每一級(jí)都通過(guò)使用cGAN來(lái)訓(xùn)練一個(gè)單獨(dú)的生成性卷積網(wǎng)絡(luò)G,以避免模型過(guò)擬合,這是LAPGAN的顯著特點(diǎn)和最大優(yōu)勢(shì)。StackGAN[46,47]本質(zhì)上也是一種cGAN,基于前一層所生成的分辨率較低圖片及文字信息生成分辨率較高的圖片。
Chen等[48]提出的InfoGAN是條件生成式對(duì)抗網(wǎng)絡(luò)中的另一重要模型。同樣地,InfoGAN的生成器的輸入包含條件變量,不同的是,這個(gè)條件變量是從噪聲矢量中拆分出來(lái)的結(jié)構(gòu)化隱變量。樸素GAN利用其唯一的輸入信號(hào)能生成與真實(shí)數(shù)據(jù)相一致的模型分布,然而人們并不清楚它究竟是如何將的具體維度與數(shù)據(jù)的有效語(yǔ)義特征對(duì)應(yīng)起來(lái)的,因此,也就無(wú)法通過(guò)控制以生成期望的數(shù)據(jù),針對(duì)這個(gè)問(wèn)題,InfoGAN通過(guò)從噪聲矢量中拆分出結(jié)構(gòu)化的隱變量,進(jìn)而使生成過(guò)程具備可控性且生成結(jié)果具備可解釋性。具體地,InfoGAN將樸素GAN中的進(jìn)行拆解,從而InfoGAN中輸入的先驗(yàn)變量可拆分為:1)一組用于表示數(shù)據(jù)語(yǔ)義特征的結(jié)構(gòu)化隱變量,用表示這部分具有可解釋性的先驗(yàn),例如,對(duì)于MNIST數(shù)據(jù)集來(lái)說(shuō),可用1,2,…,c表示光照方向、筆畫(huà)粗細(xì)和字體的傾斜角度等;2)不能再壓縮的、無(wú)法描述的非結(jié)構(gòu)化噪聲矢量,將和同時(shí)輸入生成器,如圖2(b)所示。根據(jù)信息論,互信息I(;)度量了的信息對(duì)不確定性的減少量,因此,為了學(xué)習(xí)重要的語(yǔ)義特征,可通過(guò)最大化隱變量和生成分布(,)的互信息I(;(,))使生成過(guò)程中的重要特征在生成過(guò)程中得到充分學(xué)習(xí)。InfoGAN的價(jià)值函數(shù)為
圖2 GAN的架構(gòu)
利用結(jié)構(gòu)化隱變量的可解釋性,InfoGAN能控制生成樣本在某個(gè)特定語(yǔ)義維度的變化,從而使生成器能生成更符合真實(shí)樣本的結(jié)果。通過(guò)引入變分分布逼近真實(shí)樣本分布,并與互信息下限的優(yōu)化進(jìn)行交替迭代,從而實(shí)現(xiàn)具體優(yōu)化。
GAN通過(guò)將簡(jiǎn)單的隱變量分布映射至任意復(fù)雜的數(shù)據(jù)分布來(lái)生成令人信服的自然圖像[28,45],這表明GAN的生成器能對(duì)隱空間中的數(shù)據(jù)分布進(jìn)行語(yǔ)義線性化,學(xué)習(xí)到隱空間中數(shù)據(jù)的良好特征表達(dá)。然而,GAN缺少一種有效的推斷機(jī)制,未能學(xué)習(xí)從數(shù)據(jù)空間映射至隱空間的逆映射[49]。為解決這個(gè)問(wèn)題,Donahue等[50]和Dumoulin等[51]將單向的GAN變?yōu)殡p向的GAN,從而既能進(jìn)行有效推斷又保證了生成樣本質(zhì)量。Donahue等[50]提出的雙向生成式對(duì)抗網(wǎng)絡(luò)(BiGAN, Bidirectional GAN),除了學(xué)習(xí)標(biāo)準(zhǔn)GAN中的生成器和判別器外,還學(xué)習(xí)了一個(gè)將數(shù)據(jù)映射至隱式表達(dá)的編碼器,如圖2(c)所示。Dumoulin等[51]提出的ALI與BiGAN一樣,通過(guò)編碼器學(xué)習(xí)到的特征表達(dá)有助于訓(xùn)練判別器,通過(guò)同時(shí)訓(xùn)練編碼器和解碼器以迷惑生成器,使判別器難以區(qū)分究竟是真實(shí)樣本及其編碼還是生成樣本及其隱變量,換言之,雙向生成對(duì)抗網(wǎng)絡(luò)的生成器判別的是聯(lián)合樣本(,)而不是樣本。
基于變分自動(dòng)編碼器的生成模型[15]能學(xué)習(xí)一種可以用于半監(jiān)督學(xué)習(xí)或圖像修復(fù)等輔助任務(wù)的近似推斷機(jī)制,但該方法的最大似然訓(xùn)練模式會(huì)使生成樣本比較模糊[52]。而基于GAN的生成模型雖然生成樣本質(zhì)量更優(yōu),但缺少一種有效的推斷機(jī)制[53]。Larsen等[54]將VAE和GAN并入同一個(gè)無(wú)監(jiān)督生成模型中,當(dāng)將編碼器和解碼器看作一個(gè)生成模型整體時(shí),這個(gè)生成模型和判別器構(gòu)成了擴(kuò)展的生成式對(duì)抗模型;若將解碼器和判別器看作一個(gè)整體時(shí),這個(gè)整體相當(dāng)于解碼器,并與編碼器共同構(gòu)成了擴(kuò)展的自編碼器,因此,該模型結(jié)合了GAN和VAE的優(yōu)點(diǎn)。Che等[55]在此基礎(chǔ)上提出將VAE的重構(gòu)誤差作為遺失模式的正則項(xiàng),進(jìn)而提高GAN的穩(wěn)定性和生成樣本質(zhì)量。對(duì)抗自編碼器(AAE, adversarial autoencoder)[56]將利用自編碼器得到的重構(gòu)誤差和對(duì)抗訓(xùn)練得到的隱變量與目標(biāo)分布之間的誤差進(jìn)行組合,從而既能通過(guò)自編碼器進(jìn)行推斷又能得到結(jié)構(gòu)化的隱變量。
通過(guò)對(duì)樸素GAN進(jìn)行堆疊、平行或相互反饋,來(lái)調(diào)整和的組合方式。Wang等[57]提出GAN的自組合和級(jí)聯(lián)組合,前者對(duì)經(jīng)過(guò)不同迭代次數(shù)的同一模型進(jìn)行組合,既充分利用模型組合的效果又可避免其帶來(lái)過(guò)多額外計(jì)算,后者將多個(gè)不同的cGAN進(jìn)行級(jí)聯(lián),通過(guò)門(mén)函數(shù)將未被充分利用的訓(xùn)練數(shù)據(jù)傳入下一個(gè)GAN進(jìn)行重復(fù)使用,如圖3(a)所示。Liu等[58]提出的CoGAN包含一對(duì)GAN,每個(gè)GAN負(fù)責(zé)生成一個(gè)領(lǐng)域的圖片,如圖3(b)所示。在訓(xùn)練過(guò)程中,共享生成器低層和判別器高層的參數(shù),共享的參數(shù)使這一對(duì)GAN所生成的圖片相似,其余不共享的參數(shù)使每個(gè)GAN所生成的圖片不完全相同。Im等[59]提出生成式對(duì)抗的平行化GAP,即不讓判別器與固定且唯一的生成器進(jìn)行對(duì)抗訓(xùn)練,而是同時(shí)訓(xùn)練幾組GAN,并令每個(gè)判別器周期性地與其他GAN的生成器進(jìn)行對(duì)抗訓(xùn)練,如圖3(c)所示。GAP適用于GAN的任何擴(kuò)展模型,因此,可將GPU分配給不同的GAN衍生模型(如DCGAN和LAPGAN)進(jìn)行并行計(jì)算。并行對(duì)抗訓(xùn)練能增加判別器所處理的模式數(shù)量,從而有效避免模式坍塌問(wèn)題,因此,可將GAP視為正則化手段。Zhu等[60]提出的CycleGAN包含2個(gè)判別器D和D,用于鼓勵(lì)圖片在2種不同風(fēng)格之間的遷移。Li等[61]提出TripleGAN,在生成器和判別器的基礎(chǔ)上額外增加一個(gè)分類(lèi)器,和的目的都是使難辨真假,的引入避免了判別器既需判別生成樣本又需對(duì)生成樣本進(jìn)行分類(lèi)。
圖3 GAN的不同組合方式
GAN的判別器和生成器都是可微函數(shù),因此,可用隨機(jī)梯度下降進(jìn)行訓(xùn)練。在判別器接近最優(yōu)時(shí),生成器的損失函數(shù)E[log(1?(())]實(shí)質(zhì)上是最小化真實(shí)分布和生成分布之間的Jensen-Shannon散度。然而,當(dāng)真實(shí)分布和生成分布的支撐集是高維空間中的低維流形時(shí),這2個(gè)分布的重疊部分測(cè)度為零的概率為1,此時(shí),Jensen-Shannon散度是常數(shù)log2,導(dǎo)致訓(xùn)練梯度消失。針對(duì)這個(gè)問(wèn)題,Arjovsky等[62]提出Wasserstein-GAN(WGAN),用Wasserstein距離代替Jensen-Shannon散度來(lái)衡量真實(shí)分布和生成分布的距離。由于Wasserstein距離較Jensen-Shannon散度具有更佳的平滑性,解決了梯度消失問(wèn)題,因此,理論上WGAN徹底解決了訓(xùn)練不穩(wěn)定問(wèn)題。而且,Wasserstein距離的連續(xù)性和可微性能夠提供持續(xù)的梯度信息,因此,WGAN不要求生成器與判別器之間嚴(yán)格平衡。WGAN中用一個(gè)Lipschitz連續(xù)性約束對(duì)應(yīng)著GAN判別器的批評(píng)函數(shù),在如何進(jìn)行Lipschitz約束的問(wèn)題上,WGAN采用了權(quán)值截?cái)?,然而,帶有?quán)值截?cái)嗟膬?yōu)化器會(huì)在一個(gè)比1-Lipschitz小的空間中搜索判別器,導(dǎo)致判別器偏向非常簡(jiǎn)單的函數(shù),此外,截?cái)嗪筇荻仍诜聪騻鞑ミ^(guò)程中會(huì)出現(xiàn)梯度消失或彌散。針對(duì)這個(gè)問(wèn)題,Gulrajani等[63]提出用梯度懲罰代替權(quán)值截?cái)鄟?lái)進(jìn)行Lipschitz約束,以獲得更快的收斂速度和更高的生成樣本質(zhì)量。此外,樸素GAN沒(méi)有對(duì)生成分布做任何假設(shè),要想擬合任意分布必須給判別器引入無(wú)限建模能力,而這容易導(dǎo)致過(guò)擬合。Qi等[64]對(duì)判別器的無(wú)限建模能力進(jìn)行約束,通過(guò)將損失函數(shù)限定在滿(mǎn)足Lipschitz連續(xù)性約束的函數(shù)類(lèi)上并使用(真實(shí)樣本,生成樣本)這樣的成對(duì)統(tǒng)計(jì)量來(lái)學(xué)習(xí)批評(píng)函數(shù),迫使兩者之間必須配合,從而實(shí)現(xiàn)建模能力的按需分配。
上述研究工作的共同之處在于梯度信息是一階的,Metz等[65]提出在訓(xùn)練時(shí)對(duì)判別目標(biāo)函數(shù)進(jìn)行展開(kāi)優(yōu)化,即生成器當(dāng)前決策是基于判別器因該決策而采取的后續(xù)個(gè)決策而生成的,這個(gè)方法在本質(zhì)上是用二階甚至高階梯度指導(dǎo)生成器的訓(xùn)練。在標(biāo)準(zhǔn)GAN的訓(xùn)練中,生成器和判別器的參數(shù)更新都是在其他模型參數(shù)固定的前提下對(duì)自身參數(shù)使用梯度下降法進(jìn)行更新,而該研究工作中提出的代理?yè)p失函數(shù)使得模型參數(shù)基于其他模型參數(shù)的變化而進(jìn)行更新,具體地,在對(duì)生成器使用梯度下降法進(jìn)行參數(shù)更新后,基于判別器的后續(xù)步參數(shù)更新再去調(diào)整生成器的梯度。這種額外的信息能使生成器的概率分布更加平均,從而判別器的下一步不易坍塌至某一個(gè)點(diǎn),但由于對(duì)判別目標(biāo)函數(shù)的展開(kāi)優(yōu)化涉及二階甚至高階梯度,因而計(jì)算非常復(fù)雜。
GAN的訓(xùn)練技巧研究大大加快了GAN的研究和應(yīng)用進(jìn)展,目前,研究工作[24]是圍繞訓(xùn)練技巧展開(kāi)的,此外,也有很多研究工作[28,38]提出了針對(duì)具體訓(xùn)練問(wèn)題的技巧,本節(jié)將對(duì)常用的訓(xùn)練技巧進(jìn)行簡(jiǎn)單介紹。
Ioffe等[67]提出的批歸一化(BN, batch normalization)每次取一批而不是單獨(dú)一個(gè)數(shù)據(jù)進(jìn)行歸一化,從而使數(shù)據(jù)變得更加集中,利用批歸一化是GAN的常用訓(xùn)練技巧之一。例如,Springenberg等[68]在判別器的所有層以及生成器除最后一層外的所有層中均采用了批歸一化,使激活值產(chǎn)生邊界,有效防止了生成器的模式震蕩并改善了判別器的泛化性能;此外,批歸一化在DCGAN[28]中的使用明顯改善了網(wǎng)絡(luò)的優(yōu)化。然而,批歸一化難免使網(wǎng)絡(luò)的輸出高度依賴(lài)于與輸入數(shù)據(jù)位于同一批的其余數(shù)據(jù),那么,當(dāng)批內(nèi)數(shù)據(jù)過(guò)于相似時(shí),對(duì)生成器的輸入進(jìn)行批歸一化會(huì)導(dǎo)致生成圖片內(nèi)出現(xiàn)強(qiáng)相關(guān)。針對(duì)這個(gè)問(wèn)題,Salimans等[24]提出“參照批歸一化”,即取一批固定數(shù)據(jù)作為參照數(shù)據(jù)集,待處理的輸入數(shù)據(jù)依據(jù)參照數(shù)據(jù)集的均值和標(biāo)準(zhǔn)差進(jìn)行批歸一化,而這種方法的缺陷在于歸一化效果依賴(lài)于參照數(shù)據(jù)集的選取。鑒于此,進(jìn)一步提出“虛擬批歸一化”[24],在對(duì)輸入數(shù)據(jù)進(jìn)行歸一化時(shí),將輸入數(shù)據(jù)加入?yún)⒄諗?shù)據(jù)集中形成新的數(shù)據(jù)集——虛擬數(shù)據(jù)集,對(duì)此數(shù)據(jù)集進(jìn)行批歸一化處理,能有效避免生成數(shù)據(jù)與參照數(shù)據(jù)過(guò)于相似。由于虛擬批歸一化需對(duì)2批數(shù)據(jù)進(jìn)行前饋計(jì)算,開(kāi)銷(xiāo)較大,故只在生成器中使用。
常見(jiàn)的生成式模型評(píng)價(jià)指標(biāo)有平均對(duì)數(shù)似然、核密度估計(jì)和生成樣本的視覺(jué)保真度[37,52],這些方法分別適用于不同的生成式模型,而對(duì)GAN目前仍沒(méi)有一個(gè)標(biāo)準(zhǔn)的定量評(píng)估指標(biāo)。文獻(xiàn)[22,43]通過(guò)帕爾森窗口法對(duì)GAN進(jìn)行評(píng)估,帕爾森窗口法是一種非參數(shù)的密度函數(shù)估計(jì)方法,既不需利用樣本分布的先驗(yàn)知識(shí),也不需對(duì)樣本分布作任何假設(shè),是一種從樣本出發(fā)研究數(shù)據(jù)分布的方法。然而當(dāng)數(shù)據(jù)的維度很高時(shí),即便大量的樣本也不能保證通過(guò)帕爾森窗口估計(jì)可逼近模型的真實(shí)分布,樣本維數(shù)越高,采用帕爾森窗口估計(jì)的效果越差。文獻(xiàn)[45]提出了人工檢視,通過(guò)AMT(amazon mechanical turk)平臺(tái)讓人類(lèi)標(biāo)注者判斷所見(jiàn)圖片是真實(shí)樣本還是生成樣本。這種情況下,標(biāo)注者充當(dāng)著判別器的角色,而生成器是經(jīng)過(guò)訓(xùn)練的GAN,當(dāng)標(biāo)注者獲得反饋信息時(shí),判別的準(zhǔn)確性會(huì)極大地提高。
人工檢視的問(wèn)題在于成本高昂和主觀性強(qiáng),為降低人工檢視所需的實(shí)驗(yàn)成本,Salimans等[24]提出一種與人工檢視高度相關(guān)的替代方法將人工檢視過(guò)程自動(dòng)化,由于該評(píng)價(jià)方式是基于Inception模型[69]的,因而取名為Inception得分?;贗nception得分的強(qiáng)分類(lèi)器能以較高置信度生成優(yōu)質(zhì)樣本,然而僅當(dāng)樣本足夠多時(shí),Inception得分才能有效評(píng)價(jià)生成樣本的多樣性。Che等[55]進(jìn)一步指出,假設(shè)一個(gè)生成器能生成很好的樣本而這些樣本都是同一種模式的,這種情況下,盡管生成器發(fā)生了模式坍塌,但它依然能夠獲得很高的Inception得分。因此,對(duì)于有標(biāo)簽的數(shù)據(jù)集,Che等[55]提出一種“MODE得分”來(lái)同時(shí)評(píng)價(jià)視覺(jué)保真度和樣本多樣性。
文獻(xiàn)[28]提出基于分類(lèi)性能對(duì)模型進(jìn)行評(píng)估,這種方法最突出的問(wèn)題是評(píng)估結(jié)果高度依賴(lài)于分類(lèi)器的選擇。例如,文獻(xiàn)[28]中采用最近鄰分類(lèi)器,而歐氏距離對(duì)圖像來(lái)說(shuō)并不是一種很好的相似性度量。Im等[59]提出一種針對(duì)GAN的評(píng)估方法GAM(generative adversarial metric),令2組GAN互相競(jìng)爭(zhēng)、互為評(píng)委。盡管GAM是一個(gè)有效的評(píng)估標(biāo)準(zhǔn),但是GAM要求相互比較的判別器在留存測(cè)試數(shù)據(jù)集的誤差率不相上下,然而,對(duì)于進(jìn)行并行對(duì)抗訓(xùn)練的模型,其判別器的泛化性會(huì)有明顯提升,致使并行訓(xùn)練與非并行訓(xùn)練的模型之間錯(cuò)誤率差別較大,從而無(wú)法使用GAM對(duì)模型進(jìn)行評(píng)估,鑒于此,Im等[59]進(jìn)一步提出了GAM Ⅱ,去除GAM的上述限制,僅度量這些判別器的平均(或者最差)錯(cuò)誤率。
GAN作為一種生成式模型,最直接的應(yīng)用就是數(shù)據(jù)生成,即對(duì)真實(shí)數(shù)據(jù)進(jìn)行建模并生成與真實(shí)數(shù)據(jù)分布一致的數(shù)據(jù)樣本[14],如圖像、視頻、語(yǔ)音、自然語(yǔ)言文本等。此外,GAN還可用于機(jī)器學(xué)習(xí)中的半監(jiān)督學(xué)習(xí)。本節(jié)將從計(jì)算機(jī)視覺(jué)、語(yǔ)言與語(yǔ)音、半監(jiān)督學(xué)習(xí)以及其他領(lǐng)域?qū)AN的應(yīng)用進(jìn)行介紹。
目前,GAN應(yīng)用最成功的領(lǐng)域是計(jì)算機(jī)視覺(jué),包括圖像和視頻生成,如圖像翻譯[30,60,70~72]、圖像超分辨率[26]、圖像修復(fù)[73]、圖像上色[74]、人臉圖像編輯[75~80]以及視頻生成[31,32]等。
文獻(xiàn)[60,70,72]將GAN應(yīng)用于圖像翻譯,例如,根據(jù)輪廓圖像生成照片、根據(jù)白天圖像生成對(duì)應(yīng)夜景等,如圖4所示[70]。Zhu等[71]進(jìn)一步將圖像翻譯拓展使多模態(tài)圖像翻譯,大大增加了生成圖像的多樣性,如圖5所示。除了從二維圖像到二維圖像的翻譯外,Gadelha等[30]提出的PrGAN能夠以一種完全無(wú)監(jiān)督的訓(xùn)練方式將給定的一系列甚至是一張2D圖像翻譯為該物體的3D體素形狀和深度信息。
圖4 圖像翻譯
圖5 多模態(tài)圖像翻譯
Ledig等[26]提出一個(gè)用于超分辨率的生成式對(duì)抗網(wǎng)絡(luò)SRGAN,該模型的目標(biāo)函數(shù)由對(duì)抗損失函數(shù)和內(nèi)容損失函數(shù)共同構(gòu)成,其中,對(duì)抗損失函數(shù)通過(guò)訓(xùn)練判別器區(qū)分真實(shí)圖片和由生成器進(jìn)行超分辨重構(gòu)的圖片,從而能夠?qū)W習(xí)自然圖片的流形結(jié)構(gòu),通過(guò)峰值信噪比和結(jié)構(gòu)相似性等指標(biāo)對(duì)重建圖像進(jìn)行評(píng)估,結(jié)果表明SRGAN的效果比現(xiàn)有最先進(jìn)的采用深度殘差網(wǎng)絡(luò)優(yōu)化均方差更接近高分辨率原圖。Pathak等[73]將cGAN[43]應(yīng)用到圖像修復(fù),以圖像缺失部分的周邊像素為條件訓(xùn)練生成式模型,生成完整的修復(fù)圖像,利用對(duì)抗思想訓(xùn)練判別器對(duì)真實(shí)樣本和修復(fù)樣本進(jìn)行判斷,經(jīng)對(duì)抗訓(xùn)練后,生成器所生成的修復(fù)圖像與遮擋區(qū)塊周邊是連貫的,而且是符合語(yǔ)義的,如圖6所示[73]。人臉圖像去遮擋是圖像復(fù)原的延伸應(yīng)用,Zhao等[81]訓(xùn)練判別器區(qū)分真實(shí)無(wú)遮擋人臉圖像和基于有遮擋圖像而復(fù)原的人臉圖像,能有效移除人臉圖像中的遮擋物并用于人臉識(shí)別。文獻(xiàn)[75~80]將GAN應(yīng)用于人臉圖片編輯。GAN除了能夠生成高質(zhì)量的自然圖像(例如手寫(xiě)字體[22]、臥室[28,82]、人眼[83]和人臉[84]等)外,還能生成抽象的藝術(shù)作品[85]。
圖6 圖像修復(fù)
Mathieu等[31]最先提出將對(duì)抗訓(xùn)練應(yīng)用于視頻預(yù)測(cè),即生成器根據(jù)前面一系列幀生成視頻最后一幀,判別器對(duì)該幀進(jìn)行判斷。除最后一幀外的所有幀都是真實(shí)的圖片,這樣的好處是判別器能有效地利用時(shí)間維度的信息,同時(shí)也有助于使生成的幀與前面的所有幀保持一致。實(shí)驗(yàn)結(jié)果表明,通過(guò)對(duì)抗訓(xùn)練生成的幀比其他算法(基于1或2損失)更加清晰。由于該模型是完全可微的,因此,可在精調(diào)后用于其他任務(wù)。與光流預(yù)測(cè)進(jìn)行結(jié)合或?qū)⑾乱粠A(yù)測(cè)相關(guān)應(yīng)用中的光流算法替換為生成對(duì)抗訓(xùn)練,有望進(jìn)一步改善應(yīng)用效果。最近,Vondrick等[32]利用GAN在視頻生成中取得了突破性進(jìn)展,能生成32幀(標(biāo)準(zhǔn)電影每秒24幀)分辨率為64×64的逼真視頻,描繪的內(nèi)容包括沙灘、高爾夫球場(chǎng)、火車(chē)站以及新生兒,20%的AMT標(biāo)記員認(rèn)為這些生成視頻是真實(shí)視頻。Vondrick等[28]在DCGAN的基礎(chǔ)上提出“雙流架構(gòu)”,雙流分別是移動(dòng)的前景流和靜止的背景流,其中,前景流是一個(gè)時(shí)空卷積神經(jīng)網(wǎng)絡(luò),而背景流則是一個(gè)空間卷積神經(jīng)網(wǎng)絡(luò)。前景流相比背景流多了一個(gè)時(shí)間維度,這是為了讓前景移動(dòng)而背景靜止,雙流之間相互獨(dú)立,這一架構(gòu)迫使生成器在前景對(duì)象移動(dòng)時(shí)對(duì)靜止背景進(jìn)行渲染。此外,該研究工作還能從靜態(tài)照片中生成多幀視頻,首先,識(shí)別靜態(tài)圖片的對(duì)象,然后,生成32幀的視頻,這些生成視頻中對(duì)象的動(dòng)作非常合乎常理。這種對(duì)動(dòng)作的預(yù)測(cè)能力是機(jī)器未來(lái)融入人類(lèi)生活的關(guān)鍵,因?yàn)檫@使機(jī)器能辨別什么動(dòng)作于人于己都是沒(méi)有傷害的。此前的模型都是逐幀創(chuàng)建場(chǎng)景的,這意味著信息被分成很多塊,從而不可避免地帶來(lái)較大誤差,而該研究工作則是同時(shí)預(yù)測(cè)所有幀,當(dāng)然,一次生成所有幀在使預(yù)測(cè)更加精確的同時(shí)也帶來(lái)了復(fù)雜的計(jì)算,在長(zhǎng)視頻中此問(wèn)題尤為突出。
相對(duì)于在計(jì)算機(jī)視覺(jué)領(lǐng)域的應(yīng)用,GAN在語(yǔ)言處理領(lǐng)域的報(bào)道較少。這是因?yàn)閳D像和視頻數(shù)據(jù)的取值是連續(xù)的,可直接應(yīng)用梯度下降對(duì)可微的生成器和判別器進(jìn)行訓(xùn)練,而語(yǔ)言生成模型中的音節(jié)、字母和單詞等都是離散值,這類(lèi)離散輸出的模型難以直接應(yīng)用基于梯度的生成式對(duì)抗網(wǎng)絡(luò)。為使模型適用于文本生成,TextGAN[41]采用一些技巧對(duì)離散變量進(jìn)行處理,例如,采用光滑近似來(lái)逼近LSTM的離散輸出,并在生成器訓(xùn)練過(guò)程中采用特征匹配技術(shù)[24]。由于LSTM的參數(shù)明顯多于CNN的參數(shù)個(gè)數(shù)而更難訓(xùn)練,TextGAN的判別器僅在生成器多次更新后才進(jìn)行一次更新。Yu等[42]提出的SeqGAN借鑒強(qiáng)化學(xué)習(xí)處理離散輸出問(wèn)題,將判別器輸出的誤差視為強(qiáng)化學(xué)習(xí)中的獎(jiǎng)賞值,并將生成器的訓(xùn)練過(guò)程看作強(qiáng)化學(xué)習(xí)中的決策過(guò)程,應(yīng)用于詩(shī)句、演講文本以及音樂(lè)生成。Li等[86]和Kusner等[87]分別將GAN應(yīng)用于開(kāi)放式對(duì)話文本生成和上下文無(wú)關(guān)語(yǔ)法(CFG, context-free grammar)。相比前述的從圖像到圖像的轉(zhuǎn)換,從文本到圖像的轉(zhuǎn)換困難得多,因?yàn)橐晕谋久枋鰹闂l件的圖像分布往往是高度多模態(tài)的,即符合同樣文本描述的生成圖像之間差別可能很大。另一方面,雖然從圖像生成文本也面臨著同樣問(wèn)題,但由于文本能按照一定語(yǔ)法規(guī)則分解,因此,從圖像生成文本是一個(gè)比從文本生成圖像更容易定義的預(yù)測(cè)問(wèn)題。Reed等[29]利用這個(gè)特點(diǎn),通過(guò)GAN的生成器和判別器分別進(jìn)行文本到圖像、圖像到文本的轉(zhuǎn)換,二者經(jīng)過(guò)對(duì)抗訓(xùn)練后能夠生成以假亂真的圖像,例如,根據(jù)文本“這只小鳥(niǎo)有著小小的鳥(niǎo)喙、脛骨和雙足,藍(lán)色的冠部和覆羽以及黑色的臉頰”生成圖7所示的圖片[29]。此外,通過(guò)對(duì)輸入變量進(jìn)行可解釋的拆分,能改變圖像的風(fēng)格、角度和背景。當(dāng)然,目前所合成的圖像尺寸依然較小,該研究的下一步工作是嘗試合成像素更高的圖像和增加文本所描述的特征數(shù)量。
GAN強(qiáng)大的表征能力使之能夠生成與真實(shí)數(shù)據(jù)分布相一致的數(shù)據(jù),因此,可用于解決訓(xùn)練數(shù)據(jù)不足時(shí)的學(xué)習(xí)問(wèn)題,有效緩解基于深度學(xué)習(xí)的解決方案對(duì)訓(xùn)練數(shù)據(jù)量的需求。此外,盡管GAN作為一種無(wú)監(jiān)督學(xué)習(xí)方法被提出,但可廣泛應(yīng)用于半監(jiān)督學(xué)習(xí)[88]過(guò)程中無(wú)標(biāo)簽數(shù)據(jù)對(duì)模型的預(yù)訓(xùn)練[14]。GAN的判別器實(shí)際上是一個(gè)二分類(lèi)的分類(lèi)器,區(qū)分樣本是真實(shí)樣本還是生成樣本。Springenberg[68]和Salimans等[24]結(jié)合文獻(xiàn)[89]先對(duì)樣本進(jìn)行聚類(lèi),然后,通過(guò)計(jì)算有標(biāo)簽數(shù)據(jù)的預(yù)測(cè)類(lèi)別分布和真實(shí)類(lèi)別分布之間的交叉熵進(jìn)行半監(jiān)督學(xué)習(xí),將樸素GAN的判別器從二元分類(lèi)器擴(kuò)展為多類(lèi)別分類(lèi)器,從而輸出Softmax分類(lèi)結(jié)果而不是圖片來(lái)自真實(shí)樣本的概率。此外,Odena[90]提出的Semi-GAN和AC-GAN[27]也是GAN在多分類(lèi)問(wèn)題上的成功應(yīng)用。文獻(xiàn)[68]指出,將經(jīng)過(guò)訓(xùn)練的判別器作為一個(gè)通用特征提取器用于多分類(lèi)問(wèn)題,只需結(jié)合少量標(biāo)簽信息便可達(dá)到令人滿(mǎn)意的分類(lèi)效果,例如,在MNIST數(shù)據(jù)集上對(duì)每一個(gè)類(lèi)別僅用10個(gè)有標(biāo)簽樣本就能達(dá)到98.61%的分類(lèi)準(zhǔn)確率,這一結(jié)果已經(jīng)非常接近使用全部(60 000個(gè))有標(biāo)簽樣本所能得到的最佳結(jié)果(99.52%)。
圖7 根據(jù)文本描述生成圖像
Santana等[91]利用GAN輔助自動(dòng)駕駛,首先,生成與真實(shí)交通場(chǎng)景圖像分布一致的圖像,然后,訓(xùn)練一個(gè)基于循環(huán)神經(jīng)網(wǎng)絡(luò)的轉(zhuǎn)移模型來(lái)預(yù)測(cè)下一個(gè)交通場(chǎng)景。Wu等[92]提出對(duì)抗神經(jīng)機(jī)器翻譯,將神經(jīng)機(jī)器翻譯(NMT, neural machine translation)作為GAN的生成器,采用策略梯度方法訓(xùn)練判別器,通過(guò)最小化人類(lèi)翻譯和神經(jīng)機(jī)器翻譯的差別生成高質(zhì)量的翻譯。Schlegl等[93]將GAN用于醫(yī)學(xué)圖像的異常檢測(cè),通過(guò)學(xué)習(xí)健康數(shù)據(jù)集的特征能抽象出病變特征,例如,能夠檢測(cè)到測(cè)試樣本中的視網(wǎng)膜積液,而這在訓(xùn)練樣本集中并沒(méi)有出現(xiàn)過(guò)。Hu等[94]基于GAN生成具有對(duì)抗性的病毒代碼樣本,用于惡意軟件檢測(cè)的訓(xùn)練。Chidambaram等[95]提出一個(gè)GAN的擴(kuò)展模型,并將其作為風(fēng)格遷移算子,用判別器對(duì)生成器進(jìn)行正則化,并通過(guò)國(guó)際象棋實(shí)驗(yàn)證明該模型的有效性。
GAN的最大優(yōu)勢(shì)在于不需對(duì)生成分布進(jìn)行顯式表達(dá),既避免了傳統(tǒng)生成式模型中計(jì)算復(fù)雜的馬爾可夫鏈采樣和推斷,也沒(méi)有復(fù)雜的變分下限,從而在大大降低訓(xùn)練難度的同時(shí),提高了訓(xùn)練效率。GAN提供了一個(gè)極具柔性的架構(gòu),可針對(duì)不同任務(wù)設(shè)計(jì)損失函數(shù),增加了模型設(shè)計(jì)的自由度。依賴(lài)數(shù)據(jù)自然性解釋的傳統(tǒng)生成式模型難以適用于概率密度不可計(jì)算的情形,而GAN由于巧妙的內(nèi)部對(duì)抗機(jī)制依然適用。此外,結(jié)合無(wú)監(jiān)督的GAN訓(xùn)練和有監(jiān)督的分類(lèi)或回歸任務(wù),能產(chǎn)生一個(gè)簡(jiǎn)單而有效的半監(jiān)督學(xué)習(xí)方法。
盡管GAN解決了已有生成式模型存在的普遍問(wèn)題,但同時(shí)也帶來(lái)了新的問(wèn)題,最突出的是訓(xùn)練過(guò)程不穩(wěn)定。GAN的目標(biāo)函數(shù)所優(yōu)化的實(shí)質(zhì)是真實(shí)分布與生成分布之間的Jensen-Shannon散度,當(dāng)二者具有極小重疊甚至沒(méi)有重疊時(shí),Jensen-Shannon散度是常數(shù),從而導(dǎo)致優(yōu)化梯度消失。而且,GAN對(duì)多樣性不足和準(zhǔn)確性不足的懲罰并不平衡,導(dǎo)致生成器傾向生成重復(fù)但會(huì)被判別器認(rèn)為真實(shí)的少數(shù)幾種甚至一種樣本,而不是豐富多樣但有可能被判別器拒絕的樣本,即模式坍塌(mode collapse)。此外,GAN因其神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),可解釋性較差,可微的設(shè)計(jì)使之僅適用于連續(xù)數(shù)據(jù),從而導(dǎo)致自然語(yǔ)言等離散數(shù)據(jù)應(yīng)用GAN的障礙。
1) 克服模式坍塌
模式坍塌是指GAN生成樣本的模式總是集中在少數(shù)幾個(gè)甚至單一模式上,這導(dǎo)致數(shù)據(jù)生成結(jié)果缺乏多樣性[24]。因此,如何增加生成樣本多樣性是亟待研究的內(nèi)容:通過(guò)模型組合(如并行或級(jí)聯(lián))對(duì)多個(gè)GAN的生成樣本模式進(jìn)行組合;利用推斷機(jī)制保證樣本空間與隱變量空間的對(duì)應(yīng)性,從而保證生成器盡可能多地覆蓋真實(shí)樣本空間的所有模式;將有效的多樣性度量加入損失函數(shù)中,從而指導(dǎo)模型訓(xùn)練等。
2) 標(biāo)準(zhǔn)的評(píng)價(jià)指標(biāo)
對(duì)于生成模型這個(gè)研究領(lǐng)域來(lái)說(shuō),一個(gè)突出問(wèn)題是缺乏公認(rèn)的定量評(píng)價(jià)指標(biāo),對(duì)于GAN來(lái)說(shuō)也是如此。生成樣本的質(zhì)量?jī)?yōu)劣仍依賴(lài)于主觀判斷,而對(duì)于常用的客觀評(píng)價(jià)指標(biāo),如平均對(duì)數(shù)似然,核密度估計(jì)和生成樣本的視覺(jué)保真度之間互不依賴(lài)且分別適用于不同類(lèi)型的生成模型,即使對(duì)相同類(lèi)型的生成模型,當(dāng)應(yīng)用對(duì)象不同時(shí)采用不同評(píng)估標(biāo)準(zhǔn)也可能導(dǎo)致差別較大的訓(xùn)練效果。因此,如何對(duì)GAN進(jìn)行評(píng)估以及如何將GAN與其他類(lèi)型的生成模型進(jìn)行比較是亟待解決的問(wèn)題。
3) 生成過(guò)程的可解釋性
早期研究工作著眼于模型的輸出而忽視了模型內(nèi)部運(yùn)作方式和產(chǎn)生輸出的過(guò)程,解釋GAN是如何在無(wú)監(jiān)督方式下“理解”圖像和視頻等數(shù)據(jù)的研究工作至今鮮有報(bào)道。通過(guò)可視化手段解釋模型內(nèi)部運(yùn)作機(jī)理能更好地指導(dǎo)模型訓(xùn)練,如通過(guò)反卷積操作將生成過(guò)程可視化,或激活某些中間層的特征以表征和推斷更高層次的特征。相信深度學(xué)習(xí)的研究突破將為解決此問(wèn)題提供新穎思路及技術(shù)手段。此外,通過(guò)增加從圖像空間到隱變量空間的推斷過(guò)程,從而將隱變量的屬性分離,也是使生成過(guò)程可解釋的有效手段。
4) 半監(jiān)督學(xué)習(xí)
GAN作為一種無(wú)監(jiān)督學(xué)習(xí)方法被提出,可以對(duì)無(wú)標(biāo)簽數(shù)據(jù)進(jìn)行特征學(xué)習(xí)。盡管實(shí)際應(yīng)用中難以獲得海量的標(biāo)簽數(shù)據(jù),但獲得少量標(biāo)簽數(shù)據(jù)往往是可能的,實(shí)際應(yīng)用結(jié)果表明,少量標(biāo)簽數(shù)據(jù)即能大大提高GAN的表現(xiàn)。因此,如何充分利用有限的標(biāo)簽數(shù)據(jù)或?qū)o(wú)標(biāo)簽數(shù)據(jù)自動(dòng)添加標(biāo)簽,是GAN的理論研究中具有廣闊研究前景的方向之一。
5) 與其他模型的融合
從應(yīng)用實(shí)例可發(fā)現(xiàn),融合能量函數(shù)的GAN[25,39,96]在判別器的建模和訓(xùn)練方法選取上具備較高的柔性,除了通常所使用的二值分類(lèi)器外,LeCun[97]所呈現(xiàn)的一系列基于能量的損失函數(shù)都能結(jié)合到EBGAN中,利用吉布斯分布可將能量轉(zhuǎn)化為概率,因此,這個(gè)方向具有廣闊的研究前景,后續(xù)研究可考慮結(jié)合GAN與那些能提供概率密度的深度生成器[33],例如,自回歸模型或采用可逆變換的模型,這種方法能提供更加穩(wěn)定的訓(xùn)練、更加好的生成器以及更加廣泛的應(yīng)用(如自然語(yǔ)言處理)。其次,目前已有研究主要是GAN與VAE、EBM和RL的融合,而與其他深度模型(如LSTM/BLSTM和RBM/DBN)或非深度模型融合的研究工作鮮有報(bào)道,是值得關(guān)注的研究方向之一。此外,強(qiáng)化學(xué)習(xí)與深度學(xué)習(xí)相結(jié)合在單一任務(wù)的處理上展現(xiàn)了奪目成效,因此,融合強(qiáng)化學(xué)習(xí)與GAN,并用于跨任務(wù)學(xué)習(xí)將有力推進(jìn)AI應(yīng)用發(fā)展。
6) 拓展應(yīng)用領(lǐng)域
在應(yīng)用范圍方面,盡管GAN比主流的基于最大似然訓(xùn)練的生成式模型能生成更加清晰和合理的圖像,但仍存在生成圖像噪聲較多、對(duì)象不穩(wěn)定以及訓(xùn)練圖像的類(lèi)別較為單一等亟待改善的問(wèn)題;而在場(chǎng)景預(yù)測(cè)和視頻生成方面,可嘗試通過(guò)序列化和局部損失函數(shù)等方式提高訓(xùn)練樣本尺度和生成視頻時(shí)間維度,并通過(guò)最大化利用深度學(xué)習(xí)所取得的理論研究成果(如殘差網(wǎng)絡(luò))降低視頻生成的計(jì)算復(fù)雜度,從而將GAN拓展至基于視頻生成的應(yīng)用,如視頻理解、動(dòng)態(tài)場(chǎng)景標(biāo)記和行為預(yù)測(cè)等。目前GAN的應(yīng)用成果集中在圖像和視頻生成領(lǐng)域,然而GAN作為一種生成性深度學(xué)習(xí)框架,天然具備在自然語(yǔ)言處理和語(yǔ)音合成等方面的優(yōu)良特性和潛力,因此,GAN的應(yīng)用領(lǐng)域有著極大拓展空間。
本文概述了生成式對(duì)抗網(wǎng)絡(luò)的研究背景并闡述了其基本原理,在此基礎(chǔ)上圍繞其重要架構(gòu)、訓(xùn)練方法以及評(píng)價(jià)方式等方面對(duì)GAN的研究進(jìn)展進(jìn)行了論述,總結(jié)了當(dāng)前研究存在的問(wèn)題并指出未來(lái)的工作展望。
[1] LI Y, HE K, SUN J. R-fcn: object detection via region-based fully convolutional networks[C]//The Advances in Neural Information Processing Systems. 2016: 379-387.
[2] HONG S, ROH B, KIM K H, et al. PVANet: lightweight deep neural networks for real-time object detection[J]. arXiv: arXiv1611.08588, 2016.
[3] LI X, QIN T, YANG J, et al. LightRNN: memory and computation-efficient recurrent neural networks[J]. arXiv: arXiv1610.09893, 2016.
[4] DAUPHIN Y N, FAN A, AULI M, et al. Language modeling with gated convolutional networks[J]. arXiv: arXiv1609.03499, 2016.
[5] OORD A V D, DIELEMAN S, ZEN H, et al. WaveNet: a generative model for raw audio[J]. arXiv: arXiv1609.03499, 2016.
[6] BENGIO Y. Learning deep architectures for AI[J]. Foundations & Trends? in Machine Learning, 2009, 2(1):1-127.
[7] 王萬(wàn)良. 人工智能及其應(yīng)用(第三版)[M]. 北京: 高等教育出版社, 2016.
WANG W L. Artificial intelligence: principles and applications (third edition)[M]. Beijing: Higher Education Press, 2016.
[8] 周昌令, 欒興龍, 肖建國(guó). 基于深度學(xué)習(xí)的域名查詢(xún)行為向量空間嵌入[J]. 通信學(xué)報(bào), 2016, 37(3): 165-174.
ZHOU C L,LUAN X L, XIAO J G. Vector space embedding of DNS query behaviors by deep learning[J]. Journal on Communications, 2016, 37(3): 165-174.
[9] HINTON G, DENG L, YU D, et al. Deep neural networks for acoustic modeling in speech recognition: the shared views of four research groups[J]. IEEE Signal Processing Magazine, 2012, 29(6): 82-97.
[10] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[C]//The International Conference on Neural Information Processing Systems. 2012: 1097-1105.
[11] RUMELHART D E, HINTON G E, WILLIAMS R J. Learning representations by back-propagating errors[J]. Nature, 1986, 323(6088): 533-536.
[12] HINTON G E, SRIVASTAVA N, KRIZHEVSKY A, et al. Improving neural networks by preventing co-adaptation of feature detectors[J]. Computer Science, 2012, 3(4): 212-223.
[13] LIN M, CHEN Q, YAN S. Network in network[J]. arXiv: arXiv1312.4400, 2013.
[14] 王坤峰, 茍超, 段艷杰, 等. 生成式對(duì)抗網(wǎng)絡(luò)GAN的研究進(jìn)展與展望[J]. 自動(dòng)化學(xué)報(bào), 2017, 43(3): 321-332.
WANG K F, GOU C, DUAN Y J, et al. Generative adversarial networks: the state of the art and beyond[J]. ACTA Automatica Sinica, 2017, 43(3): 321-332.
[15] REZENDE D J, MOHAMED S, WIERSTRA D. Stochastic backpropagation and approximate inference in deep generative models[J]. Eprint Arxiv, 2014: 1278-1286.
[16] HINTON G E, OSINDERO S, TEH Y W. A fast learning algorithm for deep belief nets[J]. Neural Computation, 1989, 18(7): 1527-1554.
[17] SALAKHUTDINOV R, HINTON G. Deep boltzmann machines[J]. Journal of Machine Learning Research, 2009, 5(2): 1967-2006.
[18] KINGMA D P, WELLING M. Auto-encoding variational bayes[J]. arXiv: arXiv1312.6114, 2013.
[19] OORD A V D, KALCHBRENNER N, KAVUKCUOGLU K. Pixel recurrent neural networks[C]//The International Conference on Machine Learning, 2016: 1747-1756.
[20] LECUN Y, BOTTOU L, BENGIO Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324.
[21] KRIZHEVSKY A, HINTON G E. Learning multiple layers of features from tiny images[R]. University of Toronto, Technical Report, 2009.
[22] GOODFELLOW I J, POUGET-ABADIE J, MIRZA M, et al. Generative adversarial nets[C]//International Conference on Neural Information Processing Systems. 2014: 2672-2680.
[23] GOODFELLOW I. Generative adversarial networks[J]. arXiv: arXiv 1701.00160, 2017.
[24] SALIMANS T, GOODFELLOW I, ZAREMBA W, et al. Improved techniques for training gans[J]. arXiv: arXiv1606.03498,2016.
[25] ZHAO J, MATHIEU M, LECUN Y. Energy-based generative adversarial network[J]. arXiv: arXiv 1609.03126, 2016.
[26] LEDIG C, THEIS L, HUSZAR F, et al. Photo-realistic single image super-resolution using a generative adversarial network[J]. arXiv: arXiv1609.04802, 2016.
[27] ODENA A, OLAH C, SHLENS J. Conditional image synthesis with auxiliary classifier GANs[J]. arXiv: arXiv1610.09585, 2016.
[28] ZHU W, MIAO J, QING L, et al. Unsupervised representation learning with deep convolutional generative adversarial networks. computer science[J]. arXiv: arXiv1511.06434, 2015.
[29] REED S, AKATA Z, YAN X, et al. Generative adversarial text to image synthesis[C]//International Conference on Machine Learning, 2016: 1060-1069.
[30] GADELHA M, MAJI S, WANG R. 3D shape induction from 2D views of multiple objects[J]. arXiv: arXiv1612. 05872, 2016.
[31] MATHIEU M, COUPRIE C, LECUN Y. Deep multi-scale video prediction beyond mean square error[J]. arXiv: arXiv1511.05440, 2015.
[32] VONDRICK C, PIRSIAVASH H, TORRALBA A. Generating videos with scene dynamics[C]//Conferrence on Neural Information Processing Systems. 2016: 613-621.
[33] FINN C, CHRISTIANO P, ABBEEL P, et al. A connection between generative adversarial networks, inverse reinforcement learning, and energy-based models[J]. arXiv: arXiv1611.03852, 2016.
[34] HO J, ERMON S. Generative adversarial imitation learning[C]//Advances in Neural Information Processing Systems. 2016: 4565-4573.
[35] PFAU D, VINYALS O. Connecting generative adversarial networks and actor-critic methods[J]. arXiv: arXiv1610.01945, 2016.
[36] KARPATHY A, LI F F. Deep visual-semantic alignments for generating image descriptions[C]// Computer Vision and Pattern Recognition. 2015: 3128-3137.
[37] GOODFELLOW I J. On distinguishability criteria for estimating generative models[J]. arXiv: arXiv1412.6515, 2014.
[38] S?NDERBY C K, CABALLERO J, THEIS L, et al. Amortised map inference for image super-resolution[J]. arXiv: arXiv1610.04490, 2016.
[39] KIM T, BENGIO Y. Deep directed generative models with energy-based probability estimation[J]. arXiv: arXiv1606.03439, 2016.
[40] NOWOZIN S, CSEKE B, TOMIOKA R. F-gan: training generative neural samplers using variational divergence minimization[C]//Advances in Neural Information Processing Systems. 2016: 271-279.
[41] ZHANG Y Z, GAN Z, CARIN L. Generating text via adversarial training[C]//In Neural Information Processing Systems Workshop on Adversarial Training. 2016.
[42] YU L, ZHANG W, WANG J, et al. SeqGAN: sequence generative adversarial nets with policy gradient[J]. arXiv: arXiv1609.05473, 2016.
[43] MIRZA M, OSINDERO S. Conditional generative adversarial nets[J]. Computer Science, 2014: 2672-2680.
[44] GAUTHIER J. Conditional generative adversarial nets for convolutional face generation[Z]. Class Project for Stanford CS231N: Convolutional Neural Networks for Visual Recognition, Winter semester, 2014(5): 2.
[45] DENTON E, CHINTALA S, SZLAM A, et al. Deep generative image models using a Laplacian pyramid of adversarial networks[C]// Conferrence on Neural Information Processing Systems. 2015: 1486-1494.
[46] HUANG X, LI Y, POURSAEED O, et al. Stacked generative adversarial networks[J]. arXiv: arXiv1612.04357, 2016.
[47] ZHANG H, XU T, LI H, et al. StackGAN: text to photo-realistic image synthesis with stacked generative adversarial networks[J]. arXiv: arXiv1612.03242, 2016.
[48] CHEN X, DUAN Y, HOUTHOOFT R, et al. InfoGAN: interpretable representation learning by information maximizing generative adversarial nets[C]//Advances in Neural Information Processing Systems. 2016: 2172-2180.
[49] LAMB A, DUMOULIN V, COURVILLE A. Discriminative regularization for generative models[J]. arXiv: arXiv1602.03220, 2016.
[50] DONAHUE J, KR?HENBüHL P, DARRELL T. Adversarial feature learning[J]. arXiv: arXiv1605.09782, 2016.
[51] DUMOULIN V, BELGHAZI I, POOLE B, et al. Adversarially learned inference[J]. arXiv: arXiv1606.00704, 2016.
[52] THEIS L, OORD A, BETHGE M. A note on the evaluation of generative models[J]. arXiv: arXiv1511.01844, 2015.
[53] BROCK A, LIM T, RITCHIE JM, et al. Neural photo editing with introspective adversarial networks[J]. arXiv: arXiv1609.07093, 2016.
[54] LARSEN A B L, S?NDERBY S K, LAROCHELLE H, et al. Autoencoding beyond pixels using a learned similarity metric[J]. arXiv: arXiv1512.09300, 2015.
[55] CHE T, LI Y, JACOB A P, et al. Mode regularized generative adversarial networks[J]. arXiv: arXiv1612.02136, 2016.
[56] MAKHZANI A, SHLENS J, JAITLY N, et al. Adversarial autoencoders[J]. arXiv: arXiv1511.05644, 2015.
[57] WANG Y, ZHANG L, JOOST V D W. Ensembles of generative adversarial networks[J]. arXiv: arXiv1612.00991, 2016.
[58] LIU M Y, TUZEL O. Coupled generative adversarial networks[C]//Advances in Neural Information Processing Systems, 2016: 469-477.
[59] IM D J, MA H, KIM C D, et al. Generative adversarial parallelization[J]. arXiv: arXiv1612.04021, 2016.
[60] ZHU J Y, PARK T, ISOLA P, et al. Unpaired image-to-image translation using cycle-consistent adversarial networks[J]. arXiv: arXiv 1703.10593, 2017.
[61] LI C, XU K, ZHU J, et al. Triple generative adversarial nets[J]. arXiv: arXiv1703.02291, 2017.
[62] ARJOVSKY M, CHINTALA S, BOTTOU L. Wasserstein GAN[J]. arXiv: arXiv1701.07875, 2017.
[63] GULRAJANI I, AHMED F, ARJOVSKY M, et al. Improved training of wasserstein GANs[J]. arXiv: arXiv1704.00028, 2017.
[64] QI G J. Loss-sensitive generative adversarial networks on lipschitz densities[J]. arXiv: arXiv1701.06264, 2017.
[65] METZ L, POOLE B, PFAU D, et al. Unrolled generative adversarial networks[J]. arXiv: arXiv1611.02163, 2016.
[66] WARDE-FARLEY D and GOODFELLOW I. Adversarial perturbations of deep neural networks[C]//Perturbations, Optimization, and Statistics. 2016: 311.
[67] IOFFE S, SZEGEDY C. Batch normalization: accelerating deep network training by reducing internal covariate shift[C]//International Conference on Machine Learning. 2015: 448-456.
[68] SPRINGENBERG J T. Unsupervised and semi-supervised learning with categorical generative adversarial networks[J]. arXiv: arXiv1511.06390, 2015.
[69] SZEGEDY C, VANHOUCKE V, IOFFE S, et al. Rethinking the inception architecture for computer vision[C]//The IEEE Conference on Computer Vision and Pattern Recognition. 2016: 2818-2826.
[70] ISOLA P, ZHU J Y, ZHOU T, et al. Image-to-image translation with conditional adversarial networks[J]. arXiv: arXiv1611.07004, 2016.
[71] ZHU J Y, ZHANG R, PATHAK D, et al. Toward multimodal image-to-image translation[C]//Advances in Neural Information Processing Systems. 2017: 465-476.
[72] YI Z, ZHANG H, GONG PT. DualGAN: unsupervised dual learning for image-to-image translation[J]. arXiv: arXiv1704.02510, 2017.
[73] PATHAK D, KRAHENBUHL P, DONAHUE J, et al. Context encoders: feature learning by inpainting[C]//The IEEE Conference on Computer Vision and Pattern Recognition. 2016: 2536-2544.
[74] LI C, LIU H, CHEN C, et al. Alice: towards understanding adversarial learning for joint distribution matching[C]//Advances in Neural Information Processing Systems. 2017: 5501-5509.
[75] PERARNAU G, VAN DE WEIJER J, RADUCANU B, et al. Invertible conditional GANs for image editing[J]. arXiv: arXiv1611.06355, 2016.
[76] CRESWELL A, BHARATH A A. Inverting the generator of a generative adversarial network[J]. arXiv: arXiv1611.05644, 2016.
[77] ZHOU S, XIAO T, YANG Y, et al. GeneGAN: learning object transfiguration and attribute subspace from unpaired data[J]. arXiv: arXiv1705.04932, 2017.
[78] KIM T, CHA M, KIM H, et al. Learning to discover cross-domain relations with generative adversarial networks[J]. arXiv: arXiv1703.05192, 2017.
[79] WANG C, WANG C, XU C, et al. Tag disentangled generative adversarial network for object image re-rendering[C]//The Twenty-Sixth International Joint Conference on Artificial Intelligence. 2017: 2901-2907.
[80] ANTIPOV G, BACCOUCHE M, DUGELAY JL. Face aging with conditional generative adversarial networks[J]. arXiv: arXiv1702. 01983, 2017.
[81] ZHAO F, FENG J, ZHAO J, et al. Robust LSTM-autoencoders for face de-occlusion in the wild[J]. arXiv: arXiv1612.08534, 2016.
[82] YU F, SEFF A, ZHANG Y, et al. Lsun: construction of a large-scale image dataset using deep learning with humans in the loop[J]. arXiv: arXiv1506.03365, 2015.
[83] SHRIVASTAVA A, PFISTER T, TUZEL O, et al. Learning from simulated and unsupervised images through adversarial training[J]. arXiv: arXiv1612.07828, 2016.
[84] LIU Z, LUO P, WANG X, et al. Deep learning face attributes in the wild[C]//The IEEE International Conference on Computer Vision. 2015: 3730-3738.
[85] TAN WR, CHAN CS, AGUIRRE H, et al. ArtGAN: artwork synthesis with conditional categorial GANs[J]. arXiv: arXiv1702.03410, 2017.
[86] LI J, MONROE W, SHI T, et al. Adversarial learning for neural dialogue generation[J]. arXiv: arXiv1701.06547, 2017.
[87] KUSNER M J, HERNáNDEZLOBATO J M. GANS for sequences of discrete elements with the gumbel-softmax distribution[J]. arXiv: arXiv1611.04051, 2016.
[88] DENTON E, GROSS S, FERGUS R. Semi-supervised learning with context-conditional generative adversarial networks[J]. arXiv: arXiv1611.06430, 2016.
[89] SUTSKEVER I, JOZEFOWICZ R, GREGOR K, et al. Towards principled unsupervised learning[J]. arXiv: arXiv1511.06440, 2015.
[90] ODENA A. Semi-supervised learning with generative adversarial networks[J]. arXiv: arXiv1606.01583, 2016.
[91] SANTANA E, HOTZ G. Learning a driving simulator[J]. arXiv: arXiv1608.01230, 2016.
[92] WU L, XIA Y, ZHAO L, et al. Adversarial neural machine translation[J]. arXiv: arXiv1704.06933, 2017.
[93] SCHLEGL T, SEEB?CK P, WALDSTEIN S M, et al. Unsupervised anomaly detection with generative adversarial networks to guide marker discovery[J]. arXiv: arXiv1703.05921, 2017.
[94] HU W W, TAN Y. Generating adversarial malware examples for black-box attacks based on GAN[J]. arXiv: arXiv1702.05983, 2017.
[95] CHIDAMBARAM M, QI Y J. Style transfer generative adversarial networks: learning to play chess differently[J]. arXiv: arXiv1702.06762, 2017.
[96] ZHAI S, CHENG Y, FERIS R, et al. Generative adversarial networks as variational training of energy based models[J]. arXiv: arXiv1611. 01799, 2016.
[97] LECUN Y, CHOPRA S, HADSELL R, et al. A tutorial on energy-based learning[M]. Predicting Structured Data: MIT Press. 2006.
Advances in generative adversarial network
WANG Wanliang, LI Zhuorong
College of Computer Science and Technology, Zhejiang University of Technology, Hangzhou 310024, China
Generative adversarial network (GAN) have swiftly become the focus of considerable research in generative models soon after its emergence, whose academic research and industry applications have yielded a stream of further progress along with the remarkable achievements of deep learning. A broad survey of the recent advances in generative adversarial network was provided. Firstly, the research background and motivation of GAN was introduced. Then the recent theoretical advances of GAN on modeling, architectures, training and evaluation metrics were reviewed. Its state-of-the-art applications and the extensively used open source tools for GAN were introduced. Finally, issues that require urgent solutions and works that deserve further investigation were discussed.
deep learning, generative adversarial network, convolutional neural network, auto-encoder, adversarial training
TP183
A
10.11959/j.issn.1000-436x.2018032
2017-05-24;
2018-01-17
國(guó)家自然科學(xué)基金資助項(xiàng)目(No.61379123)
TheNational Natural Science Foundation of China (No.61379123)
王萬(wàn)良(1957-),男,江蘇高郵人,博士,浙江工業(yè)大學(xué)教授,主要研究方向?yàn)槿斯ぶ悄?、機(jī)器自動(dòng)化、網(wǎng)絡(luò)控制。
李卓蓉(1986-),女,廣西桂林人,浙江工業(yè)大學(xué)博士生,主要研究方向?yàn)槿斯ぶ悄?、深度學(xué)習(xí)。