張帥 楊雪霞
摘 要:針對(duì)傳統(tǒng)文本—圖像對(duì)抗模型中,由于反卷積網(wǎng)絡(luò)參數(shù)過(guò)多容易產(chǎn)生過(guò)擬合現(xiàn)象,導(dǎo)致生成圖像質(zhì)量較差,而線性分解方法無(wú)法解決文本—圖像對(duì)抗模型中輸入單一的問(wèn)題,提出一種在線性分解基礎(chǔ)上加入流形插值的算法,并對(duì)傳統(tǒng)DCGAN模型進(jìn)行改進(jìn),以提高圖像的魯棒性。仿真實(shí)驗(yàn)結(jié)果表明,生成花卉圖像的FID分?jǐn)?shù)降低了4.73%,生成鳥(niǎo)類的FID分?jǐn)?shù)降低了4.11%,在Oxford-102和CUB兩個(gè)數(shù)據(jù)集上生成圖像的人類評(píng)估分?jǐn)?shù)分別降低了75.64%和58.95%,初始分?jǐn)?shù)分別提高14.88%和14.39%,說(shuō)明新模型生成的圖片更符合人類視角,圖片特征更為豐富。
關(guān)鍵詞:生成圖像;過(guò)擬合;深度卷積;流形插值;對(duì)抗網(wǎng)絡(luò)
DOI:10. 11907/rjdk. 201133 開(kāi)放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):
中圖分類號(hào):TP317.4 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-7800(2020)008-0216-05
Abstract: In the implementation of the traditional text image confrontation model, many parameters of deconvolution network are easy to produce over fitting phenomenon, resulting in poor image quality, the linear decomposition method cannot solve the problem of single input in the text image confrontation model. In this paper, an algorithm based on linear decomposition with popular interpolation is proposed, and the traditional DCGAN model is improved to enhance its robustness to image size. Through simulation experiment, the FID score of flower image and bird image is reduced by 4.73% and 4.11%, the human evaluation scores of the images generated on oxford-102 and cub data sets are 75.64% and 58.95% lower than the original, and the initial scores are 14.88% and 14.39% higher.The experimental results show that the image generated by the new model is more in line with the human perspective, and the image features are more abundant.
Key Words: generating image; over-fitting; deep convolution; epidemic interpolation; adversarial network
0 引言
隨著人工智能技術(shù)的飛速發(fā)展,深度學(xué)習(xí)技術(shù)成為學(xué)者們的研究熱點(diǎn),并在計(jì)算機(jī)視覺(jué)、語(yǔ)音識(shí)別、自然語(yǔ)言處理等多個(gè)領(lǐng)域取得了諸多成果。其中,GoodFellow 等[1-3]于2014年首次提出了GANs(Generative Adversarial Nets)概念,即生成對(duì)抗網(wǎng)絡(luò),目前生成對(duì)抗網(wǎng)絡(luò)已成功應(yīng)用于圖像處理領(lǐng)域。
當(dāng)前生成圖像主要是基于生成對(duì)抗網(wǎng)絡(luò)模型,而遞歸神經(jīng)網(wǎng)絡(luò)[4]和卷積神經(jīng)網(wǎng)絡(luò)[5]的提出使圖像生成更為高效。遞歸神經(jīng)網(wǎng)絡(luò)常用于處理標(biāo)題語(yǔ)句,從而形成標(biāo)題向量,也被用來(lái)學(xué)習(xí)區(qū)分文本特征表示;卷積神經(jīng)網(wǎng)絡(luò)用于圖像特征提取,進(jìn)而形成圖像特征向量,其中深度卷積對(duì)抗網(wǎng)絡(luò)也被用于生成人臉、相冊(cè)封面和房間內(nèi)部結(jié)構(gòu)。生成對(duì)抗網(wǎng)絡(luò)衍生出的模型包括GAN-INT-CLS[6]、GAWWN[7]、StackGAN[8]和StackGAN++[9]等,雖然這些模型在圖像生成方面取得了諸多進(jìn)展,但其都是以深度卷積對(duì)抗網(wǎng)絡(luò)為基礎(chǔ)的,容易造成計(jì)算資源浪費(fèi)以及過(guò)擬合現(xiàn)象,主要原因是由于傳統(tǒng)卷積網(wǎng)絡(luò)層數(shù)較淺及參數(shù)量較大。
為了解決傳統(tǒng)卷積網(wǎng)絡(luò)的缺點(diǎn),Simonyan[10]提出線性分解方法,在增加卷積網(wǎng)絡(luò)層數(shù)的同時(shí)減少參數(shù)數(shù)量,降低計(jì)算量,使得生成的圖像不會(huì)完全擬合真實(shí)圖像,從而降低過(guò)擬合。為了解決輸入標(biāo)題單一導(dǎo)致生成圖片類型單一的問(wèn)題,本文引入流形插值方法,并結(jié)合線性分解的優(yōu)點(diǎn),針對(duì)如何提高圖像質(zhì)量進(jìn)行深入研究。
1 相關(guān)模型
以DCGAN網(wǎng)絡(luò)為基礎(chǔ),Dosovitskiy等[11]訓(xùn)練一個(gè)反卷積網(wǎng)絡(luò),根據(jù)一組指示形狀、位置和照明的圖形代碼生成三維椅子效果圖;Gregor等 [12]提出DRAW模型,該模型應(yīng)用遞歸變分自編碼器與注意機(jī)制生成真實(shí)的門(mén)牌號(hào)圖像;Reed等[13]提出一種端對(duì)端的可視化類比生成方法,并在實(shí)驗(yàn)中使用卷積解碼器有效模擬了二維形狀、動(dòng)畫(huà)游戲角色與三維汽車模型。上述模型均基于傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)加以構(gòu)建,盡管生成圖像質(zhì)量較高,但由于網(wǎng)絡(luò)層數(shù)較淺,參數(shù)量大,導(dǎo)致計(jì)算量過(guò)大,而且生成的圖像與訓(xùn)練集中的圖像過(guò)于相似,容易造成計(jì)算資源浪費(fèi)以及過(guò)擬合現(xiàn)象。
VGGNet[14]是牛津大學(xué)計(jì)算機(jī)視覺(jué)組和Google DeepMind公司一起研發(fā)的深度卷積神經(jīng)網(wǎng)絡(luò),具有很好的泛化性,較好地解決了傳統(tǒng)神經(jīng)網(wǎng)絡(luò)存在的問(wèn)題。VGG網(wǎng)絡(luò)最主要的思想是增加網(wǎng)絡(luò)深度、縮小卷積核尺寸。VGG-16網(wǎng)絡(luò)由13個(gè)卷積層+5個(gè)池化層+3個(gè)全連接層疊加而成,包含參數(shù)多達(dá)1.38億,其核心思想為線性分解。
本文基于VGG-16與流形插值[15-16]思想構(gòu)建一種混合網(wǎng)絡(luò)模型,如圖1所示。在確保圖像多樣性的同時(shí),保障了圖像生成質(zhì)量。采用基于 VGG-16 網(wǎng)絡(luò)的思想對(duì)傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行改進(jìn),即對(duì)卷積網(wǎng)絡(luò)進(jìn)行線性分解[17],旨在不過(guò)多影響識(shí)別準(zhǔn)確率的前提下盡量減少網(wǎng)絡(luò)參數(shù)、提高訓(xùn)練效率,同時(shí)引入流形插值思想,并豐富生成圖片的類型。
2 本文算法
2.1 網(wǎng)絡(luò)結(jié)構(gòu)
如圖1所示,左側(cè)為生成網(wǎng)絡(luò),右側(cè)為判別網(wǎng)絡(luò),標(biāo)識(shí)A為卷積網(wǎng)絡(luò)在生成器中的位置,本文將對(duì)該位置的卷積網(wǎng)絡(luò)進(jìn)行線性分解。在生成器中,首先從噪聲分布[z~Ν(0,1)]中進(jìn)行采樣,使用文本編碼器[φ]對(duì)文本查詢T進(jìn)行編碼,使用連接層將嵌入的描述[φ(t)]壓縮為小尺寸,然后采用LeakyReLU激活函數(shù)對(duì)其進(jìn)行處理,最后連接到噪聲矢量[z]。接下來(lái)的推理過(guò)程就像在一個(gè)正常的反卷積網(wǎng)絡(luò)中一樣:通過(guò)生成器G將其前饋,一個(gè)合成圖像[x]是通過(guò)[x←G(z, (t))]生成的。圖像生成對(duì)應(yīng)于生成器G中基于查詢文本與噪聲樣本的前饋推理。
在判別器D中,首先利用空間批處理歸一化和LeakyReLU激活函數(shù)執(zhí)行多個(gè)層的步長(zhǎng)為2的卷積處理,然后使用全連接層降低描述嵌入[φ(t)]的維數(shù),并對(duì)其進(jìn)行校正。當(dāng)判別器的空間維度為4×4時(shí),在空間上復(fù)制描述嵌入,并執(zhí)行深度連接;接下來(lái)執(zhí)行1×1的卷積和校正,再執(zhí)行4×4的卷積,并利用D計(jì)算最終分?jǐn)?shù);最后對(duì)所有卷積層執(zhí)行批處理規(guī)范化。
2.2 匹配感知判別器(GAN-CLS)
在傳統(tǒng)GAN中,判別器接受兩種輸入:帶有匹配文本的真實(shí)圖像和帶有任意文本的合成圖像。因此,其必須隱式地分離兩個(gè)錯(cuò)誤源:錯(cuò)誤的圖像以及與文本信息不匹配的真實(shí)圖像。為此,對(duì)GAN訓(xùn)練算法進(jìn)行改進(jìn),以將這些誤差源分離出來(lái)。除訓(xùn)練期間對(duì)判別器的真/假輸入外,它還添加了第三種輸入,由文本不匹配的真實(shí)圖像組成,判別器必須學(xué)會(huì)將其評(píng)分為假。步長(zhǎng)為α的GAN-CLS訓(xùn)練算法如下:
1: Input: minibatch images x, matching text t, mismatching[t],number of training batch steps S。
2. for n = 1 to S do
3. [h← (t)] {Encode matching text description}
4. [h← (t)]{Encode mis-matching text description}
5. [z~Ν(0,1)Z]{Draw sample of random noise}
6. [x←G(z,h)]{Forward through generator}
7. [sτ←D(x,h)]{real image, right text}
8. [sw←D(x,h)]{real image, wrong text}
9. [sf←D(x,h)]{fake image, right text}
10. [LD←log(sτ)+(log(1-sw)+log( 1-sf))/2]
11. [D←D-αδLD/δD]{Update discriminator}
12. [LG←log(sf)]
13. [G←G-αδLG/δG]{Update generator}
14. end for
其中,[x]表示生成的假圖像,[sτ]表示真實(shí)圖像及其對(duì)應(yīng)句子的關(guān)聯(lián)得分,[sw]表示真實(shí)圖像與任意句子的關(guān)聯(lián)分?jǐn)?shù),[sf]表示假圖像與其對(duì)應(yīng)文本的關(guān)聯(lián)分?jǐn)?shù)。[δLD/δD]表示D的目標(biāo)相對(duì)于其參數(shù)的梯度,G也是如此,第11行和第13行表示采取梯度步驟更新網(wǎng)絡(luò)參數(shù)。
2.3 卷積網(wǎng)絡(luò)對(duì)稱分解
VGGNet通常用于提取圖像特征,將多個(gè)相同的3×3卷積層堆疊在一起,而且網(wǎng)絡(luò)結(jié)構(gòu)越深,性能越好。本文對(duì)圖1中A處對(duì)應(yīng)卷積網(wǎng)絡(luò)進(jìn)行線性分解,如圖2所示。
圖2表示用兩個(gè)3×3的卷積網(wǎng)絡(luò)代替一個(gè)5×5的卷積網(wǎng)絡(luò)。第一層表示用一個(gè)3×3的卷積在5×5的窗格上移動(dòng),得到一個(gè)3×3的輸出,如第二層所示,接著用一個(gè)3×3的卷積核作運(yùn)算,最后得到第三層的輸出。雖然兩者作用是一樣的,但是卷積網(wǎng)絡(luò)分解在增加網(wǎng)絡(luò)層數(shù)的同時(shí)能夠減少參數(shù),達(dá)到降低過(guò)擬合的效果。
2.4 流形插值學(xué)習(xí)(GAN-INT)
流形插值可視為在生成器目標(biāo)中添加一個(gè)附加項(xiàng),以最小化以下公式:
其中,[z]從噪聲分布中提取,[β]在文本嵌入[t1]和[t2]之間插值。在實(shí)踐中發(fā)現(xiàn),當(dāng)[β]=0.5時(shí)效果良好。其中,[t1]和[t2]可能來(lái)自不同圖像,甚至是不同類別。
3 實(shí)驗(yàn)及結(jié)果分析
3.1 實(shí)驗(yàn)數(shù)據(jù)及參數(shù)設(shè)置
在實(shí)驗(yàn)數(shù)據(jù)集選擇和參數(shù)設(shè)置上,本文引用鳥(niǎo)類圖像的CUB數(shù)據(jù)集和花卉圖像的Oxford-102數(shù)據(jù)集。在實(shí)驗(yàn)中,將這些圖像劃分為不相交的訓(xùn)練集和測(cè)試集。CUB有150個(gè)訓(xùn)練類+驗(yàn)證類和50個(gè)測(cè)試類,而Oxford-102有82個(gè)訓(xùn)練類+驗(yàn)證類和20個(gè)測(cè)試類。在進(jìn)行小批量選擇訓(xùn)練時(shí),隨機(jī)選取圖像視圖和其中一個(gè)標(biāo)題。
本文對(duì)所有數(shù)據(jù)集使用相同的GAN體系結(jié)構(gòu),訓(xùn)練圖像大小為64×64×3。在深度連接到卷積特征圖之前,文本編碼器產(chǎn)生1 024維的輸入,并在生成器和判別器網(wǎng)絡(luò)中將圖像投射到128維。在Adam優(yōu)化過(guò)程中,設(shè)置學(xué)習(xí)率為0.000 2,動(dòng)量為0.5,并采用交替步驟更新生成器和判別器網(wǎng)絡(luò)。從100維單位正態(tài)分布中對(duì)生成器噪聲進(jìn)行采樣,使用64個(gè)小批量,并訓(xùn)練100輪。
(3)本實(shí)驗(yàn)中也總結(jié)了人類評(píng)估方法,在測(cè)試集中隨機(jī)選擇30個(gè)文本描述,針對(duì)每個(gè)句子,生成模型生成8個(gè)圖像。將8個(gè)圖像與對(duì)應(yīng)文本描述對(duì)不同人按不同方法進(jìn)行圖像質(zhì)量排名,最后計(jì)算平均排名以評(píng)價(jià)生成圖像的質(zhì)量和多樣性。
3.2 定性結(jié)果
本文比較GAN-CLS、GAN-CLS-NA和GAN-CLS- NA-INT 3種模型圖像生成效果,其中CLS-GAN-NA模型在GAN-CLS模型基礎(chǔ)上對(duì)卷積網(wǎng)絡(luò)進(jìn)行線性分解。GAN-CLS得到了一些正確的顏色信息,但圖像看起來(lái)并不真實(shí)。將3個(gè)模型在各個(gè)數(shù)據(jù)集上訓(xùn)練及測(cè)試完成后,都有8個(gè)英文標(biāo)題作為輸入,每個(gè)標(biāo)題重復(fù)8次,共形成64個(gè)標(biāo)題作為輸入,得到8行8列的圖像,每行8幅圖像對(duì)應(yīng)相同的8個(gè)標(biāo)題。在Oxford-102 Flowers數(shù)據(jù)集中,GAN-CLS結(jié)果如圖3所示。
圖3對(duì)應(yīng)的輸入標(biāo)題有8個(gè),其中2個(gè)如下:①the flower shown has yellow anther red pistil and bright red petals;②this flower has petals that are yellow, white and purple and has dark lines。
在Oxford-102花卉數(shù)據(jù)集上的GAN-CLS-NA結(jié)果如圖4所示。
在GAN-CLS-NA模型基礎(chǔ)上引入流形插值思想,其中2個(gè)標(biāo)題的變換如下:①the flower shown has yellow anther red pistil and bright red petals→the flower shown has blue anther red pistil and bright yellow petals;②this flower has petals that are yellow, white and purple and has dark lines→ this flower has petals that are red, white and purple and has red lines。
GAN-CLS-NA-INT模型在Oxford-102 Flowers數(shù)據(jù)集上生成的花卉圖像如圖5所示。
對(duì)比圖3與圖4相同的行可以發(fā)現(xiàn),其對(duì)應(yīng)的圖片標(biāo)題是相同的,花的基本顏色與形狀沒(méi)有明顯區(qū)別,但圖4的圖像更為真實(shí);圖5與圖4相比,在相同的行中,前4列標(biāo)題相同,且基本顏色、形狀及細(xì)節(jié)方面都非常接近,后4列則引入了流形插值后生成的圖像,可以發(fā)現(xiàn)背景及花的一部分顏色發(fā)生了改變,使得整體圖像的特征類型更加豐富。在CUB鳥(niǎo)類數(shù)據(jù)集中,GAN-CLS結(jié)果如圖6所示。
以上圖片對(duì)應(yīng)的輸入標(biāo)題有8個(gè),其中2個(gè)如下:①this small bird has a blue crown and white belly;②this small yellow bird has grey wings, and a black bill。
在CUB鳥(niǎo)類數(shù)據(jù)集上的GAN-CLS-NA結(jié)果如圖7所示。
在CUB鳥(niǎo)類數(shù)據(jù)集中,GAN-CLS-NA-INT結(jié)果如圖8所示。
以上圖片對(duì)應(yīng)的輸入標(biāo)題有8個(gè),其中2個(gè)標(biāo)題及變換如下:①this small bird has a blue crown and white belly→this small bird has a red crown and blue belly;②this small yellow bird has grey wings, and a black bill→this small white bird has grey wings, and a blue bill。
對(duì)比圖6與圖7相同的行可以發(fā)現(xiàn),其對(duì)應(yīng)的圖片標(biāo)題是相同的,鳥(niǎo)的基本顏色和形狀沒(méi)有明顯區(qū)別,但二者圖像中背景和鳥(niǎo)的姿勢(shì)不同,圖7更真實(shí)一些;圖8與圖7相比,在相同的行中,前4列標(biāo)題相同,且基本顏色、形狀及細(xì)節(jié)方面都非常接近,但二者圖像中背景和鳥(niǎo)的姿勢(shì)各不相同,后4列則引入了流形插值后生成的圖像,可以發(fā)現(xiàn)背景及鳥(niǎo)的一部分顏色和姿勢(shì)已發(fā)生改變,使得整體圖像的特征類型更加豐富。
3.3 定量結(jié)果
首先利用花卉描述標(biāo)題集與相應(yīng)圖像數(shù)據(jù)集對(duì)CLS-GAN模型進(jìn)行100輪訓(xùn)練。每輪訓(xùn)練結(jié)束后,輸入花描述語(yǔ)句生成相應(yīng)圖像,總共生成100幅圖像。本文選擇的圖像評(píng)價(jià)方法為FID分?jǐn)?shù)評(píng)估方法。采用上述圖像評(píng)價(jià)方法,分別對(duì)由CLS-GAN和CLS-GAN-SA兩種模型生成的100幅圖像進(jìn)行評(píng)價(jià),定性結(jié)果如表1所示,而利用初始分?jǐn)?shù)和人類評(píng)分的定量結(jié)果如表2所示。
從表中可以看出,GAN-CLS-NA在Oxford-102花卉數(shù)據(jù)集上的FID數(shù)值與GAN-CLS結(jié)果相比,F(xiàn)ID分?jǐn)?shù)降低了2.34%;GAN-CLS-NA在CUB鳥(niǎo)類數(shù)據(jù)集上的FID數(shù)值與GAN-CLS結(jié)果相比,F(xiàn)ID分?jǐn)?shù)降低了2.29%,說(shuō)明在判別器中對(duì)卷積層進(jìn)行適當(dāng)分解,在減少參數(shù)量與降低過(guò)擬合的同時(shí),也提高了生成圖像質(zhì)量。同時(shí),GAN-CLS-NA-INT在Oxford-102花卉數(shù)據(jù)集和CUB鳥(niǎo)類數(shù)據(jù)集上的初始評(píng)分與GAN-CLS結(jié)果相比,分別提高了14.88%和14.39%,說(shuō)明生成的圖像特征類型更加豐富;人類評(píng)估分?jǐn)?shù)分別降低了75.64%和58.95%,該指標(biāo)越低說(shuō)明越符合人類視角,也即表明生成的圖像質(zhì)量越好。
4 結(jié)語(yǔ)
本文在GAN-CLS模型基礎(chǔ)上對(duì)模型判別器中的卷積網(wǎng)絡(luò)進(jìn)行線性分解,并用分解后的卷積網(wǎng)絡(luò)提取圖像特征。在Oxford-102花卉數(shù)據(jù)集和CUB鳥(niǎo)類數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本文模型效果優(yōu)于基于傳統(tǒng)卷積網(wǎng)絡(luò)模型的效果,證明對(duì)卷積網(wǎng)絡(luò)進(jìn)行適當(dāng)分解可以降低過(guò)擬合,提高生成圖像質(zhì)量。另外,引入流形插值在豐富生成圖像類型的同時(shí),也能有效提高圖像質(zhì)量。在未來(lái)工作中,將進(jìn)一步研究如何降低圖像失真現(xiàn)象。
參考文獻(xiàn):
[1] DENTON E, CHINTALA S, SZLAM A, et al. Deep generative image models using a laplacian pyramid of adversarial networks[C]. Advances in Neural Information Processing Systems, 2015:1486-1494.
[2] HUANG X, LI Y, POURSAEED O, et al. Stacked generative adversarial networks[C]. ?2017 IEEE Conference on Computer Vision and Pattern Recognition , 2017:1866-1875.
[3] ZHAO J, MATHIEU M, LECUN Y. Energy-based generative adversarial network[C]. Toulon: International Conference on Learning Representations, 2016.
[4] XU R F,YEUNG D,SHU W H,et al. A hybrid post-processing system for Handwritten Chinese Character Recognition[J]. International Journal of Pattern Recognition and Artificial Intelligence,2002,16(6):657-679.
[5] 徐冰冰,岑科廷,黃俊杰,等. 圖卷積神經(jīng)網(wǎng)絡(luò)綜述[J/OL]. 計(jì)算機(jī)學(xué)報(bào),2019:1-31[2020-04-06]. http://kns.cnki.net/kcms/detail/11.1826.tp.20191104.1632.006.html.
[6] REED S, AKATA Z, YAN X, et al. Generative adversarial text to image synthesis[C]. ?International Machine Learning Society (IMLS),2016:1681-1690.
[7] REED S,AKATA Z,MOHAN S,et al. Learning what and where to draw[C]. Advances in Neural Information Processing Systems,2016:217-225.
[8] 陳耀,宋曉寧,於東軍. 迭代化代價(jià)函數(shù)及超參數(shù)可變的生成對(duì)抗網(wǎng)絡(luò)[J]. 南京理工大學(xué)學(xué)報(bào), 2019,43(1):35-40.
[9] 徐天宇,王智. 基于美學(xué)評(píng)判的文本生成圖像優(yōu)化[J]. 北京航空航天大學(xué)學(xué)報(bào),2019,45(12): 2438 -2448.
[10] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale Image recognition[C]. ?International Conference on Learning Representations, 2015:1-12.
[11] DOSOVITSKIY A,SPRINGENBERG J T,BROX T. Learning to generate chairs with convolutional neural networks[C]. IEEE Conference on Computer Vision & Pattern Recognition,2015:1538-1546.
[12] GREGOR K, DANIHELKA I, GRAVES A, et al. DRAW: a recurrent neural network for image generation[C]. International Conference on Machine Learning,2015:1462-1471.
[13] REED S, ZHANG Y, ZHANG Y T, et al. Deep visual analogy-making[C]. ?Advances in Neural Information Processing Systems, 2015: 1252-1260.
[14] 謝志華,江鵬,余新河,等. 基于VGGNet和多譜帶循環(huán)網(wǎng)絡(luò)的高光譜人臉識(shí)別系統(tǒng)[J]. 計(jì)算機(jī)應(yīng)用, 2019,39(2):388-391.
[15] BENGIO Y, MESNIL G, DAUPHIN Y, et al. Better mixing via deep representations[C]. International Conference on Machine Learning, 2013:552-560.
[16] REED S,SOHN K,ZHANG Y T,et al. Learning to disentangle factors of variation with manifold interaction[C]. International Conference on Machine Learning,2014: 3291-3299.
[17] SZEGEDY C, VANHOUCKE V, IOFFE S, et al. Rethinking the inception architecture for computer vision[C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2016: 2818-2826.
[18] HEUSEL M,RAMSAUER H,UNTERTHINER T,et al. GANs trained by a two time-scale update rule converge to a local nash equilibrium[C]. ?Advances in Neural Information Processing Systems, 2017:6627-6638.
[19] SALIMANS T,GOODFELLOW I,ZAREMBA W,et al. Improved techniques for training GANs[C]. Advances in Neural Information Processing Systems, 2016:2234-2242.
(責(zé)任編輯:黃 ?。?/p>