亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        多層次結構生成對抗網(wǎng)絡的文本生成圖像方法

        2019-12-23 07:19:04孫鈺李林燕葉子寒胡伏原奚雪峰
        計算機應用 2019年11期
        關鍵詞:生成對抗網(wǎng)絡

        孫鈺 李林燕 葉子寒 胡伏原 奚雪峰

        摘 要:近年來,生成對抗網(wǎng)絡(GAN)在從文本描述到圖像的生成中已經(jīng)取得了顯著成功,但仍然存在圖像邊緣模糊、局部紋理不清晰以及生成樣本方差小等問題。針對上述不足,在疊加生成對抗網(wǎng)絡模型(StackGAN++)基礎上,提出了一種多層次結構生成對抗網(wǎng)絡(MLGAN)模型,該網(wǎng)絡模型由多個生成器和判別器以層次結構并列組成。首先,引入層次結構編碼方法和詞向量約束來改變網(wǎng)絡中各層次生成器的條件向量,使圖像的邊緣細節(jié)和局部紋理更加清晰生動;然后,聯(lián)合訓練生成器和判別器,借助多個層次的生成圖像分布共同逼近真實圖像分布,使生成樣本方差變大,增加生成樣本的多樣性;最后,從不同層次的生成器生成對應文本的不同尺度圖像。實驗結果表明,在CUB和Oxford102數(shù)據(jù)集上MLGAN模型的Inception score分別達到了4.22和3.88,與StackGAN++相比,分別提高了4.45%和3.74%。MLGAN模型在解決生成圖像的邊緣模糊和局部紋理不清晰方面有了一定提升,其生成的圖像更接近真實圖像。

        關鍵詞:生成對抗網(wǎng)絡;文本生成圖像;多層次結構生成對抗網(wǎng)絡;多層次圖像分布;層次結構編碼

        中圖分類號:TP391

        文獻標志碼:A

        Texttoimage synthesis method based on

        multilevel structure generative adversarial networks

        SUN Yu1,2, LI Linyan3, YE Zihan1,4, HU Fuyuan1*, XI Xuefeng1,5

        1.College of Electronic and Information Engineering, Suzhou University of Science and Technology, Suzhou Jiangsu 215009, China;

        2.Suzhou Key Laboratory for Big Data and Information Service, Suzhou Jiangsu 215009, China;

        3.Suzhou Institute of Trade and Commerce, Suzhou Jiangsu 215009, China;

        4.Jiangsu Key Laboratory of Intelligent Building Energy Efficiency, Suzhou Jiangsu 215009, China;

        5.Virtual Reality Key Laboratory of Intelligent Interaction and Application Technology of Suzhou, Suzhou Jiangsu 215009, China

        Abstract:

        In recent years, the Generative Adversarial Network (GAN) has achieved remarkable success in texttoimage synthesis, but there are still problems such as edge blurring of images, unclear local textures, small sample variance. In view of the above shortcomings, based on Stack Generative Adversarial Network model (StackGAN++), a MultiLevel structure Generative Adversarial Networks (MLGAN) model was proposed, which is composed of multiple generators and discriminators in a hierarchical structure. Firstly, hierarchical structure coding method and word vector constraint were introduced to change the condition vector of generator of each level in the network, so that the edge details and local textures of the image were clearer and more vivid. Then, the generator and the discriminator were jointed by trained to approximate the real image distribution by using the generated image distribution of multiple levels, so that the variance of the generated sample became larger, and the diversity of the generated sample was increased. Finally, different scale images of the corresponding text were generated by generators of different levels. The experimental results show that the Inception scores of the MLGAN model reached 4.22 and 3.88 respectively on CUB and Oxford102 datasets, which were respectively 4.45% and 3.74% higher than that of StackGAN++. The MLGAN model has improvement in solving edge blurring and unclear local textures of the generated image, and the image generated by the model is closer to the real image.

        Key words:

        Generative Adversarial Network (GAN); texttoimage synthesis; MultiLevel structure Generative Adversarial Networks (MLGAN); multilevel image distribution; hierarchical coding

        0?引言

        生成圖像建模是計算機視覺中的一個基本問題,在圖像和視覺計算、圖像和語言處理、信息安全、人機交互等領域已有廣泛應用。最近幾年,隨著深度學習的發(fā)展,生成圖像方法取得了顯著進展:Dosovitskiy等[1]訓練反卷積神經(jīng)網(wǎng)絡(Convolutional Neural Network, CNN)來生成3D椅子、桌子和汽車;Ehsani等[2]用視覺數(shù)據(jù)構建狗的行為模型;郭雨瀟等[3]提出了一種基于單張圖像的環(huán)境光遮蔽估計算法;趙樹陽等[4]提出一種非監(jiān)督式的由圖像生成圖像的低秩紋理生成對抗網(wǎng)絡模型,用于生成低秩圖像;何新宇等[5]提出了一種基于深度卷積神經(jīng)網(wǎng)絡(Deep Convolutional Neural Network, DCNN)的肺炎圖像識別模型用于肺炎圖像的識別;Rematas等[6]使用足球比賽視頻數(shù)據(jù)訓練網(wǎng)絡,從而提取3D網(wǎng)格信息,進行動態(tài)3D重建。此外,利用神經(jīng)網(wǎng)絡來模擬像素空間的條件分布的自回歸模型(例如,像素遞歸神經(jīng)網(wǎng)絡(Pixel Recurrent Neural Network, PixelRNN))[7]也已經(jīng)產(chǎn)生了清晰的合成圖像。最近,生成對抗網(wǎng)絡(Generative Adversarial Network, GAN)[8]已經(jīng)顯示出其具有強大的性能和潛力來生成更清晰和質量更高的樣本圖像。

        自Goodfellow等[8]于2014年提出生成對抗網(wǎng)絡后,該網(wǎng)絡模型得到了學術界和工業(yè)界的廣泛關注。與傳統(tǒng)機器學習方法不同,生成對抗網(wǎng)絡最大的特點在于引入了對抗機制,能夠利用少量標簽數(shù)據(jù)和大量無標簽數(shù)據(jù)建模,直接生成與目標數(shù)據(jù)一致的生成數(shù)據(jù),如圖像、視頻以及音樂[9-10]等。在最初的設計中,GAN由一個生成器和一個判別器組成,生成器和判別器以相互交替的方式進行對抗訓練。訓練生成器以產(chǎn)生符合真實數(shù)據(jù)分布的樣本來欺騙判別器,同時優(yōu)化判別器用以區(qū)分真實樣本和生成器產(chǎn)生的假樣本。

        隨著生成模型的不斷提出,生成對抗網(wǎng)絡已經(jīng)在復雜的多模態(tài)數(shù)據(jù)建模和合成真實世界圖像方面展示了其強大的效果: Wang等[11]利用提出的樣式結構生成對抗網(wǎng)絡(Style and Structure Generative Adversarial Networks, S2GAN)模型以結構生成和樣式生成兩部分相結合的方法實現(xiàn)室內(nèi)場景圖像的生成; Denton等[12]在拉普拉斯金字塔框架內(nèi)建立了多個GAN模型,以前一層級的輸出為條件生成殘差圖像,然后作為下一層級的輸入,最后生成圖像; Durugkar等[13]使用多個判別器和一個生成器來增加生成器接收的有效反饋,增強生成的圖像效果; Reed等[14]提出了GANINTCLS模型,首次利用GAN有效地生成以文本描述為條件的64×64圖像。然而,在許多情況下,他們合成的圖像缺少逼真的細節(jié)和生動的物體部分,例如鳥的喙、眼睛和翅膀; 此外,他們無法合成更高分辨率的圖像(例如128×128或256×256)。Reed等[15]為了更好地根據(jù)文本描述控制圖像中物體的具體位置,提出了GAWWN(Generative Adversarial WhatWhere Network)模型,把額外的位置信息與文本一起作為約束條件加入到生成器和判別器的訓練中。Zhang等[16]在網(wǎng)絡層次結構中引入了層次嵌套對抗性目標,提出了高清晰生成對抗網(wǎng)絡(HighDefinition Generative Adversarial Network, HDGAN)模型,規(guī)范了中間層的表示,并幫助生成器捕獲復雜的圖像統(tǒng)計信息。Zhang等[17]提出了一種疊加生成對抗網(wǎng)絡(Stacked Generative Adversarial Network, StackGAN++)模型,把生成高質量圖像的復雜問題分解成一些更好控制的子問題。在第一階段利用文本描述粗略勾畫物體的主要形狀和顏色,生成低分辨率圖像;在第二階段,將第一階段的結果和文本描述作為輸入,生成256×256的高分辨率圖像。然而,生成圖像的局部紋理相對模糊。

        為了進一步增強生成圖像的邊緣和局部紋理細節(jié),提高生成圖像的質量,本文在疊加生成對抗網(wǎng)絡模型的基礎上提出了一種多層次結構生成對抗網(wǎng)絡(MultiLevel structure Generative Adversarial Network, MLGAN)模型。該模型引入了層次結構編碼(hierarchical coding)方法[18],對文本進行預處理,改變各層次生成器的條件變量,側重關注生成圖像的邊緣和局部紋理。另外,基于多層次結構,網(wǎng)絡聯(lián)合訓練生成器和判別器以近似多層次分布,在每一層生成器處捕獲圖像分布,根據(jù)多個圖像分布共同逼近真實圖像分布,提高生成樣本的多樣性。

        1?多層次結構生成對抗網(wǎng)絡

        1.1?生成對抗網(wǎng)絡

        生成對抗網(wǎng)絡采用了對抗的思想,其核心來自博弈論中的納什均衡。對抗的雙方分別由生成器G(Generator)和判別器D(Discriminator)組成,其中生成器的目的是盡量學習真實的數(shù)據(jù)分布,判別器D的目的在于盡量正確判斷輸入數(shù)據(jù)是來自真實數(shù)據(jù)還是生成器生成的數(shù)據(jù)。兩個模型交替訓練并且相互競爭。在訓練中,優(yōu)化生成器G捕捉樣本數(shù)據(jù)的分布,用服從某一分布(均勻分布、高斯分布等)的噪聲z生成一個類似真實訓練樣本的數(shù)據(jù)Pdata;判別器D是一個二分類器,優(yōu)化判別器D以估計一個樣本來自于訓練數(shù)據(jù)(而非生成數(shù)據(jù))的概率,如果樣本來自于真實的訓練數(shù)據(jù),D輸出大概率,否則,D輸出小概率。生成器G和判別器D交替訓練的表達式為:

        maxGminD V(D;G)=Ex~Pdata[logD(X)]+

        Ez~Pz[log(1-D(G(z)))](1)

        其中:x是來自真實數(shù)據(jù)分布Pdata的真實圖像,z是從分布Pz采樣的噪聲矢量(例如均勻或者高斯分布)。

        1.2?多層次結構生成對抗網(wǎng)絡模型

        為了進一步增強生成圖像的邊緣和局部紋理細節(jié),提高樣本多樣性和生成圖像的質量,本文提出了一種多層次結構生成對抗網(wǎng)絡模型,該模型由多個生成器(Gs)和判別器(Ds)以層次結構并列組成。如圖1所示,整個網(wǎng)絡可以分為三個層次,在第一層次生成低分辨率圖像,側重關注圖像整體的形狀和顏色;在第二和第三層次生成高分辨率圖像,借助整個網(wǎng)絡聯(lián)合訓練,以近似多層次圖像分布,提升圖像的邊緣和局部紋理細節(jié)。每個層次網(wǎng)絡由上采樣層、生成器、卷積層、殘差層以及判別器組成。上采樣層將輸入的向量轉換為不同層次對應的張量,通過生成器以及卷積層生成具有3×3卷積的對應比例圖像。

        1.2.1?多層次圖像分布

        與疊加生成對抗網(wǎng)絡不同的是,本文的網(wǎng)絡具有多層次結構,采用噪聲向量z~Pnoice和不同的條件變量c作為生成器的輸入。生成網(wǎng)絡中包含3個生成器來生成不同分辨率的圖像。Pnoice是高斯分布,通常選擇為標準正態(tài)分布。條件變量c由句子向量以及詞向量組成。潛變量(z,ci)逐層轉換為隱藏特征hi。本文首先通過非線性變換計算每個生成器Gi的隱藏特征hi:

        h0=F0(z,F(xiàn)′(cs))(2)

        hi=Fi(hi-1,F(xiàn)′(cw,hi-1)); i=1,2,…,m-1(3)

        其中:hi代表第i分支的隱藏特征;F′為調(diào)節(jié)增強[17],將句子向量和詞向量轉化為條件向量;m是層次的總數(shù);cs為句子向量;cw為詞向量;Fi為神經(jīng)網(wǎng)絡模型(參見圖1)。

        然后基于不同層次的隱藏特征(h0,h1,…,hm-1),將其作為對應層次的生成器(G0,G1,…,Gm-1)的輸入,生成不同分辨率的圖像。如式(4)所示:

        si=Gi(hi); i=0,1,…,m-1(4)

        其中:Gi是第i分支的生成器,si是第i分支的生成圖像。

        在每個生成器Gi生成樣本之后,將真實的圖像xi和生成器生成的假樣本si作為輸入,輸入到對應的判別器Di中進行訓練,通過最小化交叉熵損失(見式(5)),將輸入的圖像分為兩大類,分別是真實圖像和生成圖像。

        LD=-12Exi~Pdatai[logDi(xi)]-

        12Esi~PGi[log(1-Di(si))](5)

        其中:xi來自第i尺度的真實圖像分布Pdatai,si來自相同尺度的生成模型分布PGi。3個判別器并行訓練,并且每個判別器都專注于自己對應的單個尺度圖像。

        接著通過訓練判別器,引導最小化損失函數(shù)(見式(6))來優(yōu)化生成器,以共同逼近多尺度圖像分布(Pdata0,Pdata1,…,Pdatam-1)。

        LG=∑mi=1LGi; LGi=12Esi~PGi[log(1-Di(si))](6)

        其中LGi是近似第i尺度的圖像分布的損失函數(shù)。在訓練中,生成器Gi最大化log(Di(si)),而不是最小化log(1-Di(si)),這樣可以減輕梯度消失問題[8]; 并且在訓練過程中,生成器Gi和判別器Di交替優(yōu)化直到最終收斂。

        1.2.2?有條件和無條件圖像生成

        如圖2所示,對于無條件圖像生成,判別器被訓練成區(qū)分真實圖像和偽造圖像。對于條件圖像生成,將圖像及調(diào)節(jié)變量輸入到判別器以確定圖像與條件是否匹配,引導生成器近似條件圖像分布。

        對于模型中的判別器Di,現(xiàn)在由兩部分組成,即無條件損失和條件損失。

        LD=-12Exi~Pdatai[logDi(xi)]-

        12Esi~PGi[log(1-Di(si))]+

        -12Exi~Pdatai[logDi(xi,cs)]+

        -12Esi~PGi[log(1-Di(si,cs))](7)

        無條件損失確定圖像是真實還是偽造,而條件損失確定圖像和條件是否匹配。 因此,每個生成器Gi的損失函數(shù)轉換為:

        LGi=12Esi~PGi[log(1-Di(si))]+12Esi~PGi[log(1-Di(si,cs))](8)

        因此,每個層次的生成器Gi的最終損失函數(shù)通過把式(8)代入到式(6)來計算。

        1.3?層次結構編碼

        在已有的生成模型中,都是將整個文本描述轉化成條件變量作為生成器的輸入,這樣雖然可以使生成的圖像大致符合文本的描述,但是圖像邊緣和局部紋理細節(jié)比較模糊,同時還會產(chǎn)生很多不符合文本描述的樣本?;谶@個問題,本文引入了層次結構編碼,更加注重生成圖像的邊緣和局部紋理細節(jié)。

        如圖3所示,該層次結構編碼模型包含4個層次,文本描述經(jīng)過文本嵌入、卷積層、最大池化和LSTM(Long ShortTerm Memory)特征提取,最終得到需要的短語向量和單詞向量。在卷積層,使用三種大小的卷積核進行卷積;在池化層,對輸出的三種卷積結果進行一次最大池化。

        層次結構編碼的具體步驟如下:

        1)首先給出單詞的編碼S={q1,q2,…,qk},同時將文本描述映射到一個向量空間以得到Sw={qw1,qw2,…,qwk}。

        2)然后利用1維DCNN(1DCNN)作用于Sw,對其中每一個單詞嵌入向量進行卷積操作,計算單詞向量和卷積核的內(nèi)積,使用三種大小的卷積核,以此來計算短語特征。對于第k個字,卷積后的輸出為:

        qps,k=tanh(Wscqwk:k+s-1); s∈{1,2,3}(9)

        其中:Wsc是重量參數(shù),s為卷積核的大小。

        3)將特征Sw送入剩下兩個卷積核進行卷積操作,在卷積之前需要適當?shù)剡M行填充,以在卷積之后序列的長度保持不變。

        4)接著在3個卷積核卷積之后,本文對卷積的結果做一次最大池化,以獲得短語的特征,結果如下:

        qpk=max(qp1,k,qp2,k,qp3,k); k∈{1,2,…,K}(10)

        5)最后將得到的最大池化結果送入到LSTM中,使用LSTM對qpk進行編碼,提取特征。

        這樣的合并方法與文獻[19]方法不同之處在于它在每個時間步長自適應地選擇不同的特征,同時保留原始序列長度和順序。

        2?實驗及結果分析

        2.1?實驗環(huán)境和數(shù)據(jù)集

        本文算法采用深度學習框架Tensorflow[20],實驗環(huán)境為ubantu14.04操作系統(tǒng),使用4塊NVIDIA 1080Ti圖形處理器(GPU)加速運算。同時,在CUB[21]和Oxford102[22]數(shù)據(jù)集上訓練所有模型。對于所有數(shù)據(jù)集,本文設置Ng=32,Nd=64并在每個生成器之間使用兩個殘差塊,同時使用學習率為0.000-2的ADAM求解器。如表1所示,CUB數(shù)據(jù)集包含200種鳥類,共有11-788種圖片。本文將8-855張圖片作為訓練數(shù)據(jù)集和2-933張圖片作為測試數(shù)據(jù)集。由于該數(shù)據(jù)集中80%的鳥類圖像的目標所占區(qū)域比例小于0.5[21],所以在訓練之前先對所有圖像進行預處理,確保鳥類目標所占區(qū)域的比例大于圖像尺寸的0.75。Oxford102數(shù)據(jù)集包含102種花的類別,共有8-189種圖像。本文將7-034張圖片作為訓練數(shù)據(jù)集和1-155張圖片作為測試數(shù)據(jù)集。

        2.2?評價標準

        對于GAN模型的評估通常都選用定性評估,即需要借助人工檢驗生成圖像的視覺保真度來進行。這種方法耗時長,且主觀性較強,具備一定的誤導性。因此,本文主要使用2種評價標準對生成圖像的質量和多樣性進行評價。

        1)數(shù)值評估方法Inception score[23]進行定量評估。數(shù)值評估方法表達式如下:

        I=exp(ExDKL(p(y|x)‖p(y)))(11)

        其中:x表示一個生成的樣本,y表示與樣本對應的文本標簽,p(y)是邊緣分布,p(y|x)是條件分布。邊緣分布p(y)和條件分布p(y|x)之間的KL散度(KullbackLeibler divergence)要大,這樣能夠生成多樣的高質量圖像。在本文的實驗中,給CUB和Oxford102數(shù)據(jù)集一個inception模型,對每個模型的樣本進行評估。

        2)Human rank進行定性評估。在CUB和Oxford102測試集中隨機選擇50個文本描述,對于每個句子,生成模型生成5個圖像。將5個圖像和對應的文本描述給不同的人按不同的方法進行圖像質量的排名,最后計算平均排名來評價生成圖像的質量和多樣性。

        2.3?實驗結果

        表1為MLGAN與StackGAN++模型在CUB數(shù)據(jù)集上每一層次的Inception score對比。從表中第一行數(shù)據(jù)可以看出,在第一層次,兩個模型的生成圖像的Inception score相同;在第二層,MLGAN模型的約束條件中加入了詞向量,與StackGAN++相比,Inception score從3.35增加到了3.47;在第三層,MLGAN模型的約束條件中加入了詞向量,與StackGAN++相比,Inception score從4.04增加到了4.22。因此,根據(jù)第二和第三層次的Inception score增加,MLGAN模型在分辨率為128×128和256×256的生成圖像上的效果要優(yōu)于StackGAN++模型,也進一步驗證了MLGAN模型的可行性。

        表2為各種模型在CUB和Oxford102數(shù)據(jù)集上的Inception score和Human rank結果對比。與StackGAN++相比,MLGAN在CUB數(shù)據(jù)集上的Inception score提高了4.45%(從4.04到4.22),在Oxford102數(shù)據(jù)集上的Human rank提高了3.74%(從3.74到3.88)。通過實驗結果分析,MLGAN在Inception score的評分上高于其他GAN模型[14-17];從直觀的視覺角度Human rank的評分低于其他GAN模型。表明本文的模型所生成的樣本圖像質量和多樣性有所增強,更接近真實圖像。

        圖4為四種GAN模型在CUB數(shù)據(jù)集上的生成結果。圖5為四種GAN模型在CUB數(shù)據(jù)集上的生成結果的細節(jié)(喙、翅膀)對比。從圖4中可以看出,GANINTCLS生成的64×64圖像只能反映鳥類的一般形狀和顏色。缺乏生動的部分(例如喙和腿)和清晰的邊緣細節(jié),這使得圖像既不夠逼真也不具有足夠高的分辨率。通過使用額外的條件變量,GAWWN在CUB數(shù)據(jù)集上獲得了更高的Inception score,生成的128×128圖像分辨率更高,但在邊緣細節(jié)和局部紋理上沒有大的改善。相比之下,StackGAN++生成了256×256圖像,在邊緣細節(jié)和局部紋理上有了一定的改善,但仍然無法與正常拍出的圖像相比。而本文的模型在生成256×256圖像的同時,增強了圖像的邊緣細節(jié)和局部紋理特征,使生成的圖像更接近于真實的圖像。

        圖6為三種GAN模型在Oxford102數(shù)據(jù)集上的生成結果。從圖中可以看出,本文模型生成的圖像中鳥的喙、翅膀以及腳部更加清晰,邊緣和細節(jié)更加逼真,與其他模型相比取得了較優(yōu)的效果。

        圖7為三種GAN模型在Oxford102數(shù)據(jù)集上的生成結果的細節(jié)(花瓣)對比。從圖中可以看出,本文模型生成的圖像中的花更加清晰,花瓣的邊緣和細節(jié)更加逼真,與其他模型相比取得了較優(yōu)的效果。

        3?結語

        本文基于疊加生成對抗網(wǎng)絡模型的基礎上,引入了層次結構編碼,通過條件變量的轉換和多層次生成圖像,從整體到部分改善生成圖像質量。實驗結果表明,在相同的數(shù)據(jù)集上,多層次結構生成對抗網(wǎng)絡生成的圖像具有更清晰的邊緣細節(jié)和局部紋理,使生成的圖像更接近真實圖像。該方法雖然在生成圖像方面已經(jīng)得到不錯的效果,但是對于生活中的復雜場景依然很難建模,如何處理這一問題有待進一步研究。同時,生成的圖像與訓練數(shù)據(jù)相似,缺乏多樣性,因此打算將零樣本學習和生成對抗網(wǎng)絡結合,合成新類別圖像,這也將是下一步研究的重點。

        參考文獻 (References)

        [1]DOSOVITSKIY A, SPRINGENBERG J T, BROX T. Learning to generate chairs with convolutional neural networks[C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2015: 1538-1546.

        [2]EHSANI K, BAGHERINEZHAD H, REDMON J, et al. Who let the dogs out? modeling dog behavior from visual data[C]// Proceedings of the 2018 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2018: 4051-4060.

        [3]郭雨瀟, 陳雷霆, 董悅. 單幀圖像下的環(huán)境光遮蔽估計[J]. 計算機研究與發(fā)展, 2019, 56(2): 385-393. (GUO Y X, CHEN L T, DONG Y. Inferring ambient occlusion from a single image[J]. Journal of Computer Research and Development, 2019, 56(2): 385-393.)

        [4]趙樹陽, 李建武.基于生成對抗網(wǎng)絡的低秩圖像生成方法[J]. 自動化學報, 2018, 44(5): 829-839. (ZHAO S Y, LI J W. Generative adversarial network for generating lowrank images[J]. Acta Automatica Sinica, 2018, 44(5): 829-839.)

        [5]何新宇,張曉龍.基于深度神經(jīng)網(wǎng)絡的肺炎圖像識別模型[J]. 計算機應用,2019,39(6): 1680-1684. (HE X Y, ZHANG X L. Pneumonia image recognition model based on deep neural network[J]. Journal of Computer Applications, 2019, 39(6): 1680-1684.)

        [6]REMATAS K, KEMELMACHERSHLIZERMAN I, CURLESS B, et al. Soccer on your tabletop[C]// Proceedings of the 2018 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2018: 4738-4747.

        [7]van DEN OORD A, KALCHBRENNER N, KAVUKCUOGLU K. Pixel recurrent neural networks[C]// Proceedings of the 33rd International Conference on Machine Learning. New York: ACM, 2016:1747-1756.

        [8]GOODFELLOW I J, POUGETABADIE J, MIRZA M, et al. Generative adversarial nets[C]// Proceedings of the 27th International Conference on Neural Information Processing Systems. Cambridge, MA: MIT Press, 2014:2672-2680.

        [9]PAN Z, YU W, YI X, et al. Recent progress on Generative Adversarial Networks (GANs): a survey[J]. IEEE Access, 2019, 7: 36322-36333.

        [10]CAO Y J, JIA L L, CHEN Y X, et al. Recent advances of generative adversarial networks in computer vision[J]. IEEE Access, 2019, 7:14985-15006.

        [11]WANG X, GUPTA A. Generative image modeling using style and structure adversarial networks[C]// Proceedings of the 2016 European Conference on Computer Vision. Cham: Springer, 2016: 318-335.

        [12]DENTON E L, CHINTALA S, SZLAM A, et al. Deep generative image models using a Laplacian pyramid of adversarial networks[C]// Proceedings of the 28th International Conference on Neural Information Processing Systems. New York: ACM, 2015:1486-1494.

        [13]DURUGKAR I, GEMP I, MAHADEVAN S. Generative multiadversarial networks[EB/OL].[2018-06-20].https://www.taodocs.com/p110588603.html.

        [14]REED S, AKATA Z, YAN X, et al. Generative adversarial texttoimage synthesis[C]// Proceedings of the 33rd International Conference on Machine Learning. New York: ACM, 2016: 1060-1069.

        [15]REED S, AKATA Z, MOHAN S, et al. Learning what and where to draw[C]// Proceedings of International Conference on Neural Information Processing Systems. New York: ACM, 2016: 217-225.

        [16]ZHANG Z, XIE Y, YANG L. Photographic texttoimage synthesis with a hierarchicallynested adversarial network[C]// Proceedings of the 2018 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2018: 6199-6208.

        [17]ZHANG H, XU T, LI H, et al. StackGAN++: realistic image synthesis with stacked generative adversarial networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2019, 41(8): 1947-1962.

        [18]LU J, YANG J, BATRA D, et al. Hierarchical questionimage coattention for visual question answering[C]// Proceedings of the 30th International Conference on Neural Information Processing Systems. New York: ACM, 2016:289-297.

        [19]HU B, LU Z, LI H, et al. Convolutional neural network architectures for matching natural language sentences[C]// Proceedings of the 27th International Conference on Neural Information Processing Systems. New York: ACM, 2014: 2042-2050.

        [20]ABADI M, BARHAM P, CHEN J, et al. TensorFlow: a system for largescale machine learning[C]// Proceedings of the 2016 Conference on Operating Systems Design and Implementation. Piscataway: IEEE, 2016: 265-283.

        [21]WAH C, BRANSON S, WELINDER P, et al. The CaltechUCSD Birds2002011 dataset: computation & neural systems technical report [R]. Pasadena, CA, USA: California Institute of Technology, 2011.

        [22]NILSBACK M E, ZISSERMAN A. Automated flower classification over a large number of classes[C]// Proceedings of the 6th Indian Conference on Computer Vision, Graphics & Image Processing. Piscataway: IEEE, 2008: 722-729.

        [23]SALIMANS T, GOODFELLOW I J, ZAREMBA W, et al. Improved techniques for training GANs[C]// Proceedings of International Conference on Neural Information Processing Systems. New York: ACM, 2016:2234-2242.

        This work is partially supported by the National Natural Science Foundation of China (61876121,61472267), the Primary Research & Development Plan of Jiangsu Province (BE2017663), the Foundation of Key Laboratory in Science and Technology Development Project of Suzhou (SZS201609), the Graduate Research and Innovation Plan of Jiangsu Province (KYCX18_2549).

        SUN Yu, born in 1995, M. S. candidate. His research interests include image processing, deep learning, generative adversarial networks.

        LI Linyan, born in 1983, M. S., senior engineer. Her research interests include geographic information processing.

        YE Zihan, born in 1996. His research interests include image processing, deep learning, generative adversarial networks.

        HU Fuyuan, born in 1978, Ph. D., professor. His research interests include image processing, pattern recognition, information security.

        XI Xuefeng, born in 1978, Ph. D., associate professor. His research interests include natural language processing, machine learning, big data processing.

        猜你喜歡
        生成對抗網(wǎng)絡
        用于知識表示學習的對抗式負樣本生成
        計算機應用(2019年9期)2019-10-31 09:21:33
        基于衰減式生成對抗網(wǎng)絡的單幅圖像陰影去除
        計算機應用(2019年9期)2019-10-31 09:21:33
        高噪聲環(huán)境下的生成對抗網(wǎng)絡人機語音增強技術
        移動通信(2019年8期)2019-10-18 09:43:57
        基于生成對抗網(wǎng)絡的圖像盲去運動模糊算法
        軟件導刊(2019年8期)2019-10-15 02:21:53
        基于生成對抗網(wǎng)絡的地面新增建筑檢測
        計算機應用(2019年5期)2019-08-01 01:48:57
        基于注意力機制的行人軌跡預測生成模型
        計算機應用(2019年3期)2019-07-31 12:14:01
        基于GAN的圖像超分辨率方法研究
        軟件導刊(2019年6期)2019-07-08 03:41:08
        基于生成對抗網(wǎng)絡的深度學習能耗預測算法
        基于深度卷積生成對抗網(wǎng)絡模型的超分辨數(shù)據(jù)重建
        基于生成對抗網(wǎng)絡的圖片風格遷移
        軟件導刊(2018年6期)2018-09-04 09:37:16
        国产精品99精品久久免费| 色优网久久国产精品| 亚洲精品女同在线观看| 黄片视频免费观看蜜桃| 精品少妇一区二区三区免费观| 国产一品道av在线一二三区| www.尤物视频.com| 青青久在线视频免费视频| 综合色就爱涩涩涩综合婷婷| 老少交欧美另类| 亚洲AV永久无码精品表情包| 成av人片一区二区久久| 亚洲乱码一区av春药高潮 | 国产一级毛片AV不卡尤物| 国产一区二区在线观看视频免费| 久久精品国产亚洲av四叶草| 精品人妻无码视频中文字幕一区二区三区| 国产精品久久国产精麻豆99网站| 国产av大片在线观看| 在线观看麻豆精品视频| 国产精品多p对白交换绿帽| 日本a在线看| 美腿丝袜中文字幕在线观看| 国产av无码专区亚洲av麻豆| 曝光无码有码视频专区| 日韩在线精品在线观看| 日韩一二三四区在线观看| 久久精品国产亚洲av麻豆图片| 久久人妻公开中文字幕| 亚洲区一区二区中文字幕| 国产一区二区三区三区四区精品| 国产亚洲午夜高清国产拍精品| 国产精品久久久久影视不卡| 91人妻一区二区三区蜜臀| 国产电影无码午夜在线播放| 色妺妺在线视频| 国产精品女同一区二区久| 日本精品视频免费观看| 国产真实偷乱视频| 日日爽日日操| 粉嫩人妻91精品视色在线看|