李樂陽,佟國香,趙迎志,羅 琦
(上海理工大學 光電信息與計算機工程學院,上海 200093)
隨著深度學習的發(fā)展,機器已經可以模仿人類根據文本描述將內容視覺化,達到信息共享和理解的效果。圖像生成技術在人工智能領域具有廣泛應用,例如圖像修復[1]、圖像到圖像的轉換[2]、風格轉換[3]、超分辨率圖像生成[4]、數據增強[5]以及表征學習[6]等。
文本生成圖像可以視作是圖像字幕生成的反向工作,主要包括3個任務:1)將文本中蘊含的信息提取出來;2)根據所提取的信息生成圖像;3)圖像真實性測試和文本-圖像語義一致性匹配。在早期研究中,文本生成圖像主要依賴搜索方法和監(jiān)督學習的結合[7]。該方法從一般且不受限制的文本中生成圖像,首先識別具有信息且“可描繪” 的文本單元,再搜索最可能出現(xiàn)的圖像區(qū)域,從而以文本和圖像區(qū)域為條件優(yōu)化圖像布局。然而,這種傳統(tǒng)的圖像生成方法缺乏多樣性,只能通過改變給定的文本重新得到圖像特征,生成圖像的質量也難以保證。隨著深度學習的發(fā)展,基于生成模型的圖像生成技術逐漸成熟,變分自編碼器(Variational Auto-Encoder, VAE)方法[8]和深度卷積注意力機制模型[9]得到了廣泛關注。
基于生成模型的圖像生成技術受到有限屬性的限制,生成的圖像大多模糊且未有效地表達文本信息,更不具備創(chuàng)造復雜圖像的能力。文獻[10]提出了生成對抗網絡(Generative Adversarial Networks, GAN),GAN由兩個神經網絡組成:生成器和鑒別器,這兩個網絡通過對抗的方式進行學習。由于GAN的對抗訓練思想適用于文本生成圖像任務,較多相關的研究相繼產生。文獻[11]首次提出生成圖像模型,該模型以GAN為模型骨干,同時增加文本特征作為生成器和鑒別器的約束條件,最終生成64×64的圖像。文獻[12]在前者的基礎上提出了一種新穎的網絡,該網絡增加了bounding box和keypoint限定,根據本文描述的位置指定所繪制的內容,使生成的圖像精度進一步提高。
隨著多模態(tài)學習任務的發(fā)展,越來越多的研究人員在GAN的基礎上提出富有創(chuàng)意的文本生成圖像網絡,包括:1)關注于自然語言描述中單詞的注意力生成對抗網絡(Attention Generative Adversarial Networks, AttnGAN)[13];2)文本分類作為條件約束圖像生成的文本條件輔助分類器生成對抗網絡(Text Conditional Auxiliary Classifier Generative Adversarial Networks, TAC-GAN)[14];3)首次提出分多階段生成圖像的堆疊式生成對抗網絡(Stacked Generative Adversarial Networks, StackGAN)[15];4)利用場景圖的Scene Graph[16];5)將圖像字幕生成任務用于輔助文本生成圖像的MirrorGAN框架[17];6)添加單句生成和多句判別模塊的多語句輔助生成對抗網絡(Multi-Statement Assisted Generative Adversarial Networks, MA-GAN)[18]等。
為了提供一個邏輯性思路,本文提出了一種分類法,將GANs模型主要歸納為3類,并詳細討論每一類的經典模型,最后介紹一些標準數據集和評價指標。
目前,基于GANs的文本生成圖像任務引起了研究人員的廣泛關注。文獻[19]總結了利用生成對抗網絡進行圖像生成和編輯應用的最新研究成果。首先,介紹了GANs變體,討論了圖像生成的應用,包括紋理生成、圖像嵌入、人臉和人體圖像生成。其次,討論了約束圖像生成的應用,包括圖像和圖像的轉換、文本生成圖像以及草圖生成圖像。然后,討論了圖像編輯和視頻生成的應用。最后,提供了總結以及基于GAN方法所面臨的挑戰(zhàn)和自身的局限性。文獻[20]提供了基于GAN的圖像合成的詳細概述,討論了圖像合成的背景和GANs變體的理論概念,并總結了幾種主要的圖像合成方法:直接法、迭代法、分層法以及其他方法。在每個方法中,分析了文本生成圖像的不同模型,并詳細介紹了幾種評價指標。本文總結文本生成圖像任務,并對基于GAN的各種變體做結構、技術上的討論,進行性能對比。文獻[21]討論文本生成圖像的動機和背景,將文本生成圖像的任務歸納為4種類別,即語義增強GAN、分辨率增強GAN、多樣性增強GAN以及運動增強GAN。文獻[22]擴大了基于文本的圖像生成的討論范圍,將文本信息分為3種,即普通文本、場景文本和對話文本?;谶@3類文本,總結了近20種GANs變體的應用研究。文獻[23]提出了一種基于監(jiān)督學習的分類方法,批判性地討論文本生成圖像模型方法,突出其缺點,并確定新的研究領域。本文簡要介紹GANs的基本原理,重點關注基于GAN的各種變體模型,并按照所提出的分類展開討論。
本文提出4種分類法,即:注意力增強方法、多階段增強方法、場景布局增強方法和普適性增強方法[3,8,13,16,24-57]。
2.1.1 注意力增強方法
如表1所示,注意力增強方法是GANs種類最多的方法,原因在于基于注意力的GAN框架關注自然語言文本中的重要單詞或語句,生成圖像中不同子區(qū)域的細粒度細節(jié),從而更好描繪圖像的紋理特征,突出重點。該方法主要包括雙注意力模塊[24]、特征金字塔注意力模塊[25]、動態(tài)記憶模塊[26]以及自注意力模塊[27]等。
表1 基于注意力增強方法的GANs變體總結Table 1. Summary of GANs based on attention enhancement
2.1.2 多階段增強方法
如表2所示,在多階段增強方法中,GANs模型通過把多個GAN框架進行組合,達到提高圖像分辨率的效果。例如采用多階段GANs[15]、使用多個鑒別器和鑒別器進行組合[28]、漸進式地訓練生成器和鑒別器[29]以及采用分層嵌套的鑒別器進行端到端訓練[30]。
表2 基于多階段增強方法的GANs變體總結Table 2. Summary of GANs based on multi-stage enhancement
2.1.3 場景布局增強方法
如表3所示,當文本描述中的對象及其之間的關系過于復雜時,研究人員考慮在GAN框架之間引入場景布局[31]進行文本信息提取,本文將其總結為場景布局增強方法。這類方法關注生成圖像的質量和文本-圖像語義對齊能力,例如將文本特征信息組合成有向圖,經圖神經網絡處理后,通過級聯(lián)細化網絡(Cascaded Refinement Networks, CRN)將場景布局轉換為圖像[16]。
表3 基于場景布局增強方法的GANs變體總結Table 3. Summary of GANs based on scene layout enhancement
2.1.4 普適性增強方法
如表4所示,普適性增強方法正是基于GANs的文本生成圖像領域中的常用方法,其提出一種新穎的文本信息提取方法,結合圖像生成框架進行整體聯(lián)合訓練,在圖像真實性、分辨率以及語義關系對齊等方面都有不同程度的貢獻。
表4 基于普適性增強方法的GANs變體總結Table 4. Summary of GANs based on universality enhancement
2.2.1 GAN
GAN[10]主要由生成器和鑒別器組成。生成器捕捉樣本數據的分布來生成指定數據,鑒別器是二分類模型。生成器和鑒別器可以由各種非線性映射函數充當,例如感知機、卷積神經網絡以及循環(huán)神經網絡等。
以生成圖像任務為例,生成器的輸入服從某一簡單分布的噪聲變量,輸出與訓練圖像相同尺寸的生成圖像。鑒別器輸入真實圖像和生成圖像,輸出一個0~1之間生成圖像是真實圖像的概率。生成器欺騙鑒別器,使得鑒別器輸出高概率。對于鑒別器來說,要盡可能地輸出低概率。
當GAN處于初始狀態(tài)時,鑒別器不能較好區(qū)分真實數據和生成數據。通過不斷更新鑒別器和生成器達到平衡狀態(tài),生成數據分布和真實數據分布重合。
GAN的優(yōu)化過程可以歸結為一個二元極大極小博弈問題,網絡損失函數如式(1)所示。
(1)
式中,pdata(x)是真實數據分布;z為隨機噪聲;pz為噪聲分布;G為生成映射函數;D為鑒別映射函數。
2.2.2 CGAN
針對神經網絡模型難以適應大量預測類別以及一對多的概率映射未被考慮等問題,文獻[32]提出條件生成對抗網絡(Conditional Generative Adversarial Networks, CGAN),也是對GAN框架的擴展。通過給原始GAN的生成器和鑒別器添加額外的條件信息,實現(xiàn)條件生成模型。網絡結構如圖1所示。
圖1 CGAN結構Figure 1. Architecture of CGAN
將條件信息加入GAN中可以分兩種:1)原始GAN生成器的輸入是噪聲信號,類別標簽可以和噪聲信號組合作為隱空間表示;2)原始GAN鑒別器的輸入是圖像數據(真實圖像和生成圖像),可以將類別標簽和圖像數據進行拼接作為鑒別器輸入。
網絡損失函數如式(2)所示。
(2)
2.2.3 DCGAN
文獻[33]基于GAN框架提出了深度卷積生成對抗網絡(Deep Convolutional Generative Adversarial Networks, DCGAN),該網絡將卷積神經網絡(Convolutional Neural Networks,CNN)和GAN相結合來彌補CNN在監(jiān)督學習和無監(jiān)督學習之間的局限性。網絡結構如圖2所示,網絡損失函數如式(1)所示。
圖2 DCGAN結構Figure 2. Architecture of DCGAN
相較于GAN,DCGAN具有以下改進:
1)在生成器和鑒別器中使用反卷積替代池化層;
2)在生成器和鑒別器中使用歸一化;
3)在隱藏層中移除全連接層;
4)在生成器中,除了輸出層使用tanh激活函數,其它層都使用ReLU激活函數;
5)在鑒別器中,所有層都使用LeakyReLU激活函數[34]。
3.1.1 AttnGAN
針對當對全局文本向量進行處理而忽略單詞的細粒度信息會生成低質量圖像的問題,文獻[13]提出了AttnGAN來優(yōu)化細粒度文本到圖像的生成。該網絡通過關注自然語言描述中的相關詞語來生成圖像不同子區(qū)域的細粒度細節(jié)。在此基礎上還提出了一種深層注意力多模態(tài)相似模型(Deep Attention Multimodal Similarity Model, DAMSM)來計算細粒度圖文匹配損失,用于訓練生成器。網絡結構如圖3所示。
圖3 AttnGAN結構 Figure 3. Architecture of AttnGAN
該網絡由AttnGAN和DAMSM兩大模塊構成:
1)AttnGAN模塊將文本向量和來自上一個隱藏層的圖像向量作為輸入。首先通過增加一個新的感知層將文本向量轉換到圖像向量的公共語義空間,再根據圖像的隱藏特征為圖像的每個子區(qū)域計算單詞上下文向量,從而將圖像向量和相應單詞上下文向量結合,生成下一階段的圖像。
2)DAMSM模塊學習兩個神經網絡。首先將圖像和單詞的子區(qū)域映射到一個公共語義空間,再基于單詞度量圖像-文本的相似度,從而計算出用于生成圖像的細粒度損失。
該方法能夠捕獲細粒度的單詞級別和子區(qū)域級別的信息,但可能在捕捉全局相干結構方面還不夠完善。
3.1.2 DualAttn-GAN
針對以往圖像生成方法會產生扭曲的全局結構和不自然的局部語義細節(jié)的問題,文獻[24]提出了一種雙重注意力生成對抗網絡(Dual Attention Generative Adversarial Networks, DualAttn-GAN)。網絡結構如圖4所示。
圖4 DualAttn-GAN結構Figure 4. Architecture of DualAttn-GAN
該網絡引入雙重注意力模塊,包括文本注意模塊和視覺注意模塊。前者探索視覺和語言之間的細粒度交互作用,后者從通道和空間層面對視覺的內部表征進行建模,能夠更好地捕捉全局結構。在此基礎上還提出了一種倒置殘差結構來提高CNN的信息提取能力,并應用歸一化來穩(wěn)定GAN訓練。
DualAttn-GAN的目標函數是每個鑒別器和生成器的聯(lián)合條件-無條件損耗,同時被引入來聯(lián)合近似條件-無條件圖像分布。鑒別器的損失計算式為
(3)
生成器的損失計算式如式(4)所示。
(4)
DualAttn-GAN能夠關注相關詞和不同視覺區(qū)域的相關特征來增強局部細節(jié)和全局結構,但在一定程度上缺少對圖像的多樣性約束。
3.1.3 FesFPA-GAN
針對GAN訓練過程中容易出現(xiàn)圖像與文本內容不一致以及模型崩潰[35]等問題,文獻[25]提出了一種殘差塊特征金字塔注意力生成對抗網絡(Residual Block Feature Pyramid Attention Generative Adversarial Networks, FesFPA-GAN)。該網絡嵌入特征金字塔結構進行特征融合,從而實現(xiàn)細粒度的圖像生成,網絡結構如圖5所示。
圖5 FesFPA-GAN結構 Figure 5. Architecture of FesFPA-GAN
編碼器對文本描述進行編碼,生成文本嵌入向量,再與噪聲向量進行拼接,經過全連接和形狀重塑進行迭代訓練網絡。FesFPA-GAN由3個生成器和3個鑒別器組成,每個生成器用于捕獲當前尺度下的圖像分布,每個鑒別器用于計算當前階段得到樣本的概率。
FesFPA-GAN的網絡損失函數如式(3)和式(5)所示。與DualAttn-GAN類似,將F0和Fi的條件向量轉換為輸入,例如h0=F0(c,z)和h1=F0(hi-1,c)。噪聲向量被條件向量代替,使得生成器能夠完善更多的圖像細節(jié)。
FesFPA-GAN通過嵌入特征金字塔結構引入多尺度特征融合,但在更復雜場景下生成圖像容易出現(xiàn)分辨率不高的問題。
3.1.4 性能對比
表5給出了在3個常用數據上幾種注意力增強方法IS值的比較??梢钥闯?早期典型的注意力增強方法效果并不理想,特別是在CUB鳥類數據集中IS值普遍較低。隨著研究的不斷深入,生成圖像的質量和真實性進一步提升,圖像和文本的語義一致性得到增強。文獻[27]使用自注意機制有效地提取文本特征,取得了較高的IS值。
表5 幾種典型的注意力增強方法IS值比較Table 5. Comparison of IS of typical attention enhancement methods
3.2.1 StackGAN
文獻[15]提出了StackGAN來生成256×256的圖像。在此基礎上還引入一種新的條件增強技術,該技術使得圖像生成更加平滑。網絡結構如圖6所示。
圖6 AttnGAN結構 Figure 6. Architecture of AttnGAN
StackGAN網絡分為兩個階段,第1階段根據給定的文本描述繪制文本對象的基本形狀和顏色,并從隨機噪聲向量中繪制背景布局,從而產生低分辨率圖像。第2階段將文本描述和第1階段輸出的低分辨率圖像作為輸入來糾正第1階段結果中的缺陷,并通過再次提取文本描述來完善對象細節(jié),生成具有照片級的高分辨率圖像。
第1階段的生成器損失函數LG如式(5)所示。
(5)
第1階段的鑒別器損失函數LD如式(6)所示。
(6)
第2階段的生成器損失函數LG如式(7)所示。
(7)
第2階段的鑒別器損失函數LD如式(8)所示。
(8)
3.2.2 StackGAN++
針對條件生成任務和無條件生成任務,文獻[15]基于StackGAN網絡進一步提出了多級生成性對抗網絡結構(Stacked++ Generative Adversarial Networks, StackGAN++)。該網絡由樹狀結構排列的多個生成器和多個鑒別器組成[46],網絡結構如圖7所示。
圖7 StackGAN++結構Figure 7. Architecture of StackGAN++
StackGAN++網絡由多個生成器和鑒別器組成,并將其以樹狀結構排列,樹的不同分支會生成同一場景的多個尺度圖像[47]。在每個分支上,生成器會捕獲該尺度上的圖像分布,鑒別器度量樣本概率。第1階段將噪聲向量和條件變量組合到第1個生成器,該生成器在默認情況下生成64×64的低分辨率圖像。之后的每個階段會使用前一階段的結果和條件變量來產生高分辨率圖像。最后階段會產生256×256的高質量圖像。
3.2.3 性能對比
表6給出了在3個常用數據上幾種多階段增強方法IS值的比較。與表5相比,注意力增強方法的IS值明顯高于多階段增強方法的IS值,生成圖像效果相對較好。注意力增強方法相較于其他方法更能捕捉圖像中的細節(jié)特征,在細粒度上關注重點,對文本生成圖像領域作用較
表6 幾種典型的多階段增強方法IS值比較Table 6. Comparison of IS of typical multi-stage enhancement methods
大。在多階段增強方法中,textStyleGAN的IS值較高,表明在潛在語義空間中生成圖像效果較好。此外,StackGAN++相比于StackGAN在各個指標均得到一定提升,表明將生成器和鑒別器組織成樹狀結構,能夠使模型性能進一步提升。
3.3.1 Scene Graph
針對以往方法難以處理包含復雜場景文本的問題,文獻[16]提出了一種從場景圖生成圖像的方法(Scene Graph),能夠顯式地推理文本中對象及其關系。該方法使用圖卷積神經網絡[37]來處理輸入圖形,通過預測對象的邊界框和分割子區(qū)域來計算出場景布局,并利用級聯(lián)優(yōu)化網絡將場景布局轉換為圖像。網絡結構如圖8所示。
Scene Graph的輸入是包含對象及其關系的場景圖。首先利用圖卷積神經網絡進行處理,圖卷積神經網絡沿邊傳遞信息,計算出所有對象的嵌入向量,用于預測對象的邊界框和分割掩碼,并將其組合成場景布局,從而使用CRN將場景布局轉換為圖像。此外,該網絡使用一對鑒別器進行對抗訓練。網絡損失函數如式(9)所示。
LGAN=EX~preallogD(x)+EX~pfakelog(1-D(x))
(9)
Scene Graph能夠明確地推理對象和關系,并生成包含較多可識別的復雜圖像,但易產生圖像不夠清晰、分辨率不高等問題。
3.3.2 InferringGAN
文獻[50]提出一種新穎的基于語義布局推理的層次化文本生成圖像方法InferringGAN。該方法首先由布局生成器從文本構建語義布局,再通過圖像生成器將布局轉換為圖像。不僅可以生成語義層面上具有意義的圖像,還可以通過修改生成場景布局來自動標注圖像和過程。網絡結構如圖9所示。
InferringGAN主要由框生成器、形狀生成器以及圖像生成器組成:
1)框生成器接收一個文本向量作為輸入,并通過在圖像中組合對象實例來生成一個粗糙的布局。最后輸出的是一組邊界框B1:T={B1,…,BT},其中每個邊界框BT定義了第t個對象的位置、大小以及類別標簽。
2)形狀生成器接收一組邊界框,再預測框內對象的形狀。最后輸出的是一組二進制掩碼M1:T={M1,…,MT},其中每個二進制掩碼MT定義了第t個對象的基本形狀。
3)圖像生成器通過聚合掩碼獲取語義標簽映射關系M,并將文本向量作為輸入,再通過將語義布局轉換為與文本描述匹配的圖像。
通過優(yōu)化損失函數Limg如式(10)所示,對生成器和鑒別器進行聯(lián)合訓練。
(10)
InferringGAN能夠生成保留語義細節(jié)并與文本描述高度相關的復雜圖像,且其預測的布局可用于控制,但面對復雜場景的圖像,預測的對象位置不夠精確,缺乏對位置約束。
3.3.3 性能對比
表7給出了在3個常用數據上幾種多階段增強方法IS值的比較?;贑OCO數據集與表5和表6可以看出,場景布局方法的IS值相對較低。文獻[39]在COCO數據集上IS值較高,使用邊框回歸網絡計算每個實例的類別和位置的布局,能夠提取更理想的圖像特征。由此可以看出,文本生成圖像應該利用場景布局方法處理文本,將多階段骨架作為網絡主干,把注意力機制作為輔助工具,三者結合能夠達到更好的圖像生成效果。
表7 幾種典型的場景布局增強方法IS值比較Table 7. Comparison of IS of typical scene layout enhancement methods
3.4.1 TAC-GAN
文獻[14]提出了TAC-GAN,該網絡將文本數據和其類別信息相結合,使生成的圖像多樣化并提高其結構連貫性。網絡結構如圖10所示。
圖10 TAC-GAN結構 Figure 10. Architecture of TAC-GAN
在TAC-GAN網絡中,生成器將生成的圖像限制在其類別標簽上,而鑒別器執(zhí)行輔助任務,將生成圖像和真實圖像分類到各自的類別標簽中。其中,每個生成圖像都與類別標簽和噪聲向量相關聯(lián)。鑒別器輸出(真或假)的概率分布和類標簽上的概率分布分別是DS(I)=P(S|I)和DC(I)=P(C|I)。
目標函數由兩部分組成:真實來源LS的對數似然和真實類別LC的對數似然。定義為
LS=E[logP(S=r|Xreal)]+E[logP(S=f|Xfake)]
(11)
LC=E[logP(S=c|Xreal)]+E[logP(S=c|Xfake)]
(12)
式中,鑒別器最大化為LS+LC;生成器最小化為LC-LS。
TAC-GAN相較于其他方法易于擴展,能以任何類型有用的潛在信息對網絡進行調節(jié)。但是額外的信息對模型訓練的穩(wěn)定性可能會產生一定影響,并且其在多大程度上是幫助而不是阻礙模型產生更好質量、更高分辨率的圖像的能力,仍有待研究。
3.4.2 MA-GAN
文獻[8]提出了MA-GAN,該網絡挖掘描述同一圖像的不同語句之間的語義相似性,既提高了生成圖像的質量,又保證了相關語句的生成相似度。在此基礎上提出了一個單句生成和多句判別(Single Sentence Generation and Multiple Sentence Discrimination, SGMD)模塊,探索多個相關語句之間的語義關聯(lián),以減少生成圖像之間的差異。此外,設計了一種漸進式負值樣本,有效地提高產生式模型的細節(jié)判別能力。網絡結構如圖11所示。
圖11 MA-GAN結構Figure 11. Architecture of MA-GAN
MA-GAN主要由3大模塊組成:多語句采樣模塊、單句生成和多句鑒別模塊以及漸進式負樣本選擇模塊。
1)多語句采樣模塊是將一個圖像和多個語句P={Ir;Sm,Sa0,Sa1,…,San}作為輸入。其中,Ir是真實圖像,Sm是目標語句,Sai是輔助語句,由真實圖像的相關語句中隨機采樣的得到。通過預先訓練的文本編碼器提取語句特征和單詞特征,再利用條件增強來增強文本描述,得到增廣的語句向量。
2)句生成和多句鑒別模塊包含3對生成器和鑒別器,對應不同分辨率的圖像。在3個生成階段,使用同一個語句作為生成條件,而在鑒別階段使用多個不同的語句。
3)漸進式負樣本選擇模塊則是在訓練過程中引入負樣本來提高模型性能,再生成細粒度圖像。
生成器損失函數LG如式(13)所示。
(13)
鑒別器損失函數LD如式(14)所示。
(14)
式中,LDi是3個階段的鑒別器損失;LC是分類損失。
MA-GAN引入了多個相關語句中的語義信息,減少了相關語句生成的圖像之間的差異。但忽略了視覺信息與語義信息之間的不平衡,需要引入更多的上下文信息,例如邊界框、屬性信息、掩碼信息等。更好地利用上下文信息是值得研究的問題。
3.4.3 性能對比
表8給出了在3個常用數據上幾種普適性增強方法IS值的比較。從表8可以看出,基于COCO數據集,相較于其他增強方法。文獻[51]所提方法的IS值最高,達到52.73,表明該文獻設計的內存結構是一種有效的圖像生成方法。
表8 幾種典型的普適性增強方法IS值比較Table 8. Comparison of IS of typical universality enhancement methods
在完成文本生成圖像任務之后通常對生成圖像進行評估。圖像的評估目標主要有3個方面,即質量、多樣性以及語義一致性。
Inception Score (IS)[58]被廣泛用于評估圖像的質量和多樣性。IS是基于一個預訓練InceptionV3網絡[59],通過統(tǒng)計該網絡的輸出來計算生成網絡的性能,其計算式為
IS(G)=exp(Ex~pg[DKL(p(y|x)‖p(y))])
(15)
式中,p(y|x) 是預訓練模型估計的圖像條件標簽分布,即初始InceptionV3網絡的輸出;p(y)是關于圖像的邊緣分布。
Frechet Ineption Distance (FID)[60]根據預訓練的網絡提取的特征來衡量真實圖像分布和生成圖像分布之間的距離。FID在評估GAN方面比IS更具有一般性,可更好地捕捉各種外界干擾。與IS相似,FID通常從真實和生成的圖像中計算,使用預訓練的Inception V3網絡的最后一個池化層來獲取視覺特征。之后用從兩種圖像中所提取特征的均值和方差(μr,∑r)和(μg,∑g),通過式(16)計算FID
(16)
FID將生成圖像的分布與真實圖像的分布進行比較,生成圖像與真實圖像之間的距離越小,則FID越低。
文獻[2]提出了一種FCN-scores,其基本思想是GAN生成的圖像應該能夠在利用相同分布的真實圖像所訓練的分類器上被正確分類。因此,如果分類器準確地對一組合成圖像進行分類,則該圖像可能是真實的,并且相應的GAN獲得較高的FCN分數。
Structural Similarity Index Measurement (SSIM)[61]即為結構相似性,是一種衡量兩幅圖像相似度的指標。該指標假設人類視覺主要從可視區(qū)域內獲取結構信息,所以通過檢測結構信息是否發(fā)生改變來感知圖像的近似信息。SSIM測量系統(tǒng)由3個對比模塊組成:亮度、對比度、結構。測量系統(tǒng)的定義如式(17)所示。
S(x,y)=f(l(x,y),c(x,y),s(x,y))
(17)
式中,(x,y)是不同的圖像;l(x,y) 是圖像亮度對比;c(x,y)是對比度;s(x,y) 是圖像結構對比。
(18)
式中,μ、σ、σxy分別是圖像的均值、方差以及x和y的協(xié)方差;C1、C2、C3為常數,且C3=C2/2。故整體有
(19)
SSIM范圍為-1~1,越接近1,表明兩張圖像越相似。
除以上介紹外,還有一些未被廣泛使用的指標,例如適合多對象圖像的質量評估(the detect based score)[37]、適合多對象圖像的真實性評估(SceneFID)[62]、自動顯示生成模型中無法捕獲數據分布的特定類別(CAS)[63]、可以估計單個樣本的感知質量并研究潛在空間插值(precision and recall metrics)[64]以及可以檢測兩個相同分布之間的匹配(density and coverage metrics)[65]。這些指標利用不同的思想來評估圖像的質量和多樣性。
在文本生成圖像的過程中,保留文本原有的語義信息必不可少。生成圖像必須符合文本所描述的內容和人類的主觀感受。近年來,關于衡量文本-圖像語義一致性的評估指標受到了越來越多的關注。常見的評估指標如表9所示。
表9 幾種典型的語義一致性評估指標Table 9. Several typical semantic consistency evaluation metric
CUB數據集[1]共有11 788張鳥類圖像,包含200類鳥類子類,其中訓練數據集有5 994張圖像,測試集有5 794張圖像,每張圖像均提供了圖像類標記信息,圖像中鳥類的bounding box、鳥類的關鍵part信息以及鳥類的屬性信息。
Oxford-102[69]數據集是牛津大學于2008年發(fā)布的一個花卉數據集,在計算機視覺領域被廣泛使用。該數據集包含102個類別的8 189張花卉圖像,每個類別包含40~256張圖像。訓練集和驗證集中各類別包含10張圖像(共1 030張),而測試集中各類別至少包含20張圖像(共6 129張)。
MSCOCO[70](Microsoft Common Objects in Context)是微軟于2014年出資標注的數據集。該數據集是一個大型、豐富的物體檢測,分割和字幕數據集。該數據集以理解場景為目標,主要從復雜的日常場景中截取,圖像中的目標通過精確的分割進行位置的標定。圖像包括91類目標,32.8萬影像和250萬個label。
CIFAR-10是一個接近真實物體的彩色圖像數據集,目的用于識別日常物體。一共包含10個類別的RGB彩色圖像,每個圖像的尺寸為32×32,每個類別有6 000個圖像,數據集中一共有50 000張訓練圖像和10 000張測試圖像。
除上述數據集之外,還有MNIST[35]、SVHN[5]以及CelebA-HQ[29]等??傊?目前文本生成圖像的數據集主要以場景和稀疏對象為主,但考慮到現(xiàn)實情況更為復雜,加入更多的對象-對象和對象-場景交互動作,能夠讓模型更好地理解文本信息,提高模型的圖像生成效果。
本文總結了各種基于GAN的文本生成圖像方法。根據GANs結構的不同,將文本生成圖像方法歸納為4類:注意力增強方法、多階段增強方法、場景布局增強方法和普適性增強方法。討論了每一種模型的思想、原理以及貢獻。這些模型都可以基于文本類型的自然語言生成具有視覺效果和照片級真實感的圖像。最后,在CUB、Oxford-102和MSCOCO數據集上對模型進行了評估。從兩個方面展開未來的研究工作:
1)評估指標。從表9可以看出,目前還有較多未展開廣泛應用的新評估指標,它們都有一定的理論根據,但是缺乏具體的研究實踐。此外,生成圖像有多個維度需要評估,例如真實性、多樣性和語義一致性等,但目前缺少足夠可靠的評估指標,該評估指標應該在多個角度對圖像進行綜合評估。因此,新評估指標的廣泛應用和研究具有綜合性圖像評估效果的指標是未來文本生成圖像領域的方向之一。
2)GAN結構。綜合本文對比分析近幾年的GAN模型變體的性能結果可知,目前大多研究集中在本文歸納的方法類別中,雖然有不同方法可以使生成圖像的視覺效果較好,但模型仍然存在不足,例如圖像不夠真實、缺乏多樣性約束以及不適應復雜場景和文本等問題。因此,綜合多個類別來構建模型是亟待解決的問題。