亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        生成對(duì)抗網(wǎng)絡(luò)與文本圖像生成方法綜述

        2023-10-10 10:38:10賴麗娜周龍龍饒季勇徐天陽宋曉寧
        關(guān)鍵詞:語義模態(tài)特征

        賴麗娜,米 瑜,周龍龍,饒季勇,徐天陽,宋曉寧

        江南大學(xué) 人工智能與計(jì)算機(jī)學(xué)院,江蘇 無錫 214122

        近些年,隨著深度學(xué)習(xí)理論技術(shù)的蓬勃發(fā)展,計(jì)算機(jī)視覺和圖像自動(dòng)化處理技術(shù)的研究已獲得顯著的創(chuàng)新和應(yīng)用的突破。2014 年,Goodfellow 等[1]首次提出生成對(duì)抗網(wǎng)絡(luò)(generative adversarial network,GAN)作為一種深度學(xué)習(xí)模型,是近年來復(fù)雜分布上無監(jiān)督學(xué)習(xí)最具前景的方法之一。2017年后,基于生成對(duì)抗網(wǎng)絡(luò)的深度機(jī)器學(xué)習(xí)方法,已經(jīng)被廣泛地使用在文本描述到圖像生成的技術(shù)中,并形成目標(biāo)屬性描述的高度區(qū)分和可泛化特點(diǎn)。通過使用文本描述生成一個(gè)直觀的可視化圖像,可以引用與當(dāng)前對(duì)象、屬性信息、空間位置和關(guān)聯(lián)關(guān)系等密集語義信息,為支持復(fù)雜多樣的場景實(shí)現(xiàn)奠定良好基礎(chǔ),例如文本建模、智能人機(jī)交互、視覺障礙者協(xié)助、智能問答、機(jī)器翻譯等方面。

        文本生成圖像方法主要采用自然語言與圖像集特征的映射方式,根據(jù)自然語言描述生成對(duì)應(yīng)并具有足夠視覺細(xì)節(jié)的圖像,且在語義上與文本的描述保持一致,利用語言屬性智能化實(shí)現(xiàn)視覺圖像的通用性表達(dá)。為使生成的圖像具有高度真實(shí)感,已有工作對(duì)GAN 做了廣泛研究。GAN 包括了生成網(wǎng)絡(luò)、判別網(wǎng)絡(luò)和對(duì)抗網(wǎng)絡(luò),其中最主要的就是生成器和判別器。生成器負(fù)責(zé)根據(jù)隨機(jī)噪聲生成內(nèi)容,而判別器負(fù)責(zé)給出生成圖像和真實(shí)圖像的匹配概率,并不斷地交替訓(xùn)練,以滿足真實(shí)度的要求。文本圖像生成可以在計(jì)算機(jī)視覺領(lǐng)域解決多種問題。本文總結(jié)強(qiáng)調(diào)了基于GAN的文本圖像生成領(lǐng)域的發(fā)展現(xiàn)狀及發(fā)展歷程,通過對(duì)文本編碼器、文本直接合成圖像、文本引導(dǎo)圖像合成等多維度多模型的對(duì)比和分析,全面總結(jié)和分析了模型的特點(diǎn),客觀地提出了該領(lǐng)域目前研究的不足以及未來可能的發(fā)展方向。

        本綜述主要關(guān)注于回顧最近的相關(guān)工作,旨在分析使用生成對(duì)抗網(wǎng)絡(luò)解決文本圖像生成問題。為了提供清晰的路徑,將GAN 組織歸納為四個(gè)主要類別。首先對(duì)GAN 和文本圖像生成做了基礎(chǔ)介紹;總結(jié)歸納了四種基礎(chǔ)的GAN,強(qiáng)調(diào)它們各自特點(diǎn);然后,總結(jié)了基于基礎(chǔ)GAN的文本圖像生成,討論了模型和體系結(jié)構(gòu);回顧了基礎(chǔ)GAN 以及基于基礎(chǔ)GAN 的文本到圖像合成性能指標(biāo)和比較;最后,總結(jié)并概述了文本到圖像生成領(lǐng)域的發(fā)展思路。

        1 介紹

        1.1 GAN介紹

        GAN[1]主要由生成器和判別器構(gòu)成。算法流程可總結(jié)為固定一方訓(xùn)練另一方。第一步:固定生成器G,訓(xùn)練判別器D。第二步:固定判別器D,訓(xùn)練生成器G。在圖像生成研究方面,近年來流行的深度生成模型可以歸結(jié)為三類:自回歸模型(ARM)[2]、生成對(duì)抗網(wǎng)絡(luò)(GAN)[3-12]和變分自動(dòng)編碼器(VAE)[13-14]。GAN的典型應(yīng)用:

        (1)生成數(shù)據(jù)[15]。GAN能夠從大量的無標(biāo)注數(shù)據(jù)中無監(jiān)督地學(xué)習(xí)到一個(gè)具備生成各種形態(tài)(圖像、語音、語言等)數(shù)據(jù)能力的函數(shù)(生成器)。

        (2)圖像超分辨率[16]。SRGAN[16]基于相似性感知方法提出了一種新的損失函數(shù),有效解決了圖像重建后丟失高頻細(xì)節(jié)的問題,并使生成的高分辨率圖像視覺效果更好。

        (3)圖像翻譯和風(fēng)格遷移[12,17]:由于GAN 的自主學(xué)習(xí)和生成隨機(jī)樣本的優(yōu)勢,以及降低了對(duì)訓(xùn)練樣本的要求,使得GAN在圖像風(fēng)格遷移領(lǐng)域取得了一定成就。

        (4)跨模態(tài)圖像生成[18-19]。文本生成圖像是GAN在跨模態(tài)圖像生成上最主流也是最成熟的應(yīng)用,GAN 本身超強(qiáng)的分布學(xué)習(xí)能力使得GAN可以建立文本到圖像的條件分布,生成語義一致的圖像。

        1.2 基于GAN的文本圖像生成

        為實(shí)現(xiàn)文本圖像生成,需要對(duì)文本信息進(jìn)行語義、特征提取。在提取過程中用到了自然語言處理的方法。自然語言處理將文本進(jìn)行編碼,提取文本中的重要屬性。但傳統(tǒng)方法直接利用線性編碼的方式,對(duì)文本信號(hào)進(jìn)行映射。但是隨著數(shù)據(jù)維度的增加,計(jì)算量將呈指數(shù)級(jí)增長。

        近些年,自然語言高速發(fā)展,已有多種技術(shù)及模型(如圖1)[20-24]。從Word2vec[25]到GPT-2[26],這些模型都是只考慮自然語言這種單一模態(tài)內(nèi)部潛在的規(guī)律,雖然在語言的數(shù)據(jù)降維、特征保持、語義提取、因果推斷等方面取得了一定成功,但并沒有建立自然語言與其他模態(tài)之間的信息交互。例如:文本生成圖片時(shí),使用Bert[27-28]提取的自然語言的特征不能與使用CNN[29]提取的圖像特征相匹配,從而生成的圖片不能體現(xiàn)語義一致性,甚至出現(xiàn)錯(cuò)誤的情況[30]。

        圖1 文本圖像生成領(lǐng)域代表性模型Fig.1 Representative models in text image synthesis field

        在早期,文本圖像生成主要通過監(jiān)督學(xué)習(xí)和搜索相結(jié)合的方式進(jìn)行,通過使用關(guān)鍵字(或關(guān)鍵短語)和圖像之間的相關(guān)性識(shí)別信息。然后這些單元將搜索以文本為條件的相關(guān)性最高的圖像,最終根據(jù)文本和圖像優(yōu)化圖片布局。這種方法通常涉及多個(gè)領(lǐng)域的相關(guān)知識(shí),包括自然語言處理、計(jì)算機(jī)視覺、計(jì)算機(jī)圖形學(xué)等。傳統(tǒng)的文本圖像生成主要是缺乏生成新圖像的能力,只能改變給定圖像的特征。

        為了解決生成圖像定制化的問題,GAN 可以通過文本描述來指定要生成的圖像類型。在文本生成圖像中,GAN的判別器首先判斷生成圖像的合理性,當(dāng)生成的圖像合理之后,再訓(xùn)練圖像與文本是否匹配。為了使判別模型能夠擁有判斷文本與圖像是否匹配的能力,在訓(xùn)練時(shí)除了使用<假圖,描述>和<真圖,匹配描述>的樣本外[31],添加了第三種樣本即<真圖,不匹配描述>。這種訓(xùn)練范式的目標(biāo)函數(shù)如下所示:

        其中,x表示真圖,x?表示假圖,s表示匹配描述,s?表示不匹配描述。

        2 基于功能的基礎(chǔ)GAN的分類

        本章提出了一種分類法,將基礎(chǔ)GAN 模型分成四大類:語義增強(qiáng)GAN、可增長式GAN、多樣性增強(qiáng)GAN和清晰度增強(qiáng)GAN(如圖2)。其中語義增強(qiáng)GAN可保證文本到圖像的一致性,可增長式GAN使訓(xùn)練穩(wěn)定,多樣性增強(qiáng)GAN使得生成圖像豐富,清晰度增強(qiáng)GAN使得生成的圖像質(zhì)量高。

        圖2 各類方法間的聯(lián)系與區(qū)別Fig.2 Connection and difference between various methods

        2.1 語義增強(qiáng)GAN

        語義增強(qiáng)GAN[32]代表了用于文本到圖像合成的GAN框架的比較早期的作品,這一部分的GAN 主要專注于確保生成的圖像在語義上與輸入文本相關(guān)。然而,語義相關(guān)性是一個(gè)相對(duì)主觀的衡量標(biāo)準(zhǔn),每種圖像本身都有豐富的語義與解釋。因此,許多GAN 從不同的角度被提出用以增強(qiáng)文本到圖像的生成。在這一節(jié)中,將具體回顧一種經(jīng)典的方法——DCGAN[6]和SAGAN[12],它通常作為文本圖像生成的主干(backbone)參與到各種復(fù)雜的GAN中進(jìn)行訓(xùn)練[33]。

        2.1.1 深度卷積生成對(duì)抗網(wǎng)絡(luò)(DCGAN)

        在原始的GAN[1]模型中,生成器和判別器都是淺層模型。為了生成分辨率更高的圖像,需要更深的模型。2016年,Ⅰndico公司的Radford等[6]提出了DCGAN(deep convolutional GAN)模型,它代表了使用GAN進(jìn)行文本圖像生成的許多先驅(qū)工作(如圖3)。該模型是GAN 的一個(gè)變體,在網(wǎng)絡(luò)架構(gòu)上改進(jìn)了原始GAN,即在生成器和判別器中均使用深度卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)[29]替換原始GAN的全連接神經(jīng)網(wǎng)絡(luò)(fully connected netural network,F(xiàn)CN),并用遞歸神經(jīng)網(wǎng)絡(luò)(recursive neural network,RNN)提取文本特征。具體來講,DCGAN[6]的生成器和判別器用卷積層替換池化層。生成器先使用反卷積進(jìn)行上采樣,然后將生成的圖像輸送到判別器中,判別器再通過帶有步長(stride)的卷積提取特征,提升文本到生成圖像的語義正確性。其次,為避免初始化網(wǎng)絡(luò)參數(shù)不佳的問題,并使訓(xùn)練過程更穩(wěn)定,DCGAN[6]在生成器和判別器上都使用批歸一化層(batch normalization)幫助梯度[34]在深層網(wǎng)絡(luò)中的反傳[35],適當(dāng)增加初始化差,也緩解了“模式崩潰”問題,使得最終圖像的多樣性增強(qiáng)。然而,直接將批歸一化層應(yīng)用到所有層也會(huì)產(chǎn)生樣本震蕩和模型不穩(wěn)定等問題,因此DCGAN[6]在生成器的輸出層和判別器的輸入層中取消了批歸一化層,以此增加模型訓(xùn)練的穩(wěn)定性。

        圖3 DCGAN的網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 Network structure of DCGAN

        2.1.2 循環(huán)生成對(duì)抗網(wǎng)絡(luò)(CycleGAN)

        與DCGAN[6]不同,CycleGAN(cycle-consistent GAN)[12]可以實(shí)現(xiàn)無配對(duì)數(shù)據(jù)的訓(xùn)練(即在源域和目標(biāo)域之間,無須建立訓(xùn)練數(shù)據(jù)間一對(duì)一的映射,就可實(shí)現(xiàn)源到目標(biāo)域的遷移)。CycleGAN[12]本質(zhì)上是兩個(gè)鏡像對(duì)稱的GAN構(gòu)成的環(huán)形網(wǎng)絡(luò),這兩個(gè)GAN共享兩個(gè)生成器,并各自攜帶一個(gè)判別器(如圖4)。在生成器處理圖像的過程中,CycleGAN[12]使用了自適應(yīng)層實(shí)例歸一化方式(AdaLⅠN),提高了每一個(gè)像素的感知域,實(shí)現(xiàn)了輸入像素的跳躍式傳輸,保護(hù)了信息傳遞的完整性。而判別器僅用于判斷輸入圖像是否是某一特定域的圖像,它首先用四層卷積與激活函數(shù)對(duì)圖像進(jìn)行特征提取和處理,最后再經(jīng)過輸出通道數(shù)為1 的卷積得到一個(gè)patch 的輸出實(shí)現(xiàn)判別。它的訓(xùn)練過程如下:首先從域X中取出一組圖像,再從域Y中取出另一組圖像,以此訓(xùn)練生成器G:X→Y,得到生成圖像G(x)后,再經(jīng)過生成器F:Y→X得到F(G(x));同理有Y域到X域的轉(zhuǎn)換關(guān)系G(F(y))。CycleGAN[12]通過循環(huán)一致性損失來保證生成器的輸出和真實(shí)圖像之間保持了內(nèi)容上的相似性,以此實(shí)現(xiàn)高語義相關(guān)。

        圖4 CycleGAN的網(wǎng)絡(luò)結(jié)構(gòu)Fig.4 Network structure of CycleGAN

        Base-GAN模型的機(jī)制與特點(diǎn),如表1所示。

        表1 Base-GAN模型的機(jī)制與特點(diǎn)Table 1 Mechanism and characteristics of Base-GAN models

        2.2 可增長式GAN

        早期的GAN 能夠生成低分辨率的圖像,而要生成高分辨率、高質(zhì)量的圖像困難重重,可增長式GAN可以解決此類問題,從低分辨率圖片開始同時(shí)訓(xùn)練生成器和判別器,逐層增加分辨率,不斷添加細(xì)節(jié)信息,最后平滑地生成高分辨率、高質(zhì)量的圖像。這不僅能加快訓(xùn)練的速度,而且極大程度地穩(wěn)定了訓(xùn)練,生成高質(zhì)量的圖像。

        漸進(jìn)式增長生成對(duì)抗網(wǎng)絡(luò)(progressive growing gan,PGGAN):如果直接生成大分辨率的圖片,建立從初始訓(xùn)練的潛在空間到1 024×1 024像素的映射網(wǎng)絡(luò)非常困難,這是因?yàn)樵谏傻倪^程中,判別器會(huì)很輕易識(shí)別出映射網(wǎng)絡(luò)生成的“假圖像”,導(dǎo)致映射網(wǎng)絡(luò)缺乏收斂性。因此,PGGAN[3]通過一種漸進(jìn)增長(progressive growing)的方式來訓(xùn)練GAN,“漸進(jìn)增長”指的是先訓(xùn)練4×4 的網(wǎng)絡(luò),然后訓(xùn)練8×8,每個(gè)階段增大兩倍,最終達(dá)到1 024×1 024的高分辨率圖像。雖然“漸進(jìn)增長”能夠加快訓(xùn)練速度,層與層之間的信息更加精細(xì),生成圖像的質(zhì)量提高。但添加額外層會(huì)造成對(duì)損失函數(shù)的影響,使GAN 需要花費(fèi)額外的時(shí)間重新達(dá)到收斂狀態(tài),影響模型訓(xùn)練的效率。為解決此問題,PGGAN[3]通過平滑過渡技術(shù),將更大一級(jí)的網(wǎng)絡(luò)融合進(jìn)低一級(jí)的網(wǎng)絡(luò),使得高一級(jí)的比例漸漸變大,低一級(jí)的比例漸漸減小,從而平滑地增強(qiáng)新增層(如圖5)。這樣的逐層訓(xùn)練既加快了訓(xùn)練速度,又提高了訓(xùn)練穩(wěn)定性,使得生成的圖像質(zhì)量變高。

        圖5 PGGAN的網(wǎng)絡(luò)結(jié)構(gòu)Fig.5 Network structure of PGGAN

        2.3 多樣性增強(qiáng)GAN

        雖然可增長式GAN能夠保證GAN的穩(wěn)定訓(xùn)練,使生成圖像與真實(shí)圖像存在較小偏差的圖像,也會(huì)導(dǎo)致生成圖像特征單一的問題。而要使輸出圖像多樣化,使圖像低維度表征被最大化表達(dá),且不能降低訓(xùn)練的穩(wěn)定性,則需要兼顧樣本的保真性和多樣性[37]。這就是多樣性增強(qiáng)GAN 的目的。這樣生成的圖像不僅與語義相關(guān),而且具有不同的類型和視覺外觀。

        2.3.1 雙判別器生成對(duì)抗網(wǎng)絡(luò)(D2GAN)

        D2GAN(dual discriminator GAN)[5]既可以高效地避免模式崩潰問題又可以擴(kuò)展到龐大的數(shù)據(jù)集(如圖6)。通過結(jié)合KL和反KL散度生成一個(gè)統(tǒng)一的目標(biāo)函數(shù),從而利用了兩種散度的互補(bǔ)性,有效地在多模式下分散預(yù)估密度。D2GAN[5]有兩個(gè)判別器:D1和D2,兩個(gè)判別器在與一個(gè)生成器一起進(jìn)行極大極小的博弈同時(shí),一個(gè)判別器會(huì)給符合分布的數(shù)據(jù)樣本給予高獎(jiǎng)勵(lì),而另外一個(gè)判別器更偏向于生成器生成的數(shù)據(jù)。生成器將同時(shí)欺騙兩個(gè)判別器。當(dāng)訓(xùn)練的兩個(gè)判別器最優(yōu)時(shí),優(yōu)化D2GAN[5]的生成器可以讓原始數(shù)據(jù)和生成器產(chǎn)生的數(shù)據(jù)之間的KL 散度和反向KL 散度最小化,最小化目標(biāo)函數(shù)的損失,從而有效地避免“模式崩潰”的問題[38]。實(shí)驗(yàn)結(jié)果表明,D2GAN[5]可以在保持生成樣本質(zhì)量的同時(shí)提高樣本的多樣性。更重要的是,這種方法可以擴(kuò)展到更大規(guī)模的數(shù)據(jù)集(ⅠmageNet)[39],并保持生成圖像的多樣性和高質(zhì)量。

        圖6 D2GAN的網(wǎng)絡(luò)結(jié)構(gòu)Fig.6 Network structure of D2GAN

        由于單判別器判別性能不佳,有可能會(huì)導(dǎo)致誤判。2022年,申瑞彩等[40]提出使用選擇性集成學(xué)習(xí)思想的生成對(duì)抗網(wǎng)絡(luò)模型將判別器集成,這些判別器各自具有不同的網(wǎng)絡(luò)結(jié)構(gòu),并在集成判別網(wǎng)絡(luò)中引入具有動(dòng)態(tài)調(diào)整基判別網(wǎng)絡(luò)投票權(quán)重的多數(shù)投票策略,對(duì)集成判別網(wǎng)絡(luò)的判別結(jié)果進(jìn)行投票,有效地促進(jìn)了模型的收斂、解決了生成樣本多樣性差等問題。

        2.3.2 基于自注意力的生成對(duì)抗網(wǎng)絡(luò)(SAGAN)

        傳統(tǒng)的卷積方法(如PGGAN[3])僅僅根據(jù)低分辨率特征圖中的空間局部點(diǎn)生成高分辨率細(xì)節(jié),然而卷積算子有一個(gè)局域接受域,距離較遠(yuǎn)的關(guān)系只能經(jīng)過幾個(gè)卷積層進(jìn)行聯(lián)系,不利于學(xué)習(xí)長期依賴關(guān)系。且大多GAN多注重紋理細(xì)節(jié)而非整體的幾何結(jié)構(gòu),因而SAGAN(self-attention GAN)[11]為生成器和判別器均引入了自注意力機(jī)制,用于捕獲全局依賴性,有效地捕獲了相隔很遠(yuǎn)區(qū)域之間的關(guān)系,輔助CNN[29]建模圖像中的長期依賴(如圖7)。生成器可以繪制細(xì)節(jié)豐富的圖像,判別器也可以更準(zhǔn)確地對(duì)全局圖像結(jié)構(gòu)實(shí)施復(fù)雜的幾何約束。GAN 的訓(xùn)練通常存在“模式崩潰”問題,也就是判別器訓(xùn)練的效果很好,而生成器的生成效果遠(yuǎn)遠(yuǎn)落后傳統(tǒng)的GANs 通過判別器的正則化減緩判別器的訓(xùn)練速度,從而實(shí)現(xiàn)GAN 的整體減速。SAGAN[11]通過對(duì)判別器和生成器采用不同的學(xué)習(xí)速率,減少判別器的更新次數(shù),以此同步生成器和判別器的學(xué)習(xí),穩(wěn)定訓(xùn)練。分別在生成器和判別器上采用SN、TTUR,以及不同層次的特征圖(feature map)進(jìn)行性能評(píng)價(jià),在當(dāng)時(shí)已有的GANs中效果最佳。

        2.4 清晰度增強(qiáng)GAN

        為增強(qiáng)生成圖像的清晰度,必須提高圖像的分辨率。因此通過急劇損失函數(shù)提升圖像邊緣的清晰度,或利用殘差注意力網(wǎng)絡(luò)輔助并行結(jié)構(gòu)網(wǎng)絡(luò)進(jìn)行文本生成高質(zhì)量的圖像,并不斷降低圖像的損失程度,最后達(dá)到提高圖像清晰度的效果。

        基于樣式的生成對(duì)抗網(wǎng)絡(luò)(StyleGAN)。StyleGAN[36]由兩個(gè)網(wǎng)絡(luò)結(jié)構(gòu)組成:映射網(wǎng)絡(luò)和綜合網(wǎng)絡(luò)。映射網(wǎng)絡(luò)通過控制生成一個(gè)中間向量來減少特征之間的相關(guān)性,相較于僅使用輸入向量控制特征的方法,能夠極大程度地緩解“特征糾纏”的問題[36]。綜合網(wǎng)絡(luò)通過自適應(yīng)實(shí)例歸一化(AdaⅠN)來精確地控制樣式信息,以此保留圖片的關(guān)鍵信息,實(shí)現(xiàn)風(fēng)格控制的目的。

        StyleGAN[36]在PGGAN[3]的基礎(chǔ)上,加入噪聲映射網(wǎng)絡(luò)[4],通過類似于AdaⅠN的方式來添加噪聲,然而使用這種方式加入噪聲會(huì)導(dǎo)致訓(xùn)練不穩(wěn)定,造成語義不協(xié)調(diào)、生成的圖像有時(shí)包含偽影、斑點(diǎn)以及局部區(qū)域扭曲等問題。為解決此類問題,提出權(quán)重解調(diào)(weight demodulation)添加噪聲,即將i、j、k三個(gè)維度進(jìn)行歸一化處理,使得改變部分細(xì)節(jié)并不會(huì)改變主體,以此保證了位移不變性[41]。同時(shí)訓(xùn)練出的模型能夠?qū)乖肼暰W(wǎng)絡(luò),當(dāng)發(fā)生“特征糾纏”時(shí),映射網(wǎng)絡(luò)會(huì)擬合出真實(shí)數(shù)據(jù)分布的形狀,使得生成的圖像與真實(shí)圖像的偏離不會(huì)過大,很好地解決了PGGAN[3]訓(xùn)練中產(chǎn)生的“特征糾纏”問題。由實(shí)驗(yàn)結(jié)果可知,StyleGAN[36]在細(xì)節(jié)部分微調(diào)時(shí)不會(huì)改變主體,使得訓(xùn)練的穩(wěn)定性更高。

        3 基于功能的文本圖像生成模型分類

        上一章提及的各種類別的GAN將在本章進(jìn)行文本圖像生成方面的具體應(yīng)用。收集了近幾年來典型的幾種文本圖像生成的T2Ⅰ模型[42],并將有關(guān)的GAN列表整理,包含適用場景以及相關(guān)的性能指標(biāo)。為了評(píng)估文本圖像合成方法的實(shí)用價(jià)值,對(duì)不同方法的復(fù)雜度進(jìn)行了分析對(duì)比。如圖8所示,從GAN-ⅠNT-CLS、TAC-GAN到最近的CⅠ-GAN、StyleT2Ⅰ的模型架構(gòu)圖來看,圖像生成模型的復(fù)雜度在不斷提高,計(jì)算資源的需求也在變大。與此同時(shí),最終生成圖像的效果也越佳,語義一致性、多樣性以及視覺真實(shí)性也在不斷提高。

        3.1 基于語義增強(qiáng)的文本圖像生成

        3.1.1 基于DCGAN的T2I模型

        GAN-ⅠNT-CLS[43]是文本生成圖像最早的工作(如圖9),它結(jié)合了具有圖像-文本匹配的判別器GAN-CLS和具有文本流形插值的GAN-ⅠNT來尋找文本與圖像之間的語義匹配。GAN-ⅠNT-CLS[43]采用DCGAN[6]作為主干網(wǎng)絡(luò)(backbone),生成圖像的分辨率為64×64。

        圖9 GAN-ⅠNT-CLS的網(wǎng)絡(luò)結(jié)構(gòu)Fig.9 Network structure of GAN-ⅠNT-CLS

        2022年,Tao等[44]提出了深度融合GAN(DF-GAN),在DCGAN[6]的基礎(chǔ)之上引入了殘差模塊[45]。不同于GAN-ⅠNT-CLS[43]的是:(1)DF-GAN[44]在每一個(gè)批歸一化層(batch norm)中都使用文本作為條件來對(duì)原特征圖的值進(jìn)行縮放、平移,堆疊的仿射變換操作使得文本語義可以充分融合到每一個(gè)生成階段,這增強(qiáng)了文本語義的指導(dǎo)(如圖10)。(2)DF-GAN[44]的判別器引入了一個(gè)零中心梯度懲罰正則項(xiàng),通過添加這種正則項(xiàng)約束判別器的收斂。(3)DF-GAN[44]可以生成256×256分辨率的圖像,并且DF-GAN[44]模型在CUB[46]和COCO[47]兩個(gè)數(shù)據(jù)集上都達(dá)到了SOTA(state-of-the-art)的結(jié)果。

        圖10 DF-GAN的網(wǎng)絡(luò)結(jié)構(gòu)Fig.10 Network structure of DF-GAN

        Zhang 等[48]提出的DiverGAN 認(rèn)為將噪聲向量經(jīng)過簡單的學(xué)習(xí)后直接reshape到二維的語義空間進(jìn)行后續(xù)的卷積操作會(huì)損害圖像的多樣性,所以它將經(jīng)過一次學(xué)習(xí)后的4×4 的特征圖拉平,通過全連接層進(jìn)行再學(xué)習(xí),這樣提高了圖像多樣性。

        Liao等[49]基于DF-GAN[44]提出了語義空間感知GAN(SSA-GAN),SSA-GAN通過無監(jiān)督的方式為每一個(gè)生成階段制作一個(gè)語義掩碼(如圖11),這個(gè)語義掩碼中的對(duì)象區(qū)域被高亮,非對(duì)象區(qū)域被抑制[49]。DF-GAN[44]中的經(jīng)過批歸一化層(batch norm)的輸出特征都被乘上相同分辨率大小的語義掩碼,這個(gè)操作將文本語義的控制精確到了對(duì)象級(jí)別,因此生成器可以生成語義準(zhǔn)確的對(duì)象。

        圖11 SSA-GAN的網(wǎng)絡(luò)結(jié)構(gòu)Fig.11 Network structure of SSA-GAN

        Wu等[50]在Adam-GAN中提出了一種補(bǔ)充屬性信息的有效文本表示方法。首先,構(gòu)造了一個(gè)屬性內(nèi)存來聯(lián)合句子共同控制文本到圖像的生成。其次,探索了兩種內(nèi)存更新機(jī)制,樣本感知機(jī)制和樣本聯(lián)合機(jī)制,以動(dòng)態(tài)優(yōu)化廣義屬性內(nèi)存。此外,還設(shè)計(jì)了一種屬性-句子-聯(lián)合條件生成器學(xué)習(xí)方案,使特征嵌入排列在多個(gè)表示之間,從而促進(jìn)了跨模態(tài)網(wǎng)絡(luò)的訓(xùn)練。

        Zhang 等[18]提出的XMC-GAN 通過學(xué)習(xí)使用模態(tài)間(圖像-文本)和模態(tài)內(nèi)(圖像-圖像)的對(duì)比損失,幫助判別器學(xué)習(xí)更穩(wěn)健和更具辨別力的特征,因此XMCGAN[18]即使在單階段訓(xùn)練中也不易出現(xiàn)模式崩潰。在MS-COCO上,與其他三個(gè)最新模型相比,XMC-GAN[18]的FⅠD從24.70到9.33,圖像質(zhì)量提高了77.3%,圖像-文本對(duì)齊提高了74.1%。因而XMC-GAN[18]生成放入圖像保真度高,能夠描繪出更清晰的物體和更連貫的場景。

        Huang 等[51]設(shè)計(jì)了一個(gè)動(dòng)態(tài)語義進(jìn)化(DSE)模塊,首先聚合歷史圖像特征來總結(jié)生成反饋,然后動(dòng)態(tài)選擇在每個(gè)階段需要重新組合的單詞,并通過動(dòng)態(tài)增強(qiáng)或抑制不同粒度子空間的語義來重新組合它們。他們還提出了一種新的單一對(duì)抗性多階段架構(gòu)(SAMA)[51],通過消除復(fù)雜的多個(gè)對(duì)抗性訓(xùn)練需求,擴(kuò)展了之前的結(jié)構(gòu),從而允許更多的文本-圖像交互階段,最終促進(jìn)了DSE模塊[51]。

        上述模型均以DCGAN[6]為網(wǎng)絡(luò)骨架,通過加深網(wǎng)絡(luò)中的卷積和上采樣層數(shù)來提高生成圖像的分辨率。過深的DCGAN[6]骨架容易造成模式崩潰的問題,使得模型的訓(xùn)練很不穩(wěn)定。另外,無論是GAN-ⅠNT-CLS[43]還是DF-GAN[44]、SSA-GAN[49]、Adam-GAN[50]等都只利用了句子信息,沒有使用更細(xì)粒度的單詞信息,這天然地造成生成圖像的細(xì)節(jié)部分不夠完美。所以這些模型只適用于生成場景單一、內(nèi)容簡單的圖像。若能將單詞信息和短語信息引入上述模型,并有效地控制圖像的細(xì)節(jié)部分,將極大地提高這些模型的生成能力。

        3.1.2 基于CycleGAN的T2I模型

        2019 年,Qiao 等[52]基于CycleGAN[12]提出Mirror-GAN 以解決語義不相關(guān)的問題(如圖12),使用一種全新的全局到局部的注意力模塊,無縫嵌入到生成器,使得不同域的語義一致性得到保留。為平衡文本生成圖像和圖像生成文本這兩個(gè)過程,基于交叉熵使用了文本語義重構(gòu)損失。

        圖12 MirrorGAN的網(wǎng)絡(luò)結(jié)構(gòu)Fig.12 Network structure of MirrorGAN

        圖像生成文本屬于深度學(xué)習(xí)領(lǐng)域中另一個(gè)難題,目前圖像生成文本的研究并不成熟,特別是針對(duì)細(xì)粒度圖像問題,現(xiàn)有的Ⅰ2T模型并不能較好地刻畫圖像中的細(xì)節(jié),這造成了MirrorGAN[52]更適合生成對(duì)象明確,細(xì)節(jié)要求不高的圖像。隨著Ⅰ2T 的發(fā)展,MirrorGAN[52]會(huì)越來越有潛力。

        T2Ⅰ-GAN模型的機(jī)制與特點(diǎn),如表2所示。

        3.1.3 基于跨模態(tài)語義增強(qiáng)的T2I模型

        2021年,Tan等[19]在CSM-GAN中提出了兩個(gè)模塊:文本編碼器模塊和文本-視覺語義匹配模塊。在文本編碼器模塊中,CSM-GAN[19]引入了文本卷積神經(jīng)網(wǎng)絡(luò)來捕獲和突出文本描述中的局部視覺特征。文本-視覺語義匹配模塊的目的是在全局語義嵌入空間中,使合成圖像與其對(duì)應(yīng)文本描述的距離比不匹配的文本描述的距離更近,這提高了語義的一致性。

        2022 年,F(xiàn)ang 等[68]提出了一種多層次圖像相似度(multi-level images similarity,MLⅠS)損失,以改進(jìn)真實(shí)圖像與物體特征之間的相似度度量。此外還用YOLOv3提取了真假圖像中的對(duì)象,在鑒別器上引入了一個(gè)基于對(duì)象相似性的正則損失項(xiàng),進(jìn)一步增加了生成圖像的多樣性,緩解了模式崩潰。

        AttnGAN[54]使用LSTM 與Ⅰnceptionv3 訓(xùn)練的跨模態(tài)對(duì)齊模型被大多數(shù)研究者使用[69],而CR-GAN使用更先進(jìn)的CLⅠP-ViT與ResNet101訓(xùn)練對(duì)齊模型,這使得到的文本與圖像特征更加準(zhǔn)確,一致性更高,這對(duì)絕大多數(shù)生成模型都適用。另外,CR-GAN的鑒別器使用單詞特征的均值作為條件,實(shí)驗(yàn)證明這對(duì)提高文本與圖像的語義一致性是有效的。

        Fang 等[70]在AttnGAN[54]的基礎(chǔ)上使用了更先進(jìn)的Transformer作為文本特征編碼器,并與圖卷積網(wǎng)絡(luò)搭配使用,旨在建立文本短語與圖像局部特征之間的聯(lián)系。并將與圖像局部特征對(duì)齊后的文本短語引入生成器中,進(jìn)一步提高文本與圖像之間的聯(lián)系。Fang 等[70]還提出了一種短語-對(duì)象鑒別器,來提高所生成的場景圖像的質(zhì)量和短語-對(duì)象的一致性。

        3.2 基于漸進(jìn)式網(wǎng)絡(luò)的文本圖像生成

        3.2.1 結(jié)構(gòu)漸進(jìn)式網(wǎng)絡(luò)

        基于PGGAN[3]漸進(jìn)增長的思想,StackGAN[53]被提出。早期的GAN-ⅠNT-CLS[43]只能生成64×64的圖像,想要直接基于DCGAN[6]生成256×256的圖像是困難的,需要很深的網(wǎng)絡(luò)結(jié)構(gòu),這必然存在因參數(shù)量過大而訓(xùn)練不穩(wěn)定的問題,最終生成的圖像也難以被認(rèn)為是真實(shí)的。StackGAN[53]采用PGGAN[3]的遞進(jìn)生成模式,將文本生成圖像的分辨率從64×64提高到了256×256(如圖13)。具體來講,StackGAN[53]將文本生成圖像分成了兩個(gè)階段,第一階段生成64×64 的低分辨率圖像,這個(gè)階段的實(shí)現(xiàn)和GAN-ⅠNT-CLS[43]相似,之后復(fù)用第一階段的中間特征圖來重復(fù)上采樣生成過程,最終得到256×256的圖像。StackGAN[53]采用和GAN-ⅠNT-CLS[43]相同的策略,在生成器中通過級(jí)聯(lián)文本特征來引導(dǎo)語義圖像的生成,文本與圖像通過卷積進(jìn)行特征融合,實(shí)現(xiàn)相互關(guān)聯(lián)的效果[71]。由于文本數(shù)據(jù)維度較高,且數(shù)據(jù)量小,存在潛在特征空間不連續(xù)的問題,因此StackGAN[53]提出了一種條件增強(qiáng)的策略,不是直接將文本特征作為條件變量輸入,而是產(chǎn)生一個(gè)額外的服從高斯分布的隱變量輸出生成器。在訓(xùn)練過程中StackGAN[53]通過KL 散度來優(yōu)化這兩個(gè)線性層,最終,StackGAN[53]在CUB[46]和Oxford-102[72]兩個(gè)數(shù)據(jù)集上的效果證明了條件增強(qiáng)的有效性。后續(xù)的很多研究工作也沿用了StackGAN[53]的條件增強(qiáng)策略。

        StackGAN[53]雖然可以生成256×256分辨率的圖像,但是網(wǎng)絡(luò)結(jié)構(gòu)簡單,模型層數(shù)較少,最終生成的圖像很模糊。另外,第一階段的輸出作為第二階段的輸入,這使得第二階段非常依賴第一階段的效果。

        3.2.2 功能漸進(jìn)式網(wǎng)絡(luò)

        Zhang 等[73]在AttnGAN 的基礎(chǔ)上修改了第一和第二階段的生成任務(wù),將生成完整的低分辨率圖像改為生成低分辨率的前景圖像,這使得在生成過程的前期,模型更加關(guān)注前景對(duì)象,而對(duì)背景不做考慮,有利于生成栩栩如生的前景對(duì)象。

        2022 年,Chen 等[67]提出的BO-GAN 是一種兩階段的文本生成圖像方法,其中第一階段重新設(shè)計(jì)文本到布局的過程,將背景布局與現(xiàn)有的對(duì)象布局相結(jié)合,第二階段將對(duì)象知識(shí)從現(xiàn)有的類到圖像模型轉(zhuǎn)移到布局到圖像的過程,以提高對(duì)象的保真度。具體地說,引入了一種基于轉(zhuǎn)換器的架構(gòu)作為布局生成器來學(xué)習(xí)從文本到對(duì)象和背景布局的映射,并提出了一種由文本參與的布局感知特征歸一化(TL-Norm)來自適應(yīng)地將對(duì)象知識(shí)轉(zhuǎn)移到圖像生成中。

        Hinz等[74]提出的OP-GAN專門關(guān)注單個(gè)對(duì)象,同時(shí)生成符合整體圖像描述的背景。該方法依賴于一個(gè)類似于的對(duì)象路徑,它迭代地關(guān)注在給定當(dāng)前圖像描述時(shí)需要生成的所有對(duì)象。并行地,一個(gè)全局路徑生成背景特征,這些背景特征隨后與對(duì)象特征合并。

        為了提高復(fù)雜場景的合成質(zhì)量,Wu 等[75]提出了一種一步對(duì)象引導(dǎo)的聯(lián)合Transformer解碼器來同時(shí)解碼圖像標(biāo)記和解碼布局標(biāo)記,可以實(shí)現(xiàn)改變以對(duì)象為中心的布局來控制場景。他們還引入了一個(gè)基于仿射組合的細(xì)節(jié)增強(qiáng)模塊,以豐富更細(xì)粒度的語言相關(guān)視覺細(xì)節(jié)。

        將文本生成圖像,轉(zhuǎn)變成文本生成布局圖和布局圖生成完整圖像兩個(gè)遞進(jìn)的子問題,這緩解了生成圖像中對(duì)象丟失和對(duì)象模糊的問題,但同時(shí)也造成了模型復(fù)雜度的提高,訓(xùn)練和使用困難。

        3.3 基于多樣性增強(qiáng)的文本圖像生成

        D2GAN[5]在無監(jiān)督的單模態(tài)任務(wù)中證明了多判別器將協(xié)同輔助生成器生成高質(zhì)量多樣性的圖像。這也符合將復(fù)雜問題拆分的分治思想。在文本生成圖像的任務(wù)中,將圖像真實(shí)性與圖像語義一致性拆分是當(dāng)下最主流的做法[76]。具體來講,使用無條件判別器和有條件判別器共同指導(dǎo)生成器生成圖像,無條件判別器只關(guān)注生成圖像的真實(shí)性,有條件判別器只關(guān)注圖像文本的語義一致性。SAGAN[11]利用自注意力機(jī)制解決了長距離依賴問題,從而提高了生成圖像的多樣性。注意力機(jī)制可以有效地強(qiáng)化必要信息,是提高圖像多樣性的重要手段。此外,通過引入額外的信息補(bǔ)充細(xì)節(jié),優(yōu)化訓(xùn)練也越來越受歡迎。

        3.3.1 引入注意力機(jī)制提高圖像的多樣性

        2018 年,Xu 等[54]提出的AttnGAN 使用了三個(gè)判別器[54],分別對(duì)不同分辨率的圖像進(jìn)行判別(如圖14)。分辨率越低,圖像的細(xì)節(jié)信息越少,判別器將重點(diǎn)關(guān)注生成對(duì)象的結(jié)構(gòu)信息,低分辨率圖像只要擁有一個(gè)相似性結(jié)構(gòu),就大概率被視為真實(shí)的圖像;反之,分辨率越高,圖像的細(xì)節(jié)信息越多,高分辨率的判別器將更加關(guān)注細(xì)節(jié)信息,細(xì)節(jié)內(nèi)容豐富的圖像有較高概率被視為真實(shí)圖像。AttnGAN[54]中,每一個(gè)判別器都被拆分成三部分:特征提取網(wǎng)絡(luò),無條件判別網(wǎng)絡(luò)和有條件判別網(wǎng)絡(luò)。特征提取網(wǎng)絡(luò)用于提取圖像特征,無條件判別網(wǎng)絡(luò)根據(jù)所提取的圖像特征判斷輸入圖像的真實(shí)性,有條件判別網(wǎng)絡(luò)根據(jù)提取的圖像特征與所給的文本特征判斷文本與圖像的一致性。多尺度、多任務(wù)的判別器在提高生成圖像多樣性上的優(yōu)勢使得它成為文本生成圖像任務(wù)中判別器模型的首選。

        圖14 AttnGAN的網(wǎng)絡(luò)結(jié)構(gòu)Fig.14 Network structure of AttnGAN

        AttnGAN[54]在生成器中設(shè)計(jì)了一個(gè)單詞注意力模塊,該模塊可以將單詞信息引入生成過程,并通過迭代學(xué)習(xí)建立了一個(gè)單詞到圖像局部信息的映射,實(shí)現(xiàn)通過單詞控制生成圖像的局部特征。單詞注意力模塊首先通過計(jì)算單詞特征與特征圖的局部特征之間的關(guān)系矩陣,然后使用關(guān)系矩陣與單詞特征為每一個(gè)像素級(jí)別的局部特征構(gòu)造一個(gè)跨模態(tài)的特征表示,最終通過堆疊的卷積操作來融合兩個(gè)模態(tài)的特征,并建立單詞與圖像局部特征的聯(lián)系。

        2019 年,Zhu 等[55]提出的DM-GAN 在AttnGAN[54]的基礎(chǔ)上設(shè)計(jì)了一個(gè)寫入門,根據(jù)前一階段的圖像特征重新定義單詞內(nèi)容,突出重要單詞的作用。此外,DM-GAN[55]還設(shè)計(jì)了一個(gè)響應(yīng)門自適應(yīng)地融合兩個(gè)模態(tài)的特征。Lee 等[57]提出的ControlGAN 在AttnGAN[54]的基礎(chǔ)上添加了單詞通道注意力,ControlGAN[57]發(fā)現(xiàn)像素級(jí)別的單詞注意力更關(guān)注形容詞,而通道注意力更加關(guān)注名詞,ControlGAN[57]使用兩個(gè)單詞注意力的堆疊,最終提高了生成圖像的質(zhì)量。Tan 等[58]提出的SEGAN在AttnGAN[54]的基礎(chǔ)上設(shè)計(jì)了一個(gè)注意力競爭模塊,對(duì)重要單詞進(jìn)行激勵(lì),對(duì)不重要單詞進(jìn)行抑制,著重強(qiáng)調(diào)重要單詞的指導(dǎo)作用。

        2022 年,Tan 等[77]提出的SSTⅠS 在AttnGAN[54]的基礎(chǔ)上納入自監(jiān)督學(xué)習(xí),以增加基于文本描述的生成圖像的內(nèi)容的變化。具體而言,SSTⅠS[77]的鑒別器可以識(shí)別旋轉(zhuǎn)的圖像,SSTⅠS中的圖像的變化反過來提高了鑒別器中的學(xué)習(xí)表示,從而提高了鑒別器的分類能力。Quan 等[78]在AttnGAN[54]的基礎(chǔ)上提出了ARRPNGAN,它利用注意力正則化方法將生成器的注意力集中在與圖像特征對(duì)應(yīng)的文本向量的關(guān)鍵部分?;谧⒁饬Φ纳善骺梢陨筛咔逦鹊膱D像。另外,它引入局域提取網(wǎng)絡(luò)(region proposal network,RPN)和編碼器機(jī)制[78]來準(zhǔn)確地區(qū)分特征對(duì)象和復(fù)雜的背景?;谠摲椒ǖ蔫b別器可以通過減少背景的干擾,更精確地區(qū)分生成的圖像和真實(shí)圖像。在當(dāng)前的文本到圖像模型中通常使用批處理歸一化(BN)來加速和穩(wěn)定訓(xùn)練過程[79]。然而,BN 忽略了個(gè)體之間的特征差異和模式之間的語義關(guān)系。為了解決這個(gè)問題,Huang 等[79]提出了一種新的模塊自適應(yīng)語義實(shí)例歸一化(adaptive semantic instance normalization,ASⅠN)。ASⅠN考慮生成圖像的個(gè)體性[79],將文本語義信息引入圖像歸一化過程中,在生成圖像與給定文本之間建立一致且語義上密切的相關(guān)性。

        2023 年,Ma 等[80]提出的GAN-SC 在文本到圖像的生成模塊中引入了混合注意力機(jī)制,并利用單詞級(jí)別的鑒別器引導(dǎo)生成器捕獲圖像的細(xì)粒度信息,從而生成高質(zhì)量的圖像。在跨模態(tài)相似損失部分,文獻(xiàn)[80]通過最小化一致性對(duì)抗和分類損失來減少文本與圖像之間的語義差異。

        2022年,Shi等[81]開發(fā)了兩個(gè)注意力模塊,分別從獨(dú)立模態(tài)和統(tǒng)一模態(tài)中提取關(guān)系。第一個(gè)是獨(dú)立模態(tài)注意模塊(ⅠAM),它旨在找出生成圖像中語義上重要的區(qū)域,并提取文本中的信息上下文。第二個(gè)模塊是統(tǒng)一語義空間注意模塊(UAM),用來求出提取的文本上下文與生成圖像中的基本區(qū)域之間的關(guān)系。特別是,為了使文本和圖像的語義特征在統(tǒng)一的語義空間中更接近,AtHom 利用一個(gè)額外的鑒別器來區(qū)分兩種不同模式的同態(tài)訓(xùn)練模式[81]。

        多鑒別器之間的協(xié)同關(guān)系一直沒有嚴(yán)格的定義,如何搭配有條件和無條件損失間的比重也無法精準(zhǔn)地把控。所以優(yōu)化多鑒別器之間的協(xié)作關(guān)系,將是未來多鑒別器模型的一個(gè)重要研究方向。此外,跨模態(tài)注意力機(jī)制雖然可以有效地關(guān)注一些重要的細(xì)節(jié)信息,但會(huì)引入額外的資源消耗,隨著分辨率的提高,注意力模塊的資源消耗將會(huì)呈指數(shù)級(jí)增長??缒B(tài)注意力機(jī)制也存在多模態(tài)信息之間粒度不匹配、不對(duì)齊等問題,如何更好地對(duì)齊多模態(tài)信息是制約多模態(tài)注意力的關(guān)鍵。

        3.3.2 引入額外信息提高圖像的多樣性

        2020 年,Cheng 等[60]提出的RiFeGAN 將數(shù)據(jù)集的所有文本當(dāng)作一個(gè)文本知識(shí)庫,在圖像生成階段,從知識(shí)庫中選擇最接近候選文本的輔助文本作為補(bǔ)充,然后使用自注意嵌入混合模塊融合文本。直觀地說,更多的文本可以為生成模型提供更多的信息,從而生成的圖像可以包含更多的細(xì)節(jié)。2021年,Cheng等[82]提出的RiFeGAN2利用特定領(lǐng)域的約束模型來限制文本的搜索范圍,然后使用基于注意力的標(biāo)題匹配模型來基于約束先驗(yàn)知識(shí)細(xì)化兼容的候選文本。與RiFeGAN相比[60],RiFeGAN2可以在運(yùn)行得更快的同時(shí)提供更好的結(jié)果[82],將檢索的時(shí)間復(fù)雜度降低了兩個(gè)數(shù)量級(jí)。Yang 等[65]提出的MA-GAN使用多個(gè)句子一起生成一張圖像。該方法不僅通過探索描述同一圖像的不同句子之間的語義相關(guān)性,提高了生成質(zhì)量,而且保證了相關(guān)句子的生成相似性。Ruan 等[62]提出的DAE-GAN 引入額外的短語信息,從多個(gè)粒度對(duì)句子級(jí)、單詞級(jí)和短語級(jí)的文本信息進(jìn)行綜合編碼,然后在兩階段生成的初始階段生成帶有句子級(jí)嵌入的低分辨率圖像。在優(yōu)化階段,將短語級(jí)特征作為中心視覺、單詞級(jí)特征作為周邊視覺,最后設(shè)計(jì)了相應(yīng)的匹配損失函數(shù)來確保文本-圖像語義的一致性。Peng等[64]提出的KD-GAN構(gòu)建了一個(gè)圖像知識(shí)庫,在生成過程中通過文本檢索相似的圖像,并將相似的圖像作為參考知識(shí)引入生成器的生成過程。引入?yún)⒖贾R(shí)不僅提高了生成圖像的質(zhì)量,而且提高了生成圖像與輸入文本的語義一致性。Feng 等[56]提出的DM-GAN-MD在鑒別器上引入一個(gè)模式解纏的分支,使鑒別器可以分離樣式和內(nèi)容。提取的內(nèi)容部分的公共表示可以使鑒別器更有效地捕獲文本-圖像的相關(guān)性,而提取的樣式部分的模式特定表示可以直接轉(zhuǎn)移到其他圖像上。

        2022年,Li等[83]將真實(shí)圖像的數(shù)據(jù)集作為圖像知識(shí)庫,在生成過程中通過文本或者單詞在數(shù)據(jù)庫中檢索相似的圖像,檢索到的相似圖像在生成模型的每個(gè)階段被調(diào)制,并融合進(jìn)生成圖像中,這種處理可以極大地提高生成圖像的質(zhì)量和多樣性。顯而易見這種處理使得單純的文本到圖像生成變成了<文本,圖像>到圖像的生成,不提倡這種處理方式。

        引入額外的信息是目前最有效的提高生成圖像質(zhì)量和多樣性的方法。額外信息可以是細(xì)粒度的單詞,短語,也可以是細(xì)粒度的圖像切片,還可以是功能性的網(wǎng)絡(luò)分支。引入額外的信息必定造成模型復(fù)雜化,訓(xùn)練困難化,對(duì)于硬件的要求非常高,很多工作只能停留在理論階段,難以被廣泛應(yīng)用。但隨著計(jì)算機(jī)硬件的發(fā)展,引入額外的信息來提高生成圖像的質(zhì)量也是不錯(cuò)的選擇。

        3.4 基于清晰度增強(qiáng)的文本圖像生成

        StyleGAN[36]在通過一個(gè)映射網(wǎng)絡(luò)將隨機(jī)噪聲進(jìn)行解糾纏,解糾纏的編碼被稱作樣式編碼,這些樣式編碼被應(yīng)用在不同的上采樣模塊中,并被證明可以控制不同的圖像細(xì)節(jié)。傳統(tǒng)的前向生成策略是用文本作為條件控制圖像的生成,但大部分的生成模型只能產(chǎn)生256×256分辨率的圖像,生成更高分辨率的清晰圖像將會(huì)帶來更大計(jì)算資源的消耗,這制約了文本圖像生成的發(fā)展。所以為了避免上述問題,將文本投影到StyleGAN[36]的樣式空間,進(jìn)而利用StyleGAN[36]生成圖像成為了文本生成圖像的一種新方法。

        文本指導(dǎo)的反演GAN:Xia等[61]提出的TediGAN將真實(shí)圖像與匹配文本映射到預(yù)訓(xùn)練的StyleGAN[36]的樣式空間,并拉近它們的距離來實(shí)現(xiàn)文本與圖像的語義一致性(如圖15),然后利用StyleGAN[36]生成語義一致且多樣性高的圖像。與基于RNN、CNN[29]的跨模態(tài)對(duì)齊模型相比,這種將文本與真實(shí)圖像投影到一個(gè)預(yù)訓(xùn)練的樣式空間的方法更簡潔,且容易訓(xùn)練。顯而易見,預(yù)訓(xùn)練的StyleGAN[36]的生成能力決定了反演模型的上限;另外,在小數(shù)據(jù)集上的預(yù)訓(xùn)練模型會(huì)造成反演模型泛化能力不足的問題。這些問題受限于數(shù)據(jù)集規(guī)模與機(jī)器算力的發(fā)展,隨著大規(guī)模數(shù)據(jù)集的產(chǎn)生,泛化問題將會(huì)逐漸緩解。

        圖15 TediGAN的網(wǎng)絡(luò)結(jié)構(gòu)Fig.15 Network structure of TediGAN

        2021年,Wang等[63]提出的CⅠ-GAN通過學(xué)習(xí)文本表示和StyleGAN[36]潛在代碼之間的相似模型,進(jìn)一步揭示了訓(xùn)練后的GAN模型的潛在空間的語義。通過文本來優(yōu)化反向潛碼,進(jìn)而可以生成具有所需語義屬性的圖像。

        雖然在文本到圖像的合成方面已經(jīng)取得了極大的進(jìn)展,但以前的方法并沒有推廣到輸入文本中看不見的或代表不足的屬性組成。缺乏組合性,可能會(huì)對(duì)穩(wěn)健性和公平性產(chǎn)生嚴(yán)重的影響。例如,無法合成代表性不足的人口統(tǒng)計(jì)學(xué)群體的人臉圖像。StyleT2Ⅰ提出了一種CLⅠP引導(dǎo)的對(duì)比損失來更好地區(qū)分不同句子之間的不同組成[84]。為了進(jìn)一步提高組合性,StyleT2Ⅰ設(shè)計(jì)了一種新的語義匹配損失和空間約束來識(shí)別屬性的潛在方向[84],用于預(yù)期的空間區(qū)域操作,從而更好地分離屬性的潛在表示?;谧R(shí)別出的潛在屬性方向,StyleT2Ⅰ提出了組合屬性調(diào)整來調(diào)整潛在代碼,從而更好地實(shí)現(xiàn)圖像合成的組合性[84]。

        反演模型通常需要使用StyleGAN[36]在原數(shù)據(jù)集上預(yù)訓(xùn)練,然后才能被利用。StyleGAN 的預(yù)訓(xùn)練效果決定了反演模型的上限[36],這制約了反演模型的發(fā)展。此外,將文本信息投影到StyleGAN的隱空間[36],必然存在跨模態(tài)對(duì)齊問題,如何做到細(xì)粒度的對(duì)齊,也是未來一個(gè)重要的研究方向。

        4 數(shù)據(jù)集及相關(guān)指標(biāo)

        CUB[46]數(shù)據(jù)集包含200種鳥類[85],11 788張圖片。由于該數(shù)據(jù)集中80%的鳥類物體圖像大小比小于0.5[72],作為預(yù)處理,裁剪所有圖像,以確保鳥類的邊界框具有大于0.75的物體圖像大小比。Oxford-102[72]數(shù)據(jù)集包含來自102個(gè)不同類別的8 189張花的圖片。為了展示該方法的泛化能力,還使用了COCO[47]數(shù)據(jù)集進(jìn)行評(píng)估(如表3)。與CUB[46]和Oxford-102[72]不同,COCO[47]是一個(gè)更具挑戰(zhàn)性的數(shù)據(jù)集。COCO 數(shù)據(jù)集[47]包含多個(gè)物體和各種背景的圖像。COCO[47]中的每個(gè)圖像都有5個(gè)描述,而CUB[46]和Oxford-102 數(shù)據(jù)集[72]中的每個(gè)圖像都由[86]提供10個(gè)描述。在文獻(xiàn)[43]上進(jìn)行實(shí)驗(yàn)設(shè)置后,直接使用COCO[47]提供的訓(xùn)練集和驗(yàn)證集,同時(shí)將CUB[46]和Oxford-102[72]分割為類別不相交的訓(xùn)練集和測試集。使用了多模態(tài)的CelebA-HQ[3]數(shù)據(jù)集,這是一個(gè)大規(guī)模的人臉圖像數(shù)據(jù)集[87],擁有30 000張高分辨率的人臉圖像,每張圖像都有高質(zhì)量的分割掩碼、草圖和描述性文本。并將TediGAN[61]與圖像生成的最先進(jìn)方法AttnGAN[54]、ControlGAN[57]、DM-GAN[55]和DF-GAN[44]進(jìn)行比較(如表4)。

        表3 文本圖像生成模型的評(píng)價(jià)指標(biāo)(COCO和CUB)Table 3 Evaluation index of text image generation models(COCO and CUB)

        表4 文本圖像生成模型的評(píng)價(jià)指標(biāo)(CelebA-HQ)Table 4 Evaluation index of text image generation models(CelebA-HQ)

        FⅠD 距離[88]用以衡量圖像質(zhì)量和多樣性。通過將Ⅰnception-v3 作為特征提取器,計(jì)算真實(shí)圖像和生成圖像在特征空間的Frechet距離對(duì)圖像質(zhì)量進(jìn)行評(píng)估。結(jié)果顯示FⅠD的值比ⅠS的值更具有魯棒性,能夠用于復(fù)雜的數(shù)據(jù)集。FⅠD 計(jì)算合成圖像的分布和真實(shí)圖像之間的Frechet 距離。較低的FⅠD 意味著生成的圖像分布與真實(shí)圖像分布之間的距離更近。FⅠD可以表述為:

        式中,r、g為真實(shí)圖像和合成圖像的表示向量:μr、μg;∑r和∑g分別表示真實(shí)圖像分布和合成圖像分布的均值和協(xié)方差。

        R-precision[54]用以評(píng)估生成圖像與對(duì)應(yīng)文本描述之間的視覺-語義相似度,即準(zhǔn)確率。通過對(duì)提取的圖像和文本特征之間的檢索結(jié)果進(jìn)行排序,來衡量文本描述和生成的圖像之間的視覺語義相似性。除生成圖像的文本描述外,還從數(shù)據(jù)集中隨機(jī)抽取其他文本。然后計(jì)算圖像特征和每個(gè)文本描述的文本嵌入之間的余弦相似性,并按相似性遞減的順序?qū)ξ谋久枋鲞M(jìn)行排序。如果生成圖像的真實(shí)文本描述排在前R個(gè)內(nèi),則相關(guān)。R精度越大,圖像與真實(shí)文本描述越相關(guān)。繼Xu 等[54]之后,使用R-precision來評(píng)估生成的圖像是否很好地適應(yīng)了給定的文本描述。R-precision 是通過檢索給定圖像查詢的相關(guān)文本來衡量的。計(jì)算全局圖像向量和100個(gè)候選句子向量之間的余弦距離。候選的文本描述包括R個(gè)真實(shí)值和100-R個(gè)隨機(jī)選擇的錯(cuò)誤匹配描述。對(duì)于每一次查詢,如果排名前R個(gè)檢索描述中的r個(gè)結(jié)果是相關(guān)的,那么R-precision是r/R。實(shí)驗(yàn)中,用R=1來計(jì)算R-precision。將生成的圖像分成10個(gè)部分進(jìn)行檢索,然后取結(jié)果分?jǐn)?shù)的均值和標(biāo)準(zhǔn)差。R-precision計(jì)算公式如下:

        其中,TP是正例預(yù)測正確的個(gè)數(shù),F(xiàn)P是負(fù)例預(yù)測錯(cuò)誤的個(gè)數(shù)。

        ⅠS 分?jǐn)?shù)[89]用來衡量圖像質(zhì)量和多樣性。首先借助外部圖像分類器(一般使用在ⅠmageNet 上訓(xùn)練好的Ⅰnception-v3網(wǎng)絡(luò))對(duì)質(zhì)量進(jìn)行評(píng)估,接著利用不同類別的概率分布的信息熵對(duì)圖像多樣性進(jìn)行評(píng)估,ⅠS分?jǐn)?shù)越高,圖像的質(zhì)量越好,多樣性越佳。ⅠS 計(jì)算條件類分布和邊緣類分布之間的KL-散度。生成的模型為所有類別輸出了高度多樣性的圖像,每個(gè)圖像顯然屬于特定的類別。ⅠS可以表述為:

        其中,x是合成圖像,y是預(yù)訓(xùn)練inception-v3網(wǎng)絡(luò)預(yù)測的類標(biāo)簽。

        LPⅠPS 即學(xué)習(xí)感知圖像塊相似度,也稱為“感知損失”,用以度量兩張圖像的差別,該度量標(biāo)準(zhǔn)學(xué)習(xí)從生成圖像到真實(shí)圖像的反向映射,強(qiáng)制生成器學(xué)習(xí)從假圖像中重構(gòu)真實(shí)圖像的反向映射,并優(yōu)先處理它們之間的感知相似度。LPⅠPS 比傳統(tǒng)方法(比如PSNR、SSⅠM)更符合人類的感知情況。LPⅠPS 的值越低表示兩張圖像越相似,反之差異越大。計(jì)算公式如下:

        其中,d(x,x0)為x與x0之間的距離,給定不同的基礎(chǔ)網(wǎng)絡(luò),計(jì)算深度嵌入,規(guī)格化通道維度中的激活函數(shù),用向量w縮放每個(gè)通道,取L2 距離,然后對(duì)空間維度和所有層次求平均。

        Acc即預(yù)測精準(zhǔn)度,是預(yù)測正確的樣本占所有樣本的比例,其中預(yù)測正確的可能有正樣本也可能有負(fù)樣本。通過文本和相應(yīng)生成的圖像之間的相似性來評(píng)估準(zhǔn)確性。計(jì)算公式如下所示:

        其中,TP是正例預(yù)測正確的個(gè)數(shù),F(xiàn)P是負(fù)例預(yù)測錯(cuò)誤的個(gè)數(shù),TN是負(fù)例預(yù)測正確的個(gè)數(shù),F(xiàn)N是正例預(yù)測錯(cuò)誤的個(gè)數(shù)。

        Real 即真實(shí)性,通過用戶研究來評(píng)估,通過用戶的直觀感覺判斷哪張照片更符合文本描述。

        5 文本生成圖像模型的應(yīng)用

        文本生成圖像的研究絕大多數(shù)停留在理論階段,真正可以實(shí)地應(yīng)用的模型并不多。主要的原因有以下三點(diǎn):(1)小模型的泛化性能太差,對(duì)復(fù)雜場景圖的生成很難達(dá)到人類的預(yù)期。(2)只有參數(shù)量達(dá)到近千億的超大模型才可以生成質(zhì)量很好的圖像(達(dá)到人類的預(yù)期)。模型的訓(xùn)練會(huì)消耗巨大的財(cái)力,目前國內(nèi)外只有極少數(shù)公司有能力去做。(3)大模型的推理過程耗時(shí)巨大,難以部署到終端。

        雖然文本到圖像生成的應(yīng)用難度巨大,但依然有人探索如何在精簡模型的同時(shí),盡可能地提高模型的性能。2022年,Li等[90]首次將神經(jīng)搜索(neural architecture search,NAS)方法與文本到圖像合成相結(jié)合,實(shí)現(xiàn)了NAS、GAN和Transformer的首次結(jié)合,并改進(jìn)了一種使用輕量級(jí)Transformer 處理特性映射的新方法,它使Transformer 能夠作為NAS 的搜索空間,并在推理的中間過程中垂直集成特性?;谏窠?jīng)搜索的方法對(duì)進(jìn)一步提高現(xiàn)有模型的性能有很大的幫助。

        對(duì)文本生成圖像的應(yīng)用的研究并不僅僅局限在模型性能上,進(jìn)一步探索已有模型的潛能也是一個(gè)重要的方向。2022 年,Zhang 等[91]對(duì)正太分布的噪聲空間進(jìn)行解纏,分離出不同的潛碼簇,這些潛碼簇分別對(duì)應(yīng)圖像中的對(duì)象的大小、方向等,這種模態(tài)解纏的處理工作對(duì)生成模型的應(yīng)用及下游工作很有幫助,在不改變文本描述的情況下可以實(shí)現(xiàn)對(duì)部分細(xì)節(jié)的調(diào)整。

        此外,Zhang 等[92]提出了一種跨語言生成模型。大部分文本生成圖像只用一種語言描述訓(xùn)練生成模型,而CJE-TⅠG[92]則通過在輸入端引入一個(gè)多語言對(duì)齊模塊,將多語言投影到一個(gè)公共空間中,使用對(duì)齊的文本與單詞特征共同發(fā)揮作用來引導(dǎo)生成模型生成圖像。這種多語言對(duì)齊模塊可以添加到絕大多數(shù)現(xiàn)有模型中,擴(kuò)展了現(xiàn)有模型的泛化性能及實(shí)用價(jià)值。

        文本生成圖像的應(yīng)用雖然還未成熟,但現(xiàn)有的基于AttnGAN[54]的多階段模型和基于DF-GAN[44]的單階段模型,以及基于StyleGAN[36]反演的模型已然達(dá)到了生成簡單圖像的目標(biāo),可以用于簡單的圖像制作,但這些模型均難以生成質(zhì)量合格的復(fù)雜場景圖像,且這些模型只能輸入較短的文本描述,大致不超過25 個(gè)英文單詞。因此,文本生成圖像的應(yīng)用還有很長的路要走,期待早日可以開花結(jié)果。

        6 結(jié)論與未來展望

        隨著計(jì)算機(jī)視覺和自然語言處理的高速發(fā)展,本文詳細(xì)地回顧了基于生成對(duì)抗網(wǎng)絡(luò)的文本圖像生成方法。這些生成的圖像通常依賴于生成對(duì)抗網(wǎng)絡(luò)(GAN)[93]、深度卷積譯碼器網(wǎng)絡(luò)和多模態(tài)[94]學(xué)習(xí)方法。本文將基于功能的基礎(chǔ)GAN 分為四大類:語義增強(qiáng)GAN、可增長式GAN、多樣性增強(qiáng)GAN和清晰度增強(qiáng)GAN。語義增強(qiáng)GAN可保證文本到圖像的一致性,可增長式GAN用以穩(wěn)定訓(xùn)練,多樣性增強(qiáng)GAN 用以豐富生成圖像的種類,清晰度增強(qiáng)GAN 用以提升生成圖像的質(zhì)量。首先介紹了各個(gè)類別代表性方法的模型和關(guān)鍵貢獻(xiàn)(DCGAN[6]、StackGAN[53]、AttnGAN[54]、TediGAN[61]等),并將各個(gè)方法進(jìn)行對(duì)比分析;詳細(xì)說明了最常用的評(píng)估方法(ⅠS、FⅠD、R-precision等)。

        盡管目前的方法已經(jīng)在生成圖像的質(zhì)量方面以及圖像與語義一致性方面有大幅提高,但仍然有很多難點(diǎn)亟待研究。首先,未來的工作應(yīng)該集中在迭代和交互操作以及再生上,在生成更符合輸入文本含義的更高分辨率圖像,找到更好的自動(dòng)度量標(biāo)準(zhǔn),標(biāo)準(zhǔn)化用戶研究等方面仍有很大的改進(jìn)空間。其次,利用文本生成視頻有很重要的研究價(jià)值,是未來的研究方向之一,但需要探索更多的語音視頻評(píng)估方法。再次,由于數(shù)據(jù)集和設(shè)備內(nèi)存的不足的局限性,復(fù)雜的模型不適合用于輕量型和便攜式的設(shè)備上。最后,目前大多數(shù)模型以單條描述語句為研究對(duì)象,而復(fù)雜文本中的描述對(duì)象在圖像中的定位,以及圖像與語句之間的交互仍是一項(xiàng)具有挑戰(zhàn)性的任務(wù)。因此,如何融合文本視覺表示和更復(fù)雜的視覺識(shí)別模型以及文本與圖像之間的交互也是未來的重點(diǎn)研究方向之一。希望本文內(nèi)容有助于研究人員了解該領(lǐng)域的前沿技術(shù),并為進(jìn)一步研究提供參考。

        猜你喜歡
        語義模態(tài)特征
        語言與語義
        如何表達(dá)“特征”
        不忠誠的四個(gè)特征
        抓住特征巧觀察
        “上”與“下”語義的不對(duì)稱性及其認(rèn)知闡釋
        國內(nèi)多模態(tài)教學(xué)研究回顧與展望
        基于HHT和Prony算法的電力系統(tǒng)低頻振蕩模態(tài)識(shí)別
        認(rèn)知范疇模糊與語義模糊
        由單個(gè)模態(tài)構(gòu)造對(duì)稱簡支梁的抗彎剛度
        線性代數(shù)的應(yīng)用特征
        河南科技(2014年23期)2014-02-27 14:19:15
        国产免费看网站v片不遮挡| 国产福利视频一区二区| 内射囯产旡码丰满少妇| 亚洲欧洲精品国产二码| 精品国产麻豆一区二区三区| 男女18视频免费网站| 国产性生交xxxxx无码| 久热这里只有精品99国产| 日本一级淫片免费啪啪| 澳门蜜桃av成人av| 中文字幕丰满乱子无码视频| 欧美专区在线| av天堂一区二区三区精品 | 免费精品一区二区三区第35| 久久国产精品视频影院| 自拍偷拍亚洲视频一区二区三区| 精品国产三级a∨在线欧美| 亚洲欧美一区二区三区 | 中文在线最新版天堂av| 日本一区二区视频免费在线看| 男人激烈吮乳吃奶视频免费| 人人爽人人爽人人片av| 精品人体无码一区二区三区 | 国产免费一区二区av| 日本在线一区二区三区视频观看| 国产乱了真实在线观看| 在线视频制服丝袜中文字幕| av在线男人的免费天堂| 人人妻人人澡人人爽精品日本 | 亚洲精品av一区二区| 欧美黑人性暴力猛交喷水黑人巨大| 国产精品久久无码不卡黑寡妇| av在线资源一区二区| 风韵少妇性饥渴推油按摩视频| 亚洲另类精品无码专区| 极品人妻少妇一区二区| 蜜桃视频网站在线观看一区| 变态 另类 欧美 大码 日韩 | jiZZ国产在线女人水多| 日本av亚洲中文字幕| 国产成人一区二区三区影院动漫|