王宇昊,何 彧,王 鑄
1.貴州天衍炬恒科技有限公司,貴陽 550081 2.北京大學 地球與空間科學學院,北京 100871 3.貴州師范大學 地理與環(huán)境科學學院,貴陽 550025
目標視覺信息的傳統(tǒng)描述方法是根據(jù)目標屬性進行表達,目標特征的區(qū)別需要從對象類型編碼到向量表達實現(xiàn)[1-2],2014年具有代表性的方法被提出,包括零樣本識別方法[3]和有條件圖像生成方法[4]。這類方法的特點是具有較強的屬性表達辨別力和泛化力,但需要特定領域的知識信息表達支撐,從而導致屬性獲取過程較為復雜。相比之下,自然語言提供了較為通用、靈活、直觀的方式來描述時空視覺對象,文本生成圖像方法主要采用自然語言與圖像集特征的映射方式,根據(jù)自然語言描述生成對應并具有足夠視覺細節(jié)的圖像,且在語義上與文本的描述保持一致,利用語言屬性智能化實現(xiàn)視覺圖像的通用性表達。
近些年,隨著深度學習理論技術(shù)的蓬勃發(fā)展,計算機視覺和圖像自動化處理技術(shù)的研究已獲得顯著的創(chuàng)新和應用的突破。2014年,由Goodfellow等人[5]首次提出生成式對抗網(wǎng)絡(generative adversarial networks,GAN),作為一種深度學習模型,是近年來復雜分布上無監(jiān)督學習最具前景的方法之一。2017年后,基于生成對抗網(wǎng)絡的深度機器學習方法,已經(jīng)被廣泛地使用在文本描述到圖像生成的技術(shù)中,并形成目標屬性描述的高度區(qū)分和可泛化特點[6]。通過使用文本描述生成一個直觀的可視化圖像,可以引用與當前對象、屬性信息、空間位置和關(guān)聯(lián)關(guān)系等密集語義信息,為支持復雜多樣的場景實現(xiàn)奠定良好基礎,例如文本建模[7-8]、智能人機交互[9]、視覺障礙者協(xié)助、智能問答[10-11]、機器翻譯[12-13]等方面。
在該綜述中,將深入到圖像合成中的定向研究領域,聚焦到機器學習技術(shù)在文本到圖像生成(text-to-image,T2I)技術(shù)中的應用。主要目的是描述基于深度學習技術(shù)的文本到圖像生成的基本原理方法,從文本生成圖像方法的主流技術(shù)開展分析討論,主要包括直接方法、分層體系結(jié)構(gòu)法、注意力機制法、周期一致法、自適應非條件模型法和附加監(jiān)督法。同時,總結(jié)歸納圖像生成的各項質(zhì)量評估指標,并綜合討論圖像生成方法和評估方法的特點、優(yōu)勢及局限性。最后討論該研究領域面臨的挑戰(zhàn)和未來的發(fā)展方向,為該領域的基礎研究和場景應用提供輔助參考。
本文的主要貢獻如下:
(1)綜述了關(guān)于深度學習文本到圖像生成研究的最新進展,包含許多已有綜述中沒有出現(xiàn)的最新的重要參考文獻,該綜述有利于研究者快速熟悉和掌握文本到圖像生成領域。
(2)對深度學習文本到圖像生成方法分類總結(jié),介紹各類型具有代表性的方法,并討論這些方法的構(gòu)建思路、模型特點、優(yōu)勢及局限性,有助于該領域研究者更好理解文本到圖像生成領域的相關(guān)技術(shù)。
(3)對生成圖像的質(zhì)量評估指標進行總結(jié)歸納,分析各類評估方法的技術(shù)原理及特點,討論未來的發(fā)展方向。
(4)對文本到圖像生成領域面臨的各項機遇和挑戰(zhàn)總結(jié)討論,并論述在模型方法、評價指標、技術(shù)改進及方法拓展等方面的挑戰(zhàn)和未來的發(fā)展方向,有助于啟發(fā)并開展更有價值的研究工作。
掌握生成式對抗網(wǎng)絡(GAN)運行機制是實現(xiàn)基于深度學習的文本到生成圖像技術(shù)的基礎,GAN是在卷積神經(jīng)網(wǎng)絡基礎上拓展的一種深度學習模型,也是近年來復雜分布上無監(jiān)督學習最具前景的方法之一。作為全新的非監(jiān)督式架構(gòu)模型,框架通過主要的兩個模塊,即生成模型(generative model,GM)和判別模型(discriminative model,DM)的互相博弈學習過程中達到納什平衡,最終實現(xiàn)逼近真實的最佳輸出結(jié)果。生成模型是根據(jù)目標預測的隱含信息,隨機產(chǎn)生觀測數(shù)據(jù);判別模型需要輸入相關(guān)變量,通過特定應用模型實施目標預測。圖1描述了GAN網(wǎng)絡的主要結(jié)構(gòu)。
圖1 生成對抗網(wǎng)絡(GAN)結(jié)構(gòu)圖Fig.1 Structure diagram of GAN
在原始GAN中,無法控制要生成的內(nèi)容,因為輸出僅依賴于隨機噪聲??梢詫l件輸入c添加到隨機噪聲z中,將生成圖像由G(c,z)定義,稱為條件GAN(conditional generative adversarial networks,CGAN)[14],通常條件輸入矢量c與噪聲矢量z直接連接,并且將得到的矢量原樣本作為發(fā)生器的輸入,與原始GAN一樣。條件包括圖像類、對象屬性以及嵌入圖像的文本描述或圖片。與其他的生成模型開展比較,例如PixelRNN(pixel recurrent neural network)[15]、AVB(auto-encoding variational Bayes)[16]、GSNs(generative stochastic networks)[17]、BM(Boltzmann machines)[18]等,GAN的優(yōu)勢在于:(1)應用方向傳播,替代傳統(tǒng)的馬爾科夫鏈預測;(2)模型訓練采用權(quán)值糾正,不用做隱變量推斷;(3)模型支持偏微分運算,構(gòu)建生成網(wǎng)絡G和判別網(wǎng)絡D與神經(jīng)網(wǎng)絡相結(jié)合做深度生成模型;(4)模型參數(shù)更新通過判別網(wǎng)絡反向傳播實現(xiàn),代替?zhèn)鹘y(tǒng)的樣本數(shù)據(jù)糾正方式。
文本到圖像生成方法旨在通過機器學習或深度學習的方法,根據(jù)文本描述的信息自動生成滿足用戶所需的虛擬圖像。這類算法在簡單的語義結(jié)構(gòu)下能夠表現(xiàn)較好的成果,但當文本描述的目標信息或場景相對復雜時,圖像生成的過程將受到不同程度的影響,最終導致圖像結(jié)果不理想,包括分辨率低、目標錯誤、邊界混淆、布局錯亂等情況。這使得文本到圖像生成技術(shù)成為具有挑戰(zhàn)性的研究課題,同時具備較高的研究價值。因此研究者們?yōu)橥黄圃械姆椒ň窒?,從不同場景、適應條件、模型結(jié)構(gòu)、處理算法等方面開展創(chuàng)新研究。目前將具有代表性的基于深度學習的文本到圖像生成方法總結(jié)歸納如圖2所示。
圖2 文本到圖像生成方法歸納Fig.2 Method induction of text-to-image generation
早期圖像生成方法主要以變分自編碼器(variational autoencoders,VAEs)[16]為主,考慮概率統(tǒng)計分布,是基于最大化數(shù)據(jù)的最小可能性實現(xiàn)圖像生成的方法。直接圖像法都遵循在模型中使用一個生成器和一個判別器的原理,并且其結(jié)構(gòu)是直接的構(gòu)成,沒有分支結(jié)果組成,許多最早的GAN模型屬于這類型。
生成式對抗網(wǎng)絡可以擴展為條件模型,成為條件生成對抗網(wǎng)絡(CGAN)[14],即生成器和鑒別器將以一些額外信息為條件,y可以作為任何一種輔助信息,如類別標簽或其他模式數(shù)據(jù)??梢酝ㄟ^將y作為額外的輸入層同時輸入鑒別器和生成器執(zhí)行調(diào)節(jié)。在生成器中,先驗輸入噪聲p z(z)和y能夠在隱藏表示中組合,并且對抗訓練框架對隱藏組合的表達具有較高靈活性。在鑒別器中,x和y分別作為輸入和鑒別函數(shù),目標函數(shù)表達如下:
為了提供更多的輔助信息并允許半監(jiān)督學習,可以向判別器添加額外的輔助分類器,以便在原始任務以及附加任務上優(yōu)化模型。添加輔助分類器允許使用預先訓練的模型,并且在ACGAN(auxiliary classifier GANs)[19]中的實驗證明,這種方法可以幫助生成更清晰的圖像以及減輕模式崩潰問題,輔助分類器能夠應用在文本到圖像合成技術(shù)中。采用跨模態(tài)方式實現(xiàn)信息域轉(zhuǎn)換,以StackGAN(stacked generative adversarial networks)為基礎增加條件自編碼模塊[20],共用生成器實現(xiàn)特征增強,緩解直接圖像法易出現(xiàn)的模式崩塌情況。
為解決圖像生成細粒度的屬性識別問題,Reed等人[6]提出文本生成圖像方法,圖像生成將來自整個句子預先訓練的編碼器所嵌入的內(nèi)容,實現(xiàn)端到端與屬性細粒度和類別特定的圖像相結(jié)合,應用的模型是對CGAN的改進,用文本內(nèi)嵌的φ代替類標簽y。在GAN-INTCLS[21]方法中,構(gòu)建匹配感知鑒別器如圖3所示,將三種不同的圖像對作為鑒別器的輸入。該方法不僅讓生成器和鑒別器關(guān)注真實的圖像,而且將其與輸入文本匹配鑒別。對比之前采用的GAN方法,其首次提出利用GAN來實現(xiàn)句子描述合成圖像,替代了利用類標簽作為條件合成圖像的方式,并且通過簡單的插值方法來生成大量新文本描述數(shù)據(jù),解決由于文本數(shù)量較少所限制合成效果的問題。
圖3 GAN-INT-CLS模型結(jié)構(gòu)圖Fig.3 Architecture diagram of GAN-INT-CLS
Dash等人提出了分類器生成對抗網(wǎng)絡(text conditioned auxiliary classifier GAN,TAC-GAN)[22],該網(wǎng)絡建立在ACGAN基礎上,通過將生成的圖像設置在文本描述上代替類標簽。該模型在生成網(wǎng)絡中輸入的向量為噪聲向量和包含文本描述的嵌入式表達向量,鑒別器在ACGAN的基礎上將分類前接收的文本信息作為模型輸入,使用Skip-Thought向量從圖像標題中生成文本嵌入,并結(jié)合該模型的特點引入額外的輔助分類損失函數(shù),達到與ACGAN模型相似的風格效果,即生成圖像具有可鑒別性和多樣性特征,通過文本描述之間插入,可以相同的風格合成內(nèi)容不同的圖像。
綜上所述,直接圖像法引入了條件模型,提供了更多的輔助信息,支持半監(jiān)督學習,并不斷改進圖像生成細粒度的相關(guān)問題。該類方法的另一個特點是引入額外信息作為向量,通常包括噪聲信息、文本補充信息、輔助分類信息等內(nèi)容。但該方法缺點是依賴監(jiān)督輔助條件的選擇,依賴條件與應用場景的符合程度將決定圖像生成的質(zhì)量及布局等信息表達。此外,該模型主要學習數(shù)據(jù)分布模式,存在易于崩潰的缺陷,例如生成器對相似但不同的描述會生成相同的圖像。另一個挑戰(zhàn)是模型將重點關(guān)注全局句子向量,有用的細粒度圖像特征和單詞級文本信息將容易被忽視。
分層體系結(jié)構(gòu)法與直接法相反,算法在其模型中分別由兩個生成器和兩個鑒別器構(gòu)成,不同的生成器具有不同的功能。核心思想是將圖像分成“樣式和結(jié)構(gòu)”和“前景和背景”兩部分,兩個生成器之間的關(guān)系支持并聯(lián)或串聯(lián),目的是相互結(jié)合逐步生成精細圖像,能夠更好地識別異構(gòu)上下文的模式。
考慮到簡單地增加更多的采樣層來提高分辨率,會導致模型不穩(wěn)定或者生成真實度低的圖片,其主要問題在于生成器的生成圖像分布和真實圖片的分布沒有交叉重疊提取特征。Zhang等人[23]提出了StackGAN方法,StackGAN文本特征處理架構(gòu)如圖4所示。該模型對CGAN進行改進,主要解決CGAN不能生成高清圖的問題。該方法提出構(gòu)建兩個GAN的結(jié)構(gòu),分別解決目標物體的形狀和顏色以及分辨率增強問題。該方法采用條件增強技術(shù),即從獨立的高斯分布N(μ(Φt)Σ(Φt))中隨機采樣得到隱含變量并放入生成器,通過產(chǎn)生更多的條件變量提高生成圖片的多樣性和模型穩(wěn)定性。
圖4 StackGAN文本特征處理架構(gòu)Fig.4 Architecture of StackGAN text feature processing
現(xiàn)有的文本到圖像生成方法采用的樣本可以大致反映文字描述的含義,但沒有包含必要的細節(jié)描述和形象的目標對象內(nèi)在關(guān)系。為解決該問題,Zhang等人提出StackGAN++(stacked generative adversarial networks++)方法[24],主要采用樹狀結(jié)構(gòu),框架如圖5所示。通過多個生成器生成不同尺度的圖像,每個尺度對應一個鑒別器,生成了多尺度圖像分布。其特點是構(gòu)建一個兩階段生成對抗網(wǎng)絡體系結(jié)構(gòu),不同于StackGAN采用兩階段獨立訓練模式,StackGAN++可以采用端到端(end-toend,E2E)的訓練方式。該方法引入顏色一致性正則化(color regulation,CR),對生成模擬圖像的色彩信息進行限制,其目的是盡量減少不同尺度像素的均值和協(xié)方差之間的差異,整體效果是提高訓練的穩(wěn)定性,且提升生成的圖像質(zhì)量。為解決低分辨率特征圖卷積時依賴局部特征,不利于捕獲文本向量遠距離信息的問題,通過文本描述生成圖像任務和解耦表征并分層生成圖像[25],利用單詞級注意力模塊細化圖像并微調(diào)嵌入詞,能夠很好地表達形狀和顏色特征。
圖5 StackGAN++條件合成模型架構(gòu)圖Fig.5 Architecture diagram of StackGAN++model with conditional composite
在此基礎上,為了進一步滿足對多個生成網(wǎng)絡的構(gòu)建需求,HDGAN(hierarchical-nested GAN)[26]伴隨層次嵌套對抗性目標,在多尺度中間層上采用了分層嵌套的判別器來生成512×512圖像。模型架構(gòu)如圖6所示,并對比其他不同結(jié)構(gòu)模型,HDGAN通過采用一種可擴展的單流生成器架構(gòu)(extensile single-stream generator architecture,ESGA)使聯(lián)合判別器更好地開展訓練,生成高分辨率圖像。并使用多用途的對抗性損失(multipurpose adversarial loss,MAL)使低分辨率層的判別器關(guān)注全局特征,高分辨率的判別器聚焦于局部的細粒度特征,更有效地使用圖像和文本信息提升生成圖像保真度。
圖6 HDGAN模型架構(gòu)圖Fig.6 Architecture diagram of HDGAN
為減少圖像卷積過程中導致的特征信息損失,并增強語義一致性、圖像保真度和類不變性,可以讓生成器采用感知損失來增強語義相似度信息,在生成器上定義感知損失可獲得不同的圖像,通過多用途鑒別器以提升語義保真度和完整性。Gao等人[27]提出了感知金字塔對抗網(wǎng)絡(perceptual pyramid adversarial networks,PPAN),通過金字塔框架[28]以對抗的方式直接合成文本條件下的多尺度圖像。通過設計一個金字塔發(fā)生器和三個獨立的鑒別器代替多階段GAN,在前饋過程中合成和正則化多尺度的真實感圖像。在每個金字塔層,PPAN以粗分辨率特征作為輸入,合成高分辨率圖像,并使用卷積向上采樣到更精細的層次。
目前文本到圖像生成的GAN都采用堆疊結(jié)構(gòu)作為主干,通常利用跨模態(tài)注意機制來融合文本和圖像特征,并引入額外的卷積神經(jīng)網(wǎng)絡來確保文本和圖像的語義一致性。為實現(xiàn)一個簡單且有效的文本圖像模型,DFGAN(deep fusion GAN)[29]作為一種創(chuàng)新的文本圖像融合模塊被提出,多尺度全局特征根據(jù)多個步驟自適應的融合提取,以滿足低空間分辨率的特征圖像獲取,并包含生成圖像的整體語義結(jié)構(gòu)。受ResNet(residual network)[30]的啟發(fā),采用身份和權(quán)重加法及快捷連接作為融合方法,總體有效提升細節(jié)構(gòu)成,可以使生成器在不引入額外網(wǎng)絡的情況下合成更真實且文本圖像語義一致的圖像。與現(xiàn)有的文本圖像模型相比,該方法更簡單且有效地合成與真實文本描述相匹配的圖像。在研究中通常以動物或花卉作為對象,以人物圖像為研究對象值得深入探索。充分結(jié)合人物姿勢、體態(tài)、外貌、紋理特征,構(gòu)建人物畫像,通過自適應歸一化方式實現(xiàn)像素級映射,并構(gòu)建多模式操作網(wǎng)絡生成顏色和細節(jié)更細膩的人物圖像[31]。構(gòu)建譜歸一化的SN-StackGAN(spectrum normalization StackGAN)[32]模型約束判別器各層網(wǎng)絡,并結(jié)合感知損失函數(shù),加快判別器收斂速度并增強網(wǎng)絡穩(wěn)定性,并提高圖像分辨率。
綜上所述,分成體系結(jié)構(gòu)法采用多個聯(lián)級的生成器和鑒別器結(jié)構(gòu),能夠有效地實現(xiàn)關(guān)鍵信息分離,實現(xiàn)針對性的精細化處理,增強語義一致性優(yōu)勢。并且在模型構(gòu)建中會包含必要的細節(jié)描述和形象目標對象的內(nèi)在關(guān)系等信息,可有效增強圖像信息的表達能力。但該類方法會采用交叉重疊的網(wǎng)絡模型,導致特征信息被重復提取,使信息處理量增大,計算資源和時間占用過大。并且存在對多任務處理或多尺度小目標處理難度較大等不同程度的問題,將會導致生成圖像的質(zhì)量下降,減少所生成圖像的多樣性。當文本描述的場景或?qū)ο笙鄬碗s時,該問題會更加嚴重。
注意力機制可以利用人類視覺機制進行直觀解釋,例如人類的視覺系統(tǒng)傾向于關(guān)注圖像中輔助判斷的部分信息,并忽略掉不相關(guān)的信息[33]。注意力模型現(xiàn)在是解決多任務最先進的模型[34],能夠在主要任務上提高性能,并且被廣泛用于提高神經(jīng)網(wǎng)絡的可解釋性。注意力機制模塊如圖7所示,該機制能夠通過加權(quán)重要的部分而忽略不重要的部分,使網(wǎng)絡重點關(guān)注輸入層,并且在提升語言分析和計算機視覺上擁有舉足輕重的意義。該技術(shù)除了構(gòu)建全局句子向量外,還支持卷積神經(jīng)網(wǎng)絡根據(jù)相關(guān)單詞合成的細粒度。
圖7 注意力機制模塊示意圖Fig.7 Schematic diagram of attention mechanism module
注意力機制允許網(wǎng)絡根據(jù)相關(guān)單詞合成細粒度的細節(jié)以及全局句子向量,在生成過程中使網(wǎng)絡關(guān)注圖像子區(qū)域最相關(guān)的單詞。AttnGAN(attentional GAN)[35]建立在StackGAN++[24]的基礎上,將注意力納入多級精煉管道,通過深度注意力多尺度相似模型(deep attentional multimodal similarity model,DAMSM)的損失計算,評估基于句子和單詞級信息計算生成的圖像與輸入文本之間的相似度。Huang等人[36]擴展了基于網(wǎng)格的注意力機制算法,簡稱為RIG(realistic image generation)方法,在對象網(wǎng)格區(qū)域和詞短語之間增加了一種機制,其中對象網(wǎng)格區(qū)域由輔助包圍框定義。在句子和單詞特征的基礎上,應用部分詞性標注技術(shù)提取短語特征。若構(gòu)建標題匹配模型,根據(jù)先驗知識確定候選標題,可利用多標題注意力的特點構(gòu)建GAN生成特征圖像,突顯文本描述的主要圖像特征[37]。
由于訓練數(shù)據(jù)集受限,存在難以涵蓋所有領域的圖像信息,描述語句存在詞語缺失以及語義信息不足等問題,使生成圖像無法得到較好效果。并且關(guān)鍵詞與非關(guān)鍵詞的分離問題將很大程度影響模型的穩(wěn)定性與準確性。語義增強生成對抗網(wǎng)絡(semantics-enhanced GAN,SEGAN)[38]模型能用于高細粒度的文本到圖像的生成技術(shù)中,很好地解決以上問題,其模型結(jié)構(gòu)如圖8所示。相對于傳統(tǒng)的基于端到端并加入注意力機制的圖像描述生成方法,該模型解決了圖像描述生成語句語義信息不足的問題,并針對生成語句詞匯不足的情況進行了補充,從而能夠更準確地描述圖像數(shù)據(jù)的語義含義。注意力競爭模塊(attention competition module,ACM)和注意力生成網(wǎng)絡(attention generation network,AGN)用于提取文本特性和圖像特性,ACM包括一個新的注意正則化術(shù)語和DAMSM損失,能夠使文本編碼器提取AGN的可視化重要關(guān)鍵字。該算法將圖像級的語義一致性融入生成對抗網(wǎng)絡(GAN)的訓練中,可以使生成的圖像信息和特征多樣化。在AGN中,由ACM預先訓練的文本編碼器提供語義向量對視覺上重要的詞進行編碼,構(gòu)建了自適應注意權(quán)重來區(qū)分關(guān)鍵字和不重要的詞,然后SEGAN生成器根據(jù)這些關(guān)鍵字合成圖像子區(qū)域,該算法總體提升了模型的穩(wěn)定性和準確性。
圖8 SEGAN模型架構(gòu)圖Fig.8 Architecture diagram of SEGAN
在圖像生成中由于文字的修改可能會使模型重新調(diào)整參數(shù)或訓練,創(chuàng)建一個能夠支持文字描述修改的監(jiān)督反饋模型有助于模型改進,一種可控的文本生成圖像的對抗生成網(wǎng)絡(control GAN)[39]能夠支持模型的動態(tài)反饋,通過自然語言描述控制圖片生成的過程,合成高質(zhì)量圖片。該方法整合空間注意力模塊能夠分離不同的視覺屬性,如類別、紋理和顏色等信息,并且讓模型專注于最相關(guān)的單詞所對應的子區(qū)域,結(jié)合細粒度的監(jiān)督梯度反饋,提供精細的紋理訓練信息,并利用單詞和圖像子區(qū)域之間的相關(guān)性來分解不同的視覺屬性。
跨模態(tài)網(wǎng)絡是帶有對比損失的級聯(lián)結(jié)構(gòu),這個損失是建立在判別器端兩個樹狀的結(jié)構(gòu)之間的對比損失,該結(jié)構(gòu)有利于提取文本描述中的語義共同點,當網(wǎng)絡的各個分支處理不同的文本輸入生成圖像時,模型參數(shù)采用共享模式。在文本描述中出現(xiàn)的同義詞會導致圖像生成差異,為能夠?qū)崿F(xiàn)同語義不同詞的高層次表達以及文字表達的多樣性特點,語義解糾纏生成對抗網(wǎng)絡模型(semantics disentangling GAN,SDGAN)[40]如圖9所示。整個模型是跨模態(tài)生成網(wǎng)絡,可以看作主要由Siamese注意力機制和語義條件下的批度歸一化(semantic conditions batch normalization,SCBN)[41]相結(jié)合,其中使用Siamese注意力機制在判別器中學習高層次的語義一致性,使用SCBN來發(fā)現(xiàn)不同形式的底層語義。該方法采用基于對比損失的方法來最小化或最大化每個分支中計算的特征之間的距離,從而學習語義上有意義的特征表達。該方法從文本中提取出語義的通用性表達,但存在忽略細粒度的語義多樣性問題。在此基礎上,通過SEGAN訓練了一個復式架構(gòu)并利用地面真實圖像進行語義對齊,最小化生成的圖像和對應的地面真實圖像之間的特征距離。為了有效解決簡單樣本和難度樣本的平衡問題,基于滑動損失[42]提出了聚焦損失,以適應具備相對重要性的簡單樣本和難度樣本對。Text-SeGAN[43](text-semantics-enhanced GAN)模型以條件GAN為基礎,改進了鑒別器的一個輔助功能,使模型生成的圖片不受特定種類的限制,并結(jié)合小批量(mini-batch)特征技術(shù),在語義上匹配文本輸入時解決了模式崩潰(mode collapse,MC)問題。為彌補細節(jié)信息表達的不足,采用跨模態(tài)數(shù)據(jù),通過多尺度特征融合算法[44],構(gòu)建目標對象驅(qū)動細粒度語義,結(jié)合布局特點生成逼真圖像,充分考慮細粒度信息,包括結(jié)構(gòu)、位置、輪廓、紋理等。
圖9 SDGAN模型架構(gòu)圖Fig.9 Architecture diagram of SDGAN
綜上所述,注意力機制法具備減少外部信息依賴,關(guān)注特征內(nèi)部固有信息的特點,并考慮不同維度信息如通道、空間、時間、類別等,充分解決卷積神經(jīng)網(wǎng)絡多任務和單詞合成的細粒度問題,擁有少參數(shù)并行處理方式的高效性及支持文字描述動態(tài)修改的靈活性。但該方法難以捕捉位置信息,即沒法學習序列中的順序關(guān)系,需要通過引入位置向量解決這類問題。由于目標圖像中的像元都需要捕捉全局的上下文信息,這導致了自注意力機制模塊會有較大的計算復雜度和存儲量,并且存在信息捕捉的高效稀疏化問題有待解決。
通常從給定的文本描述中合成圖像包含在文本中明確描述的信息(例如顏色和構(gòu)圖等)以及風格,但在文本描述中一般很難精確地描述圖像構(gòu)建信息,例如位置、數(shù)量、大小等。之前的相關(guān)研究僅關(guān)注于從內(nèi)容生成圖像的過程,未著重考慮學習圖像的風格表示。
為使模型能夠使用文本描述內(nèi)容信息,在生成圖像時使用所需的樣式風格,并生成與文本源密切相關(guān)的信息圖像,同時達到通過推斷文本源信息來控制樣式的目的,相關(guān)課題已開展研究。例如Lao等人[45]受到對抗推理方法啟發(fā),提出雙重對抗網(wǎng)絡(dual adversarial inference GAN,DAI-GAN),通過無監(jiān)督方式分離圖像信息。該方法主要的目標是學習潛在的空間和風格的表達,空間中被分離的兩個變量分別代表內(nèi)容和風格。風格在模型中的整合信息最終取決于它的模式表現(xiàn),例如文本中高頻出現(xiàn)的風格信息擁有共享文本之間的共性,而低頻出現(xiàn)的風格不作為內(nèi)容描述,其風格由圖像形態(tài)表示。周期一致性法解決了兩個重要的問題:第一是在隱變量上加入先驗知識,能夠產(chǎn)生更高采樣質(zhì)量和更高采樣多樣性的圖像,并充分考慮文本描述信息表達。第二是實現(xiàn)不同反饋網(wǎng)絡模型的靈活接入,增強網(wǎng)絡的動態(tài)處理能力。一些相關(guān)研究已經(jīng)開展,例如PPGN(plug&play generative networks)[46]模型算法提出了基于條件網(wǎng)絡的反饋,可以作為條件圖像合成的分類器。該方法提出了一個統(tǒng)一的概率解釋AM(activation maximization)理論,構(gòu)建生成模型(即插即用生成模型)。其主要思想是迭代地找到潛在代碼,讓生成器產(chǎn)生一個圖像,使反饋網(wǎng)絡中的特定特征激活最大化(例如分類評分或RNN的隱藏向量)。在該框架中,通過插入不同的反饋網(wǎng)絡,可以重新使用預先訓練的生成器,從而提高模型接入的靈活性并提升結(jié)果質(zhì)量。
為靈活接入附件網(wǎng)絡實現(xiàn)圖像的精準表達,受到CycleGAN(cycle-consistent GAN)[47]模型的啟發(fā),通過重新定義圖像生成的循環(huán)網(wǎng)絡架構(gòu),使模型具備文本到圖像的精準語義表達能力,并通過附加語義網(wǎng)絡,使訓練該網(wǎng)絡從合成圖像中生成語義相似的文本描述。MirrorGAN[48]作為一個新的模型結(jié)構(gòu)被提出,屬于監(jiān)督學習,并引入注意力機制。該模型結(jié)合了“全局到局部”的注意力機制和保留語義的Text-to-Image-to-Text框架,能夠產(chǎn)生文本或句子層次的嵌入信息;平衡局部文字注意力和全局句子注意力以增強生成圖像的多樣性和語義連續(xù)性;對生成的圖像再次描述生成對應文本描述信息。該方法通過一個“全局—局部”協(xié)作注意模型,無縫嵌入級聯(lián)生成器中,以保持跨域語義一致性并平滑生成過程。此外,還提出了一種基于交叉熵(cross entropy,CE)的文本語義重建損失來監(jiān)督生成器,以生成視覺真實和語義一致的圖像。
在文本到圖像的生成方法中,普遍存在由粗到細(coarse-to-fine,C2F)的研究思路,即先生成低分辨率的初始圖像,再優(yōu)化得到高分辨率的精確圖像。為了解決普遍存在的兩個問題:(1)生成的圖像結(jié)果嚴重依賴于初始圖像的質(zhì)量;(2)文本句子的詞語描述起決定作用,優(yōu)化過程效果受限,圖像信息未被充分利用到單詞的重要性權(quán)重。動態(tài)記憶生成對抗網(wǎng)絡(dynamic memory GAN,DM-GAN)[49]用于文本到圖像的生成技術(shù)中,基于動態(tài)記憶的圖像細化階段通過動態(tài)存儲、鍵尋址、值讀取和響應,實現(xiàn)模糊圖像細化、信息檢索、尋址和特征讀取,以細化低質(zhì)量圖像的視覺特征,其模型架構(gòu)如圖10所示。采用響應操作控制圖像特征的融合和內(nèi)存讀取,通過記憶門內(nèi)容突出重要的詞語信息,并利用響應門自適應地融合從記憶門中讀取的信息和響應步驟中的圖像特征,進而從文本描述中準確生成輸出圖像。
圖10 DM-GAN模型架構(gòu)圖Fig.10 Architecture diagram of DM-GAN
綜上所述,周期一致性法具有改善數(shù)字生態(tài)系統(tǒng)的潛力,它們能夠?qū)⑿畔囊环N表示形式轉(zhuǎn)換為另一種表示形式,信息表現(xiàn)具備靈活轉(zhuǎn)換能力,支持明確風格表達描述,且擁有模型接入動態(tài)靈活的特點,同時支持更高采樣質(zhì)量和采樣多樣性的圖像輸出。但該類方法在處理訓練源數(shù)據(jù)時,會出現(xiàn)獨立目標的任意變化現(xiàn)象,導致風格混淆問題出現(xiàn),需要使用更廣泛和更多樣化的數(shù)據(jù)集緩解該問題發(fā)生;另外非色彩信息的幾何更改會導致圖像的幾何信息的異常變化。
隨著無條件圖像生成技術(shù)的研究發(fā)展,該技術(shù)已經(jīng)被成功應用到文本到圖像生成方法中,通過自適應方式靈活構(gòu)建文本描述,能夠通過無附加條件的方式增強各環(huán)境下的模型適應性表達。通過權(quán)重加權(quán)語義方式結(jié)合噪聲向量,去除信息干擾并增強核心信息表達,同時采用跨模態(tài)形式豐富信息表達是增強圖像高質(zhì)量合成的方式。文本到圖像的模型Text-Style-GAN[50]方法在StyleGAN基礎上進行擴展,能夠獲得比其他文本生成圖像模型更高分辨率的圖像,并支持語音分析。該模型架構(gòu)如圖11所示,其類似于AttnGAN[35]使用的預先訓練的文本到圖像匹配網(wǎng)絡來計算文本和單詞嵌入,在執(zhí)行線性映射產(chǎn)生中間隱藏空間之前,先將嵌入句子與噪聲向量相互連接。采用注意力機制引導在生成器中使用文字和圖像特征,除了鑒別器中的有條件和無條件損失外,還使用跨模態(tài)投影匹配(cross-modal projection matching,CMPM)和跨模態(tài)投影分類(cross-modal projection classification,CMPC)的損失估計,將輸入的文字標記與生成圖像相匹配。由于文字屬性堆疊生成缺乏真實性的圖像,通過殘差結(jié)構(gòu)設計創(chuàng)新的注意力機制網(wǎng)絡[51],并采用鉸鏈損失穩(wěn)定訓練過程,結(jié)合跨模態(tài)投影機制通過細粒度辨別信息,增強圖像分辨率。在該方法中會出現(xiàn)不自然的局部細節(jié)扭曲現(xiàn)象和生成缺陷圖像,通過嵌入殘差塊特征金字塔引入多尺度特征融合[52],通過自適應融合方式生成高質(zhì)量圖像。
圖11 Text Style GAN模型架構(gòu)圖Fig.11 Architecture diagram of Text Style GAN
構(gòu)造過渡映射空間和共享信息的額外損失估計是解決文本描述與圖像一致性問題的重要手段。利用中間網(wǎng)絡將文本嵌入和噪聲映射到一個過渡映射空間,同時構(gòu)造的第一損失估計將計算中間的隱藏空間與輸入文本嵌入之間的相互信息差,以保證文本信息存在于過渡空間。第二種損失估計將計算生成的圖像與輸入文本之間的相互信息差,以提高圖像與輸入文本之間的一致性。獲得制約文本描述的潛在因素,為進一步的可解釋表示學習提供依據(jù),Bridge-GAN[53]在訓練過程中采用了類似PGGAN(progressive growing GAN)[54]的生成器和鑒別器的方案,建立了一個過渡空間作為提高內(nèi)容一致性的橋梁,通過關(guān)鍵視覺信息來學習可解釋性表達;并設計了三元互信息目標優(yōu)化過渡空間,增強視覺真實感和內(nèi)容一致性。在解決合成圖像與文本描述的一致性方面,Wang等人[55]提出了兩個語義增強模塊和一個新的文本視覺雙向生成對抗網(wǎng)絡(textual-visual bidirectional GAN,TVBi-GAN),通過語義增強的注意模塊和語義增強的批處理歸一化模塊,注入隨機噪聲來穩(wěn)定基于語言線索的尺度及變化操作,引入精確的語義特征來提高合成圖像的一致性。
通過無條件作用實現(xiàn)多樣性控制在文本到圖像生成的方法中具有重要意義,能夠增強表達的豐富性,對于文本描述的形容性詞語或定語等語言表達具備更準確的圖像生成能力。BigGAN[56]采用了數(shù)據(jù)截斷和正交正則化技術(shù),將正交正則化應用于生成器。該模型采用截斷技術(shù),通過一種簡單的采樣方法,能夠在樣本的逼真性和多樣性之間做顯性的細粒度控制。另外,通過減少生成器輸入的方差,允許對樣本保真度和多樣性之間的權(quán)衡進行精細控制,保障了大型生成對抗網(wǎng)絡訓練過程的穩(wěn)定性,采用矩陣的奇異值分析生成對抗網(wǎng)絡訓練的穩(wěn)定性。基于DM-GAN[49]創(chuàng)建了類似記憶門的機制,在應用注意力機制之前計算單詞特征和語義特征之間的量化權(quán)重。進一步構(gòu)建從圖像中提取語義特征的編碼網(wǎng)絡,在對抗性過程中,編碼器可以引導生成器探索描述深層的相應特性,提升模型目標生成過程的表達性。
綜上所述,自適應非條件模型法具備多樣性表達特點,能夠構(gòu)造過渡映射空間并提供共享信息的額外損失估計,無需附加監(jiān)督條件而自適應地開展模型訓練,提供可解釋性表示的學習依據(jù),模型具有魯棒性和適用性。但該類方法的圖像生成的輸入信息大多是句子向量,缺少風格層信息,生成圖像缺少實例級別的紋理特征;在圖像生成過程中,生成器容易忽視同場景之間的空間交互關(guān)系,整體圖像存在移位、重疊和遮擋等問題。此外,判別器難以提供細粒度的訓練反饋信息,對詞級的實例視覺屬性判別難度大。模型生成的描述對象的屬性特征存在不同程度誤差,圖像生成的綜合準確度和真實性有待提升。
上文討論的文字到圖像生成方法,其核心內(nèi)容是圍繞文字描述的信息生成與之相關(guān)圖像。然而,存在一些方法將標題、對話、場景圖和語義掩模等內(nèi)容作為監(jiān)督條件構(gòu)建的模型,在模型的訓練中會增加額外的標注信息,通過附加監(jiān)督信息生成圖像。
通常數(shù)據(jù)集中的單幅圖像包含多個標題,通過多個標題能夠提供更豐富的信息描述整個場景。在附加監(jiān)督法的基礎上結(jié)合注意力機制可將兩種方法的優(yōu)勢充分結(jié)合,使模型既能實現(xiàn)多場景的I2T應用,又能減少外部依賴,突出內(nèi)部固有特征,增強有效的細粒度表達。例如C4Synth方法[57]研究了多個標題生成圖像,該方法使用混合標題描述的形式,通過跨標題循環(huán)保證了生成的圖片和語義描述信息的一致性,并引入一個循環(huán)結(jié)構(gòu)消除體系結(jié)構(gòu)中標題數(shù)量的限制,能夠合并多個標題內(nèi)容的描述信息以生成單個圖像。類似地,RiFeGAN(rich feature GAN)方法[58]作為一種具備豐富特征從文本到圖像合成技術(shù),利用了基于注意力機制的標簽匹配模型,能夠從先驗知識中選擇并提煉出兼容的候選標題,并利用多組注意力算法提取豐富的特征,合成高質(zhì)量的圖像。
一個句子難以提供足夠的信息來描述包含多個關(guān)聯(lián)物體的場景,通過場景對話產(chǎn)生的信息數(shù)據(jù)能夠生動地生成圖像。VQA-GAN(visual question answering GAN)[59]在本地構(gòu)建的文字集合中,通過使用VQA2.0(visual question answering 2.0)中的問題和回答文字對話內(nèi)容訓練圖像生成器。該方法在AttnGAN-OP(attentional GAN object pathways)[60]的基礎上擴展了三個關(guān)鍵組成:第一是問題對話的編碼器,把對話文字內(nèi)容當作輸入;第二是構(gòu)建具備問題和回答條件的GAN網(wǎng)絡,把之前輸出的內(nèi)容作為文字描述生成一個圖片;第三是采用外部VQA損失增強問題對話和生成圖片之間的關(guān)聯(lián)。典型的VQA模型以圖像和問題為輸入,并開展模型訓練,通過使負對數(shù)似然損失最小化來提升正確答案概率。
從布局到圖像生成任務中每個對象都由邊界框和類標簽定義,能夠為生成器提供更多的結(jié)構(gòu),有助于在圖像中準確地定位對象,并且具有允許研究者通過更改布局控制生成的優(yōu)點,結(jié)合布局信息的文本可實現(xiàn)更好的生成圖像。例如OP-GAN(object pathways GAN)[61]通過在物體的位置添加生成器和鑒別器通道在重要的文字標記點位置上生成獨立圖片,一個全局通道生成一個能夠適應整個圖片描述和布局的位置。OC-GAN(object-centric GAN)[62]類似于AttnGAN中的DAMSM的場景圖相似模型(scene graph similarity module,SGSM)來處理合并對象,構(gòu)建一個能夠理解單個對象和對象之間的關(guān)系生成復雜場景的模型,其模型架構(gòu)如圖12所示。該方法以對象為中心的生成對抗網(wǎng)絡(OCGAN),根據(jù)SGSM,該模型能夠?qū)W習場景中物體之間的空間關(guān)系的表示,使得該模型的布局保真度得到提升。同時,還提出對生成器的調(diào)節(jié)機制進行改變,以增強其對象實例感知能力,并取得顯著效果。
圖12 OC-GAN模型架構(gòu)圖Fig.12 Architecture diagram of OC-GAN
針對生成圖像算法中常出現(xiàn)的對象重疊和缺失問題,可有效利用掩模生成網(wǎng)絡對數(shù)據(jù)集進行預處理,為數(shù)據(jù)對象提供分割掩模向量解決。將分割掩模向量作為約束條件,訓練布局預測網(wǎng)絡得到場景布局中對象的具體位置和尺寸,通過網(wǎng)絡模型完成圖像的生成。例如Hong等[63]通過兩個步驟獲取語義掩碼,模型架構(gòu)如圖13所示,分別預測物體形狀和其他信息。若直接完成輸入文本空間到生成圖像像素空間映射,數(shù)據(jù)具有高維度特性,難以找到合適的映射方式,因此從文字到圖像像素直接增加了多個任務分解,實現(xiàn)生成匹配復雜文本描述的復雜圖像。通過修改生成的場景布局,允許標注生成的圖像、用戶控制生成的過程,具備更好的靈活性。
圖13 語義掩碼模型架構(gòu)圖Fig.13 Architecture diagram of semantic mask model
為利用網(wǎng)絡對抗性學習來加強語義一致性和視覺效果,LeicaGAN(learn,imagine and create GAN)[64]方法將多先驗學習階段描述為文本-視覺共嵌入(textual-visual co-embedding,TVE)。該TVE包括用于學習語義、紋理和顏色先驗的文本圖像編碼器以及用于學習形狀和布局先驗的文本掩碼編碼器。然后通過組合這些互補的先驗并為多樣性添加噪聲,將想象階段表示為多先驗聚集(multiple priors aggregation,MPA)。最后使用級聯(lián)注意力生成器(cascaded attentive generator,CAG)從粗略到精細逐步繪制一幅圖畫。GAN-CL(GAN contextual loss)[65]由一個網(wǎng)絡組成,該網(wǎng)絡經(jīng)過訓練可以生成掩碼,從而提供細粒度信息,如物體的數(shù)量、位置、大小和形狀。作者采用了真實和生成掩模之間的多尺度損失方法,并采用額外的感知損失和全局一致性損失,計劃將圖像掩模作為循環(huán)自動編碼器的輸入,以生成真實逼真的圖像。
文本到圖像的生成方法在特定對象,如動物或花卉的描述中可表現(xiàn)出較好的實驗結(jié)果,但對于具有許多對象和關(guān)系的復雜句子的理解及圖像生成的效果較差。通過基于場景圖的文本到圖像的生成方法,能夠有效地突破對象的限制以及對復雜句式的理解,同樣能夠明確地推理對象及其關(guān)系,通過預測對象的邊界框和分割掩模設計場景布局,將其轉(zhuǎn)換為具有級聯(lián)精化網(wǎng)絡的圖像。Pavllo等人[66]提出了一種用于復雜場景條件圖像生成的弱監(jiān)督方法(weakly-supervised approach,WSA),利用稀疏語義映射來控制對象形狀和類,以及通過文本描述或?qū)傩詠砜刂凭植亢腿謽邮?,能夠很好地控制場景中出現(xiàn)的物體。為了使該模型以文本描述為條件,引入了一個語義注意模塊,該模塊的計算代價與圖像分辨率無關(guān)。為了進一步增強場景的可控性,提出了兩步生成方案,將背景和前景分解,用于訓練模型的標簽映射是由一個大詞匯量對象檢測器生成的,它允許訪問未標記的數(shù)據(jù)并提供結(jié)構(gòu)化的實例信息。
在附加監(jiān)督法的研究中,需要重點突破關(guān)鍵問題區(qū)別于其他方法,這類方法可以從生成圖像控制、場景圖精準匹配、語義結(jié)構(gòu)及邊界問題分離等方面著手,充分引用可視化關(guān)系布局、生成過程動態(tài)調(diào)整及對象關(guān)系融合等附加手段實現(xiàn)高質(zhì)量圖像的生成。例如SGGAN(scene graphs GAN)方法[67]使用了分割掩碼技術(shù),模型架構(gòu)如圖14所示。它將布局嵌入與外觀嵌入分離開來,使研究者能夠更好地控制和生成圖像,從而更好地匹配輸入場景圖,外觀屬性支持從預定義的集合中選擇或者來自另一個圖像的復制。Stacking-GANs方法[68]中場景圖被用來預測物體的初始邊界,該邊界框中每個獨立的主語、謂語和賓語關(guān)系都由邊界框的關(guān)系單位預先定義。由于每個實體可以參與多個關(guān)系,所有關(guān)系單元都被統(tǒng)一,并使用卷積LSTM(long short-term memory)[69]轉(zhuǎn)換成可視化的關(guān)系布局。視覺關(guān)系布局反映了對象和關(guān)系的結(jié)構(gòu)信息,在有條件的、堆疊的GAN架構(gòu)中使用可視化的關(guān)系布局來渲染最終的圖像。PasteGAN[70]使用場景圖和對象來指導圖像生成過程。當場景圖編碼空間排列和交互時,每個對象的外觀由給定的對象物提供。對象物和關(guān)系表達融合在一起,最后輸入到圖像解碼器生成輸出圖像。
圖14 SGGAN模型架構(gòu)Fig.14 Architecture diagram of SGGAN
綜上所述,附加監(jiān)督法構(gòu)建模型時充分將標題、對話、場景圖和語義掩模等內(nèi)容作為監(jiān)督條件,增加了豐富的附加額外標注信息來生成圖像。具備多標題表達、多模型結(jié)構(gòu)、分割掩模向量約束、多階段先驗學習等特點,擁有生成圖像的目標定位、布局控制、復雜句式理解、對象關(guān)系推理等優(yōu)點。減少句子的復雜性和歧義性表達,使生成器能學習到實例的細粒度特征,判別器能提供準確的屬性反饋信息,滿足生成圖像的高分辨率、實例形狀約束、屬性特征與描述的一致性體現(xiàn)等。但該類方法的缺點在于多結(jié)構(gòu)模型的適應性以及附加監(jiān)督信息的依賴性問題,例如針對不同類型目標生成應用,附加信息需要根據(jù)目標特點重新調(diào)整嵌入;對于同類不同物的目標描述存在不穩(wěn)定現(xiàn)象,存在特征屬性像元混疊或錯誤融合的情況;由于該方法涵蓋的模型對象屬性具有特殊針對性(如布局、對話、場景等),單模型缺乏多樣性表達能力。
對合成圖像的質(zhì)量開展量化評估工作存在較大的挑戰(zhàn),早期RMSE(root mean square error)等類似的評估指標并不十分精準,因為合成圖像和真實圖像之間并沒有絕對的一對一的對應關(guān)系。AMT(Amazon mechanical turk)是常用的主觀指標,它根據(jù)觀察主觀認知判定圖像的逼真程度,對合成圖像和真實圖像進行評分。然而不同觀察者對主觀評價結(jié)論存在差異,因此也需要結(jié)合客觀的指標來評估圖像的質(zhì)量。
在圖像分類中,將數(shù)據(jù)放入預先訓練的圖像分類器模型,IS(inception score)根據(jù)分類概率分布的信息墑評估圖像質(zhì)量,Inception評分準則是圖像x越好,條件分布p(y|x)的信息熵越低,意味著分類器對圖像的內(nèi)容有很高的評價。邊際分布p(y)=∫p(y|x=G(z))dz應該具有較高的信息熵,代表模型可生成更多類別的圖像。IS由exp(E x~G(z)DKL(p(y|x)||p(y)))計算得到,Lucic等人[71]在研究中討論了Inception評分的缺點,指出它對標簽的先驗分布不敏銳,難以檢測過擬合現(xiàn)象,并且初始得分還會受到類內(nèi)模式崩潰的影響,不能夠測量類內(nèi)的變化情況。因為模型只需要為每個類別生成一個完整的樣本就可以獲得較高的初始得分,所以它不太適合評估更復雜的數(shù)據(jù)集,尤其是數(shù)據(jù)集圖像中包含多種對象的數(shù)據(jù)。
表1 各文本到圖像生成方法的優(yōu)缺點總結(jié)Table 1 Summary of advantages and disadvantages of each text-to-image method
與Inception評分類似,F(xiàn)CN-score[72(]fully convolutional network score)采用的思想是若合成圖像是真實的,在真實圖像上訓練的分類器就能夠正確地對合成圖像進行分類。然而,圖像分類器并不對輸入圖像的清晰度做要求,這意味著基于圖像分類器的度量指標可能無法準確區(qū)分存在微小細節(jié)差異的兩幅圖像。另外,對抗性例子的研究[73]表明,分類器會受到人眼不可見的噪聲影響,使該度量的準確度下降。
FID(Fréchet inception distance)[74]提供了一種不同的評估技術(shù),主要是測量評估真實圖像與生成圖像之間的特征距離分布。首先生成的圖像被嵌入到Inception網(wǎng)絡所選層的潛在特征空間中,將生成的圖像和真實圖像的嵌入處理為兩個連續(xù)的多元高斯樣本,以方便計算其均值和協(xié)方差。生成圖像的質(zhì)量可以通過兩個高斯函數(shù)之間的Fréchet距離來確定:
式中,(μx,μg)和(Σx,Σg)分別為真實數(shù)據(jù)分布和生成器學習分布中樣本的均值和協(xié)方差。
除了IS、FCN和FID之外,還有GPW(Gaussian Parzen window)[75],GAM(generative adversarial metric)[76]和MS(mode score)[77]等指標。但Inception評分是定量評估合成圖像研究中應用最廣泛的一項指標。Heusel等[74]研究發(fā)現(xiàn)FID與人的判斷較為一致,且FID與生成圖像的質(zhì)量之間存在很強的負相關(guān)關(guān)系。此外,F(xiàn)ID對噪聲的敏感度低于IS,能夠檢測類模式崩潰,且能更好地限制對各種干擾因素的評估[71]。
以下分類歸納了文本到圖像生成的六種方法中具有代表性的模型評估指標,這些方法主要采用CUB、Oxford-102和COCO數(shù)據(jù)集開展研究和評價。直接圖像法結(jié)果評估如表2所示,相比而言,在Oxford-102數(shù)據(jù)集中TAC-GAN較GAN-INT-CLS的IS評估結(jié)果更高,而FID評估具有相同的水平,對于其他數(shù)據(jù)集TACGAN缺少實驗結(jié)果。分層體系結(jié)構(gòu)法評估如表3所示,對于主流的數(shù)據(jù)集,HFGAN相比其他方法,在IS和FID指標評估中均表現(xiàn)出明顯的優(yōu)勢;HDGAN在Oxford-102數(shù)據(jù)中的FID評估結(jié)果最好,為40.02±0.55。注意力機制法評估如表4所示,這類方法的研究者們均采用IS開展評估,SDGAN表現(xiàn)出了最好的效果,對于CUB數(shù)據(jù)集,SEGAN與其表現(xiàn)一致,均達到了4.67。周期一致性法結(jié)果評估如表5所示,這類方法也主要采用IS評估,DM-GAN在CUB和COCO數(shù)據(jù)集中的評估值分別為4.75和30.49,表現(xiàn)出了最好的效果,而DAI-GAN的評估結(jié)果最差。自適應非條件模型法結(jié)果評估如表6所示,對于CUB數(shù)據(jù)集TVBi-GAN的IS評價結(jié)果最佳,為5.03;而COCO數(shù)據(jù)集中Text-Style-GAN表現(xiàn)最好,達到33.00±0.31。附加監(jiān)督法結(jié)果評估如表7所示,因為涉及到如多標題、布局、語義掩碼、場景圖等特點,這類方法的數(shù)量最多,但仍缺少某些數(shù)據(jù)集的評估實驗。根據(jù)IS評估得知,Oxford-102數(shù)據(jù)集中LeicaGAN效果最好,為3.92±0.02,CUB和COCO數(shù)據(jù)集中RiFeGAN表現(xiàn)最佳,評估值分別為5.23和31.70;FID評估主要在COCO數(shù)據(jù)集中開展,WSA的生成圖像具有最高質(zhì)量,達到19.65。
表2 各直接圖像法結(jié)果評估Table 2 Evaluations of direct text-to-image methods
表3 各分層體系結(jié)構(gòu)法結(jié)果評估Table 3 Evaluations of stacked architecture methods
表4 各注意力機制法結(jié)果評估Table 4 Evaluations of attention mechanism methods
表5 各周期一致性法結(jié)果評估Table 5 Evaluations of cycle consistency methods
表6 各自適應非條件模型法結(jié)果評估Table 6 Evaluations of adapting unconditional model methods
表7 各附加監(jiān)督法結(jié)果評估Table 7 Evaluations of additional supervision methods
從文本到圖像生成的方法已經(jīng)歷了長時間的發(fā)展和進步,與2016年提出的基于深度學習的初期體系結(jié)構(gòu)相比,當前主流的方法是采用多個階段式通道和損失評估函數(shù)構(gòu)成的模型,如由生成器和鑒別器組成的GAN模型的損失評估。并且在低分辨率的圖像生成到高分辨率的多種類型目標生成方面,已得到尤為突出的發(fā)展,但生成的目標圖像的細粒度和清晰度仍然具有較大的挑戰(zhàn)。例如采用句子級的描述來表達圖像信息,則生成圖像將缺乏細粒度表現(xiàn),為生成高質(zhì)量圖像,模型及數(shù)據(jù)集對句子和詞語的混合多層次映射關(guān)系具有較高要求。
模型對場景和對象的理解非常重要,目前的研究大多是基于單一目標圖像開展,能夠根據(jù)文字描述獲得高質(zhì)量的生成圖像,但針對多個目標的復雜場景的圖像生成難度較大。單句描述不能夠滿足模型對復雜場景的理解,尤其涉及到生成多對象、相互關(guān)聯(lián)、復雜的場景圖像等情況,未對場景的目標對象合理分解并準確理解。盡管已有部分研究開始注重多目標對象和融合場景的分析,但仍處于初期研究階段,因此在多語句關(guān)聯(lián)句式描述、豐富標簽樣本、場景對象生成等方面的研究工作值得進一步深入和拓展。
盡管目前使用的數(shù)據(jù)集提供了多文本的圖像描述,但針對實際應用中存在的復雜場景的圖像生成,標簽樣本數(shù)據(jù)難以支撐其模型生成。例如自然語言描述的句子或詞語在模型中將被標注成向量,而向量與圖像之間的映射關(guān)系可能存在多對一或一對多的情況,因此數(shù)據(jù)集中的文本描述與圖像屬性的信息豐富度,將決定模型的泛化性、復用性、精準性及適用性。
近些年文本到圖像的生成方法大量集中到GAN模型的研究,盡管已經(jīng)取得顯著進展,但該模型仍然存在自身應用的局限,例如模型準確度問題,深度卷積神經(jīng)網(wǎng)絡模型本身所具備的特點導致模型的可解釋性差,模型權(quán)重值的偏差分布沒有顯式表達,模型訓練過程中捕捉到的重要視覺細節(jié)的文本特征表示會對模型準確性造成影響,并存在生成圖像與真實性之間的偏差。因此鼓勵拓展其他模型及研究方法,例如變分自動編碼模型[16,78]、自回歸模型[79-81]、流轉(zhuǎn)模型[82-83]、分數(shù)匹配網(wǎng)絡[84-86]和基于變壓器模型[87-89]。
評價生成圖像的質(zhì)量、多樣性和語義準確度等標準是具有較大挑戰(zhàn)的難題,也是一個開放性問題[90]。對公開數(shù)據(jù)集中的真實圖像進行IS、FID、FCN-score等指標評估,這些指標均存在不同程度的缺陷。IS可能存在過擬合的情況,需要通過設置更大的Batch-size來改進[91]。Zhang等人[92]已經(jīng)觀察到模型生成的圖像要比真實圖像的FID評估分數(shù)高,原因是目前的訓練模型與評估方法存在相同的文本編碼器,模型在訓練期間就已經(jīng)過度擬合了該度量。IS和FID都使用了在ImageNet上預先訓練過的Inception-v3網(wǎng)絡,這在應用到多個目標對象的復雜場景圖像時會存在問題。Hinz等人發(fā)現(xiàn)[60]IS對擁有多個目標的圖像評估時其多樣性和客觀性較差,例如該方法會將同一類目標分配給不同圖像和場景,并且其輸出層具有較高的熵,解決該問題的一種方法是分別對單一場景開展評估。Sylvain等人[62]訓練了一個從布局到圖像的生成器,并提出了SceneFID(scene Fréchet inception distance,SceneFID)方法,它與FID類似,將應用參數(shù)輸入邊界框識別的目標中,且適用于未將布局作為條件輸入的模型,其特點是能夠使用預先訓練的目標檢測器來定位目標。
目前的許多文獻表明了相同的模型可能會存在不同的評估分數(shù),經(jīng)過統(tǒng)計多篇論文中的模型評估結(jié)果,分析發(fā)現(xiàn)即使采用同樣的方法評估同樣的模型,不同的實驗也將導致指標結(jié)果不一致。分數(shù)的變化取決于實現(xiàn)方式、圖像分辨率、樣本數(shù)量等因素。常見的問題是評估過程沒有得到準確的解釋,并且開源代碼未包含評估代碼。另外,部分研究在不斷更新研究方法的源代碼,存在評估結(jié)論與論文結(jié)果不一致的情況,為了保障論文方法的可重現(xiàn)性,本研究同樣鼓勵研究人員開源評估方法所用的代碼,并提供精確描述。
發(fā)展具有較好適應性的度量指標存在一定困難,且生成模型會展開各方面的配置優(yōu)化,難以獲得具備普遍良好共識的評估效果。在未來的研究中,可以考慮研究能夠?qū)⒏黜椫笜司C合對比的評估方法,將充分考慮其圖像高保真度及多樣性、解耦表達、明確界限、尺度轉(zhuǎn)化不變性、與人類主觀評價的高一致性、計算簡化性等特點。
綜合以上討論,創(chuàng)建一種新穎的、全面的且精準的評估方法存在很大的挑戰(zhàn),如何更好地使用現(xiàn)有的評估指標開展文字到圖像生成的質(zhì)量評估工作,給出以下建議:
(1)建議使用FID評估圖像視覺質(zhì)量并測量真實圖像的距離分布;
(2)若圖像中的目標位置已知,建議使用SceneFID進行目標評估;
(3)建議提供關(guān)于研究模型參數(shù)設置的詳細描述,包括樣本、模型、默認參數(shù)的數(shù)量等具體說明;
(4)建議研究人員不僅開放模型的源代碼,并且開放生產(chǎn)結(jié)果的評估代碼,并附上實現(xiàn)方式及版本號。
本綜述介紹了當前基于深度學習的文字合成圖像的方法及核心特點,并討論這些技術(shù)所面臨的挑戰(zhàn)。本文將現(xiàn)有的文字生成圖像方法分為直接圖像法、多層體系結(jié)構(gòu)法、注意力機制法、周期一致性法、自適應非條件模型法和附加監(jiān)督法,并對這些方法進行了總結(jié)歸納,舉例了已有方法的構(gòu)建思路、模型特點、優(yōu)勢及局限性,突出基于深度學習的方法在文本到圖像生成方面的重要性和先進性。
盡管近些年在基于深度學習的文本到圖像的生成方法研究中已取得重大進展,但技術(shù)研究仍然存在進一步突破和改進的潛力,包括生成高分辨率圖像、生成圖像與文本描述的一致性、多場景適應性應用、生成圖像質(zhì)量評價標準及評估技術(shù)精準度的突破等。在模型架構(gòu)方面,建議開展文本嵌入的重要性和結(jié)果質(zhì)量分析,并探索文本到圖像的生成模型對不同場景的理解與應用。另外,為實現(xiàn)文字到圖像生成的場景應用,對圖像生成過程進行細粒度控制尤為重要。因此,在采用模型實現(xiàn)圖像生成的基礎上,未來研究工作還應側(cè)重于成果迭代及智能交互的實現(xiàn)。
本研究參考了當前主流的圖像生成評估技術(shù)評價文字到圖像的生成質(zhì)量,隨著IS、FID、FCN-score等評估指標技術(shù)的提出,能夠更有效地采用定量指標評估圖像生成的模型質(zhì)量。除了客觀指標評價,研究者的主觀評價也尤為重要,但沒有統(tǒng)一的標準存在,同樣面臨進一步的突破。期望本綜述有助于研究者了解當前文本到圖像生成技術(shù)所面臨的挑戰(zhàn),并為該領域未來的研究發(fā)展提供參考。