亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        判別增強(qiáng)的生成對(duì)抗模型在文本至圖像生成中的研究與應(yīng)用*

        2022-05-27 02:05:42譚紅臣黃世華肖賀文于冰冰劉秀平
        關(guān)鍵詞:語(yǔ)義詞匯特征

        譚紅臣,黃世華,肖賀文,于冰冰,劉秀平

        (1.北京工業(yè)大學(xué)人工智能與自動(dòng)化學(xué)院,北京 100124;2.香港理工大學(xué)計(jì)算機(jī)科學(xué)系,香港 999077;3.大連理工大學(xué)數(shù)學(xué)科學(xué)學(xué)院,遼寧 大連 116024)

        1 引言

        文本至圖像生成任務(wù)是一項(xiàng)基本的跨模態(tài)圖像生成任務(wù),被廣泛應(yīng)用于工業(yè)數(shù)據(jù)庫(kù)構(gòu)建、圖像編輯、故事可視化和跨模態(tài)檢索等智能多媒體任務(wù)中。隨著深度生成模型的發(fā)展,一些表現(xiàn)良好的生成模型,例如變分自編碼[1]、像素循環(huán)模型[2]和生成對(duì)抗網(wǎng)絡(luò)GAN(Generative Adversarial Network)[3]模型等,可以有效地實(shí)現(xiàn)文本至圖像生成任務(wù)。由于GAN在圖像生成任務(wù)中的出色表現(xiàn),當(dāng)前大部分高性能文本至圖像生成算法都是基于GAN構(gòu)建和實(shí)現(xiàn)的。2016 年,Reed等[4]首次提出并采用 GAN實(shí)現(xiàn)文本至圖像生成任務(wù),生成64×64大小的圖像;之后,研究人員提出的StackGAN[5]和StackGAN++[6]則是采用多階段或級(jí)聯(lián)式生成模式將生成圖像的分辨率提高至 256×256,并將KL(Kullback-Leibler)散度約束引入模型中以緩解生成圖像的模式崩塌現(xiàn)象。Zhang等[7]提出的HDGAN也采用級(jí)聯(lián)式生成模式,并引入局部塊判別模型將生成圖像分辨率進(jìn)一步提高至512×512。

        Figure 1 Structure of DE-GAN圖1 DE-GAN的網(wǎng)絡(luò)框圖

        級(jí)聯(lián)式生成模型有效地提升了生成圖像質(zhì)量,但忽視了詞匯對(duì)生成圖像局部語(yǔ)義的引導(dǎo)與增強(qiáng)作用。基于級(jí)聯(lián)式生成模式,注意力生成對(duì)抗模型AttnGAN(Attentional Generative Adversarial Network)[8]首次在GAN的生成模型中引入詞注意力機(jī)制,提出了級(jí)聯(lián)式注意力生成模型,有效輔助了生成模型對(duì)圖像局部細(xì)節(jié)語(yǔ)義的生成與刻畫。鏡面生成對(duì)抗網(wǎng)絡(luò)模型MirrorGAN (Mirrror Generative Adversarial Network)[9]則同時(shí)將全局句子注意力和局部詞注意力引入生成模型中來(lái)增強(qiáng)生成圖像全局和局部的語(yǔ)義表達(dá)?;诩?jí)聯(lián)式生成模型,在語(yǔ)義增強(qiáng)的生成對(duì)抗網(wǎng)絡(luò)SE-GAN(Semantics-Enhanced Generative Adversarial Network)[10]中,作者提出在SE-GAN中使用注意力競(jìng)爭(zhēng)機(jī)制來(lái)幫助詞注意力模塊過(guò)濾非關(guān)鍵詞的注意力信息,保留或增強(qiáng)關(guān)鍵詞注意力信息,以提高圖像關(guān)鍵語(yǔ)義細(xì)節(jié)的生成質(zhì)量。接著,在知識(shí)遷移的生成對(duì)抗網(wǎng)絡(luò)KT-GAN (Knowledge-Transfer Generative Adversarial Network)[11]中,作者提出了文本-圖像交替注意力更新機(jī)制,動(dòng)態(tài)且交替地更新詞匯特征和圖像特征,以增強(qiáng)圖像細(xì)節(jié)的生成?;诩?jí)聯(lián)式生成模式,動(dòng)態(tài)記憶的生成對(duì)抗網(wǎng)絡(luò)DMGAN (Dynamic Memory Generative Adversarial Network)[12]中引入了動(dòng)態(tài)記憶詞注意力機(jī)制,以降低高階級(jí)聯(lián)生成圖像對(duì)初始階段生成圖像質(zhì)量的依賴,并動(dòng)態(tài)調(diào)整詞匯對(duì)圖像局部生成的貢獻(xiàn)度。

        盡管基于注意力機(jī)制引導(dǎo)的生成模型可以有效提升生成圖像細(xì)節(jié)質(zhì)量,但忽視了判別模型對(duì)局部細(xì)節(jié)語(yǔ)義的感知和捕捉能力。在生成對(duì)抗網(wǎng)絡(luò)訓(xùn)練過(guò)程中,判別模型首先通過(guò)一系列卷積操作提取圖像全局特征?;趫D像全局特征,邏輯分類器判別當(dāng)前圖像采樣是生成圖像分布還是真實(shí)圖像分布。相比圖像模態(tài),文本描述通常覆蓋圖像的部分語(yǔ)義。缺少文本語(yǔ)義引導(dǎo),判別模型中的卷積操作很容易忽略圖像中與詞匯相關(guān)的關(guān)鍵語(yǔ)義。由此導(dǎo)致:(1)判別模型對(duì)文本關(guān)鍵語(yǔ)義感知能力差。(2)文本和判別模型提取的圖像全局特征在語(yǔ)義上出現(xiàn)不一致。這樣一來(lái),生成模型容易生成劣質(zhì)的圖像細(xì)節(jié)“迷惑”判別模型。(3)生成圖像與文本描述的語(yǔ)義不一致性。因此,本文的主要策略是在文本至圖像生成算法的判別模型中引入文本詞匯引導(dǎo)注意力機(jī)制,提高判別模型對(duì)文本引導(dǎo)的圖像局部語(yǔ)義感知能力。

        基于以上分析,本文提出了新的文本至圖像生成模型—判別語(yǔ)義增強(qiáng)的生成對(duì)抗網(wǎng)絡(luò)DE-GAN(Discrimination-Enhanced Generative Adversarial Network)模型。在判別模型中引入了詞匯-圖像判別注意力模塊,增強(qiáng)判別模型對(duì)文本引導(dǎo)圖像局部語(yǔ)義的感知,驅(qū)動(dòng)生成模型生成高質(zhì)量的圖像。本文在 CUB-Bird數(shù)據(jù)集[13]上進(jìn)行模型訓(xùn)練與測(cè)試的實(shí)驗(yàn)結(jié)果表明,本文提出的DE-GAN在IS(Inception Score)[14]指標(biāo)上達(dá)到了4.70,相比基準(zhǔn)模型提升了4.2%,達(dá)到了較高的性能表現(xiàn)。

        2 文本至圖像生成的DE-GAN模型

        在文本至圖像的生成中,大部分高性能算法都采用級(jí)聯(lián)式注意力生成模型以生成高質(zhì)量圖像,本文也基于級(jí)聯(lián)式注意力生成模型構(gòu)建DE-GAN。

        2.1 模塊功能和信息流

        (1)文本特征編碼模型:為了提高文本編碼模型對(duì)句子結(jié)構(gòu)的魯棒性,以及句子/詞匯的視覺辨識(shí)能力,本文采用文獻(xiàn)[8]預(yù)訓(xùn)練的雙向長(zhǎng)短時(shí)記憶Bi-LSTM(Bi-directional Long Short-Term Memory)網(wǎng)絡(luò)[14]作為DE-GAN的文本編碼模型來(lái)提取文本描述特征。模型輸入為文本描述,輸出為詞匯特征矩陣W∈RD×T和句子特征向量s∈RD,其中T表示一個(gè)句子中詞匯的數(shù)量,D表示特征維數(shù)。

        (2)條件擴(kuò)張模塊Fca:句子特征向量s通過(guò)條件擴(kuò)張模塊Fca轉(zhuǎn)化為句子特征向量s*。該模塊首次在StackGAN[5]中出現(xiàn),可以緩解生成圖像模式崩塌的問(wèn)題。

        (3)初始化特征過(guò)渡模塊FTM0:該模塊由一系列卷積和上采樣層組成。輸入為句子特征向量s*和噪聲向量z~N(0,1),輸出為圖像特征H0。

        Figure 2 Structure of the word-level attention module圖2 詞注意力模塊的網(wǎng)絡(luò)結(jié)構(gòu)

        DE-GAN生成階段的信息流形式化表示如式(1)所示:

        H0=FTM(z,Fca(s)),

        i=1,2,…,m-1,

        (1)

        (6)判別模型Di:該模塊輸入為圖像(真實(shí)圖像或者生成圖像)、詞匯特征矩陣W和句子特征向量s*,輸出圖像真?zhèn)涡浴?/p>

        2.2 語(yǔ)義增強(qiáng)的判別模型

        基于詞注意力輔助的生成模型可以很好地刻畫圖像細(xì)節(jié)語(yǔ)義,但判別模型僅通過(guò)一系列的卷積模塊提取圖像的全局特征,缺少對(duì)文本引導(dǎo)的關(guān)鍵語(yǔ)義細(xì)節(jié)的感知能力。這樣一來(lái),生成模型很容易生成較差的細(xì)節(jié)迷惑判別模型。為了提高判別模型對(duì)文本引導(dǎo)的關(guān)鍵視覺語(yǔ)義的感知能力,本文在判別模型中引入了詞匯-圖像判別注意力模塊,提出了語(yǔ)義增強(qiáng)判別模型。圖3展示的是語(yǔ)義增強(qiáng)判別模型的網(wǎng)絡(luò)框圖,即圖1中的判別模型Di的網(wǎng)絡(luò)結(jié)構(gòu),其中,H表示圖像特征,F(xiàn)1,F2,…,Fn表示卷積模塊,n為卷積模塊的數(shù)量,f*表示圖像全局特征向量。

        Figure 3 Structure of the semantics-enhanced discriminator圖3 語(yǔ)義增強(qiáng)判別模型網(wǎng)絡(luò)框架

        在語(yǔ)義增強(qiáng)判別模型中,詞匯-圖像判別注意力模塊對(duì)與詞匯語(yǔ)義相關(guān)的圖像子區(qū)域進(jìn)行特征增強(qiáng),以提高判別模型對(duì)關(guān)鍵語(yǔ)義的捕捉能力。接下來(lái),本節(jié)描述詞匯-圖像判別注意力模塊和語(yǔ)義增強(qiáng)判別模型的構(gòu)建步驟。

        為了增強(qiáng)關(guān)鍵詞匯對(duì)圖像局部語(yǔ)義的刻畫,步驟2和步驟3采用DMGAN[12]中的門控機(jī)制對(duì)詞匯特征權(quán)重進(jìn)行調(diào)整。

        (2)

        其中,A和B為1×D的神經(jīng)感知層,σ(·)為sigmoid激活函數(shù)。

        步驟3結(jié)合詞匯特征、圖像子區(qū)域特征和門控權(quán)重,對(duì)詞匯特征權(quán)重進(jìn)行調(diào)整,如式(3)所示:

        (3)

        其中,Mw和Mr為1×1的卷積操作。

        (4)

        步驟5對(duì)相似性權(quán)重矩陣S的元素進(jìn)行規(guī)范化,如式(5)所示:

        (5)

        步驟6對(duì)權(quán)重矩陣θ∈RT×N按T的維度取最大值,得到θ*∈RN,稱θ*為詞匯對(duì)圖像子區(qū)域的相關(guān)性權(quán)重掩膜。

        步驟7利用掩膜矩陣θ*對(duì)圖像特征H∈RN×D進(jìn)行特征增強(qiáng):

        H*=θ⊙H,H*∈RN×D

        (6)

        其中,⊙為哈達(dá)瑪積。

        步驟8將語(yǔ)義增強(qiáng)后的圖像特征H*與圖像特征H進(jìn)行特征相加后輸入后續(xù)卷積模塊F2,…,Fn中,提取圖像全局特征向量f*。

        步驟9判別模型中的邏輯判別器根據(jù)圖像特征向量f*和句子特征向量s*判別圖像真?zhèn)涡院驼Z(yǔ)義匹配性。

        2.3 DE-GAN損失函數(shù)

        如圖1所示,在DE-GAN第i(i=0,1,2)個(gè)階段,生成模型Gi的損失函數(shù)LGi和判別模型Di的損失函數(shù)LDi分別定義如式(7)和式(8)所示:

        (7)

        式(7)中,無(wú)條件損失函數(shù)用來(lái)訓(xùn)練生成模型生成逼真圖像,以至于判別模型無(wú)法判別圖像真?zhèn)涡?基于文本特征的有條件損失函數(shù)用來(lái)約束生成圖像語(yǔ)義盡可能匹配文本語(yǔ)義。

        (8)

        3 實(shí)驗(yàn)與結(jié)果分析

        本文提出的DE-GAN模型是在技嘉GTX 3090Ti類型的顯卡上進(jìn)行訓(xùn)練的,代碼采用Python編寫,采用的深度學(xué)習(xí)框架是PyTorch。

        本文實(shí)驗(yàn)從定性和定量的角度評(píng)價(jià)DE-GAN模型性能。定性評(píng)價(jià):根據(jù)可視化模型在CUB-Bird數(shù)據(jù)集上的生成圖像,主觀評(píng)價(jià)DE-GAN與一些前沿模型生成圖像的視覺效果。定量評(píng)價(jià):計(jì)算模型在CUB-Bird數(shù)據(jù)集上的IS評(píng)價(jià)指標(biāo),進(jìn)行客觀的分析與評(píng)價(jià)。

        與大部分級(jí)聯(lián)式生成模型[4-9,16-21]的設(shè)置相同,DE-GAN一共設(shè)置3個(gè)模塊,即m=3。文本特征編碼模型 (Text Encoder)在DE-GAN模型訓(xùn)練階段的參數(shù)是固定的。在模型的測(cè)試階段,其輸入只有文本描述。

        Figure 4 Image visualization of the proposed DE-GAN model and contrastive models on CUB-Bird dataset圖4 DE-GAN和對(duì)比模型在CUB-Bird數(shù)據(jù)集上可視化生成圖像質(zhì)量比較

        3.1 數(shù)據(jù)集及評(píng)價(jià)指標(biāo)

        CUB-Bird數(shù)據(jù)集包括11 788幅鳥類的圖像,這些圖像隸屬于200種鳥類,并且每幅圖像對(duì)應(yīng) 10條文本描述。本文選擇150種鳥類的數(shù)據(jù)作為訓(xùn)練集,其余50種鳥類數(shù)據(jù)作為測(cè)試集。與大部分文本至圖像生成算法一樣,本文也采用IS[14]來(lái)評(píng)價(jià)生成圖像質(zhì)量。IS指標(biāo)越高,圖像質(zhì)量越高,表示模型生成的圖像具有更好的多樣性和分類準(zhǔn)確性。評(píng)價(jià)過(guò)程中采用StackGAN[5]預(yù)訓(xùn)練的Inception-V3[22]模型提取圖像特征。

        3.2 與前沿模型的比較與分析

        在定量評(píng)價(jià)方面,為了評(píng)價(jià)生成圖像的多樣性和目標(biāo)分類的均衡性,表1展示了本文提出的DE-GAN和一系列前沿模型在CUB-Bird數(shù)據(jù)集上的IS指標(biāo)評(píng)分。如表 1 所示,本文的DE-GAN的IS指標(biāo)評(píng)分達(dá)到了4.70,高于大部分前沿模型的表現(xiàn)。

        在定性評(píng)價(jià)方面,本文通過(guò)可視化方式將DE-GAN的生成圖像與一些前沿模型的生成圖像進(jìn)行比較。如圖4所示,相比較AttnGAN模型和SE-GAN模型所生成的鳥類圖像,本文的DE-GAN生成的圖像質(zhì)量更好,尤其在鳥類翅膀的生成上,DE-GAN可以生成復(fù)雜且逼真的紋理細(xì)節(jié)。盡管AttnGAN和SE-GAN可以較好地刻畫文本描述的語(yǔ)義,但是目標(biāo)的幾何輪廓生成效果較差,而DE-GAN可以生成較好的幾何結(jié)構(gòu)。除此之外,本文提出的DE-GAN的生成圖像在語(yǔ)義上更能反映文本描述,尤其是局部的語(yǔ)義刻畫,包括顏色、屬性和幾何紋理。

        Table 1 IS of the proposed DE-GAN model and contrastive models on CUB-Bird dataset表1 DE-GAN 和對(duì)比模型在CUB-Bird數(shù)據(jù)集上的 IS指標(biāo)結(jié)果

        3.3 消融實(shí)驗(yàn)

        為了驗(yàn)證DE-GAN的有效性,本節(jié)進(jìn)行消融實(shí)驗(yàn)結(jié)果的展示與分析。

        考慮到GPU顯存大小,本文提出的DE-GAN一共有3個(gè)生成階段 (m=3),相應(yīng)地有3個(gè)判別模型,本節(jié)討論將詞匯-圖像判別注意力模塊引入第3個(gè)判別模型—DE-GAN (D3)、引入第2、3個(gè)判別模型—DE-GAN (D3,D2)和引入所有判別模型—DE-GAN (D3,D2,D1)的性能變化,實(shí)驗(yàn)結(jié)果如表2所示。

        Table 2 IS of the ablation experiment表2 消融實(shí)驗(yàn)的IS指標(biāo)結(jié)果

        表2結(jié)果顯示,3種模型的性能皆優(yōu)于基準(zhǔn)模型。但是,DE-GAN (D3,D2)和DE-GAN (D3,D2,D1)的性能差于DE-GAN (D3)的。如圖5所示,在級(jí)聯(lián)式生成任務(wù)中,低階段生成模型通常更著眼于整體結(jié)構(gòu)和目標(biāo)輪廓生成,生成圖像分辨率過(guò)小,這樣一來(lái),卷積后的圖像特征尺寸容易過(guò)小,注意力機(jī)制很難將詞匯語(yǔ)義準(zhǔn)確地對(duì)應(yīng)到相應(yīng)的局部視覺特征上,容易出現(xiàn)局部語(yǔ)義對(duì)應(yīng)的偏倚性,阻礙判別模型判別。

        Figure 5 Image visualization at different stages of the proposed DE-GAN model圖5 DE-GAN不同階段生成圖像可視化

        3.4 模型局限性與討論

        本文提出的DE-GAN仍然存在著圖像生成失敗的案例。如圖6所示,圖中鳥的細(xì)節(jié)紋理生成質(zhì)量較高,但是鳥的幾何外形生成質(zhì)量差。這是因?yàn)樽⒁饬θ鄙賻缀螌傩约s束,使得注意力將細(xì)節(jié)語(yǔ)義傾向于平鋪整幅圖像。

        Figure 6 Failure cases圖6 失敗案例

        未來(lái)的工作包括:(1)約束注意力的幾何信息,進(jìn)一步提高注意力信息幾何屬性的準(zhǔn)確性,提升注意力機(jī)制在文本至圖像生成任務(wù)中的表現(xiàn);(2)將本文提出的詞匯-圖像判別注意力模塊進(jìn)一步推廣到其他圖像生成模型中。

        4 結(jié)束語(yǔ)

        本文提出了新的文本至圖像生成模型—判別語(yǔ)義增強(qiáng)的生成對(duì)抗網(wǎng)絡(luò)DE-GAN模型,并在判別模型中引入了詞匯-圖像判別注意力模塊,提高了判別模型對(duì)文本引導(dǎo)的圖像局部關(guān)鍵信息的感知和捕捉能力,驅(qū)動(dòng)生成模型生成高質(zhì)量圖像。實(shí)驗(yàn)結(jié)果顯示,DE-GAN在CUB-Bird數(shù)據(jù)集上達(dá)到了較高的圖像生成質(zhì)量。

        猜你喜歡
        語(yǔ)義詞匯特征
        本刊可直接用縮寫的常用詞匯
        一些常用詞匯可直接用縮寫
        語(yǔ)言與語(yǔ)義
        如何表達(dá)“特征”
        本刊可直接用縮寫的常用詞匯
        不忠誠(chéng)的四個(gè)特征
        抓住特征巧觀察
        “上”與“下”語(yǔ)義的不對(duì)稱性及其認(rèn)知闡釋
        認(rèn)知范疇模糊與語(yǔ)義模糊
        線性代數(shù)的應(yīng)用特征
        河南科技(2014年23期)2014-02-27 14:19:15
        小荡货奶真大水真多紧视频 | 国产成人午夜精品免费视频| 中国女人a毛片免费全部播放| av在线播放一区二区免费| 欧美黑人巨大videos精品| 精品成人av一区二区三区| 免费一区二区三区在线视频| 亚洲老女人区一区二视频 | 体验区试看120秒啪啪免费| 怡红院a∨人人爰人人爽| 国产免费网站看v片元遮挡| 在线视频播放观看免费| 国产自拍视频免费在线| 欧美人和黑人牲交网站上线| 精品国产91天堂嫩模在线观看| 91蜜桃精品一区二区三区毛片 | 日本高清视频wwww色| 丰满人妻熟妇乱又伦精品视| 国产视频不卡在线| 91九色播放在线观看| 夜夜躁狠狠躁日日躁2022| 亚洲不卡av不卡一区二区| 国产亚洲无码1024| 91麻豆精品国产91久久麻豆| 少妇性饥渴无码a区免费| 欧美成人三级网站在线观看 | 国产精品久久久久精品一区二区| 亚洲av成人一区二区三区在线观看| 3亚洲日韩在线精品区| 一区二区三区视频亚洲| 免费看av在线网站网址| 日本免费人成视频播放| 日本一区二区三区在线视频观看| 青青手机在线观看视频| 国产人妻久久精品二区三区特黄| 亚洲国产精品久久久性色av| 亚洲无人区乱码中文字幕动画| 伊人久久大香线蕉av色| 亚洲一区欧美二区| 粉嫩的18在线观看极品精品| 男人国产av天堂www麻豆|