亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合語(yǔ)義標(biāo)簽和噪聲先驗(yàn)的圖像生成

        2020-06-07 07:07:02張素素倪建成周子力
        計(jì)算機(jī)應(yīng)用 2020年5期
        關(guān)鍵詞:先驗(yàn)實(shí)例注意力

        張素素,倪建成,周子力,侯 杰

        (曲阜師范大學(xué)軟件學(xué)院,山東曲阜273165)

        (?通信作者電子郵箱nijch@163.com)

        0 引言

        圖像生成任務(wù)近年來(lái)已成為計(jì)算機(jī)視覺(jué)領(lǐng)域的研究重點(diǎn),傳統(tǒng)的拍攝技術(shù)易受到時(shí)空的限制,無(wú)法憑空產(chǎn)生不存在的事物。深度學(xué)習(xí)中的圖像生成技術(shù)不僅能自動(dòng)為藝術(shù)家和用戶生成圖像,有助于視覺(jué)理解,而且還推動(dòng)了跨視覺(jué)-語(yǔ)言推理的研究[1],因此,準(zhǔn)確有效地生成高分辨率圖像成為目前研究的關(guān)鍵問(wèn)題之一。

        傳統(tǒng)的圖像生成主要采用非參數(shù)化生成模型和參數(shù)化生成模型:非參數(shù)化生成模型的基本思想是從數(shù)據(jù)庫(kù)中匹配圖像塊,主要應(yīng)用于圖片紋理合成和半自動(dòng)圖像修復(fù);參數(shù)化的圖像生成技術(shù)中的自回歸方法[2]調(diào)節(jié)所有先前像素上的每個(gè)像素為概率似然建模。由于傳統(tǒng)模型直接用數(shù)據(jù)樣本進(jìn)行參數(shù)更新,公式推導(dǎo)較繁雜且模型計(jì)算量較大。

        近年來(lái),深度學(xué)習(xí)在圖像生成領(lǐng)域取得了較好的成果,變分自編碼器(Variational Auto-Encoder,VAE)[3]使用變分推理聯(lián)合學(xué)習(xí)編碼器和解碼器到隱碼和圖像的映射。隨后,級(jí)聯(lián)優(yōu)化網(wǎng)絡(luò)(Cascaded Refinement Network,CRN)[4]使用多個(gè)分辨率倍增的模塊,從真實(shí)語(yǔ)義分割圖生成街景的高分辨率圖像。圖像-圖像翻譯模型[5]進(jìn)一步使用輸入-輸出圖像對(duì)作為訓(xùn)練數(shù)據(jù),將輸入圖像轉(zhuǎn)換為另一個(gè)圖像域。目前,生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Network,GAN)是最常用的生成模型,其聯(lián)合學(xué)習(xí)生成器和判別器?;贕AN的圖像生成通常以文本為輸入,已在簡(jiǎn)單數(shù)據(jù)集上(如鳥(niǎo)、花和人臉)生成了逼真的個(gè)體圖像,但在包含多個(gè)對(duì)象和場(chǎng)景信息的數(shù)據(jù)集上難以生成高質(zhì)量的復(fù)雜圖像。將文本作為輸入,僅以全局句子向量為條件,在單個(gè)實(shí)例級(jí)別上錯(cuò)過(guò)了相關(guān)信息,難以生成高質(zhì)量的復(fù)雜圖像[6],如Hong等[7]提出文本到圖像的生成方法(text2Img),由于簡(jiǎn)短文本描述中的模糊性,對(duì)象的位置和大小未知,使生成過(guò)程難以約束。相較于文本結(jié)構(gòu),Johnson等[8]提出從場(chǎng)景圖到圖像生成方法(sg2im),由于場(chǎng)景圖是較清晰的結(jié)構(gòu)化表示,可用于編碼對(duì)象、屬性和關(guān)系,克服了文本輸入的模糊性;但是場(chǎng)景圖缺乏屬性與空間信息,生成的圖像分辨率較低且紋理較為模糊。

        此外,噪聲作為GAN輸入的重要部分,包含了許多圖像特征信息,但現(xiàn)有方法僅輸入隨機(jī)噪聲,無(wú)法學(xué)習(xí)到圖像屬性信息[9];同時(shí),用引入動(dòng)量的 Adam(Adam with Momentum,AMM)算法[10]優(yōu)化對(duì)抗訓(xùn)練,可解決Adam算法出現(xiàn)的模式崩潰和收斂速度慢等問(wèn)題。

        針對(duì)以上挑戰(zhàn)和限制,本文使用基于語(yǔ)義標(biāo)簽和噪聲先驗(yàn)的生成對(duì)抗網(wǎng)絡(luò)SLNP-GAN進(jìn)行圖像生成。1)為克服文本描述的模糊性和場(chǎng)景結(jié)構(gòu)的復(fù)雜性,直接使用語(yǔ)義標(biāo)簽作為輸入,其包含了對(duì)象位置、空間關(guān)系、大小、形狀等信息;2)為使得圖像生成器學(xué)習(xí)到實(shí)例的全局屬性并使得生成圖像匹配輸入的語(yǔ)義標(biāo)簽,采用有先驗(yàn)知識(shí)的噪聲快速搜索到圖像的特征,初步生成圖像,再結(jié)合注意力機(jī)制合成高分辨率圖像;3)為優(yōu)化訓(xùn)練過(guò)程,使其更穩(wěn)定且收斂更快,用AMM優(yōu)化算法代替常用的Adam算法,提高圖像生成的效率。

        1 SLNP-GAN模型

        GAN是常用的圖像生成模型[11],包括:生成器(G)和判別器(D)。生成器主要用于學(xué)習(xí)真實(shí)圖像的像素分布,使自身生成的圖像更加真實(shí);判別器需要區(qū)分接收的圖像真假。生成器和判別器進(jìn)行最小最大值的訓(xùn)練,兩個(gè)模型相對(duì)抗最后達(dá)到全局最優(yōu)。AttnGAN[12]將注意力機(jī)制[13]引入到圖像生成中,但該模型的輸入仍是簡(jiǎn)單文本形式,傳遞的信息有限且缺乏核心的空間屬性規(guī)范,難以生成有復(fù)雜位置關(guān)系的高質(zhì)量圖像。圖像-圖像轉(zhuǎn)換pix2pixHD[14],由語(yǔ)義標(biāo)簽對(duì)應(yīng)的語(yǔ)義布局生成了具有多個(gè)實(shí)例-關(guān)系復(fù)雜圖像;然而,由語(yǔ)義布局生成圖像是一對(duì)多問(wèn)題,許多圖像可能布局一致,不同外觀的對(duì)象布局也可能相同,使用全局對(duì)象特征,圖像缺少紋理細(xì)節(jié),丟失了實(shí)例級(jí)別的細(xì)粒度信息。

        因此,為了生成高分辨率且匹配輸入語(yǔ)義標(biāo)簽類別和布局的圖像,提出了融合語(yǔ)義標(biāo)簽和噪聲先驗(yàn)的圖像生成模型SLNP-GAN,模型概述如圖1所示。該模型首先直接用語(yǔ)義標(biāo)簽作為輸入,同時(shí)結(jié)合噪聲先驗(yàn)初步生成低分辨率的全局圖像;再使用注意力機(jī)制引導(dǎo)局部細(xì)化生成器進(jìn)行像素級(jí)的合成,進(jìn)一步生成高分辨率的圖像。即:1)輸入語(yǔ)義標(biāo)簽L0,其提供了對(duì)象類別、位置大小和形狀等信息,全局圖像生成器Gimg0利用L0全局嵌入向量和噪聲先驗(yàn)初步生成全局圖像I0;2)由局部細(xì)化生成器Gimg1結(jié)合注意力機(jī)制,為生成的低分辨率圖像的每個(gè)實(shí)例查詢對(duì)應(yīng)于語(yǔ)義標(biāo)簽L1的類標(biāo)簽,細(xì)化不同的區(qū)域,生成更高分辨率的圖像I1。同時(shí)使用相同結(jié)構(gòu)的多級(jí)判別器判別生成圖像的真假,改變輸入的語(yǔ)義標(biāo)簽可實(shí)現(xiàn)不同圖像的生成。

        圖1 SLNP-GAN模型概述Fig.1 Overview of SLNP-GANmodel

        1.1 噪聲先驗(yàn)生成機(jī)制

        早期研究發(fā)現(xiàn)噪聲分布實(shí)際代表圖像屬性和類別等特征信息。作為生成對(duì)抗網(wǎng)絡(luò)的輸入,若先讓噪聲學(xué)習(xí)到圖像特征再輸入網(wǎng)絡(luò),則生成圖像的準(zhǔn)確度能得到提升[15]。

        噪聲先驗(yàn)知識(shí)的學(xué)習(xí)方法是基于變分自編碼器,其由編碼器和解碼器構(gòu)成。變分自編碼器的訓(xùn)練過(guò)程,如圖2所示。編碼器對(duì)輸入高維數(shù)據(jù)進(jìn)行編碼得到低維隱藏層的表達(dá),解碼器對(duì)低維隱藏層解碼來(lái)重構(gòu)和輸入大小相同的高維輸出,輸入和輸出之間的重構(gòu)誤差則是模型優(yōu)化的目標(biāo)函數(shù)。用x表示輸入圖像,h表示潛在變量,x?是重構(gòu)圖像。理想情況下,訓(xùn)練輸出的重構(gòu)圖像應(yīng)該和原圖相似。編碼器(Enc)和解碼器(Dec)分別如式(1)、(2)表示:

        其中:分布q和分布p分別被θ和Φ參數(shù)化,使網(wǎng)絡(luò)從x映射為潛在特征向量h,并由h重構(gòu)圖像x,最后還原為輸出圖像x?。

        圖2 變分自編碼器訓(xùn)練過(guò)程Fig.2 Training process of variational autoencoder

        因此,在VAE模型的基礎(chǔ)上改進(jìn),使用先驗(yàn)知識(shí)的學(xué)習(xí)方法,嘗試在投入模型之前先讓噪聲習(xí)得圖像的實(shí)例屬性,如圖3所示。

        圖3 噪聲先驗(yàn)生成機(jī)制Fig.3 Noiseprior generation mechanism

        與VAE模型不同,本文先將隨機(jī)噪聲z輸入到在數(shù)據(jù)訓(xùn)練集上訓(xùn)練好的VAE解碼器中生成圖像x?,再將其作為VAE編碼器輸入,得到包含圖像屬性的噪聲先驗(yàn)Znp,作為模型的輸入以生成圖像。噪聲先驗(yàn)的具體生成過(guò)程,如圖4所示。

        圖4 噪聲先驗(yàn)生成過(guò)程Fig.4 Processof noiseprior generation

        噪聲先驗(yàn)生成機(jī)制采用解碼-編碼的架構(gòu)。首先對(duì)隨機(jī)噪聲下采樣,該下采樣模塊由步長(zhǎng)為2的3×3卷積層、批量歸一化層和ReLU激活層構(gòu)成,通過(guò)對(duì)隨機(jī)噪聲解碼獲得圖像x?;然后將初步獲得的圖像特征喂入由3個(gè)步長(zhǎng)為1的3×3卷積層和一個(gè)殘差連接構(gòu)成的殘差單元,該殘差模塊使得網(wǎng)絡(luò)有更深的編碼結(jié)構(gòu);最后,對(duì)獲取的圖像特征上采樣進(jìn)行編碼以獲得噪聲先驗(yàn),上采樣模塊由步長(zhǎng)為2的4×4反卷積層、批量歸一化和ReLU激活層構(gòu)成。解碼器、編碼器分別如式(3)、(4)所示:

        訓(xùn)練隨機(jī)噪聲獲得噪聲先驗(yàn),目標(biāo)損失函數(shù)被定義為對(duì)數(shù)似然和先驗(yàn)正則項(xiàng)之和:

        其中:z~N(0,1)是服從正態(tài)分布的隨機(jī)噪聲,DKL是KL散度使用對(duì)數(shù)似然表示重構(gòu)誤差表示先驗(yàn)正則項(xiàng)。加入該正則項(xiàng)以防止出現(xiàn)過(guò)擬合,同時(shí)確保模型重構(gòu)的噪聲先驗(yàn)盡可能準(zhǔn)確。訓(xùn)練過(guò)程中p(x?|z)和q(x?)應(yīng)盡可能接近,以最小化KL散度。

        由此,通過(guò)對(duì)隨機(jī)噪聲進(jìn)行預(yù)訓(xùn)練,對(duì)潛在分布q(x?)增加先驗(yàn)約束,舍棄了與現(xiàn)實(shí)相違背的噪聲數(shù)據(jù),生成了包含圖像特征有先驗(yàn)知識(shí)的噪聲。生成器可以從分布特性明確的噪聲中快速搜索到圖像的屬性特征,解碼出噪聲先驗(yàn),同時(shí)將不低于維度下界的噪聲映射到合理的圖像特征空間,生成基本符合屬性和類別特征的圖像。

        1.2 多階段圖像生成器

        1.2.1 全局生成器

        如圖5(a)所示,隨機(jī)噪聲學(xué)習(xí)到圖像中實(shí)例的屬性,得到有先驗(yàn)知識(shí)的噪聲;同時(shí),全局生成器Gimg0計(jì)算128×128語(yǔ)義標(biāo)簽L0的全局嵌入向量G'∈?Dout,結(jié)合G'和獲得的噪聲先驗(yàn)Znp進(jìn)行語(yǔ)義編碼,并將二進(jìn)制實(shí)例語(yǔ)義編碼聚合為標(biāo)簽映射M i∈ {0,1}H?W?L,其中i∈ (1,2,…,T)表示實(shí)例數(shù),W、H和L分別為實(shí)例的寬、高和類別標(biāo)簽,當(dāng)且僅當(dāng)存在類別為k且覆蓋像素(i,j)的實(shí)例掩碼時(shí),即:Mi,j,k=1 時(shí),在該位置進(jìn)行圖像像素表示。計(jì)算L0的全局嵌入向量G'的同時(shí),對(duì)語(yǔ)義標(biāo)簽L0進(jìn)行下采樣得到μ0,連接M i和μ0,輸入到殘差塊和上采樣層,由隱藏層獲得圖像隱層特征y0,輸送到一個(gè)3×3卷積層,初步合成低分辨率的全局圖像I0,如式(8)、(9)所示:

        其中:Enc(L0)是低分辨率實(shí)例的編碼,F(xiàn)0被建模為神經(jīng)網(wǎng)絡(luò),y0是獲得的圖像隱層特征。式(9)表示全局生成器Gimg0根據(jù)該隱層特征y0生成低辨率圖像I0。

        圖5 SLNP-GAN圖像生成器架構(gòu)Fig.5 Architectureof imagegeneratorsin SLNP-GAN

        1.2.2 局部細(xì)化生成器

        全局圖像I0的生成僅利用全局信息,缺少細(xì)粒度實(shí)例級(jí)別的信息,出現(xiàn)過(guò)度平滑的紋理,沒(méi)有足夠的細(xì)節(jié)和高層次的抽象特征。由于傳統(tǒng)的網(wǎng)格注意力機(jī)制已成功用于圖像-圖像翻譯[16]和圖像問(wèn)答[17],AttnGAN將注意力機(jī)制引入文本-圖像生成任務(wù)中,允許簡(jiǎn)單圖像的生成。受此啟發(fā),本文在語(yǔ)義標(biāo)簽-圖像生成過(guò)程中首次引入注意力機(jī)制,如圖5(b)所示。局部細(xì)化生成器用初步生成的圖像子區(qū)域向量查詢高分辨率語(yǔ)義標(biāo)簽中的相關(guān)實(shí)例,獲得基于背景信息的實(shí)例向量,優(yōu)化調(diào)整以合成匹配實(shí)例標(biāo)簽的更準(zhǔn)確、細(xì)粒度圖像。

        注意力機(jī)制主要有兩個(gè)方面:首先,根據(jù)所有輸入信息獲得注意力分布;然后,根據(jù)注意力分布來(lái)計(jì)算輸入信息的加權(quán)平均。將輸入信息向量X作為信息存儲(chǔ)器,q為作為查詢向量來(lái)選擇X中的相關(guān)信息,該過(guò)程需要被選擇信息的索引。定義變量n為被選擇信息的索引,注意力分布αi表示X中被選擇的第i個(gè)信息與查詢q的相關(guān)程度。則注意力分布αi構(gòu)成的概率向量為:

        其中s(x i,q)是注意力打分函數(shù),可用點(diǎn)積模型計(jì)算:

        其中:x i是輸入的第i個(gè)信息,softmax將權(quán)重歸一化,得到符合概率分布區(qū)間的注意力分配值,用該權(quán)重分布表示不同輸入受關(guān)注的程度。

        最后,利用加權(quán)平均對(duì)輸入信息匯總得到注意力值:

        局部細(xì)化生成器Gimg1引入的注意力機(jī)制,如圖6所示。通過(guò)關(guān)注L1中與I0子區(qū)域?qū)嵗蛄縑region對(duì)應(yīng)的最相關(guān)子標(biāo)簽,來(lái)獲取實(shí)例像素級(jí)別的信息,細(xì)化不同區(qū)域的像素特征。Gimg1使用I0的子區(qū)域向量Vregion來(lái)查詢語(yǔ)義標(biāo)簽L1中有更詳細(xì)信息的相關(guān)實(shí)例向量v i'(如:實(shí)例具體為woman,而非I0中Vregion的person),為每個(gè)的實(shí)例向量v'分配注意力權(quán)重wi,然后由wi計(jì)算輸入信息的加權(quán)和,生成基于背景信息的實(shí)例向量Vcontext,計(jì)算生成圖像的第j個(gè)子區(qū)域時(shí)的背景向量,如式(13):

        其中:v i'是包含詳細(xì)信息的第i個(gè)實(shí)例向量,生成第j個(gè)子區(qū)域時(shí),對(duì)第i個(gè)實(shí)例分配的注意力權(quán)重wj,i使用注意力機(jī)制中權(quán)重分布的計(jì)算公式求解,得到符合概率分布區(qū)間的注意力分配值,如式(14)所示:

        其中:注意力打分函數(shù)sj,i采用點(diǎn)積模型計(jì)算,使用softmax進(jìn)行權(quán)重歸一化。

        圖6 局部細(xì)化生成器的注意力機(jī)制Fig.6 Attention mechanism of local refined generator

        此外,生成過(guò)程中語(yǔ)義標(biāo)簽可能有多個(gè)像素覆蓋同一個(gè)像素點(diǎn),可用實(shí)例級(jí)別的背景向量解決。為生成外觀清晰且真實(shí)的圖像,必須決定用哪個(gè)背景向量對(duì)重疊部分像素表示。因此,求解第i個(gè)實(shí)例的每個(gè)像素Pi與實(shí)例級(jí)別的背景向量的向量外積,如式(15)所示:

        其中:?是向量外積,若多個(gè)像素覆蓋同一個(gè)像素點(diǎn),則對(duì)多個(gè)像素點(diǎn)最大池化,使像素Pi與最相關(guān)的實(shí)例級(jí)別的背景向量Vciontext關(guān)聯(lián),在該位置進(jìn)行像素表示,獲取包含底層細(xì)節(jié)信息向量V。

        與全局生成器不同,如圖5(b)所示,局部細(xì)化生成器為將全局信息從Gimg0整合到Gimg1,Gimg1殘差塊的輸入是含底層細(xì)節(jié)信息的向量V和語(yǔ)義標(biāo)簽L1下采樣信息μ1,以及Gimg0隱藏層的特征y0。然后經(jīng)上采樣獲取I1的隱藏層特征y1,并輸送到3×3卷積層,由Gimg1生成256×256高分辨率圖像I1。如式(16)、(17)所示:

        其中:Enc(L1)是高分辨率實(shí)例編碼,V表示含底層細(xì)節(jié)信息的向量、Vcontext為實(shí)例級(jí)別的背景向量,F(xiàn)1被建模為神經(jīng)網(wǎng)絡(luò)。式(17)表示Gimg1由隱層特征y1生成高分辨率圖像I1。

        因此,SLNP-GAN采用多階段的圖像生成策略。全局生成器結(jié)合噪聲先驗(yàn),直接輸入語(yǔ)義標(biāo)簽,生成了布局和語(yǔ)義標(biāo)簽基本一致的全局圖像;然后局部細(xì)化生成器使用注意力機(jī)制完善局部細(xì)節(jié),生成了256×256圖像。

        1.3 多級(jí)圖像判別器與損失函數(shù)

        為區(qū)分真實(shí)圖像和合成圖像,判別器要有較大的感受野,需要更深的網(wǎng)絡(luò)或更大的卷積內(nèi)核,會(huì)導(dǎo)致容量增加、過(guò)擬合和重復(fù)圖案。為解決該問(wèn)題,對(duì)不同分辨率圖像使用相同架構(gòu)的多級(jí)判別器Dimg0和Dimg1分別進(jìn)行訓(xùn)練。判別器架構(gòu)如圖7所示。

        圖7 圖像判別器架構(gòu)Fig.7 Architecture of imagediscriminator

        首先,連接生成的圖像I和語(yǔ)義標(biāo)簽L,輸送到下采樣塊以產(chǎn)生大小為h'×w'的特征映射。同時(shí)將L的標(biāo)簽嵌入向量Vlabel全連接并進(jìn)行空間平鋪,經(jīng)上采樣計(jì)算判別器的決策分?jǐn)?shù)。雖然二者有相同的結(jié)構(gòu),但是Dimg0在粗粒度級(jí)別指導(dǎo)Gimg0生成和語(yǔ)義標(biāo)簽的布局大體一致的圖像I0,具有最大的感受野和圖像的全局視圖;在細(xì)粒度級(jí)別的Dimg1用于引導(dǎo)Gimg1生成紋理逼真的I1。將低分辨率模型擴(kuò)展到高分辨率僅需在細(xì)粒度級(jí)別添加判別器,無(wú)需從頭重新訓(xùn)練,由此也使得生成器由粗粒度到細(xì)粒度的訓(xùn)練更容易。

        圖像生成器G={Gimg0,Gimg1}和多級(jí)判別器的對(duì)抗訓(xùn)練是多任務(wù)學(xué)習(xí)過(guò)程。GAN交叉熵?fù)p失函數(shù)為:

        其中:x表示真實(shí)圖像,D(x)表示對(duì)真實(shí)樣本進(jìn)行判別,判別結(jié)果越接近1,說(shuō)明模型性能越好;同樣,對(duì)生成樣本G(L)的判別值越接近0,也說(shuō)明模型性能越好。

        生成對(duì)抗網(wǎng)絡(luò)訓(xùn)練過(guò)程具有不穩(wěn)定性,易導(dǎo)致模式崩潰,Johnson等[18]提出了感知損失,該損失能對(duì)超分辨率圖像重構(gòu)并進(jìn)行風(fēng)格轉(zhuǎn)換[19],因此,SLNP-GAN模型采用與之相關(guān)的特征匹配損失[20],從判別器網(wǎng)絡(luò)的多個(gè)層中進(jìn)行特征提取,比較真實(shí)和生成圖像的特征,學(xué)習(xí)匹配真實(shí)和合成圖像的中間表示,使得生成結(jié)果和真實(shí)圖像接近。將Dimgk的第i層特征提取器表示為,則特征匹配損失為:

        其中:Ni為每層元素的數(shù)量,T表示總層數(shù),L和X分別表示語(yǔ)義標(biāo)簽圖和相對(duì)應(yīng)的真實(shí)圖。

        因此,SLNP-GAN的完整目標(biāo)損失函數(shù)為GAN損失函數(shù)和特征匹配損失函數(shù)的加和,如式(20)所示:

        其中:?GAN為GAN損失函數(shù)項(xiàng),?FM為特征匹配損失項(xiàng),λ表示特征匹配損失的權(quán)重分配值。

        1.4 AMM算法優(yōu)化訓(xùn)練

        對(duì)抗網(wǎng)絡(luò)訓(xùn)練通常使用Adam優(yōu)化算法,僅計(jì)算損失函數(shù)的一階梯度,不同的參數(shù)需要設(shè)置不同的學(xué)習(xí)率。由于生成對(duì)抗網(wǎng)絡(luò)的目標(biāo)函數(shù)是復(fù)雜高維且非凸的隨機(jī)函數(shù),該算法在訓(xùn)練時(shí)不穩(wěn)定,可能會(huì)跳過(guò)全局最優(yōu)解,導(dǎo)致模型難以收斂[21]。

        如表1所示,本文使用基于Adam算法和動(dòng)量思想提出的AMM算法,對(duì)Adam的參數(shù)更新進(jìn)行了改進(jìn)。初始時(shí)AMM算法和Adam算法的方向均為PAdamt。其中:δ是常數(shù),初始化為10-8,和分別表示一階矩偏差修正和二階矩偏差修正,由式(21)、(22)所示:

        其中:mt和vt表示梯度和梯度平方的指數(shù)移動(dòng)平均,即梯度的一階和二階原始矩估計(jì);βt1和βt2分別表示β1和β2的t次方,兩者控制指數(shù)移動(dòng)平均mt和vt的衰減速率;g t=?θf(wàn)t(θ)表示第t個(gè)損失函數(shù)中關(guān)于變量θ的梯度向量,即ft關(guān)于θ的偏微分。將mt和vt的初始化為0會(huì)產(chǎn)生誤差,但是這些誤差可以通過(guò)修正消除,從而產(chǎn)生無(wú)偏估計(jì)m?t和v?t。

        表1 AMM和Adam參數(shù)更新對(duì)比Tab.1 Parameter update comparison between AMMand Adamalgorithm

        計(jì)算每一步迭代更新量時(shí),Adam算法僅和初始學(xué)習(xí)率以及原來(lái)方向有關(guān),而AMM算法每步迭代更新量為其上一個(gè)迭代步與Adam當(dāng)前迭代步的加權(quán)之和,其中上個(gè)迭代步所占權(quán)重為α,該更新過(guò)程體現(xiàn)了經(jīng)典動(dòng)量的思想。最后對(duì)時(shí)間步為t的參數(shù)θt進(jìn)行參數(shù)更新時(shí),Adam算法中,θt是t-1時(shí)的參數(shù)θt-1與更新量Δθt之和,AMM算法將參數(shù)θt-1和第t步的迭代更新量之差進(jìn)行參數(shù)更新。

        相比Adam算法,AMM算法結(jié)合了動(dòng)量和基于L2范數(shù)優(yōu)化算法的優(yōu)點(diǎn),更加穩(wěn)定而且收斂速度更快,因此采用AMM算法對(duì)圖像生成任務(wù)優(yōu)化訓(xùn)練,穩(wěn)定訓(xùn)練過(guò)程并加快收斂速度。

        2 實(shí)驗(yàn)結(jié)果與分析

        2.1 實(shí)驗(yàn)環(huán)境與數(shù)據(jù)集

        本文模型采用深度學(xué)習(xí)框架PyTorch 1.2.0,實(shí)驗(yàn)環(huán)境為L(zhǎng)inux 4.4.0-135-generic操作系統(tǒng)。使用單個(gè)顯存為16 GB的Tesla P100在COCO_Stuff和ADE20K數(shù)據(jù)集上分別訓(xùn)練約171 h和163 h。對(duì)于所有數(shù)據(jù)集,生成器和判別器的學(xué)習(xí)率設(shè)置為0.000 1和0.000 4,使用AMM算法優(yōu)化訓(xùn)練,一階矩和二階矩估計(jì)的指數(shù)衰減速率β1,β2設(shè)置為0.9和0.999,其中β1,β2∈ [0,1),常數(shù)δ=10-8,初始化歷史迭代步所占的權(quán)重ω和學(xué)習(xí)率η分別為0.9和0.001。

        COCO_Stuff數(shù)據(jù)集[22]包含182個(gè)語(yǔ)義類,具有像素級(jí)的標(biāo)注。按照COCO_Stuff數(shù)據(jù)集既定的劃分,本文使用118000張訓(xùn)練集、5000張驗(yàn)證集圖像,每張都有5句文本描述和對(duì)應(yīng)的語(yǔ)義標(biāo)簽。

        ADE20K數(shù)據(jù)集[23]中的每個(gè)文件夾包含對(duì)場(chǎng)景分類的圖像,對(duì)于每一張圖像,目標(biāo)和對(duì)象分割被存儲(chǔ)為兩個(gè)不同的文件,所有的圖像和對(duì)象實(shí)例都有注釋。該數(shù)據(jù)集包含150個(gè)語(yǔ)義類的場(chǎng)景,可用于場(chǎng)景的感知、解析、分割、多物體識(shí)別和語(yǔ)義理解。按照ADE20K數(shù)據(jù)集給定的訓(xùn)練集和驗(yàn)證集的劃分,實(shí)驗(yàn)將20 210張圖像作為訓(xùn)練集,2 000張圖像作為驗(yàn)證集。對(duì)于兩個(gè)數(shù)據(jù)集,均使用來(lái)自訓(xùn)練集的標(biāo)簽和圖像配對(duì)數(shù)據(jù)來(lái)訓(xùn)練全局布局和實(shí)例像素合成,使用驗(yàn)證集中的語(yǔ)義標(biāo)簽進(jìn)行圖像生成。

        2.2 實(shí)驗(yàn)評(píng)價(jià)指標(biāo)

        將SLNP-GAN模型生成的圖像輸入語(yǔ)義分割模型,比較預(yù)測(cè)的語(yǔ)義分割掩碼和真實(shí)掩碼的匹配程度。生成圖像與真實(shí)圖像越相似,則語(yǔ)義分割模型預(yù)測(cè)到的標(biāo)簽越接近真實(shí)標(biāo)簽。采用DeepLabV3網(wǎng)絡(luò)獲取平均交并比(mean Intersection over Union,mIoU)和像素精準(zhǔn)度(Pixel Accuracy,PA)指標(biāo)評(píng)估生成圖像的準(zhǔn)確度:

        其中:mIoU是在每個(gè)類的真實(shí)值和預(yù)測(cè)值兩個(gè)集合的交集和并集之比(Intersection over Union,IoU)的均值,k為類的個(gè)數(shù),此處定義為k+1類(包含一個(gè)空類或背景);pii為真正例數(shù),pij和pji分別為假負(fù)例數(shù)和假正例數(shù);PA表示正確分類的像素占總像素的比例。

        同時(shí)利用訓(xùn)練好的Inception v3網(wǎng)絡(luò)來(lái)提取中間層特征,用高斯模型的均值μ和協(xié)方差來(lái)計(jì)算Frechet初始距離(Frechet Inception Distance,F(xiàn)ID)。真實(shí)圖像和生成樣本在特征空間的Frechet距離表示如式(25)所示:

        其中:Tr表示矩陣對(duì)角線上元素的總和,C是協(xié)方差。FID得分越低,表示生成的圖像與真實(shí)圖像越接近,圖像質(zhì)量和多樣性更高,對(duì)噪聲的魯棒性更好。

        2.3 結(jié)果分析與對(duì)比

        SLNP-GAN進(jìn)行多階段圖像生成,如圖8所示。全局生成器由訓(xùn)練得到的噪聲先驗(yàn)學(xué)習(xí)到粗粒度的屬性特征,并且生成了和語(yǔ)義標(biāo)簽布局一致的全局圖像,但是出現(xiàn)了過(guò)度平滑的特征,缺乏細(xì)粒度紋理,第一階段的生成結(jié)果示例如圖8(a)所示;因此,局部增強(qiáng)生成器結(jié)合注意力機(jī)制,查詢高分辨率語(yǔ)義標(biāo)簽中的相關(guān)實(shí)例,獲得了基于背景信息的實(shí)例向量,優(yōu)化調(diào)整合成了匹配實(shí)例標(biāo)簽的更準(zhǔn)確、細(xì)粒度圖像,第二階段的生成結(jié)果示例如圖8(b)所示。

        圖8 不同階段生成結(jié)果示例Fig.8 Result examplesof different generation stages

        輸入相同的語(yǔ)義標(biāo)簽,將SLNP-GAN和不同方法的生成結(jié)果進(jìn)行了對(duì)比,如圖9所示。sg2im方法是由場(chǎng)景圖推測(cè)語(yǔ)義標(biāo)簽,并使用級(jí)聯(lián)優(yōu)化網(wǎng)絡(luò)(Cascaded Refinement Network,CRN)模型將該標(biāo)簽轉(zhuǎn)化為64×64的圖像。由于場(chǎng)景圖缺乏核心對(duì)象屬性和空間交互信息,并且該方法沒(méi)有引入注意力機(jī)制,缺少整體布局的細(xì)粒度編碼信息,難以在正確的位置生成與與布局一致的相關(guān)實(shí)體(如圖9(c)踢足球者缺失人體特征)。此外,由于場(chǎng)景結(jié)構(gòu)僅定義了實(shí)體和簡(jiǎn)單的方位信息,未能解決空間位置接近的對(duì)象像素重疊問(wèn)題,無(wú)法協(xié)調(diào)和其他對(duì)象的像素表示,導(dǎo)致出現(xiàn)了難以分離的不同對(duì)象外觀(如圖9(c)中的公交車(chē)未能和背景像素信息區(qū)分,不同大象的軀干和輪廓不清晰且出現(xiàn)像素遮擋)。

        圖9 在COCO_Stuff數(shù)據(jù)集上不同方法生成圖像對(duì)比Fig.9 Comparison of imagesgenerated by different methodson COCO_Stuff dataset

        text2img模型輸入的是文本,由邊界框生成器和形狀生成器構(gòu)建語(yǔ)義標(biāo)簽,最后經(jīng)圖像生成器生成128×128的圖像。該方法是跨文本-圖像的多模態(tài)生成,由于輸入文本中的每個(gè)單詞都具有描述圖像內(nèi)容的不同級(jí)別的信息,但是text2img僅以單個(gè)句子向量為條件未引入注意力機(jī)制,所有實(shí)例的權(quán)重都相同,沒(méi)有考慮每個(gè)單詞對(duì)生成結(jié)果的影響,缺少每個(gè)實(shí)例和生成圖像整體之間的交互。對(duì)于單一對(duì)象的生成效果較好(如圖9(d)滑雪者和公交車(chē)),但是難以生成包含較多實(shí)例的高分辨率場(chǎng)景,也出現(xiàn)了不同實(shí)例難以分離,像素重疊與特征融合的現(xiàn)象(如圖9(d)大象和踢足球者)。

        而SLNP-GAN直接輸入語(yǔ)義標(biāo)簽而非將其作為中間表示生成圖像,提供了實(shí)例位置形狀等約束,包含不同實(shí)例之間的空間交互關(guān)系,因此,在相應(yīng)的位置都合成了對(duì)應(yīng)的實(shí)例布局。同時(shí),加入的噪聲先驗(yàn)習(xí)得了實(shí)例的全局屬性,根據(jù)布局合成了基本符合現(xiàn)實(shí)屬性信息的實(shí)例。此外,對(duì)于不同實(shí)例像素重疊的問(wèn)題,采用對(duì)多個(gè)像素最大池化,同時(shí)結(jié)合注意力機(jī)制來(lái)獲得最相關(guān)的實(shí)例向量,在該位置進(jìn)行像素表示,解決了不同實(shí)例像素遮擋的問(wèn)題,生成了包含細(xì)粒度的紋理特征。另外,相較于其他直接合成圖像的方法,由于SLNP-GAN采用多階段生成策略,合成了256×256的較高分辨率復(fù)雜圖像(如圖9(e))。

        同時(shí),為避免單一數(shù)據(jù)集可能出現(xiàn)的偏差,使用ADE20K數(shù)據(jù)集也進(jìn)行實(shí)驗(yàn),如圖10所示。輸入語(yǔ)義標(biāo)簽和噪聲先驗(yàn),SLNP-GAN經(jīng)多階段同樣生成了高質(zhì)量的256×256圖像。由于輸入的語(yǔ)義標(biāo)簽提供了全局布局約束,即使對(duì)于復(fù)雜場(chǎng)景,SLNP-GAN也能較好地生成符合語(yǔ)義標(biāo)簽的布局。同時(shí),先驗(yàn)知識(shí)的噪聲作為輸入,摒棄了與現(xiàn)實(shí)違背的噪聲,因此生成的圖像幾乎沒(méi)有不合理的屬性特征。另外,結(jié)合了注意力機(jī)制,對(duì)于包含較多實(shí)例的復(fù)雜場(chǎng)景,該模型也能根據(jù)權(quán)重分配,獲取最相關(guān)實(shí)例向量并進(jìn)行像素表示,幾乎未出現(xiàn)其他模型常見(jiàn)的多個(gè)實(shí)例難以區(qū)分、像素重疊等現(xiàn)象。

        圖10 SLNP-GAN基于ADE20K數(shù)據(jù)集的生成結(jié)果Fig.10 Images generated by SLNP-GAN on ADE20K dataset

        此外,對(duì)噪聲先驗(yàn)的效果進(jìn)行了實(shí)驗(yàn)對(duì)比,如圖11所示。SLNP-GAN在圖像生成中加入有先驗(yàn)知識(shí)的噪聲而非隨機(jī)噪聲。沒(méi)有加入噪聲先驗(yàn),由于隨機(jī)噪聲包含許多與現(xiàn)實(shí)相違背的噪聲數(shù)據(jù),輸入的噪聲包含違背現(xiàn)實(shí)的特征信息,生成器作為映射函數(shù),只能合成粗粒度的圖像,如圖11(c)所示。由于缺少基本的噪聲先驗(yàn)約束,隨機(jī)噪聲各個(gè)維度隨機(jī)取值,各向同性,沒(méi)有側(cè)重性,難以提取到有效特征信息。導(dǎo)致相鄰像素之間出現(xiàn)一致的特征,生成的圖像整體趨近于單模態(tài)且紋理不清晰。加入噪聲先驗(yàn),如圖11(d),模型舍棄了與現(xiàn)實(shí)違背的噪聲,為噪聲增加了先驗(yàn)知識(shí),引導(dǎo)生成器從先驗(yàn)噪聲各個(gè)維度獲取相應(yīng)的特征信息,從而學(xué)習(xí)到全局屬性和多模態(tài)的細(xì)節(jié)特征,生成了符合真實(shí)標(biāo)簽的特征圖像。

        圖11 噪聲先驗(yàn)的效果對(duì)比Fig.11 Effect comparison of noise prior

        基于COCO-Stuff和ADE20K數(shù)據(jù)集的注意力可視化分別如圖12(a)、(b)所示。圖中高亮部分表示生成過(guò)程中每一步關(guān)注的圖像實(shí)例區(qū)域,在局部細(xì)化生成器生成圖像的過(guò)程中,引入的注意力機(jī)制關(guān)注生成圖像的不同區(qū)域并分配注意力,獲取語(yǔ)義標(biāo)簽每個(gè)位置對(duì)應(yīng)的最相關(guān)實(shí)例信息,在該位置進(jìn)行像素級(jí)別的圖像生成,完善不同實(shí)例的細(xì)節(jié)特征。

        圖12 注意力機(jī)制可視化圖Fig.12 Visualization of attention mechanism

        為比較Adam和AMM算法的性能,同時(shí)避免單個(gè)數(shù)據(jù)集的誤差,在COCO_Stuff和ADE20K數(shù)據(jù)集上均進(jìn)行了實(shí)驗(yàn)。對(duì)比結(jié)果如圖13、14所示。

        圖13是Adam和AMM優(yōu)化算法在COCO_Stuff數(shù)據(jù)集上訓(xùn)練時(shí)損失值和收斂的變化,圖14是兩算法在ADE20K數(shù)據(jù)集的性能對(duì)比。實(shí)驗(yàn)均選取了相同的樣本量,參數(shù)β1,β2都被初始化為0.9和0.999,學(xué)習(xí)率均為0.001,圖13、14中的D_real和D_fake指標(biāo)分別代表判別器把生成的圖像判別為真和假。剛開(kāi)始迭代時(shí),二者的損失值在所有數(shù)據(jù)集上都相近。隨著次數(shù)的增加,接近100 000次時(shí),圖13(a)和圖14(a)中Adam的D_fake和D_real對(duì)應(yīng)的損失函數(shù)值接近于0.8,并持續(xù)在0.8附近波動(dòng)且幅度較大;而圖13(b)和圖14(b)中AMM算法在接近50 000次時(shí),D_fake和D_real對(duì)應(yīng)的損失值均已趨近于0.5,并持續(xù)在附近波動(dòng)。對(duì)比可知:在不同的數(shù)據(jù)集上,AMM算法均能將訓(xùn)練的收斂速度提升大約一倍,并縮短收斂時(shí)間;而且在相同的迭代次數(shù)條件下,AMM算法的損失函數(shù)值均小于Adam算法的損失值,波動(dòng)幅度更小而且訓(xùn)練更穩(wěn)定。

        圖13 基于COCO_Stuff數(shù)據(jù)集的訓(xùn)練性能對(duì)比Fig.13 Comparison of trainingperformanceon COCO_Stuff dataset

        最后,將生成的圖像輸入到語(yǔ)義分割網(wǎng)絡(luò)DeepLabV3中得到mIoU和PA評(píng)估值,并用Inception v3網(wǎng)絡(luò)提取中間層特征獲得FID指標(biāo),在COCO_Stuff和ADE20K數(shù)據(jù)集上不同方法的評(píng)價(jià)指標(biāo)對(duì)比,分別如表2和表3所示。

        表2 COCO_Stuff數(shù)據(jù)集上不同方法的評(píng)價(jià)指標(biāo)對(duì)比Tab.2 Comparison of evaluation metrics between different methods on COCO_Stuff dataset

        表3 ADE20K數(shù)據(jù)集上不同方法的評(píng)價(jià)指標(biāo)對(duì)比Tab.3 Comparison of evaluation metrics between different methodson ADE20K dataset

        圖14 基于ADE20K數(shù)據(jù)集的訓(xùn)練性能對(duì)比Fig.14 Comparison of trainingperformanceon ADE20K dataset

        表2、表3的結(jié)果表明,相較于text2img,SLNP-GAN模型在COCO_Stuff和ADE20K數(shù)據(jù)集分別將mIoU值提高了18.18%和17.74%,像素準(zhǔn)確度(PA)增長(zhǎng)了23.73%和11.09%,F(xiàn)ID值降低了19.71%和19.80%。由于sg2im和text2img的輸入分別為場(chǎng)景結(jié)構(gòu)和文本,而SLNP-GAN直接輸入語(yǔ)義標(biāo)簽,能夠合成更符合語(yǔ)義布局的圖像。因此,將生成結(jié)果喂入Inception v3網(wǎng)絡(luò),得到的語(yǔ)義分割圖與真實(shí)標(biāo)簽的匹配度較高,得到了較高的平均交并比(mIoU)值。此外,其他方法直接輸入隨機(jī)噪聲,沒(méi)有摒棄與現(xiàn)實(shí)不符的噪聲數(shù)據(jù),而本文使用噪聲先驗(yàn),學(xué)習(xí)全局圖像屬性特征,生成的圖像包含合理的像素特征,像素精準(zhǔn)度(PA)最高。同時(shí),引入的注意力機(jī)制給不同的實(shí)例分配了不同的權(quán)重,在有像素重疊的區(qū)域選擇最相關(guān)的實(shí)例進(jìn)行像素特征表示,生成結(jié)果與真實(shí)圖像距離較近,F(xiàn)ID最低。而sg2im和text2img沒(méi)有區(qū)分生成圖像的不同實(shí)例權(quán)重,出現(xiàn)大量的實(shí)例遮擋、像素重疊等問(wèn)題,像素精準(zhǔn)度較低,而且生成樣本和真實(shí)圖像在特征空間的距離相差較大(FID值較高)。對(duì)比可知,SLNP-GAN使用語(yǔ)義標(biāo)簽直接作為輸入,加入噪聲先驗(yàn)并結(jié)合注意力機(jī)制能生成高質(zhì)量的準(zhǔn)確圖像。

        3 結(jié)語(yǔ)

        針對(duì)復(fù)雜語(yǔ)義標(biāo)簽生成以實(shí)例為中心的圖像分辨率不高而且訓(xùn)練效率低的問(wèn)題,使用基于語(yǔ)義標(biāo)簽和噪聲先驗(yàn)的SLNP-GAN模型在COCO_Stuff和ADE20K數(shù)據(jù)集上進(jìn)行真實(shí)且高分辨率圖像的生成。首先,使用訓(xùn)練獲得的噪聲先驗(yàn)學(xué)習(xí)到全局圖像屬性提升生成結(jié)果的準(zhǔn)確度,同時(shí)用語(yǔ)義標(biāo)簽替代文本或場(chǎng)景圖直接作為輸入;然后,結(jié)合注意力機(jī)制生成包含細(xì)粒度紋理信息的圖像;最后,使用AMM算法對(duì)圖像生成模型進(jìn)行優(yōu)化,使得訓(xùn)練更穩(wěn)定且收斂更快。實(shí)驗(yàn)結(jié)果表明,SLNP-GAN模型在不同的數(shù)據(jù)集上都可以生成分辨率更高的圖像、訓(xùn)練過(guò)程較穩(wěn)定而且損失函數(shù)值更小。然而圖像

        生成效率和分辨率仍需進(jìn)一步提升和完善,后續(xù)工作重點(diǎn)將集中于由知識(shí)圖譜推理得到相應(yīng)的語(yǔ)義標(biāo)簽,以端到端的方式由一張語(yǔ)義標(biāo)簽生成多張圖像以及視頻合成的研究。

        猜你喜歡
        先驗(yàn)實(shí)例注意力
        讓注意力“飛”回來(lái)
        基于無(wú)噪圖像塊先驗(yàn)的MRI低秩分解去噪算法研究
        “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
        基于自適應(yīng)塊組割先驗(yàn)的噪聲圖像超分辨率重建
        A Beautiful Way Of Looking At Things
        基于平滑先驗(yàn)法的被動(dòng)聲信號(hào)趨勢(shì)項(xiàng)消除
        先驗(yàn)的廢話與功能的進(jìn)路
        完形填空Ⅱ
        完形填空Ⅰ
        隔壁人妻欲求不满中文字幕| 国语自产偷拍精品视频偷| 亚洲av综合av国产av| 成人国产午夜在线视频| 亚洲精品123区在线观看| 国产精品亚洲婷婷99久久精品| 国产成人亚洲精品一区二区三区 | 亚洲av成人无码久久精品老人| 色一情一乱一伦| a亚洲va欧美va国产综合| 亚洲国产精品久久久久秋霞1| 久久青青草视频免费观看| 色偷偷亚洲精品一区二区| 精品亚洲天堂一区二区三区| 国内熟女啪啪自拍 | 久久精品波多野结衣中文字幕| 亚洲国产成人Av毛片大全| 熟女人妻一区二区中文字幕| 亚洲中文字幕日韩综合| 亚洲va韩国va欧美va| 情侣黄网站免费看| 日子2020一区二区免费视频| 国产亚洲无码1024| 中文字幕人妻av一区二区| 亚洲av成人综合网成人| 手机看片久久国产免费| 妇女性内射冈站hdwwwooo| 91福利国产在线观看网站| 久久精品国产亚洲av日韩精品| 91精品国产92久久久| 天天爽夜夜爽人人爽一区二区 | 日韩毛片在线看| 亚洲AV秘 片一区二区三区| 精品人妻午夜中文字幕av四季| 中文字幕在线看精品乱码| 娜娜麻豆国产电影| ā片在线观看| 亚洲精品成人av观看| 极品新娘高清在线观看| 国产一级内射视频在线观看| 国产男女猛烈无遮挡免费网站|