亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        使用孿生注意力機(jī)制的生成對(duì)抗網(wǎng)絡(luò)的研究*

        2020-05-13 04:51:44武隨爍楊金福許兵兵
        計(jì)算機(jī)與生活 2020年5期
        關(guān)鍵詞:注意力框架卷積

        武隨爍,楊金福,單 義,許兵兵

        1.北京工業(yè)大學(xué) 信息學(xué)部,北京 100124

        2.計(jì)算智能與智能系統(tǒng)北京市重點(diǎn)實(shí)驗(yàn)室,北京 100124

        1 引言

        通過學(xué)習(xí)高維數(shù)據(jù)分布產(chǎn)生新樣本的生成模型被廣泛應(yīng)用于諸如語音合成[1]、圖像風(fēng)格轉(zhuǎn)換[2]、圖像修復(fù)[3]等領(lǐng)域,目前最具典型的生成模型有變分自編碼器[4]、自回歸模型[5]以及生成對(duì)抗網(wǎng)絡(luò)(generative adversarial network,GAN)[6],它們都有各自的優(yōu)勢和劣勢。變分自編碼器容易訓(xùn)練,但由于模型的限制,往往會(huì)生成模糊的結(jié)果。自回歸模型通過直接模擬條件分布雖然能產(chǎn)生較好的結(jié)果,但沒有潛在的表示,且評(píng)估速度慢,適用性不強(qiáng)。生成對(duì)抗網(wǎng)絡(luò)可以生成較為清晰的圖像,即使在較小的分辨率和類別變化有限的圖像上,其也能將隨機(jī)噪聲以無監(jiān)督的方式映射成圖像,具有無限建模能力。綜合分析上述三種方法,生成對(duì)抗網(wǎng)絡(luò)具有最好的生成圖像能力并具有無限發(fā)展空間,以最大似然估計(jì)為基礎(chǔ)理論的變分自編碼器和自回歸模型則不具備無限建模的能力,生成的圖像也沒有生成對(duì)抗網(wǎng)絡(luò)那樣逼真。

        生成對(duì)抗網(wǎng)絡(luò)已成為生成模型中的一個(gè)研究熱點(diǎn),吸引了眾多學(xué)者,將該模型應(yīng)用在計(jì)算機(jī)視覺領(lǐng)域的眾多方向。Ledig 等人[7]將其應(yīng)用于單張圖像的超分辨率,取得了良好的效果。Tang 等人[8]使用生成對(duì)抗網(wǎng)絡(luò)模擬正常胸部X 射線的基礎(chǔ)內(nèi)容結(jié)構(gòu),進(jìn)行異常胸部X 射線識(shí)別。Jo 等人[9]將生成對(duì)抗網(wǎng)絡(luò)應(yīng)用于人臉編輯,使用戶根據(jù)草圖修改人的面部。

        2 生成對(duì)抗網(wǎng)絡(luò)

        生成對(duì)抗網(wǎng)絡(luò)是GoodFellow 等人[6]于2014 年提出的生成模型,該框架包含兩個(gè)子網(wǎng)絡(luò),即生成器(G)和判別器(D),它們對(duì)應(yīng)的功能分別為將隨機(jī)噪聲映射成樣本分布、鑒別真實(shí)樣本與生成的樣本。與其他生成模型(直接以數(shù)據(jù)分布和模型分布的差異作為損失函數(shù))不同的是,GAN 采用對(duì)抗的方式,先通過D學(xué)習(xí)真實(shí)樣本和生成樣本的差異,再引導(dǎo)G生成更靠近真實(shí)樣本分布的假樣本,通過交替訓(xùn)練不斷縮小差異。目前,GAN 主要優(yōu)化以下最大最小損失函數(shù)達(dá)到納什均衡:

        (1)一種僅通過輸入隨機(jī)噪聲訓(xùn)練無條件生成器的模型。

        (2)一種用于不同域之間數(shù)據(jù)遷移的新技術(shù),是域間無監(jiān)督圖像轉(zhuǎn)換的有效方法。

        (3)一種新的優(yōu)化方法,并且提供有效的圖像感知損失函數(shù)[12]。

        雖然GAN 取得了較大的進(jìn)步,有效生成了令人信服的圖像,但還存在一些問題亟待解決:

        (1)GAN 的訓(xùn)練過程極其不穩(wěn)定,網(wǎng)絡(luò)對(duì)超參數(shù)十分敏感,很難達(dá)到納什均衡。

        (2)GAN 經(jīng)常出現(xiàn)模型崩潰,導(dǎo)致模型只模擬真實(shí)分布的一部分,而不是目標(biāo)分布的所有分布。

        (3)GAN 不能捕捉圖像中某些類別中的結(jié)構(gòu)和幾何形狀。

        現(xiàn)有的大量工作多致力于優(yōu)化GAN 的訓(xùn)練過程,有些專注于改變GAN 的目標(biāo)函數(shù),例如LSGAN(least squares generative adversarial networks)[13]將標(biāo)準(zhǔn)GAN 的交叉熵?fù)p失換成最小二乘損失,既提高了訓(xùn)練的穩(wěn)定性又縮短了訓(xùn)練時(shí)間。有些專注于通過梯度懲罰或歸一化約束D的梯度,確保D可以為G提供有效的梯度,WGAN(Wasserstein generative adversarial networks)[14]模型對(duì)D實(shí)施限制,使其滿足Lipschitz約束,大大提升網(wǎng)絡(luò)的穩(wěn)定性。雖然WGAN 滿足Lipschitz 約束,但其直接對(duì)參數(shù)矩陣進(jìn)行限制,這種做法破壞了參數(shù)矩陣的結(jié)構(gòu),即各參數(shù)之間的關(guān)系。針對(duì)該問題,文獻(xiàn)[15]引進(jìn)一種新正則化技術(shù),既滿足Lipschitz約束,又不破壞參數(shù)矩陣結(jié)構(gòu)。

        此外,還有一些研究論文旨在修改GAN 的框架。

        EBGAN(energy-based generative adversarial networks)[16]

        是第一個(gè)將能量模型引入GAN 的框架,它把D看作一個(gè)能量模型,采用自編碼器結(jié)構(gòu),真實(shí)樣本賦予低能量,假的生成樣本賦予高能量,通過減小生成樣本的重構(gòu)誤差,逐漸向真實(shí)樣本分布靠近。ProGAN(progressive generative adversarial networks)[17]通過逐步增強(qiáng)G和D來訓(xùn)練一個(gè)高分辨率GAN,其首先從低分辨率圖像開始訓(xùn)練,然后通過向網(wǎng)絡(luò)添加層來逐步提高分辨率,這種訓(xùn)練方法首先發(fā)現(xiàn)大規(guī)模的結(jié)構(gòu)圖像分布,然后將注意力轉(zhuǎn)移到越來越精細(xì)的比例細(xì)節(jié),而不是同時(shí)學(xué)習(xí)所有比例,但其只在單一特征圖像上產(chǎn)生較好的結(jié)果。SAGAN(self-attention generative adversarial networks)[18]通過對(duì)加強(qiáng)特征圖各局部位置和全局位置的聯(lián)系,試圖使GAN 在多類別圖像上生成高質(zhì)量圖像,但其忽略了特征圖各通道之間的聯(lián)系。

        本文針對(duì)GAN 不能捕捉圖像中某些類別中的結(jié)構(gòu)和幾何形狀,提出一種基于孿生注意力機(jī)制的GAN 模型,它可以通過自適應(yīng)學(xué)習(xí)局部與全局特征的依賴性以及各類別間的依賴性,有效地捕獲圖像的幾何結(jié)構(gòu)和分布,從而描繪出更細(xì)致逼真的圖像。

        3 孿生注意力機(jī)制

        圖像生成是計(jì)算機(jī)視覺中的一個(gè)重要的研究方向,GAN 框架的出現(xiàn)使該方向的研究取得了巨大的進(jìn)展。該模型擅長合成如數(shù)字、海洋和天空等較少結(jié)構(gòu)約束的圖像,但在種類較多的數(shù)據(jù)集上訓(xùn)練困難,無法捕捉某些類中多次出現(xiàn)的幾何結(jié)構(gòu)和形狀。造成該問題的原因可能是目前的模型過度依賴卷積模擬圖像不同區(qū)域間的依賴性,由于卷積具有局部感受野,因此只能通過多個(gè)卷積操作才能得到大范圍區(qū)域間的依賴性。如圖1 所示,僅獲取7×7 感受野間的特征關(guān)系就需要3 個(gè)3×3 大小的卷積層,但在卷積操作的過程中,優(yōu)化算法可能難以協(xié)調(diào)這么多卷積層,而且越多的卷積層捕獲的依賴關(guān)系越弱。如果擴(kuò)大卷積核的大小,如采用7×7 大小的卷積核,僅通過一個(gè)卷積層就可以獲取7×7 感受野間的特征依賴性,但這樣做不僅沒有采用幾個(gè)小濾波器卷積層組合的效果好,而且會(huì)大大增加計(jì)算量。故僅通過卷積層獲取圖像間的依賴關(guān)系甚為困難。

        Fig.1 Schematic diagram of obtaining 7×7 receptive fields by different convolution kernels圖1 不同卷積核獲取7×7 感受野示意圖

        針對(duì)CNN 無法有效捕捉圖像的幾何結(jié)構(gòu)和形狀的問題,有學(xué)者將廣泛應(yīng)用在其他領(lǐng)域[19]的注意力模型引入GAN,彌補(bǔ)CNN 框架的不足。注意力模型的本質(zhì)是通過一系列的注意力分配系數(shù),即權(quán)重系數(shù),來強(qiáng)調(diào)或選擇目標(biāo)對(duì)象的重要信息,并且抑制一些無關(guān)的細(xì)節(jié)信息。注意力機(jī)制可以靈活且一步到位地捕捉局部和全局的聯(lián)系,提升模型的表示能力,且模型復(fù)雜度小。因此,為了生成更高質(zhì)量的圖像,本文提出一種基于孿生注意力機(jī)制的GAN 框架(twins attention mechanism based generative adversarial network,TAGAN),引入兩個(gè)不同的注意力模型,即特征注意力模型和通道注意力模型,分別捕獲特征空間和通道兩個(gè)維度上的特征依賴性。下面具體介紹本文提出的模型框架。

        3.1 特征注意力機(jī)制

        為了在特征圖的局部特征中增添其與全局特征的依賴性信息,引入一個(gè)特征注意力模型,該模型通過將廣泛的全局空間信息進(jìn)行編碼,增添到局部特征信息中,從而增強(qiáng)其表示能力,具體框架如圖2 所示,其中C代表特征圖的通道數(shù),H和W分別表示特征圖的高和寬。

        Fig.2 Feature attention model圖2 特征注意力模型

        首先,前一層的特征圖X∈?C×H×W經(jīng)1×1 卷積形成R、S、T三個(gè)特征空間,各特征空間的通道數(shù)量分別為C/8、C/8、C。其中對(duì)特征空間R和S的轉(zhuǎn)置進(jìn)行矩陣乘法,再應(yīng)用softmax,得到特征注意力層的參數(shù),具體參數(shù)值由式(2)計(jì)算得到。

        其中,pj,i表示第i個(gè)位置的特征對(duì)第j個(gè)位置的特征的影響,兩個(gè)位置的特征越相似,它們之間的相關(guān)性就越大。然后,對(duì)特征空間T與特征注意力層的轉(zhuǎn)置進(jìn)行矩陣乘法操作,得到特征注意力特征圖P=(P1,P2,…,Pj,…,P(H×W))∈?C×(H×W)。

        3.2 通道注意力機(jī)制

        對(duì)于特征圖,每個(gè)不同的通道可視為代表特定的類,不同的通道彼此具有關(guān)聯(lián)性,故提出通道注意力模型,提取不同通道間的依賴性,通道注意力模型框架如圖3 所示。

        Fig.3 Channels attention model圖3 通道注意力模型

        與特征注意力需要對(duì)特征圖X∈?C×H×W進(jìn)行卷積不同,通道注意力直接使用特征圖X計(jì)算通道注意力特征層參數(shù),但計(jì)算過程類似,計(jì)算公式如式(4)所示。

        其中,qm,n為第n個(gè)通道對(duì)第m個(gè)通道的影響,兩個(gè)通道的特征越相關(guān),它們之間的依賴性就越大。另外,對(duì)通道注意力特征層和輸入特征空間X的轉(zhuǎn)置執(zhí)行矩陣乘法,最后輸出通道注意力特征圖Q=(Q1,Q2,…,Qm,…,Q(H×W))∈?C×(H×W)。

        3.3 孿生注意力機(jī)制

        圖4 所示為孿生注意力模型框架圖,將輸入的特征圖與特征注意力模型和通道注意力模型的輸出P和Q融合,得到具有局部與全局特征依賴信息、各類別依賴信息的特征空間E∈?C×H×W,其計(jì)算公式如式(6)所示。

        其中,α和β分別為P和Q的超參數(shù),初始化為0,通過反向傳播更新。在網(wǎng)絡(luò)訓(xùn)練過程中,隨著兩個(gè)注意力模型從簡單的特征依賴性開始,逐漸學(xué)習(xí)到復(fù)雜的依賴關(guān)系,P和Q的權(quán)重α和β逐漸增加,將注意力模塊學(xué)習(xí)到的加權(quán)的特征圖加在原始的特征圖上,從而強(qiáng)調(diào)了需要施加注意力部分的特征圖。在G和D的高層網(wǎng)絡(luò)中,孿生注意力機(jī)制作為一個(gè)GAN 的輔助結(jié)構(gòu),級(jí)聯(lián)在CNN 之后。如圖5 所示為TAGAN 網(wǎng)絡(luò)訓(xùn)練流程圖,其中CNN 表示卷積操作,TA 表示引入的孿生注意力機(jī)制,通過G和D不斷循環(huán)交替訓(xùn)練,G生成愈來愈逼真的圖像。

        Fig.4 Twins attention mechanism framework圖4 孿生注意力模型框架

        4 實(shí)驗(yàn)結(jié)果與分析

        Fig.5 Twins attention based generative adversarial network圖5 孿生注意力生成對(duì)抗網(wǎng)絡(luò)框架

        在實(shí)驗(yàn)過程中,引入譜歸一化[15]和SeLU(scaled exponential linear unit)[20]技術(shù),損失函數(shù)采用Hinge對(duì)抗損失[21]。譜歸一化是一種權(quán)重歸一化技術(shù),用于穩(wěn)定D的訓(xùn)練過程。通過譜歸一化約束D的梯度,確保D可以給G提供有效的梯度。在網(wǎng)絡(luò)傳播時(shí),激活函數(shù)SeLU 可以自動(dòng)將樣本分布推向零均值和單位方差??紤]到SeLU 的歸一化特性一定程度上也可以穩(wěn)定D,因此本文采用結(jié)合譜歸一化和SeLU來穩(wěn)定D的訓(xùn)練過程,單獨(dú)使用譜歸一化調(diào)節(jié)G,通過Hinge 對(duì)抗損失,交替優(yōu)化G和D。本文實(shí)驗(yàn)是在MNIST、CIFAR10 和CelebA64 數(shù)據(jù)集上進(jìn)行訓(xùn)練。MNIST 是手寫體數(shù)字識(shí)別數(shù)據(jù)集,包含0 至9 共10個(gè)數(shù)字。CIFAR10 是一個(gè)包含飛機(jī)等交通工具、鹿等動(dòng)物10 個(gè)類別的,32×32 像素圖像的數(shù)據(jù)集。CelebA64 是一個(gè)每張圖像為64×64 像素的人臉圖像數(shù)據(jù)集。本文實(shí)驗(yàn)使用的深度學(xué)習(xí)框架和計(jì)算機(jī)運(yùn)行環(huán)境如下:Pytorch,Ubuntu16.04,計(jì)算機(jī)處理器為Intel Xeon?E5-2683 v3,顯卡為GeForce GTX 1070。

        為驗(yàn)證本文提出的孿生注意力機(jī)制生產(chǎn)對(duì)抗網(wǎng)絡(luò)模型的有效性,與流行的WGAN-GP(Wasserstein generative adversarial networks-gradient penalty)[22]和同樣使用注意力機(jī)制的SAGAN[18]進(jìn)行比較。與其他類似單純增加批次尺寸來擴(kuò)大參數(shù)量不同的是,這幾個(gè)模型的共同特點(diǎn)是結(jié)構(gòu)簡單,參數(shù)量相對(duì)較少,僅占用較小的GPU 內(nèi)存,使用這種相似的GAN 框架模型作對(duì)比,更能驗(yàn)證所提方法的有效性。生成的圖像如圖6 所示,圖(a)、(d)、(g),圖(b)、(e)、(h)和圖(c)、(f)、(i)分 別 是SAGAN、WGAN-GP 和TAGAN 生成的圖像,圖(a)、(b)、(c),圖(d)、(e)、(f)和圖(g)、(h)、(i)分別為利用MNIST、CIFAR10 和CelebA64 數(shù)據(jù)集訓(xùn)練的GAN 模型生成的圖像。SAGAN 模型因?yàn)橥瑯邮褂昧俗⒁饬C(jī)制,其生成的圖像風(fēng)格與TAGAN 的圖像相似,但SAGAN 生成的圖像出現(xiàn)較多的異常結(jié)構(gòu)圖像,尤其是在復(fù)雜的CIFAR10 數(shù)據(jù)集上,如圖(d)所示。究其原因,SAGAN 雖然通過注意力模型捕獲了單張?zhí)卣鲌D上的特征依賴關(guān)系,但無法捕捉各通道之間的聯(lián)系,無法整合各個(gè)類別間的依賴信息,故未能成功捕獲圖像的所有幾何特征和結(jié)構(gòu)。從圖(h)可明顯看出,WGAN-GP 生成的圖像有尖銳的鋸齒狀邊緣,沒有引入注意力機(jī)制的GAN 框架生成的圖像平滑。從3 幅MNIST 圖像也可明顯看出,圖(b)比圖(a)和圖(c)模糊。SAGAN 和WGAN-GP 因?yàn)闊o法完全模擬真實(shí)樣本的結(jié)構(gòu)分布而出現(xiàn)較多的無序圖像。與它們相比,TAGAN 圖像表現(xiàn)出更好的有序性,能夠更好地捕捉真實(shí)樣本的特征信息去模擬幾何結(jié)構(gòu),使圖像看起來更逼真,例如圖(i)所示,混亂圖像大大減少,繪畫出的人臉圖像也更逼真更細(xì)致。

        Fig.6 Comparison of generated images by TAGAN,SAGAN and WGAN-GP圖6 TAGAN 與SAGAN、WGAN-GP 生成圖像對(duì)比

        此外,GAN 學(xué)習(xí)作為一個(gè)無監(jiān)督的過程,很難找到一個(gè)客觀、可量化的評(píng)估指標(biāo)。有許多指標(biāo)在數(shù)值上雖然高,但生成結(jié)果未必好,可能出現(xiàn)數(shù)值結(jié)果與人的主觀判斷結(jié)果相反的現(xiàn)象。為了客觀評(píng)價(jià)TAGAN,本文采用一種相對(duì)有效且被廣泛采用的評(píng)估方法——FID(Frechet inception distance)[23]。FID將真實(shí)樣本x和生成樣本g建模為高斯隨機(jī)變量,其樣本均值為μx和μg,樣本協(xié)方差為Σx、Σg。兩個(gè)高斯分布的距離可通過式(7)計(jì)算。

        FID 作為兩個(gè)分布之間的距離,數(shù)值越低表示兩個(gè)分布越接近。生成的MNIST、CelebA64和CIFAR10圖像與真實(shí)樣本間的FID 數(shù)值如表1 所示。TAGAN在3 個(gè)數(shù)據(jù)集上的表現(xiàn)都優(yōu)于SAGAN 和WGAN-GP的結(jié)果,表明TAGAN 生成的圖像樣本分布與真實(shí)樣本分布更接近,能有效捕捉圖像局部與全局特征之間的依賴、單個(gè)類別和多個(gè)類別之間的依賴關(guān)系,生成更高質(zhì)量的圖像。

        Table 1 FIDs with different GAN frameworks on MNIST,CIFAR10 and CelebA64表1 不同GAN 方法在MNIST、CIFAR10和CelebA64 上的FID 值

        5 結(jié)束語

        針對(duì)傳統(tǒng)GAN 無法有效提取圖像局部與全局特征間依賴關(guān)系以及各類別間依賴關(guān)系的問題,提出一種基于孿生注意力機(jī)制的生成對(duì)抗網(wǎng)絡(luò)模型,包含特征注意力和通道注意力兩個(gè)子模型。以注意力機(jī)制為驅(qū)動(dòng),兩個(gè)子模型分別對(duì)局部特征和全局間依賴關(guān)系以及各類別間的依賴關(guān)系進(jìn)行建模,用于圖像生成任務(wù)。在3 個(gè)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),結(jié)果表明本文提出的框架比其他框架能夠更全面地獲取圖像中的特征信息,生成的圖像結(jié)構(gòu)分布也與真實(shí)分布更為接近。在未來的工作中,將致力于生成更復(fù)雜的高分辨率圖像。

        猜你喜歡
        注意力框架卷積
        讓注意力“飛”回來
        框架
        基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
        廣義框架的不相交性
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        基于傅里葉域卷積表示的目標(biāo)跟蹤算法
        “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
        WTO框架下
        法大研究生(2017年1期)2017-04-10 08:55:06
        A Beautiful Way Of Looking At Things
        一種基于OpenStack的云應(yīng)用開發(fā)框架
        日本女优禁断视频中文字幕| 国产乱对白刺激视频| 国产农村妇女毛片精品久久| 97久久天天综合色天天综合色hd | a级国产乱理伦片| 黑人玩弄人妻中文在线| 国产成人精品午夜福利在线| 亚洲精品国产熟女久久| 在线不卡精品免费视频| 国产av精品麻豆网址| 天天爽天天爽夜夜爽毛片| 国产在线观看免费观看| 国产av一区二区三区丝袜| 中文少妇一区二区三区| 青青草亚洲视频社区在线播放观看| 久久精品黄aa片一区二区三区| 国产在线成人精品| 欧美一级鲁丝片免费一区| 女同亚洲一区二区三区精品久久| 无遮掩无码h成人av动漫| 欧美精品videossex少妇| 精品国产黑色丝袜高跟鞋| 亚洲欧美在线视频| 自拍偷区亚洲综合激情| av免费不卡国产观看| 极品粉嫩嫩模大尺度无码 | 国语对白自拍视频在线播放| 亚洲精品久久激情国产片| 色欲aⅴ亚洲情无码av蜜桃| 无码午夜剧场| 亚洲精品视频免费在线| 中文字幕女同人妖熟女| 97午夜理论片影院在线播放| 狼人国产精品亚洲| 手机在线观看成年人视频| 亚洲国产中文字幕在线视频综合 | 黄色a级国产免费大片| 国产欧美精品一区二区三区–老狼 | 免费在线亚洲视频| 色妞一区二区三区免费视频| 国产午夜免费高清久久影院|