亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        關(guān)注全局真實度的文本到圖像生成①

        2022-06-29 07:48:30胡瑩暉劉興云
        計算機系統(tǒng)應(yīng)用 2022年6期
        關(guān)鍵詞:特征文本實驗

        胡 成, 胡瑩暉, 劉興云

        (湖北師范大學(xué) 物理與電子科學(xué)學(xué)院, 黃石 435002)

        從文本生成圖像是計算機視覺領(lǐng)域十分重要的一大方向, 即通過給定輸入文本語句, 生成相對應(yīng)內(nèi)容的圖像, 具有廣泛的應(yīng)用. 例如小說配插圖、圖像編輯、圖像的檢索等等. 生成對抗網(wǎng)絡(luò)(GAN)[1]被應(yīng)用在文本生成圖像上取得了一定的可觀效果. Reed 等[2]最先將GAN 應(yīng)用到文本生成圖像中, 生成了肉眼可接受的64×64分辨率的圖像, 驗證GAN 在文本生成圖像的可行性. Zhang 等[3]提出堆疊式的結(jié)構(gòu)(StackGAN), 將任務(wù)階段化, 逐步細(xì)化生成的圖片, 生成圖像達到256×256分辨率. 后來, Zhang 等人改進了StackGAN,提出端到端樹狀結(jié)構(gòu)的StackGAN++[4], 通過多尺度的判別器和生成器, 提高了生成圖像的質(zhì)量和清晰度, 但是圖像整體亮度偏暗淡, 與數(shù)據(jù)集樣本存在偏差, 同時缺少生成圖像真實度的判定.

        注意力機制在圖像和自然語言處理方面有著廣泛的應(yīng)用. Zhang 等[5]提出的SAGAN 首次將自我注意力機制與GAN 結(jié)合, 減少參數(shù)計算量的同時, 也聚焦了更多的全局信息. Fu 等[6]提出雙重注意力機制, 在空間和通道兩個維度進行特征融合, 用于語義分割. Tang 等[7]結(jié)合雙重注意力機制, 應(yīng)用于語義圖像合成.

        受到以上實驗的啟發(fā), 針對出現(xiàn)的問題, 我們提出結(jié)合雙重注意力機制的端到端模型, 該模型基于Stack-GAN++基本結(jié)構(gòu), 以雙重注意力機制去最大化融合文本和圖像的特征, 樹狀結(jié)構(gòu)生成低到高分辨率(128×128)的圖像; 添加VGG19[8]預(yù)訓(xùn)練模型, 提取生成圖像和真實圖像特征, 計算相似度損失.

        該模型旨在提高生成圖像的全局真實度. 全局真實度指圖像內(nèi)容的完整度, 顏色的鮮明度, 場景的對比度和亮度符合人眼視覺感知的程度.

        我們在CUB[9]鳥類數(shù)據(jù)集上驗證了該方法, 并使用IS 和SSIM 指標(biāo)判定生成圖像的多樣性、質(zhì)量和全局真實度. 實驗結(jié)果分析證明, 與原有技術(shù)相比, 我們模型生成的圖像一定程度上呈現(xiàn)了更多的鳥類特征,并提升了整體的亮度和顏色鮮明度, 使生成圖像感知上更加接近于真實圖像.

        1 模型及方法

        1.1 模型結(jié)構(gòu)

        本文網(wǎng)絡(luò)結(jié)構(gòu)整體框圖如圖1 所示. 結(jié)構(gòu)主要由文本編碼器、2 個生成器、3 個判別器和VGG19 網(wǎng)絡(luò)構(gòu)成. 文本編碼器使用文獻[10]中提供的字符級編碼器(char-CNN-RNN), 生成器采用前后級聯(lián)的方式, 第一個生成器包含1 個全連接層和4 個上采樣層, 第二個生成器包含連接層, 空間和通道注意力模塊, 2 個殘差網(wǎng)絡(luò)[11]和1 個上采樣層. VGG19 網(wǎng)絡(luò)作為額外約束, 判別生成圖像和真實圖像的相似度.

        圖1 模型結(jié)構(gòu)

        網(wǎng)絡(luò)大致分為兩個階段, 每個階段都包含多個輸入, 如式(1)所示:

        其中, φ表示文本編碼器,ci表示全局句子向量,Fca表示條件增強模塊,Fi表示全連接層,Gj表示生成器,Ii表示生成器輸出.

        1.1.1 雙重注意力機制

        由于圖像像素區(qū)域和文本存在對應(yīng)關(guān)系, 不同通道存在依賴關(guān)系, 我們引入空間和通道注意力機制, 輸入為文本向量和低分辨率特征的融合矩陣, 引導(dǎo)生成器更多關(guān)注整體特征的關(guān)聯(lián)性和匹配度. 由于高分辨率圖像是在低分辨率圖像的基礎(chǔ)上進行細(xì)化, 所以低分辨率圖像的好壞決定著最終輸出的好壞. 雖然低分辨率圖像更加的模糊, 缺少細(xì)節(jié), 但是卻保留著更多的全局特征. 所以我們將機制放置在G1 的連接層后, 即殘差模塊前, 引導(dǎo)生成器在低分辨率維度上關(guān)注更多的全局特征. 注意力機制模塊如圖2, 圖3 所示.

        圖2 空間注意力模塊(SAM)結(jié)構(gòu)

        圖3 通道注意力模塊(CAM)結(jié)構(gòu)

        對于通道注意力模塊而言, 輸入是文本向量和上階段圖像矩陣連接后卷積得到的特征圖(h∈RC×H×W).其流程對應(yīng)公式如式(2):

        其中, ωq∈RC×H×W、ωk∈RC×H×W、ωv∈RC×H×W分別代表特征圖經(jīng)過三個通道的1×1 卷積后得到的特征矩陣. 對 ωq和 ωk轉(zhuǎn)置應(yīng)用一次矩陣乘法, 隨后經(jīng)過Softmax層得到位置注意力映射圖, 再與特征矩陣 ωv進行一次矩陣乘法運算, 最后乘上權(quán)重因子 σ和輸入特征圖(h)逐元素相加得到輸出, 以此來增強通道特征圖之間的語義依賴性. 權(quán)重因子初始化為0, 并逐步學(xué)習(xí)變化.

        空間注意力機制忽略了通道間的語義關(guān)聯(lián)性, 關(guān)注像素間的特征信息, 運算與通道注意力機制類似. 兩個模塊輸出最后從通道維度進行拼接, 得到最終的結(jié)果.

        1.1.2 VGG19

        增強型超分辨率生成對抗網(wǎng)絡(luò)(ESRGAN)[12]中指出, 使用VGG19 的第5 個maxpool 層前的最后一層卷積層去提取圖像特征, 使得生成圖像特征在亮度和顏色感知上更接近于真實圖像. 受其啟發(fā), 我們引入VGG19的前35 層網(wǎng)絡(luò)層進行預(yù)訓(xùn)練處理, 用來提取生成圖像和真實圖像的特征, 求取兩者的L1 損失, 作為生成圖像真實度的判別約束.

        1.2 時間復(fù)雜度

        空間注意力模塊輸入C×H×W矩陣, 計算相似特征圖的時間復(fù)雜度為O(CN2)(N=H×W),Softmax的時間復(fù)雜度為O(N2), 加權(quán)求和的時間復(fù)雜度為O(CN2),所以空間注意力模塊的時間復(fù)雜度為O(CN2). 以此類推, 通道注意力模塊的時間復(fù)雜度為O(C2N). 而該模型生成器的最后一層卷積層的時間復(fù)雜度為O(N4kC2)(k=3,表示卷積核大小)由于N=64×64,C=64, 所以O(shè)(CN2)>O(N4kC2), 即雙重注意力模塊在本實驗中,雖然取得良好的效果, 但增加了算法的時間復(fù)雜度, 在訓(xùn)練時間上并不占優(yōu)勢.

        1.3 損失函數(shù)

        1.3.1 生成器損失

        生成器損失包含非條件損失和條件損失兩部分.非條件損失用來判別圖像是真實的或是虛假的; 條件損失用來判別圖像和文本是否匹配.

        其中,Gj(fi)表示生成器的輸出.j=0,1, 代表兩個生成器.Ii表示生成的第i個圖像, 來自于生成圖像分布pGi

        兩個生成器對應(yīng)兩個尺度的圖像分布生成, 各自后面接一個判別器. 不同尺度生成圖像送入判別器中,計算交叉熵?fù)p失, 返回真假概率和圖像文本匹配概率.生成器Gj和判別器Di兩者交替優(yōu)化, 以致收斂.LG值越小, 代表優(yōu)化效果越好.

        1.3.2 判別器損失

        判別器損失包含非條件損失、條件損失和真實度損失3 部分.

        其中,L1 表示真實度損失. 由VGG19 提取真實圖像和不同尺度圖像的特征空間, 送入判別器計算L1 范數(shù)距離損失, 通過最小化損失, 達到優(yōu)化效果.

        Ri: 第i個真實圖像, 來自于真實圖像分布pdatai.

        Ii: 生成的第i個圖像, 來自于生成圖像分布pGi.

        μ: 損失系數(shù), 設(shè)其值為0.001.

        非條件損失分別計算真實圖像、各個尺度生成圖像的交叉熵?fù)p失, 優(yōu)化判別器判別真假的能力. 條件損失采用正負(fù)對比計算, 正計算包括真實圖像和對應(yīng)標(biāo)簽, 生成圖像和對應(yīng)標(biāo)簽兩個組合, 負(fù)計算指真實圖像和不對應(yīng)標(biāo)簽. 通過正負(fù)對比學(xué)習(xí), 優(yōu)化判別器判別圖像文本匹配能力.

        2 實驗結(jié)果和分析

        2.1 實驗環(huán)境

        本文實驗基于搭載GTX1070i 顯卡的CentOS 7 操作系統(tǒng), 使用Python 2.7 編程語言, PyTorch 框架.

        實驗設(shè)置訓(xùn)練過程中生成器和判別器學(xué)習(xí)率為0.0001, batch_size 為8, 迭代次數(shù)為160 次.

        2.2 實驗數(shù)據(jù)集及評估指標(biāo)

        2.2.1 數(shù)據(jù)集

        本文實驗方法在CUB200-2011 數(shù)據(jù)集上進行驗證. CUB200-2011 數(shù)據(jù)集由加州理工學(xué)院提出, 共包含11788 張鳥類圖像, 200 種鳥類, 每張圖像對應(yīng)10 個文本描述語句. 除類別標(biāo)簽外, 每個圖像都會用1 個邊界框、15 個零件關(guān)鍵點和312 個屬性進行進一步注釋.其中, 訓(xùn)練集8855 張圖像, 測試集2933 張圖像, 如表1.

        表1 實驗數(shù)據(jù)集

        2.2.2 評估指標(biāo)

        本文采用Inception Score (IS)和SSIM作為評估標(biāo)準(zhǔn).IS基于預(yù)先在ImageNet 數(shù)據(jù)集[13]上訓(xùn)練好的Inception V3 網(wǎng)絡(luò). 其計算公式如下:

        其中,x~pG表示生成的圖片,y表示Inception V3 預(yù)測的標(biāo)簽,DKL表示KL 散度

        公式表明,IS評估生成圖像的多樣性和質(zhì)量, 好的模型應(yīng)該生成清晰且多樣的圖像, 所以邊際分布p(y|x)和條件分布p(y)的KL 散度越大越好, 即IS值越大越好. 但是IS存在不足之處, 它不能判定生成圖像的真實度, 所以我們引入SSIM指標(biāo).

        SSIM(structural similarity), 結(jié)構(gòu)相似性度量指標(biāo),已被證明更符合人眼的視覺感知特性. 我們用其評估生成圖像的真實度.SSIM包含亮度、對比度、結(jié)構(gòu)3 個度量模塊. 其計算公式如下:

        亮度對比函數(shù):

        對比度對比函數(shù):

        結(jié)構(gòu)對比函數(shù):

        最后把3 個函數(shù)組合起來得到SSIM指數(shù)函數(shù):

        2.3 實驗結(jié)果及比較

        我們將模型在CUB 數(shù)據(jù)集的訓(xùn)練集上進行訓(xùn)練,并在測試集上進行了驗證實驗. 下圖展示訓(xùn)練過程中收斂的判別器損失和生成器損失, 以及IS值.

        結(jié)合圖4、圖5 我們看出, 判別器損失逐步收斂到(2, 3)區(qū)間, 保持平穩(wěn)震蕩; 生成器損失逐步上升到(25, 30)區(qū)間, 基本保持緩慢上升的趨勢. 模型判別器和生成器形成對抗趨勢, 逐步保持平衡狀態(tài).

        圖4 判別器損失

        圖5 生成器損失

        由圖6 看出, 我們的模型IS值最高可達到5.6 左右.

        圖6 Inception Score

        為了節(jié)省內(nèi)存占用率, 我們將StackGAN++縮減為兩個階段, 生成128×128分辨率的圖像, 在CUB 數(shù)據(jù)集上進行訓(xùn)練和測試. 并和我們的方法的測試結(jié)果進行了對比, 實驗結(jié)果如圖7 所示.

        由圖7 可以很明顯觀察到, StackGAN++模型生成的128×128分辨率的圖像亮度偏暗, 與真實圖像存在差異. 我們的方法生成的圖像顏色更加的鮮艷, 圖像整體更加的明亮, 在背景顏色、鳥類形狀和整體感知上, 更加地接近真實圖像. 同時, 鳥類的羽毛紋理更加的豐富,例如圖7(b)–圖7(d).

        圖7 測試結(jié)果示例

        我們列舉以往不同模型在CUB 數(shù)據(jù)集上的IS值,進行一個對比, 見表2. 我們所提方法評估的IS值能夠達到5.4, 高于所比較的以往模型.

        表2 各模型在CUB 上的IS 值

        為了定量地評估我們模型對真實度提升的貢獻,我們用SSIM指標(biāo)在生成圖像和真實圖像做相似性評估, 在StackGAN++模型和我們模型做了對比實驗, 見表3.

        表3 模型在CUB 上的SSIM 值

        由表3 看出, 相同模型下, 更高分辨率的生成圖像具有更高的SSIM值, 符合圖像質(zhì)量提升導(dǎo)致真實度提升的邏輯. 以此為前提, 對比不同模型在相同分辨率的SSIM值, 我們的模型值更高, 則圖像真實度相比更高.結(jié)合實驗結(jié)果圖來看, 我們模型生成的圖像人眼感知與真實圖像樣本也更加相似.

        3 結(jié)論

        本文提出一種以堆疊式結(jié)構(gòu)為基礎(chǔ), 著重關(guān)注圖像全局特征真實度的生成對抗網(wǎng)絡(luò), 應(yīng)用于文本生成圖像任務(wù). 實驗結(jié)果證明, 同以往的模型對比, 結(jié)果圖像更加專注于全局特征, 顏色的鮮明度和整體視覺效果更加具有真實感, 更接近于真實圖片. 這是因為我們引入雙重注意力機制引導(dǎo)圖像學(xué)習(xí)對應(yīng)文本的更多特征; 使用真實感損失約束, 提高生成圖像的真實感. 在文本單詞向量級別, 增添圖像子區(qū)域的細(xì)節(jié), 提升文本和圖像的語義一致性, 應(yīng)用于更加復(fù)雜的數(shù)據(jù)集, 會是接下來研究的一個方向.

        猜你喜歡
        特征文本實驗
        記一次有趣的實驗
        如何表達“特征”
        在808DA上文本顯示的改善
        做個怪怪長實驗
        不忠誠的四個特征
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        抓住特征巧觀察
        NO與NO2相互轉(zhuǎn)化實驗的改進
        實踐十號上的19項實驗
        太空探索(2016年5期)2016-07-12 15:17:55
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        久久久人妻一区精品久久久| 亚洲人成无码www久久久| 伊人色综合视频一区二区三区| 国产福利美女小视频| 亚洲国产一区一区毛片a| 久久婷婷五月综合色丁香| 东方aⅴ免费观看久久av| 国产精品系列亚洲第一| 国产一区二区三区在线影院| 真人做爰试看120秒| 中文字幕日本特黄aa毛片| 久久久久国产亚洲AV麻豆| 久久久国产精品三级av| 色噜噜亚洲男人的天堂| 国产亚洲一区二区手机在线观看| 亚洲高清有码在线观看| 人妻少妇中文字幕专区| 国产爆乳美女娇喘呻吟| 国产又色又爽无遮挡免费 | 欧洲乱码伦视频免费| 小池里奈第一部av在线观看| 久久只精品99品免费久23| 岛国av无码免费无禁网站下载| 成人国产自拍在线播放| 国产一区二区三区仙踪林| 日本精品αv中文字幕| 亚洲偷自拍另类图片二区| 最好的99精品色视频大全在线| 疯狂三人交性欧美| 亚洲精品国产成人无码区a片| 亚洲国产日韩在线精品频道| 日韩av天堂一区二区三区在线| 女人脱了内裤趴开腿让男躁| 欧洲色综合| 国产黄色看三级三级三级| 日韩 亚洲 制服 欧美 综合 | 国产高清乱理伦片| yw193.can尤物国产在线网页| 亚洲一区二区国产一区| 麻豆影视视频高清在线观看| 男人的天堂在线无码视频|