亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        多級(jí)注意力傳播驅(qū)動(dòng)的生成式圖像修復(fù)方法

        2022-06-18 10:37:40曹承瑞劉微容史長(zhǎng)宏張浩琛
        自動(dòng)化學(xué)報(bào) 2022年5期
        關(guān)鍵詞:編碼器注意力語義

        曹承瑞 劉微容 史長(zhǎng)宏 張浩琛

        圖像修復(fù)是指對(duì)圖像中缺失或損壞區(qū)域進(jìn)行修復(fù)重建的過程,它是計(jì)算機(jī)視覺技術(shù)領(lǐng)域的重點(diǎn)研究?jī)?nèi)容之一,其在圖像編輯、圖像渲染等諸多領(lǐng)域具有重要實(shí)用價(jià)值[1?8].如何在圖像破損區(qū)域合成與現(xiàn)有上下文區(qū)域結(jié)構(gòu)語義一致、內(nèi)容準(zhǔn)確、細(xì)節(jié)豐富的局部圖像信息,是圖像修復(fù)方法需要解決的難點(diǎn)問題.

        根據(jù)所利用特征級(jí)別的不同,現(xiàn)有圖像修復(fù)方法可分為兩大類:1)利用低級(jí)非語義特征的方法;2)利用高級(jí)語義特征的方法.其中,利用低級(jí)非語義特征的圖像修復(fù)方法為傳統(tǒng)的圖像修復(fù)方法,通?;跀U(kuò)散或圖像塊匹配機(jī)制將非破損區(qū)域的低級(jí)特征 “粘貼”到破損區(qū)域.此類方法對(duì)特定的圖像缺損類型有著優(yōu)秀的修復(fù)效果.例如基于擴(kuò)散的方法將圖像信息從破損區(qū)域邊界往內(nèi)部進(jìn)行傳播,可以有效地修復(fù) “抓痕”這樣的細(xì)小破損.基于圖像塊匹配的方法在背景修復(fù)方面性能強(qiáng)大,并廣泛應(yīng)用于商用軟件中.然而,此類利用低級(jí)非語義特征的圖像修復(fù)方案無法對(duì)破損區(qū)域的上下文進(jìn)行深入理解,即無法獲取圖像的高級(jí)語義特征,使得此類方法對(duì)高度模式化的圖像(比如人臉)無法實(shí)現(xiàn)很好的修復(fù)效果.

        利用高級(jí)語義特征的方法,從大規(guī)模數(shù)據(jù)中學(xué)習(xí)高級(jí)語義特征,大大提升了修復(fù)性能.其中,基于生成式對(duì)抗網(wǎng)絡(luò)GANs[9](Generative adversarial nets)的方法已成為圖像修復(fù)領(lǐng)域的主流.基于GANs的方法將圖像修復(fù)問題轉(zhuǎn)化為基于條件生成對(duì)抗網(wǎng)絡(luò)[10]的條件生成問題.此類方法通常以破損圖像與標(biāo)定破損區(qū)域的掩碼作為條件輸入,采用自動(dòng)編碼器網(wǎng)絡(luò)作為生成器來重建缺損區(qū)域的內(nèi)容,并結(jié)合判別器網(wǎng)絡(luò)以對(duì)抗方式訓(xùn)練,最終得到完整的圖像輸出.為有效地綜合利用圖像上下文區(qū)域的特征,GL[11](Globally and locally consistent image completion)引入級(jí)聯(lián)擴(kuò)張卷積,并將其集成到自動(dòng)編碼器網(wǎng)絡(luò)的 “瓶頸區(qū)”.雖然擴(kuò)張卷積可以在一定程度上將遠(yuǎn)距離特征納入其感受野中,以達(dá)到綜合利用遠(yuǎn)距離特征的目標(biāo);但是擴(kuò)張卷積有較大的空穴區(qū)域,以規(guī)則對(duì)稱的網(wǎng)格方式采樣圖像特征,從而造成遠(yuǎn)距離重點(diǎn)區(qū)域特征被忽略.MC[1](Multi-column convolutional),CA[2](Contextual attention)

        以及CI[12](Contextual-based inpainting)等方案采用單級(jí)上下文注意力方案,計(jì)算圖像上下文的語義相似度,顯式地從破損圖像的未破損區(qū)域中借取有意義的圖像表達(dá),緩解了遠(yuǎn)距離特征無法有效利用的問題.

        然而,以上這些方法通常無法為場(chǎng)景復(fù)雜圖像的缺損區(qū)域生成結(jié)構(gòu)合理、細(xì)節(jié)豐富的內(nèi)容.如圖1(b)所示,修復(fù)結(jié)果圖像中明顯存在整體性或局部性結(jié)構(gòu)錯(cuò)亂,此外生成圖像還存在語義特征重建不夠細(xì)致的問題,即對(duì)圖像語義(比如人臉圖像的眼睛、鼻子等部分)重建比較模糊.

        圖1 當(dāng)前圖像修復(fù)方法所存在的結(jié)構(gòu)和細(xì)節(jié)問題展示Fig.1 The structure and detail issues encountered in current image inpainting method

        如圖2 所示為當(dāng)前主流圖像修復(fù)方案通常采用的自動(dòng)編碼器生成網(wǎng)絡(luò).缺損圖像經(jīng)過編碼器編碼得到淺層特征,將淺層特征送入 “瓶頸區(qū)”進(jìn)行特征提取,然后再由解碼器解碼為完整圖像.我們通過研究發(fā)現(xiàn)此類自動(dòng)編碼器結(jié)構(gòu)存在非常嚴(yán)重的特征傳遞受阻問題,其 “瓶頸區(qū)”高級(jí)特征的截面過大(一般為64×64 像素大小).大截面特征使得擴(kuò)張卷積與單級(jí)注意力特征匹配等方案[2,11?12]無法充分獲取結(jié)構(gòu)與細(xì)節(jié)特征,同時(shí)阻礙了結(jié)構(gòu)和細(xì)節(jié)特征在網(wǎng)絡(luò)中傳播,從而導(dǎo)致了修復(fù)結(jié)果中出現(xiàn)結(jié)構(gòu)錯(cuò)亂和語義對(duì)象模糊等現(xiàn)象.

        圖2 常規(guī)自動(dòng)編碼器Fig.2 Conventional autoencoder

        如圖3 所示,針對(duì)特征傳遞受阻問題,我們對(duì)自動(dòng)編碼器結(jié)構(gòu)中的 “瓶頸區(qū)”網(wǎng)絡(luò)部分進(jìn)行以下兩步改進(jìn):第1 步,多級(jí)特征壓縮.將編碼器與解碼器之間的 “瓶頸網(wǎng)絡(luò)”中大小為h×w×c像素的高級(jí)特征分別按照0、2、4、8 壓縮率進(jìn)行縮放,構(gòu)建多級(jí)壓縮特征,即F0、Fc2、Fc4和Fc8.越高壓縮率的特征,其尺度越小.若按照特征尺度大小對(duì)多級(jí)壓縮特征進(jìn)行排列,其結(jié)果為F0>Fc2>Fc4>Fc8.多級(jí)壓縮特征在特征表達(dá)方面是互補(bǔ)的,越小尺度的特征中有著越小的結(jié)構(gòu)特征空間,網(wǎng)絡(luò)更容易從中搜索出有意義的結(jié)構(gòu)表達(dá),但是越小尺度特征越缺乏細(xì)節(jié)信息;與之相反,越大尺度特征中雖然在結(jié)構(gòu)表達(dá)能力上更弱,卻有著越豐富的細(xì)節(jié)特征,網(wǎng)絡(luò)更容易從中搜索出有意義的細(xì)節(jié)表達(dá).因此,大小尺度特征之間的這種互補(bǔ)性為第2 步,即多級(jí)注意力傳播,提供了巨大潛力.多級(jí)注意力傳播可以充分利用不同壓縮特征對(duì)不同特征(結(jié)構(gòu)/細(xì)節(jié))表達(dá)方面的優(yōu)勢(shì).具體來說,我們分別對(duì)各級(jí)壓縮特征Fc8、Fc4、Fc2和F0依次執(zhí)行注意力匹配與替換,得到注意力特征;并依據(jù)從小尺度到大尺度的順序?qū)ψ⒁饬μ卣鬟M(jìn)行分級(jí)傳播.如圖3 所示注意力特征A8與壓縮特征Fc4結(jié)合,將小尺度注意力特征傳播至更高尺度.其后注意力特征A4再以相同的過程傳播至A2和A0.由于前一級(jí)注意力特征匹配替換的結(jié)果總比后一級(jí)有更準(zhǔn)確的結(jié)構(gòu)表達(dá);后一級(jí)緊湊的壓縮特征總比前一級(jí)有更多的細(xì)節(jié)特征.因此,多級(jí)注意力的傳播方案可以促使網(wǎng)絡(luò)在多個(gè)尺度下既保持圖像結(jié)構(gòu)準(zhǔn)確,又不斷地豐富細(xì)節(jié).相比當(dāng)前基于單級(jí)注意力的圖像修復(fù)方案[1?2,12],我們的多級(jí)方案可以得到更加豐富的深度特征.

        圖3 多級(jí)注意力特征傳播自動(dòng)編碼器Fig.3 Multi-scale attention propagation driven autoencoder

        同時(shí),與當(dāng)前主流方法中由 “粗”到 “細(xì)”的多階段方案不同,我們期望在一個(gè)階段內(nèi)實(shí)現(xiàn)細(xì)粒度圖像重建.為此,我們還提出了一種復(fù)合粒度判別器網(wǎng)絡(luò)對(duì)圖像修復(fù)過程進(jìn)行全局語義約束與非特定局部密集約束.其中,全局語義約束由全局判別器實(shí)現(xiàn),該判別器的輸出為一個(gè)評(píng)價(jià)圖像整體真實(shí)度得分的值;非特定局部密集約束由局部密集判別器實(shí)現(xiàn),“非特定局部”與 “密集”體現(xiàn)在我們的局部密集判別器所執(zhí)行的是對(duì)圖像內(nèi)多個(gè)相互重疊的局部區(qū)域進(jìn)行密集地判別.因此,這種密集局部判別方式非常適合處理不規(guī)則破損情況下的修復(fù)任務(wù).

        在包括人臉、建筑立面和自然圖像在內(nèi)的多個(gè)數(shù)據(jù)集上進(jìn)行的大量實(shí)驗(yàn)表明,本文所提出的多級(jí)注意力傳播驅(qū)動(dòng)的生成式圖像修復(fù)方法所生成的圖像修復(fù)結(jié)果比現(xiàn)有方法擁有更高的圖像質(zhì)量.

        綜上所述,本文的貢獻(xiàn)如下:1)提出了一種端到端的圖像修復(fù)模型,該模型通過對(duì)全分辨率的圖像上下文進(jìn)行編碼,將提取的高級(jí)特征壓縮為多尺度緊湊特征,并依據(jù)尺度大小順序驅(qū)動(dòng)緊湊特征進(jìn)行多級(jí)注意力特征傳播,實(shí)現(xiàn)了包括結(jié)構(gòu)和細(xì)節(jié)在內(nèi)的高級(jí)特征在網(wǎng)絡(luò)中的充分傳播.2)提出了一種復(fù)合粒度判別器,對(duì)圖像進(jìn)行全局語義約束與非特定局部密集約束,使得圖像修復(fù)在單個(gè)前向過程中同時(shí)實(shí)現(xiàn)高質(zhì)量的細(xì)粒度重建.

        1 相關(guān)工作概述

        1.1 傳統(tǒng)圖像修復(fù)方法

        利用圖像級(jí)低級(jí)非語義特征的傳統(tǒng)圖像修復(fù)方法[7,13?18]可分為兩類:基于擴(kuò)散的方法和基于圖像塊的方法.基于擴(kuò)散的方法利用距離場(chǎng)等機(jī)制將圖像信息從相鄰像素傳播到目標(biāo)區(qū)域,對(duì)于圖像的小面積或類抓痕的窄缺損區(qū)域有著非常有效的修復(fù)效果.當(dāng)缺損區(qū)域面積過大或紋理變化很大時(shí),它們通常會(huì)生成明顯的視覺偽影.基于圖像塊的方法首先用于紋理合成,然后擴(kuò)展到圖像修復(fù).與基于擴(kuò)散的方法相比,基于圖像塊的方法能夠修復(fù)場(chǎng)景更復(fù)雜的圖像.通常,基于圖像塊的方法采用迭代方式,從同一圖像的非缺損區(qū)域或外部圖像庫中采樣相似的信息來填補(bǔ)缺損區(qū)域.由于必須計(jì)算每個(gè)目標(biāo)-源對(duì)的相似度分?jǐn)?shù),因此此類方法需要大量的計(jì)算和內(nèi)存開銷.PatchMatch[3]是一種典型的基于圖像塊的方法,它通過快速最近鄰域算法解決了這個(gè)問題,極大地加快了傳統(tǒng)算法的速度,取得了較高質(zhì)量的修復(fù)效果.基于圖像塊的方法假設(shè)修復(fù)區(qū)域的紋理可以在圖像的其他區(qū)域找到,然而這種假設(shè)未必時(shí)時(shí)成立,因此限制了該方法的應(yīng)用范圍;此外,由于缺乏對(duì)圖像的高層語義理解,基于圖像塊的方法無法為人臉等高度模式化破損圖像重建出語義合理的結(jié)果.因此,無論基于擴(kuò)散還是基于圖像塊的傳統(tǒng)修復(fù)方法,均不具備感知圖像高級(jí)語義的能力.

        1.2 基于深度學(xué)習(xí)的圖像修復(fù)方法

        近年來,基于深度學(xué)習(xí)的圖像修復(fù)方法從大規(guī)模數(shù)據(jù)中學(xué)習(xí)高級(jí)語義表示,大大提高了修復(fù)效果.Context Encoder[19]是最早用于語義圖像修復(fù)的深度學(xué)習(xí)方法之一.它采用自動(dòng)編碼器結(jié)構(gòu),通過最大限度地降低像素級(jí)重建損失和對(duì)抗損失,實(shí)現(xiàn)了對(duì)128×128 圖像中心區(qū)域存在的64×64 矩形缺損區(qū)域的修復(fù).編碼器將帶有破損區(qū)域的圖像映射到高級(jí)特征空間,該特征空間用于解碼器重構(gòu)完整的輸出圖像.然而,由于通道維全連通層的信息瓶頸以及對(duì)圖像局部區(qū)域缺乏約束,該方法輸出圖像的重建區(qū)域往往出現(xiàn)明顯的視覺偽影.Iizuka 等[11]通過減少下行采樣層的數(shù)量,用一系列膨脹卷積層代替通道全連接層,在一定程度上解決了上下文編碼器的信息瓶頸問題.同時(shí),Iizuka 等[11]還引入了一種局部判別器來提高圖像的質(zhì)量.然而,這種方法需要復(fù)雜的后處理步驟,如泊松混合,以增強(qiáng)孔邊界附近的顏色一致性.Yang 等[12]和Yu 等[2]將粗到細(xì)的卷積網(wǎng)絡(luò)配置方案引入到了圖像修復(fù)中.該方案在第1 步使用深度卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)對(duì)破損區(qū)域的粗略估計(jì).進(jìn)而,在第2 步的深度卷積網(wǎng)絡(luò)中,利用注意力機(jī)制或特征塊交換操作,搜索圖像上下文中最相似的特征塊并替換缺失區(qū)域內(nèi)的特征塊,從而得到細(xì)化的輸出結(jié)果.然而,這兩種方案在不規(guī)則破損區(qū)域修復(fù)上并沒有很好的泛化能力.Wang 等[1]提出了一種用于圖像修復(fù)的多列生成網(wǎng)絡(luò),設(shè)計(jì)了置信值驅(qū)動(dòng)的重建損失,并采用了隱式多樣馬爾科夫隨機(jī)場(chǎng)(Implicit diversified Markov random field,ID-MRF) 正則化方案來增強(qiáng)局部細(xì)節(jié).它在矩形和不規(guī)則掩碼上都取得了很好的效果.Liu 等[20]在圖像修復(fù)中引入部分卷積,對(duì)卷積進(jìn)行了掩蓋和重新歸一化,僅利用非破損區(qū)域的有效像素,有效地解決了基于卷積所帶來的色差、模糊等偽影問題.

        2 多級(jí)注意力傳播網(wǎng)絡(luò)

        如圖4 所示,我們提出的多級(jí)注意力傳播網(wǎng)絡(luò)由兩部分組成:(a)多級(jí)注意力傳播生成器G,(b)復(fù)合判別器D.多級(jí)注意力傳播網(wǎng)絡(luò)生成器是針對(duì)圖像修復(fù)任務(wù)改進(jìn)的自動(dòng)編碼器,通過編碼過程、多級(jí)注意力傳播過程與解碼過程重建圖像的破損區(qū)域.復(fù)合判別器網(wǎng)絡(luò)D通過將G生成的圖像判別為 “假”來懲罰G,從而促進(jìn)G生成真實(shí)圖.我們將從破損圖像到完整圖像的學(xué)習(xí)過程描述為一個(gè)映射函數(shù),該映射函數(shù)將破損圖像流形z映射到完整圖像流形x.為了簡(jiǎn)化符號(hào),我們還將使用這些符號(hào)來表示它們各自網(wǎng)絡(luò)的功能映射.

        2.1 多級(jí)注意力傳播網(wǎng)絡(luò)生成器

        如圖4 所示,我們的多級(jí)注意力傳播生成器G主要由特征提取網(wǎng)絡(luò)、多級(jí)注意力傳播網(wǎng)絡(luò)、上采樣網(wǎng)絡(luò)等3個(gè)子網(wǎng)絡(luò)構(gòu)成.設(shè)Iinput=z和Ioutput=G(z)為多級(jí)注意力傳播網(wǎng)絡(luò)生成器的輸入和輸出.在淺層特征提取階段,提取淺層特征F?1:

        圖4 多級(jí)注意力傳播網(wǎng)絡(luò)整體框架Fig.4 The framework of multistage attention propagation network

        其中Enc(·) 為編碼器網(wǎng)絡(luò).該網(wǎng)絡(luò)的編碼器首先進(jìn)行平坦卷積,然后采用下采樣與卷積操作對(duì)受損圖像進(jìn)行壓縮編碼.

        其次,將提取的有用局部特征F?1進(jìn)行特征細(xì)化:

        其中Bot(·) 為由4 層擴(kuò)張卷積級(jí)聯(lián)組成的 “瓶頸區(qū)”網(wǎng)絡(luò),卷積核尺寸為3×3,膨脹率分別為2、4、8、16.

        接下來,進(jìn)行多級(jí)注意力傳播.注意力多級(jí)傳播的第一步是將細(xì)化后的高級(jí)特征縮放為多級(jí)壓縮特征:

        其中Cn(·) 為特征縮放操作,n為縮放率,表示特征尺寸縮放為原來的1/n.

        隨后,對(duì)壓縮特征進(jìn)行基于注意力的多級(jí)特征匹配與傳播,以小尺度結(jié)果引導(dǎo)后續(xù)處理:

        其中⊕表示通道維疊加,Attl(·) 為在壓縮率為l的特征上進(jìn)行的匹配替換與傳播操作,更多細(xì)節(jié)將在第3.2 節(jié)中給出.

        最終,經(jīng)過多級(jí)注意力特征配替換與傳播后,采用上采樣網(wǎng)絡(luò)將高級(jí)特征映射轉(zhuǎn)化為完整的輸出圖像:

        其中Dec(·) 為解碼器網(wǎng)絡(luò),對(duì)特征A0進(jìn)行兩次上采樣得到完整的重建圖像.

        2.2 基于注意力的特征匹配與傳播

        我們采用當(dāng)前最先進(jìn)的注意力特征匹配方案[2,12,21].注意力通常是通過計(jì)算缺失區(qū)域內(nèi)外的圖像塊或特征塊之間的相似度來獲得的.因此可以將缺失區(qū)域外的相關(guān)特征進(jìn)行轉(zhuǎn)移,即通過相似度關(guān)系將圖像上下文的圖像塊/特征塊加權(quán)復(fù)制到缺失區(qū)域內(nèi)部.圖5 所示,Attl(·) 首先從壓縮特征Fc中學(xué)習(xí)區(qū)域親和力,即從Fc中提取特征塊并計(jì)算破損區(qū)域內(nèi)部特征塊和外部特征塊之間的余弦相似性:

        圖5 注意力特征匹配與傳播Fig.5 Flowchart of attention feature matching and propagation

        從高級(jí)特征圖中獲取注意分值后,采用基于注意分值加權(quán)的上下文填充相似特征塊中的破損區(qū)域:

        2.3 復(fù)合判別器網(wǎng)絡(luò)

        作為生成網(wǎng)絡(luò)的補(bǔ)充,復(fù)合判別器網(wǎng)絡(luò)D用于判斷G生成的圖像是否足夠真實(shí).在圖像修復(fù)中,高質(zhì)量的圖像不僅取決于圖像的整體特征,還取決于圖像局部對(duì)象的特征.不同于全局與局部判別器來分別約束全局與局部破損區(qū)域,我們?cè)O(shè)計(jì)了復(fù)合判別器來實(shí)現(xiàn)全局語義約束與非特定局部密集約束.

        如圖4(b)所示,全局語義約束與非特定局部密集約束分別由全局判別器D1與非特定局部密集判別器D2來實(shí)現(xiàn).全局判別器由卷積層與全連接層構(gòu)成,輸出為一個(gè)評(píng)價(jià)圖像整體真實(shí)度得分的值.非特定局部密集判別器類似Patch-GAN[22]結(jié)構(gòu),由5個(gè)的步長(zhǎng)卷積(內(nèi)核大小為5,步長(zhǎng)為2)進(jìn)行疊加構(gòu)成.輸入由圖像和掩模通道組成,輸出為形狀為Rh×w×c的三維特征圖,其中h、w、c分別表示通道的高度、寬度和數(shù)量.然后,我們將判別器的損失直接應(yīng)用到判別器最后一層特征圖的每個(gè)元素上,形成針對(duì)輸入圖像局部不同位置的數(shù)量為h×w×c的生成對(duì)抗網(wǎng)絡(luò).復(fù)合判別器網(wǎng)絡(luò)中全局判別器與非特定局部密集判別器在功能方面為相互補(bǔ)充的.全局判別器針對(duì)全局的約束,促使生成的圖像破損區(qū)域與非破損區(qū)域在全局層面實(shí)現(xiàn)自然過渡;而非特定局部密集判別器對(duì)圖像內(nèi)多個(gè)局部區(qū)域進(jìn)行密集的有重疊的判別,使得圖像局部擁有豐富的細(xì)節(jié)紋理.

        3 損失函數(shù)

        損失函數(shù)由三部分組成:1)對(duì)抗損失Ladv;2)特征匹配損失Lmatch; 3)重構(gòu)損失Lrec.整體的目標(biāo)函數(shù)可以表示為:

        其中損失項(xiàng)的平衡參數(shù)ω1=1、ω2=1 000.

        3.1 生成對(duì)抗損失Ladv

        我們方法采用改進(jìn)的Wasserstein GAN[23],對(duì)抗損失同時(shí)應(yīng)用于網(wǎng)絡(luò)G和網(wǎng)絡(luò)D,最終影響生成網(wǎng)絡(luò)G對(duì)破損圖像的重構(gòu)過程.復(fù)合判別器網(wǎng)絡(luò)D的輸出值代表生成網(wǎng)絡(luò)G的輸出圖像與真實(shí)圖像的相似程度,被用來懲罰并促使生成網(wǎng)絡(luò)G生成更真實(shí)圖像.我們的復(fù)合判別器網(wǎng)絡(luò)D由D1和D2組成.對(duì)抗性損失可以表示為:

        3.2 特征匹配損失Lmatch

        特征匹配損失Lmatch用來比較判別器中間層的激活映射,迫使生成器生成與真實(shí)圖像相似的特征表示,從而穩(wěn)定訓(xùn)練過程,這類似于感知損失[24?26].不同于感知損失比較從預(yù)先訓(xùn)練的VGG 網(wǎng)絡(luò)獲取到來自真值圖像與輸出圖像的激活映射,特征匹配損失比較的是判別器中間層激活映射.我們定義特征匹配損失Lmatch為:

        其中L為判別器的最終卷積層,Ni為第i個(gè)激活層的元素個(gè)數(shù),D1(i) 為判別器D1第i層的激活映射,D2(i)為判別器D2第i層的激活映射.

        3.3 重建損失Lrec

        圖像修復(fù)不僅要保證修復(fù)好的圖像具有語義真實(shí)感,而且要對(duì)圖像進(jìn)行像素級(jí)精確重建.因此,對(duì)于像素級(jí)重建過程,我們定義了L1 重建損失:

        4 實(shí)驗(yàn)

        4.1 數(shù)據(jù)集

        我們使用3個(gè)面向于圖像修復(fù)任務(wù)的國(guó)際公認(rèn)通用圖像數(shù)據(jù)集來驗(yàn)證我們的模型(數(shù)據(jù)集分割如表1 所示).

        表1 3個(gè)數(shù)據(jù)集的訓(xùn)練和測(cè)試分割Table 1 Training and test splits on three datasets

        –Places2[27]數(shù)據(jù)集:MIT 發(fā)布的數(shù)據(jù)集,包含超過800 萬張來自365個(gè)場(chǎng)景的圖像.

        –CELEBA-HQ[28]數(shù)據(jù)集:來自CelebA 的高質(zhì)量人臉數(shù)據(jù)集.

        –Facade[29]數(shù)據(jù)集:世界各地不同城市建筑立面集合.

        4.2 實(shí)驗(yàn)設(shè)置

        在Windows 10 系統(tǒng)上使用Python 開發(fā)編譯了本文所提出方法的程序代碼.編譯測(cè)試所用的深度學(xué)習(xí)平臺(tái)軟件配置為TensorFlow v1.8、CUDNN v7.0 和CUDA v9.0;核心硬件配置為Intel 8 700 3.20 GHz 的CPU,12G NVIDIA TITAN XP 的GPU.我們使用Adam 優(yōu)化器對(duì)批量大小為6 的模型進(jìn)行訓(xùn)練,beta1 與beta2 分別設(shè)定為0 和0.9.在模型訓(xùn)練初始階段的學(xué)習(xí)率設(shè)置為1×10?4,隨后再使用1×10?5學(xué)習(xí)率對(duì)模型進(jìn)行微調(diào).在模型訓(xùn)練過程中,訓(xùn)練集中的全部圖像均被縮放至256×256大小.訓(xùn)練好的模型可在CPU 及GPU 上運(yùn)行,不論缺損面積大小,修復(fù)過程在Intel(R) Core(R) CPU上平均運(yùn)行時(shí)間為1.5 秒,在NVIDIA(R) TITAN XP GPU 上平均運(yùn)行時(shí)間為0.2 秒.本文中全部實(shí)驗(yàn)結(jié)果都是從訓(xùn)練好的模型中直接輸出的,未進(jìn)行任何后期處理.

        4.3 對(duì)比模型

        我們將與以下經(jīng)典主流方案進(jìn)行比較:

        –PatchMatch (PM)[3]:一種典型的基于圖像塊的方法,從周圍環(huán)境復(fù)制類似的圖像塊.

        –CA[2]:一個(gè)兩階段的圖像修復(fù)模型,利用了高層次的上下文注意特征.

        –MC[1]:為圖像修復(fù)模型設(shè)計(jì)了一個(gè)置信值驅(qū)動(dòng)的重建損失,并采用了隱式多樣馬爾可夫隨機(jī)場(chǎng)正則化來增強(qiáng)局部細(xì)節(jié).

        5 結(jié)果與驗(yàn)證

        5.1 實(shí)驗(yàn)結(jié)果

        我們將本文方法與第4.3 節(jié)中當(dāng)前經(jīng)典主流方案分別進(jìn)行了定性和定量分析,以證明本文方法的優(yōu)越性.

        定性比較.圖6、圖7 和圖8 分別展示了我們的方法在Places2、Facade 和CelebA-HQ 數(shù)據(jù)集上和對(duì)比方法之間的對(duì)比結(jié)果.在大多數(shù)情況下,我們的圖像修復(fù)結(jié)果比對(duì)比方法在結(jié)構(gòu)重建方面表現(xiàn)得更準(zhǔn)確合理.與其他方法相比,我們提出的方法在細(xì)節(jié)紋理重建上表現(xiàn)得更加細(xì)致.

        圖6 Places2 數(shù)據(jù)集上的結(jié)果比較Fig.6 Comparisons on the test images from Places2 dataset

        圖7 Facade 數(shù)據(jù)集上的結(jié)果比較Fig.7 Comparisons on the test image from Facade dataset

        圖8 CelebA-HQ 數(shù)據(jù)集上的結(jié)果比較Fig.8 Comparisons on the test image from CelebA-HQ dataset

        定量比較.我們使用PSNR、SSIM 和平均L1損失等指標(biāo)來客觀衡量修復(fù)結(jié)果的質(zhì)量.其中,PSNR和SSIM 可以大致反映模型重構(gòu)原始圖像內(nèi)容的能力,為人類的視覺感知提供了良好的近似.平均L1損失直接測(cè)量重建圖像與真值圖像之間的L1 距離,是一個(gè)非常實(shí)用的圖像質(zhì)量評(píng)估指標(biāo).如表2 所示,我們的方法在Places2、CelebA-HQ 和Facade 數(shù)據(jù)集中取得了最優(yōu)的結(jié)果,其中SSIM、PSNR 是最高的,平均L1 損失是最低的.

        表2 CelebA-HQ、Facade 和Places2 數(shù)據(jù)集上的定量對(duì)比Table 2 Quantitative comparisons on CelebA-HQ,Facade and Places2

        5.2 方案有效性分析

        我們?cè)诮ㄖ⒚鏀?shù)據(jù)集上分別進(jìn)行了兩個(gè)分解實(shí)驗(yàn)來驗(yàn)證我們所提出方案的有效性.為了更清楚地展示實(shí)驗(yàn)結(jié)果,所有的實(shí)驗(yàn)均為矩形中心掩碼情況下的圖像修復(fù)結(jié)果.

        1) 多級(jí)注意力傳播的有效性

        圖9(a)為輸入圖像,圖9(b)為有注意力傳播時(shí)的圖像修復(fù)結(jié)果,圖9(c)為無注意力傳播時(shí)的圖像修復(fù)結(jié)果,圖9(d)為原圖.具體來說,這次試驗(yàn)參與對(duì)比的分別為本文提出方案的結(jié)果與本文方案除去多級(jí)注意力傳播時(shí)的結(jié)果.可以看出在多級(jí)注意力傳播的幫助下本文所提出的方案有著更準(zhǔn)確的結(jié)構(gòu)重建能力.

        圖9 有/無注意力傳播時(shí)的圖像修復(fù)結(jié)果Fig.9 Results with/without attention propagation

        2) 復(fù)合判別器網(wǎng)絡(luò)的有效性

        如圖10(a)為輸入圖像,圖10(b)為有復(fù)合判別器時(shí)的圖像修復(fù)結(jié)果,圖10(c)為無復(fù)合判別器時(shí)的圖像修復(fù)結(jié)果,圖10(d)為原圖.可以看出在復(fù)合粒度判別器的幫助下本文所提出的方案有著更細(xì)膩的細(xì)節(jié)重建能力.

        圖10 有/無復(fù)合判別器時(shí)的圖像修復(fù)結(jié)果Fig.10 Results with/without compound discriminator

        5.3 組件研究

        為驗(yàn)證多級(jí)注意力機(jī)制以及復(fù)合粒度判別器網(wǎng)絡(luò)的有效性,我們以平均L1 損失為性能參考(平均L1 損失越小性能越好),進(jìn)行了對(duì)比定量研究,結(jié)果如表3 所示.其中,Att0 至Att8 為注意力組件,Single-D為單全局判別器,Cg-D為本文所提出的復(fù)合粒度判別器.

        表3 組件有效性研究Table 3 Effectiveness study on each component

        從表3 中我們可以看出,多級(jí)注意力傳播可以在很大程度上提升網(wǎng)絡(luò)性能,同時(shí)由于復(fù)合粒度判別器對(duì)全局語義與非特定局部的密集約束,網(wǎng)絡(luò)性能得到了進(jìn)一步提升.

        5.4 泛化應(yīng)用研究

        為進(jìn)一步驗(yàn)證我們方法的泛化能力,我們還通過對(duì)所提出模型進(jìn)行對(duì)象移除實(shí)際應(yīng)用研究.

        如圖11 所示,在示例(a)中,我們嘗試刪除人臉圖像中的眼鏡.我們可以看到本文方法都成功地刪除了眼鏡,并在眼鏡區(qū)域重建出了清晰自然的人眼.在示例(b)中,我們的模型將面部大面積區(qū)域移除,并重建出合理的結(jié)果.值得注意的是,示例(a)與示例(b)人臉圖像均不是正視前方,而在訓(xùn)練過程中,整個(gè)訓(xùn)練集中的非正視前方圖像只占據(jù)少數(shù),這從側(cè)面說明了本文方法具有良好的泛化能力.更多的成功移除特定對(duì)象,重建出高品質(zhì)的結(jié)果見示例(c)、(d)、(e)、(f).

        圖11 在Facade、CelebA-HQ 和Places2 數(shù)據(jù)集上的實(shí)例研究結(jié)果Fig.11 Case study on Facade,CelebA-HQ and Places2

        6 總結(jié)

        本文提出了一種基于層級(jí)注意力傳播的圖像修復(fù)網(wǎng)絡(luò).為解決圖像修復(fù)結(jié)果中的結(jié)構(gòu)錯(cuò)亂與語義對(duì)象模糊問題,我們提出將編碼器編碼的高級(jí)語義特征進(jìn)行多尺度壓縮和多層級(jí)注意力特征傳播,以實(shí)現(xiàn)包括結(jié)構(gòu)和細(xì)節(jié)在內(nèi)的高級(jí)特征的充分利用.同時(shí),為實(shí)現(xiàn)在一個(gè)階段內(nèi)完成粗粒度與細(xì)粒度圖像的同步重建,我們提出了一種復(fù)合粒度判別器網(wǎng)絡(luò)對(duì)圖像修復(fù)過程進(jìn)行全局語義約束與非特定局部密集約束.大量實(shí)驗(yàn)表明,與經(jīng)典主流方法相比,我們提出的方法可以產(chǎn)生更高質(zhì)量的修復(fù)結(jié)果.

        猜你喜歡
        編碼器注意力語義
        讓注意力“飛”回來
        語言與語義
        基于FPGA的同步機(jī)軸角編碼器
        “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
        基于PRBS檢測(cè)的8B/IOB編碼器設(shè)計(jì)
        A Beautiful Way Of Looking At Things
        “上”與“下”語義的不對(duì)稱性及其認(rèn)知闡釋
        JESD204B接口協(xié)議中的8B10B編碼器設(shè)計(jì)
        電子器件(2015年5期)2015-12-29 08:42:24
        認(rèn)知范疇模糊與語義模糊
        多總線式光電編碼器的設(shè)計(jì)與應(yīng)用
        四虎影视亚洲精品| 亚洲av丰满熟妇在线播放| 99精品国产丝袜在线拍国语| 久久亚洲中文字幕无码| 中文字幕无码免费久久9一区9| 亚洲精品久久麻豆蜜桃| 男人的天堂av高清在线| 人人澡人人澡人人看添av| 亚洲欧洲国产日产国码无码| 亚洲一区二区精品在线看| 亚洲美女自拍偷拍视频| 品色堂永远免费| 老熟女毛茸茸浓毛| av亚洲在线一区二区| 国产成人高清在线观看视频| 色欲av蜜桃一区二区三| 538在线啪在线观看| 日本高清长片一区二区| 国产亚洲精品97在线视频一 | 一本大道久久精品 东京热| 美女福利视频网址导航| 国产无套中出学生姝| 艳妇臀荡乳欲伦交换在线播放| 亚洲精品亚洲人成在线下载 | 欧美在线a| 手机在线观看成年人视频| 精品人妻伦一二三区久久| 伊人色综合视频一区二区三区| 女人的天堂av免费看 | 欧美午夜理伦三级在线观看| 男女啪啪免费体验区| 97精品国产高清自在线看超| 亚洲乱码av一区二区蜜桃av| 欧美国产综合欧美视频| 热の国产AV| 亚洲一区二区三区美女av| 亚无码乱人伦一区二区| 毛茸茸的中国女bbw| 国产成人精品人人做人人爽| 亚洲av乱码二区三区涩涩屋| 色橹橹欧美在线观看视频高清|