亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        結(jié)合特征調(diào)整與聯(lián)合自注意力的圖像修復(fù)

        2023-10-10 10:39:06李曉明
        計算機工程與應(yīng)用 2023年19期
        關(guān)鍵詞:注意力語義損失

        彭 豪,李曉明,2

        1.太原科技大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,太原 030024

        2.太原科技大學(xué) 計算機科學(xué)與技術(shù)學(xué)院 計算機重點實驗室,太原 030024

        圖像修復(fù)的目的是為圖像中的缺失區(qū)域生成視覺上合理的圖像結(jié)構(gòu)和局部細節(jié)[1]。圖像修復(fù)在圖像編輯中得到了廣泛的應(yīng)用,如照片編輯[2]、對象移除[3]和計算機輔助文物修復(fù)等[4-5]。近年來,深度學(xué)習(xí)在圖像修復(fù)領(lǐng)域取得了成功。然而,如何在圖像破損區(qū)域合成與現(xiàn)有上下文區(qū)域結(jié)構(gòu)語義一致、內(nèi)容準(zhǔn)確、細節(jié)豐富的局部圖像信息仍然是圖像修復(fù)中需要解決的難點問題[6]。

        在人們將深度學(xué)習(xí)技術(shù)廣泛應(yīng)用于圖像修復(fù)之前,人們使用了傳統(tǒng)的圖像修復(fù)技術(shù)。這些方法主要分為兩類:基于擴散的方法和基于樣本的方法?;跀U散的方法利用待修復(fù)區(qū)域的邊緣信息,同時采用一種由粗到細的方法來估計等照度線的方向,并采用傳播機制將圖像已知信息傳播到待修復(fù)的區(qū)域內(nèi),以便得到較好的修復(fù)效果?;跇颖镜姆椒ㄍㄟ^搜索缺失區(qū)域外的已知樣本來填補缺失區(qū)域。然而,缺失區(qū)域的圖像并非總能在已知圖像中找到,而且在重建圖像中也容易出現(xiàn)重復(fù)的圖案?;跀U散的方法和基于補丁的方法都傾向于在缺乏對圖像的高級語義理解下使用未缺失區(qū)域的低層次特征,以某種方式對缺失區(qū)域進行修復(fù)。因此,它們可能在某些具有重復(fù)結(jié)構(gòu)的圖像中工作良好,但無法為具有獨特結(jié)構(gòu)的缺失圖像生成合理的修復(fù)結(jié)果。

        圖像特征中的高級語義和豐富的空間信息存在于不同的分辨率/尺度級別中[7]。如何有效地生成不同尺度的特征成為完成圖像修復(fù)任務(wù)時需要克服的關(guān)鍵問題之一[8]。一般來說,有兩種常見的方法來解決這個問題。第一種是在不降低空間分辨率的情況下,使用不同擴張率的atrous convolutions[9]來有效捕獲語義上下文信息,另一種是使用自上而下的網(wǎng)絡(luò)結(jié)構(gòu)[10]來構(gòu)建不同尺寸的具有高級語義信息的特征圖。更具體地說,高級語義空間上的特征圖在與自底向上路徑的對應(yīng)特征圖合并之前需要進行上采樣。然而,由于常用的上采樣操作的不可學(xué)習(xí)性以及下采樣和上采樣的重復(fù)使用,自底向上的特征與上采樣的特征之間存在著不準(zhǔn)確的對應(yīng)關(guān)系。這種不準(zhǔn)確的特征對應(yīng)關(guān)系反過來又會對后續(xù)層的學(xué)習(xí)產(chǎn)生不利的影響,導(dǎo)致模型在處理不規(guī)則缺失區(qū)域時,經(jīng)常會出現(xiàn)像素不連續(xù)的結(jié)果,這是一種明顯的語義差距,尤其是在物體邊界附近。

        因此,本文認為保持上采樣的特征圖與自底向上特征圖的特征空間位置一致性和加強模型對圖像不同尺度特征的利用是提升圖像修復(fù)性能的關(guān)鍵。本文的主要貢獻總結(jié)如下:

        (1)引入了一種上下文特征調(diào)整模塊(contextual feature adjustment,CFA),該模塊通過調(diào)整卷積核中的每個采樣位置,使上采樣的特征圖與對應(yīng)特征圖保持一致,減少了自底向上和上采樣特征之間存在的特征位置偏移問題。

        (2)設(shè)計了一種聯(lián)合自注意力模塊(joint self-attention,JSA),通過在空間和通道維度內(nèi)部保持比較高的分辨率,并采用了Softmax-Sigmoid聯(lián)合的非線性函數(shù),使得模型能夠在圖像修復(fù)任務(wù)上獲得更好的性能。

        (3)本文將這兩個模塊整合到一個自上而下的金字塔結(jié)構(gòu)中加強了模型對圖像不同尺度特征的利用,并提出了一種結(jié)合上下文特征調(diào)整和聯(lián)合自注意力的圖像修復(fù)方法。本文在多個標(biāo)準(zhǔn)數(shù)據(jù)集上進行實驗,通過定性和定量比較表明:當(dāng)修復(fù)任務(wù)涉及大面積缺陷或復(fù)雜結(jié)構(gòu)時,本文的方法比現(xiàn)有的主流方法具有更高的修復(fù)質(zhì)量。

        1 相關(guān)工作

        1.1 基于生成模型的圖像修復(fù)方法

        基于生成模型的圖像修復(fù)方法指利用生成模型強大的圖像生成能力來基于缺失圖像已知先驗分布推測未知分布的修復(fù)方法。生成式對抗神經(jīng)網(wǎng)絡(luò)[11]作為一種非監(jiān)督的生成式深度學(xué)習(xí)模型,能夠自動學(xué)習(xí)和捕捉數(shù)據(jù)中的重復(fù)可用特征,在圖像語義修復(fù)任務(wù)上取得了巨大進展。但是現(xiàn)階段基于生成式對抗網(wǎng)絡(luò)的圖像修復(fù)算法仍然有許多值得完善的地方,如深度卷積神經(jīng)網(wǎng)絡(luò)[12]沒有完全利用已知區(qū)域的信息,導(dǎo)致修復(fù)后的區(qū)域有嚴重的貼片感,甚至?xí)a(chǎn)生不合理的修復(fù)內(nèi)容。在生成對抗網(wǎng)絡(luò)之后,context encoders[7]利用深度神經(jīng)網(wǎng)絡(luò)生成缺失區(qū)域。上下文編碼器通過從原始圖像中提取特征來填補缺失區(qū)域。然而,這種方法的缺點是生成的圖像包含太多的視覺偽影。為了獲得更真實的修復(fù)效果,Ⅰizuka等人[13]擴展了上下文編碼器的工作,并提出了局部和全局鑒別器,以使生成的圖像更逼真。Shift-Net[14]使用具有特殊移位連接層的U-Net[15]體系結(jié)構(gòu)來指導(dǎo)圖像生成。Zhang等人[16]將圖像修復(fù)任務(wù)視為一個課程學(xué)習(xí)問題,提出了從外到內(nèi)的逐步修復(fù)策略。該方法能夠逐步縮小原始圖像中的缺失區(qū)域。Li 等人[17]提出了一個遞歸特征推理模塊,該模塊可以反復(fù)推斷缺失區(qū)域邊界的特征映射并將其用作下一步推斷的線索?;谏赡P偷姆椒梢詫崿F(xiàn)多樣性修復(fù),但由于生成模型存在訓(xùn)練不穩(wěn)定,該類方法目前僅能處理較低分辨率的圖像。

        1.2 基于注意力機制的圖像修復(fù)方法

        傳統(tǒng)圖像修復(fù)方法中,基于紋理合成的圖像修復(fù)方法中的塊匹配方法是在像素或圖像塊層面進行修復(fù),缺少對圖像語義和全局結(jié)構(gòu)的理解?;诖?,研究者們嘗試將圖像塊匹配思想引入圖像特征空間,在注意力機制的引導(dǎo)下為缺失區(qū)域?qū)ふ易钕嗨频奶卣鲏K進行特征匹配,最終提出了一系列基于注意力機制的圖像修復(fù)方法。隨著注意力機制的提出和應(yīng)用[18],Liu等人[19]引入了連貫語義注意力層,以改善相鄰像素的連續(xù)性。Wang等人[20]介紹了一種特殊的多級注意力模塊,該方法將編碼器編碼的高級語義特征進行多尺度壓縮和多層級注意力特征傳播,以實現(xiàn)包括結(jié)構(gòu)和細節(jié)在內(nèi)的高級特征的充分利用。Yu 等人[21]認為圖像結(jié)構(gòu)扭曲和紋理模糊的原因是卷積神經(jīng)網(wǎng)絡(luò)在明確地從遙遠的空間位置借用或復(fù)制信息方面的無效性。因此,他們引入了上下文注意力機制來增強模型的遠距離建模能力,但是該模型無法從遠處像素獲取準(zhǔn)確的特征信息,并且無法充分利用圖像中不同尺度的特征信息。

        2 結(jié)合上下文特征調(diào)整的多級注意力特征融合的圖像修復(fù)模型

        本文提出的圖像修復(fù)算法的體系結(jié)構(gòu)如圖1 所示。本文在編碼器encoder 和解碼器decoder 的相應(yīng)層之間使用跳躍連接[15]。跳躍連接將不同的編碼器級別與作為解碼器的分層主網(wǎng)絡(luò)的級別連接起來。本文在CelebA數(shù)據(jù)集上對EfficientNet中B1~B7不同的網(wǎng)絡(luò)結(jié)構(gòu)進行了圖像修復(fù)質(zhì)量測試,如表1所示EfficientNet-B7實現(xiàn)了最高圖像修復(fù)質(zhì)量,因此本文在backbone 部分使用EfficientNet[22]網(wǎng)絡(luò)中B7網(wǎng)絡(luò)結(jié)構(gòu)。EfficientNet網(wǎng)絡(luò)主要探究增大網(wǎng)絡(luò)的寬度、深度以及分辨率來提升模型的性能。本文通過調(diào)整EfficientNet網(wǎng)絡(luò)中子模塊(MBConvBlock模塊)的stride來修改不同階段所輸出的feature map的分辨率。如圖1,經(jīng)過stride=n的feature map輸出,n為2、4、8、16。首先解碼器中對應(yīng)編碼器的特征圖都使用聯(lián)合自注意力模塊來強化有效特征,然后使用雙線性上采樣,并在上下文特征調(diào)整模塊幫助下與下一個分辨率更佳的特征圖連接。本文鑒別器使用patch-based discriminator network[23]用于判別接收到圖像的真假。下面將具體闡述本文的上下文特征調(diào)整模塊和聯(lián)合自注意力模塊。

        表1 EfficientNet B1~B7在CelebA上的圖像修復(fù)質(zhì)量測試Table 1 EfficientNet B1~B7 image inpainting quality test in CelebA

        圖1 提出的圖像修復(fù)算法的體系結(jié)構(gòu)Fig.1 Architecture of proposed image inpainting algorithm

        2.1 上下文特征調(diào)整模塊

        在特征提取過程中,由于重復(fù)使用下采樣操作導(dǎo)致上采樣特征圖與相應(yīng)的自底向上的特征圖Ui之間存在一定的空間偏差,導(dǎo)致直接使用element-wise addition或者channal-wise concatenation的融合會損害目標(biāo)邊界的預(yù)測。因此,本文在特征融合之前,使用文獻[24]中的特征調(diào)整方法對圖像修復(fù)任務(wù)中的上采樣特征F和下采樣的特征Ui進行調(diào)整。在特征融合之前,根據(jù)相應(yīng)的自底向上的特征圖Fi-1提供的空間位置信息調(diào)整上采樣特征圖Ui??臻g位置信息是通過二維特征圖來表示的,其中每個偏移值可以看作是在二維空間中F每個點與其Ui對應(yīng)點之間的偏移距離Δi。上下文特征調(diào)整的過程可以看作是兩個步驟:首先從上采樣和下采樣特征圖中,f1為學(xué)習(xí)空間偏差Δi:

        然后通過f2將偏差Δi作用于下采樣特征圖Ui,進行調(diào)整得到調(diào)整后的特征圖F:

        其中,f1、f2都是使用可變形卷積[25]和同樣卷積核大小的標(biāo)準(zhǔn)卷積組成。

        本文使用可變形卷積來完成本文的特征調(diào)整功能。本文首先定義一個輸入特征映射Fi∈RHi×Wi和K×K大小的卷積,在卷積核之后的任意位置x輸出特征F為:

        其中,N為K×K卷積核大小的卷積,wn和Bn分別表示對于第n次卷積采樣位置的權(quán)重和預(yù)先指定的偏移量,除了預(yù)先指定的偏移外,可變形卷積還嘗試學(xué)習(xí)其他偏移ΔBn適用于不同的采樣位置,公式表示如下:

        其中,ΔBn是一個(h,w)元組,h∈(-Hi,Hi),w∈(-Wi,Wi)。

        2.2 聯(lián)合自注意力機制

        圖像修復(fù)任務(wù)要求模型在低計算開銷下,能夠有效地建模高分辨率輸入/輸出特征的遠距離依賴關(guān)系,進而來估計高度非線性的像素語義。卷積神經(jīng)網(wǎng)絡(luò)中的注意力機制能夠捕獲遠距離的依賴關(guān)系,但是這種方式比較復(fù)雜并且是對噪聲比較敏感的。本文采用的是encoder-decoder 結(jié)構(gòu),encoder 用來降低空間維度、提高通道維度;decoder采用的是上采樣,用來提高空間的維度、降低通道的維度。因此,連接encoder 和decoder 的tensor通常在空間維度上比較小。雖然這對于計算和顯存的使用比較友好,但是對于像圖像修復(fù)這樣的細粒度像素級任務(wù),這種結(jié)構(gòu)顯然會造成性能上的損失。

        如圖2所示,本文的注意力機制由通道注意力分支和空間注意力分支兩種組成。本文注意力機制主要有兩個設(shè)計上的亮點:(1)在通道和空間維度保持比較高的分辨率,在通道上保持C/2 的維度,在空間上保持[H,W]的維度減少降維造成的信息損失;(2)采用Softmax-Sigmoid聯(lián)合的非線性函數(shù)。

        圖2 聯(lián)合自注意力機制示意圖Fig.2 Diagram of joint self-attention mechanism

        通道注意力分支的權(quán)重計算公式C(x)如下:

        其中,z1、z2和z3為張量重塑操作,F(xiàn)S是Softmax操作,F(xiàn)為Sigmoid 函數(shù),×為矩陣積運算。將輸入的特征x通過1×1的卷積得到q和v特征,其中q的通道被完全壓縮,而v的通道維度依舊保持在一個比較高的水平(也就是C/2)。由于q的通道維度被壓縮,為了避免信息損失,本文首先通過Softmax對q的信息進行了增強,然后將q和v進行矩陣乘法,并在后面接上1×1卷積將通道上C/2 的維度升為C。最后用Sigmoid 函數(shù)使得所有的參數(shù)都保持在0~1之間。

        空間注意力分支計算權(quán)重的公式S(x)如下:

        與通道注意力分支的權(quán)重計算相似,本文先用了1×1的卷積將輸入的特征轉(zhuǎn)換為q和v特征。其中,本文使用FGPglobal pooling 將q特征空間維度壓縮為1×1的大小,而v特征的空間維度則保持在一個比較高的水平(H×W)。由于q的空間維度被壓縮了,所以本文使用Softmax對v的信息進行增強。首先將q和v進行矩陣乘法,然后使用reshape操作和Sigmoid激活函數(shù)使得所有的參數(shù)都保持在0~1 之間。最后對通道分支和空間分支的結(jié)果進行了并聯(lián)得到最終聯(lián)合自注意力JSAp:

        其中,x∈RC×H×W,⊙c為channel-wise 上的乘法運算,⊙s為spatial-wise 上的乘法運算。本文采用的是selfattention[18]的方式來獲取注意力權(quán)重,充分利用了selfattention 結(jié)構(gòu)的建模能力,并且本文對q也進行了特征降維,所以在保證計算量的情況下,實現(xiàn)了一種非常有效的遠距離建模。

        2.3 損失函數(shù)

        為了更好地恢復(fù)缺失圖像中的語義和真實細節(jié),本文將對抗損失、像素重建損失、感知損失、風(fēng)格損失結(jié)合起來共同訓(xùn)練本文的模型。

        2.3.1 對抗損失

        對抗損失[11]可以提高生成圖像的視覺質(zhì)量,常用于圖像生成[26]和圖像風(fēng)格遷移[27]。此外,對抗損失使得生成器和鑒別器不斷優(yōu)化,提高了生成圖像的細節(jié)質(zhì)量。本文的圖像修復(fù)網(wǎng)絡(luò)的對抗損失為:

        其中,Pdata(Igt)表示真實圖像的分布;Pmiss(Ipred)表示修復(fù)圖像的分布;minΘ生成器在盡可能地使該式的結(jié)果最小化;而maxD判別器卻在盡可能地使結(jié)果最大化,模型在這種對抗中不斷得到優(yōu)化。

        2.3.2 像素重構(gòu)損失

        像素重構(gòu)損失Ll1[28]計算的是修復(fù)圖像Ipred與真實圖像Igt之間的像素差。像素重建損失的L1-Norm范數(shù)誤差表示為:

        2.3.3 感知損失

        對抗損失改善了紋理質(zhì)量,但這種損失在模型學(xué)習(xí)結(jié)構(gòu)信息時是有限的。這些損失仍然無法捕獲高級語義,不適合生成與人類感知[29]一致的圖像。與此不同的是,感知損失是將卷積得到的特征與真實圖像進行比較。這種損失可以度量圖像[30]之間的高級語義的相似性,有效地改善了修復(fù)圖像的結(jié)構(gòu)。圖像修復(fù)網(wǎng)絡(luò)的感知損失為[28]:

        其中,?i是從ⅠmageNet[31]數(shù)據(jù)集上預(yù)先訓(xùn)練的VGG-16[32]網(wǎng)絡(luò)的池化層中提取的圖像I的第l層特征圖,hl、wl和cl分別是?i(I)的長度、寬度以及通道數(shù)。

        2.3.4 風(fēng)格損失

        雖然對抗性損失和感知損失可以有效地改善圖像的紋理和細節(jié),但它們無法避免修復(fù)結(jié)果產(chǎn)生視覺偽影。因此,本文在損失函數(shù)中添加了風(fēng)格損失,以提高整體一致性,圖像修復(fù)網(wǎng)絡(luò)的風(fēng)格損失定義為:

        其中,Gram矩陣用于計算特征間的相關(guān)性。Gram矩陣是通過計算內(nèi)積的Hermitian矩陣得到,其構(gòu)造定義為:

        2.3.5 模型目標(biāo)

        根據(jù)上述損失函數(shù),本文模型的總體目標(biāo)損失函數(shù)如下:

        其中,α、αp、αs和αl1是平衡不同損失項貢獻的超參數(shù)。在本文的實現(xiàn)中,本文根據(jù)文獻[11]設(shè)置了α=0.1,αp=1,αs=250,αl1=1。

        2.4 算法流程

        結(jié)合上下文特征調(diào)整的多級注意力特征融合的圖像修復(fù)算法如下:

        輸入:受損原圖,隨機掩碼。

        輸出:本文算法修復(fù)后的圖片。

        Begin algorithm

        1.首先從訓(xùn)練數(shù)據(jù)中批量采樣圖像x,然后為每一批圖像中的每一張圖像使用隨機掩碼來獲得受損圖像。

        2.if stage==1。

        3.訓(xùn)練生成器=True;訓(xùn)練判別器=False。

        4.epochs 為40,每輪4 000 次迭代,在重建損失、感知損失、風(fēng)格損失和TV懲罰項的加權(quán)損失函數(shù)下更新生成網(wǎng)絡(luò)來得到修復(fù)圖。

        5.elif stage==2。

        6.訓(xùn)練生成器=False;訓(xùn)練判別器=True。

        7.epochs 為10,每輪2 000 次迭代,在對抗性損失函數(shù)下更新判別器。

        8.elif stage==3:

        9.訓(xùn)練生成器=True;訓(xùn)練判別器=True。

        10.加權(quán)所有損失函數(shù)來更新整個網(wǎng)絡(luò),epochs 為10,每輪2 000次迭代。

        3 實驗及分析

        在模型訓(xùn)練過程中,輸入圖像均被縮放至256×256大小。所有實驗都是在Ubuntu 17.10系統(tǒng)上使用Python進行的,該系統(tǒng)配有i7-6800K 3.40 GHz CPU 和11 GB NVⅠDⅠA RTX2080Ti GPU。

        3.1 實現(xiàn)細節(jié)

        訓(xùn)練分為三個階段:首先訓(xùn)練生成網(wǎng)絡(luò),批處理大小設(shè)為6,每輪4 000次迭代,共40輪,學(xué)習(xí)率為0.000 2;然后固定生成網(wǎng)絡(luò),訓(xùn)練2 個判別器,批處理大小設(shè)為6,每輪2 000 次迭代,共10 輪,學(xué)習(xí)率為0.05。最后,將生成網(wǎng)絡(luò)和2個判別器聯(lián)合訓(xùn)練,批處理大小設(shè)為6,每輪2 000次迭代,共10輪,學(xué)習(xí)率為0.000 2。

        3.2 實驗數(shù)據(jù)集和圖片掩碼

        本文在3個公共數(shù)據(jù)集和1種掩碼上評估了本文的方法。

        CelebA[33]:這個數(shù)據(jù)集是香港大學(xué)在2015年發(fā)布的一個大型人臉屬性數(shù)據(jù)集,包括約20萬張名人圖片。

        Paris StreetView[34]:該數(shù)據(jù)集包含14 900 張訓(xùn)練圖像和100 張從巴黎街景中收集的測試圖像。這個數(shù)據(jù)集側(cè)重于城市的真實街道場景。

        Places2[35]:數(shù)據(jù)集中包含來自365 個場景的800 多萬張圖像。

        Ⅰrregular masks:本文使用了[36]中的掩碼集,它有12 000 個不規(guī)則掩碼,根據(jù)掩碼的大小預(yù)分為3 個區(qū)間(10%~20%,30%~40%,50%~60%)。

        3.3 模型對比

        將本文的方法與幾個主流的方法進行比較。這些模型在與本文相同的實驗設(shè)置下被訓(xùn)練到收斂,這些模型如下所示。

        EC[37]:邊界信息引導(dǎo)的圖像修復(fù)模型,利用邊界信息來完成圖像修復(fù)。

        CA[21]:算法采用encoder-decoder結(jié)構(gòu)去推斷已缺失圖像區(qū)域的上下文,利用了高層次的上下文注意特征細化紋理細節(jié)。

        MFE[38]:用于圖像修復(fù)的互編解碼模型。來自淺層的CNN特征表示紋理,來自深層的特征表示結(jié)構(gòu)。

        RFR[17]:特征推理修復(fù)模型,通過逐步填充缺失區(qū)域的信息來完成圖像修復(fù)。

        3.4 實驗結(jié)果

        在這一部分,將本文的模型與上一節(jié)中提到的幾種最先進的方法進行了比較。分別進行了定性分析和定量分析,以證明本文方法的優(yōu)越性。

        定性比較:圖3展示了本文方法與對比方法在CelebA、Places2和Paris StreetView數(shù)據(jù)集上的對比結(jié)果,GT為真實圖像。在大多數(shù)情況下,本文的修復(fù)結(jié)果比對比方法具有更準(zhǔn)確的結(jié)構(gòu)重建能力,明顯減少了不一致性,與其他方法相比,產(chǎn)生了更詳細合理的修復(fù)結(jié)果。

        圖3 不同模型的圖像修復(fù)結(jié)果定性對比Fig.3 Qualitative comparison of image inpainting results for different models

        定量比較:本文用結(jié)構(gòu)相似度指數(shù)(SSⅠM)、峰值信噪比(PSNR)和mean L1 loss來客觀衡量修復(fù)結(jié)果的質(zhì)量。其中,PSNR 和SSⅠM 可以大致反映模型重構(gòu)原始圖像內(nèi)容的能力,為人類的視覺感知提供了良好的近似。mean L1 loss 損失直接測量重建圖像與真實圖像之間的L1 距離,是一個非常實用的圖像質(zhì)量評估指標(biāo)。如表2所示,本文的方法在掩碼率為50%到60%時擁有最高的SSⅠM、PSNR和最小平均L1 loss。

        3.5 消融研究

        3.5.1 上下文特征調(diào)整模塊的消融實驗

        為了驗證上下文特征調(diào)整模塊的有效性,本文比較了沒有使用上下文特征調(diào)整模塊的圖像修復(fù)效果和使用上下文特征調(diào)整模塊的效果。實驗結(jié)果如圖4所示。本文發(fā)現(xiàn)使用上下文特征調(diào)整模塊的生成圖像中具有更準(zhǔn)確和完整的結(jié)構(gòu)信息,從而證明了上下文特征調(diào)整模塊能夠有效地保持圖像修復(fù)中語義結(jié)構(gòu)信息的完整性。

        圖4 有/無CFA的圖像修復(fù)結(jié)果Fig.4 Ⅰmage inpainting results with/without contextual feature adjustment

        3.5.2 聯(lián)合自注意力模塊消融實驗

        聯(lián)合自注意力被設(shè)計用來提高本文方法中的修復(fù)性能。為了研究它們的有效性,本文進行了消融研究。如圖5所示。本文發(fā)現(xiàn)在生成的圖像中,使用聯(lián)合自注意力模塊可以更好地恢復(fù)圖像中的紋理細節(jié),從而證明了聯(lián)合注意在恢復(fù)圖像細粒度紋理方面的優(yōu)勢。

        圖5 有/無JSA的圖像修復(fù)結(jié)果Fig.5 Ⅰmage inpainting results with/without Joint self-attention

        3.5.3 模塊有效性研究

        為驗證上下文特征調(diào)整模塊以及聯(lián)合自注意力的有效性,本文以平均L1 損失為性能參考進行了對比定量研究,結(jié)果如表3 所示。其中,CFA1 至CFA4 為上下文特征調(diào)整組件,JSA為本文所提出的聯(lián)合自注意力模塊。一般來說,隨著模塊的增加,平均L1 損失越小,修復(fù)性能更高。具體而言,上下文特征調(diào)整模塊有助于學(xué)習(xí)更精確的場景布局,使用聯(lián)合自注意力可以生成更真實的紋理,兩者結(jié)合進一步改進了修復(fù)圖像的結(jié)構(gòu)和紋理的完整性。

        表3 模塊有效性研究Table 3 Module validity study

        4 結(jié)束語

        本文提出了一種結(jié)合上下文特征調(diào)整與聯(lián)合自注意力的圖像修復(fù)模型。該模型主要由兩部分組成:(1)上下文特征調(diào)整模塊;(2)聯(lián)合自注意力模塊。通過上下文特征調(diào)整模塊使上采樣的特征圖與對應(yīng)特征圖空間位置保持一致,減少了自底向上和上采樣特征之間存在的特征位置偏移問題。通過使用聯(lián)合自注意力機制在保證計算量的情況下,實現(xiàn)了一種非常有效的遠距離建模,使得模型能夠在圖像修復(fù)任務(wù)上獲得更好的性能。本文將這兩個模塊整合到一個自上而下的金字塔結(jié)構(gòu)中,加強了模型對圖像不同尺度特征的利用,并形成了一個新的圖像修復(fù)模型。實驗表明,本文的方法可以為最終結(jié)果提供穩(wěn)定的性能提升,特別是當(dāng)圖像修復(fù)任務(wù)涉及大面積缺陷或復(fù)雜結(jié)構(gòu)時,本文的方法在質(zhì)量上和數(shù)量上都優(yōu)于現(xiàn)有的主流方法。

        猜你喜歡
        注意力語義損失
        少問一句,損失千金
        讓注意力“飛”回來
        胖胖損失了多少元
        語言與語義
        玉米抽穗前倒伏怎么辦?怎么減少損失?
        “揚眼”APP:讓注意力“變現(xiàn)”
        傳媒評論(2017年3期)2017-06-13 09:18:10
        A Beautiful Way Of Looking At Things
        “上”與“下”語義的不對稱性及其認知闡釋
        一般自由碰撞的最大動能損失
        認知范疇模糊與語義模糊
        久久久99精品视频| 国产精品美女| 日韩av无码午夜福利电影| 日韩中文字幕熟女人妻| 欧洲熟妇色xxxx欧美老妇软件 | 亚洲中文av中文字幕艳妇| 国产精品久久国产精品99| 香蕉视频在线观看国产| 亚洲精品国产一区av| 亚洲国产成人久久综合碰碰| 色偷偷噜噜噜亚洲男人| 成年女人A级毛片免| 亚洲激情一区二区三区视频| 国产欧美日韩中文久久| 97久久天天综合色天天综合色hd| 人妻无码ΑV中文字幕久久琪琪布| 中文字幕亚洲一区二区三区| 粉嫩的18在线观看极品精品| 女同精品一区二区久久| 国产美女在线精品免费观看| 久久福利青草精品资源| 久久亚洲综合亚洲综合| 日韩av无码一区二区三区不卡| 国产日产高清欧美一区| av蜜桃视频在线观看| 日韩av一区二区网址| 欧美成人aaa片一区国产精品| 人妻丰满熟妇AV无码区HD| 91在线视频视频在线| 国产精选自拍视频网站| 欧洲人妻丰满av无码久久不卡| 亚洲日韩一区二区一无码| 激情偷拍视频一区二区| 97久久国产亚洲精品超碰热| 久久国产色av| 亚洲精品一区二区三区av| 末成年人av一区二区| 色偷偷偷久久伊人大杳蕉| 亚洲日韩图片专区小说专区| 久久中文字幕国产精品| 国产乱子轮xxx农村|