亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        多尺度生成式對(duì)抗網(wǎng)絡(luò)圖像修復(fù)算法*

        2020-01-11 06:26:54李克文張文韜邵明文
        計(jì)算機(jī)與生活 2020年1期
        關(guān)鍵詞:全局尺度損失

        李克文,張文韜,邵明文,李 樂

        中國(guó)石油大學(xué)(華東)計(jì)算機(jī)與通信工程學(xué)院,山東 青島266000

        1 引言

        隨著深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域的飛速發(fā)展,圖像編輯(image editing)和圖像生成(image generation)問題的研究已經(jīng)取得了顯著的成效。本文討論的圖像缺失修復(fù)(image inpainting)問題,是介于圖像編輯和圖像生成之間的一個(gè)熱點(diǎn)問題,在圖像縮放、文物保護(hù)、公安刑偵面部修復(fù)、生物醫(yī)學(xué)圖像應(yīng)用和航空航天技術(shù)等領(lǐng)域具有重大意義。

        圖像修復(fù)是一個(gè)傳統(tǒng)圖形學(xué)的問題:在一幅圖像上的某一位置缺失了一定大小的區(qū)域,利用其他的信息將這個(gè)缺失區(qū)域恢復(fù),讓人們無法辨別出修復(fù)的部分。

        如圖1 所示(從左到右依次為原始圖片、缺失圖片以及修復(fù)圖片),兩幅圖像中的缺失區(qū)域中分別有杯子和花,人們可以根據(jù)周圍圖像的內(nèi)容,很容易就能把圖像補(bǔ)全。由于人的大腦具有主觀意識(shí),不同的人修復(fù)效果存在差異性,因此在圖像修復(fù)的過程中必須遵循結(jié)構(gòu)性、相似性、紋理一致、結(jié)構(gòu)優(yōu)先等原則。但圖像修復(fù)任務(wù)對(duì)于計(jì)算機(jī)卻格外困難,因?yàn)檫@個(gè)問題沒有唯一確定的解,如何利用其他的信息去輔助修復(fù),如何去判斷修復(fù)結(jié)果是否足夠真實(shí),是研究者們所關(guān)心的問題。

        Fig.1 Repair of two different images圖1 兩張不同圖片的修復(fù)

        目前,基于結(jié)構(gòu)的圖像修復(fù)、基于紋理的圖像修復(fù)和基于深度學(xué)習(xí)的圖像修復(fù)是圖像修復(fù)領(lǐng)域的三個(gè)主要方向,本文的研究主要是針對(duì)基于深度學(xué)習(xí)的圖像修復(fù)算法。近年來,卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)[1-2]極大地提高了語(yǔ)義圖像的分類、目標(biāo)檢測(cè)和分割等任務(wù)的性能[3-5]。國(guó)內(nèi)外研究人員已經(jīng)將CNN 模型用于圖像修復(fù)任務(wù),但僅使用CNN 的修復(fù)方法結(jié)果精度不高,性能有很大的提高空間。

        針對(duì)現(xiàn)有方法存在的問題,本文提出一種多尺度生成式對(duì)抗網(wǎng)絡(luò)模型,得到高精度、高準(zhǔn)確率、視覺一致性強(qiáng)的修復(fù)圖像:首先,提出了一種由生成器和對(duì)抗性判別器組成的深度生成對(duì)抗修復(fù)模型,利用重構(gòu)損失和對(duì)抗損失,從隨機(jī)噪聲中合成缺失的內(nèi)容。其次,提出了一種多尺度的判別器結(jié)構(gòu),通過使用不同分辨率的圖像進(jìn)行對(duì)抗訓(xùn)練進(jìn)行圖像修復(fù)。然后,生成器中使用擴(kuò)張卷積來降低圖片下采樣過程中信息的丟失,利用當(dāng)前流行的泊松混合方法對(duì)修復(fù)圖像進(jìn)行了一定的后續(xù)處理。最后,通過實(shí)驗(yàn)說明本文提出算法的優(yōu)勢(shì)和圖像的修復(fù)效果。

        2 相關(guān)工作

        傳統(tǒng)圖像修復(fù)方法例如Bertalmio 等人[6]利用擴(kuò)散方程沿著掩模邊界的已知區(qū)域的低級(jí)特征迭代地傳播到未知區(qū)域。雖然在修復(fù)中表現(xiàn)得很好,但僅限于處理小而均勻的區(qū)域。通過引入紋理合成[7],進(jìn)一步提高了修復(fù)效果。Zoran 和Weiss 在文獻(xiàn)[8]中,通過學(xué)習(xí)圖像塊的先驗(yàn)來恢復(fù)具有缺失像素的圖像。

        早期的基于深度學(xué)習(xí)的圖像修復(fù)方法,如Ren 等人在文獻(xiàn)[9]中學(xué)習(xí)了一種卷積網(wǎng)絡(luò),通過一種高效的圖像塊匹配算法[10]大大提高了圖像修復(fù)的性能。當(dāng)發(fā)現(xiàn)類似的圖像塊時(shí),它的性能很好,但是當(dāng)數(shù)據(jù)集中沒有包含足夠的數(shù)據(jù)來填充未知區(qū)域時(shí),它很可能會(huì)失敗。Wright 等人[11]將圖像修復(fù)作為從輸入中恢復(fù)稀疏信號(hào)的任務(wù)。通過求解稀疏線性系統(tǒng),可以根據(jù)一些損壞的輸入圖像來修復(fù)圖像。然而,這種算法要求圖像高度結(jié)構(gòu)化。Kingma 等人在文獻(xiàn)[12]中提出了變分自編碼器(variational auto-encoders,VAEs),通過在潛在單元上施加先驗(yàn),使圖像可以通過潛在單元采樣或插值生成。然而,由于基于像素級(jí)高斯似然的訓(xùn)練目標(biāo),VAE 生成的圖像通常是模糊的。

        隨著深度學(xué)習(xí)的進(jìn)一步發(fā)展,Goodfellow 等人在2014 年提出的生成式對(duì)抗網(wǎng)絡(luò)模型(generative adversarial network,GAN)[13]是深度學(xué)習(xí)發(fā)展中的一個(gè)里程碑式的進(jìn)展。隨著GAN 的問世,解決了利用傳統(tǒng)的VAE 生成圖片模糊的問題,取得了令人震驚的效果,理論上能夠生成大量清晰圖片。Larsen 等人在文獻(xiàn)[14]中通過添加一個(gè)對(duì)抗性訓(xùn)練的判別器來改進(jìn)VAE,該判別器來自生成式對(duì)抗網(wǎng)絡(luò),并證明了可以生成更真實(shí)的圖像。與此工作最接近的是Pathak 等人提出的“Context Encoder”模型[15],該方法應(yīng)用了一個(gè)自編碼器,將學(xué)習(xí)視覺表示與圖像修復(fù)相結(jié)合,但使用這種方法修復(fù)的圖片效果在某些情況下并不理想,修復(fù)區(qū)域與整張圖片會(huì)有明顯的不一致性,在修復(fù)區(qū)域的邊緣效果不是很好。針對(duì)“Context Encoder”模型出現(xiàn)的問題,早稻田大學(xué)的Iizuka 等人進(jìn)行了改進(jìn)[16],將設(shè)計(jì)擴(kuò)展為兩個(gè)判別器,使用經(jīng)過訓(xùn)練的全局和局部上下文判別器來分別區(qū)分真實(shí)圖像和修復(fù)圖像,使網(wǎng)絡(luò)能夠產(chǎn)生局部以及全局一致的圖像。

        使用GAN 進(jìn)行圖像修復(fù)的主要問題之一是模型訓(xùn)練過程中的不穩(wěn)定性,比如網(wǎng)絡(luò)無法收斂,容易出現(xiàn)梯度消失以及梯度下降等問題,這導(dǎo)致了對(duì)該問題的大量研究[17]。最新的研究表明,傳統(tǒng)GAN 中交叉熵(Jensen-Shannon divergence,JS 散度)不適合衡量生成數(shù)據(jù)分布和真實(shí)數(shù)據(jù)分布的距離,如果通過優(yōu)化JS 散度訓(xùn)練GAN 會(huì)導(dǎo)致找不到正確的優(yōu)化目標(biāo)。Arjovsky 等人提出的Wasserstein GAN[18]從損失函數(shù)的角度對(duì)GAN 進(jìn)行了改進(jìn),損失函數(shù)改進(jìn)之后的WGAN 即使在全連接層上也能得到很好的表現(xiàn)結(jié)果,解決了訓(xùn)練不穩(wěn)定的問題。Gulrajani 等人在Wasserstein GAN 基礎(chǔ)上進(jìn)行了改進(jìn)[19],優(yōu)化了連續(xù)性限制的條件,解決了訓(xùn)練梯度消失和梯度爆炸的問題并且加快了收斂速度。Mao 等人提出的LSGAN(least squares GAN)[20]模型使用了最小二乘損失函數(shù)代替了GAN 的損失函數(shù),同樣緩解了GAN 訓(xùn)練不穩(wěn)定,生成圖像質(zhì)量差以及多樣性不足的問題。

        由于人們對(duì)于GAN 生成圖片的分辨率要求越來越高,隨之而來的另一個(gè)問題是由于網(wǎng)絡(luò)在池化過程中會(huì)對(duì)圖像進(jìn)行下采樣提取低維特征,造成圖像中很多關(guān)鍵信息的丟失,判別器更容易分辨出圖片真假,使得梯度不能指示正確的優(yōu)化方向。那么如何有效地利用神經(jīng)網(wǎng)絡(luò)每層提取的特征,最大限度地減少下采樣過程所帶來的損失的同時(shí)充分提取圖像的低維特征,是當(dāng)前研究的一個(gè)熱點(diǎn)。Yu 等人在2016 年提出了擴(kuò)張卷積的方法[21],在卷積過程中可以擴(kuò)大感受野的同時(shí)使特征圖大小保持不變,有效地降低了傳統(tǒng)卷積過程中由于下采樣所帶來的信息丟失,并用于圖像處理。Wang 等人提出的“pix2pixHD”模型[22]利用條件生成對(duì)抗網(wǎng)絡(luò)(conditional GANs)[23]來合成高分辨率逼真的圖像,利用了一個(gè)最新的多尺度生成器-判別器結(jié)構(gòu),穩(wěn)定訓(xùn)練的同時(shí)提升了圖片質(zhì)量并且提高了圖片的分辨率。圖2 所示為多尺度判別器模型示意圖,它們具有相同的網(wǎng)絡(luò)結(jié)構(gòu),但在不同的圖像尺度下工作。將這些判別器稱為D1、D2 和D3。具體來說,分別對(duì)真實(shí)的和合成的高分辨率圖像進(jìn)行下采樣。然后訓(xùn)練D1、D2 和D3 分別在三個(gè)不同的尺度上區(qū)分真實(shí)圖像和合成圖像。

        Fig.2 Multi-scale discriminator models圖2 多尺度判別器模型

        本文的工作建立在Pathak 等人提出的“context encoder”方法以及Iizuka 等人提出的“globally and locally consistent image completion”方法的基礎(chǔ)之上。通過使用均方誤差(mean squared error,MSE)損失結(jié)合GAN 損失,能夠訓(xùn)練一個(gè)圖像修復(fù)網(wǎng)絡(luò),避免了僅使用MSE 損失時(shí)常見的模糊。僅僅使用這種方式會(huì)使網(wǎng)絡(luò)訓(xùn)練不穩(wěn)定。本文通過使用WGAN 中的損失代替?zhèn)鹘y(tǒng)GAN 的損失,利用EM(earth mover)距離去衡量數(shù)據(jù)分布之間的差異,不訓(xùn)練純粹的生成模型和調(diào)整學(xué)習(xí)過程來優(yōu)先考慮穩(wěn)定性來避免這個(gè)問題。此外專門針對(duì)圖像修復(fù)問題對(duì)架構(gòu)和訓(xùn)練過程進(jìn)行了大量?jī)?yōu)化。特別地,不使用單一判別器而是使用多個(gè)判別器,采用類似于“pix2pixHD”模型[22]中的多尺度判別器來提高視覺質(zhì)量。

        3 多尺度對(duì)抗網(wǎng)絡(luò)模型

        在本章中,將介紹多尺度生成式對(duì)抗網(wǎng)絡(luò)模型及原理,包括一個(gè)生成網(wǎng)絡(luò)用于圖像修復(fù),四個(gè)額外的判別器網(wǎng)絡(luò)輔助訓(xùn)練,即兩個(gè)多尺度判別器網(wǎng)絡(luò),一個(gè)全局判別器網(wǎng)絡(luò)和一個(gè)局部判別器網(wǎng)絡(luò),以便訓(xùn)練整個(gè)網(wǎng)絡(luò)能夠出色地完成圖像修復(fù)任務(wù)。在訓(xùn)練期間,訓(xùn)練判別器以確定圖像是否已經(jīng)修復(fù)成功,同時(shí)訓(xùn)練生成器以欺騙所有判別器。只有通過一起訓(xùn)練的所有網(wǎng)絡(luò),生成器才能真正地修復(fù)各種圖像。網(wǎng)絡(luò)架構(gòu)如圖3 所示。

        Fig.3 Network architecture圖3 網(wǎng)絡(luò)架構(gòu)

        3.1 生成式對(duì)抗網(wǎng)絡(luò)原理

        GAN 的主要原理來源于博弈論中的思想,整個(gè)網(wǎng)絡(luò)包含兩個(gè)相互對(duì)抗的網(wǎng)絡(luò)結(jié)構(gòu),即生成網(wǎng)絡(luò)G(generator)和判別網(wǎng)絡(luò)D(discriminator),如圖4 所示。通過G和D不斷進(jìn)行對(duì)抗博弈,進(jìn)而使G學(xué)習(xí)到真實(shí)數(shù)據(jù)的分布,如果將對(duì)抗網(wǎng)絡(luò)用于圖像的生成,則經(jīng)過不斷地訓(xùn)練后,G可以從一個(gè)噪聲中生成逼真的圖像。G、D的主要功能是:G是一個(gè)生成式網(wǎng)絡(luò),G的輸入是一個(gè)隨機(jī)的噪聲Z(隨機(jī)數(shù)),通過這個(gè)噪聲生成用于欺騙D的假圖片即G(Z)。D是一個(gè)判別網(wǎng)絡(luò),用來判別一張圖片的真實(shí)性。它的輸入是一張圖片,可能來自于數(shù)據(jù)集中的真實(shí)圖片,也可能來自于G生成的圖片,輸出為D判定輸入是真實(shí)圖片的概率,如果輸出概率是1,表明D判斷輸入為真實(shí)的圖片,如果輸出概率為0,表明D判斷輸入不可能是真實(shí)圖片(即G生成的圖片)。訓(xùn)練過程中,生成網(wǎng)絡(luò)G的任務(wù)就是生成逼真的假圖像去混淆判別網(wǎng)絡(luò)D的判斷。D的目標(biāo)就是盡量辨別出G生成的假圖像和真實(shí)的圖像。因此,G和D的訓(xùn)練過程就構(gòu)成了一個(gè)動(dòng)態(tài)的“博弈過程”,最終達(dá)到平衡狀態(tài)即納什均衡。博弈的結(jié)果為在最理想的狀態(tài)下,G可以生成足夠真的圖片,而D難以判定G生成圖片的真實(shí)性,即輸出概率為0.5,這樣就訓(xùn)練出了一個(gè)可以大量生成逼真圖片的生成式網(wǎng)絡(luò)模型G。

        Fig.4 Generative adversarial network model圖4 生成式對(duì)抗網(wǎng)絡(luò)模型

        3.2 生成器

        采用一個(gè)卷積自編碼器作為生成器模型G,即一個(gè)標(biāo)準(zhǔn)的編碼器-解碼器結(jié)構(gòu),編碼器結(jié)構(gòu)采用具有缺失區(qū)域的圖像作為輸入,通過卷積操作生成該圖像的潛在特征表示。解碼器結(jié)構(gòu)利用這種潛在特征表示通過轉(zhuǎn)置卷積操作恢復(fù)原始分辨率,產(chǎn)生缺失區(qū)域的圖像內(nèi)容。與從噪聲向量直接開始的原始GAN 模型不同,從編碼器獲得的隱藏表示捕獲了未知區(qū)域和已知區(qū)域之間的更多變化和關(guān)系,然后輸入解碼器生成內(nèi)容。中間層使用了擴(kuò)張卷積,允許使用更大的輸入?yún)^(qū)域計(jì)算每個(gè)輸出像素,沒有額外的參數(shù)以及計(jì)算量,相比于標(biāo)準(zhǔn)卷積層,擴(kuò)張卷積網(wǎng)絡(luò)模型可以在輸入圖像更大的像素區(qū)域的影響下計(jì)算每個(gè)輸出像素。如果不使用擴(kuò)張卷積,它將僅使用較小的像素區(qū)域,無法利用更多的上下文信息進(jìn)行圖像的合成。

        生成器使用標(biāo)準(zhǔn)的自編碼器網(wǎng)絡(luò),在此基礎(chǔ)上添加了擴(kuò)張卷積層,即Iizuka 等人提出的生成器網(wǎng)絡(luò)去掉了中間兩層卷積層,網(wǎng)絡(luò)體系結(jié)構(gòu)如表1 所示。從左到右依次為網(wǎng)絡(luò)層類型(conv 為卷積層,d-conv為擴(kuò)張卷積層,deconv 為反卷積層),卷積核大小,卷積核零填充的數(shù)目,步長(zhǎng)以及該層輸出通道數(shù)。

        3.3 判別器

        通過對(duì)生成器進(jìn)行訓(xùn)練,使其能夠利用小的重構(gòu)損失填充缺失區(qū)域相應(yīng)的像素。僅僅使用生成器并不能確保填充的區(qū)域在視覺上保持真實(shí)一致。生成的圖像缺失區(qū)域像素非常模糊,只能捕捉到缺失區(qū)域的大體形狀。為了獲得更逼真的效果,加入了全局判別器、局部判別器以及多尺度判別器作為二值分類器來區(qū)分真假圖像,目的是辨別圖像是真實(shí)的還是經(jīng)過修復(fù)的。判別器幫助網(wǎng)絡(luò)提高修復(fù)結(jié)果的質(zhì)量,訓(xùn)練有素的判別器不會(huì)被不切實(shí)際的圖像所愚弄。這些判別器基于卷積神經(jīng)網(wǎng)絡(luò),將圖像壓縮成對(duì)應(yīng)的小的特征向量。預(yù)測(cè)對(duì)應(yīng)于圖像是真實(shí)的概率值。

        Table 1 Architecture of generator G表1 生成器G 體系結(jié)構(gòu)

        首先是局部判別器Dl,它決定了缺失區(qū)域的合成內(nèi)容是否真實(shí)。能夠幫助網(wǎng)絡(luò)生成缺失內(nèi)容的信息。它鼓勵(lì)生成的對(duì)象在語(yǔ)義上是有效的。由于局部判別器的局部性,它的局限性也很明顯。局部判別器損失既不能使一張臉的全局結(jié)構(gòu)規(guī)范化,也不能保證缺失區(qū)域內(nèi)外邊緣的一致性。因此,修復(fù)圖片的像素值沿修復(fù)區(qū)域邊界的不一致性很明顯。

        由于局部判別器的局限性,引入另一個(gè)名為全局判別器的網(wǎng)絡(luò)結(jié)構(gòu)Dg來確定圖像作為一個(gè)整體的準(zhǔn)確性?;舅枷霝椋蓤D像修復(fù)區(qū)域的內(nèi)容不僅要真實(shí),還要與上下文保持一致。具有全局判別器的網(wǎng)絡(luò)極大地緩解了不一致的問題,進(jìn)一步提高了生成修復(fù)圖片的效果,使其更加真實(shí)。

        最后,提出了一種多尺度判別器網(wǎng)絡(luò)結(jié)構(gòu)。其基本思想是,對(duì)真實(shí)的和合成的圖像分別進(jìn)行下采樣,下采樣系數(shù)為2 和4,訓(xùn)練兩個(gè)判別器Dm1、Dm2分別在兩個(gè)不同的尺度上區(qū)分真實(shí)圖像和修復(fù)圖像。通過兩個(gè)輸入為不同分辨率圖像的判別器網(wǎng)絡(luò),對(duì)生成器修復(fù)圖像的過程進(jìn)行了嚴(yán)格的控制,兩個(gè)多尺度判別器以及全局判別器具有相似的架構(gòu),但具有不同大小的感受野。相比于單獨(dú)使用全局判別器,聯(lián)合多尺度判別器進(jìn)行訓(xùn)練可以引導(dǎo)生成器生成全局一致性更強(qiáng)的修復(fù)圖片以及更精細(xì)的細(xì)節(jié),整張圖片的修復(fù)效果在視覺上更合理。通過將兩個(gè)多尺度判別器加入到網(wǎng)絡(luò)中,能夠得到效果更好的修復(fù)圖片。

        將Iizuka 等人提出的全局判別器和局部判別器去掉最后兩層全連接層,其他結(jié)構(gòu)不做改變。全局判別器、局部判別器和多尺度判別器網(wǎng)絡(luò)體系結(jié)構(gòu)如表2~表5 所示。從左到右依次為網(wǎng)絡(luò)層類型、卷積核大小、步長(zhǎng)以及該層輸出通道數(shù)。表2、表3、表4、表5 分別為Dl、Dg、Dm1、Dm2。

        Table 2 Architecture of local discriminator Dl表2 局部判別器Dl 體系結(jié)構(gòu)

        Table 3 Architecture of global discriminator Dg表3 全局判別器Dg 體系結(jié)構(gòu)

        Table 4 Architecture of multi-scale discriminator Dm1表4 多尺度判別器Dm1體系結(jié)構(gòu)

        Table 5 Architecture of multi-scale discriminator Dm2表5 多尺度判別器Dm2體系結(jié)構(gòu)

        3.4 損失函數(shù)

        通常有多種合理的方法來填充與上下文一致的缺失圖像區(qū)域。例如可以通過一個(gè)損失函數(shù)來建模這種行為。因此首先向生成器引入重構(gòu)損失Lr,負(fù)責(zé)捕獲缺失區(qū)域的結(jié)構(gòu)信息并與上下文保持一致,即修復(fù)圖像與原始圖像像素之間的L2 距離,z為噪聲掩碼:

        但僅僅使用Lr損失,觀察到生成的修復(fù)圖像內(nèi)容趨于模糊和平滑。因?yàn)長(zhǎng)2 距離損失的原因是由于嚴(yán)重懲罰了異常值,鼓勵(lì)網(wǎng)絡(luò)平滑地跨越各種假設(shè)以避免大的懲罰。通過使用判別器,引入了對(duì)抗性損失,這反映了生成器如何最大限度地愚弄判別器,以及判別器如何區(qū)分真假。對(duì)抗性損失是基于GAN 的損失。為了學(xué)習(xí)數(shù)據(jù)分布的生成模型,GAN學(xué)習(xí)一個(gè)對(duì)抗性判別器模型D,為生成器模型提供損失梯度。對(duì)抗性判別器D同時(shí)對(duì)生成器G生成樣本和真實(shí)樣本進(jìn)行預(yù)測(cè),并試圖區(qū)分它們,而生成器G則通過產(chǎn)生盡可能“真實(shí)”的樣本來混淆判別器D:

        其中,Pdata(x)和Pz(z)分別表示真實(shí)數(shù)據(jù)x和噪聲變量z的分布。通過最小化生成器損失以及最大化判別器損失來優(yōu)化網(wǎng)絡(luò)。

        由于傳統(tǒng)GAN 模型訓(xùn)練過程中的不穩(wěn)定性,使用WGAN 的損失函數(shù)及方法訓(xùn)練GAN,具體做法為去掉判別器D最后一層的sigmoid,G和D的損失函數(shù)不取損失函數(shù)對(duì)數(shù),本文算法不使用傳統(tǒng)的GAN的目標(biāo)函數(shù)而使用了這種方法:

        判別器D滿足1-Lipschitz限制,本質(zhì)上就是要求網(wǎng)絡(luò)的波動(dòng)程度不能太大,具體做法為每次更新D的參數(shù)之后,并將其絕對(duì)值截?cái)?,使其不超過一個(gè)固定的常數(shù),即weight clipping。

        4 個(gè)判別網(wǎng)絡(luò){Dl,Dg,Dm1,Dm2}對(duì)損失函數(shù)的定義相同。唯一的區(qū)別是,局部判別器僅為缺失區(qū)域提供訓(xùn)練的損失梯度,全局判別器和多尺度判別器在不同分辨率的整張圖像上反向傳播損失梯度。局部判別器Dl的輸入為生成器G輸出圖像的修復(fù)部分和真實(shí)圖像對(duì)應(yīng)的部分。全局判別器Dg的輸入為生成器G輸出圖像和真實(shí)圖像。多尺度判別器Dm1的輸入為生成器G輸出圖像和真實(shí)圖像分別下采樣2倍的輸出圖像和真實(shí)圖像。多尺度判別器Dm2的輸入為生成器G輸出圖像和真實(shí)圖像分別下采樣4 倍的輸出圖像和真實(shí)圖像。判別器分別定義為:

        綜上所述,整個(gè)網(wǎng)絡(luò)優(yōu)化的總損失函數(shù)定義為:

        式中,λ1、λ2、λ3、λ4為不同損失相應(yīng)的權(quán)重,用來平衡不同損失對(duì)整個(gè)損失函數(shù)的影響,λ1、λ2、λ3、λ4的具體數(shù)值在實(shí)驗(yàn)過程中需要人為設(shè)定。

        4 訓(xùn)練

        本文的工作是基于深度卷積對(duì)抗神經(jīng)網(wǎng)絡(luò)的實(shí)現(xiàn),為了有效地訓(xùn)練網(wǎng)絡(luò),將訓(xùn)練過程分為3 個(gè)階段:首先,訓(xùn)練生成器網(wǎng)絡(luò)G,利用重構(gòu)損失對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,生成器可以得到模糊的修復(fù)內(nèi)容,此階段不包含對(duì)抗訓(xùn)練和對(duì)抗損失。其次,利用第一階段訓(xùn)練完成的生成器網(wǎng)絡(luò)去訓(xùn)練所有判別器網(wǎng)絡(luò){Dl,Dg,Dm1,Dm2},利用對(duì)抗損失去更新所有判別器。最后一個(gè)階段對(duì)生成器和所有判別器進(jìn)行聯(lián)合對(duì)抗訓(xùn)練。每一階段都為下一階段的改進(jìn)做好準(zhǔn)備,從而大大提高了網(wǎng)絡(luò)訓(xùn)練的有效性和效率,訓(xùn)練過程是通過反向傳播完成的。

        在進(jìn)行對(duì)抗性損失的訓(xùn)練時(shí),采用類似于文獻(xiàn)[24]的方法,避免訓(xùn)練過程開始時(shí)識(shí)別器過強(qiáng)的情況。使用了文獻(xiàn)[25]中建議的默認(rèn)超參數(shù)(例如學(xué)習(xí)率)。設(shè)置λ1、λ2、λ3、λ4均為0.001。通過調(diào)整圖像大小來完成訓(xùn)練,將圖像裁剪為256×256 的圖像用作輸入圖像。對(duì)于缺失區(qū)域,在圖像中的中心正方形區(qū)域的輸入設(shè)為0,即圖像缺失部分,大約覆蓋了1/4 的圖像。全局判別的輸入為256×256 大小的完整圖像,局部判別器的輸入為128×128 大小修復(fù)區(qū)域的圖像,兩個(gè)多尺度判別器的輸入分別為128×128 和64×64 大小的完整圖像。本文的網(wǎng)絡(luò)模型可以合理填充缺失的區(qū)域,但有時(shí)生成的區(qū)域與周圍區(qū)域會(huì)有顏色不一致的情況。為了避免這種情況,通過將修復(fù)的區(qū)域與周圍像素的顏色混合來執(zhí)行簡(jiǎn)單的后處理。特別地,本文使用了泊松圖像混合[26]對(duì)圖像進(jìn)行后續(xù)處理。

        5 實(shí)驗(yàn)結(jié)果與分析

        本文使用從CelebA 數(shù)據(jù)集中獲取的100 000 張圖像來訓(xùn)練多尺度生成式對(duì)抗網(wǎng)絡(luò)模型。80 000 張用于訓(xùn)練,20 000 張用于測(cè)試,該數(shù)據(jù)集包括各式各樣的人臉圖像,人臉圖像的修復(fù)相對(duì)于場(chǎng)景圖像的修復(fù)難度更大,面部圖像的修復(fù)需要更多的修復(fù)細(xì)節(jié),如五官的位置以及面部的對(duì)稱性,修復(fù)難度相對(duì)較大,因此對(duì)神經(jīng)網(wǎng)絡(luò)的設(shè)計(jì)提出了更高的要求,batchsize大小設(shè)置為32。生成器網(wǎng)絡(luò)經(jīng)過20 000 次迭代,然后訓(xùn)練判別器經(jīng)過10 000 次迭代,最后共同訓(xùn)練整個(gè)網(wǎng)絡(luò)70 000 次。設(shè)備參數(shù)為CPU,Intel i7-8700;GPU,RTX2080Ti-11 GHz;內(nèi)存,DDR4-3000-32 GB。代碼在Pytorch 深度學(xué)習(xí)框架下運(yùn)行,整個(gè)網(wǎng)絡(luò)訓(xùn)練完成時(shí)間為5 天左右。

        當(dāng)然也可以嘗試加入更多的多尺度判別器,在實(shí)驗(yàn)中發(fā)現(xiàn)兩個(gè)判別器對(duì)于網(wǎng)絡(luò)修復(fù)效果的提升已經(jīng)足夠,加入過多的判別器會(huì)使整個(gè)網(wǎng)絡(luò)變得復(fù)雜,增加網(wǎng)絡(luò)的參數(shù)以及運(yùn)行時(shí)間。

        將實(shí)驗(yàn)得到的修復(fù)結(jié)果與僅使用了一個(gè)作用于修復(fù)區(qū)域的判別器的CE(context encoders)方法,以及使用生成器和兩個(gè)判別器的GLCIC(globally and locally consistent image completion)方法的實(shí)驗(yàn)結(jié)果進(jìn)行比較。為了比較的公平性,重新訓(xùn)練了上述模型,并進(jìn)行相同次數(shù)的迭代,結(jié)果如圖5 所示。

        圖5 展示了CelebA 測(cè)試數(shù)據(jù)集上的人臉修復(fù)結(jié)果。在每個(gè)測(cè)試圖像中,網(wǎng)絡(luò)都會(huì)自動(dòng)覆蓋圖像中間的區(qū)域,因?yàn)橐话阍谥虚g部分會(huì)包含面部的重要組成部分(例如,眼睛、嘴巴、眉毛、頭發(fā)、鼻子)。4 行分別代表了4 張不同測(cè)試圖像的修復(fù)結(jié)果。第1 列圖(a)分別對(duì)應(yīng)著4 張?jiān)嘉慈笔У膱D像。第2 列圖(b)為加了掩碼的缺失圖像。第3 列圖(c)為“context encoders”網(wǎng)絡(luò)的修復(fù)結(jié)果,由于這種結(jié)構(gòu)缺乏對(duì)全局一致的理解,可以看到利用這種方法修復(fù)的結(jié)果不僅有明顯的全局不一致性,缺失區(qū)域修復(fù)效果也非常模糊,無法達(dá)到圖像修復(fù)任務(wù)的要求。第4 列圖(d)為加入全局判別器以及局部判別的“globally and locally consistent image completion”方法的修復(fù)效果圖,引入對(duì)抗損失使得網(wǎng)絡(luò)能夠更合理地對(duì)圖像進(jìn)行修復(fù),局部判別器針對(duì)圖像缺失區(qū)域產(chǎn)生影響,使得缺失區(qū)域部分能夠成功完成修復(fù),全局判別器針對(duì)修復(fù)圖片的全局不一致性,會(huì)對(duì)整張圖像產(chǎn)生影響,強(qiáng)制網(wǎng)絡(luò)生成全局一致的圖像,消除了明顯的邊緣差別,修復(fù)結(jié)果較好。第5 列圖(e)即本文算法的修復(fù)結(jié)果,使用了WGAN 損失,使整個(gè)對(duì)抗網(wǎng)絡(luò)的訓(xùn)練更穩(wěn)定。加入了多尺度判別器,與全局判別器和局部判別器聯(lián)合訓(xùn)練。可以看到相比于圖(d)的結(jié)果,圖(e)在修復(fù)的細(xì)節(jié)方面有了一定的提升,圖像整體性更高,修復(fù)效果更加良好。

        Fig.5 Comparison of repair results of different models圖5 不同模型的修復(fù)結(jié)果比較

        除了視覺效果之外,本文還對(duì)CelebA 測(cè)試數(shù)據(jù)集使用了PSNR(peak signal to noise ratio)和SSIM(structural similarity index)進(jìn)行定量評(píng)估,這兩個(gè)指標(biāo)是通過不同方法獲得的修復(fù)結(jié)果與原始人臉圖像之間進(jìn)行計(jì)算的。

        第一個(gè)指標(biāo)是峰值信噪比(PSNR),是一種評(píng)價(jià)圖像的客觀標(biāo)準(zhǔn),它直接測(cè)量像素值的差異,單位是dB,數(shù)值越大表示失真越小。假設(shè)輸入的兩張圖像分別是X和Y,計(jì)算公式如下:

        其中,MSE表示修復(fù)圖像X和真實(shí)圖像Y的均方誤差,H和W分別為圖像的高度和寬度,n為每像素的比特?cái)?shù),一般取8,即像素灰階數(shù)為256。結(jié)果如表6所示。

        Table 6 Quantitative experimental results on PSNR表6 PSNR 上的定量實(shí)驗(yàn)結(jié)果

        第二個(gè)指標(biāo)是結(jié)構(gòu)相似性指數(shù)(SSIM),它是一種衡量?jī)煞鶊D像相似度的指標(biāo),為一個(gè)0 到1 之間的數(shù),數(shù)值越大代表修復(fù)圖像和真實(shí)圖像的差距越小,即圖像質(zhì)量越好。當(dāng)兩張圖像一模一樣時(shí),其值為1。假設(shè)輸入的兩張圖像分別是X和Y,計(jì)算公式如下:

        其中,μX和μY分別代表X、Y的平均值,σX和σY分別代表X、Y的標(biāo)準(zhǔn)差,σXY代表X和Y的協(xié)方差,而c1、c2分別為常數(shù),避免分母為0。計(jì)算結(jié)果如表7 所示。

        此外,為了證明本文算法可以適用于多種類型的圖像修復(fù),分別使用了ImageNet 數(shù)據(jù)集中獲取的50 000 張圖像和Places2 數(shù)據(jù)集中獲取的50 000 張圖像對(duì)本文模型進(jìn)行相應(yīng)的訓(xùn)練。網(wǎng)絡(luò)模型訓(xùn)練方法和在CelebA 數(shù)據(jù)集中使用的訓(xùn)練方法相同,實(shí)驗(yàn)結(jié)果分別如圖6 和圖7 所示,表明該模型在ImageNet 數(shù)據(jù)集和Places2 數(shù)據(jù)集上也有著良好的表現(xiàn)。

        Table 7 Quantitative experimental results on SSIM表7 SSIM 上的定量實(shí)驗(yàn)結(jié)果

        6 結(jié)束語(yǔ)

        近年來,深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域成果百出,基于深度學(xué)習(xí)的圖像修復(fù)技術(shù)的研究已經(jīng)初見成效,有著廣泛的應(yīng)用前景。本文首先介紹了圖像修復(fù)技術(shù)的研究背景及意義,簡(jiǎn)單回顧了國(guó)內(nèi)外的研究現(xiàn)狀,分析了現(xiàn)有算法存在的不足。然后對(duì)生成式對(duì)抗網(wǎng)絡(luò)原理進(jìn)行了介紹,分析了生成式對(duì)抗網(wǎng)絡(luò)存在的問題,并將改進(jìn)之后的生成式對(duì)抗網(wǎng)絡(luò)模型應(yīng)用到圖像修復(fù)問題的研究中,提出了一種由生成器和多個(gè)對(duì)抗性判別器組成的多尺度生成對(duì)抗修復(fù)模型。利用重構(gòu)損失以及多個(gè)對(duì)抗損失,從隨機(jī)噪聲中合成缺失的內(nèi)容,結(jié)合WGAN 的思想,采用EM 距離模擬數(shù)據(jù)分布,提高網(wǎng)絡(luò)穩(wěn)定性的同時(shí)提升了圖片修復(fù)的效果。最后在CelebA 數(shù)據(jù)集上進(jìn)行驗(yàn)證,利用定性和定量的評(píng)價(jià)方法,證明了本文所提出的基于多尺度生成式對(duì)抗網(wǎng)絡(luò)的圖像修復(fù)算法相較于當(dāng)前的圖像修復(fù)方法具有更好的修復(fù)效果。并且在ImageNet 數(shù)據(jù)集以及Places2 數(shù)據(jù)集上也進(jìn)行了相應(yīng)的訓(xùn)練和測(cè)試,證明了該算法可以被應(yīng)用于多種類型圖片的修復(fù),且具有很好的效果。

        此外,在圖像修復(fù)的實(shí)驗(yàn)過程中發(fā)現(xiàn),在大多數(shù)情況下網(wǎng)絡(luò)輸出的圖像修復(fù)效果很好,但在某些情況下網(wǎng)絡(luò)輸出的修復(fù)圖像會(huì)出現(xiàn)一些奇怪的像素,即偽像,使得整張圖片看起來很不自然,出現(xiàn)這種情況的原因可能是由于網(wǎng)絡(luò)在卷積過程中將一些無效像素的特征進(jìn)行了提取。這種情況對(duì)于圖像修復(fù)任務(wù)來說是不好的。圖像修復(fù)任務(wù)的目的是盡可能地通過圖像現(xiàn)有的信息對(duì)缺失區(qū)域進(jìn)行補(bǔ)全,偽像的出現(xiàn)使得修復(fù)效果變差。本文接下來的工作將針對(duì)這個(gè)問題對(duì)網(wǎng)絡(luò)模型進(jìn)行改進(jìn),尋找一種能夠消除偽像的方法,如部分卷積,以達(dá)到更好的圖像修復(fù)效果。

        Fig.6 Repair results on ImageNet dataset圖6 ImageNet數(shù)據(jù)集上的修復(fù)結(jié)果

        Fig.7 Repair results on Places2 dataset圖7 Places2 數(shù)據(jù)集上的修復(fù)結(jié)果

        猜你喜歡
        全局尺度損失
        Cahn-Hilliard-Brinkman系統(tǒng)的全局吸引子
        少問一句,損失千金
        量子Navier-Stokes方程弱解的全局存在性
        胖胖損失了多少元
        財(cái)產(chǎn)的五大尺度和五重應(yīng)對(duì)
        玉米抽穗前倒伏怎么辦?怎么減少損失?
        落子山東,意在全局
        金橋(2018年4期)2018-09-26 02:24:54
        宇宙的尺度
        太空探索(2016年5期)2016-07-12 15:17:55
        一般自由碰撞的最大動(dòng)能損失
        新思路:牽一發(fā)動(dòng)全局
        尤物yw午夜国产精品视频| 国产白袜脚足j棉袜在线观看| 亚洲一区二区日韩精品| 肥老熟女性强欲五十路| 无码尹人久久相蕉无码| 99精品国产在热久久国产乱| 视频精品熟女一区二区三区| 午夜福利视频一区二区二区| 国产肉体xxxx裸体784大胆| 漂亮人妻被黑人久久精品| 日本岛国大片不卡人妻| 99久久婷婷国产一区| 丰满人妻被两个按摩师| 无码人妻精品一区二区在线视频| chinesefreexxxx国产麻豆| 亚洲无码观看a| 亚洲肥婆一区二区三区| 无码人妻久久一区二区三区蜜桃| 丰满熟妇乱子伦| 在线精品日韩一区二区三区| 蜜桃视频一区二区三区| 亚洲人成综合第一网站| 欧美色欧美亚洲另类二区| 在线精品国产一区二区| 成在线人免费视频播放| 国产91会所女技师在线观看| 天天摸天天做天天爽水多| 无码少妇一区二区三区| 亚洲成a人片在线观看高清| 亚洲中文字幕视频第一二区| 国产精品无码翘臀在线观看| av潮喷大喷水系列无码| 九一成人AV无码一区二区三区| 国内国外日产一区二区| 蜜臀av在线观看| 老妇肥熟凸凹丰满刺激| 果冻国产一区二区三区| 日本人妖熟女另类二区| 黑人巨大av在线播放无码| 国产h视频在线观看网站免费| 亚洲av高清一区三区三区|