亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于聯(lián)合一致循環(huán)生成對抗網(wǎng)絡(luò)的人像著色

2020-08-19 10:42:16劉昌通杜康寧

計(jì)算機(jī)工程與應(yīng)用 2020年16期

關(guān)鍵詞：方法模型

劉昌通，曹林，杜康寧

1.北京信息科技大學(xué) 光電測試技術(shù)及儀器教育部重點(diǎn)實(shí)驗(yàn)室，北京 100101

2.北京信息科技大學(xué) 信息與通信工程學(xué)院，北京 100101

1 引言

色彩是圖像的重要屬性，人眼對彩色圖像的敏感程度高于灰度圖像。因此，通過灰度圖像著色，可以使觀察者從著色圖像中獲得更多的信息，提高圖像的使用價值?；叶葓D像著色在視頻處理、影視制作、歷史照片還原等方面起著至關(guān)重要的作用，具有重要的研究價值。其中，人像著色是圖像著色的主要應(yīng)用領(lǐng)域，本文針對人像著色展開了一系列的研究。

傳統(tǒng)的圖像著色方法主要有基于局部顏色擴(kuò)展的方法[1-2]和基于顏色傳遞的方法[3-4]。基于局部顏色擴(kuò)展的方法需要指定灰度圖像某一區(qū)域的彩色像素，將顏色擴(kuò)散至整幅待著色圖像。這一類方法需要大量人為的工作，如顏色標(biāo)注等，且圖像著色的質(zhì)量過度依賴于人工著色技巧?；陬伾珎鬟f的方法消除了人為因素在圖像著色中的影響，通過一幅或者多幅顏色、場景相近的參考圖像，使顏色轉(zhuǎn)移至待著色圖像。傳統(tǒng)方法可以應(yīng)用在人像著色中，但這類方法需要設(shè)定參考圖像，且著色的計(jì)算復(fù)雜度高。

為了減小著色過程中人工因素的影響，傳統(tǒng)的著色方法已逐漸被基于深度學(xué)習(xí)的方法所取代。其中，Iizuka等人[5]使用雙通道網(wǎng)絡(luò)，聯(lián)合圖像中的局部特征信息和全局先驗(yàn)信息，可以將任意尺寸的灰度圖像自動著色。Larsson 等人[6]利用 VGG 神經(jīng)網(wǎng)絡(luò)[7]，提取圖像的特征，來預(yù)測每個像素的顏色分布。Zhang 等人[8-9]先后提出針對像素點(diǎn)進(jìn)行分類和基于用戶引導(dǎo)的灰度圖像著色方法。這一類方法利用神經(jīng)網(wǎng)絡(luò)提取特征，但在訓(xùn)練過程中容易丟失局部信息，使特征表達(dá)不完整，限制了著色的效果。

近年來，生成對抗網(wǎng)絡(luò)（Generative Adversarial Network，GAN）[10]在圖像生成領(lǐng)域取得了巨大的成功，相比較傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)[11]，GAN 生成的圖像質(zhì)量更高。但GAN的訓(xùn)練不穩(wěn)定，容易出現(xiàn)模式崩潰。Zhu等[12]研究人員在文獻(xiàn)[13]的基礎(chǔ)上提出了循環(huán)生成對抗網(wǎng)絡(luò)（Cycle Generative Adversarial Network，Cycle-GAN），通過循環(huán)生成對抗的方式，提高訓(xùn)練網(wǎng)絡(luò)的穩(wěn)定性。

綜上所述，針對復(fù)雜背景下人像誤著色的問題，本文提出了聯(lián)合一致循環(huán)生成對抗網(wǎng)絡(luò)（Jonit Consistent Cyclic Generative Adversarial Network，JCCGAN）。該網(wǎng)絡(luò)在循環(huán)生成對抗網(wǎng)絡(luò)基礎(chǔ)上，聯(lián)合了一致性損失實(shí)現(xiàn)網(wǎng)絡(luò)整體的反向傳遞優(yōu)化，其生成網(wǎng)絡(luò)改用U型網(wǎng)絡(luò)（UNet）[14]，并加入最小二乘損失，作為著色的優(yōu)化目標(biāo)，提高圖像的生成細(xì)節(jié)。在判別網(wǎng)絡(luò)中，采用多層特征融合的方式提取圖像特征，使提取的特征表示更多圖像信息。最后在自建的CASIA-PlusColors 數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)，結(jié)果驗(yàn)證了本文方法的有效性。

2 本文方法

2.1 色彩空間

在色彩空間中，基于顏色合色的RGB空間，不適應(yīng)人眼調(diào)色，只能比較亮度和色溫的視覺特性，不能直接反映圖像中光照信息的強(qiáng)弱。因此，大多著色方法中采用Lab色彩空間。

其中，著色的過程是通過網(wǎng)絡(luò)模型，輸入給定寬高W×H的亮度L通道圖像XL，映射至色度通道a和b，預(yù)測值分別為，將網(wǎng)絡(luò)模型的輸出和L通道灰度重新合成一個新的三通道圖像，即得到的著色圖像為因而，訓(xùn)練著色模型最終的目標(biāo)是獲得的一種最優(yōu)映射關(guān)系。因此，本文將圖像從RGB 色彩空間轉(zhuǎn)換至基于人眼對顏色感覺的Lab色彩空間。

2.2 網(wǎng)絡(luò)結(jié)構(gòu)

傳統(tǒng)的GAN 是單向生成，采用單一的損失函數(shù)作為全局優(yōu)化目標(biāo)，可能會將多個樣本映射為同一個分布，從而導(dǎo)致模式崩潰。CycleGAN 采用循環(huán)生成對抗的方式，有效地避免了傳統(tǒng)GAN 的這一不足。本文提出了聯(lián)合一致循環(huán)生成對抗網(wǎng)絡(luò)的人像著色方法。該方法在CycleGAN的基礎(chǔ)上，將兩個循環(huán)生成網(wǎng)絡(luò)重構(gòu)的數(shù)據(jù)組合，計(jì)算其與真實(shí)彩色圖像的距離，實(shí)現(xiàn)一致性損失對整個網(wǎng)絡(luò)的反向傳遞，加強(qiáng)了原有網(wǎng)絡(luò)的穩(wěn)定性。同時，為了提高生成圖像信息的完整性，本文采用了UNet 網(wǎng)絡(luò)來改進(jìn)原有的生成網(wǎng)絡(luò)，并將多特征融合的方法引入到判別網(wǎng)絡(luò)中，使提取的特征更多表示圖像的細(xì)節(jié)。

2.2.1 著色網(wǎng)絡(luò)模型

本文的著色網(wǎng)絡(luò)模型包含四個子網(wǎng)絡(luò)，分別是：生成網(wǎng)絡(luò)G，負(fù)責(zé)將L通道灰度圖像映射至ab通道彩色分量XL→；生成網(wǎng)絡(luò)F，負(fù)責(zé)將ab通道彩色分量映射至L通道灰度圖像Xab→；判別網(wǎng)絡(luò)DX，用于判別區(qū)分L通道灰度圖像XL和生成網(wǎng)絡(luò)F生成的灰度圖像；判別網(wǎng)絡(luò)DY，用于區(qū)分真實(shí)的彩色圖像和生成的分量與L通道組合的彩色圖像。該網(wǎng)絡(luò)的目標(biāo)是通過訓(xùn)練L通道分量{XL}i=1∈XL和ab通道彩色分量{Xab}i=1∈Xab，獲得最優(yōu)對應(yīng)關(guān)系G:XL→，即將L通道灰度圖像映射至ab通道彩色分量的最優(yōu)關(guān)系。網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。

以上的子網(wǎng)絡(luò)構(gòu)成了一對循環(huán)生成網(wǎng)絡(luò)，其分別將輸入的樣本映射到中間域，然后將中間域的數(shù)據(jù)重構(gòu)回原有的域中。例如，輸入L通道灰度圖像XL，最終會被映射回灰度圖像F[G(xL)]，中間域數(shù)據(jù)是生成的ab通道彩色分量。同樣，輸入為ab通道彩色分量Xab時，最終也會被重構(gòu)回原有的域中G(F(Xab))，其中間域是F網(wǎng)絡(luò)生成的灰度圖像。

在原始CycleGAN中，兩個循環(huán)生成網(wǎng)絡(luò)是相互獨(dú)立的，反向傳遞優(yōu)化網(wǎng)絡(luò)時，循環(huán)生成網(wǎng)絡(luò)的一致性損失是分開計(jì)算的。如圖1所示，本文的著色模型將兩個循環(huán)生成網(wǎng)絡(luò)重構(gòu)的數(shù)據(jù)結(jié)合，即將重構(gòu)的ab通道彩色分量G(F(Xab))與灰度分量F[G(xL)]重新組合，得到重構(gòu)的彩色圖像。然后計(jì)算其與輸入彩色圖像的L1距離作為網(wǎng)絡(luò)的聯(lián)合一致性損失，共同實(shí)現(xiàn)整個網(wǎng)絡(luò)的反向傳遞優(yōu)化。

圖1 聯(lián)合一致循環(huán)生成對抗網(wǎng)絡(luò)結(jié)構(gòu)圖

2.2.2 生成網(wǎng)絡(luò)

傳統(tǒng)GAN 中，生成網(wǎng)絡(luò)僅由簡單的卷積層和反卷積層構(gòu)成，提取特征時容易丟失圖像的局部信息，限制網(wǎng)絡(luò)的著色效果。如圖2 所示，為了避免上述問題，本文的生成網(wǎng)絡(luò)采用U 型網(wǎng)絡(luò)（UNet），通過跳躍連接，將下采樣中每一層輸出的特征連接至對應(yīng)的上采樣層。其目的是將淺層信息直接傳遞到相同高度的反卷積層，形成更厚的特征，提升圖像的生成細(xì)節(jié)。

圖2 生成網(wǎng)絡(luò)結(jié)構(gòu)圖

生成網(wǎng)絡(luò)整體由上采樣和下采樣兩部分組成。其中下采樣部分共有5 層，濾波器的數(shù)量分別為[32，64，128，256，512]。如圖2所示，下采樣過程中，圖像特征每層經(jīng)過兩次卷積，濾波器大小為3×3，其目的是提取圖像紋理結(jié)構(gòu)等基本信息。卷積后連接批標(biāo)準(zhǔn)化（Batch Normalization，BN）層[15]，目的是調(diào)整卷積后的數(shù)據(jù)分布，使卷積的輸出分布在激活函數(shù)近原點(diǎn)鄰域內(nèi)，降低梯度彌散率，避免梯度消失的問題。激活層本文采用帶泄露的線性整流函數(shù)（Leaky Rectified Linear Unit，LReLU），代替原本的線性激活函數(shù)（Rectified Linear Unit，ReLU）[16]，其目的是減少計(jì)算的復(fù)雜度，且不會導(dǎo)致負(fù)值區(qū)域的神經(jīng)元全為0。在上采樣過程中，采用了與下采樣相對稱的5層反卷積，將深層特征恢復(fù)至一定尺寸的大小。生成網(wǎng)絡(luò)的目的是將輸入映射至目標(biāo)域空間的分布，例如根據(jù)嘴唇形狀特征對應(yīng)至著紅色的過程。

2.2.3 判別網(wǎng)絡(luò)

傳統(tǒng)判別網(wǎng)絡(luò)采用單層特征表達(dá)整個圖像，容易丟失圖像的細(xì)節(jié)信息。因此本文在判別網(wǎng)絡(luò)中引入多特征融合的方式，如圖3所示。采用融合后的特征可以增強(qiáng)對圖像的細(xì)節(jié)信息，提高圖像分類的準(zhǔn)確率。同時，為了避免維度災(zāi)難，本文在特征融合層后添加編碼網(wǎng)絡(luò)對特征進(jìn)行降維。

圖3 判別網(wǎng)絡(luò)模型

生成的分量同L通道組合后構(gòu)成一幅著色圖像，判別網(wǎng)絡(luò)DY對其與真實(shí)的彩色圖像之間進(jìn)行判別區(qū)分。由于二者之間存在相關(guān)性，判別器可以通過卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行學(xué)習(xí)，獲取更加有效的圖像特征，對兩類圖像進(jìn)行正確分類。對于判別網(wǎng)絡(luò)DY，首先輸入三通道256×256 大小的彩色圖像，然后經(jīng)過帶有步伐（Stride）的6次卷積后，輸出256個4×4的特征圖。特征提取的卷積核尺寸為5×5，卷積步長2，每一個卷積層的特征圖個數(shù)分別是8、16、32、64、128、256。卷積后融合特征，分別對第四層和第五層進(jìn)行4×4、2×2的平均值池化，生成448 個4×4 大小的特征圖。然后將融合后的特征圖拉伸至11 264維長度的向量，使用多層全連接將特征的維度降低至1 024維。為了進(jìn)一步防止特征降維過程中，出現(xiàn)過擬合的現(xiàn)象，在全連接層后面加上Dropout層，概率值設(shè)置為0.7。最后，將壓縮過的特征向量輸入至Sigmoid 函數(shù)，判別生成圖像是否符合真實(shí)圖像的分布。對于判別網(wǎng)絡(luò)DX，輸入圖像為單通道的灰度圖像，模型結(jié)構(gòu)與判別網(wǎng)絡(luò)DY相同。

2.3 損失函數(shù)

傳統(tǒng)GAN 只采用生成對抗損失函數(shù)，存在多余的映射空間。本文方法結(jié)合生成對抗損失和聯(lián)合一致性損失共同監(jiān)督訓(xùn)練網(wǎng)絡(luò)，有效避免了這一問題。同時，為了減小生成圖像與決策邊界的距離，本文采用最小二乘損失LLSGAN改進(jìn)原有的生成對抗損失函數(shù)，提高圖像生成的質(zhì)量。

2.3.1 生成對抗損失

生成對抗性損失應(yīng)用在輸入圖像映射為中間域圖像的過程。原始的交叉熵?fù)p失如式（1）所示，使得生成器無法進(jìn)一步優(yōu)化被判別器識別為真的生成圖像，可能導(dǎo)致網(wǎng)絡(luò)生成圖像的質(zhì)量不高。受Mao等人[17]的啟發(fā)，本文采用最小二乘損失作為生成對抗損失。相比較原始損失函數(shù)，最小二乘損失會對遠(yuǎn)離決策邊界并且判決為真的生成樣本進(jìn)行處理，將遠(yuǎn)離決策邊界的生成樣本重新放置在決策邊界附近。即通過使距決策邊界不同的距離度量構(gòu)建出一個收斂快、穩(wěn)定，并且生成圖像質(zhì)量高的對抗網(wǎng)絡(luò)。

其中，x～Pdata(x)、y～Pdata(y)分別為樣本X、Y服從的概率分布。Ex～Pdata(x)和Ey～Pdata(y)是各自樣本分布的期望值。

因此，對于生成網(wǎng)絡(luò)G:X→Y及其判別網(wǎng)絡(luò)DY，生成網(wǎng)絡(luò)G將X域數(shù)據(jù)生成符合Y域分布的目標(biāo)，判別網(wǎng)絡(luò)DY用于區(qū)分真實(shí)的Y域數(shù)據(jù){y}和生成樣本{G(x)}。本文最小二乘生成對抗損失的函數(shù)定義如式（2）所示。

最小二乘生成對抗損失的目標(biāo)如式（3）所示。訓(xùn)練判別器時，損失函數(shù)目標(biāo)是使判別器區(qū)分真實(shí)的樣本和生成的樣本，即最大化DY(y)，同時使DY(G(x))最??；訓(xùn)練生成器時，損失函數(shù)的目標(biāo)是使生成數(shù)據(jù)接近真實(shí)數(shù)據(jù)，即使DY(G(x))最大化。

對于生成網(wǎng)絡(luò)F:Y→X及相應(yīng)的判別網(wǎng)絡(luò)，同樣引入相同的生成對抗損失，損失函數(shù)目標(biāo)如式（4）所示。

2.3.2 聯(lián)合一致性損失

傳統(tǒng)GAN 只使用了對抗性損失訓(xùn)練網(wǎng)絡(luò)，學(xué)習(xí)輸入圖像和目標(biāo)圖像的映射關(guān)系，但無法解決生成網(wǎng)絡(luò)中存在的多余映射問題。而循環(huán)生成網(wǎng)絡(luò)采用了循環(huán)一致性損失，來更好確保生成數(shù)據(jù)的穩(wěn)定性，減少其他多余映射關(guān)系。本文在此思想的基礎(chǔ)上，提出了聯(lián)合一致性損失，將重構(gòu)的數(shù)據(jù)重新組合，再計(jì)算其與輸入彩色圖像的L1損失。

式（5）和式（6）分別是網(wǎng)絡(luò)中兩個循環(huán)生成過程：

其中，xL和為真實(shí)的L通道分量和其重構(gòu)的數(shù)據(jù)；xab和為真實(shí)的ab通道彩色分量和其重構(gòu)的數(shù)據(jù)。

其中，x為輸入的樣本，F(xiàn)(G(xab))+G(F(xL))表示重構(gòu)的彩色圖像。

完整的目標(biāo)函數(shù)包括生成對抗損失和聯(lián)合一致性損失，如式（6）所示：

其中，λ參數(shù)用于調(diào)整最小二乘損失和聯(lián)合一致性損失的權(quán)重。網(wǎng)絡(luò)總訓(xùn)練目標(biāo)為：

3 實(shí)驗(yàn)數(shù)據(jù)

目前公開的人像數(shù)據(jù)集有很多，如PubFig、CelebA等，主要應(yīng)用在人臉識別等領(lǐng)域，人物圖像大多集中在人的面部區(qū)域，并且圖像質(zhì)量不一致，直接用于著色模型的訓(xùn)練，效果不好。為了解決數(shù)據(jù)庫的問題，本文在CASIA-FaceV5數(shù)據(jù)庫的基礎(chǔ)上，通過爬蟲技術(shù)，對數(shù)據(jù)集進(jìn)行擴(kuò)充，最終數(shù)據(jù)庫總共包含了9 500張多種姿態(tài)、各種背景下的人物彩色圖像，簡稱為CASIA-PC（CASIAPlusColor）。

CASIA-FaceV5 是中國科學(xué)院公布的數(shù)據(jù)庫，該數(shù)據(jù)庫是開放的亞洲人物數(shù)據(jù)集，其中包含了來自500人2 500 張高質(zhì)量的彩色圖像。通過觀察發(fā)現(xiàn)，該數(shù)據(jù)庫的人物圖像大部分為單色背景下的正面照，缺少實(shí)際環(huán)境下的人像場景。

為了解決CASIA-FaceV5 數(shù)據(jù)庫缺乏真實(shí)場景人像的問題，本文在該數(shù)據(jù)庫的基礎(chǔ)上，使用爬蟲技術(shù)，完成了在互聯(lián)網(wǎng)中自動化、模塊化爬取圖片的任務(wù)，收集圖片，最后得到了7 000 張復(fù)雜背景下的不同姿態(tài)的彩色人像。

本文實(shí)驗(yàn)采用了CASIA-PC數(shù)據(jù)集，所有圖片的大小調(diào)整為225×225像素，并將數(shù)據(jù)庫劃分為訓(xùn)練集和測試集，訓(xùn)練集由隨機(jī)選取的8 600張圖片組成；剩下的圖片作為測試集。數(shù)據(jù)集實(shí)例如圖4所示，其中圖4（a）選自CASIA 數(shù)據(jù)庫，圖4（b）選自互聯(lián)網(wǎng)中爬取的人像。由圖4可知，本文自建的數(shù)據(jù)集場景豐富，色彩鮮艷，增加了著色的難度。

圖4 數(shù)據(jù)集實(shí)例

為了客觀地評價生成圖像的質(zhì)量，本文采用圖像質(zhì)量評價標(biāo)準(zhǔn)結(jié)構(gòu)相似性（Structural Similarity Index，SSIM）[18]和峰值信噪比（Peak Signal to Noise Ratio，PSNR）對著色圖像整體進(jìn)行質(zhì)量評估。PSNR用于評價生成圖像著色的真實(shí)程度，其值越大，表示失真越少；SSIM用于衡量目標(biāo)間結(jié)構(gòu)的相似程度，SSIM測量值越大，表示兩張圖像相似度越高。

4 實(shí)驗(yàn)與分析

4.1 實(shí)驗(yàn)步驟

（1）預(yù)處理。實(shí)驗(yàn)的預(yù)處理階段，將每張圖像的顏色模型從RGB 轉(zhuǎn)為Lab 模型，并將彩色人像的L通道和ab通道彩色分量分離，將分離后的L通道和ab通道彩色分量作為網(wǎng)絡(luò)的輸入。

（2）參數(shù)設(shè)置。數(shù)據(jù)訓(xùn)練過程中，生成網(wǎng)絡(luò)G和F，判別網(wǎng)絡(luò)DX和DY均采用初始學(xué)習(xí)率為0.000 2，動量為0.5 的Adam 優(yōu)化器更新網(wǎng)絡(luò)的參數(shù)，同時采用線性衰減的方法逐漸降低學(xué)習(xí)率。經(jīng)過不斷的迭代訓(xùn)練使模型收斂，存儲整個網(wǎng)絡(luò)的參數(shù)。

（3）實(shí)驗(yàn)過程。實(shí)驗(yàn)流程如圖5 所示，可以分為兩個階段：第一階段使用8 600 個訓(xùn)練樣本對整個網(wǎng)絡(luò)進(jìn)行訓(xùn)練，得到著色模型。為了避免網(wǎng)絡(luò)有過擬合的現(xiàn)象，本文在使用規(guī)模較大的數(shù)據(jù)集訓(xùn)練網(wǎng)絡(luò)時，會出現(xiàn)數(shù)據(jù)質(zhì)量不同，部分圖像存在顏色暗淡和圖像模糊等問題，會影響模型著色的效果。因此，第二階段本實(shí)驗(yàn)在規(guī)模較大的原數(shù)據(jù)集中篩選出了質(zhì)量相對較高的2 160個訓(xùn)練樣本，微調(diào)網(wǎng)絡(luò)的參數(shù)。

圖5 模型訓(xùn)練示意圖

本文將圖像的標(biāo)準(zhǔn)差和平均梯度值作為數(shù)據(jù)篩選的評價指標(biāo)，具體如下：

標(biāo)準(zhǔn)差（Standard Deviation，SD）是指圖像灰度值相對于均值的離散程度，標(biāo)準(zhǔn)差越大說明圖像中灰度級分布越分散，圖像的顏色也更加鮮明。設(shè)待評估圖像為F，大小為M×N，則標(biāo)準(zhǔn)差的計(jì)算公式如下所示：

平均梯度（Mean Gradient，MG）反映了圖像細(xì)節(jié)和紋理的變化，在一定程度上可以表示圖像的清晰度，其值越大說明圖像整體的清晰度越高。圖像平均梯度的計(jì)算公式如下所示：

其中，ΔxF(i,j)、ΔyF(i,j)分別表示像素點(diǎn)(i,j)在x、y方向上的一階差分。

本文將標(biāo)準(zhǔn)差和平均梯度的閾值設(shè)置為54 和25時，篩選出的圖像質(zhì)量較高。如圖6 所示，前兩列是篩選出的人像圖片，圖像顏色明亮，且清晰程度較高。后兩列是未選出的人像圖片，其中第三列人像的標(biāo)準(zhǔn)差低于閾值54，圖像亮度低，色彩偏暗，第四列人像的平均梯度值低于閾值25，圖像較為模糊。

圖6 人像篩選實(shí)例

實(shí)驗(yàn)第一階段是模型預(yù)訓(xùn)練的過程，為了使生成網(wǎng)絡(luò)G學(xué)習(xí)灰度圖像映射至ab通道彩色分量的對應(yīng)關(guān)系；第二階段則是模型微調(diào)的過程，為了提高模型著色的效果。

4.2 實(shí)驗(yàn)結(jié)果與分析

4.2.1 著色效果提高

為了測試數(shù)據(jù)篩選對不同模型著色效果的影響，本文對三種不同的著色方法進(jìn)行實(shí)驗(yàn)，結(jié)果如圖7 所示。其中，第一列是灰度圖像；第二列是直接采用CASIA-PC訓(xùn)練模型的結(jié)果；第三列是在第二列基礎(chǔ)上加入篩選人像微調(diào)模型的結(jié)果。對比后發(fā)現(xiàn)，采用篩選人像微調(diào)的方法均比直接訓(xùn)練的著色效果好，主要表現(xiàn)在部分背景的色彩變得更加明亮。

圖7 人像篩選著色對比

本文在循環(huán)生成對抗網(wǎng)絡(luò)的基礎(chǔ)上，提出了基于聯(lián)合一致循環(huán)生成對抗網(wǎng)絡(luò)的人像著色方法。該方法改進(jìn)了基礎(chǔ)網(wǎng)絡(luò)的模型結(jié)構(gòu)、損失函數(shù)，并在訓(xùn)練中采用了模型微調(diào)的方法。為了驗(yàn)證上述方法對提高模型著色能力的影響，本文比較了不同改進(jìn)方法的著色效果，如圖8 所示。其中，第一列是待著色灰度圖；第二列是基礎(chǔ)網(wǎng)絡(luò)模型的著色結(jié)果；第三列是訓(xùn)練中采用模型微調(diào)后的著色結(jié)果；第四列是采用最小二乘損失訓(xùn)練網(wǎng)絡(luò)的著色結(jié)果；第五列是模型采用聯(lián)合一致循環(huán)網(wǎng)絡(luò)的著色結(jié)果。

通過對比不同改進(jìn)方法的著色結(jié)果，發(fā)現(xiàn)僅改進(jìn)訓(xùn)練方法對改善人像誤著色問題的效果不明顯，但部分區(qū)域顏色效果有所提升。如圖8（c）第二行中樹葉的顏色相比圖8（b）更明亮。而損失函數(shù)和著色模型的改進(jìn)都可以改善人像誤著色的問題。其中，采用最小二乘損失訓(xùn)練模型的著色準(zhǔn)確率雖有提高，但部分區(qū)域仍有較明顯的誤著色，如圖8（d）中第一行所示，草色被誤著為紅色。而相比較下，改進(jìn)網(wǎng)絡(luò)模型后的著色效果提升更為明顯，如圖8（e）中第一行所示，僅有少部分不明顯的誤著色。

4.2.2 著色人像對比實(shí)驗(yàn)

不同方法的著色結(jié)果如圖9所示，第一列為L通道的灰度人像；第二列為真實(shí)的彩色人像；第三列為原始CycleGAN 的著色結(jié)果；第四列在第三列方法的基礎(chǔ)上僅將生成網(wǎng)絡(luò)結(jié)構(gòu)改為UNet 網(wǎng)絡(luò)；最后一列是本文方法的著色結(jié)果。前兩行為相應(yīng)模型在單色背景下的著色結(jié)果，其余為復(fù)雜背景下的著色結(jié)果。

根據(jù)圖9中不同模型著色的結(jié)果可以看出，使用原始CycleGAN 模型進(jìn)行著色時，效果較為粗糙，顏色飽和度和著色準(zhǔn)確率偏低，會出現(xiàn)誤著色和顏色溢出等問題。例如，圖9（c）的第三行中誤將原圖中綠色的樹葉生成為其他顏色，而圖9（c）的第五行中原本屬于人臉區(qū)域的顏色超出了自身的范圍，擴(kuò)散至樹木、天空等四周。生成網(wǎng)絡(luò)采用UNet網(wǎng)絡(luò)的方法，該模型著色結(jié)果如圖9（d）的第二行所示，對于背景單一的圖像著色準(zhǔn)確率有很大的提升。在復(fù)雜背景人像下的著色效果雖有一定提高，但依舊存在著誤著色的問題，其中圖9（d）第三行中較為明顯。相比之下，本文著色模型采用聯(lián)合一致循環(huán)網(wǎng)絡(luò)，著色結(jié)果更加準(zhǔn)確、自然，即使在復(fù)雜背景的人像中，也能夠較為準(zhǔn)確地賦予人像和背景真實(shí)的顏色，人像誤著色的問題有明顯的改善。并且本文方法可以正確區(qū)分出圖像中的不同目標(biāo)，減少顏色溢出的現(xiàn)象，如圖9（e）所示。另外，第一行的著色結(jié)果值得注意，著色后服飾的顏色發(fā)生了改變，這是由于數(shù)據(jù)庫中缺乏相同服飾的樣本，或是相近的服飾多以灰黑色為主。這說明了訓(xùn)練集對著色結(jié)果具有很大的影響。圖9（d）中第一行的著色結(jié)果相比采用本文方法的著色結(jié)果，其拉鏈部位的顏色更接近于原始的彩色圖像。這是由于該方法注重學(xué)習(xí)待著色目標(biāo)的結(jié)構(gòu)，著色時選擇模型學(xué)習(xí)到的特征中和它結(jié)構(gòu)相近的顏色。而本文模型采用了聯(lián)合一致循環(huán)網(wǎng)絡(luò)，在學(xué)習(xí)圖像結(jié)構(gòu)的同時，更注重人像著色的整體一致性。因此，拉鏈部位著色時會對應(yīng)服裝的色彩，選擇與之相適應(yīng)的顏色。

圖8 改進(jìn)方法著色對比

本實(shí)驗(yàn)在單色和復(fù)雜背景下，分別比較了三種模型的PSNR 和SSIM 平均指標(biāo)，如表1、表2 所示。在客觀指標(biāo)評定下，隨著三種模型網(wǎng)絡(luò)結(jié)構(gòu)的豐富，著色效果在單色背景和復(fù)雜背景下依次有著提升。另外，由于單色背景圖像的結(jié)構(gòu)和紋理相對比較簡單，著色相對更為容易，其表現(xiàn)在同一種模型中單色背景下圖像的平均指標(biāo)，明顯高于在復(fù)雜背景下圖像的指標(biāo)。

表1 復(fù)雜背景下不同方法平均SSIM、PSNR對比

表2 單色背景下不同方法平均SSIM、PSNR對比

另外，本文又與其他著色模型進(jìn)行了比較，結(jié)果如圖10 所示。其中Iizuka 等[5]采用雙通道卷積網(wǎng)絡(luò)，著色結(jié)果顏色較為鮮艷，但著色準(zhǔn)確率低。Larsson等[6]采用VGG網(wǎng)絡(luò)提取圖像特征，誤著色問題有所改善，但人像部分區(qū)域變得模糊。Zhang等[8]針對圖像中每個像素點(diǎn)進(jìn)行分類，著色準(zhǔn)確率較高且人像清晰，但顏色飽和度低。而本文方法的著色準(zhǔn)確率高，不同目標(biāo)的區(qū)分度較高，顏色也更加自然。但部分區(qū)域存在顏色分布不均勻的問題，仍未能達(dá)到理想的飽和度，如圖10第一行的著色結(jié)果。本文進(jìn)一步比較了與其他著色模型不同場景中SSIM和PSNR指標(biāo)均值，分別如表3和表4所示。在不同場景下，本文方法著色的圖像與原圖相比具有更高的SSIM、PSNR值，說明本實(shí)驗(yàn)的結(jié)果與原圖相比較，結(jié)構(gòu)更加相似，而且失真較小。

圖9 不同方法著色對比

圖10 不同模型著色對比

表3 單色背景下不同模型平均SSIM、PSNR對比

表4 復(fù)雜背景下不同模型平均SSIM、PSNR對比

5 結(jié)束語

針對復(fù)雜背景的灰度人像誤著色問題，本文提出了聯(lián)合一致循環(huán)生成對抗網(wǎng)絡(luò)的人像著色方法。該方法采用聯(lián)合的一致性損失，聯(lián)合重構(gòu)的數(shù)據(jù)計(jì)算其與輸入彩色圖像的L1損失，實(shí)現(xiàn)整個網(wǎng)絡(luò)的反向傳遞優(yōu)化。實(shí)驗(yàn)證明了本文方法適用于單色和復(fù)雜背景的人像著色，著色精度有很大提高，并且對比同類的方法，本文方法在圖像顏色連續(xù)性和合理性等方面都有著出色的表現(xiàn)。