羅敦浪,蔣 旻,袁琳君,江佳俊,郭 嘉
武漢科技大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,武漢430065
圖像是人們?nèi)粘P畔鬟f過(guò)程中很重要的一部分,承載著巨大的信息量,但同一張圖像的灰度圖和彩色圖所包含的信息量是天差地別的,灰度圖像每個(gè)像素只有一個(gè)采樣顏色,只包含亮度表示,而彩色圖像包含了亮度、色度和飽和度等表達(dá)。直觀上說(shuō),人們可以通過(guò)觀察圖像中樹(shù)葉的顏色是綠色還是黃色推斷出場(chǎng)景所處的季節(jié),根據(jù)不同花朵的顏色判斷出所屬的品種等等。由于早期的拍攝技術(shù)有限,存在著大量黑白照片和影像,嘗試將這些老舊照片著色還原有助于了解那個(gè)年代的事物,滿足人們的視覺(jué)需求,非常具有研究的必要。另一方面,隨著20 世紀(jì)80 年代初對(duì)黑白照片彩色化的不斷研究以及近些年來(lái)卷積神經(jīng)網(wǎng)絡(luò)在圖像處理領(lǐng)域的不斷發(fā)展,圖像著色研究已經(jīng)不僅限于將黑白照片彩色化。通過(guò)將深度學(xué)習(xí)強(qiáng)大的特征提取和建模能力應(yīng)用到圖像著色研究上,圖像著色技術(shù)得到了進(jìn)一步提高,在越來(lái)越多的領(lǐng)域中發(fā)揮著巨大的作用。
在圖像著色技術(shù)發(fā)展的早期,需要人為提供一些圖像的色彩信息來(lái)完成圖像著色,這時(shí)主要有基于最短距離和色度混合的彩色化算法[1]和基于優(yōu)化擴(kuò)展的彩色化算法[2]這兩種著色方法。Levin 等[3]提出了將灰度圖相近的像素認(rèn)定為顏色也相近的假設(shè),根據(jù)人為輸入顏色為條件,在顏色空間中找到距離最近的顏色對(duì)應(yīng),將圖像著色問(wèn)題轉(zhuǎn)化成了圖像區(qū)域優(yōu)化問(wèn)題。這種算法本身只是簡(jiǎn)單考慮了距離的因素,而沒(méi)有考慮到顏色聚類(lèi)的因素,所以在面對(duì)細(xì)節(jié)相對(duì)復(fù)雜的圖像時(shí),表現(xiàn)的并不是很好,只能運(yùn)用在尺寸較小、較為簡(jiǎn)單的圖像上。Qu等[4]和Luan等[5]在圖像的著色過(guò)程中,不僅僅考慮了灰度圖像素的相似性,還提出了圖像的紋理特征的相似性約束,這種通過(guò)加入圖像分割為代價(jià)的方法,很大程度上減少了人工標(biāo)注的數(shù)量。
不同于上面提到半自動(dòng)化著色方法,Welsh 等[6]提出了基于顏色轉(zhuǎn)移的圖像著色算法,這種算法最大的特點(diǎn)在于自動(dòng)化,可以做到不需要任何人為的輸入,只需要一張與原始圖像內(nèi)容相似的彩色圖像,通過(guò)特定的顏色匹配算法,將已知的彩色圖像中的顏色信息對(duì)應(yīng)到原始圖像中,從而將彩色圖中的顏色信息轉(zhuǎn)移到灰度圖中,完成彩色化的目的。這種算法也存在著缺點(diǎn),那就是不一定存在與目標(biāo)圖像完全對(duì)應(yīng)的彩色圖像,總會(huì)存在一些匹配不上的點(diǎn),一般這些點(diǎn)就會(huì)效果比較差。Ironi等[7]通過(guò)預(yù)先分割參考圖像和灰度圖像,再分別進(jìn)行細(xì)節(jié)特征的匹配,從而使得目標(biāo)圖像在參考樣本中找到對(duì)應(yīng)的著色方案,這種做法在圖像著色的準(zhǔn)確性方面得到了一定的進(jìn)展。Liu 等[8]提出了采用在線聯(lián)網(wǎng)檢索來(lái)匹配與需要著色圖像相似的圖像,通過(guò)匹配結(jié)果再參照著色,這種方法一定程度上增了匹配的范圍和準(zhǔn)確度。
近來(lái),隨著人工智能的熱潮,人們都看到了深度學(xué)習(xí)在圖像分類(lèi)和特征提取方面的不俗表現(xiàn),也開(kāi)始有很多人將深度學(xué)習(xí)技術(shù)應(yīng)用到了圖像著色領(lǐng)域中。Cheng等[9]通過(guò)聯(lián)合雙邊濾波的后處理技術(shù)和自適應(yīng)圖像聚類(lèi)技術(shù)對(duì)數(shù)據(jù)進(jìn)行處理建模,以此來(lái)整合圖像全局信息,通過(guò)優(yōu)化最小化目標(biāo)函數(shù)來(lái)進(jìn)一步提高著色質(zhì)量,其算法總結(jié)下來(lái)就是一個(gè)簡(jiǎn)單的優(yōu)化分類(lèi)問(wèn)題,對(duì)比較為復(fù)雜的數(shù)據(jù)集,其表現(xiàn)比較受限。Lizuka等[10]將圖像著色問(wèn)題轉(zhuǎn)換為了圖像分類(lèi)問(wèn)題,一方面將目標(biāo)圖像做一個(gè)全局的分類(lèi),另一方面提取局部特征信息,最后將兩者結(jié)合,實(shí)現(xiàn)對(duì)特征顏色分布預(yù)測(cè),這種方法一定程度上解決了著色結(jié)果場(chǎng)景性錯(cuò)誤的問(wèn)題。Zhang 等[11]在Lizuka等[10]的基礎(chǔ)上通過(guò)VGG卷積神經(jīng)網(wǎng)絡(luò)來(lái)提取目標(biāo)圖像的特征,并通過(guò)訓(xùn)練預(yù)測(cè)這些特征的顏色分布,最后通過(guò)信息融合完成著色。Yoo等[12]提出常見(jiàn)的網(wǎng)絡(luò)模型應(yīng)用于著色時(shí),深色著色模型傾向于忽略訓(xùn)練集中存在的多種顏色,而是選擇只學(xué)習(xí)幾種主要的顏色,最后通過(guò)在原本網(wǎng)絡(luò)外部添加了一個(gè)神經(jīng)記憶網(wǎng)絡(luò)[13]增強(qiáng)的著色網(wǎng)絡(luò)來(lái)儲(chǔ)存所有可能的顏色分布信息,減輕了這些問(wèn)題。Cao 等[14]采用生成對(duì)抗網(wǎng)絡(luò)來(lái)直接進(jìn)行圖像著色,并嘗試通過(guò)噪聲引入優(yōu)化,將隨機(jī)噪聲變量多次全連到全卷積層的各個(gè)層,以此來(lái)鼓勵(lì)生成器產(chǎn)生隨機(jī)多樣的輸出,這種做法一定程度上可以實(shí)現(xiàn)生成圖像的多樣化,但同時(shí)隨著各層強(qiáng)效噪聲的加入,必然對(duì)最后圖像的生成質(zhì)量產(chǎn)生影響。
傳統(tǒng)的圖像著色方法是在給定單通道灰度輸入圖像的情況下生成彩色圖像。但是單個(gè)灰度圖像可能對(duì)應(yīng)許多合理的彩色圖像,因此,傳統(tǒng)模型通常依賴(lài)于重要的用戶輸入相關(guān)信息來(lái)指定確定的著色方案。針對(duì)大部分傳統(tǒng)著色算法存在著色模式單一、在處理部分?jǐn)?shù)據(jù)時(shí)著色效果不佳或者算法依賴(lài)人工輸入信息等缺點(diǎn),本章提出了一種基于條件生成對(duì)抗網(wǎng)絡(luò)的圖像著色方法,深層神經(jīng)網(wǎng)絡(luò)能夠捕捉和使用語(yǔ)義信息(即圖像的實(shí)際內(nèi)容),相比傳統(tǒng)的圖像著色算法需要人工干預(yù),基于深度學(xué)習(xí)的圖像著色算法,不需要任何人為干預(yù),并且通過(guò)預(yù)測(cè)顏色分類(lèi)和引入色彩對(duì)比度損失,進(jìn)一步提高了著色效果。
對(duì)于一般的生成對(duì)抗網(wǎng)絡(luò)應(yīng)用在圖像著色方面而言,主要有以下幾個(gè)問(wèn)題:首先于一般圖像生成任務(wù)來(lái)說(shuō),圖像生成質(zhì)量的標(biāo)準(zhǔn)包括顏色、紋理、結(jié)構(gòu)相似性等各個(gè)方面,它們?cè)趫D像的評(píng)估中都有一定的比重,而作為圖像著色場(chǎng)景,顏色信息將作為網(wǎng)絡(luò)最注重的信息,而圖像的結(jié)構(gòu)和紋理等信息將會(huì)從作為條件輸入的灰度圖中得到,所以在算法中應(yīng)該增加對(duì)圖像顏色信息的評(píng)估。其次由于生成對(duì)抗網(wǎng)絡(luò)生成器總是傾向于生成欺騙辨別器的圖像,所以如果生成器已知生成紅色的花可以得到辨別器的認(rèn)可,那么它就會(huì)傾向于把所有的花都生成紅色,忽略那些橙色或者紫色的花。因此為了解決上述的問(wèn)題,本文提出了在原始條件生成對(duì)抗網(wǎng)絡(luò)的模型上一個(gè)再添加一個(gè)顏色預(yù)測(cè)模型,用來(lái)更好地建模色彩分布。這個(gè)顏色預(yù)測(cè)得到的不是一個(gè)唯一定量值,而是每個(gè)像素在顏色分類(lèi)中的可能的概率分布,最后可以得到多個(gè)真實(shí)顏色的最近鄰,從而得到灰度圖對(duì)應(yīng)的多個(gè)著色可能。網(wǎng)絡(luò)模型的結(jié)構(gòu)如圖1所示。
圖1 網(wǎng)絡(luò)結(jié)構(gòu)圖
網(wǎng)絡(luò)模型主要分為三個(gè)部分,首先是生成對(duì)抗網(wǎng)絡(luò)中的生成器模型,本文所采用的是U-Net 網(wǎng)絡(luò)結(jié)構(gòu),灰度圖的L通道向量會(huì)被作為條件向量輸入,經(jīng)過(guò)U-Net網(wǎng)絡(luò)卷積、池化、特征融合、反卷積等操作會(huì)得到Lab三通道的目標(biāo)張量,最后經(jīng)過(guò)轉(zhuǎn)換得到生成圖像。同時(shí)在本文的網(wǎng)絡(luò)模型中添加了一個(gè)對(duì)圖像顏色分布概率預(yù)測(cè)的卷積神經(jīng)網(wǎng)絡(luò),這個(gè)網(wǎng)絡(luò)主要是通過(guò)特定數(shù)據(jù)集的大量訓(xùn)練,學(xué)習(xí)灰度到彩色的一個(gè)映射,對(duì)基于這個(gè)數(shù)據(jù)集中的圖片進(jìn)行顏色概率分布的統(tǒng)計(jì),根據(jù)統(tǒng)計(jì)的規(guī)律,可以得到圖像較為合理的顏色分布。最后部分是辨別器網(wǎng)絡(luò),用來(lái)判斷和反饋生成圖像的質(zhì)量,同時(shí)預(yù)測(cè)模型得到的顏色分布也會(huì)作為辨別器評(píng)估的一部分,對(duì)符合預(yù)測(cè)的顏色分布的生成圖像給予鼓勵(lì),對(duì)那些不合理的圖像給予懲罰,即生成器生成的圖像不僅要效果好,貼近原圖,更要合理,符合常規(guī)的顏色分布。
本文的顏色預(yù)測(cè)模型根據(jù)的是文獻(xiàn)[11]提出顏色分布預(yù)測(cè)的模型改進(jìn)的,其模型結(jié)構(gòu)如圖2所示。
圖2 顏色預(yù)測(cè)網(wǎng)絡(luò)模型
可以看出,作為網(wǎng)絡(luò)的輸入的是只有L通道信息的灰度圖,本文設(shè)定初始尺寸為256×256,首先經(jīng)過(guò)conv1層進(jìn)行一次卷積操作,其卷積核步長(zhǎng)為2,大小為3×3,然后得到大小為128×128,通道為64 的特征輸出,這個(gè)特征輸出作為conv2層的輸入,同樣由步長(zhǎng)為1,大小為3×3的卷積核進(jìn)行卷積操作,生成大小為64×64、通道數(shù)為128的特征輸出。以此類(lèi)推,通過(guò)不斷卷積操作,通過(guò)conv8,將得到通道數(shù)為256,大小為64 的特征輸出,最后通過(guò)全連接層將前面所提取的特征做出加權(quán)處理,并在最終得到a、b 兩個(gè)通道組成的輸出,尺寸為224×224的顏色分布圖。
算法將網(wǎng)絡(luò)層的a、b 通道的輸出空間以10 為步長(zhǎng)量化為Q類(lèi),本文Q取值為313,每一類(lèi)都代表了一種唯一的顏色輸出。本文算法通過(guò)將M×N的原始灰度圖像(圖3(a))通過(guò)顏色預(yù)測(cè)模型網(wǎng)絡(luò)把圖像轉(zhuǎn)換成M×N×Q的向量(圖3(b))。對(duì)于圖像中任意位置的像素,可以得到一個(gè)基于Q分類(lèi)的顏色分布(如圖3(c)所示),分辨率為64×64 的圖像被轉(zhuǎn)換為64×64×313 的大小,在每個(gè)Q分類(lèi)的map上,圖像被表示為313個(gè)位面,每個(gè)位面中任意一個(gè)元素存儲(chǔ)對(duì)應(yīng)像素點(diǎn)的Q分類(lèi)取值,0或者1。
圖3 基于Q分布的圖像顏色預(yù)測(cè)
本文網(wǎng)絡(luò)模型的損失函數(shù)主要包括4個(gè)分量,分別是生成對(duì)抗網(wǎng)絡(luò)中的條件對(duì)抗損失LGAN、生成圖像與目標(biāo)圖像的距離L1、生成圖像與預(yù)測(cè)模型預(yù)測(cè)結(jié)果之間的距離損失L2和生成圖像與目標(biāo)圖像的對(duì)比度差距損失函數(shù)LSSIM。其中生成對(duì)抗網(wǎng)絡(luò)的損失在前文中已經(jīng)介紹了,主要體現(xiàn)了生成器和辨別器的對(duì)抗博弈。具體損失如式(1)所示:
Q:作為人氣搭配達(dá)人,不管在什么時(shí)候您看起來(lái)都是美美的。升級(jí)做媽媽后,穿衣風(fēng)格和以往有變化嗎?在哺乳期化妝會(huì)注意什么,選用化妝品會(huì)特別考慮哪些方面?在給寶寶穿衣方面,你注重的是什么?
這里的D和G分別代表的辨別器和生成器,其中E(?)表示分布函數(shù)的期望值,x和z分別表示真實(shí)數(shù)據(jù)和噪聲輸入,Pdata(x)代表真實(shí)樣本的分布,Pnoise(z)是定義的噪聲分布,同時(shí)基于pix2pix,本文在原始的條件生成對(duì)抗網(wǎng)絡(luò)的損失函數(shù)中還加入了一個(gè)重構(gòu)函數(shù),也就是生成圖像與目標(biāo)圖像的L1距離:
式中y為目標(biāo)值,這個(gè)L1距離表示生成數(shù)據(jù)與目標(biāo)數(shù)據(jù)的線性差值。除了條件生成對(duì)抗網(wǎng)絡(luò)的損失函數(shù)外,還有預(yù)測(cè)模型的輸出值與生成圖像的距離,這個(gè)損失表示生成的圖像不僅要滿足辨別器的評(píng)估標(biāo)準(zhǔn),還需要滿足預(yù)測(cè)模型所預(yù)測(cè)的顏色分布,其距離損失函數(shù)如(3)所示:
其中G和Y分別為生成器生成圖像對(duì)應(yīng)的a、b通道顏色分布以及預(yù)測(cè)模型預(yù)測(cè)的顏色分布,h、w分別為兩個(gè)顏色通道代表的維度。本文這里選用的是計(jì)算二者的L2距離。
最后由于文獻(xiàn)[11]中提出的顏色預(yù)測(cè)模型并不是總能表現(xiàn)得特別有效,在該文中也曾提到該模型在面對(duì)食物和蛇等分類(lèi)圖像時(shí)著色效果并不理想,本文猜測(cè)是由于這類(lèi)圖像對(duì)比度的影響。為了進(jìn)一步提高顏色預(yù)測(cè)模型的效果和本文網(wǎng)絡(luò)著色的質(zhì)量,本文還引進(jìn)了一個(gè)色彩對(duì)比度損失,用來(lái)計(jì)算生成圖像與目標(biāo)彩色圖像的對(duì)比度距離。在評(píng)價(jià)兩幅圖像相似度的指標(biāo)結(jié)構(gòu)相似性SSIM中,用均值差模擬亮度上的區(qū)別,用標(biāo)準(zhǔn)差作為對(duì)比度的區(qū)別,用協(xié)方差作為結(jié)構(gòu)相似程度的評(píng)估。在本文中只采用其中的對(duì)比度比較部分和亮度比較部分。具體損失函數(shù)如下:
式中,μx和μy對(duì)應(yīng)的圖像x和y的像素的平均值,δx和δy指的是圖像像素值得標(biāo)準(zhǔn)方差,C1和C2為常數(shù)。在實(shí)際應(yīng)用中,α=β=1,所以上面的損失函數(shù)可表達(dá)為:
綜上所述,本文算法所使用的總損失函數(shù)為:
其中λ1、λ2、λ3、λ4分別為各損失函數(shù)的權(quán)重比例系數(shù)。
本文提出的算法在生成對(duì)抗網(wǎng)絡(luò)模型的基礎(chǔ)上增加了一個(gè)顏色分布預(yù)測(cè)模型,通過(guò)該預(yù)測(cè)模型分布對(duì)提取的特征進(jìn)行顏色分布預(yù)測(cè),總體來(lái)說(shuō)可以更好的應(yīng)對(duì)各種場(chǎng)景,并且在細(xì)節(jié)上更加出色,著色效果更為真實(shí)。具體著色效果如圖4所示。
圖4 著色效果展示
為了進(jìn)一步驗(yàn)證本文算法的有效性,進(jìn)行了一系列實(shí)驗(yàn)來(lái)與文獻(xiàn)[10]、[11]和文獻(xiàn)[12]中的圖像著色算法進(jìn)行比較。如圖5 為多個(gè)算法在動(dòng)物、水果、風(fēng)景等多個(gè)分類(lèi)圖像上的著色效果表現(xiàn)。
圖5 著色效果對(duì)比
通過(guò)圖5 中的結(jié)果對(duì)比可以看出,文獻(xiàn)[10]和文獻(xiàn)[11]的算法還是有圖像的邊緣出現(xiàn)顏色失真的情況,在第一幅和第四幅圖中,文獻(xiàn)[10]和[11]的算法都出現(xiàn)了染色不全的問(wèn)題,并且圖像整體伴有少量雜色。另外作為著色評(píng)估標(biāo)準(zhǔn),圖像的色彩對(duì)比度也十分重要,前三者的算法都或多或少傾向于暖黃色調(diào)或是偏青色的色調(diào),特別是在風(fēng)景圖中,容易出現(xiàn)交界不清的問(wèn)題。對(duì)比之下,本文算法生成的圖像對(duì)比度更加鮮明,顏色更加飽滿。最后通過(guò)將各算法生成圖像與原圖相比可以看出,本文算法結(jié)果更加接近真實(shí)圖像的顏色分布,并且在不同特征交界處的細(xì)節(jié)處理更好。
一般圖像著色算法模型的效果都比較受限于數(shù)據(jù)集,在不同分類(lèi)圖像上的著色效果也有可能存在差異,上文中也提到過(guò)文獻(xiàn)[11]算法在處理某些特定的數(shù)據(jù)集時(shí)效果并不是很好,所以本文在總損失函數(shù)中多添加了一個(gè)對(duì)比度損失函數(shù),通過(guò)加強(qiáng)生成圖像的對(duì)比度細(xì)節(jié)來(lái)嘗試解決這個(gè)問(wèn)題具體效果如圖6所示。
圖6 蛇和食物分類(lèi)的著色效果
從圖6中可以看出,本章所使用的預(yù)測(cè)模型在蛇和食物分類(lèi)上的圖像著色過(guò)程中表現(xiàn)的不是特別理想,主要表現(xiàn)在主體顏色傾向于背景,蛇被染上了接近土塊的顏色,食物上不同區(qū)域的顏色對(duì)比度不夠,整體偏向灰色調(diào)。本文加入了對(duì)比度損失之后,在針對(duì)上面這兩個(gè)圖像分類(lèi)上的著色效果有了一定提高,圖像中不同特征的顏色對(duì)比度有所提高。為了進(jìn)一步定量分析本文算法的改進(jìn)效果,本章采用了顏色精確度Acc[16]來(lái)量化對(duì)比兩種算法的著色效果。這里的顏色精確度指的是兩幅圖像間具有相同顏色信息的像素的比例關(guān)系,其計(jì)算方式如下:
式中,x表示灰度圖像,h(x)指生成的圖像,y指真實(shí)彩色圖像,n是總像素?cái)?shù)。其中1[0,εl](z)是指標(biāo)函數(shù),z∈R,εl指的是顏色通道中看作相同顏色的閾值距離,也就是說(shuō),某通道內(nèi)二者像素的距離小于εl,就可以看作兩者顏色相同,本文中閾值距離εl選用的值為5%。表1是文獻(xiàn)[10]、[11]和[12]中算法和本文算法在不同分類(lèi)數(shù)據(jù)集下著色效果的顏色精確度對(duì)比,實(shí)驗(yàn)中選取了食物和蛇分類(lèi)圖像各200張作為統(tǒng)計(jì)計(jì)算。
表1 不同類(lèi)別圖像著色分析 %
顏色精確度表示了生成圖像在像素層面上是否接近真實(shí)值,由表1 可以看出本文算法在食物和蛇分類(lèi)的圖像上的顏色精確度為35.2%和34.8%,明顯高于文獻(xiàn)[11]中算法的22.4%和19.6%,生成圖像的效果要明顯更接近于真實(shí)彩色圖像。在其他分類(lèi)的圖像上則和文獻(xiàn)[11]的差距相差不大,由此可見(jiàn),本文算法相對(duì)于文獻(xiàn)[11]提出的算法在針對(duì)某些數(shù)據(jù)著色時(shí),確實(shí)有一定的提高作用。
為了進(jìn)一步說(shuō)明顏色預(yù)測(cè)模型有效性,在同樣的數(shù)據(jù)集下進(jìn)行了一次消融實(shí)驗(yàn)。在實(shí)驗(yàn)中,先分別單獨(dú)使用原始的條件生成對(duì)抗網(wǎng)絡(luò)CGAN[17]和Cao等[14]的生成對(duì)抗網(wǎng)絡(luò)模型來(lái)進(jìn)行著色,將灰度圖作為生成器的輸入條件,對(duì)應(yīng)彩色圖像為目標(biāo)圖像。然后加入了顏色預(yù)測(cè)模型進(jìn)行了另一組實(shí)驗(yàn)。對(duì)比結(jié)果如下,選用了FID[18]和LPIPS[19]這兩個(gè)指標(biāo)來(lái)評(píng)估生成圖像與目標(biāo)圖像的感知相似度,其中FID評(píng)分越小,代表生成圖像質(zhì)量越好,圖像多樣性越高;相反地,LPIPS評(píng)分越大,代表生成圖像質(zhì)量越好,圖像多樣性就越高。同時(shí),也選用了上文中提到的顏色精確度Acc 作為著色效果的評(píng)估。從結(jié)果可以看出,在生成圖像的顏色精確度上,加入了顏色預(yù)測(cè)模型與原始CGAN 網(wǎng)絡(luò)結(jié)果相差不大。但是從FID 和LPIPS 這兩個(gè)指標(biāo)可以看出,本文模型生成的圖像多樣性更高,這就意味著GAN 網(wǎng)絡(luò)往往存在一定的模式崩潰,輸入容易傾向單一確定的特征,采用本文模型能夠一定程度上提升著色圖像的多樣性。相比于Cao等[14]通過(guò)多級(jí)引入噪聲來(lái)達(dá)到生成多樣性效果的做法,本文模型的圖像顏色準(zhǔn)確率更高。
表2 顏色預(yù)測(cè)模型的消融實(shí)驗(yàn)定量分析
另外,本文算法著色效果依賴(lài)于所添加的顏色預(yù)測(cè)模型,通過(guò)該網(wǎng)絡(luò)對(duì)圖像中各個(gè)特征會(huì)有一個(gè)明確的顏色分布預(yù)測(cè),這得益于顏色預(yù)測(cè)模型通過(guò)大量訓(xùn)練,已經(jīng)掌握了所提取特征的語(yǔ)義信息,通過(guò)對(duì)應(yīng)匹配特征,可以很快預(yù)測(cè)出顏色分布。但如果輸入的圖像是本章模型訓(xùn)練以外類(lèi)型的圖片,顏色預(yù)測(cè)模型就很難發(fā)揮作用,圖7 是采用了節(jié)選的100 個(gè)分類(lèi)以外的分類(lèi)圖像作為測(cè)試集測(cè)試的效果圖。
圖7 使用訓(xùn)練集以外的圖像測(cè)試著色效果
通過(guò)實(shí)驗(yàn)測(cè)試,可以看到由于使用了訓(xùn)練數(shù)據(jù)集圖像分類(lèi)以外的圖像進(jìn)行了著色,網(wǎng)絡(luò)沒(méi)有學(xué)習(xí)到圖像中某些特征的表達(dá)。比如圖像中的瓢蟲(chóng),由于訓(xùn)練數(shù)據(jù)集中沒(méi)有瓢蟲(chóng)分類(lèi)的圖像,所以在著色過(guò)程中網(wǎng)絡(luò)并沒(méi)有單獨(dú)識(shí)別出瓢蟲(chóng),直接將它和植物一起染成了綠色,后面圖像中的鳥(niǎo)和拖鞋也是如此。由此可見(jiàn)本文著色網(wǎng)絡(luò)在應(yīng)用場(chǎng)景上具有一定的針對(duì)性,算法應(yīng)用的場(chǎng)景取決于有沒(méi)有對(duì)應(yīng)合適的分類(lèi)圖像作為數(shù)據(jù)集。換句話說(shuō),如果能提供更準(zhǔn)確的場(chǎng)景分類(lèi)圖像,本文算法的著色效果可以得到進(jìn)一步的提高。
本文提出了一種基于生成對(duì)抗網(wǎng)絡(luò)的圖像著色算法,該網(wǎng)絡(luò)通過(guò)在傳統(tǒng)的條件生成對(duì)網(wǎng)絡(luò)的基礎(chǔ)上多添加了一個(gè)顏色預(yù)測(cè)模型,并通過(guò)該模型對(duì)像的細(xì)節(jié)特征紋理及分類(lèi)信息進(jìn)行提,再對(duì)應(yīng)預(yù)測(cè)顏色分布,最后作為生成對(duì)抗網(wǎng)絡(luò)中生成器的評(píng)判標(biāo)準(zhǔn)的一部分,對(duì)圖像的生成做出限制和優(yōu)化。通過(guò)實(shí)驗(yàn)證明,本文方法相比于其他圖像著色算法,在色彩對(duì)比度和飽和度均有所提高,并在特征邊緣的細(xì)節(jié)處理等方面均有一定的改善,染色不全的問(wèn)題也明顯減少,總體來(lái)說(shuō)取得了較好的效果。