周小力,史 方,賴松雨,駱忠強(qiáng)
(四川輕化工大學(xué) 自動化與信息工程學(xué)院,四川 宜賓 644000)
古代書畫作品有著很高的文化、社會、藝術(shù)和人文價(jià)值,但是由于時(shí)間的流逝、環(huán)境的變化以及創(chuàng)作紙張、絹布和顏料等因素的影響,許多從古代流傳至今的書畫作品出現(xiàn)了不同程度的損壞和褪色。目前,我國書畫文物的保護(hù)修復(fù)主要依賴于傳統(tǒng)的書畫裝裱技術(shù)[1]。對于褪色和色彩被破壞的書畫文物主要采取用毛筆等工具手動填色和修復(fù)的方式。這個過程對修復(fù)人員的專業(yè)要求極高,且在人工修復(fù)的過程中可能會對文物造成二次破壞,導(dǎo)致最終的修復(fù)結(jié)果不能令人滿意。雖然一些基于現(xiàn)代科技的文物色彩修復(fù)技術(shù)被提出,例如基于可見光譜[2-3]的文物色彩修復(fù),但其在修復(fù)色彩的同時(shí)會造成一些圖像的局部細(xì)節(jié)丟失。因此,利用數(shù)字圖像修復(fù)技術(shù)對書畫文物暗舊、褪色等問題進(jìn)行研究具有重要的意義[4]。
在顏色修復(fù)方面,Reinhard等[5]第一次提出使用數(shù)字圖像處理技術(shù)對圖像進(jìn)行顏色矯正,但其只對顏色單一的圖像有良好的效果,對于顏色復(fù)雜的圖像會產(chǎn)生較多的誤差。胡國飛等[6]在此基礎(chǔ)上提出了一種基于統(tǒng)計(jì)學(xué)的自適應(yīng)圖像顏色遷移技術(shù),在還原色彩的同時(shí)能夠保留局部紋理信息。2005年,張引等[7]提出了利用無監(jiān)督學(xué)習(xí)聚類自動采集樣本的顏色還原方法,但該方法對圖像紋理特征和亮度特征存在較大的差異時(shí)效果不理想。Gatys等[8]利用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)的特征表示來約束紋理以及色彩信息的合成,但是對一些含有噪聲的圖像來說并不能達(dá)到理想的效果。2019年由Hashisho等[9]提出的利用具有U-Net架構(gòu)的去噪自動編碼器開發(fā)的水下去噪自動編碼器(Underwater Denoising Autoencoder, UDAE)模型實(shí)現(xiàn)了對水下圖像的顏色恢復(fù)。隨后,Xu等[10]提出了一個基于參考的端到端的學(xué)習(xí)框架來實(shí)現(xiàn)對舊照片的恢復(fù)和著色,參考圖像中的顏色先驗(yàn)來指導(dǎo)過程。
上述方法在針對自然圖像以及特定場景圖像的顏色修復(fù)中取得了較好的效果,但是并不適用于書畫文物圖像這樣結(jié)構(gòu)復(fù)雜、色彩豐富的圖像。因此本文旨在研究一種適用于書畫文物圖像的色彩重建方法。為了在重建文物圖像色彩的同時(shí)能保證圖像的結(jié)構(gòu)及紋理細(xì)節(jié)不受破壞,本文提出將圖像超分辨率重建技術(shù)引入到書畫文物圖像色彩重建工作中。
圖像超分辨率(Super-Resolution, SR)是一種重要的圖像處理技術(shù),旨在從低分辨率(Low-Resolution, LR)圖像中恢復(fù)豐富的細(xì)節(jié)。近年來,許多基于CNN的SR方法被提出。Dong等[11-12]首先提出了一個簡單的圖像超分辨率神經(jīng)網(wǎng)絡(luò),并在后續(xù)提出了改進(jìn)網(wǎng)絡(luò),提升了訓(xùn)練速度。同一年, Shi等[13]提出了亞像素卷積層,可以在LR空間中實(shí)現(xiàn)特征提取。Kim等[14-15]引入了殘差學(xué)習(xí),并使用高學(xué)習(xí)率來優(yōu)化其網(wǎng)絡(luò)。Lim等[16]提出了增強(qiáng)型深度超分辨率(Enhanced Deep Super-Resolution, EDSR)網(wǎng)絡(luò),改進(jìn)了殘差網(wǎng)絡(luò)內(nèi)部結(jié)構(gòu),去掉了BN(Batch Norm)層,減少了內(nèi)存使用量。2018年,Zhang等[17]提出了深度殘差通道注意網(wǎng)絡(luò)(Residual Channel Attention Networks, RCAN)。Ledig等利用生成對抗網(wǎng)絡(luò)(Generative Adversarial Network, GAN)[18]在超分辨率領(lǐng)域做了創(chuàng)新,提出了超分辨率生成對抗網(wǎng)絡(luò)(Super-Resolution Generative Adversarial Network, SRGAN)[19]。隨后,Wang等[20]提出了增強(qiáng)型超分辨率生成對抗網(wǎng)絡(luò)(Enhanced Super-Resolution Generative Adversarial Networks, ESRGAN),改進(jìn)了SR-GAN的殘差網(wǎng)絡(luò)結(jié)構(gòu)、感知損失函數(shù)以及判別器的標(biāo)準(zhǔn),在自然紋理上獲得了更好的視覺效果。
本文基于ESRGAN模型,結(jié)合自注意力機(jī)制以及顏色遷移算法,提出一種基于增強(qiáng)型超分辨率生成對抗網(wǎng)絡(luò)的文物圖像色彩重建(Color Recenstruction of Cultural Relic Images Based on Enhanced Super-Resolution Generative Adversarial Network, CR-ESRGAN),實(shí)現(xiàn)書畫文物圖像的色彩恢復(fù)以及改善畫面暗舊的問題。
CR-ESRGAN整體框架如圖1所示。
圖1 CR-ESRGAN整體網(wǎng)絡(luò)框架Fig.1 Overall network framework of CR-ESRGAN
該模型針對色彩受損(如暗舊、褪色等)的書畫文物圖像,在ESRGAN的基礎(chǔ)上,提出了運(yùn)用超分辨率重建的方法生成色彩,得到修復(fù)的高分辨率書畫文物圖像的模型。整體分為訓(xùn)練和測試2個階段。
圖2 CR-ESRGAN退化模型Fig.2 CR-ESRGAN degradation model
顏色遷移算法是由Reinhard等在2001年首次提出的一種實(shí)現(xiàn)彩色圖像之間整體顏色變換的算法,具體實(shí)現(xiàn)步驟如下:
① 將源圖像和目標(biāo)圖像由RGB空間轉(zhuǎn)換到lαβ空間。
② 根據(jù)lαβ空間各顏色分量不相關(guān)的特點(diǎn),提出了一組顏色遷移公式:
(1)
(2)
(3)
③ 將經(jīng)過遷移合成后的結(jié)果圖像從lαβ空間轉(zhuǎn)換到RGB空間。
在本文中,選取色彩未受損以及畫面整體較完整的文物圖像作為源圖像,截取色彩受損(如發(fā)黃、暗舊等)文物圖像純色(盡量不包含繪畫和書法)部分作為目標(biāo)圖像進(jìn)行顏色遷移計(jì)算,從而使未受損圖像的顏色逼近受損文物圖像的顏色。部分顏色遷移效果如圖3所示。
圖3 部分顏色遷移效果Fig.3 Part of the color migration effect diagram
書畫文物圖像有極高的藝術(shù)價(jià)值,每一副書法和繪畫作品都包含著豐富的歷史信息,承載著一代人的文化底蘊(yùn)。所以,在書畫文物圖像色彩超分辨重建任務(wù)中,對細(xì)節(jié)和紋理的恢復(fù)有極高的要求。為了實(shí)現(xiàn)這一點(diǎn),本文在ESRGAN生成網(wǎng)絡(luò)結(jié)構(gòu)的基礎(chǔ)上融合了自注意力機(jī)制[21],設(shè)計(jì)自注意力機(jī)制殘差模塊。它能夠利用圖像的全局特征進(jìn)行圖像超分辨率重建,使重建后的圖像擁有更豐富的紋理細(xì)節(jié)。生成器網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。自注意力機(jī)制殘差模塊如圖5所示。
圖4 基于自注意力機(jī)制的生成器網(wǎng)絡(luò)結(jié)構(gòu)Fig.4 Generative network structure based on self-attention mechanism
圖5 自注意力機(jī)制殘差模塊Fig.5 Residual module of self-attention mechanism
生成器網(wǎng)絡(luò)共包含3個模塊:初始特征提取模塊、自注意力機(jī)制殘差模塊以及重建模塊。
自注意力層原理如圖6所示。其中,自注意力機(jī)制殘差模塊在ESRGAN中的殘差密集塊(Residual-in-Residual Dense Block, RRDB)的基礎(chǔ)上引入了自注意力機(jī)制,由圖6可以看出,將RRDB最后一層卷積層中提取的特征圖x∈C×N轉(zhuǎn)換為2個空間特征f,g用于計(jì)算注意力,其中,C表示通道數(shù)目,N表示隱藏層中的特征數(shù)目,f(x)=Wfx,g(x)=Wgx。對f(x)輸出矩陣進(jìn)行轉(zhuǎn)置再與g(x)輸出矩陣相乘,用Softmax進(jìn)行歸一化后獲得注意力圖βji。
圖6 自注意力層原理Fig.6 Schematic diagram of the self-attention layer
(4)
式中,βji表示在合成第j各區(qū)域時(shí)對第i個位置的關(guān)注度。
自注意力層的輸出為o=(o1,o2,…,oj,…,oN)∈C×N,其中,
Wh,Wv是學(xué)習(xí)到的權(quán)重矩陣,通過1×1的卷積實(shí)現(xiàn)。接著將注意力層的輸出與比例參數(shù)相乘,并將其添加回輸入特征圖,最終的輸出為:
yi=γoi+xi,
(5)
式中,γ是一個可以學(xué)習(xí)的標(biāo)量,被初始化為0。引入可學(xué)習(xí)的γ可以使網(wǎng)絡(luò)首先依賴于局部信息,進(jìn)而為非局部信息提供更多的權(quán)重。
本文的判別器網(wǎng)絡(luò)結(jié)構(gòu)如圖7所示,采用ESRGAN的判別網(wǎng)絡(luò)。由6個卷積塊(Conv)組成,然后是2個線性層。每個卷積塊都有2個卷積層塊,其中第1個卷積層k=3,s=1即卷積核大小為3,步長為1。第2個卷積層k=4,s=2。每一個卷積塊上n的數(shù)量都是不同的,即通道數(shù)目,具體數(shù)值如圖7所
圖7 判別器網(wǎng)絡(luò)結(jié)構(gòu)示意Fig.7 Schematic diagram of the discriminant network structure
(6)
由此,判別網(wǎng)絡(luò)的損失函數(shù)表示為:
(7)
相應(yīng)地,生成網(wǎng)絡(luò)的對抗損失函數(shù)可以表示為:
(8)
改進(jìn)后的判別網(wǎng)絡(luò)能夠指導(dǎo)生成網(wǎng)絡(luò)恢復(fù)更詳細(xì)的紋理細(xì)節(jié)。
(9)
式中,L1為評估重建圖像與真實(shí)高分辨率圖像之間的1范式距離的內(nèi)容損失;λ和η為平衡不同損失項(xiàng)的系數(shù);感知損失Lpercep是由Wang等在ESRGAN模型中提出的,利用VGG[22]激活層之前的特征計(jì)算感知損失,克服了激活后的特征更稀疏的缺點(diǎn),同時(shí)使重建后的圖像亮度更接近原始高分辨率圖像:
(10)
式中,VGG195_4表示19層VGG網(wǎng)絡(luò)在第5個最大池化層之前的第4個卷積獲得的特征。
為了更具針對性地訓(xùn)練模型,本文用到的書畫文物圖像數(shù)據(jù)集全部來自各大博物館官方網(wǎng)站館藏的書畫文物數(shù)字圖像。數(shù)據(jù)集總共5 260張,包含了山水、花草、動物、人物、書法和宮室等主題,其中書畫材料包含了紙本和絹本等。由于每張圖片均來自各大博物館網(wǎng)站,因此數(shù)據(jù)集的分辨率并不一致,但平均每張分辨率在2K左右。本文按照60%作為訓(xùn)練集、20%作為驗(yàn)證集、20%作為測試集的方式將它們隨機(jī)劃分。
本文實(shí)驗(yàn)所用到的硬件設(shè)備為Intel?Xeon?Bronze 3204 CPU@ 1.90 GHz,15.5 GB運(yùn)行內(nèi)存,NVIDIA GeForceGTX 1080Ti顯卡。軟件環(huán)境為Windows 10系統(tǒng)下使用Pycharm軟件,Anaconda3-4.3.14-Windows-x86_64,cuda_10.0.132,Pytorch作為框架,完成書畫文物圖像色彩重建實(shí)驗(yàn)。
在進(jìn)行訓(xùn)練之前,將每一張高分辨率圖片裁剪為128 pixel×128 pixel大小的圖像塊進(jìn)行訓(xùn)練。更大的感受野有助于捕獲更多的語義信息。批量大小(batch_size)設(shè)置為16。
生成網(wǎng)絡(luò)以及判別網(wǎng)絡(luò)的參數(shù)設(shè)置如圖4和圖7所示,其中k表示卷積核的大小,s表示步長,n表示通道數(shù)目。使用Leaky ReLU[23](LReLU)作為激活函數(shù),并將α的大小設(shè)為0.2。
訓(xùn)練分2步:第1步,訓(xùn)練一個具有L1損失的PSNR定向模型,學(xué)習(xí)率初始化為2×10-4,迭代次數(shù)為106。每2×105次迭代后學(xué)習(xí)率衰減2倍。第2步,使用第1步訓(xùn)練好的模型初始化生成器,生成器使用式(10)中的損失函數(shù)進(jìn)行訓(xùn)練,其中λ=5×10-3,η=1×10-2,學(xué)習(xí)率設(shè)置為1×10-4,迭代的次數(shù)為4×105,并在迭代到5×104,105,2×105,3×105時(shí)學(xué)習(xí)率會減半。優(yōu)化器采用Adam[24],β1=0.9,β2=0.99,ε=10-8。
為了驗(yàn)證本文提出算法的有效性,分別與EDSR,SR-GAN,ESRGAN以及其他色彩還原算法做了對比分析。訓(xùn)練好的模型將用真實(shí)的褪色和暗舊的文物圖像進(jìn)行測試,與幾種超分辨率方法比較的實(shí)驗(yàn)結(jié)果如圖8所示。
圖8 實(shí)驗(yàn)結(jié)果1Fig.8 Experimental result 1
以上分別是一些山水、花草以及書法作品的實(shí)驗(yàn)結(jié)果,可以看出EDSR以及ESRGAN算法雖然在結(jié)構(gòu)和顏色方面有了基本的恢復(fù)但卻出現(xiàn)了顏色恢復(fù)不均勻、平滑以及邊緣區(qū)域效果模糊等問題。而ESRGAN網(wǎng)絡(luò)雖然在輪廓、顏色和細(xì)節(jié)等方面較EDSR以及SR-GAN有了更好的效果,但是仍然會出現(xiàn)色彩不均的問題,在重建細(xì)節(jié)的方面出現(xiàn)一些偽影。本文的算法在色彩重建的效果上明顯有更好的結(jié)果,在細(xì)節(jié)重建方面也較ESRGAN有一定的改善,在復(fù)雜的結(jié)構(gòu)中也未出現(xiàn)明顯的偽影。
圖9展示了使用其他色彩還原算法的實(shí)驗(yàn)效果以及與本文算法實(shí)驗(yàn)結(jié)果的對比。
圖9 實(shí)驗(yàn)結(jié)果2Fig.9 Experimental result 2
從圖9可以看出,雖然文獻(xiàn)[21]在樣本2,3,6(分別表示第2,3,6行的圖片)上的實(shí)驗(yàn)結(jié)果從肉眼來看在色彩恢復(fù)方面達(dá)到了比較好的效果,但是在圖像細(xì)節(jié)和紋理方面卻存在很大的問題,出現(xiàn)了紋理丟失、結(jié)構(gòu)不完整的現(xiàn)象。文獻(xiàn)[2]在樣本3上顏色修復(fù)的表現(xiàn)不錯,但這是經(jīng)過大量的實(shí)驗(yàn),在大量圖片中選出色彩相近的源圖像進(jìn)行色彩遷移才達(dá)到的效果,需要花費(fèi)較多時(shí)間,且同樣會出現(xiàn)圖像質(zhì)量差的問題。文獻(xiàn)[4]的方法在各個樣本上的實(shí)驗(yàn)結(jié)果均表現(xiàn)出整體色調(diào)偏暗的效果。而本文算法在色彩修復(fù)以及圖像質(zhì)量2個方面表現(xiàn)良好。
圖10展示了一部分用CR-ESRGAN網(wǎng)絡(luò)對真實(shí)褪色、暗舊的書畫文物圖片的測試結(jié)果??梢钥闯觯疚乃惴ㄔ谛迯?fù)書畫文物圖像色彩受損問題上有一定的效果,且在恢復(fù)色彩的同時(shí)保證了圖片的質(zhì)量。
圖10 測試結(jié)果Fig.10 Test results
為了客觀地評價(jià)本文算法對書畫文物圖像的色彩重建效果,選取了最常用的圖像質(zhì)量評價(jià)指標(biāo)——PSNR及SSIM來評價(jià)重建后圖像質(zhì)量的好壞。同時(shí),引入了色彩評價(jià)指標(biāo)CIEDE2000來評價(jià)重建后的圖像與真實(shí)高分辨率圖像色彩之間的差異。其中,PSNR通過比較像素點(diǎn)之間的差異來評價(jià)圖像質(zhì)量的好壞,PSNR數(shù)值越高,失真越小,表示圖像質(zhì)量越高。SSIM分別從亮度、對比度和結(jié)構(gòu)3方面度量圖像相似性,SSIM取值為[0,1],數(shù)值越大,失真越小,表示圖像越好。CIEDE2000是由國際照明委員會于2000年提出的色彩評價(jià)公式,被認(rèn)為是與主觀視覺感知相一致的最佳統(tǒng)一色差模型[25]。具體計(jì)算如下:
(11)
表1 不同算法下各個樣本的PSNR值Tab.1 PSNR values of each sample of different algorithms 單位:dB
表2 不同算法下各個樣本的SSIM值Tab.2 SSIM values of each sample of different algorithms
由表1可以看出,本文算法與其他6種方法相比在PSNR上平均提升了1.801 dB。雖然本文模型計(jì)算出的PSNR值比其他算法平均提高了,但整體在PSNR上并沒有達(dá)到最佳,這一點(diǎn)將在最后給出解釋。
由表2可以看出,本文算法在SSIM值上比其他幾種算法平均提高了0.04,從另外一個方面反映了本文算法的有效性。
由于上述2種評價(jià)指標(biāo)是從圖像整體質(zhì)量上進(jìn)行評價(jià)的,且PSNR的值并不能準(zhǔn)確地反映人眼的視覺品質(zhì),因此表3給出了各個樣本在色彩評價(jià)指標(biāo)CIEDE2000下的實(shí)驗(yàn)結(jié)果。
表3 不同算法下各個樣本的CIEDE2000值Tab.3 CIEDE2000 values of each sample of different algorithms
由表3可以更直觀地看出,本文算法在文物圖像色彩修復(fù)方面明顯優(yōu)于其他6種算法,并且本文算法計(jì)算出的CIEDE2000值比其他6種算法平均提高了7.154 6。
雖然本文算法在PSNR上的整體表現(xiàn)并沒有比其他幾種算法有明顯提升,但是在CIEDE2000上整體表現(xiàn)最優(yōu),這是由于PSNR只考慮圖像像素誤差的全局大小來衡量圖像質(zhì)量的好壞,并沒有考慮RGB三個通道之間的視覺感知不同。而CIEDE2000卻是到目前為止能夠表征人類感知顏色差異最好的度量指標(biāo)。
綜上可知,本文方法在客觀指標(biāo)以及人類視覺感知上表現(xiàn)得更好。
本文在基于增強(qiáng)型超分辨生成對抗網(wǎng)絡(luò)的基礎(chǔ)上實(shí)現(xiàn)了褪色、暗舊書畫文物圖像的色彩重建,針對書畫文物圖像超分辨重建做了專屬數(shù)據(jù)集。為了重建出更豐富的紋理細(xì)節(jié),改進(jìn)了生成網(wǎng)絡(luò)結(jié)構(gòu)。通過與以往的算法相比,在主觀視覺效果和色彩差異方面都有明顯的提升。
本文實(shí)現(xiàn)了書畫文物圖像的色彩重建。但是不同的繪畫材料,比如絹面和紙張,隨著時(shí)間的推移,它們褪色和暗舊的效果是不一樣的,更細(xì)致的色彩重建工作還有待實(shí)現(xiàn)。對于出現(xiàn)裂痕的文物圖像如何做到更快、更好地修復(fù),以及如何結(jié)合其他知識使得色彩恢復(fù)更逼真也是后續(xù)需要進(jìn)一步研究的問題。