梁永偵
(廣西機電職業(yè)技術(shù)學(xué)院信息工程學(xué)院,廣西 南寧 530007)
圖像風(fēng)格遷移是計算機視覺領(lǐng)域的一個研究熱點,如在藝術(shù)畫風(fēng)格繪制素描、文化修復(fù)的書法風(fēng)格遷移、文字特效渲染、機械設(shè)備年久腐蝕鍍層顏色修復(fù)、機器人書法臨摹、服裝設(shè)計、影視創(chuàng)作、游戲開發(fā)等方面具有廣泛的應(yīng)用前景和研究價值。
圖像風(fēng)格遷移是使用計算機技術(shù)將一張圖像的風(fēng)格特征進行提取,再將其特征遷移和融合到另一張圖像上,而形成一種獨特的風(fēng)格圖像,即同一張圖像應(yīng)用不同的風(fēng)格,畫面會給人以不同的感觀效果。
隨著人工智能技術(shù)的不斷發(fā)展[1-2],以機器學(xué)習(xí)和深度學(xué)習(xí)為代表的前沿領(lǐng)域得到了更深入的研究。當(dāng)前,基于深度學(xué)習(xí)的圖像風(fēng)格遷方法大致分為兩類:一類是基于卷積神經(jīng)網(wǎng)絡(luò)的圖像風(fēng)格遷移方法,另一類是基于生成式對抗網(wǎng)絡(luò)的圖像風(fēng)格遷移方法。前一類以Gatys等人[3-5]為代表提出的基于卷積神經(jīng)網(wǎng)絡(luò)紋理合成的圖像風(fēng)格遷移方法,分別將圖像內(nèi)容抽象特征和風(fēng)格抽象特征分離和提取,再通過預(yù)訓(xùn)練VGG模型[6]對這些高層抽象特征表示進行處理,以迭代優(yōu)化的方式合成了一種具有原內(nèi)容和新風(fēng)格紋理的藝術(shù)效果圖像,有效地實現(xiàn)了圖像風(fēng)格遷移的藝術(shù)效果;后一類是Zhu 等人[7]為代表提出的基于循環(huán)生成式對抗網(wǎng)絡(luò)的圖像風(fēng)格遷移方法,該方法將兩個單向傳播的生成式對抗網(wǎng)絡(luò)進行環(huán)形相連,以這種環(huán)形結(jié)構(gòu)網(wǎng)絡(luò)的方式解決了圖像特征進行遷移時需要依賴于訓(xùn)練數(shù)據(jù)配對的問題,很好實現(xiàn)了圖像風(fēng)格遷移效果。
綜合分析,當(dāng)前圖像風(fēng)格遷移方法多局限于單一風(fēng)格遷移效果,且遷移后圖像效果易出現(xiàn)紋理信息缺失或顏色分布不均、邊緣粗糙、圖像扭曲等現(xiàn)象,同時整個實驗過程的工作量較高。為此,本文實驗采用多種藝術(shù)圖像作為參照對象,對多種風(fēng)格圖像進行網(wǎng)絡(luò)訓(xùn)練,以獲取具有多融合特征的風(fēng)格圖像,而提出的基于深度學(xué)習(xí)的圖像風(fēng)格遷移方法。該方法是將多種風(fēng)格特征融合一起而得到的一種風(fēng)格遷移圖像,可根據(jù)用戶需求自由融合獲取到具有藝術(shù)觀賞效果的風(fēng)格遷移圖像,為探索基于深度學(xué)習(xí)的圖像風(fēng)格遷移新方法提供了可行性方案。
為快速獲取到具有藝術(shù)風(fēng)格特征的遷移圖像,實驗基于深度學(xué)習(xí)原理,采用一種具有深度層級構(gòu)造的深度卷積神經(jīng)網(wǎng)絡(luò)模型DCNNs(Deep Convolutional Neural Networks)[8]。獲取風(fēng)格遷移圖像的過程主要采用兩種圖像作為素材:一種是具有風(fēng)格特征的圖像,通常是藝術(shù)名家作品或珍貴藏圖;另一種是真實內(nèi)容圖像,通常是攝影圖像。實驗基于深度學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練模型,自動提取風(fēng)格圖像中的藝術(shù)風(fēng)格特征,將其特征遷移到真實內(nèi)容圖像上,進而獲取到同時具有藝術(shù)風(fēng)格和真實內(nèi)容融合的藝術(shù)風(fēng)格圖像,不變的是內(nèi)容圖像的具體內(nèi)容(如圖像中的物體、形狀不變),改變的是在內(nèi)容圖像的基礎(chǔ)上獲取到了融合風(fēng)格圖像中的藝術(shù)風(fēng)格,最終獲取到具有風(fēng)格藝術(shù)效果的遷移圖像。本文實驗獲取藝術(shù)風(fēng)格遷移圖像的工作流程如圖1 所示。
圖1 圖像風(fēng)格遷移工作流程圖
Gatys 等人[3-5]所提出的基于卷積神經(jīng)網(wǎng)絡(luò)紋理合成的圖像風(fēng)格遷移方法,是基于VGG 網(wǎng)絡(luò)模型為基礎(chǔ),依據(jù)其隨機梯度下降機理,對模型網(wǎng)絡(luò)的損失函數(shù)進行設(shè)計,經(jīng)過多次迭代后而獲取到具有藝術(shù)風(fēng)格的遷移圖像。
VGG(Visual Geometry Group)從屬牛津大學(xué),始于2014 年,前后發(fā)布的VGG 網(wǎng)絡(luò)模型有VGG-11~VGG-19,其深度卷積神經(jīng)網(wǎng)絡(luò)模型具有超強的特征學(xué)習(xí)能力,在分層級疊加的多個線型與非線性的處理單元中,能夠識別和分析特征數(shù)據(jù)進行自動學(xué)習(xí)以快速提出目標(biāo)特征。本文實驗主要在Gatys等人[3-5]基于VGG-19 網(wǎng)絡(luò)模型基礎(chǔ)上進行完善和改進,VGG-19網(wǎng)絡(luò)具有簡單的模型結(jié)構(gòu),在整個結(jié)構(gòu)中主要使用了具有相同尺寸大小3×3 的卷積核和2×2 的最大池化層,其中有16個卷積層、5個最大池化層的特征空間和3個全連接層。VGG模型結(jié)構(gòu)圖如圖2所示。
圖2 卷積神經(jīng)網(wǎng)絡(luò)VGG-19模型結(jié)構(gòu)圖
VGG-19網(wǎng)絡(luò)模型卷積層主要用于卷積計算獲取特征圖,其最大池化層用于降低獲取特征圖復(fù)雜度以提升獲取圖像特征的效率,全連接層則引入激勵函數(shù)以提升模型對特征圖的區(qū)分性能,進而將大量特征圖數(shù)值信息歸一化為一個向量值,有利于促進VGG-19模型快速提取特征圖像。
基于深度學(xué)習(xí)的圖像風(fēng)格遷移方法,其基本路線是:首先,將準(zhǔn)備好的多張風(fēng)格圖像和內(nèi)容圖像輸入到設(shè)計搭建預(yù)訓(xùn)練好的VGG-19 網(wǎng)絡(luò)模型中,而這些輸入圖像則以數(shù)據(jù)流的方式前饋到卷積神經(jīng)網(wǎng)絡(luò)中進行特征學(xué)習(xí),進而獲取到各風(fēng)格圖像與內(nèi)容圖像的相應(yīng)特征圖;其次,在VGG-19網(wǎng)絡(luò)模型進行特征學(xué)習(xí)過程中依次對風(fēng)格圖像與內(nèi)容圖像的噪聲特征損失系數(shù)進行設(shè)置;最后,引入權(quán)重因子,以加權(quán)求和的方式獲取到總損失系數(shù),利用深度學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò)隨機梯度下降依次迭代的特點,結(jié)合這些獲取的特征圖像對圖像重建,最終獲取到具有藝術(shù)觀賞性的風(fēng)格遷移圖像。
Gatys 等人[3-5]所采用的VGG-19 網(wǎng)絡(luò)模型有效地獲取到了相應(yīng)風(fēng)格遷移圖像,利用隨機梯度下降這一特點,分別獲取到了內(nèi)容圖像Lcontent與風(fēng)格圖像Lstyle的特征損失系數(shù),其損失系數(shù)分別表示為:
其中,L表示深度卷積神經(jīng)網(wǎng)絡(luò)模型的卷積層總數(shù),l表示卷積層中具體的層級數(shù),如第l層的卷積層;p→表示內(nèi)容圖像;x→表示生成圖像表示內(nèi)容圖像p→在深度卷積神經(jīng)網(wǎng)絡(luò)中第l層卷積層的第i個數(shù)據(jù)傳遞通道第j個位置的特征表示表示生成圖像x→在深度卷積神經(jīng)網(wǎng)絡(luò)中第l層卷積層的第i個數(shù)據(jù)傳遞通道第j個位置的特征表示?!鷖表示風(fēng)格圖像;Nl表示網(wǎng)絡(luò)模型第l層中卷積操作提前特征數(shù)據(jù)傳輸?shù)耐ǖ罃?shù)量;Ml表示卷積高度與卷積寬度的乘積;Gl和Al分別表示生成圖像x→與風(fēng)格圖像→s在第l層卷積操作各自所對應(yīng)的內(nèi)積空間Gram 矩陣表示生成圖像x→在濾波器中第i個數(shù)據(jù)傳遞通道第j個位置的內(nèi)積空間表示風(fēng)格圖像→s在濾波器中第i個數(shù)據(jù)傳遞通道第j個位置的內(nèi)積空間。
在依次求取內(nèi)容圖像與風(fēng)格圖像的損失系數(shù)后,分別引入權(quán)重因子,以加權(quán)求和的方式求出總損失系數(shù),再對這些特征圖進行重建以獲得最終目標(biāo)效果的風(fēng)格遷移圖像,總損失系數(shù)表達式為:
其中,α表示加權(quán)求和圖像重建過程中內(nèi)容圖像平衡損失系數(shù)的權(quán)重因子;β表示加權(quán)求和圖像重建過程中風(fēng)格圖像平衡損失系數(shù)的權(quán)重因子,權(quán)重因子滿足α+β=1的條件。
經(jīng)過VGG-19深度卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練提取到目標(biāo)特征圖像,再進行圖像重建獲取到具有藝術(shù)風(fēng)格效果的風(fēng)格遷移圖像。
本文實驗基于深度學(xué)習(xí)機理,同樣采用VGG-19預(yù)訓(xùn)練的網(wǎng)絡(luò)模型來進行圖像風(fēng)格遷移實驗,是在Gatys 等人[3-5]所提出基于卷積神經(jīng)網(wǎng)絡(luò)紋理合成的圖像風(fēng)格遷移方法基礎(chǔ)之上進行改進和開展實驗的。先將目標(biāo)內(nèi)容圖像和風(fēng)格圖像輸入到預(yù)訓(xùn)練好的VGG-19 網(wǎng)絡(luò)模型中實現(xiàn)特征快速提取,再由式⑴內(nèi)容損失系數(shù)和風(fēng)格損失系數(shù)以加權(quán)求和的方式獲取到更為合理的總損失系數(shù),最后結(jié)合特征總損失系數(shù)對圖像進行重建融合以獲取到性能更高的風(fēng)格遷移圖像,改進總損失系數(shù)表達式為:
其中,在原滿足VGG-19預(yù)訓(xùn)練模型基礎(chǔ)上,對原求取總損失系數(shù)Ltotal引入一種光照正則化超參數(shù),進一步改善風(fēng)格遷移圖像的性能效果,λ表示引入控制內(nèi)容圖像損失系數(shù)與風(fēng)格圖像損失系數(shù)平衡最小二乘懲罰因子的一個權(quán)重,Lm表示光照正則化方法。
為了減少圖像風(fēng)格遷移過程中容易出現(xiàn)內(nèi)容缺失、風(fēng)格扭曲而得到效果圖像極差的現(xiàn)象,本文實驗在式⑵方程后定義引入了一項用于平衡內(nèi)容圖像損失系數(shù)與風(fēng)格圖像損失系數(shù)的最小二乘懲罰函數(shù),以確保圖像風(fēng)格遷移過程能夠?qū)ふ业阶罴哑ヅ?,從而減少圖像風(fēng)格遷移過程容易出現(xiàn)細(xì)節(jié)內(nèi)容缺失的現(xiàn)象。對于輸出內(nèi)容圖像與風(fēng)格圖像的損失系數(shù)都設(shè)定有平衡系數(shù)的權(quán)重因子,所設(shè)置的最小二乘懲罰函數(shù)其對應(yīng)的RGB 顏色空間值仿射在它們的參數(shù)值上(即每一個損失系數(shù)都映射有一個仿射函數(shù)),以平衡獲取到更加完善的總損失系數(shù)值,進而獲取到風(fēng)格完好、內(nèi)容細(xì)節(jié)缺失少的風(fēng)格遷移圖像。依據(jù)光照正則化方法原理,在Levin 等人[9]的拉普拉斯基礎(chǔ)上引入最小二乘懲罰函數(shù),該方法結(jié)合線性組合RGB 顏色空間對彩色圖像進行灰度化處理,由原圖像與灰度圖像進行對比,可創(chuàng)建獲取到仿射局部損失的一個最小二乘懲罰函數(shù),能夠?qū)D像前景與背景進行有效地分割以減少圖像風(fēng)格遷移過程中出現(xiàn)圖像扭曲或溢出的現(xiàn)象。其最小二乘懲罰函數(shù)定義為:
其中,MI表示具有N×N個像素的懲罰因子,主要用于平衡最小化線性系統(tǒng),其取值范圍依賴具有N個像素的輸入內(nèi)容圖像P;Vc[O]為輸出圖像O在顏色通道c的向量化描述版本。
在引入光照正則化最小二乘懲罰函數(shù)平衡損失系數(shù)的同時,實驗還結(jié)合擴大卷積(Dilated Convolution)的語義分割方法[10]能夠準(zhǔn)確快速地標(biāo)記出圖像目標(biāo)分割區(qū)域。擴大卷積的語義分割方法能夠有效增強VGG-19 網(wǎng)絡(luò)模型大量提取圖像特征的能力,進一步擴大獲取圖像特征的視野效果。擴大卷積語義分割方法將VGG-19模型生成的內(nèi)容圖像與風(fēng)格圖像所分割出來的特征標(biāo)簽以附加特征RGB 顏色通道的方式添加到輸入圖像當(dāng)中,進一步增強內(nèi)容圖像與風(fēng)格圖像目標(biāo)區(qū)域的快速分離,進而增強風(fēng)格圖像的損失系數(shù),結(jié)合分離出的特征圖像進行圖像快速重建,最終獲取到具有藝術(shù)觀賞性的風(fēng)格遷移圖像。
實驗在引入語義分割和最小二乘懲罰函數(shù)基礎(chǔ)之上,將大量的內(nèi)容圖像與風(fēng)格圖像輸入到預(yù)訓(xùn)練VGG-19 網(wǎng)絡(luò)模型中,在對圖像目標(biāo)信息進行預(yù)分割的同時,模型在進行大量模擬和識別等一些列特征學(xué)習(xí),使網(wǎng)絡(luò)模型具備快速提取特征圖像的能力,最后將提取的特征圖像進行快速重建,進而獲取到具有內(nèi)容圖像信息和風(fēng)格圖像樣式的藝術(shù)風(fēng)格遷移圖像。
本文實驗在Windows 10 系統(tǒng)下進行,主要使用深度學(xué)習(xí)Tensor Flow 框架進行網(wǎng)絡(luò)訓(xùn)練,硬件配置為Intel(R)Core(TM)i7-10510U CPU @ 1.80GHz 2.30 GHz 處理器,16GB 內(nèi)存。測試實驗在Python 3.7.1 的pytorch框架展開,NVIDIA的GPU。
在預(yù)訓(xùn)練的VGG-19 模型中,主要采用conv4_2層來操作表示內(nèi)容圖像信息,此時這一層的權(quán)重因子α取值為1,其他層取值為零;而圖像風(fēng)格信息分別采用conv1_1、conv2_1、conv3_1、conv4_1、conv5_1 層來表示,此時各個層級的β取值均為0.2,其他層級取值為零。經(jīng)實驗發(fā)現(xiàn),λ值設(shè)定過小則容易使風(fēng)格遷移圖像出現(xiàn)失真或信息缺失的現(xiàn)象,λ取值過大也會阻礙風(fēng)格信息遷移,綜合實驗和考慮,實驗對λ取值設(shè)定在104~6范圍,更多時候λ值設(shè)定為104,最終所獲取的遷移圖像效果最佳。
本文隨機選取了大量的圖像對(內(nèi)容圖像和風(fēng)格圖像)進行實驗,將這些圖像對輸入到預(yù)先設(shè)定好的VGG-19網(wǎng)絡(luò)模型中,進行特征學(xué)習(xí)和特征提取,進行多次仿真模擬以調(diào)試設(shè)計出最佳性能的VGG-19網(wǎng)絡(luò)訓(xùn)練模型,使得后續(xù)再將目標(biāo)圖像輸入到模型中能夠準(zhǔn)確快速地獲取到目標(biāo)特征信息,再經(jīng)過圖像重建均實現(xiàn)了圖像風(fēng)格遷移效果。根據(jù)圖像風(fēng)格遷移效果,分別與λ取值不同所獲取的效果圖像進行比較和分析,最終確定λ最佳值。圖3為選取的幾種不同λ參數(shù)值所獲取的風(fēng)格遷移圖像效果對比圖。
圖3 幾種不同λ參數(shù)值獲取的風(fēng)格遷移圖像效果對比
由圖3 可以看出,當(dāng)取值λ=104時,本文基于深度學(xué)習(xí)的圖像風(fēng)格遷移效果最佳。圖3(a)為三組實驗輸入的內(nèi)容圖像,圖3(b)為三組實驗所采用的樣式風(fēng)格圖像。可以看出,在實驗一中,圖3(c)框選區(qū)域風(fēng)格背景圖出現(xiàn)明顯的失真現(xiàn)象,圖3(d)圖像整體內(nèi)容保留完好,背景風(fēng)格效果失真現(xiàn)象減少,圖3(e)內(nèi)容信息和風(fēng)格背景出現(xiàn)扭曲現(xiàn)象明顯;在實驗二中,圖3(c)框選區(qū)域圖像的內(nèi)容信息清晰,其風(fēng)格背景趨近于實驗二圖3(b)風(fēng)格圖像效果,圖3(c)的局部內(nèi)容信息出現(xiàn)陰暗、細(xì)節(jié)不清晰現(xiàn)象,圖3(e)天空的風(fēng)格顏色較淺,未達到目標(biāo)視感藝術(shù)效果;在實驗三中,圖3(d)圖像風(fēng)格遷移效果最佳,內(nèi)容信息與風(fēng)格信息重建融合視覺效果最佳,失真或細(xì)節(jié)信息丟失現(xiàn)象最少,圖3(c)風(fēng)格背景顏色覆蓋了局部內(nèi)容信息,內(nèi)容信息丟失明顯,圖3(e)風(fēng)格背景顏色加深,在覆蓋內(nèi)容信息的同時,出現(xiàn)了局部扭曲現(xiàn)象。圖3(d)為本文基于深度學(xué)習(xí)的圖像風(fēng)格遷移方法效果圖,綜合實驗比較,當(dāng)取值λ=104時,實驗所獲取到的風(fēng)格遷移圖像內(nèi)容信息保留較好,融入的風(fēng)格背景較為和諧,整體藝術(shù)視感清晰,取得了很好圖像風(fēng)格遷移效果。
為使圖像風(fēng)格遷移效果的有效性得到進一步驗證,本文采用峰值信噪比(PSNR)[11-12]和均方誤差(MSE)[13]兩種評價指標(biāo)來客觀評價在不同λ參數(shù)值下所獲取風(fēng)格遷移圖像的性能。表1分別列出三組實驗不同λ參數(shù)值下所獲取風(fēng)格遷移圖像在PSNR 和MSE評價指標(biāo)上的數(shù)據(jù)性能比。在實驗中,PSNR 峰值信噪比用于評價圖像風(fēng)格后,特征信息的失真程度,PSNR 的值越大,表示失真程度越小,說明風(fēng)格遷移獲取到的圖像重建性能越好;MSE 均方誤差用于評估圖像風(fēng)格后特征信息與原目標(biāo)遷移特征信息的距離差距,MSE 的值越小,表示圖像風(fēng)格遷移后特征信息與原目標(biāo)遷移特征信息的差距越小,說明圖像風(fēng)格遷移后獲取的圖像性能更佳。從表1 可以看出,本文實驗PSNR 和MSE 值在參數(shù)λ=104的時候其性能指標(biāo)最高,表明實驗引入用于控制內(nèi)容圖像損失系數(shù)與風(fēng)格圖像損失系數(shù)平衡的最小二乘懲罰因子權(quán)重值為λ=104的時候,本文基于深度學(xué)習(xí)的圖像風(fēng)格遷移方法能夠獲取到最佳藝術(shù)效果的風(fēng)格遷移圖像。
表1 不同λ參數(shù)值獲取風(fēng)格遷移圖像的數(shù)據(jù)性能比
本文基于深度學(xué)習(xí)的圖像風(fēng)格遷移方法研究進行了實驗觀察和理論分析,獲取到具有藝術(shù)觀賞效果的風(fēng)格遷移圖像。實驗為減少獲取到風(fēng)格遷移圖像容易出現(xiàn)失真、內(nèi)容丟失、風(fēng)格扭曲等現(xiàn)象,對計算內(nèi)容圖像與風(fēng)格圖像總損失系數(shù)進行圖像重建以獲取到藝術(shù)風(fēng)格遷移圖像的同時,引入一項用于平衡內(nèi)容圖像損失系數(shù)與風(fēng)格圖像損失系數(shù)來求取總損失的最小二乘懲罰函數(shù),用以尋找特征信息的最佳匹配,經(jīng)實驗對比和觀察,確定一個最佳的最小二乘懲罰因子權(quán)重值,最終結(jié)合總損失系數(shù)進行圖像重建,以獲取到內(nèi)容缺失較少、風(fēng)格扭曲現(xiàn)象減少、失真現(xiàn)象降低、總體效果最佳的風(fēng)格遷移圖像。綜合實驗觀察與數(shù)據(jù)分析,本文方法獲取到的風(fēng)格遷移圖像,視覺效果清晰,特征信息明顯,整體取得了很好的圖像風(fēng)格遷移效果。