李莉 吳菲
摘? 要: 為了滿足普通人群對藝術(shù)創(chuàng)作的需求,降低藝術(shù)創(chuàng)作的門檻極為重要,進(jìn)行攝影作品的圖像風(fēng)格轉(zhuǎn)換便是方法之一。通過對特定風(fēng)格的圖像做傅里葉變換,得到頻譜圖,隨后對頻譜圖進(jìn)行預(yù)處理。通過CycleGAN對頻譜圖進(jìn)行圖像風(fēng)格遷移,再通過傅里葉逆變換將風(fēng)格遷移后的頻譜圖轉(zhuǎn)換為圖片。實驗結(jié)果表明,該方法能夠更快地收斂且具有更好的風(fēng)格遷移能力。
關(guān)鍵詞: 風(fēng)格遷移; 生成對抗網(wǎng)絡(luò); 圖片處理; 表征學(xué)習(xí)
中圖分類號:TP-183? ? ? ? ? 文獻(xiàn)標(biāo)識碼:A? ? ?文章編號:1006-8228(2020)12-41-06
Abstract: In order to meet the needs of ordinary people for artistic creation, it is extremely important to lower the threshold of artistic creation. One of the methods is to transform the image style of photographic works. In this paper, the spectrogram is obtained by performing Fourier transform on the image of a specific style, and then the spectrogram is preprocessed. CycleGAN is used to transfer the image style, and then the style transferred spectrogram is converted into a picture by inverse Fourier transform. The experiment results show that this method can converge faster and has better style transfer capabilities.
Key words: style transfer; Generative Adversarial Networks; image processing; representation learning
0 引言
近年來,計算機技術(shù)和計算機網(wǎng)絡(luò)的發(fā)展,掀起了一股創(chuàng)新浪潮,這拓寬了人們獲取文化遺產(chǎn)和文化輸出的方式[1]。對圖像進(jìn)行處理的技術(shù)變成近年來的一個熱門話題。目前對圖像進(jìn)行處理的技術(shù)主要集中在圖像處理和圖像分類。圖像風(fēng)格遷移是近年來形成的一個新的研究熱點。
由于藝術(shù)創(chuàng)作的學(xué)習(xí)門檻高、學(xué)習(xí)周期長、學(xué)習(xí)難度大等特點,普通人很難學(xué)習(xí)到一些藝術(shù)創(chuàng)作手段和工具,這使其在想通過藝術(shù)創(chuàng)作表達(dá)自己的想法時,變的尤其艱難。而和藝術(shù)創(chuàng)作相比,拍照要容易的多。如果能將拍照得到的照片轉(zhuǎn)換成各種流派的藝術(shù)形式,那么創(chuàng)作藝術(shù)的門檻將極大的降低。
Gatys等人[2]首先將深度卷積神經(jīng)網(wǎng)絡(luò)運用在西方名畫的風(fēng)格遷移之上。其算法通過CNN將圖像的內(nèi)容和風(fēng)格分離,然后通過向網(wǎng)絡(luò)中加入特定的噪聲,從而在保證圖像內(nèi)容的情況下,最大限度地改變圖像地風(fēng)格。Wang等人[3]在風(fēng)格遷移網(wǎng)絡(luò)中引入了相似性損失函數(shù),添加了一個后處理細(xì)化步驟來減少偽影。并且通過大量的實驗驗證了該方法的穩(wěn)健性和有效性,其方法可以穩(wěn)定的進(jìn)行攝影作品的圖像風(fēng)格轉(zhuǎn)換。Luan等人[4]將卷積神經(jīng)網(wǎng)絡(luò)從輸入到輸出的變換約束為顏色空間中的局部仿射,并將此約束表示為自定義的完全可微的激活項,成功緩解了圖像失真的問題。最終通過這種方法實現(xiàn)了如時間、天氣、季節(jié)等多種場景的藝術(shù)風(fēng)格轉(zhuǎn)換。sheng等人[5]首先將中國畫與西方作品比較,提出了風(fēng)格轉(zhuǎn)換的四個關(guān)鍵限制條件,即對典型水墨特征的特殊考慮,包括筆觸、空間保留、墨色擴散和泛黃。然后將CNN的不同層劃分為風(fēng)格層和內(nèi)容層。最終克服了溢出效應(yīng)實現(xiàn)了圖片向中國水墨畫的轉(zhuǎn)換。但以上基于描繪式的神經(jīng)風(fēng)格遷移算法的缺點也很明顯,它傾向于轉(zhuǎn)移重復(fù)的風(fēng)格,且對圖片進(jìn)行風(fēng)格遷移的效率低下,效果一般。
這些研究在某種程度上都實現(xiàn)了其單一域的風(fēng)格轉(zhuǎn)換。但是,就圖像的風(fēng)格遷移的效果來看,算法所產(chǎn)生的圖片仍然達(dá)不到令人滿意的結(jié)果。本文通過研究發(fā)現(xiàn),通過對圖像進(jìn)行傅里葉變換,然后利用CycleGAN對頻譜圖進(jìn)行風(fēng)格遷移,最后通過傅里葉逆變換而生成的圖像具有更好地風(fēng)格遷移的效果。
1 基本概念
1.1 神經(jīng)風(fēng)格遷移
“神經(jīng)風(fēng)格傳遞”是一種優(yōu)化技術(shù),它允許從樣式圖像復(fù)制樣式,并將其應(yīng)用到內(nèi)容圖像上,從而產(chǎn)生各種各樣且通常有趣的結(jié)果(如圖1)。Gatys等人[2]最先在其論文中概述的一種技術(shù),一種藝術(shù)風(fēng)格的神經(jīng)算法。與最終輸出的樣式和內(nèi)容圖像相比,最大限度地減少最終輸出中的樣式和內(nèi)容丟失的功能和原則,即最終輸出的樣式圖像的樣式損失和內(nèi)容圖像的內(nèi)容損失應(yīng)最小。
1.2 CycleGAN
生成式對抗網(wǎng)絡(luò)是一種深度學(xué)習(xí)模型,是Gosodfellow等人[7]提出的一類隱式生成模型。模型通過框架中生成模型和判別模型的互相博弈學(xué)習(xí)產(chǎn)生相當(dāng)好的輸出。生成模型嘗試生成假的樣本來愚弄判別模型。而判別模型則嘗試將區(qū)分真實的數(shù)據(jù)和假的樣本。假定G是生成器,D是判別器,Pdata(x)是真實樣本的分布且x從該分布中采樣,PZ(z)是x的潛在碼z的分布。則目標(biāo)方程為:
CycleGAN是一種無監(jiān)督的生成對抗網(wǎng)絡(luò)[6]。CycleGAN可以在沒有任何成對數(shù)據(jù)的情況下學(xué)習(xí)兩個域之間的映射。CycleGAN包含兩個生成器和兩個鑒別器,兩個生成器分別需要學(xué)習(xí)該域到對應(yīng)域的映射。兩個判別器則需要通過對各自域真實數(shù)據(jù)的學(xué)習(xí),判斷對應(yīng)域生成器所生成的數(shù)據(jù)是否為本域數(shù)據(jù)。CycleGAN的損失函數(shù)除了包含兩個對抗性損失之外,還需要加上一個循環(huán)一致性損失,以用來保留其輸入結(jié)構(gòu),其中G表示X->Y之間的映射,F(xiàn)表示Y->X之間的映射。
1.3 時頻分析
傅里葉變換是一種線性積分變換,用于信號在時域和頻域之間的變換。傅里葉變換可以將在時域難以分析的問題轉(zhuǎn)化成頻域問題來分析。一維傅里葉變換將一個一維的信號分解為若干個指數(shù)波。而通過歐拉公式可以將該指數(shù)波表示為復(fù)數(shù)的形式。則該復(fù)數(shù)在二維平面直角坐標(biāo)系中的角度為該一維信號的一個分量的相位φ,而該復(fù)數(shù)的模長為該分量的振幅。一維傅里葉的公式如下:
二維傅里葉變換通常用于圖像處理,如圖像去噪、圖像增強、特征提取等應(yīng)用。如果要對彩色圖像進(jìn)行傅里葉變換,通常要將彩色圖像轉(zhuǎn)換成灰色圖像來處理。或者將彩色圖像的多個層進(jìn)行拆分,然后對每一層進(jìn)行傅里葉變換(如圖2、圖3)。
2 算法分析
2.1 問題定義
本文要解決的問題是將一個圖像域轉(zhuǎn)換到另一個圖像域,假設(shè)這兩個域分別為域X和域Y,即將X域的圖像轉(zhuǎn)換為Y域的圖像,但是圖像的內(nèi)容幾乎不變。設(shè)集合A={x1,x2,……,xw},B={y1,y2,……,yt},集合A和集合B分別表示X域和Y域風(fēng)格的圖片的集合。
對于集合A和集合B中的每一個元素來說,其都是一張圖片。
假設(shè)圖片的維度為[m×n×3]。分別將三層分開單獨做傅里葉變換,紅色通道為R層,綠色通道為G層,藍(lán)色通道為B層,對于這三層分別做如下處理。
2.3 圖像去噪
由于Zhu等人[6]的cyclegan采用的是反卷積的操作,這會導(dǎo)致生成的圖像譜圖存在嚴(yán)重的棋盤偽影,對圖像產(chǎn)生的影響變現(xiàn)為局部圖像的扭曲(圖5)。
參考Odena等人[9]的研究,采用最近鄰插值和正則卷積代替反卷積可以有效的解決此問題。該方法首先通過最近鄰插值法調(diào)整輸入大小,然后在進(jìn)入卷積層,該方法在圖像高分辨率中也能很好地工作,但由于其沒有采用反卷積的操作,故不易出現(xiàn)棋盤偽影的結(jié)果(圖6)。
3 實驗
3.1 訓(xùn)練集
為了完成風(fēng)格遷移的任務(wù),要選擇合適的數(shù)據(jù)集。為了證明仿真法的健壯性,從網(wǎng)絡(luò)開源平臺上下載了1830張圖片,其中包括多種類型的圖片,按照繪畫的種類來劃分,其中包括油畫、水彩畫、水墨畫、人物畫、肖像畫等等。按照圖片所處的場景,包括根據(jù)季節(jié)劃分的圖畫、根據(jù)一天時間所劃分的圖畫、根據(jù)圖像內(nèi)容所劃分的圖畫。由于下載的圖片大小不一,將其處理為固定大小的圖片,大小為512*256像素。對于其中包含帶有水印的圖片,使用圖像處理工具對圖像進(jìn)行去水印操作。除此之外,又在網(wǎng)上下載了100張普通照片用于測試。
3.2 訓(xùn)練參數(shù)
由于數(shù)據(jù)集所限,本文的算法選擇迭代20000步,訓(xùn)練時每個batch為1,[λ1]的值設(shè)為5,[λ2]的初始值為5并且在前8000次迭代保持不變,當(dāng)算法執(zhí)行到8000步時,[λ2]開始逐漸線性衰減,最終衰減到0為止。
3.3 實驗結(jié)果分析
通過圖7可以看出,本文的算法相比直接采用CycleGAN的算法,有更快的收斂。這是因為通過傅里葉變換對圖像進(jìn)行預(yù)處理,從而使CycleGAN模型更加快速學(xué)習(xí)到圖像的特征。并且,通過這種方法,模型能夠更加容易的學(xué)習(xí)到圖像潛在的高級特征,這也就解釋了本文算法在一定范圍之內(nèi)的損失相比前者的更小。
選擇了四張具有代表性的圖片作為展示,由圖8所展示的生成的圖像可以看出,采用本文提出的風(fēng)格遷移算法相比直接在圖像上利用CycleGAN進(jìn)行風(fēng)格遷移的效果更好。比如,就第一幅照片來看來看,沒有采用傅里葉變換的方法產(chǎn)生的圖像在某種程度上沒有學(xué)習(xí)到漫畫線條鮮明的特點,從而使產(chǎn)生的圖像模糊,不具備漫畫的特點。而在第二幅圖畫中,目標(biāo)是將城市的照片轉(zhuǎn)化為鉛筆畫,顯然,沒有使用傅里葉變換的圖像中天空還保持著原有天空的顏色,而采用本文方法后,成功將天空轉(zhuǎn)變成鉛筆畫的色調(diào)。在第三幅的圖像里,是將貓的圖片轉(zhuǎn)換成涂抹類的Gothic風(fēng)格的圖片,雖然前后的差距沒有之前差距大,但是在圖片右下角黑色陰影部分,本文方法產(chǎn)生了更加具有涂抹類圖畫的風(fēng)格。在第四幅圖片里,我們的目標(biāo)是將圖片轉(zhuǎn)換成一張像素類的圖片,在這個人物中,我們提出的方法比原圖片顯示出了更好的效果,因為直接采用CycleGAN做風(fēng)格轉(zhuǎn)換的話,算法幾乎沒有學(xué)習(xí)到像素類圖畫的風(fēng)格。
4 結(jié)束語
在這項工作中,我們提出了一個基于CycleGAN的圖像風(fēng)格遷移算法。該算法首先通過傅里葉變換將圖像轉(zhuǎn)換成頻譜圖,并對頻譜圖做預(yù)處理。然后通過CycleGAN對頻譜圖進(jìn)行風(fēng)格轉(zhuǎn)換。最后將頻譜圖通過逆變換映射回圖片。和單純的利用CycleGAN來進(jìn)行圖像風(fēng)格遷移的算法相比,我們提出的模型具有更強的風(fēng)格遷移能力。將該方法應(yīng)用在藝術(shù)創(chuàng)作類的應(yīng)用之上,可以大幅度提高人們進(jìn)行藝術(shù)創(chuàng)作的效率。在以后的工作中,可以考慮將該思想和其他生成模型結(jié)合,例如DiscoGAN,DualGAN等等。除此之外,還可以將本文的算法用來解決其他類的問題,例如音樂數(shù)據(jù)的風(fēng)格轉(zhuǎn)換。
參考文獻(xiàn)(References):
[1] 牛曉霞.試述大數(shù)據(jù)下計算機技術(shù)在藝術(shù)領(lǐng)域中的應(yīng)用[J].計算機產(chǎn)品與流通,2020.5:17
[2] Gatys L A, Ecker A S, Bethge M. A neural algorithm ofartistic style[J]. arXiv preprint arXiv:1508.06576,2015:1-16
[3] Wang L, Wang Z, Yang X, et al. Photographic style transfer[J].The Visual Computer,2020.36(2): 317-331
[4] Luan F, Paris S, Shechtman E, et al. Deep photo styletransfer[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2017:4990-4998
[5] Sheng J, Song C, Wang J, et al. Convolutional Neural?Network Style Transfer Towards Chinese Paintings[J]. IEEE Access,2019.7:163719-163728
[6] Zhu J Y, Park T, Isola P, et al. Unpaired image-to-imagetranslation using cycle-consistent adversarial networks[C]// Proceedings of the IEEE international conference on computer vision,2017:2223-2232
[7] Gosodfellow I, Pouget-Abadie J, Mirza M, et al.Generative adversarial nets[C]//Advances in neural information processing systems,2014:2672-2680
[8] Huang S, Li Q, Anil C, et al. Timbretron: A wavenet(cyclegan (cqt (audio))) pipeline for musical timbre transfer[J].arXiv preprint arXiv:1811.09620,2018:1-17
[9] Augustus Odena, Vincent Dumoulin, and Chris Olah.Deconvolution and checkerboard artifacts. Distill. doi: 10.23915/distill.00003. URL http://distill.pub/2016/ deconv-checkerboard.2016/2020