李美麗,楊傳穎,石 寶
內(nèi)蒙古工業(yè)大學(xué) 信息工程學(xué)院,呼和浩特010100
計(jì)算機(jī)圖形學(xué)是計(jì)算機(jī)科學(xué)領(lǐng)域的一個(gè)重要分支,隨著計(jì)算機(jī)圖形學(xué)方面的硬件與軟件的不斷發(fā)展和改進(jìn),將圖形渲染技術(shù)分為真實(shí)感渲染技術(shù)與非真實(shí)感渲染技術(shù),真實(shí)感渲染技術(shù)忠實(shí)地反映客觀事物的外觀和細(xì)節(jié),更適合表達(dá)剛性曲線,而非真實(shí)感繪制會(huì)根據(jù)圖像內(nèi)容自適應(yīng)區(qū)分前景和背景,更加適合描述自然現(xiàn)象,它們的研究方法和對(duì)象既相互補(bǔ)充又相互交叉。
深度學(xué)習(xí)以其能快速提取高級(jí)抽象特征的優(yōu)勢(shì)被應(yīng)用于提取圖像的風(fēng)格化特征和內(nèi)容特征,成為圖像風(fēng)格遷移領(lǐng)域的主流技術(shù)。實(shí)際上,圖像風(fēng)格遷移是一種特殊的遷移學(xué)習(xí),是一種借助計(jì)算機(jī)技術(shù)處理圖像的紋理、顏色、風(fēng)格、線條等信息來改變圖像效果的技術(shù)。它是將一張藝術(shù)作品圖片的風(fēng)格轉(zhuǎn)移到另一張圖片上,最后生成一張帶有某種風(fēng)格的內(nèi)容圖片。為了模擬藝術(shù)家的這種表現(xiàn)力,引入圖像分割方法,將風(fēng)格轉(zhuǎn)化進(jìn)行約束,由于蒙古族服飾顏色多為紅黃藍(lán)三原色,所以將其約束到彩色空間變換,對(duì)特定區(qū)域進(jìn)行風(fēng)格遷移,提升了風(fēng)格遷移后輸出圖的效果。
神經(jīng)風(fēng)格遷移的三個(gè)主要應(yīng)用領(lǐng)域是媒體社交、輔助用戶創(chuàng)作和游戲場(chǎng)景渲染領(lǐng)域,風(fēng)格遷移技術(shù)來源于歷史悠久的風(fēng)格化繪制技術(shù)。風(fēng)格遷移技術(shù)在藝術(shù)創(chuàng)作中,可以將大師的精美藝術(shù)作品風(fēng)格遷移到其他圖片上,使得結(jié)果圖帶有了大師的風(fēng)范。這一智能創(chuàng)作應(yīng)用在游戲制作中,對(duì)游戲動(dòng)畫人物塑造和背景渲染都有極大的幫助。如果將帶有濃烈民族文化特征的圖片進(jìn)行遷移,也是對(duì)物質(zhì)文化遺產(chǎn)和非物質(zhì)文化遺產(chǎn)的繼承和弘揚(yáng)。
在神經(jīng)風(fēng)格遷移算法之前的風(fēng)格遷移方法有基于筆劃的渲染、基于圖像類比的方法、圖像濾波方法和紋理合成方法等,這些傳統(tǒng)的風(fēng)格遷移方法有一個(gè)共同的思想就是借助局部特征的統(tǒng)計(jì)模型來描述風(fēng)格,這極大地限制了在實(shí)際中的應(yīng)用。
2015年Gatys等人[1]開創(chuàng)性地提出了一種神經(jīng)藝術(shù)風(fēng)格遷移算法,以簡(jiǎn)潔明了的方式闡明了神經(jīng)網(wǎng)絡(luò)的風(fēng)格化思想,無需繁瑣的手工建模,就能生成新穎風(fēng)格化圖像。2016年相繼發(fā)表了另一篇論文[2],該論文進(jìn)一步闡述風(fēng)格遷移的方法,引入了白噪聲圖片,通過借助VGG19 網(wǎng)絡(luò)提取的輸入圖像的特征進(jìn)行重建圖像,使得圖像的風(fēng)格和內(nèi)容的分離和合成成為可能。Johnson等人[3]受到Gatys 等人的研究成果的影響,提出了一種實(shí)時(shí)的快速神經(jīng)風(fēng)格遷移方法,該方法用感知損失函數(shù)來替代逐像素差距的損失函數(shù)來訓(xùn)練前饋網(wǎng)絡(luò),基于有優(yōu)化的方式對(duì)比,得到三個(gè)數(shù)量級(jí)的提速。Dumoulin 等人[4]在Johnson的基礎(chǔ)上提出了更靈活的風(fēng)格遷移模型,采用多個(gè)風(fēng)格共用一個(gè)模型的方式,緩解了模型存儲(chǔ)耗費(fèi)空間大的問題。Li等人[5]將生成的馬爾科夫隨機(jī)場(chǎng)作用在深度卷積神經(jīng)網(wǎng)絡(luò)上進(jìn)行圖像合成任務(wù),該任務(wù)增強(qiáng)了Gatys等人的框架,通過用維持圖像風(fēng)格的MRF正則項(xiàng)來替代Gram 矩陣匹配。Ulyanov 等人[6]提出了另一種反饋卷積神經(jīng)網(wǎng)絡(luò),應(yīng)用多層次的網(wǎng)絡(luò)結(jié)構(gòu),產(chǎn)生大量任意大小的相同紋理,將給定照片的藝術(shù)風(fēng)格遷移到任意圖像上,引入生成網(wǎng)絡(luò)減少迭代次數(shù),提高了訓(xùn)練速度,縮短了圖片生成時(shí)間,對(duì)局部細(xì)節(jié)的處理優(yōu)于之前的方法,然而由于風(fēng)格圖片是真實(shí)照片,存在內(nèi)容不匹配、扭曲等問題,使得遷移效果不佳。2017年Luan等人[7]提出了一種深度照片風(fēng)格遷移方法,提出局部仿射變換正則項(xiàng),用此方法防止生成的真實(shí)照片扭曲失真,解決了生成圖像扭曲不匹配問題。Liao等人[8]提出了一種新的視覺屬性遷移方法。該方法針對(duì)的是兩張具有不同內(nèi)容卻有相似語義的圖像,利用高層抽象特征建立起兩張圖片的語義對(duì)應(yīng)關(guān)系,與之前的算法不同的是,提出深度圖像類比的方法,該方法適用于輸入圖像是真實(shí)照片,輸出也是真實(shí)照片的任務(wù),即達(dá)到像素級(jí)別的遷移,進(jìn)而使用一種由粗到細(xì)的策略建立最近鄰域并生成風(fēng)格化結(jié)果。Zhu 等人[9]針對(duì)非成對(duì)的數(shù)據(jù)集,提出了一種通用型的圖像到圖像的訓(xùn)練模式,并且提出了結(jié)合循環(huán)一致?lián)p失和對(duì)抗網(wǎng)絡(luò)損失進(jìn)行模型的訓(xùn)練,此種方法解決了沒有成對(duì)數(shù)據(jù)集的問題,適用性更廣。2018年Chelaramani 等人[10]提出一種可以在句子與圖像之間進(jìn)行跨模態(tài)的新穎風(fēng)格遷移方法。建立在圖像到圖像遷移上的創(chuàng)新機(jī)制上,將整體心理圖像整理成一個(gè)句子,并以有意義的方式自動(dòng)傳遞給特定的圖像。2019 年Nguyen等人[11]重新定義了多模態(tài),并引入了一種簡(jiǎn)單的多模態(tài)和任意風(fēng)格遷移方法,通過向單峰方法注入噪聲來實(shí)現(xiàn)多模態(tài)和任意風(fēng)格傳遞的方法。這種新穎的方法不需要任何可訓(xùn)練的參數(shù),并且可以容易地應(yīng)用到具有單獨(dú)的風(fēng)格編碼子網(wǎng)的任何單峰式傳輸方法的文獻(xiàn)中。
目前存在的方法都是只針對(duì)特定數(shù)據(jù)采取特定方法的遷移技術(shù),不具一般性,與現(xiàn)有的方法相比,本文提出的方法在對(duì)任意樣式進(jìn)行泛化和可視化處理的同時(shí),能夠有效地進(jìn)行前反饋方式的風(fēng)格遷移,不需要學(xué)習(xí)每一個(gè)單獨(dú)的風(fēng)格,通過訓(xùn)練一種用于圖形重建的自動(dòng)編碼器來進(jìn)行圖像生成過程,將前饋通道中的增白和著色變換結(jié)合起來,以匹配內(nèi)容和風(fēng)格特征之間的統(tǒng)計(jì)分布和相關(guān)性。
數(shù)據(jù)增廣是一種解決圖像數(shù)據(jù)不足的常用方法。通過對(duì)訓(xùn)練圖像做一系列隨機(jī)改變,產(chǎn)生相似但又不同的訓(xùn)練樣本,從而擴(kuò)大訓(xùn)練數(shù)據(jù)集的規(guī)模,由于采集的數(shù)據(jù)圖片大概為582 張。通過數(shù)據(jù)增廣方法增加到1 080張,大大降低模型對(duì)某些屬性的依賴,提高了模型的泛化能力。主要用到的數(shù)據(jù)增廣方法有縮放變換、裁剪、變換顏色、旋轉(zhuǎn)、平移等變換,其中部分結(jié)果如圖1所示。
圖1 預(yù)處理后的圖
神經(jīng)網(wǎng)絡(luò)以其能快速提取高級(jí)抽象特征的優(yōu)勢(shì),被廣泛應(yīng)用于提取圖像特征,成為圖像風(fēng)格遷移領(lǐng)域的基本技術(shù)。風(fēng)格遷移的基本思想很簡(jiǎn)單,在保留目標(biāo)圖像內(nèi)容的基礎(chǔ)上,將另一張圖片風(fēng)格應(yīng)用在目標(biāo)圖像上,生成的風(fēng)格化圖像具有原來內(nèi)容圖片的內(nèi)容的同時(shí)帶有風(fēng)格圖片的風(fēng)格,本文是在圖像風(fēng)格遷移的基礎(chǔ)上,進(jìn)一步地要求輸入圖像均為高清的、具有圖像真實(shí)細(xì)節(jié)的圖像,尤其是風(fēng)格圖像,而不是一些具有明顯藝術(shù)家風(fēng)格的風(fēng)格圖像,所合成的圖像結(jié)合了內(nèi)容圖像的真實(shí)細(xì)節(jié)和風(fēng)格圖像的風(fēng)格。
圖像風(fēng)格遷移研究步驟大體分為兩部分,第一部分提取圖像的內(nèi)容和風(fēng)格特征,第二部分將兩種特征融合生成目標(biāo)圖像。然而在已有的風(fēng)格遷移研究結(jié)果中,結(jié)果圖存在不同程度的扭曲和失真,基于這個(gè)棘手問題,為了保證圖像的保真性,提出了一種優(yōu)化過程中目標(biāo)函數(shù)的圖像寫實(shí)正則化參數(shù)項(xiàng),將這個(gè)約束表示成一個(gè)完全可微的參數(shù)項(xiàng),以此約束重構(gòu)圖像用輸入圖像的局部仿射色彩變換防止扭曲,保證在輸入圖像映射到輸出圖像的過程中,點(diǎn)、線、面都不發(fā)生改變,盡可能減少內(nèi)容信息失真,成功抑制生成圖像扭曲,在各種各樣的場(chǎng)景中生成了視覺效果相對(duì)較佳的真實(shí)風(fēng)格化圖像。
假設(shè)給定一張內(nèi)容圖片C和一張風(fēng)格圖片S,采用目前應(yīng)用廣泛的編碼-解碼器結(jié)構(gòu),使用VGG19 網(wǎng)絡(luò)作為編碼器提取圖片的內(nèi)容和風(fēng)格特征,借助已經(jīng)訓(xùn)練好的VGG19 網(wǎng)絡(luò)模型進(jìn)行特征提取,編碼器權(quán)重使用由之前ImageNet 網(wǎng)絡(luò)訓(xùn)練出的權(quán)重,此處借助遷移學(xué)習(xí)中的權(quán)重遷移方法,大大減少了工作量。同時(shí)訓(xùn)練一個(gè)與之對(duì)應(yīng)的解碼器,對(duì)圖片的內(nèi)容和風(fēng)格進(jìn)行重建。
對(duì)于多層次的風(fēng)格遷移,分別為VGG19的Relu_X_1層訓(xùn)練五個(gè)重構(gòu)解碼器,每個(gè)解碼器的架構(gòu)對(duì)稱于VGG19 網(wǎng)絡(luò)架構(gòu),該技術(shù)的原理圖如圖2所示。
VGG19 網(wǎng)絡(luò)作為一個(gè)特征提取編碼器,由卷積層、池化層、全連接層組成。分別選用conv4_2作為內(nèi)容表示,conv1_1、conv2_1、conv3_1、conv4_1、conv5_1 作為風(fēng)格表示。同時(shí)訓(xùn)練一個(gè)與編碼器對(duì)稱的解碼器,目的是將VGG19 網(wǎng)絡(luò)提取的特征轉(zhuǎn)化為原圖像,其本質(zhì)是一個(gè)圖像重建任務(wù),經(jīng)過大量實(shí)驗(yàn)不斷地調(diào)整編碼器和解碼器以達(dá)到最優(yōu)。為了對(duì)不同層次提取的特征進(jìn)行評(píng)估,選用VGG19 網(wǎng)絡(luò)的五個(gè)層的特征映射和相對(duì)應(yīng)的五個(gè)解碼器。采用像素重構(gòu)損失和特征損失對(duì)輸入圖像進(jìn)行重構(gòu),如下式所示:
Iin表示輸入的圖像,Iout表示重構(gòu)的輸出圖像,Φ表示使用預(yù)訓(xùn)練模型VGG19 編碼器提取到的圖特征表示,λ是兩個(gè)損失函數(shù)的平衡參數(shù)。
為了更好地進(jìn)行圖像風(fēng)格遷移,將增白和著色變換WCT 應(yīng)用到內(nèi)容特征層,使內(nèi)容特征的協(xié)方差矩陣與風(fēng)格特征的協(xié)方差矩陣進(jìn)行匹配,最后將轉(zhuǎn)換后的特征向前反饋,輸入到下面的解碼器層,從而獲得風(fēng)格化后的圖像。
通過最小化L2范數(shù)的像素重構(gòu)損失和特征感知損失之和來訓(xùn)練解碼器,采用多層次風(fēng)格化策略,在WCT[12]中將PhotoWCT 應(yīng)用于不同層次的VGG19 特征,如圖3所示。
圖2 風(fēng)格遷移架構(gòu)圖
圖3 優(yōu)化模型對(duì)比圖
PhotoWCT 和WCT 共享相同的編碼器架構(gòu)和映射步驟。在PhotoWCT 中,用上池化層替換上采樣層。上池化層是與池化掩碼一起使用,該掩碼記錄在對(duì)應(yīng)的池化層[13]中的每個(gè)最大池化區(qū)域上攜帶最大值的位置。通過比較WCT 和PhotoWCT 的風(fēng)格化結(jié)果。PhotoWCT 風(fēng)格化圖像具有更少的結(jié)構(gòu)偽影。同時(shí)在實(shí)驗(yàn)部分進(jìn)行了一項(xiàng)用戶研究,以定量驗(yàn)證PhotoWCT通常比WCT 有更好的風(fēng)格化效果。
模型優(yōu)化中,編碼層的構(gòu)建結(jié)構(gòu)不進(jìn)行修改,只是在保存信息方面,上池化處理比上采樣處理能更好保存詳細(xì)信息,所以用上池化代替上采樣,減少了特征映射的空間信息的丟失,解碼器中的上采樣特征映射無法恢復(fù)輸入圖像的詳細(xì)結(jié)構(gòu),也就是說,需要將丟失的空間信息傳遞給解碼器,以便能夠重構(gòu)圖像的詳細(xì)細(xì)節(jié),圖像增白和著色變換功能表示為如下公式:
其中,是一個(gè)包含上采樣的解碼器,通過訓(xùn)練解碼器來完成圖像重建,通過WCT 得到的結(jié)果圖直線邊界呈現(xiàn)鋸齒狀的模糊,使用圖像的增白跟著色變換WCT 避免此問題的發(fā)生。
對(duì)風(fēng)格化后存在的偽影問題進(jìn)行平滑調(diào)整,首先將所有像素表示為圖中的節(jié)點(diǎn),并定義了一個(gè)關(guān)聯(lián)矩陣:
其中,N表示相似像素點(diǎn)的個(gè)數(shù),定義平滑項(xiàng)和濾波項(xiàng),建立模型優(yōu)化這兩個(gè)目標(biāo)項(xiàng),將問題轉(zhuǎn)化為一個(gè)優(yōu)化問題:
其中,yi表示PhotoWCT 風(fēng)格化結(jié)果Y的顏色像素,ri期望的平滑輸出結(jié)果R的顏色像素,變量dii=是W 的度矩陣D 中的對(duì)角線元素,即D=diag{d11,d22,…,dNN}。在公式(4)中,λ控制著這兩個(gè)術(shù)語的平衡。
上述公式是基于圖的排序算法[14-15]得到的。在排序算法中,Y是一個(gè)二進(jìn)制輸入,其中每個(gè)元素指示某個(gè)特定項(xiàng)是否為查詢,具體yi=1 表示yi是一個(gè)查詢,否則yi=0。最優(yōu)解R是所有項(xiàng)目的排序值。此方法中,將Y設(shè)為PhotoWCT 樣式化的結(jié)果?;趯?duì)像素的相似性,R是Y的最優(yōu)解。與最先進(jìn)的方法[14]對(duì)比,本文算法利用可用的語義標(biāo)簽映射獲得更好的風(fēng)格化結(jié)果。當(dāng)進(jìn)行PhotoWCT 風(fēng)格化時(shí),對(duì)于每個(gè)語義標(biāo)簽,分別利用內(nèi)容和風(fēng)格圖片中具有相同標(biāo)簽的圖像區(qū)域的特征,計(jì)算一對(duì)投影矩陣Pc和Ps。用來對(duì)這些圖像區(qū)域進(jìn)行風(fēng)格化。使用語義標(biāo)簽映射,可以更準(zhǔn)確地執(zhí)行內(nèi)容和風(fēng)格匹配。該算法不需要精確的語義標(biāo)記。獲得良好的風(fēng)格化效果圖。
圖像語義分割是一門交叉學(xué)科,涉及模式識(shí)別、計(jì)算機(jī)視覺、圖像分類等領(lǐng)域,在視頻檢測(cè)、工業(yè)自動(dòng)化、虛擬現(xiàn)實(shí)VR等不同領(lǐng)域有廣泛的應(yīng)用,語義分割是為圖像像素標(biāo)記一個(gè)預(yù)先定義好的語義標(biāo)簽,在此基礎(chǔ)上,在圖像的目標(biāo)對(duì)象上加入語義信息,能夠根據(jù)圖像本身的紋理、場(chǎng)景和其他高層語義特征來得到圖像本身需要表達(dá)的信息,具有實(shí)用價(jià)值。本文采用的深度照片風(fēng)格遷移算法通過對(duì)內(nèi)容圖像進(jìn)行語義分割的結(jié)果來指導(dǎo)風(fēng)格遷移的過程,當(dāng)算法精確地識(shí)別出像素的前背景時(shí),就可以更精準(zhǔn)地進(jìn)行分割。
語義分割方法大體分為兩類,基于區(qū)域分類的分割方法和基于像素分類的分割方法?;趨^(qū)域的分割方法根據(jù)區(qū)域生成算法和圖像塊劃分標(biāo)準(zhǔn)的不同,將其分為基于候選區(qū)域方法和基于分割掩膜方法;基于像素分類的圖像語義分割方法按照其學(xué)習(xí)方式的不同,可以分為全監(jiān)督學(xué)習(xí)圖像語義分割方法、弱監(jiān)督學(xué)習(xí)圖像語義分割方法、無監(jiān)督學(xué)習(xí)圖像語義分割方法。
借助圖像的語義信息將圖像進(jìn)行更加準(zhǔn)確地分割。圖像分割是圖像處理到圖像分析的關(guān)鍵步驟,圖像分割是指根據(jù)灰度、顏色、紋理和形狀等特征把圖像劃分成若干個(gè)互不交疊的區(qū)域,并使這些特征在統(tǒng)一區(qū)域內(nèi)呈現(xiàn)出相似性,而在不同區(qū)域間呈現(xiàn)出明顯的差異性。圖像分割領(lǐng)域研究人員提出了很多的研究方法[15],較為普遍的方法有邊緣分割方法、閾值分割方法、區(qū)域生長方法、區(qū)域的分裂合并方法、直方圖分割方法以及結(jié)合特定理論工具的分割方法。但是并不存在一種廣泛適用的分割方法。
本文針對(duì)蒙漢服飾文化元素的遷移,采用特定空間聚類方法進(jìn)行圖像分割,將圖像空間中的像素用對(duì)應(yīng)的特征空間點(diǎn)表示,根據(jù)它們?cè)谔卣骺臻g的聚集對(duì)特征空間進(jìn)行分割,然后將它們映射到原圖像空間,得到分割結(jié)果。采用K均值聚類算法與自然圖像摳圖相結(jié)合的技術(shù),先設(shè)定K個(gè)初始類均值,然后將每一個(gè)像素劃分到離它最近的類,并且計(jì)算新的類均值,迭代執(zhí)行前面的步驟直到新舊類之差小于某一閾值。
3.2.1 K 均值算法
K均值算法是一種常用的無監(jiān)督的聚類算法,已在圖像模式識(shí)別中得到了廣泛的應(yīng)用,K均值算法[16]的基本思想是通過找到K個(gè)聚類的中心,同時(shí)根據(jù)數(shù)據(jù)點(diǎn)與各中心的距離的大小,對(duì)每個(gè)質(zhì)心計(jì)算質(zhì)心與數(shù)據(jù)點(diǎn)之間的距離將數(shù)據(jù)點(diǎn)分配到距其最近的簇,對(duì)每一個(gè)簇,計(jì)算簇中所有點(diǎn)的均值并將均值作為質(zhì)心,重復(fù)迭代直到質(zhì)心不變或者變化很小時(shí)結(jié)束,最后將數(shù)據(jù)點(diǎn)全部進(jìn)行了歸類?;疽笫窃跀?shù)據(jù)點(diǎn)構(gòu)成的一個(gè)聚類中,聚類內(nèi)部點(diǎn)之間的距離應(yīng)該小于數(shù)據(jù)點(diǎn)與聚類外部的點(diǎn)之間的距離。也就是對(duì)目標(biāo)函數(shù)的優(yōu)化,直到將數(shù)據(jù)點(diǎn)全部進(jìn)行了歸類。目標(biāo)函數(shù)表示如下:
為每個(gè)數(shù)據(jù)點(diǎn)都分配一個(gè)權(quán)重ω(p),設(shè)k為聚類的數(shù)目,πk表示第k個(gè)聚類,φ表示將數(shù)據(jù)點(diǎn)映射到高維空間,通過迭代的方式最小化目標(biāo)函數(shù),以此聚集數(shù)據(jù)點(diǎn)。用K均值算法實(shí)現(xiàn)圖像分割,K均值算法分割后的圖像如圖4所示。
圖4 K-means算法分割后的圖像
3.2.2 封閉式的摳圖算法
蒙古族服飾又稱蒙古袍,包括長袍、腰帶、靴子等,由于地域的不同,蒙古袍多以紅藍(lán)黃三原色構(gòu)成,蒙古袍上的花紋呈現(xiàn)一定的對(duì)稱性,特別是腰帶、紐扣,都呈現(xiàn)出一定的平行性,基于該特點(diǎn),本文采用交互式數(shù)字摳圖算法將圖像進(jìn)行分割。取任一張蒙古族服飾圖片部分,各像素點(diǎn)符合一定的線性關(guān)系,如圖5 所示。其中,三維坐標(biāo)系分別表示紅黃藍(lán)三原色,從圖中可以看出任意像素點(diǎn)可表示成一個(gè)線性關(guān)系。
圖5 像素分布三維圖
交互式數(shù)字摳圖是基于有限的用戶輸入從圖像中提取前景對(duì)象的過程,因?yàn)樗诿總€(gè)像素處都存在大量不適定,必須從一個(gè)單一的顏色測(cè)量中估計(jì)前景和背景顏色,以及前景不透明度。本文采用一種自然圖像摳圖的封閉形式解法[17]。對(duì)前景和背景顏色的局部平滑性進(jìn)行假設(shè),分析消去前景和背景顏色后,可以得到一個(gè)二次代價(jià)函數(shù)。通過解一個(gè)稀疏線性方程組來找到全局最優(yōu)的透明度。此外,從封閉形式公式中分析稀疏矩陣的特征向量來預(yù)測(cè)解的性質(zhì),這與譜圖像分割算法中使用的矩陣密切相關(guān)。
給定任意一張圖片,可看成是由前景圖與背景圖組成,圖中的任意像素點(diǎn)可表示成一個(gè)線性關(guān)系式:
其中,ai前景不透明度,F(xiàn)i表示第i個(gè)像素點(diǎn)的前景圖,Bi表示第i個(gè)像素點(diǎn)的背景圖。
對(duì)于三通道彩色圖片,將有三個(gè)方程七個(gè)未知數(shù)。方程組表示如公式(7)所示:
以上方程組有無窮多解。顯然,這是一個(gè)嚴(yán)重的欠約束問題,用戶交互需要提取一個(gè)良好的啞光。最新的方法期望用戶提供一個(gè)trimap 作為起點(diǎn),trimap 是一個(gè)粗略的手繪分割方法,將圖像分為三個(gè)區(qū)域:前景(白色)、背景(黑色)和未知(灰色)。這樣一個(gè)嚴(yán)重的欠擬合問題就容易解決,該方法提供F、B和α的初始值。然后通過迭代非線性優(yōu)化方法交替前景F、背景B以及α的估計(jì)。在實(shí)際中,為了取得好的實(shí)驗(yàn)結(jié)果,trimap中的未知區(qū)域必須盡可能小。當(dāng)α取值為0 或1,摳圖技術(shù)將是一種簡(jiǎn)單的圖像分割。
在這種具有挑戰(zhàn)性的情況下,需要大量的經(jīng)驗(yàn)和用戶交互來構(gòu)建一個(gè)能夠生成良好啞光效果的trimap。然而,trimap界面的另一個(gè)問題是用戶不能直接影響圖像最重要部分的啞光,混合像素。本文提出了一種從自然圖像中提取啞光的新方法。需要從前景F和背景顏色B的局部平滑度假設(shè)中推導(dǎo)出一個(gè)代價(jià)函數(shù),并將其表示為:
其中,ωj表示包含j個(gè)像素點(diǎn)的小窗口,上面的代價(jià)函數(shù)包含一個(gè)關(guān)于α的正則化項(xiàng)。為了保持?jǐn)?shù)值的穩(wěn)定性而設(shè)定。假設(shè)圖像在第j個(gè)窗口中是常量,在沒有對(duì)其進(jìn)行先驗(yàn)檢驗(yàn)之前,aj和bj就不能唯一地確定。當(dāng)aj=0 意味著a是恒定在j窗口中的。此外,通過研究稀疏矩陣的特征向量相關(guān)矩陣用于光譜圖像分割算法。同時(shí)提供有用的提示信息,能夠更好地把握涂鴉的位置放置。
采用兩種摳圖算法相結(jié)合的方法得到的圖如圖6所示。
圖6 結(jié)果圖
本實(shí)驗(yàn)使用Google開源深度學(xué)習(xí)框架TensorFlow,同時(shí)使用由JetBrains 打造的編譯器pycharm,提高了python 語言開發(fā)的效率,使用NVIDIA 英偉達(dá)GTX 1080TI顯卡加快程序運(yùn)行速度。
實(shí)驗(yàn)中對(duì)λ 進(jìn)行敏感度分析,平滑和擬合平衡系數(shù),實(shí)驗(yàn)表明λ 越大通過增白和著色處理后的結(jié)果更加準(zhǔn)確可靠,λ 越小生成的圖片將會(huì)被過度平滑,為了找到一個(gè)合適的λ,采用網(wǎng)格搜索法,將估計(jì)函數(shù)的參數(shù)通過交叉驗(yàn)證的方法進(jìn)行優(yōu)化來得到最優(yōu)的學(xué)習(xí)算法。
在風(fēng)格化之后對(duì)象邊界應(yīng)該保持不變,所以以風(fēng)格化和風(fēng)格化后的邊界圖與原始內(nèi)容圖的10個(gè)相似度作為標(biāo)準(zhǔn)進(jìn)行衡量,用全局邊緣檢測(cè)HED 方法進(jìn)行檢測(cè)邊界,應(yīng)用全局最佳ODS和單圖最佳OIS兩個(gè)標(biāo)準(zhǔn)的邊界檢測(cè)指標(biāo)。該指標(biāo)越高表明保存了原始圖像更多的內(nèi)容信息,如圖7所示。
圖7 λ 與檢測(cè)指標(biāo)的折線圖
但是ODS 用于圖像分割,具有從消光問題公式推導(dǎo)出的新的親和函數(shù)??梢酝ㄟ^求解稀疏S 來有效地找到成本的全局最小值S 線性方程組,對(duì)真實(shí)圖像和合成圖像的實(shí)驗(yàn)表明,該算法明顯優(yōu)于其他使用二次代價(jià)函數(shù)的算法。
實(shí)驗(yàn)中通過設(shè)置內(nèi)容與風(fēng)格的權(quán)衡參數(shù),平衡兩者之間的比重,保證生成的圖像在內(nèi)容不失真的情況下,達(dá)到最佳的風(fēng)格化效果。λ 的取值效果演示如圖8所示。
圖8 不同λ 值對(duì)風(fēng)格化影響結(jié)果對(duì)比圖
實(shí)驗(yàn)中設(shè)置不同的λ 值,得到不同效果的結(jié)果圖,從圖8中可以看出當(dāng)λ 取小于10-6的值時(shí),實(shí)驗(yàn)結(jié)果圖無明顯變化,實(shí)驗(yàn)結(jié)果圖效果差異很小,所以,根據(jù)實(shí)驗(yàn)結(jié)果,在接下來的訓(xùn)練中λ 取10-6,達(dá)到最佳實(shí)驗(yàn)效果。
根據(jù)輸入圖像分辨率的不同,如表1所示不同尺寸圖像在不同階段運(yùn)行時(shí)間對(duì)比表。
表1 運(yùn)行時(shí)間對(duì)比表 s
本實(shí)驗(yàn)計(jì)算了不同分辨率下該算法的平均運(yùn)行時(shí)間,從表1 中可以看出,隨著圖像分辨的增加訓(xùn)練時(shí)間總體呈上升趨勢(shì)。而且詳細(xì)統(tǒng)計(jì)了增白著色變換階段和平滑階段不同分辨率圖像所用時(shí)間。本實(shí)驗(yàn)提出的算法與目前最新的算法對(duì)比,雖然本實(shí)驗(yàn)有一個(gè)封閉形式的解,而Luan 等人的實(shí)驗(yàn)是依賴于非凸優(yōu)化問題的解,為了風(fēng)格化圖片,Luan等人解決了兩個(gè)非凸優(yōu)化問題,其中第一個(gè)優(yōu)化問題是第二個(gè)優(yōu)化問題的初始解,該方法優(yōu)于Luan等人的方法。
為了進(jìn)一步提高速度,可以使用引導(dǎo)圖像濾波的近似平滑步驟,它可以平滑基于內(nèi)容照片的PhotoWCT輸出圖。與原始算法相比,雖然采用圖像濾波近似平滑步長越長會(huì)導(dǎo)致性能略有下降,但速度增益較大,如表1所示。要風(fēng)格化1 024×512 分辨率圖像,約僅需1.64 s,比Luan 等人實(shí)現(xiàn)的650.4 s 快1 000 倍。為了量化由于近似導(dǎo)致的性能下降,進(jìn)行了額外的用戶研究來比較所提出的算法。
為了對(duì)圖像風(fēng)格進(jìn)行更精確的遷移,使用無監(jiān)督學(xué)習(xí)K 均值聚類方法與自然摳圖算法相結(jié)合對(duì)目標(biāo)對(duì)象的特定區(qū)域進(jìn)行分割,并將給定的紋理樣式只傳遞給分割后的區(qū)域。實(shí)現(xiàn)了特定對(duì)象區(qū)域的局部風(fēng)格遷移,這使得可以隨意改變給定圖像中對(duì)象的材質(zhì)。同時(shí),在模型優(yōu)化中,用PhotoWCT 代替WCT 變換,減少了結(jié)果圖的偽影,實(shí)驗(yàn)表明PhotoWCT 比WCT有更好的風(fēng)格化效果,圖9是本文方法與其他方法的對(duì)比圖。
圖9 實(shí)驗(yàn)對(duì)比圖
實(shí)驗(yàn)對(duì)比結(jié)果表明此風(fēng)格遷移算法有更強(qiáng)的魯棒性,而且研究的內(nèi)容新穎,運(yùn)行速度有顯著的提高,得到的結(jié)果圖更加地逼真,是本文的一個(gè)特點(diǎn),而不像其他現(xiàn)有方法有明顯的的繪畫痕跡。
本文在現(xiàn)有的圖像處理技術(shù)的基礎(chǔ)上,將蒙漢服飾圖像應(yīng)用到風(fēng)格遷移中,采用圖像語義分割與神經(jīng)風(fēng)格遷移相結(jié)合的方法,研究圖像風(fēng)格遷移在蒙漢服飾設(shè)計(jì)中的應(yīng)用,采用一種快速的風(fēng)格遷移算法,該算法使用損失函數(shù)的歸一化,在每次優(yōu)化迭代過程中,調(diào)整損失值,使之等于1,這樣可以獨(dú)立設(shè)置所選風(fēng)格層以及內(nèi)容層的損失權(quán)重,在優(yōu)化過程中,不斷調(diào)整權(quán)重。最后,確定風(fēng)格與內(nèi)容之間的相對(duì)最佳權(quán)重。此外,本實(shí)驗(yàn)將蒙漢服飾應(yīng)用到風(fēng)格遷移中,是非物質(zhì)文化遺產(chǎn)的發(fā)揚(yáng)和傳承,有非常重要的研究意義。
本文在研究過程中存在很多的不足之處,值得進(jìn)一步研究,例如在分割實(shí)現(xiàn)過程中,存在訓(xùn)練集差異較大的圖片,分割能力會(huì)大幅減弱的問題,可以考慮對(duì)圖像預(yù)處理方法進(jìn)行改進(jìn),使得圖像在輸入模型之前能夠自適應(yīng),根據(jù)與訓(xùn)練集的差異進(jìn)行調(diào)整;本文采用不同的方法對(duì)語義分割進(jìn)行了研究,并將其應(yīng)用到具體的場(chǎng)景中,初步挖掘語義分割的應(yīng)用價(jià)值,還有待進(jìn)一步挖掘它的應(yīng)用潛力。此外,用到VGG19網(wǎng)絡(luò)提取圖像特征,該方法參數(shù)較多,占用內(nèi)存空間較大,可以改用其他的提取特征的方法,減少參數(shù)和占用空間。風(fēng)格遷移的應(yīng)用場(chǎng)景很多,例如AI換臉、漫畫遷移、字體風(fēng)格遷移、AI藝術(shù)創(chuàng)作、電影特效等等,這些場(chǎng)景都有待進(jìn)一步深入研究。