基于語義分割的圖像風(fēng)格遷移技術(shù)研究

2020-12-26 02:57:16李美麗楊傳穎

計(jì)算機(jī)工程與應(yīng)用 2020年24期

李美麗，楊傳穎，石寶

內(nèi)蒙古工業(yè)大學(xué) 信息工程學(xué)院，呼和浩特010100

1 引言

計(jì)算機(jī)圖形學(xué)是計(jì)算機(jī)科學(xué)領(lǐng)域的一個(gè)重要分支，隨著計(jì)算機(jī)圖形學(xué)方面的硬件與軟件的不斷發(fā)展和改進(jìn)，將圖形渲染技術(shù)分為真實(shí)感渲染技術(shù)與非真實(shí)感渲染技術(shù)，真實(shí)感渲染技術(shù)忠實(shí)地反映客觀事物的外觀和細(xì)節(jié)，更適合表達(dá)剛性曲線，而非真實(shí)感繪制會(huì)根據(jù)圖像內(nèi)容自適應(yīng)區(qū)分前景和背景，更加適合描述自然現(xiàn)象，它們的研究方法和對(duì)象既相互補(bǔ)充又相互交叉。

深度學(xué)習(xí)以其能快速提取高級(jí)抽象特征的優(yōu)勢(shì)被應(yīng)用于提取圖像的風(fēng)格化特征和內(nèi)容特征，成為圖像風(fēng)格遷移領(lǐng)域的主流技術(shù)。實(shí)際上，圖像風(fēng)格遷移是一種特殊的遷移學(xué)習(xí)，是一種借助計(jì)算機(jī)技術(shù)處理圖像的紋理、顏色、風(fēng)格、線條等信息來改變圖像效果的技術(shù)。它是將一張藝術(shù)作品圖片的風(fēng)格轉(zhuǎn)移到另一張圖片上，最后生成一張帶有某種風(fēng)格的內(nèi)容圖片。為了模擬藝術(shù)家的這種表現(xiàn)力，引入圖像分割方法，將風(fēng)格轉(zhuǎn)化進(jìn)行約束，由于蒙古族服飾顏色多為紅黃藍(lán)三原色，所以將其約束到彩色空間變換，對(duì)特定區(qū)域進(jìn)行風(fēng)格遷移，提升了風(fēng)格遷移后輸出圖的效果。

神經(jīng)風(fēng)格遷移的三個(gè)主要應(yīng)用領(lǐng)域是媒體社交、輔助用戶創(chuàng)作和游戲場(chǎng)景渲染領(lǐng)域，風(fēng)格遷移技術(shù)來源于歷史悠久的風(fēng)格化繪制技術(shù)。風(fēng)格遷移技術(shù)在藝術(shù)創(chuàng)作中，可以將大師的精美藝術(shù)作品風(fēng)格遷移到其他圖片上，使得結(jié)果圖帶有了大師的風(fēng)范。這一智能創(chuàng)作應(yīng)用在游戲制作中，對(duì)游戲動(dòng)畫人物塑造和背景渲染都有極大的幫助。如果將帶有濃烈民族文化特征的圖片進(jìn)行遷移，也是對(duì)物質(zhì)文化遺產(chǎn)和非物質(zhì)文化遺產(chǎn)的繼承和弘揚(yáng)。

在神經(jīng)風(fēng)格遷移算法之前的風(fēng)格遷移方法有基于筆劃的渲染、基于圖像類比的方法、圖像濾波方法和紋理合成方法等，這些傳統(tǒng)的風(fēng)格遷移方法有一個(gè)共同的思想就是借助局部特征的統(tǒng)計(jì)模型來描述風(fēng)格，這極大地限制了在實(shí)際中的應(yīng)用。

2015年Gatys等人[1]開創(chuàng)性地提出了一種神經(jīng)藝術(shù)風(fēng)格遷移算法，以簡(jiǎn)潔明了的方式闡明了神經(jīng)網(wǎng)絡(luò)的風(fēng)格化思想，無需繁瑣的手工建模，就能生成新穎風(fēng)格化圖像。2016年相繼發(fā)表了另一篇論文[2]，該論文進(jìn)一步闡述風(fēng)格遷移的方法，引入了白噪聲圖片，通過借助VGG19 網(wǎng)絡(luò)提取的輸入圖像的特征進(jìn)行重建圖像，使得圖像的風(fēng)格和內(nèi)容的分離和合成成為可能。Johnson等人[3]受到Gatys 等人的研究成果的影響，提出了一種實(shí)時(shí)的快速神經(jīng)風(fēng)格遷移方法，該方法用感知損失函數(shù)來替代逐像素差距的損失函數(shù)來訓(xùn)練前饋網(wǎng)絡(luò)，基于有優(yōu)化的方式對(duì)比，得到三個(gè)數(shù)量級(jí)的提速。Dumoulin 等人[4]在Johnson的基礎(chǔ)上提出了更靈活的風(fēng)格遷移模型，采用多個(gè)風(fēng)格共用一個(gè)模型的方式，緩解了模型存儲(chǔ)耗費(fèi)空間大的問題。Li等人[5]將生成的馬爾科夫隨機(jī)場(chǎng)作用在深度卷積神經(jīng)網(wǎng)絡(luò)上進(jìn)行圖像合成任務(wù)，該任務(wù)增強(qiáng)了Gatys等人的框架，通過用維持圖像風(fēng)格的MRF正則項(xiàng)來替代Gram 矩陣匹配。Ulyanov 等人[6]提出了另一種反饋卷積神經(jīng)網(wǎng)絡(luò)，應(yīng)用多層次的網(wǎng)絡(luò)結(jié)構(gòu)，產(chǎn)生大量任意大小的相同紋理，將給定照片的藝術(shù)風(fēng)格遷移到任意圖像上，引入生成網(wǎng)絡(luò)減少迭代次數(shù)，提高了訓(xùn)練速度，縮短了圖片生成時(shí)間，對(duì)局部細(xì)節(jié)的處理優(yōu)于之前的方法，然而由于風(fēng)格圖片是真實(shí)照片，存在內(nèi)容不匹配、扭曲等問題，使得遷移效果不佳。2017年Luan等人[7]提出了一種深度照片風(fēng)格遷移方法，提出局部仿射變換正則項(xiàng)，用此方法防止生成的真實(shí)照片扭曲失真，解決了生成圖像扭曲不匹配問題。Liao等人[8]提出了一種新的視覺屬性遷移方法。該方法針對(duì)的是兩張具有不同內(nèi)容卻有相似語義的圖像，利用高層抽象特征建立起兩張圖片的語義對(duì)應(yīng)關(guān)系，與之前的算法不同的是，提出深度圖像類比的方法，該方法適用于輸入圖像是真實(shí)照片，輸出也是真實(shí)照片的任務(wù)，即達(dá)到像素級(jí)別的遷移，進(jìn)而使用一種由粗到細(xì)的策略建立最近鄰域并生成風(fēng)格化結(jié)果。Zhu 等人[9]針對(duì)非成對(duì)的數(shù)據(jù)集，提出了一種通用型的圖像到圖像的訓(xùn)練模式，并且提出了結(jié)合循環(huán)一致?lián)p失和對(duì)抗網(wǎng)絡(luò)損失進(jìn)行模型的訓(xùn)練，此種方法解決了沒有成對(duì)數(shù)據(jù)集的問題，適用性更廣。2018年Chelaramani 等人[10]提出一種可以在句子與圖像之間進(jìn)行跨模態(tài)的新穎風(fēng)格遷移方法。建立在圖像到圖像遷移上的創(chuàng)新機(jī)制上，將整體心理圖像整理成一個(gè)句子，并以有意義的方式自動(dòng)傳遞給特定的圖像。2019 年Nguyen等人[11]重新定義了多模態(tài)，并引入了一種簡(jiǎn)單的多模態(tài)和任意風(fēng)格遷移方法，通過向單峰方法注入噪聲來實(shí)現(xiàn)多模態(tài)和任意風(fēng)格傳遞的方法。這種新穎的方法不需要任何可訓(xùn)練的參數(shù)，并且可以容易地應(yīng)用到具有單獨(dú)的風(fēng)格編碼子網(wǎng)的任何單峰式傳輸方法的文獻(xiàn)中。

目前存在的方法都是只針對(duì)特定數(shù)據(jù)采取特定方法的遷移技術(shù)，不具一般性，與現(xiàn)有的方法相比，本文提出的方法在對(duì)任意樣式進(jìn)行泛化和可視化處理的同時(shí)，能夠有效地進(jìn)行前反饋方式的風(fēng)格遷移，不需要學(xué)習(xí)每一個(gè)單獨(dú)的風(fēng)格，通過訓(xùn)練一種用于圖形重建的自動(dòng)編碼器來進(jìn)行圖像生成過程，將前饋通道中的增白和著色變換結(jié)合起來，以匹配內(nèi)容和風(fēng)格特征之間的統(tǒng)計(jì)分布和相關(guān)性。

2 數(shù)據(jù)預(yù)處理

數(shù)據(jù)增廣是一種解決圖像數(shù)據(jù)不足的常用方法。通過對(duì)訓(xùn)練圖像做一系列隨機(jī)改變，產(chǎn)生相似但又不同的訓(xùn)練樣本，從而擴(kuò)大訓(xùn)練數(shù)據(jù)集的規(guī)模，由于采集的數(shù)據(jù)圖片大概為582 張。通過數(shù)據(jù)增廣方法增加到1 080張，大大降低模型對(duì)某些屬性的依賴，提高了模型的泛化能力。主要用到的數(shù)據(jù)增廣方法有縮放變換、裁剪、變換顏色、旋轉(zhuǎn)、平移等變換，其中部分結(jié)果如圖1所示。

圖1 預(yù)處理后的圖

3 蒙古族服飾風(fēng)格遷移方法

3.1 風(fēng)格遷移方法

神經(jīng)網(wǎng)絡(luò)以其能快速提取高級(jí)抽象特征的優(yōu)勢(shì)，被廣泛應(yīng)用于提取圖像特征，成為圖像風(fēng)格遷移領(lǐng)域的基本技術(shù)。風(fēng)格遷移的基本思想很簡(jiǎn)單，在保留目標(biāo)圖像內(nèi)容的基礎(chǔ)上，將另一張圖片風(fēng)格應(yīng)用在目標(biāo)圖像上，生成的風(fēng)格化圖像具有原來內(nèi)容圖片的內(nèi)容的同時(shí)帶有風(fēng)格圖片的風(fēng)格，本文是在圖像風(fēng)格遷移的基礎(chǔ)上，進(jìn)一步地要求輸入圖像均為高清的、具有圖像真實(shí)細(xì)節(jié)的圖像，尤其是風(fēng)格圖像，而不是一些具有明顯藝術(shù)家風(fēng)格的風(fēng)格圖像，所合成的圖像結(jié)合了內(nèi)容圖像的真實(shí)細(xì)節(jié)和風(fēng)格圖像的風(fēng)格。

圖像風(fēng)格遷移研究步驟大體分為兩部分，第一部分提取圖像的內(nèi)容和風(fēng)格特征，第二部分將兩種特征融合生成目標(biāo)圖像。然而在已有的風(fēng)格遷移研究結(jié)果中，結(jié)果圖存在不同程度的扭曲和失真，基于這個(gè)棘手問題，為了保證圖像的保真性，提出了一種優(yōu)化過程中目標(biāo)函數(shù)的圖像寫實(shí)正則化參數(shù)項(xiàng)，將這個(gè)約束表示成一個(gè)完全可微的參數(shù)項(xiàng)，以此約束重構(gòu)圖像用輸入圖像的局部仿射色彩變換防止扭曲，保證在輸入圖像映射到輸出圖像的過程中，點(diǎn)、線、面都不發(fā)生改變，盡可能減少內(nèi)容信息失真，成功抑制生成圖像扭曲，在各種各樣的場(chǎng)景中生成了視覺效果相對(duì)較佳的真實(shí)風(fēng)格化圖像。

假設(shè)給定一張內(nèi)容圖片C和一張風(fēng)格圖片S，采用目前應(yīng)用廣泛的編碼-解碼器結(jié)構(gòu)，使用VGG19 網(wǎng)絡(luò)作為編碼器提取圖片的內(nèi)容和風(fēng)格特征，借助已經(jīng)訓(xùn)練好的VGG19 網(wǎng)絡(luò)模型進(jìn)行特征提取，編碼器權(quán)重使用由之前ImageNet 網(wǎng)絡(luò)訓(xùn)練出的權(quán)重，此處借助遷移學(xué)習(xí)中的權(quán)重遷移方法，大大減少了工作量。同時(shí)訓(xùn)練一個(gè)與之對(duì)應(yīng)的解碼器，對(duì)圖片的內(nèi)容和風(fēng)格進(jìn)行重建。

對(duì)于多層次的風(fēng)格遷移，分別為VGG19的Relu_X_1層訓(xùn)練五個(gè)重構(gòu)解碼器，每個(gè)解碼器的架構(gòu)對(duì)稱于VGG19 網(wǎng)絡(luò)架構(gòu)，該技術(shù)的原理圖如圖2所示。

VGG19 網(wǎng)絡(luò)作為一個(gè)特征提取編碼器，由卷積層、池化層、全連接層組成。分別選用conv4_2作為內(nèi)容表示，conv1_1、conv2_1、conv3_1、conv4_1、conv5_1 作為風(fēng)格表示。同時(shí)訓(xùn)練一個(gè)與編碼器對(duì)稱的解碼器，目的是將VGG19 網(wǎng)絡(luò)提取的特征轉(zhuǎn)化為原圖像，其本質(zhì)是一個(gè)圖像重建任務(wù)，經(jīng)過大量實(shí)驗(yàn)不斷地調(diào)整編碼器和解碼器以達(dá)到最優(yōu)。為了對(duì)不同層次提取的特征進(jìn)行評(píng)估，選用VGG19 網(wǎng)絡(luò)的五個(gè)層的特征映射和相對(duì)應(yīng)的五個(gè)解碼器。采用像素重構(gòu)損失和特征損失對(duì)輸入圖像進(jìn)行重構(gòu)，如下式所示：

Iin表示輸入的圖像，Iout表示重構(gòu)的輸出圖像，Φ表示使用預(yù)訓(xùn)練模型VGG19 編碼器提取到的圖特征表示，λ是兩個(gè)損失函數(shù)的平衡參數(shù)。

為了更好地進(jìn)行圖像風(fēng)格遷移，將增白和著色變換WCT 應(yīng)用到內(nèi)容特征層，使內(nèi)容特征的協(xié)方差矩陣與風(fēng)格特征的協(xié)方差矩陣進(jìn)行匹配，最后將轉(zhuǎn)換后的特征向前反饋，輸入到下面的解碼器層，從而獲得風(fēng)格化后的圖像。

通過最小化L2范數(shù)的像素重構(gòu)損失和特征感知損失之和來訓(xùn)練解碼器，采用多層次風(fēng)格化策略，在WCT[12]中將PhotoWCT 應(yīng)用于不同層次的VGG19 特征，如圖3所示。

圖2 風(fēng)格遷移架構(gòu)圖

圖3 優(yōu)化模型對(duì)比圖

PhotoWCT 和WCT 共享相同的編碼器架構(gòu)和映射步驟。在PhotoWCT 中，用上池化層替換上采樣層。上池化層是與池化掩碼一起使用，該掩碼記錄在對(duì)應(yīng)的池化層[13]中的每個(gè)最大池化區(qū)域上攜帶最大值的位置。通過比較WCT 和PhotoWCT 的風(fēng)格化結(jié)果。PhotoWCT 風(fēng)格化圖像具有更少的結(jié)構(gòu)偽影。同時(shí)在實(shí)驗(yàn)部分進(jìn)行了一項(xiàng)用戶研究，以定量驗(yàn)證PhotoWCT通常比WCT 有更好的風(fēng)格化效果。

模型優(yōu)化中，編碼層的構(gòu)建結(jié)構(gòu)不進(jìn)行修改，只是在保存信息方面，上池化處理比上采樣處理能更好保存詳細(xì)信息，所以用上池化代替上采樣，減少了特征映射的空間信息的丟失，解碼器中的上采樣特征映射無法恢復(fù)輸入圖像的詳細(xì)結(jié)構(gòu)，也就是說，需要將丟失的空間信息傳遞給解碼器，以便能夠重構(gòu)圖像的詳細(xì)細(xì)節(jié)，圖像增白和著色變換功能表示為如下公式：

其中，是一個(gè)包含上采樣的解碼器，通過訓(xùn)練解碼器來完成圖像重建，通過WCT 得到的結(jié)果圖直線邊界呈現(xiàn)鋸齒狀的模糊，使用圖像的增白跟著色變換WCT 避免此問題的發(fā)生。

對(duì)風(fēng)格化后存在的偽影問題進(jìn)行平滑調(diào)整，首先將所有像素表示為圖中的節(jié)點(diǎn)，并定義了一個(gè)關(guān)聯(lián)矩陣：

其中，N表示相似像素點(diǎn)的個(gè)數(shù)，定義平滑項(xiàng)和濾波項(xiàng)，建立模型優(yōu)化這兩個(gè)目標(biāo)項(xiàng)，將問題轉(zhuǎn)化為一個(gè)優(yōu)化問題：

其中，yi表示PhotoWCT 風(fēng)格化結(jié)果Y的顏色像素，ri期望的平滑輸出結(jié)果R的顏色像素，變量dii=是W 的度矩陣D 中的對(duì)角線元素，即D=diag{d11,d22,…,dNN}。在公式（4）中，λ控制著這兩個(gè)術(shù)語的平衡。

上述公式是基于圖的排序算法[14-15]得到的。在排序算法中，Y是一個(gè)二進(jìn)制輸入，其中每個(gè)元素指示某個(gè)特定項(xiàng)是否為查詢，具體yi=1 表示yi是一個(gè)查詢，否則yi=0。最優(yōu)解R是所有項(xiàng)目的排序值。此方法中，將Y設(shè)為PhotoWCT 樣式化的結(jié)果?；趯?duì)像素的相似性，R是Y的最優(yōu)解。與最先進(jìn)的方法[14]對(duì)比，本文算法利用可用的語義標(biāo)簽映射獲得更好的風(fēng)格化結(jié)果。當(dāng)進(jìn)行PhotoWCT 風(fēng)格化時(shí)，對(duì)于每個(gè)語義標(biāo)簽，分別利用內(nèi)容和風(fēng)格圖片中具有相同標(biāo)簽的圖像區(qū)域的特征，計(jì)算一對(duì)投影矩陣Pc和Ps。用來對(duì)這些圖像區(qū)域進(jìn)行風(fēng)格化。使用語義標(biāo)簽映射，可以更準(zhǔn)確地執(zhí)行內(nèi)容和風(fēng)格匹配。該算法不需要精確的語義標(biāo)記。獲得良好的風(fēng)格化效果圖。

3.2 圖像語義分割

圖像語義分割是一門交叉學(xué)科，涉及模式識(shí)別、計(jì)算機(jī)視覺、圖像分類等領(lǐng)域，在視頻檢測(cè)、工業(yè)自動(dòng)化、虛擬現(xiàn)實(shí)VR等不同領(lǐng)域有廣泛的應(yīng)用，語義分割是為圖像像素標(biāo)記一個(gè)預(yù)先定義好的語義標(biāo)簽，在此基礎(chǔ)上，在圖像的目標(biāo)對(duì)象上加入語義信息，能夠根據(jù)圖像本身的紋理、場(chǎng)景和其他高層語義特征來得到圖像本身需要表達(dá)的信息，具有實(shí)用價(jià)值。本文采用的深度照片風(fēng)格遷移算法通過對(duì)內(nèi)容圖像進(jìn)行語義分割的結(jié)果來指導(dǎo)風(fēng)格遷移的過程，當(dāng)算法精確地識(shí)別出像素的前背景時(shí)，就可以更精準(zhǔn)地進(jìn)行分割。

語義分割方法大體分為兩類，基于區(qū)域分類的分割方法和基于像素分類的分割方法?；趨^(qū)域的分割方法根據(jù)區(qū)域生成算法和圖像塊劃分標(biāo)準(zhǔn)的不同，將其分為基于候選區(qū)域方法和基于分割掩膜方法；基于像素分類的圖像語義分割方法按照其學(xué)習(xí)方式的不同，可以分為全監(jiān)督學(xué)習(xí)圖像語義分割方法、弱監(jiān)督學(xué)習(xí)圖像語義分割方法、無監(jiān)督學(xué)習(xí)圖像語義分割方法。

借助圖像的語義信息將圖像進(jìn)行更加準(zhǔn)確地分割。圖像分割是圖像處理到圖像分析的關(guān)鍵步驟，圖像分割是指根據(jù)灰度、顏色、紋理和形狀等特征把圖像劃分成若干個(gè)互不交疊的區(qū)域，并使這些特征在統(tǒng)一區(qū)域內(nèi)呈現(xiàn)出相似性，而在不同區(qū)域間呈現(xiàn)出明顯的差異性。圖像分割領(lǐng)域研究人員提出了很多的研究方法[15]，較為普遍的方法有邊緣分割方法、閾值分割方法、區(qū)域生長方法、區(qū)域的分裂合并方法、直方圖分割方法以及結(jié)合特定理論工具的分割方法。但是并不存在一種廣泛適用的分割方法。

本文針對(duì)蒙漢服飾文化元素的遷移，采用特定空間聚類方法進(jìn)行圖像分割，將圖像空間中的像素用對(duì)應(yīng)的特征空間點(diǎn)表示，根據(jù)它們?cè)谔卣骺臻g的聚集對(duì)特征空間進(jìn)行分割，然后將它們映射到原圖像空間，得到分割結(jié)果。采用K均值聚類算法與自然圖像摳圖相結(jié)合的技術(shù)，先設(shè)定K個(gè)初始類均值，然后將每一個(gè)像素劃分到離它最近的類，并且計(jì)算新的類均值，迭代執(zhí)行前面的步驟直到新舊類之差小于某一閾值。

3.2.1 K 均值算法

K均值算法是一種常用的無監(jiān)督的聚類算法，已在圖像模式識(shí)別中得到了廣泛的應(yīng)用，K均值算法[16]的基本思想是通過找到K個(gè)聚類的中心，同時(shí)根據(jù)數(shù)據(jù)點(diǎn)與各中心的距離的大小，對(duì)每個(gè)質(zhì)心計(jì)算質(zhì)心與數(shù)據(jù)點(diǎn)之間的距離將數(shù)據(jù)點(diǎn)分配到距其最近的簇，對(duì)每一個(gè)簇，計(jì)算簇中所有點(diǎn)的均值并將均值作為質(zhì)心，重復(fù)迭代直到質(zhì)心不變或者變化很小時(shí)結(jié)束，最后將數(shù)據(jù)點(diǎn)全部進(jìn)行了歸類?；疽笫窃跀?shù)據(jù)點(diǎn)構(gòu)成的一個(gè)聚類中，聚類內(nèi)部點(diǎn)之間的距離應(yīng)該小于數(shù)據(jù)點(diǎn)與聚類外部的點(diǎn)之間的距離。也就是對(duì)目標(biāo)函數(shù)的優(yōu)化，直到將數(shù)據(jù)點(diǎn)全部進(jìn)行了歸類。目標(biāo)函數(shù)表示如下：

為每個(gè)數(shù)據(jù)點(diǎn)都分配一個(gè)權(quán)重ω(p)，設(shè)k為聚類的數(shù)目，πk表示第k個(gè)聚類，φ表示將數(shù)據(jù)點(diǎn)映射到高維空間，通過迭代的方式最小化目標(biāo)函數(shù)，以此聚集數(shù)據(jù)點(diǎn)。用K均值算法實(shí)現(xiàn)圖像分割，K均值算法分割后的圖像如圖4所示。

圖4 K-means算法分割后的圖像

3.2.2 封閉式的摳圖算法

蒙古族服飾又稱蒙古袍，包括長袍、腰帶、靴子等，由于地域的不同，蒙古袍多以紅藍(lán)黃三原色構(gòu)成，蒙古袍上的花紋呈現(xiàn)一定的對(duì)稱性，特別是腰帶、紐扣，都呈現(xiàn)出一定的平行性，基于該特點(diǎn)，本文采用交互式數(shù)字摳圖算法將圖像進(jìn)行分割。取任一張蒙古族服飾圖片部分，各像素點(diǎn)符合一定的線性關(guān)系，如圖5 所示。其中，三維坐標(biāo)系分別表示紅黃藍(lán)三原色，從圖中可以看出任意像素點(diǎn)可表示成一個(gè)線性關(guān)系。

圖5 像素分布三維圖

交互式數(shù)字摳圖是基于有限的用戶輸入從圖像中提取前景對(duì)象的過程，因?yàn)樗诿總€(gè)像素處都存在大量不適定，必須從一個(gè)單一的顏色測(cè)量中估計(jì)前景和背景顏色，以及前景不透明度。本文采用一種自然圖像摳圖的封閉形式解法[17]。對(duì)前景和背景顏色的局部平滑性進(jìn)行假設(shè)，分析消去前景和背景顏色后，可以得到一個(gè)二次代價(jià)函數(shù)。通過解一個(gè)稀疏線性方程組來找到全局最優(yōu)的透明度。此外，從封閉形式公式中分析稀疏矩陣的特征向量來預(yù)測(cè)解的性質(zhì)，這與譜圖像分割算法中使用的矩陣密切相關(guān)。

給定任意一張圖片，可看成是由前景圖與背景圖組成，圖中的任意像素點(diǎn)可表示成一個(gè)線性關(guān)系式：

其中，ai前景不透明度，F(xiàn)i表示第i個(gè)像素點(diǎn)的前景圖，Bi表示第i個(gè)像素點(diǎn)的背景圖。

對(duì)于三通道彩色圖片，將有三個(gè)方程七個(gè)未知數(shù)。方程組表示如公式（7）所示：

以上方程組有無窮多解。顯然，這是一個(gè)嚴(yán)重的欠約束問題，用戶交互需要提取一個(gè)良好的啞光。最新的方法期望用戶提供一個(gè)trimap 作為起點(diǎn)，trimap 是一個(gè)粗略的手繪分割方法，將圖像分為三個(gè)區(qū)域：前景（白色）、背景（黑色）和未知（灰色）。這樣一個(gè)嚴(yán)重的欠擬合問題就容易解決，該方法提供F、B和α的初始值。然后通過迭代非線性優(yōu)化方法交替前景F、背景B以及α的估計(jì)。在實(shí)際中，為了取得好的實(shí)驗(yàn)結(jié)果，trimap中的未知區(qū)域必須盡可能小。當(dāng)α取值為0 或1，摳圖技術(shù)將是一種簡(jiǎn)單的圖像分割。

在這種具有挑戰(zhàn)性的情況下，需要大量的經(jīng)驗(yàn)和用戶交互來構(gòu)建一個(gè)能夠生成良好啞光效果的trimap。然而，trimap界面的另一個(gè)問題是用戶不能直接影響圖像最重要部分的啞光，混合像素。本文提出了一種從自然圖像中提取啞光的新方法。需要從前景F和背景顏色B的局部平滑度假設(shè)中推導(dǎo)出一個(gè)代價(jià)函數(shù)，并將其表示為：

其中，ωj表示包含j個(gè)像素點(diǎn)的小窗口，上面的代價(jià)函數(shù)包含一個(gè)關(guān)于α的正則化項(xiàng)。為了保持?jǐn)?shù)值的穩(wěn)定性而設(shè)定。假設(shè)圖像在第j個(gè)窗口中是常量，在沒有對(duì)其進(jìn)行先驗(yàn)檢驗(yàn)之前，aj和bj就不能唯一地確定。當(dāng)aj=0 意味著a是恒定在j窗口中的。此外，通過研究稀疏矩陣的特征向量相關(guān)矩陣用于光譜圖像分割算法。同時(shí)提供有用的提示信息，能夠更好地把握涂鴉的位置放置。

采用兩種摳圖算法相結(jié)合的方法得到的圖如圖6所示。

圖6 結(jié)果圖

4 實(shí)驗(yàn)結(jié)果與分析

本實(shí)驗(yàn)使用Google開源深度學(xué)習(xí)框架TensorFlow，同時(shí)使用由JetBrains 打造的編譯器pycharm，提高了python 語言開發(fā)的效率，使用NVIDIA 英偉達(dá)GTX 1080TI顯卡加快程序運(yùn)行速度。

實(shí)驗(yàn)中對(duì)λ 進(jìn)行敏感度分析，平滑和擬合平衡系數(shù)，實(shí)驗(yàn)表明λ 越大通過增白和著色處理后的結(jié)果更加準(zhǔn)確可靠，λ 越小生成的圖片將會(huì)被過度平滑，為了找到一個(gè)合適的λ，采用網(wǎng)格搜索法，將估計(jì)函數(shù)的參數(shù)通過交叉驗(yàn)證的方法進(jìn)行優(yōu)化來得到最優(yōu)的學(xué)習(xí)算法。

在風(fēng)格化之后對(duì)象邊界應(yīng)該保持不變，所以以風(fēng)格化和風(fēng)格化后的邊界圖與原始內(nèi)容圖的10個(gè)相似度作為標(biāo)準(zhǔn)進(jìn)行衡量，用全局邊緣檢測(cè)HED 方法進(jìn)行檢測(cè)邊界，應(yīng)用全局最佳ODS和單圖最佳OIS兩個(gè)標(biāo)準(zhǔn)的邊界檢測(cè)指標(biāo)。該指標(biāo)越高表明保存了原始圖像更多的內(nèi)容信息，如圖7所示。

圖7 λ 與檢測(cè)指標(biāo)的折線圖

但是ODS 用于圖像分割，具有從消光問題公式推導(dǎo)出的新的親和函數(shù)?？梢酝ㄟ^求解稀疏S 來有效地找到成本的全局最小值S 線性方程組，對(duì)真實(shí)圖像和合成圖像的實(shí)驗(yàn)表明，該算法明顯優(yōu)于其他使用二次代價(jià)函數(shù)的算法。

實(shí)驗(yàn)中通過設(shè)置內(nèi)容與風(fēng)格的權(quán)衡參數(shù)，平衡兩者之間的比重，保證生成的圖像在內(nèi)容不失真的情況下，達(dá)到最佳的風(fēng)格化效果。λ 的取值效果演示如圖8所示。

圖8 不同λ 值對(duì)風(fēng)格化影響結(jié)果對(duì)比圖

實(shí)驗(yàn)中設(shè)置不同的λ 值，得到不同效果的結(jié)果圖，從圖8中可以看出當(dāng)λ 取小于10-6的值時(shí)，實(shí)驗(yàn)結(jié)果圖無明顯變化，實(shí)驗(yàn)結(jié)果圖效果差異很小，所以，根據(jù)實(shí)驗(yàn)結(jié)果，在接下來的訓(xùn)練中λ 取10-6，達(dá)到最佳實(shí)驗(yàn)效果。

根據(jù)輸入圖像分辨率的不同，如表1所示不同尺寸圖像在不同階段運(yùn)行時(shí)間對(duì)比表。

表1 運(yùn)行時(shí)間對(duì)比表 s

本實(shí)驗(yàn)計(jì)算了不同分辨率下該算法的平均運(yùn)行時(shí)間，從表1 中可以看出，隨著圖像分辨的增加訓(xùn)練時(shí)間總體呈上升趨勢(shì)。而且詳細(xì)統(tǒng)計(jì)了增白著色變換階段和平滑階段不同分辨率圖像所用時(shí)間。本實(shí)驗(yàn)提出的算法與目前最新的算法對(duì)比，雖然本實(shí)驗(yàn)有一個(gè)封閉形式的解，而Luan 等人的實(shí)驗(yàn)是依賴于非凸優(yōu)化問題的解，為了風(fēng)格化圖片，Luan等人解決了兩個(gè)非凸優(yōu)化問題，其中第一個(gè)優(yōu)化問題是第二個(gè)優(yōu)化問題的初始解，該方法優(yōu)于Luan等人的方法。

為了進(jìn)一步提高速度，可以使用引導(dǎo)圖像濾波的近似平滑步驟，它可以平滑基于內(nèi)容照片的PhotoWCT輸出圖。與原始算法相比，雖然采用圖像濾波近似平滑步長越長會(huì)導(dǎo)致性能略有下降，但速度增益較大，如表1所示。要風(fēng)格化1 024×512 分辨率圖像，約僅需1.64 s，比Luan 等人實(shí)現(xiàn)的650.4 s 快1 000 倍。為了量化由于近似導(dǎo)致的性能下降，進(jìn)行了額外的用戶研究來比較所提出的算法。

為了對(duì)圖像風(fēng)格進(jìn)行更精確的遷移，使用無監(jiān)督學(xué)習(xí)K 均值聚類方法與自然摳圖算法相結(jié)合對(duì)目標(biāo)對(duì)象的特定區(qū)域進(jìn)行分割，并將給定的紋理樣式只傳遞給分割后的區(qū)域。實(shí)現(xiàn)了特定對(duì)象區(qū)域的局部風(fēng)格遷移，這使得可以隨意改變給定圖像中對(duì)象的材質(zhì)。同時(shí)，在模型優(yōu)化中，用PhotoWCT 代替WCT 變換，減少了結(jié)果圖的偽影，實(shí)驗(yàn)表明PhotoWCT 比WCT有更好的風(fēng)格化效果，圖9是本文方法與其他方法的對(duì)比圖。

圖9 實(shí)驗(yàn)對(duì)比圖

實(shí)驗(yàn)對(duì)比結(jié)果表明此風(fēng)格遷移算法有更強(qiáng)的魯棒性，而且研究的內(nèi)容新穎，運(yùn)行速度有顯著的提高，得到的結(jié)果圖更加地逼真，是本文的一個(gè)特點(diǎn)，而不像其他現(xiàn)有方法有明顯的的繪畫痕跡。

5 總結(jié)與展望

本文在現(xiàn)有的圖像處理技術(shù)的基礎(chǔ)上，將蒙漢服飾圖像應(yīng)用到風(fēng)格遷移中，采用圖像語義分割與神經(jīng)風(fēng)格遷移相結(jié)合的方法，研究圖像風(fēng)格遷移在蒙漢服飾設(shè)計(jì)中的應(yīng)用，采用一種快速的風(fēng)格遷移算法，該算法使用損失函數(shù)的歸一化，在每次優(yōu)化迭代過程中，調(diào)整損失值，使之等于1，這樣可以獨(dú)立設(shè)置所選風(fēng)格層以及內(nèi)容層的損失權(quán)重，在優(yōu)化過程中，不斷調(diào)整權(quán)重。最后，確定風(fēng)格與內(nèi)容之間的相對(duì)最佳權(quán)重。此外，本實(shí)驗(yàn)將蒙漢服飾應(yīng)用到風(fēng)格遷移中，是非物質(zhì)文化遺產(chǎn)的發(fā)揚(yáng)和傳承，有非常重要的研究意義。

本文在研究過程中存在很多的不足之處，值得進(jìn)一步研究，例如在分割實(shí)現(xiàn)過程中，存在訓(xùn)練集差異較大的圖片，分割能力會(huì)大幅減弱的問題，可以考慮對(duì)圖像預(yù)處理方法進(jìn)行改進(jìn)，使得圖像在輸入模型之前能夠自適應(yīng)，根據(jù)與訓(xùn)練集的差異進(jìn)行調(diào)整；本文采用不同的方法對(duì)語義分割進(jìn)行了研究，并將其應(yīng)用到具體的場(chǎng)景中，初步挖掘語義分割的應(yīng)用價(jià)值，還有待進(jìn)一步挖掘它的應(yīng)用潛力。此外，用到VGG19網(wǎng)絡(luò)提取圖像特征，該方法參數(shù)較多，占用內(nèi)存空間較大，可以改用其他的提取特征的方法，減少參數(shù)和占用空間。風(fēng)格遷移的應(yīng)用場(chǎng)景很多，例如AI換臉、漫畫遷移、字體風(fēng)格遷移、AI藝術(shù)創(chuàng)作、電影特效等等，這些場(chǎng)景都有待進(jìn)一步深入研究。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放