亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于解耦內(nèi)容-風(fēng)格特征表示的圖像轉(zhuǎn)換研究進(jìn)展

        2023-06-12 07:57:50毛琪陳瀾
        關(guān)鍵詞:特征內(nèi)容模型

        毛琪,陳瀾

        (中國傳媒大學(xué)信息與通信工程學(xué)院,北京 100024)

        1 引言

        喚醒黑白相片,還原歷史色彩;重繪自然風(fēng)景,打造藝術(shù)世界;勾勒動(dòng)漫形象,打破“次元”壁壘……得益于計(jì)算機(jī)視覺的發(fā)展,各種智能圖像處理應(yīng)用豐富和便利了人們的日常生活。早期,不同的圖像處理任務(wù)分別由特定的模型單獨(dú)完成,Isola 等人[1]在2016 年首次提出圖像到圖像轉(zhuǎn)換的概念(Image-to-Image translation,I2I),其目標(biāo)是將圖像從一個(gè)圖像域轉(zhuǎn)換到另一個(gè)圖像域,其中圖像域定義為共享視覺特征的一類圖像。轉(zhuǎn)換過程期望圖像的風(fēng)格特征滿足目標(biāo)圖像域的分布,而圖像本身的內(nèi)容特征保持不變。如圖1 所示,統(tǒng)一的圖像轉(zhuǎn)換模型可以解決包括語義圖像合成[2,3]、圖像增強(qiáng)[4]和風(fēng)格遷移[5,6]等任務(wù),是當(dāng)前圖像合成領(lǐng)域研究的熱點(diǎn)之一。

        圖1 圖像轉(zhuǎn)換應(yīng)用舉例

        與圖像轉(zhuǎn)換任務(wù)最具有相關(guān)性的任務(wù)是風(fēng)格遷移[7],如圖2(a)所示,風(fēng)格遷移后的圖像期望能夠保持源圖像的內(nèi)容,遷移參考圖像的風(fēng)格。其中內(nèi)容通常指輸入圖像的結(jié)構(gòu)信息,風(fēng)格通常指參考圖像的紋理與顏色信息;而圖像轉(zhuǎn)換中內(nèi)容和風(fēng)格的含義不固定,與數(shù)據(jù)集本身的特性有關(guān)。如圖2(b)所示,當(dāng)源圖像域是風(fēng)景照片,目標(biāo)圖像域?yàn)樗囆g(shù)風(fēng)格畫時(shí),內(nèi)容特征和風(fēng)格特征與風(fēng)格遷移任務(wù)相同;當(dāng)源圖像域是男性,目標(biāo)圖像域是女性時(shí),內(nèi)容特征是姿態(tài)、五官和臉型,而風(fēng)格特征是頭發(fā)、妝容等;當(dāng)源圖像域是貓,目標(biāo)圖像域是狗時(shí),內(nèi)容特征是姿勢(shì)、朝向和表情,風(fēng)格特征是顏色、形狀、毛發(fā)等。由此可見,圖像轉(zhuǎn)換任務(wù)的定義更加寬泛,其風(fēng)格和內(nèi)容的具體含義是通過數(shù)據(jù)集的學(xué)習(xí)得到的。一個(gè)更準(zhǔn)確的定義是,內(nèi)容特征指圖像轉(zhuǎn)換中的域不變(Domain-Invariant)特征,風(fēng)格特征指圖像轉(zhuǎn)換中的域特定(Domain-Specific)特征。

        圖2 神經(jīng)風(fēng)格遷移(左)與圖像轉(zhuǎn)換(右)對(duì)比示例

        早期的圖像轉(zhuǎn)換模型[1,4]直接通過生成模型,隱式建模內(nèi)容和風(fēng)格特征的變換,轉(zhuǎn)換過程中保持輸入圖像內(nèi)容特征不變,改變風(fēng)格特征,給定輸入圖像只能得到唯一的輸出結(jié)果,極大地限制了圖像轉(zhuǎn)換過程中的可控性和多樣性。為了解決這個(gè)問題,Huang 等人[8]和Lee 等人[9]首次提出了基于解耦內(nèi)容-風(fēng)格特征表示的圖像轉(zhuǎn)換模型,對(duì)不同圖像域的風(fēng)格和內(nèi)容特征顯示建模,從而能夠?qū)崿F(xiàn)基于樣例圖像引導(dǎo)和基于隨機(jī)風(fēng)格向量引導(dǎo)的多樣且可控的圖像轉(zhuǎn)換,后續(xù)研究者們也沿著這個(gè)思想進(jìn)行更深入地探索。

        盡管目前的研究已經(jīng)取得了很大的成功,但圖像轉(zhuǎn)換仍然存在很多未被清晰定義的問題,例如,如何構(gòu)建一個(gè)更好的風(fēng)格和內(nèi)容特征的表示,如何更準(zhǔn)確地評(píng)價(jià)圖像轉(zhuǎn)換的結(jié)果等。為了進(jìn)一步挖掘模型的潛力,探究未來的改進(jìn)方向,本文對(duì)基于解耦內(nèi)容-風(fēng)格特征表示的圖像轉(zhuǎn)換模型的研究現(xiàn)狀和進(jìn)展進(jìn)行綜述。本文的第2節(jié)首先對(duì)圖像轉(zhuǎn)換目前的主要研究問題和基于解耦內(nèi)容-風(fēng)格特征表示模型的基本框架進(jìn)行簡要介紹;第3節(jié)對(duì)基于解耦內(nèi)容-風(fēng)格特征表示模型的發(fā)展脈絡(luò)以及研究現(xiàn)狀進(jìn)行梳理;第4 節(jié)對(duì)圖像轉(zhuǎn)換任務(wù)中常見數(shù)據(jù)集和評(píng)價(jià)指標(biāo)進(jìn)行整理與歸類,并對(duì)經(jīng)典模型進(jìn)行定量與定性的對(duì)比和評(píng)價(jià);第5節(jié)總結(jié)了此類模型的發(fā)展歷程,并對(duì)未來的發(fā)展方向進(jìn)行思考和展望。

        2 圖像轉(zhuǎn)換概述

        圖像轉(zhuǎn)換的核心在于學(xué)習(xí)不同圖像域之間的映射,這與生成模型有很高的相關(guān)性。生成模型使用特定網(wǎng)絡(luò)結(jié)構(gòu)來建模一類圖像的分布,從而可以采樣生成類似于樣本數(shù)據(jù)、服從同一分布的圖像。同樣地,在圖像轉(zhuǎn)換中,生成模型以損失函數(shù)為約束條件進(jìn)行映射學(xué)習(xí),使輸出符合目標(biāo)域圖像的分布。在圖像轉(zhuǎn)換領(lǐng)域,變分自編碼器[25](Variational Auto Encoder,VAE)和生成對(duì)抗網(wǎng)絡(luò)[26](Generative Adversarial Net‐work,GAN)是最常用且最有效的生成模型。VAE 通過最大化對(duì)數(shù)似然下限來模擬數(shù)據(jù)分布,GAN 則試圖尋找生成器和鑒別器之間的納什平衡。

        經(jīng)過近些年的發(fā)展,圖像轉(zhuǎn)換模型從有監(jiān)督到無監(jiān)督(圖3a)、從一對(duì)一映射到一對(duì)多映射(圖3c)、從雙域到多域(圖3b),逐漸走向成熟和完善。表1 對(duì)部分經(jīng)典的圖像轉(zhuǎn)換模型進(jìn)行了梳理和歸納。最初,Isola 等人[1]提出的Pix2Pix 模型使用配對(duì)數(shù)據(jù)集建模映射函數(shù),BicycleGAN[10]在此基礎(chǔ)上進(jìn)行改進(jìn),使模型具有一對(duì)多映射的能力。由于構(gòu)建不同域的配對(duì)圖像數(shù)據(jù)集難度大、代價(jià)高,Cycle‐GAN[4]、DiscoGAN[27]等模型提出循環(huán)一致性約束,在非配對(duì)數(shù)據(jù)集來建立域間的雙向關(guān)系。為了進(jìn)一步使模型同時(shí)具有無監(jiān)督訓(xùn)練和多輸出的能力,Huang 等人[8]和Lee 等人[9]提出了基于解耦內(nèi)容-風(fēng)格特征表示的圖像轉(zhuǎn)換模型,開拓了圖像轉(zhuǎn)換模型的一個(gè)全新結(jié)構(gòu)分支。

        表1 圖像到圖像轉(zhuǎn)換經(jīng)典模型概覽

        表2 基于解耦內(nèi)容-風(fēng)格圖像轉(zhuǎn)換模型的常用損失函數(shù)

        圖3 圖像轉(zhuǎn)換模型分類

        當(dāng)前圖像轉(zhuǎn)換的關(guān)鍵問題在于無監(jiān)督的多域轉(zhuǎn)換和一對(duì)多映射。從表1可以看出,基于解耦內(nèi)容-風(fēng)格特征表示模型是有效且高效的解決方式。如圖4所示,在此模型中,圖像被嵌入到兩個(gè)隱空間:域間共享的內(nèi)容空間和域內(nèi)特定的風(fēng)格(樣式、屬性)空間,分別用內(nèi)容編碼和風(fēng)格編碼表示。

        圖4 基于解耦內(nèi)容-風(fēng)格特征表示的圖像轉(zhuǎn)換模型

        具體而言,此類模型包含風(fēng)格編碼器、內(nèi)容編碼器、生成器和鑒別器。如圖4所示,以圖像域A到圖像域B 的轉(zhuǎn)換為例,生成器利用內(nèi)容編碼cA和風(fēng)格編碼sB,生成屬于B 域的圖像xA→B。其中,cA來自內(nèi)容編碼器Ec,sB根據(jù)模型的不同,來自風(fēng)格編碼器Es或先驗(yàn)分布p(z)。表達(dá)式如公式(1)所示:

        3 基于解耦內(nèi)容-風(fēng)格特征表示的圖像轉(zhuǎn)換算法研究現(xiàn)狀

        從解耦的角度出發(fā),內(nèi)容特征和風(fēng)格特征的提取與空間的構(gòu)建是圖像轉(zhuǎn)換的關(guān)鍵,也是本文研究的重點(diǎn)。本文3.1 節(jié)和3.2 節(jié)分別梳理了此類模型在風(fēng)格特征建模和內(nèi)容特征建模上的改進(jìn)與發(fā)展。

        3.1 風(fēng)格特征建模

        直觀上,域特定空間中的風(fēng)格編碼應(yīng)具有多樣性、靈活性與可控性。以此為目的,風(fēng)格空間的發(fā)展(圖5)主要從空間構(gòu)建的角度出發(fā),從雙域到多域、從分離到統(tǒng)一,取得了極大的進(jìn)展。

        圖5 風(fēng)格特征的發(fā)展脈絡(luò)

        MUNIT[8]和DRIT[9]是解耦內(nèi)容-風(fēng)格I2IT 模型的開篇之作。其核心有二:一是引入隨機(jī)風(fēng)格向量,使模型可以進(jìn)行一對(duì)多的轉(zhuǎn)換。DRIT[9]使用KL 損失(公式2)顯式地將風(fēng)格編碼嵌入正態(tài)分布;MUNIT[8]則將從正態(tài)分布中采樣的向量作為輸入生成器的風(fēng)格編碼,通過重建損失(公式3)使風(fēng)格編碼器的輸出和采樣得到的向量達(dá)到一致。二是引入循環(huán)一致性損失,使模型可以利用非配對(duì)的圖像數(shù)據(jù)集。

        然而,與圖像域一一對(duì)應(yīng)的風(fēng)格編碼器具有局限性,模型無法擴(kuò)展應(yīng)用到多域圖像轉(zhuǎn)換。為了解決此問題,Yu 等人[14]提出DMIT 模型,所有圖像域共用一個(gè)風(fēng)格編碼器。如圖6(a)所示,域標(biāo)簽作為風(fēng)格編碼的域標(biāo)識(shí),與風(fēng)格編碼在通道維度上拼接后輸入生成器。但是這種完全忽略域信息的風(fēng)格編碼器在圖像域間差異較大時(shí)效果不佳。Lee 等人[5]在DRIT[9]的基礎(chǔ)之上,提出了使用統(tǒng)一風(fēng)格編碼器的DRIT++。如圖6(b)所示,通過將域標(biāo)簽和圖像共同作為輸入,風(fēng)格編碼器可根據(jù)域標(biāo)簽提取各域特有的風(fēng)格特征。

        圖6 多域轉(zhuǎn)換的風(fēng)格編碼器

        和DRIT++[5]不同,StarGAN-v2[17]在風(fēng)格編碼器的輸出層采用多分支結(jié)構(gòu)。如圖6(c)所示,域標(biāo)簽用于選擇對(duì)應(yīng)的輸出分支作為圖像的風(fēng)格編碼。統(tǒng)一的風(fēng)格編碼器不僅簡化了模型結(jié)構(gòu),還使其在多圖像域訓(xùn)練中獲益,獲得更強(qiáng)的泛化能力。此外,Star‐GAN-v2[17]增加了同樣具有多分支輸出結(jié)構(gòu)的映射網(wǎng)絡(luò)模塊。從先驗(yàn)分布采樣的隨機(jī)向量不直接作為風(fēng)格編碼,而是經(jīng)由此網(wǎng)絡(luò)被映射到各域的風(fēng)格空間后,由域標(biāo)簽選擇對(duì)應(yīng)維度的輸出。

        映射網(wǎng)絡(luò)和風(fēng)格編碼器輸出層分支結(jié)構(gòu)的設(shè)計(jì)顯式地分離了不同域的風(fēng)格編碼,使其更準(zhǔn)確地捕捉到了域特定的風(fēng)格特征,產(chǎn)生更多樣化的圖像。然而,分離的分布使模型不具備域間連續(xù)轉(zhuǎn)換的能力。為了解決此問題,Liu 等人[28]在StarGAN-v2[17]的基礎(chǔ)上加入了兩個(gè)和風(fēng)格特征相關(guān)的損失項(xiàng):公式(4)為三元組損失,其中,α為邊距常量,保證各域的風(fēng)格向量相互分離的同時(shí),控制域間的緊湊程度;sa、sp和sn為風(fēng)格編碼,sn的所屬域不同于sa和sp;公式(5)為風(fēng)格正則化,通過懲罰較大的風(fēng)格編碼l2范式,風(fēng)格空間以原點(diǎn)為中心收縮。其中,s表示風(fēng)格編碼。

        Mao 等人[22]則從編碼的角度出發(fā),提出域共享的統(tǒng)一風(fēng)格空間,利用符號(hào)操作對(duì)圖像域信息進(jìn)行編碼,使得域間插值的風(fēng)格編碼能夠產(chǎn)生合理的結(jié)果。如圖7所示,首先從高斯分布中采樣d×N維向量zp,其中N表示域的數(shù)量,d為每個(gè)域風(fēng)格屬性向量的維度。其次根據(jù)域標(biāo)簽構(gòu)造有符號(hào)向量(Signed Attribute Vector,SAV)zs。然后使用最大均值差異(公式8)統(tǒng)一zs和風(fēng)格編碼器的輸出z。zs和zp的計(jì)算公式如公式(6)、公式(7)所示:

        圖7 SAVI2I示意圖

        上述使用域標(biāo)簽的無監(jiān)督I2IT 模型已極大地降低了數(shù)據(jù)集的收集難度。但是,當(dāng)數(shù)據(jù)集非常龐大時(shí)(如FFHQ[29]),為每一張圖片標(biāo)記域信息同樣成本高昂,且對(duì)于有些數(shù)據(jù)集來說,域的劃分是多樣且模糊的。針對(duì)此問題,Baek 等人[20]提出了TUNIT 模型,創(chuàng)造性地引入自監(jiān)督訓(xùn)練的思想。過MI[30]和In‐foNCE[31]等約束,風(fēng)格編碼器能夠充分利用域特定的風(fēng)格信息,自動(dòng)判斷輸入圖像的所屬域,輸出偽標(biāo)簽。

        然而,TUNIT[20]無法實(shí)現(xiàn)多樣式輸出,并且存在錯(cuò)誤分類的問題。Kim 等人[23]指出,這種錯(cuò)誤產(chǎn)生的原因在于單一的域標(biāo)簽區(qū)分方式并未考慮到域間的語義距離。同時(shí),域標(biāo)簽將I2IT 限制在預(yù)先定義的圖像域中,無法控制訓(xùn)練所用標(biāo)簽之外的域。為了解決此問題,Kim 等人[23]使用一組標(biāo)準(zhǔn)化的原型向量來統(tǒng)一風(fēng)格空間,每個(gè)原型向量可以被簡單地理解為各域風(fēng)格編碼的聚類中心。此外,風(fēng)格編碼器被集成到鑒別器中,共享骨干網(wǎng)絡(luò)。如圖8 所示,通過SwAV[32]聚類方法,風(fēng)格編碼被嵌入原型向量空間,在擺脫域標(biāo)簽約束的同時(shí),模型可以采樣原型向量,產(chǎn)生多樣輸出。

        圖8 原型向量示意圖

        雖然上述模型取得了良好的轉(zhuǎn)換效果,但其訓(xùn)練階段需依賴大量的圖像數(shù)據(jù),且無法基于先驗(yàn)知識(shí)從少量樣本中獲得泛化能力,應(yīng)用于不屬于訓(xùn)練數(shù)據(jù)的圖像域。針對(duì)此問題,Liu 等人[13]提出了少樣本學(xué)習(xí)模型FUNIT。如圖9 所示,訓(xùn)練時(shí)使用包含K 個(gè)類別的圖像數(shù)據(jù)集S,對(duì)其中某一類的一張圖像進(jìn)行內(nèi)容編碼,對(duì)另一類的一組圖像分別進(jìn)行風(fēng)格編碼后求算術(shù)平均。測(cè)試時(shí)通過少量不屬于S 的新目標(biāo)域圖像作為風(fēng)格指導(dǎo),模型就能將S 中的任意一類圖像轉(zhuǎn)換到新目標(biāo)域。

        圖9 FUNIT[13]訓(xùn)練示意圖

        3.2 內(nèi)容特征建模

        如圖10所示,內(nèi)容編碼器的發(fā)展從信息獲取的角度出發(fā),通過增加內(nèi)容映射模塊,內(nèi)容特征的空間分布從域共享到域特定;通過引入生成先驗(yàn)等來增強(qiáng)不同語義級(jí)別的特征提取能力和表現(xiàn)能力,不同域的內(nèi)容空間關(guān)系從語義對(duì)應(yīng)擴(kuò)展到語義非對(duì)應(yīng)。

        圖10 內(nèi)容特征的發(fā)展脈絡(luò)

        MUNIT[8]和DRIT[9]中包含兩個(gè)和圖像域一一對(duì)應(yīng)的內(nèi)容編碼器。為了統(tǒng)一各域的內(nèi)容空間,保證內(nèi)容分布一致,DRIT[9]共享兩個(gè)內(nèi)容編碼器的最后一層和兩個(gè)生成器的第一層權(quán)重,并提出了內(nèi)容對(duì)抗損失(公式9);MUNIT[8]則證明了通過圖像轉(zhuǎn)換映射的學(xué)習(xí),兩個(gè)域的內(nèi)容編碼分布在隱式空間達(dá)到一致。但是,域間完全共享內(nèi)容空間的假設(shè)損失了部分圖像特有的內(nèi)容信息,降低了內(nèi)容編碼的表達(dá)能力。因此,Chang等人[16]提出DSMAP,將共享內(nèi)容空間的特征二次映射到域特定的空間中,使圖像的內(nèi)容信息得到更充分的表達(dá)。如圖11所示,內(nèi)容編碼器輸出共享空間的內(nèi)容特征后,由映射函數(shù)φB將其二次投影至目標(biāo)域B 的內(nèi)容空間,得到內(nèi)容編碼CA→B。映射函數(shù)φA則將內(nèi)容特征重映射至圖像原屬域A,得到CA→A。φA映射通過內(nèi)容編碼器中間層特征和CA→A組成的域特定內(nèi)容損失學(xué)習(xí)。

        圖11 DSMAP域特定內(nèi)容空間示意圖

        上述模型在語義對(duì)應(yīng)且?guī)缀涡螤畈罹嗖淮蟮膱D像域上(如貓和狗、男性和女性等)取得了良好的轉(zhuǎn)換效果,但無法應(yīng)用于語義相似但空間分布差異較大的情況(圖13)。為了解決此問題,Wu等人[15]提出Trans‐GaGa模型,如圖12所示,通過幾何估計(jì)器和幾何轉(zhuǎn)換模塊提煉、映射圖像的幾何結(jié)構(gòu)信息,內(nèi)容編碼能夠?qū)W習(xí)圖像的高級(jí)語義表示。

        圖12 TransGaGa[15]部分模型結(jié)構(gòu)圖

        圖13 TransGaGa[15](左)與GP-UNIT[24](右)的轉(zhuǎn)換效果

        為了進(jìn)一步將圖像轉(zhuǎn)換擴(kuò)展到無語義對(duì)應(yīng)的數(shù)據(jù)集(如轎車和鳥類),Yang等人[24]提出GP-UNIT模型,通過引入BigGAN[34]生成先驗(yàn),內(nèi)容編碼器能夠?qū)W習(xí)更為抽象的內(nèi)容信息,如方位、布局等,并建立域間對(duì)應(yīng)關(guān)系。圖14 展示了訓(xùn)練的第一階段,首先采樣噪聲,利用BigGAN[34]生成兩張具有相似方位和布局的不同類圖像。其次,內(nèi)容編碼器將兩張圖像分別編碼為單通道灰度圖以消除域信息。最后,將單通道灰度圖輸入解碼器F。F的第Ⅰ部分預(yù)測(cè)輸入圖像的形狀,第Ⅱ部分重建輸入圖像。如圖13所示,得益于強(qiáng)大的內(nèi)容編碼器,GP-UNIT[24]成功實(shí)現(xiàn)了異質(zhì)、不對(duì)稱的圖像轉(zhuǎn)換。

        圖14 GP-UNIT[24]第一階段訓(xùn)練示意圖

        3.3 內(nèi)容-風(fēng)格的解耦與融合

        以內(nèi)容-風(fēng)格解耦為前提,上述模型從風(fēng)格和內(nèi)容兩方面進(jìn)行改進(jìn)和完善。而如何強(qiáng)制風(fēng)格特征和內(nèi)容特征被分別提取和利用以滿足前提,是模型運(yùn)轉(zhuǎn)的關(guān)鍵。

        損失函數(shù)的約束是解耦的基礎(chǔ)。根據(jù)域共享內(nèi)容空間和內(nèi)容信息在轉(zhuǎn)換中保持不變的假設(shè),Lee 等人[9]提出了內(nèi)容對(duì)抗損失(公式9)和跨域循環(huán)一致?lián)p失(公式15)、Liu 等人[28]提出內(nèi)容保留損失(公式10)。從風(fēng)格表示多樣的特點(diǎn)出發(fā),為了緩解模式崩潰問題,Mao 等人[35]提出模式查找正則化(公式11)、Baek 等人[20]引入風(fēng)格對(duì)比損失(公式12)。而Choi等人[36]認(rèn)為,模式崩潰的一個(gè)重要原因是單一的決策邊界,而這兩種損失函數(shù)并不能從根本上解決此問題。因此,Choi 等人[36]從GAN 的基本原理出發(fā),引入靈活判決邊界機(jī)制,提出樣式引導(dǎo)鑒別器損失(公式14)。此外,規(guī)范化點(diǎn)互信息(公式13)用于消除潛在空間中編碼風(fēng)格表征的糾纏,從而進(jìn)一步緩解模式崩潰。

        風(fēng)格特征和內(nèi)容特征在生成器中通常使用AdaIN[37]進(jìn)行融合,也有一些模型[23,38]使用目前最先進(jìn)的生成模型StyleGAN[29]。生成對(duì)抗損失(公式16)保證生成器將風(fēng)格編碼和內(nèi)容編碼相結(jié)合,輸出真實(shí)且屬于目標(biāo)域的圖像。為了進(jìn)一步讓鑒別器接近納什平衡點(diǎn),生成更逼真的圖像,Choi 等人[36]使用重要性采樣,如公式(20)所示,根據(jù)鑒別器的輸出,將特定權(quán)重分配給生成器。此外,風(fēng)格編碼重建損失(公式17)和內(nèi)容編碼重建損失(公式18、19)用于促進(jìn)圖像和隱空間的逆映射,強(qiáng)制生成器在生成圖像時(shí)利用風(fēng)格編碼和內(nèi)容編碼。

        3.4 存在的問題

        目前,基于解耦內(nèi)容-風(fēng)格特征表示的圖像轉(zhuǎn)換模型側(cè)重于探索內(nèi)容和風(fēng)格的空間分布,缺少對(duì)風(fēng)格和內(nèi)容的具體內(nèi)涵的研究。圖像表達(dá)的特征包羅萬象,顏色、紋理、形狀、結(jié)構(gòu)和語義等方面均蘊(yùn)含大量可變性。對(duì)于圖像轉(zhuǎn)換模型來說,最關(guān)鍵的核心就是捕捉并且改變某些特征。解耦內(nèi)容-風(fēng)格特征表示模型的風(fēng)格編碼與內(nèi)容編碼控制的是哪些特征、控制的程度能達(dá)到多少等問題值得深入探討。

        風(fēng)格和內(nèi)容在形式上是解耦的,但在含義上是關(guān)聯(lián)互補(bǔ)的,模型需要根據(jù)圖像數(shù)據(jù)的不同權(quán)衡風(fēng)格和內(nèi)容特征的分配,并調(diào)整其變化程度。因此,為了更好地研究此類圖像轉(zhuǎn)換模型在不同數(shù)據(jù)集上對(duì)內(nèi)容和風(fēng)格特征的學(xué)習(xí)能力和適應(yīng)程度,本文第4 節(jié)根據(jù)域間差異性對(duì)圖像轉(zhuǎn)換常用數(shù)據(jù)集進(jìn)行進(jìn)歸類和對(duì)比。

        4 數(shù)據(jù)集、評(píng)價(jià)指標(biāo)及模型比較

        數(shù)據(jù)集的選擇是評(píng)價(jià)模型性能的基礎(chǔ),如表3 所示,根據(jù)圖像域之間的差異程度,數(shù)據(jù)集可劃分為以下三類:

        表3 數(shù)據(jù)集總結(jié)

        (1)場(chǎng)景類此類數(shù)據(jù)集的域間差異為顏色和紋理,形狀和語義特征保持不變。比較有代表性的場(chǎng)景數(shù)據(jù)集如圖15(a)所示,Architectural labels2photo[1]數(shù)據(jù)集,包含配對(duì)的建筑物正面圖象和其結(jié)構(gòu)標(biāo)簽圖;Summer2winter[4]數(shù)據(jù)集,由非配對(duì)的一組夏季風(fēng)景圖和一組冬季風(fēng)風(fēng)景圖組成。。

        圖15 數(shù)據(jù)集示例

        (2)真實(shí)對(duì)象類此類數(shù)據(jù)集圖像大多為真實(shí)事物,如圖15(b)所示,包括不同性別的人臉、不同物種的動(dòng)物等。域間差異程度較大,有顏色、紋理、形狀等,轉(zhuǎn)換難度比場(chǎng)景類高。

        (3)藝術(shù)風(fēng)格對(duì)象類此類數(shù)據(jù)集圖像包含一組夸張藝術(shù)風(fēng)格圖像,如圖15(c)所示,真實(shí)人臉和動(dòng)漫人臉在顏色、紋理、形狀和語義特征上差異極大,轉(zhuǎn)換難度最高。

        4.2 評(píng)價(jià)指標(biāo)

        圖像轉(zhuǎn)換的評(píng)價(jià)指標(biāo)從圖像質(zhì)量、圖像多樣性、圖像在內(nèi)容上的保持程度以及圖像與參考圖像在風(fēng)格上的相似程度這四個(gè)方面來衡量模型的性能。以下介紹4種常用指標(biāo)。

        (1)FID(Fréchet Inception Distance)

        FID[55]以在ImageNet[56]數(shù)據(jù)集上訓(xùn)練的Inception-V3[57]模型作為特征提取器,計(jì)算真實(shí)圖片和生成圖片的特征向量的距離。計(jì)算公式如公式(21)所示。

        其中,g表示生成圖像,r表示真實(shí)圖像,μ和∑分別表示均值和協(xié)方差。當(dāng)生成圖像和真實(shí)圖像特征的均值和協(xié)方差相近時(shí),生成圖像的分布接近真實(shí)圖像的分布,即FID越小,生成的圖像質(zhì)量越好。

        (2)LPIPS(Learned Perceptual Image Patch Simi‐larity)

        LPIPS[39]度量兩張圖像的感知距離,其特征提取網(wǎng)絡(luò)的訓(xùn)練使用真實(shí)圖像和失真圖像,因此LPIPS 對(duì)真實(shí)程度不同的生成圖像評(píng)估更加魯棒。計(jì)算公式如公式(22)所示:

        其中,g和r分別表示生成圖像和真實(shí)圖像,l表示特征提取網(wǎng)絡(luò)的層數(shù),和分別表示生成圖像和真實(shí)圖像在第l 層輸出的特征,Hl和Wl分別表表示第層特征的高度和寬度,wl表示第一層和第l 層特征的余弦距離。LPIPS 越小表示兩張圖像越相似;用于多樣性評(píng)價(jià)時(shí),值越高表示生成的圖像越多樣。

        (3)DIPD(Domain-Invariant Perceptual Distance)

        DIPD[13]計(jì)算源域圖像和轉(zhuǎn)換后圖像在VGG[58]網(wǎng)絡(luò)中Conv5 輸出特征的距離,衡量轉(zhuǎn)換后圖像的內(nèi)容保持程度。

        (4)SIFID(Single Image Fréchet Inception Dis‐tance)

        SIFID[59]通過計(jì)算兩幅圖像特征之間的FID[55]衡量生成圖像和參考圖像內(nèi)部分布的差異。SFID 得分越低,表示兩張圖像風(fēng)格越相似。

        4.3 模型比較

        在比較基于解耦內(nèi)容-風(fēng)格特征圖像轉(zhuǎn)換模型時(shí),通常會(huì)分別比較隱向量引導(dǎo)方法和參考圖像引導(dǎo)方法。前者指的是通過采樣隨機(jī)向量來生成風(fēng)格編碼,而后者則是利用參考圖像來生成風(fēng)格編碼。為了更好地說明風(fēng)格的學(xué)習(xí)和內(nèi)容的保持,本文只比較由參考圖像引導(dǎo)的圖像轉(zhuǎn)換效果。本小節(jié)在Sum‐mer2winte[4]、CelebA-HQ[17]、AFHQ[17]和Face2Anime[54]數(shù)據(jù)集上對(duì)部分模型[5,8,16,17,22,23]進(jìn)行了定性和定量的比較。

        4.3.1 定性比較

        圖16 定性比較了不同模型在Summer2winter[4]數(shù)據(jù)集上的圖像轉(zhuǎn)換效果,DRIT++[5]、StarGAN-v2[17]和SAVI2I[22]可以在保持結(jié)構(gòu)特征的同時(shí)表現(xiàn)參考圖像的風(fēng)格,而SA-Dis[23]對(duì)域不變的內(nèi)容特征把握不當(dāng),過多地改變了輸入的結(jié)構(gòu)。

        圖16 Summer2winter[4]數(shù)據(jù)集上的定性比較

        圖17 定性比較了CelebA-HQ[17]數(shù)據(jù)集上的圖像轉(zhuǎn)換結(jié)果,MUNIT[8]和DRIT++[5]僅改變了輸入圖像的妝容特征,無法改變變化較大的胡須和頭發(fā)樣式;StarGAN-v2[17]和SAVI2I[22]對(duì)頭發(fā)的轉(zhuǎn)換效果較好,較為準(zhǔn)確地捕捉并還原了參考圖像中的頭發(fā)樣式;Star‐GAN-v2[17]對(duì)人臉的身份特征保持得最好,但對(duì)人臉之外的部分(背景、飾品等)轉(zhuǎn)換效果較差。

        圖17 CelebaHQ[17]數(shù)據(jù)集上的定性比較

        圖18 定性比較了AFHQ[17]數(shù)據(jù)集的轉(zhuǎn)換效果,MUNIT[8]模型無法在域間差異較大的貓和狗圖像域間成功轉(zhuǎn)換;SA-Dis[23]、StarGAN-v2[17]和SAVI2I[22]相比,內(nèi)容特征(嘴的開合、背景)保持效果以及風(fēng)格特征(耳朵、鼻子的形狀)的改變效果更好。值得注意的是,第四行輸入圖像的耳朵較大,垂于面部兩側(cè),此特征僅存在于狗的圖像中且數(shù)量極少,轉(zhuǎn)換難度較高。DSMAP[16]將此特征保留;StarGAN-v2[17]和SAVI2I[22]在此部分產(chǎn)生模糊的結(jié)果;DRIT++[5]和SA-Dis[23]較為合理地將輸入中的耳朵轉(zhuǎn)換為貓面部的一部分。

        圖18 AFHQ[17]數(shù)據(jù)集上的定性比較

        圖19 定性比較了不同模型在Face2Anime[54]數(shù)據(jù)集上的圖像轉(zhuǎn)換效果。DSMAP[16]、StarGAN-v2[17]、SAVI2I[22]和SA-Dis[23]都能夠?qū)W習(xí)參考圖像的發(fā)色特征,但眼睛的顏色、面部妝容等學(xué)習(xí)程度不夠。對(duì)于內(nèi)容特征,僅有DSMAP[16]和SA-Dis[23]保持了輸入圖像的方位,而嘴巴的形狀、眼睛的張開程度以及視線方向等在所有模型的轉(zhuǎn)換結(jié)果中均無法體現(xiàn)。

        圖19 Face2anime[54]數(shù)據(jù)集上的定性比較

        從模型的角度來看,StarGAN-v2[17]和SAVI2I[22]在四類數(shù)據(jù)集上的總體轉(zhuǎn)換效果最好,除Face2Anime[54]數(shù)據(jù)集外,都能較好地保持內(nèi)容特征、表現(xiàn)風(fēng)格特征,從具體數(shù)據(jù)集中學(xué)習(xí)解耦域不變和域特定的圖像特征。

        從數(shù)據(jù)集的角度來看,模型在風(fēng)景類的Sum‐mer2Winter[4]數(shù)據(jù)集上的整體轉(zhuǎn)換效果最好,在Face2Anime[54]數(shù)據(jù)集的轉(zhuǎn)換效果最差,藝術(shù)對(duì)象類數(shù)據(jù)集對(duì)I2I模型仍是一個(gè)挑戰(zhàn)。

        4.3.2 定量比較

        本文從每個(gè)域的測(cè)試集中隨機(jī)選取了100張圖像進(jìn)行定量模型評(píng)估,以目標(biāo)域參考圖像作為風(fēng)格指導(dǎo)來進(jìn)行圖像轉(zhuǎn)換。表4為模型在不同數(shù)據(jù)集上的定量評(píng)價(jià)結(jié)果,每個(gè)指標(biāo)最好的結(jié)果用粗體標(biāo)示。

        表4 模型在不同數(shù)據(jù)集上的定量比較評(píng)價(jià)結(jié)果

        從數(shù)據(jù)集的角度來看,六個(gè)模型在CelebAHQ[17]數(shù)據(jù)集或AFHQ[17]數(shù)據(jù)集上的圖像轉(zhuǎn)換效果最好,對(duì)真實(shí)對(duì)象類數(shù)據(jù)集的適應(yīng)性最強(qiáng)。對(duì)于內(nèi)容特征的保持和風(fēng)格特征的學(xué)習(xí),模型在CelebAHQ[17]數(shù)據(jù)集上的完成度最高,而由于藝術(shù)類對(duì)象數(shù)據(jù)集的域間差異極大,模型對(duì)Face2Anime[54]數(shù)據(jù)集的完成度最低。觀察發(fā)現(xiàn),模型在Summer2Winter[4]上表現(xiàn)不佳,除了模型本身不適合場(chǎng)景類圖像外,也可能因?yàn)閿?shù)據(jù)集本身存在缺陷:數(shù)量小且有重復(fù)圖像;一些圖片中出現(xiàn)了大面積的人類或動(dòng)物;某些圖像的域特點(diǎn)不明顯,域歸屬不明確。

        從模型的角度來看,SAVI2I[22]的圖像轉(zhuǎn)換效果最好,在4 個(gè)數(shù)據(jù)集的6/16 項(xiàng)指標(biāo)上取得最優(yōu)表現(xiàn),對(duì)不同類數(shù)據(jù)集的適應(yīng)能力最強(qiáng);其次是StarGANv2[17],在4 個(gè)數(shù)據(jù)集的3/16 項(xiàng)指標(biāo)取得最優(yōu)表現(xiàn)。雖然MUNIT[8]在CelebAHQ[17]數(shù)據(jù)集和AFHQ[17]數(shù)據(jù)集上的DIPD[13]指標(biāo)最低,但從圖17、圖18 來看,跨域轉(zhuǎn)換效果不明顯,甚至轉(zhuǎn)換失敗,導(dǎo)致SIFID[59]指標(biāo)較高。因此,DIPD[13]指標(biāo)需和SIFID[59]指標(biāo)結(jié)合進(jìn)行比較。

        5 總結(jié)與展望

        基于解耦內(nèi)容-風(fēng)格特征表示的圖像轉(zhuǎn)換模型在生成圖像的質(zhì)量、多樣性和連續(xù)性等方面已取得了很大的進(jìn)展,是圖像轉(zhuǎn)換模型中的重要組成部分。本文首先對(duì)圖像轉(zhuǎn)換進(jìn)行簡要介紹,梳理了基于解耦內(nèi)容-風(fēng)格特征表示模型的研究脈絡(luò),整理了常見數(shù)據(jù)集和評(píng)價(jià)指標(biāo),并對(duì)經(jīng)典模型進(jìn)行定量和定性的比較。

        解耦內(nèi)容和風(fēng)格的I2IT 模型因其“解耦”的特點(diǎn)在圖像控制方面有著天然的優(yōu)勢(shì),可以被進(jìn)一步利用和挖掘。未來可探索的方向有:

        (1)內(nèi)容-風(fēng)格特征表示的控制?,F(xiàn)有模型缺少對(duì)內(nèi)容特征和風(fēng)格特征在不同類數(shù)據(jù)集上表達(dá)能力的研究,因此對(duì)不同轉(zhuǎn)換任務(wù)的兼容能力不足。從控制內(nèi)容和風(fēng)格的角度出發(fā),如何使模型能夠根據(jù)不同數(shù)據(jù)集權(quán)衡內(nèi)容和風(fēng)格的保持、變化程度對(duì)構(gòu)建通用轉(zhuǎn)換模型有著重要意義。

        (2)結(jié)構(gòu)的簡化?,F(xiàn)有模型結(jié)構(gòu)復(fù)雜,訓(xùn)練時(shí)間較長,受限于巨大的運(yùn)算開銷,模型通常只能對(duì)分辨率較低的圖像進(jìn)行處理。如何在保持模型性能的同時(shí)簡化結(jié)構(gòu)有待進(jìn)一步探索和研究。

        (3)少樣本學(xué)習(xí)?;诮怦顑?nèi)容-風(fēng)格特征表示的圖像轉(zhuǎn)換模型對(duì)少樣本學(xué)習(xí)的研究較少,雖然目前的模型在許多大型數(shù)據(jù)集上取得了良好的效果,但應(yīng)用范圍受限于數(shù)據(jù)集的種類和訓(xùn)練時(shí)長。

        猜你喜歡
        特征內(nèi)容模型
        一半模型
        內(nèi)容回顧溫故知新
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        如何表達(dá)“特征”
        不忠誠的四個(gè)特征
        抓住特征巧觀察
        3D打印中的模型分割與打包
        主要內(nèi)容
        臺(tái)聲(2016年2期)2016-09-16 01:06:53
        線性代數(shù)的應(yīng)用特征
        河南科技(2014年23期)2014-02-27 14:19:15
        国产一区二区三区影院| 伊人久久大香线蕉av最新午夜| 一区二区三区国产免费视频 | 在线精品日韩一区二区三区| 国产黄色看三级三级三级| 一区二区视频在线观看地址| 国产喷水1区2区3区咪咪爱av| 这里只有久久精品| 国产亚洲亚洲精品视频| 蜜桃av噜噜一区二区三区9| 毛片a级毛片免费观看| 亚洲婷婷丁香激情| 亚洲精品乱码久久麻豆| 精品无码av无码专区| 色八a级在线观看| 亚洲天堂av免费在线看| 经典黄色一区二区三区| 精品久久久bbbb人妻| 永久黄网站色视频免费| 麻豆成年视频在线观看| 国产性感丝袜在线观看| 国产午夜鲁丝片av无码| 囯产精品无码va一区二区| 亚洲精品国产二区在线观看| 亚洲精品无码久久久久y| 最近最好的中文字幕2019免费| 手机看片国产日韩| 亚洲女同一区二区三区| 国产精品多人p群无码| 亚洲最大中文字幕无码网站 | 国产精品调教| 午夜日本理论片最新片| 国产极品少妇一区二区| 国产丝袜无码一区二区三区视频| 五月婷婷激情六月| 色婷婷亚洲一区二区三区在线| 亚洲欧美v国产一区二区| 日韩av高清无码| 亚洲专区在线观看第三页| 一区二区三区免费看日本| 狠狠做深爱婷婷久久综合一区|