亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于特征對(duì)比的循環(huán)生成對(duì)抗網(wǎng)絡(luò)圖像風(fēng)格轉(zhuǎn)換研究

        2024-01-01 00:00:00閆娟康鵬帥王士斌梅學(xué)術(shù)李燕劉棟

        摘" 要:無(wú)監(jiān)督圖像到圖像轉(zhuǎn)換任務(wù)是在非配對(duì)訓(xùn)練數(shù)據(jù)的情況下學(xué)習(xí)源域圖像到目標(biāo)域圖像的轉(zhuǎn)換.但是,圖像風(fēng)格轉(zhuǎn)換任務(wù)依然面臨著圖像內(nèi)容丟失、模型坍塌等現(xiàn)象.為了解決上述問(wèn)題,提出了一種局部特征對(duì)比來(lái)保持圖像內(nèi)容,通過(guò)特征提取器獲得多層圖像深層特征,使得圖像編碼器學(xué)習(xí)到高級(jí)語(yǔ)義信息,獲得信息更加豐富的圖像特征.同時(shí),增加局部特征對(duì)比損失來(lái)引導(dǎo)特征提取器學(xué)習(xí)到有利于圖像內(nèi)容生成的特征.實(shí)驗(yàn)結(jié)果表明,在大多數(shù)情況下,所提方法在FID和KID分?jǐn)?shù)方面優(yōu)于之前的方法,圖像生成質(zhì)量有一定的提升.

        關(guān)鍵詞:特征對(duì)比;圖像風(fēng)格轉(zhuǎn)換;對(duì)比損失

        中圖分類號(hào):TP399""""" 文獻(xiàn)標(biāo)志碼:A文章編號(hào):1000-2367(2024)06-0073-07

        不同圖像之間的轉(zhuǎn)換是通過(guò)學(xué)習(xí)某種映射來(lái)完成的,這種轉(zhuǎn)換不僅可以用于圖像風(fēng)格之間的轉(zhuǎn)換,例如將真實(shí)照片轉(zhuǎn)換成梵高類型的油畫(huà),還可以用于圖像內(nèi)容和結(jié)構(gòu)方面的修改,比如貓與狗、斑馬與馬之間的轉(zhuǎn)換.得益其出色的表現(xiàn),圖像風(fēng)格轉(zhuǎn)換任務(wù)也被推廣到眾多領(lǐng)域,例如圖像修復(fù)[1]、圖像去霧[2]、圖像編輯[3]、圖像高分辨率生成[4]等等.因此,無(wú)監(jiān)督圖像之間的轉(zhuǎn)換受到了眾多計(jì)算機(jī)視覺(jué)領(lǐng)域研究者的關(guān)注.

        早期的圖像風(fēng)格轉(zhuǎn)換任務(wù)通過(guò)對(duì)源域圖像建立數(shù)學(xué)模型進(jìn)行分析,在與目標(biāo)域不斷地對(duì)比當(dāng)中,不斷調(diào)整轉(zhuǎn)換模型,然后將圖像輸入到模型輸入中,完成圖像風(fēng)格的轉(zhuǎn)換,但也因此無(wú)法提取和學(xué)習(xí)到圖像的特征,轉(zhuǎn)換效果較為粗糙.隨著深度神經(jīng)網(wǎng)絡(luò)(DNN[5])的不斷發(fā)展,其也被應(yīng)用在圖像轉(zhuǎn)換領(lǐng)域,通過(guò)反向傳播來(lái)更新權(quán)重系數(shù),達(dá)到與目標(biāo)域圖像近似.基于深度神經(jīng)網(wǎng)絡(luò)的圖像轉(zhuǎn)換模型在面對(duì)復(fù)雜圖像和大量數(shù)據(jù)時(shí),參數(shù)空間指數(shù)上升,泛化能力弱,對(duì)數(shù)據(jù)要求較為苛刻,無(wú)法實(shí)現(xiàn)大量無(wú)監(jiān)督圖像風(fēng)格轉(zhuǎn)換任務(wù).

        當(dāng)前無(wú)監(jiān)督圖像轉(zhuǎn)換任務(wù)通常都是基于生成對(duì)抗網(wǎng)絡(luò)(GAN)來(lái)實(shí)現(xiàn)的,傳統(tǒng)的GAN模型[6]通過(guò)訓(xùn)練一組生成器和鑒別器來(lái)完成圖像轉(zhuǎn)換任務(wù).但是由于GAN的復(fù)雜性和模型訓(xùn)練的困難,導(dǎo)致很難獲得一個(gè)良好的圖像轉(zhuǎn)換模型.像循環(huán)生成對(duì)抗網(wǎng)絡(luò)(CycleGAN[7])通過(guò)采用一對(duì)生成器和辨別器實(shí)現(xiàn)兩個(gè)域之間的轉(zhuǎn)換.但其在一些圖像結(jié)構(gòu)差別較大的領(lǐng)域,比如貓狗轉(zhuǎn)換上表現(xiàn)不佳.為了提高復(fù)雜圖像風(fēng)格轉(zhuǎn)換的質(zhì)量,通常還引入其他模塊,如使用注意力機(jī)制[8]的U-GAT-IT[9],但同時(shí)也增加了模型的冗余度.NICE-GAN[10]通過(guò)重用鑒別器的編碼器對(duì)網(wǎng)絡(luò)進(jìn)行了簡(jiǎn)化,取得了令人矚目的結(jié)果.然而,簡(jiǎn)化后的網(wǎng)絡(luò)在圖像生成結(jié)果中也產(chǎn)生了一些新的問(wèn)題,如翻譯圖像的結(jié)構(gòu)不平衡和圖像部分模糊.

        為了解決上述問(wèn)題,提出了局部特征對(duì)比模塊.在本文的工作中,目標(biāo)是希望轉(zhuǎn)換過(guò)來(lái)的圖像可以展現(xiàn)出

        收稿日期:2023-07-12;修回日期:2024-04-07.

        基金項(xiàng)目:國(guó)家自然科學(xué)基金(62072160);河南省科技攻關(guān)計(jì)劃項(xiàng)目(222102210187);河南省普通本科高等學(xué)校智慧教學(xué)專項(xiàng)研究項(xiàng)目(202111).

        作者簡(jiǎn)介:閆娟(1982-),女,河南周口人,河南師范大學(xué)高級(jí)工程師,研究方向?yàn)閳D像處理、人工智能、大數(shù)據(jù)分析,E-mail:48279674@qq.com.

        通信作者:王士斌,E-mail:wangshibin@htu.edu.cn.

        引用本文:閆娟,康鵬帥,王士斌,等.基于特征對(duì)比的循環(huán)生成對(duì)抗網(wǎng)絡(luò)圖像風(fēng)格轉(zhuǎn)換研究[J].河南師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2024,52(6):73-79.(Yan Juan,Kang Pengshuai,Wang Shibin,et al.Research on image style transformation of cyclic generation adversarial network based on feature contrast[J].Journal of Henan Normal University(Natural Science Edition),2024,52(6):73-79.DOI:10.16366/j.cnki.1000-2367.2023.07.12.0003.)

        目標(biāo)域的外觀,同時(shí)保留住輸入圖像的結(jié)構(gòu)或內(nèi)容,而不是使用原始像素或特征.具體來(lái)說(shuō),通過(guò)在循環(huán)生成對(duì)抗網(wǎng)絡(luò)模型中引入局部特征對(duì)比模塊,將源域圖像和輸出圖像通過(guò)同一個(gè)編碼器來(lái)提取局部特征向量,為了簡(jiǎn)化網(wǎng)絡(luò)和減少參數(shù),通過(guò)重復(fù)使用鑒別器中前半部分的編碼器作為圖像局部特征的提取器,隨后在輸出圖像內(nèi)容豐富區(qū)域選取錨點(diǎn)補(bǔ)?。?1],在源域圖像相同位置選取正樣本補(bǔ)丁,在源域圖像的其他部分隨機(jī)抽取N個(gè)負(fù)樣本補(bǔ)丁.同時(shí),加入局部特征對(duì)比損失來(lái)減少錨點(diǎn)與正樣本之間的差距,拉大與負(fù)樣本之間的差距,以此來(lái)提高生成器的編碼性能和約束模型學(xué)習(xí).這樣,編碼器就可以學(xué)習(xí)到兩個(gè)不同領(lǐng)域之間的共性,如物體的形狀,同時(shí)對(duì)差異保持不變,如物體的紋理.實(shí)驗(yàn)結(jié)果表明,本文的模型取得了更好的圖像轉(zhuǎn)換效果.

        1" 圖像風(fēng)格轉(zhuǎn)換相關(guān)工作

        1.1" 圖像風(fēng)格轉(zhuǎn)換

        圖像風(fēng)格轉(zhuǎn)換旨在將一幅圖像的風(fēng)格轉(zhuǎn)換為另一幅圖像的風(fēng)格,并盡可能保留源域圖像的內(nèi)容特征.傳統(tǒng)的圖像風(fēng)格轉(zhuǎn)換方法最早由HERTZMANN等[12]提出,他們?cè)趩蝹€(gè)輸入輸出訓(xùn)練圖像上使用非參數(shù)紋理模型.隨著深度學(xué)習(xí)的不斷探索,GATYS等[13]首次提出了基于卷積神經(jīng)網(wǎng)絡(luò)的風(fēng)格轉(zhuǎn)移方法,他們通過(guò)VGG網(wǎng)絡(luò)[14]來(lái)表示圖像的語(yǔ)義風(fēng)格信息和內(nèi)容紋理特征信息,并通過(guò)迭代的方式不斷地更新網(wǎng)絡(luò)參數(shù),從而使輸出圖像不斷接近目標(biāo)域圖像.但是,這些方法在風(fēng)格轉(zhuǎn)移算法方面建模困難,耗時(shí)長(zhǎng),效果不佳.

        1.2" 無(wú)監(jiān)督圖像風(fēng)格轉(zhuǎn)換

        圖像到圖像的轉(zhuǎn)換技術(shù)一般需要大量的成對(duì)數(shù)據(jù),而獲取這些數(shù)據(jù)非常耗時(shí)耗力,而無(wú)監(jiān)督圖像風(fēng)格轉(zhuǎn)換是一種不需要成對(duì)數(shù)據(jù)集的轉(zhuǎn)換方法.代表性的有文獻(xiàn)[7]提出的CycleGAN模型,可以將其看成是一個(gè)循環(huán)生成的網(wǎng)絡(luò),利用對(duì)偶學(xué)習(xí)的思路將源域圖像生成目標(biāo)圖像之后再轉(zhuǎn)換為源域圖像,需要要求輸入的圖像域和目標(biāo)域之間具有雙射關(guān)系,其通過(guò)循環(huán)一致性損失來(lái)保證原始圖像的結(jié)構(gòu)不變,使用對(duì)抗損失強(qiáng)化輸出圖像的外觀特征,提出身份損失去控制生成圖像整體的顏色變化,具備強(qiáng)大的數(shù)據(jù)生成能力.

        最新的研究方面,文獻(xiàn)[9]提出的U-GAT-IT模型,通過(guò)使用類激活映射并引入自適應(yīng)層實(shí)例歸一化,構(gòu)建了一個(gè)端到端的弱監(jiān)督跨域轉(zhuǎn)換模型.文獻(xiàn)[10]提出了NICE-GAN網(wǎng)絡(luò)模型,將判別器賦予雙重價(jià)值,同時(shí)進(jìn)行編碼和判別,通過(guò)復(fù)用判別器的編碼器來(lái)替代目標(biāo)域圖像的編碼器,不再需要額外的編碼組件,網(wǎng)絡(luò)結(jié)構(gòu)更加緊湊,減少了網(wǎng)絡(luò)復(fù)雜度和網(wǎng)絡(luò)參數(shù).

        1.3" 對(duì)比學(xué)習(xí)

        對(duì)比學(xué)習(xí)[15]廣泛應(yīng)用于無(wú)監(jiān)督表示學(xué)習(xí),其核心思想是通過(guò)最大化相關(guān)樣本之間的相似性,最小化不相關(guān)樣本之間的相似性來(lái)學(xué)習(xí)數(shù)據(jù)表示.文獻(xiàn)[11]將對(duì)比學(xué)習(xí)應(yīng)用到圖像轉(zhuǎn)換領(lǐng)域,提出了CUT模型,該模型通過(guò)最大化互信息的方法學(xué)習(xí)一個(gè)輸入輸出圖像塊之間的相似性函數(shù),首次將InfoNCE loss應(yīng)用到了條件圖像生成領(lǐng)域,可以實(shí)現(xiàn)在單張圖像上完成圖像轉(zhuǎn)換.隨后HAN等[16]提出了雙重對(duì)比方法,他們通過(guò)使用兩個(gè)不同的編碼器用于推斷未配對(duì)數(shù)據(jù)之間的有效映射,提高了一致性和訓(xùn)練的穩(wěn)定性.

        2" 本文方法

        針對(duì)非配對(duì)圖像轉(zhuǎn)換后圖像內(nèi)容和結(jié)構(gòu)丟失問(wèn)題,提出了一種局部特征對(duì)比模塊,使其注重于圖像中物體的內(nèi)容和外觀.該模塊由多層特征提取器,特征塊對(duì)比損失函數(shù)組成.下面對(duì)整個(gè)模塊框架,局部特征提取器和損失函數(shù)進(jìn)行介紹.

        2.1" 模型框架

        局部特征對(duì)比模型主要包括被重復(fù)使用的局部特征提取器Ex→y,兩個(gè)生成器Gx→y和Gy→x,兩個(gè)判別器Dx和Dy,如圖1所示.其中X代表源域圖像的數(shù)據(jù)分布,Y代表目標(biāo)圖像的數(shù)據(jù)分布.局部特征提取器同時(shí)作為生成器Gx→y和鑒別器Dx的編碼器,在訓(xùn)練模型時(shí),采用解耦的訓(xùn)練方式,僅在最大化對(duì)抗損失的時(shí)候?qū)υ摼幋a器進(jìn)行訓(xùn)練.首先對(duì)于一張來(lái)自X域的圖像x,局部特征提取器Ex→y首先進(jìn)行特征提取,得到的特征向量同時(shí)反饋給生成器Gx→y和鑒別器Dx,通過(guò)生成器Gx→y得到目標(biāo)圖像,多尺度辨別器Dx判斷圖像的真假程度.隨后,將生成的Y域圖像分別傳遞給編碼器Ey→x和Ex→y,由Ey→x得到的特征向量同時(shí)也反饋給生成器Gy→x和鑒別器Dy.最后通過(guò)計(jì)算對(duì)抗損失、循環(huán)一致性損失、重構(gòu)損失和局部特征對(duì)比損失更新網(wǎng)絡(luò)參數(shù).將Y域圖像轉(zhuǎn)換為X域圖像與上述過(guò)程相同,這里不再贅述.

        2.2" 局部特征提取器

        圖2和圖3說(shuō)明了局部特征提取和對(duì)比特征采樣的實(shí)現(xiàn)過(guò)程以及特征對(duì)比損失的計(jì)算,局部特征提取器使用卷積神經(jīng)網(wǎng)絡(luò),可以高效提取特征.對(duì)于X域和Y域的圖像都是通過(guò)同一個(gè)編碼器進(jìn)行兩次下采樣,為了加快模型的收斂速度,在每次卷積操作之前增加Spectral_norm[17],在每次卷積操作之后加入LeakyReLU激活函數(shù),上述正則化和激活函數(shù)可以提高神經(jīng)網(wǎng)絡(luò)的穩(wěn)定性和泛化能力.隨后在輸出圖像Y中采樣一個(gè)錨點(diǎn)(z),也就是查詢樣本,對(duì)于輸入圖像X,在錨點(diǎn)相同位置采樣一個(gè)正樣本(z+),在除此之外的其他位置隨機(jī)采樣負(fù)樣本(z-),所有的采樣都是在網(wǎng)絡(luò)的空間維度上進(jìn)行的.同時(shí)將它們送入特征對(duì)比模塊計(jì)算特征對(duì)比損失,即將其以對(duì)抗性的方式對(duì)錨點(diǎn)、正樣本和生成的負(fù)樣本進(jìn)行對(duì)比學(xué)習(xí),即擴(kuò)大查詢樣本與負(fù)樣本之間的距離,縮小與正樣本的差距,達(dá)到輸出圖像近似于目標(biāo)圖像的效果.

        2.3" 損失函數(shù)

        2.3.1" 對(duì)抗損失

        沒(méi)有使用原始的GAN損失,而是采用了LSGAN中提出的最小二乘損失代替交叉熵?fù)p失從而讓訓(xùn)練更加穩(wěn)定,圖像生成質(zhì)量更高,與目標(biāo)圖像更加相似.目標(biāo)函數(shù)如下:minGx→ymaxDy=(CyEy)Lx→ygan∶=Ey→Y[(Dy(y))2]+Ex~X[(1-Dy(Gx→y(Ex(x))))2],(1)

        當(dāng)最大化Lx→ygan時(shí),固定Ex,訓(xùn)練Ey;當(dāng)最小化Lx→ygan時(shí),同時(shí)固定Ex和Ey.

        2.3.2" 重構(gòu)損失

        使用重構(gòu)損失來(lái)確??梢酝ㄟ^(guò)源域圖像特征和源域生成器去恢復(fù)源域特征,其計(jì)算公式如下:

        minGy→xLx→yrecon∶=Ex~X[|x-Gy→x(Ex(x))|1],(2)

        其中,|·|1計(jì)算L1范數(shù),Ex保持不變.同樣,也可以定義Ly→xrecon.

        2.3.3" 循環(huán)一致性損失

        單純地使用對(duì)抗損失會(huì)使目標(biāo)域生成器只傾向于改變圖像風(fēng)格,從而導(dǎo)致模式崩塌問(wèn)題.因而使用了CycleGAN中的L1損失來(lái)計(jì)算循環(huán)一致性損失,可以很好地保留圖像內(nèi)容.其計(jì)算公式如下:minGy→xGx→yLx→ycycle∶=Ex~X[|x-Gy→x(Ey(Gx→y(Ex(x))))|1].(3)

        2.3.4" 特征對(duì)比損失

        通過(guò)編碼器提取的圖像特征包含豐富的圖像表示信息.為了使生成的目標(biāo)域圖像與源域圖像在圖像結(jié)構(gòu)上和圖像內(nèi)容更加接近,將生成圖像和源域圖像作為輸入,通過(guò)重復(fù)使用同一個(gè)編碼器的L層計(jì)算圖像深層特征.其中s∈{1,2,…,Sl},Sl表示每一層中選取樣本的數(shù)量.在生成圖像內(nèi)容豐富的區(qū)域選取錨點(diǎn),在源域圖像中的同一位置選取正樣本,并在源域圖像的其他位置選取N個(gè)負(fù)樣本.目標(biāo)是在圖像特征向量表征空間中將正樣本與錨點(diǎn)樣本(z)之間的特征距離拉近,將負(fù)樣本與錨點(diǎn)樣本之間的特征距離拉遠(yuǎn),其計(jì)算公式如下:LFeature-PatchNCE(G,H,X)=Ex~X∑Ll=1∑Sls=1(sl,zsl,zS/sl).(4)

        2.3.5" 總損失

        判別器的總損失為:maxEx,Cx,Ey,Eyλ1Lgan+λ2-1LFeature-PatchNCE.(5)

        生成器的總損失為:minGx→yGy→xλ1Lgan+λ2-2Lcycle+λ3Lrecon.(6)

        在實(shí)驗(yàn)中,λ1,λ2-1,λ2-2,λ3分別被固定為λ1=1,λ2-1=1,λ2-2=10,λ3=10.

        3" 實(shí)驗(yàn)分析

        3.1" 數(shù)據(jù)集

        實(shí)驗(yàn)中使用了4種常見(jiàn)的無(wú)配對(duì)基準(zhǔn)數(shù)據(jù)集,分別為horsezebra、summerwinter、vangoghphoto和catdog.其中horsezebra來(lái)源于CycleGAN,它包含2 401張訓(xùn)練圖像,260張測(cè)試圖像,分別為1 067/120(horse),1 334/140(zebra),這些圖像都是從ImageNet[18]中收集的; summerwinter是從Flickr API上下載的,剪掉了黑白照片,其中夏天和冬天的訓(xùn)練集和測(cè)試集分別為1 231/309(summer),962/238(winter);vangoghphoto來(lái)自于CycleGAN,它包含400張梵高畫(huà),7 038張照片,重復(fù)使用梵高畫(huà)的訓(xùn)練集作為測(cè)試集,將照片分為6 287張訓(xùn)練集,751張作為測(cè)試集;catdog在DRIT[19]中被介紹,該數(shù)據(jù)集是從谷歌圖像中截取的,其中貓和狗的訓(xùn)練集和測(cè)試集分別為771/100(cat),1 264/100(dog).在實(shí)驗(yàn)中,將所有數(shù)據(jù)集進(jìn)行裁剪并調(diào)整大小為256×256.

        3.2" 實(shí)驗(yàn)設(shè)置

        所有實(shí)驗(yàn)均在Pytorch框架上進(jìn)行,遵循了NICEGAN的框架設(shè)定,增加了局部特征對(duì)比損失,并相應(yīng)地提取編碼器均勻分布點(diǎn)的特征.在生成器中使用ReLU作為激活函數(shù),在鑒別器中使用斜率為0.2的LeakyReLU.使用學(xué)習(xí)率為0.000 1的Adam優(yōu)化器,在NVIDIA A100顯卡上訓(xùn)練所有模型.對(duì)于數(shù)據(jù)增強(qiáng),以0.5的概率水平翻轉(zhuǎn)圖像,將其大小調(diào)整為286×286,并隨機(jī)裁剪為256×256.所有實(shí)驗(yàn)的BatchSize設(shè)置為1.設(shè)置權(quán)重衰減為0.000 1.所有模型都經(jīng)過(guò)了300 k次迭代訓(xùn)練.

        3.3" 評(píng)價(jià)指標(biāo)

        在本文中,采用圖像風(fēng)格轉(zhuǎn)換領(lǐng)域常用的評(píng)價(jià)指標(biāo)FID和KID來(lái)評(píng)估圖像生成質(zhì)量.FID對(duì)每個(gè)比較圖像集的InceptionNet隱藏激活函數(shù)進(jìn)行高斯分布擬合,然后計(jì)算這些高斯之間的Frechet距離.當(dāng)FID分?jǐn)?shù)越低,生成的圖像越接近真實(shí)圖像,也就意味著生成的網(wǎng)絡(luò)結(jié)果越好.計(jì)算公式如下:

        FID=‖μr-μg‖2+Tr(∑r+∑g-2(∑r∑g)11/2).(7)

        KID與FID類似,KID通過(guò)計(jì)算特征之間最大平均差的平方去測(cè)量?jī)山M樣本之間的差異.此外,與FID不同的是,KID有一個(gè)簡(jiǎn)單的無(wú)偏估計(jì)器,這使得它更可靠,特別是當(dāng)初始特征通道的數(shù)量遠(yuǎn)大于圖像的數(shù)量時(shí).較小的KID分?jǐn)?shù)表示真實(shí)圖像與生成圖像之間具有良好的視覺(jué)相似性.

        3.4" 對(duì)比分析

        與其他5種優(yōu)秀的圖像轉(zhuǎn)換模型進(jìn)行了可視化分析,如圖4所示.從生成的圖像上來(lái)看,UNIT[20]和MUNIT[21]也都成功轉(zhuǎn)換了圖像的語(yǔ)義信息,但在圖像清晰度上還存在比較大的差異,尤其是在vangogh→photo任務(wù)上,這是因?yàn)樵瓉?lái)梵高的圖像沒(méi)有銳利的邊緣,在模型上效果會(huì)比較差.U-GAT-IT-light的模型結(jié)構(gòu)與NICEGAN大致相同,它們?cè)趫D像轉(zhuǎn)換方面取得了更好的效果,但生成的圖像仍會(huì)出現(xiàn)部分模糊,在圖像的結(jié)構(gòu)和細(xì)節(jié)方面仍然存在不足.與其他圖像轉(zhuǎn)換方法相比,本文提出的局部特征對(duì)比很好地處理了圖像細(xì)節(jié)和結(jié)構(gòu)部分,更好地還原了目標(biāo)圖像的特征,如圖4第2列所示.

        表1展示了不同圖像轉(zhuǎn)換模型的定量評(píng)估結(jié)果,如表1所示,本文的方法在大多數(shù)情況下都可以獲得最低的FID和KID分?jǐn)?shù),這說(shuō)明本文的方法在不同的任務(wù)上都有良好的轉(zhuǎn)換能力.相比之下,其他方法僅在某些數(shù)據(jù)集上表現(xiàn)良好.例如CycleGAN只擅長(zhǎng)修改了圖像的低級(jí)特征(例如顏色和紋理),因此在cat→dog數(shù)據(jù)集上取得了最差的FID=125.30.但在horse→zebra結(jié)果上較差的原因在于圖像內(nèi)容和風(fēng)格相差較大,并且圖像背景占據(jù)圖像內(nèi)容較多部分,模型在提取源圖像特征與目標(biāo)域圖像特征進(jìn)行對(duì)比時(shí)會(huì)增大誤差,因此很難控制圖像的整體風(fēng)格.相比之下,本文算法在catdog數(shù)據(jù)集上的表現(xiàn)較為突出,dog→cat得到了最好FID=41.67和KID=0.86,cat→dog得到了最好FID=37.01和KID=0.56.

        3.5" 消融實(shí)驗(yàn)

        為了驗(yàn)證本論文提出的局部特征對(duì)比的有效性,在catdog數(shù)據(jù)集和summerwinter數(shù)據(jù)集上進(jìn)行了消融實(shí)驗(yàn).進(jìn)行了兩次實(shí)驗(yàn),第一次實(shí)驗(yàn)不添加特征對(duì)比模塊,第二次實(shí)驗(yàn)添加特征對(duì)比模塊.“√”表示在原有模型的基礎(chǔ)上增加了此方法,所有的消融實(shí)驗(yàn)都遵循了相同的參數(shù)設(shè)置.

        表2展示了分離特征對(duì)比模塊前后實(shí)驗(yàn)的對(duì)比,根據(jù)表2的結(jié)果,增加特征對(duì)比之后,大部分?jǐn)?shù)據(jù)集得到提升,特別在cat→dog的實(shí)驗(yàn)中,F(xiàn)ID和KID分?jǐn)?shù)分別提升了7.66和0.64,這證明了特征對(duì)比模塊產(chǎn)生了好于之前模型的實(shí)驗(yàn)效果,在圖像轉(zhuǎn)換方面具有實(shí)效性.

        4" 總" 結(jié)

        本文在循環(huán)生成對(duì)抗網(wǎng)絡(luò)上提出了一種局部特征對(duì)比模塊進(jìn)行圖像風(fēng)格轉(zhuǎn)換.局部特征對(duì)比模塊從輸入和輸出圖像上獲取圖像內(nèi)容豐富的特征,使用特征對(duì)比損失更好的維持圖像內(nèi)容,使其與目標(biāo)域圖像特征接近,從而提升生成圖像的效果.與現(xiàn)有的5種優(yōu)秀圖像風(fēng)格轉(zhuǎn)換模型相比,本文的圖像轉(zhuǎn)換方法在4種常用的數(shù)據(jù)集上取得了良好的效果,消融實(shí)驗(yàn)表明本文提出方法的可靠性.

        致謝:本論文數(shù)值計(jì)算得到了河南師范大學(xué)高性能計(jì)算中心的計(jì)算支持.

        參" 考" 文" 獻(xiàn)

        [1] ""ZHENG H T,LIN Z,LU J W,et al.Image inpainting with cascaded modulation GAN and object-aware training[C]//European Conference on Computer Vision.Cham:Springer,2022.

        [2]SONG Y D,HE Z Q,QIAN H,et al.Vision transformers for single image dehazing[J].IEEE Transactions on Image Processing:a Publication of the IEEE Signal Processing Society,2023,32:1927-1941.

        [3]DEKEL T,GAN C,KRISHNAN D,et al.Sparse,smart contours to represent and edit images[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Salt Lake City:IEEE,2018.

        [4]ROMBACH R,BLATTMANN A,LORENZ D,et al.High-resolution image synthesis with latent diffusion models[C]//2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR).New Orleans:IEEE,2022.

        [5]KRIZHEVSKY A,SUTSKEVER I,HINTON G E.ImageNet classification with deep convolutional neural networks[J].Communications of the ACM,2017,60(6):84-90.

        [6]GOODFELLOW I,POUGET-ABADIE J,MIRZA M,et al.Generative adversarial networks[J].Communications of the ACM,2020,63(11):139-144.

        [7]ZHU J Y,PARK T,ISOLA P,et al.Unpaired image-to-image translation using cycle-consistent adversarial networks[C]//2017 IEEE International Conference on Computer Vision(ICCV).Italy:IEEE,2017.

        [8]VASWANI A,SHAZEER N M,PARMAR N,et al.Attention is all you need[EB/OL].[2024-04-06].http://arxiv.org/pdf/1706.03762.

        [9]LEE H Y,LI Y H,LEE T H,et al.Progressively unsupervised generative attentional networks with adaptive layer-instance normalization for image-to-image translation[J].Sensors,2023,23(15):6858.

        [10]CHEN R F,HUANG W B,HUANG B H,et al.Reusing discriminators for encoding:towards unsupervised image-to-image translation[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR).Seattle:IEEE,2020.

        [11]PARK T,EFROS A A,ZHANG R,et al.Contrastive learning for unpaired image-to-image translation[C]// European Conference on Computer Vision.Cham:Springer,2020.

        [12]HERTZMANN A,JACOBS C E,OLIVER N,et al.Image analogies[C]//Proceedings of the 28th annual conference on Computer graphics and interactive techniques.New York:ACM,2001.

        [13]GATYS L A,ECKER A S,BETHGE M.Image style transfer using convolutional neural networks[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Las Vegas:IEEE,2016.

        [14]SZEGEDY C,LIU W,JIA Y Q,et al.Going deeper with convolutions[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Boston:IEEE,2015.

        [15]HE K M,F(xiàn)AN H Q,WU Y X,et al.Momentum contrast for unsupervised visual representation learning[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR).Seattle:IEEE,2020:9726-9735.

        [16]HAN J L,SHOEIBY M,PETERSSON L,et al.Dual contrastive learning for unsupervised image-to-image translation[C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops(CVPRW).Nashville:IEEE,2021.

        [17]MIYATO T,KATAOKA T,KOYAMA M,et al.Spectral normalization for generative adversarial networks[EB/OL].[2024-04-06].http://arxiv.org/abs/1802.05957v1.

        [18]DENG J,DONG W,SOCHER R,et al.ImageNet:a large-scale hierarchical image database[C]//2009 IEEE Conference on Computer Vision and Pattern Recognition.Miami:IEEE,2009.

        [19]LEE H Y,TSENG H Y,HUANG J B,et al.Diverse image-to-image translation via disentangled representations[C]//Computer Vision-ECCV 2018:15th European Conference,Munich:ACM,2018.

        [20]LIU M Y,BREUEL T,KAUTZ J.Unsupervised image-to-image translation networks[C]//Proceedings of the 31st International Conference on Neural Information Processing Systems.California:ACM,2017.

        [21]HUANG X,LIU M Y,BELONGIE S,et al.Multimodal unsupervised image-to-image translation[C]//Computer Vision-ECCV 2018:15th European Conference.Munich:ACM,2018.

        Research on image style transformation of cyclic generation adversarial network based on feature contrast

        Yan Juana, Kang Pengshuaib, Wang Shibinb,c, Mei Xueshub, Li Yanb, Liu Dongb

        (a. Information Construction and Management Office; b. School of Computer and Information Engineering; c. Key Lab of \"Artificial Intelligence and Personalized Learning in Education\" in Henan Province, Henan Normal University, Xinxiang" 453007, China)

        Abstract: The unsupervised image-to-image translation task is to learn the transformation of source domain images to target domain images in the case of unpaired training data. However, the image style conversion task still faces phenomena such as image content loss and model collapse. In order to solve the above problems, we propose a local feature comparison to preserve image content, and obtain multi-layer image deep features through a feature extractor, allowing the image encoder to learn high-level semantic information and obtain more informative image features. At the same time, local feature contrast loss is added to guide the feature extractor to learn features that are beneficial to image content generation. Experimental results show that in most cases, our method outperforms previous methods in terms of FID and KID scores, and the quality of image generation is improved to a certain extent.

        Keywords: feature comparison;" image style conversion; contrast loss

        [責(zé)任編校" 陳留院" 趙曉華]

        18禁免费无码无遮挡网站| 亚洲精品综合第一国产综合| 亚洲av日韩av永久无码下载| av在线免费观看男人天堂| 久久精品国产亚洲av调教| 国产精品二区在线观看| 久久久综合九色合综国产| 欧美成人看片黄a免费看| 末成年女a∨片一区二区| 成人影片麻豆国产影片免费观看| 国产实拍日韩精品av在线| 国产三级精品三级在专区中文| 欧美亚洲另类 丝袜综合网| 国产激情视频在线观看首页| 国产AV秘 无码一区二区三区 | 狠狠精品久久久无码中文字幕 | 亚洲av无码乱码国产精品久久| 丝袜美腿视频一区二区| 一区二区三区人妻av| 午夜视频一区二区三区在线观看| 国产大陆av一区二区三区| 无码av在线a∨天堂毛片| 国产亚洲欧洲三级片A级| 国产人妻黑人一区二区三区| 一本一道波多野结衣av中文| 亚洲性色ai无码| 国产h视频在线观看网站免费| 亚洲自拍另类欧美综合| 人妻少妇中文字幕久久69堂| 91精品啪在线观九色| 国产一区二区三区乱码| 免费网站国产| 国产视频嗯啊啊啊| 白丝美女扒开内露出内裤视频| 国产激情一区二区三区成人| 成年女人免费v片| 国产av精国产传媒| 婷婷综合五月| 日韩少妇无码一区二区免费视频| 女同性恋看女女av吗| 成人欧美一区二区三区在线 |