李啟航,馮龍,楊清,王雨,耿國華*
基于多尺度密集特征融合的單圖像翻譯
李啟航1,馮龍1,楊清1,王雨2,耿國華1*
(1.西北大學(xué) 信息科學(xué)與技術(shù)學(xué)院,陜西 西安 710127;2.西北大學(xué) 數(shù)學(xué)學(xué)院,陜西 西安 710127)
為了解決現(xiàn)有的單圖像翻譯模型生成的圖像質(zhì)量低、細(xì)節(jié)特征差的問題,本文提出了基于多尺度密集特征融合的單圖像翻譯模型。該模型首先借用多尺度金字塔結(jié)構(gòu)思想,對(duì)原圖像和目標(biāo)圖像進(jìn)行下采樣,得到不同尺寸的輸入圖像。然后在生成器中將不同尺寸的圖像輸入到密集特征模塊進(jìn)行風(fēng)格特征提取,將提取到的風(fēng)格特征從原圖像遷移到目標(biāo)圖像中,通過與判別器不斷的博弈對(duì)抗,生成所需要的翻譯圖像;最后,本文通過漸進(jìn)式增長(zhǎng)生成器訓(xùn)練的方式,在訓(xùn)練的每個(gè)階段中不斷增加密集特征模塊,實(shí)現(xiàn)生成圖像從全局風(fēng)格到局部風(fēng)格的遷移,生成所需要的翻譯圖像。本文在各種無監(jiān)督圖像到圖像翻譯任務(wù)上進(jìn)行了廣泛的實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,與現(xiàn)有的方法相比,本文的方法訓(xùn)練時(shí)長(zhǎng)縮短了75%,并且生成圖像的SIFID值平均降低了22.18%。本文的模型可以更好地捕獲源域和目標(biāo)域之間分布的差異,提高圖像翻譯的質(zhì)量。
單圖像翻譯;圖像風(fēng)格遷移;生成對(duì)抗網(wǎng)絡(luò);密集特征融合;多尺度結(jié)構(gòu)
無監(jiān)督圖像到圖像的翻譯(Unsupervised Image-to-Image Translation, UI2I)旨在學(xué)習(xí)源圖像域向目標(biāo)圖像域轉(zhuǎn)換的映射函數(shù),在改變?cè)磮D像域風(fēng)格特征的同時(shí)保持其幾何形狀不變。例如,馬到斑馬的轉(zhuǎn)換,風(fēng)景照到藝術(shù)畫的轉(zhuǎn)換等等。UI2I在醫(yī)學(xué)圖像[1]、超分辨率[2]、圖像上色[3]、風(fēng)格遷移[4-5]、圖像遙感[6]等應(yīng)用上具有出色表現(xiàn),因此受到了機(jī)器學(xué)習(xí)和計(jì)算機(jī)視覺領(lǐng)域研究人員的廣泛關(guān)注。
近年來,隨著人工智能的興起,生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Network, GAN)的出現(xiàn)推動(dòng)了UI2I領(lǐng)域的進(jìn)一步發(fā)展。GAN[7]由一個(gè)生成器和一個(gè)判別器組成,其本質(zhì)是生成器和判別器的相互對(duì)抗與博弈。雖然GAN可以成功地用于生成視覺逼真的圖像,但仍存在一些挑戰(zhàn)。例如,在沒有成對(duì)訓(xùn)練樣本的UI2I任務(wù)中,GAN存在對(duì)抗損失無約束的問題,即源域和目標(biāo)域之間可能存在多個(gè)映射,導(dǎo)致模型訓(xùn)練不穩(wěn)定、圖像翻譯不能成功,這些問題限制了其實(shí)際的應(yīng)用。針對(duì)這個(gè)問題,CycleGAN[8]、DiscoGAN[9]和DualGAN[10]引入了循環(huán)一致性損失,學(xué)習(xí)從目標(biāo)域到源域的反向映射,并度量重建圖像與輸入圖像是否相同。循環(huán)一致性損失能夠確保翻譯后的圖像具有與目標(biāo)域相似的紋理信息,且不會(huì)發(fā)生幾何變化。
盡管CycleGAN等[8-10]方法成功地解決了在UI2I任務(wù)中損失無約束的問題,但是這些方法仍需要大量的未配對(duì)圖像進(jìn)行訓(xùn)練。在實(shí)際使用中收集大量的未配對(duì)圖像難度較大,所以此方法不具有普適性。為了解決數(shù)據(jù)集的問題,One-Shot無監(jiān)督學(xué)習(xí)通過使用源域和目標(biāo)域的單幅圖像實(shí)現(xiàn)風(fēng)格的轉(zhuǎn)換,在UI2I中得到了廣泛的應(yīng)用。最近提出的SinGAN[11]研究表明,因?yàn)閳D像信息駐留在構(gòu)成圖像補(bǔ)丁的內(nèi)部統(tǒng)計(jì)信息中,所以可以僅從單個(gè)自然圖像中提取大量信息。但它僅限于學(xué)習(xí)單個(gè)圖像分布,不適合UI2I中一組圖像之間的轉(zhuǎn)換。而Lin等人[12]提出的TuiGAN,通過在同一尺度上使用循環(huán)一致性損失[8]來約束兩幅圖像之間的結(jié)構(gòu)差異,實(shí)現(xiàn)了兩幅未配對(duì)圖像的翻譯。然而,這種僅僅依靠連續(xù)改變感受野來提取兩幅圖像之間潛在關(guān)系的方案,并不能有效地在不同尺度上捕捉源域和目標(biāo)域之間分布的差異,這通常伴隨著大量噪聲的產(chǎn)生,導(dǎo)致生成圖像質(zhì)量低,出現(xiàn)偽影、扭曲等不符合人類視覺的部分。所以現(xiàn)有的One-Shot方法在圖像風(fēng)格的提取中存在著特征提取不準(zhǔn)確、風(fēng)格轉(zhuǎn)換不全面等問題。因此,如何在少樣本條件下保證翻譯圖像幾何形狀不發(fā)生改變并實(shí)現(xiàn)風(fēng)格的準(zhǔn)確遷移是目前UI2I任務(wù)的最大挑戰(zhàn)。
針對(duì)以上問題,本文提出了一種新的單圖像翻譯模型。該模型基于密集特征[13]的多尺度融合[14],同時(shí)引入漸進(jìn)式增長(zhǎng)生成器[15],通過端到端的并行訓(xùn)練方式將生成的圖像從全局結(jié)構(gòu)逐漸細(xì)化到局部細(xì)節(jié),并在訓(xùn)練過程中不斷進(jìn)行密集特征模塊的迭代增長(zhǎng),從而實(shí)現(xiàn)不同尺度上特征信息的細(xì)粒度提取。實(shí)驗(yàn)分析表明,在多個(gè)具有挑戰(zhàn)性的圖像翻譯任務(wù)中,與最新的UI2I方法相比,本文的方法可以更好地保留圖像細(xì)節(jié),使生成圖像的SIFID值[11]平均降低22.18%,同時(shí)減少75%模型訓(xùn)練時(shí)間。
如圖1所示,為了更精確地捕捉不同尺度的原圖像和目標(biāo)圖像之間分布的差異,本文利用密集特征模塊[13]來進(jìn)行圖像特征的提取和融合,加強(qiáng)了圖像特征的復(fù)用,進(jìn)而不斷優(yōu)化翻譯圖像的細(xì)節(jié)特征。其次,本文引入了漸進(jìn)式增長(zhǎng)生成器[15],在訓(xùn)練過程中不斷添加新的密集特征模塊來增加生成器的大小,同時(shí)共享上一階段訓(xùn)練得到的權(quán)重,以端到端的方式并行訓(xùn)練,從而加速了模型的收斂速度。最后,本文通過對(duì)抗損失約束生成器生成與目標(biāo)圖像在視覺上相似的翻譯圖像,采用空間相關(guān)性損失[16]來有效地保持原圖像與翻譯圖像場(chǎng)景結(jié)構(gòu)的一致性,采用循環(huán)一致性損失[8]解決模式崩潰問題。
圖1 A圖像域轉(zhuǎn)換到B圖像域的網(wǎng)絡(luò)結(jié)構(gòu)
與傳統(tǒng)UI2I方法不同的是,本文的方法僅需兩幅未配對(duì)的圖像即可完成各種UI2I任務(wù)且圖像翻譯質(zhì)量高、模型訓(xùn)練速度快、能夠保留更多的圖像細(xì)節(jié)特征、生成更加真實(shí)的圖像。
研究表明[17],低維特征對(duì)于保持圖像結(jié)構(gòu)貢獻(xiàn)較大,高維特征對(duì)于保持圖像紋理和顏色非常重要。盡管高維特征擁有較為豐富的細(xì)節(jié)信息,但是其所包含的語義信息較為匱乏。并且在深度學(xué)習(xí)網(wǎng)絡(luò)中,隨著網(wǎng)絡(luò)深度的加深,梯度消失問題會(huì)愈加明顯[18],從而導(dǎo)致低維特征不能得到有效地利用。
針對(duì)以上問題,本文基于DenseNet設(shè)計(jì)了一種密集特征融合模塊。首先,采用三個(gè)3×3卷積從輸入圖像提取特征。其次,將各個(gè)階段提取到的圖像特征進(jìn)行拼接融合,并利用這些特征將原圖像的特征向量轉(zhuǎn)換為目標(biāo)圖像的特征向量。同時(shí)為了避免拼接操作造成輸出特征維度過大的問題,采用1×1卷積降低輸出特征維度。最后通過一個(gè)3×3卷積輸出翻譯圖像。整體過程如圖2所示。
圖2 特征提取及融合示意圖
由圖2可以看出,與DenseNet不同的是,本文針對(duì)單圖像翻譯任務(wù)設(shè)計(jì)的密集特征模塊僅由三個(gè)卷積塊及一個(gè)轉(zhuǎn)換層組成,以防止網(wǎng)絡(luò)的卷積層數(shù)過多導(dǎo)致訓(xùn)練過擬合。同時(shí)為了保證在多階段訓(xùn)練過程中每階段的圖像尺度不變,本文去掉了DenseNet轉(zhuǎn)換層中平均池化操作。最后,由于數(shù)據(jù)僅有兩幅圖像,能夠提取的圖像特征有限,因此本文將每一層輸出的特征數(shù)設(shè)置為16。
本文一共使用了四種損失函數(shù),分別為對(duì)抗損失、循環(huán)一致性損失、空間相關(guān)性損失、總變差損失。詳細(xì)描述如下。
241總損失
242對(duì)抗損失
243循環(huán)一致性損失
244空間相關(guān)性損失
245總變差損失
本文以CycleGAN、SinGAN、TuiGAN為基線,使用圖像質(zhì)量評(píng)價(jià)指標(biāo)Single Image Fréchet Inception Distance (SIFID)在Monet2Photo、Horse2Zebra、GrumpifyCat數(shù)據(jù)集上,評(píng)估所提出的方法。SIFID[11]通過計(jì)算原圖像和翻譯圖像深度特征之間的Fréchet Inception Distance (FID)[21]來評(píng)估翻譯圖像的質(zhì)量,SIFID分?jǐn)?shù)越低,兩幅圖像風(fēng)格越相似,翻譯圖像質(zhì)量越高。
Monet2Photo數(shù)據(jù)集由1 193幅莫奈繪畫和7 038張風(fēng)景照片組成,該數(shù)據(jù)集由CycleGAN[8]發(fā)布。Horse2Zebra數(shù)據(jù)集包含1 067幅馬圖像、1 344幅斑馬圖像作為訓(xùn)練圖像,120幅馬圖像、140幅斑馬圖像作為測(cè)試圖像,該數(shù)據(jù)集在CycleGAN[8]中收集。GrumpifyCat數(shù)據(jù)集包含88幅藍(lán)貓圖像和214幅貓圖像,該數(shù)據(jù)集在CUT[5]中收集。
331實(shí)驗(yàn)結(jié)果
為確保實(shí)驗(yàn)結(jié)果準(zhǔn)確,本文使用CycleGAN、SinGAN、TuiGAN的官方代碼和默認(rèn)配置訓(xùn)練。其中,CycleGAN使用源域和目標(biāo)域完整的數(shù)據(jù)集訓(xùn)練,SinGAN使用源域僅有一幅圖像訓(xùn)練,TuiGAN和本文使用源域和目標(biāo)域都有一幅圖像訓(xùn)練。
分別應(yīng)用訓(xùn)練得到的CycleGAN、SinGAN、TuiGAN和本文的模型在3個(gè)具有挑戰(zhàn)性的任務(wù)上進(jìn)行圖像翻譯實(shí)驗(yàn),這3個(gè)任務(wù)包括馬?斑馬、風(fēng)景?莫奈畫、藍(lán)貓?貓,部分實(shí)驗(yàn)結(jié)果如圖3所示。圖3中第一列是原圖像,第二列是目標(biāo)圖像,第三列到第六列分別為CycleGAN、SinGAN、TuiGAN和本文的圖像翻譯結(jié)果。
圖3 圖像翻譯實(shí)驗(yàn)結(jié)果比較
從實(shí)驗(yàn)結(jié)果對(duì)比可以發(fā)現(xiàn),本文的方法總體上優(yōu)于SinGAN和TuiGAN,在某些情況下甚至比使用完整數(shù)據(jù)集訓(xùn)練的CycleGAN效果更好。本文從以下三個(gè)實(shí)驗(yàn)結(jié)果進(jìn)行詳細(xì)分析對(duì)比:
(1)在馬→斑馬翻譯任務(wù)上,CycleGAN生成的圖像雖然具有斑馬的紋理,但沒有斑馬的顏色特征。SinGAN僅改變了背景中草的顏色,無法學(xué)習(xí)斑馬的整體風(fēng)格特征。TuiGAN雖然捕捉到斑馬的紋理特征及顏色特征,但其生成細(xì)節(jié)較差,如斑馬頭部和腹部條紋紊亂。本文方法生成的圖像同時(shí)具有斑馬的紋理特征和顏色特征,且紋理更加細(xì)致,生成的斑馬條紋更加接近于目標(biāo)圖像。
(2)在莫奈畫→風(fēng)景翻譯任務(wù)上,CycleGAN生成的圖像結(jié)構(gòu)完整、清晰、不含噪聲,圖像質(zhì)量較高,而在生成圖像的風(fēng)格特征方面,由于其使用完整的數(shù)據(jù)集進(jìn)行訓(xùn)練,因此生成圖像的風(fēng)格特征是目標(biāo)圖像域的整體風(fēng)格特征,而不是目標(biāo)圖像的風(fēng)格特征,例如目標(biāo)圖像的天空是淺藍(lán)色、樹木是棕色,生成圖像的天空是藍(lán)色、樹木是綠色。SinGAN和TuiGAN雖然都傳遞了目標(biāo)圖像的整體顏色特征,但生成圖像的空間結(jié)構(gòu)發(fā)生了改變,如山的輪廓不完整。本文方法生成的圖像能夠準(zhǔn)確地遷移目標(biāo)圖像的整體風(fēng)格特征,且空間結(jié)構(gòu)完整。
(3)在藍(lán)貓→貓翻譯任務(wù)上,由于該數(shù)據(jù)集較少,CycleGAN容易發(fā)生過擬合現(xiàn)象,導(dǎo)致訓(xùn)練不穩(wěn)定,如生成的圖像僅保留了目標(biāo)圖像的顏色特征,但空間結(jié)構(gòu)發(fā)生了較大的變化,圖像噪聲過多。SinGAN在翻譯結(jié)果上改變了原圖像的全局顏色,不能傳遞高級(jí)語義信息,無法學(xué)習(xí)目標(biāo)圖像的風(fēng)格特征。TuiGAN生成的圖像雖然具有目標(biāo)圖像的整體風(fēng)格特征,但圖像偽影過多,圖像質(zhì)量較差。本文方法生成的圖像具有目標(biāo)圖像的風(fēng)格特征,同時(shí)幾乎不存在偽影,圖像質(zhì)量高,能夠取得更加逼真的風(fēng)格遷移的效果。
332圖像質(zhì)量評(píng)估
表1給出了用SIFID、SSIM、PSNR圖像質(zhì)量評(píng)價(jià)指標(biāo)對(duì)CycleGAN、SinGAN、TuiGAN和本文所提出方法在3個(gè)翻譯任務(wù)上結(jié)果的比較。
從表1可知,在風(fēng)景?莫奈畫翻譯任務(wù)上,CycleGAN的各項(xiàng)質(zhì)量評(píng)價(jià)指標(biāo)更好,這是由于CycleGAN使用的是完整的數(shù)據(jù)集訓(xùn)練,相比單圖像翻譯模型,其生成的翻譯圖像通常質(zhì)量更高且風(fēng)格遷移效果更好。
表1SIFID,SSIM和PSNR指標(biāo)的實(shí)驗(yàn)
Tab.1 Experiment evaluation by SIFID, SSIM and PSNR
在馬?斑馬和藍(lán)貓?貓這兩個(gè)翻譯任務(wù)上,本文的方法都取得了更好的SIFID、SSIM、PSNR評(píng)分,這說明本文的模型成功地捕捉了原圖像和目標(biāo)圖像之間分布的差異,能夠生成質(zhì)量更高、結(jié)構(gòu)更加完整、風(fēng)格遷移效果更加逼真的翻譯圖像,在某些情況下甚至比使用完整數(shù)據(jù)集訓(xùn)練的CycleGAN效果更好。相比TuiGAN,本文模型在馬?斑馬、風(fēng)景?莫奈畫、藍(lán)貓?貓這三個(gè)翻譯任務(wù)上,SIFID平均降低22.18%,SSIM平均提高28.33%,PSNR平均提高17.12%。
333模型參數(shù)評(píng)估
因CycleGAN需要使用完整的數(shù)據(jù)集訓(xùn)練,故不參與本節(jié)的模型參數(shù)評(píng)估。在評(píng)估實(shí)驗(yàn)中,按照SinGAN和TuiGAN官方代碼的默認(rèn)配置訓(xùn)練模型。圖4給出了SinGAN、TuiGAN以及本文的模型參數(shù)總量和在馬?斑馬翻譯任務(wù)上的訓(xùn)練時(shí)長(zhǎng)。
圖4 模型參數(shù)及訓(xùn)練時(shí)長(zhǎng)
由圖3和圖4可知,本文模型在馬?斑馬翻譯任務(wù)上取得了比SinGAN、TuiGAN更好的實(shí)驗(yàn)結(jié)果,并且參數(shù)量遠(yuǎn)遠(yuǎn)少于SinGAN和TuiGAN模型。此外,在訓(xùn)練模型時(shí)間上,本文模型較TuiGAN縮短了約3/4,這表明本文端到端的訓(xùn)練方式可以有效地加快模型收斂速度,結(jié)合密集特征模塊的優(yōu)點(diǎn),大幅度地減少了模型的參數(shù)量。
334模型通用性評(píng)估
為了進(jìn)一步驗(yàn)證本文的模型在單圖像翻譯任務(wù)上的通用性,本文展示了在三項(xiàng)對(duì)象轉(zhuǎn)換任務(wù)上的結(jié)果,這三項(xiàng)任務(wù)是:狗對(duì)象互換、狐貍對(duì)象互換、貓對(duì)象互換。實(shí)驗(yàn)結(jié)果如圖5所示。
從圖5可以看出,本文的模型在許多情況下都具有良好的性能,可以生成內(nèi)容真實(shí)、質(zhì)量較高、風(fēng)格遷移效果較好的翻譯圖像,這表明本文的模型在單圖像翻譯任務(wù)中具有一定的通用性。
圖5 本文模型在對(duì)象轉(zhuǎn)換任務(wù)上的實(shí)驗(yàn)結(jié)果
為了驗(yàn)證本文所提出的方法在單圖像翻譯任務(wù)上的有效性,本文基于馬?斑馬、風(fēng)景?莫奈畫、藍(lán)貓?貓翻譯任務(wù)共設(shè)置了5個(gè)消融實(shí)驗(yàn)。部分實(shí)驗(yàn)結(jié)果如圖6所示。實(shí)驗(yàn)在本文模型的基礎(chǔ)之上:(Ⅰ)剔除密集特征模塊,改用ResNet模塊;(Ⅱ)剔除漸進(jìn)式增長(zhǎng)生成器,同時(shí)不共享每階段訓(xùn)練的權(quán)重;(Ⅲ)剔除空間相關(guān)性損失;(Ⅳ)剔除循環(huán)一致性損失;(Ⅴ)剔除總變差損失;(Ⅵ)本文方法。
圖6 消融實(shí)驗(yàn)結(jié)果比較
從圖6可以看出:(Ⅰ)用ResNet替換密集特征模塊,各尺度的圖像特征不能得到有效地利用,容易造成翻譯圖像出現(xiàn)偽影等不符合人類視覺的部分。(Ⅱ)若不漸進(jìn)式增加生成器的大小,生成器不能更好地傳遞圖像特征,同時(shí)訓(xùn)練時(shí)長(zhǎng)增加。(Ⅲ)如果沒有空間相關(guān)性損失,生成的結(jié)果會(huì)受到顏色和紋理不準(zhǔn)確的影響。(Ⅳ)在沒有循環(huán)一致性損失的情況下,本文的模型不能保證翻譯圖像的完整性。(Ⅴ)如果沒有總變差損失,本文的模型可能會(huì)產(chǎn)生一些噪聲,如生成結(jié)果中左側(cè)部分的粉色。
如表2所示,通過計(jì)算本文模型不同變體的SIFID、SSIM、PSNR來評(píng)估消融實(shí)驗(yàn)結(jié)果。本文的完整模型仍然獲得了最好的三項(xiàng)圖像質(zhì)量評(píng)價(jià)指標(biāo),這證明了本文所提出的方法在單圖像翻譯任務(wù)上的有效性。
表2SIFID,SSIM和PSNR指標(biāo)的消融實(shí)驗(yàn)評(píng)估
Tab.2 Ablation experiments evaluation by SIFID, SSIM and PSNR
本文提出了一種基于多尺度密集特征融合的單圖像翻譯模型,適用于僅有兩幅未配對(duì)圖像的數(shù)據(jù)集。該模型在循序遞增的圖像尺度上多階段訓(xùn)練,首先學(xué)習(xí)圖像的全局結(jié)構(gòu),再學(xué)習(xí)圖像的紋理和風(fēng)格特征。本文設(shè)計(jì)的密集特征模塊在不同尺度的圖像上進(jìn)行特征提取和融合,加強(qiáng)了圖像特征的復(fù)用,解決了梯度消失的問題,提高了圖像翻譯的質(zhì)量。同時(shí)本文引入了漸進(jìn)式增長(zhǎng)生成器,使模型以端到端的方式訓(xùn)練,加速了網(wǎng)絡(luò)的收斂,改善了融合不同尺度特征時(shí)直接維度拼接帶來的信息損失。實(shí)驗(yàn)結(jié)果表明,在數(shù)據(jù)極其有限的圖像翻譯任務(wù)中,本文的方法能夠生成細(xì)節(jié)更加豐富、內(nèi)容更加逼真的高質(zhì)量圖像。在馬?斑馬、風(fēng)景?莫奈畫、藍(lán)貓?貓這三個(gè)翻譯任務(wù)上,本文方法的圖像質(zhì)量評(píng)價(jià)指標(biāo)相比TuiGAN都更好,SIFID平均降低了22.18%,SSIM平均提高了28.33%,PSNR平均提高了17.12%。此外,本文模型的訓(xùn)練時(shí)長(zhǎng)較TuiGAN減少了約75%。
[1] 呂曉琪,吳涼,谷宇,等. 基于三維卷積神經(jīng)網(wǎng)絡(luò)的低劑量CT肺結(jié)節(jié)檢測(cè)[J]. 光學(xué)精密工程, 2018, 26(5): 1211-1218.
LV X Q, WU L, GU Y,. Detection of low dose CT pulmonary nodules based on 3D convolution neural network[J]., 2018, 26(5): 1211-1218.(in Chinese)
[2] KIM J, LEE J K, LEE K M. Accurate image super-resolution using very deep convolutional networks[C]. 20162730,2016,,,IEEE, 2016: 1646-1654.
[3] ZHANG R, ISOLA P, EFROS A A. Colorful image colorization[C].2016, 2016: 649-666.
[4] 杜振龍,沈海洋,宋國美,等. 基于改進(jìn)CycleGAN的圖像風(fēng)格遷移[J]. 光學(xué)精密工程, 2019, 27(8): 1836-1844.
DU Z L, SHEN H Y, SONG G M,. Image style transfer based on improved CycleGAN[J]., 2019, 27(8): 1836-1844.(in Chinese)
[5] PARK T, EFROS A A, ZHANG R,. Contrastive learning for unpaired image-to-image translation[C].2020, 2020: 319-345.
[6] 李宇,劉雪瑩,張洪群,等. 基于卷積神經(jīng)網(wǎng)絡(luò)的光學(xué)遙感圖像檢索[J]. 光學(xué)精密工程, 2018, 26(1): 200-207.
LI Y, LIU X Y, ZHANG H Q,. Optical remote sensing image retrieval based on convolutional neural networks[J]., 2018, 26(1): 200-207.(in Chinese)
[7] GOODFELLOW I, POUGET A J, MIRZA M,. Generative adversarial nets[J]., 2014, 27.
[8] ZHU J Y, PARK T, ISOLA P,. Unpaired image-to-image translation using cycle-consistent adversarial networks[C]. 20172229,2017,,IEEE, 2017: 2242-2251.
[9] KIM T, CHA M, KIM H,. Learning to discover cross-domain relations with generative adversarial networks[C]., 2017: 1857-1865..
[10] YI Z L, ZHANG H, TAN P,. DualGAN: unsupervised dual learning for image-to-image translation[C]. 20172229,2017,,IEEE, 2017: 2868-2876.
[11] SHAHAM T R, DEKEL T, MICHAELI T. SinGAN: learning a generative model from a single natural image[C]. 2019()272,2019,,(). IEEE, 2019: 4569-4579.
[12] LIN J X, PANG Y X, XIA Y C,. TuiGAN: learning versatile image-to-image translation with two unpaired images[C].2020, 2020: 18-35.
[13] HUANG G, LIU Z, MAATEN LVAN DER,. Densely connected convolutional networks[C]. 20172126,2017,,,IEEE, 2017: 2261-2269.
[14] KARRAS T, AILA, LAINE S,. Progressive growing of GANs for improved quality, stability, and variation[EB/OL].:: 1710.10196[cs.NE]. https://arxiv.org/abs/1710.10196
[15] HINZ T, FISHER M, WANG O,. Improved techniques for training single-image GANs[C]. 202138,2021,,,IEEE, 2021: 1299-1308.
[16] ZHENG C X, CHAM T J, CAI J F. The spatially-correlative loss for various image translation tasks[C]. 2021()2025,2021,,,IEEE, 2021: 16402-16412.
[17] LEE H Y, TSENG H Y, HUANG J B,. Diverse image-to-image translation via disentangled representations[C].2018, 2018: 35-51.
[18] HE K M, ZHANG X Y, REN S Q,. Deep residual learning for image recognition[C]. 20162730,2016,,,IEEE, 2016: 770-778.
[19] GULRAJANI I, AHMED F, ARJOVSKY M,. Improved training of wasserstein gans[J].:1704.00028, 2017.
[20] PUMAROLA A, AGUDO A,MARTINEZ A M,. GANimation: anatomically-aware facial animation from a single image[J].-::, 2018, 11214: 835-851.
[21] HEUSEL M, RAMSAUER H,UNTERTHINER T,. GANs trained by a two time-scale update rule converge to a local Nash equilibrium[J]., 2017.
[22] NEWEY W K. Adaptive estimation of regression models via moment restrictions[J]., 1988, 38(3): 301-339.
[23] DEMIR U, UNAL G. Patch-based image inpainting with generative adversarial networks[EB/OL].:: 1803.07422[cs.CV]. https://arxiv.org/abs/1803.07422
Single-image translation based on multi-scale dense feature fusion
LI Qihang1,F(xiàn)ENG Long1,YANG Qing1,WANG Yu2,GENG Guohua1*
(1,,’710127,;2,,’710127,),:1925995331
To solve the problems of low image quality and poor detail features generated by the existing single image translation models, a single image translation model based on multi-scale dense feature fusion is proposed in this paper. First, in this model, the idea of multi-scale pyramid structure is used to downsample the original and target images to obtain input images of different sizes. Then, in the generator, images of different sizes are input into the dense feature module for style feature extraction, which are transferred from the original image to the target image, and the required translation image is generated through continuous game confrontation with the discriminator. Finally, dense feature modules are added in each stage of training by means of incremental growth generator training, which realizes the migration of generated images from global to local styles, and generates the required translation images. Extensive experiments have been conducted on various unsupervised images to perform image translation tasks. The experimental results demonstrate that in contrast to the existing methods, the training time of this method is shortened by 80%, and the SIFID value of the generated image is reduced by 22.18%. Therefore, the model proposed in this paper can better capture the distribution difference between the source and target domains, and improve the quality of image translation.
single-image translation; image style transfer; GAN; dense feature fusion; multi-scale structure
TP391
A
10.37188/OPE.20223010.1217
1004-924X(2022)10-1217-11
2021-12-22;
2022-01-18.
國家自然科學(xué)基金資助項(xiàng)目(No.61731015);國家重點(diǎn)研發(fā)計(jì)劃資助項(xiàng)目(No. 2019YFC1521103,No.2020YFC1523301);陜西省重點(diǎn)產(chǎn)業(yè)鏈資助項(xiàng)目(No.2019ZDLSF07-02);青海省重點(diǎn)研發(fā)計(jì)劃資助項(xiàng)目(No.2020-SF-142)
李啟航(1997),男,河南鄭州人,西北大學(xué)信息科學(xué)與技術(shù)學(xué)院2020級(jí)碩士研究生在讀,現(xiàn)主要從事計(jì)算機(jī)視覺、圖像風(fēng)格遷移方面的研究。Email: liqihang@stumail.nwu.edu.cn
耿國華(1955),女,山東萊西人,教授,博士生導(dǎo)師,1976 和1988 年于西北大學(xué)分別獲得學(xué)士和碩士學(xué)位,主要從事虛擬現(xiàn)實(shí)、可視化技術(shù)、圖像處理和智能信息處理等領(lǐng)域的理論及應(yīng)用工程創(chuàng)新研究。E-mail: 1925995331@qq.com