亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于方向條件的循環(huán)一致性生成對抗網(wǎng)絡(luò)

2022-01-08 11:57:12李錫超

電子設(shè)計工程 2022年1期

李錫超，李念

（1.武漢郵電科學(xué)研究院，湖北武漢 430070；2.南京烽火天地通信發(fā)展有限公司，江蘇南京 210019）

生成對抗網(wǎng)絡(luò)[1]（Generative Adversarial Network，GAN）已延伸到圖像、視頻、自然語言[2]、語音[3]等領(lǐng)域。GAN 直接進行采樣學(xué)習(xí)分布規(guī)律，使得生成數(shù)據(jù)可以逼近真實數(shù)據(jù)。由于GAN 生成數(shù)據(jù)沒有針對性的指導(dǎo)和約束條件，因此原始GAN 生成的圖像是隨機的。條件生成對抗網(wǎng)絡(luò)[4]（Conditions GAN，CGAN）在原始GAN 的基礎(chǔ)上加入了對生成器的約束條件，使得生成的數(shù)據(jù)變得可控。

圖像翻譯指在圖像源域和目標(biāo)域建立映射關(guān)系，在保留源域內(nèi)容的情況下，將圖像轉(zhuǎn)換成目標(biāo)圖像的風(fēng)格而不改變源域圖像的內(nèi)容。CGAN 解決了圖像生成的約束問題，為后來的各種圖像翻譯網(wǎng)絡(luò)提供了思路。配對的圖像翻譯網(wǎng)絡(luò)Pix2pix[5]是一種基于CGAN 的有監(jiān)督模型，利用配對數(shù)據(jù)集進行訓(xùn)練，使圖像翻譯的質(zhì)量和穩(wěn)定性都得到了大幅提升。循環(huán)一致性對抗生成網(wǎng)絡(luò)[6]（Cycle-Consistent GAN，CycleGAN）是基于機器翻譯中對偶的思想[7]，將非配對的訓(xùn)練數(shù)據(jù)用于圖像翻譯，取得了不錯的效果，這很大程度上解決了圖像翻譯中配對數(shù)據(jù)獲取困難的問題。但CycleGAN 存在收斂慢、參數(shù)量大的問題。

針對配對數(shù)據(jù)獲取困難，且現(xiàn)有非配對方法訓(xùn)練緩慢、參數(shù)量大的問題，該文基于CycleGAN 中構(gòu)建對偶任務(wù)的思想和CGAN 的條件約束思想，設(shè)計了新的基于方向條件非對稱的生成網(wǎng)絡(luò)和條件對偶任務(wù)，同時引入同一映射損失[8]用以約束圖像內(nèi)容，引入感知損失[9]保證圖像主體細節(jié)在變換前后的穩(wěn)定性。在與CycleGAN 的對比實驗中，生成和重建圖像質(zhì)量以及訓(xùn)練速度都有所提升，采用了非對稱設(shè)計的網(wǎng)絡(luò)結(jié)構(gòu)，使得網(wǎng)絡(luò)參數(shù)大幅減少。

1 相關(guān)工作

1.1 對偶學(xué)習(xí)

對偶學(xué)習(xí)（Dual Learning）是一種半監(jiān)督[10]的學(xué)習(xí)方式，它通過對稱的兩個學(xué)習(xí)任務(wù)互相反饋，可以從未標(biāo)注的數(shù)據(jù)中學(xué)習(xí)。能夠有效利用中間過程產(chǎn)生的偽標(biāo)簽，甚至在某種程度上可以把對偶學(xué)習(xí)看作是在把未標(biāo)注的數(shù)據(jù)當(dāng)作標(biāo)簽數(shù)據(jù)使用。因此對偶學(xué)習(xí)可以有效利用未標(biāo)注的數(shù)據(jù)，使得對沒有標(biāo)注的數(shù)據(jù)進行訓(xùn)練成為可能。

對偶學(xué)習(xí)最初用于有效利用機器翻譯中的單語數(shù)據(jù)，顯著降低對平行雙語數(shù)據(jù)的要求。CycleGAN 和DualGAN[11]將對偶學(xué)習(xí)應(yīng)用到圖像翻譯領(lǐng)域。循環(huán)一致性的思想基于對偶，被應(yīng)用于不同領(lǐng)域，如在視覺跟蹤中加強前后一致性，在機器翻譯中通過反向翻譯驗證結(jié)果并進行無監(jiān)督機器翻譯。

1.2 生成對抗網(wǎng)絡(luò)

GAN 通過零和博弈的對抗過程來生成模型，在網(wǎng)絡(luò)中同時訓(xùn)練兩個模型：一個是用來捕獲數(shù)據(jù)分布的生成模型，另一個是用來判別數(shù)據(jù)來自訓(xùn)練數(shù)據(jù)還是生成數(shù)據(jù)的判斷模型。在競爭對抗過程中，生成模型不是為了訓(xùn)練得到與特定圖像的最小距離，而是為了騙過判別模型，這使得模型能夠以無監(jiān)督的方式學(xué)習(xí)。

CGAN 擴展了GAN，使得生成對抗網(wǎng)絡(luò)能夠根據(jù)一些額外的條件信息（比如類別標(biāo)簽）來調(diào)整生成器和判別器，使得定向圖像生成和圖像轉(zhuǎn)換成為可能。Pix2pix 基于CGAN 進行一系列改進，拋棄了傳統(tǒng)算法[12]手工建模、需要大量專家知識和設(shè)計復(fù)雜的損失函數(shù)，提出了一個用于解決各類圖像翻譯問題的統(tǒng)一框架。

1.3 非配對的圖像翻譯方法

Pix2pix 要求數(shù)據(jù)必須是有標(biāo)簽的配對輸入，現(xiàn)實碰到的數(shù)據(jù)更多是非配對、沒有標(biāo)簽的，這使得非配對圖像翻譯沒有辦法開展。CycleGAN 基于對偶學(xué)習(xí)的思想，通過循環(huán)一致性損失和對偶網(wǎng)絡(luò)保持圖像結(jié)構(gòu)的前后一致，實現(xiàn)了從非配對的圖像中學(xué)習(xí)映射。

2 基于方向矩陣的循環(huán)一致性生成對抗網(wǎng)絡(luò)

2.1 基于條件的對偶學(xué)習(xí)網(wǎng)絡(luò)

CycleGAN 形成一組對偶學(xué)習(xí)關(guān)系需要兩組相同且對稱的生成器和判別器。結(jié)合CGAN 對于圖像生成具有方向性和指導(dǎo)性的特性，文中提出基于方向向量的條件對偶學(xué)習(xí)結(jié)構(gòu)，如圖1 所示。

圖1 基于方向條件的對偶學(xué)習(xí)任務(wù)

2.2 生成器網(wǎng)絡(luò)結(jié)構(gòu)

2.2.1 生成器結(jié)構(gòu)

生成器主要結(jié)構(gòu)如圖2 所示，包括編碼器、轉(zhuǎn)換器、解碼器。其中編碼器用于提取源域圖像的特征，轉(zhuǎn)換器用于完成風(fēng)格特征的轉(zhuǎn)換，解碼器用于生成轉(zhuǎn)換之后的圖像，使其具有源域的內(nèi)容和目標(biāo)域的風(fēng)格。

圖2 生成器主要結(jié)構(gòu)

生成器網(wǎng)絡(luò)使用了U 型結(jié)構(gòu)，將ResNet[13]中跳層連接的殘差結(jié)構(gòu)改為更靈活的殘差模塊（Residule_block）。

改進的生成器結(jié)構(gòu)如圖3 所示。對于256×256分辨率的圖像，編碼器部分采用多層卷積層+實例正則化+ReLU 激活函數(shù)，獲取源域圖像特征編碼；轉(zhuǎn)換器部分使用9 個殘差模塊，特征層跳躍連接，可以較好地結(jié)合前一層的特征，完成圖像風(fēng)格從源域到目標(biāo)域的翻譯；解碼器部分利用反卷積層從高維度特征向量中還原出低級特征，使生成圖像的風(fēng)格更接近目標(biāo)域風(fēng)格。

圖3 基于方向條件的生成器結(jié)構(gòu)

經(jīng)過編碼、轉(zhuǎn)碼和解碼過程之后生成的圖像在損失函數(shù)的約束下就可以在理論上完成圖像風(fēng)格從源域到目標(biāo)域的遷移。

2.2.2 實例正則化

圖像翻譯中的生成結(jié)果主要依賴于某個圖像實例，而一般的批量正則化（Batch Normalization）則是對每個批次的圖像進行標(biāo)準(zhǔn)化，更注重數(shù)據(jù)分布的一致，所以批量正則化不適合圖像翻譯中對生成圖像進行標(biāo)準(zhǔn)化。在圖像翻譯中使用實例正則化（Instance Normalization）不僅可以加快模型收斂速度，而且可以使每個圖像實例保持相互獨立。因此，在生成網(wǎng)絡(luò)的標(biāo)準(zhǔn)化過程中該文采用了實例正則化。

2.3 判別器網(wǎng)絡(luò)

判別器的網(wǎng)絡(luò)結(jié)構(gòu)如圖4 所示。它用來區(qū)分輸入的樣本來自真實數(shù)據(jù)還是生成器生成的數(shù)據(jù)，其判別作用會激勵生成器生成更加接近目標(biāo)域的數(shù)據(jù)。在具體結(jié)構(gòu)設(shè)計上，卷積網(wǎng)絡(luò)的輸出特征參考PatchGAN[6]結(jié)構(gòu)，源域圖像經(jīng)過5 次卷積和實例正則化，最終得到一個32×32×1 的輸出特征向量，而不是將一維輸出作為分類依據(jù)。特征向量的每一個維度，代表源域圖像中的一個感受野，保證了生成圖像和源域圖像的語義相似性。

圖4 判別器的網(wǎng)絡(luò)結(jié)構(gòu)

2.4 循環(huán)一致性對抗網(wǎng)絡(luò)

2.4.1 對抗損失

GAN 一般由生成模型和判別模型組成，生成模型的目的是學(xué)習(xí)數(shù)據(jù)的分布規(guī)律，生成逼近真實數(shù)據(jù)的圖像；判別模型盡可能區(qū)分給定的圖像是否來自真實數(shù)據(jù)。在不斷地對抗訓(xùn)練中，兩個模型的能力都會變強，最終達到穩(wěn)態(tài)平衡。在原始GAN 中，需要優(yōu)化的目標(biāo)函數(shù)如式（1）所示：

為學(xué)習(xí)數(shù)據(jù)pdata（x），定義了一個先驗輸入噪聲變量pz(z)，然后將數(shù)據(jù)空間映射表示為G(z)，其中G為生成模型。定義了判別模型D，其中D(x)表示x來自真實數(shù)據(jù)而不是由生成模型生成的數(shù)據(jù)的概率。

在這個目標(biāo)函數(shù)中，先優(yōu)化D再優(yōu)化G，拆解之后如下：

1）優(yōu)化判別模型D，目標(biāo)函數(shù)表示如式（2）所示：

優(yōu)化判別模型D時與生成模型無關(guān)。根據(jù)函數(shù)變化規(guī)律，在優(yōu)化過程中，上式第一項中的x來自真實樣本的判別結(jié)果的概率D(x)越接近于1 越好；對于來自生成模型從噪聲z中生成的假樣本G(z)，需要使優(yōu)化的判別結(jié)果D(G(z))越接近于0 越好。

2）優(yōu)化生成模型G，目標(biāo)函數(shù)表示如式（3）所示：

優(yōu)化生成模型時，與真實樣本x無關(guān)。這時只有來自噪聲z生成的假樣本G(z)，生成器的優(yōu)化目標(biāo)是使假樣本G(z)的判別結(jié)果的概率D(G(z))越接近于1 越好。如此，為了使總的優(yōu)化目標(biāo)的損失函數(shù)表達一致，故表示為1-D(G(z))的形式，這樣就成了開始表示形式的目標(biāo)函數(shù)了。

對于x→y映射的對抗損失函數(shù)如式（4）所示：

對于y→x映射的對抗損失函數(shù)如式（5）所示：

2.4.2 循環(huán)一致性損失

對抗訓(xùn)練能夠從理論上學(xué)習(xí)到生成器G的映射，產(chǎn)生與目標(biāo)域相同分布的輸出。但在非配對數(shù)據(jù)訓(xùn)練中，當(dāng)網(wǎng)絡(luò)容量足夠大的時候，會將相同的圖像映射到目標(biāo)域中任意隨機的圖像上，其中任何一個學(xué)習(xí)都可以產(chǎn)生與目標(biāo)分布匹配的輸出。因此，僅使用對抗損失，不能保證學(xué)習(xí)的函數(shù)能將單個的輸入xi映射到期望的輸出yi。為了進一步減少可能的映射空間，映射函數(shù)必須是循環(huán)一致的。對于源域X中的每一張圖像x，圖像經(jīng)過循環(huán)轉(zhuǎn)換網(wǎng)絡(luò)之后，可以還原出源域圖像x。將稱為循環(huán)一致性。同樣的，有。因此定義了循環(huán)一致性損失，如式（6）所示：

循環(huán)一致性損失能夠保證輸入和生成的輸出為一對一的映射關(guān)系。

重建的圖像與輸入的圖像匹配的映射關(guān)系如圖5 所示。

圖5 重建圖像與輸入圖像的映射關(guān)系

2.4.3 同一映射損失和感知損失

由于不同數(shù)據(jù)集上對于圖像翻譯的要求不同，僅依賴對抗損失和循環(huán)一致?lián)p失，不足以滿足圖像翻譯的要求，因此加入同一映射損失用以約束在原圖上的改動。對于生成器定義如式（7）所示：

文獻[8]利用感知損失來增強圖像細節(jié)，故引入感知損失Lpl，使生成的圖像在映射出目標(biāo)域風(fēng)格的同時保留細節(jié)，不產(chǎn)生模糊。感知損失定義如式（8）所示：

其中，φ為特征提取函數(shù)，一般使用VGG16或者VGG19 來提取。D、W和H分別表示特征的深度、寬度和高度。文中使用了VGG16 預(yù)訓(xùn)練模型的深度特征向量計算感知損失，各部分系數(shù)比例如式（9）所示：

這樣整個網(wǎng)絡(luò)的損失函數(shù)如式（10）所示：

3 實驗結(jié)果與分析

3.1 實驗數(shù)據(jù)集和實驗設(shè)置

為驗證改進網(wǎng)絡(luò)能否在非配對數(shù)據(jù)上完成圖像翻譯的任務(wù)，以及為對比改進網(wǎng)絡(luò)與基準(zhǔn)CycleGAN網(wǎng)絡(luò)的性能，選擇相同數(shù)據(jù)集分別進行300 次迭代訓(xùn)練。

這里使用的人像風(fēng)格數(shù)據(jù)為Face2Sketch（以下簡稱F2S），數(shù)據(jù)集樣本如圖6 所示。為了構(gòu)造逼真的人臉數(shù)據(jù)集，通過混合網(wǎng)絡(luò)爬蟲獲取的證件照，基于StyleGAN[14]生成脫敏數(shù)據(jù)，并進行對齊和使用PortraitNet[15]去除背景（如圖6 第1 行）。非配對的黑白人像風(fēng)格數(shù)據(jù)由APDrawingGAN[16]生成（如圖6 第2 行）。形成的訓(xùn)練數(shù)據(jù)包含2 000 張彩色脫敏證件圖片和2 000 張非配對關(guān)系的人像風(fēng)格圖片。

圖6 實驗數(shù)據(jù)集樣本數(shù)據(jù)

3.2 實驗結(jié)果

分別用CycleGAN、該文方法但僅使用對抗損失+循環(huán)一致性損失（以下簡稱該文方法（1））、該文改進的方法結(jié)合感知損失和同一損失并對參數(shù)進行調(diào)整（以下簡稱該文方法（2）），進行圖像翻譯和重建實驗，實驗結(jié)果如圖7 所示。其中，第一行為分別用3 種方法進行圖像翻譯生成的實驗結(jié)果；第三行為由生成圖像進行重建的結(jié)果。

圖7 圖像翻譯與重建結(jié)果比較

從實驗結(jié)果對比可以發(fā)現(xiàn)，在同樣的實驗條件下，采用CycleGAN 和該文方法（1）的細節(jié)表現(xiàn)較差（生成人像眼睛模糊、背景顏色失真）。該文方法（2）可以更好地完成從源域到目標(biāo)風(fēng)格域的轉(zhuǎn)換，同時能夠在重建源域時生成相似度更高、圖像質(zhì)量更高的重建結(jié)果。

為了量化具體的提升，在相同實驗條件下，進行了300 次迭代。使用SSIM（結(jié)構(gòu)相似性）和PSNR（圖像信噪比）圖像質(zhì)量指標(biāo)進行評價。比較結(jié)果如表1所示，其中a→b 為翻譯生成結(jié)果，b→a 為重建結(jié)果。

表1 實驗結(jié)果質(zhì)量評估

該文改進網(wǎng)絡(luò)對比CycleGAN，3 種方法的生成損失收斂對比如圖8 所示，該文方法（2）下降速度更快，最終平穩(wěn)值更小，表明對應(yīng)網(wǎng)絡(luò)的方法速度越快生成質(zhì)量越好。

圖8 3種方法的生成損失收斂對比

文中所提方法在進行圖像翻譯時，與CycleGAN方法相比，在Inception Score 獲得更高得分。同樣進行300 次迭代，計算衡量圖像清晰度的Inception Score 結(jié)果，該文方法（1）可以在F2S 數(shù)據(jù)上獲得更高的得分。并且由于設(shè)計了非對稱結(jié)構(gòu)的生成器，可以在不同方向條件下共享網(wǎng)絡(luò)參數(shù)，因此網(wǎng)路參數(shù)由CycleGAN 的約112 M 減少為約74 M，參數(shù)量下降34%。3 種方法的Inception Score 和網(wǎng)絡(luò)參數(shù)量對比如表2 所示。

表2 Inception Score和參數(shù)量對比

4 結(jié)論

該文研究了圖像翻譯的發(fā)展，針對現(xiàn)有非配對圖像翻譯方法CycleGAN 進行改進，在圖像生成的編碼和解碼過程中使用基于方向條件的方法代替原有的循環(huán)對偶網(wǎng)絡(luò)，減少了36%的參數(shù)量，降低了計算量；設(shè)計了共享參數(shù)的非對稱生成器，通過添加感知損失和同一性損失，提高了圖像生成質(zhì)量，獲得了更加相似的重建結(jié)果。實驗表明，所提網(wǎng)絡(luò)能夠加快生成器的訓(xùn)練速度，獲得了更小的穩(wěn)定收斂，圖像翻譯結(jié)果保留更多的細節(jié)，重建結(jié)果與源域圖像具有更高的相似度。和CycleGAN 相比，文中提出的改進網(wǎng)絡(luò)在相同數(shù)據(jù)集上的表現(xiàn)更好，在SSIM、PSNR 和Inception Score 上獲得了更好的評估參數(shù)，觀察結(jié)果表明，也獲得了更好的圖像質(zhì)量。