鄒秀芳,朱定局
(華南師范大學 計算機學院,廣州 510631)
近年來,人們對深度學習研究的熱情高漲,深度學習在許多領域取得了不錯的成果,各種框架、模型相繼被提出,并且不斷的被完善、改進.其中,生成對抗網(wǎng)絡(GAN)是Goodfellow 等[1]在2014年提出的一種生成模型.GAN 的提出受到二人零和博弈(即參與博弈的兩人利益之和為零,一方的利益是另一方的損失)的啟發(fā),這個模型包含一個生成器和一個判別器.生成器負責捕捉真實數(shù)據(jù)樣本的分布并生成新的數(shù)據(jù)分布,而判別器則是一個二分器,判別輸入的數(shù)據(jù)是真實的數(shù)據(jù)還是生成的數(shù)據(jù).GAN 的優(yōu)化是“極小極大博弈”問題,使生成器生成的數(shù)據(jù)分布盡最大的可能接近真實數(shù)據(jù)分布,從而“迷惑”判別器.
近兩年來,GAN 已成為一個受歡迎的研究方向,越來越多關于GAN 的論文發(fā)表(如圖1),其中包含對GAN 理論的完善,對GAN 模型的改進及應用研究.著名學者LeCun Y 對GAN 模型評價頗高,稱其為“有史以來最酷的事情”、“在過去十年機器學習研究中最有趣的點子”.目前,生成對抗性網(wǎng)絡主要應用于計算機圖像與視覺領域,可以生成逼真的圖像,可以生成人臉,可以對目標進行檢測,也可以生成真實的場景并應用于無人駕駛場景;還可以根據(jù)圖像的上下文進行圖像修復[2],對圖像進行轉(zhuǎn)換[3].此外,GAN 還可以應用于文本生成、語音和語言的生成、視頻預測等.
圖1 命名為GAN 的論文的數(shù)量[4]
GAN 的提出受到“二人零和博弈”的啟發(fā),由一個生成器和一個判別器構(gòu)成.生成器根據(jù)輸入的樣本數(shù)據(jù)分布,生成新的數(shù)據(jù)分布,新的數(shù)據(jù)分布需要盡量接近真實數(shù)據(jù)分布,越接近表示生成的數(shù)據(jù)就越真實.判別器的作用則是判別輸入數(shù)據(jù)是來自真實數(shù)據(jù)還是生成器生成的數(shù)據(jù).GAN 的模型結(jié)構(gòu)如圖2所示.生成器和判別器可以用神經(jīng)網(wǎng)絡或者函數(shù)表示,用G表示生成器,D表示判別器.生成器G的目的是生成基于數(shù)據(jù)分布的pg,G的輸入為隨機噪聲z(例如高斯噪聲),z取樣于先驗分布pz(z).判別器對輸入的數(shù)據(jù)進行判別,如果是真實數(shù)據(jù)則輸出1,否則的話輸出0.D(x)表示輸入是真實數(shù)據(jù)的概率.對于初代生成器G和判別器D來說,初代D很容易能判別出是真實數(shù)據(jù)還是生成的數(shù)據(jù),接下來,初代G進行優(yōu)化產(chǎn)生第二代G,初代D不能判別第二代G生成的數(shù)據(jù)是假的,那么初代D也跟著優(yōu)化,產(chǎn)生第二代D,能判別第二代G生成的數(shù)據(jù)是否是真實數(shù)據(jù),接著產(chǎn)生第三代、第四代,直到第N代D無法正確判別數(shù)據(jù)是來自真實數(shù)據(jù)還是生成器G生成的.
圖2 GAN 的模型結(jié)構(gòu)
生成器G和判別器D之間是互相對抗的,其優(yōu)化過程是極小極大化過程.GAN 的目標函數(shù)如式(1)所示.
GAN 的優(yōu)化過程是,先固定生成器G,優(yōu)化判別器D,求得最優(yōu)判別器D*;然后固定D為最優(yōu)D*,優(yōu)化生成器G,求得最優(yōu)G.
當G固定的時候,優(yōu)化判別器D就是求得使F(D,G)取得最大值的D*.F(D,G)可以寫為如下形式:
對于任意非零實數(shù)a,b,且實數(shù)y∈[0,1],那么式(3):
H(G)=V(D?G,G)
把最優(yōu)判別器D*代入式(1),令,可以得到:
其中,JSD是香農(nóng)散度,它是KL 的對稱平滑版本,表示兩個分布之間的差異.當pg=pdata時,H(G)取得最小值H*=-log(4),此時G為最優(yōu).GAN 的訓練采用的是迭代的數(shù)值方法,為了防止過擬合,通常是對D進行k次優(yōu)化后,再對G進行一次優(yōu)化.
GAN 模型包含生成器G和判別器D,其模型有許多優(yōu)點,但也存在一些問題.首先,GAN 沒有使用復雜的馬爾科夫鏈,而是用反向傳播算法來獲得梯度;其次,GAN 的學習過程不需要過多的推理,它的模型可以是神經(jīng)網(wǎng)絡,也可以是多種函數(shù);再者,GAN 可以表示清晰,甚至退化的分布,并且能生成高清的圖像.
GAN 基于連續(xù)數(shù)據(jù),且假設有無限建模能力.GAN模型在生成和優(yōu)化過程中,存在一些缺點:(1) GAN 在訓練過程中,優(yōu)化k次判別器D,同時優(yōu)化1 次生成器G,需要保持D和G的同步,容易造成GAN 訓練的不穩(wěn)定;(2) GAN 存在模式崩潰(collapse mode)[5]現(xiàn)象,即生成器可能會生成許多它認為是多樣的,實際上卻只有細微差別的樣本,這樣會造成多樣性缺乏;(3) GAN存在梯度消失問題,即當真實樣本和生成樣本之間沒有重疊或者重疊可以忽略時,其優(yōu)化網(wǎng)絡的目標函數(shù)的Jensen-Shannon 散度是一個常數(shù).這些問題在之后提出的衍生模型中得到了解決.
隨著人工智能的發(fā)展,研究者們對GAN 的研究熱情高漲,有對GAN 模型框架、理論的改進,有對GAN模型進行改造,或結(jié)合其他學習方法,使其能應用于更多場景.GAN 各種不同的衍生模型比較與區(qū)別見表1.接下來將介紹對GAN 進行優(yōu)化和衍生的各種不同模型.
表1 GAN 各種不同的衍生模型比較與區(qū)別
GAN 模型是基于Lipschitz 連續(xù)空間,且依賴于生成樣本是可微的,一般對離散數(shù)據(jù)不起作用.Devon 等[6]提出一種引入離散數(shù)據(jù)的GAN 訓練方法——邊界尋找生成對抗網(wǎng)絡,稱為BGAN.BGAN 使用來自鑒別器的估計差分度量來計算生成的樣本的重要性權(quán)重,為訓練生成器提供一個基于KL-散度的策略梯度,且這個策略梯度引入獎勵機制,使用重要權(quán)重作為獎勵信號.GAN 應用于離散數(shù)據(jù)的另一種方法是Tong 等[7]提出的最大似然增強的離散生成對抗網(wǎng)絡,其對GAN 的目標沒有直接進行優(yōu)化,而是使用遵循對數(shù)似然的對應的輸出推導出了一種全新的、低方差的目標,主要是為了解決在離散數(shù)據(jù)上的反向傳播困難的問題.雖然GAN 能應用于離散數(shù)據(jù)空間,但這幾種方法實現(xiàn)的效果不是很好,不如基于連續(xù)空間的效果顯著.
Radford 等[8]提出了深度卷積生成對抗網(wǎng)絡(DCGAN),將卷積神經(jīng)網(wǎng)絡(CNN)[9]應用到生成對抗網(wǎng)絡中,通過對GAN 的體系結(jié)構(gòu)更改,提高了GAN 的訓練的穩(wěn)定性.在DCGAN 中,對GAN 的體系結(jié)構(gòu)進行了一些修改:將空間池化層函數(shù)替換為跨卷積;去除了完全連接層,能提高模型的穩(wěn)定性;除了生成器的輸出層和判別器的輸入層之外,對每個單元的輸入進行批歸一化操作;在生成器中使用ReLU 激活函數(shù),在其輸出層使用Tanh 函數(shù);在判別器中使用LeakyReLU 激活函數(shù).DCGAN 具有更強大的生成能力,訓練也更穩(wěn)定,生成的樣本具有更多的多樣性,因此,很多對于GAN 的改進都是基于DCGAN 的結(jié)構(gòu).DCGAN 只是對GAN 模型的結(jié)構(gòu)進行了改進,對生成器和判別器進一步的細化,并沒有對優(yōu)化方法進行改進.
GAN 在采用梯度下降訓練過程中存在梯度消失問題,為了解決這個問題,Arjovsky 等[10]提出Wasserstein GAN (WGAN).WGAN 使用Earth-Mover 距離代替Jensen-Shannon 散度來計算生成樣本分布與真實樣本分布之間的距離.WGAN 在生成器和判別器的訓練中不需要保持平衡,解決了GAN 訓練不穩(wěn)定的問題,同時也解決了模式崩潰現(xiàn)象,保證了生成樣本的多樣性,并且不需要精細設計網(wǎng)絡架構(gòu)就能實現(xiàn)上述功能.WGAN 使用了權(quán)重剪枝(weight clipping)對批評函數(shù)施加Lipschitz 約束,但是存在兩個問題:(1) weight clipping 獨立的限制每一個參數(shù)的取值范圍,而判別器的損失函數(shù)希望盡量拉大真實樣本與生成樣本之間的差距,會導致判別器學習更簡單的映射函數(shù);(2) 如果clipping threshold 設置不合理,weight clipping 會容易導致梯度消失或梯度爆炸.Gulrajani 等[11]提出了一種代替weight clipping 的方法—引入梯度懲罰(gradient penalty),即對批評函數(shù)的輸入準則進行處罰,稱為WGAN-GP.WGAN-GP 只對采樣點x起作用,而對真實數(shù)據(jù)附近的區(qū)域沒有檢查,判別器在這個區(qū)域可以自由的違反Lipschitz 連續(xù).為了增強WGAN 中批評家的Lipschitz 約束,Cui 等[12]提出了結(jié)合指數(shù)梯度懲罰項和重要性加權(quán)策略的算法,該算法在不增加計算負擔的情況下有更快的收斂速度,并且保持了WGANGP 訓練的穩(wěn)定性.函數(shù)為C0的GLS-GAN,而WGAN 則為代價函數(shù)是C1的GLS-GAN.
GAN 的判別器具有無限建模能力,即不管真實樣本和生成樣本多復雜,判別器D都能判別,這樣容易造成過擬合問題.為了限制GAN 的無限建模能力,Qi[13]提出損失感知生成對抗網(wǎng)絡(LS-GAN),LS-GAN 引入一個基于Lipschitz 連續(xù)的代價(cost)函數(shù),把最小化目標函數(shù)得到的損失函數(shù)限定在這個代價函數(shù)上.廣義LS-GAN 稱為GLS-GAN[13](如圖3所示),是LSGAN 的廣義形式,通過定義一個滿足一定條件的代價函數(shù),不同的代價函數(shù)可以獲得不同的GLS-GAN.LSGAN 和WGAN是GLS-GAN 的特例,LS-GAN 是代價
圖3 廣義GLS-GAN[14]
LS-GAN 和WGAN 的實現(xiàn)都采用了DCGAN 的網(wǎng)絡架構(gòu)思想,且對GAN 的優(yōu)化方法進行了改進.WGAN 雖然解決了GAN 訓練不穩(wěn)定問題和模式崩潰問題,需要掌握對clipping threshold 的設置,如果設置不合理也會造成梯度消失或者梯度爆炸問題.WGAN使用EM 距離代替JS 散度,但是EM 距離不容易直接優(yōu)化,使用的是其共軛函數(shù)作為目標函數(shù)進行優(yōu)化,增加了計算的負擔.廣義LS-GAN 可以通過設置不同的代價函數(shù)獲得不同的GLS-GAN,可以擴寬GLS-GAN,不過這個還有待去開發(fā)和試驗.LS-GAN 在實現(xiàn)時需要考慮很多細節(jié),容易影響實驗效果.
信息生成對抗網(wǎng)絡(InfoGAN)[15]是GAN 信息理論的一個重要擴展.InfoGAN 相比一般的GAN,引入一個隱碼c,c表示顯著結(jié)構(gòu)化隱層隨機變量與特定語義特征之間的關系.生成器的輸入為噪聲z和 隱碼c,輸出為G(z,c),在GAN 中,PG(x|c)=PG(x).InfoGAN 使用互信息I(c;G(z,c))表示兩個數(shù)據(jù)之間的關聯(lián)性,而隱碼c和生成分布G(z,c)之間有高的互信息.InfoGAN 的目標函數(shù)如式(6)所示:
GAN 的訓練是無監(jiān)督的,也可以結(jié)合半監(jiān)督進行訓練.SGAN[16]是使用半監(jiān)督訓練的生成對抗網(wǎng)絡,它在生成器G的輸入中加入類標簽,判別器G輸出相應的類標簽.CatGAN[17]使用無監(jiān)督和半監(jiān)督來訓練網(wǎng)絡,提出了一種從未標記或部分標記數(shù)據(jù)中學習判別分類器的方法—使用目標函數(shù)來權(quán)衡觀察到的例子和它們的預測分類類分布之間的互信息,判別器D輸出類的分布.
條件生成對抗網(wǎng)絡(CGAN)[18]引入一個額外信息y,y可以是任何輔助信息,類標簽或者其他模式的數(shù)據(jù),將y加入到生成器G和判別器D的輸入層.一般的GAN 生成模型都是把隱層變量分布映射到真實數(shù)據(jù)分布上,Donahue 等[19]提出雙向生成對抗網(wǎng)絡(BiGAN)實現(xiàn)逆映射—將數(shù)據(jù)x映射到隱變量空間.BiGAN增加了一個編碼器E,輸出為E(x),其優(yōu)化目標為
3.1.1 圖像生成
GAN 的最初目的是輸入向量生成圖像,開始生成的圖像像素都不是很高,后來隨著GAN 的不斷深入研究,生成圖像的質(zhì)量也在不斷提高.Ledig 等[20]提出一種增加圖像分辨率的GAN—SRGAN,可以將低分辨率的圖像轉(zhuǎn)換為超分辨率圖像.SRGAN 的生成器采用了殘差網(wǎng)絡(ResNet)[21],判別器使用了VGG[22].Karras等[23]提出了Progressive GAN—一種以漸進方式訓練的GAN,在訓練過程中增加一個能處理高分辨率的網(wǎng)絡層,能生成以假亂真的圖像.另外,ProGANSR[24]也能生成高分辨率的圖像,它采用多尺度漸進式原則,同時增加上采樣(upsampling)的重建質(zhì)量.GAN 可以生成人臉,根據(jù)真實樣本可以生成不存在的人臉;也可以生成動物等其他物體.除了生成人類、動物等物體,GAN 還可以生成真實的場景,可應用于無人駕駛等場景中.在這些應用中,對于圖像分辨率的要求也將會隨著技術的發(fā)展越來越高.
3.1.2 圖像轉(zhuǎn)換
圖像轉(zhuǎn)換也可以叫做圖像翻譯,是將圖像變成另一種形式的圖像,比如把圖像內(nèi)容移除一個域的屬性,轉(zhuǎn)移到另一個域上.圖像轉(zhuǎn)換的輸入是圖像,輸出的是轉(zhuǎn)換后的圖像.Pix2pix[25]使用條件生成對抗網(wǎng)絡(CGAN)來進行圖像轉(zhuǎn)換,使用成對的數(shù)據(jù)來進行訓練.因為pix2pix 需要使用成對的數(shù)據(jù)來進行訓練,但有些情況下成對的數(shù)據(jù)不容易獲得,因此,Zhu[3]提出CycleGAN,不需要使用成對的數(shù)據(jù),就能把圖像從源域X轉(zhuǎn)換為目標域Y.CycleGAN 使用兩個判別器Dx和Dy,分別判別x和轉(zhuǎn)換圖像F(y)、y和G(x),還引入循環(huán)一致性損失來執(zhí)行F(G(x))≈x.對于上述兩種GAN,都存在生成圖像分辨率低的問題,Wang 等[26]提出pix2pixHD,可以生成分辨率高達2048×1024 的圖像,同時支持用戶交互,編輯圖像中目標外觀,可以合成一些道路場景,可以結(jié)合目標檢測及行人識別,用于無人駕駛中.
3.1.3 風格遷移
風格遷移是指將學習到目標圖像的風格應用于源圖像,使得源圖像保留內(nèi)容的同時具有目標圖像的風格,比如把一張圖像變成油畫風格的圖像.Li 等[27]提出一種基于馬爾科夫鏈的生成對抗網(wǎng)絡(MGAN)來實現(xiàn)圖像的風格遷移,效果如圖4所示.Azadi 等[28]使用GAN 來對字體進行風格遷移學習,能產(chǎn)生多種不同風格的字體.除此之外,風格遷移還可應用于音樂等其他領域,只是效果都不如圖像的風格遷移好.
圖4 圖像風格遷移效果[27]
3.1.4 圖像修復
GAN 與圖像修復能很好的結(jié)合,對缺失的圖像進行完整的修復.Denten 等[2]使用半監(jiān)督方法,在生成器中增加一個隨機的、能隱藏的補丁,根據(jù)上下文信息對圖像進行修復.Liu 等[29]使用部分卷積進行圖像修復,修復效果如圖5所示.
圖5 圖像修復效果[29]
3.1.5 視頻生成和預測
在生成圖像的基礎上,GAN 還可以生成視頻.Tukyakov 等[30]提出一種通過分解動作和內(nèi)容來生成視頻的方法—MoCoGAN,將一個隨機向量的序列映射到一個視頻幀序列上,每個隨機向量包含一個動作和一個內(nèi)容.視頻預測是根據(jù)當前的一幀或幾幀視頻來預測視頻接下來的內(nèi)容,比如當一個人拿起一個球的時候預測這個人接下來要干什么.Xiong 等[31]提出一種多階段動態(tài)生成對抗網(wǎng)絡來生成延時視頻,首先為每一幀生成現(xiàn)實內(nèi)容的視頻,然后進行運動建模,使相鄰幀之間的物體運動更加生動,同時保持內(nèi)容逼真.另一種視頻預測方法是Jang 等[32]提出的方法—通過外觀和動作來指定未來,減少不確定性,解決了當有多個正確的、等可能的未來時,模型不知如何選擇的問題.
除了生成圖片之外,GAN 還能生成文本.Zhang 等[33]用GAN 來生成文本,其判別器為卷積神經(jīng)網(wǎng)絡(CNN).GAN 一般是基于連續(xù)空間,但也可以應用于離散數(shù)據(jù).但是GAN 用于生成序列存在兩個問題,GAN 生成的是連續(xù)數(shù)據(jù),難的是直接生成離散序列;另一個問題是,GAN 只能對整個生成序列打分,而對于一部分生成的序列,很難判斷它現(xiàn)在生成序列的質(zhì)量和之后生成整個序列的質(zhì)量.SeqGAN[34]能解決上述兩個問題,它結(jié)合強化學習,能生成離散的序列,使用策略梯度訓練生成器G 來解決輸出離散數(shù)據(jù)時梯度不能返回生成模型的問題,通過蒙特卡洛搜索得到獎勵信號.WGAN 也能推廣應用于離散數(shù)據(jù)空間,在基于WGAN 的基礎上,代威[35]提出一種使用字符級文本構(gòu)造方法的無監(jiān)督文本生成方法Lable GAN,能適用于多種序列處理任務,并且能有效的干預和約束生成數(shù)據(jù)空間.SeqGAN可以應用于語音生成、詩詞生成、機器翻譯、對話生成等.MaskGAN[36]根據(jù)上下文內(nèi)容來填充缺失的文本,并引入actor-critic 架構(gòu).
此外,GAN 還可以根據(jù)文字描述來生成圖文匹配的圖像.StackGAN[37]能夠根據(jù)輸入文本描述生成細化的高分辨率圖像.AttnGAN[38]可以生成更細膩的圖像,通過關注自然語言描述中的相關詞匯,可以在圖像的不同子區(qū)域合成出精細的細節(jié),此外,還提出了一種深度注意多模態(tài)相似度模型,用于計算用于訓練生成器的細粒度圖像-文本匹配損失.
GAN 除了在視覺領域、文本生成領域外,還在其他領域有涉及.GAN 能應用于密碼破譯,CipherGAN[39]提出了一個能夠用于破譯密碼的框架,能夠高度準確地破譯使用移位和Vigenere 密碼的語言數(shù)據(jù),且能支持更多的詞匯.GAN 還可以進行行人重識別、重定向等.GAN 除了能生成圖像外,還能生成音樂、3D 物體等.
GAN 模型是一種框架,可以與其他方法相結(jié)合.GAN 模型包含生成器G 和判別器D,在訓練過程中需要保持生成器G 和判別器D 之間的同步,因此容易造成訓練不穩(wěn)定.雖然WGAN 使用EM 距離代替JS 散度,不需要保持生成器G 和判別器D 之間的同步,解決了訓練不穩(wěn)定的問題,但是,在使用JS 散度的模型的訓練穩(wěn)定性問題還是沒有得到很好的解決.此外,GAN 還存在模式崩潰問題.WGAN 能解決模式崩潰問題,但是,如果損失函數(shù)的參數(shù)設置不合理的話會導致梯度消失或梯度爆炸.因此,模式崩潰問題還沒有徹底的解決.
同時,GAN 也面臨著一個如何評估生成樣本質(zhì)量的問題,也就是說GAN 缺乏客觀的評估方法.現(xiàn)有對GAN 的評價方法都是基于樣本層面,對生成樣本與真實樣本提取特征,在特征空間做距離度量.Xu 等[40]實驗結(jié)果表明,在基于樣本的評價方法中,核函數(shù)最大平均偏差(Kernel MMD)和1-近鄰(1-NN)雙樣本檢驗方法是最合適的評價方法,這兩種評價指標能夠有效的區(qū)別生成樣本和真實樣本,同時也能識別模式崩潰的模式下降問題,檢測過度擬合,且具有高效性.但是,對于生成效果和質(zhì)量,卻只能依賴于視覺上的觀察,由人眼去判斷生成的質(zhì)量好壞.有些評價指標在數(shù)值上雖高,但是實際的生成效果卻不好.因此,GAN 很難找到一個比較客觀的、可量化的評價指標.
自從GAN 被提出以來就受到廣泛的關注,近兩年來對GAN 的研究熱度也是只增不減.雖然GAN 能實現(xiàn)的功能巨大,但是這個模型存在的一些問題未能徹底解決,影響其生成效果.在模型的訓練穩(wěn)定性和評價指標方面,仍有待研究改進.GAN 在圖像領域有著卓越的應用效果,在其他領域也有著不錯的應用.GAN對于文本方面的應用是基于離散數(shù)據(jù),效果不是很理想,在這一方面的改進空間將會很大.隨著人工智能的不斷發(fā)展,對無人駕駛的研究也在不斷成熟,GAN 可以結(jié)合其對圖像領域的生成效果,應用于無人駕駛,這也將會是很熱門的一個研究方向.視頻與語音在日常生活中是必需的,隨著人們需求的增大,GAN 在視頻與語音方面的應用也更需要去研究改進.GAN 也可以應用于圖像去噪方面,現(xiàn)在也有一些突破性的進展.
4.2.1 圖像去噪
人們對圖像的反映是通過視覺直觀的體現(xiàn)出來的,圖像質(zhì)量差會影響人們對圖像細節(jié)的掌握,影響圖像的視覺效果.噪聲是圖像干擾的重要原因,實際上一幅圖可能會存在各種各樣的噪聲,所以圖像噪聲在視覺圖像中影響很大.圖像噪聲一般產(chǎn)生于圖像的采集或者傳輸過程中,比如使用的設備不一樣,在傳輸過程中有壓縮等等.
傳統(tǒng)的圖像去噪最初采用的是使用像素尺度的空間域濾波方法[41],該方法中的中值濾波和均值濾波都是使用圖像信號和濾波模板結(jié)合來進行濾波.空間域濾波方法在使用簡單的卷積核的時候容易導致圖像信息丟失,針對這一缺點,一些學者提出基于變換域的去噪方法,包含傅里葉變換域,小波域,脊波域等等[42,43].隨著深度學習的發(fā)展,深度卷積網(wǎng)絡在圖像去噪的應用有著不錯的效果.去噪卷積網(wǎng)絡(DnCNN)[44]第一次結(jié)合殘差網(wǎng)絡應用于圖像去噪領域,使得去噪效果大大提升.Wang[45]采用空洞卷積代替卷積核,提高了訓練運行速度,效果不亞于去噪卷積網(wǎng)絡.
4.2.2 結(jié)合GAN 的圖像去噪
現(xiàn)有的去噪方法大多是基于已知噪聲,例如高斯噪聲,GAN 可以學習復雜的分布,可以在GAN 的生成器中輸入含有已知噪聲的圖片,然后判別器輸出對應無噪聲的圖像.張元祺[46]結(jié)合生成對抗網(wǎng)絡,對彩色圖像進行去噪,通過神經(jīng)網(wǎng)絡將含噪圖像變換到特征域進行處理,并利用多尺度特征保留圖像豐富的紋理細節(jié).
那么對于圖像里包含的未知噪聲信息,即對圖像進行盲去噪,GAN 擁有強大的學習能力,可以學習復雜的分布,可以使用GAN 來構(gòu)建成對的無噪-有噪圖像的訓練數(shù)據(jù)集.在有未知噪聲圖像的情況下,一種建立成對訓練數(shù)據(jù)集的方法是訓練GAN 的生成網(wǎng)絡,學習從無噪圖像到相似噪聲圖像的映射.生成網(wǎng)絡可以訓練學習真實噪聲圖像的分布,生成具有相似噪聲的圖像,但不能保證原始圖像的紋理細節(jié)等不改變.因此,Chen 等[47]提出一種盲去噪方法——使用GAN 來對未知噪聲圖像進行噪聲提取并建模,生成網(wǎng)絡生成類似的是噪聲而不是噪聲圖像,生成相似分布的噪聲,然后使用深度卷積網(wǎng)絡進行圖像去噪.
對于噪聲已知的圖像,可以直接作為生成器的輸入,判別器進行去噪,輸出對應的無噪圖像,在這個過程中,需要保留圖像原始的內(nèi)容,即不能損失圖像的紋理細節(jié)等.如何在去噪的過程中保留圖像內(nèi)容也值得去研究.對于圖像盲去噪,可以通過GAN 來建模獲得相似噪聲分布,然后再使用深度卷積網(wǎng)絡或者其他網(wǎng)絡進行去噪.在這個過程中,需要使用兩個或兩個以上模型,如何使用GAN 模型進行圖像的盲去噪將會是一個值得研究的方向.
生成對抗性網(wǎng)絡GAN 包含生成器和判別器,有很強的生成能力,在不進行限制的情況下,具有無限建模的能力,主要應用于圖像視覺領域.現(xiàn)今GAN 能夠產(chǎn)生超分辨率圖像,能夠結(jié)合半監(jiān)督、強化學習、特征學習等,在圖像、視覺、文本方面有廣泛應用.GAN在圖像領域的應用效果顯著,雖然在其他領域也應用廣泛,但實現(xiàn)的效果并沒有圖像的好.GAN 如何更好的應用于更多領域,在應用的同時不斷優(yōu)化性能,并發(fā)揮更大的優(yōu)勢,將會是有趣的研究.隨著人工智能的發(fā)展,人們追求的是更加智能化,如何結(jié)合深度學習等不同技術來提高GAN 的應用效果,使GAN 更智能化,是GAN 未來發(fā)展需要提升的.GAN 可以和圖像去噪相結(jié)合,利用GAN 的強學習能力,實現(xiàn)噪聲已知的圖像去噪,也可以建模生成相似的忙噪聲分布,有助于圖像盲去噪.GAN 對于圖像去噪的應用將有待于更進一步的研究.