亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        深度學(xué)習(xí)的幾何學(xué)解釋

        2020-09-03 08:16:32雷娜安東生郭洋蘇科華劉世霞羅鐘鉉丘成桐顧險峰
        工程 2020年3期
        關(guān)鍵詞:數(shù)據(jù)分布流形勢能

        雷娜, 安東生, 郭洋, 蘇科華, 劉世霞, 羅鐘鉉, 丘成桐, 顧險峰,,*

        a DUT-RU Co-Research Center of Advanced ICT for Active Life, Dalian University of Technology, Dalian 116620, China b Department of Computer Science, Stony Brook University, Stony Brook, NY 11794-2424, USA

        c School of Computer Science, Wuhan University, Wuhan 430072, China

        d School of Software, Tsinghua University, Beijing 100084, China

        e Center of Mathematical Sciences and Applications, Harvard University, Cambridge, MA 02138, USA

        1. 引言

        生成對抗網(wǎng)絡(luò)(GAN)是無條件圖像生成的主要方法之一。在對數(shù)據(jù)集進行訓(xùn)練后,GAN能夠生成逼真的、視覺上吸引人的樣本。GAN方法訓(xùn)練了一種無條件生成器和一種判別器,其中生成器可以將隨機噪聲轉(zhuǎn)換成真實圖像,而判別器用于測量生成樣本與真實圖像之間的差異。GAN已經(jīng)過多次改進。其中一個突破是將最優(yōu)傳輸(OT)理論與GAN相結(jié)合,如Wasserstein GAN(WGAN)[1]。在WGAN框架中,生成器計算了從白噪聲到數(shù)據(jù)分布的OT映射,而判別器計算了真實數(shù)據(jù)分布與生成數(shù)據(jù)分布之間的Wasserstein距離。

        1.1. 流形分布假設(shè)

        GAN的成功可以通過以下事實進行解釋,即GAN有效地發(fā)現(xiàn)了真實數(shù)據(jù)集的內(nèi)在結(jié)構(gòu)。該結(jié)構(gòu)可以用流形分布假設(shè)來表示,即一類特定的自然數(shù)據(jù)主要集中在一個低維流形上,且該低維流形被嵌入高維背景空間[2]。

        圖1顯示了MNIST數(shù)據(jù)集的流形結(jié)構(gòu)。每個手寫數(shù)字圖像的維數(shù)為28 × 28,且被看作是R784圖像空間中的一個點。MNIST數(shù)據(jù)集主要集中在一個低維流形(2D流形)附近。通過利用t-SNE流形嵌入算法[3],MNIST數(shù)據(jù)集可被映射到一個平面區(qū)域上,而且每個圖像可被映射到一個點上。表示相同數(shù)字的圖像被映射到同一個集群中,這里共有10個集群,每個集群分別用不同的顏色編碼。這表明MNIST數(shù)據(jù)集分布在一個二維(2D)曲面附近,該曲面被嵌入在R784的單位超立方體中。

        1.2. GAN理論模型

        圖2顯示了GAN的理論模型。真實數(shù)據(jù)分布ν主要集中在被嵌入背景空間χ中的流形Σ上。(Σ,ν) 共同揭示了真實數(shù)據(jù)集的內(nèi)在結(jié)構(gòu)。GAN模型計算了隱空間Z到流形Σ的解碼映射gθ,其中,θ表示深度神經(jīng)網(wǎng)絡(luò)(DNN)參數(shù)。ζ是隱空間中的Gaussian分布,gθ將ζ前推為μθ。判別器計算了真實數(shù)據(jù)分布ν和生成數(shù)據(jù)分布μθ之間的距離,如Wasserstein距離Wc(μθ,ν),其等價于Kontarovich勢能φξ。

        雖然GAN有很多優(yōu)點,但是它們也有一些嚴重的缺點。從理論上講,我們對深度學(xué)習(xí)的基本原理的理解仍然比較粗淺。從實踐來看,GAN的訓(xùn)練是復(fù)雜的,且其對超參數(shù)非常敏感,而且GAN經(jīng)常會遇到模式崩潰問題。最近,Meschede等[4]研究了9種不同的GAN模型及其變體,結(jié)果表明,基于梯度下降的GAN優(yōu)化并不總是局部收斂的。

        根據(jù)流形分布假設(shè),自然數(shù)據(jù)集可以被表示為關(guān)于流形的概率分布。因此,GAN主要完成兩項任務(wù):①流形學(xué)習(xí),即計算隱空間與背景空間之間的解碼映射和編碼映射;②概率變換,即在隱空間或圖像空間中計算白噪聲與數(shù)據(jù)分布之間的變換。

        圖3顯示了生成器映射gθ=h ? T的分解, 其中,h:Z→Σ是從隱空間到背景空間中數(shù)據(jù)流形Σ的解碼映射,T:Z→Z是概率分布變換映射。流形學(xué)習(xí)的解碼映射是h,測度變換映射是T。

        1.3. OT觀點

        OT理論[5]研究的是以最經(jīng)濟的方式將一個概率分布轉(zhuǎn)化為另一個概率分布的問題。OT理論給出了計算最優(yōu)映射的嚴格而強大的方法,這些方法可以將一個概率分布轉(zhuǎn)換為另一個概率分布,同時計算出它們之間的距離[6]。

        如前所述,GAN完成了流形學(xué)習(xí)和概率分布變換兩大任務(wù)。后一項任務(wù)可以通過直接使用OT方法完成。具體來說, 在圖3中, 概率分布變換映射T可以通過OT理論來計算。判別器計算了真實數(shù)據(jù)分布和生成數(shù)據(jù)分布之間的Wasserstein 距離Wc(μθ,ν),這個可以利用OT方法直接計算得到。

        從理論角度來看,GAN可以由OT理論來解釋,從而使得一部分黑匣子變得透明,同時將概率分布變換過程簡化為一個凸優(yōu)化過程。OT理論使解的存在性和唯一性具有理論保證, 而且其收斂速度和近似程度也可以得到全面分析。

        圖1 . MNIST數(shù)據(jù)集的流形分布。(a)MNIST數(shù)據(jù)集中的手寫數(shù)字;(b)利用t-SNE算法得到的2D平面內(nèi)數(shù)字的嵌入結(jié)果。將x和y相對坐標進行標準化。

        圖2 . GAN的理論模型。G:生成器;D:判別器。

        圖3 . 生成器映射被分解為解碼映射h和概率分布變換映射T。T#ζ是由T推導(dǎo)出的前推測度。

        OT理論也解釋了模式崩潰的根本原因。根據(jù)Monge-Ampère方程的正則性理論,變換映射在某些奇異集上是不連續(xù)的。然而,DNN只能表達連續(xù)函數(shù)和連續(xù)映射。因此,目標變換映射位于GAN所表示的函數(shù)空間之外。這種內(nèi)在的沖突使得模式崩潰問題不可避免。

        OT解釋還揭示了更復(fù)雜的生成器和判別器之間的關(guān)系。在現(xiàn)有的GAN模型中,生成器和判別器之間是相互競爭的,它們不共享中間的計算結(jié)果。OT理論表明,在L2成本函數(shù)下,生成器和判別器的最優(yōu)解可以用閉合式來相互表示。因此,生成器與判別器之間的關(guān)系應(yīng)該是相互協(xié)作的而不是相互競爭的,而且它們應(yīng)該共享中間的計算結(jié)果以提高計算效率。

        1.4. AE-OT模型

        為了降低GAN的訓(xùn)練難度,特別是避免模式崩潰問題,我們提出了一種基于OT理論的更簡單的生成模型——自編碼(AE)OT模型(AE-OT),如圖4所示。

        如前所述,生成模型的兩個主要任務(wù)是流形學(xué)習(xí)和概率分布變換。AE計算了編碼映射fθ:Z→Σ和解碼映射gξ:Σ→Z, 目的是為了流形學(xué)習(xí)。OT映射T:Z→Z,將白噪聲ζ變換為由編碼映射(fθ)#ν前推的數(shù)據(jù)分布。

        圖4 . 生成模型AE-OT,將AE和OT相結(jié)合。

        AE-OT模型有很多優(yōu)點。從理論上講,OT理論已經(jīng)建立并得到了人們的充分理解。通過解耦解碼映射和OT映射,我們可以提高生成模型的理論嚴謹性,從而使部分黑匣子透明化。實際上,OT映射可被簡化成一個凸優(yōu)化問題,從而保證解的存在性和唯一性,同時使得訓(xùn)練過程不會僅局限于局部最優(yōu);與OT映射相關(guān)的凸能量具有明顯的Hessian矩陣結(jié)構(gòu),因此,我們可以利用二階收斂的牛頓法或超線性收斂的擬牛頓法進行優(yōu)化。相比之下,現(xiàn)有的生成模型是以具有線性收斂性的梯度下降法為基礎(chǔ)的。而且在AE-OT模型中,未知數(shù)的個數(shù)與訓(xùn)練樣本的個數(shù)相等,從而避免了過度參數(shù)化的問題。在Monte Carlo方法中,采樣密度可以完全控制OT映射的誤差范圍。自適應(yīng)等級分層算法進一步提高了計算效率。利用圖形處理器(GPU)可實現(xiàn)并行OT映射算法。更重要的是,AE-OT模型可以消除模式崩潰問題。

        1.5. 貢獻

        本研究運用OT理論對GAN模型進行了解釋。GAN可以完成流形學(xué)習(xí)和概率分布變換兩大任務(wù),后一項任務(wù)可以通過OT方法來實現(xiàn)。生成器計算了OT映射,而判別器計算了真實數(shù)據(jù)分布和生成數(shù)據(jù)分布之間的Wasserstein距離。使用Brenier定理,我們可以將生成器和判別器之間的競爭關(guān)系用協(xié)作關(guān)系來代替;根據(jù)Monge-Ampère方程的正則性理論,分布變換映射的不連續(xù)性導(dǎo)致了模式崩潰。我們進一步提出,利用AE-OT模型來解耦流形學(xué)習(xí)和概率分布變換,從而使部分黑匣子透明化、提高訓(xùn)練效率以及避免模式崩潰。實驗結(jié)果表明了我們所提出的方法的有效性。

        本文的組織結(jié)構(gòu)如下:第2部分簡要回顧了OT與GAN的相關(guān)工作;第3部分簡要介紹了OT的基本理論以及Monge-Ampère方程的正則性理論;第4部分介紹了一種適合深度學(xué)習(xí)設(shè)置的用于計算OT的變分框架;第5部分從OT的角度分析了GAN模型,解釋了生成器與判別器之間的協(xié)作關(guān)系(不是競爭關(guān)系),以及揭示了模式崩潰的內(nèi)在原因;第6部分總結(jié)了實驗結(jié)果;第7部分對全文進行了總結(jié)。

        2. 前期工作

        2.1. 最優(yōu)傳輸

        OT問題在各個領(lǐng)域都發(fā)揮著重要的作用。詳細描述,請讀者參照參考文獻[7]和[8]。

        當(dāng)輸入域和輸出域均為Dirac分布時,OT問題可被看作是一種標準線性規(guī)劃(LP)任務(wù)。為了將問題擴展到大數(shù)據(jù)集,參考文獻[9]的作者在原LP問題中增加了一個熵正則化器,則正則化解可以通過Sinkhorn算法被快速計算出來。后來Solomon等[10]通過引入快速卷積提高了計算效率。

        第二種解決OT問題的方法是通過OT問題與凸幾何之間的聯(lián)系來最小化凸能量[6],從而計算出連續(xù)測度與逐點測度之間的OT映射。在參考文獻[11]中,作者利用Legendre對偶理論將凸幾何OT問題與Kantorovich對偶問題聯(lián)系起來。本文所提出的方法是該方法在高維空間上的一種擴展。如果輸入和輸出都是連續(xù)密度,求解OT問題就等價于求解著名的Monge-Ampère方程,該方程是一個高度非線性橢圓偏微分方程(PDE)。有了一個額外的虛擬時間維度,這個問題可以通過計算流體動力學(xué)來解決[12-14]。

        2.2. 生成模型

        在機器學(xué)習(xí)領(lǐng)域,能夠生成復(fù)雜且高維的數(shù)據(jù)的生成模型近年來變得越來越重要。具體來說,生成模型主要被用于從給定的圖像數(shù)據(jù)集中生成新的圖像。在早期研究中,一些方法已被采用,如深度信念網(wǎng)絡(luò)[15]和深度玻爾茲曼機[16]。然而,這些方法的相關(guān)訓(xùn)練通常比較困難和低效。后來,變分AE(VAE)方法取得了重要突破[17],其中解碼器利用變分方法將Gaussian分布逼近了真實數(shù)據(jù)分布[17,18]。在此基礎(chǔ)上,研究人員進行了一系列新的研究工作,包括對偶自編碼器(AAE)[19]和Wasserstein AE(WAE)[20]。盡管VAE訓(xùn)練相對容易,但它們生成的圖像看起來很模糊。在某種程度上,這是由于顯式表達的密度函數(shù)可能無法表示真實數(shù)據(jù)分布的復(fù)雜性和無法學(xué)習(xí)高維數(shù)據(jù)分布[21,22]。后來,研究人員提出了其他非對抗性訓(xùn)練方法,如PixelCNN[23]、PixelRNN [24]和WaveNet [25]。然而,由于這些方法的自回歸性質(zhì),新樣本的生成是不能并行的。

        2.3. 對抗生成模型

        針對上述模型的不足,研究人員提出了GAN [26]。雖然GAN是生成逼真樣本的強大工具,但是它們很難被訓(xùn)練,而且會出現(xiàn)模式崩潰的問題。為了更好地訓(xùn)練GAN,研究人員已經(jīng)提出了各種改進措施,包括改變損失函數(shù)(如WGAN [1])以及通過剪切[1]、梯度正則化[4,27]或者光譜歸一化[28]來將判別器正則化。然而,GAN的訓(xùn)練仍然是棘手的,需要仔細選擇超參數(shù)。

        2.4. 生成模型的評估

        生成模型的評估仍然具有挑戰(zhàn)性。早期的工作包括概率標準[29]。然而,最近的生成模型(尤其是GAN)不適合這種評估。傳統(tǒng)上,GAN的評估依賴于對少數(shù)示例或用戶研究的可視化檢查。近年來,研究人員提出了幾種定量評價標準。Inception score(IS)[30]可同時測量多樣性和圖像質(zhì)量,然而它不是距離指標。為了克服IS的缺點,研究人員在參考文獻[31]中引入了Fréchet inception distance(FID)。該方法對圖像的破壞具有較強的魯棒性,而且與視覺保真度有很好的相關(guān)性。最近的研究[32]介紹了分布的精度和召回率(PRD),這兩個指標用于測量真實數(shù)據(jù)分布和生成數(shù)據(jù)分布之間的精度和查全率。為了公平地評測GAN,研究人員在參考文獻[33]中進行了大規(guī)模比較,在統(tǒng)一的網(wǎng)絡(luò)架構(gòu)下,研究人員比較了7種不同的GAN和VAE,并建立了一個通用的評價標準。

        2.5. 非對抗性方法

        最近,研究人員也提出了各種非對抗性的方法。生成潛優(yōu)化(GLO)[34]是一種“無編碼器AE”的方法,其中生成模型通過非對抗性損失函數(shù)進行訓(xùn)練,并且取得了比VAE更好的結(jié)果。隱式最大似然估計(IMLE)[35]是一種最近點迭代(ICP)相關(guān)的生成模型訓(xùn)練方法。后來Hoshen和Malik [36]提出了生成式隱含最近鄰(GLANN),該方法結(jié)合了GLO和GLANN的優(yōu)點。該方法首先利用GLO發(fā)現(xiàn)了從圖像空間到隱空間的嵌入,然后利用IMLE計算出了任意分布與隱藏代碼之間的轉(zhuǎn)換。

        其他一些方法則是利用含有可控Jacobian矩陣的DNN直接逼近了從噪聲空間到圖像空間的分布變換映射[37-39]。近年來,研究人員選擇了一些基于能量的模型[40-42],他們利用DNN來表示能量函數(shù),并通過Gibb分布對圖像分布進行建模。這些方法利用現(xiàn)有模型交替生成偽樣本,然后利用生成的偽樣本和真實樣本對模型參數(shù)進行優(yōu)化。

        3. OT理論

        在本章中,我們將介紹經(jīng)典OT理論中的基本概念和定理,重點介紹Brenier方法及其在離散集中的推廣。具體細節(jié)可參考Villani的專著[5]。

        3.1. Monge問題

        假設(shè)X ?Rd, Y ?Rd是兩個d維Euclidean空間Rd的子集,μ和υ是被分別定義在X和Y上的兩個概率測度,則密度函數(shù)如下:

        假設(shè)總測度相等,即μ (X) = υ (Y ),那么

        我們只考慮保測度的映射。

        Defnition 3.1(保測度映射)。如果對于任何可測集B ? Y,集合T-1(B)是μ-可測的,并且μ[T-1(B)] = υ (B),那么映射T : X → Y是保測度的,即

        保測度條件被記作T#μ = υ,其中T#μ為T誘導(dǎo)的前推測度。

        給定成本函數(shù)c(x, y): X × Y→R≥0,該函數(shù)表示從源到目標的傳輸每個單位質(zhì)量的代價,則定義映射T: X →Y的總傳輸代價為

        Monge的OT問題在于尋找使總傳輸成本最小的保測度映射。

        Problem 3.2(Monge's [43];MP)。給定傳輸成本函數(shù)c(x, y): X × Y→R≥0,求使總傳輸成本最小的保測度映射T: X → Y,即

        Defnition 3.3(OT映射)。Monge的問題的解被稱為OT映射。OT映射的總傳輸成本被稱為μ和υ之間的Wasserstein距離,被記作Wc(μ, υ)。

        3.2. Kontarovich的方法

        根據(jù)成本函數(shù)及其測度的性質(zhì),(X, μ)和(Y, υ)之間的OT映射可能不存在。Kontarovich將傳輸映射擴展至傳輸平面,并定義了聯(lián)合概率測度ρ(x, y): X × Y→R≥0,這樣ρ的邊際概率分別等于μ和υ。令投影映射πx(x, y) =x和πy(x, y) = y,然后定義聯(lián)合測度類如下:

        Problem 3.4(Kontarovich;KP)。給定一個傳輸成本函數(shù)c(x, y): X × Y→R≥0,求得聯(lián)合概率測度ρ(x, y): X× Y→R≥0,使得傳輸總成本最小。

        Kontarovich的問題(KP)可以采用LP方法來求解。由于LP的對偶性,方程(7)(KP公式)可以被重新表述為對偶問題(DP),具體如下:

        Problem 3.5(對偶;DP)。給定一個傳輸成本函數(shù)c(x, y): X × Y→R≥0,求得真實函數(shù)φ : X→R和ψ:Y→R,使得

        公式(8)的最大值給出了Wasserstein距離?,F(xiàn)有的WGAN模型大多是基于L1成本函數(shù)下的對偶形式。

        Defnition 3.6(c-變換)。φ : X→R的c-變換被定義為φc: Y →R:

        則對偶問題可被重新表述為如下形式:

        3.3. Brenier的方法

        對于二次Euclidean距離成本函數(shù),Brenier [44]證明了OT映射的存在性、唯一性和內(nèi)在結(jié)構(gòu)。

        Theorem 3.7(Brenier's [44])。假設(shè)X和Y是Euclidean空間Rd中的子集,并且傳輸成本是Euclidean 距離的平方,即c(x, y) = 1/2||x - y||2。此外,μ是絕對連續(xù)的,而且μ和υ存在有限的二階矩

        則存在一個凸函數(shù)u: X→R,即所謂的Briener勢能,其梯度映射?u給出了Monge問題的解:

        由于Brenier勢能在常數(shù)范圍內(nèi)是唯一的,因此OT映射是唯一的。

        假設(shè)Brenier勢能是C2光滑的,則它是下面Monge-Ampère方程的解。

        在Rd中,對于Euclidean空間上的L2傳輸成本函數(shù)c(x, y) = 1/2||x - y||2,c-變換與經(jīng)典Legendre變換之間有著特殊的關(guān)系。

        Defnition 3.8(Legendre變換)。給定一個函數(shù)φ:Rn→R,其Legendre變換被定義為如下形式:

        由此可知,當(dāng)c(x, y) = 1/2||x - y||2時,下面的等式成立。

        Theorem 3.9(Brenier極分解[44])。假設(shè)X和Y是Euclidean空間Rd,μ相對于Lebesgue測度是絕對連續(xù)的,且映射φ: X→Y將μ前推為ν,即φ#μ = υ,則存在一個凸函數(shù)u: X→R,使得φ = ?u ? s。式中,s: X→X是保測度的,即s#μ = μ。此外,這個分解是唯一的。

        下面的定理在OT理論中是眾所周知的。

        Theorem 3.10(Villani [5])。給定凸緊區(qū)域Ω?Rd上定義的測度μ和υ,這里存在一個成本函數(shù)為c(x, y) =h(x - y)的OT平面ρ,其中h是嚴格凸的。假定μ是絕對連續(xù)的,并且?Ω為零測度,則ρ是唯一的,且其具有(id, T#)μ(id:恒等映射)的形式。另外,這里存在一個Kantorovich勢能φ,而且映射T 可用下式表示為:

        在這種情況下,Brenier勢能u和Kantorovich勢能φ有如下關(guān)系:

        3.4. OT映射的正則性

        令Ω和Λ是Rd中兩個有邊界的光滑開集,令μ =fdx和ν = gdy是Rd上兩個概率測度,那么f |RdΩ= 0和g|RdΛ= 0。設(shè)f和g在Ω和Λ上分別是非零和非無窮的。

        3.4.1. 凸目標域

        Defnition 3.11(H?lder 連續(xù))。一個實值函數(shù)或復(fù)值函數(shù)f在d維Euclidean空間中滿足H?lder條件, 或者它是H?lder連續(xù)時,此時存在非負實常數(shù)C,且α > 0,使得| f (x) - f (y)|≤C||x - y||α對于f定義域中的所有x和y都成立。

        Defnition 3.12(H?lder空間)。H?lder空間為Ck,α(Ω),其中Ω是某個Euclidean空間的一個開子集,并且整數(shù)k≥0,它是由在Ω上有直到k階連續(xù)偏導(dǎo)數(shù)的函數(shù)組成,從而使得k階偏導(dǎo)數(shù)是α階H?lder連續(xù)的,且0 < α≤ 1。Ck,α(Ω)意味著上述條件適用于Ω的任意緊子集。

        Theorem 3.13(Caffarelli [45])。如果Λ是凸的,那么Brenier勢能u是嚴格凸的,此外,

        3.4.2. 非凸目標域

        如果Λ是非凸的且存在光滑的f和g,那么u?C1(Ω),而且OT映射?u在奇異點處是非連續(xù)的。

        Defnition 3.14(次梯度)。給定開區(qū)間Ω?Rd和一個凸函數(shù)u:X→R,對于x∈Ω,u在x點的次梯度(次微分)可被定義為如下形式:

        顯然,u(x)是一個閉凸集。從幾何學(xué)來看,如果p∈u(x),那么超平面lx,p(z) =u(x) +〈p,z-x〉在x點從下方觸碰到了u,即Ω中的lx,p≤u并且lx,p(x) =u(x),其中l(wèi)x,p是u在x點處的支撐平面。

        如果Brenier勢能u的次梯度?u(x)包含一個點,則u在x點處可微。我們根據(jù)次梯度的維數(shù)對這些點進行分類,并且定義集合

        可以看出,Σ0(u)是正則點的集合,而Σk(u)是奇異點的集合,其中k >0。我們也定義了x點的可達次梯度,具體如下:

        由此可知,次梯度等于可達次梯度的凸包,即

        Theorem 3.15(正則性)。令Ω,Λ?Rd為兩個有邊界的開集,并且令f,g:Rd→R+為兩個概率密度函數(shù),該密度函數(shù)在Ω和Λ之外為0,而在Ω和Λ上則界于0和無窮之間。Theorem 3.7中的OT映射被表示為T =?u:Ω→Λ。那么存在兩個相對閉集ΣΩ?Ω和ΣΛ?Λ,且ΣΩ=Σ= 0,當(dāng)常數(shù)α>0時,使得T:ΩΣ→ΛΣ是屬于類

        ΛΩΛ的拓撲同胚。

        我們稱ΣΩ為OT映射?u:Ω→Λ的奇異集。圖5給出了基于Theorem 4.2的算法所計算出的奇異點集結(jié)構(gòu)。具體形式如下:

        x0點的次梯度?u(x0)整個覆蓋了Λ內(nèi)部孔洞,而?u(x1)覆蓋了陰影三角形區(qū)域。對于γk(t)上的每個點,?u[γk(t)]是Λ外部的一條線段。x1是γ1、γ2和γ3的分歧點。Brenier勢能在Σ1和Σ2上是不可微的,OT映射?u在Σ1和Σ2上是不連續(xù)的。

        4. 計算方法

        Brenier定理可以被直接推廣到離散情形中。在GAN模型中,源測度μ是一個被定義在緊凸集Ω上的均勻(或高斯)分布;目標測度ν被表示為經(jīng)驗測度,它是Dirac測度的總和,即

        式中,Y ={y1,y2, ...,yn}是訓(xùn)練樣本,其權(quán)重為Σn i=1υi=μ(Ω);δ是特征函數(shù)。

        每個訓(xùn)練樣本yi對應(yīng)一個Brenier勢能的支撐平面,且用下式表示,即

        式中,支撐平面的截距(高度)hi是未知變量。我們將所有的高度變量記為h= (h1,h2,…,hn)。

        Euclidean空間中一族超平面的包絡(luò)是一個超曲面,它與該族的每個成員都相切于某一點,這些切點共同構(gòu)成了整個包絡(luò)超曲面。如圖6所示,Brenier勢能uh:Ω→R是一個由h確定的分片線性凸函數(shù),這個凸函數(shù)是它所有支撐平面的上包絡(luò),即

        Brenier勢能圖是一個凸多面體。每一個支撐平面πh,i對應(yīng)多面體的一個面。多面體的投影誘導(dǎo)了Ω的一個單元分解,其中每個支撐平面πi(x)的投影形成一個單元Wi(h),而p是Rd中的任意一點,具體如下:

        圖5 . OT映射的奇異點集結(jié)構(gòu)。

        圖6 . 分片線性Brenier勢能函數(shù)(a)及其Legendre變換u*h(b)。e*h,i:πh,i的Legendre對偶;?:uh的梯度;Proj:投影映射;Proj*:Legendre對偶空間內(nèi)的投影映射。

        這個單元分解是一個功率圖。Wi∩Ω的μ測度被記為wi(h),即

        梯度映射?uh:Ω→Y將每個單元Wi(h)映射為一個點yi,即

        如果公式(17)中目標測度υ已知,則由公式(19)可得到一個離散的Brenier勢能,且該勢能的每個支撐平面wi(h)投影的μ-體積等于給定的目標測度υi。這個結(jié)論已被Alexandrov [46]在凸幾何中證明。

        Theorem 4.1(Alexandrov [46])。假設(shè)Ω是一個緊凸多面體,其在Rn中內(nèi)部非空;n1,…,nk?Rn+1是k個不同的單位向量;第(n+1)個坐標是負的以及υ1, ...,υk> 0,使得Σki=1υi= vol(Ω)。則存在凸多面體P?Rn+1恰有k個余維數(shù)為1的平面F1,...,Fk,使得ni是Fi的法向量,且Ω與Fi投影之間的交集體積為υi。此外,P在垂直平移下唯一。

        Alexandrov對解的存在的證明是以代數(shù)拓撲為基礎(chǔ)進行的,其不具構(gòu)造性。最近,Gu等[6]基于變分方法給出了構(gòu)造性證明。

        Theorem 4.2(參考文獻[6])。令μ是一個被定義在Rd中緊凸區(qū)域Ω上的概率測度,令Y= {y1,y2,...,yn}是Rd中的一組不同點。那么,對于任意υ1,υ2,...,υn> 0,其中常數(shù)(c,c,...,c)的意義下唯一,使得對于所有1 ≤i≤n,wi(h) =υi。向量h是以下凸能量的唯一最小變元,

        在開凸集上被定義為

        此外,?uh在所有的傳輸映射T#μ=υ中的最小化二次成本為

        公式(23)中上述凸能量的梯度由下式給出。

        能量的第i行和第j列的Hessian元素可由下式給出。

        如圖6所示,Hessian矩陣具有明確的幾何意義。圖6(a)顯示了離散的Brenier勢能uh,圖6(b)顯示了Hessian矩陣由Definition 3.8所定義的Legendre變換u*h。Legendre變換可以用幾何方法來構(gòu)造,即對于每個支撐平面πh,i,我們構(gòu)造了對偶點π*h,i =(yi,hi),其中對偶點的

        u*h的投影誘導(dǎo)了Y= {y1,y2, ...,yn}的加權(quán)Delaunay三角剖分。如圖7所示,公式(20)中的power diagram和加權(quán)Delaunay三角剖分是彼此的Poincaré對偶,即在power diagram中,如果Wi(h)和Wj(h)相交于某個(d-1)維單元,則在加權(quán)的Delaunay三角剖分中,yi與yj相連。公式(27)中Hessian矩陣的元素是power diagram中(d-1)維單元的μ-體積與加權(quán)Delaunay三角剖分中對偶邊的長度之間的比率。

        傳統(tǒng)的power diagram與上述定理密切相關(guān)。

        圖7 . Power diagram(藍色)和其對偶加權(quán)Delaunay三角剖分(黑色)。

        Defnition 4.3. (power 距離)。給定具有power權(quán)重ψi的點yi∈Rn,power距離可由下式給出。

        Defnition 4.4. (power diagram)。給定加權(quán)點 (y1,ψ1),...,(yk,ψk),power diagram是Rd的單元分解,即

        這里的每個單元都是凸多面體,即

        加權(quán)Delaunay三角剖分用T(ψ)表示,它是power diagram的Poincaré對偶,如果Wi(ψ)∩Wj(ψ)≠ φ,則在加權(quán)Delaunay三角剖分中存在連接yi和yj的邊。注意,pow(x,yi) ≤pow(x, yj)等價于

        在實踐中,我們的目標是通過優(yōu)化凸能量方程(23)來計算離散Brenier勢能方程(19)。對于低維情況,我們可以通過計算梯度方程(26)和Hessian矩陣方程(27)來直接使用牛頓法。對于深度學(xué)習(xí)的應(yīng)用,直接計算Hessian矩陣是不可行的,我們可以使用梯度下降法或超線性收斂的擬牛頓法。梯度下降法的關(guān)鍵是估計μ-體積wi(h)。我們可以通過使用Monte-Carlo方法來完成,即我們從分布μ中隨機抽取n個樣本,并計算落入Wi(h)的樣本數(shù),該樣本數(shù)是收斂到μ-體積的比率。此方法是完全并行的,并可以通過GPU來實現(xiàn)。此外,我們可以使用等級分層方法來進一步提高效率。首先,我們將目標樣本按聚類簇進行分類,然后計算目標樣本到聚類簇質(zhì)心的OT映射;其次,對于每個聚類簇,我們計算了從相應(yīng)單元到聚類簇內(nèi)原始目標樣本的OT映射。

        圖8 . Brenier勢能函數(shù)的奇異點集與OT映射的間斷點集。

        為了避免模式崩潰,我們需要找到Ω中的奇異點集。如圖8所示,目標Dirac測度有兩個聚類簇,源是單位平面圓盤上的均勻分布。Brenier勢能函數(shù)的圖是中間帶有脊線的凸多面體。脊線在圓盤上的投影是奇異點集Σ1(u),OT映射在Σ1上是不連續(xù)的。在一般情況下,如果兩個單元Wi(h)和Wj(h)相鄰,那么我們可計算相應(yīng)支撐平面的法線之間的角度為:

        如果θij大于閾值,則公共平面Wi(h) ∩Wj(h) 位于不連續(xù)奇點集中。

        5. GAN和最優(yōu)傳輸

        OT理論為GAN奠定了理論基礎(chǔ)。最近的研究成果,如WGAN [1]、WGAN-GP [27]和RW-GAN [47],都使用了Wasserstein距離來度量已生成的數(shù)據(jù)分布與實際數(shù)據(jù)分布之間的偏差。

        從OT角度來看,生成器與判別器最優(yōu)解之間存在一個閉合式,因此生成器與判別器之間應(yīng)該是相互合作的而不是競爭的。更多細節(jié)見參考文獻[11]。此外,Monge-Ampère解的正則性理論可以解釋GAN的模式崩潰[48]。

        5.1. 競爭與合作

        圖2顯示了WGAN [1]的OT視圖。根據(jù)流形分布假設(shè),真實數(shù)據(jù)分布υ與一個被嵌入背景空間χ中的流形Σ非常接近。生成器計算了從隱空間Z到背景空間的解碼映射gθ,并且把白噪聲ζ(如Gaussian分布)變換為生成分布μθ。通過計算Kantorovich勢能φξ,判別器計算了μθ和真實分布υ之間的Wasserstein距離Wc(μθ,υ)。gθ和φξ都是通過DNN來實現(xiàn)的。

        在訓(xùn)練過程中,生成器通過優(yōu)化gθ以使(gθ)#ζ能更好地逼近υ;判別器通過優(yōu)化Kantorovich勢能φξ來改善對Wassertein距離的估計,生成器和判別器相互競爭、不共享中間結(jié)果。在L1成本函數(shù)下,WGAN的交替訓(xùn)練過程可以被看作是期望值的最小-最大優(yōu)化過程:

        但是如果我們把成本函數(shù)換成L2距離,那么根據(jù)Theorem 3.10,在最優(yōu)情況下,Briener勢能u和Kontarovic 勢能能能φ是通過公式(16)的閉合式u(x) =1/2||x||2-φ(x)相聯(lián)系的。生成器尋找到了OT映射?u,而判別器計算出了φ。因此,一旦生成器達到最優(yōu)解,判別器無需任何訓(xùn)練即可得到最優(yōu)解,反之亦然。

        更詳細地說,假設(shè)在第k次迭代中,生成器映射為gkθ。判別器計算了Kontarovich勢能φξ,其給出了當(dāng)前生成的數(shù)據(jù)分布(gkθ)#ζ與實數(shù)據(jù)分布υ之間的Wasserstein距離;?u給出了從(gkθ)#ζ到υ的OT映射。因此我們可以得到:

        這意味著生成器映射可以被更新為

        這個結(jié)論表明,原則上我們可以跳過生成器的訓(xùn)練過程;在實際應(yīng)用中,我們通過共享中間計算結(jié)果可以大大提高計算效率。因此,在設(shè)計GAN架構(gòu)時,協(xié)作優(yōu)于競爭。

        5.2. 模式崩潰和正則性

        盡管GAN在許多應(yīng)用中十分強大,但是它們有十分致命的缺陷。第一,GAN的訓(xùn)練比較復(fù)雜,其對超參數(shù)敏感以及收斂性差;第二,GAN易產(chǎn)生模式崩潰問題;第三,GAN可能會產(chǎn)生不真實的樣本。不收斂性差、模式崩潰和生成不真實的樣本等問題都可以通過OT映射的正則性定理來解釋。

        根據(jù)Brenier的極分解定理,即Theorem 3.9,任何保測度映射都可以被分解為兩個映射,其中一個是OT映射,它是Monge-Ampère方程的解。根據(jù)正則性Theorem 3.15,如果目標測度υ的支集Λ具有多個連通分支,即υ具有多個模式,或者Λ是非凸集合,那么OT映射T:Ω→Λ在奇異點集ΣΩ上是不連續(xù)的。

        圖9顯示了多個連通的情形,Λ具有兩個連通分支,OT映射T在Σ1上間斷。圖10顯示了Λ是連通但非凸的情形。Ω是矩形、Λ是啞鈴形、密度函數(shù)是常數(shù)、OT映射是不連續(xù)的、奇異點集合Σ1=γ1∪γ2。

        圖11顯示了R3中兩個概率測度之間的OT映射。源測度μ和目標測度υ均為均勻分布,Ω的支集是單位實心球,Λ的支集是實心斯坦福(Stanford)兔子。我們基于Theorem 4.2計算了Brenier勢能u:Ω→R。為了可視化映射,我們按如下方式插值概率測度:

        圖11顯示了插值測度ρt的支集。表面的褶皺是奇異點集,其中OT映射是不連續(xù)的。

        圖9 . 不連續(xù)的OT映射,由基于Theorem 4.2的一個GPU算法實現(xiàn)生成。(a)源域; (b)目標域。(a)圖中間的線代表的是奇異點集合Σ1。

        在一般情況下,由于實際數(shù)據(jù)分布、嵌入流形Σ以及編碼和解碼映射的復(fù)雜性,目標測度支集很少是凸的,所以傳輸映射幾乎不可能整體上都連續(xù)。

        另外,一般的DNN,如ReLU DNN只能是逼近連續(xù)映射。ReLU DNN所表示的函數(shù)空間不包含所需的非連續(xù)傳輸映射。訓(xùn)練過程,即搜索過程,將出現(xiàn)以下三種情況:

        (1)訓(xùn)練過程不穩(wěn)定、不收斂。

        (2)搜索過程會收斂到Λ的多個連通分支之一,映射會收斂到所期望的傳輸映射的一個連續(xù)分支。這意味著我們遇到了模式崩潰。

        (3)訓(xùn)練過程能使傳輸映射成功覆蓋所有模式,但同時也覆蓋了Λ以外的區(qū)域。在實際應(yīng)用中,這種情況將導(dǎo)致GAN產(chǎn)生不真實的樣本。如圖12所示。因此,從理論上講,直接使用DNN來近似OT映射是不可能的。

        5.3. AE-OT模型

        如圖4所示,我們將GAN的兩個主要任務(wù)分為流形學(xué)習(xí)和概率分布變換。第一個任務(wù)是通過AE來計算編碼映射fθ和解碼映射gξ;第二個任務(wù)是利用變分方法來計算隱空間中的OT映射T。編碼映射fθ將實際數(shù)據(jù)分布υ前推為(fθ)#υ。在隱空間中,T將均勻分布μ映射到(fθ)#υ。

        AE-OT模型有許多優(yōu)勢。尋找OT映射實際上是一個凸優(yōu)化問題,這保證了解的存在性和唯一性。訓(xùn)練過程是穩(wěn)定的,并采用了擬牛頓法進行超線性收斂。未知數(shù)的數(shù)量與訓(xùn)練樣本的數(shù)量相等,避免了過度參數(shù)化。并行OT映射算法可以通過使用GPU來實現(xiàn)。OT映射的誤差限可以通過Monte Carlo方法中的采樣密度來控制。具有自適應(yīng)性的等級分層算法進一步提高了計算效率。另外,AE-OT模型可以消除模式崩潰。

        6. 實驗結(jié)果

        在這一部分,我們將展示實驗結(jié)果。

        6.1. 訓(xùn)練過程

        圖10 . 不連續(xù)的OT映射,由基于Theorem 4.2的一個GPU算法實現(xiàn)生成。(a)源域; (b)目標域。(a)圖中的γ1和γ2是兩個奇異點集合。

        圖11 . 從Stanford兔子到實心球的OT映射。邊界曲面上的皺褶是奇異點集合。(a)~(d)顯示了變化過程。

        圖12 . AE-OT模型生成的人臉圖像。(a)生成的實際人臉圖像;(b)經(jīng)過奇異點的路徑。(b)圖中心位置處的圖像的傳輸映射是非連續(xù)的。

        AE-OT模型的訓(xùn)練主要包括兩個步驟,即訓(xùn)練AE和尋找OT映射。正如第4節(jié)所述,使用GPU的算法實現(xiàn)來完成OT的步驟。在訓(xùn)練AE過程中,我們使用Adam算法[49]來優(yōu)化神經(jīng)網(wǎng)絡(luò)的參數(shù),其中學(xué)習(xí)率為0.003,β1= 0.5,β2= 0.999。當(dāng)L2損失停止下降時,這意味著神經(jīng)網(wǎng)絡(luò)找到了良好的編碼映射,我們固定編碼器部分并繼續(xù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)以獲得解碼映射。編碼器固定前后的訓(xùn)練損失見表1。接下來,為了找到從給定分布(我們在這里使用均勻分布)到隱空間特征的OT映射,我們從均勻分布中隨機采樣100N個隨機樣本點來計算能量梯度。這里,N是數(shù)據(jù)集隱空間特征的數(shù)目。實驗中,θij對于不同數(shù)據(jù)集也是不一樣的。具體來說,對于MNIST和FASHION-MNIST兩個數(shù)據(jù)集,θij是0.75,但對于CIFAR10和CELEBA數(shù)據(jù)集,θij分別為0.68和0.75。

        我們的AE-OT模型是在Linux平臺上通過使用Py-Torch來實現(xiàn)的。所有實驗均在GTX1080Ti上進行。

        6.2. 傳輸映射不連續(xù)性測試

        在這個實驗中,我們的目的是去驗證我們的假設(shè),即在大多數(shù)實際應(yīng)用中,目標測度的支集是非凸的、奇異點集是非空的以及在奇異點集上概率分布變換映射是非連續(xù)的。

        如圖12所示,我們使用AE來計算從CelebA數(shù)據(jù)集(Σ,υ)到隱空間Z的編碼和解碼映射,其中,編碼映射fθ:Σ→Z在隱空間上將υ前推為(fθ)#υ。在隱空間中,我們用第4節(jié)所描述的算法計算了OT映射,即T:Z→Z, 其中T將單位立方體ζ中的均勻分布映射為(fθ)#υ。然后,我們從分布ζ中隨機抽取樣本z,并使用解碼映射gξ:Z→Σ將T(z) 映射為生成的人臉圖像gξ ? T(z)。圖12(a)展示了由該AE-OT模型生成的實際人臉圖像。

        如果隱空間中前推測度(fθ)#υ的支集是非凸的,則存在奇異點集合Σk,其中k>0。我們希望驗證ΣK的存在。我們在隱空間的單位立方體中隨機劃上一條線段,然后沿著該線段密集插值以生成面部圖像。如圖12(b)所示,我們找到了一條線段γ,并生成了一個變形序列,該序列的起點是具有一對棕色眼睛的男孩面部圖像,終點是具有一對藍色眼睛的女孩面部圖像。在圖像中間部分,我們生成的人臉的一只眼睛是藍色的,另一只眼睛是棕色的。這些不真實人臉圖像,應(yīng)該在流形Σ之外。這意味著線段γ穿過了奇異點集Σk,而傳輸映射T在其上是不連續(xù)的,這也驗證了我們的猜想是正確的,即被編碼的人臉圖像測度的支集在隱空間中是非凸的。

        表1 編碼器固定前后AE的 L2損失

        同時,我們發(fā)現(xiàn)AE-OT模型將訓(xùn)練速度提升了5倍,并且提高了模型的收斂穩(wěn)定性,這是因為OT過程是一種凸優(yōu)化過程。這為改進現(xiàn)有的GAN模型提供了一種很有前途的方法。

        6.3. 模式崩潰比較

        由于合成數(shù)據(jù)集由明確的分布和已知模式組成,因此利用這種數(shù)據(jù)集進行實驗,可以精確地測量模式崩潰。我們選擇了兩個在之前的工作[50,51]中已經(jīng)研究或提出的合成數(shù)據(jù)集——2D網(wǎng)格數(shù)據(jù)集。

        關(guān)于模式崩潰測量指標的選擇,我們選取了三種以前使用過的指標[50,51]。模式數(shù)量(number of modes)是指由生成模型生成的樣本所捕捉到的模式個數(shù)。在這個指標中,如果在該模式的三個標準差范圍內(nèi)沒有生成樣本,則我們判定該模式已失效。高質(zhì)量樣本的百分比(percentage of high-quality samples)測量的是在最近模式的三個標準差范圍內(nèi)生成的樣本比例。參考文獻[51]使用了第三個測量指標,即逆Kullback-Leibler(KL)散度。對于這個指標,每個生成樣本都被分配給離其最近的模式,我們計算了被分配給每個模式的樣本的直方圖。該直方圖形成了一種離散分布,然后我們計算了由真實數(shù)據(jù)形成的直方圖的離散分布的KL散度。直觀地說,該指標測量了生成樣本在所有模式間關(guān)于真實分布的平衡程度。

        在參考文獻[51]中,作者用以上三種指標評估了GAN [26]、ALI [52]、MD [30]和PacGAN [51]在合成數(shù)據(jù)集上的表現(xiàn)。每個訓(xùn)練實驗使用的生成器都具有相同的網(wǎng)絡(luò)結(jié)構(gòu),訓(xùn)練參數(shù)共約400k個。網(wǎng)絡(luò)訓(xùn)練的訓(xùn)練樣本共有100k個,迭代次數(shù)為400次。對于AE-OT實驗,由于源空間和目標空間都是2D,因此我們不需要訓(xùn)練任何AE。我們直接計算了單位正方形上的一致分布與真實數(shù)據(jù)分布之間的半離散OT映射。理論上,OT映射恢復(fù)所有模式所需的最小真實樣本數(shù)量是每個模式需要一個真實樣本。然而這可能導(dǎo)致在插值階段生成低質(zhì)量的樣本。因此,對于OT映射的計算,我們采用了512個真實樣本,并根據(jù)這個映射生成了新的樣本。在這種情況下,我們注意到,在OT映射的計算中只有512個參數(shù)需要被優(yōu)化,并且由于Hessian矩陣的正定性,優(yōu)化過程是穩(wěn)定的。我們的結(jié)果見表2,其中前面使用的方法的衡量標準見參考文獻[51]。我們在合成數(shù)據(jù)集上的結(jié)果和GAN、PacGAN的結(jié)果如圖13所示。

        6.4. 與現(xiàn)有技術(shù)的比較

        我們通過實驗對本文提出的AE-OT模型和其他現(xiàn)有生成模型進行了比較,現(xiàn)有生成模型主要包括Lucic等在參考文獻[33]中評估的對抗模型和Hoshen、Malik在參考文獻[36]中研究的非對抗模型。

        出于公平考慮,我們采用了相同的測試數(shù)據(jù)集和網(wǎng)絡(luò)架構(gòu)。數(shù)據(jù)集與參考文獻[31,36]中的測試數(shù)據(jù)集類似,包括MNIST [53]、MNIST-Fansion [54]、CIFAR-10[55]和CelebA [56]。網(wǎng)絡(luò)架構(gòu)與參考文獻[33]中Lucic等使用的網(wǎng)絡(luò)架構(gòu)類似。特別是,在我們的AE-OT模型中,解碼器的架構(gòu)和參考文獻[33]中GAN生成器的架構(gòu)一樣,并且編碼器和解碼器是對稱的。

        我們利用FID評分[31]和PRD曲線作為評估標準來比較我們的模型和現(xiàn)有的生成模型。FID評分衡量了生成結(jié)果的視覺保真度,并且對圖象損壞具有魯棒性。但是FID評分對模式的添加和刪除非常敏感[33],因此我們又使用了PRD曲線,PRD曲線可以量化真實數(shù)據(jù)集上模式丟失和添加的程度[32]。

        6.4.1. 利用FID評分進行比較

        FID評分計算方法如下:①通過運行inception網(wǎng)絡(luò)[30]來提取生成圖像和真實圖像中有視覺意義的特征;②利用Gaussian分布來擬合真實圖像和生成圖像的分布;③用如下公式計算兩個Gaussian分布之間的距離:

        表2 2D格點數(shù)據(jù)集上的模式崩潰比較

        圖13 . 2D格點數(shù)據(jù)集上的模式崩潰比較。(a)GAN;(b)PacGAN4;(c)AE-OT。橙色點代表真實樣本,綠色點代表生成樣本。

        式中,μr和μg分別代表真實分布的均值和生成分布的均值;Σr和Σg分別代表兩個分布的方差。

        比較的結(jié)果見表3和表4,幾種GAN的統(tǒng)計數(shù)據(jù)來自Lucic等[33],非對抗生成模型的統(tǒng)計數(shù)據(jù)則來自于Hoshen和Malik [36]。一般,我們提出的模型比其他現(xiàn)有生成模型能夠獲得更好的FID評分。

        理論上來說,我們的AE-OT模型的FID評分和之前預(yù)訓(xùn)練的AE的FID評分接近,這從我們的實驗中也得到了證實。

        我們的AE采用的是Lucic等在參考文獻[33]中提到的固定網(wǎng)絡(luò)結(jié)構(gòu),它的性能不足以編碼 CIFAR-10或者 CelebaA,因此我們必須下采樣這些數(shù)據(jù)集。我們從CIFAR-10中隨機選擇了2.5×104張圖像和從CelebaA中隨機選擇了1.0×104張圖像來訓(xùn)練模型。即使是這樣,我們的模型在CIFAR-10上依然取得了最好的FID評分。由于InfoGAN模型容量的有限性,CelebA的AE性能的FID評分(67.5)并不理想,這就使得生成的數(shù)據(jù)集的FID評分為68.4。通過在AE架構(gòu)中增加兩個額外的卷積層,CelebA的L2損失將低于0.03,而且FID評分也超過了所有其他模型(28.6,如表4括號中所示)。

        6.4.2. 利用PRD曲線進行比較

        FID評分是度量生成分布和真實數(shù)據(jù)分布之間差距的一個有效方法,但它主要用于評價精確度,它不能準確地捕捉生成模型所能覆蓋的真實數(shù)據(jù)比例。參考文獻[32]中的方法將分布之間的散度分解為兩個部分,即精確度和查全率。

        給定一個參考分布P和一個學(xué)習(xí)分布Q,精確度可直觀地衡量Q中樣本的質(zhì)量,而查全率衡量了Q所覆蓋的P的比例。

        我們使用Sajjadi等在參考文獻[32]中介紹的(F8,F1/8)的概念量化了精確度和查全率的相對重要程度。圖14總結(jié)了對比結(jié)果。每個點代表的是一個有超參數(shù)集的具體模型。點離右上角越近,模型的性能越好。藍色和綠色的點分別表示了參考文獻[32]中評估的GAN和VAE,黃色的點代表的是參考文獻[36]中的GLANN模型,而紅色的點代表的是我們的AE-OT模型。

        顯然,在MNIST和FASHION-MNIST數(shù)據(jù)集上,我們提出的模型的性能要優(yōu)于其他模型。對于CIFAR-10數(shù)據(jù)集,我們模型的精確度比GAN和GLANN的稍低,但是查全率是最高的。對于CelebA數(shù)據(jù)集,由于AE容量有限,我們的模型表現(xiàn)得不是很可觀。但是,在AE里添加兩個卷積層后,我們的模型得到了最高的評分。

        6.4.3. 可視化比較

        圖15顯示了由我們所提出的方法生成的圖像和參考文獻[33]中Lucic等研究的GAN以及參考文獻[36]中Hoshen和Malik研究的非對抗模型生成的圖像之間的可視化的比較結(jié)果。第一列是初始圖像,第二列是由AE生成的結(jié)果,第三列是由Lucic等[33]采用GAN得到的最好的生成結(jié)果,第四列是由Hoshen和Malik采用模型生成的結(jié)果,最后一列是用我們方法生成的結(jié)果。很明顯,采用我們的方法生成了高質(zhì)量的圖像并且該圖像包含了所有模式。

        表3 用FID進行定量比較-I

        表4 用 FID 進行定量比較-II

        圖14 . 在四個數(shù)據(jù)集上,以(F8, F1/8)的精確度-查全率進行比較。(a)MNIST;(b)FASHION;(c)CIFAR-10;(d)CelebA。黃褐色的點表示參考文獻[36]中的結(jié)果。紅色的點是利用本文所提出的方法生成的結(jié)果。(d)中紫色的點代表添加兩個卷積層后,利用本文所提出的方法生成的結(jié)果。

        圖15 . 生成圖像質(zhì)量在 4 個數(shù)據(jù)集上的可視化比較。第一列(a)是真實數(shù)據(jù);第二列(b)是由AE生成的結(jié)果;第三列(c)顯示的是由GAN[33]以最高的精確度-查全率(F8, F1/8)生成的結(jié)果,它對應(yīng)著圖14中的B點;第四列(d)是參考文獻[36]中的結(jié)果;最后一列(e)是利用本文所提出的方法生成的結(jié)果。

        7. 結(jié)論

        本文利用OT理論來解釋GAN。根據(jù)數(shù)據(jù)流形分布假設(shè),GAN主要完成兩個任務(wù)——流形學(xué)習(xí)和概率分布變換。概率分布變換可以利用OT方法直接實現(xiàn)。OT理論解釋了模式崩潰的基本原因,并指出生成器和判別器之間應(yīng)該是合作而非競爭的內(nèi)在關(guān)系。此外,我們提出了AE-OT模型,該模型提高了理論的嚴謹性、增強了訓(xùn)練的穩(wěn)定性和效率,并且消除了模式崩潰問題。

        我們的實驗結(jié)果驗證了我們的理論推測,即如果分布傳輸映射是不連續(xù)的,那么奇異點集的存在會導(dǎo)致模式崩潰。此外,通過將我們提出的模型與現(xiàn)有最先進的模型進行比較發(fā)現(xiàn),我們提出的模型消除了模式崩潰,并在FID評分和PRD曲線方面要優(yōu)于其他模型。

        未來,我們將對流形學(xué)習(xí)階段的理論理解進行探索,并用嚴格的方法使這部分黑匣子透明化。

        致謝

        本研究得到國家自然科學(xué)基金項目(61936002、61772105、61432003、61720106005和61772379)的資助。

        Compliance with ethics guidelines

        Na Lei, Dongsheng An, Yang Guo, Kehua Su, Shixia Liu, Zhongxuan Luo, Shing-Tung Yau, and Xianfeng Gu declare that they have no conflicts of interest or financial conflicts to disclose.

        猜你喜歡
        數(shù)據(jù)分布流形勢能
        “動能和勢能”知識鞏固
        作 品:景觀設(shè)計
        ——《勢能》
        文化縱橫(2022年3期)2022-09-07 11:43:18
        “動能和勢能”知識鞏固
        “動能和勢能”隨堂練
        改進的云存儲系統(tǒng)數(shù)據(jù)分布策略
        緊流形上的Schr?dinger算子的譜間隙估計
        迷向表示分為6個不可約直和的旗流形上不變愛因斯坦度量
        Nearly Kaehler流形S3×S3上的切觸拉格朗日子流形
        一種基于給定標準對數(shù)據(jù)進行正態(tài)修正的算法
        試論大數(shù)據(jù)之“大”
        亚洲美女av二区在线观看| 国内揄拍国内精品少妇国语| 国产91色在线|亚洲| 国产av一区二区三区香蕉| 国产亚洲精品品视频在线| 亚洲精品乱码8久久久久久日本 | 成人欧美一区二区三区的电影| av无码天一区二区一三区| 精品国精品自拍自在线| 国产一区二区三区视频网| 日本一卡2卡3卡4卡无卡免费网站 亚洲av无码一区二区三区不卡 | 亚洲国产一区二区三区在线观看| 99久久免费精品高清特色大片| 无码一区二区三区久久精品| 免费人成网站在线视频| 山外人精品影院| 久久久久这里只有精品网| 日本中出熟女一区二区| 成人国产一区二区三区| 强行无套内谢大学生初次| 中文不卡视频| 日本高清一区二区在线播放| 性久久久久久| 国内露脸中年夫妇交换| 亚洲国产av一区二区三| 一区二区三区高清在线观看视频| 日本老熟妇50岁丰满| 欧美精品一区二区精品久久| 国产一区二区不卡av| 99久久婷婷国产综合亚洲| 欧美黑人又粗又大久久久| 婷婷开心五月综合基地| 亚洲av熟女少妇久久| 成人黄色网址| 亚洲第一区二区快射影院| 国产亚洲精品精品综合伦理| 久久精品国产亚洲av电影网| 国产高潮精品久久AV无码| 免费蜜桃视频在线观看| 国产激情无码一区二区| 亚洲av无码一区二区二三区下载|