亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種基于正交約束的隱空間多語義學習方法

        2022-04-09 12:56:40周琦量盧育欽
        電腦知識與技術 2022年6期

        周琦量 盧育欽

        摘要:探索生成對抗網絡隱空間的語義信息是當前生成對抗網絡圖像可控生成方向的研究熱點。目前的研究在探索隱空間的語義時往往每次只學習某一個屬性對應的語義方向,而這種方式沒有考慮不同語義方向之間可能發(fā)生糾纏的問題,因此在控制生成圖像某一屬性變化時會影響到其他屬性。為了解決此類問題,提出了一種基于正交約束的多語義學習方法,該方法在同時學習多個語義方向的訓練過程中加入正交約束以減少不同語義方向之間的關聯(lián)性,從而避免了不同語義方向間的糾纏問題?;诖笠?guī)模生成對抗網絡(BigGAN)模型在ImageNet數據集進行了水平平移、垂直平移和亮度等多語義方向的同步學習實驗。實驗結果表明,提出的方法能有效同時學習隱空間的多個語義方向,實現圖像多個屬性可控生成,同時能有效地保持不同語義方向之間的獨立性。

        關鍵詞:圖像生成;生成對抗網絡;隱空間;可控生成

        中圖分類號:TP391? ? ?文獻標識碼: A

        文章編號:1009-3044(2022)06-0042-04

        開放科學(資源服務)標識碼(OSID):

        1 概述

        在計算機視覺領域中完整而多樣的圖像數據可以使分類、檢索等下游任務的結果更加精確,生成對抗網絡作為一種無監(jiān)督生成模型,因其不依賴任何先驗假設以及良好的生成效果而受到了廣泛的關注[1-7],目前生成對抗網絡(GANs)在圖像合成的質量和多樣性方面已經遠超于其他生成模型。通常,GANs通過對抗訓練使得生成器可以學習從隱空間到圖像領域的映射關系。訓練完成后,GANs在隱空間隨機采樣經過生成器能產生接近真實數據的圖像。早期關于生成對抗網絡的工作[8-14]主要集中在穩(wěn)定訓練過程以及提高生成圖像的質量上并已取得了較大進展,但在圖像屬性可控生成方面的研究相對較少。一些工作初步探索了如何控制圖像的屬性變化[7,15-18],Radford等人[7]首次對隱空間中的輸入向量進行簡單的向量運算實現了圖像領域一些連續(xù)的語義變化。CGAN[15]通過在生成對抗網絡訓練的目標函數中加入條件向量作為約束條件來控制生成圖像,但它只適用于離散的屬性并且需要數據提供標簽。StyleGAN[17]通過結合兩幅圖像的隱向量來控制圖像的風格內容,然而它只能調整風格向量改變圖像的風格內容不能具體指定控制圖像的某些屬性。目前,如何通過改變隱向量實現圖像變化仍是一個極具挑戰(zhàn)性的問題。

        找到人類可理解的語義方向是研究GANs隱空間的關鍵[19-24],通過將隱向量向某個語義方向移動可以相應地改變生成圖像中出現的語義信息。這種控制生成圖像的方法可以使圖像編輯更加直接,目前關于如何在隱空間中學習有效的語義方向已成為生成對抗網絡的一個研究熱點。文獻[21]從幾何學的角度將數據分布視為一個方向性的k維流行分布,將隱向量沿切線平面移動可以控制對應于圖像域中可解釋的變化。Jahania等人[23]通過生成圖像和編輯圖像之間的損失函數在隱空間中訓練線性的語義方向,通過將隱向量沿著語義方向游走可以控制生成圖像,從而實現一些簡單的圖像轉換。H?rk?nen等人[24]首先通過在生成器前幾個傳播層進行特征分離,然后對隨機采樣的隱向量進行主成分分析(PCA)來尋找有意義的方向,但每個方向對應的語義信息需要手工區(qū)分。現有的方法在隱空間中學習語義方向通常每次只訓練一個屬性方向,沒有考慮圖像變化時會出現多個語義信息同時變化從而導致控制一個屬性變化會影響到其他的屬性,又或者是采用了同時學習多個語義方向的方法但無法知曉語義方向所控制的屬性。為了解決這些問題,本文提出了一種在隱空間中同時學習多個語義方向的方法,通過在多個語義方向同時學習的訓練過程中加入正交約束減少不同語義方向之間的關聯(lián)性,從而實現避免屬性糾纏問題。本文的主要工作包括以下幾個方面:

        (1) 提出了一種在GAN的隱空間中同時學習多個語義方向的方法,利用這些語義方向我們可以同時控制生成圖像的多個屬性。

        (2) 在多語義方向同時學習過程中加入正交約束,減少了隱空間中學習多個語義方向時不同方向之間的相關性,從而實現在控制生成圖像某一屬性變化時降低對其他屬性的影響。

        (3) 基于BigGAN[6]模型在ImageNet數據集[25]進行了水平平移、垂直平移和亮度等屬性方向的同步學習實驗,通過實驗驗證了本文方法的有效性。

        2 本文方法

        2.1 生成對抗網絡

        生成對抗網絡是一種無監(jiān)督的生成模型,其目的是通過對抗訓練的方式使生成器可以合成與訓練集相似的圖像。生成對抗網絡主要由生成器[G]和判別器[D]兩部分構成,生成器在隱空間中隨機采樣高斯噪聲輸出合成圖像,判別器負責對接收的圖像進行真假判別。在訓練過程中,生成器不斷優(yōu)化自身的生成能力以合成相似于訓練數據的圖像,判別器則是提高自己的鑒別能力,隨著時間的推移,兩個模型通過對抗訓練的方式相互博弈最終達到納什均衡,此時生成器可以捕捉到真實數據的分布生成逼真的圖像騙過判別器,而判別器再也無法區(qū)分生成圖像真假。整個優(yōu)化過程實際是先后優(yōu)化判別器和生成器兩個網絡的優(yōu)化目標函數之和,生成對抗網絡的優(yōu)化目標函數為:

        [minGmaxDV(D,G)=Ex~Pdata(x)[log(D(x))]+Ez~Pz(z)[log(1-D(G(z)))]]? ? ? ? ? ? ? ? (1)

        其中[x]代表來自訓練集的真實數據,[z]表示隨機噪聲,[Pdata(x)]表示真實數據的分布,[Pz(z)]表示隨機噪聲分布,通過這樣一個對抗式的訓練,當最終生成器完全捕捉真實數據分布時即[Pdata(x)=Pz(x)],生成對抗網絡達到了其全局最優(yōu)解。

        2.2 隱空間特性

        解釋生成對抗網絡的隱空間對于深入了解其如何學習無監(jiān)督的數據表示至關重要,對于一個訓練好的生成對抗網絡,在其隱空間中隨機采樣一個隱向量,經過生成器便可得到一張與真實數據相近的圖像,這表明此時隱向量與圖像之間已具有良好的映射關系。DCGAN[7]發(fā)現在隱空間中的兩個隱向量之間進行線性插值,可以觀察到生成圖像平滑過度變化到另一個生成圖像。此外,對已學習具有圖像含義的隱向量進行一些簡單的向量運算也能在圖像上獲得相應的變化,這都表明了GAN的隱空間能捕捉真實圖像的重要表征,圖像領域的一些語義變化可以通過在隱空間中游走來實現。為了進一步說明改變隱向量對于圖像合成上所帶來的影響,圖1顯示了在BigGAN隱空間中將隱向量向隨機方向移動所引起合成圖像地變化,其結果表明隱向量的隨機移動確實會給圖像的合成帶來了一些平滑的變化,但是這種變化往往在語義上無法解釋或者是在變化過程中幾個屬性之間是相互影響的。本文的目標是在GAN的隱空間中學習可解釋的方向,同時在學習多個語義方向時降低它們之間的相關性,這些方向可以進一步被用來獨立控制生成圖像的一些特定屬性。然而由于隱向量高維的特性,它所編碼的圖像語義也極為多樣,因此在隱空間中尋找有意義的方向具有很大的挑戰(zhàn)性。

        2.3 單個語義方向的學習

        為了在GAN的隱空間中發(fā)現一個語義方向,本方法首先對隨機生成的圖像進行目標屬性轉換,用僅在目標屬性上有差異的圖像構建我們的訓練數據集,在訓練過程中利用訓練數據圖像與沿語義方向移動后生成圖像之間的目標函數不斷優(yōu)化以學習目標語義方向,具體操作如下,先根據目標屬性和變化的程度對隨機生成的圖像[G(z)]進行目標屬性變換。假設目標屬性變換操作表示為[T],變換的步長表示為[α],對生成圖像[G(z)]目標屬性變換后得到目標圖像[T(G(z),α)]。例如[T]代表平移操作,將整個圖像水平移動,[α]則定義了以像素為單位的移動距離,對生成圖像進行若干次目標屬性變換則可得到一個僅有水平變化的圖像數據集。若一個初始隱向量[z]沿著特定的語義方向[d]移動步長[α]后可以生成與目標圖像[T(G(z),α)]相似的圖像,則可認為方向向量[d]即為我們期望學習的語義方向。我們通過在訓練數據集與沿著語義方向[d]移動[α]后所生成的圖像之間建立目標函數來優(yōu)化方向向量[d],目標函數的數學公式如下:

        [d=argmindEz,α[L(G(z+αd),T(G(z),a))]]? ? ? ? ?(2)

        式中我們使用了L2損失作為我們的損失函數[L],它衡量了[G(z+αd)]和[T(G(z),α)]之間的距離,訓練過程中,最小化此目標函數會引導生成圖像[G(z+αd)]向目標圖像[T(G(z),α)]逼近,它們之間距離為0時則表示兩張圖像幾乎相同,此時的方向向量[d]就可作為我們所要學習的語義方向,通過將隱向量沿學習的方向移動即可控制生成圖像根據特定的屬性變化,其簡單的演示過程如圖2所示。

        2.4 基于正交約束的多語義方向學習

        當存在多個屬性時,通過單獨學習得到的語義方向之間通常存在糾纏情況,因此在利用其中一個語義方向進行圖像屬性編輯時,可能會影響其他屬性。為了實現更精確的控制,我們期望在同時學習多個語義方向時盡量降低不同屬性方向之間的相關性。因此,本文提出在多語義學習過程中加入正交約束,以實現各語義方向之間相互正交。假設d1,d2,......,dn為要學習的多個不同語義方向,T1,T2,......,Tn表示相應的目標屬性變換,T1,2,......,n表示對圖片進行所有目標屬性的聯(lián)合轉換,首先將每個方向向量標準化并排列組合成一個向量矩陣A=[d1,d2,......,dn],之后在訓練過程中學習語義方向時我們通過建立如下的目標函數對方向向量進行優(yōu)化:

        [d1,d2,…,dn=argmind1,d2,…,dnEz,α1,α2,…,αn[L(G(z+α1d1),T1(G(z),α1))+…+L(G(z+αndn),Tn(G(z),αn))+L(G(z+α1d1+…+αndn),T1,2,…,n(G(z),α1,…,αn))+λ(AAT-E)]]? ? ? ? ? ? ? ? (3)

        相對于原有的公式(2),我們在聯(lián)合學習多個語義方向時加入了[l(AAT-E)]作為約束項,[λ]為控制參數決定約束項的影響程度,在訓練過程中目標函數的值會不斷減小約束項也會隨之變小。理想情況下,當[(AAT-E)=0]時,A則會變成一個正交矩陣,矩陣中的每一維向量之間相互正交,即表示我們所學習的各個語義方向之間相互正交,通過本方法可以盡量減少不同屬性間的相關性,從而使得我們在利用其中某一個語義方向控制生成圖像變化時能減少對其他屬性的影響。

        3 實驗與分析

        為了證明本文提出方法的有效性,我們分別進行了多個語義方向學習實驗和相關性分析實驗。本文基于BigGAN模型在ImageNet數據集上進行了一系列實驗來驗證有關多個屬性的控制和正交約束的有效性。BigGAN是一個條件型生成對抗網絡,其生成器需要兩個向量作為輸入:一個128維的隱向量和一個表示條件代碼的one-hot向量。ImageNet是一個大型的視覺數據庫,包含來自一千種不同類別的120萬張自然圖像。

        3.1 多個語義方向學習實驗

        我們預設需要控制的多個目標屬性,分別是水平位置、垂直位置和亮度,在實驗中,設定初始訓練樣本數為10000,首先隨機初始化三個屬性方向向量,并使用公式(3)聯(lián)合訓練,為了獲得更好的控制效果,我們不斷調試每個屬性最合適的<H:\飛翔打包文件\電腦2022年第六期打包文件\7.03xs202206\Image\image43.pdf>取值范圍,例如,控制生成關于鳥類的圖像時,對于水平位置為了讓圖片中的目標物體盡量保持在圖像內,設定的[α]取值為[-60, -40, -20, 0, 20, 40, 60]。圖3顯示了利用所學習得到的三個語義方向同時控制水平位置、垂直位置和亮度三個屬性的圖像變化效果。對于每個樣本,我們將其隱向量同時沿這三個語義方向移動,隱向量沿語義方向的每一次移動都會導致生成圖像變化,當我們同時沿三個方向移動隱向量時,即可以控制生成圖像的多個屬性。從結果中可以看出,本文方法可以有效同時控制生成圖像的多個屬性,這也表明在隱空間中成功地學習到了特定的語義方向。

        3.2 語義方向的相關性實驗

        在學習多個屬性方向時,由于不同屬性方向的訓練過程是相互獨立的,因此會出現不同語義方向相互糾纏的問題。為了驗證本文方法在學習多屬性方向時對減少不同屬性之間相關性的效果,我們測量了不同語義方向之間的余弦相似度,余弦相似度的值越靠近0表示兩個方向之間的相關性越小。在實驗中,先通過本方法同時學習水平位置、垂直位置和亮度三個屬性方向,再提取其中的每個單獨屬性方向,測量它們兩兩方向之間的余弦相似度。比較實驗為聯(lián)合學習多個語義方向時目標函數中未加正交約束所學習得到的語義方向,只需重復上述的實驗步驟測量即可,結果如表1所示,表中<H:\飛翔打包文件\電腦2022年第六期打包文件\7.03xs202206\Image\image45.pdf>對應水平位置,[d2]對應垂直位置,[d3]對應亮度??梢钥吹?,相較于未添加正交約束所學習的語義方向,加入正交約束所學習到的語義方向之間余弦相似度更小,這表明利用我們的方法可以更加有效減少不同屬性方向之間的關聯(lián)性。

        此外,我們還展示了利用加入正交約束時學習單一屬性方向所控制生成的圖像,從圖4可以看出,通過本方法學習的語義方向可以很好地利用其中的單個屬性方向控制生成圖像,并且不會改變其他屬性,這說明我們的方法可以有效地分解不同的屬性信息。

        4 結論

        針對生成對抗網絡控制生成圖像屬性變化時會出現影響其他屬性的問題,本文提出一種基于正交約束的多語義并行學習方法。該方法在生成對抗網絡隱空間學習多個語義方向時加入正交約束以降低不同屬性方向之間的相關性。經過實驗驗證,本方法可以有效控制生成圖像根據特定的多個屬性同時變化,同時也能減少不同屬性之間的相關性,使得在控制單個屬性變化時可以減少對其他屬性的影響。未來,我們將會考慮嘗試更多復雜的特征變化,并且在更多的數據集上進行實驗,以實現更加廣泛的應用場景。

        參考文獻:

        [1] I. J. GOODFELLOW, J. POUGET-ABADIE, M. MIRZA, et al. Generative adversarial nets[C]//Proceedings of the 27th International Conference on Neural Information Processing Systems-Volume 2. Cambridge, MA: MIT Press, 2014: 2672-2680.

        [2] ARIOVSKY M, CHINTALA S, BOTTOU L. Wasserstein generative adversarial networks[C]//International conference on machine learning. Cambridge, MA: JMLR, 2017: 214-223.

        [3] GULRAIANI I, AHMED F, ARJOVSKY M, et al. Improved training of wasserstein GANs[C]//Proceedings of the 31st International Conference on Neural Information Processing Systems. Cambridge, MA: MIT Press, 2017: 5769-5779.

        [4] SALIMANS T, GOODFELLOW I, ZAREMBA W, et al. Improved techniques for training gans[J]. Advances in neural information processing systems, 2016, 29: 2234-2242.

        [5] KARRAS T, AILA T, LAINE S, et al. Progressive Growing of GANs for Improved Quality, Stability, and Variation[C]//International Conference on Learning Representations, 2018.

        [6] BROCK A, DONAHUE J, SIMONYAN K. Large Scale GAN Training for High Fidelity Natural Image Synthesis[C]//International Conference on Learning Representations,2018.

        [7] RADFORD A, METZ L, CHINTALA S. Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks [EB/OL]. 2015[2022-01-04]. https://arxiv.org/abs/15 11.06434.

        [8] Zhu J Y, KR?h HENBühHL P, SHECHTMAN E, et al. Generative visual manipulation on the natural image manifold[C]//European conference on computer vision. Berlin: Springer, 2016: 597-613.

        [9] MA F, AYAZ U, KARAMAN S. Invertibility of convolutional generative networks from partial measurements[C]//Proceedings of the 32nd International Conference on Neural Information Processing Systems. Cambridge, MA: MIT Press, 2018: 9651-9660.

        [10] BAU D, ZHU J Y, WULFF J, et al. Seeing what a gan cannot generate[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. California: IEEE, 2019: 4502-4511.

        [11] GU J, SHEN Y, ZHOU B. Image processing using multi-code gan prior[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. California: IEEE, 2020: 3012-3021.

        [12] DUMOULIN V, BELGHAZI I, POOLE B, et al. Adversarially Learned Inference[EB/OL]. 2016[2022-01-04]. https://arxiv.org/abs/1606.00704.

        [13] DONAHUE J, KRAHENBUHL P, DARRELL T. Adversarial feature learning[EB/OL]. 2016[2022-01-04]. https://arxiv.org/abs/1605.09782.

        [14] ZHU J, ZHAO D, ZHOU B, et al. Disentangled Inference for GANs with Latently Invertible Autoencoder[EB/OL]. 2019[2022-01-04]. https://arxiv.org/abs/1906.08090.

        [15] MIRZA M, OSINDERO S. Conditional Generative Adversarial Nets[EB/OL].2014[2022-01-04], https://arxiv.org/abs/1411.1784.

        [16] CHEN X, DUAN Y, HOUGOOFT R, et al. Infogan: Interpretable representation learning by information maximizing generative adversarial nets[C]//Proceedings of the 30th International Conference on Neural Information Processing Systems. MA: MIT Press, 2016: 2180-2188.

        [17] KARRAS T, LAINE S, AILA T. A style-based generator architecture for generative adversarial networks[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. California: IEEE, 2019: 4401-4410.

        [18] KARRAS T, LAINE S, AITTALA M, et al. Analyzing and improving the image quality of stylegan[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. California: IEEE, 2020: 8110-8119.

        [19] GOETSCHALCKX L, ANDONIAN A, OLIVA A, et al. Ganalyze: Toward visual definitions of cognitive image properties[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. California: IEEE, 2019: 5744-5753.

        [20] BAU D, ZHU J Y, STROBELT H, et al. GAN Dissection: Visualizing and Understanding Generative Adversarial Networks[C]//International Conference on Learning Representations,2018.

        [21] M?LLENHOFF T, CREMERS D. Flat Metric Minimization with Applications in Generative Modeling[C]//International Conference on Machine Learning. Cambridge, MA: JMLR, 2019: 4626-4635.

        [22] SHEN Y, ZHOU B. Closed-form factorization of latent semantics in gans[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. California: IEEE, 2021: 1532-1540.

        [23] JAHANIAN A, CHAI L, ISOLA P. On the" steerability" of generative adversarial networks[C]//International Conference on Learning Representations, 2020.

        [24] PLUMERAULT A, LE BORGNE H, HUDELOT C. Controlling generative models with continuous factors of variations[C]//International Conference on Learning Representations,2020.

        [25] RUSSAKOVSKY O, DENG J, SU H, et al. Imagenet large scale visual recognition challenge[J]. International journal of computer vision, 2015, 115(3):211-252.

        【通聯(lián)編輯:梁書】

        中文字幕一区久久精品| 人妻精品久久无码区| 人妻仑乱a级毛片免费看| 精品亚洲欧美无人区乱码| 国产精品成人va| 无码天堂在线视频| 91成人国产九色在线观看| 一本久久a久久免费综合| 激性欧美激情在线| 欧美黑人疯狂性受xxxxx喷水 | 亚洲一区二区懂色av| 亚洲精品av一区二区| 男ji大巴进入女人的视频小说| 色综合自拍| 中文在线最新版天堂av| 亚洲综合一区中文字幕| 国产在线精品一区在线观看| 综合色久七七综合尤物| 美女福利视频网址导航| 亚洲一区二区日韩精品在线| 国产肉体xxxx裸体784大胆| 日韩免费无码一区二区三区 | 国产一区二区三区免费视| 少妇伦子伦精品无吗| 又污又黄又无遮挡的网站| 国产粉嫩嫩00在线正在播放| 国产精品亚洲一级av第二区| 粉嫩av国产一区二区三区 | 99精品视频在线观看免费| 国产短视频精品区第一页| 国产精品久久一区二区蜜桃| а天堂中文在线官网在线| 亚州少妇无套内射激情视频| 欧美人与物videos另类| 亚洲国产精品国自拍av| 窝窝午夜看片| 久久久久久久98亚洲精品| 在线看高清中文字幕一区| 精品人妻码一区二区三区剧情| 成人免费看吃奶视频网站| 亚洲一区二区三区精品网|