亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        深度學(xué)習(xí)中的圖像多風(fēng)格遷移算法

        2021-08-02 07:40:40石劍平
        軟件導(dǎo)刊 2021年7期
        關(guān)鍵詞:語義損失卷積

        李 超,石劍平,姜 麟

        (昆明理工大學(xué) 理學(xué)院,云南 昆明 650500)

        0 引言

        圖像風(fēng)格遷移又稱為圖像風(fēng)格轉(zhuǎn)換,是在保持原圖像語義內(nèi)容不變的情況下,將藝術(shù)圖像的風(fēng)格遷移到內(nèi)容圖像上。該操作被廣泛應(yīng)用于社交活動、娛樂應(yīng)用、戶外創(chuàng)作等領(lǐng)域,通過風(fēng)格遷移可得到新的藝術(shù)作品。

        早期風(fēng)格遷移方法為非真實感繪制(Non-photorealis?tic Rendering,NPR),其圖像渲染方法主要分為以下4 種:筆觸渲染[1]、區(qū)域渲染[2]、實例渲染[3]和基于圖像處理濾波器技術(shù)的渲染[4-5]。這些渲染技術(shù)雖然能有效對內(nèi)容圖片進(jìn)行風(fēng)格化處理,但都是通過原始圖像的底層信息完成,并沒有利用高層抽象信息。在傳統(tǒng)的風(fēng)格遷移過程中,內(nèi)容圖的風(fēng)格與語義信息分離是前提條件,也是重點和難點。在深度學(xué)習(xí)理論被提出后,Gatys 等[6]首次將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于圖像風(fēng)格遷移中,并取得了良好效果,解決了傳統(tǒng)方法的局限性;Li 等[7]應(yīng)用拉普拉斯損失增強(qiáng)邊緣信息,使細(xì)節(jié)和輪廓邊緣更加明顯;Dmitry 等[8]提出一種實時神經(jīng)網(wǎng)絡(luò)風(fēng)格算法;Johnson 等[9]通過引入前饋式傳輸網(wǎng)絡(luò)實現(xiàn)了圖像的快速風(fēng)格轉(zhuǎn)換。但上述學(xué)者提出的神經(jīng)網(wǎng)絡(luò)算法均喪失了原始算法[6]的靈活性,風(fēng)格遷移網(wǎng)絡(luò)的目的單一性問題沒有被解決,更換風(fēng)格樣式時需要重新訓(xùn)練網(wǎng)絡(luò),增加了風(fēng)格遷移的工作量。

        綜上所述,目前風(fēng)格遷移方法局限于單一風(fēng)格,且當(dāng)語義信息與風(fēng)格信息不匹配時容易發(fā)生色彩溢出現(xiàn)象。在實際應(yīng)用中,原始圖像的語義信息不同,所要求的風(fēng)格信息也不同,因此單一風(fēng)格遷移會導(dǎo)致原圖像中所有語義信息均偏向于單一風(fēng)格,使生成的語義信息被破壞。本文以多種藝術(shù)繪畫為研究對象,提出一種多風(fēng)格特點融合的風(fēng)格遷移算法,將多種風(fēng)格匯聚在一起得到多風(fēng)格融合圖像。該算法可根據(jù)用戶需要自由組合藝術(shù)圖片,為探索新的繪畫風(fēng)格提供了可行性方案。

        1 基礎(chǔ)工作

        自深度學(xué)習(xí)理論被提出以來,其代表性算法卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Nearal Network,CNN)在圖像特征提取領(lǐng)域廣泛應(yīng)用并表現(xiàn)出強(qiáng)大性能。CNN 不僅可以提取淺層圖像特征,還能很好地捕捉深層抽象特征,為風(fēng)格遷移提供了更加豐富的原材料。

        1.1 CNN 模型

        CNN 的本質(zhì)是多層感知機(jī),其采用的局部鏈接與全局共享方式,一方面減少了權(quán)值數(shù)量,使網(wǎng)絡(luò)更容易優(yōu)化,另一方面降低了模型復(fù)雜度和過擬合的風(fēng)險。CNN 中的VGG 網(wǎng)絡(luò)模型包括VGG16 和VGG19[10]。本文選取預(yù)訓(xùn)練的VGG19 網(wǎng)絡(luò),其由16 個卷積層、5 個池化層、3 個全連接層以及1 個分類層組成[8],網(wǎng)絡(luò)模型如圖1 所示[11]。

        Fig.1 VGG19 network structure圖1 VGG19 網(wǎng)絡(luò)結(jié)構(gòu)

        CNN 的核心部分為卷積層和池化層。在卷積層中,卷積核會進(jìn)行局部感知,匯總后可得到全局信息。池化層主要用于特征降維,以便壓縮數(shù)據(jù)和參數(shù)數(shù)量,減小過擬合風(fēng)險,提高模型容錯性[12]。

        1.2 圖像特征分析

        采用預(yù)訓(xùn)練的VGG19 網(wǎng)絡(luò)得到輸入圖片的特征圖,當(dāng)圖像以數(shù)據(jù)流的形式傳入神經(jīng)網(wǎng)絡(luò)時,通過卷積響應(yīng)得到每一層的響應(yīng)特征圖,根據(jù)這些特征圖進(jìn)行圖像重建[13]。

        針對圖2 所示的原始圖像,選取神經(jīng)網(wǎng)絡(luò)的conv2_1 層和conv4_1 層,通過卷積響應(yīng)得到這兩層的特征圖,如圖3、圖4 所示。結(jié)果顯示,淺層網(wǎng)絡(luò)得到的特征圖3 與原圖像信息吻合度較高,細(xì)節(jié)信息被很好地保留。但在深層網(wǎng)絡(luò)中,特征圖中的細(xì)節(jié)像素信息丟失,而高級的、抽象的內(nèi)容信息被保留下來,如圖4 所示。

        Fig.2 Original image圖2 原始圖像

        Fig.3 Single feature of conv2_1(left)and summary of feature of conv2_1(right)圖3 conv2_1 層單個特征圖(左)與conv2_1 層特征匯總圖(右)

        Fig.4 Single feature diagram of conv4_1(left)and summary of feature diagram of conv4_1(right)圖4 conv4_1 層單個特征圖(左)與conv4_1 層特征匯總圖(右)

        量化和精確捕獲圖像中的抽象風(fēng)格信息是兩個重要的基本問題。在CNN 中,不同的卷積核會得到不同的特征圖,不同深度的特征圖也會表現(xiàn)不同,每個特征圖可抽象為風(fēng)格信息的一種特征[14]。針對風(fēng)格信息,本文采用Gat?ys 等[6]提出的Gram 矩陣刻畫風(fēng)格。Gram 矩陣是一個對稱矩陣,其元素由多個特征圖矢量化后進(jìn)行內(nèi)積運算定義。通過該矩陣可得到不同特征圖之間的相關(guān)性,然后根據(jù)相關(guān)性重建風(fēng)格。

        1.3 評價標(biāo)準(zhǔn)

        針對風(fēng)格轉(zhuǎn)換的效果,本文提出一種新的評價標(biāo)準(zhǔn):①采用經(jīng)過訓(xùn)練的分類器提取兩幅圖像的高級特征,特征之間的歐式距離越小,兩幅圖像的語義信息相似度越高;②兩幅圖像在分離器上得到的由特征圖組成的Gram 矩陣間的歐式距離越小,兩幅圖像的風(fēng)格越相似。

        內(nèi)容判定標(biāo)準(zhǔn)根據(jù)圖像分類層提出,即一幅圖像的語義信息更多的是由圖像骨架體現(xiàn)。例如黑熊和北極熊的膚色等紋理信息不同,但其骨骼、軀體形狀相同,屬于同一類。高級語義信息可以捕獲到更加抽象的信息,通過兩幅圖像高級特征的“距離”可以刻畫內(nèi)容損失情況。

        風(fēng)格判定標(biāo)準(zhǔn)將風(fēng)格看作一種視覺紋理且在空間上分布均勻,是由重復(fù)的結(jié)構(gòu)、色彩等組成的低階統(tǒng)計度量[15-16]。根據(jù)其間的相關(guān)性構(gòu)建出Gram 矩陣,通過比較兩幅圖像的Gram 矩陣可以刻畫風(fēng)格信息的相似度情況。

        定義1:在n 維空間上,兩個向量x=(x1,x2,x3,…xn)與y=(y1,y2,y3,…yn)的歐式距離為:

        定義2:

        通過上述公式可知,兩個向量的歐式距離越接近,其代表內(nèi)容之間的相似度越高。

        2 多重風(fēng)格算法

        以CNN 風(fēng)格轉(zhuǎn)換算法[1]為基礎(chǔ),提出基于深度學(xué)習(xí)的圖像多風(fēng)格融合算法。利用VGG19 網(wǎng)絡(luò)提取圖像特征,對每幅風(fēng)格圖分別構(gòu)建風(fēng)格損失,得到圖像損失信息,最后匯聚所有風(fēng)格信息,得到新的藝術(shù)圖片[17]。該算法主要分為以下3 個步驟:

        (1)內(nèi)容重建。較深層的網(wǎng)絡(luò)保留了更高級的語義信息,因此采用CNN 對較深層的特征響應(yīng)進(jìn)行內(nèi)容重建。

        (2)風(fēng)格重建。通過CNN 響應(yīng)得到不同特征之間的相關(guān)性,并構(gòu)建Gram 矩陣獲取圖像的風(fēng)格信息。打亂原風(fēng)格圖的場景布局,構(gòu)建給定圖像的樣式匹配。

        (3)神經(jīng)網(wǎng)絡(luò)風(fēng)格遷移。構(gòu)建內(nèi)容損失函數(shù)與多風(fēng)格損失函數(shù),通過不斷優(yōu)化迭代得到結(jié)果圖。

        定義內(nèi)容圖像C和初始化圖像I,將二者捆綁成一個批次輸入到VGG19 網(wǎng)絡(luò)。該網(wǎng)絡(luò)模型的每一層都會通過卷積的形式對輸入圖像進(jìn)行重新編碼,得到相應(yīng)特征圖。假設(shè)在第l層有Nl個卷積核,可以得到Nl張?zhí)卣鲌D,每一張?zhí)卣鲌D的尺寸為H×W,令Ml=H×W,將第l層的特征圖信息儲存到矩陣Fl∈RNl×Ml中。Fij為第l層第i個特征圖上的第j個元素,將較高層的相關(guān)特征作為輸入圖像的內(nèi)容特征,F(xiàn)l和Cl分別作為初始化圖像和內(nèi)容圖像在第l層的語義信息特征,定義內(nèi)容損失函數(shù)為:

        該層損失函數(shù)的梯度為:

        在VGG19 模型的同一卷積層上可以得到多個不同特征圖,見圖3 和圖4。將不同特征圖之間的相關(guān)性作為風(fēng)格圖像的特征,采用Gram 矩陣計算特征圖之間的相關(guān)性,并將得到的Gram 矩陣作為風(fēng)格信息。Gram 矩陣為Gl∈RNl×Nl,其中Nl為卷積核數(shù)量,Glij表示圖像在第l層的特征圖轉(zhuǎn)成向量后第i個卷積核得到的特征圖與第j個卷積核得到的特征圖之間的內(nèi)積值,即:

        對于風(fēng)格圖像S和初始化圖片I,Gl和Al分別表示風(fēng)格圖像和新生成圖像在第l層的風(fēng)格信息,定義風(fēng)格損失函數(shù)為:

        將多層風(fēng)格損失函數(shù)組合在一起,得到該幅圖片的風(fēng)格損失為:

        式中,wl為各層對風(fēng)格損失貢獻(xiàn)的權(quán)重因子,該損失函數(shù)對第l層的響應(yīng)為:

        將內(nèi)容損失Lcontent與風(fēng)格損失Lstyle加權(quán)聯(lián)立,可定義總損失為:

        根據(jù)式(9)構(gòu)建的風(fēng)格損失,可通過不斷迭代優(yōu)化得到單風(fēng)格的新圖像[18]。而針對多種風(fēng)格而言,需分別構(gòu)建單風(fēng)格損失,將多個單風(fēng)格損失函數(shù)匯總后再進(jìn)行多種風(fēng)格的融合處理,最終形成一組風(fēng)格特征的損失函數(shù)。經(jīng)融合處理后得到的風(fēng)格損失為:

        式中,αi代表第i種風(fēng)格的比重。

        最終的損失函數(shù)為:

        式中,Lcontent表示內(nèi)容圖與生成圖之間的損失函數(shù),Ltotal_style表示多種風(fēng)格圖與生成圖之間的損失函數(shù),γ1和γ2分別表示內(nèi)容損失與風(fēng)格損失的函數(shù)比重,選擇不同的γ12可以控制風(fēng)格化程度。圖5 為圖像多風(fēng)格遷移流程。

        Fig.5 Image multi-style migration flow圖5 圖像多風(fēng)格遷移流程

        3 實驗結(jié)果與分析

        3.1 實驗環(huán)境

        Intel(R)Xeon(R)CPU E7-4809 V3 @2.00GHz 處理器,8GB 內(nèi)存,配備NVIDIA GeForceRTx 2060 顯卡,在Win?dows10 操作系統(tǒng)下,配置Python 3.7.1、深度學(xué)習(xí)框架Ten?sorFlow、Keras,使用CUDA 和CuDNN 實現(xiàn)GPU 加速。

        3.2 風(fēng)格結(jié)果分析

        3.2.1 單風(fēng)格轉(zhuǎn)換

        針對單風(fēng)格遷移,選取3 張內(nèi)容圖片(金門大橋、摩天大樓、公園)與3 種風(fēng)格圖片(抽象畫、油畫、山水畫)進(jìn)行風(fēng)格遷移。在conv4_1 層進(jìn)行內(nèi)容重建,在conv1_1、conv2_1、conv3_1、conv4_1 層進(jìn)行風(fēng)格重建,設(shè)置內(nèi)容與風(fēng)格的參數(shù)比分別為α/β=10-2、α/β=10-3,得到的生成圖如圖6 和圖7 所示。

        Fig.6 Renderings of single style and parameter ratio of 10-2圖6 單一風(fēng)格且參數(shù)比為10-2的效果圖

        Fig.7 Renderings of single style and parameter ratio of 10-3圖7 單一風(fēng)格且參數(shù)比為10-3的效果圖

        單風(fēng)格遷移結(jié)果顯示,在一幅圖像中有諸多語義信息,無論風(fēng)格比重是大是小,當(dāng)內(nèi)容圖片與風(fēng)格圖片的語義信息相似時,轉(zhuǎn)化的視覺感受較好。當(dāng)內(nèi)容圖片與風(fēng)格圖片的語義信息不相似時,若風(fēng)格比重較小,藝術(shù)風(fēng)格信息在新圖像中表現(xiàn)不明顯;而當(dāng)風(fēng)格比重較大時,則會出現(xiàn)語義信息與風(fēng)格信息不匹配的現(xiàn)象,色彩溢出明顯[18]。單風(fēng)格遷移只保留單一繪畫風(fēng)格,無法為藝術(shù)形象的多樣性提供豐富的視覺信息。

        3.2.2 多風(fēng)格遷移

        應(yīng)用本文提出的算法,將金門大橋作為內(nèi)容圖,選取4種風(fēng)格圖(如圖8 的4 個角所示),內(nèi)容與風(fēng)格的比值設(shè)為γ1/γ2=10-3。設(shè)置風(fēng)格損失中的α1+α2+α3+α4=1,以保證線性同輪,得到如圖8 所示的具有漸進(jìn)風(fēng)格色彩的新圖片。

        通過調(diào)整風(fēng)格比重可得到不同的藝術(shù)圖像,生成的新圖像會隨著風(fēng)格比重的變化出現(xiàn)漸進(jìn)的色彩效果,為藝術(shù)創(chuàng)作提供了豐富的原材料。

        3.2.3 單風(fēng)格與多風(fēng)格損失對比

        根據(jù)本文提出的新的評價標(biāo)準(zhǔn),將融合后的新圖片與單風(fēng)格圖片進(jìn)行對比,截取相同語義信息特征,如圖9、圖10 所示。將截取的特征放入分類網(wǎng)絡(luò),在較深層網(wǎng)絡(luò)計算特征之間的歐幾里得距離,在淺層網(wǎng)絡(luò)計算Gram 矩陣之間的距離,最終得到語義信息相似度與風(fēng)格信息相似度,如表1 所示。

        Table 1 Comparison results表1 對比結(jié)果

        Fig.8 The multi-style conversion network combining any artistic style圖8 可任意組合藝術(shù)風(fēng)格的多風(fēng)格轉(zhuǎn)換網(wǎng)絡(luò)

        Fig.9 Comparison between the effect of single style and multi-style migration圖9 單風(fēng)格與多風(fēng)格遷移特征效果對比

        Fig.10 Comparison between the effect of single style and multi-style migration圖10 單風(fēng)格與多風(fēng)格遷移效果對比

        由表1 可知,在風(fēng)格遷移過程中,單風(fēng)格與多風(fēng)格的語義信息相似度均超過90%,語義信息得到了很好地保留。風(fēng)格信息相似度數(shù)據(jù)表明,在風(fēng)格遷移過程中,不同語義信息擁有了不同的風(fēng)格信息,色彩分布也更加合理。

        除上述對比外,本文還對多風(fēng)格遷移結(jié)果進(jìn)行了視覺質(zhì)量的用戶評估。邀請10 名圖像處理專業(yè)人士和20 名非專業(yè)人士參與評價,評估單風(fēng)格圖像與多風(fēng)格圖像的視覺質(zhì)量、色彩豐富度和色彩分布合理性。評估分為3 個等級,分別為好、一般、差,依次用5 分、3 分和1 分表示,計算出每一種樣式的平均分。評估人員給出的分?jǐn)?shù)統(tǒng)計結(jié)果如圖11 所示。

        Fig.11 Average assessment scores given by assessors圖11 評估人員給出的分?jǐn)?shù)平均值

        本文提出的多風(fēng)格融合算法解決了單一風(fēng)格中色彩單一和色彩溢出問題,一方面提取多種風(fēng)格圖的特征共同作用,以填補(bǔ)內(nèi)容圖中的特征空缺;另一方面抑制了色彩溢出,使色彩分布更加合理。在總體風(fēng)格方面,該算法具有更加豐富的藝術(shù)特點,為新的藝術(shù)創(chuàng)作提供了借鑒。

        4 結(jié)語

        本文以不同風(fēng)格圖作為研究對象,提出了基于深度學(xué)習(xí)的圖像多風(fēng)格融合算法。與單風(fēng)格轉(zhuǎn)換算法相比,本文算法在很好地保留內(nèi)容圖片語義信息的同時,實現(xiàn)了多風(fēng)格圖的風(fēng)格遷移,可在單幅藝術(shù)圖像中看到多種風(fēng)格信息,增加了色彩豐富度,使色彩分布更加合理,特征轉(zhuǎn)換效果良好。但該方法也存在以下問題:一是風(fēng)格遷移時間較長,二是在內(nèi)容圖片與風(fēng)格圖片語義信息相差較大時存在邊緣扭曲現(xiàn)象。為解決上述問題,后續(xù)計劃應(yīng)用最新的生成對抗網(wǎng)絡(luò)方法[19]進(jìn)行深入探索與研究。

        猜你喜歡
        語義損失卷積
        少問一句,損失千金
        基于3D-Winograd的快速卷積算法設(shè)計及FPGA實現(xiàn)
        胖胖損失了多少元
        語言與語義
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        玉米抽穗前倒伏怎么辦?怎么減少損失?
        基于傅里葉域卷積表示的目標(biāo)跟蹤算法
        “上”與“下”語義的不對稱性及其認(rèn)知闡釋
        一般自由碰撞的最大動能損失
        認(rèn)知范疇模糊與語義模糊
        小sao货水好多真紧h无码视频| 99视频偷拍视频一区二区三区| 亚洲天堂一区二区偷拍| 男女做爰高清免费视频网站| 在教室伦流澡到高潮h麻豆 | 午夜在线观看有码无码| 久久精品国产亚洲av天美| 亚洲av无码乱码在线观看富二代| 美女视频黄的全免费的| av手机天堂| 久久久人妻一区二区三区蜜桃d| 欧美精品videosse精子| 亚洲av区无码字幕中文色| 国产极品美女到高潮视频| 亚洲精品女同一区二区三区| 亚洲国产成人久久三区| 国产尤物精品自在拍视频首页| 成年女人18毛片毛片免费| 国产一区二区精品亚洲| 国产一区二区波多野结衣| 制服丝袜视频国产一区| 亚洲国产精品成人一区二区三区 | 91久久国产精品综合| 波多野结衣av一区二区全免费观看| 免费人成无码大片在线观看| 无码伊人66久久大杳蕉网站谷歌| 成人国产高清av一区二区三区| 国产专区一线二线三线码| 妺妺窝人体色www在线图片| 韩国美女主播国产三级| 精品人妻一区二区三区久久| 熟妇的荡欲色综合亚洲| 日韩国产精品一本一区馆/在线 | 亚洲一区二区三区中国| 中国凸偷窥xxxx自由视频| 国产中文久久精品| 手机在线播放av网址| 成l人在线观看线路1| 亚洲V在线激情| 色婷婷亚洲精品综合影院| 国产二级一片内射视频播放|