亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種基于圖像patches分割的自監(jiān)督生成對(duì)抗模型

        2023-05-11 08:58:50陳才扣
        軟件導(dǎo)刊 2023年4期
        關(guān)鍵詞:監(jiān)督實(shí)驗(yàn)信息

        陳才扣,高 俊

        (揚(yáng)州大學(xué) 信息工程學(xué)院,江蘇 揚(yáng)州 225127)

        0 引言

        近年來,一種新型生成模型的提出引起了廣泛關(guān)注,以Goodfellow 等[1]2014 年提出的生成對(duì)抗模型(Generative Adversarial Nets,GAN)為代表,強(qiáng)調(diào)生成器(Generator)與判別器(Discriminator)兩者之間進(jìn)行博弈,最終輸出高精度的圖像。迄今為止,生成對(duì)抗網(wǎng)絡(luò)已經(jīng)在圖像生成、語音合成、目標(biāo)檢測(cè)、風(fēng)格遷移等領(lǐng)域發(fā)揮作用。在博弈過程中需要同步優(yōu)化生成器和判別器,期望達(dá)到納什均衡,但在實(shí)際過程中,難以要求判別器與生成器同時(shí)達(dá)到收斂,最終導(dǎo)致生成對(duì)抗模型的穩(wěn)定性不足。在訓(xùn)練過程中,生成器更偏向于生成單一樣本,而判別器傾向于識(shí)別單一樣本,導(dǎo)致生成對(duì)抗模型出現(xiàn)模式坍塌(Mode collapse)問題,使生成的圖片不具有多樣性。

        為了解決生成對(duì)抗模型的穩(wěn)定性和多樣性問題,學(xué)者們?cè)谠忌蓪?duì)抗模型上進(jìn)行多方面改進(jìn)[2-6]。其中,最具有代表性的是Wasserstein GAN,首先從理論上解釋了GAN 訓(xùn)練不穩(wěn)定的原因,原模型中采用的JS 散度在一定情況下會(huì)產(chǎn)生梯度消失問題,因而選擇Wasserstein 距離來度量真實(shí)圖像分布與生成圖像分布之間的距離。針對(duì)模式坍塌問題,Mescheder 等[7]觀察到GANs 很難通過梯度下降的優(yōu)化方式訓(xùn)練到收斂,而WGAN 中引入梯度懲罰項(xiàng)可很好地緩解模式坍塌問題。

        在非穩(wěn)態(tài)的環(huán)境中,神經(jīng)網(wǎng)絡(luò)模型的遺忘能力會(huì)隨著網(wǎng)絡(luò)深度的加深而加?。?]。如果鑒別器忘記了先前的分類邊界,可能會(huì)造成訓(xùn)練不穩(wěn)定或重復(fù)訓(xùn)練等問題。在復(fù)雜數(shù)據(jù)集下,這些問題變得更加突出??梢哉f,用監(jiān)督信息增強(qiáng)鑒別器可鼓勵(lì)其學(xué)習(xí)更穩(wěn)定的表征,防止災(zāi)難性的遺忘。將一種基于角度旋轉(zhuǎn)的自監(jiān)督模型應(yīng)用于生成對(duì)抗模型中[9],用前置任務(wù)從大規(guī)模的無監(jiān)督數(shù)據(jù)中挖掘自身的監(jiān)督信息,將樣本圖像旋轉(zhuǎn)0°、90°、180°、270°作為偽標(biāo)簽,建立一個(gè)平穩(wěn)的對(duì)抗學(xué)習(xí)環(huán)境來抵抗模式坍塌問題,以提高圖像的特征學(xué)習(xí)能力。

        但是,基于旋轉(zhuǎn)角度自監(jiān)督的方式是在整體上進(jìn)行旋轉(zhuǎn)對(duì)比,只考慮到樣本的全局信息,并不能注意到圖片的局部信息,模型細(xì)化能力差,生成的圖片不夠清晰。因此,本文基于角度旋轉(zhuǎn)自監(jiān)督生成對(duì)抗網(wǎng)絡(luò)提出一種基于圖像塊對(duì)比自監(jiān)督生成對(duì)抗模型,同時(shí)解決兩個(gè)前置任務(wù):角度旋轉(zhuǎn)與圖像分割。模型不但能夠注意到整體之間的聯(lián)系,而且能從局部細(xì)節(jié)上獲取信息,使生成器的表征能力得到提升。

        1 相關(guān)工作

        1.1 生成對(duì)抗模型

        生成對(duì)抗網(wǎng)絡(luò)如圖1 所示。對(duì)抗生成模型分為生成器和判別器。生成器通過輸入噪聲產(chǎn)生虛假圖片,判別器通過將真實(shí)圖片與生成器輸出的虛假圖片進(jìn)行對(duì)比,使得生成器不斷更新,最終輸出高質(zhì)量的圖片。生成器不斷輸出虛假的圖片想要試圖騙過判別器,而判別器的判別能力逐步加強(qiáng),令生成器產(chǎn)生的虛假圖片與真實(shí)圖片區(qū)分開來,迫使生成器不得不逐步提高自己的能力,生成與真實(shí)圖片更相似的圖片。生成器和判別器在對(duì)抗中學(xué)習(xí),模型的生成能力與判別能力也逐漸增強(qiáng)。

        生成器G 捕捉樣本數(shù)據(jù)的分布,用服從某一均勻分布或高斯分布等的噪聲向量 z 生成一個(gè)類似真實(shí)訓(xùn)練數(shù)據(jù)的樣本,追求效果是與真實(shí)樣本越相似越好。

        Fig.1 Generative adversarial nets圖1 生成對(duì)抗網(wǎng)絡(luò)

        判別器D 是一個(gè)二分類器,估計(jì)一個(gè)樣本來自于訓(xùn)練數(shù)據(jù)的概率。如果樣本來自于真實(shí)的訓(xùn)練數(shù)據(jù),則D 輸出大概率,否則D 輸出小概率。

        1.2 基于角度旋轉(zhuǎn)自監(jiān)督模型

        該模型屬于一種基于圖像變換的自監(jiān)督對(duì)抗生成模型,如圖2所示。

        Fig.2 Self-supervised model based on angular rotation圖2 基于角度旋轉(zhuǎn)的自監(jiān)督模型

        生成器通過噪聲隨機(jī)生成32*32*3 的虛假圖片,先進(jìn)行圖片旋轉(zhuǎn)操作,將真假圖片隨機(jī)旋轉(zhuǎn)0。、90。、180。、270。送入模型中。將未旋轉(zhuǎn)的圖片送入真假判別器D1中判別圖片真假,旋轉(zhuǎn)之后的圖片送入角度判別器D2中判別旋轉(zhuǎn)角度,真假判別器D1與角度判別器D2共享權(quán)值。其目標(biāo)函數(shù)定義如下:

        其中,x~PG表示圖片來自于生成器,x~Pdata表示圖片是真實(shí)的,V(G,D)表示上述的主判別器優(yōu)化函數(shù),R=r表示裁剪后圖像的旋轉(zhuǎn)角度標(biāo)簽,r={0,90,180,270},xr表示經(jīng)過旋轉(zhuǎn)后對(duì)應(yīng)標(biāo)簽所對(duì)應(yīng)的圖,QD(R|xr)表示圖像旋轉(zhuǎn)角度預(yù)測(cè)分布,α、β表示判別器損失權(quán)重。

        2 基于patches的自監(jiān)督生成對(duì)抗模型

        2.1 模型框架

        考慮到基于角度旋轉(zhuǎn)自監(jiān)督的生成對(duì)抗模型僅考慮了全局相關(guān)性,而忽略了局部特性關(guān)聯(lián)性,本文在角度旋轉(zhuǎn)的基礎(chǔ)上引入patches 分割技術(shù),構(gòu)建基于patches 的自監(jiān)督生成對(duì)抗模型,如圖3 所示,使模型能夠同時(shí)注意全局與局部信息。

        Fig.3 Self-supervised model based on patches clipping and segmentation圖3 基于patches裁剪分割的自監(jiān)督模型

        該模型將噪聲輸入判別器G(z),產(chǎn)生虛假的圖片,然后將產(chǎn)生的虛假圖片與真實(shí)圖片進(jìn)行隨機(jī)分割處理,按順序分別標(biāo)記為0、1、2、3、4。其中,0 代表未被分割的圖片,1 代表圖片被分割后的第一塊,以此類推。通過給真實(shí)圖片與虛假圖片做標(biāo)記,實(shí)現(xiàn)自監(jiān)督的目的。接下來將標(biāo)記的圖片送入判別器中進(jìn)行判別,主判別器用來判別未分割的圖片,與普通生成對(duì)抗模型的判別器功能一致,判別圖片是否為真,得到真假損失函數(shù)。將分割后的圖片送入位置信息判別器D3,位置信息判別器損失函數(shù)可表示為:

        其中,x~PG表示圖片來自于生成器,x~Pdata表示圖片是真實(shí)的,V(G,D)表示上述的主判別器優(yōu)化函數(shù),M=m表示裁剪后的圖像分塊位置標(biāo)簽,m={0,1,2,3,4},xm表示圖像經(jīng)裁剪過后對(duì)應(yīng)標(biāo)簽所對(duì)應(yīng)的圖塊,QD(M|xm)表示圖像分塊位置預(yù)測(cè)分布,η、λ表示判別器損失權(quán)重。

        此時(shí),模型的總損失函數(shù)為:

        2.2 邊緣重疊

        考慮到將圖像分塊后忽略了局部與局部之間的關(guān)系,本文通過patches 圖像重疊的方法又將不同patches 之間的信息聯(lián)系起來[14],如圖4 所示。原輸入為左上角4*4 邊框patches,大小為,通過改變分割區(qū)域大小,將輸入patches 的大小增加至,此時(shí)輸入圖像的信息包含了另外3 個(gè)分塊的部分信息。如圖5 所示,以邊緣重疊后第一塊patches 為例,除原先的4*4 窗口外,分別包含另外3 個(gè)輸入patches 窗口的信息。通過這種重疊patches 輸入的方法,可有效增強(qiáng)分塊后局部與局部之間的信息聯(lián)系。

        Fig.4 Amplify edge information圖4 擴(kuò)增邊緣信息

        3 評(píng)價(jià)指標(biāo)

        IS(Inception Score)[10]是生成模型的一種評(píng)價(jià)指標(biāo),其主要衡量模型兩方面的性能:①生成的圖片是否清晰;②生成的圖片是否多樣。

        Fig.5 Information exchange among between patches圖5 不同patches之間的信息交流

        FID(Fréchet Inception Distance)[11]用來計(jì)算真實(shí)圖像與生成圖像的特征向量間距離。將生成圖像與真實(shí)圖像輸入分類網(wǎng)絡(luò)Inception v3 Network[12],在倒數(shù)第二個(gè)全連接層輸出1*1*2 048 特征向量,用于度量真實(shí)圖像在分類網(wǎng)絡(luò)中輸出的2 048 個(gè)特征向量集合的均值和協(xié)方差矩陣。

        其中,μx、∑x表示真實(shí)圖像在分類網(wǎng)絡(luò)中輸出的 2 048 個(gè)特征向量集合的均值和協(xié)方差矩陣;μg、∑g表示生成圖像在分類網(wǎng)絡(luò)中輸出的2 048 個(gè)特征向量集合的均值和協(xié)方差矩陣。

        4 實(shí)驗(yàn)與分析

        4.1 實(shí)驗(yàn)環(huán)境

        CIFAR-10 數(shù)據(jù)集[13]:如圖6 的左圖所示,CIFAR-10數(shù)據(jù)集由10 個(gè)類的60 000 個(gè)32*32 彩色圖像組成,每個(gè)類有6 000 個(gè)圖像。將數(shù)據(jù)集分為兩部分,50 000 個(gè)訓(xùn)練圖像和10 000個(gè)測(cè)試圖像。

        STL-10 數(shù)據(jù)集[14]:如圖6 的右圖所示,STL-10 數(shù)據(jù)集由10 類100 000 張96*96 彩色圖像構(gòu)成,設(shè)計(jì)靈感來自于CIFAR-10 數(shù)據(jù)集。但與其不同的是,該數(shù)據(jù)集中每個(gè)類的標(biāo)記訓(xùn)練示例較少,以便在監(jiān)督訓(xùn)練之前學(xué)習(xí)圖像模型。

        實(shí)驗(yàn)平臺(tái)為PyCharm,實(shí)驗(yàn)參數(shù)如下:使用Resnet 殘差結(jié)構(gòu)以及Adam 自適應(yīng)學(xué)習(xí)率的梯度下降算法,設(shè)置batch size 為120,learning rate 為0.000 2,迭代次數(shù)為25 000。損失權(quán)重α=1,β=0.5,η=0.5,λ=0.5。

        Fig.6 CIFAR-10 dataset and STL-10 dataset圖6 CIFAR-10數(shù)據(jù)集與STL-10數(shù)據(jù)集

        4.2 實(shí)驗(yàn)結(jié)果

        如圖7、圖8 所示,上面一排為數(shù)據(jù)集中的真實(shí)圖片,下面一排為本文自監(jiān)督模型生成的圖片。生成的圖片是根據(jù)原數(shù)據(jù)集中的10 類圖片進(jìn)行構(gòu)造的,包括飛機(jī)、汽車、鳥、貓、狗等生活中常見的事物,從生成的圖片中仍能清晰看出輪船、狗、汽車等圖像。從生成圖片的視覺效果來看,本文提出的自監(jiān)督生成對(duì)抗模型具有較好的性能。

        Fig.7 Images generated by the self-supervised model on the CIFAR-10 dataset圖7 自監(jiān)督模型在CIFAR-10數(shù)據(jù)集上生成的圖像

        Fig.8 Images generated by the self-supervised model on the STL-10 dataset圖8 自監(jiān)督模型在STL-10數(shù)據(jù)集上生成的圖像

        4.3 實(shí)驗(yàn)數(shù)據(jù)

        如表1 所示,本文在同一設(shè)備上、同樣的實(shí)驗(yàn)環(huán)境下,分別采用原始生成對(duì)抗模型、基于角度旋轉(zhuǎn)的自監(jiān)督生成對(duì)抗模型(SS-GAN)、基于裁剪分割的自監(jiān)督生成對(duì)抗模型(SSC-GAN)以及基于角度旋轉(zhuǎn)和裁剪分割的雙自監(jiān)督生成對(duì)抗模型進(jìn)行實(shí)驗(yàn)。相較于原始的生成對(duì)抗模型,基于角度旋轉(zhuǎn)的自監(jiān)督模型(SS-GAN)將FID 降低到25.35,同時(shí)IS從7.662上升到7.871。

        本文提出的基于裁剪分割的自監(jiān)督模型與基于角度旋轉(zhuǎn)的自監(jiān)督模型相比,F(xiàn)ID 與IS 獲得的分?jǐn)?shù)相差不大??紤]到裁剪分割自監(jiān)督只將裁剪圖像塊進(jìn)行比較,僅考慮了局部信息,而沒有注意到整體之間的聯(lián)系,因此在其基礎(chǔ)上將局部與整體結(jié)合起來,提出基于角度旋轉(zhuǎn)和裁剪分割的雙自監(jiān)督生成對(duì)抗模型,相當(dāng)于提出兩個(gè)前置任務(wù),采用兩個(gè)輔助判別器。實(shí)驗(yàn)數(shù)據(jù)如表1 所示,本文模型將FID 降低到了24.47,將IS提高到了7.871,效果相當(dāng)明顯。

        Table 1 Comparison of FID and IS among original GAN,SS-GAN,SSC-GAN and SS+SSC-GAN models表1 原始GAN、SS-GAN、SSC-GAN、SS+SSC-GAN 4種模型FID與IS對(duì)比

        為了更好地增強(qiáng)局部之間的信息傳遞,以拓展patches分割大小,進(jìn)行不同塊之間的信息擴(kuò)增,再次將模型的FID提高到7.952,IS降低到23.34,實(shí)驗(yàn)結(jié)果如表2所示。

        Table 2 Comparison of FID and IS before and after adding edge overlap表2 增加邊緣重疊的前后FID、IS對(duì)比

        研究表明,在基礎(chǔ)卷積網(wǎng)絡(luò)中采用合適的塊大小分割能夠取得媲美Transformer 的性能,Transformer 具有較好性能并不完全依賴于其注意力層的作用,而在于有效的窗口劃分[15-16]。因此,本文在實(shí)驗(yàn)中也加入不同塊分割進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果如表3 所示。經(jīng)過對(duì)不同的分割模型進(jìn)行實(shí)驗(yàn),發(fā)現(xiàn)模型在進(jìn)行4 次分割之后效果最好,塊的數(shù)量低于或高于4 塊,指標(biāo)都會(huì)有所下降。其原因在于過小的patches 分割將使系統(tǒng)過分注重局部之間的聯(lián)系,而過大的patches 分割會(huì)導(dǎo)致局部的直接關(guān)系弱化,最終影響生成圖片的質(zhì)量。

        Table 3 Comparison of FID and IS under different Patches segmentation表3 不同Patches分割情況下的FID、IS對(duì)比

        5 結(jié)語

        本文在角度旋轉(zhuǎn)自監(jiān)督模型上進(jìn)行改進(jìn),在角度判別的前置任務(wù)基礎(chǔ)上新增patches位置判別任務(wù),使模型能夠兼顧全局相似性與局部相關(guān)性。在CIFAR-10 與STL-10數(shù)據(jù)集上進(jìn)行對(duì)比驗(yàn)證,最終取得了比角度旋轉(zhuǎn)自監(jiān)督生成對(duì)抗模型更優(yōu)的結(jié)果。但模型仍有很大的改進(jìn)空間,例如,在前置任務(wù)上還可以有更多建設(shè)性想法以提高圖像表征能力,將在以后工作中改進(jìn)。

        猜你喜歡
        監(jiān)督實(shí)驗(yàn)信息
        記一次有趣的實(shí)驗(yàn)
        突出“四個(gè)注重” 預(yù)算監(jiān)督顯實(shí)效
        做個(gè)怪怪長(zhǎng)實(shí)驗(yàn)
        監(jiān)督見成效 舊貌換新顏
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        夯實(shí)監(jiān)督之基
        NO與NO2相互轉(zhuǎn)化實(shí)驗(yàn)的改進(jìn)
        實(shí)踐十號(hào)上的19項(xiàng)實(shí)驗(yàn)
        太空探索(2016年5期)2016-07-12 15:17:55
        展會(huì)信息
        監(jiān)督宜“補(bǔ)”不宜“比”
        浙江人大(2014年4期)2014-03-20 16:20:16
        东北老女人高潮疯狂过瘾对白| 在线日本国产成人免费精品| 蜜桃精品人妻一区二区三区| 国产青榴视频在线观看| 亚洲男同志gay 片可播放| 亚洲AV日韩AV高潮喷潮无码 | 精品久久久久久久无码人妻热| 少妇内射高潮福利炮| 国产成社区在线视频观看| 天堂一区二区三区精品| 国产亚洲成av人片在线观看| 国产zzjjzzjj视频全免费| 亚洲色www无码| 国产av剧情精品麻豆| 欧美不卡一区二区三区| 免费精品无码av片在线观看| 亚洲AV成人无码天堂| 三级日本理论在线观看| 色诱视频在线观看| 亚欧AV无码乱码在线观看性色| 一区二区三区蜜桃在线视频| 不卡一本av天堂专区| 久久成人国产精品免费软件| 日韩AVAV天堂AV在线| 冲田杏梨av天堂一区二区三区| 国产亚洲超级97免费视频| 日本丰满熟妇hd| 精品国偷自产在线不卡短视频| 日本韩国一区二区高清| 女人被男人爽到呻吟的视频| 曰本女人与公拘交酡免费视频| 蜜桃视频中文在线观看| av黄色在线免费观看| 一区二区三区人妻无码| 国产97色在线 | 免| 伊人影院成人在线观看| 韩国三级在线观看久| .精品久久久麻豆国产精品| 一区二区久久精品66国产精品| 亚洲精品粉嫩美女一区| 国产大陆亚洲精品国产|