亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向圖像語義分割的生成對(duì)抗網(wǎng)絡(luò)模型

        2022-08-24 11:18:56竇育民徐廣偉黃晶晶蔡凡凡
        無線互聯(lián)科技 2022年12期
        關(guān)鍵詞:語義模型

        竇育民,徐廣偉,黃晶晶,蔡凡凡

        (1.新鄉(xiāng)醫(yī)學(xué)院 管理學(xué)院,河南 新鄉(xiāng) 453000;2.中國(guó)電子科技集團(tuán)公司第三十研究所,四川 成都 610041)

        0 引言

        隨著多媒體和網(wǎng)絡(luò)技術(shù)的快速發(fā)展,越來越多的信息以圖像的形式呈現(xiàn)并廣泛應(yīng)用于醫(yī)學(xué)、通信、工農(nóng)業(yè)生產(chǎn)、航天、教育、軍事等多個(gè)領(lǐng)域。在智能空間視域下有效地組織、查詢與瀏覽大規(guī)模的圖像資源已成為迫切需要解決的問題。智能空間可看作是物理世界和信息空間的融合,目的是建立一個(gè)以人為中心的計(jì)算和通信能力的空間, 讓計(jì)算機(jī)參與從未涉及的計(jì)算行為活動(dòng), 讓用戶能與計(jì)算機(jī)系統(tǒng)發(fā)生交互,隨時(shí)隨地獲得人性化服務(wù)[1-3]。

        圖像語義標(biāo)注是基于內(nèi)容圖像檢索技術(shù)的關(guān)鍵環(huán)節(jié)[4],是一個(gè)將現(xiàn)代計(jì)算機(jī)和機(jī)器學(xué)習(xí)技術(shù)應(yīng)用于傳統(tǒng)人文研究的新型跨學(xué)科研究領(lǐng)域,基于圖像的機(jī)器學(xué)習(xí)方法為傳統(tǒng)人文社科研究提供新的研究思路[4-7]。其中大數(shù)據(jù)的科學(xué)發(fā)展對(duì)人文科學(xué)研究有積極的推動(dòng)作用,現(xiàn)有統(tǒng)計(jì)模式識(shí)別方法可以發(fā)現(xiàn)海量數(shù)據(jù)中的潛在信息,在總結(jié)模式規(guī)律方面有出色表現(xiàn)。因此,近年來數(shù)字人文研究逐漸成為信息科學(xué)、人文社會(huì)科學(xué)、人工智能等眾多學(xué)科的研究熱點(diǎn)。

        語義分割是當(dāng)今計(jì)算機(jī)視覺領(lǐng)域的關(guān)鍵問題之一。宏觀上,語義分割是一項(xiàng)高層次的任務(wù),為實(shí)現(xiàn)場(chǎng)景的完整理解鋪平道路。場(chǎng)景理解是一個(gè)核心的計(jì)算機(jī)視覺問題,其中包括自動(dòng)駕駛、機(jī)器人的自動(dòng)感知、智能監(jiān)控、人機(jī)交互、增強(qiáng)現(xiàn)實(shí)等。近年來,隨著深度學(xué)習(xí)的普及,許多語義分割問題采用深層次的結(jié)構(gòu)解決,最常見的是卷積神經(jīng)網(wǎng)絡(luò),在精度上遠(yuǎn)超其他方法。

        語義分割是一項(xiàng)視覺場(chǎng)景理解任務(wù),即一個(gè)密集的標(biāo)記問題,目的是預(yù)測(cè)輸入圖像中每個(gè)像素所屬的類別標(biāo)簽。卷積神經(jīng)網(wǎng)絡(luò)(CNN)方法是現(xiàn)今最流行的方法,在2009年和2013年,Grangier[9]等人與Farabet[10]等人分別利用CNN完成了這項(xiàng)任務(wù)。遵循不同的CNN卷積網(wǎng)絡(luò)架構(gòu),其共同特點(diǎn)是把圖像分割任務(wù)轉(zhuǎn)化為像素標(biāo)簽變量的分類任務(wù)。

        場(chǎng)景理解問題的關(guān)鍵是對(duì)圖像進(jìn)行自動(dòng)語義標(biāo)注。語義標(biāo)注的實(shí)質(zhì)是通過對(duì)圖像視覺特征的分析提取高層語義用于表示圖像的含義,從而在圖像低層特征和高層語義之間建立聯(lián)系,解決低層特征和高層語義間的“鴻溝”問題。其主要思想是從大量圖像樣本中自動(dòng)學(xué)習(xí)語義概念模型,并以此標(biāo)注新的圖像。

        1 GAN的基礎(chǔ)架構(gòu)的闡述

        生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Networks,GAN)是一種生成式模型,模型學(xué)習(xí)的是聯(lián)合概率分布P(X,Y) ,學(xué)習(xí)任務(wù)是得到屬性為X且類別為Y時(shí)的聯(lián)合概率。根據(jù)零和博弈原理,一方的收益必然意味著另一方的損失,博弈各方的收益和損失相加總和永遠(yuǎn)為“零”,雙方不存在合作的可能。在零和博弈中,把目標(biāo)設(shè)為讓對(duì)方的最大收益最小化,以使己方達(dá)到最優(yōu)解。

        1.1 GAN的條件形式的分割框架

        利用一個(gè)基于生成對(duì)抗網(wǎng)絡(luò)的條件生成式模型[11-13],在原模型基礎(chǔ)上,輸入額外的數(shù)據(jù)作為條件,修改生成器和判別器。在圖像分割數(shù)據(jù)集上,以分割掩模圖類別標(biāo)簽為條件,用來場(chǎng)景區(qū)域的多類別學(xué)習(xí),在輸入圖像相應(yīng)區(qū)域生成圖像場(chǎng)景理解的描述標(biāo)簽。

        Ez~pz(z)[log(1-D(G(z|y)))]

        (1)

        其中,D:判別器;G:生成器;z:隨機(jī)噪聲;data:訓(xùn)練數(shù)據(jù);y:條件輸入。

        條件GAN[12-13]在GAN的基礎(chǔ)上增加條件進(jìn)行的對(duì)抗模型。條件GAN的模型結(jié)構(gòu)包括兩個(gè)神經(jīng)網(wǎng)絡(luò),分別是生成器Generator和判別器Discriminator,Discriminator通過對(duì)Generator的評(píng)判提升模型的鑒別能力,Generator通過對(duì)Discriminator的欺騙提升模型的生成能力。其中生成器的目標(biāo)是學(xué)習(xí)樣本的數(shù)據(jù)分布,從而具備生成欺騙判別器樣本的能力;判別器的目標(biāo)是判斷輸入樣本真?zhèn)蔚母怕省_@里使用生成器和判別器都由多層感知機(jī)實(shí)現(xiàn),整個(gè)網(wǎng)絡(luò)可以用交替優(yōu)化生成器和判別器的方式優(yōu)化目標(biāo)函數(shù),通過反向傳播算法獲得目標(biāo)函數(shù)更新梯度。

        1.2 模型總覽

        在生成器和判別器中分別輸入相同條件y,CGAN的網(wǎng)絡(luò)相對(duì)于原始GAN網(wǎng)絡(luò)沒有變化。隨機(jī)變量通過輸入生成器網(wǎng)絡(luò)產(chǎn)生分布,利用判別器與真實(shí)分布進(jìn)行不斷比較,最終得到與真實(shí)分布相似的分布[11-13]。

        1.2.1 生成器網(wǎng)絡(luò)

        U-net 網(wǎng)絡(luò)結(jié)構(gòu)最早由 Ronneberger[10]等發(fā)表于2015年的MICCAI,逐漸成為大多數(shù)醫(yī)療影像語義分割的研究基礎(chǔ)。U-net網(wǎng)絡(luò)使用全卷積網(wǎng)絡(luò),是一個(gè)端到端的分割網(wǎng)絡(luò),包括收縮路徑和擴(kuò)張路徑兩部分,并且為了防止梯度消失和梯度爆炸引入了跳躍連接的方法(見圖1)。卷積過程中為了減少輸出的離群點(diǎn),卷積后還加入了BatchNormal,并激活ReLU。整個(gè)過程通過圖像特征編碼和解碼完成像素級(jí)圖像分割任務(wù)。

        圖1 Unet網(wǎng)絡(luò)

        在模型收縮路徑的編碼模塊中,使用可分離卷積和點(diǎn)卷積結(jié)構(gòu)替換兩層卷積層[11],由于該結(jié)構(gòu)采用的雙分支結(jié)構(gòu),融合了不同深度的特征信息,因此提取特征比簡(jiǎn)單地疊加卷積層更有效。在下采樣階段采用步長(zhǎng)為2的卷積層代替池化層,減少了下采樣過程中信息的損失。在模型對(duì)編碼后的特征圖擴(kuò)張路徑進(jìn)行的解碼模塊中,上采樣操作使用反卷積,結(jié)合跳躍連接的特征圖可有效減少上采樣過程中的信息損失。

        生成器是U型網(wǎng)絡(luò),擴(kuò)張路徑通過跳躍連接串聯(lián)對(duì)應(yīng)層進(jìn)行,通過隨機(jī)噪聲作為輸入訓(xùn)練成生成器模型。

        1.2.2 判別器網(wǎng)絡(luò)

        判別器使用深度神經(jīng)網(wǎng)絡(luò),可根據(jù)需要設(shè)計(jì)網(wǎng)絡(luò)深度,這里設(shè)置為5次卷積(見圖2)。第1層輸入圖像為自然圖像和掩膜圖像,分別為3通道,疊加送入網(wǎng)絡(luò);前4次卷積每一層步長(zhǎng)stride設(shè)置為 2,padding 為1,第5次卷積前再在特征圖左面和上面分別增加一行和一列,再進(jìn)行一次卷積。除了第1層沒進(jìn)行規(guī)范化外,后面每層對(duì)特征數(shù)據(jù)進(jìn)行了規(guī)范化操作(見表1),實(shí)例規(guī)范化函數(shù)處理過后,再用LeakyRelu激活函數(shù)[12-13]。

        表1 判別器網(wǎng)絡(luò)模型參數(shù)

        圖2 判別器網(wǎng)絡(luò)

        由于條件GAN捕獲的是圖像的結(jié)構(gòu)信息,在目標(biāo)函數(shù)后增加正則項(xiàng)L1函數(shù)捕獲圖像的低頻信息進(jìn)行補(bǔ)充。

        L1(G)=Ex,y,z[‖y-G(x,z)‖1]

        (2)

        前4次卷積每一層步長(zhǎng)stride設(shè)置為 2,padding 為1,第5次卷積前再在特征圖左面和上面分別增加1行和1列,然后再進(jìn)行1次卷積。

        2 實(shí)驗(yàn)設(shè)計(jì)與分析

        本實(shí)驗(yàn)平臺(tái)為windows10+pytorch3.5,CPU:Intel?(R)i7-6700HQ@2.60 GHz;內(nèi)存大 小: 16 GB;GPU:NVIDIA GeForce GTX960M;顯存大?。? GB。本實(shí)驗(yàn)對(duì)圖像語義分割公共數(shù)據(jù)集ICCV2009[16]進(jìn)行實(shí)驗(yàn)驗(yàn)證,包括715張自然圖像,分別取自LabelMe,MSRC,PASCALVOC,and Geometric Context,與自然圖像匹配的標(biāo)簽文本文件在對(duì)應(yīng)區(qū)域的劃分種類標(biāo)簽。通過圖像像素矩陣形式表示語義類,包括天空、樹、公路、水、建筑、山,前景目標(biāo)用自然數(shù)分別表示,如人、動(dòng)物、汽車等,負(fù)數(shù)表示未知。

        本實(shí)驗(yàn)使用其中的*.regions.txt類文件,文件內(nèi)數(shù)字表示圖像中語義類每個(gè)像素的矩陣分割掩膜圖。模型整體訓(xùn)練模型分為判別器和生成器,訓(xùn)練學(xué)習(xí)中,這里把*.regions.txt轉(zhuǎn)換為.img進(jìn)行。

        數(shù)據(jù)準(zhǔn)備:因?yàn)閿?shù)據(jù)集的標(biāo)簽掩膜文件以.txt形式存在,利用以下算法把將其轉(zhuǎn)換為圖像文件。

        轉(zhuǎn)換算法如下:

        im = Image.new("RGB",(x,y)) # 新建圖像文件緩沖區(qū)

        file = open(files[k])# 打開標(biāo)簽文本文件

        for i in range(0,x):

        讀取文件第i行像素?cái)?shù)字元素

        for j in range(0,y):

        根據(jù)第j列像素值,賦予對(duì)應(yīng)的顏色

        寫入文件緩沖區(qū),保存生成一張標(biāo)簽掩膜圖像文件。

        為了增強(qiáng)模型的泛化性能,減少模型訓(xùn)練學(xué)習(xí)中的過擬合問題,同時(shí)提升訓(xùn)練數(shù)據(jù)的數(shù)據(jù)量和多樣性,采用常規(guī)方法對(duì)輸入模型的批量訓(xùn)練數(shù)據(jù)進(jìn)行數(shù)據(jù)增強(qiáng)。其中有隨機(jī)裁剪圖像,同時(shí)以圖像x軸和y軸的 0.2倍大小、0.7和0.3比率進(jìn)行隨機(jī)平移、縮放圖像。因需輸入圖像使用相同的數(shù)據(jù)增強(qiáng)方式,所以對(duì)標(biāo)簽也需做相同的數(shù)據(jù)增強(qiáng)。

        參數(shù)設(shè)置:訓(xùn)練使用256×256的自然場(chǎng)景圖像和標(biāo)簽掩膜圖,設(shè)置120個(gè) epochs,平滑系數(shù)lr為0.000 2。在訓(xùn)練開始時(shí),G性能較差,D(G(z))接近0,此時(shí):log(1-D(G(z)))的梯度值較小,log(D(G(z)))的梯度值較大,把G的目標(biāo)改為最大化logD(G(z)),在早期學(xué)習(xí)中能提供更強(qiáng)的梯度。

        如圖3所示,第1和第4行為自然場(chǎng)景圖像,第2和5行為GAN方法預(yù)測(cè)的語義分割圖,不同顏色代表不同的對(duì)象類,第3和第6行為樣本給出的真值掩膜圖??煽闯觯A(yù)測(cè)圖基本能給出圖像場(chǎng)景的區(qū)域位置和語義類別,可應(yīng)用在一些有類似樣本圖像的語義標(biāo)注中。

        圖3 第1,4行實(shí)景,第2,5行語義分割預(yù)測(cè),第3,6行掩膜

        3 結(jié)語

        現(xiàn)代的影像應(yīng)用需自動(dòng)推理相關(guān)知識(shí)或語義。語義分割作為人工智能感知系統(tǒng)的核心問題,對(duì)場(chǎng)景理解的重要性日漸突出。自然場(chǎng)景手工標(biāo)注相當(dāng)費(fèi)時(shí),商業(yè)成本高。因此,利用CGAN方法進(jìn)行自動(dòng)化的語義分割具有廣闊的應(yīng)用前景。

        猜你喜歡
        語義模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        語言與語義
        3D打印中的模型分割與打包
        “上”與“下”語義的不對(duì)稱性及其認(rèn)知闡釋
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        認(rèn)知范疇模糊與語義模糊
        “深+N季”組配的認(rèn)知語義分析
        語義分析與漢俄副名組合
        天堂中文а√在线| 日韩精品一区二区三区人妻在线| 国产偷闻女邻居av在线观看| 国产未成女年一区二区| 国产自精品在线| 久久精品国产亚洲精品色婷婷| 日韩精品中文字幕人妻中出| 中文字幕日韩精品中文字幕| 国产精品成人av一区二区三区| 国产亚洲av另类一区二区三区| 欧美性高清另类videosex| 丰满熟女高潮毛茸茸欧洲视频| 国产av无码专区亚洲av毛网站| 国产真实偷乱视频| 亚洲欧美综合在线天堂| 亚洲区小说区图片区qvod伊| 国产中文字幕乱码在线| AV无码免费不卡在线观看| 中文字幕日韩精品中文字幕| 人妻少妇精品久久久久久| 色噜噜狠狠狠综合曰曰曰| 国外精品视频在线观看免费| 成人区人妻精品一区二区不卡网站 | 日本肥老妇色xxxxx日本老妇| 国产无遮挡又黄又爽在线观看 | 人妻久久一区二区三区蜜桃| 粉嫩av国产一区二区三区| 男ji大巴进入女人的视频小说| 国产欧美日韩专区| 亚色中文字幕| 国产精品日韩亚洲一区二区 | 国产香蕉97碰碰视频va碰碰看| 国产成人九九精品二区三区| 国产精品玖玖资源站大全| 一区二区三区日本久久| 麻豆精品一区二区三区| 国产精品一区二区无线| 亚洲色成人网一二三区| 免费观看国产激情视频在线观看| 国内精品久久久久久99| 国产女合集小岁9三部|