亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        深度神經(jīng)網(wǎng)絡(luò)圖像語義分割方法綜述

        2021-01-15 07:27:18祝玉華李智慧
        計(jì)算機(jī)與生活 2021年1期
        關(guān)鍵詞:語義像素卷積

        徐 輝,祝玉華,3+,甄 彤,李智慧

        1.糧食信息處理與控制教育部重點(diǎn)實(shí)驗(yàn)室(河南工業(yè)大學(xué)),鄭州450001

        2.河南工業(yè)大學(xué)信息科學(xué)與工程學(xué)院,鄭州450001

        3.黃河水利職業(yè)技術(shù)學(xué)院,河南開封475000

        圖像分割是計(jì)算機(jī)視覺研究的關(guān)鍵,亦是理解圖像內(nèi)容的基石技術(shù),其發(fā)展歷程從基于邊緣檢測(cè)、基于閾值、基于區(qū)域等方法的傳統(tǒng)圖像分割,逐漸發(fā)展到當(dāng)今主流的基于深度神經(jīng)網(wǎng)絡(luò)的圖像語義分割,在技術(shù)水平上取得了巨大的進(jìn)步。傳統(tǒng)的圖像分割受計(jì)算機(jī)算力的限制,只能提取圖像的紋理信息、顏色、形狀等低層特征對(duì)圖像進(jìn)行分割,且需要人工設(shè)計(jì)特征,因而分割準(zhǔn)度不高。而隨著計(jì)算機(jī)軟硬件的更新?lián)Q代、深度學(xué)習(xí)技術(shù)的日益強(qiáng)大,語義分割也進(jìn)入新的發(fā)展時(shí)期。許多研究學(xué)者將深度學(xué)習(xí)引入圖像語義分割領(lǐng)域,利用深度神經(jīng)網(wǎng)絡(luò)從輸入數(shù)據(jù)中自動(dòng)學(xué)習(xí)特征,能夠提取圖像的低層、中層和高層特征,實(shí)現(xiàn)對(duì)圖像目標(biāo)端到端的像素級(jí)分類,極大地提高了語義分割的精度和效率。

        圖像語義分割是像素級(jí)別的圖像識(shí)別和理解,即依據(jù)圖像所含語義信息對(duì)每個(gè)像素進(jìn)行分類標(biāo)注,將圖像分割為語義含義相同的若干區(qū)域,并使用不同的顏色標(biāo)記不同區(qū)域,以此將每個(gè)區(qū)域的類別標(biāo)注結(jié)果可視化。目前語義分割技術(shù)已經(jīng)發(fā)展得較為成熟,在自動(dòng)駕駛、醫(yī)學(xué)圖像分析、增強(qiáng)現(xiàn)實(shí)等實(shí)際場(chǎng)景中應(yīng)用廣泛。

        現(xiàn)有的一些相關(guān)綜述文章[1-3]已經(jīng)對(duì)圖像語義分割的發(fā)展歷史、技術(shù)革新進(jìn)行了較為完善的總結(jié),但如文獻(xiàn)[2-3]對(duì)所列舉的語義分割方法的設(shè)計(jì)思路、優(yōu)缺點(diǎn)等論述不足,文獻(xiàn)[1]則缺乏對(duì)語義分割最新研究成果和算法的解讀。針對(duì)這些問題,本文踵事增華,梳理和總結(jié)了現(xiàn)有基于深度神經(jīng)網(wǎng)絡(luò)的代表性語義分割方法的基本思路與關(guān)鍵技術(shù),按照實(shí)現(xiàn)技術(shù)的不同將所述方法進(jìn)行分類,并分析每類方法的優(yōu)缺點(diǎn)。此外,還歸納了近兩年計(jì)算機(jī)視覺領(lǐng)域頂級(jí)會(huì)議/期刊上部分優(yōu)秀語義分割算法。最后基于權(quán)威的數(shù)據(jù)集和評(píng)價(jià)指標(biāo)對(duì)這些算法的性能進(jìn)行對(duì)比,并對(duì)語義分割技術(shù)未來的熱門發(fā)展方向進(jìn)行了展望。

        1 語義分割常用神經(jīng)網(wǎng)絡(luò)

        1.1 卷積神經(jīng)網(wǎng)絡(luò)

        卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)[4]是基于傳統(tǒng)神經(jīng)網(wǎng)絡(luò)改進(jìn)的層級(jí)網(wǎng)絡(luò),通常由卷積層、池化層、全連接層構(gòu)成,結(jié)構(gòu)如圖1 所示。卷積層:通過卷積運(yùn)算進(jìn)行圖像降維以及提取圖像的局部特征。池化(也稱下采樣)層:將卷積操作提取的特征劃分為大小相同的n個(gè)區(qū)域,然后取其平均值或最大值特征(通過平均池化或最大值池化操作)表示區(qū)域的特征,以降低特征維度,防止過擬合。全連接層:將所有局部特征整合得到完整的特征圖,最后利用softmax 函數(shù)進(jìn)行圖像分類。經(jīng)典網(wǎng)絡(luò)模型有AlexNet[5]、VGGNet[6]、ResNet[7]和GoogLeNet[8]等。

        1.2 循環(huán)神經(jīng)網(wǎng)絡(luò)

        循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural networks,RNN)[9]適用于處理序列數(shù)據(jù),按時(shí)間展開的標(biāo)準(zhǔn)結(jié)構(gòu)如圖2所示。其中xt是t時(shí)刻輸入層的值,ht是t時(shí)刻隱藏層的值,從結(jié)構(gòu)圖中可以看出ht的值不僅取決于當(dāng)前時(shí)刻的輸入xt,還依賴先前時(shí)刻隱藏層的值ht-1。同樣的,t時(shí)刻隱藏層的值ht除了傳輸?shù)疆?dāng)前時(shí)刻的輸出層ot,也用于下一時(shí)刻隱藏層的學(xué)習(xí)。因而,RNN 網(wǎng)絡(luò)具有歷史記憶能力,可以遞歸處理歷史信息和建模序列數(shù)據(jù)。

        1.3 生成對(duì)抗網(wǎng)絡(luò)

        Fig.1 Network architecture of CNN圖1 CNN 網(wǎng)絡(luò)架構(gòu)

        Fig.2 Network expansion diagram of RNN圖2 RNN 時(shí)間線展開圖

        生成對(duì)抗網(wǎng)絡(luò)(generative adversarial networks,GAN)[10]是近兩年最火爆的深度網(wǎng)絡(luò)架構(gòu),采用無監(jiān)督學(xué)習(xí)進(jìn)行訓(xùn)練,由生成器和判別器兩部分組成,如圖3 所示。隨機(jī)噪聲經(jīng)生成器處理生成預(yù)測(cè)圖,然后將其作為偽樣本和真值標(biāo)注圖像組成的真實(shí)樣本一起送入到判別器中。判別器的功能是對(duì)輸入的真實(shí)樣本、偽樣本進(jìn)行學(xué)習(xí)和真假判斷,并把判斷結(jié)果反饋給生成器,指導(dǎo)生成器進(jìn)行參數(shù)的優(yōu)化、更新。生成器和判別器之間進(jìn)行迭代對(duì)抗訓(xùn)練,逐漸提升網(wǎng)絡(luò)的分割精度。

        2 基于深度神經(jīng)網(wǎng)絡(luò)的圖像語義分割

        2015年Long等人[11]提出了全卷積網(wǎng)絡(luò)(fully convolutional networks,F(xiàn)CN),架構(gòu)如圖4 所示。FCN 將圖像級(jí)的分類網(wǎng)絡(luò)拓展為像素級(jí)分類網(wǎng)絡(luò),并且實(shí)現(xiàn)了端到端的網(wǎng)絡(luò)訓(xùn)練,是將深度神經(jīng)網(wǎng)絡(luò)應(yīng)用于圖像語義分割的開山之作。

        FCN 網(wǎng)絡(luò)極大地推動(dòng)語義分割的發(fā)展,但仍然存在許多不足,后續(xù)許多文獻(xiàn)提出了改進(jìn)的方法。本文綜述了其中的代表性方法,依據(jù)技術(shù)理念的區(qū)別將其分為六類:基于空洞卷積的方法、基于編解碼的方法、基于特征融合的方法、基于RNN 的方法、基于注意力機(jī)制的方法、基于GAN 的方法。然后分析和總結(jié)了每類方法的優(yōu)缺點(diǎn)以及其中典型算法的技術(shù)特點(diǎn),如表1 所示。

        2.1 基于空洞卷積的方法

        FCN 網(wǎng)絡(luò)在下采樣時(shí)造成特征圖感受野變小,圖像的部分空間信息丟失,此外還缺乏對(duì)圖像上下文信息的利用。針對(duì)這些問題,Chen 等人[12]提出DeepLab V1 網(wǎng)絡(luò),結(jié)構(gòu)如圖5 所示。其創(chuàng)新性地將深度卷積神經(jīng)網(wǎng)絡(luò)(deep convolutional neural network,DCNN)的部分卷積層替換為空洞卷積(atrous/dilated convolution,也稱擴(kuò)張卷積)[13],在不增加參數(shù)的同時(shí)增大了感受野,從而獲得更多的特征信息。此外,在DCNN 的最后一層添加全連接條件隨機(jī)場(chǎng)(fully connected conditional random field,F(xiàn)CCRF)來增強(qiáng)捕獲圖像細(xì)節(jié)信息的能力,實(shí)現(xiàn)目標(biāo)的精確定位。后續(xù),Chen 等人對(duì)DeepLab V1 進(jìn)行擴(kuò)展提出了DeepLab V2[14],其將空洞卷積和空間金字塔池化模型結(jié)合,提出了帶孔空間金字塔池化(atrous spatial pyramid pooling,ASPP)模塊。ASPP 模塊使用多個(gè)不同采樣率的空洞卷積來獲取不同尺度的特征,并將特征進(jìn)行融合以獲取上下文信息,實(shí)現(xiàn)多尺度目標(biāo)的處理。最后使用FCCRF 優(yōu)化邊界分割效果。

        Fig.3 Network architecture of GAN圖3 GAN 網(wǎng)絡(luò)架構(gòu)

        Fig.4 Network architecture of FCN圖4 FCN 網(wǎng)絡(luò)架構(gòu)

        Table 1 Analysis and summary of image semantic segmentation methods表1 圖像語義分割方法的分析與總結(jié)

        Fig.5 Workflow of DeepLab V1圖5 DeepLab V1 網(wǎng)絡(luò)處理流程

        2017 年,Chen 等人在DeepLab V1、V2 的基礎(chǔ)上提出了DeepLab V3[15],其在ASPP 模塊中增加了批正則化(batch normalization)層,改進(jìn)了ASPP 模塊。同時(shí)將串行/并行連接的空洞卷積與改進(jìn)的ASPP 模塊以串行連接的方式結(jié)合,以更有效地提取特征和捕獲全局上下文信息,增強(qiáng)處理多尺度物體的能力。DeepLab V3 相比DeepLabV1、V2 去除了FCCRF,但性能進(jìn)一步提高。針對(duì)DeepLab V3 生成的預(yù)測(cè)圖稀疏、空洞卷積造成的邊界信息丟失等問題,Chen 等人提出了DeepLab V3+[16]。其基于DeepLab V3 設(shè)計(jì)編碼網(wǎng)絡(luò),來編碼全局上下文信息,引入解碼網(wǎng)絡(luò)來恢復(fù)目標(biāo)的邊界細(xì)節(jié)信息。此外,在ASPP 模塊和解碼網(wǎng)絡(luò)中添加可分離深度卷積層,提高了網(wǎng)絡(luò)的運(yùn)行速率和魯棒性,并大幅提升了分割準(zhǔn)度。

        2.2 基于編解碼的方法

        解決池化操作導(dǎo)致的圖像分辨率降低、像素空間信息丟失問題的另一個(gè)方法是引入編碼器-解碼器結(jié)構(gòu)。編碼器通常由多個(gè)卷積層和池化層組成,作用是從原圖中獲取含有位置信息和語義信息的特征圖。而解碼器通常由反卷積層和反池化層構(gòu)成,作用是恢復(fù)特征圖中丟失的空間維度和位置信息,生成稠密的預(yù)測(cè)圖。

        FCN 在上采樣時(shí)使用反卷積和跳躍連接解決位置信息丟失問題,但是最終分割結(jié)果依然較粗糙。文獻(xiàn)[17]基于FCN 提出了SegNet,采用對(duì)稱的編碼器-解碼器結(jié)構(gòu),如圖6 所示。編碼器基于VGG-16 網(wǎng)絡(luò)但移除了全連接層,降低了模型復(fù)雜度。其中池化層還存儲(chǔ)特征圖最大池化的位置信息。解碼器由上采樣層和反卷積層組成,依據(jù)相應(yīng)編碼器層存儲(chǔ)的最大池化索引對(duì)輸入特征進(jìn)行上采樣,有效減少圖像位置信息的丟失,從而生成密集的特征圖。最后將特征圖送入Softmax 分類器中進(jìn)行像素分類。SegNet 減少了內(nèi)存占用和參數(shù)量,提高了語義分割的準(zhǔn)度,但對(duì)小尺寸目標(biāo)進(jìn)行上采樣時(shí),仍會(huì)丟失部分邊界信息。

        U-Net[18]網(wǎng)絡(luò)結(jié)構(gòu)與SegNet 相似,采用的是“U型”的編碼器-解碼器結(jié)構(gòu),主要應(yīng)用于醫(yī)學(xué)圖像分析領(lǐng)域。獨(dú)特之處在于將編碼器中低分辨率特征圖通過跳躍連接直接拼接到對(duì)應(yīng)解碼器上采樣生成的特征圖,從而有效融合了低層的細(xì)節(jié)信息和高層的像素分類信息,實(shí)現(xiàn)更精確的分割。

        傳統(tǒng)的編解碼器結(jié)構(gòu)復(fù)雜、參數(shù)數(shù)量多,因此后續(xù)許多研究學(xué)者對(duì)編解碼器的結(jié)構(gòu)進(jìn)行優(yōu)化。如ENet[19]網(wǎng)絡(luò)采用大的編碼器和較小的解碼器,簡(jiǎn)化了解碼器結(jié)構(gòu)。同時(shí),通過低階近似運(yùn)算分解卷積操作,以減少參數(shù)量,提高語義分割的實(shí)時(shí)性。此外,Wang 等人[20]提出輕量化網(wǎng)絡(luò)LEDNet,也采用非對(duì)稱的編解碼器結(jié)構(gòu)。該網(wǎng)絡(luò)中編碼器基于ReNet,但改進(jìn)了殘差模塊,從而增強(qiáng)了特征表達(dá)能力,減小了網(wǎng)絡(luò)規(guī)模。解碼器中引入注意力機(jī)制預(yù)測(cè)每個(gè)像素的語義標(biāo)簽,進(jìn)一步減少了網(wǎng)絡(luò)的計(jì)算量。實(shí)驗(yàn)結(jié)果表明,該網(wǎng)絡(luò)實(shí)現(xiàn)了分割速度與準(zhǔn)度的良好平衡。

        2.3 基于特征融合的方法

        FCN 網(wǎng)絡(luò)通常提取圖像的局部特征進(jìn)行像素分類,缺乏對(duì)圖像全局特征、上下文信息的利用,因而導(dǎo)致分割結(jié)果較為粗糙?;谔卣魅诤系姆椒ㄍㄟ^融合不同尺度、不同層次的特征,提高獲取圖像上下文信息的能力。此外,能夠?qū)D像的局部特征和全局特征連接來優(yōu)化分割結(jié)果。

        ParseNet[21]網(wǎng)絡(luò)首先通過全局平均池化來獲取圖像的全局特征,然后將全局特征與局部特征進(jìn)行融合,并用于分類器的學(xué)習(xí),從而有效利用了全局上下文信息,提高了語義分割的準(zhǔn)度。

        Fig.6 Network architecture of SegNet圖6 SegNet網(wǎng)絡(luò)架構(gòu)

        為了解決空間信息丟失問題,Lin 等人[22]提出了多路徑細(xì)化網(wǎng)絡(luò)(簡(jiǎn)稱RefineNet),能夠?qū)⒍喑叨鹊奶卣魅诤系玫骄?xì)的分割結(jié)果。該網(wǎng)絡(luò)首先把原始圖像輸入CNN 網(wǎng)絡(luò)中生成4 個(gè)不同尺度、不同分辨率的特征圖,再把4 個(gè)特征圖分別送入對(duì)應(yīng)的4 個(gè)精細(xì)化模塊(RefineNet block)中。RefineNet block 由基于殘差連接設(shè)計(jì)的多個(gè)組件構(gòu)成,可以將粗糙的高層特征和細(xì)粒度的低層特征進(jìn)行連接,并有效融合了下采樣過程丟失的特征信息,從而良好保留像素的空間信息,生成高分辨的分割圖。

        針對(duì)FCN 在場(chǎng)景分割時(shí)存在的上下文關(guān)系推斷能力不足問題,Zhao 等人[23]提出了金字塔場(chǎng)景解析網(wǎng)絡(luò)(簡(jiǎn)稱PSPNet),結(jié)構(gòu)如圖7 所示。該網(wǎng)絡(luò)首先使用添加了擴(kuò)張卷積的ResNet網(wǎng)絡(luò)提取特征,之后將特征輸入到金字塔池化模塊(pyramid pooling module)中。金字塔池化模塊通過對(duì)輸入特征進(jìn)行4 種不同尺度的池化,得到4 個(gè)不同層級(jí)的特征圖;然后對(duì)不同層級(jí)的特征圖進(jìn)行上采樣恢復(fù)到池化前的大小,并與池化前的特征進(jìn)行拼接;最后通過卷積操作生成最終的預(yù)測(cè)圖。PSPNet 網(wǎng)絡(luò)通過融合不同尺度的特征,有效利用了局部和全局上下文信息。此外,在基礎(chǔ)網(wǎng)絡(luò)訓(xùn)練過程中添加輔助損失函數(shù),降低優(yōu)化的難度,從而實(shí)現(xiàn)了高質(zhì)量的像素級(jí)場(chǎng)景解析。

        2.4 基于RNN 的方法

        解決FCN 網(wǎng)絡(luò)忽略像素間的關(guān)聯(lián)性,對(duì)全局上下文信息利用不足問題的另一個(gè)方法是利用RNN 網(wǎng)絡(luò)進(jìn)行語義分割。RNN 網(wǎng)絡(luò)具有記憶歷史信息的特性,可以利用先前時(shí)刻的信息指導(dǎo)下一時(shí)刻的輸出,充分考慮了圖像中像素之間的相關(guān)性,有利于提取像素的序列信息和建模語義依賴關(guān)系,促進(jìn)對(duì)全局上下文信息的利用。

        受RNN 網(wǎng)絡(luò)啟發(fā),文獻(xiàn)[24]基于由RNN 改進(jìn)的圖像分類模型ReNet[25]提出了ReSeg 網(wǎng)絡(luò),結(jié)構(gòu)如圖8所示。該網(wǎng)絡(luò)先將原始圖像輸入預(yù)訓(xùn)練的VGG-16網(wǎng)絡(luò)進(jìn)行特征提??;然后把特征送入到多個(gè)ReNet 層中。ReNet 層由4 個(gè)RNN 組成,通過在水平和垂直兩個(gè)方向掃描圖像,有效獲取圖像的全局特征和上下文信息;最后使用若干由反卷積網(wǎng)絡(luò)構(gòu)成的上采樣層恢復(fù)特征圖的分辨率。ReSeg 網(wǎng)絡(luò)處理分割任務(wù)時(shí)十分高效、靈活,但計(jì)算量較大,對(duì)部分類別的像素的分割效果不佳。

        Fig.7 Workflow of PSPNet圖7 PSPNet網(wǎng)絡(luò)處理流程

        Fig.8 Network architecture of ReSeg圖8 ReSeg 網(wǎng)絡(luò)架構(gòu)

        傳統(tǒng)RNN網(wǎng)絡(luò)無法學(xué)習(xí)遠(yuǎn)距離節(jié)點(diǎn)的信息,存在長(zhǎng)期依賴問題。針對(duì)這一情況,后續(xù)在RNN的基礎(chǔ)上衍生出長(zhǎng)短期記憶(long short-term memory,LSTM)[26]網(wǎng)絡(luò)和門控循環(huán)單元(gated recurrent unit,GRU)[27]。Byeon 等人[28]提出了二維長(zhǎng)短期記憶循環(huán)神經(jīng)網(wǎng)絡(luò)(2D LSTM)。該網(wǎng)絡(luò)將輸入圖像分成若干個(gè)非折疊窗口,然后送入4 個(gè)獨(dú)立的LSTM 記憶單元,利用LSTM 的遠(yuǎn)程記憶特性來捕獲圖像的局部、全局上下文信息,以較低的計(jì)算復(fù)雜度實(shí)現(xiàn)了先進(jìn)的性能。普通的LSTM 網(wǎng)絡(luò)處理時(shí)需要將圖像固定且均勻地劃分為塊,會(huì)造成圖像屬性利用不充分。因此,Liang等人[29]提出Graph-LSTM,將傳統(tǒng)LSTM 從序列數(shù)據(jù)拓展到圖結(jié)構(gòu)數(shù)據(jù),將超像素作為圖的節(jié)點(diǎn),基于超像素及其空間連接自適應(yīng)地構(gòu)造一個(gè)無向圖拓?fù)浣Y(jié)構(gòu)。Graph-LSTM 利用圖拓?fù)浣Y(jié)構(gòu)可以高效地將圖像的上下文信息傳輸?shù)綀D中所有超像素節(jié)點(diǎn),降低冗余計(jì)算量的同時(shí)良好保留了目標(biāo)的邊界信息,從而增強(qiáng)了特征表示。

        RNN 網(wǎng)絡(luò)在三維場(chǎng)景解析中亦有應(yīng)用。Xiang等人[30]提出了數(shù)據(jù)關(guān)聯(lián)循環(huán)神經(jīng)網(wǎng)絡(luò)(data associated recurrent neural networks,DA-RNN),在RNN 網(wǎng)絡(luò)中引入一個(gè)新的數(shù)據(jù)關(guān)聯(lián)遞歸單元(data associated recurrent unit,DA-RU),用于融合先前視頻幀和當(dāng)前視頻幀的特征,以對(duì)RGB-D 視頻的每一幀進(jìn)行語義標(biāo)注,之后把網(wǎng)絡(luò)的輸出與KinectFusion 技術(shù)結(jié)合,將語義標(biāo)簽融入到三維空間中,實(shí)現(xiàn)三維場(chǎng)景重建。

        2.5 基于注意力機(jī)制的方法

        注意力機(jī)制[31]的基本原理是為特征圖中不同的區(qū)域分配不同的權(quán)重,即提取特征圖中關(guān)注對(duì)象的有用信息,同時(shí)抑制無用信息,從而實(shí)現(xiàn)高效的特征提取,并降低了網(wǎng)絡(luò)訓(xùn)練難度。其次,注意力機(jī)制有助于獲取全局上下文信息,促進(jìn)語義分割準(zhǔn)度的提升。

        金字塔注意網(wǎng)絡(luò)(pyramid attention network,PAN)[32]將注意力機(jī)制和空間金字塔結(jié)合來獲取密集的特征和語義信息,其創(chuàng)新工作在于:(1)提出特征金字塔注意模塊(feature pyramid attention,F(xiàn)PA),利用金字塔模型融合不同尺度的上下文信息,同時(shí)將像素級(jí)注意力應(yīng)用于高層特征,以增強(qiáng)像素分類的一致性。(2)提出全局注意上采樣模塊(global attention upsample,GAU),利用全局平均池化來提取高層特征的上下文信息,用于指導(dǎo)低層特征恢復(fù)像素的細(xì)節(jié)信息,從而促進(jìn)分割精度的提升。

        針對(duì)傳統(tǒng)的FCN 網(wǎng)絡(luò)提取的特征導(dǎo)致的目標(biāo)錯(cuò)誤分類問題,F(xiàn)u 等人[33]提出雙注意網(wǎng)絡(luò)(dual attention network,DANet)。該網(wǎng)絡(luò)先基于ResNet 模型提取特征圖,然后將特征圖輸入到并行連接的位置注意力模塊和通道注意力模塊。其中位置注意力模塊利用自注意力機(jī)制捕獲特征圖中任意兩個(gè)位置間的空間依賴關(guān)系,通道注意力模塊利用自注意力機(jī)制捕獲通道特征圖之間的依賴關(guān)系。最后使用卷積操作將兩個(gè)模塊的輸出進(jìn)行聚合,使網(wǎng)絡(luò)可以在局部特征上建模全局上下文依賴關(guān)系,并進(jìn)一步增強(qiáng)了特征表示。

        DANet 網(wǎng)絡(luò)雖然提升了分割的準(zhǔn)度,但模型計(jì)算量較大。文獻(xiàn)[34]提出縱橫交叉網(wǎng)絡(luò)(criss-cross network,CCNet),設(shè)計(jì)了縱橫交叉注意力(criss-cross attention,CCA)模塊,通過特征加權(quán)求和來建模像素間的遠(yuǎn)距離依賴關(guān)系,以在水平和垂直方向上捕獲圖像的全局上下文信息。該網(wǎng)絡(luò)使用較少的GPU 內(nèi)存和計(jì)算成本,達(dá)到了先進(jìn)的分割效果。

        2.6 基于GAN 的方法

        傳統(tǒng)的基于FCN 的語義分割方法常使用CRF(conditional random field)、金字塔模型來提升算法的分割準(zhǔn)度,但是存在模型結(jié)構(gòu)復(fù)雜、計(jì)算成本高等問題。而基于GAN 網(wǎng)絡(luò)的語義分割方法通過對(duì)抗訓(xùn)練優(yōu)化模型性能,在不增加網(wǎng)絡(luò)復(fù)雜度的情況下,增強(qiáng)了像素預(yù)測(cè)結(jié)果的一致性,進(jìn)而促進(jìn)語義分割準(zhǔn)度的提高。

        經(jīng)生成對(duì)抗網(wǎng)絡(luò)的啟發(fā),Luc 等人[35]首次將生成對(duì)抗網(wǎng)絡(luò)應(yīng)用于圖像語義分割。首先利用分割網(wǎng)絡(luò)生成預(yù)測(cè)圖,然后將預(yù)測(cè)圖和真實(shí)標(biāo)簽圖輸入到判別網(wǎng)絡(luò)中判斷真假。兩個(gè)網(wǎng)絡(luò)之間進(jìn)行迭代訓(xùn)練,提高了預(yù)測(cè)圖與真實(shí)標(biāo)簽圖之間的高階一致性。

        全監(jiān)督語義分割是對(duì)每個(gè)像素進(jìn)行語義標(biāo)注,時(shí)間成本高且難度大。為了減少標(biāo)注時(shí)間和代價(jià),文獻(xiàn)[36]將GAN 應(yīng)用于半監(jiān)督學(xué)習(xí),利用少量的標(biāo)注數(shù)據(jù)和大量的未標(biāo)注數(shù)據(jù)進(jìn)行語義分割,并利用條件生成對(duì)抗網(wǎng)絡(luò)[37]生成高質(zhì)量的樣本,以提升像素分類的一致性。無獨(dú)有偶,文獻(xiàn)[38]也利用GAN 進(jìn)行半監(jiān)督語義分割,以有效減少人工標(biāo)注的工作量。不同點(diǎn)在于利用未標(biāo)注的數(shù)據(jù)訓(xùn)練分割網(wǎng)絡(luò)時(shí),將判別網(wǎng)絡(luò)的輸出作為自學(xué)習(xí)信號(hào),用于補(bǔ)償圖像語義標(biāo)注的缺失和優(yōu)化分割網(wǎng)絡(luò)。

        3 語義分割算法的性能分析與對(duì)比

        隨著語義分割技術(shù)的發(fā)展,越來越多的分割算法被提出,繼而需要對(duì)這些算法的性能進(jìn)行標(biāo)準(zhǔn)化、系統(tǒng)化的評(píng)估。而評(píng)估不同算法的性能需要建立在大型的數(shù)據(jù)集和統(tǒng)一的評(píng)價(jià)指標(biāo)上。因此,本章對(duì)圖像語義分割實(shí)驗(yàn)中常用的公共數(shù)據(jù)集和性能評(píng)估指標(biāo)進(jìn)行了歸納,并以此為標(biāo)準(zhǔn)對(duì)本文所述算法的性能進(jìn)行對(duì)比。

        3.1 圖像語義分割常用數(shù)據(jù)集

        本節(jié)整理了常用的大型公共數(shù)據(jù)集,并對(duì)各個(gè)數(shù)據(jù)集的基本信息、主要應(yīng)用場(chǎng)景進(jìn)行了匯總,如表2所示。

        Stanford background[39]:斯坦福大學(xué)發(fā)布的一個(gè)室外場(chǎng)景數(shù)據(jù)集,數(shù)據(jù)主要來自LabelMe、MSRC、PASCAL VOC 等公共數(shù)據(jù)集,包含715 張圖像,像素約為320×240。數(shù)據(jù)集有8 個(gè)類別,包括道路、樹木、草、水、建筑物、山脈、天空和前景物體。

        SiftFlow[40]:該數(shù)據(jù)集是LabelMe 數(shù)據(jù)集的子集,包含33 個(gè)語義類別,共有2 688 張標(biāo)注的圖像,大部分圖像取自8 種不同的戶外場(chǎng)景(山脈、海灘、街道、城市等),每張圖像的像素值為256×256。

        KITTI[41]:自動(dòng)駕駛場(chǎng)景最常用數(shù)據(jù)集,包含從德國(guó)鄉(xiāng)村、城市和高速公路采集的圖像,適用于道路檢測(cè)、視覺測(cè)距、三維物體檢測(cè)和跟蹤等挑戰(zhàn)。原始數(shù)據(jù)集沒有提供真實(shí)的語義標(biāo)注,后來Alvarez 等人[42]、Zhang 等人[43]和Ros 等人[44]為其中部分類的圖像添加了語義標(biāo)注。

        SBD(semantic boundaries dataset)[45]:SBD 數(shù)據(jù)集對(duì)PASCAL VOC 數(shù)據(jù)集進(jìn)行了拓展,并繼承PASCAL VOC 中的11 355 張語義標(biāo)注圖像。數(shù)據(jù)集分為訓(xùn)練集(8 498 張圖像)和驗(yàn)證集(2 857 張圖像),實(shí)際應(yīng)用中已逐漸替代PASCAL VOC 數(shù)據(jù)集。

        PASCAL VOC(PASCAL visual object classes)[46]:最初是為目標(biāo)檢測(cè)任務(wù)創(chuàng)立的國(guó)際競(jìng)賽,從2005 年一直發(fā)展到2012 年,產(chǎn)生了一系列高質(zhì)量的數(shù)據(jù),目前PASCAL VOC 2012 是最常用的。數(shù)據(jù)集中共有21 個(gè)類別(含背景),包括人、動(dòng)物、交通工具、室內(nèi)物品等。

        PASCAL Context[47]:在PASCAL VOC 數(shù)據(jù)集的基礎(chǔ)上進(jìn)行了擴(kuò)展,總共有540 個(gè)類,包含10 103 張語義標(biāo)注的圖像。該數(shù)據(jù)集類別繁多,但其中許多類比較稀疏,因此在評(píng)估語義分割算法性能時(shí),通常使用出現(xiàn)頻率最高的59 個(gè)類作為語義標(biāo)簽。

        Table 2 Common datasets for semantic segmentation表2 語義分割常用公共數(shù)據(jù)集

        MS COCO(Microsoft common objects in context)[48]:由微軟公司發(fā)布,數(shù)據(jù)集中圖像種類豐富,其包含的圖像大多選取自復(fù)雜的室內(nèi)和室外場(chǎng)景,常用于圖像識(shí)別、語義分割任務(wù)。數(shù)據(jù)集含有80 個(gè)類別,328 000幅圖像、2 500 000 個(gè)對(duì)象實(shí)例。

        ADE20K[49]:MIT 推出的用于場(chǎng)景解析、分割、目標(biāo)識(shí)別、語義理解的數(shù)據(jù)集,該數(shù)據(jù)集中共擁有超過25 000 張圖像、150 個(gè)語義類別,并對(duì)圖像中的目標(biāo)進(jìn)行了密集的像素標(biāo)注。其中訓(xùn)練集有20 210 張圖像,驗(yàn)證集有2 000 張圖像。

        Cityscapes[50]:主要用于城市街道場(chǎng)景解析的大型數(shù)據(jù)集,包含了從50 個(gè)城市獲取的不同時(shí)間段、不同背景和場(chǎng)景布局下的高分辨率圖像,數(shù)據(jù)集為部分圖像提供了語義、實(shí)例標(biāo)注,其中精細(xì)標(biāo)注的圖像約5 000 張,粗略標(biāo)注的圖像20 000 張。

        SUNRGB-D[51]:主要應(yīng)用于場(chǎng)景解析任務(wù),數(shù)據(jù)集由4 款RGB-D 傳感器采集的圖像和NYU depthv2、SUN3D 等數(shù)據(jù)集組成。共包括10 335 張室內(nèi)場(chǎng)景圖像、146 617 個(gè)二維多邊形標(biāo)注、58 657 個(gè)三維邊界框標(biāo)注以及不同場(chǎng)景的布局信息、類別信息。

        3.2 圖像語義分割常用評(píng)價(jià)指標(biāo)

        目前學(xué)術(shù)界通常從運(yùn)行時(shí)間、內(nèi)存占用、準(zhǔn)確度三方面衡量語義分割算法的性能,因準(zhǔn)確度最具客觀性和公正性,所以本節(jié)著重介紹圖像語義分割準(zhǔn)確度的評(píng)價(jià)指標(biāo)。主要包括像素準(zhǔn)確率(pixel accuracy,PA)[52]、交并比(intersection over union,IoU)[52]、平均交并比(mean intersection over union,mIoU)[52]等。其中mIoU 簡(jiǎn)潔且代表性強(qiáng),是圖像語義分割實(shí)驗(yàn)評(píng)測(cè)中最常用的指標(biāo)。PA、IoU、mIoU 三個(gè)評(píng)價(jià)指標(biāo)的定義、計(jì)算公式的詳細(xì)闡述如下。

        (1)PA:表示圖像中正確分類的像素?cái)?shù)目與像素總數(shù)的比率。

        (2)IoU:預(yù)測(cè)圖集合和真實(shí)標(biāo)注圖集合的交集與這兩個(gè)集合的并集的比率,圖像語義分割中常表示分割圖與原始圖像真值之間的重合程度。

        (3)mIoU:圖像像素每個(gè)類的IoU 值累加后的平均值。

        式中,k表示像素的類別數(shù);pii表示實(shí)際類別為i、預(yù)測(cè)的類別也為i的像素的數(shù)目;ti表示類別為i的像素的總數(shù);pji表示實(shí)際類別為i、預(yù)測(cè)的類別為j的像素的數(shù)目。

        3.3 語義分割算法性能對(duì)比

        本文中所述語義分割算法的關(guān)鍵技術(shù)以及在PASCAL VOC 2012、CityScapes 等常用數(shù)據(jù)集上的mIoU 實(shí)驗(yàn)測(cè)試結(jié)果對(duì)比,如表3 所示。

        4 總結(jié)與展望

        本文簡(jiǎn)述了語義分割中常用的幾種深度神經(jīng)網(wǎng)絡(luò),將基于深度神經(jīng)網(wǎng)絡(luò)的語義分割方法依據(jù)所用技術(shù)的區(qū)別劃分為基于空洞卷積的方法、基于編解碼的方法等六類方法,并對(duì)這六類方法中的主流算法進(jìn)行細(xì)致的研究和總結(jié)。在對(duì)語義分割技術(shù)深入研究后,發(fā)現(xiàn)語義分割技術(shù)依然存在許多挑戰(zhàn)和可行的研究方向。

        (1)實(shí)時(shí)語義分割

        目前許多語義分割算法已經(jīng)實(shí)現(xiàn)了良好的分割準(zhǔn)度,但運(yùn)行速度卻無法達(dá)到實(shí)時(shí)性的要求,實(shí)現(xiàn)實(shí)時(shí)語義分割的難點(diǎn)在于要在保證分割準(zhǔn)度的前提下提升分割速度。目前的主流解決方法:一是采用高效且輕量化的主干網(wǎng)絡(luò);二是采用多分支網(wǎng)絡(luò)結(jié)構(gòu);三是裁剪輸入圖像的尺寸。如RGPNet[54]網(wǎng)絡(luò)采用非對(duì)稱編解碼結(jié)構(gòu),使網(wǎng)絡(luò)模型輕量化,提高了分割準(zhǔn)度并減少了計(jì)算成本。曠視公司提出的DFANet[53]網(wǎng)絡(luò)通過充分利用深度聚合的高層特征以及輕量化的編碼器結(jié)構(gòu),實(shí)現(xiàn)了實(shí)時(shí)分割。目前越來越多的實(shí)際應(yīng)用場(chǎng)景要求在更短的響應(yīng)時(shí)間達(dá)到精確的分割結(jié)果(如無人駕駛、安防監(jiān)控),因此未來的語義分割將在保持高準(zhǔn)度的同時(shí),探索如何進(jìn)一步提高分割速度。

        (2)三維點(diǎn)云數(shù)據(jù)的語義分割

        基于深度學(xué)習(xí)的語義分割已經(jīng)在一維、二維數(shù)據(jù)的處理上取得了很大的成功,而針對(duì)點(diǎn)云等三維數(shù)據(jù)的語義分割近幾年卻發(fā)展緩慢。2017 年文獻(xiàn)[55]提出的PointNet 網(wǎng)絡(luò)首次實(shí)現(xiàn)在非規(guī)則點(diǎn)云數(shù)據(jù)上進(jìn)行圖像分割,2020 年文獻(xiàn)[56]提出RandLA-Net 網(wǎng)絡(luò),通過逐漸增加每個(gè)點(diǎn)的感受野來更好地學(xué)習(xí)點(diǎn)云的幾何結(jié)構(gòu),實(shí)現(xiàn)了大規(guī)模三維點(diǎn)云的處理。雖說近兩年三維點(diǎn)云數(shù)據(jù)的語義分割研究火熱,但依然存在許多挑戰(zhàn)。如現(xiàn)有的三維數(shù)據(jù)集規(guī)模都較小,而點(diǎn)云語義分割是建立在大規(guī)模三維數(shù)據(jù)的基礎(chǔ)上,因此如何建立完善的大型三維數(shù)據(jù)集是一個(gè)不小的難點(diǎn)。此外,如何將稀疏的、無序的、非結(jié)構(gòu)化的點(diǎn)云數(shù)據(jù)結(jié)構(gòu)化、離散化,以促進(jìn)點(diǎn)云數(shù)據(jù)分割準(zhǔn)度的提升也是未來研究的熱點(diǎn)方向。

        Table 3 Comparison of experimental results of image semantic segmentation methods表3 圖像語義分割方法的實(shí)驗(yàn)結(jié)果對(duì)比

        (3)基于圖卷積網(wǎng)絡(luò)的語義分割

        卷積神經(jīng)網(wǎng)絡(luò)在規(guī)則的歐式數(shù)據(jù)(如圖像、文本等)處理中取得了卓越的成就,但無法處理非歐式數(shù)據(jù)(如圖數(shù)據(jù))。圖卷積網(wǎng)絡(luò)將卷積神經(jīng)網(wǎng)絡(luò)從歐式數(shù)據(jù)拓展到圖結(jié)構(gòu)數(shù)據(jù),實(shí)現(xiàn)端到端地學(xué)習(xí)圖節(jié)點(diǎn)的特征信息和結(jié)構(gòu)信息,并有效增強(qiáng)了特征表示能力,是圖數(shù)據(jù)處理的最佳手段。文獻(xiàn)[57]將圖像網(wǎng)格數(shù)據(jù)拓展為圖結(jié)構(gòu)數(shù)據(jù),利用圖卷積網(wǎng)絡(luò)解決圖節(jié)點(diǎn)的分類問題,減少了局部位置信息的丟失,取得了良好的分割結(jié)果。目前,許多真實(shí)場(chǎng)景都是以圖數(shù)據(jù)的形式存在的,且圖數(shù)據(jù)建模在視覺任務(wù)中的重要性日益凸顯(如三維點(diǎn)云數(shù)據(jù)分割)。因此,基于圖卷積網(wǎng)絡(luò)進(jìn)行語義分割是一個(gè)極具潛力的研究方向。

        猜你喜歡
        語義像素卷積
        趙運(yùn)哲作品
        藝術(shù)家(2023年8期)2023-11-02 02:05:28
        像素前線之“幻影”2000
        基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
        語言與語義
        “像素”仙人掌
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        基于傅里葉域卷積表示的目標(biāo)跟蹤算法
        “上”與“下”語義的不對(duì)稱性及其認(rèn)知闡釋
        高像素不是全部
        CHIP新電腦(2016年3期)2016-03-10 14:22:03
        認(rèn)知范疇模糊與語義模糊
        国产小车还是日产的好| 军人粗大的内捧猛烈进出视频| 中文字幕av素人专区| 四虎影在永久在线观看| 欧美激情在线播放| 人妻 日韩精品 中文字幕| 国产无码十八禁| 国产免费一区二区三区在线观看 | 国产成人综合久久三区北岛玲| 国产乱淫h侵犯在线观看| 精品国产成人av久久| 亚洲中文字幕久久精品蜜桃| 囯产精品一品二区三区| 99re6久精品国产首页| 蜜桃视频一区视频二区| 日本真人边吃奶边做爽动态图| 亚洲av成人无码久久精品 | 久久久久亚洲av无码专区体验| 久久久精品免费观看国产| 在线观看视频日本一区二区三区 | 亚洲一区二区三区精品网| 国产自拍一区二区三区| 久久久亚洲欧洲日产国码aⅴ| 99久久精品国产成人综合| 亚洲精品乱码久久久久99| 亚洲av第一区国产精品| 国产精品中文久久久久久久| 国产尤物精品自在拍视频首页| 国产一区二区精品av| 亚洲精品午夜久久久九九| 亚洲人午夜射精精品日韩| 国产哟交泬泬视频在线播放| 亚洲色图视频在线播放| 日韩一区二区三区人妻免费观看| 老太脱裤子让老头玩xxxxx| 国产欧美日韩网站| 一本色道久久综合狠狠躁中文| 手机在线国产福利av| a级国产乱理伦片| 四月婷婷丁香七月色综合高清国产裸聊在线 | 色婷婷综合中文久久一本|