亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        結(jié)合上下文注意力的卷積自校正圖像語義分割

        2022-03-01 13:13:10陳孝如曾碧卿
        關(guān)鍵詞:語義特征模型

        陳孝如,曾碧卿

        (1.廣州軟件學(xué)院 軟件工程系,廣東 廣州 510990;2.華南師范大學(xué) 軟件學(xué)院,廣東 佛山 528225)

        0 引 言

        語義分割作為計(jì)算機(jī)視覺研究中的核心技術(shù),其優(yōu)勢(shì)在于可以通過使用圖像高級(jí)語義特征來對(duì)圖像進(jìn)行像素級(jí)的預(yù)測(cè)和分類[1,2],目前,已經(jīng)被廣泛應(yīng)用于醫(yī)療衛(wèi)生、倉儲(chǔ)管理、交通安全等諸多領(lǐng)域,具有重要的研究?jī)r(jià)值和意義。

        在圖像語義分割時(shí),通常會(huì)面臨目標(biāo)、類別以及背景這3方面的困難和挑戰(zhàn)[3]。對(duì)于目標(biāo)而言,即使是同一個(gè)目標(biāo),如果光照、視角和距離不同或是在靜止和運(yùn)動(dòng)的狀態(tài)下,所拍攝的圖像也是不同的,甚至還會(huì)出現(xiàn)鄰近目標(biāo)之間互相遮擋的情況[4]。在類別上,同一類的目標(biāo)之間仍有相異性,不同種類的目標(biāo)間也會(huì)存在著相似性。對(duì)于背景來說,由于現(xiàn)實(shí)場(chǎng)景中的背景都是相對(duì)比較復(fù)雜的,給圖像的語義分割帶來了較大的困難[5]。對(duì)于灰度分割、條件隨機(jī)場(chǎng)等傳統(tǒng)的語義分割來說,通常都是使用圖像的底層特征來劃分圖像的區(qū)域,其分割的精度有待進(jìn)一步提高[6]。目前,隨著卷積神經(jīng)網(wǎng)絡(luò)算法的發(fā)展及在語義分割中的應(yīng)用,大量基于深度學(xué)習(xí)的語義分割模型被提出,能夠解決傳統(tǒng)語義分割中特征選擇困難的問題[7]。

        另外,在面對(duì)一些比較復(fù)雜的場(chǎng)景,如小目標(biāo)、條狀部位、模糊邊緣輪廓以及不同目標(biāo)相似部分的分割時(shí),均有較大的難度[8]。為此,提出了一種結(jié)合上下文注意力的卷積自校正圖像語義分割模型。其創(chuàng)新點(diǎn)在于:

        (1)由于圖像中的小目標(biāo)對(duì)象不易被挖掘,所提方法通過注意力編碼機(jī)制挖掘圖像的局部區(qū)域內(nèi)細(xì)粒度特征,并且采用上下文循環(huán)神經(jīng)網(wǎng)絡(luò)編碼機(jī)制充分挖掘圖像特征。

        (2)為了提高所提方法的分割精度,所提方法構(gòu)建輔助分割模型,并且采用卷積自校模型,動(dòng)態(tài)調(diào)整分割模型,以能夠滿足復(fù)雜圖像語義分割的應(yīng)用需求。

        1 相關(guān)研究

        語義分割主要是先通過對(duì)圖像進(jìn)行分割,且所分割的像素區(qū)域都具有一定的特征語義,然后對(duì)所有的像素區(qū)域進(jìn)行識(shí)別,并最終得到帶有像素語義標(biāo)注的圖像。其主要的分割方法包括一般非深度學(xué)習(xí)方法和基于深度學(xué)習(xí)的方法兩大類語義分割方法[9]。

        傳統(tǒng)的圖像分割算法對(duì)圖像進(jìn)行區(qū)域分割依據(jù)的是圖像的顏色、紋理信息和空間結(jié)構(gòu)等特征,且同一個(gè)區(qū)域的語義信息是一致的,不同區(qū)域之間的屬性也各不相同。分割的方法有很多主要有簡(jiǎn)單的閾值分割、區(qū)域生長(zhǎng)、邊緣特征檢測(cè)和圖劃分等[10]。文獻(xiàn)[11]提出了采用結(jié)構(gòu)森林法生成邊緣概率,運(yùn)用分水嶺算法將邊緣概率轉(zhuǎn)化成初始割塊。為避免過分割,利用超度量輪廓圖算法選取適當(dāng)閾值生成分割塊以獲取更準(zhǔn)確的輪廓信息,通過隨機(jī)森林訓(xùn)練分割塊,得到語義分割結(jié)果。文獻(xiàn)[12]提出了一種可以根據(jù)其邊界極性針對(duì)目標(biāo)對(duì)象組進(jìn)行定制的可擴(kuò)展定向圖像森林變換(oriented image foresting transform,OIFT)的分層圖劃分方法,該方法具有較少數(shù)量的圖像分區(qū),能夠準(zhǔn)確地進(jìn)行用已知極性隔離所需的目標(biāo)區(qū)域。并利用圖像區(qū)域的局部對(duì)比度,使其相對(duì)于照明變化和不均勻性效果具有魯棒性。因?yàn)椴恍枰M(jìn)行數(shù)據(jù)訓(xùn)練,所以計(jì)算相對(duì)比較簡(jiǎn)單。然而,若是困難較大的分割任務(wù)。還需進(jìn)一步的提高分割的性能。文獻(xiàn)[13]提出了一種聯(lián)合全局圖像特征與完全卷積網(wǎng)絡(luò)的圖像分割方法,該方法利用通過嵌入完全卷積網(wǎng)絡(luò)部分的統(tǒng)一深度學(xué)習(xí)模型的參數(shù)學(xué)習(xí)過程進(jìn)行編碼,以集成整體圖像內(nèi)容使分割更加合理精確。這類方法得到底層特征的方式基本都是通過使用人工設(shè)計(jì)特征,其分割效率并不能很好滿足實(shí)際的要求。

        基于深度學(xué)習(xí)的語義分割方法自動(dòng)學(xué)習(xí)數(shù)據(jù)特征,而非使用人工設(shè)定的數(shù)據(jù)特征,這是與傳統(tǒng)圖像分割方法的不同之處。通過采用深度神經(jīng)網(wǎng)絡(luò)便能完成從端到端的語義分割預(yù)測(cè)[14]。深度學(xué)習(xí)的過程中最重要的3個(gè)過程包括特征提取、語義分割以及后期處理。之后便產(chǎn)生了很多例如基于全卷積網(wǎng)絡(luò)FCN、VGG16、Res Net或在其基礎(chǔ)上進(jìn)行改進(jìn)的深度網(wǎng)絡(luò)語義分割等模型。文獻(xiàn)[15]提出了一種基于Res Net網(wǎng)絡(luò)的方法,通過對(duì)并聯(lián)支路進(jìn)行定義,將淺層特征圖像信息與深層特征圖像進(jìn)行融合,并使用并行的擁有不同采樣率的空洞卷積來提取特征并進(jìn)行融合,以實(shí)現(xiàn)對(duì)不同層的特征以及上下文信息進(jìn)行有效提取,同時(shí)為了提高參數(shù)調(diào)優(yōu)的穩(wěn)定性,將批規(guī)范化計(jì)算引入到新模塊中。該卷積網(wǎng)絡(luò)的缺陷是由于其空間分辨率低而對(duì)圖像細(xì)節(jié)不敏感,分割的邊緣也相對(duì)比較粗糙;文獻(xiàn)[16]提出了一種基于改進(jìn)的深度卷積神經(jīng)網(wǎng)絡(luò)的具有大小約束的弱監(jiān)督學(xué)習(xí)算法,對(duì)圖像進(jìn)行分割,與現(xiàn)有的完全監(jiān)督方法相比,圖像分割過程僅使用圖像級(jí)標(biāo)簽和邊界框標(biāo)簽來進(jìn)行指導(dǎo),更易于實(shí)現(xiàn)。其不足之處在于得到的目標(biāo)信息并不充分,上下文信息會(huì)發(fā)生丟失的情況,以致不能對(duì)邊界進(jìn)行精準(zhǔn)定位;文獻(xiàn)[17]提出了一種新穎的Dense-Gram網(wǎng)絡(luò),以比傳統(tǒng)策略更有效地減少間隙并分割退化圖像。實(shí)驗(yàn)結(jié)果表明,提出的Dense-Gram網(wǎng)絡(luò)在使用PASCAL VOC 2012、SUNRGBD、CamVid和CityScapes數(shù)據(jù)集合成的降級(jí)圖像上產(chǎn)生了最新的語義分割性能。目前還沒有能使當(dāng)前網(wǎng)絡(luò)對(duì)不同類別間差異進(jìn)行刻意學(xué)習(xí)的機(jī)制或是結(jié)構(gòu),這也導(dǎo)致高層的語義特征有時(shí)會(huì)對(duì)目標(biāo)與自身背景的信息進(jìn)行共享,對(duì)目標(biāo)的分割不精準(zhǔn)。在文獻(xiàn)[18]中,一種基于深度殘差網(wǎng)絡(luò)的多尺度語義分割模型被提了出來,其主要是增強(qiáng)小樣本遙感影像數(shù)據(jù)集中不同尺度分割對(duì)象的遙感影像分割精度。雖然實(shí)現(xiàn)了端到端的語義分割模型結(jié)構(gòu)構(gòu)建,但由于重點(diǎn)關(guān)注特征理解和目標(biāo)類別的預(yù)測(cè),造成在目標(biāo)與背景或不同目標(biāo)的邊界定位不準(zhǔn)的問題。

        2 提出的圖像語義分割方法

        結(jié)合上下文注意力的卷積自校正圖像語義分割包括3個(gè)核心模塊,即上下文注意力模型、輔助分割模型與卷積自校正模型,其整體架構(gòu)如圖1所示。

        圖1 所提方法的整體架構(gòu)

        所提方法通過初級(jí)分割模型獲得圖像局部特征,其中注意力機(jī)制能夠捕捉多尺度局部區(qū)域之間的上下文特征,充分挖掘圖像特征。而輔助分割模型通過給定圖像和邊界框生成每像素的標(biāo)簽分布。將輔助分割模型與初級(jí)分割模型的輸出作為卷積自校正模型的輸入,利用卷積網(wǎng)絡(luò)實(shí)現(xiàn)分割模型的動(dòng)態(tài)調(diào)整。

        輔助分割模型輸出給定圖像和邊界框的分割。該模型對(duì)弱集進(jìn)行初始分割,有助于訓(xùn)練初始模型。自校正模塊對(duì)輔助模型和當(dāng)前弱集的主模型產(chǎn)生的分段進(jìn)行細(xì)化。使用交叉熵?fù)p失訓(xùn)練主模型,該交叉熵?fù)p失將其輸出與完全監(jiān)督的正確標(biāo)注分割標(biāo)簽或弱集的自校正模塊生成的軟精化標(biāo)簽相匹配。

        2.1 上下文注意力模型

        在圖像語義分割的實(shí)際應(yīng)用中,其數(shù)據(jù)量龐大,通過建立一個(gè)k近鄰圖G=(V,E) 代表局部區(qū)域,以縮減計(jì)算費(fèi)用[19]。其中V={1,2,…,N} 為點(diǎn)集,E?V×φi為相鄰點(diǎn)對(duì)的相鄰邊,φi為點(diǎn)xi鄰域點(diǎn)的集合。為防止點(diǎn)集受到旋轉(zhuǎn)等變換的影響,將局部區(qū)域點(diǎn)的坐標(biāo)xij變換為中心點(diǎn)xi的相對(duì)坐標(biāo),獲得的邊特征表示如下

        Fyij=(xi,xij-xi),xi∈F?xij∈Neighbors(xi),xi∈V,xij∈φi

        (1)

        為使圖像的細(xì)粒度細(xì)節(jié)和多尺度上下文信息能得到更加充分的挖掘,因此,基于Point Net建立了上下文注意力卷積層,所采取的編碼方式主要包括兩種分別為:注意力編碼以及上下文循環(huán)神經(jīng)網(wǎng)絡(luò)編碼,其中注意力編碼主要是對(duì)局部區(qū)域內(nèi)細(xì)粒度特征進(jìn)行學(xué)習(xí),上下文循環(huán)神經(jīng)網(wǎng)絡(luò)編碼學(xué)習(xí)的則是局部區(qū)域之間的多尺度上下文幾何特征。圖2展示的是上下文注意力卷積層網(wǎng)絡(luò)結(jié)構(gòu)。其中,多層感知機(jī)操作由MLP{*} 來表示,卷積核的數(shù)目則是由“*”來進(jìn)行表示。

        注意力編碼機(jī)制一般先選取MLP且所選取的MLP的輸出通道為F1,再通過采用選取的MLP將原始點(diǎn)特征以及邊特征都向有著較高維度的特征空間中映射,以下為具體的表示

        u′i=σΘ(κ(fF×1(xi)))h′i=σΘ(κ(fF×1(yi)))

        (2)

        其中,非線性激活函數(shù)參數(shù)化后記為σ, 卷積核中可以進(jìn)行學(xué)習(xí)的參數(shù)集合表示為Θ;κ代表的是進(jìn)行批歸一化處理;f代表卷積操作,下標(biāo)的F×1則是代表卷積核的大小。在該實(shí)驗(yàn)中,F(xiàn)1取值為16也就是特征通道的數(shù)量是16。利用MLP處理u′i和h′i, 分別生成xi的自注意力系數(shù)和鄰域注意力系數(shù),將兩者融合,可獲得中心點(diǎn)xi到鄰域內(nèi)k個(gè)相鄰點(diǎn)的注意力系數(shù)cij為

        cij=Selu(σΘ(κ(f1×1(u′i))))+σΘ(κ(f1×1(h′ij)))

        (3)

        圖2 CAC層的網(wǎng)絡(luò)結(jié)構(gòu)

        式中:非線性激活函數(shù)是Selu()。 采用Softmax 函數(shù)對(duì)注意力系數(shù)進(jìn)行歸一化處理,從而使模型的收斂效率得到提升

        (4)

        為了挖掘細(xì)粒度局部特征,將注意力系數(shù)aij與局部圖特征h′ij相乘。這時(shí)的注意力系數(shù)充當(dāng)特征選擇器,在描述點(diǎn)xi中,該注意力系數(shù)可以對(duì)其中有著鑒別能力的鄰域特征進(jìn)行自適應(yīng)的強(qiáng)化能力,對(duì)例如噪聲等無意義的鄰域特征進(jìn)行有效的抑制,從而能對(duì)圖像局部區(qū)域內(nèi)的細(xì)粒度細(xì)節(jié)信息進(jìn)行充分有效的挖掘。

        (5)

        式中:ζ為非線性激活函數(shù);sk-1為第t-1個(gè)鄰域特征向量,dt-1為sk-1的隱藏層狀態(tài)。則采樣點(diǎn)中第t個(gè)鄰域特征向量是sk, 當(dāng)利用RNN對(duì)sk進(jìn)行編碼時(shí),相應(yīng)的輸出ot為

        ot=ωadt

        (6)

        其中,可以進(jìn)行學(xué)習(xí)的權(quán)重矩陣表示為ωa。 所有的特征序列在完成學(xué)習(xí)后會(huì)得到隱藏層狀態(tài),將該隱藏層狀態(tài)記為dT。 將dT和ωa相乘便可獲得采樣點(diǎn)的多尺度上下文幾何特征oT。

        將注意力編碼進(jìn)行引入,這固然在一定程度上有助于提升網(wǎng)絡(luò)在捕獲局部區(qū)域中細(xì)粒度細(xì)節(jié)的能力;但并沒有重視局部區(qū)域之間的上下文幾何信息,而這對(duì)于圖像語義分割來說是極其重要的[20]。上下文RNN編碼機(jī)制的優(yōu)勢(shì)在于它能對(duì)圖像的多尺度上下文高級(jí)特征進(jìn)行充分的挖掘。這使得級(jí)別相對(duì)較低的細(xì)粒度局部特征和級(jí)別相對(duì)較高的多尺度上下文幾何特征可以進(jìn)行相互的補(bǔ)償。通過選用Selu函數(shù)將采樣點(diǎn)中所有不同層次的細(xì)粒度局部特征都融合到上下文幾何特征中,在兩種特征進(jìn)行融合之后便能得到上下文細(xì)粒度幾何特征的采樣點(diǎn)大小為N×F2[21]。在進(jìn)行特征融合之前,先在R×128的圖像上用插值操作對(duì)N×128的圖像進(jìn)行采樣。進(jìn)行融合之后的特征F∑i計(jì)算為

        F∑i=Selu(oT+li)

        (7)

        式中:li為細(xì)粒度局部特征。

        2.2 上下文注意力的CNN網(wǎng)絡(luò)

        為能更深入的對(duì)圖像的深層隱含語義特征信息進(jìn)行充分的挖掘,于是將殘差學(xué)習(xí)引入到所建的上下文注意力卷積神經(jīng)網(wǎng)絡(luò)(contextual attention convolutional neural network,CACNN)中,得到的網(wǎng)絡(luò)結(jié)構(gòu)圖,如圖3所示。其中空間變換網(wǎng)絡(luò)是一個(gè)3×3的矩陣。

        圖3 CACNN 網(wǎng)絡(luò)結(jié)構(gòu)

        首先,輸入的N×F圖像矩陣?yán)每臻g轉(zhuǎn)換網(wǎng)絡(luò)作規(guī)范化處理,以保證圖像的變換不變性。然后,通過CAC層提取輸入圖像的上下文細(xì)粒度幾何特征和圖特征,其中,幾何特征的維度是N×176。最后,融合幾何特征和區(qū)域中心點(diǎn)的三維特征,以獲得維度是N×179的圖像矩陣,再將其作為堆砌MLP層的輸入,完成再一次的特征提取[22]。除此之外,通過將殘差連接進(jìn)行引入來進(jìn)一步對(duì)深層隱含語義特征進(jìn)行挖掘。這既能有效防止梯度消失問題的發(fā)生,還可以對(duì)網(wǎng)絡(luò)的深度進(jìn)行進(jìn)一步的加深,表1是各層卷積層的具體參數(shù)。最終獲得的1×4096的全局特征描述符,是由最后一層卷積層輸出的N×4096特征矩陣在經(jīng)過最大池化層的特征聚合后得到的。

        表1 卷積層的具體參數(shù)設(shè)置

        (8)

        通過將插值后的特征與相應(yīng)的點(diǎn)特征進(jìn)行相連,以對(duì)插值的過程進(jìn)行引導(dǎo)。為能更好促進(jìn)點(diǎn)級(jí)別的特征提取,還在網(wǎng)絡(luò)中引進(jìn)了大量的MLP層和Selu層。每個(gè)語義的類別由最終輸出的N×S圖像矩陣來表示。

        2.3 輔助分割

        帶邊界盒標(biāo)注的分割模型的半監(jiān)督訓(xùn)練的關(guān)鍵是推斷出盒內(nèi)物體的分割。解決這一問題的現(xiàn)有方法主要是依賴手工編制的GrabCut、迭代標(biāo)簽優(yōu)化等機(jī)制,通常在從圖像中提取分割和使用邊界框信息進(jìn)行標(biāo)簽細(xì)化之間迭代[23]。此類方法的主要問題在于:①邊界框信息沒有直接用于提取分割的掩碼;②該方法由于是手工設(shè)計(jì)的,因此可能不是最優(yōu)的;③當(dāng)多個(gè)框重疊時(shí),分割會(huì)變得模糊。

        針對(duì)上述存在的問題,設(shè)計(jì)了一個(gè)輔助的分割模型,在給定圖像和邊界框注釋的情況下形成每像素的標(biāo)簽分布。該模型利用全監(jiān)督集易于訓(xùn)練的特點(diǎn),作為圖像的訓(xùn)練信號(hào),在推理時(shí),將圖像及其邊界盒都反饋到網(wǎng)絡(luò)中,得到分割標(biāo)簽分布panc(y|x,c)。

        基于編碼器-解碼器的分割網(wǎng)絡(luò)通常依賴于從圖像分類模型初始化的編碼器,為了從大型圖像分類數(shù)據(jù)集中轉(zhuǎn)移特征以提高分割性能,使用一個(gè)并行包圍盒編碼器網(wǎng)絡(luò)來擴(kuò)充基于編碼器-解碼器的分割模型,該網(wǎng)絡(luò)以不同的比例嵌入包圍盒信息[24,25]。該輔助網(wǎng)絡(luò)的架構(gòu)如圖4所示。

        圖4 輔助分割模型的架構(gòu)

        邊界框編碼器的輸入是表示邊界框的二值化掩碼的3D張量和表示編碼器輸出的目標(biāo)尺寸的3D形狀。將輸入掩模張量調(diào)整到目標(biāo)形狀,然后通過一個(gè)帶有sigmoid激活函數(shù)的3×3卷積層。由此產(chǎn)生的張量可以被解釋為注意圖,該注意圖按元素乘以由分割編碼器生成的特征圖[26]。圖4示出了在兩個(gè)不同尺度下的這種特征映射的兩個(gè)路徑,對(duì)于每個(gè)尺度,生成一個(gè)注意圖,使用元素乘法將其與相應(yīng)的特征圖融合,并饋送給解碼器。對(duì)于大小為W×H×3的圖像,使用大小為W×H×(C+1)的二值掩碼表示其對(duì)象邊界框,該二值掩碼對(duì)C+1二值掩碼進(jìn)行編碼。如果像素處的cth二進(jìn)制掩碼位于cth類的一個(gè)邊界框內(nèi),則其值為1;如果背景遮罩中的像素未被任何邊界框覆蓋,則其值為0。

        2.4 卷積自校正

        為了提高圖像語義分割的精度,通過使用主模型訓(xùn)練將信息融合,其中主模型訓(xùn)練的最簡(jiǎn)單方法是訓(xùn)練其使用完全監(jiān)督集Ψ上的正確標(biāo)注標(biāo)簽和弱集Ω上輔助模型生成的標(biāo)簽進(jìn)行預(yù)測(cè)[27]。由于主模型無法在訓(xùn)練早期準(zhǔn)確預(yù)測(cè)分割掩碼,因此使用正比例因子β對(duì)輔助模型panc(y|x,c) 和主模型p(y|x) 重新加權(quán)

        (9)

        式中:KL是Kullback Leibler散度。

        上述校正模型稱為線性自校正模型,因?yàn)槠涫褂肒ullback Leibler散度線性組合的解來推斷潛在分割標(biāo)簽上的分布。并且在訓(xùn)練過程中優(yōu)化了主模型的參數(shù),β使自校正機(jī)制偏向于主模型。

        但是線性自校正也存在一定不足,訓(xùn)練過程中需要超參數(shù)搜索調(diào)整β, 所提方法利用學(xué)習(xí)自校正機(jī)制的卷積網(wǎng)絡(luò)來代替線性函數(shù)。因此,當(dāng)訓(xùn)練主要模型時(shí),網(wǎng)絡(luò)會(huì)自動(dòng)動(dòng)態(tài)地調(diào)整機(jī)制,如果主模型準(zhǔn)確地預(yù)測(cè)標(biāo)簽,則該網(wǎng)絡(luò)可以將其預(yù)測(cè)移向主模型。

        卷積自校正網(wǎng)絡(luò)接受panc(y|x,c) 和p(y|x) 模型生成的對(duì)數(shù),并在分段標(biāo)簽上生成因子分布qconv(y|x,c;λ), 其中λ為子網(wǎng)絡(luò)的參數(shù)。卷積自校正子網(wǎng)由兩個(gè)卷積層組成,都使用3×3內(nèi)核和ReLu激活函數(shù)。

        卷積自校正的關(guān)鍵在于訓(xùn)練子網(wǎng),使其比panc(y|x,b) 或p(y|x) 更準(zhǔn)確地預(yù)測(cè)分段標(biāo)簽。為此,在目標(biāo)函數(shù)中引入了一個(gè)附加項(xiàng),使用F中的訓(xùn)練示例訓(xùn)練子網(wǎng),同時(shí)在整個(gè)數(shù)據(jù)集上訓(xùn)練主模型

        (10)

        式中:第一項(xiàng)和第二項(xiàng)為訓(xùn)練F和Ω上的主模型,而最后一項(xiàng)訓(xùn)練卷積自校正網(wǎng)絡(luò)。

        由于子網(wǎng)是隨機(jī)初始化的,因此在訓(xùn)練過程中不能準(zhǔn)確預(yù)測(cè)Ω上的分割標(biāo)簽。為了解決這一問題,需要對(duì)輔助模型和自校正網(wǎng)絡(luò)進(jìn)行初始化訓(xùn)練,并且利用全部數(shù)據(jù)的目標(biāo)函數(shù)對(duì)前一個(gè)模型進(jìn)行微調(diào)。

        3 實(shí)驗(yàn)結(jié)果與分析

        為了驗(yàn)證所提模型在處理圖像語義分割任務(wù)上的性能,使用格薩爾千幅唐卡數(shù)據(jù)集、PASCAL VOC數(shù)據(jù)集和城市景觀數(shù)據(jù)集進(jìn)行對(duì)比實(shí)驗(yàn)分析。

        3.1 網(wǎng)絡(luò)參數(shù)設(shè)置

        訓(xùn)練和測(cè)試實(shí)驗(yàn)中采用的操作系統(tǒng)為L(zhǎng)inux Ubuntu 16.04,CPU為Intel i7 8700k,內(nèi)存為64 GB,GPU為 Ge Force RTX 2080,網(wǎng)絡(luò)GPU 加速庫為Cudnn 7.13,深度學(xué)習(xí)的框架是Tensorflow-GPU,版本號(hào)為1.9.0。在訓(xùn)練中使用的是基于動(dòng)量的SGD優(yōu)化算法,并將動(dòng)量、權(quán)重衰減、初始的學(xué)習(xí)率、學(xué)習(xí)的率衰減系數(shù)、衰減的速度以及全連接層中Dropout的參數(shù)保留率分別設(shè)為0.9、0.0005、0.001、0.5、300 000和0.5。使用Adam優(yōu)化器,并使用Xavier 優(yōu)化器對(duì)網(wǎng)絡(luò)參數(shù)進(jìn)行初始化操作。

        3.2 評(píng)價(jià)指標(biāo)

        對(duì)所提方法在數(shù)據(jù)集上分割效果的評(píng)價(jià),采用的是平均交并比(mean intersection over union,MIoU)和平均像素精度(mean pixel accuracy,MPA)。若MIoU和MAP的值越高,則表示圖像語義分割的效果越好。

        若一共存在g+1個(gè)類。其中,實(shí)際類別為i類但預(yù)測(cè)結(jié)果為j類的像素?cái)?shù)量表示為Pij, 則MIoU和MPA的計(jì)算過程為

        (11)

        3.3 格薩爾千幅唐卡數(shù)據(jù)集

        將所提模型與文獻(xiàn)[12]、文獻(xiàn)[16]中模型基于格薩爾千幅唐卡數(shù)據(jù)集的分割精度進(jìn)行對(duì)比,結(jié)果見表2。

        表2 不同模型分割精度的對(duì)比

        由表2可知,與文獻(xiàn)[12]、文獻(xiàn)[16]模型相比,所提模型的平均分割精度分別高了4.1%、1.8%;平均交并比指標(biāo)值分別高了8.2%、3.9%。此外,各模型的分割效果如圖5所示。

        圖5 格薩爾千幅唐卡數(shù)據(jù)集上分割效果的對(duì)比

        由圖5可知,所提出的模型對(duì)于條狀目標(biāo)例如馬尾、馬腿以及樹干等較為敏感,并且與文獻(xiàn)[12]、文獻(xiàn)[16]的模型相比,所提模型在小目標(biāo)上的分割精度更勝一籌。

        3.4 PASCAL VOC數(shù)據(jù)集

        PASCALVOC數(shù)據(jù)集由1464個(gè)訓(xùn)練、1449個(gè)驗(yàn)證和1456個(gè)測(cè)試圖像組成,包括20個(gè)前景對(duì)象類和一個(gè)背景類用于分割,提供了9118幅訓(xùn)練圖像的輔助數(shù)據(jù)集。實(shí)驗(yàn)中將原始PASCAL VOC訓(xùn)練集和輔助集的并集稱為訓(xùn)練集。

        將所提模型與文獻(xiàn)[12]、文獻(xiàn)[16]中模型基于PASCAL VOC數(shù)據(jù)集的分割精度進(jìn)行對(duì)比,結(jié)果見表3。

        表3 不同模型分割精度的對(duì)比

        由表3可知,在PASCALVOC數(shù)據(jù)集上,與文獻(xiàn)[12]、文獻(xiàn)[16]的模型相比,所提模型的平均分割精度和平均交并比指標(biāo)值都更高。此外,各模型的分割效果對(duì)比如圖6所示。

        圖6 PASCAL VOC數(shù)據(jù)集上分割效果的對(duì)比

        從圖6可以看出,所提模型在物體邊緣細(xì)長(zhǎng)類小目標(biāo)上的分割效果明顯優(yōu)于文獻(xiàn)[12]、文獻(xiàn)[16]模型。由于文獻(xiàn)[12]中的OIFT模型利用經(jīng)典的卷積網(wǎng)絡(luò)實(shí)現(xiàn)下采樣,造成大量淺層邊緣輪廓信息的丟失,并且使用轉(zhuǎn)置卷積還原特征圖的尺寸,得到的圖像細(xì)節(jié)較為粗糙。文獻(xiàn)[16]中的DCNN模型通過在較高層特征圖上采用金字塔池化的方式,對(duì)全局和局部特征進(jìn)行融合。這對(duì)于解決在傳統(tǒng)池化操作中只能對(duì)固定窗口的特征信息進(jìn)行捕獲的問題具有一定的幫助。然而,采用連續(xù)多次的下采樣的方式會(huì)帶來一些負(fù)面影響,會(huì)使得大量的淺層信息被丟失,目標(biāo)分割的邊緣較為粗略。相比之下,所提模型在編碼和特征融合兩階段能讓物體邊緣細(xì)長(zhǎng)類小目標(biāo)的有效淺層信息得到更多的保留,因此,其分割精度能得到更有效的提升。

        3.5 城市景觀數(shù)據(jù)集

        城市景觀數(shù)據(jù)集包含不同季節(jié)汽車行駛圖像,此數(shù)據(jù)集具有高質(zhì)量的注釋,但是有些實(shí)例被過度/欠分割。其中包括2975個(gè)訓(xùn)練、500個(gè)驗(yàn)證和1525個(gè)測(cè)試圖像,覆蓋19個(gè)前景對(duì)象類(內(nèi)容和對(duì)象),用于分割。但是,這些類別中有8個(gè)是平面或構(gòu)造標(biāo)簽(例如,道路、人行道、建筑物等),此類類別的邊界框很少覆蓋整個(gè)場(chǎng)景。要?jiǎng)?chuàng)建類似于PASCAL VOC數(shù)據(jù)集的對(duì)象分割任務(wù),僅使用11個(gè)類(標(biāo)桿、交通信號(hào)燈、交通標(biāo)志、人、騎手、汽車、卡車、公共汽車、火車、摩托車和自行車)作為前景類,所有其它類都被指定為背景類。由于標(biāo)簽的這種修改,服務(wù)器上的測(cè)試集會(huì)對(duì)所有類進(jìn)行評(píng)估,所提模型僅在驗(yàn)證集上進(jìn)行實(shí)驗(yàn)評(píng)估。

        實(shí)驗(yàn)中使用不同大小F, 訓(xùn)練集中的剩余圖像用作W, 即W+F=2975, 將所提模型與文獻(xiàn)[12]、文獻(xiàn)[16]、文獻(xiàn)[17]中模型基于城市景觀數(shù)據(jù)集的分割精度進(jìn)行對(duì)比,結(jié)果見表4。其中文獻(xiàn)[17]提出一種Dense-Gram網(wǎng)絡(luò),比傳統(tǒng)方法能夠更有效地減少間隙并分割退化圖像。

        表4 城市景觀數(shù)據(jù)集中分割精度的對(duì)比

        由表4可知,所提模型在城市景觀數(shù)據(jù)集中的平均分割精度和平均交并比指標(biāo)值均高于文獻(xiàn)[12]、文獻(xiàn)[16]、文獻(xiàn)[17]模型。并且F的值越大,其模型的性能越好。由此可論證所提模型在圖像語義分割中的有效性。

        4 結(jié)束語

        本文提出了一種結(jié)合上下文注意力的卷積自校正圖像語義分割方法。主要通過在CAC層中引入注意力機(jī)制,從而對(duì)圖像的局部細(xì)粒度特征進(jìn)行挖掘。并采用RNN對(duì)不同尺度鄰域的特征進(jìn)行編碼,以對(duì)多尺度上下文特征進(jìn)行捕獲,并將殘差學(xué)習(xí)引入到CACNN網(wǎng)絡(luò)中,進(jìn)一步對(duì)點(diǎn)云的深層隱含語義特征進(jìn)行挖掘。在此基礎(chǔ)上,結(jié)合主模型和輔助模型的標(biāo)簽分布,設(shè)計(jì)了卷積自校正機(jī)制,以進(jìn)一步提高圖像語義分割的精度。本次實(shí)驗(yàn)是在格薩爾千幅唐卡數(shù)據(jù)集、PASCAL VOC數(shù)據(jù)集和城市景觀數(shù)據(jù)集上進(jìn)行,利用MIoU和MPA兩個(gè)指標(biāo)進(jìn)行對(duì)比分析。實(shí)驗(yàn)結(jié)果表明,相比于其它模型,所提模型的MIoU和MPA均是最高的。其中在格薩爾千幅唐卡數(shù)據(jù)集中,所提模型的MPA分別提高了4.1%、1.8%,MIoU分別提高了8.2%、3.9%,其它數(shù)據(jù)集中均有相應(yīng)的提升,且分割效果良好。

        但是所提模型網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜,訓(xùn)練參數(shù)較多,因此,未來,本文將重點(diǎn)構(gòu)建一個(gè)可部署到嵌入式設(shè)備中的輕量級(jí)實(shí)時(shí)圖像分割網(wǎng)絡(luò)。此外,針對(duì)其中引入注意力機(jī)制存在的計(jì)量過大、訓(xùn)練時(shí)間延長(zhǎng)等問題,考慮削減網(wǎng)絡(luò)參數(shù)來進(jìn)行解決。

        猜你喜歡
        語義特征模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        語言與語義
        如何表達(dá)“特征”
        不忠誠(chéng)的四個(gè)特征
        抓住特征巧觀察
        3D打印中的模型分割與打包
        “上”與“下”語義的不對(duì)稱性及其認(rèn)知闡釋
        認(rèn)知范疇模糊與語義模糊
        国产男女免费完整视频| 久久亚洲av午夜福利精品西区| 日本韩国一区二区高清| 日日噜噜夜夜狠狠视频| 人妻夜夜爽天天爽一区| 2021国产最新在线视频一区| 亚洲在线视频一区二区| 国产黑色丝袜在线看片| 人妻哺乳奶头奶水| 欧美一级三级在线观看| 青青草原亚洲在线视频| 一区二区视频中文字幕| 韩国三级中文字幕hd| 亚洲自拍另类制服在线| 中文字幕精品人妻av在线| 男人的天堂手机版av| 男人边做边吃奶头视频| 中文字幕+乱码+中文字幕无忧| 欧美熟妇与小伙性欧美交| 成人性生交大片免费看l| 无码人妻一区二区三区免费视频| 成人免费视频在线观看| 偷拍熟女亚洲另类| 中文字幕一区二区综合| 人妻无码中文字幕| 国产精品无需播放器| 国产精品丝袜一区二区三区在线| 青青草成人在线免费视频| 成人免费毛片aaaaaa片| 超碰日韩AV在线| 国产在线视频一区二区三区不卡 | 亚洲精品成人网线在线播放va| 国产成人精品电影在线观看18| av网站影片在线观看| 国产熟人精品一区二区| 风韵多水的老熟妇| 欧美成人在线A免费观看| 亚洲激情一区二区三区视频| 久久久久九九精品影院| 人妻精品无码一区二区三区| 国产精品一区二区三区不卡|