亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向場(chǎng)景解析的空間結(jié)構(gòu)化編碼深度網(wǎng)絡(luò)

        2018-01-15 09:19:52張國(guó)印王澤宇吳艷霞布樹輝
        關(guān)鍵詞:結(jié)構(gòu)化解析物體

        張國(guó)印, 王澤宇, 吳艷霞, 布樹輝

        (1.哈爾濱工程大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,黑龍江 哈爾濱 150001; 2.西北工業(yè)大學(xué) 航空學(xué)院,陜西 西安 710072)

        隨著智能時(shí)代的到來,場(chǎng)景解析作為計(jì)算機(jī)視覺研究方向上的重要技術(shù)領(lǐng)域,近年來取得了突飛猛進(jìn)的發(fā)展,這對(duì)于提升機(jī)器人、無人機(jī)、水下航行器等的自主導(dǎo)航能力起到至關(guān)重要的作用。場(chǎng)景解析作為一項(xiàng)復(fù)雜的計(jì)算機(jī)視覺工作,不僅需要檢測(cè)并分割出不同的物體,而且需要能夠識(shí)別出不同物體所屬的類別,因此,實(shí)現(xiàn)場(chǎng)景解析的核心技術(shù)是準(zhǔn)確地為圖像中每個(gè)像素做分類[1-2]。

        近年來,基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNNs)的方法已經(jīng)證明在場(chǎng)景解析工作中取得成功[3-7]。文獻(xiàn)[3]以現(xiàn)有的分類網(wǎng)絡(luò)(AlexNet[8]、VGGNet[9]和GoogLeNet[10])為基礎(chǔ),首先修改分類網(wǎng)絡(luò)末端的全連接層為卷積層,并在網(wǎng)絡(luò)末端添加反卷積層,然后級(jí)聯(lián)不同卷積層提取的特征作為反卷積層的輸入,最后采用端到端、像素到像素的訓(xùn)練方式將分類網(wǎng)絡(luò)轉(zhuǎn)換成面向場(chǎng)景解析的全卷積神經(jīng)網(wǎng)絡(luò)(fully convolutional neural networks,F(xiàn)CNNs)。在文獻(xiàn)[3]的基礎(chǔ)上,文獻(xiàn)[4-5]分別提出了一種結(jié)構(gòu)對(duì)稱的FCNNs,該結(jié)構(gòu)的卷積層和反卷積層的功能相反,類似自編碼器,對(duì)輸入圖像先編碼后解碼,從而解析出圖像中的物體。文獻(xiàn)[6-7]提出了一種帶孔的卷積(atrous convolution),這使得卷積層提取的特征尺寸不變,從而減少噪聲的引入,提升了場(chǎng)景解析的結(jié)果。但是,單純CNNs方法的空間結(jié)構(gòu)化學(xué)習(xí)能力很弱,如果想要實(shí)現(xiàn)更準(zhǔn)確的場(chǎng)景解析,就需要網(wǎng)絡(luò)具有空間結(jié)構(gòu)化學(xué)習(xí)能力,能夠感知圖像的全局空間狀態(tài),即:圖像中物體所處空間的物體分布以及物體之間的空間位置關(guān)系。

        為此,具有空間結(jié)構(gòu)化學(xué)習(xí)能力的條件隨機(jī)場(chǎng)(conditional random fields,CRFs)[11]聯(lián)合CNNs的混合架構(gòu)應(yīng)運(yùn)而生[12-14]。文獻(xiàn)[12]提出了一種CRF-RNN結(jié)構(gòu)化學(xué)習(xí)模型,并將CRF-RNN作為CNNs的一部分重新構(gòu)建CNNs深度網(wǎng)絡(luò),這樣,該深度網(wǎng)絡(luò)就結(jié)合了CNNs和CRFs各自的優(yōu)點(diǎn),具有了空間結(jié)構(gòu)化學(xué)習(xí)能力。文獻(xiàn)[13]提出了一種基于CRFs的端到端深度網(wǎng)絡(luò),該網(wǎng)絡(luò)通過多尺度的FCNNs學(xué)習(xí)CRFs的一元項(xiàng)和二元項(xiàng),具有獲取圖像中空間結(jié)構(gòu)化信息的能力。文獻(xiàn)[14]提出了一種具有空間結(jié)構(gòu)相關(guān)性的CRFs二元項(xiàng),并通過結(jié)構(gòu)化支持向量機(jī)(structured support vector machine,SSVMs)訓(xùn)練CRFs參數(shù),從而能夠充分利用物體之間的空間位置關(guān)系來提升場(chǎng)景解析的準(zhǔn)確率。但是,CRFs圖模型僅能描述圖像中物體之間的距離(位置)和相似度(顏色、紋理等),無法較為充分地學(xué)習(xí)物體所處空間的物體分布以及物體之間的空間位置關(guān)系,因此,場(chǎng)景解析效果提升的并不顯著。

        最近,長(zhǎng)短期記憶網(wǎng)絡(luò)(long short-term memory,LSTMs)[15-17]聯(lián)合CNNs的混合架構(gòu)在場(chǎng)景解析中取得了一些突破,這些方法[18-21]主要通過LSTMs網(wǎng)絡(luò)的記憶能力實(shí)現(xiàn)一定程度的空間結(jié)構(gòu)化信息推理,從而能夠?qū)W習(xí)圖像的空間結(jié)構(gòu)化信息。但是,LSTMs存在無顯式空間結(jié)構(gòu)化信息推理、無空間結(jié)構(gòu)化編碼等問題,從而無法準(zhǔn)確地學(xué)習(xí)和描述圖像的空間結(jié)構(gòu)化信息。

        與上述方法不同,推理深度網(wǎng)絡(luò)(inference embedded deep networks,IEDNs)[22]具有很強(qiáng)的空間結(jié)構(gòu)化學(xué)習(xí)能力,它以CNNs和CRFs的混合架構(gòu)為基礎(chǔ),利用混合架構(gòu)的分類概率推理圖像的空間結(jié)構(gòu)化信息,并將視覺信息與空間關(guān)系信息相融合,從而大幅提升場(chǎng)景解析的準(zhǔn)確率。但是,IEDNs沒有全面地考慮圖像中物體所處空間的物體分布以及物體之間的空間位置關(guān)系,不能充分地學(xué)習(xí)和描述圖像的空間結(jié)構(gòu)化信息。

        在此基礎(chǔ)上,本文提出了空間結(jié)構(gòu)化編碼深度網(wǎng)絡(luò)(spatial structure encoded deep networks,SSEDNs),它以CNNs和CRFs的混合架構(gòu)為基礎(chǔ),能夠結(jié)合CNNs和CRFs各自的優(yōu)點(diǎn)。與現(xiàn)有深度網(wǎng)絡(luò)的結(jié)構(gòu)不同,SSEDNs以CRFs作為中間層,并與空間結(jié)構(gòu)化編碼算法(spatial structure encoded algorithm,SSEAs)有機(jī)地結(jié)合,從而以編碼的方式較為準(zhǔn)確地描述圖像中物體所處空間的物體分布以及物體之間的空間位置關(guān)系。

        1 空間結(jié)構(gòu)化編碼深度網(wǎng)絡(luò)

        空間結(jié)構(gòu)化編碼深度網(wǎng)絡(luò)SSEDNs包含3個(gè)部分:特征提取層、結(jié)構(gòu)化學(xué)習(xí)層和特征融合層。其中,特征提取層主要由全卷積神經(jīng)網(wǎng)絡(luò)FCNNs構(gòu)成,用來提取圖像的視覺特征;結(jié)構(gòu)化學(xué)習(xí)層在空間結(jié)構(gòu)化編碼算法SSEAs的基礎(chǔ)上,一方面利用條件隨機(jī)場(chǎng)CRFs的分類概率推理超像素所處空間的物體分布,另一方面依據(jù)超像素的坐標(biāo)位置學(xué)習(xí)相鄰超像素對(duì)的空間位置關(guān)系,從而獲取超像素以及相鄰超像素對(duì)的空間關(guān)系特征;特征融合層主要包括深度置信網(wǎng)絡(luò)DBNs,用來將上述學(xué)習(xí)到的視覺特征和空間關(guān)系特征做融合,從而融合生成超級(jí)素和相鄰超像素對(duì)的混合特征。整個(gè)SSEDNs的網(wǎng)絡(luò)框架如圖1所示。

        1.1 特征提取層

        在場(chǎng)景解析研究中,提取的特征將直接影響分類結(jié)果。最近的研究表明包含多層形狀信息的特征能夠提升分類結(jié)果。這種特征的結(jié)構(gòu)是分層的,不同層次是對(duì)原始圖像不同級(jí)別的抽象,這意味著特征提取是逐層進(jìn)行的,因此,具有多層結(jié)構(gòu)的深度網(wǎng)絡(luò)成為特征提取的有效工具。另外,卷積操作和反卷積操作能夠分別模擬人眼和人腦的機(jī)制來提取特征和還原特征,這樣,由多個(gè)卷積層和反卷積層逐級(jí)相連構(gòu)成的FCNNs就可以對(duì)圖像進(jìn)行不同級(jí)別的抽象,從而獲取包含多層形狀信息的多維視覺特征。SSEDNs使用FCNNs提取特征的原理如圖2所示。

        1.1.1 全卷積神經(jīng)網(wǎng)絡(luò)

        假設(shè)FCNNs的卷積網(wǎng)絡(luò)包含Lc層,反卷積網(wǎng)絡(luò)包含Ld層,輸入圖像為x,第l層的輸出特征為Fl,那么,第l層的操作可以表示為

        Fl=

        (1)

        式中:初始特征F0為輸入圖像x,函數(shù)conv、rect和pool分別表示卷積網(wǎng)絡(luò)每層的卷積操作、校正操作和池化操作,函數(shù)unpool、deconv和rect分別表示反卷積網(wǎng)絡(luò)每層的反池化操作、反卷積操作和校正操作。其中,對(duì)于卷積網(wǎng)絡(luò)的每層操作,conv將卷積核內(nèi)的多個(gè)低層特征值映射為一個(gè)特征值,rect(abs,tanh和sigmoid等激活函數(shù))對(duì)conv生成的特征作修整,pool則挑選生成特征感知域內(nèi)最敏感的值作為特征值,從而去除特征中的噪聲,新生成的特征尺寸減小,變得抽象;對(duì)于反卷積網(wǎng)絡(luò)的每層操作,unpool與pool相反,它將卷積網(wǎng)絡(luò)生成的特征尺寸還原,同時(shí)補(bǔ)償pool造成的空間信息損失,deconv與conv相反,它將unpool生成特征的一個(gè)值映射為多個(gè),使得特征稠密化,rect功能與上面相同,新生成的特征尺寸增大,變得具體。

        圖1 空間結(jié)構(gòu)化編碼深度網(wǎng)絡(luò)Fig.1 Spatial structure encoded deep networks

        圖2 特征提取層Fig.2 Feature learning layer

        為了獲取包含多層視覺信息的特征,SSEDNs對(duì)FCNNs卷積網(wǎng)絡(luò)和反卷積網(wǎng)絡(luò)提取的特征進(jìn)行上采樣操作,使新生特征尺寸與輸入圖像相同,然后分別將卷積網(wǎng)絡(luò)和反卷積網(wǎng)絡(luò)的新生特征級(jí)聯(lián),從而得到深度卷積特征DCF和深度反卷積特征DDF:

        DCF=[up(F1),up(F2),…,up(FLc)]∈RNc×H×W

        (2)

        DDF=[up(FLc+1),up(FLc+2),…,
        up(FLc+Ld)]∈RNd×H×W

        (3)

        式中: Nc和Nd分別表示特征DCF和DDF的維數(shù),H和W分別表示特征的高度和寬度,Nl表示FCNNs第l層生成特征的維數(shù)或者卷積核的個(gè)數(shù),up(Fl)∈RNl×H×W表示上采樣函數(shù)。這樣,對(duì)于輸入圖像x的某一像素,假設(shè)其坐標(biāo)為(h,w),則它的多維視覺特征HVF可以表示為

        HVF(h,w|x)=[DCF(h,w|x),

        DDF(h,w|x)]∈RNc+Nd

        (4)

        與單一深度卷積特征不同,深度反卷積特征能夠彌補(bǔ)卷積網(wǎng)絡(luò)丟失的細(xì)節(jié)信息,同時(shí)深度卷積特征能夠糾正反卷積網(wǎng)絡(luò)還原的錯(cuò)誤信息,SSEDNs將兩者級(jí)聯(lián),得到的多維視覺特征能夠更準(zhǔn)確地表達(dá)圖像的視覺信息。

        1.1.2 超像素分割

        為了避免多維視覺特征中噪聲造成的像素分類概率錯(cuò)誤,SSEDNs使用SLIC算法[23]對(duì)輸入圖像進(jìn)行超像素分割,并計(jì)算超像素塊內(nèi)所有像素特征的均值,從而以超像素塊的多維視覺特征HVF∈RNc+Nd作為分類預(yù)測(cè)的基本單位。這樣不僅降低了噪聲帶來的影響,而且提升了整個(gè)網(wǎng)絡(luò)的訓(xùn)練和預(yù)測(cè)速度。與此同時(shí),超像素塊能夠準(zhǔn)確劃分圖像中的物體邊界,滿足場(chǎng)景解析的要求。

        1.2 結(jié)構(gòu)化學(xué)習(xí)層

        雖然FCNNs能夠提取包含多層形狀信息的多維視覺特征,但是該特征缺乏空間關(guān)系信息,可能會(huì)造成分類預(yù)測(cè)錯(cuò)誤。為了彌補(bǔ)FCNNs缺少空間結(jié)構(gòu)化學(xué)習(xí)能力的缺點(diǎn),SSEDNs內(nèi)嵌空間結(jié)構(gòu)化編碼算法,SSEAs一方面推理超像素所處空間的物體分布,另一方面學(xué)習(xí)相鄰超像素對(duì)的空間位置關(guān)系,從而更為準(zhǔn)確地描述圖像的空間結(jié)構(gòu)化信息。結(jié)構(gòu)化學(xué)習(xí)層的原理如圖3所示。

        圖3 結(jié)構(gòu)化學(xué)習(xí)Fig.3 Structural learning layer

        1.2.1 LAB顏色空間

        LAB顏色空間[24]是常用的顏色空間之一,與RGB顏色空間不同,LAB顏色空間與人類的視覺更為接近,因此,SSEDNs以相鄰超像素對(duì)的LAB顏色特征相似度作為CRFs的二元項(xiàng)進(jìn)行訓(xùn)練。另外,SSEDNs采用顏色空間轉(zhuǎn)換標(biāo)準(zhǔn)[25]將RGB圖像轉(zhuǎn)換為L(zhǎng)AB圖像。

        1.2.2 條件隨機(jī)場(chǎng)

        假設(shè)輸入圖像為x,圖像的標(biāo)簽為y,經(jīng)過超像素分割,可以得到x的圖G=(V,E),其中V表示超像素的集合,E表示相鄰超像素對(duì)的集合,則圖像x的能量函數(shù)可以表示為

        (5)

        式中:w=[wNwE]表示CRFs的模型參數(shù),U表示一元項(xiàng):

        U(yi,xi)=exp(-αuci)

        (6)

        V表示二元項(xiàng):

        V(yi,yj,xij)=

        (7)

        在CRFs訓(xùn)練階段,本文使用循環(huán)置信傳播算法和L-BFGS優(yōu)化算法求解CRFs的參數(shù)w[26]。在CRFs預(yù)測(cè)階段,對(duì)于一張新的圖像x,它的后驗(yàn)概率為

        (8)

        1.2.3 空間結(jié)構(gòu)化編碼算法

        雖然CRFs圖模型能夠根據(jù)相鄰超像素對(duì)的距離(位置)和特征(顏色、紋理等)的相似度來全局最優(yōu)化分類概率,但是它僅能實(shí)現(xiàn)場(chǎng)景解析的一致性和平滑性優(yōu)化,依然缺乏較強(qiáng)的空間結(jié)構(gòu)化學(xué)習(xí)能力。因此,SSEDNs內(nèi)嵌空間結(jié)構(gòu)化編碼算法,一方面通過CRFs的分類概率推理超像素所處空間的物體分布,另一方面根據(jù)超像素的坐標(biāo)位置學(xué)習(xí)相鄰超像素對(duì)的空間位置關(guān)系,從而生成描述超像素(節(jié)點(diǎn))和相鄰超像素對(duì)(邊)的空間關(guān)系特征。

        1)超像素(節(jié)點(diǎn))空間關(guān)系特征。

        本文以CRFs的分類概率作為超像素的類別,將超像素所處空間劃分為上、下、左、右4個(gè)區(qū)域,然后分別統(tǒng)計(jì)每個(gè)區(qū)域內(nèi)各類別出現(xiàn)的頻率(區(qū)域內(nèi)每種類別的超像素節(jié)點(diǎn)個(gè)數(shù)),從而近似生成描述超像素(節(jié)點(diǎn))所處空間物體分布的空間關(guān)系特征。

        假設(shè)超像素vi,以vi為中心的鄰域空間定義為Gu=(Vu,Eu),則vi的節(jié)點(diǎn)空間關(guān)系特征NSF可以表示為

        NSF(i)=[NSF(∧),NSF(∨),NSF(<),

        NSF(>)]∈R4×K

        (9)

        式中:NSF(∧),NSF(∨),NSF(<),NSF(>)分別表示超像素vi上、下、左、右4個(gè)區(qū)域內(nèi)各類別出現(xiàn)的頻率,它們可以統(tǒng)一表示成如下的形式:

        (10)

        式中:Vu(d)表示超像素vi在d方向上的區(qū)域,向量aj表示Vu(d)區(qū)域內(nèi)超像素vj的類別,其定義如下

        (11)

        式中:bj表示CRFs生成的超像素vj的分類概率,max(bj)表示vj各類別概率的最大值,bj(k)表示vj第k類的類別概率,K表示類別數(shù)。

        實(shí)際中,假設(shè)輸入圖像x的短邊長(zhǎng)為l,定義vi的空間Gu為以vi為中心的正方形鄰域,其鄰域的邊長(zhǎng)為0.4l。在此基礎(chǔ)上,定義vi的區(qū)域Vu(d)為Gu空間內(nèi)vi在d方向上的長(zhǎng)方形區(qū)域,如圖3所示。

        2)相鄰超像素(邊)空間關(guān)系特征。

        為了充分探究圖像中相鄰超像素對(duì)的空間位置關(guān)系,SSEDNs根據(jù)圖像中超像素的坐標(biāo)位置,將相鄰超像素對(duì)的空間位置關(guān)系劃分為上-下、下-上、左-右、右-左4類,從而生成描述相鄰超像素對(duì)(邊)的空間位置關(guān)系特征。

        假設(shè)相鄰超像素分別為vi和vj,其對(duì)應(yīng)的邊為eij,則eij的邊空間關(guān)系特征ESF可以表示為

        ESF(i,j)=ESF(d),d∈[∧,∨,<,>]

        (12)

        式中:d表示超像素對(duì)vi和vj的空間位置關(guān)系,向量ESF(∧),ESF(∨),ESF(<),ESF(>)分別表示上-下、下-上、左-右、右-左4類位置關(guān)系對(duì)應(yīng)的邊空間關(guān)系特征。

        實(shí)際中,ESF(∧),ESF(∨),ESF(<),ESF(>)可以簡(jiǎn)單地編碼為‘0001’、‘0010’、‘0100’和‘1000’。另外,由于部分相鄰超像素對(duì)之間不滿足垂直或者水平的空間位置關(guān)系,因此SSEDNs根據(jù)相鄰超像素對(duì)連線與垂直線和水平線夾角的大小近似區(qū)分其空間位置關(guān)系。

        與單一視覺特征不同,當(dāng)兩個(gè)超像素具有相似的視覺特征時(shí),SSEDNs就可以根據(jù)超像素所處空間物體分布的差異區(qū)分兩個(gè)超像素的類別;另外,當(dāng)僅憑視覺特征預(yù)測(cè)相鄰超像素對(duì)的類別不合理時(shí)(例如草原、湖泊或者公路出現(xiàn)在天空上方),SSEDNs就可以根據(jù)學(xué)到的合理空間位置關(guān)系避免上述錯(cuò)誤。

        1.3 特征融合層

        經(jīng)過特征提取層和結(jié)構(gòu)化學(xué)習(xí)層,SSEDNs可以分別生成超像素的多維視覺特征HVF、節(jié)點(diǎn)空間關(guān)系特征NSF和相鄰超像素對(duì)的邊空間關(guān)系特征ESF。為了進(jìn)一步挖掘視覺特征和空間關(guān)系特征之間復(fù)雜的非線性關(guān)系,SSEDNs使用DBNs對(duì)上述特征做融合,分別生成超像素(節(jié)點(diǎn))的分類概率和相鄰超像素對(duì)(邊)的置信度。在此基礎(chǔ)上,SSEDNs以節(jié)點(diǎn)分類概率和邊的置信度重新定義CRFs的一元項(xiàng)和二元項(xiàng),并再次訓(xùn)練CRFs,完成深度結(jié)構(gòu)化學(xué)習(xí)。特征融合層的流程如圖4所示。

        圖4 特征融合層Fig.4 Feature fusion layer

        1.3.1 深度置信網(wǎng)絡(luò)

        研究表明,利用DBNs融合不同特征之間的非線性關(guān)系來提升物體的分類概率效果顯著。DBNs[27]由一組受限的波爾茲曼機(jī)(restricted boltzmann machine,RBMs)[28-29]自下而上堆疊而成,它以級(jí)聯(lián)的不同特征作為輸入,按照低層RBMs輸出作為高層RBMs輸入的順序逐層抽象,最終輸出高度抽象的融合特征。

        SSEDNs采用對(duì)比散度算法對(duì)RBMs做快速訓(xùn)練[28-29, 32]。在此基礎(chǔ)上,訓(xùn)練DBNs[27, 30-31]可以分為預(yù)訓(xùn)練和微調(diào)兩個(gè)階段:在預(yù)訓(xùn)練階段,采用無監(jiān)督的貪心算法自底向上逐層訓(xùn)練DBNs中的RBMs,得到初始DBNs的參數(shù);在微調(diào)階段,采用無監(jiān)督的wake-sleep算法對(duì)參數(shù)調(diào)優(yōu)。為了使得DBNs具有分類功能,SSEDNs在DBNs的頂層添加判別網(wǎng)絡(luò)(例如SoftMax分類器),此時(shí),DBNs與標(biāo)準(zhǔn)的前饋神經(jīng)網(wǎng)絡(luò)相同,采用有監(jiān)督的反向傳播算法[35]進(jìn)一步調(diào)優(yōu)DBNs參數(shù)。

        1.3.2 深度結(jié)構(gòu)化學(xué)習(xí)

        SSEDNs通過級(jí)聯(lián)超像素的多維視覺特征HVF和節(jié)點(diǎn)空間關(guān)系特征NSF得到超像素的節(jié)點(diǎn)混合特征(node hybrid feature,NHF)。在此基礎(chǔ)上,相鄰超像素對(duì)的邊混合特征(edge hybrid feature,EHF)被定義為相鄰兩個(gè)超像素的節(jié)點(diǎn)混合特征NHF和邊空間關(guān)系特征ESF的組合。假設(shè)超像素為vi,相鄰超像素對(duì)vi和vj對(duì)應(yīng)的邊為eij,則vi節(jié)點(diǎn)混合特征NHF和eij邊混合特征EHF可以分別表示為

        NHF(i)=[HVF(i),NSF(i)]∈RNc+Nd+4×K

        (13)

        EHF(i,j)=[NHF(i)NHF(j)ESF(i,j)]

        (14)

        式中:HVF(i)表示vi的多維視覺特征HVF,NSF(i)表示vi的節(jié)點(diǎn)空間關(guān)系特征NSF,ESF(i,j)表示eij的邊空間關(guān)系特征ESF。

        在此基礎(chǔ)上,節(jié)點(diǎn)混合特征NHF和邊混合特征EHF的DBNs融合過程可以分別表示為

        θi=fusion(NHF(i))∈RK

        (15)

        θij=fusion(EHF(i,j))∈RK×K

        (16)

        式中:fusion表示DBNs的特征融合操作,θi表示DBNs生成的超像素vi的分類概率,θij表示DBNs生成的相鄰超像素對(duì)vi和vj對(duì)應(yīng)邊eij的置信度。

        為了深度結(jié)構(gòu)化學(xué)習(xí),SSEDNs以上述節(jié)點(diǎn)分類概率和邊的置信度重新定義CRFs的一元項(xiàng)U和二元項(xiàng)V的輸入,其中,一元項(xiàng)U可以表示為

        U(yi,xi)=exp(-αuθi)

        (17)

        二元項(xiàng)V可以表示為

        V(yi,yj,xij)=exp(-αvθij)

        (18)

        注意,與1.2.2節(jié)所述CRFs二元項(xiàng)V的含義不同,這里的V表示相鄰超像素對(duì)(vi,vj)類別為(yi,yj)的置信度。最后,SSEDNs通過上述一元項(xiàng)和二元項(xiàng)重新訓(xùn)練CRFs,從而能夠根據(jù)相鄰超像素對(duì)之間的置信度進(jìn)一步調(diào)優(yōu)場(chǎng)景解析的結(jié)果。

        2 實(shí)驗(yàn)與分析

        為了評(píng)價(jià)空間結(jié)構(gòu)化編碼深度網(wǎng)絡(luò)SSEDNs的場(chǎng)景解析效果,SSEDNs使用場(chǎng)景解析標(biāo)準(zhǔn)數(shù)據(jù)集SIFT FLOW[33]和PASCAL VOC 2012[34]做訓(xùn)練,并將測(cè)試結(jié)果與當(dāng)前的先進(jìn)方法作比較。另外, SSEDNs采用像素準(zhǔn)確率、平均類別準(zhǔn)確率和平均組合交叉準(zhǔn)確率[3]作為場(chǎng)景解析的評(píng)價(jià)標(biāo)準(zhǔn)。

        2.1 SSEDNs的訓(xùn)練流程

        SSEDNs由3類子網(wǎng)絡(luò)組成:全卷積神經(jīng)網(wǎng)絡(luò)FCNNs、條件隨機(jī)場(chǎng)CRFs和深度置信網(wǎng)絡(luò)DBNs。由于SSEDNs各子網(wǎng)絡(luò)相互獨(dú)立,可以分別獨(dú)立訓(xùn)練,因此,SSEDNs逐次訓(xùn)練特征提取層(FCNNs)、結(jié)構(gòu)化學(xué)習(xí)層(CRFs)以及特征融合層(DBNs),從而依次獲取各層的網(wǎng)絡(luò)參數(shù),整個(gè)網(wǎng)絡(luò)框架的訓(xùn)練簡(jiǎn)單而快速。

        在預(yù)處理階段,SSEDNs通過SLIC算法[23]對(duì)圖像進(jìn)行超像素分割,同時(shí)將RGB顏色空間的圖像映射到LAB顏色空間[25]。

        在特征提取階段,SSEDNs以卷積網(wǎng)絡(luò)工具包MatConvNet[36]提供的46層全卷積神經(jīng)網(wǎng)絡(luò)‘fcn8s’為框架。首先,采用隨機(jī)梯度下降算法和反向傳播算法[3, 35]對(duì)‘fcn8s’網(wǎng)絡(luò)進(jìn)行訓(xùn)練和微調(diào);然后,對(duì)‘fcn8s’各層提取的卷積特征和反卷積特征進(jìn)行上采樣操作;最后,級(jí)聯(lián)上述各層特征生成像素的多維視覺特征,同時(shí),通過計(jì)算超像素塊內(nèi)所有像素特征的均值,從而得到超像素塊的多維視覺特征。

        在結(jié)構(gòu)化學(xué)習(xí)階段,SSEDNs使用基于MATLAB的UGM工具包[37]創(chuàng)建CRFs圖模型。首先,采用循環(huán)置信傳播算法和L-BFGS優(yōu)化算法求解CRFs的參數(shù)[26],這樣,CRFs就能夠通過相鄰超像素對(duì)在LAB顏色空間的特征相似度來全局最優(yōu)化分類概率;然后,根據(jù)空間結(jié)構(gòu)化編碼算法生成超像素(節(jié)點(diǎn))和相鄰超像素對(duì)(邊)的空間關(guān)系特征。

        在特征融合階段,SSEDNs使用基于PYTHON的DBNs工具包[38]構(gòu)建DBNs網(wǎng)絡(luò)。首先,采用貪心算法和反向傳播算法完成DBNs訓(xùn)練[27-32];然后,分別以DBNs融合生成的節(jié)點(diǎn)分類概率和邊的置信度重新定義CRFs的一元項(xiàng)和二元項(xiàng),并重新訓(xùn)練CRFs。

        SSEDNs的訓(xùn)練和測(cè)試在一臺(tái)2.3 GHz Xeon CPU、128 GB內(nèi)存的計(jì)算機(jī)上進(jìn)行。

        2.2 SIFT FLOW數(shù)據(jù)集

        SIFT FLOW數(shù)據(jù)集由2 488張訓(xùn)練圖像和200張測(cè)試圖像組成,共包含34類物體和背景。SSEDNs關(guān)于該數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果如表1所示,場(chǎng)景解析效果如圖5所示。

        在表1中,‘FCNNs’表示全卷積神經(jīng)網(wǎng)絡(luò)FCNNs的場(chǎng)景解析結(jié)果,‘FCNNs+CRFs’表示條件隨機(jī)場(chǎng)CRFs調(diào)優(yōu)FCNNs后的結(jié)果,‘SSEDNs’表示所提出網(wǎng)絡(luò)的場(chǎng)景解析結(jié)果。從實(shí)驗(yàn)結(jié)果中可以發(fā)現(xiàn):首先,‘FCNNs+CRFs’的場(chǎng)景解析結(jié)果雖然優(yōu)于‘FCNNs’,但是結(jié)果相差不大,說明CRFs的空間結(jié)構(gòu)化學(xué)習(xí)能力較弱。然后,‘SSEDNs’的結(jié)果較‘FCNNs’和‘FCNNs+CRFs’相比有明顯提升,一方面說明僅僅包含視覺特征的場(chǎng)景解析效果一般,而融合視覺信息和空間結(jié)構(gòu)化信息的特征能夠顯著提升網(wǎng)絡(luò)的場(chǎng)景解析結(jié)果,另一方面說明根據(jù)相鄰物體間的置信度可以進(jìn)一步調(diào)優(yōu)場(chǎng)景解析的結(jié)果。最后,與當(dāng)前先進(jìn)方法做比較[3, 13, 22],‘SSEDNs’在場(chǎng)景解析各評(píng)價(jià)標(biāo)準(zhǔn)中均取得最好的結(jié)果,其原因可以歸納為如下4點(diǎn):1)SSEDNs使用FCNNs提取圖像不同抽象級(jí)別的視覺特征,從而得到級(jí)聯(lián)的多維視覺特征,另外,深度卷積特征和深度反卷積特征能夠互相彌補(bǔ)丟失的信息和糾正錯(cuò)誤的信息,兩者級(jí)聯(lián)得到的多維特征能夠更準(zhǔn)確地表達(dá)圖像的視覺信息;2)SSEDNs內(nèi)嵌空間結(jié)構(gòu)化編碼算法,通過該SSEAs分別生成超像素(節(jié)點(diǎn))和相鄰超像素對(duì)(邊)的空間關(guān)系特征,該空間關(guān)系特征具有表示圖像中物體所處空間的物體分布以及物體之間的空間位置關(guān)系的能力,這不僅能夠修正單一視覺特征造成的分類錯(cuò)誤,而且能夠避免不合理的分類預(yù)測(cè)(例如草原、湖泊或者公路出現(xiàn)在天空上方),從而提升場(chǎng)景解析的準(zhǔn)確率;3)SSEDNs通過DBNs分別對(duì)超像素(節(jié)點(diǎn))和相鄰超像素(邊)的混合特征進(jìn)行融合,從而進(jìn)一步挖掘視覺特征和空間關(guān)系特征之間的非線性關(guān)系,融

        合后的特征能夠更全面地表達(dá)圖像的語義信息;4)SSEDNs分別以融合后的超像素(節(jié)點(diǎn))分類概率和相鄰超像素對(duì)(邊)的置信度作為一元項(xiàng)和二元項(xiàng)來重新訓(xùn)練CRFs,從而能夠根據(jù)相鄰物體之間的置信度進(jìn)一步調(diào)優(yōu)場(chǎng)景解析的結(jié)果。

        表1SIFTFLOW數(shù)據(jù)集場(chǎng)景解析實(shí)驗(yàn)結(jié)果

        Table1TheexperimentalresultsonSIFTFLOWdataset%

        圖5 SIFT FLOW場(chǎng)景解析效果Fig.5 The scene parsing results from the SIFT FLOW dataset

        在圖5中,第1列表示輸入圖像,第10列表示Ground Truth,第2~4列分別表示‘FCNNs’、 ‘FCNNs+CRFs’和‘SSEDNs’對(duì)應(yīng)的場(chǎng)景解析效果。從場(chǎng)景解析效果中可以發(fā)現(xiàn):首先,從第2~4列,物體輪廓越來越接近Ground Truth,從而進(jìn)一步證明了表1的實(shí)驗(yàn)分析結(jié)果。然后,無論物體的輪廓是簡(jiǎn)單(天空、大海、沙灘等)還是復(fù)雜(人、樹、植物等),場(chǎng)景解析的結(jié)果均與Ground Truth接近,說明SSEDNs提取的特征能夠更全面地表達(dá)圖像中物體的語義信息,具有更強(qiáng)的空間結(jié)構(gòu)化學(xué)習(xí)能力。最后,對(duì)于尺寸很小的物體,SSEDNs可能會(huì)出現(xiàn)解析錯(cuò)誤,其原因可能是超像素替代像素完成解析任務(wù)造成的,這樣雖然能夠加速整個(gè)網(wǎng)絡(luò)的訓(xùn)練和預(yù)測(cè),但是網(wǎng)絡(luò)卻可能丟失尺寸很小物體的細(xì)節(jié)信息。

        2.3 PASCAL VOC 2012數(shù)據(jù)集

        PASCAL VOC 2012數(shù)據(jù)集由20類前景物體和1類背景組成。原始的PASCAL VOC 2012數(shù)據(jù)集中分別包含1 464張訓(xùn)練圖像、1 449張驗(yàn)證圖像和1 456張測(cè)試圖像。為了使得整個(gè)網(wǎng)絡(luò)訓(xùn)練得更加充分,SSEDNs使用PASCAL VOC 2012的2個(gè)擴(kuò)展數(shù)據(jù)集[39-40],從而增加訓(xùn)練圖像的數(shù)量。對(duì)于PASCAL VOC 2012數(shù)據(jù)集,通常采用平均組合交叉準(zhǔn)確率作為評(píng)價(jià)網(wǎng)絡(luò)場(chǎng)景解析效果的標(biāo)準(zhǔn),本文的實(shí)驗(yàn)結(jié)果如表2所示,其場(chǎng)景解析效果如圖6所示。

        從表2中可以發(fā)現(xiàn):首先,‘SSEDNs’的場(chǎng)景解析結(jié)果明顯優(yōu)于‘FCNNs’和‘FCNNs+CRFs’的結(jié)果,從而進(jìn)一步證明具有空間關(guān)系特征學(xué)習(xí)能力的網(wǎng)絡(luò)能夠更準(zhǔn)確地解析場(chǎng)景。其次,‘SSEDNs’與當(dāng)前先進(jìn)方法做比較[3, 7, 12-13, 22],也均取得較好的結(jié)果,從而印證了空間結(jié)構(gòu)化編碼算法,通過SSEAs生成的空間關(guān)系特征不僅能夠更為準(zhǔn)確的描述物體所處空間的物體分布,而且能夠表達(dá)相鄰物體之間的空間位置關(guān)系;在此基礎(chǔ)上與視覺特征相互融合,一方面彌補(bǔ)了單一視覺特征的不足,另一方面更準(zhǔn)確地表達(dá)了圖像的語義信息,從而顯著提升了網(wǎng)絡(luò)場(chǎng)景解析的結(jié)果。

        表2PASCALVOC2012數(shù)據(jù)集場(chǎng)景解析實(shí)驗(yàn)結(jié)果

        Table2TheexperimentalresultsonPASCALVOC2012dataset

        %

        圖6 PASCAL VOC 2012場(chǎng)景解析效果Fig.6 The scene parsing results from the PASCAL VOC 2012 dataset

        3 結(jié)論

        1)本文面向場(chǎng)景解析提出空間結(jié)構(gòu)化編碼深度網(wǎng)絡(luò)SSEDNs。SSEDNs通過有機(jī)地結(jié)合條件隨機(jī)場(chǎng)CRFs和空間結(jié)構(gòu)化編碼算法SSEAs,使其具有較強(qiáng)的空間結(jié)構(gòu)化學(xué)習(xí)能力,從而彌補(bǔ)現(xiàn)有方法結(jié)構(gòu)化學(xué)習(xí)能力的不足,顯著地提升了場(chǎng)景解析的結(jié)果。

        2)實(shí)驗(yàn)結(jié)果表明,在SIFT FLOW和PASCAL VOC 2012標(biāo)準(zhǔn)數(shù)據(jù)集下,SSEDNs的場(chǎng)景解析結(jié)果具有較高的準(zhǔn)確率。因此,SSEDNs可以應(yīng)用到實(shí)際的視覺任務(wù)中,從而提升機(jī)器人、無人機(jī)、水下航行器等的自主導(dǎo)航能力。

        3)SSEDNs可以被劃分為3個(gè)獨(dú)立的部分,這樣雖然能夠縮短網(wǎng)絡(luò)的訓(xùn)練和測(cè)試時(shí)間,但是可能無法充分地利用結(jié)構(gòu)化學(xué)習(xí)層的優(yōu)勢(shì)。因此,本文后續(xù)準(zhǔn)備研究構(gòu)建網(wǎng)絡(luò)3個(gè)部分的新架構(gòu),從而適合利用反向傳播算法聯(lián)合優(yōu)化整個(gè)網(wǎng)絡(luò),進(jìn)一步挖掘結(jié)構(gòu)化學(xué)習(xí)層的空間結(jié)構(gòu)化學(xué)習(xí)能力。

        [1] SHOTTON J, WINN J, ROTHER C, et al. Textonboost for image understanding: Multi-class object recognition and segmentation by jointly modeling texture, layout, and context[J]. International journal of computer vision, 2009, 81(1): 2-23.

        [2] FARABET C, COUPRIE C, NAJMAN L, et al. Learning hierarchical features for scene labeling[J]. IEEE transactions on pattern analysis and machine intelligence, 2013, 35(8): 1915-1929.

        [3] SHELHAMER E, LONG J, DARRELL T. Fully convolutional networks for semantic segmentation[J]. IEEE transactions on pattern analysis and machine intelligence, 2017, 39(4): 640-651.

        [4] NOH H, HONG S, HAN B. Learning deconvolution network for semantic segmentation[C]//Proceedings of the IEEE International Conference on Computer Vision. Santiago, Chile, 2015: 1520-1528.

        [5] BADRINARAYANAN V, KENDALL A, CIPOLLA R. Segnet: a deep convolutional encoder-decoder architecture for image segmentation[EB/OL]. 2015,arXiv preprint arXiv:1511.00561, 2015.

        [6] CHEN L C, PAPANDREOU G, KOKKINOS I, et al. Semantic image segmentation with deep convolutional nets and fully connected CRFs[J]. Computer sience, 2014(4): 357-361.

        [7] CHEN L C, PAPANDREOU G, KOKKINOS I, et al. DeepLab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected crfs[J]. IEEE transactions on pattern analysis & machine Intelligence, 2017.

        [8] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[J]. Advances in neural information processing Systems, 2012, 25(2): 2012.

        [9] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[EB/OL]. (2015-4-10) ,arXiv preprint arXiv:1409.1556.

        [10] SZEGEDY C, LIU W, JIA Y, et al. Going deeper with convolutions[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. Boston, USA, 2015: 1-9.

        [11] LAFFERTY J D, MCCALLUM A, PEREIRA F C N. Conditional random fields: probabilistic models for segmenting and labeling sequence data[C]//Eighteenth International Conference on Machine Learning. Morgan Kaufmann Publishers Inc, 2001: 282-289.

        [12] ZHENG S, JAYASUMANA S, ROMERA-PAREDES B, et al. Conditional random fields as recurrent neural networks[C]//Proceedings of the IEEE International Conference on Computer Vision. Santiago, Chile, 2015: 1529-1537.

        [13] LIN G, SHEN C, VAN DEN HENGEL A, et al. Efficient piecewise training of deep structured models for semantic segmentation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA, 2016: 3194-3203.

        [14] LIU F, LIN G, SHEN C. CRF learning with CNN features for image segmentation[J]. Pattern recognition, 2015, 48(10): 2983-2992.

        [15] BYEON W, LIWICKI M, BREUEL T M. Texture classification using 2d lstm networks[C]//2014 22nd International Conference on. Pattern Recognition (ICPR). [S.l.]2014: 1144-1149.

        [16] THEIS L, BETHGE M. Generative image modeling using spatial LSTMs[C]//Advances in Neural Information Processing Systems.[S.l.] 2015: 1927-1935.

        [17] BYEON W, BREUEL T M, RAUE F, et al. Scene labeling with lstm recurrent neural networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Boston, USA, 2015: 3547-3555.

        [18] LIANG X, SHEN X, XIANG D, et al. Semantic object parsing with local-global long short-term memory[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA, 2016: 3185-3193.

        [19] LIANG X, SHEN X, FENG J, et al. Semantic object parsing with graph lstm[C]//European Conference on Computer Vision. Springer International Publishing, 2016: 125-143.

        [20] LI Z, GAN Y, LIANG X, et al. LSTM-CF: Unifying context modeling and fusion with LSTMS for RGB-D scene labeling[C]//European Conference on Computer Vision. Springer International Publishing, 2016: 541-557.

        [21] ZHANG R, YANG W, PENG Z, et al. Progressively Diffused Networks for Semantic Image Segmentation [EB/OL]. [2016-12-20], arXiv preprint arXiv:1702.05839.

        [22] BU S, HAN P, LIU Z, et al. Scene parsing using inference Embedded Deep Networks[J]. Pattern recognition, 2016, 59: 188-198.

        [23] ACHANTA R, SHAJI A, SMITH K, et al. SLIC superpixels compared to state-of-the-art superpixel methods[J]. IEEE transactions on pattern analysis and machine intelligence, 2012, 34(11): 2274-2282.

        [24] HUNTER R S. Photoelectric color difference meter[J]. JOSA, 1958, 48(12): 985-995.

        [25] SMITH T, GUILD J. The CIE colorimetric standards and their use[J]. Transactions of the optical society, 1931, 33(3): 73.

        [26] KOLLER D, FRIEDMAN N. Probabilistic graphical models: principles and techniques[M]. [S.l.]: MIT Press, 2009.

        [27] HINTON G E, SALAKHUTDINOV R R. Reducing the dimensionality of data with neural networks[J]. Science, 2006, 313(5786): 504-507.

        [28] FREUND Y, HAUSSLER D. Unsupervised learning of distributions on binary vectors using two layer networks[C]//Advances in neural information processing systems, 1992: 912-919.

        [29] HINTON G E. Training products of experts by minimizing contrastive divergence[J]. Training, 2006, 14(8).

        [30] HINTON G E, OSINDERO S, TEH Y W. A fast learning algorithm for deep belief nets[J]. Neural computation, 2006, 18(7): 1527-1554.

        [31] BENGIO Y, LAMBLIN P, POPOVICI D, et al. Greedy layer-wise training of deep networks[C]//Advances in Neural Information Processing Systems, 2007: 153-160.

        [32] HINTON G. A practical guide to training restricted Boltzmann machines[J]. Momentum, 2010, 9(1): 926.

        [33] LIU C, YUEN J, TORRALBA A. Nonparametric scene parsing via label transfer[J]. IEEE transactions on pattern analysis and machine intelligence, 2011, 33(12): 2368-2382.

        [34] EVERINGHAM M, ESLAMI S M A, VAN GOOL L, et al. The pascal visual object classes challenge: A retrospective[J]. International journal of computer vision, 2015, 111(1): 98-136.

        [35] LECUN Y A, BOTTOU L, ORR G B, et al. Efficient backprop[M]//Neural networks: Tricks of the trade. Berlin Heidelberg: Springer, 2012: 9-48.

        [36] VEDALDI A, LENC K. Matconvnet: convolutional neural networks for matlab[C]//Proceedings of the 23rd ACM international conference on Multimedia. 2015: 689-692.

        [37] SCHMIDT M. UGM: A Matlab toolbox for probabilistic undirected graphical models [2016-12-20]. [EB/OL]. URL http://www. cs. ubc. ca/schmidtm/Software/UGM. html.

        [38] PERCEPTRON M. DeepLearning 0.1 documentation. [EB/OL].2014,URL http://deeplearning.net/tutorial/

        [39] HARIHARAN B, ARBELáEZ P, BOURDEV L, et al. Semantic contours from inverse detectors[C]//2011 IEEE International Conference on Computer Vision (ICCV). 2011: 991-998.

        [40] LIN T Y, MAIRE M, BELONGIE S, et al. Microsoft coco: Common objects in context[C]//European conference on computer vision. Springer, 2014: 740-755.

        本文引用格式:

        張國(guó)印, 王澤宇, 吳艷霞, 等. 面向場(chǎng)景解析的空間結(jié)構(gòu)化編碼深度網(wǎng)絡(luò)[J]. 哈爾濱工程大學(xué)學(xué)報(bào), 2017, 38(12): 1928-1936.

        ZHANG Guoying, WANG Zeyu, WU Yanxian, et al.Spatial structure encoded deep networks for scene parsing[J]. Journal of Harbin Engineering University, 2017, 38(12): 1928-1936.

        猜你喜歡
        結(jié)構(gòu)化解析物體
        三角函數(shù)解析式中ω的幾種求法
        促進(jìn)知識(shí)結(jié)構(gòu)化的主題式復(fù)習(xí)初探
        結(jié)構(gòu)化面試方法在研究生復(fù)試中的應(yīng)用
        深刻理解物體的平衡
        我們是怎樣看到物體的
        睡夢(mèng)解析儀
        電競(jìng)初解析
        商周刊(2017年12期)2017-06-22 12:02:01
        相機(jī)解析
        基于圖模型的通用半結(jié)構(gòu)化數(shù)據(jù)檢索
        為什么同一物體在世界各地重量不一樣?
        亚洲国产成人精品91久久久 | 国产天堂av在线一二三四| 无码一区二区三区中文字幕| 亚洲av成人无码久久精品| 亚洲ⅤA中文字幕无码| 一区二区三区免费自拍偷拍视频| 插插射啊爱视频日a级| 人妻精品动漫h无码网站| 国产福利酱国产一区二区| 国产99视频一区二区三区| 日本一区二区在线免费视频 | 91成人黄色蘑菇视频| 久久天天躁狠狠躁夜夜av| 久久久噜噜噜久久中文字幕色伊伊| 胳膊肘上有白色的小疙瘩| 麻婆视频在线免费观看| 天堂中文最新版在线中文| 四月婷婷丁香七月色综合高清国产裸聊在线 | 亚洲一区二区日韩在线| 巨爆中文字幕巨爆区爆乳| 久久久久久久岛国免费观看| 精品一区二区三区免费爱| 亚洲发给我的在线视频| 亚洲一区二区三区尿失禁| 99久久精品国产成人综合| 狠狠色欧美亚洲综合色黑a| 国产一区二区三区 在线观看| 国产乱妇无码大片在线观看| 日日干夜夜操高清视频| 人妻av一区二区三区高| 狼人伊人影院在线观看国产| 国模丽丽啪啪一区二区| 国产精品久久久久尤物| 国产激情在线观看视频网址| 亚洲av中文无码乱人伦在线视色 | 亚洲日韩成人无码| 男受被做哭激烈娇喘gv视频| 国产精品伦人视频免费看| 国产亚洲精品一品二品| 亚洲午夜久久久久久久久久| 成人欧美一区二区三区白人|