亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向交通場(chǎng)景解析的局部和全局上下文注意力融合網(wǎng)絡(luò)

        2023-03-24 13:24:46王澤宇布樹輝黃偉鄭遠(yuǎn)攀吳慶崗張旭
        計(jì)算機(jī)應(yīng)用 2023年3期
        關(guān)鍵詞:結(jié)構(gòu)化特征提取全局

        王澤宇,布樹輝,黃偉,鄭遠(yuǎn)攀,吳慶崗,張旭

        (1.鄭州輕工業(yè)大學(xué) 計(jì)算機(jī)與通信工程學(xué)院,鄭州 450002;2.西北工業(yè)大學(xué) 航空學(xué)院,西安 710072)

        0 引言

        場(chǎng)景解析[1]作為計(jì)算機(jī)視覺方向的基礎(chǔ)工作,它的核心技術(shù)問(wèn)題是如何準(zhǔn)確地為圖像中的每個(gè)像素分類。高精度的場(chǎng)景解析對(duì)于機(jī)器人任務(wù)規(guī)劃[2]、自動(dòng)駕駛[3]以及語(yǔ)義SLAM(Simultaneous Localization And Mapping)[4]等智能計(jì)算機(jī)視覺任務(wù)的實(shí)現(xiàn)至關(guān)重要。真實(shí)的場(chǎng)景復(fù)雜多變,特別是交通場(chǎng)景,圖像中不僅包含多個(gè)不同類別的物體,而且物體的空間位置并不固定。因此,高精度的場(chǎng)景解析需要解決如下3 個(gè)問(wèn)題:1)如何有效地提取圖像中物體的視覺外觀信息;2)如何準(zhǔn)確地推理物體的全局上下文信息;3)如何自適應(yīng)地完成上述兩類特征的融合。

        文獻(xiàn)[5]首次基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)提出面向場(chǎng)景解析的全卷積網(wǎng)絡(luò)(Fully Convolutional Network,F(xiàn)CN),并通過(guò)有效的視覺特征提取獲得巨大成功。但是,CNN 卷積核的感知域較小,空間結(jié)構(gòu)化學(xué)習(xí)能力較弱,提取的視覺特征一般缺少全局上下文信息。條件隨機(jī)場(chǎng)(Conditional Random Field,CRF)作為CNN 的后端,通過(guò)優(yōu)化圖模型上定義的能量函數(shù),使特征相近的相鄰物體類別相同,相差較大的類別不同,從而實(shí)現(xiàn)場(chǎng)景解析的一致性和平滑性優(yōu)化[6]。另外,由于具有門和存儲(chǔ)結(jié)構(gòu)的長(zhǎng)短期記憶(Long Short-Term Memory,LSTM)網(wǎng)絡(luò)可以模擬人腦的機(jī)制記憶和遺忘信息,因此將LSTM 加入CNN 的后端,從而通過(guò)逐像素地遍歷圖像視覺特征以獲取物體間的空間依賴關(guān)系[7]。此外,PSPN(Pyramid Scene Parsing Network)[8]、DASPP(Densely connected Atrous Spatial Pyramid Pooling)[9]、DeepLab(Deep Labelling)[10]和多層 多尺度 注意力網(wǎng)絡(luò)(Hierarchical Multi-scale Attention Network,HMAN)[11]等方法通過(guò)具有多尺度感受野的空洞空間金字塔池化單元提取物體所處場(chǎng)景的局部和全局上下文信息,避免了單一視覺特征可能導(dǎo)致的分類錯(cuò)誤。但是,上述方法在上下文信息推理過(guò)程中沒有充分考慮全局場(chǎng)景的空間結(jié)構(gòu)化特征與局部對(duì)象自身的視覺外觀特征間的相關(guān)性,導(dǎo)致全局噪聲信息融入視覺特征當(dāng)中,影響分類特征的魯棒性。

        為了解決此問(wèn)題,基于注意力機(jī)制[12]的全局上下文信息推理方法[13-31]在場(chǎng)景解析研究中應(yīng)用廣泛。文獻(xiàn)[13]中提出了基于空間和通道注意力模塊的雙注意力網(wǎng)絡(luò)(Dual Attention Network,DAN),根據(jù)物體的視覺外觀特點(diǎn)自適應(yīng)地聚合全局上下文信息。門控金字塔網(wǎng)絡(luò)(Gated Pyramid Network,GPN)[19]通過(guò)門控金字塔模塊過(guò)濾全局噪聲信息,保證了融合生成特征的質(zhì)量。上下文先驗(yàn)網(wǎng)絡(luò)(Context Prior Network,CPN)[16]內(nèi)嵌基于親和損失的上下文先驗(yàn)層,根據(jù)親和損失監(jiān)督學(xué)習(xí)的上下文先驗(yàn)知識(shí)有選擇性地獲取類別內(nèi)和類別間的上下文依賴關(guān)系,從而提升特征表示的魯棒性。語(yǔ)義約束的注意力細(xì)化網(wǎng)絡(luò)(Semantic Constrained Attention Refinement Network,SCARN)[18]通過(guò)語(yǔ)義約束的注意力機(jī)制有效地學(xué)習(xí)類別內(nèi)的上下文依賴關(guān)系,有效地增強(qiáng)了整個(gè)物體特征信息的一致性。另外,對(duì)象上下文表示網(wǎng)絡(luò)(Object Contextual Representation Network,OCRN)[14]基于對(duì)象上下文表示實(shí)現(xiàn)像素上下文的有效聚合。該方法首先初步分割場(chǎng)景中的物體并聚合得到對(duì)象上下文表示;然后計(jì)算像素自身特征與場(chǎng)景中每個(gè)對(duì)象上下文表示的相關(guān)性;最后根據(jù)相關(guān)聯(lián)程度自適應(yīng)地聚合對(duì)象上下文信息,從而有效地增強(qiáng)每個(gè)像素的特征表示,并取得較優(yōu)的場(chǎng)景解析準(zhǔn)確率。但是,上述方法未充分考慮全局場(chǎng)景的空間結(jié)構(gòu)化特性,如:騎手和行人的上方一般是天空,而騎手和行人的下方分別是自行車和道路,如何有效地聚合騎手和行人下方的上下文信息是區(qū)分騎手和行人的關(guān)鍵。而現(xiàn)有方法直接自適應(yīng)聚合所有像素的上下文信息,從而由于依賴關(guān)系過(guò)度復(fù)雜而無(wú)法有效聚合有用上下文信息并屏蔽噪聲上下文信息,進(jìn)而影響聚合后特征表示的質(zhì)量,甚至導(dǎo)致分類錯(cuò)誤。

        本文面向復(fù)雜交通場(chǎng)景提出局部和全局上下文注意力融合網(wǎng)絡(luò)(Local and Global Context Attentive Fusion Network LGCAFN),LGCAFN 由特征提取模塊、結(jié)構(gòu)化學(xué)習(xí)模塊和特征融合模塊構(gòu)成。主要工作如下:

        1)基于串聯(lián)空洞空間金字塔池化(Cascaded Atrous Spatial Pyramid Pooling,CASPP)單元改進(jìn)了ResNet-101[32],通過(guò)增大感知域來(lái)提取物體不同尺度的局部上下文信息。

        2)通過(guò)8 路LSTM 分支分別在8 個(gè)不同的方向上逐像素地遍歷多尺度局部特征,從而顯式地學(xué)習(xí)8 個(gè)不同場(chǎng)景區(qū)域的全局上下文信息,推理生成的空間結(jié)構(gòu)化特征能夠全面而準(zhǔn)確地描述全局場(chǎng)景的結(jié)構(gòu)化特性。

        3)將物體鄰近8 個(gè)不同場(chǎng)景區(qū)域的全局上下文信息與它自身局部視覺外觀信息的相關(guān)性進(jìn)行加權(quán)特征融合,自適應(yīng)聚合生成的多模態(tài)融合特征能夠高質(zhì)量地表達(dá)物體的綜合語(yǔ)義信息。

        在Cityscapes 數(shù)據(jù)集[33]上進(jìn)行對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,LGCAFN 能夠提升交通場(chǎng)景解析的準(zhǔn)確率。

        1 局部和全局上下文注意力融合網(wǎng)絡(luò)

        LGCAFN 共包含3 個(gè)部分:特征提取模塊、結(jié)構(gòu)化學(xué)習(xí)模塊和特征融合模塊。特征提取模塊由ResNet-101 構(gòu)成,在此基礎(chǔ)上,修改ResNet-101 第2~5 層的結(jié)構(gòu)為CASPP,從而通過(guò)級(jí)聯(lián)改進(jìn)ResNet-101 各層的輸出特征,以提取物體的多尺度局部特征。結(jié)構(gòu)化學(xué)習(xí)模塊由8 路LSTM 分支組成,8 路LSTM 分支分別在8 個(gè)不同的方向上逐像素地遍歷多尺度局部特征,從而學(xué)習(xí)物體鄰近8 個(gè)不同場(chǎng)景區(qū)域的全局上下文信息,進(jìn)而推理生成空間結(jié)構(gòu)化特征。特征融合模塊采用3階段特征融合方式對(duì)物體的多尺度局部特征和空間結(jié)構(gòu)化特征依次進(jìn)行基于多層卷積操作的降維融合、基于注意力機(jī)制的加權(quán)融合以及基于反池化和反卷積操作的解碼融合,最后利用Softmax 分類器根據(jù)自適應(yīng)聚合的多模態(tài)融合特征逐像素地標(biāo)注交通場(chǎng)景類別。LGCAFN 的框架如圖1 所示。

        圖1 局部和全局上下文注意力融合網(wǎng)絡(luò)Fig.1 Local and global context attentive fusion network

        1.1 基于串聯(lián)空洞空間金字塔池化單元的特征提取模塊

        特征提取模塊通過(guò)改進(jìn)的ResNet-101 提取輸入RGB 圖像的多尺度局部特征(Multi-scale Local Features,MLF),圖2為多尺度局部特征的提取過(guò)程。原始的ResNet-101 共包含5層:第1 層由7×7 卷積操作(Conv)和3×3 最大池化操作(maxpool)組成;第2~5 層分別由兩類殘差卷積單元(Residual Convolution Unit,RCU)構(gòu)成,RCU1 和RCU2 均由1×1、3×3 和1×1 卷積操作堆疊而成[32]。為進(jìn)一步增大特征提取模塊的感知域,將ResNet-101 第1 層中7×7 卷積改為空洞卷積操作,并修改RCU1、RCU2 內(nèi)的3×3 卷積操作為稀疏采樣率可自設(shè)定的空洞卷積操作,從而改進(jìn)ResNet-101 第2~5層為稀疏采樣率順序遞增的CASPP。

        圖2 基于CASPP單元的特征提取模塊Fig.2 Feature extraction module based on CASPP unit

        特征提取模塊采用端到端的方式逐層提取特征,模塊中第l層的輸出特征可以定義為如下形式:

        其中:I為輸入RGB 圖像;FlMLF為特征提取模塊第l層的輸出特征;Conv1和maxpool 為第1 層中的7×7 空洞卷積與3×3 最大池化;r1為Conv1的稀疏采樣率;Casppl為第l層CASPP 單元對(duì)應(yīng)的操作;rl為Casppl中3×3 卷積對(duì)應(yīng)的稀疏采樣率組。

        為了提取RGB 圖像的多尺度局部特征,首先通過(guò)上采樣提取各層的輸出特征,使新生特征尺寸為輸入圖像尺寸的1/4,然后級(jí)聯(lián)各層上采樣后的特征并送入多層卷積操作進(jìn)行特征降維,從而生成RGB 圖像的多尺度局部特征FMLF:

        其中:Conv2表示3層1×1 卷積操作;n、H/4和W/4分別為多尺度局部特征的維數(shù)、高度和寬度;表示上采樣操作,nl為特征提取模塊第l層輸出特征的維數(shù)。

        多尺度局部特征中的像素(i,j)的特征可以表示為:

        為了提取物體高質(zhì)量的視覺特征表示,本文在特征提取模塊各層采用稀疏采樣率順序遞增的CASPP 單元,以顯著地增大特征提取模塊的感知域,從而使模塊各層的輸出特征包含更加豐富的局部上下文信息。通過(guò)級(jí)聯(lián)各層輸出特征得到的多尺度局部特征由物體不同抽象級(jí)別的局部上下文信息組成,能夠更加準(zhǔn)確地描述物體的視覺外觀特點(diǎn)。

        1.2 基于8路長(zhǎng)短期記憶網(wǎng)絡(luò)分支的結(jié)構(gòu)化學(xué)習(xí)模塊

        為有效學(xué)習(xí)全局場(chǎng)景的空間結(jié)構(gòu)化特性,將物體所處全局場(chǎng)景劃分為上、下、左、右、左上、右下、右上和左下8 個(gè)不同區(qū)域,并采用8 路LSTM[7]分支顯式地推理物體鄰近8 個(gè)不同區(qū)域的全局上下文信息,進(jìn)而通過(guò)級(jí)聯(lián)不同區(qū)域的上下文信息獲取物體的空間結(jié)構(gòu)化特征(Spatial Structural Features,SSF)。圖3 為SSF 的推理過(guò)程。8 路LSTM 分支均包含5 層單向的LSTM 單元,分別在8 個(gè)不同方向上逐像素遍歷特征提取模塊輸出的多尺度局部特征:1)從上到下(↓);2)從下到上(↑);3)從左到右(→);4)從右到左(←);5)從左上到右下(↘);6)從右下到左上(↖);7)從右上到左下(↙);8)從左下到右上(↗)。結(jié)構(gòu)化學(xué)習(xí)模塊的處理流程可表示為如下形式,其中,b∈Z:

        圖3 基于8路LSTM分支的結(jié)構(gòu)化學(xué)習(xí)模塊Fig.3 Structural learning module based on eight LSTM branches

        其中:LSTMl↓(LSTMl↑)為從上(下)到下(上)遍歷分支中的第l層LSTM 單元的操作,對(duì)圖像中每列i=b按j值遞增(遞減)的順序逐像素遍歷;LSTMl→(LSTMl←)為從左(右)到右(左)遍歷分支中的第l層LSTM 單元的操作,對(duì)圖像中每行j=b按i值遞增(遞減)的順序逐像素遍歷;LSTMl↘(LSTMl↖)為從左上(右下)到右下(左上)遍歷分支中的第l層LSTM 單元的操作,對(duì)圖像中每條斜線i=j-b按j值遞增(遞減)的順序逐像素遍歷;LSTMl↙(LSTMl↗)為從右上(左下)到左下(右上)遍歷分支中的第l層LSTM 單元的操作,對(duì)圖像中每條斜線j=-i+b按i值遞減(遞增)的順序逐像素遍歷;hl,i,j↓、hl,i,j↑、hl,i,j→、hl,i,j←、hl,i,j↘、hl,i,j↖、hl,i,j↙和hl,i,j↗分別表示第l層LSTMl↓、LSTMl↑、LSTMl→、LSTMl←、LSTMl↘、LSTMl↖、LSTMl↙和LSTMl↗的隱藏層狀態(tài);dl為第l層各LSTM單元隱藏層狀態(tài)的維數(shù);多尺度局部特征fi,jMLF表示第1 層各LSTM 單元的輸入;hl-1,i,j表示第(l2≤l≤5)層各LSTM 單元的輸入特征,它由第l-1 層各LSTM 單元隱藏層狀態(tài)級(jí)聯(lián)降維構(gòu)成。

        假設(shè)從上到下遍歷分支中的第l層LSTMl↓,對(duì)于遍歷到的像素(i,j),LSTMl↓計(jì)算它的全局上下文信息(隱藏層狀態(tài))hl,i,j↓的過(guò)程可以定義為如下形式:

        物體的空間結(jié)構(gòu)化特征由鄰近8 個(gè)不同區(qū)域(上、下、左、右、左上、右下、右上和左下)的全局上下文信息組成,能夠全面而準(zhǔn)確地描述物體所處全局場(chǎng)景的空間結(jié)構(gòu)化特性。當(dāng)語(yǔ)義類別間的物體具有相似的視覺外觀信息時(shí)(如行人和騎手),LGCAFN 就可以結(jié)合物體鄰近場(chǎng)景區(qū)域的全局上下文信息準(zhǔn)確地區(qū)分物體的類別;同時(shí),當(dāng)語(yǔ)義類別內(nèi)的物體整體特征信息不一致時(shí)(如地面上有樹影的馬路),LGCAFN又能夠依據(jù)物體所處全局場(chǎng)景的結(jié)構(gòu)化特性避免分類錯(cuò)誤。

        1.3 基于注意力機(jī)制的3階段特征融合模塊

        經(jīng)過(guò)特征提取模塊和結(jié)構(gòu)化學(xué)習(xí)模塊的學(xué)習(xí),LGCAFN分別生成物體的多尺度局部特征MLF 和空間結(jié)構(gòu)化特征SSF。為了實(shí)現(xiàn)上述2 類模態(tài)特征的自適應(yīng)融合,本文首先采用多層卷積操作將物體的多尺度局部特征依次與8 個(gè)鄰近場(chǎng)景區(qū)域推理的空間結(jié)構(gòu)化特征進(jìn)行第1 次降維融合,從而有效地挖掘2 類特征之間存在的復(fù)雜非線性關(guān)系;然后,根據(jù)2 類模態(tài)特征之間的相關(guān)性自適應(yīng)地賦予8 個(gè)不同方向上的降維融合特征對(duì)應(yīng)的權(quán)重,并基于注意力機(jī)制對(duì)8 個(gè)方向上的降維融合特征進(jìn)行第2 次加權(quán)融合,從而有效地實(shí)現(xiàn)物體鄰近8 個(gè)不同場(chǎng)景區(qū)域上下文信息的自適應(yīng)聚合;最后,將加權(quán)融合特征和特征提取模塊前2 層輸出的低抽象級(jí)別局部特征級(jí)聯(lián),并通過(guò)多層反池化和反卷積操作進(jìn)行第3次解碼融合,從而準(zhǔn)確地解碼還原出每個(gè)像素的綜合化語(yǔ)義信息。圖4 展示了特征融合模塊的原理。

        圖4 基于注意力機(jī)制的3階段特征融合模塊Fig.4 Three-stage feature fusion module based on attention mechanism

        首先,將每個(gè)像素(i,j)的多尺度局部特征依次與8 個(gè)方向上推理的空間結(jié)構(gòu)化特征級(jí)聯(lián),并采用共享參數(shù)的3 層1×1 卷積操作對(duì)8 個(gè)方向上級(jí)聯(lián)的混合特征作第1 次降維融合,可以表示為如下形式:

        然后,利用Softmax 函數(shù)分別計(jì)算不同方向上的降維融合特征對(duì)應(yīng)的注意力權(quán)重

        其中:e2為注意力權(quán)重的維數(shù);[0,1]為權(quán)重的取值范圍。

        對(duì)8 個(gè)不同方向上的降維融合特征進(jìn)行加權(quán)求和,從而生成以下特征:

        最后,本文級(jí)聯(lián)加權(quán)融合特征和特征提取模塊前2 層輸出的低抽象級(jí)別局部特征,并通過(guò)反池化和反卷積操作解碼還原出物體的多模態(tài)融合特征(Multi-modal Fusion Features,MFF),進(jìn)而利用Softmax 函數(shù)對(duì)RGB 圖像逐像素地標(biāo)注語(yǔ)義類別。上述解碼融合過(guò)程可以表示為如下的形式:

        其中:unpool 表示反池化操作;deconv 表示反卷積操作;FMFF表示RGB 圖像的多模態(tài)融合特征;e3表示多模態(tài)融合特征的維數(shù);F1MLF和F2MLF分別表示特征提取模塊第1 和2 層的輸出特征;P表示語(yǔ)義分類概率;K表示語(yǔ)義類別個(gè)數(shù)。

        本文的特征融合模塊不僅能夠準(zhǔn)確地聚合有用的上下文信息,而且可以有效地避免全局噪聲信息的引入,聚合生成的多模態(tài)融合特征不僅含有物體自身的視覺外觀信息,而且包含與它相關(guān)性較高的鄰近場(chǎng)景區(qū)域的全局上下文信息,從而較為準(zhǔn)確地表示物體的綜合語(yǔ)義。

        2 實(shí)驗(yàn)與結(jié)果分析

        2.1 訓(xùn)練數(shù)據(jù)集和性能評(píng)價(jià)標(biāo)準(zhǔn)

        為了評(píng)價(jià)LGCAFN,在標(biāo)準(zhǔn)交通場(chǎng)景RGB 數(shù)據(jù)集Cityscapes[33]上進(jìn)行性能測(cè)試。Cityscapes 數(shù)據(jù)集共包含5 000 張高分辨率(1 024×2 048)的交通場(chǎng)景圖像,訓(xùn)練、驗(yàn)證與測(cè)試圖像分別有2 975、500、1 525 張。該數(shù)據(jù)集共包含9.43×109個(gè)細(xì)粒度標(biāo)注的像素,被標(biāo)記為19 個(gè)交通場(chǎng)景語(yǔ)義類別。為進(jìn)一步提升網(wǎng)絡(luò)性能,使用Cityscapes 擴(kuò)展數(shù)據(jù)集[11]進(jìn)行訓(xùn)練,擴(kuò)展集包含20 000 張自動(dòng)標(biāo)注的圖像,從而確保各語(yǔ)義類別分布的均衡性。另外,使用平均交并比(mean Intersection over Union,mIoU)評(píng)價(jià)場(chǎng)景解析[5]。

        2.2 實(shí)驗(yàn)環(huán)境和參數(shù)設(shè)置

        本文基于開源的深度學(xué)習(xí)開發(fā)框架TensorFlow[34]編碼實(shí)現(xiàn)LGCAFN,并在一臺(tái)2 顆2.4 GHz Intel Xeon Silver 4214R CPU(2×12 Cores),24 GB NVIDIA GeForce GTX 3090 GPU 以及128 GB 內(nèi)存的計(jì)算機(jī)上進(jìn)行訓(xùn)練和測(cè)試。在訓(xùn)練階段,本文定義目標(biāo)函數(shù)為多類別交叉熵?fù)p失[5],并利用反向傳播算法[35]實(shí)現(xiàn)LGCAFN 各層的聯(lián)合優(yōu)化。

        在特征提取模塊通過(guò)CASPP 單元改進(jìn)的ResNet-101[32]提取物體的多尺度局部特征。首先,設(shè)定網(wǎng)絡(luò)第1 層內(nèi)7×7卷積操作的稀疏采樣率為2;并設(shè)定第2~5 層中3×3 卷積操作組對(duì)應(yīng)的稀疏采樣率組分別為(2,4,8),(2,4,8,16),(2,4_6,8_4,8_4,16_4,24_4)和(4,8,16)。隨后使用ImageNet數(shù)據(jù)集訓(xùn)練的公用參數(shù)模型resnet_v1_101_2016_08_28[32]初始化特征提取模塊的參數(shù),同時(shí)設(shè)置該模塊的學(xué)習(xí)率為5×10-4;上采樣改進(jìn)ResNet-101 各層的輸出特征,各層輸出特征的維數(shù)分別為64、256、512、1024 和2 048;最后,級(jí)聯(lián)各層上采樣后的特征,并將級(jí)聯(lián)后的特征送入3 層1×1 卷積進(jìn)行降維,各卷積層輸出特征的維數(shù)分別為2 048、1 024 和512。

        在結(jié)構(gòu)化學(xué)習(xí)模塊,本文通過(guò)8 路LSTM 分支學(xué)習(xí)物體鄰近8 個(gè)不同場(chǎng)景區(qū)域的全局上下文信息,從而生成空間結(jié)構(gòu)化特征。每路LSTM 分支均由5 個(gè)單向的LSTM 單元堆疊而成,各單向LSTM 單元輸出的隱藏層狀態(tài)的維數(shù)分別為512、256、128、256 和512。本文在[-0.05,0.05]的均勻分布下隨機(jī)地初始化8 路LSTM 分支的網(wǎng)絡(luò)參數(shù),并設(shè)定結(jié)構(gòu)化學(xué)習(xí)模塊的學(xué)習(xí)率為10-3。

        在特征融合模塊,本文首先通過(guò)級(jí)聯(lián)的3 層1×1 卷積操作將多尺度局部特征依次與8 個(gè)鄰近場(chǎng)景區(qū)域內(nèi)學(xué)習(xí)的空間結(jié)構(gòu)化特征進(jìn)行第1 次降維融合,各卷積層輸出特征的維數(shù)分別為512、256 和256;然后,利用Softmax 分別計(jì)算8 個(gè)方向上降維融合特征對(duì)應(yīng)的注意力權(quán)重,并基于注意力機(jī)制對(duì)8 個(gè)方向上的降維融合特征加權(quán)求和,從而完成第2 次加權(quán)融合;接著,級(jí)聯(lián)加權(quán)融合特征和特征提取模塊第1、2 層輸出的低抽象級(jí)別局部特征,并通過(guò)2 層2×2 反池化和3×3 反卷積操作對(duì)級(jí)聯(lián)后的特征進(jìn)行第3 次解碼融合,解碼生成的多模態(tài)融合特征的維數(shù)為128;最后,利用Softmax 分類器并根據(jù)多模態(tài)融合特征逐像素地標(biāo)注RGB 圖像的語(yǔ)義標(biāo)簽。本文在均值為0、標(biāo)準(zhǔn)差為0.05 的正態(tài)分布下初始化各卷積層的網(wǎng)絡(luò)參數(shù),同時(shí)設(shè)置特征融合模塊的學(xué)習(xí)率為5×10-4。

        在完成LGCAFN 的網(wǎng)絡(luò)參數(shù)和學(xué)習(xí)率配置后,設(shè)置LGCAFN 的訓(xùn)練 參數(shù)為:batch_size=8,momentum=0.9,weight_decay=10-4,epoch=500,并采用隨機(jī)梯度下降算法[36]優(yōu)化LGCAFN 的網(wǎng)絡(luò)參數(shù)。

        在測(cè)試階段,本文將測(cè)試圖像依次輸入LGCAFN,并在LGCAFN 的網(wǎng)絡(luò)參數(shù)指導(dǎo)下依次輸出圖像的場(chǎng)景解析結(jié)果。

        2.3 實(shí)驗(yàn)結(jié)果與分析

        2.3.1 與當(dāng)前先進(jìn)方法的對(duì)比實(shí)驗(yàn)結(jié)果

        在Cityscapes 原始數(shù)據(jù)集上,將LGCAFN 與OCRN[14]、基于空間金字塔的圖推理網(wǎng)絡(luò)(Spatial Pyramid Based Graph Reasoning Network,SPBGRN)[15]、CPN[16]、語(yǔ)義邊界增強(qiáng)和定位網(wǎng)絡(luò)(Semantic Boundary Enhancement and Position Network,SBEPN)[17]、SCARN[18]、GPN[19]、通道化軸向注意力網(wǎng)絡(luò)(Channelized Axial Attention Network,CAAN)[20]、行列注意力網(wǎng)絡(luò)(Row-Column Attention Network,RCAN)[21]、上下文集成網(wǎng)絡(luò)(Contextual Ensemble Network,CEN)[22]和統(tǒng)計(jì)紋理學(xué)習(xí)網(wǎng)絡(luò)(Statistical Texture Learning Network,STLN)[29]等方法進(jìn)行比較;添加了Cityscapes 擴(kuò)展數(shù)據(jù)集后,將LGCAFN 與HMAN[11]、擴(kuò)展殘 差網(wǎng)絡(luò)(Scaling Wide Residual Network,SWRN)[30]和逆變 換網(wǎng)絡(luò)(Inverse Transformation Network,ITN)[31]等進(jìn)行比較。HMAN、OCRN、RCAN 和ITN 等采用HRNet-W48(48-Width High Resolution Network)[37]作為主干網(wǎng) 絡(luò),SWRN采用SWideRNet-(1,1,4.5)(Scaling Wide Residual Network with factors(1,1,4.5))[30]作為主干網(wǎng)絡(luò),其他方法采用ResNet-101 作為主干網(wǎng)絡(luò)。對(duì)比結(jié)果如表1所示。

        在僅使用Cityscapes 原始數(shù)據(jù)集進(jìn)行訓(xùn)練時(shí),LGCAFN的平均mIoU 為84.0%,相較于次優(yōu)的OCRN 提升了0.7 個(gè)百分點(diǎn),而且在12 種語(yǔ)義類別上的mIoU 取得了最優(yōu)。使用Cityscapes 擴(kuò)展數(shù)據(jù)集后,LGCAFN 的平均mIoU 為86.3%,取得了最優(yōu);同時(shí)在14 種類別的mIoU 取得了最優(yōu)。值得注意的是:1)LGCAFN 在圍欄、桿、信號(hào)燈和交通標(biāo)識(shí)等尺寸較小的語(yǔ)義類別上均取得了最優(yōu)的mIoU,一方面說(shuō)明基于CASPP 單元的特征提取模塊能夠有效地保留尺寸較小物體的視覺細(xì)節(jié)信息;另一方面說(shuō)明基于注意力機(jī)制和解碼結(jié)構(gòu)的特征融合模塊不僅能準(zhǔn)確聚合有用的局部和全局上下文信息,而且能有效避免引入全局噪聲信息,確保聚合生成的多模態(tài)融合特征的魯棒性。2)LGCAFN 在較易混淆的語(yǔ)義類別(如行人和騎手、摩托車和自行車)上也取得了最優(yōu)的分割結(jié)果,一方面說(shuō)明基于8 路LSTM 分支的結(jié)構(gòu)化學(xué)習(xí)模塊能準(zhǔn)確學(xué)習(xí)物體鄰近8 個(gè)不同場(chǎng)景區(qū)域的全局上下文信息;另一方面也說(shuō)明基于注意力機(jī)制的特征融合模塊可以根據(jù)物體自身局部特征和所處場(chǎng)景全局特征的相關(guān)性自適應(yīng)地聚合有用上下文信息。相較于先進(jìn)方法,LGCAFN 能夠更加有效地自適應(yīng)聚合物體所處全局場(chǎng)景的上下文信息,生成的特征表示可以更加全面準(zhǔn)確地表達(dá)物體的綜合語(yǔ)義信息。

        本文以浮點(diǎn)數(shù)參數(shù)量和解析1 024×2 048 分辨率圖像所需浮點(diǎn)運(yùn)算量作為網(wǎng)絡(luò)模型復(fù)雜度的評(píng)價(jià)標(biāo)準(zhǔn),不同方法的對(duì)比結(jié)果如表2 所示??梢钥闯觯琇GCAFN 不僅具有最小的參數(shù)量,而且具有較低的單幀圖像預(yù)測(cè)運(yùn)算量,說(shuō)明LGCAFN 模型尺寸較小且預(yù)測(cè)延遲較低。另外,LGCAFN 具有最優(yōu)的mIoU,從而證明LGCAFN 可以較好地平衡準(zhǔn)確性和復(fù)雜度。

        表2 在Cityscapes數(shù)據(jù)集的模型復(fù)雜度對(duì)比Tab.2 Model complexity comparison on Cityscapes dataset

        2.3.2 消融學(xué)習(xí)

        在表3 中,Baseline 為原始ResNet-101,Baseline+CASPP表示加入CASPP 單元模型,Baseline+CASPP+LSTM 表示添加基于8 路LSTM 分支的結(jié)構(gòu)化學(xué)習(xí)模塊后的模型,Baseline+CASPP+LSTM+Attention 為添加基于注意力機(jī)制的模型。

        表3 Cityscapes數(shù)據(jù)集上的消融學(xué)習(xí) 單位:%Tab.3 Ablation study on Cityscapes dataset unit:%

        可以看出:1)相較于Baseline,Baseline+CASPP 的mIoU提高2.8 個(gè)百分點(diǎn),說(shuō)明CASPP 單元能夠顯著增大特征提取模塊的感知域,使提取的多尺度局部特征能夠更加準(zhǔn)確地描述物體的視覺外觀特點(diǎn);2)相較于Baseline+CASPP,Baseline+CASPP+LSTM 的mIoU 提高了2.4 個(gè)百分點(diǎn),說(shuō)明結(jié)構(gòu)化學(xué)習(xí)模塊能通過(guò)8 路LSTM 分支顯式地學(xué)習(xí)物體鄰近8個(gè)不同場(chǎng)景區(qū)域的全局上下文信息,推理生成的空間結(jié)構(gòu)化特征能更加準(zhǔn)確地描述物體所處全局場(chǎng)景的結(jié)構(gòu)化特性;3)Baseline+CASPP+LSTM+Attention 取得了最優(yōu)的mIoU,說(shuō)明基于注意力機(jī)制的3 階段特征融合模塊不僅能自適應(yīng)地聚合物體鄰近8 個(gè)場(chǎng)景區(qū)域的有效上下文信息,而且能避免引入相關(guān)性較弱的全局噪聲信息,聚合生成的多模態(tài)融合特 征能更加準(zhǔn)地表達(dá)物體的綜合語(yǔ)義信息。

        2.3.3 特征提取模塊的稀疏采樣率設(shè)置學(xué)習(xí)

        假設(shè)特征提取模塊(基于CASPP 單元改進(jìn)的ResNet-101)中第1 層的7× 7 大小的空洞卷積的稀疏采樣率為r1,第2 到5 層中的3× 3 大小的空洞卷積組對(duì)應(yīng)的稀疏采樣率組依次為r2、r3、r4和r5。本文在Cityscapes 原始數(shù)據(jù)集(不包含擴(kuò)展數(shù)據(jù)集)上學(xué)習(xí)不同的稀疏采樣率設(shè)置ResNet-101(r1,r2,r3,r4,r5)對(duì)特征提取模塊的性能影響,如表4 所示。由于ResNet-101 第4 層中共包含多達(dá)23 個(gè)3× 3 空洞卷積,因此本文將它們分為6 組,每組的空洞卷積個(gè)數(shù)分別為1、6、4、4、4 和4(用下劃線后的數(shù)字表示),并為每組空洞卷積設(shè)置相同的稀疏采樣率(用下劃線前的數(shù)字表示)。

        從表4 可以看出:1)如果為所有空洞卷積均設(shè)置相同的稀疏采樣率(方法1),隨著稀疏采樣率由1 逐步增大到8,模塊的mIoU 由77.6%逐步提升到78.9%,說(shuō)明增大采樣率能夠顯著地增大卷積核的感知域,從而獲取更豐富的局部上下文信息;但是,如果稀疏采樣率設(shè)置為更大的16 或24,雖然卷積核的感知域進(jìn)一步增大,但是模塊的性能卻開始下降,說(shuō)明在較低層次的ResNet-101 中,如果稀疏采樣率過(guò)大,即卷積核的感知域過(guò)大,會(huì)無(wú)法有效地學(xué)習(xí)物體的視覺細(xì)節(jié)信息,從而影響特征表示的質(zhì)量。2)僅為ResNet-101 每層中的空洞卷積組設(shè)置相同的稀疏采樣率(方法2),而對(duì)于不同層中的空洞卷積,在較低層次則設(shè)置較小的采樣率,反之設(shè)置較大的采樣率。相較于方法1 的ResNet-101(2,(4,4,4),(8,8,8,8),(8,8_6,8_4,8_4,8_4,8_4),(16,16,16)),方法2 的mIoU 提升了0.6 個(gè)百分點(diǎn),說(shuō)明該設(shè)置下的模塊不僅能利用低層次網(wǎng)絡(luò)中感知域較小的空洞卷積提取物體的視覺細(xì)節(jié)信息,而且可以通過(guò)高層次網(wǎng)絡(luò)中感知域較大的空洞卷積獲取物體的局部上下文信息。3)為ResNet-101 每層中的空洞卷積組設(shè)置順序遞增的稀疏采樣率(方法3),即將各層的結(jié)構(gòu)修改為CASPP 單元。相較于前2 種方法,方法3 取得了最優(yōu)的性能,說(shuō)明基于CASPP 單元的特征提取模塊能有效地避免特征提取過(guò)程中有用視覺信息的丟失,從而更加全面地表達(dá)物體的視覺特點(diǎn)。

        2.3.4 結(jié)構(gòu)化學(xué)習(xí)模塊的消融學(xué)習(xí)

        在Cityscapes 數(shù)據(jù)集(不包含擴(kuò)展數(shù)據(jù)集)上通過(guò)消融學(xué)習(xí)驗(yàn)證3 種不同的LSTM 遍歷方式對(duì)LGCAFN 的性能影響,結(jié)果如表5 所示??梢钥闯觯合噍^于前2 種遍歷方式,第3 種遍歷方式取得了最優(yōu)的mIoU,說(shuō)明基于8 路LSTM 分支的結(jié)構(gòu)化學(xué)習(xí)模塊可以顯式地學(xué)習(xí)物體鄰近8 個(gè)不同場(chǎng)景區(qū)域的全局上下文信息,推理生成的空間結(jié)構(gòu)化特征能夠更加準(zhǔn)確地表達(dá)物體所處全局場(chǎng)景的結(jié)構(gòu)化特性。

        表5 不同LSTM遍歷方式對(duì)性能的影響 單位:%Tab.5 Effect of different LSTM traversal methods on performance unit:%

        2.3.5 特征融合模塊的消融學(xué)習(xí)

        在Cityscapes 數(shù)據(jù)集(不包含擴(kuò)展數(shù)據(jù)集)上通過(guò)消融學(xué)習(xí)驗(yàn)證3 種不同融合方式對(duì)LGCAFN 的性能影響,如表6 所示。Concatenation 為直接級(jí)聯(lián)多尺度局部特征和空間結(jié)構(gòu)化特征后送入6 層1×1 卷積操作進(jìn)行融合的方式;Elementwise addition 為替換特征融合模塊中第2 次加權(quán)融合為點(diǎn)加融合的方式,即令各方向上的注意力權(quán)重相同;Attention mechanism 表示本文的基于注意力機(jī)制的3 階段融合方式。

        從消融學(xué)習(xí)中可以發(fā)現(xiàn):基于注意力機(jī)制的3 階段特征融合方式使LGCAFN 取得最優(yōu)的mIoU,說(shuō)明本文的特征融合方式不僅能夠有效地挖掘多尺度局部特征和空間結(jié)構(gòu)化特征之間存在的復(fù)雜非線性關(guān)系,而且可以根據(jù)2 類模態(tài)特征之間的相關(guān)性自適應(yīng)地聚合有用信息和屏蔽噪聲信息,進(jìn)而基于低抽象級(jí)別的視覺細(xì)節(jié)信息確保解碼還原的綜合語(yǔ)義信息的質(zhì)量。

        2.3.6 Cityscapes數(shù)據(jù)集上的場(chǎng)景解析視覺效果

        LGCAFN 在Cityscapes 數(shù)據(jù)集上的場(chǎng)景解析視覺效果如圖5 所示,圖5(d)為L(zhǎng)GCAFN 的預(yù)測(cè)結(jié)果與真值之間的誤差。可以看出:1)相較于ResNet-101,LGCAFN 的場(chǎng)景解析結(jié)果更接近Ground Truth,LGCAFN 不僅能更加清晰地分割物體輪廓,而且可以更加準(zhǔn)確地標(biāo)記語(yǔ)義類別,從而再次證明了LGCAFN 的優(yōu)勢(shì);2)LGCAFN 不僅能夠有效地解析尺寸較小的物體(如桿、信號(hào)燈和交通標(biāo)識(shí),實(shí)線框標(biāo)記),而且可以準(zhǔn)確地區(qū)分易混淆的語(yǔ)義類別(如行人和騎手、摩托車和自行車、汽車和卡車,虛線框標(biāo)記),從而再次證明特征提取模塊有效提取尺寸較小的物體的視覺細(xì)節(jié)信息的能力、結(jié)構(gòu)化學(xué)習(xí)模塊顯式推理全局上下文信息的能力以及特征融合模塊自適應(yīng)聚合上下文信息的能力。

        圖5 Cityscapes數(shù)據(jù)集上LGCAFN的場(chǎng)景解析視覺效果Fig.5 Scene parsing visual effects of LGCAFN on Cityscapes dataset

        綜上所述,LGCAFN 在交通場(chǎng)景解析上獲取的成功可以歸納為如下3 點(diǎn):1)基于CASPP 單元的特征提取模塊不僅可以有效地學(xué)習(xí)更加豐富的局部上下文信息,而且能夠避免局部細(xì)節(jié)信息的丟失,提取的多尺度局部特征能更準(zhǔn)確地描述物體的視覺外觀特點(diǎn);2)基于8 路LSTM 分支的結(jié)構(gòu)化學(xué)習(xí)模塊能顯式地學(xué)習(xí)物體鄰近8 個(gè)不同場(chǎng)景區(qū)域的全局上下文信息,推理生成的空間結(jié)構(gòu)化特征可以更加準(zhǔn)確地描述物體所處全局場(chǎng)景的結(jié)構(gòu)化特性;3)基于注意力機(jī)制的3 階段特征融合模塊能夠有效地根據(jù)2 類模態(tài)特征間的相關(guān)性自適應(yīng)地聚合有用上下文信息和屏蔽噪聲上下文信息,聚合生成的多模態(tài)融合特征能夠更加準(zhǔn)確地表達(dá)物體的綜合語(yǔ)義。

        3 結(jié)語(yǔ)

        本文提出了面向交通場(chǎng)景解析的LGCAFN,不僅能有效學(xué)習(xí)物體自身的視覺外觀信息和所處場(chǎng)景的全局上下文信息,而且可以基于注意力機(jī)制自適應(yīng)地聚合上述2 類信息,聚合生成的多模態(tài)融合特征能夠更加全面且準(zhǔn)確地表達(dá)物體的綜合語(yǔ)義信息。實(shí)驗(yàn)結(jié)果表明,LGCAFN 在Cityscapes數(shù)據(jù)集上能準(zhǔn)確地解析場(chǎng)景,有助于實(shí)現(xiàn)車輛自動(dòng)駕駛、語(yǔ)義SLAM 等智能計(jì)算機(jī)視覺任務(wù)。但像素級(jí)標(biāo)簽的制作成本昂貴,因此后續(xù)將研究無(wú)監(jiān)督領(lǐng)域自適應(yīng)學(xué)習(xí)方法,使LGCAFN 能自適應(yīng)更加復(fù)雜的現(xiàn)實(shí)交通場(chǎng)景解析任務(wù)。

        猜你喜歡
        結(jié)構(gòu)化特征提取全局
        Cahn-Hilliard-Brinkman系統(tǒng)的全局吸引子
        量子Navier-Stokes方程弱解的全局存在性
        促進(jìn)知識(shí)結(jié)構(gòu)化的主題式復(fù)習(xí)初探
        結(jié)構(gòu)化面試方法在研究生復(fù)試中的應(yīng)用
        基于Daubechies(dbN)的飛行器音頻特征提取
        電子制作(2018年19期)2018-11-14 02:37:08
        落子山東,意在全局
        金橋(2018年4期)2018-09-26 02:24:54
        Bagging RCSP腦電特征提取算法
        基于圖模型的通用半結(jié)構(gòu)化數(shù)據(jù)檢索
        基于MED和循環(huán)域解調(diào)的多故障特征提取
        新思路:牽一發(fā)動(dòng)全局
        久久超碰97人人做人人爱| 不打码在线观看一区二区三区视频| 一本色道久久综合亚洲精品蜜臀 | 无套内射无矿码免费看黄| 久久天天躁狠狠躁夜夜96流白浆| 2021年最新久久久视精品爱| 亚洲香蕉av一区二区蜜桃| 国产免费人成视频在线观看| 久久亚洲av成人无码国产最大| 天天躁日日躁狠狠躁欧美老妇 | 在线精品国产亚洲av蜜桃| 日本中国内射bbxx| 国产精品无码专区av在线播放 | 色婷婷精品综合久久狠狠| 日本女优中文字幕有码| 亚洲婷婷久悠悠色悠在线播放| 亚洲国产精品久久电影欧美| 区久久aaa片69亚洲| 欧美日韩亚洲国产无线码| 免费视频一区二区三区美女| 精品人妻码一区二区三区剧情| 亚洲国产精品无码专区影院| 人妻av无码系列一区二区三区| 无码国产精品一区二区免费97| 一区二区三区蜜桃在线视频| 国产一级一区二区三区在线播放| 久久中文骚妇内射| 亚洲中文字幕无码久久| 亚洲AV秘 无码一区二区三区| 女人天堂av免费在线| 国产精品一区二区三久久不卡| 久久精品国产色蜜蜜麻豆 | 久久熟女五十路| 精品蜜桃av免费观看| 伊人久久精品无码av一区| 亚洲性啪啪无码av天堂| 99久久免费精品高清特色大片| 亚洲免费无毛av一区二区三区| 亚洲一区二区在线观看av| 精品国际久久久久999波多野 | 欧美va亚洲va在线观看|