亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于增強特征融合解碼器的語義分割算法

        2020-05-18 11:08:06馬震環(huán)高洪舉
        計算機工程 2020年5期
        關鍵詞:解碼器級聯(lián)淺層

        馬震環(huán),高洪舉,雷 濤

        (1.中國科學院光電技術研究所,成都 610209; 2.中國科學院大學 電子電氣與通信工程學院,北京 100049;3.32183部隊,遼寧 錦州 121000)

        0 概述

        圖像語義分割是指利用圖像的高級語義[1](圖像或圖像區(qū)域所包含對象或?qū)嶓w的類別信息)為圖像中每個像素分配一個對應表示其語義的類別標簽。圖像語義分割是計算機視覺、模式識別與機器學習等領域的重要研究方向,是場景理解、圖像重構(gòu)等任務的預處理環(huán)節(jié)。研究者能夠利用圖像語義分割技術在醫(yī)療圖像中精確查找病變部位,在自動駕駛過程中準確掌握道路信息,在無人機著陸時高精度定位陸區(qū)域中心,因此,該項技術具有重要的應用價值。

        與此同時,GPU迅猛發(fā)展,適合大數(shù)據(jù)處理的深度學習技術日趨成熟,同時也出現(xiàn)了像素級別標注的數(shù)據(jù)集,這使得深度模型從大數(shù)據(jù)中發(fā)掘有價值的信息[2]和知識成為可能。語義分割在結(jié)合深度學習技術后能夠使性能得到大幅提升。為此,本文設計一種增強特征融合的解碼器模塊。該模塊通過級聯(lián)高層特征與低層特征,并以卷積的形式加以融合,同時在降維后引入自身平方項的全局平均池化層,利用兩個卷積預測自身項與自身平方項的權(quán)重并以殘差的形式相結(jié)合,從而改善特征融合效果。

        1 相關研究

        文獻[3]提出的AlexNet方法在ILSVRC2012圖像分類競賽中取得了出色的效果,這為深度學習方法在語義分割中的應用拉開序幕。文獻[4]提出全卷積神經(jīng)網(wǎng)絡(FCN),其以VGG16[5]作為基礎網(wǎng)絡,替換網(wǎng)絡后端的全連接層為卷積層以接受任意尺度的圖像輸入。輸入圖像在經(jīng)過5個最大池化層之后得到32倍下采樣的結(jié)果,對于解碼器部分,則將該結(jié)果直接插值得到原始輸入尺寸。為得到更精細的分割結(jié)果,FCN通過插值的上采樣方式,得到更高分辨率的深層特征圖,并與淺層特征以直接作和的方式融合,以產(chǎn)生密集的預測結(jié)果。該工作在語義分割中具有里程碑的意義,端到端的方法由此成為主流。

        文獻[6]提出deeplab v1,其在VGG16網(wǎng)絡的基礎上去掉最后兩個池化層,引入空洞卷積以維持特征圖分辨率并擴大感受野。該方法最終得到8倍下采樣的特征圖,最后以雙線性插值的方式作為解碼器恢復原圖尺寸。文獻[7]提出了SegNet,同樣以VGG16作為基礎網(wǎng)絡,在最大池化過程中保留池化的索引。在恢復高分辨率特征圖的過程中,解碼器利用這些保留的索引得到稀疏的特征圖,然后使用可訓練的卷積核進行卷積操作,生成密集的特征圖。相比FCN直接使用淺層特征的方式,該方法在內(nèi)存使用上更為高效。

        文獻[8]遵循恒等映射的思想設計了RefineNet,其將ResNet-101[9]作為編碼器,輸出不同下采樣層的特征圖作為多個路徑。每個路徑的特征圖經(jīng)過RCU(Residual Conv Unit)做兩次卷積與激活后與自身作和。在解碼器部分,將不同分辨率的特征圖分別做卷積,以插值的方法處理到同一尺度,最后以加法的方式融合,逐層恢復到4倍下采樣結(jié)果,最后上采樣得到最終結(jié)果。

        文獻[10]提出的GCN方法,將k×k的卷積分解成1×k加上k×1與k×1加上1×k兩種方式,使用大的參數(shù)k以捕獲大尺度信息。在解碼器部分,將ResNet輸出的深層特征經(jīng)過轉(zhuǎn)置卷積與淺層特征通過作和的方式融合,在逐層融合后得到2倍下采樣的特征圖,再經(jīng)過轉(zhuǎn)置卷積恢復到原圖大小。

        文獻[11]針對航拍影像分割任務,在網(wǎng)絡后端使用不同擴張率的空洞卷積,得到多尺度的特征圖,然后將這些同一深度不同尺度的特征圖通過注意力機制計算各個尺度每個位置像素的重要性,最后通過加權(quán)和的方式融合特征。

        文獻[12]提出的DeepLab v3+,使用DeepLab v3作為編碼器,對DeepLab v3輸出的16倍下采樣的深層特征做4倍上采樣,然后與網(wǎng)絡輸出的4倍下采樣的特征圖級聯(lián)做卷積,最后輸出分類結(jié)果。與直接做加和的特征融合方式相比,先級聯(lián)再卷積的方式包含了加和這一操作,并且卷積還能得到深層特征與淺層特征之間的權(quán)重關系,因此更具有普適性。

        文獻[13]提出了PAN(Pyramid Attention Network),對于特征融合部分,該文將深層特征做全局平均池化得到一組特征向量以編碼每個通道的全局信息,隨后用1×1的卷積做變換以考慮通道與通道間的關系,再與淺層特征做乘法,最后將深層特征與淺層特征作和。

        文獻[14]指出高層特征與低層特征之間存在語義鴻溝,直接融合的方式無法解決這個問題,進而提出SEB(Semantic Embedding Branch)方法進行特征融合。該文先將深層的特征圖做卷積,然后通過雙線性插值的方式做上采樣,再與淺層特征做乘法。與使用全局平均池化的注意力機制相比,該方法無法獲取通道的全局信息但保留了各個特征圖的空間信息。

        文獻[15]針對遙感影像道路提取問題提出一種編解碼結(jié)構(gòu)的網(wǎng)絡,該網(wǎng)絡具有較淺的深度,特征圖具有較高的分辨率等特點。該模型在解碼階段,通過跳躍連接將原圖分辨率大小的特征圖與2倍下采樣分辨率的特征圖融合,融合的方式為卷積級聯(lián)的方式。

        文獻[16]設計了一種快速的語義分割算法,該算法密集層實現(xiàn)了兩路傳播,將前級連接與經(jīng)過卷積后的后級連接直接相連融合,并且該算法在每層之間均使用跳躍連接融合不同層間的信息。

        對于基于特征融合的解碼器的結(jié)構(gòu),深層特征與淺層特征融合的方式主要有3類方法:1)將淺層特征與深層特征級聯(lián)做卷積;2)將深層特征做全局平均池化,通過注意力機制對淺層特征做變換,再將深層特征與變換后的淺層特征作和;3)將深層特征經(jīng)過卷積后直接與淺層特征做逐像素的乘法。除卷積級聯(lián)形式以外,其他兩種形式均遵循了恒等映射的思想。

        2 本文方法

        本文設計分為編碼器與增強特征融合解碼器(EFFD)兩個部分,整體網(wǎng)絡結(jié)構(gòu)如圖1所示。

        圖1 整體網(wǎng)絡結(jié)構(gòu)

        2.1 編碼器

        本文將DeepLab v3算法[17]作為編碼器,在此基礎上進行研究。編碼器部分主要包含3個部分,即基礎網(wǎng)絡ResNet-101、空洞卷積和ASPP(Atrous Spatial Pyramid Pooling)模塊。輸入圖像經(jīng)過ResNet-101提取特征,在深層引入空洞卷積。最后使用ASPP獲取多尺度的上下文信息,將這些方式得到的特征圖級聯(lián),經(jīng)過1×1的卷積將通道數(shù)降低到256。

        2.1.1 空洞卷積

        為識別大尺度的目標,要求網(wǎng)絡深層有較大的感受野,步長為2的卷積、池化的方式使得感受野呈指數(shù)增長,但是這種方式輸出的特征圖分辨率同樣呈指數(shù)級下降趨勢,最后的結(jié)果難以恢復。而以步長為1的卷積堆疊的方式感受野呈線性增長,難以得到足夠大的感受野??斩淳矸e在一定程度上解決了這一問題。對于一維情況有:

        (1)

        其中,y表示輸出信號,w表示濾波器(卷積核),x是輸入信號,r是對輸入信號采樣的步長,即擴張率,標準卷積r的值為1。使用步長為1的空洞卷積,在卷積核中按照擴張率在特征圖兩端插入0,使得感受野呈指數(shù)增長且不會使特征圖分辨率下降。

        2.1.2 ASPP模塊

        現(xiàn)有的先進方法往往都需要級聯(lián)大尺度的空間上下文信息,編碼器部分通過ASPP模塊實現(xiàn)這一步。ASPP使用1×1的卷積、3×3擴張率分別為6、12、18的卷積捕獲多尺度信息。ParseNet證明了全局信息的重要性,該結(jié)構(gòu)同樣引入了圖像級池化,利用這些部分并行的處理基礎網(wǎng)絡輸出的特征圖,最后將結(jié)果級聯(lián)。

        2.2 EFFD

        編碼器部分輸出了16倍下采樣的特征圖,通過插值的方式直接做16倍的上采樣,這樣解碼器過于簡單。自FCN開始及以后的Unet、DeepLab v3+等均證明了在上采樣階段引入淺層特征的有效性。本文的EFFD同樣考慮將深層特征與淺層特征做融合。然而在語義分割任務中,深層特征與淺層特征以何種方式融合沒有定論,且融合的方式缺乏可解釋性。因此,本文考慮將加法、乘法等運算均融入到網(wǎng)絡中,端到端的學習解決此問題。首先,以往的工作證明了簡單的將高層特征與低層特征作和或者級聯(lián)起來做卷積的方式是有效的,本文考慮把級聯(lián)隨后做卷積的方式作為第1步。ParseNet證明了全局信息的有效性,本文考慮使用乘法結(jié)構(gòu)來利用這些全局信息,因此,在第2步引入注意力機制,通過殘差的方式將經(jīng)過注意力機制得到的特征與第一步的特征作和。

        2.2.1 級聯(lián)卷積

        本文先使用傳統(tǒng)的特征融合方式將DeepLab v3高層特征與低層特征級聯(lián)再做卷積。高層的特征帶有豐富的語義信息,重要性高于低層特征,相對而言,直接卷積的方式應使高層特征具有更大的權(quán)重。然而深度網(wǎng)絡常用L2正則化以提升網(wǎng)絡的泛化能力。L2正則化在反向傳播過程中傾向于將所有輸入對應的權(quán)重調(diào)整到比較小的均勻值,避免出現(xiàn)過大的權(quán)重。因此,首先使用1×1的卷積對低層特征降維,通過減少通道數(shù)的方式來降低淺層特征的權(quán)重。然后將經(jīng)過雙線性插值后的深層特征與淺層特征級聯(lián)。級聯(lián)結(jié)果輸入到3個卷積層中,其中最后一個卷積層使用1×1的卷積降低通道數(shù),得到融合后的特征圖。級聯(lián)卷積過程如圖2所示。

        圖2 級聯(lián)卷積過程

        2.2.2 注意力機制

        注意力機制如圖3所示,其中主要包含全局平均池化、通道注意力和激活函數(shù)3個部分。

        圖3 注意力機制示意圖

        1)全局平均池化

        原始的全局平均池化(Global Average Pooling,GAP)將每一個通道的特征圖按照每個位置產(chǎn)生的響應直接求和,公式如下:

        (2)

        其中,yi表示第i個位置的權(quán)重向量,H、W分別為輸入特征圖高和寬,xi,j,k表示輸入特征圖第i個通道第j行第k列的響應值。筆者認為歐氏距離越大的特征重要性越大,然而直接做GAP對于特征圖中小于0的部分會減小該通道注意力權(quán)重向量的響應。因此,將融合后的特征圖與自身做乘法得到更能突出每個位置重要性的特征圖,再做GAP。

        2)通道注意力

        在得到GAP的結(jié)果后,本文使用兩個卷積分別預測出原始特征圖自身項與自身平方項權(quán)重,經(jīng)過各自的激活函數(shù)后分別對自身項與自身平方項做乘法變換,公式如下:

        zi,j,k=yi·xi,j,k

        (3)

        其中,zi,j,k為經(jīng)過注意力機制后的輸出特征圖,yi表示第i個位置的權(quán)重向量,xi,j,k表示輸入特征圖第i個通道第j行第k列的響應值。通道注意力將權(quán)重向量yi與每一個通道相乘以突出不同通道的重要性。

        3)激活函數(shù)

        在視覺任務中廣泛使用relu作為激活函數(shù)以解決梯度消失的問題,考慮到sigmoid函數(shù)僅一層,不存在梯度消失的問題,本文在解碼器部分使用sigmoid作為激活函數(shù),公式如下:

        (4)

        其中,S(x)為輸出響應,x為輸入。在注意力機制中,經(jīng)過全局平均池化后各個通道權(quán)重向量與各個通道相乘,與relu相比,使用該函數(shù)能夠?qū)?quán)重限制在(0,1)范圍內(nèi),避免出現(xiàn)過大的結(jié)果。

        3 實驗與結(jié)果分析

        3.1 實驗設置

        本文實驗的相關設置如下:

        1)評價指標。使用平均交并比(mean Intersection over Union,mIoU)作為評價指標,公式如下:

        (5)

        其中,k是目標類別數(shù)目,pij表示第i類物體的像素被分到第j類物體的像素的數(shù)量。

        2)數(shù)據(jù)集。使用pascal voc2012[18]數(shù)據(jù)集,該數(shù)據(jù)集包含飛機、輪船、人、火車等20類場景下的目標,所有背景均分為1類,共21類。該數(shù)據(jù)集背景豐富,單張圖片中往往包含了一個或者多個類別、多個目標,并且該數(shù)據(jù)集中圖片包含了目標較大的尺度變化、光照變化、目標間的遮擋等問題,具有較大的分割難度。該數(shù)據(jù)集訓練集僅有1 464張圖片,本文通過文獻[19]提供的額外的標注對數(shù)據(jù)集做了增強,使訓練圖像達到了10 582張。本文使用pytorch實現(xiàn)以上算法,并在pascal voc2012訓練集上訓練,驗證集不參與調(diào)參,在驗證集上做測試。

        3)實驗環(huán)境。系統(tǒng)環(huán)境ubuntu18.04,python 3.6.7,pytorch 1.0,顯卡NVIDIA TITANX Pascal 12 GB,CPU為intel i7-7700k 4.2 GB。

        4)數(shù)據(jù)增強。對輸入的訓練圖像做數(shù)據(jù)增強,輸入圖像以1/2的概率做水平翻轉(zhuǎn)、隨機縮放,以1/2的概率做高斯濾波使圖像模糊,最后做中心裁剪得到513像素×513像素的圖像。

        5)訓練。使用ResNet-101作為基礎網(wǎng)絡,加載在ImageNet上預訓練的參數(shù)。整個網(wǎng)絡學習率初始化為0.007,ASPP模塊與解碼器部分學習率為基礎網(wǎng)絡學習率的10倍。學習率策略使用多項式衰減,batch size 取8,訓練60個epoch,近80 000次迭代達到收斂。

        3.2 結(jié)果對比與分析

        本文方法與原始網(wǎng)絡的mIoU指標值對比如表1所示??梢钥闯?原始網(wǎng)絡中加入本文解碼器后性能有明顯的提升。解碼器模塊將編碼的帶有豐富語義信息的高層特征與高分辨率的帶有空間位置信息的低層特征相結(jié)合,恢復了高分辨率的分類結(jié)果。

        表1 與原網(wǎng)絡的mIoU指標對比

        Table 1 Comparison of mIoU index with original network %

        網(wǎng)絡mIoU原網(wǎng)絡77.21加入本文解碼器的網(wǎng)絡79.35

        由于目前主流的特征融合方法使用不同的網(wǎng)絡和多尺度策略,難以進行比較,因此本文使用上文中的解碼器部分統(tǒng)一比較。本文先使用了卷積再引入了attention機制做乘法,為保證相當?shù)木W(wǎng)絡層數(shù)與參數(shù)量,在其他方法特征融合之后接同樣層數(shù)的卷積層。其中,SEB為文獻[9]提出的語義融合分支,Attention表示文獻[8]提出的注意力融合方式,Concat表示文獻[7]提出的級聯(lián)方式。4種方法的實驗結(jié)果對比如表2所示。

        表2 基于ResNet的mIoU指標對比

        Table 2 Comparison of mIoU index based on ResNet %

        網(wǎng)絡 mIoUResNet-SEB77.61ResNet-Attention77.31ResNet-Concat78.89ResNet-EFFD79.35

        為證明本文解碼器的有效性,嘗試更換了基礎網(wǎng)絡,將ResNet換成MobileNet[20],參數(shù)使用ImageNet上預訓練的參數(shù),batch size使用16,其他使用與ResNet同樣的方法,在pascal voc上做訓練測試,對比本文解碼器與其他方式的解碼器,實驗結(jié)果如表3所示。

        表3 基于MobileNet的mIoU指標對比

        可見,本文方法相比基于注意力機制的方法、基于SEB的方法和傳統(tǒng)的級聯(lián)方法,性能均有提升。

        4 結(jié)束語

        本文設計一種增強特征融合解碼器模塊,通過級聯(lián)高層特征與低層特征,以卷積的形式做第一步融合,通過降維后在第二步引入自身平方項的全局平均池化,用兩個卷積預測自身項與自身平方項的權(quán)重,并以殘差的形式進行融合。實驗結(jié)果表明,該策略相比原網(wǎng)絡與其他特征融合方式mIoU均有提高。下一步將結(jié)合深度神經(jīng)網(wǎng)絡可解釋性方面的工作,研究性能更優(yōu)的特征融合方式。

        猜你喜歡
        解碼器級聯(lián)淺層
        科學解碼器(一)
        科學解碼器(二)
        科學解碼器(三)
        淺層換填技術在深厚軟土路基中的應用
        基于淺層曝氣原理的好氧顆粒污泥的快速培養(yǎng)
        線圣AudioQuest 發(fā)布第三代Dragonfly Cobalt藍蜻蜓解碼器
        淺層地下水超采區(qū)劃分探究
        級聯(lián)LDPC碼的STBC-OFDM系統(tǒng)
        電子制作(2016年15期)2017-01-15 13:39:09
        基于級聯(lián)MUSIC的面陣中的二維DOA估計算法
        包氣帶淺層地熱容量計算方法商榷
        日本高清无卡一区二区三区| 久久久久亚洲av无码a片软件 | 玖玖资源站无码专区| 青青久久精品一本一区人人| 欧美男生射精高潮视频网站| 久久久天堂国产精品女人| 国产午夜精品福利久久| 精品国产3p一区二区三区| 水野优香中文字幕av网站| 精品国产一区二区三区av片| 天天综合久久| 中文字幕中乱码一区无线精品| 亚洲国产精品一区二区久久恐怖片| 色偷偷偷久久伊人大杳蕉 | 欧美一区二区三区久久综| 国产视频导航| 99久久免费中文字幕精品| 最新国产熟女资源自拍| 少妇无码av无码一区| 亚洲熟妇无码久久精品疯| 免费人妻精品区一区二区三 | 无码视频一区=区| 日产一区日产2区日产| 老师露出两个奶球让我吃奶头| 国产无套内射又大又猛又粗又爽| 亚洲欧洲精品无码av| 2021国产最新在线视频一区| 久久精品国产亚洲av一| 日本少妇高潮喷水视频| 色翁荡息又大又硬又粗又视频图片| 欧美性爱一区二区三区无a| 一区二区三区四区黄色av网站| 内射人妻少妇无码一本一道| 精品日韩国产欧美在线观看| 日本一区二区三深夜不卡| 国内自拍情侣露脸高清在线| 特级婬片国产高清视频| 无码中文字幕av免费放| 久久这里都是精品99| 孕妇特级毛片ww无码内射| 91精品全国免费观看青青|