亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于注意力機制的全卷積神經(jīng)網(wǎng)絡模型

        2021-05-07 02:24:26劉孟軒張蕊曾志遠金瑋武益超
        現(xiàn)代信息科技 2021年23期
        關鍵詞:語義分割特征融合注意力機制

        劉孟軒 張蕊 曾志遠 金瑋 武益超

        摘? 要:全卷積神經(jīng)網(wǎng)絡FCN-8S在進行多尺度特征融合時,由于未能考慮不同尺度特征各自的特點進行充分融合,導致分割結果精度較低,針對這一問題,文章提出了一種基于注意力機制的多尺度特征融合的全卷積神經(jīng)網(wǎng)絡模型。該模型基于注意力機制對FCN-8S中的不同尺度特征進行加權特征融合,以相互補充不同尺度特征包含的不同信息,進而提升網(wǎng)絡的分割效果。文章模型在公共數(shù)據(jù)集PASCAL VOC2012和Cityscapes上進行驗證,MIoU相對于FCN-8S分別提升了2.2%和0.8%。

        關鍵詞:語義分割;全卷積神經(jīng)網(wǎng)絡;注意力機制;特征融合

        中圖分類號:TP391.4? ? ? ? 文獻標識碼:A文章編號:2096-4706(2021)23-0092-04

        Full Convolutional Neural Network Model Based on Attention Mechanism

        LIU Mengxuan, ZHANG Rui, ZENG Zhiyuan, JIN Wei, WU Yichao

        (North China University of Water Resources and Electric Power, Zhengzhou, 450046, China)

        Abstract: Aiming at the problem of low accuracy of segmentation results due to the failure to consider the respective characteristics of different scale features when the fully convolutional neural network FCN-8S performs multi-scale feature fusion, this paper proposes a fully convolutional neural network model with multi-scale feature fusion based on attention mechanism. This model is based on the attention mechanism to perform weighted feature fusion of different scale features in FCN-8S to complement each other with different information contained in different scale features, thereby improving the segmentation effect of the network. The model proposed in this paper is verified on the public data sets PASCAL VOC2012 and Cityscapes. Compared with FCN-8S, MIoU increases by 2.2% and 0.8%, respectively.

        Keywords: semantic segmentation; full convolutional neural network; attention mechanism; feature fusion

        0? 引? 言

        圖像語義分割是計算機視覺領域的三大核心任務之一,其目標是為圖像中的每一個像素分配一個預先定義好的語義類別標簽,并對不同的目標進行分割[1]。近年來,隨著深度學習[2]在計算機視覺領域的不斷發(fā)展,語義分割在越來越多的領域中得到了廣泛應用,比如自動駕駛,醫(yī)療圖像分割和物體缺陷檢測等,成為當下研究的熱點。

        隨著計算機算力的不斷提升,深度學習方法得到了人們的廣泛關注,并逐步被應用于圖像處理領域。2015年,Long等人[3]將圖像分類網(wǎng)絡VGG-16[4]中的全連接層替換為卷積層,形成了全卷積神經(jīng)網(wǎng)絡(Fully Convolutional Network, FCN),首次實現(xiàn)了端到端的圖像語義分割。但由于卷積神經(jīng)網(wǎng)絡(Convolutional Neural Network, CNN)[5]中的池化操作,輸入圖像在下采樣過程中分辨率大幅下降,丟失了大量空間位置信息,導致FCN最終的分割結果較為粗糙。為了解決這個問題,F(xiàn)CN-8s通過融合三個尺度的特征獲得了比只使用一個特征的FCN-32s更好的結果,但分割結果仍然不夠精細。同時FCN-8s在進行特征融合時賦予了三個尺度特征相同的權重,未考慮到不同尺度特征的差異。

        針對以上問題,本文通過注意力機制有選擇的強調(diào)有用特征而抑制無用的特征,在空間和通道兩個維度上計算注意力分布,對FCN-8S中不同尺度特征賦予不同的權重來充分融合多尺度特征,以提升最終的分割效果。實驗證明,本文提出的基于注意力機制的FCN能夠更有效地進行特征融合,提升最終的分割效果,在公共數(shù)據(jù)集PASCAL VOC2012[6]和Cityscapes[7]上取得了較好的結果。

        1? 相關研究

        隨著計算機硬件性能的提升,深度學習技術得到迅速發(fā)展,深度卷積神經(jīng)網(wǎng)絡被廣泛應用于圖像處理領域。2015年,Long等人[3]提出的FCN使語義分割進入了一個全新的階段,大量研究人員嘗試使用全卷積神經(jīng)網(wǎng)絡來解決語義分割模型。比如常用于醫(yī)療圖像分割的UNet[8],為了減少FCN下采樣過程中損失的信息,其在上采樣和與之對應的下采樣之間構建跳躍連接,進行特征融合,形成了一個對稱的U型結構。HRNet[9]通過并行連接高分辨率到低分辨率卷積來保持高分辨率表示,并通過重復跨并行卷積執(zhí)行多尺度融合來增強高分辨率表示,實驗證明了其在像素級分類任務上的有效性。上述方法雖然通過特征融合也獲得了很好的效果,但簡單的等權值融合方式忽略了不同特征的差異性,未能充分利用各層特征包含的豐富信息。而計算機視覺中的注意力機制可以看作是一個基于輸入圖像特征的動態(tài)權重調(diào)整過程[10],常見的有通道注意力機制SENet[11],空間注意力機制GENet[12]和聯(lián)合空間和通道注意力的CBAM[13]、BAM[14]等。故本文基于注意力機制對FCN-8S中三個尺度特征進行加權融合,改進FCN-8S的性能,提升分割精度。

        2? 本文方法

        本文提出的語義分割模型框架如圖1所示。模型以全卷積神經(jīng)網(wǎng)絡FCN-8S作為基礎網(wǎng)絡,在其特征融合時加入BAM注意力模塊對不同尺度特征進行加權,以強調(diào)利于分割的有用信息,抑制無用的冗余信息,提升網(wǎng)絡的分割性能。具體操作為:首先對VGG網(wǎng)絡提取到的尺度為原圖1/8、1/16和1/32大小的特征分別使用BAM注意力模塊計算注意力分布,得到帶有注意力權重的不同尺度特征;然后將其按照FCN-8S中的融合方式進行特征融合,得到尺度為原圖1/8大小的特征;再對其進行8倍上采樣,最后利用softmax分類函數(shù)得到最終分割結果。

        BAM模塊[14]的結構如圖2所示,輸入的特征F分別通過兩個獨立的分支計算得到通道注意力圖Mc(F)和空間注意力圖Ms(F),然后對兩個注意力圖進行特征融合并經(jīng)過sigmod激活函數(shù)得到BAM注意力圖M(F),最后將輸入特征F與M(F)逐元素相乘后再特征融合得到具有注意力權重的特征。其中有兩個超參數(shù)膨脹值d和縮減比r。膨脹值決定了接受域的大小,這有助于空間分支上的上下文信息聚集;縮減比控制兩個注意分支的容量和開銷。這里d和r分別設置為4和16。

        3? 實驗結果與分析

        3.1? 數(shù)據(jù)集及評價指標

        本文在公開的PASCAL VOC2012[6]和Cityscapes[7]數(shù)據(jù)集上驗證所提模型的性能。PASCAL VOC2012是用于視覺對象類挑戰(zhàn)比賽的數(shù)據(jù)集,包括人、動物、交通工具和生活用品等20類常見物體對象和1個背景類。本文使用SBD數(shù)據(jù)集[15]對PASCAL VOC2012數(shù)據(jù)集對進行擴充,得到訓練集圖像10 582張,驗證集1 449張和測試集1 456張。Cityscapes數(shù)據(jù)集記錄了50個不同城市的街道場景,擁有5 000張高質(zhì)量像素級注釋的圖像以及20 000張粗糙注釋的圖像。5 000張精細標注圖像中2 975張圖像用于訓練,500張圖像用于驗證,1 525張圖像用于測試,一般使用19個類別標注。每張圖像大小均為2 048×1 024,圖像中道路場景復雜,目標類別尺度不一。

        本文使用語義分割領域常用的評價指標像素精度(Pixel Accuracy, PA)和平均交并比(Mean Intersection over Union, MIoU)來評估模型的性能和預測結果的準確性。假設總計有k+1分類(標記為L0到Lk,其中包含一個背景類別),Pij表示類別為i的像素被預測為類別為j的數(shù)目。

        像素精度PA表示預測正確的像素和總的像素的比率[3],用以下公式計算:

        平均交并比MIoU通過計算真實值集合和預測值集合的交集和并集之比來計算圖像真值與預測結果的重合程度[3],是最具代表性的語義分割度量指標。它先基于每個類別計算,然后再求均值,公式為:

        3.2? 實驗環(huán)境

        本文模型在Ubuntu 18.04系統(tǒng)上基于開源框架PyTorch實現(xiàn),并使用NVIDIA GeForce GTX 1 080 Ti(11 GB)圖形處理器進行加速。在訓練過程對圖片隨機進行0.5倍、2倍縮放,并進行隨機裁剪,以預防訓練過程中出現(xiàn)過擬合。對于VOC2012數(shù)據(jù)集,圖片大小裁剪為321×321,設置批處理大小為8,迭代50個epoch。由于GPU內(nèi)存的限制,對于Cityscapes數(shù)據(jù)集,首先對訓練集分辨率大小為2 048×1 024的圖片下采樣為1 024×512大小,再將圖片大小裁剪為473×473,迭代100個epoch。優(yōu)化算法使用隨機梯度下降SGD,動量設置為0.9,學習率使用poly衰減策略,初始學習率設置為0.01,權重衰減系數(shù)設置為0.000 1。

        3.3? 實驗結果分析

        3.3.1? 對比試驗

        為了驗證本文方法的效果,分別在PASCAL VOC2012和Cityscapes驗證集上與FCN-8s和Deeplabv2進行實驗對比,結果如表1和表2所示,MIoU分別達到了68.1%和55.1%,相對于FCN-8S分別提升了2.2%和0.8%。

        結合表1和表2可知,在同等的實驗環(huán)境下,本文提出的方法相對于FCN-8S取得了更好的結果。在PASCAL VOC2012數(shù)據(jù)集上像素精度PA和平均交并比MIoU分別為91.4%和68.1%,相對于FCN-8S分別提升了0.7%和2.2%;在Cityscapes數(shù)據(jù)集上PA和MIoU為91.3%和55.1%,對比FCN-8S像素精度PA沒有提升,但MIoU提升了0.8%。說明本文提出的基于注意力機制的多尺度特征融合策略是有效的,能夠充分考慮不同尺度特征各自的特點,關注重點信息,忽略無效信息,有效改善了FCN-8S的分割效果。

        3.3.2? 語義分割可視化

        為了更加直觀的看出本文所提方法的效果,在PASCAL VOC2012驗證集上與FCN-8S的預測結果進行可視化對比分析,結果如圖3所示。第一行中FCN-8S將火車附近區(qū)域部分像素誤分為了人,而本文方法沒有誤分,分割結果相對準確;第二行FCN-8S對于馬腿這種小目標并不能完整分割出來,還將部分背景像素誤分為其他類,而本文方法相對于FCN-8S分割結果較為精細,并且誤分的像素較少,說明其具有一定的細節(jié)捕捉能力,能夠關注重點目標區(qū)域;第三行奶牛類FCN-8S誤分類現(xiàn)象嚴重,而本文方法分割較為完整,誤分現(xiàn)象相對于FCN-8S有所改善。綜上,可以說明本文提出的基于注意力機制的融合方法能夠充分融合各尺度特征,相對于FCN-8S的等權值融合方法具有更好的效果,能夠有效改善FCN-8S的分割效果。

        4? 結? 論

        本文模型針對全卷積神經(jīng)網(wǎng)絡FCN-8S在進行特征融合時未考慮到不同尺度特征各自的特點,通過簡單的等權值拼接融合得到的分割結果較為粗糙的問題,提出了一種基于注意力機制的多尺度特征融合的全卷積神經(jīng)網(wǎng)絡模型。該模型以FCN-8S為基礎網(wǎng)絡,引入注意力機制從空間和通道兩個維度計算注意力分布,強調(diào)利于分割的有用信息,抑制冗余信息,對不同尺度特征進行加權融合,以充分利用各尺度特征信息,改善FCN-8S的分割效果。實驗結果表明,本文提出的模型相對于FCN-8S有更好的分割結果,說明本文的特征融合策略是有效的。但是,本文模型仍有一定局限性,F(xiàn)CN-8S是相對較老的模型,本身分割效果有限,如何將本文特征融合方法與其他更優(yōu)秀的模型相結合進一步提升網(wǎng)絡分割效果是下一步重要的工作。此外如何進一步提升邊界的分割精度也是一個重要的內(nèi)容。

        參考文獻:

        [1] 田萱,王亮,丁琪.基于深度學習的圖像語義分割方法綜述 [J].軟件學報,2019,30(2):440-468.

        [2] HINTON G E,SALAKHUTDINOV R R. Reducing the Dimensionality of Data with NeuralNnetworks [J].Science,2006,313(5786):504-507.

        [3] LONG J,SHELHAMER E,DARRELL T. Fully Convolutional Networks for Semantic Segmentation [C]//2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Boston:IEEE,2015:3431-3440.

        [4] SIMONYAN K,ZISSERMAN A. Very Deep Convolutional Networks for large-scale image Recognition [J/OL].arXiv:1409.1556 [cs.CV].[2021-11-13].https://arxiv.org/abs/1409.1556.

        [5] KRIZHEVSKY A,SUTSKEVER I,HINTON G E. Imagenet Classification with Deep Convolutional Neural Networks [EB/OL].[2021-11-13].https://web.cs.ucdavis.edu/~yjlee/teaching/ecs289g-winter2018/alexnet.pdf.

        [6] EVERINGHAM M,ESLAMI S M A,VAN GOOL L,et al. The pascal visual Object Classes challenge: A Retrospective [J].International Journal of Computer Vision,2015,111:98-136.

        [7] CORDTS M,OMRAN M,RAMOS S,et al. The Cityscapes Dataset for Semantic Urban Scene Understanding [C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Las Vegas:IEEE,2016:3213-3223.

        [8] RONNEBERGER O,F(xiàn)ISCHER P,BROX T. U-net:Convolutional Networks for Biomedical image Segmentation [J/OL]. arXiv:1505.04597 [cs.CV].[2021-11-13].https://arxiv.org/abs/1505.04597.

        [9] SUN K,XIAO B,LIU D,et al. Deep High-Resolution Representation Learning for Human Pose Estimation [C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).Long Beach:IEEE,2019:5686-5696.

        [10] GUO M H,XU T X,LIU J J,et al. Attention Mechanisms in Computer Vision:A Survey [J/OL].arXiv:2111.07624 [cs.CV].[2021-11-13].https://arxiv.org/abs/2111.07624.

        [11] HU J,SHEN L,ALBANIE S,et al. Squeeze-and-Excitation Networks [J].IEEE Transactions on Pattern Analysis and Machine Intelligence.2020,42(8):2011-2023.

        [12] HU J,SHEN L,ALBANIE S,et al. Gather-excite:Exploiting Feature Context in Convolutional Neural Networks [J/OL].arXiv:1810.12348 [cs.CV].[2021-11-13].https://arxiv.org/abs/1810.12348.

        [13] WOO S,PARK J,LEE J Y,et al. CBAM: Convolutional Block Attention Module [C]//Computer Vision–ECCV 2018.Munich:view affiliations,2018:3-19.

        [14] PARK J,WOO S,LEE J Y,et al. Bam:Bottleneck Attention module [J/OL].arXiv:1807.06514 [cs.CV].[2021-11-13].https://arxiv.org/abs/1807.06514.

        [15] HARIHARAN B,ARBELáEZ P,BOURDEV L,et al. Semantic contours from inverse detectors [C]//2011 International Conference on Computer Vision.Barcelona:IEEE,2011:991-998.

        作者簡介:劉孟軒(1997—),男,漢族,河南洛陽人,碩士研究生在讀,研究方向:圖像語義分割;張蕊(1980—),女,漢族,河南濮陽人,碩士生導師,博士,研究方向: 圖像處理、三維場景語義分割、激光雷達點云數(shù)據(jù)處理;曾志遠(1997—),男,漢族,河南駐馬店人,碩士研究生在讀,研究方向:圖像語義分割;金瑋(1996—),男,漢族,河南周口人,碩士研究生在讀,研究方向:圖像處理;武益超(1999—),男,漢族,河南安陽人,碩士研究生在讀,研究方向:點云語義分割。

        猜你喜歡
        語義分割特征融合注意力機制
        基于積神經(jīng)網(wǎng)絡的圖像著色方法研究
        基于深度學習的問題回答技術研究
        基于全卷積網(wǎng)絡FCN的圖像處理
        基于語義分割的車道線檢測算法研究
        基于LSTM?Attention神經(jīng)網(wǎng)絡的文本特征提取方法
        基于語義分割的增強現(xiàn)實圖像配準技術
        基于注意力機制的雙向LSTM模型在中文商品評論情感分類中的研究
        軟件工程(2017年11期)2018-01-05 08:06:09
        InsunKBQA:一個基于知識庫的問答系統(tǒng)
        基于移動端的樹木葉片識別方法的研究
        科技資訊(2017年11期)2017-06-09 18:28:13
        基于SIFT特征的港口內(nèi)艦船檢測方法
        精品伊人久久大香线蕉综合| 亚洲av色香蕉一区二区三区蜜桃| 精品女同一区二区三区亚洲| 日韩精品中文一区二区三区在线 | 亚洲一区二区三区麻豆| 国产一区二区三区中文在线| 无码福利写真片视频在线播放| 亚洲男人天堂网站| 黑人免费一区二区三区| 人妻熟女翘屁股中文字幕| 日韩中文字幕免费视频| 91精品手机国产在线能| 日韩一二三四区免费观看| 国产自拍偷拍精品视频在线观看| 国产精品无码一区二区在线看| 国产jk在线观看| 日本中文字幕人妻精品| 日韩人妻无码精品一专区二区三区| 欧美大肥婆大肥bbbbb| 欧美日韩中文字幕久久伊人| 黄页免费人成网址大全| 国产精品人人做人人爽人人添 | 日韩精品一区二区三区四区五区六| 久久精品不卡一区二区三区| 久久精品人妻无码一区二区三区| 国产真实露脸4p视频| 国产av黄色一区二区| 99久久久无码国产精品性| 国产精品jizz在线观看老狼| 最新在线观看精品国产福利片| 亚洲av色av成人噜噜噜| 亚洲中字慕日产2020| 亚洲天堂资源网| 白嫩少妇在线喷水18禁| 亚洲国产精品成人久久| 亚洲免费人成在线视频观看| 国产精品麻豆A在线播放| 国产精品国产三级国产av18| 国产成人无码一区二区在线播放| 亚洲最大无码AV网站观看| 日本妇女高清一区二区三区|