亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于空間注意力的圖像分類網(wǎng)絡(luò)研究

        2023-06-22 20:47:06徐海燕郝萍萍
        現(xiàn)代信息科技 2023年2期
        關(guān)鍵詞:圖像分類計(jì)算機(jī)視覺深度學(xué)習(xí)

        徐海燕 郝萍萍

        摘? 要:針對(duì)以往的圖像分類方法利用手工提取的特征(或通過神經(jīng)網(wǎng)絡(luò)提取的特征)、空間信息關(guān)注不足等問題,文章提出一種基于空間注意力的圖像分類網(wǎng)絡(luò)。該網(wǎng)絡(luò)利用空間注意力模塊,對(duì)深度網(wǎng)絡(luò)提取的視覺特征進(jìn)行空間約束。利用特征的空間信息,使得網(wǎng)絡(luò)能夠?qū)μ卣髟诳臻g上的重要性加以區(qū)分,從而使其更具判別性。采用CIFAR-10和CIFAR-100測(cè)試集分別進(jìn)行測(cè)試,測(cè)試結(jié)果表明,該文提出的圖像分類網(wǎng)絡(luò)的圖像分類效果明顯優(yōu)于其他深度學(xué)習(xí)方法。

        關(guān)鍵詞:空間注意力;深度學(xué)習(xí);計(jì)算機(jī)視覺;圖像分類

        中圖分類號(hào):TP391.4? ? 文獻(xiàn)標(biāo)識(shí)碼:A? 文章編號(hào):2096-4706(2023)02-0098-03

        Research on Image Classification Network Based on Spatial Attention

        XU Haiyan, HAO Pingping

        (Shandong Huayu University of Technology, Dezhou? 253034, China)

        Abstract: Aiming at the problems of traditional image classification methods, such as using manually extracted features (or features extracted through neural networks), insufficient attention to spatial information, this paper proposes an image classification network based on spatial attention. The network uses the spatial attention module to spatial constrain on the visual features extracted by the depth network. Using the spatial information of features, the network can distinguish the importance of features in space, thus making them more discriminative. Test with CIFAR-10 and CIFAR-100 test sets respectively, test results show that the proposed image classification network is superior to other depth learning methods in image classification.

        Keywords: spatial attention; deep learning; computer vision; image classification

        0? 引? 言

        圖像分類任務(wù)研究圖像類別預(yù)測(cè),是計(jì)算機(jī)視覺中的一項(xiàng)基礎(chǔ)任務(wù),同時(shí)也是機(jī)器理解世界的重要途徑。傳統(tǒng)的圖像分類方法主要利用手工設(shè)計(jì)的特征(例如:尺度不變特征轉(zhuǎn)換(Scale Invariant Feature Transform, SIFT)[1]、方向梯度直方圖(Histogram of Oriented Gradient, HOG)[2]等)以及傳統(tǒng)的分類器(例如:支持向量機(jī)[3]、K-近鄰[4])等方法實(shí)現(xiàn)圖像分類。這些方法在面對(duì)簡(jiǎn)單的圖像分類問題時(shí)是行之有效的,但是在面對(duì)海量圖像數(shù)據(jù)時(shí),實(shí)際的實(shí)驗(yàn)效果不能令人滿意。

        近年來,通過深度神經(jīng)網(wǎng)絡(luò)(例如視覺幾何群網(wǎng)絡(luò)(Visual Geometry Group, VGG)[5]、ResNet[6])自動(dòng)學(xué)習(xí)圖像中的特征能夠取得優(yōu)異的分類效果。VGG和ResNet可以作為自動(dòng)提取視覺特征的網(wǎng)絡(luò),在多種視覺任務(wù)(例如目標(biāo)檢測(cè)、實(shí)例分割、語(yǔ)義分割、圖像分類)中已經(jīng)證明其效果明顯優(yōu)于傳統(tǒng)手工提取特征。VGG網(wǎng)絡(luò)通常有16層,而ResNet由于其殘差模塊的設(shè)計(jì),能夠解決網(wǎng)絡(luò)過深時(shí)對(duì)訓(xùn)練梯度的影響,達(dá)到更深的網(wǎng)絡(luò)層數(shù),例如,ResNet能夠達(dá)到101層、152層,這使得ResNet對(duì)于大型的視覺任務(wù)仍具有良好的性能。常見的卷積神經(jīng)網(wǎng)絡(luò)[7]有LeNet[8]、VGG、GoogLeNet[9]和ResNet。注意力機(jī)制由Google團(tuán)隊(duì)于2017年提出,并將其應(yīng)用于自然語(yǔ)言處理(Natural Language Processing, NLP)[10]領(lǐng)域?;谶@種為特征分配權(quán)重的思想,一些基于注意力的模型相繼提出,如融合了通道注意力的SE-Net、圖注意力神經(jīng)網(wǎng)絡(luò)(Graph Attention Neural Network, GANN)[11]等。深度神經(jīng)網(wǎng)絡(luò)能夠在視覺任務(wù)中取得優(yōu)秀成果的主要原因是其提取的特征更具有判別性,這種極具判別性的信息和圖像內(nèi)容的空間位置具有緊密的聯(lián)系,例如圖像分類任務(wù)中,“貓”和“狗”的圖像是能夠區(qū)分開來的。區(qū)分的主要依據(jù)是圖像中“貓”和“狗”所處的區(qū)域,而不是圖像中的背景或其他區(qū)域。然而,普通的深度神經(jīng)網(wǎng)絡(luò)對(duì)所提取圖像的空間信息關(guān)注不足,不能很好地描述不同空間位置信息的重要性。因此,本文提出一種基于空間注意力的圖像分類網(wǎng)絡(luò),該網(wǎng)絡(luò)通過空間注意力機(jī)制對(duì)特征圖計(jì)算空間注意力系數(shù),并將該系數(shù)重新作用于視覺特征上,得到具有空間重要性區(qū)別的特征,更有助于圖像分類。通過實(shí)驗(yàn)可知,基于空間注意力的圖像分類網(wǎng)絡(luò)能夠獲得更優(yōu)的圖像分類效果。

        1? 基于空間注意力的圖像分類網(wǎng)絡(luò)

        基于空間注意力的圖像分類網(wǎng)絡(luò)在傳統(tǒng)深度網(wǎng)絡(luò)的基礎(chǔ)上增加了空間約束,通過在空間層面上學(xué)習(xí)圖像中各個(gè)區(qū)域位置的權(quán)重信息,能夠獲得更具有判別性的圖像特征。

        如圖1所示,基于空間注意力的圖像分類網(wǎng)絡(luò)主要包括三部分:(1)圖像特征提取部分;(2)空間注意力特征融合部分;(3)特征分類部分。接下來依次介紹各個(gè)模塊。

        圖像特征提取部分的輸入為RGB圖像,通過ResNet提取RGB圖像的視覺特征,表示為X,其維度為C×H×W,其中H和W分別表示特征圖的高和寬,C表示通道數(shù),即特征圖的深度。對(duì)于特征圖X,輸入空間注意力模塊(Spatial attention)??臻g注意力模塊首先對(duì)輸入的特征圖X沿著通道進(jìn)行最大池化[12](Maxpool)和平均池化(Avgpool)。圖2為最大池化示意圖,最大池化是對(duì)固定區(qū)域求最大值。圖3為平均池化示意圖,平均池化是對(duì)固定區(qū)域求平均值。

        將池化后的特征圖串聯(lián)起來,通過卷積操作,合并為一個(gè)注意力系數(shù)矩陣M,將M輸入激活函數(shù),得到最終的注意力系數(shù)矩陣MS,將MS與特征圖X相乘:

        (1)

        得到經(jīng)過空間注意力約束后的特征圖XS。最后將特征圖XS經(jīng)過池化,得到向量LS,輸入全連接網(wǎng)絡(luò),得到對(duì)圖像類別的預(yù)測(cè):

        (2)

        其中,g(g)表示Softmax激活函數(shù),Wg表示全連接層g的參數(shù),y表示類別預(yù)測(cè)的概率。最后,利用交叉熵?fù)p失對(duì)模型分類進(jìn)行約束:

        (3)

        其中, 表示圖像在數(shù)據(jù)集中的類別標(biāo)簽。模型通過反向傳播更新參數(shù)。

        2? 實(shí)驗(yàn)分析

        通過基于空間注意力的圖像分類網(wǎng)絡(luò)在CIFAR-10和CIFAR-100公開數(shù)據(jù)集上的實(shí)驗(yàn)數(shù)據(jù)呈現(xiàn),給出了數(shù)據(jù)集的基本信息以及基于空間注意力的圖像分類網(wǎng)絡(luò)和其他圖像分類方法對(duì)比的實(shí)驗(yàn)結(jié)果。

        2.1? 數(shù)據(jù)集介紹

        CIFAR-10數(shù)據(jù)集[13]總共包含10個(gè)類別(飛機(jī)、貓、狗、青蛙、鳥類等),每個(gè)類別包含6 000張圖像,其中CIFAR-10數(shù)據(jù)集的下載地址為https://www.cs.toronto.edu/~kriz/cifar-10-python.tar.gz。

        CIFAR-100數(shù)據(jù)集[13]總共包含100個(gè)類別,CIFAR1-100數(shù)據(jù)集對(duì)每張圖像標(biāo)注了細(xì)粒度的類別標(biāo)簽和粗粒度的類別標(biāo)簽,共包含20個(gè)粗粒度類別。該數(shù)據(jù)集的下載地址為https://www.cs.toronto.edu/~kriz/cifar-100-python.tar.gz。

        2.2? 基于空間注意力的圖像分類網(wǎng)絡(luò)的分類表現(xiàn)

        本文采用的主干網(wǎng)絡(luò)為ResNet網(wǎng)絡(luò),將ResNet網(wǎng)絡(luò)與空間注意力機(jī)制相結(jié)合,得到基于空間注意力的圖像分類網(wǎng)絡(luò)。在CIFAR-10和CIFAR-100數(shù)據(jù)集上進(jìn)行訓(xùn)練和測(cè)試,并且與傳統(tǒng)方法和基于深度學(xué)習(xí)的方法(VGG)進(jìn)行對(duì)比。表1為CIFAR-10數(shù)據(jù)集分類結(jié)果,表2為CIFAR-100數(shù)據(jù)集分類結(jié)果。

        表1展示基于空間注意力的圖像分類網(wǎng)絡(luò)在CIFAR-10數(shù)據(jù)集上與其他方法平均準(zhǔn)確率的對(duì)比,其中,Practical Bayesian為傳統(tǒng)的貝葉斯方法,沒有利用卷積神經(jīng)網(wǎng)絡(luò),平均準(zhǔn)確率為90.5%。VGG-16是卷積神經(jīng)網(wǎng)絡(luò)的早期模塊,網(wǎng)絡(luò)層數(shù)為16,實(shí)現(xiàn)92.22%的準(zhǔn)確率。ResNet-18相對(duì)于VGG-16加入了殘差塊的設(shè)計(jì),平均準(zhǔn)確率為93.02%,ResNet-50相對(duì)于ResNet-18網(wǎng)絡(luò)更深,取得了93.62%的優(yōu)良效果。Ours(backbone-ResNet-18)表示基于空間注意力的分類網(wǎng)絡(luò)采用的主干(backbone)網(wǎng)絡(luò)為ResNet-18,Ours(backbone-ResNet-50)同理。由于空間注意力模塊的加入,Ours(backbone-ResNet-18)的平均準(zhǔn)確率為94.34%,相對(duì)于ResNet-18提升了1.32%,而Ours(backbone-ResNet-50)的平均準(zhǔn)確率為95.01%,相對(duì)于ResNet-50提升了1.39%。

        表2展示基于空間注意力的圖像分類網(wǎng)絡(luò)在CIFAR-100數(shù)據(jù)集上與其他方法平均準(zhǔn)確率的對(duì)比,其中,VGG-16獲得65.45%的平均準(zhǔn)確率,ResNet-18的平均準(zhǔn)確率為68.25%。ResNet-50相對(duì)于ResNet-18網(wǎng)絡(luò)更深,取得了70.01%的優(yōu)良效果。由于空間注意力模塊的加入,Ours(backbone-ResNet-18)的平均準(zhǔn)確率為70.45%,相對(duì)于ResNet-18提升了2.20%。而Ours(backbone-ResNet-50)的平均準(zhǔn)確率為72.63%,相對(duì)于ResNet-50提升了2.62%。

        3? 結(jié)? 論

        本文提出基于空間注意力的圖像分類網(wǎng)絡(luò),利用空間注意力模塊,對(duì)深度網(wǎng)絡(luò)提取的視覺特征進(jìn)行空間約束。由于考慮了特征的空間信息,使得網(wǎng)絡(luò)能夠?qū)μ卣髟诳臻g上的重要性加以區(qū)分,得到更具判別性的特征,更有利于圖像分類。實(shí)驗(yàn)結(jié)果表明,基于空間注意力的圖像分類網(wǎng)絡(luò)解決了以往方法對(duì)特征的空間信息關(guān)注不足的問題,所取得的圖像分類效果明顯優(yōu)于其他深度學(xué)習(xí)方法。

        參考文獻(xiàn):

        [1] 林陶,黃國(guó)榮,郝順義,等.尺度不變特征轉(zhuǎn)換算法在圖像特征提取中的應(yīng)用 [J].計(jì)算機(jī)應(yīng)用,2016,36(6):1688-1691+1698.

        [2] D?NIZ O,BUENO G,SALIDO J,et al. Face recognition using histograms of oriented gradients [J].Pattern recognition letters,2011,32(12):1598-1603.

        [3] 王周春,崔文楠,張濤.基于支持向量機(jī)的長(zhǎng)波紅外目標(biāo)分類識(shí)別算法 [J].紅外技術(shù),2021,43(2):153-161.

        [4] CUNNINGHAM P,DELANY S J. K-nearest neighbour classifiers-a tutorial [J].ACM Computing Surveys (CSUR),2021,54(6):1-25.

        [5] MEI Y J,JIN H R,YU B,et al. Visual geometry group-UNet: deep learning ultrasonic image reconstruction for curved parts [J].The Journal of the Acoustical Society of America,2021,149(5):2997-3009.

        [6] WU Z,SHEN C,VAN DEN HENGEL A. Wider or deeper: Revisiting the resnet model for visual recognition [J].Pattern Recognition,2019,90:119-133.

        [7] 陳鑫華,錢雪忠,宋威.基于輕量級(jí)特征融合卷積網(wǎng)絡(luò)的圖像分類算法 [J].計(jì)算機(jī)工程,2021,47(11):268-275.

        [8] EL-SAWY A,EL-BAKRY H,LOEY M. CNN for handwritten arabic digits recognition based on LeNet-5 [C]//International conference on advanced intelligent systems and informatics.[S.I.]:Cham,2016:566-575.

        [9] ANAND R,SHANTHI T,NITHISH M S,et al. Face recognition and classification using GoogleNET architecture [C]//Soft computing for problem solving. Singapore:Springer,2020:261-269.

        [10] ZHANG Y,TENG Z Y.Natural language processing [M].Cambridge:Cambridge University Press,2021.

        [11] 鮑鵬,徐昊.基于圖注意力時(shí)空神經(jīng)網(wǎng)絡(luò)的在線內(nèi)容流行度預(yù)測(cè) [J].模式識(shí)別與人工智能,2019,32(11):1014-1021.

        [12] 王宇航,周永霞,吳良武.基于高斯函數(shù)的池化算法 [J].計(jì)算機(jī)應(yīng)用,2022,42(9):2800-2806.

        [13] 徐海燕.基于通道相似度注意力的圖像分類研究 [J].信息技術(shù)與信息化,2021(11):78-80.

        作者簡(jiǎn)介:徐海燕(1993.08—),女,漢族,山東德州人,助教,碩士研究生,研究方向:計(jì)算機(jī)視覺、圖像分類、推薦系統(tǒng)研究;郝萍萍(1977.12—),女,漢族,山東德州人,副教授,碩士研究生,研究方向:計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)、物聯(lián)網(wǎng)技術(shù)。

        收稿日期:2022-10-10

        基金項(xiàng)目:2021年山東華宇工學(xué)院校級(jí)科研項(xiàng)目(2021KJ17)

        猜你喜歡
        圖像分類計(jì)算機(jī)視覺深度學(xué)習(xí)
        基于云計(jì)算的圖像分類算法
        機(jī)器視覺技術(shù)發(fā)展及其工業(yè)應(yīng)用
        基于錨點(diǎn)建圖的半監(jiān)督分類在遙感圖像中的應(yīng)用
        危險(xiǎn)氣體罐車液位計(jì)算機(jī)視覺監(jiān)控識(shí)別報(bào)警系統(tǒng)設(shè)計(jì)
        計(jì)算機(jī)視覺在交通領(lǐng)域的應(yīng)用
        MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場(chǎng)域建構(gòu)
        大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
        基于計(jì)算機(jī)視覺的細(xì)小顆粒團(tuán)重量測(cè)量的研究
        深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
        一種基于引導(dǎo)濾波和MNF的高光譜遙感圖像分類方法
        亚洲成AV人片无码不卡| 国产精品igao视频网| 最新69国产成人精品视频免费 | 国产精品亚洲一区二区三区16| 少妇被粗大的猛进出69影院| 狼色精品人妻在线视频| 亚洲一区二区三区久久蜜桃| 国产精品丝袜美女久久| 色偷偷色噜噜狠狠网站30根 | 日本免费一区二区三区| 亚洲色成人WWW永久在线观看| 一级二级三一片内射视频| 亚洲成av人片一区二区密柚| 草草久久久无码国产专区| 日韩精品欧美激情亚洲综合| 亚洲精品视频一区二区三区四区| 性欧美丰满熟妇xxxx性久久久| 午夜男女爽爽爽在线视频| 一区二区视频观看在线| 久久成人永久婷婷99精品| 老色鬼在线精品视频| 成年在线观看免费视频| 黑人巨大亚洲一区二区久| 在线观看国产成人自拍视频| 伊人久久大香线蕉av网禁呦| 国产成人乱色伦区小说| 中文字幕专区一区二区| 色狠狠色狠狠综合天天| 美女大量吞精在线观看456| 日本一区二区国产高清在线播放| 一区二区在线视频免费蜜桃| 特级a欧美做爰片第一次| 久久国产亚洲精品超碰热| 长腿丝袜在线观看国产| 亚洲av永久无码天堂网| 欧美情侣性视频| 免费观看成人稀缺视频在线播放| 日本在线精品一区二区三区| 色欲av自慰一区二区三区| 丰满少妇棚拍无码视频| av在线免费观看网站,|