亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        非全局池化的通道注意力及其在語義分割中的應(yīng)用

        2023-09-25 08:08:34鄭伯川楊文意
        關(guān)鍵詞:語義特征

        鄭伯川,周 蘭,陳 雯,楊文意

        (西華師范大學(xué) a.計(jì)算機(jī)學(xué)院,b.數(shù)學(xué)與信息學(xué)院,四川 南充 637009)

        語義分割是計(jì)算機(jī)視覺的基礎(chǔ)任務(wù),可以理解為像素級別的分類,即逐像素預(yù)測所屬類別。語義分割提供了全面的場景描述,能提供目標(biāo)對象的類別、形狀、大小等信息,有助于計(jì)算機(jī)理解圖像。傳統(tǒng)的圖像分割方法多為根據(jù)目標(biāo)區(qū)域的局部特征進(jìn)行分割,主要包括基于閾值[1]、基于邊緣[2]、基于局部特征[3]、基于聚類[4]、基于圖論[5]以及其他圖像分割方法[6]等。傳統(tǒng)的圖像分割方法無法學(xué)習(xí)目標(biāo)的語義特征,不能進(jìn)行語義分割,并且易受噪聲影響,因此只能應(yīng)用于特定圖像的分割,對自然圖像分割效果不好,難以提供有效的語義理解信息。

        深度卷積神經(jīng)網(wǎng)絡(luò)(Deep Convolutional Neural Networks,DCNNs)具有優(yōu)秀的特征提取性能,被廣泛用于圖像分類、目標(biāo)檢測、語義分割等任務(wù)。全卷積網(wǎng)絡(luò)(Fully Convolutional Network,FCN)[7]是深度學(xué)習(xí)技術(shù)用于語義分割的開山之作,該網(wǎng)絡(luò)使用卷積層替換全連接層,將經(jīng)過多次卷積、池化后得到的特征圖進(jìn)行轉(zhuǎn)置卷積將縮小后的特征圖還原為原始圖大小,最后通過像素分類實(shí)現(xiàn)圖像分割。FCN由于能提取圖像全局特征,從而可以實(shí)現(xiàn)圖像語義分割。FCN有優(yōu)秀的語義分割性能,特別對于自然圖像的分割,能很好的將語義目標(biāo)對象分割出來,從而能提供有效的圖像語義信息。FCN被提出之后,研究人員將圖像分割方法的研究轉(zhuǎn)向了深度學(xué)習(xí)技術(shù),主要在FCN的網(wǎng)絡(luò)框架下進(jìn)行了大量的改進(jìn)[8-15],將深度網(wǎng)絡(luò)的許多新的技術(shù)引入到FCN網(wǎng)絡(luò)模型中提高圖像分割性能,如將注意力機(jī)制引入特征提取網(wǎng)絡(luò)提高特征提取性能。特征圖中不同的通道所包含的信息重要性不一樣,為了使網(wǎng)絡(luò)更關(guān)注包含更重要信息的通道,Hu等[16]提出了SENet,該網(wǎng)絡(luò)采用的擠壓-激勵(lì)模塊(Squeeze-Excitation Block)通過捕獲全局信息給通道分配不同的權(quán)重以提高模型表征能力。擠壓-激勵(lì)模塊中的擠壓部分采用全局平均池化,將輸入特征圖中的每個(gè)通道擠壓成一個(gè)值,忽略了每個(gè)通道的局部信息。在擠壓模塊采用全局平均池化僅得到次優(yōu)級特征信息,為了提取更精細(xì)的通道特征,Woo等[17]提出CBAM(Convolutional Block Attention Module),該模塊在擠壓模塊結(jié)合全局平均池化和最大值池化,并以串聯(lián)的方式融合通道注意力和空間注意力。全局上下文信息對語義分割至關(guān)重要,Zhang等[18]提出CEM(Context Encoding Module),將擠壓模塊中的全局平均池化替換為編碼塊(Encode),捕獲場景上下文語義,并結(jié)合語義編碼損失進(jìn)行分割。單獨(dú)使用全局平均池化會(huì)限制模型捕獲高階信息的能力,為解決該問題,Gao等[19]引入GSoP(Global Second-Order Pooling),在擠壓模塊計(jì)算不同通道的協(xié)方差矩陣以獲得其相關(guān)性,再對協(xié)方差矩陣進(jìn)行行方向歸一化以獲取通道間的關(guān)聯(lián)性。Qin等[20]證明了全局平均池化是離散余弦變換(Discrete Cosine Transform ,DCT)的一種特殊情況,由此提出一種新的多光譜通道注意。Lee等[21]提出SRM(Style-based Recalibration Module),在擠壓模塊通過計(jì)算輸入特征的均值和標(biāo)準(zhǔn)差捕獲更精細(xì)的全局特征,激勵(lì)模塊使用通道級全連接替代原有全連接,減少計(jì)算量。在激勵(lì)模塊中加入全連接操作,將不可避免增加參數(shù)數(shù)量以及消耗額外的計(jì)算資源,為了解決這一問題,Yang等[22]提出GCT(Gated Channel Transformation),通過計(jì)算各通道L2范數(shù)收集全局信息,特征縮放后采用信道歸一化進(jìn)行信道交互。Wang等[23]提出ECA(Efficient Channel Attention)塊,在激勵(lì)模塊使用一維卷積確定各通道之間的交互。

        為了提取包含更多局部信息的擠壓信息,本文對擠壓-激勵(lì)模塊進(jìn)行改進(jìn),提出一種基于非全局池化的通道注意力網(wǎng)絡(luò)結(jié)構(gòu),并將該網(wǎng)絡(luò)模塊應(yīng)用于語義分割中。本文主要貢獻(xiàn)如下:(1)對SENet通道注意力模塊進(jìn)行改進(jìn),提出一種基于非全局池化的通道注意力模塊,將原來的全局池化變成非全局池化,獲得更豐富的局部特征,有利于后續(xù)激勵(lì)模塊學(xué)習(xí)更好的通道權(quán)重。(2)將提出的非全局池化注意力模塊應(yīng)用到語義分割中,并在PASCAL VOC2012增強(qiáng)版分割數(shù)據(jù)集上驗(yàn)證語義分割方法的有效性。

        1 Attention-FCN模型

        FCN[7]網(wǎng)絡(luò)是經(jīng)典的語義分割網(wǎng)絡(luò)模型,本文提出的Attention-FCN模型是在FCN網(wǎng)絡(luò)模型的基礎(chǔ)上進(jìn)行改進(jìn),在FCN模型的特征提取網(wǎng)絡(luò)模塊中加入改進(jìn)后的擠壓-激勵(lì)模塊。

        1.1 Attention-FCN結(jié)構(gòu)

        Attention-FCN網(wǎng)絡(luò)模型,可以分為兩個(gè)部分。第一部分為特征提取部分,利用深度卷積神經(jīng)網(wǎng)絡(luò),堆疊卷積層、池化層和注意力模塊提取特征信息,通過池化層不斷縮小特征圖大小。該部分可采用VGG-16[24]和ResNet-34[25]作為特征提取網(wǎng)絡(luò)。第二部分為特征融合部分,采用轉(zhuǎn)置卷積將特征圖恢復(fù)到輸入圖像大小,同時(shí)利用跳躍連接,融合多個(gè)大小的特征圖信息。如圖1所示,輸入大小為H×W×C的圖像,特征提取網(wǎng)絡(luò)有3個(gè)不同的stage塊,每個(gè)stage塊后連接本文提出的改進(jìn)通道注意力模塊(Modified Channel Attention Block,MCAM)。

        1.2 全局池化的通道注意力模塊

        SENet采用的通道注意力模塊如圖2所示,包括擠壓(Squeeze)和激勵(lì)(Excitation)兩個(gè)模塊。

        設(shè)X=[x1,x2,…,xC′]為輸入特征,其大小為H′×W′×C′。 給定卷積變換Ftr,設(shè)V=[v1,v2,…,vC]為一組卷積核,vc表示第c個(gè)卷積核,(c=1,2,…,C),Ftr將輸入特征X映射到特征U=[u1,u2,…,uC],其中U的大小為H×W×C,則第c個(gè)通道的特征信息uc可用公式(1)表示:

        (1)

        擠壓模塊通過通道全局平均池化將U各通道全局空間信息uc壓縮成一個(gè)通道描述符zc。 則第c(c=1,2,…,C)個(gè)通道的特征描述符zc可用公式(2)表示:

        (2)

        激勵(lì)模塊將通過擠壓模塊得到的特征描述符映射到一組通道權(quán)值。該模塊采用兩個(gè)全連接(Fully Connected,FC)層先降維再升維,兩個(gè)全連接層之間采用ReLU函數(shù)作為激活函數(shù),最后一個(gè)全連接層的輸出經(jīng)Sigmoid函數(shù)激活后得到通道注意力權(quán)重s,則s可用公式(3)表示:

        s=Fex(z,W)=σ(W2δ(W1z)) ,

        (3)

        其中,σ表示Sigmoid函數(shù),δ表示ReLU函數(shù)。通道注意力權(quán)重作用在原特征U上進(jìn)行特征重標(biāo)定,即通道加權(quán),如公式(4)所示:

        (4)

        1.3 非全局池化的通道注意力模塊

        輸出特征U各通道特征uc的統(tǒng)計(jì)量可以表達(dá)整個(gè)圖像的信息。SENet采用最簡單的全局平均池化來聚合特征,即對同一個(gè)通道不同區(qū)域的信息賦予相同的權(quán)值,這種處理方式難以體現(xiàn)同一個(gè)通道內(nèi)不同區(qū)域特征的重要性。為了體現(xiàn)同一個(gè)通道內(nèi)不同區(qū)域信息的重要性,在擠壓模塊使用非全局平均池化替換全局平均池化,從而獲得通道更多的局部信息。非全局池化的通道注意力模塊如圖3所示。

        將原空間維度為H×W×C的特征圖通過窗格池化(非全局池化)壓縮成維度為k×k×C的特征圖,再通過C個(gè)核大小為k×k×C的卷積核卷積得到1×1×C的特征,最后經(jīng)過Sigmoid函數(shù)激活得到每個(gè)通道的權(quán)重,將該權(quán)重與輸入特征圖對應(yīng)通道相乘,實(shí)現(xiàn)通道級加權(quán),從而實(shí)現(xiàn)通道注意力機(jī)制。

        (5)

        (6)

        非全局平均池化模塊中,當(dāng)窗格大小k=1時(shí),得到zc為一個(gè)標(biāo)量,與SENet中擠壓模塊得到的輸出一致。

        為了將一個(gè)通道內(nèi)k×k個(gè)窗格的池化值融合成一個(gè)特征描述符,同時(shí)計(jì)算通道間的依賴關(guān)系,采用C個(gè)核大小為k×k×C的卷積核對Z=[z1,z2,…,zc]進(jìn)行卷積,得到通道注意力建模的輸出,最后經(jīng)Sigmoid函數(shù)激活后得到通道注意力權(quán)重s。s可用公式(7)表示:

        s=Fex′(z,W)=σ(Fconv(z)),

        (7)

        其中,σ表示Sigmoid函數(shù)。通道注意力權(quán)重作用在原特征上,對原特征進(jìn)行通道級注意力加權(quán),如公式(4)所示。

        2 實(shí)驗(yàn)與分析

        實(shí)驗(yàn)硬件環(huán)境:單CPU,型號(hào)為 Inter Xeon 4114,2.20 GHz;2張GPU卡,分別為NVIDIA Quadro RTX 4000和NVIDIA Quadro P5000。軟件環(huán)境:Unbuntu18.0、PyCharm、Python 3.7、Pytorch框架。訓(xùn)練時(shí)設(shè)置batchsize為10,優(yōu)化器為Adam,初始學(xué)習(xí)率為0.000 001,訓(xùn)練100輪。

        2.1 數(shù)據(jù)集

        使用PASCAL VOC2012增強(qiáng)版圖像分割數(shù)據(jù)集,包含來自PASCAL VOC2012數(shù)據(jù)的11 355張圖像的分割標(biāo)注,共20個(gè)對象類別,加背景21類,每張圖像大小為320×320像素。將數(shù)據(jù)集拆分為訓(xùn)練集8 498張、驗(yàn)證集1 427張、測試集1 430張。

        2.2 評價(jià)指標(biāo)

        為了評價(jià)算法的分割性能,采用像素準(zhǔn)確率(Pixel Accuracy,PA)、類別平均交并比(Mean Intersection over Union,MIoU)兩個(gè)評價(jià)指標(biāo)進(jìn)行定量評價(jià)。PA是語義分割中最常用的像素級評價(jià)指標(biāo),其計(jì)算圖像中正確分類的像素占圖像中總像素?cái)?shù)比值。MIoU是分割結(jié)果真值的交集與其并集的比值(Intersection over Union,IoU)按類計(jì)算后取平均值。像素準(zhǔn)確率和平均交并比定義分別如公式(8)和(9)所示,公式(10)表示某一類別的交并比。

        (8)

        (9)

        (10)

        其中,TP(True Positive)為真正,FP為假正(False Positive),TN為真負(fù)(True Negative),FN為假負(fù)(False Negative)。pii表示第i類被預(yù)測為第i類的像素個(gè)數(shù),pij表示第i類被預(yù)測為第j類的像素?cái)?shù)量,pji表示第j類被預(yù)測為第i類的像素?cái)?shù)量,n是類別數(shù)。PA和MIoU的取值范圍都是[0,1],他們的值越大說明分割效果越好,反之則表明分割效果變差。

        2.3 不同大小窗格對比

        非全局平均池化模塊窗格大小k對最終的分割效果有一定的影響。為了得到最佳窗格大小,設(shè)計(jì)6種不同的窗格池化大小進(jìn)行對比實(shí)驗(yàn),實(shí)驗(yàn)?zāi)P褪腔赗esNet-34的FCN,在兩種評價(jià)指標(biāo)下的分割性能如表1所示。從表1中可以看出,當(dāng)k=7時(shí)的PA最高,k=9時(shí)Miou最高,由于k=7時(shí)的計(jì)算量比k=9低,因此綜合考慮,本文選擇k=7。

        表1 不同窗格大小下的性能指標(biāo)對比

        2.4 不同組合結(jié)構(gòu)對比

        為了驗(yàn)證本文提出的非全局池化通道注意力的有效性,對比了不同模塊組合下模型的分割性能。實(shí)驗(yàn)?zāi)P褪腔赗esNet-34的FCN,窗格大小設(shè)置為k=7,分割性能如表2所示。從表2中可以看出,Pool+Conv組合結(jié)構(gòu)分割性能最好。需要指出的是,前面不同窗格大小對比實(shí)驗(yàn)時(shí)采用的是Pool+Conv組合結(jié)構(gòu)得到的結(jié)果。

        表2 不同模塊組合下的性能指標(biāo)對比

        2.5 不同通道注意力模塊對比

        為了進(jìn)一步驗(yàn)證非全局池化通道注意力模塊對分割性能的提升情況,將本文提出的注意力模塊與SE、CBAM分別在基于VGG-16和ResNet-34特征提取網(wǎng)絡(luò)的FCN網(wǎng)絡(luò)模型上進(jìn)行對比實(shí)驗(yàn)。在兩種評價(jià)指標(biāo)下的分割性能對比如表3、表4所示。由表3、表4可以看出,本文提出的窗格池化方法的兩個(gè)指標(biāo)都優(yōu)于基線網(wǎng)絡(luò)和其他兩種通道注意力方法,其中,基于ResNet-34的Attention-FCN,PA比最好的高了1.24個(gè)百分點(diǎn),MIoU比最好的高了4.64個(gè)百分點(diǎn);基于VGG-16的Attention-FCN,MIoU比最好的高了3.9個(gè)百分點(diǎn)。

        表3 本文方法與其他通道注意力性能指標(biāo)對比(基于ResNet-34)

        表4 本文方法與其他通道注意力性能指標(biāo)對比(基于VGG-16)

        2.6 分割結(jié)果展示

        圖4展示了部分基于ResNet-34特征提取網(wǎng)絡(luò)的Attention-FCN分割效果圖,其中第1列是原始圖像,第2列是真實(shí)掩模圖,第3列是未使用任何通道注意力模塊的FCN得到的分割圖像,第4列是在FCN中加入SE模塊得到的分割圖像,第5列是在FCN中加入CBAM模塊得到的分割圖像,第6列是在FCN中加入本文的MCAM模塊得到的分割圖像。從圖4可以看出,第3—5列均存在錯(cuò)分類現(xiàn)象,而使用本文方法得到的分割圖像(第6列圖像)更接近真實(shí)掩模圖(第2列圖像),比其他3種結(jié)構(gòu)(第3—5列)的分割效果更好。

        3 結(jié) 語

        本文提出一種非全局池化的通道注意力網(wǎng)絡(luò)模塊,并將它用于Attention-FCN語義分割模型中。非全局池化更能捕獲通道的局部特征,獲得更準(zhǔn)確的通道權(quán)重,建立更好的通道依賴。在PASCAL VOC2012增強(qiáng)版數(shù)據(jù)集上的語義分割實(shí)驗(yàn)表明,提出的改進(jìn)通道注意力網(wǎng)絡(luò)模塊能有效提升語義分割性能,優(yōu)于其他對比通道注意力網(wǎng)絡(luò)模塊。但是,該算法也存在一定的局限性,如窗格大小需人工設(shè)定。后續(xù)將進(jìn)一步將此注意力模塊應(yīng)用到其他網(wǎng)絡(luò)模型以及其他任務(wù)中,進(jìn)一步驗(yàn)證其性能。

        猜你喜歡
        語義特征
        抓住特征巧觀察
        新型冠狀病毒及其流行病學(xué)特征認(rèn)識(shí)
        語言與語義
        如何表達(dá)“特征”
        不忠誠的四個(gè)特征
        抓住特征巧觀察
        “上”與“下”語義的不對稱性及其認(rèn)知闡釋
        認(rèn)知范疇模糊與語義模糊
        線性代數(shù)的應(yīng)用特征
        河南科技(2014年23期)2014-02-27 14:19:15
        “深+N季”組配的認(rèn)知語義分析
        一区二区三区极品少妇| 午夜婷婷国产麻豆精品| 亚洲va欧美va人人爽夜夜嗨| 国产洗浴会所三级av| 欧美激情乱人伦| 全免费a级毛片免费看网站| 午夜亚洲国产理论片亚洲2020| 日本最新在线一区二区| 国产午夜视频一区二区三区| 爆乳熟妇一区二区三区霸乳| 91av在线播放| 亚洲视频不卡免费在线| 无码一区二区三区久久精品| 亚洲国产免费一区二区| 变态另类人妖一区二区三区| 果冻传媒2021精品一区| 中日韩欧美在线观看| 一个人看的在线播放视频| 日韩亚洲精品中文字幕在线观看| 乌克兰粉嫩xxx极品hd| 98精品国产综合久久| 国产精品亚洲av网站| 国产的自拍av免费的在线观看 | 国产成人精品三级麻豆| 99久久精品国产一区色| 午夜久久久久久禁播电影| 欧洲人妻丰满av无码久久不卡| 欧美日韩a级a| 国产精品一区二区三区av在线| 国产精品国三级国产av| 中国精品久久精品三级| 一区二区三区岛国av毛片| 在线观看一级黄片天堂| 无码成人aaaaa毛片| 国产高潮流白浆免费观看不卡| 亚洲天堂av黄色在线观看| 少妇人妻在线无码天堂视频网| 国产伦精品一区二区三区视| 亚洲一区二区三区厕所偷拍| 亚洲av综合一区二区在线观看| 久久精品亚洲乱码伦伦中文|