亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于特征融合注意力的小樣本語(yǔ)義分割算法*

        2023-12-07 11:06:56李囈瑾李少龍
        廣西科學(xué) 2023年5期
        關(guān)鍵詞:注意力語(yǔ)義卷積

        李囈瑾,李少龍**,賀 彥,劉 煒

        (1.云南電網(wǎng)有限責(zé)任公司信息中心,云南昆明 650200;2.北京國(guó)科恒通科技股份有限公司,北京 100085;3.清華大學(xué)電機(jī)工程與應(yīng)用電子技術(shù)系,北京 100084)

        語(yǔ)義分割的目的是為圖像中的每個(gè)像素點(diǎn)分配一個(gè)類標(biāo)簽,在醫(yī)療診斷、無(wú)人駕駛、圖片編輯等領(lǐng)域具有廣泛的應(yīng)用前景[1]。近年來(lái),基于深度學(xué)習(xí)的語(yǔ)義分割模型取得了突破性的進(jìn)展,如全卷積神經(jīng)網(wǎng)絡(luò)FCN、DeepLab、UNet和PSPNet等[2],并利用膨脹卷積來(lái)增大感受野[3],從而增強(qiáng)了模型的分割性能。然而,基于深度學(xué)習(xí)的主流語(yǔ)義分割模型需要大量逐像素的標(biāo)注數(shù)據(jù),這類標(biāo)注數(shù)據(jù)的獲取費(fèi)時(shí)費(fèi)力成本高。雖然弱監(jiān)督學(xué)習(xí)方法可以緩解模型對(duì)像素級(jí)標(biāo)注的依賴,但仍然需要大量的弱標(biāo)注數(shù)據(jù)[4]。此外,基于弱監(jiān)督學(xué)習(xí)方法的模型對(duì)于新類或標(biāo)注不充分的目標(biāo)類的泛化性能較差。

        受小樣本學(xué)習(xí)的啟發(fā),Shaban等[5]提出了一種基于雙分支結(jié)構(gòu)的小樣本語(yǔ)義分割模型,其中支持分支將支持圖片及對(duì)應(yīng)的標(biāo)注掩碼作為輸入,學(xué)習(xí)指導(dǎo)信息;查詢分支以查詢圖片為輸入,預(yù)測(cè)對(duì)應(yīng)的分割掩碼。之后,眾多研究者基于該雙分支結(jié)構(gòu)去構(gòu)造各種變體分割模型,提高模型對(duì)目標(biāo)物體的分割性能[6,7]。

        現(xiàn)有的小樣本語(yǔ)義分割模型主要包括度量學(xué)習(xí)和元學(xué)習(xí)兩大類[8]。度量學(xué)習(xí)方法首先利用支持分支獲得每一像素的特征表示,然后通過(guò)計(jì)算查詢圖片中每一像素與特征表示之間的相似度,給出查詢圖片中目標(biāo)物體的分割。Wang等[9]提出了一種特征對(duì)齊的小樣本語(yǔ)義分割模型,該模型利用全局平均池化策略獲取支持圖片的全局特征并將其作為目標(biāo)物體的特征表示。Zhang等[10]針對(duì)全局平均池化策略極易造成目標(biāo)背景對(duì)前景干擾的問(wèn)題,提出了一種掩碼平均池化策略,該策略利用支持圖片的掩碼來(lái)分離目標(biāo)的前景和背景,充分挖掘前景信息從而提高分割的性能。然而,僅利用全局平均特征構(gòu)造單一原型不足以充分表示目標(biāo)的不同部分。為此,Liu等[11]提出了一種多特征表示的小樣本語(yǔ)義分割模型,其通過(guò)均等劃分支持分支中目標(biāo)物體的多個(gè)區(qū)域并借助掩碼平均池化獲取每個(gè)區(qū)域的平均特征,從而構(gòu)造目標(biāo)物體的多個(gè)特征表示。類似地,Li等[12]提出了一種自適應(yīng)多特征表示的小樣本語(yǔ)義分割模型,其借助支持分支的掩碼信息獲取多個(gè)不同大小的目標(biāo)區(qū)域,并利用掩碼池化策略提取每個(gè)區(qū)域的特征表示。賈熹濱等[13]提出了一種金字塔原型對(duì)齊的小樣本語(yǔ)義分割模型,它通過(guò)提取不同尺度的特征構(gòu)造目標(biāo)物體的特征表達(dá),并通過(guò)計(jì)算特征表達(dá)與查詢分支目標(biāo)物體之間的相似度分割目標(biāo)區(qū)域。Liu等[14]設(shè)計(jì)了一種動(dòng)態(tài)原型卷積網(wǎng)絡(luò)來(lái)構(gòu)造類的特定多原型表示,該網(wǎng)絡(luò)能夠充分捕獲目標(biāo)的細(xì)節(jié)特征從而提高分割性能,并且可以被應(yīng)用在小目標(biāo)、多目標(biāo)等復(fù)雜場(chǎng)景中。

        元學(xué)習(xí)又稱“學(xué)習(xí)如何學(xué)習(xí)”,指的是通過(guò)在多個(gè)任務(wù)中學(xué)習(xí)分割先驗(yàn)知識(shí)(一組參數(shù))來(lái)指導(dǎo)新任務(wù)的過(guò)程,旨在強(qiáng)化模型的泛化性能。Liu等[15]提出了一種基于Transformer的小樣本語(yǔ)義分割模型,該模型利用Transformer編碼塊提供的注意力機(jī)制,構(gòu)造動(dòng)態(tài)權(quán)重的分類器,并采用預(yù)訓(xùn)練模型固化的策略,解決了小樣本數(shù)據(jù)樣本不足的問(wèn)題。劉宇軒等[16]針對(duì)支持圖像和查詢圖像共性信息利用不足的問(wèn)題,提出了一種結(jié)合全局和局部特征的小樣本語(yǔ)義分割模型,并在PASCAL數(shù)據(jù)集上驗(yàn)證了其有效性。Pambala等[17]提出了一種基于元學(xué)習(xí)的小樣本語(yǔ)義分割模型,在視覺(jué)信息的基礎(chǔ)上通過(guò)引入文本語(yǔ)義信息來(lái)構(gòu)造多尺度的融合特征,并利用解碼器分割目標(biāo)物體。雖然上述模型取得了一定的成功,但高質(zhì)量的特征提取更能夠進(jìn)一步提升下游的分割性能。Tian等[18]在特征編碼階段提出了一種強(qiáng)區(qū)分性的元學(xué)習(xí)模塊,通過(guò)挖掘局部和全局特征圖來(lái)進(jìn)一步提高特征的表達(dá)能力。Wu等[19]在支持分支和查詢分支特征提取模塊之后引入了一種元記憶學(xué)習(xí)模塊,通過(guò)學(xué)習(xí)記憶支持圖片和查詢圖片的相似性語(yǔ)義信息,來(lái)強(qiáng)化特征的表達(dá)能力。

        雖然基于度量學(xué)習(xí)的小樣本語(yǔ)義分割模型結(jié)構(gòu)簡(jiǎn)單,參數(shù)較少,但其分割性能過(guò)度依賴于原型的質(zhì)量。此外,僅利用無(wú)參數(shù)的相似度度量計(jì)算極易導(dǎo)致信息丟失或歧義?;谠獙W(xué)習(xí)的小樣本語(yǔ)義分割模型雖然可以解決上述性能不佳的問(wèn)題,但現(xiàn)有的該類分割模型主要聚焦于支持分支中支持圖片的前景和背景的信息挖掘,而無(wú)法有效利用查詢圖片的信息。因此,本文提出的多特征融合的小樣本語(yǔ)義分割模型仍然采用元學(xué)習(xí)的架構(gòu)并在充分利用支持圖片的前景、背景信息的同時(shí),進(jìn)一步挖掘查詢分支中查詢圖片的信息,從而解決了現(xiàn)有的基于元學(xué)習(xí)模型對(duì)于查詢圖片信息利用不充分的問(wèn)題。具體來(lái)說(shuō),所提出模型首先通過(guò)引入注意力模塊從支持圖片和查詢圖片中學(xué)習(xí)語(yǔ)義關(guān)聯(lián)特征圖;然后,借助掩碼平均池化方法提取支持圖片中前景和背景信息的全局特征;最后,利用特征融合模塊將前景和背景特征進(jìn)行尺度融合,并將其融合特征作為解碼塊的輸入實(shí)現(xiàn)查詢圖片的掩碼預(yù)測(cè)。

        1 任務(wù)定義

        θ的訓(xùn)練和測(cè)試采用episodic機(jī)制,每個(gè)episodic可以簡(jiǎn)化為一個(gè)C-way K-shot的學(xué)習(xí)任務(wù)。支持集Si由K張圖片及其對(duì)應(yīng)的掩碼組成,即S=(image,mask);類似地,查詢集Qi由與支持集語(yǔ)義類相同的L張圖片組成Q=(image,mask)。然而,測(cè)試階段中的查詢圖片沒(méi)有對(duì)應(yīng)的mask,即image∈3×h×w,mask∈h×w。

        2 小樣本語(yǔ)義分割模型

        2.1 模型結(jié)構(gòu)

        圖1給出了所提出模型的結(jié)構(gòu),包括特征提取、語(yǔ)義關(guān)聯(lián)注意力模塊、多特征融合模塊和解碼器等4部分。首先,使用同一個(gè)特征提取器編碼查詢圖片和支持圖片;其次,利用注意力機(jī)制來(lái)映射支持特征和查詢特征之間的強(qiáng)語(yǔ)義相關(guān);最后,通過(guò)特征融合注意力模塊融合多個(gè)不同來(lái)源的特征,并利用解碼塊分割查詢圖片。

        2.2 特征提取

        特征提取的質(zhì)量直接影響分割的效果。雖然淺層特征攜帶顏色、邊緣等低層次線索,但其在語(yǔ)義層面上的區(qū)分性不強(qiáng);而高層特征盡管具有較強(qiáng)的語(yǔ)義類區(qū)分能力,但難遷移到對(duì)未知類的分割任務(wù)中。此外,小目標(biāo)物體由于下采樣操作,其信息極易丟失,從而影響分割效果。為此,本文通過(guò)構(gòu)造多尺度特征提取網(wǎng)絡(luò)來(lái)強(qiáng)化深度特征空間的語(yǔ)義表達(dá)能力。特征提取網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。

        圖1 模型架構(gòu)

        具體來(lái)說(shuō),首先利用在ImageNet上預(yù)訓(xùn)練的VGG-16、ResNet-50和ResNet-101分別作為主干網(wǎng)絡(luò)進(jìn)行多尺度特征提取。多尺度特征表示如公式(1)所示。

        Fs=fsl⊕fsm⊕fsh,

        (1)

        其中,Fs表示融合后的特征;fsl表示低層特征,fsm表示中間層特征,fsh表示高層特征;⊕表示向量的連接操作。

        考慮到深度卷積網(wǎng)絡(luò)對(duì)于硬件要求較高,此處采用深度可分離卷積代替主干網(wǎng)絡(luò)中的部分卷積塊,通過(guò)減少模型參數(shù)計(jì)算量來(lái)降低運(yùn)行時(shí)間開(kāi)銷,深度可分離卷積的結(jié)構(gòu)如圖3所示。具體來(lái)說(shuō),首先利用主干網(wǎng)絡(luò)的第一個(gè)block將輸入的支持圖片Is和查詢圖片Iq映射到淺層特征空間,獲得特征圖Fo;然后,作為深度卷積(Depth-Wise Convolution,DWC)的輸入沿著通道維度進(jìn)行分解。將標(biāo)準(zhǔn)卷積過(guò)程分解成K個(gè)等效的DWC和N個(gè)逐點(diǎn)卷積(Pointwise Convolution,PC),值得一提的是PC能夠在保持特征提取質(zhì)量不變的基礎(chǔ)上降低計(jì)算復(fù)雜度。此處,DWC的輸出特征圖表示為Fdw,支持圖片Is和查詢圖片Iq的深度融合特征表示為Fpc。最后,將主干網(wǎng)絡(luò)中每個(gè)block替換成圖3所示的卷積結(jié)構(gòu),從而獲得最終的支持圖片融合特征Fs和查詢圖片融合特征Fq。值得注意的是,此處特征包括前景區(qū)域特征和背景區(qū)域特征。

        2.3 語(yǔ)義關(guān)聯(lián)注意力

        現(xiàn)有的小樣本語(yǔ)義分割模型大多使用從支持分支中提取類的特征表達(dá)來(lái)指導(dǎo)查詢圖像的分割[9,12]。然而當(dāng)帶標(biāo)注的支持圖片數(shù)量有限時(shí),極易導(dǎo)致從中提取的特征不足以表達(dá)類的強(qiáng)語(yǔ)義相關(guān)性,從而使得模型對(duì)于查詢圖片的預(yù)測(cè)不精確。為了解決該問(wèn)題,受注意力機(jī)制在視覺(jué)和文本領(lǐng)域成功應(yīng)用的啟發(fā),本文提出一種語(yǔ)義關(guān)聯(lián)注意力模塊(圖4)。

        圖3 深度可分離卷積

        圖4 語(yǔ)義關(guān)聯(lián)注意力模塊

        考慮到支持分支和查詢分支中的圖片具有相同的語(yǔ)義信息,因此利用圖4所示的語(yǔ)義關(guān)聯(lián)注意力模塊獲取新的強(qiáng)語(yǔ)義特征。首先,將{Fs,Fq}∈512×56×56作為注意力模塊的輸入;然后,利用余弦相似度計(jì)算支持特征和查詢特征的Top-H得分,從而選取最相似的H個(gè)特征構(gòu)造新的語(yǔ)義特征。利用以上語(yǔ)義關(guān)聯(lián)注意力模塊獲取的語(yǔ)義特征能夠在特征融合階段幫助定位查詢圖片的目標(biāo)區(qū)域,從而有效解決現(xiàn)有模型對(duì)于目標(biāo)區(qū)域定位不精確的問(wèn)題。

        圖4中,模塊首先計(jì)算了支持特征Fs和查詢特征Fq在每一位置(x,y)處的余弦相似度[11],計(jì)算公式如下:

        (2)

        然后,利用公式(3)選擇得分最高的H個(gè)相似性特征構(gòu)造語(yǔ)義關(guān)聯(lián)特征Rs∈K×56×56。

        Rs= argmaxTop-H(Ds)。

        (3)

        最后,利用全局平均池化(Global Average Pooling,GAP)[20]獲取每個(gè)特征區(qū)域的平均特征Rs′∈K×1,并利用softmax函數(shù)沿通道方向計(jì)算每個(gè)位置的語(yǔ)義注意力Asi,計(jì)算公式如下:

        (4)

        2.4 多特征注意力融合模塊

        由于拍攝角度、顏色變化和遮擋等外界因素的影響,來(lái)自同一語(yǔ)義類的支持圖片和查詢圖片會(huì)存在很大差異,這極大地增加了分割的難度。因此,本文設(shè)計(jì)了一種多特征注意力融合模塊,在支持圖片和查詢圖片語(yǔ)義注意力生成圖的基礎(chǔ)上,該模塊通過(guò)融合支持圖片掩碼過(guò)濾后的前景信息和查詢圖片的深度語(yǔ)義信息來(lái)進(jìn)一步強(qiáng)化支持圖片和查詢圖片之間的語(yǔ)義關(guān)聯(lián)。具體來(lái)說(shuō),特征注意力融合模塊的輸入端包括語(yǔ)義關(guān)聯(lián)注意力特征Rs∈K×56×56、掩碼后的支持特征Fs′∈512×448×448和查詢特征Fq∈512×56×56這3個(gè)分支。此處借助注意力機(jī)制的思想,融合(R,Fs′)、(R,Fq)和(Fs′,Fq)3個(gè)不同尺度的特征,并將融合后的特征進(jìn)行歸一化操作,得到最終的融合特征FF∈512×56×56。特征融合流程如圖5所示。此處,以{Fs′,Fq}為例說(shuō)明特征融合的流程。

        圖5 特征融合注意力

        首先,將{Fs′,Fq}∈512×56×56利用reshape函數(shù)轉(zhuǎn)換為{Fs′,Fq}∈512×N,N=56×56,并利用公式(5)計(jì)算單特征之間的相似性矩陣M1∈512×512。

        M1=Fs′FqT。

        (5)

        然后利用softmax函數(shù)按行計(jì)算注意力權(quán)重W,并與單特征矩陣相乘獲得融合特征F1。計(jì)算如公式(6)所示。

        F1=softmax(M1)×Fs′+softmax(M1)×Fq。

        (6)

        接著利用點(diǎn)乘運(yùn)算將所有特征兩兩融合,得到最終的強(qiáng)語(yǔ)義特征FF=F1(Fs′,Fq)·F2(R,Fq)·F3(R,Fs)。最后,將強(qiáng)語(yǔ)義特征FF∈512×56×56作為解碼器的輸入,得到查詢圖片的分割掩碼,并利用交叉熵?fù)p失函數(shù)實(shí)現(xiàn)模型端到端的優(yōu)化。

        3 實(shí)驗(yàn)與結(jié)果分析

        3.1 數(shù)據(jù)集

        采用經(jīng)典的PASCAL-5i[21]和COCO-20i[22]數(shù)據(jù)集進(jìn)行模型訓(xùn)練與測(cè)試。其中PASCAL-5i包含5 953張訓(xùn)練圖片和1 449張測(cè)試圖片,共包含20個(gè)類,劃分為4折,其中3折(15類)用于訓(xùn)練,剩余用于測(cè)試;COCO-20i每張圖片中包含的類別更多,包括82 081張訓(xùn)練圖片和40 137張測(cè)試圖片,共包含80類,其中3折(60類)用于訓(xùn)練,剩余用于測(cè)試。數(shù)據(jù)集詳細(xì)信息如表1所示,部分樣本如圖6所示。

        表1 數(shù)據(jù)集描述

        圖6 樣本圖片

        3.2 實(shí)驗(yàn)環(huán)境與評(píng)價(jià)指標(biāo)

        硬件:Nvidia A100 8×40 GB GPU。軟件:Python 3.7,pytorch深度學(xué)習(xí)框架。利用文獻(xiàn)[7]中的VGG-16和文獻(xiàn)[15]中的ResNet-50和ResNet-101等預(yù)訓(xùn)練模型作為特征提取器。輸入圖片的大小為448×448;優(yōu)化器采用Adam;初始學(xué)習(xí)率為0.000 1,權(quán)重衰減因子為0.000 5,batch_size為8。

        采用平均交并比mIoU (mean Intersection over Union)和前景背景二分類交并比FB-IoU(Foreground and Background IoU)[5]作為評(píng)價(jià)指標(biāo)。其中,mIoU為所有類別真實(shí)值和預(yù)測(cè)值的交集和并集之比,FB-IoU表示類別為2的二分類任務(wù)。計(jì)算公式如(7)所示。

        (7)

        其中,k+1表示識(shí)別的總類別數(shù),i表示真實(shí)標(biāo)記,j表示預(yù)測(cè)標(biāo)注,pij表示將i預(yù)測(cè)為j。

        3.3 對(duì)比實(shí)驗(yàn)

        3.3.1 PASCAL-5i

        為驗(yàn)證所提出模型的優(yōu)越性,在PASCAL-5i數(shù)據(jù)集上與當(dāng)前主流模型進(jìn)行對(duì)比實(shí)驗(yàn),詳細(xì)結(jié)果見(jiàn)表2。當(dāng)VGG-16作為主干網(wǎng)絡(luò)時(shí),所提出模型在1-shot任務(wù)中可以獲得50.6%的mIoU和69.2%的FB-IoU。在5-shot任務(wù)中,雖然在mIoU評(píng)價(jià)指標(biāo)下所提出模型略遜于PANet,但在FB-IoU指標(biāo)下所提出模型比PANet提高了0.84%;當(dāng)ResNet-50作為主干網(wǎng)絡(luò)時(shí),所提出模型在1-shot和5-shot任務(wù)上可以達(dá)到59.4%和60.1%的mIoU以及72.8%和73.4%的FB-IoU,整體優(yōu)勢(shì)明顯;當(dāng)ResNet-101作為主干網(wǎng)絡(luò)時(shí),在1-shot和5-shot任務(wù)中,盡管在mIoU評(píng)價(jià)指標(biāo)下所提出模型略遜于GL模型,但在FB-IoU指標(biāo)下,所提出模型分別在1-shot和5-shot任務(wù)中比GL模型提高了1.22%(73.8%→74.7%)和0.94%(74.8%→ 75.5%)。

        表2 1-way 1-shot和1-way 5-shot在PASCAL-5i上的分割結(jié)果

        3.3.2 COCO-20i

        為進(jìn)一步驗(yàn)證所提出模型的有效性,在更具有挑戰(zhàn)性的COCO-20i數(shù)據(jù)集上與當(dāng)前主流模型進(jìn)行對(duì)比實(shí)驗(yàn),詳細(xì)結(jié)果見(jiàn)表3。當(dāng)VGG-16作為主干網(wǎng)絡(luò)時(shí),所提出模型在1-shot任務(wù)中可以達(dá)到35.8%的mIoU和61.6%的FB-IoU;在5-shot任務(wù)中,所提出模型略遜于FFNet;當(dāng)ResNet-50作為主干網(wǎng)絡(luò)時(shí),所提出模型在1-shot和5-shot任務(wù)上可以達(dá)到38.6%和41.3%的mIoU以及64.2%和66.8%的FB-IoU;相比1-shot的分割任務(wù),5-shot的mIoU增加7.0%(38.6%→41.3%),這表明所提出模型可以充分利用支持圖片的信息來(lái)提高模型的分割性能。當(dāng)ResNet-101作為主干網(wǎng)絡(luò)時(shí),所提出模型在mIoU和FB-IoU評(píng)價(jià)指標(biāo)下,相比所有對(duì)比模型,整體優(yōu)勢(shì)明顯。

        3.3.3 2-way 1-shot和2-way 5-shot

        為了驗(yàn)證所提出模型的魯棒性,選擇ResNet-50作為主干網(wǎng)絡(luò),PANet[9]為對(duì)比模型,在PASCAL-5i和COCO-20i數(shù)據(jù)集上分別進(jìn)行2-way 1-shot和2-way 5-shot的對(duì)比實(shí)驗(yàn),結(jié)果詳見(jiàn)表4。所提出模型在PASCAL-5i和COCO-20i數(shù)據(jù)集上整體2-way的分割性能明顯強(qiáng)于PANet。具體地,在PASCAL-5i數(shù)據(jù)集上,所提出模型在1-shot任務(wù)上可以達(dá)到48.3%、55.1%和56.8%的mIoU,相比PANet至少提升10.9%;在5-shot任務(wù)上可以達(dá)到50.6%、57.1%和58.3%的mIoU。在更具有挑戰(zhàn)性的COCO-20i數(shù)據(jù)集上,所提出模型在5-shot任務(wù)上可以達(dá)到36.8%、37.9%和32.9%的mIoU,相比PANet至少提升9.3%。上述結(jié)果進(jìn)一步驗(yàn)證了所提出模型更加魯棒。

        表3 1-way 1-shot和1-way 5-shot在COCO-20i上的分割結(jié)果

        表4 2-way 1-shot和2-way 5-shot在PASCAL-5i和COCO-20i上的分割結(jié)果

        3.3.4 可視化結(jié)果

        圖7是所提出模型和PANet模型的分割可視化結(jié)果。從圖7可以看出,雖然PANet可以準(zhǔn)確地找到待分割目標(biāo)的位置,但仍會(huì)出現(xiàn)丟失部分細(xì)節(jié)或誤分割的情況。相比而言,所提出模型可以準(zhǔn)確地將輪船、飛機(jī)、貓和自行車等類別從查詢圖片中分割出來(lái),整體分割效果更好,可視化結(jié)果進(jìn)一步驗(yàn)證了所提出的多特征融合的小樣本語(yǔ)義分割模型的優(yōu)越性。

        圖7 分割可視化結(jié)果

        3.4 消融實(shí)驗(yàn)

        首先,為了降低模型的參數(shù)量,所提出模型采用深度可分離卷積代替主干網(wǎng)絡(luò)中的卷積塊。為了探究深度可分離卷積對(duì)整體性能的影響,在1-way 1-shot 任務(wù)上利用PASCAL-5i和COCO-20i數(shù)據(jù)集,采用ResNet-50作為主干網(wǎng)絡(luò)設(shè)計(jì)消融實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如表5所示,利用深度可分離卷積塊代替標(biāo)準(zhǔn)卷積塊的設(shè)計(jì)雖然對(duì)mIoU和FB-IoU評(píng)價(jià)指標(biāo)的提升效果不明顯,但是能夠極大地減少模型參數(shù)量,從而有效地解決模型對(duì)硬件過(guò)于依賴的問(wèn)題。

        表5 深度可分離卷積消融實(shí)驗(yàn)

        其次,為了探究語(yǔ)義關(guān)聯(lián)注意力模塊對(duì)模型性能的影響,在1-way 1-shot 任務(wù)上利用PASCAL-5i和COCO-20i數(shù)據(jù)集,采用ResNet-50作為主干網(wǎng)絡(luò)設(shè)計(jì)消融實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表6所示。結(jié)果表明引入語(yǔ)義關(guān)聯(lián)注意力模塊能夠顯著提升模型的分割性能,究其原因是語(yǔ)義關(guān)聯(lián)注意力模塊引入了支持圖片和查詢圖片之間的強(qiáng)語(yǔ)義關(guān)聯(lián),這有助于捕獲到目標(biāo)物體的位置及其更多細(xì)節(jié)信息。

        表6 語(yǔ)義關(guān)聯(lián)注意力模塊消融實(shí)驗(yàn)

        最后,為了驗(yàn)證所提出設(shè)計(jì)的多特征注意力融合模塊的優(yōu)越性,在1-way 1-shot任務(wù)上利用PASCAL-5i和COCO-20i數(shù)據(jù)集,采用ResNet-50作為主干網(wǎng)絡(luò)設(shè)計(jì)消融實(shí)驗(yàn),基線模型采用簡(jiǎn)單的向量拼接方式將多個(gè)輸入特征圖進(jìn)行融合,實(shí)驗(yàn)結(jié)果如表7所示。相比基線模型,將語(yǔ)義關(guān)聯(lián)注意力特征圖、掩碼后的支持特征和查詢特征利用多特征注意力融合模塊進(jìn)行特征融合,在兩個(gè)數(shù)據(jù)集上分別提升了10.4% mIoU和13.4% FB-IoU(1-shot),18.0% mIoU和8.3% FB-IoU(5-shot),分割性能明顯提升。

        表7 多特征注意力融合模塊消融實(shí)驗(yàn)

        4 結(jié)論

        針對(duì)現(xiàn)有模型對(duì)于支持分支查詢圖片信息利用不充分的問(wèn)題,本文在元學(xué)習(xí)方法的基礎(chǔ)上,提出了一種新的小樣本語(yǔ)義分割方法。該方法利用深度可分離卷積代替原始卷積塊,降低了其對(duì)硬件資源的要求。此外,受注意力機(jī)制的啟發(fā)設(shè)計(jì)一種語(yǔ)義關(guān)聯(lián)注意力模塊,該模塊通過(guò)計(jì)算支持特征和查詢特征之間的相似性來(lái)引入上下文語(yǔ)義信息,從而提高了模型對(duì)未知目標(biāo)物體分割時(shí)定位的準(zhǔn)確性。在PASCAL-5i和COCO-20i數(shù)據(jù)集上進(jìn)行測(cè)試,實(shí)驗(yàn)結(jié)果表明所提出模型比起對(duì)比模型,整體優(yōu)勢(shì)較為顯著。在未來(lái)工作中,可以利用交叉注意力機(jī)制建立查詢編碼特征與支持前景特征之間的關(guān)聯(lián),從而強(qiáng)化目標(biāo)前景原型的表達(dá)能力。

        猜你喜歡
        注意力語(yǔ)義卷積
        讓注意力“飛”回來(lái)
        基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
        語(yǔ)言與語(yǔ)義
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        基于傅里葉域卷積表示的目標(biāo)跟蹤算法
        “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
        A Beautiful Way Of Looking At Things
        “上”與“下”語(yǔ)義的不對(duì)稱性及其認(rèn)知闡釋
        認(rèn)知范疇模糊與語(yǔ)義模糊
        一種基于卷積神經(jīng)網(wǎng)絡(luò)的性別識(shí)別方法
        免费观看的av毛片的网站 | 国产成人精品午夜福利在线| 国产综合自拍| 亚洲精品乱码久久久久99| 自拍情爱视频在线观看| 亚洲中文字幕剧情类别| 精品无码国产自产拍在线观看| 日韩av高清无码| 亚洲国产日韩欧美高清片a| 精品女厕偷拍视频一区二区区| 在线中文字幕乱码英文字幕正常| 在线永久免费观看黄网站| 91精品啪在线看国产网站| 老岳肥屁熟女四五十路| 高清毛茸茸的中国少妇| 日韩乱码人妻无码中文字幕视频| 亚洲乱码少妇中文字幕| 精品久久中文字幕一区| 亚洲女人毛茸茸粉红大阴户传播| 少妇性饥渴无码a区免费| 一本大道香蕉视频在线观看| 青青草手机成人自拍视频| 国产精品一区二区三区在线免费| 18禁黄久久久aaa片| 亚洲国产精品自产拍久久蜜AV| 国产精品女同二区五区九区| 国产精品美女一区二区视频| 2019最新国产不卡a| 九九精品国产99精品| 日本97色视频日本熟妇视频| 色综合久久蜜芽国产精品| 国产一区二区三区在线观看免费| 人妻少妇看A偷人无码电影| 沐浴偷拍一区二区视频| 一区二区三区乱码在线 | 欧洲| 亚洲欧美中文在线观看4| 成人性生交大片免费看i| 国产成人精品久久亚洲高清不卡| 久久久久久成人毛片免费看 | 亚洲 欧美 综合 另类 中字 | 91青青草久久|