摘要: 針對(duì)現(xiàn)有的小樣本語義分割模型對(duì)未知新類分割精度不高的問題,提出一種基于元學(xué)習(xí)的小樣本語義分割算法.首先,利用深度可分離卷積改進(jìn)傳統(tǒng)主干網(wǎng)絡(luò),并在ImageNet數(shù)據(jù)集上進(jìn)行了編碼器的預(yù)訓(xùn)練.其次,利用預(yù)訓(xùn)練的主干網(wǎng)絡(luò)將支持圖片和查詢圖片映射到深度特征空間.最后,利用支持圖片的真實(shí)掩碼將支持特征分離為目標(biāo)前景和背景,并借助vision transformer構(gòu)造了一種自適應(yīng)的元學(xué)習(xí)分類器.在PASCAL-5i數(shù)據(jù)集上進(jìn)行了大量的試驗(yàn).結(jié)果表明:所提出模型在VGG-16、ResNet-50和ResNet-101主干網(wǎng)絡(luò)上分別實(shí)現(xiàn)了47.1%、58.3%和60.4%的mIoU(即平均交并比)(1 shot),同時(shí)在5 shot設(shè)定下實(shí)現(xiàn)了49.6%、60.2%和62.1%的mIoU;在COCO-20i數(shù)據(jù)集上實(shí)現(xiàn)了23.6%、30.3%和30.7%的mIoU(1 shot),同時(shí)在5 shot設(shè)定下實(shí)現(xiàn)了30.1%、34.7%和35.2%的mIoU.
關(guān)鍵詞:" 小樣本語義分割; 特征分離; 元學(xué)習(xí); 深度可分離卷積; vision transformer; 目標(biāo)前景; 自適應(yīng)
中圖分類號(hào): TP391" 文獻(xiàn)標(biāo)志碼:" A" 文章編號(hào):"" 1671-7775(2024)05-0574-07
引文格式:" 王蘭忠,牟昌善. 基于元學(xué)習(xí)的小樣本語義分割算法[J].江蘇大學(xué)學(xué)報(bào)(自然科學(xué)版),2024,45(5):574-580,620.
收稿日期:"" 2022-06-21
基金項(xiàng)目:" 山東省重點(diǎn)研發(fā)計(jì)劃項(xiàng)目(2021RKL02001)
作者簡介:"" 王蘭忠(1973—), 男, 山東萊西人,博士, 高級(jí)實(shí)驗(yàn)師(lzwang0420@163.com), 主要從事信息處理、文本和圖像數(shù)據(jù)挖掘研究.
牟昌善(1984—), 男, 山東臨沂人,學(xué)士, 工程師(lan2726@126.com),主要從事信息處理、語義分割研究.
Few shot semantic segmentation algorithm based on meta-learning
WANG Lanzhong1, MU Changshan2
(1. School of Foreign Languages and Literature, Shandong University, Jinan, Shandong 250100, China; 2. Information Center, Shandong Provincial Tax Service, State Taxation Administration, Jinan, Shandong 250002, China)
Abstract: To solve the problem of low segmentation accuracy for unknown novel classes in existing few shot semantic segmentation models, the few shot semantic segmentation algorithm based on meta-learning was proposed. The depth-separable convolutions were utilized to improve the traditional backbone network, and the encoder pre-training on the ImageNet dataset was performed. The pre-trained backbone network was used to map the support and query images into deep feature space. Using the ground truth masks of the support images, the support features were separated into object foreground and background, and the adaptive meta-learning classifier was constructed using vision transformer. The extensive experiments on the PASCAL-5i dataset were completed. The results show that the proposed model achieves mIoU (mean Intersection over Union) (1 shot) of 47.1%, 58.3% and 60.4% on VGG-16, ResNet-50 and ResNet-101 backbone networks, respectively, and it achieves mIoU of 49.6%, 60.2% and 62.1% under the 5 shot setting. On the COCO-20i dataset, mIoU (1 shot) values of 23.6%, 30.3% and 30.7% are achieved with mIoU values of 30.1%, 34.7% and 35.2% under the 5 shot setting.
Key words:" few shot semantic segmentation; feature separation; meta-learning; depth-separable convo-lution; vision transformer; object foreground; self-adaption
近年來卷積神經(jīng)網(wǎng)絡(luò)在自動(dòng)駕駛、醫(yī)療診斷和遙感圖像處理等視覺任務(wù)中取得了突破性的進(jìn)展[1].語義分割、實(shí)例分割等密集型預(yù)測任務(wù)需要為圖像中的每個(gè)像素點(diǎn)分配一個(gè)類標(biāo)簽.然而,逐像素的數(shù)據(jù)標(biāo)注費(fèi)時(shí)費(fèi)力、成本高,不利于實(shí)際應(yīng)用.雖然,弱監(jiān)督學(xué)習(xí)方法在一定程度上可以減緩模型對(duì)像素級(jí)標(biāo)注的依賴,但仍然需要大量的弱標(biāo)注數(shù)據(jù).此外,該類模型對(duì)于新類或標(biāo)注不充分目標(biāo)類的泛化性能不強(qiáng).
受小樣本學(xué)習(xí)的啟發(fā),A. SHABAN等[2]在小樣本學(xué)習(xí)網(wǎng)絡(luò)的基礎(chǔ)上,設(shè)計(jì)了一種基于支持分支和查詢分支的雙分支網(wǎng)絡(luò)結(jié)構(gòu),其中支持分支的輸入是支持圖片和對(duì)應(yīng)的真實(shí)支持掩碼,查詢分支的輸入是待分割的新圖像.模型在支持分支中學(xué)習(xí)經(jīng)驗(yàn)知識(shí),并將其用到查詢分支中未知目標(biāo)的細(xì)粒度分割任務(wù)中.之后,很多研究人員利用該雙分支結(jié)構(gòu)去構(gòu)造各種變體模型,旨在提高模型對(duì)目標(biāo)物體的分割性能.現(xiàn)有的小樣本語義分割模型主要包括有參數(shù)的度量和無參數(shù)的度量兩大類.在無參數(shù)的度量方法中,首先在支持分支中學(xué)習(xí)目標(biāo)物體的語義類信息;其次,利用相似度度量方法計(jì)算查詢圖片中每一像素與支持分支中學(xué)習(xí)到的特征之間的相似度,并根據(jù)相似度分割查詢圖片中的目標(biāo)物體.文獻(xiàn)[3]提出了一種特征對(duì)齊的小樣本語義分割算法,利用全局平均池化獲取支持圖片的全局特征,并將其作為目標(biāo)物體的特征原型表示,指導(dǎo)查詢分支中每一目標(biāo)物體的分割.文獻(xiàn)[4]認(rèn)為單一原型攜帶的信息不足以表示整個(gè)目標(biāo)物體,提出了一種多原型表示的小樣本語義分割模型,利用超像素算法將原支持圖片的像素劃分為多個(gè)區(qū)域,并利用掩碼平均池化獲得每個(gè)區(qū)域的平均特征作為類原型.文獻(xiàn)[5]提出了一種多原型表示的小樣本語義分割模型,通過聚類支持圖片中的多個(gè)區(qū)域,并借助掩碼平均池化獲取每個(gè)區(qū)域的平均特征,構(gòu)造目標(biāo)物體的多個(gè)原型表示.有參數(shù)的度量方法在特征匹配階段采用有參數(shù)學(xué)習(xí)的解碼器實(shí)現(xiàn)原型集和查詢特征的度量.文獻(xiàn)[6]提出了一種基于深度高斯處理的小樣本語義分割模型,利用掩碼編碼器和圖片編碼器將支持圖片和對(duì)應(yīng)掩碼映射到深層語義空間,并借助高斯操作構(gòu)造了高斯小樣本學(xué)習(xí)器.文獻(xiàn)[7]額外引入文本語義知識(shí),提出了一種基于元學(xué)習(xí)的小樣本語義分割模型,利用提取的多模態(tài)融合特征,學(xué)習(xí)元分類器分割目標(biāo)物體.文獻(xiàn)[8]利用孿生網(wǎng)絡(luò)提出了一種交叉引導(dǎo)的小樣本語義分割模型,利用交叉引導(dǎo)機(jī)制捕獲兩幅圖像中同時(shí)出現(xiàn)的語義類,在支持圖片和對(duì)應(yīng)的掩碼指導(dǎo)查詢圖片分割的同時(shí),利用查詢圖片預(yù)測支持圖片的對(duì)應(yīng)掩碼.
文中在元學(xué)習(xí)的基礎(chǔ)上,擬提出一種基于vision transformer(ViT)網(wǎng)絡(luò)的自適應(yīng)小樣本語義分割方法.以ViT作為主干網(wǎng)絡(luò),將雙分支特征映射到深度特征空間,并以ViT中的注意力機(jī)制建立支持分支和查詢分支間的深度特征交互,從而構(gòu)造一種自適應(yīng)的元學(xué)習(xí)分類器.
1 問題定義
小樣本語義分割的目的是在少量標(biāo)注的支持集中學(xué)習(xí)經(jīng)驗(yàn)知識(shí),并應(yīng)用于未知類的分割任務(wù)中.模型訓(xùn)練和測試在兩個(gè)語義類互不相交的數(shù)據(jù)集Ctrain和Ctest上進(jìn)行,即Ctrain∩Ctest=,其中,訓(xùn)練集來源于Ctrain,測試集來源于Ctest.模型在含有大量標(biāo)注的訓(xùn)練集上進(jìn)行訓(xùn)練;在測試階段,每個(gè)類只有少數(shù)帶標(biāo)注的樣本.經(jīng)過訓(xùn)練后,模型可以對(duì)未知類c∈Ctest進(jìn)行分割,而無須進(jìn)一步參數(shù)微調(diào).該項(xiàng)任務(wù)可以簡化為一個(gè)C-way K shot的分割學(xué)習(xí)任務(wù),其中C為類別個(gè)數(shù),K為每個(gè)類標(biāo)注的樣本個(gè)數(shù).
為了更好地適應(yīng)未知類的分割,模型的訓(xùn)練和測試采用episodic的元學(xué)習(xí)機(jī)制,即在Dtrain={(Si,Qi)}上批量采樣,然后進(jìn)行訓(xùn)練.在每個(gè)episode上,構(gòu)造支持集Si={(Ii,Mi)}和查詢集Qi={(Ii,Mi)},其中,Ii表示原始圖片,Mi表示對(duì)應(yīng)的標(biāo)簽mask;在測試階段,Ii無對(duì)應(yīng)的掩碼為Mi.此處,Ii為RGB圖像,Ii∈R3×h×w,而Mi∈Rh×w.
2 模型設(shè)計(jì)
2.1 模型結(jié)構(gòu)
利用支持分支和查詢分支的雙分支網(wǎng)絡(luò)結(jié)構(gòu),并以經(jīng)典的元學(xué)習(xí)訓(xùn)練范式訓(xùn)練模型逐像素分類的能力,包括特征提取器、元學(xué)習(xí)分類器構(gòu)建.首先,利用一組改進(jìn)的預(yù)訓(xùn)練模型作為編碼器和解碼器,將支持圖片與對(duì)應(yīng)的掩碼Mask及查詢圖片映射到深度特征空間.其次,采用vision transformer提供的編碼塊和注意力機(jī)制構(gòu)造自適應(yīng)的元學(xué)習(xí)分類器,指導(dǎo)查詢圖片的分割.
圖1給出了所提出模型的分割流程.
2.2 特征提取器
現(xiàn)有的小樣本語義分割方法中,主要將ImageNet數(shù)據(jù)集上預(yù)訓(xùn)練的模型作為主干網(wǎng)絡(luò),將支持分支和查詢分支的輸入圖片映射到深度特征空間,這已成為該領(lǐng)域的標(biāo)準(zhǔn)步驟.然而,主干網(wǎng)絡(luò)的訓(xùn)練或再次微調(diào)都依賴有標(biāo)注的圖片,并且模型對(duì)硬件設(shè)備的要求較高,導(dǎo)致開銷成本較大,不利于實(shí)際場景中的應(yīng)用.因此,文中模型首先利用深度可分離卷積對(duì)主干網(wǎng)絡(luò)中的編碼器和解碼器進(jìn)行改進(jìn),即將深度可分離卷積塊替換原始編碼器和解碼器中的卷積塊,以降低模型參數(shù)量的方式緩解主干網(wǎng)絡(luò)對(duì)硬件設(shè)備的高要求.其次,考慮到僅利用少量的訓(xùn)練樣本不足以優(yōu)化整個(gè)模型,因此,將改進(jìn)后的編碼器和解碼器再次利用ImageNet數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練并對(duì)訓(xùn)練參數(shù)進(jìn)行固定,解決編碼器和解解碼器對(duì)數(shù)據(jù)量依賴大的問題.
2.2.1 深度可分離卷積
深度可分離卷積是將標(biāo)準(zhǔn)卷積塊中的部分卷積層分解為深度卷積和逐點(diǎn)卷積,在保持特征提取質(zhì)量不變或略微降低的情況下,降低模型對(duì)于硬件資源的高要求,從而提升模型訓(xùn)練和推斷的速度.深度可分離卷積示意圖見圖2.
圖2中,首先將圖片Ii∈R3×h×w進(jìn)行一次卷積運(yùn)算,生成M張?zhí)卣鱉aps;其次,利用卷積核大小為1×1的N個(gè)卷積塊將特征圖沿著深度方向進(jìn)行加權(quán)組合,得到輸入圖片在深度空間的特征映射.特別地,深度卷積在運(yùn)算時(shí),每次卷積計(jì)算使用M個(gè)大小為L×L的卷積核;逐點(diǎn)卷積在每次運(yùn)算時(shí),采用N個(gè)大小為1×1的卷積核進(jìn)行卷積濾波.因此,深度卷積和逐點(diǎn)卷積可以拼接成卷積核大小為L×L標(biāo)準(zhǔn)卷積.標(biāo)準(zhǔn)卷積CNN運(yùn)算過程中參數(shù)量PCNN計(jì)算式為
PCNN=L×L×M×N.(1)
深度卷積和逐點(diǎn)卷積組合的深度可分離卷積計(jì)算過程中的參數(shù)量PDW,PC計(jì)算式為
PDW,PC=L×L×M×1+1×M×N.(2)
計(jì)算開銷比例r計(jì)算式為
r=PDW,PCPCNN=L×L×M×1+1×1×M×NL×L×M×N=1N+1L2.(3)
由式(3)可見,r僅與卷積核的數(shù)量N和大小L有關(guān).可以看出,深度可分離卷積可以顯著地減少參數(shù)量,使模型更加輕量化.
2.2.2 編解碼器訓(xùn)練
在現(xiàn)有語義分割任務(wù)中,預(yù)訓(xùn)練已成為整個(gè)模型訓(xùn)練之前的標(biāo)準(zhǔn)步驟.此處,考慮到ImageNet數(shù)據(jù)集包含的類別多,可以泛化到任意數(shù)據(jù)集上,對(duì)于任何不可見的類都具有強(qiáng)泛化性.因此,文中利用ImageNet預(yù)訓(xùn)練改進(jìn)后的特征提取器,并在訓(xùn)練結(jié)束后將其固定,僅利用有限的小樣本數(shù)據(jù)集訓(xùn)練對(duì)于決策共享最大的模塊,在一定程度上減輕深度模型對(duì)于數(shù)據(jù)量依賴的程度.此處,采用ImageNet上預(yù)先訓(xùn)練的VGG-16、ResNet-50和ResNet-101作為主干網(wǎng)絡(luò)進(jìn)行深度特征提取.
2.3 元學(xué)習(xí)分類器
受vision transformer在計(jì)算機(jī)視覺領(lǐng)域成功應(yīng)用的啟發(fā),文中采用ViT構(gòu)造自適應(yīng)的元學(xué)習(xí)分類器.具體地,以元學(xué)習(xí)中常用的多任務(wù)訓(xùn)練范式構(gòu)建分類任務(wù),通過利用編碼的支持特征來逐像素預(yù)測對(duì)應(yīng)的支持掩碼,并將該訓(xùn)練器遷移至查詢圖片中未知目標(biāo)的分割任務(wù)中.通過構(gòu)建vision transformer提供的注意力機(jī)制建立分支間信息的交互,ViT的結(jié)構(gòu)見圖3.
圖3給出的ViT網(wǎng)絡(luò)以一定尺寸大小的圖像塊patch作為基礎(chǔ)單元,利用自身的全局感受野和動(dòng)態(tài)交互能力,使得模型能夠充分感知圖像中每一像素的上下文關(guān)系,較好地緩解了傳統(tǒng)特征提取器長距離依賴不足的問題,實(shí)現(xiàn)場景理解的全面性和可靠性.
此處,將主干網(wǎng)絡(luò)提取的支持特征和查詢特征作為ViT的輸入,利用ViT自身提供的注意力機(jī)制構(gòu)造了一個(gè)用于適應(yīng)查詢圖片中未知目標(biāo)的動(dòng)態(tài)分類器,計(jì)算過程見圖4.
首先,自注意力層通過查詢(query)、鍵值對(duì)(key-value)之間的交互實(shí)現(xiàn)動(dòng)態(tài)的聚合,即對(duì)特征提取器的輸出特征Maps∈RN×d利用線性映射函數(shù)f(·)映射得到query、key和value,可表示為
[Q,K,V]=f(Maps),Maps∈RN×d.(4)
其次,通過計(jì)算query和key之間的相似度S,對(duì)value進(jìn)行加權(quán)聚合,使得分類器自適應(yīng)地給查詢圖像與支持圖像相似性區(qū)域賦予權(quán)重.具體計(jì)算式為
S=softmax(QKT/d),(5)
w=w′+(SV),(6)
式中: 為線性層.此處,為了防止模型過擬合、梯度消失或梯度彌散問題,采用殘差學(xué)習(xí)機(jī)制,該機(jī)制原理見圖5.
在式(5)中,通過計(jì)算query和key的相似度,定義了分類器權(quán)重與查詢圖像像素間的注意力得分,并進(jìn)一步用于value空間的加權(quán)聚合,使得分類器的權(quán)值可以自適應(yīng)查詢圖像.
3 試驗(yàn)及結(jié)果分析
3.1 試驗(yàn)環(huán)境
利用Pytorch深度學(xué)習(xí)框架,開發(fā)語言為Python 3.6.2,所有試驗(yàn)采用Nvidia 2080Ti GPU;優(yōu)化器采用SGD;損失函數(shù)采用交叉熵loss;模型初始學(xué)習(xí)率為0.001 5,動(dòng)量為0.9,迭代次數(shù)與損失關(guān)系曲線如圖6所示.由圖6看出,當(dāng)?shù)螖?shù)為9×103次時(shí),損失趨于穩(wěn)定,因此,文中迭代次數(shù)設(shè)定為9×103次.
3.2 評(píng)價(jià)指標(biāo)
采用平均交并比(mean Intersection over Union, mIoU)和前景背景二分類交并比(foreground and background IoU, FB-IoU)作為評(píng)價(jià)指標(biāo).其中,IoU為真實(shí)值和預(yù)測值的交集和并集之比,F(xiàn)B-IoU表示二分類任務(wù)(僅考慮前景和背景).計(jì)算式為
mIoU=1k+1∑ki=0pij∑kj=0pij+∑kj=0(pji-pii),(7)
式中: k+1為總類別數(shù);i為真實(shí)標(biāo)注; j為預(yù)測標(biāo)注;pij表示將i預(yù)測為j的概率.
3.3 數(shù)據(jù)集
為了驗(yàn)證文中模型的有效性,在開源數(shù)據(jù)集PASCAL-5i和COCO-20i上進(jìn)行元學(xué)習(xí)分類器的訓(xùn)練與測試.其中PASCAL-5i數(shù)據(jù)集來源于PASCAL VOC2012和額外擴(kuò)展的SDS數(shù)據(jù)集,包含20個(gè)類,12 031張圖片,其中10 582張帶標(biāo)注的圖片用于訓(xùn)練,1 449張用于測試.COCO-20i是當(dāng)前小樣本語義分割任務(wù)中更具挑戰(zhàn)性的數(shù)據(jù)集,包含82 081張訓(xùn)練圖片和40 137張測試圖片,總共包含80個(gè)類,75%用于訓(xùn)練(60類),25%(20類)用于驗(yàn)證.所有圖片的大小均被調(diào)整為417像素×417像素.表1給出了數(shù)據(jù)集描述.
3.4 對(duì)比試驗(yàn)
將文中模型與當(dāng)前主流的小樣本語義分割模型在相同的數(shù)據(jù)集PASCAL-5i和COCO-20i上進(jìn)行對(duì)比試驗(yàn),以mIoU和FB-IoU為評(píng)價(jià)指標(biāo)進(jìn)行評(píng)估.此處,分別以VGG-16、ResNet-50和ResNet-101作為主干網(wǎng)絡(luò)進(jìn)行特征編碼.
3.4.1 PASCAL-5i
表2給出了文中模型和對(duì)比模型在PASCAL-5i數(shù)據(jù)集上的分割性能.由表2可見,當(dāng)VGG-16作為特征提取器時(shí),文中模型相比所有對(duì)比模型,分割性能優(yōu)勢(shì)顯然;特別地,在1 shot分割任務(wù)中,與所有對(duì)比模型中表現(xiàn)最好的模型SG-One相比,文中模型的mIoU提高了1.73%,F(xiàn)B-IoU提高了1.90%;在5 shot分割任務(wù)中,文中模型相比所有對(duì)比模型中表現(xiàn)最好的SG-One模型提高了5.31%的mIoU,相比SG-One提高了1.37%的FB-IoU.此外,在模型參數(shù)方面,文中模型同樣優(yōu)勢(shì)明顯.類似地,當(dāng)ResNet-50作為主干網(wǎng)絡(luò)進(jìn)行特征提取時(shí),雖在5 shot分割任務(wù)中,文中模型相比Gamp;L模型在FB-IoU評(píng)價(jià)指標(biāo)下有所差距,但相比其余對(duì)比模型,在1 shot和5 shot分割任務(wù)中優(yōu)勢(shì)明顯.當(dāng)ResNet-101作為特征提取器時(shí),文中模型在1 shot任務(wù)中可以實(shí)現(xiàn)60.4%的mIoU和72.6%的FB-IoU,在5 shot任務(wù)中可以實(shí)現(xiàn)62.1%的mIoU和74.2%的FB-IoU,整體分割性能較好.
3.4.2 COCO-20i
表3給出了文中模型和對(duì)比模型在COCO-20i數(shù)據(jù)集上的分割性能.由表3可見,在更具有挑戰(zhàn)性的數(shù)據(jù)集中,文中模型整體分割性能優(yōu)勢(shì)明顯.具體來說,在VGG-16作為主干網(wǎng)絡(luò)時(shí),文中模型可以實(shí)現(xiàn)23.6%和30.1%的mIoU,60.2%和64.0%的FB-IoU,模型參數(shù)量相比PANet模型,減少了0.8 MB.當(dāng)ResNet-50作為主干網(wǎng)絡(luò)時(shí),文中模型在1 shot任務(wù)中,相比對(duì)比模型中表現(xiàn)最好的PMMs模型,mIoU提升了2.36%;在5 shot分割任務(wù)中,雖與表現(xiàn)最好的模型有所差距,但可以實(shí)現(xiàn)34.7%的mIoU和66.1%的FB-IoU.當(dāng)ResNet-101作為主干網(wǎng)絡(luò)時(shí),文中模型在1 shot和5 shot任務(wù)中優(yōu)勢(shì)明顯,特別在模型參數(shù)量方面,相比FWB模型減少了3.4 MB.上述結(jié)果驗(yàn)證了文中方法的優(yōu)越性,尤其是引入深度可分離卷積可以降低模型參數(shù)量,緩解對(duì)硬件設(shè)備的要求.
3.4.3 可視化結(jié)果
為了直觀展示文中方法對(duì)未見過目標(biāo)的定位能力和分割性能,隨機(jī)選擇部分測試結(jié)果進(jìn)行可視化,如圖7所示.
由圖7可見,文中模型對(duì)于查詢圖片中目標(biāo)物體的前景區(qū)域分割效果較好,進(jìn)一步驗(yàn)證了文中模型的有效性.表明利用ViT自身的全局感受野和動(dòng)態(tài)交互能力,有助于模型能夠充分感知圖像中像素的上下文關(guān)系,進(jìn)一步提升自適應(yīng)的分類能力.
3.5 消融試驗(yàn)
為驗(yàn)證深度可分離卷積和模型的訓(xùn)練方式對(duì)于整體分割性能的影響,在1 shot任務(wù)上采用ResNet-50進(jìn)行消融試驗(yàn)[17],詳細(xì)結(jié)果見表4,表中表示使用,×表示未使用.由表4看出,深度可分離卷積對(duì)于減少模型參數(shù)量方面具有積極作用,雖深度可分離卷積的引入在一定程度上會(huì)降低模型分割的mIoU和FB-IoU[18],但影響很小,相比模型參數(shù)量的降低幅度,可以忽略分割性能的影響.此外,當(dāng)編解碼器訓(xùn)練結(jié)束后,固定模型參數(shù)量,利用有限的小樣本數(shù)據(jù)集僅訓(xùn)練元學(xué)習(xí)分類器,該訓(xùn)練方式可以有效提高模型整體的分割性能.上述結(jié)果進(jìn)一步驗(yàn)證了文中模型設(shè)計(jì)的合理性和整體分割的有效性.
小樣本學(xué)習(xí)模型可以隨著訓(xùn)練樣本的增加提高分割性能.在測試階段,通過增加每類支持樣本的數(shù)量來觀察分割效果,結(jié)果如圖8所示.由圖8看出,文中模型的性能與每類支持樣本數(shù)量的增加呈正相關(guān),驗(yàn)證了文中模型具有持續(xù)可學(xué)習(xí)的能力.
4 結(jié) 論
1) 利用深度可分離卷積改進(jìn)的主干網(wǎng)絡(luò)可以顯著降低模型參數(shù)量,即利用少量參數(shù)的小樣本語義分割模型的性能可以媲美先前主流的多參數(shù)小樣本語義分割模型.
2) 利用vision transformer提供的注意力機(jī)制可以促進(jìn)分支間信息的交互,這有助于原型的自適應(yīng)性,更好地適配查詢圖片中的未知目標(biāo).
參考文獻(xiàn)(References)
[1] 姚慶安,張鑫,劉力鳴,等. 融合注意力機(jī)制和多尺度特征的圖像語義分割[J]. 吉林大學(xué)學(xué)報(bào)(理學(xué)版), 2022,60(6):1383-1390.
YAO Q A, ZHANG X, LIU L M, et al. Image semantic segmentation based on fusing attention mechanism and multi-scale features[J]. Journal of Jilin University (Science Edition),2022,60(6):1383-1390.(in Chinese)
[2] SHABAN A, BANSAL S, LIU Z, et al. One-shot lear-ning for semantic segmentation[C]∥Proceedings of the 28th British Machine Vision Conference.[S.l.]: BMVA Press, DOI:10.5244/c.31.167.
[3] WANG K X, LIEW J H, ZOU Y T, et al. PANet: few-shot image semantic segmentation with prototype alignment[C]∥Proceedings of the 2019 IEEE/CVF International Conference on Computer Vision. Piscataway: IEEE,2019:9196-9205.
[4] LI G, JAMPANI V, SEVILLA-LARA L, et al. Adaptive prototype learning and allocation for few-shot segmentation[C]∥Proceedings of the 2021 IEEE/CVF Confe-rence on Computer Vision and Pattern Recognition. Piscataway: IEEE Computer Society, 2021:8330-8339.
[5] LIU B H, JIAO J B, YE Q X. Harmonic feature activation for few-shot semantic segmentation[J]. IEEE Tran-sactions on Image Processing, 2021,30:3142-3153.
[6] JOHNANDER J, EDSTEDT J, DANELLJAN M, et al. Deep Gaussian processes for few-shot segmentation[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2021:5217-5226.
[7] PAMBALA A K, DUTTA T, BISWAS S. SML: semantic meta-learning for few-shot semantic segmentation[J]. Pattern Recognition Letters, 2021,147:93-99.
[8] LIU W D, ZHANG C, LIN G S, et al. CRNet: cross-reference networks for few-shot segmentation[C]∥Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Computer Society, 2020:4164-4172.
[9] RAKELLY K,SHELHAMER E,DARRELL T,et al. Conditional networks for few-shot semantic segmentation[C]∥Proceedings of the 6th International Conference on Learning Representations.[S.l.]: International Conference on Learning Representations, 2018:517-526.
[10] ZHANG X L, WEI Y C, YANG Y, et al. SG-one: simi-larity guidance network for one-shot semantic segmentation[J]. IEEE Transactions on Cybernetics, 2020,50(9):3855-3865.
[11] LIU Y F, ZHANG X Y, ZHANG S Y, et al. Part-aware prototype network for few-shot semantic segmentation[C]∥Proceedings of the 16th European Conference on Computer Vision.[S.l.]: Springer Science and Business Media Deutschland GmbH,2020:142-158.
[12] YANG B Y, LIU C, LI B H, et al. Prototype mixture models for few-shot semantic segmentation[C]∥Proceedings of the 16th European Conference on Computer Vision.[S.l.]: Springer Science and Business Media Deutschland GmbH, 2020:763-778.
[13] ZHANG X L, WEI Y C, LI Z,et al. Rich embedding features for one-shot semantic segmentation[J]. IEEE Transactions on Neural Networks and Learning Systems,
2022,33(11):6484-6493.
[14] 劉宇軒,孟凡滿,李宏亮,等. 一種結(jié)合全局和局部相似性的小樣本分割方法[J]. 北京航空航天大學(xué)學(xué)報(bào),2021,47(3):665-674.
LIU Y X, MENG F M, LI H L, et al. A few shot seg-mentation method combining global and local similarity[J]. Journal of Beijing University of Aeronautics and Astronautics, 2021,47(3):665-674. (in Chinese)
[15] NGUYEN K,TODOROVIC S. Feature weighting and boosting for few-shot segmentation[C]∥Proceedings of the 17th IEEE/CVF International Conference on Computer Vision. Piscataway: IEEE, 2019:622-631.
[16] WANG H C, ZHANG X D, HU Y T, et al. Few-shot semantic segmentation with democratic attention networks[C]∥Proceedings of the 16th European Confe-rence on Computer Vision. Berlin: Springer Science and Business Media Deutschland GmbH, 2020:730-746.
[17] 李文舉,李文輝.基于壓縮表示的實(shí)例分割方法[J].吉林大學(xué)學(xué)報(bào)(理學(xué)版),2023,61(4):883-889.
LI W J, LI W H. Instance segmentation method based on compressed representation[J]. Journal of Jilin University(Science Edition), 2023,61(4):883-889.(in Chinese)
[18] 鄧曉青,李征,王雁林.基于U-Net改進(jìn)的內(nèi)窺鏡息肉圖像分割算法[J].四川大學(xué)學(xué)報(bào)(自然科學(xué)版),DOI:10.19907/j.0490-6756.2024.013004.
DENG X Q, LI Z, WANG Y L. An improved endosco-pic polyp image segmentation algorithm based on U-Net[J]. Journal of Sichuan University (Natural Science Edition), DOI:10.19907/j.0490-6756.2024.013004. (in Chinese)
(責(zé)任編輯 梁家峰)
江蘇大學(xué)學(xué)報(bào)(自然科學(xué)版)2024年5期