王 晨,王 偉
(1.河北對(duì)外經(jīng)貿(mào)職業(yè)學(xué)院,河北 秦皇島 066311;2.北京郵電大學(xué) 信息與通信工程學(xué)院,北京 100080)
近年來,隨著深度學(xué)習(xí)技術(shù)的快速發(fā)展,語義分割的性能取得了顯著進(jìn)步。然而,語義分割模型的分割性能嚴(yán)重依賴于逐像素的注釋樣本數(shù)量,該類數(shù)據(jù)的標(biāo)注成本費(fèi)時(shí)費(fèi)力[1-2],這加速了少樣本語義分割的發(fā)展。
小樣本語義分割的目的是在有限的逐像素標(biāo)注樣本中學(xué)習(xí)分割規(guī)則,并將其泛化到未知的新類分割任務(wù)中?,F(xiàn)有的小樣本語義分割網(wǎng)絡(luò)主要利用Shaban等[3]提出的支持-查詢雙分支網(wǎng)絡(luò)進(jìn)行逐像素指導(dǎo)未知的新類分割。其中,支持分支的輸入為支持圖片和對(duì)應(yīng)的真實(shí)標(biāo)注掩碼,查詢分支的輸入為包含未知新類的圖片,并且雙分支網(wǎng)絡(luò)的輸入同屬相同語義類?,F(xiàn)有的小樣本語義分割方法主要包括基于元學(xué)習(xí)網(wǎng)絡(luò)的小樣本語義分割和基于度量學(xué)習(xí)的小樣本語義分割兩大類[4-5]。在基于元學(xué)習(xí)的小樣本語義分割方法中,主要利用有參數(shù)學(xué)習(xí)的解碼器實(shí)現(xiàn)支持分支指導(dǎo)查詢分支中未知新類的分割[6]。如Lang等[5]提出了一種基于元類記憶網(wǎng)絡(luò)的小樣本語義分割模型,通過在Base集中學(xué)習(xí)目標(biāo)的元類信息,并在推理階段泛化到Novel集中未知新類的分割任務(wù)中。Liu等[7]針對(duì)相同類之間存在的類內(nèi)差異問題,提出了一種基于分類器權(quán)重轉(zhuǎn)換的小樣本語義分割算法。通過利用預(yù)訓(xùn)練的主干網(wǎng)絡(luò)對(duì)雙分支網(wǎng)絡(luò)的輸入圖片進(jìn)行編碼-解碼,獲取支持圖片中目標(biāo)任務(wù)的分類權(quán)重矩陣,并將其作為輔助任務(wù)遷移到查詢分支的新類分割任務(wù)中。雖然上述模型可以實(shí)現(xiàn)令人滿意的分割結(jié)果,但對(duì)于有限的支持信息利用不充分。為此,Zhang等[8]提出了一種基于自我指導(dǎo)和交叉指導(dǎo)的小樣本語義分割算法。利用支持圖片中學(xué)習(xí)到的指導(dǎo)規(guī)則指導(dǎo)支持圖片的掩碼分割,利用真實(shí)的掩碼進(jìn)行逐像素對(duì)比,獲取目標(biāo)任務(wù)預(yù)測中丟失的信息,并根據(jù)真實(shí)掩碼構(gòu)造輔助信息。類似地,Liu等[9]提出了一種交叉指導(dǎo)的小樣本語義分割算法。通過學(xué)習(xí)支持分支中目標(biāo)任務(wù)的分類規(guī)則,并將其應(yīng)用到查詢分支中未知新類的分割任務(wù)中;利用相同的指導(dǎo)規(guī)則進(jìn)行逐像素指導(dǎo)支持圖片的掩碼預(yù)測,并借助支持圖片真實(shí)掩碼和預(yù)測掩碼之間的損失,端到端優(yōu)化模型。
該類基于元學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)的小樣本語義分割算法大多通過組合多個(gè)卷積核來增大感受野,強(qiáng)化模型對(duì)上下文信息和空間信息的感知能力。然而,該類網(wǎng)絡(luò)參數(shù)量大、結(jié)構(gòu)復(fù)雜、極易造成過擬合問題。此外,有限帶標(biāo)注的支持樣本不足以優(yōu)化整個(gè)網(wǎng)絡(luò)模型,導(dǎo)致模型參數(shù)并非最優(yōu)解,使得模型的分割性能局限。
受原型網(wǎng)絡(luò)的啟發(fā),近年來,基于度量學(xué)習(xí)的小樣本語義分割成為計(jì)算機(jī)視覺領(lǐng)域的研究熱點(diǎn)。如Wang等[10]提出了一種交叉度量網(wǎng)絡(luò)的小樣本語義分割算法,利用預(yù)測的查詢掩碼構(gòu)造新的支持集,指導(dǎo)支持圖片的掩碼預(yù)測,并利用真實(shí)掩碼與預(yù)測掩碼之間的損失優(yōu)化抽象的原型。類似地,Chang等[11]認(rèn)為背景的細(xì)粒度挖掘有利于增強(qiáng)原型的泛化能力,通過利用Vision Transformer細(xì)粒度地挖掘支持圖片中的目標(biāo)背景構(gòu)造多個(gè)背景原型,指導(dǎo)查詢圖片中目標(biāo)前景和背景的并行分割。Ding等[12]提出了一種自我規(guī)范的原型網(wǎng)絡(luò),并將其應(yīng)用到小樣本語義分割任務(wù)中,在主流數(shù)據(jù)集上進(jìn)行測試,驗(yàn)證了模型的有效性。具體地,通過學(xué)習(xí)支持圖片中的分類規(guī)則,并泛化到未知新類的分割任務(wù)中;同時(shí),按照相同的指導(dǎo)規(guī)則,對(duì)支持圖片進(jìn)行掩碼預(yù)測。
上述基于無參數(shù)的度量學(xué)習(xí)算法都是通過平均整張圖片的信息來獲取目標(biāo)類的原型。然而,僅利用平均操作獲取的原型不足以表示整個(gè)目標(biāo),極易造成信息的丟失或歧義。雖然,Li等[13]通過聚類的思想構(gòu)造了多個(gè)原型,并在主流數(shù)據(jù)集上進(jìn)行了驗(yàn)證。但該方法通過將不可微的超像素聚類算法改進(jìn)為可微分的聚類算法,通過額外引進(jìn)超參數(shù)來捕獲多個(gè)區(qū)域的不同原型,造成計(jì)算資源開銷較大,限制了算法在實(shí)際生活中的應(yīng)用。為了緩解上述兩大類算法面臨的挑戰(zhàn),提出一種基于語義協(xié)同指導(dǎo)的小樣本語義分割算法,通過利用支持圖片的真實(shí)語義標(biāo)簽作為輔助監(jiān)督強(qiáng)信號(hào),獲取與目標(biāo)任務(wù)直接相關(guān)的類特定原型,指導(dǎo)未知新類的分割。本文的主要貢獻(xiàn)如下:
① 提出了一種基于語義指導(dǎo)的小樣本語義分割算法,為基于無參數(shù)度量學(xué)習(xí)算法提供了一種新的思路,豐富了語義分割的手段。
② 提出了一種語義指導(dǎo)模塊,利用支持圖片的語義標(biāo)簽構(gòu)造輔助學(xué)習(xí)任務(wù),強(qiáng)化目標(biāo)任務(wù)的分割性能。
③ 提出了一種細(xì)粒度的多原型提取模塊,通過利用Vision Transformer網(wǎng)絡(luò)捕獲目標(biāo)任務(wù)直接相關(guān)的多個(gè)類特定原型,這有助于增強(qiáng)目標(biāo)任務(wù)的分割性能。
圖1給出了本文基于語義協(xié)同指導(dǎo)的小樣本語義分割框架,包括特征提取、多原型生成模塊和無參數(shù)度量模塊。其中,特征提取階段利用預(yù)訓(xùn)練的主干網(wǎng)絡(luò)作為特征提取器,將支持圖片和查詢圖片映射到深度特征空間;多原型生成模塊包括輔助語義構(gòu)造和原型生成,通過將支持圖片對(duì)應(yīng)的目標(biāo)語義標(biāo)簽映射為文本特征向量,構(gòu)造輔助語義,并借助Vision Transformer的編碼器和解碼器生成多個(gè)原型;無參數(shù)度量模塊通過計(jì)算抽象后的多個(gè)原型和查詢特征之間的相似度分?jǐn)?shù),并根據(jù)分?jǐn)?shù)大小指導(dǎo)查詢圖片逐像素分割。
圖1 模型結(jié)構(gòu)Fig.1 Model structure
特征提取是深度神經(jīng)網(wǎng)絡(luò)模型深度學(xué)習(xí)的基本步驟,通過借助卷積神經(jīng)網(wǎng)絡(luò)及變體模型將圖片映射到深度特征空間。此處,采用Vgg-16、ResNet-50和ResNet-101三種主干網(wǎng)路作為特征提取器[14-15]。下面以Vgg-16作為實(shí)例進(jìn)行闡述特征提取的流程。Vgg-16網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
圖2 Vgg-16網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Vgg-16 network structure
(1)
式中:Fs表示支持特征,Fq表示查詢特征,f(·)表示特征映射函數(shù)。
考慮到低層特征區(qū)分能力不強(qiáng),高層特征難以泛化到未知新類目標(biāo)中。此處,采用多尺度特征融合策略,融合低層Fl、中間層Fm和高層特征Fh,構(gòu)造混合特征F=Fl⊕Fm⊕Fh,其中⊕表示拼接concatenate操作。
為了直接聚焦支持圖片的目標(biāo)區(qū)域,利用支持圖片的真實(shí)掩碼進(jìn)行前景和背景的分離,并將目標(biāo)前景區(qū)域的特征作為原型生成模塊的輸入。詳細(xì)計(jì)算如下:
(2)
式中:Fg表示目標(biāo)前景特征,BIL表示雙線性插值,用于維度轉(zhuǎn)換;?(·)表示圖片矩陣轉(zhuǎn)換函數(shù)。
① 特征編碼
近年來,Vision Transformer[16]網(wǎng)絡(luò)在深度學(xué)習(xí)領(lǐng)域取得了成功應(yīng)用,本文嘗試?yán)肰ision Transformer網(wǎng)絡(luò)作為深度特征圖的編碼器和解碼器。在編碼階段,利用編碼器提供的注意力機(jī)制進(jìn)行不同區(qū)域間的信息交流。具體地,為了聚類相似的特征,每個(gè)編碼層將前一層的輸出映射為3個(gè)向量:{Q,K,V}∈RN×d,d表示映射特征的維度,N表示區(qū)域大小。注意力機(jī)制信息交互如圖3所示。注意力機(jī)制的計(jì)算如式(3)和式(4)。
圖3 注意力機(jī)制計(jì)算流程Fig.3 Attention mechanism calculation process
式中:WQ、WK、WV為可學(xué)習(xí)參數(shù),S為N2大小的矩陣,每一個(gè)si,j∈S表示第i個(gè)區(qū)域和第j個(gè)區(qū)域之間的相似度;然后,在每個(gè)區(qū)域k上,利用softmax函數(shù)進(jìn)行相似度分?jǐn)?shù)的計(jì)算;最后,將相似度分?jǐn)?shù)與原始圖像的特征進(jìn)行相乘,獲得最終的聚合特征fvk。具體計(jì)算如下:
② 輔助語義構(gòu)造
為了進(jìn)一步增強(qiáng)原型的魯棒性,利用類屬性的語義知識(shí)強(qiáng)化類特定原型的表達(dá)能力。假設(shè)數(shù)據(jù)集中語義類的表達(dá)為D={d1,d2,…,dm},根據(jù)數(shù)據(jù)集中語義類的總個(gè)數(shù)確定此處m的維度,即對(duì)于PASCAL-5i數(shù)據(jù)集,m取值為20;對(duì)于COCO-20i數(shù)據(jù)集,m設(shè)定為80。此處,采用BERT作為詞轉(zhuǎn)換為向量表達(dá)的詞向量轉(zhuǎn)換工具,具體轉(zhuǎn)換流程如圖4所示。
圖4 向量化流程Fig.4 Vectorization process
將數(shù)據(jù)集中語義類的文本表示按照語義類的總個(gè)數(shù)進(jìn)行歸一化,并作為BERT[17]文本向量化工具的輸入。編解碼后的文本向量化表示定義如下:
(7)
式中:vij表示每個(gè)BERT轉(zhuǎn)換后的第i個(gè)語義類的第j維語義屬性,l表示語義屬性的總維度。通過將提取的類語義屬性知識(shí)直接作為指導(dǎo)查詢圖片中未知新類原型的輔助學(xué)習(xí)任務(wù)。
③ 特征解碼
在對(duì)不同區(qū)域視覺語義信息編碼和文本語義類信息編碼后,使用Vision Transformer的解碼器實(shí)現(xiàn)多個(gè)原型的提取。具體流程如圖5所示。
圖5 解碼模塊Fig.5 Decoder module
將視覺編碼特征fvk和文本語義類編碼特征vij作為多頭注意力機(jī)制的Query和Key,查詢分支的輸入圖片Iq對(duì)應(yīng)的編碼特征Fq作為Value。利用支持分支獲取的視覺特征和語義類編碼特征作為查詢分支查詢特征Fq的特征注意力。經(jīng)過解碼模塊后,多個(gè)語義類的特定原型集Pt可表示為:
Pt=Decoder(fvk,vij,Fq)。
(8)
分割可以視為每個(gè)空間位置的分類,此處采用無參數(shù)的度量學(xué)習(xí),即通過計(jì)算每個(gè)空間位置的查詢特征向量與原型之間的余弦相似度分?jǐn)?shù),并根據(jù)相似度值來指導(dǎo)查詢圖片中的目標(biāo)進(jìn)行分割。特別地,此處的查詢特征僅為Vgg-16網(wǎng)絡(luò)映射后的全局特征,主要原因在于直接使用編碼特征進(jìn)行相似度計(jì)算可以保留更多的信息,同時(shí)避免了Transformer處理帶來的誤差;其次,Transformer網(wǎng)絡(luò)參數(shù)量大,一方面增加了計(jì)算成本,另一方面小樣本語義分割模型的訓(xùn)練數(shù)據(jù)量較小,導(dǎo)致模型訓(xùn)練難度較大,計(jì)算成本高;此外,小樣本語義分割場景下,查詢分支的輸入僅為查詢圖片,映射特征既包含目標(biāo)任務(wù)信息,也包含背景噪聲信息,經(jīng)過Transformer編碼的查詢特征中雖然任務(wù)相關(guān)性較為緊湊,但相似的背景信息分離難度較大,進(jìn)而影響分割的性能。
在分割階段,利用softmax函數(shù)計(jì)算每個(gè)像素點(diǎn)與類原型距離相似度值的概率,通過將每一位置處的概率最大值對(duì)應(yīng)的語義標(biāo)簽拼接,即可得到最終目標(biāo)的預(yù)測掩碼。具體計(jì)算如下:
式中:PM為最終的查詢圖片預(yù)測掩碼,cos(·)為余弦相似度計(jì)算函數(shù),a為softmax函數(shù)的超參數(shù),此處設(shè)定a=20[8];cat(·)為拼接操作。
① 實(shí)驗(yàn)環(huán)境
利用Pytorch深度學(xué)習(xí)框架,開發(fā)語言為Python 3.9,所有實(shí)驗(yàn)采用NVIDIA V100,2塊32 GB的GPU;優(yōu)化器采用Adam;損失函數(shù)采用交叉熵?fù)p失;初始學(xué)習(xí)率為0.001,迭代次數(shù)與loss曲線如圖6所示??梢钥闯?當(dāng)?shù)螖?shù)為4 000時(shí),loss趨于穩(wěn)定,模型收斂。
圖6 訓(xùn)練與測試階段Loss曲線Fig.6 Loss curve during training and testing phase
② 評(píng)價(jià)指標(biāo)
采用當(dāng)前主流的小樣本語義分割性能評(píng)價(jià)指標(biāo)平均交并比(mean Intersection over Union,mIoU)和前景背景二分類交并比(Foreground and Background IoU,FB-IoU)作為評(píng)價(jià)指標(biāo)[18]。計(jì)算如式(11)所示。特別地,當(dāng)類別僅為前景和背景二分類時(shí),mIoU可以簡化為FB-IoU,即C=2。
(11)
式中:C為總類別數(shù),i為真實(shí)掩碼標(biāo)注,j為預(yù)測掩碼,pij為將真實(shí)掩碼i預(yù)測為j。
③ 實(shí)驗(yàn)數(shù)據(jù)集
選擇經(jīng)典的PASCAL-5i和COCO-20i數(shù)據(jù)集作為模型性能評(píng)估的基準(zhǔn)數(shù)據(jù)集。其中PASCAL-5i由5 953張訓(xùn)練圖片和1 449張測試圖片,總共包含20類,其中15類用于訓(xùn)練,剩余5類用于測試;類似地,COCO-20i包括82 081張訓(xùn)練圖片和40 137張測試圖片,總共包含80類,60類用于訓(xùn)練,20類用于測試。
(1)PASCAL-5i數(shù)據(jù)集
在相同的數(shù)據(jù)集和評(píng)價(jià)指標(biāo)下,與當(dāng)前主流的小樣本語義分割模型進(jìn)行對(duì)比實(shí)驗(yàn),表1給出了所提出模型在PASCAI-5i數(shù)據(jù)集上的分割結(jié)果。
表1 1-way 1-shot和1-way 5-shot在PASCAL-5i上的分割結(jié)果
從表1可以看出,在3個(gè)主干網(wǎng)絡(luò)下,模型的綜合分割性能具有較好的競爭力。具體地,在Vgg-16網(wǎng)絡(luò)下,所提出模型實(shí)現(xiàn)了49.2%(1-shot)和 53.8%(5-shot)的mIoU,67.4%(1-shot)和69.1%(5-shot)的FB-IoU。當(dāng)主干網(wǎng)絡(luò)采用ResNet-50時(shí),mIoU進(jìn)一步提高至53.8%和59.6%,與同類主干網(wǎng)絡(luò)下表現(xiàn)最佳的PPNet模型相比,在1-shot任務(wù)下提升了1.0%的mIoU,雖然在5-shot任務(wù)下,mIoU相比PPNet和SML有所下降,但在FB-IoU指標(biāo)下,分別提升了0.8%(1-shot)和1.2%(5-shot);當(dāng)主干網(wǎng)絡(luò)為ResNet-101時(shí),所提出模型在1-shot任務(wù)下實(shí)現(xiàn)了57.6%的mIoU和73.1%的FB-IoU;在5-shot任務(wù)下,進(jìn)一步將mIoU提高至62.9%,將FB-IoU提高至75.8%。上述實(shí)驗(yàn)結(jié)果驗(yàn)證了所提出模型的優(yōu)越性。分析主要原因,包括:① 所提出模型在圖片映射為深度特征空間階段,采用多尺度特征,并非傳統(tǒng)單一使用中間層或高層特征作為下游分割任務(wù)的特征圖,有效保障了特征信息的完成性;② 引入了目標(biāo)類的語義信息,強(qiáng)化了視覺編碼特征后的類特定原型的表達(dá)能力;③ 采用無參數(shù)度量學(xué)習(xí)結(jié)構(gòu),這極大地減少了信息的損失和歧義。
(2)COCO-20i數(shù)據(jù)集
為了進(jìn)一步驗(yàn)證所提出模型的有效性,在類別更多、目標(biāo)數(shù)量更豐富的COCO-20i上進(jìn)行對(duì)比實(shí)驗(yàn),詳細(xì)結(jié)果如表2所示。可以看出,在COCO-20i上具有與PASCAL-5i相似的發(fā)現(xiàn)。具體地,Vgg-16作為主干網(wǎng)絡(luò)時(shí),所提出模型在1-shot和5-shot任務(wù)上,優(yōu)勢明顯。當(dāng)ResNet-50作為主干網(wǎng)絡(luò)時(shí),所提出模型的分割性能可以實(shí)現(xiàn)35.7%的mIoU和66.2%的FB-IoU;在5-shot任務(wù)上,實(shí)現(xiàn)了40.1%的mIoU和65.3%的FB-IoU。雖然主干網(wǎng)絡(luò)為ResNet-101時(shí),mIoU性能優(yōu)勢并不明顯,但在FB-IoU上,相比所有對(duì)比模型中表現(xiàn)最好的MGNet模型,提升了1.3%和2.5%,整體具有較強(qiáng)的競爭力。
表2 1-way 1-shot和1-way 5-shot在COCO-20i上的分割結(jié)果
(3)可視化結(jié)果
圖7給出了所提出模型的分割可視化結(jié)果,可以看出,在目標(biāo)單一、數(shù)據(jù)量較少的PASCAL-5i數(shù)據(jù)集上,鳥、船、飛機(jī)和羊等目標(biāo)都可以較好地從背景中分割出來,并且輪廓邊緣較清晰。對(duì)于在目標(biāo)復(fù)雜且語義類型較多的COCO-20i數(shù)據(jù)集上,目標(biāo)的主體可以完整地分割出來,整體分割細(xì)節(jié)較好,進(jìn)一步驗(yàn)證了所提出模型的有效性。
圖7 分割結(jié)果可視化Fig.7 Visualization of segmentation results
為了進(jìn)一步分析所提出模型的各模塊對(duì)于分割性能提升的作用,進(jìn)行表3所示的消融實(shí)驗(yàn)。所提出模型的多原型信息主要來源于視覺屬性和語義屬性兩大類??梢钥闯?在PASCAL-5i數(shù)據(jù)集和COCO-20i數(shù)據(jù)集上,單一視覺屬性或語義屬性尚不足以充分表示目標(biāo)類的特定原型信息,極易造成信息丟失或誤匹配問題。然而,結(jié)合視覺和語義屬性,無論在PASCAL-5i數(shù)據(jù)集還是COCO-20i數(shù)據(jù)集上,性能均提升至與當(dāng)前模型具有競爭力的水平,這進(jìn)一步驗(yàn)證了所提出模型設(shè)計(jì)的合理性。
表3 消融實(shí)驗(yàn)
提出了一種新的基于語義協(xié)同指導(dǎo)的小樣本語義分割算法,借助Vision Transformer編碼塊提取目標(biāo)的視覺信息;在此基礎(chǔ)上,利用類語義屬性信息,強(qiáng)化支持圖片中獲取的目標(biāo)類特定原型的表達(dá)能力。通過在PASCAL-5i和COCO-20i數(shù)據(jù)集上進(jìn)行測試,在1-shot和5-shot任務(wù)上,所提出模型相比當(dāng)前主流模型,均具有一定的競爭力。