石德碩,李軍俠,劉青山
南京信息工程大學(xué)江蘇省大氣環(huán)境與裝備技術(shù)協(xié)同創(chuàng)新中心,南京 210044
語(yǔ)義分割是計(jì)算機(jī)視覺(jué)領(lǐng)域的一個(gè)非常重要且基礎(chǔ)的研究方向,該任務(wù)利用計(jì)算機(jī)的特征表達(dá)來(lái)模擬人類(lèi)對(duì)圖像的識(shí)別過(guò)程,為給定圖像的每一個(gè)像素分配一個(gè)語(yǔ)義類(lèi)別標(biāo)簽。隨著深度學(xué)習(xí)技術(shù)的快速發(fā)展,語(yǔ)義分割也取得了長(zhǎng)足的發(fā)展與進(jìn)步。作為一項(xiàng)密集型預(yù)測(cè)任務(wù),語(yǔ)義分割模型(劉文 等,2021)的訓(xùn)練離不開(kāi)大規(guī)模像素級(jí)標(biāo)注數(shù)據(jù),然而圖像的像素級(jí)標(biāo)注獲取困難且耗時(shí)耗力。弱監(jiān)督語(yǔ)義分割技術(shù),由于其僅依賴弱標(biāo)注數(shù)據(jù)訓(xùn)練分割模型,可以解決現(xiàn)有語(yǔ)義分割模型對(duì)于大量像素級(jí)標(biāo)注數(shù)據(jù)的依賴問(wèn)題,正在成為一大學(xué)術(shù)研究熱點(diǎn),常見(jiàn)的弱標(biāo)注包括邊界框標(biāo)注,如SD(Isimple does it)(Khoreva 等,2017)利用邊界框與Grabcut(Rother 等,2004)、MCG(multiscale combinatorial grouping)(Pont-Tuset 等,2017)生成的結(jié)果設(shè)計(jì)偽標(biāo)簽;涂鴉標(biāo)注,如ScribbleSup(scribble-supervised)(Lin 等,2016)利用圖模型將語(yǔ)義信息從涂鴉標(biāo)注擴(kuò)展到未標(biāo)注像素;點(diǎn)標(biāo)注,如SSPS(semantic segmentation with point supervision)(Bearman 等,2016)將點(diǎn)監(jiān)督和圖像通用先驗(yàn)融入損失函數(shù),提高了偽標(biāo)簽質(zhì)量;圖像級(jí)標(biāo)注,如DMG(dynamic mask generation)(陳辰 等,2020)利用網(wǎng)絡(luò)多層特征動(dòng)態(tài)生成偽標(biāo)簽。在上述弱監(jiān)督標(biāo)簽中,圖像級(jí)標(biāo)注相比于其他方式更容易獲得,同時(shí),由于僅給出了圖像中存在的具體目標(biāo)類(lèi)別信息,并沒(méi)有指出目標(biāo)類(lèi)別在圖像中的位置,基于圖像級(jí)標(biāo)注的弱監(jiān)督語(yǔ)義分割也是最具有挑戰(zhàn)性的,因此本文重點(diǎn)研究圖像級(jí)標(biāo)注下的弱監(jiān)督語(yǔ)義分割方法。
基于圖像級(jí)標(biāo)注的弱監(jiān)督語(yǔ)義分割方法通常采用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)生成類(lèi)激活圖,其可以精確定位目標(biāo)位置,但對(duì)目標(biāo)區(qū)域的覆蓋范圍往往過(guò)小,最終造成偽標(biāo)簽稀疏的問(wèn)題。在Transformer(Vaswani 等,2017)的快速發(fā)展下,研究者們開(kāi)始將視覺(jué)Transformer 引入弱監(jiān)督語(yǔ)義分割任務(wù),TS-CAM(token semantic coupled attention map)(Gao 等,2021)利用語(yǔ)義不可知的長(zhǎng)距離自注意力對(duì)類(lèi)激活圖進(jìn)行修正,從而得到更加完整的前景目標(biāo)進(jìn)行弱監(jiān)督目標(biāo)檢測(cè)。MCTformer(multi-class token Transformer)(Xu 等,2022)引入多類(lèi)token生成各個(gè)類(lèi)別的注意力圖,然后再利用自注意力圖進(jìn)行優(yōu)化得到最終的目標(biāo)類(lèi)激活圖。然而,現(xiàn)有的基于Transformer網(wǎng)絡(luò)生成的類(lèi)激活圖往往包含過(guò)多的背景噪聲,影響偽標(biāo)簽的精確度。實(shí)驗(yàn)發(fā)現(xiàn),背景噪聲的引入主要是由深層自注意力的不準(zhǔn)確性導(dǎo)致的。
針對(duì)以上問(wèn)題,本文提出了一種基于自注意力融合調(diào)制網(wǎng)絡(luò)的弱監(jiān)督語(yǔ)義分割方法。使用卷積增強(qiáng)的Transformer(Conformer)(Peng 等,2021)作為特征提取網(wǎng)絡(luò),能夠得到更加魯棒的特征表達(dá)。受卷積網(wǎng)絡(luò)分支提取到的局部信息部分的影響,Transformer 結(jié)構(gòu)的淺層自注意力會(huì)更加關(guān)注圖像的局部細(xì)節(jié)特征,由淺層自注意力優(yōu)化得到的類(lèi)激活圖往往包含較多的細(xì)節(jié)信息;深層自注意力則更加關(guān)注圖像全局特征,其往往會(huì)錯(cuò)誤地將前景和背景進(jìn)行關(guān)聯(lián),對(duì)應(yīng)的類(lèi)激活圖噪聲很多,且準(zhǔn)確度較低。將不同自注意力層直接進(jìn)行疊加融合進(jìn)而生成類(lèi)激活圖并不是最優(yōu)的選擇,缺乏對(duì)不同自注意力層重要性的考量。基于此,本文設(shè)計(jì)了一種自注意力自適應(yīng)融合模塊,根據(jù)自注意力值和層級(jí)重要性生成融合權(quán)重,融合之后的自注意力在保留目標(biāo)細(xì)節(jié)的同時(shí)也能較好地抑制背景噪聲??紤]到淺層自注意力對(duì)保持圖像邊界細(xì)節(jié)的貢獻(xiàn)更大,深層自注意力對(duì)背景的引入較多,因此在融合過(guò)程中,對(duì)淺層自注意力賦予一個(gè)較大的權(quán)重,增大細(xì)節(jié)信息,對(duì)深層自注意力則乘以一個(gè)較小的權(quán)重,降低深層注意力的比重。盡管該操作會(huì)損失部分語(yǔ)義信息,但能夠?qū)Ρ尘霸肼曔M(jìn)行有效抑制。實(shí)驗(yàn)證明,部分語(yǔ)義信息的缺失并不會(huì)影響目標(biāo)分類(lèi)結(jié)果。此外,提出了一種自注意力調(diào)制模塊,通過(guò)設(shè)計(jì)調(diào)制函數(shù)校準(zhǔn)不同像素對(duì)之間的親密度,增大前景像素間的激活響應(yīng)。最后使用調(diào)制后的自注意力優(yōu)化初始類(lèi)激活圖(融合卷積分支和Transformer分支得到),得到的類(lèi)激活圖可以覆蓋較多的目標(biāo)區(qū)域,同時(shí)有效抑制背景噪聲,最終得到高質(zhì)量的偽標(biāo)簽。
本文的貢獻(xiàn)點(diǎn)總結(jié)如下:1)提出了一種基于自注意力融合調(diào)制網(wǎng)絡(luò)的弱監(jiān)督語(yǔ)義分割方法,得到的類(lèi)激活圖可以較為準(zhǔn)確且全面地覆蓋前景目標(biāo)區(qū)域。2)針對(duì)Transformer淺層和深層自注意力的不同特性,設(shè)計(jì)了一種自注意力自適應(yīng)融合模塊,生成的類(lèi)激活圖在保留目標(biāo)細(xì)節(jié)信息的同時(shí)較好地抑制了背景噪聲。此外,構(gòu)建了一種自注意力調(diào)制模塊,通過(guò)校準(zhǔn)像素對(duì)之間的親密度關(guān)系增大前景像素激活響應(yīng)。3)本文算法在常用的PASCAL VOC 2012(pattern analysis,statistical modeling and computational learning visual object classes 2012)數(shù)據(jù)集和COCO 2014(common objectes in context 2014)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),其結(jié)果驗(yàn)證了所提算法的可行性與有效性。
本部分首先介紹基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的弱監(jiān)督語(yǔ)義分割方法,其次對(duì)Transformer 在弱監(jiān)督語(yǔ)義分割中的應(yīng)用進(jìn)行分析。
現(xiàn)有的圖像級(jí)標(biāo)注下的弱監(jiān)督語(yǔ)義分割方法大都基于卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練分類(lèi)器生成類(lèi)激活圖,之后使用類(lèi)激活圖生成偽標(biāo)簽訓(xùn)練分割網(wǎng)絡(luò)。該類(lèi)方法得到的類(lèi)激活圖往往覆蓋較小且稀疏的目標(biāo)區(qū)域,由此生成的偽標(biāo)簽不能達(dá)到訓(xùn)練分割網(wǎng)絡(luò)的需要。后來(lái)工作的重心在于如何使得分類(lèi)網(wǎng)絡(luò)能夠激活更大的前景目標(biāo)區(qū)域,以獲得高質(zhì)量的偽標(biāo)簽。現(xiàn)有的方法主要分為兩種,一種是基于擦除的思想,典型的方法是AE(adversarial erasing)模型(Wei 等,2017),該方法首先擦除原圖中對(duì)應(yīng)類(lèi)激活圖的高鑒別性區(qū)域部分,之后重新訓(xùn)練分類(lèi)網(wǎng)絡(luò),迫使分類(lèi)器關(guān)注剩余目標(biāo)部分。SeeNet(self erasing network)(Hou 等,2018)對(duì)上述模型進(jìn)行了改進(jìn),通過(guò)設(shè)置兩個(gè)不同的閾值,劃定擦除范圍,防止過(guò)度擦除到背景部分。FickleNe(tLee等,2019)通過(guò)隨機(jī)擦除學(xué)習(xí)到的特征,增強(qiáng)類(lèi)激活圖中前景的連貫性,以此擴(kuò)大前景目標(biāo)區(qū)域。CPN(complementary patch network)(Zhang 等,2021)網(wǎng)絡(luò)將圖像拆成互補(bǔ)的兩部分,擴(kuò)大類(lèi)激活圖響應(yīng)區(qū)域。基于擦除的方法步驟復(fù)雜,不容易抑制背景噪聲,且結(jié)果往往存在上限,很難得到最優(yōu)的結(jié)果。區(qū)域生長(zhǎng)是另一種較為流行的類(lèi)激活圖擴(kuò)展方法,其中SEC(seed,expand and constrain)(Kolesnikov 和Lampert,2016)是一種最為經(jīng)典的模型,該方法將分類(lèi)網(wǎng)絡(luò)產(chǎn)生的區(qū)域視為種子區(qū)域,之后設(shè)置擴(kuò)張和抑制損失函數(shù),對(duì)種子區(qū)域進(jìn)行 擴(kuò)張約束。DSRG(deep seeded region growing)(Huang 等,2018)對(duì)SEC 方法進(jìn)行了改進(jìn),提出了在線更新種子區(qū)域的策略,得到的類(lèi)激活圖響應(yīng)區(qū)域更大且更準(zhǔn)確。MCOF(mining common object features)(Wang 等,2018)模型利用分割網(wǎng)絡(luò)和分類(lèi)網(wǎng)絡(luò)相互迭代訓(xùn)練,逐步擴(kuò)大圖像中的前景區(qū)域。IRNe(tinter-pixel relations network)(Ahn 等,2019)則利用類(lèi)激活圖中的可靠區(qū)域獲得目標(biāo)邊界,然后對(duì)種子區(qū)域進(jìn)行隨機(jī)游走,進(jìn)一步提升分割性能。觀察到分類(lèi)器的關(guān)注區(qū)域不斷變化的特點(diǎn),OAA(online attention accumulation)(Jiang 等,2019)模型將不同的激活區(qū)域相累加以獲得更加完整的前景目標(biāo)。DRS(discriminative region suppression)(Kim 等,2021)方法通過(guò)抑制種子區(qū)域峰值,迫使分類(lèi)器定位更多的目標(biāo)區(qū)域。擦除或區(qū)域生長(zhǎng)方式一定程度上增大了類(lèi)激活響應(yīng)區(qū)域,但不能完整準(zhǔn)確地覆蓋目標(biāo)區(qū)域,獲得偽標(biāo)簽的質(zhì)量還有很大的提升空間。
不同于卷積神經(jīng)網(wǎng)絡(luò),Transformer(Vaswani 等,2017)是一種基于全局自注意力的模型,在特征提取的過(guò)程中關(guān)注全局信息,其對(duì)生成具有準(zhǔn)確前景目標(biāo)的偽標(biāo)簽至關(guān)重要。ViT(vision Transformer)(Dosovitskiy 等,2021)模型將Transformer 引入到視覺(jué)領(lǐng)域,在圖像分類(lèi)問(wèn)題中具有較好的表現(xiàn)。TSCAM(Gao 等,2021)首次將Transformer 引入到弱監(jiān)督目標(biāo)檢測(cè)領(lǐng)域,利用與類(lèi)別無(wú)關(guān)的自注意力對(duì)類(lèi)激活圖進(jìn)行修正擴(kuò)大,這對(duì)弱監(jiān)督語(yǔ)義分割任務(wù)很有啟發(fā)意義。隨后,MCTformer(Xu 等,2022)在生成類(lèi)激活圖的過(guò)程中,通過(guò)增加Transformer中token的數(shù)量解決了只使用一個(gè)token時(shí)類(lèi)別不可分的問(wèn)題。AFAne(taffinity from attention network)(Ru 等,2022)利用Transformer 挖掘圖像像素之間的相似度關(guān)系,提出了一種可以對(duì)自注意力進(jìn)行約束的端到端學(xué)習(xí)模型。TransCAM(Transformer CAM)(Li 等,2022a)通過(guò)簡(jiǎn)單疊加不同層次的自注意力,對(duì)卷積網(wǎng)絡(luò)得到的初始類(lèi)激活圖進(jìn)行擴(kuò)張。然而,由于Transformer 關(guān)注于圖像全局特征,通過(guò)自注意力得到的類(lèi)激活圖往往帶有過(guò)多的背景噪聲。本文重點(diǎn)關(guān)注于從淺層到深層的自注意力的不同特性,對(duì)注意力進(jìn)行約束融合調(diào)制,進(jìn)而優(yōu)化類(lèi)激活圖,在突出前景目標(biāo)的同時(shí)有效抑制了背景噪聲,提高了偽標(biāo)簽的質(zhì)量。
本文提出了一種自注意力融合調(diào)制模型,用于圖像類(lèi)別標(biāo)簽下的弱監(jiān)督語(yǔ)義分割任務(wù),該模型主要由3 部分組成:1)結(jié)合卷積網(wǎng)絡(luò)和Transformer 進(jìn)行高鑒別性特征提取,充分利用卷積神經(jīng)網(wǎng)絡(luò)的局部信息和Transformer 的全局信息,生成初始類(lèi)激活圖;2)自注意力自適應(yīng)融合模塊,能夠自適應(yīng)度量多層級(jí)自注意力重要性,有效降低背景區(qū)域激活概率;3)自注意力調(diào)制模塊,利用像素對(duì)之間的自注意力關(guān)系,設(shè)計(jì)調(diào)制函數(shù),擴(kuò)大前景和背景像素之間的距離,以突出前景。具體框架圖如圖1所示。
圖1 自注意力融合調(diào)制模型Fig.1 Self-attention fusion and modulation model
針對(duì)密集型語(yǔ)義分割預(yù)測(cè)任務(wù),局部特征和全局特征的綜合利用對(duì)于高質(zhì)量偽標(biāo)簽的生成至關(guān)重要。卷積網(wǎng)絡(luò)可以對(duì)局部區(qū)域進(jìn)行很好地建模,但缺乏對(duì)全局信息的刻畫(huà),而Transformer 在得到全局特征的同時(shí)難于抽取細(xì)粒度的局部特征。因此,本文使用卷積增強(qiáng)的Transformer(Conformer)作為特征提取網(wǎng)絡(luò),具體結(jié)構(gòu)如圖1 灰色方框所示。Conformer 的核心在于兩個(gè)分支之間的信息共享,通過(guò)設(shè)計(jì)特征耦合單元(feature coupling unit,F(xiàn)CU),使得學(xué)習(xí)的特征更加魯棒,提取到的信息更加全面。Conformer 首先采用卷積提取初始特征,然后將初始特征輸入到兩個(gè)分支當(dāng)中,上分支為用于提取局部特征的卷積網(wǎng)絡(luò),在網(wǎng)絡(luò)的終端額外加入一層卷積層,將通道數(shù)改為類(lèi)別數(shù)量,進(jìn)而生成卷積類(lèi)激活圖(convolutional class attention map,ConvCAMs)。Conformer 的下分支為T(mén)ransformer 結(jié)構(gòu),該分支首先利用一個(gè)卷積操作將初始特征映射為塊嵌入(對(duì)應(yīng)n個(gè)token),并額外增加1 個(gè)token,之后將n+1 個(gè)token 作為多頭自注意力模塊的輸入,經(jīng)過(guò)L個(gè)自注意力層進(jìn)行特征提取。與卷積分支不同,這里將生成的特征向量進(jìn)行重組(reshape),生成寬和高相等的特征圖,之后利用卷積層改變通道數(shù)為類(lèi)別數(shù)量,得到基于Transformer 結(jié)構(gòu)的初始類(lèi)激活圖(Transformer class attention map,TransCAMs),具體為
式中,RS代表reshape 操作,Conv·表示1 × 1 的卷積操作,F(xiàn)C和FT代表對(duì)應(yīng)卷積分支和Transformer分支的輸出特征圖。MC和MT分別為卷積分支和Transformer分支的初始類(lèi)激活圖。
卷積初始類(lèi)激活圖可以準(zhǔn)確定位目標(biāo)位置,但前景激活區(qū)域較為稀疏。相比于MC,Transformer 初始類(lèi)激活圖MT能夠覆蓋較多的目標(biāo)區(qū)域,但并不能一致地突出整個(gè)目標(biāo)部分。因此,需要聯(lián)合MC和MT,充分利用兩類(lèi)初始類(lèi)激活圖之間的互補(bǔ)信息,并進(jìn)一步優(yōu)化聯(lián)合后的結(jié)果,得到較為完整覆蓋目標(biāo)區(qū)域的類(lèi)激活圖。Transformer 分支的自注意力刻畫(huà)的是像素對(duì)之間的親密度關(guān)系,可以借助親密度對(duì)類(lèi)激活圖進(jìn)行調(diào)整。在Conformer 網(wǎng)絡(luò)中,Transformer結(jié)構(gòu)的前向傳輸計(jì)算為
式中,tl表示Transformer 中第l層的輸入分別是線性轉(zhuǎn)換參數(shù),用來(lái)對(duì)圖像塊進(jìn)行空間映射計(jì)算長(zhǎng)范圍的關(guān)系。為標(biāo)準(zhǔn)差,目的是防止出現(xiàn)過(guò)大的值,不利于網(wǎng)絡(luò)訓(xùn)練。Al表示Transformer 網(wǎng)絡(luò)中第l層中的注意力關(guān)系矩陣,可以刻畫(huà)全圖的親密度關(guān)系。雙分支信息共享后得到的Transformer不同層級(jí)的自注意力特性不同,淺層自注意力重點(diǎn)突出了圖像的局部細(xì)節(jié);深層自注意力則更加關(guān)注圖像整體信息,并且受卷積網(wǎng)絡(luò)深層卷積全局語(yǔ)義關(guān)系的引導(dǎo),在計(jì)算Transformer 的深層自注意力過(guò)程中,部分前景背景像素間的親密度值過(guò)大,導(dǎo)致前景和背景像素的錯(cuò)誤關(guān)聯(lián),如圖2 所示,其中左側(cè)數(shù)字代表自注意力層級(jí)。
圖2 Transformer自注意力結(jié)果Fig.2 The results of the self-attention in Transformer
對(duì)不同層級(jí)自注意力直接疊加融合,調(diào)整類(lèi)激活圖并不是最優(yōu)的選擇,會(huì)引入過(guò)多的背景噪聲。本文設(shè)計(jì)了一種自注意力自適應(yīng)融合模塊,根據(jù)自注意力值和層級(jí)重要性生成融合權(quán)重。對(duì)此設(shè)計(jì)了一種加權(quán)系數(shù),對(duì)每一層自注意力的重要性進(jìn)行評(píng)估,然后相乘疊加,削弱噪聲的影響。對(duì)于離散的自注意力,取值越大,重要性就越高。首先對(duì)所有層級(jí)的自注意力使用softmax 操作,獲得各層級(jí)每個(gè)位置的權(quán)重。此外,考慮到由淺層到深層自注意力重要性的不同,淺層自注意力對(duì)像素對(duì)之間關(guān)系的刻畫(huà)更為準(zhǔn)確,融合的過(guò)程中應(yīng)賦予較大的權(quán)重,而對(duì)于含有較多不準(zhǔn)確親密度值的深層自注意力賦予較小的權(quán)值。權(quán)值計(jì)算為
L層自注意力自適應(yīng)融合之后的結(jié)果為
式中,Ak表示第k層自注意力圖。融合之后的結(jié)果在保留原始特征圖細(xì)節(jié)信息的同時(shí),有效削弱了噪聲的影響,大大提高了背景的純度。
自適應(yīng)融合后的自注意力較好地刻畫(huà)了像素對(duì)之間的相似度,為了進(jìn)一步增大前景像素的激活響應(yīng),設(shè)計(jì)了自注意力調(diào)制模塊。通常情況下,像素對(duì)之間的相似度越高,自注意力圖中相應(yīng)位置處的激活值就越大,反之激活值越小。通過(guò)抑制前景和背景像素對(duì)之間相似度值的同時(shí)增大前景像素間相似度較高的值,調(diào)整像素對(duì)之間的相似度,可以自適應(yīng)調(diào)制自注意力,進(jìn)而提高前景和背景之間的距離,達(dá)到突出前景區(qū)域的目的。本文采用指數(shù)函數(shù)對(duì)自注意力值進(jìn)行調(diào)制,具體為
式中,N(?)表示歸一化操作表示調(diào)制權(quán)重。之后利用哈達(dá)瑪積將權(quán)重矩陣和注意力圖相乘,得到調(diào)制之后的自注意力。具體為
式中,°表示哈達(dá)瑪積。
調(diào)制之后的自注意力較準(zhǔn)確地刻畫(huà)了像素對(duì)之間的相似度,包含了豐富的語(yǔ)義信息,因此可以用來(lái)優(yōu)化初始類(lèi)激活圖(MC和MT)以生成具有更加完整目標(biāo)的類(lèi)激活圖M,具體操作為
式中,F(xiàn)usion表示融合操作。調(diào)制之后的類(lèi)激活圖能夠覆蓋較多的目標(biāo)區(qū)域,同時(shí)有效抑制背景噪聲。之后,使用隨機(jī)游走獲取偽標(biāo)簽,進(jìn)而進(jìn)行訓(xùn)練語(yǔ)義分割網(wǎng)絡(luò)。
本文模型是基于PyTorch深度學(xué)習(xí)框架實(shí)現(xiàn)的。在分類(lèi)網(wǎng)絡(luò)的訓(xùn)練階段,采用Conformer 作為特征提取網(wǎng)絡(luò),并在推理階段嵌入層級(jí)自適應(yīng)融合模塊和自注意力調(diào)制模塊。在訓(xùn)練過(guò)程中,損失函數(shù)采用多標(biāo)簽交叉熵?fù)p失,優(yōu)化器使用Adam 優(yōu)化器,批量大小設(shè)置為6,epoch 設(shè)置為20。學(xué)習(xí)率取值為5 ×10-5,權(quán)重衰減為5 × 10-4。在數(shù)據(jù)預(yù)處理方面,將長(zhǎng)邊尺寸隨機(jī)設(shè)置在320到640之間,并進(jìn)行隨機(jī)水平翻轉(zhuǎn),圖像的亮度、對(duì)比度、飽和度值均取0.3。此外對(duì)圖像進(jìn)行歸一化處理,同時(shí)進(jìn)行隨機(jī)裁剪。對(duì)于驗(yàn)證偽標(biāo)簽質(zhì)量的DeepLabv2 網(wǎng)絡(luò)(Chen 等,2018),訓(xùn)練20 000步,學(xué)習(xí)率、權(quán)重衰減分別設(shè)置成2.5 × 10-4和5 × 10-4。圖像增強(qiáng)方面,將長(zhǎng)邊尺寸隨機(jī)設(shè)置在200~800 像素之間的同時(shí)在左右方向進(jìn)行隨機(jī)翻轉(zhuǎn)。
本部分將在數(shù)據(jù)集PASCAL VOC 2012(Everingham 等,2010)和COCO 2014(Lin 等,2014)上驗(yàn)證所提模型的可行性與有效性。PASCAL VOC 2012 數(shù)據(jù)集是弱監(jiān)督語(yǔ)義分割常用的數(shù)據(jù)集,訓(xùn)練集和驗(yàn)證集的圖像數(shù)量分別為1 464 幅和1 449 幅,其中訓(xùn)練集通常采用額外數(shù)據(jù)(Hariharan 等,2011)擴(kuò)充后的10 582 幅圖像。測(cè)試集包含1 456 幅圖像,由于測(cè)試集的標(biāo)簽沒(méi)有公布,為了評(píng)估模型指標(biāo),需要將模型預(yù)測(cè)圖提交到官網(wǎng)進(jìn)行評(píng)價(jià)。PASCAL VOC 2012數(shù)據(jù)集一共包含20個(gè)目標(biāo)類(lèi)別,外加一個(gè)背景類(lèi)。COCO 2014 數(shù)據(jù)集含有80 個(gè)目標(biāo)類(lèi)別,外加一個(gè)背景類(lèi),其中訓(xùn)練集的數(shù)量為82 081,驗(yàn)證集為40 137。本文采用的評(píng)價(jià)指標(biāo)為平均交并比(mean intersection over union,mIoU),其度量的是預(yù)測(cè)圖和真實(shí)標(biāo)簽之間的平均交并比,計(jì)算為
式中,P表示預(yù)測(cè)結(jié)果,G表示真實(shí)標(biāo)簽,area(·)表示對(duì)應(yīng)區(qū)域面積,C為數(shù)據(jù)集中目標(biāo)類(lèi)別數(shù)量。
3.3.1 消融實(shí)驗(yàn)
本文使用卷積增強(qiáng)的Transforme(rConformer)進(jìn)行特征提取,之后設(shè)計(jì)了自注意力自適應(yīng)融合模型和自注意力調(diào)制模型進(jìn)行類(lèi)激活圖的計(jì)算。因此,本部分以卷積網(wǎng)絡(luò)為基準(zhǔn),進(jìn)一步驗(yàn)證Transformer分支、融合模塊和調(diào)制模型的有效性。表1 列出了各個(gè)模塊在PASCAL VOC 2012 訓(xùn)練集上得到的類(lèi)激活圖的平均交并比(mIoU)。
表1 不同模塊的消融實(shí)驗(yàn)Table 1 Ablation experiments with different modules /%
如表1 所示,基準(zhǔn)模型的平均交并比為27.7%,指標(biāo)值較低的原因正是由于卷積分支類(lèi)激活圖的稀疏性造成的。在融合Transformer分支(記為T(mén)rans分支)之后,生成的類(lèi)激活圖其mIoU 達(dá)到了35.1%,該結(jié)果很好地驗(yàn)證了充分利用局部信息和全局信息的有效性及必要性。融入自適應(yīng)融合模塊之后,指標(biāo)提升了14.4%,該實(shí)驗(yàn)充分說(shuō)明,在考慮每個(gè)層級(jí)自注意力重要性之后,加權(quán)融合得到的自注意力可以高效抑制背景噪聲。如表1 最后一行所示,加入調(diào)制模塊之后,優(yōu)化后的類(lèi)激活圖mIoU 值顯著提升,相比基準(zhǔn)模型提高了26.8%,比加入融合模塊后的結(jié)果提高了5%。這些結(jié)果充分說(shuō)明自注意力調(diào)制模塊達(dá)到了區(qū)分前景和背景的目的,并且很好地突出了前景目標(biāo)。
此外,圖3 給出了不同模塊得到的類(lèi)激活圖的可視化結(jié)果。如圖3(a)所示,在雙分支網(wǎng)絡(luò)中,由卷積網(wǎng)絡(luò)得到的類(lèi)激活圖可以有效定位目標(biāo)位置,但鑒別性區(qū)域過(guò)小,而對(duì)應(yīng)Transformer 分支得到的類(lèi)激活圖鑒別性區(qū)域較大,但同時(shí)帶來(lái)了較多的背景噪聲,如圖3(b)所示。自注意力自適應(yīng)融合之后對(duì)應(yīng)的類(lèi)激活圖(融合CAMs)有效地較低了背景噪聲。調(diào)制后的CAMs 有效擴(kuò)大了前景和背景之間的距離,同時(shí)如圖3(d)第3 行和第4 行所示,得到的類(lèi)激活圖還可以拉大不同目標(biāo)類(lèi)別之間的距離,以生成更加魯棒的偽標(biāo)簽。
圖3 不同模塊對(duì)應(yīng)的類(lèi)激活圖可視化結(jié)果Fig.3 Class activation maps recovered with different modules((a)C-CAMs;(b)T-CAMs;(c)fused CAMs;(d)modulated CAMs)
3.3.2 初始類(lèi)激活圖生成分析
圖4 展示了初始類(lèi)激活圖生成示例。本文利用雙分支的Conformer 特征提取模型作為骨干網(wǎng)絡(luò),使得卷積分支和Transformer分支上生成類(lèi)激活圖的方式達(dá)成一致,下面對(duì)對(duì)應(yīng)的初始類(lèi)激活圖融合方式(如圖1上半部分“融合”所示)進(jìn)行分析。
圖4 初始類(lèi)激活圖生成示例圖Fig.4 Example map of initial class activation map generation((a)MC;(b)MT;(c)mutiply;(d)max;(e)mean)
如表2 所示,卷積分支的類(lèi)激活圖的mIoU 為27.7%,而對(duì)應(yīng)Transformer 分支生成的類(lèi)激活圖的mIoU 值僅有25.2%,主要是因?yàn)樵摲种中畔?lái)的大量噪聲,導(dǎo)致背景部分過(guò)度激活。為了充分利用這兩個(gè)分支的信息,需要將MC和MT進(jìn)行融合。
表2 初始類(lèi)激活圖生成分析Table 2 Analysis of the initial CAMs generation
常見(jiàn)的融合方式包括:對(duì)應(yīng)類(lèi)激活圖取大操作、相乘操作以及求平均操作。如表2 所示,取大操作帶來(lái)的指標(biāo)提升并不明顯,分析主要原因是Transformer 分支生成的背景噪聲,取大操作會(huì)保留大量的背景噪聲,從而降低類(lèi)激活圖的質(zhì)量。當(dāng)采用兩個(gè)類(lèi)激活圖對(duì)應(yīng)位置相乘或取平均時(shí),指標(biāo)提升明顯,mIoU 值分別達(dá)到34.1%和35.1%。相乘操作對(duì)應(yīng)mIoU 值稍低主要是由于相乘會(huì)相應(yīng)削弱Transformer 分支的語(yǔ)義信息。因此,在本文算法中,采用取平均的方式進(jìn)行兩類(lèi)初始類(lèi)激活圖的融合,既可以保留兩個(gè)分支的語(yǔ)義信息,又可以降低Transformer分支對(duì)應(yīng)類(lèi)激活圖中背景噪聲的影響。
3.3.3 自注意力融合分析
本文構(gòu)建了一種自注意力自適應(yīng)融合模塊,以有效融合Transformer不同層級(jí)的自注意力。本部分將對(duì)不同的自注意力融合策略進(jìn)行分析,主要包括4種情況:只使用最后一層自注意力、只使用第1層、L層求平均以及本文的自適應(yīng)融合方法。其中第1種和第2 種方式是融合策略的兩個(gè)特例。不用融合方式對(duì)應(yīng)類(lèi)激活圖的mIoU 值如表3 所示。只使用最后一層的mIoU 指標(biāo)僅有27.2%,該結(jié)果表明僅利用深層自注意力優(yōu)化類(lèi)激活圖是遠(yuǎn)遠(yuǎn)不夠的,原因在于深層自注意力的嘈雜性導(dǎo)致優(yōu)化后的類(lèi)激活圖包含了過(guò)多的背景噪聲,不能準(zhǔn)確地挖掘出前景目標(biāo)。當(dāng)僅利用淺層自注意力進(jìn)行優(yōu)化時(shí)(使用第1 層),得到的mIoU 為38.7%,表明僅利用淺層的自注意力優(yōu)化類(lèi)激活圖同樣也不能得到高質(zhì)量的偽標(biāo)簽。以上兩個(gè)實(shí)驗(yàn)結(jié)果表明,單層的自注意力信息往往不夠完整,因此需要將所有層的自注意力進(jìn)行融合優(yōu)化。如果將L層的自注意力直接相加而不考慮它們之間的重要性,mIoU 結(jié)果達(dá)到了44.9%,這表明了多層自注意力之間信息的互補(bǔ)性。然而求平均并不是最優(yōu)的融合方式,因?yàn)樯顚幼宰⒁饬﹀e(cuò)誤的前景和背景關(guān)系,會(huì)導(dǎo)致背景區(qū)域被錯(cuò)誤激活。當(dāng)采用本文所提出的自適應(yīng)融合方法時(shí),實(shí)驗(yàn)效果達(dá)到了49.5%,相比于求平均融合方式提升了4.6%,該實(shí)驗(yàn)很好地說(shuō)明了所提自注意力融合方式在優(yōu)化類(lèi)激活圖時(shí)的有效性。自注意力融合示例如圖5所示。
表3 自注意力融合分析Table 3 Analysis of the self-attention fusion
圖5 自注意力融合示例圖Fig.5 Example maps of self-attention fusion((a)images;(b)the first layer;(c)the last layer;(d)mean;(e)ours)
3.4.1 偽標(biāo)簽對(duì)比
在生成類(lèi)激活圖之后,通常做法是利用IRNet(Ahn 等,2019)對(duì)其進(jìn)行優(yōu)化,然后使用分割網(wǎng)絡(luò)的預(yù)測(cè)圖得到偽標(biāo)簽,該操作稱為后處理操作。在沒(méi)有經(jīng)過(guò)后處理操作的情況下,即直接對(duì)類(lèi)激活圖進(jìn)行閾值化生成偽標(biāo)簽,其對(duì)應(yīng)的mIoU 值為66.0%,如表4 所示。經(jīng)過(guò)后處理之后,偽標(biāo)簽的mIoU 達(dá)到71.3%,提升了5.3%。同時(shí),表4還給出了與最新其他方法生成的偽標(biāo)簽的對(duì)比結(jié)果,其中TransCAM(Li 等,2022a)方法使用了Transformer 提取特征,其他方法均為基于卷積網(wǎng)絡(luò)的模型,在PASCAL VOC 2012 數(shù)據(jù)集的訓(xùn)練集上,本文方法取得了最優(yōu)的偽標(biāo)簽結(jié)果。經(jīng)過(guò)后處理之后,TransCAM 的mIoU 值為70.2%,本文方法比其高出1.1%。相比CPN(Zhang 等,2021)、AdvCAM(Lee 等,2021a)和SEAM(Wang 等,2020),本文方法偽標(biāo)簽的mIoU 值分別高出3.5%,3.5%,7.7%,該實(shí)驗(yàn)結(jié)果很好地證明了利用全局信息和局部信息恢復(fù)偽標(biāo)簽的有效性。
表4 偽標(biāo)簽對(duì)比實(shí)驗(yàn)Table 4 Comparison experiments of pseudo labels
同時(shí),圖6 給出在PASCAL VOC 數(shù)據(jù)集對(duì)應(yīng)偽標(biāo)簽可視化示例,左側(cè)一列代表原圖和真值標(biāo)簽,右側(cè)代表偽標(biāo)簽。從結(jié)果可以看出,本文方法得到的偽標(biāo)簽可以較完整地覆蓋目標(biāo)區(qū)域且具有干凈的背景,并與真值標(biāo)注十分接近。
圖6 偽標(biāo)簽示例圖Fig.6 Examples of the pseudo labels
3.4.2 分割結(jié)果對(duì)比
本小節(jié)將本文方法與最新的26 種基于圖像級(jí)標(biāo)注的弱監(jiān)督語(yǔ)義分割模型進(jìn)行分割性能比較,其中MCTformer(Xu等,2022)和TransCAM 在特征提取階段使用了Transformer,其余24 種方法均為基于卷積神經(jīng)網(wǎng)絡(luò)的模型。值得注意的是,24 種基于卷積網(wǎng)絡(luò)的方法中有14 種模型額外使用了顯著性圖信息。表5 給出了在PASCAL VOC2012 數(shù)據(jù)集驗(yàn)證集(val)和測(cè)試集(test)上,基于偽標(biāo)簽訓(xùn)練DeepLabv2模型得到的分割對(duì)比結(jié)果。其中,I 代表圖像級(jí)標(biāo)簽,S代表顯著性(saliency)信息。
表5 PASCAL VOC 2012 數(shù)據(jù)集上分割結(jié)果對(duì)比實(shí)驗(yàn)Table 5 Comparison experiments of segmentation results in PASCAL VOC 2012
如表5 所示,本文方法在PASCAL VOC2012 驗(yàn)證集上mIoU 指標(biāo)為70.2%,測(cè)試集上達(dá)到了70.5%,在沒(méi)有使用顯著性信息的情況下,均為目前最優(yōu)的結(jié)果。相比于基于卷積神經(jīng)網(wǎng)絡(luò)的模型,如IRNet(inter-pixel relations network)(Ahn 等,2019)、CIAN(cross-image affinity network)(Fan 等,2020b)、PMM(Li 等,2021)、AMR(activation modulation and recalibration)(Qin 等,2022)、SIPE(self-supervised image-specific prototype exploration)(Chen等,2022a),在驗(yàn)證集上mIoU分別高出它們6.7%,5.9%,1.7%,1.4%和 1.4%,較大的性能差距驗(yàn)證了卷積神經(jīng)網(wǎng)絡(luò)在生成偽標(biāo)簽時(shí)的局限性,即前景稀疏導(dǎo)致目標(biāo)不完整的問(wèn)題,此外,該結(jié)果也很好地驗(yàn)證了信息的完整獲取對(duì)偽標(biāo)簽生成的重要性。對(duì)比基于Transformer 的模型,本文所提模型同樣達(dá)到了最優(yōu),在驗(yàn)證集上,分別比MCTformer 和TransCAM 高出2%和0.9%;在測(cè)試集上,mIoU 相應(yīng)高出2.1%和0.9%。相比較使用顯著性圖的方法,例如EPS(explicitpseudo-pixel supervision)(Lee 等,2021b)、NSROM(non-salient region object mining)(Yao 等,2021)、OAA(online attention accumulation)(Jiang 等,2019)等,所提模型也達(dá)到了相當(dāng)?shù)慕Y(jié)果,甚至比大部分的模型還要好。本文方法擺脫了對(duì)顯著性圖提供背景信息的依賴,該結(jié)果也進(jìn)一步驗(yàn)證了模型對(duì)背景噪聲抑制的高效性。
表6 給出了在COCO2014 驗(yàn)證集上與其他方法的分割性能比較結(jié)果。其中,I 代表圖像級(jí)標(biāo)簽,S代表顯著性信息。所提模型同樣達(dá)到了最優(yōu)的效果,mIoU 值達(dá)到40.1%,比最新方法ReCAM(Chen等,2022b)高出0.5%。
表6 COCO數(shù)據(jù)集上分割結(jié)果對(duì)比實(shí)驗(yàn)Table 6 Comparison experiments of segmentation results in COCO dataset
同時(shí),圖7 和圖8 分別展示了在PASCAL VOC 2012 和 COCO 2014 的驗(yàn)證集上的分割結(jié)果示例。可以很清楚地看到,本文方法得到的分割結(jié)果與分割真值非常接近。
圖7 在PASCAL VOC 2012驗(yàn)證集的分割結(jié)果示例圖Fig.7 Examples of the segmentation results in PASCAL VOC 2012 validation dataset((a)images;(b)GT;(c)ours)
圖8 在COCO 2014驗(yàn)證集的分割結(jié)果示例圖Fig.8 Examples of the segmentation results in COCO 2014 validation dataset((a)images;(b)GT;(c)ours)
為了解決偽標(biāo)簽前景稀疏和背景噪聲過(guò)多的問(wèn)題,本文提出了一種自注意力自適應(yīng)融合調(diào)制的弱監(jiān)督語(yǔ)義分割模型。利用Conformer 作為分類(lèi)特征提取網(wǎng)絡(luò),其能夠充分利用到卷積神經(jīng)網(wǎng)絡(luò)提取的局部特征和Transformer提取的全局特征。為了解決自注意力優(yōu)化類(lèi)激活圖存在的背景噪聲問(wèn)題,提出了自注意力自適應(yīng)融合模塊,充分考慮到各層級(jí)自注意力的重要性,融合后的自注意力能夠有效降低激活背景的概率。同時(shí),為了擴(kuò)大前景和背景的距離,更好地突出前景區(qū)域,設(shè)計(jì)了自注意力調(diào)制模塊,利用指數(shù)函數(shù)對(duì)融合后的自注意力進(jìn)行調(diào)制,增大前景的激活響應(yīng),最終得到具有較高準(zhǔn)確性的偽標(biāo)簽以訓(xùn)練分割網(wǎng)絡(luò)。一系列的對(duì)比實(shí)驗(yàn)充分證明了本文方法的優(yōu)越性及其有效性。
本文方法提高了語(yǔ)義分割的精度,很大程度上降低了語(yǔ)義標(biāo)簽的標(biāo)注成本,但是目前該方法也存在一定缺陷。如圖9 所示,當(dāng)圖像中的目標(biāo)經(jīng)常同時(shí)出現(xiàn)時(shí),例如火車(chē)和火車(chē)軌道,所得的類(lèi)激活圖往往不能很好地將它們區(qū)分開(kāi),導(dǎo)致前景目標(biāo)邊界不能很好地恢復(fù)。另外,當(dāng)圖像場(chǎng)景較為復(fù)雜時(shí),分類(lèi)器不能很好地定位目標(biāo),此時(shí)后續(xù)類(lèi)激活圖優(yōu)化也會(huì)出現(xiàn)錯(cuò)誤。
圖9 失敗示例圖Fig.9 Failure examples((a)images;(b)GT;(c)our CAMs)
弱監(jiān)督語(yǔ)義分割目前雖然已經(jīng)取得了一定的發(fā)展,但是距離全監(jiān)督分割精度還有一定的差距,所以首先可以繼續(xù)提高偽標(biāo)簽的生成質(zhì)量,解決上述缺點(diǎn)。其次,弱監(jiān)督語(yǔ)義分割目前主流的方法是雙階段處理方式,即首先獲取偽標(biāo)簽,然后再訓(xùn)練分割模型,這種方法雖然能夠提高模型精度,但是無(wú)疑增加了弱監(jiān)督語(yǔ)義分割任務(wù)的復(fù)雜性,因此端到端的弱監(jiān)督語(yǔ)義分割方法是一大發(fā)展趨勢(shì)。最后,弱監(jiān)督在視頻領(lǐng)域下的應(yīng)用也有待挖掘。