亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        顯著性引導的目標互補隱藏弱監(jiān)督語義分割

        2024-04-22 00:46:46白雪飛盧立彬王文劍
        中國圖象圖形學報 2024年4期
        關鍵詞:區(qū)域方法

        白雪飛,盧立彬,王文劍,2*

        1.山西大學計算機與信息技術學院,太原 030006;2.計算智能與中文信息處理教育部重點實驗室(山西大學),太原 030006

        0 引言

        語義分割作為計算機視覺領域一項基礎且關鍵的任務,一直受到大量研究者的關注。在過去十幾年中,基于深度學習的全監(jiān)督語義分割方法取得了長足進步(Long 等,2015),促進了如自動駕駛、醫(yī)學圖像分析這樣的實際應用。但是全監(jiān)督語義分割方法依賴于完整的像素級標注,而構建大規(guī)模的像素級標注數(shù)據(jù)集需要昂貴的人力物力(青晨 等,2020)。

        弱監(jiān)督語義分割旨在使用點(Bearman 等,2016)、涂鴉(Lin 等,2016)、邊界框(陳辰 等,2020)以及圖像級標簽(Kolesnikov 和Lampert,2016)等更便捷的方式達到與全監(jiān)督標簽同樣的訓練效果。其中,基于圖像級標簽的弱監(jiān)督語義分割受到廣泛關注。

        圖像級標簽中只包含物體的類別信息,缺乏相應的位置和形狀信息。目前基于圖像級標簽的弱監(jiān)督語義分割方法可分為單階段法和兩階段法兩大類。

        單階段法直接利用圖像級標簽訓練一個端到端的網絡,如早期Pinheiro 和Collobert(2015)利用多示例學習方式實現(xiàn)弱監(jiān)督語義分割。之后Papandreou等人(2015)利用期望最大(expectation maximization,EM)方法訓練弱標簽下的語義分割模型。Zhang 等人(2020)則使用分類分支來訓練并行的分割分支。

        單階段法存在監(jiān)督信息不足的問題,為解決這一問題,兩階段法首先利用圖像的類別標簽訓練一個分類網絡,生成一組類激活圖(class activation map,CAM)(Zhou 等,2016),從而得到待分割物體的粗略位置信息。然后,結合一些后處理方法獲取每個像素的類別偽標簽并利用這些偽標簽訓練分割網絡。如早期Zhou 等人(2016)探索用類激活圖實現(xiàn)弱監(jiān)督下目標的定位。Lee 等人(2019)利用類激活圖生成定位線索圖,然后將其作為偽標簽訓練分割網絡。Li 等人(2021)對類激活圖進行精調,再將其作為分割網絡的偽標簽。

        但是這類方法存在一些亟待解決的關鍵問題。一方面,由分類網絡生成的類激活圖比較稀疏,往往只關注到物體中最具辨別性的區(qū)域,能從中獲得的前景目標信息較有限。而且類激活圖存在誤激活,這可能對后續(xù)的分割任務造成錯誤指導;另一方面,分割網絡的性能依賴于偽標簽的質量,而獲取精確的偽標簽還需要物體的形狀、邊界等信息。但在圖像級標簽中,這些信息無法直接準確獲取,偽標簽的質量難以保證。因此如何獲取準確、完整的類激活圖以及生成高質量偽標簽是基于圖像級標簽的弱監(jiān)督語義分割領域中的兩個關鍵問題。

        在生成完整類激活圖方面,研究者提出了很多方案。Wei 等人(2017)提出一種迭代擦除方法,在下一次訓練前先擦除前一次得到的高響應區(qū)域,從而讓網絡能夠激活目標物體的剩余區(qū)域。但這種迭代操作耗時且迭代次數(shù)較難確定,網絡在后續(xù)迭代中可能會關注到物體以外的背景區(qū)域。Hou 等人(2018)提出一種自擦除網絡,可以阻止背景區(qū)域的誤激活,但當圖像中有多個物體類別時分割效果不佳。Jiang 等人(2019)提出了一種注意力累積策略,通過整合網絡不同訓練階段生成的類激活圖來獲取更完整的目標區(qū)域。這種方式雖然可以產生更多激活區(qū)域,但是會引入大量難以消除的噪聲,導致最終分割精度下降。Chang 等人(2020)通過挖掘子類別信息使網絡關注到那些并非最具辨別度的區(qū)域。但是從父類生成偽子類標簽時需要用到聚類方法,導致訓練時間的增加。Wang 等人(2020)利用等變機制提供的自監(jiān)督信息來增強網絡獲取完整類激活圖的能力,但是由于引入了仿射變換等額外操作,影響了網絡訓練速度。為了獲得更多的激活區(qū)域,Singh和Lee(2017)先將圖像劃分為一系列固定大小的塊,然后隨機隱藏圖像中的部分塊,迫使網絡尋找其他激活區(qū)域。但是這種隱藏方式會導致原始圖像不能完整地參與每輪訓練,造成訓練數(shù)據(jù)的浪費。后來,Zhang 等人(2021)先將圖像劃分為互補的兩部分,再分別獲取兩部分的類激活圖并結合起來作為監(jiān)督信息引導激活區(qū)域的擴展。這樣,既可以完整利用圖像信息,也有效擴大了激活區(qū)域。但這種劃分方式有很大的隨機性,不能保證前景物體較為均勻地分配。如果物體被完全分到了其中一部分,而另一部分只包含背景,這會導致訓練效果不穩(wěn)定。

        類激活圖的擴展方面也涌現(xiàn)出很多研究成果。Kolesnikov 和Lampert(2016)提出了擴展種子區(qū)域的原則,成為這一方向研究的基礎。Huang 等人(2018)利用相鄰像素間的類別關系來迭代擴展初始種子區(qū)域,但是迭代時間長,且最終結果不夠精確。Ahn 和Kwak(2018)提出訓練AffinityNet(affinity network)來學習像素之間的相似度,然后生成轉移矩陣并通過隨機游走擴展激活區(qū)域。之后,Ahn 等人(2019)又提出了IRNet(inter-pixel relations network),通過顯式學習類邊界進一步改進AffinityNet。由于AffinityNet 和IRNet 性能較好,目前已廣泛用于類激活圖的擴展。

        在偽標簽生成階段,由于缺乏形狀及邊界信息作為監(jiān)督,傳統(tǒng)方法難以獲取高質量偽標簽。為此,一些工作結合了顯著圖來提高偽標簽的可靠性。如Wang 等人(2018)提出在貝葉斯框架下利用顯著性引導實現(xiàn)標簽邊界細化。Yao 等人(2021)利用顯著圖提供的形狀信息獲取初始標簽。這些方法利用了顯著圖提供的監(jiān)督,一定程度上提高了偽標簽質量,但由于顯著圖無法提供物體類別信息,難以用于網絡的訓練階段,所以這些方法對顯著圖所提供信息的利用程度有限。

        為了解決上述問題,本文提出了一種顯著性引導的目標互補隱藏弱監(jiān)督語義分割算法,通過對顯著圖和類激活圖進行有效利用和結合,提高弱監(jiān)督語義分割方法的性能。

        針對分類網絡生成的類激活圖不完整的問題,本文提出一種新的類激活圖生成方法。首先,利用顯著圖提供的位置信息大致定位前景目標區(qū)域,再對目標區(qū)域進行互補隨機隱藏,保證互補劃分的有效性;然后,將互補圖像對送入網絡獲得各自的類激活圖,以合成具有更完整激活區(qū)域的類激活圖,并將其作為監(jiān)督信息訓練網絡,提高網絡獲取完整類激活圖的能力。

        為了減少誤激活,進一步提升網絡獲取完整類激活圖的能力,本文在網絡訓練過程中引入自注意力機制,通過一個雙重注意力精調模塊,根據(jù)空間和通道關系進一步精調類激活圖。

        為了獲取更準確的偽標簽,提高分割網絡的性能,本文提出了一種標簽迭代精調策略。首先,利用上述得到的類激活圖生成初始偽標簽訓練分割網絡,之后可用該分割網絡獲得預測結果。分割網絡的預測結果往往比原始的偽標簽更加準確,因而可以作為新的標簽重新訓練分割網絡來獲得更加健壯的模型。但是有時單純地利用分割網絡的預測結果未必能提高分割模型的精度,本文方法結合分割網絡初步預測、顯著圖和類激活圖對初步分割結果進行精調,以修正分割網絡預測結果中的誤分類像素。利用修正的預測結果作為更加準確的偽標簽迭代訓練分割模型可以更有效率地提升模型精度。

        本文在PASCAL VOC 2012(pattern analysis,statistical modeling and computational learning visual object classes 2012)數(shù)據(jù)集(Everingham 等,2012)和COCO 2014(common objectes in context 2014)數(shù)據(jù)集上(Lin等,2014)進行了類激活圖生成實驗和語義分割實驗,大量實驗結果驗證了本文方法的有效性。

        1 本文方法

        1.1 整體框架概述

        本文提出了一種新的基于圖像級標簽的弱監(jiān)督語義分割方法,整體結構如圖1所示。

        圖1 整體框架Fig.1 Overall framework

        模型的訓練過程分為分類與分割兩大階段,包括3 個主要模塊。其中,目標互補隱藏模塊(object complementary hiding module,OCHM)生成目標互補圖像對,雙重注意力修正模塊(dual attention refinement module,DARM)對獲取到的類激活圖進行修正,標簽迭代精調模塊(label iteration refinement module,LIRM)用于生成高質量偽標簽。

        首先,在分類階段利用圖像類別標簽訓練一個用于獲取類激活圖的分類網絡。原始圖像及其對應的顯著圖經過目標互補隱藏模塊OCHM得到互補的兩幅圖像,然后將其與原始圖像輸入到分類網絡進行特征提取,產生一個原始CAM,再經過雙重注意力修正模塊DARM 得到修正CAM。接下來,該類激活圖所產生的預測標簽將用于和真實類別標簽計算分類損失,而互補圖像的類激活圖融合之后與原始圖像的類激活圖計算互補重構損失。

        分割階段利用分類網絡生成的類激活圖產生偽標簽并訓練分割網絡。首先,獲取類激活圖并采用條件隨機場(conditional random fields,CRF)修正后訓練AffinityNet,進一步擴展激活區(qū)域得到初始偽標簽,然后訓練分割網絡獲得預測結果并通過CRF 進行修正。接下來,標簽迭代精調模塊通過預測結果、類激活圖以及顯著圖獲取新的偽標簽,迭代訓練分割網絡。

        1.2 顯著性引導的目標互補隱藏OCHM

        在訓練獲取類激活圖的過程中,傳統(tǒng)的分類網絡會趨向于激活物體最具辨別性的區(qū)域,無法完整地定位目標。研究表明,對圖像中目標的隨機隱藏可以增強網絡定位完整目標的能力(Singh 和Lee,2017),但是直接隨機隱藏圖像會導致一部分圖像無法參與訓練。采取互補隱藏方式可以利用全部的圖像信息(Zhang 等,2021),但由于隱藏方式是隨機的,存在僅僅隱藏了部分背景區(qū)域的情況,無法保證能按預想對目標物體進行隱藏。針對此問題,本文提出一種顯著性引導的目標互補隱藏方法,利用顯著圖獲取目標物體的位置信息,有效地將目標物體互補隱藏。

        目標互補隱藏模塊旨在獲取原始圖像的一對目標互補圖像Ih和。Ih和在初始時設為與原始圖像相同的值。與像素相比,以超像素塊為基本單元能夠在提高處理速度的同時,較準確地保留物體局部的輪廓信息。因此,首先對圖像I∈R3×H×W進行超像素分割(Felzenszwalb 和Huttenlocher,2004)獲取k個超像素塊Si,i=1,…,k。定義顯著圖中顯著區(qū)域為Is,非顯著區(qū)域為。對每個超像素塊Si,判斷其是否位于顯著區(qū)域Is中,如果是,則將其看做是目標區(qū)域,以50%的概率將Ih中對應于Si的區(qū)域進行隱藏,即將該區(qū)域中所有像素的值置為訓練集圖像均值,這樣可以保證訓練集和測試集之間的數(shù)據(jù)分布保持一致。如果圖像Ih中超像素塊Si所對應的區(qū)域是隱藏的,則在目標互補圖像中保留相應區(qū)域;反之,在圖像Ih中保留區(qū)域,在其目標互補圖像中進行隱藏。而在顯著區(qū)域以外的超像素塊可看做是背景區(qū)域,在Ih和中予以保留。

        如圖2 所示,對于輸入圖像中的目標物體汽車,顯著性引導的目標互補隱藏圖像對生成算法可以在保留背景區(qū)域的同時,生成目標物體的互補對圖像。整個過程如算法1描述,具體如下:

        圖2 顯著性引導目標互補隱藏Fig.2 Saliency guided object complementary hiding

        算法1 顯著性引導的目標互補隱藏圖像對生成算法。

        輸入:原始圖像I,顯著圖E。

        輸出:目標互補圖像對Ih和I-h。

        1)初始化Ih和,令Ih==I。

        2)對原始圖像I進行超像素分割,獲取k個超像素塊Si。

        3)對每個超像素塊Si,執(zhí)行下列操作:(1)若在E中顯著區(qū)域內,執(zhí)行(2);若不在,跳過該超像素塊。(2)以50%概率隱藏Ih中對應Si的區(qū)域,若進行隱藏,則跳過該超像素塊;若未進行隱藏,執(zhí)行(3)。(3)將中對應于超像素塊Si的區(qū)域進行隱藏。

        1.3 類激活圖生成

        利用一個多標簽分類網絡,對1.2 小節(jié)中獲取到的目標互補圖像Ih和以及原始圖像分別求其對應的類激活圖。分類網絡包含特征提取層、全局平均池化層和用于分類的全連接層。令C為數(shù)據(jù)集中所包含的總類別數(shù),那么需要對C中每一個類別c分別求取其類激活圖,而對于一幅圖像來說,只有真實類別標簽中存在的類別才有意義。定義輸入圖像某一類別c的類激活圖為Yc∈RH×W,獲取方式為

        研究結果表明,與原始圖像的類激活圖相比,互補塊的類激活圖之和能挖掘出更多的目標物體區(qū)域(Zhang等,2021),即

        式中,H為衡量類激活圖所包含目標物體信息的函數(shù)。

        由此可知,可以融合目標互補圖像對的類激活圖來獲取更完整的目標區(qū)域。根據(jù)目標互補圖像對的特性,對顯著區(qū)域和非顯著區(qū)域分別采取不同的融合策略。令分別是目標互補圖像對的類激活圖中與顯著區(qū)域對應的部分,而分別是各自類激活圖中與非顯著性區(qū)域對應的部分。對于類激活圖中與顯著區(qū)域對應的部分,由于目標互補隱藏過程會帶來明顯差異,需要綜合考慮兩幅類激活圖提供的信息,因此采用參數(shù)λ進行融合。若位于顯著區(qū)域總的超像素塊數(shù)為N,在Ih中隱藏塊的數(shù)量為Nh,則λ=1-Nh/N,而=1-λ。對于類激活圖中的非顯著區(qū)域,直接取互補對類激活圖中的對應位置最大值,以盡可能發(fā)現(xiàn)非顯著區(qū)域中可能被忽略的目標物體。融合過程可表示為

        式中,merge表示將得到的兩部分合并成一幅完整的類激活圖的函數(shù),max 為對應位置求最大值的函數(shù),表示融合后類別c的類激活圖。

        為了進一步引導分類網絡激活更加完整的目標區(qū)域,利用上述融合方法得到的類激活圖作為監(jiān)督,與原始圖像類激活圖求L1 損失,定義互補重構損失Lcp為

        1.4 雙重注意力修正模塊DARM

        1.3 節(jié)中,用于生成類激活圖的分類網絡中卷積運算的感受野有限,從而導致同一類目標物體隨著比例、照明和視角的變化,其對應的特征可能會隨之產生一些差異。這些差異會引起類內不一致,對激活產生消極影響,使類激活圖出現(xiàn)誤分類的情況。此外,分類網絡本身提取完整目標物體的能力較弱,僅利用顯著性引導的目標互補隱藏方法還難以達到較好的擴展目標區(qū)域的效果。為解決上述問題,本文引入一個雙重注意力修正模塊,結合通道注意力和空間注意力,充分利用圖像的全局信息對類激活圖進行修正,從而進一步擴展激活區(qū)域。雙重注意力修正模塊如圖3所示。

        圖3 雙重注意力修正模塊Fig.3 Dual attention refinement module

        具體來講,在空間上下文信息獲取階段,首先將特征圖F送入卷積層生成特征圖F1和F2,F(xiàn)1和F2變形為,其中N=H×W。之后將F1的轉置矩陣與F2相乘,并通過一個softmax層生成空間注意力矩陣A∈RN×N,具體為

        式中,aji為A中元素,表示位置i對位置j的影響,和為特征圖中對應位置i和j的特征值。兩個位置的特征表示越相似,其相似度越大。

        接下來,將類激活圖Y∈RC×H×W重整為RC×N,并與空間注意力圖相乘得到修正后的類激活圖,再乘以參數(shù)α并與原始的類激活圖相加,參數(shù)α是一個可學習的標量,初始時設置為0 并逐漸分配更多權重。該參數(shù)允許網絡在初始時先學習獲取局部信息這一較簡單的任務,再逐漸完成獲取全局信息這一復雜任務。上述過程可表示為

        式中,YS是原始類激活圖和經過空間注意力修正后的類激活圖的加權和,具有全局視野。相似的特征表示通過該方式會彼此增強,從而提高了類內一致性,減少了誤分類的可能。

        同理,可獲得包含通道上下文信息的類激活圖。首先,將Y變形為RC×N的矩陣,F(xiàn)變形并轉置得到形為的矩陣,兩個矩陣相乘并通過softmax 層獲得通道注意力矩陣B∈,即

        式中,B中元素bji表示第i個通道對第j個通道的影響程度。接著,B和F相乘的結果乘以參數(shù)β,并與原始類激活圖求和,得到包含通道注意力信息的類激活圖。該修正有助于提高特征的可辨別性,具體過程為

        式中,YC為包含通道注意力信息的的類激活圖。最后,將YS和YC求和得到雙重注意力修正模塊DARM的輸出,即修正后的類激活圖Y′。

        1.5 損失函數(shù)

        在圖像級弱監(jiān)督的背景下,本文訓練分類網絡時將圖像級分類標簽l作為監(jiān)督。l為向量形式,lc為其第c個分量,值為1 表明第c類物體存在,值為0 則表示不存在第c類物體。在網絡末端使用分類層得到預測向量z,zc表示z的第c個分量,由于要考慮到數(shù)據(jù)集中C-1個前景對象類別,可采用多標簽軟邊界損失作為分類損失,具體為

        式中,lcl為分類損失函數(shù)。定義原始圖像得到的類激活圖為Yo,目標互補圖像對得到的類激活圖分別為Yh和。相應地,定義由其得到的類預測向量分別為zo、zh和,因此,總分類損失Lcl定義為

        為了增強網絡激活更多目標區(qū)域的能力,還需考慮式(4)表示的重構損失Lcp。最后,總的損失函數(shù)Lal定義為

        式中,γ用于平衡不同損失的權重,為了防止網絡陷入局部最優(yōu),初始時將其設置為一個較小的值,在訓練過程中逐漸增大它的值。

        1.6 標簽迭代精調模塊LIRM

        與人工標簽相比,直接利用類激活圖生成的偽掩碼依然不能完整覆蓋目標區(qū)域且存在一些噪聲。因此,在用分類網絡獲取到類激活圖后,還需要對其進行一些處理以生成能用于分割網絡訓練的偽標簽。本文提出一個標簽迭代精調模塊LIRM,首先利用類激活圖訓練一個AffinityNet,通過隨機游走方式擴散激活區(qū)域,并用CRF 精調目標物體邊界。之后用上述流程得到的偽標簽作為監(jiān)督訓練一個分割網絡。

        盡管用于訓練的偽標簽依然存在噪音,但卷積神經網絡本身有一定的魯棒性,其預測結果相比原始偽標簽會有精度上的提升,所以一個簡單有效的提升精度的方法就是用分割網絡的預測作為標簽再去迭代訓練網絡。但直接將預測結果作為偽標簽迭代訓練的效果提升有限。因為分割網絡的預測結果盡管會更正一些初始偽標簽中的錯誤,但其依然包含著一些誤分類結果。本文結合了顯著圖、類激活圖和分割網絡的預測結果來獲取更高質量的偽標簽。顯著圖可以有效地區(qū)分前景物體和背景物體,但是無法分辨物體類別。類激活圖可以精準定位物體類別但缺乏物體的完整形狀信息。分割網絡的預測可以提供比較完整的物體邊界信息但是會摻雜誤分類像素。通過充分利用3 種圖提供的信息對偽標簽進行精調,盡可能地減少誤分類像素的影響。

        初始偽標簽依據(jù)類激活圖生成,而類激活圖只保留了每幅圖像的類別標簽中存在的類,所以由其得到的偽標簽不存在沒有的類別。但是由分割網絡預測得到的標簽可能會出現(xiàn)圖像類別標簽中不存在的類別,這部分像素的類別標簽是可以確定存在誤分類的,應該將其忽略以免給分割網絡提供錯誤的指導。對應位置的新偽標簽值具體為

        式中,Tij表示對應位置的新偽標簽值。其中,標記為255 的標簽在訓練過程中將會被忽略,這保證了網絡免受這些誤分類標簽的影響。Oij表示分割網絡的預測結果中第i行第j列的值,代表所對應的類別,如果Oij值為0,表明是背景類。

        顯著圖可以較為準確地提供圖像的背景區(qū)域,再結合類激活圖可以修正一些被誤分類為背景的像素。定義Eij,分別為顯著圖和類激活圖中對應位置的值,若Eij不為0,且存在的值大于預定義的閾值t,則在新標簽中置為類別c。若有多個類別的激活值滿足上述條件,取激活值最大的類別作為新的偽標簽,具體為

        式中,argmax 為求最大值索引的函數(shù)。還有一類容易被忽略的情況就是分類標簽中存在某類,但在分割預測中并未出現(xiàn),且經過式(13)的修正后依然無該類別,造成這種情況的原因可能是該類別對應像素被誤分類為背景像素。在弱監(jiān)督背景下沒有線索來糾正這種錯誤,因此選擇將這種情況下的背景像素標簽全部忽略,期待網絡的自校正能力來發(fā)現(xiàn)未知的對象。該過程表示為

        通過標簽迭代精調模塊得到的新偽標簽用于迭代訓練分割網絡,以獲得更高性能語義分割模型。

        2 實驗結果及分析

        2.1 數(shù)據(jù)集與參數(shù)設置

        實驗在PASCAL VOC 2012 和COCO 2014 數(shù)據(jù)集上進行。PASCAL VOC 2012 數(shù)據(jù)集有20 個目標類別和一個背景類別,其中訓練集圖像10 582幅,驗證集圖像1 449 幅,測試集圖像1 456 幅。COCO 2014數(shù)據(jù)集包含80個目標類別和一個背景類,其中訓練集圖像82 081 幅,驗證集圖像40 137 幅。在整個訓練過程中只使用圖像級標簽。所有模型采用PyTorch 框架實現(xiàn),在1 張40 GB 顯存的Nvidia A100上進行訓練,分類網絡的初始參數(shù)是在ImageNet(Deng 等,2009)預訓練獲得的。在PASCAL VOC 2012 數(shù)據(jù)集進行分割實驗時,分割網絡參數(shù)通過COCO 2014數(shù)據(jù)集預訓練獲得。在COCO 2014數(shù)據(jù)集進行分割實驗時,分割網絡參數(shù)通過ImageNet 預訓練獲得。

        分類網絡中,本文采用Resnet-38(residual network-38)(Wu 等,2019)作為基干網絡,圖像根據(jù)最長邊在[448,768]范圍內隨機縮放,然后裁減為448×448 像素大小輸入網絡。Batch Size 設置為8,訓練輪次為8,初始學習率設置為0.01,采用Poly 策略進行參數(shù)更新,衰減率設置為0.9。

        對于分割網絡框架,本文采用了Deeplab v2(Chen 等,2018)框架,主干為Resnet101(He 等,2016),Batch Size為16,初始學習率設置為0.005,采用SGD(stochastic gradient descent)優(yōu)化器,動量和權重衰減分別為0.9 和0.000 5,共進行20 000 次迭代訓練。

        為了驗證本文方法的有效性,實驗分為兩部分。第1 部分對本文提出的類激活圖生成算法進行驗證,并與其他方法進行對比;第2 部分對比本文方法與幾種經典的弱監(jiān)督語義分割算法,并通過消融實驗對本文模型中的模塊進行有效性分析。實驗中采用平均交并比(mean intersection over union,mIoU)作為評估指標。

        2.2 類激活圖生成實驗

        為了驗證本文提出的目標互補隱藏方式生成類激活圖的有效性,在PASCAL VOC 2012 訓練集上獲取類激活圖進行評估。實驗中通過遍歷所有背景閾值并選擇最佳閾值來評估類激活圖效果。將多個尺度下生成的類激活圖融合是提高精度常用的方式,本文在測試過程中也采用了這一方案,實驗數(shù)據(jù)均采用多尺度融合下的平均交并比。

        圖4 以可視化形式對比了在入本文所提模塊后所生成的類激活圖。其中基線方法使用同一基干網絡(Wu 等,2019),但只使用分類損失訓練模型來獲取類激活圖(Zhou 等,2016)。圖4(c)(d)表示只添加OCHM 和DARM 模塊所生成的類激活圖,圖4(e)是綜合使用OCHM 和DARM 模塊后的結果。圖中高亮顯示的區(qū)域是分類網絡激活的目標區(qū)域,從圖4 中可以看到,使用單一模塊可以提升類激活圖的質量,但是還不夠理想。本文方法綜合利用兩個模塊,生成的類激活圖可以覆蓋更大的目標區(qū)域,產生更少的誤激活。尤其是對于最后一行這種具有多重目標的實驗圖像,本文方法可以準確激活大部分目標區(qū)域。

        圖4 CAM可視化對比Fig.4 Visual comparisons of CAM((a)original images;(b)baseline;(c)baseline+OCHM;(d)baseline+DARM;(e)ours)

        表1 給出了本文方法、基線以及SEAM(selfsupervised equivariant attention mechanism)(Wang等,2020)方法在多種尺度下生成的類激活圖和真實標簽的平均交并比,最后一列表示采用多尺度融合下的類激活圖精度。在進行多尺度融合時,先將同一圖像按不同比例縮放后分別送入網絡獲取CAM,再將多個尺度的CAM 縮放至原圖尺寸,最后將多個CAM 同一空間位置處的激活值進行累加得到融合后的CAM。分析表1 可以看出,本文方法在多個單一尺度上都超過了所對比方法,且在多尺度融合下達到了最優(yōu)效果。

        表1 多種尺度下類激活圖生成精度比較Table 1 Accuracy comparison of CAM generated at multiple scales/%

        表2 給出了本文方法與SEAM(Wang 等,2020)、Puzzle-CAM(Jo 和Yu,2021)、AdvCAM(Lee 等,2021a)和L2G(local to global)(Jiang等,2022)等類激活圖生成方法的精度對比,可以看出,本文方法優(yōu)于其他方法。

        表2 各方法生成CAM精度對比Table 2 Accuracy comparisons of CAM generated by various methods

        表3 給出了本文方法生成類激活圖的消融實驗結果。加入目標互補隱藏模塊OCHM 后,與基線相比,交并比提高了3.94%。在加入雙重注意力精調模塊DARM 后,交并比又提高了6.27%。與基線方法相比,本文方法所生成的類激活圖交并比可提高10.21%,驗證了本文方法在生成完整類激活圖方面的有效性。最終將本文方法生成的類激活圖經過CRF處理后得到的偽標簽精度達到了62.1%。

        表3 CAM生成消融實驗Table 3 Ablation experiment of CAM generation

        此外,實驗還探究了超像素塊數(shù)對類激活圖生成效果的影響,如圖5 所示,橫軸為超像素塊數(shù),縱軸為對應的平均交并比。實驗結果表明,隨著超像素塊數(shù)的增加,平均交并比先呈現(xiàn)出增加的趨勢,在塊數(shù)為200 時達到峰值。之后,超像素塊數(shù)的增加會導致平均交并比下降。因此,實驗中默認超像素塊數(shù)為200。

        圖5 不同超像素塊數(shù)下的性能比較Fig.5 Performance comparison with different number of superpixel patches

        2.3 弱監(jiān)督語義分割實驗

        通過前文實驗得到最佳類激活圖后,利用其訓練AffinityNet 生成轉移矩陣,然后對類激活圖進行隨機游走便可獲得初始偽標簽。在所得偽標簽的監(jiān)督下,使用ResNet101 作為基干訓練分割模型,以獲得初步的分割結果。通過前述標簽迭代精調模塊LIRM 獲取更加準確的偽標簽。圖6 對比了通過本文方法最終獲取到的偽標簽和真實標簽,可以看出本文方法生成的偽標簽非常接近真實標簽,覆蓋了大部分的目標區(qū)域。最后用經過LIRM 模塊調整后的標簽重新訓練分割模型,獲得最終的分割結果。

        圖6 偽標簽與真實標簽對比Fig.6 Comparison of pseduo labels and ground truth((a)original images;(b)ground truth;(c)pseudo labels)

        分割實驗首先在PASCAL VOC 2012 數(shù)據(jù)集上進行,對比算法包括SSDD(self-supervised difference detection)(Shimoda和Yanai,2019)、SEAM(Wang等,2020)、SBNet(semantic boundary network)(Liu 等,2021)、NSROM(non-salient region object mining)(Yao等,2021)、I2CRC(inter-and intra-class relation constraints)(Chen 等,2022b)和SIPE(self-supervised image-specific prototype exploration)(Chen 等,2022a)等方法。其中SSDD、SEAM、SBNet和SIPE 未使用顯著圖,而NSROM、I2CRC不同程度地使用了顯著圖提供的信息。

        圖7 展示了所提出方法和上述對比方法在一些驗證集圖像上的預測結果。在圖7 第1 行這種背景較清晰的情況下,NSROM 的預測中瓶子和人的連接處出現(xiàn)了一定的誤分類,SSDD 和SIPE 未能正確預測瓶子的輪廓,剩余模型都取得了較好的分割效果。在圖7 第2 行出現(xiàn)了兩類目標交錯的情況,各模型只給出了大致準確的預測,在細節(jié)上有很大欠缺。在圖中第3 行中,SSDD、SEAM 以及SBNet 的預測有較大偏差,原因可能是背景中的云與飛機機身顏色較為接近,導致其無法正確區(qū)分前背景。而NSROM、I2CRC 以及本文方法因為有顯著圖的修正,對前景和背景均能做出正確的劃分。第4 行和第5 行選取了一些輪廓較復雜的目標,可以看出第4 行中SSDD、SEAM、SBNet、I2CRC 和SIPE 都未能完整預測目標,存在細節(jié)部位,如狗的尾巴缺失的情況。而第5 行中SSDD 將一些背景誤分類為目標物體。圖中第6 行選取了一個較復雜的場景,出現(xiàn)了多種目標類,且各目標類以及背景有顏色相近的部分。SBNet、NSROM、I2CRC 以及SIPE 對圖中桌子的大片區(qū)域無法正確預測,而本文方法實現(xiàn)了最完整的預測。綜合來看,本文模型在多種復雜情況下都取得了較好的分割效果,優(yōu)于所對比方法。

        圖7 各方法在PASCAL VOC 2012驗證集的分割結果對比Fig.7 Comparison of segmentation results of different methods on PASCAL VOC 2012 val set((a)original images;(b)ground truth;(c)SSDD;(d)SEAM;(e)SBNet;(f)NSROM;(g)I2CRC;(h)SIPE;(i)ours)

        表4 詳細列出了各分割模型在PASCAL VOC 2012 驗證集上得到的21 個類別的mIoU 值對比,本文方法在13 個類別上優(yōu)于所比較的方法。在背景類上取得了92% 的mIoU 值,相比其他方法取得了最高性能,表明本文方法有效利用顯著圖參與訓練,取得了性能提升。另外,本文方法在bus、car、cat、cow和dog等類別取得了較好的效果。

        表4 各方法在PASCAL VOC 2012驗證集上不同類別的mIoU值對比Table 4 The mIoU comparison of different classes and different methods on PASCAL VOC 2012 val set/%

        表5 給出了各方法在驗證集和測試集上的性能對比。與其他方法相比,本文所提出的弱監(jiān)督語義分割框架在驗證集和測試集上的性能均有明顯提升,比排名第2 的算法在驗證集上高出0.6%,在測試集上高出0.9%。

        表5 各方法在 PASCAL VOC 2012驗證集和測試集上的mIoU值對比Table 5 The mIoU comparison of different methods on PASCAL VOC 2012 val and test datasets/%

        表6 列出了本文分割方法所用模塊的消融實驗結果,實驗在驗證集上進行,其中基線為直接用類激活圖生成初始偽標簽訓練分割網絡所得(Chen 等,2018)。本文框架與基線相比有6.9%的性能提升。其中本文所提標簽迭代精調模塊實現(xiàn)了2.2%的性能提升,證明了該模塊的有效性。

        表6 語義分割消融實驗Table 6 Ablation experiment of semantic segmentation

        為了進一步驗證本文算法對于多目標和小尺寸目標的分割性能,在COCO 2014 數(shù)據(jù)集上進行了相關實驗。與PASCAL VOC 2012 相比,該數(shù)據(jù)集類別更為豐富,且包含大量具有多個目標類別的圖像,對算法性能提出了更高要求。表7 給出了本文方法和DSRG(deep seeded region growing)、SEAM、EPS(explicit pseudo-pixel supervision)(Lee 等,2021b)、SIPE 等算法在COCO 2014 驗證集上的性能對比,可以看出,本文方法獲得了0.5%的性能提升,進一步驗證了本文方法的有效性。

        表7 COCO 2014驗證集上分割結果對比實驗Table 7 Comparison experiments of segmentation results in COCO 2014 val dataset

        3 結論

        本文提出了一種顯著性引導的目標互補隱藏弱監(jiān)督語義分割方法,通過將顯著圖所定位的顯著區(qū)域進行隨機隱藏獲得目標互補圖像對,再將其送入網絡分別獲得類激活圖,通過融合互補圖像的類激活圖可以獲得更完整的激活區(qū)域,再用其作為監(jiān)督引導網絡擴展激活區(qū)域。此外,本文還加入了雙重注意力修正模塊來獲取全局上下文信息以修正獲得的類激活圖。在偽標簽的生成環(huán)節(jié),提出了標簽迭代精調策略,通過結合分割網絡預測、類激活圖以及顯著圖生成更高質量的偽標簽。在Pascal VOC 2012 和COCO 2014 數(shù)據(jù)集上的大量實驗證明了本文所提弱監(jiān)督語義分割方法的優(yōu)越性。

        基于圖像級標簽的弱監(jiān)督語義分割仍然是一個具有挑戰(zhàn)性的問題,本文方法在一些容易和背景混淆的物體類別上的分割性能仍有待提高,今后將進一步研究提升偽標簽在這類物體上的準確度,從而進一步提高分割性能。

        猜你喜歡
        區(qū)域方法
        永久基本農田集中區(qū)域“禁廢”
        分割區(qū)域
        學習方法
        可能是方法不對
        關于四色猜想
        分區(qū)域
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        賺錢方法
        捕魚
        麻豆精品传媒一二三区| 白白色发布的在线视频| 中国少妇和黑人做爰视频| 日本频道一区二区三区| 国产猛烈高潮尖叫视频免费| 亚洲日本在线电影| 妺妺窝人体色www在线直播| 男女啪啪免费视频网址| 亚洲综合网国产精品一区| 亚洲一区二区三区播放| 宅男噜噜噜| 久久99热精品免费观看欧美| 国产在线观看网址不卡一区 | 99热免费观看| 国产一级一片内射在线| av黄页网国产精品大全| 一区二区三区人妻无码| 亚洲国产美女在线观看| 一区二区三区日本在线| 无码伊人66久久大杳蕉网站谷歌| 亚洲 精品 综合 精品 自拍| 久久综合视频网站| 精品午夜一区二区三区| 亚洲av无一区二区三区| 午夜福利试看120秒体验区| 不卡高清av手机在线观看| 青青草视频在线免费观看91| av无码精品一区二区三区| 老熟妻内射精品一区| 91精品欧美综合在线观看| av免费资源在线观看| 国产精品泄火熟女| 欧美中文在线观看| 国产美女冒白浆视频免费| 亚洲乱码国产乱码精华 | 国产成年无码V片在线| 亚洲天堂一区二区精品| 亚洲av无码国产精品色软件| 丰满女人又爽又紧又丰满| 国产精品无码久久AⅤ人妖| 亚洲美女自拍偷拍视频|