欒曉梅,劉恩海,武鵬飛,張 軍
1.河北工業(yè)大學(xué) 人工智能與數(shù)據(jù)科學(xué)學(xué)院,天津 300401
2.北京仿真中心 航天系統(tǒng)仿真重點實驗室,北京 100854
遙感圖像因其豐富的地物信息,已成為對地觀測的重要數(shù)據(jù)來源。遙感圖像語義分割可實現(xiàn)為圖像中的每一個像素點分配一個語義類別,被廣泛應(yīng)用于測繪、精準(zhǔn)農(nóng)業(yè)、土地觀測等領(lǐng)域。隨著全卷積神經(jīng)網(wǎng)絡(luò)(fully convolutional neural network,F(xiàn)CN)[1]及其改進(jìn)網(wǎng)絡(luò)U-Net[2]、SegNet[3]、Deeplab[4]等被用于語義分割[5],分割精度得到大大提升。馬宇等人[6]基于U-Net網(wǎng)絡(luò)采用空洞卷積的方式提升了交通標(biāo)志中小目標(biāo)分割的精確度。王鑫等人[7]則加入了激活層與Dropout層,實現(xiàn)對耕地、河流、建筑的快速檢測分割。DeepLab網(wǎng)絡(luò)中的空間金字塔池化雖然能夠增加網(wǎng)絡(luò)的感受野,初步達(dá)到上下文結(jié)合的效果,但是,該方法學(xué)習(xí)到的是分布在圖像平面空間距離上的信息。為此,Yan等人[8]采用關(guān)聯(lián)非本地語境的方法,提出了一種結(jié)合自注意力機(jī)制和RNN實現(xiàn)上下文相關(guān)性的方法。
上述基于深度學(xué)習(xí)的全監(jiān)督語義分割方法在訓(xùn)練過程需要依靠大量的帶有像素級標(biāo)簽的數(shù)據(jù),但這些數(shù)據(jù)人工標(biāo)注成本很高。近年來許多研究者致力于通過圖像類別、邊界框、涂鴉等更易獲取的標(biāo)注數(shù)據(jù)進(jìn)行語義分割,大大降低了數(shù)據(jù)成本。同時,遙感圖像地物信息復(fù)雜、目標(biāo)尺寸不一的特點,為遙感圖像弱監(jiān)督語義分割帶來了巨大挑戰(zhàn)。
目前,使用圖像級標(biāo)簽的弱監(jiān)督語義分割方法大多是基于可視化的兩階段方法[8-9]。首先,訓(xùn)練分類網(wǎng)絡(luò),通過初始定位獲得偽像素級掩碼;其次,利用生成的偽掩碼單獨(dú)訓(xùn)練語義分割網(wǎng)絡(luò)。在分類網(wǎng)絡(luò)中獲得的初始可視化激活區(qū)域很大程度上決定了偽分割掩碼的質(zhì)量,進(jìn)一步?jīng)Q定了最終語義分割網(wǎng)絡(luò)的分割質(zhì)量。因此,目前弱監(jiān)督語義分割方法的注意力主要集中在生成一個質(zhì)量較好的偽像素級掩碼上。
Zhou等人[10]利用類激活圖生成一個粗略的特征映射來定位物體的空間位置。原方法中CAM只能覆蓋目標(biāo)最具有判別性的部分,存在著過激活或欠激活的問題。為此,多層次特征融合方法[11-13]通過不同方式融合多層次的特征實現(xiàn)遙感圖像中不同尺寸目標(biāo)的激活。Ma等人[14]和Chen等人[15]更是在多層次特則融合的基礎(chǔ)上加入超像素池化為網(wǎng)絡(luò)提供低層特征,以提升目標(biāo)激活的完整性?;诩せ顓^(qū)域獲得的初始偽分割掩碼是極粗糙的,為了進(jìn)一步提高偽分割掩碼的質(zhì)量,條件隨機(jī)場(conditional random field,CRF)[16]被廣泛用作映射函數(shù)。左宗成等人[17]、熊昌鎮(zhèn)等人[18]提出將條件隨機(jī)場與可變形卷積融合,進(jìn)一步對遙感圖像的激活區(qū)域進(jìn)行細(xì)化。但是,遙感圖像地物信息復(fù)雜,通過CRF的顏色約束對激活區(qū)域的輪廓進(jìn)行微調(diào)是有限的。為了更準(zhǔn)確地分割遙感圖像,陳琴等人[19]將邊緣信息和網(wǎng)絡(luò)的多尺度特征圖進(jìn)行組合,提高了遙感圖像分割的準(zhǔn)確性和完整性。
Nivaggioli等人[20]改進(jìn)自然場景中的像素間親和力方法[21],通過學(xué)習(xí)像素間的語義關(guān)系對激活區(qū)域進(jìn)行修正,有效提升了遙感圖像偽分割掩碼質(zhì)量。此外,為獲得額外的監(jiān)督信息,自監(jiān)督學(xué)習(xí)理念[22]被用于弱監(jiān)督語義分割。Wang等人[23]利用理想分割函數(shù)的等方差設(shè)計自監(jiān)督的輔助任務(wù),以尋求額外的監(jiān)督來縮小差距;Shimoda等人[24]通過加強(qiáng)對分割映射函數(shù)結(jié)果的自監(jiān)督,從差異區(qū)域中學(xué)習(xí)有用信息,進(jìn)一步細(xì)化偽分割掩碼的邊緣。兩者都是通過從輸出域生成受監(jiān)控的監(jiān)督信息,作為網(wǎng)絡(luò)的優(yōu)化方向。
但是,上述方法都是基于可視化的兩階段方法,模型訓(xùn)練繁瑣。劉雨溪等人[25]基于生成對抗網(wǎng)絡(luò)設(shè)計的端到端弱監(jiān)督語義分割網(wǎng)絡(luò)僅使用少量樣本標(biāo)簽,在ISPRS 2D數(shù)據(jù)集上實現(xiàn)較好的分割。但生成對抗網(wǎng)絡(luò)往往需要源域、目標(biāo)域兩個域的數(shù)據(jù)集,且這兩個域要求有一定的相似性。
針對上述問題,本文結(jié)合遙感圖像的特點,設(shè)計了一個基于邊緣增強(qiáng)算法的端到端弱監(jiān)督語義分割方法,僅使用圖像級標(biāo)簽實現(xiàn)遙感圖像的多類別語義分割。為驗證本文方法的有效性,本文還將特征空間邊緣增強(qiáng)模塊擴(kuò)展到兩階段方法中,并在ISPRS的Postdam和Vaihingen兩個城市數(shù)據(jù)集上進(jìn)行了實驗。
本文主要創(chuàng)新包括以下幾個方面:
(1)為準(zhǔn)確激活出遙感圖像中的小目標(biāo),本文提出了特征空間邊緣增強(qiáng)模塊,以自監(jiān)督的方式在激活出小目標(biāo)的同時提升偽分割掩碼質(zhì)量。
(2)為提升分割結(jié)果的語義完整性,本文利用特征空間邊緣增強(qiáng)模塊生成的偽分割掩碼為輸出空間提供邊緣信息。
(3)為降低模型訓(xùn)練的繁瑣度,本文提出聯(lián)合細(xì)化損失配合交叉熵?fù)p失優(yōu)化訓(xùn)練過程,設(shè)計了一個新的端到端弱監(jiān)督語義分割網(wǎng)絡(luò)。
本文網(wǎng)絡(luò)整體結(jié)構(gòu)如圖1所示,主要由兩個平行模塊構(gòu)成,兩個模塊共享相同的主干網(wǎng)絡(luò),在訓(xùn)練過程中同時更新整個網(wǎng)絡(luò)。
圖1 遙感圖像弱監(jiān)督語義分割網(wǎng)絡(luò)整體結(jié)構(gòu)Fig.1 Overall structure of remote sensing image weakly-supervised semantic segmentation network
整個特征空間邊緣增強(qiáng)模塊利用自監(jiān)督的方式將小目標(biāo)激活與邊緣降噪進(jìn)行聯(lián)合,最終生成可靠的偽標(biāo)簽。其主要從兩個方面來提升偽像素級掩碼的質(zhì)量。在原圖及下采樣后的圖通過共享主干網(wǎng)絡(luò)得到不同大小的特征圖后,本文首先利用尺度等變正則化保證原圖及下采樣圖之間CAM激活映射的一致性,以激活出遙感圖像中的小目標(biāo);其次,本文在不同尺度的激活區(qū)域基礎(chǔ)上,分別利用隨機(jī)游走PSA和CRF得到效果不同的特征圖,通過等變差異檢測模塊從差異區(qū)域中學(xué)習(xí)有用信息,進(jìn)行邊緣特征增強(qiáng)。
1.1.1 尺度等變正則化
理想狀態(tài)下基于CNN的非線性映射函數(shù)可表示為Fσ(x)=y,y表示輸入圖像x的分割掩碼,σ表示網(wǎng)絡(luò)參數(shù)。用C表示圖片中包含的目標(biāo)類別數(shù)量,具體類別用c表示,弱監(jiān)督語義分割網(wǎng)絡(luò)在CNN網(wǎng)絡(luò)基礎(chǔ)上附加額外的全局平均池化函數(shù)P()解決分類任務(wù),分類任務(wù)可以表示為P(Fω(x))=c,ω表示此時的網(wǎng)絡(luò)參數(shù),用c表示圖像x對應(yīng)的類別標(biāo)簽。通常情況下弱監(jiān)督語義分割方法假設(shè)其分類網(wǎng)絡(luò)與全監(jiān)督分割網(wǎng)絡(luò)的最優(yōu)參數(shù)滿足σ=ω。但是每個樣本在訓(xùn)練前都會進(jìn)行數(shù)據(jù)增強(qiáng),顯然這種做法是不正確的。本文算法將對原圖進(jìn)行的尺度改變操作視為數(shù)據(jù)增強(qiáng)的一種,其仿射變換矩陣用A表示,則弱監(jiān)督任務(wù)的映射不變性為P(Fω(Ax))=c。其中分類不變性任務(wù)主要是由池化函數(shù)P()實現(xiàn)的,但是對于映射函數(shù)Fω()沒有明確的不變性約束,無法實現(xiàn)分割函數(shù)的相同目標(biāo)。
為此,Wang等人[23]在弱監(jiān)督前提下,集成額外的尺度等變正則化(SER),使用自監(jiān)督標(biāo)簽以縮小分類和語義分割最優(yōu)解的差距:
基于對遙感圖像尺度多變性的考慮,本文利用尺度等變正則化方法,采用權(quán)重共享的網(wǎng)絡(luò),將原圖及下采樣后的圖分別送入網(wǎng)絡(luò),通過主干網(wǎng)絡(luò)分別獲得C-1通道的特征圖(不包含背景類)。
類別c的CAM圖可表示為:
其中,ωc表示類別c的分類權(quán)重,fcamu表示全局平均池化前獲得的像素u處的特征向量??紤]到原圖與下采樣后得到的激活圖尺度不一致,通過雙線性差值對原圖得到的CAM輸出進(jìn)行下采樣,通過自監(jiān)督的方式保證CAM在不同尺度下的激活映射一致。此外,本文分別校驗了上采樣和下采樣對遙感圖像CAM激活映射的影響,如圖2所示。通過自監(jiān)督尺度等變正則化處理后,本文方法獲得的目標(biāo)類激活圖效果更好。
圖2 不同尺度輸入圖像生成的CAM圖對比Fig.2 Comparisons of CAMs generated by different scale input images
1.1.2 等變差異檢測
Wang等人[23]直接將激活區(qū)域可視化作為語義分割的偽分割掩碼,但是這些偽掩碼的邊緣粗糙。為此,考慮到1.1.1小節(jié)的尺度等變正則化只對映射函數(shù)F進(jìn)行了仿射變換的監(jiān)督,本小節(jié)從將可視化結(jié)果轉(zhuǎn)換為語義分割的映射函數(shù)G入手,假設(shè)分割映射函數(shù)G的結(jié)果含有噪點,通過消除噪點來提高映射函數(shù)的精度,從而達(dá)到細(xì)化分割掩碼邊緣的目的。
映射函數(shù)G的輸入和輸出分別定義為:mknowledge(簡寫為mK)、madvice(簡寫為mA)。映射函數(shù)G的輸出結(jié)果mA中含有正確和不正確的信息,本文將其視為包含噪聲的監(jiān)督,為函數(shù)G提供監(jiān)督信息。根據(jù)兩者之間的差異區(qū)域,從mA(含有噪點)中獲取有用信息,并更正已有的分割掩碼。差異區(qū)域DK,A定義為:
其中,u∈{1,2,…,n}表示像素的位置,n是像素的數(shù)量。差異檢測模塊結(jié)構(gòu)如圖3所示。
圖3 差異檢測結(jié)構(gòu)圖Fig.3 Difference detection module
它由三個卷積層和一個殘差模塊組成,本文將原始掩碼、后處理的掩碼以及與目標(biāo)具有相同通道數(shù)的0-1向量輸入該模塊,輸出得到差異掩碼的置信度圖d。該模塊的損失為:
式中,S是輸入空間的一組像素,函數(shù)J()返回二值交叉熵的損失,θd表示其參數(shù)。
因為原始掩碼對差異檢測模塊影響較大,本文未對主干網(wǎng)絡(luò)的輸出特征直接使用全局平均池化,而是利用像素親和力矩陣(PSA)[21]分別將不同尺度下的初始定位激活傳播到屬于同一語義目標(biāo)的附近區(qū)域。本文用PK0=PSA(x;θpsa)表示由PSA獲得的概率圖,其CRF結(jié)果表示為PA0。本文假設(shè)從概率映射(pK0,pA0)中獲得初始的分割掩碼為(mK0,mA0)。然后把兩者輸入到SSDD模塊中分別得到置信度圖dK0、dA0。本文通過dK0如何接近dA0的角度來計算mA0的置信分?jǐn)?shù)?:
其中,biasu是差異檢測用于選擇閾值的超參數(shù)。通過置信分?jǐn)?shù)?u進(jìn)一步獲得細(xì)化掩碼mD0:
此時,差異檢測模塊的損失為:
通過差異檢測得到大小不同的細(xì)化掩碼mD0、mD0d(這里,對原圖及下采樣圖差異檢測的處理方式一樣,便不再贅述)。由于原圖及下采樣的圖分別經(jīng)過差異檢測模塊后的概率圖尺寸不一致,邊緣特征增強(qiáng)模塊最終對細(xì)化掩碼mD0、mD0d進(jìn)行尺度等變監(jiān)督,其損失函數(shù)Lser為:
式中,i表示樣本索引,η控制正則化的影響參數(shù),在本文將其設(shè)置為1,不需要再對其進(jìn)行調(diào)整。在1.1.1節(jié)中對原圖進(jìn)行下采樣獲得新的大小概率圖,這里A表示1/2下采樣的雙線性差值矩陣。
特征空間邊緣增強(qiáng)模塊獲得的偽分割掩碼質(zhì)量得到大幅提高,以此訓(xùn)練的分割網(wǎng)絡(luò)其分割性能也被大大提升。但上述研究均是建立在多階段的基礎(chǔ)上,并沒有實現(xiàn)端到端的訓(xùn)練分割。此外,在CAM生成過程中,全局平均池化層(global average pooling,GAP)使得特征圖中所有的像素點參與到目標(biāo)類識別中,增加了分類器對上下文的依賴,無法保證目標(biāo)的語義完整性。
因此,本節(jié)利用特征空間邊緣增強(qiáng)模塊(第1.1節(jié))獲得的可靠的偽分割掩碼作為偽標(biāo)簽,為輸出空間邊緣細(xì)化模塊增加額外的語義信息,從而達(dá)到掩碼邊緣細(xì)化的目的。與其他利用偽標(biāo)簽單獨(dú)訓(xùn)練語義分割網(wǎng)絡(luò)的兩階段方法不同,本文網(wǎng)絡(luò)的兩大特征增強(qiáng)模塊共享相同的主干網(wǎng)絡(luò)。
為融合特征空間邊緣增強(qiáng)模塊中偽分割掩碼的語義信息,本文首先用1×1卷積替代了CAM生成過程中的全局平均池化層。雖然兩者計算效果是一樣的,但是,GAP是將所有的像素點進(jìn)行了目標(biāo)分類計算,這會降低網(wǎng)絡(luò)對小目標(biāo)的定位能力,而1×1卷積則可以避免這個問題。其次,本文通過1×1卷積獲得的特征預(yù)測分?jǐn)?shù)圖與偽分割掩碼進(jìn)行相應(yīng)分類分?jǐn)?shù)的相對加權(quán),共同生成類分?jǐn)?shù)。類別c的類分?jǐn)?shù)可表示為:
給定特征x:,:,:本文首先預(yù)測每個像素大小為C×H×W的分類分?jǐn)?shù)y:,:,:。然后,添加一個背景通道,以獲得具有置信值的遮罩m:,:,:。
本文方法使用的分類損失是多標(biāo)簽分類損失函數(shù)(multi-label soft margin loss):
式中,mD0是模型預(yù)測向量,z是地面真值標(biāo)簽的二進(jìn)制向量,C={c0,c1,…,cN}表示包含背景類c0的類別數(shù)。但是,交叉熵?fù)p失Lcls主要利用了偽標(biāo)簽中的標(biāo)記數(shù)據(jù),并沒有考慮未標(biāo)記數(shù)據(jù)。為了同時考慮標(biāo)記數(shù)據(jù)和未標(biāo)記數(shù)據(jù),本文利用PCA學(xué)習(xí)像素級親和力的思想,充分利用RGB顏色和像素空間位置,設(shè)計了一個新的淺層損失,即語義細(xì)化損失Lthinning。本文采用像素相鄰標(biāo)簽的組合來迭代地更新融合特征空間偽分割掩碼后獲得的偽標(biāo)簽mD0。
式中,mD0,t即為迭代細(xì)化后的像素級掩碼。G(i,j)表示由高斯函數(shù)獲得的像素級親和力。
式中,1/W是標(biāo)準(zhǔn)化權(quán)重,S同公式(4)中一樣,表示像素的空間位置,I則表示RGB顏色。σd和σr是控制高斯函數(shù)核大小的超參數(shù)。高斯核的大小決定了公式(13)迭代更新偽標(biāo)簽的次數(shù)。
通常情況下,交叉熵?fù)p失認(rèn)定標(biāo)簽信息是100%正確的,但是這與事實不符。通過邊緣降噪模塊得到的所有像素標(biāo)簽都不是100%可靠的,這意味著交叉熵?fù)p失可能會引入一些錯誤。本文的語義細(xì)化損失為減輕這一問題,為像素i添加了濾波器D(i):
最終,本文的語義細(xì)化損失可以表示為:
通過不斷迭代,偽分割掩碼不斷得到細(xì)化,為分割提供良好的自我監(jiān)督信息。
本文方法通過自監(jiān)督的訓(xùn)練策略,利用訓(xùn)練集中的圖像級信息和細(xì)化后的CAM圖得到更加良好的偽標(biāo)簽,進(jìn)而訓(xùn)練得到良好的網(wǎng)絡(luò)結(jié)構(gòu)參數(shù),使得整個網(wǎng)絡(luò)訓(xùn)練過程中通過一個標(biāo)準(zhǔn)的反向傳播算法進(jìn)行了端到端的優(yōu)化,從而在預(yù)測過程中獲得更好的分割結(jié)果。
本文網(wǎng)絡(luò)最終的損失函數(shù)L為:
網(wǎng)絡(luò)整體算法如算法1所示。
算法1端到端弱監(jiān)督語義分割算法流程
為驗證本文方法對遙感圖像的分割效果,在ISPRS 2D語義分割數(shù)據(jù)集[26]上進(jìn)行驗證,其包含Postdam和Vaihingen兩個城市圖像數(shù)據(jù)。兩個數(shù)據(jù)集都包含6類,即Impervious surface、Building、Low vegetation、Tree、Car、Clutter。為了更直觀地展現(xiàn)最終的多分類語義分割效果,將Low vegetation和Tree合并為一類,即Plant。受硬件條件限制,本文方法將原始數(shù)據(jù)及標(biāo)簽都進(jìn)行了隨機(jī)切割,切割為500×500像素大小的圖像。
為了評估語義分割效果,本文通過平均交并比(mean intersection over union,MIoU)、重疊度(intersection over union,IoU)及總體精度(overall accuracy,OA)等評估指標(biāo)進(jìn)行了比較。其中IoU用于評估每個類別的精確度,并通過MIoU及(OA)來評估模型的整體性能。
一般來說,根據(jù)預(yù)測的像素值和地面真值,像素分割結(jié)果可分為四種情況:真陽性(TP)、假陽性(FP)、真陰性(TN)和假陰性(FN)。IoU可以計算真實值和預(yù)測值兩個集合的相似性,并由以下等式定義:
MIoU是所有類別IoU的平均值,其等式可寫作:
其中,i表示真值,j表示預(yù)測值,pij表示i被預(yù)測為j。OA是具有正確標(biāo)記的像素與總像素之比。
實驗主要基于Linux系統(tǒng)的Pytorch環(huán)境下完成,Python版本為3.6.10,使用GPU加速,服務(wù)器處理器為Intel Xeon?CPU E5-2620 0@2.00 GHz。本文采用具有38個卷積層的ResNet38模型[27]作為主干網(wǎng)絡(luò),刪除了原始網(wǎng)絡(luò)的平均池化層和全連接層。下采樣分支經(jīng)過多次實驗驗證下采樣率為0.5時效果最好,因此訓(xùn)練時,將原圖的下采樣率設(shè)置為0.5,同時將網(wǎng)絡(luò)學(xué)習(xí)率設(shè)置為1E-4,批大小設(shè)置為8。
為了保證相同的感受野,本文算法將最后三個殘差塊進(jìn)行擴(kuò)張卷積(殘差塊是具有相同大小的殘留單元)。倒數(shù)第三層的擴(kuò)張率為2,最后兩層擴(kuò)張率為4。隨后將獲取的特征圖利用PSA及CRF進(jìn)行處理,采用作者提供的訓(xùn)練參數(shù),并設(shè)置了最佳超參數(shù)。隨后將PSA最后的上采樣率設(shè)置為2,分別獲得大小為512×112×112和128×112×112的特征圖。將其作為等變差異檢測機(jī)制的高級特征及低級特征。對于輸出空間邊緣增強(qiáng)模塊,本文在主干網(wǎng)絡(luò)之后增加了兩層相同配置的空洞卷積,其卷積核大小為3,擴(kuò)張率為12,填充率為12。密集能量損失中的參數(shù)分別設(shè)置為5和10,對背景和前景分別計算交叉熵?fù)p失。
在訓(xùn)練期間,這兩個主要并行模塊都會更新該主干網(wǎng)絡(luò),在測試過程中,本文僅使用等變差異檢測機(jī)制中的原圖分支獲取最終的分割結(jié)果,只需使用輸出空間分支來進(jìn)行預(yù)測。
2.4.1 特征空間有效性驗證
為驗證特征空間邊緣增強(qiáng)模塊中各部分方法對于偽分割掩碼邊緣質(zhì)量提升的作用,本文分別比較了不同方法獲得的偽分割掩碼質(zhì)量。表1給出了Potsdam和Vaihingen兩個城市數(shù)據(jù)集上不同方法獲得的偽標(biāo)簽質(zhì)量結(jié)果。為更明顯地體現(xiàn)特征空間邊緣增強(qiáng)模塊的有效性,本小節(jié)對類激活圖進(jìn)行了可視化展示,如圖4所示。
表1 偽分割掩碼質(zhì)量Table 1 Quality of pseudo-segmentation mask單位:%
圖4 Potsdam數(shù)據(jù)集偽分割掩碼對比Fig.4 Comparisons of pseudo segmentation mask on Potsdam datasets
(1)定量分析
通過表1的定量對比,本文提出的尺度等變正則化方法在兩個數(shù)據(jù)集上對于偽分割掩碼質(zhì)量的提升均起到正向作用,其中在Vaihingen上較基線CAM方法提升5.5個百分點。此外,僅使用差異檢測方法獲得的偽分割掩碼效果比尺度等變正則化方法的結(jié)果更好,原因是它能更好地保證類激活圖邊緣的完整性。當(dāng)兩者結(jié)合后,偽分割掩碼質(zhì)量達(dá)到最佳,在Potsdam和Vaihingen數(shù)據(jù)集上的MIoU分?jǐn)?shù)分別為45.3%和47.4%,大大超過了基線CAM方法。
(2)定性分析
圖4展示了Vaihingen數(shù)據(jù)集中“汽車”類的類激活圖,如(c)中紅框所示,尺度等變正則化方法采用自監(jiān)督的策略,比基線傳統(tǒng)的CAM方法能夠更加準(zhǔn)確地激活出遙感圖像中的小目標(biāo);單獨(dú)使用差異檢測方法獲得的類激活圖(d)也較好地保證了目標(biāo)的完整性;兩者結(jié)合后,類激活圖的效果達(dá)到最好,如(e)所示。
2.4.2 輸出空間有效性驗證
本小節(jié)實驗主要是驗證了融合偽分割掩碼中的語義信息對偽標(biāo)簽精度提升的有效性,以及語義細(xì)化損失對于原始粗糙掩碼質(zhì)量的提升作用。
(1)融合語義信息
表2展示了在Potsdam數(shù)據(jù)集上融合不同質(zhì)量的偽分割掩碼對最終分割精度的影響。
表2 融合語義信息對比分析Table 2 Contrastive analysis of fusion semantic information 單位:%
通過表2可知,當(dāng)輸出空間融合任意偽分割掩碼的語義信息后獲得的偽標(biāo)簽均比傳統(tǒng)的CAM獲得的偽分割掩碼質(zhì)量要高。
(2)語義細(xì)化損失
為了驗證語義細(xì)化損失中高斯核大?。ǖ螖?shù))對掩碼細(xì)化的作用,本文在Potsdam數(shù)據(jù)集上進(jìn)行了實驗對比,具體實驗數(shù)據(jù)如圖5所示。
圖5 語義細(xì)化損失迭代次數(shù)對比Fig.5 Comparison of semantic refinement loss iterations
通過圖5數(shù)據(jù)可知,在本文的自監(jiān)督模型中,語義細(xì)化損失是一個至關(guān)重要的組件,因為未使用語義細(xì)化損失時,分割的MIoU準(zhǔn)確率從57.72%顯著下降到47.95%,OA更是下降9.8個百分點。此外,內(nèi)核的大小也會影響精度,隨著迭代次數(shù)增加,掩碼精度不斷提升,當(dāng)達(dá)到24時,增長趨勢出現(xiàn)緩和現(xiàn)象,因此,本文實驗最終選取迭代次數(shù)為24。因為小的感受野不足以修正與物體邊界存在較大偏差的粗糙掩模的邊界。
2.4.3 模型有效性驗證
偽分割掩碼不能代表最終的語義分割結(jié)果,因此,本文分別在Potsdam和Vaihingen兩個城市數(shù)據(jù)集上進(jìn)行了大量的語義分割實驗,通過最終的語義分割結(jié)果對比來證明,本文主要從兩個方面進(jìn)行了橫向?qū)Ρ葘嶒?,實驗?shù)據(jù)如表3、4所示。此外,圖6和圖7分別展示了在Potsdam和Vaihingen數(shù)據(jù)集上本文方法與SSENet[23]、DDNet[24]與本文方法對其中兩張遙感圖像的語義分割結(jié)果對比。在圖6和圖7中,(a)表示原始圖像,(b)表示原始的語義標(biāo)簽,(c)和(d)分別為SSENet和DDNet的語義分割結(jié)果,(e)表示本文方法的語義分割結(jié)果。
圖6 Potsdam數(shù)據(jù)集語義分割結(jié)果對比Fig.6 Comparisons of semantic segmentation results on Potsdam datasets
圖7 Vaihingen數(shù)據(jù)集語義分割結(jié)果對比Fig.7 Comparisons of semantic segmentation results on Vaihingen datasets
(1)消融實驗
為驗證特征空間邊緣增強(qiáng)模塊的偽分割掩碼對最終分割精度提升的作用,本文利用輸出空間邊緣增強(qiáng)模塊生成的偽分割掩碼訓(xùn)練了Deeplab-v2(使用ResNet-101主干),擴(kuò)展了兩階段框架(EEA-two),進(jìn)行了消融實驗對比。
通過表3、4中本文單階段WS-EEA及兩階段的EEA-two消融對比可以看出,在Potsdam數(shù)據(jù)集上本文方法比基于相同偽掩碼的兩階段方法(EEA-two)的MIoU分?jǐn)?shù)提升了0.85個百分點,OA精度提升了1.65個百分點;在Vaihingen數(shù)據(jù)集上MIoU提升了1.06個百分點,OA精度提升了2.08個百分點。通過縱向?qū)Ρ葘嶒灴梢宰C明本文提出的輸出空間邊緣細(xì)化模塊不僅可以降低網(wǎng)絡(luò)的繁瑣度,對于最終分割精度的提升也是有效的。
表3 Potsdam數(shù)據(jù)集各算法分割結(jié)果Table 3 Several methods’quantitative evaluation of semantic segmentation results on Potsdam datasets單位:%
(2對比實驗
為證明本文端到端弱監(jiān)督語義分割方法可以在降低網(wǎng)絡(luò)訓(xùn)練繁瑣度的同時,仍然保持較高分割精度,本文與當(dāng)前較好的弱監(jiān)督語義分割方法[27]進(jìn)行了對比。
通過表3、表4的定量對比可以得出,與多階段弱監(jiān)督語義分割方法的比較,本文算法在Potsdam和Vaihingen兩個數(shù)據(jù)集上均優(yōu)于SSENet,其中Potsdam數(shù)據(jù)集上MIoU及OA分別提升了4.18、2.71個百分點,在Vaihingen數(shù)據(jù)集上分別提高了4.2、5個百分點。在Potsdam城市數(shù)據(jù)集上,雖然本文方法的MIoU分值比DD-Net網(wǎng)絡(luò)低了0.95個百分點,但是本文的OA精度高于DD-Net,且DD-Net需要三個訓(xùn)練步驟,模型繁瑣。
表4 Vaihingen數(shù)據(jù)集各算法分割結(jié)果Table 4 Several methods’quantitative evaluation of semantic segmentation results on Vaihingen datasets單位:%
與單階段語義分割方法的對比中,本文方法與全監(jiān)督方法還是有一定的差距。但是,在Potsdam和Vaihingen兩個數(shù)據(jù)集上本文算法比單階段的弱監(jiān)督語義分割方法TransferNet均有提升,其中MIoU及OA分?jǐn)?shù)在Potsdam數(shù)據(jù)集上分別提升了1.77、4.35個百分點,在Vaihingen數(shù)據(jù)集上分別提升了1.49、1.39個百分點。
此外通過圖6、圖7的定性分析對比可以看出,本文方法可以很好地分割出遙感圖像中的小目標(biāo),例如小汽車及小的建筑物。對于較大的目標(biāo),分割也較為準(zhǔn)確,并不存在大面積的過分割問題,每個目標(biāo)分割出的結(jié)果較為連續(xù)完整。
綜上,通過以上定量分析及定性分析,本文算法對于偽標(biāo)簽質(zhì)量的提升,及單階段弱監(jiān)督語義分割結(jié)果精度的提升都達(dá)到了不錯的效果。
本文針對遙感圖像地物復(fù)雜、目標(biāo)尺寸不一的特點,打破傳統(tǒng)弱監(jiān)督語義分割方法的多階段訓(xùn)練步驟,提出一種端到端的遙感圖像弱監(jiān)督語義分割方法,主要結(jié)論如下:
(1)在ISPRS兩個城市數(shù)據(jù)集上的實驗結(jié)果表明,本文方法相較于多階段方法及最新的單階段方法在MIoU、OA提取指標(biāo)上均表現(xiàn)優(yōu)異,可以很好地分割出遙感圖像中的小目標(biāo),達(dá)到多類別分割效果,性能顯著。
(2)相較于基于CAM的多階段弱監(jiān)督語義分割方法,本文模型簡單易用,大大降低了訓(xùn)練的繁瑣度,且不會產(chǎn)生過大的GPU占用,為解決端到端弱監(jiān)督語義分割問題提供了新的研究思路。
(3)本文特征空間特征增強(qiáng)模塊進(jìn)一步擴(kuò)展到兩階段方法中,對于偽分割掩碼質(zhì)量的提升也具有促進(jìn)作用。
本文方法在對比實驗中表現(xiàn)優(yōu)異,但特征空間邊緣強(qiáng)模塊擴(kuò)展到兩階段方法的分割結(jié)果仍然有上升空間,且與全監(jiān)督方法相比仍然有較大差距??紤]到弱監(jiān)督本身監(jiān)督信息不足,本研究未來會考慮從底層網(wǎng)絡(luò)入手,在CAM的初始獲得過程中提升淺層信息可靠性,即考慮特征圖中的每個空間位置信息。