李佳田,楊汝春,姚彥吉,賀日興,阿曉薈,呂少云
1. 昆明理工大學(xué)國(guó)土資源工程學(xué)院,云南 昆明 650093; 2. 首都師范大學(xué)資源環(huán)境與旅游學(xué)院,北京 100048; 3. 首都師范大學(xué)三維數(shù)據(jù)獲取與應(yīng)用教育部重點(diǎn)實(shí)驗(yàn)室,北京 100048
有效地自動(dòng)提取遙感影像中不同類別地物,是智能化遙感應(yīng)用的主要研究方向。遙感影像語(yǔ)義分割主要是利用全卷積神經(jīng)網(wǎng)絡(luò)(fully convolutional networks,F(xiàn)CN)[1]的監(jiān)督學(xué)習(xí)形式。文獻(xiàn)[2]利用注意力模塊提取和處理不同層次的語(yǔ)義信息,強(qiáng)化像素和特征之間的相關(guān)性,進(jìn)而提高網(wǎng)絡(luò)在復(fù)雜遙感影像上的分割性能。文獻(xiàn)[3]提出半轉(zhuǎn)移深度卷積神經(jīng)網(wǎng)絡(luò),將多光譜影像的3個(gè)波段和全波段分別代入AlexNet[4]和深度卷積網(wǎng)絡(luò)中獲取層次特征,建立3個(gè)波段特征與全波段特征之間的連接關(guān)系,適用于三通道以上多光譜遙感影像語(yǔ)義分割。文獻(xiàn)[5]利用FuseNet[6]變體網(wǎng)絡(luò)將數(shù)字地表模型中的高程信息與光學(xué)影像的紋理信息融合,并在編碼器和解碼器中分別使用空洞卷積來(lái)增大卷積核感受野,取得了較高的分割準(zhǔn)確率。文獻(xiàn)[7]對(duì)SegNet[8]進(jìn)行了改進(jìn),并將獲得的高分辨率多模態(tài)數(shù)據(jù)用于異構(gòu)數(shù)據(jù)源的聯(lián)合學(xué)習(xí)。文獻(xiàn)[9]提出雙視點(diǎn)深度學(xué)習(xí)模型,使用遞歸神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)分別提取影像的時(shí)間特征和空間特征,以產(chǎn)生多樣化特征數(shù)據(jù),適用于具有空間稀疏性和地面真值有限的遙感影像語(yǔ)義分割場(chǎng)景。FCN屬于監(jiān)督學(xué)習(xí)范疇,提高遙感影像分割精度需要大量的標(biāo)簽樣本,樣本制作耗時(shí)長(zhǎng),若只采用少量標(biāo)簽樣本訓(xùn)練網(wǎng)絡(luò),則網(wǎng)絡(luò)性能將會(huì)發(fā)生驟降。
近年來(lái),一些學(xué)者將無(wú)標(biāo)簽數(shù)據(jù)引入深度卷積神經(jīng)網(wǎng)絡(luò)中,一定程度上可彌補(bǔ)標(biāo)簽數(shù)據(jù)與測(cè)試數(shù)據(jù)間的差異,進(jìn)而提高測(cè)試精度。文獻(xiàn)[10]提出基于時(shí)間序列圖像的半監(jiān)督土地利用分割方法,考慮隨機(jī)森林[11-12]、AdaBoost[13]和由矩陣補(bǔ)全[14]與協(xié)同表示[15]組成的MCCR(matrix completion and collaborative representation)3種分類器的互補(bǔ)性,建立三訓(xùn)練范式,迭代地選擇半標(biāo)記樣本作為訓(xùn)練樣本,提高了地物邊界分割的清晰度。文獻(xiàn)[16]將交互學(xué)習(xí)和標(biāo)簽傳播模塊嵌入半監(jiān)督網(wǎng)絡(luò),通過(guò)高級(jí)特征構(gòu)建的可更新特征圖傳播標(biāo)簽,在減少標(biāo)簽樣本的同時(shí)可將小尺度影像中豐富的鑒別信息應(yīng)用到大尺度多光譜影像分類。文獻(xiàn)[17]通過(guò)正則化增強(qiáng)輸出特征在不同的隨機(jī)變換和擾動(dòng)下的一致性,提出學(xué)習(xí)一致性半監(jiān)督語(yǔ)義分割網(wǎng)絡(luò),標(biāo)簽樣本的監(jiān)督損失與加權(quán)的無(wú)標(biāo)簽樣本的正則化損失聯(lián)合訓(xùn)練,有效提升了分割精度。文獻(xiàn)[18]提出高分辨率遙感影像分割的半監(jiān)督全卷積網(wǎng)絡(luò),優(yōu)化標(biāo)簽樣本的監(jiān)督分類損失,并兼顧無(wú)標(biāo)簽樣本的非監(jiān)督損失,緩解因標(biāo)簽樣本過(guò)少造成的網(wǎng)絡(luò)分割性能下降。文獻(xiàn)[19]在解碼器上采樣階段引入從解碼器,建立主解碼器預(yù)測(cè)值與從解碼器預(yù)測(cè)值之間差值最小關(guān)系,給出半監(jiān)督語(yǔ)義分割交叉一致性訓(xùn)練網(wǎng)絡(luò)(cross-consistency training,CCT),共享編碼器采用ResNet-50與金字塔場(chǎng)景解析(Pyramid scene parsing,PSP)[20]模塊結(jié)合獲取多尺度特征,以有效地提取不同尺寸的目標(biāo)地物。半監(jiān)督語(yǔ)義分割方法將標(biāo)簽樣本及無(wú)標(biāo)簽樣本結(jié)合,較大程度上使得網(wǎng)絡(luò)能夠?qū)W習(xí)目標(biāo)地物額外的特征。然而,現(xiàn)有半監(jiān)督分割方法的主干網(wǎng)絡(luò)多基于全卷積網(wǎng)絡(luò),連續(xù)下采樣易丟失淺層細(xì)節(jié)特征而導(dǎo)致地物邊界分割不完整,較難滿足場(chǎng)景復(fù)雜的航空影像語(yǔ)義分割需求。
針對(duì)上述問(wèn)題,受編碼-解碼器和CCT網(wǎng)絡(luò)結(jié)構(gòu)的啟發(fā),本文提出一種結(jié)合多尺度共享編碼的半監(jiān)督網(wǎng)絡(luò)語(yǔ)義分割模型。編碼器部分采用ResNet-50架構(gòu),并在末端嵌入多尺度共享編碼模塊來(lái)構(gòu)建多尺度共享編碼器,通過(guò)在共享編碼模塊中引入多分支卷積和并行空洞卷積,且將每層空洞卷積的輸出均與ResNet-50的淺層特征進(jìn)行跳躍連接,以獲取影像多尺度細(xì)節(jié)信息,從而提高目標(biāo)地物邊緣的分割精度。
使用多尺度共享編碼-主從解碼器作為基本網(wǎng)絡(luò)結(jié)構(gòu),編碼-主從解碼器是一種解碼特征向量近似編碼輸入向量的網(wǎng)絡(luò)結(jié)構(gòu)。多尺度共享編碼器如圖1所示,虛線矩形框內(nèi)為本文設(shè)計(jì)的多尺度共享編碼模塊。
圖1 多尺度共享編碼器Fig.1 Multiscale shared encoder
首先,主干網(wǎng)絡(luò)使用ResNet-50架構(gòu),其整體由1個(gè)卷積層和4個(gè)卷積組構(gòu)成,每個(gè)卷積組中包含了多個(gè)深度殘差塊,每個(gè)深度殘差塊包含2個(gè)卷積核為1×1的卷積層和1個(gè)卷積核為3×3的卷積層,深度殘差塊將卷積層的輸出特征與輸入特征鏈接完成恒等映射,緩解了網(wǎng)絡(luò)因?qū)訑?shù)加深而出現(xiàn)的梯度消失和梯度爆炸問(wèn)題。然后,將ResNet-50網(wǎng)絡(luò)輸出的特征圖Feature map1分為兩個(gè)分支,分支①采用3×3大小的卷積核進(jìn)行卷積,得到分支③和分支④,分支④采用1×1大小的卷積核減少通道數(shù)后進(jìn)行2倍雙線性上采樣,上采樣得到的特征圖與分支②經(jīng)過(guò)1×1卷積后的特征圖進(jìn)行鏈接,能增強(qiáng)小型目標(biāo)地物的語(yǔ)義信息。Feature map3的4個(gè)并行分支分別使用采樣率d=2、4、6、8的空洞卷積,以便靈活地調(diào)整感受野的大小來(lái)捕獲多尺度信息,且輸入空洞卷積提取特征前進(jìn)行1×1卷積以減少特征圖數(shù)量,將每層經(jīng)過(guò)空洞卷積后的特征圖與Feature map3鏈接傳遞到下一層,可以獲得密集特征金字塔和更大的感受野,提高影像中敏感邊界的分割精度。最后,將Feature map3得到的多擴(kuò)張率、多尺度特征圖與Feature map2鏈接并采用1×1卷積減少通道數(shù)得Feature map4。每個(gè)卷積層中均使用ReLU作為激活函數(shù),并利用批歸一化(batch normalization,BN)操作使數(shù)據(jù)服從正態(tài)分布。
一組標(biāo)簽樣本,記作Ql={Xi,Yi}(i=1,2,…,n),一組無(wú)標(biāo)簽樣本,記作Qu={Hj}(j=1,2,…,m),Xi表示第i張大小為H×W×3的帶標(biāo)簽的航空影像,Yi表示第i張大小為H×W×C的影像標(biāo)簽,Hj表示第j張大小為H×W×3的無(wú)標(biāo)簽影像,H和W分別表示影像的高和寬,C為標(biāo)注的地物類別數(shù)。
結(jié)合多尺度共享編碼的半監(jiān)督網(wǎng)絡(luò)架構(gòu)如圖2所示,主要由多尺度共享編碼器E、主解碼器D、擾動(dòng)函數(shù)Fp(p∈(1,2,…,P))和數(shù)量可變的K個(gè)從解碼器gk(k∈(1,2,…,K))組成,lossCE代表監(jiān)督損失,lossu代表非監(jiān)督損失,Z代表無(wú)標(biāo)簽樣本輸入多尺度共享編碼器得到的特征圖,Zj代表添加擾動(dòng)后的特征圖,G(·)代表標(biāo)簽樣本特征圖與無(wú)標(biāo)簽樣本特征圖輸入主解碼器得到的預(yù)測(cè)值,其輸出維度為H×W×C,gk(·)代表無(wú)標(biāo)簽樣本特征圖添加Fp擾動(dòng)后輸入從解碼器得到的預(yù)測(cè)值,其輸出維度為H×W×C。
網(wǎng)絡(luò)的核心思路是利用少量標(biāo)簽樣本和大量無(wú)標(biāo)簽樣本(m>n)訓(xùn)練分割網(wǎng)絡(luò),前期讓網(wǎng)絡(luò)先學(xué)習(xí)標(biāo)簽樣本的特征,然后在訓(xùn)練過(guò)程中逐漸學(xué)習(xí)無(wú)標(biāo)簽樣本的特征,并隨時(shí)間加強(qiáng)對(duì)無(wú)標(biāo)簽樣本的特征學(xué)習(xí),使網(wǎng)絡(luò)學(xué)習(xí)到的特征分布空間包含標(biāo)簽樣本與無(wú)標(biāo)簽樣本分布,學(xué)習(xí)到的特征空間更廣闊,間接地增加了訓(xùn)練樣本數(shù)量,彌補(bǔ)了訓(xùn)練樣本與測(cè)試樣本間的差異,從而提升網(wǎng)絡(luò)分割性能。本文采用CCT網(wǎng)絡(luò)中的主從解碼器和半監(jiān)督損失函數(shù)。主從解碼器上采樣的基本過(guò)程為:多尺度共享編碼器輸出的特征圖Feature map4經(jīng)過(guò)兩個(gè)1×1卷積減少通道數(shù)后進(jìn)行2倍雙線性上采樣,然后將上采樣后的特征圖經(jīng)過(guò)2個(gè)1×1卷積改善特征,并進(jìn)行4倍雙線性上采樣恢復(fù)圖像分辨率,得到分割結(jié)果。半監(jiān)督損失loss利用式(1)計(jì)算,通過(guò)主解碼器和從解碼器之間預(yù)測(cè)的一致性提高影像分割精度
圖2 結(jié)合多尺度共享編碼的半監(jiān)督網(wǎng)絡(luò)Fig.2 The semi-supervised network with multi-scale shared coding
(1)
(2)
式中,|Ql|為標(biāo)簽樣本總量;G(Xi)表示標(biāo)簽樣本的特征圖輸入主解碼器得到的預(yù)測(cè)值;R的值為0或1(G(Xi)<η(t),R=1;G(Xi)≥η(t),R=0);t為訓(xùn)練周期;T為可變的時(shí)間周期;概率閾值μ的經(jīng)驗(yàn)值為0.9;C為目標(biāo)地物類別數(shù);|Qu|為無(wú)標(biāo)簽樣本總量;M表示所有輸入影像經(jīng)過(guò)不同解碼器后輸出的總量;G(Zj)表示無(wú)標(biāo)簽樣本的特征圖輸入主解碼器得到的預(yù)測(cè)值;gk(Zj(k))表示無(wú)標(biāo)簽樣本的特征圖添加擾動(dòng)后輸入從解碼器得到的預(yù)測(cè)值。
2.1.1 數(shù)據(jù)集簡(jiǎn)介
試驗(yàn)數(shù)據(jù)選自文獻(xiàn)[21]提供的數(shù)據(jù)集(LandCover.ai),包含41張尺寸不同的影像,覆蓋波蘭約216.27 km2。其中,39.51 km2的影像分辨率為50 cm/像素,176.76 km2的影像分辨率為25 cm/像素。數(shù)據(jù)采自2015—2018年,其光學(xué)條件、飽和度、陽(yáng)光角度和陰影長(zhǎng)度不盡相同,且這些影像中具有不同季節(jié)的植被。
2.1.2 數(shù)據(jù)預(yù)處理
數(shù)據(jù)預(yù)處理包含:影像裁剪、去除陰影、數(shù)據(jù)增強(qiáng)、樣本歸一化。
步驟1:影像裁剪。從影像左上角開(kāi)始,進(jìn)行步長(zhǎng)為256×256像素的滑動(dòng)窗口切割,將41張航空影像劃分為14 800張大小為512×512像素的子圖。
步驟2:去除陰影。由于拍攝角度及光照的影響,航空影像中的樹(shù)木和建筑物等容易產(chǎn)生陰影,降低了影像地物的分割精度。因此,從14 800張影像中隨機(jī)選取8000張影像,采用文獻(xiàn)[22]中的方法處理原始影像中的陰影,處理前后的影像分別如圖3(a)、圖3(b)所示。
步驟3:數(shù)據(jù)增強(qiáng)。將步驟2處理后的影像隨機(jī)選取2500張進(jìn)行像素級(jí)標(biāo)注,標(biāo)簽包括建筑物、林地、河流、道路。為緩解過(guò)擬合現(xiàn)象,對(duì)標(biāo)注后的原圖及對(duì)應(yīng)標(biāo)簽進(jìn)行一致旋轉(zhuǎn)變換,按逆時(shí)針依次旋轉(zhuǎn)90°、180°、270°,有效擴(kuò)充了樣本。經(jīng)上述操作得到10 000張標(biāo)簽影像,部分標(biāo)簽如圖3(d)所示。
步驟4:樣本歸一化。為加快網(wǎng)絡(luò)收斂速度,采用最大最小標(biāo)準(zhǔn)化對(duì)樣本x進(jìn)行歸一化操作,即
(3)
將處理后的10 000張標(biāo)簽影像分成3組進(jìn)行試驗(yàn),各組試驗(yàn)數(shù)據(jù)分配見(jiàn)表1,參與訓(xùn)練的無(wú)標(biāo)簽樣本從去除陰影后的影像中隨機(jī)選取,驗(yàn)證樣本從處理后的10 000張影像中隨機(jī)選取,測(cè)試樣本從未去除陰影的樣本中選取1400張進(jìn)行測(cè)試。
表1 3組試驗(yàn)數(shù)據(jù)分配
圖3 陰影去除及制作標(biāo)簽Fig.3 Shadow removal and label making
使用定量評(píng)價(jià)指標(biāo)平均交并比(mean intersection over union,mIoU)和總像素分類精度(Pixels_Acc)對(duì)語(yǔ)義分割網(wǎng)絡(luò)的性能進(jìn)行評(píng)估,其中mIoU和Pixels_Acc的計(jì)算過(guò)程為
(4)
(5)
每個(gè)類別的交并比則可由式(6)計(jì)算
(6)
式中,k+1表示包括背景在內(nèi)的目標(biāo)類別總數(shù);rij表示將類別i預(yù)測(cè)為類別j的像素?cái)?shù)量;rji表示將類別j預(yù)測(cè)為類別i的像素?cái)?shù)量;rii表示預(yù)測(cè)準(zhǔn)確的像素?cái)?shù)量;IoUi表示第i類的IoU。
試驗(yàn)使用Ubuntu16.04系統(tǒng),pytorch1.5框架,CPU為Intel(R) Xeon(R) Gold 6130,GPU為T(mén)esla P100-PCIE-16GB,選擇隨機(jī)梯度下降優(yōu)化算法訓(xùn)練網(wǎng)絡(luò),初始學(xué)習(xí)率設(shè)置為0.001, 并按多項(xiàng)式衰減,衰減率和動(dòng)量均設(shè)置為0.9,所有試驗(yàn)均迭代40次。
2.3.1 采樣率參數(shù)優(yōu)化試驗(yàn)
為探究多尺度編碼模塊采樣率大小對(duì)網(wǎng)絡(luò)性能的影響,以基于多尺度共享編碼的半監(jiān)督網(wǎng)絡(luò)為基礎(chǔ),設(shè)計(jì)以下對(duì)比試驗(yàn)。將空洞卷積的采樣率分別設(shè)置為[1、6、12、18]、[6、12、18、24]、[2、3、4、5]和[2、4、6、8]。試驗(yàn)采用表1中的第1組數(shù)據(jù)進(jìn)行試驗(yàn),結(jié)果見(jiàn)表2(黑體加下劃線為本文試驗(yàn)最佳精度)。
表2 采樣率對(duì)網(wǎng)絡(luò)分割精度的影響
由表2可得出,相較于空洞卷積采樣率為[1、6、12、18]、[6、12、18、24]和[2、3、4、5]的網(wǎng)絡(luò),采樣率大小為[2、4、6、8]的網(wǎng)絡(luò)的Pixels_Acc分別提升0.55%、0.74%和0.50%,mIoU分別提升0.50%、0.89%和0.46%。上述結(jié)果表明,采樣率大小為[2、4、6、8]的網(wǎng)絡(luò)所獲得的分割精度最高,故網(wǎng)絡(luò)中的并行空洞卷積的采樣率大小設(shè)置為[2、4、6、8],以保證模型能獲得最優(yōu)的性能。
2.3.2 解碼器類型及數(shù)量對(duì)網(wǎng)絡(luò)精度的影響
對(duì)于文獻(xiàn)[19]中不同類型且數(shù)量可變的從解碼器,在本文網(wǎng)絡(luò)其他結(jié)構(gòu)不變的情況下,設(shè)計(jì)以下試驗(yàn)獲取解碼器類型及數(shù)量的最優(yōu)組合。分別使用2000張標(biāo)簽樣本、4000張標(biāo)簽樣本和5880張無(wú)標(biāo)簽樣本訓(xùn)練。試驗(yàn)結(jié)果見(jiàn)表3,對(duì)應(yīng)的mIoU曲線如圖4所示,F(xiàn)ULL表示本文網(wǎng)絡(luò)使用所有類型從解碼器得到的mIoU曲線。
表3 不同類型及不同數(shù)量從解碼器的驗(yàn)證精度
由表3和圖4可以得到如下結(jié)論:針對(duì)本文使用的數(shù)據(jù)集及語(yǔ)義分割任務(wù),當(dāng)不同類型的從解碼器數(shù)量相同時(shí),使用全部從解碼器的驗(yàn)證精度更高,當(dāng)同種類型的從解碼器的數(shù)量大于6時(shí),網(wǎng)絡(luò)的驗(yàn)證精度會(huì)逐漸下降,導(dǎo)致網(wǎng)絡(luò)較難獲取最優(yōu)參數(shù)。從解碼器CutoutV、ContextMSK、I-VAT、FeatureNoise、ObjMSK、Dropout和Feature Drop的數(shù)量均為6時(shí),驗(yàn)證精度最高,故網(wǎng)絡(luò)中不同類型的從解碼器個(gè)數(shù)均設(shè)置為6,以保證模型能獲得最優(yōu)的性能。
圖4 不同類型及不同數(shù)量從解碼器的驗(yàn)證精度曲線Fig.4 Verification accuracy curve of different types and different numbers of auxiliary decoders
2.3.3 網(wǎng)絡(luò)精度對(duì)比試驗(yàn)
為了更清楚地標(biāo)識(shí)對(duì)比網(wǎng)絡(luò),文獻(xiàn)[3]記為STDCNN網(wǎng)絡(luò),文獻(xiàn)[9]記為DUPLO網(wǎng)絡(luò),文獻(xiàn)[16]記為XModalNet網(wǎng)絡(luò),文獻(xiàn)[17]記為VLCNet網(wǎng)絡(luò)。將第3組數(shù)據(jù)(標(biāo)簽樣本6000張,無(wú)標(biāo)簽樣本6500張)代入本文網(wǎng)絡(luò)訓(xùn)練,并與常見(jiàn)的基于監(jiān)督方法的FCN8s、STDCNN、DUPLO、DeepLabv3+[23]、UNet[24]、Attn-UNet[25]網(wǎng)絡(luò)和基于半監(jiān)督方法的XModalNet、VLCNet、CCT網(wǎng)絡(luò)對(duì)比。不同網(wǎng)絡(luò)的驗(yàn)證精度見(jiàn)表4。
表4 不同網(wǎng)絡(luò)在第3組數(shù)據(jù)上的驗(yàn)證精度
網(wǎng)絡(luò)分割結(jié)果定量分析:由表4可以看出,本文網(wǎng)絡(luò)的mIoU為86.71%,較對(duì)比方法在mIoU指標(biāo)上具有明顯優(yōu)勢(shì),相比監(jiān)督方法平均提升3.62%,相比半監(jiān)督方法平均提升2.54%。本文網(wǎng)絡(luò)在建筑物、水系和道路的IoU上提升明顯,較監(jiān)督方法分別平均提升3.28%、3.82%和3.73%,較半監(jiān)督方法分別平均提升2.55%、2.55%和2.72%。另外,本文網(wǎng)絡(luò)的道路mIoU僅為70.60%,低于其他目標(biāo)地物,精度有待提升,其原因可能為訓(xùn)練樣本中大部分地區(qū)為城鎮(zhèn)及鄉(xiāng)村,部分道路為鄉(xiāng)間小道,邊界不明確,易造成誤分割。
網(wǎng)絡(luò)分割結(jié)果定性分析(圖5):由圖5可以看出,本文網(wǎng)絡(luò)的分割結(jié)果更接近標(biāo)簽,建筑物和道路的邊緣更平滑,且小型建筑物和小區(qū)域的植被也能準(zhǔn)確地分割,其他網(wǎng)絡(luò)的分割結(jié)果易出現(xiàn)誤分割和分布不均勻的噪聲點(diǎn)。上述結(jié)果表明,本文網(wǎng)絡(luò)較對(duì)比網(wǎng)絡(luò)分割精度更高,測(cè)試效果更好。
圖5 不同網(wǎng)絡(luò)在第3組測(cè)試集上的分割結(jié)果可視化Fig.5 Visualization of segmentation results of different networks on the third test set
2.3.4 多尺度共享編碼模塊對(duì)網(wǎng)絡(luò)分割性能的影響
為驗(yàn)證多尺度共享編碼模塊的有效性,設(shè)計(jì)以下對(duì)比網(wǎng)絡(luò):將DeepLabv3+網(wǎng)絡(luò)編碼器的空洞空間金字塔池化模塊替換為多尺度共享編碼模塊,稱為網(wǎng)絡(luò)1;在本文網(wǎng)絡(luò)其他結(jié)構(gòu)不變的情況下,將多尺度共享編碼模塊移除,只使用ResNet-50網(wǎng)絡(luò)作為編碼器,稱為網(wǎng)絡(luò)2。上述網(wǎng)絡(luò)在第3組數(shù)據(jù)上的驗(yàn)證結(jié)果見(jiàn)表5,其中基線的精度值為文獻(xiàn)[21]給出的網(wǎng)絡(luò)在LandCover.ai數(shù)據(jù)集上的測(cè)試結(jié)果。
表5 多尺度共享編碼模塊對(duì)網(wǎng)絡(luò)分割性能的影響
網(wǎng)絡(luò)分割精度定量分析:由表5可以看出,網(wǎng)絡(luò)1的mIoU相比DeepLabv3+的mIoU提升0.38%,且加入多尺度共享編碼模塊的網(wǎng)絡(luò)的分割精度高于其他對(duì)比網(wǎng)絡(luò),其mIoU較CCT提升2.18%,較基線提升1.15%,較網(wǎng)絡(luò)1和網(wǎng)絡(luò)2的mIoU分別提升2.40%和5.38%。說(shuō)明多尺度共享編碼模塊有助于監(jiān)督網(wǎng)絡(luò)與半監(jiān)督網(wǎng)絡(luò)提升分割性能。
網(wǎng)絡(luò)分割結(jié)果定性分析:為了更直觀地對(duì)比上述網(wǎng)絡(luò)在不同尺度地物上的分割結(jié)果,從測(cè)試集中選取3幅地物尺度不一致、經(jīng)過(guò)像素點(diǎn)分類的預(yù)測(cè)圖進(jìn)行對(duì)比分析,分割結(jié)果如圖6所示。通過(guò)與標(biāo)簽對(duì)比可以看出,本文網(wǎng)絡(luò)正確預(yù)測(cè)的地物數(shù)量明顯要多于其他網(wǎng)絡(luò),即錯(cuò)誤預(yù)測(cè)的像元更少,證明分割噪聲更少,錯(cuò)誤率更低,陰影覆蓋區(qū)域部分分割效果也較為理想;從圖6中矩形框內(nèi)區(qū)域不同尺度的建筑物可以看出,本文網(wǎng)絡(luò)預(yù)測(cè)的建筑物邊緣更平滑,出現(xiàn)“鋸齒”的情況更少,其輪廓更接近真實(shí)輪廓。表明多尺度共享編碼模塊通過(guò)將并行空洞卷積輸出的高層語(yǔ)義與淺層特征相鏈接,再利用卷積操作把淺層特征和高層語(yǔ)義融合,一定程度上緩解了淺層細(xì)節(jié)丟失的問(wèn)題,使得本文提出的多尺度共享編碼模塊能夠準(zhǔn)確地分割不同尺度的目標(biāo)地物。
圖6 對(duì)比網(wǎng)絡(luò)分割結(jié)果可視化Fig.6 Comparing the visualization of segmentation results
為更直觀地看出本文網(wǎng)絡(luò)的分割效果,從LandCover.ai數(shù)據(jù)集中選取兩幅包含建筑物、林地、水和道路的不同場(chǎng)景,輸入本文網(wǎng)絡(luò)中進(jìn)行土地利用分類,其最終的影像分割結(jié)果如圖7(c)所示,圖7(a)表示各地物之間相對(duì)稀疏區(qū)域和相對(duì)密集區(qū)域影像,圖7(b)為圖7(a)對(duì)應(yīng)的標(biāo)簽。
使用視覺(jué)評(píng)估、與標(biāo)注的標(biāo)簽對(duì)比來(lái)評(píng)估最終的分割結(jié)果。視覺(jué)評(píng)估是通過(guò)將最終的分割結(jié)果與原始影像重疊來(lái)完成的(圖7(d))。將原始影像與本文方法得到的分割結(jié)果進(jìn)行對(duì)比,結(jié)果表明,本文方法基本能夠正確標(biāo)識(shí)不同的目標(biāo)地物,影像中較小的建筑物和非混凝土道路分割精度較高,說(shuō)明利用所提的網(wǎng)絡(luò)結(jié)構(gòu)對(duì)航空影像進(jìn)行語(yǔ)義分割是可行的,有助于提高土地利用分類的準(zhǔn)確性。
圖7 本文網(wǎng)絡(luò)分割效果可視化Fig.7 Visualization of segmentation results of the network
2.3.5 網(wǎng)絡(luò)泛化性驗(yàn)證試驗(yàn)
采用DroneDeploy數(shù)據(jù)集[26]驗(yàn)證本文網(wǎng)絡(luò)的泛化能力。DroneDeploy數(shù)據(jù)集影像大小為6000×6000像素,分辨率為0.1 m,標(biāo)注了建筑物、荒地、植被、水系、地表、汽車和未分類共7類目標(biāo)地物,訓(xùn)練樣本35張,驗(yàn)證樣本8張,測(cè)試樣本12張。為驗(yàn)證本文網(wǎng)絡(luò)的泛化能力,設(shè)計(jì)以下對(duì)比試驗(yàn),并在DroneDeploy數(shù)據(jù)集進(jìn)行分割試驗(yàn):對(duì)于半監(jiān)督方法,選取30張標(biāo)簽樣本和5張無(wú)標(biāo)簽樣本進(jìn)行訓(xùn)練,驗(yàn)證樣本8張,測(cè)試樣本12張;對(duì)于監(jiān)督方法,使用35張標(biāo)簽樣本進(jìn)行訓(xùn)練,驗(yàn)證樣本8張,測(cè)試樣本12張。將訓(xùn)練樣本切割成不重疊的512×512像素的圖像塊,訓(xùn)練時(shí)舍棄未分類,訓(xùn)練40輪。表6為不同網(wǎng)絡(luò)在驗(yàn)證樣本上的精度,其中基線的精度數(shù)據(jù)為文獻(xiàn)[26]給出的驗(yàn)證精度(訓(xùn)練樣本35張,驗(yàn)證樣本8張,測(cè)試樣本12張)。圖8為本文網(wǎng)絡(luò)與對(duì)比網(wǎng)絡(luò)在DroneDeploy數(shù)據(jù)集上的測(cè)試結(jié)果。
表6 不同網(wǎng)絡(luò)在DroneDeploy數(shù)據(jù)集上的驗(yàn)證精度
網(wǎng)絡(luò)分割結(jié)果定量分析:由表6可以看出,本文網(wǎng)絡(luò)較基線的mIoU提升0.94%,相比監(jiān)督方法和半監(jiān)督方法,mIoU分別平均提升1.83%和1.22%,其中建筑物類和汽車類的IoU提升明顯,較監(jiān)督方法分別平均提升1.43%和1.84%,較半監(jiān)督方法分別平均提升1.03%和0.96%。
網(wǎng)絡(luò)分割結(jié)果定性分析:由圖8可以看出,所提網(wǎng)絡(luò)的分割結(jié)果較對(duì)比網(wǎng)絡(luò)更準(zhǔn)確,大尺度和小尺度目標(biāo)地物均能較準(zhǔn)確分割,建筑物的邊緣不存在明顯的“鋸齒”現(xiàn)象,拐角處接近直角且更平滑,整體分割結(jié)果更接近真實(shí)標(biāo)簽。上述結(jié)果表明,本文網(wǎng)絡(luò)在不同分辨率、不同來(lái)源的數(shù)據(jù)集上具有較強(qiáng)的泛化能力,且不受目標(biāo)地物尺寸大小和類型的限制。但對(duì)部分易混淆的地物進(jìn)行分割時(shí),會(huì)產(chǎn)生一些不規(guī)則的噪聲點(diǎn),精度還需進(jìn)一步地提升。
圖8 不同網(wǎng)絡(luò)在DroneDeploy數(shù)據(jù)集上的分割結(jié)果可視化Fig.8 Visualization of segmentation results for different networks on the DroneDeploy dataset
本文提出一種結(jié)合多尺度共享編碼的半監(jiān)督語(yǔ)義分割網(wǎng)絡(luò)架構(gòu),實(shí)現(xiàn)了航空影像語(yǔ)義分割。采用ResNet-50殘差網(wǎng)絡(luò)為主干,在多尺度共享編碼模塊中使用了跳躍連接,將高層語(yǔ)義與淺層特征結(jié)合,以構(gòu)建一條多尺度鏈接分支來(lái)保持網(wǎng)絡(luò)的高分辨率信息,從而獲取目標(biāo)地物的多尺度細(xì)節(jié)信息,提高了目標(biāo)地物邊緣的分割精度。試驗(yàn)表明,本文網(wǎng)絡(luò)在LandCover.ai數(shù)據(jù)集上的分割結(jié)果較對(duì)比網(wǎng)絡(luò)具有明顯優(yōu)勢(shì),目標(biāo)地物分割邊界更加平滑和精確。為驗(yàn)證網(wǎng)絡(luò)適用性,將網(wǎng)絡(luò)應(yīng)用到DroneDeploy數(shù)據(jù)集的目標(biāo)地物提取中,結(jié)果表明所提網(wǎng)絡(luò)的各項(xiàng)精度評(píng)價(jià)指標(biāo)均優(yōu)于對(duì)比網(wǎng)絡(luò),能有效進(jìn)行目標(biāo)地物分割,具有良好的應(yīng)用前景。然而,本文網(wǎng)絡(luò)對(duì)于航空影像中邊界不明確的目標(biāo)地物還存在誤分割的情況,精度有待進(jìn)一步提升。