宋廷強(qiáng),李繼旭,張信耶
1.青島科技大學(xué) 信息科學(xué)技術(shù)學(xué)院,山東 青島266100
2.珠海歐比特宇航科技股份有限公司 人工智能研究院,廣東 珠海519000
遙感圖像分割技術(shù)在城市規(guī)劃、精準(zhǔn)農(nóng)業(yè)、土地測(cè)繪覆蓋與監(jiān)測(cè)[1]、自動(dòng)道路檢測(cè)[2]、環(huán)境保護(hù)、氣候變化和植被覆蓋等領(lǐng)域發(fā)揮著關(guān)鍵作用。遙感圖像的語義分割旨在將每個(gè)像素分類為給定的類別,它是理解和推斷對(duì)象以及場景中空間對(duì)象之間關(guān)系的重要任務(wù)[3]。
常規(guī)的圖像分割方法主要基于光譜統(tǒng)計(jì)特征,如最小距離、最大似然和K 均值聚類[4-5]。雖然這些方法取得了良好的效果,但隨著遙感圖像分辨率的提高,分割和識(shí)別精度已不能滿足需求。近年來深度卷積神經(jīng)網(wǎng)絡(luò)是深度學(xué)習(xí)應(yīng)用到遙感圖像和其他圖像分割等方面的重大成果。翁飄等人提出了一種改進(jìn)的全卷積神經(jīng)網(wǎng)絡(luò)的分割方法,從而融入更多的局部信息[6]。根據(jù)建立的數(shù)據(jù)集訓(xùn)練優(yōu)化后的FCN,能夠?qū)σ恍┕庹詹痪鶆颉⒈尘皬?fù)雜的裂縫圖像進(jìn)行較好的分割,然而,這類方法對(duì)圖像小目標(biāo)識(shí)別效果差一些。劉辰等人提出了一種基于改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)的醫(yī)學(xué)圖像分割方法,其中卷積神經(jīng)網(wǎng)絡(luò)由編碼、雙向卷積長短記憶網(wǎng)絡(luò)(BDCLSTM)和解碼部分組成[7]。這類方法能夠充分挖掘單視圖下切片序列間的相關(guān)信息,從而提高分割精度,然而,也存在過度分割問題。王振等人提出了一種基于改進(jìn)全卷積神經(jīng)網(wǎng)絡(luò)玉米葉片病斑分割方法,編碼網(wǎng)絡(luò)結(jié)構(gòu)是在傳統(tǒng)VGG16 網(wǎng)絡(luò)的基礎(chǔ)上進(jìn)行改進(jìn),解碼網(wǎng)絡(luò)主要是對(duì)編碼網(wǎng)絡(luò)中的下采樣層進(jìn)行反卷積操作[8]。通過對(duì)解碼網(wǎng)絡(luò)不斷地進(jìn)行訓(xùn)練,可以恢復(fù)編碼網(wǎng)絡(luò)輸出特征圖的分辨率,得到更為精確的分割效果,但也同樣存在過度使用低級(jí)特征的問題。Yang 等人提出了一種基于HSPCNN的自適應(yīng)圖像區(qū)域分割方法,適合執(zhí)行圖像多區(qū)域分割,然而,對(duì)于具有正態(tài)分布密度的圖像,難以通過非交互方法獲得期望的分割結(jié)果[9]。在經(jīng)典卷積神經(jīng)網(wǎng)絡(luò)CNN[10]中,由像素點(diǎn)及其相鄰像素組成的圖像塊輸入到網(wǎng)絡(luò)中以提取特征,用于每個(gè)像素的分類[11]。但這種方法在批處理操作中引入了大量冗余計(jì)算,并導(dǎo)致大量內(nèi)存消耗和低分區(qū)效率。Long等人提出FCN[12],它可以接受任何大小的圖像作為輸入,通過卷積層提取特征,然后進(jìn)行反卷積上采樣,并輸出具有相同大小的分割圖像,具有準(zhǔn)確的目標(biāo)對(duì)象邊緣并分配標(biāo)簽。目前,F(xiàn)CN模型已被廣泛應(yīng)用于圖像分割[13]。另外,由于在卷積和池化過程中,圖像分辨率降低,因此最后一層產(chǎn)生的分割結(jié)果通常分辨率比較低。許多后續(xù)的圖像分割模型進(jìn)一步擴(kuò)展了FCN 的思想,代表模型有U_Net[14]、SegNet[15]和DeepLabv3[16]。在DeepLabv3 中,金字塔池化模塊用于提取多個(gè)尺度的特征圖。其他先進(jìn)的方法包括處理不同尺度信息,類似于在判別特征[17]網(wǎng)絡(luò)中學(xué)習(xí);細(xì)化殘差塊[18],可以跨不同渠道聚合信息;細(xì)化特征圖,提高各階段的識(shí)別能力。最大融合策略,結(jié)合深層和淺層信息,避免由于FCN 中的下采樣而丟失詳細(xì)信息;并使用多線程控制網(wǎng)絡(luò)訓(xùn)練策略[19]。
注意機(jī)制是提取輸入信號(hào)最有用信息的有效工具[20-21]。通過使用過濾器功能(例如softmax或Sigmoid)和順序技術(shù)可以實(shí)現(xiàn)注意力機(jī)制。注意機(jī)制最近已廣泛用于圖像字幕[22]、圖像分類[23]、視覺問答[24]、圖像識(shí)別[25]及其他領(lǐng)域。在這些應(yīng)用中,他們使用過濾器功能來激活收集的頂部信息,以按通道或在空間上對(duì)激活進(jìn)行加權(quán),并引入反饋連接。例如,Wang等人使用軟掩膜結(jié)構(gòu)來生成注意力機(jī)制[26]的特征,其中注意力是使用圖像分割來捕獲視覺關(guān)注焦點(diǎn)區(qū)域。Hu等人設(shè)計(jì)了一個(gè)擠壓和激勵(lì)模塊來重新校準(zhǔn)通道[27]功能。Wang等人建立了一個(gè)熵控制模塊來選擇低特征圖進(jìn)行語義分割[28]。Li等人引入了一個(gè)全球關(guān)注的上采樣模塊,以指導(dǎo)語義細(xì)分中低級(jí)和高級(jí)功能的集成[29]。研究表明注意力機(jī)制可以增強(qiáng)目標(biāo)所具有的某些神經(jīng)元,并改善其性能。因此,在設(shè)計(jì)遙感影像建筑物提取網(wǎng)絡(luò)時(shí),構(gòu)建了一個(gè)注意機(jī)制模塊,將低級(jí)和高級(jí)特征進(jìn)行語義分割,避免了對(duì)低級(jí)特征的過度使用。
由于遙感圖像分辨率的提高,高分辨率遙感圖像包含大量的信息,這擴(kuò)展了遙感圖像的應(yīng)用范圍,并且所識(shí)別的感興趣區(qū)域?qū)ο蟮某叽巛^小?,F(xiàn)有的深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)SegNet 直接應(yīng)用于遙感影像分割,存在小物體分割效果差和過度分割問題?;赟egNet網(wǎng)絡(luò)和遙感圖像數(shù)據(jù)屬性,提出了一種新的高分辨率圖像分割方法,本文的方法為:(1)增加增強(qiáng)型空洞金字塔模塊A-ASPP,A-ASPP結(jié)構(gòu)中的平行擴(kuò)張卷積采用不同的擴(kuò)張因子,得到更密集的采樣,收集更高層次的局部信息,提高小物體的分割性能;(2)增加注意力融合模塊,增強(qiáng)有用的低級(jí)特征信息并消除噪聲以避免過度使用低級(jí)特征,避免過度分割及進(jìn)一步提高分割精度。
高分辨率遙感影像分割技術(shù)流程如圖1 所示。初始化的模型經(jīng)過訓(xùn)練、調(diào)整模型的權(quán)重,使模型能夠從大量數(shù)據(jù)中學(xué)到遙感影像目標(biāo)特征,模型核心是數(shù)據(jù)集制作與網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)。
圖1 高分辨率影像語義分割技術(shù)流程圖
在經(jīng)典網(wǎng)絡(luò)CNN 中,卷積核可以通過池化操作獲得更大的感受野。遙感圖像分割的輸入和輸出大小是相同的。因此,池化后尺寸較小的圖像需要通過反卷積操作擴(kuò)展回原始尺寸。但是,如果下采樣過程中池化太大,則反卷積過程中圖像信息的丟失將會(huì)增多。擴(kuò)張卷積可以通過控制擴(kuò)張率獲得不同大小的感受野。假設(shè)在二維情況下,對(duì)于每個(gè)位置i,相應(yīng)的輸出是y 并且特征的權(quán)重是w,輸入特征層x 的卷積被計(jì)算為:
其中,k 是卷積核的大小,r 是擴(kuò)張速率。
在擴(kuò)展卷積中,卷積核由擴(kuò)張因子擴(kuò)展,并沿著相鄰權(quán)重之間的空間維度放置r-1 個(gè)零,以創(chuàng)建稀疏濾波器。檢查擴(kuò)張卷積以輸入傳統(tǒng)卷積的特征x。不同擴(kuò)展速率的卷積如圖2所示。
圖2 內(nèi)核大小為3×3且擴(kuò)張率不同的卷積
圖2(a)顯示了一個(gè)標(biāo)準(zhǔn)的3×3卷積,一種特殊形式的擴(kuò)張卷積率=1,每次覆蓋一個(gè)3×3 尺寸的視野;圖2(b)中顯示了一個(gè)速率=2的3×3擴(kuò)張卷積。卷積核的大小仍為3×3,但卷積核的計(jì)算視野增加到7×7,而實(shí)際參數(shù)仍為3×3。感受野的大小可以表示為:
因此,通過調(diào)整稀疏卷積中的膨脹率,可以擴(kuò)展感受野而無需添加額外的參數(shù)。
深度卷積神經(jīng)網(wǎng)絡(luò)的語義分割模型SegNet 原始架構(gòu)主要由兩部分組成,架構(gòu)如圖3所示。第一部分是編碼網(wǎng)絡(luò),包括卷積層、批標(biāo)準(zhǔn)化、激活函數(shù)和池化層,用于提取輸入數(shù)據(jù)的多尺度特征。第二部分是解碼網(wǎng)絡(luò),包括卷積層、批標(biāo)準(zhǔn)化、上采樣和激活函數(shù),旨在恢復(fù)特征圖的空間分辨率并使用這些特征圖提取目標(biāo)物。解碼網(wǎng)絡(luò)利用編碼器下采樣時(shí)保存的相應(yīng)特征層的最大池化索引信息將低分辨率的特征圖映射到高空間分辨率的特征圖,實(shí)現(xiàn)低維向量到高維向量的重構(gòu)。
基于SegNet 結(jié)構(gòu)改進(jìn)的AA-SegNet 網(wǎng)絡(luò)模型主要結(jié)構(gòu)由三部分組成,架構(gòu)如圖4所示。第一部分是編碼網(wǎng)絡(luò)。結(jié)構(gòu)改變?yōu)樵诰幋a器末端,加入增強(qiáng)型空洞金字塔池化模塊A-ASPP,A-ASPP結(jié)構(gòu)中的平行擴(kuò)張卷積采用不同的擴(kuò)張因子,得到更密集的采樣,收集更高層次的局部信息,提高小物體的分割性能旨在精準(zhǔn)提取小目標(biāo)。
圖3 SegNet網(wǎng)絡(luò)模型體系結(jié)構(gòu)
圖4 AA-SegNet網(wǎng)絡(luò)模型體系結(jié)構(gòu)
圖5 A-ASPP網(wǎng)絡(luò)基礎(chǔ)模塊結(jié)構(gòu)
第二部分是解碼網(wǎng)絡(luò),解碼網(wǎng)絡(luò)進(jìn)行非線性上采樣,結(jié)構(gòu)改變?yōu)榫幋a網(wǎng)絡(luò)卷積層與上采樣之間建立空間注意力融合模塊,空間注意力融合模塊用于引導(dǎo)低級(jí)特征圖,來幫助高級(jí)特征恢復(fù)像素定位細(xì)節(jié),減少識(shí)別圖像過度分割。
第三部分是后期處理模塊CRFs(Conditional Random Fields),CRFs[30]有助于在給定網(wǎng)絡(luò)識(shí)別結(jié)果和原始圖像的RGB特征時(shí),估計(jì)模型識(shí)別結(jié)果的后驗(yàn)分布.通過對(duì)用戶定義的能量函數(shù)的最小化來實(shí)現(xiàn),類似于雙邊濾波器(bilateral filter)的效果。另外,CRFs也對(duì)小分割區(qū)域進(jìn)行懲罰。
正如文獻(xiàn)[16]中指出的,上下文信息對(duì)于檢測(cè)目標(biāo)對(duì)象很重要。上下文信息(例如道路、汽車或其他建筑物)有助于識(shí)別物體。圖5展示了所提出的增強(qiáng)型空洞空間金字塔池化(A-ASPP)模塊。A-ASPP 模塊具有三個(gè)平行的擴(kuò)張卷積分支,每個(gè)分支由四個(gè)不同的擴(kuò)張速率擴(kuò)張卷積層組成。A-ASPP 層旨在使計(jì)算更加集中,增強(qiáng)小物體特征的學(xué)習(xí),從而覆蓋大背景,計(jì)算更強(qiáng)的特征,逐步增加擴(kuò)張因子;然后將擴(kuò)張因子減少到聚集由擴(kuò)張因子增加而散射的局部特征。
擴(kuò)張卷積對(duì)于分割任務(wù)很重要,雖然它在分辨率和背景上下文方面很有用,但它對(duì)高分辨率圖像中的小對(duì)象分割效果并不完善。普通網(wǎng)絡(luò)應(yīng)用擴(kuò)張卷積會(huì)導(dǎo)致兩個(gè)問題:(1)太大的擴(kuò)張因子導(dǎo)致稀疏卷積核,并且丟失了大量的計(jì)算信息。(2)相鄰空間的一致性變?nèi)?,并且在上采樣層丟失局部信息。
首先,為了解決稀疏卷積引起的稀疏性問題,需要更加集中的計(jì)算,并且需要增加擴(kuò)張因子。從小擴(kuò)展計(jì)算到大擴(kuò)展,這使得計(jì)算和采樣更密集,從而允許獲得更詳細(xì)的上下文信息。因此,A-ASPP 網(wǎng)絡(luò)結(jié)構(gòu)使用逐漸擴(kuò)展結(jié)構(gòu)。為了解決第二個(gè)問題,采用降低膨脹系數(shù)。如果在擴(kuò)張因子增加結(jié)構(gòu)后附加具有減少的膨脹系數(shù)的結(jié)構(gòu),可以再次連接相鄰單元的信息金字塔。因次,減少結(jié)構(gòu)逐漸恢復(fù)相鄰單元之間的一致性并提取更高層中的局部結(jié)構(gòu)。
A-ASPP 的結(jié)構(gòu)顯示在圖5 部分。A-ASPP 結(jié)構(gòu)使用擴(kuò)張因子先擴(kuò)大然后減少以保持信息獲取多尺度的優(yōu)勢(shì),提高學(xué)習(xí)能力。首先,擴(kuò)張因子逐漸擴(kuò)大,使感受野更加密集,從而使卷積網(wǎng)絡(luò)獲得更詳細(xì)的背景信息。然后通過減少擴(kuò)展因子,聚合局部信息來增強(qiáng)小物體的特征提取。
公共編碼器、解碼器[31-32]網(wǎng)絡(luò)主要使用不同尺度的特征映射來幫助解碼器逐漸恢復(fù)對(duì)象細(xì)節(jié)信息。U-Net的跳躍連接是通過重用功能映射將編碼器路徑恢復(fù)對(duì)象詳細(xì)信息的常用方法。但是,這種方法將會(huì)過度使用低級(jí)特征并導(dǎo)致影像過度分割。注意力機(jī)制能夠使用更高級(jí)別的視覺信息來加權(quán)較低級(jí)別的信息。受到注意力機(jī)制的啟發(fā),空間注意力融合模塊被設(shè)計(jì)用于增強(qiáng)有用的低級(jí)特征信息并消除噪聲以避免過度使用低級(jí)特征。
在空間注意力融合模塊,首先,高級(jí)特征由Sigmoid層激活,激活的輸出歸一化為[0,1],并用做低級(jí)特征的映射。然后,將高低特征輸出乘以低級(jí)特征以獲得加權(quán)的低級(jí)特征。最后,添加高級(jí)特征和加權(quán)低級(jí)信息作為最后模塊的輸入,以逐漸恢復(fù)對(duì)象細(xì)節(jié)信息??臻g注意力融合模塊的體系結(jié)構(gòu)如圖6所示。
圖6 空間注意力融合模塊
訓(xùn)練啟動(dòng)后,原始圖像進(jìn)入神經(jīng)網(wǎng)絡(luò)的輸入端,在神經(jīng)網(wǎng)絡(luò)中使用卷積操作進(jìn)行特征抽取,卷積操作中,卷積過濾器尺寸為3×3×64,步長為1,零填充,激活函數(shù)為relu。由于網(wǎng)絡(luò)較為龐大,在每個(gè)卷積層之后增加一個(gè)BatchNormalization 進(jìn)行歸一化操作,防止過擬合和梯度爆炸。利用Maxpool 對(duì)輸入的原始圖像進(jìn)行五次下采樣;池化操作中,過濾器尺寸均為2×2;在編碼器最后加入增強(qiáng)型的空洞金字塔池化,來進(jìn)行多尺度信息聚合。在解碼器部分,加入3 個(gè)空間注意力融合模塊,注意力機(jī)制模塊由編碼器中的卷積和解碼器中的上采樣層連接,采集高級(jí)和低級(jí)特征后,然后傳到上采樣階段,完成信息融合。
在本章中,對(duì)所提AA-SegNet 網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練、測(cè)試與優(yōu)化,所有網(wǎng)絡(luò)都在GPU 上基于Tensorflow+Kears框架進(jìn)行訓(xùn)練和測(cè)試。
3.1.1 數(shù)據(jù)集
本實(shí)驗(yàn)所用數(shù)據(jù)源為高分二號(hào),數(shù)據(jù)為2019年7月中國山東省濰坊市的高分辨率遙感影像。圖像的空間分辨率為亞米級(jí),光譜可見光頻端(R、G、B)。實(shí)驗(yàn)樣本集包括訓(xùn)練樣本、測(cè)試樣本。從遙感影像中分別截10幅5 000×5 000 像素大小的影像切片(7 幅作為訓(xùn)練樣本,3幅作為測(cè)試樣本)。
3.1.2 數(shù)據(jù)集處理
數(shù)據(jù)集處理包括:數(shù)據(jù)集前期處理、數(shù)據(jù)集后期處理。數(shù)據(jù)集前期處理:首先,將GF2 遙感圖像經(jīng)過多光譜和全色數(shù)據(jù)融合后的tif格式數(shù)據(jù),轉(zhuǎn)換為網(wǎng)絡(luò)模型常用的png 格式;然后,篩選出適合網(wǎng)絡(luò)模型訓(xùn)練的訓(xùn)練數(shù)據(jù)、測(cè)試數(shù)據(jù)。數(shù)據(jù)集后期處理包括數(shù)據(jù)標(biāo)注、生成掩碼、樣本切割、降采樣、數(shù)據(jù)增強(qiáng)五個(gè)階段。鑒于GPU的內(nèi)存有限并獲取更多的訓(xùn)練樣本,平均大小為5 000×5 000 的圖像被切割成尺寸為512×512。為了增加樣本量,可以從不同的偏移量開始切割(見圖7),每幅大圖可以生成81×3 個(gè)樣本,要對(duì)原圖和標(biāo)簽圖進(jìn)行相同的切割。
圖7 以不同的偏移量切割生成多批樣本
由于高分辨率遙感影像地物紋理信息太多,會(huì)影響網(wǎng)絡(luò)模型的判斷,降低分割準(zhǔn)確度。因此將尺寸512×512 樣本降采樣為256×256。為豐富圖像訓(xùn)練集,更好提取訓(xùn)練特征,泛化模型(防止過擬合),對(duì)圖像塊旋轉(zhuǎn)、扭曲、增加噪聲等方式進(jìn)行圖像增強(qiáng)。具體地,對(duì)于原圖進(jìn)行90°、180°、270°翻轉(zhuǎn)、上下和左右鏡像操作,生成另外5份數(shù)據(jù),加上原有數(shù)據(jù),數(shù)據(jù)量增加為原來的6倍(對(duì)標(biāo)簽進(jìn)行相同操作),如圖8 所示。通過以上操作,新的訓(xùn)練集包含46 267 幅256×256 的子圖像。為評(píng)估所提網(wǎng)絡(luò)模型在不同數(shù)據(jù)集合上的訓(xùn)練效果,數(shù)據(jù)集分為數(shù)據(jù)集1(8 867 幅,256×256)、數(shù)據(jù)集2(18 700 幅,256×256),數(shù)據(jù)集3(18 700幅,512×512)。
圖8 數(shù)據(jù)增強(qiáng)實(shí)例
3.1.3 實(shí)施細(xì)節(jié)
對(duì)AA-SegNet網(wǎng)絡(luò)模型,選擇18%作為驗(yàn)證集,82%作為訓(xùn)練集。在30 輪(epoch)的訓(xùn)練中,每一個(gè)epoch訓(xùn)練結(jié)束,會(huì)在驗(yàn)證集上計(jì)算一次損失和精度,并保存一次模型,最終選取在驗(yàn)證集上表現(xiàn)最好的模型。AASegNet網(wǎng)絡(luò)模型測(cè)試時(shí),需將測(cè)試圖輸入已訓(xùn)練好的模型,從輸出得到mask圖,觀察渲染后的效果。為確保更好的訓(xùn)練結(jié)果,根據(jù)訓(xùn)練收斂速度手動(dòng)調(diào)整學(xué)習(xí)率,最終約為0.001。
3.1.4 評(píng)估
本研究中使用了基于像素評(píng)估標(biāo)準(zhǔn),能夠提取建筑物內(nèi)部像素的數(shù)量并提供嚴(yán)格的評(píng)估。在基于像素的評(píng)估中,使用總體精度(OA)、F1 分?jǐn)?shù)和聯(lián)合平均交叉得分(MIOU)來評(píng)估定量性能[33]。 F1 分?jǐn)?shù)計(jì)算方法如式(3)所示:
式中,precision=tp/(tp+fp),recall=tp/(tp+fn),其中,tp、fp 和fn 分別表示真正值、假正值和假負(fù)值,precision、recall 分別表示精確度、召回率,這些值可以通過每個(gè)圖塊基于像素的混淆矩陣來計(jì)算。IOU 是預(yù)測(cè)區(qū)域和地面真實(shí)值區(qū)域在其聯(lián)合上相交的平均值,如式(4)所示。MIOU通過取IOU平均可得到:
表1 步幅為16的A-ASPP的不同參數(shù)結(jié)果
首先以AA-SegNet 網(wǎng)絡(luò)為核心架構(gòu),選擇A-ASPP模塊空洞率但不更改參數(shù)的原始模型,因?yàn)閰?shù)變化太多,則每個(gè)變化率都對(duì)應(yīng)于少量的卷積層,這不利于提取更多抽象特征。如表1所示,選擇四種不同的擴(kuò)展速率要好于原始參數(shù)基本版本,連續(xù)增加和連續(xù)減少擴(kuò)張率的效果明顯優(yōu)于基本實(shí)驗(yàn)(A-ASPP、兩層、三層、四層、五層),根據(jù)表1中MOIU分?jǐn)?shù)以及識(shí)別準(zhǔn)確率可以得出,先增加后減少擴(kuò)張率的MIOU和總體精度分?jǐn)?shù)最高。最后,根據(jù)選擇的變化次數(shù)和增加,減少擴(kuò)張速率的方法,設(shè)計(jì)了增強(qiáng)型A-ASPP 結(jié)構(gòu)的網(wǎng)絡(luò)參數(shù),在本次研究中,最優(yōu)的模型結(jié)構(gòu)參數(shù)為(變化率1,變化率2,變化率3,邊化率4)=((1),(3,6,4,2),(6,12,6,4),(12,18,12,6))。
經(jīng)過5 000 次網(wǎng)絡(luò)模型訓(xùn)練,得到最穩(wěn)定的結(jié)果如表2所示。本實(shí)驗(yàn)采用了三個(gè)數(shù)據(jù)集,本網(wǎng)絡(luò)模型達(dá)到了比較高的分?jǐn)?shù)(OA、F1、MIOU、precision 和recall),這表明AA-SegNet網(wǎng)絡(luò)在提取建筑物方面表現(xiàn)良好。
AA-SegNet 網(wǎng)絡(luò)基于數(shù)據(jù)集2,不同階段的訓(xùn)練結(jié)果(見表3),在數(shù)據(jù)集使用樣本擴(kuò)充后,可提高訓(xùn)練精度、增加泛化能力。根據(jù)表3 給出的訓(xùn)練結(jié)果,可以看出使用512尺寸進(jìn)行訓(xùn)練會(huì)增加不穩(wěn)定因素,因?yàn)檫b感影像建筑用地存在”同物異譜”現(xiàn)象,會(huì)影響模型訓(xùn)練時(shí)收斂。
表2 基于像素的網(wǎng)絡(luò)模型評(píng)估結(jié)果
在未加注意力機(jī)制和增強(qiáng)型AA-ASPP 模塊之前,SegNet網(wǎng)絡(luò)識(shí)別結(jié)果存在許多空洞、碎片以及小目標(biāo)識(shí)別差,加入空間注意融合模塊之后,由于空間注意力融合模塊,加強(qiáng)了低級(jí)特征的和高級(jí)特征的融合,能夠避免結(jié)果被過度分割,并且可減少分割區(qū)域噪點(diǎn)。圖9給出了AA-SegNet、SegNet 網(wǎng)絡(luò)模型識(shí)別結(jié)果,參見圖9(b)、(c)中黃色框標(biāo)識(shí)。
圖9 SegNet、AA-SegNet網(wǎng)絡(luò)模型建筑識(shí)別結(jié)果
表3 AA-SegNet網(wǎng)絡(luò)模型訓(xùn)練結(jié)果
圖10 AA-SegNet、SegNet、DeepLabv3、U-Net網(wǎng)絡(luò)預(yù)測(cè)建筑結(jié)果
對(duì)比其他深度學(xué)習(xí)算法模型,將相同的數(shù)據(jù)集應(yīng)用于SegNet、DeepLabv3、U-Net 和改進(jìn)的AA-SegNet 網(wǎng)絡(luò)進(jìn)行實(shí)驗(yàn)。SegNet 網(wǎng)絡(luò)的解碼器是使用上采樣與卷積的過程,過度使用低級(jí)特征進(jìn)行目標(biāo)提取,會(huì)導(dǎo)致分割影像結(jié)果出現(xiàn)過度分割、小目標(biāo)識(shí)別差現(xiàn)象。U_Net網(wǎng)絡(luò)采用通道維度拼接融合方式,來增加特征的描述信息,存在過度使用低級(jí)特征的問題。DeepLabv3網(wǎng)絡(luò)編碼器采用空洞卷積生成任意維度的特征,并采用空間金字塔池化策略,在級(jí)聯(lián)解碼器進(jìn)而恢復(fù)邊界細(xì)節(jié)信息,也過度融合了低級(jí)特征。由于SegNet、DeepLabv3、UNet 缺乏注意力機(jī)制融合模塊、增強(qiáng)型空間金字塔池化模塊,一些低級(jí)特征被過度使用,導(dǎo)致識(shí)別圖像結(jié)果建筑物過度分割并且小目標(biāo)識(shí)別效果差,分割結(jié)果建筑物出現(xiàn)碎片化,參見圖10(c)、(d)、(e)紅框標(biāo)示部分。在圖10(c)中的紅框標(biāo)示中,AA-SegNet 網(wǎng)絡(luò)結(jié)果明顯改善,說明空間注意力機(jī)制可以改善性能,降低碎片化,A-ASPP 精準(zhǔn)提取小目標(biāo)。為定量比較所提出的AASegNet 網(wǎng)絡(luò),在表4(測(cè)試集,包括4 張尺寸為5 000×5 000圖像)中分別給出了OA、F1 得分、訓(xùn)練時(shí)間TT和識(shí)別時(shí)間RT,可以看出,AA-SegNet 網(wǎng)絡(luò)OA 得分明顯優(yōu)于SegNet、DeepLabv3和U-net網(wǎng)絡(luò),其網(wǎng)絡(luò)訓(xùn)練時(shí)間和識(shí)別時(shí)間都優(yōu)于DeepLabv3 和U-net 網(wǎng)絡(luò)(TT:15<21<25<55,RT:6<8<12<50),具有比較高的效率。總的來說,盡管存在很少一部分錯(cuò)誤的建筑分類,見圖11(b)和(d)紅色框標(biāo)示部分,但總體來說,AA-SegNet網(wǎng)絡(luò)從高分辨率遙感影像中能夠?qū)崿F(xiàn)更好的建筑用地提取效果。
表4 相同數(shù)據(jù)集上對(duì)比相關(guān)網(wǎng)絡(luò)測(cè)試結(jié)果
圖11 某些因素導(dǎo)致建筑物提取中錯(cuò)誤檢測(cè)和漏檢
AA-SegNet 優(yōu)越性的主要性能是通過組合增強(qiáng)型空間金字塔池化和空間注意力融合模塊,合理利用不同級(jí)別的特征,提高小目標(biāo)識(shí)別。另外,公共編碼器-解碼器[31-32]網(wǎng)絡(luò)主要使用跳躍連接來幫助解碼器逐漸恢復(fù)對(duì)象細(xì)節(jié)。然而,通過跳躍連接將這些特征映射與更高級(jí)別的特征映射融合可以增加最終結(jié)果的模糊性,這將導(dǎo)致過度使用低級(jí)特征并導(dǎo)致過度分割。注意力機(jī)制可以使用更高級(jí)別的視覺信息來加權(quán)較低級(jí)別的信息以抑制背景和噪聲。因此,基于注意力機(jī)制的空間注意力融合模塊可以更好地指導(dǎo)低級(jí)特征圖,以幫助高級(jí)特征恢復(fù)影像的細(xì)節(jié)并減少過度分割。
但是,高分二號(hào)遙感影像建筑用地提取準(zhǔn)確性可能會(huì)受到某些因素的影響,如圖11所示。
復(fù)雜的背景。雖然水,裸露和稀疏植被在一些測(cè)試樣本中占少數(shù),但由于與前景物體(建筑物用地)色調(diào)相似,它們也被監(jiān)測(cè)為建筑物用地,見圖11(a)、(b)紅色方框。復(fù)雜背景可能會(huì)導(dǎo)致精度低于召回,參見表2中數(shù)據(jù)集1 的評(píng)估結(jié)果。錯(cuò)誤分類可能是所提AA-SegNet網(wǎng)絡(luò)的主要限制。
特殊建筑物。一些訓(xùn)練樣本中,一些建筑物屋頂?shù)奶卣鳎ㄈ珙伾?、紋理和材料),與大多數(shù)建筑物完全不同。另外,一些樹木覆蓋的建筑物的形狀無法準(zhǔn)確檢測(cè)出來,一些模糊的和不規(guī)則的邊界難以分類。因此,很難檢測(cè)出這類建筑物,見圖11(c)、(d)紅色方框。
為削弱上述因素的影像,需要更加完善的深度學(xué)習(xí)網(wǎng)絡(luò)來提高特殊建筑用地提取的效率和準(zhǔn)確率。另外,預(yù)處理方法在區(qū)分建筑用地與復(fù)雜背景方面也起著重要作用。例如,使用歸一化植被指數(shù)(NDVI)或歸一化差異水指數(shù)(NDWI)[34-35]來增強(qiáng)邊緣,則可能不會(huì)將水體誤判斷為建筑物。此外,目前關(guān)于多模態(tài)遙感數(shù)據(jù)融合技術(shù)[36]也可能提高建筑用地的準(zhǔn)確性。預(yù)處理[37]方法和數(shù)據(jù)融合技術(shù)在將來的研究中進(jìn)一步解決。
本文提出的基于深度學(xué)習(xí)SegNet 結(jié)構(gòu)改進(jìn)的AASegNet網(wǎng)絡(luò)模型,能夠較好地解決高分辨率遙感影像中小物體分類效果差和過度分割問題。該網(wǎng)絡(luò)使用增強(qiáng)型空間金字塔池化模塊進(jìn)行小目標(biāo)提取,空間注意力融合模塊用于指導(dǎo)低特征圖,以幫助高特征圖恢復(fù)圖像的細(xì)節(jié),減少過度分割。與深度學(xué)習(xí)方法SegNet、Deep-Labv3 和U-Net 進(jìn)行比較,AA-SegNet 網(wǎng)絡(luò)在圖像識(shí)別率、OA、MIOU、F1 得分、TT和RT(基于像素)方面有更好的表現(xiàn),展示了在識(shí)別遙感圖像建筑性能方面的有效性和可行性。