王曉文 李頂根
1(華中科技大學(xué)中歐清潔與可再生能源學(xué)院 湖北 武漢 430074) 2(華中科技大學(xué)能源與動(dòng)力工程學(xué)院 湖北 武漢 430074)
從建筑屋頂收集太陽(yáng)能來(lái)替代傳統(tǒng)能源是緩解現(xiàn)代能源壓力的重要方式,大范圍的農(nóng)村建筑屋頂太陽(yáng)能資源潛力的評(píng)估對(duì)推進(jìn)太陽(yáng)能開(kāi)發(fā)利用有重要意義。目前已有太陽(yáng)能屋頂分割方案大多數(shù)針對(duì)城市地區(qū),較少針對(duì)農(nóng)村地區(qū),而農(nóng)村地區(qū)的房屋種類較多,個(gè)體差異較大,且呈小區(qū)域分散的狀態(tài),使得現(xiàn)有模型對(duì)農(nóng)村地區(qū)屋頂分割效果不佳。如何有效地分割出農(nóng)村地區(qū)太陽(yáng)能屋頂值得進(jìn)一步研究和探討。
目前,國(guó)內(nèi)外在遙感圖像屋頂分割方面已進(jìn)行許多研究。李勇[1]基于DSM數(shù)據(jù)與航空影像,目視解譯跟蹤矢量化而得到上海中心城區(qū)的建筑物屋頂數(shù)據(jù)。宋曉陽(yáng)[2]提出了一種融合了光譜、形狀及空間信息的針對(duì)建筑物提取的多尺度分割方法,并將高度信息(DSM)和植被指數(shù)(NDVI)作為影響因子加入多尺度分割方法中。楊蘊(yùn)等[3]提出了基于局部空間信息的閾值分割法,可自適應(yīng)地確定類別數(shù)和閾值,從而完成遙感圖像的多閾值分割。韋春桃等[4]利用雙數(shù)復(fù)小波提取特征,通過(guò)馬爾可夫隨機(jī)場(chǎng)算法完成遙感圖像的分割的同時(shí)降低了噪聲的影響。Espindola等[5]提出了一個(gè)目標(biāo)函數(shù),用于為區(qū)域增長(zhǎng)分割算法選擇更加合適的參數(shù),可以提高分割的精度[5]。Li等[6]提出使用高置信度的邊緣信息去指導(dǎo)檢測(cè)邊界較弱的對(duì)象,從而提高圖像分割的定位精度。
以上這些方法一般都是通過(guò)手工進(jìn)行特征的提取,提取的過(guò)程較為復(fù)雜,需要該領(lǐng)域的專業(yè)人員和對(duì)特征的有效性驗(yàn)證,耗時(shí)耗力。因此,針對(duì)復(fù)雜場(chǎng)景的遙感圖像,傳統(tǒng)圖像分割技術(shù)難以實(shí)現(xiàn)較好的效果。近年來(lái),隨著神經(jīng)網(wǎng)絡(luò)的快速發(fā)展,相比于傳統(tǒng)機(jī)器學(xué)習(xí),多層隱藏層的深度神經(jīng)網(wǎng)絡(luò)特征學(xué)習(xí)能力更強(qiáng),效果更好,基于深度學(xué)習(xí)的遙感圖像分割已經(jīng)成為國(guó)內(nèi)外學(xué)者研究的熱門(mén)方向。何平等[7]提出一種新的生成對(duì)抗網(wǎng)絡(luò)分割方法,緩解了普通方法分割存在的孔洞問(wèn)題,實(shí)現(xiàn)了遙感圖像居民區(qū)的分割。Basaeed等[8]依賴特征檢測(cè)器提出了融合多個(gè)增強(qiáng)網(wǎng)絡(luò)的框架完成遙感圖像的分割。Sun等[9]提出融合自然顏色、紅外圖像和數(shù)字表面模型等多模式數(shù)據(jù)提高遙感圖像的分割精度。而相較于城市建筑而言,農(nóng)村地區(qū)屋頂差異更大,建筑風(fēng)格更多樣化,小目標(biāo)建筑更多,使得現(xiàn)有模型對(duì)農(nóng)村地區(qū)屋頂分割效果不佳。因此,提出基于改進(jìn)DeeplabV3+的端到端的農(nóng)村地區(qū)遙感圖像屋頂分割算法,主要包括以下三個(gè)方面:
1) 較大擴(kuò)張率的空洞卷積會(huì)造成棋盤(pán)格效應(yīng),故在空洞卷積金字塔池化結(jié)構(gòu)末尾加入棋盤(pán)格平滑模塊,對(duì)特征圖進(jìn)行密集采樣,有效地捕獲局部信息,緩解信息利用率低下的問(wèn)題。
2) 原DeeplabV3網(wǎng)絡(luò)的解碼器部分過(guò)于簡(jiǎn)單,缺乏低水平的特征,對(duì)此在解碼器網(wǎng)絡(luò)中多加一路低水平特征,增加特征信息。
3) 原始網(wǎng)絡(luò)的解碼器預(yù)測(cè)的目標(biāo)邊界較粗糙,對(duì)此提出了通道注意力解碼器,增加網(wǎng)絡(luò)對(duì)重要特征的篩選能力,進(jìn)一步恢復(fù)圖像的空間細(xì)節(jié)。
選擇DeeplabV3+作為農(nóng)村屋頂分割的基礎(chǔ)網(wǎng)絡(luò)模型。DeeplabV3+網(wǎng)絡(luò)采用的是圖像語(yǔ)義分割領(lǐng)域常見(jiàn)的編碼器-解碼器結(jié)構(gòu),DeeplabV3+模型的整體架構(gòu)如圖1所示,它的編碼器主體是帶有空洞卷積的深度卷積神經(jīng)網(wǎng)絡(luò),用于提取圖像的特征,然后是帶有空洞卷積的空間金字塔池化模塊,主要是為了引入多尺度信息;相比DeeplabV3,DeeplabV3+引入了解碼器模塊,其將底層特征與高層特征進(jìn)一步融合,提升分割邊界準(zhǔn)確度。
圖1 DeeplabV3+網(wǎng)絡(luò)結(jié)構(gòu)示意圖
1) 編碼器。在編碼器-解碼器結(jié)構(gòu)中,編碼器首先將輸入圖像傳入帶深度卷積神經(jīng)網(wǎng)絡(luò),以提取豐富的抽象特征,并在特征提取網(wǎng)絡(luò)中使用空洞卷積代替標(biāo)準(zhǔn)卷積,以擴(kuò)大感受野范圍??斩淳矸e本質(zhì)上就是在標(biāo)準(zhǔn)的卷積核中加入空洞,從而在不大幅減小圖像尺寸的同時(shí)獲得更大的感受野。傳統(tǒng)卷積操作運(yùn)算公式如下:
(1)
式中:σ表示激活函數(shù);f表示特征圖的值;g表示卷積核的值;b表示偏置。
空洞卷積在傳統(tǒng)卷積基礎(chǔ)上增加了參數(shù)空洞率d,普通的卷積可以認(rèn)為其空洞率等于1,空洞率控制著感受野的大小,空洞率越大則感受野越大,具體計(jì)算公式如下:
(2)
編碼器再將深度神經(jīng)網(wǎng)絡(luò)提取到的抽象特征傳入空間金字塔池化模塊(ASPP),通過(guò)并聯(lián)不同空洞率的空洞卷積提取多尺度上下文信息,幫助網(wǎng)絡(luò)獲得更可靠的結(jié)果,ASPP模塊主要包含以下幾個(gè)部分:
(1) 一個(gè)1×1卷積層,以及三個(gè)3×3的空洞卷積。
(2) 一個(gè)全局平均池化層,用來(lái)得到圖像級(jí)別的特征圖。
(3) 將(1)和(2)得到的4個(gè)不同尺度的特征在通道維度上拼接在一起,然后送入1×1的卷積進(jìn)行融合并得到256通道的新特征。該新特征會(huì)被傳入解碼器。
2) 解碼器。對(duì)于DeeplabV3,經(jīng)過(guò)ASPP模塊得到的特征圖的輸出步幅為16,其經(jīng)過(guò)1×1的分類層后直接雙線性插值到原始圖片大小,這是一種非常暴力的解碼方法,這十分不利于得到較精細(xì)的分割結(jié)果,故DeeplabV3+模型中借鑒了編碼-解碼結(jié)構(gòu),引入了新的解碼器模塊,如圖1中解碼器部分所示。首先將編碼器得到的特征雙線性插值得到4倍大小的特征,然后與來(lái)自編碼器特征提取網(wǎng)絡(luò)中具有相同空間分辨率的相應(yīng)低級(jí)特征進(jìn)行級(jí)聯(lián)。值得注意的是,由于編碼器低級(jí)特征維度較高,防止編碼器得到的高級(jí)特征被弱化,因此在編碼器中的低水平特征之后應(yīng)用1×1卷積層進(jìn)行降通道。將編碼器低水平特征與編碼器輸出特征拼接后,應(yīng)用3×3卷積以細(xì)化特征,在雙線性上采樣4倍,使得輸出空間分辨率與輸入相同。
原DeeplabV3+使用空洞卷積替代下采樣來(lái)擴(kuò)大感受野,但是空洞卷積存在網(wǎng)格效應(yīng),也稱棋盤(pán)格問(wèn)題。因?yàn)榭斩淳矸e得到的某一層的結(jié)果中,鄰近的像素是從相互獨(dú)立的子集中卷積得到的,相互之間缺少依賴。這就造成兩個(gè)問(wèn)題:(1) 局部信息丟失問(wèn)題。由于空洞卷積在特征圖上是離散的采樣,卷積的結(jié)果表現(xiàn)為特征圖中離散點(diǎn)的關(guān)系,而忽略了連續(xù)點(diǎn)之間的局部信息,在串聯(lián)的空洞卷積結(jié)構(gòu)和較大空洞率的空洞卷積中,局部信息丟失問(wèn)題愈發(fā)嚴(yán)重。(2) 較大間距獲取的信息缺乏相關(guān)性。由于空洞卷積離散采樣的特性,使得較大間距卷積得到的信息之間沒(méi)有相關(guān)性,影響預(yù)測(cè)結(jié)果。針對(duì)此類問(wèn)題,設(shè)計(jì)了棋盤(pán)格平滑模塊,在帶有空洞卷積的深度卷積神經(jīng)網(wǎng)絡(luò)提取圖像特征之后,在空洞空間金字塔池化結(jié)構(gòu)之前,增加了擴(kuò)張率較小的兩個(gè)卷積操作,使采樣點(diǎn)之間更密集,可以增強(qiáng)特征圖像素間的交互關(guān)系,緩解網(wǎng)格效應(yīng),如圖2所示。
圖2 棋盤(pán)格平滑模塊
為了減少棋盤(pán)格平滑模塊的參數(shù),降低計(jì)算復(fù)雜度,首先對(duì)輸入的高維特征圖進(jìn)行降維,輸出256維的特征圖,然后依次連接空洞率為2和1的卷積操作,在整個(gè)棋盤(pán)格平滑模塊中,特征圖的維度都是256。由于DeeplabV3+網(wǎng)絡(luò)較深,容易產(chǎn)生梯度彌散和梯度爆炸問(wèn)題,一般會(huì)在網(wǎng)絡(luò)中間層增加殘差連接,使得模型能夠?qū)W到恒等映射,從而緩解梯度彌散和梯度爆炸問(wèn)題。但是在DeeplabV3+網(wǎng)絡(luò)中為了防止網(wǎng)絡(luò)底層的棋盤(pán)格效應(yīng)通過(guò)殘差連接能夠直接到達(dá)頂層,棋盤(pán)格平滑模塊選擇去除了殘差連接,而是在每個(gè)卷積操作后連接一個(gè)批歸一化層,也能夠達(dá)到殘差連接對(duì)模型的正則化效果。批歸一化層可以將上一層的輸出均值和方差規(guī)范化,將輸出從飽和區(qū)拉到了非飽和區(qū),可以降低模型的訓(xùn)練難度,增加模型的泛化能力,并且可以緩解模型因網(wǎng)絡(luò)深度增加而導(dǎo)致的梯度彌散和梯度爆炸等問(wèn)題,加快模型收斂速度。實(shí)驗(yàn)表明,棋盤(pán)格平滑模塊能夠使之前網(wǎng)絡(luò)層學(xué)習(xí)到的特征交互性更強(qiáng),使得分割目標(biāo)邊緣更平滑細(xì)致,提高了圖像分割的精度。
基于深度學(xué)習(xí)的圖像語(yǔ)義分割模型從網(wǎng)絡(luò)底層到頂層,隨著感受野的變大,網(wǎng)絡(luò)模型所學(xué)習(xí)到的特征也在不斷變化。在模型的淺層,特征圖的分辨率較大,感受野較小,學(xué)習(xí)到的特征一般都是圖像的細(xì)節(jié)特征,比如邊、角和線等特征;而在網(wǎng)絡(luò)的深層,特征圖的分辨率較低,感受野較大,網(wǎng)絡(luò)層提取到的更多的是圖像目標(biāo)的語(yǔ)義信息。在DeeplabV3+網(wǎng)絡(luò)結(jié)構(gòu)中融合的低水平特征只選擇主干網(wǎng)絡(luò)中與編碼器得到的高級(jí)特征對(duì)于大小的低級(jí)特征圖,該特征圖能夠包含的圖像細(xì)節(jié)特征較少,不足以使得解碼器較為準(zhǔn)確地恢復(fù)目標(biāo)的邊緣信息。針對(duì)此問(wèn)題,以ResNet50作為主干網(wǎng)絡(luò)為例,其分為5個(gè)階段,每個(gè)階段的輸出特征圖尺寸依次為原圖大小的1/4、1/4、1/8、1/16、1/16。選擇在解碼器中融合第二、第三、第四階段的低水平特征,并分別將第三、第四階段的特征兩倍、四倍雙線性插值上采樣。最后將三個(gè)不同階段的低水平特征在通道層面上拼接,形成高維特征,該特征包含了豐富的圖像細(xì)節(jié)特征,可以使得模型更好地恢復(fù)目標(biāo)的邊緣細(xì)節(jié)信息。
原DeeplabV3+在ASPP結(jié)構(gòu)中進(jìn)行各尺度的特征提取時(shí),通道數(shù)前后保持一致,將多尺度的特征拼接之后,特征通道維度直接變成原來(lái)的5倍,再通過(guò)1×1卷積降維,最后以4倍上采樣送入解碼器。原DeeplabV3+并沒(méi)有對(duì)拼接后的多尺度特征進(jìn)行特征通道選擇,也就是認(rèn)為每個(gè)通道信息對(duì)于該目標(biāo)的分割重要性相同。實(shí)際上網(wǎng)絡(luò)深度的增加,感受野的擴(kuò)大,語(yǔ)義信息逐漸豐富,尤其經(jīng)過(guò)空洞卷積空間金字塔池化結(jié)構(gòu)之后,每個(gè)通道表示不同的特征,這些特征對(duì)于不同的目標(biāo)而言其重要性也不同。如果在降維的同時(shí)對(duì)特征通道施以權(quán)重值,可以使得網(wǎng)絡(luò)能夠重視輸入特征的重要部分,學(xué)習(xí)到特征中對(duì)目標(biāo)預(yù)測(cè)貢獻(xiàn)較大的部分,能夠進(jìn)一步提高網(wǎng)絡(luò)模型的分割精度。
通道注意力模塊主要有兩個(gè)作用:(1) 對(duì)于ASPP結(jié)構(gòu)產(chǎn)生的高維特征實(shí)現(xiàn)降維;(2) 使網(wǎng)絡(luò)更加關(guān)注重要的特征。通道注意力模塊分為降維、擠壓、激勵(lì)和注意四個(gè)部分,如圖3所示。
圖3 通道注意力模塊
首先最左邊是原始輸入圖片特征X,然后通過(guò)1×1卷積進(jìn)行降維,產(chǎn)生了新的特征信號(hào)U。擠壓部分采用全局平均池化實(shí)現(xiàn)擠壓,具體見(jiàn)下式:
(3)
式中:u為大小為H×W×C的特征圖;uc表示為高維特征圖中通道順序?yàn)閏的二維特征矩陣;經(jīng)過(guò)擠壓部分,第c個(gè)通道的特征矩陣映射為zc。激勵(lì)部分為兩個(gè)全連接層,以此學(xué)習(xí)通道間的復(fù)雜關(guān)系,具體如下:
s=Fex(z,W)=δ(g(z,W))=σ(W2δ(W1z))
(4)
第一個(gè)全連接層的權(quán)重W1維度大小為(c,c/16),將通道降為原通道數(shù)的1/16,再通過(guò)權(quán)重為W2的第二個(gè)全連接層進(jìn)行升維,將維度恢復(fù)至c,每個(gè)全連接層后都采用ReLU函數(shù)激活,用δ表示。然后通過(guò)Sigmoid函數(shù)σ歸一化權(quán)重矩陣s,保證權(quán)重值范圍在(0,1)之間。
最后通過(guò)尺度函數(shù)Fscale將權(quán)重s賦到每個(gè)通道上,得到輸出矩陣Y:
Y=Fscale(uc,sc)=sc·uc
(5)
式中:sc表示順序?yàn)閏的歸一化函數(shù)權(quán)重。不同通道的值uc乘上對(duì)應(yīng)順序的權(quán)重sc,從而可以增強(qiáng)對(duì)關(guān)鍵通道域的注意力。
提出的改進(jìn)DeeplabV3+網(wǎng)絡(luò)以ResNet50為特征提取網(wǎng)絡(luò),特征提取網(wǎng)絡(luò)結(jié)構(gòu)見(jiàn)表1。
表1 ResNet50網(wǎng)絡(luò)結(jié)構(gòu)
為了更好地提取底層特征,增加每一層卷積的感受野,將ResNet50中的第二、第三、第四、第五階段卷積中的普通卷積都替換成空洞卷積,且從第二階段開(kāi)始,每一階段的空洞卷積空洞率依次為2、4、8、16。提出的改進(jìn)DeeplabV3+網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。首先,輸入圖像經(jīng)過(guò)ResNet50中的5個(gè)階段的空洞卷積特征提取,傳入棋盤(pán)格平滑模塊以消除棋盤(pán)格效應(yīng);接著連接空洞卷積空間金字塔池化結(jié)構(gòu)以獲取多尺度的信息并融合;再通過(guò)通道注意力模塊篩選出重要的特征以4倍上采樣傳入解碼器。在解碼器階段,首先對(duì)ResNet50中第二、第三、第四階段輸出的低層次特征上采樣至相同尺寸并拼接,再通過(guò)通道注意力模塊降維并選擇重要特征,接著與另一個(gè)注意力模塊的輸出拼接,最后連接一個(gè)普通卷積并以4倍上采樣輸出最終分割結(jié)果。
圖4 改進(jìn)的DeeplabV3+網(wǎng)絡(luò)結(jié)構(gòu)
模型訓(xùn)練所需硬件設(shè)備采用的是阿里云GPU云服務(wù)器,具體配置見(jiàn)表2。訓(xùn)練模型所用的超參數(shù)配置如表3所示。
表2 實(shí)驗(yàn)硬件配置
表3 模型超參數(shù)設(shè)置
實(shí)驗(yàn)選擇河南省漯河市舞陽(yáng)縣部分農(nóng)村地區(qū)作為研究對(duì)象,該地區(qū)位于河南省中部偏南,農(nóng)村住宅建筑占主要部分。通過(guò)圖新地球軟件獲得該地區(qū)的谷歌影像,并將其切分為256×256分辨率大小的圖片若干幅,選擇其中1 000幅作為實(shí)驗(yàn)數(shù)據(jù)集,并按8 ∶1 ∶1的比例切分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。
為了豐富圖像訓(xùn)練集,減少標(biāo)記的工作量,使得模型能夠更好地提取圖像特征,提高模型的泛化能力和魯棒性,降低模型過(guò)擬合風(fēng)險(xiǎn),數(shù)據(jù)集訓(xùn)練前一般都會(huì)根據(jù)數(shù)據(jù)集的特點(diǎn)進(jìn)行數(shù)據(jù)增強(qiáng),主要包括:翻轉(zhuǎn)、旋轉(zhuǎn)、縮放、色彩抖動(dòng)、增加噪聲。
(1) 算法評(píng)價(jià)指標(biāo)。實(shí)驗(yàn)采用交并比(Intersection over Union,IoU)系數(shù)、像素精度(Pixel Accuracy,PA)作為定量評(píng)價(jià)指標(biāo)。在圖像語(yǔ)義分割任務(wù)中,PA指的是預(yù)測(cè)正確的像素占總像素的比例;IoU系數(shù)為某一類的預(yù)測(cè)區(qū)域和實(shí)際區(qū)域交集與預(yù)測(cè)區(qū)域和實(shí)際區(qū)域并集兩者的比例。IoU和PA值越大,表示預(yù)測(cè)精度越高。IoU的具體計(jì)算方式如下:
(6)
式中:X表示前景或背景的預(yù)測(cè)輪廓區(qū)域所包含的點(diǎn)集;Y表示實(shí)際輪廓區(qū)域所包含的點(diǎn)集。在屋頂分割任務(wù)中,規(guī)定屋頂為前景,任務(wù)只關(guān)心前景的分割結(jié)果。由于屋頂分割任務(wù)為二分類,因此屋頂和背景的像素精度相同,而IoU值不同,因此對(duì)于IoU值,實(shí)驗(yàn)主要考慮前景的IoU系數(shù)。
(2) 網(wǎng)絡(luò)訓(xùn)練過(guò)程。選擇交叉熵與IoU損失的和作為算法總損失:
(7)
IoUloss=1-IoU(X,Y)
(8)
Loss=Entloss+IoUloss
(9)
(1) 分割示例。圖5為采用基于改進(jìn)DeeplabV3+網(wǎng)絡(luò)對(duì)圖像進(jìn)行分割的一個(gè)實(shí)例,其中:(a)為原始輸入圖像;(b)為真值圖;(c)為分割結(jié)果。由該實(shí)例可知,提出的基于改進(jìn)DeeplabV3+的屋頂分割算法可以有效地分割出農(nóng)村地區(qū)屋頂。
(a) 原圖(b) 真值圖(c) 預(yù)測(cè)圖圖5 基于改進(jìn)DeeplabV3+網(wǎng)絡(luò)的分割示例
(2) 定性分析。圖6為改進(jìn)DeeplabV3+與原DeeplabV3+網(wǎng)絡(luò)對(duì)部分測(cè)試集圖像的預(yù)測(cè)結(jié)果,其中:(a)為原圖像;(b)為對(duì)應(yīng)的真值圖;(c)為原DeeplabV3+網(wǎng)絡(luò)的分割結(jié)果;(d)為改進(jìn)的DeeplabV3+網(wǎng)絡(luò)的預(yù)測(cè)結(jié)果。可以看出,使用原DeeplabV3+網(wǎng)絡(luò)對(duì)農(nóng)村地區(qū)屋頂分割時(shí),存在分割不足現(xiàn)象,見(jiàn)圖6(c),第一行中存在非屋頂區(qū)域被誤識(shí)別為屋頂,第三行中存在部分屋頂區(qū)域未被分割出來(lái),提出的改進(jìn)DeeplabV3+網(wǎng)絡(luò)通過(guò)棋盤(pán)格平滑模塊獲得了特征圖更加細(xì)致的信息,更好地分割屋頂。原DeeplabV3+網(wǎng)絡(luò)分割結(jié)果中目標(biāo)屋頂?shù)倪吘壖?xì)節(jié)不清晰,這是由于圖像的邊緣細(xì)節(jié)特征主要存在于網(wǎng)絡(luò)的低級(jí)特征,DeeplabV3+只利用了一層低水平特征,不足以恢復(fù)邊緣細(xì)節(jié),改進(jìn)的DeeplabV3+融合了更多的低水平特征,使得模型對(duì)細(xì)節(jié)的預(yù)測(cè)更加準(zhǔn)確。
(a) (b) (c) (d)圖6 改進(jìn)DeeplabV3+算法的屋頂分割效果
(3) 定量分析。為了保證算法評(píng)價(jià)的客觀性,實(shí)驗(yàn)選擇前景的交并比和像素準(zhǔn)確率作為評(píng)價(jià)指標(biāo),用于評(píng)估基于DeeplabV3+提出的改進(jìn)方案的有效性。表4為結(jié)合不同方案的DeeplabV3+在驗(yàn)證集中的評(píng)價(jià)指標(biāo)結(jié)果。Ours1是基于DeeplabV3+網(wǎng)絡(luò)增加了棋盤(pán)格平滑模塊,兩項(xiàng)指標(biāo)分別提升了0.009 1和0.010 7。Ours2在Ours1的基礎(chǔ)之上融合了多個(gè)低水平的特征,使得指標(biāo)又提高了0.005 8和0.000 2,由此可見(jiàn),融合低水平特征能夠進(jìn)一步地提高分割精度。Ours3在Ours2的基礎(chǔ)上采用了注意力模塊來(lái)連接在ASPP結(jié)構(gòu)和低水平特征融合之后,使得指標(biāo)相較于原DeeplabV3+網(wǎng)絡(luò)約提升了0.022 1和0.017 4。
表4 結(jié)合不同方案的DeeplabV3+在驗(yàn)證集上的評(píng)價(jià)指標(biāo)結(jié)果
(4) 不同算法對(duì)比。為了保證算法評(píng)價(jià)的客觀性,將提出的改進(jìn)DeeplabV3+算法與文獻(xiàn)[10-15]中提出的基于深度學(xué)習(xí)的經(jīng)典圖像分割網(wǎng)絡(luò)在農(nóng)村地區(qū)屋頂分割任務(wù)上進(jìn)行對(duì)比,具體結(jié)果如表5所示。FCNs作為基于深度學(xué)習(xí)的語(yǔ)義分割算法中的開(kāi)山之作,在農(nóng)村地區(qū)屋頂數(shù)據(jù)集上的前景IoU指標(biāo)僅有70.61%。文獻(xiàn)[11]首先提出了經(jīng)典的編碼-解碼結(jié)構(gòu)的語(yǔ)義分割結(jié)構(gòu)UNet網(wǎng)絡(luò),UNet網(wǎng)絡(luò)是通過(guò)堆疊大量的池化層來(lái)降低特征圖的分辨率尺寸,以此獲得較大的感受野,但這樣做會(huì)不可避免地失去圖像的空間信息,使得屋頂分割精度較低。文獻(xiàn)[12]提出了DenseASPP,結(jié)合了并行和級(jí)聯(lián)使用空洞卷積層的優(yōu)點(diǎn),在更大范圍內(nèi)產(chǎn)生了更多的尺度特征。文獻(xiàn)[13]提出了BiSeNet,利用空間路徑保存空間信息并生成高分辨率特征,同時(shí)采用快速下采樣策略的上下文路徑獲取足夠的感受野。文獻(xiàn)[14]和文獻(xiàn)[15]分別提出了PSPNet和DeeplabV3+,它們?cè)谔卣魈崛∵^(guò)程中加入了空洞卷積和空間金字塔池化層,使得網(wǎng)絡(luò)在不降低特征圖的分辨率,保留圖像空間信息的同時(shí)獲得更大的感受野,得到了比UNet更強(qiáng)的語(yǔ)義信息,但是同樣缺乏圖像的細(xì)節(jié)特征,模型不能很好地恢復(fù)圖像邊緣細(xì)節(jié),分割結(jié)果較粗糙。由表5可知,本文提出的改進(jìn)DeeplabV3+算法在農(nóng)村地區(qū)屋頂數(shù)據(jù)集上的各項(xiàng)評(píng)價(jià)指標(biāo)均優(yōu)于其他經(jīng)典的語(yǔ)義分割算法,也再次證明了棋盤(pán)格平滑模塊、通道注意力模塊和多低水平特征融合的重要性。
表5 不同算法在農(nóng)村屋頂數(shù)據(jù)集上的評(píng)價(jià)指標(biāo)
針對(duì)現(xiàn)有模型對(duì)農(nóng)村地區(qū)屋頂分割任務(wù)效果不佳,以及DeeplabV3+網(wǎng)絡(luò)存在的棋盤(pán)格效應(yīng)等問(wèn)題,提出改進(jìn)的DeeplabV3+農(nóng)村地區(qū)屋頂分割網(wǎng)絡(luò),通過(guò)棋盤(pán)格平滑模塊緩解棋盤(pán)格效應(yīng),利用多低水平特征融合和通道注意力模塊提高模型對(duì)邊緣細(xì)節(jié)的分割能力。實(shí)驗(yàn)結(jié)果表明,提出的改進(jìn)DeeplabV3+算法相較于經(jīng)典的語(yǔ)義分割網(wǎng)絡(luò)能更有效地分割出農(nóng)村地區(qū)的屋頂。由于遙感影像中存在多種類型信息,未來(lái)考慮融合多模式數(shù)據(jù)提高分割精度。