王圣杰,劉長(zhǎng)星,杜嵩
(西安科技大學(xué) 測(cè)繪科學(xué)與技術(shù)學(xué)院,西安 710054)
圖像語(yǔ)義分割以中高層語(yǔ)義信息為輔助信息對(duì)圖像進(jìn)行逐像素分割,圖像中每個(gè)像素分別對(duì)應(yīng)著預(yù)先定義的類別標(biāo)簽[1]。圖像的語(yǔ)義分割在諸多領(lǐng)域已有廣泛的應(yīng)用,如醫(yī)療影像檢測(cè)、自動(dòng)駕駛、安防等領(lǐng)域,能夠準(zhǔn)確快速地對(duì)目標(biāo)物體與背景進(jìn)行分割處理,進(jìn)而提取出所需目標(biāo)物。其中,在遙感影像建筑物提取領(lǐng)域,圖像語(yǔ)義分割技術(shù)解決了傳統(tǒng)建筑物提取技術(shù)耗時(shí)長(zhǎng)、工作量大、提取精度低等問(wèn)題,逐漸成為建筑物提取的新潮流。因此,如何使用語(yǔ)義分割技術(shù)快速、精確、智能地提取遙感影像中建筑物成為現(xiàn)在研究熱點(diǎn)之一。
近年來(lái),隨著深度學(xué)習(xí)與計(jì)算機(jī)技術(shù)不斷發(fā)展,傳統(tǒng)基于人工設(shè)計(jì)特征的語(yǔ)義分割技術(shù)逐漸被取代,深層次、高效率的語(yǔ)義分割模型陸續(xù)被提出。2012年Alex等[2]在ILSVRC(imagenet large scale visual recognition challenge)大賽上首次提出AlexNet網(wǎng)絡(luò),并取得了當(dāng)時(shí)最好的成績(jī);Shelhamer等[3]提出了全卷積神經(jīng)網(wǎng)絡(luò)(fully convolutional networks,F(xiàn)CN),將原分類網(wǎng)絡(luò)中全連接層用卷積層代替,消除了卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)只能輸入固定尺寸圖像的弊端,實(shí)現(xiàn)了任意大小圖像的輸入與輸出,成為后續(xù)圖像語(yǔ)義分割不可缺少的模型;Olaf等[4]提出了U-Net網(wǎng)絡(luò),通過(guò)捷徑連接的思想將編碼中的特征圖與解碼中對(duì)應(yīng)大小的特征圖進(jìn)行融合,上采樣時(shí)恢復(fù)更多的空間信息;He等[5]提出ResNet網(wǎng)絡(luò),該網(wǎng)絡(luò)利用了殘差學(xué)習(xí)在增加網(wǎng)絡(luò)深度的同時(shí)解決性能退化的問(wèn)題;Chaurasia等[6]提出了LinkNet網(wǎng)絡(luò),以U-Net網(wǎng)絡(luò)的U型結(jié)構(gòu)為基礎(chǔ),將ResNet模型作為信息提取網(wǎng)絡(luò),通過(guò)捷徑連接將淺層信息傳遞至網(wǎng)絡(luò)深層,更有利于圖像的語(yǔ)義分割。
考慮到建筑物提取受建筑物本身特性與其周圍環(huán)境的影響,研究者通過(guò)引入不同形式的注意力機(jī)制以及采用不同的上采樣方式優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu),以提高模型的分類性能和分類準(zhǔn)確率。Hu等[7]提出的SENet(squeeze-and-excitation networks)網(wǎng)絡(luò),通過(guò)引入通道注意力建模通道之間的相互依賴關(guān)系,自適應(yīng)地重新校準(zhǔn)通道的特征響應(yīng),該模型獲得了2017年ImageNet圖像識(shí)別冠軍;劉浩等[8]通過(guò)SENet網(wǎng)絡(luò)設(shè)計(jì)了特征壓縮激活模塊,構(gòu)建了SE-Unet網(wǎng)絡(luò),加強(qiáng)了網(wǎng)絡(luò)特征的學(xué)習(xí)能力,驗(yàn)證了其對(duì)大小各異、形狀不規(guī)則的建筑物有很好的識(shí)別效果和分類精度;Li等[9]在SENet的基礎(chǔ)上提出了SKNet(selective kernel networks)網(wǎng)絡(luò),該網(wǎng)絡(luò)更注重卷積核的重要性,在SK模塊上不同分支采用不同大小的卷積核提取圖像特征信息,特征信息經(jīng)過(guò)融合處理將權(quán)值映射到不同分支上再進(jìn)行融合,提高了對(duì)圖像整體和細(xì)節(jié)特征的提取能力;馬震環(huán)等[10]提出新的解碼器結(jié)構(gòu),通過(guò)引入自注意力機(jī)制對(duì)級(jí)聯(lián)的深層特征與淺層特征解碼,降低了上采樣時(shí)的精度損失;程曉悅等[11]提出一種新的語(yǔ)義分割算法,在網(wǎng)絡(luò)中使用密集層結(jié)構(gòu),采樣分組卷積加快計(jì)算速度,同時(shí)引入注意力機(jī)制改善分割效果;Zhang等[12]提出空間注意力模塊,對(duì)圖像特征圖不同部分匹配不同的權(quán)重;Woo等[13]提出了CBAM(convolutional block attention module)模塊,結(jié)合通道和空間注意模塊,對(duì)圖像不同通道不同位置給予關(guān)注,實(shí)驗(yàn)結(jié)果驗(yàn)證了先通道再空間的方式最優(yōu)。上述網(wǎng)絡(luò)模型都是通過(guò)引入不同形式的注意力機(jī)制加強(qiáng)網(wǎng)絡(luò)對(duì)特征的學(xué)習(xí)能力并取得不錯(cuò)的效果。Badrinarayanan等[14]提出SegNet,在編碼階段使用最大池化提取準(zhǔn)確的位置信息,在解碼階段使用反池化方式恢復(fù)圖像大小,使得圖像某些邊緣信息得以保存;Tian等[15]提出DUpsampling(data-dependent upsampling)方法代替?zhèn)鹘y(tǒng)的雙線性插值法,允許解碼器將待融合的特征降采樣到特征圖的最低分辨率,減少了解碼器計(jì)算量的同時(shí)擴(kuò)大了特征聚合的設(shè)計(jì)空間,使得解碼器能夠利用更好的特征聚合。這些網(wǎng)絡(luò)模型通過(guò)改變?cè)瓉?lái)的上采樣方式,以提高模型恢復(fù)特征圖像素級(jí)預(yù)測(cè)能力。
盡管語(yǔ)義分割算法在實(shí)際提取中有較好的提取精度,但是仍存在一些問(wèn)題:設(shè)計(jì)神經(jīng)網(wǎng)絡(luò)時(shí)對(duì)感受野的自適應(yīng)變化沒(méi)有重視,導(dǎo)致網(wǎng)絡(luò)學(xué)習(xí)特征能力有限,進(jìn)而影響網(wǎng)絡(luò)的預(yù)測(cè)能力;獨(dú)立于數(shù)據(jù)、不考慮每個(gè)像素預(yù)測(cè)之間的相關(guān)性是雙線性上采樣過(guò)于簡(jiǎn)單的原因,進(jìn)而導(dǎo)致其精確恢復(fù)像素級(jí)預(yù)測(cè)的能力有限;在上采樣-下采樣過(guò)程中易產(chǎn)生信息丟失問(wèn)題,造成提取精度降低。
針對(duì)以上問(wèn)題,本文設(shè)計(jì)了一種語(yǔ)義分割算法。以U-Net網(wǎng)絡(luò)結(jié)構(gòu)為基礎(chǔ),在編碼器中引入卷積核注意力機(jī)制加強(qiáng)網(wǎng)絡(luò)感受野的自適應(yīng)變化,根據(jù)輸入自適應(yīng)地調(diào)整其感受野大小,采用非線性聚集的方法聚合多尺度信息,強(qiáng)化有用特征抑制無(wú)用特征;在解碼器中使用DUpsampling方式,利用語(yǔ)義分割標(biāo)簽空間的冗余從編碼器的低分辨率輸出中恢復(fù)像素級(jí)預(yù)測(cè);在編碼器-解碼器中利用捷徑連接將淺層特征與深層特征進(jìn)行融合,并在交叉熵函數(shù)的基礎(chǔ)上結(jié)合dice函數(shù)作為補(bǔ)充訓(xùn)練網(wǎng)絡(luò)模型。
本文以U-Net網(wǎng)絡(luò)結(jié)構(gòu)為基礎(chǔ),采用編解碼架構(gòu)。編碼過(guò)程中利用SKNet網(wǎng)絡(luò)中選擇性卷積核引入卷積核注意力機(jī)制,對(duì)輸入圖像自適應(yīng)調(diào)整其感受野大小,聚合多尺度信息。解碼過(guò)程中使用DUpsampling恢復(fù)特征圖的像素級(jí)預(yù)測(cè),從而達(dá)到較好的分類結(jié)果。構(gòu)建的SD-Unet網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
圖1 整體網(wǎng)絡(luò)結(jié)構(gòu)
注意力機(jī)制(attention mechanism)可以理解為一種資源分配機(jī)制,在視覺方面,其核心思想是突出對(duì)象的某些重要特征。通過(guò)注意力機(jī)制可以使神經(jīng)網(wǎng)絡(luò)具備專注于其輸入(或特征)子集的能力:選擇特定的輸入。為對(duì)比分析文本所提網(wǎng)絡(luò)的優(yōu)越性,以U-Net網(wǎng)絡(luò)為基礎(chǔ),引入不同形式的注意力機(jī)制進(jìn)行比較。
卷積核注意力機(jī)制通過(guò)SKNet網(wǎng)絡(luò)中SK模塊實(shí)現(xiàn)。SK模塊具有不同的分支形式,各分支上不同大小的卷積核組成了選擇性卷積核。該模塊通過(guò)非線性方法聚合來(lái)自多個(gè)卷積核的信息,較為全面地提取圖像中目標(biāo)物整體和局部細(xì)節(jié)特征。本文采用雙分支形式的SK模塊,主要由Split、Fuse、Select三個(gè)子模塊組成,如圖2所示。
1)子模塊Split。對(duì)任意給定的特征圖X∈RH1×W1×C1,用3×3、5×5的卷積核進(jìn)行兩次卷積映射處理,計(jì)算如式(1)所示。
(1)
(2)
接著對(duì)融合后的特征圖U采用全局平均池化操作來(lái)嵌入全局信息,得到特征通道的統(tǒng)計(jì)信息并生成S∈RC,即S的第C個(gè)元素通過(guò)空間維數(shù)H×W收縮U來(lái)計(jì)算,如式(3)所示。
(3)
為加強(qiáng)網(wǎng)絡(luò)對(duì)有用特征的學(xué)習(xí)能力,通過(guò)Ffc操作壓縮全局信息得到特征Z∈Rd×1,以引導(dǎo)精確的自適應(yīng)選擇。Ffc是一個(gè)簡(jiǎn)單的全連接層,其作用是對(duì)全局平均池化后的特征圖通道數(shù)降維,再經(jīng)過(guò)批標(biāo)準(zhǔn)化和ReLU激活函數(shù)處理,最后升維至原先數(shù)目。
Z=Ffc(s)=δ(B(Ws))
(4)
式中:δ代表ReLU激活函數(shù);B表示批標(biāo)準(zhǔn)化處理,W∈Rd×c。其中,本文通過(guò)引入r(reduction ratio)來(lái)控制d對(duì)模型的影響,r為下降率,計(jì)算如式(5)所示。
(5)
式中:L為d的最小值,本文網(wǎng)絡(luò)中L設(shè)置為32。使用跨通道的軟關(guān)注自適應(yīng)地選擇不同空間尺度信息,在通道方向上使用Softmax操作,最后得到輸出是兩個(gè)矩陣a和b,則b為冗余矩陣,雙分支情況下b=1-a。
(6)
式中:V=[V1,V2,…,Vc],Vc∈RH×W表示特征圖V的第c個(gè)通道的特征信息。通過(guò)擴(kuò)展方程式可以推導(dǎo)出更多分支的情況。
圖2 SK模塊示意圖
通道注意力機(jī)制本質(zhì)是對(duì)特征圖間每個(gè)通道中的特征進(jìn)行加權(quán)計(jì)算,對(duì)不同特征給予不同程度的關(guān)注??梢酝ㄟ^(guò)引入通道注意力機(jī)制(SE模塊),實(shí)現(xiàn)網(wǎng)絡(luò)在編碼階段對(duì)特征的學(xué)習(xí)能力。SE模塊主要依賴特征圖間各通道之間的關(guān)系進(jìn)行建模,實(shí)現(xiàn)自動(dòng)調(diào)整各通道的特征響應(yīng),結(jié)構(gòu)如圖3所示。
該模塊工作流程為:先將任一輸入的X∈RH′×W′×C′進(jìn)行Ftr操作轉(zhuǎn)換成U∈RH×W×C,F(xiàn)tr可以理解為傳統(tǒng)的卷積操作;再對(duì)卷積輸出的U進(jìn)行Fsq(全局平均池化)操作,將U壓縮成Zc,計(jì)算如式(7)所示。
(7)
為利用壓縮后的信息完全捕獲信道上的依賴關(guān)系,通過(guò)兩級(jí)全連接Fex操作將壓縮數(shù)據(jù)激活,并用Sigmoid激活函數(shù)將輸出限制到[0,1]的范圍;最后將輸出的值作為scale乘到U的C個(gè)通道上,作為下一級(jí)的輸入數(shù)據(jù)。
圖3 SE模塊示意圖
混合域注意力機(jī)制通過(guò)融合空間和通道注意力機(jī)制所關(guān)注的不同信息,彌補(bǔ)各自的局限,在網(wǎng)絡(luò)結(jié)構(gòu)中依次嵌入通道和空間注意模塊。本文將CBAM模塊引入U(xiǎn)-Net網(wǎng)絡(luò)中。CBAM模塊結(jié)構(gòu)如圖4所示。
圖4 CBAM模塊示意圖
特征圖率先進(jìn)入的是通道注意力模塊。該模塊與SE模塊大致相同,主要區(qū)別是CBAM中依次使用了全局平均池化和全局最大池化兩種池化方式,相較于SE模塊提取到更加豐富的高層次特征。將通道注意力模塊的輸出作為空間注意力模塊的輸入,同樣使用全局平均池化和全局最大池化??臻g注意力模塊操作過(guò)程為:首先,將輸入的特征圖(H×W×C)經(jīng)過(guò)池化操作得到兩個(gè)高層次特征圖(H×W×1),并在通道維度上進(jìn)行連接;然后,對(duì)連接后的特征圖進(jìn)行卷積處理,使用Sigmoid函數(shù)將輸出限制到[0,1]的范圍;最后,將輸出值作為scale乘到通道上,得到經(jīng)過(guò)雙重注意力調(diào)整的最終輸出結(jié)果。
L=loss(Softmax(bilinear(F),Y))
(8)
(9)
(10)
式中:可以使用標(biāo)準(zhǔn)隨機(jī)梯度下降(SGD)進(jìn)行優(yōu)化。
(11)
另一種使用未壓縮的Y作為真值來(lái)監(jiān)督恢復(fù)分辨率的(Softmax(DUpsampling(F)))的特征圖(式(12))。
L=loss(Softmax(DUpsampling(F),Y))
(12)
式(12)使用DUpsampling代替了原始的雙線性上采樣,相當(dāng)于在空間維度上應(yīng)用1×1卷積,卷積核存儲(chǔ)在W中。具體的上采樣過(guò)程如圖5所示。
圖5 上采樣過(guò)程
為驗(yàn)證實(shí)驗(yàn)結(jié)果,本文采用總體分類精度(OA)、精確率(precision)、召回率(recall)、F1分?jǐn)?shù)、交并比(IoU)作為精度評(píng)價(jià)指標(biāo)。
表1 特征計(jì)算示意表
表1中,1表示建筑物像素;0表示非建筑物像素;TP表示正確分類的建筑物特征;TN表示正確分類的非建筑物特征;FP表示錯(cuò)誤分類的建筑物特征;FN表示錯(cuò)誤分類的非建筑物特征。
WHU數(shù)據(jù)集是由武漢大學(xué)季順平教授和其團(tuán)隊(duì)建立的,是一個(gè)大型、準(zhǔn)確、開源的數(shù)據(jù)集,主要包括航空建筑物數(shù)據(jù)庫(kù)和衛(wèi)星建筑物數(shù)據(jù)庫(kù)[18]。其中,衛(wèi)星建筑物數(shù)據(jù)庫(kù)包含數(shù)據(jù)集Ⅰ和數(shù)據(jù)集Ⅱ,數(shù)據(jù)集Ⅱ覆蓋范圍廣、包含建筑物種類多,是評(píng)價(jià)建筑物提取算法的理想?yún)^(qū)域,所以本文選用數(shù)據(jù)集Ⅱ作為實(shí)驗(yàn)數(shù)據(jù)。該數(shù)據(jù)主要由六張相鄰的衛(wèi)星遙感影像組成,影像覆蓋東亞地區(qū)內(nèi)860 km2的土地,且影像分辨率為0.45 m,如圖6所示。將原始數(shù)據(jù)經(jīng)過(guò)ArcGIS軟件處理得到深度學(xué)習(xí)方法應(yīng)用的17 388個(gè)512像素×512像素的子圖像,其中包含了3.4×104棟建筑物。
圖6 由六張衛(wèi)星影像組成的覆蓋860 km2的東亞地區(qū)
通常在訓(xùn)練神經(jīng)網(wǎng)絡(luò)時(shí),足夠多的訓(xùn)練樣本會(huì)使網(wǎng)絡(luò)的訓(xùn)練效果變好。為解決獲取新數(shù)據(jù)成本高、難度大的問(wèn)題,本研究采用數(shù)據(jù)增強(qiáng)技巧實(shí)現(xiàn)數(shù)據(jù)量的擴(kuò)充,如放大、縮小、旋轉(zhuǎn)和翻轉(zhuǎn)等操作對(duì)數(shù)據(jù)進(jìn)行增強(qiáng)。具體擴(kuò)充過(guò)程是:對(duì)數(shù)據(jù)集Ⅱ中含有少量甚至沒(méi)有建筑物像素的負(fù)樣本數(shù)據(jù)進(jìn)行剔除,將剔除后的4 000多個(gè)樣本數(shù)據(jù)進(jìn)行垂直、水平、旋轉(zhuǎn)(逆時(shí)針90°、180°、270°)、轉(zhuǎn)置和橫向等操作進(jìn)行增強(qiáng)。
神經(jīng)網(wǎng)絡(luò)的內(nèi)部參數(shù)可以通過(guò)優(yōu)化算法迭代得到,在訓(xùn)練時(shí)需人為設(shè)置一些超參數(shù)來(lái)指導(dǎo)模型進(jìn)行學(xué)習(xí),如:學(xué)習(xí)率、優(yōu)化函數(shù)和權(quán)重衰減參數(shù)等。初始學(xué)習(xí)率設(shè)置為1×10-4,使用自適應(yīng)學(xué)習(xí)率的Adam優(yōu)化函數(shù),權(quán)重衰減參數(shù)為1×10-7,批次為5。本實(shí)驗(yàn)通過(guò)Keras框架實(shí)現(xiàn),使用內(nèi)存32 GB,英偉達(dá)GTX1080Ti顯卡的服務(wù)器進(jìn)行訓(xùn)練,共訓(xùn)練50個(gè)epoch。
1)對(duì)常用的語(yǔ)義分割模型進(jìn)行訓(xùn)練并在測(cè)試集上進(jìn)行測(cè)試,驗(yàn)證精度如表2所示??梢钥闯?,U-Net模型的提取精度最高,與SegNet模型相比,IoU高出了0.95%,recall高出了0.22%,F(xiàn)1分?jǐn)?shù)高出了0.68%;與結(jié)合捷徑連接和殘差學(xué)習(xí)的LinkNet模型相比,IoU高出了0.81%,recall高出了2.47%,F(xiàn)1分?jǐn)?shù)高出了0.31%。因此,本文在U-Net模型基礎(chǔ)上加入注意力機(jī)制更符合實(shí)際應(yīng)用,對(duì)提升建筑物提取精度有更好的研究意義。
表2 常用語(yǔ)義分割模型的比較 %
2)為驗(yàn)證加入SE模塊、CBAM模塊、SK模塊后模型對(duì)建筑物的提取精度,分別進(jìn)行訓(xùn)練與測(cè)試,驗(yàn)證精度如表3所示??梢钥闯觯尤氩煌⒁饬C(jī)制后模型的提取精度均有所提升。其中,加入SE模塊與CBAM模塊較原U-Net模型在IoU上提升1.01%、0.63%,recall提升了1.77%、1.22%,F(xiàn)1分?jǐn)?shù)提升了0.59%、0.38%;加入SK模塊后提取精度提升最高,在IoU上提升了1.06%,recall提升了3.61%,F(xiàn)1分?jǐn)?shù)提升了0.6%。圖7和圖8分別展示了加入不同注意力機(jī)制后網(wǎng)絡(luò)模型的ROC曲線(receiver operating characteristic)和PR曲線(精確率和召回率的曲線),圖中左半部分是整體曲線圖,右半部分是局部放大圖。AUC表示ROC曲線下的面積,BEP表示PR曲線中精確率與準(zhǔn)確率相等處的取值,AUC與BEP的數(shù)值越大說(shuō)明模型的分類效果越好。從圖中各模型的AUC和BEP標(biāo)注值可以看出,加入注意力機(jī)制后模型的分類性能均有所提升。
表3 加入注意力機(jī)制分割模型的比較 %
圖7 引入注意力機(jī)制的U-Net模型的ROC曲線整體和局部圖
圖8 引入注意力機(jī)制的U-Net模型的PR曲線整體和局部圖
3)為驗(yàn)證數(shù)據(jù)依賴上采樣是否能準(zhǔn)確地恢復(fù)像素級(jí)的預(yù)測(cè),以及能否提高建筑物提取的精度,本文采用結(jié)合卷積核注意力機(jī)制并在解碼器端用DUpsampling代替雙線性插值構(gòu)建SD-Unet模型,同時(shí)使用相同的測(cè)試集進(jìn)行驗(yàn)證,驗(yàn)證精度如表4所示??梢钥闯?,構(gòu)建的SD-Unet模型提取精度均達(dá)到最高,相較于U-Net模型在IoU上提升了1.41%,recall提升了3.35%,F(xiàn)1分?jǐn)?shù)提升了0.9%;相較于SK-Unet模型在IoU上提升了0.35%,F(xiàn)1分?jǐn)?shù)提升了0.3%,precision提升了0.59%。SD-Unet網(wǎng)絡(luò)模型的ROC曲線與PR曲線如圖9、圖10所示,左半部分是整體曲線圖,右半部分是局部放大圖。在ROC曲圖中,SD-Unet模型的ROC曲線位于SK-Unet、U-Net模型曲線的上方,其模型效果總體優(yōu)于SK-Unet和U-Net,并且SD-Unet的AUC值最大,為0.989 6;在PR曲線圖中,SD-Unet模型的PR曲線包含SK-Unet、U-Net模型曲線,分類效果最優(yōu),且SD-Unet的BEP點(diǎn)處的值為0.826 2;從各項(xiàng)測(cè)評(píng)指標(biāo)可以看出,SD-Unet模型對(duì)建筑物的自動(dòng)化提取具有較好的魯棒性。
表4 SD-Unet、SK-Unet、U-Net模型的比較 %
圖9 U-Net、SK-Unet和SD-Unet模型的ROC曲線整體和局部圖
圖10 U-Net、SK-Unet和SD-Unet模型的PR曲線整體和局部圖
4)根據(jù)圖11顯示進(jìn)行可視化結(jié)果分析:圖11(a)中第1張影像包含了一些大型建筑物,第2張影像主要由小型建筑物組成;圖11(b)部分是對(duì)兩張?jiān)加跋襁M(jìn)行目視解譯的結(jié)果;圖11(c)~圖11(e)是常用語(yǔ)義分割模型的提取結(jié)果,與目視解譯法對(duì)比可知,在大型建筑物提取中雖然能夠提取出建筑物的大致地理位置,但建筑物邊緣提取較為粗糙,在圖中左上角位置都出現(xiàn)誤檢的現(xiàn)象;圖11(f)~圖11(i)是引入不同形式注意力機(jī)制與SD-Unet模型的提取結(jié)果,相對(duì)于常用的語(yǔ)義分割模型其誤檢問(wèn)題有明顯的減輕,且建筑物的邊緣也有明顯的改善,其中SD-Unet模型對(duì)大型建筑物提取效果最優(yōu),但未完全解決大型建筑物距離較近時(shí)出現(xiàn)的“粘連”現(xiàn)象。在小型且不規(guī)則的建筑物提取中,常用的語(yǔ)義分割模型普遍存在漏檢、誤檢的問(wèn)題,圖11(c)~圖11(e)可以明顯看出,建筑物的邊緣提取不完整,甚至有的建筑物的大致形狀也無(wú)法確定;圖11(f)~圖11(i)中SD-Unet模型提取結(jié)果最優(yōu),在確定建筑物大致形狀的基礎(chǔ)上明顯減少了漏檢、誤檢等問(wèn)題,甚至對(duì)某些小建筑物邊緣做了平滑處理。模型可視化結(jié)果上,SD-Unet網(wǎng)絡(luò)無(wú)論對(duì)大型建筑物還是小型建筑物,都有較好的提取效果,較之前算法在分類性能和分類準(zhǔn)確率上有了明顯提升。圖中紅框標(biāo)注的是提取中有明顯漏檢、誤檢、形狀差異較大以及邊緣粗糙等問(wèn)題的建筑物。
圖11 模型在WHU數(shù)據(jù)集上預(yù)測(cè)結(jié)果可視化對(duì)比
本文在遙感影像建筑物提取問(wèn)題中,引入卷積核注意力機(jī)制加強(qiáng)網(wǎng)絡(luò)對(duì)建筑物特征的學(xué)習(xí)能力,使用DUpsampling上采樣代替?zhèn)鹘y(tǒng)雙線性上采樣提高模型恢復(fù)特征圖像素級(jí)預(yù)測(cè)能力,構(gòu)建SD-Unet網(wǎng)絡(luò),在WHU建筑物數(shù)據(jù)集上和多種網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行對(duì)比,得出如下結(jié)論。
1)SD-Unet在編碼過(guò)程中根據(jù)輸入圖像自適應(yīng)調(diào)整感受野大小,同時(shí)還在解碼過(guò)程中利用DUpsampling恢復(fù)圖像尺寸,提高網(wǎng)絡(luò)對(duì)建筑物整體結(jié)構(gòu)和局部精細(xì)特征的提取。SD-Unet在WHU測(cè)試集上的實(shí)驗(yàn)結(jié)果在交并比、總體精度、精確度、召回率以及F1分?jǐn)?shù)上分別為76.25%、98.86%、86.13%、87.07%、85.85%,超過(guò)了本文引用的常用語(yǔ)義分割模型以及在U-Net網(wǎng)絡(luò)基礎(chǔ)上引入不同形式注意力機(jī)制的網(wǎng)絡(luò)。
2)在WHU數(shù)據(jù)集上,SD-Unet網(wǎng)絡(luò)在定量精度指標(biāo)上超過(guò)了其他語(yǔ)義分割模型。從影像預(yù)測(cè)結(jié)果看,常用語(yǔ)義分割模型無(wú)論對(duì)大型還是小型建筑物都能較準(zhǔn)確地提取,而引入注意力機(jī)制的模型對(duì)大型建筑物的整體結(jié)構(gòu)與小型建筑物的邊緣提取結(jié)果均有明顯提升,其中SD-Unet模型提取結(jié)果最優(yōu)。
3)本實(shí)驗(yàn)中SD-Unet在WHU數(shù)據(jù)集上取得較好的結(jié)果,但雙分支形式的SK模塊是否是模型最優(yōu)結(jié)構(gòu)以及對(duì)不同遙感影像是否有良好的泛化性,是接下來(lái)的研究重點(diǎn)。