于明洋 徐海青 張文焯 徐帥 周放亮
(山東建筑大學測繪地理信息學院,濟南 250101)
高效準確的從遙感影像中提取建筑物,對于城市發(fā)展與規(guī)劃、地圖制作與更新、地區(qū)人口預估等方面具有重要意義[1-3]。隨著衛(wèi)星和傳感器技術的不斷進步,采集的數(shù)據(jù)空間分辨率不斷提高,圖像具有更多細節(jié)特征的同時其干擾信息的冗余程度和差異也在不斷增加。如何利用高分辨率遙感影像更準確、更及時地檢測并分割出建筑物,實時掌握建筑物動態(tài)信息具有十分重要的意義[4]。
傳統(tǒng)研究主要集中在結合機器學習算法和手工特征來解決建筑提取問題[5]。文獻[6]基于高分辨率多光譜航空圖像和激光雷達數(shù)據(jù)進行空間、光譜和紋理等特征的提取,利用該多特征數(shù)據(jù)對支持向量機(Support Vector Machine,SVM)算法進行訓練,并對建筑物和非建筑物進行分類;文獻[7]結合數(shù)字地表模型(Digital Surface Model, DSM)數(shù)據(jù)來進行建筑物提取;文獻[8]使用激光雷達(Laser Radar,LiDar)和合成孔徑雷達(Synthetic Aperture Radar,SAR)數(shù)據(jù)來提取建筑物。此外,諸如boosting[9]和隨機森林[10]等優(yōu)秀的機器學習分類器也被用于建筑物的提取。這些基于手工特征的傳統(tǒng)方法通常需要先驗知識,適用于解決特定的任務,而且它們的提取效率無法保證,因此難以廣泛應用于建筑物的自動提取。
隨著計算機運算性能和算力的快速增長,利用深度學習算法進行建筑物提取取得諸多進展。文獻[11]以Unet 為基礎,設計了新的交叉熵損失函數(shù),并且引入形態(tài)學建筑物指數(shù)來進行建筑物提??;文獻[12]提出基于注意力重新加權的RFU-Net,在融合不同特征時通過注意力機制彌合特征之間的語義差距,并在三個公開航空影像數(shù)據(jù)集上驗證了模型的改進性能;文獻[13]等基于雙線性插值上采樣和多尺度特征組合提出一種多尺度建筑物提取網絡,以解決語義分割網絡中的連續(xù)下采樣會損失特征中的細節(jié)信息,導致提取結果邊緣模糊的問題;文獻[14]同時使用膨脹卷積與金字塔池化來進行建筑物提取;文獻[15]使用雙注意力機制,并對比了不同的連接方式來進行建筑物提取。諸多學者針對建筑物語義分割做了相關研究,但大部分沒有基于圖像的高級特征對模型進行優(yōu)化改進,圖像高級特征的利用程度不夠,直接影響到部分建筑的提取效果。
與許多現(xiàn)存方法不同,本文針對在建筑物提取任務中深層語義特征利用程度不夠充分以及裁剪后圖像邊緣的建筑分割易混淆的問題,設計了一種新的深度學習建筑物提取網絡ASCP-Net。模型先經過ASPP 模塊在多個尺度上進行高級特征提取,再通過空間與通道注意力機制選擇性地融合特定位置和通道中更有用的特征,進一步加強對圖像高級特征的利用。本文方法可以同時維持模型對淺層特征和深層多尺度特征的表征能力,保證對不同尺度建筑物提取的完整性;同時,從空間和通道兩種維度表示不同的語義特征,提升對影像邊緣不完整建筑物的分割精度。最后,與五種經典算法進行對比,證明我們的方法可以有效改善提取過程中出現(xiàn)的漏提現(xiàn)象,提升建筑物的整體分割精度。
本文提出網絡的總體框架如圖1 所示??斩纯臻g與通道感知網絡(ASCP-Net)是一種端到端的訓練模型,整體框架分為編碼網絡和解碼網絡。編碼器部分通過深度卷積神經網絡(Deep Convolutional Neural Network, DCNN)+ 空洞空間金子塔池化(Atrous Spatial Pyramid Pooling, ASPP)+ 空間與通道注意力(Spatial and Channel Attention, SCA)進行影像特征提取,先在DCNN 中通過設置不同的空洞卷積擴張率得到低層特征圖和高層特征圖,高層特征經過ASPP 進行多尺度特征提取,更好地保留影像中的語義信息; 再經過SCA 網絡自適應地將位置上相似的特征進行關聯(lián),同時選擇性地強調相互依賴的通道圖;最后將兩個注意力模塊的輸出相加,以進一步改進特征表示,低層特征與經過特征增強的高層特征將一起輸入到解碼器部分。解碼網絡負責對編碼信息進行解碼,恢復特征圖的語義特征信息。高層特征經過4 倍雙線性內插上采樣再與經過1×1 卷積運算后的低層特征進行融合,聚合不同尺度的語義特征,同時避免出現(xiàn)梯度消失問題。通過上采樣將輸出結果分為兩類:建筑物和非建筑物。
圖1 模型整體架構Fig.1 Overall architecture of the model
DCNN 是在傳統(tǒng)CNN 的基礎上通過重復堆疊多個卷積層來實現(xiàn)的一種網絡結構,通過增加神經網絡的深度來直接影響模型的信息提取能力。本文使用深層網絡模型Xception[16]來分別提取圖像的低級特征和高級特征,其內部主要結構為殘差卷積神經網絡。ResNet[17]由何愷明等人于2015 年提出,它通過建立跳躍連接在很大程度上解決了梯度消失的問題,從而可以訓練到更深層的網絡,ResNet 的殘差計算方法如式(1)
式中xk-1為第k-1 層的輸出;L表示對上一層的輸入圖進行卷積、歸一化等操作;xk為第k層輸出的結果;ResNet 的殘差結構如圖2(a)所示。
圖2 殘差網絡和 ASPP 的結構Fig.2 Structure of the residual network and ASPP
ASPP 最開始在Deeplab V2 中提出,它將空洞卷積與金字塔池化(Spatial Pyramid Pooling,SPP)進行結合[18]。SPP 的核心思想是利用多個不同尺度的池化層進行特征提取并融合成一個尺度統(tǒng)一的向量輸入到全連接層,以解決池化層產生的不同輸出導致全連接層無法訓練的問題。如圖2(b)所示,對于給定的輸入,ASPP 用不同擴張率的空洞卷積進行并行采樣,包括一個1×1 的卷積層,多個不同擴張率的3×3 的卷積層以及一個池化層,池化后的特征信息經過1×1 的卷積和上采樣將圖像尺寸恢復至預期值,最后將得到的所有結果拼接來擴大通道數(shù),再通過 1×1的卷積來將通道數(shù)降低到預期值進行輸出。在本文中,輸入為上一步深度神經網絡提取出的高級語義信息,經過ASPP 進行多尺度特征提取,從而有效聚合多個不同尺度的圖像高級語義特征。
SCA 模塊[19]通過加入通道注意力機制和位置注意力機制進一步利用網絡中的多種特征信息。位置注意力模塊與特征圖中哪些位置更為重要相關聯(lián),即對應原始圖像中哪些感受野更為重要;通道注意力模塊與特征圖中哪些通道更為重要相關聯(lián),它以一種自適應的方式讓網絡更好的學習輸入影像中的重要信息,從而提高模型的特征表示能力。在本文中,輸入為經過ASPP 處理的圖像高級語義特征,通過空間注意力模塊和通道注意力模塊分別處理后將兩者得到的結果進行累加;再經過一個 1 ×1的卷積后將最終結果輸入到解碼器中。
1.3.1 通道注意力模塊
通道注意力模塊通過計算輸入圖像各通道的權重來選擇性的關注信息更為豐富的通道,提高特征的表示能力。如圖3(a)所示,原始輸入A的形狀為C×H×W(C、H、W分別表示輸入的通道數(shù)、高度和寬度),先對其進行變形、轉換得到大小為K×C(K=H×W)的矩陣,再對A進行變形得到C×K(K=H×W)的矩陣,將兩個矩陣相乘再經過Softmax 得到形狀為C×C的權重矩陣N;將N與變形后的原始輸入A相乘得到形狀為C×K(K=H×W)的矩陣,最后將得到的矩陣變形后與原始的A進行累加得到最終結果E=C×H×W。
圖3 通道與位置注意力模塊Fig.3 Channel and position attention modules
1.3.2 位置注意力模塊
位置注意力模塊重點關注圖像關鍵信息更豐富的空間區(qū)域并賦予它們更大的權重。如圖3(b)所示,位置注意力機制與通道注意力機制類似,不同之處在于不是對原始輸入A本身進行變形轉換,而是先通過神經網絡對A進行處理得到形狀相似的矩陣B、O、D,再分別對B、O、D進行處理。B通過變形、轉換之后形狀為K×C(K=H×W),再與變形后的O矩陣進行相乘,經過Softmax 處理后得到形狀為K×K(K=H×W)的權重矩陣M;再對矩陣D進行變形,得到形狀為C×K的矩陣,將該矩陣與M進行相乘得到結果,再將變形后的結果與原始輸入A進行相加得到最終輸出F=C×H×W。
解碼器的主要輸入為圖像經過DCNN 處理得到淺層特征以及經過雙重注意力機制處理后的深層特征。淺層特征通過1×1 的卷積將通道數(shù)縮減為預期值,深層特征通過上采樣調整大小后將得到的兩種特征進行拼接;再使用一個3×3 的卷積對拼接結果進行處理,通過一個上采樣把特征圖恢復到原始尺寸大小進行最終輸出。
本研究采用WHU 建筑數(shù)據(jù)集(WHU Building Dataset),該數(shù)據(jù)集采集于新西蘭克賴斯特徹奇,包括8 189 幅大小為512 像素×512 像素的遙感影像,其中訓練集、驗證集和測試集的樣本數(shù)量分別為4 910、1 400 和1 879。驗證集影像空間分辨率為0.3 m;同時本研究對原始影像進行數(shù)據(jù)增強,數(shù)據(jù)增強主要通過對樣本進行變形處理來增加訓練樣本,避免模型出現(xiàn)過擬合現(xiàn)象[20]。如圖4 所示,本文通過對樣本進行垂直、水平鏡像翻轉以及不同角度的旋轉來實現(xiàn)圖像數(shù)據(jù)增強。
圖4 經過數(shù)據(jù)增強的影像與標簽Fig.4 Data enhanced images and labels
本研究基于PyTorch 深度學習框架,使用TorchVision、Scikit-Image、Matplotlib 等開源python 庫進行影像處理,搭配NVIDIA GeForce GTX 3070 Ti 顯卡進行模型訓練,顯存為8 GB,使用CUDA11.0 加速運算,同時對比實驗了五種經典的語義分割模型。實驗過程中,選用二元交叉熵作為損失函數(shù),優(yōu)化器的初始學習率設置為1×10-4。為了避免過擬合,在所有卷積中引入正則化操作,權重衰減為1×10-4,模型訓練次數(shù)設置為150;為了克服GPU 內存的限制,批量大小設為8。
本研究采用整體精度OA、召回率Recall、準確率Precision、F1 評分、交并比IoU 和卡帕系數(shù)Kappa 六個指標完成精度評價。部分指標的定義見式(2) ~式(5):
式中 TP 表示被正確分類的正類像素數(shù)目;TN 表示被正確分類的負類像素數(shù)目;FP 表示被錯分為正類的像素數(shù)目;FN 表示被錯分為負類的像素數(shù)目;Po表示總體分類精度;Pe表示偶然一致性誤差;a1,a2,…,at分別表示每一類的真實樣本總個數(shù);b1,b2,…,bt分別表示每一類的預測樣本總個數(shù);t為樣本的類型數(shù);n為樣本總數(shù)。
本文對比實驗了五種經典的語義分割模型,包括DANet[21]、FCN8s[22]、SegNet[23]、Unet[24]和DeepLabv3+[25]。如圖5 所示,紅色區(qū)域表示各方法相對真實標簽多提取的部分,藍色區(qū)域表示各方法相對真實標簽未提取的部分。從圖中可以看出,除了本文方法外,其他方法都存在較多錯誤識別的區(qū)域。總體來說,DANet 表現(xiàn)最差,檢測到的建筑物邊界不清,存在目標預測不完整以及多分的問題。FCN8s、SegNet、Unet、DeepLabv3+和ASCP-Net 在測試數(shù)據(jù)上建筑物邊緣的平滑性較好,但相比其他幾種方法,ASCP-Net 劃分的區(qū)域中錯分點更少。同時,ASCP-Net 模型提取出的建筑物具有準確的輪廓以及較為完整的內部結構,與實驗的其他模型相比提取效果更好。
圖5 不同模型的實驗結果對比Fig.5 Comparison of experimental results of different models
受計算機內存資源和硬件的影響,無法將獲取的高分辨率遙感影像直接輸入到神經網絡模型中,需要將高分影像裁剪成需要的尺寸大小,但同一目標可能會被裁剪到不同圖像的邊緣位置,這會破壞邊緣目標的紋理特征,為準確提取邊緣地物帶來挑戰(zhàn)。如圖6 所示,黃色線框表示不同模型對邊緣建筑的提取效果,對于FCN8s、Unet、DeepLabv3+等網絡,所提取的邊緣建筑均有漏分、錯分等現(xiàn)象,主要原因是邊緣地物的部分特征被破壞,網絡無法進行準確提取。而本文所提出的方法能夠較準確提取出圖像邊緣被分割的地物,原因是該方法通過加入ASPP 有效的利用了圖像的高級語義信息,同時加入雙注意力機制來精確捕獲邊緣地物像素之間的位置依賴關系和通道依賴關系,增強利用了邊緣地物的特征語義信息,使得我們的方法能夠推斷出邊緣不完整地物的位置,同時實現(xiàn)更準確的邊緣地物提取,有效改善了其他方法對邊緣地物提取不夠準確的缺陷。
圖6 不同模型對圖像邊緣建筑的分割效果對比Fig.6 Comparison of segmentation effect of different models on image edge buildings
對于一些建筑區(qū)域的提取,本文方法實現(xiàn)了較好的效果,而FCN8s、Unet、DeepLabv3+等模型均出現(xiàn)了較多的漏分區(qū)域。如圖7 所示,黃色線框表示一定范圍內各方法漏提的區(qū)域分布。從圖像上來看,該區(qū)域的建筑表面與多種地物相鄰,包括綠化植物、硬質地面等,這為精確提取該類建筑帶來了挑戰(zhàn)。經典語義分割網絡FCN8s 和Unet 均出現(xiàn)了一些漏分區(qū)域,主要原因是網絡模型未充分利用圖像的高級語義特征,并且所劃分的像素之間并不具備多種依賴關系。DANet 雖然加入了雙注意力機制,但是對于圖像高級特征的挖掘還不夠充分。DeepLabv3+未加入注意力機制,無法充分建立相關像素點之間的各種依賴,最終導致無法有效利用地物的特征語義信息。本文提出的方法從多個尺度利用圖像的高級特征,并且通過雙通道注意力機制進一步加強了高級特征維度上像素之間的依賴,相比其他方法,在該區(qū)域實現(xiàn)了更好的提取效果。
圖7 不同模型漏提的區(qū)域分布對比示意圖Fig.7 Comparison figure of regional distribution omitted from different models
CNN 對圖像進行卷積操作時,所處理的圖像特征范圍都是在一定區(qū)域內的,或者說是局部的。通過確定局部區(qū)域內每個像素的類別,網絡實現(xiàn)對不同目標地物的提取和分類。但當提取大尺度地物時,對局部特征的提取并無法代表整個目標,提取的不連貫的細部特征會造成大尺度地物內部的不一致性,使得整個區(qū)域的分割不完整。本文提出的方法通過加入ASPP 模塊和雙注意力機制,能夠有效聚合圖像相關區(qū)域的上下文依賴信息,將圖像位置不同的局部特征信息聯(lián)系起來,保證了大尺度區(qū)域提取的內部一致性。如圖8 所示,黃色線框表示一些方法所提區(qū)域內部存在的空洞點,紅色線框表示未能進行有效識別的區(qū)域。本文方法加強了不同細節(jié)特征之間的聯(lián)系,可保證所提取目標內部的完整性。雖然DeepLabv3+模型也避免了該區(qū)域的內部空洞現(xiàn)象,但是對于一些稍大的邊緣地物的提取,其內部也容易出現(xiàn)不連續(xù)的空洞點。此外,對于原始影像的紅色線框內區(qū)域,所有方法都未能實現(xiàn)準確識別,主要原因是這種類似硬質地面的紋理可能會被識別為非建筑物特征,而實際上它們也代表一些低層建筑的屋頂部分或者與主體建筑相鄰的微小建筑。
圖8 大尺度建筑的提取效果對比Fig.8 Comparison of the extraction effect of large-scale buildings
不同模型對建筑物提取的定量結果如表1 所示。
表1 不同模型的精度評估Tab.1 Accuracy evaluation of different models
DANet 幾乎在所有指標上的表現(xiàn)最差,F(xiàn)CN8s 模型在Precision 參數(shù)指標上的表現(xiàn)最差,本文的模型在所有指標上都優(yōu)于其他模型。交并比指標比FCN8s 模型提升了9.1 個百分點,比DANet 模型提升了22.5 個百分點,比SegNet 模型提升了10.6 個百分點,比UNet 模型提升了6.9 個百分點,比DeepLabv3+模型提升了3.1 個百分點;Kappa 值比DANet 提升了14.9 個百分點,比Unet 提升了2.4 個百分點,比DeepLabv3+提升了1.6 個百分點,總體提升效果顯著。定性分析和定量評價結果表明,ASCP-Net 在建筑物提取任務中具有更為優(yōu)異的綜合性能。
為有效驗證各個模塊對最終實驗結果的影響,本文在WHU Building Dataset 數(shù)據(jù)集上進行了消融實驗。具體結果如表2 所示。
表2 各個模塊對實驗結果的影響Tab.2 Influence of each module on the experimental results
消融研究以Xception 網絡為基礎,依次增加ASPP 模塊、通道注意力模塊和位置注意力模塊進行實驗。ASPP 模塊可以提升網絡對多尺度特征的提取能力,同時一定程度上提高了網絡的泛化能力;位置注意力模塊選擇關注圖像關鍵信息更豐富的空間區(qū)域,通道注意力模塊可以重點關注信息更為豐富的影像通道,它們都可以進一步提升網絡對高級特征的表示能力。由表2 可以得出,通過加入ASPP 模塊,IoU指標和Kappa 系數(shù)分別提升了2.5 個百分點和3.8 個百分點;同時,加入通道注意力模塊和位置注意力模塊會進一步提升網絡的精度,值得注意的是,只加入位置注意力模塊(方案4)相比只加入通道注意力模塊(方案3)帶來的精度提升更明顯。因此,在建筑物提取任務中,位置信息要比通道信息更為重要。以上說明了各個模塊的組合在ASCP-Net 中均產生了積極作用,有助于模型實現(xiàn)更精確的建筑物提取任務。
針對現(xiàn)有相關研究很少基于影像的高級語義特征對模型進行優(yōu)化改進,本文提出一種新的深度學習模型架構ASCP-Net,可用于高分辨率遙感影像建筑物較精準的自動提取,研究選用WHU Building Dataset 為數(shù)據(jù)源,采用融合了ASPP 與SCA 的非對稱編解碼結構模型進行建筑物提取,并與FCN8s、UNet、DeepLabv3+等經典語義分割模型方法進行實驗對比,結果表明:
1)本文所提出的ASCP-Net 模型對WHU 數(shù)據(jù)集的總體準確率(97.4%)、精確度(94.9%)、召回率(94.3%)、F1 評分(94.6%)、IoU(89.8%)、Kappa 值(0.787)比其他方法要高,IoU 指標相比其他方法有顯著提高。ASCP-Net 模型具有相對良好的性能,在建筑物提取中具有潛在的應用前景;
2)相比其他模型,本文的方法在對圖像邊緣不完整建筑的分割中更具優(yōu)勢,提取的邊緣建筑更為完整;
3)對于一些小地物的提取,本文方法還存在一些不足。部分獨立的微小建筑或者與主體建筑相鄰的微小部分容易被漏分。
地物背景信息的復雜多樣性為建筑物提取工作帶來困難,小地物的精確提取一直是語義分割任務中需要解決的難題。今后研究中將考慮在模型的解碼器部分增加更多的低層特征來源,并進一步與其他算法相結合,以提高小地物的提取精度。