張亞寧 張春亢 王朝 游晨宇
融合殘差和卷積注意力機(jī)制的U-Net網(wǎng)絡(luò)高分影像道路提取
張亞寧 張春亢 王朝 游晨宇
(貴州大學(xué)礦業(yè)學(xué)院,貴陽 550025)
針對在高分辨率遙感影像中因道路特征模糊或“同譜異物”現(xiàn)象影響,出現(xiàn)局部道路提取缺失和提取錯(cuò)誤的問題,提出一種融合殘差和卷積注意力機(jī)制的U-Net網(wǎng)絡(luò)高分影像道路提取方法。首先,以U-Net網(wǎng)絡(luò)為基礎(chǔ),加入改進(jìn)的殘差模塊緩解網(wǎng)絡(luò)訓(xùn)練過程中易出現(xiàn)的網(wǎng)絡(luò)性能退化問題;然后,嵌入卷積注意力機(jī)制模塊加強(qiáng)對道路細(xì)節(jié)特征的深度表征能力;最后通過幾何變換對數(shù)據(jù)集進(jìn)行合理擴(kuò)充,增強(qiáng)網(wǎng)絡(luò)泛化能力。在公開數(shù)據(jù)集馬塞諸塞州數(shù)據(jù)集(Massachusetts Roads Dataset)和DeepGlobe道路數(shù)據(jù)集上對模型進(jìn)行測試,實(shí)驗(yàn)結(jié)果表明:文章提出的方法在兩個(gè)數(shù)據(jù)集上整體精度分別達(dá)到97.02%和98.26%,相比其他模型具有更好的提取效果,對道路特征的深度表征性更強(qiáng),抗干擾性較好,有效改善了道路提取中出現(xiàn)的錯(cuò)提、漏提現(xiàn)象,顯著提高了道路提取的精度和完整性。
道路提取 殘差模塊 卷積注意力機(jī)制 高分辨率遙感影像
道路作為重要的基礎(chǔ)地理信息要素,其分布錯(cuò)綜復(fù)雜,建設(shè)范圍較廣,及時(shí)更新道路分布信息是地理信息數(shù)據(jù)庫建設(shè)的重要基礎(chǔ),因此從高分辨率遙感影像中實(shí)現(xiàn)對道路的精準(zhǔn)提取成為近些年國內(nèi)外學(xué)者的研究熱點(diǎn)。
以道路提取層次的推進(jìn)為分類依據(jù),一般將道路提取方法分為三類[1]:1)基于像元的道路提取方法。該類方法主要利用道路的波譜特征對道路信息進(jìn)行提取。如羅慶洲等將道路的光譜特征與幾何特征相結(jié)合實(shí)現(xiàn)了對道路的提取[2];羅巍等利用角度紋理特征結(jié)合最小方差方向?qū)Τ鞘兄鞲傻缆愤M(jìn)行提取[3];Sghaier等通過基于小束變換的紋理分析和多尺度推理有效提取出道路[4]。該類方法對道路分布稀疏、背景單一、圖像清晰的高分辨率遙感影像適用性較強(qiáng),但在道路特征不明顯的復(fù)雜場景下或受其他地物干擾情況下提取精度較低。2)基于對象的道路提取方法。該類方法主要將遙感圖像中的道路視為整體,對其進(jìn)行小面積分割,然后以小面積為單位再進(jìn)行道路提取。如陳杰等提出結(jié)合尺度空間思想利用分水嶺算法和形態(tài)學(xué)的方法對道路信息進(jìn)行提取[5];Guo等將形狀特征與構(gòu)造的隨機(jī)森林標(biāo)記學(xué)習(xí)分類器得到的后驗(yàn)概率相結(jié)合,利用張量投票法得到道路中心線[6];林鵬等提出利用復(fù)合向量機(jī)結(jié)合形態(tài)學(xué)進(jìn)行城鎮(zhèn)道路自動(dòng)提取[7];汪閩等提出結(jié)合馬爾科夫隨機(jī)場模型結(jié)合支持向量機(jī)進(jìn)行道路網(wǎng)提取[8]。該類方法適合于背景地物多樣且特征明顯的類型單一化道路的遙感圖像,而對特征信息相似的各類地物易發(fā)生混分或粘連現(xiàn)象。3)基于深度學(xué)習(xí)的道路提取方法。該類方法具有較強(qiáng)的學(xué)習(xí)能力能夠高效地表達(dá)地物特征,有效辨別出道路區(qū)域和非道路區(qū)域。如Zhou等提出以LinkNet網(wǎng)絡(luò)[9]為主干結(jié)合擴(kuò)張卷積層的方法對道路信息進(jìn)行提取[10];Lin等提出改進(jìn)的深度殘差卷積神經(jīng)網(wǎng)絡(luò)模型(RDRCNN),其結(jié)合剩余連接單元(RCU)和擴(kuò)展感知單元(DPU)來獲取道路信息[11];馬天浩等提出以多尺度特征融合膨脹卷積神經(jīng)網(wǎng)絡(luò)的方法獲得道路信息[12]。該類方法適合于背景地物類型多樣,特征相似且道路分布復(fù)雜的遙感影像,但其提取結(jié)果仍會(huì)出現(xiàn)道路斷裂和毛刺現(xiàn)象,精確度有待于進(jìn)一步提升。
為了進(jìn)一步提升高分辨率遙感影像道路提取和分割的精度,近年來,眾多學(xué)者從深度學(xué)習(xí)角度出發(fā),不斷探究和改進(jìn)模型結(jié)構(gòu),其中U-Net網(wǎng)絡(luò)[13]結(jié)構(gòu)融合了深層特征的語義信息和底層的位置信息,可以在淺層特征和深層特征之間自由選擇,對語義分割具有較強(qiáng)的優(yōu)勢,在圖像分割領(lǐng)域被廣泛應(yīng)用。如Ren等提出一種融合膠囊表征和注意力機(jī)制的雙注意膠囊U-Net(DA-CapsUNet)對道路區(qū)域進(jìn)行提取[14];孔嘉嫄等將U-Net網(wǎng)絡(luò)結(jié)構(gòu)加深至七層,加入多維度監(jiān)督機(jī)制(MD-MECA)達(dá)到優(yōu)化目的,并利用激活失活模塊(DropBlock)和批歸一化(Batch Normalization)層,有效地解決了道路提取中出現(xiàn)的過擬合問題[15]。但以上方法在道路邊緣地物特征模糊處仍會(huì)發(fā)生提取缺失的現(xiàn)象。
本文針對道路提取過程中因道路特征模糊或“同譜異物”現(xiàn)象影響,易出現(xiàn)的局部道路提取缺失和提取錯(cuò)誤等問題,提出一種融合殘差和卷積注意力機(jī)制的U-Net網(wǎng)絡(luò)高分影像道路提取方法。該方法以U-Net網(wǎng)絡(luò)模型為基礎(chǔ)框架,加入改進(jìn)的殘差模塊即將原本殘差模塊中的Relu激活函數(shù)[16]改為Mish激活函數(shù)[17]緩減梯度消失,防止隨著網(wǎng)絡(luò)層數(shù)增加易產(chǎn)生的性能退化問題,并嵌入卷積注意力機(jī)制加強(qiáng)對道路細(xì)節(jié)特征的深度表征能力,抑制非道路信息。改進(jìn)后的模型可以更深層次地提取到道路細(xì)節(jié)特征,無論對淺層紋理特征還是多尺度特征都有更精確化地表達(dá),最后將本文算法與FCN[18]、PSPNet[19]、Deeplabv3+[20]、CE-Net[21]和U-Net網(wǎng)絡(luò)算法進(jìn)行比較,有效地改善了提取中易出現(xiàn)的錯(cuò)提、漏提現(xiàn)象。
U-Net網(wǎng)絡(luò)是一款專為生物醫(yī)學(xué)圖像分割而開發(fā)的卷積神經(jīng)網(wǎng)絡(luò),采用經(jīng)典的編碼器-解碼器結(jié)構(gòu)和跳躍連接方式,如圖1所示。U-Net網(wǎng)絡(luò)由一個(gè)獲取全局信息的收縮編碼路徑和一個(gè)與其對稱的用于精確定位的擴(kuò)展解碼路徑組成,可以將淺層的定位信息和高層的像素分類判定信息相融合,從而得到更佳的定位效果。收縮路徑采用典型的卷積神經(jīng)網(wǎng)絡(luò),每個(gè)特征尺度采用3×3卷積運(yùn)算,然后用2×2的最大池化做降采樣(步長為2),每次降采樣的特征通道數(shù)都會(huì)增加一倍。擴(kuò)展路徑采用2×2的反卷積,每次反卷積的特征通道數(shù)減少一半,與同尺度的降采樣部分的特征圖直接拼接,然后再經(jīng)過兩個(gè)3×3的卷積層,最后通過1×1卷積運(yùn)算完成操作,將特征圖映射到實(shí)際需要的分類數(shù)目的通道數(shù),進(jìn)而達(dá)到最佳的分割結(jié)果。
圖1 U-Net網(wǎng)絡(luò)結(jié)構(gòu)
在深度學(xué)習(xí)訓(xùn)練過程中隨著網(wǎng)絡(luò)深度的增加,訓(xùn)練難度逐漸變大,易出現(xiàn)網(wǎng)絡(luò)性能退化問題。U-Net網(wǎng)絡(luò)在壓縮降維和擴(kuò)展路徑過程中,通過多次復(fù)雜的連續(xù)卷積和池化運(yùn)算,像素間關(guān)系的計(jì)算難度增大,網(wǎng)絡(luò)承載信息量能力不足導(dǎo)致網(wǎng)絡(luò)抖動(dòng),精度容易達(dá)到飽和,產(chǎn)生網(wǎng)絡(luò)性能退化問題,訓(xùn)練精度也會(huì)隨之迅速下降。He等針對網(wǎng)絡(luò)模型層數(shù)加深時(shí),堆疊層引起的網(wǎng)絡(luò)性能退化問題,提出了殘差結(jié)構(gòu)模塊[22],如圖2所示,圖2中表示輸入值,()表示殘差值,()+表示學(xué)習(xí)到的特征值,該結(jié)構(gòu)通過“便捷連接”有效預(yù)防梯度消失或梯度爆炸現(xiàn)象的產(chǎn)生,可加快網(wǎng)絡(luò)的收斂速度。通常為了使網(wǎng)絡(luò)模型能夠?qū)W習(xí)到更深層次圖像特征,網(wǎng)絡(luò)層數(shù)在逐漸加深過程中會(huì)產(chǎn)生冗余層,通過殘差學(xué)習(xí)結(jié)構(gòu)使殘差值()=0讓該層網(wǎng)絡(luò)恒等映射到上一層的輸入,可規(guī)避網(wǎng)絡(luò)性能退化問題,并且不會(huì)增加模型的參數(shù)復(fù)雜度,避免模型在學(xué)習(xí)過程中訓(xùn)練誤差變大,特征信息提取能力下降這一問題。
激活函數(shù)的主要作用是完成對傳輸數(shù)據(jù)的非線性變換,提高線性模型的表達(dá)能力,解決模型分類能力不足的問題。在殘差結(jié)構(gòu)模塊中,當(dāng)負(fù)梯度流經(jīng)過ReLU激活函數(shù)時(shí),輸出值為0,產(chǎn)生梯度消失,降低模型對數(shù)據(jù)正確擬合能力或訓(xùn)練能力。為了解決梯度消失問題,本文根據(jù)YOLO v4算法[23]主干的結(jié)構(gòu)組成,將殘差網(wǎng)絡(luò)中的ReLU函數(shù)替換成Mish函數(shù),兩種激活函數(shù)的比較如圖3所示,圖3中表示輸入值,表示對應(yīng)的輸出值。Mish函數(shù)具有連續(xù)可導(dǎo)性,是一種光滑的自正則非單調(diào)激活函數(shù),其非單調(diào)性有助于保持小的負(fù)值,從而穩(wěn)定網(wǎng)絡(luò)梯度流,緩減梯度消失問題,穩(wěn)定結(jié)構(gòu);無窮連續(xù)性和光滑性使其具有較好的泛化能力和有效優(yōu)化能力。
圖2 殘差結(jié)構(gòu)
圖3 激活函數(shù)比較
圖4 改進(jìn)的殘差結(jié)構(gòu)
改進(jìn)后的殘差模塊如圖4所示,由3×3卷積層、數(shù)據(jù)批歸一化層(BN)以及Mish激活函數(shù)組成。
注意力機(jī)制核心作用是有效捕捉圖像中重點(diǎn)區(qū)域細(xì)節(jié)特征,強(qiáng)化關(guān)鍵特征信息量的語義表達(dá),忽略無關(guān)特征。在U-Net網(wǎng)絡(luò)圖像處理傳輸過程中,嵌入卷積注意力機(jī)制(CBAM)[24]模塊可自適應(yīng)地細(xì)化跳躍連接階段的特征映射,增強(qiáng)對編碼區(qū)特征信息傳輸過程中淺層道路細(xì)節(jié)紋理特征的提取能力,有利于模型對道路特征信息的深度表征,而對其他特征信息進(jìn)行抑制,使解碼區(qū)對道路特征信息的提取具有更強(qiáng)的針對性,在傳遞到解碼區(qū)的過程中,可以更好地完成對道路邊緣處細(xì)小道路的分割細(xì)化能力。CBAM模塊的特征學(xué)習(xí)過程如圖5所示,主要通過通道注意力機(jī)制和空間注意力機(jī)制兩個(gè)子模塊協(xié)同作用,幫助信息在網(wǎng)絡(luò)中流動(dòng),完成整個(gè)學(xué)習(xí)過程。
圖5 卷積注意力機(jī)制
式中 表示Sigmoid激活函數(shù);;;r表示衰減率;和分別對應(yīng)經(jīng)過多層感知機(jī)的權(quán)重。
式中 AvgPool表示平均池化;Maxpool表示最大池化;表示濾波器大小為的卷積運(yùn)算。
本文實(shí)驗(yàn)的網(wǎng)絡(luò)結(jié)構(gòu)如圖8所示,在U-Net網(wǎng)絡(luò)編碼區(qū)和解碼區(qū)每兩個(gè)相鄰的3×3卷積層中間加入改進(jìn)的殘差模塊,可避免卷積層連續(xù)堆疊的復(fù)雜計(jì)算造成像素區(qū)域信息丟失,同時(shí)增加網(wǎng)絡(luò)深度,使其可以學(xué)習(xí)到更多深層次的特征信息,有效防止訓(xùn)練過程中隨著網(wǎng)絡(luò)層數(shù)深度的增加,精度達(dá)到飽和,引起的網(wǎng)絡(luò)性能退化的問題。為使道路邊緣細(xì)節(jié)特征提取盡量完整,在跳躍連接階段嵌入卷積注意力機(jī)制模塊可以將編碼區(qū)的淺層道路紋理特征進(jìn)一步準(zhǔn)確分割,實(shí)現(xiàn)道路特征信息的深度表征能力,有效抑制非道路信息的表達(dá)。
圖8 融合后整體網(wǎng)絡(luò)結(jié)構(gòu)
本文采用的實(shí)驗(yàn)數(shù)據(jù)集為公開數(shù)據(jù)集馬薩諸塞州道路數(shù)據(jù)集(Massachusetts Roads Dataset)和DeepGlobe衛(wèi)星數(shù)據(jù)集[25]。Massachusetts Roads數(shù)據(jù)集中包含了波士頓地區(qū)的城市、鄉(xiāng)村、城鄉(xiāng)結(jié)合部等地區(qū)航空遙感影像數(shù)據(jù)。數(shù)據(jù)集中的遙感影像空間分辨率為1 m,每張影像尺寸大小為1 500像素×1 500像素,總覆蓋面積超過2 600 km2,共包含1 171張紅綠藍(lán)(RGB)三通道影像數(shù)據(jù)及對應(yīng)的標(biāo)簽數(shù)據(jù),其中1 108張影像及其對應(yīng)的標(biāo)簽數(shù)據(jù)用于訓(xùn)練,49張影像及其對應(yīng)的標(biāo)簽數(shù)據(jù)用于測試,14張影像及其對應(yīng)的標(biāo)簽數(shù)據(jù)用于驗(yàn)證。
DeepGlobe衛(wèi)星數(shù)據(jù)集共包含6 226張訓(xùn)練樣本及其對應(yīng)的標(biāo)簽數(shù)據(jù),影像的地面分辨率為0.5 m,每張影像尺寸大小為1 024像素×1 024像素,將其按照8:1:1進(jìn)行隨機(jī)劃分,其中訓(xùn)練集由4 980張影像及其對應(yīng)的標(biāo)簽數(shù)據(jù)組成,測試集和驗(yàn)證集分別由623張影像及其對應(yīng)標(biāo)簽數(shù)據(jù)組成。
考慮到實(shí)驗(yàn)硬件條件的現(xiàn)實(shí)情況,本文將數(shù)據(jù)集中所有影像縮放為512像素×512像素大小。為了防止模型發(fā)生過擬合,提高網(wǎng)絡(luò)泛化能力,使訓(xùn)練數(shù)據(jù)盡可能的接近測試數(shù)據(jù),從而提高測試精度,本文用幾何變換方法實(shí)現(xiàn)對訓(xùn)練的數(shù)據(jù)集進(jìn)行擴(kuò)充處理。圖9為部分?jǐn)U充數(shù)據(jù)。
圖9 擴(kuò)充訓(xùn)練數(shù)據(jù)
同時(shí)為了探究影像擴(kuò)充前后的數(shù)據(jù)集對本文提出的實(shí)驗(yàn)方法的影響,分別將擴(kuò)充前后的兩個(gè)數(shù)據(jù)集加入到實(shí)驗(yàn)?zāi)P椭杏?xùn)練,實(shí)驗(yàn)結(jié)果如圖10所示。
圖10 擴(kuò)充實(shí)驗(yàn)對比
實(shí)驗(yàn)結(jié)果表明,通過幾何變換進(jìn)行數(shù)據(jù)集擴(kuò)充后道路提取效果提升明顯。影像A整體區(qū)域中,在部分建筑物密集區(qū),當(dāng)數(shù)據(jù)集未擴(kuò)充時(shí)存在將建筑物誤分為道路的現(xiàn)象,數(shù)據(jù)集擴(kuò)充后該現(xiàn)象明顯減少;影像B整體區(qū)域中,當(dāng)?shù)缆诽卣鞑幻黠@時(shí),數(shù)據(jù)集未擴(kuò)充時(shí)出現(xiàn)道路斷裂情況,而數(shù)據(jù)集擴(kuò)充后該現(xiàn)象得到有效緩減。結(jié)合以上實(shí)驗(yàn)現(xiàn)象說明本實(shí)驗(yàn)擴(kuò)充數(shù)據(jù)集后網(wǎng)絡(luò)模型的泛化能力增強(qiáng),道路提取結(jié)果有顯著提升。
本次實(shí)驗(yàn)為Ubuntu20.04系統(tǒng)平臺,采用Python程序語言,基于Pytorch1.9.0深度學(xué)習(xí)框架,運(yùn)行環(huán)境為CPU Intel Core i9-990 0k,顯卡型號為NVIDIA RTX 208 0T i 11Gb。本文在該計(jì)算機(jī)硬件條件允許下,經(jīng)過多次反復(fù)的測試實(shí)驗(yàn)后,得到最佳的參數(shù)設(shè)置如下:模型基本學(xué)習(xí)率(base_lr)設(shè)置為0.001,迭代輪數(shù)(epoch)設(shè)置為30,訓(xùn)練集和驗(yàn)證集的批大小(batch size)均設(shè)置為4。
為了評估本文提出的道路提取方法的有效性及準(zhǔn)確性,實(shí)驗(yàn)從整體精度OA(Overall Accuracy)、準(zhǔn)確率Precision、召回率Recall、1值[26]等4個(gè)指標(biāo)對道路提取結(jié)果進(jìn)行評定。定義見下式
為了證明本文方法的有效性和優(yōu)越性,在Massachusetts Roads數(shù)據(jù)集上,分別訓(xùn)練經(jīng)典語義分割模型FCN、PSPNet、Deeplabv3+、CE-Net、U-Net與本文提出的模型,通過整體精度、準(zhǔn)確率、召回率、1值等四項(xiàng)指標(biāo)對各模型的道路提取能力進(jìn)行比較。表1為各項(xiàng)評定指標(biāo)的定量比較,從表1可知:1)本文提出的融合殘差和卷積注意力機(jī)制的U-Net模型在整體精度、準(zhǔn)確率、召回率、1值分別達(dá)到了97.02%、76.47%、70.71%、73.48%,相較于U-Net網(wǎng)絡(luò)對應(yīng)的各項(xiàng)指標(biāo)值分別提高了3.11%、3.74%、4.04%、3.91%,提升較大;2)本文方法與FCN、PSPNet、Deeplabv3+、CE-Net網(wǎng)絡(luò)模型比較,在各項(xiàng)評定指標(biāo)值上也有提升;3)通過消融實(shí)驗(yàn),對比U-Net+改進(jìn)殘差和U-Net+CBAM網(wǎng)絡(luò),本文方法在各項(xiàng)對應(yīng)指標(biāo)值上也稍有提升。綜上可知,本文方法具有一定的道路提取優(yōu)勢。
表1 各模型在Massachusetts Roads數(shù)據(jù)集上的精度對比
Tab.1 Accuracy comparison of each model on the Massachusetts Roads dataset
為證明本文方法的普遍適用性,分別選取了四種不同場景的道路提取結(jié)果圖進(jìn)行比較,如表2所示。區(qū)域a為植被道路混合區(qū)域,區(qū)域b為立交橋背景區(qū)域,區(qū)域c為大面積植被覆蓋區(qū),區(qū)域d為復(fù)雜的大型城市道路網(wǎng)。在區(qū)域a中,該區(qū)域紅色框標(biāo)和黃色框標(biāo)路段受周圍植被遮擋,黃色區(qū)域?yàn)檫吘壖?xì)小道路特征尤為模糊,本文提取方法對此區(qū)域道路特征模糊路段較原U-Net模型提取相對完整。在區(qū)域b中,在所標(biāo)出的兩道路交叉口處,由于交叉口本身較小,在原U-Net模型提取過程中易出現(xiàn)缺失,但本文方法不僅在交叉口細(xì)節(jié)處提取完整使連通性較好,且在主干道路相鄰近處不存在道路粘連現(xiàn)象。在區(qū)域c中,紅色框標(biāo)處道路受大面積植被全覆蓋,造成提取困難,黃色框標(biāo)部分道路特征也不明顯,本文方法在該兩處提取結(jié)果較原U-Net模型較佳,且在綠色框標(biāo)處提取到該路段的部分缺失道路。在區(qū)域d中,道路分布錯(cuò)綜復(fù)雜,不相關(guān)地物較多,紅色框標(biāo)區(qū)域易出現(xiàn)“同譜異物”現(xiàn)象,受光譜特征影響可能出現(xiàn)道路提取錯(cuò)誤或缺失,且該處相鄰路段距離較近,黃色框標(biāo)區(qū)域不僅道路長度較短,且特征模糊,提取難度較大,本文方法有效改善這一現(xiàn)象,提取效果較原U-Net模型提升明顯。綜上可知,與FCN、PSPNet、Deeplabv3+、CE-Net、U-Net模型的提取相比,本文所提出的方法道路細(xì)化分割能力強(qiáng),對道路細(xì)節(jié)處提取相對完整,整體提取效果較好。
通過以上的定量分析和不同場景的道路提取結(jié)果進(jìn)行對比分析可知:本文所提出的融合殘差和卷積注意機(jī)制的U-Net網(wǎng)絡(luò)模型較FCN、PSPNet、Deeplabv3+、CE-Net、U-Net模型的可視化提取結(jié)果上完整性和準(zhǔn)確度更高,可以獲取更多的道路細(xì)節(jié)特征信息,改善原網(wǎng)絡(luò)模型道路細(xì)節(jié)處提取錯(cuò)誤和缺失問題,抑制其他無關(guān)地物信息的干擾,使整體道路提取效果更優(yōu),具有一定優(yōu)勢性。
表2 各模型在Massachusetts Roads數(shù)據(jù)集上部分提取結(jié)果
Tab.2 Partial extraction results of each on the Masschusetts Roads dataset
(待續(xù))
為了進(jìn)一步驗(yàn)證本文所提出的融合殘差和卷積注意力機(jī)制的U-Net網(wǎng)絡(luò)道路提取方法的優(yōu)越,在DeepGlobe衛(wèi)星數(shù)據(jù)集上再一次進(jìn)行實(shí)驗(yàn),分別訓(xùn)練FCN、PSPNet、Deeplabv3+、CE-Net、U-Net以及本文所提出來的模型,表3為各模型的評定指標(biāo)值的定量比較。從表3可知:1)本文所搭建的網(wǎng)絡(luò)模型在整體精度、準(zhǔn)確率、召回率、1值分別達(dá)到了98.26%、83.33%、79.32%、81.28%,較原U-Net模型對應(yīng)的各項(xiàng)評價(jià)指標(biāo)值分別提高了2.06、2.79、1.90和2.33個(gè)百分點(diǎn),指標(biāo)值提升較大;2)本文方法與FCN、PSPNet、Deeplabv3+、CE-Net網(wǎng)絡(luò)模型比較,在各項(xiàng)評定指標(biāo)值上也有提升;3)通過消融實(shí)驗(yàn)對比U-Net+改進(jìn)殘差和U-Net+CBAM模型,其對應(yīng)的各項(xiàng)指標(biāo)值也稍有提升。綜上可知:本文所提出的道路提取方法可進(jìn)一步準(zhǔn)確提取出道路特征。
表3 各模型在DeepGlobe數(shù)據(jù)集上的精度對比
Tab.3 Accuracy comparison of each model on the DeepGlobe dataset
該數(shù)據(jù)集道路分布相對稀疏,郊區(qū)道路居多,場景豐富多樣,提取結(jié)果的可視化如表4所示。區(qū)域a中道路區(qū)域受植被遮擋嚴(yán)重,原U-Net模型出現(xiàn)局部提取缺失,本文方法對遮擋部分完整提取出來;區(qū)域b中道路特征模糊且提取時(shí)容易受周圍建筑物干擾,原U-Net模型提取在道路特征模糊區(qū)域出現(xiàn)局部提取缺失和錯(cuò)提現(xiàn)象,本文方法相對來說提取效果更加,無明顯錯(cuò)提;區(qū)域c中道路的光譜特征與周圍地物相似,道路特征模糊,原U-Net模型受光譜特征影響,提取結(jié)果不夠完整,本文方法提取結(jié)果的可視化基本完整;區(qū)域d為復(fù)雜的山區(qū)道路,其分布錯(cuò)綜崎嶇,原U-Net模型提取時(shí)在地物特征不明顯的崎嶇路段和邊緣細(xì)小道路處未提取到該路段,說明其對多尺度特征的地物提取效果較差,但本文方法對該路段基本提取完整。通過以上四個(gè)區(qū)域的提取結(jié)果可知,本文道路提取方法受植被遮擋和“同譜異物”現(xiàn)象影響較小,且具有較好的獲取多尺度信息的能力,但對于個(gè)別局部特征不明顯或道路特征模糊區(qū)域仍會(huì)出現(xiàn)漏提現(xiàn)象。
表4 各模型在DeepGlobe數(shù)據(jù)集上部分提取結(jié)果
Tab.4 Partial extraction results of each model on the DeepGlobe dataset
(待續(xù))
(續(xù)表4)
結(jié)合表1和表3中本文方法在兩種不同數(shù)據(jù)集上對應(yīng)的評定指標(biāo)值可得:本文方法在DeepGlobe數(shù)據(jù)集上訓(xùn)練得到的整體精度、準(zhǔn)確率、召回率、1值比在Massachusetts Roads數(shù)據(jù)集上對應(yīng)的各項(xiàng)指標(biāo)值分別提高1.24、6.89、8.61和7.80個(gè)百分點(diǎn)。從整體提取效果的完整性上看,本文方法在GeepGlobe數(shù)據(jù)集上提取結(jié)果更加接近對應(yīng)的真值影像,整體提取效果更佳。由此可知:本文所提出的融合殘差和卷積注意力機(jī)制的U-Net道路提取方法在數(shù)據(jù)集道路結(jié)構(gòu)分布相對稀疏、不相關(guān)地物干擾較小的區(qū)域所提取到的道路更加完整準(zhǔn)確。
本文以U-Net網(wǎng)絡(luò)為基礎(chǔ),在編碼區(qū)和解碼區(qū)的每兩個(gè)相鄰卷積層中間加入改進(jìn)的殘差網(wǎng)絡(luò)模塊,既可加深網(wǎng)絡(luò)深度獲得更多的道路特征,也可以規(guī)避網(wǎng)絡(luò)性能退化,防止梯度消失;在跳躍連接階段嵌入卷積注意力機(jī)制模塊,提高模型對道路信息的表征能力,抑制非道路信息傳輸。在Massachusetts Roads數(shù)據(jù)集和DeepGlobe衛(wèi)星數(shù)據(jù)集上,通過對不同場景的提取結(jié)果對比發(fā)現(xiàn):本文所用方法無論是對道路本身特征不明顯,或受植被遮擋,或光譜特征影響,還是不相關(guān)地物干擾較多的道路網(wǎng),其提取結(jié)果都較原U-Net模型的道路提取結(jié)果提升效果明顯,有效改善了道路信息提取缺失或錯(cuò)誤的問題,準(zhǔn)確性和完整度較好,但對于背景信息復(fù)雜的大型城市道路網(wǎng)提取效果仍不夠理想,出現(xiàn)細(xì)節(jié)丟失和噪聲點(diǎn)等問題,成為后續(xù)實(shí)驗(yàn)改進(jìn)的重點(diǎn)。
[1] 張永宏, 何靜, 闞希, 等. 遙感圖像道路提取方法綜述[J]. 計(jì)算機(jī)工程與應(yīng)用, 2018, 54(13): 1-10, 51. ZHANG Yonghong, HE Jing, KAN Xi, et al. Summary of Road Extraction Methods for Remote Sensing Images[J]. Computer Engineering and Applications, 2018, 54(13): 1-10, 51. (in Chinese)
[2] 羅慶洲, 尹球, 匡定波. 光譜與形狀特征相結(jié)合的道路提取方法研究[J]. 遙感技術(shù)與應(yīng)用, 2007, 22(3): 339-344. LUO Qingzhou, YIN Qiu, KUANG Dingbo. Research on Extracting Road Based on Its Spectral Feature and Shape Feature[J]. Remote Sensing Technology and Application, 2007, 22(3): 339-344. (in Chinese)
[3] 羅巍, 王東亮. 利用角度紋理特征提取高分辨率遙感影像中城市主干道路[J]. 中國圖象圖形學(xué)報(bào), 2017, 22(11): 1584-1591. LUO Wei, WANG Dongliang. Method Using the Angle Texture Feature to Extract Urban Trunk Road Information from High-resolution Remote Sensing Images[J]. Journal of Image and Graphics, 2017, 22(11): 1584-1591. (in Chinese)
[4] SGHAIER M O, LEPAGE R. Road Extraction from Very High Resolution Remote Sensing Optical Images Based on Texture Analysis and Beamlet Transform[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2015, 9(5): 1946-1958.
[5] 陳杰, 邵權(quán)斌, 梅小明, 等. 結(jié)合尺度空間的面向?qū)ο蟾叻直媛视跋癯鞘械缆诽崛J]. 測繪工程, 2016, 25(12): 5-11. CHEN Jie, SHAO Quanbin, MEI Xiaoming, et al. Object-based Urban Road Extraction from High Resolution Imagery with Space-scale Theory[J]. Engineering of Surveying and Mapping, 2016, 25(12): 5-11. (in Chinese)
[6] GUO Q, WANG Z. A Self-supervised Learning Framework for Road Centerline Extraction from High-resolution Remote Sensing Images[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2020, 13(9): 4451-4461.
[7] 林鵬, 阮仁宗, 王玉強(qiáng), 等. 一種基于面向?qū)ο蟮某擎?zhèn)道路自動(dòng)提取方法研究[J]. 地理與地理信息科學(xué), 2016, 32(1): 49-54. LIN Peng, RUAN Renzong, WANG Yuqiang, et al. Research on Extraction of Road Based on Object Oriented in an Urban Context[J]. Geography and Geo-Information Science, 2016, 32(1): 49-54. (in Chinese)
[8] 汪閩, 駱劍承, 周成虎, 等. 結(jié)合高斯馬爾可夫隨機(jī)場紋理模型與支撐向量機(jī)在高分辨率遙感圖像上提取道路網(wǎng)[J]. 遙感學(xué)報(bào), 2005, 29(3): 271-276. WANG Ming, LUO Jiancheng, ZHOU Chenghu, et al. Extraction of Road Network from High Resolution Remote Sensed Imagery with the Combination of Gaussian Markov Random Field Texture Model and Support Vector Machine[J]. Journal of Remote Sensing, 2005, 29(3): 271-276. (in Chinese)
[9] CHAURASIA A, CULURCIELLO E. LinkNet: Exploitingencoder Representations for Efficient Semantic Segmentation[C]//2017 IEEE Visual Communications and ImageProcessing, December 10-13, 2017, St. Petersburg, FL, USA. IEEE, 2017: 1-4.
[10] ZHOU L, ZHANG C, WU M. D-LinkNet: LinkNet with Pretrained Encoder and Dilated Convolution for High Resolution Satellite Imagery Road Extraction[C]//IEEE Conference on Computer Vision and Pattern Recognition Workshops, June 18-22, 2018, Salt Lake City, UT, USA. IEEE, 2018: 182-186.
[11] GAO L, SONG W, DAI J, et al. Road Extraction from High-resolution Remote Sensing Imagery using Refined Deep Residual Convolutional Neural Network[J]. Remote sensing, 2019, 11(5): 552-568.
[12] 馬天浩, 譚海, 李天琪, 等. 多尺度特征融合的膨脹卷積殘差網(wǎng)絡(luò)高分一號影像道路提取[J]. 激光與光電子學(xué)進(jìn)展, 2021, 58(2): 341-348. MA Tianhao, TAN Hai, LI Tianqi, et al. Road Extraction from GF-1 Remote Sensing Images Based on Dilated Convolution Residual Network with Multi-Scale Feature Fusion[J]. Laser & Optoelectronics Progress, 2021, 58(2): 341-348. (in Chinese)
[13] RONNEBERGER O, FISCHER P, BROX T. U-net: Convolutional Networks for Biomedical Image Segmentation[C]//International Conference on Medical Image Computing and Computer-assisted Intervention, October 5-9, 2015, Munich, Germany. Springer, Cham, 2015: 234-241.
[14] REN Y, YU Y, GUAN H. DA-CapsUNet: A Dual-attention Capsule U-Net for Road Extraction from Remote Sensing Imagery[J]. Remote Sensing, 2020, 12(18): 2866-2883.
[15] 孔嘉嫄, 張和生. 改進(jìn)U-Net網(wǎng)絡(luò)及在遙感影像道路提取中的應(yīng)用[J]. 中國空間科學(xué)技術(shù), 2022, 42(3): 105-113. KONG Jiayuan, ZHANG Hesheng. Improved U-Net Network and its Application of Road Extraction in Remote Sensing Image[J]. Chinese Space Science and Technology, 2022, 42(3): 105-113. (in Chinese)
[16] YAROTSKY D. Error Bounds for Approximations with Deep ReLU Networks[J]. Neural Networks, 2017, 94(7): 103-114.
[17] SODMANN P, VOLLMER M. ECG Segmentation using a Neural Network as the Basis for Detection of Cardiac Pathologies[C]//2,020 Computing in Cardiology, September 13-16, 2020, Rimini, Italy. IEEE, 2020: 1-4.
[18] LONG J, SHELHAMER E, DARRELL T. Fully Convolutional Networks for Semantic Segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 39(4): 640-651.
[19] ZHAO H, SHI J, QI X, et al. Pyramid Scene Parsing Network[C]//IEEE Conference on Computer Vision and Pattern Recognition, July 21-26, 2017, Honolulu, HI, USA. IEEE, 2017: 2881-2890.
[20] CHEN L C, ZHU Y, PAPANDREOU G, et al. Encoder - decoder with Atrous Separable Convolution for Semantic Image Segmentation[C]//European Conference on Computer Vision, September 8-14, 2018, Munich, Germany. L Leal-Taixé, Roth S, 2018:801 -818.
[21] GU Z W, CHENG J, FU H Z, et al. CE-Net: Context Encoder Network for 2D Medical Image Segmentation[J]. IEEE Transactions on Medical Imaging, 2019, 38(10): 2281-2292.
[22] HE K, ZHANG X, REN S, et al. Deep Residual Learning for Image Recognition[C]//IEEE Conference on Computer Vision and Pattern Recognition, June 27-30, 2016, Las Vegas, USA. Piscataway, IEEE, 2016: 770-778.
[23] BOCHKOVSKIY A, WANG C Y, LIAO H Y. Yolov4: Optimal Speed and Accuracy of Object Detection[EB/OL]. [2021-10-11]. http://arxiv.org/pdf/2,004.10,934.
[24] WOO S, PARK J, LEE J Y, et al. Cbam: Convolutional Block Attention Module[C]//European Conference on Computer Vision, September 8-14, 2018, Munich, Germany. L Leal-Taixé, Roth S, 2018: 3-19.
[25] DEMIR I, KOPESLI K, LINDENBAUM D, et al. Deepglobe 2018: A Challenge to Parse the Earth Through Satellite Images[C]//IEEE Conference on Computer Vision and Pattern Recognition Workshops, June 18-22, 2018, Salt Lake City, UT, USA. IEEE, 2018: 172-181.
[26] HEIPKE C, MAYER H, WIEDEMANN C, et al. Evaluation of Automatic Road Extraction[J]. International archives of photogrammetry & Remote sensing, 1997, 32(3): 47-56.
Road Extraction Method of High-Resolution Image Based on U-Net Network Combining Residual and Convolution Attention Mechanism
ZHANG Yaning ZHANG Chunkang WANG Chao YOU Chenyu
(College of Mining, Guizhou University, Guiyang 550025, China)
Aiming at the problems of missing local road extraction and wrong extraction due to the blurring of road features or the phenomenon of "same-spectrum foreign objects" in high-resolution remote sensing images, this paper proposes an improved method for road extraction from high-resolution remote sensing images, which is based on U-Net combining residual and convolutional attention mechanism. Firstly, based on the U-Net network, an improved residual module is added to alleviate the problem of network performance degradation that is easy to occur during network training. Secondly, the convolutional attention mechanism module is embedded to enhance the deep representation of road details. Finally, the data set is reasonably expanded through geometric transformation to enhance network generalization ability. The model is tested on the public datasets Massachusetts roads and DeepGlobe road datasets, and the experimental results show that the overall accuracy of the method proposed in this paper reaches 97.02% and 98.26% respectively on the two datasets. Compared with other models, it has a better extraction effect, and has a stronger deep representation of road features and better anti-interference performance, which can effectively improve the problems of wrong and missing extraction phenomenon in road extraction, and significantly improve the accuracy and integrity of road extraction.
road extraction; residual module; convolutional attention mechanism; high-resolution remote sensing images
P237
A
1009-8518(2023)03-0119-14
10.3969/j.issn.1009-8518.2023.03.013
張亞寧,女,1994年生,2018年獲咸陽師范學(xué)院測繪工程專業(yè)工學(xué)學(xué)士學(xué)位,現(xiàn)于貴州大學(xué)測繪科學(xué)與技術(shù)專業(yè)攻讀碩士學(xué)位。主要研究方向?yàn)楦叻诌b感信息提取。E-mail:59547207@qq.com。
2022-09-26
國家自然科學(xué)基金(41701464);中國科學(xué)院戰(zhàn)略性先導(dǎo)科技專項(xiàng)子課題(XDA2806020101);貴州大學(xué)培育項(xiàng)目(貴大培育[2019] 26號)
張亞寧, 張春亢, 王朝, 等. 融合殘差和卷積注意力機(jī)制的U-Net網(wǎng)絡(luò)高分影像道路提取[J]. 航天返回與遙感, 2023, 44(3): 119-132.
ZHANG Yaning, ZHANG Chunkang,WANG Chao, et al. Road Extraction Method of High-Resolution Image Based on U-Net Network Combining Residual and Convolution Attention Mechanism[J]. Spacecraft Recovery & Remote Sensing, 2023, 44(3): 119-132. (in Chinese)
(編輯:龐冰)