葛小三,曹偉
(1.河南理工大學(xué) 自然資源部礦山時(shí)空信息與生態(tài)修復(fù)重點(diǎn)實(shí)驗(yàn)室,河南 焦作 454000;2.河南理工大學(xué) 測(cè)繪與國(guó)土信息工程學(xué)院,河南 焦作 454000)
道路提取一直是高分辨率遙感數(shù)據(jù)應(yīng)用領(lǐng)域的研究熱點(diǎn)之一,在多個(gè)領(lǐng)域有著廣泛的應(yīng)用,如智慧交通網(wǎng)絡(luò)建設(shè)、無(wú)人駕駛自動(dòng)導(dǎo)航、城市道路規(guī)劃等。當(dāng)前,隨著出行方式的多樣化,人們對(duì)基礎(chǔ)地理信息的更新速度和準(zhǔn)確性提出了更高的要求[1]。
對(duì)于遙感影像上的道路提取,由于道路材料多樣、光照差異、建筑物遮擋等因素干擾,道路自動(dòng)提取與路網(wǎng)的構(gòu)建研究仍具有很大的挑戰(zhàn)性。目前道路提取的方法可以分為傳統(tǒng)道路提取方法和基于深度學(xué)習(xí)的道路提取方法[2]。傳統(tǒng)的方法通常利用手工設(shè)計(jì)的特征進(jìn)行道路提取,又可以進(jìn)一步分為基于像元的道路提取和面向?qū)ο蟮姆椒ā;谙裨姆椒ㄖ饕ㄟ^(guò)分析像素的光譜信息來(lái)提取道路,如光譜分析法[3]、閾值分割法[4]和邊緣檢測(cè)法[5]。這一類(lèi)方法對(duì)圖像清晰、背景簡(jiǎn)單的遙感影像中提取簡(jiǎn)單的路網(wǎng)有一定作用,但缺乏特征的空間背景和紋理結(jié)構(gòu)等信息,并伴隨著大量的椒鹽噪聲,需要大量的后處理工作來(lái)修整提取的道路[6]。面向?qū)ο蟮奶崛》椒ㄖ校瑒t以道路為對(duì)象,建立信息模型,具有很好的抗噪性和適用性,對(duì)比基于像元的方法,精度有所提高,如分水嶺分割算法[7]、區(qū)域增長(zhǎng)算法[8]、基于支持向量機(jī)[9]的算法。雖然這些方法的提取性能有所提高,但容易對(duì)空間上相鄰、結(jié)構(gòu)特征相似的像素進(jìn)行誤分類(lèi)。同時(shí),分類(lèi)規(guī)則設(shè)計(jì)較為復(fù)雜,提取的準(zhǔn)確性有待提高[10]??傊?,傳統(tǒng)的方法在泛化能力上往往受到限制。
與傳統(tǒng)方法不同的是,深度學(xué)習(xí)能夠從深層的特征中學(xué)習(xí)更加復(fù)雜抽象多層次的特征來(lái)分析與處理數(shù)據(jù)[11]。2013年,Li等[12]將深度學(xué)習(xí)方法首先應(yīng)用到道路提取,并建立了相應(yīng)的大規(guī)模數(shù)據(jù)集——Massachusetts roads 數(shù)據(jù)集。自此之后,多位學(xué)者針對(duì)道路的提取進(jìn)行了研究,如劉笑等[13]提出的基于全卷積神經(jīng)網(wǎng)絡(luò)的方法;Cheng等[14]提出一種級(jí)聯(lián)的端到端的卷積神經(jīng)網(wǎng)絡(luò);Xin等[15]結(jié)合密集連接方式和U-Net,提出一種DenseUNet模型;Panboonyuen等[16]提出一種結(jié)合ELU(exponential linear unit)激活單元的SegNet網(wǎng)絡(luò)模型。上述方法一般可以提取出較為完整的道路區(qū)域,但提取的道路邊界模糊且道路斷裂現(xiàn)象嚴(yán)重。
針對(duì)現(xiàn)有的道路提取方法普遍注重區(qū)域精度而邊界質(zhì)量缺失考慮的問(wèn)題,本文提出一種基于DeepLabV3+網(wǎng)絡(luò)的高分辨率遙感影像道路自動(dòng)提取方法。該方法結(jié)合編解碼器與多孔空間金字塔池,能夠準(zhǔn)確實(shí)現(xiàn)道路的邊界提取并有效緩解道路斷裂現(xiàn)象。為了驗(yàn)證該方法的有效性,在Massachusetts roads 數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),并與其他常見(jiàn)語(yǔ)義分割模型進(jìn)行對(duì)比分析。
DeepLabV3+采用基于全卷積神經(jīng)網(wǎng)絡(luò)的編解碼器結(jié)構(gòu),將DeepLabV3模型作為編碼器。在道路提取過(guò)程中,先由深度卷積層初步提取道路特征,結(jié)合空間金字塔池化后的道路特征,最后進(jìn)行上采樣實(shí)現(xiàn)道路分割。用于道路提取的DeepLabV3+模型如圖1所示。
圖1 用于道路提取的DeepLabV3+模型結(jié)構(gòu)
為了解決池化帶來(lái)的道路結(jié)構(gòu)信息丟失問(wèn)題,DeepLabV3+模型采用了一種有效的多孔空間金字塔池化,該結(jié)構(gòu)包含三個(gè)平行的空洞卷積,擴(kuò)張率分別為6、12、18,提供了一個(gè)更大的感受野,有助于捕獲道路結(jié)構(gòu)的上下文信息??斩淳矸e原理如圖2所示。空洞卷積可以在不增加參數(shù)的情況下擴(kuò)大接受野,保證速度的情況下提高了道路提取精度,并且可以控制神經(jīng)網(wǎng)絡(luò)特征響應(yīng)的空間分辨率。為了減弱道路不規(guī)則性對(duì)網(wǎng)絡(luò)結(jié)構(gòu)性能的影響,本文通過(guò)調(diào)整空洞卷積的擴(kuò)張率和采取可形變卷積核的方法設(shè)計(jì)改進(jìn)了ASPP結(jié)構(gòu)。
圖2 空洞卷積示意圖
DeepLabV3+在編碼部分引入了深度可分離卷積的思想,減少了參數(shù)的數(shù)量,同時(shí)提高了運(yùn)行速度與分類(lèi)性能。使用Concat方法對(duì)ASPP輸出的多尺度空間信息進(jìn)行特征拼接,并使用1×1大小的卷積增加編碼結(jié)構(gòu)的非線(xiàn)性,最后編碼器輸出一個(gè)總特征圖,比輸入圖像小16倍。解碼器部分主要是對(duì)特征圖進(jìn)行上采樣,恢復(fù)道路的細(xì)節(jié)與邊界信息。首先對(duì)編碼器輸出的特征圖進(jìn)行雙線(xiàn)性上采樣4倍,然后與編碼器中具有相同空間分辨率的低級(jí)特征進(jìn)行Concat連接,接著用3×3的卷積核融合組合后的特征信息,最后用4倍雙線(xiàn)性上采樣操作對(duì)融合后的特征圖進(jìn)行逐層細(xì)化,實(shí)現(xiàn)道路的語(yǔ)義分割。編解碼器結(jié)構(gòu)如圖3所示。
本文使用的數(shù)據(jù)集為Massachusetts roads數(shù)據(jù)集,是目前為止最大的遙感影像道路數(shù)據(jù)集,數(shù)據(jù)集涵蓋1 108張24位真彩色tiff圖像,大小為1 500像素×1 500像素,空間分辨率為1 m。標(biāo)簽影像中每個(gè)像素被劃分為道路或背景,道路像素值為1,背景值為0。因標(biāo)簽影像中存在不同程度的缺失,本文選取500張較為準(zhǔn)確的標(biāo)簽影像及其對(duì)應(yīng)的地面影像用于實(shí)驗(yàn)。將每張影像及其標(biāo)簽影像裁剪成406像素×406像素,將其按照7∶2∶1的比例劃分為訓(xùn)練集、測(cè)試機(jī)和驗(yàn)證集。為了增強(qiáng)模型的魯棒性,將樣本訓(xùn)練集通過(guò)隨機(jī)水平或垂直旋轉(zhuǎn)進(jìn)行數(shù)據(jù)增強(qiáng)。
道路提取是區(qū)分道路與背景的二值分類(lèi)問(wèn)題,數(shù)據(jù)集中只包含道路與背景信息。除此之外,這兩類(lèi)數(shù)據(jù)在數(shù)據(jù)集中所占比例也不同。標(biāo)注后的圖像中道路像素遠(yuǎn)遠(yuǎn)少于背景像素,因此在分類(lèi)任務(wù)中正樣本與負(fù)樣本存在不平衡的現(xiàn)象[17]。
損失函數(shù)的作用是估量預(yù)測(cè)值與真實(shí)值之間的差異程度,可以減少或避免正類(lèi)和負(fù)類(lèi)數(shù)目不平衡的問(wèn)題。二元交叉熵?fù)p失函數(shù)(binary cross entropy,BCE)在構(gòu)建深度學(xué)習(xí)模型中得到了廣泛的應(yīng)用,但二元交叉熵?fù)p失函數(shù)對(duì)每個(gè)像素進(jìn)行類(lèi)預(yù)測(cè)時(shí),對(duì)每個(gè)像素的損失賦予了相同的權(quán)重,因此,當(dāng)正負(fù)樣本數(shù)差距過(guò)大時(shí),損失函數(shù)的效果會(huì)變差。使用DICE(dice coefficient)可以避免這一問(wèn)題。DICE本質(zhì)上度量了預(yù)測(cè)值與真實(shí)值的重疊程度,索引范圍從0到1,其中“1”表示完全重疊區(qū)域,“0”表示沒(méi)有重疊區(qū)域。DICE損失函數(shù)側(cè)重于標(biāo)簽與預(yù)測(cè)的一致性,與側(cè)重于所有像素的擬合水平的交叉熵?fù)p失函數(shù)相比,這對(duì)于正負(fù)不平衡樣本表現(xiàn)更好。然而,DICE損失函數(shù)對(duì)噪聲仍然很敏感,可能會(huì)忽略邊界信息,導(dǎo)致邊界分割不佳。因此,本文將BCE與DICE結(jié)合作為損失函數(shù),不僅解決樣本分布不平衡的問(wèn)題,也提高了道路邊界提取效果。損失函數(shù)如式(1)所示。
Loss=αL1+βL2
(1)
式中:L1和L2分別表示BCE和DICE;α、β為BCE和DICE所占的權(quán)重。由于DICE的損失梯度大于BCE的損失梯度,在β>α的前提下,可通過(guò)實(shí)驗(yàn)得到最佳權(quán)重比[18]。
DeepLabV3+模型可以用于改進(jìn)的Xception或者用于移動(dòng)設(shè)備計(jì)算高效的MobileNetV2。
Szegedy等[19]在2014年提出Inception新型網(wǎng)絡(luò)模塊,核心思想是將一個(gè)規(guī)則卷積分解成獨(dú)立的順序操作塊(先通道卷積,再空間卷積),使其擁有更少的可訓(xùn)練參數(shù)和更快的計(jì)算速度,而對(duì)學(xué)習(xí)深層特征的能力幾乎沒(méi)有影響。Chollet[20]將Inception的風(fēng)格發(fā)揮到極致,提出了完全建立在深層可分離卷積的Xception架構(gòu)。為了解決DeepLabV3+模型中的分割任務(wù),Chen等[21]使用改進(jìn)的Xception模型作為主干網(wǎng)絡(luò)特征提取器。該模型使用一個(gè)更深的異常模塊,其中所有最大池化操作都由深度可分離卷積代替;在每個(gè)深度卷積之后,進(jìn)行批歸一化處理與ReLU操作。Xception網(wǎng)絡(luò)模型如圖4所示。
圖4 Xception模型結(jié)構(gòu)
MobileNetV2的提出是為了解決網(wǎng)絡(luò)模型訓(xùn)練過(guò)程中參數(shù)量過(guò)于龐大、硬件訓(xùn)練不足等問(wèn)題。它的核心是使用深度可分離卷積來(lái)減少計(jì)算量。特別地,引入了反向殘差與線(xiàn)性瓶頸概念,在標(biāo)準(zhǔn)殘差塊中,先利用1×1卷積層壓縮特征圖通道,然后在低維通道應(yīng)用3×3卷積層提取特征,最后使用1×1卷積層擴(kuò)張?zhí)卣魍ǖ?。在反向殘差中,則發(fā)生相反的情況,先利用1×1卷積層擴(kuò)張?zhí)卣魍ǖ?,然后在高維通道應(yīng)用3×3卷積層提取特征,最后利用1×1卷積層壓縮通道,將所得特征映射到新的通道空間。在這兩種情況下,反向殘差的存儲(chǔ)效率會(huì)顯著提高[22]。MobileNetV2的網(wǎng)絡(luò)結(jié)構(gòu)如表1所示,殘差結(jié)構(gòu)如圖5所示。
表1 MobileNetV2網(wǎng)絡(luò)結(jié)構(gòu)
圖5 MobileNetV2 殘差結(jié)構(gòu)
在道路分類(lèi)任務(wù)中,使用精確率(precision)、召回率(recall)和F1分?jǐn)?shù)(F1-score)來(lái)評(píng)估DeepLabV3+模型與其他主流語(yǔ)義分割模型。特征計(jì)算示意表如表2所示。
表2 特征計(jì)算示意表
表2中,TP(true positive)表示成功預(yù)測(cè)為道路的像素?cái)?shù)量;TN(true negative)表示成功預(yù)測(cè)為背景的像素?cái)?shù)量;FN(false negative)表示被分類(lèi)為背景的道路像素?cái)?shù)量;FP(false positive)表示被預(yù)測(cè)為道路的背景像素?cái)?shù)量。
將不同權(quán)重比的Loss進(jìn)行對(duì)比實(shí)驗(yàn)。固定β=1調(diào)整α的取值,L2和L1權(quán)重比分別按照1∶1、1∶2、1∶3、1∶4、1∶5五種比例設(shè)定,在100張測(cè)試集上進(jìn)行實(shí)驗(yàn),以F1分?jǐn)?shù)作為性能評(píng)價(jià)指標(biāo)。實(shí)驗(yàn)結(jié)果如圖6所示。
圖6 損失函數(shù)在不同權(quán)重下的道路提取結(jié)果
從圖中可以看出,當(dāng)L2和L1的權(quán)重比為1∶3時(shí),道路分割結(jié)果最佳;當(dāng)比值為1∶1時(shí),道路分割斷裂明顯,道路邊界提取模糊。五種超參數(shù)權(quán)重比的性能對(duì)比如表3所示。
表3 損失函數(shù)在不同權(quán)重下的性能對(duì)比
將改進(jìn)的Xception和MobileNetV2分別作為DeepLabV3+模型的主干網(wǎng)絡(luò)進(jìn)行道路提取,圖7直觀地比較了兩個(gè)主干網(wǎng)絡(luò)的道路分割結(jié)果。這兩種結(jié)構(gòu)在道路提取中都取得了較好的結(jié)果,如表4所示。在精確度、召回率和F1分?jǐn)?shù)方面,使用Xception的DeepLabV3+模型分別達(dá)到82.22%、81.61%、81.91%;MobileNetV2則表現(xiàn)得更好,精確度為83.56%,召回率為86.76%,F(xiàn)1分?jǐn)?shù)為85.12%。實(shí)際上,Xception涉及的參數(shù)大約是MobileNetV2的20倍,當(dāng)用于訓(xùn)練的標(biāo)記數(shù)據(jù)的數(shù)量與待估計(jì)參數(shù)的數(shù)量不匹配時(shí),網(wǎng)絡(luò)的泛化效果較差。因此,如果有更多的影像數(shù)據(jù)參與網(wǎng)絡(luò)訓(xùn)練,道路提取的結(jié)果可以得到顯著的改善。
圖7 不同主干網(wǎng)絡(luò)提取道路結(jié)果
表4 不同主干網(wǎng)絡(luò)提取道路實(shí)驗(yàn)精度評(píng)價(jià) %
除了質(zhì)量評(píng)估,本文還對(duì)兩種主干網(wǎng)絡(luò)訓(xùn)練參數(shù)、訓(xùn)練時(shí)間、預(yù)測(cè)時(shí)間進(jìn)行對(duì)比。實(shí)驗(yàn)所用硬件配置為:i7-7700k CPU、32 G RAM、GTX1080Ti GPU。實(shí)驗(yàn)結(jié)果如表5所示,可以看出,MobileNetV2需要的訓(xùn)練和預(yù)測(cè)時(shí)間更少,幾乎是Xception的一半。由于其深度以及更多的參數(shù)數(shù)量,Xception主干的計(jì)算要求更高。
表5 不同主干網(wǎng)絡(luò)計(jì)算復(fù)雜性
為了驗(yàn)證本文提出的道路提取模型的有效性,選取U-Net、PSPNet、SegNet、FCN四種常見(jiàn)的語(yǔ)義分割模型與基于MobileNetV2主干網(wǎng)絡(luò)的DeepLabV3+模型進(jìn)行對(duì)比驗(yàn)證。各方法的道路分割結(jié)果如圖8所示,總體分割精度如表6所示。
如圖8所示,F(xiàn)CN模型表現(xiàn)較差,其忽略了高分辨率的特征圖導(dǎo)致邊緣信息的丟失,使得道路提取完整性較差且存在部分噪聲點(diǎn)。PSPNet是基于FCN的多尺度網(wǎng)絡(luò),使用帶有空洞卷積的殘差網(wǎng)絡(luò)ResNet作為特征提取,能獲得豐富的道路特征信息,雖然道路漏提取較少,但道路斷裂現(xiàn)象明顯。U-Net 網(wǎng)絡(luò)采用編解碼器結(jié)構(gòu),提高了網(wǎng)絡(luò)分類(lèi)精度,但其主要用于醫(yī)學(xué)影像的處理,并不適合于復(fù)雜遙感影像道路提取,提取結(jié)果存在少量噪聲點(diǎn)且道路斷裂現(xiàn)象明顯。SegNet特征提取部分采用VGG16模型,用池化過(guò)程的位置信息替代反卷積操作,并移除了全連接層,大幅降低模型體量,但SegNet對(duì)于小尺寸目標(biāo)提取的準(zhǔn)確度較低,使得道路漏提取較多。本文使用的基于MobileNetV2主干網(wǎng)絡(luò)的DeepLabV3+,將編解碼器與多孔金字塔池化相結(jié)合,不僅模型體量小,且能提取多尺度信息,細(xì)化分割結(jié)果,保持道路提取的完整性與連通性,在道路邊界上的提取結(jié)果優(yōu)于其他網(wǎng)絡(luò)模型。
表6 不同網(wǎng)絡(luò)提取道路實(shí)驗(yàn)精度評(píng)價(jià) %
實(shí)驗(yàn)結(jié)果表明,四種常見(jiàn)語(yǔ)義分割模型的F1分?jǐn)?shù)比較接近,而基于MobileNetV2主干網(wǎng)絡(luò)的DeepLabV3+模型的F1分?jǐn)?shù)優(yōu)于其他四種網(wǎng)絡(luò)模型,充分表明了本文方法的有效性。
針對(duì)現(xiàn)有方法在提取道路時(shí)存在道路邊界模糊問(wèn)題,本文提出了一種基于MobileNetV2主干網(wǎng)絡(luò)的DeepLabV3+網(wǎng)絡(luò)道路提取模型,旨在更高效、快速、完整地從高分辨率遙感圖像中提取道路。該網(wǎng)絡(luò)以MobileNetV2網(wǎng)絡(luò)為主干,利用多孔金字塔池化提取多尺度信息,對(duì)豐富的上下文信息進(jìn)行編碼;采用簡(jiǎn)單有效的解碼器模塊恢復(fù)道路邊界;將深度可分離卷積應(yīng)用到金字塔池化與解碼模塊,使模型更快更穩(wěn)定。本文將BCE與DICE結(jié)合作為損失函數(shù),并選擇最佳權(quán)重比對(duì)網(wǎng)絡(luò)的訓(xùn)練進(jìn)行實(shí)時(shí)地監(jiān)督。實(shí)驗(yàn)結(jié)果表明,該模型具有更好的性能,所提取的道路結(jié)構(gòu)更加完整,道路邊界更加清晰,在綜合評(píng)價(jià)指標(biāo)F1分?jǐn)?shù)上較其他語(yǔ)義分割模型有所改進(jìn)。因此,本文所提出的方法在高分辨率遙感影像道路提取任務(wù)中有著廣泛的應(yīng)用前景。