胡煦航,程小龍,朱濱,傅靜雅
(1.江西理工大學(xué) 土木與測(cè)繪工程學(xué)院,江西 贛州 341000;2.福建省測(cè)繪院,福州 350001)
道路信息作為遙感信息的重要組成部分,在搶險(xiǎn)救災(zāi)、智能駕駛、導(dǎo)航地圖中展現(xiàn)著重要的作用,如何從高分辨率遙感影像中提取完整的道路信息也成為了遙感領(lǐng)域的熱點(diǎn)與難點(diǎn)之一。
傳統(tǒng)的方法[1-3]在道路信息的提取上已經(jīng)初見(jiàn)成效,但是對(duì)于抗遮擋問(wèn)題和環(huán)境適應(yīng)性問(wèn)題很難克服。深度學(xué)習(xí)的方法則是近些年發(fā)展的方向,越來(lái)越受到國(guó)內(nèi)外學(xué)者的重視,研究如何將深度學(xué)習(xí)的方法運(yùn)用到遙感圖像道路提取中具有重大的價(jià)值[4]。戴激光等[5]針對(duì)神經(jīng)網(wǎng)絡(luò)在訓(xùn)練中分辨率降低以及梯度消失的問(wèn)題,提出了基于多尺度卷積神經(jīng)網(wǎng)絡(luò)的方法,相對(duì)于UNet與傳統(tǒng)方法取得了較大的優(yōu)勢(shì);Zhong等[6]使用全卷積神經(jīng)網(wǎng)絡(luò)(fully convolutional network,FCN)在馬薩諸塞州道路數(shù)據(jù)集上進(jìn)行道路提取,獲得了不錯(cuò)的成果;賀浩等[7]提出了一種基于編碼器-解碼器網(wǎng)絡(luò)的遙感影像道路提取方法,通過(guò)對(duì)稱(chēng)的結(jié)構(gòu)以及極少數(shù)的下采樣,保留了更多的道路局部信息;王舒洋等[8]提出了航拍圖像跨數(shù)據(jù)域特征遷移道路提取方法,針對(duì)與新數(shù)據(jù)泛化能力不足的問(wèn)題所提出的方法,對(duì)于沒(méi)有遷移的結(jié)果,獲得了很大的提升,但是遷移過(guò)程是不可控的,可能會(huì)導(dǎo)致道路信息的損耗;Wang等[9]提出一種坐標(biāo)-密集-全局模型的道路信息提取改進(jìn)方法,將坐標(biāo)加入特征圖之中,結(jié)合密集塊與注意力模塊,可以達(dá)到增強(qiáng)邊界信息的效果;針對(duì)道路邊界信息提取不完整、質(zhì)量差的問(wèn)題,赫曉慧等[10]提出了EDRnet,運(yùn)用兩組EDR組合提升了提取結(jié)果的完整性;Zhang等[11]結(jié)合殘差學(xué)習(xí)框架[12]以及UNet網(wǎng)絡(luò)[13],提出了深度殘差UNet運(yùn)用于遙感影像道路信息的提??;相較于深度殘差學(xué)習(xí)框架,Huang等[14]提出了一種緊密連通的卷積網(wǎng)絡(luò)DenseNet,減輕了消失梯度的問(wèn)題,增強(qiáng)了特征傳播,鼓勵(lì)了特征重用,并大大減少了參數(shù)數(shù)量,改善了整個(gè)網(wǎng)絡(luò)中的信息流和梯度,這使得模型易于訓(xùn)練。
在ResUnet運(yùn)用殘差塊傳遞信息過(guò)程中會(huì)造成信息的損耗甚至丟失,殘差塊中通過(guò)跳過(guò)本層卷積模塊而直接達(dá)到下一層的“高速”路徑被稱(chēng)為“恒等映射”,恒等映射這種保留特征的方式會(huì)限制網(wǎng)絡(luò)的表達(dá)能力,影響分割的精確度以及準(zhǔn)確性。針對(duì)這種情況,受到了DenseNet和ResUnet的啟發(fā),本文對(duì)ResUnet進(jìn)行改進(jìn),使用4個(gè)Dense塊堆疊的結(jié)構(gòu)作為編碼器的主要結(jié)構(gòu)。DenseNet使用密集的連通來(lái)連接多級(jí)特征圖,能夠形成輸入層與其他層之間直接的連接通道,從而減少了在信息傳遞過(guò)程中的損耗。當(dāng)具有相當(dāng)?shù)挠?jì)算能力時(shí),密集塊比殘差塊所需的訓(xùn)練參數(shù)量要少[15],在Dense塊之間加入空間通道壓縮與激活模塊,從空間與通道兩方面并行對(duì)輸出的特征圖進(jìn)行重新校準(zhǔn),增強(qiáng)有意義的特征,抑制無(wú)意義特征;在橋接部分加入注意力機(jī)制,擴(kuò)大感受野,捕獲多尺度信息。感受野是指特征映射到輸入空間區(qū)域的大小。感受野越大,則對(duì)應(yīng)的全局信息越豐富,更有助于神經(jīng)網(wǎng)絡(luò)的識(shí)別與推斷。
UNet是生物醫(yī)學(xué)分割任務(wù)中非常受歡迎的網(wǎng)絡(luò)結(jié)構(gòu),它編碼器-解碼器的對(duì)稱(chēng)結(jié)構(gòu)以及對(duì)應(yīng)編碼器與解碼器之間存在直接連接結(jié)構(gòu),使得UNet能夠捕獲更多的上下文信息和只需要少數(shù)樣本就能取得優(yōu)秀的結(jié)果?;诰W(wǎng)絡(luò)越深性能越好的觀點(diǎn),殘差網(wǎng)絡(luò)能夠通過(guò)恒等映射跳過(guò)卷積層,直接將上一層的信息傳遞到下一層從而保留特征,殘差塊的結(jié)構(gòu)如圖1所示。由殘差單元構(gòu)成的UNet,同時(shí)保留了殘差網(wǎng)絡(luò)和UNet的優(yōu)點(diǎn)。殘差網(wǎng)絡(luò)簡(jiǎn)化了網(wǎng)絡(luò)訓(xùn)練,使得梯度爆炸問(wèn)題得到了緩解,能夠建立更深層的網(wǎng)絡(luò)結(jié)構(gòu);殘差單元中所設(shè)計(jì)的恒等映射能夠促進(jìn)UNet的低層信息到高層信息的傳遞,使得能在減少參數(shù)的同時(shí)達(dá)到更好的分割效果,同時(shí)UNet相對(duì)應(yīng)的編碼器與解碼器之間的連接可以幫助上采樣層更好地恢復(fù)圖像的細(xì)節(jié)。但是殘差塊中的恒等映射只能幫助信息以上一層傳遞到下一層形式的逐層傳遞,在傳遞中通過(guò)復(fù)合操作會(huì)產(chǎn)生信息的損耗或者消失,不利于對(duì)圖像特征的識(shí)別,而且殘差塊會(huì)造成塌陷域問(wèn)題,降低網(wǎng)絡(luò)的學(xué)習(xí)能力[16]?;谶@種情況下,對(duì)ResUnet進(jìn)行改進(jìn),引入密集網(wǎng)絡(luò)中的Dense塊替代殘差塊。殘差塊的運(yùn)行工作原理如式(1)所示。
xl=Hl(xl-1)+xl-1
(1)
式中:xl為第l層所輸出的特征;Hl(·)為第l層中如卷積、采樣、歸一化等操作的復(fù)合函數(shù);xl-1為第l-1層所輸出的特征。
圖1 Dense塊與殘差塊的對(duì)比圖
對(duì)原有的ResUnet進(jìn)行了三方面的改進(jìn):①在編碼器部分使用密集單元替代了原有的殘差單元;②在每一個(gè)密集單元之間加入空間通道壓縮與激活模塊,利用對(duì)通道以及空間的擠壓重新校準(zhǔn)特征圖,再對(duì)校準(zhǔn)之后的特征圖進(jìn)行激活,激活之后經(jīng)過(guò)轉(zhuǎn)置輸入下一個(gè)密集塊;③利用空洞空間卷積池化金字塔模塊作為橋接部分,擴(kuò)大感受野,提供多尺度信息,使得分割更加完整。
1)密集塊替代殘差塊。如果卷積網(wǎng)絡(luò)在輸入層和輸出層之間存在較直接的連接,則可以進(jìn)行更深入、更準(zhǔn)確和有效的訓(xùn)練。文獻(xiàn)[14]編寫(xiě)了DenseNet。DenseNet將先前層的特征圖都用作輸入,并且將自身的特征圖也用作后續(xù)的層的輸入,這樣可以直接形成從輸入層到輸出層以及后續(xù)層之間的連接,從而減少了在層與層信息傳遞所帶來(lái)的損耗,得一個(gè)L層的Dense塊可以具有L(L+1)/2個(gè)連接。但是即便是有如此多的連接,在參數(shù)量方面,Dense塊的參數(shù)量還是比殘差塊要少。圖1展示了一個(gè)層數(shù)為4的Dense塊與殘差塊相比,Dense塊并不是通過(guò)極深的網(wǎng)絡(luò)去體現(xiàn)能力,主要是通過(guò)特征重用,將不同層的特征圖連接起來(lái),為后續(xù)層的輸入增加了多樣性,提高了模型的效率;并且Dense塊中每一個(gè)卷積都輸出k個(gè)特征圖,超參數(shù)k被命名為增長(zhǎng)率,在結(jié)構(gòu)中一般當(dāng)k是一個(gè)較小的數(shù)的時(shí)候,就可以獲得優(yōu)秀的性能。所以它在減輕梯度爆炸的同時(shí)增強(qiáng)了特征傳遞,鼓勵(lì)了特征重用,減少了參數(shù)數(shù)量。在本文中增長(zhǎng)率k設(shè)置為16,隨機(jī)失活率是20%。DenseNet運(yùn)行工作原理如式(2)所示。
xl=Hl([x0,x1,…,xl-1])
(2)
式中:xl為第l層所輸出的特征;Hl(·)為第l層中如卷積、采樣、歸一化等操作的復(fù)合函數(shù);[x0,x1,…,xl-1]為從第0層到第l-1層所產(chǎn)生的特征的串聯(lián)。
2)空間通道壓縮與激活模塊的使用??臻g通道壓縮與激活模塊[17]由兩個(gè)部分組成,其結(jié)構(gòu)如圖2所示??臻g壓縮和通道激勵(lì)模塊[18]首先是對(duì)空間進(jìn)行壓縮,使得全局信息嵌入,之后通過(guò)激活函數(shù)對(duì)通道進(jìn)行激活,隨著網(wǎng)絡(luò)的學(xué)習(xí),對(duì)通道的激活進(jìn)行自適應(yīng)的調(diào)整,從而強(qiáng)調(diào)重要的通道忽略無(wú)關(guān)的通道。通道壓縮和空間激勵(lì)模塊與空間壓縮和通道激勵(lì)模塊同理,通過(guò)對(duì)通道進(jìn)行壓縮之后對(duì)空間進(jìn)行激活,從而強(qiáng)調(diào)了重要的空間位置,忽略了無(wú)關(guān)的空間位置,這對(duì)于分割來(lái)說(shuō)是非常重要的。運(yùn)用空間通道壓縮與激活模塊,通過(guò)對(duì)空間與通道的縮放以及激活達(dá)到了對(duì)重要的空間位置以及通道進(jìn)行增強(qiáng)的目的,對(duì)輸入的特征圖進(jìn)行重新校準(zhǔn),對(duì)特征進(jìn)行篩選,增強(qiáng)了有意義的特征而且忽略了無(wú)關(guān)特征,可以使得分割更加準(zhǔn)確,分割邊界更加平滑。
圖2 空間通道壓縮與激活結(jié)構(gòu)圖
3)空洞空間卷積池化金字塔模塊橋接??斩纯臻g卷積池化金字塔模塊[19]有多個(gè)不同采樣率的卷積層,利用0填充擴(kuò)大卷積層的感受野,形成空洞卷積,結(jié)構(gòu)如圖3所示。通過(guò)不同采樣率的卷積收集多尺度信息,每一個(gè)卷積層都是并聯(lián)運(yùn)行,在卷積之后添加批量歸一化處理[20]??斩纯臻g卷積池化金字塔模塊在許多分割網(wǎng)絡(luò)中已經(jīng)顯示出優(yōu)秀的結(jié)果,本文運(yùn)用空洞空間卷積池化金字塔模塊作為橋接部分,承接編碼器與解碼器之間的連接部分,通過(guò)不同的空洞率擴(kuò)大感受野,并行的卷積層能夠獲取更多有意義的多尺度信息。
圖3 空洞空間卷積池化金字塔模塊結(jié)構(gòu)
改進(jìn)的網(wǎng)絡(luò)如圖4所示,改進(jìn)后的網(wǎng)絡(luò)具有比ResUnet更少的模型參數(shù)量,在模型深度比ResUnet大的同時(shí),能夠提高信息提取完整性和保證改進(jìn)的模型對(duì)復(fù)雜環(huán)境的適應(yīng)性。
圖4 本文設(shè)計(jì)的網(wǎng)絡(luò)結(jié)構(gòu)
為了驗(yàn)證改進(jìn)后ResUnet網(wǎng)絡(luò)結(jié)構(gòu)的精確性以及有效性,本文在馬薩諸塞州道路數(shù)據(jù)集[21]上進(jìn)行測(cè)試,并且與原有的ResUnet網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行對(duì)比。
馬薩諸塞州道路數(shù)據(jù)集是由Mihn和Hinton所制作的,包括了從城市到城鎮(zhèn)到農(nóng)村約500 km2的空間。數(shù)據(jù)集一共包括1 171張影像,1 108張影像運(yùn)用于訓(xùn)練,14張影像運(yùn)用于驗(yàn)證,49張影像運(yùn)用于測(cè)試。數(shù)據(jù)集中所有圖像的大小為1 500像素×1 500像素,分辨率為1.2 m。影像中包含了高速公路、鄉(xiāng)村土路、瀝青路,以及具有干擾性的鐵軌、河流、海洋等。
在馬薩諸塞州道路數(shù)據(jù)集中一張影像的大小是1 500像素×1 500像素,通過(guò)設(shè)置將原數(shù)據(jù)集裁剪為224像素×224像素,重疊度設(shè)置為14,增加數(shù)據(jù)集。通過(guò)隨機(jī)裁剪、水平反轉(zhuǎn)、垂直翻轉(zhuǎn)、隨機(jī)添加噪聲等方法對(duì)數(shù)據(jù)集進(jìn)行數(shù)據(jù)增強(qiáng),獲得20 000張訓(xùn)練集影像,其中訓(xùn)練集與驗(yàn)證集的比例為9∶1,對(duì)測(cè)試集進(jìn)行相同操作獲得49組測(cè)試集影像。
本實(shí)驗(yàn)在Intel(R)Xeon(R)Gold 5122 CPU @ 3.60 GHz 3.59 GHz 2處理器上、128 GB內(nèi)存、Windows10系統(tǒng)下運(yùn)行,NVIDIA Quadro P5000 GPU加速。模型基于以Tensorflow為后端的Keras深度學(xué)習(xí)框架所完成。
將馬薩諸塞州道路數(shù)據(jù)集中的原圖和標(biāo)簽圖輸入改進(jìn)的網(wǎng)絡(luò),輸入的強(qiáng)度圖像經(jīng)過(guò)多次卷積運(yùn)算及空間與通道校準(zhǔn)操作,進(jìn)行特征提取,圖像尺寸縮小,產(chǎn)生抽象的特征圖,然后利用空洞空間卷積池化金字塔模塊橋接部分,通過(guò)多重采樣率采集多尺度信息,再通過(guò)上采樣與編碼器中相同大小的特征圖進(jìn)行級(jí)聯(lián)輸入殘差塊進(jìn)行解碼,恢復(fù)到與輸入圖像相同的尺寸,從而對(duì)每個(gè)像素都產(chǎn)生了一個(gè)預(yù)測(cè)。模型的損失函數(shù)為二元交叉熵函數(shù),在訓(xùn)練過(guò)程中使用自適應(yīng)矩估計(jì)(adaptive moment estimation,Adam)優(yōu)化算法進(jìn)行優(yōu)化,加快收斂,初始學(xué)習(xí)率設(shè)置為0.001,批大小設(shè)置為8,本文的模型在70個(gè)回合內(nèi)達(dá)到收斂。
在馬薩諸塞州道路數(shù)據(jù)集上,將所改進(jìn)的模型與原有的ResUnet進(jìn)行了比較,將精確度、召回率、F1分?jǐn)?shù)以及Dice系數(shù)作為評(píng)估指標(biāo)。使用馬薩諸塞州道路數(shù)據(jù)驗(yàn)證集中49張測(cè)試照片進(jìn)行驗(yàn)證,結(jié)果如表1所示。
表1 不同模型在測(cè)試集上的道路提取結(jié)果對(duì)比
從對(duì)比表可以得到結(jié)果,ResUnet模型運(yùn)用殘差模塊與編碼器-解碼器相結(jié)合的結(jié)構(gòu),在道路信息提取的精確度、召回率、F1分?jǐn)?shù)、Dice系數(shù)分別達(dá)到了87.99%、80.59%、84.25%、81.60%;改進(jìn)的ResUnet模型在各項(xiàng)指標(biāo)上都有提升,精確度達(dá)到了88.62%,召回率、F1分?jǐn)?shù)、Dice系數(shù)分別達(dá)到了84.19%、86.35%、83.22%,與ResUnet相比分別提高了0.63%、3.60%、2.10%、1.62%。在運(yùn)行時(shí)間上,改進(jìn)的網(wǎng)絡(luò)提取49張測(cè)試集影像花費(fèi)了約39 s,平均每一組影像小于一秒;而ResUnet提取49張測(cè)試集影響花費(fèi)了約41 s,改進(jìn)的網(wǎng)絡(luò)比ResUnet在分割速度上快了約2 s。在訓(xùn)練參數(shù)上面,改進(jìn)的網(wǎng)絡(luò)只需要訓(xùn)練24.6×106的參數(shù),比ResUnet所需要訓(xùn)練31.4×106參數(shù)要少,可以充分地證明所改進(jìn)的網(wǎng)絡(luò)比之前獲得了較大的提升。圖5展示了在訓(xùn)練過(guò)程中驗(yàn)證集精度與損失的變化曲線,從圖中可以看出,在網(wǎng)絡(luò)模型達(dá)到收斂的時(shí)候,改進(jìn)的網(wǎng)絡(luò)無(wú)論是精度還是損失值都要優(yōu)于原有的網(wǎng)絡(luò)。
圖5 兩組模型的訓(xùn)練過(guò)程曲線
從定量的角度來(lái)分析,改進(jìn)的模型已經(jīng)超過(guò)了ResUnet網(wǎng)絡(luò)。圖6顯示兩組模型對(duì)于測(cè)試集影像提取的可視化對(duì)比,第一列為測(cè)試集影像,第二列為地面真值,第三列為ResUnet的提取結(jié)果,第四列為改進(jìn)方法的提取結(jié)果。從實(shí)驗(yàn)結(jié)果可以看到,第一行測(cè)試集影像中,對(duì)路面兩組模型都識(shí)別成功,但是ResUnet所提取的結(jié)果中十字路口路面出現(xiàn)了斷裂、不連接的情況,改進(jìn)的模型提取效果更完整;在第二行影像中,出現(xiàn)了呈條帶狀的房屋,而且同路面貼在一起,這對(duì)路面的提取出現(xiàn)了一定的干擾,ResUnet在提取過(guò)程中出現(xiàn)了無(wú)法提取的結(jié)果,所改進(jìn)的網(wǎng)絡(luò)總體上來(lái)說(shuō)要優(yōu)于ResUnet;在第三行影像和第四行影像中,訓(xùn)練集影像中道路存在被遮擋的現(xiàn)象,在第三行中路面出現(xiàn)比較嚴(yán)重的遮擋,ResUnet識(shí)別到了但是未能提取到,出現(xiàn)了一段空缺,而第四行影像中道路發(fā)生了斷斷續(xù)續(xù)的遮擋,改進(jìn)的模型很好地對(duì)被部分遮擋的道路進(jìn)行識(shí)別與分割,這因?yàn)樵谟?xùn)練集中包含了被樹(shù)木所部分遮擋的路面信息,所改進(jìn)網(wǎng)絡(luò)對(duì)此進(jìn)行了充分的識(shí)別。
圖6 馬薩諸塞州道路數(shù)據(jù)集可視化比較結(jié)果
相較于原有的模型,改進(jìn)的模型具有更大的網(wǎng)絡(luò)深度,在提高了網(wǎng)絡(luò)深度的同時(shí)還添加了注意力模塊,從而訓(xùn)練所需要的時(shí)間多于原有的模型。在對(duì)于道路的識(shí)別中,最主要的遮擋來(lái)自于樹(shù)木的遮擋以及房屋對(duì)道路邊緣的掩蓋和影像中其他物體投影對(duì)路面顏色的改變。在本文實(shí)驗(yàn)數(shù)據(jù)集中,包含了因物體的投影遮擋而改變了道路的顏色或者邊緣信息的樣本,也存在被樹(shù)木完全遮擋的樣本。從圖7中可以看出,在被樹(shù)木遮擋的地區(qū),特別是道路與道路相連接處和遮擋較嚴(yán)重地方,原有的模型所提取的結(jié)果出現(xiàn)了路面斷裂不連接的情況,改進(jìn)的網(wǎng)絡(luò)則對(duì)這些情況進(jìn)行了效果很好的提取,結(jié)果表明,雖然改進(jìn)的網(wǎng)絡(luò)訓(xùn)練時(shí)間多于原有網(wǎng)絡(luò),但是在有樹(shù)木遮擋的情況下具有良好的抗遮擋性,在復(fù)雜的場(chǎng)景下具有良好的適應(yīng)性。
圖7 被遮擋區(qū)域提取效果
針對(duì)遙感影像中道路的特點(diǎn),本文結(jié)合DenseNet網(wǎng)絡(luò)模型,提出了一種對(duì)ResUnet改進(jìn)的遙感影像道路提取網(wǎng)絡(luò)。該網(wǎng)絡(luò)以編碼器-解碼器結(jié)構(gòu)為基礎(chǔ),使用多個(gè)Dense塊所疊加的結(jié)構(gòu)替換了原有的編碼器,并且在每一個(gè)Dense塊之間加入了轉(zhuǎn)置層和空間通道壓縮與激活模塊,這可以方便信息的傳播以及對(duì)于空間和通道的重新校準(zhǔn),橋接部分使用了空洞空間卷積池化金字塔模塊,擴(kuò)大感受野,提取多尺度信息。在馬薩諸塞州道路數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本文所提的網(wǎng)絡(luò)各項(xiàng)精度指標(biāo)表現(xiàn)優(yōu)異,精確度、召回率、F1分?jǐn)?shù)以及Dice系數(shù)分別達(dá)到了88.62%、84.19%、86.35%、83.22%,具有一定的抗遮擋以及推理能力,具有良好的魯棒性。但由于增加了網(wǎng)絡(luò)深度和多個(gè)注意力模塊,改進(jìn)的網(wǎng)絡(luò)訓(xùn)練所需要的時(shí)間多于ResUnet,接下來(lái)的工作將主要專(zhuān)注于如何去縮短訓(xùn)練時(shí)間,提高網(wǎng)絡(luò)的抗遮擋能力,優(yōu)化分割結(jié)果。