左宗成,張 文,張東映
1. 武漢大學(xué)遙感信息工程學(xué)院,湖北 武漢 430079; 2. 歐特克(中國)軟件研發(fā)有限公司,上海 200122; 3. 鄭州大學(xué)水利與環(huán)境學(xué)院,河南 鄭州 450002
高分辨率遙感影像已經(jīng)在制圖、城市規(guī)劃、災(zāi)害監(jiān)測(cè)、房地產(chǎn)管理、計(jì)量經(jīng)濟(jì)學(xué)、作物分類和氣候研究等多領(lǐng)域得到應(yīng)用[1]。遙感影像語義分割作為高分辨率遙感影像信息提取與目標(biāo)識(shí)別的前提和基礎(chǔ),是實(shí)現(xiàn)從數(shù)據(jù)到信息的對(duì)象化提取的過渡環(huán)節(jié)和關(guān)鍵步驟,具有十分重要的意義[2]。圖像語義分割不同于圖像分類或物體檢測(cè)等任務(wù),圖像語義分割是一個(gè)空間密集型的預(yù)測(cè)任務(wù),換言之,這需要預(yù)測(cè)一幅圖像中所有像素點(diǎn)的類別[3]。語義分割旨在分類每一個(gè)像素到指定的類別,是一種對(duì)于理解和推理對(duì)象以及場(chǎng)景中物體之間關(guān)系的重要任務(wù)。作為通向高級(jí)任務(wù)的橋梁,在計(jì)算機(jī)視覺和遙感領(lǐng)域中,語義分割被用在了多種應(yīng)用中,例如自動(dòng)駕駛、姿態(tài)估計(jì)、遙感影像解譯及3D重建等[4]。傳統(tǒng)的特征提取難以應(yīng)付空間變換的要求,并且手工特征設(shè)計(jì)難度大。自從FCNs[3]首次被用于圖像的語義分割之后,新的方法不斷被創(chuàng)造。近年來,由于深度卷積神經(jīng)網(wǎng)絡(luò)的廣泛使用使得密集型預(yù)測(cè)的語義分割取得了長足的發(fā)展。最近的工作都表明,在許多圖像處理任務(wù)中,深度學(xué)習(xí)模型往往顯著優(yōu)于傳統(tǒng)的方法[5]。
標(biāo)準(zhǔn)的卷積操作通常是在特征圖譜固定的位置上進(jìn)行采樣,對(duì)于復(fù)雜目標(biāo)對(duì)象的檢測(cè)來說不是很合理,這是因?yàn)椴煌恢脤?duì)應(yīng)的目標(biāo)大小是不同的。如果能夠使得感受野[6]在不同位置的大小進(jìn)行自適應(yīng)調(diào)整,那么對(duì)于語義分割任務(wù)必然有很大的幫助。
其次,對(duì)于深度卷積神經(jīng)網(wǎng)絡(luò)來說,從分類器獲取以對(duì)象為中心的決策需要空間不變性,其內(nèi)在特性限制了深度卷積神經(jīng)網(wǎng)絡(luò)(DCNNs)的空間精度模型,并且DCNNs的最后一層通常沒有充分地對(duì)局部對(duì)象進(jìn)行分割,所以本文通過采用全連接的條件隨機(jī)場(chǎng)來提升本文方法捕獲細(xì)節(jié)的能力[7]。條件隨機(jī)場(chǎng)(CRF)已廣泛應(yīng)用于語義分割,以便將由多方向分類器計(jì)算的類別得分與由像素和邊緣的局部交互所捕獲的低級(jí)信息進(jìn)行綜合[8]。因此本文提出一種融合可變形卷積與條件隨機(jī)場(chǎng)的方法來解決標(biāo)準(zhǔn)卷積操作對(duì)空間自適應(yīng)能力的欠缺以及采用條件隨機(jī)場(chǎng)的方法來提高局部分割精度。
本文方法主要分為3個(gè)步驟:①對(duì)常規(guī)的標(biāo)準(zhǔn)卷積添加了一項(xiàng)二維偏移量到采樣網(wǎng)格中,得到一種可變形卷積網(wǎng)絡(luò)[9],該項(xiàng)偏移量的添加使得卷積網(wǎng)絡(luò)可以自由形成變形,這些偏移量是通過卷積層抽取的特征圖譜進(jìn)行學(xué)習(xí)而來;②訓(xùn)練的網(wǎng)絡(luò)采用VGGNet網(wǎng)絡(luò)的參數(shù)進(jìn)行初始化,反卷積網(wǎng)絡(luò)作為分割結(jié)果層進(jìn)行預(yù)測(cè)每個(gè)像素的分類結(jié)果;③對(duì)輸出的粗糙預(yù)測(cè)分割結(jié)果進(jìn)行CRF操作,得到精細(xì)化的分割圖。
1.1.1 可變形卷積
傳統(tǒng)的二維圖像上的卷積操作包含兩個(gè)步驟:①在輸入特征圖譜x上采用常規(guī)網(wǎng)格R進(jìn)行采樣;②由w加權(quán)的采樣值的求和。網(wǎng)格R定義了感受野的大小和步幅。例如:R={(-1,-1),(-1,0),(-1,1),(0,1),(0,0),(0,-1),(1,1),(1,0),(1,-1)}定義了一個(gè)步幅為1的3×3卷積核。對(duì)于輸出特征圖譜y上的每個(gè)位置p0可得到
(1)
可變形卷積使用偏移{Δpn|n=1,…,N}擴(kuò)充了常規(guī)網(wǎng)格R,這里的N=|R|。上述方程變?yōu)?/p>
(2)
現(xiàn)在,采樣在不規(guī)則和偏移位置pn+Δpn之上。由于偏移Δpn通常是小數(shù)形式的,式(2)通過雙線性插值變換之后變?yōu)?/p>
(3)
式中,p代表一個(gè)任意位置(p=p0+pn+Δpn);q枚舉特征圖譜x中的所有的積分空間位置;G(.,.)代表雙線性插值核。這里的G是二維的,它可以被分為兩個(gè)一維的內(nèi)核
G(q,p)=g(qx,px)g(qy,py)
(4)
式中,g(a,b)=max(0,1-|a-b|)。式(4)是快速計(jì)算,因?yàn)镚(q,p)僅對(duì)于部分q的取值是非零的。
如式(2)所示,可變形卷積是通過在相同的輸入特征圖譜上應(yīng)用卷積層來獲得偏移??勺冃尉矸e核與當(dāng)前卷積層也是具有相同的空間分辨率。輸出偏移量與輸入特征圖譜具有相同的空間分辨率。當(dāng)通道維數(shù)為2N時(shí),需要編碼N個(gè)二維偏移向量。在神經(jīng)網(wǎng)絡(luò)訓(xùn)練期間,可以學(xué)習(xí)用于產(chǎn)生輸出特征和產(chǎn)生偏移量的卷積內(nèi)核。在可變形卷積模塊上執(zhí)行的梯度可以通過式(3)和式(4)中的雙線性運(yùn)算來反向傳播。
文獻(xiàn)[10]發(fā)現(xiàn),感受野中并不是所有的像素都有助于輸出單元響應(yīng)。由于靠近中心的像素具有更大的影響,所以有效感受野只占理論感受野中的小部分,并服從高斯分布。雖然理論感受野尺寸隨著卷積層的數(shù)量線性增加,但讓人感到意外的是,有效感受野尺寸是隨著卷積層數(shù)量的平方根線性增加,因此以比預(yù)期慢得多的速率進(jìn)行收斂[10]。這一發(fā)現(xiàn)表明,即便是CNNs中的頂層單元也可能沒有足夠大的感受野。這部分也解釋了為什么空洞卷積[11]被廣泛應(yīng)用于視覺任務(wù)。它揭示了可自適應(yīng)性感受野學(xué)習(xí)的必要性??勺冃尉矸e能夠自適應(yīng)地學(xué)習(xí)感受野,如圖1所示。
在標(biāo)準(zhǔn)卷積中的空間采樣位置增加了額外的偏移量就可以得到可變形卷積。這些偏移量是從目標(biāo)任務(wù)驅(qū)動(dòng)的數(shù)據(jù)中學(xué)習(xí)的。當(dāng)可變形模塊堆疊成多層時(shí),復(fù)合變形的影響是巨大的。相較于標(biāo)準(zhǔn)卷積而言,對(duì)于復(fù)雜目標(biāo)可變形卷積有著強(qiáng)大的自適應(yīng)提取能力。如圖1所示,標(biāo)準(zhǔn)卷積濾波器中的感受野和采樣位置在上層特征圖譜上是固定的(圖1(a));當(dāng)使用可變形卷積時(shí),它們會(huì)根據(jù)物體的尺度和形狀進(jìn)行自適應(yīng)調(diào)整(圖1(b))。特別是對(duì)于非剛性物體增強(qiáng)了目標(biāo)定位能力。
圖1 標(biāo)準(zhǔn)卷積與可變形卷積Fig.1 Standard convolution and deformable convolution
1.1.2 可變形卷積的網(wǎng)絡(luò)結(jié)構(gòu)
可變形卷積與標(biāo)準(zhǔn)卷積有著相同的輸入和輸出。因此,在神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中可變形卷積可以很容易替換標(biāo)準(zhǔn)卷積操作。在訓(xùn)練期間,可以學(xué)習(xí)用于產(chǎn)生輸出特征和產(chǎn)生偏移量的卷積內(nèi)核。在可變形卷積模塊上執(zhí)行的梯度可以通過式(3)中的雙線性運(yùn)算來反向傳播。他們通過反向傳播訓(xùn)練,通過方程式中的雙線性插值運(yùn)算,所得到的CNNs稱為可變形網(wǎng)絡(luò)(deformable ConvNets)??勺冃尉W(wǎng)絡(luò)自動(dòng)學(xué)習(xí)預(yù)測(cè)影像中物體對(duì)象的位置,它是基于增強(qiáng)空間采樣位置的能力為考量并使用非監(jiān)督方法從目標(biāo)任務(wù)中學(xué)習(xí)偏移量。
為了將可變形ConvNets與現(xiàn)有的CNNs架構(gòu)相結(jié)合,本文提出由3個(gè)階段組成的流程來實(shí)現(xiàn)可變形卷積網(wǎng)絡(luò)。首先,深度全卷積網(wǎng)絡(luò)(DFCNs)在整個(gè)輸入圖像上生成特征圖譜;其次,從特征圖譜中生成分割結(jié)果;最后,對(duì)于粗糙的結(jié)果進(jìn)行反卷積得到精細(xì)化的分割圖。以下詳細(xì)說明這3個(gè)步驟。
(1) 可變形卷積的特征提取。本文采用廣泛使用且具有良好性能的特征提取架構(gòu)VGGNet[12]作為特征提取層。網(wǎng)絡(luò)的初始化參數(shù)在ImageNet[13]分類數(shù)據(jù)集上進(jìn)行了預(yù)訓(xùn)練。這個(gè)VGGNet模型是由卷積層、平均池化層和一個(gè)用于ImageNet分類的1000路全連接層組成。本文刪除了平均池化層和全連接層。像通常的做法[14]一樣,本文將最后卷積塊中的有效步幅從32像素減少到16像素,以增加特征映射分辨率。本文中可變形卷積層被施加在最后3層作為特征提取層。
(2) 語義分割網(wǎng)絡(luò)。當(dāng)前有許多可用的語義分割的網(wǎng)絡(luò)架構(gòu)。本文選擇SegNet架構(gòu)[15](圖2),因?yàn)樗峁┝司扰c計(jì)算成本之間的良好平衡。以此結(jié)構(gòu)為基礎(chǔ),嵌入可變形卷積結(jié)構(gòu)。SegNet的對(duì)稱架構(gòu)使得它對(duì)池化層及反卷積的使用非常有效,這對(duì)于遙感數(shù)據(jù)來說至關(guān)重要。除了SegNet,還對(duì)DeepLab[16]進(jìn)行了初步試驗(yàn),結(jié)果顯示并沒有顯著改善甚至沒有改善。因此,沒有必要切換到更昂貴的計(jì)算架構(gòu)。請(qǐng)注意,本文方法可以輕松地適應(yīng)其他架構(gòu),而不是限定于SegNet的架構(gòu)。SegNet具有VGG-16的卷積層的編碼器與解碼器架構(gòu)[17-18]。編碼器由一系列卷積層組成,每個(gè)卷積層后面緊跟著的是批量歸一化[19]和整流線性單元。卷積塊之后是池化層,本文采用步幅為2的最大池化層操作。沒有試驗(yàn)其他的激活函數(shù),如PReLU[20]或ELU[21],也沒有進(jìn)一步改變SegNet架構(gòu)。這樣做的目的是為了在后續(xù)試驗(yàn)中對(duì)比可變形卷積的性能。
(3) 反卷積網(wǎng)絡(luò)。解碼器的結(jié)構(gòu)與編碼器是對(duì)稱的,解碼器對(duì)于輸入結(jié)果進(jìn)行上采樣,本文使用文獻(xiàn)[24]中的策略隨機(jī)初始化解碼器中網(wǎng)絡(luò)的權(quán)重。在一般的CNNs結(jié)構(gòu)中,如AlexNet、VGGNet均使用了池化操作來縮小輸出圖片的尺寸,例如VGGNet,5次池化操作后輸入圖像的尺寸被縮小了32倍。本文目的是得到一個(gè)與原圖像尺寸相同的分割圖,因此需要對(duì)最后一層特征提取層進(jìn)行上采樣。卷積網(wǎng)絡(luò)輸出的特征圖譜是縮小的尺寸,因?yàn)樽罱K預(yù)測(cè)的分割圖是基于像素的,所以需要對(duì)卷積網(wǎng)絡(luò)的輸出進(jìn)行反卷積操作。反卷積就是卷積計(jì)算的逆過程,可以從卷積過程中來推導(dǎo)反卷積的過程
Wn+1=(Wn+2p-k)/s+1
(5)
Hn+1=(Hn+2p-k)/s+1
(6)
式中,W表示寬度;p表示填充像素大?。籯表示卷積核尺寸;s表示卷積的步幅??梢院苋菀淄茖?dǎo)到反卷積的公式
Wn=s+k-2p(Wn+1-1)
(7)
Hn=s+k-2pHn+1
(8)
本文使用卷積特征圖譜的后3層作為反卷積的輸入特征。
(9)
式(9)即為訓(xùn)練網(wǎng)絡(luò)的損失函數(shù)。
圖2 帶有編碼器和解碼器的SegNet架構(gòu)Fig.2 SegNet architecture with an encoder and a decoder
DCNNs得分圖可以可靠地預(yù)測(cè)圖像中已知的對(duì)象和粗略位置,但不太適合用于指向其精確的輪廓。卷積網(wǎng)絡(luò)的分類準(zhǔn)確度和定位精度之間有一個(gè)合適的權(quán)衡:具有多個(gè)最大池化層的深層模型在分類任務(wù)中被證明是成功的,然而過多的池化層所帶來的對(duì)空間不變性的提升與有效感受野增大的同時(shí)也使得從網(wǎng)絡(luò)輸出層根據(jù)得分推斷位置變得更具挑戰(zhàn)性。
解決這個(gè)問題目前有兩種方法:第1種方法是利用卷積網(wǎng)絡(luò)中多尺度的信息來更好地估計(jì)對(duì)象邊界[3,22];第2種方法是采用超像素表示,基本上將定位任務(wù)委托給低級(jí)分割方法,這種解決思路由文獻(xiàn)[23]提出。
條件隨機(jī)場(chǎng)已被廣泛應(yīng)用于平滑噪聲分割圖[24-25]。通常,這些模型包含耦合相鄰節(jié)點(diǎn)的能量項(xiàng),有利于對(duì)空間鄰近像素的類別分配[26]。本質(zhì)上,這些短距離CRF的主要功能是清理基于局部手工設(shè)計(jì)的弱分類器的虛假預(yù)測(cè)。嚴(yán)格來說,這種模式適合于有效的近似概率推理[27]。本文通過融合DCNNs的識(shí)別能力和全連接的條件隨機(jī)場(chǎng)(CRF)的細(xì)粒度定位精度來尋求新的替代方向,通過試驗(yàn)表明它在解決逐像素定位與分類方面取得了良好的結(jié)果,產(chǎn)生了準(zhǔn)確的語義分割結(jié)果以及恢復(fù)對(duì)象邊界的細(xì)節(jié)能力。
圖3所示為模型的分割流程。通過可變形卷積采樣POI區(qū)域,然后得到特征圖譜,使用特征圖譜來生成粗糙的縮小分割圖,再通過反卷積插值得到同尺寸的預(yù)測(cè)分割圖,最后將此粗糙的分割圖使用CRF進(jìn)行精細(xì)化分割,得到精細(xì)化的分割圖。
圖3 語義分割流程Fig.3 The flowchart of the proposed approach
本文使用ISPRS Vaihingen 2D語義標(biāo)簽遙感數(shù)據(jù)集[28]來評(píng)估本文提出的方法。這是一個(gè)開放的基準(zhǔn)數(shù)據(jù)集。數(shù)據(jù)集由33幅大小不同的圖像組成,每幅圖像為300萬至1000萬像素,圖像是在德國Vaihingen地區(qū)拍攝的高分辨率正射影像,影像的平均尺寸約2493×2063像素,分辨率為9 cm。除了正射影像之外,數(shù)據(jù)集中還包含具有相同空間分辨率的數(shù)字表面模型(DSM)圖像。此外,文獻(xiàn)[29]提供了歸一化的DSM,以限制不同地面高度的影響。33幅圖像中的16幅圖像已被正確標(biāo)注,其中所有像素都被標(biāo)記,總共分為6個(gè)類別,即道路、建筑物、植被、樹木、車輛及雜類地物(例如集裝箱、網(wǎng)球場(chǎng)、游泳池等)。如以前在其他方法中所做的那樣,試驗(yàn)中不包括雜類,因?yàn)殡s類的像素面積僅占總圖像像素的0.88%。
ISPRS只提供16幅標(biāo)注的圖像進(jìn)行訓(xùn)練,而其余17幅圖像未標(biāo)注用于評(píng)估提交的方法。為了評(píng)估本文方法,有標(biāo)簽分類的數(shù)據(jù)集被分為訓(xùn)練集和驗(yàn)證集。按照文獻(xiàn)[30]的例子,訓(xùn)練集包含11幅圖像(圖幅區(qū)域?yàn)?、3、5、7、13、17、21、23、26、32、37);驗(yàn)證集包含5幅圖像(圖幅區(qū)域?yàn)?1、15、28、30、34)。
高分辨率遙感圖像通常尺寸較大,無法整幅圖像通過卷積進(jìn)行處理。例如,來自Vaihingen數(shù)據(jù)集的ISPRS瓦片的平均尺寸為2493×2063像素,而大多數(shù)卷積操作的分辨率為256×256。鑒于目前的GPU內(nèi)存限制,本文使用滑動(dòng)窗口將原始的遙感影像分割成較小的圖像塊。如果卷積步幅小于圖像塊尺寸,在連續(xù)圖像塊重疊的情況下,對(duì)多個(gè)預(yù)測(cè)進(jìn)行平均,以獲得重疊像素的最終分類。這可以平滑每個(gè)圖像塊邊界的預(yù)測(cè),并消除可能出現(xiàn)的不連續(xù)性。
本文的目標(biāo)是將當(dāng)前計(jì)算機(jī)視覺領(lǐng)域中的典型的人工神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)應(yīng)用到地球觀測(cè)數(shù)據(jù)中,因此,使用最初為RGB數(shù)據(jù)設(shè)計(jì)的人工神經(jīng)網(wǎng)絡(luò),處理后的圖像必須遵守這種3通道格式。ISPRS數(shù)據(jù)集包含Vaihingen的IRRG圖像,因此,3個(gè)通道(近紅外、紅色和綠色)將被處理為RGB圖像。該數(shù)據(jù)集包含從空載激光傳感器獲取的數(shù)字表面模型(DSM)的數(shù)據(jù)。本文還將使用文獻(xiàn)[30]中的歸一化數(shù)字表面模型(NDSM),然后從近紅外和紅外通道計(jì)算歸一化差異植被指數(shù)(NDVI),最終使用DSM,NDSM和NDVI信息為每個(gè)IRRG圖像構(gòu)建一個(gè)相對(duì)應(yīng)的合成圖像。
本試驗(yàn)中深度學(xué)習(xí)網(wǎng)絡(luò)的訓(xùn)練設(shè)備為4核心8線程Intel I7-7700K CPU;32 GB內(nèi)存;NVIDIA GTX 1080顯卡,8 G顯存。軟件環(huán)境為Ubuntu16.04.01操作系統(tǒng);開發(fā)平臺(tái)是Anaconda 4.3.1;內(nèi)置的Python版本為3.6.1;深度學(xué)習(xí)軟件框架是TensorFlow1.2。本次試驗(yàn)訓(xùn)練迭代次數(shù)為5e5,總訓(xùn)練時(shí)間為32 h 30 min。
本文使用隨機(jī)梯度下降方法訓(xùn)練網(wǎng)絡(luò)。學(xué)習(xí)率采用固定大小,本文使用的學(xué)習(xí)率為5e-3,學(xué)習(xí)率過大容易無法收斂,太小訓(xùn)練時(shí)間過長。批處理數(shù)量(batch)受到顯存大小的限制,所以本文設(shè)置batch=10。本文網(wǎng)絡(luò)特征提取層的權(quán)重使用了VGGNet[20]上進(jìn)行預(yù)訓(xùn)練的權(quán)重,遷移預(yù)訓(xùn)練的權(quán)重可以增強(qiáng)網(wǎng)絡(luò)在特征提取的性能。
本文使用ISPRS[28]定義的評(píng)估方法來評(píng)估結(jié)果,用F1分?jǐn)?shù)來評(píng)估試驗(yàn)的結(jié)果
(10)
2.4.1 分割結(jié)果的比較
本文模型在ISPRSVaihingen數(shù)據(jù)集上獲得了良好的分割結(jié)果,分割結(jié)果參見表1。表1比較了采用CNNs、FCNs及SegNet作為自編碼器的網(wǎng)絡(luò)。圖4展示了采用本文方法與采用其他當(dāng)前主流人工神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的分割結(jié)果,分割圖中白色代表道路,藍(lán)色代表建筑物,青色代表植被,綠色代表樹木,黃色代表車輛。其中圖4(c)為文獻(xiàn)[31]中提出的傳統(tǒng)CNNs方法的影像分割結(jié)果;圖4(d)為文獻(xiàn)[32]中提出的FCNs方法的影像分割結(jié)果;圖4(e)為本文提出的方法的影像分割結(jié)果。
表1 ISPRS Vaihingen數(shù)據(jù)集語義分割結(jié)果
從試驗(yàn)結(jié)果中可以看出,CNNs算法難以很好地分割不同地物類別的邊界,且整體分割精度較低,僅為85.9%。由圖4(c)可以看出植被、建筑物與道路之間的分割邊界很模糊并且不規(guī)整;其次是分割的地物中出現(xiàn)了很多類別錯(cuò)誤,例如在植被區(qū)域出現(xiàn)了圖斑狀的樹木類別,導(dǎo)致植被的分割精度只有77.8%。究其原因,文獻(xiàn)[31]中已經(jīng)提及這是由于CNNs網(wǎng)絡(luò)對(duì)于空間變換沒有很強(qiáng)的自適應(yīng)能力。FCNs方法在邊界分割能力上有一定的提升。從圖4(d)可以看出,相較于CNNs方法,F(xiàn)CNs方法的分割邊界更加清晰并且更加規(guī)整,但是依然存在較多的分割錯(cuò)誤,例如房屋的邊界不連續(xù)并且在車輛類別上的分割精度只有57.3%。從文獻(xiàn)[32]中得知,F(xiàn)CNs某種程度上解決了CNNs的一些缺點(diǎn)。該方法的內(nèi)在本質(zhì)是利用現(xiàn)有的CNNs作為強(qiáng)大的視覺模型,使得網(wǎng)絡(luò)能夠?qū)W習(xí)特征的層次結(jié)構(gòu)。盡管FCNs模型具有強(qiáng)大的性能和靈活性,但它仍然具有局限性,其內(nèi)在的空間不變性并沒有考慮有用的全局上下文信息,導(dǎo)致FCNs對(duì)細(xì)節(jié)不敏感。究其原因主要有兩點(diǎn):一是固定尺寸的感受野,對(duì)于大尺度目標(biāo)而言,只能獲得該目標(biāo)的局部信息,導(dǎo)致目標(biāo)的某些部分將被錯(cuò)誤分類,對(duì)于小尺度目標(biāo)而言,很容易被忽略或當(dāng)成背景處理;二是目標(biāo)的細(xì)節(jié)結(jié)構(gòu)容易被丟失,導(dǎo)致邊緣信息不充分,這是由于FCNs得到的特征圖譜過于粗糙,這樣用于上采樣操作的信息過于簡單。
本文提出的可變形卷積在空間變換上具有很強(qiáng)的自適應(yīng)性。因?yàn)樵诓煌瑓^(qū)域?qū)?yīng)的目標(biāo)尺寸是不相同的,如果感受野在不同區(qū)域的尺寸能夠進(jìn)行自適應(yīng)調(diào)整,這對(duì)于語義分割必然有很大幫助。從圖4(e)中可以看出,分割的邊界相較于CNNs與FCNs更加清晰規(guī)整,整體分割精度達(dá)到了90.7%。可以看到本文方法相比以CNNs和FCNs作為自編碼器網(wǎng)絡(luò)的方法在各個(gè)類別的分割精度上均有提升,尤其在車輛這個(gè)類別上提升最多達(dá)到了85.7%的分割精度,說明本文方法對(duì)于小目標(biāo)物體的分割有著很高的適應(yīng)性。
圖4 試驗(yàn)結(jié)果Fig.4 The experimental results
2.4.2 可變形卷積的理解
可變形卷積的理念是建立在一個(gè)容易理解的想法之上的??勺冃尉矸e是將空間采樣位置增加額外的偏移量,這些偏移量是以目標(biāo)任務(wù)為驅(qū)動(dòng)的數(shù)據(jù)中學(xué)習(xí)到的。當(dāng)可變形模塊堆疊成多層時(shí),復(fù)合變形的作用是顯著的。對(duì)于同一區(qū)域的5幅圖像,本文選取了不同尺度大小的地物(依次為車輛、建筑物、樹木、植被和道路)作為激活單元,分別展示不同地物的采樣位置,以此來可視化可變形卷積濾波器的工作原理。如圖5所示,其中綠色點(diǎn)代表激活單元的位置,藍(lán)色點(diǎn)代表對(duì)該地物的采樣位置,每幅圖像中展示了93=729個(gè)采樣點(diǎn)的位置。
2.4.3 可變形卷積與CRF的性能比較
為了定量量化本文提出的兩個(gè)模塊對(duì)于分割精度的作用,將CRF模塊與可變形卷積模塊單獨(dú)嵌入SegNet網(wǎng)絡(luò)中進(jìn)行試驗(yàn),以此來定量對(duì)比模塊的效果。CRF可以細(xì)化模型的分割輸出并提高其捕捉細(xì)粒度細(xì)節(jié)的能力。CRF能夠?qū)⒌图?jí)圖像信息(如像素間的交互)與產(chǎn)生逐個(gè)像素的類別得分的多類推理系統(tǒng)的輸出進(jìn)行組合。這種組合對(duì)于捕獲卷積層未能考慮的遠(yuǎn)程依賴關(guān)系特別重要,并且可以保留良好的局部細(xì)節(jié)。從圖6(b)中可以看到采用全連接的CRF顯著改善了分割結(jié)果,使模型能夠準(zhǔn)確捕獲復(fù)雜的對(duì)象邊界,尤其是車輛這類小目標(biāo)物體,可以看出相對(duì)于單獨(dú)使用SegNet網(wǎng)絡(luò)分割精度提升了11.9%。從局部分割圖中也可以看出,分割的邊界更加清晰,并且錯(cuò)誤分類的孤立圖斑更少。經(jīng)過試驗(yàn)比較,一般對(duì)CRF的迭代次數(shù)取為10次,多于10次以上性能提升不明顯,應(yīng)用CRF操作之后整體精度可以提升1%~2%左右。從圖6(c)可以看出對(duì)于道路、建筑物及樹木這些不規(guī)則的地物,可變形卷積有著很好的提升效果,尤其在道路的分割精度上提升了1.7%。這也證明了可變形卷積在空間變換上有著很好的自適應(yīng)能力。
圖5 可變形濾波器的采樣位置Fig.5 Sampling locations of deformable filters
圖6 可變形卷積與條件隨機(jī)場(chǎng)的分割對(duì)比Fig.6 Comparing deformable convolution with conditional random field segmentation
本文研究了深度卷積神經(jīng)網(wǎng)絡(luò)在遙感影像語義分割中的應(yīng)用。當(dāng)前使用卷積網(wǎng)絡(luò)來分割影像已經(jīng)取得了很大的進(jìn)展,但是由于傳統(tǒng)的卷積方式無法有效地模擬幾何變換,導(dǎo)致分割能力受到限制。相比之下,本文采用的可變形卷積方法對(duì)空間變換有著很強(qiáng)的自適應(yīng)能力。準(zhǔn)確捕獲復(fù)雜地物的邊界一直都是語義分割的難點(diǎn),為此本文在神經(jīng)網(wǎng)絡(luò)的輸出層加入了結(jié)構(gòu)化的后處理步驟——條件隨機(jī)場(chǎng),并通過試驗(yàn)驗(yàn)證其有效性。本文也展示了如何為這種級(jí)聯(lián)方法構(gòu)建訓(xùn)練實(shí)例,并在ISPRS 2D Vaihingen數(shù)據(jù)集上驗(yàn)證了本文方法。由表1可以看出,本文方法獲得了良好的分割結(jié)果。今后,殘差校正是否能改善不同拓?fù)渚W(wǎng)絡(luò)的分割性能是下一步研究目標(biāo)。