盧俊言 賈宏光* 高 放 李文濤 陸 晴
①(中國科學院長春光學精密機械與物理研究所 長春 130033)
②(中國科學院大學 北京 100049)
③(長光衛(wèi)星技術有限公司 長春 130102)
遙感影像的數(shù)字表面模型(Digital Surface Model,DSM) 是在數(shù)字高程模型(Digital Elevation Model,DEM)的基礎上,進一步包含了地面上的建筑、道路橋梁,以及樹木植被等地物高度的模型,在許多基于遙感場景的問題研究中有重要應用,例如城市遙感影像的語義標注[1]、變化檢測等[2,3]。
當前,DSM的獲取主要是通過機載激光雷達的激光探測與測量(Light Detection And Ranging,LiDAR)數(shù)據(jù),因此主要存在兩個獲取難點:第一,昂貴的時間、設備和人力成本;第二,由于發(fā)展、變遷等導致的歷史影像數(shù)據(jù)的DSM無法獲得。此外,當前技術多通過立體攝影測量方法(例如空中三角測量等),基于多視圖(multi-view)影像建立DSM,而僅通過單視圖(single-view)影像建立DSM鮮有成熟的方法論,主要原因是該問題屬于不適定問題(ill-posed problem)[4]。
近年來隨著深度學習技術的發(fā)展,其在圖像處理領域中很多不適定問題的求解上表現(xiàn)出了卓越的效果,例如圖像修復[5],圖像超分辨率重建等[6,7]。本文研究的DSM重建問題本質(zhì)上是遙感影像的高度預測(height prediction),與其相似的一類問題是圖像的深度估計(depth estimation),二者的對比如圖1所示。圖1中(a)和(b)分別表示常規(guī)圖像與其深度標簽(來自NYU Depth V2數(shù)據(jù)集),(c)和(d)分別表示遙感影像與其DSM數(shù)據(jù)。
在基于深度學習卷積神經(jīng)網(wǎng)絡(Convolutional Neural Networks, CNN)的單視圖影像深度估計和高度預測方法上,國內(nèi)外學者進行了一些相關研究。例如,EigeN等人[8]采用了兩個CNN組合實現(xiàn)了單視圖影像的深度估計,其中一個CNN用于全局深度結(jié)構(gòu)的回歸分析,另一個CNN用于圖像分辨率的提升;EigeN等人[9]在后續(xù)研究中,又提出了結(jié)合語義標注和表面法向量的多尺度CNN結(jié)構(gòu),在深度估計的細粒度上達到了更好的效果;Liu等人[10]將CNN與條件隨機場(Conditional Random Field, CRF)算法進行結(jié)合,在超像素分割的基礎上采用CNN學習并提取圖像特征,實現(xiàn)了單視圖影像的深度估計;Srivastava等人[11]提出了一種將語義分割誤差和高度預測誤差進行線性結(jié)合的損失函數(shù)用于CNN模型訓練,實現(xiàn)了單視圖影像的高度預測。
然而上述方法對于本文的研究對象而言適用性較差或存在一定的缺陷。首先,文獻[8,10]當中采用的是深度估計的方法,其研究對象是室內(nèi)或室外的常規(guī)影像,而本文的研究對象是遙感影像,二者存在很大的差異,一方面遙感影像大多為正射影像,其目標的上下文信息非常有限,以至于表面法向量和條件隨機場等方法不再適用;另一方面遙感影像的覆蓋范圍廣、分辨率相對較低、地物復雜程度很高,因此結(jié)構(gòu)較為簡單的CNN難以有效提取到遙感影像中復雜的語義信息。其次,文獻[11]采用的高度預測方法依賴于遙感影像的語義標注,然而人工語義標注的成本極高,因此該方法的實現(xiàn)和大規(guī)模應用較為困難,而相比之下無人機LiDAR數(shù)據(jù)的獲取更加經(jīng)濟和便捷。
圖1 深度估計與高度預測
綜上所述,本文旨在實現(xiàn)一種僅依靠LiDAR數(shù)據(jù),基于深度學習的語義分割技術重建單視圖遙感影像DSM的方法,并實現(xiàn)端到端的輸出。
本文旨在實現(xiàn)針對單視圖遙感影像的DSM重建,即像素級的高度值預測。假設 ( x,y)分別代表遙感影像與其對應的DSM數(shù)據(jù),并假設其聯(lián)合概率分布為p (x,y),本文的任務可描述為建立一個映射f :x →y,使得如式(1)的目標函數(shù)最小化
式中, f (x)表示遙感影像經(jīng)過映射得到的DSM預測數(shù)據(jù); y表示遙感影像的DSM真實數(shù)據(jù);l (·)表示損失函數(shù),即評估預測值f (x) 與 真值y 差距的函數(shù);Ex,y表 示在聯(lián)合概率分布p (x,y)下的數(shù)學期望。
像素級高度預測任務可以借鑒像素級圖像分類任務(語義分割任務)的基本思路,區(qū)別在于后者是一個分類問題,而前者是一個回歸問題。假設映射f可以通過一個語義分割模型實現(xiàn),模型的參數(shù)為Θ,當給定了遙感影像與其DSM數(shù)據(jù)的樣本集{xi,yi}, 可以通過學習優(yōu)化獲得一組最優(yōu)參數(shù)Θ ?,使得式(1)的目標函數(shù)最小化,即
一些關于CNN原理以及特征圖(feature map)可視化的研究表明[12,13],CNN模型的淺層網(wǎng)絡用于提取圖像局部的、低級的細節(jié)特征,例如邊、角、輪廓等;深層網(wǎng)絡用于提取圖像全局的、高級的、辨識度強的語義特征。因此對于傳統(tǒng)編碼-解碼結(jié)構(gòu)的深度學習語義分割模型,例如全卷積網(wǎng)絡(Fully Convolutional Networks, FCN)[14]而言,淺層特征圖包含更多的圖像細節(jié)特征(邊緣、紋理等),但語義信息較弱;深層的特征圖包含了更多的語義信息,但損失了圖像的細節(jié)特征。此外,編碼的下采樣過程也丟棄了像素的位置信息,宏觀上像素位置信息又組成了圖像的結(jié)構(gòu)信息。在解碼過程中雖然將編碼后的特征圖重新上采樣,但上采樣屬于一個不適定問題,因此原始圖像的細節(jié)特征和結(jié)構(gòu)信息都無法真正恢復。楊宏宇等人[15]在一項利用深度卷積神經(jīng)網(wǎng)絡進行氣象雷達噪聲圖像語義分割的研究成果中,采用了一種將圖像高維全局語義信息與局部細節(jié)特征融合的方法來提高分割精度,為上采樣的細節(jié)損失問題提供了一種解決思路。
綜上并基于任務描述,本文提出了一種多尺度殘差融合編碼-解碼(Multi-scale Residual Fusion Encode-Decode, MRFED)的語義分割網(wǎng)絡,網(wǎng)絡結(jié)構(gòu)如圖2所示。在編碼部分,遙感影像輸入MRFED后經(jīng)過一系列編碼塊(encode block)逐步提取圖像特征,得到高維度的特征圖(特征圖#5),其中包含了圖像的全局語義信息,語義信息中又包含了高度信息,特征圖#5的分辨率較低;在解碼部分,特征圖#5經(jīng)過一系列解碼塊(decode block)逐步恢復至原圖尺寸,通過回歸運算最終實現(xiàn)像素級的高度預測,得到DSM預測數(shù)據(jù)。為了解決輸入圖像細節(jié)特征和結(jié)構(gòu)信息丟失的問題,MRFED采用了一種跳躍級聯(lián)(skip connections)的策略,將編碼過程中的淺層特征圖直接復制拼接(copy & concatenate)到解碼過程中相同分辨率的深層特征圖上,繼而進行后續(xù)傳播。一方面,該策略使輸出結(jié)果保留了原始圖像的細節(jié)特征和結(jié)構(gòu)信息;另一方面,使用該策略后的網(wǎng)絡模型參數(shù)量僅增加了約0.7‰(原參數(shù)量約為1.2e+08,增加了約8.4e+04),增加的運算代價微乎其微。
舒曼是學面案的。他認為這種專業(yè)可以一輩子餓不著。舒曼和那個一蹶不振的藝術家在一起生活的時候就經(jīng)常挨餓。于是,舒曼毫不猶豫地選擇了“吃”這個專業(yè)。就舒曼的藝術才能而言,他完全可以報考一家藝術院校,他的小提琴拉得也不錯。但他沒那么做。
圖2 MRFED網(wǎng)絡結(jié)構(gòu)示意圖
He等人[16]提出的殘差融合(residual fusion)方法有效解決了卷積神經(jīng)網(wǎng)絡隨著深度增加而出現(xiàn)的退化問題。羅會蘭等[17]的研究結(jié)果表明,在語義分割方法中使用多尺度提取相互重疊的區(qū)域,能夠得到更加精細的物體分割邊界,證實了多尺度的特征融合能夠提高語義分割的精度。因此,基于Res-Net的殘差融合思想,本文提出了一種多尺度殘差融合的編碼塊與解碼塊單元,結(jié)構(gòu)如圖3所示。圖中 Ki表 示 N 個級聯(lián)的3 ×3 卷 積核,當i =2,3,4時,對應的 N =1,2,3,級聯(lián)的卷積核越多,輸出結(jié)果的感受野(receptive field)越大,即對應了原圖像不同尺度的特征提取結(jié)果。編解碼塊將多尺度的特征提取結(jié)果相疊加,再進行類似瓶頸塊的殘差融合,具體過程如下:在編碼塊中,輸入首先經(jīng)過1 ×1的卷積層改變通道數(shù)(channels),得到的特征圖按通道數(shù)平均分為4部分,記為 x1~x4; Ki的卷積操作不改變輸入 xi的尺寸和通道數(shù),對應的輸出為y1~y4,xi與yi的關系如式(3)所示
將y1~y4進行拼接(concatenation),再經(jīng)過一個 1 ×1,步長為2的卷積層,輸出特征圖的尺寸為輸入的1/2,通道數(shù)為輸入的2倍;最后,將整個編碼塊的輸入經(jīng)過同上的卷積層,結(jié)果與前者的輸出按位相加(element-wise addition),即殘差融合,得到整個編碼塊的輸出。解碼塊的結(jié)構(gòu)與編碼塊基本一致,唯一的不同是將編碼塊的下采樣操作變?yōu)樯喜蓸印=獯a塊采用了反卷積(deconvolution)[18]進行上采樣操作,通過選擇合適的膨脹率(dilation rate)和補零策略(padding),即可輸出目標尺寸的特征圖。本文設計的編解碼塊在ResNet瓶頸塊的基礎上增加了模型復雜度,但僅增加了很少的參數(shù)量和運算量(相比ResNet-50而言,其原本的參數(shù)量約為4.6e+07,本文的編解碼塊增加了約6.0e+05參數(shù),增量約為1.3%)。上述的編解碼塊具備下采樣和上采樣功能,但除此之外,MRFED中還存在一部分編解碼塊,只對輸入進行特征提取,而不改變輸入的尺寸,此類編解碼塊的結(jié)構(gòu)與上述基本一致,只是用于上下采樣的卷積層改為等尺寸輸出,因此不再單獨描述。整個網(wǎng)絡的特征圖尺寸和通道數(shù)信息如表1所示。
本文采用的訓練數(shù)據(jù)集來自IEEE GRSS(Geoscience and Remote Sensing Society)提供的一個公開數(shù)據(jù)集,該數(shù)據(jù)集包含2783張單視圖多期遙感影像,影像尺寸均為 1024×1024, RGB三通道,成像地點是美國的兩座城市:佛羅里達州的杰克遜維爾(Jacksonville, Florida),以及內(nèi)布拉斯加州的奧馬哈(Omaha, Nebraska);影像數(shù)據(jù)由Digital Globe公司的worldview系列衛(wèi)星拍攝,地面采樣間隔(Ground Sampling Distance, GSD)為0.35 mpp(m per pixel);影像的DSM數(shù)據(jù)由LiDAR獲取。
MRFED默認的輸入尺寸為5 12×512,因此首先將原數(shù)據(jù)集的圖片和DSM進行裁剪,然后再進行數(shù)據(jù)增量操作。本文采用的數(shù)據(jù)增量方法均為無損變換,即不增加或者損失圖片的任何信息,主要包括:
(1) 隨機水平或豎直翻轉(zhuǎn);
(2) 隨機旋轉(zhuǎn)90°;
(3) 隨機x-y坐標軸轉(zhuǎn)置。
本文的實驗基于Keras深度學習框架實現(xiàn)了算法模型。
(1) 損失函數(shù)設計:實驗時分別采用了平均絕對誤差(Mean Absolute Error, MAE)和均方根誤差(Root Mean Squared Error, RMSE)作為損失函數(shù),二者的公式如式(4)和式(5)所示
圖3 編碼塊與解碼塊結(jié)構(gòu)
表1 MRFED各層的特征圖尺寸和通道數(shù)信息
式中, yi表示真值,y ?i表示預測值;實驗結(jié)果表明采用MAE作為損失函數(shù)的效果略好,訓練迭代相同次數(shù)的情況下,模型的測試精度高于RMSE約2.4%。
(3) 超參數(shù)(hyper parameters)選?。簩嶒灢捎肁dam算法[20]作為梯度下降的優(yōu)化算法,其中的超參數(shù)均選用算法推薦的默認值,分別為:β1=0.9,β2=0.999, ε =1e-08 , η =0.0001;訓練每次迭代的BatchSize設為1,迭代次數(shù)設為1e+06(訓練過程中視收斂情況手動停止);本實驗的GPU設備采用NVIDIA GeForce GTX TITAN X (算力6.1 TFLOPs,顯 存12 GB),訓練時長約為60 h。
MRFED在測試集上的DSM重建效果如圖4所示。圖4中(a1)-(a4)分別為測試集中包含密集建筑物、大面積高植被、承重高架橋和大面積水域的遙感影像;(b1)-(b4)分別為(a1)-(a4)的DSM真值熱力圖;(c1)-(c4)分別為(a1)-(a4)的DSM重建結(jié)果熱力圖;熱力圖中藍綠色表示高度值較小,橙紅色表示高度值較大。從圖4中可以看出,DSM重建結(jié)果與真值的數(shù)據(jù)范圍基本一致,多種地物類型的高度預測結(jié)果都較為準確,熱力圖的相似性尤其是結(jié)構(gòu)相似性很高。
在數(shù)據(jù)指標方面,本文采用測試集上DSM真值和測試結(jié)果的MAE, RMSE和SSIM來評價DSM重建效果。其中結(jié)構(gòu)相似性 (Structural SIMilarity,SSIM)是衡量兩張圖片結(jié)構(gòu)相似性的指標,如式(6)所示
式中, μy和 μy?表 示y 和y ? 的 均值,σy和σy?表 示y 和y ?的標 準 差, σyy?表 示y 和y ? 的 協(xié) 方 差,C1和C2為 常 數(shù),其中C1=6.5025, C2=58.5225。
本文選取了兩個經(jīng)典的語義分割模型與MRFED進行縱向?qū)Ρ葘嶒?,分別是FCN和U-net[21],其中FCN的主干網(wǎng)絡(backbone)采用VGG16, U-net的主干網(wǎng)絡采用ResNet-50,針對本文的任務對二者進行了如下修改:將二者最后一個用于分類的激活層去掉(Softmax或Sigmoid),增加一個輸出維度為1的全連接層用于回歸運算,以輸出高度預測值。FCN, U-net與MRFED在測試集上(共1670個樣本)的實驗結(jié)果數(shù)據(jù)指標如表2所示,三者的MAE, RMSE和SSIM實驗結(jié)果曲線如圖5所示。從測試結(jié)果可知,MRFED的DSM重建效果明顯優(yōu)于經(jīng)典的語義分割網(wǎng)絡FCN和U-net;其中FCN采用了沒有殘差融合結(jié)構(gòu)的VGG16作為主干網(wǎng)絡,編碼階段提取語義特征的能力較弱,因而結(jié)果較差;U-net采用了具有殘差融合結(jié)構(gòu)的ResNet-50作為主干網(wǎng)絡,能夠較為有效地提取語義特征,因而結(jié)果得到了明顯提升;MRFED在殘差融合的基礎上又增加了多尺度的設計,使得編碼階段得到了更好的語義特征提取效果,同時表2中關于跳躍級聯(lián)的消融實驗(ablation study)結(jié)果,證實了解碼階段采用該策略能夠有效提高精度,并顯著提高結(jié)果與真值的結(jié)構(gòu)相似性。MRFED在測試集上最終取得了MAE為2.1e-02, RMSE為3.8e-02, SSIM為92.89%的實驗結(jié)果,實現(xiàn)了高精度的DSM重建,并且有效保留了原始圖像的細節(jié)特征和結(jié)構(gòu)信息。
本文還與文獻[11]中所提方法ST loss進行了橫向?qū)Ρ葘嶒?。文獻[11]中的實驗采用了國際攝影測量與遙感協(xié)會(International Society for Photogrammetry and Remote Sensing, ISPRS)提供的一個公開數(shù)據(jù)集Vaihingen,本文將MRFED在該數(shù)據(jù)集上進行了訓練和測試,具體細節(jié)上:Vaihingen數(shù)據(jù)集中共有16幅影像帶有DSM標注,選取其中的12幅為訓練集,4幅為測試集;影像的平均像素尺寸約為2500 × 2000,采用與3.1節(jié)中相同的方法對影像進行裁剪和數(shù)據(jù)增強,最終得到的訓練集共包含1260個5 12×512的RGB與DSM影像對,測試集包含420個RGB與DSM影像對。MRFED在該數(shù)據(jù)集上訓練后取得了優(yōu)于文獻[11]的DSM重建結(jié)果 ,如表3所示。
圖4 MRFE的DSM重建結(jié)果
表2 測試結(jié)果的數(shù)據(jù)指標
圖5 測試結(jié)果的數(shù)據(jù)指標
表3 Vaihingen數(shù)據(jù)集上的DSM重建結(jié)果對比
在單視圖遙感影像的3維重建技術還并不成熟的研究現(xiàn)狀下,本文提出了一種新穎的基于深度學習技術的單視圖遙感影像DSM重建方法。本方法設計了一種多尺度殘差融合編碼-解碼的語義分割網(wǎng)絡--MRFED,在編碼階段,通過多尺度殘差融合的CNN實現(xiàn)了遙感影像中復雜語義信息的有效提取,進而回歸得到高精度的高度預測值;在解碼階段,采用特征圖跳躍級聯(lián)的策略保留了輸入圖像的細節(jié)特征和結(jié)構(gòu)信息。本方法的實現(xiàn)僅依賴于遙感影像及其DSM數(shù)據(jù),無需遙感影像的語義標簽,因而節(jié)省了昂貴的人工語義標注成本;本方法實現(xiàn)了端到端的輸出,在公開數(shù)據(jù)集上進行了測試, DSM重建結(jié)果與真值的MAE為2.1e-02, RMSE為3.8e-02, SSIM為92.89%,實驗證實本方法能夠有效實現(xiàn)單視圖遙感影像的DSM重建,具有較高的精度和較強的地物分布結(jié)構(gòu)重建能力。