孫 曉 宇,蔡 祥
(北京林業(yè)大學(xué)信息學(xué)院,北京 100083)
無人機(jī)遙感時效性高、成本低、可操作性強(qiáng)、分辨率高且不易受云層影響[1],成為獲取高分辨率遙感影像的重要手段之一。目前,國內(nèi)外學(xué)者廣泛使用無人機(jī)遙感影像進(jìn)行圖像分類[2,3]、目標(biāo)檢測[4-10]和圖像分割[11,12]等研究,但上述研究主要利用無人機(jī)遙感影像中的RGB影像進(jìn)行處理,未充分考慮地物的高程信息,同類不同形態(tài)地物的識別及復(fù)雜環(huán)境中多地物種類并存時目標(biāo)地物的提取效果較差。將無人機(jī)遙感影像生成的數(shù)字表面模型(Digital Surface Model,DSM)與RGB影像融合,可保留更多細(xì)節(jié)信息,增強(qiáng)特征差異性,有效提高目標(biāo)識別精度[13,14]。例如:趙靜等[15-17]將無人機(jī)RGB影像與DSM融合,利用最大似然法、隨機(jī)森林法進(jìn)行目標(biāo)提取,精度比僅使用RGB影像均有所提高。隨著無人機(jī)遙感的快速發(fā)展,經(jīng)典的最大似然法、隨機(jī)森林法等遙感分類方法已不能很好地滿足高精度影像的應(yīng)用需求,利用深度學(xué)習(xí)方法進(jìn)行無人機(jī)影像地物目標(biāo)提取已成為研究熱點(diǎn)[18-25]。例如:Liu等[26]基于RGB+DSM融合影像,利用鏈?zhǔn)饺矸e神經(jīng)網(wǎng)絡(luò)(Chain Fully Convolutional Neural Network,CFCN)進(jìn)行建筑物提取,提取結(jié)果精度更高,邊界更清晰、完整。但目前鮮有利用深度學(xué)習(xí)方法對RGB+DSM融合影像進(jìn)行多目標(biāo)識別的研究。因此,本研究對無人機(jī)遙感RGB影像與DSM數(shù)據(jù)進(jìn)行類IHS變換融合和通道疊加融合,利用基于深度學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò)的語義分割模型對兩種融合影像和原始RGB影像進(jìn)行多目標(biāo)提取,對比分析融合影像對目標(biāo)識別精度的提升效果及不同目標(biāo)的提取效果差異,以期提供一種高效的無人機(jī)遙感影像多目標(biāo)提取方法。
本文研究區(qū)域?yàn)閮?nèi)蒙古自治區(qū)烏海市海南區(qū)焦化廠(106°53′06″~106°54′07″E,39°26′59″~39°27′33″N),位于鄂托克旗桌子山煤田滴瀝邦烏素礦區(qū)地質(zhì)勘探詳查區(qū)西南部,面積約為1.58 km2,高程范圍為1 165~1 217 m,區(qū)域地勢中西部較高,西北部較低。
無人機(jī)影像拍攝于2018年3月14日10:00,天氣晴朗,采用瑞士SENSE FLY公司生產(chǎn)的eBee Ag固定翼無人機(jī),該無人機(jī)能快速有效生成地形圖、正射影像圖及數(shù)字表面模型等數(shù)據(jù),機(jī)身搭載Sony DSC-WX220相機(jī)(1 820萬有效像素),相機(jī)鏡頭為索尼G鏡頭,實(shí)際焦距為4.45~44.5 mm,最大光圈范圍F3.3-F5.9,拍攝飛行高度70 m,飛行速度13 m/s。首先對無人機(jī)影像進(jìn)行拼接和正射校正等預(yù)處理操作,生成研究區(qū)域的正射影像圖,原始拼接影像尺寸為28 085像素×12 036像素,空間分辨率為5 cm;然后對影像進(jìn)行12等份切割,去除無效影像、目標(biāo)類型單一等低質(zhì)影像,最終選取6幅無交叉影像作為實(shí)驗(yàn)數(shù)據(jù),每幅影像尺寸均為6 720像素×5 760像素,覆蓋面積約為0.08 km2。
本文選取道路、建筑、車輛和地面(除道路、建筑和車輛外的區(qū)域)4種地物目標(biāo)對研究區(qū)域的遙感影像進(jìn)行逐像素標(biāo)注,部分標(biāo)注結(jié)果如圖1所示。為提升模型訓(xùn)練速度,降低運(yùn)算量,將6幅影像裁剪為512像素×512像素的數(shù)據(jù)集。
圖1 地物目標(biāo)標(biāo)注結(jié)果Fig.1 Annotation results of ground targets
(1)通道疊加融合。在目標(biāo)識別領(lǐng)域中,RGB-Depth(RGB-D)影像的應(yīng)用十分廣泛,其由RGB影像與深度影像(Depth)合成,其中深度影像的灰度值表示物體與攝像機(jī)的距離[27]。受此啟發(fā),本文將三通道RGB影像與單通道DSM影像進(jìn)行通道疊加,形成四通道影像數(shù)據(jù)(RGB-DSM)。
(2)類 IHS變換融合。本文根據(jù)傳統(tǒng)IHS變換原理,采用類IHS變換方法,將研究區(qū)的DSM影像與RGB影像融合,具體步驟為:提取無人機(jī)遙感影像的R、G、B三通道信息,對RGB影像做IHS正變換;將DSM影像替換所得I分量,形成I′HS影像并對其進(jìn)行IHS逆變換,得到包含RGB影像和高程數(shù)據(jù)的類IHS變換影像。
(3)語義分割模型。DeepLabv3+模型[28]采用編碼—解碼結(jié)構(gòu)(圖2),搭配空間金字塔池化(Atrous Spatial Pyramid Pooling,ASPP)和深度可分離卷積,能準(zhǔn)確提取圖像信息并進(jìn)行分類,提高目標(biāo)提取的精度,成熟度較高,適用于本文無人機(jī)影像數(shù)據(jù)。因此,本文采用該模型進(jìn)行無人機(jī)遙感影像地物目標(biāo)提取。
圖2 DeepLabv3+模型結(jié)構(gòu)Fig.2 Structure of DeepLabv3+ model
本文使用整體像素精度(Overall Pixel Accuracy,OPA)和平均像素精度(Mean Pixel Accuracy,MPA)評估不同融合方法下遙感影像的目標(biāo)識別精度,計算公式為:
(1)
(2)
式中:pii表示目標(biāo)i類被預(yù)測為i類的像元數(shù)量;pij表示目標(biāo)i類被預(yù)測為j類的像元數(shù)量;k表示目標(biāo)類型數(shù)量,本文k=4。
本文實(shí)驗(yàn)采用Ubuntu 18.04 LTS 64位操作系統(tǒng)、NVIDIA GEFORCE GTX 1080Ti顯卡加速,使用Python 3.6并基于Keras開源深度學(xué)習(xí)框架,訓(xùn)練時加入隨機(jī)梯度下降算法進(jìn)行優(yōu)化(動量設(shè)置為0.9),初始學(xué)習(xí)率設(shè)置為0.001,每個批次放入3幅影像,進(jìn)行100次迭代。
由表1可知,RGB-DSM影像的識別精度最高,整體像素精度為95.76%,平均像素精度為92.96%,比RGB影像分別提高3.52%和1.42%;類IHS變換影像的整體像素精度比RGB影像提升2.24%,但平均像素精度略有下降。可見,兩種融合影像在DeepLabv3+模型中總體上均能提升地物目標(biāo)識別精度。RGB-DSM影像直接將高程信息疊加到原始RGB影像通道中,保留了兩種數(shù)據(jù)的全部信息,但增加了模型的計算量;類IHS變換影像將高程信息融入影像的空間特征內(nèi),保持模型運(yùn)算量基本不變,但造成少量信息損失,因此,RGB-DSM影像的識別精度略高于類IHS變換影像。
表1 3種影像數(shù)據(jù)的地物目標(biāo)識別精度Table 1 Accuracies of ground targets recognition for three kinds of image data %
為分析影像融合方法對4種地物目標(biāo)的識別效果,本文選取部分分割結(jié)果進(jìn)行分析(圖3)。從圖3可以看到,兩種融合影像的錯分現(xiàn)象均少于RGB影像,且對不同地物目標(biāo)的提取效果不同。例如,兩種融合影像對道路的提取效果均優(yōu)于RGB影像,其中RGB-DSM影像對道路輪廓的提取效果與人工標(biāo)記結(jié)果基本一致,對道路內(nèi)車輛的錯分現(xiàn)象較少,類IHS變換影像對道路的提取較準(zhǔn)確,且對道路內(nèi)車輛的提取效果較好;兩種融合影像對建筑的提取效果均優(yōu)于RGB影像,但對不同區(qū)域的建筑錯分現(xiàn)象不同。
圖3 3種影像數(shù)據(jù)對不同地物目標(biāo)的分割結(jié)果對比Fig.3 Comparison of segmentation results of different ground targets for three kinds of image data
進(jìn)一步采用混淆矩陣對3種影像的整體像素精度和Kappa系數(shù)進(jìn)行分析(表2)。由表2可知,RGB-DSM影像與類IHS變換影像的Kappa系數(shù)比RGB影像分別提高了14.99%和11.79%。1)在對道路的提取中,RGB-DSM影像和類IHS變換影像的精度分別提高了8.6%和2%,主要原因在于,兩種融合影像均增加了道路的高程信息,DeepLabv3+模型能有效提取通道特征信息,使道路的識別精度提高。2)在對建筑的提取中,RGB-DSM影像和類IHS變換影像的精度分別提高了6.22%和2.5%,這是因?yàn)閮煞N融合方法將高程數(shù)據(jù)分別融入原始影像的通道與空間內(nèi),DeepLabv3+模型能提取通道和空間特征,提升了對建筑的識別精度。3)在對地面的提取中,RGB-DSM影像和類IHS變換影像的精度分別提高了3.39%和2.96%,主要原因在于,研究區(qū)地面包含溝壑和礦山等高程變化范圍較大的區(qū)域,且地面自身紋理特征明顯,導(dǎo)致地面識別精度明顯提升。4)在對車輛的提取中,兩種融合影像的識別精度均低于RGB影像,可能是由于車輛與周圍地物的高差較小,高程特征不明顯,同時實(shí)驗(yàn)數(shù)據(jù)中存在車輛種類較多、樣本量較小等情況,融合影像引入了少量噪聲,從而降低了車輛識別精度。綜上,通道疊加與類IHS變換兩種數(shù)據(jù)融合方法能提升與周圍物體高差較大的地物目標(biāo)識別精度,但提升效果受數(shù)據(jù)融合方法與目標(biāo)本身高程信息影響。
表2 基于3種影像數(shù)據(jù)的不同地物目標(biāo)識別結(jié)果的混淆矩陣Table 2 Confusion matrix for different ground targets recognition results from three kinds of image data
本文基于無人機(jī)低空遙感獲取高精度的RGB影像和DSM數(shù)據(jù),提出通道疊加和類IHS變換兩種數(shù)據(jù)融合方法,通過DeepLabv3+模型對影像融合前后的地物目標(biāo)識別精度進(jìn)行對比分析,得到以下結(jié)論:1)兩種數(shù)據(jù)融合方法能提升地物目標(biāo)識別精度,其中RGB-DSM影像的效果最好,其整體像素精度和Kappa系數(shù)比RGB影像分別提高了3.52%和14.99%,類IHS變換影像的整體像素精度與Kappa系數(shù)比RGB影像分別提高了2.24%和11.79%;2)RGB影像與DSM影像融合能提升道路、建筑和地面等與周圍地物高差較大的地物目標(biāo)的識別精度;由于車輛與周圍地物的高差較小,且研究區(qū)域內(nèi)車輛情況復(fù)雜,本文數(shù)據(jù)融合方法對車輛的識別精度較差,后期將通過融合近紅外波段與增加注意力模塊提升與周邊地物高差較小的地物目標(biāo)識別精度。