胥智杰 ,楊小兵,何靈敏,潘承瑞
1.中國計(jì)量大學(xué) 信息工程學(xué)院,杭州 310000
2.中國計(jì)量大學(xué) 浙江省電磁波信息技術(shù)與計(jì)量檢測重點(diǎn)實(shí)驗(yàn)室,杭州 310000
語義分割是將語義(類型)標(biāo)簽分配給圖像的每個像素。高分辨率遙感圖像語義分割一直是遙感領(lǐng)域的一個長期研究課題。它在國土規(guī)劃、地理監(jiān)測和智慧城市等領(lǐng)域中扮演著重要的角色。對高分辨率遙感圖像進(jìn)行語義分割是非常困難的,尤其是在城市區(qū)域,因?yàn)槟抢镉懈叨榷鄻踊娜嗽煳?。具體來說,任務(wù)的挑戰(zhàn)性主要分為兩個方面,一方面是城市中大量的地物呈現(xiàn)出非常相似的視覺特征(樹和草坪)。另一方面是城市中精細(xì)結(jié)構(gòu)的地物難以分割(樹和車),它們還會因?yàn)檎趽醵嗷ビ绊憽?/p>
在過去的20 年中,基于像素的方法和深度學(xué)習(xí)方法是高分辨率遙感圖像語義分割的主流方法。何靈敏等[1]使用基于像素的方法分割高分辨率遙感圖像。他們首先對高分辨率遙感圖像的不同類型地物進(jìn)行像素點(diǎn)提取,然后使用提取的像素點(diǎn)訓(xùn)練支持向量機(jī),最后使用訓(xùn)練好的支持向量機(jī)對測試圖像進(jìn)行基于像素點(diǎn)的分類。這種方法能夠快速地對圖像進(jìn)行語義分割,但是在分割時不考慮圖像的空間特征和圖像的拓?fù)潢P(guān)系,只考慮光譜信息,分割的結(jié)果常常帶有嚴(yán)重的椒鹽噪聲且分割精度較低。為了解決基于像素方法的缺陷,深度學(xué)習(xí)方法應(yīng)運(yùn)而生。相比于基于像素的方法,深度學(xué)習(xí)方法能夠從訓(xùn)練圖像中自動學(xué)習(xí)空間特征和拓?fù)潢P(guān)系,并根據(jù)所學(xué)習(xí)到的特征進(jìn)行語義分割[2]。FCN網(wǎng)絡(luò)[3-4]的提出是語義分割的一個巨大突破,它用卷積層代替了全連接層,允許任意大小的圖像分割,實(shí)現(xiàn)了端到端的訓(xùn)練與預(yù)測。但是這種方法在物體邊界處的分割表現(xiàn)不佳。為了克服這一缺點(diǎn),Chen等[5]在FCN網(wǎng)絡(luò)后引入了一個額外的條件隨機(jī)場去提高對象邊界的識別。不同于FCN 和條件隨機(jī)場結(jié)合的思想,Badrinarayanan 等[6]使用編碼器解碼器思想分割圖像,通過編碼器提取特征并壓縮特征圖的尺寸,解碼器逐步的恢復(fù)特征圖尺寸,來獲得平滑的邊界。膨脹卷積[7]的提出使在相同的計(jì)算量下得到了更大的感受視野,能夠捕獲多尺度空間特征,更好地分割不同大小的物體。Chen等[8]使用膨脹卷積加編解碼結(jié)構(gòu)組建了DeepLabV3+分割網(wǎng)絡(luò),該網(wǎng)絡(luò)具有捕獲多尺度空間特征的特點(diǎn)。這些優(yōu)秀的網(wǎng)絡(luò)已經(jīng)應(yīng)用于各種遙感領(lǐng)域,但是它們不是專為高分辨率遙感圖像語義分割而設(shè)計(jì),不能很好地分割精細(xì)地物和相似地物。
為解決該問題,本文提出了一種為高分辨率遙感圖像語義分割而設(shè)計(jì)的多尺度語義分割網(wǎng)絡(luò)(Multiscale Semantic Segment Network,MSSNet),并在國際攝影測量和遙感學(xué)會(ISPRS)提供的Vaihingen 和Potsdam數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。此外,本文還進(jìn)行了一系列的實(shí)驗(yàn)來評估不同切塊策略對分割精確度的影響。綜上所述,本文的貢獻(xiàn)如下:
(1)提出了用于高分辨率遙感圖像語義分割的專用網(wǎng)絡(luò)MSSNet,它能夠準(zhǔn)確地分割高分辨率遙感圖像。
(2)研究了高分辨率遙感圖像切塊時不同裁剪尺寸和塊間覆蓋率對分割精度的影響,為以后任務(wù)中切塊策略的選擇提供可靠的依據(jù)。
遙感技術(shù)的發(fā)展使獲得高分辨率遙感圖像更加的容易,豐富的訓(xùn)練圖像使深度學(xué)習(xí)方法更容易學(xué)習(xí)圖像特征,促進(jìn)了深度學(xué)習(xí)在遙感領(lǐng)域的發(fā)展。相比于基于像素的分割方法,深度學(xué)習(xí)方法能夠更好地理解紋理信息,得到更高的分割精度,避免椒鹽噪聲現(xiàn)象。
蘇健民等[9]提出使用改進(jìn)的U-Net對高分辨率遙感圖像進(jìn)行語義分割,該方法能夠快速地分割圖像,且對設(shè)備要求較低,但分割精度不夠高。Marmanisac等[10]提出使用FCN、SegNet和邊緣檢測相結(jié)合的集成學(xué)習(xí)方法對高分辨率遙感圖像進(jìn)行語義分割,通過集成學(xué)習(xí)的方法減小分割誤差,取得了較高的分割精度。Chen等[11]提出了一種針對高分辨率遙感圖像語義分割的專用分割網(wǎng)絡(luò)SDFCN,它由編碼層和解碼層組成,并且加入了跳躍連接策略,相比于通用分割網(wǎng)絡(luò),它有更高的分割精度,但是分割精度稍低于Marmanisac等[10]提出的集成學(xué)習(xí)的方法。Yue等[12]提出使用手動組網(wǎng)加自動組網(wǎng)相結(jié)合的方式組建高分辨率遙感圖像語義分割網(wǎng)絡(luò)。首先人工組建網(wǎng)絡(luò)的編碼層和解碼層,然后對人工組建的網(wǎng)絡(luò)進(jìn)行訓(xùn)練,最后在解碼層后加入自動組網(wǎng)結(jié)構(gòu)重新訓(xùn)練網(wǎng)絡(luò),使網(wǎng)絡(luò)在訓(xùn)練的過程中自己尋找最優(yōu)的結(jié)構(gòu)。這種方法能夠找到最適合的分割結(jié)構(gòu),取得較高的分割精度,但是在自動組網(wǎng)部分需要使用大量的GPU 長時間訓(xùn)練,才能找到最優(yōu)結(jié)構(gòu),訓(xùn)練過程復(fù)雜。
基于編碼器解碼器結(jié)構(gòu)的分割網(wǎng)絡(luò)一直是高分辨率遙感圖像語義分割的主流網(wǎng)絡(luò)。因?yàn)榫幋a器能夠很好地提取地物特征,解碼器結(jié)構(gòu)能夠恢復(fù)特征圖尺寸并精確地進(jìn)行基于像素點(diǎn)的分類。本文提出的多尺度語義分割網(wǎng)絡(luò)采用了主流的編碼器解碼器結(jié)構(gòu),網(wǎng)絡(luò)由編碼層、解碼層、輸出層組成,結(jié)構(gòu)如圖1所示。在本章將詳細(xì)介紹多尺度語義分割網(wǎng)絡(luò)的結(jié)構(gòu)。
圖1 多尺度語義分割網(wǎng)絡(luò)模型
在高分辨率遙感圖像中存在許多相似視覺特征的地物,例如草坪和樹林,大多數(shù)分割網(wǎng)絡(luò)在分辨相似的地物時往往會出現(xiàn)區(qū)域誤判,研究發(fā)現(xiàn)誤判的主要原因是對圖像特征提取不充分。為解決此問題,需要選用提取特征優(yōu)秀的網(wǎng)絡(luò)作為編碼層,充分提取圖像特征。
在近幾年的ImageNet 圖像分類競賽上,ResNet101網(wǎng)絡(luò)[13]取得了95.4%正確率,是目前最優(yōu)秀的卷積神經(jīng)網(wǎng)絡(luò)之一,其特有的殘差結(jié)構(gòu)可以更好地提取圖像特征,在反向傳播時避免梯度消失現(xiàn)象。對ResNet101進(jìn)行了大量的實(shí)驗(yàn),發(fā)現(xiàn)它非常適合提取遙感圖像特征,使用它作為編碼層分割精度高于使用其他網(wǎng)絡(luò)。所以本文使用去除全連接層的ResNet101作為編碼層,它內(nèi)部的一個個殘差塊作為編碼器,提取圖像特征。
在高分辨率遙感圖像中存在許多精細(xì)結(jié)構(gòu)的地物,例如車、小段道路和單棵樹木。大多數(shù)分割網(wǎng)絡(luò)對精細(xì)結(jié)構(gòu)地物分割時存在分割區(qū)域不準(zhǔn)確現(xiàn)象,研究發(fā)現(xiàn)主要原因是圖像中地物尺度差異過大,圖像中既有小尺度的車,又有大尺度的樹林和建筑物群,造成網(wǎng)絡(luò)無法同時兼顧不同尺度的地物。為解決此問題,本文提出了一種全新的解碼器結(jié)構(gòu),如圖2 所示,它的輸入由兩部分組成,一部分是上一級解碼器的輸入,另一部分是跳躍連接層的輸入。上一級解碼器的輸出首先經(jīng)過反卷積結(jié)構(gòu),擴(kuò)大特征圖尺寸為原來的一倍,縮小通道數(shù)為原來的一半,然后合并經(jīng)過空洞空間金字塔池化結(jié)構(gòu)[8]提取的多尺度特征,最后經(jīng)過兩個加入擠壓激活[14]的殘差結(jié)構(gòu)進(jìn)行基于像素點(diǎn)的分類,并在末尾使用1×1的卷積調(diào)整通道數(shù)為64。
圖2 MSSNet解碼器
與圖3的傳統(tǒng)解碼器相比,MSSNet的解碼器在跳躍連接層后加入了空洞空間金字塔池化結(jié)構(gòu),并替換了傳統(tǒng)解碼器最后兩個卷積層為加入擠壓激活的殘差結(jié)構(gòu)。
圖3 傳統(tǒng)解碼器
擠壓激活結(jié)構(gòu)如圖2(b)所示,該結(jié)構(gòu)是一種注意力機(jī)制,加入殘差結(jié)構(gòu)后會強(qiáng)化基于像素點(diǎn)的分類能力。加入擠壓激活的殘差結(jié)構(gòu)相比傳統(tǒng)解碼器的單個卷積層,擁有更強(qiáng)的像素點(diǎn)分類能力,能夠更好地對地物進(jìn)行分類。
空洞空間金字塔池化結(jié)構(gòu)如圖2(d)所示,它能夠通過不同空洞率的空洞卷積獲取不同的感受視野,進(jìn)而提取不同尺度的特征。為了使解碼器更好地提取地物不同尺度的特征,在解碼器中添加了該結(jié)構(gòu),并選擇了6、12、18的空洞率和3×3的卷積核,獲得了23×23、47×47、71×71的感受視野,感受視野的計(jì)算如公式(1)所示:
公式(1)中r為空洞率,ksize為卷積核尺寸。23×23 的感受視野接近車和樹的大小,能夠更好地提取這類小尺度地物的特征。47×47 的感受視野接近小片樹林和植被的大小,能夠更好地提取這類中尺度地物的特征。71×71的感受視野接近街道和建筑物的大小,能夠更好地提取這類大尺度地物的特征。
傳統(tǒng)語義分割網(wǎng)絡(luò)的輸出層只對最后一個解碼塊的輸出使用Softmax 分類,而它的輸出往往對語義(分類)信息比較敏感,在空間特征上比較粗糙,對位置、邊界、光線等信息不敏感。
MSSNet的輸出層結(jié)構(gòu)如圖1所示,它首先合并5個解碼器的輸出,然后通過1×1的卷積調(diào)整通道數(shù)為類型數(shù),最后使用Softmax 進(jìn)行分類。相比傳統(tǒng)的輸出層結(jié)構(gòu),它除了獲取最后一個解碼器輸出的語義信息,還獲取了其他解碼器輸出的位置和邊界信息,使最終分割結(jié)果更加準(zhǔn)確,邊界更加清晰。
本文在ISPRS 發(fā)布的兩個高分辨率遙感圖像數(shù)據(jù)集中對多尺度語義分割網(wǎng)絡(luò)進(jìn)行了評估,數(shù)據(jù)集介紹如下。
Vaihingen數(shù)據(jù)集。數(shù)據(jù)集拍攝于德國的Vaihingen市,它包含3個通道的IRRG(Infrared、Red、Green)圖像、DSM(Digital Surface Model)圖像和NDSM(Normalized Digital Surface Model)圖像,圖像的平均大小為2 494×2 064,圖像總數(shù)為33 張,其中17 張用作測試集。本文實(shí)驗(yàn)中使用16 張圖像作為訓(xùn)練集,4 張圖像作為驗(yàn)證集,17 張圖像作為測試集。實(shí)驗(yàn)僅僅使用了IRRG 圖像,沒有使用DSM圖像和NDSM圖像。
Potsdam 數(shù)據(jù)集。數(shù)據(jù)集拍攝于德國的Potsdam市,它包含 IRRG 圖像、IRGB 圖像、DSM 圖像和 NDSM圖像。圖像大小為6 000×6 000,圖像總數(shù)為38張,其中14張用作測試集。本文實(shí)驗(yàn)中使用17張圖像作為訓(xùn)練集,5 張圖像作為驗(yàn)證集,14 張圖像作為測試集。實(shí)驗(yàn)僅僅使用了IRRG 圖像,并刪除了訓(xùn)練集中兩張標(biāo)簽錯誤的圖像。
實(shí)驗(yàn)環(huán)境:硬件環(huán)境為NVIDIA TITAN X 顯卡,128 GB運(yùn)行內(nèi)存,Intel E5-2678V3處理器。軟件環(huán)境為Ubuntu16系統(tǒng),Python3.6和Pytorch1.0開發(fā)環(huán)境。
數(shù)據(jù)預(yù)處理:首先使用512×512 的滑動窗口,按照128 的步長(塊間覆蓋率75%)進(jìn)行圖像切塊,然后對切塊后的圖像進(jìn)行歸一化,最后進(jìn)行隨機(jī)鏡像,傾斜度為15°的隨機(jī)旋轉(zhuǎn)。
訓(xùn)練策略:實(shí)驗(yàn)使用了SGD 優(yōu)化器,動量為0.9,初始學(xué)習(xí)率為0.01,最小學(xué)習(xí)率為0.001。損失函數(shù)使用交叉熵,學(xué)習(xí)率衰減方式為余弦退火,如公式(2)所示,迭代次數(shù)為100次,每50次重置一次學(xué)習(xí)率。
公式(2)中l(wèi)rmin為最小學(xué)習(xí)率,lrmax為最大學(xué)習(xí)率,Tcur為當(dāng)前迭代次數(shù)和Tmax為最大迭代次數(shù)。分別設(shè)置lrmax=0.001,lrmin=0.000 1,Tmax=50。
評估標(biāo)準(zhǔn):為了定量地評估性能,實(shí)驗(yàn)設(shè)置了三個評估量F1(F1 score)、MF1(Mean F1 score)、OA(Overall Accuracy)。單類型地物的評分標(biāo)準(zhǔn)使用F1,全局評分標(biāo)準(zhǔn)使用OA和MF1,公式如下所示:
公式(3)和公式(5)中tp為真正例,tn為假正例,fn為假負(fù)例,fp為假正例。公式(4)中n為地物類型數(shù)。
為驗(yàn)證本文提出的多尺度語義分割網(wǎng)絡(luò)的性能,本文從深度學(xué)習(xí)網(wǎng)絡(luò)對比和基準(zhǔn)方法對比兩個方面與現(xiàn)有的方法進(jìn)行對比。
深度學(xué)習(xí)網(wǎng)絡(luò)對比,將MSSNet 與以下通用深度學(xué)習(xí)網(wǎng)絡(luò)進(jìn)行對比。
(1)FCN[4]:FCN 是最經(jīng)典的語義分割網(wǎng)絡(luò),它將傳統(tǒng)CNN 中的全連接層轉(zhuǎn)化成一個個卷積層,實(shí)現(xiàn)了端到端的訓(xùn)練與預(yù)測。
(2)SegNet[6]:首次提出使用對稱的編碼器解碼器結(jié)構(gòu)進(jìn)行語義分割。
(3)PSPNet[15]:提出了金字塔池化結(jié)構(gòu),該結(jié)構(gòu)能夠聚集不同區(qū)域的上下文信息,進(jìn)行場景理解。
(4)DeepLabV3+[8]:DeepLabV3+是目前最優(yōu)秀的通用分割網(wǎng)絡(luò),它提出了空洞空間金字塔池化結(jié)構(gòu),該結(jié)構(gòu)能夠獲取不同尺度的地物特征。
基準(zhǔn)方法對比:將本文方法與相同數(shù)據(jù)集論文方法和數(shù)據(jù)集排行榜方法進(jìn)行對比,方法如下。
(1)SVL_3[16]:該方法使用DNVI、飽和度和NDSM特征,訓(xùn)練了一個基于Adaboost 的分類器,應(yīng)用CRF(Conditional Random Field)模型進(jìn)行最終預(yù)測。
(2)UT_Mev[17]:該方法首先使用DNVI 對圖像進(jìn)行預(yù)處理,然后使用MeVisLab軟件進(jìn)行分割。
(3)HUST[18]:該方法使用隨機(jī)森林對圖像進(jìn)行基于像素點(diǎn)的分類,再使用CRF處理預(yù)測結(jié)果。
(4)DLR_10[10]:該方法使用了FCN、SegNet和邊緣檢測相結(jié)合的方式進(jìn)行分割。
(5)UZ_1[19]:該方法提出了一種新型的CNN-FPL網(wǎng)絡(luò)分割高分辨率遙感圖像。
(6)KLab_3[20]:該方法使用Shapmask網(wǎng)絡(luò)和RefineNet網(wǎng)絡(luò)進(jìn)行分割。
(7)TreeNet[12]:該方法使用人工組網(wǎng)和自動組網(wǎng)相結(jié)合的方式組建了TreeNet網(wǎng)絡(luò),并使用TreeNet進(jìn)行分割。
高分辨率遙感圖像往往尺寸巨大,需要以滑動窗口的方式進(jìn)行切塊,才能進(jìn)行訓(xùn)練和預(yù)測。在切塊時裁剪尺寸過小會造成網(wǎng)絡(luò)缺乏對全局場景信息的理解,過大會提高對GPU內(nèi)存的占用,增加設(shè)備成本,不利于工業(yè)應(yīng)用。相鄰塊間覆蓋率過小會造成訓(xùn)練樣本數(shù)量減小,分割精度過低,覆蓋率過大會造成訓(xùn)練樣本過多,訓(xùn)練速度緩慢。什么樣的裁剪尺寸和塊間覆蓋率最適合進(jìn)行分割是一個非常值得研究的問題。
為了研究切塊時塊間覆蓋率和裁剪尺寸對分割精度的影響,本文在Vaihingen 數(shù)據(jù)集上進(jìn)行了不同切塊策略實(shí)驗(yàn)。首先固定裁剪尺寸為512×512,分別按照0%、25%、50%、75%的塊間覆蓋率(步長分別為:512、384、256、128)進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如圖4(a)所示,可以看出當(dāng)覆蓋率為75%時OA和MF1得分最高。然后固定塊間覆蓋率為75%,按照256×256、320×320、416×416、512×512 的尺寸進(jìn)行裁剪,實(shí)驗(yàn)結(jié)果如圖4(b)所示,在512尺寸下OA和MF1得分最高。
圖4 不同切塊策略
為評估MSSNet 的性能,本文將其與通用的語義分割網(wǎng)絡(luò)進(jìn)行對比,評估不同網(wǎng)絡(luò)對于分割精度的影響。
(1)Vaihingen數(shù)據(jù)集對比
表1 顯示了MSSNet 與其他通用網(wǎng)絡(luò)在Vaihingen數(shù)據(jù)集上的定量對比,從最終得分來看,MSSNet在MF1評分標(biāo)準(zhǔn)上高于目前最先進(jìn)的通用分割網(wǎng)絡(luò)DeepLabV3+1.4個百分點(diǎn),在OA評分標(biāo)準(zhǔn)上高于1個百分點(diǎn)。從不同分類上看,按照F1 評分標(biāo)準(zhǔn),MSSNet 在所有分類上均取得第一名的成績。圖5顯示了MSSNet與其他通用網(wǎng)絡(luò)在Vaihingen 數(shù)據(jù)集上的定性對比,從第二行具有挑戰(zhàn)性的高密度車場景中可以看出MSSNet 對每一個車的分割都非常精細(xì),而其他網(wǎng)絡(luò)多分現(xiàn)象明顯,甚至把陰影處的灰色車分割為建筑物。從第一行和第三行樹和植被較多的場景中可以看出MSSNet 分類錯誤情況較少,而其他通用網(wǎng)絡(luò)分類時經(jīng)常混淆相似地物。
表1 在Vaihingen測試集上定量對比深度學(xué)習(xí)方法%
MSSNet 能夠取得如此好的成績原因主要有兩點(diǎn):(1)MSSNet在解碼層加入了空洞空間金字塔池化結(jié)構(gòu),強(qiáng)化了多尺度特征提取能力。(2)MSSNet在輸出層合并了全部解碼器的特征,得到了更多的語義、位置、邊界信息,強(qiáng)化了分割能力。為了驗(yàn)證MSSNet的解碼器在多尺度特征提取上的有效性,替換了MSSNet的解碼器為圖3所示的傳統(tǒng)解碼器,實(shí)驗(yàn)結(jié)果如表1中MSSNet-TD所示。從最終得分上看OA 降低了1.1 個百分點(diǎn),MF1降低了1.6個百分點(diǎn)。從不同分類上來看所有得分都降低了,尤其是車的得分,降低了3.5個百分點(diǎn)。從圖5中可以看出,精細(xì)結(jié)構(gòu)的地物出現(xiàn)較為明顯的多分現(xiàn)象。實(shí)驗(yàn)證明MSSNet 的解碼器相比于傳統(tǒng)解碼器擁有更強(qiáng)的提取多尺度特征能力。為了驗(yàn)證MSSNet 輸出層強(qiáng)化分割能力的有效性,在替換解碼器為傳統(tǒng)解碼器的基礎(chǔ)上又替換輸出層為傳統(tǒng)輸出層,實(shí)驗(yàn)結(jié)果如表1中MSSNet-TD-TO所示。從最終得分上看,相比MSSNet-TD 網(wǎng)絡(luò) OA 降低了 1 個百分點(diǎn),MF1 降低了 1.9 個百分點(diǎn),從圖5中可以明顯看出地物邊界不清晰。實(shí)驗(yàn)證明MSSNet的輸出層相比傳統(tǒng)網(wǎng)絡(luò)的輸出層能夠得到更多的位置和邊界信息,強(qiáng)化分割能力。MSSNet-TD-TO相比于 MSSNet,OA 降低了 2.1 個百分點(diǎn),MF1 降低了 3.5個百分點(diǎn),實(shí)驗(yàn)證明MSSNet的結(jié)構(gòu)相比于傳統(tǒng)分割網(wǎng)絡(luò)的結(jié)構(gòu)在遙感語義分割上更加優(yōu)秀。
圖5 在Vaihingen測試集上定性對比深度學(xué)習(xí)方法
(2)Potsdam數(shù)據(jù)集對比
表2 顯示了MSSNet 與其他通用網(wǎng)絡(luò)在的Potsdam數(shù)據(jù)集的定量對比。從最終得分來看,MSSNet 在MF1評分標(biāo)準(zhǔn)上高于第二名DeepLabV3+1.2 個百分點(diǎn),在OA評分標(biāo)準(zhǔn)上高于1.1個百分點(diǎn)。從不同分類上看,按照F1評分標(biāo)準(zhǔn),MSSNet在所有分類上均取得了第一名的成績。圖6 顯示了MSSNet 與其他通用網(wǎng)絡(luò)在Potsdam數(shù)據(jù)集上的定性對比,從第二行車較多并有單棵樹木的場景中可以看出樹和車的分割范圍精細(xì),多分現(xiàn)象不明顯,而其他網(wǎng)絡(luò)多分、誤分現(xiàn)象嚴(yán)重。從第三行植被和樹較多的場景中可以看出樹林區(qū)域分割較為準(zhǔn)確,植被和樹混淆現(xiàn)象較少,而其他網(wǎng)絡(luò)常常出現(xiàn)相似地物的誤分現(xiàn)象。
表2 在Potsdam測試集上定量對比深度學(xué)習(xí)方法%
圖6 在Potsdam測試集上定性對比深度學(xué)習(xí)方法
在Potsdam數(shù)據(jù)集的實(shí)驗(yàn)中可以看出MSSNet的分割不具有單數(shù)據(jù)集偶然性,它在其他遙感數(shù)據(jù)集上依然表現(xiàn)良好。
為了評估所提出方法的有效性,將其與相同數(shù)據(jù)集論文方法和數(shù)據(jù)集排行榜方法進(jìn)行對比。
(1)Vaihingen數(shù)據(jù)集對比
定量對比如表3所示,本文提出的方法獲得了87.0%的OA和85.3%的MF1,超過了大部分基準(zhǔn)方法。從表3中可以看出DLR_10高于本文提出的方法,原因是它采用了FCN、SegNet 和邊緣檢測相結(jié)合的集成學(xué)習(xí)方法,減少了誤差。但是這種方法有訓(xùn)練復(fù)雜、運(yùn)行速度慢和對硬件要求高的缺點(diǎn)。在單網(wǎng)絡(luò)模型對比上,如表1 所示,MSSNet 明顯高于DLR_10 方法中的FCN和SegNet。
表3 在Vaihingen測試集上定量對比基準(zhǔn)方法%
(2)Potsdam數(shù)據(jù)集對比
定量對比如表4所示,本文提出的方法獲得了87.3%的OA和88.7%的MF1,超過了大部分基準(zhǔn)方法。從表4中可以看出TreeNet 高于本文提出的方法,原因是它采用了手動組網(wǎng)和自動組網(wǎng)相結(jié)合的方式,通過自動組網(wǎng)讓網(wǎng)絡(luò)自己選擇最優(yōu)結(jié)構(gòu)。但是這種方法訓(xùn)練過程復(fù)雜,在自動組網(wǎng)部分需要大量的GPU 進(jìn)行長時間運(yùn)算才能找到最優(yōu)結(jié)構(gòu)。
表4 在Potsdam測試集上定量對比基準(zhǔn)方法%
高分辨率遙感圖像的語義分割在國土規(guī)劃、地理監(jiān)測等領(lǐng)域有著廣泛的應(yīng)用,是遙感領(lǐng)域一個非常重要的研究課題。對高分辨率遙感圖像進(jìn)行語義分割時首先要考慮分割精確度,因?yàn)樵谳^大比例尺下,圖像分割錯誤1 cm就可能造成幾十米的誤差。
為了獲得更高的分割精確度,MSSNet 采用了較大的網(wǎng)絡(luò)架構(gòu),它由117 個卷積層構(gòu)成,需要計(jì)算180 MB的網(wǎng)絡(luò)參數(shù)。在預(yù)測時需要占用3.6 GB顯卡內(nèi)存,2 GB運(yùn)行內(nèi)存,在使用NVIDIA TITAN X 顯卡的實(shí)驗(yàn)環(huán)境下一秒鐘可以分割28 張512×512 的圖像。在工程應(yīng)用時為了流暢的運(yùn)行,電腦配置應(yīng)不低于Inter I5處理器,4 GB運(yùn)行內(nèi)存,6 GB顯卡內(nèi)存。
本文提出了一種新型的多尺度語義分割網(wǎng)絡(luò)分割高分辨率遙感圖像,它的編碼層可以充分提取遙感圖像的地物特征,解碼層可以提取多尺度特征并進(jìn)行基于像素點(diǎn)分類,輸出層能夠強(qiáng)化分割能力,輸出最終的預(yù)測結(jié)果。在Vaihingen 和Potsdam 數(shù)據(jù)集的實(shí)驗(yàn)中可以看出MSSNet相比通用網(wǎng)絡(luò)模型具有更高的分割精確度,在相似地物分割上混淆率低,在精細(xì)地物分割上范圍準(zhǔn)確。相比已發(fā)表方法,MSSNet 在相似地物和精細(xì)地物的分割上更為精確且訓(xùn)練過程簡單、易于使用。
在未來,可以考慮使用更加適合提取高分辨率遙感圖像特征的網(wǎng)絡(luò)替換編碼層的ResNet101網(wǎng)絡(luò),也可以在解碼層加入更加優(yōu)秀的分割結(jié)構(gòu)強(qiáng)化基于像素點(diǎn)的分類能力。