師超,姜琦剛,段富治,史鵬飛
1.吉林大學(xué) 地球探測科學(xué)與技術(shù)學(xué)院,長春 130026;2.武漢大學(xué) 遙感信息工程學(xué)院,武漢 430079
近年來,隨著國產(chǎn)衛(wèi)星業(yè)務(wù)的發(fā)展,遙感影像越來越向高分辨率、多光譜的方向發(fā)展,衛(wèi)星影像所包含的信息越來越復(fù)雜。在遙感應(yīng)用中,遙感解譯為城市建設(shè)、防災(zāi)減災(zāi)和生態(tài)監(jiān)測等提供了基礎(chǔ)數(shù)據(jù),而解譯一直以來是一項(xiàng)費(fèi)時(shí)費(fèi)力的工作。傳統(tǒng)的人機(jī)交互解譯方法也在向半自動(dòng)、自動(dòng)化解譯的方向發(fā)展。卷積網(wǎng)絡(luò)的出現(xiàn)為遙感影像的自動(dòng)化地物分類開辟了新的道路。
基于卷積神經(jīng)網(wǎng)絡(luò)的語義分割技術(shù)是對遙感影像進(jìn)行分類的重要手段之一。語義分割是計(jì)算機(jī)視覺中的研究熱點(diǎn),主要是將原始數(shù)據(jù)(圖像、點(diǎn)云)作為輸入,通過一系列變換操作將其轉(zhuǎn)換為具有突出顯示的感興趣區(qū)域的掩膜[1]。傳統(tǒng)的圖像分割方法主要針對圖像的色彩、紋理等信息進(jìn)行處理分析,例如基于像素的聚類分割方法[2]、基于像素的決策樹分類方法[3],受當(dāng)時(shí)條件所限,這些傳統(tǒng)方法只能處理一些灰度圖,提取圖像的低級特征,遠(yuǎn)遠(yuǎn)達(dá)不到應(yīng)用生產(chǎn)級精度[4]。且受目標(biāo)類別分布不均衡、紋理細(xì)節(jié)難以分辨等因素的影響[5],傳統(tǒng)的語義分割模型通常難以對衛(wèi)星影像等包含海量復(fù)雜信息的數(shù)據(jù)進(jìn)行類別劃分。近年來,深度學(xué)習(xí)技術(shù)的發(fā)展為語義分割技術(shù)帶來了新的解決思路,如加入跳躍結(jié)構(gòu),融合深淺層特征的全卷積神經(jīng)網(wǎng)絡(luò)(FCN)[6]、在FCN基礎(chǔ)上解決了FCN因缺乏空間一致性而導(dǎo)致分割結(jié)果不夠精細(xì)的Deeplab網(wǎng)絡(luò)[7]等。目前語義分割技術(shù)大多應(yīng)用于實(shí)際場景,針對包含海量信息的遙感影像的應(yīng)用依然較少,Ronneberger et al.[8]提出Unet模型,最初應(yīng)用于生物細(xì)胞圖像分割,目前已經(jīng)被應(yīng)用于許多任務(wù),如圖像分割、圖像轉(zhuǎn)換等,且取得了不錯(cuò)的效果[9]。Unet模型是一種基于像素的端到端的全卷積神經(jīng)網(wǎng)絡(luò)模型,由FCN模型改進(jìn)而來。本文將Unet模型應(yīng)用于遙感圖像分類,通過Unet模型的跳躍連接機(jī)制將圖像深淺層信息融合起來,對圖像細(xì)節(jié)特征進(jìn)行提取[10]。單獨(dú)使用Unet模型對于地物的分類效果較為粗糙,難以分辨地物細(xì)節(jié),而全連接條件隨機(jī)場(CRF)在求解像素標(biāo)簽時(shí)考慮圖像中其余像素對該像素的影響,能極大地細(xì)化標(biāo)記和分割,使得邊界處分割準(zhǔn)確[11]。本文通過將Unet模型的輸出作為全連接條件隨機(jī)場的輸入,綜合二者優(yōu)勢,得到準(zhǔn)確性高、邊界清晰的分類結(jié)果。
Unet網(wǎng)絡(luò)是一種基于像素的端到端的圖像語義分割方法,最初由Ronneberger et al.[8]提出并最先應(yīng)用于生物細(xì)胞圖像分割。全連接條件隨機(jī)場是由Lafferty J et al.[12]提出,是一種基于概率的無向圖模型。本文將二者結(jié)合,使用自制訓(xùn)練數(shù)據(jù)進(jìn)行模型訓(xùn)練及預(yù)測,模型結(jié)構(gòu)如圖1所示。
筆者使用自制訓(xùn)練數(shù)據(jù)對Unet網(wǎng)絡(luò)模塊進(jìn)行訓(xùn)練及研究區(qū)分類預(yù)測。Unet網(wǎng)絡(luò)是一種輕型網(wǎng)絡(luò),能夠在較小的訓(xùn)練樣本的基礎(chǔ)上取得較好的分類效果。Unet網(wǎng)絡(luò)整體上呈現(xiàn)U型對稱結(jié)構(gòu),采用跳躍連接,將下采樣過程中得到的淺層特征及上采樣過程中得到的深層特征進(jìn)行拼接,使得最終得到的特征圖中既包含深層特征又包含淺層特征,實(shí)現(xiàn)不同尺度的特征融合,從而實(shí)現(xiàn)特征提取。本文使用的Unet網(wǎng)絡(luò)可分為左右兩個(gè)部分,左側(cè)由4個(gè)下采樣卷積塊組成,每個(gè)下采樣卷積塊分別進(jìn)行兩次卷積操作和一次最大池化操作。右側(cè)由4個(gè)上采樣卷積塊組成,每個(gè)上采樣層均包含兩次反卷積及特征融合操作。每次卷積、反卷積后均使用ReLu函數(shù)作為激活函數(shù)。Unet網(wǎng)絡(luò)通過多尺度融合,有效提高了預(yù)測結(jié)果的準(zhǔn)確度。
圖1 Unet+CRF模型結(jié)構(gòu)
中全連接條件隨機(jī)場(CRF)是整個(gè)模型的后處理階段,以Unet模型的輸出結(jié)果作為CRF的輸入,對結(jié)果進(jìn)行精細(xì)化分割。CRF解決了全局歸一化問題,可以較好地應(yīng)用于像素級圖像分割。在全連接條件隨機(jī)場中,原始圖像中每個(gè)像素點(diǎn)都具有一個(gè)已分配好的類別標(biāo)簽xi,目標(biāo)圖像中有一個(gè)與之對應(yīng)的觀測值yi,將每個(gè)像素都看作一個(gè)節(jié)點(diǎn),使用像素與像素之間的關(guān)系作為連接邊,且每個(gè)像素點(diǎn)都與所有的像素點(diǎn)連接,這樣就組成了一個(gè)全連接條件隨機(jī)場。全連接條件隨機(jī)場符合吉布斯分布[13]。公式為:
(1)
式中:x為觀測值,E(X|I)為由一元?jiǎng)莺瘮?shù)和二元?jiǎng)莺瘮?shù)構(gòu)成的能量函數(shù),公式為:
E(x|I)=∑iψu(yù)(xi)+∑i,jψp(xi,yi)
(2)
式中:一元?jiǎng)莺瘮?shù)ψu(yù)的計(jì)算只考慮了單個(gè)像素點(diǎn)的特征來對像素點(diǎn)進(jìn)行標(biāo)簽分類,這和卷積神經(jīng)網(wǎng)絡(luò)的后端輸出一致,因此本文的全連接條件隨機(jī)場直接進(jìn)行二元?jiǎng)莺瘮?shù)的計(jì)算。二元?jiǎng)莺瘮?shù)結(jié)合了像素間的關(guān)聯(lián)性,將相似的像素標(biāo)記為相同的標(biāo)簽,差異較大的像素標(biāo)記為不同的標(biāo)簽,使得土地利用分類的結(jié)果邊界更加清晰明確。
采用Kappa系數(shù)及F1--score作為衡量分類精度的指標(biāo)。Kappa系數(shù)的計(jì)算是基于混淆矩陣,公式為:
(3)
式中:p0為總體分類精度,是每一類正確分類的樣本數(shù)量之和除以總樣本數(shù)。pe被稱為偶然性一致性比例,表示偶然性因素導(dǎo)致的錯(cuò)誤解釋的比例。Kappa系數(shù)通常在0~1之間,0.61~0.80即代表分類結(jié)果與實(shí)際類別具有高度一致性[14]。
F1--score同時(shí)兼顧了分類模型的精確率和召回率。公式為:
(4)
由數(shù)學(xué)定義可明顯看出,F(xiàn)1--score指標(biāo)綜合了precision(精確率)與recall(召回率)的結(jié)果,是一種對模型具有均衡評價(jià)效果的指標(biāo)。
選取吉林省長春市朝陽區(qū)附近區(qū)域(圖2)為訓(xùn)練區(qū),訓(xùn)練區(qū)面積約144.14 km2,選取吉林省長春市寬城區(qū)部分區(qū)域?yàn)轭A(yù)測區(qū),預(yù)測區(qū)面積約145.04 km2。以GF--2影像數(shù)據(jù)為數(shù)據(jù)源,經(jīng)過342波段組合及全色波段融合后,空間分辨率為2 m,足以進(jìn)行精細(xì)地物的訓(xùn)練及預(yù)測。
圖2中訓(xùn)練區(qū)內(nèi)主要地物分布均勻,根據(jù)區(qū)內(nèi)實(shí)際地物類型將訓(xùn)練類別分為耕地、林草地、建筑用地、道路、湖泊、河流及裸地,共7類地物類型。
本文采用的訓(xùn)練數(shù)據(jù)集是以GF--2影像為數(shù)據(jù)源的目視解譯成果。訓(xùn)練集制作流程如圖3所示。在Arcmap中通過對GF--2遙感數(shù)據(jù)進(jìn)行目視解譯,得到訓(xùn)練區(qū)目視解譯圖。本文模型訓(xùn)練所使用的計(jì)算機(jī)系統(tǒng)為Window10,Core i9處理器,運(yùn)行內(nèi)存16 G,顯卡為RTX 2060??紤]到計(jì)算機(jī)性能的限制,將目視解譯圖及對應(yīng)的影像裁剪為128×128像元大小,得到等大的影像及對應(yīng)的標(biāo)簽。
為擴(kuò)大訓(xùn)練數(shù)據(jù)集,提高訓(xùn)練模型的泛化性,對訓(xùn)練集數(shù)據(jù)隨機(jī)進(jìn)行了旋轉(zhuǎn)、鏡像、添加噪聲等數(shù)據(jù)增強(qiáng)操作[15],而且將人工解譯的RGB型標(biāo)注轉(zhuǎn)換為灰度標(biāo)注以便模型讀取,生成7 744組訓(xùn)練樣本(圖4)。
圖3 訓(xùn)練數(shù)據(jù)制作流程圖
實(shí)驗(yàn)使用的7 744組訓(xùn)練樣本中,耕地、林草地、道路、建筑用地、湖泊、河流及裸地所占比重如圖5所示。
由圖5可知,本實(shí)驗(yàn)是一個(gè)典型的樣本分布不均衡試驗(yàn),訓(xùn)練樣本中湖泊所占比重最少,僅為2.46%,耕地所占比重最高,為43.27%。從該模型的最終精度評價(jià)來看,其Kappa系數(shù)達(dá)到0.711,F(xiàn)1--score達(dá)到0.795,可見對于樣本不均衡問題,Unet+CRF方法依然能夠取得較好的分類效果。這大大降低了樣本集的制作難度及訓(xùn)練區(qū)地物類別分布的要求。
將耕地、林草地、道路、建筑用地、湖泊、河流及裸地分別采用Unet、Unet+CRF、Segnet、Segnet+CRF模型進(jìn)行訓(xùn)練及預(yù)測。訓(xùn)練數(shù)據(jù)7 744組,Unet網(wǎng)絡(luò)訓(xùn)練輪次達(dá)到40次時(shí)模型訓(xùn)練完成,Segnet網(wǎng)絡(luò)訓(xùn)練輪次達(dá)到13次時(shí)模型訓(xùn)練完成,最終得到如圖6~8的分類結(jié)果對比。
由上述研究區(qū)分類結(jié)果圖及不同模型間的精度差異(表1)可以看出,Segnet網(wǎng)絡(luò)、Unet網(wǎng)絡(luò)均能對耕地、建筑用地進(jìn)行區(qū)分,且CRF結(jié)構(gòu)均對兩種網(wǎng)絡(luò)的分類結(jié)果進(jìn)行了較好的優(yōu)化,但Segnet網(wǎng)絡(luò)對于其他少樣本地物分類精度明顯不足。CRF結(jié)構(gòu)對于Segnet網(wǎng)絡(luò)的Kappa系數(shù)提高了0.062、F1--score提高了0.005,對于Unet網(wǎng)絡(luò)的Kappa系數(shù)提高了0.018,F(xiàn)1--score提高了0.011。但從表1可以看出,單獨(dú)使用Segnet網(wǎng)絡(luò)分類精度較低,Kappa系數(shù)僅0.524,F(xiàn)1得分為0.676。使用Unet+CRF方法得到最終的Kappa系數(shù)為0.711,F(xiàn)1--score為0.795,與真實(shí)地物具有高度一致性。由圖6~8可看出采用segnet網(wǎng)絡(luò)得到的預(yù)測結(jié)果部分地區(qū)存在較為明顯的拼接現(xiàn)象,整體預(yù)測效果不佳。采用Unet網(wǎng)絡(luò)得到的預(yù)測結(jié)果圖無明顯拼接現(xiàn)象,整體效果較好。
圖4 部分訓(xùn)練數(shù)據(jù)圖(影像+標(biāo)注)
圖5 訓(xùn)練數(shù)據(jù)不同類別所占比重圖
表1 不同模型間精度評價(jià)
圖6 研究區(qū)影像圖及真實(shí)標(biāo)簽
圖7 Segnet及Segnet+CRF分類結(jié)果
圖8 Unet及Unet+CRF分類結(jié)果
本文使用的Unet+CRF方法分類結(jié)果混淆矩陣如圖9所示,表2中顯示了該方法有16.8%的林草地被錯(cuò)分為耕地,這與訓(xùn)練樣本中一些林草地的顏色、紋理特征與耕地特征較為相似所導(dǎo)致。有21.2%的裸地被錯(cuò)分為建筑用地,這是由于某些建筑用地色彩紋理特征與裸地相近。此外,“湖泊”類別整體正確率較其他類別低,有42.6%的像元錯(cuò)分為了河流,這是由于湖泊與河流本身色彩特征較為相近,只能依賴形狀特征進(jìn)行劃分所致。
圖9 Unet+CRF分類結(jié)果混淆矩陣
不同分類方法對于不同地物的分類正確率如表2所示。由表2可看出,本文所采用的4種方法對建筑用地、林草地、耕地、河流、道路均具有較好的區(qū)分度,其中,Unet+CRF方法對于耕地、裸地、河流、道路均具有最高的正確率劃分,分別達(dá)到了77.13%、54.71%、63.42%、69.31。Segnet+CRF方法對于建筑用地正確率最高,達(dá)到了74.62%,但對于其他類型地物的劃分,正確率遠(yuǎn)低于Unet+CRF方法。
(1)采用Unet+CRF方法進(jìn)行模型訓(xùn)練及預(yù)測,預(yù)測結(jié)果Kappa系數(shù)達(dá)到0.711,F(xiàn)1--score達(dá)到0.795,與實(shí)際地物具有高度一致性,能夠較好地應(yīng)用于國產(chǎn)GF--2衛(wèi)星數(shù)據(jù)地物自動(dòng)分類領(lǐng)域中。
表2 不同地物分類精度表
(2)Unet+CRF方法面對類別不均衡的訓(xùn)練樣本時(shí),依然能夠取得較好的分類效果,降低了對訓(xùn)練數(shù)據(jù)制作的要求,提高了模型的整體運(yùn)行效率。
(3)Unet模型中包含跳躍連接結(jié)構(gòu),將低層信息與深層特征信息相融合,能夠更加精確地分割地物,提高分割精度。
(3)Unet+CRF方法是基于像素進(jìn)行模型訓(xùn)練及預(yù)測的,對于像素值相似的地物類型存在不易區(qū)分的問題,在未來的模型完善中,可考慮與多種模型融合,綜合不同模型取得的特征圖,選取最為準(zhǔn)確的一類或幾類作為最終特征圖。