李彥勝,武康,歐陽松,楊坤,李和平,張永軍
1.武漢大學(xué) 遙感信息工程學(xué)院,武漢 430079;
2.貴州省基礎(chǔ)地理信息中心,貴陽 550004;
3.貴州省第一測繪院,貴陽 550025
遙感影像語義分割作為地學(xué)信息解譯的基礎(chǔ)性工作,廣泛地應(yīng)用于土地覆蓋制圖、自然環(huán)境保護、災(zāi)害應(yīng)急監(jiān)測、城市空間規(guī)劃等領(lǐng)域,具有重要的應(yīng)用價值(Ma等,2019)。遙感影像是地表三維世界經(jīng)過大氣傳輸?shù)竭_傳感器的映射,包含了豐富的地物光譜、目標(biāo)形狀特征和地理空間關(guān)系等信息。人類領(lǐng)域?qū)<以谡Z義分割過程中,往往需要綜合考慮目標(biāo)語義信息和地學(xué)先驗知識才能夠有效克服遙感影像的“同譜異物、同物異譜”問題,從而取得理想的分割結(jié)果(Zhu等,2017)。
傳統(tǒng)的圖像語義分割方法包括最大似然法(MLE)、隨機森林(RF)、決策樹(DT)、支持向量機(SVM)等基于淺層特征判別的監(jiān)督分類方法(Camps-Valls 等,2014;李楠 等,2018)。這類方法一般先根據(jù)人工設(shè)計的特征描述子提取圖像的光譜、紋理和幾何結(jié)構(gòu)特征,然后進行特征分類(肖春姣 等,2020)。傳統(tǒng)分割方法高度依賴于人工設(shè)計特征,難以跨越底層圖像數(shù)據(jù)與高層邏輯信息的語義鴻溝,其魯棒性和精度較差。隨著人工智能理論與技術(shù)的快速發(fā)展,深度學(xué)習(xí)方法廣泛運用到了遙感圖像處理任務(wù)中(Li 等,2018,2020,2021a)?;谏疃葘W(xué)習(xí)的語義分割方法包括全卷積網(wǎng)絡(luò)(FCN)、U型網(wǎng)絡(luò)(U-Net)、分割網(wǎng)絡(luò)(SegNet)、掩模區(qū)域卷積網(wǎng)絡(luò)(Mask R-CNN)、深度分割網(wǎng)絡(luò)(DeepLab)、分割Transformer(SegFormer)、多視野融合網(wǎng)絡(luò)(MFV-Net)、PID網(wǎng)絡(luò)(PIDNet)等深度語義分割網(wǎng)絡(luò)方法(Long等,2015;Ronneberger 等,2015;Badrinarayanan等,2017;Zhao 等,2017;He 等,2018;Chen等,2018;Xie 等,2021;Li 等,2023;Xu 等,2023)。深度語義分割網(wǎng)絡(luò)通過端到端的學(xué)習(xí)機制對特征提取與特征分類一體化模型自動學(xué)習(xí),從而自適應(yīng)完成分割工作,使得分割的準(zhǔn)確度大幅提高、分割的過程也更加智能化。然而,深度學(xué)習(xí)是基于像素的數(shù)據(jù)驅(qū)動方法,通過降低在每個像素上的損失來反向優(yōu)化網(wǎng)絡(luò)模型,缺乏實體級別的學(xué)習(xí),不能有效提取出目標(biāo)形狀特征,使得分割結(jié)果整體性缺失、邊界模糊和隨機噪聲分布明顯,同時受制于結(jié)構(gòu)化數(shù)據(jù)驅(qū)動方法的缺陷,往往難以利用地學(xué)先驗知識和實體間豐富的語義信息(如空間關(guān)系)(Liu 等,2020),導(dǎo)致可解釋性差。以上兩點不足嚴(yán)重制約著深度語義分割網(wǎng)絡(luò)性能,亟需在分割過程中從實體尺度出發(fā),綜合考慮地學(xué)先驗知識和實體間語義信息。
先驗知識和語義信息是對規(guī)則或事實的抽象化表達,難以形式化建模。為充分利用先驗知識,國內(nèi)外專家學(xué)者探索了諸多方法,如輔助通道嵌入、物理模型建模、遷移學(xué)習(xí)等。輔助通道嵌入方法(Wu 等,2021)通過將領(lǐng)域知識作為輔助的輸入通道參與網(wǎng)絡(luò)訓(xùn)練測試從而進行知識嵌入。物理模型建模方法(Xu 等,2022;Li 等,2022)將物理知識融入損失函數(shù)和模型結(jié)構(gòu)中來利用先驗知識。遷移學(xué)習(xí)方法(Dash 等,2022;李發(fā)森等,2022;歐陽淑冰 等,2022)通過預(yù)訓(xùn)練等方式將領(lǐng)域先驗知識耦合網(wǎng)絡(luò)模型中。然而這些方法大多只考慮到特定場景下的先驗知識的入,對語義信息的利用程度不夠。在此背景下,遙感科學(xué)應(yīng)該得到本體論、知識圖譜等知識表示技術(shù)的支持。本體(Ontology)(Arvor 等,2019)作為對特定領(lǐng)域中概念及其相互關(guān)系的形式化表達,具有很強的知識表示能力、基于認知語義學(xué)的推理能力和共享知識的能力。地學(xué)知識圖譜作為語義網(wǎng)絡(luò),描述了地物目標(biāo)的屬性以及目標(biāo)之間的關(guān)系,相較于其他建模方式,能夠更好的捕捉實體之間的語義關(guān)聯(lián)和復(fù)雜的關(guān)系模式,有助于更好地理解和推理知識,適用于地學(xué)知識的結(jié)構(gòu)化表達。其中,地學(xué)本體是地學(xué)知識圖譜的骨架,地物目標(biāo)作為本體的實例化對象組成了地學(xué)知識圖譜的基本單元。地學(xué)知識圖譜的發(fā)展經(jīng)歷了專家智能解譯系統(tǒng)(Goodenough 等,1987)、地學(xué)信息圖譜(張洪巖 等,2020)、地理知識圖譜(Hogan等,2022)3 個階段。傳統(tǒng)的專家智能解譯系統(tǒng)通過知識的規(guī)則化模仿專家的決策過程,針對性強,但適用范圍小,解譯精度有限;地學(xué)信息圖譜是一種借鑒圖譜思想構(gòu)建的地球信息科學(xué)理論,系統(tǒng)化和抽象化地表達了地學(xué)知識,但由于面向的是整個地學(xué)領(lǐng)域,并不能直接用于遙感影像解譯;地理知識圖譜則是將當(dāng)前的知識圖譜理論引入到了地理科學(xué)領(lǐng)域,完成了地學(xué)知識的結(jié)構(gòu)化表達和推理?,F(xiàn)有遙感影像解譯方法缺乏地學(xué)知識的嵌入,導(dǎo)致解譯的可解釋性和可靠性受限,這使得地學(xué)知識圖譜驅(qū)動下的遙感影像智能解譯具有廣闊的應(yīng)用前景(王志華 等,2021;李彥勝和張永軍,2022;張永軍 等,2023)。通過引入地學(xué)知識圖譜,從中抽取符號化的地學(xué)先驗知識和語義信息,并借助知識推理以完成遙感影像解譯,從而提高解譯結(jié)果的準(zhǔn)確度和可解釋性。在已有工作中,建筑物本體模型(Gui 等,2016)用于從SAR 影像中提取建筑物,地學(xué)知識圖譜推理(Gu等,2017)被用于基于目標(biāo)的高分辨率遙感影像語義分類方法,旨在挖掘利用地學(xué)知識圖譜推理理論對遙感影像解譯的優(yōu)勢。地學(xué)知識圖譜嵌入方法(吳瑞 等,2022)被用于高光譜解混領(lǐng)域,通過先驗知識來進一步提高端元選擇的可靠性,從而提升解混的精度。地學(xué)知識圖譜推理增強了分類結(jié)果的可解釋性和可信度,但是相比于深度學(xué)習(xí)方法,其分類精度較差(Li 等,2021b)。聯(lián)合深度學(xué)習(xí)與知識推理是協(xié)調(diào)數(shù)據(jù)驅(qū)動方法與知識驅(qū)動方法的重要途徑(Arvor 等,2019;Li 等,2022)。在該類工作中,Alirezaie等(2019)實現(xiàn)了本體推理器與深度神經(jīng)網(wǎng)絡(luò)分類器在輸入和輸出端的交互。耦合深度語義分割網(wǎng)絡(luò)和圖卷積神經(jīng)網(wǎng)絡(luò)的遙感影像語義分割方法DSSN-GCN(Ouyang和Li,2021)借助圖卷積神經(jīng)網(wǎng)絡(luò)對節(jié)點依賴關(guān)系的強大建模能力,在深度語義分割網(wǎng)絡(luò)的特征提取的基礎(chǔ)上引入了地物目標(biāo)空間拓撲關(guān)系,從而預(yù)先將空間拓撲先驗知識嵌入到了網(wǎng)絡(luò)中,有效提高了網(wǎng)絡(luò)的性能。雖然遙感領(lǐng)域已有研究引入知識來推動遙感影像解譯技術(shù)(范菁 等,2017),但仍沒有具體工作來探討如何將地學(xué)知識圖譜來引導(dǎo)優(yōu)化深度網(wǎng)絡(luò)。鑒于結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化知識之間的鴻溝,如何將地學(xué)知識嵌入深度語義分割網(wǎng)絡(luò)中以自主引導(dǎo)網(wǎng)絡(luò)訓(xùn)練仍極具挑戰(zhàn)性。
基于上述分析,為在深度語義分割網(wǎng)絡(luò)分割過程中實現(xiàn)實體級特征自主學(xué)習(xí)以及充分利用空間語義信息與地學(xué)先驗知識,本文提出了地學(xué)知識圖譜引導(dǎo)的遙感影像深度語義分割方法,使用從地學(xué)知識圖譜中抽取得到的地物目標(biāo)語義信息和地學(xué)先驗知識來構(gòu)建實體級連通約束和實體間共生約束,從而自主引導(dǎo)深度語義分割網(wǎng)絡(luò)訓(xùn)練。實體級連通約束通過對分割結(jié)果的實體級約束,保證了分割結(jié)果的整體性。實體間共生約束通過量化共生先驗知識,實現(xiàn)將非結(jié)構(gòu)化的知識嵌入到數(shù)據(jù)驅(qū)動的深度語義分割網(wǎng)絡(luò)中。驗證結(jié)果表明,本文提出的地學(xué)知識圖譜引導(dǎo)的深度語義分割方法明顯優(yōu)于已有深度語義分割方法。
本文提出方法的總體流程圖如圖1。主要包括地學(xué)知識圖譜構(gòu)建與遙感解譯先驗知識提取模塊、地學(xué)知識圖譜引導(dǎo)的損失約束模塊以及深度語義分割網(wǎng)絡(luò)優(yōu)化模塊。地學(xué)知識圖譜構(gòu)建與遙感解譯先驗知識提取模塊首先利用地學(xué)本體定義抽象類和屬性關(guān)系,再從數(shù)據(jù)集標(biāo)簽影像中抽取實體及其屬性以實例化本體類,從而完成地學(xué)知識圖譜構(gòu)建,最后從圖譜中提取空間共生先驗知識。地學(xué)知識圖譜引導(dǎo)的損失約束模塊包括常規(guī)的像素級稠密約束、實體級連通約束和實體間共生約束。數(shù)據(jù)集中的標(biāo)簽包含大量的連通域,這些連通域是地物目標(biāo)的分割結(jié)果,連通域之間的空間共生分布是領(lǐng)域分類知識的體現(xiàn)??臻g共生等地學(xué)先驗知識可以根據(jù)連通域的空間分布進行抽取。實體級連通約束和實體間共生約束均以連通域為處理單元,前者計算每一個連通域單元而不是像素的損失,以實現(xiàn)對實體的整體性約束;后者借助空間共生先驗知識完成鄰域?qū)嶓w對中心實體的打分,該分值代表中心實體在當(dāng)前鄰域空間分布下所屬類別的置信度,再根據(jù)分值計算損失,從而實現(xiàn)對實體空間分布的約束。深度語義分割網(wǎng)絡(luò)優(yōu)化模塊負責(zé)網(wǎng)絡(luò)的訓(xùn)練和圖像的語義分割。本文提出方法是一種地學(xué)知識圖譜引導(dǎo)的遙感影像深度語義分割方法,深度語義分割網(wǎng)絡(luò)優(yōu)化模塊作為其中一部分,并不局限于特定的結(jié)構(gòu),可基于不同的深度語義分割網(wǎng)絡(luò)構(gòu)建。為了驗證方法的通用性,本研究將地學(xué)知識圖譜引導(dǎo)的深度語義分割方法作用在U-Net 和DeepLab V3+這2 種常見的網(wǎng)絡(luò)中。深度語義分割網(wǎng)絡(luò)通過優(yōu)化加入約束的綜合損失來調(diào)整網(wǎng)絡(luò)模型,從而學(xué)習(xí)到實體級特征表示和利用空間共生知識引導(dǎo)分割。
圖1 本文提出方法的總體流程圖Fig.1 The workflow of the proposed method
2.1.1 地學(xué)知識圖譜構(gòu)建
地學(xué)知識圖譜建立在地學(xué)本體的基礎(chǔ)上,通過實例化本體完成構(gòu)建。地學(xué)本體的引入可將地學(xué)知識符號化,有助于提高知識的自主化運用水平。為建立地學(xué)本體,本文使用網(wǎng)絡(luò)本體語言O(shè)WL(Web OntologyLanguage)描述本體。地學(xué)本體的層次結(jié)構(gòu)如圖2 所示。可見地物對象類(rs:GeoObject)為根類,其余子類從中衍生:一級子類主要包括水體(rs:Water)、植被(rs:Vegetation)、透水地面(rs:Ground)、農(nóng)業(yè)用地(rs:Agriculturaland)、城鎮(zhèn)用地(rs:Urbanland)、交通工具(rs:Vehicle)和其他(rs:Unknown);二級子類在一級子類的基礎(chǔ)上細分為湖泊(rs:Lake)、河流(rs:River)、海洋(rs:Sea)、草地(rs:Grass)、樹木(rs:Tree)、裸地(rs:Bareland),荒地(rs:Wasteland)、耕地(rs:Farmland)、牧場(rs:Rangeland)、建筑物(rs:Building)、道路(rs:Pavement)、車輛(rs:Car)、船只(rs:Ship)、飛機(rs:Airplane)。屬性關(guān)系是本體類間或?qū)嶓w間聯(lián)系的語義橋梁,地學(xué)本體的核心屬性主要包括從屬(oc:isA)等上下層屬性,相鄰(geo:adjacentTo)、環(huán)繞(geo:surroundedBy)、方位(geo:hasDirectionOf)等空間關(guān)系屬性以及多數(shù)類(geo:MaxClass)等統(tǒng)計屬性。圖2 中上下層屬性描述了實體間的從屬關(guān)系,比如:“耕地”是“農(nóng)業(yè)用地”,因此“耕地”和“農(nóng)業(yè)用地”之間就包含上下層屬性;空間關(guān)系屬性描述了實體間的空間關(guān)系,“道路”環(huán)繞“車輛”,因此“車輛”和“道路”之間就包含環(huán)繞的空間關(guān)系屬性;統(tǒng)計屬性描述實體間的統(tǒng)計性質(zhì)和特征,如某個類別在知識圖譜中出現(xiàn)的頻率等統(tǒng)計屬性。地學(xué)本體是地學(xué)知識圖譜的骨架,而實體作為本體類的實例化對象,組成了地學(xué)知識圖譜的基本單元(圖2)。
圖2 地學(xué)本體層次結(jié)構(gòu)Fig.2 The hierarchy of the geographic ontology
2.1.2 遙感解譯先驗知識提取
數(shù)據(jù)集的標(biāo)簽影像包含大量的地物目標(biāo)信息,包括類別、空間分布等信息。地物目標(biāo)的空間分布是地學(xué)先驗知識的體現(xiàn),因此可以從標(biāo)簽影像上地物目標(biāo)的空間分布中抽取空間共生關(guān)系等先驗知識。一般來說,超像素可以作為目標(biāo)單元,因為受超像素分割算法的約束,影像中每個超像素是由一系列同質(zhì)的像素組成的,同時超像素具有一致的形狀大小,意味著形狀較大的地物目標(biāo)可以分割出更多的超像素,那么在獲取目標(biāo)單元的條件共生概率等統(tǒng)計屬性時能夠?qū)⒌匚锬繕?biāo)的尺寸也一并考慮進來。鑒于地物目標(biāo)尺寸信息的重要性,本文以原始影像超像素分割塊對應(yīng)于標(biāo)簽影像的區(qū)域作為本體類的實體。利用標(biāo)簽影像中的超像素(實體)實例化本體類,超像素中具有多數(shù)像素的地物類別作為對應(yīng)實體的本體類類別,也即實體的多數(shù)類geo:MaxClass 屬性。超像素的空間關(guān)系屬性和統(tǒng)計屬性作為實體的屬性。若實體obj1和obj2在空間上存在公共邊,則兩者具有相鄰屬性,以三元組(obj1geo:adjacentTo obj2)表示。同理可得其他屬性關(guān)系。本體類的空間共生屬性是一種地學(xué)先驗知識,可由統(tǒng)計概率表達,具體做法是在鄰域內(nèi)統(tǒng)計不同本體類實體出現(xiàn)的條件概率。以本體類Ci、Cj為例,統(tǒng)計地學(xué)知識圖譜中所屬Ci的實體出現(xiàn)的概率P(Ci),以及出現(xiàn)與該實體相鄰的類別為Cj的實體的概率P(Ci,Cj),再根據(jù)下式即可計算出在本體類Ci實體出現(xiàn)的條件下鄰域內(nèi)出現(xiàn)本體類Cj實體的概率P(Cj|Ci),稱P為共生條件概率。
以類別Cbuilding建筑類為例,首先統(tǒng)計出地學(xué)知識圖譜中出現(xiàn)建筑類的實體的概率P(Cbuilding)以及鄰域內(nèi)同時出現(xiàn)類別為建筑類和Cpavement道路類實體的概率P(Cbuilding,Cpavement),再根據(jù)式(1)即可計算出在建筑類實體出現(xiàn)的條件下鄰域內(nèi)出現(xiàn)道路類實體的概率P(Cpavement|Cbuilding)。
從遙感領(lǐng)域知識圖譜中抽取目標(biāo)實體關(guān)系知識用于自主引導(dǎo)深度語義分割網(wǎng)絡(luò)訓(xùn)練。引導(dǎo)方法主要包括實體級連通約束和實體間共生約束,約束構(gòu)建以標(biāo)簽連通域為實體。實體級連通約束以實體而不是像素為單元計算損失,實現(xiàn)對實體的整體性約束。實體間共生約束通過實體間空間共生知識將非結(jié)構(gòu)化的地學(xué)先驗知識嵌入到數(shù)據(jù)驅(qū)動的神經(jīng)網(wǎng)絡(luò)中以約束分割目標(biāo)的空間分布。深度語義分割網(wǎng)絡(luò)通過優(yōu)化總體目標(biāo)函數(shù)來完成遙感領(lǐng)域知識圖譜的嵌入。深度語義分割網(wǎng)絡(luò)的總體優(yōu)化目標(biāo)函數(shù)L 包括像素級稠密約束的常規(guī)損失項?P、實體級連通約束損失項?R和實體間共生約束損失項?K,具體計算公式如下:
式中,α和β為常數(shù),用于調(diào)節(jié)?R和?K在總體損失中所占的比例。
2.2.1 像素級稠密約束
深度語義分割網(wǎng)絡(luò)輸出的分類置信度圖F∈RC×H×W及其標(biāo)簽 影像Y∈RH×W計算像素級稠密損失,像素級稠密約束的常規(guī)損失項?P定義為
式中,F(xiàn)=?(I,Wθ),?(·)既 代表深度語義分割網(wǎng)絡(luò)的層次化映射函數(shù),也代表深度語義分割網(wǎng)絡(luò)模型,I為輸入圖像,Wθ為深度語義分割網(wǎng)絡(luò)的參數(shù)。C、H和W分別為圖像的類別數(shù)、高度和寬度。
2.2.2 實體級連通約束
圖像原始數(shù)據(jù)I輸入深度語義分割網(wǎng)絡(luò),輸出分類置信度圖F∈RC×H×W,對F按通道取最大值的序號即得到分割結(jié)果。實體級連通約束損失?R以標(biāo)簽中連通域為單元進行計算,首先在分類置信度圖F上對Si(1 ≤i≤N)實體區(qū)域內(nèi)所有像素Pj(Pj∈Si)的分類置信度向量D按通道計算均值,得到具有通道維數(shù)C的向量,這個向量作為該實體的分類置信度向量;然后根據(jù)實體的分類置信度向量和真實類別Yi計算損失;最后取所有實體損失項的均值,該均值即為實體級連通約束損失?R。具體計算公式如下:
2.2.3 實體間共生知識約束
與實體級連通約束損失構(gòu)建一樣,實體間共生約束損失?K以標(biāo)簽中連通域為實體單元進行計算。首先確定每個實體的分類類別,取實體Si(1 ≤i≤N)的分類置信度向量將向量中最大值及其最大值序號分別作為該實體的分類置信度和分類類別k(1 ≤k≤C);其次給實體Si打分,取中心實體Si鄰域內(nèi)的所有實體{Sj|SjAdjacent toSi}對Si打分(鄰域內(nèi)共mi個實體),Si的分值由鄰域內(nèi)實體的分類置信度向量的最大值和共生條件概率P按類別加權(quán)求和而來,得到具有通道維數(shù)的分值向量Hi∈RC,該向量代表中心實體在當(dāng)前鄰域空間分布下所屬各類的分類置信度;最后根據(jù)實體的基于空間分布的分類置信度向量Hi和真實類別Yi計算損失,取所有實體損失項的均值作為實體間共生約束損失?K。具體計算公式如下:
實體間共生知識約束和實體級連通約束的關(guān)系如圖1所示。二者都以連通域單元作為基本計算單位且損失計算都依賴實體的分類置信度向量,但損失計算方式、約束角度有明顯區(qū)別。其中,連通域單元是標(biāo)簽中各類別實體相連通的像素區(qū)域,實體的分類置信度向量是通過計算每個連通域單元的預(yù)測結(jié)果的逐通道均值得到。如圖1 第3行所示,實體級連通約束計算實體的分類置信度向量和真實標(biāo)簽之間的損失,從實體層級對網(wǎng)絡(luò)進行約束,使網(wǎng)絡(luò)自主學(xué)習(xí)實體級別的特征表示。如圖1第四行所示,實體間共生知識約束基于多個鄰域?qū)嶓w的分類置信度向量和地學(xué)知識圖譜中的共生條件概率得到空間分布的分類置信度向量,再計算空間分布的分類置信度向量和真實標(biāo)簽間損失,從領(lǐng)域知識的角度約束深度網(wǎng)絡(luò)訓(xùn)練。實體間共生知識約束將非結(jié)構(gòu)化的知識嵌入到數(shù)據(jù)驅(qū)動的深度語義分割網(wǎng)絡(luò)中,從而自動優(yōu)化分割結(jié)果的空間分布。
深度語義分割網(wǎng)絡(luò)輸出的分類置信度圖F及其標(biāo)簽影像Y∈RH×W計算總體損失,通過后向傳播算法降低總體損失L,從而優(yōu)化深度語義分割網(wǎng)絡(luò)?;趯嶓w級連通約束的損失?R引導(dǎo)深度語義分割網(wǎng)絡(luò)在訓(xùn)練的過程中自主學(xué)習(xí)實體級別的特征表示,使得網(wǎng)絡(luò)輸出的分割結(jié)果更具整體性,邊界模糊和隨機噪聲現(xiàn)象得到抑制。基于實體間共生約束的損失?K根據(jù)實體間的空間共生知識調(diào)整目標(biāo)的空間分布,從而實現(xiàn)對分割實體的空間分布的自動優(yōu)化。
本文基于UCM 遙感數(shù)據(jù)集(Shao 等,2018)和DeepGlobe 遙感數(shù)據(jù)集(Demir等,2018)。UCM數(shù)據(jù)集包含21 個地物類別,每個類別有100 張遙感圖像,每張圖像尺寸為256×256像素,地面分辨率為0.3 m。樣本集采用密集標(biāo)注的DLRSD 數(shù)據(jù)集(Shao 等,2018),共包含17 類。參照(Alirezaie等,2019)的做法,為了縮小類別之間的相似性,本文將樣本集中的17類合并成了8類,分別是植被(Tree,Grass)、裸地(Bare soil,Sand,Chaparral)、道路(Pavement,Dock)、建筑(Building,Mobile home,Tank)、水體(Water,Sea)、飛機(Airplane)、車輛(Cars)和船只(Ship)。每個類別由括號里面的原類別合并而成。為了減低類別之間的相似性,移除了包含F(xiàn)ield 或Tennis court 類的圖像。將這些篩選出來的圖像按8∶1∶1的比例隨機劃分出訓(xùn)練集、驗證集和測試集,分別包含1513、189和190張圖像。
DeepGlobe土地覆蓋分類數(shù)據(jù)集提供了1146幅亞米分辨率的遙感影像,圖像尺寸為2448×2448像素。人工標(biāo)注了7 類,分別是城鎮(zhèn)、耕地、牧場、森林、水體、裸地和未知類。整個數(shù)據(jù)集分為訓(xùn)練集、驗證集和測試集,分別包含803、171 和172 幅圖像。從每個原始圖像中均勻地裁剪大小為256×256 像素的圖像。將裁剪后的圖像按8∶1∶1的比例隨機劃分出訓(xùn)練集、驗證集和測試集,分別包含10272、1280和1296張圖像。
UCM 遙感數(shù)據(jù)集中,訓(xùn)練所使用的地學(xué)知識圖譜各類別共生條件概率如表1 所示;DeepGlobe數(shù)據(jù)集中各類別共生條件概率如表2所示。表中每一行表示地學(xué)知識圖譜中的類別Ci,每一列表示與Ci不同的類別Cj;表中的具體數(shù)值表示共生條件概率,即本體類Ci實體出現(xiàn)的條件下鄰域內(nèi)出現(xiàn)本體類Cj實體的概率P(Cj|Ci)。
表1 UCM數(shù)據(jù)集各類別共生條件概率Table 1 Symbiosis conditional probability of each category in UCM dataset
表2 DeepGlobe數(shù)據(jù)集各類別共生條件概率Table 2 Symbiosis conditional probability of each category in DeepGlobe dataset
在實驗測試的過程中,本文采用了經(jīng)典的UNet(Ronneberger 等,2015)和先進的DeepLab V3+(Chen 等,2018)深度語義分割網(wǎng)絡(luò)。U-Net是一種用于圖像分割任務(wù)的卷積神經(jīng)網(wǎng)絡(luò),以其編碼—解碼結(jié)構(gòu)和跳躍連接的設(shè)計而聞名,能夠有效地處理醫(yī)學(xué)圖像和自然圖像等領(lǐng)域的分割問題。其采用了一種類似于“U”形的結(jié)構(gòu),將輸入的圖像分成兩個部分,分別進行卷積和池化操作,然后將它們合并起來得到最終的輸出結(jié)果。這種結(jié)構(gòu)可以有效地捕捉圖像中的細節(jié)信息,從而提高了分割的精度。DeepLabv3+是一種用于圖像語義分割的深度學(xué)習(xí)模型。它結(jié)合了全卷積網(wǎng)絡(luò)和空洞卷積,以實現(xiàn)高效準(zhǔn)確的圖像分割。模型采用編碼器—解碼器結(jié)構(gòu),使用預(yù)訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)提取特征,并通過轉(zhuǎn)置卷積將特征映射上采樣到原始圖像尺寸??斩淳矸e和自適應(yīng)空洞擴張模塊允許模型在不增加參數(shù)的情況下捕捉多尺度上下文信息。多尺度推理和空間金字塔池化進一步提高分割性能。DeepLabv3+在圖像分割任務(wù)中取得了優(yōu)秀的性能。對于網(wǎng)絡(luò)的訓(xùn)練,分別采用隨機梯度下降法(SGD)和交叉熵(Cross Entropy)作為優(yōu)化器和損失函數(shù)。在深度學(xué)習(xí)領(lǐng)域中,當(dāng)數(shù)據(jù)規(guī)模等條件差距較大時,為了保證網(wǎng)絡(luò)的收斂,通常使用不同的初始學(xué)習(xí)率進行網(wǎng)絡(luò)訓(xùn)練(He 等,2016)。本文中2 個數(shù)據(jù)集的數(shù)據(jù)規(guī)模和分辨率等條件差異較大,因此,在UCM 數(shù)據(jù)集和DeepGlobe 數(shù)據(jù)集上的學(xué)習(xí)率設(shè)置不同,分別為3×10-4和2×10-4。另外,超像素分割方法采用了簡單線性迭代聚類SLIC(Simple Linear Iterative Cluster)(Achanta 等,2012)。所有的實驗均在PyTorch 框架下使用一塊NVIDIA 1080Ti GPU 進行的。
語義分割結(jié)果的評價指標(biāo)采用總體精度OA(Overall Accuracy)、交并比IoU(Intersection over Union)、均交并比(Mean Intersection over Union,MIoU)和頻權(quán)交并比FWIoU(Frequency Weighted Intersection over Union)。上述指標(biāo)計算公式如下:
式中,n為類別的數(shù)量,TP、TN、FP和FN 分別為正類被正確判別的像素數(shù)、正類被錯誤判別的像素數(shù)、負類被正確判別的像素數(shù)和負類被錯誤判別的像素數(shù)。
超參數(shù)主要包括式(2)中的α和β,α用于調(diào)節(jié)實體級連通約束損失項?R在總體損失L 中的占比,β用于調(diào)節(jié)實體間共生約束損失項?K在總體損失L 中的占比。由于?R和?K對于總體損失L 貢獻比例并無法直接通過理論得到,因此我們將其設(shè)置為超參數(shù),通過實驗來探究合適的比例。在UCM 數(shù)據(jù)集和DeepGlobe 數(shù)據(jù)集上,本文使用DeepLab V3+(Chen 等,2018)作為基礎(chǔ)網(wǎng)絡(luò)進行超參數(shù)的敏感性分析實驗。
3.3.1 UCM數(shù)據(jù)集上超參數(shù)敏感性分析
UCM 驗證集上α的敏感性分析結(jié)果見表3??梢姡寒?dāng)β=0.5 時,隨著α增加,基礎(chǔ)網(wǎng)絡(luò)在驗證集上的分割精度先上升后下降,當(dāng)α=0.5 時分割精度到達頂點。在最佳α=0.5 取值條件下,β的敏感性分析結(jié)果見表4。可見基礎(chǔ)網(wǎng)絡(luò)在驗證集上的分割精度隨著α變化,當(dāng)β=0.5,得到最佳精度。
表3 在UCM驗證集上α的敏感性分析(β=0.5)Table 3 The sensitivity analysis of α on the validation set of the UCM dataset(β=0.5)/%
表4 在UCM驗證集上β的敏感性分析(α=0.5)Table 4 The sensitivity analysis of β on the validation set of the UCM dataset(α=0.5)/%
3.3.2 DeepGlobe數(shù)據(jù)集上超參數(shù)敏感性分析
表5 為DeepGlobe 驗證集上α的敏感性分析結(jié)果??梢姡寒?dāng)β=0.5 時,基礎(chǔ)網(wǎng)絡(luò)在驗證集上的分割精度隨著α變化,當(dāng)α=0.5,得到最佳精度。在最佳α=0.5取值條件下,β的敏感性結(jié)果見表6,可見隨著β增加,基礎(chǔ)網(wǎng)絡(luò)在驗證集上的分割精度先上升后下降,當(dāng)β=0.5時分割精度到達最佳。
表5 在DeepGlobe驗證集上α的敏感性分析(β=0.5)Table 5 The sensitivity analysis of α on the validation set of the DeepGlobe dataset(β=0.5)/%
表6 在DeepGlobe驗證集上β的敏感性分析(α=0.5)Table 6 Sensitivity analysis of β on the validation set of the DeepGlobe dataset(α=0.5)/%
在UCM數(shù)據(jù)集和DeepGlobe數(shù)據(jù)集上,本文使用U-Net(Ronneberger 等,2015)和DeepLab V3+(Chen等,2018)作為基礎(chǔ)網(wǎng)絡(luò)進行消融實驗。
3.4.1 UCM數(shù)據(jù)集上的結(jié)果
本文方法在UCM 測試集上的語義分割精度如表7所示??梢姡合啾扔诨谙袼丶壋砻芗s束的常規(guī)損失(?P)訓(xùn)練的語義分割網(wǎng)絡(luò),加入實體級連通約束(?P+?R)訓(xùn)練的網(wǎng)絡(luò)的分割精度OA、MIoU 和FWIoU 均更高,尤其是在MIoU 上提升明顯,提升幅度達9%,這說明實體級學(xué)習(xí)能夠有效提高深度語義分割網(wǎng)絡(luò)的性能;綜合實體級連通約束與實體間共生約束(?P+?R+?K)的深度語義分割網(wǎng)絡(luò)的精度優(yōu)于只加入實體級連通約束(?P+?R)的網(wǎng)絡(luò),這體現(xiàn)了空間共生知識對于遙感影像語義分割的重要性。
表7 在UCM測試集上的語義分割精度Table 7 The accuracy of semantic segmentation on the test set of the UCM dataset/%
深度語義分割網(wǎng)絡(luò)在UCM 測試集上的分割結(jié)果如圖3 所示??梢姡簩嶓w級連通約束(?P+?R)分割結(jié)果和綜合實體級連通約束與實體間共生約束(?P+?R+?K)的分割結(jié)果均明顯優(yōu)于常規(guī)的像素級稠密約束(?P)的分割結(jié)果;對于飛機、車輛等小目標(biāo)場景,施加實體級連通約束能獲取輪廓更加清晰的分割結(jié)果,對于建筑物和油罐等規(guī)則地物,施加實體級連通約束的分割結(jié)果整體性更佳,噪聲較少同時輪廓更加清晰,這表明約束項使得網(wǎng)絡(luò)學(xué)習(xí)到了實體級的特征表示。另外,綜合實體級連通約束與實體間共生約束(?P+?R+?K)的分割結(jié)果中地物實體空間分布更加接近真實世界中的空間布局,如建筑物鄰近道路與植被。
圖3 UCM測試集上的可視化分割結(jié)果圖Fig.3 The visible semantic segmentation of the test set of the UCM dataset
3.4.2 DeepGlobe數(shù)據(jù)集上的結(jié)果
本文方法在DeepGlobe 測試集上的語義分割精度如表8所示??梢娤啾扔诨谙袼丶壋砻芗s束的常規(guī)損失(?P)訓(xùn)練的語義分割網(wǎng)絡(luò),加入實體級連通約束(?P+?R)訓(xùn)練的網(wǎng)絡(luò)的分割精度OA、MIoU 和FWIoU 均更高,這說明了實體級學(xué)習(xí)能夠有效提高深度語義分割網(wǎng)絡(luò)的性能;綜合實體級連通約束與實體間共生約束(?P+?R+?K)的深度語義分割網(wǎng)絡(luò)精度優(yōu)于常規(guī)的像素級稠密約束(?P)的網(wǎng)絡(luò)。
表8 在DeepGlobe測試集上的語義分割精度Table 8 The accuracy of semantic segmentation on the test set of the DeepGlobe dataset/%
圖4 為深度語義分割網(wǎng)絡(luò)在DeepGlobe 測試集上的分割結(jié)果??梢姡簩嶓w級連通約束(?P+?R)分割結(jié)果和綜合實體級連通約束與實體間共生約束(?P+?R+?K)的分割結(jié)果均明顯優(yōu)于基于像素級稠密約束的常規(guī)損失(?P)的分割結(jié)果;第一行和第二行的水體和牧場區(qū)域施加實體級連通約束與實體間共生約束(?P+?R+?K)的分割結(jié)果整體性更佳;第三行和第四行的水體和農(nóng)業(yè)用地的分割結(jié)果施加約束后輪廓清晰,噪聲更少,這表明約束項使得網(wǎng)絡(luò)學(xué)習(xí)到了目標(biāo)級的特征表示。綜合以上結(jié)果可以看出綜合實體級連通約束與實體間共生約束的分割結(jié)果中地物目標(biāo)空間分布更加簡單,一些錯分目標(biāo)類別被修正為鄰域目標(biāo)類別,從而優(yōu)化了地物目標(biāo)的空間布局。
圖4 DeepGlobe測試集上的可視化分割結(jié)果圖Fig.4 The visible semantic segmentation of the test set of the DeepGlobe dataset
為進一步驗證本文方法的有效性,本文選擇了經(jīng)典的U-Net 網(wǎng)絡(luò)(Ronneberger 等,2015)、先進的DeepLab V3+網(wǎng)絡(luò)(Chen 等,2018)、深度語義分割網(wǎng)絡(luò)和圖卷積網(wǎng)絡(luò)相結(jié)合的DSSN-GCN 方法(Ouyang 和Li,2021)作為對比方法,其中DSSN-GCN 方法以DeepLab V3+作為基礎(chǔ)網(wǎng)絡(luò)。本文方法以DeepLab V3+作為基礎(chǔ)網(wǎng)絡(luò),超參數(shù)α和β取各數(shù)據(jù)集下的最佳值。各方法在UCM 測試集和DeepGlobe 測試集上的分割精度見表9 和表10 所示。可見本文提出的地學(xué)知識圖譜引導(dǎo)的遙感影像深度語義分割方法綜合了實體級連通約束與實體間共生約束(?P+?R+?K),均取得最佳的分割精度,這充分驗證了本文方法對于遙感影像語義分割的有效性,同時說明了在深度語義分割網(wǎng)絡(luò)中嵌入地學(xué)先驗知識的重要性。相比于地學(xué)先驗知識預(yù)嵌入的DSSN-GCN 方法,本文方法能夠自主運用和學(xué)習(xí)地學(xué)先驗知識,從而獲得精度高和魯棒性強的分割結(jié)果。各方法在UCM 測試集和DeepGlobe 測試集上的語義分割結(jié)果如圖5 和圖6所示。與表9 和表10 結(jié)果一致,本文方法取得比其余方法更佳的分割效果。各方法對建筑物的分割結(jié)果表明在實體級連通損失的約束下,本文方法的分割結(jié)果更具整體性,輪廓清晰(第一行至第三行)且對于干擾較大的場景時噪聲更少(第四行至第六行);實間空間共生知識約束修正了分割結(jié)果中地物目標(biāo)的空間分布,使其更接近現(xiàn)實世界的空間布局,如第一行所示的車輛通常近鄰道路(圖5)。圖6 中各方法分割結(jié)果也表現(xiàn)出類似的結(jié)論,本文方法對城鎮(zhèn)和水體的分割結(jié)果更具整體性,對于水體輪廓的分割結(jié)果更加清晰,且對于復(fù)雜城鎮(zhèn)場景的分割噪聲更少。
表9 各方法在UCM測試數(shù)據(jù)集上的語義分割精度Table 7 The accuracy of semantic segmentation of various methods on the test set of UCM dataset/%
表10 各方法在DeepGlobe數(shù)據(jù)集上的語義分割精度Table 10 The accuracy of semantic segmentation of various methods on the test set of DeepGlobe dataset/%
圖5 各方法在UCM測試集上的語義分割結(jié)果Fig.5 The semantic segmentation results of the test set of the UCM dataset
圖6 各方法在DeepGlobe測試集上的語義分割結(jié)果Fig.6 The semantic segmentation results of the test set of the DeepGlobe dataset
針對深度語義分割網(wǎng)絡(luò)缺乏目標(biāo)級學(xué)習(xí)以及難以利用地學(xué)先驗知識和空間語義信息的問題,本文提出了地學(xué)知識圖譜引導(dǎo)的遙感影像深度語義分割方法。地物目標(biāo)的語義信息以地學(xué)知識圖譜的形式進行表達,地學(xué)先驗知識從地學(xué)知識圖譜中抽取,地學(xué)先驗知識和目標(biāo)空間語義信息用于構(gòu)建實體級連通約束損失和實體間共生約束損失。實體級連通約束損失引導(dǎo)深度語義分割網(wǎng)絡(luò)自主學(xué)習(xí)目標(biāo)級特征,實現(xiàn)了對實體的整體約束,使得分割結(jié)果更具整性并減少了邊界模糊和隨機噪聲;實體間共生約束損失成功地將非結(jié)構(gòu)化的地學(xué)先驗知識嵌入到數(shù)據(jù)驅(qū)動的深度語義分割網(wǎng)絡(luò)中,完成了對分割目標(biāo)的空間分布的自動優(yōu)化。本文方法有效地提高了深度語義分割網(wǎng)絡(luò)的性能和魯棒性,但同時也存在所采用的地學(xué)先驗知識單一的問題。后續(xù)研究工作將引入更全面的地學(xué)先驗知識,包括地物目標(biāo)空間拓撲信息、形狀結(jié)構(gòu)信息等知識。
志 謝本研究的數(shù)值計算部分得到了武漢大學(xué)超級計算中心的幫助。