亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于提示信息的分割大模型建筑物提取方法研究

2024-02-22 06:51:38祁信舒呂現(xiàn)偉沈佳潔

地理空間信息 2024年1期

向浩，祁信舒，呂現(xiàn)偉，梁思，沈佳潔

（1.湖北省航測遙感院，湖北武漢 430074；2.華中科技大學(xué)，湖北武漢 430074；3.武漢天遠(yuǎn)視科技有限責(zé)任公司，湖北武漢 430070）

作為地理空間中最重要的人工要素信息，建筑物提取對城市建設(shè)、耕地保護(hù)、軍事偵察等都具有重要意義[1]。因此，遙感影像中的建筑物提取一直都是人們研究的熱點(diǎn)，早期學(xué)者主要利用遙感影像中的邊界、區(qū)域等紋理信息識別建筑物，如明冬萍[2]等首先利用紋理信息在大尺度圖像上粗略識別大目標(biāo)區(qū)域，再利用區(qū)域大小、形狀和位置關(guān)系得到基元特征，進(jìn)而對這些區(qū)域進(jìn)行精細(xì)化分割；劉正軍[3]等首先利用建筑物特有的光譜、形態(tài)和紋理信息從遙感影像中提取建筑物，再將提取的建筑物邊界變換為直線邊界，從而得到建筑物的輪廓線；陳行[4]等基于建筑物形狀和結(jié)構(gòu)特點(diǎn)，從形態(tài)學(xué)的角度利用引導(dǎo)濾波改善了遙感影像中的建筑物提取性能，上述方法盡管在一定程度上實(shí)現(xiàn)了建筑物提取，但分割效率和精度還無法達(dá)到預(yù)期效果。

近年來，深度學(xué)習(xí)技術(shù)的快速發(fā)展極大地促進(jìn)了以目標(biāo)檢測、識別與分割為代表的計(jì)算機(jī)視覺領(lǐng)域的進(jìn)步。借助深度神經(jīng)網(wǎng)絡(luò)強(qiáng)大的特征提取能力，可顯著提升計(jì)算機(jī)視覺技術(shù)的性能。FCN 網(wǎng)絡(luò)[5]的提出拉開了基于深度學(xué)習(xí)的圖像分割技術(shù)的序幕，實(shí)現(xiàn)了端到端的圖像語義分割。Ronneberger O[6]等提出了一種U型網(wǎng)絡(luò)模型U-Net，通過不同網(wǎng)絡(luò)層級的拼接，最大程度保留圖像中的目標(biāo)紋理和邊緣等語義信息，從而改善了對目標(biāo)的表征能力。Chen L[7]等提出的Deep?Labv3+模型在先前研究的基礎(chǔ)上增加了一個解碼器修正分割結(jié)果，從而進(jìn)一步改善了分割邊緣。鑒于U-Net 和DeepLabv3+在目標(biāo)分割上取得的良好效果，呂道雙[8]、于明洋[9]等分別將U-Net和DeepLabv3+應(yīng)用于遙感影像的建筑物提取中。雖然這些基于深度學(xué)習(xí)技術(shù)的模型可快速提取建筑物，但受限于訓(xùn)練樣本數(shù)量和質(zhì)量，其準(zhǔn)確率仍難以滿足“真實(shí)可靠準(zhǔn)確”的質(zhì)量要求。最近基于海量數(shù)據(jù)訓(xùn)練的分割大模型SAM引起了研究人員的廣泛關(guān)注，盡管無法得到分割區(qū)域的語義信息，但其強(qiáng)大的分割能力以及可將目標(biāo)上點(diǎn)、目標(biāo)框等信息作為目標(biāo)提示輸入的特性被廣泛應(yīng)用于各種目標(biāo)分割任務(wù)中。分割精度不高的建筑物提取模型可為SAM提供潛在的建筑物目標(biāo)提示信息。

鑒于此，本文提出了基于SAM 的建筑物分割方法，將建筑物分割模型與SAM相結(jié)合，建筑物分割模型提供語義信息，SAM 提供準(zhǔn)確的分割結(jié)果；并以LoveDA 數(shù)據(jù)集中的遙感影像為實(shí)驗(yàn)數(shù)據(jù)，與直接使用DeepLabv3+得到的分割結(jié)果進(jìn)行對比，以驗(yàn)證該方法的有效性。

1 研究方法

基于SAM 的建筑物分割方法主要利用SAM 的提示信息分割功能，首先利用DeepLabv3+得到遙感影像中建筑物粗分割區(qū)域；然后從建筑物粗分割區(qū)域中生成有效的建筑物目標(biāo)點(diǎn)或目標(biāo)框，作為SAM的提示信息；最后將提示信息與遙感影像一起輸入SAM 模型，利用SAM提示信息分割功能得到建筑物的精確分割結(jié)果（圖1）。

圖1 基于提示信息SAM的建筑物分割方法研究框架

1.1 基于DeepLabv3+的建筑物粗分割

雖然基于深度學(xué)習(xí)的建筑物分割模型在準(zhǔn)確度上仍難以滿足生產(chǎn)質(zhì)量要求，但可作為SAM分割模型重要的提示信息，將潛在的建筑物區(qū)域通過關(guān)鍵目標(biāo)點(diǎn)或目標(biāo)框與原始影像一起輸入到SAM 模型中，指導(dǎo)SAM模型精確提取建筑物，從而賦予SAM語義分割的能力。本文選擇經(jīng)典的DeepLabv3+作為建筑物粗分割模型，將訓(xùn)練好的DeepLabv3+模型直接輸入原始遙感影像，輸出為與原始影像大小相同的二值影像，其中白色表示潛在的建筑物區(qū)域。本文分別采用X∈RH×W×3和I∈RH×W表示分辨率為H×W的原始影像和對應(yīng)的二值分割結(jié)果。

1.2 建筑物目標(biāo)提示信息生成

SAM模型提供了基于目標(biāo)關(guān)鍵點(diǎn)或目標(biāo)框等提示信息的目標(biāo)分割功能，因此需將DeepLabv3+輸出的二值化分割結(jié)果轉(zhuǎn)換為分割區(qū)域的目標(biāo)關(guān)鍵點(diǎn)或目標(biāo)框。由于DeepLabv3+的分割結(jié)果只包含建筑物的語義信息，不同建筑物的區(qū)域是無法區(qū)分的，因此不能直接將二值化分割結(jié)果轉(zhuǎn)換為建筑物區(qū)域的提示信息。為解決該問題，本文首先利用開源程序庫skimage.measure 中的label 函數(shù)將建筑物二值化結(jié)果中互不連通的區(qū)域轉(zhuǎn)換為不同的建筑物目標(biāo)，然后利用regionprops 函數(shù)得到每個建筑物目標(biāo)的最小矩形框?；贒eepLabv3+提取的建筑物目標(biāo)框定義為：

二值化分割結(jié)果中不同的建筑物目標(biāo)見圖2，矩形框?yàn)榛谏鲜龇椒ǖ玫降哪繕?biāo)框，由于DeepLabv3+的分割結(jié)果中存在一些分散的小區(qū)域（圖2 中藍(lán)色矩形框），其中并不包含建筑物目標(biāo)，因此需進(jìn)一步對建筑物目標(biāo)面積小于一定閾值的區(qū)域進(jìn)行過濾。基于DeepLabv3+提取的建筑物目標(biāo)框定義修改為：

圖2 建筑物目標(biāo)框

式中，b=(x，y，w，h)為中心坐標(biāo)為(x，y)、寬和高分別為2w和2h的目標(biāo)框； area(b)為目標(biāo)框b的面積；本文面積閾值T的取值為64。

最終得到的建筑物如圖2 中紅色矩形框所示，這些建筑物目標(biāo)框可有效指導(dǎo)SAM模型對該目標(biāo)的精確分割。

為驗(yàn)證不同提示信息對SAM分割結(jié)果的影響，基于建筑物目標(biāo)框生成目標(biāo)關(guān)鍵點(diǎn)，進(jìn)而利用目標(biāo)提示點(diǎn)對SAM 的建筑物分割進(jìn)行指導(dǎo)。為避免Deep?Labv3+模型分割結(jié)果在目標(biāo)邊界上的誤差引起的錯誤提示，本文將建筑物目標(biāo)框中心以及該中心與4 個頂點(diǎn)的中心作為候選關(guān)鍵點(diǎn)；同時為了保證目標(biāo)提示點(diǎn)的準(zhǔn)確性，只有在建筑物目標(biāo)上的候選點(diǎn)才能作為該建筑物目標(biāo)的提示關(guān)鍵點(diǎn)，即二值化分割結(jié)果在候選點(diǎn)位置的值為1。如圖3所示一個建筑物目標(biāo)的5個候選關(guān)鍵點(diǎn)，只有4個紅色點(diǎn)包含在DeepLabv3+二值化分割出的建筑物中，因此這4 個點(diǎn)被選為該建筑物目標(biāo)的提示關(guān)鍵點(diǎn)。給定一個建筑物目標(biāo)框b=(x，y，w，h)，5 個候選關(guān)鍵點(diǎn)pointsc和目標(biāo)提示點(diǎn)points 可定義為：

圖3 建筑物目標(biāo)關(guān)鍵點(diǎn)

式中，I(p)為DeepLabv3+二值分割結(jié)果在p點(diǎn)的取值。

1.3 基于SAM的建筑分割方法

SAM 分割模型提供了全圖分割和提示分割兩種方式，全圖分割根據(jù)影像的紋理特征將整個影像分割為不同的區(qū)域，但無法輸出這些區(qū)域的語義信息；提示分割則可根據(jù)給定的目標(biāo)關(guān)鍵點(diǎn)、目標(biāo)框等提示信息分割影像中的指定目標(biāo)。本文采用SAM的提示分割功能提取給定遙感影像中的建筑物目標(biāo)。根據(jù)DeepLabv3+建筑物粗分割結(jié)果中生成的建筑物目標(biāo)框及其關(guān)鍵點(diǎn)，本文分別采用這兩種提示信息指導(dǎo)SAM對遙感影像中的建筑物目標(biāo)進(jìn)行精準(zhǔn)分割；再整合所有建筑物目標(biāo)的分割結(jié)果，即可完成基于SAM的建筑物提取。

2 實(shí)驗(yàn)結(jié)果與分析

2.1 實(shí)驗(yàn)數(shù)據(jù)

為驗(yàn)證提出方法的有效性，本文采用武漢大學(xué)提供的遙感地表覆蓋數(shù)據(jù)集LoveDA，包含農(nóng)村和城市兩種風(fēng)格的遙感影像，影像分辨率為1 024×1 024。從該數(shù)據(jù)集的驗(yàn)證集部分隨機(jī)選擇100 張包含建筑物目標(biāo)的遙感影像進(jìn)行實(shí)驗(yàn)評估。該數(shù)據(jù)集包含多個地物信息類別，本文進(jìn)行實(shí)驗(yàn)評估時只考慮建筑物，其他視為背景。

2.2 評價(jià)方法

對于語義分割而言，影像的每一個像素分割均可視為二分類任務(wù)。因此，為評估該方法的建筑物提取效果，本文采用精確率（Prec）、召回率（Rec）、F1-Score、交并比（IoU）和正確率（Acc）等語義分割常用評價(jià)標(biāo)準(zhǔn)，其中Prec 表示模型預(yù)測為建筑物區(qū)域中真實(shí)建筑物區(qū)域像素點(diǎn)的占比，亦稱查準(zhǔn)率，反映模型預(yù)測結(jié)果的可信度；Rec 表示所有建筑物區(qū)域?qū)?yīng)的像素點(diǎn)被預(yù)測正確的比例，亦稱查全率；F1-Score為一個綜合性評價(jià)指標(biāo)，同時考慮了Prec 和Rec；IoU 表示模型預(yù)測為建筑物區(qū)域與真實(shí)建筑物區(qū)域在像素點(diǎn)上交集與并集的比值，理想情況下IoU為1，即預(yù)測為建筑物區(qū)域與真實(shí)建筑物區(qū)域完全重疊；Acc 表示預(yù)測正確的像素點(diǎn)占比。

式中，TP為將建筑物區(qū)域預(yù)測為建筑物區(qū)域的像素?cái)?shù)；FP為將非建筑物區(qū)域預(yù)測為建筑物區(qū)域的像素?cái)?shù)；FN為將建筑物區(qū)域預(yù)測為非建筑物區(qū)域的像素?cái)?shù)；TN為將非建筑物區(qū)域預(yù)測為非建筑物區(qū)域的像素?cái)?shù)。

2.3 結(jié)果分析

SAM 提供了vit_h、vit_l、vit_b 等3 個骨干網(wǎng)絡(luò)預(yù)訓(xùn)練模型，其中vit_h擁有最多的模型參數(shù)，因此實(shí)驗(yàn)選取vit_h 作為SAM 的骨干網(wǎng)絡(luò)。為對比不同提示信息對建筑物分割結(jié)果的影響，實(shí)驗(yàn)中分別采用單獨(dú)使用目標(biāo)框、單獨(dú)使用目標(biāo)關(guān)鍵點(diǎn)、同時使用目標(biāo)框和關(guān)鍵點(diǎn)3種方法提取建筑物區(qū)域，并與直接基于Deep?Labv3+的建筑物分割結(jié)果進(jìn)行對比。不同方法的評價(jià)指標(biāo)見表1。3種組合的分割結(jié)果均為基于目標(biāo)框和關(guān)鍵點(diǎn)的最佳、基于目標(biāo)框的次之、基于目標(biāo)關(guān)鍵點(diǎn)的最差，這是由于目標(biāo)關(guān)鍵點(diǎn)只是建筑物區(qū)域的一些代表點(diǎn)，與目標(biāo)框相比，包含的目標(biāo)區(qū)域信息量更少，而將二者組合后，在標(biāo)定建筑物區(qū)域的同時可以指示目標(biāo)框中建筑物區(qū)域與非建筑背景區(qū)域的具體差異，包含更具體的目標(biāo)提示信息，因此目標(biāo)框和關(guān)鍵點(diǎn)的組合可為SAM提供更好建筑物分割指導(dǎo)。另外，單獨(dú)使用目標(biāo)框或關(guān)鍵點(diǎn)方法的Prec 比DeepLabv3+低，這是由于DeepLabv3+的分割結(jié)果區(qū)域較小且都屬于建筑物區(qū)域，而單獨(dú)使用目標(biāo)框或關(guān)鍵點(diǎn)時，提示信息不夠精確，導(dǎo)致SAM將提示信息周圍紋理信息相近的區(qū)域分割出來，從而引入一部分非建筑物區(qū)域；而將目標(biāo)框和關(guān)鍵點(diǎn)同時作為提示信息將會更精確地為SAM提供指導(dǎo)，因此提取的建筑物區(qū)域更加準(zhǔn)確，與DeepLabv3+相比，Prec 從88.71%提升至91.49%。對于其他的評價(jià)指標(biāo)，相較于DeepLabv3+，基于3種提示信息組合的分割結(jié)果均有大幅提升，其中目標(biāo)框和關(guān)鍵點(diǎn)的組合分別將Rec、F1-Score、IoU 和Acc 從58.38%、70.42%、54.34%、94.67%提升至83.74%、87.44%、77.69%、97.38%。綜上所述，基于提示信息的SAM 建筑物提取方法可有效改善建筑物分割結(jié)果，為SAM提供更多提示信息的目標(biāo)框和關(guān)鍵點(diǎn)組合可更好地提升分割結(jié)果。不同方法在不同影像上的分割效果見圖4。

表1 本文方法與基準(zhǔn)方法的建筑物分割結(jié)果對比/%

圖4 不同方法建筑物提取結(jié)果對比

3 結(jié) 語

本文提出的基于提示信息的SAM建筑物提取方法可實(shí)現(xiàn)遙感影像中建筑物的精準(zhǔn)提取。與DeepLabv3+相比，效果提升明顯，其中Prec 、 Rec 分別從88.71%、58.38%提升至91.49%、83.74%。該方法可顯著改善建筑物邊界，針對單個建筑物的分割效果更佳。未來將研究如何進(jìn)一步改善基于SAM分割的效率問題。