摘要:為了快速準(zhǔn)確識(shí)別城市邊緣地區(qū)閑置土地,文章基于高分2號(hào)遙感影像提出了一種融合場(chǎng)景解譯與面向?qū)ο蠓指畹姆椒?,用于識(shí)別城市邊緣區(qū)域的閑置土地。文章引入四叉樹分割方法制作了多尺度場(chǎng)景解譯標(biāo)簽;選取性能優(yōu)越的Vision Transformer模型作為提取工具,進(jìn)行訓(xùn)練以得到解譯模型;將該解譯模型應(yīng)用于經(jīng)過面向?qū)ο蠓指钐幚砗蟮挠跋駥?duì)象進(jìn)行場(chǎng)景分類。實(shí)驗(yàn)結(jié)果表明,相比傳統(tǒng)方法,該方法在閑置土地識(shí)別方面取得了顯著提升。
關(guān)鍵詞:城市邊緣區(qū)域閑置地;場(chǎng)景解譯;面向?qū)ο蠓指睿贿b感影像;深度學(xué)習(xí)
中圖分類號(hào):P258文獻(xiàn)標(biāo)志碼:" A
0引言
經(jīng)過城市化高速發(fā)展,我國(guó)現(xiàn)階段約2/3的城市仍處于快速擴(kuò)張的階段。這種提升城市化水平的趨勢(shì)一方面促進(jìn)了社會(huì)經(jīng)濟(jì)的迅猛增長(zhǎng),但同時(shí)也帶來了城市閑置土地問題,對(duì)社會(huì)生活和生態(tài)環(huán)境造成了嚴(yán)重影響。因此,準(zhǔn)確獲取城市邊緣地區(qū)閑置土地的空間分布與變化信息對(duì)于制定有效的土地決策具有重要意義。目前,關(guān)于閑置土地在數(shù)量、面積和空間分布等方面的情況主要通過結(jié)合影像目視解譯和實(shí)地查證方法進(jìn)行調(diào)查,然而這種方法耗時(shí)費(fèi)力 [1]。近年來,隨著遙感數(shù)據(jù)在空間、時(shí)間和光譜分辨率等方面不斷提升,已有基于衛(wèi)星遙感影像開展閑置土地提取的研究[2-3]。在人工智能技術(shù)不斷發(fā)展下,遙感影像解譯技術(shù)自動(dòng)化程度逐漸提高,并廣泛應(yīng)用于國(guó)土資源與環(huán)境監(jiān)測(cè)、農(nóng)作物監(jiān)測(cè)與估產(chǎn)、森林碳匯估算以及國(guó)防安全等領(lǐng)域[4-6]。因此,在當(dāng)前條件下利用先進(jìn)的遙感智能解譯技術(shù)快速準(zhǔn)確識(shí)別城市邊緣地區(qū)閑置土地可行且具有意義。
遙感智能解譯方法可分為兩類:基于像素和面向?qū)ο??;谙袼氐姆椒ㄌ幚磉^程較慢且難以解決椒鹽噪聲問題。而面向?qū)ο蟮姆椒ㄊ紫葘D像分割成“同質(zhì)均一”的對(duì)象,再利用形狀、光譜、空間紋理等特征進(jìn)行分類。該方法具有較好的完整性,但存在地物混分現(xiàn)象,并且常用的分類算法智能化程度相對(duì)較低,如隨機(jī)森林需要人工設(shè)置特征參數(shù),支持向量機(jī)分類算法則需選取合適的核參數(shù)。
隨著人工智能技術(shù)的不斷發(fā)展,深度學(xué)習(xí)技術(shù)已廣泛應(yīng)用于遙感圖像的語義分割和場(chǎng)景解譯。語義分割主要通過端到端的像素級(jí)分類來對(duì)圖像目標(biāo)進(jìn)行精準(zhǔn)劃分;而場(chǎng)景解譯則致力于從多幅影像中區(qū)別出具有相似場(chǎng)景特征的圖像,并對(duì)其進(jìn)行準(zhǔn)確分類。在深度學(xué)習(xí)技術(shù)中,卷積神經(jīng)網(wǎng)絡(luò)(CNN)是最常用的圖像特征提取方法,如VGGNet[7]、ResNet [8]和 GoogLeNet [9] 等網(wǎng)絡(luò)模型。然而,由于卷積操作受限于局部感受野,在全面理解圖像本身并充分利用上下文信息方面存在局限性。近年來,國(guó)內(nèi)外學(xué)者開始嘗試將自然語言處理領(lǐng)域中的Transformer模型應(yīng)用于圖像處理領(lǐng)域。Transformer模型具備自注意力機(jī)制,不受局部相互作用的限制,能夠挖掘長(zhǎng)距離依賴關(guān)系以及實(shí)現(xiàn)并行計(jì)算。此外,它還可以根據(jù)不同任務(wù)目標(biāo)學(xué)習(xí)最合適的歸納偏置,在多個(gè)視覺任務(wù)中取得了顯著效果[10]。Dosovitskiy等[11]在原生的 Transformer 架構(gòu)上進(jìn)行了改進(jìn),提出基于視覺任務(wù)的 Vision Transformer (ViT) 。ViT 將輸入的圖像劃分成固定大小的特征塊,經(jīng)過線性變換后得到特征序列,然后對(duì)特征序列進(jìn)行多頭自注意力運(yùn)算,既能充分獲得長(zhǎng)距離的特征依賴,同時(shí)也降低了運(yùn)算量,被廣泛應(yīng)用于目標(biāo)檢測(cè)等任務(wù)。
場(chǎng)景解譯的基本單元為對(duì)象塊,裁切規(guī)則下的圖像中常存在多種地物特征,從而導(dǎo)致分類精度降低和類別邊界不準(zhǔn)確等問題。此外,面向?qū)ο蠓诸愃惴ㄖ悄芑潭扔邢蕖⒄Z義分割中存在椒鹽噪聲且運(yùn)行速度無法滿足實(shí)時(shí)性要求。因此,本文研究了一種融合場(chǎng)景解譯與面向?qū)ο蠓指畹姆椒?,以精?zhǔn)識(shí)別城市邊緣區(qū)域閑置地。
1數(shù)據(jù)與研究區(qū)
本文研究區(qū)選擇南京市棲霞區(qū)。棲霞區(qū)位于南京市東部,地處長(zhǎng)江下游,地理位置優(yōu)越,交通網(wǎng)絡(luò)發(fā)達(dá),不僅是長(zhǎng)江流域的重要物流樞紐,也是連接長(zhǎng)三角地區(qū)的重要通道。研究區(qū)是以科技教育、航運(yùn)物流、醫(yī)藥電子、風(fēng)景名勝、機(jī)械制造為主要職能的現(xiàn)代化江濱區(qū),總面積約395.44平方千米。
在研究區(qū)域內(nèi),從綠色基礎(chǔ)設(shè)施的角度,本文將閑置地劃分為四大類別:自然閑置地、基礎(chǔ)設(shè)施閑置地、工業(yè)棕地和建設(shè)廢棄地。這些分類旨在更好地理解不同類型的閑置地的特點(diǎn)和潛力,從而為城市規(guī)劃和土地利用提供科學(xué)依據(jù)。
2原理與方法
2.1原理
2.1.1自注意力機(jī)制
Transformer中使用的注意力是歸一化的點(diǎn)乘注意力。自注意力機(jī)制的原理如圖1所示,對(duì)于每一個(gè)輸入向量a,經(jīng)過self-attention之后都對(duì)應(yīng)輸出一個(gè)向量b,此時(shí)的向量b考慮了所有的輸入向量對(duì)ai產(chǎn)生的影響。對(duì)于輸入向量a,同時(shí)定義3個(gè)權(quán)重矩陣Wq,Wk,Wv,通過矩陣計(jì)算(Q=XWq,K=XWk,K=XWk)得到3個(gè)向量Q、K、V。首先計(jì)算Q和每個(gè)K的點(diǎn)積操作計(jì)算權(quán)值矩陣。為了防止內(nèi)積太大造成梯度求導(dǎo)困難,將權(quán)值矩陣除以dk,然后使用Softmax函數(shù)進(jìn)行歸一化,計(jì)算相似注意力分?jǐn)?shù)權(quán)重,最后將權(quán)重結(jié)果和K做點(diǎn)積,即得到Q的權(quán)重分布。計(jì)算如式(1)所示:
2.1.2四叉樹影像分割
影像四叉樹分割算法的基本思想是將原始影像通過計(jì)算正方形內(nèi)部顏色差異分成大小不等的若干方塊,其原理如圖2所示。首先,判斷每個(gè)方塊是否滿足一致性測(cè)度,如果滿足就不再繼續(xù)分裂,如果不滿足就再分成4個(gè)方塊,并對(duì)得到的方塊繼續(xù)應(yīng)用一致性檢驗(yàn),迭代直到所有的影像塊都滿足一致性測(cè)度?;谒牟鏄涞膱D像分割算法具備分割速度較快、分割過程全自動(dòng)等優(yōu)勢(shì),且分割后同質(zhì)性高的圖像可直接用于深度模型圖像的預(yù)測(cè)。
2.2研究方法
城市邊緣區(qū)域閑置地具有多樣的特征和復(fù)雜的結(jié)構(gòu),給提取帶來較大的挑戰(zhàn)。如圖3所示,本文總結(jié)了閑置地轉(zhuǎn)換規(guī)律,即閑置地從遙感影像上識(shí)別整體上表現(xiàn)為裸土地和草地等特征,或者為兩種特征的綜合。對(duì)于T1時(shí)刻、T2時(shí)刻和T3時(shí)刻來說,裸土地和草地之間通常會(huì)相互轉(zhuǎn)換,嚴(yán)重干擾提取精度?;诖朔治?,在制作樣本時(shí),可通過以上兩種地類的綜合特征進(jìn)行樣本選取。
傳統(tǒng)圖像處理方法主要將圖像按照同質(zhì)性區(qū)域進(jìn)行分類,導(dǎo)致提取精度不盡如人意。為此,本文首先制作了多尺度樣本,并利用基于自注意力機(jī)制的深度學(xué)習(xí)場(chǎng)景分類模型進(jìn)行閑置地模型訓(xùn)練與識(shí)別。使用該模型對(duì)四叉樹影像分割對(duì)象進(jìn)行閑置地預(yù)測(cè),并通過GIS空間分析方法改進(jìn)地物提取精度,總體技術(shù)路線如圖4所示。
3實(shí)驗(yàn)與分析
3.1多尺度樣本制作
將包含閑置地的影像數(shù)據(jù)裁剪為64×64、128×128和256×256像素的規(guī)則影像瓦片,裁剪過程如圖7所示。之后,再采用目視解譯的方法從一系列影像瓦片數(shù)據(jù)集中挑選出閑置地場(chǎng)景作為正樣本,不包含閑置地場(chǎng)景的作為負(fù)樣本。為了一定程度上提高模型的泛化性能,挑選的正樣本的影像特征全要素都是閑置地,負(fù)樣本包含大量非閑置地的多種類別,如建筑、林地、道路、水域等。同時(shí),考慮數(shù)據(jù)集中正負(fù)樣本類別平衡對(duì)于監(jiān)督學(xué)習(xí)的重要性,本文最終使用的正負(fù)樣本數(shù)目大致相等,正樣本和負(fù)樣本分別為1931個(gè)和1771個(gè)。
3.2實(shí)驗(yàn)結(jié)果分析
基于多尺度樣本集,利用自注意力機(jī)制的深度學(xué)習(xí)場(chǎng)景分類模型Vision Transformer(ViT)進(jìn)行閑置地識(shí)別的模型訓(xùn)練,并對(duì)四叉樹分割和規(guī)則裁切的影像進(jìn)行預(yù)測(cè),得到研究區(qū)閑置地識(shí)別結(jié)果,如圖5所示。利用深度學(xué)習(xí)場(chǎng)景分類模型對(duì)規(guī)則裁切的數(shù)據(jù)集進(jìn)行預(yù)測(cè)的結(jié)果如圖5(a)所示,對(duì)四叉樹分割對(duì)象進(jìn)行預(yù)測(cè)的結(jié)果如圖5(b)所示,利用隨機(jī)森林算法提取的結(jié)果如圖5(c)所示??梢钥闯?,圖5(a)的缺點(diǎn)為邊界太粗,圖5(c)的缺點(diǎn)為漏提與錯(cuò)提現(xiàn)象較多,當(dāng)閑置地為非黃色裸土的出現(xiàn)漏提現(xiàn)象,一些屋頂與裸土特征類似,因此出現(xiàn)錯(cuò)提;而圖5(b)的邊界較圖5(a)細(xì)致很多且錯(cuò)漏現(xiàn)象被大大的減少。如表1所示,經(jīng)過改進(jìn)的ViT模型在提取精度方面表現(xiàn)較差,僅為83.28%;相比之下,隨機(jī)森林算法的精度比ViT提升了0.82%,這可能是由于研究區(qū)范圍大小對(duì)結(jié)果產(chǎn)生影響;而本文所采用的方法達(dá)到了最高精度,整體準(zhǔn)確率(OA)達(dá)到了89.13%,尤其適用于閑置地的提取。綜上所述,本文方法在閑置地提取方面表現(xiàn)優(yōu)異,具有高效、準(zhǔn)確、魯棒等優(yōu)點(diǎn)。該方法可以作為一種有效的工具來幫助土地管理人員和決策者快速準(zhǔn)確地提取閑置地,從而更好地管理和利用土地資源。
4結(jié)論
由于城市邊緣區(qū)域存在多種類型的閑置地,包括自然閑置地、基礎(chǔ)設(shè)施閑置地、工業(yè)廢棄地和建設(shè)廢棄地等。同時(shí),遙感影像特征復(fù)雜,目前利用深度學(xué)習(xí)語義分割和面向?qū)ο蠓诸惙椒ㄔ诮庾g精度上仍有待提高。本文提出了一種融合深度學(xué)習(xí)的場(chǎng)景解譯與面向?qū)ο蠓指罘椒?,以?shí)現(xiàn)對(duì)城市邊緣區(qū)域閑置地的準(zhǔn)確提取。通過試驗(yàn)分析得出以下結(jié)論:(1)自注意力模型在處理特征復(fù)雜的閑置地時(shí)表現(xiàn)良好。(2)將場(chǎng)景解譯和面向?qū)ο蠓椒ㄏ嘟Y(jié)合可以平衡對(duì)閑置地邊界細(xì)致度和準(zhǔn)確率之間的要求。當(dāng)然,本文所提出的方法還存在不足之處。例如,在面向?qū)ο蠓指钸^程中可能會(huì)忽略小尺寸物體。因此,仍需進(jìn)一步研究更優(yōu)化的策略,以提高分割的精度和效果,更好地滿足城市邊緣區(qū)域閑置地提取的實(shí)際需求。
參考文獻(xiàn)
[1]褚晨暉.南京市主城區(qū)閑置土地分布及植物多樣性研究[D].南京:南京農(nóng)業(yè)大學(xué),2020.
[2]尹峰,余海,李智峰,等.GF-1、GF-2號(hào)衛(wèi)星影像在閑置土地監(jiān)測(cè)中的應(yīng)用[J].地理空間信息,2016(10):29-32.
[3]沈鳳嬌,余曉敏,祁玉杰.基于衛(wèi)星遙感影像的閑置土地提取與核查研究[J].國(guó)土資源信息化,2021(6):48-53.
[4]夏列鋼,駱劍承,王衛(wèi)紅,等.遙感信息圖譜支持的土地覆蓋自動(dòng)分類[J].遙感學(xué)報(bào),2014(4):788-803.
[5]李道紀(jì),郭海濤,盧俊,等.遙感影像地物分類多注意力融和U型網(wǎng)絡(luò)法[J].測(cè)繪學(xué)報(bào),2020(8):1051-1064.
[6]王勝利,張連蓬,朱壽紅,等.多共性特征聯(lián)合的Landsat 8 OLI遙感影像光伏電站提取[J].測(cè)繪通報(bào),2018(11):46-52.
[7]查鴻偉,李浩,朱益虎,等.利用邊緣輔助分割網(wǎng)絡(luò)提取稻蝦共作養(yǎng)殖田[J].農(nóng)業(yè)工程學(xué)報(bào),2023(19):154-164.
[8] SZEGEDY C, LIU W, JIA Y Q, et al. Going deeper with convolutions[C]//Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition, Washington: IEEE Computer Society, 2015.
[9]HE K M, ZHANG X Y, REN S Q, et al. Deep residuallearning for image recognition[C]//Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition,Washington: IEEE Computer Society,2016.
[10]WANG S, ZHU Y, ZHENG N,et al. Change detection based on existing vector polygons and up-to-date images using an attention-based multi-scale convtransformer network[J].Remote Sensing, 2024 (10):1736.
[11]BAZI Y, BASHMAL L, RAHHAL M M A, et al. Vision transformers for remote sensing image classification [J].Remote Sensing, 2021(3):516.
Method combining scene interpretation and object-oriented segmentation to
accurately identify idle land in urban fringe areasXIE Qiang
(Jiangsu Geologic Surveying and Institute, Nanjing 211102, China)Abstract:nbsp; The present study proposes a method based on Gaofen-2 remote sensing image data to efficiently and accurately identify idle land in the urban fringe by integrating scene interpretation and object-oriented segmentation. Initially, the quadtree segmentation technique is employed to generate multi-scale scene interpretation labels. Subsequently, the superior Vision Transformer model is selected as the extraction tool for training purposes to acquire an interpretation model. Finally, this interpretation model is applied to object-oriented image objects after undergoing object segmentation for scene classification. Experimental results demonstrate that compared with conventional approaches, this method exhibits significant advancements in identifying idle land.
Key words: idle land in urban fringe areas; scene interpretation; object-oriented segmentation; remote sensing image; deep learning