陳利燕,張新長,林 鴻,楊 敏
1. 中山大學地理科學與規(guī)劃學院,廣東 廣州 510275; 2. 廣州大學地理科學學院,廣東 廣州 510006; 3. 廣州市城市規(guī)劃勘測設(shè)計研究院,廣東 廣州 510060; 4. 武漢大學資源與環(huán)境科學學院,湖北 武漢 430072
空間數(shù)據(jù)現(xiàn)勢性作為數(shù)據(jù)質(zhì)量的基本特征,直接影響地圖數(shù)據(jù)空間分析、挖掘及決策的準確性。隨著基礎(chǔ)地理設(shè)施數(shù)據(jù)庫建設(shè)不斷完善,基礎(chǔ)測繪工作重心由數(shù)據(jù)生產(chǎn)轉(zhuǎn)向數(shù)據(jù)維護[1],特別是對現(xiàn)有多比例尺矢量地圖數(shù)據(jù)庫的現(xiàn)勢性更新與一致性維護[2]。常規(guī)方法是以影像、局部實測數(shù)據(jù)為參考,對不同比例尺地圖數(shù)據(jù)集進行獨立式更新。一方面耗時耗力,另一方面容易導致不同比例尺數(shù)據(jù)間產(chǎn)生表達不一致[3]。為了提高多比例尺地圖數(shù)據(jù)更新的效率,文獻[4—6]研究了增量式更新模式,即將不同比例尺地圖數(shù)據(jù)組織為多重表達數(shù)據(jù)庫[7],建立縱向跨比例尺地圖目標間的對應(yīng)關(guān)系,使得大比例尺數(shù)據(jù)中發(fā)生的更新內(nèi)容能夠以增量形式傳遞到后續(xù)小比例尺數(shù)據(jù)中。然而,受生產(chǎn)單位、生產(chǎn)任務(wù)以及時間周期差異等因素影響,實踐中不同比例尺地圖數(shù)據(jù)通常割裂式組織,難以滿足上述條件。考慮到當前地圖數(shù)據(jù)組織管理現(xiàn)狀,采用新舊數(shù)據(jù)疊加更新策略更為合理[8]。該方法首先依據(jù)各種更新數(shù)據(jù)源對大比例尺地圖數(shù)據(jù)實施動態(tài)實時更新,然后定期將更新后的大比例尺地圖數(shù)據(jù)作為參考,探測并更新鄰近小比例尺數(shù)據(jù)的變化目標,依次執(zhí)行直至完成整個多比例尺地圖數(shù)據(jù)庫的更新。這種疊加式更新策略產(chǎn)生的關(guān)鍵問題之一是如何識別新舊地圖數(shù)據(jù)間隱含的變化信息。
變化是指由于地理實體發(fā)生改變而導致的新舊地圖目標間的差異。變化識別受實體世界地物演化行為、地圖數(shù)據(jù)采集精度、地圖數(shù)據(jù)處理誤差等多方面影響,一直是GIS領(lǐng)域的難點問題,對地圖數(shù)據(jù)更新、變化建模及時空分析有重要意義[9]。針對該問題,相關(guān)學者從不同角度展開了深入研究。如文獻[10]提出通過匹配處理建立新舊地圖同名目標關(guān)聯(lián)關(guān)系,然后基于匹配關(guān)系類型、幾何形狀及屬性信息一致性等指標確定目標是否發(fā)生變化。文獻[11]設(shè)計了相似性度量模型計算線狀道路目標間的相似度,通過研究道路變化與對應(yīng)新舊目標間的相似度關(guān)系,最終建立道路數(shù)據(jù)的變化發(fā)現(xiàn)模型。針對新舊目標間幾何差異信息可能由成圖精度、測量時間、投影變形等因素影響導致的“偽變化”,文獻[12—13]以面狀水系為例分別提出了拓撲量化的“偽變化”剔除方法和顧及時空目標邊界不一致性的變化識別模型。上述方法主要面向同比例尺新舊地圖數(shù)據(jù)的變化發(fā)現(xiàn),無法直接應(yīng)用于跨比例尺情形。原因是多尺度地圖目標改變除由地物實體演化而引起外,不同比例尺表達上的尺度變換(即數(shù)據(jù)綜合)也會導致。這一問題已經(jīng)引起研究人員的注意,如文獻[14]提出在獲取新舊地圖目標變化差異的基礎(chǔ)上,結(jié)合地圖綜合知識過濾尺度表達不一致引起的變化部分;文獻[15]以跨比例尺面目標為例,將目標基本變化類型歸納為出現(xiàn)、消失、擴張、收縮等9種類型,并提出基于4交差拓撲模型的變化判別方法等。文獻[16]在目標疊置運算的基礎(chǔ)上通過數(shù)據(jù)增強方法提煉居民地目標間的真實變化信息。
在上述工作基礎(chǔ)上,本文對跨比例尺新舊地圖數(shù)據(jù)間的變化分析與識別展開更為深入的研究。研究動機包括兩個方面:①對新舊地圖目標間的變化進行梳理分析,包括變化產(chǎn)生的緣由、變化表現(xiàn)的形式;②綜合考慮幾何、拓撲、上下文關(guān)系等多種因子,引入決策樹方法通過學習方式構(gòu)建準確的變化識別模型。
實施變化識別以及后續(xù)更新操作,首先需要理解新舊地圖數(shù)據(jù)間隱含的目標變化信息。下文首先從表層形式和內(nèi)在緣由兩個角度對面狀居民地目標的變化進行剖析。
從表層形式上看,新舊地圖目標間的變化包括積極的正向變化(如目標新增、目標輪廓擴張)和消極的負向變化(如目標消失、目標輪廓收縮)。同時,也表現(xiàn)為個體變化(如單個目標的增加、消失、擴張、收縮)和群體變化(即目標群的新增、擴張、收縮等)。假設(shè)大比例尺新地圖數(shù)據(jù)為D1,小比例尺舊地圖數(shù)據(jù)為D2,依據(jù)新舊目標間的匹配對應(yīng)關(guān)系將面狀居民地目標變化歸納為以下6種類型(圖1):
類型1∶0,D1中某個目標在D2中沒有與之匹配的對象,表現(xiàn)為單個房屋目標新增;
類型1∶1,D1和D2中兩個目標匹配對應(yīng),但是在目標局部存在擴張、收縮現(xiàn)象;
類型0∶1,D2中某個目標在D1中沒有與之匹配的對象,表現(xiàn)為單個房屋目標消失;
類型m∶1(m>1),D1中多個相鄰目標與D2中單個目標匹配對應(yīng),表現(xiàn)為相鄰目標的合并;
類型m∶n(m≥1,n>1),D1中單個或多個相鄰目標與D2中多個目標匹配對應(yīng),房屋目標間的結(jié)構(gòu)關(guān)系發(fā)生改變;
類型m∶0(m>1),該類型變化將D1中多個相鄰目標作為整體看待,在D2中沒有與之匹配對應(yīng)的目標或目標群,表現(xiàn)為房屋群的新增。
圖1 新舊跨比例尺地圖間居民地目標變化類型Fig.1 Types of building change between two map datasets at different scales
新舊地圖目標發(fā)生變化的直接原因是所表達的地物發(fā)生了改變。這種由于地物實體改變而導致的地圖目標變化稱為真實變化。面狀居民地目標變化信息可歸納為以下類型(圖2)。
圖2 房屋實體變化情形及引起的目標變化Fig.2 Buildings’ evolution in real word and their impacts on object change
房屋新建:在空地上建造新房屋,表現(xiàn)為新地圖數(shù)據(jù)中新增房屋目標(1∶0類型);
房屋拆除(局部拆除):由于道路改造等原因?qū)υ蟹课葸M行完整(或局部)拆除,表現(xiàn)為舊地圖數(shù)據(jù)中的居民地目標在新數(shù)據(jù)表達中完整消失(0∶1類型)或者局部消失(1∶1類型);
房屋擴建:對原有的房屋進行擴建,表現(xiàn)為居民地目標幾何輪廓的擴張(1∶1類型);
房屋重建:即將原有房屋拆除后重新建造,表現(xiàn)為舊房屋目標被新房屋目標所替代,可能的變化類型包括1∶1、m∶1、m∶n。
除真實變化外,新舊地圖數(shù)據(jù)表達上的差異同樣會影響變化信息的產(chǎn)生,包括數(shù)據(jù)采集精度、建庫方式、表達比例尺等。對于同一數(shù)據(jù)庫中的不同比例尺數(shù)據(jù),小比例尺地圖數(shù)據(jù)通常由大比例尺地圖數(shù)據(jù)綜合縮編獲得,包括目標合并[17]、形狀化簡[18]等操作。因此,表達變化可以忽略數(shù)據(jù)精度、建庫方式等因素影響,主要是指不同比例尺地圖數(shù)據(jù)間由于尺度變換導致的差異信息。對于城市區(qū)域1∶2000和1∶10 000兩個比例尺的新舊居民地數(shù)據(jù),綜合操作及對變化信息的影響包括以下情形(圖3)。
圖3 不同尺度變換操作導致的目標變化情形Fig.3 Scale transformation operations and their impacts on object change
選?。荷釛壋叽缧∮谧钚∩蠄D面積的房屋目標,表現(xiàn)為房屋目標在小比例尺表達中消失(0∶1類型);
合并:將相鄰房屋目標合并為一個房屋目標,合并前后呈m∶1變化類型;
化簡:對目標多邊形輪廓進行化簡,化簡后目標局部輪廓擴張或者收縮(1∶1變化類型);
移位:為保證房屋與道路(或其他要素目標)間的間隔大于可辨析距離,輕微地改變房屋目標的分布位置,屬1∶1變化類型。
上文從表現(xiàn)形式和發(fā)生緣由兩個方面,對新舊地圖居民地目標變化進行了分析歸納。嚴格意義上,變化識別的目標是提取由地理實體改變而引起的目標變化。但是在缺乏參考數(shù)據(jù)(如遙感影像)情況下,僅依據(jù)新舊不同比例尺地圖間表達差異很難實現(xiàn)上述目標。例如,大比例尺新數(shù)據(jù)中的一個小面積房屋在小比例尺舊數(shù)據(jù)中消失(1∶0類型),這一變化可能是實地新建房屋導致,也可能是由于房屋面積過小而在數(shù)據(jù)綜合過程中被舍棄。對于跨比例尺地圖數(shù)據(jù)更新,幅度較小的真實變化由于尺度變換因素無需更新,因此變化識別主要任務(wù)是探測超出地圖數(shù)據(jù)綜合操作范圍的目標變化信息。
跨比例尺新舊地圖變化識別是一個復(fù)雜的決策過程。一方面,地圖綜合產(chǎn)生的變化受多種因素影響,綜合算法/算子選擇、參數(shù)設(shè)置、綜合流程組織等與區(qū)域環(huán)境特點、數(shù)據(jù)應(yīng)用需求、比例尺范圍密切相關(guān);另一方面,變化識別本身需要考慮變化類型、變化幅度、變化關(guān)聯(lián)目標的幾何、結(jié)構(gòu)信息等多重上下文條件。在此背景下,引入機器學習領(lǐng)域的決策樹方法構(gòu)建跨比例尺新舊地圖數(shù)據(jù)間的變化識別模型,采用的技術(shù)路線如圖4所示。
識別變化,首先需要建立新舊地圖目標間匹配關(guān)系。針對這一問題,相關(guān)學者圍繞居民地[19-20]、道路[21-23]等要素提出多種方法。這些方法依據(jù)要素對象特點、應(yīng)用需求,采取不同相似性指標組合(包括長度、面積、距離、方向、拓撲結(jié)構(gòu)等)與匹配策略(如概率統(tǒng)計、全局尋優(yōu)、層次化匹配)??紤]大比例尺居民地數(shù)據(jù)特點及效率,本文采用一種迭代式的目標匹配方法。假設(shè)大比例尺新數(shù)據(jù)和小比例尺舊數(shù)據(jù)包含的居民地目標集合分別為OL={OL1,OL2,…,OLm}和OS={OS1,OS2,…,OSn},TL和TS定義為臨時集合分別存儲來自O(shè)L和Os的目標,初始化TL=Φ,TS=Φ。步驟如下:
步驟1:若OS≠Φ,取OS中任一目標并存儲到TS,轉(zhuǎn)步驟4,否則,轉(zhuǎn)步驟2;
圖4 跨比例尺新舊地圖數(shù)據(jù)變化識別決策樹模型構(gòu)建流程Fig.4 The framework of decision tree based model for change detection between datasets at different points both in time and scale
步驟2:若OL≠Φ,轉(zhuǎn)步驟3,否則結(jié)束匹配過程;
步驟3:對OL中抱團分布且鄰近距離小于dm的目標群,記錄為m∶0(m>1)匹配關(guān)系,其余目標記錄為1∶0匹配關(guān)系,結(jié)束匹配過程;
步驟4:遍歷TS中每個目標Oi,
查詢OL中與Oi拓撲相交的目標,從OL取出查詢結(jié)果并保存到數(shù)組A中;
按式(1)計算A中每個目標Oj與Oi間的重疊系數(shù)λ,若λ小于閾值λ0,將Oj從list取出放回OL
(1)
式中,Area(Oj∩Oi)表示兩個目標相交部分面積,Area(Oj)和Area(Oi)表示目標面積,Max取最大值。
若A為空,轉(zhuǎn)步驟6;否則清空TL,并將A中目標轉(zhuǎn)移到TL中;
步驟5:遍歷TL中的每個目標Oi,
查詢OS中與Oi拓撲相交的目標,從OS取出查詢結(jié)果并保存到數(shù)組A中;
按式(1)計算A中每個目標Oj與Oi間的重疊系數(shù)λ,若λ小于閾值λ0,將Oj從A取出放回OS;
若A為空,轉(zhuǎn)步驟6;否則清空TS,將A中目標轉(zhuǎn)移至TS中,轉(zhuǎn)步驟4;
步驟6:分別取出TL和TS中的目標記錄為匹配對,同時清空TL和TS,轉(zhuǎn)步驟1。
以建立的匹配組為基本單元,對新舊目標變化進行特征描述,為后期決策樹分類模型的形成提供參數(shù)??紤]人工變化識別過程中涉及的基本判斷依據(jù),采用以下5個特征指標:
(1) 變化關(guān)系類型(nType):如上文所述,變化關(guān)系包括1∶0、0∶1、1∶1、m∶1、m∶0、m∶n6種類型。它們不僅蘊含了變化發(fā)生的范圍信息(如個體變化、群體變化),同時也揭示了變化產(chǎn)生的效應(yīng)(如1∶0為目標消失、0∶1為目標新增),是變化識別的基礎(chǔ)性依據(jù)。
(2) 重疊差異度(ov_diff):假設(shè)某一匹配組包含m個來自新數(shù)據(jù)的目標OL1,OL2,…,OLm和n個來自舊數(shù)據(jù)的目標OS1,OS2,…,OSn,m≥1,n≥1,重疊差異度φ計算如下
(2)
式中,∩表示交運算,∪表示并運算。重疊差異度反映了新舊目標分布范圍上的差異,是衡量目標發(fā)生擴張或收縮程度的重要特征。
(3) 形狀相似性(sim_shape),即新舊目標間形狀上的相似性程度。采用形狀指數(shù)描述單個目標(如Oi)的形狀信息(式(3)),其中Perimeter(Oi)和Area(Oi)分別表示目標的周長和面積。兩個目標形狀指數(shù)的比值定義為形狀相似度。形狀相似度對于識別由尺度變換(如移位)引起的變化信息有參考價值。
(3)
(4) 大小相似性(sim_size),定義為匹配組中新舊目標間的面積比率。
(5) 幾何面積,包括新目標面積(new_area)和舊目標面積(old_area)。該指標是1∶0和m∶0兩種變化的重要識別依據(jù)。對于面積較小的新增目標或目標群,由于處于綜合選取引起的變化范圍內(nèi),不作為變化信息用于更新。
變化識別可以看作是“變化”和“非變化”的分類過程。決策樹因數(shù)據(jù)處理簡單(非參數(shù)化算法,數(shù)據(jù)無需標準化處理)、效率高(線性分類模型)、分類規(guī)則可解譯性強等特點而被廣泛應(yīng)用[24-27]。決策樹本質(zhì)是一個有向無環(huán)樹,內(nèi)部節(jié)點(包括根節(jié)點)表示在一個屬性上的測試,后繼分支則代表該屬性測試的輸出,每個葉節(jié)點代表一種類別。利用決策樹分類時,待分類對象按屬性特征由上到下遍歷樹結(jié)構(gòu)即可預(yù)測其類別。C4.5算法是目前應(yīng)用最為廣泛的決策樹構(gòu)建方法,基本思想是對樣本數(shù)據(jù)屬性特征構(gòu)成的多維空間進行分割,分割能力最好的屬性項作為根節(jié)點的測試,樣本數(shù)據(jù)按該屬性測試分割為多個子集作為后繼分支,重復(fù)該過程直至形成最終的樹結(jié)構(gòu)。C4.5算法采用信息增益率標準確定當前最佳分組屬性及分割點[22]?;跊Q策樹的跨比例尺新舊居民地目標變化識別方法實施過程描述如下:
(1) 選擇樣本區(qū)域的新舊居民地目標,按2.1節(jié)方法建立匹配關(guān)系,將相互匹配的新舊目標作為一條樣本記錄;
(2) 對每一條樣本記錄,計算2.2節(jié)定義的特征參量;
(3) 由專家在交互式平臺上對每一條樣本記錄進行變化識別,標識為“Yes”(屬于變化)和“No”(不屬于變化),并將樣本數(shù)據(jù)輸出為表1所示格式;
(4) 基于樣本數(shù)據(jù)構(gòu)建決策樹模型,并結(jié)合測試數(shù)據(jù)評估相關(guān)性能。
(1) 試驗數(shù)據(jù)。采用廣州市1∶2000和1∶10 000的居民地數(shù)據(jù),對應(yīng)更新時間節(jié)點分別是2009年和2007年。如圖5所示,試驗數(shù)據(jù)來自A、B、C 3個區(qū)域。A區(qū)域覆蓋城區(qū)及城鄉(xiāng)結(jié)合部,作為訓練數(shù)據(jù)使構(gòu)建的決策樹模型獲取不同區(qū)域環(huán)境下的變化識別知識; B區(qū)域和C區(qū)域分別位于城區(qū)和城鄉(xiāng)結(jié)合部,作為測試數(shù)據(jù)以檢驗?zāi)P驮诓煌瑓^(qū)域類型數(shù)據(jù)上的表現(xiàn)。表2描述了訓練及測試數(shù)據(jù)基本情況。其中,樣本及測試記錄的變化標識由廣州市城市規(guī)劃勘測設(shè)計研究院地圖所3名具備豐富數(shù)據(jù)更新經(jīng)驗的作業(yè)人員完成。為保證變化標識結(jié)果的準確性,取3名作業(yè)人員變化標識結(jié)果相一致的記錄作為最終樣本及測試數(shù)據(jù)。
表1 樣本數(shù)據(jù)輸出格式
圖5 試驗數(shù)據(jù)示例Fig.5 Experimental data
數(shù)據(jù)房屋數(shù)量1∶20001∶10000新舊目標匹配對數(shù)目(變化|非變化)訓練數(shù)據(jù)區(qū)域A914650375908(1665|4243)測試數(shù)據(jù)區(qū)域B459115231714(321|1393)區(qū)域C364616132156(434|1722)
(2) 試驗環(huán)境。利用ArcGIS平臺通過二次開發(fā)建立數(shù)據(jù)分析準備功能,包括新舊居民地目標匹配關(guān)系構(gòu)建、變化參量計算、交互式變化識別及標注等;然后,采用數(shù)據(jù)挖掘與分析軟件SPSS Clementine基于訓練數(shù)據(jù)構(gòu)建變化識別決策樹模型,同時結(jié)合測試數(shù)據(jù)進行模型評價。
(3) 參數(shù)設(shè)置。包括:①構(gòu)建新舊目標匹配關(guān)系時,通過多次試驗反饋,設(shè)置λ0=0.3、dm=5 m(即1∶10 000比例尺下圖面0.5 mm);②為避免決策樹構(gòu)建時“過擬合”問題,采用“減少-誤差”法進行后剪枝操作,設(shè)置節(jié)點剪枝alpha值0.55,子節(jié)點最小樣本數(shù)量50??紤]到不同類型的新舊目標變化參量描述上存在差異,如重疊差異度、大小相似性等對1∶0型變化關(guān)系沒有意義(樣本記錄中標識為Null),建模過程中分別對不同變化類型的訓練樣本子集構(gòu)建決策樹,最后合并形成一棵完整的決策樹模型。
圖6是基于訓練數(shù)據(jù)導出的決策樹圖,包括4個層級、12個葉子節(jié)點。具體描述如下:①對于1∶0型樣本子集,利用新目標面積進行分割,new_area≤145.5時樣本判別為“非變化”(推理置信度98.9%),new_area>145.5時判別為“變化”(置信度97.2%);②對于1∶1型樣本子集,首先采用重疊差異度進行分割,ov_diff≤0.18時判別為“非變化”(置信度98.0%),剩余樣本則進一步依據(jù)形狀及面積相似性屬性進行分類,如符合規(guī)則sim_shape≤0.67的樣本為“變化”(推理置信度89.7%),sim_shape>0.67并且sim_size≤0.84的樣本為“變化”(置信度86.4%),sim_shape>0.67并且sim_size>0.84的樣本劃分為“非變化”(置信度86.7%);③0∶1型樣本判定為“變化”(置信度100%),該類型目標變化對應(yīng)于真實地理世界中的房屋消失,不受地圖綜合的影響;④m∶1型樣本符合規(guī)則ov_diff≤0.26判定為“非變化”(置信度92.4%),ov_diff>0.26判定為“變化”(置信度89.3%);⑤m∶n型樣本直接判定為“變化”(置信度92.3%);⑥m∶0型樣本與1∶0型相似,當new_area>137.3時樣本判定為“變化”(置信度92.1%),反之判定為“非變化”(置信度96.2%)。
表3是建立的決策樹模型在訓練數(shù)據(jù)獲得的分類結(jié)果混淆矩陣。通過計算得到整體分類精度(即分類正確的樣本數(shù)量除以樣本總數(shù))和kappa系數(shù)分別為96.1%、90.5%,表明建立的決策樹模型具有較高的分類精度??紤]到訓練數(shù)據(jù)中實際“變化”樣本數(shù)量明顯少于“未變化”樣本數(shù)量,進一步分析“變化”樣本的誤檢率和漏檢率。誤檢率α和漏檢率β定義如式(4)和式(5)所示。
圖6 訓練數(shù)據(jù)生成的決策樹Fig.6 The constructed decision tree based on training data
分類決策樹分類YesNo總計人工識別分類Yes15391261665No9941444243總計163842705908
(4)
(5)
式中,Na表示決策樹分類為“變化”的樣本數(shù)量,N1表示實際“非變化”但是誤判為“變化”的樣本數(shù)量,Nb表示集合樣本中人工判斷為“變化”的樣本數(shù)量,N2表示實際“變化”但是漏判為“非變化”的樣本數(shù)量。依據(jù)式(4)(5)得到整體變化信息的誤檢率α=8.0%,漏檢率β=10.5%。表4統(tǒng)計了不同變化類型樣本子集中決策樹表現(xiàn)出的分類及變化識別性能指標。從分類精度上看,決策樹在不同類型樣本子集中均達到90%以上。從變化識別精度上看,m∶1型樣本的漏檢率較高(β=22.1%),其他類型變化的誤檢率和漏檢率均低于15%。
(4) 試驗分析評價。利用區(qū)域B和C數(shù)據(jù)對構(gòu)建的決策樹模型進行分析評價。理由包括:①訓練數(shù)據(jù)與測試數(shù)據(jù)不同,能夠避免訓練數(shù)據(jù)可能帶來的偏見;②不同區(qū)域環(huán)境類型的數(shù)據(jù)測試結(jié)果及比較能夠為后續(xù)應(yīng)用提供參考。表5列出了測試數(shù)據(jù)分類及變化識別結(jié)果??梢园l(fā)現(xiàn),決策樹模型在新數(shù)據(jù)上的表現(xiàn)接近于訓練數(shù)據(jù)。進一步地,可以發(fā)現(xiàn)城鄉(xiāng)結(jié)合部(區(qū)域C)的分類及變化識別效果優(yōu)于城區(qū)區(qū)域(區(qū)域B)。結(jié)合圖7分析,導致的原因主要包括:
表4不同變化類型樣本子集分類及變化識別結(jié)果比較
Tab.4 Results of classification and detection for different types of change (%)
表5測試數(shù)據(jù)分類及變化識別結(jié)果對比
Tab.5 Change classification and detection results on test data (%)
構(gòu)建的決策樹模型對于m∶1型變化關(guān)系的識別成功率相對其他變化類型較低。這是由于決策樹模型對m∶1型變化的判定只考慮了重疊差異度指標,無法準確反映關(guān)聯(lián)新舊居民地目標間局部的變化性質(zhì)。如圖7中M1、M2以及M4處的居民地分別存在局部擴建和局部拆除的變化,但是新舊目標間的重疊差異度并不大(分別是0.23、0.25和0.22),因此誤判為“非變化”;而M3處從尺度變換的角度屬合并操作引起的變化范疇,但是由于重疊差異度較大誤判為“變化”。
圖7 決策樹模型變化識別結(jié)果示例Fig.7 Samples of change detection using the constructed decision tree on test data
城區(qū)居民地分布密集,跨比例尺新舊房屋目標間對應(yīng)關(guān)系相對復(fù)雜。目標變化以群體式的擴展、收縮為主,尺度表達上的合并操作產(chǎn)生大量m∶1型變化關(guān)系;而城鄉(xiāng)結(jié)合部房屋分布較為稀疏,目標以單一分布為主,對象性強,大量的變化關(guān)系表現(xiàn)為1∶0、1∶1、0∶1等類型,變化識別難度系數(shù)相對較低。此外,部分城區(qū)居民地變化的產(chǎn)生涉及多種尺度變換組合情形,如M5處存在合并與移位兩種操作,增大了變化識別的難度。
上述問題的解決,一方面需要從方法本身出發(fā),引入新的變化描述特征、提升模型構(gòu)建策略以及選取更多實際數(shù)據(jù)進行訓練。另一方面,實際應(yīng)用中可對不同區(qū)域特點的規(guī)則閾值進行適度調(diào)整,如城區(qū)可適當提高重疊度閾值以增強對居民地局部區(qū)域發(fā)生變化的識別能力。雖然部分“非變化”可能識別為“變化”,一定程度上增加了后續(xù)更新操作的工作量,但是能夠保證變化更新的完整性。基于決策樹的變化識別模型對變化條件判斷綜合性強,多種判斷規(guī)則通過邏輯與、或、差集成,同時各規(guī)則的閾值設(shè)定又能根據(jù)區(qū)域環(huán)境差異適應(yīng)性地設(shè)定。本文方法與文獻[16]疊置運算方法識別跨比例尺間的居民地變化相比,在變化條件的集成上得到加強,不是簡單通過多邊形疊置運算后基于面積大小關(guān)系判斷是否有變化,同時顧及了形狀、空間關(guān)系參量等在變化判斷中的作用。
本文以居民地數(shù)據(jù)為例,從發(fā)生緣由和表現(xiàn)形式兩個主要角度,對跨比例尺新舊地圖數(shù)據(jù)間的變化信息進行了系統(tǒng)梳理。以數(shù)據(jù)更新為目標,引入決策樹方法建立變化信息識別模型,并采用真實數(shù)據(jù)驗證了方法的可行性。決策樹模型在判斷新舊數(shù)據(jù)變化過程中,考慮了數(shù)據(jù)本身的變化和上下文鄰域變化,同時顧及了映射關(guān)系上的單目變化和多目變化。多因素的變化條件通過決策樹不同規(guī)則及其邏輯運算集成,保障本方法在實際地理環(huán)境下變化識別的可行性。同時,本決策樹方法的規(guī)則條件、閾值設(shè)定,可通過不同樣區(qū)的訓練獲得,從而適應(yīng)不同區(qū)域環(huán)境條件下的變化識別(如居民地分布的城市中心區(qū)CBD、城鄉(xiāng)結(jié)合部、遠郊區(qū)等)。
結(jié)合試驗結(jié)果,以下工作需要進一步完善:①強化復(fù)雜變化特征描述。從試驗結(jié)果上看,m∶1型及部分1∶1型變化關(guān)系的識別有待提高。特別是目標局部發(fā)生擴張或收縮變化,僅通過目標間的重疊差異度無法精確判斷是真實變化還是表達變化。這一問題需要在獲得新舊目標圖形差異的基礎(chǔ)上進行局部形態(tài)分析,并定義相關(guān)描述參量;②變化識別推理規(guī)則的組織與完善。決策樹模型能夠?qū)С鰧W習得到的規(guī)則,通過加工提煉后可融入到專業(yè)的地圖數(shù)據(jù)管理軟件,進而形成專門的數(shù)據(jù)更新模塊;③本文僅探討了大比例尺段(1∶2000至1∶10 000)面狀居民地目標間的變化分析與識別,需要進一步擴展至其他比例尺范圍(如1∶10 000新數(shù)據(jù)與1∶50 000舊數(shù)據(jù))、目標幾何維度(點、線目標)以及多種語義要素目標(居民地與道路)混合等其他變化情形。
[1] FRITSCH D. GIS Data Revision-visions and Reality[R]. Keynote Speech in Joint ISPRS Commission Workshop on Dynamic and Multi-Dimensional GIS. Beijing: NGCC, 1999.
[2] 陳軍, 王東華, 商瑤玲, 等. 國家1:50000數(shù)據(jù)庫更新工程總體設(shè)計研究與技術(shù)創(chuàng)新[J]. 測繪學報, 2010, 39(1): 7-10.
CHEN Jun, WANG Donghua, SHANG Yaoling, et al. Master Design and Technical Development for National 1∶50 000 Topographic Database Updating Engineering in China[J]. Acta Geodaetica et Cartographica Sinica, 2010, 39(1): 7-10.
[3] ZHOU Qi, LI Zhilin. Use of Artificial Neural Networks for Selective Omission in Updating Road Networks[J]. The Cartographic Journal, 2014, 51(1): 38-51.
[5] HARRIE L, HELLSTR?M A K. A Prototype System for Propagating Updates between Cartographic Data Sets[J]. The Cartographic Journal, 1999, 36(2): 133-140.
[6] HAUNERT J H, SESTER M. Propagating Updates between Linked Datasets of Different Scales[C]∥Proceedings of the XXII International Cartographic Conference. A Corua, Spain: ICC, 2005.
[7] DEVOGELE T, TREVISAN J, RAYNAL L. Building a Multi-scale database with Scale-transition Relationships[C]∥Proceedings of the 7th International Symposium on Spatial Data Handling. London: Taylor & Francis, 1996: 337-351.
[8] 胡云崗, 陳軍, 李志林, 等. 地圖數(shù)據(jù)縮編更新的模式分類與選擇[J]. 地理與地理信息科學, 2007, 23(4): 22-24.
HU Yungang, CHEN Jun, LI Zhilin, et al. Study on Modes of Map Data Updating Based on Generalization[J]. Geography and Geo-information Science, 2007, 23(4): 22-24.
[9] 陳軍, 林艷, 劉萬增, 等. 面向更新的空間目標快照差分類與形式化描述[J]. 測繪學報, 2012, 41(1): 108-114.
CHEN Jun, LIN Yan, LIU Wanzeng, et al. Formal Classification of Spatial Incremental Changes for Updating[J]. Acta Geodaetica et Cartographica Sinica, 2012, 41(1): 108-114.
[10] 張新長, 郭泰圣, 唐鐵. 一種自適應(yīng)的矢量數(shù)據(jù)增量更新方法研究[J]. 測繪學報, 2012, 41(4): 613-619.
ZHANG Xinchang, GUO Taisheng, TANG Tie. An Adaptive Method for Incremental Updating of Vector Data[J]. Acta Geodaetica et Cartographica Sinica, 2012, 41(4): 613-619.
[11] 唐爐亮, 楊必勝, 徐開明. 基于線狀圖形相似性的道路數(shù)據(jù)變化檢測[J]. 武漢大學學報(信息科學版), 2008, 33(4): 367-370.
TANG Luliang, YANG Bisheng, XU Kaiming. The Road Data Change Detection Based on Linear Shape Similarity[J]. Geomatics and Information Science of Wuhan University, 2008, 33(4): 367-370.
[12] 林艷, 陳軍, 劉萬增, 等. 面狀水系偽增量剔除的拓撲量化法[J]. 武漢大學學報(信息科學版), 2012, 37(12): 1504-1507.
LIN Yan, CHEN Jun, LIU Wanzeng, et al. Topological Quantitatively Method for Spurious Increments Removed of Area Water[J]. Geomatics and Information Science of Wuhan University, 2012, 37(12): 1504-1507.
[13] 林艷, 陳軍, 趙仁亮, 等. 顧及時空目標邊界不一致性的增量識別計算[J]. 測繪學報, 2014, 43(4): 411-418. DOI: 10.13485/j.cnki.11-2089.2014.0061.
LIN Yan, CHEN Jun, ZHAO Renliang, et al. Increments Recognition and Calculation Considering the Inconsistency of Spatio-temporal Boundaries[J]. Acta Geodaetica et Cartographica Sinica, 2014, 43(4): 411-418. DOI: 10.13485/j.cnki.11-2089.2014.0061.
[14] QI H B, LI Z L, CHEN J. Automated Change Detection for Updating Settlements at Smaller-scale Maps from Updated Larger-Scale Maps[J]. Journal of Spatial Science, 2010, 55(1): 133-146.
[15] 簡燦良, 趙彬彬, 王曉密, 等. 多尺度地圖面目標變化分類、描述及判別[J]. 武漢大學學報(信息科學版), 2014, 39(8): 968-973.
JIAN Canliang, ZHAO Binbin, WANG Xiaomi, et al. A Methodology of Change Classification, Formal Description and Identification between Corresponding Areas in Multi-scale Maps[J]. Geomatics and Information Science of Wuhan University, 2014, 39(8): 968-973.
[16] 楊敏, 艾廷華, 晏雄鋒, 等. 疊置運算支持下的跨比例尺城區(qū)居民地數(shù)據(jù)變化發(fā)現(xiàn)與更新[J]. 測繪學報, 2016, 45(4): 466-474. DOI: 10.11947/j.AGCS.2016.20150302.
YANG Min, AI Tinghua, YAN Xiongfeng, et al. Change Detection and Updating by Using Map Overlay for Buildings on Multi-scale Maps[J]. Acta Geodaetica et Cartographica Sinica, 2016, 45(4): 466-474. DOI: 10.11947/j.AGCS.2016.20150302.
[17] 艾廷華, 郭仁忠. 基于格式塔識別原則挖掘空間分布模式[J]. 測繪學報, 2007, 36(3): 302-308.
AI Tinghua, GUO Renzhong. Polygon Cluster Pattern Mining Based on Gestalt Principles[J]. Acta Geodaetica et Cartographica Sinica, 2007, 36(3): 302-308.
[18] AI Tinghua, KE Shu, YANG Min, et al. Envelope Generation and Simplification of Polylines Using Delaunay Triangulation[J]. International Journal of Geographical Information Science, 2017, 31(2): 297-319.
[19] 童小華, 鄧愫愫, 史文中. 基于概率的地圖實體匹配方法[J]. 測繪學報, 2007, 36(2): 210-217. DOI: 10.3321/j.issn:1001-1595.2007.02.017.
TONG Xiaohua, DENG Susu, SHI Wenzhong. A Probabilistic Theory-based Matching Method[J]. Acta Geodaetica et Cartographica Sinica, 2007, 36(2): 210-217. DOI: 10.3321/j.issn:1001-1595.2007.02.017.
[20] 黃智深, 錢海忠, 郭敏, 等. 面狀居民地匹配骨架線傅里葉變化方法[J]. 測繪學報, 2013, 42(6): 913-921, 928.
HUANG Zhishen, QIAN Haizhong, GUO Min, et al. Matching Algorithm of Polygon Habitations Based on Their Skeleton-lines Using Fourier Transform[J]. Acta Geodaetica et Cartographica Sinica, 2013, 42(6): 913-921, 928.
[21] 趙東保, 盛業(yè)華. 全局尋優(yōu)的矢量道路網(wǎng)自動匹配方法研究[J]. 測繪學報, 2010, 39(4): 416-421.
ZHAO Dongbao, SHENG Yehua. Research on Automatic Matching of Vector Road Networks Based on Global Optimization[J]. Acta Geodaetica et Cartographica Sinica, 2010, 39(4): 416-421.
[22] 張云菲, 楊必勝, 欒學晨. 利用概率松弛法的城市路網(wǎng)自動匹配[J]. 測繪學報, 2012, 41(6): 933-939.
ZHANG Yunfei, YANG Bisheng, LUAN Xuechen. Automated Matching Urban Road Networks Using Probabilistic Relaxation[J]. Acta Geodaetica et Cartographica Sinica, 2012, 41(6): 933-939.
[23] 田文文, 朱欣焰, 咼維. 一種VGI矢量數(shù)據(jù)增量變化發(fā)現(xiàn)的多層次蔓延匹配算法[J]. 武漢大學學報(信息科學版), 2014, 39(8): 963-967, 973.
TIAN Wenwen, ZHU Xinyan, GUO Wei. A VGI Vector Road Data Increment Distinguishing Research Based on Multilevel Spreading Algorithm[J]. Geomatics and Information Science of Wuhan University, 2014, 39(8): 963-967, 973.
[24] 田晶, 艾廷華, 丁紹軍. 基于C4.5算法的道路網(wǎng)網(wǎng)格模式識別[J]. 測繪學報, 2012, 41(1): 121-126.
TIAN Jing, AI Tinghua, DING Shaojun. Grid Pattern Recognition in Road Networks Based on C4.5 Algorithm[J]. Acta Geodaetica et Cartographica Sinica, 2012, 41(1): 121-126.
[25] QUINLAN J R. Induction of Decision Trees[J]. Machine Learning, 1986, 1(1): 81-106.
[26] QUINLAN J R. C4.5: Programs for Machine Learning[M]. San Francisco, CA, USA: Morgan Kaufmann Publishers Inc., 1993.
[27] BREIMAN L, FRIEDMAN J H, OLSHEN R A, et al. Classification and Regression Trees[M]. Belmont, CA, USA: Wadsworth, 1984.