康 昆李明峰周 醉蔡煒珩
(1.南京工業(yè)大學(xué)測繪科學(xué)與技術(shù)學(xué)院,江蘇 南京211816;2.蘇州市測繪院有限責(zé)任公司,江蘇 蘇州215006)
隨著地理信息系統(tǒng)(GIS)在我國智慧城市建設(shè)中的發(fā)展和應(yīng)用,城市管理部門對空間數(shù)據(jù)與非空間數(shù)據(jù)共享整合的要求日益迫切。研究表明,80%以上的城市建設(shè)信息均與地理空間位置密切相關(guān)[1]。然而,此類信息包含的空間位置大多僅為文字描述,不能直接提取具體的地理位置坐標(biāo),難以與現(xiàn)有智慧城市信息系統(tǒng)融合。通過地理編碼,可有效建立城市非空間數(shù)據(jù)資源與空間數(shù)據(jù)資源的聯(lián)系,為大眾展示直觀、便利的基于空間位置服務(wù),搭建輔助決策應(yīng)用。
地理編碼時,由于中文地址表達(dá)方式與國外存在差異,不能直接使用國外地址模型,同時,國土、規(guī)劃等相關(guān)行業(yè)應(yīng)用中存在大量非規(guī)范中文地址業(yè)務(wù)數(shù)據(jù),導(dǎo)致地址匹配困難[2]。為解決中文地址匹配問題,通常采用文本層級分詞比較、模糊匹配等方法,該類方法僅基于文本比較進(jìn)行地址匹配,匹配率較低。部分研究通過分析地址中存在的空間關(guān)系實(shí)現(xiàn)地址匹配[3],但由于一個地址元素的描述可能對應(yīng)多種空間語義,地址元素提取時很難識別當(dāng)前地址元素的確切空間語義,造成地址解析混亂,難以進(jìn)行高質(zhì)量的地址匹配。為此,本文提出基于空間語義的地理編碼方法,利用空間關(guān)系約束構(gòu)建地址空間語義模型,通過分層級地址樹模型重構(gòu)目標(biāo)地址元素集合,以期解決地址元素識別歧義問題,使匹配結(jié)果更加精確。
基于空間語義的地理編碼(Geocoding Based on Spatial Semantic,以下簡稱GBSS)主要包括地址空間語義模型構(gòu)建、基于分層級地址樹的地址標(biāo)準(zhǔn)化以及地址匹配,其技術(shù)流程如下所示(圖1)。首先,基于分層地址模型建立標(biāo)準(zhǔn)的地址組織規(guī)則,結(jié)合地址元素空間關(guān)系約束,構(gòu)建地址空間語義模型;其次,通過地名詞典將地址字符串切分為地址元素集合,并根據(jù)級別對地址要素分層級;再次,針對每一層級地址要素,根據(jù)其空間語義約束生成分層級地址樹,重新建立地址元素索引,達(dá)到消除錯誤、糾正地址缺陷等效果,形成標(biāo)準(zhǔn)化地址;最后,通過一定的地址匹配方法在參考數(shù)據(jù)庫中進(jìn)行搜索比對,將匹配到的空間坐標(biāo)分配給對應(yīng)地址。
圖1 基于空間語義的地理編碼流程圖
地址模型解釋單個地址的組織和表達(dá)方式,并定義地址元素之間的關(guān)系。地址元素指向獨(dú)立的空間實(shí)體,具有一定的空間語義。
分析標(biāo)準(zhǔn)中文地址來構(gòu)建地址模型。標(biāo)準(zhǔn)中文地址主要由行政要素、基本約束對象和本地點(diǎn)位置組成[5]。如城市地址“蘇州市姑蘇區(qū)五卅路第101號”,蘇州市和姑蘇區(qū)屬于行政要素,五卅路屬于基本約束對象,第101號屬于本地點(diǎn)位置,三者構(gòu)成一個完整的地址,具有這種多層地址特征的地址模型被稱為分層地址模型[6]。在此基礎(chǔ)上,結(jié)合城市地址表達(dá)方式,建立地址元素組織規(guī)則(表1)。
表1 地址元素組織規(guī)則
該規(guī)則從自然語言描述角度分析地址元素的層級關(guān)系,但在表達(dá)地址元素的空間關(guān)系和約束方面還有很多不足,影響地址解析和標(biāo)準(zhǔn)化的效果。地址元素間存在空間關(guān)系,如拓?fù)潢P(guān)系(包含、鄰接等)、距離關(guān)系和方向關(guān)系。以下顯示了具有多種空間關(guān)系的蘇州某地址(圖2),以此作為空間語義關(guān)系模型示例,其中“蘇州市”、“姑蘇區(qū)”、“五卅路”和“第101號”地址元素間存在拓?fù)?包含)關(guān)系。
圖2 空間語義關(guān)系模型示例
從類別上看,行政要素包含基本約束對象,基本約束對象包含本地點(diǎn)位置;從級別上看,各級行政要素存在包含關(guān)系;此外,在某些情況下,方向關(guān)系和距離關(guān)系可能同時存在于本地點(diǎn)位置中,如本地點(diǎn)位置描述“第101號北100 m”,“北”表示方向,“100 m”表示距離。本地點(diǎn)描述組合(“101號”、方向“北”和距離“100 m”)指向一個確切的地理位置。
通過分析表明,完整規(guī)范的中文地址普遍存在一定空間限定關(guān)系,空間范圍從大到小,地址元素級別從高到低,地址的空間關(guān)系組成方式就是地址空間語義模型。
地址標(biāo)準(zhǔn)化是地理編碼最重要的過程,此過程涉及地址解析和地址規(guī)范化兩個步驟。地址解析是將輸入地址字符串依據(jù)地名詞典切分為具有精確空間語義的地址元素;在地址規(guī)范化中,任何不規(guī)范、不完整的非標(biāo)準(zhǔn)地址字符串都將轉(zhuǎn)換為標(biāo)準(zhǔn)格式,并以規(guī)范化地址重新記錄。地址是地址元素的集合,并允許指向多個不同的空間實(shí)體。每個地址元素都具有一定的空間語義,地址元素空間語義是指地址元素構(gòu)成地址的空間約束規(guī)則,主要包含地址元素間的空間關(guān)系。在實(shí)際操作過程中,地址分詞由于地名詞典不完善等原因總存在一定的分詞錯誤率,導(dǎo)致同級別的地址元素可能存在多個。
在本研究中,標(biāo)準(zhǔn)化過程基于分層級地址樹模型,目的是找到具有正確空間約束關(guān)系的地址元素連通路徑,以期解決地址元素識別錯誤問題。標(biāo)準(zhǔn)化過程步驟如下。
(1)解析輸入地址字符串并將其組織為地址元素集合X和空間語義集合S。
(2)創(chuàng)建根節(jié)點(diǎn),提取出X集合中最高級別的地址元素(一經(jīng)提取不再放回X集合),依次創(chuàng)建節(jié)點(diǎn)并將其連接到根節(jié)點(diǎn)。
(3)繼續(xù)提取出X集合中級別最高的地址元素,取其中一個作為待連接地址元素,設(shè)當(dāng)前地址樹的葉子節(jié)點(diǎn)集合為Y,Yi為第i個葉子節(jié)點(diǎn)。
(4)將待連接地址元素依次與Yi進(jìn)行空間約束關(guān)系判斷操作。遍歷待連接地址元素的每個空間語義,評估其與當(dāng)前葉子節(jié)點(diǎn)是否存在一致的空間約束關(guān)系,若存在,則將該地址元素連接到當(dāng)前葉子節(jié)點(diǎn),而后進(jìn)行與Y中下一葉子節(jié)點(diǎn)判斷操作;若不存在,則直接進(jìn)行與Y中下一葉子節(jié)點(diǎn)判斷操作。
(5)重復(fù)步驟3-4,直至每一級別的地址元素與相關(guān)葉子節(jié)點(diǎn)判斷操作結(jié)束。
(6)取地址樹模型中層級深度最大的一個子樹作為具有正確空間約束關(guān)系的地址元素連通路徑,經(jīng)過行政級別補(bǔ)全處理后即可形成標(biāo)準(zhǔn)地址。
通過以上過程,可正確地組織一個混亂、不正確描述的地址字符串,標(biāo)準(zhǔn)化后輸出的地址可供后續(xù)地址匹配處理。
地址匹配是按照特定規(guī)則將標(biāo)準(zhǔn)化處理后的中文地址與地址參考庫中各條記錄逐一匹配的過程,一旦匹配成功則提取該條參考記錄中的空間位置,建立空間對應(yīng)關(guān)系。
地址匹配依據(jù)正向最大匹配原則,將不同級別地址要素進(jìn)行處理比對。首先,嘗試準(zhǔn)確地匹配低級別(如門牌號碼級別)的輸入地址;若未找到匹配結(jié)果,將地址中下一較高級別(如社區(qū),街道或區(qū)域級別)地址要素執(zhí)行匹配,直至找到結(jié)果。最后,輸出用于地理映射和空間分析的地理坐標(biāo)。
地址匹配時,在參考數(shù)據(jù)庫中找到相應(yīng)的地理實(shí)體或地理坐標(biāo)記錄,其中地理實(shí)體需根據(jù)類型提取空間坐標(biāo)。行政要素級別的地理實(shí)體為面狀實(shí)體;基本約束對象級別的地理實(shí)體為線狀或面狀實(shí)體;本地點(diǎn)位置級別除興趣點(diǎn)外,多為建筑物,建筑物屬于面狀實(shí)體。當(dāng)匹配到面狀實(shí)體時,計算并輸出該面狀實(shí)體的形心點(diǎn)坐標(biāo);當(dāng)匹配到線狀實(shí)體時,計算并輸出該線狀實(shí)體的中點(diǎn)坐標(biāo)。
為驗證GBSS方法的有效性,從某街道辦事處日常走訪記錄中抽取一定數(shù)量的中文地址進(jìn)行實(shí)驗。本實(shí)驗在該街道10個社區(qū)中各抽取1 000條地址作為原始中文地址數(shù)據(jù),數(shù)據(jù)中含有大量的非規(guī)范化中文地址。分別采用GBSS方法與模糊地址匹配方法對這些地址數(shù)據(jù)進(jìn)行匹配,二者匹配的平均正確率分別為86.2%和46.5%(圖3)。
圖3 兩種地理編碼方法實(shí)驗結(jié)果
實(shí)驗結(jié)果表明,本文地理編碼方法的平均正確率比模糊地址匹配方法高,且匹配前后數(shù)據(jù)量基本保持一致,數(shù)據(jù)匹配效果較好。但在基于GBSS方法的地址匹配中,仍然存在部分未正確匹配的中文地址,這是由于參考地名地址庫不夠完善和中文地址格式不規(guī)范、信息缺失嚴(yán)重等原因造成的。
本文研究了中文地址的復(fù)雜性,解釋了地址要素之間的拓?fù)潢P(guān)系,提出了一種基于空間語義的地理編碼方法,可有效解析非標(biāo)準(zhǔn)中文地址,從而提高了地理編碼的效率和準(zhǔn)確性,為智慧城市地址匹配提供了一定程度的技術(shù)支持。由于非標(biāo)準(zhǔn)中文地址異常復(fù)雜,未來的改進(jìn)方向?qū)?cè)重于對地址別名和歷史地址的正確處理以及對混亂建筑物號碼描述的更好解析。