薛梅,向華
(重慶數(shù)字城市科技有限公司,重慶 400020)
隨著地理信息系統(tǒng)在城市信息化建設(shè)中越來(lái)越廣泛的應(yīng)用,政府部門之間對(duì)空間數(shù)據(jù)與非空間數(shù)據(jù)共享整合的要求日益迫切。據(jù)專家統(tǒng)計(jì),政府各部門擁有大量的政務(wù)信息中,80%的信息都與地理空間位置密切相關(guān),但是這些信息幾乎都沒(méi)有空間坐標(biāo),因此無(wú)法與其他信息整合,無(wú)法實(shí)現(xiàn)空間分析與可視化。
為了將這些空間信息與非空間信息集成與融合,實(shí)現(xiàn)大量統(tǒng)計(jì)和表格信息的空間化,就需要建立空間和非空間信息之間的聯(lián)系,地理編碼正是建立這兩者之間聯(lián)系的最重要手段。以地名/地址數(shù)據(jù)作為基礎(chǔ)紐帶,通過(guò)地理編碼,使政府各部門分散的信息資源庫(kù)之間建立有機(jī)的聯(lián)系,從而在統(tǒng)一的地理參考框架中,構(gòu)建起空間信息和非空間信息進(jìn)行融合的框架和模型,依據(jù)此框架和模型可以滿足直接的、實(shí)時(shí)的數(shù)據(jù)共享要求,實(shí)現(xiàn)不同數(shù)據(jù)類型、不同系統(tǒng)之間的集成操作。
地理編碼在經(jīng)濟(jì)社會(huì)和人們的日常生活中起著十分重要的作用。在建立地名、路名、樓名和門址等數(shù)據(jù)庫(kù)后,可支持與位置相關(guān)的服務(wù),如LBS、智能交通、移動(dòng)夢(mèng)網(wǎng)、影像數(shù)據(jù)庫(kù)的查詢等;對(duì)社會(huì)、經(jīng)濟(jì)和人口信息可以進(jìn)行匹配,從而進(jìn)行分析、統(tǒng)計(jì)、管理、制圖和可視化表示,以支持政府的管理和決策。
在公安部發(fā)布的警用地理信息系統(tǒng)(PGIS)技術(shù)規(guī)范中,明確將建立標(biāo)準(zhǔn)地址庫(kù)、實(shí)現(xiàn)地址匹配作為警用地理信息系統(tǒng)的基礎(chǔ)建設(shè)內(nèi)容。在地市、區(qū)縣等各級(jí)政府的地理信息共享交換平臺(tái)中,也將地理編碼作為基礎(chǔ)性建設(shè)內(nèi)容來(lái)完成。地理編碼已經(jīng)成為地理信息系統(tǒng)的基礎(chǔ)設(shè)施之一。
由于地理編碼在地理信息社會(huì)化應(yīng)用中具有關(guān)鍵性作用,各國(guó)地理信息系統(tǒng)工作者對(duì)相關(guān)技術(shù)和方法進(jìn)行了大量的研究。
國(guó)外成熟的地址標(biāo)準(zhǔn)模型如表1所示。
國(guó)外地址模型 表1
目前全球最通用的商業(yè)GIS平臺(tái)——ArcGIS平臺(tái),提供了地理編碼的應(yīng)用工具 Geocoding Tools。Geocoding Tools提供了整套地理編碼解決方案,并可定義多種地址規(guī)則(多為美國(guó)地址標(biāo)準(zhǔn))。但遺憾的是,由于我國(guó)地址命名的無(wú)序性以及中英文編碼、語(yǔ)法差異問(wèn)題,GeoCoding Tools對(duì)我國(guó)地址匹配的準(zhǔn)確程度并不高,使用起來(lái)不具備太大現(xiàn)實(shí)意義。
除ArcGIS等專業(yè)地理信息引擎外,Google Map API也推出了基于 WebService的地理編碼服務(wù)[3]。Google Geocoder將地址匹配準(zhǔn)確程度用9個(gè)級(jí)別來(lái)表示,其結(jié)果用通用的KML表示,具有接口簡(jiǎn)單,使用方便的優(yōu)良特點(diǎn)。
地理編碼具有很強(qiáng)的地域和語(yǔ)言限制,目前尚無(wú)能夠適應(yīng)所有國(guó)家和地區(qū)的地理編碼。由于我國(guó)歷史文化對(duì)地名和地址命名的影響,加之近年城市建設(shè)的飛速發(fā)展,使得我國(guó)地址命名異常復(fù)雜,結(jié)構(gòu)無(wú)序,門牌號(hào)碼編號(hào)混亂等,這些都限制了我國(guó)地址編碼技術(shù)的發(fā)展[1]。我國(guó)目前還沒(méi)有統(tǒng)一的地址命名規(guī)范和標(biāo)準(zhǔn),也造成了各地的地址情況不統(tǒng)一。
近年來(lái)我國(guó)科技工作者對(duì)地理編碼技術(shù)也展開了大量的研究[2,4,5]。各地紛紛建立起自己的標(biāo)準(zhǔn)地址數(shù)據(jù)庫(kù),開始利用地理編碼技術(shù)解決業(yè)務(wù)信息與地理位置關(guān)聯(lián)問(wèn)題。代表性的城市包括:北京、南京、上海等。代表性的公司包括:51地圖、北京超圖、山海經(jīng)緯、方正奧德等公司。在我國(guó),地理編碼商用引擎已經(jīng)出現(xiàn),并應(yīng)用在數(shù)據(jù)共享交換平臺(tái)、公安等行業(yè)中,但地址匹配的準(zhǔn)確率和效率都有改進(jìn)空間。
在我國(guó)大部分地區(qū),地址由行政區(qū)劃+限定地址+局部地址組合而成,共計(jì)9種組合情況,如表2所示。
描述性質(zhì)的標(biāo)準(zhǔn)地址,在其空間上也有著層級(jí)關(guān)系,按照空間范圍從大到小,描述精度從粗到細(xì)表達(dá)。
根據(jù)地址的描述信息,按表述層級(jí)進(jìn)行分級(jí)后,依據(jù)地址類型進(jìn)行編碼,以“重慶市江北區(qū)觀音橋街道電測(cè)村231號(hào)重慶數(shù)字城市科技有限公司”這一描述為例,進(jìn)行地址分級(jí)見(jiàn)表3,分級(jí)后的編碼為:010201000100010231。
通用地址組合 表2
地址分級(jí)實(shí)例 表3
地址匹配的過(guò)程是將描述性地址轉(zhuǎn)換為地理位置的過(guò)程。在實(shí)際工作中,必須考慮到轉(zhuǎn)換結(jié)果有三種可能:①完全沒(méi)有找到匹配的地理位置,例如,輸入“早上好”,肯定找不到匹配位置;②找到一條完全符合的地理位置,例如,輸入“江北區(qū)電測(cè)村231號(hào)”;③找到一條或多條部分符合的地理位置,例如,輸入“江北區(qū)建新南路”。因此,用戶在訪問(wèn)地址匹配應(yīng)用時(shí),應(yīng)能指定匹配的精確程度。
在地址匹配分析中,將匹配精確程度分為9級(jí),分別為:省|市|區(qū)縣|鄉(xiāng)鎮(zhèn)|村|組|道路(街路巷或居住地)|建筑物(樓門牌或POI)。如按照精確程度劃分,包含以下幾種可能性:
(1)匹配到行政區(qū)劃,例如輸入“重慶市江北區(qū)”,匹配到江北區(qū),從空間表達(dá)上來(lái)說(shuō)是一個(gè)面狀區(qū)域,為了簡(jiǎn)化,輸出該多邊形最小外接矩形的中心點(diǎn)經(jīng)緯度。
(2)匹配到限定性地址,例如輸入“重慶市江北區(qū)電測(cè)村”,從空間表達(dá)上來(lái)說(shuō)是一個(gè)線狀條帶或面狀區(qū)域,為了簡(jiǎn)化,輸出線或多邊形最小外接矩形的中心點(diǎn)經(jīng)緯度。
(3)匹配到局域性地址,也就是建筑物本身。例如輸入“重慶市江北區(qū)電測(cè)村231號(hào)”,直接輸出經(jīng)緯度坐標(biāo)。如果需要得到該地址所在的建筑物,通過(guò)空間關(guān)系反算得到。
地址匹配的分析過(guò)程如圖1所示。
①AddrParser:綜合利用分詞技術(shù)、地址元素字典表對(duì)輸入的描述性地址進(jìn)行分詞處理,依據(jù)語(yǔ)義庫(kù)進(jìn)行詞語(yǔ)篩選,去掉無(wú)用的描述信息,將其轉(zhuǎn)換為標(biāo)準(zhǔn)地址模型的層次結(jié)構(gòu)。
②AddrStandalizer:去掉一些不合法字符;利用詞典進(jìn)行輸入分詞;對(duì)照別名表,對(duì)地址運(yùn)用正則表達(dá)式匹配等方法,進(jìn)行規(guī)范化處理。例如“市科委”將轉(zhuǎn)化成“重慶市科學(xué)技術(shù)委員會(huì)”。將規(guī)范化的地址要素轉(zhuǎn)換為地址編碼。
③Feature Matcher:利用地址編碼到地址表中進(jìn)行檢索,根據(jù)上下層級(jí)地址之間的包容關(guān)系,找到可能符合條件的待選地址。
④AddrInterpolator:在可能符合條件的待選地址中進(jìn)一步匹配和解析,按詞語(yǔ)匹配程度和空間匹配程度進(jìn)行匹配進(jìn)度打分。按照匹配精度對(duì)待選地址進(jìn)行排序,選取排序最靠前的地址,認(rèn)定為符合條件的匹配結(jié)果。
地址匹配效果如圖2所示。
圖1 地址匹配流程
圖2 地址匹配效果(由文本轉(zhuǎn)化為十進(jìn)制經(jīng)緯度)
逆地址匹配是指將地理坐標(biāo)轉(zhuǎn)換為標(biāo)準(zhǔn)地址的過(guò)程。和地理編碼相比,逆地理編碼實(shí)現(xiàn)更加簡(jiǎn)單,而且準(zhǔn)確率更高。這是因?yàn)檩斎胂鄬?duì)地理編碼的描述地址更加準(zhǔn)確和規(guī)范。
在以點(diǎn)位為參考地址的模型下,逆地址匹配的通常做法是:設(shè)定一個(gè)默認(rèn)緩沖值(如10 m),找到這個(gè)范圍內(nèi)所有的地址點(diǎn)位,然后取離輸入點(diǎn)最近的地址作為結(jié)果輸出。其匹配準(zhǔn)確度完全由地址點(diǎn)位數(shù)據(jù)決定。因此,在數(shù)據(jù)采集過(guò)程中,應(yīng)該讓地址位于建筑物的正中心,以最大限度提高逆運(yùn)算的準(zhǔn)確程度。逆地址匹配效果如圖3所示。
圖3 逆地址匹配效果(由十進(jìn)制經(jīng)緯度轉(zhuǎn)化為標(biāo)準(zhǔn)地址)
地理編碼在地理信息社會(huì)化應(yīng)用中,具有舉足輕重的作用。從技術(shù)實(shí)現(xiàn)上,地理編碼具有很強(qiáng)的地域和語(yǔ)言限制,目前尚無(wú)能夠適應(yīng)所有國(guó)家和地區(qū)的地理編碼。由于我國(guó)地址存在命名異常復(fù)雜,結(jié)構(gòu)無(wú)序,門牌號(hào)碼編號(hào)混亂等問(wèn)題,無(wú)法利用歐美國(guó)家的道路插值方式進(jìn)行地理編碼,因此,本文提出了一種基于無(wú)規(guī)則地址點(diǎn)的地理編碼模型,并實(shí)現(xiàn)了基礎(chǔ)地理編碼模型的分析應(yīng)用:地址匹配和逆地理編碼。
[1]GoldbergW.Daniel.A Geocoding Best Practices Guide.University of Southern California[M].GIS Research Laboratory,2008
[2]宋啟凡,李莉,朱雪征.國(guó)外地址數(shù)據(jù)標(biāo)準(zhǔn)分析及啟示[J].地理信息世界,2009,7(1):60~66
[3]郭會(huì),宋關(guān)福,馬柳青等.地理編碼系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J].計(jì)算機(jī)工程,2009,35(1):250 ~252
[4]李軍,李琦,毛東軍,郭玲玲.北京市地理編碼數(shù)據(jù)庫(kù)的研究[J].計(jì)算機(jī)工程與應(yīng)用,2004,40(2):1~3
[5]陳細(xì)謙,遲忠先,金妮.城市地理編碼系統(tǒng)應(yīng)用與研究[J].計(jì)算機(jī)工程,2004:30(23):50~52
[6]Dramowicz,Ela.Three Standard Geocoding Methods[EB/OL].http://www.directionsmag.com/article.php?article_id=670October 24,2004