王銀花
(1.福建省基礎(chǔ)地理信息中心,福建 福州 350000)
多源地名地址和興趣點(diǎn)數(shù)據(jù)整合方法研究
王銀花1
(1.福建省基礎(chǔ)地理信息中心,福建 福州 350000)
主要研究將來源不同的地名地址和興趣點(diǎn)數(shù)據(jù)進(jìn)行整合的技術(shù)方法,建立一個(gè)具有相同的數(shù)據(jù)模型和組織結(jié)構(gòu)的福建省基礎(chǔ)地名地址庫,實(shí)現(xiàn)地名地址、興趣點(diǎn)數(shù)據(jù)的統(tǒng)一管理以及數(shù)據(jù)的有效利用。
多源;地名地址;興趣點(diǎn);數(shù)據(jù)整合
地名、地址、興趣點(diǎn)數(shù)據(jù)是以坐標(biāo)點(diǎn)位的方式描述某一特定空間位置上自然或人文地理實(shí)體的專有名稱和屬性,是專業(yè)或社會經(jīng)濟(jì)信息與地理空間信息通過地理編碼或地址匹配進(jìn)行掛接的媒介與橋梁[1]。地名地址數(shù)據(jù)來源途徑包括通過采購、共建共享、自行采集等多種方式,獲取多套地名地址、興趣點(diǎn)數(shù)據(jù),這些數(shù)據(jù)在數(shù)據(jù)格式、分類標(biāo)準(zhǔn)上都存在較大差異。
為滿足天地圖·福建和數(shù)字城市地理空間框架建設(shè)、數(shù)據(jù)查詢、測繪應(yīng)急保障服務(wù)等應(yīng)用的需求[2],需要對現(xiàn)有數(shù)據(jù)進(jìn)行整合,使數(shù)據(jù)具有統(tǒng)一的數(shù)據(jù)模型,建設(shè)適合福建省的基礎(chǔ)地名地址庫。福建省基礎(chǔ)地名地址庫是指包括福建省地名數(shù)據(jù)、地址數(shù)據(jù)和興趣點(diǎn)數(shù)據(jù)的數(shù)據(jù)庫[3],3種不同類型的數(shù)據(jù)具有統(tǒng)一的數(shù)據(jù)模型和組織方式,方便數(shù)據(jù)的統(tǒng)一管理與維護(hù),為福建省的地名地址服務(wù)提供可靠的基礎(chǔ)地名地址數(shù)據(jù),提高政府管理水平和公共服務(wù)能力。本文對如何將不同來源的地名地址數(shù)據(jù)進(jìn)行整合開展研究。
多源地名地址數(shù)據(jù)空間參考、屬性字段、組織方式等多方面都可能存在不一致,所以,只有設(shè)計(jì)一個(gè)統(tǒng)一合理的數(shù)據(jù)模型,并將其投影到同一空間參考,才能進(jìn)行數(shù)據(jù)整合。本文多源地名地址數(shù)據(jù)整合方法包括:①數(shù)據(jù)模型和組織結(jié)構(gòu)設(shè)計(jì);②數(shù)據(jù)預(yù)處理,即將不同空間參考的數(shù)據(jù)進(jìn)行投影轉(zhuǎn)換;③重復(fù)點(diǎn)查詢與剔除;④多源數(shù)據(jù)融合,包括數(shù)據(jù)屬性信息的融合;⑤解密處理,即通過敏感涉密關(guān)鍵字,將敏感信息挑選出來單獨(dú)存儲。如圖1所示。
1.1 數(shù)據(jù)模型與組織結(jié)構(gòu)
不同來源的地名、地址以及興趣點(diǎn)數(shù)據(jù)結(jié)構(gòu)、屬性字段、空間參考都不一致,要將其整合為一套數(shù)據(jù),必須具有合理的數(shù)據(jù)模型以及相同的組織結(jié)構(gòu),以實(shí)現(xiàn)數(shù)據(jù)的統(tǒng)一管理。本文參照相關(guān)地理實(shí)體的模型定義,將數(shù)據(jù)模型分為基本屬性和擴(kuò)展屬性?;緦傩允枪灿凶侄?,而擴(kuò)展屬性按照不同實(shí)體類型設(shè)置不同的屬性內(nèi)容,以數(shù)據(jù)表的格式存儲,二者通過唯一的圖元碼進(jìn)行標(biāo)識和鏈接。該數(shù)據(jù)模型既滿足統(tǒng)一管理要求,又能夠保留不同數(shù)據(jù)的特有屬性。
圖1 多源地名地址數(shù)據(jù)整合方法技術(shù)路線圖
1)基本屬性。根據(jù)數(shù)據(jù)的使用要求,設(shè)定其基本屬性,包括要素名稱、地址、類型碼、經(jīng)度、緯度、分類代碼、圖元標(biāo)識碼等。
2)擴(kuò)展屬性。地名、地址和興趣點(diǎn)都有各種特征屬性,無法用統(tǒng)一的數(shù)據(jù)結(jié)構(gòu)進(jìn)行描述,擴(kuò)展屬性項(xiàng)可以按照各種數(shù)據(jù)類型進(jìn)行自由擴(kuò)展,保證數(shù)據(jù)信息的完整性和可擴(kuò)展性。
地名庫數(shù)據(jù)中按照類別添加各種擴(kuò)展屬性項(xiàng),在實(shí)際作業(yè)過程中根據(jù)需要再定,如路名點(diǎn)需要擴(kuò)展的屬性可以包括道路編號、道路等級、道路寬度等,水系點(diǎn)擴(kuò)展屬性中可以包括水系等級、所屬流域等專業(yè)屬性[4]。地址庫數(shù)據(jù)相對屬性較單一,可以根據(jù)實(shí)際需要進(jìn)行適當(dāng)擴(kuò)展。興趣點(diǎn)涉及的數(shù)量多,類別復(fù)雜,每種類別的特有信息豐富,因此興趣點(diǎn)的擴(kuò)展屬性可按照不同的三級分類類別特征進(jìn)行擴(kuò)展,但一般都要包含聯(lián)系電話、網(wǎng)址、郵編、數(shù)據(jù)采集時(shí)間、采集單位、采集人等信息[5]。
另外,如圖2所示,本文將基礎(chǔ)地名地址庫分為地名數(shù)據(jù)、地址數(shù)據(jù)、涉密敏感數(shù)據(jù)和興趣點(diǎn)數(shù)據(jù),其中地名數(shù)據(jù)分為人文地理實(shí)體和自然地名實(shí)體2個(gè)要素集[6],自然地名實(shí)體包括水系、海域和陸地地形,人文地理實(shí)體要素集包括具有地名意義的交通運(yùn)輸設(shè)施,具有地名意義的建筑物,具有地名意義的水利、電力、通訊信施,具有地名意義的紀(jì)念地、旅游勝地、居民點(diǎn)、行政區(qū)域及其他區(qū)域。地址數(shù)據(jù)包括小區(qū)名、門牌號,興趣點(diǎn)數(shù)據(jù)包括生產(chǎn)制造、旅游娛樂業(yè)、賓館住宿、醫(yī)療衛(wèi)生、文化教育、文化藝術(shù)業(yè)、交通運(yùn)輸、機(jī)關(guān)事業(yè)及社會團(tuán)體、購物、通信傳媒、金融業(yè)、餐飲美食、公共管理服務(wù)以及居民服務(wù)等[7]。
圖2 多源地名地址數(shù)據(jù)組織結(jié)構(gòu)
1.2 重復(fù)點(diǎn)剔除
不同來源的地名地址數(shù)據(jù),在相同區(qū)域存在交叉,需要進(jìn)行數(shù)據(jù)判重,保留現(xiàn)勢性好、精度高的點(diǎn)。由于數(shù)據(jù)的來源、精度、正確性不同,重復(fù)點(diǎn)出現(xiàn)的情況多種多樣,包括名稱完全一致的重復(fù)點(diǎn),名稱不一致,二者出現(xiàn)簡稱或者同音字甚至錯(cuò)別字,可通過主觀斷定是否同一個(gè)地理實(shí)體的重復(fù)點(diǎn)。
重復(fù)點(diǎn)的查詢主要有2種方法。方法一是結(jié)合空間位置,將不同來源數(shù)據(jù)根據(jù)名稱字段進(jìn)行連接,找出名稱相同的點(diǎn),將其導(dǎo)出后參照資料進(jìn)行篩選。該方法的不足是只能找出名稱完全一致的點(diǎn),很多名稱不同的重復(fù)點(diǎn)無法查找出來,所以需要對數(shù)據(jù)進(jìn)行模糊查詢。
方法二是利用FME軟件,構(gòu)建數(shù)據(jù)模糊查詢模塊,將某一要素與其一定距離范圍內(nèi)的所有要素進(jìn)行一一匹配,取匹配度最高的要素,并將其匹配度值和匹配上要素的名稱寫在其屬性里面。其中,匹配的距離可以根據(jù)實(shí)際情況進(jìn)行設(shè)置,對于地名、公園、工業(yè)園區(qū)、住宅小區(qū)等指代范圍比較大的點(diǎn),匹配距離可以設(shè)置稍微大點(diǎn),如500 m~1 000 m左右;而對于一般的POI類型,匹配距離可以設(shè)置在50 m~100 m范圍之間。結(jié)合匹配度和匹配名稱,可以快速判讀要素之間是否為相同要素,再根據(jù)影像等參考資料和數(shù)據(jù)源本身現(xiàn)勢性、精度、屬性完整性、正確性等因素,選擇屬性信息全、位置精度高、現(xiàn)勢性相對較好的點(diǎn),從而剔除重復(fù)點(diǎn)。
方法二是通過模糊匹配進(jìn)行數(shù)據(jù)查重,同時(shí)能夠?qū)⒚Q完全一致的重復(fù)點(diǎn)查出來,具有較高的實(shí)用性和正確性。
本文研究了福建省地名地址庫的整合方法,結(jié)合ArcGIS、FME等工具,快速地將不同來源的數(shù)據(jù)進(jìn)行判重、數(shù)據(jù)融合以及解密處理等,使不同來源的數(shù)據(jù)融合到一起,得到數(shù)據(jù)組織結(jié)構(gòu)、空間參考、數(shù)據(jù)屬性標(biāo)準(zhǔn)相一致的地名地址數(shù)據(jù),大大減少了人工參與過程,縮短了整合時(shí)間,從而說明該方法具有較高的有效性和實(shí)用性,為今后福建省地名地址數(shù)據(jù)的不斷增多提供了快速有效的整合方法,也為天地圖·福建建設(shè)、數(shù)字城市地理空間框架建設(shè)以及滿足福建省經(jīng)濟(jì)社會發(fā)展和社會公眾生活對地名地址的需求奠定了堅(jiān)實(shí)的基礎(chǔ)。
[1] 國家測繪地理信息局.地理信息公共服務(wù)平臺地理實(shí)體與地名地址數(shù)據(jù)規(guī)范[S].
[2] 王野,張志文.沈陽市地名地址數(shù)據(jù)采集與建庫[J].城市勘測,2013(6):40-43
[3] 劉娟,智升翠.“天地圖”市級節(jié)點(diǎn)地名地址數(shù)據(jù)建設(shè)的研究[J].測繪與空間地理信息,2012,35(9):109-112
[4] 戴冬冬.基于地址匹配方法的POI 數(shù)據(jù)更新研究[J].電腦知識與技術(shù),2010,6(1):1-11
[5] 王會娜,王瑋.“天地圖·江蘇”省級節(jié)點(diǎn)地理實(shí)體的建設(shè)[C].江蘇省測繪學(xué)會2011年學(xué)術(shù)年會論文集,南京,2011
[6] 張玲.POI 的分類標(biāo)準(zhǔn)研究[J].測繪通報(bào),2012(10):82-84
[7] 朱家彪.公眾地理信息公共服務(wù)平臺系統(tǒng)建設(shè)研究——以湖南省為例[J].測繪通報(bào),2010(9):60-62
P208
B
1672-4623(2016)04-0037-02
10.3969/j.issn.1672-4623.2016.04.012
王銀花,碩士,工程師,主要從事地理信息數(shù)據(jù)生產(chǎn)和電子地圖制作等工作。
2016-01-21。