吳張峰,夏蘭芳
(上海市測(cè)繪院,上海 200063)
伴隨著信息時(shí)代的到來(lái),位置服務(wù)需求的深度和廣度在不斷增加,位置服務(wù)的產(chǎn)生離不開(kāi)基礎(chǔ)數(shù)據(jù)的支持。POI數(shù)據(jù)作為位置服務(wù)的重要載體,直接掌控著位置服務(wù)的質(zhì)量。與此同時(shí),以POI為代表的位置服務(wù)數(shù)據(jù)的獲取和更新模式正在發(fā)生深刻變化。另一方面,隨著位置服務(wù)的普及,POI數(shù)據(jù)的鮮活性成為提升位置服務(wù)質(zhì)量的核心因素。如何進(jìn)行高質(zhì)量的數(shù)據(jù)采集和多源POI數(shù)據(jù)的融合成為提升位置服務(wù)能力的關(guān)鍵。本文在廣泛試驗(yàn)的基礎(chǔ)上,探索出一套基于FME Server的多源異構(gòu)POI融合方法,為POI數(shù)據(jù)的動(dòng)態(tài)維護(hù)更新提供了一種新的思路。
本文的研究框架如圖1所示。
本文研究的核心內(nèi)容為:首先將來(lái)源可靠且經(jīng)過(guò)質(zhì)檢的POI數(shù)據(jù)形成一個(gè)母庫(kù);然后將來(lái)源不同的POI數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗,進(jìn)行基于FME Server空間位置信息和門(mén)址等屬性信息的融合,形成內(nèi)容詳盡、結(jié)構(gòu)規(guī)整的POI融合庫(kù);最后,對(duì)于形成的POI融合庫(kù)再進(jìn)行基于空間約束關(guān)系的門(mén)址掛接,建立POI數(shù)據(jù)與門(mén)址信息的對(duì)應(yīng)關(guān)系,滿足各類(lèi)基于LBS和Location Point的業(yè)務(wù)應(yīng)用。
對(duì)獲取的大量的POI數(shù)據(jù)進(jìn)行處理,處理的方法是利用FME軟件流程化的模塊設(shè)計(jì)對(duì)數(shù)據(jù)進(jìn)行清洗,從而保證用于融合的數(shù)據(jù)的基本質(zhì)量。處理流程如圖2所示,主要包括以下內(nèi)容。
(1) 針對(duì)數(shù)據(jù)中存在特殊分隔符的問(wèn)題,分析數(shù)據(jù)產(chǎn)生的原因,對(duì)特殊字符進(jìn)行刪除處理。
(2) POI數(shù)據(jù)格式的統(tǒng)一,非漢字字符統(tǒng)一使用英文字符。
圖1 研究框架
圖2 數(shù)據(jù)清洗流程
(3) 設(shè)計(jì)標(biāo)準(zhǔn)POI庫(kù)的屬性結(jié)構(gòu),規(guī)范POI屬性名稱,如原始的POI數(shù)據(jù)結(jié)構(gòu)中屬性字段各不相同,需建立原始字段與標(biāo)準(zhǔn)字段的對(duì)應(yīng)關(guān)系,統(tǒng)一到標(biāo)準(zhǔn)的POI屬性字段名稱。
(4) 刪除奇異點(diǎn),刪除空間字段為NULL的POI數(shù)據(jù),優(yōu)化POI數(shù)據(jù)質(zhì)量。
(5) 刪除重復(fù)項(xiàng),進(jìn)行POI數(shù)據(jù)中同名地物的判斷及刪除。
(6) 坐標(biāo)統(tǒng)一,坐標(biāo)變換,使獲取的POI數(shù)據(jù)具有相同的坐標(biāo)系。
數(shù)據(jù)源采用實(shí)測(cè)并經(jīng)過(guò)質(zhì)檢的數(shù)據(jù),母庫(kù)的屬性結(jié)構(gòu)定義如圖3所示,建成的母庫(kù)如圖4所示。
字段名稱含義描述數(shù)據(jù)類(lèi)型空值性唯一性KEY_ID唯一標(biāo)識(shí)NUMBER(38)NOTTYPE類(lèi)型VARCHAR2(38)NULLNAME名稱VARCHAR2(100)NOTA_NAME所屬區(qū)縣VARCHAR2(50)NULLCOUNTY所屬街道VARCHAR2(50)NULLDOORPLATE_ID掛接門(mén)址IDVARCHAR2(100)NULLNAME_PHONETICIZE拼音VARCHAR2(200)NULLNAME_ENG英文名稱VARCHAR2(50)NULLNAME_ABBR簡(jiǎn)稱VARCHAR2(50)NULLNAME_ALIAS別名VARCHAR2(50)NULLNAME_REGIS工商登記名稱VARCHAR2(50)NULLTEL電話號(hào)碼VARCHAR2(50)NULLPOSTAL_CODE郵政編碼VARCHAR2(50)NULLURL網(wǎng)址VARCHAR2(100)NULLEMAIL電子郵箱VARCHAR2(50)NULLDATA_SOURCE數(shù)據(jù)來(lái)源VARCHAR2(50)NULLDES描述信息VARCHAR2(50)NULLCOLLECTION_TIME采集時(shí)間DATENULLUPDATE_TIME更新時(shí)間DATENULLSTOP_TIME停用時(shí)間DATENULLDOOR_ACCU門(mén)址掛接準(zhǔn)確度NUMBERNULLIMPORT_TIME入庫(kù)時(shí)間DATENULLPOI_TYPEPOI類(lèi)型VARCHAR2(50)NULLDOOR_TYPE門(mén)址掛接類(lèi)型NUMBERNULLPATCH批次VARCHAR2(50)NULLORIGINAL_ADDRESS原始地址VARCHAR2(100)NULLLINKED_ADDRESS掛接地址VARCHAR2(100)NULLGEOMETRY空間字段MDSYS.SDO_GEOMETRYNOT
圖3POI庫(kù)的屬性結(jié)構(gòu)
圖4 建成的母庫(kù)
在進(jìn)行POI融合過(guò)程中,首先要進(jìn)行同名地物的判別,即同名POI點(diǎn)的識(shí)別。本文采用文本名稱相似度、距離相似度、門(mén)址相似度3個(gè)指標(biāo)進(jìn)行同名POI點(diǎn)的判別,在判別過(guò)程中,分別賦予0.6、0.2、0.2的權(quán)重。對(duì)于兩個(gè)POI對(duì)象,如果總體相似度大于閾值(本文設(shè)定為0.9),則認(rèn)為是同名POI點(diǎn),否則認(rèn)定為新的POI點(diǎn),進(jìn)行POI數(shù)據(jù)的增量融合更新。具體流程圖5所示。
圖5 多屬性相似度的POI融合流程
POI作為點(diǎn)狀地物,與其他地物存在空間約束關(guān)系。在進(jìn)行門(mén)址掛接的時(shí)候,要充分考慮其與參考地物(包括街道數(shù)據(jù)、小區(qū)數(shù)據(jù)和建筑面數(shù)據(jù))的邏輯關(guān)系。如圖6所示,首先進(jìn)行POI數(shù)據(jù)、門(mén)址點(diǎn)POI與參考地物之間的空間關(guān)系計(jì)算,判斷出與參考地物邏輯關(guān)系一致的POI點(diǎn)和門(mén)址點(diǎn),再按照相對(duì)最近原則進(jìn)行掛接。
門(mén)址掛接的結(jié)果如圖7所示。如果發(fā)現(xiàn)POI數(shù)據(jù)所掛接的門(mén)址數(shù)據(jù)與原始地址有較大出入,可以進(jìn)行異常拋出,進(jìn)一步進(jìn)行數(shù)據(jù)質(zhì)量的檢查。
圖6 基于空間約束關(guān)系的門(mén)址掛接
圖7 門(mén)址掛接結(jié)果
(1) 首先制作FME數(shù)據(jù)處理模板,主要將POI處理流程中的各階段數(shù)據(jù)處理分步制作成FME模板。具體包括以下模板:數(shù)據(jù)清洗模塊、POI母庫(kù)建立模塊、POI融合模塊、POI與門(mén)址掛接模塊、POI維護(hù)更新模塊。
(2) 將制作好的模板通過(guò)FME Workbech發(fā)布到FMEServer上,形成數(shù)據(jù)處理服務(wù),如圖8所示。
(3) 模板的更新維護(hù)。通過(guò)FME Workbench從FME Server中下載工作空間進(jìn)行維護(hù),進(jìn)行需要的升級(jí),并重新發(fā)布到FME Server。
本文提出了一種多源POI數(shù)據(jù)歸并融合方法。該方法通過(guò)對(duì)POI信息的門(mén)址信息、位置信息和屬性信息進(jìn)行比對(duì),確定不同POI數(shù)據(jù)之間是否需要融合,最終形成一個(gè)結(jié)構(gòu)統(tǒng)一、信息豐富的新POI庫(kù),用于基于LBS和Location Point的業(yè)務(wù)應(yīng)用??傮w來(lái)說(shuō),該方法是一種比較實(shí)用而且簡(jiǎn)單的方法,為多源POI資源的有效利用提供了一種新的思路。
圖8 發(fā)布服務(wù)
參考文獻(xiàn):
[1] 邵蕾.網(wǎng)絡(luò)POI數(shù)據(jù)增量更新技術(shù)研究[D].蘭州:蘭州交通大學(xué),2016.
[2] 高新院.基于空間位置信息的多源POI數(shù)據(jù)融合問(wèn)題的研究[D].青島:中國(guó)海洋大學(xué),2013.
[3] 張巍,高新院,李瑞姍.空間位置信息的多源POI數(shù)據(jù)融合[J].中國(guó)海洋大學(xué)學(xué)報(bào)(自然科學(xué)版),2014,44(7):111-116.
[4] 陳瑞.基于多源POI數(shù)據(jù)的匹配融合方法研究[D].蘭州:蘭州交通大學(xué),2014.
[5] 李瑞姍.基于自然語(yǔ)言處理的多源POI數(shù)據(jù)融合的研究[D].青島:中國(guó)海洋大學(xué),2013.
[6] 王婷婷.基于位置與屬性的多源POI數(shù)據(jù)融合的研究[D].青島:中國(guó)海洋大學(xué),2014.
[7] 曾李陽(yáng),齊華,譚明建,等.基于天地圖的POI數(shù)據(jù)采集系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J].測(cè)繪與空間地理信息,2016,39(3):55-58.
[8] 周春輝,朱欣焰,蘇科華,等.基于LBS的興趣點(diǎn)查詢與更新機(jī)制研究[J].微計(jì)算機(jī)信息,2009,25(19):143-145.
[9] 林娜,王斌.空間數(shù)據(jù)庫(kù)增量式更新機(jī)制的研究[J],測(cè)繪科學(xué),2008,33(3):198-200.
[10]宋曉紅,張立朝,祿豐年,等.地理國(guó)情普查中多源異構(gòu)數(shù)據(jù)整合研究[J].測(cè)繪通報(bào),2014(9):104-107.
[11]曹勁舟,武紅宇.基于微博位置簽到數(shù)據(jù)的POI更新方法[J].地理空間信息,2013,11(2):15-18.
[12]朱慶,陳松林,黃鐸.關(guān)于空間數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn)的若干問(wèn)題[J].武漢大學(xué)學(xué)報(bào)(信息科學(xué)版),2004,29(10):863-866.
[13]LONEY K.Oracle Database 10g完全參考手冊(cè)[M].北京:清華大學(xué)出版社,2008.
[14]KOTHURI R,GODFRIND A,BEINAT E.Oracle Spatial空間信息管理[M].北京:清華大學(xué)出版社,2009.
[15]朱宏斌,陸海英,盛琦,等.城市基礎(chǔ)地理信息數(shù)據(jù)庫(kù)更新方案研究[J].測(cè)繪通報(bào),2011(1):29-31.