馬春林
(新疆維吾爾自治區(qū)測繪成果中心,新疆 烏魯木齊 830002)
地名地址是最常用的社會公共信息之一,在測繪、規(guī)劃、交通、郵政、電力、民生等各個領(lǐng)域扮演著不可或缺的重要角色,是現(xiàn)代社會進行各種聯(lián)系、交流必不可少的基本工具和紐帶。通過融合多源地名地址數(shù)據(jù),構(gòu)建權(quán)威、標準化地名地址時空數(shù)據(jù),作為行業(yè)專題數(shù)據(jù)上圖的“粘合劑”,實現(xiàn)行業(yè)、社會經(jīng)濟信息與地理空間關(guān)聯(lián)的媒介和橋梁。
建設(shè)標準化、質(zhì)量好的地名地址數(shù)據(jù),是充分發(fā)揮基礎(chǔ)地理空間數(shù)據(jù)應(yīng)用服務(wù)能力的前提與保障。為構(gòu)建新疆基礎(chǔ)地理信息時空云平臺應(yīng)用體系,提升政府治理能力和公共服務(wù)水平,促進大數(shù)據(jù)的深化應(yīng)用和快速發(fā)展,地名地址數(shù)據(jù)融合更新是一項重要的基礎(chǔ)性工作。
以“精度高、現(xiàn)勢性好、表達豐富”為前提和目標,通過高效采集、有效融合新疆各級基礎(chǔ)地理信息數(shù)據(jù),匯聚各類與地名地址相關(guān)的信息,推進多源異構(gòu)地名地址數(shù)據(jù)的融合、集成、服務(wù),實現(xiàn)地名地址數(shù)據(jù)資源的統(tǒng)一管理,做到“統(tǒng)籌規(guī)劃、整體設(shè)計、逐步實施”,規(guī)范有序地開展新疆維吾爾自治區(qū)地名地址時空數(shù)據(jù)融合更新工作。
充分利用已掌握基礎(chǔ)資料情況,將地名數(shù)據(jù)和地址數(shù)據(jù)進行數(shù)據(jù)融合、數(shù)據(jù)預(yù)處理、數(shù)據(jù)判重及去重、地名地址標準化、實體匹配等一系列處理,實現(xiàn)地名地址數(shù)據(jù)的融合更新。通過標準化地名地址時空數(shù)據(jù)融合,解決因行政村邊界、宗地所有權(quán)數(shù)據(jù)、天地圖等各種數(shù)據(jù)來源不一、精度不同、標準各異、同物不同數(shù)、時空參考不一、邊界矛盾沖突、現(xiàn)勢性不統(tǒng)一等問題,避免因數(shù)據(jù)源質(zhì)量不好的問題影響基礎(chǔ)地理信息時空云平臺的數(shù)據(jù)應(yīng)用與服務(wù)。
地名地址數(shù)據(jù)來源多樣,因而存在標準不統(tǒng)一、現(xiàn)勢差異性大、數(shù)據(jù)組織不相同等問題,不能直接滿足客戶地理編碼服務(wù)業(yè)務(wù)的需求。為此要建立標準化、規(guī)范化及通用化的地名地址數(shù)據(jù)處理流程,實現(xiàn)標準化地名地址時空數(shù)據(jù)生產(chǎn),保證數(shù)據(jù)成果質(zhì)量,為地理編碼服務(wù)等業(yè)務(wù)需求提供數(shù)據(jù)保障。地名地址數(shù)據(jù)處理總體要求如下:
(1)數(shù)據(jù)現(xiàn)勢性要求:不同來源的融合數(shù)據(jù)現(xiàn)勢性不一致時,以現(xiàn)勢性高的數(shù)據(jù)為準。
(2)空間參考要求:融合后數(shù)據(jù)統(tǒng)一采用2000國家大地坐標系,坐標系單位為度,保留9位小數(shù)(0.000000001度)。高程基準:采用1985國家高程基準,高程系統(tǒng)為正常高;高程坐標單位為“米”。
(3)平面位置精度要求:不同來源的融合數(shù)據(jù)平面位置精度不一致時,以精度高的數(shù)據(jù)為準。
(4)屬性取值要求:不同數(shù)據(jù)源中同一地物要素的相同屬性項取值不一致時,依據(jù)現(xiàn)勢性、準確性等進行一致性處理。
(5)空間關(guān)系與邏輯一致性要求:融合后的成果數(shù)據(jù)要素空間關(guān)系正確,各類信息邏輯一致。
(6)數(shù)據(jù)內(nèi)容要求:融合處理后的數(shù)據(jù),數(shù)據(jù)格式、空間參考、屬性結(jié)構(gòu)及屬性取值應(yīng)滿足標準規(guī)范要求。
開展全疆區(qū)域內(nèi)地名地址相關(guān)的數(shù)據(jù)分析工作,在了解數(shù)據(jù)來源、權(quán)威性、數(shù)據(jù)格式、空間參考、標準規(guī)范的基礎(chǔ)上,分析數(shù)據(jù)量與數(shù)據(jù)質(zhì)量等;并整理數(shù)據(jù)結(jié)構(gòu),根據(jù)數(shù)據(jù)分析結(jié)果制定融合優(yōu)先級。具體數(shù)據(jù)源為全疆區(qū)域內(nèi)的天地圖地名地址與POI數(shù)據(jù)、基礎(chǔ)性地理國情監(jiān)測行政村數(shù)據(jù)。
(1)天地圖地名數(shù)據(jù):天地圖數(shù)據(jù)中主要采用地名地址與POI中的地名數(shù)據(jù),數(shù)據(jù)現(xiàn)勢性為2018年春季。有著現(xiàn)勢性好、豐富度高、更新頻率快等優(yōu)點,將作為本次地名數(shù)據(jù)融合的主要數(shù)據(jù)來源。
(2)基礎(chǔ)性地理國情監(jiān)測地名地址數(shù)據(jù):基礎(chǔ)性地理國情監(jiān)測數(shù)據(jù)中主要采用行政村數(shù)據(jù),數(shù)據(jù)現(xiàn)勢性為2017年。國情監(jiān)測數(shù)據(jù)有著位置精度高、更新頻率高等優(yōu)點,可作為地名數(shù)據(jù)補充數(shù)據(jù)源。
圖1 數(shù)據(jù)融合技術(shù)流程圖
地名數(shù)據(jù)生產(chǎn)流程主要包括數(shù)據(jù)預(yù)處理、數(shù)據(jù)融合及數(shù)據(jù)質(zhì)檢三部分。其中數(shù)據(jù)預(yù)處理包括數(shù)據(jù)轉(zhuǎn)換和模型轉(zhuǎn)換。數(shù)據(jù)融合包括圖形屬性融合、屬性標準
(3)已有的地址數(shù)據(jù)及相關(guān)資料主要為天地圖中的地址數(shù)據(jù),數(shù)據(jù)現(xiàn)勢性為2018年春季。有著現(xiàn)勢性好、豐富度高、更新頻度快等優(yōu)點,將作為本次地址數(shù)據(jù)融合的主要數(shù)據(jù)來源。
依據(jù)新疆基礎(chǔ)地理信息時空云平臺的建設(shè)要求,在現(xiàn)有地名地址數(shù)據(jù)的基礎(chǔ)上,遵循地名地址相關(guān)數(shù)據(jù)標準,形成地名地址數(shù)據(jù)融合技術(shù)流程,主要包括數(shù)據(jù)預(yù)處理、數(shù)據(jù)融合、判重處理、去重處理、實體匹配、標準化及質(zhì)檢等環(huán)節(jié),融合流程(如圖1所示):
以基礎(chǔ)性地理國情監(jiān)測行政村數(shù)據(jù)以及天地圖地名數(shù)據(jù)為基礎(chǔ),經(jīng)過數(shù)據(jù)預(yù)處理、數(shù)據(jù)融合和數(shù)據(jù)質(zhì)檢,形成標準化地名時空數(shù)據(jù)。技術(shù)路線(如圖2所示):化、數(shù)據(jù)判重去重、外業(yè)核查、內(nèi)業(yè)整理、數(shù)據(jù)編碼。該階段將數(shù)據(jù)源融合為一套標準的地名數(shù)據(jù)。
圖2 地名數(shù)據(jù)技術(shù)路線
4.1.1 數(shù)據(jù)預(yù)處理
數(shù)據(jù)預(yù)處理是將原始數(shù)據(jù)經(jīng)過數(shù)據(jù)轉(zhuǎn)換和模型轉(zhuǎn)換,形成標準地名屬性結(jié)構(gòu)數(shù)據(jù),為數(shù)據(jù)融合做好準備。
(1)數(shù)據(jù)轉(zhuǎn)換
數(shù)據(jù)轉(zhuǎn)換包括格式轉(zhuǎn)換和坐標轉(zhuǎn)換。將數(shù)據(jù)格式轉(zhuǎn)換為DB格式,坐標轉(zhuǎn)換為CGCS2000國家大地坐標系。
(2)模型轉(zhuǎn)換
根據(jù)新疆基礎(chǔ)地理信息時空云平臺地名數(shù)據(jù)標準中的屬性項定義與說明,建立統(tǒng)一的地名數(shù)據(jù)屬性存儲結(jié)構(gòu)。分析原始數(shù)據(jù)分類體系與新疆基礎(chǔ)地理信息時空云平臺地名數(shù)據(jù)分類體系的關(guān)系,進行模型轉(zhuǎn)換,形成按照地名屬性結(jié)構(gòu)標準的地名數(shù)據(jù)。
4.1.2 數(shù)據(jù)融合
數(shù)據(jù)融合包括圖形屬性融合、屬性標準化、數(shù)據(jù)判重去重、外業(yè)核查、內(nèi)業(yè)整理、數(shù)據(jù)編碼三個部分,為數(shù)據(jù)生產(chǎn)的主要工作,形成融合后的地名數(shù)據(jù)。
(1)融合原則
數(shù)據(jù)融合處理的總體原則為現(xiàn)勢性原則、精度原則、精細度原則、拓撲一致性原則、屬性處理原則、豐富性原則。多個原則共同出現(xiàn)時,現(xiàn)勢性優(yōu)先級最高,精度和精細度次之,其他原則輔助。
其中,行政村地名點位置以國情行政村數(shù)據(jù)為準。
(2)圖形屬性融合
將不同來源的數(shù)據(jù)進行圖形數(shù)據(jù)融合,將同名數(shù)據(jù)進行比對,保留唯一精確的數(shù)據(jù)。如果數(shù)據(jù)屬性出現(xiàn)矛盾,參照屬性填寫要求,保留更規(guī)范的屬性。
同一要素對象的屬性融合,宜以現(xiàn)勢性高、準確性高的數(shù)據(jù)為準進行屬性賦值或補全。具體要素位置需參考地名數(shù)據(jù)的選取指標與采集要求。
(3)屬性標準化
根據(jù)地名屬性定義與說明中的填寫要求,對融合后的屬性內(nèi)容進行標準化處理。其中,地名:名稱參考地名填寫規(guī)范要求進行標準化;PAC碼:根據(jù)融合結(jié)果提取行政地名數(shù)據(jù),參考民政名錄中行政區(qū)劃的權(quán)屬關(guān)系,需建立地名數(shù)據(jù)中行政村與自然村的權(quán)屬關(guān)系,進行PAC碼賦值。
(4)數(shù)據(jù)判重、去重
將融合后的地名點分別進行數(shù)據(jù)判重、去重,使數(shù)據(jù)唯一,保留位置精確數(shù)據(jù)、屬性規(guī)范的數(shù)據(jù)。地名點根據(jù)要素間的距離、名稱、簡稱、類別名稱、地址、電話等屬性信息識別重復(fù)對象,并進行去重。判重原則:一定距離范圍內(nèi)類型相同,名稱、地址的相似度大于設(shè)定閾值;一定距離范圍內(nèi)類型相同,名稱、簡稱、電話相似度大于設(shè)定閾值。
(5)數(shù)據(jù)編碼
數(shù)據(jù)編碼字段包括要素唯一標識、地名編碼。兩者均唯一標識要素且通過連接關(guān)系實現(xiàn)一一對應(yīng)。要素唯一標識在入庫時批量賦值。地名編碼由3部分共20位數(shù)字組成。前9位為數(shù)據(jù)位置所在的鄉(xiāng)鎮(zhèn)/街道辦代碼,中間6位為地名類別代碼,后8位為順序碼,取值范圍為00000000-99999999,根據(jù)類別代碼排序自動進行生成。
4.1.3 數(shù)據(jù)質(zhì)檢
數(shù)據(jù)質(zhì)檢主要對融合后數(shù)據(jù)進行質(zhì)量檢查,主要包括基本要求、完整性檢查、圖形檢查、屬性檢查和邏輯一致性檢查。具體主要有數(shù)學(xué)基礎(chǔ)、數(shù)據(jù)格式及數(shù)據(jù)文件完整性及有效性的檢查;數(shù)據(jù)位置精度及拓撲關(guān)系的檢查;屬性正確性、屬性分類、屬性精度檢查;圖形屬性一致性及圖層屬性一致性檢查等。
4.1.4 數(shù)據(jù)反饋
形成標準化地名數(shù)據(jù)后,將融合后的全疆標準地名數(shù)據(jù)反饋數(shù)據(jù)提供單位。
通過標準地名數(shù)據(jù)中的數(shù)據(jù)來源、數(shù)據(jù)來源標識碼與數(shù)據(jù)源中的實體編碼字段的對應(yīng)關(guān)系,實現(xiàn)原始數(shù)據(jù)與地名成果數(shù)據(jù)的一一對應(yīng)關(guān)系,數(shù)據(jù)提供單位可更新原始數(shù)據(jù),并根據(jù)自身業(yè)務(wù)情況進行數(shù)據(jù)的豐富完善。
4.1.5 數(shù)據(jù)更新與維護
地名數(shù)據(jù)的更新主要包括匯交更新和反饋更新兩種方式。匯交更新通過數(shù)據(jù)提供單位提供新版全量數(shù)據(jù),項目組對比兩版數(shù)據(jù)的差異,將變化內(nèi)容進行數(shù)據(jù)更新、數(shù)據(jù)質(zhì)檢,形成更新后的地名數(shù)據(jù)。反饋更新通過數(shù)據(jù)提供變化的增量數(shù)據(jù),直接通過數(shù)據(jù)來源和數(shù)據(jù)來源標識碼進行數(shù)據(jù)更新和質(zhì)檢,形成更新后的地名數(shù)據(jù)。
地址數(shù)據(jù)融合技術(shù)流程主要包括數(shù)據(jù)預(yù)處理、判重處理、去重處理、實體匹配、標準化及質(zhì)檢等環(huán)節(jié),融合流程(如圖3所示):
圖3 地址數(shù)據(jù)技術(shù)路線
4.2.1 數(shù)據(jù)預(yù)處理
將多源數(shù)據(jù)融合為統(tǒng)一的數(shù)據(jù)結(jié)構(gòu)。在融合過程中根據(jù)源數(shù)據(jù)屬性結(jié)構(gòu)與標準地址數(shù)據(jù)屬性結(jié)構(gòu)之間的映射關(guān)系,將源數(shù)據(jù)的屬性值轉(zhuǎn)換到標準地址數(shù)據(jù)的字段中,同時保留可用的輔助字段,刪除無用字段。
4.2.2 判重處理
由于地址數(shù)據(jù)來源較雜,地址描述標準不一,數(shù)據(jù)精度不一,在同一數(shù)據(jù)源內(nèi)部或者不同數(shù)據(jù)源之間都存在地址點重復(fù)的情況,為提高地址匹配精度,需對地址點進行重復(fù)點檢測和去重。即在一定范圍內(nèi)比對地址數(shù)據(jù)的地址字段及其他輔助字段,計算相似度,相似度越高,重復(fù)幾率越大。然后對判重結(jié)果進行審核,分析輸出相似度閾值,標識出實際的重復(fù)點。
4.2.3 去重處理
根據(jù)判重結(jié)果,結(jié)合數(shù)據(jù)源的精度、現(xiàn)勢性、邏輯一致性,疊加天地圖河流、道路、居民地等數(shù)據(jù)作為輔助信息,對重復(fù)點做去重處理。
4.2.4 數(shù)據(jù)標準化處理
數(shù)據(jù)標準化主要是指對地址數(shù)據(jù)的屬性字段做標準化處理。將地址字段內(nèi)容轉(zhuǎn)換為結(jié)構(gòu)化地址描述。同步將地址內(nèi)容拆分到省、市、區(qū)縣、鄉(xiāng)鎮(zhèn)/街道辦、行政村委會/社區(qū)居委會、片區(qū)、街巷、一級門樓址、自然村/居民小區(qū)、門樓址/標志物、二級門樓址、單元、樓層、室等字段中。最后為地址編碼字段賦值。
4.2.5 數(shù)據(jù)質(zhì)檢、反饋、維護與更新
地址數(shù)據(jù)的質(zhì)檢、反饋、維護與更新與地名數(shù)據(jù)基本一致。其中,質(zhì)檢除一般檢查項外還增加了拓撲一致性檢查;而反饋同樣是通過編碼字段的對應(yīng)關(guān)系,實現(xiàn)原始數(shù)據(jù)與地址成果數(shù)據(jù)的一一對應(yīng)關(guān)系;地址數(shù)據(jù)的更新同樣包括匯交更新和反饋更新兩種方式,具體與地名數(shù)據(jù)一致,這里不再贅述。
以國家相關(guān)技術(shù)規(guī)范為依據(jù),結(jié)合新疆基礎(chǔ)地理信息時空云平臺建設(shè)要求與新疆數(shù)據(jù)建設(shè)的現(xiàn)狀,按照“統(tǒng)籌規(guī)劃、頂層設(shè)計、逐步完善”的工作要求和“統(tǒng)一標準、規(guī)范流程”的技術(shù)要求,制定一套地名地址數(shù)據(jù)融合與更新技術(shù)方法,用來指導(dǎo)新疆基礎(chǔ)地理信息時空云平臺數(shù)據(jù)資源體系中地名地址數(shù)據(jù)的建設(shè),進而有效地促進了時空大數(shù)據(jù)的深化應(yīng)用和快速發(fā)展。