張 涵,趙麗宇,趙曉明
1.東華理工大學(xué),江西 南昌 330013;2.江西省煤田地質(zhì)局普查綜合大隊,江西 南昌 330001
近年來,隨著測繪地理信息產(chǎn)業(yè)的迅速發(fā)展,結(jié)合社會發(fā)展向智能化、信息化、網(wǎng)絡(luò)化的發(fā)展方向。軟件開發(fā)商、網(wǎng)絡(luò)運(yùn)營商等大都相繼的轉(zhuǎn)向地理信息相關(guān)平臺、數(shù)據(jù)系統(tǒng)進(jìn)行開發(fā)研究,由于不動產(chǎn)數(shù)據(jù)整合系統(tǒng)的建設(shè)及應(yīng)用不同于其它的測繪地理信息系統(tǒng),它包含空間地理位置的平臺架設(shè)、存量數(shù)據(jù)的整合、外業(yè)測量數(shù)據(jù)的輸入及成圖、點線面等多類數(shù)據(jù)源的屬性輸入、空間數(shù)據(jù)的運(yùn)算、各種分類面積的分項分宗分類分層的數(shù)據(jù)交換處理與計算出表等,數(shù)據(jù)源的存儲與分層調(diào)入等、數(shù)據(jù)網(wǎng)絡(luò)化管理并傳輸?shù)缴霞壐笙到y(tǒng)平臺等,實現(xiàn)有權(quán)級管理的網(wǎng)絡(luò)信息化的區(qū)域登記管理系統(tǒng),且用于日常常規(guī)政務(wù)工作中。然而,對以往普通平面地理信息數(shù)據(jù)庫系統(tǒng)建設(shè)有較大的不同,原先相對簡單的數(shù)據(jù)變得更復(fù)雜,較運(yùn)算能力、數(shù)據(jù)校核及準(zhǔn)確度、合理性的系統(tǒng)架構(gòu)支撐更復(fù)雜,使人為的邏輯性分析及修改在數(shù)據(jù)整合過程中有大量的工作,主要分析有:數(shù)據(jù)庫加載緩存量大,數(shù)據(jù)分析及可變通的運(yùn)算能力還有提高的空間,數(shù)據(jù)庫建設(shè)的平行處理能力要完善并加強(qiáng)。下面簡要談?wù)動肊TL 技術(shù)與 ODS 技術(shù)在不動產(chǎn)數(shù)據(jù)整合工作中的應(yīng)用,以不動產(chǎn)數(shù)據(jù)整合為例。
ETL(數(shù)據(jù)處理過程)指的是把項目中不同類的數(shù)據(jù)經(jīng)過提取、過濾轉(zhuǎn)換程序之后加載進(jìn)數(shù)據(jù)庫的過程,運(yùn)用該技術(shù)可以把任務(wù)中散亂、標(biāo)準(zhǔn)不統(tǒng)一的數(shù)據(jù)整合關(guān)聯(lián)在一起。
(1)功能強(qiáng)大、處理靈活
ETL 技術(shù)具有強(qiáng)大的管理功能的特點,如日志管理、權(quán)限管理等功能;ETL 技術(shù)還具有豐富的處理組件,這些組件因容易復(fù)用具有很強(qiáng)的通用性;ETL 技術(shù)還為用戶方便控制相關(guān)數(shù)據(jù)的質(zhì)量具有靈活的規(guī)則定制等特點。
(2)便于維護(hù)
數(shù)據(jù)庫系統(tǒng)的建立,ETL 是必不可少的一項技術(shù)。ETL 技術(shù)不僅局限于處理數(shù)據(jù)的工具,更是數(shù)據(jù)整合的解決方案。標(biāo)準(zhǔn)化的操作過程,生成了統(tǒng)一的元數(shù)據(jù),方便了后期客戶的維護(hù)。
移動互聯(lián)網(wǎng)的飛速發(fā)展的不斷推動,使“數(shù)據(jù)”時時刻刻在產(chǎn)生,人們正在進(jìn)入一個“大數(shù)據(jù)”的時代?!皵?shù)據(jù)”,已經(jīng)成為一種龐大的資源。在當(dāng)今社會中,如何從龐大繁雜的數(shù)據(jù)中生產(chǎn)出對我們可用的信息是我們需要不斷研究的課題。但在目前生產(chǎn)生活中,數(shù)據(jù)依然集成互通度不高,不同類型的數(shù)據(jù)通常是分布在若干個獨立的信息系統(tǒng)中。通過ETL 技術(shù)可以增加數(shù)據(jù)整合的工作,提供開發(fā)利用的效率。
以不動產(chǎn)數(shù)據(jù)整合為例,不動產(chǎn)數(shù)據(jù)包含了房產(chǎn)、土地、林權(quán)等方面龐大的數(shù)據(jù),包含有空間的矢量信息以及屬性信息,這些數(shù)據(jù)由于由不同的部門使用不同的信息系統(tǒng)管理,數(shù)據(jù)類型、數(shù)據(jù)格式都有所不同,現(xiàn)在需要整合在一起,ETL 技術(shù)就是數(shù)據(jù)庫管理的關(guān)鍵的技術(shù)。
(1)首先能夠?qū)崿F(xiàn)不同數(shù)據(jù)庫內(nèi)部的數(shù)據(jù)轉(zhuǎn)換及同一個數(shù)據(jù)庫內(nèi)部數(shù)據(jù)的轉(zhuǎn)換。
(2)其次應(yīng)該可以支持多個框架體系結(jié)構(gòu)中的數(shù)據(jù)庫之間的數(shù)據(jù)轉(zhuǎn)換。
(3)再者通過工具可將多種結(jié)構(gòu)數(shù)據(jù)源統(tǒng)一導(dǎo)入一個數(shù)據(jù)庫中。并且數(shù)據(jù)轉(zhuǎn)換根據(jù)需求配置實現(xiàn)復(fù)雜數(shù)據(jù)的計算、查詢等。
(4)還可實現(xiàn)數(shù)據(jù)庫內(nèi)數(shù)據(jù)的高效精準(zhǔn)轉(zhuǎn)換。
ODS 取自O(shè)perational Data Store 的縮寫,也就是操作型數(shù)據(jù)存儲,它是一種常被用作存儲數(shù)據(jù)的臨時區(qū)域的數(shù)據(jù)庫。ODS 作為存儲業(yè)務(wù)系統(tǒng)和數(shù)據(jù)倉庫間的過程數(shù)據(jù),它是“面向主題的、集成的、當(dāng)前或接近當(dāng)前的、不斷變化的”數(shù)據(jù)[1]。
有個理發(fā)師,理發(fā)時總講些妖魔鬼怪的故事,問他為什么。他說:“我講這些故事的時候,你的頭發(fā)就會豎起來,這樣我理起發(fā)來就容易得多了?!?/p>
(1)ODS 可以整合多種源中的不同數(shù)據(jù),在操作時,可執(zhí)行業(yè)務(wù)分析和報告。
(2)在當(dāng)前使用操作中,可將大部分?jǐn)?shù)據(jù)在被轉(zhuǎn)入數(shù)據(jù)倉庫(ETL),并在進(jìn)行長期存儲前只存儲在當(dāng)前操作型數(shù)據(jù)存儲里。
(3)ODS的設(shè)計查詢對象主要是那些相對簡單的少量數(shù)據(jù),對最終數(shù)據(jù)倉庫中的大量復(fù)雜數(shù)據(jù)進(jìn)行查詢能力不足。這點與ETL 技術(shù)是最大的不同。操作型數(shù)據(jù)存儲存儲的是最近的信息,相反,數(shù)據(jù)倉庫存儲的是相對永久的信息。
(1)ODS 系統(tǒng)中可以實現(xiàn)ETL 模塊功能。
(2)支持計算和控制轉(zhuǎn)換單元等更新對象。
(3)保障高質(zhì)量的數(shù)據(jù),并且應(yīng)用于不同系統(tǒng)中。
隨著社會信息化建設(shè)的快速發(fā)展,ODS 技術(shù)可用于數(shù)據(jù)共享平臺,還可以根據(jù)數(shù)據(jù)模型進(jìn)行數(shù)據(jù)的整合,可提供數(shù)據(jù)共享,可支撐不同系統(tǒng)中數(shù)據(jù)的應(yīng)用為其提供高質(zhì)量的數(shù)據(jù)。
普通的數(shù)據(jù)倉庫的應(yīng)用系統(tǒng)中,由于這些數(shù)據(jù)存放在不同的地理位置、不同的數(shù)據(jù)庫、不同介質(zhì)的系統(tǒng)之中,它們的數(shù)據(jù)來源都很復(fù)雜,從這些系統(tǒng)中提取這些數(shù)據(jù)需要轉(zhuǎn)換才能實現(xiàn),比如實際操作中數(shù)據(jù)源和存儲目標(biāo)不能直接連通,數(shù)據(jù)可能會用文件方式上傳上來,這就需要將原始數(shù)據(jù)先存入臨時數(shù)據(jù)庫中。使用ODS 技術(shù)用于存放從業(yè)務(wù)系統(tǒng)直接抽取出來的數(shù)據(jù),這些數(shù)據(jù)的數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)的邏輯關(guān)系上由于都與業(yè)務(wù)系統(tǒng)基本保持一致,在提取過程中大大減少了數(shù)據(jù)轉(zhuǎn)化的復(fù)雜性,在數(shù)據(jù)提取時僅僅關(guān)注過程接口、數(shù)據(jù)量大小、抽取方式等方面的問題就可以了。
在ETL 過程技術(shù)開發(fā)和運(yùn)維過程中,運(yùn)維人員需要對發(fā)現(xiàn)的公式或處理邏輯有誤的地方進(jìn)行修改,每次修改之后還要再次調(diào)用之前一系列的批次數(shù)據(jù),如果之前未保留這些時點上的原始數(shù)據(jù),而源系統(tǒng)中的部分?jǐn)?shù)據(jù)已經(jīng)發(fā)生了變化,很多數(shù)據(jù)的調(diào)用將變得非常困難。所以需將數(shù)據(jù)快照下來用于和前端結(jié)果校驗檢查。臨時區(qū)域的數(shù)據(jù)存儲保留了原始數(shù)據(jù)當(dāng)時時點的快照,這樣便于數(shù)據(jù)轉(zhuǎn)換后的校驗排錯和批次操作。
整個數(shù)據(jù)庫完成之前主要是由業(yè)務(wù)系統(tǒng)來直接支持的大量的報表生成和分析任務(wù),這個過程需要業(yè)務(wù)系統(tǒng)的運(yùn)行支持對其產(chǎn)生相當(dāng)大的壓力,使用ODS 技術(shù)的數(shù)據(jù)從多個方面保持了與業(yè)務(wù)系統(tǒng)的一致,這樣由原來的業(yè)務(wù)系統(tǒng)產(chǎn)生的報表、細(xì)節(jié)數(shù)據(jù)的查詢也可以在ODS 中進(jìn)行,從而降低業(yè)務(wù)系統(tǒng)的查詢壓力。如果從目標(biāo)源數(shù)據(jù)到最終的分析結(jié)果的生成,需要花費較長時間進(jìn)行ETL 轉(zhuǎn)換,那么從ODS 中直接提取數(shù)據(jù)可以查詢分析實時性的數(shù)據(jù),兩個技術(shù)互相結(jié)合能夠減小系統(tǒng)的運(yùn)行壓力。
不動產(chǎn)數(shù)據(jù)來源主要有不動產(chǎn)審批和交易數(shù)據(jù)、不動產(chǎn)增量登記數(shù)據(jù)、不動產(chǎn)存量數(shù)據(jù)登記、權(quán)籍調(diào)查數(shù)據(jù)等[2];不動產(chǎn)測繪對象包括有土地、房屋建筑、海域、林地、草原、礦山、農(nóng)村土地經(jīng)營權(quán)等。其中基礎(chǔ)地理信息數(shù)據(jù)包括有行政區(qū)界限、控制點(點之記、點位、點號)信息、坡度圖、等高線圖等,房屋信息包括有建筑面積、房屋位置、使用用途等,林地、草原數(shù)據(jù)包括有位置、面積、界限、等級等,權(quán)屬數(shù)據(jù)包括有各種不動產(chǎn)的權(quán)屬調(diào)查信息等[2]。
不動產(chǎn)數(shù)據(jù)整合工作是指全面清理和整理各類不動產(chǎn)登記歷史資料,遵循《不動產(chǎn)登記數(shù)據(jù)庫標(biāo)準(zhǔn)》(試行),在數(shù)據(jù)整合建庫技術(shù)規(guī)范的指導(dǎo)下,對土地、房產(chǎn)、林權(quán)等多方面的存量登記數(shù)據(jù)進(jìn)行整合,并且建立他們間的圖圖和圖屬關(guān)聯(lián)關(guān)系,最終建成支撐全國范圍的可運(yùn)行的不動產(chǎn)登記信息管理基礎(chǔ)平臺的成果數(shù)據(jù)庫。
由于土地、房產(chǎn)、農(nóng)業(yè)、林業(yè)等數(shù)據(jù)來源不同、數(shù)據(jù)存儲標(biāo)準(zhǔn)不同、數(shù)據(jù)質(zhì)量不同,在不動產(chǎn)數(shù)據(jù)整合工作中存在許多困難。具體困難有:
(1)許多地區(qū)城鎮(zhèn)地籍調(diào)查數(shù)據(jù)庫存在沒有及時更新的問題,而且登記數(shù)據(jù)庫和檔案數(shù)據(jù)庫沒有相關(guān)聯(lián),造成了數(shù)據(jù)現(xiàn)勢性較差的狀況;
(2)很多地方出現(xiàn)房地?zé)o法關(guān)聯(lián),落宗難度大的狀況,例如有地?zé)o房、有房無地、無房無地等情況增大了實地勘查工作量;由于歷史記載的房屋登記比較分散,且位置記錄模糊不清,導(dǎo)致了登記信息和空間信息無法關(guān)聯(lián)。
在ArcGis 軟件的擴(kuò)展模塊中,有FME 引擎,F(xiàn)ME 就是一種ETL 技術(shù),在FME 模塊中對數(shù)據(jù)進(jìn)行轉(zhuǎn)換,并且對數(shù)據(jù)做好質(zhì)量檢查工作,得到不動產(chǎn)登記規(guī)定的標(biāo)準(zhǔn)格式[3]。
為了實現(xiàn)不動產(chǎn)統(tǒng)一登記信息管理平臺的建設(shè)基礎(chǔ)就需要建立一個完整性、科學(xué)性、統(tǒng)一標(biāo)準(zhǔn)的數(shù)據(jù)庫系統(tǒng)。有了統(tǒng)一標(biāo)準(zhǔn)的數(shù)據(jù)庫系統(tǒng),這樣才能真正實現(xiàn)數(shù)據(jù)共享,在全省乃至全國方便的查詢檢索任何地方的任何不動產(chǎn)的數(shù)據(jù)。
結(jié)合進(jìn)賢縣不動產(chǎn)數(shù)據(jù)整合工作,其中數(shù)據(jù)庫的建設(shè)工作包括有:海量基礎(chǔ)數(shù)據(jù)存儲的建設(shè)、存儲不同結(jié)構(gòu)的數(shù)據(jù)的建設(shè),數(shù)據(jù)整合應(yīng)用、公共服務(wù)工作等[3]。
我和隊內(nèi)同事結(jié)合不動產(chǎn)確權(quán)登記辦證的需求開發(fā)出這個不動產(chǎn)確權(quán)登記辦證管理系統(tǒng),現(xiàn)已申請獲得計算機(jī)軟件著作權(quán)登記證書,登記號為2020SR0246512。該管理系統(tǒng)嚴(yán)格按照國家相關(guān)行業(yè)標(biāo)準(zhǔn)為不動產(chǎn)數(shù)據(jù)進(jìn)行整合和管理提供一個解決方案。
具體地說,在不動產(chǎn)數(shù)據(jù)整合工作中希望通過ODS 技術(shù)來完成以下三個目標(biāo):
(1) 建立目標(biāo)區(qū)域的不動產(chǎn)統(tǒng)一視圖信息,方便后期不動產(chǎn)登記和精確管理;
(2)為實現(xiàn)數(shù)據(jù)共享平臺的作用建立統(tǒng)一的標(biāo)準(zhǔn),支持跨系統(tǒng)應(yīng)用,建立整合數(shù)據(jù)的模型,最后生成不動產(chǎn)標(biāo)準(zhǔn)數(shù)據(jù);
(3)解決各數(shù)據(jù)系統(tǒng)之間數(shù)據(jù)標(biāo)準(zhǔn)不一致、數(shù)據(jù)質(zhì)量差的問題。
在數(shù)據(jù)整合階段,使用ETL 技術(shù)作為ODS 數(shù)據(jù)庫中的核心技術(shù),能夠從系統(tǒng)中提取數(shù)據(jù)進(jìn)行轉(zhuǎn)換、映射、處理、加工、加載等程序最后生成ODS 的數(shù)據(jù),并將這些運(yùn)用到不動產(chǎn)數(shù)據(jù)整合工作中去。
本文簡述了ETL 和ODS 技術(shù)知識,探討了不動產(chǎn)確權(quán)登記工作中的數(shù)據(jù)來源、數(shù)據(jù)整合、數(shù)據(jù)庫建設(shè),以及ETL 技術(shù)的使用,進(jìn)一步說明了基礎(chǔ)不動產(chǎn)數(shù)據(jù)整合的完整性、規(guī)范性、統(tǒng)一性。當(dāng)然,還需要不動產(chǎn)數(shù)據(jù)整合工作制度以及不動產(chǎn)數(shù)據(jù)建庫標(biāo)準(zhǔn)不斷的完善,這樣,不動產(chǎn)數(shù)據(jù)整合建庫工作才能更好的完成。