王 蕾, 陳渠波
(四川省地質(zhì)工程勘察院集團有限公司,四川 成都 610032)
本文研究的對象與商業(yè)大數(shù)據(jù)、網(wǎng)頁大數(shù)據(jù)、社交大數(shù)據(jù)等不同,城市時空地質(zhì)大數(shù)據(jù)含有大量不同時間尺度和不同空間尺度的多源異構(gòu)數(shù)據(jù),數(shù)據(jù)的存儲、處理和空間分析需要GIS技術(shù)的支撐,因此需要GIS技術(shù)和大數(shù)據(jù)技術(shù)的結(jié)合。
現(xiàn)階段,我國大數(shù)據(jù)技術(shù)在地質(zhì)管理方面的應(yīng)用成果頗豐。我國地質(zhì)調(diào)查局開發(fā)并應(yīng)用了地質(zhì)調(diào)查信息網(wǎng)絡(luò)平臺,其中包含了前沿技術(shù)的應(yīng)用,如網(wǎng)格GIS、信息技術(shù)、分布式計算等,平臺利用互聯(lián)網(wǎng)技術(shù)手段完成了分布式數(shù)據(jù)的獲取、存儲以及處理;除此之外,地質(zhì)云1.0、地質(zhì)云2.0平臺充分應(yīng)用大數(shù)據(jù)技術(shù)、MapGIS云技術(shù),實現(xiàn)了對傳統(tǒng)地質(zhì)工作中基礎(chǔ)設(shè)施、數(shù)據(jù)、業(yè)務(wù)應(yīng)用和服務(wù)的高效管理和統(tǒng)一調(diào)度;國土資源部相關(guān)部門建設(shè)了地學(xué)大數(shù)據(jù)技術(shù)研究實驗平臺GeoBDA,該平臺分別基于Oracle與Hadoop兩種架構(gòu),為解決地質(zhì)大數(shù)據(jù)存儲和組織等問題提供了很好的參考方法,也是地質(zhì)大數(shù)據(jù)在應(yīng)用層上的示范性實例。以上研究應(yīng)用緊緊圍繞解決地質(zhì)數(shù)據(jù)資源量大、協(xié)同共享缺乏、軟件類型龐雜、服務(wù)節(jié)點分散、規(guī)模成效不足等問題。大部分系統(tǒng)或平臺主要以數(shù)據(jù)庫技術(shù)、GIS技術(shù)、計算機網(wǎng)絡(luò)技術(shù)為依托,依靠商業(yè)軟件來實現(xiàn)地質(zhì)大數(shù)據(jù)的管理和應(yīng)用,用戶需投入高額費用且擴展能力較弱。
開源軟件具有靈活性、可擴展性等優(yōu)點,其跨平臺能力強且成本低廉,其實用性遠遠超越了許多商業(yè)軟件。地質(zhì)數(shù)據(jù)的高效管理和處理分析是“盤活”數(shù)據(jù)的基礎(chǔ),開源關(guān)系型數(shù)據(jù)庫PostgreSQL的優(yōu)勢在于性能好、應(yīng)用模式豐富, PostGIS是它的擴展,包含空間地理數(shù)據(jù)的儲存與管理功能。該數(shù)據(jù)庫支持OpenGIS規(guī)范,具備管理和分析空間數(shù)據(jù)的能力,在地理信息工程專業(yè)中具有廣泛的用戶群體。本文在開源GIS平臺OpenGIS、大數(shù)據(jù)平臺Hadoop和服務(wù)器集群環(huán)境下,提出基于開源數(shù)據(jù)庫PostgreSQL的空間擴展PostGIS建立城市時空地質(zhì)大數(shù)據(jù)基礎(chǔ)管理平臺,通過研究不同空間尺度和時間尺度的城市地質(zhì)數(shù)據(jù)模型,較大程度地解決了異構(gòu)空間數(shù)據(jù)的集成與管理問題,為城市地質(zhì)數(shù)據(jù)的應(yīng)用開發(fā)提供高效、廉價、可靠的解決方案。
本文研究的城市地質(zhì)時空大數(shù)據(jù)涉及的類型包括:水文地質(zhì)、工程勘察、地質(zhì)災(zāi)害和礦產(chǎn)勘察,由于不能在建立原型系統(tǒng)時囊括所有數(shù)據(jù)類型,故系統(tǒng)設(shè)置了可拓展模塊,即當有不同類型的數(shù)據(jù)加入時,用戶可添加該類型的元數(shù)據(jù)字段來實現(xiàn)專題數(shù)據(jù)類型的增加。雖然目前數(shù)據(jù)類型只有四類,但基本涵蓋了所有城市時空地質(zhì)數(shù)據(jù)格式,為后期擴展數(shù)據(jù)類型奠定了系統(tǒng)基礎(chǔ)。數(shù)據(jù)格式不僅包含如PDF文檔、Excel數(shù)據(jù)表、圖片數(shù)據(jù)、Word報告等文件數(shù)據(jù),同時也涵蓋了MapGIS數(shù)據(jù)、DEM數(shù)據(jù)、影像數(shù)據(jù)、CAD數(shù)據(jù)以及ArcGIS數(shù)據(jù)等空間數(shù)據(jù)。
傳統(tǒng)的通過編寫SQL實現(xiàn)經(jīng)緯度間的計算相對復(fù)雜,代碼可讀性差,可移植性差。計算執(zhí)行效率低,用常規(guī)的方法計算經(jīng)緯度間距需要用ROUND,ASIN,SIN,COS等多重函數(shù)嵌套,相對而言計算規(guī)模大,效率低,在實時場景下遠遠達不到要求,對日常作業(yè)更新帶來很大困難。數(shù)據(jù)精度較低,傳統(tǒng)方法計算經(jīng)緯度不支持空間投影,在一些地方需要進行DECIMAL截取操作,還有對π的支持,在使用PostGIS之前計算距離是截取的14位π值,傳統(tǒng)計算方式數(shù)據(jù)精度相對較低。在對象關(guān)系型數(shù)據(jù)庫系統(tǒng)PostgreSQL的基礎(chǔ)功能上,賦予系統(tǒng)更多的數(shù)據(jù)管理與分析功能。
本文研究內(nèi)容的數(shù)據(jù)來源主要是城市地質(zhì)項目,如工程勘察、地質(zhì)災(zāi)害調(diào)查,地下水監(jiān)測等,故原型平臺設(shè)計導(dǎo)入數(shù)據(jù)是按照項目和項目類型導(dǎo)入的方式來實現(xiàn)數(shù)據(jù)匯聚的,數(shù)據(jù)導(dǎo)入之后由自主研發(fā)的數(shù)據(jù)導(dǎo)入工具對數(shù)據(jù)格式進行分類和格式轉(zhuǎn)換,最終存入PostgreSQL和PostGIS中,選用此平臺可在一定程度上減少代碼冗余和提高數(shù)據(jù)庫訪問效率。數(shù)據(jù)匯聚工作流如圖1所示。
圖1 異構(gòu)空間數(shù)據(jù)匯聚路線
所謂的時空標識包含數(shù)據(jù)處理標識的三個部分,分別是屬性標識、空間標識以及時間標識。顧名思義,也就是數(shù)據(jù)具有的時間屬性與空間屬性,包括數(shù)據(jù)具有的項目歸屬以及類型劃分等。時空標識的目的在于簡化時空大數(shù)據(jù)的處理過程。
城市地質(zhì)數(shù)據(jù)從數(shù)據(jù)結(jié)構(gòu)上可分為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。結(jié)構(gòu)化數(shù)據(jù)包含矢量數(shù)據(jù)(如各類GIS數(shù)據(jù)、數(shù)據(jù)庫、元數(shù)據(jù)等)、柵格數(shù)據(jù)(JPG、TIFF、BMP等);非結(jié)構(gòu)化數(shù)據(jù)包含圖件、報告、圖片等。這些數(shù)據(jù)來源多樣,數(shù)據(jù)類型與儲存方式千差萬別,所以城市地質(zhì)數(shù)據(jù)的多源異構(gòu)性明顯。構(gòu)建云環(huán)境下的城市時空地質(zhì)大數(shù)據(jù)模型,需要實現(xiàn)多源異構(gòu)數(shù)據(jù)的統(tǒng)一處理,并保持其完整性、正確性、可讀性,以充分發(fā)揮數(shù)據(jù)的價值。
本文從數(shù)據(jù)結(jié)構(gòu)上將城市地質(zhì)數(shù)據(jù)分為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。如元數(shù)據(jù)、GIS數(shù)據(jù)等均屬于矢量數(shù)據(jù),是結(jié)構(gòu)化數(shù)據(jù)的一種類型;DEM數(shù)據(jù)、影像數(shù)據(jù)則屬于柵格數(shù)據(jù),同樣也屬于結(jié)構(gòu)化數(shù)據(jù)。而報告、音視頻文件等則屬于非結(jié)構(gòu)化數(shù)據(jù)。因數(shù)據(jù)來源多樣,數(shù)據(jù)類型與儲存方式千差萬別,所以城市地質(zhì)數(shù)據(jù)的多源異構(gòu)性明顯。只有對這些數(shù)據(jù)進行標準化統(tǒng)一處理,提升數(shù)據(jù)處理的準確性和完整性,才能最大限度地發(fā)揮數(shù)據(jù)價值。
數(shù)據(jù)的多源異構(gòu)特性導(dǎo)致其應(yīng)用處理方法千差萬別,找出適用于本研究的處理流程是數(shù)據(jù)入庫的關(guān)鍵。處理流程基本可劃分為:第一步,劃分數(shù)據(jù)源;第二步,劃分數(shù)據(jù)結(jié)構(gòu);第三步,收集數(shù)據(jù);第四步,處理數(shù)據(jù);最后,數(shù)據(jù)入庫。
數(shù)據(jù)源無法被直接應(yīng)用,需要先進行數(shù)據(jù)源的清洗,剔除數(shù)據(jù)雜質(zhì),本文借助統(tǒng)一明確的數(shù)據(jù)處理標準,數(shù)據(jù)清洗過程均需要遵循該標準。首先利用ETL工具實現(xiàn)了數(shù)據(jù)的抽取、轉(zhuǎn)換和加載。數(shù)據(jù)抽取的數(shù)據(jù)源來自于各個業(yè)務(wù)系統(tǒng),抽取模式可采用全量抽取或增量抽取。數(shù)據(jù)轉(zhuǎn)換過程就是對抽取數(shù)據(jù)后的數(shù)據(jù)進行數(shù)據(jù)清洗,利用統(tǒng)一的處理標準進行數(shù)據(jù)格式的轉(zhuǎn)換,最終應(yīng)用在新的目標數(shù)據(jù)庫中。對于未采用信息化手段,以紙質(zhì)形式或電子文檔存儲的數(shù)據(jù),需要采用手工錄入或工具導(dǎo)入的方式清洗并加載到目標數(shù)據(jù)庫。在處理大量的日志和輿情數(shù)據(jù)時,預(yù)處理階段利用Hadoop平臺進行對數(shù)據(jù)進行簡單的清洗分類,將數(shù)據(jù)分析價值較高的數(shù)據(jù)留存在HDFS中。具體流程如圖2所示。
本文總結(jié)了三種城市地質(zhì)源數(shù)據(jù)類型,第一種是核心業(yè)務(wù)數(shù)據(jù),第二種是全量結(jié)構(gòu)化數(shù)據(jù),第三種是半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),并根據(jù)各類數(shù)據(jù)的特征和用途采用不同的數(shù)據(jù)存儲技術(shù)。數(shù)據(jù)在經(jīng)過采集、預(yù)處理、分類存儲后,提供給上層業(yè)務(wù)應(yīng)用,展現(xiàn)數(shù)據(jù)最大價值。業(yè)務(wù)應(yīng)用有三類,首先是數(shù)據(jù)共享,從數(shù)據(jù)可視化和核心業(yè)務(wù)共享實現(xiàn)其數(shù)據(jù)價值。其實是數(shù)據(jù)分析,它可以將城市地質(zhì)時空大數(shù)據(jù)進行多維度的可視化展示。最后是數(shù)據(jù)挖掘,主要依靠Hadoop平臺具有的大數(shù)據(jù)處理分析功能,挖掘出數(shù)據(jù)具有的潛在屬性特征。數(shù)據(jù)模型應(yīng)用結(jié)構(gòu)如圖3所示。
圖2 數(shù)據(jù)入庫流程
圖3 數(shù)據(jù)模型結(jié)構(gòu)
城市地質(zhì)時空大數(shù)據(jù)基礎(chǔ)管理平臺分為虛擬設(shè)備層、云計算層、應(yīng)用層。平臺總體架構(gòu)如圖4所示。
圖4 系統(tǒng)架構(gòu)圖
虛擬設(shè)備層:利用計算機虛擬化技術(shù)將系統(tǒng)中涉及到的軟件資源與硬件設(shè)備集成,產(chǎn)生一個具有邏輯功能特征的資源池,保證平臺的穩(wěn)定運行。硬軟件主要有:安全設(shè)備、數(shù)據(jù)庫軟件、PC機、服務(wù)器群、傳感通信設(shè)備等。
云計算層:基于虛擬設(shè)備層創(chuàng)建功能與數(shù)據(jù)服務(wù),分別是云數(shù)據(jù)中心層和云服務(wù)層。數(shù)據(jù)中心層主要實現(xiàn)數(shù)據(jù)訪問接口的功能,而服務(wù)層涉及到的數(shù)據(jù)服務(wù)較多,如數(shù)據(jù)交換、數(shù)據(jù)管理、數(shù)據(jù)處理、空間分析等。
應(yīng)用層:通過調(diào)用云計算層的服務(wù)接口,設(shè)計開發(fā)出城市時空地質(zhì)大數(shù)據(jù)基礎(chǔ)管理平臺,這一平臺可以有效地保證用戶數(shù)據(jù)挖掘、分析以及共享的應(yīng)用需求,為其提供應(yīng)用支撐和業(yè)務(wù)集成服務(wù)。
云環(huán)境下城市時空地質(zhì)大數(shù)據(jù)管理平臺主要包含以下五大功能模塊:項目信息管理模塊、系統(tǒng)管理功能部分、統(tǒng)計分析功能部分、數(shù)據(jù)可視化功能部分、數(shù)據(jù)集成功能部分。系統(tǒng)功能結(jié)構(gòu)如圖5所示。
圖5 系統(tǒng)功能結(jié)構(gòu)圖
項目信息管理模塊:該模塊包含項目添加、項目修改、項目查詢。以城市地質(zhì)項目為管理單位,實現(xiàn)項目集成、項目成果管理,經(jīng)過授權(quán)的用戶可以通過該模塊查詢到相關(guān)項目的所有成果數(shù)據(jù)。
數(shù)據(jù)集成模塊:該模塊集成各城市地質(zhì)專題數(shù)據(jù),目前系統(tǒng)內(nèi)置了四個專題的數(shù)據(jù),分別是水文地質(zhì)、工程勘察、礦產(chǎn)勘察和地質(zhì)災(zāi)害數(shù)據(jù)。系統(tǒng)用戶通過專題圖層分層瀏覽,實現(xiàn)上傳下載、瀏覽查詢相關(guān)資料。導(dǎo)入的數(shù)據(jù)類型包括shapefile格式的背景圖、專題圖,pdf文本報告,excel和access數(shù)據(jù)表等。
數(shù)據(jù)可視化模塊:該模塊包含背景圖加載、專題圖加載、文檔管理和數(shù)據(jù)表管理。按時間、項目、區(qū)域、資料類型查詢文本資料,以列表方式列出滿足條件的查詢結(jié)果,用戶可以查看選定數(shù)據(jù)的詳細信息。
統(tǒng)計分析模塊:該模塊包含項目統(tǒng)計分析、區(qū)域統(tǒng)計分析和圖表展示。分項目或區(qū)域?qū)Ω黝悓n}數(shù)據(jù)進行統(tǒng)計分析,如項目數(shù)量、鉆孔數(shù)量、地質(zhì)災(zāi)害類型等。以圖表的方式將用戶所選擇感興趣的項目數(shù)據(jù)通過統(tǒng)計圖、曲線等方式直觀的展示,提供實時刷新、定時刷新及手動刷新等功能。
系統(tǒng)管理模塊:包含數(shù)據(jù)類型管理和權(quán)限管理功能。數(shù)據(jù)類型管理是指通過該功能添加更多的專題地質(zhì)數(shù)據(jù)類型,如區(qū)域地質(zhì)調(diào)查數(shù)據(jù)、遙感數(shù)據(jù)等。權(quán)限管理模塊是指按照用戶級別對用戶權(quán)限進行對應(yīng)的匹配。
本文通過將地質(zhì)調(diào)查工作中獲取到的地質(zhì)資源、地質(zhì)環(huán)境、地下空間等多源異構(gòu)海量數(shù)據(jù)建立統(tǒng)一的數(shù)據(jù)模型,依靠開源數(shù)據(jù)庫PostGIS和PostgreSQL功能,實現(xiàn)數(shù)據(jù)集成,進而實現(xiàn)用戶數(shù)據(jù)的共享,讓這些數(shù)據(jù)產(chǎn)生更大的價值。通過設(shè)計應(yīng)用原型系統(tǒng),地質(zhì)信息服務(wù)的產(chǎn)業(yè)化屬性與集群化屬性將進一步擴大,使得地質(zhì)資料具備復(fù)用開發(fā)和長期服務(wù)的功能,降低地質(zhì)工作成本,提升地質(zhì)工作效率,讓地質(zhì)工作邁入新的發(fā)展階段。