黃家凱, 熊保成, 劉勁松, 王 冕, 趙逸君, 秦麗娟, 吳恩政
(1.湖北省地質(zhì)調(diào)查院,湖北 武漢 430034; 2.湖北省地質(zhì)局,湖北 武漢 430022)
地質(zhì)科學是一個空間上涵蓋大氣圈、水圈、生物圈、巖石圈,時間上覆蓋4.6 Ga以前及其以后至現(xiàn)在并要對未來作出預測的超復雜體系。這決定了地質(zhì)大數(shù)據(jù)除了大數(shù)據(jù)的“5V”(Volume、Variety、Value、Velocity、Veracity)特性以外,還與空間、時間緊密關聯(lián),是一個超復雜的集合體(1)熊保成,關于科技創(chuàng)新與數(shù)字地質(zhì)建設的思考,湖北省地質(zhì)局學習貫徹黨的十九屆五中全會精神處級干部培訓班,2021。。從地球科學的任何一個專業(yè)方向開展的數(shù)據(jù)建模都只是地質(zhì)大數(shù)據(jù)的某一視圖,難免陷入“盲人摸象”的困境。近十幾年來,地質(zhì)調(diào)查領域開展了多個專業(yè)的數(shù)據(jù)庫建設,湖北省已建成的數(shù)據(jù)庫多達50余個,形成了豐富的地質(zhì)數(shù)據(jù)資源體系。與此同時,這些數(shù)據(jù)庫在數(shù)據(jù)融合、更新維護、挖掘應用等領域面臨挑戰(zhàn)。從大數(shù)據(jù)的角度重新審視時空地質(zhì)大數(shù)據(jù)的數(shù)據(jù)模式(schema)、物理模式與數(shù)據(jù)服務能力,對于數(shù)字地質(zhì)建設具有十分重要的意義。
地質(zhì)數(shù)據(jù)是地質(zhì)工作的真實記錄和成果的最終表達載體[1]。國內(nèi)地質(zhì)大數(shù)據(jù)建設的過程中,多采取按照信息產(chǎn)品分類來組織地質(zhì)大數(shù)據(jù)的體系(表1),主要方法是按產(chǎn)品類型劃分一級類,按專業(yè)劃分二級類,本質(zhì)是一種可生長的“樹”結構。數(shù)據(jù)內(nèi)容以成果地質(zhì)資料、文獻、數(shù)據(jù)集及其衍生品為主,通過分布式框架實現(xiàn)元數(shù)據(jù)注冊與發(fā)布,按照非結構化數(shù)據(jù)、數(shù)據(jù)庫和OGC地圖三種類型提供在線服務[2]。這種方法被其他省級地質(zhì)大數(shù)據(jù)建設廣泛參考[3],有效推動了地質(zhì)大數(shù)據(jù)的匯集與共享服務。
表1 國內(nèi)地質(zhì)大數(shù)據(jù)的數(shù)據(jù)分類體系簡表Table 1 Summary of data classification system of domestic geological big data
表1中,地質(zhì)數(shù)據(jù)是指以經(jīng)緯度坐標為基礎的某一特定專業(yè)范圍的相關空間數(shù)據(jù)的集合;地質(zhì)資料是指以項目為單位匯交的地質(zhì)資料檔案;地質(zhì)圖是指以投影平面直角坐標為基礎的含圖框、圖例、比例尺等整飾要素的電子地圖;地學科普是指面向大眾的科普讀物產(chǎn)品;文獻與出版物是指面向?qū)I(yè)技術人員的數(shù)據(jù)產(chǎn)品;技術方法與標準是指國家、行業(yè)、地方及企業(yè)的方法、標準及專利;地學軟件是指軟件產(chǎn)品;儀器設備是指地質(zhì)工作中所需要使用的各類裝備。
基于信息產(chǎn)品分類的地質(zhì)大數(shù)據(jù)具有擴充方便、兼容性強的特點,在數(shù)據(jù)檢索、知識管理與推送、專題組合應用等方面具有強大生命力。同時因為這種體系不關注分類樹葉節(jié)點上具體數(shù)據(jù)的定義與模式結構,也就決定了該體系中不可避免地存在數(shù)據(jù)模式?jīng)_突和語義沖突的問題,對于同一維度的客觀地質(zhì)現(xiàn)象存在多種來源的數(shù)據(jù),并較難判斷數(shù)據(jù)的關聯(lián)關系。
根據(jù)湖北省地質(zhì)局地質(zhì)大數(shù)據(jù)平臺建設的實踐,本文提出以下觀點:多維時空地質(zhì)大數(shù)據(jù)可以看作是以時空坐標為基礎的不同維度屬性的地質(zhì)數(shù)據(jù)矩陣。按照這個總體思路,本文對其內(nèi)涵作如下闡釋:空間三維坐標定位是時空地質(zhì)大數(shù)據(jù)體系的基礎,時間是每個專業(yè)維度屬性的一個復合數(shù)據(jù)項。時空地質(zhì)大數(shù)據(jù)體系的屬性維度數(shù)量可動態(tài)擴展,同一維度的屬性項可以是結構化數(shù)據(jù)、對象或其它任意結構體(圖1)。從上述定義可知,該結構的時空地質(zhì)大數(shù)據(jù)體系不僅具有能動態(tài)擴容、兼容性強的特點,同時還具有專題屬性鮮明、易于大數(shù)據(jù)查詢檢索挖掘的優(yōu)點。
圖1 多維時空地質(zhì)大數(shù)據(jù)體系概念圖Fig.1 Concept map of multi-dimensional spatio-temporal geological big data system
多維時空地質(zhì)大數(shù)據(jù)的空間數(shù)據(jù)屬于三維模型,三維模型的數(shù)據(jù)模式(也可叫模式)較多,主要分為基于面元的數(shù)據(jù)模型和基于體元的數(shù)據(jù)模型[4]。地質(zhì)大數(shù)據(jù)的覆蓋范圍包括大氣圈、水圈、生物圈、巖石圈,三維空間基礎模型是關聯(lián)其它維度屬性的核心。從前述的定義可知,本文所定義的多維時空地質(zhì)大數(shù)據(jù)要求采用基于體元的三維空間數(shù)據(jù)模型。體元的剖分類型又可分為規(guī)則體元和不規(guī)則體元?!兜厍蚩臻g網(wǎng)格編碼規(guī)則》(GB/T 40087—2021)基于GeoSOT(Geographical coordinate global Subdivision on One-dimension-integer and Two to nthpower)地球剖分模型,將地球空間按照經(jīng)度、維度、高程(覆蓋-6 302.106 722 602 182~528 680.171 125 243 7 km)三要素統(tǒng)一剖分為32級網(wǎng)格單元,并按統(tǒng)一編碼規(guī)則進行標識和表達,構建了網(wǎng)格化的地球空間數(shù)據(jù)組織參考框架,有效解決了海量空間信息在標識和表達上的唯一性、可讀性、尺度性和關聯(lián)性瓶頸,實現(xiàn)了多源、多尺度數(shù)據(jù)網(wǎng)格化高效組織、處理和應用。多維時空地質(zhì)大數(shù)據(jù)模型采用此方案作為三維空間數(shù)據(jù)模式。
從該模型的剖分粒度來看,第32級網(wǎng)格最大邊長為1.5 cm,地球表面共分為344 413 427 466 240萬個網(wǎng)格單元,已遠超地質(zhì)工作應用需求,也遠遠超過了當前計算機處理的能力。本文認為常規(guī)應用中最高級別選擇27級(0.5 m網(wǎng)格邊長,地球表面336 341 237 760萬個網(wǎng)格單元)即可,同時還要與具體的數(shù)據(jù)集三維空間范圍相交集。
時間是地質(zhì)現(xiàn)象的基本維度,也是地質(zhì)大數(shù)據(jù)的本質(zhì)屬性和主要內(nèi)容,地質(zhì)數(shù)據(jù)的元數(shù)據(jù)、數(shù)據(jù)集、數(shù)據(jù)項等都包含了豐富的時間信息[5]。地質(zhì)數(shù)據(jù)的時間可分為三類:一是事件時間,指地質(zhì)現(xiàn)象或事件在現(xiàn)實中發(fā)生或存在的時間;二是事務時間,指地質(zhì)現(xiàn)象或事件在數(shù)據(jù)庫中被記錄、更新、刪除的時間;三是數(shù)據(jù)時間,指地質(zhì)現(xiàn)象或事件被觀測、采集形成數(shù)據(jù)記錄的時間或事件范圍。從地質(zhì)現(xiàn)象時間的性質(zhì)出發(fā),又可分為時間點和時間段[5]。
對時空地質(zhì)大數(shù)據(jù)體系來說,最重要的是事件時間和數(shù)據(jù)時間。事件時間具有尺度不均衡性,大尺度的地質(zhì)數(shù)據(jù)采用地質(zhì)年代來表達,其余的采用年、月、日等尺度的時間單位表達,并作為維度的普通屬性項以時間點或時間段來記錄,如:地質(zhì)體的地質(zhì)年代、采礦權的有效期限等等。數(shù)據(jù)時間通常以元數(shù)據(jù)的形式采集并記錄。
時空地質(zhì)大數(shù)據(jù)體系中,某一維度的屬性可用GIS的“圖層”概念來描述,但同時又具有顯著的區(qū)別。圖層的空間數(shù)據(jù)既可以是矢量的,也可以是柵格的。本文討論的多維時空地質(zhì)大數(shù)據(jù)模型的空間數(shù)據(jù)通過多級格網(wǎng)定義,與維度數(shù)據(jù)通過格網(wǎng)編碼相關聯(lián)。因此,某一維度的屬性可類比為柵格圖層每一個像素的屬性值的集合。作為時空地質(zhì)大數(shù)據(jù),維度屬性的模式定義要符合彈性可擴容原則,即:維度的屬性可以擴充、維護,同一屬性的內(nèi)容既可以是普通的數(shù)字、字符等,也可以是嵌套的結構體。此外,本文討論的多維時空地質(zhì)大數(shù)據(jù)模型還具有多尺度的特點,即不同剖分級別對應不同的空間分辨率,相比柵格圖層具有更廣的適用范圍。
雖然從時空地質(zhì)大數(shù)據(jù)體系的設計角度來說不需要定義嚴格的維度數(shù)據(jù)模式,但是從地質(zhì)領域的業(yè)務應用角度來看,規(guī)范的數(shù)據(jù)模式是保證其上層OLTP(聯(lián)機事務處理系統(tǒng))系統(tǒng)和OLAP(聯(lián)機分析系統(tǒng))系統(tǒng)穩(wěn)定運行的前提[6]。因此,有必要按業(yè)務領域定義數(shù)據(jù)模型,亦即數(shù)據(jù)集標準。這個過程中,要充分使用國家標準、行業(yè)標準和地方標準,要充分考慮不同領域之間數(shù)據(jù)模型的交集,消除數(shù)據(jù)模式和數(shù)據(jù)語義的沖突與矛盾。
由于地球科學的系統(tǒng)性和復雜性,某些領域的數(shù)據(jù)難以直接通過空間位置表達,這類數(shù)據(jù)在維度建模過程中,需要進行適當?shù)霓D換處理和關聯(lián)應用。如文本、表格、音頻視頻等數(shù)據(jù),需要跟某一相關的空間實體相關聯(lián)進行表達。通過關聯(lián)關系實現(xiàn)上述非結構化數(shù)據(jù)基于位置的推送和服務。
從前述各維度的數(shù)據(jù)模式定義可知,本文定義的時空地質(zhì)大數(shù)據(jù)是一種可彈性擴展的半結構化數(shù)據(jù),適合采用可擴展標記語言(extensible markup language,XML)作為其存儲模式。XML是由W3C組織提出的一種用于數(shù)據(jù)存儲與交換的標準,具有簡單靈活的格式、可擴展性和強大的網(wǎng)絡交換功能,采用開放的、自描述的方式描述數(shù)據(jù)的內(nèi)容和結構[7]。
與關系型數(shù)據(jù)庫相比,采用XML文件作為數(shù)據(jù)的存儲模式具有更高的靈活性和可擴展性。因為關系型數(shù)據(jù)庫是“寫模式”(Schema On Write),一旦數(shù)據(jù)結構確定并寫入后,調(diào)整或擴展數(shù)據(jù)結構的代價往往較大[8]。此外關系型數(shù)據(jù)庫系統(tǒng)不支持Hadoop生態(tài)系統(tǒng)的計算框架,這制約了基于大數(shù)據(jù)的數(shù)據(jù)挖掘與分析。與NOSQL(MongoDB等)相比,XML具有的顯示數(shù)據(jù)定義更適合大數(shù)據(jù)分析過程中的數(shù)據(jù)序列化和反序列化,因此XML這種半結構化的數(shù)據(jù)存儲方案更適合本文所研究的多維時空地質(zhì)大數(shù)據(jù)模型。
本文采用XML的元素(element)來表達時空地質(zhì)大數(shù)據(jù)的屬性,采用標記(tag)來描述屬性。以湖北省武漢市某地(坐標:114°13′27.2″,30°35′42.8″,假定高程采用參考橢球表面)為例,描述其地層信息的數(shù)據(jù)存儲模式如表2所示,其XML編碼如下。
表2 時空地質(zhì)大數(shù)據(jù)的地層維度屬性描述表Table 2 Stratum dimension attribute description table of spatio-temporal geological big data
以XML文件作為基本單元設計存儲的物理模式還要考慮文件數(shù)量瓶頸。因為三維空間多級剖分的格網(wǎng)數(shù)量極其龐大,若XML文件劃分的粒度過細,將會形成海量的XML小文件。大量的XML小文件將對大數(shù)據(jù)存儲系統(tǒng)造成壓力[9],不利于大數(shù)據(jù)的挖掘。因此XML文件應以合適數(shù)量的格網(wǎng)作為集合來組織。根據(jù)經(jīng)驗,本文建議以百萬量級格網(wǎng)作為上限區(qū)間,可將格網(wǎng)等級12級以內(nèi)(含12級)的網(wǎng)格組織到一個XML文件中;高于12級的按照四分的原則分別組織并以格網(wǎng)編碼區(qū)間規(guī)則命名,方便計算機空間檢索。對一個較小的覆蓋區(qū)域來說,可根據(jù)其面積占全球的比例相應提高XML文件的格網(wǎng)級別。
多維時空地質(zhì)大數(shù)據(jù)的物理模式為一系列的XML文件,這些文件在應用過程中將被頻繁的查詢、讀取和更新。傳統(tǒng)的文件系統(tǒng)無法滿足需求,需要一種分布式的大數(shù)據(jù)管理系統(tǒng)來支撐,Hadoop HDFS是較為適合的選擇,并可通過其MapReduce或Spark分布式計算框架實現(xiàn)數(shù)據(jù)的分布式計算服務。
Hadoop HDFS主要由NameNode和一系列DataNode組成,其中NameNode管理HDFS的目錄樹和相關的元數(shù)據(jù)文件,DataNode存儲數(shù)據(jù)塊[10-11]。同一份數(shù)據(jù)塊通常分為多個副本,存儲在不同的DataNode上,以確保數(shù)據(jù)的高可用性(圖2)。
圖2 多維時空地質(zhì)大數(shù)據(jù)Hadoop HDFS結構簡圖Fig.2 Structure diagram of multi-dimensional spatio-temporal geological big data Hadoop HDFS
基于HDFS分布式文件系統(tǒng),多維時空地質(zhì)大數(shù)據(jù)的查詢、讀取和更新等操作,可以抽象成對XML文檔數(shù)據(jù)的MapReduce處理過程。MapReduce分布式計算框架將用戶請求分解(Map)成分布式任務,由各節(jié)點并行執(zhí)行得到中間結果,然后再執(zhí)行匯總合并任務(Reduce),向用戶輸出最終結果(圖3)。MapReduce框架是基于批處理的非實時模式,如果用戶對計算任務有較高的實時性要求,可采用近實時的Spark計算框架[12]。
圖3 多維時空地質(zhì)大數(shù)據(jù)分布式計算過程圖Fig.3 Distributed computing process chart of multi-dimensional spatio-temporal geological big data
建立多維時空地質(zhì)大數(shù)據(jù)模型的最終目的是提供數(shù)據(jù)服務。本文的多維時空地質(zhì)大數(shù)據(jù)模型與GIS平臺實現(xiàn)了解耦,XML格式的數(shù)據(jù)模型非常適合計算機自動化處理,在分布式計算框架的支持下可提供廣泛的數(shù)據(jù)服務,包括基于位置的專題地質(zhì)屬性數(shù)據(jù)服務和數(shù)據(jù)挖掘服務等。
多維時空地質(zhì)大數(shù)據(jù)剖分格網(wǎng)隱含表達了地理空間位置,因此非常容易提供基于地理空間位置的多尺度的專題地質(zhì)屬性數(shù)據(jù)服務。地理空間位置的查詢不依賴于GIS平臺,可方便地通過格網(wǎng)編碼雙向解析,其服務的流程如圖4所示。
圖4 基于地理空間位置的專題地質(zhì)屬性數(shù)據(jù)服務流程圖Fig.4 Flow chart of geological attribute data service based on geological location
專題地質(zhì)屬性數(shù)據(jù)服務通過Web API提供,客戶端將地理空間位置(經(jīng)度、維度、高程)和請求的圖層名稱、屬性名稱作為參數(shù)傳遞給應用服務網(wǎng)關,后者將地理空間位置轉換為格網(wǎng)編碼,連同其它參數(shù)傳遞給分布式計算程序,然后由分布式計算框架在HDFS的支持下完成任務分解調(diào)度(Map過程)。各節(jié)點的查詢結果經(jīng)合并(Reduce)后,由分布式計算程序?qū)Y果按照XML或JSON進行編碼,最后由應用服務網(wǎng)關返回給客戶端。
基于多維度的時空地質(zhì)大數(shù)據(jù)模型,可以有效地支撐深度學習所需要的數(shù)據(jù)集輸入需求。地質(zhì)體屬性與空間位置緊密關聯(lián),因此采用深度學習方法來研究解決地質(zhì)問題的過程中大多需要將輸入數(shù)據(jù)網(wǎng)格化,并通過緩沖區(qū)運算分析空間相關性[13]。本文將地質(zhì)大數(shù)據(jù)的空間位置及其拓撲關系通過格網(wǎng)編碼實現(xiàn)了有規(guī)律的量化隱含表達,有效解決了空間數(shù)據(jù)的輸入問題,并降低了空間運算的復雜程度。此外,基于HDFS分布式文件系統(tǒng)的XML格式專題屬性數(shù)據(jù)可為深度學習提供快速、便捷的數(shù)據(jù)輸入源,實現(xiàn)數(shù)據(jù)的高效解析,從而有效地提高地質(zhì)大數(shù)據(jù)挖掘服務能力。
本文提出的基于多級剖分模型的多維時空地質(zhì)大數(shù)據(jù)具有結構清晰、易于彈性擴充、兼容性強的特點,剖分網(wǎng)格從空間上覆蓋全球尺度到厘米尺度,維度屬性模型兼容結構化和半結構化數(shù)據(jù),基于XML和Hadoop HDFS的物理模式可滿足海量數(shù)據(jù)存儲以及大數(shù)據(jù)分析挖掘。該模型在分布式計算框架的支持下可方便地應用于基于地理空間位置的多維度地質(zhì)屬性數(shù)據(jù)服務和數(shù)據(jù)挖掘服務,作為地質(zhì)大數(shù)據(jù)體系在數(shù)據(jù)匯聚、標準化和數(shù)據(jù)服務過程中的參考。
因研究時間所限,本文尚未對多維時空地質(zhì)大數(shù)據(jù)模型進行實驗驗證。后續(xù)研究過程中,將進一步采用大數(shù)據(jù)技術驗證三維空間剖分技術,開展維度屬性模型的離散化處理的技術驗證,試點開展屬性數(shù)據(jù)服務和數(shù)據(jù)挖掘服務,進一步證明該模型的高效性與實用性。